搜索资源列表
lda-c
- LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为
616341
- 中文文本语料库 适合中文文本分类使用 朴素贝叶斯算法整合 -Chinese text categorization corpus
JnaTest_V1
- 基于中科院NLPIR分词系统做的分词以及新词发现系统,第二十届全国信息检索学术会议(CCIR2014)题目2.3,微博新词发现与情感分析的源码,可处理大语料的微博出局-Based on NLPIR Chinese Academy of Sciences, to solve the problem CCIR2014,Blog content s new words discover and sentiment classify.
PMl-IR
- Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了—种基于PMI—IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本 中的情感要素和背景情感词之问的点互信息值,从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中-心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比准确率和召回率都有了较大的提高。-Development ofBIog texts info
signal
- 制作不同信噪比的语料程序,还包含wav 和raw格式之间的相互转换程序-Produce different SNR corpus procedures, the program also includes mutual conversion between formats wav and raw
word2vec
- word2vec:谷歌的开源项目,实现从词语到向量的转换(word to vector),Linux系统下运行,需要较大规模的语料资源用作训练才能体现出很好的效果(中英文均可),并且可以实现测量两个词语之间的距离(cos值表示),词语聚类等。-word2vec: Google' s open-source projects, a word-to-vector conversion (word to vector) running under Linux system, requires
CoupletSystem
- 对联系统 C++ 实现语料库中的对联效果比较好-Couplet system c++
nlp
- nlp中的词频统计,功能是统计语料库中的词频。 以及基于隐马尔可夫的音字转换系统-nlp the frequency statistics, the function of word frequency statistics corpus. As well as audio-based Hidden Markov word conversion system
RDF3X-a-RISCstyle
- RDF是为了模式自由的信息提供的一种数据表达方式,在语义网语料库、生命科学、web2.0平台上发展迅速。-RDF is a data in order to model the freedom of expression of information provided by the rapid development of the Semantic Web corpora, life sciences, web2.0 platform.
lankasite2
- 兰卡斯特汉语语料库,做NLP、文本处理之类的可以用得上-Lancaster Chinese corpus, NLP can do lingua franca
ngramtool-20040527-mingw32-static
- 在Windows环境下,可以对大规模语料进行n-gram统计,并且可以删除冗余子串。-In the Windows environment, you can carry out a large-scale corpus based n-gram statistics, and you can held redunction of substring.
VQ
- 实现了基于VQ的语音识别系统,里面有自己录的语料,可以实时的录入并识别十个数字的单音字,作为语音识别的初学很有帮助-Realized VQ-based speech recognition system, which has its own record of corpus, real-time entry and word recognition tone ten digits, as speech recognition beginners helpful
Encrypt
- 单字母加密,基于特征值,英语 语料库(词汇量7万左右)-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)
Segmenter.tar
- 基于条件随机场的越南语分词,语料来于越南语网站的新闻爬取-Vietnamese word segmentation based on conditional random field
bayes
- java实现朴素贝叶斯中文文本分类器。自带分类语料和实验报告。功能完整。-java implement Naive Bayes Chinese text categorization. Own classification corpus and test reports. Full-featured.
dataset_602123
- 酒店情感分析语料库,包含neg和pos的分类-Hotels Corpus sentiment analysis, including classification neg and pos
jrxbck
- 用于数据分析的金融细胞词库,详细收集了金融行业的细胞词用户语料分析-For financial cell thesaurus data analysis, detailed analysis of cell collected corpus word user of the financial industry
WPCrawler
- 网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是Heritrix和Apache Nutch。 有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处理项目搜集语料,或者为模式识别项目搜集图片等等,就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
Southeast-Asia
- 这是部分东南亚方面的涉华语料,可以用来分析东南亚与中国方面情况-This is part of the southeast Asia in terms of marking corpus, which can be used to analyze situation in southeast Asia and China
quanwenjiansuo
- 全文检索程序,最长匹配,可以立刻找到所有出现的句子,需要语料库,(例如人民日报)。-text retri procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People' s Daily).