搜索资源列表
TIMIT
- TIMIT的一部分语料库,不是很全,刚从网上下载的希望对大家有所帮助-Part of the corpus of TIMIT, not very full, just downloaded we want to be helpful.
AIMLTest
- 此程序采用AIML实现机器对话,当你问问题的时候,他会做做相应的回答。文件里面包含以下简单的语料库进行测试,如果做对话的可以了解下。-This program uses AIML machine dialogue, when you ask questions, he will be doing the appropriate answer. File which contains the following simple corpus for testing, if the dialogue
pfr199801
- PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。为了促进中文信息处理研究的发展,我们三方计划公开PFR语料库。作为公开的前期工作,从4月3日起,在我们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。如果您在研究或论文工作中使用PFR语料库,请注明来
segment
- 用最大匹配法对汉语进行自动分词 seg.py 分词的实现 accuracy.py 分词性能评估 PD_1998_01_POS.txt ”人民日报“语料库-Automatically the word seg.py segmentation achieve maximum matching of Chinese accuracy.py word performance assessment PD_1998_01_POS.txt " People' s Daily"
pos_tag
- 用viterbi方法进行词性标注 pos_tag.py 词性标注 evaluate.py 词性标注性能评估 PD_1998_01_POS.txt ”人民日报“语料库 标准词性标注结果.txt 语料库中后10 的数库(分词+词性标注)-Using the viterbi methods for part-of-speech tagging pos_tag.py part-of-speech tagging the evaluate.py speech tagging perform
fenci
- 利用HMM,针对《1998年人民日报》语料库进行研究,最终实现了中文语句的自动分词-By HMM, research, and ultimately the Chinese statement for the 1998 People' s Daily " Corpus automatic segmentation
pu1
- 用于机器学习中垃圾邮件过滤的垃圾邮件语料库-For machine learning in spam filtering spam corpus
computer-voice-input
- 将语音录入问题分为三个模块进行研究:语音识别模块、 字转换模块和语料库建立模块。-Voice recording is divided into three modules for research: speech recognition module, word conversion module and corpus creation module.
Speech-Corpus
- 声语音连续语音语料库,包含用于语音识别培训和测试的数据-Voiced speech continuous speech corpus, contains the data for the voice recognition training and testing
TFIDF
- 语料库中计算tfidf的值。java开发完成。-Corpus tfidf calculated value. java development is completed.
bayes-network-for-classication
- 利用朴素贝叶斯网络来训练语料库,得到理想模型-bayes network for classication
Bible_corpus
- 中英文圣经的全文语料库,供自然语言处理用的宝贵资料-The full text of the Bible in English corpus for natural language processing valuable information
ygrx
- 这是一个简单的中文分词程序,可以在没有语料库的情况下通过各个词语的相关度将中文词汇抽取出来-A simple Chinese segmentation procedures, speed is also good
libsvm实现文本分类源程序
- libsvm实现文本分类源序,其中: 1.0Beta ,是打包好的可执行的jar文件,运行前需要配置一下,具体看目录下的README.TXT; 程序工程,是源代码,不过并不是和1.0Beta里面的完全一致; 实验样例,用来进行试运行的文本文件; 语料库,包含了3000多份文档的语料库,用"抽取"将在单个文档中的多个类型的文本提取到ouput目录下
SogouC.reduced.20061102.tar
- 搜狗语料库,用于文本分类 数据挖掘 机器学习里面非常有用-Sogou corpus for text classification data mining machine learning which is very useful
automatic-word-segmentation
- 实现一个中文自动分词程序,所使用的编程语言不限 选作:对人名,地名,机构名的识别 下载北大计算语言所标注的99年人民日报分词语料库,构建一个词表 实现正向、逆向最大分词算法-To implement a Chinese automatic word segmentation procedure, used by any programming language Chosen for: the person names, place names, organization name
natural-language-processing
- 统计自然语言处理PPT-刘挺 中科院自动化研究所、模式识别国家重点实验室的 介绍的内容有统计机器翻译、词法分析与词性标注、语料库与词汇知识库-Statistical Natural Language Processing PPT-Ting Liu Institute of Automation, Chinese Academy of Sciences, State Key Laboratory of Pattern Recognition content presentation of
lda-c
- LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为
616341
- 中文文本语料库 适合中文文本分类使用 朴素贝叶斯算法整合 -Chinese text categorization corpus
CoupletSystem
- 对联系统 C++ 实现语料库中的对联效果比较好-Couplet system c++