搜索资源列表
transfer.py.tar
- 通过Unicode内码值计算,将中文全角标点符号转换为中文半角标点符号的Python脚本,可用于统一语料中的标点符号全半角。-Code value in Unicode within the Chinese full-width punctuation into Chinese half-width punctuation Python scr ipt can be used for the width of a unified corpus of punctuation.
Guess
- 自然语言处理程序,读入一段文本,进行猜字。根据前文文本,采用3元文法或者4元文法(可选),进行逐个猜字,并计算猜字准确率。训练文本为1998年1月人民日报整理语料。-Natural language processing program that reads a piece of text, to guess the word. According to the former text, using a 3 gram or 4 gram (optional), conducted by-gues
identified-in-set
- 基于MFCC参数和DTW算法的语音识别算法,对0-9这十个数字的中文发音进行识别。该程序对特定的五个人做集合内的识别,程序中已有语料。-The MFCC parameter and DTW algorithm-based speech recognition algorithm, the 0-9 ten digits Chinese pronunciation recognition. The program on five specific identification collection
identified-out-of-set
- 基于MFCC参数和DTW算法的语音识别算法,对0-9这十个数字的中文发音进行识别。该程序对特定的三个人的声音做训练,并用来识别这三个人之外的30个人的发音,即特定人的集合外的识别,程序中已有语料。-The MFCC parameter and DTW algorithm-based speech recognition algorithm, the 0-9 ten digits Chinese pronunciation recognition. Do training of the progr
TIMIT
- TIMIT的一部分语料库,不是很全,刚从网上下载的希望对大家有所帮助-Part of the corpus of TIMIT, not very full, just downloaded we want to be helpful.
ChineseSegment
- 一个完整的中文分词程序,有源码,词典,训练集。算法简洁高效,准确率高。包含了一种将标注语料和词典融合的新型分词方法。将语料分割为2:1为训练集和测试集,加上一个外部词典,准确率可以达到95 。适合入门者学习。也适合需要一个简单分词工具的应用。-A Chinese word segmentation procedures, source, dictionary, the training set. The algorithm is simple and efficient, high accura
pinyin_python
- 能将任一分过词的文章,进行去重、排序,转换为拼音、将拼音转换为音素。可用于汉语语音识别前的语料准备。代码已在python 2.7上运行通过。-Able to any one point of the cross-word article, de-emphasis, sort, convert Pinyin Pinyin conversion to phonemes. Can be used for the corpus preparation before the Chinese speech
AIMLTest
- 此程序采用AIML实现机器对话,当你问问题的时候,他会做做相应的回答。文件里面包含以下简单的语料库进行测试,如果做对话的可以了解下。-This program uses AIML machine dialogue, when you ask questions, he will be doing the appropriate answer. File which contains the following simple corpus for testing, if the dialogue
pfr199801
- PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。为了促进中文信息处理研究的发展,我们三方计划公开PFR语料库。作为公开的前期工作,从4月3日起,在我们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。如果您在研究或论文工作中使用PFR语料库,请注明来
segment
- 用最大匹配法对汉语进行自动分词 seg.py 分词的实现 accuracy.py 分词性能评估 PD_1998_01_POS.txt ”人民日报“语料库-Automatically the word seg.py segmentation achieve maximum matching of Chinese accuracy.py word performance assessment PD_1998_01_POS.txt " People' s Daily"
pos_tag
- 用viterbi方法进行词性标注 pos_tag.py 词性标注 evaluate.py 词性标注性能评估 PD_1998_01_POS.txt ”人民日报“语料库 标准词性标注结果.txt 语料库中后10 的数库(分词+词性标注)-Using the viterbi methods for part-of-speech tagging pos_tag.py part-of-speech tagging the evaluate.py speech tagging perform
Text-Classification_libSVM
- 用seg进行分词 输入参数一:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。 注意:必须每篇文章在一个txt文本中。 输入参数二:输入存储分词后的结果文件所在的文件夹路径:如:result//text。注意:不需要加* 本工具采用了中科院的中文分词工具,ICTCLAS,请自行到ICTCLAS官网下载该工具。并把Data文件夹,Configure.xml,ICTCLAS30.h,ICTCLAS3
fenci
- 利用HMM,针对《1998年人民日报》语料库进行研究,最终实现了中文语句的自动分词-By HMM, research, and ultimately the Chinese statement for the 1998 People' s Daily " Corpus automatic segmentation
NER
- 一个简单的基于OpenNLP的命名实体识别系统,语料采用CoNLL-2002-A simple named entity recognition system based on OpenNLP corpus of CoNLL-2002
pu1
- 用于机器学习中垃圾邮件过滤的垃圾邮件语料库-For machine learning in spam filtering spam corpus
computer-voice-input
- 将语音录入问题分为三个模块进行研究:语音识别模块、 字转换模块和语料库建立模块。-Voice recording is divided into three modules for research: speech recognition module, word conversion module and corpus creation module.
Speech-Corpus
- 声语音连续语音语料库,包含用于语音识别培训和测试的数据-Voiced speech continuous speech corpus, contains the data for the voice recognition training and testing
RMM
- 这个是RMM算法,支持正向、逆向最大匹配,是自然语言处理的重要算法之一,只要替代程序中的词库即可。本词库取自1988年人民日报语料材料,算法对中文分词精确度达到90 以上-This is RMM algorithm supports forward, reverse maximum matching, natural language processing algorithm, as long as the alternative procedures thesaurus can. The th
bhav-saar-master
- 一种自然语言处理的算法 用于情感分析 将一篇文章以关键字的角度来区别正面负面 已经添加了中文词典,可以对中文使用(请对语料先分词)-A natural language processing algorithm for sentiment analysis will be an article with keywords to distinguish between the positive and negative perspective has been added Chinese dict
TFIDF
- 语料库中计算tfidf的值。java开发完成。-Corpus tfidf calculated value. java development is completed.