搜索资源列表
jiyusimfenlei
- 基于SVM的文档分类,运行平台:Visual C++ 6.0和基于libsvm的编程环境下,应用Reuters-21578语料库对系统进行评测。-SVM-based document classification, operating platforms : 6.0 and Visual C libsvm-based programming environment, Application Reuters-21578 Corpus evaluation of the system.
Wordsegmentation2
- NLP技术实现,对语料库进行自动统计生成分词词典,对训练集进行分词,列出所有的分词可能并计算每种可能的概率。请使用者自行加入语料库和测试集。-NLP technology to automatically Corpus Health Statistics ingredients dictionary, the training set for segmentation, list all the sub-term may calculate the probability of each pos
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
POSTagger
- (1)从已经标注好词性的语料中统计得到词性标记的二元转移矩阵,以及每个词以确定的词性标记出现的次数等数据(训练阶段) (2)利用动态规划算法快速选取词性标记路径,得到词性标记结果 (3)可以选择不同的词性标记集 -(1) from the good part-of-speech tagging has been the Corpus statistics to be part of speech marking the transfer of binary matrix, a
wordpos
- 给定带有分词和词性标注信息语料,从中总结单词的词频,并按照出现次数排序输出-given with sub-term and part-of-speech tagging information corpus, it is concluded that the words and phrases, and in accordance with the order of the output frequency
jiyinjiance20070407
- 1. 对给定语料估计其基音周期。 要求用MATLAB语言实现有关基音检测算法,并给出检测结果。2. 实验语料:aoYiSheng.raw 发音:“茅以升”;时长0.9s;采样率:8kHz;量化精度为16bits/sample;数据格式 LSB,MSB分析帧长:20ms(160样点)总帧数:45-1. Corpus right to set its estimated Pitch. Asked to use MATLAB the pitch detection algorithm, and
sports_veronicasun
- 1998年1月份人民日报语料中体育类文章的识别,C语言-January 1998 Corpus People's Daily Sports article identification, C Language
SegAndPosTools
- 实现语料的分割,和特征值的提取,还有bayes分类器-achieve Corpus segmentation, and eigenvalue extraction, and bayes classifier
Kappa
- 用于计算人工标注语料时,不同标注者之间的共同认知程度的Kappa值计算算法-used in the calculation of artificial tagging corpus, between different tagging common understanding of the extent of the Kappa values Algorithm
tagging
- nlp 用隐马可夫实现语料标记,并对结果进行测试
AssignMSRAWSInfo
- 为msra语料加入标记信息,以便进行后续处理,文件中有标注前和标注后的例子,很容易看懂
CRF++-0.50
- CRF++ 5.0的 source 应用在自然语言识别等领域的机器训练,对2G以上的语料不会出现内存溢出等问题
yulao.SogouT.min
- soguo公司的语料,用于文本,网页分类,很好的语料库。
Form2-26
- 从已标注的语料库中提取数据,转存在EXCEL中
countword
- 可以自动读取文章,并对其中的高频词进行统计,最终获得某类相关文章的语料库
svmcls
- 基于SVM的文本分类算法,有自己的语料库
supervisedWSD
- 利用贝叶斯分类原理实现多义词的消歧。首先利用训练语料进行训练,然后基于机器已经获取的知识的基础上对生语料进行词义标注。
TextClassification
- 帮师姐做的毕业论文:基于朴素贝叶斯的文本分类器,使用Visual C# 2005编写,文本语料库包括测试语料库和训练语料库(保存再Access数据库中)
ReadDir
- 该程序实现的是一个垃圾邮件过滤系统,方法采用的是NAIVE Bayes,语料库用的是LINspam—public,程序中有使用说明,希望大家一起探讨改进一下,
面向语言教学研究的汉语语料检索系
- 面向语言教学研究的汉语-research-oriented language teaching in Chinese