搜索资源列表
FreeICTCLAS.zip
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
v.206(预处理)
- lex语法分析,对BNC语料库进行文本标注前的预处理,将与SGML标注与文本词性标注无关的删除掉-this is lex syntax analyzing,annotate with BNC syntax LIB.
PcfgParser
- 1. 先打开规则库,读入规则集 (可比较两个规则文件rule1.txt 和 rule2.txt的差异) 2. 选择经过分词和词性标注的文件,进行句法分析 3. 分析结果文件与测试文件在同一个目录下,文件后缀名为 .pcfg 4. 分析结束后,同时产生一个新的规则文件,后缀名为.new, 可以观察规则概率值和期望次数的变化 5. 分析结果逐个以树形图方式显示,如果一个句子有多个结果,在显示框中同时显示。-1. Accounting rules to open, read the r
hlssplit
- 海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能-sky Intelligent Word system source code, according to the need for segmentation of granularity, the provision of tagging, keyword extraction functions
maxent-2.4.0
- 基于统计的文本分析中,最为常用的最大熵算法,可直接调用,广泛用于词性标注,词义消岐等-based on statistical analysis of the text, the most commonly used of maximum entropy algorithm, can be called directly, widely used in tagging, Words such as Consumers qi
maxent-20041229[1].win32
- 文本分析中基于统计的方法中,最为常用的最大熵算法,该源码为Python版,广泛应用于词性标注,词义消岐等领域-text analysis based on statistical methods, the most commonly used of maximum entropy algorithm, the source code for Python version, widely used in tagging, Meaning Consumers divergent fields
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97
MM2
- 正向最大切分法+词性标注源码-being the largest segmentation method tagging source
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
wordpos
- 给定带有分词和词性标注信息语料,从中总结单词的词频,并按照出现次数排序输出-given with sub-term and part-of-speech tagging information corpus, it is concluded that the words and phrases, and in accordance with the order of the output frequency
postag_convert
- 一个集分词、词性标注和格式转换的强大的工具包-a word, part of speech tagging format conversion and a powerful tool kits
PcfgParser
- 1. 先打开规则库,读入规则集 (可比较两个规则文件rule1.txt 和 rule2.txt的差异) 2. 选择经过分词和词性标注的文件,进行句法分析 3. 分析结果文件与测试文件在同一个目录下,文件后缀名为 .pcfg 4. 分析结束后,同时产生一个新的规则文件,后缀名为.new, 可以观察规则概率值和期望次数的变化 5. 分析结果逐个以树形图方式显示,如果一个句子有多个结果,在显示框中同时显示。
POSTagger
- 中文信息处理方面的一个源码。此为一个词性标注软件,需要有事先做好的词典的支持。功能强大,代码简洁易懂。
CRFTagger-1.0.tar
- 一个利用条件随机场(CRF)开发的词性标注工具包
07S051098
- 通过隐马尔可夫模型做词性标注,即给定一个句子,得到它的最优词性序列
word_pos
- 中文词性标注子程序第一步,将测试文本加入词性标记集、词语标记集、标记同现集,VFP源码
35738632Skin++crake
- 中文词性标注子程序第一步,将测试文本加入词性标记集、词语标记集、标记同现集,VFP源码..
1994822003101203283828270
- 中文词性标注子程序第一步,将测试文本加入词性标记集、词语标记集、标记同现集,VFP源码..
windows_c_32.rar
- 中国科学院的最新版本的中文分析程序,可以进行分词、词性标注等,The latest version of the Chinese Academy of Sciences of the Chinese language analysis procedures, can be sub-word-of-speech tagging, etc.
HMM-master
- python实验中文词性标注,包括预处理,实验数据为新闻语料。(Chinese word pos-of-speech with python)