搜索资源列表
FreeICTCLAS.zip
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
v.206(预处理)
- lex语法分析,对BNC语料库进行文本标注前的预处理,将与SGML标注与文本词性标注无关的删除掉-this is lex syntax analyzing,annotate with BNC syntax LIB.
PcfgParser
- 1. 先打开规则库,读入规则集 (可比较两个规则文件rule1.txt 和 rule2.txt的差异) 2. 选择经过分词和词性标注的文件,进行句法分析 3. 分析结果文件与测试文件在同一个目录下,文件后缀名为 .pcfg 4. 分析结束后,同时产生一个新的规则文件,后缀名为.new, 可以观察规则概率值和期望次数的变化 5. 分析结果逐个以树形图方式显示,如果一个句子有多个结果,在显示框中同时显示。-1. Accounting rules to open, read the r
hlssplit
- 海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能-sky Intelligent Word system source code, according to the need for segmentation of granularity, the provision of tagging, keyword extraction functions
maxent-2.4.0
- 基于统计的文本分析中,最为常用的最大熵算法,可直接调用,广泛用于词性标注,词义消岐等-based on statistical analysis of the text, the most commonly used of maximum entropy algorithm, can be called directly, widely used in tagging, Words such as Consumers qi
maxent-20041229[1].win32
- 文本分析中基于统计的方法中,最为常用的最大熵算法,该源码为Python版,广泛应用于词性标注,词义消岐等领域-text analysis based on statistical methods, the most commonly used of maximum entropy algorithm, the source code for Python version, widely used in tagging, Meaning Consumers divergent fields
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97
MM2
- 正向最大切分法+词性标注源码-being the largest segmentation method tagging source
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
POS_tagging_and_HMM
- 词性标注与隐马尔可夫模型.ppt,相当好的说明材料。-part-of-speech tagging and Hidden Markov Model. Ppt, very good descr iptive material.
wordpos
- 给定带有分词和词性标注信息语料,从中总结单词的词频,并按照出现次数排序输出-given with sub-term and part-of-speech tagging information corpus, it is concluded that the words and phrases, and in accordance with the order of the output frequency
postag_convert
- 一个集分词、词性标注和格式转换的强大的工具包-a word, part of speech tagging format conversion and a powerful tool kits
windows_c_32.rar
- 中国科学院的最新版本的中文分析程序,可以进行分词、词性标注等,The latest version of the Chinese Academy of Sciences of the Chinese language analysis procedures, can be sub-word-of-speech tagging, etc.
fenci
- 基于HMM的词性标注程序,包含了HMM思想的核心,稍作修改就可以移植-HMM-based speech tagging process, including the ideological core of HMM, a little modification can be transplant
ICTCLAS_JAVA
- 使用汉语分词系统ICTCLAS_JAVA版本进行中文分词、词性标注-Use of Chinese word segmentation system ICTCLAS_JAVA version of Chinese word segmentation, POS tagging
HMM
- 基于应隐马尔科夫模型的词性标注实现,Viterbi算法实现 -Should be based on hidden Markov models to achieve part of speech tagging, Viterbi algorithm
Models_v1_v2
- 对中文文本进行分词,词性标注。训练模型,根据模型训练学习分词。(participle Part of speech tagging)
199801
- 人民日报语料,分词和词性标注POS的语料(Chinese corpus for Word segmentation and par of speech)
CorpusWordParser
- 语料分词和词性标注软件。 软件只支持打开文本格式(.txt)的文件,其他类型文件需先另存为文本文件格式后再处理。 软件可以自动识别、处理文本文件的不同字符编码(GB或Unicode等)。(Word segmentation and part of speech tagging software. Software only supports files that open text format (.Txt), and other types of files need to be sav
HMM-master
- python实验中文词性标注,包括预处理,实验数据为新闻语料。(Chinese word pos-of-speech with python)