搜索资源列表
汉语分词
- 汉语分词系统,对中文语句进行识别,然后分词,是很好的自然语言理解的例子-Chinese word segmentation system, the Chinese phrase for identification, then Word, is a very good natural language understanding examples
luncene查询分析器中文词典
- 中文分词词库
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
Lucene.rar
- lucene建立索引,中文搜索,搜索内容先经过分词,然后搜索,lucene index, Chinese search, search through the contents of the first word, and then search
windows_c_32.rar
- 中国科学院的最新版本的中文分析程序,可以进行分词、词性标注等,The latest version of the Chinese Academy of Sciences of the Chinese language analysis procedures, can be sub-word-of-speech tagging, etc.
ChineseWordSeg
- 采用最大概率法的中文自动分词软件,分词准确率达到70 以上。-Maximum probability method of Chinese word segmentation software, word accuracy rate of 70 .
2
- c#中文分词源码,基于词频,词性等,可提取自定义数量的关键词-Chinese word c# source code, based on word frequency, part of speech, can customize the number of keywords extracted
windows_JNI_32bit
- ICT分词程序接口 用以进行中文文本分词,词性标注。-ICT segmentation program interface for the conduct of the Chinese text word segmentation, POS tagging.
ParseWord
- 根据自然语言处理方法中的左端最大的方法对中文进行分词-Natural language processing methods in accordance with the methods of the extreme left of the largest Chinese word segmentation
WordSegTest
- 该软件的主要功能是可以帮助我们进行中文的分词和对一些词性的分析。-this software is used for Chinese sorted.
zdfc
- 对中文语句进行分词的一个源码,利用正向匹配算法进行处理-Statements for the Chinese word for a source
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
jieba-0.39
- Python非常强大的中文分词包,用于自然语言处理。(Python is a very powerful Chinese word wrapper for natural language processing.)
cppjieba-master
- 结巴分词,提供针对中文的分词方法,使用C++语言编写(jieba provides a word segmentation method for Chinese, which is written in the C++ language)
paoding-analysis-2.0.4-beta
- paoding-dic-home.properties是庖丁解牛中文分词的配置文件 庖丁解牛分词器是基于lucene的中文分词系统的软件。(Paoding-dic-home.properties is Chinese Paodingjieniu participle configuration file Is Chinese Paodingjieniu segmentation segmentation system based on the Lucene software.)
ansj_seg-master
- 一个很好的中文分词工具,其中使用了CRF做词性标注以及新词发现(A good Chinese word segmentation tool, in which CRF is used for part of speech tagging and new word discovery.)
Chinese Word Segementation
- 根据所给中文词典,对中文文本进行正向最大匹配分词,其中包括读取文本,并对其分词(According to the Chinese dictionary, the Chinese text is given a positive maximum matching word, which includes the reading of the text and the participle of the Chinese text.)
20180306142010_ICTCLAS2016分词系统下载包
- 供中文文本挖掘程序员使用,训练文本挖掘能力(Chinese Corpus, used to exercise and test your ability of digging in Chinese Text)
icwb2-data
- 中文分词数据,含有as、 cityu、msr、pku数据,包括测试集、训练集(Chinese word segmentation data)
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.py reference 维特比算法:(python