搜索资源列表
HLjava
- 海量中文分词java接口,原海量分词是C/C++平台开发的,这是java版的接口,如果提示过期,修改系统时间即可试用
MyFirstProgram
- 中文分词演示,海量科技的中文分词的词库,第一次做这样的技术,希望和大家交流
csw50
- 中文分词组件,包括三个版本,com,C和java接口。
word
- 实现中文分词,词汇表记录在WORD.TXT文件中。待分词文档为article.txt。
je-analysis-1.4.0
- 基于java的中文分词系统,直接更改扩展名为jar即可。暂无源码提供
xiangliangmoxing
- 实现中文分词的向量模型统计,是实现搜索引擎的一项基本技术
WordSeg
- 中文分词C++程序,使用前先导入词典Lexicon_full.mdb
KTDictSeg_v1.2.02
- KTDictSeg 一种简单快速准确的中文分词方法
zhongwenfenci
- 讲述面向信息检索的中文分词程序的PDF文档,
ChineseAnalyzer
- lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。
segment
- 中文分词的perl代码。 可识别人名(包括外国人名)、数字等。
zhongwenzidongfenciyanjiu
- 关于中文分词算法基本研究的介绍,综合的介绍了中文自动分词的原理及一般算法。
03114726392
- 中文分词,中科院分词的改装版。使用java调用dll来实现的。
word_vc
- vc++实现的基于字典的中文分词算法,基于贝耶斯网络的概率中文分词算法,以及文本相似程度比较的算法。
framework
- 基于最短路径的中文分词,自己写的,不足之处仅供参考。
baidu
- 百度以前用的中文分词词典,希望对大家有一点帮助
2txt_ictclas
- pdf,html,ps等转txt的头文件和库。还包括ictclas中科院计算所的中文分词工具有.h和.lib和.d
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
ictclas4j
- 基于中科院的ICTCLAS实现中文分词系统 开发工具是JAVA.经测试,效果很好
WordSeg
- 这是一个中文分词程序。用户将中文文件(.txt)打开,点分词后可看到分词结果。开源。