搜索资源列表
word_vc
- vc++实现的基于字典的中文分词算法,基于贝耶斯网络的概率中文分词算法,以及文本相似程度比较的算法。
framework
- 基于最短路径的中文分词,自己写的,不足之处仅供参考。
baidu
- 百度以前用的中文分词词典,希望对大家有一点帮助
2txt_ictclas
- pdf,html,ps等转txt的头文件和库。还包括ictclas中科院计算所的中文分词工具有.h和.lib和.d
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
WordSeg
- 这是一个中文分词程序。用户将中文文件(.txt)打开,点分词后可看到分词结果。开源。
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
Uindex.Src
- Uindex是一个开放源代码的搜索引擎,网页搜索量定位在千万量级,目前提供从蜘蛛程序、中文分词到建立全文索引的全部工具程序,FTP搜索提供基于文件名的检索,支持常见的FTP服务器。
SentenceSplitter
- .NET写的中文分词组件, 适用于小型搜索引擎中文分词。
fc_src
- 中文分词?形姆执手 形姆执蔶ava版
MMSeg
- 分词算法描述,用于中文分词,供大家参考,互相学习
k50RVZDojs03
- 基于IKAnalyzer分词算法的准商业化Lucene中文分词器
Lexicon_full_2000
- 这是一个词库,对于那些做中文分词的人很有帮助的,是2000年的
ACWPS_55824
- 中文分词系统,有兴趣的,可以下载,研究下,
lucene+mysql+eclipe
- lucene+mysql+eclipe开发实例,实现了分页和中文分词。欢迎交流qq:276367673
WordSpli
- 基于ictclas的中文分词系统在Eclipse3.3中的使用例子
IKAnalyzer
- IKAnalyzer是中文分词工具,基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,这个是.Net版本,含有源代码
lunce-IKAnalyzer
- 中文分词工具,利用lucence的接口写的,进行最长匹配,正向和反向匹配后根据词数选择。别人写的,我用了,觉得不错,简单,上手快
ChinesePase
- 好用的中文分词算法 好不容易才搞到的 好用的中文分词算法
segment
- segment,一个简单的中文分词程序,命令行如下: java -jar segmenter.jar [-b|-g|-8|-s|-t] inputfile.txt -b Big5, -g GB2312, -8 UTF-8, -s simp. chars, -t trad. chars Segmented text will be saved to inputfile.txt.seg