搜索资源列表
TextCategorization
- 基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。-based on Bayesian algorithms to achieve the Chinese text classification procedure. Can the Chinese text classification identification, the us
MySeg
- 最短路径法分词程序。将中文句子经过原子切分后生成一个有向无环图,然后使用Dijkstra算法求出由起点到终点的最短路径以实现中文分词。-shortest path method participle procedures. Chinese Sentence will be read after splitting atoms generated a directed acyclic graph. then use the Dijkstra algorithm derived from the s
SegmentRAM
- 1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。-1. Based on luncene inverted index format of high-performance data access interface Index. 2. A number of Chinese word segmentation algorithm of.
ShootSearch_path_for_bate_1.0
- 一段关于中文信息分类的分词算法,他实现了信息过滤中的分词,为信息过滤的分类打下基础-section on the classification of information in Chinese word segmentation algorithm, he realized the information filtering the word, Information filtering to lay the foundation for the classification
myKbest_0513
- 中文分词, N-最短路径算法 ICTCLAS研究学习组 http://groups.google.com/group/ictclas?msg=subscribe-Chinese word segmentation, N-shortest path algorithm ICTCLAS Studies Group http : / / groups.google.com / group / sub ictclas msg = scribe
zhongqijiancha
- 中文分词的基本实现功能,带有界面的处理,实现文件内容的分词,可以计算算法处理时间-Chinese word basic function and interface with the processing, and the contents of the paper, the sub-term calculation algorithm processing time
mmseg-v0.1
- 基于词典和最大匹配算法的的中文分词组件,达到很好的分词准确率-Dictionary and the largest based on the matching algorithm of the Chinese word segmentation components, to achieve good word accuracy rate
AutoSpliter
- 用于中文分词的算法。包括逆向分词和反向分词-for Chinese word segmentation algorithm. Including reverse and reverse word segmentation
ChineseAnalyzer
- lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
MMSeg
- 分词算法描述,用于中文分词,供大家参考,互相学习
src_seg(java)
- 一个用java语言编写的中文文本分词算法
k50RVZDojs03
- 基于IKAnalyzer分词算法的准商业化Lucene中文分词器
IKAnalyzer
- IKAnalyzer是中文分词工具,基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,这个是.Net版本,含有源代码
cidian
- 基于最大匹配算法的的中文分词组件,达到很好的分词准确率
fenCi
- 实现中文信息处理中的汉语分词的功能,采用了正向最大和逆向最大的分词算法。
IKAnalyzer3.2.8-bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, java based development o
fenci2
- 可以提供中文分词算法,同时能够支持英文的分词(Chinese and English words stemming algorithm)
argkmebt
- 此程序解决的问题 较好的, 并适应短字符串的中文分词算法 根据词库 发现以换行符分隔的众多标题中的 top N 关键字并以此更()
TFIDF算法的C#实现
- 支持英文分词,无中文分词。采用Centivus.EnglishStemmer.dll库