搜索资源列表
TextCategorization
- 基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。-based on Bayesian algorithms to achieve the Chinese text classification procedure. Can the Chinese text classification identification, the us
darts-0.2.tar
- 双数组辞典生成程序。利用双数组实现trie算法,对于不定长度共同前缀查询情况,比哈希方法更为有效。经常用于分词辞典的制作。-array dictionary-generation procedures. Using two arrays to achieve Trie algorithm for the indefinite length of the inquiry common prefix than Hash methods more effective. Frequently used
MySeg
- 最短路径法分词程序。将中文句子经过原子切分后生成一个有向无环图,然后使用Dijkstra算法求出由起点到终点的最短路径以实现中文分词。-shortest path method participle procedures. Chinese Sentence will be read after splitting atoms generated a directed acyclic graph. then use the Dijkstra algorithm derived from the s
hisense
- 程序的主要思想是先对数组进行处理,使其有序,处理后的结果存放在t1.txt文件中。。然后在此基础上建立索引,使在查字典时可以减少比较的次数,节省程序的时间。再利用最大匹配算法对程序进行分词,分词的结果保存在t2.txt文件中。然后再拿分好词的文件与libing_test文件进行比较匹配率,匹配结果存放在result.txt文件中。-procedures main idea is first to array processing, it orderly, After processing the
2006111
- 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 智能数字,日期,人名识别。-support English, figures, Chinese (simplified) mixed at the number of commonly used words and the names of more than 220,000 matching word thesaurus finishing achieve the greatest po
myKbest_0513
- 中文分词, N-最短路径算法 ICTCLAS研究学习组 http://groups.google.com/group/ictclas?msg=subscribe-Chinese word segmentation, N-shortest path algorithm ICTCLAS Studies Group http : / / groups.google.com / group / sub ictclas msg = scribe
zhongqijiancha
- 中文分词的基本实现功能,带有界面的处理,实现文件内容的分词,可以计算算法处理时间-Chinese word basic function and interface with the processing, and the contents of the paper, the sub-term calculation algorithm processing time
cutword
- 用VB与数据库相连接实现中 文分词的程序,采用了正向 最大匹配算法。-using VB and database links, Chinese word segmentation procedures using the largest positive matching algorithm.
mmseg-v0.1
- 基于词典和最大匹配算法的的中文分词组件,达到很好的分词准确率-Dictionary and the largest based on the matching algorithm of the Chinese word segmentation components, to achieve good word accuracy rate
AutoSpliter
- 用于中文分词的算法。包括逆向分词和反向分词-for Chinese word segmentation algorithm. Including reverse and reverse word segmentation
dedesplit
- 中文切词,非常优秀特此推荐。是目前分词效率较高的算法-Chinese segmentation, hereby commend outstanding. Segmentation is more efficient algorithm
ProbWordSeg
- 中文信息处理方面的一个源码。此为一个分词软件,这个分词的算法虽然简单,但是原理和其他相同,是最大概率法分次。功能强大,代码简洁易懂。
ChineseAnalyzer
- lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。
ChineseSegment
- 基于Hash字库算法的lucene分词 完整的代码,使用创新的Hash字库,是分词效果大大提高
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
textclustering-master
- 对于大文本进行挖掘聚类,该方法不考虑文字词语出现的频率信息,考虑上下文语境,将所有的字根据预定义的特征进行词位特征学习,获得一个训练模型。然后对待分字符串的每一个字进行词位标注,最后根据词位定义获得最终的分词结果。(Digging for large text clustering, the method does not consider the text word frequency of information, considering the context, all the words
5953281
- 最大概率分词法,这种分词算法能够较好的解决汉语分词中的歧义问题,但分词效率比最大匹配分词算法要低()
argkmebt
- 此程序解决的问题 较好的, 并适应短字符串的中文分词算法 根据词库 发现以换行符分隔的众多标题中的 top N 关键字并以此更()
128083
- 汉语分词算法,包含最大匹配和基于概率的分词算法()
TFIDF算法的C#实现
- 支持英文分词,无中文分词。采用Centivus.EnglishStemmer.dll库