搜索资源列表
mlct_public
- 这是一个基于Java的分词、N-gram统计、分段 、分句等功能的程序,支持多种语言-This is a Java-based segmentation, N-gram statistics, the sub-clause of the function procedures, multilingual support
SplitCNWord
- 一个中文分词的实现及演示程序,可用与中文和英文词组的分割.-a Chinese word achieve and demonstrate the procedure can be used with the Chinese and English phrase segmentation.
TextCategorization
- 基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。-based on Bayesian algorithms to achieve the Chinese text classification procedure. Can the Chinese text classification identification, the us
xdgf
- 字符处理这是一个基于Java的分词、N-gram统计、分段 、分句等功能的程序,支持多种语-characters to deal with this is a Java-based segmentation, N-gram to statistics, subparagraph Clauses function procedures, multiple language support
chsegc
- chseg c语言写的汉字分词模块,调用方法和使用方法见程序内说明readme.txt。-chseg write Chinese characters Word module, called methods and procedures for use within see Note readme.txt.
feici
- 现代汉语分词源程序。里面没有字库,使用的 是拼音加加自带的词库-modern Chinese-term source. There's no library, using the phonetic way of built-in thesaurus
darts-0.2.tar
- 双数组辞典生成程序。利用双数组实现trie算法,对于不定长度共同前缀查询情况,比哈希方法更为有效。经常用于分词辞典的制作。-array dictionary-generation procedures. Using two arrays to achieve Trie algorithm for the indefinite length of the inquiry common prefix than Hash methods more effective. Frequently used
findkey.c
- 此程序解决的问题:较好的, 并适应短字符串的中文分词算法.根据词库 发现以换行符分隔的众多标题中的 top N 关键字并以此更新词库.是一个分类分词算法 -this procedure to solve the problem : better, and adapt to the short string of Chinese Segmentation. According thesaurus found in the many separate newline heading the to
wordppl
- 本程序采用正向 逆向最大匹配才实现汉字分词-the procedures being used in reverse to get the maximum matching Chinese Word
hisense
- 程序的主要思想是先对数组进行处理,使其有序,处理后的结果存放在t1.txt文件中。。然后在此基础上建立索引,使在查字典时可以减少比较的次数,节省程序的时间。再利用最大匹配算法对程序进行分词,分词的结果保存在t2.txt文件中。然后再拿分好词的文件与libing_test文件进行比较匹配率,匹配结果存放在result.txt文件中。-procedures main idea is first to array processing, it orderly, After processing the
SQLET_split
- SQLET分词算法,一个C程序,供大家参考。-SQLET segmentation algorithm, a C program, for your reference.
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
NewWord
- 新词自动登录 该程序完成在中文自动分词过程中对词典中没有的词条进行自动的登录功能-new words automatically logged the procedures are completed in the Chinese automatic segmentation of the process not in the dictionary entries for automatic Teng recorded function
cutword
- 用VB与数据库相连接实现中 文分词的程序,采用了正向 最大匹配算法。-using VB and database links, Chinese word segmentation procedures using the largest positive matching algorithm.
code1
- 我做了几个英文分词的程序,java实现的,这是第1个,共享给大家
code2
- 我做了几个英文分词的程序,java实现的,这是第2个,共享给大家
code3
- 我做了几个英文分词的程序,java实现的,这是第3个,共享给大家
code4
- 我做了几个英文分词的程序,java实现的,这是第4个,共享给大家
code5
- 我做了几个英文分词的程序,java实现的,这是第5个,共享给大家
segmenter
- 一个实现简单分词java程序,附有源代码,大家可以参考学习交流一下。