搜索资源列表
segmentor_Perl
- 中文分词算法。Perl语言编写。wordlist.txt为词库。-Chinese Segmentation. Perl language. Wordlist.txt for the thesaurus.
findkey.c
- 此程序解决的问题:较好的, 并适应短字符串的中文分词算法.根据词库 发现以换行符分隔的众多标题中的 top N 关键字并以此更新词库.是一个分类分词算法 -this procedure to solve the problem : better, and adapt to the short string of Chinese Segmentation. According thesaurus found in the many separate newline heading the to
lunce-splitword
- 一个运用于lunce中的中文分词算法源码,与大家共享-a lunce applied to the Chinese word segmentation algorithm source code and share
FreeICTCLAS
- 中科院ICTCLAS最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦!
word_vc
- vc++实现的基于字典的中文分词算法,基于贝耶斯网络的概率中文分词算法,以及文本相似程度比较的算法。
ChinesePase
- 好用的中文分词算法 好不容易才搞到的 好用的中文分词算法
最大匹配算法
- 中文分词正反向最大匹配算法
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
mmseg
- MMSEG 中文分词算法 内有说明及例子,源代码-failed to translate
zdfc
- 对中文语句进行分词的一个源码,利用正向匹配算法进行处理-Statements for the Chinese word for a source
Dictory
- 用B-树作为查找存储结构,对中文单词进行哈希,用最长逆向匹配算法进行中文句段分词,实现中文词典以及分词。中文词典规模为十万八千多词汇。分词的正确率在90 以上。-Use the B-tree as storage structure , and hash the Chinese word while storing or searching. Use the longest reverse matching algorithm to split Chinese sentence to word
totsearchc
- 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。-Amoy Special Site search engine from the Amoy Te JSP search engine, developed from, sys
totsearch
- 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 -Amoy Special Site search engine from the Amoy special JSP search engine developed fr
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
ICTCLAS50_Windows_32_JNI
- 中科院开发的中文分词算法,带词性标注等,经典的一个算法-Chinese Academy of Sciences of the Chinese word segmentation algorithm developed, with part of speech tagging, etc., a classic algorithm
ICTCLAS50_Windows_32_C
- C++实现的中文分词算法,可以直接运行,也可以编译运行,还可以添加词典。-C++ of the realization of the Chinese word segmentation algorithm, it can run directly, also can compile operation, also can add dictionary.
worddiv
- 中文分词算法,用正向最大匹配算法实现的中文分词,包裹dao操作数据库。-Chinese word segmentation algorithm, the forward maximum matching algorithm of Chinese word segmentation, wrapped dao operations database.
Bbeiyessa
- 贝叶斯网络概率中文分词算法,,基于概率的分词算法可直接使用。 -Bayesian network probability Chinese word segmentation algorithm, probability-based segmentation algorithm can be used directly.
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 -Amoy special stations within the search engine (C# version) is based on Lucene.Net core through e
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.py reference 维特比算法:(python