搜索资源列表
ProbWordSeg
- 中文分词!基于最大概率分词的!欢迎下载~~欢迎下勒
cutdic
- 用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐!-for the Chinese word segmentation Dictionary, and tagging to the dictionary database based text classification, text retrieval or text filtering can save a lot of time. All very strongly
为Ecshop 添加Sphinx全文索引功能主文件
- 把模板里的search.php连接改成这个ftsearch.php,就可以实现中文全文索引功能了. 演示地址:http://www.ueedy.com
最大匹配算法
- 中文分词正反向最大匹配算法
网页搜索引擎
- K-PageSearch是由Kwindsoft在2007年自主研发的专为行业、专类信息检索设计的网页搜索引擎。主要功能特点:网络蜘蛛、定向采集、正文提取、中文分词、全文索引、相关度排序、网页快照、相关搜索、竞价排名;后台数据库采用Microsoft SQL Server,静态化搜索系统设计采用XML数据岛缓存搜索结果提高系统的稳定性和性能、节省服务器资源减轻系统负担。 网络蜘蛛 K风蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unic
IKAnalyzer3.2.8-bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, java based development o
wordsegment
- 中文分词系统,有IKAnalyzer和MMAnalyzer两种分词方式可供选择,有界面展示,可是清楚的比较两种的特点,各有千秋-Chinese word segmentation system, there are two kinds of segmentation MMAnalyzer IKAnalyzer and methods are available, there are interface shows, but a clear comparison of two characteri
ICTPOS3.0.rar
- 中科院中文分词程序ICTCLAS的汉语词性标记集,Chinese word segmentation procedure, Chinese Academy of Sciences of the Chinese part of speech tag ICTCLAS Set
ICTCLAS50_Windows_64_C
- 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45 ,API不超过100kb,各种词典
mmseg4j-1.0-src.zip
- java 版的中文分词技术 很实用的 正确率可以达到98 以上,java version of the Chinese word technology is practical accuracy can reach more than 98
Chinese-Word-Segment-And-POS-Tagger
- 实现了中文分词和词性标注程序。分词方法采用“三词正向最长匹配”。词性标注使用HMM方法,用Viterbi算法实现。“三词正向最长匹配”保持了“正向最长匹配算法”快速的特点,同时提高了分词的准确性。-Chinese word segmentation and implemented procedures for POS tagging. Segmentation Methods, " the longest three-match positive words." POS tag
ChineseSplit
- 一个基于VB.NET开发的中文分词及关键词提取系统,采用双向最大匹配、词频统计、快速排序等算法实现。-VB.NET developed based on Chinese word segmentation and Key Extraction System, the largest two-way matching, word frequency statistics, such as quick sort algorithm.
zhongwenfenci
- 使用字典的中文分词程序 输入: Dic.txt: 词典文件 Target.txt: 目标文件 输出: Result_back.txt:后向分词的结果 Result_front.txt:前向分词的结果 Result.txt: 双向扫描,对词频统计分析得到的结果 -The Chinese word dictionary program input: Dic.txt: dictionary file Target.txt: Target file output
ictclas-linux-1.0.tar
- 中科院ictclas分词系统的LINUX版本,非常不错的免费中文分词工具。-CAS ictclas Segmentation System LINUX version.
proWordSegment
- 正向最大匹配中文分词c++源程序,在visual studio 2008中调试通过。-Chinese are the largest sub-word match c++ source code, visual studio 2008 in debug through.
IKAnalyzer3.2.8-source
- IKAnalyzer的源码包,实现中文分词功能,(1) 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/ 秒的高速处理能力。 (2) 采用了多子处理器分析模式,支持:英文字母( IP 地址、Email、URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理 。 (3) 优化的词典存储,更小的内存占用。支持用户词典扩展定义 (4) 针对 Lucene 全文检索优化的查询分析器 IKQueryParser;采用歧义分析算法优化查询关键
Ngram-spliter
- 基于Ngram的中文分词,准确率能达到92 ,值得参考!-Based on the Ngram the Chinese word, the accuracy rate can reach 92 , worth considering!
ICTCLAS-learning-notes
- 这篇文档会对想要深入学习中文分词的同志有所帮助,通过详细具体地分析现在一款非常热的ICTCLAS源码,能够让读者在阅读后能自己开发改进分词工具。-This document will want to thoroughly study Chinese word comrades help, through detailed and specific analysis of a very hot now ICTCLAS source code, to allow readers will be ab
mmseg
- MMSEG 中文分词算法 内有说明及例子,源代码-failed to translate
je-analysis-1.5.3.jar
- 搜索引擎开中中文分词包JE分词器 开发者必备哦-Search engine to open in Chinese word segmentation package JE Oh device developers must