搜索资源列表
firtex_beta102_src
- FirteX介绍 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
ICTCLAS(C++)
- 中科院分词,可供直接使用,源于中科院中文分词网-CAS segmentation for direct use, and from the Chinese Academy of the Chinese word segmentation Network
200090681
- 一种网页分类中使用的中文分词方法,很有借鉴性,大家可以-a website classification of Chinese word segmentation method, a very useful reference, we can s
zwfcxt
- 中文分词系统最完整库,有志向做搜索的朋友可以参考一下,非常有价值的资料-Chinese word segmentation system for the most complete and aspirations so friends can search reference. Very valuable information
Chinesewordsegmentationalgorithm
- 中文分词算法,跟金山词霸一样,当鼠标移动到语句上时,能自动分割词语-Chinese word segmentation algorithm with the same PowerWord, when the mouse moved to sentence when the words automatically partition
Auto_WordSeg
- 自动分词程序演示。包括最大、最小,正向、逆向等分词算法。-Automatic word segmentation procedure demonstrates. Including the largest, smallest, positive, reverse algorithm.
css
- 用VISUAL C++编写的中文分词系统C-Using VISUAL C++ Prepared Chinese word segmentation system C
include
- 用VISUAL C++编写的中文分词系统中的INCULDE算法-Using VISUAL C++ Prepared Chinese word segmentation system INCULDE algorithm
utils
- 用VISUAL C++编写的中文分词系统 UTILS算法-Using VISUAL C++ Prepared Chinese word segmentation system Utils algorithm
yssfor
- 1、真正的搜索引擎: 2、 网页蜘蛛灵活高效。 3、可控的正文提取。 4、可控的中文分词及新词学习。 5、无人值守。 6、BS架构,虚拟主机支持。 7、强大功能,简单使用。 8、个性化。 9、增强网站软实力-1, the real search engine: 2, Web Spider flexible and efficient. 3, the body of controllable extraction. 4, controlled the Chinese
CutwordShort
- 用于搜索引擎上的切词程序,可以获得比较好的分词结果。运行速度可以达到约500k词/s(笔记本上)-For the search engine on the segmentation procedure can be the result of a better word. Running speed of about 800k words/s (notebook)
SphinxV0.9.8.1source
- SphinxV0.9.8.1source.zip VC++ 基于Lucene扩展的支持中文分词的开源搜索引擎 中文用户-Sphinx V0.9.8.1 source.zip VC++ extensions to support Lucene-based Chinese word segmentation in Chinese open source search engine users
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
splitword
- 基于VC++6.0的中文分词程序。内含词典。-VC++6.0 based Chinese word segmentation procedure. Embedded dictionary.
1
- 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了-Chinese word segmentation in Chinese information processing is the most basic, whether in machine translation Yihuo information retrieval, or other related appli
paoding-analysis-2.0.4
- Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。-Paoding Chinese word is a Java development can be combined with Lucene applications for the word componen
RMM
- 这个是RMM算法,支持正向、逆向最大匹配,是自然语言处理的重要算法之一,只要替代程序中的词库即可。本词库取自1988年人民日报语料材料,算法对中文分词精确度达到90 以上-This is RMM algorithm supports forward, reverse maximum matching, natural language processing algorithm, as long as the alternative procedures thesaurus can. The th
findleft
- 这个是概率统计最大算法,此算法是分词算法的一种,是自然语言处理中最有效的分词算法之一,本算法精确度达到95 以上-This is the probability statistics algorithm, this algorithm is a sub-word segmentation algorithm is the most effective natural language processing word segmentation algorithm, the algorithm an
