搜索资源列表
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
一种增量式支持向量机文本分类模型
- 一种增量式支持向量机文本分类模型-an incremental SVM text classification model
一种新的基于统计的自动文本分类方法
- 一种新的基于统计的自动文本分类方法-based on a new statistical method of automatic text classification
一种实用高效的文本分类算法
- 一种实用高效的文本分类算法-a practical and efficient algorithm for text classification
一个基于概念的中文文本分类模型
- 一个基于概念的中文文本分类模型-a concept based on the Chinese text classification model
文本自动分类在搜索引擎上的应用
- 文本自动分类在搜索引擎上的应用-automatic text classification search engines on the application
文本挖掘TextMining
- 文本挖掘TextMining
文本聚类的文档.tar
- 文本聚类的文档-text of the document clustering
文本分类中结合评估函数的权值调整技术
- 文本分类中结合评估函数的权值调整技术
firtex_beta102_src
- FirteX介绍 功能: 支持增量索引,差量索引,多字段索引,提供了3种前向索引方式; 支持纯文本,HTML,PDF等文件格式; 提供快速中文分词; 从底层到高层,提供了多种索引访问接口,灵活自由地使用索引文件; 提供丰富的检索语法,支持多字段检索,日期范围检索,检索结果自定义排序等。 性能: 在Pentium 4 2.8G 2GRAM的机器上超过200Mb每分钟的索引速度 在近7G的索引文件(100G网页,11G纯文本的索引)上检索,仅使用十几M内存在数毫
SearchPicture_bemjh
- 用jsp开发的基于文本对图片进行搜索的系统实现,服务器是tomcat-with jsp development of the text-based search for pictures of the realization of the system, the server is tomcat
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
neucsp
- 很好的分词工具,能对文本进行分词,标注词性,是进行文本聚类不可或缺的工具
similarity.文本相似度计算余弦相似度代码
- 文本相似度计算余弦相似度代码,计算文本相似度,用于搜索引擎,Cosine similarity of text similarity computation code, the text of the similarity calculation for the search engine
textcluster
- 文本聚类算法源码,包含tf.idf计算的实现,采用java语言编写-text cluster algorithm, including the computation of tf.idf ,written by Java
holmes-3.11.tar
- Sherlock Holmes搜索引擎,可以对本地或网络上文本文件(网页,文件。。)创建索引-Sherlock Holmes search engine, can be local or network text file (pages, documents..) Create index
TDHCursorFactory
- 是一个使用Perl语言编写的一个开源文本挖掘的程序。其中涉及了众多文本挖掘的技术,如文本聚类、分词、索引,搜索引擎、字典等等。-Perl is a language to use an open source text mining process. Involving a large number of text mining technologies, such as text clustering, segmentation, indexing, search engines, dicti
firtex-1.2.0_RC_src
- FirteX是一个功能强大、高性能、灵活的全文索引和检索平台。FirteX的主要目标是研究文本索引的快速构建(Index Construction),动态文档集的索引维护(Index Maintenance),短语查询(Phrase Query),Top-k查询的快速处理(Top-k Query Process)以及各种检索模型(IR Model)等。高性能和灵活的架构也使FirteX可以应用在产品搜索,桌面搜索,站内搜索,新闻搜索,Blog搜索,学术搜索以及大规模搜索引擎等领域中。-Firte
bb
- 中文文本分类相关算法的研究与实现,介绍文本分类方法-Chinese text classification research and implementation of related algorithms, text classification introduced
