搜索资源列表
java_participle
- java分词算法的实现的里面有demo,下载直接运行即可看到效果。-java sub-word algorithm there are demo, download and run directly can see the effect.
lucene_app
- 基于lucene和paoding的分词索引项目,mysql数据库-Based on lucene and paoding, the word index entries, mysql database
sMySSeggh
- 最短路径法分词程序源码。将中文句子经过原子切分后生成一个有向无环图,然后使用用Dijkstra算法求出由起点到终点的最短路径以实现中文分词。 -The shortest path method segmentation program source code. Chinese sentence After atomic segmentation, to generate a directed acyclic graph, and then use Dijkstra algorithm to
Tdartsplitterh
- 这是关于中文分词的有关程序,有正在做中文分词的朋朋友可以拿去参考一下 , -This is the Chinese word program, are doing the Chinese word Peng friends can take reference
Rkeyword-choue
- 基于逆向最大匹配算法的分词及基于HMM模型的词性标注系统,包括了未登登录词的识别、数据库的添加等内容。(需要手动修改数据库的路径才可以运行) -Based on the segmentation of the reverse maximum matching algorithm and the HMM-based POS tagging system, including unadvertised login word recognition, and add the database co
Lsogou-dic-ute
- 传说中的搜狗的字典 很实用的的 对研究中文分词技术的用处很大 -Legendary Sogou dictionary practical usefulness of the study of Chinese word segmentation technology
hanseg
- 1.该程序为基于词典的中文自动分词. 2.程序的运行编译环境是:VC6 3.详细信息请参见本目录下面的中文自动分词文档。-1 The procedure for dictionary-based Chinese automatic word segmentation program run the compiler environment: VC6 For more information please see the catalog below the automatic Chine
segment
- 利用双数组和字典实现了一个中文分词程序,优点是效率高,分词速度快,鲁棒性好。适合搜索引擎分词使用-Pairs of array and dictionary is a Chinese word segmentation procedure, the advantages of high efficiency, segmentation speed, robustness. Word for search engines
ICTCLAS50_Windows_64_JNI
- 一款基于中科院的分词器,支持windows64操作平台,可以直接用-A Chinese Academy of Sciences of the word device support windows64 operating platform, can be used directly
fenx
- 分词文本处理 可以很快的分割字符串 效果快-Sub-word text processing word text processing
luceneCode
- lucene3.4.0的源代码,一个检索系统的开源包,本人已用myeclipse建立好工程,里面实现了中科院的中文分词接口,简单的建立索引,检索等一个比较完整的中文信息检索系统,便于初学者学习。-the source code of lucene3.4.0 a retrieval system open source package, I have created works myeclipse inside the Chinese Academy of Sciences word interf
IR
- 索引词的选择 1、 切词及词频统计:利用已选择的分词软件对文档进行切词处理,并进行词频统计,形成DocIndex文件,结构为:文档号、频率、词。注意保留中间结果,建立合理的数据结构来存储。 2、 分配词权重: 采用词频标准化(tfi = tfi/Max(tf))和tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf) 和DocIndex(tf*idf)文件。注意阈值的确定,词的取舍。 3、 形成倒置文档:将DocIndex(tf) 和DocInde
ICTCLAS50_Windows_32_C
- 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。-New word of the Chinese Academy of Sciences Institute of Computing Technology, Chinese Lexical Ana
PaodingAnalyzer
- 庖丁分词 lucene-3.6.0 PaodingAnalyzer 测试-lucene-3.6.0使用PaodingAnalyzer
mmseg4j-1.8.5
- mmseg 1.8.5的测试分词项目包 和lucene 3.6.0 相配合使用-corresponding test points words mmseg project package and lucene 3.6.0
knn
- knn分类器,能进行包括从网页下载、提取网页文本、文本分词、构建vsm、到knn分类的所有功能。开发语言为C++。-The knn classifier can download, extract from the web page text, the text word build vsm, knn classification.
windows_JNI_32
- 分词工具,中科院最新的分词工具,里面有源码,以及调用接口等-Segmentation tool
MyAnalyzer
- 简单的中文分词及敏感词检索工具,其中可以任意添加敏感词,并且可以选择使用正向最大匹配算法,逆向最大匹配算法,双向最大匹配算法中的一种进行分词。-Simple Chinese word and sensitive word retrieval tool, which can add any sensitive words, and you can choose to use the forward maximum matching algorithm, reverse maximum matchi
redis-search4j-1.0.1
- redis-search4j是一款基于redis的搜索组件 1.基于redis,性能高效 2.实时更新索引 3.支持Suggest前缀、拼音查找(AutoComplete 功能) 4.支持单个或多个分词搜索 5.可根据字段进行结果排序 -full text search,based on redis
adarrts-02tarr
- 双数组辞典生成程序源码。运用双数组实现trie算法,对于不定长度共同前前缀查询情况,比哈希方法更为有效。经常用于分词辞典的制作。 可直接使用。 -The dual array thesaurus program source code is generated. The use of double-array trie algorithm for indefinite length common prefix query before, Bi Haxi method is more effe