搜索资源列表
xunlong0.6
- 完整的.net搜索引擎采用LUCENE.net为索引核心,分布式架构.包含wordnet,分词,spider,简单webserver等-complete. Net using search engines for indexing LUCENE.net core, Distributed framework. includes WordNet, participle, spider, a simple webserver, etc.
ChineseAnalyzer
- lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
k50RVZDojs03
- 基于IKAnalyzer分词算法的准商业化Lucene中文分词器
IKAnalyzer
- IKAnalyzer是中文分词工具,基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,这个是.Net版本,含有源代码
fenci
- 海量分词结合lucene的分词部分源代码,不包含海量分词dll,请下载的朋友注意,希望能对大家有帮助。
mmseg-v0.3
- 基于词库的中文分词组件,可以直接用于Lucene的索引建立。以及中文搜索。
paoding-analysis-2.0.4-beta
- 又一个中文分词组件,作者自称很牛,企业级的,字库很多。也可直接用于lucene索引和搜索。
IKAnalyzer2.0.2
- Java lucene开源全文搜索,中文分词组件
IKAnalyzer3.2.8-bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, java based development o
pangusegment-80115
- PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll 盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.HighLight.dll 高亮组件 PanGu4Lucene 这个是盘古分词针对Lucene.net 提供的接口 PanGu.Lucene.Analyzer.dll 盘古分词针对Lucene.net 的接口组件 PanGu.Lucene.ImportTool.exe 示例程
tfidf
- 文本的词频计算,用到了lucene的分词工具,用java实现-Text of the word frequency calculations, the word used in the sub-lucene tools to achieve with java
je-analysis-1.5.3
- 在java环境下开发的分词源代码,本代码可以通过lucene,nutch调用,实现对中文的分词-Java development environment in the sub-etymology code, this code can be used with lucene, nutch call, the aim is to achieve the Chinese word
IKAnalyzer3.2.8-source
- IKAnalyzer的源码包,实现中文分词功能,(1) 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/ 秒的高速处理能力。 (2) 采用了多子处理器分析模式,支持:英文字母( IP 地址、Email、URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理 。 (3) 优化的词典存储,更小的内存占用。支持用户词典扩展定义 (4) 针对 Lucene 全文检索优化的查询分析器 IKQueryParser;采用歧义分析算法优化查询关键
StandardTokenizer
- 分词算法的测试 基于lucene 的分词算法设计-segment the chinese word
Segment
- 使用lucene组件的分词例子。同时利用JE-Analysis 1.5.1 组件分词。-Use Lucene component segmentation examples. At the same time, the use of JE-Analysis 1.5.1 Segmentation components.
text_category
- 中文自动分类。使用spider抓取网络信息,利用lucene的分词及KNN方法。-Chinese automatic classification. The use of spider crawl network information, the use of Lucene sub-word and KNN methods.
SphinxV0.9.8.1source
- SphinxV0.9.8.1source.zip VC++ 基于Lucene扩展的支持中文分词的开源搜索引擎 中文用户-Sphinx V0.9.8.1 source.zip VC++ extensions to support Lucene-based Chinese word segmentation in Chinese open source search engine users
PanGu4LuceneV2.1.1.0
- Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。本代码基于lucene.net实现中文全文检索(Chinese fulltext search based on lucene.net)
lucene-core-2.4.1.jar je-analysis-1.5.3.jar
- import jeasy.analysis.MMAnalyzer 实现句子中文分词的jar包(import jeasy.analysis.MMAnalyzer Jar package for Chinese word segmentation in sentences)