搜索资源列表
zhongqijiancha
- 中文分词的基本实现功能,带有界面的处理,实现文件内容的分词,可以计算算法处理时间-Chinese word basic function and interface with the processing, and the contents of the paper, the sub-term calculation algorithm processing time
IKAnalyzer3.2.8-bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, java based development o
IKAnalyzer3.2.8-source
- IKAnalyzer的源码包,实现中文分词功能,(1) 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/ 秒的高速处理能力。 (2) 采用了多子处理器分析模式,支持:英文字母( IP 地址、Email、URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理 。 (3) 优化的词典存储,更小的内存占用。支持用户词典扩展定义 (4) 针对 Lucene 全文检索优化的查询分析器 IKQueryParser;采用歧义分析算法优化查询关键
PERL
- perl采用正向匹配算法,使用词库构建哈希结构,匹配分词-perl matching algorithm being used, use the thesaurus to build hash structure, matching word segmentation
java
- java最大正向匹配算法 帮助大家了解分词原理-java maximum matching algorithm to help you understand the positive word principle
lucene-3.0.1-src
- Lucene算法最新源码包,提供给中文分词器开发者最好的工具!-Lucene algorithm is the latest source package available to the Chinese word device developers the best tools!
IKAnalyzer3.2.0Stable_src
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。
IKAnalyzer_V3.2.8
- IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.X则发展为面吐Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。-IK Analyzer 3.X
Frequency-Estimates-Word-Similarity-
- 统计分词的相似性措施的频率估计 ,词汇相似性的频率算法。-Ourbestcombinationofsimilaritymea-sureandfrequencyestimationmethodanswers 6-8 morequestionsthan the bestresultspre-viouslyreportedforthesamequestionsets.
ansj_seg-master
- 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96 以上-This is a ictclas of java. Basically rewrite all the data structures and algorithms. Dictionary is prov
1661a86897bc
- 余弦相似度算法(余弦相似度(cosine similarity)是资讯检索中常用的相似度计算方式,可用来计算文件之间的相似度,也可以计算词汇之间的相似度,更可以计算查询字串与文件之间的相似度。) 这是一个基于Jcseg分词算法的余弦相似度例子,运行com.fenci.test.IKMainTest可以查看运行结果。-please do it by yourself
paoding-analysis-2.0.4-alpha2
- paoding分词算法源码及其lib,使用时需要修改paoding-analysis.jar文件中的dic目录-paoding segmentation algorithm source code and lib, we need to modify paoding-analysis.jar file dic directories use
909aae2c-4f2c-4771-83e4-6894516f14e1
- 一个中文分词算法,可以实现将分词文本切分成自定义字典中的单词-A Chinese word segmentation algorithm, you can achieve the word segmentation text into a dictionary of words
hanlp-1.2.2-sources-
- hanlp源码,包括各种分词算法的实现,比如隐马尔科夫模型,条件随机场模型,N最短模型等,还有语义分析,情感分析等-hanlp source, including a variety of sub achieve segmentation algorithm, such as hidden Markov model, conditional random, N shortest models, as well as semantic analysis, sentiment analysis, e
totsearch_v3.3
- 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案。 淘特站内搜索引擎(C#版)v3.3更新内容: 1、解决生成的文件链接始终是第一个的错误 2、解决GbK编码搜索程序Default_Gbk.aspx下一页链接错误的
word
- java 实现简单的分词算法,自动匹配,代码注释详细。-Java to realize automatic word segmentation algorithm is simple, match, code notes in detail.
dedesplit
- 软件介绍 采用的是一种用最小切分和逆向最大匹配法结合的一种复合分词算法 Tags: 织梦分词算法-Software introduction Using a combination of segmentation with the smallest and reverse maximum matching method a compound word segmentation algorithm Tags: a word segmentation algorithm
fenci
- 中文分词算法双向最大匹配算法基于词典匹配的分词算法-Chinese word segmentation algorithm bidirectional maximum matching algorithm based on dictionary word matching algorithm
TFIDF
- 经典的中文分词算法 亲测可行,效果一般般,可供小白学习。(Classical Chinese word segmentation algorithm, pro test feasible)
java
- 程序为提取文章关键词的java程序,可以制定关键词和分词算法,可直接使用(Java program for extracting key words)