搜索资源列表
IKTEST3.2
- 调用开源接口IKSegmentation、Lexeme实现的,分词功能。-Call open source interface, word.
ansj_seg-master
- 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96 以上-This is a ictclas of java. Basically rewrite all the data structures and algorithms. Dictionary is prov
shootseg-4235
- 基于统计的分词算法 以/为分隔符 分词 C# -Statistics-based segmentation algorithm/word delimiter
Activity_05(2)
- 垃圾短信过滤软件源代码,将未知短信分词和词库中进行对比是否是垃圾短信-SMS spam filtering software source code
csw
- 一款多功能分词组件,可用于VC,vc#等开发环境-A versatile word components, VC, vc# development environment can be used to
Stemmer
- 在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。详见官方网站。比较热门的检索系统包括Lucene、Whoosh等中的词干过滤器就是采用的波
splitewords
- 在对话框中,调用第三方分词工具(ICTCLAS中文分词免费版),实现对中文的分词示例程序,可以对想实现全文搜索算法的中文分词问题提供解决方案。-In the dialog box, call the third-party segmentation tools (word ICTCLAS Chinese free version), the sample program to achieve the segmentation of Chinese text search algorithms C
WordSequence
- 正向最大匹配法实现中文分词,并计算其正确率(P)、召回率(R)和F测度-Positive maximum matching method to realize the Chinese word segmentation
ansj
- ictclass的java版本开源实现,用于实现中文分词功能。-the java version that the open source implementation of ictclass
mmsegger_src_1.0
- 最大正向匹配分词算法,用于分词和自然语言处理-Maximum forward matching word segmentation algorithm
CTB
- 中文分词和词性分析通用的训练集,含POS。-Chinese word segmentation and part of speech analysis of generic training set.
segok
- 自然语言处理中的分词程序,绝对可用,自己写的。-Segmentation in natural language processing program to write their own.
HMM
- HMM的初步学习资料。HMM对于自然语言的研究尤其是中文分词有非常重要的意义。-HMM preliminary learning materials. HMM is the Chinese word for the study of natural language has a very important significance.
ansj_seg20121123
- java分词实现,可以自己定义词库-java fenci,upload user library
WordStem_20121024
- 采用Porter Stemming算法对英文文本进行分词-Preprocessing English text based on Porter Stemming algorithm
ChineseStemming
- 采用中科院ICTCLAS分词系统对中文文本进行分词-Preprocessing Chinese text based on ICTCLAS
ikTest
- 该程序主要功能:使用ik分词器对文本进行分词-segmention with ik Analyzer
HLSeg_JAVA_Example
- 中文分词 支持对输出颗粒的控制,可以输出普通颗粒与用于检索的小颗粒;同时输出词串所在句号、段号、词号、词性等信息。 关于分词输出颗粒,我们认为各种应用对分词要求的颗粒度是不同的. 比如自动分类、关键词抽取比搜索需要的分词颗粒度要大, 因为这样表示文本语义特征时效果会更好, 而检索有一个查全率的要求, 就需要把分词单位做的更为细致, 不然就会造成漏查。 海量系统现在提供了两种颗粒的规则, 其中, 默认的为大颗粒接口, 主要用于自动分类、信息挖潜、机器翻译、语音合成、人工智能等领域,
Segment
- 中文分词程序,用前缀发分词,并输出到文本中来-Chinese word segmentation program, sent word with the prefix, and output to a text
ICTCLAS-V3.0
- 本程序是是汉语文本的分词系统,进行了改进,是最新的版本,准确率达到99 以上。-This procedure is the Chinese text segmentation system has been improved, is the latest version, the accuracy rate of more than 99 .