搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
分词器
- 迷你分词器,解压缩后,在java环境下运行使用。
小叮咚分词
- 小叮咚中文分词java源码
庖丁分词工具
- 一个流行的java分词程序。
java编写的分词和分类工具
- 这是一个用java编写的分词和分类工具,很不错的,值得很多初学者借鉴
CJKAnalyzer.分词系统(JAVA开发
- 一个很好用的分词系统(JAVA开发),词表可以扩展。,A good word to use the sub-system (JAVA development), the term sheet can be extended.
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
word-frequency
- java 编写的词频统计,包含极易分词软件的包,Lucene包,程序调试通过-java written word frequency, word that contains the software package easy points, Lucene package, program debugging by
WordSeg--JAVA
- 本程序采用正向 逆向最大匹配才实现汉字分词。-This procedure being used to achieve reverse maximum matching segmentation of Chinese characters.
WordSegmentation
- 基于java的一个分词程序 速度比较快 精确度比较高-A java-based segmentation procedures faster relatively high accuracy
KaiYuanIctclas
- ICTCLAC开源代码,可用在中文文本信息处理上,为信息抽取进行中文分词、词性标注处理,准确度达到85 以上,-failed to translate
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
mmseg4j-1.7.3
- 中文分词技术 MMSeg1.7.3 最新版-Chinese word segmentation technology, the latest version of MMSeg1.7.3
IRSplit_new
- 用java实现的中文分词,是在哈工大IRSplit的基础上做的-With the java implementation in Chinese word segmentation, is based on the HIT IRSplit done
chinese_segment
- 一个中文分词算法的java语言实现,词典采用文本文件形式。-A Chinese word segmentation algorithm java language implementation
fenci
- 一个简单的基于词典分词的程序,lucene的分词程序不少,但有时候并不需要复杂的功能,只是需要简单的根据指定的词典分词。代码简单,可以作为学习参考-A simple dictionary-based word process, lucene procedures for sub-word a lot, but sometimes does not require complex functions, but only require a simple dictionary word accord
keyTermExtraction
- 实现了自动分词的功能,以及信息抽取的额功能,非常重要的算法。-Realize the function of automatic segmentation and information extraction of the amount of features, very important algorithms.
worddivise
- 中文 分词,-worddivise
AIWordSplit
- 直接运行compile.bat和run.bat即可 使用了3种分词方法: 1.正向最大匹配(ForwardMatch.java) 2.逆向最大匹配(ForwardMatch.java) 3.最大频率匹配(FrequencyMatch.java)(默认) 取频率最高的词,然后两端递归,构建二杈树存储句子中的词语,显示的时候使用中序遍历二杈树 由于极有可能单个字的使用频率比整个词还高,筛选的时候进行了处理 若单个字不处于当前句子开头,先忽略,
yard
- 一个简单的中文分词程序,用纯java编写,请解压后,在java环境中运行。-A simple Chinese word segmentation program, written in pure java, please unzip, run the java environment.