搜索资源列表
java编写的分词和分类工具
- 这是一个用java编写的分词和分类工具,很不错的,值得很多初学者借鉴
JE中文分词1.5.3版本的源包
- je-analysis-1.5.3.jar JE中文分词1.5.3版本的源包,je-analysis-1.5.3.jar JE Chinese Segmentation 1.5.3 version of the source package
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
Lucene.rar
- lucene建立索引,中文搜索,搜索内容先经过分词,然后搜索,lucene index, Chinese search, search through the contents of the first word, and then search
word-frequency
- java 编写的词频统计,包含极易分词软件的包,Lucene包,程序调试通过-java written word frequency, word that contains the software package easy points, Lucene package, program debugging by
windows_JNI_32bit
- ICT分词程序接口 用以进行中文文本分词,词性标注。-ICT segmentation program interface for the conduct of the Chinese text word segmentation, POS tagging.
WordSeg--JAVA
- 本程序采用正向 逆向最大匹配才实现汉字分词。-This procedure being used to achieve reverse maximum matching segmentation of Chinese characters.
WordSegmentation
- 基于java的一个分词程序 速度比较快 精确度比较高-A java-based segmentation procedures faster relatively high accuracy
qygl
- lucene 中文分词公用组件,对搜索引擎开发中中文分词做了很好的封装。-Chinese word segmentation lucene common components, the development of the Chinese search engine has done a very good segmentation of the package.
IRSplit_new
- 用java实现的中文分词,是在哈工大IRSplit的基础上做的-With the java implementation in Chinese word segmentation, is based on the HIT IRSplit done
chinese_segment
- 一个中文分词算法的java语言实现,词典采用文本文件形式。-A Chinese word segmentation algorithm java language implementation
keyTermExtraction
- 实现了自动分词的功能,以及信息抽取的额功能,非常重要的算法。-Realize the function of automatic segmentation and information extraction of the amount of features, very important algorithms.
worddivise
- 中文 分词,-worddivise
AIWordSplit
- 直接运行compile.bat和run.bat即可 使用了3种分词方法: 1.正向最大匹配(ForwardMatch.java) 2.逆向最大匹配(ForwardMatch.java) 3.最大频率匹配(FrequencyMatch.java)(默认) 取频率最高的词,然后两端递归,构建二杈树存储句子中的词语,显示的时候使用中序遍历二杈树 由于极有可能单个字的使用频率比整个词还高,筛选的时候进行了处理 若单个字不处于当前句子开头,先忽略,
zhengdike
- (个人原创)《中文网页自动分类》 牵扯的技术有:分词,统计词频,踢出网页中一些特殊字符(用正则表达式),还有需要提取培训集等等!! 此软件禁止商业活动,版权所属“qyTT论坛--www.qyclass.org/bbs” 本文来自: qyTT论坛 http://www.qyclass.org/bbs 我们的使命:让世界认识qyTT,让qyTT认识世界! 结果分析的思想:就是把得到的词频与建立的词库里每一类进行比较,如果存在一个最大匹配程度,就去这个类作为结果,如果存
yard
- 一个简单的中文分词程序,用纯java编写,请解压后,在java环境中运行。-A simple Chinese word segmentation program, written in pure java, please unzip, run the java environment.
NLpirTest
- 使用中文信息处理的开源工具包NLpir完成分词工作(Use the Open Source Toolkit NLpir to do word segmentation)
Models_v1_v2
- 对中文文本进行分词,词性标注。训练模型,根据模型训练学习分词。(participle Part of speech tagging)
JNA
- 中文的分词,包括词性标注、关键词提取,Java文件(word segmentation and part of speech tagging)
Chinese Word Segementation
- 根据所给中文词典,对中文文本进行正向最大匹配分词,其中包括读取文本,并对其分词(According to the Chinese dictionary, the Chinese text is given a positive maximum matching word, which includes the reading of the text and the participle of the Chinese text.)