搜索资源列表
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
seg
- 进行高级汉字文本分词的功能模块,可以支持多种类型文本,支持停用词过滤。产生的结果可以定制结构 。-Chinese text segmentation for advanced function modules that can support multiple types of text, support for stop words filtering. The result can be customized structure.
IKAnalyzer3.2.8-source
- IKAnalyzer的源码包,实现中文分词功能,(1) 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/ 秒的高速处理能力。 (2) 采用了多子处理器分析模式,支持:英文字母( IP 地址、Email、URL )、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理 。 (3) 优化的词典存储,更小的内存占用。支持用户词典扩展定义 (4) 针对 Lucene 全文检索优化的查询分析器 IKQueryParser;采用歧义分析算法优化查询关键
lingpipe-3.6.0
- 一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character
windows_JNI_32bit
- ICT分词程序接口 用以进行中文文本分词,词性标注。-ICT segmentation program interface for the conduct of the Chinese text word segmentation, POS tagging.
LucexeProject
- 简单全文检索,包括建立索引,文件分割,和安内容或者文件名检索!-Simple text search, including indexing, document segmentation, and security content or file name search!
cut
- 文件分割的工具,可以自动将文本文件分割为用户确定的大小。-File segmentation tools can be divided for users to determine the text file size.
PaoDing
- 中文分词软件——庖丁最新版本,可用于文本检索领域的分词等功能的实现-Chinese word segmentation software- Paoding latest version can be used for the sub-text retrieval functions of the realization of the word
Lucene-code-src3.0-
- Lucene3.0原理与分析java版 第一章 全文检索的原本原理 第二章 Lucene 的总体架构 第三章:Lucene 的索引文件格式 第四章:Lucene 索引过程分析 第五章:Lucene 段合并(merge)过程分析 第七章:Lucene 搜索过程解析 第八章:Lucene 的查询语法,JavaCC 及QueryParser 第十章:Lucene 的分词器Analyzer-The first chapter of the full text searc
jacob-1.16-M1
- 基于lucene的文本分词包,可以对office文件进行解析-Text segmentation based on lucene package, you can parse for office documents
ICTCLAS2012-SDK-0101
- 这是一个分词系统,大家可以用来对文本或者一段话进行分词!具体可以访问,北京理工大学自然语言处理网www.plnir.org-This is a segmentation system, we can use the text or paragraph word! Concrete can be accessed, Beijing Institute of Technology Natural Language Processing Network www.plnir.org
WVTool
- 很好的文本分词工具,很适合java初学者。其中有分词jar文件。-Good text segmentation tool, it is suitable for java beginners. Which took part in the word jar file.
Tagxedo
- 实现文字的分词,展示,可以选择图片,根据图片的轮廓利用文字分词后的结果重新进行画画,使词频的大小来控制文字在图片中的大小,非常形象直观,且及富美感-Text participle, display, can choose picture, according to the outline of the image using the text after the word segmentation results back to drawing, make the word frequency
ictclas4j
- 中科院中文分词系统完成的java源码,能很好的实现中文的分词,为文本挖掘提供基础。-Chinese Academy of Sciences Chinese word segmentation system to complete the java source code, can achieve good word of Chinese, provide a basis for text mining.
txtAnalysisGUI
- 文本分析小程序,能够进行简单的文本分析,包括分割单词,统计单词出现数等,适用于初学者-Text analysis applets, can be simple text analysis, including word segmentation, statistics and number of words appear, for beginners
TestNLPIR
- JAVA实现的分词工具,可以进行对文本的分词并提取关键字-JAVA implemented segmentation tools, can be on the word of the text and extracting keywords
909aae2c-4f2c-4771-83e4-6894516f14e1
- 一个中文分词算法,可以实现将分词文本切分成自定义字典中的单词-A Chinese word segmentation algorithm, you can achieve the word segmentation text into a dictionary of words
NLPIRS
- 中科院分词工具,适用于短文本挖掘,对情感倾向进行分类。-The Chinese academy of sciences segmentation tools IKAnalyzer2013, suitable for text mining
ReadFiles
- 对中文文本进行分词,去停用词以及计算tf-idf值-The Chinese text segmentation, excluding stop words and computing tf- idf values
cwsegment-master
- 这是用hmm模型编写的中文分词源码,java 运行环静,只需要解压导入文件,将测试文本更改,便可以测试其效果-This is written in the HMM model of Chinese word segmentation source code, Java running ring is static, only need to unzip the import file, will test the text changes, can then test its effect