搜索资源列表
Program1
- 这是中文信息处理的分词算法实现,具有很高的正确率和使用价值!这是分词算法的核心内容!具有很高的参考价值。-The text clustering algorithm based on text similarity computing research and implementation, this is an important branch of Chinese information processing.
wenbchongpaixu
- 这是具有文档间距离的文档重排序算法研究,中文信息处理基于应与与搜索引擎,实现文档的自动分词与索引。-This is the document reordering algorithm based on the distance between the document research, Chinese information processing technology, is used to search engines, to realize automatic document index
DeleteStopWord
- 此源码组要用于中文文本预处理。源码首先进行文本分词,分词之后对文本中的停用词进行过滤。-text preprocessing
pythonsample
- 自然语言处理的例子,可以实现分词和新词发现,中文预处理也支持。用python写的-Examples of natural language processing can be achieved segmentation and new words found Chinese pretreatment also supported. Written with python
MMSeg
- 中文自动分词系统,java编写,有界面。可以实现正向最大匹配FMM和逆向最大匹配B-Chinese automatic segmentation system, java write, there are interfaces. You can achieve maximum matching FMM forward and reverse maximum matching BMM
ictclas2013_release
- ICTCLAS2013 java版,中文文本分词系统-ICTCLAS2013 java
201411149222244
- 随便下载一篇中文的文本文档,通过这个程序可以将文档进行分词处理,还能够统计词语出现的次数-To download a Chinese text documents, through this program can be word processing document, will also be able to statistics the number of occurrences of words and phrases
SegDemo
- stanford分词器的使用示例,本分词器适用与中文-Example of use stanford word segment
1
- 检测中文文章的相似度,首先对中文文章分词处理,然后提取特征,计算特征向量夹角。检验是否相似-Similarity detection Chinese article, the first article of the Chinese word processing and feature extraction, feature vector angle calculation. Test whether similar
emotionalPjar
- 利用IKanalyzer进行分词1.可自定义词表,2.读取本地文件3.将词表与本地文件分词后进行中文词匹配- 1. use IKanalyzer be customizable word vocabulary, 2. 3. After reading the local papers and local papers vocabulary word were Chinese words Match
ReadFiles
- 对中文文本进行分词,去停用词以及计算tf-idf值-The Chinese text segmentation, excluding stop words and computing tf- idf values
kms3
- 任意聚合成员搜索引擎、分类搜索快速建立行业网站群组搜索引擎、缓存技术静态化搜索、中文智能分词技术、广告管理、WAP移动搜索;后台程序采用多线程调用成员引擎,大大提高搜索速度、性能和系统负载能力。 -Any aggregation member search engine, category search quickly establish industry group of websites search engine, caching static search, Chinese intell
kms_v3.1
- 元搜索引擎(MetaSearch)的特点是把多个独立搜索引擎的搜索结果整合、控制、优化,再把搜索结果输出到客户端。元搜索引擎不需要庞大的网页数据库,而能够搜索到更加丰富、准确的内容。K-MetaSearch是由Kwindsoft自主研发的元搜索引擎产品。主要功能特点:任意聚合成员搜索引擎、分类搜索快速建立行业网站群组搜索引擎、缓存技术静态化搜索、中文智能分词技术、广告管理、WAP移动搜索;后台程序采用多线程调用成员引擎,大大提高搜索速度、性能和系统负载能力。-Meta search engine
chinesespliter
- 中文分词源码C++,分词效果不是特别的好,但是实现了。-Chinese word source C++, segmentation results are not particularly good, but true.
THULAC_lite_java_v1
- 中文文本分词 词频统计,分词,去掉停词。 仅支持UTF-8编码-Chinese text segmentation To get the word frequency, word segmentation, remove stop words. Support only UTF-8 encoding
learning
- 机器学习代码,贝叶斯java的实现代码。其他还用到了中文语言的分词器。有注释,易于阅读。-Machine learning code, Bayesian java implementation code. Other languages also uses the Chinese word breaker. Notes, easy to read.
tc-corpus-answer
- 复旦中文文本语料库,共十类文本,未分词,有兴趣可以-Fudan Chinese text corpus
fenciledebeiyesi
- 中文文本分词系统+基于贝叶斯算法的文本分类源码,用matlab实现。-Chinese word segmentation system+ based on Bayes text classification source code, using matlab implementation.
topic.py
- 基于LSI的中文主题模型提取软件,对用户提供的文本进行分词后,提取出文本的主题,可自己定义提取出多少个主题。-Topic model
fnlp-master
- 自然语言分析 1、分词 2、中文对比 3、很不错的分析工具-efaejkj lafjlkdjalkjkljr lkfajkdja d