搜索资源列表
MyChineseSeg
- 自然语言处理 C# 汉语分词软件 基于正向最大匹配算法并基于一定规则-Natural language processing C# Chinese word segmentation software is based on forward maximum matching algorithm based on certain rules
nlu_project
- 采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写-Using machine learning methods for natural language processing, carried out on the Chinese word segmentation and POS tagging. Segmentation using crf model, tagging with
ktdictseg_v1.0.01
- 一个关于分词源码,分词效率较高。算法简单实用。 -一个关于分词源码,分词效率较高。算法简单实用。
GP
- 一个简单的中文分词系统,基于正向最大匹配算法和逆向最大匹配算法。-A simple Chinese word segmentation system, based on the forward and reverse maximum matching algorithm maximum matching algorithm.
Single-Pass
- 改进Single-Pass聚类算法,包括分词、tfidf计算、卡方检验特征选择-Improved Single-Pass Clustering Algorithm
fenci_v1.0_utf8
- 本程序利用数学算法简单实现了文章分词的功能,页面清洁、简单。-the program use math to
Chinese-Word-Segmentation
- Chinese Word Segmentation 中文分词 python2.7.5代码,自己编写亲测可用,最大整下匹配算法效果良好-Chinese Word Segmentation
chinese-word-ppl
- 中文分词以及具有简单界面中文分词系统,使用双向匹配算法,并可选择算法不同进行分词-Chinese word segmentation, and has a simple interface Chinese word segmentation system
0nlu_project
- 本系统使用java语言编写,采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。-The system uses java language, using machine learning methods for natural language processing, for Chinese word segmentation and POS tagging. Segmentation using crf mod
TextAnalysis
- TextAnalysis系统及算法设计 输入为ICTCLAS分词后的词语结构信息,对每个词语的词性进行判断。 1. 如果不存在词性,则跳过这次循环。用来跳过一些语气助词等无意义的信息。 2. 由于每个句子都有几个子句,而每个子句都是一个独立的主谓宾结构,所以系统将子句通过标点符号来分隔。最后将所以子句的总情感权值相加得到总句的情感权值。 3. 在对字典的预处理阶段,系统对不同程度的词语赋予了不同的权值。为了提高处理程序的效率,系统只分析对体现语言情感有较大作用的词性(包括形容词、
DividWords
- 主要利用词典来实现最大匹配算法来实现分词-divid wordss
fenci
- 运用正向最大匹配算法和反向最大匹配算法,在已有预料库的基础上实现中文分词-The maximum matching algorithm using forward and reverse maximum matching algorithm, the library has been implemented on the basis of expected Chinese word
wenbchongpaixu
- 这是具有文档间距离的文档重排序算法研究,中文信息处理基于应与与搜索引擎,实现文档的自动分词与索引。-This is the document reordering algorithm based on the distance between the document research, Chinese information processing technology, is used to search engines, to realize automatic document index
Sina-weibo
- 运行环境为C#+MYSQL,并融合了ICTCLAS分词和TF*PDF算法,能够对采集到的信息,做趋势分析和热点发现等分析;此外,您可以通过调整程序中的正则表达式,以匹配相关代码区域的数据。-Runtime environment for C#+ MYSQL, and the integration of ICTCLAS word and TF* PDF algorithm, able to collect information, analyze trends and hot spots dis
InformationGain
- 使用java实现的信息增益算法,附带了一些训练样本,已经进行了分词-Java algorithm using information gain realized, with some training samples have been carried out participle
maximum_entropy
- 最大熵模型IIS参数估计算法的实现,针对自然语言处理中词位分词的任务设计-IIS for maximum entropy
suanfa
- 基于双向匹配法和特征选择算法的中文分词技术研究-Words in technology selection algorithm based on two-way matching and feature Chinese sub
xapian
- 使用Xapian基于C++的多媒体平台搜索算法,可对超文本文件进行分词搜索等功能-Use the Xapian search algorithm for multimedia platform based on C++, which can be word search functions of hypertext documents
BP-neural-network--based-on-Joone
- 基于joone编写的bp神经网络算法,并用到中文分词中,其中以“这支歌太平淡无味了”分词为例, 这支/歌/太/平淡/无味/了 为正确结果,分别获取两者的unicode的二进制形式作为输入样本和期望样本进行训练和测试。-Based joone written bp neural network algorithm, and used in Chinese word, unicode binary form as the input sample and expectations samples f
ictclas4j
- 中文分词器ictclas4j的源码,含有分词器的算法源码,以及案例-Chinese tokenizer ictclas4j source containing the word algorithm source code, as well as case