搜索资源列表
cidian
- 基于最大匹配算法的的中文分词组件,达到很好的分词准确率
bogofilter-0.93.4.tar
- 开源项目BOGOFILTER的源码.该项目实现BAYES文本分类算法,不过该源码只支持英文的分词
Qiyi
- 最大概率法分词的数据结构与算法,用这样的方法分词可以提高分词中歧义词的辨别率,非常经典啊-greatest probability - term data structure and algorithm, this approach can increase Word word-of ambiguous words in the identification rate, very classic ah
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
SentenceSimilar.rar
- 先对句子分词,然后根据词来比较句子的相似度,这个算法清晰易懂,欢迎下载!,The first word of the sentence, and then to compare the sentence the word similarity, this algorithm is clear and easy to understand, welcome to download!
Chinese-Word-Segment-And-POS-Tagger
- 实现了中文分词和词性标注程序。分词方法采用“三词正向最长匹配”。词性标注使用HMM方法,用Viterbi算法实现。“三词正向最长匹配”保持了“正向最长匹配算法”快速的特点,同时提高了分词的准确性。-Chinese word segmentation and implemented procedures for POS tagging. Segmentation Methods, " the longest three-match positive words." POS tag
ChineseSplit
- 一个基于VB.NET开发的中文分词及关键词提取系统,采用双向最大匹配、词频统计、快速排序等算法实现。-VB.NET developed based on Chinese word segmentation and Key Extraction System, the largest two-way matching, word frequency statistics, such as quick sort algorithm.
Auto_WordSeg
- 自动分词程序演示。包括最大、最小,正向、逆向等分词算法。-Automatic word segmentation procedure demonstrates. Including the largest, smallest, positive, reverse algorithm.
77433632mmseg-v0.1
- 使用最大正向匹配算法,实现中文自动分词,对于初学者有很高的参考价值。-The biggest being the use of matching algorithm, the realization of Chinese word segmentation, for beginners, has high reference value.
DTWspeech
- 本 文 首先 介绍了语音识别的研究和发展状况,然后循着语音识别系统的 处理过程,介绍了语音识别的各个步骤,并对每个步骤可用的几种方法在实 验基础上进行了分析对比。研究了语音信号的预处理和特征参数提取,包括 语音信号的数字化、分帧加窗、预加重滤波、端点检测及时域特征向量和变 换域特征向量.其中端点检测采用双门限法.通过实验比对特征参数的选取, 采用12阶线性预测倒谱系数作为识别参数。详细分析了特定人孤立词识别算 法,选定动态时间弯折为识别算法,并重点介绍其设计实现。 在
segthewords
- 它是文本分词程序代码的核心算法,可以为语言学者提供强大的分词功能。-Is a code word the text of the core algorithm
theshortest
- 最短路径法分词程序.将中文句子经过原子切分后生成一个有向无环图,然后使用Dijkstra算法求出由起点到终点的-The shortest path segmentation process. After the Chinese sentence after splitting atoms to generate a directed acyclic graph, and then use the Dijkstra algorithm derived from the point of origi
phpsojiqidll
- 自己写的一些PHP扩展EXT DLL,包括搜集齐分词扩展,imagick动态处理图片类,搜集齐核心排序算法DLL(www.sojiqi.com)-PHP to write some of their expansion EXT DLL, including the expansion of the collection of word Qi, imagick dynamic picture categories, the core sorting algorithm to collect Qi
PExtractor
- 地名抽取算法,利用开源分词组件,并增加了地名前词识别,地名组合等逻辑。-Names extraction algorithm, using open-source word components, and increases the names before the word recognition, place names and combination logic.
ycsfwordseg
- 基于遗传算法的分词论文 基于遗传算法的分词论文-Segmentation Based on Genetic Algorithms PapersSegmentation Based on Genetic Algorithms PapersSegmentation Based on Genetic Algorithms Papers
code
- 这其中涉及了黑名单、文本分类算法、短信内容分词、特征向量 选取等关键技术-That involves a black list, text classification algorithm, SMS is divided into words, feature vector selected key technologies such as
CLucene
- clucene 源码,并且增加了自己写的正向最大匹配算法的分词程序。-clucene source code, and increase their own to write the forward maximum matching algorithm for the sub-word program.
chiword_seg
- 本代码含有逆向最大,正向最大,最短路径等自动识别算法,实现文本中分词的自动识别。-This code contains the largest reverse, forward the most, such as automatic identification shortest path algorithm to achieve automatic recognition of text carved words.
Chinese-text-categorization-Study
- 本文通过对Bayes、KNN、SVM 应用于中文文本分类进行比较实验研究。 应用ICTCLAS 对中文文档进行分词,在大维数,多数据情况下应用TFIDF 进行 特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本 具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值数据进行 训练和分类。-Based on the Bayes, KNN, SVM applied to compare the Chinese text ca