搜索资源列表
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
77433632mmseg-v0.1
- 使用最大正向匹配算法,实现中文自动分词,对于初学者有很高的参考价值。-The biggest being the use of matching algorithm, the realization of Chinese word segmentation, for beginners, has high reference value.
theshortest
- 最短路径法分词程序.将中文句子经过原子切分后生成一个有向无环图,然后使用Dijkstra算法求出由起点到终点的-The shortest path segmentation process. After the Chinese sentence after splitting atoms to generate a directed acyclic graph, and then use the Dijkstra algorithm derived from the point of origi
Chinese-text-categorization-Study
- 本文通过对Bayes、KNN、SVM 应用于中文文本分类进行比较实验研究。 应用ICTCLAS 对中文文档进行分词,在大维数,多数据情况下应用TFIDF 进行 特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本 具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值数据进行 训练和分类。-Based on the Bayes, KNN, SVM applied to compare the Chinese text ca
WordTest
- 本文阐述了一个基于K-Nearest Neighbor(KNN)算法的中文网页自动分类系统的体系结构、具体设计和实现过程。系统分成三个模块:中文网页的下载与过滤(王勋完成);KNN算法的训练与分类(黄健完成);算法评估以及分词系统的整合(吴亮完成)。 本人主要是实现算法的评估以及分词系统的整合:分词系统的整合利用爱博汉语分词系统(服务器版本—共享版),将下载下来的中文网页过滤后所得到的txt文件内容进行分词,以便提供给KNN算法进行训练和分类;算法的评估是将KNN算法后所得到的结果进行分析,
searching
- 中文搜索引擎分词关键技术,包括对典型算法和技术的总结介绍,适合初学者-Chinese words splitting short referenece, for the beginner
bhav-saar-master
- 一种自然语言处理的算法 用于情感分析 将一篇文章以关键字的角度来区别正面负面 已经添加了中文词典,可以对中文使用(请对语料先分词)-A natural language processing algorithm for sentiment analysis will be an article with keywords to distinguish between the positive and negative perspective has been added Chinese dict
nlu_project
- 采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写-Using machine learning methods for natural language processing, carried out on the Chinese word segmentation and POS tagging. Segmentation using crf model, tagging with
fenciledebeiyesi
- 中文文本分词系统+基于贝叶斯算法的文本分类源码,用matlab实现。-Chinese word segmentation system+ based on Bayes text classification source code, using matlab implementation.
合工大自然语言处理报告代码
- 四、中文词法分析系统 1、实验要求 语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最长匹配,或者后向最长匹配等算法,鼓励用更复杂一些的方法来进行,包括隐马尔科夫模型和条件随机场模型。 二、宋词自动生成 1、实验要求 语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 实现了隐马尔科夫模型分词