搜索资源列表
ICTCLAS_Demo
- 该程序用于短信过滤分析,首先使用ICTCLAS分词系统对输入短信进行分词,接着使用贝叶斯算法分析训练模型。最后对测试集中的短信进行垃圾短信预测。由于短信涉及个人隐私,使用时请自行添加训练数据集和测试数据集-The procedures used for SMS filtering analysis, the first to use the segmentation the ICTCLAS segmentation system input SMS, then use a Bayesian al
0nlu_project
- 本系统使用java语言编写,采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。-The system uses java language, using machine learning methods for natural language processing, for Chinese word segmentation and POS tagging. Segmentation using crf mod
class
- 中文文本分类可以对已经分好词的文本进行分类,先自己导入数据,用libsvm中的svm进行分类和预测,特征用tfidf算法,还利用卡方检验进行了特征选择,可自行设定阈值-text mining
ictclas4j
- 中文分词器ictclas4j的源码,含有分词器的算法源码,以及案例-Chinese tokenizer ictclas4j source containing the word algorithm source code, as well as case
Twitter-LDA-master
- twitter-LDA算法的JAVA实现,LDA算法针对于微博短文本的改进算法,目前只是简单的英文分词功能,没有中文分词功能,-twitter-LDA algorithm JAVA implementation, LDA algorithm for improved algorithm for short text microblogging, now just a simple English word function, there is no Chinese word function,
Divide
- 使用Java语言,用前向匹配算法与后向匹配算法实现中文分词- The use of Java language, with the forward matching algorithm to achieve the Chinese word segmentation
sensity-word-filter
- 敏感词过滤,使用dfa算法+ik分词实现敏感词过滤(UHFdtysgfdsadfasdfasfdasfasfdasfdsadfdahgfds)