搜索资源列表
词库 zwcksc30
- 分词系统的补充数据库,对于不同的领域有不同的数据库。-Word of the database system and for different areas have different databases.
ansj_seg-master
- 一个很好的中文分词工具,其中使用了CRF做词性标注以及新词发现(A good Chinese word segmentation tool, in which CRF is used for part of speech tagging and new word discovery.)
CPP
- 分词,结巴分词C++版本。自己学习用,或者可以加入自己的项目(participle,C++ version of participle.Learn to use, or join your own project)
JNA
- 中文的分词,包括词性标注、关键词提取,Java文件(word segmentation and part of speech tagging)
chinese_seg_update
- 中文分词,采用逆向最大匹配方法实现,利用字典作为索引(The Chinese word segmentation is realized by the reverse maximum matching method, and the dictionary is used as the index.)
CorpusWordParser
- 语料分词和词性标注软件。 软件只支持打开文本格式(.txt)的文件,其他类型文件需先另存为文本文件格式后再处理。 软件可以自动识别、处理文本文件的不同字符编码(GB或Unicode等)。(Word segmentation and part of speech tagging software. Software only supports files that open text format (.Txt), and other types of files need to be sav
Chinese Word Segementation
- 根据所给中文词典,对中文文本进行正向最大匹配分词,其中包括读取文本,并对其分词(According to the Chinese dictionary, the Chinese text is given a positive maximum matching word, which includes the reading of the text and the participle of the Chinese text.)
双向最大匹配.py
- 用双向最大匹配算法实现汉语分词。准确率颇高。(Two way maximum matching algorithm is used to realize Chinese word segmentation. The rate of accuracy is quite high.)
jieba-jieba3k
- MATLAB 结巴分词的工具包,用于很多中文分词的模式识别代码程序,利用已有函数工具包提高工作效率,内有安装说明(MATLAB jieba toolkit, used for many Chinese word segmentation pattern recognition code programs, using existing function toolkits to improve work efficiency, with installation instructions)
wordseg
- 运用R语言进行中文分词处理,得到词频统计,并绘制词云图直观表示(Chinese word segmentation and word cloud drawing)
20180306142010_ICTCLAS2016分词系统下载包
- 供中文文本挖掘程序员使用,训练文本挖掘能力(Chinese Corpus, used to exercise and test your ability of digging in Chinese Text)
jieba-0.38
- jieba 分词,用在Python中,对中文文本进行分词(Jieba participle, used in Python to segment Chinese text;)
NICTCLAS
- NICTCLAS是大名鼎鼎的中科院计算所语词法分析系统ICTCLAS免费版的.NET包装版本,在原有免费EXE源码的基础上使用C++ /CLI封装成NICTCLAS.dll,将原CResult类改写成NICTCLAS managed class,并为适应VC8编译对源码做了少许改动,当然还有N个因为strcpy之类的警告因为实在太多干脆不予理会。如有错漏请不吝指正。 NICTCLAS做了一定程度的简化,接口非常简单,普通分词应用足够了,这里提供C#执行程序调用示例。词库文件下载解压请放在对
Python逆向最大匹配实现-代码-文档-截图等
- 对于文本进行自然语言处理,中文分词。北邮计算机院NLP课的作业。(This is a homework for BUPT student, implementing the word segment of natural language processing.)
CWS_LSTM-master
- 使用python实现的分词,使用长短期记忆神经网络。(Using Python to implement participle, use long term memory neural network.)
icwb2-data
- 中文分词数据,含有as、 cityu、msr、pku数据,包括测试集、训练集(Chinese word segmentation data)
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.py reference 维特比算法:(python
jieba分词.net源码
- 该项目是jieba分词组件的.net版本源码实现,生成的库可以使用,分词也较好
chatbot
- 聊天机器人 原理: 严谨的说叫 ”基于深度学习的开放域生成对话模型“,框架为Keras(Tensorflow的高层包装),方案为主流的RNN(循环神经网络)的变种LSTM(长短期记忆网络)+seq2seq(序列到序列模型),外加算法Attention Mechanism(注意力机制),分词工具为jieba,UI为Tkinter,基于”青云“语料(10万+闲聊对话)训练。 运行环境:python3.6以上,Tensorflow,pandas,numpy,jieba。(Chat Robot
垃圾短信分类
- 基于文本内容的垃圾短信识别,对数据进行了数据清洗,分词等,进行 了模型训练及评价(Based on the text content of spam short message recognition, data cleaning, segmentation, model training and evaluation are carried out)