搜索资源列表
词库 zwcksc30
- 分词系统的补充数据库,对于不同的领域有不同的数据库。-Word of the database system and for different areas have different databases.
NETspider
- 军长搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,支持中英文分词,文件相似度分析排序,文件数据时实监控与更新,恐龙级的引索速度和毫秒级的搜索速度,搜索结果高亮显示,系统分两部分组成第一部分是C/s的搜索蜘蛛,第二部分是B/s的 WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。-Search is a commander based on the Microsoft. NET
VSM
- 向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码-Vector space model algorithm, given a segmentation of the document set, you can output vector space model, the characteristics of dictionaries, inverted index table functions, it is the clas
segmentation
- 对文本进行分词,使用停用词表去除停用词,标点等。(segmentation, and deleting stop words and punctuations.)
ansj_seg-master
- 一个很好的中文分词工具,其中使用了CRF做词性标注以及新词发现(A good Chinese word segmentation tool, in which CRF is used for part of speech tagging and new word discovery.)
CPP
- 分词,结巴分词C++版本。自己学习用,或者可以加入自己的项目(participle,C++ version of participle.Learn to use, or join your own project)
chinese_seg_update
- 中文分词,采用逆向最大匹配方法实现,利用字典作为索引(The Chinese word segmentation is realized by the reverse maximum matching method, and the dictionary is used as the index.)
CorpusWordParser
- 语料分词和词性标注软件。 软件只支持打开文本格式(.txt)的文件,其他类型文件需先另存为文本文件格式后再处理。 软件可以自动识别、处理文本文件的不同字符编码(GB或Unicode等)。(Word segmentation and part of speech tagging software. Software only supports files that open text format (.Txt), and other types of files need to be sav
双向最大匹配.py
- 用双向最大匹配算法实现汉语分词。准确率颇高。(Two way maximum matching algorithm is used to realize Chinese word segmentation. The rate of accuracy is quite high.)
jieba-jieba3k
- MATLAB 结巴分词的工具包,用于很多中文分词的模式识别代码程序,利用已有函数工具包提高工作效率,内有安装说明(MATLAB jieba toolkit, used for many Chinese word segmentation pattern recognition code programs, using existing function toolkits to improve work efficiency, with installation instructions)
wordseg
- 运用R语言进行中文分词处理,得到词频统计,并绘制词云图直观表示(Chinese word segmentation and word cloud drawing)
20180306142010_ICTCLAS2016分词系统下载包
- 供中文文本挖掘程序员使用,训练文本挖掘能力(Chinese Corpus, used to exercise and test your ability of digging in Chinese Text)
jieba-0.38
- jieba 分词,用在Python中,对中文文本进行分词(Jieba participle, used in Python to segment Chinese text;)
NICTCLAS
- NICTCLAS是大名鼎鼎的中科院计算所语词法分析系统ICTCLAS免费版的.NET包装版本,在原有免费EXE源码的基础上使用C++ /CLI封装成NICTCLAS.dll,将原CResult类改写成NICTCLAS managed class,并为适应VC8编译对源码做了少许改动,当然还有N个因为strcpy之类的警告因为实在太多干脆不予理会。如有错漏请不吝指正。 NICTCLAS做了一定程度的简化,接口非常简单,普通分词应用足够了,这里提供C#执行程序调用示例。词库文件下载解压请放在对
Python逆向最大匹配实现-代码-文档-截图等
- 对于文本进行自然语言处理,中文分词。北邮计算机院NLP课的作业。(This is a homework for BUPT student, implementing the word segment of natural language processing.)
CWS_LSTM-master
- 使用python实现的分词,使用长短期记忆神经网络。(Using Python to implement participle, use long term memory neural network.)
HMM-master
- 隐马尔科夫模型进行中文分词 模型训练 python HMM_train.py RenMinData.txt_utf8 RenMinData.RenMinData_utf8 为人民日报已经人工分词的预料。 生成三个文件 * prob_start.py 为模型的初始概率 * prob_trans.py 为模型状态转移概率 * prob_emit.py 为发射概率 测试模型效果 python HMM.py reference 维特比算法:(python
jieba分词.net源码
- 该项目是jieba分词组件的.net版本源码实现,生成的库可以使用,分词也较好
chatbot
- 聊天机器人 原理: 严谨的说叫 ”基于深度学习的开放域生成对话模型“,框架为Keras(Tensorflow的高层包装),方案为主流的RNN(循环神经网络)的变种LSTM(长短期记忆网络)+seq2seq(序列到序列模型),外加算法Attention Mechanism(注意力机制),分词工具为jieba,UI为Tkinter,基于”青云“语料(10万+闲聊对话)训练。 运行环境:python3.6以上,Tensorflow,pandas,numpy,jieba。(Chat Robot
垃圾短信分类
- 基于文本内容的垃圾短信识别,对数据进行了数据清洗,分词等,进行 了模型训练及评价(Based on the text content of spam short message recognition, data cleaning, segmentation, model training and evaluation are carried out)