搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
segmentor_Perl
- 中文分词算法。Perl语言编写。wordlist.txt为词库。-Chinese Segmentation. Perl language. Wordlist.txt for the thesaurus.
findkey.c
- 此程序解决的问题:较好的, 并适应短字符串的中文分词算法.根据词库 发现以换行符分隔的众多标题中的 top N 关键字并以此更新词库.是一个分类分词算法 -this procedure to solve the problem : better, and adapt to the short string of Chinese Segmentation. According thesaurus found in the many separate newline heading the to
WordSeg
- 利用最大匹配法进行汉语句子的分词 最大匹配算法是最常用的分词算法,简单实用正确率可达到80%以上-the maximum matching method for the Chinese Sentence Word maximum matching algorithm is the most commonly used word segmentation algorithm, simple and practical accuracy rate can reach more than 80%
ProbWordSeg
- 最大概率分词法,这种分词算法能够较好的解决汉语分词中的歧义问题,但分词效率比最大匹配分词算法要低-greatest probability points accidence, Segmentation algorithm can be used to solve the Chinese word segmentation of Ambiguity, but Word efficient than the largest matching segmentation algorithm lower
FreeICTCLAS
- ictclas c++版源代码,适用于C++语言的学习和中文分词算法的研究。-ictclas c++ version of the source code for C++ language learning and Chinese word segmentation algorithm.
VSM
- 向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码-Vector space model algorithm, given a segmentation of the document set, you can output vector space model, the characteristics of dictionaries, inverted index table functions, it is the clas
worddivision
- 自己写的一个关于智能分词算法的文件. 对于想研究搜索引擎的朋友来说必不可少-a algorithm about word division
softwarecode
- 中文分词是中文信息处理中的重要环节,中文分词技术广泛应用于自动翻译、文本检索、语音识别、文本校对、人工智能以及搜索引擎技术等领域。中文分词算法的选择,中文词库的构建方式,词库中词条的完备性在很大程度上与中文分词系统性能紧密相关。-Chinese word segmentation in Chinese information processing is an important part of Chinese word segmentation technology is widely used
WordPartation2
- 中文分词程序 利用最大匹配算法 支持GB2312编码格式的文件-Chinese word segmentation procedure using the maximum matching algorithm to support GB2312 encoding format of the file
fencisuanfa
- 用正向最大匹配发实现句子的分词。是基于词典的分词算法。该算法的特点是速度快,准确率高。-Made to achieve a positive match with a maximum sentence segmentation. Dictionary-based segmentation algorithm. The algorithm is characterized by fast and accurately.
liaotianfenci
- 一种基于国标2312(GB2312)汉字编码标准的分词算法,实现的分词效果是分成单个的汉字,可以识别英文、空格、中英文符号和数字等。也称原子分词算法。-Based on GB 2312 (GB2312) Chinese character coding standard segmentation algorithm to achieve the segmentation effect is divided into individual characters, can be identified
PanGu_Release_V2.3.1.0
- 盘古分词算法,应用于搜索和需要分词的地方,源码-Pangu word segmentation algorithm
ICTCLAS50_Windows_32_JNI
- 中科院开发的中文分词算法,带词性标注等,经典的一个算法-Chinese Academy of Sciences of the Chinese word segmentation algorithm developed, with part of speech tagging, etc., a classic algorithm
ICTCLAS50_Windows_32_C
- C++实现的中文分词算法,可以直接运行,也可以编译运行,还可以添加词典。-C++ of the realization of the Chinese word segmentation algorithm, it can run directly, also can compile operation, also can add dictionary.
RMM
- 逆向最大匹配算法实现分词,分词结果在另一个txt里呈现(Reverse maximum matching algorithm to achieve the word segmentation, word segmentation results in another TXT presentation)
遗忘算法(词库生成、分词、词权重)演示程序
- 通过非主流的遗传算法进行关键词提取,分词的功能(Through the non mainstream genetic algorithm for keyword extraction, word segmentation function)
3130383
- 最大概率分词法,这种分词算法能够较好的解决汉语分词中的歧义问题,但分词效率比最大匹配分词算法要低()
双向最大匹配.py
- 用双向最大匹配算法实现汉语分词。准确率颇高。(Two way maximum matching algorithm is used to realize Chinese word segmentation. The rate of accuracy is quite high.)
chatbot
- 聊天机器人 原理: 严谨的说叫 ”基于深度学习的开放域生成对话模型“,框架为Keras(Tensorflow的高层包装),方案为主流的RNN(循环神经网络)的变种LSTM(长短期记忆网络)+seq2seq(序列到序列模型),外加算法Attention Mechanism(注意力机制),分词工具为jieba,UI为Tkinter,基于”青云“语料(10万+闲聊对话)训练。 运行环境:python3.6以上,Tensorflow,pandas,numpy,jieba。(Chat Robot