搜索资源列表
FreeICTCLAS.zip
- 计算所汉语词法分析系统ICTCLAS.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
SegDemo
- 东大的一个分词程序。RuleForPn.dat,segment.dat,segrule.dat是分词动态库要使用的资源文件. userdict.dat是用户词典. CipSegSDK.dll,CipSegSDK.lib是动态库的文件. CipSegDll.h是头文件,供调用使用.-a sub-term procedures. RuleForPn.dat, segment.dat, segrule.dat Dynamic segmentation is to be used for the res
3_31_1
- 中文分词的代码,是用vc++编的.文件名为3_31_1.zip-Chinese word code is used vc series. Documents called 3_31_1. Zip
yangpengwei
- 中文分词程序,是用java语言编的.文件名为yangpengwei.zip-Chinese word segmentation procedure is the use of java language series. Documents called yangpengwei.zip
zya0132_freebbssearch
- 基于中文分词的bbs源程序。具有很好的全站信息检索功能。-based on the Chinese word of bulletin board source. With good station information retrieval functions.
mlct_public
- 这是一个基于Java的分词、N-gram统计、分段 、分句等功能的程序,支持多种语言-This is a Java-based segmentation, N-gram statistics, the sub-clause of the function procedures, multilingual support
分词051024
- 中文信息处理,例如将可含有汉字和拼音的将TXT文本中的汉字和拼音用空格隔开-Chinese information processing, for example, may contain characters and the alphabet will TXT version of the characters and the alphabet with a space separated
WordSeg.exe
- 可以容易地对中文进行分词,对于机器人的理解能力编程有很大的帮助-can easily pair of Chinese Word, the ability to understand robot programming is a great help
Lucene.rar
- lucene建立索引,中文搜索,搜索内容先经过分词,然后搜索,lucene index, Chinese search, search through the contents of the first word, and then search
NETspider
- 军长搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,支持中英文分词,文件相似度分析排序,文件数据时实监控与更新,恐龙级的引索速度和毫秒级的搜索速度,搜索结果高亮显示,系统分两部分组成第一部分是C/s的搜索蜘蛛,第二部分是B/s的 WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。-Search is a commander based on the Microsoft. NET
VSM
- 向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码-Vector space model algorithm, given a segmentation of the document set, you can output vector space model, the characteristics of dictionaries, inverted index table functions, it is the clas
2
- c#中文分词源码,基于词频,词性等,可提取自定义数量的关键词-Chinese word c# source code, based on word frequency, part of speech, can customize the number of keywords extracted
pmqc
- 翻译屏幕上鼠标所指的英文单词、成语或短语,并实现中文取词翻译。 - 翻译屏幕上鼠标所指的英文句子,并可随时切换按词翻译和按句翻译这两种不同的 方式。 - 用户可以随时暂停或恢复屏幕取词功能。 - 通过热键进行屏幕取词,确保仅在需要时才弹出浮动翻译窗口,显示词意。 - 设置取词速度,调整浮动翻译窗口的响应时间。 - 可以选用或取消即指即译同步发音的功能。选择男、女发音和合适的语速。 - 在浮动翻译窗口中提供联机的智能匹配功能。 词典查询: - 翻译用户输入的中英文单词、成语、短语或句子。 - 对中
HMMWordsDivideCsharp
- 隐马分词源代码(Csharp解决方案) -Csharp HMM隐马分词源代码(Csharp解决方案)
1
- 最大概率分词法,词频词典用的是北语版的也有可能是词典的原因-Maximum probability sub-lexical, word frequency dictionary used in the North language version of the dictionary is also possible that the reasons for
Dict
- 中文词库 可供中文搜索引擎开发使用 可供中文分词使用-Chinese dictionary for Chinese language search engine, developed using the Chinese word used for
prop
- 根据概率匹配原则得出句子结构树,很好用的一个演示软件,需要搭配中文分词法进行使用-Come under the principle of probability matching sentence structure tree, with a very good presentation software, need to be used with Chinese sub-lexical
自然语言处理的最好的资源
- python,java代码,可以完成分词,训练词向量,等功能,效果突出。
CEQA
- 功能:分词、特征词的提取、属性的提取、文本的分类等(Function: word segmentation, extraction of characteristic words, extraction of attributes, classification of text and so on)
python词频统计分词
- 利用其可以对csv文件进行分词统计词频,并保持成txt文件,利于科研