搜索资源列表
Dictory
- 用B-树作为查找存储结构,对中文单词进行哈希,用最长逆向匹配算法进行中文句段分词,实现中文词典以及分词。中文词典规模为十万八千多词汇。分词的正确率在90 以上。-Use the B-tree as storage structure , and hash the Chinese word while storing or searching. Use the longest reverse matching algorithm to split Chinese sentence to word
WordPartation2
- 中文分词程序 利用最大匹配算法 支持GB2312编码格式的文件-Chinese word segmentation procedure using the maximum matching algorithm to support GB2312 encoding format of the file
yinwenfenci
- 英文分词,根据字典的词对英文无空格的词序列进行分解-The English word, according to word dictionary of English words without spaces in the decomposition sequence
SegDll
- windows 编程 mfc 实现的分词程序-windows programming mfc program to achieve the sub-word
HLDLL
- C#调用天津海量分词进行分词,调用DLL进行实现-C# call Tianjin massive word for word, call the DLL to achieve the
YurowAnalyzer_001
- 中文分词软件,.netframework3.5-Chinese word segmentation software,. Netframework3.5
WordFrequencyStatistics
- 字频统计,根据词库 实现汉字分词,效果不错; 另外还能够统计出汉字词出现的频率;-Word frequency statistics, according to Chinese characters thesaurus, word, In addition to the Chinese characters of statistics.
IKAnalyzer3.1.1StableAllInOne
- Lucene 中文分词,很好的 可以随便下压,加油-Lucene Java
GBKhash
- 利用了GBK编码的hash表,快速进行汉语分词的自然语言程序-Advantage of the GBK-encoded hash table, fast Chinese word segmentation of natural language program
33753115ktdictseg_v1.0.01
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数-It s an arithmetc of word segment,it has a very high efficiency!
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
mmtrie
- 写这个的出发点是吧之前做的trie能写到文件而且能很容易mmap到内存, 可以用于输入法 搜索引擎分词 词表的功能, 共享前缀存储, 支持最大20亿节点. 简单一点可以当一个hash表使用, 查找的时间复杂度为 N* Log(256) N为字符长度, key可以为二进制的数据, value 必须为int类型, 不能为0, 因为mmtrie_get()/find() 没有结果的情况下为0, 如果需要set value为0的话自己+1, 出来的时候-1就好了.-Write the start
keyTermExtraction
- 实现了自动分词的功能,以及信息抽取的额功能,非常重要的算法。-Realize the function of automatic segmentation and information extraction of the amount of features, very important algorithms.
ICTCLAS
- ICTCLAS分词,来自中科院的分词器,可以提取指纹的等功能-ICTCLAS
fenci
- 分词,很有帮助,可以直接用,转移到自己的函数里,免费下载-Word, helpful, and can be transferred to their function, the free download
ICTCLAS2010CSharpDemo
- 中文分词源程序, 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45
worddivise
- 中文 分词,-worddivise
AIWordSplit
- 直接运行compile.bat和run.bat即可 使用了3种分词方法: 1.正向最大匹配(ForwardMatch.java) 2.逆向最大匹配(ForwardMatch.java) 3.最大频率匹配(FrequencyMatch.java)(默认) 取频率最高的词,然后两端递归,构建二杈树存储句子中的词语,显示的时候使用中序遍历二杈树 由于极有可能单个字的使用频率比整个词还高,筛选的时候进行了处理 若单个字不处于当前句子开头,先忽略,
gugeheibanbaoshuxuezhimei
- 分多个系列详细介绍了数学的应用,如统计语言模型,中文分词,隐含马尔科夫模型在语言处理中的应用等等非常经典的例子,让我们更深入学习了解数学的光芒所在-Described in detail in several series of mathematical applications, such as statistical language model, Chinese word segmentation, hidden Markov model of language processing an
zhengdike
- (个人原创)《中文网页自动分类》 牵扯的技术有:分词,统计词频,踢出网页中一些特殊字符(用正则表达式),还有需要提取培训集等等!! 此软件禁止商业活动,版权所属“qyTT论坛--www.qyclass.org/bbs” 本文来自: qyTT论坛 http://www.qyclass.org/bbs 我们的使命:让世界认识qyTT,让qyTT认识世界! 结果分析的思想:就是把得到的词频与建立的词库里每一类进行比较,如果存在一个最大匹配程度,就去这个类作为结果,如果存