搜索资源列表
GBKhash
- 利用了GBK编码的hash表,快速进行汉语分词的自然语言程序-Advantage of the GBK-encoded hash table, fast Chinese word segmentation of natural language program
33753115ktdictseg_v1.0.01
- 中文分词算法,效率很高,使用词典树装搜索进行单词切割,并提供扩充词库的函数-It s an arithmetc of word segment,it has a very high efficiency!
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
mmtrie
- 写这个的出发点是吧之前做的trie能写到文件而且能很容易mmap到内存, 可以用于输入法 搜索引擎分词 词表的功能, 共享前缀存储, 支持最大20亿节点. 简单一点可以当一个hash表使用, 查找的时间复杂度为 N* Log(256) N为字符长度, key可以为二进制的数据, value 必须为int类型, 不能为0, 因为mmtrie_get()/find() 没有结果的情况下为0, 如果需要set value为0的话自己+1, 出来的时候-1就好了.-Write the start
fenci
- 分词,很有帮助,可以直接用,转移到自己的函数里,免费下载-Word, helpful, and can be transferred to their function, the free download
ICTCLAS2010CSharpDemo
- 中文分词源程序, 中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45
ShuzhenAnalyzer-1.1.8-jdk1.6.0
- 中文分词 ShuzhenAnalyzer 可用于将文档中词进行划分,比较好用-Word cut using java
VC2010
- VC调用中科院分词2010版组件的最新源码! 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级8次,目前已经升级到了ICTCLAS2010!-VC call to Word 2010 version of t
lucene.net_search
- lucene.net 中文分词 分页高月显示
mySegment
- 类库程序,基于词典的简单分词,可分中英文混合的情况-Simple dictionary-based segmentation procedure
fenci
- 中文分词,可将文件划分词性,有词库,可添加新词-Use LR analysis of the compiler, may realize the words and grammar, semantics analysi
splitword
- 基于VC++6.0的中文分词程序。内含词典。-VC++6.0 based Chinese word segmentation procedure. Embedded dictionary.
1
- 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了-Chinese word segmentation in Chinese information processing is the most basic, whether in machine translation Yihuo information retrieval, or other related appli
svmcls-(2)
- 李荣陆老师做的文本分类器,用中科院分词系统做的,分类方法用的是SVM和K-Rong Lu teachers do text classification, word segmentation system with the Chinese Academy of Sciences to do, classification using a SVM and KNN
ICTCLAS50_Linux_RHAS_64_JNI
- 中科院中文分词程序,国内相关领域的的权威.这是Java(JNI)64位版-Institute of Chinese word segmentation program, the domestic authority of the relevant fields, which is Java (JNI) 64-bit version
jieba分词
- jieba 的java分词包,一般都是python的包,这个可用于java的jieba分词(Jieba Java word segmentation package, generally Python package, this can be used for the Java Jieba participle)
CWSS17.1.1.4
- 基于隐马尔科夫模型的中文分词系统,上交ieee专业大一作业,界面一般,主要用于学习,在此分享,注:开发环境python3.5(Based on Hidden Markov model of Chinese word segmentation system, on the IEEE professional freshman job, interface is common, mainly used for learning, in this share, note: development en
UyghurTextHelper
- 进行维吾尔语分词分句功能,用python语言进行基本的维吾尔语语言处理方法(Uyghur word segmentation function)
apache-cxf-3.0.9
- 分词分析 软件复用是在软件开发中避免重复劳动的解决方案。Web服务实现了业务级别的软件复用,例如在B2B的集成中,各企业之间通过互相调用Web服务,实现了Web服务的共享,Web服务的使用企业不需要再重新开发其他企业中已经存在的服务。(Segmentation analysis)
ansj_seg-master
- ansj_seg-master中文分词安装包(附带安装说明,详情请点击里面的README.md)(Ansj_seg-master Chinese word segmentation package (attached installation instructions, please click on the details of the README.md))