搜索资源列表
ktdictseg_v1.0.01
- 一个关于分词源码,分词效率较高。算法简单实用。
FreeICTCLASLinux
- 中科院ICTCLAS中文分词库,linux开源版-open source ICTCLA
word-segment-tool-for-chinese
- 基于北大语料库的分词器,简单,有使用说明-a chinese word segment tool
libstemmer_java
- linux系统下的分词软件,由java编写,我刚开始在windows下使用,折腾了两天,才发现在linux下-stemmer
FreeICTCLAS
- 分词,国内比较著名的一款开源分词软件。ICTCLAS是中科院两位教授编写的,十分经典-Segmentation, the Mainland and a well-known open source software word. Chinese Academy of Sciences ICTCLAS is prepared by two professors, very classic
NiceWords
- Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词,其他的一切交给NiceWords来完成! -Nicewords is the top
libsvm-2.89
- 该软件完成的是在linux下的分词,可以进行词性标注,可以用于中英文分析-The software is a complete linux under a sub-word, can be part of speech tagging can be used for analysis in Chinese and English
mmtrie
- 写这个的出发点是吧之前做的trie能写到文件而且能很容易mmap到内存, 可以用于输入法 搜索引擎分词 词表的功能, 共享前缀存储, 支持最大20亿节点. 简单一点可以当一个hash表使用, 查找的时间复杂度为 N* Log(256) N为字符长度, key可以为二进制的数据, value 必须为int类型, 不能为0, 因为mmtrie_get()/find() 没有结果的情况下为0, 如果需要set value为0的话自己+1, 出来的时候-1就好了.-Write the start
CRF-0.54.tar
- crf 包:crf实现包,用于分词等方面 -crf package: crf implementation packages for word segmentation, etc.
Linux_C_32
- ICTCLAS linux环境下借口和源文件,同时包含例子。是国内一个非常好的开源中文分词系统。-ICTCLAS linux
ICTCLAS50_Linux_RHAS_32_JNI
- 中科院中文分词程序,国内相关领域的的权威.这是Java(JNI)32位版-Institute of Chinese word segmentation program, the domestic authority of the relevant fields, which is Java (JNI) 32-bit version
ICTCLAS50_Linux_RHAS_64_JNI
- 中科院中文分词程序,国内相关领域的的权威.这是Java(JNI)64位版-Institute of Chinese word segmentation program, the domestic authority of the relevant fields, which is Java (JNI) 64-bit version
boosting_src
- Boosting中的AdaBoost.M1算法在文本分类中的应用实现。使用ICTCLAS用于中文分词,弱分类器使用Naive Bayes。程序参数使用配置文件的格式。-Application of text classification using AdaBoost.M1. Use ICTCLAS tool in Chinese segment, and use Naive Bayes as the weak classifier. use the config file as the para
freqci2009
- 是一个自动分词软件,采用正向最大匹配法,文档解压后可以直接使用,内附有源代码。-An automatic segmentation software, using the forward maximum matching method, the document can be used directly after decompression included the source code.
fenx
- 分词文本处理 可以很快的分割字符串 效果快-Sub-word text processing word text processing
TestWordSegment
- 功能组件,是分词系统的核心类 处理中文语句分词-Functional components, segmentation Segmentation System core classes deal with Chinese statement
zidong
- 用c++实现自动文摘功能,包括自动分词,计算句子权重,摘录等功能,整个的程序代码都有-With c++ automatic summarization, including automatic word calculated weights sentence, extract features such as the entire program code
1
- 自动对文本进行分词,用正向最大逆向最大匹配法结合进行。-Automatic word segmentation of the text, with the maximum reverse maximum matching method combined with.
stanford-postagger-2013-11-12
- 英文分词工具,主要用于英文单词分词,是斯坦福大学的著作权,国外网站不好下,现已下好!-English word tool, mainly for the English word segmentation, Stanford University, copyright, foreign websites is not good, there is now just great!
python-cutword
- 用python写的中文分词,分词效果很好,有接口可以直接调用接口。-cut word process using python,it s good for cutting word.It has interface to be used easily.