搜索资源列表
InPutTextFile
- java中文分词系统,很好用的。欢迎下载与修改,并提出宝贵意见。-chinese words splitting system
11111
- 分词典型设计,有正向最大切分法MM与逆向最大切分法RMM!-Sub-dictionary design, has a positive maximum syncopation MM and reverse maximum syncopation RMM!
sse4j
- SSE4J(Spatial Search Engine for Java)是针对地理信息数据源构建的垂直搜索引擎应用接口,是基于Lucene+JTS Topology Suite开源库设计的框架。 规划的SSE4J包含: 1)SSE4J应用开发包 2)SSE4J Webservice应用接口 3)SSE4J工具集 规划的SSE4J包含的功能: 1) POI搜索(名称、地址、类型等关键字搜索;周边搜索) 2)道路搜索、区域搜索 3)地址匹配、
Web-Chinese
- 中文自动分词技术是中文 Web信息处理的基础。文中以最大匹配法(MM)为基础 ,充分 考虑上下文(MMC) ,在内存中采用二分法进行分词匹配 ,有效地提高了分词的准确率和时效。-Chinese automatic segmentation technology is Chinese Web information processing foundation. The maximal matching method (MM) as the foundation, fully Conside
forictclas
- 1.在vs2008下,解压缩即可运行 2.该代码为中科院的中文分词系统ictclas源码,本人修改部分bug后上传 3.运行后输入 中文字符串就可以-1. In vs2008, the extract to run 2. The code word for the Chinese Academy of Sciences of the sub-system ictclas source, I modified some bug and upload 3. Run and enter the
Word-Segmentation
- 分词程序,用于文本分词,可以进行分词,统计词频-Segmentation procedure, used for text segmentation
Miniseg
- 用java实现的一个小型分词程序,可以将词语分隔开来,但缺乏标注,如:他 喜欢 吃 苹果 。-Achieved with a small java program segmentation, words can be separated, but the lack of marking, such as: He likes to eat apples.
ictclas4j
- 本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。-The code is implemented using java segmentation features, including word segmentation and POS tagging, which have specific documentation, including data structure design, word steps, such a
ICTCLAS50_Windows_32_JNI
- 中科院分词软件,用于语料预处理,不错的。-ictclass word split
Chinese_wordspliter
- 使用正向最大匹配法的中文分词器 分别读入待分词文本文件及字典文件后,将经处理后的结果输出至另一文件予以保存。所用待分词文件样例约有字符184万个,处理时间在11s左右。程序使用C++语言编写。-Using the forward maximum matching device of Chinese words segmentation, respectively, to be read into the text file and dictionary file, the result will
WekaTest
- weka包+eclipse完成中文语料库分词 分类-weka package+ eclipse complete classification of Chinese word segmentation corpus
SearchEngine
- Java实现的搜索引擎,有网页爬虫,查询服务,中文分词,索引建立等- realize search engine in Java
WordSeg
- 分词系统,主要是对中文进行分词处理,对初学者有一定的帮助。-Segmentation system is mainly deal with the Chinese word segmentation, there is some help for beginners.
ICTCLAS50_Windows_32_C
- python中文分词\ CDict.py-Chinese word python \ python Chinese word \ CDict.py
lucene-3.1.0-src.tar
- 一个哼强大的全文索引代码,支持自定义分词-Well powerful full-text index of a code, support for custom segmentation
searWord
- 关于搜素引擎的搜索分词 及项目案例和相关Jar包-Search on the search engines segmentation and project case
ICTCLAS
- 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009。-Institute of Computing Technology, Chinese Academy of resear
cut_cn
- java写的分词程序,界面很简单,很好用,内部的类封装的很好。-java program to write the sub-word, the interface is very simple, useful, well encapsulated within the class.
small
- 一个测试用的中文分词代码,基于FMM分词算法-Chinese word segment code
svmcls
- 基于KNN+SVM算法的文本分类器,附带权威的分词词库及算法,有界面,程序可正常使用-KNN+ SVM-based text classification algorithm, with the authority of the sub-word thesaurus and algorithm, a interface, the program can be used normally