搜索资源列表
utils
- 用VISUAL C++编写的中文分词系统 UTILS算法-Using VISUAL C++ Prepared Chinese word segmentation system Utils algorithm
KTDictSeg_V1.3.01
- KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法-KaiToo search by KTDictSeg developed a simple dictionary based on English and Chinese word segmentation algorithm
yssfor
- 1、真正的搜索引擎: 2、 网页蜘蛛灵活高效。 3、可控的正文提取。 4、可控的中文分词及新词学习。 5、无人值守。 6、BS架构,虚拟主机支持。 7、强大功能,简单使用。 8、个性化。 9、增强网站软实力-1, the real search engine: 2, Web Spider flexible and efficient. 3, the body of controllable extraction. 4, controlled the Chinese
TDHCursorFactory
- 是一个使用Perl语言编写的一个开源文本挖掘的程序。其中涉及了众多文本挖掘的技术,如文本聚类、分词、索引,搜索引擎、字典等等。-Perl is a language to use an open source text mining process. Involving a large number of text mining technologies, such as text clustering, segmentation, indexing, search engines, dicti
RIP
- 互联网RIP协议示例代码,实现了简单的水平分割算法-RIP Internet protocol sample code to achieve the level of a simple segmentation algorithm
CutwordShort
- 用于搜索引擎上的切词程序,可以获得比较好的分词结果。运行速度可以达到约500k词/s(笔记本上)-For the search engine on the segmentation procedure can be the result of a better word. Running speed of about 800k words/s (notebook)
preprocv
- 30 ms segmentation with Hammimng window (20ms overlap) and eliminate silence part
KWICcase
- 实现关键词检索的一个程序,中文分词,自动检索-To achieve keyword search of a program, Chinese word segmentation, automatic search
SphinxV0.9.8.1source
- SphinxV0.9.8.1source.zip VC++ 基于Lucene扩展的支持中文分词的开源搜索引擎 中文用户-Sphinx V0.9.8.1 source.zip VC++ extensions to support Lucene-based Chinese word segmentation in Chinese open source search engine users
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
fenci
- 用C++写的一个分词算法,有需要的可以下来-Written in C++, a segmentation algorithm, we need to look down
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
tcp
- 介绍TCP协议的一段PDF文档,是分割出来的几个章节,内容全,针对性强,介绍原理和优化方法的。-TCP protocol describes a PDF document, is the segmentation of several chapters, the contents of the whole, targeted to introduce the theory and optimization methods.
mySegment
- 类库程序,基于词典的简单分词,可分中英文混合的情况-Simple dictionary-based segmentation procedure
windows_JNI_32
- 这是中科院的分词软件,内容很全,有使用说明,及相应的demo,用于中文NLP领域的预处理,非常好!-This is the Chinese Academy of Sciences of the segmentation software, content is very wide, there are instructions for use, and the corresponding demo, pre-processing for Chinese NLP areas, very good!
splitword
- 基于VC++6.0的中文分词程序。内含词典。-VC++6.0 based Chinese word segmentation procedure. Embedded dictionary.
1
- 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了-Chinese word segmentation in Chinese information processing is the most basic, whether in machine translation Yihuo information retrieval, or other related appli
lucene-3.1.0-src.tar
- 一个哼强大的全文索引代码,支持自定义分词-Well powerful full-text index of a code, support for custom segmentation
ICTCLAS50_Linux_RHAS_32_C
- 中科院发布的中文分词系统,为国内水平最高的中文分词软件,这是最新版-Chinese Academy of Sciences released a Chinese word segmentation system, the highest level for the domestic Chinese word segmentation software, the latest version of the
myRIP
- 实现了RIP动态路由协议 1. 对客户端收到的RIP报文进行合法性检查,丢弃错误报文并指出错误原因 2. 处理Request报文,根据报文内容及本地路由表信息组成Response报文,实现水平分割 3. 处理Response报文,正确解析其中信息,更新本地路由表 4. 路由表项超时删除 5. 路由表项定时发送,实现水平分割,与2相似。-Implementation of the RIP dynamic routing protocol 1 on the client