搜索资源列表
WordSeg
- 中文分词C++程序,使用前先导入词典Lexicon_full.mdb
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
Uindex.Src
- Uindex是一个开放源代码的搜索引擎,网页搜索量定位在千万量级,目前提供从蜘蛛程序、中文分词到建立全文索引的全部工具程序,FTP搜索提供基于文件名的检索,支持常见的FTP服务器。
HLSSplit
- 重新写的海量分词研究版的JNI程序,对以前的不能使用import的问题进行修改,没有使用时间限制,做了几个方便用的接口。
CSharpFenCi
- 用CSharp编写的一个分词小程序,可以用来中文分次,比较好用
soso
- 分词的源码。自己弄的一个小程序源码。大家一块学习。
compiler
- 编译原理--词法分析器,实现读入一端程序,进行分词,并存入符号表中
dartsplitter
- 这是关于中文分词的有关程序,有正在做中文分词的朋友可以拿去参考一下
splittertest
- 这是有关中文分词的程序、若有需要的话可以参考一下,很有参考价值的哦
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
nicewords4.5中文版
- Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)和分词技术,结合白帽SEO,利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 NiceWords最主要是解决了自动建站的问题。以前的自动建站软件内容都还是需要自己发,有了NiceWord
segtag.rar
- 基于隐马尔科夫模型的分词标注程序,使用PASCAL语言编写,Hidden Markov Model-based sub-word tagging procedures, using the PASCAL language
chinese-word-segment.rar
- 一个的文本分割程序,采用了改变的最大长度切分结合统计分词方法。,this is a project about chines-word segment, it propose a method conmbining the max-seg and the statistic method.
pangusegment-80115
- PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll 盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.HighLight.dll 高亮组件 PanGu4Lucene 这个是盘古分词针对Lucene.net 提供的接口 PanGu.Lucene.Analyzer.dll 盘古分词针对Lucene.net 的接口组件 PanGu.Lucene.ImportTool.exe 示例程
Chinese-Word-Segment-And-POS-Tagger
- 实现了中文分词和词性标注程序。分词方法采用“三词正向最长匹配”。词性标注使用HMM方法,用Viterbi算法实现。“三词正向最长匹配”保持了“正向最长匹配算法”快速的特点,同时提高了分词的准确性。-Chinese word segmentation and implemented procedures for POS tagging. Segmentation Methods, " the longest three-match positive words." POS tag
JJCK_Tools
- 拼音加加词库处理工具 Ver1.02 作者:张文焕 本软件用以辅助制作拼音加加格式的词库。它共包括“整理”、“注音”、“排序”、“筛选”、“固顶”5个小程序,具体功能参阅各程序相关说明。另外,dfc、jjgx两个文件夹分别是“大分词”、“加加词库更新”工具,未予集成,请单独选用。-Phonetic processing tools Ver1.02 of Gaga Thesaurus: Zhang Wenhuan the software used to assist production
biwebcorp_v5.8.1_SC_UTF8_Build090829
- BIWEB商务智能网站系统是依托在ArthurXF企业应用级PHP开发框架上的大型网站系统,是由上海网务网络信息有限公司经历了5年不断的在各种大型项目中实践、总结、开发设计出来的一个快速开发、简单易用的面向对象的企业应用级PHPMVC建站系统。现由上海网务公司开源发布,共同促进行业发展。BIWEB的设计初衷就是为了简化企业级各种基于WEB应用程序的开发,针对各种大中型企业应用级web项目,有着各种优化手段,能让服务器硬件性能提升到最大化应用。BIWEB建站系统集合了网站SEO、链接优化、数据分流
SegmentationDLLSourceCode
- 根据字典来对中文进行分词的程序,最终可以编译成为dll文件来使用。-According to the dictionary to be conducted in Chinese word segmentation procedure could eventually become a dll file to the compiler to use.
lucene
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了·1·在vc6编译2·还不支持分词,但支持汉字,-汉化CLucene Today, the procedures put CLucene changed a bit, you can support the Chinese characters one at vc6 compiler 2 do not support sub-word, but will support the Chinese characters,