搜索资源列表
hisense
- 程序的主要思想是先对数组进行处理,使其有序,处理后的结果存放在t1.txt文件中。。然后在此基础上建立索引,使在查字典时可以减少比较的次数,节省程序的时间。再利用最大匹配算法对程序进行分词,分词的结果保存在t2.txt文件中。然后再拿分好词的文件与libing_test文件进行比较匹配率,匹配结果存放在result.txt文件中。-procedures main idea is first to array processing, it orderly, After processing the
SQLET_split
- SQLET分词算法,一个C程序,供大家参考。-SQLET segmentation algorithm, a C program, for your reference.
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
NewWord
- 新词自动登录 该程序完成在中文自动分词过程中对词典中没有的词条进行自动的登录功能-new words automatically logged the procedures are completed in the Chinese automatic segmentation of the process not in the dictionary entries for automatic Teng recorded function
cutword
- 用VB与数据库相连接实现中 文分词的程序,采用了正向 最大匹配算法。-using VB and database links, Chinese word segmentation procedures using the largest positive matching algorithm.
WordSeg
- 中文分词C++程序,使用前先导入词典Lexicon_full.mdb
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
Uindex.Src
- Uindex是一个开放源代码的搜索引擎,网页搜索量定位在千万量级,目前提供从蜘蛛程序、中文分词到建立全文索引的全部工具程序,FTP搜索提供基于文件名的检索,支持常见的FTP服务器。
CSharpFenCi
- 用CSharp编写的一个分词小程序,可以用来中文分次,比较好用
soso
- 分词的源码。自己弄的一个小程序源码。大家一块学习。
compiler
- 编译原理--词法分析器,实现读入一端程序,进行分词,并存入符号表中
dartsplitter
- 这是关于中文分词的有关程序,有正在做中文分词的朋友可以拿去参考一下
splittertest
- 这是有关中文分词的程序、若有需要的话可以参考一下,很有参考价值的哦
EasyXSpider
- EasyXSpider不仅仅是一个简单的Linux下的爬虫程序。更包括了,索引制作,检索,分词(英文及中文二元法切词),以及Google PageRank算法和CGI查询界面的实现。可以看做是一个完整的小型搜索引擎。
segtag.rar
- 基于隐马尔科夫模型的分词标注程序,使用PASCAL语言编写,Hidden Markov Model-based sub-word tagging procedures, using the PASCAL language
chinese-word-segment.rar
- 一个的文本分割程序,采用了改变的最大长度切分结合统计分词方法。,this is a project about chines-word segment, it propose a method conmbining the max-seg and the statistic method.
pangusegment-80115
- PanGuSegment 这个是盘古分词的组件包,包括 PanGu.dll 盘古分词的核心组件 DictManage.exe 字典管理工具 Demo.exe 分词演示程序 PanGu.HighLight.dll 高亮组件 PanGu4Lucene 这个是盘古分词针对Lucene.net 提供的接口 PanGu.Lucene.Analyzer.dll 盘古分词针对Lucene.net 的接口组件 PanGu.Lucene.ImportTool.exe 示例程
Chinese-Word-Segment-And-POS-Tagger
- 实现了中文分词和词性标注程序。分词方法采用“三词正向最长匹配”。词性标注使用HMM方法,用Viterbi算法实现。“三词正向最长匹配”保持了“正向最长匹配算法”快速的特点,同时提高了分词的准确性。-Chinese word segmentation and implemented procedures for POS tagging. Segmentation Methods, " the longest three-match positive words." POS tag
JJCK_Tools
- 拼音加加词库处理工具 Ver1.02 作者:张文焕 本软件用以辅助制作拼音加加格式的词库。它共包括“整理”、“注音”、“排序”、“筛选”、“固顶”5个小程序,具体功能参阅各程序相关说明。另外,dfc、jjgx两个文件夹分别是“大分词”、“加加词库更新”工具,未予集成,请单独选用。-Phonetic processing tools Ver1.02 of Gaga Thesaurus: Zhang Wenhuan the software used to assist production