搜索资源列表
cutword
- 用VB与数据库相连接实现中 文分词的程序,采用了正向 最大匹配算法。-using VB and database links, Chinese word segmentation procedures using the largest positive matching algorithm.
WordSeg
- 中文分词C++程序,使用前先导入词典Lexicon_full.mdb
svm_multiClass
- svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
compiler
- 编译原理--词法分析器,实现读入一端程序,进行分词,并存入符号表中
dartsplitter
- 这是关于中文分词的有关程序,有正在做中文分词的朋友可以拿去参考一下
splittertest
- 这是有关中文分词的程序、若有需要的话可以参考一下,很有参考价值的哦
segtag.rar
- 基于隐马尔科夫模型的分词标注程序,使用PASCAL语言编写,Hidden Markov Model-based sub-word tagging procedures, using the PASCAL language
chinese-word-segment.rar
- 一个的文本分割程序,采用了改变的最大长度切分结合统计分词方法。,this is a project about chines-word segment, it propose a method conmbining the max-seg and the statistic method.
Chinese-Word-Segment-And-POS-Tagger
- 实现了中文分词和词性标注程序。分词方法采用“三词正向最长匹配”。词性标注使用HMM方法,用Viterbi算法实现。“三词正向最长匹配”保持了“正向最长匹配算法”快速的特点,同时提高了分词的准确性。-Chinese word segmentation and implemented procedures for POS tagging. Segmentation Methods, " the longest three-match positive words." POS tag
fenci
- 自己下载一个语料库,根据程序,计算权重,然后对语料库进行分词-Download a corpus itself, according to the procedures for calculating the weights, and then carried out on sub-word corpus
F2_6764
- 端点检测是指用数字处理技术来找出语音信号中的各种段落(如音素、音节、词素、词等)的始点和终点的位置。语音段起止端点检测是语音分析、语音合成和语音识别中的一个必要环节。传统的端点检测方法是从wav文件中获取语音采样,将其分帧并计算短时能量和过零率参数,然后进行端点检测。这种工作方式被称为离线处理方法 ,无法实现语音信号的实时处理,对于语音信号分析具有一定的局限性。本文通过开发ActiveX控件,在MATLAB环境下将其嵌入到figure窗口中,以GUI程序的方式使用,实现语音信号端点检测的实时处
Test Class By SVM
- 支持向量机实现的文本分类程序,过程如下,首先使用分词工具分词,这里使用的是计算所的分词工具,从而保证分词是最优秀的,接下来使用国际效率最高的文本IFIDF向量生成工具生成文本相量,最后使用台湾林智恒的效率最高的SVM实现软件包libsvm实现训练和分类,可以这么说,该文本分类是同类中效率最高最准确的-text classfication source code use 3 technology.words sementation,vector gerneration,and libsvm too
ngrams
- 自然语言处理相关程序,有关分词的和词频统计-Natural language processing procedures, the statistical segmentation and word frequency
Chinese_wordspliter
- 使用正向最大匹配法的中文分词器 分别读入待分词文本文件及字典文件后,将经处理后的结果输出至另一文件予以保存。所用待分词文件样例约有字符184万个,处理时间在11s左右。程序使用C++语言编写。-Using the forward maximum matching device of Chinese words segmentation, respectively, to be read into the text file and dictionary file, the result will
fenci
- 基于VC++的中文分词代码。程序编码基本正确,实现了程序设计中提到的两种分词策略,分词结果就在预料之中。-Chinese word segmentation based on VC++ code
TextAnalysis
- TextAnalysis系统及算法设计 输入为ICTCLAS分词后的词语结构信息,对每个词语的词性进行判断。 1. 如果不存在词性,则跳过这次循环。用来跳过一些语气助词等无意义的信息。 2. 由于每个句子都有几个子句,而每个子句都是一个独立的主谓宾结构,所以系统将子句通过标点符号来分隔。最后将所以子句的总情感权值相加得到总句的情感权值。 3. 在对字典的预处理阶段,系统对不同程度的词语赋予了不同的权值。为了提高处理程序的效率,系统只分析对体现语言情感有较大作用的词性(包括形容词、
Windows_32_C_Demo
- ICTCLAS 汉语分词系统 pku_test.txt 未经过分词的文档文件 调用ICTCLAS程序对其中的文档进行分词 -ICTCLAS Chinese word segmentation system pku_test.txt word document file without calling undue ICTCLAS program on which the document word
matching-Chinese-word-by-HMM-and-MM
- 该程序为在MFC下开发的正向和反向两种中文分词系统。-The program was developed in MFC under both positive and negative Chinese word segmentation system.