搜索资源列表
GIZA++.2003-09-30.tar
- GIZA++是德国Och提供的针对统计机器翻译模型的训练工具集。这个工具可以生成IBM统计翻译模型的第4和第5种模型,采用两种方向的训练(比如对同一个语料,从中文到英文和从英文到中文的训练),再配以适当的编码,可以提取出适合基于Phrase的统计机器翻译phrase table来,为后续的工作提供数据支持。
SVM分类器
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码-SVM text classifier source, English interface, including Corpus, not extract passwords
reuters21578
- 这是一个英文的语料库,可以用于进行文本的分类与聚类。是文本分类领域共用的一个语料库。-This is a corpus of English, can be used for text classification and clustering. The field of text classification is a common corpus.
20news-bydate.tar
- 一个可用的英文语料库,包含20大分类,可用作文本分类语料库-One of the available English corpus, including 20 big classification, usable ZuoWenBen corpus
onTextCategorization
- 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增 益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征
aiml-en-us-foundation-alice.snapshot
- ALICE问答系统的aiml格式对话语料,比较全的英文问答系统语料,供大家研究使用,可翻译成中文,参考设计中文问答系统。-aiml format dialog data ALICE question answering system, comparison of the whole corpus of English question answering system for everyone to use, can be translated into Chinese, reference d
jevmkm
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,-The SVM classifier source program text, English interface, contains the corpus, not unzip password,
95777978
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,-The SVM classifier source program text, English interface, contains the corpus, not unzip password,
nklrc
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,-The SVM classifier source program text, English interface, contains the corpus, not unzip password,
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)
Yhglish
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,(The SVM classifier source program text, English interface, contains the corpus, not unzip password,)
black
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,()
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)
ranee
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,()
语料库检索工具
- 一个语料库检索工具,可以对文本形式的英汉词典(包含常用英文词汇)进行检索,是开发大型语料库工具的原型(the assistance of statistical package and computer programs)
rt-polaritydata
- 该文档可在机器学习中用于文本分类的语料库,内涵一个正面语料文档和一个负面语料文档。(This document is a corpus for text categorization in machine learning, with a positive corpus document and a negative corpus document.)
aclImdb_v1.tar
- 英文影评语料库,用于英文情感分析。包含训练集和测试集,均为标注数据。(English movie reviews corpus)