搜索资源列表
GIZA++.2003-09-30.tar
- GIZA++是德国Och提供的针对统计机器翻译模型的训练工具集。这个工具可以生成IBM统计翻译模型的第4和第5种模型,采用两种方向的训练(比如对同一个语料,从中文到英文和从英文到中文的训练),再配以适当的编码,可以提取出适合基于Phrase的统计机器翻译phrase table来,为后续的工作提供数据支持。
CorpusDemo.exe
- 这是一个语料库查询系统,可以学习一下VC的文件操作和管理平台建设-This is a Corpus inquiry system, we can learn from what the VC operation and document management platform
Qwickconcordance-1.0
- 这是一个语料库检索的程序,可以学习一下CONCORDANCE以及它的实现-This is a Corpus retrieval procedures can learn about CONCORDANCE and its realization
tongyc
- 自然语言信息处理的语料库,非常好的测试语料-natural language information processing Corpus, very good testing corpus
word-segment-tool-for-chinese
- 基于北大语料库的分词器,简单,有使用说明-a chinese word segment tool
lda-c
- LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为
Encrypt
- 单字母加密,基于特征值,英语 语料库(词汇量7万左右)-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)