搜索资源列表
SogouC.reduced.20061127
- 搜狗语料 关于文本分类语料库的问题搜狗实验室搜狗实验室(Sogou Labs)是搜狗搜索核心研发团队对外交流的窗口,期望通过这个平台,展现搜狗研发团队强大的研发-Sogou corpus corpus corpus on the issue of text categorization Sogou Sogou Lab Lab (Sogou Labs) is the core of R & D team Sogou search window for foreign exchanges,
reuters
- 路透社预处理工具,简单方便实用快捷,可把语料集按类别分类-Reuters Preprocessing tools, fast and simple and practical, can be classified according to the corpus set
qwvvfg
- 基于语料库的中文姓名识别方法研究 本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了 中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阅值-Corpus-based Study of Chinese Names Recognition Based on the large-scale extraction and analysis of corpus based on the first and last name in Chinese character
TextClassify-KNN-SVM
- 根据语料库对文本进行分类,有界面,KNN、贝叶斯方法-According to the corpus, text classification KNN, bayesian
quanwenjiansuo
- 全文检索程序,最长匹配,可以立刻找到所有出现的句子,需要语料库,(例如人民日报)。-text retri procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People' s Daily).
homework3
- 将二位数据投影到一维线性, LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。 [1] LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)