搜索资源列表
LJClusterDemo
- 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模
Language_model_learning_in_chinese
- 语言模型学习论文-中文 基于最大熵方法的统计语言模型.pdf 基于对话回合衰减的cache语言模型在线自适应研究.pdf 基于Web网页语料构建动态语言模型.pdf 统计语言模型综述.pdf -Language model to study papers- Chinese based on the maximum entropy method of statistical language model. Pdf Round attenuation based on di
master_thesis
- 音乐领域中文实体关系抽取研究 实体关系抽取的任务是从文本中抽取出两个或者多个实体之间预先定义 好的语义关系。本文将实体关系抽取定义为一个分类问题,主要研究内容是 中文音乐领域的实体关系抽取。针对这一问题,本文首先构建了中文音乐实 体关系语料库,然后分别采用了基于序列模式挖掘的无指导的方法和基于特 征提取的有指导的方法来解决这一问题。 -Dissertation for the Master Degree in Engineering urgently needed to de
616341
- 中文文本语料库 适合中文文本分类使用 朴素贝叶斯算法整合 -Chinese text categorization corpus
PMl-IR
- Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了—种基于PMI—IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本 中的情感要素和背景情感词之问的点互信息值,从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中-心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比准确率和召回率都有了较大的提高。-Development ofBIog texts info
hownet
- 知网完整版,附带相关的各种论文文档,中文语料库-see chinese descr iption
chnsenticorp
- 中文情感分析语料,包含三类:旅馆、书籍、商品评论(a corpus of chinese emotional)
icwb2-data
- 中文分词数据,含有as、 cityu、msr、pku数据,包括测试集、训练集(Chinese word segmentation data)