搜索资源列表
语料库
- 一份很重要的语料库,为你的分词程序是一个很好用的资料库文件-a very important corpus, as your segmentation procedure is a very good use of the database file
wenbenfenlei
- 中文文本分类的语料库,比较全面,可用于进行分类训练时-Chinese text classification of Corpus, more comprehensive, and can be used for classification of training
POSTagger
- (1)从已经标注好词性的语料中统计得到词性标记的二元转移矩阵,以及每个词以确定的词性标记出现的次数等数据(训练阶段) (2)利用动态规划算法快速选取词性标记路径,得到词性标记结果 (3)可以选择不同的词性标记集 -(1) from the good part-of-speech tagging has been the Corpus statistics to be part of speech marking the transfer of binary matrix, a
Kappa
- 用于计算人工标注语料时,不同标注者之间的共同认知程度的Kappa值计算算法-used in the calculation of artificial tagging corpus, between different tagging common understanding of the extent of the Kappa values Algorithm
svmcls
- 基于SVM的文本分类算法,有自己的语料库
supervisedWSD
- 利用贝叶斯分类原理实现多义词的消歧。首先利用训练语料进行训练,然后基于机器已经获取的知识的基础上对生语料进行词义标注。
ReadDir
- 该程序实现的是一个垃圾邮件过滤系统,方法采用的是NAIVE Bayes,语料库用的是LINspam—public,程序中有使用说明,希望大家一起探讨改进一下,
分词语料库
- 文本分词\分类的语料库
WordNet 语义计算 CSharp版
- 操作 WordNet 3.0 词汇语义资源的 C# 类。该API提供了获得 WordNet 项目的大部分内容,包括所有的同义词集以及它们之间所有的词汇关系。 This is a C# .NET API for the WordNet 3.0 lexical semantics resource. The API captures most of the content of the WordNet project, including all synset definitions and syn
AIML-Verbot_Converter.rar
- 一款将AIML语料库转换为Verbot语料的软件,其中Verbot是国外非常流行的智能聊天软件。,A corpus will be converted to AIML software Verbot corpus, which Verbot is very popular abroad, intelligent chat software.
RostNat
- 很不错的语料分析工具,有分词、分析等等。最主要的还有TF/IDF的分析结果。很是实用-Very good tool for corpus analysis, took part in word analysis, and so on. The main TF/IDF analysis of the results. Is practical
Apriori_DIC
- 数据挖掘经典算法 Apriori and DIC 同时有 Brin关于DIC的论文 和训练语料-Classical data mining algorithm Apriori and DIC at the same time on the DIC thesis Brin and training corpus
yuyinchulichengxv
- 对给定语料估计其基音周期。 要求用MATLAB或C语言实现有关基音检测算法,并给出检测结果。 -For a given corpus to estimate the pitch period. Required to use MATLAB or C language realization of the pitch detection algorithm, and gives test results.
ChinesePronominalCoreferenceResolution
- 基于决策树的汉语代词共指消解 提出一种统计与规则相结合的决策树算法进行汉语代词共指消解 ,利用规则过滤掉属性冲突的反例 ,一定程 度上弥补了决策树算法忽略属性关联性的缺点. 采用 Chinese Treebank 作为语料进行测试 ,手工标注其中的共指 关系和特征向量 首先用规则过滤 ,然后采用 C415 决策树算法选择先行语. 实验结果显示 ,消解成功率为 82159 ,其中人称代词和指示代词的成功率分别为 87160 和 75121 .-A total based on de
VoxForge
- 高级语音识别语料库,英语专用,HTK必备资料-Advanced speech recognition corpus, English dedicated, HTK essential information
jiyinjiance
- 基音检测: 对给定语料估计其基音周期。 要求用MATLAB或C语言实现有关基音检测算法,并给出检测结果与实验报告 实验语料:MaoYiSheng.raw 发音:“茅以升”;时长0.9s;采样率:8kHz;量化精度为16bits/sample;数据格式 LSB,MSB 分析帧长:20ms(160样点) 总帧数:45-Pitch Detection: For a given corpus to estimate the pitch period. Require MAT
20117230242204
- 有关语料处理的代码,包括简单分词,语法树分析 -The corpus processing code, including a simple word, syntax tree analysis
Kernel-for-Relation-Extraction
- 最短的路径依赖关系提取 我们提出了一个新颖的方法来提取关系,根据观察断言之间的关系之间的两个命名实体在同一个句子1所需的信息通常是由两个实体之间的依赖关系图中的最短路径捕获。实验上提取的ACE(自动内容抽取)报纸语料表明,新的最短路径依赖内核外执行最近的做法,根据去依赖树内核顶层的关系-We present a novel approach to relation extraction, based on the observation that the information requir
搜狗分类新闻.20061127
- 用于自然语言处理的新闻语料,抓取网上的一些新闻资料(The news materials used in Natural Language Processing, and grab some news on the Internet)
icwb2-data
- NLP中文语料库,backoff语料库,可以用来训练(A wiki (Listeni/ˈ wɪ ki/ WIK-ee) is a website that provides collaborative modification of its content and structure directly the web browser. In a typical wiki, text is written using a simplified markup language an