搜索资源列表
SogouC.mini.20061127
- 文本分类现成语料库,是SogouC.mini.20061127.zip格式的,可用于web数据挖掘
quanwenjiansuo
- 全文检索程序,最长匹配,可以立刻找到所有出现的句子,需要语料库,(例如人民日报)。-text retrieval procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People's Daily).
SVM分类器
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码-SVM text classifier source, English interface, including Corpus, not extract passwords
liqingyun_paper
- 一篇关于“现代汉语标注语料,树库文档转换成XML文档”的论文。 论文主要做了以下三个工作: 1. 对于汉语语料库的文本文档,进行转换,生成XML文档。 2. 对于符合树库标准的文档,进行转换,生成XML文档。 3. 将XML文档,根据DOM标准,以树形显示在屏幕上。-one of the "Modern Chinese Corpus tagging trees for documents converted into XML documents," the papers. P
TestCorpus
- 这个对vc的初学者很有帮助哦,简单的语料库管理工具。-the right vc beginners helpful Oh, the simple Corpus management tool.
WordNet 语义计算 CSharp版
- 操作 WordNet 3.0 词汇语义资源的 C# 类。该API提供了获得 WordNet 项目的大部分内容,包括所有的同义词集以及它们之间所有的词汇关系。 This is a C# .NET API for the WordNet 3.0 lexical semantics resource. The API captures most of the content of the WordNet project, including all synset definitions and syn
相似度计算器
- 相似度计算器(含语料库)
Part_Of_Speech_Label.rar
- JAVA实现的基于隐马尔科夫模型的词性标注。有指导的学习,附带语料,供参考,JAVA realization of hidden Markov model based on the part of speech tagging. Guided learning, incidental corpus, for reference
AIML-Verbot_Converter.rar
- 一款将AIML语料库转换为Verbot语料的软件,其中Verbot是国外非常流行的智能聊天软件。,A corpus will be converted to AIML software Verbot corpus, which Verbot is very popular abroad, intelligent chat software.
WordSegmentation.rar
- 很久以前做的最大概率法分词程序,语料比较大,Maximum probability method for Word Segmentation
zzbds.rar
- 用正则表达式处理语料库,最多可以处理500个句子,如果想拥有更多功能可以注意使用V2.0,Corpus with the regular expression processing, can handle up to 500 sentences, if you want to have more features may take note of the use of V2.0
AutoChatting.rar
- 用AIML语言开发的一款中文自动聊天软件,附加有部分AIML中文对话语料库,AIML language developed by a Chinese auto-chat software, additional dialogue, some Chinese Corpus AIML
PFR199801.rar
- PFR人民日报标注语料,它是中文信息处理的重要训练样本,PFR marked the People' s Daily corpus, which is an important Chinese information processing training samples
LJClusterDemo
- 文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成特征主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。 灵玖Lingjoin(www.lingjoin.com)基于核心特征发现技术,突破了传统聚类方法空间消耗大,处理时间长的瓶颈;不仅聚类速度快,而且准确率高,内存消耗小,特别适合于超大规模的语料聚类和短文本的语料聚类。 灵玖文档聚类组件的主要特色在于: 1、速度快:可以处理海量规模
Chinese--NER
- 基于CRF的中文机构名识别系统。使用北京大学1998年的人民日报语料库作为训练语料。除常用的特征模板,已经词性特征外,使用词语的最后一个字作为特征,提高了机构名识别的准确率, 调用了CRF++程序包训练模型。-CRF-based name recognition system of Chinese institutions. People' s Daily, Peking University in 1998 with corpus as training data. In additio
基于朴素贝叶斯方法的文本分类
- 本程序实现了基于朴素贝叶斯方法的文本分类,附有源代码、实验报告、可执行程序以及语料库(包括训练集和测试集) -This procedure implements the text-based Naive Bayes classification method, with source code, test reports, executables and corpus (including the training set and test set)
GBK_pinyin_table
- GBK拼音字表,含有32026个汉字,还包括词频,是开发输入法的绝佳语料库-GBK pinyin table 32026
中文分词算法
- 本程序使用给出的字典进行学习并对训练语料进行分词处理,采用C语言编写,高效易懂!
RostNat
- 很不错的语料分析工具,有分词、分析等等。最主要的还有TF/IDF的分析结果。很是实用-Very good tool for corpus analysis, took part in word analysis, and so on. The main TF/IDF analysis of the results. Is practical
PoS-Tagging-based-on-HMM
- 基于隐马尔科夫的中文词性标注系统的C++源代码,包括训练集和测试集语料库,单词量和词性数目都没有写死,可适应任意大的训练和测试数据集,程序已经过优化,一次标注只需要不到10秒的时间。-Based on Hidden Markov of the Chinese part of speech tagging system in C++ source code, including the training set and test set corpus, vocabulary and speech