搜索资源列表
nlp
- nlp中的词频统计,功能是统计语料库中的词频。 以及基于隐马尔可夫的音字转换系统-nlp the frequency statistics, the function of word frequency statistics corpus. As well as audio-based Hidden Markov word conversion system
RDF3X-a-RISCstyle
- RDF是为了模式自由的信息提供的一种数据表达方式,在语义网语料库、生命科学、web2.0平台上发展迅速。-RDF is a data in order to model the freedom of expression of information provided by the rapid development of the Semantic Web corpora, life sciences, web2.0 platform.
lankasite2
- 兰卡斯特汉语语料库,做NLP、文本处理之类的可以用得上-Lancaster Chinese corpus, NLP can do lingua franca
Encrypt
- 单字母加密,基于特征值,英语 语料库(词汇量7万左右)-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)
dataset_602123
- 酒店情感分析语料库,包含neg和pos的分类-Hotels Corpus sentiment analysis, including classification neg and pos
quanwenjiansuo
- 全文检索程序,最长匹配,可以立刻找到所有出现的句子,需要语料库,(例如人民日报)。-text retri procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People' s Daily).
aiml
- aiml python 版本 里面包含alice语料库 有需要的朋友可以下载一下-aiml python version
TF
- TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级- TF-IDF is a statistical method to assess the importance of a word for a file set or a corpus of the importan
tc-corpus-answer
- 复旦中文文本语料库,共十类文本,未分词,有兴趣可以-Fudan Chinese text corpus
hownet
- 知网完整版,附带相关的各种论文文档,中文语料库-see chinese descr iption
databayy
- 一份很重要的语料库,为你的分词程序是一个很好用的资料库文件-An important corpus, word segmentation procedure for you is a very useful files
canaonstruction
- 这是一个语料库查询系统,可以学习一下VC的文件操作和管理平台建设-This is a corpus query system, can learn VC file operations and management platform construction
LSI
- 基于隐语义模型的新闻相似度分析,根据一片包含三千多篇的新闻语料库,做新闻相似度分析。-Based on the similarity news hidden semantic analysis of the model, according to a news article that contains more than three thousand corpus, do news similarity analysis.
DocumentSimilarity.py
- 基于向量空间模型的计算新闻相似度算法,根据一篇1998年的人民日报语料库,进行文章相似度计算,输出结果为一个上三角矩阵-News similarity algorithm to calculate the vector space model, according to a People' s Daily Corpus 1998, carried articles similarity calculation, output is an upper triangular matrix
简单基于词典的分词(带txt语料库)
- 基于词典的分词,用于英文文本对文本进行词典的分词(Based on the word segmentation of the dictionary, used in the English text of the text of the dictionary word segmentation)
ponstruction
- 这是一个语料库查询系统,可以学习一下VC的文件操作和管理平台建设(This is a corpus query system, can learn VC file operations and management platform construction)
test1
- 这是转换好的wav文件,属于timit库的其中一部分语料。(This is a converted wav file, which belongs to a part of the TIMIT library.)
ngram模型分词与统计算法
- N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。(N-Gram (sometimes referred to as N metamodel) is a very important concept
speaker-identification
- 基于MATLAB实现的DWT+GMM说话人识别,附带语料库和相关论文word版,毕设作品,详细且可运行!(MATLAB based DWT+GMM speaker recognition, incidental corpus and related papers word version, set up work, detailed and run!)
chinese_text_classification-master
- 文本分类的一个基本项目,用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)