搜索资源列表
webquestions.examples.train
- 知识图谱,知识库,问答系统的问答语料,主要是训练语料(webquestions examples QA data using for KBQA QA data using for KBQA QA data using for KBQA)
Yhglish
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,(The SVM classifier source program text, English interface, contains the corpus, not unzip password,)
ponstruction
- 这是一个语料库查询系统,可以学习一下VC的文件操作和管理平台建设(This is a corpus query system, can learn VC file operations and management platform construction)
insuranceQA-cnn-lstm-master
- 这是一个保险语料的一个简单的问答系统,采用cnn和lstm分别进行试验,分别验证效果的改变,文件包括两个版本,tensorflow和theano。(This is a simple question answering system for insurance corpus, which is tested by CNN and LSTM respectively, and the results are verified separately. The document consists of
电脑中的所有汉字
- 所有中文的汉字,可以用于OCR训练等,需要自己写脚本。(all china words set, use for ocr training etc.)
black
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,()
download
- DMO-DB[24]是由柏林工业大学录制的德语情感语音库,由10位演员(5男5女)对10个语句(5长5短)进行7种情感(中性/nertral、生气/anger、害怕/fear、高兴/joy、悲伤/sadness、厌恶/disgust、无聊/boredom)的模拟得到,共包含800句语料,采样率48kHz(后压缩到16kHz),16bit量化.语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰.语音的录制在专业录音室中完成,要求演员在演绎某个特定情感前通过回忆自身
test1
- 这是转换好的wav文件,属于timit库的其中一部分语料。(This is a converted wav file, which belongs to a part of the TIMIT library.)
ngram模型分词与统计算法
- N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。(N-Gram (sometimes referred to as N metamodel) is a very important concept
multi_process
- 多进程预处理数据,python实现。预处理语料1.6G,多进程预处理可加快文本的预处理时间。二分类和多分类实现。(multi_process for large documents)
lstm_multi_gpu
- lstm 实现情感分析的多GPU版本,用于处理的语料数据很大的时候,加速训练过程。(lstm multi gpu for sentiment analysis)
cal
- 列出每个文件的文件名和大小,并统计整个语料的大小(List the file name and size of each file, and count the size of the whole corpus)
data_process_xgboost.tar
- 文本分类算法,重点实现了xgboost,支持python3,对文本分类入门同学有一定的帮助。以下是语料格式。前边为文本类型,后边为文本内容 0,千山万水… 5,QQ推广是在QQ演示吗 8,怎么满脸认证?(text classification,include xgboost,is is important to new learner.)
speaker-identification
- 基于MATLAB实现的DWT+GMM说话人识别,附带语料库和相关论文word版,毕设作品,详细且可运行!(MATLAB based DWT+GMM speaker recognition, incidental corpus and related papers word version, set up work, detailed and run!)
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)
Chinese
- 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
chinese_text_classification-master
- 文本分类的一个基本项目,用到的是复旦大学中文语料库(a basic project for text classification,I use the corpus from fudan university as my training and testing corpus)
chnsenticorp
- 中文情感分析语料,包含三类:旅馆、书籍、商品评论(a corpus of chinese emotional)
data
- 训练NER的语料文件,已全文标注,四个字段(Training NER's corpus file, full text annotation, four fields)
ranee
- SVM文本分类器源程序,英文界面,包含语料,没有解压缩密码,()