搜索资源 - 语料 - 搜珍网

CDN加速镜像 | 设为首页 | 加入收藏夹

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

登陆 | 会员注册

当前位置：

搜索资源 - 语料

下载资源主分类

源码下载

Web源码

开发工具

文档下载

其它资源

资源分类

搜索资源列表

lda-c

0下载：
LDA是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题服从Dirichlet分布，主题到词服从多项式分布。 LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为
所属分类：Driver develop
- 发布日期：2017-04-16
- 文件大小：30689
- 提供者：yangling

616341

0下载：
中文文本语料库适合中文文本分类使用朴素贝叶斯算法整合 -Chinese text categorization corpus
所属分类：Project Manage
- 发布日期：2017-04-29
- 文件大小：88782
- 提供者：Sirius GY

JnaTest_V1

0下载：
基于中科院NLPIR分词系统做的分词以及新词发现系统，第二十届全国信息检索学术会议（CCIR2014）题目2.3，微博新词发现与情感分析的源码，可处理大语料的微博出局-Based on NLPIR Chinese Academy of Sciences, to solve the problem CCIR2014,Blog content s new words discover and sentiment classify.
所属分类：Java Develop
- 发布日期：2017-03-22
- 文件大小：10466304
- 提供者：王锡爵

PMl-IR

0下载：
Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了—种基于PMI—IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心，通过搜索引擎返回的结果来计算文本中的情感要素和背景情感词之问的点互信息值，从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中-心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比准确率和召回率都有了较大的提高。-Development ofBIog texts info
所属分类：software engineering
- 发布日期：2017-05-03
- 文件大小：677334
- 提供者：guwei

signal

0下载：
制作不同信噪比的语料程序，还包含wav 和raw格式之间的相互转换程序-Produce different SNR corpus procedures, the program also includes mutual conversion between formats wav and raw
所属分类：Audio program
- 发布日期：2017-04-10
- 文件大小：1670499
- 提供者：张飞

word2vec

0下载：
word2vec：谷歌的开源项目，实现从词语到向量的转换（word to vector），Linux系统下运行，需要较大规模的语料资源用作训练才能体现出很好的效果（中英文均可），并且可以实现测量两个词语之间的距离（cos值表示），词语聚类等。-word2vec: Google' s open-source projects, a word-to-vector conversion (word to vector) running under Linux system, requires
所属分类：software engineering
- 发布日期：2017-03-29
- 文件大小：113327
- 提供者：sherlydunn

CoupletSystem

0下载：
对联系统 C++ 实现语料库中的对联效果比较好-Couplet system c++
所属分类：Other windows programs
- 发布日期：2017-05-26
- 文件大小：8758672
- 提供者：katrina

nlp

0下载：
nlp中的词频统计，功能是统计语料库中的词频。以及基于隐马尔可夫的音字转换系统-nlp the frequency statistics, the function of word frequency statistics corpus. As well as audio-based Hidden Markov word conversion system
所属分类：Other systems
- 发布日期：2017-04-14
- 文件大小：3016
- 提供者：yhlhit

RDF3X-a-RISCstyle

0下载：
RDF是为了模式自由的信息提供的一种数据表达方式，在语义网语料库、生命科学、web2.0平台上发展迅速。-RDF is a data in order to model the freedom of expression of information provided by the rapid development of the Semantic Web corpora, life sciences, web2.0 platform.
所属分类：software engineering
- 发布日期：2017-04-16
- 文件大小：253777
- 提供者：冯佳颖

lankasite2

1下载：
兰卡斯特汉语语料库，做NLP、文本处理之类的可以用得上-Lancaster Chinese corpus, NLP can do lingua franca
所属分类：Other systems
- 发布日期：2017-05-16
- 文件大小：3625021
- 提供者：zhangyi

ngramtool-20040527-mingw32-static

0下载：
在Windows环境下，可以对大规模语料进行n-gram统计，并且可以删除冗余子串。-In the Windows environment, you can carry out a large-scale corpus based n-gram statistics, and you can held redunction of substring.
所属分类：Other systems
- 发布日期：2017-05-11
- 文件大小：2126834
- 提供者：nuoming

VQ

0下载：
实现了基于VQ的语音识别系统，里面有自己录的语料，可以实时的录入并识别十个数字的单音字，作为语音识别的初学很有帮助-Realized VQ-based speech recognition system, which has its own record of corpus, real-time entry and word recognition tone ten digits, as speech recognition beginners helpful
所属分类：Speech/Voice recognition/combine
- 发布日期：2017-05-11
- 文件大小：2198541
- 提供者：张英楠

Encrypt

0下载：
单字母加密，基于特征值，英语语料库（词汇量7万左右）-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)
所属分类：CA program
- 发布日期：2017-04-29
- 文件大小：356478
- 提供者：wayne

Segmenter.tar

0下载：
基于条件随机场的越南语分词,语料来于越南语网站的新闻爬取-Vietnamese word segmentation based on conditional random field
所属分类：JavaScript
- 发布日期：2017-05-16
- 文件大小：4471201
- 提供者：王凯

bayes

3下载：
java实现朴素贝叶斯中文文本分类器。自带分类语料和实验报告。功能完整。-java implement Naive Bayes Chinese text categorization. Own classification corpus and test reports. Full-featured.
所属分类：Java Develop
- 发布日期：2017-05-19
- 文件大小：5605376
- 提供者：周玉红

dataset_602123

1下载：
酒店情感分析语料库，包含neg和pos的分类-Hotels Corpus sentiment analysis, including classification neg and pos
所属分类：Java Develop
- 发布日期：2017-05-15
- 文件大小：3996211
- 提供者：hsj

jrxbck

0下载：
用于数据分析的金融细胞词库，详细收集了金融行业的细胞词用户语料分析-For financial cell thesaurus data analysis, detailed analysis of cell collected corpus word user of the financial industry
所属分类：File Formats
- 发布日期：2017-04-25
- 文件大小：132648
- 提供者：guochao

WPCrawler

0下载：
网络爬虫，也叫网络蜘蛛，有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网，以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目，其中比较有名的是Heritrix和Apache Nutch。有时需要在网上搜集信息，如果需要搜集的是获取方法单一而人工搜集费时费力的信息，比如统计一个网站每个月发了多少篇文章、用了哪些标签，为自然语言处理项目搜集语料，或者为模式识别项目搜集图片等等，就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
所属分类：Search Engine
- 发布日期：2017-05-09
- 文件大小：1863846
- 提供者：Francis

Southeast-Asia

0下载：
这是部分东南亚方面的涉华语料，可以用来分析东南亚与中国方面情况-This is part of the southeast Asia in terms of marking corpus, which can be used to analyze situation in southeast Asia and China
所属分类：Development Research
- 发布日期：2017-04-29
- 文件大小：485514
- 提供者：Jenny

quanwenjiansuo

0下载：
全文检索程序，最长匹配，可以立刻找到所有出现的句子，需要语料库，（例如人民日报）。-text retri procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People' s Daily).
所属分类：Special Effects
- 发布日期：2017-05-01
- 文件大小：8983
- 提供者：wenag05173

« 1 2 ... 5 6 7 8 9 1011 12 13 »

搜珍网 www.dssz.com

本网站为编程资源及源代码搜集、介绍的搜索网站，版权归原作者所有！　　粤ICP备11031372号

1999-2046 搜珍网 All Rights Reserved.