CDN加速镜像 | 设为首页 | 加入收藏夹
当前位置: 首页 资源下载 搜索资源 - 语料

搜索资源列表

  1. lda-c

    0下载:
  2. LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序,这简化了问题的复杂性,同时也为
  3. 所属分类:Driver develop

    • 发布日期:2017-04-16
    • 文件大小:30689
    • 提供者:yangling
  1. 616341

    0下载:
  2. 中文文本语料库 适合中文文本分类使用 朴素贝叶斯算法整合 -Chinese text categorization corpus
  3. 所属分类:Project Manage

    • 发布日期:2017-04-29
    • 文件大小:88782
    • 提供者:Sirius GY
  1. JnaTest_V1

    0下载:
  2. 基于中科院NLPIR分词系统做的分词以及新词发现系统,第二十届全国信息检索学术会议(CCIR2014)题目2.3,微博新词发现与情感分析的源码,可处理大语料的微博出局-Based on NLPIR Chinese Academy of Sciences, to solve the problem CCIR2014,Blog content s new words discover and sentiment classify.
  3. 所属分类:Java Develop

    • 发布日期:2017-03-22
    • 文件大小:10466304
    • 提供者:王锡爵
  1. PMl-IR

    0下载:
  2. Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了—种基于PMI—IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本 中的情感要素和背景情感词之问的点互信息值,从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中-心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比准确率和召回率都有了较大的提高。-Development ofBIog texts info
  3. 所属分类:software engineering

    • 发布日期:2017-05-03
    • 文件大小:677334
    • 提供者:guwei
  1. signal

    0下载:
  2. 制作不同信噪比的语料程序,还包含wav 和raw格式之间的相互转换程序-Produce different SNR corpus procedures, the program also includes mutual conversion between formats wav and raw
  3. 所属分类:Audio program

    • 发布日期:2017-04-10
    • 文件大小:1670499
    • 提供者:张飞
  1. word2vec

    0下载:
  2. word2vec:谷歌的开源项目,实现从词语到向量的转换(word to vector),Linux系统下运行,需要较大规模的语料资源用作训练才能体现出很好的效果(中英文均可),并且可以实现测量两个词语之间的距离(cos值表示),词语聚类等。-word2vec: Google' s open-source projects, a word-to-vector conversion (word to vector) running under Linux system, requires
  3. 所属分类:software engineering

    • 发布日期:2017-03-29
    • 文件大小:113327
    • 提供者:sherlydunn
  1. CoupletSystem

    0下载:
  2. 对联系统 C++ 实现语料库中的对联效果比较好-Couplet system c++
  3. 所属分类:Other windows programs

    • 发布日期:2017-05-26
    • 文件大小:8758672
    • 提供者:katrina
  1. nlp

    0下载:
  2. nlp中的词频统计,功能是统计语料库中的词频。 以及基于隐马尔可夫的音字转换系统-nlp the frequency statistics, the function of word frequency statistics corpus. As well as audio-based Hidden Markov word conversion system
  3. 所属分类:Other systems

    • 发布日期:2017-04-14
    • 文件大小:3016
    • 提供者:yhlhit
  1. RDF3X-a-RISCstyle

    0下载:
  2. RDF是为了模式自由的信息提供的一种数据表达方式,在语义网语料库、生命科学、web2.0平台上发展迅速。-RDF is a data in order to model the freedom of expression of information provided by the rapid development of the Semantic Web corpora, life sciences, web2.0 platform.
  3. 所属分类:software engineering

    • 发布日期:2017-04-16
    • 文件大小:253777
    • 提供者:冯佳颖
  1. lankasite2

    1下载:
  2. 兰卡斯特汉语语料库,做NLP、文本处理之类的可以用得上-Lancaster Chinese corpus, NLP can do lingua franca
  3. 所属分类:Other systems

    • 发布日期:2017-05-16
    • 文件大小:3625021
    • 提供者:zhangyi
  1. ngramtool-20040527-mingw32-static

    0下载:
  2. 在Windows环境下,可以对大规模语料进行n-gram统计,并且可以删除冗余子串。-In the Windows environment, you can carry out a large-scale corpus based n-gram statistics, and you can held redunction of substring.
  3. 所属分类:Other systems

    • 发布日期:2017-05-11
    • 文件大小:2126834
    • 提供者:nuoming
  1. VQ

    0下载:
  2. 实现了基于VQ的语音识别系统,里面有自己录的语料,可以实时的录入并识别十个数字的单音字,作为语音识别的初学很有帮助-Realized VQ-based speech recognition system, which has its own record of corpus, real-time entry and word recognition tone ten digits, as speech recognition beginners helpful
  3. 所属分类:Speech/Voice recognition/combine

    • 发布日期:2017-05-11
    • 文件大小:2198541
    • 提供者:张英楠
  1. Encrypt

    0下载:
  2. 单字母加密,基于特征值,英语 语料库(词汇量7万左右)-Single letter encryption, based on the characteristic values of English corpus (vocabulary 70000 or so)
  3. 所属分类:CA program

    • 发布日期:2017-04-29
    • 文件大小:356478
    • 提供者:wayne
  1. Segmenter.tar

    0下载:
  2. 基于条件随机场的越南语分词,语料来于越南语网站的新闻爬取-Vietnamese word segmentation based on conditional random field
  3. 所属分类:JavaScript

    • 发布日期:2017-05-16
    • 文件大小:4471201
    • 提供者:王凯
  1. bayes

    3下载:
  2. java实现朴素贝叶斯中文文本分类器。自带分类语料和实验报告。功能完整。-java implement Naive Bayes Chinese text categorization. Own classification corpus and test reports. Full-featured.
  3. 所属分类:Java Develop

    • 发布日期:2017-05-19
    • 文件大小:5605376
    • 提供者:周玉红
  1. dataset_602123

    1下载:
  2. 酒店情感分析语料库,包含neg和pos的分类-Hotels Corpus sentiment analysis, including classification neg and pos
  3. 所属分类:Java Develop

    • 发布日期:2017-05-15
    • 文件大小:3996211
    • 提供者:hsj
  1. jrxbck

    0下载:
  2. 用于数据分析的金融细胞词库,详细收集了金融行业的细胞词用户语料分析-For financial cell thesaurus data analysis, detailed analysis of cell collected corpus word user of the financial industry
  3. 所属分类:File Formats

    • 发布日期:2017-04-25
    • 文件大小:132648
    • 提供者:guochao
  1. WPCrawler

    0下载:
  2. 网络爬虫,也叫网络蜘蛛,有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网,以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目,其中比较有名的是Heritrix和Apache Nutch。 有时需要在网上搜集信息,如果需要搜集的是获取方法单一而人工搜集费时费力的信息,比如统计一个网站每个月发了多少篇文章、用了哪些标签,为自然语言处理项目搜集语料,或者为模式识别项目搜集图片等等,就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
  3. 所属分类:Search Engine

    • 发布日期:2017-05-09
    • 文件大小:1863846
    • 提供者:Francis
  1. Southeast-Asia

    0下载:
  2. 这是部分东南亚方面的涉华语料,可以用来分析东南亚与中国方面情况-This is part of the southeast Asia in terms of marking corpus, which can be used to analyze situation in southeast Asia and China
  3. 所属分类:Development Research

    • 发布日期:2017-04-29
    • 文件大小:485514
    • 提供者:Jenny
  1. quanwenjiansuo

    0下载:
  2. 全文检索程序,最长匹配,可以立刻找到所有出现的句子,需要语料库,(例如人民日报)。-text retri procedures, the longest match, can immediately find all the sentences need to Corpus (for example, the People' s Daily).
  3. 所属分类:Special Effects

    • 发布日期:2017-05-01
    • 文件大小:8983
    • 提供者:wenag05173
« 1 2 ... 5 6 7 8 9 1011 12 13 »
搜珍网 www.dssz.com