搜索资源列表
acmfudaojiaocheng
- 问题规模化是近来信息学竞赛的一个新趋势,它意在通过扩大数据量来增加算法设计和编程实现的难度,这就向信息学竞赛的选手提出了更高层次的要求,本文试图探索一些解决此类问题的普遍性的策略。开始,本文给出了“规模化”一词的定义,并据此将其分为横向扩展和纵向扩展两种类型,分别进行论述。在探讨横向扩展问题的解决时本文是以谋划策略的“降维”思想为主要对象的;而重点讨论的是纵向扩展问题的解决,先提出了两种策略——分解法和精简法,然后结合一个具体例子研究“剪枝”在规模化问题中的应用。问题规模化是信息学竞赛向实际运用
dtw
- 用matlab实现特定人的单个词识别,采用dtw算法,主要用到了语音端点检测、语音分帧、梅尔倒谱系数等,文件中含有0-9个输入模版语音,作为参考模版信号。-Using matlab to achieve a specific person single word recognition, using dtw algorithm, mainly used in the voice activity detection, voice sub-frame, Mel Cepstral, etc., do
class
- 中文文本分类可以对已经分好词的文本进行分类,先自己导入数据,用libsvm中的svm进行分类和预测,特征用tfidf算法,还利用卡方检验进行了特征选择,可自行设定阈值-text mining
cppjieba-master
- 中文分词功能,采用统计学习算法来实现,准确率较高-Chinese word function, using statistical learning algorithms to achieve high accuracy
IKAnalyzer
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, lightweight java-based de
WebPage
- 网页分析提取文本信息,网页分词,利用Trie树实现算法-Web analytics extract text, page segmentation, use of Trie tree algorithm
Twitter-LDA-master
- twitter-LDA算法的JAVA实现,LDA算法针对于微博短文本的改进算法,目前只是简单的英文分词功能,没有中文分词功能,-twitter-LDA algorithm JAVA implementation, LDA algorithm for improved algorithm for short text microblogging, now just a simple English word function, there is no Chinese word function,
divide
- 采用正向最大匹配算法实现中文分词,基于matlab2013编程-MATLAB code
Divide
- 使用Java语言,用前向匹配算法与后向匹配算法实现中文分词- The use of Java language, with the forward matching algorithm to achieve the Chinese word segmentation
fenciledebeiyesi
- 中文文本分词系统+基于贝叶斯算法的文本分类源码,用matlab实现。-Chinese word segmentation system+ based on Bayes text classification source code, using matlab implementation.
123
- 分词处理算法 自己写的一点小程序 仅供参考-Word segmentation algorithm to write their own small procedures for reference only
Sogou-character-porfile
- 介绍人物标签处理的过程,从数据采集,分词,预处理,算法选择以及结果展示方面来介绍相关过程。-This paper introduces the process of character label processing, and introduces the process of data acquisition, word segmentation, preprocessing, algorithm selection and result display.
matlab程序
- 用于计算中文分词的正向最大匹配算法、基于matlab语言的设计(Forward maximum matching algorithm for computing Chinese word segmentation.)
HanLP-1.3.4_20170616
- 目前流行的,中文分词核心软件包!可以实现多种算法的分词结果!(Chinese word segment package)
CRF++-0.54
- 该工具可以进行中文自然语言处理,辅助我们进行分词,词语标注开发工作。是目前最流行的自然语言处理工具。该工具基于判别式算法完成。(This tool can be used in Chinese natural language processing, which can help us to carry out word segmentation and label development work. It is the most popular natural language process
Alice
- 支持中文的alice,中文分词采用的是mmseg算法(alice with mmseg support chinese,need download mmseg4j.jar.)
DeepLearning
- 用于分词,深度学习算法,使用了RNN神经网络,可以进行参数设置(Used for participle, depth learning algorithm)
tfidf算法
- 简单计算文档中分好词的词TFIDF值,用于提取文章的关键词。(Simple calculation of TFIDF values used to extract Key words of articles)
sensity-word-filter
- 敏感词过滤,使用dfa算法+ik分词实现敏感词过滤(UHFdtysgfdsadfasdfasfdasfasfdasfdsadfdahgfds)
合工大自然语言处理报告代码
- 四、中文词法分析系统 1、实验要求 语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最长匹配,或者后向最长匹配等算法,鼓励用更复杂一些的方法来进行,包括隐马尔科夫模型和条件随机场模型。 二、宋词自动生成 1、实验要求 语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 实现了隐马尔科夫模型分词