搜索资源列表
feici
- 现代汉语分词源程序。里面没有字库,使用的 是拼音加加自带的词库-modern Chinese-term source. There's no library, using the phonetic way of built-in thesaurus
Investigation-on-Simulation2Number-in-AWGN-Channel
- 摘要: 研究了蒙特卡罗仿真原理和仿真结果置信度 结合AWGN(加性白高斯噪声) 信道特点,甄选出3 个合适的 参量,即误码个数、置信概率和仿真结果最大相对误差 提出了AWGN 信道下仿真数据量选取的一般性结论,即误 码个数正比于置信区间上分位点的平方、反比于最大相对误差的平方. 仿真结果验证了所提结论在AWGN 信道各 种信噪比下均有效 同时对于无线通信或移动通信的时变多径衰落信道,如采用OFDM(正交频分复用) 、分集、均 衡、交织等技术,能将信道改造为AWGN 信道,该结论依
acmfudaojiaocheng
- 问题规模化是近来信息学竞赛的一个新趋势,它意在通过扩大数据量来增加算法设计和编程实现的难度,这就向信息学竞赛的选手提出了更高层次的要求,本文试图探索一些解决此类问题的普遍性的策略。开始,本文给出了“规模化”一词的定义,并据此将其分为横向扩展和纵向扩展两种类型,分别进行论述。在探讨横向扩展问题的解决时本文是以谋划策略的“降维”思想为主要对象的;而重点讨论的是纵向扩展问题的解决,先提出了两种策略——分解法和精简法,然后结合一个具体例子研究“剪枝”在规模化问题中的应用。问题规模化是信息学竞赛向实际运用
IKAnalyze_Guide
- IK Analyzer 中文分词器的介绍文档-IK Analyzer Chinese word introductory document
search
- 统一资源定位符(URL)是网站页面的地址判别方式,也是蜘蛛抓取网站网页信息的途径。那搜索引擎蜘蛛是如何通过URL链接抓取网站页面的呢?搜索引擎工作大致分为三个阶段:爬行和抓取阶段(搜索引擎蜘蛛访问页面,并获取页面html代码存入数据库):预处理(对页面文字进行提取、分词、消除噪音、去重 和建立索引);排名(根据页面的相关性和网站权重高低展示给用户)。-Uniform Resource Locator (URL) address discrimination is the way web page
CRF
- 条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果
wenbchongpaixu
- 这是具有文档间距离的文档重排序算法研究,中文信息处理基于应与与搜索引擎,实现文档的自动分词与索引。-This is the document reordering algorithm based on the distance between the document research, Chinese information processing technology, is used to search engines, to realize automatic document index
suanfa
- 基于双向匹配法和特征选择算法的中文分词技术研究-Words in technology selection algorithm based on two-way matching and feature Chinese sub
abc
- 自然语言处理中文分词实验报告,详细的进行了中文分词的相关实现操作。- daw pdjapwfjp aejfpa ejfp aejfa wadi awfk jaoejf eojfaoejf
PMl-IR
- Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了—种基于PMI—IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本 中的情感要素和背景情感词之问的点互信息值,从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中-心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比准确率和召回率都有了较大的提高。-Development ofBIog texts info
Chinese-word-segmentation
- 基于n-gram和机器学习的汉语分词算法 理论研究-Chinese word segmentation
093031fenci
- 这是一个中文分词系统,ICTALAS,非常经典的分词源码,欢迎下载。-This is a system of Chinese segmentation,ICTALAS,and it s very classical.It s my hornor to download this resource,thank you.
Chinese-configuration-parameters
- coreseek-3.2.13兼容sphinx-0.9.9的配置,可以不经修改,即可直接使用。不过,为了更好的针对中文进行检索,则需要使用coreseek新增的配置参数,设置中文分词。-coreseek-3.2.13 sphinx-0.9.9 is compatible with the configuration, it can without modification, can be used directly. However, in order to better search for
search
- 中文分词与搜索引擎
FMM-java
- 简单的自然语言初级处理,用Java语言实现的自动分词。分为两个包- Simple primary natural language processing, the Java language to achieve automatic segmentation. It is divided into two packages
ciku
- 中文分词词库,包括了QQ使用词库、sougou使用的词库,以及其他常用词库下载连接等-ci ku of china
lda
- 建立文本主题模型,中文结巴分词,一致性分数计算(lda model ,jieba,co score)
基于文本内容的垃圾短信识别
- 具体描述了怎么通过分词过滤,绘制词云,模型训练等进一步通过该案例学习机器学习的有关内容
情感分类数据集-已分词
- 可用于文本情感分类的研究,其中的训练和测试集都已经过切分。