搜索资源列表
chineseworkshop
- 分词字典,分词必用,包含更新功能,可更新词库,含21万词和专业词库
baidu
- 中文信息处理的分词词库,百度分词词库,用于中文信息处理的词库分析和源程序链接
WeDataMine
- Web挖掘技术在搜索引擎中的应用与实现 介绍了PageRange , 结构挖掘器 , 页面分析器,中文分词等技术
collocation
- 关于中文中词语搭配的三篇论文,利用语义间的信息消解分词中的歧义问题,希望能给研究分词消歧的人一些帮助,谢谢!-English in about three words with the thesis, the use of semantic information between the digestion of segmentation ambiguity problem, hope that I can study the word of people Disambiguation some
Segmenter
- 正向匹配正向最大分词算法,仅仅是个很初级的算法-Being the largest positive word matching algorithms
File22
- 基于关键词的Web文档自动分类算法研究,文档关键词,语义相似度,聚类算法,知网,拓扑网络图,中文分词-Keyword-based Web Document Classification Algorithm, document keywords, semantic similarity, clustering algorithm, HowNet, topological network diagrams, Chinese word segmentation
40W
- 40万汉语大词库,里面包含了常用的汉语词组,可以直接用于自然语言开发分词处理-40 million Chinese large vocabulary, which contains a common Chinese phrase, can be directly used for developing natural language processing segmentation
Web-Chinese
- 中文自动分词技术是中文 Web信息处理的基础。文中以最大匹配法(MM)为基础 ,充分 考虑上下文(MMC) ,在内存中采用二分法进行分词匹配 ,有效地提高了分词的准确率和时效。-Chinese automatic segmentation technology is Chinese Web information processing foundation. The maximal matching method (MM) as the foundation, fully Conside
divcns
- 分词实现简单中文最新修正版 分词实现简单中文最新修正版-the realization of simple Chinese word segmentation
Chinese-Lexical-Analysis
- 一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.-An approach for Chinese 1exical analysis using cascaded hidden Markav model, which aims to incorporate segmentation, part-of-speech tagging, disambiguation and unknown words recognition int
ICTCLAS
- ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,该文档是对ICTClAS分词系统的详细介绍。-ICTClAS segmentation system by the Hua-Ping Zhang from the Chinese Academy of Sciences, received wide acclaim Qun developed a word segmentation system, it is valu
dat
- 中文分词查找关键词结果,抽取新词的结果,如果效果好的话我就上传源码让大家使用-result of extract new word
HMM
- HMM的初步学习资料。HMM对于自然语言的研究尤其是中文分词有非常重要的意义。-HMM preliminary learning materials. HMM is the Chinese word for the study of natural language has a very important significance.
design-documents
- 网页信息采集子系统: 网页采集:动态查找及实时分析新增网页,读取网页回帖信息。 网页过滤:,对获取的网页,通过网页清洗模块清除网页中的广告、导航信息、 图片、版权说明等噪声数据,萃取出相关网页的标题、正文、链接地址、采集时 间、回帖、发帖人数等数据。 网页信息预处理子系统: 网页审查脏字:主要功能包括中文分词、词性标注、命名实体识别、新词识别, 建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的舆论,即回帖的回帖或支持、顶等 达到
35Improv-word-segment-
- 一种改进的中文分词歧义消除算法研究 做中文分词统计语言模型的参考资料-An improved Chinese word segmentation ambiguity elimination algorithm research Do the Chinese word segmentation statistical language model reference material
666A-joint-decoding-segment
- 一种基于字词联合解码的中文分词方法 值得研究的学术论文-Papers segmentation method based on the joint decoding the words Chinese research
lucenepds
- lucene全文搜索:实现了分词 索引 查找三大核心模块-lucene text search: the segmentation index to find the three core modules
fencizf
- 基于java编程,采用最大匹配算法实现简单的中文分词,并过滤停用词-The maximum matching algorithm based on java programming, simple Chinese word segmentation and filtering stop words
interest-profile-anonymization
- 本系统通技术运用主要采用Servlet实现,前台页面使用jsp技术,首先接受所要处理的数据集以及参数设置,对用户的搜索内容进行分词、去除停用词,形成用户的兴趣模型;进行用户兴趣模型匿名化:从用户兴趣模型集中选取模型,计算该模型与所有等价组模型的相似性以及计算该模型与其他所有模型的相似性,根据相似性的大小进行聚合成等价组,然后再计算各自兴趣模型的权值,以达到用户兴趣模型的匿名化以及权值的平衡,然后提交到后台进行匿名化操作,最后返回匿名化结果。-The system through the use
java
- 用java实现的前向最大中文分词算法代码-Using java to achieve before the largest Chinese word segmentation algorithm code