搜索资源列表
中文分词技术及最新发展
- 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词 与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大 减轻了用户与计算机的工作量:相对来讲,中文的情形就复杂得多。中文的词与 词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种 技术被称之为“汉语词语切分技术”。根据是否采用词语切分技术,中文搜索引 擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊 性,开发中文搜索引擎决不像西文软件的汉化那样简单。在实
汉语自动分词与词性标注软件中文分词系统
- 学习汉语自动分词与词性标注软件的组件化有助于更好的理解中文分词系统,PoS tagging HMM
zhishifencisuanfa
- 基于知识分词算法的病案全文检索系统, 硕士论文.-Knowledge-based segmentation algorithm cases full-text retrieval system, a master s thesis.
ICTCLAS
- ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,该文档是对ICTClAS分词系统的详细介绍。-ICTClAS segmentation system by the Hua-Ping Zhang from the Chinese Academy of Sciences, received wide acclaim Qun developed a word segmentation system, it is valu
interest-profile-anonymization
- 本系统通技术运用主要采用Servlet实现,前台页面使用jsp技术,首先接受所要处理的数据集以及参数设置,对用户的搜索内容进行分词、去除停用词,形成用户的兴趣模型;进行用户兴趣模型匿名化:从用户兴趣模型集中选取模型,计算该模型与所有等价组模型的相似性以及计算该模型与其他所有模型的相似性,根据相似性的大小进行聚合成等价组,然后再计算各自兴趣模型的权值,以达到用户兴趣模型的匿名化以及权值的平衡,然后提交到后台进行匿名化操作,最后返回匿名化结果。-The system through the use
093031fenci
- 这是一个中文分词系统,ICTALAS,非常经典的分词源码,欢迎下载。-This is a system of Chinese segmentation,ICTALAS,and it s very classical.It s my hornor to download this resource,thank you.