搜索资源列表
ICTCLAS50_Windows_32_C
- 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。-New word of the Chinese Academy of Sciences Institute of Computing Technology, Chinese Lexical Ana
design-documents
- 网页信息采集子系统: 网页采集:动态查找及实时分析新增网页,读取网页回帖信息。 网页过滤:,对获取的网页,通过网页清洗模块清除网页中的广告、导航信息、 图片、版权说明等噪声数据,萃取出相关网页的标题、正文、链接地址、采集时 间、回帖、发帖人数等数据。 网页信息预处理子系统: 网页审查脏字:主要功能包括中文分词、词性标注、命名实体识别、新词识别, 建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的舆论,即回帖的回帖或支持、顶等 达到
ChineseSegment
- 一个完整的中文分词程序,有源码,词典,训练集。算法简洁高效,准确率高。包含了一种将标注语料和词典融合的新型分词方法。将语料分割为2:1为训练集和测试集,加上一个外部词典,准确率可以达到95 。适合入门者学习。也适合需要一个简单分词工具的应用。-A Chinese word segmentation procedures, source, dictionary, the training set. The algorithm is simple and efficient, high accura
SSE
- SSE === small search engine implement ----2013.01.17---- 补充第一份说明,这个项目是三四个月前写的基于Lucene.Net的一个小型通用搜索引擎, 稍迟会补上Demo, 当时的目标是一个通用的索引跟检索架构。 索引方面: 每增加一种需要索引的文档类型,都只需要新建一个类,在类的各个字段上标注上索引信息(如是否需要存储,是否需要分词等)然后又数据源提供实体信息给索引器即可自动索引。
pos_tag
- 用viterbi方法进行词性标注 pos_tag.py 词性标注 evaluate.py 词性标注性能评估 PD_1998_01_POS.txt ”人民日报“语料库 标准词性标注结果.txt 语料库中后10 的数库(分词+词性标注)-Using the viterbi methods for part-of-speech tagging pos_tag.py part-of-speech tagging the evaluate.py speech tagging perform
WordList
- 北京大学分词词表,有属性,是进行分词词性标注的重要资源。-Peking word vocabulary, properties, and is an important resource for sub-word part-of-speech tagging.
nlu_project
- 采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。本系统使用java语言编写-Using machine learning methods for natural language processing, carried out on the Chinese word segmentation and POS tagging. Segmentation using crf model, tagging with
ik
- 一个简单的IK分词的demo,我建议使用中科院分词,因为支持词性标注-A simple IK word of the demo, I recommend using CAS segmentation because they support tagging
Ictclas
- 中文分词的java实现实例。包括词性标注和分词等功能。-Chinese word segmentation to achieve the java instance. Including word tagging and other functions.
FMM_RMM
- 中文分词 以及词性标注,在awt界面上将中文分词,用的是最大正向匹配以及反向最大匹配-Chinese word segmentation and tagging, the interface will be in awt Chinese word segmentation, matching with the maximum forward and reverse maximum matching
0nlu_project
- 本系统使用java语言编写,采用机器学习的方法进行自然语言处理,对中文进行分词和词性标注。分词采用crf模型,词性标注用hmm模型,解码算法为Vertibi算法。-The system uses java language, using machine learning methods for natural language processing, for Chinese word segmentation and POS tagging. Segmentation using crf mod
Nlpir
- 前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。国内国际排名均为第一。 项目已经配置好环境,导入Eclipse即可使用,文件内src下的TestUTF8.java可以直接运行,提供了分词接口-Before NLPIR Chinese word segmentation system (aka I
automatic-word-segmentation
- 实现一个中文自动分词程序,所使用的编程语言不限 选作:对人名,地名,机构名的识别 下载北大计算语言所标注的99年人民日报分词语料库,构建一个词表 实现正向、逆向最大分词算法-To implement a Chinese automatic word segmentation procedure, used by any programming language Chosen for: the person names, place names, organization name
ltp_new
- 使用哈工大信息检索实验室LTP系统进行分词,词性标注,命名实体识别,依存句法分析,语义角色标注 同时是最新版API使用情况,JAVA版本,并且生成XML文件-Retrieval Laboratory LTP system segmentation, the use of Harbin Institute of technology information of part of speech tagging, named entity recognition, dependency parsi
HmmPos
- 本文主要研究在给定的机械词频词典下的基于字符串匹配的中文分词系统,将一整段文字基本正确的切分成词,并标注上词性。在实现分词的过程中,最重要的两个因素就是分词速度和分词精度。因此,我们以分词速度、分词正确率和分词召回率作为中文分词评测标准,力求达到较高的分词速度和分词精度-word Tagging
CRF
- 条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果
nlpir_ictclas2013_release
- 中科院发布的分词系统,能很好的进行中文分词,词性标注。-Chinese Academy of Sciences released a segmentation system that can be very good for Chinese word segmentation, POS tagging.
java调用NPlir
- java调用nplir接口示例,已经能直接导入eclipse运行,具有分词和标注词性功能
HanLP-1.2.7
- HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。-HanLP is a dedicated to popularize NLP technology to production environment of
jieba-analysis-master
- 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_search),词性标注,关键词提取没有实现(今后如用到,可以考虑实现)。-Stammer participle (Java version) to retain only the original project for search engine participle (cut for index, cut for search), part of speech tagging, keyw