搜索资源列表
bus
- 利用中文分词,从文章中提取中文关键字,并进行权值排序(Chinese word segmentation is used to extract Chinese key words, and the weights are sorted)
61836700
- 这是一个文本标注的软件,点击它后可以对输入文本进行分词,标注(This is a text annotation software, click on it after the input text participle, labeling)
matlab程序
- 用于计算中文分词的正向最大匹配算法、基于matlab语言的设计(Forward maximum matching algorithm for computing Chinese word segmentation.)
python
- 文本数据预处理,包括分词,去停词,读取文件等操作(Word segmentation data preprocessing)
ICTCLAS50_Linux_RHAS_64_C
- 中科院分词的c语言版本,中科院分词是目前最好的中文分词(C version of the Chinese Academy of Sciences)
jieba for Python
- jieba分词功能在python中的实现方法(The Method of jieba for word-split in python)
coreseek-3.2.14.tar
- 全文检索,可用于中文分词检索,是基于sphinx的开源。(Full text retrieval, which can be used in Chinese word segmentation, is open source based on sphinx.)
Java_voice_1019_59a51637
- 可以分词,也可以实体命名等功能,同时还可以进行分类或者存储等功能(Word segmentation, or entity naming, can also be categorized or stored)
hmm机器学习
- HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型,用途比较广泛,如汉语分词、词性标注及语音识别等,在NLP中占有很重要的地位(HMM (hidden Markov model) is a basic model in Natural Language Processing, which is widely used, such as Chinese segmentation, part of speech tagging and speech recognition, and plays
ZEPPXFY
- 基于中文分词的bbs源程序,具有很好的全站信息检索功能,()
HanLP-1.3.4_20170616
- 目前流行的,中文分词核心软件包!可以实现多种算法的分词结果!(Chinese word segment package)
CRF++-0.58.tar
- crf分词实验工具包,凑字数凑字数凑字数凑字数凑字数(this is a crf tool kits,welcome to use it to complete your task.)
ikanalyzer-solr5
- solr流行的中文分词工具包 ik-analyzer5(Solr popular Chinese word segmentation toolkit ik-analyzer5)
phpanalysis2.0.tar
- PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) 这个变量一般用 SetResultType( $rstype ) 这方法进行设置。 $notSplitLen =
DeleteJunkFiles
- 很好的文本分类,可以二次开发或者其他的使用也是比较方便的(Very good text classification, can be secondary development or other use is also more convenient)
jieba
- 将句子分成很小的独立词,来提取信息,对照数据字典得到有用的关键信息,进行智能筛选题目或回答问题。(The sentence is divided into very small independent words to extract information, and the data dictionary is used to obtain useful key information.)
jieba_plus
- 解决jieba分词中部分bug,包括全角字母和数字等,更新中(solve part of the bugs in Jieba segmentation, update)
词法分析代码
- 词法分析的简单c实现,将TESTSTRING中的字符串进行分词。(get words in TESTSTRING.)
Main
- 利用java的字符串分词实现英文文本的词频统计并进行输出(Using java string word segmentation to achieve English word frequency statistics and output)
fenci
- 对文件夹中的所有文件进行批量、分词处理并保存(Batch word segmentation for all files in a folder)