搜索资源列表
SogouT.mini.tar
- 百度搜索引擎具有响应速度快、查找结果准确全面、时效性强、无效链接少、符合中文语言特点和中国人使用习惯等优点。 1...这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定- IHTMLDocument3* pHTMLDoc3 HRESULT hr = m_pHTMLDocument2->QueryInterface(IID_IHTMLDocument3, (LPVOID*)&pHTMLDoc3)
topic.py
- 基于LSI的中文主题模型提取软件,对用户提供的文本进行分词后,提取出文本的主题,可自己定义提取出多少个主题。-Topic model
phpanalysis2.0.tar
- PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下: 一、比较重要的成员变量 $resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) 这个变量一般用 SetResultType( $rstype ) 这方法进行设置。 $notSplitLen =
zh_lstm
- lstm做情感分类,中文,用到豆瓣影评,结巴分词,lstm模型,环境python3做编码处理。(lstm for sentiment analyse)
文本分类_监管处罚Rcode
- NLP分词,本代码可以用于切割中文关键词,实现信息归类(NLP participle, this code can be used to cut Chinese key words, the realization of information classification)
text_classification_AI100-master
- 实现LSTM情感分析,中文,用到结巴分词,LSTM模型,环境python3.0(Achieve LSTM sentiment analysis, Chinese, use stuttering participle, LSTM model, environment python3.0)
kmeans
- jieba分词将中文文本进行分词处理,将分词后的结果使用word2vec转化成词向量,使用kmeans将中文文本进行聚类(Jieba participle segmenting Chinese text, transforming the result of word segmentation into word vector using word2vec, and clustering Chinese text using kmeans.)
合工大自然语言处理报告代码
- 四、中文词法分析系统 1、实验要求 语料库:1998-01-2003版-带音.txt 要求:根据构建的单词词典和双词词典,用n-gram模型,或者前向最长匹配,或者后向最长匹配等算法,鼓励用更复杂一些的方法来进行,包括隐马尔科夫模型和条件随机场模型。 二、宋词自动生成 1、实验要求 语料库:ci.txt 要求:输入词牌,基于宋词的词典和宋词的词牌,可以随机或者按照语言模型,自动生成宋词。设计相应的Ui或者Web界面。 实现了隐马尔科夫模型分词