搜索资源列表
v.206(预处理)
- lex语法分析,对BNC语料库进行文本标注前的预处理,将与SGML标注与文本词性标注无关的删除掉-this is lex syntax analyzing,annotate with BNC syntax LIB.
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
ful2hlf
- 将文本中的全角转变为半角,供后续使用。主要可以用于对网页内容的预处理。-text of the entire half-angle of the angle changes for the use of follow-up. The main website can be used as pretreatment.
speakerrecognition
- 语音识别中的两种特征提取方法lpcc和mfcc,还有一个是文本无关的识别算法dtw,另外还有一个是预处理消噪部分的。共享一下,这些都是我调试过的,好用。-Speech Recognition two feature extraction methods and mfcc lpcc. There is a text-independent recognition algorithm dtw, in addition to a pretreatment is part of the noise so
bmptoascii1593195282003
- BMP到ASCIIl转换程序,将图像转换成使用字母和符号的ASCII艺术文本,也可以创建相应的彩色ASCII图像. 程序中提供有图像预处理操作改变图像大小及增强图像的灰度级对比度.
php-5.2.5
- PHP,一个嵌套的缩写名称,是英文超级文本预处理语言(PHP:Hypertext Preprocessor)的缩写。PHP 是一种 HTML 内嵌式的语言,PHP与微软的ASP颇有几分相似,都是一种在服务器端执行的嵌入HTML文档的脚本语言,语言的风格有类似于C语言,现在被很多的网站编程人员广泛的运用。
log_pretreatment
- 数据预处理,完成由数据库数据向TEXT文本的转化
stop.rar
- 本代码用c语言编写,用于在文本分类预处理过程中停用词的去除。
c
- 实现源程序输入串中注释、续行符的删除,换行符和Tab的替换,大写字母变换,得到预处理后的文本串,为单词识别做好准备。-Realization of input strings in the source notes, continued at the deleted line, newlines, and Tab replacement, capital letters transform, obtained after pretreatment of the text string, read
work
- 本文的处理手段是对输入的汽车图像进行预处理,运用车牌定位,字符分割,字符识别的方法提取车牌上的数字字符串,并以文本的形式输出。-This treatment method is to enter the vehicle image preprocessing, the use of license plate location, character segmentation, character recognition to extract license plate numbers on th
1
- 基于WEKA平台的文本聚类研究与实现 文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的文本聚类过程做了较深入的讨论和总结,利用文本语料库,基于数据挖掘工具研究并实现了文本聚类的过程。本文首先给出了文本聚类的思想和过程,回顾了文本聚类领域的已有成果,列举了文本聚类领域在特征表示、特征提取等方面的基础研究工作。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20 Newsgroup文本语料库,
V3.0
- 文本分类,包括:文本预处理,去除停用词,学习和训练,最后实现分类。-Text classification, including: text pre-processing, removal of stop words, learning and training, and finally achieve the classification.
java_stopword_code
- Java 数据挖掘进行文本预处理的一步,除去文本中包含的停用词-Java Data Mining for text preprocessing step to remove the text contains the word disabled
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)
Chinese
- 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
EnglishChuLi
- 利用python编写的文本预处理的程序,包含了每一步的实现代码,分为删除标点符号、删除停用词、相似度计算、PCA降维、聚类以及可视化等,运行环境为pytharm,python3开发环境(The text preprocessing program written by Python contains every step of implementation code, which is divided into delete punctuation marks, delete stop word
ChineseChuLi
- 中文文本处理的python程序,包括分词、删除特殊字符、删除停用词、爬虫程序、PCA降维、Kmean聚类、可视化等(Python programs for Chinese text processing, including participle, deleting special characters, deleting disuse words, crawler programs, PCA dimensionality reduction, Kmean clustering, visuali
关于垃圾邮件过滤器的演示
- 垃圾邮件过滤 1.分析垃圾邮件存在的技术原因,设计基于内容的垃圾邮件过滤实现方案。 2.分析基于内容的垃圾邮件检测流程,设计邮件文本预处理、特征降维和文本分类模块。 3.搭建垃圾邮件过滤实验和测试平台,验证垃圾邮件过滤方案实用性。 4.解决垃圾邮件过滤效率不高、(Analysis of the technical reasons for the existence of spam and the design of a content based spam filtering schem
sentiwordnet
- python3.6下英文文本预处理和情感分析(English text preprocessing and emotional analysis under python3.6)
Python中文文本预处理
- 包括删除标点、分词、删除停用词、计算相似度、文本聚类等功能