搜索资源列表
Entropy
- 根据chn和eng两篇文本,计算并比较中英文的熵极限值。 求熵过程使用不等概率独立链公式,使用单链表作为存储单元。-[Google Translate] According to two text eng chn and to calculate and compare the entropy limit in English. Entropy of the probability of seeking an independent chain of processes
2
- 设计一个哈夫曼编码、译码系统。对一个ASCII编码的文本文件中的字符进行哈夫曼编码,生成编码文件;反过来,可将编码文件译码还原为一个文本文件。 (1) 从文件中读入任意一篇英文短文(文件为ASCII编码,扩展名为txt); (2) 统计并输出不同字符在文章中出现的频率(空格、换行、标点等也按字符处理); (3) 根据字符频率构造哈夫曼树,并给出每个字符的哈夫曼编码; (4) 图形化输出哈夫曼树、哈夫曼编码; (5) 将文本文件利用哈夫曼树进行编码,存储成压缩文件(编码文件后缀
text_classification_using-svm
- 关于svm支持向量机的比较权威的论文,详细介绍了svm算法的原理及其在文本分类中的应用-Authoritative papers for Svm support vector machines , detailing the algorithm and its application in svm text classification application
mian
- 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。 -Text of obtaining statistics its advantage is: use the public to save string prefix storage space, the maximum r
onTextCategorization
- 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增 益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类 器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的 矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征
LZW_12
- lzw算法实现对文本和图像的无损压缩和解压缩,字典长度最高位12位,对重复性比较高的文本和图像有不错的压缩效果。-lzw algorithm lossless compression and decompression of text and images, dictionary length MSB 12, good compression of the repeatability text and image.
data-minin-for-text-classification
- 在数据挖掘中,比较典型的就是关于文本的分类,此文档介绍关于文本的分类方法-data minin for text classification
cpp
- 文章查重源码 应用了最短编辑距离算法以及相似度算法原理,用两个待比较的文本框输入要比较的的文本文字,然后求解,最后输出两篇文章的相似度的百分比 -The article source application rechecking the shortest edit distance algorithm and the similarity principle, comparing two stay text box input to compare the text of the text,
knn
- 简单的 knn 文本算法 ,用于中文文本分类,比较方便的方法!-Simple text knn algorithm for Chinese text classification, more convenient way!
SimHash
- simhash算法的实现,可快速比较文本的相似性-achieve simhash algorithm can quickly compare the similarity of text
nccmp
- 比较两个netcdf文件 1。通过添加内部ind2sub1函数remove函数依赖第三方 2。格式化文本-Descr iption NCCMP compares two netcdf files and prints the differences. This function is useful for testing mathematical forecasting or prediction models. USAGE: NCCMP(ncfile1,ncfile2)
sobel-zero-crossing-canny-compare
- 本科时做的一个实验,关于3个算法的比较,有matlab代码,有说明文本,还有一些素材图片。-three algorithms about image process,include some image used in the process and pdf introducing the process.
lle
- lle局部线性嵌入算法,对数据做降维处理,数学建模,文本分类方面有比较好的效果-Lle locally linear embedding algorithm, the dimension data, mathematical modeling, text classification has a good effect
cvery
- 用vb写的小程序,可以读取文本图片和修改背景颜色,比较简单。-Using vb to write a small program, you can read the text and modify the background color image, is relatively simple.
TMSVM
- TMSVM开源的文本挖掘代码,C++代码写的比较清楚,值得研究。-TMSVM opensource text mining code
lrogress
- 一种文本分类数据挖掘的技术,比较几种不同的文本分类方法,重点介绍熵,()
initiabioation-recordset
- 这是一篇讲述聚类在文本挖掘中的应用的博士论文,个人认为讲述的还是比较细的()
qiqoa
- 一种文本分类数据挖掘的技术,比较几种不同的文本分类方法,重点介绍熵,()