搜索资源列表
SimHash
- simhash算法的使用,可以进行网页去重,文本的相似度计算等-Use simhash algorithm can go heavy pages, such as text similarity calculation
simhash_sourcecode
- 文本文件,网页内容相似度匹配hash算法源代码,用于生成文件指纹,并根据文件指纹生成文件相似度。有windows和linux2个系统的源代码。-the sourcecode is about fies and web pages similarity match algrithm.
StringCom
- 基于B/S架构完成两个字符串的比较,分为文本比较以及字符串比较两种。VS2010下的工程文件,基于WEB页的文本比较源码,不仅能够完成相似度的计算而且可以给出两个文本的对比差异并用不同颜色区分。-a kind of source code for based on B/S arch to compare two strings , give the degree of similarity and show the difference between two strings with diff
a-sens-similar-method
- 多种短文本处理与相似度分析短,应用于文本挖掘方法,安装包-Short text processing and similarity analysis is short, which is applied to text mining.
image-retrieval
- 最新的几篇图像检索方面的论文。在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。-The latest image retri several papers. On a retri principle,
VSM
- 利用向量空间模型对两个文本的相似度进行计算的Java代码-The use of vector space model for the two text similarity calculation of the Java code
Kmeans
- 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现(Algorithm idea: extract the TF/IDF weight of the document, then calculate the distance between two multidimensional vectors by cosine theorem, calculate the similarity
RKRGST
- 用于字符串文本的匹配算法,融入了kr算法,hash函数映射的方法,缩短了计算时间成本。多用于抄袭相似度比对等领域(The matching algorithm for string texts incorporates the kr algorithm and the hash function mapping method, which reduces the computation time cost.)
协同过滤算法
- 文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。(Text clustering document clustering is based on the well-known clustering assum
mn
- 对文本的情感分析的划分和测试,相似度进行判断(The classification and test of text sentiment analysis, and the judgement of similarity.)