搜索资源列表
gmeans
- gmeans-- Clustering with first variation and splitting 文本聚类算法Gmeans ,使用了3种相似度函数,cosine,euclidean ,KL.文本数据使用的是稀疏矩阵形式. -gmeans clustering with first variation and splitting Gmeans,a text clustering algorithm, uses 3 functions,cosine,euclidean and
tfidf---c
- 用c#写的tf/idf代码,用来进行文本相似度计算的
072832
- 本文介绍了在向量空间模型下, 使用一和一两种不同的相似度评测方法, 来评测查询与文本之间的相关性。
RepeatedForms
- 根据相似度去重,把文本很相似的删除掉,基于VSM的算法的实现。-According to the similarity to heavy, very similar to the text removed, the algorithm based on VSM realize.
knn
- 文本分类,用KNN方法,通过计算其相似度,找出与它靠近的K个文档。-text classify
ImproveStringSimilarity_src
- 通过对两段文本相似度计算,避免出现重复信息。-Compute the similarity between two text.
simhash_sourcecode
- 文本文件,网页内容相似度匹配hash算法源代码,用于生成文件指纹,并根据文件指纹生成文件相似度。有windows和linux2个系统的源代码。-the sourcecode is about fies and web pages similarity match algrithm.
DocDistance
- java实现的文本相似度系统,使用向量空间模型以及余弦相似度距离公式,实测可以实现2篇文本的相似度计算且有一定的效果。-Java text similarity system, using the vector space model and the cosine similarity distance formula, the measured results can be achieved two similarity of text and have some effect.
相似度检测
- 可以计算文本相似度,任何语言!!!!!!!!!!!!!!!(Can calculate text similarity, any language!!!!!!!!!!!!!!!!!)