搜索资源列表
VSM
- 用TFIDF和特征增益两种方式实现了特征向量空间的建立,将文本文件表示成特征向量的形式,为接下来的聚类做了准备。程序用JAVA写成。
java-cluster.zip
- 用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
java_kmeans
- java实现kmeans算法,可以处理任意维度的向量。并将聚类结果写入文本。-The kmeans algorithm java, and can handle any dimension vector. And write text clustering results.
Kmeans
- 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现(Algorithm idea: extract the TF/IDF weight of the document, then calculate the distance between two multidimensional vectors by cosine theorem, calculate the similarity