搜索资源列表
gmeans
- gmeans-- Clustering with first variation and splitting 文本聚类算法Gmeans ,使用了3种相似度函数,cosine,euclidean ,KL.文本数据使用的是稀疏矩阵形式. -gmeans clustering with first variation and splitting Gmeans,a text clustering algorithm, uses 3 functions,cosine,euclidean and
KMEANS聚类
- knn分类模式识别可用于文本挖掘和其他的识别分类,vc代码,-Commission pattern recognition can be used for classification of text mining and other identification classification, vc code,
Incremental_Document_Clustering
- 一个增量文本聚类的算法。 参考文献: Wai-chiu Wong, Ada Wai-chee Fu, Incremental Document Clustering for Web Page Classification. -an incremental version of the clustering algorithm. References : Wai-chiu Wong, Ada Wai-CHEE Fu, Incremental Document Clustering for
neucsp
- 很好的分词工具,能对文本进行分词,标注词性,是进行文本聚类不可或缺的工具
K-means_clustering_demo
- K-均值聚类算法 vc++图形演示程序-K-means clustering algorithm c++ demo program
PLSA
- PLSA 的Java实现,可以用于图像处理,文本分类,文本聚类等-code of PLSA in JAVA
textFCM
- 应用FCM(模糊c均值聚类)算法到文本聚类 采用两种方法计算文本相似度 采用ShootSeg分词 采用sogou互联网词库简化特征值计算-err
KClustering
- k-聚类算法-k- gathers a kind of algorithm
extract_document
- 这是一个提取 Reuter-21578 的程序, 用做自然语言处理, 文本分类聚类,和信息检索的测试集!-This is an extract of the Reuter-21578 procedure, used for natural language processing, text classification clustering, and information retrieval test collection!
KAV
- KAV是利用Visual C++ 6.0编写的一个小程序,能实现对特定数据结果的文本数据进行聚类分析,所使用的聚类方法是K均值。 -KAV is the use of Visual C++ 6.0 to prepare a small procedure to achieve the outcome of specific data on the text data clustering analysis, the use of the K-means clustering method.
reuters21578
- 这是一个英文的语料库,可以用于进行文本的分类与聚类。是文本分类领域共用的一个语料库。-This is a corpus of English, can be used for text classification and clustering. The field of text classification is a common corpus.
CheckText
- 实现文本相似度检查的文本层次聚类算法和划分算法的C#源码-Text to check the text similarity hierarchical clustering algorithm and classification algorithm C# source code
Ncut
- 本文介绍了web文本聚类的流程,着重介绍了Normalized Cut谱聚类的原理和算法,提出以Minimum cut作为类内部的内聚强度作为衡量Normalized Cut的迭代停止条件
111
- 有关层次聚类的源码,对于文本聚类有一定作用。-Hierarchical clustering,Text Clustering
dbscan的matlab代码实现
- 使用MATLAB对文档进行聚类,尤其在数据挖掘中使用,一般用于文本特征表示之后(Clustering documents using MATLAB)
DBSCAN Clustering
- 基于matlab的dbscancluster的实现可用于文本聚类(The implementation of dbscancluster based on Matlab can be used for text clustering)
finallyliuyuClassifier
- 用于文本分类,文本挖掘,文本特征提取,文本聚类,文本关联等(It is used for text classification, text mining, text feature extraction, text clustering, text association, etc.)
textclustering-master
- 对于大文本进行挖掘聚类,该方法不考虑文字词语出现的频率信息,考虑上下文语境,将所有的字根据预定义的特征进行词位特征学习,获得一个训练模型。然后对待分字符串的每一个字进行词位标注,最后根据词位定义获得最终的分词结果。(Digging for large text clustering, the method does not consider the text word frequency of information, considering the context, all the words
chinese_text_cluster-master
- 基于中文文本的机器学习聚类算法的实现,包括LDA算法等(Chinese Text Clustering)
Python中文文本预处理
- 包括删除标点、分词、删除停用词、计算相似度、文本聚类等功能