聚类分析是一种常用的无监督学习方法,旨在将样本数据划分为相似的群组或簇。在R中,有多种聚类分析方法可供选择,包括层次聚类和K均值聚类等。本文将介绍如何使用R进行聚类分析。
在进行聚类分析之前,需要先准备好要分析的数据集。数据通常以矩阵或数据框的形式呈现,其中每行代表一个样本,每列代表一个特征。在这里,我们将使用UCI Machine Learning Repository上的Iris数据集作为示例。该数据集包含150个样本,每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。首先,我们需要从网络上下载数据集并导入到R中:
iris <- read.csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data", header = FALSE)
colnames(iris) <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species")
层次聚类是一种将样本逐步分组的方法,可以形成一个树形结构,称为树状图。在R中,可以使用hclust
函数来执行层次聚类分析。hclust
函数需要一个距离矩阵或相似性矩阵作为输入,因此我们需要首先计算样本之间的距离或相似性矩阵。在这里,我们将使用欧几里得距离来度量样本之间的距离:
dist_mat <- dist(iris[, 1:4], method = "euclidean")
接下来,我们可以使用hclust
函数对距离矩阵进行聚类分析:
hc_res <- hclust(dist_mat, method = "ward.D2")
其中,method = "ward.D2"
表示使用Ward方法进行聚类分析。Ward方法尝试最小化群组内方差的增加量,因此通常能够产生更紧密的群组。执行完聚类分析后,我们可以使用plot
函数来绘制树状图:
plot(hc_res)
从树状图中可以看出,Iris数据集可以被分成3个主要簇。我们还可以使用cutree
函数将每个样本分配到不同的簇中:
cluster_labels <- cutree(hc_res, k = 3)
其中,k = 3
表示我们期望将数据分为3个簇。可以通过以下方式查看每个样本所属的簇:
head(cluster_labels)
#> [1] 1 1 1 1 1 1
K均值聚类是一种迭代方法,旨在将样本分为k个不同的簇,使得每个簇内部的样本之间的距离最小化。在R中,可以使用kmeans
函数来执行K均值聚类分析。kmeans
函数需要指定要分成的簇数,并且通常需要多次运行以避免收敛于局部最小值。
kmeans_res <- kmeans(iris[, 1:4], centers = 3, nstart = 20)
其中,centers = 3
表示我们期望将数据分为3个簇,nstart = 20
表示我们希
望执行20次随机初始化来避免局部最小值。
K均值聚类分析的输出包括每个样本所属的簇标签和每个簇的中心点。我们可以通过以下方式查看分配到每个簇的样本数量:
table(kmeans_res$cluster)
#>
#> 1 2 3
#> 38 50 62
从结果可以看出,Iris数据集被成功地分成了3个主要簇,每个簇都有相似的特征值。
除了树状图之外,我们还可以使用其他方法来可视化聚类结果。例如,我们可以使用ggplot2包中的函数绘制散点图,并使用不同的颜色表示不同的簇:
library(ggplot2)
iris_clustered <- cbind(iris, cluster_labels)
ggplot(iris_clustered, aes(x = Sepal.Length, y = Petal.Width, color = factor(cluster_labels))) +
geom_point()
从散点图可以看出,不同簇的样本在花萼长度和花瓣宽度之间存在明显的差异。
聚类分析是一种有用的无监督学习方法,可以帮助我们发现数据中隐藏的结构。在R中,我们可以使用层次聚类和K均值聚类等多种方法进行聚类分析。在进行聚类分析之前,我们需要准备好要分析的数据集,并选择合适的聚类算法和参数。最后,我们可以通过树状图、散点图等方式来可视化聚类结果。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14