层次聚类,即Hierarchical Clustering,是一种聚类算法,通过对不同类别数据点间的相似度的计算,从而创建一棵有层次的嵌套聚类树。
一、层次聚类算法原理
在聚类树中,树的最底层是不同类别的原始数据点,树的顶层则是一个聚类的根节点。层次聚类算法按照层次分解的顺序可分为:自下向上也,就是凝聚的层次聚类算法,以及自上向下即分裂的层次聚类算法(agglomerative和divisive),又可以被称为自下而上法(bottom-up)和自上而下法(top-down)。自下而上法简单理解为:一开始每一个个体(object)都是一个类,然后再根据linkage寻找同类,最后合并,形成一个“类”。自上而下法与自下而上法相反,是开始所有个体都归属于一个“类”,然后通过linkage排除异类,最后每一个个体都成为一个“类”。
在层次聚类算法中, 最关键的在于计算两个聚类间的距离,根据计算两个聚类之间距离的算法的不同,能够分为以下四种聚类算法:
Single Linkage:两个数据集间的最小距离
Complete Linkage:两个数据集间的最大距离
以上两种方法很容易受到极端值的影响,计算大样本集效率较高。
Average Linkage:任意两个数据集的距离之和的平均值。这种方法虽然计算量比较大,但是这种度量方法更合理。
Ward:最小化簇内方差。假设聚类A的中心点为a,聚类B的中心点为b,A、B合并后的聚类为C,其中心点为c,则聚类A、B的距离为:
二、层次聚类的优缺点
优点:
1.距离和规则的相似度比较容易定义,限制很少;
2.不需要预先制定聚类数;
3.能够发现类的层次关系;
4.能够聚类成其它形状
缺点:
1.计算的复杂度很高;
2.即使是奇异值也会产生很大影响;
3.算法很可能会聚类成链状
三、sklearn中的层次聚类
##导入库
from sklearn.cluster import AgglomerativeClustering
##建模,并指定聚类个数
ward = AgglomerativeClustering(n_clusters=3)
##拟合并预测数据
ward_pred = ward.fit_predict(data)
绘制系统树:
from scipy.cluster.hierarchy import linkage,dendrogram
import matplotlib.pyplot as plt
#指定连接类型为离差平方和法
linkage_type = ‘ward’
#拟合数据,并得到关联矩阵
linkage_matrix = linkage(X, linkage_type)
#创建窗口
plt.figure(figsize=(22.18))
#将关联矩阵输送到系统方法
dendrogram(linkage_matrix)
#显示
plt.show()
数据分析咨询请扫描二维码
寻找数据分析之路 学习路径选择: 数据分析领域广泛,包括统计学、编程(如Python、SQL)、数据可视化等。建议从基础概念开始 ...
2024-12-02数据分析领域是一个广阔而令人兴奋的领域,涉及众多强大工具和软件。掌握这些工具不仅可以提升我们的工作效率,还能让数据讲述更 ...
2024-12-02在当今信息爆炸的时代,数据成为引领业务决策和创新的关键。数据分析作为一项关键技能,已经成为各行业中备受追捧的职业。本文将 ...
2024-12-02在当今竞争激烈的职场环境中,掌握数据分析技能已然成为职业发展中不可或缺的一环。无论你是刚入行的菜鸟还是希望获得更多机会的 ...
2024-12-02重要性和影响 数据分析技能对职业发展具有显著影响。不仅在就业市场竞争激烈,个人职业路径上也起着关键作用。数据分析需求广泛 ...
2024-12-02在追求数据分析师梦想的道路上,最常问及的问题之一是:“最佳学习时间究竟是多久?”这个问题承载着我们对知识获取和实践运用的 ...
2024-12-02在当今信息爆炸的时代,数据早已成为企业决策和发展的核心。掌握数据分析技能不仅可以让你更好地理解数据背后的故事,还可以在职 ...
2024-12-02数学课程对数据分析师的重要性 数据分析师的角色在当今信息时代变得至关重要。他们扮演着解读数据、发现趋势以及为业务决策提供 ...
2024-12-02作为数据分析领域的探险家,我们身处一个充满机遇与挑战的时代。数据分析师不仅面临着广阔的职业前景,还要应对技术进步、人才竞 ...
2024-12-02就业前景与挑战 数据分析师在当前和未来的就业市场中面临着广阔的机遇和挑战。随着大数据时代的到来,企业对数据分析师的需求不 ...
2024-12-02作为数据分析师,掌握数据可视化技术是至关重要的。通过有效的数据呈现和分析,我们能够从数据中提炼出有意义的见解,为业务决策 ...
2024-12-02在今天的数字化时代,数据扮演着至关重要的角色。对于数据分析师而言,熟练掌握各种数据可视化技术至关重要。通过恰到好处的数据 ...
2024-12-02在追求数据分析技能提升的漫漫征途上,制定科学合理的学习计划和精准的时间管理至关重要。本文将为您呈现一份系统且实用的数据分 ...
2024-12-02在当今信息爆炸的时代,数据分析已成为许多行业中不可或缺的一环。然而,要想在这个领域脱颖而出,除了熟练掌握技术工具外,科 ...
2024-12-02在当今数字化时代,数据分析已成为各行各业中至关重要的一环。掌握数据分析技能不仅可以拓宽个人职业发展道路,还能为企业决策提 ...
2024-12-02在追求数据分析职业发展的道路上,合适的学习路径和认证至关重要。从基础到高级,多样化的课程和证书为不同层次的学习者提供了丰 ...
2024-12-02在追求数据分析领域的深度和广度时,建立坚实的基础至关重要。这些基础不仅承载着理解数据的能力,还支撑着对数据进行精确处理和 ...
2024-12-02数据分析基础知识 学习数据分析是一项渐进的过程,从掌握基础知识开始可以帮助我们更好地理解数据的本质以及处理方法。以下是学 ...
2024-12-02在当今信息爆炸的时代,数据分析已成为各行各业提升效率、发现洞见的重要工具。不过,对于初学者来说,学习数据分析可能显得十分 ...
2024-12-02明确学习目标与需求 对于新手,选择入门级课程掌握基础概念和工具。 深入学习统计学、机器学习等高级主题则需要进阶或专业化课 ...
2024-12-02