
作者 | 我的智慧生活
来源 | 咪付
生活中,距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域,常使用距离来衡量两个样本之间的相似度。
“物以类聚”
我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中,距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后,得到的距离值越小,代表两者的相似度越高,属于同一类的可能性就越高。换句话说,距离能够决定样本的归属。
例如,在下图中,对于机器学习来说存在着两种距离:
(1)一是人物的空间位置距离;
(2)二是人物的性格爱好距离。
对第1种距离来说,A与C较A与B近;而对第2种距离来说,则是A与B较近(爱打球)。A与B的爱好距离可通过如下计算:
我们用0—10分来表征每个人对打球的喜好程度,分数越高代表越爱打球,假设A、B、C三人的分值分别如下:
可以看出,A、B两人的分数较接近,A、B两人的分数差小于A、C两人的分数差,这个分数差值也就是机器学习中要计算的距离。通过比较得出,A、B两者的距离小,容易归为一类。当然,这里仅仅分析了爱打球这一个特征属性,机器学习中通常涉及多个属性进行综合计算和判断,也就是多维度分析。
物理几何空间距离
机器学习中,计算两个样本点之间的距离有多种不同的距离衡量方法,其中最常见的就是采用物理几何空间距离进行衡量。所谓物理几何空间距离就是点到点之间在物理空间中的真实距离。通俗地说,这类距离看得见、摸得着。常见的物理几何空间距离有:
欧氏距离
(Euclidean Distance)
曼哈顿距离
(Manhattan Distance)
切比雪夫距离
(Chebyshev Distance)
闵氏距离
(Minkowski Distance)
夹角余弦
(Cosine)
这几类物理几何空间距离的应用非常多,尤其是欧氏距离。
曼哈顿距离
我们首先从曼哈顿距离来形象了解机器学习中的距离,曼哈顿距离也是机器学习中常采用的一种距离。
我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。
曼哈顿距离,说的是从街区中的一个十字路口到另一个十字路口所经过的街区距离,因此也称为城市街区距离。下图中给出了曼哈顿距离的形象说明,当我们开车从街区的一个十字路口(O)到了另一个十字路口(E)所经过的街区距离为:a+b,这就是曼哈顿距离。
O、E两点之间直线段距离是我们生活中常说的两个地方(O、E)之间的距离,而在实际街区中的情形,车辆无法从O沿直线开到E,除非具备像蜘蛛侠一样的飞行本领可以穿越其中的大楼,这就是曼哈顿距离的由来。
一图看清“欧曼雪”
下面我们再从简单的二维平面坐标图来对比了解欧氏距离、曼哈顿距离和切比雪夫距离(以下简称“欧曼雪”)这三种距离的区别。
上图是由X和Y组成的二维平面坐标,现有A、B两个二维样本值,其投影坐标点分别为:
A(X1,Y1)、B(X2,Y2)
A、B两点之间的直线段距离(图中的c)就是A、B两个样本的欧氏距离。因此,欧氏距离就是两个样本值投影在其坐标空间上的两点之间的直线距离。
如何计算A与B之间的欧氏距离?
从图中可以看出,A、B两点之间的直线段(c)与其横坐标差值线段:
a=X2-X1
纵坐标差值线段:
b=Y2-Y1
构成了一个直角三角形,根据勾股定理的关系可知:
c²=a²+b²
因此,我们可以根据坐标点A(X1,Y1)、B(X2,Y2),求得c值。即计算式为:
c²=a²+b²=(X2-X1)²+(Y2-Y1)²
A与B之间的曼哈顿距离又是怎样的距离呢?
上图中曼哈顿距离是由A沿直线走到C,再由C沿直线走到B,总共经过的距离,即为:
a+b=|X1-X2|+|Y1-Y2|
再来看切比雪夫距离,在上述二维平面坐标示意图中,A与B之间的切比雪夫距离则是选取a、b中值最大的,若a>b,切比雪夫距离即等于a,其计算表达式为:
Max(|X1-X2|,|Y1-Y2|)
由此可看出,上述“欧曼雪”三种距离的实质分别如下:
- 欧氏距离 -
两个样本同一特征分量值差值的平方之和,再开平方根
- 曼哈顿距离 -
两个样本同一特征分量值差值的绝对值之和
- 切比雪夫距离 -
两个样本同一特征分量值差值的绝对值中的最大值
假如现在有三个人A、B和C(即样本A、样本B和样本C),我们需要以性格、爱好这两个属性为依据来判断他们的相似度,A、B、C的综合属性值则表示为:A(性格1,爱好1)、B(性格2,爱好2)、C(性格3,爱好3)。
我们设定上述性格、爱好等每个分量特征属性的取值范围为0—10分。以性格活泼、爱好打球具体属性为例,若性格很活泼,分值为10,若性格不活泼,分值则为0分,其余介于很活泼和不活泼之间的,则取0—10之间的分值;同理,若很爱打球,分值为10分,不爱打球,分值则为0分,其余介于很爱打球和不爱打球之间的,则取0—10之间的分值。
针对性格活泼、爱好打球的两项特征,假设A、B、C三人的取值分别如下:
我们现以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)投影到二维坐标上,分别计算A、B样本之间和A、C样本之间各自的欧氏距离、曼哈顿距离和切比雪夫距离,参照二维坐标投影图,计算结果如下:
从上表结果可知,A、C两个样本的欧氏距离、曼哈顿距离和切比雪夫距离均小于A、B两个样本,因此,A与C的相似度较高。这一结果与二维坐标图上的直观显示相符(即线段AC<AB)。这也很容易理解,两点之间的直线距离越小,当然就越靠近,如果两点完全重合,那就是零距离。
闵氏距离
由上述例子的计算结果可知,尽管欧氏距离、曼哈顿距离和切比雪夫距离各自的定义和计算都不相同,但它们最终衡量的结果是相一致的。这三类距离也可归为闵氏距离。
闵氏距离也称闵可夫斯基距离,根据其变参数p的不同,可以归为不同类型的距离,比如:曼哈顿距离(p=1);欧氏距离(p=2);切比雪夫距离(p→∞)。
我们已经知道欧氏距离的实质是两个样本同一特征分量值差值的平方和,然后再开平方根,这里的平方指数就是闵氏距离的变参数p取2,如果平方指数(即2次方)换成其他次方(比如1,3,4次方等等),那就是其他类闵氏距离。
因此,也可以将闵氏距离看成是欧氏距离指数的推广距离,两者实质特点对比如下:
可见,闵氏距离不仅涵盖了“欧曼雪”三种距离,实则也是欧氏距离指数的推广(指数范围扩大到任意整数)距离。
当然,以上仅考虑了性格、爱好这两个特征属性来分析判断两个人的相似度。但是如果仅凭性格、爱好两个方面来预估两人的相似度,似乎有点过于简单粗暴,通常情况下,我们还要结合更多的特征因素来综合考虑,例如人生观、价值观、家庭背景等,从而得出更加准确的归类判断结果。如果在性格、爱好两个特征的基础上增加人生观这一特征因素来评判,A、B两人的综合属性值则表示为:A(性格1,爱好1,人生观1)、B(性格2,爱好2,人生观2),其具体特征值假设为:A(4,4,3)、B(9,5,6),在计算各类距离时,则相应增加人生观这一特征的差值。例如:
曼哈顿距离计算为:
|4-9|+|4-5|+|3-6|=9;
切比雪夫距离计算为:
Max(|4-9|,|4-5|,|3-6|)=Max(5,1,3)=5;
欧氏距离计算为:
(4-9)²+(4-5)²+(3-6)² =5²+1²+3²=35,再开平方根所得。
对比上表中两维的计算式,可见,增加了|3-6|或(3-6)²这一项差值。
同理,如果在性格、爱好、人生观这三个特征属性的基础上,还需考虑价值观、家庭背景这两个特征属性,总共就变成了五个分量特征,那就是五维的情形。在计算上述各类距离时,则相应增加价值观、家庭背景这两个分量特征的差值。
可见,每增加一个分量特征,维度就增加一个,计算距离时则相应增加该维度分量特征的差值。人工智能机器学习中,为了达到更准确的分类目的,往往要涉及非常多的维度,因而其计算量也相应增大。例如我们熟悉的人脸识别应用中通常采用512维特征向量,即有512个分量特征,以更好地区别出每一个人。
假设分别用两个特征向量:
A(X1, X2,....,X511, X512)
B(Y1, Y2,....,Y511, Y512)
来表示两个512维人脸特征数据,则该两个人脸样本之间的欧氏距离为:
( (Y1-X1) ²+(Y2-X2) ² +......+(Y511-X511) ² +(Y512-X512) ²)
计算求得512个分量值差的平方和,再开平方根,即为两者的欧氏距离。这就是高维欧氏距离的计算。
夹角余弦
除了以上各类常见的闵氏距离,还有一种较常用的距离,那就是夹角余弦。夹角余弦根据两个样本向量的夹角余弦值大小来确定样本的相似性。余弦值越接近1,余弦夹角就越接近0度,两个向量越相似。
现我们仍以简单的平面二维坐标的来了解夹角余弦的本质。以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)为例,其在二维平面坐标的投影点如下图所示,从坐标原点O出发分别指向A、B、C三个点的线段(OA、OB、OC)则为A、B、C三个样本点的向量,A、B之间的向量夹角则为θ1,A、C之间的向量夹角则为θ2,根据三角形AOB的边长可计算出θ1的余弦值,根据三角形AOC的边长可计算出θ2的余弦值。θ1、θ2夹角示意图及其计算式如下表所示:
夹角余弦计算公式(二维)
根据两个样本的坐标值计算
余弦值取值范围为[-1,1]。余弦值越大,夹角越小。
A、B样本夹角余弦值
向量OA与OB之间的夹角余弦值
A、C样本夹角余弦值
向量OA与OC之间的夹角余弦值
可以得出θ1<θ2,从而得出A和B相似度高。
通过对比发现,以上夹角余弦相似度的判断结果与欧氏距离等的判断结果正好相反。这是为什么呢?这是因为欧氏距离和余弦相似度各自的计算方式和衡量角度不相同,欧氏距离关注的是两点之间的绝对距离,而夹角余弦相似度注重的是两个向量在方向上的差异,而非距离。如下二维坐标图中,有A、C两个样本,欧氏距离关注的是AC两点的直线段距离,与OA、OC线段长度密切相关;而夹角余弦则是关注OA线段与OC线段重合需扫过的角度(θ)大小,与OA、OC线段长度无关。因此,夹角余弦相似度是整体方向性上的判断,而欧氏距离则是各分量特征的绝对差值判断。
我们还可以用两个等边三角形的例子来具体了解两者的实质差别。假设有两个等边三角形T1和T2,其边长分别为8和4,现以三个边长为分量特征属性来表征三角形,其在三维空间的投影坐标点分别为T1(8, 8, 8)、T2(4, 4, 4)。由边长数值可知,两个等边三角形虽然边长差距大,但形状完全相似。从其投影坐标点可知,由于T1、T2各个边长分量差值相同,两个坐标点在三维空间坐标上投影方向完全相同。对T1、T2之间的欧氏距离及夹角余弦作对比如下:
从以上对比分析可以看出,欧氏距离和余弦相似度各自的评判标准不同,得出的结论也可能完全不同,因此,两者可根据适用的场合选择采用。欧氏距离适用于需要从每个分量特征差距中体现差异的分析,如通过用户行为指标分析用户价值相似度。余弦相似度更适用于综合性的导向评价,如通过用户对内容评分来区分用户兴趣的相似度等,余弦相似度也常用于计算两个文本之间的相似度。
以上各类常见的物理几何空间距离不仅容易理解,而且方便好用,在样本各个维度数据完整好的情况下具有较理想的预判效果。但同时这几类距离也存在着一些明显的不足,如缺乏考虑各分量之间的相关性影响、各分量特征侧重排序等。
例如上述的例子中,也许需要对性格、爱好、人生观、价值观、家庭背景等分量特征进行侧重排序,又或者人生观这一分量特征会对价值观、爱好等分量特征有影响。如需考虑分量相关性、个体相对于总体的比重等相关因素,更多则是采用基于概率统计的分布距离,较常用的有:马氏距离、巴氏距离、杰卡德相似系数、皮尔逊系数等。这些距离的计算多涉及统计学及概率论知识,因而相对较复杂。
但无论是物理几何空间距离,还是基于概率统计的分布距离,它们的中心思想都是统一的,那就是距离越近越相似。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29