作者 | IAN JOHNSON
编译 | CDA数据分析师
How to Use t-SNE Effectively
尽管对于可视化高维数据非常有用,但t-SNE图有时可能是神秘的或误导性的。通过探索它在简单情况下的行为方式,我们可以学习如何更有效地使用它。
一种用于探索高维数据的流行方法是在2008年由t-SNE引入的 van der Maaten和Hinton]。该技术在机器学习领域已经变得普遍,因为它具有几乎神奇的能力,可以从具有数百甚至数千维度的数据创建引人注目的双维“地图”。虽然令人印象深刻,但这些图像很容易被误读。本说明的目的是防止一些常见的误读。
我们将通过一系列简单的例子来说明t-SNE图可以和不可以显示什么。t-SNE技术确实很有用 - 但前提是你知道如何解释它。
在潜入之前:如果您之前没有遇到过t-SNE,那么您需要了解它背后的数学知识。目标是在高维空间中获取一组点,并在较低维空间(通常是2D平面)中找到这些点的忠实表示。该算法是非线性的,并且适应底层数据,在不同区域上执行不同的变换。这些差异可能是混乱的主要原因。
t-SNE的第二个特征是可调参数,“困惑”,它(松散地)说明如何在数据的本地和全局方面之间平衡注意力。在某种意义上,该参数是关于每个点具有的近邻的数量的猜测。困惑值对得到的图像具有复杂的影响。原始论文说:“SNE的表现对于困惑的变化是相当强大的,典型的值在5到50之间。”但这个故事比那更加微妙。从t-SNE中获取最大收益可能意味着分析具有不同困惑的多个图。
这不是复杂的结束。例如,t-SNE算法并不总是在连续运行中产生类似的输出,并且存在与优化过程相关的附加超参数。
1.那些超参数真的很重要
让我们从t-SNE的“hello world”开始:两个广泛分离的集群的数据集。为了使事情尽可能简单,我们将考虑2D平面中的聚类,如左图所示。(为清楚起见,两个簇是彩色编码的。)右边的图显示了五个不同的困惑值的t-SNE图。
由van der Maaten和Hinton建议的范围(5 - 50)中的困惑值,图表确实显示了这些簇,尽管形状非常不同。在这个范围之外,事情变得有点奇怪。由于困惑2,局部变化占主导地位。具有合并的簇的困惑图像100示出了陷阱:为了使算法正确地操作,困惑确实应该小于点的数量。否则,实现可能会产生意外行为。
上面的每个图都是5000次迭代,学习率(通常称为“epsilon”)为10,并且已经达到了步骤5,000的稳定点。这些价值观有多大区别?根据我们的经验,最重要的是迭代直到达到稳定的配置。
上面的图像显示了困惑30的五个不同的运行。前四个在稳定之前停止。在10,20,60和120步之后,您可以看到具有看似群集的一维甚至点状图像的布局。如果你看到一个奇怪的“捏”形状的t-SNE图,那么这个过程很可能太早停止了。不幸的是,没有固定数量的步骤可以产生稳定的结果。不同的数据集可能需要不同的迭代次数才能收敛。
另一个自然的问题是,具有相同超参数的不同运行是否产生相同的结果。在这个简单的双集群示例中,以及我们讨论的大多数其他示例中,多次运行给出了相同的全局形状。但是,某些数据集在不同的运行中会产生明显不同的图表; 我们稍后会给出一个例子。
从现在开始,除非另有说明,否则我们将显示5,000次迭代的结果。这通常足以在本文的(相对较小的)例子中收敛。然而,我们会继续表现出一系列的困惑,因为这似乎在每种情况下都会产生很大的不同。
2. t-SNE图中的簇大小没有任何意义
到现在为止还挺好。但是如果这两个集群有不同的标准偏差,那么大小不同呢?(按尺寸,我们指的是边界框测量值,而不是点数。)下面是平面中高斯混合物的t-SNE图,其中一个是另一个的10倍。
令人惊讶的是,这两个簇在t-SNE图中看起来大小相同。这是怎么回事?t-SNE算法使其“距离”概念适应数据集中的区域密度变化。结果,它自然地扩展了密集的集群,并且收缩了稀疏集群,使集群大小缩小。需要明确的是,这与任何降维技术都会扭曲距离的普通事实不同。(毕竟,在这个例子中,所有数据都是二维的开始。)相反,密度均衡是通过设计发生的,并且是t-SNE的可预测特征。
然而,底线是你无法在t-SNE图中看到聚类的相对大小。
3.集群之间的距离可能没有任何意义
集群之间的距离怎么样?下图显示了三个高斯分别为50分,一对分别是另一对的5倍。
在困惑50时,该图给出了对全局几何的良好感觉。对于较低的茫然值,群集看起来是等距的。当困惑度为100时,我们看到全局几何结构很好,但其中一个集群看起来错误地比其他集群小得多。由于困惑50在这个例子中给了我们一个好的画面,如果我们想看到全局几何,我们是否总能将困惑设置为50?
可悲的是没有。如果我们为每个群集添加更多点,则必须增加困难以进行补偿。以下是三个高斯群集的t-SNE图,每个群集有200个点,而不是50个。现在没有一个试验困惑度值给出了良好的结果。
看到全球几何需要微调困惑是个坏消息。真实世界的数据可能会有多个具有不同数量元素的集群。可能没有一个困惑值可以捕获所有集群的距离 - 遗憾的是,困惑是一个全局参数。解决这个问题可能是未来研究的一个有趣领域。
基本信息是t-SNE图中分离良好的簇之间的距离可能没有任何意义。
4.随机噪声并不总是随机的。
一个经典的陷阱是认为你看到的是真正随机数据的模式。当你看到它时,识别噪音是一项关键技能,但要建立正确的直觉需要时间。关于t-SNE的一个棘手的事情是,它抛出了很多现有的直觉。下图显示了真实的随机数据,从100维的单位高斯分布中抽取了500个点。左图是前两个坐标上的投影。
困惑2的情节似乎表现出戏剧性的集群。如果你正在调整困惑以在数据中显示结构,你可能会认为你已经中了大奖。
当然,因为我们知道点云是随机生成的,所以它没有统计上有意义的集群:那些“团块”没有意义。如果回顾前面的例子,低茫然度值通常会导致这种分布。将这些团块识别为随机噪声是读取t-SNE图的重要部分。
不过有其他一些有趣的东西,这可能是t-SNE的胜利。起初,困惑30的情节根本看起来不像高斯分布:云的不同区域之间只存在微小的密度差异,并且这些点看起来可疑地均匀分布。事实上,这些特征是关于高维正态分布的有用的东西,它们非常接近球体上的均匀分布:均匀分布,点之间的间距大致相等。从这个角度来看,t-SNE图比任何线性投影都准确。
5.你有时可以看到一些形状
数据以完全对称的方式分发很少见。让我们看一下50维的轴对齐高斯分布,其中坐标i的标准偏差是1 / i。也就是说,我们正在研究一个长椭圆形的点云。
对于足够高的困惑值,细长的形状易于阅读。另一方面,在低度困惑的情况下,局部效应和无意义的“聚集”成为焦点。更加极端的形状也会出现,但同样只有正确的困惑。例如,这里是两个75个点的集群,每个集群在2D中,以平行线排列,带有一点噪声。
对于一定程度的困惑,长簇看起来接近正确,这是令人放心的。
然而,即使在最好的情况下,也存在一种微妙的失真:在t-SNE图中线条略微向外弯曲。原因在于,像往常一样,t-SNE倾向于扩展更密集的数据区域。由于群集的中间周围的空白空间少于末端,因此算法会放大它们。
6.对于拓扑,您可能需要多个绘图
有时您可以从t-SNE图中读取拓扑信息,但这通常需要多个困惑的视图。最简单的拓扑属性之一是遏制。下图显示了50维空间中的两组75个点。两者都是从以原点为中心的对称高斯分布中采样的,但其中一个比另一个分散50倍。“小”分布实际上包含在大的分布中。
困惑30视图正确地显示了基本拓扑,但是t-SNE再次大大夸大了较小点组的大小。在困惑50时,有一种新现象:外部群体变成一个圆圈,因为情节试图描绘其所有点与内部群体的距离大致相同的事实。如果你单独看这个图像,很容易将这些外点误读为一维结构。
更复杂的拓扑类型呢?对于数学家而言,这可能是实际数据分析师的主题,但有时在野外会发现有趣的低维结构。
考虑一组在三维中跟踪链接或结的点。再一次,查看多个困惑值可以得到最完整的图像。低茫然度值给出两个完全独立的循环; 高点表现出一种全球连通性。
三叶结是多次运行如何影响t-SNE结果的一个有趣例子。以下是困惑2视图的五次运行。
该算法在圆上结算两次,至少保留了固有拓扑。但在三次运行中,最终会有三种不同的解决方案引入人工休息。使用点颜色作为指导,您可以看到第一次和第三次运行相距很远。
然而,在困惑50处运行五次,得到(直到对称性)在视觉上相同的结果。显然,有些问题比其他问题更容易优化。
结论
有一个原因是t-SNE变得如此受欢迎:它非常灵活,并且经常可以找到其他降维算法无法实现的结构。不幸的是,这种灵活性使解释变得棘手。在用户看不到的情况下,该算法进行各种调整以整理其可视化。但是,不要让隐藏的“魔法”让你远离整个技术。好消息是,通过研究t-SNE在简单情况下的行为方式,可以对正在发生的事情形成直觉。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03