如何避免机器学习中的三大陷阱？-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读如何避免机器学习中的三大陷阱？

如何避免机器学习中的三大陷阱？

2019-09-16

如何避免<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>机器学习</a>中的三大陷阱？

▲利用机器学习来优化生产高能等离子体的设备

随着来自无数领域的科学家急于进行算法分析，谷歌的Patrick Riley呼吁在研究和报告方面制定明确的标准。

作者 | Patrick Riley

出品 | CDA数据分析师

Three pitfalls to avoid in machine learning

机器学习正在推动整个科学的发现。其强大的模式发现和预测工具正在帮助各个领域的研究人员 - 从发现分子的新方法和在分析中发现细微信号，到改善医学诊断和揭示基本粒子。

然而，机器学习工具也会变成傻瓜的黄金 - 误报，盲目的小巷和错误。许多算法都非常复杂，以至于无法检查所有参数或无法确切地了解输入的操作方式。随着这些算法开始得到更广泛的应用，误解，错误结论和浪费的科学努力的风险将呈螺旋式上升。

这些问题并不新鲜。机器学习领域几十年来一直受到“坦克问题”的影响。最初的研究似乎是在20世纪60年代出现的（参考文献1是本研究中最早的合理参考文献;感谢软件工程师Jeff Kaufman）并被时间的迷雾所掩盖，但故事就是这样。研究人员在军方提供的照片中编写了一种算法来发现坦克。该模型在测试图像中成功找到了坦克。但它后来因为未来的真实照片而失败了。为什么？复述中的细节各不相同，但它所训练的图片包含其他图案 - 在晨光中或在云层下出现的坦克。因此，推动算法的是其他因素，而不是坦克的存在。

类似的混乱今天引起了反省。许多机器学习论文未能完成足够的实验。审查标准不一致。竞争鼓励一些研究人员一旦认为他们有他们想要的答案就偷工减料并跳过检查。

我们无法预测每次分析会产生的所有困难。但是，至少，研究人员将机器学习带到他们的领域应该熟悉他们可以用来检测和避免它们的常见陷阱和实践。

为了说明这一点，我强调了我们在Google Accelerated Science团队中面临和克服的机器学习分析中的三个问题。

三个问题

1、不恰当地拆分数据

在构建模型时，机器学习从业者通常会将数据分解为训练和测试集。训练集训练模型，并通过它对测试集的描述程度来评估模型的性能。研究人员通常会随机分割数据。但现实生活中的数据很少是随机的。它们可能包含时间趋势 - 例如收集数据的方式的变化，或者收集的信息的不同选择。

例如，这些历史模式被埋藏在分子的数据集中，其通过机器学习算法虚拟地筛选以找到药物的候选者。挑战在于预测假设分子如何有效地被吸收到体内或减少炎症。筛选开始于分子的数据，这些分子具有或不具有期望的效果。但是收集数据的背景可能与机器学习模型的使用方式不同。

▲使用机器学习来寻找能量材料

例如，模型可以建立在公开可用的一组分子上，然后用于不同的专有集合。化学家的凝视经常从某些分子群转向其他分子，当有希望的导联被检查和丢弃时。因此，研究人员经常高估模型在实践中的表现。这可能导致预期膨胀，并且在选择不当的分子上浪费时间和金钱。许多模型制作者（包括我自己）都陷入了这个陷阱。

换句话说，您要回答的问题应该会影响您分割数据的方式。为了模型预测添加几个原子对分子的影响，测试集中的每个分子应该在训练集中具有一个不同原子的伙伴。如果你想对化学上不同的分子做出很好的预测，那么测试集中的每个分子都应该与训练集中的所有分子不同。分割数据的“正确”方式可能并不明显，但仔细考虑并尝试多种方法可以提供更多洞察力。

2、隐藏的变量

在理想的实验中，研究人员只更改感兴趣的变量并修复所有其他变量。在现实世界中，这种控制水平通常是不可能的。随着时间的推移，设备的精度漂移，批次的试剂不同，一个实验条件在另一个之前进行，结果甚至可能被天气扭曲。这种不受控制的变量在机器学习模型中可能是有害的。

例如，我在Google的团队一直在加利福尼亚州Foothill Ranch的核聚变初创公司TAE Technologies工作，以优化生产高能等离子体4的实验。我们建立了模型，试图了解等离子机的最佳设备设置。存在数百个控制参数，从何时激励电极到要设置在磁体上的电压。记录一系列测量值，包括温度和光谱。

我们从数千次运行的等离子机中获取了数月的数据。设备调整和修改以及组件磨损并尝试不同的想法时，设置会有所不同。当我们到达一个模型时，我们很高兴，根据给定的设置预测，等离子体的能量是否会很高。很快，很明显我们的预测不是基于我们的想法。

▲在印度马杜赖的Aravind医院进行眼科检查，工作人员和谷歌研究人员正试图自动诊断由糖尿病引起的失明。

当我们再次训练模型时，将实验时间作为唯一输入，而不是机器的所有设置，我们获得了类似的预测能力。为什么？我们认为我们的第一个模型锁定时间趋势，而不是物理现象。随着实验的进行，有一段时间机械运行良好，有些时间没有。因此，实验的时间可以为您提供有关产生的等离子体是否为高能量的信息。此外，可以从控制参数的设置大致预测实验的时间 - 这些变化的时间趋势也是如此。

隐藏变量也可以源于实验布局。例如，我们正在与许多合作者合作解释显微镜图像，包括纽约市的纽约干细胞基金会研究所。图像包括在板上的生物实验阵列 - 通常是包含细胞和液体的孔的网格。目标是找到具有某些特征的孔，例如化学处理后细胞外观的变化。但生物变异意味着每个板块看起来总是略有不同。并且单个板块可能存在差异。边缘通常看起来与中心不同，例如，如果更多液体在外围井中蒸发或者板是否倾斜。

机器学习算法可以轻松掌握这些无意识的变化。例如，该模型可能只是确定哪些井位于板的边缘。检查是否发生这种情况的一种简单方法是让模型预测其他事物，例如盘子上的位置，盘子是什么以及图像来自哪个批次。如果它可以做到这一点，请怀疑你的结果。

得到的教训是：使用多个机器学习模型来检测意外和隐藏的变量。一个模型侧重于您关心的问题 - 等离子是高能还是低能; 细胞是健康还是生病？其他模型清除了混杂因素。如果后者的结果很强，请对数据进行标准化，进行进一步的实验或调整结论。

3、误解目标

机器学习算法要求研究人员指定一个“损失函数”，它决定了各种错误的严重程度 - 例如，最好是两个错误是1％，还是单个错误2％。从业者倾向于使用一小部分功能，这些功能无法捕捉他们真正关心的内容。

例如，我们一直在使用机器学习来帮助求解偏微分方程。这些公式在科学中很常见，包括流体动力学，电磁学，材料科学，天体物理学和经济建模。通常，它们必须以数字方式解决，我们训练模型以在有限的分辨率下提供更好的准确性。