人工智能为数据分析做好准备：充分利用机器学习-CDA数据分析师官网

热线电话：13121318867

人工智能为数据分析做好准备：充分利用机器学习

2019-12-12

人工智能为数据分析做好准备：充分利用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>机器学习</a>

作者 | Tessella

编译 | CDA数据分析师

将AI专有技术应用于从世界领先，最强大的科学仪器收集的庞大数据池中，可以加速科学发现的过程。强大的机器学习方法提供了从原始实验数据中提取科学意义的新方法，最终可以帮助资助者从研究投资中释放更多价值。

诸如中子和同步加速器源之类的大规模实验设施已成为现代科学研究的基本要素，使来访的研究人员能够探究许多不同类型材料的结构和特性。它们还会生成大量的实验数据，如果没有专门的实验知识，访问科学家可能很难从原始数据集中提取有意义的信息。结果，在其宝贵的波束时间期间收集的某些数据将永远无法得到正确的分析。

好消息是，在过去的10年中，这种情况已得到显着改善，由领先的中子设施财团共同努力，以简化和标准化用于分析来自中子散射和μ子光谱实验数据的软件。这个名为MANTiD的框架支持通用的数据结构和共享的算法，使来访的科学家能够轻松地处理和可视化他们的实验结果。

Tessella的高级项目经理之一尼克·德雷珀（Nick Draper）表示：“这一共同框架有助于来访的科学家掌握不同设施的仪器。” “但是它也可以帮助研究人员在同一设施中使用不同的仪器。”

下一个重大挑战

根据长期参与大型科学项目支持的德雷珀所说，下一个主要挑战是使来自不同科学背景的研究人员更容易分析和解释可以产生的复杂实验结果。“通常，不仅有一个模型适合您的数据，可能有20或30个选项，有时并不确定要选择哪种模型，” Draper解释说。“目前，需要真正了解仪器实验的仪器科学家的专家意见来指导和指导采用哪种方法。”

但是，随着越来越多的数据要通过，这会造成延迟结果的瓶颈。加快流程的一种选择是利用人工智能（AI）来帮助模型选择。这个概念有些研究人员可能会感到不安，但是Draper的同事Matt Tess（泰斯拉（Tessella）的分析师，密切关注最新的行业趋势）对此有些放心。他说：“人工智能是在帮助人类，它不是在治理和提供答案，而是在不断扩大。”

马特·琼斯（Matt Jones）跟随着AI从早期的单一产品到今天的基于云的解决方案的兴起，并指出了它在辅助药物开发方面的成功。一个示例是在扩大药物发现流程时进行的AI增强分析–反过来又使专家腾出精力来从事更高价值的任务。他主张采取量身定制的方法来最大化收益。他评论说：“构建了最准确，最好的解决方案来解决眼前的紧迫问题。”

深度学习革命

如今，围绕人工智能的嗡嗡声已经不容忽视。令我们震惊的是，在国际象棋和围棋比赛中可以击败大师级比赛的计算机，以及功能日益强大的语音识别和机器翻译工具，为我们带来了惊喜。在亮点列表中，您还可以在图像识别方面增加突破性发展，并在无人驾驶车辆中取得进步。但是，为什么现在都在发生呢？毕竟，许多机器学习算法已经存在了数十年。

深度学习依赖于高性能计算（STFC）

关键因素是规模的影响，特别是数据和可用计算能力的并行增长。尤其是深度学习，这改变了一种技术的功能，而深度学习则受益于大型数据集的可用性。当其他方法向您提供更多信息时达到平稳状态时，深度学习的人工神经网络的性能将不断提高。而且，神经网络越大（或越深），其吸收其输入值并提供有意义的输出的能力就越大。

将大数据与大量计算相结合，可以创建具有许多所谓的隐藏层的人工神经网络。这些深度学习系统是巨大的数学函数，包含多层节点，配备有自动调整的权重和偏差，所有这些值都夹在一系列输入和输出之间。数据和计算的丰富结合，以及对如何训练（或传播）这些强大的多层网络的更深入了解，现在正在将机器学习技术的性能推向新的高度。

享受利益

不利的一面是，研究小组需要访问大量数据和大量计算以充分利用深度学习的好处，并且需要能够启动和运行这些系统的团队的支持。

STFC首席数据科学家Tony Hey和他的团队意识到了这个问题。为了帮助研究人员从实验中更有效地提取更多科学，Hey成立了一个科学机器学习小组，与英国国家数据科学和人工智能研究院Alan Turing Institute密切合作。Hey还与STFC的Ada Lovelace中心建立了联系，该中心正在建立为一个综合的，跨学科的，数据密集型科学中心，该中心有可能通过跨学科的数据处理，计算机模拟和数据方法来转变大型科学机构的研究分析。

Hey的目标包括将AI和先进的机器学习技术应用于Harwell校区由STFC支持的设施生成的实验数据：Diamond同步加速器源；ISIS中子和μ子源；英国的中央激光设施；NERC环境数据分析中心及其JASMIN超级数据集群。

“对庞大数据集的分析需要自动化和机器帮助，因为数据量超出了手工处理的范围，” Hey说道。“但是，在从机器获取数据到可以对结果进行科学处理的过程中，有很多机会可以尝试帮助自动化管道中的数据流。”建立此管道需要帮助研究人员更多地了解机器学习算法。他指出：“您需要透明和易于理解的方法，而不是黑匣子，而是各种方法将如何使您获得答案。”Hey热衷于发展他所描述的机器学习基准。他还希望利用粒子物理学和天文学等社区的现有专业知识，这些社区已经在一段时间内处理了PB级的大数据挑战。目的是为其他学科可以利用的机器学习和AI创建更广泛的支持结构。这意味着能够去除行话，并使诸如数据分类模型之类的过程在给定领域之外易于理解。

教学实验室

降低准入门槛的一种方法是提供CEH的约翰·沃特金斯所称的“教学实验室”，例如C ++例程已打包到R库中，并与数据集结合在一起，然后包装在基于Web的环境中。 R-shiny应用程序，方便访问。他说：“他们让人们查看各种算法，并与他们一起玩耍以学习其特定特征，并发现方法在他们的工作中可能有用或可能没有用。”对于沃特金斯（Watkins）和他的环境科学同事来说，一种尺寸很少适合所有人。该领域的研究人员通常需要了解来自不同来源的各种数据，例如，陆地和大气中传感器的输出以及海洋学测量结果。

科学家需要有机会尝试不同的AI算法（iStock / Alvarez）

他建议说：“理想情况下，您希望使用各种工具来访问一组数据并比较结果以找出最有效的方法。” “您不希望自己只能用一种方法攻击它，因为那是您唯一的能力。”除了去除行话并提供可访问且经过基准测试的工具外，还有其他注意事项。支持给定任务的最佳工作流程也很重要，该任务可能是在HPC上运行模型，将结果存储在大型数据集群上，然后在重要的数据部分已经存储后切换到较小规模的操作。

显然，这是多技能团队的工作，他们不仅可以导航技术，还可以导航AI所针对的科学。回到我们前面的示例，使用小角度中子散射数据进行试点分析使Draper受到鼓舞，现在使用AI引导用户转向使用球形模型或圆柱形模型来拟合数据。早期的结果令人鼓舞，但下一个问题是，当选择多达40种不同的模型时，该方法是否仍然有效。

只是开始

德雷珀（Draper）和他的泰瑟拉（Tessella）同事马特·琼斯（Matt Jones）认为，这仅仅是趋势的开端，这种趋势可能会彻底改变科学数据的分析，研究界对AI的潜在利益越来越感兴趣。“我们现在才刚刚开始刺破这个未来的边缘，”马特·琼斯（Matt Jones）说。他预计会出现更多的对话类型界面以及诸如虚拟现实之类的可视化方法，这些方法将有助于呈现高度详细的科学结构和复杂的数据。

“ AI对于未来来说确实是一个非常有趣的地方，” Draper补充道，他也清楚地意识到了这一障碍。他指出：“您需要大量的培训数据，并且必须正确标记数据。”但是，如果不存在训练数据或仅提供有限的训练数据，会发生什么？一种想法是反向生成图像，以指示特定模型的外观。Draper说：“如果使用不同的参数进行大量操作，混合静态图像并使图像失真以使其尽可能逼真，则可以创建训练数据。” “挑战在于确保您不只是简单地训练数据集以识别您创建的内容，而不是实际的实验结果。”

事实证明，汇总多个信号的合成数据有助于增强语音识别能力，例如，通过训练系统来克服背景噪声（例如车内噪音），因此再次证明，在一个部门中发展的知识可能可以跨不同领域转移。