AutoAI：人与机器更好地结合在一起-CDA数据分析师官网

热线电话：13121318867

AutoAI：人与机器更好地结合在一起

2020-03-16

作者 | Susan Malaika

编译 | CDA数据分析师

了解AutoAI如何实现数据准备，模型开发，功能工程和超参数优化的自动化。

汽车人工智能的动力

近年来，数据驱动的决策已成为企业成功的关键。使用技术进行数据驱动的实践有很多好处，包括优化生产和制造，减少客户流失，减少数据冗余，增加利润和创造竞争优势。因此，随着组织采用以数据为依据的决策方法，数据科学已变得流行起来。数据科学家需要广泛的技能，包括数学和统计，机器学习和人工智能（AI），数据库和云计算以及数据可视化。但是，很难招募到足够的数据科学家，尤其是具有足够领域知识的专家，例如银行，医疗保健，人力资源，制造业和电信公司，对于要执行的任务和要做出的决定的岗位往往是人手不够的。与此同时，数据科学正日益成为一种素养，许多工作角色（包括员工没有很强的编码技能的角色）都需要了解数据科学技术。

因此，在与开发新工具以提高数据科学家工作效率的同时，也出现了一些技术开发，这些开发的重点是创建软件，使数据科学工作流程中的任务实现自动化，例如Google的AutoML，H2O，DataRobot，以及Auto-sklearn和TPOT等开源库。其中许多系统都基于scikit-learn Python机器学习库。它们是人工智能的例子，因为人工智能技术正被用于构建人工智能解决方案。$IBM^®$为人工智能技术生产了最先进的人工智能，并以AutoAI的形式将其整合到其产品组合中。

什么是AutoAI？

AutoAI是IBM Cloud Pak for Data的标准配置，可在混合多云环境中使用和扩展。AutoAI自动执行数据准备，模型开发，特征工程和超参数优化。AutoAI AI生命周期管理在入门和探索要问的问题时提供了很大的帮助。然后，它支持后续实验，模型修改和调整步骤。通过IBM Watson™Studio，也可以在不使用Cloud Pak for Data的情况下使用AutoAI。

AutoAI是人工智能一个令人兴奋的例子。AutoAI工具会自动分析您的数据并生成针对预测建模问题定制的候选模型方案。随着AutoAI算法了解有关您的数据集的更多信息，会发现最适合您的问题的数据转换，评估器算法和参数设置，这些模型方案会随着时间的推移而创建。结果会显示在一个排行榜上，显示自动生成的模型方案，并根据问题优化目标进行排序，从而鼓励您进行进一步的实验。

更好的结合：使用AutoAI提出更好的问题

数据科学通常涉及提出更好的问题，例如，确定适当的属性，通过探索这些属性是预测结果。这意味着需要构建许多不同的模型，并且需要选择不同的特征并应用不同的超参数去优化模型。AutoAI中的选项可以通过加快人工智能流程或提供人员参与点来探索更好的问题。

整个AutoAI流程可在数分钟内自动完成（取决于数据量和其他考虑因素），而无需人工干预，创建出基础解决方案并使之适合初学者。然而，这个领域的专家可以轻松地与AutoAI进行交互，来将他们的知识整合到自动化方案中，以改进生成的模型并根据其特定需求进行定制。

专家可以在AutoAI流程中手动指定他们自己的偏好以使其符合该领域的知识要求，下面是几个可供选择的人机交互的点的示例：

数据准备–拆分数据以使用子集进行训练和测试，填充缺失值
先进的数据提炼–指定数据子集以节省资源和时间，并加入多个数据源
特征工程–应用某些现成的特征转换，通过多个特征的交互来创建新特征
神经网络搜索–采用最新学术出版物中的特定架构
AutoAI管道优化–选择某些现成的算法，或插入现有算法
超参数优化（HPO）–开启或关闭HPO，或选择在自动功能设计步骤之后每次运行HPO；定义某些超参数的搜索空间
一键式部署–在IBM Cloud或其他云基础架构上选择目标部署环境
可解释性和消除偏差-借助AI Fairness 360来检测和缓解数据，算法或训练中的偏差
AI生命周期管理–实时监控部署后的绩效并通过一键式强化学习来改善模型绩效

携手共进：更快完成AI流程

有人声称,由人工智能构建的人工智能比人类更出色。Dakuo Wang博士及其团队最近进行的一项定性研究有许多数据科学家参与。一些参与者被要求使用IBM AutoAI构建模型。其他参与者在Jupyter Notebook环境中使用Python库操作完成相同的任务。该研究表明，与AutoAI一起工作的数据科学家可以显著更好地构建模型（ROC- AUC得分为0.92对0.90），更快（4.4分钟对15分钟），人为错误更少（100％对46.7％的参与者在指定的时间内成功完成了建模任务）。这项研究还揭示了数据科学家与AutoAI系统的互动的态度，受访者认为，数据科学家与自动化AI系统之间存在协作关系，而不是竞争关系。

AutoAI的设计目的是在加快实验过程的同时，融入人类的反馈并增强数据科学实践。这使得没有较强编码技能的个人可以探索不同的选项，确定更好的问题，选择最合适的模型，然后将模型转移到项目部署中。

AutoAI的仪表板促进了人机交互，而不是取代人机交互，从而使数据科学家和领域专家能够做出明智的选择并为模型创建做出贡献。在IBM AutoAI系统的以下图形界面中，您可以看到如何构建八个模型（顶部可视化）以及根据所选度量（ROC-AUC）对模型进行排名的排行榜（底部列表）。在数十种算法中，AutoAI选择了逻辑回归和随机森林这两种算法，并为每种算法生成了四个模型。在全部使用逻辑回归算法的四个模型中，模型P2包括一个超参数优化步骤，该步骤将其与P1相区别。模型P3包括特征工程步骤，而P4包括第二个HPO步骤。

IBM研究人员将这种与AI系统一起工作的模式称为“Human-AI Collaboration”，即人与人工智能系统在特定任务上作为合作伙伴一起工作，在这种协作中，双方共同贡献出互补的不可或缺的能力。

结论

AutoAI是IBM Cloud Pak for Data的标准配置，可在混合多云环境中使用和扩展。AutoAI有很多好处，特别是在支持人们更好地理解和预测其特定业务或专业方面。这些好处包括：

与人类自己完成工作相比，AutoAI准备数据，识别特征，执行优化和生成模型的速度要快得多，因此可以更快地构建模型。
克服技能鸿沟，使刚接触数据科学的行业专家可以将数据科学方法纳入其日常工作。
由于探索模型的速度更快，因此发现了更多用例，从而为数据科学家提供了更多的时间进行实验。
通过使用“自动特征工程”选项来识别对预测模型有帮助的关键变量，这使得从数据集中获得预测结果变得更加简单。
通过比较候选模型来确定特定任务的最佳模型，从而对模型进行排名和探索。
通过AutoAI生成的模型可以很容易的选择模型。然后可以通过REST API访问已部署的模型并进行预测。

该技术正在迅速变化，因此需要继续关注迁移学习，业务限制等方面的进一步发展。

Watson Studio Cloud中的AutoAI现已上市。作为IBM Cloud Pak for Data一部分的AutoAI将于今年晚些时候上市。

Dakuo Wang是位于马萨诸塞州剑桥的IBM Research AI的一名研究科学家。他的研究在人机交互（HCI）和人工智能（AI）之间的交集。现在，他领导着一组研究人员，工程师和设计师来为IBM AutoAI进行研究和设计用户体验，这是一种使端到端（一端输入原始数据，一端输出结果，只关心输入和输出，中间步骤全不管的方法）机器学习模型自动化的解决方案。通过研究用户如何与各种AI系统（例如AutoAI，聊天机器人和临床决策支持系统（CDSS））一起协作，他提出了“人与AI协作”作为研究和设计与人类协作作的AI系统的新框架。加入IBM Research之前，Dakuo Wang获得了博士学位。加州大学欧文分校的信息和计算机科学硕士和硕士学位（MS ）获得巴黎中央电子信息系统信息系统学位，并获得北京工业大学计算机科学学士学位。他曾在法国，中国和美国担任工程师，设计师和研究员。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；