
作者:Daniel Faggella
编译 | CDA数据分析师
What is Machine Learning?
在谷歌搜索中输入“什么是机器学习?”打开了一个潘多拉的论坛,学术研究和这里说的 - 本文的目的是简化机器学习的定义和理解,这要归功于我们的机器学习研究小组。
除了机器学习(ML)的知情,工作定义之外,我们还旨在简要概述机器学习的基本原理,让机器“思考”的挑战和局限性,以及今天深入解决的一些问题学习(机器学习的“前沿”),以及开发机器学习应用程序的关键要点。
我们将这个资源放在一起,以帮助您解决有关机器学习的任何好奇心 - 所以滚动到您感兴趣的部分,或者随意阅读文章,从下面的机器学习定义开始:
什么是机器学习?
“机器学习是让计算机像人类一样学习和行动的科学,通过以观察和现实世界互动的形式向他们提供数据和信息,以自主的方式改善他们的学习。”
上述定义包含了机器学习的理想目标或最终目标,正如该领域的许多研究人员所表达的那样。本文的目的是为具有商业头脑的读者提供有关如何定义机器学习及其工作原理的专家观点。 机器学习和人工智能在许多人的脑海中具有相同的定义,但读者也应该认识到一些明显的差异。本文末尾包含参考文献和相关研究人员的访谈,以便进一步挖掘。
我们如何到达我们的定义:
(我们的聚合机器学习定义可以在本文开头找到)
与任何概念一样,机器学习的定义可能略有不同,具体取决于您的要求。我们梳理互联网,从信誉良好的资源中找到五个实用的定义:
我们将这些定义发送给我们采访过和/或包含在我们之前的研究共识中的专家,并要求他们回答他们最喜欢的定义或提供他们自己的定义。我们的介绍性定义旨在反映不同的反应。以下是他们的一些回复:
蒙特利尔大学Yoshua Bengio博士:
ML不应由否定定义(因此裁定2和3)。这是我的定义:
机器学习研究是人工智能研究的一部分,旨在通过数据,观察和与世界的互动为计算机提供知识。获得的知识允许计算机正确地推广到新设置。
Danko Nikolic博士,CSC和Max-Planck研究所:
(编辑上面的数字2):“机器学习是让计算机在没有明确编程的情况下采取行动的科学,而是让他们自己学习一些技巧。”
路易斯维尔大学Roman Yampolskiy博士:
机器学习是让计算机学习和人类做得更好或更好的科学。
华盛顿大学Emily Fox博士:
我最喜欢的定义是5
机器学习基本概念
有许多不同类型的机器学习算法,每天发布数百种,并且它们通常按学习风格(即监督学习,无监督学习,半监督学习)或通过形式或功能的相似性(即分类,回归,决策树,聚类,深度学习等)。无论学习风格或功能如何,机器学习算法的所有组合都包含以下内容:
机器学习算法的基本目标是 概括超出训练样本,即成功解释之前从未“见过”的数据。
机器学习模型的可视化表示
到目前为止,概念和要点只能用于理解。当人们问“什么是机器学习?”时,他们经常想看看它是什么以及它做了什么。以下是机器学习模型的一些可视化表示,以及附带的链接以获取更多信息。
决策树模型:
高斯混合模型:
神经网络:
使用卷积神经网络合并色度和亮度:
我们如何让机器去学习?
有许多不同的方法让机器学习,从使用基本决策树到聚类到人工神经网络层(后者已经让位于深度学习),取决于你要完成的任务和类型以及您可用的数据量。这种动态在各种应用中发挥作用,如医疗诊断或自动驾驶汽车。
虽然重点通常放在选择最佳学习算法上,但研究人员发现,一些最有趣的问题都源于可用的机器学习算法。大多数情况下,这是训练数据的问题,但在新域中使用机器学习时也会出现这种情况。
在处理实际应用程序时所做的研究通常会推动该领域的进展,原因有两个:1。发现现有方法的界限和局限性的趋势2.研究人员和开发人员与领域专家合作,利用时间和专业知识来提高系统性能。
有时这也是由“意外”发生的。我们可能会考虑模型集合或许多学习算法的组合来提高准确性,这是一个例子。竞争2009 Netflix Price的团队发现,当他们将学习者与其他团队的学习者结合起来时,他们取得了最好的成绩,从而改进了推荐算法(请阅读Netflix的博客,了解他们最终未使用此合奏的原因)。
在业务和其他领域的应用方面,一个重要的观点(基于对该领域专家的访谈和对话)是机器学习不仅仅是,甚至是自动化,这是一个经常被误解的概念。如果你这样想,你一定会错过机器可以提供的宝贵见解和由此产生的机会(重新思考整个商业模式,例如制造业和农业等行业)。
学习的机器对人类有用,因为它们具有所有处理能力,能够更快地突出显示或找到人类可能错过的大(或其他)数据中的模式。机器学习是一种工具,可用于增强人类解决问题的能力,并从广泛的问题中做出明智的推断,从帮助诊断疾病到提出全球气候变化的解决方案。
挑战与局限
“机器学习无法从无到有......它的作用是从更少的东西中获得更多。” - 华盛顿大学Pedro Domingo博士
机器学习中两个最大的,历史性的(和持续的)问题涉及过度拟合(其中模型表现出对训练数据的偏见,并且不会推广到新数据,和/或变化,即在训练新数据时学习随机事物)和维度(具有更多特征的算法在更高/更多维度上工作,使得理解数据更加困难)。在某些情况下,访问足够大的数据集也是主要问题。
机器学习初学者中最常见的错误之一是成功地测试训练数据并具有成功的假象; Domingo(和其他人)强调在测试模型时保持一些数据集是分开的重要性,并且仅使用该保留数据来测试所选模型,然后学习整个数据集。
当学习算法(即学习者)不起作用时,通常更快的成功之路是为机器提供更多数据,其可用性现已成为近期机器和深度学习算法进步的主要驱动因素。年份; 然而,这可能导致可扩展性问题,我们有更多的数据,但有时间了解数据仍然是一个问题。
就目的而言,机器学习本身并不是目的或解决方案。此外,尝试将其用作一揽子解决方案即“BLANK”并不是一项有用的练习; 相反,带着问题或目标来到桌面通常最好由一个更具体的问题驱动 - “BLANK”。
深度学习涉及机器算法的研究和设计,用于在多个抽象级别(安排计算机系统的方式)学习数据的良好表示。最近通过DeepMind,Facebook和其他机构进行深度学习的宣传突显了它作为机器学习的“下一个前沿”。
该机器学习国际会议(ICML)被广泛认为是世界上最重要的项目之一。今年6月在纽约市举行,汇集了来自世界各地的研究人员,他们致力于解决当前深度学习中的挑战:
深度学习系统在过去十年中在诸如对象检测和识别,文本到语音,信息检索等领域取得了巨大的进步。研究现在专注于开发 数据高效的机器学习,即深度学习系统,可以在更少的时间和更少的数据中以更高的效率学习,在个性化医疗保健,机器人强化学习,情感分析等前沿领域,其他。
应用机器学习的关键要点
下面是一系列应用机器学习的最佳实践和概念,我们已经从我们对播客系列的采访以及本文末尾引用的选择来源进行了整理。我们希望这些原则中的一些将阐明如何使用ML,以及如何避免公司和研究人员在启动ML相关项目时可能容易受到的一些常见陷阱。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
KS 曲线不光滑:模型评估的隐形陷阱,从原因到破局的全指南 在分类模型(如风控违约预测、电商用户流失预警、医疗疾病诊断)的评 ...
2025-08-19偏态分布:揭开数据背后的非对称真相,赋能精准决策 在数据分析的世界里,“正态分布” 常被视为 “理想模型”—— 数据围绕均值 ...
2025-08-19CDA 数据分析师:数字化时代的价值创造者与决策智囊 在数据洪流席卷全球的今天,“数据驱动” 已从企业战略口号落地为核心 ...
2025-08-19CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12