
这里有些关键的机器学习概念可以帮助我们理解这一领域的相关知识。
在这篇文章中,你会接触到一些相关的专业术语(常用的术语),它们用来描述数据和数据集。你也会学习到一些相关概念和术语,它们用来描述数据的学习和建模过程,而这些又给你的学习旅程提供了一些关于机器学习的宝贵经验。
机器学习方法可以从实际案例进行学习。对于我们来说,掌握数据的输入和各种描述数据的术语是很重要的,而在这一部分中,你会在涉及到数据的机器学习中学到一些相关术语。
但我在思考数据是什么样的时候,我的感觉一般都是行和列,就像是一个数据集图表或者是Excel的电子表。这是数据的传统格式,而且在机器学习中也是一种常见的格。其它数据如图像、视频,以及文本,而所谓的没有结构的数据并不会在这篇文章中进行描述。
展示一个相关例子、特征和数据集的形式的数据的图表
实例:数据的单行称之为实例。这是某一个域所观察的结果。
特征:数据的单列称之为特征。它是观察的一个组成部分,而它也被称之为一个数据实例的属性。一些特征也许会输入一个模型(预测值),而其它可能有输出或预测的特征。
数据类型:特征有其数据类型。它们也许是真实数或者是整数,又或者是分类值又或者又是序数。你可以有字符串、日期、时间或更多复杂的数据类型。但是,通常情况下,它们都会在使用传统机器学习方法的时候被换算成实数或者是分类值。
数据集:实例的集合是一个数据集,而且当我们使用传统机器学习方法的时候,我们通常需要几个不同的数据集处理不同的问题。
训练数据集:训练数据集就是一个我们通过使用机器学习算法进行建模的数据集。
测试数据集:一个用于检验我们模型精准度而不用于建模的数据集。我们可以把它称之为检验数据集。
我们也许会收集一些实例来建立我们的数据集,或者给定一个有限数据集,我们需要把它分解成若干个子数据集。
机器学习,确切来说是一个动态的学习算法。在这一部分中,我们会考虑几个学习方面的高级概念。
前序:机器学习算法通过一个叫归纳或者归纳学习的方法进行学习。归纳是一个合理的过程,它可以从一些特殊信息(训练数据)进行概括总结。
概括:概括这一过程是必要的,那是因为模型是由机器学习算法为我们准备的,而我们需要用这个模型,基于在训练过程中我们看不到的数据,我们会对它们进行预测或决策。
过度学习:当一个模型从一些训练数据中学习过多而不能进行概括的时候,这个过程称之为过度学习。结果就是处理数据的性能很差,而它有不同于训练数据。这也称之为过度拟合。
缺乏学习:当一个模型因为与它们相关的数据集提前结束学习过程,从而导致这个模型无法获得一个完整的结果,这就称之为缺乏学习。它的结果则是可以作一个好的概括但是对所有数据,包括训练数据集在内的处理的性能却很差。这也称之为欠拟合。
在线学习:在线学习就是当一个域变得可用的时候,这种方法会从来自这个域的数据实例进行更新。在线学习需要数据在噪音情况下具有很强的健壮性,但是也要产生一个符合这个域当前状态的模型。
线下学习:线下学习就是一个通过现成的数据进行创建的方法,而这个方法对未被观察的数据进行相关操作。这个训练过程可以被很好的控制和调整,原因在于训练数据的范围是未知的。在这个模型早已被创建好,同时在相关域发生了改变从而导致模型的性能可能被改变的情况下,这个模型不再进行更新。
监督学习:这是一个针对需要进行相关预测的问题进行概括的学习过程。一个“教学”过程会与一个有未知答案的模型进行比较,并对模型进行修正。
非监督学习:这是一个对不需要预测的数据的结果进行概括的学习过程。默认情况下,数据的结构都可以得到相关的确认和利用。
我们在之前的一篇文章 machinelearning algorithms就已经对监督学习和非监督学习过程进行详细的阐述。
一个由机器学习创建的产品被视为是一个程序的权利。
模型选择:我们可以这样认为,模型的设定和训练过程就是模型的选择过程。对于我们所拥有的每个模型的迭代可以让我们选择是直接使用这个模型,还是对它进行修改,甚至,算法的选择也是模型选择过程的一部分。然而,每个模型都存在一个共同的问题,那就是对于一个可能被选到的数据集的一个给定的模型以及模型的设置会提供一个最终的模型选择。
诱导偏差:偏差就是选定模型所产生的限制。每个模型都存在其自己的偏差,这也引入了模型的误差,以及对每个模型进行定义时产生的误差(它们是来自观察的概括)。偏差是通过一个包含模型的设定以及产生一个模型的算法的模型所做的概括引入的。一个机器学习方法可以创建一个或高或低的模型,而相关的手段可以对一个误差较高的基本模型进行一定程度的误差消除。
模型方差:方差就是检验对已经进行过训练的数据建立的模型是否灵敏的术语。一个由数据集产生的模型的机器学习方法,都有一个或大或小的方差,而消除方差的相关手段有在不同的初始化环境下对一个数据集进行重复运行,然后取平均值精准度作为模型性能好坏的参考标准。
偏差方差权衡:模型的选择可以被认为是一个权衡偏差和方差的过程。一个误差较小的模型有较大的方差,这时我们要对相关数据进行多长且长时间的训练以求得到一个合适的模型。一个误差较高的模型往往其方差比较小,所以训练时间短一点,但是要承担性能差的后果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29CDA 数据分析与量化策略分析流程:协同落地数据驱动价值 在数据驱动决策的实践中,“流程” 是确保价值落地的核心骨架 ——CDA ...
2025-08-29CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-28CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-08-28