京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Nandhini TS
编译 | CDA数据分析师
Data Preparation for Machine learning : Why it’s important and how to do it
编码是成功的业务模型的前提。
建立成功的AI / ML模型有3个方面:算法,数据和计算。
虽然建立准确的算法和计算技能的应用是过程的一部分,但这是什么基础呢?
使用正确的数据奠定基础
从自动驾驶汽车等基于AI的大规模技术革命到构建非常简单的算法,您都需要正确格式的数据。实际上,特斯拉和福特一直在通过行车记录仪,传感器和倒车摄像头收集数据,并对其进行分析以制造出无人驾驶和全自动汽车,以确保安全的道路。
收集数据之后的下一步是准备数据的过程,这将成为本文的重点,并将在后续部分中详细讨论。在深入研究数据准备过程的概念之前,让我们首先了解其含义。作为基于AI创新的大脑的数据科学家,您需要了解数据准备的重要性,以实现模型所需的认知能力。
什么是数据准备?
数据是每个组织的宝贵资源。但是,如果我们不进一步分析该声明,它可能会否定自己。 企业将数据用于各种目的。从广义上讲,它用于制定明智的业务决策,执行成功的销售和营销活动等。但是,这些不能仅用原始数据来实现。
数据只有经过清洗,贴标签,注释和准备后,才能成为宝贵的资源。数据经过适应性测试的各个阶段后,便最终具备进行进一步处理的资格。处理可以采用多种方法-将数据提取到BI工具,CRM数据库,开发用于分析模型的算法,数据管理工具等。
现在,重要的是您从此信息的分析中收集的见解是准确且值得信赖的。实现此输出的基础在于数据的健康状况。此外,无论您是构建自己的模型还是从第三方那里获得模型,都必须确保标记,扩充,干净,结构化的整个过程背后的数据都经过标记,概括,即数据准备。
正如Wikipedia所定义的,数据准备是将原始数据(可能来自不同的数据源)操纵(或预处理)为可以方便,准确地进行分析的形式的行为,例如出于商业目的。数据准备是数据分析项目的第一步,可以包括许多离散任务,例如加载数据或数据摄取,数据融合,数据清理,数据扩充和数据交付。
机器学习数据准备的重要性
根据Cognilytica的最新研究,其中记录并分析了组织,机构和最终用户企业的响应,以识别在标记,注释,清理,扩充和丰富机器学习模型的数据上花费了大量时间。
数据科学家80%以上的时间都花在准备数据上。尽管这是一个好兆头,但考虑到随着良好的数据进入建立分析模型,准确的人会得到输出。但是,理想情况下,数据科学家应该将更多的时间花在与数据交互,高级分析,培训和评估模型以及部署到生产上。
只有20%的时间进入流程的主要部分。为了克服时间限制,组织需要利用用于数据工程,标记和准备的专家解决方案来减少在清理,扩充,标记和丰富数据上花费的时间(取决于项目的复杂性)。
这将我们带入了“ 垃圾中的垃圾 ”概念,即输出的质量取决于输入的质量。
数据准备过程
以下是针对机器学习模型的数据准备过程的简要介绍:
数据提取数据工作流程的第一阶段是提取过程,通常是从非结构化源(如网页,PDF文档,假脱机文件,电子邮件等)中检索数据。部署从网络中提取信息的过程称为网络刮。
数据概要分析是检查现有数据以提高质量并通过格式带来结构的过程。这有助于评估质量和对特定标准的一致性。当数据集不平衡且配置不当时,大多数机器学习模型将无法正常工作。
数据清理可确保数据干净,全面,无错误,并提供准确的信息,因为它不仅可以检测文本和数字的异常值,还可以检测图像中无关的像素。您可以消除偏见和过时的信息,以确保您的数据是干净的。
数据转换是对数据进行转换以使其均匀。地址,名称和其他字段类型之类的数据以不同的格式表示,数据转换有助于对此进行标准化和规范化。
数据匿名化是从数据集中删除或加密个人信息以保护隐私的过程。
数据扩充用于使可用于训练模型的数据多样化。在不提取新信息的情况下引入其他信息包括裁剪和填充以训练神经网络。
数据采样识别大型数据集中的代表性子集,以分析和处理数据。
特征工程是将机器学习模型分类为好模型还是坏模型的主要决定因素。为了提高模型的准确性,您可以将数据集合并以将其合并为一个。
这是一个例子:
假设有两列,一列是收入,另一列是输出分类(A,B,C)。输出A,B,C取决于收入范围$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入范围内分配数值1,2和3。现在,这些数值被映射到我们最初创建的3个数据集。
在这里,收入范围是要素工程。
数据准备过程的另一个重要部分是标记。为了使这个概念易于理解,让我以热饮料(例如茶)为例。
现在,该项目的目标是确定特定类型茶中所含咖啡因的百分比或数量。
红茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克
注意:(咖啡因百分比以100克茶计算)
因此,ML模型将为咖啡因含量最高的伯爵茶分配一个数值,例如1,为红茶分配2,依此类推。这将我们带入有助于识别数据集的标签概念。
数据标记-数据准备必不可少的组成部分
标记只是将标签分配给一组未标记的数据,以使其更易于识别以进行预测分析。
这些标签表明照片中的动物是狗还是狐狸(请参见下图)。
通过向模型提供数百万个标记数据,标记可以帮助机器学习模型猜测和预测一条未标记数据。
数据标记的一些用例:
标签是文本还是图像,以了解内容的情感,例如在推文中。
语音和文本NLP
是音频和文本源的标签。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14