京公网安备 11010802034615号
经营许可证编号:京B2-20210330
接触过机器学习的朋友应该知道,样本是机器学习模型的核心,这是因为样本直接关系到模型效果的好坏,不过在大多数情况下,很多人对待样本的态度根本不够,这就导致的机器学习中的错误。很多人关注样本不像在乎特征那样在乎样本的质量一样,其实这样就容易出现两种情况,那么到底是什么呢?下面我们就给大家介绍一下。
首先我们给大家讲解一下第一种情况,其实第一种情况就是对负样本的界定不够细致。那么什么是负样本呢?其实负样本的含义一般来说是曝光但是未点击的样本,但是曝光是一件需要仔细琢磨的事情。最直接的方式是用服务器后台日志中的数据作为曝光,但是这样做会带来一个显然的问题,就是日志中的item不一定全部真正曝光,也就是不一定真的被用户看到了。更好的方式是通过页面埋点来记录真正曝光的东西,不过这种方法也会存在问题,那就是即使页面上曝光了,用户也不一定真正看到了,或者说用户的眼睛不一定扫到了曝光的区域,毕竟页面那么大,用户的关注点我们根本不知道。有人提出了一种解决方法是把最后一个被点击的商品以上的作为真正曝光的,因为用户既然点击了这一个,那么可以认为这个以上的用户都是看到了的。
而第二种情况就是对样本这个概念的理解不到位。统计机器学习的根本思路是根据历史行为学习模式,从而预测未来。所以样本代表历史是很容易被接受的,但是在实际工作中,更好的样本代表的应该是我们希望的结果,而不是那种真实的历史。我们需要考虑一个问题,那就是我们训练模型出来,真正希望服务的用户是哪种用户?所以说,我们需要注意的是除了特征工程,样本工程也同样重要,在某些情况下甚至会更重要。所以在进行训练之前,以及模型调优的过程中,都要仔细思考样本是否真正反映了我们的需求,有必要时要对样本做针对性选择。
在这篇文章中我们给大家介绍了在机器学习中容易出现的问题,那就是不注重样本精细化处理,现在很多人不怎么关注样本,其实这样的做法是错误的,我们只有关注样本才能够更好的利用机器学习为我们解决更多的事情。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04