
如何打造敏捷的数据挖掘能力
大家都知道数据挖掘是发现规律的一种手段,但在很多传统企业里数据挖掘有点像奢侈品,因为数据挖掘的过程一般较长,总体来讲性价比不是那么高,规则取数往往成为了企业数据驱动业务的主流。
笔者一直在思考传统企业敏捷数据挖掘的可能性,这里主要从挖掘引擎、数据准备、训练方法、迭代方式、产品思维等方面进行阐述,希望于你有启示。
1、打造全流程挖掘引擎
诸如阿里等企业的机器学习平台逐步形成了一个自有生态,其机器学习引擎一般是跟企业的整个IT环境无缝集成的,无论是在数据准备、数据输入、算法选择、模型训练、模型输出或是生产部署等各个阶段。
商用的数据挖掘引擎则一般只能做点的事情,强调的是算法的多样选择及模型训练的可视化体验,在数据准备、数据输入、模型输出、生产发布等数据挖掘的其它阶段是游离在之外的,需要跟企业的数据环境进行交互才能完成一个数据挖掘过程,而这些交互一般不是自动的,也不具备可视化能力,这造成了整个数据挖掘流程的割裂,而企业在这些阶段花费的代价是很大的。
随着一般算法使用门槛的降低,当前商用挖掘引擎都在朝着人工智能算法+海量计算平台化方向转变,但其并不会变得更敏捷,因为整个流程仍然是割裂的。
怎么办?
一种就是全套采用诸如阿里云的方案,全部数据上云,还有一种就是自己定制,这里谈谈定制方法的思路。
所谓的定制方法就是将通用的数据挖掘引擎跟企业自身的数据开发管理平台无缝集成,复用原有企业的数据开发整个流程,以下一张图道尽了一切:
它的价值点就在于以企业的数据开发流程为核心,而不是数据挖掘为核心,数据挖掘只是作为一个组件集成进来,比如封装R和Python的训练结果,最大限度的复用原有数据管理的能力。
因此,企业在采购商用数据挖掘软件的时候,除了考虑算法,还要强调开放性,要考虑是否能深度集成到自身的数据环境中。
这是敏捷的第一个要点。
2、降低变量准备时间
数据挖掘中数据准备时间过长,企业除了考虑数据仓库建模,还需要考虑是否在此基础上建立一个数据挖掘的数据中台,笔者在《企业的数据中台的价值》、《数据中台到底是什么?》、《如何清晰的实施“大中台,小前台” 大数据运营策略?》等文章中系统的介绍过数据中台的价值,数据挖掘中台属于数据中台的一部分,行业特性会比较明显,比如电商有电商的数据挖掘中台,运营商则有运营商的数据挖掘中台,只要你在某个行业数据挖掘做多了,变量准备做多了,你自然会找到一些共性的东西,如果能把它们沉淀下来,就能降低变量准备时间,比如在运营商中经常会设计平均ARPU这个变量,但到底是三个月平均,六个月平均还是什么,全赖历史经验。
建立数据挖掘中台涉及IT战略问题,对于传统被动型的数据管理机制流程都是挑战,比如要建立一支中台团队就不容易。
这是敏捷的第二个要点。
3、选对模型提升的方法
一般来讲,如果数据不变,数据挖掘训练的边际效益并不高,同样的一份数据用不同的算法反复训练,比如F1差值并不是很大大,如果要尽快的提升模型的效果,要讲究点方法,尽量遵循以下优先级:业务>数据>算法。
没有深刻的业务理解去做数据挖掘往往是事倍功半,行业的业务理解越透彻,就越能抓住数据中本质的特征,诸如图像识别等场景已经可以靠神经网络来自动查找特征了,但大多数行业领域不行,还是要靠业务专家,多组织一次讨论获取的灵感可能远远好过于在算法上折腾一个月。
没有更多更好的数据去训练模型,巧妇也难为无米之炊,一定要相信数据的重要性远远超过算法,很多初级的建模师算法能力很强,但就是做不成事,往往是因为其对于自身企业的数据理解太浅所致,外来的和尚念不好经也是这个道理。
一般企业的数据挖掘师都需要通过长时间的取数训练,如果能做过数据仓库的更好,这样对于企业的数据体系有个全局的认识,在特征选择时有更多的发挥空间,大数据中最强调的一个特征是维度多,也一定程度说明了数据多样的重要性。
比如基于运营商的语音通话数据可以初步判定欺诈电话,但这个准确率还不高,如果加上社交网络数据,判定就八九不离十了,这就是多维数据的力量,同时数据建模师如果不理解运营商的业务和数据,则可能无法想到这个维度。
这是敏捷的第三个要点。
4、快速迭代及时止损
大家都知道建模需要快速迭代,但传统企业中数据挖掘的快速迭代总是起不来,原因当然很多,包括渠道问题、沟通问题,流程问题,外包问题,机制问题等等,这里笔者提一个数据挖掘“四个一”原则,即要为数据挖掘设置一些时间底线。
第一个“一”是一线沟通,就是业务理解要跟生产人员沟通,而不要只跟管理者沟通,确保能够听到一线真实的炮声。
第二个“一”是一周训练,整个模型的训练需要控制在一周完成(注意不是算法研发),如果训练倒腾超过一个月,性价比一般很低。
第三个“一”是一周验证,训练的结果要在一周内让一线反馈结果,传统企业模型做不好往往是第一时间拿不到反馈数据所致,这牵涉到企业复杂的线下执行流程,需要在管理层面进行控制。
第四个“一”是一周优化,确保能用反馈的数据进行模型的快速优化,第三和第四反复迭代。
当然这里的一周更多是象征意义,企业可以基于自身的实际进行周期的调整,关键是要有成本意识,及时止损,时间拖的越长风险越高,因为市场变化很快,业务人员的耐心有限。
这是敏捷的第四个要点。
5、通过运营保有挖掘资产
据笔者统计,离网模型在某些企业做的次数会超过几十次,重做有很多理由,比如市场环境变了,原来模型不好用了等等,但重做意味着对原有投入资源的极大浪费,是最大的不敏捷。
“重建设,轻运营”是企业IT建设常见的毛病,由于数据挖掘的模型受业务和数据变化的影响很大,随着时间推移效果下降是必然的事情,而且这个折损跟固定资产折损还不一样,人家折损好歹还能正常用,但模型效果变差就意味着效益变差,模型更要拼运营能力。
从这个角度看,如果你觉得一个模型重要,就要把它当成一个产品,用产品化的思维去运营它,比如设置独立的模型经理,从用户、流量和效果等角度去持续的做提升,很多企业模型建完推广完了就成鸟兽散,这注定了模型的悲剧。
模型运营投入的代价是巨大的,一个有1000个挖掘模型的公司,负担和压力会非常大,如果很轻松,基本也就是些僵尸模型了。
这是敏捷的第五个要点。
就谈以上五点,一家之言,但的确是感到困惑且想解决的,希望于你有启示。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18