京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:王真达
CDA LEVEL II 持证人
编辑:Mika
扫描二维码
观看完整分享视频
大家好,今天跟大家带来一个分享,主题是关于我如何从文科生转行为数据挖掘工程师的。
主要内容分成以下三块:
首先看到第一部分的内容,也就是我的转行历程。
我高中那会儿读的是文科,大学期间学习了社会学专业。在本科期间,我也接触过一些统计学的知识,线性代数等知识也学过,但当时对这些学科将来的用途并不是很清楚。
参加工作后,最初我从事产品运营的相关工作。在工作过程中,我接触到了数据分析相关的内容。当时我感觉自己工作内容比较杂,也没有拿得出来的技能。
我认为数据分析很有前景,无论是文科生还是理科生都可以学,学起来也比较有趣,内容不枯燥,所以我渐渐开始学习数据分析。
这里我列了几个对我比较关键的节点,这些对我未来的工作有了较大的影响。
首先就是学数据挖掘,用的是SPSS Modeler。比较容易上手,入门也比较简单。SPSS Modeler虽然很好用,但其实很多时候不能满足数据清洗的一些需求,也有一些劣势,比如算法更新很慢,只有比较常规的算法,如果想用比较先进的算法,还是开源的软件提供的比较多。
之后我学习了Python,比较容易上手,语法也比较简洁。通过大量练习掌握了爬虫、数据清洗、数据可视化等技能点。Python基本能满足日常工作的需求。
第三个节点是我学习了SQL和统计知识。SQL本身基础的知识不是特别复杂,然后主要靠练习,包括统计的一些知识,这也是我在之后的工作中不断学习的。
目前我目前从事的是数据挖掘的相关工作,接下来讲一下工作中所需要的一些技能。
这部分可以分为硬技能和软技能。
硬技能
硬技能这里我分为理论基础、算法能力、分析工具和通用工具。下面具体来看一看。理论基础中统计知识是不可或缺的。后面的概率论、线性代数、微积分其实是跟偏算法相关。
算法方面主要需要一些机器学习跟深度学习的算法。比如分类、回归、聚类等一些比较基础的算法。
不同于算法工程师对算法的要求会比较高,像偏业务的数据挖掘的岗位,对算法的要求没那么高。你能够做到理解算法的基本原理跟应用场景,能够应用工具去实现它,能够解读算法最后的结果,也就差不多了,对数学的要求也并不太高。
关于深度学习,现在数据挖掘等算法岗也相对内卷,如果你不会也不了解深度学习就有点说不过去了,这方面可以了解一下。还需要掌握一些工具库,现在深度学习的工具库比较多,也有一些比较简便的工具库能协助实现相关的功能。
然后看到分析工具。其实目前主要用的也就是SQL跟Python,主要是看你公司的数据量,如果数据量不是很大的话,基础的一些SQL知识就够了,可能关系数据库就可以了,包括在单机里面,去运行Python也可以的;但是如果公司的数据量特别大的话,比如我目前是在Hadoop的平台做一些数据分析跟数据挖掘。如果本身的数据量就比较大,可能会用到Hive数据仓库等。
再看到建模工具,目前其实主流是Python,还有集成了Pyspark,这是用得比较多的。然后建模的话,考虑到数据量Python在80%的情况上都是够用的。
关于通用工具,Excel跟PPT都是比较基础的。下面这个Shell是开发工具,很多时候会涉及到一些开发的工作,比如说标签表的开发,然后就会用到Shell结合ETL自动化平台,调用需要的脚本进行自动化的运行。就相当于是每天它会自动的跑一些脚本,而不需要去手工或者是在单机操作,这些都是在平台上面自动完成的。
软技能
软技能这块简单看一下,包括像业务的理解,比如你进入任何一个行业,你前几个月会多花时间了解该行业的业务表,业务涉及的一些内容,核心的盈利业务是哪些。还有一些通用的能力,比如沟通、汇报能力等,因为你经常会需要将模型和分析报告讲给别人听,因此这些能力也是十分重要的。还有学习能力。数据行业的迭代比较快,需要有持续学习的能力。
下面来讲一个电信产品的项目案例,在此之前让看一下目前会涉及到的主要模型。
这边将用户生命周期划分为这样几块:第一、新用户获取阶段;第二、入网期;第三、成长期;第四、成熟期;第五、衰退期。
在不同的时期会有不同的模型。当然要根据具体的业务,就不同行业可能它的业务不一样,但是用户生命周期都是类似的。都需要获取用户,用户在平台上成长,包括会有成熟到衰退的生命周期,会有一个曲线。比如在新用户获取这边,会有很多像家庭圈模型等类型。
下面介绍一下入网期中天翼看家这个模型。它是一个看家的智能设备,一般在农村比较多,安装在家里,在外务工的人群就可以通过它看到家里老人和小孩的情况。
还有一类是满意度的模型。这边核心关注就是三块,第一块是像这种开源的营销模型。第二块是用于节流的,减少损失的离网模型。第三种是提升用户满意度的模型。
电信产品办理预测模型
整体模型的建置分为以下4个步骤,第一个步骤是数据的准备;第二个步骤是模型的构建;第三个是预测感知,也就是模型预测;第四个是结果应用。
首先第一点是基于产品营销模型,也就是基于客户的一些产品数据,还有行为数据、消费数据等维度,从而去构造样本空间。
样本空间包括特征空间,样本空间就是正负样本。正样本就是已经办理,比如说11月已经办理的用户作为正样本,同时这个月没有办理的用户都可以作为负样本。接着进行抽样,构造样本空间。
特征工程也就是特征构造,基于客户的一些基本属性信息,还有套餐信息,包括产品订购的信息,包括消费信息。其实还有很多其他维度的信息,比如说浏览内容、访问轨迹、位置信息等都可以考虑进来。
构造产品预测模型可分为这样几块。将数据分割成训练集,测试集跟验证集。测试集本身应该是在下一步构造的,指的是没有用户的标签,需要预测其将来的标签,给每个用户打标签。
在训练集里划分成训练集跟测试集,训练集用于训练模型,验证集用于修正模型。
接着看到数据探索,这部分会进行一些统计分析,还有每个变量跟目标变量之间的关系,这些都都需要做一些探索。模型的话,当时是用了几种集成模型做建置,进行模型间对比,最后输出模型的重要特征。
然后第三步对用户办理预测。对未办理的用户拿过来,输入刚才训练的模型,预测出其对产品营销的办理可能会响应的概率。最后输出的就是用户是否会办理的产品,以及办理的产品的预测概率值。从而根据预测概率值,划定阈值。比如说想营销响应概率在40%以上的用户,这时就可以将这些用户筛选出来,然后最后生成关联标签,交给营销平台,做营销派单,之后做一些短信或电话触达。最后可以针对转化进行跟踪,以上就是该项目的整体流程。
下面分步骤讲一下模型的情况。首先是模型的背景,目前已办理天翼看家用户的规模,建置模型的预期等目标。
样本选择方面,已办理的作为正样本,接触过没办理的作为负样本,这里正负样本有些不均衡。针对这种样本不均衡的数据,可以采用采样的技术。
下面是关于取数的问题。取数会有一个时间窗口的问题,在这边会分成训练数据跟测试数据,假设预测变量y是10月到11月,训练数据的x就要往前取。这里是要看用户过去的行为,可能会对将来产生什么影响。所以训练特征要往前取,比如看用户在7到10月的通话行为。
下面是关于模型特征的一些构建。
这边是分了很多,比如技术信息、家庭结构、消费行为、行为偏好、地域特点等因素。
建模过程方面,也是一些常规的流程。比如数据清洗中,错误值的填充,错误值的处理。离群值可以使用盖帽法进行处理,对于套餐价值量可以进行离群值的处理。然后空值的填补,比如说像分类变量连续性变量,可以用一些统计方法或模型方法来做。
数据编码这块,对于连续性变量可以去做一些分箱,在字段分箱之后,看一下对目标变量是否有一些显著的影响。建模调参方面,对模型参数进行调整,选择最佳模型。
接着我们看到模型评估。
模型评估会输出混淆矩阵,行是实际值,实际有没有办理,列可能是预测值,预测它有没有办理。营销比较关注的是命中率,也就是说预测差不多有8000多个人会办理这个产品,但实际上办理了多少,这里实际办理有6000多,所以命中率是68%。预测得准不准非常重要。
之后会跟踪营销活动的转化率。
预测用户可能是比较高概率的用户,在将来的一段时间可能是一到两个月,预测家装的用户中的加装比例,也就是营销活动的转化的情况。
再看到地域特点部分。
比如说农村用户家装的是33万,城市用户家装是9万多。这里看到百分比,农村占比70%,其实是远远超过城市的。在城市这个群体中,家装概率是2.58%,然后在农村这个群体中,它加装的概率是9.82%。可以看到,如果营销农村这个区域,响应概率来说相对会比较高。
以上就是我分享的内容了,希望对大家能有所帮助。
更多考试介绍及备考福利请点击:CDA 认证考试中心官网
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22