01、文科生转行数据挖掘工程师的历程

首先看到第一部分的内容，也就是我的转行历程。

我高中那会儿读的是文科，大学期间学习了社会学专业。在本科期间，我也接触过一些统计学的知识，线性代数等知识也学过，但当时对这些学科将来的用途并不是很清楚。

参加工作后，最初我从事产品运营的相关工作。在工作过程中，我接触到了数据分析相关的内容。当时我感觉自己工作内容比较杂，也没有拿得出来的技能。

我认为数据分析很有前景，无论是文科生还是理科生都可以学，学起来也比较有趣，内容不枯燥，所以我渐渐开始学习数据分析。

这里我列了几个对我比较关键的节点，这些对我未来的工作有了较大的影响。

首先就是学数据挖掘，用的是SPSS Modeler。比较容易上手，入门也比较简单。SPSS Modeler虽然很好用，但其实很多时候不能满足数据清洗的一些需求，也有一些劣势，比如算法更新很慢，只有比较常规的算法，如果想用比较先进的算法，还是开源的软件提供的比较多。

之后我学习了Python，比较容易上手，语法也比较简洁。通过大量练习掌握了爬虫、数据清洗、数据可视化等技能点。Python基本能满足日常工作的需求。

第三个节点是我学习了SQL和统计知识。SQL本身基础的知识不是特别复杂，然后主要靠练习，包括统计的一些知识，这也是我在之后的工作中不断学习的。

02、从事数据挖掘技能需求

目前我目前从事的是数据挖掘的相关工作，接下来讲一下工作中所需要的一些技能。

这部分可以分为硬技能和软技能。

硬技能

硬技能这里我分为理论基础、算法能力、分析工具和通用工具。下面具体来看一看。理论基础中统计知识是不可或缺的。后面的概率论、线性代数、微积分其实是跟偏算法相关。

算法方面主要需要一些机器学习跟深度学习的算法。比如分类、回归、聚类等一些比较基础的算法。

不同于算法工程师对算法的要求会比较高，像偏业务的数据挖掘的岗位，对算法的要求没那么高。你能够做到理解算法的基本原理跟应用场景，能够应用工具去实现它，能够解读算法最后的结果，也就差不多了，对数学的要求也并不太高。

关于深度学习，现在数据挖掘等算法岗也相对内卷，如果你不会也不了解深度学习就有点说不过去了，这方面可以了解一下。还需要掌握一些工具库，现在深度学习的工具库比较多，也有一些比较简便的工具库能协助实现相关的功能。

然后看到分析工具。其实目前主要用的也就是SQL跟Python，主要是看你公司的数据量，如果数据量不是很大的话，基础的一些SQL知识就够了，可能关系数据库就可以了，包括在单机里面，去运行Python也可以的；但是如果公司的数据量特别大的话，比如我目前是在Hadoop的平台做一些数据分析跟数据挖掘。如果本身的数据量就比较大，可能会用到Hive 数据仓库等。

再看到建模工具，目前其实主流是Python，还有集成了Pyspark，这是用得比较多的。然后建模的话，考虑到数据量Python在80%的情况上都是够用的。

关于通用工具，Excel跟PPT都是比较基础的。下面这个Shell是开发工具，很多时候会涉及到一些开发的工作，比如说标签表的开发，然后就会用到Shell结合ETL自动化平台，调用需要的脚本进行自动化的运行。就相当于是每天它会自动的跑一些脚本，而不需要去手工或者是在单机操作，这些都是在平台上面自动完成的。

软技能

软技能这块简单看一下，包括像业务的理解，比如你进入任何一个行业，你前几个月会多花时间了解该行业的业务表，业务涉及的一些内容，核心的盈利业务是哪些。还有一些通用的能力，比如沟通、汇报能力等，因为你经常会需要将模型和分析报告讲给别人听，因此这些能力也是十分重要的。还有学习能力。数据行业的迭代比较快，需要有持续学习的能力。

03、项目实操流程-电信产品案例分享

下面来讲一个电信产品的项目案例，在此之前让看一下目前会涉及到的主要模型。

这边将用户生命周期划分为这样几块：第一、新用户获取阶段；第二、入网期；第三、成长期；第四、成熟期；第五、衰退期。

在不同的时期会有不同的模型。当然要根据具体的业务，就不同行业可能它的业务不一样，但是用户生命周期都是类似的。都需要获取用户，用户在平台上成长，包括会有成熟到衰退的生命周期，会有一个曲线。比如在新用户获取这边，会有很多像家庭圈模型等类型。

下面介绍一下入网期中天翼看家这个模型。它是一个看家的智能设备，一般在农村比较多，安装在家里，在外务工的人群就可以通过它看到家里老人和小孩的情况。

还有一类是满意度的模型。这边核心关注就是三块，第一块是像这种开源的营销模型。第二块是用于节流的，减少损失的离网模型。第三种是提升用户满意度的模型。

电信产品办理预测模型

整体模型的建置分为以下4个步骤，第一个步骤是数据的准备；第二个步骤是模型的构建；第三个是预测感知，也就是模型预测；第四个是结果应用。

首先第一点是基于产品营销模型，也就是基于客户的一些产品数据，还有行为数据、消费数据等维度，从而去构造样本空间。

样本空间包括特征空间，样本空间就是正负样本。正样本就是已经办理，比如说11月已经办理的用户作为正样本，同时这个月没有办理的用户都可以作为负样本。接着进行抽样，构造样本空间。

特征工程也就是特征构造，基于客户的一些基本属性信息，还有套餐信息，包括产品订购的信息，包括消费信息。其实还有很多其他维度的信息，比如说浏览内容、访问轨迹、位置信息等都可以考虑进来。

构造产品预测模型可分为这样几块。将数据分割成训练集，测试集跟验证集。测试集本身应该是在下一步构造的，指的是没有用户的标签，需要预测其将来的标签，给每个用户打标签。

在训练集里划分成训练集跟测试集，训练集用于训练模型，验证集用于修正模型。

接着看到数据探索，这部分会进行一些统计分析，还有每个变量跟目标变量之间的关系，这些都都需要做一些探索。模型的话，当时是用了几种集成模型做建置，进行模型间对比，最后输出模型的重要特征。

然后第三步对用户办理预测。对未办理的用户拿过来，输入刚才训练的模型，预测出其对产品营销的办理可能会响应的概率。最后输出的就是用户是否会办理的产品，以及办理的产品的预测概率值。从而根据预测概率值，划定阈值。比如说想营销响应概率在40%以上的用户，这时就可以将这些用户筛选出来，然后最后生成关联标签，交给营销平台，做营销派单，之后做一些短信或电话触达。最后可以针对转化进行跟踪，以上就是该项目的整体流程。

下面分步骤讲一下模型的情况。首先是模型的背景，目前已办理天翼看家用户的规模，建置模型的预期等目标。