登录
首页精彩阅读数据进行分析并利用各种数据挖掘技术和方法选择合适的模型描述
数据进行分析并利用各种数据挖掘技术和方法选择合适的模型描述
2016-04-09
收藏

数据进行分析并利用各种数据挖掘技术和方法选择合适的模型描述

电信资费套餐是电信运营商进行客户关系管理的手段,能使客户受惠并提高运营商收益。使用数据挖掘技术可以制定资费套餐。首先介绍了数据挖掘的流程,并以外来务工人群为例进行了具体解释。然后,提出了运营商收益模型,可用来验证基于数据挖掘技术的资费套餐的有效性。最后,按照实际例子给出了具体的资费套餐设计和收益模型验证。


Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为 未来五年内投资焦点的十大新兴技术前两位。根据Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,用户将更多地需要采用新技术来挖掘市场价值,采用更为广阔的并行处理系统来创建新的商业增长点。”数据挖掘技术将在未来的数据计算中扮演越来越重要的角色[1]。

通信企业保存着客户的相关信息,如呼叫及计费等大量的数据,这些业务数据虽看似普通,却包含了客户管理方面的珍贵信息。数据挖掘技术与海量数据有着密不可分 的关系,强大的数学算法使其能够根据这些数据建立有关客户管理的预测模型,从而分析出客户相关信息并采取有效措施服务各类客户。

文章首先介绍了数据挖掘技术和通信资费套餐的概念;然后介绍了利用基于客户数据仓库数据挖掘技术来制定资费套餐的方法,并以中国联通某分公司的客户数据为例进行了具体分析。最后,对所提出的套餐进行收益建模来验证文章所提方法的有效性。

1、数据挖掘技术和通信资费套餐

1.1 数据挖掘定义[2]

数据挖掘(DM:Data Mining)可以简单地描述为一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。这些模型和关系可以用来做出预测,可以按企业既定的业务目标对大量企业数据进行探索和分析,揭示隐藏的、未知的规律性或验证已知的规律性,并进一步将其模型化的先进有效的方法。作为一种先进的数据信息处理技术,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)有着本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,是一个完整的过程。该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

1.2 数据挖掘的基本分析方法

数 据挖掘技术是一种帮助决策人员发现那些隐藏信息的有力工具。它使用决策树、模糊集合、神经网络等计算方法,分析企业的数据,做出归纳性的推理,从中挖掘出 潜在的模式,预测客户的行为,帮助决策者调整市场策略,减少风险,做出正确的决策。一般来说,数据挖掘常用的方法和技术不下几十种,主要有关联规则、数据 分类、数据聚类、时间序列模式、意外规则、回归分析、偏差分析、基于Web的数据挖掘等。

电 信资费套餐是电信运营商针对不同客户群体提供不同资费服务的手段。推出合理的资费套餐既使老客户受惠,又吸引了新客户,是中国电信运营商从最初的“一刀 切”资费向科学地运用客户关系管理理论[3]提供服务转变的标志。资费套餐具有两方面作用,一方面降低了移动通信的运营成本,另一方面可以满足不同客户群 体尤其是弱势客户群体的需要。科学的资费套餐能够在满足不同群体对通信服务的多样性需求的同时,最大化电信运营商的收益,对电信运营商至关重要。因此,文 章通过研究基于客户数据的数据挖掘技术来制定最优的资费套餐。

2、基于客户数据的数据挖掘

文章选择电信运营商的计费系统 数据库作为数据挖据的对象,也就是文章所选择的数据仓库。目前电信运营商都具有业务营运系统、业务受理网站、客户服务呼叫中心等 BOSS(Business & Operation Support System)系统,也拥有许多成熟的数据库应用系统。其中的业务营运系统也就是计费系统,拥有所有客户的基本资料、 呼叫清单、账单、联系历史记录等海量复杂的行为数据。可以将这些数据集中起来,建立一个整合的、结构化的数据模型,在此基础上对数据进行标准化、抽象化、 规范化分类和分析。通过数据仓库接口,对数据仓库中的客户数据进行联机分析和数据挖掘,为企业管理层提供及时的决策信息,为企业业务部门提供有效的反馈数 据。因此选择计费系统数据库作为文章的数据仓库

2.1 数据挖掘流程

数据挖掘是一个周而复始的过程,许多软件供应商和数据挖掘顾问公司都提供了一些数据挖掘过程模型,指导他们的用户一步步地进行数据挖掘工作,比如SPSS的5A和SAS的SEMMA。基本的数据挖掘包括以下几个步骤[4]:

(1)定义商业主题

没有商业目标,数据挖掘就会变得漫无目的,要想充分发挥数据挖掘的价值,必须对自己的目标有一个清晰明确的定义,根据特定的目标,选择和准备数据,建立模型。

(2)数据处理

这一过程所花的时间和精力要占整个数据挖掘项目的50%~90%,它包括四个步骤:①数据过滤。这一步骤可以确保收集的数据符合分析的需要。②数据预处理。这一步骤应确保原始数据和输入标准一致,将分布在不同数据库中的数据集成、合并到单一的数据库,并协调来自多个数据源的 数据在数值上的差异,使数据属性标准化。③数据分析。在建立良好的预测模型之前,必须对预处理后的数据进行初步分析,找出对预测输出影响最大的数据字段, 并决定是否需要定义导出字段。④数据准备。这是建模前数据处理的最后一步,也是数据挖掘过程的核心。主要有4个部分:选择变量、选择记录、创建新变量、转 换变量,使之和选定用来建立模型的算法一致。

(3)建立模型

在多个可供选择的模型中找出最佳模型。初始模型可能没法达到数据挖掘的目的,需要多次反复。在寻找最优模型的过程中,可能要修改正在使用的数据,甚至修改问题的定义。

(4)评估和解释模型

这 个阶段是对数据挖掘阶段构建的模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。模型验证的标准方法是从预处理数据中随机抽取两 个样本,一个校准样本用于构建模型,另一个样本用于验证校准样本产生的模型。通常一个好的模型运用到验证样本中能得到较好的效果,如果效果很差,就需要重 新构建模型。

(5)运用和巩固模型

对模型在实际应用中的表现进行监控,将数据挖掘的结果同运营市场反馈紧密联系起来。如果模型表现不好,应实时适应市场调整挖掘模型,对模型作进一步的考察和修正,以反映业务运作规律的变化。

2.2 数据挖掘实例

本部分以中国联通某分公司为例,按照数据挖掘的流程给出简单的使用实例。

(1)研究目标

为 明确研究的问题,需要对研究目标进行定义,明确商业目的。目标是推出适合外来务工客户群的长途通话资费套餐,可以描述为:不同客户群对通信业务的需要不一 样,消费能力也不同。运营商需要按照不同客户群推出不同的资费套餐,以对不同客户群提供最优惠的资费来进行客户关系管理。推出合理的资费套餐,对客户而 言,对使用频率最多的业务降低了资费,也就是享受了优惠;对运营商而言,对不同客户群提供资费优惠吸引了新老客户,是客户关系管理(CRM)的良好手段。 此外,由于针对不同客户群对不同业务设定不同的资费,并没有降低业务的平均收益,反而会由此吸引更多的新客户而增加总收益。

(2)数据处理

对 中国联通某分公司的计费系统数据库中的数据进行处理,提取与所研究目标相关的数据。首先对客户按照月消费额度、之前选择套餐、籍贯等信息进行分类,分别研 究;然后分析每个客户群体在通话时间、业务选择等方面的区别。例如,在计费系统数据库中可以提取出客户的基本通话费、漫游通话费、长途费、漫游长途费、短 信量、彩e、如意信箱等详细数据,然后按照分层概念等这些对数据进行分析,找出对预测输出影响最大的数据字段,定义客户群并提取出不同客户群的主要数据字 段。

以中国联通某分公司所覆盖的地区为例,对其计费系统数据库进行数据处理。根据用户数据信息,从中随机抽取出1万名外来务工用户作为分 析依据。根据话费支出分析,2006年外来务工人员每月手机话费平均为45元。从2006年话费的月份分布情况分析,用户在1~3月及5~8月的消费大于 其他月份,考虑到春节因素,排除1~3月,5月话费大于100元的用户数是11月的1.51倍。从长途通话时段方面的数据分析,外来务工人员在19时以后 通话比较频繁,其中首选时段为21:00~22:00,其次是19:00-21:00和22:00以后。

(3)建立模型

建立模型是一个反复的过程,需要对数据进行分析并利用各种数据挖掘技术和方法选择合适的模型描述、表示数据,并得出规律。模型建立与调整是数据挖掘过程中的 核心部分,通常由数据分析专家完成。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算 法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。

(4)模型的解释与运用

根 据以上分析可以得出对研究问题的简单结论:由上述步骤的模型可以分析出不同客户群对不同业务的使用频率和消费能力,根据数据挖掘模型的结果来制定最优的资 费套餐。例如,根据某地区外来务工人员的通话数据,利用模型挖掘出信息后,制定资费套餐的原则就为降低17:00~20:00的长途通话资费,同时设定月 消费额度或提高其他时段长途资费作为补偿。通过对模型做出合理的业务解释,可以找出一些潜在的规律,用于指导业务行为。反过来,通过业务解释也能证明数学 模型的合理性和有效性。

3、套餐设定后的收益分析

从运营商的角度来说,在针对不同客户群推出不同优惠资费套餐的同时要保 证或提高运营商的商业收益。本部分通过数学建模的方式提出了套餐变化前后的商业运营收益模型,此模型可用来验证上述通过数据挖掘技术选择资费套餐方法的有 效性。本部分以中国联通某分公司外地务工人员长途通话时段为例,介绍了收益变化的建模方式。

3.1 建立收益模型

以外来人员长途通话为例,收益模型为:

这里Sd是运营商第d天的话费收入,n是使用人数,p(t)是t时段长途通话概率(t∈[0,24]),f(t)是t时段资费,c是平均通话时间。

为保证新的资费套餐能增加运营商的收益,因此要满足

这里Sd是新资费套餐下第d天的话费收入,T是改定套餐需要支出的费用。

3.2 模型举例

以中国联通某分公司为例,选取2006年整年外来务工人员的长途通话数据,以分钟作为时间间隔单位,对选择套餐前的客户数据进行统计模型假设。以长途通话时段为例,发现长途通话集中在晚上,并呈现尖峰状的分布图。因此为了简化模型,可只对公司计费系统数据库中17~24时段长途通话的数据进行模型拟合,结果见图1。

图1 外地务工人员长途通话时段统计分布图

由图1可以发现,使用最大似然估计(MLE)拟合出来的拉普拉斯分布对实际数据的拟合程度更高。为了定量验证拉普拉斯分布的正确性,这里选择检验[5]来比较验证MLE的拉普拉斯分布和高斯分布对实际数据的拟合程度。

拉普拉斯分布与参数的MLE公式为:

高斯分布与参数的MLE公式为:

这里,k是样本分块的数目,ni是第i块中含有的样本数目,pi是理论分布一个样本属于第i块的概率,n是样本总数。

对外来务工人员长途通话时段高斯分布和拉普拉斯分布拟合度x2检验结果分别为41 632和31 984(k=28)。

由上述检验结果可以发现,拉普拉斯分布能更好的拟合实际数据,因此文章选择拉普拉斯分布作为17~24时段长途通话的统计分布。由于白天时段的通话次数少,概率分布可简化为阶梯时段的均匀分布。

按照上节的收益模型,对计费系统数据库的外来务工人员长途通话时段数据项进行数据挖掘后,建立的新资费套餐需要满足以下方程:



这里n是应用新的套餐后估计的使用人数,也就是在原来客户人数n的基础上+估计新增客户人数-估计丢失客户人数,A1,A2,A3是所属时段的通话次数均值。

以 中国联通某分公司为例,原来的套餐资费是长途通话固定为0.3元/分钟。应用上述数据挖掘技术,以外来务工群体通话数据为基础,建立了新的长途通话资费套 餐。新的套餐为:8:00~21:00的长途通话资费为0.4元/分钟,21:00~8:00为0.2元/分钟。假设外来务工群体的通话习惯不变,也就是 通话概率符合上述长期统计数据,假设平均通话时间为2分钟,且总人数不变,则应用新套餐后每天增加13 269元的收益。假设修改套餐的成本平均到每天为1 000元,则每天增加收益为12 269元。因此,按照数据挖掘技术制定的新套餐不仅能给大部分客户提供优惠服务、改善客户关系,而且能提高运营商的收益。

4、结语
数据挖掘技术在信息时代的客户关系管理中有着广泛而深入的应用,这一研究领域体现着越来越大的研究价值。随着数据挖掘技术的进一步发展和深化,必然会带给CRM更为广泛的应用前景和市场价值。这种价值对增强中国企业的核心竞争力将会发挥越来越大的作用。

文章从通信行业的实际情况出发,研究如何科学地使用数据挖掘技术来制定针对不同客户群的资费套餐,并以中国联通某分公司对外来务工人员制定长途通话套餐为例 进行了研究。最后,提出了一个收益模型来验证不同资费套餐下运营商的收益变化,以验证使用数据挖掘技术制定的套餐能否提高运营商的收益。

数据分析咨询请扫描二维码

客服在线
立即咨询