
基于大数据技术的手机用户画像与征信研究
随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临。用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措。用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积;另一方面,在运营商涉足的消费金融领域,对手机用户所进行的个人信用评价,是对手机用户画像中的诸多特征实施再组合与分类的应用过程。
1. 手机用户画像与隐私保护
所谓用户画像,是指单个用户所有信息标签的集合,即通过收集与分析用户的人口属性、社会交往、行为偏好等主要信息,将用户所有的标签综合起来,勾勒出该用户的整体特征与轮廓。在互联网经济条件下,满足消费者个性化需求成为运营商差异化竞争的主要手段,用户画像可以较为精准地发现客户类型,成为电信运营商避免管道化风险,实现“数据驱动业务与运营”的重要助力。
用户画像是个形象的比喻。在大数据技术的帮助下,我们可以了解手机用户的更多信息,但由于实施成本和隐私保护的限制,这个画像其实不是全息的“照相”或“录像”,是按需设计的,不可能无限细化,即用户“画像”不考虑成本与需求而具有超高“像素”是不现实的。一般而言,用户画像与客户分类密切相关。在大数据分析中对客户群进行分类,如聚类分析、判断逻辑分析等,可以按特征将用户划分为不同的类别;这些多维角度的客户分类,形成了一系列不同的属性标签。对于单个客户,正是这些分类范围的相互交集,即是单个客户身上的众多标签的累积,使得客户形象逐渐丰满,依稀呈现。同时,众多特征的迭加也可视同从量变到质变的“涌突”现象,在标签信息的基础上,可以再从各项特征中重新按需组合,形成相对完整的“大属性”标签,实施进一步的分类。从这个角度来看,手机用户的个人信用评价,也是个手机用户画像中的诸多特征再组合分类的应用过程。
就电信运营商而言,应本着风险防范原则,首先加强系统安全的日常管控与监查,具体包括:流程规划、权限分级、下载监控、合规巡检等内容(见表1)。其次,利用大数据技术做好威胁情报与安全数据的解析工作。近年来,随着网络安全攻防技术的不断演化,出现了依托社会工程学等方法的APT(Advanced Persistent Threat,高级持续威胁)方式,APT不单针对用户信息,而是出于特定目标长期地威胁整个网络系统的安全。APT的出现,促使电信运营商的数据安全理念从以漏洞为中心的实时防御,发展到以威胁情报为中心的安全解析管理。安全解析管理要利用大数据技术,着重分析挖掘业务系统中:①业务流程类数据:包括企业组织结构、业务环节构成、业务链关联、员工层级与分工权责、出勤在岗记录等,这些数据往往难以从机器中直接获取,且有助于对潜在威胁点的搜索与定位;②网络数据:包括FPC(full packet capture) PSTR(Packet ),会话或flow数据;③设备、主机及应用的日志:包括WEB代理日志、路由器、防火墙日志、VPN日志、windows安全及系统日志等;④报警数据:即检测工具发现异常而发出的通知等。通过全面的数据解析,可以及时发现入侵迹象,力争在攻击者完成使命前成功地阻止其活动并完成溯源。当然,前面提及的日常实时防御仍是安全管理的基础,构成了安全防守的纵深,否则后面的安全解析也无从谈起。
最后,出于保护个人数据隐私的目的,做好数据脱敏工作。数据脱敏主要对应于数据分析应用与发布的环节,目前主要技术有:水印、泛化、加密、失真、归并等。其中,水印是指对局部信息的掩遮;失真是指采用添加噪声等方法对原始数据进行扰动处置,但还要保持原有的数据统计方面的性质不变;加密是应用密码技术对数据进行封装,这种方法保护效果最好但开销较大;泛化是对数据进行更概括、更抽象的描述,如对于年龄18岁,可以泛化为年龄取值区间为[14,25];归并则是将量化的数值指标按一定的标准进行分类,形成属性指标参数,如价值5000元以上手机型号,被划分为高档手机类,记为参数1,归并方法兼顾了失真与泛化的要求,在用户画像中常被使用。
当前,许多与民众生活息息相关的部门如公安户籍管理、社会保障、住房公积金管理等,都涉及到为数从多的个人家庭住址、社会关系、职业经历、个人收入等敏感信息,成为黑客们首选的攻击目标;但这些部门并没有因噎废食,在不断完善个人信息安全与隐私保护技术的前提下,充分利用大数据技术广泛开展综合业务为民服务。应该说,其它部门能够做到的,电信运营商也有能力做到。
2. 主要技术来源与技术框架
2.1 主要数据来源
手机用户画像的数据可以分为四大类:人口属性数据、社交网络数据、行为偏好数据和其他方面数据。
2.1.1 人口属性数据
人口属性数据是指手机用户的姓名、年龄、性别、手机类型、手机用户唯一标识、订购套餐类型等基本信息,以及由此延伸的手机用户的实际话费、手机号码注册地、身份证居住地址等。2015年9月1日起手机卡实名登记制实施,原有的“临时账户”、“集团卡”、“代办卡”,以及手机卡登记信息不完整、机主姓名与实际持用者信息不匹配的现象将被制止,这部分的信息将成为手机用户画像的重要基础数据。
2.1.2 社交网络数据
手机是人们交往的重要通讯工具,从手机用户的主被叫通讯记录中可以描绘出该用户的社会交往网络。社交网络的研究分为两种形态,第一种是以某个人为核心点,重点探讨研究其他各节点和核心点的连接互动关系以及连接强度,称为“自我中心网络(ego-centric networks)”。第二种形态是以整体网络为核心,在特定范围内所有成员所构成的关系网络,称之为“社会中心网络”(socio-centric networks),研究重点在于网络结构以及信息如何在网络内部扩散。社交网络技术方法有静态和动态交互法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等软件。
手机用户画像的社交网络主要研究的是第一种形态网络,即以个人为中心的社交网络。可以根据是否一段时期有主被叫、通话时间长短、通话发生的时间等因素来标注社会交往的连接紧密程度以及关系的稳定性。例如,有人认为通话记录中,主叫较多的手机用户可能处于相对的支配地位,但仅凭某单项指标则容易发生误判,主叫多的可能是从事物流业的快递员;而被叫较多的手机用户,也有可能是导游或会议组织的服务人员。所以,有必要综合考虑其它因素,如一段时期内的双向通话的时长等。另一方面,根据“物以类聚,人以群分”的思路,手机用户的社交网络中有紧密连接关系的群体的一些相关信息,如ARPU值、手机型号的整体价格水平等也可以间接反映该用户所处的社会环境与地位。另外,社交网络也可以缓解信息不对称问题,对手机用户行为产生“声誉约束”的影响。
2.1.3 行为偏好数据
手机用户的上网行为可以有两种方式获取。一是通过电信运营商自身经营的网站日志进行挖掘。如中国电信的“号码百事通”网站上有旅游、团购、演出、购物、民生信息查询,以及水电、有线费支付等模块,手机用户登录该网站浏览及进行购物消费,其行为数据可以在网站日志中留下记录。二是通过手机上网的信令分析。与前者网站日志分析不同,这部分行为数据的收集过程比较复杂,目前主要是进行Gb口信令分析。常用Wireshark和Compass等信令解码分析系统,对采集到的Gb口信令数据进行解码翻译,并且对访问的网站域名或通过文本和图片分析对用户所访问的网页内容进行识别,最终实现上网行为的分析。手机用户GPRS上网流程经过5个步骤,分别是附着过程、PDP激活、WAP连接、数据传输与释放连续。Gb口信令采集主要在于“WAP连接阶段”,上网信令数据获取的方法包括:分类采集、交换机端口镜像采集等。手机用户上网涉及的数据有:开始上网时间(也称上线时间)、结束上网时间(下线时间)、用户上线所在小区、所浏览的网站类型、浏览网站所传输的流量等。
同时,利用通信基站定位技术,在用户允许的条件下,可以记录查询用户的位置与活动轨迹。
2.1.4 其它异常数据
例如:在手机实名制下,某用户拥有多个手机号码(10部以上),或者较短时间内频繁地更换手机号,以及话费欠缴,为了区分无意欠缴,要重点关注话费欠缴累计逾期次数和最长逾期记录。
当然,用户画像的数据可根据应用场景的需求,进一步进行衍生组合。例如,对于某手机用户的社交网络,可以在(2.1.2)项中分析出关系稳定而且亲密的网络成员(intimate relationship)的基础上,进一步分析这些成员的(2.1.1)项中的年龄结构和套餐、(2.1.3)项中的上网行为等,特别是结合(2.1.4)项中有极个别联系的成员异常情况,已成为侦察破案发现线索的主要渠道之一。
2.2 MPP+Hadoop大数据技术框架
用户画像不是全息的,而且大数据的特点是数据量大但往往价值稀疏,所以,要从海量数据中挖掘有价值的特征属性,前提是设计提供性价比可以接受的大数据技术解决方案。
类似于经济学中的现象,曾经有个“三元悖论”一直困扰着数据存储与查询分析的资源协调与管理,也就是说,由于自身属性特点,Hadoop和MPP目前只能满足以下的两项功能,而不能满足全部要求。具体来说,数据分析主要实现以下目标:
(1)实时。在这方面,单节点执行系统具有明显优势,这方面MPP表现突出,其他方式会一定程度上弱化实时性能。虽然新近出现的spark技术帮助hadoop提高了实时性能,但实施成本过高,相关技术有待进一步的成熟完善。
(2)可扩展,即要按数据量的增加而扩容。MPP扩容到一定程度后因传输等因素将会受到限制,而Hadoop的Mapreduce在此方面表现较好
(3)对数据复杂查询与复杂分析的处理能力。Hadoop和MPP均可以通过算法实现此功能,但会有难易与熟练程度上的差别。
图1:运营商“MPP+HADOOP”大数据技术框架
电信运营商运用的“MPP+Hadoop”混搭模式可以较好地解决这一问题(所图1所示)。其中,MPP主要针对BSS 域(业务支撑系统)的相关数据以及部分的OSS 域(网管支撑系统)数据,主要包括用户身份信息、费用账单、欠费信息、套餐信息、登记住址以及接入网络类型、用户终端类型等具有准确性和实时性要求的数据信息。Hadoop主要针对MSS 域(管理支撑系统)、NSS 域(网络安全系统)以及部分OSS 域(网管支撑系统)的数据,主要包括活动位置轨迹、上下线时间、通信时长、次数、访问应用时间、上网偏好、投诉信息、用户感知状态、社交网络、安全威胁情报等。
3. 用户画像在征信方面的应用实例
2015年3月中国联通与招商银行下属的永隆银行出资组建了招联消费金融公司,积极开展互联网消费金融业务。这种消费金融业务由于具有无担保、无抵押的特点,可以采取相对灵活的信贷政策,进而扩大了信贷范围,但也面临着一定的风险。为提高履约水平,电信运营商有必要从用户画像角度对个人消费信贷进行征信管理。
个人信用评价实质是一个类别识别问题。由于个人征信的基本过程,是将分散于不同来源的局部信息,整合成为可以完整描述消费者信用状况,因此电信运营商的用户画像方法同样适用于个人信用测评(如图2所示)
图2:手机用户画像在个人征信中的应用流程
可以这样理解,所谓用户画像的应用,是根据情景需要对用户标签的再归并组合以及对标签重要性重新排序的过程。一般以为,用户画像的样本可以从银行个人信贷的记录中进行筛选,但这种对已发放贷款的回收情况来进行逻辑判别,实质上会陷入“先验性误导”中。因为,所选取的有贷款业务的用户已经被银行风控部门进行了必要的审查和筛选,由此发生的信贷逾期呆坏账,是基于贷前审核通过后的样本,不是真正的完整的初审样本。这里,我们以人民银行安徽省分行为例,对省内部分申请贷款的个人用户进行实证分析。首先,选取3525个申请个人贷款的手机用户为样本,运用两种方法进行信用评价,其中,一种方法是银行根据现有的申请人的审核资料进行征信,另一种方法是通过手机用户画像的方法进行征信。具体步骤如下:
3.1 先由银行风险管控部门人员根据银行自身的信用评级标准(层次分析法,简称AHP法)对所有样本进行打分;具体指标如表2所示。一般分为9级,为了进一步简化区分,我们以银行最终放贷决定为依据,将样本分为“可予授信”样本和“不予授信”样本两种。(当然,可授信样本中也不能保证以后就不发生呆坏账,一定程度的小额坏账率也是银行业务中的正常现象)。
3.2 根据征信应用的情景需求,将手机用户画像的量化具体指标进行重新归并与组合,如表3所示。
3.3 将所有样本进一步分为两部分,一部分为测试集,样本数占60%;另一部分为检验集,样本数占40%,并让这两个样本集中的可授信和不可授信样本占有相同比率。
3.4 以银行传统评级结果为依据,运用监督学习算法中的支持分量机,对测试样本中的手机用户画像特征进行维度约简,找出关键属性值组合。在分类过程中,变量多所获得的信息也相对多,其判断正确性也将会比较高。但是变量多,代表着收集样本的成本和时间增加,最好的方法是能以较少的变量,却能获得不错的判断正确性。在个人征信中有效的用户画像指标如表4所示(由于条件限制,没有实施手机用户上网行为数据的采集与分析)。
3.5 按上述得到的手机用户画像的属性值组合,对检验样本进行分类,并将分类结果与传统的银行AHP法进行对比,符合率达到94.35%,效果基本达标(如表5所示)。
尤其需要注意的是,手机用户画像法的可予授信样本数小于银行传统方法的可予授信数,说明该方法授信标准更严,更趋保守,具有较好的稳健性。从中可以发现,运用手机用户画像的方式进行征信在“薄信息”状态下,具有较高的有效性。当然,在“厚信息”情景中,也具有一定的信息补充功能,综合利用效果更佳。
4. 结束语
在“互联网+”的背景下,大数据技术在电信运营商的业务应用领域将不断拓展,而智能手机技术和功能的不断推陈出新,进一步触发了消费模式的转变、产业链的开放和更大范围的数据融合。在妥善解决个人信息安全与隐私保护的前提下,以客户为中心的手机用户画像研究,有利于运营商充分利用现有的数据资源,有效实现精准营销和个性化服务,同时在个人征信方面也可实施有益的探索与实践。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15