
大数据征信和身份核实是互联网金融的两大挑战
2015年4月29日,2015全球移动互联网大会分论坛—全球移动金融峰会在北京国家会议中心举行,大会主题聚焦“繁荣与理性”,分别从支付、市场、视界、移动与金融新融合四个方面探讨移动互联网金融的发展。本界峰会吸引腾讯、京东、百度、支付宝等科技巨头参会,必将碰撞出激烈的思想火花。中国电子银行网作为合作媒体全程直播此次峰会,以下是本网发回的现场报道。
腾讯征信吴丹从互联网金融面临的挑战切入,重点谈到了大数据征信和身份核实。吴丹表示,一方面,互联网金融在提供便捷的同时,欺诈的成本也在降低,每一个互联网金融产品的出现,或多或少都伴随有假冒身份的尝试,如何准确有效地识别一个用户的身份越来越重要,因而一个高精准度的身份核实体系至关重要;另一方面,央行的征信系统只覆盖三亿用户,而互联网金融的最主要参与者,另外五亿的互联网用户的信用评价才是关乎互联网金融命脉的,因而,大数据征信技术的成熟至关重要。
以下是吴丹的演讲实录:
吴丹:大家好,我是吴丹,很高兴在移动互联网的时代来介绍一下大数据征信和身份核实。在过去的两年是移动互联网,是互联网金融在加速发展的时期,一方面我们看到了越来越多的互联网金融产品正在和用户产生巨大的化学反应。另一方面我们也感到互联网正在越来越多地面临原本在金融领域里面的两个主要挑战。第一个挑战就是身份核实。在互联网的思维下,我们非常注重用户体验,所以让用户能够体验到越来越便捷的产品流程。但实际上在提供便捷的同时,欺诈的成本也在降低,每一个互联网金融产品的出现,或多或少都伴随有假冒身份的尝试。更为恶劣的还有贷款中介,还有一些团伙性的犯罪,这是每一个借贷机构都在面临的考验。
另外一个挑战就是对于用户信用风险的认识,也就是对用户未来一段时间里面能力的判断。我们在这儿讨论的是互联网的客户群体,是远远超过了现在央行征信体系覆盖下的人群。所以在腾讯征信成立初,我们就想要帮助金融机构,帮助借贷机构,帮助用户去解决这两个挑战。在接下来的十几分钟时间里面,我主要从大数据征信和身份核实这两方面来介绍。
腾讯为什么做征信,大家都在讨论,央行的征信系统覆盖三亿用户,而有活动能力的还有另外的五亿人没有在这个系统里面,他们实际上是大数据互联网金融会主要进入主要,主要来服务的一个市场?现在的问题是这五亿人他们在哪儿?一个简单的回答就是他们都在QQ和微信里。腾讯有八亿的用户活跃。央行征信系统没有覆盖的这些人他们实际上可能是蓝领工人、自由职业者,或者是刚刚进入社会的年轻人。这些人每天有大量的时间在互联网上,他们可能每个小时都在跟腾讯产生交互,所以他们留下了大量的线上的行为足迹。这些行为足迹包括有支付、社交、游戏、浏览等等。我们有非常丰富的纬度去分析这些用户的行为。不仅如此,我们还与借贷机构来合作,向这些用户发放贷款,我们想要了解他们的还款表现,也就是说我们可能是国内为数不多的能够真正比较上规模地了解这些用户的真实信用风险的公司。在我们信用模型里面已经证明了社交关系是能够非常有效地提高模型的预测能力。
所以我们进入到了征信,我们选择大数据征信,也就是用非常丰富的海量的数据,用前沿的分析技术来进行信用评价。我们希望能够帮助到金融机构、借贷机构去做更好的风险控制,希望能帮助到每一个互联网用户去获得他们自己的金融服务,也希望能够帮助到整个社会建立这样一个信用体系。
我们的优势显而易见,首先是我们在数据上是和现在的信贷数据和现在的还款表现数据是互补的,我们的是互联网上的行为数据。另外,我们覆盖的人群有八亿人,我们有触达用户的途径。所以我们在为每一个腾讯的用户建立他们自己的信用报告,为他们做出信用评价,这些信用评价的话,主要会是从财富、安全、守约、消费、社交等几个纬度来评判。这里要说明一下的是我们的评价实际上不会涉及到用户内容方面的信息。那么更深入一席,我们还在做一些社交关系上比较前沿的研究,也就是说我们认为,一个人的信用情况的话,它不仅和自己相关,它同时也和他自己很多,多因素的社会关系的数据是相关的,例如他自己的人脉情况怎么样,他在社会里面的地位怎么样,甚至是他和他的朋友的信用情况怎么样,他所在的群、组、他所在的圈子的情况怎么样。所有这些都会应用在我们要推出的信用评价里面。
下面我会谈第二个挑战,在身份核实方面。在过去两年时间里面,我们其实看到互联网与各个行业在结合的时候,实际上能不能准确地、有效地去识别一个用户的身份越来越重要了。在过去15年时间里面,腾讯实际上已经积累了大量的反欺诈技术和黑名单库。现在我们应用出来,再加上一些深度学习、积极学习建立起来的模型和规模,我们提供一套能够实时在线校验身份的工具,这样的工具我们希望能够帮助到各个行业,也帮助到互联网公司我们自己去识别用户的身份。主要包括的账号安全服务、等级服务和腾讯人脸识别服务。账号安全等级服务我们实际上是根据用户的身份证、姓名,以及QQ等其他的识别标识来甄别这个账号可能的欺诈风险水平。在其中,我们应用了腾讯比较独特的账号设备关系这么一个技术,这是腾讯独特的优势,在这些应用出来的新的技术下面的话,我们能把现有的欺诈识别水平提高3-5倍,这个是我们现在正在测试,而且效果非常明显的一项技术。
另外一个技术就是腾讯的人脸识别技术,这个是最近开始曝光,而且也逐渐变成一个热点话题。腾讯实际上聚集了大量的互联网的尖端人才,包括的图像识别方面的,大数据分析、人工智能方面的专家,像腾讯的优to团队过去一直在开发领先的图像识别技术,每天在处理亿级的照片,在这样的基础之上,我们另外还去建立了非常大的、海量的人脸识别的样本库,特别是针对黄本人的人脸样本库,能让我们的人脸识别模型得到非常好的训练基础然后我们与权威的身份证信息库进行匹配,利用移动端在一两分钟里面完成操作,在秒击的时间里面得到反馈。实际上这套技术现在已经能够到落地的阶段了。我们可能在好莱坞的电影里面经常看到有面部识别的情景,但实际上可能现在还没有一个系统实时的能够在互联网上通过人脸识别来校验身份的,这个我们已经有了,我们并不是复制一个成熟国家已经有的模式,我们是在自主创新。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09