京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何让大数据更懂金融?征信公司都拼了
强烈的市场需求,不足的市场供给,已经迅速点燃我国征信行业。对金融机构而言,征信将完善对风险的评估和管理,有利于加快授信过程,分级定价,降低优质借款人借贷成本,大幅提高信贷效率。对商业机构而言,征信逐渐被作为经济运行和社会管理的标准,以此撬动的商业模式创新迅速拓展至酒店、租房、招聘、旅游等行业。
据中国企业联合会数据显示,中国市场每年因为诚信缺失造成的经济损失约为5,000多亿元。对比美国征信行业的发展,中国征信业还处在初级阶段,既蕴含巨大市场空间,更需要众多参与者不断探索。
个人征信行业竞争激烈 "三驾马车"雏形初现
2015年1月,腾讯征信、芝麻信用、前海征信等八家机构获准开展个人征信业务,这让业内着实沸腾,很多人都在欢呼个人征信市场的春天已经到来。然而时至今日,八家机构苦等19个月仍然未盼到牌照。好在,个人征信市场的发展,并没有因为牌照迟迟不发而停滞不前。经过一年多的运营,一些领军企业已取得不错的进展。
比如,芝麻信用称,目前有接近60家数据合作伙伴,各场景的合作伙伴已超过200家。腾讯征信表示,已经与浦发银行、广发银行的信用卡业务展开了合作,另有多家合作方进入产品调试、试用阶段。
相比于上述两位BAT中的大拿,具有金融血统的前海征信明显在公关上低调很多。但根据近期《经济观察报》的一则报道披露,目前前海征信已为近1500家机构提供征信服务,覆盖银行、P2P、小贷、消费金融等信贷机构,其中银行客户达115家。
前海征信背靠中国经营最好的全牌照综合金融集团——平安集团,意味着坐拥近亿相对高净值金融客户数据。平安又是金融集团中互联网业务布局最早、最广的,拥有2亿互联网用户,这对前海征信而言又是一笔宝贵的资产。此外,前海征信还与政府机构、外部数据合作伙伴等合作,并加入新型互联网行为数据,在人脸识别、大数据挖掘技术上重点突破,在一年多时间内推出覆盖贷前、贷中、贷后的多款征信产品,在B端市场优势明显。
其他拥有个人征信业务准入资质的五家企业,无论在规模上还是在数据来源上都无法与腾讯征信、芝麻信用、前海征信这三家相比肩。因此,有业内人士将这三家称之为征信领域的"三驾马车"。此外,京东金融、百度金融、小米、宜信等30多家企业也有意申请第二批个人征信牌照。
个人征信公司各自为战 "数据孤岛"如何破解?
源源不断的后来者,在不停地为这个行业的竞争加码。然而各家机构跑马圈地,攻城略地之时,难掩个人征信当下面临"数据孤岛"带来的最大挑战。
个人征信行业所需的三大类数据——金融数据、政府公共服务数据、生活数据分别散落在各主体机构中。大量民间借贷、互联网金融数据未能实现统一的征集和标准化处理。政府公共服务数据则是由公检法、税务、教育及其他企事业单位分别披露。生活类数据分散在各类场景中,线上线下数据混杂。
以芝麻信用和腾讯征信为例,芝麻分自称考虑了个人用户的信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度的信息,其中来自淘宝、支付宝等"阿里系"的数据占 30-40%。
而腾讯征信主要是基于社交网络,利用其大数据平台 TDBank,重点采集并处理包括即时通信、 SNS、电商交易、虚拟消费、关系链、游戏行为、媒体行为和基础画像等数据,并利用统计学、传统机器学习的方法,得出用户信用得分,为用户建立基于互联网信息的个人征信报告。
在BAT几大互联网巨头剧烈竞争割据的当下,很难想象芝麻信用和腾讯征信会互享数据。而电商数据、社交数据在个人征信中如何应用,也备受争议。
一个简单的例子,"买包烟借钱和你开个烟店借钱,完全是两码事";而一个负债创办企业的年轻创业者,可能将房子抵押;可能会通过社交媒体工具向亲友求援;也许会减少开支网购,也许会买东西减压;为了在客户免签撑场面,也可能买来新车壮声势。
这样的多元场景,果真能通过互联网的网购数据,或者通过社交媒体,如微博的发言,去判断他的信用状况吗?
其实,不论是电商机构,金融机构还是其他信息机构,所掌握的数据都是完善的征信服务中的一角,如果站在严谨的大数据的全面信用审核来看,理论上是应该从这些个平台中依次获得个人消费领域,金融领域,安全领域等方面的数据,然后进行交叉比对和分析,并与央行个人征信数据进行一定的结合,才能得出效率最高的,覆盖面最广的征信服务。
让大数据更懂金融,这样的个人征信公司更有优势
数据孤岛难破,而在各大征信机构的竞争中,如何获取和解读基础征信数据亦成为挑战。在这些基础征信数据,除了身份记录和信贷记录之外,可能还必须纳入影子银行、互联网金融甚至民间金融等多样化的金融投资数据。
而在数据类型中,强变量是指信贷、信用卡、外汇、民间借贷等金融交易数据,往往掌握在传统金融机构手中;中变量是商品生产、销售、流通、消费等环节的交易数据,主要来自各类电商平台;弱变量则是社交、游戏等数据,大多源于互联网平台。
由此可见,金融属性的数据是最强相关的数据,而这类数据往往在传统金融机构手中。大多数个人征信机构能够获取的,是社交记录、个人消费记录等相对弱相关的数据,但却难以获取最为重要的金融数据,导致有效数据比较有限。
在传统金融体系中,这些数据是相对割裂和分散的,尤其是对亲属和社交网络的数据监测可能是一个难点,要突破这一难点,更多的需要激活传统金融体系的创新能力,这一工作,需要传统金融企业,尤其是拥有全牌照金融能力的企业做出创新,前海征信或许正是最有潜力的一家。
目前,前海征信的合作机构数近1500家,以银行、P2P平台和小贷公司、消费金融为主。从前海征信的业务布局来看,其产品体系以贷前、贷中、贷后来布局,包括欺诈类,信用类等几十款征信产品,为金融机构提供全流程的风控解决方案。而且,前海征信尤其重视互联网金融领域,针对中国互联网金融发展现况,定制了灵活、完整的产品体系,能满足互联网金融机构和传统金融机构各种不同的风控需求。
然而,创新并不容易。因为银行业内的征信和风控体系是以大额资产和应收债权为核心的,互联网领域的征信分析目前更多聚焦在相对小额的消费贷款业务。如何能真正融合二者,还有待破题。
互联网金融倒逼大数据征信迎头赶上
中国的大数据征信,被远远甩在国外同行身后,这也是央行开始要逐步开放个人征信业务的准入资质的动力。
数据显示,截至2015年末,央行征信中心有效覆盖8.8亿人信息,其中仅有3.8亿人有信贷记录。波士顿咨询近期报告显示,央行个人征信记录覆盖率为35%,即使考虑到中国55%的城镇化率,城镇人口个人征信覆盖率仅61%,远低于美国92%的覆盖率。
此外,近年中国互联网金融的发展速度惊人。遍地开花的网络支付,一夜之间兴起的P2P,如火如荼的消费金融,带来机遇与危机共存的复杂局面。一方面,央行征信中心覆盖率不足,且收录的以传统银行提供的借贷信息为主;另一方面,网贷领域在经历开天辟地的发展和变化,互联网征信,尤其是大数据征信的发展成为了当务之急。
当前,个人征信时代不断更替,随着央行征信管理局向各大征信机构下发了《征信业务管理办法(草稿)》(以下简称《草稿》),对信息采集、信用使用以及征信产品进行了规范。难怪有评论认为,个人征信牌照只差临门一脚。
一旦牌照正式发布,以内外部大数据和互联网新技术为依托的个人征信,不仅能进一步深化了金融机构风险管理的内涵,也有望使我国个人征信迎来再一次创新和飞跃,不仅能促进个人征信业务进一步市场化发展,更使信用应用场景从金融服务延伸到生活服务,让每一个诚信、守信的人,都能享受到拥有好信用带来的实惠和便利。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15在统计学领域,二项分布与卡方检验是两个高频出现的概念,二者都常用于处理离散数据,因此常被初学者混淆。但本质上,二项分布是 ...
2025-12-15在CDA(Certified Data Analyst)数据分析师的工作链路中,“标签加工”是连接原始数据与业务应用的关键环节。企业积累的用户行 ...
2025-12-15在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05