京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在微金融发展中的运用_数据分析师
不仅仅是微金融,大数据在传统金融领域也有巨大潜能。大数据通过获取、分析和解释规模巨大、格式复杂的数据,推动业务价值创造方式的变革,形成全新的洞察。为了充分把握大数据的优势,商业与运营模式需要进行相应的调整与变革。
据统计,金融机构对内部可用信息的使用率仅为34%,还仅限于一些客户基本信息和交易数据。除此之外,还有许多可以利用的数据,有助金融机构提升业务价值,包括:移动银行业务用户的定位数据、社交媒体互动信息、网上搜索行为等。大数据在金融机构客户细分、精准营销、风险管理方面有重大发挥潜力。利用不同维度的数据,进行立体的、多维度的画像,进而更为精准、动态的衡量客户信贷风险。
目前小微融资领域还是以线下融资为主,主要三种模式是银行信贷工厂模式、单人全流程模式、扫街速贷模式,但是最大的缺陷是人力资本较高。然而大数据模式,可以通过对内外部广泛数据源的收集和分析,构建应用模型,大大提升风险准入、审批、定价和监控的自动化程度。识别通常的违约模式,再结合交易和业务活动,就可以开发针对中小企业客户的复杂算法。
【现场实录】
今天中国大数据的时代正在到来,比如7亿用户,3.5亿的微信用户等等,最关键我们看到有8亿的智能连接装置,这些都使得数据作为一项基础设施,作为一项资源,成为了可能。中国的用户相较于欧美来讲,对个人信息来讲更愿意分享,这是我们2014年最近完成的一份调研。问如果我给你一个个性化的产品,你是否愿意分享你的数据。93%的客户会说“我愿意”。如果我给你降价,90%的客户是愿意分享这样的数据。
数据的种类多种多样,百分之六十几的合乎愿意分享家庭类传感器的数据、病例上的数据、汽车传感器上的数据等等。可以看出来中国的用户其实对数据相对于欧美人更愿意分享。这就给我们带来一些机会,有了这样的数据,就会让我们的微金融有一些发展。今天大家在讨论大数据的时候,很多都是在技术层面上,比如说大数据、小数据、快数据、慢数据。但我们觉得大数据的出发点和根源,着眼点、落脚点始终在于价值是否能够为微金融,为其它的商业模式带来价值。
举个例子,像银行的数据并不少,每100万美元收入里,银行业会创造和使用的数据大概是820个,多于其它行业。可是银行在数据的应用上、创造价值上,却是不多的。这是我们一个真实的例子,可用的数据如果是百分之百,大概银行只会收集80%的数据。去到一些质量不好的,可用的大概占到70%,最后真正能够用数据创造价值,大概只占34%。这些都是说有了这样的数据,可是没有应用好,没有带来一些价值。
大数据其实在整个金融机构的价值链上还是很有应用潜在价值。从场景上来讲,比如说像客户细分、精准营销、定价、增值服务、风险管理这几个领域,大数据都有非常好的应用领域。尤其像风险管理上,包括确定违约模式、完善评分、催收、检测以及异常情况的检测等等,这些大数据都能发挥很好的作用。
举个例子,美国一家公司收集纽约所有电梯运行的数据,通过电梯在一个楼层内是否停留的次数的多少,判断这个楼层内这些小企业生意的好坏,以及可能会出现风险的情况。这就是一个可能应用的场景。在这些应用场景上其实都有很多例子。
有了大数据,有了应用场景,可是为什么我们的小微企业目前还是融资难、融资贵?还有很多模式并没有被充分挖掘出来。如果银行体系给小微企业的融资大概提供了12%,银行加上类金融,包括租赁、保险、P2P大概加起来是20%。调研普遍反映时间长、抵押物不充分、没有财务报表、成本较高。之所以出现这些问题,主要是目前小微金融的模式还是以线下为主体。目前在小微领域上主要的三种模式,信贷工厂模式、IPC模式、扫街模式。IPC模式,单人全流程,基本上能够把单笔的授信模式降到100万到200万之间。第三种扫街模式,基本上属于设置较高的定价来覆盖,主要是属于信用模式。这三个模式都有一个特点,基本上都是人力耗费比较大、成本比较高、难以规模化推广。这是目前我们看到的主要的几种模式。
大数据多样化的数据来源,为构建小微体系成功可能。包括社交数据、物流数据、支付数据、交易平台的数据、点评的数据,都可以极大地丰富我们对于风险的准入、评估、定价以及监控、效率。
大数据跟传统风控的差别比较大,包括数据的维度、格式、来源、分析方法都存在比较大的差别。传统我们做风险评估的时候主要是基于评分塔,最主要依赖企业的财务数据和金融体系的信贷数据。逻辑回归,找出主要的因子变量是一个主要的方法。主要是依靠比较好的变量个数,但是要求变量数据非常精准。大数据主要应用的是网络和一些非金融征信的数据,包括结构化的数据,也包括非结构化的数据。包括主要采用机器学习,不断总结这些数据之间的内在关系,变量有几千万个。这些变量里收集数据的质量可以不准确,可以千差万别。当有几千到一万个数据的时候,一个完整、精确的对一个客户的描述就会呈现出来。
这是一个“饿了么”的网站,对小餐馆是一个非常好的信用评价,这些小餐馆并没有什么固定资产和财务报表,但是这里有对它的整体评价,对它客流量的评价,对它质量的评价,对它未来一段时间内整个生意的经营好坏,都会有些预测。基于这样的数据,其实就可以对一个餐馆做出一定程度上的风险判断。
我们也看到一些公司在利用多维的动态数据对人进行360度的描绘。传统方式上,我们在金融机构理解一个客户,这个客户的身份、经济实力、财务状况、违约历史,这是我们主要要看的。但是如果我们通过把互联网上的数据抓到一起,就会更生动地刻画出这个人的基础信息、社交信息、基础爱好、生活习惯、消费习惯等等,会为整个大数据体系下的征信和风险评估奠定一个很好的基础。
一些公司在这方面已经做出了一些实践,包括ZestFinance,前两天它的CEO也来中国做了演讲。它主要收集第三方的数据、用户的数据以及互联网的数据。它通过这些数据把一个人大概能有一千到一万以上的描述,通过这些细节的数据,可以很生动、很立体地描绘出一个人。有一句话讲得蛮有意思:没有数据本身也是一种信息。当一个人要收集一万项,这个人只能提供一千项,缺九千项,这个人本身就能提供很好的信息。这在美国算是比较成功的一个利用大数据做风险评估的公司,但是它的数据最大程度上其实依靠的主要是第三方的数据,包括搬家、法律、电话、联系、水电,对社交数据运用得并不多。
SCOR的例子,一般来讲银行如果一个客户做一个评价的时候,银行会使用三大征信的信息,SCOR的信息作为最后补充。SCOR会收集你在facebook、twitter上的数据,作为银行发放信用的一个补充性的信息。、Kabbage这是纯做网络信贷的企业。美国的很多商家其实是多平台上做操作,有的是在Ebay、雅虎等几个电商平台上,单个平台上交易量的信息都不能保证他们获得很好的授信,Kabbage会把不同平台上的数据,物流的数据、社交平台的数据整合在一起,提供一个更加全面的图谱,提供整个风险和评价。
还有像欧洲的银行,应用的会相对保守一些,但是他们也正在用很多大数据的理念完善他们的风控体系。比如这是西班牙第二大银行,通过违约跟不同变量之间的关系做大量的运算,找出来关键的变量。比如说一个小的企业在多个地方的运营,违约率是会比较高的。一个小的企业用信用卡的交易量是比较多的,可靠性也会比较多。通过大量回归性的学习,不断找出违约关键的变量。
中国的拍拍贷这样的公司,也开始这样的探索和尝试。
用大数据解决小微金融的问题,有几个方面是非常关键的,包括数据的使用、数据的计算以及生态系统。其中我们重点强调有三点:第一,中国是比较急需一个对于消费者数据保护的法规。如果双方有契约,使用消费者的数据会有更大范围以及更加可靠的来源,建立互信。第二,很多金融机构包括互联网金融企业在数据的获取管理和解读上非常缺乏人才,尤其缺乏既懂得业务又懂得技术的数据科学家。第三,中国目前整个互联网的发展其实蛮有活力,应该说全球最有活力,但是对于整个数据生态系统的描述不是很全面。像我们在一些国家帮助绘制的描述整个数据生态系统,包括营销用的数据生态系统、风控用的数据生态系统,我们在中国还没有看到完整的图谱,这是比较需要的。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09