京公网安备 11010802034615号
经营许可证编号:京B2-20210330
搞互联网金融的,少点大数据忽悠吧_数据分析师
副标题:大数据迷思和对线下操作的批评反映的是一种片面技术倾向
对于互联网金融,互联网行业和传统金融行业的观点往往大不相同,前者认为互联网是重点,金融不过是下一个即将被颠覆的特定行业而已,只是由于金融行业的高门槛和严监管,颠覆进程会比较曲折;后者则认为金融有自己完全不同的逻辑,信用和风险是难以逾越的门槛,护城河高筑,互联网金融只能在互联网企业的一亩三分地里自娱自乐。
但是对于大数据,二者却难得的表现出空前一致。在10月30日召开的IFC1000全球金融峰会上,金融人士异口同声宣称大数据是互联网金融的最大亮点,因为大数据在解决金融核心问题——信评和风控——上拥有传统方法所不具备的显著优势和光明前景,是金融业“真正”互联网化的必由之路。而随后粉墨登场的互联网人士(多为P2P借贷从业者和网络征信从业者)亦纷纷发表演讲,介绍了自己在大数据审贷与信评方面的切身体验。一时间,星座与IP齐飞,表单共图谱一色。
听得笔者终于——睡着了。
出现这种惊人的一致毫不奇怪,因为本次会议的主题就是“大金融 大数据 大战略”,中心思想明确,“大数据”是出现在所有嘉宾发言中的关键词。但是,到底大数据在当前的互联网金融中应处于何种地位,笔者认为颇存在可供探讨之处。
任何对数据领域有一定了解的人都知道,大数据不是一个新鲜概念,它曾经被披上各种各样的外衣,有过各种各样的梦想。从最早沃尔玛啤酒与尿片的故事,到最近的精准营销和无人驾驶,数据分析确实存在成功应用的案例,并日益融入日常生活与商业决策。但是数据统计与分析不同于大数据,甚至数据挖掘都与大数据鼓吹者的理想相差甚远。而在当前的主流互联网金融应用(例如P2P借贷、众筹和供应链金融、渠道金融)中,大数据并非多重要的因素,应用时机也未必成熟。
数据源于对现象与行为的离散采样,是客观世界的数字化投射,这一投射是否准确取决于我们搜集、获取、整理数据的方式、频率与维度。能否从数据中发现未知的、有价值的信息与规律,并非取决于数据本身和算法,更多取决于“人”,取决于“人”对现象与行为的认识,以及把认识叠加于数据的采集与分析之上获得的数据洞察。绝大多数的算法和模型只是结果,是人的认识与洞察的形式化表现。
计算能力和智能技术的发展,为人们提供了更好的数据整理与分析工具。大数据的4个V(或者5个V)突出了数据处理难度的增加,即使它们天然蕴含有更有价值的信息,却不意味着信息获取成本的降低,更不意味着(在当前数据获取与处理能力的制约下)数据就是一切。而无论P2P借贷数据,还是网络征信数据,很难相信它们的体量能有多大,变化速度能有多快,从而能够沾上理论界所谓大数据的边,进而需要动用大数据的技术与手段。
毋庸置疑,金融行业天生拥有大数据,天然拥有优化大数据处理、进而降低信评与风控成本的动机。在利润最大化的追求下,大数据处理属于传统金融行业的内在创新动力,如果解决这一问题的时机成熟、成本宜人,他们自己就会猛扑上去,根本用不着互联网企业代劳(收购一家数据处理公司就够了)。传统金融行业对于大数据的期盼,更多在于社交网络、电商数据与金融数据的融合。这他们不是在忽悠,而是充分认识到问题难度和数据资源局限之后,所提出的一个联合攻关主张,这本身即说明大数据的有效处理不是一朝一夕的事情。对于传统金融行业,这一主张务实而合理,但是暂时而言,它并不是绝大多数互联网金融企业的菜。
大部分的互联网金融企业目前体量尚小(唯一的例外是阿里),用户规模和交易额都不大,缺乏大数据基础,亦无力承担大数据的基础设施和处理成本,更重要的是并没有大数据的迫切需求。以P2P借贷行业为例,无论是依赖网络审核还是线下审核,信贷员的经验和尽职程度都远比大数据重要,成本也更节省。目前P2P行业的O2O趋势更说明了,在中国特定的信用和数据环境下,线下工作的重要性远远超过单纯的数据分析。依据数据积累,加入一些星座、IP、社交图谱之类的新料确实可能会对风险控制有帮助,但其作用的发挥仍应基于及时互动,即根据这些数据对借款人进行初步筛选、考察和回访,而不是迷信数据,因为这些数据的完整性、真实性和一致性在当前的数据环境下并不容易保证。
有评论者认为,P2P行业日益线下化,破坏了依靠互联网和数据处理有效应对借贷风险的发展趋势,是开行业的倒车,说明互联网金融日益平庸且了无新意。这种观点与大数据忽悠陷入同一逻辑陷阱:过于迷信互联网金融的“核心”技术特质,而忽视了技术的多样化表现与互联网金融创新的外部动力。
首先,互联网金融依赖于互联网技术,但是彻底解决所谓核心问题(信评与风控)未必是首要目标。仍以P2P借贷为例,它的优点包括借贷渠道的扩大、参与人群的增加和借贷效率的提高。在传统金融无法、不愿覆盖的金融市场,P2P借贷承担着填补市场空白、普及金融服务的作用,它首先要解决的是特定群体金融服务的有无问题。如同余额宝之于屌丝理财,它并未也暂时没必要解决货币基金自身的问题。
其次,互联网金融提供了更为多样化的金融服务主体,阿里小贷对自身生态圈的用户放款,众筹为创业者提供了宽松的资金环境,智能理财使得低净值客户不用花费昂贵的理财顾问费用。资金融通成本的降低或许来自于风控成本的降低,或许来自渠道费用的节约,不一而足。根据帕累托改进,只要互联网金融在未导致金融行业整体状态变坏的情况下改善了一些人的金融状况,它就走在正确的道路上。
第三,新行业对于旧行业的颠覆,从来都不一定表现为直接解决核心问题。互联网教育能直接解决教育质量低下的问题吗?电子商务能直接解决销售问题吗?社会化媒体能直接解决媒体内容的高质量生产问题吗?答案均是不能!但是它们依然获得了空前成功。它们改变的,只是行业的逻辑;它们实现的是,只是让行业回归本质。在此基础之上,用户体验提升、行业资源重组,核心问题竟然开始悄然改善。
在线旅游企业携程的发展史可谓典型案例——10年前,携程大力发展线下渠道,在机场、火车站、酒店铺天盖地的派业务员撒名片,被指以互联网企业之名行线下机构之实,却获得充足发展。当时的互联网环境决定了类似企业不可能只靠互联网生存,线上线下相结合才是王道。10年后,携程却因线下组织过于庞大而成为进一步发展的累赘。这一案例充分说明:名实之辩毫无必要,关键是要在对的时间做对的事。
而目前的互联网金融,正如10年前的在线旅游业,想以直接解决核心问题的方式实现短期的爆发性颠覆并不现实,对于传统金融机构的评论(例如互联网金融只能是补充、互联网金融对银行的冲击有限之类)亦不必挂怀。仰望星空、玩转大数据,那是以后的事情,不必是首选项;脚踏实地,把自己的细分市场开拓足,把细分用户维持好,把必要的数据记录好,在控制整体风险与成本的情况下,利用互联网技术与思维在空白市场、新兴市场中服务于尽可能多的人群,才是当前最重要的事情。
经过未来几年的发展,当星星之火开始燎原,信评和风控真正成为传统金融行业核心竞争力的时候,互联网金融可能才会需要共同直面大数据问题——当然,那时再不面对就真的就晚了。
总之,大数据迷思和对线下操作的批评反映的是一种片面技术倾向,过重的技术视角只会抹杀互联网金融在交易主体、交易渠道、用户体验、普惠思维方面的巨大优势与革新价值。当前的互联网金融企业向别人忽悠下大数据未尝不可——只是,千万不要把自己也忽悠进去了。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09