京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代,你是否拥有“文科思维”
最近,我所在的团队为一家车贷公司搭建了一套信审数据模型,该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款,决定是否通过用户的贷款申请。
相比人工信审,模型预测是全自动的机器过程,在保证判断准确率的前提下,它能为公司节省大量的人力成本。
项目在客户的工作地点开展,我们的工位处于一个信审专区,周围是大量的信审工作人员,他们每天的工作是审核贷款申请者的资料,联系申请者核实信息,工作间隙,我们总能听到有趣的对话:
信审员:“你有几个儿子?”
贷款申请者:“三个。”
信审员:“刚刚打电话给你老婆,她说你们只有两个儿子,这是怎么回事?”
贷款申请者身旁传来窃窃私语……
信审员:“你旁边的人是谁啊?你有几个儿子还需要别人来提醒你?”
……
对话进行到这里时,信审人员会在系统内记录下该申请者和配偶提供的信息不一致,存在可能的骗贷行为,这将成为该申请者能否被成功授信的“减分项”。
虽然目的均为实现快速、准确的信贷审核,但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字,而业务人员面对的是鲜活的申请者。
数据分析出发点所有客户的申请资料,包括此人性别、年龄、资产情况等基本信息,以及一些来自第三方平台的风险数据(如该申请者有无犯罪记录),简单地说,我们工作的出发点是一张Excel表格。
反观另一面,信贷审核人员在处理每笔信贷业务时,他们除了面对每个申请者的具体信息,还会通过电话核实申请者的身份,最终作出人工决策。
数据表格是分析师们每天的工作伙伴
初入数据行业时,我以为只要玩转手中各种复杂的表格,写一手漂亮的建模代码,从透视表中找到有趣的发现,就足以成就一个让客户满意的项目。
然而,老板在入职第一天就语重心长地告诉我:“大数据是有局限性的,它无法替代你对真实业务的体会,这也是我们为何要驻场工作。”
在客户的呼叫中心驻场1个多月后,我似乎明白了老板挂在嘴边的这种“体会”。
大数据是我们认识世界的一种方式,它将关于你的一切量化为很多数据标签,然后将它们存储在表格里,比如你的性别是男性,今天打车回家花了30元,周末玩了两小时王者荣耀。
大数据的优势很明显,它具有一个对所有人通用的结构,每个用户这些维度的数据都会被记录在表格中,淘宝知道每个用户的双11消费能力,今日头条对你感兴趣的新闻了如指掌,信贷公司记载了你过往的信用记录。
然而,大数据的不足之处在于,它仅仅是对世界的一个切片,对于切片之外的事物一无所知。
面试官面试新员工时,首先会查看申请者的简历,简历上的教育背景、工作经验、语言能力是以固定结构记录的数据,然而申请者在面试中给予面试官的感受,比如她是气场强大的女神还是平易近人的萌妹子,大数据则无法给予答案。
在最近的项目中,我们通过数据发现那些教育程度较高的贷款申请者更容易在未来逾期还款,这听上去有些违背常理,然而精通业务的经理告诉我们这是合理的现象,那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为,然而对理解申请者的行为至关重要。
金融大鳄乔治·索罗斯的团队在做出重要投资决策时,他们不仅仅关注能被写进表格的金融数据,同时亲自前往欧洲各地,在当地的酒吧与人们聊天,了解未来可能的宏观政策变化,索罗斯甚至依赖自己的背痛预判可能的风险。这些无法被标准地量化,甚至听上去有些荒谬的决策标准却成就了他们在1992年9月的“黑色星期三”狙击英镑,几周内赚取11亿美元的空前收益。
咨询顾问Christian Madsbjerg的《意会:算法时代人文科学的力量》一书是本文的主要参考书目,该书目前暂无中文版
通常,我们可以把人类认识世界的途径分为两种:
一种是如今家喻户晓的大数据;
另一种则是一直长久存在,却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片,厚数据则是我们在每个独特场景的深度感知。
简历上的文字是大数据,而面试官对申请者的感觉是厚数据;表格中教育程度一列等于“大学”是大数据,而填写者在背后的伪装是厚数据;股票、汇率的历史走势是大数据,而酒吧人们的闲聊和索罗斯的背痛是厚数据。
大数据的不足之处在于它缺乏厚数据携带的场景。存在主义哲学家海德格尔(Martin Heidegger)提出了“存在”(being)这一概念,它指的是世间万物存在的场景(context),我们对于任何事物的理解都不能将其孤立为一个元素,而是应考虑这个元素所处的具体场景,以及它与其它元素的相互关系。
海德格尔等人在他们的现象学(phenomenology)中对这个概念进行了更详细的阐释,现象学的目的在于描述事物真实存在的方式,而不是我们觉得他们应该存在的方式,而事物“真实存在的方式”必然离不开它所处的场景,而不是像大数据那样对现实进行标准化的切片。
需要注意的是,现象学中的“真实存在”,并不是指这件事必须在客观上是正确的,比如“世界上只有男和女两种性别”,而是当我们在某一场景下听到一个现象学的描述,被问及“你觉得是这样吗?”时,我们会点头表示同意。
同样的一杯红酒,在点亮烛光的法国餐厅与嘈杂的办公桌前饮用,注定是不一样的感受,虽然它们的化学质地是相同的。
同样是一个小时,在思修课堂和情人坡度过,必然是不同的长度,虽然它们的自然属性没有差异。
两名被数据标记有存在犯罪记录的贷款申请者,虽然数据将它们一视同仁,然而一位只是过失的交通肇事,另一位则有抢劫银行的前科,他们在未来的还款能力或许大相径庭。
身为数据工作者,当然希望数据和算法能尽可能多地代替人类的工作,但正如我们在项目中看到的,现实并非如此,仅仅面对数据和算法并无法洞察每个申请者所处的独特场景。机器学习与人类决策是相互补充,而非相互替代的关系。
这也是为什么,数据分析师们一定要驻场工作,因为只有像信审专员那样身处业务前线,才能对那些贷款的申请者形成更加深刻的体会。
之所以与大家分享场景、厚数据、现象学这些概念,是因为在这个大数据概念传遍街头巷尾的时代,我们极易选择用简单的数据标签衡量一切:
选择去哪家餐馆,只看大众点评的总体评分,并不在意网友的大段评论。
决定在哪里读大学,先看学校的综合及专业排名,不在乎学长学姐们分享的体会。
想了解用户对产品的满意度,只要求1000人在问卷上打分,不会深度访谈用户使用产品时的具体想法和感受。
后者事实上代表了一种以现象学为基础的“文科思维”,即我们只关注每个独特场景下的主观体验,不会尝试将许多场景标准化,然后贴上统一的数据标签。
研究文科思维的专家Christian Madsbjerg认为文科思维是培养我们对外界的敏感度的重要途径,所谓的敏感度,指的是我们察觉事物间微妙差别的能力。正如两杯红酒,在不同地点的1小时,两名数据画像相同的申请者,辨别它们之间的差异需要的正是文科思维。
Madsbjerg指出学习诸如艺术、历史、哲学、社会学、人类学这些人文学科是培养文科思维的重要手段。因为这些学科中存在大量基于具体场景的思考和感知,比如艺术课教你欣赏达芬奇的作品,社会学家擅长消费者深度访谈,人类学家喜欢实地观察原始部落等,它们不会教你如何将世界编码成一张数据表格,却能培养你洞察世间微妙区别的能力。
前段时间看了《看不见的客人》,这是一部悬疑剧,剧情围绕一名成功的银行家与一名女律师之间的对话展开,女律师试图帮助银行家摆脱杀人的罪名,但殊不知她就是杀人案中被害者的母亲。
《看不见的客人》中的女律师
与我一起看电影的小闷同学在女律师出场时脱口而出:“我感觉这个律师就是他妈妈。”她的感觉惊人的准确。
电影结束我问小闷,她是如何做出这样的判断的,小闷说律师的面部表情看上去很奇怪,不像一名提供专业服务的人,这显然不是机器学习算法所能实现的。
今天的内容或许能给小闷对外界的敏感提供解释:她是一名文科生,而且很喜欢看电影。
最后,与你分享一个关于文科生的好消息。薪酬调研公司PayScale曾做过一项调查,在薪酬排名前20的毕业生专业中,计算机工程、化学工程这样的理工类专业长期占榜,而社会学、历史学这样的人文学科则十分罕见。
这听上去符合我们的直觉,但如果我们观察那些收入排在前10%的人,具有政治科学、哲学、戏剧、历史背景的专业人士则会脱颖而出,宝洁前CEO雷富礼曾对实现商业成功单单提出一条建议:取得一个文科(或称“自由技艺”)学位(pursue a degree in liberal arts)。
这样的建议无疑是有道理的,毕竟,真实的世界不是电子表格。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10