
互联网+大数据等于大数据征信
近年来,借助互联网,大数据的概念浮现市场。进一步,人们在互联网大数据的基础上,尝试开展征信活动,并时有人声称取得新的成功。从目前实践情况来看,互联网大数据征信的现状,犹如站在丛林上面看地下茫茫的市场,找不到路!
这里的关键是有些核心问题还未找到解。
从数据来源渠道看。目前,一些互联网企业的所谓大数据,大体来自五个方面。一是信用交易数据。个别银行机构和人人贷(P2P)等类金融机构,在管理上实行数据服务外包,将所谓“脱敏”后的客户信用数据,如信用卡和个人零售信贷业务,外包给自认定的IT企业,以帮助其针对特定人群开发特定产品。据市场上最有影响的互联网大数据企业介绍,这类数据在其总数据量中的占比不到10%。
二是商品和服务交易数据以及行为数据。一些电商、金融、娱乐、旅游等企业,以及水、电、气、话、教育、医疗等公用服务机构,利用自有的工作机制和网络平台,收集本机构留存的客户买卖商品和享受服务中的身份信息、业务信息和社交行为信息,并对这些数据进行有序加工整理,形成数据库。由于不同企业和服务机构处于竞争状态,彼此力争形成自己所谓的“闭环”,提供他人分享的内在动力不足,所以这类信息也主要是企业和服务机构自身的客户信息。这类信息在一些互联网大数据企业中所占的比重也不到10%。
三是收集公开数据。主要是政府公开信息和公共服务信息,特别是有关企业和个人的注册登记信息和电话黄页上的信息。根据政府信息公开要求,一些政府部门及其直属机构,将企业和个人的注册登记信息以及城市电话薄上的黄页信息(大多电子化)统一汇集后,对外提供查询服务。一些互联网企业甚至通过批量下载方式,通过上述渠道掌握了大量的企业和个人的身份及通讯联系信息。这类信息约占其信息量的30%。
四是通过非常渠道窃购数据。目前能够生成企业和个人信息的机制,除了上述的企业和服务机构生成的客户信息外,主要是行政司法机关掌握的企业和个人在接受行政管理、履行法定义务过程中形成的信息。由于生成和掌控信息的渠道与部门众多,有私权的市场主体,也有公权的政府机构,所以在实践中,由于主观和客观原因,一些不法分子内外勾结,倒卖盗买数据牟利,就成为可能。当前坊间谈论的数据黑色产业链,大体属于这种情况。在所谓的互联网大数据中,这类数据的占比很难判断,也无人承认,但确实存在,估计占比约在20%。
五是通过技术手段爬取数据。对于一些互联网企业来讲,彼此之间通过爬虫技术爬取数据,似乎已成常规,彼此心照不宣,互不言偷。在这里比的不是行为规范,而是技术水平。这是许多互联网大数据企业的数据获取之道。这类数据占比约在30%,有些企业的占比甚至更高。
由上可见,互联网企业大数据的形成渠道非常复杂。有少量从市场采集的,有大量从政府公开信息中获取的;有少量市场交易信息,有大量社交行为信息;有少量从正规渠道获取的,有大量从非常渠道获取的;有少量标准数据,有大量非标准数据;有少量普通数据,有大量敏感数据;有少量脱敏数据,有大量非脱敏数据;有少量当事人被告之授权采集的数据,有大量当事人未被告知未授权被采集的数据;有少量来源渠道清晰的数据,有大量来源渠道不明的数据;有少量按明示规则采集的数据,有大量通过营销优惠诱报采集的数据。而且,每一个互联网企业为了自己的所谓大数据,采集数据的基本规则是有数即要,不怕多。这样,大数据几乎成为大垃圾,坊间更有“垃圾进,垃圾出”的说法。由于数据来源渠道复杂,大量信息采集未经当事人同意授权,所以在目前互联网大数据的形成上,普遍存在信息来源不可追溯、不可异议、不可纠错,当事人在无意识下信息“被采集”,这严重侵害信息主体的隐私和财产权益,与国家发布的《征信业管理条例》规定的信息主体同意权和纠错权严重相悖,致使大数据的合法性和公信力严重缺失!
从数据使用情况看。从目前接触到的有影响的互联网大数据企业运行情况看,其数据使用无一例外地是通过客户分群向数据需求方或数据使用者进行营销推介。这种客户分群的方式大多是评分,评分几乎是互联网大数据企业的主打产品。据介绍,一些互联网企业利用非负债数据,主要是行为信息和社交信息,能判断一个人居住环境的好坏,收入的高低,工作单位重要与否,朋友圈社会地位高低,本人消费倾向奢与俭,生活的贫与富,以及本人爱好的善与恶等等,根据这些不同数据维度的权重,汇总得出相应的分数,来直观地对每个人进行“画像”。个人居住环境好的,收入高的,所交朋友社会地位高的,消费偏向大手笔一幅富人派头的,本人爱好“高大上”的,所得的分数就高。反之则反是。
这种评分画像,从市场组织营销的角度来说,无可厚非。但从征信的角度评估,这种客户分群不仅政治上不正确,而且难以保证信息主体的公平一致性,它绘出的将是一幅比真容更美或更丑但却不太像的肖像。道理很简单,在现实生活中,富人有崇尚节俭的,穷人有要面子贪奢华的,上层领导有与草根百姓打成一片的,上述每一个划分维度的科学性都经不起逆向的理性拷问。
进一步,从数据使用看,来自不同渠道的维度数据汇聚一起,加工成不同的分数,在分散数据变成一个分数的过程中,任何一个互联网企业,不仅没有,而且也难以做到一一取得信息主体的同意授权。大量数据的应用,没有依《征信业管理条例》取得信息主体的任何同意授权,而且抓住人性贪利的弱点进行营销,实属信息滥用。当前人们疾恶征信市场混乱,期盼征信市场健康发展,对互联网企业进行的所谓大数据征信,须依法进行规范。若仍任其自发发展,则就像莫里哀剧中的医生所断言,病人不按规则,就不能痊愈。应警惕互联网大数据行业出现“e租宝现象”!
从数据运用效果看。现在,全国声称自己为互联网大数据的企业到底有多少家,其中又有多少家与征信挂钩,很难说清楚。但一个不争的事实是,互联网大数据企业之间,以邻为壑,互相防范,每一个都想形成所谓的“闭环”成为行业老大,互联网大数据企业从信息共享的愿望出发,有效地实施了信息的分割,形成有限的几个信息孤岛,这与征信解决信息不对称问题的初衷相悖,与建立覆盖全社会的征信系统的目标相悖。之所以如此,是因为人们的想象力预先就沉浸在所谓的“征信蓝海”即将来临的闻所未闻的巨大预期收益中。认为征信是一个可获利巨丰的行业,进而把征信作为资本市场的一个概念或噱头加以想象和利用,这是对征信的极大误解和误用。
我国将互联网大数据应用于征信的实践尚处于探索之中,对这种探索的效果,除了从业人士的一些概念化的预期外,目前缺乏理论和实证的评估。实际上,在互联网大数据的“故乡”美国,人们早就在探索互联网大数据与征信的内在联系。在我国,人们动辄以美国征信体系为模板或参照系来讨论我国征信体系的发展问题,那么,当前美国征信业对互联网大数据与征信的关系是怎样看待的呢?据世界银行和美国的征信专家介绍,美英征信机构均认为,互联网大数据在征信服务中须慎用,可以作为参考数据来源,但对传统征信数据无法形成替代,也无法发挥传统征信数据的功能。根据美国一些数据服务商(Data Broker)的服务实践,即通过金融科技创新,帮助越来越多的贷款人尝试摆脱传统的信用评估方式,寻找新的方式来评估没有传统信用记录的潜在客户。例如,利用脸书(Facebook)中的联系人,查看当事人受教育的程度等。对此,美联储作为重要的监管机构,警告金融科技公司,使用诸如社交媒体信息等非传统数据来判断信贷价值,存在着风险,因为这种判断方式有可能会导致他们触犯与公平贷款相关的法律。美联储总监拉尔·布雷纳德(Lael Brainard)指出,这些社交数据和信贷价值之间,还没有建立起普遍认同和实际的联系,而这些数据有可能与公平贷款法所保护的一些特征相关;使用新型数据还存在透明度的问题,因为个人甚至监管机构都不可能永远知道如何使用具体的信息来做决定,也不清楚人们会如何通过调整自身行为来调整信用状态以及定价。因此,随着银行与数据公司之间合作关系的增多,美联储正在积极审查数据供应商风险管理问题。
从数据营运模式看。目前,互联网大数据企业的营运模式离定型还有很大的差距。与此相关的问题也值得认真思考。科技领域有一种流行的说法,即发展速度越快,所造成的破坏也就越大。减少破坏,加快发展,是我们由衷的追求。这样,我们不得不拷问下列问题:
其一,互联网大数据的营运模式或业务形态,到底是随机所遇好还是基本稳定好?随机所遇是指想怎么干就怎么干,碰到什么数据就收集什么数据,谁需要什么数据就卖给谁什么数据,即前述的“垃圾进、垃圾出”,只要有利可图就行。当前坊间盛传的数据黑市和所谓的信息服务“劣币驱逐良币”的现象,大体属于这种情况。基本稳定是指互联网企业在大数据的集合结构、数据采集的渠道、数据产品的研发和数据使用的服务等方面,有基本稳定的业务规则和操守准则。但目前鲜见这种业务模式基本定型的互联网大数据企业。
其二,互联网大数据中的数据,要不要标准化?从原理上推断,互联网大数据应该是有利于信息共享的,因为解决信息不对称问题,是市场交易成功与否的前提和基础。这为互联网大数据的存在提供了内在的动力。但是,信息共享的前提是数据标准化,集合不同渠道不同性质的数据,若不以标准化为规则,则数据的可加性和可比性就得不到保障,在这种情况下的信息共享,可靠性和可信性就无法保证。结果只能是张冠李戴、以偏概全、以讹传讹。我国目前的互联网大数据企业,基本是各居“山头”,各自为战,数据的标准化远未提上内控管理日程,亦或远未到进行数据标准化的阶段,这严重影响大数据的质量。
其三,互联网大数据是大集中好还是大分散好?我国现阶段互联网企业众多,许多都以大数据为目标。数据规模无论多大,都分属不同的互联网公司或数据公司,不同互联网公司的数据不能聚合,数据的分散存在与大数据的理念和功能似乎并不齿合。若不同的互联网企业能以大数据为共同的理念进行整合,则有可能形成一个或少数几个互联网巨型企业整合不同企业的数据模块,并形成真正意义上的互联网大数据。但这种假设是否有理,是否能为相关方接受,是否能变为现实,现在似乎还看不到这样的苗头。
进一步,若大数据并不意味着数据大集中,则数据大分散能构成大数据吗?从理论上分析,只有一个条件能满足这种需求,即通过统一的数据目录和数据格式来方便数据共享。否则,在这种情况下,就根本不存在所谓的大数据。
上述对互联网大数据现行业态的悲观看法,是否就意味着互联网大数据的发展没有希望呢?答案是否定的。互联网大数据企业只要具备以下三个条件,其发展潜力还是巨大的。
一是正当。互联网大数据企业在本质上,是一个信息科技+信息中介机构,它本身不直接参与商品和服务交易。这就要求其信息来源渠道和信息使用渠道具有正当性,不能通过非常途径获取数据,不能以承诺或特定目的加工使用数据,以数据服务的中立性来保证其正当性。否则,数据歧视会带来产品的歧视,进而会毁掉大数据的基本功能。
二是透明。互联网大数据企业的行为规则和大数据业务模型假设必须公开透明,且能为公众认知和监督。互联网大数据企业不能依靠互联网科技的概念,外加自身和别人都未搞懂的所谓大数据概念,来神化和泛化大数据功能,进而打造一个别人不懂、只有自己懂、功能似乎普惠、自诩无可替代、举世仰望的佼佼者。阳光是最好的消毒剂,透明是防欺诈的法宝!
三是兼容。互联网大数据有数据大集中的内在属性,但将互联网大数据全部集中在一个超级的互联网企业手中,似乎也不现实。根据互联网大数据的功能属性,在理论上应有不同的互联网企业参与大数据服务,且这些互联网企业之间,应可兼容、可共享。若这个立论成立,则当前一些互联网大数据企业则应进行资源整合。想自己单干,并企求一家独大,如前述,似乎不现实。
若互联网大数据企业同时具备上述正当性、透明性和兼容性三条件,则其与征信挂钩还有市场基础和法理基础。反之则反是。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29