京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据之于教育之大机遇与大挑战
大数据概念一提出就得到了学术界、政府、企业以及社会的普遍重视,在全球范围内掀起了大数据管理与应用的热潮。在此背景下,贵州省政府创建了中国首个国家级大数据发展集聚区——贵阳·贵安大数据产业发展集聚区,将大数据产业作为破解发展瓶颈、实现后发赶超的战略选择,调整优化全省的产业结构、推动大数据在重点行业领域深度应用,培育大数据产业链和骨干企业,同时也为全国其他地区和各行业领域发展大数据提供有益的尝试和探索。为保证上述目标的实现,大数据的应用是首当其冲的关键,而应用大数据为风险管理服务则是一个极具重要意义的大数据应用领域。
企业在经济环境下生存、在市场环境中竞争,面临着诸多不确定性;这些不确定性给企业的经营管理带来了极大的风险。为了及时识别这些风险并进行有效的管控,需要对各种数据进行分析,从中发现企业经营中的策略失误和执行缺陷。传统的风险识别方法主要是通过对财务数据或者财务报表数据的分析来展开的,然而由于财务数据的滞后性、统计口径形成的失真,以及频发的财务粉饰或财务欺诈,造成了仅仅用财务数据来识别分析企业经营风险的局限性。为克服上述缺点,发展利用大数据来进行风险识别与管理则是一条非常诱人并且实践证明具有现实意义的路径,这也是大数据应用的一个重要方面。
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。应用大数据来识别企业的经营风险就是要从全社会各个渠道将与企业经营相关的全方位信息进行采集、整合、处理,通过特定的风险识别模型(机理模型、统计模型、规则模型等)辨识风险,从而采取有效的风险应对。目前金融业是应用大数据为风险管理服务的主要行业;工商企业也开始应用大数据来管理交易对手的应收账款风险或信用风险、股权投资风险、板块或资产配置风险等。服务于风险管理的大数据主要来源于企业、工商局、市场交易信息、公检法关于经济案件的信息以及表征企业经营属性的其他信息,通过对这些大数据的统计分析构建了识别风险、应对风险的新型风险管理工具。
目前在风险管理过程中已使用的大数据
应用大数据服务于风险管理,就是通过采集各种类型的、可以从不同侧面反映企业或个体工商户经营状态、经营品质和经营能力的数据,通过对数据的存储、整理与整合、统计以及经过风险辨识模型的加工处理,来进行风险揭示或风险预警,达成有效的风险管理。下面我们来分别论述可以用于风险管理的各类“大数据”。
1工商数据
所谓工商数据是指来自于工商局的企业注册信息以及后续的变更信息,主要反映了企业的性质、经营范围以及股东或控制人的状况。这其中非常有价值的是股东数据,通过识别股东在多家企业的控股状况,当其中某一家企业出现风险时,有可能传递到或殃及到其控制的其他企业。另外,通过股东的关联控股企业的监测与分析,也可以发现其中负面的或形成财务粉饰的关联交易数据。
2公检法数据
公检法数据目前主要是指来源于法院系统的经济案件数据以及来自于公安机关的金融欺诈报案数据。法院的经济案件数据已被商业银行广发使用,通过经济纠纷事件来推断贷款企业或申请贷款企业的信用状况以及可能面临的道德风险;而公安局的报案数据对于发现金融欺诈、非法集资、恶性高利贷等有着直接的应用价值。
3海关数据
中国外向型经济的特点以及中国经济与世界经济体系的日益融合,使得海关统计的企业进出口贸易数据集中地反映了商品进出口企业的经营状况,特别是较长周期的数据监测与分析,很好地揭示了这些企业的经营风险,是银行识别贷款客户风险以及工商企业识别应收账款风险的重要信息源。
4征信数据
人民银行的征信数据是目前国内积累时间最久、覆盖面最大的数据源,涵盖了历史上在商业银行贷款违约的客户信息。目前人民银行征信数据属于限制开放的信息源,主要服务于商业银行以及准许的非银金融机构。各省在人民银行征信数据之外,还尝试建立了联合征信体系,是对人民银行征信数据的有效补充,在风险管理应用中也具有重要意义。
55.银监会关联客户数据
银监会向商业银行披露在商业银行贷款客户的关联企业数据,揭示了贷款企业在多家银行贷款和贷款违约的信息。此外,还揭示了信用担保中的关联关系,即互相担保和循环担保情况,为商业银行进行贷款审批、贷后风险管理、担保管理等提供了分析和决策依据。
66.环保数据
环保部以及各地环保局关于对违反环境保护法企业的立案及处罚数据,一方面反映了当事企业的社会责任管理缺失、信用状况恶化的状态;另一方面也反映了由于环保限制或环保处罚,而可能导致的企业经营的不确定性或者可能面临的巨大经营风险。这部分数据往往也是银行或交易对手进行相关决策的重要参考信息。
7仓储物流数据
对于制造业或类制造业企业而言,仓储物流数据准确地反映了企业经营的“繁荣”程度,同时这个数据也是供应链金融或供应链融资的基础数据。掌握企业的仓储物流数据,就可以绕开通过财务报表来分析企业经营风险的缺陷,特别是对于贸易融资(流动性贷款)和应收账款风险管理有着信息采集直接、风险控制便利的种种优点。
8社保数据
企业缴纳社会保险的充足性和及时性,从另一个层面反映了企业的经营状态。换句话说,一个经营较差或面临严峻经营风险的企业,可能无力支付足额(优惠的)的社会保险缴纳额或者出现不能及时缴纳社会保险,这显然是一个明确的企业面临经营风险的信号。
9工资账户数据
工资通常是企业运行成本中占比最高的一项支出,对工资账户数据的监测以及进行时间序列的波动统计分析,往往可以从这一侧面折射出企业的经营状况或兴旺的程度。长久以来商业银行就有过通过对贷款企业工资账户的监测来识别其信用风险的应用实践,实际上工资账户的监测与分析不仅能够反映企业的经营风险,还可以对工资定价以及劳动力市场的成本水平提供极有价值的数据。
10用电用水数据
制造业或类制造业企业的用电用水数据从一个特定的视角反映了其生产的繁忙程度。对这类的数据的监测及波动分析,也可以用来反映了企业的经营风险,它是企业全部风险识别的一个重要补充维度。
11舆情或负面事件数据
舆情或负面事件数据是指在互联网上新闻、微信、微博、论坛以及博客等出现的关于特定机构的负面消息,其表现形式可以是一段文字、视屏、音频、图片或其他组合形式。关于特定机构的负面消息或负面事件,可能揭露了其面临的各种风险,甚至是面临的危机,这在各种风险管理中都不应该忽视的重要信息或风险预警信号。
12电商交易数据
电商网站上的交易数据较好地反映了商品生产企业或商品销售企业的经营状况,据此数据来评定商户的信用等级或信用风险在以往获得了较为满意的准确度。因此,对于从事贷款业务和投资业务的金融机构,如果能获得企业的交易数据就可以较便利地识别企业经营风险。之所以仅提及电商是因为其上的交易数据是电子化的,并且数据管理集中、商品生产企业或商品销售企业的覆盖面较大。
13财务报表数据
随着中国经济的发展,大量的中国企业在全球范围内成为上市公司。这些企业多数通常经营业绩较好,在其所在的行业中颇具有代表性或先进性。因此广泛采集上市公司定期披露的财务报表可以较为便利地将相关指标加工成企业对标数据,通过对标来发现企业的经营管理风险。
除了上述各种类型已经存在的“大数据”外,行业的经济景气分析报告、国家宏观经济指标数据、市场利率、汇率以及其他的市场指数指标数据等也是揭示企业可能受此影响而面临特定风险的重要信号,也应该纳入大数据应用于风险管理的范畴。
应用大数据需要的专项技术和措施
在前述大数据采集、存储、整合梳理的基础上,形成了面向风险管理应用的数据集合或数据仓库。然而要想迅捷、有效地使用这些数据为风险管理服务,还必须发展和创立一些专项的技术,包括大数据检索技术、基于大数据的风险识别模型、云平台下的风险预警机制以及一旦发现风险后的信息处置机制等。
1数据检索技术
大数据搜索引擎是大数据应用的基本工具,通过搜索引擎快速地提取我们需要的风险信号,进行风险分析和风险预警。市面上类似Hadoop的大数据搜索引擎,对于服务于风险管理的大数据而言有着成本过于高昂的缺点,需要发展一种专门用于二次信息采集、围绕着风险主题组织数据的低成本检索工具,作为各种风险管理应用提取所需信息的工具。
2风险识别模型
利用大数据来识别特定对象的风险,必然面临着风险信号出处多样、内容驳杂、质量良莠不齐的状况。在这种情况下,传统的风险识别模型往往不能胜任有效辨识风险的任务,需要发展多种基于规则的、基于机理的、基于多种信息整合的以及基于统计学原理的大数据风险识别模型,才能保证大数据有效地服务于风险管理。
3风险预警机制
在风险识别模型的基础上,还需要开发出一整套基于大数据信息特征的风险容忍度规则体系,针对辨识出的风险决定是否发出预警消息。作为一种集中式的大数据服务体系(云体系)由于其服务对象的多样性,风险容忍度必然是多样化的,这使得建立适用于多种服务对象的风险容忍度规则体系存在着工作量繁重、提取风险偏好困难的障碍,需要广泛地调查研究、收集信息来建立有实用价值的容忍度规则体系。
4大数据管理运营机制
为保证大数据能够高质量、持续地为风险管理服务,需要建立一整套的大数据维护、管理和营销的机制,按照市场化的企业经营管理模式为那些需要通过大数据来进行风险管理的机构(客户)提供优质的信息产品,包括大数据本体上的打包数据、风险分析、风险预警、行业状态、对标数据、竞争分析等等,让风险管理大数据服务在企业化运营的体制下进入良性循环、永续经营的状态。
应用大数据面临的挑战
建立上述服务于风险管理的大数据管理体系,我们还面临着一系列的困难与挑战,主要表现在法律法规限制或法律法规配套、数据采集的技术壁垒以及数据服务的权限配置或数据安全的限制等上面。这些障碍如果不能有效破除,势必会极大影响大数据服务于风险管理的实际应用,甚至造成其社会经济价值的大大降低。
法律法规限制是应用大数据为风险管理服务的第一个障碍。我们面临的困境是上面提及的各类数据在现实中都有且保存完好,但其中相当一部分信息在采集上却遇到了各种限制,需要在隐私保护、证券法、数据安全或数据保密等法律或规则下,建立适度的法律法规配套,使我们能够在一定的规则下采集到需要的数据,创建大数据应用的基础环境。
另外,应用于风险管理的大数据来源于多个渠道,在这些原始数据的存储保管上,存在着众多异构的管理体系,从中采集数据势必会遇到数据接口复杂、工作量巨大的困难,更为重要的是数据标准化管理将面临严峻的挑战,需要充分研究不同体系中数据存储的结构和特性,建立适用于集中管理框架的数据标准,保证采集的大数据具有较高的能够满足风险管理应用而要求的数据质量。
风险管理大数据应用对象的确定涉及到了大数据体系运营的商业模式的选择,这是一个需要认真思考的重大问题。换句话说,如果不能在一个确认的商业模式下来进行大数据产品结构的设计,就很难实现大数据风险管理应用的价值,也就根本不能保证大数据应用风险管理这项事业的成功。然而商业模式的设计牵扯到组织结构、资金募集、股权关系、治理结构、客户营销、核心技术、经营管理方方面面,是一项需要全面布局、综合平衡的系统工程,是应用大数据为风险管理服务这项事业的成功保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22