京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据可视化 让一张图胜过千言万语
谈到大数据,就必然要谈到可视化分析,因为大数据分析的目的是发现有价值的信息,供决策者和业务人员使用,更好地做出企业的决策。
所以每次Teradata不论在国内还是国外的峰会上,都会设置一个大数据可视化展示区域。浏览这些抽象的图形,你甚至可能把它们看成是一副副艺术作品。
当天为我讲解的是Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞,他还有另外一个身份“数据科学家”,在他看来如何把信息传达给相应的人,这就需要一种深入浅出、图文并茂的形式,一张图甚至可以胜过千言万语。
Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞
在这些范例图形中,当然并不能单纯停留在好看的层面,大数据可视化的目的是需要反映出真实的情况,让用户及时注意并防范这些问题以及更好的进行营销。所以这些抽象的图像在真正的系统中可以实现缩放,每一个点都可以看到是哪个客户,以及客户的一些信息,如行业、规模、地区、存款等,线条上也可以看到具体的交易金额。
资金喷泉
“资金喷泉”展示了不同公司之间的资金流动关系,是一个可以清晰发现客户层级的资金视图,图中所展示的是中国一家大型银行的企业银行业务其中一个分析项目,使用转账交易数据了解风险和发现市场机会。
市场营销人员可以利用它切入核心企业,了解上下游关联关系,开展供应链金融。在纷繁复杂的交易过程中,寻找合适的营销目标,捕捉适当的营销时机;风险人员则可以根据它识别客户异常资金交易,防范风险,通盘考虑相关参与方,而不是单单交易对手一方。
图中每一个点代表公司,线代表两家公司之间的资金转移,箭头代表资金的流向。张玉瑞对两个方向进行了描述,在营销和供应链角度,需要从图中找到核心企业,再延伸到上下游;在风险角度,一方面衡量市场变化,一方面监控资金流向。
谈到“资金喷泉”的形成,因为每家公司每天资金流量都是非常大,怎么删繁就简,把一些比较主要的问题呈现出来,需要经过大量的计算后提炼出一些比较有价值数据。如果把几百万个客户都展现在一张图中,解读起来也很困难,因此需要分门别类,这里就需要通过一些业务和分析进行提炼。
担保圈焰火
汽车信贷业务的超常规发展确实为银行带来了利润,但在分享车贷“蛋糕”喜悦的同时,不断攀升的车贷违约率也向银行业敲响了警钟,因为越来越多的车贷存在一些不易规避的风险。“担保圈焰火”展现了在某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络。
图中点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系,不同颜色用来区分相应的担保网络。
图中比较明显的是黄色、蓝色、紫色三个群体,黄色群体比较正常,中心是4S店,周围是一对一的个人客户。而左下角的蓝色和紫色群体存在重叠,也就是有些客户在两家以上的公司申请汽车贷款,存在一定的骗贷可能,需要银行高度关注。
这里只是使用银行的数据进行图形显示,并没有使用汽车公司的数据。张玉瑞指出,以往的分析都是单独看每笔贷款,其实贷款之间并不是独立的,现在我们把他们关联起来,就很容易发现之前很难发现的问题。
担保圈之谜
挥别了黄金时代的房地产行业,未来房地产价格将在不同地区出现分化。目前一、二线城市住宅地产需求旺盛,价格坚挺,三、四线城市市场低迷,部分区域价格下滑,销售不畅。为了促进销售,部分开发商或者房产中介为购房者提供担保,降低购房门槛,低首付甚至零首付,一旦房价出现大幅波动,这些房贷将给银行带来巨大的风险。
“担保圈之谜”揭示了房地产开发行业所产生的潜在风险,每一个辐射源是房地产公司,散开的点是个人客户。不同颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。
“最近央行和银监局要求银行降低首付贷,说明政府对房贷的加杠杆高度关注。”张玉瑞说道。房贷本来是银行优质的资产,如果购房者或者炒房者变成一两成首付或者零首付,杠杆就会陡增,风险就会放大。
所以通过担保圈之谜,让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取措施,这些措施包含收紧贷款审批,甚至拒绝贷款。
Teradata Aster如何做可视化分析
“资金喷泉”是使用Teradata Aster和Aster的Lens。装载的交易数据是非常大,涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们可以理解他们的业务活动。
“担保圈焰火”和“担保圈之谜”展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID、担保合同信息、担保金额、企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。
其实整个社交圈非常复杂,传统的分析需要采样,但像资金链、担保圈、社交群就没办法抽样。张玉瑞解释道,因为网络大庞大,抽样会使一些关系切断,所以需要将所有数据一起进行分析。
因为所有数据的分析,数据的体量非常庞大,举一个通俗易懂的例子,Google搜索资料会把相关性高得内容显示在前面,这中间会通过一些数据进行计算,算出一个PageRank值,越好的会排到越前面以达到更准确,而且计算速度非常快。Teradata Aster图分析(社交媒体分析)算法里就有PageRank算法,我们通过它来找出网络中有重要影响力的客户 。
不只是以上三个可视化图形,还有很多大数据可视化都是用Teradata Aster来实现。Aster数据库预装了200+个SQL-MR函数,快速高效地支撑库内的数据挖掘和大数据探索分析,它包括了路径与模式分析(Path/Pattern Analysis)、图分析(Graph Analysis)、文本分析(Text Analysis)、统计分析(Statistical calculations)、数据转换(Transformation)、关联及关系分析(Relational Analysis)等。
张玉瑞同时也还原了整个可视化分析的过程,数据来自不同的数据源,把它们加载到分析工具中,可能会有一些数据质量的问题,所以还需要进行清洗。之后建模是一个重要的工作,最后是分析,如果企业数据基础较好,准备的时间也会较短,分析质量也会很高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09在日常办公数据分析中,Excel数据透视表是最常用的高效工具之一——它能快速对海量数据进行分类汇总、分组统计,将杂乱无章的数 ...
2026-02-09表结构数据作为结构化数据的核心载体,其“获取-加工-使用”全流程,是CDA(Certified Data Analyst)数据分析师开展专业工作的 ...
2026-02-09在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06