京公网安备 11010802034615号
经营许可证编号:京B2-20210330
医疗大数据分析的“可视化问题
图形一直以来就是统计分析的重要组成部分。它既可被用以辅助数据分析的前期探索(比如发现异常记录,观察变量间的相互关系等),也可以用来展示数据 分析的结果。本篇通过若干实例探讨了如何有效地展示医疗大数据的数据分析结果,即医疗大数据的视觉化问题,并讨论了未来数据可视化发展的可能方向。
俗话说:“一图抵千言”(A picture isworth a thousand words)。 许多复杂的结果往往用一张图就能十分直观地展示出来,让人一看就明白。比如图一显示了2005 至2010年全球非自然死亡的比例分布图。所有的疾病被分为三大类:传染病及先天不足,受伤,以及非传染性疾病,分别用黄,绿,粉红三色代表。它们的体积 反映了各类疾病在所有非自然死亡中所占的比重。由图可见,传染病及先天不足(黄色)所占比重几乎等同于非传染性疾病(粉红色),而传染病这一块完全可以通 过公共卫生方面的努力加以缩小。图中每一大块颜色中同色系的小块代表了具体的疾病。同样的,体积反映所占的比重,而颜色深浅则体现了05年至10年平均年 度变化的百分比,深色表示连年增长,而浅色表示连年下降。增长及下降的平均年度变化百分比没有大于3%的。小小一张图包含了许多信息,却又一目了然,实实 在在地诠释了数据统计上的“一图抵千言”。
图一:
来源:Infographic by Thomas Porostocky | Source: Institutefor Health metrics and evaluation
再以2015年一月热议的《解构春雨医生》的报告为例,有些数字表格如果改作图示,会更加直观,更利于读者快速获取其中蕴含的信息。
表一:
这张表格蕴含了很多信息,包括春雨医生各种类收入,各科室收入,及各科室在各种类收入中所占的构成比例,一眼看去,满目数字,很难快速地获取综合信息。如果使用图示,则可以将表格的内容简单显示如图二:
图二:
根据总收入对各个科室由高到低进行排序,以柱状图的形式分别列出了各科室总收入,私人医生收入,咨询收入,图文咨询收入,电话咨询收入及门诊预 约收入,方便读者进行横向和纵向两个维度的对比。由于各类收入差距过大,无法使用同一尺度,因而在收入的下方标注了各列柱状图的尺度,并在柱子边上标注了 实际收入的数值。这样,纵向对比各科室在每一种收入中所占比重可以直接看柱状的长短,而横向对比各科室不同收入构成时也可以结合尺度和实际数值迅速得出结 论。例如,读者可以很容易发现内科总收入第一,妇产科第二,但是妇产科的咨询收入无论是从绝对数值还是相对比重上都远超内科。图二还用了不同的颜色和深浅 代表不同的收入程度,对较重要的收入(即总收入及综合数值较大的收入)采用了深色,而对综合数值较小的收入采用了浅色。此外,由于咨询收入,图文咨询收 入,电话咨询收入同属咨询收入,采用了同色系(蓝色)显示。
以上两例说明了图示对展示数据的重要性和有效性。随着大数据时代的到来,数据视觉化变得尤为关键,但也同时面临更多的挑战。首先,原始数据往往 含有海量的信息。这些信息经过数据清理(Data cleaning),整合 (Binning),归纳 (Summarizing)之后依然可能十分庞杂,很难用一张或若干张图来显示大数据所蕴藏的信息。因此大数据的视觉化不仅需要专业的知识和经验,更需要 有十足的想像力和美学概念。其次,大数据不单只是数据量本身的庞大,还兼有更新快的特性。每时每刻都有大量的各种数据被制造并收集起来。如何即时分析这些 动态数据并配以相应的动态可视化图形面临着很大挑战。
工欲善其事,必先利其器。我们迫切需要强大而不失灵活机动的,具有强互动性的数据视觉化软件。事实上,美好的前景和客户实际的需求也已经催生出 了许多大数据可视化软件。下面我们简要介绍一下,除了较传统的Excel,R,STATA之类,还有很多相对比较新的软件,如 Tableau,ZingChart,FusionCharts, Google Charts,D3.js,jqPlot,IBM Many Eyes等等,不一而足。新的数据视觉化软件也正源源不断地涌现。这些软件各有特色,各有侧重,但也多有重合。比如几乎所有的软件都提供了常用的统计图 示,如条形图,扇形图,折线图,直方图,散点图,基本地图等等。可以说,现在大数据可视化软件正处于群雄并起,群星璀璨的时期,也没有哪一款软件真正全面 地涵盖了多样的大数据可视化的需求,即:囊括了几乎所有的图形需求并不断更新。
结合实际工作,我们有必要从现在起建立一个大数据可视化图示库,分科分类型搜集每一种图示并辅以实例。可以预见这个数据库必然会在经历一个最初 的急剧膨胀期后缓慢扩大,最终慢慢稳定下来,而且沉淀的东西会非常有价值。美国人口调查局在此提供了一个很好的示范,它提供了各式各样和人口统计相关的可 视化图形,如图三所示。
图三:
我们知道,大数据千变万化,各有特色,分析方法也相应不同,从而需要不同的可视化呈现。很多图形的呈现是取决于具体分析后得出的结果的.比如: 依据不同统计方法 (K-means,bagging, boosting, random Forest) 产生的决策树图形, 生存分析结果产生的生存率曲线(Kaplan-meier curve)。统计学家,数据科学家,数据分析师,市场分析师等活跃在数据可视化第一线的专业人士,在现阶段仍旧需要调用多个不同软件进行复杂的数据分 析,依据分析结果再进行作图。一般每个人都有一个或若干个惯用的软件。如果某个特定图形无法使用常规的数据分析软件生成的话,就不得不切换其他软件加以实 现。随着大数据技术及市场日趋成熟,我们希望有一个整合的环境进行数据管理,数据分析,数据可视化,实现一体化(一条龙)分析,而不是疲于在各种不同软件 系统间频繁的切换,费时费力且效率低下,还不利于他人验证整个数据生成及展示的过程。然而,如今离拥有一个涵盖所有数据管理分析,并同时满足视觉化需求的 软件还很遥远。现阶段比较可行的是建立一个能整合融会大部分数据视觉化编程语言的平台。这样可以让使用者更快更便捷地进行数据管理,数据分析,及数据编程 视觉化。Tableau 在这方面做着初步的尝试,比如开源统计软件R可以整合到Tableau里面,进行有限的数据分析后的图形视觉化处理呈现(图四),虽然过程仍然比较复杂 (具体请见:使用R和Tableau 白皮书http://www.tableau.com/sites/default/files/media/using-r-and-tableau-software_0.pdf)。
图四:
另一在此领域比较成功的例子是BEAKER数据科学家实验室。它提供了一个笔记本式可以切换使用各种编程语言(Python, R, Java, Julia, Ruby等)的工作环境。让使用者在各种语言之间进行切换,或轻松添加新的编程块,确保始终使用对应性最强的工具进行合适的数据分析和可视化的实现。例 如,通过Phyton到R到Java的无缝编程,完成从数据操作到图形可视化的一体实现。如图五所示:
图五:
我们期待,众多可视化软件经过沉淀积累,去芜存菁的过程,伴随一个整合编程语言平台的出现和完善,将使数据管理,分析,可视化操作变得越来越便捷和有效率。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25