京公网安备 11010802034615号
经营许可证编号:京B2-20210330
可视分析技术已经发展了近十年。在这些年间,人们研究了大量的可视分析方法和案例,发表了不少研究论文。然而,对于一些基本问题,人们依然没有明确的答案。例如,一个基本的可视分析流程是怎样的?一个可视分析系统应该包含哪几个组件?如何评价和比较不同的可视分析系统?在VAST’2014的一篇论文中[1],Sacha等人提出了一个可视分析模型,系统性的回答了以上问题。
如图1所示,他们的模型包含左边计算机的部分和右边人的部分。在计算机部分中,数据被绘制为可视化图表,同时也通过模型进行整理和挖掘。可视化图表既可以显示原始数据的特性,也可以显示模型的结果。用户也可以基于可视化图表来对模型进行调整,指导建模过程。在人的部分中,作者提出了三层循环:探索循环、验证循环和知识产生循环。在探索循环中,人们通过模型输出和可视化图表寻找数据中可能存在的模式,基于此采取一系列行动,例如改变参数,去产生得到新的模型输出和新的可视化图表。这样做的动机在验证循环之中:人们通过模式洞察到数据的特点,产生可能的猜测。这些猜测的验证正是基于探索循环中的行动。最后,在验证循环之上有知识循环,不断的收集验证循环中已被验证的猜测,总结为知识。
说明
图 1. 可视分析中的知识产生模型
本模型的提出是建立在已有的各种模型的基础之上的,如图2所示。例如,之前的信息可视化流程图描述了如何从数据产生可视化图表,数据挖掘流程图则描述了如何对数据进行预处理和建模并最终得到分析结果。之前的交互步骤模型描述了人在分析过程中的评价、目标产生和执行步骤,意义构建模型则描述了人在整个分析过程中对问题理解的加深。它们在本模型中被分解为三层循环。此外,众多的交互词汇系统的描述了探索循环中的行为。
图 2. 本模型和已有模型之间的关系
作者利用本模型对一些实际的可视分析系统进行了评价和比较,如图3所示。Jigsaw是一款免费的文本可视分析系统[2],它可以读入文本数据,自动提取实体,建立主题模型,因此强于建模。此外,它提供了一系列可视化图表来显示文本的各种特征,因此也强于可视化。它的许多可视化,例如文件聚类视图,是基于主题模型的,因此可以算是对模型的可视化。用户可以在多种视图之间切换,改变各种视觉特性,因此它很好的支持了探索循环。此外,它还提供了tablet视图,允许用户记录自己的发现,并整理归类,提供了一定的验证循环支持。然而,Jigsaw不支持对原始数据预处理,也不太支持模型参数选择。
Weka是一款免费的数据挖掘系统 [3],它允许用户对数据进行一系列的预处理,例如数据删除、离散化、文本分词等等,同时支持大量的数据挖掘算法,涵盖了各种分类、聚类、关联规则挖掘模型。但是该系统支持的可视化相当有限,例如显示散点图矩阵,或者显示决策树结果、显示神经网络结构。另外,用户探索仅限于更换预处理方法和更换模型,功能较为简单。用户无法整理自己的发现,因此该系统对验证循环的支持并不好。
Tableau是一款商业化的可视化系统 [4],它允许用户通过漂亮的UI来预处理数据,通过简单的拖拽来设计各种可视化图表。但是一直以来,它支持的模型很有限,直到今年,Tableau支持了R语言,它才真正用于建模功能。Tableua支持灵活的数据探索。它还支持spreadsheet和storyboard等强大的功能,可以生成MLV视图和类似powerpoint的演示界面。这些都是对验证循环的支持。
nSpace是一款商业化的文本分析系统 [5],虽然它对数据预处理和数学模型的支持很弱,但是它提供了多种可视化图表显示数据的不同特征。这些图表可以较好的支持数据探索循环。最为与众不同的是,nSpace提供了sandbox界面用于组织用户的发现,并生成结果报告。该功能比Jigsaw的tablet和Tableau的storyboard更为强大,能较好的支持验证循环。
图 3.利用本模型对不同的可视分析系统进行评价和比较。
作者也谈到,本模型具有一些局限性,
比如未考虑多个分析人员之间的协作与交流,未考虑不同可视分析系统之间的切换,未考虑分析人员和领域专家、政府官员之间的沟通,未考虑动态变化的流数据。这些问题可以进一步研究。
基于此模型,作者展望了未来可视分析的研究方向。例如,在探索循环中,研究者可以更多的考虑通过可视化与数学模型进行交互的技术,也可以考虑如何引导用户快速系统的发现数据中的模式,或者如何自动检测模式。在验证循环中,研究者可以如何保存之间的探索结果,以方便回溯,验证其可靠性。研究者可以考虑如何组织不同的探索结果,辅助用户产生假设,甚至自动产生假设。在知识发现循环中,研究者可以做的比较少。毕竟,知识发现只在人脑中。但研究者可以提供更多更方便的可视化视图和数学模型,方便用户从多个角度考虑同一个数据、同一个问题。这样,也许用户更容易最终得到有用的知识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05