
数据可视从数据探索到工程落地
加快推动从数据探索到工程落地的过程是一件很有意义的事情,数据分析要如何做到尽量和数据分析的流程紧密结合,又要方便工程化落地一直困扰着许多数据分析师和Web工程师。数据分析师不想深究太多前端JS实现,Web工程师也不想插手复杂的业务逻辑与SQL。对于工程化这件事情,如果数据分析输出的图表是基于html的,那Web工程师只需要复制粘贴相应的js配置项然后引用一下js库就完成70%的工作了。但是对于数据探索来说,大部分的数据可视过程70%的工作可能都是失败、或者暂时的,花费大量精力完成的前端代码并不会对数据分析这件事情本身带来太多帮助。但是现实世界并没有这么美好,很多时候身兼数职的全能王倒是因为会给老板省钱受到青睐,本文将讨论几种可能的解决方案。
可能的解决方案
数据分析师+交互式绘图
常见的方式比如radiant(R)、caravel(Python)都具有这样的功能,数据分析师可以建立一个数据库连接,然后在连接中通过SQL语句得到想要的数据,再通过交互式的绘图方式完成数据可视化的探索。
优势:让数据分析师可以集中精力在数据分析本身,可以快速实现数据探索、建模、甚至分享页面和仪表盘。
劣势:复杂的数据分析算法实现起来比较困难,数据需要事先规整清晰好,满足多维数据分析条件才行,前端绘图库无法比较困难,整体定制性较弱。
数据分析师写JS
第一种方案建立在交互式绘图工具足够好用的基础上,对于很多非主流的startup并不一定完全适用,因为startup人手有限,很可能要求数据分析师有能自行解决前端数据可视化的能力需求。
常见的方式是通过SQl取数后调用一个JS制图库(比如echarts、highcharts、plotly等等),分析师需要在js中完成许多数据描述性统计的工作直接展示在前端页面上,然后将配置项和SQL保存在数据库中,以供后续的API查询调用。
优势:简化了数据产品落地的流程,在SQL不够用的情况下可以用JS来补足,可以快速实现定制化的前端图表输出,满足各种可视化特殊需求。
劣势:简单的数据分析算法实现也很困难,数据分析很难专注于数据本身,需要处理很多JS相关问题。
数据分析师写R
上述两种方案在数据处理上都并不是非常完美,所以说,更加理想的方案是通过用一种数据分析语言完成数据分析和数据可视的工作,既要保证数据分析的灵活性,又要保证工程落地的敏捷性变成一个很关键的事情。但是通常自己写前端JS的代码又非常的麻烦,可能还要写很多MapReduce。一些常见的描述性统计(极值均值求和计数等等)在前端实现都会耗费很多功夫,更不用说更高级的一些算法了,而大部分数据分析工作在Python或者R语言中其实是可以快速完成。那么,从Python和R中直接输出一些html图表不失为一种好的办法,当然更多场景下我是建议用R来完成。
优势:既能满足复杂的算法模型快速实现,又能满足工程敏捷落地的需求。
劣势:对于简单分析而言,不如方案一来得方便,快捷。
具体方案
在R中,我们其实可以使用 DT + ggplot2 + plotly + flexdashboard 的方案来完成数据分析图表的绘制和产出。首先,在探索分析的过程中可以使用ggplot2对数据进行各种分组暂时,这样就保证了数据分析结果维度的丰满,通过 + 的链式调用,可以在同一基础图形上变换多种展现方式进而得到更多多维分析结果。其次,利用 plotly,ggplot2 所绘制的静态图表可以快速拓展为动态图表。最后,通过 flexdashboard,可以快速排版数据可视化结果,提供一个Web服务作为输出。
简单例子
knitr::opts_chunk$set(echo = TRUE)
library(readxl)
library(dplyr)
竞品分析列表 <- read_excel("~/竞品分析列表.xls",col_names = T)
colnames(竞品分析列表) <- 竞品分析列表[1,]
竞品分析列表 <- 竞品分析列表[-1,]
DT::datatable(竞品分析列表)
library(ggplot2)
# 频数统计
p <- ggplot(data=地区频数, aes(x=地区,y=频数,fill=大小)) +
geom_bar(stat = "identity",alpha = 0.8) +
labs(x = '地区', y = '频数') +
ggtitle("地域分布") +
coord_flip() +
theme(text = element_text(family = 'SimSun'))
p
library(plotly)
ggplotly(p)
只需要修改一下 yaml 配置并引入 flexdashboard 即可
---
title: "竞品分析"
author: "Harry Zhu"
date: "September 17, 2016"
output:
flexdashboard::flex_dashboard:
orientation: columns
vertical_layout: fill
---
knitr::opts_chunk$set(echo = TRUE)
library(flexdashboard)
library(readxl)
library(dplyr)
竞品分析列表 <- read_excel("~/竞品分析列表.xls",col_names = T)
colnames(竞品分析列表) <- 竞品分析列表[1,]
竞品分析列表 <- 竞品分析列表[-1,]
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
全球第一!上交AI智能体炼成Kaggle特级大师登顶OpenAI MLE-bench 编辑:KingHZ 好困 【新智元导读】刚刚,由上海交通大学人 ...
2025-07-02探索最优回归方程:数据背后的精准预测密码 在数据分析和统计学的广阔领域中,回归分析是揭示变量之间关系的重要工具,而回 ...
2025-07-02CDA 证书:银行招聘中的 “黄金通行证” 在金融科技飞速发展的当下,银行正加速向数字化、智能化转型,海量数据成为 ...
2025-07-02CDA 数据分析师报考条件全解析:开启数据洞察之旅 在当今数字化浪潮席卷全球的时代,数据已成为企业乃至整个社会发展的核心驱 ...
2025-07-01深入解析 SQL 中 CASE 语句条件的执行顺序 在 SQL 编程领域,CASE语句是实现条件逻辑判断、数据转换与分类的重要工 ...
2025-07-01SPSS 中计算三个变量交集的详细指南 在数据分析领域,挖掘变量之间的潜在关系是获取有价值信息的关键步骤。当我们需要探究 ...
2025-07-01CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-30探秘卷积层:为何一个卷积层需要两个卷积核 在深度学习的世界里,卷积神经网络(CNN)凭借其强大的特征提取能力 ...
2025-06-30探索 CDA 数据分析师在线课程:开启数据洞察之旅 在数字化浪潮席卷全球的当下,数据已成为企业决策、创新与发展的核心驱 ...
2025-06-303D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32% 编辑:LRST 【新智元导读】中科院自动化所提出BridgeVLA模型,通过将 ...
2025-06-30LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24