从目标到技术再到实践！大数据之可视化分析-CDA数据分析师官网

热线电话：13121318867

从目标到技术再到实践！大数据之可视化分析

2016-05-15

从目标到技术再到实践！大数据之可视化分析

大数据可以用在很多场景中，但是不管怎么应用，对于用户来说，需要将我们加工处理后的数据，进行可视化的展现，那么大数据如何进行可视化分析的呢？今天小编就给大家带来大数据之可视化分析技术。
一、实例目标
大数据开启了一个前所未有的信息大爆炸时代，在当今的环境中，大数据已经将我们对分析的认识从向后分析变成了向前分析，同时向我们提出了数据采集、分析和使用等难题。
大数据需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增量率和多样化的信息资产。大数据分析相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。
大数据的海量数据信息带来更多的是数据价值，但是我们不能忽视数据分析的重要性。提高数据分析的效率，对大数据信息进行剔除、筛选，建立大数据战略体系，其首要实现的是数据分析，因为企业对各类数据的解读与应用都必须是在有价值的数据上进行，只有通过对所需要数据的全面准确分析，形成数据流规模，这样的数据结果对决策行为才有指导性作用。
本章就是建立大数据的可视化分析模型，通过从网页中直接提取结构性数据，对人物建立索引，以帮助信息工作者对其进行分类检索。主要实现以下几个功能需求：
（1）具有数据采集功能，可以完成金融行业公司（如证券交易公司）的系统数据库所需要数据抽取、统计、转换、入库，建立先进、安全、稳定、可管理、可扩展以及能够满足大规模的企业级应用需要的数据库基础环境。
（2）提供基于web的数据可视化分析，通过灵活的动态图表展示对数据进行多角度、深层次的分析展示，满足从公司到营业部到客户经理的各级业务决策管理岗位的数据分析要求。
二、技术关键
数据可视化是指对大型数据库或者数据仓库中的数据的可视化，其基本思想是将数据库中的每一个数据作为单个图形元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。
在数据的可视化方面，主要的研究方向是将数据库或者数据仓库中的数据，从不同的抽象层次将属性、维度进行联合指挥，以不同的呈现形式展现给用户，这被称为“前端展示”。
可视化可从三个层次上进行实现，同时对应三种处理方式，即后处理、跟踪和驾驭。在实现的过程中涉及到计算机图形学、图像处理、人机交互、网络通讯等领域的许多技术问题。
数据可视化技术的主要特点是：
（1）交互性。用户可以方便地以交互的方式管理和开发数据。
（2）多维性。可以看到表示对象或事件的数据的多个属性或变量，数据可以按每一维的值，将其分类、排序、组合和显示。
（3）可视性。数据可以用图象、曲线、二维图形、三维体和动画来显示。并可对其模式和相互关系进行可视化分析。
2.1 数据采集
数据采集（有时缩写为DAQ或DAS），又称为“数据获取”或“数据收集”，是指对现实世界进行采样，以便产生可供计算机处理的数据的过程。通常，数据采集过程之中包括为了获得所需信息，对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成元件当中包括用于将测量参数转换成为电信号的传感器，而这些电信号则是由数据采集硬件来负责获取的。
根据能够分析的业务数据集的特征和内部的结构，数据可视化工具被分成两个主要的类别：多维可视化和专门的层次和地形可视化。
2.2 数据分析
数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关，但数据挖掘往往倾向于关注较大型的数据集，较少侧重于推理，且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。
数据分析的类型包括：
（1）探索性数据分析：是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。
（2）定性数据分析：又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据（或者说资料）的分析。
数据可视化分析，从常用和实用的维度来看，有5中分析方法：
（1）面积&尺寸可视化
对同一类图形（例如柱状、圆环和蜘蛛图等）的长度、高度或面积加以区别，来清晰的表达不同指标对应的指标值之间的对比。这种方法会让浏览者对数据及其之间的对比一目了然。制作这类数据可视化图形时，要用数学公式计算，来表达准确的尺度和比例。
（2）颜色可视化
通过颜色的深浅来表达指标值的强弱和大小，是数据可视化设计的常用方法，用户一眼看上去便可整体的看出哪一部分指标的数据值更突出。
（3）图形可视化
在我们设计指标及数据时，使用有对应实际含义的图形来结合呈现，会使数据图表更加生动的被展现，更便于用户理解图表要表达的主题。
（4）地域空间可视化
当指标数据要表达的主题跟地域有关联时，我们一般会选择用地图为大背景。这样用户可以直观的了解整体的数据情况，同时也可以根据地理位置快速的定位到某一地区来查看详细数据。
（5）概念可视化
通过将抽象的指标数据转换成我们熟悉的容易感知的数据时，用户便更容易理解图形要表达的意义。
2.3 数据治理
数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图（enterprise view）所需的人员、过程和技术，数据治理旨在：
（1）增强决策制定过程中的一致性与信心
（2）降低遭受监管罚款的风险
（3）改善数据的安全性
（4）最大限度地提高数据的创收潜力
（5）指定信息质量责任
2.4 数据管理
数据管理，又称为“数据资源管理”，包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理，DAMA所提出的正式定义是：“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛，涵盖了许多可能在技术上并不直接接触低层数据管理工作（如关系数据库管理）的职业。
2.5 数据挖掘
 数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智能组织和金融分析师所采用；不过，在科学领域，数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大数据集之中提取信息。
数据挖掘被描述为“从数据之中提取隐含的，先前未知的，潜在有用信息的非凡过程”，以及“从大型数据集或数据库之中提取有用信息的科学”。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析，从中寻找可能有助于决策制定工作的模式的过程。
三、实现过程
3.1 技术原理
数据实现可视化的整体的流程如下：
3.1.1 捕获数据流
实时数据流使用scrapers、collectors、agents、listeners捕获，并且存储在数据库中。数据库通常是hbase或者nosql数据库，例如，Cassandra、MongoDB,或者有时候是你只是hadoopHive。关系数据库不适合这种高展现的分析。
3.1.2 数据流处理
数据流可以通过许多方式处理，比如，分裂、合并、计算以及与外部数据源结合。这些工作由一个容错分布式数据库系统，比如，Storm、Hadoop，这些都是比较常用的大数据处理框架。但是他们却不是实时数据分析的理想选择。因为他们依赖MapReduce面向批量的处理。不过Hadoop2.0允许使用其他计算算法代替MapReduce，这样使得Hadoop在实时分析系统中运用又进了一步。处理之后，数据就可以很可视化组件读取了。
3.1.3 数据可视化组件读取处理过的数据
处理过的数据以结构化的格式（比如JSON或者XML）存储在NoSQL数据库中，被可视化组件读取。在大多数情况下，这会是一个嵌入到一个内部BI系统的图表库，或者成为像Tableau这种更加广泛的可视化平台的一部分。处理过的数据在JSON/XML文件中的刷新频率，称为更新时间间隔。
3.1.4 可视化前端展现
可视化组件从结构数据文件（JSON/XML）,在图表界面绘制一个图表、仪表或者其他可视化行为。处理过的数据在客户端展现的频率叫做刷新间隔时间。在一些应用程序中，比如带有图表渲染功能的股票交易应用程序,会预先设置基于数据流的触发功能。
3.2 系统实现整体过程
以金融行业的某证券公司为例，对该公司的可视化系统的实现进行分析，系统的组成框架图如下所示：
本系统包括数据采集和数据可视化分析两大部分。其中数据采集包括客户端数据采集、营业部数据采集、公司数据采集、沪深指数采集；数据可视化分析包括客户数据分析、营业部数据分析、公司数据分析。
3.3 数据采集子系统
3.3.1 数据采集
数据采集子系统的主要功能是对业务数据及其他外部数据源数据进行数据抽取、清洗、转换等操作后形成统一标准的数据，存放在数据库中。这里的数据采集，包括客户数据采集、营业部数据采集、公司分析数据采集和沪深股市数据采集。
（1）客户数据采集
这里采集的数据有：客户基本资料表，客户资金情况表，客户股票库存明细表、客户资金流水、客户股票交易流水灯。经过数的采集、清理、数据集成生成一个便于数据分析的数据库，包括为所有客户的年初资产（资金额+股票市值）、佣金贡献、现金存取频率及差额、盈亏情况和交易操作频率。
（2）营业部数据采集
营业部数据采集所有的库表与客户数据采集所用的库表类似，只是根据需要将统一营业部的客户数据按属性进行了汇总、计算和转换，生成该营业部每日的客户数、客户资产总值、交易量汇总、交易品种汇总等。
（3）公司分析数据采集
公司分析所需的数据，是根据营业部数据的再次汇总。
（4）沪深股市数据采集
这里包含上海和深圳股市每日指数（开盘、收盘、最高、最低）、成交量、成交额等。
3.3.2 数据处理
为了确保各变量在分析中的地位相同，可以对数据进行数据变换：中心化与标准变换。
（1）中心化
就是使各种属性的观测值都有相同的基点。
（2）标准化
就是在中心化的基础上再作变换，使各种属性的变换范围相等。常用的有标准差标准化变换。
3.4 数据分析子系统
这里的数据分析子系统，我们以客户分析为例进行阐述实现过程。
（1）客户资产与交易分布图：将所有该营业部的客户按照：有交易有资产；有交易无资产；无交易有资产；无交易无资产分为四类，并显示各类别客户资产总值、交易总量、人数合计及其占比。
数据来源：营业部客户信息表。
计算方法：对该营业部资产=资金+市值、交易量，客户数据分类求和，并计算各类别客户数据占比。
图标类型：饼图或环图
（2）营业部价值客户分布图：显示营业部不同资产、不同佣金的客户的分别，并显示其盈亏状况。
数据来源：营业部客户信息表
计算方法：对客户佣金、资产（资金+市值）、盈亏字段数据进行中心化和标准化后输出。
图标类型：气泡图。X轴可以表示资产区间，Y轴表示佣金区间。气泡红色表示盈利，蓝色表示亏损，气泡大小表示盈亏程度。
（3客户价值分类分析：从客户信息表中将所有产生佣金的客户按照佣金排序，前1%为“最重要的客户”，之后的4%为主要客户，之后的15%为大客户，剩余的80%的客户为小客户。分类分指标分析四类客户特性。
数据来源：客户信息表
计算方法：分类对客户数量、佣金求和，对资产、资金、市值、佣金，交易次数、资金存取差额、存取次数、盈亏求平均值。
图表类型：棒图
四、价值分析
利用可视化，可以进行数据的预测和便于领导层进行管理决策。同时，利用可视化技术，可以实现以下几点：
（1）多维叠加式数据可视化应用
此类应用多用于社交网络或者生活消费类应用与数字地图的叠。基于地理位置的网络数据信息分享传播具有某种互动娱乐性。比如在微信中，用户可以依靠对方和自己的距离信息来筛选好友；在大众点评上，可以基于地理信息轻松找到附近的酒店、餐厅，用户可以在地图上对店铺进行留言评价，还可以在地图的对应位置留下图片供其他用户参考。此类数据可视化应用中，用户所获取的视觉信息不再是单一维度而是多维的。
（2）即时的数据关联趋势可视化服务
通过对若干存在关联性的可视化数据进行比较重，能够挖掘出数据之间的重要关联或者是呈现一个有理有据的数据发展趋势。在大数据环境下，这种数据可视化服务已经能够轻松做到即时生成，即数据采集完成后就可以立刻生成可视化方案。这类服务能即时的为用户创建出数据可视化，同时又能快捷、便利的揭示出数据间的关联和趋势。
（3）全媒体多平台的数据可视化展示
大数据时代不仅处理着海量的数据，同时也加工、传播、分享它们。在智能手机、平板电脑和车载电脑等平台日渐普及的当下，新的交互手段将成为数据可视化的趋势。