大数据下网络视频类用户行为分析_数据分析师

半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息爆炸的学科如天文学和基因学，创造出了“大数据”这个概念。如今，这个概念几乎应用到了所有人类智力与发展的领域中。

一、大数据的基本特征

　　21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大地拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博、微信)、物联网、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)等行业都在疯狂产生着数据。

　　数据的单位从小到大依次为Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB，相邻单位之间相差进率为1024。我们日常生活中接触较多的是前5个，但大数据的单位却几乎是从TB才开始的。在2006年，个人用户刚刚迈进TB时代，全球一共新产生了约180EB的数据，在2011年，这个数字达到了1.8ZB。根据著名市场研究机构IDC的预测，到2020年，整个世界的数据总量将会增长44倍，达到35.2ZB。想驾驭这些庞大的数据，我们必须了解大数据的基本特征。

　　一是体量大(Volume)。据统计，互联网一天产生的全部内容可以制作1.68亿张DVD，一天发出2940亿封邮件以及200万个帖子。这些数据都表明，互联网时代，社交网络、电子商务与移动通信把人类带入了一个以“PB”为单位的新时代，PB化已经成为比较常态的情况。大数据中的“大”除了大量的意思外，还有全局的概念，所有的数据都聚集在这里。

　　二是多样化(Variety)。从形式上看，如今的数据类型早已不是单一的文本形式，海量数据有不同的格式，订单、日志、音频对人们的处理能力提出了更高的要求。从结构上看，数据分为结构化、半结构化、非结构化数据，其中非结构化数据正以很高的速率增长，占总数据量的80%～90%，比结构化数据增长快 10到50倍，是传统数据仓库的10到50倍。

　　三是价值高(Value)。网络每天都会产生大量的不相关信息，这些未经过处理的原始材料属于价值密度低的数据，需要人们沙里淘金。以视频为例，一部1小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是目前大数据汹涌背景下亟待解决的难题。

　　四是速度快(Velocity)。大数据的产生速度相当快，包括股票、资讯等各方面的信息随时都在传输。由于数据化存在时效性，需要快速处理并得到结果，实时获取需要的信息。比如说一些电商数据，今天的信息不经处理就不能产生有效的结果，这将会影响到今天捕获很多商业决策，因此在海量的数据面前，处理数据的效率就是企业的生命。[1]

二、大数据与传统数据的价值差异

　　大数据包括交易数据和交互数据集在内的所有数据集，具体由海量交易数据、海量交互数据和海量处理数据三种主要技术汇聚组成。

　　海量交易数据指企业内部的经营交易信息数据，主要包括联机交易数据和联机分析数据，是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据，我们能了解过去发生了什么。

　　海量交互数据来自Facebook、Twitter、LinkedIn及其他来源的社交媒体数据。它包括呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。这些数据可以告诉我们未来会发生什么。

　　海量数据处理是一种应对复杂、海量数据的能力，大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop，难题在于以具备成本效益的方式快速可靠地从Hadoop中存取数据。

　　有人说，大数据是对传统数据的终结和替代。这种观点并不被学者们普遍接受。但大数据的价值和处理方式的确与传统数据有很大程度的不同。

　　在宗旨上，传统数据处理遵循的是固化业务优于高效，高效优于发现业务。整体上讲这是一种求稳策略。而大数据处理却将传统方法的顺序整体颠倒过来，首先是发现业务，其次是高效，最后是固化业务。

　　在数据特点上，传统数据面对的一般是企业内部数据，数据量一般不会超过10亿量级。大数据处理的却是多样化的数据，从数据来源上有内部和外部，数据结构上有结构化和非结构化，数据量可处理xPB级。

　　在技术手段上，传统数据处理方法使用商务智能的开源RDBMS，昂贵的分析挖掘工具，甚至是商用集群。大数据处理方法则更多的是使用开源技术，更注重数据本身，使用多种技术解决业务问题。

　　在场景上，传统数据主要处理实时、事务性、在线业务，而大数据则会处理大量的批量数据和少量的在线实时型数据。总而言之，传统数据是以业务为中心，大数据则是以数据为中心，数据为业务服务。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；