大数据的发展历程,CDA数据分析师总结如下(资料来源于各大期刊,网页,博客等):
2011 年,“大数据”与“云计算”的概念火爆时下,从“大数据创新”—“大数据噱头”—“大数据忽悠”—“大数据落地”—“大数据政策”,可见,一直以来,有人利用大数据技术创造了巨大价值,而有些人却运用大数据概念进行了炒作,有些人依然盲目跟风。大数据究竟是好是坏?国内经过了十来年年数据分析行业积累,三年大数据技术的探索,随着各大互联网企业相继推出大数据产品,国家陆续制定报道大数据政策并投资建设大数据产业园,人们的思想和企业的决策更接地气,现已基本达成了共识:大数据行业前路—光明璀璨!
大数据发展史:
1964:哈里·J·格雷和亨利·拉斯顿发表《应对信息爆炸的技巧》
1971年:亚瑟·米勒《侵犯隐私》
1975年:日本邮电实施“信息流普查”计划
1980年:I·A·特詹姆斯兰德,IEEE 会提出“数据扩展至任何可用空间”
1981年:匈牙利中央统计办公室实施“以比特为单位计量信息量”
1983年:伊契尔·索勒·普尔发表《追踪信息流》
1986年:哈尔·B·贝克发表《用户真的能够以今天或者明天的速度吸收数据吗?》
1997年:美国计算机学会的数字图书馆中《为外存模型可视化而应用控制程序请求页面调度》的文章第一次使用“大数据”。
1998年:K·G·科夫曼和安德鲁·奥德里科发表《互联网的规模与增长速度》
1999:《美国计算机协会通讯》刊登《千兆字节数据集的实时性可视化探索》第一次使用“大数据”术语。
2000年:彼得·莱曼与哈尔·R·瓦里安发表《信息知多少?》, “数字统治”。
2001年:道格·莱尼发布《3D数据管理:控制数据容量、处理速度及数据种类》
2005年:蒂姆·奥莱利在《什么是Web2.0》中指出“数据将是下一项技术核心”
2007年:《膨胀的数字宇宙:2010年世界信息增长预测》预测2010年达到了1,200EB,2011年增长到了1,800EB
2008年:预测2015年美国IP流量将达到1ZB,IP流量将每两年翻一番”
但这并不是每个人、每个企业都能短期实现的,想要成为大数据分析师,首先要成为接地气的数据分析师。从政府到实业到互联网,数据分析现已运用于各个行业。
(徐刚图)
2009年:《信息知多少?2009年美国消费者报告》研究发现,2008年“美国人消费了约1.3万亿小时信息,《信息知多少?2010年企业服务器信息报告》表明世界上所有的公司平均每年处理63TB信息
2010年:肯尼斯·库克尔发表《数据,无所不在的数据》
2011年:麦肯锡《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,大数据从此引爆
2011年:,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。
2012年:维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》风靡全球
2012年:瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》(Big Data, Big Impact)
2012年3月:美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》
2012年4月:美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司
2012年7月:联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民
2013年:我国“大数据元年”诞生
2014年:我国首个大数据交易行业规范—《中关村数海大数据交易平台规则》出台。
2014年4月:世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》
2014年5月:美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》
什么是大数据:
大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。
作者认为具有以下五大特征(4V+1O)的数据才称之为大数据,即:
数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。0
类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。
关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数据在与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户最想看到的内容推送给用户,也提升了用户的使用体验。
大数据相关技术的发展
大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为六大方向:
(1)在大数据采集与预处理方向。这方向最常见的问题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage)。
(2)在大数据存储与管理方向。这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。
(3)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多种典型的计算模式,包括大数据查询分析计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、迭代计算(如HaLoop)、图计算(如Pregel)和内存计算(如Hana),而这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。
(4)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等等。
(5)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多公司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品中,各种可能相关的商品也将会不断出现。可视化工具Tabealu 的成功上市反映了大数据可视化的需求。
(6)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的时候,黑客很可能在向我们攻击,收集有用的信息。因此,大数据的安全一直是企业和学术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护技术和加密保护等技术正在最大程度的保护数据安全。
互联网的发展是大数据发展的最大驱动力0
截至 2014 年 6月,我国网民规模达 6.32亿,较 2013年底增加1442 万人,互联网普及 46.9%,即接近一半的中国人在使用互联网。互联网的增长速度超越了很多人的预期:4年前即2010年6月,互联网普及率为31.8%,而仅经历了四年,互联网的普及率增加了超过15%。
更为重要的是,CNNIC的数据还显示,截至2014年6月,我国网民上网设备中,手机使用率达83.4%,首次超越传统PC整体使用率(80.9%),手机作为第一大上网终端设备的地位更加巩固,手机使得上网变得更加随时随地,手机上网更加渗透到人们的日常工作和生活中。
因此,互联网普及使得网民的行为更加多元化,通过互联网产生的数据发展更加迅猛,更具代表性。互联网世界中的商品信息、社交媒体中的图片、文本信息以及视频网站的视频信息,互联网世界中的人与人交互信息、位置信息等,都已经成为大数据的最重要也是增长最快的来源。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14