
你所不知道的大数据、云计算,以及无法计算的价值
毫不吹牛的说,单凭这个标题,就能让这篇文章装着13轻轻松松过大年。但凡有不服者,请你告诉我旁边的这位大婶儿,什么叫大数据,什么是云计算。你要能让大婶儿听明白了,我就服你。认怂了吧?来,看我的。
不管你能不能看见,这都是一个全新的世界
1590年,有一个名叫札恰里亚斯·詹森的荷兰眼镜制造商人,发明了一种借助物理方法使物体放大影象的仪器,名曰显微镜,从此,人类看到了一个全新的世界,走入原子时代。
1609年,有一个名叫伽利略的人,用平凸透镜作为物镜,凹透镜作为目镜,制作了一架口径4.2厘米,长约1.2米的望远镜。他用这架望远镜指向太空,看到了一个全新的世界,天文学从此进入了望远镜时代。
1842年,有一个名叫多普勒的奥地利物理学家,率先提出利用多普勒效应的多普勒式雷达。雷达的英文直译是“无线电探测和测距”,即用无线电的方法发现目标并测定它们的空间位置,因此雷达也被称为“无线电定位”。
伽里略发明天文望远镜,让人类突然意识到世界不是原来眼睛看到的那样。需要明确一点,人类不是因为知道世界是什么样而去发明了望远镜,而是因为有了望远镜,才知道世界是什么样。显微镜也是一样的道理,当你离开显微镜的时候,你要想一想通过显微镜看到的那个世界是不是真实存在。
给你12秒,想一想……
你想的都对!互联网、数据和计算,就像人类历史上三个非常重要的工具——望远镜、显微镜和雷达的发明,让人类看见了原来看不见的世界,看见了历史上没有见过的东西。
能说出这么深入浅出的道理,自然不是我,而是阿里巴巴CTO王坚博士。王坚博士被业界誉为云计算的布道者,在近年来的公开演讲中多次阐述他对互联网、计算和数据的理解。1月20日,云栖大会上海峰会召开,王坚博士在主题演讲中表示,现在人们看数据都是通过计算去看,就像人类发明显微镜以后,研究微观世界都是通过显微镜看到的。同理,我们要相信那个人眼看不见的、被计算出来的数据世界。
他说,“传统行业或者传统软件公司不觉得鼠标点击有意义有价值,不觉得那是一个活生生的世界,但是互联网是把它当生命来看。在互联网上点击鼠标就能知道用户的兴趣,能创造价值,这是互联网公司真正的能力,而不是别的东西,这是显微镜的作用。”
想不想在数据时代也能分得一杯羹?
不得不承认,王坚博士总是能用大婶儿都能理解的语言,完美解释无比高深的科学问题。
在谈到数据的时候,他说,因为互联网这个基础设施的存在,数据就像土地、石油、煤一样,成为了DT时代的生产资料。为了利用好数据这一生产资料,发挥出数据的巨大价值,他号召在场的每一人学习小岗村的农民,做互联网时代地球村的“数据农民”。
“关于数据这件事情,大家都处于像中国三十年前改革开放的起点,不知道土地上种什么,种的东西不知道是谁拥有的。”王坚强调,“在座的各位有一次机会,我们一起为全世界做一次小岗村农民做的事情,思考如何让土地产生价值,如何让数据产生价值,并且产生的价值不会有纠纷,所有权清晰。这是数据产业非常重要的机会。”
王坚认为,当互联网变成基础设施、数据成为生产资料、计算成为公共服务的时候,所有的企业、所有的行业又站在同一条起跑线上:个人创业者的影响力可以和一万人的大公司影响力相比,而一万人的大公司又具备了小公司的灵活性。
说的这么好,如何才能成为数据时代的数据农民呢?据说下面这个叫做“数加”的家伙可以帮到你。
带你看懂全球首个一站式大数据平台“数加”
有人说,2016年才是真正意义上的大数据元年。这句话听着好熟悉……
在过去的5年里,全球大数据计算性能实现了超过20倍的增长,100TB数据排序时间由8274秒缩短到377秒。束缚大数据的技术瓶颈已经被完全打破,数据将从企业的成本中心转变为价值中心。
与此同时,IDC出版的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富。但全球真正享受大数据红利的公司不足千分之一,人类已挖掘的数据财富更是不到百万分之一。
没错,这是一个人人都在谈大数据的时代,每年都谈,谈了好几年了,但是,真正在用大数据的却只有极少数人。为什么呢?说来话长,暂且不表。今天说一说,为啥2016才是真正的大数据元年,因为有了“数加”。
1月20日的云栖大会上海峰会上,阿里云宣布开放阿里巴巴十年的大数据能力,发布全球首个一站式大数据平台“数加”,首批亮相20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。“这些技术至少领先业界三年”,阿里云大数据事业部资深总监徐常亮说。
这个平台承载了阿里云“普惠大数据”的理想——让全球任何一个企业、个人都能用上大数据。
开放、开放、开放,重要的事情说三遍
过去10年来,阿里巴巴积累了令行业艳羡不已的庞大数据,那就是一笔巨大的财富,就像煤炭一样,趴在你家山头下面。那么,突然有一天,你说大家都来一起开采吧,对外开放,情形会怎样呢?
“数加”就是要把阿里巴巴的大数据向外界开放。据了解,“数加”正在向有数据开发能力的外界的第三方团队开放,这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。
“这就像在淘宝开店一样,只是他们售卖的是专业能力。”徐常亮表示,阿里云计划用3年时间吸引1000家合作伙伴入驻,共同分享1万亿的大数据蛋糕。
借助大数据技术,阿里巴巴取得了巨大的商业成功。通过对电子商务平台上的客户行为进行分析,诞生了蚂蚁小贷、花呗、借呗;菜鸟网络通过电子面单、物流云、菜鸟天地等数据产品,为快递行业的升级提供技术方法。
在这些创新中,“数加”承载了阿里巴巴EB级别的数据加工计算,经历了上万名工程师的实战检验。大麦网是阿里云“数加”平台的尝鲜者。通过采用“数加”的推荐引擎,大麦网的研发成本从900人天降低到了30人天,效率提升了30倍。
大数据喊了那么多年,阿里云开始带大家真刀真枪地玩
“过去6年来,阿里巴巴巨大的战略投资就是放在云计算和大数据服务上。我们相信人类已经从IT时代在步入DT时代。”马云在2015年致投资者公开信中表示,“我们必须在数据技术的投入和发展上不惜一切的投入发展,我们正在努力让数据和计算能力成为普惠经济的基础。”
马云所说的DT技术正在通过“数加”变现,这个集成了人工智能、机器学习、智能语音等前沿技术的阿里云大数据平台,让没有足够技术实力的公司,也能实现从数据中提炼“石油”。
“未来3年,大数据市场规模将达到1万亿元。”阿里云总裁胡晓明在发布会上表示,基于阿里云大数据平台数加,将有千余家合作伙伴、万名首席数据官和5万数据科学家诞生,把中国大数据市场规模拓展至万亿规模。
“大数据”一词近年来在中国十分火热,但真正的数据技术和工具平台一直缺位。“中国的数据技术起步比硅谷晚,但我们看到互联网巨头们正在大量投入研发力量,来缩短差距。”Alliance Development Group分析师David Sullivan表示,以阿里巴巴为典型的中国互联网公司正在自己的商业场景中大规模使用数据技术,技术上与硅谷几乎没有差距。
在发布会上,阿里云提及去年年底刚刚刷新的一项世界纪录。在由数据库之父Jim Gray创办的排序基准评估竞赛Sort Benchmark中,阿里云把100TB数据的排序时间缩短到了377秒,打破了此前由雅虎、微软、斯坦福大学等公司与机构保持的纪录。
“数加”教你一星期做出双11同款大屏
去年双11,北京水立方的那块巨大无比的直播大屏幕,想必大家都在新闻报道的配图里见过了吧,实时展现阿里巴巴整体交易数据,可视化效果,绝对震撼。想不想也来一块?
“数加”之后,中国的县长们也能实现这样的可视化管理了。云栖大会上海峰会上,阿里云发布了一款针对中国县域经济的数据应用产品,能让每个县域的管理者实时的了解区域的经济态势、产业特点、内需消费等关键数据的走势,为政府决策提供支持,堪称“师爷”。
据了解,这款命名为“郡县图治”的产品,使用了阿里云DataV数据可视化技术做支撑,将为3000余个县域政府定制可视化经济云图。今后,县域经济的决策者办公室里,可能将出现这样一块大屏,上面的每一个数字的跳动都实时反映着当地县域经济的发展态势,县长们也不用再从厚厚的定期报表中探寻经济发展的脉搏。
开发这样一款”酷炫“的大屏需要多久?只要一周!阿里云工程师介绍,这款产品无需进行任何的编程,只需进行简单的部署、参数设置、数据连接,便可让枯燥的统计数据直观的呈现出来,帮助县域经济决策者们快速发现问题作出决断。
“我们希望通过数加的发布,让政府、企业、个人都能享受到大数据的红利
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30在企业日常运营中,“未来会怎样” 是决策者最关心的问题 —— 电商平台想知道 “下月销量能否达标”,金融机构想预判 “下周股 ...
2025-09-30Excel 能做聚类分析吗?基础方法、进阶技巧与场景边界 在数据分析领域,聚类分析是 “无监督学习” 的核心技术 —— 无需预设分 ...
2025-09-29XGBoost 决策树:原理、优化与工业级实战指南 在机器学习领域,决策树因 “可解释性强、处理非线性关系能力突出” 成为基础模型 ...
2025-09-29在标签体系的落地链路中,“设计标签逻辑” 只是第一步,真正让标签从 “纸上定义” 变为 “业务可用资产” 的关键,在于标签加 ...
2025-09-29在使用 Excel 数据透视表进行多维度数据汇总时,折叠功能是梳理数据层级的核心工具 —— 通过点击 “+/-” 符号可展开明细数据或 ...
2025-09-28在使用 Pandas 处理 CSV、TSV 等文本文件时,“引号” 是最容易引发格式混乱的 “隐形杀手”—— 比如字段中包含逗号(如 “北京 ...
2025-09-28在 CDA(Certified Data Analyst)数据分析师的技能工具箱中,数据查询语言(尤其是 SQL)是最基础、也最核心的 “武器”。无论 ...
2025-09-28Cox 模型时间依赖性检验:原理、方法与实战应用 在生存分析领域,Cox 比例风险模型(Cox Proportional Hazards Model)是分析 “ ...
2025-09-26检测因子类型的影响程度大小:评估标准、实战案例与管控策略 在检测分析领域(如环境监测、食品质量检测、工业产品合规性测试) ...
2025-09-26CDA 数据分析师:以数据库为基石,筑牢数据驱动的 “源头防线” 在数据驱动业务的链条中,“数据从哪里来” 是 CDA(Certified D ...
2025-09-26线性相关点分布的四种基本类型:特征、识别与实战应用 在数据分析与统计学中,“线性相关” 是描述两个数值变量间关联趋势的核心 ...
2025-09-25深度神经网络神经元个数确定指南:从原理到实战的科学路径 在深度神经网络(DNN)的设计中,“神经元个数” 是决定模型性能的关 ...
2025-09-25在企业数字化进程中,不少团队陷入 “指标困境”:仪表盘上堆砌着上百个指标,DAU、转化率、营收等数据实时跳动,却无法回答 “ ...
2025-09-25MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23