京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | 王新港
出品 | CDA数据分析研究院
马云曾在卸任演讲的时候说过这样一段话:
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”
而大数据专家埃里克·西格尔 博士曾在《大数据预测》一书中描绘了一个大数据时代下的一天:
2020年的一天,在你驱车前往公司的路上,导航系统通过预测交通流量,会自动帮你选择一条最合适的交通路线;车内推荐系统会根据你的饮食习惯预测你可能会喜欢吃什么,并推荐沿途的早餐店;你的电子社交助理已经为你自动选择了你可能感兴趣的社交网信息。
离埃里克博士所说的2020年虽然还有3个月左右的时间,但是书中阐述的技术如“大数据交通技术”“个性化推荐系统”“人工智能语音助理”等已经逐渐实现,并被人们广泛应用。而这些技术都离不开“大数据”。
Volume大容量、Variety多样性、Value有价值、Velocity速度,4个V是业界普遍认定的大数据特点。那么大数据是如何改变我们的生活方式的呢?我们需要了解最重要的两个问题。即
“大数据最核心的价值是什么?”
“大数据最核心的技术是什么?”
大数据最核心的价值是什么?
首先,我们需要知道现代人类的衣食住行无外乎三大产业“农业”“工业”“服务业”,而所有产业都会从大数据的发展中受益。
农业:
大数据技术可以应用在如“土壤抽样分析”“气象统计监管”等与土壤,农作物,供应链相关的农业领域上,帮助第一产业的发展。如今国外已经有一些公司把大数据技术与农业进行落地,而在我国,农业大数据还仅仅是一个起步阶段。在未来,农民可以“知天而作”依靠大数据技术实现农作物产量翻倍,降低自然灾害对农产品的影响等愿景。工业:工业大数据是我国重点发展的一个方向,工业与信息化部门一直致力于我国工业大数据的发展。如果工业产业下的各个行业与大数据可以紧密结合,对人类的生活方式的改变将是巨大的。仅仅是电力系统的配电环节,如果可以做到基于海量用户用电特征数据分析,进而实现台区的负荷预测、用电调度、有序用电,将极大地优化我国电力资源的分配,实现可持续发展。服务业:
第三产业是与人们的生活贴合最紧密的一个产业。我们从幼年到老年,教育,交通,医疗,金融等行业或多或少都与我们生活相关,而这些行业与大数据更是密不可分。
医疗:
临床数据的采集分析,优化诊疗流程
可穿戴设备通过监测个人的行为如行走步数等改善我们的健康状况
通过大数据分析生成报告显示用户所在地区的流感活动。
交通:
智能化公交app“车来了”
路网监控优化重点城市交通压力
电子导航即时分析道路状况,为车主调整最佳路线
物流行业的车辆,路线,网点建设
娱乐:
网易云音乐“个性化推荐”
今日头条与抖音的新闻推荐,视频推荐
《纸牌屋》演员的筛选
电信:
通过大数据平台优化网络布局,提升用户体验
记录用户在Wifi网络中的地理位置等数据销售给广告客户。
银行:
风控模型的建立与优化
定制化金融服务等
由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。而无论在哪一产业,随着计算机处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。
大数据最核心的技术是什么?
分布式系统:
Hadoop:作为一个开源的框架,专为离线和大规模数据分析而设计。
数据采集:
Sqoop:用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库中的数据导入到Hadoop(中,也可以将Hadoop中的数据导入到关系型数据库中。
数据存储,预处理:
HBase:是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
Hql:Hibernate Query Language的缩写,提供更加丰富灵活、更为强大的查询能力;HQL更接近SQL语句查询语法。
MapReduce:Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
数据分析:
Hive:核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
Spark:拥有Hadoop MapReduce所具有的特点,它不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Pyspark:由python和spark组合使用,做前期数据处理速度快,还自带mllib可以实现一些基本的模型
建模,数据挖掘:
SparkMLlib:是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易,同时包括相关的测试和数据生成器。Spark的设计初衷就是为了支持一些迭代的Job, 这正好符合很多机器学习算法的特点。
如今大数据分析的技术愈发成熟,相关的岗位也急速增加,薪水更是直线飙升,高达30K。以下图片源自某研究社:
薪资水平与行业需求
说明:曲线越向上代表市场需求量越大,就业情况越好。该数据由各地招聘网站统计而来,仅供参考。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25