一篇文章解决你所有关于数据分析的问题
1. 数据分析多层模型介绍
这个金字塔图像是数据分析的多层模型,从下往上一共有六层:
底下第一层称为Data Sources 元数据层。
比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,通过这个过程,我们可以把需要的数据放到数据仓库里面,那这个数据仓库就是多层模型中的第二层。
数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据仓库。
再上面一层是Data Exploration,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小\大值、中位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方法比较清楚的事情。
第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很多。
第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可视化。
最后把这些图表、报表交给决策者,以这个为基础做一些决策。
2. 数据分析工具简介
常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是在专业的统计软件只需要写一个简单的函数就可以完成。
目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件。
SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已经成为国际标准。
SPSS也是一个历史悠久的统计软件,SPSS一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。
其他的还有一些软件,比如说水晶报表(Crystal Reports),在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件,它可以画群体的网络图,社交关系图非常擅长。
3. 常用统计方法
使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果:
常用算法
4. 数据挖掘
数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。
例:啤酒与尿布的故事
5. 展现层:报表与图形
展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多。
下图是一个比较老土的报表。
如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴。
人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。
下面是一张在地图上展现数据的展现形式
下图是关于使用安卓手机的数据展现
根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑。71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%。工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里面,是数据展现工作的主要组成部分。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03