你需要掌握这3种窗口函数-CDA数据分析师官网

热线电话：13121318867

首页大数据时代你需要掌握这3种窗口函数

你需要掌握这3种窗口函数

2020-08-11

一、什么是窗口函数

窗口函数又叫做开窗函数，是用于解决复杂报表统计需求的功能强大的一种分析函数。窗口函数通常用于计算基于组的某种聚合值，它和聚合函数的不同之处在于：窗口函数对于每个组返回多行，而聚合函数对于每个组只返回一行。

二、窗口函数基本语句形式

窗口函数带有一个开窗函数over()，包含三个分析子句:

三、窗口函数类别

1、排名函数

SQL标准支持4种用于排名计算的窗口函数。分别为：ROW_NUMBER、NTILE、以及RANK和DENSE_RANK。

在SQL标准中，前两个是一类，后两个是另一类。

ROW_NUMBER：表示根据col1分组，在分组内部根据col2排序，而此函数计算的值就表示每组内部排序后的顺序编号(组内是连续且唯一的)。

NTILE函数把窗口分区里的数据行分成数量大致相等的块(根据输入的块数和指定的窗口排序)。

RANK(排名)与DENSE_RANK(密集排名)函数的计算和ROW_NUMBER函数类似，唯一不同之处在于，它们在窗口分区内生成的值不必是唯一的。

如果窗口排序方向是升序，那么RANK函数计算分区内排序值比当前行小的行的数量，在次数量上加1.就是当前行的排名;

DENSE_RANK函数计算分区内相异的(distinct)排序值比当前行小的行的数量，在此数量上加1.就是当前行的排名。

如果窗口排序方向是降序，那么RANK函数计算分区内排序属性比当前行大的行的数量，在此数量上加1.就是当前行的排名;

DENSE_RANK函数计算分区内相异的(distinct)排序值比当前行大的行的数量，在此数量上加1.就是当前行的排名。

2、分布函数

窗口分布函数主要是为静态统计服务提供数据的分布情况。SQL Server 2012引入了两种窗口分布函数的支持：排名分布函数和逆分布函数。

排名分布函数有PERCENT_RANK(百分位排名)和CUME_DIST(累积分布)两种，逆分布函数也有两个，分别是：PERCENT_CONT(百分位连续)和PERCENTILE_DISC(百分位离散)。

根据标准SQL，分布函数计算数据行在窗口分区中的相对排名，将它表示为介于0~1之间的比值——通常它看做百分比。

假设rk 为数据行的RANK值，RANK函数的窗口描述和分布函数的窗口描述是相同的。假设nr为窗口分区内数据行的行数，np为领先或与当前行的排序值相同的行的数目(为比当前rk减1大的最小rk值，如果当前rk是最大值，则np等于nr)。

PERCENT_RANK(百分位排名)计算公式：(rk-1)/(nr-1)

PERCENT_RANK(百分位排名)的计算公式：np/nr。

逆分布函数，一般叫做百分位，通常会将它执行的计算当作是排名分布函数的倒数。

PERCENTILE_DISC(百分位离散)函数，其中DISC为离散分布模型，返回组中第一个符合条件的值，条件为：其累计分布(CUME_DIST函数)>=输入值。

PERCENT_CONT(百分位连续)函数，其中CONT为连续分布函数。

3、偏移函数

偏移函数分为两种类型，一种是偏移量是相对于当前行的，LAG和LEAD函数;另一个偏移函数的偏移量是相对于窗口框架的开始和结尾的，包括FIRST_VALUE、LAST_VALUE和NTH_VALUE。

LAG和LEAD函数支持窗口分区子句以及窗口排序子句。允许我们从窗口分区中，根据给定的相对于当前行的前偏移量(LAG)和后偏移量(LEAD)，返回对应行的值。如果没有指定，偏移量默认为1.

第二类的偏移函数(FIRST_VALUE、LAST_VALUE和NTH_VALUE)在支持窗口分区子句和排序子句的基础上，还可以支持窗口框架子句。

FIRST_VALUE和FIRST_VALUE分别返回框架的第一行和最后一行所有查询的值。NTH_VALUE函数作用是中的相对窗口框架第一行或最后一行的偏移量，使得我们可以取得对应这个偏移量的记录值。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

窗口函数 SQL

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇这些mysql修改表结构的操作命令，你必须知道！

下一篇sparkSQL是什么，如何理解？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

你需要掌握这3种窗口函数

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载