从今天开始不熬夜

开窗函数使用

开窗函数的一个概念是当前行,当前行属于某个窗口,窗口由 over关键字用来指定函数执行的窗口范围,如果后面括号中什么都不写,则意味着窗口包含满足where 条件的所有行,开窗函数基于所有行进行计算;如果不为空,则有三个参数来设置窗口:partition by子句:按照指定字段进行分区,两个分区由边界分隔,开窗函数在不同的分区内分别 执行,在跨越分区边界时重新初始化。order by子句:按照指定字

从今天开始不熬夜

19小时前

44.4730 2 0
  • 关注作者
  • 收藏

开窗函数

按照函数功能不同,MySQL支持的开窗函数分为如下几类:序号函数:row_number() / rank() / dense_rank();分布函数:percent_rank() / cume_dist();前后函数:lag() / lead();头尾函数:first_value() / last_value();其他函数:nth_value() / nfile().

从今天开始不熬夜

19小时前

44.4730 2 0
  • 关注作者
  • 收藏

财务分析方法

结构分析:相关指标间的占比,构成.趋势分析:单一指标在不同时段下的趋势变化情况.比较分析:行业间不同企业的指标对比,单一指标在不同时间下的对比,多指标间的业务逻辑对比

从今天开始不熬夜

1天前

238.9134 1 1
  • 关注作者
  • 收藏

财务

资产=负债+股东权益

从今天开始不熬夜

1天前

238.9134 1 1
  • 关注作者
  • 收藏

hive中的列转行

EXPLODE(col):将 hive 一列中复杂的 array 或者 map 结构拆分成多行。 LATERAL VIEW:用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias.用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此 基础上可以对拆分后的数据进行聚合。

从今天开始不熬夜

1天前

43.4504 1 0
  • 关注作者
  • 收藏

hive中的行转列

CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字 符串;CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参 数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将 为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和

从今天开始不熬夜

1天前

43.4504 1 0
  • 关注作者
  • 收藏

hive中的排序

1.Order By:全局排序,只有一个 Reducer;当SQL一旦使用order by 进行排序,hive翻译后的 MR只能是一个reduce,不能出现多个reduce,即使将 reduce数量设置为多个.为了防止效率比较低,建议在 执行order by 时候,一定要带上limit操作。2.Sort By:对于大规模的数据集 order by 的效率非常低。在很多情况下,并不需要全局排 序,此

从今天开始不熬夜

1天前

43.4504 1 0
  • 关注作者
  • 收藏

分桶表

分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理 的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围 划分,分桶是将数据集分解成更容易管理的若干部分的另一个技术,分区针对的是数据的存储路径;分桶针对的是数据文件。

从今天开始不熬夜

2天前

68.1879 2 0
  • 关注作者
  • 收藏

分区表

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。

从今天开始不熬夜

2天前

68.1879 2 0
  • 关注作者
  • 收藏

元数据

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属 性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能.元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等.

从今天开始不熬夜

2天前

68.1879 2 0
  • 关注作者
  • 收藏

Hive和Hadoop关系

从功能来说,数据仓库软件,至少需要具备下述两种能力:从功能来说,数据仓库软件,至少需要具备下述两种能力: 存储数据的能力、分析数据的能力Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述 两种能力,而是借助Hadoop。Hive利用HDFS存储数据,利用MapReduce查询分析数据.这样突然发现Hive没啥用,不过是套壳Hadoop

从今天开始不熬夜

2天前

68.1879 2 0
  • 关注作者
  • 收藏

数仓概念

数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support)。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统.同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用

从今天开始不熬夜

2天前

68.1879 2 0
  • 关注作者
  • 收藏

分布式计算概念

分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间 来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

从今天开始不熬夜

3天前

96.4432 2 0
  • 关注作者
  • 收藏

Hadoop MapReduce

1.MapReduce的思想核心是“先分再合,分而治之”. 2.所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解 决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果.3.这种思想来源于日常生活与工作时的经验。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创.

从今天开始不熬夜

3天前

96.4432 2 0
  • 关注作者
  • 收藏

Hadoop特性优点

scalability(扩容能力):Hadoop是在可用的计算机集群间分配 数据并完成计算任务的,这些集群可方 便灵活的方式扩展到数以千计的节点。Economical(成本低):Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很 efficiency 低。看重的是集群整体能力。efficiency(效率高):通过并发数据,Hadoop可以在节 点之间动态并行的移动数据,使

从今天开始不熬夜

3天前

96.4432 2 0
  • 关注作者
  • 收藏

hadoop含义

狭义上Hadoop指的是Apache软件基金会的一款开源软件。广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

从今天开始不熬夜

3天前

96.4432 2 0
  • 关注作者
  • 收藏

Hadoop核心组件

Hadoop HDFS(分布式文件存储系统):解决海量数据存储 Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度 Hadoop MapReduce(分布式计算框架):解决海量数据计算

从今天开始不熬夜

3天前

96.4432 2 0
  • 关注作者
  • 收藏

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-c

从今天开始不熬夜

4天前

96.4432 2 0
  • 关注作者
  • 收藏

unix

Unix是20世纪70年代初出现的一个操作系统,除了作为网络操作系统之外,还可以作为单机操作系统使用.UNIX系统是一个分时系统。最早的UNIX系统于1970年问世。此前,只有面向批处理作业的操作系统,这样的系统对于需要立即得到响应的用户来说是太慢了。在60年代末,Kenneth Thompson和Dennis Ritchie都曾参加过交互方式分时系统Multics的设计,而开发该系统所使用的工具

从今天开始不熬夜

4天前

96.4432 2 0
  • 关注作者
  • 收藏

Minix

Minix是一种基于微内核架构的类UNIX计算机操作系统,于1987年由Andrew S. Tanenbaum教授发布,它启发了Linux。20世纪80年代,由于AT&T所有的UNIX版权的限制,荷兰的Andrew S. Tanenbaum教授决定写一个不包含任何AT&T源代码的UNIX系统,名为MINIX(即小型的UNIX),并开放全部源代码给大学教学和研究工作,Minix于2000年重新改为B

从今天开始不熬夜

4天前

96.4432 2 0
  • 关注作者
  • 收藏
1234>