数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CRISP-DM

CRISP-DM全称跨行业标准数据挖掘流程(Cross Industry Standard Process for Data Mining),CRISP-DM生命周期包括六个阶段：业务理解（business understanding）;数据理解（data understanding）;数据准备（data preparation）;建模（modeling）;评估（evaluation）;部署（de

从今天开始不熬夜

2022-08-15

60.9644 2 0

SEMMA数据挖掘方法论

S：Sample(抽样)E：Explore（探索）M：Modify（修正）M：Model（建模）A：Assess（评估）

从今天开始不熬夜

2022-08-15

60.9644 2 0

ETL

ETL-E---extract(抽取)T---transform(转换)L---load(加载)

从今天开始不熬夜

2022-08-15

60.9644 2 1

DB、DW、DM、ODS、OLAP、OLTP和BI的概念

1、DB（DataBase）:数据库，一般指的就是OLTP数据库，在线事物数据库，用来支持生产的。DB保留的是数据信息的最新状态，只有一个状态！2、DW（Data Warehouse）：数据仓库，保存的是数据在不同时间点的状态，对同一个数据信息，保留不同时间点的状态，便于我们做统计分析.3、关于DM，目前网上有两种说法，一说数据集市（Data Mart）;一说数据挖掘（Data Mining），百

从今天开始不熬夜

2022-08-14

70.5006 2 0

SQL语言共分为四大类

SQL语言共分为四大类：数据定义语言DDL ，数据操纵语言DML ，数据查询语言DQL ，数据控制语言DCL1. 数据定义语言DDL:用来维护存储数据的结构。简单来说就是用来创建数据中的各种对象-----数据库、表、试图、索引等,如---creat,drop,alter.2.数据操纵语言DML:用来对数据进行操作。主要有三种形式：insert,update,delete3.数据查询语言DQL:数据

从今天开始不熬夜

2022-08-14

68.5714 1 0

子查询

所有的连接查询都可以替换成子查询。但是并不是所以的子查询都可以替换连接查询，因为当where子句中的查询条件是聚合函数时,子查询不能替换连接查询。

从今天开始不熬夜

2022-08-14

68.5714 1 0

MySQL子查询

MySQL 子查询可以出现在 select, where ,having, from,join子句中

从今天开始不熬夜

2022-08-14

68.5714 1 0

统计类图表

统计类图表:直方图,箱型图,散点图,气泡图等,体现数值的分布特征,不能使用业务维度作为坐标轴

从今天开始不熬夜

2022-08-14

68.5714 1 0

开窗函数使用

开窗函数的一个概念是当前行，当前行属于某个窗口，窗口由 over关键字用来指定函数执行的窗口范围，如果后面括号中什么都不写，则意味着窗口包含满足where 条件的所有行，开窗函数基于所有行进行计算；如果不为空，则有三个参数来设置窗口：partition by子句：按照指定字段进行分区，两个分区由边界分隔，开窗函数在不同的分区内分别执行，在跨越分区边界时重新初始化。order by子句：按照指定字

从今天开始不熬夜

2022-08-12

44.4730 2 0

开窗函数

按照函数功能不同，MySQL支持的开窗函数分为如下几类：序号函数：row_number() / rank() / dense_rank();分布函数：percent_rank() / cume_dist();前后函数：lag() / lead();头尾函数：first_value() / last_value();其他函数：nth_value() / nfile().

从今天开始不熬夜

2022-08-12

44.4730 2 0

财务分析方法

结构分析:相关指标间的占比,构成.趋势分析:单一指标在不同时段下的趋势变化情况.比较分析:行业间不同企业的指标对比,单一指标在不同时间下的对比,多指标间的业务逻辑对比

从今天开始不熬夜

2022-08-11

238.9134 1 1

财务

资产=负债+股东权益

从今天开始不熬夜

2022-08-11

238.9134 1 1

hive中的列转行

EXPLODE(col)：将 hive 一列中复杂的 array 或者 map 结构拆分成多行。 LATERAL VIEW:用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias.用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

从今天开始不熬夜

2022-08-11

43.4504 2 0

hive中的行转列

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和

从今天开始不熬夜

2022-08-11

43.4504 3 0

hive中的排序

1.Order By：全局排序，只有一个 Reducer；当SQL一旦使用order by 进行排序，hive翻译后的 MR只能是一个reduce,不能出现多个reduce，即使将 reduce数量设置为多个.为了防止效率比较低，建议在执行order by 时候，一定要带上limit操作。2.Sort By：对于大规模的数据集 order by 的效率非常低。在很多情况下，并不需要全局排序，此

从今天开始不熬夜

2022-08-11

43.4504 2 0

分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分,分桶是将数据集分解成更容易管理的若干部分的另一个技术,分区针对的是数据的存储路径；分桶针对的是数据文件。

从今天开始不熬夜

2022-08-10

68.1879 3 0

分区表

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

从今天开始不熬夜

2022-08-10

68.1879 2 0

元数据

元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能.元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等.

从今天开始不熬夜

2022-08-10

68.1879 2 0

Hive和Hadoop关系

从功能来说，数据仓库软件，至少需要具备下述两种能力：从功能来说，数据仓库软件，至少需要具备下述两种能力：存储数据的能力、分析数据的能力Apache Hive作为一款大数据时代的数据仓库软件，当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力，而是借助Hadoop。Hive利用HDFS存储数据，利用MapReduce查询分析数据.这样突然发现Hive没啥用，不过是套壳Hadoop

从今天开始不熬夜

2022-08-10

68.1879 2 0

数仓概念

数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（Decision Support）。数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统.同时数据仓库自身也不需要“消费”任何的数据，其结果开放给各个外部应用使用

从今天开始不熬夜

2022-08-10

68.1879 2 0