(1) 物理学中:向量表示有方向的量,符号为一个箭头。箭头所指方向为力的方向,箭头长度为力的大 小。 (2) 统计学中:向量表示数据空间中的一个点。 (3) 计算机中:向量表示一个数表,即一组有序排列的数字。
田齐齐
2020-02-19
(1)用户流失分析: 两层模型:细分用户、产品、渠道,看到底是哪里用户流失了。注意由于是用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。 指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高内外部分析:a. 内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺
田齐齐
2020-02-18
协方差:协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 相关系数:研究变量之间线性相关程度的量,取值范围是[-1,1]。相关系
田齐齐
2020-02-18
1.字符串:char、varchar、text 2.二进制串:binary、varbinary 3.布尔类型:boolean 4.数值类型:integer、smallint、bigint、decimal、numeric、float、real、double 5.时间类型:date、time、timestamp、interval
田齐齐
2020-02-18
1.简单理解下数据仓库是多个数据库以一种方式组织起来 2.数据库强调范式,尽可能减少冗余 3.数据仓库强调查询分析的速度,优化读取操作,主要目的是快速做大量数据的查询 4.数据仓库定期写入新数据,但不覆盖原有数据,而是给数据加上时间戳标签 5.数据库采用行存储,数据仓库一般采用列存储(行存储与列存储区别见题3) 6.数据仓库的特征是面向主题、集成、相对稳定、反映历史变化,存储数历史数据;数据库是面
田齐齐
2020-02-18
(1)行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新很快。缺点是每次查询即使只涉及几列,也要把所有数据读取. (2)列存储:OLAP等情况下,将数据按照列存储会更高效,每一列都可以成为索引,投影很高效。缺点是查询是选择完成时,需要对选择的列进行重新组装。 “当你的核心业务是 OLTP 时,一个行式数据库,再加上优化操作,可能是个最好的选择。当你的核心业务是 OLAP 时,一个列式
田齐齐
2020-02-18
1.numpy:矩阵运算 2.sklearn:常用机器学习和数据挖掘工具库 3.scipy:基于numpy做高效的数学计算,如积分、线性代数、稀疏矩阵等 4.pandas:将数据用表的形式进行操作matplotlib:数据可视化工具 5.seaborn:数据可视化工具 6.keras/tensorflow/theano:深度学习工具包 7.NLTK:自然语言处理工具包 8.beautifulsoa
田齐齐
2020-02-18
为什么使用Power Query作为数据源建立的数据模型报错了? 那是因为更改了加载到powerpivot中的原始表的内容。 解释: 如果你的数据已经从PowerQuery加载到PowerPivot数据模型,那么你永远不应该做以下任何事情: 更改PowerPivot的表 在powerpivot中重命名导入的列 删除powerpivot中导入的列 (注:Excel 2010、Excel2013用户
田齐齐
2020-02-16
DATATABLE DATATABLE (ColumnName1, DataType1, ColumnName2, DataType2..., {{Value1, Value2...}, {ValueN, ValueN 1...}...}) 返回具有以内联方式定义的数据的表。 第一个参数是名称,第二个参数是名称的类型,这是列一,然后每两个参数是一列,一个参数说明列的名称,一个参数说明列的类型,列
田齐齐
2020-02-16
当我需要模拟一张每日流水表时,这个组合可以帮我快速得到想要的表。打开Power BI Desktop,选择建模下的新表选项卡: 输入DAX公式: 每日销售额表= GENERATE ( CALENDAR ( DATE ( 2019, 1, 1 ), TODAY () ), ROW ( "销售额", RANDBETWEEN( 200, 1000) ) ) 下面我们来看一下Power BI
田齐齐
2020-02-16
在数据分析中,我们经常要从时间的纬度展现数据,所以需要生成一张日期维度表。如果你是用DAX函数生成日期表的话,你可能会这样做: 首先用Calendar函数生成一列日期列: =CALENDAR("1/1/2018","12/31/2019") 然后再用Year函数生成年 = YEAR([Date]) 生成季度及月份也同理。 但是大家有没有发现在引用【日期】列时,公式提示会出现如下的“.[D
田齐齐
2020-02-16
在商业分析中,经常涉及到达成率这一指标,例如本月截至目前,销售量已经达到了本月目标值的百分之多少。而达成率会和Time Passed放到一起对比,以此来看达成进度。 Time Passed为到今天为止,本月或本年已经过去百分之几。如果达成率大于Time Passed,则表示达成进度很乐观,否则表示达成进度偏慢。那么TimePassed 应该怎么计算呢? 首先来看下月度的Time Passed,其
田齐齐
2020-02-16
随着增长黑客理念的传播,魔法数字这个概念也开始在数据分析和运营的圈子里流行起来。大家虽然对魔法数字这个概念有一些基本的共识,但却十分模糊。先举几个大家常提到的例子,LinkedIn如果系统默认建议用户邀请的朋友数量是4人时,能实现最大程度的邀请转化率;Twitter发现如果新用户在30天内关注了30个好友,这些用户的留存率会非常高;如果一个知乎用户回答问题数超过三个的时候,他就会对知
田齐齐
2020-02-16
这个应该是最经常使用的了,如果数据模型中没有日期表,那么没有必要再去找一个日期表然后导入进来,可以直接在PowerBI Desktop中新建表,并输入: 日期表 = ADDCOLUMNS ( CALENDAR (DATE(2019,1,1), DATE(2019,12,31)), "年度", YEAR ( [Date] ), "月份", FORMAT ( [Date], "MM" ), "年月"
田齐齐
2020-02-16
通常情况下,在PowerBI进行分析的各种数据表都是从外部的各种数据源导入进来的,但并不总是如此,某些情况下在PowerBI Desktop中也可以根据需要直接建立各种表格。 在进行数据分析的过程中,也许还需要加入新的数据表或者新的维度,而我们并不想再导入源数据或者回到PQ编辑器进行处理,那么就可以利用已加载到模型中的数据进行构建新表,下面就来看看如何在PowerBI Desktop中新建数据表
田齐齐
2020-02-16
1. SUMX(table,
田齐齐
2020-02-15
1.IF(logical_test>,
田齐齐
2020-02-15
1.CONTAINS(InternetSales, [ProductKey], 214, [CustomerKey], 11185) --是否同时存在销售给客户 11185 的产品 214 的任何 Internet 销售额。 2.ISBLANK(column) --判断该列中某个值是否为空 3.ISNONTEXT(column) --检查某个值是否不是文本 4.ISNUMBER(column
田齐齐
2020-02-15