数据科学专业问答社区，好文章，一字千金--CDA答疑社区

linux shell 是什么

shell是一个命令行解释器，它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序。用户可以用shell来启动、挂起、停止甚至是编写一些程序。

CDA117556

2022-12-22

160.0000 1 0

存储过程和触发器

存储过程相当于python里面的模块，就是自己写的实现具体操作的代码块，它的价值是实现代码的复用。触发器和存储过程一样有一定的格式，它的作用是当实现某中操作（delete update insert）时会自动的更改与该表相关的另外的表格中的信息，是信息完成对应，而不会错乱。

CDA117556

2022-03-26

61.8182 2 0

快时尚案例

快时尚案例：先提取表格存为视图；数据清洗，客户留存分析，留存数和留存率（类似于同期群）留存率是验证客户黏性的关键指标，测试忠诚度提取新客户，次日留存率等数据方法：按照注册日期进行分区，去重计数用户id次日、三日留存与否只需做判断访问日期与注册日期的差值（返回用户id和空值，方便去重）；

CDA117556

2022-02-14

185.3459 7 0

取一个list或tuple的部分元素是非常常见的操作。比如，一个list如下：>>> L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']取前3个元素，应该怎么做？笨办法：>>> [L[0], L[1], L[2]]['Michael', 'Sarah', 'Tracy']之所以是笨办法是因为扩展一下，取前N个元素就没辙了。取前N个元素，也就是索引为0-

CDA117556

2022-01-27

118.2990 7 0

python 高级特性

掌握了Python的数据类型、语句和函数，基本上就可以编写出很多有用的程序了。比如构造一个1, 3, 5, 7, ..., 99的列表，可以通过循环实现：L = []n = 1while n <= 99: L.append(n) n = n + 2取list的前一半的元素，也可以通过循环实现。但是在Python中，代码不是越多越好，而是越少越好。代码不是越复杂越好，而是越简单越好。基于

CDA117556

2022-01-27

56.5584 6 0

度量值

数据可视化之powerBI技巧（二十）采悟：创建度量值，轻松进行分组统计 - 秋华 - 博客园 (cnblogs.com)

CDA117556

2022-01-26

172.3338 6 0

水一期

数据分析师主要是描述性统计和推断性统计，正态分布。正态分布、标准化、偏度、峰度、中心极限定理、假设检验、线性分析、anova、皮尔逊、斯皮尔曼关联分析、残差分析机器学习方法：sklearn、xgboost、lightGBM、无监督的聚类分析、树模型、偏自然语言、算法所需要的硬性技能：tabular data science CV方向：分割、目标检测、细粒度图像分类、曲面图像、NLP

CDA117556

2022-01-25

255.9040 8 0

面向对象

/www.cnblogs.com/ideal-20/p/11050146.html 1. 类和对象1.1 什么是面向过程？什么又是面向对象？面向过程——步骤化面向过程就是分析出实现需求所需要的步骤，通过函数（方法）一步一步实现这些步骤，接着依次调用即可面向对象——行为化（概念相对抽象，可结合下面的例子理解）面向对象是把整个需求按照特点、功能划分，将这些存在共性的部分封装成类（类实例化后才是对象），

CDA117556

2022-01-25

41.0350 5 0

区分sql distinct和 dax distinctcount

(3条消息) 5、DAX的常用表函数之VALUES与DISTINCT_夕枫hhhh-CSDN博客_dax values函数

CDA117556

2022-01-25

277.5052 8 0

字符串函数，时间日期函数

字符串函数：concat(str1,str2,str3) 合并文本函数instr(str,substr) 返回substr在str的位置，不在返回0left（str,len）返回str从左边开始len个数right（str,len）返回str从右边开始len个数mid(str,position,[len]) 返回str从position位置开始len个数substring(expression

CDA117556

2022-01-24

38.6537 7 0

用户价值判断逻辑，先提取所有信息表，划定新量纲，做出条件判断评分，求均值，确定高低值，高低判断确定是什么客户？

淘宝案例用户价值分析（推送广告前进行）：RFM：-- 用户价值分析-- 每个用户消费时间间隔、消费频次、消费金额select user_id, max(日期) as 最近一次消费日期, timestampdiff(day,max(日期),'2014-12-19') as 消费时间间隔, count(*) as 消费频次, sum(amount) as 消费金额from u

CDA117556

2022-01-24

39.0759 7 0

荣威销售额面试题代码总结

荣威销售额面试题partition by 与 group by 的联合使用， partition在计算单度量值时可以对group取得的表格进行分区，这种情况一般group by 多个字段；老师的：select *from (select store_id, item_id, sum(sales) as 商品销售额, sum(sum(sales)) over(partition by s

CDA117556

2022-01-23

40.1344 7 0

having里不能使用开窗函数，以及开窗函数中order by 用跟不用的区别，累计值要用

8、产品贡献定量分析找到产生购买行为的类别类目按照类目分组产品贡献定量分析（帕累托分析）(累积销售额百分比=累积销售额/总销售额)select item_category, sum(amount) as 销售额, sum(sum(amount)) over(order by sum(amount) desc) as 累积销售额, sum(sum(amount)) over()

CDA117556

2022-01-23

22.3722 8 0

得昂面试题

、关联找出前三名，返回名字和分数的合并值，注意可能有并列存在。表格中学生各科成绩在一列，所有课程名称在一列，学生名称在一列，当然在三个表中。返回结果其实也用到了列转行，但是此题需求更为明显。因为是列转行，用不到limit；我的代码：select t.lesson_id, group_concat(if(排序=1,stu_name,null),score) 第一名, gro

CDA117556

2022-01-23

30.6440 6 0

高德题目老师的or表连接我的 union

高德题目：乘客司机同属用户，信息在一张用户表内，有的用户因故被禁止；订单表乘客id和司机id在两列，其中订单有完成、被司机取消、被客户取消，同一订单时间用户司机共享；我的代码：select client_id, sum(status_type='completed') 完成行程数, avg(status_type='cancelled_by_driver') 被司机取消率from trips

CDA117556

2022-01-23

33.6822 6 0

行为转化中 lag开窗函数

淘宝案例行为转化分析，分组取出的表中上一行下一行比值，上一行用开窗函数lag（） over()-- 2.行为转化分析（转化率=当前行为人数/上一行为人数)select behavior_type, count(distinct user_id) as 用户人数, lag(count(distinct user_id),1) over(order by if(behavior_typ

CDA117556

2022-01-23

33.6822 6 0

group by 和窗口分区的表现区别

select user_id, login_date, max(login_date) over(partition by user_id) 最晚登陆日期 from user_log; select user_id, login_date, max(login_date) over(partition by user_id) 最晚登陆日期 from user_log group by user

CDA117556

2022-01-22

34.0963 6 0

开窗函数拓展

nth_value() over() 返回窗口第n行的值ntile(n) over() 每组数据分成n个片区装在n个桶里，桶里不能相差超过一，常用于在一列中不同类别前多少名的情况使用percent_rank() over （）分组内当前rank值-1/分组总行-1，可以说是序号占比了cume_dist() over（）分组内累计占比

CDA117556

2022-01-21

40.4992 7 0

连续天数sql

6、-- 选出各城市连续完单天数最长的快车司机 select city_name,driver_id,司机连续完单天数 from (select city_name, driver_id, count(*) as 司机连续完单天数, max(count(*)) over(partition by city_name) as 城市最长连续完单天数 from (select *, row_nu

CDA117556

2022-01-21

33.2555 8 0

上课sql代码总结

缺失值处理 select sum(user_id is null), sum(item_id is null), sum(item_category is null), sum(behavior_type is null), sum(user_geohash is null), sum(times is null), sum(amount is n

CDA117556

2022-01-21

97.7644 8 0