数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

点赞能量: %
点赞价值:

应该是你的csv文件有问题，比如空行或者其他不明字符，你可以上传下文件

0 0 0

旭旭纸

2021-02-17

MYSQL无法导入数据

因为mysql不支持with as语法，而子查询一层又一层让人崩溃，生成永久表又太占用空间，我只能这样了，

0 0 0

ermutuxia

2021-02-16

用mysql计算用户留存率

在理解意思的情况下，下面这个代码更简洁一些
import pandas as pd
import numpy as np
#导入数据生成数据框data1
#可能由于一些原因导致审核通过日期等变量导入到python中之后变成了字符串变量
data1=pd.read_csv("D:\\A2021_02_13.csv")

#先把审核通过的数据挑出来生成新数据框data2
#这个数据是从mysql数据库中导出的，在mysql数据库中如果审核没有通过，则审核通过日期用-1表示
#这种为-1的数据不是我们需要的，
#所以我们把非-1数据挑选出来。

data2=data1[data1["审核通过日期"]!="-1"]
#需要说明的是学生在mysql数据库中提取这个数据的时候帮我进行了筛选，所以我们这个数据中不存在-1的情况
#我之所以还是把这个命令放到这里，是希望大家在做数据清洗的时候需要注意到这样的业务问题。

#将统计日期和提交资料日期字符串变成日期时间型
data2["统计日期"]=data2["统计日期"].map(lambda x :pd.Timestamp(x))
data2["提交资料日期"]=data2["提交资料日期"].map(lambda x :pd.Timestamp(x))
data2["审核通过日期"]=data2["审核通过日期"].map(lambda x :pd.Timestamp(x))

#计算重要变量
def f1(x):
aa=x["统计日期"]-x["审核通过日期"]
bb=aa.days
return bb
data2["距离审核通过第多少天"]=data2.apply(f1,axis=1)

#根据审核通过日期对数据进行筛选
data3=data2[(data2["审核通过日期"]>=pd.Timestamp("2021-01-01")) & (data2["审核通过日期"]<=pd.Timestamp("2021-01-24"))]

#计算每个人在每个统计日期的总销量
#团长ID为每一个人的唯一标识ID
#每一个人是有很多行记录的
#在一个审核通过日期，可能有很多人通过审核
pivot_table1=data3.pivot_table(values=["销量"],
index=["审核通过日期","团长ID","距离审核通过第多少天"],
aggfunc={ "销量":np.sum})

#更改变量名字，为了以后的调用方便
pivot_table1.columns=["销量"]
#将索引变成普通字段
pivot_table1.reset_index(inplace=True)
#生成是否消费字段
pivot_table1["是否消费"]=pivot_table1["销量"].map(lambda x:1 if x>0 else 0)

#只保留"距离审核通过第多少天"小于等于7的情况
pivot_table1.drop(index=pivot_table1.index[pivot_table1["距离审核通过第多少天"]>7],axis=0,inplace=True)

pivot_table1.set_index(["审核通过日期","团长ID","距离审核通过第多少天"],drop=True,inplace=True)

#将序列由长变宽
ddd=pivot_table1["是否消费"].unstack(level=-1)

#计算是否一日留存
ddd["是否一日留存"]=ddd.apply(lambda x:1 if x[0]==1 else 0,axis=1)
#计算是否次日留存
ddd["是否次日留存"]=ddd.apply(lambda x:1 if x[0]==1 and x[1]==1 else 0,axis=1)

#计算是否次日留存
ddd["是否7日留存"]=ddd.iloc[:,:7].sum(axis=1)==7
ddd["temp"]=1

result=ddd.loc[:,["temp","是否次日留存","是否7日留存"]].sum(axis=0)

print("次日留存率为",result["是否次日留存"]/result["temp"])
print("7日留存率为",result["是否7日留存"]/result["temp"])

2 0 0

ermutuxia

2021-02-14

用python进行用户留存率的查询计算

老师, 按理来说SQL Sever与My SQL不是没有太大区别么

0 0 0

lzp1127774265

2021-02-12

SQL语句运行报错

问题已解决，谢谢！

0 0 0

lzp1127774265

2021-02-12

SQL语句运行报错

mysql答案语句如下：
use test1;
CREATE TABLE test1 (city varchar(10), gender char(1));

INSERT INTO test1 (city, gender)

VALUES ('Delhi', 'M')

,('Delhi', 'F')

,('Delhi', 'M')

,('Delhi', 'M')

,('Pune', 'F')

,('Pune', 'M')

,('Pune', 'F')

,('Pune', 'F')

,('Banglore', 'F')

,('Banglore', 'F')

;

SELECT city,COUNT(*)AS "人数合计",

SUM(CASE WHEN gender='M' THEN 1 ELSE 0 END)AS "女士人数",

SUM(CASE WHEN gender='F' THEN 1 ELSE 0 END) AS "男士人数"

FROM test1 GROUP BY city ;

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

mysql可以是它会从多个值里面随便选一个值作为这个列的返回值。

1 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

这个是sql server的题目哦

0 0 1

lzp1127774265

2021-02-10

SQL语句运行报错

SELECT city,COUNT(*)AS "人数合计"
SUM(CASE WHEN gender='M' THEN 1 ELSE 0 END)AS "女士人数",
SUM(CASE WHEN gender='F' THEN 1 ELSE 0 END) AS "男士人数"
FROM test1 GROUP BY city
把order by删了，你前面按照city分组之后，性别这列就变成了一对多了，一个分组肯定会有多个性别在，所以数据库没办法判断你是用哪个性别排序，反正题目也没要求，你可以直接删了排序，如果一定要排序把性别也丢去分组估计也可以

1 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

Sql server和mysql是不一样的

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

我是在SQL Sever里面运行的这段代码

1 0 1

lzp1127774265

2021-02-10

SQL语句运行报错

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

你这个分组命令我在mysql里面试了是可以执行的。你是在什么数据库里面执行的这个查询代码

0 0 0

lzp1127774265

2021-02-10

SQL语句运行报错

use test1;
CREATE TABLE test1 (city varchar(10), gender char(1));

INSERT INTO test1 (city, gender)

VALUES ('Delhi', 'M')

,('Delhi', 'F')

,('Delhi', 'M')

,('Delhi', 'M')

,('Pune', 'F')

,('Pune', 'M')

,('Pune', 'F')

,('Pune', 'F')

,('Banglore', 'F')

,('Banglore', 'F')

;

SELECT city,COUNT(*)AS "人数合计",

SUM(CASE WHEN gender='M' THEN 1 ELSE 0 END)AS "女士人数",

SUM(CASE WHEN gender='F' THEN 1 ELSE 0 END) AS "男士人数"

FROM test1 GROUP BY city ORDER BY gender

0 0 2

lzp1127774265

2021-02-10

SQL语句运行报错

可以看到存在这个库，如果你的这个文件里没有这个库，则说明你的版本和你的命令不匹配，有可能是你的sklearn版本太新或者太老

0 0 0

CDA100823

2021-02-10

plot_roc_curve导入错误

0 0 0

CDA100823

2021-02-10

plot_roc_curve导入错误

我这边是可以导入的，是你的sklearn版本太老或者太新吗？

0 0 0

CDA100823

2021-02-10

plot_roc_curve导入错误

我试过了，重新配置了。问题还是存在

0 0 1

809669515

2021-02-09

MySQL workbench报错

<1…686970…155>