CDA数据科学研究院 CDA考试中心 CDA网校 企业服务
CDA社区
CDA竞赛 CDA技术答疑 CDA俱乐部
关于CDA APP下载 新媒体帐号交易(经管新媒) 新媒体帐号交易(经管新媒)

CDA

  • 最新
  • 热门
  • 关注
  • 推荐
  • 问答
登录 注册
免密码登录
获取验证码
行为验证™ 安全组件加载中
提交 首次登录验证后自动注册

  • 创作中心
  • 我的消息
  • 我的收藏
  • 个人资料
  • 点赞能量: %
  • 点赞价值:
  • 文章
  • 问答
  • 评论
  • 粉丝
  • 关注中
  • 钱包
  • 奖励

把问题描述的具体一些呀

0 0 1

85691082

2020-09-16

用质能方程编写一个计算物体所拥有能量的函数?

我在往上看qcut是等频分箱,分出来每箱个数都一样,如图,网上这个跟您的代码有什么区别吗,您是怎么做到qcut出来是等距分箱的呢?1.png

0 0 2

wangxishi

2020-09-16

求python做等宽分布

最后的结果如果我不想除以总数5000,而是‘’北京‘’列下面的的数据显示北京总数的占比,黑龙江列的数据显示的是黑龙江总数的占比,就是分别显示两列总数的占比,怎么做呢

0 0 0

wangxishi

2020-09-16

求python做等宽分布

之前网上看到过关于该问题的解决方法,链接:https://www.jianshu.com/p/a1241683ae45

1 0 0

羊羊羊123#

2020-09-16

power BI导入ppt不能创建嵌入代码

1、从代码角度来说是可以的,只要你能想象出最终数据的样子就能写出代码来。但是分箱有时候还需要结合业务来处理。


2、“注册时长_y”是在执行merge操作时自动生成的,你可以将代码拆分,分步执行看看没执行一行代码带来什么变化。 最后/5000是除以总数,可以算出某种情况占总体的比例,这块可以设置为变量,根据实际总数变化而变化。


3、qcut 与 cut 的详细区别可以查看官方文档。qcut用来实现等宽分箱,cut是根据自己定义的切分点进行分箱。这是两个函数的主要区别。

1 0 0

wangxishi

2020-09-16

求python做等宽分布

1,是所有变量都要分箱,但是可能有的变量需要手动调整分箱,可以把不需要手动调整分箱的变量一次性分箱吗

2,之前这行代码temp = df.groupby(["注册时长_y","sf"]).count()['序号'].unstack(1)/5000里面的【注册时长_y】是在哪个位置命名的?【unstack(1)/5000】是什么意思?

3,qcut和cut有什么区别?

谢谢

0 0 1

wangxishi

2020-09-16

求python做等宽分布

感觉应该是数据的问题,方便把数据以及代码发过来吗?

0 0 0

liunan-0226

2020-09-15

power query里错误信息提示 [DataFormat.Error] 无法转换为 Number。

1、上一个问题

代码如下

# 导入工具包

import pandas as pd

import numpy as np


# 导入原始数据

df = pd.read_excel("./data/1600139052_431496.xlsx")


# 数据转换

qc = pd.qcut(df.sort_values("注册时长")["注册时长"],q=4) #

df = pd.merge(df,qc,left_index=True,right_index=True) #

temp = df.groupby(["注册时长_y","所在省份"]).count()["序号"].unstack(1)/5000 #

temp["PSI"] = temp.apply(lambda x:(x[1]-x[0])*(np.log10(x[1]/x[0])/np.log10(np.e)),axis=1) # 计算PSI


# 数据存盘

temp.to_excel("result.xlsx")


2、一次性跑出来也是可以的,但不是所有变量都要分箱吧

1 0 0

wangxishi

2020-09-15

求python做等宽分布

还有一个问题,可以一次性跑出所有列的分箱吗

0 0 1

wangxishi

2020-09-15

求python做等宽分布

我想在最后一列加上每个分箱的psi指标和总的psi,请问怎么加呢

1.png

0 0 0

wangxishi

2020-09-15

求python做等宽分布

import pandas as pd

df = pd.read_excel("./data/1600139052_431496.xlsx")

qc = pd.qcut(df.sort_values("注册时长")["注册时长"],q=4) # 等宽分箱

df = pd.merge(df,qc,left_index=True,right_index=True) # 拼接数据集

df.groupby(["注册时长_y","所在省份"]).count()["序号"].unstack(1)/5000 #聚合转换


1 0 0

wangxishi

2020-09-15

求python做等宽分布

对,就是这个效果,可以给我下完整代码吗

0 0 0

wangxishi

2020-09-15

求python做等宽分布

对,可以给我下完整的代码吗

0 0 0

wangxishi

2020-09-15

求python做等宽分布

是类似这样的效果?分箱分的是注册时长image.png

0 0 1

wangxishi

2020-09-15

求python做等宽分布

之前的解答没有解决我这个区分各省市的问题

0 0 1

wangxishi

2020-09-15

求python做等宽分布

想实现分箱后区分出省份的效果,原始数据里面有省份,如图,请问如何操作

1.png

0 0 0

wangxishi

2020-09-15

求python做等宽分布

这个是想统计每箱的人数。代码可以按如下方式写:

qc.value_counts().sort_index()/5000 # 这里5000是总数量

效果如下:

image.png

如果不是等宽分箱可以自己手动指定宽度。这时需要使用pandas的cut方法。

0 0 0

wangxishi

2020-09-15

求python做等宽分布

一句话概括all 和all selected的区别:all 即是all,计算总合计值,使得所有筛选(包含维度筛选以及切片器筛选)失效

0 0 0

ged_2357

2020-09-15

DAX 表达式

帖子出错 ,应该是

win + r ----> cmd ----> 输入 d:

1 0 0

s1223452840

2020-09-15

anaconda 怎么查看d盘中的课件?

再补充一下,分箱出来想自动计算好每箱占比,请问怎么操作,如图

1.png


0 0 1

wangxishi

2020-09-15

求python做等宽分布

<1…100101102…155>
Copyright © 2015-2020, www.pinggu.com All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有 京ICP备18052299号-1