数据科学专业问答社区，好文章，一字千金--CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

点赞能量: %
点赞价值:

一表是指表中的关键字段没有重复值，多表是指表中的关键字段的取值有重复值。

0 0 1

shang9252

2020-04-29

MySQL

解题思路：常用df.index获取行索引，获取到是dataframe的所有索引，例如题目中的表，如果用df.index获取索引的结果是这样：MultiIndex([('第一分公司', '销售部'), ('第一分公司', '市场部'), ('第一分公司', '行政部'), ('第二分公司', '销售部'), ('第二分公司', '市场部'), ('第二分公司', '行政部')], names=['公司', '部门']) 不符合题目要求。而索引本身有查找单独某一重索引的方法，即get_level_values（），参数指定索引位置或者索引名，即可提取出指定的索引值。

0 0 0

yuechuchen

2020-04-29

从多重索引的dataframe获取指定某一重索引，题目详情见正文

解题思路：当dataframe有多重索引时，用loc或者iloc索引数据默认按照外层索引，索引不到内层索引，需要调用dataframe的xs方法，dataframe.xs方法进行索引时很灵活，可以通过lecel参数控制按照指定的索引进行数据查询。

0 0 0

yuechuchen

2020-04-28

多重索引的dataframe种，如何根据某一层索引切片数据？题目详情见正文

解题思路：为dataframe添加双重索引，第一步：先通过pd.MultiIndex创建索引对象，可以通过元组创建索引也可以通过列表或者数组创建索引，所以参考答案分别用了这两种方法创建好双重索引；第二步，将建好的索引添加给dataframe，直接通过为dataframe.index赋值的方式将创建好的双重索引添加给目标dataframe即可。

0 0 0

yuechuchen

2020-04-28

为dataframe添加双重索引，题目详情见正文

解题思路：pandas基于numpy构建，所以pandas中的series和dataframe是numpy中的大多数通用函数的有效参数，提取最大最小值，通过numpy中的max和min函数与切片语法连用

0 0 0

yuechuchen

2020-04-27

提取dataframe中符合要求的记录，题目详情见正文

解题思路：方法一：style方法对表中数据应用条件，注意：设置完成后的结果是一个Styler对象，不能对Styler对象进行dataframe方法的操作。方法二：apply方法与匿名函数以及字符串格式化方法连用实现题目要求的效果

0 0 0

yuechuchen

2020-04-27

dataframe列数值格式设置，问题详情见正文

解题思路：运用groupby方法依据”职级“字段对df表分组，对分组后的groupby对象运用get_group方法提取”中级“组内的所有信息

0 0 0

yuechuchen

2020-04-27

dataframe数据分组，题目详情见正文。

解题思路：读取csv文件，index_col参数控制以哪一列数据作为行索引，usecols参数控制选择原文件中的哪些列，nrows控制读取的行数

0 0 0

yuechuchen

2020-04-27

python读取文件，详情见正文。

解题思路：方法一：apply方法接收的参数为另一个函数，apply函数的作用是讲作为参数传入的函数作用到指定列中的每一个元素。如题目中的解答方式，匿名函数的作用是查找以“中”开头的字符，通过apply方法将匿名函数作用到“职级"列中的每一个元素，即寻找所有”中级“的员工，最后运用切片把符合要求的记录切取出来。方法二：pandas是基于numpy构建的，打他frame也支持广播功能，可以直接用双等号进行判断，通过判断结果再切片符合要求的记录。

0 0 0

yuechuchen

2020-04-27

从dataframe中提取符合条件的记录，题目详情见正文。

解题思路：pd.to_datatime()能够将一整列不规范的日期格式转化成统一的规范的日期格式，同时将转换后的列替换掉原来不符合要求的列

0 0 0

yuechuchen

2020-04-27

将格式不规范的日期列转化成规范的日期格式，题目详情见正文

解题思路：通过DataFrame中的isin方法选择符合条件的行记录

0 0 0

yuechuchen

2020-04-27

提取dataframe中指定行信息，题目详情见正文

题目要实现的结果本质上是展现每个name对应的frequency和CTR，并且名字下边对应的就是CTR，不保留CTR字段，第一步：表中的name字段有重复值，先按照name分组并按照CTR排序，题目没有要求排序，排序的作用将groupby对象转化成DataFrame对象；第二步，分组后形成双重索引，并且索引名与列名重复，重置列名并删掉与索引重名的字段name，同时将name列提出赋值，从中提取不重复的name；第三步，把每一个name对应的数据提取成单独的表，运用循环进行拼接并更改列名，完成题目要求

0 0 0

yuechuchen

2020-04-27

dataframe数据重组，题目详情见正文。

如果是或得关系，需要把条件区域得不同条件设置在不同行

0 0 0

若水若谷

2020-04-27

excel：高级筛选的步骤是？

盖帽法将某连续变量均值上下三倍标准差范围外的记录替换为均值上下三倍标准差值，Python中可自定义区间，题目中要求用百分之一分位数替换小于百分之分位数的数值，用百分之九十九分位数替换大于百分之九十九分位数的数值，本质是切取符合条件的数值并重新赋值

0 0 0

yuechuchen

2020-04-27

盖帽法处理ser中的异常值，题目详情见正文

哈哈哈，一般遇到过后直接百度，挺快的。不过有些时候，后面的英文描述也很清楚了

0 0 0

南风不竞最光阴

2020-04-27

mysql 报错代码合集

解题思路：时长是客户偏好的具体表现形式，读取数据后，第一步按照时长进行降序排序；第二步，提取机顶盒信息，并按照机顶盒名称排序；第三步，重置每一个机顶盒对应的索引；第四步，依据机顶盒分组并按照时长降序排序；第五步，按照频道名称撤销堆叠，得到预计结果。具体实现代码： import pandas as pd data = pd.DataFrame() data["机顶盒设备号"] = ["10001","10001","10002","10002","10002","10002","10003","10003","10003","10003","10004","10004","10005","10005","10005"] data["频道名称"] = ["东方卫视","翡翠台","浙江卫视","江苏卫视","珠江电影","卡酷动画","湖南卫视","中央5台","北京卫视","广东卫视","福建卫视","江西卫视","河北卫视","河南卫视","陕西卫视"] np.random.seed(0) data["时长"] = abs(np.random.randn(15)) data_s = data.sort_values(["机顶盒设备号","时长"],ascending=[True,False]) s = data_s.机顶盒设备号.value_counts().sort_index() list1 = [] for i in s.index: for j in range(s[i]): list1.append(j) data_s.index = list1 gp1 = data_s.groupby("机顶盒设备号").apply(lambda x : x.sort_values("时长",ascending = False)) gp1["频道名称"].unstack()

0 0 0

yuechuchen

2020-04-27

dataframe数据重组，题目详情见正文

参考答案： arr = np.array([[16., 29., np.nan, 42.],[np.nan, 75., np.nan, 67.],[71., 63., 8.,np.nan]]) arr[np.isnan(arr)] = 0 arr 实现结果与题目要求一致

0 0 0

yuechuchen

2020-04-27

numpy中缺失值的处理，题目详情见正文：

a的取值随着循环不断发生变化，当n取10的时候，a最终的取值是34；如果重新调用函数，改变n的取值，变量a的取值也会随之发生改变。

0 0 0

yuechuchen

2020-04-27

如何将局部变量声明成全局变量？具体题目描述见正文。

代码贴到帖子里，缩进消失了，参考答案时请注意代码缩进。

0 0 0

yuechuchen

2020-04-27

使用Python实现list(列表)中的重复元素删除，例如： X= [1,1,2,"a","a",[1,2,3]] 去重后：X= 「1,2,"a",[1,2,3]]

赞

0 0 0

田齐齐

2020-04-25

常见的业务分析方法

<1…141142143…155>