数据科学专业问答社区，好文章，一字千金--CDA答疑社区

交换多层索引的位置，问题详情见正文。

具有双重行索引的表如下：请交换行索引“公司”和“部门”的位置，实现效果如下：参考代码： list1 = [["第一分公司","第二分公司",] ,["销售部","市场部","行政部"]] index = pd.MultiIndex.from_product(list1, names=['公司', '部门']) df = pd.DataFrame({"姓名":["A

yuechuchen

2020-04-30

0.0000 0 5

自定义函数，输入任意整数，计算各位数字连乘的乘积例如输入整数1234，计算123*4输出结果24

参考代码： def mul(x): from functools import reduce if isinstance(x,int): return reduce((lambda x, y: x * y), map(int,[i for i in str(x)])) else: print("您输入的不是整数") 代码结果：

yuechuchen

2020-04-30

0.0000 0 2

dataframe设置多重索引列，题目详情见正文

来自不同分公司以及不同部门的员工汇总在一个表中，要求dataframe效果如下：参考代码： list1 = [["第一分公司","第二分公司",],["销售部","市场部","行政部"]] index = pd.MultiIndex.from_product(list1, names=['公司', '部门']) df2 = pd.DataFrame([["Allen","Lucy","To

yuechuchen

2020-04-30

0.0000 0 1

从多重索引的dataframe获取指定某一重索引，题目详情见正文

双重索引的df表，请分别单独获取量重索引值。 df表具体如下：实现效果如下： Index(['第一分公司', '第一分公司', '第一分公司', '第二分公司', '第二分公司', '第二分公司'], dtype='object', name='公司') Index(['销售部', '市场部', '行政部', '销售部', '市场部', '行政部'], dtype='object',

yuechuchen

2020-04-29

59.6056 4 3

pandas1.0新版本之----缺少值的布尔数据类型支持

pandas1.0版本增加了BooleanDtype/BooleanArray专用于布尔数据的扩展类型，可以保留缺失值。默认的bool数据类型基于bool-dtype NumPy数组，只能保存True或False，不能兼容缺少值。BooleanArray通过在单独的掩码中跟踪缺失值，此新功能还可以存储缺失值。代码示例： pd.Series([True, False, np.nan], dtyp

yuechuchen

2020-04-28

0.2655 1 5

pandas1.0新版本之----专用字符串数据类型

pandas1.0之前的版本，字符串通常存储在object-dtype NumPy数组中，新版本中添加了StringType了专用于字符串数据的扩展类型。以前版本中,字符串格式的数据在pandas中使用的数据格式是”object”。代码示例： np.random.seed(0) B = pd.Series(["Allen","Lucy","Tom","Alice","Tim","Lily"],

yuechuchen

2020-04-28

0.2655 1 0

pandas1.0新版本之----增加pd.NA标量表示缺失值

1.0之前的pandas版本常用np.nan表示缺失值，其中有一个缺陷即np.nan为float数据类型，当一列数据中出现np.nan，整列数据的数据类型都会随之转变成float类型，pd.NA可为空的整数和布尔数据类型以及新的字符串数据类型使用，代码示例如下： pd.DataFrame([1,2,3,pd.NA]) pd.DataFrame([1,2,3,np.nan]) 代码结果：用

yuechuchen

2020-04-28

1.2876 2 2

pandas1.0新版本改进之----增加to_markdown() 方法支持markdown格式输出

pandas新的1.0版本中，增加了支持markdown格式输出的方法，能够将代码创建的dataframe快速输出为markdown格式下的表格形式。具体操作代码如下： pip install tabulate #提前下载辅助库 np.random.seed(0) B = pd.Series(["Allen","Lucy","Tom","Alice","Tim","Lily"], dtype="

yuechuchen

2020-04-28

1.1180 2 2

多重索引的dataframe种，如何根据某一层索引切片数据？题目详情见正文

请选择df表中所有销售部门的记录，df表详情如下：参考答案： list1 = [["第一分公司","第二分公司",],["销售部","市场部","行政部"]] index = pd.MultiIndex.from_product(list1, names=['公司', '部门']) df = pd.DataFrame({"姓名":["Allen","Lucy","Tom","Alice",

yuechuchen

2020-04-28

5.7656 2 4

为dataframe添加双重索引，题目详情见正文

已有data表如下：姓名工龄 0 Allen 2 1 Lucy 4 2 Tom 2 3 Alice 3 4 Tim 1 要求为data表添加双重行索引，目标效果如下：参考答案方法一： data =pd.DataFrame({"姓名":["Allen","Lucy","Tom","Alice","Tim"],"工龄":np.

yuechuchen

2020-04-28

4.7435 1 4

dataframe列数值格式设置，问题详情见正文

df表中random列的浮点型数值转化成百分数,df表如下： random 0 0.548814 1 0.715189 2 0.602763 3 0.544883 实现效果如下： random 0 54.88% 1 71.52% 2 60.28% 3 54.49% np.random.seed(0

yuechuchen

2020-04-27

75.1666 4 4

提取dataframe中符合要求的记录，题目详情见正文

提取df表中出勤天数最多和最少的记录，df表如下：姓名出勤天数职级 0 张山 18 初级 1 王川 21 中级 2 李湖 19 中级 3 赵海 18 高级实现效果如下：姓名出勤天数职级 1 王川

yuechuchen

2020-04-27

0.0908 1 2

dataframe数据分组，题目详情见正文。

按照“职级”对df表进行分组汇总，并查看“中级”组内信息。df表信息如下：姓名出勤天数职级 0 张山 18 初级 1 王川 21 中级 2 李湖 19 中级 3 赵海 18 高级实现效果如下：姓名出勤天数职级 1 王川 21

yuechuchen

2020-04-27

0.1244 2 2

python读取文件，详情见正文。

超大的文件全部读入python耗时耗力，选择读取文件时只读取一部分，比如只读取指定列和部分行，请以example.csv文件(下表)为例，读取其中的”实验编号"和"实验结果“两列，读取行数为3行. 实验编号实验室编号主实验员编号实验结果 0 144 413 36744 Y 1 147

yuechuchen

2020-04-27

0.1244 2 1

从dataframe中提取符合条件的记录，题目详情见正文。

从df表中提取职级是“中级”的员工信息，df表详情：姓名出勤天数职级 0 张山 18 初级 1 王川 21 中级 2 李湖 19 中级 3 赵海 18 高级实现效果如下：姓名出勤天数职级 1 王川 21 中级 2 李湖 19

yuechuchen

2020-04-27

0.1244 2 2

将格式不规范的日期列转化成规范的日期格式，题目详情见正文

将格式不规范的日期列转化成规范的日期格式，表详情如下：日期门店销售额 0 07 Jan 2020 22 1 07-01-2019 25 2 20180310 10 3 2017/02/05 13 4 2016-01-

yuechuchen

2020-04-27

0.1244 2 2

提取dataframe中指定行信息，题目详情见正文

df数据表，表格信息如下： frequency CTR name 0 13 0.437587 0234s3 1 16 0.891773 023dfr 2 1 0.963663 34s231 3 4 0.38

yuechuchen

2020-04-27

0.0908 1 2

dataframe数据重组，题目详情见正文。

df数据表：汇总每个name对应的frequency和CTR，去掉列名CTR，列名用具体的name替代，结果如下（示例为结果的一部分）：参考答案： np.random.seed(0) df = pd.DataFrame({"frequency":np.random.randint(1,20,8) ,"CTR":np.random.uniform(0,1

yuechuchen

2020-04-27

0.1237 2 2

盖帽法处理ser中的异常值，题目详情见正文

盖帽法处理ser中的异常值，ser如下： a 55.33 b 71.80 c 60.67 d 54.94 e 42.94 dtype: float64 实现效果如下： a 55.33 b 71.35 c 60.67 d 54.94 e 43.42

yuechuchen

2020-04-27

0.0908 1 2

break和continue这两个关键字有哪些主要的异同点

相同点：这两个关键字都必须在循环中使用，不可以脱离循环单独使用不同点：break是打断整个循环，即使后边依然有满足循环的条件循环也不再继续，使当前循环完全结束。 continue是跳过本次循环，如果循环条件依然满足，进入下一次循环，循环还可以继续执行代码示例：

yuechuchen

2020-04-27

0.0908 1 3