pandas 如何在已有dataframe的基础上，指定它的某某列为索引？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代pandas 如何在已有dataframe的基础上，指定它的某某列为索引？

pandas 如何在已有dataframe的基础上，指定它的某某列为索引？

2023-04-25

Pandas是一个开源的Python数据分析库，它提供了一种灵活的数据结构 DataFrame，可用于处理和操作大型数据集。在Pandas中，DataFrame是一种二维表格数据结构，类似于Excel电子表格或SQL数据库表，并且支持标签索引和自由数据类型。

在Pandas中，我们可以指定DataFrame的某个列作为索引，以便更方便地访问和操作数据。下面将介绍如何在已有DataFrame的基础上指定某个列为索引。

首先，我们需要创建一个示例DataFrame来演示如何指定索引。假设我们有以下数据：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 30, 35, 40],
        'gender': ['F', 'M', 'M', 'M']}
df = pd.DataFrame(data)
print(df)

输出结果如下：

      name  age gender
0    Alice   25      F
1      Bob   30      M
2  Charlie   35      M
3    David   40      M

这是一个简单的DataFrame，包含三列数据：姓名、年龄和性别。现在我们想把“姓名”列作为索引，以便更方便地访问和操作数据，该怎么做呢？

Pandas提供了set_index()函数，可以用来指定DataFrame的某个列作为索引。下面是具体步骤：

df.set_index('name', inplace=True)
print(df)

输出结果如下：

         age gender
name              
Alice     25      F
Bob       30      M
Charlie   35      M
David     40      M

可以看到，现在“姓名”列已经成为了索引，位于表格左侧，并且索引的名称为“name”。

set_index()函数有一个参数inplace，如果设置为True，则直接修改DataFrame本身，而不是返回一个新的DataFrame。这样做的好处是可以省去创建新变量的过程，直接在原始数据上进行操作。

除了inplace参数外，set_index()函数还有其他一些可选参数，例如drop和append。drop参数用于指定是否在DataFrame中删除指定列，而append参数用于指定是否将新索引添加到当前索引之后。具体使用方法可以参考Pandas官方文档。

需要注意的是，一旦指定了某个列作为索引，就不能再通过它的列名访问该列数据了，而必须使用loc或iloc等Pandas提供的方法进行访问。例如：

print(df.loc['Alice'])

输出结果如下：

age       25
gender     F
Name: Alice, dtype: object

可以看到，现在我们可以通过姓名来访问每个人的其他信息，比如年龄和性别了。

总结一下，在Pandas中，我们可以使用set_index()函数来指定DataFrame的某个列作为索引，以便更方便地访问和操作数据。具体使用方法需要注意inplace、drop和append等参数，同时需要注意一旦指定了某个列作为索引，就不能再通过它的列名访问该列数据了，而必须使用loc或iloc等Pandas提供的方法进行访问。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；