如何在 Pandas 中将 DataFrame 列转换为日期时间？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何在 Pandas 中将 DataFrame 列转换为日期时间？

如何在 Pandas 中将 DataFrame 列转换为日期时间？

2023-04-23

Pandas是一种非常流行的数据分析和处理工具，它提供了许多强大的功能来处理和操作数据。其中一个常见的需求是将DataFrame中的列转换为日期时间类型。在本文中，我将向您介绍如何在Pandas中实现此目标。

Pandas中的日期时间类型

在开始转换之前，我们需要理解Pandas中的日期时间类型。Pandas中有两种主要的日期时间类型：Timestamp和DatetimeIndex。Timestamp表示单个时间戳，而DatetimeIndex则是由多个时间戳组成的索引。

要将列转换为日期时间类型，我们需要使用Pandas.to_datetime()函数。该函数可以将多种不同格式的输入转换为日期时间类型，并返回一个Series或DataFrame对象。

例如，假设我们有以下DataFrame：

import pandas as pd

df = pd.DataFrame({ 'date': ['2022-01-01', '2022-01-02', '2022-01-03'], 'value': [1, 2, 3]
})

我们想将'date'列转换为日期时间类型。我们可以使用to_datetime()函数来实现这一点：

df['date'] = pd.to_datetime(df['date'])

这将使'date'列变为DatetimeIndex类型。如果我们只想保留Timestamp类型，则可以将参数设置为“timestamp”：

df['date'] = pd.to_datetime(df['date'], utc=True).dt.tz_convert(None)

这将使'date'列变为Timestamp类型，并删除时区信息。

将多列转换为日期时间类型

有时我们需要将DataFrame中的多个列转换为日期时间类型。在这种情况下，我们可以使用Pandas的apply()函数和to_datetime()函数来实现。

例如，假设我们有以下DataFrame：

import pandas as pd

df = pd.DataFrame({ 'year': [2022, 2022, 2023], 'month': [1, 2, 3], 'day': [1, 2, 3], 'value': [1, 2, 3]
})

我们想将'year'、'month'和'day'列转换为日期时间类型，并将它们合并到一列中。我们可以使用以下代码来实现：

df['date'] = df.apply(lambda x: pd.to_datetime(f"{x['year']}-{x['month']}-{x['day']}"), axis=1)

这将创建一个新的'date'列，其中包含年份、月份和日期信息。注意，我们使用了apply()函数来遍历DataFrame中的每一行，并将每一行的'year'、'month'和'day'列组合成单个字符串，然后使用to_datetime()函数将其转换为日期时间类型。

处理不同的日期时间格式

在实际情况中，我们可能会遇到多种不同的日期时间格式。在这种情况下，我们可以使用Pandas的format参数来指定输入字符串的格式。

例如，假设我们有以下DataFrame：

import pandas as pd

df = pd.DataFrame({ 'date': ['2022-01-01', '02/01/2022', 'Jan 3, 2022'], 'value': [1, 2, 3]
})

我们想将'date'列转换为日期时间类型，但它包含多种不同的日期格式。我们可以使用以下代码来实现：

df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d', errors='coerce').fillna(pd.to_datetime(df['date'], format='%d/%m/%Y', errors='coerce')).fillna(pd.to_datetime(df['date'], format='%b %d, %Y', errors='coerce'))

在这个例子中，我们使用了to_datetime()函数的format参数来指定输入字符串的格式。注意，我们在第一个调用中使用了errors参数，并将其设置为“coerce”。这意味着如果无法解析日期时间，则将其转换为NaT值（Not a Time）。然后

我们使用fillna()函数来填充NaN值，以便我们可以使用多个不同的日期格式进行转换。

处理时区信息

当处理日期时间数据时，有时需要考虑时区信息。Pandas中提供了一些函数来帮助处理时区信息。

例如，假设我们有以下DataFrame：

import pandas as pd

df = pd.DataFrame({ 'date': ['2022-01-01 00:00:00+00:00', '2022-01-02 00:00:00+00:00', '2022-01-03 00:00:00+00:00'], 'value': [1, 2, 3]
})

我们想要将'date'列转换为本地时间，并删除时区信息。我们可以使用以下代码来实现：

df['date'] = pd.to_datetime(df['date'], utc=True).dt.tz_convert(None)

在这个例子中，我们首先将'date'列转换为UTC时间，然后使用dt.tz_convert()函数将其转换为本地时间，并使用None作为参数来删除时区信息。

总结

在本文中，我们介绍了如何在Pandas中将DataFrame列转换为日期时间类型。具体而言，我们了解了如何使用to_datetime()函数将单个列转换为日期时间类型，如何使用apply()函数和to_datetime()函数将多个列组合成单个日期时间列，如何处理不同的日期时间格式以及如何处理时区信息。

将DataFrame列转换为日期时间类型是数据分析和处理中的常见任务之一。通过使用Pandas提供的功能，我们可以轻松地完成这个任务，并在数据分析和处理过程中更轻松地使用日期时间数据。

推荐学习书籍
《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0