pandas如何提取每天固定时间段的数据？-CDA数据分析师官网

热线电话：13121318867

pandas如何提取每天固定时间段的数据？

2023-04-24

在数据分析和处理中，pandas是一个强大的工具。它可以轻松地在Python中进行数据处理，以及进行多种常见的数据操作，如索引、切片、聚合和过滤等。在这篇文章中，我们将学习如何使用pandas提取每天固定时间段的数据。

Pandas是一个基于NumPy的库，因此它的许多操作都与NumPy非常相似。 Pandas中的核心数据结构是Series和DataFrame。 Series是一维数组，DataFrame则是二维表格，类似于Excel或SQL中的表。

首先，我们需要创建一个DataFrame以便进行演示。为了简单起见，我们将使用由日期、时间和值组成的随机数据集。下面是示例代码：

import pandas as pd
import numpy as np

# 创建日期范围
dates = pd.date_range('2022-01-01', periods=24*60, freq='T')

# 创建数据集
data = pd.DataFrame({'date_time': dates,
                     'value': np.random.randint(0, 100, size=len(dates))})

接下来，我们可以使用pandas的resample方法来按照指定的时间间隔对数据进行重新采样。例如，我们希望每小时获取数据的平均值，则可以执行以下操作：

# 按小时重采样并计算平均值
hourly_data = data.resample('H', on='date_time').mean()

在这里，“H”表示小时，on参数指定我们要对哪一列进行重采样。在这种情况下，我们使用“date_time”列。

现在，假设我们想提取每天固定时间段的数据，比如上午10点到中午12点之间的数据。我们可以使用pandas的between_time方法来过滤出该时间段内的数据。下面是示例代码：

# 设置索引为日期时间
data = data.set_index('date_time')

# 提取每天10:00-12:00的数据
ten_to_twelve_data = data.between_time('10:00', '12:00')

在这里，我们将日期时间设置为索引，并使用between_time方法过滤出上午10点到中午12点之间的数据。注意，我们使用24小时制指定时间。如果您想使用12小时制，则必须指定AM或PM。

最后，我们可以将结果可视化以便查看。以下是示例代码：

import matplotlib.pyplot as plt

# 绘制原始数据和每天10:00-12:00的数据
plt.plot(data.index, data['value'], label='Raw Data')
plt.plot(ten_to_twelve_data.index, ten_to_twelve_data['value'], label='10:00-12:00 Data')
plt.legend()
plt.show()

在这里，我们使用matplotlib库绘制了原始数据和提取出来的上午10点到中午12点之间的数据。

总结：本文介绍了如何使用Pandas提取每天固定时间段的数据。首先，我们创建了一个包含随机日期时间和值的DataFrame。然后，我们使用pandas的resample方法对数据进行了重采样，以及使用between_time方法过滤出了每天10点到中午12点之间的数据。最后，我们将结果可视化以便查看。Pandas是Python中必不可少的工具之一，特别是在数据处理和分析方面，它可以帮助我们节省大量时间和精力。

CDA学员免费下载查看报告全文：2026全球数智化人才指数报告【CDA数据科学研究院】.pdf

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；