如何使用Python和Pandas处理SQLite数据库？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代如何使用Python和Pandas处理SQLite数据库？

如何使用Python和Pandas处理SQLite数据库？

2023-05-09

SQLite是一种轻量级的关系型数据库，它被广泛用于嵌入式设备和小型应用程序中。Python中的Pandas库提供了一个简单而强大的接口来处理SQLite数据库。

在本文中，我们将探讨如何使用Python和Pandas来连接、查询和修改SQLite数据库。我们将从安装必要的软件开始，然后介绍基本的Pandas操作，最后演示如何使用SQLite作为数据存储。

安装必要的软件

首先，我们需要确保我们已经安装了Python和Pandas库。如果您还没有这些软件，请按照下面的步骤进行安装：

前往Python官方网站下载并安装适合您操作系统的版本。
打开命令行或终端窗口，并运行以下命令安装Pandas库：pip install pandas

在我们开始连接SQLite数据库之前，我们还需要安装SQLite驱动程序。有几个选项可供选择，但我建议使用sqlite3模块，因为它与Python标准库捆绑在一起，所以无需额外安装。

如果您使用的是较新的Python版本，则可能无需安装任何东西。否则，请在命令行中键入以下内容：

pip install pysqlite3

连接到SQLite数据库

一旦我们完成了安装，就可以使用Pandas连接到SQLite数据库了。下面是一个基本的例子：

import pandas as pd import sqlite3 # 创建一个连接对象 conn = sqlite3.connect('example.db') # 从数据库中读取数据并转换为DataFrame对象 df = pd.read_sql_query("SELECT * FROM my_table", conn) # 关闭连接 conn.close()

在这个例子中，我们首先创建了一个名为example.db的SQLite数据库的连接对象。然后，我们使用pd.read_sql_query()函数将一个SQL查询结果转换为Pandas DataFrame对象。最后，我们关闭了与数据库的连接。

请注意，pd.read_sql_query()函数接受两个参数：SQL查询和连接对象。如果您有一个更复杂的查询，可以直接将查询字符串传递给该函数。

在Pandas中操作数据

一旦我们成功连接到SQLite数据库，我们就可以在Pandas DataFrame中执行各种操作了。以下是一些例子：

查询数据

# 选择特定列 df[['col1', 'col2']] # 过滤行 df[df['col1'] > 10] # 排序 df.sort_values('col1')

修改数据

# 增加新列 df['new_col'] = df['col1'] + df['col2'] # 替换值 df.loc[df['col1'] == 10, 'col2'] = 0 # 删除行 df.drop(index=[0, 1])

聚合数据

# 计算总和 df.sum() # 按列分组，并计算平均值 df.groupby('col1').mean()

上面这些是Pandas中最基本的操作，但它们足以处理大多数数据集。

使用SQLite作为数据存储

最后，我们将演示如何使用SQLite作为数据存储。要创建一个新表，请执行以下操作：

import sqlite3 # 创建一个连接对象 conn = sqlite3.connect('example.db') # 创建一个游标对象 c = conn.cursor() # 执行SQL语句来创建一个新表 c.execute('''CREATE TABLE my_table
             (id INTEGER PRIMARY KEY,
              col1 INTEGER,
              col2 TEXT)''') # 提交更改并关闭连接 conn.commit()
conn.close()

在上面的例子中，我们首先创建了一个连接到example.db数据库的连接对象。然后，我们创建了一个游标对象，该对象用于执行SQL命令。接下来

，我们使用execute()方法执行了一条SQL命令来创建名为my_table的新表，该表包含三个列。最后，我们提交更改并关闭连接。

在表中插入数据也很简单：

import sqlite3 # 创建一个连接对象 conn = sqlite3.connect('example.db') # 创建一个游标对象 c = conn.cursor() # 插入一行数据 c.execute("INSERT INTO my_table (col1, col2) VALUES (?, ?)", (10, 'hello')) # 提交更改并关闭连接 conn.commit()
conn.close()

在上面的例子中，我们使用execute()方法来插入一行数据到my_table表中。我们使用占位符?和元组(10, 'hello')来传递值。

最后，要从表中检索数据，请使用与前面示例中相同的代码。您只需更新查询字符串即可：

import pandas as pd import sqlite3 # 创建一个连接对象 conn = sqlite3.connect('example.db') # 从数据库中读取数据并转换为DataFrame对象 df = pd.read_sql_query("SELECT * FROM my_table", conn) # 关闭连接 conn.close()

这将检索整个my_table表的所有行和列，并将其转换为Pandas DataFrame对象。