从 Redshift 表中选择数据时出现内存不足错误

数据挖掘 Python 红移
2022-03-05 06:00:39

我正在从包含 5 亿行的 Amazon Redshift 表中选择数据。我安装了 64 位 python。

代码

import psycopg2
from sqlalchemy import create_engine
import pandas as pd
engine = create_engine('postgresql://'username':pwd@host/dbname')
data_frame = pd.read_sql_query('SELECT * FROM table_name ;', 
engine)

每次我运行代码时,我都会收到“内存不足错误”。我有 16GB 内存。我不知道如何解决这个问题。

非常感谢您对此的任何帮助!谢谢

1个回答

首先,您正在尝试使用 访问大型数据集sqlalchemy,而像这样的专用包bigquery将是更合适的选择。我建议在https://www.kaggle.com/learn/intro-to-sql上了解它

另外,我认为您获得的数据超出了设备的处理能力。也许对您的数据设置限制会有所帮助。

data_frame = pd.read_sql_query('SELECT * FROM table_name LIMIT 1000000;', engine)