2019-02-25
阅读量:
773
pandas.read_csv仍会出现内存错误
我正在尝试将此 CSV文件加载到pandas数据框中
import pandas as pd
filename = '2016-2018_wave-IV.csv'
df = pd.read_csv(filename)
然而,尽管我的PC不是超级慢(8GB RAM,64位python)并且文件有点但不是特别大(<33 MB),加载文件需要10分钟以上。我的理解是,这不应该花费那么长时间,我想弄清楚这背后是什么。(正如在类似问题中所建议的那样,我尝试过使用chunksize和usecol参数(EDIT等low_memory),但没有成功;所以我认为这不是重复,而是与文件或设置有关。)
解决办法:我正在测试你共享的文件,问题是这个csv文件在每一行都有前导和结尾双引号(所以Panda认为整行是一列)。它必须在处理之前删除,例如在linux中使用sed或只是在python中处理和重新保存文件或者只是替换文本编辑器中的所有双引号。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
1条评论