京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:曹鑫
编辑:JYD
我真遇到了上百万行的 Excel
年底到了,我想把公司历年的销售明细和指标等业务数据放在一起透视做分析,觉得这样很方便,但是无奈一张表就50多万行,好几年的数据加在一起有两三百万行,受 excel行数限制,我只能将数据按年分开,一年一张表,每张表里的表头项目都是一样的。
业务发展越来越大,数据的规模会越来越大,在初期的时候,还觉得Excel 够用了,但是当 Excel 规模的数据量不断增加,我们开始发现打开 Excel 越来越慢,操作一下 Excel 要等很久。
直接双击打开?
最简单的方法,当然是双击打开,当你双击下去,看着鼠标变成旋转的模式,你就陷入了无尽的等待,听着电脑的机声音越来越大,最后还没打开,电脑和我就都崩溃了。这完全没法开展下一步的数据分析⼯作了,怎么办?
Access
首先想到的是个比较冷门,但又没那么冷门,好像学过,但又好像没用过,好像很难,但其实也没那么难的软件:Access。
Access 导入 Excel 数据的操作很直观,打开 Access,点击「外部数据」-「新数据源」-「从文件」-「Excel」,按照指引一步步操作下去即可,而且 Access 也支持新表追加到旧表的后面,可以把几十万的表一张张拼接到一起。但估计你现在电脑里还有没有Access还不一定。
PowerBI
同样是微软出品的软件,现在更流行,你还可以选择 PowerBI 的一系列组合软件。
从Excel2010开始,微软推出了一个叫Power Query的插件,可以弥补Excel的不足,处理数据的能力边界大大提升,Excel2013也同样可以使用,现在还在用Excel2010和 2013的同学可以从微软官网下载powerquery插件使用。
而到了Excel2016,微软直接把PQ的功能嵌入进来,放在数据选项卡下。
首先我们使用Excel2016打开一个空白的Excel工作簿文件,依次点击“数据/从文件/从工作簿”,在导航器界面,左侧列出了所有工作表,我们这个不是一个个去勾选加载,如果表很多,那么勾起来太麻烦,直接选任一个表,点击“转换数据”按钮,进入Power Query管理界面即可。
都说到这份儿上了,Python 党得出来说两句了:上百万行的数据还放在excel里面?!别说处理了,你连打开有时候可能都是问题。这种情况下最根本的办法了就是存入数据库然后再处理,即使再不济也可以放入access。可能有人会说可以是使用 power query或者power pivot来处理,但是,实际情况是这么大的数据量,PowerBI也很吃力。
那用 Python 试试?
Python 读取百万行的 Excel 大概要花费5分钟(以我以前的电脑配置 16GB 内存),如果你的配置更好,当然会更快,代码也很简单,如下图:
1.导入 pandas 包, import pandas as pd ,是最常用的数据处理包。
2.使入 pd.read_excel() 读取 test4.xlsx 文件,读取 Excel 有直接写好的方法。
3.使入 df.head() 查看一下前五行。
最终花了 5 分钟,才把这份 50 万行 50 列的数据打开了。虽然比起双击打开是要快一点的(至少打开了),但是还不满足,有没有更快的方式?这时候,就要开始跳出Excel,开始思考其他一些更高效的数据格式。
更高效的数据格式
CSV 格式
CSV文件,是一种以纯文本形式存储表格数据的简单文件格式。在CSV中,每列数据由特殊分隔符分割(如逗号,分号或制表符),用 Python 来读取都非常方便,只要格式规整,用 Pandas 里面的 read_csv 可以快速读取以上格式文件,在我的电脑上,同样是 50 万行 50 列的数据,原来打开要花 5 分钟,现在只花了 5 秒钟,速度提升了60倍:
Pickle 格式
当然 Python 里面还引入了其他的格式,你可能平时接触的不多,但是效果绝对让你惊喜。比如将数据存储为 pkl 的格式,"pickling" 是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程。
我们来看看读取的速度,打开速度一下子提升到500毫秒。
从5分钟,到5秒钟,到500毫秒,没有最快只有更快。
随着业务扩展,数据量一定会越来越大。你也会面临着数据量越来越大,处理的效率越来越慢的问题。我们思考问题的路径就可以从软件 Access、PowerBI,到编程语言 Python,再到文件格式 Excel、CSV、Pickle,一路解决下去。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19在数据科学的工具箱中,析因分析(Factor Analysis, FA)、聚类分析(Clustering Analysis)与主成分分析(Principal Component ...
2025-12-18自2017年《Attention Is All You Need》一文问世以来,Transformer模型凭借自注意力机制的强大建模能力,在NLP、CV、语音等领域 ...
2025-12-18在CDA(Certified Data Analyst)数据分析师的时间序列分析工作中,常面临这样的困惑:某电商平台月度销售额增长20%,但增长是来 ...
2025-12-18在机器学习实践中,“超小数据集”(通常指样本量从几十到几百,远小于模型参数规模)是绕不开的场景——医疗领域的罕见病数据、 ...
2025-12-17数据仓库作为企业决策分析的“数据中枢”,其价值完全依赖于数据质量——若输入的是缺失、重复、不一致的“脏数据”,后续的建模 ...
2025-12-17在CDA(Certified Data Analyst)数据分析师的日常工作中,“随时间变化的数据”无处不在——零售企业的每日销售额、互联网平台 ...
2025-12-17在休闲游戏的运营体系中,次日留存率是当之无愧的“生死线”——它不仅是衡量产品核心吸引力的首个关键指标,更直接决定了后续LT ...
2025-12-16在数字化转型浪潮中,“以用户为中心”已成为企业的核心经营理念,而用户画像则是企业洞察用户、精准决策的“核心工具”。然而, ...
2025-12-16在零售行业从“流量争夺”转向“价值深耕”的演进中,塔吉特百货(Target)以两场标志性实践树立了行业标杆——2000年后的孕妇精 ...
2025-12-15