作者 | 磐怼怼
来源 | 磐创AI
数据科学家是“在统计方面比任何软件工程师都要出色,在软件工程方面比任何统计学家都出色的人”。许多数据科学家都有统计学背景,但很少有软件工程经验。我是一位高级数据科学家,在Python编码的Stackoverflow上排名第一,并与许多(初级)数据科学家合作。下面是我经常看到的10个常见错误。
1. 不共享代码中引用的数据
数据科学需要代码和数据。因此,要使其他人能够重现您的结果,他们需要有权访问数据。虽然看起来很基础,但是很多人忘记了共享代码的数据。
import pandas as pd
df1 = pd.read_csv('file-i-dont-have.csv') # 错误
do_stuff(df)
解决方案:使用d6tpipe共享数据文件,或上传到S3 / web / google等或保存到数据库,以他人可以检索文件(但不要将它们添加到git,详见下文)。
2. 硬编码无法访问的路径
与错误1相似,如果您对其他人无法访问的路径进行硬编码,则他们将无法运行您的代码,因此要查看很多地方手动更改路径。
import pandas as pd
df = pd.read_csv('/path/i-dont/have/data.csv') # 错误
do_stuff(df)
# or
impor os
os.chdir('c:\\Users\\yourname\\desktop\\python') # 错误
解决方案:使用相对路径,配置全局路径变量或d6tpipe使数据易于访问。
3. 将数据与代码混合
由于数据科学代码需要数据,为什么不将其存储到同一目录?当您使用它时,也可以在其中保存图像,日志和其他垃圾文件。
├── data.csv ├── ingest.py ├── other-data.csv ├── output.png ├── report.html └── run.py
解决方案:将目录按照类别进行组织,例如数据,日志,代码等。
4. Git提交带有源代码的数据
现在大多数人都可以控制他们的代码版本(如果不使用,那是另一个错误!参见git)。为了共享数据,可能想将数据文件添加到版本控制中。如果是很小的文件还可以,但是git并没有对数据文件进行优化,尤其是大文件。
git add data.csv
解决方案:使用问题1中提到的工具来存储和共享数据。如果确实要对控制数据进行版本控制,请参阅d6tpipe,DVC和Git大文件存储。
5. 编写函数而不是DAG
有足够的数据,接下来谈谈实际的代码!由于在学习代码时首先要学习的内容之一就是函数,因此数据科学代码通常被组织为一系列线性运行的函数。这可能会导致几个问题。
def process_data(data, parameter): data = do_stuff(data) data.to_pickle('data.pkl') data = pd.read_csv('data.csv') process_data(data) df_train = pd.read_pickle(df_train) model = sklearn.svm.SVC() model.fit(df_train.iloc[:,:-1], df_train['y'])
解决方案:最好将数据科学代码编写为一组任务,并且它们之间具有依赖性,而不是线性链接函数。使用d6tflow或airflow。
6. 循环
和函数一样,for循环是在学习编码时首先要学习的东西。它们易于理解,但它们速度慢且过于冗长,通常表示您不知道有向量化的替代方案。
x = range(10) avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x)); zscore = [(i-avg)/std for x] # should be: scipy.stats.zscore(x) # or groupavg = [] for i in df['g'].unique(): dfg = df[df[g']==i] groupavg.append(dfg['g'].mean()) # should be: df.groupby('g').mean()
解决方案:Numpy,scipy和pandas具有向量化功能,可用于大多数的循环。
7. 不编写单元测试
随着数据,参数或用户输入的更改,您的代码可能会中断,有时您可能不会注意到。这可能会导致错误的输出,如果有人根据您的输出做出决策,那么错误的数据将导致错误的决策!
解决方案:使用assert语句检查数据。pandas有相等测试,d6tstack有数据摄取和检查,d6tjoin数据连接。代码示例:
assert df['id'].unique().shape[0] == len(ids) # 数据是否有所有的id assert df.isna().sum()<0.9 # 检查缺失的数据 assert df.groupby(['g','date']).size().max() ==1 # 是否有重复的数据 assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # 所有的id是否匹配
8. 不记录代码
我明白你着急进行一些分析。您可以一起努力取得成果给客户或老板。然后一个星期后,他们说“请您更新此内容”。您看着您的代码,不记得为什么要这么做。现在想象其他人需要运行它。
def some_complicated_function(data):
data = data[data['column']!='wrong']
data = data.groupby('date').apply(lambda x: complicated_stuff(x))
data = data[data['value']<0.9]
return data
解决方案:即使在完成分析之后,也要花点时间记录所做的工作。您将感谢自己,其他人更加感谢!
9. 将数据另存为csv或pickle
回到数据,毕竟是数据科学。就像函数和for循环一样,通常使用CSV和pickle文件,但它们实际上并不是很好。CSV不包含架构,因此每个人都必须再次解析数字和日期。pickle可以解决此问题,但只能在python中工作,并且不能压缩。两者都不是存储大型数据集的良好格式。
def process_data(data, parameter): data = do_stuff(data) data.to_pickle('data.pkl') data = pd.read_csv('data.csv') process_data(data) df_train = pd.read_pickle(df_train)
解决方案:使用parquet 或其他具有数据格式的二进制数据格式,最好是压缩数据的格式。d6tflow自动将任务的数据输出保存为parquet,不需要你进行处理。
10. 使用jupyter笔记本
让我们以一个有争议的结论来结束:jupyter notebooks 与CSV一样普遍。很多人使用它们,那并不是好事。Jupyter notebooks 促进了上述许多不良的软件工程习惯,尤其是:
入门很容易,但是扩展性很差。
解决方案:使用pycharm或spyder。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03