为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字) -CDA数据分析师官网

热线电话：13121318867

为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字)

2017-10-12

为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字)

在PyData Seattle 2017中，Jake Vanderplas介绍了Python的发展历程以及最新动态。在这里我们把内容分成上下两篇，先给大家带来上篇--Python的发展历程。

主讲人：

Jake Vanderplas是华盛顿大学eScience研究所物理科学研究的负责人。该研究所负责跨学科项目，旨在支持科学领域在数据方面发现。Jake的研究领域包括天文学、天体物理学、机器学习以及可伸缩计算。此外，他是许多开源Python项目的维护者和频繁贡献者，包括scikit-learn、scipy、altair等。

CDA字幕组该讲座视频进行了汉化，附有中文字幕的视频如下：

针对不方面开视频的小伙伴，CDA字幕组也贴心的整理了文字版本，如下：

Python究竟是怎样成为了数据科学的发动机?考虑到一开始它的初衷并非如此。

Python的发展历程

我想回顾一下Python的初衷和早期发展情况。

1990s: 脚本时代

在上世纪90年代，我认为Python以及数据科学处于脚本时代。这时的座右铭为"Python是Bash的替代品”。

没有人愿意用Bash编程，那么让我们换成用Python吧。这就是我们90年代的情况。

当时有个从事科学领域的人，名叫David Beasley。你可能通过《Python Cookbook》一书熟知他。在90年代他在一个研究实验室工作，他写了一篇关于使用Python进行科学计算的文章。在文中他说：

“科学家正在使用各种不同的工具，他们倾向于使用自行开发的软件，来实现自己的特定领域语言。或者用命令行界面将它们组合到一起。”

在本文中他提出，为什么我们不使用Python把这些都组合到一起呢?

他提出一个他已进行了4年的案例研究，当中他把Python作为胶水，把许多其他的工具都粘到了一起。他写这个库在当时影响力非常大，SWIG(simplified wrapper and interface generator)。这能够解析整个Fortran或C代码，为你生成一个Python接口。因此为了驱动代码，你不必再去编写Fortran和C语言。

许多早期的SciPy等工具都是建立在SWI上的，我对scikit-learn的第一个贡献是用SWIG加上C++代码。之后我们不再用SWIG而转为Cython，但这是另一回事了。

2000s: SciPy时代

之后是2000年，我认为2000年代是SciPy时代。

这时的座右铭是，Python是MATLAB替代品。

我看到观众中有些点头赞同，当中有很多原因。如果看到2000年代早期有影响力并且发展SciPy堆栈的人群，可以在他们身上发现一些共同点。

例如John Hunter是Matplotlib的创始人，在2012年他去世前的几周，他发表了很棒的SciPy演讲。

当中他谈到了Pre-Python，他有各种工作进程的大杂烩Perl脚本C++。他编写了MATLAB之后他厌倦了MATLAB，开始把东西加载到GnuPlot上。这启发他编写了Matplotlib，这基本上是用Python编写的MATLAB替代品。

同样还有Travis Oliphant。他创建了continuum，在这之前他编写了Numpy和SciPy项目。

他说“在Python之前，我用过Perl。然后是MATLAB、shell、scrip、Fortran以及C++库等。当我发现Python时，我真的很喜欢这个语言。但这个语言是萌芽阶段缺少很多库。我认为我可以通过在Python中，连接低等级的库和高等级的usage。从而在世界中献出自己的一份力量。”这启发了SciPy，SciPy取代了MATLAB、Fortran、shell、scrip。

同样的如果你熟悉IPython项目、Jupyter项目，那你肯定知道Fernando Perez，他创建了IPython。他也有类似五花八门的工具，C、C++、Unix(awk/sed/sh)Perl、IDL、Mathematica。

想到Python出现之前的科学就很可怕。接着Fernando创建了IPython项目，他想在Python中做类似IDL或类似Mathematica，以便他能够用一个简单的工具代替这所有。

在21世纪初出现了各种工具，相同的目标是想取代MATLAB，取代所有组合的包。若看到早期的代码，会发现它们都包括可视化、计算以及壳的内容。如果看一下Matplotlib，你仍然可以导入MATLAB的子模块。类似计算周期等部分在MATLAB、Matplotlib中仍然有计算，尽管现在很多已经被移除。

如今我们熟知的库如Matplotlib、SciPy、IPython，它们的目标很清晰。社区一直在演变

我认为在SciPy时代的关键会议是SciPy大会。SciPy大会驱动了很多创新力，从2002年一直到如今。在场我认识的几个人将出席下周的SciPy在奥斯汀的会议，这是非常有意思的会议，如果有机会的话我建议你们参加。