京公网安备 11010802034615号
经营许可证编号:京B2-20210330
盘点丨2018 年热门 Python 库丨TOP20
在解决数据科学任务和挑战方面,Python继续处于领先地位。去年,我对当时热门的Python库进行了总结。今年,我在当中加入新的库,重新对2018年热门Python库进行全面盘点。
其实入选的库远不止20个,但由于一些库针对相同问题是可以相互替代的,因此没有纳入其中。
核心库和统计
1. NumPy(提交:17911,贡献者:641)
首先介绍科学应用方面的库,其中NumPy是不可忽视的选择。NumPy用于处理大型多维数组和矩阵,并通过大量的高级数学函数和实现方法进行各种操作。
在过去一年里,NumPy进行了大量改进。除了bug修复和兼容性问题之外,还涉及到样式可能性,即NumPy对象的格式化打印。
2. SciPy(提交:19150,贡献者:608)
科学计算方面的另一个核心库是SciPy。SciPy基于NumPy,因此扩展了NumPy的功能。SciPy的主要数据结构是由Numpy实现的多维数组。当中包括许多解决线性代数、概率论、积分等任务的工具。
SciPy的主要改进包括,持续集成到不同操作系统,以及添加的新功能和新方法。此外,还封装了许多新的BLAS和LAPACK函数。
3. Pandas(提交:17144,贡献者:1165)
Pandas是一个Python库,提供高级数据结构和各种分析工具。主要特点是能够将相当复杂的数据操作转换为一两条命令。Pandas包含许多用于分组、过滤和组合数据的内置方法,以及时间序列功能。
Pandas库已推出多个新版本,其中包括数百个新功能、增强功能、bug修复和API改进。这些改进包括分类和排序数据方面,更适合应用方法的输出,以及执行自定义操作。
4. StatsModels(提交:10067,贡献者:153)
Statsmodels是一个Python模块,用于统计模型估计、执行统计测试等统计数据分析。在它的帮助下,你可以使用机器学习方法进行各种绘图尝试。
Statsmodels在不断改进。今年加入了时间序列方面的改进和新的计数模型,即广义泊松、零膨胀模型和负二项。还包括新的多变量方法 ——因子分析、多元方差分析和方差分析中的重复测量。
可视化
5. Matplotlib(提交:25747,贡献者:725)
Matplotlib是用于创建二维图表和图形的低级库。使用Matplotlib,你可以构建直方图、散点图、非笛卡尔坐标图等图表。此外,许多热门的绘图库都能与Matplotlib结合使用。
Matplotlib在颜色、尺寸、字体、图例等方面都有一定改进。外观方面包括坐标轴图例的自动对齐;色彩方面也做出改进,对色盲更加友好。
6. Seaborn(提交:2044,贡献者:83)
Seaborn是基于matplotlib库更高级别的API。它包含更适合处理图表的默认设置。此外,还包括时间序列等丰富的可视化图库。
Seaborn的更新包括bug修复。同时,还包括FacetGrid与PairGrid的兼容性,增强了matplotlib后端交互,并在可视化中添加了参数和选项。
7. Plotly(提交:2906,贡献者:48)
Plotly能够让你轻松构建复杂的图形。Plotly适用于交互式Web应用程序。可视化方面包括等高线图、三元图和三维图。
Plotly不断增加新的图像和功能,对动画等方面也提供了支持。
8. Bokeh(提交:16983,贡献者:294)
Bokeh库使用JavaScript小部件,在浏览器中创建交互式和可缩放的可视化。Bokeh提供了多种图形集合、样式,并通过链接图、添加小部件和定义回调等形式增强互动性。
Bokeh在交互式功能的进行了改进,比如旋转分类标签、小型缩放工具和自定义工具提示字段的增强。
9. Pydot(提交:169,贡献者:12)
Pydot用于生成复杂的定向图和非定向图。它是用Python编写的Graphviz接口。使用Pydot能够显示图形结构,这经常用于构建神经网络和基于决策树的算法。
10. Scikit-learn(提交:22753,贡献者:1084)
Scikit-learn是基于NumPy和SciPy的Python模块,并且是处理数据方面的不错选择。Scikit-learn为许多机器学习和数据挖掘任务提供算法,比如聚类、回归、分类、降维和模型选择。
Scikit-learn已做出了许多改进。改进包括交叉验证、使用多个指标,近邻取样和逻辑回归等训练方法也有小的改进。主要更新还包括完善常用术语和API元素的术语表,这能帮助用户熟悉Scikit-learn中的术语和规则。
11. XGBoost / LightGBM / CatBoost(提交:3277/1083/1509,贡献者:280/79/61)
梯度提升(gradient boosting)是最流行的机器学习算法之一,这在决策树模型中是至关重要的。因此我们需要重视XGBoost、LightGBM和CatBoost。这几个库都用相同的方式解决常见问题。这些库能够更优化、扩展且快速地实现梯度提升,从而它们在数据科学家和Kaggle竞争中备受追捧,其中许多人在这些算法的帮助下赢得了比赛。
12. Eli5(提交:922,贡献者:6)
通常机器学习模型预测的结果并不特别清晰,这时就需要用到eli5了。它可以用于可视化和调试机器学习模型,并逐步跟踪算法运行情况。同时eli5能为scikit-learn,XGBoost,LightGBM,lightning和sklearn-crfsuite库提供支持。
13. TensorFlow(提交:33339,贡献者:1469)
TensorFlow是用于深度学习和机器学习的热门框架,由谷歌大脑开发。TensorFlow能够用于多个数据集的人工神经网络。TensorFlow的主要应用包括对象识别、语音识别等等。
新版本中加入了新的功能。最新的改进包括修复安全漏洞,以及改进TensorFlow和GPU集成,比如能在一台机器上的多个GPU上运行评估器模型。
14. PyTorch(提交:11306,贡献者:635)
PyTorch是一个大型框架,能通过GPU加速执行tensor计算,创建动态计算图并自动计算梯度。此外,PyTorch为解决神经网络相关的应用提供了丰富的API。
PyTorch基于Torch,它是用C语言实现的开源的深度学习库。Python API于2017年推出,从此之后该框架越来越受欢迎,并吸引了大量数据科学家。
15. Keras(提交:4539,贡献者:671)
Keras是用于神经网络的高级库,可运行与TensorFlow和Theano。现在由于推出新版本,还可以使用CNTK和MxNet作为后端。它简化了许多任务,并大大减少了代码数量。但缺点是不适合处理复杂任务。
Keras在性能、可用性、文档即API方面都有改进。新功能包括Conv3DTranspose层、新的MobileNet应用等。
分布式深度学习
16. Dist-keras / elephas / spark-deep-learning(提交:1125/170/67,贡献者:5/13/11)
由于越来越多的用例需要大量的精力和时间,深度学习问题变得更为重要。但是,使用Apache Spark之类的分布式计算系统能够更容易处理大量数据,这又扩展了深度学习的可能性。
因此dist-keras、elephas、和spark-deep-learning变得更为普及,由于它们有能用于解决相同任务,因此很难从中取舍。这些包能够让你在Apache Spark的帮助下,直接通过Keras库训练神经网络。Spark-deep-learning还提供了使用Python神经网络创建管道的工具。
自然语言处理
17. NLTK(提交:13041,贡献者:236)
NLTK是一组库,是进行自然语言处理的平台。在NLTK的帮助下,你可以通过多种方式处理和分析文本,对其进行标记和提取信息。NLTK还可用于原型设计和构建研究系统。
NLTK的改进包括API和兼容性的小改动,以及CoreNLP的新接口。
18. SpaCy(提交:8623,贡献者:215)
SpaCy是自然语言处理库,具有出色的示例、API文档和演示应用。该库用Cython编写,Cython是C语言在Python的扩展。它支持将近30种语言,提供简单的深度学习集成,并能确保稳定性和高准确性。SpaCy的另一个强大功能是无需将文档分解,整体处理整个文档。
19. Gensim(提交:3603,贡献者:273)
Gensim是Python库,用于语义分析、主题建模和矢量空间建模,建立在Numpy和Scipy之上。它提供了word2vec等NLP算法实现。尽管gensim拥有自己的models.wrappers.fasttext实现,但fasttext库也可用于词语表示的高效学习。
数据抓取
20. Scrapy(提交:6625,贡献者:281)
Scrapy可用于创建扫描页面和收集结构化数据。另外,Scrapy还可以从API中提取数据。由于其可扩展性和便携性,Scrapy非常好用。
今年Scrapy的更新包括代理服务器升级,以及错误通知和问题识别系统。这也为使用scrapy解析机械能元数据设置提供了新的方法。
结语
以上就是2018年数据科学方面的Python库的整理。与去年相比,一些新的库越来越受欢迎,数据科学方面常用的库也在不断改进。
以下的表格显示了github上各个库的统计数据。
尽管今年我们扩大了列表,但仍然可能有一些库没有包含在内,欢迎留言补充。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04