京公网安备 11010802034615号
经营许可证编号:京B2-20210330
机器学习和 AI 领域必须了解的工具
关于数据科学,工具可能并不是那么热门的话题。人们似乎更关注最新的聊天机器人技术以及深度学习框架。
但这显然是不合理的。为什么不花些时间,挑选合适的工具呢?毕竟好的工具能够让你事半功倍。在本文中介绍了机器学习和 AI 方面的优质工具。
应该使用哪种语言?
这是一个有争议的问题。存在很多不同的观点。我个人的观点可能不那么常见,我认为越多越好。你应该同时使用 R 语言和 Python。
为什么?R语言更擅长数据可视化,并且有大量的统计数据包。另一方面,Python可以帮助你将模型部署生产,并更好地与团队中其他开发人员合作。
基本的软件包
我们应该充分利用的优秀开源社区。首先让我们回顾一下数据科学工作的主要流程。
典型的机器学习工作流程
最重要的步骤是:数据获取、数据清洗、可视化、建模、沟通。这些过程都需要用到库。
针对数据清洗,R语言中有一个出色的包——dplyr。无可否认,它的语法有些奇怪。注意 %>% 与* nix中的(|)运算符的工作原理相同,前一个操作的输出成为下一个操作的输入。这样,只需几行代码,你就可以构建相当复杂且可读的数据清洗操作。
另一方面,Python中可以用到Pandas。这个库很大程度上借鉴了R语言,特别是数据框的概念(当中行是观测,列是特征)。这需要一定的学习过程,但在习惯了之后,你可以在数据处理中做很多事情(甚至可以直接写入数据库)。
针对数据可视化,R语言中有ggplot2和plotly。ggplot2 非常强大,但级别较低。同样它的语法很奇怪,你需要通过图形语法来进行理解。plotly是一个较新的库,具有 ggplot 的功能,只需要一行代码就能进行交互。
Python中进行可视化的基础包是 matplotlib。但它的语法有些奇怪,默认颜色也不那么理想,因此我建议你使用新的seaborn软件包。Python缺少对模型性能的可视化,这里可以使用 yellowbrick 解决。你可以使用它来创建漂亮的图表分类器进行评估,查看特征,甚至绘制文本模型。
使用 seaborn 对 iris 数据集进行绘制
API
使用R语言进行机器学习常常会遇到一个问题。几乎所有模型都有不同的API,除非你记住所有的内容,如果你只想测试不同算法,那么就需要打开好几个文档标签。这个缺陷可以用 caret 和 mlr 解决,后者较新。我推荐用mlr,因为它更结构化,维护也更积极。而且功能强大,具有分解数据、训练、预测和性能评估功能。
Python中相应的库是scikit-learn。这也是我最喜欢的库,同时 scikit-learn 也备受一些科技公司的青睐 。它有一致的API,超过150种算法(包括神经网络),出色的文档,主动维护和教程。
Python中的ROC/AUC图,使用yellowbrick
集成开发环境
对于R语言来说,RStudio 是一个非常棒的工具,而且没有其他的竞争工具。我们希望在Python中找到相应的工具,我筛选了十几个(Spyder,PyCharm,Rodeo,spacemacs,Visual Studio,Canopy等等),主要推荐当中的两个工具:Jupyter Lab和Atom + Hydrogen。
Jupyter Lab很棒。但它仍然继承了Jupyter Notebook 中存在的一些缺点,比如单元状态,安全性,以及最严重的VCS集成问题。出于这个原因,我建议使用Atom + Hydrogen。你可以用它完成各种数据科学任务,比如检查数据框和变量,绘图等。
Atom + Hydrogen
EDA 工具
为什么需要?在数据科学过程中,尤其是起步阶段,我们需要快速地探索数据。在进行可视化之前,我们需要探索,并通过最少的技术投入来实现。因此写一大堆 seaborn、ggplot 代码并不是最佳选择,你需要使用 GUI 界面。因为不涉及任何代码,业务人员也可以使用。有两个非常棒的跨平台工具,并且免费——Past和Orange。前者更侧重于统计分析,后者更侧重于建模。两者都可以做很棒的数据可视化,因此完全符合我们的目标。
用Orange你能够进行的操作
结语
通过对工具进行优化,你能够更高效地完成数据分析工作(但也不要以此为借口不去工作哦)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04