Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址） -CDA数据分析师官网

热线电话：13121318867

首页精彩阅读Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

2018-02-23

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

从将近 250 个机器学习开源项目中，综合各种条件进行打分排序，最终 Mybridge 团队评选出十大最新、最棒的机器学习开源项目。

这份 Top10 名单中包括对象检测、换脸、预测等等最热的 AI 明星、话题性研究和代码。它们在 GitHub 上的平均标星数量是 2500 多颗。希望这 10 大开源项目，对你有所帮助。

Rank 10

作者：Posenhuang 等（微软研究院）
GitHub：https://github.com/posenhuang/NPMT
★ Star：68

NPMT ，基于短语的神经机器翻译，这是一项来自微软研究院团队的研究。这个机器翻译领域的新突破，没有使用任何注意力机制。

这个方法通过 Sleep - WAke 网络（ SWAN ）明确地建模输出序列中的短语结构。SWAN 是一种基于分割的序列模型方法。

NPMT 的源代码基于 Torch 中的 fairseq 工具箱建立。fairseq 是 Facebook AI 研究院开源的序列到序列工具箱，这个方法使用卷积神经网络来做语言翻译，比循环神经网络提速 9 倍。

Rank 9

Deep-neuroevolution
作者：Uber AI 实验室
GitHub：https://github.com/uber-common/deep-neuroevolution
★ Star：392

这是共享出行巨头 Uber 开源的算法，他们此前集中发布了 5 篇论文，支持一种正在兴起的认识：通过用进化算法来优化神经网络的神经进化（ neuroevolution ）也是为强化学习（ RL ）训练深度神经网络的一种有效方法。

而这次 GitHub 中公布的代码，包括以下算法的分布式实现：

1、Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

论文地址：https://arxiv.org/abs/1712.06567

2、Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

论文地址：https://arxiv.org/abs/1712.06560

这些代码基于 OpenAI 此前公布的源代码和论文。

Rank 8

Simple
作者：chrisstroemel
GitHub：https://github.com/chrisstroemel/Simple
★ Star：235

Simple 是贝叶斯优化的更具可扩展性的替代方法。像贝叶斯优化一样，它的样本效率很高，能用尽可能少的样本收敛到全局最优。

对于典型的优化工作负载，贝叶斯优化消耗的 CPU 时间以分钟计，而 Simple 使用的 CPU 时间以毫秒计。如下图所示：

Rank 7

作者：Henry Mao 等（加州大学圣迭戈分校）
GitHub：https://github.com/calclavia/DeepJ
★ Star：313

DeepJ 是一种端到端生成模型，能够以特定的混合风格来实时创作钢琴曲。这个算法能够生成可以调整参数的音乐，这种可调整的属性，能为艺术家、电影制作人、作曲家等带来实际的帮助。

使用这套代码需要 Python 3.5 。

访问下面的 Demo 地址，可玩、可感受，亦可当背景音听。

Demo 地址：https://deepj.ai/

Rank 6

作者：Charles Beattie 等（DeepMind）
GitHub：https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/psychlab
★ Star：4774

Psychlab ，DeepMind 为 AI 开设的心理学实验室。

其实就是个第一人称视角 3D 游戏世界，这个心理学实验室当然也是个模拟环境，研究对象是其中的深度强化学习智能体（ Agents ）。Psychlab 能够实现传统实验室中的经典心理学实验，让这些本来用来研究人类心理的实验，也可以用在 AI 智能体上。

Rank 5

作者：DeepMind
GitHub：https://github.com/deepmind/dm_control
★ Star：882

火遍全球的 AlphaGo 让我们知道了强化学习打游戏究竟有多厉害，这么强大的算法什么时候才能打破次元壁，走进现实、控制物理世界中的物体呢？

DeepMind 已经开始往这方面努力。他们此前发布的控制套件“ DeepMind Control Suite ”，就为设计和比较用来控制物理世界的强化学习算法开了个头。

Control Suite 设计了一组有着标准化结构、可解释奖励的连续控制任务，还为强化学习 Agent 提供一组性能测试指标。

Control Suite 中的任务可以分为 14 个领域，也就是 14 类物理模型，上排从左到右分别是：

体操机器人 Acrobot ，（两节钟摆）、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人，下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的 Reacher 、游泳机器人、步行者。

Rank 4

作者：Marco Ribeiro 等（华盛顿大学）
GitHub：https://github.com/marcotcr/lime
★ Star：3148

在这次的 Top10 项目中，这个算是“老资格”了。主要基于 KDD2016 上发表的论文：《“为什么我应该相信你？”解释任何分类器的预测》。

这个研究提出了局部可理解的与模型无关的解释技术（ Local Interpretable Model-Agnostic Explanations: LIME ），一种用于解释任何机器学习分类器的预测的技术，并在多种与信任相关的任务中评估了它的可用性。

下面这段视频，是一个更直观的解释。

Rank 3

Gradient-checkpointing
作者：OpenAI
GitHub：https://github.com/openai/gradient-checkpointing
★ Star：1107

GPU 内存太小可能是神经网络训练过程中最大的拦路虎。

不怕，用这个 OpenAI 推出的 gradient-checkpointing 工具程序包，对于前馈模型来说，仅仅需要增加 20% 的计算时间，就能让 GPU 处理十倍大的模型。

这个工具包的开发者是 OpenAI 的研究科学家 Tim Salimans 和前 Google Brain 工程师的数据科学家 Yaroslav Bulatov 。

这个工具包使用了“用亚线性的存储成本训练神经网络”的技术，为简单的前馈网络提供了等价的内存存储，同时能为一般的神经网络节省内存，比如多层架构。

Rank 2

作者：Hidde Jansen
GitHub：https://github.com/deepfakes/faceswap
★ Star：3629

最近 Deepfakes 在 AI 、AV 两届掀起轩然大波。简单的说，就是 AI 可以帮你给 AV 小片换脸，替换成任何你想看的明星。

而 FaceSwap 是一个基于 deepfakes 的非官方开源项目。

Rank 1

作者：Facebook AI 研究院
GitHub：https://github.com/facebookresearch/Detectron
★ Star：11248

这个应该是当之无愧的第一吧。

Detectron 是 Facebook 的物体检测平台，今年初宣布开源，它基于 Caffe2 ，用 Python 写成，这次开放的代码中就包含了 Mask R-CNN 的实现。

除此之外，Detectron 还包含了 ICCV 2017 最佳学生论文 RetinaNet ，Ross Girshick（ RBG ）此前的研究 Faster R-CNN 和 RPN 、Fast R-CNN 、以及 R-FCN 的实现。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

神经网络机器学习 Caffe

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇【资源】年后第一波数据分析必备神器安利

下一篇关于Python中浮点数精度处理的技巧总结

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Top10 机器学习开源项目发布，历时一个月评出（附 GitHub 地址）

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载