热线电话：13121318867

从猫狗不分到实时识别准确率超99%，计算机图像是如何做到的？

2021-03-01

CDA数据分析师出品

编译：Mika

从猫狗不分到实时识别<a href='/map/zhunquelv/' style='color:#000;font-size:inherit;'>准确率</a>超99%，计算机图像是如何做到的？

【导读】

十年前，研究人员认为让计算机来区分猫和狗几乎是不可能的。如今，计算机视觉识别的准确率已超过99%。Joseph Redmon通过一个叫YOLO的开源目标检测方法，可以迅速识别图像和视频中的目标。

10年前，计算机视觉研究者认为，要让一台电脑去分辨出一只猫和狗的不同之处，这几乎是不可能的，即便是在当时人工智能已经取得了重大突破的情况下。

Joseph Redmon家养的猫

Joseph Redmon家养的狗

但如今我们已经可以做到让它的正确率在99%以上。这个方法叫做图像分类，给它一张图，再给这张图贴上标签。通过这种方式，计算机就可以知道数千种的分类。

我是华盛顿大学的一名研究生，我正致力于一个名叫Darknet的项目，这是一个用来训练和测试计算机视觉模型的神经网络结构。

Joseph Redmon所进行的Darknet项目

让我们来看看Darknet是如何看待这张图片。

当我们在这张图片上运行识别器时，我们注意到，它不仅能判断出图片上是猫是狗，还能给出它是哪个品种的预测。这就是我们目前所达到的粒度级别。

它的预测是正确的，我的狗的确是一只阿拉斯加雪橇犬。

很明显，我们在图像识别上取得了惊人的进步。但是如果我们对这样一张图片运行识别器，会如何呢？

看一下，我们看到识别器给出了一个非常相似的预测。而且是正确的，图中是有一只阿拉斯加雪橇犬。但只使用这一个标签，我们并不能真正的了解这张图片，我们需要更强大的检测器。

我正在研究一个叫做目标检测的问题，也就是尝试将一张图上的所有目标物都找出来，然后将它们分别框起来，再加上标注。

这就是我们对这张照片运行检测器时所发生的。基于这样的结果，我们可以用计算机视觉算法做更多的事情。

我们发现，它知道这里有一只猫和一只狗。知道它们的相对位置，它们的大小，甚至还知道一些额外的信息，例如背景里有一本书。

如果你想建立一个基于计算机视觉的系统，比如说无人驾驶汽车或者机器人系统，这就是你想要得到的信息。你需要一个能与物质世界互动的系统。

速度对于目标检测至关重要

当我最开始开展目标检测项目时，它要花20秒去处理一张图片。

为了理解为什么速度在这个领域是如此重要。举一个例子，这是一个2秒钟就能处理一张图片的检测器。这个检测器的速度要比处理每张图需要20秒的检测器快10倍。可以看到在它做出预测的时候，被检测的世界已经发生变化了。这对于一个应用来说是没有多大用处的。

每2秒处理一张图

如果我们将它的速度再提升10倍，这个检测器每秒可处理5张画面，这就好很多了。

每秒处理5张图

但是，举个例子。如果有任何重大的移动，它就反应不过来了。我可不想让这样的一个系统来驾驶我的汽车。

这是在我电脑上运行的实时检测系统。当我在移动时，它能顺利地追踪我。而且它强大到能适应不同的物体大小、姿势、向前、向后的改变，很了不起。

实时检测系统

如果我们想要建造一个基于计算机视觉的系统，那么这就是我们真正需要的。

仅仅是几年的时间，我们就从每张图20秒提升到了每张图20毫秒，速度提高了1000倍。我们是如何做到的呢？

目标检测将图片分成小区域进行识别

过去，目标检测系统会将这张图片分成很多小区域，然后在每一块区域运行一下识别器。在识别器中获得最高分数的输出就会被认为是这张图片的检测结果。这涉及到要在一张图片上运行数千次识别器，以及数千次的神经网络评估才能获得检测结果。

而现在，我们训练了可以做出所有检测的单一网络，它能同时生成边界盒和类别概率。

使用我们的系统，不需要为了生成检测结果去重复上千数次地看同一张图片，只看一次就行了。这也是为什么我们称之为，目标检测的"YOLO(you only look once)法"(只看一次)。

有了这个速度，我们就不仅限于识别图像了，还可以实时处理视频。现在我们不仅看到了猫和狗，还能看到它们走来走去，互相嘻戏。

这是一个我们在微软的COCO数据库上，用80种不同种类的物品训练过的检测器。包含了各种东西，像勺子、叉子、碗等常见物品。

还有各种奇特的东西，动物、汽车、斑马、长颈鹿。

现在我们要做点儿有趣的事情，我们的摄像头将要对准观众区看看能检测出什么。

我们把检测阀值调低一点，这样就可以找出更多的观众。看下我们能不能找出这些停车标志，我们发现了一些背包。所有这些都是在电脑上实时处理的。

请大家记住，这是一个通用的目标检测系统。因此我们可以将它训练用于任何领域的图像识别。

拓展到自动驾驶汽车、机器人甚至癌症检测等应用领域

我们在无人驾驶汽车中，用来发现停车标志行人和自行车的代码，同样可以用于在组织活检中找出癌细胞。全球已经有很多研究者正在利用这一技术在医学、机器人学等方面取得了进展。

今天早上，我刚读到一篇文章，人们在内罗毕国家公园对动物数量进行普查，使用了YOLO作为检测系统的一部分。因为Darknet是一个开源项目，在公共领域任何人都可以免费使用。

但是我们想要让检测器能被更多人使用，也更好用因此通过结合模型优化，网络二值化和近似法，我们实际上已经可以在手机上进行目标检测了。

我真的很激动，因为我们在初级计算机视觉问题上有了强大的解决方案，同时任何人都可以使用它来做些什么。

接下来就看所有在座的各位，以及世界上所有能够使用这个软件的人了。我已经等不及想要看看，人们会用这一技术创造出什么来了，谢谢大家。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

准确率目标检测计算机视觉神经网络图像识别模型优化数据分析人工智能

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇一个Python爬虫工程师的修养

下一篇学电商无用，电商却火爆？这个落差忽悠了多少人……

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从猫狗不分到实时识别准确率超99%，计算机图像是如何做到的？

【导读】

速度对于目标检测至关重要

目标检测将图片分成小区域进行识别

拓展到自动驾驶汽车、机器人甚至癌症检测等应用领域

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

AI 浪潮下的生存与进阶: CDA数据分析师——开启新时 ...

【CDA干货】LSTM 模型输入长度选择技巧：提升序列建 ...

CDA 数据分析师报考条件详解与准备指南 ...

【CDA干货】数据透视表中两列相乘合计的实用指南 ...

CDA 认证考试大纲 2025 重磅更新：一二级考纲变化汇 ...

BI 大数据分析师：连接数据与业务的价值转化者 ...

SQL 在预测分析中的应用：从数据查询到趋势预判 ...

数据查询结束后：分析师的收尾工作与价值深化 ...

CDA 数据分析师考试：从报考到取证的全攻略 ...

【CDA干货】单样本趋势性检验：捕捉数据背后的时间 ...

year_month数据类型：时间维度的精准切片 ...

CDA 备考干货：Python 在数据分析中的核心应用与实 ...

【CDA干货】SPSS 中的 Mann-Kendall 检验：数据趋势 ...

备战 CDA 数据分析师考试：需要多久？如何规划？ ...

【CDA干货】LSTM 输出不确定的成因、影响与应对策略 ...

统计学方法在市场调研数据中的深度应用 ...

CDA数据分析师证书考试全攻略

剖析 CDA 数据分析师考试题型：解锁高效备考与答题 ...

【CDA干货】SQL Server 字符串截取转日期：解锁数据 ...

CDA 数据分析师视角：从数据迷雾中探寻商业真相 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载