倪冰冰教授：对视频的智能理解是人工智能的最大战场

赵利利 ☉ 文来源：中国科学报
2018-11-08 @ 哈希力量文库

文库划重点：智能视频理解技术在安防监控、自动驾驶，以及在社交媒体短视频、直播里，都是最核心的技术。视频一直被视为计算机视觉里的暗物质。”谷歌云人工智能和机器学习前首席科学家李飞飞曾如是说。

边看视频边练瑜伽的女士。哈希力量 / 配图来源：网络

“对视频的智能理解是人工智能的最大战场。”说出这一观点的上海交通大学教授倪冰冰坦言这一说法“不会有多少人有反对意见”。作为深耕计算机视觉中智能视频分析的专家，他甚至愿意称之为人工智能的“体量之最”。

这一称呼不无道理。在近日召开的全球科技青年论坛上，倪冰冰将其中的“简单道理”娓娓道来，“人类每天接触到的‘听说读写’信息里有70%实际上是视觉信息。而在信息领域，大多数的信息也是视频图片数据。”

“体量之最”当然还包括视频智能识别的“计算量之巨”。

“全世界每秒钟传到Youtube的视频要达到几千个小时。”倪冰冰表示，即使使用现在流行的神经网络、深度学习技术，加上高性能硬件设备，计算时间之久也超乎想象。

“视频一直被视为计算机视觉里的暗物质。”谷歌云人工智能和机器学习前首席科学家李飞飞曾如是说。即便如此，科学家及互联网公司对视频智能理解技术的“征服欲”也没有减退之意，纷纷投入巨大的财力物力人力去攻坚克难，IBM、谷歌都曾为视频智能理解的深入研究发布视频数据集，脸书CEO扎克伯格在最新一季财报分析师沟通会上透露，视频识别已成为旗下视频在线产品、VR产品的核心竞争力之一。

因何具有如此动力？倪冰冰一语道破其中缘由：智能视频理解技术在安防监控、自动驾驶，以及在社交媒体短视频、直播里，都是最核心的技术。

而随着视频在人们生活中所占的分量越来越重，视频智能理解技术有了越来越深厚的现实基础。经过过去数年的努力，视频智能理解研究领域已经有了一些突破式进展，变得更具有实际应用价值。

增加时间尺度建模

打开一些视频网站，用户经常可以看到与自身历史浏览痕迹相关的视频推荐，或者“以视频搜索视频”的内容搜索功能，这其中首先涉及到的技术其实就是视频的行为识别。通俗而言，就是给正在运行的程序一段视频，让它告诉你“里面发生了什么”。

识别智能理解技术的研发过程并不像描述起来这么简单，其面临的技术挑战巨大。除了视频体量，视频的质量、视频内容中有效信息的数量也都是很大的技术难题。

以安防领域的视频数据为例，倪冰冰解释道，摄像头的视频质量有时候比较差，人动一下会有些模糊，使得技术对所捕捉到的动作的理解变得非常困难；另外，不同的人做同样动作的样式非常不同，“有人快有人慢”，这也造成智能理解的难点；不同位置的物体在视频中的尺寸相异，要把“大的东西、小的东西”同时“抓”出来是很有难度的。

倪冰冰所在的团队提出了时序金字塔算法，该算法通过对时间轴进行分尺度建模，使不同尺度的数据特征都能得到很好的表达。

“我们又配合流行的深度学习里的LSTM（长短期记忆网络）、深度递归网络，使得不同尺度的信息在不同时间进行流动，最后达到很好的识别效果。”倪冰冰进一步阐释道。

这一研究在由谷歌、斯坦福等国际顶尖人工智能研究机构主办的THUMOS行为检测国际竞赛中，获得视频检测小组国际第一名。

“找人”不再是难题

“找人”是理解视频中行为的关键所在。在计算机视觉领域中，“找人”行为的专业术语叫做“行人重识别”，专指利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。

而在人工智能产业化的过程中，“找人”也恰恰是视频智能理解可以快速投入的应用场景的形象描述。倪冰冰讲述道，“如果我们能把人和人在不同摄像头下的影像追踪起来的话，就可以得到这个人在整个时间轴和空间轴上的分布，这可以实现很多的应用，比如找到一些非常敏感的人物。”

过去，倪冰冰团队在进行视频行为里的行人重识别时，通常利用单帧信息，比如在某个时间点上选一帧图像与旁边的其他帧图像进行比对，但这样的做法存在一定的问题。

“我们发现单帧图像的信息是丢失的，摄像头所拍摄的是行为人整个‘动’的过程，取得单帧的话，整个‘动’的行为就损失掉了。”倪冰冰说。

另外，利用单帧图片信息很有可能会遇到一些特殊姿势、遮挡、运动的模糊等问题。对此，倪冰冰团队提出的一个方法使得识别技术能够对整个视频进行时序上的个人信息加以汇总，形成定量表征，从而使行人重识别的性能达到最优。

基于多角度摄像机的3D定位跟踪模块是当前业界比较新的技术。倪冰冰表示，过去，单个相机对人在2D场景进行定位，现在，技术可以在相机和相机之间形成匹配，用重识别以及跟踪技术可以在3D空间里对人进行追踪，对人的动态过程进行画像。

“这些技术产生了很多应用，新零售、智能零售系统就是很好的例子。”倪冰冰自豪地说道，“新零售里，无非是有多少人进入我的商店、多少男生多少女生、什么年龄段、他们在哪个商品面前停留了多少时间，这些通过技术都可以解决。”

倪冰冰表示，抓到这些数据之后，可以反映在大数据端，有了客流分析、轨迹、略读图的数据，店家就能够对行销展开布局，对行销策略做一定的改变和优化。

在小型终端运行

“用深度学习网络进行视频智能分析所需的网络是很大的，它的参数量非常多，甚至超过几十、几百兆。”倪冰冰表示，以这样大的网络去做视频分析，显然使用时间是非常久的，但新一代人工智能希望很多智能的工作在端上进行，比如手机、平板电脑等，而如此大的模型显然无法在一个小的运算设备上进行运算。

针对这个问题，倪冰冰团队对网络进行了二值残差定量的简化，使得过去用浮点数表达的网络，用现在的二进制数据网络来表达，这使得整合各个模型的过程变得简单，计算变得更加高效。

“有了这个技术之后，实际上，很多原来一定要在‘云’上、在服务端去做的一些人脸识别功能，现在可以在很小的手机上进行。”倪冰冰表示，“智能刷脸闸机、智能访客机以及智能门禁等有了这个网络压缩技术，都能在小型设备上运行。”

倪冰冰认为，对一个公司团队来说，从算法到技术落地还有很长的路要走，“这里面相当多的功夫用在了工程化的落地上”。对此，其团队提出的人、物检测的算法也做了工程化的努力。

“现在对人的定位有轻量级的人脸检测模块，这样，一个几兆的小模块可以在手机里运行；也有轻量级的人体骨骼检测模块，实际就是抓住人的一个动作，过去它是一个体量非常大的计算，现在，通过一些新算法和工程实践可以把它做到很小的手机模块上，而且能够达到实时运行的效果。”倪冰冰表示。

“定位了人以后要进行识别，现在在小设备上，人脸识别也能做到在百万底库下95%以上的通过率，这是非常难的一个过程。”倪冰冰说。

（原文标题：《人工智能也可输出视频“观后感”》）

哈希力量文库选录，手机端省略本文网址

.长文建议换电脑刷.

【投融资简报库】

小鹏汇天再获近2亿美元股权

Ropedia完成千万美金级种子轮

诺仕机器人完成超亿元A轮