机器人如何做到自主决策？机器人视觉给出答案

吴哲明 ☉ 文来源：Deeptech深科技
2019-07-07 @ 哈希力量文库

文库划重点：现在机器人正处在第二个阶段，就是增加视觉乃至触觉等一系列的传感的方法，让这个机器人更加智能，更加具有柔性。而接下来我想给大家展望一下未来机器人的模样，就是我们期望的主流，要提高它的智能、做自主的决策。

本次分享的内容来自演绎 inSite 第十七期节目&清华校友总会先进制造专业委员会联合专场“工业机器人视觉——赋予机器柔性与智慧”中吴哲明博士的演讲。

大家好，我是来自清研先进制造研究院（洛阳）有限公司的吴哲明，今天我将带领大家走进未来机器人的世界。

让工业机器人做重复性工作，而把人的智能发挥到最大程度

首先问大家一个问题，平时住在家里最让你头疼的一件事是什么？对于有两个孩子的我来说，最头疼的是每次回到家里，都要面对孩子弄得一团糟的房间，而每次收拾这个房间，重复的劳动让我累觉不爱，相信很多人都跟我有一样的烦恼，那你们希不希望有个智能的机器人能替你收拾这个房间呢？

图1 工业机器人在打扫房间（来源：the Salisbury Robotics Lab, Stanford University）

正如图1的工业机器人，它可以走进你的房间，把沙发收拾干净，把你给孩子讲的故事书罗列整齐，把孩子玩的玩具放进箱子里，你只需要在旁边葛优躺，家里的一切都会崭新如初，是不是很吸引人？

但现在市面上没有这个机器人，那视频里的机器人是怎么做到的？实际是旁边有个人通过一个遥控手柄一点一点地控制这个机器人把所有的事情做成，干了几个小时，甚至比人亲自做的时间还长。那机器人离我们想象中的未来机器人差了些什么？还差感知世界的能力和作出自我决策的能力，也就是相当于有了手臂和身体，但没有眼睛和大脑，这个机器人不具备智能。

其实我们在家里可以一边听音乐一边干活，并不是那么枯燥，但在工厂里，工人要面对的是焊接的粉尘扑面而来，是打磨飞溅的火花甚至铁屑环绕身体，是旁边金属性的撞击刺痛耳膜，这些都会对人的身体造成永久的伤害。

图2 焊接环境（来源：Pixabay）

这就是为什么现在90后、00后，宁可领个并不高的工资，也要待在办公室或宅在家里，哪怕再高的工资都不愿意去工厂，或者可能这个年轻人干了半年就辞职了，或者心情不好导致工件质量出现问题，所以在工厂环境里，更需要工业机器人把人类从恶劣的环境里解脱出来，用工业机器人替代人去干焊接、打磨、搬运重物这些繁重的工作，而把人的智能发挥到最大程度。

图3 特斯拉机器人工厂（来源：OPPORTUNITYENERGY）

其实上世纪很早就有了工业机器人，例如在汽车行业这种产品一致性非常高的领域里，工业机器人应用已经非常广泛了。图3是特斯拉最新的、全球最先进的机器人工厂，它造的特斯拉的模型都比较统一，机器人要干什么？只要给它编好程从A到B，它就可以一直这样干，制造的汽车都是一样的。

赋予机器人智能的视觉，真正做到机器换人

然而在通用工业领域件尺寸并不固定，可能今天来了一个一米的工件，明天客户要求你做一个半米的工件，原先的工业机器人的程序就不能用了，或者今天的物流是个箱子，明天是个柔性的塑料袋，而且随机地放置，这些问题都不能让不够智能的机器人来解决。

那解决这些问题要通过什么？就像前面的视频里，需要一个遥控手柄，在机器人行业里实际就是个操纵盒，告诉机器人要走一米的长度，或者半米的长度。而如果换了一个物件，人不去盯着它，就会像盲人摸象一样，机器人不知道要做什么事，很有可能把这个工件做错。那怎么解决这个问题？我们提出的解决思路是给工业机器人一双慧眼。

什么是慧眼？慧眼就是智能的视觉，我们给机器人智能的视觉，机器人就具备了柔性的能力。

图4 慧眼与工业相机

机器人视觉到底是怎么工作的？它其实就是具备了人眼的功能，人眼干什么机器人视觉就干什么。如图4所示，右边是替代人眼的工业相机，跟手机相机没太大区别，只不过更结实，能够在工厂环境里抗干扰。

图5 图像与二维数组

如图5所示，用工业相机替代人眼实现视觉的功能，人眼看到的是蒙娜丽莎的画像，而工业相机获得的是一个二维数组，二维数组里每一个数字都代表图像里的每个像素，通过获得的数组加上开发的智能软件和算法就可以获取想要的信息。

工业机器人在工业中经常要解决三维的问题。刚才所说的是一只眼睛，只能看到二维的世界，在三维到二维的过程中损失了一个深度信息，而我们要做的就是利用双目或者多目的方法把丢失的信息找回来，用两个摄像头从不同的角度去看，可以把特征匹配起来，把二维又重构成三维，甚至用多目的方法会比人的眼睛更加出色、更加智能。

图6 搭配眼睛的工业机器人（来源：PICKIT3D）

如图6右边是一个工业机器人，左边则是我们给它配的眼睛，它的眼睛可以不断地识别不同种类不同样子的物体，随机摆放也可以找到物体的位置，获取物体的形状信息。而机器人有了眼睛、有了决策能力，就可以进行自主地随机地码放，这机器人就有了柔性和智慧。

图7 工业相机（来源：AGTROBOTICS）

在工厂里并不是都用双目的方式，还会采用更加可靠的方式。如图7所示是 CCD，就是常用的工业相机，下面是用一个抗干扰的强激光打到一个物体上，近的时候激光反射到相机上是一个位置，远的时候是另一个位置，通过两个位置的变化就知道物体到底离我们近还是远，这是一个点的问题。

而线的问题上，打一个横的激光可以获得一个线上物体的三维位置，而把这个线通过运动扫描就可以获得完整物体的三维位置，通过这个物体的三维位置加以我们的算法，就可以告诉机器人应该怎么做这件事。

图8 工业机器人扫描工件（来源：YaskawaUK）

如图8所示，工业机器人终端的一个焊枪上，加了三维的传感器，通过结构光扫描把整个物体的形貌扫下来，然后告诉机器人应该从工件哪里开始焊接在哪里停止，如果工业变了照样可以通过扫描来确定运动轨迹。从视频中可以看到，最后机器人通过扫描发现了终点，运动应该停止它就会抽身离去，这样的工业机器人就具备了完整的视觉，不需要人再去操控它。

图6、图8都说明了工业机器人搭配视觉的好处，首先不需要再雇一个懂机器人编程的人去控制机器人，真正做到了机器换人的目的，同时可以实现柔性的加工，通过加入视觉大大地提高生产效率，而且可以保证生产质量，机器人不会像人一样闹情绪。

未来机器人如何提高智能？

接下来跟大家分享一下工业机器人的发展趋势，工业机器人上世纪中代就已经开始发展，最早期经历了第一代机器人，也就是现在使用的主流，机器人需要教它怎么干，它才知道怎么干，这种使用已经受限了。

现在机器人正处在第二个阶段，就是增加视觉乃至触觉等一系列的传感的方法，让这个机器人更加智能，更加具有柔性。而接下来我想给大家展望一下未来机器人的模样，就是我们期望的主流，要提高它的智能、做自主的决策。

图9 上世纪 60 年代 IBM 开发的计算机（来源：CHILTON-COMPUTING）

从我的角度来看，机器人未来发展方向是加上AI和AR。首先来看AI，图9是上世纪60年代IBM开发的世界最新型的计算机，大概有一个小房间那么大，正是用它把人类通过阿波罗计划送上了月球，可这个计算机的计算能力甚至不如现在手机计算能力的1%甚至1‰，人类已经通过摩尔定律掌握了大量处理数据的硬件计算能力，所以我们可以引入深度学习这种人工智能方法。

图10 通过图片训练得到人名（来源：RESEARCHGATE）

图10左边是乔治华盛顿的图像，我们通过不断地图片训练，不断的大数据的引入，给它供应很多人脸的数据，最后可以得出我们要的结果——他的名字。而工业机器人通过大量的训练，也可以通过视觉判断这是什么样的东西，我应该怎么做，有了AI的功能，机器人未来将会更加强大。

而通过AR使得人和机器人相互作用，可以达到更加智能的效果，我们说的机器换人并不是把人完全用机器人替掉，而是人干人最适合干的工作、更智能的工作，机器干重复的有伤害性的工作，而人机协作是未来的一个大方向。

我们通过AR的方式，可以让人的智能发挥非常好的作用，人看见机器人将要做的工作，只需要给个指示告诉机器人，1号2号工件应该怎样装配，大大发挥人的智能性。而拧螺丝甚至焊接这种伤身体的工作，重复性劳动的工作由机器人来干，通过AR和机器人技术的结合，会让我们的未来世界中机器人应用更加广泛。

最后我想用一句话来总结今天的演讲：智能视觉让机器人看见我们的世界，也让我们的世界因为机器人更加美好。我是来自清研洛阳的吴哲明，谢谢大家！

收录于哈希力量，手机站省略本文固定网址

.长文建议换电脑刷.

【投融资简报库】

具身智能公司千寻智能完成天使+轮

Perplexity AI再获5亿美元融资

Physical Intelligence获24亿美元估值投资

机器人如何做到自主决策？ 机器人视觉给出答案

机器人如何做到自主决策？机器人视觉给出答案