杨学成:“莫拉维克悖论”与另一半智能

杨学成 ☉ 文 来源:哈希力量
2025-03-21 @ 哈希力量文库

文库划重点:猫和狗也能在几个月的时间里理解重力,它们还擅长利用重力来规划复杂的行动,比如攀爬、跳跃等等,但我们仍然无法在计算机里复制这一智能。


著名的机器人学家莫拉维克(Hans Moravec)曾经注意到一个现象,计算机可以下棋、解数学题,但却无法完成一些简单的物理任务,比如操纵物体、跳跃,而这些任务动物却可以轻松搞定,这就是著名的“莫拉维克悖论”。86x哈希力量 | 通用人工智能文库

由此可见,计算机在一个纯粹的表观世界中可以轻松处理语音识别和生成文本等任务,但一旦进入到物理世界,很多技术就可能完全失效。华人AI科学家李飞飞评论道:“语言是人类的语言,而3D是自然的语言……因此,除了语言,我们还有另外一半智能,这部分非常深刻,就是我们做事的能力。”86x哈希力量 | 通用人工智能文库

毫无疑问,人类具有说话的能力,这部分能力可以用来交谈、沟通和组织知识、传递思想。但人类还拥有做事的能力,比如炒个圆白菜、采个春茶、面对面闲坐享受彼此的陪伴,等等,这些都超出了一般的语言范畴,只有置身于真实的物理世界中才能切身感受到,并转化为一系列的行动。换言之,像人类这样的生物具有处理3D空间的能力。举例来讲,地球存在重力,而重力会把所有物体拉回到地面,一般来说,九个月大的婴儿就已经能理解重力问题了。猫和狗也能在几个月的时间里理解重力,它们还擅长利用重力来规划复杂的行动,比如攀爬、跳跃等等,但我们仍然无法在计算机里复制这一智能。86x哈希力量 | 通用人工智能文库

想要“理解”物理世界的逻辑,需要我们跟随李飞飞的脚步,回到一个极其久远的时代(5亿年前),当时连“视觉”这个概念都没有出现,实际上连眼睛都尚未进化,没有任何生物曾看过这个世界,所有生命都被置于完全的黑暗之中。直到有一天,光线开始进入体内,刺激神经系统开始进化,“看见”开始转变为“洞察”,进而变为理解,而理解又推动了行动,所有这些都孕育了智能,永久地重塑了地球上生命的本质。86x哈希力量 | 通用人工智能文库

由此可见,理解物理世界的前提是先得让计算机“看见”这个世界。怎么才能看见世界呢?计算机视觉和图像处理领域的技术进步发挥了重要的作用,近几年更是获得了突飞猛进的发展,在很多领域(如,人脸识别),算法的准确性已经超过了人类肉眼。这些成就有一大部分要感谢李飞飞创建的ImageNet数据集以及依托这个数据集举办的一系列竞赛。很多人会觉得创建数据集有什么了不起,不就是个重复性的工作吗?事实证明,若是没有ImageNet,恐怕有关视觉处理的算法会晚诞生好多年。86x哈希力量 | 通用人工智能文库

我们经常讲“一图抵万言”,相比于文字来讲,图像要复杂的多。把几乎所有英文单词都统计起来,不过就是14万个左右,但所有可见物体的类别就有2.2万个,假如每个类别下面配上1000张图片,意味着需要标注两千多万张图片,这是一个浩大的工程。李飞飞团队一开始做这个项目的时候很多人都不看好,也认为这是无法完成的任务,但他们成功地在亚马逊上招募了来自全世界167个国家的4.8万名图片标注员,以“众包”的方式花了1年多时间,终于完成了这个数据库的搭建,相当于人类给机器呈现了一个完整的物理世界,以便允许它们开始尝试理解这个世界。86x哈希力量 | 通用人工智能文库

为了推广ImageNet,从2009年开始,李飞飞组织了迄今为止AI历史上最成功的赛事——大规模视觉识别挑战赛。参赛团队可以免费使用ImageNet图像库,但需要自行开发算法,最终以图像识别准确率高低来决定名次。到了2012年,辛顿教授和其学生开发的神经网络AlexNet在挑战赛中一举夺魁,把识别准确度提高了整整10个百分点。更让科学家惊喜的是,他们发现,如果不停增加神经网络的层数,识别准确率还会继续提高,这就是“深度学习”的威力。人类历史上第一次,让机器具备了像人一样“看见”的能力,那是机器首次能够理解并准确地描述海量图像。2014年,机器的人脸识别准确率超越人类。不仅如此,深度学习算法迅速泛化到图像处理之外的领域,最终激发了AlphaGo和ChatGPT的问世。86x哈希力量 | 通用人工智能文库

2012年发生的这个“大事件”,就像推倒了第一块多米诺骨牌,随后一系列突破接踵而至,直到大语言模型的横空出世。现在,利用大语言模型,我们几乎将“AI用自然语言流畅地跟人类对话”视为理所当然,模型可以回答几乎任何领域的问题,也能生成各种复杂形式的内容,从文本、图像、声音再到视频。86x哈希力量 | 通用人工智能文库

然而,我们目前所讨论的还大多只停留在“语言智能”的层面,只是“会说”和“会看”,但还不能达到“会做”的程度。如果说计算机做到“会说”需要处理文字符号的话,那么“会看”就需要处理像素,而“会做”则需要处理体素——过往二维的图像就必须转化为三维的空间了,这就是李飞飞最近创建“空间智能实验室”的原因,她想要让机器学会“自然的语言”,不但能够看清这个世界,还能理解这个三维世界的意义。86x哈希力量 | 通用人工智能文库

结论:from seeing to doing……86x哈希力量 | 通用人工智能文库

(原标题:《驭智力(20):另一半智能》)86x哈希力量 | 通用人工智能文库



收录于哈希力量,手机站省略本文固定网址