中国工程院院士潘云鹤:视觉知识和多重知识的表达是AI 2.0关键
文库划重点:这些年,图像识别技术的突破提高了计算机对人脸、文字、指纹、医学图片等识别的准确率,进而推动智能汽车、安全监控、机器人、无人机、智能制造等快速发展,形成人工智能(AI)对经济社会发展的推动。
“一个小孩子还不会说话时,看到杯子就知道抓过来喝水。这说明他已学到很多视觉知识。”在日前举办的2021中国·宁波新一代人工智能学术峰会上,中国工程院院士、中国工程院原常务副院长潘云鹤解释道。
以往的认知心理学研究认为,人类记忆的视觉知识要远多于言语知识。为此,潘云鹤系统提出了“视觉知识”概念。
这些年,图像识别技术的突破提高了计算机对人脸、文字、指纹、医学图片等识别的准确率,进而推动智能汽车、安全监控、机器人、无人机、智能制造等快速发展,形成人工智能(AI)对经济社会发展的推动。
“但以往AI研究的一大弱点是对视觉知识研究不足,视觉知识研究与应用是AI迈向2.0的关键。”潘云鹤说。
在潘云鹤看来,视觉知识至少有五个基本问题,分别是视觉知识表达、视觉识别、视觉形象变化模拟、视觉知识学习和多重知识表达。其中,视觉知识表达和多重知识表达是关键所在。
对于第一个问题视觉知识表达,潘云鹤认为,认知心理学实验表明,视觉知识具有不同于言语知识的特征,包括能表达对象的空间形状、大小、色彩、纹理和空间关系,能表达对象的动作、速度及时间关系,能进行对象的时空变换、操作与推理等。
“计算机图像学是表达几何,而非表达视觉概念。”潘云鹤强调。他进一步解释,视觉概念由典型和范畴构成,还有层次结构和动作结构;视觉命题表达视觉概念的空间关系和时间关系,前者表达为场景结构,后者表达为动态结构;最后形成由一组视觉命题构成的视觉述事。
对于第二个问题视觉识别,潘云鹤介绍,从AI早期开始,模式识别便作为一个重要研究领域,其中图像和视频识别是发展最快的方向。
使用基于数字图像处理技术的图像识别技术,是一种从局部特征综合为整体的方法。近年来,深度学习提供了另一种方法,即用大量标识的图像训练出深度神经网络模型(DNN)用以图像识别,该方法已获广泛应用。他表示,DNN的优点是可以从标识的样本数据中通过学习而自动获得知识,也可以用于非符号数据的识别,如图像与语音识别;但其缺点也同样明显,如不可解释、不可推理,需要大量被标识的数据来训练网络等。
值得注意的是,人类进行视觉识别的方法,与DNN的方法不尽相同。它不仅分析视网膜传入的短期记忆中的数据,而且动用了长期记忆中的视觉知识。正因为如此,人类的视觉识别往往只需少量的数据,且可以解释、推理。
“因此,视觉识别不但要使用数据,而且要使用视觉知识,是视觉识别重要的研究方向。”潘云鹤说。
潘云鹤提出第三个问题是视觉形象变化模拟。形象变化是人类在设计创意和问题求解时重要的智能行为。而模拟形象变化,需要操作视觉形象的物理变化、生物变化、想象变化等。以想象变化为例,即在创意与设计新产品中的各种想象性操作,如阿凡达、狮子王、小飞象等。
实际上,视觉形象变化模拟在CAD、仿真模拟、计算机动画、儿童教育和数字媒体创意等领域的应用十分广泛。按照数字媒体的不同,可分为从字符生成视觉形象、从一种视觉形象变换为另一种形象、从视觉形象生成文本等。
潘云鹤判断,计算机图像学已储备了很多基础技术,但有待和AI打通。“做好了,有望形成新一代设计软件的基础。”
第四个问题是视觉知识学习。事实上,计算机视觉研究已注意到形体重构的重要性,并积累了很多成果,如3D扫描重构形体、多相机重构形体、基于video重构形体等。但视觉知识学习要将目标从形状重构转换为视觉知识概念和命题的重建,则需要对现有计算机视觉技术进一步研究。
“在此基础上,有望发展出视觉知识的自动学习,当前的场景图是此方向前进的一步。”潘云鹤表示,为此,当今AI、计算机图像学和计算机视觉三个领域的研究者特别需要联手,进一步研究视觉知识的自动学习。
最后一个问题是多重知识表达。研究发现,人脑中的知识是多重表达的。在潘云鹤看来,在AI 2.0中的知识也应有多重表达,如知识的言语表达、知识的深度神经学习网络表达、知识的形象表达。
他强调,AI 2.0要使多种知识表达相通使用,就是多重知识表达,而它将形成跨媒体智能和大数据智能的技术基础。
潘云鹤分析,从视觉知识的五大问题来看,视觉形象变化模拟、视觉识别、视觉知识学习的解决有较好的基础,但视觉知识表达、多重知识表达尚需大力攻关。“这是一块荒芜而肥沃的‘北大荒’,也是一块充满希望且值得探索的‘无人区’。”
《中国科学报》 (2021-07-23 第4版 综合)
收录于哈希力量,手机站省略本文固定网址