张亚勤:不太完全认同算力比算法更重要的观点
文库划重点:数字化3.0它是信息、物理和生物世界的一种融合。首先是物理世界的数字化,我们的车、街道、交通灯和整个城市在数字化;我们的电网,我们的工厂,我们的机器在数字化;我们的家庭,各种家电在数字化;同时生物世界也在数字化;我们的大脑,身体各个器官DNA、RNA、蛋白质都在数字化,通过新的传感器,一些芯片。
11月24日午间消息,世界互联网大会·互联网发展论坛于11月23-24日在浙江乌镇互联网国际会展中心举行。在24日的“人工智能:育新机、开新局”人工智能分论坛上,清华大学讲席教授兼智能产业研究院院长、美国艺术与科学院院士张亚勤在演讲中表示,不太完全认同算力比算法更重要的观点。
他表示,这次数字化和过去那两次有很大的不同。首先是量高了很多数量级,比如说无人车每天所产生的数据就是5到10个T。基因测序每一次就差不多3T左右。所以这个数量级是高了很多,可能是上千或者上万倍。“这次数据更多的是给机器看的,而不是给人看的。机器要做决策,机器要进行更多的智能决策。那么过去1.0、2.0更多是给人所看的,同时我们看到人工智能的算法有很大的进展。”
张亚勤强调,深度学习其实是需要很强很强的算力。而摩尔定律过去两年左右是要双倍算力的,其实这已经是在放缓了。但是深度学习对算力要求每年差不多是将近10倍的增长。“所以说Jeff dean在谷歌就说三要素,数据算法算力三要素等于数据加上100倍算力,就是说算力比算法更重要。我个人并不完全同意这个观点。”张亚勤表示,算力在过去这几年是整个深度学习发展快速的一个大的最重要的因素,大数据超算的能力以及很大的模型。但人工智能有很多不同的算法。
不过,张亚勤同意“AI也催生了新的产业,大家经常把它叫做第四次工业革命”这个观点。他表示,人工智能是第四次工业革命一个很重要的技术方面的引擎,很多产业都会被改变,都会产生。他认为有三个方面会产生变革:第一个是自动驾驶。第二个是工业物联网。第三个是AI+医疗、生物计算。
以下是张亚勤演讲实录:
大家好,我是张亚勤,来自清华大学智能产业研究院。很高兴参加这次人工智能的互联网峰会,也感谢大会的组委会和网信办邀请。我今天想谈一下智能技术发展的一些趋势,如果看下过去的三十年,我们整个IT产业发生最重要的事无疑是数字化。第一波的数字化是80年代中期是就开始了,那时候主要是内容数字化,我们声音、音乐、图片和视频大量的数字化,我们的文档在数字化。
第二波的数字化是90年代中期开启了,一开始是企业的数字化ERP、CRM、Supply Chain,还包括BI工作流,后来就是大型的数据仓库以及云计算,同时由于大量的数字内容,加上HTML、HTTP,消费互联网开始爆发,到了后期移动互联网像移动支付、数字货币、共享经济,中国其实是走在前列的。不管是用户的体验或者是大规模的应用。
我们现在是进入数字化的3.0。它是信息,物理和生物世界的一种融合。首先是物理世界的数字化,我们的车、街道、交通灯和整个城市在数字化;我们的电网,我们的工厂,我们的机器在数字化;我们的家庭,各种家电在数字化;同时生物世界也在数字化;我们的大脑,身体各个器官DNA、RNA、蛋白质都在数字化,通过新的传感器,一些芯片。
那么这次数字化和过去那两次有很大的不同。首先是量高了很多数量级,比如说无人车每天所产生的数据就是5到10个T。我们的基因测序每一次就差不多3T左右。所以这个数量级是高了很多,可能是上千或者上万倍。
另外一点这次数据更多的是给机器看的,而不是给人看的。机器要做决策,机器要进行更多的智能决策。那么过去1.0、2.0更多是给人所看的,同时我们看到人工智能的算法有很大的进展。人工智能并不是一个崭新的概念,已经有60多年的历史了。那么从早期的符号,逻辑推理,专家系统,数据来驱动,到过去这10年,特别是过去这5年机器学习,深度学习的快速崛起。我们可以看到许多特别令人兴奋的一些进展以及应用到AlphaGO、AlphaGOZero。到后来的AlphaFold把深度学习用在不同的领域,特别用到生物计算和医药的领域。
其实人工智能有很多不同的算法,我这是佩德罗•多明戈斯划分的5个不同学派,未来发展肯定要融合这些不同学派的优势,使得我们目前用大数据所驱动的深度学习有更好的透明性、好的应用性以及有更好的可解释性。
那么深度学习确实取得很大的进展,算法从RNN、LSTM到CNN,到过去这两年的GAN和BERT还有GPT-3,可以说从我们感知方面语音、人脸、物体的分类,已经和人达到同样的水平,甚至超过人了。
那么在认证方面还有一些距离,自然语言处理,机器翻译视频内容化和知识理解还有一定距离,但是也有很大的进展。但是深度学习我们大家都知道,它其实是需要很强很强的算力的。摩尔定律过去两年左右是要双倍算力的,其实这已经是在放缓了。但是深度学习对算力要求每年差不多是将近10倍的增长,所以说Jeff dean的谷歌就说三要素,数据算法算力三要素等于数据加上100倍算力,就是说算力比算法更重要。
我个人并不完全同意这个观点,但是不管怎么讲算力在过去这几年是整个深度学习发展快速的一个大的最重要的因素,大数据超算的能力以及很大的模型。举例比如说GPT-3目前已经有1700亿的参数模型有上万台GPU,200多K或者说20多万的CPU的Core。每次做Pre-train的话也要差不多要上千万美金,这个量已经很大了。那么如何能够继续保持这么快的一个算力?我们看一下我们在传统计算和通讯的范式里三个基本原理。
首先是香农定律。香农定律定义了信息熵,定义了信道的容量,定义了速率失真的理论。其实是三个不同的极限。另外一个是冯诺依曼架构,是我们计算的架构,十分的简洁很美的一个架构。过去的60年是我们整个计算架构的主要原则。另外一个是摩尔定律。
那么现在呢这三个定律架构都遇到了瓶颈,所以要大幅度的提高这个算力的话,我们需要来突破这三个瓶颈。比如说在信息的表示方面,我们需要有新的一个理论框架以及算法。我这张图是讲的一个例子。最近有一个机构叫MPAI,这个机构就希望把人工智能算法用到我们目前的信息的表征,同时的话又希望找到新的算法来对人工智能有更快的推进。
另外一点也可以看到最近有许多新的创新在计算的架构方面。在通讯的架构方面,比如说我们深度学习,其实它需要有特别高速的数据传输,他们有一些新的相量,需要有先进代数,有波尔代数,这种优化的这些算法。这个和我们现在传统的冯诺依曼架构是格格不入的,就是需要有新的架构。
所以看到我们比如说有,在过去这5年吧,有很多加速器,就是AI的加速器出现,像SPG、GPU,最近几年也有这种ASIC专用的AI芯片出现,这种芯片因为对这些算法,对工作流,对workload可以提高CPU提高很多倍,从整个的性能、效率来讲。
那么同时也可以看到不仅仅是传统的芯片公司,像因特尔、AMD等公司做芯片,现在新的公司也在不断的创新,比如说寒武纪、地平线,华为,也包括其他公司像谷歌和百度也在自己做芯片。做芯片算法也好,架构也好有很大的工作流,所以他可以对这些进行优化。
我们可以看到有很多很多的这些芯片、软件、架构以及算法方面的快速进展。那么这些进展带来很多产业的新机遇。首先对我们IT的产业有一个提升的作用,新的数据,新的算法,新的场景,然后不断的快速迭代,所以提升我们的IT产业,同时更重要的是改变甚至颠复我们现在的传统产业,教育、医疗、金融、制造、交通,可以说每一个产业都被人工智能所改变。
同时AI也催生了新的产业,大家经常把它叫做第四次工业革命,我的确同意这个观点。就是人工智能是第四次工业革命一个很重要的技术方面的引擎,很多产业都会被改变,都会产生。我自己认为有三个方面是比较感兴趣的:第一个是自动驾驶。第二个是工业物联网。第三个是AI+医疗、生物计算。当然也很有很多很多别的产业,这也是为什么我们成立了一个智能产业研究院的大背景。这当然是在清华大学整个学校大框架下面,因为可以和清华大学各个院系密切合作,智能产业的英文简称(AIR),使命是用人工智能技术赋能产业推动社会的进步,目标是面向第四次工业革命,是一个国际化,智能化,产业化的应用研究机构。实现这个目标有几个战略:首先是要吸引培养国际视野的技术领军人物。第二点是要实现关键核心技术方面的突破,更重要的是有了技术以后,我们要赋能产业,通过转化孵化公司的方式,把这些技术能够对产业有更多的影响力。所以我们的研究领域目前集中在三个方面。
刚才我提到的三个方面:智能交通、工业互联网、AI+IoT以及智慧医疗AI+IoT,特别是生物计算,那么垂直的这三个行业是对一些基础的平台所支撑的共有模块所支撑,叫做“ABCD”。AI的一些算法、Big data的模型加上云Cloud和Device这种新机构。我希望通过我们的研究院新的技术能和产业去合作,对中国和全球人工智能产业,第四次工业革命都做出贡献。谢谢大家,祝我们乌镇互联网峰会圆满成功!
收录于哈希力量,手机站省略本文固定网址