张正友对话陈熙霖:AI与机器人推进全真互联
2022年,全真互联被认为是通过多种终端和形式,实现对真实世界全面感知、连接、交互的一系列技术集合与数实融合创新模式。
12月1日,2022年腾讯数字生态大会Techo前沿技术论坛召开。腾讯首席科学家、腾讯AI Lab及Robotics X实验室主任张正友对话中科院计算技术所研究员陈熙霖,探讨了人工智能、大模型及机器人等前沿技术的发展历史与趋势,以及这些技术如何改变了我们的生活,并将如何推进全真互联的到来。
过去30年在我的记忆当中,从计算机到互联网是对我们人类生活改变最大的技术。30年以前,个人计算机虽然名为个人计算机,可在中国绝大多数家庭都还没有。同样,我第一次接触到互联网应该也正好是30年前。那个时候发电子邮件要通过调制解调器拨号,现在很难想象2400 bps的速度,那时候发个邮件已经是互联网很重要的事件。
今天,互联网已经成为我们生活当中不可或缺的一部分。大概在90年代初有一个互联网的挑战实验,把一个人关在屋子里72小时,看你如何利用互联网生存下去。今天可能这个话题就要变成,把你的所有移动通讯设备和网络都切断,你还能不能生存72小时,这就是我们生活中最大的改变和影响。至于这个改变和影响带给整个经济社会的变化,我想更是大家有目共睹的。
我认为基础研究是技术发展的根本。回到刚才讲的ABC,比方说A算法,这一轮的人工智能依赖于多层神经网络,其实多层神经网络在50年代就已经由Cornell的教授Rosenblatt提出了。深度学习之父Geoffrey Hinton在80年代CMU,也已经在研究改进神经网络的算法,而且一直持续到这一波人工智能的爆发,中间都没断过。可见算法是靠基础研究推进的。
B大数据,比方说视觉传感器CCD,1969年Bell Labs发明。C算力,半导体芯片也大概1959年左右Bell Labs发明的。这些技术是经过基础研究四、五十年的不断积累,往前推进出来的。没有这些基础研究,就没有我们今天享受到的技术的红利。当然,基础研究可以是在大学研究所,也可以是在大公司里面的实验室进行。
什么是人工智能?我们老有一个参照系就是人的智能,可是人和人是千差万别的,机器要做到一个什么样的人?其实现在的人工智能系统,在很多单一问题上已远远超越了普通人的能力。但是从全面的能力来讲,人工智能系统可能还不如一个三岁的孩子。所以这取决于我们究竟对人工智能有什么样的期待。
以刚才正友讲的GPS为例子,尽管确切的GPS说法就是定位功能,但一般大众语境中的GPS其实包括两部分,一部分是定位,另一部分是结合定位和地图的行程规划。规划在人工智能里其实就是一个经典的问题,今天行程规划已经用得非常好了,甚至能根据当前的交通状态,预测抵达目的地的时间。这就是今天的人工智能,一方面是它的现实,另一方面有人们的期待,我个人觉得它有一个更长远需要不断努力奋斗的未来。
第二点,目前的技术还非常依赖大数据,但是很多场景数据不够多。如何把物理法则等人类已有的知识,融入到人工智能里面,目前还没有很清晰的解决方案。数据和知识相结合,可能会改变人工智能,提升普适性。比方说AI制药,分子和分子之间相互作用等数据不够多,但是AI可以和量子动力学、物理、化学等规则结合,使得AI制药更快地发展。完全依赖于湿实验,在实验室里研究化学与化学之间的反应,分析药物跟大分子结合的性能,太费时间了。AI制药如能减少这些实验,前景会很大。
首先我认为大模型是一个积极的进步。大模型有更大的容量,它可以蕴含更多的数据和知识,在很多应用中,确实性能比小模型更好。
大模型也有很多问题,首先是消耗的资源远远超过我们大脑消耗的能源,显然是很不经济的。第二点,我认为大模型的容量还不够大,如果依赖于现在的大模型方法,是达不到人脑的容量,是无法接近人类智能的。因此研究分层或者模块化的新方法,以及如何让模块之间、分层之间能够更高效的结合,很重要。所以大模型既有重要意义,同时也需要思考新的方向。
现在关于多模态比较火的比如输入文本就能够产生非常惊艳的图像,后续希望能看到产出视频、短视频等。
多模态的例子现在有很多,可以是x、y、z输入后的相互转化、相互推理。但我觉得多模态最大的价值还在于,人作为智能体感知世界就是多模态的。过去AI以单模态来感知世界,很难做到理解,比如说告诉你老虎,你是不会想起老虎的叫声的。当多模态去感知老虎的时候,它的行动、声音、图像同时给到,实际上是为AI理解做了一个很好的铺垫,即便这是一个比较低程度的理解。
这也符合psychology提的knowledge grounding。我们用文本描述苹果,要用很多文字讲苹果的形状、表面纹理等,但这仍然是不够究竟的东西。至于味道,就更难用文字讲清楚了。现在的多模态更多的是文本、图像和语音。以后多模态还可以有嗅觉、味觉,把五个感官数据都结合起来,就可能产生更深入的理解。
今天讲的从感知到认知,认知里边的核心应该就是推理。这些年关于大图的表达、图谱的表达,甚至于基于网络的知识表达,都有很多进展,为实现推理提供了基础。
但对于物理世界的统一的表达,如果没有做好的话,推理研究就只能各做各的。研究推理和感知最大的一个差别在于大家对感知的输入几乎是相同的,而推理因为表达不统一,所以遇到了一些障碍。也许需要有更加趋于一致化的表达之后,关于推理的研究才能有更好的度量从而推进其进展,如同感知研究在过去这些年取得进展一样。
其实全真互联的AR/VR里,视觉技术的贡献还是相对有限的。因为全真互联环境要面对一些深层的、远程传输的对象,这时候需要识别的内容可能非常有限。
大家现在非常关注的量子技术,尽管我个人觉得它短期内可能还很难用,但是量子计算将来一定会发挥很重要的作用。就像当年我们看ENIAC一样,也是一个巨大的装置,永远不要说什么事情不可能。
作为一个研究AI和机器人的科学家,我们不会去创造超越人类、替代人类的AI或机器人。所以首先要明确目标,AI和机器人技术都是为人类服务的。