大脑,是我们至今为止已知的宇宙中最复杂的客观对象。有人就把脑科学、神经科学、认知科学等生物智能学科,叫做自然科学的最后疆域,如果把它搞清楚了,自然科学的所有的问题就能解决了。然而你可能想不到,研究“超级大脑”,其实要先从一只眼睛开始…机器怎么获得智能?为什么机器智能要仿脑?人机大战的现象可能发生吗?
出品:格致论道讲坛
以下内容为北京智源人工智能研究院长黄铁军演讲实录:
大家好,今天我的演讲题目是《机器崛起,智能无疆》。
比起“人工智能”,我更喜欢用“机器智能”这个词。因为人工智能总让人想到是人类在设计智能,但事实并非如此。机器作为智能的载体,它本身会不断地发展、进化。它在发展时,会带动智能不断发展。
技术科学的无尽疆域
什么是智能呢?这是一个很基础的也很难定义的概念。你也可以将智能定义为感知、认知,但是这样的话智能的定义几乎是无穷无尽的。
我给智能的定义是这样的:智能是系统通过获取和加工信息而获得的一种能力,从而让系统实现从简单到复杂的演化。
我的定义有什么特别的地方呢?首先,它说明了智能一定是在某个系统上出现的一种功能,它一定要有一个物理系统作为它的承载者。
第二,智能是这个系统通过获取和加工信息获得的一种能力。人通过吃饭能获取能量让身体变强壮,但这是动能而不是智能。智能只有通过获取信息才能发展,比如看书、看世界、用耳朵获取信息、与世界互动等等,才有可能对我们的智能发展带来作用。
有了这个定义,我们就很容易区分生物智能和机器智能这两种智能。从功能或者现象的层次来说,它们可以是相似的,也可以完全不同。
之所以很容易区分,是因为它们的物理载体是不同的。包括人类在内,生物智能的载体就是有机生物体;而机器智能的载体是包括计算机在内的各种非生物体的机械、机器。
还有一个区别是,生物智能属于生命科学领域。生命科学研究的对象是生命,它是自然科学的一部分。物理、化学、生物、天文、地理……任何自然科学都有一个特定的、明确的研究对象。
生命、特别是生命的大脑这样一个复杂的对象,是我们至今为止已知的宇宙中最复杂的客观对象。所以,有人就把脑科学、神经科学、认知科学这样一个关于生物智能的学科叫做自然科学的最后的疆域,如果把它搞清楚了,自然科学的所有的问题就能解决了。
相比之下,机器智能以机器为载体,而机器本身是不断地发展的。一开始是由人类设计机器,机器变得越来越复杂,它的智能变得越来越强大;将来,机器还可能自己设计机器,所以机器自身也会不断地迭代发展。因此,机器智能的功能会越来越多、越来越强大。
那么何处是它的边界呢?生物智能在不断地进化,但是进化速度比较慢,它是有边界的;但是机器进化的速度将来会特别快,它的智能是无穷无尽的,所以说机器智能是技术科学的无尽疆域。
从接受规则到自主学习
说起人工智能,大家可能喜欢说它是通过在计算机上写程序、编算法实现的智能。这其实是一种对机器智能的狭义理解,它们只是实现机器智能的一种途径。
▲狭义机器智能:以计算机为载体的人工智能
按照这样的观点,机器智能在过去60多年的发展历史中大致可以分成三个阶段。
第一个阶段大概是在20世纪五六十年代到七十年代初,那时基本的思想是把逻辑、推理这样的一些规则赋予机器,也就是我们通常说的编程、写算法,然后让机器去执行。
这当然是实现智能。但是很明显,人类是设计者,而机器只不过是一个执行者。这一派的观点发展了20年左右之后证明,很多问题是解决不了的。
第二个阶段是在七八十年代,那时像专家系统、知识工程这样的一套方法发展起来。这套方法提出:不仅要向机器灌输规则,还得教给它如“北京是中国的首都”这样的知识。所以那时就设计了大量的知识库、专家系统。
但是后来人们发现,这样做还是有问题。因为不是世界上所有的知识都能变成一条一条的条目或是书本上的符号,灌输给机器的内容有大量都是不可以描述的。
我举一个例子,我在说“红色”这个词时,你的脑子里会有清楚的感受,但这种感受是没有办法描述成所谓的知识或者符号的。
第三个阶段是上个世纪八十年代到现在,称为“从数据中学习”的阶段。即不是靠人来编规则、编知识,然后让机器去执行,而是让机器、计算机直接从数据里找规则、找规律,也就是机器学习的时代。
所以说起狭义人工智能,大概就是按照这样的三个阶段来划分的。
机器何以获得智能?
刚才说的狭义人工智能,总体是符号主义这一流派的思维方式,也就是用符号来表示智能的方方面面,然后用机器去执行它。其实除此之外,还有两个很重要的学术流派,第二个流派叫连接主义,又叫神经网络。第三个叫行为主义,又叫控制论的方法。
如果我们形象地去理解这三种流派或者三种思想的区别的话,符号主义讲的是机器应该能够思考;连接主义讲的是要实现智能就得有一个类似于头脑、神经系统这样的一个物理载体,所以要制造头脑;而行为主义认为,如果光有头脑没有身体,就无法与环境互动,也不能形成智能和发展智能。
第一个流派符号主义的观点是要把智能的功能和现象用符号进行刻画。我们在课堂里学的很多知识其实已经有老师或者作者把它变成了符号化的东西,我们是去接受它、学习它。记住一个定律、记住一个推导的规则,广义地讲,这就是符号主义。把符号主义的思想用到智能上,就是把这些符号变成代码、程序、算法,让计算机去执行。
符号主义取得了很多成果,我举两个比较有代表性的例子。
一个就是在人工智能这个概念出现之前,有一套叫“逻辑理论家”的软件算法系统,它能够证明数学中的很多定理,在那时是很有名的。它也是年人工智能这个概念出现时唯一一个能够运行的人工智能系统。
▲著名数学家、中国科学院院士吴文俊
另外一个里程碑式的成就是由中国的科学家吴文俊先生创立的。他在年提出了吴方法,所有能够通过机器证明的定理都可以用这种方法来证明。但是这句话是有前提的,即“能够用机器证明的定理”。事实上不能用机器证明的定理和不可证明的定理大量存在。
第二个流派是行为主义,这种思想的历史也比人工智能的概念出现得还早。
▲沃尔特的机器乌龟
比如在年,就有一位发明家发明了上图中的一个像小乌龟一样的机器。当时这个机器用了光传感器和模拟电路,能够靠它的光传感器发现障碍物。碰见障碍物时,它可以通过左右移动寻找能够走的路。另外,在它里面有电路来模拟神经系统条件反射,在电快用完的时候,可以回到插座去充电。
这个东西我们都很熟悉,现在很多家庭都有,就是扫地机器人,它发明时间比人工智能的历史还长。
那时这样一个机器的里面当然没有计算机和芯片,也没有程序和算法。它只是内部有一个模拟电路,靠行为、靠跟环境的互动来获得它的智能。
最近几年我们经常看到一些很炫的机器人,比如波士顿动力做的机器人。它们可以在很复杂的环境里运动,像上图的这个机器人就可以做到跳跃到高台上去。
这种机器人背后的设计思想主要也是行为主义。这些行为不是由人进行编程,制定“先迈左脚,再迈右脚,遇到多高的东西怎么行为”的规则,再让机器人去尝试、去执行,是训练出来的。
既然有训练,就会有失败,我们看到的都是成功的例子。为了完成这个动作,它其实已经训练了很长时间,摔断了无数次腿。
第三个学派是连接主义。如前所述,实现智能需要有物理载体,这个载体本身是一个客观的物理存在。按照连接主义的思想,它就应该是神经网络。
因为生物或者人类智能的主要载体就是我们以大脑为中枢的神经系统,所以我们构造一个机器智能系统,也就应该构造一个人工神经网络。这个人工神经网络的构造,长期以来就成为各位发明家尝试的对象。
其实在过去这些年,我们对生物的神经系统了解还很有限。本来我们应该借鉴生物的神经系统来构造人工的神经网络,但在得不到生物神经系统蓝图的时候,就只能去创造各种各样的神经网络。
上图展示了已经发明的很多种神经网络的神经元是如何连接成各种各样的结构。
构造神经网络是为了产生智能,那么什么样的神经网络能产生智能?怎么去产生智能?就成了连接主义这个流派要解决的问题。
机器也逃不过适者生存的法则
在上个世纪八十年代前后,有好几个研究组都提出了一个类似的思想,我们今天叫它反向传播算法。
▲多层神经网络上的反向传播算法(前后)
大家看,上面这个神经网络其实是一个结构很简单的网络。说它简单是因为它的结构是多层的,每个纵向的一列就是一层神经元,两层之间的神经元是全连接,也就是任何一个上层的神经元跟下层的所有的神经元都是互联的。这样的网络结构大家都很容易想到,很简单。
生物的神经网络要比这复杂得多,但还远远不清楚,因此现在人类只能按照自己的理解去设计这样的简单人工神经网络。上面这个网络到今天仍然在被大量使用。
这样的一个简单结构怎么产生智能呢?这个网络在开始时,所有的神经连接是随机的。它的左边是输入,右边是输出。如果现在要它完成人脸识别,你在左边输入一幅人脸的图像,右边希望它输出这是张三或李四。像这样随便输入一个图像让它输出人名,在没有任何教学过程的情况下,它根本无法做到正确输出。
比如说我们希望T1等于1的时候就是张三,T2等于1的时候就是李四,但是当我们输入张三的图像时,几乎可以肯定T1不等于1。不等于1没关系,既然我们希望T1等于1,那么它跟1的差别有多大呢?这个差别可以用Δ表示。为了让T1的值等于1,算法会反向地一层层调节神经网络,让前面每一层连接的强度值发生变化。所以每完成一次训练就要进行一轮调节,经过一遍遍的训练和调节后,再让机器做出识别。
我就做过这种神经网络,再简单的问题,大概三天三夜能够训练出一个像样的结果就不错了。
所以它的背后没有如何识别人脸的规则,它的功能是一个网络经过很多轮的调整而逐渐地获取的。
今天神经网络训练的背后基本也是这样的思路,我们最后得到的结果实际上就是经历了反复尝试、优胜劣汰后取得的。大自然训练我们的大脑其实也是这样的过程,在数十亿年生命发展过程中,有无数生命因为试错而死亡。
▲年,GeoffreyHinton在《Science》发表关于深度神经网络的论文
年,著名的科学家杰弗里·辛顿(GeoffreyHinton)提出了一个改进的算法:在前面提及的神经网络上做了一些方法上的改进之后,它能够起到很好的识别效果。我们称之为深度学习。
什么是深度学习?深度指的是神经网络的层数有很多。我刚才举的例子只有几层,但今天的神经网络已经有几百层甚至上千层了。学习就是机器学习,即通过一遍一遍的尝试、不断地调整参数,最终调到接近人类希望的答案。
所以深度学习就是在多层神经网络上,经过一遍一遍的尝试,最后获得规律的过程。
这是个通用的方法,通过这样的方法可以解决很多问题:如果输入一张人脸,最后它能识别出是张三、李四,这是人脸识别;如果输入的是一句话,它最后理解的就是一个一个的字,这就是语音识别。其他不同媒体的数据类型都可以通过这种方式寻找数据背后的结构。
能够从复杂的现象背后发现规律、发现结构,这就是智能的基本特征。而深度网络就能做到这一点:无论是什么类型的数据,只要它内部存在结构性,深度网络都可以通过多次尝试找到结构性。这就是深度学习工作的基本方法。
机器凭什么战胜人类高手?
深度学习的一个例子就是AlphaGo。年AlphaGo围棋系统战胜了李世石,它是怎么做到的呢?在比赛之前还有很多人否认这种可能性,认为计算机不可能战胜人类。因为他们做这种结论时背后的思想是符号主义的,就是通过给机器制定规则去搜索围棋下法。
▲AlphaGo通过视觉感知获得“棋感”
计算机比较笨,但是算得快。算得快并不能解决问题,因为围棋的可能性太多了,多到今天的计算机无论用多少万年,都无法实现找到所有下法这一复杂的计算需求。
但是人也无法把围棋的所有下法下一遍然后总结经验。那么在有限的棋局里,人是如何总结规律的呢?AlphaGo学的其实就是这一点,它把棋盘看成了一个图像。
棋盘其实不大,只有个点,每个点只有黑、白和无三种状态,所以它是个很简单的图像,比人脸简单多了。
机器能看到大量的图像,因为有些图像最终导致赢,有些图像导致输,这个结果是很清楚的。所以就可以把这些图像输给机器,告诉它:“出现这种局面的时候赢的概率大一点儿,出现那种图像时赢的概率小一点”。尽管这个输赢的概率只有很细微的差别,但是学多了也能逐渐掌握规律。
所以AlphaGo下围棋时,它的神经网络学习就是看围棋的局面、找其中规律性的东西,这个过程跟人类从复杂的数据、事物里找规律的道理是一样的。
AlphaGo学到的棋感跟我们人类学到的棋感是一样的,机器和生物做的没有什么区别。但是重要的是机器的计算能力强大,它可以看更多的棋面、棋局。比如AlphaGo当时总共自我对弈了万盘棋。如果人类以岁为计,生命长度总共是天,万盘相当于每天要下盘左右的围棋。
人类无法做到从出生起到岁每天下盘棋,但是机器用几个月就可以做到。它获得的棋感要比人类获得的数据源丰富得多,所以它找到了很多没有任何人尝试过的妙招,它打败人是一个很显然的结果。
▲年1月,DeepMindAlphaStar在与两位职业选手的比赛中获得了全胜,其中一位还是世界前10的顶尖神族选手Mana。
除了下棋,机器还可以做很多事,比如游戏。在星际争霸这样的游戏里输赢也是很清楚的。
尽管整个游戏的场景或者选择的可能性很多,但总的来说它是一个规则很清楚的场景,机器同样可以从角色空间里寻找更占优势的策略,然后不断地提高自己的能力。用类似的方法,年机器就战胜了人类的顶尖高手。
▲年6月21日,启元AI“星际指挥官”以两个2:0的成绩击败了《星际争霸I/II》全国冠军黄慧明(TooDming)和黄金总决赛三连冠选手李培楠(Time)
这是年6月在北京举行的比赛,中国的两位星际争霸的顶级选手和机器对战。这套系统用的机器的算力消耗只有国外同类系统的十分之一,但是靠算法的改进,它达到了与国外系统相当的水平。那一天我在现场,它几乎是没有悬念就把人类两个顶级高手给打败了。
为什么做智能机器要仿脑?
这么看的话,机器智能似乎发展得很快,已经有点儿势不可当了,下棋、打星际争霸甚至更复杂的决策,机器都能做得到。是不是照着这种势头下去,机器就能超越人类了呢?是不是随着大算力、大数据等等的发展,把模型做得越来越大,然后人工智能就是一片光明了呢?其实不是的。
举一个例子,人脸识别是人工智能最成功的应用,不少公司的产品就是做人脸识别,我们日常生活中也经常看到人脸识别。那么今天的人工智能系统是不是已经解决了人脸识别问题呢?
人类识别人脸的能力是有限的,平均一个人能够分辨人脸的类别总共是左右。好在我们一生不用认识那么多人,区别人的人脸对我们来说已经够用了。
在人脸识别方面,比如输入一张照片问,这个人在这个有几千万人口的城市的什么地方出现过?机器做得确实比人类强。
但是,看似很强大的人工智能系统,在做一些基本任务时跟人类相比还差得很远。
比如上图这个穿条纹衣服的人被机器检测出来了,但在肚皮上贴图片的这个人,机器就检测不出是个人。
这位女士的头上不贴那个图片的话,很容易检测识别出她是谁,但是一旦加上这幅图片,机器根本不知道图像里存在一个人或者一张人脸。
所以机器看似很强大,但实际上有很大的弱点,它跟人类视觉相比还有很大的差距。
为什么会发生这种情况呢?其实道理很简单。因为任何智能都是有载体的,深度学习依赖于人工神经网络,生物的智能依赖于生物的神经网络。
今天的人工神经网络跟生物神经网络相比,还是小巫见大巫。
▲人类视觉系统
就像这个图片显示的,我们的视觉系统在后脑勺,眼睛的信号通过视神经纤维送到后脑勺。这个视觉系统差不多占大脑皮层五分之一的面积,其神经网络的复杂程度远远超出今天所有人脸识别系统的人工神经网络。所以生物视觉的物理基础强大,能力强也没有什么奇怪的。
如果想做一个能够媲美人类视觉的视觉系统,就得做一个跟人类视觉的神经网络相当的人工神经网络才有可能做到。
这样的观念其实并不新鲜,在人工智能的概念没出现时人们就讨论过了。我举两个例子。
▲冯·诺伊曼
我们今天讲的计算机都叫冯·诺伊曼计算机,是因为冯·诺伊曼定义了计算机的体系结构。
他在提出计算机体系结构的那个年代也提出了一个观点,他认为生物视觉系统最简单的完整模型就是视觉系统本身,如果你想简化,只会让事情变得更复杂,而不是更简单。所以要实现某种智能,就必须有实现那种智能相应的机器和对应的结构才可能做到。
▲图灵
图灵是一位更著名的学者和计算机专家,我们今天的计算机的基本模型就是图灵提出的。图灵在年发表了一篇论文,这篇论文也被追认为人工智能的第一篇论文。因为人工智能的概念在年出现,而这篇论文是年发表的。
在这篇论文中,图灵给了一个很清楚的判断,他认为真正的智能机器必须具有学习能力,制造这种机器的方法是先制造一个模拟童年大脑的机器,再教育训练它。只有用能够模拟童年大脑的机器训练,才能产生预期的智能。
为什么要仿脑?为什么必须在脑的基础上去做?人类也可以尝试做各种神经网络,然后解决一些现实的问题,但从终极意义上讲,最节省的方法就是把人的大脑作为葫芦去画瓢,这个瓢就是机器智能。
为什么要用生物大脑作为“葫芦”?因为它是经过35亿年的进化、试错后试出来的、证明是有效的结构。我们今天只要把这个结构搞清楚,然后用它去做机器智能就行了。
人类大脑在很多方面是很强大的,虽然能耗只有25瓦,但是它能做的事情比我们今天的大型计算机都要强大得多。人脑进化的成本地球已经付出过了,所以它是一个成本很低的、现成的可参照物。
先造大脑,再研究智能的奥秘
这里可能有一个问题。很多专家说:“你说得容易,但做起来很难,大脑背后的机理你知道吗?”
就像我刚才说的,大脑是人类自然科学最后的疆域,大脑奥秘什么时候能破解?确实不可预测,几百年、几千年都不好说。
但是机器智能这四个字可分为“机器”和“智能”。我们做机器智能,第一步是要做机器,第二步是做智能,不是只盯着智能,而首先要做一个可能产生强大智能的机器。首先要关心机器、关心大脑、关心这个产生强大智能的结构,而不要先纠结大脑的思维和智能的机理。它如何产生智能?那是之后的事。
为了不显得太抽象,我举个例子。如果认为人类要制造能飞行的机器,就得先把飞行原理搞清楚才能造机器的话,人类到今天都飞不上天。因为人类到今天都没有弄明白飞行的所有原理。
实际上飞机发明的历史发展过程是这样的:年莱特兄弟发明了飞机,那时根本没有任何飞行原理。到了年钱学森和冯·卡门才真正建立出了一套飞行理论。在这30多年的时间中间,有两次世界大战,飞机已经发挥了很大作用。
那在这中间发生了什么?其实莱特兄弟发明飞机,只是利用了工业时代的技术进步,靠动力、靠尝试让一个机械装置飞上天。莱特兄弟和世人都不明白它为什么能飞上天,但它就是发生了。
有一个叫冯·卡门的人坚决不相信这件事情,他在年跟别人打赌说:“人类不可能让一个庞大的装置在天上飞,而且人还能待在上面。”直到在巴黎亲眼看到这个事实之后,他才下决心去研究为什么一个这么重的装置能飞上天。花了三十几年的时间,他才找到了飞行的原理,才有了空气动力学。
年后,基于空气动力学的原理,我们可以把飞机造得更好、更大、更强大,但是第一架飞机不是基于原理制造出来的,而是人类的一个重大的发明。
这种事件在科学技术历史上很多。比如中国宋朝时发明指南针,当时我们不知道电磁学,但这并没有妨碍指南针的发明。如果没有指南针,就没有大航海,还有没有我们今天的科技的进展都不好说。
所以大家不要被原理迷惑,认为做一件事必须先把原理搞清楚才能做,这是阻碍创新的一个很大的思想障碍。
智能其实也是一样的。我们今天不是要回答智能背后的原理是什么,大脑的奥秘是怎样的。我们要先看是什么样的结构产生了智能,然后制造这样的机器去实现智能,再去研究它产生的奥秘。
这是冯·卡门的老师、冯·卡门以及他的学生钱学森的一张珍贵的照片。冯·卡门晚年曾经总结过一句话:“科学家发现现存的世界,工程师创造未来的世界。”
科学家研究的对象一定是存在的,研究不存在的对象是玄学。工程师创造的东西可以是基于科学原理,但是最伟大的工程师是在没有原理的情况下把一个东西做出来,这才是0到1的重大发明。
发现和发明同样重要,有时是发现指导发明,有时是先发明后才有科学发现。机器智能现在要做的是要发现生物神经系统的结构,不是发现生物智能的奥秘。
那么,我们要发现什么样的生物智能背后的结构呢?
科学研究常用的模式动物就那么几种。最简单的是线虫,线虫只有个神经元,它靠多个神经元就足以生存、繁衍、感知、运动。
比线虫复杂一点的生物,也是现在常用的斑马鱼。斑马鱼出生时只有数万个神经元,随着成长,它的神经元不断增加,可以增加到百万级别。斑马鱼是透明的,所以可以用光电仪器仔细地观察这些神经元的行为。
更复杂一点的就是果蝇,然后就是哺乳动物小鼠。比小鼠更复杂一点的是狨猴,这是灵长类里大脑最小的动物,它的大脑大概有10亿个神经元。最复杂的生物就是人类,人类的大脑大概有多亿个神经元,差不多是千亿规模的。
不同的生物神经网络复杂程度不同,造就了各种各样的智能行为。
什么时候我们能够把生物的大脑解析清楚,作为制造机器智能的蓝图呢?对此,人们有不同的看法。
我想引用年4月全球脑计划研讨会提出的看法,它当时说:10年内希望能够完成包括但不限于以下动物的大脑的解析:果蝇、斑马鱼、鼠和狨猴。也就是未来10年左右对生物大脑的解析要进入灵长类。
那什么时候能到人类呢?20年?30年?现在很难给出一个答案。
但是总的来说,这需要的只不过是我们用最先进的技术对一个复杂对象进行解析。不存在能不能的问题,只有技术手段够不够的问题。虽然准确的时间不好说,但是大概在几十年之内,这件事情是可以办得到的。
就像人类基因组一开始测基因的成本很高,但今天我们测人类基因的成本可能几百块钱就足够了。技术进步会带来对大脑结构解析的巨大进步。
走向通用人工智能
既然生物这边能够把生物神经系统的构造解析出来,那做信息和人工智能的人面临的问题就是,你能不能照葫芦画瓢,把这个电子大脑构造出来,也就是制造智能的机器。
在这方面其实全世界进展得很快。我国年已经在北京怀柔开建一个国家重大科技设施“多模态跨尺度生物医学成像设施”。这个设施的主要目标就是解析大脑的神经网络结构。
贵州的FAST天文望远镜看的是我们的大宇宙,而这套系统要看的则是我们生物的小宇宙。
即便不是人的大脑,如果能把果蝇大脑中这几十万个神经元做出来,其实也很有用。今天的无人机看着很强大,但跟果蝇对比的话还差得远。如果能构造出一个果蝇的大脑,相应电子装置其实就已经可以满足很多实际的问题。
关于无人驾驶,有的人说几年就能成功了,有的人说可能几十年都成功不了,这里最主要的问题就是驾驶脑到底能不能灵敏地感知环境。
如果能够把生物的大脑做出来,不说别的,一只小鼠在复杂空间的感知能力都比今天的无人车要强大得多。如果能做出一个鼠脑,就足以完成无人驾驶的功能了。
所以如果能把这些脑高精度地模拟出来,然后把上面的智能训练出来,就能够解决人工智能的很多问题。而这些问题的一步步解决,将带来走向通用人工智能的历史性的进步。
今天所有的人工智能都是弱人工智能。弱人工智能也叫窄人工智能或者专用人工智能,这个智能系统只能完成一件事。能够做任何事的智能系统叫通用人工智能系统,也叫强人工智能系统。
人类当然是强人工智能系统,我们不是只会一件事,只要学习,我们可以学会各种解决问题的办法。
我们未来的目标就是要做出通用人工智能系统。这个系统什么时候能做出来,也是个很有争议的话题,不同人的看法可以说是天壤之别。
年1月时,有一个关于人工智能安全的会议叫AISafety。会议现场对于与会专家进行了一个现场调查,让他们预测什么时候能出现通用人工智能或者强人工智能。
把他们的答案排一个序,有人说10年、20年、30年、50年,有人说永远做不到。预测的中点时间是年,也就是在年的30年后,这种智能就会做出来。
我没有参加那次会议,但是我的判断也是类似的。
我在那次会议之前发表了一篇名为《人类能制造出超级大脑吗?》的文章。其实文章原名叫《制造超级大脑》,编辑怕说得太绝对,就用了一个疑问句。文章内容讲的就是我们如何构造一个电子大脑,让它产生强人工智能。我自己做科研时也在做这方面的工作。
比人眼快0倍的电子眼
刚才说复制一个大脑还需要几十年的时间,那么我们在几年之内能做什么?我们几年之内只能做大脑的一部分,具体来说做的是眼睛,就是视觉部分。
我们的眼球里有一个复杂的神经网络,眼球里的感受神经元数量超过一亿个,其中有大概万个负责精细视觉,就是大家盯着某件事物看时用到的那部分神经元,它叫黄斑区或者中央凹。我们模拟的就是这个区域。
要模拟这个区域就得搞清楚它是怎么回事,所以就要对其中的每一种神经元进行精细的结构和功能的解析,然后在计算机上模型化,把它重现出来。上图就是其中的一个神经节细胞的结构以及它接受信号刺激时发放神经脉冲的过程。
我的课题组就是这样一个一个解析、模型化、重现神经元,经常一个博士生几年就做一个神经元。
人类的眼睛里大致有六七十种神经元,我们做了其中的10种左右中央凹这个区域的神经元。把这些神经元按照生物的结构连接在一起,让它感受光刺激,我们可以看到一层层神经元传递的过程。
上图是给神经元一个图像刺激之后,它们发黄光,也就是发放神经脉冲,然后相互作用,来表示视觉刺激的的过程。
除了要想搞清楚生物的神经系统的细节之外,还得搞出一个电子系统来重现生物的功能,所以我们就设计了一颗芯片。
这个芯片做了很多简化,实际上上面那个把生物的细节都做到的动画背后的所有计算是在天河二号上完成的,我们做的芯片只仿真了其中的一个核心功能。
这样的芯片做出来后,我们就可以尝试看看这只电子眼能够看见什么。其实它实现的功能不比人眼复杂,只不过是人眼功能的一个子集,但有一点儿不同,它是个电子系统。
生物的神经系统很复杂,但是生物是一个慢速系统。生物的任何两个神经元之间每秒钟能够传送的神经脉冲的数量通常只有几个到几十个,不可能超过个,但是我们构造的电子神经元之间传送信号就可以快得多。
我们的第一版芯片就做到每秒4万个脉冲,假定生物平均是40个,这两者就差了0倍。这0倍的速度差别带来的就是这只电子眼睛可以看到高速运动过程。
比如一个电扇转起来之后,人眼是看不到电扇上的细节的。如果在电扇的扇叶上贴上几个字母,电扇不转的时候你能看得清清楚楚,电扇一转你就看不清楚了。
为什么?因为生物的眼睛是一个慢速系统,每秒钟每一个神经元只能给大脑送几个脉冲,所以当然看不出电扇每秒钟转几十转的高速过程。
电子眼比人眼快0倍,对它来说所谓的高速只是一个很缓慢的运行过程,所以这只电子眼可以看清楚电扇转起来时的所有细节。
▲仿眼高速相机和识别系统
为了证明电子眼能看见,我们买了一个激光器做了一个装置,就是上图的这个方形结构。这个激光器能做什么呢?
▲仿眼高速相机和识别系统
这是慢放0倍的场景,真正的信号实时地放,没有任何人能看清楚。
在电扇转起来之后,我们的算法就在一个计算机上执行了。你可以选任何字母,上面的PKU是北京大学的缩写。如果你希望激光击中其中的某一个字母,比如说“K”,你按下K键之后,激光就会直接在粘贴“K”的扇叶上打一串激光点,这就证明电子眼是可以实时看到的。
这个系统的成本其实很低,是我们自己设计的相机和笔记本电脑组成的。将来笔记本电脑会变成一个芯片,变成一个可以做到超高速的小装置系统,这就是仿生物带来的好处。
如果在传统计算机上加一个摄像机的话,没有一个庞大机柜是做不了这种高速过程的。
人机大战的现象可能发生吗?
我们往往把机器、机器人想象得像人类一样,这是一个错误观念。比如很多好莱坞电影里经常出现机器人跟人类英雄互相打斗的场景,这是太高看人类了。
机器的眼睛比人类快0倍,甚至是1万倍也可能,它的机械动作也比人高很多倍,机器跟人类互相对战的现象不会发生。
你给机器一个子弹,它顺手就可以抓住,它没必要跟你对着枪互相打。你的枪还没举起来的时候,机器人光靠巴掌就可以把你拍在地上。所以这是人类把自己的功能和性能都投射到机器上了,实际上不是这样的。随着机器的发展,它的性能将远超我们。
特斯拉在年讲过一句话,他说:“我认为任何一种对人类心灵的冲击,都比不过一个发明家亲眼见证人造大脑变为现实。”
如果以人工、电子、光电的方式实现大脑的话,这个世界会发生翻天覆地的变化。未来人类如何跟这种越来越强大的智能共存,是一个挑战性特别大的问题。
一方面,这种超级智能的神经网络继承了人类大脑的结构,所以它跟我们是有相融性的。尽管它的思维比我们快很多,但它不过是一个电子的大脑。比起外星人,我们与超级智能至少存在交流的可能性。我们制造的强大机器在某种意义上还是我们的后裔,是人类的子孙。
另一方面,超级智能的速度又比我们快很多倍,我们完全跟不上。
马斯克做脑机接口,认为“人类赶不上机器了,那直接把生物神经系统跟机器连在一起共同提高不行吗?”这听着好像是一个很好的想法,但是这就像汽车与马车的关系:汽车的速度比马车快十倍,但是汽车不可能拉着马车一起跑。它们根本不同步,无法共同工作。
所以一旦这种超越人类的机器出现的话,我们面临的挑战是很大的,我们一定要思考怎么共存和发展。
当然,有很多人也在思考这个问题。年AISafety会议上曾经预测过年会出现这样的机器,年时又举行了一次名叫BeneficialAGI的会议,也就是“向善的通用人工智能”。会议的主题是希望这种智能出现之后,它能够跟人类和平共处,我也去参加了这次会议。
年,这个会的参加者之一罗素教授给了我一本他马上要正式出版的书《AI新生》的预印本,这本书里面就提出了一种人类如何跟性能上远远超越人类的机器共存的方法。
这只是他提的一种方法,这个问题是人类真正应该思考的开放问题。也许在未来几十年内,对人类来说这会是个最大的挑战,希望大家能够