直觉与数据主义
认知中的模式识别与机器学习
模式识别 & 机器学习
简单说,“模式识别”是一种非常经典传统的人工智能,甚至可以说是“古老的技术”。这种技术在上个世纪五十年代就有了,它通过对某些图像、声音进行分析,生成一个模式,然后把这个模型放入计算机,让计算机按图索骥寻找跟这个图形、声音相关的信息和文件。
在今天,“模式识别”这一种技术已经日渐式微了,因为一种跟它有相似性,但在性能上远超乎它的新技术出现了——机器学习。
“自下而上”的“机器学习”
用我们熟悉的话来进行区分的话,“模式识别”是演绎,“机器学习”是归纳。
“演绎”是已经有了一个成形的模型判断,再用这个判断去规范、衡量杂多的信息,然后找到某些信息,得出相关结论和作出某种预测。这种方法对于识别简单的信息是有用的,比如,在一堆几何图形里把三角形找出来,是很容易的,但在一堆人脸中找到唯一的那张脸的话,常常会错误百出。
而“机器学习”的特点,在方法论上,它不是“自上而下”的,而是“自下而上”的。也就是说,“机器学习”是不带成见和偏见吸纳大量数据的。它从大量的、非结构性、没有指向的数据当中,生成一些模式,然后再在大量的数据中寻找符合这个模式的东西。同时,这个过程不是一次性完成的,它是一个反复迭代的过程。
举一个我们熟悉的例子:当我们在手机上手写输入的时候,有“模式识别”和“机器学习”两种选择:
- 模式识别
在手机里,已经存储了某些字的固定模型,只要你进行手写,就会给呈现给你“你可能要写的字”,然后你选一个就可以了。 如果你写的字不是太规范,比较潦草,它往往就认不出来,或者,它的选项就特别发散,什么不搭边的字都呈现给你——这是“模式识别”技术很容易出现的结果。
- 机器学习
每一次你输入的时候,它会根据你的笔记跟字之间的对应关系,逐渐形成一种专门针对你的具有个性化特征的模式,这样一来,准确率会越来越高。这个过程是“自下而上”,基于大量非结构性数据、不带成见、实时互动的生成模式。 之后,再用这种模式进行识别。当识别过程中出现任何错误,都会再回馈到机器当中,机器进一步修改它已经生成的模型——这样,就会越来越精确,越来越智能。
“模式识别”和“机器学习”的最大差异就是:一个是“自上而下”,一个是“自下而上”。用我们以前说的话就是:一个是“创世论”,一个是“演化论”。
认知的“模式识别”和“机器学习”
我们的认知也都同时包含着这两种特点:
模式识别——我已经被输入了某种固定的模型,我根据这个模型去做识别、判断、选择等等。
机器学习——我在茫无头绪中面对一个陌生的世界,自己慢慢摸索,逐渐形成了一些所谓的规律,而这个规律是一种暂时的、不那么执着的规律,我要怀着谦卑之心,拿这种规律和模式去跟世界碰撞。如果我是对的,那就深化这种认知;如果我是错的,那就进行改进。然后,通过这种不断地迭代,不断地格物致知,我的认知能力会越来越强。
查理·芒格说,“很多人的认知是钉锤型的认知”,就是手里拿把钉锤,什么都用钉锤来解决,尽管眼前这个对象根本不是钉子。造成这种现象的原因很简单:你的工具太少。当你的工具很单一的时候,你就会不由自主地使用这个单一的工具,以固化、老化的知识去应对一个复杂的、实时变化的世界,那你一定会出错。
“既可能又不可能”的终身学习
下面我们要谈的,是一个经常谈论的话题——终身学习。终身学习既可能又不可能。
关于人的神经元的轴突和树突,青年人、中年人以及老年人的不同形状,一眼就能看出来:青少年阶段,树突可以用“枝繁叶茂”来形容,分叉很多;逐渐地,会变得稀疏。
一方面是“用进废退”,另外也和生理上的老化有关。这就导致了“接触的信息越来越单一”,因为连接的概率会越来越低。这就像在一个舞会上,人多,意味着你可以跟很多人跳舞;如果只有两个人,你就永远只能跟那个人跳。随着年龄的增加,神经元的树突变得稀疏的时候,人对世界的反应方式就容易呈现出“钉锤化”——模式越来越单一,或者干脆就不反应。这也能解释老年人固执、唠叨、保守的现象,这是人的认知老化、固化的不可逆过程。
第二,我们的认知中有一种类似于“熵增”的东西:神经元突触减少,反应变量减少,这是客观的,你要对自己的这种认知局限、固化、老化和退化有一种警醒和谦卑。换句话说,随着年龄的增加,我们的认知天然就具有退化、固化、老化的特点。
“熵增”不可被避免的时候,“如何以更大的努力减少熵增”就是“终身学习”。
总结
- 我们今天从“模式识别”与“机器学习”的差别讲到了人认知的变化,或者说,是退化、固化、老化,这种认知当中的“熵增”现象。
- 我们看到“认知”有两种方式:一种是“自上而下”的,一种是“自下而上”的。要保持认知的活力,就要尽可能让自己的认知处于一种“自下而上”的状态,或者说“让自己有一种饥饿感、愚蠢感”,这是优化认知,实现“终身学习”的一个前提。
认知的同化、顺化与平衡
“碳基智能” & “硅基智能”
上节课我们从“人工智能”讲到“人的智能”,这二者之间的差别显而易见:通常我们说,人是一个智能生物,也可以叫一个智能设备——只不过这个设备用的基质是碳,所以叫“碳基智能”。而“人工智能”的基质是硅,所以叫“硅基智能”。
从这种差别,我们还可以进一步推演到“人工智能的三大基石”:算力、数据、算法。
- 算力
我不久前参观一个做高性能计算公司的时候,工程师从柜机里拿出了一块类似于移动硬盘的东西,这上面存储的数据,相当于2002年整栋大楼所有设备存储数据的总量,对此我非常震惊。
- 数据
我们每个人每天享受信息服务的同时,也都在生产各种各样的数据:位置信息这些就不用说了,有些甚至你自己都不知道,比如你在手机上滑动的姿势产生的数据都是不一样的。
人随着年龄的增加,人从设备上说,硬件老化,算法简化,甚至幼稚化;同时,随着年龄增加,会有意无意陷入一种自闭的状态,接触外界越来越少,导致数据量也在大大减少。
- 深度学习算法
瑞士心理学家皮亚杰(Jean Piaget)把人的认知过程概括为三个步骤:
- 同化
我已经形成了一种认知模式,外界的信息一过来,我就对它进行整理过滤,让它适应于我的认知——我认为你是坏人,我就把关于“你是好人”的信息自动剔除——反过来也一样。
- 顺化
当你拿着一个框架去“框”外界的东西的时候,你发现框不住,一次不行,二次还不行,这个时候你就会反省“我这个框架有问题,我这个看法有问题”——对自己的既有模式进行修正。这其实这也是一个“迭代”的过程。我们以前说的“认知地震”——让你既有的模式被迫去改变的过程——就是“顺化”。
- 平衡
“同化”也好、“顺化”也好,都是过程性的存在,要达到一个平衡——“既有模式”跟“你接触到的材料”之间形成的平衡:“哦,是这样的,明白了,想通了”就是“平衡”。
“学习”跟生命活动一样,是“远离平衡态的平衡态”。你衡量自己是否在学习,要看是否形成了某种平衡态,是否有所收获。
学习——远离平衡态的平衡态
学习的状态是同化和顺化达到了某种动态的平衡——学习是“远离平衡态的平衡态”。
想要让自己远离平衡态,首先就是不断接纳新的数据,对新数据、新信息始终保持一种开放的态度,让新数据不断进入到头脑当中。
不断输入新的数据,何时是个头呢?
我们说,数据不是目的,新数据的进来,是在挑战你的既有认知。当你的既有认知作出调整,形成某种平衡,通过这种不断重复、练习、同化和顺化之后,人的大脑就会很聪明。
大家可能会恐惧,“我学的东西太多了,会不会把我的脑袋挤满胀破啊?”当然不会!大脑是很会进行管理的,它会将已经形成的熟练认知下放——不管了,授权了,继续去接触新的东西了——这是一个不断吸纳、下沉的过程。
上面我们讲的是个体的认知。作为人类,作为一个物种,我们的认知更神奇的地方在于,能将很多的认知,以及认知以后的反应、决策下放,进入一种无意识状态。
总结
无论作为“碳基”的“人的智能”和作为“硅基”的“人工智能”差别有多大,有一点是相通的:将极其复杂的运算“后台化”,并且在瞬间完成。就像现在,一些“人脸识别”技术,能够在一个人化了妆,戴了帽子、墨镜的情况下,仅仅根据步态,或者某几个表情,就能确认这个人的身份。
- 人在认知上的竞争优势,不是“前台”的认知,而是“后台”的认知。
- 两个个体之间的认知能力的较量其实是两种认知体量大小的竞争。
- 不断接触新的数据、同化数据、优化算法,将认知能力沉底,变成一种自动化的快速反应——这是人和“机器学习”共同的规律。
- 最后,我们的认知会表现为:当机立断、急中生智、熟能生巧的能力。
认知差距的本质
“模式识别”式的人类直觉
跟其它生物相比,人有显而易见的优势,但跟新出现的物种相比,人相对于所有其它物种的优势渐渐地变得不是优势了。
举个例子:人在计算上早已放弃了跟计算机的竞争。因为在计算上,最有天赋的人永远抵不过一个小小的计算器。但是,与计算机相比,人还有一种它们完全不具备的能力——直觉。人能够发现美、创造艺术作品,而机器不行。
我们的脑子没有电脑快,但是我们能够在瞬间识别一个东西——机器人有时候往往连猫和狗都分不清楚,但一个2岁的小孩就很清楚知道是狗还是猫。
中国古代的文学评论名著《文心雕龙》里说“操千曲而后晓声,观千剑而后识器”:你弹了一千首曲子以后,就能够真正听懂音乐了,好和坏瞬间就能分别出来;你看完一千把剑以后,一把新剑放在你的面前,你就能马上识别出它的好坏。
但对于外行来说,无论什么剑放在面前,根本就没法置评它的好坏,甚至完全有可能把坏的认为是好的——这里的差别不在前台,而在后台的计算。这还是一个数据的问题。
数据竞争:人与人之间认知差异的本质
- 数据主义
尤瓦尔把“以数据为基础而形成的世界观和方法论”称为“数据主义”或者“唯数据论”。
从“数据主义”角度看:弹一千首曲子,就是“数据积累”。那些看上去的瞬间认知,它们依赖的不是巫术和妖术,而是在毫无觉察的情况下,大脑通过分析各种信息,在瞬间作出决策。
比如一个司机看到前面有个行人,这个行人到底是“漫不经心的”、“乱穿马路的”还是“心不在焉的”,甚至可能是“精神不正常的”,司机都能通过面部表情、步态,快速进行模式识别。在这个意义上,人是一个基于数据、算力和算法的智能设备。
反过来,如果“人工智能”有足够多和精密的传感器,可以获得数据,它的算法就可以优化,更不用说算力的不断提高——比如“人工智能”和老司机同样开车,可以做得跟他一样好,也可能做得比他更好,而如果从一个长时段看的话,“人工智能”一定会比老司机做得更好。
- 从“数据主义”角度看“直觉”
在人工智能技术没有出现,或者是没引起广泛关注的情况下,很多的哲学家、认知科学家都在讨论直觉问题。这种讨论要不就“陷入到神秘主义当中”,要不就“得出一些没法证实,也没法证伪的概念”——比如“第六感”,要不就“干脆否认有直觉这回事儿”——这都是因为他们没有从“数据主义”的角度看问题。
人从出生,就是在收集、整理、提炼、加工各种数据。某一个场景,某一种事态反复出现,在人脑当中就会逐渐形成相对稳定的模式。当类似的场景出现,人就会在一瞬间识别这个模式,给出一个判断,作出一个决策——从“数据主义”的角度看,一点儿都不神秘,跟我们喝可乐的时候立即感觉到甜,走进一个宾馆的时候立即闻到特定的气味是一样的,不过就是各种刺激在一瞬间引发的感知和判断。
中国古代和近代从事商业的人,交易的时候也会有很多凭证,但有些商人根本不认字,也不会写字,他们就用一种特殊的符号,一个圈之类的来表示,不过交易的对方都认这个东西。如果有人看这个东西很简单,也随便画一个圈,仿造一下,立即就会被识破——原因也很简单,这是一个快速的“模式识别”,看上去是一个直觉,其实在后台发生了非常稳定的极其快速的计算。
总结
我们今天讲到“直觉”,目的是为了跟大家一起讨论数据主义这种新的世界观:
一方面,它能让我们非常清楚地看到人和机器的差别以及相通之处;
另一方面,也让我们特别清晰地看到人在这方面的竞争弱势。与此同时,我们也看到人与人之间认知能力差异的本质是数据的竞争。
还原事实背后的故事
套路:发现“万变不离其宗”的“宗”
我们讲过,“模式识别”的特点是“复杂的后台、简洁的界面”。“识别”是从“简洁的界面”里,通过快速复杂的后台计算,捕捉到简洁的外在对象深藏不露的信息。
要实现这种“识别”,就必须从大量的数据当中,自下而上地生成模式,通过大量数据输入(我们通常把这种数据输入叫做“喂养”)养出某种模式,实现模式的建立和迭代。
这个模式其实也是我们通常说的“套路”:以相对固定的程序去处理复杂的、多样性的数据,然后在这些数据里发现“万变不离其宗”的“宗”。就像《西游记》里的杨二郎看孙悟空,不管他怎么七十二变,二郎神都能够借助于他的第三只眼睛知道“这不是一座庙,而是孙悟空”。
但是,这个模式的形成和迭代是一个缓慢的、刻意的学习过程,而模式一旦形成,它的识别又是瞬时的、无意的、不假思索的。就像我们现在司空见惯的“扫码”,你拿手机对着一个二维码一扫,马上就能完成一桩交易——这个扫码行为,既包含着快速识别,也包含着一种智能化的合约——所有相关条件都符合的时候,这个合约就自动生成和执行。
第一节课里讲到了“模式识别”和“机器学习”,这两者看上去差别很大,但是有密切关联:
- “模式识别”是一个结果,“机器学习”是一个过程;
- “模式识别”是针对事实,“机器学习”是一个故事。
学习的过程就是大量数据喂养的过程。在这个过程当中,又逐渐形成了一种对于事实的解码机制:当事实出现的时候,眼前的事实和对象就会引爆一个解码过程。
“最重要的事情都是看不见的”
最近两个单元的课程里,我们讲了“图形界面”和“模式识别”,这两者背后隐藏着一个话题——审美。
我们了解了“图形界面”和“模式识别”以后再来看“审美”就很清楚了:所谓“审美”,用哲学家康德的话说就是“对于美的一种判断力,用一种直观的方式发现无目的的目的性”。
《小王子》里说,“最重要的事情都是看不见的”:通常,我们只是在文学的意义上理解这句话,其实,这句话里包含着一个关于“认知”的重要道理——数据既重要又不重要。
没有大量的数据,你没办法从数据中生成、提炼一种模式,而仅仅是不断输入数据,没有一种模式生成和学习机制的话,数据就是一堆混沌而毫无意义的材料。
听完今天的课,我希望大家形成一种习惯:在自己的生活和工作中,总是力图把一个事实还原成一个故事——要拥有这种还原的能力,就要有意识地让自己成为一个强大的、高性能的数据处理设备,而不是让自己的感官和内心成为一个堆砌各种数据的垃圾场。