思维之海

——在云端,寻找我的星匙。

阅《浅谈人工智能》

自古逢秋悲寂寥,我言秋日胜春朝。
晴空一鹤排云上,便引诗情到碧霄。

——《秋词》,刘禹锡

《浅谈人工智能》一文是朱松纯在讲座上的发言整理而成。在文中,朱松纯探讨了人工智能未来可能的途径,并指出了不同领域中最值得解决的问题和相应的研究方法。

“路灯的隐喻”:科学研究就像在一个漆黑的夜晚找钥匙,大家喜欢聚在路灯底下找,但是很可能钥匙不在那个灯底下。

References

浅谈人工智能》,朱松纯

智能系统

智能是一种现象,表现在个体和社会群体的行为过程中。智能系统的根源可以追溯到两个基本前提条件:

  • 物理环境客观的现实与因果链条
    • 不同的环境下,可以容纳和演化出的智能的形式是不一样的。
  • 智能物种与生俱来的任务与价值链条
    • 任务表现为生物的根本需求,如:饮食、交配。并从基本任务衍生出大量的其他任务。
    • 任务代表了价值观和决策函数,价值函数如:多巴胺(快乐)、血清素(痛苦)、乙酰胆碱(焦虑、不确定性)、去甲肾上腺素(新奇、兴奋)。

要构造一个智能系统(如机器人或者游戏环境中的虚拟的人物),我们先给他们定义好身体的基本行动的功能,再定一个模型的空间(包括价值函数)。

我们并不需要真的实现某种肾上腺素系统,而只需要AI在面临紧急情况时可以全面调动所有可行资源即可。这样的思路被称为功能模拟。也就是说,我们选择去模拟功能,而不是模仿结构或原理。就像飞机并非模仿鸟类飞行一样。

模型空间是一个数学概念。比如,人脑可以看成一个抽象的点,在这个空间中移动。模型的空间通过价值函数、决策函数、感知、认知、任务计划等来表达。通俗来说,一个脑模型就是世界观、人生观、价值观的一个数学的表达。这个空间的复杂度决定了个体的智商和成就。

模型在空间中的运动依赖于:

  • 外来的数据:数据来源于观察(observation)和实践(experimentation)。观察的数据一般用于学习各种统计模型,这种模型就是某种时间和空间的联合分布,也就是统计的关联与相关性。实践的数据用于学习各种因果模型,将行为与结果联系在一起。
  • 内在的任务:由内在的价值函数驱动的行为、以期达到某种目的。任务往往会导致对环境中某些变量的敏感或者偏好。

任何一个模型由数据与任务来共同塑造。

小数据 + 大任务

深度学习方法虽然取得了一定的成就,但是往往表现为”大数据、小任务“范式(big data for small task):针对某个特定的任务,如人脸识别和物体识别,设计一个简单的价值函数 Loss function,用大量数据训练特定的模型。

人工智能的发展,需要进入一个“小数据、大任务”范式(small data for big tasks),要用大量任务、而不是大量数据来塑造智能系统和模型。“任务塑造了智能”。人的各种感知和行为,时时刻刻都是被任务驱动的。

如果我们把整个发展的过程都考虑进来,智能系统的影响可以分成三个时间段:

  1. 亿万年的进化,被达尔文理论的适者生存驱动;
  2. 千年的文化形成与传承;
  3. 几十年个体的学习与适应

人工智能研究通常考虑的是第三个阶段。

如何定义大量的任务?人所感兴趣的任务有多少,是个什么空间结构?这个问题,心理和认知科学一直说不清楚,写不下来。这是人工智能发展的一个巨大挑战。

人工智能的研究方向

从符号主义(逻辑学派)到联结主义(仿生学),再到不确定性人工智能。

不确定性,即潜藏在视界之中的混沌。

四大原则

在《Artificial Intelligence: A Modern Approach》一书提到人工智能研究的四大原则性方向:

  • 人类思维理性思维人类行为理性行为
  • 人类行为(图灵测试法)
    • 自然语言处理(natural language processing)
    • 知识表示(knowledge representation)
    • 自动推理(automated reasoning)
    • 机器学习(machine learning)
    • *计算机视觉(computer vision)
    • *机器人学(robotics)
  • 人类思维(认知模型法)
    • 心理学实验
    • 脑科学
    • 认知科学(AI模型 + 其它学科实践,但与AI算法有独立性)
  • 理性思维(思维规律法)
    • 逻辑
    • 两大难题:
      • 将一般知识转化为逻辑表达式,尤其是模糊的知识
      • 理论解决和实际解决的差别:思考效率依赖于算法
  • 理性行为(理性执行者方法)
    • 理性执行者:在一种不确定的环境中,通过行为来最大化某种(期望)收益。
    • 理性行为不一定需要推断,一些快速的下意识行为也可能是最理性的选择。
    • 理性执行者也需要图灵测试中所表述的能力来表现理性。
    • 两大优势:
      • 更加宽泛,正确推断只是实现理性行为的方法之一
      • 更适合去发展为科学系统,而不仅仅从人类行为/思维中发掘突破点
    • 有限理性:在给定的有限时间(not enough time)内表现出合适(appropriate)的行为

“战国六雄”

从技术角度具体来说,人工智能是一个非常广泛的领域,可以近似归纳为:【“战国六雄”】

(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中);
(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话);
(3)认知与推理(包含各种物理和社会常识);
(4)机器人学(机械、控制、设计、运动规划、任务规划等);
(5)博弈与伦理(多代理人 agents 的交互、对抗与合作,机器人与社会融合等议题);
(6)机器学习(各种统计的建模、分析工具和计算的方法)。

断代现象

人工智能发展有断代现象。

https://www.researchgate.net/figure/Development-history-of-artificial-intelligence-AI_fig8_323591839

人工智能到目前为止的发展还很有限,尤其在认知、推理等方面远远达不到惊艳的程度。

完全自主的智能,小数据/小样本,低功耗学习。

常识

现在的人工智能和机器人的最关键问题是,缺乏物理的常识和社会的常识

什么是常识(“Common sense”)?

  • 我们在这个世界和社会生存的最基本的知识
  • 使用频率最高
  • 可以举一反三,推导出并且帮助获得其他知识

这在幻想学中表现为联想规则。

人工智能的各个领域正在快速融合,只单纯做CV、NLP已经无法适应统一的趋势,人工智能专家必须理解各个领域中丰富的内容和语意。人工智鞥的理论、应用,都正在进入统一、通用的时代。


从我个人的角度来看,目前的大数据更像是一种“不求甚解”的刷题过程,对每一份数据的利用程度极低,而人类的思考过程,则常常通过仔细、少量的分析来获取结果,这样对信息的发掘自然比AI效果高。可以这么说,AI对信息的利用效率目前还太低太低。

视觉探知

几何常识推理与三维场景重构

Go Dark, Beyond Deep

用一张图像来重建三维几何。利用常识来引入大量人造环境中的几何测量以及规律(Geometric common sense)。根据这些几何的约束定位点云,同时估计相机位置和光轴。

时空因果的解译图(Spatial, Temporal and Causal Parse Graph, STC-PG)。如下图:

几何重建中的一个隐藏背景:精确度取决于你当前要执行的任务。在执行的过程中,精度可以动态调整,逐步接近最终的姿态。通过动态精度调整,计算将变得很高效(见刘晓白的相关文章)。

场景识别的本质是功能推理

在人类的场景识别中,图像中物质环境的功能都是想象出来的,实际图像中并没有(赵一彪,MIT认知科学博士后,自动驾驶创业)。

比如以下两张图:(尽管图像特征完全不同,但是它们的场景功用一致)

物理稳定性与关系的推理

我们对图像的解释和理解被表达成为一个解译图,这个解译图必须满足物理规律。

物理稳定性:人对物理稳定性的变化可以快速感知(100ms)。


新的场景理解的minimax标准:最小化不稳定性且最大化功能性(minimize instability and maximize functionality)。

功能性就是之前提到的的场景的功能推理结果。

做图像理解常用的是MDL(最小描述长度)。

意向、注意和预测

增加对照片中生物的动机、意向,在时间维度上的分析与预测。最后反应到STC-PG上。

视觉图灵测试:visualturingtest.com


关于刷榜:国内常常有大型的组织刷榜的公司、单位存在,但是通常是基于某些开源模型的代码,做一些改进、调整、搭建更大的模块,最后变成一个简单的分数竞争。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。

任务驱动的因果推理与学习

举一反三。teleological stance.

流态(fluent):代表着一种存在状态、相互关系。

“暗物质”:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。

top-down”自顶向下的计算过程:是用你脑皮层里面学习到的大量的知识来解释你看到的“蛛丝马迹”,形成一个合理的解。

认知推理

你要设计一个机器人,就是希望 它知道看你想干什么,这是人工智能的一个核心表现。

推测动作与物体的时空交互,动作随时间的转换,手眼协调。然后,进 一步猜他下面干什么,意图等等。

对于人的内心状态,分解为四个状态:

  • 一、时空因果的概率“与或图”,STC-AOG。它是这个人的一个总的知识,包 含了所有的可能性,我待会儿会进一步阐述这个问题。 剩下的是他对当前时空的一 个表达,是一个 STC-PG 解译图。此解译图包含三部分,图中表达为三个三角形, 每个三角形也是一个 STC-PG 解译图。
  • 二、当前的情景 situation,由上图的蓝色三角形表示。当前的情况是什么,这 也是一个解,表示视觉在 0-t 时间段之间对这个场景的理解的一个解译图。
  • 三、意向与动作规划图,由上图的绿色三角形表示。这也是一个层次化的解译 图,预判他下面还会做什么事情,
  • 四、当前的注意力,由上图的红色三角形表示。描述他正在关注什么。

一阶推理

上述我们讨论的都是对其他人内心状态的表层估计。

也就是:我知道你在想什么,你知道我在想什么

加起来,一个群中可以容纳的一阶推理就是$O(n^2)$量级的。

对于更复杂的博弈环境,则存在更高阶的推理和表达……

这个研究的方式太像幻想学了。但是,整个图的表达仍然是基于实体来进行范围圈定的。

社会共识

群体认识的一致性子集,就是社会共识。

机器想要与人共生共存,就必须要理解它身处环境中的社会共识。

语言通讯

视觉与语言密不可分。

语言产生的基础是人要寻求合作

认知基础是语言的内涵来源。

语言的研究不能脱离了视觉对外部世界的感知、机器人运动的因果推理。

否则,聊天机器人就变成一个契合文本的,纯粹的文本匹配问题。它没有自己的思考,也无法提供建设性的信息。

但是,信息论中的通讯模型,只负责完成通讯,而不管发报的动机、内容和后果。

甲骨文

象形文字是完全的“明码通讯”。每个字都是一张图,一看便知,不需要编解码。

语言的起源对于研究语言的本质有意想不到的作用……

Yi Hong,司长长等博士做的无监督学习中,尝试重新发明了一些更具象的甲骨文。

计算机自动学出“类甲骨文”的动词的表达。

从生成式模型的角度看,

语言就是视觉,视觉就是语言

代数拓扑

语言与视觉与数学中的代数拓扑有着更深的联系。

语言空间、图像空间,是全集。人脸,是子集。子集和子集之间的关系,叫做拓扑关系。

博弈伦理

势能函数

理性人的行为,遵行一个特定的势能函数。

做任何一件事情,都存在某种价值不减的子路径。

归纳 & 演绎

一、归纳学习 Inductive learning。我们通过观察大量数据样本,这些样本就 是对某个时期、某个地域、某个人群达成的准平衡态的观察。也是我前面谈过的千 年文化的形成与传承。归纳学习的结果就是一个时空因果的概率模型,我把它表达 为 STC-AOG。每个时空的动作是一个 STC-PG,解译图。
二、演绎学习 Deductive learning。这个东西文献中很少,也就是从价值函数(还有物理因果)出发,直接推导出这些准平衡态,在我看来,这也是一个 STC-AOG。这就要求对研究的对象有深刻的、生成式的模型和理解。比如,诸葛亮到了 祁山,先查看地形,知道自己的队伍、粮草情况,摸清楚对手司马懿的情况(包括性格)。然后,他脑袋里面推演,就知道怎么布局了。

人在早期使用归纳较多,年老以后价值观成熟,就转变为演绎。

机器人学

人和机器人要执行任务,把任务分解成一连串的动作,而每个动作都是要改变环境中的流态。

流态分类:

  • 物理流态(Physical Fluents):刷漆、烧开水、拖地板、 切菜……
  • 社会流态(Social Fluents):吃、喝、 追逐、搀扶……是改变自己内部生物状态、或者是与别人的关系。

机器人在人机交互过程中应该时刻注意分析人类的意图。

学习理论

现在的机器学习:损失函数 + 模型 + 数据 + 拟合。

真正的学习是一个交互过程。这样的学习过程是建立在认知架构之上的。

通讯学习(Communicative Learning)”。

七大学习模式:

  • (一)被动统计学习 passive statistical learning:上面刚刚谈到的、当前最流行的学习模式,用大数据拟合模型;
  • (二)主动学习 active learning:学生可以问老师主动要数据,这个在机器学习里面也流行过;
  • (三)算法教学 algorithmic teaching:老师主动跟踪学生的进展和能力,然后,设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式;
  • (四)演示学习 learning from demonstration:这是机器人学科里面常用的,就是手把手叫机器人做动作。一个变种是模仿学习 immitation learning;
  • (五)感知因果学习 perceptual causality:这是我发明的一种,就是通过观察别人行为的因果,而不需要去做实验验证,学习出来的因果模型,这在人类认知中十分普遍;
  • (六)因果学习 causal learning:通过动手实验, 控制其它变量, 而得到更可靠的因果模型, 科学实验往往属于这一类;
  • (七)强化学习 reinforcement learning:就是去学习决策函数与价值函数的一种方 法。

学习的极限

朱松纯和吴英年写了一篇相关的综述文章

每个人的学习不会都收敛到同一个地方。

这里的停机问题,就是这个动态过程中所达成的各种平衡态。

心领神会,心照不宣。

大一统理论

物理学信念:物理世界存在着完整的因果链条

人工智能领域也应该有这样的信念。

智能科学研究的是一个物理与生物混合的复杂系统。

人工智能要变成智能科学,它本质上应是达尔文与牛顿这两个理论体系的统一。

吉布斯模型往往就在高熵区,稀疏模型在低熵区, 与或图语法用在中熵区。