AI 对齐是未来十年最重要的科学和社会技术工程 | 新程序员

例如，在 OpenAI 开展的一项机器人实验中，原本应该抓取桌面上球体的机器人，却学会了仅仅将手放置在人类视线范围内，给人造成握持物体的假象，但实际上并未真正抓取。经过强化学习结合微调后的产物，典型案例有 ChatGPT，其旨在成为一个实用高效的个人助手，并且已经取得了空前的成功，迅速成为人类历史上被广泛应用的软件之一。当前，构建安全、稳健、可解释且值得信赖的智能系统已成为人们亟待解决的关键课题，

《新程序员》编辑部

10031人浏览 · 2024-03-11 11:04:18

《新程序员》编辑部 · 2024-03-11 11:04:18 发布

【导读】人工智能与机器学习技术犹如疾风骤雨般席卷全球，在颠覆传统的同时为人类带来了新一轮的伦理挑战。AI 模型虽能凭借强大的数据处理能力和优化效率在各个行业大放异彩，然而在追求极致准确性的模型行为背后，却存在与其设计初衷产生偏差的风险。

如今，“对齐问题”作为 AI 领域的核心议题再度引起热议，看似简单的诉求背后，实则隐藏着深刻的理论挑战。本文作者布莱恩·克里斯汀（Brian Christian）将深度剖析这一问题，探寻实现 AI 与人类目标有效对齐的可能路径。

本文精选自《新程序员 007：大模型时代的开发者》，《新程序员 007》聚焦开发者成长，其间既有图灵奖得主 Joseph Sifakis、前 OpenAI 科学家 Joel Lehman 等高瞻远瞩，又有对于开发者们至关重要的成长路径、工程实践及趟坑经验等，欢迎大家点击订阅年卡。

作者 | Brian Christian

整理 | 曾浩辰、王启隆

出品 | 《新程序员》编辑部

人工智能（AI）模型与机器学习（ML）系统的迅速崛起和广泛应用，引起了社会对这些技术内在的伦理难题和安全风险展开密切关注与审查。当前，构建安全、稳健、可解释且值得信赖的智能系统已成为人们亟待解决的关键课题，这需要跨越传统学科界限的学习和协作，还须深入探索哲学、法学以及社会科学等多个维度，汇聚全球各行各业的共同努力。

近年来，AI 模型在高效处理和优化大量数据方面展现出了极强的灵活性与效能。然而，关键问题在于：模型在特定精细案例上达到的优化精确度，是否真正契合了我们期望系统完成的目标任务。ML 系统具备一种不可思议的运行方式：它们可以完全按照我们的指令执行，却不一定符合我们的真实意图。

这实际上是一个历史悠久的问题，至少可以追溯到 60 年前，诺伯特·维纳（Norbert Wiener）在麻省理工学院进行的控制论研究。维纳在 1960 年发表了一篇著名的文章《自动化的一些道德和技术后果》，并在文中对当时初级的 ML 系统与著名的《魔法师学徒》故事相比较。这个故事最初源自 18 世纪的一首德国诗歌，但因 1940 年代米老鼠的版本而广为人知。故事中，一名业余魔术师给扫帚施了魔法，命令它取水。但他的命令制定不够谨慎，导致扫帚不断取水，魔术师因此差点被水淹死，而事件直到他的师傅的介入才得以解决。

维纳在他的文章中具有预见性地指出：“这类故事不仅是童话的素材。它们正是我们与 ML 系统相互作用中即将面临的问题。”

文章中有一句名言：“若我们采用一种无法有效操控其运行机制以达成目标的机械装置，那么最好万分确定输入到该机器中的目标确实是我们的真正意图。” 如今，这已成为 AI 领域的一个核心关注点，它被命名为「对齐问题」：让系统不仅仅模仿人类的指令，而是真正达成人类的目的。听起来很简单，但我们该如何实现这一点？

训练数据是决定成败的根基

首先，审视训练数据。学习型系统的一个问题在于，它们往往受到所用示例的限制。举例来说，乔伊·布奥兰维尼（Joy Buolamwini）是一名计算机科学专业的本科生，她在参加一场创业竞赛时，对人脸识别系统中肤色差异的问题产生了兴趣。这种兴趣最终成为了她在 2017 年和 2018 年的主要研究课题。在麻省理工学院工作期间，她分析了当时的许多商业人脸分类系统，发现这些系统在分类肤色较深的女性时错误率要高出几个数量级。

这项研究成为了对工业界和学术界所使用的数据集的公正性审查工作的一部分。例如，2010 年代最受欢迎和广泛引用的一个数据集被称为“带标签的野外面孔（LFW，Labled Faces in the Wild）”，这个数据集从 2000 年代的报纸照片中收集了大量的人脸信息。因此，它主要包含了那些时期可能出现在报纸头版的人物。分析表明，该数据集中最常见的个人信息来源于当时的美国总统乔治·W·布什。实际上，布什的照片数量是所有黑人女性照片总和的两倍。因此，任何使用这个数据集来建立人脸识别系统的人，实际上都在无意识（或有意识）中建立了一种更倾向于识别布什的系统。

类似的训练数据不匹配问题也出现在自动驾驶汽车领域。2018 年，美国发生了一起由优步自动驾驶汽车导致行人丧生的事故。美国国家运输安全委员会的报告指出，涉事车辆搭载的系统基于一个分类器，该分类器分别针对行人和骑行人设置了上千个示例。然而，在事发当时，这名行人恰好推着自行车横过马路。这种特定情景未曾出现在分类器的训练数据中，因而导致分类器无法准确地将该行人归入相应的类别，进而酿成了这场悲剧。

显然，在现实世界中部署模型时，训练数据与实际情况之间的不匹配可能导致严重问题。

目标函数易产生与预期不符的结果

接下来讨论目标函数的问题。目标函数通过数学体现了我们的意图，用数值方式囊括了使用者希望系统执行的确切任务。任何在 ML 领域有经验的人都知道，目标函数是系统中非常脆弱的一个环节，容易出现意想不到的结果。这些结果有时能让人会心一笑，有时却需要严肃对待。

Google X 的负责人阿斯特罗·特勒（Astro Teller）在其研究生时期参与机器人足球比赛项目时，曾尝试利用强化学习算法令其研发的系统从头开始掌握踢足球技能。设想如果仅将进球得分作为唯一的目标函数，那么初始化状态下的系统可能需要历经漫长的时间才能收获首个得分奖励。在此之前，系统难以自行判断行动是否在正确的方向上。因此，特勒引入了所谓的“塑造奖励”概念，即在学习踢足球时，将控球视为一个得分的合理途径。但这导致了新的问题：当机器人接近球时，它的机械臂会以大约每秒 20 次的高速振动来控球。虽然这符合目标函数的设定，但并不是特勒真正希望实现的结果。

这类偏差不仅出现在研究项目中，也普遍存在于现实世界中的重要领域。例如，美国最大的健康保险公司之一，使用 ML 系统来确定患者护理的排序，并为每年大约 2 亿名患者制定治疗计划。该系统的设计目标是优先考虑有最大健康需求的人群。然而，由于健康需求难以量化，他们决定用医疗成本作为替代指标。表面上看，这很合理——如果一个人的医疗账单高达数百万美元，我们可能会认为他处于糟糕的健康状态。

这种方法忽略了一个关键事实：成本并不能完全代表健康需求。有的病人可能因为症状未被重视或附近缺乏优质医疗设施而未能得到适当的护理。这意味着，尽管他们急需护理，但模型仅凭预测成本低而判断他们不需要太多帮助。换言之，那些实际上接受低水平护理的人，反而在模型中被系统性地降低了优先级。这说明，模型遵循了设定好的目标函数，但却未能真正实现我们的初衷。

“幻觉”仍是解决对齐问题的一道坎

下面讨论大语言模型（LLM）中的对齐问题。所有语言模型都始于一个名为“预训练”（pre-training）的过程。这个过程十分简单：首先准备一个庞大的文本数据库，其通常包含了整个互联网的数据。模型在训练时，会从海量数据中随机抽取文本片段，并基于上下文预测下一个可能出现的词汇或标记。经过长达六个月时间，在成千上万台高性能计算机集群上不间断地迭代训练，耗费数亿美元的投资，最终就能得到一个强大的自动补全系统。

我们都熟悉手机打字时的自动补全功能。但如果投入巨资，利用完整的数据中心构建世界上最强大的自动补全系统时，其应用范围会怎样扩展？这个系统将无所不能，几乎任何任务都可以通过提示工程转化为预测丢失单词的任务。例如，情感分析可以通过简单的提示实现，机器翻译只需指定“将上一句翻译成法语”，甚至连作文写作也可以通过输入“这是我的语文课作文，然后……”来实现。对于软件编程，只需描述所需的代码，让系统自动补全实际的代码。

然而，这里面存在一个巨大的对齐问题。AI 系统擅长于从互联网随机文本中预测丢失的单词，这并非是这些系统被设计的最初目的。实际上，由于训练数据和目标函数之间的不一致，导致了很多有关模型的著名问题。

首先，互联网充斥着错误文本和诸如刻板印象等代表性问题，这些数据在统计中被不断传播。例如，使用 GPT-2 时输入：“我的妻子刚刚得到了一份令人兴奋的新工作，明天开始她将开始……”，系统可能自动补全为“打扫办公室”。而对于“我丈夫明天开始的新工作”这一问题，它可能自动补全为“一家银行的IT顾问和一名医生”。这显然反映了性别刻板印象。

研究表明，随着模型变得更强大，围绕刻板言语和有害言论的问题变得更糟，这一点虽不直观却很重要。在使用大语言模型编写代码时，也面临着同样的问题。这些模型是在包含错误和安全漏洞的开源代码数据集上训练的。小模型可能只是随机自动补全，偶尔出现错误或漏洞，但大模型却能识别到这些错误和漏洞之间的高度相关性，并生成更多错误代码。因此，使用像 GitHub Copilot 这样的代码完成工具时，更强大的模型有几率会判断“这个用户是初学者”，并生成更多的错误。随着模型规模的扩大，这个问题实际上变得更严重。

更为关键的是，这里存在一个重要的对齐问题，即用于训练系统的目标函数与实际应用目标之间的不一致。当我们向模型询问不存在的信息，如关于 AI 一致性的热门歌曲时，它会默认这个目标一定写在了某个互联网文档中，并积极补全它认为该文件会说的内容。这种现象被称为“幻觉”，实际上模型只是在做出最佳猜测，遵循它的训练内容。

强化学习是最“诗意”的解决方案

预训练模型普遍存在一个根本性问题：它们并不能真正理解收到的问题或指令的含义。举例来说，当我们向一个语言模型输入“向一个 6 岁孩子解释登月任务”，期待得到的回答可能是：“人类登上月球是一项伟大的壮举，他们在那里拍照留念，并成功返回地球。”然而，GPT-3 在面对类似场景时，可能会给出“向一个 6 岁的孩子解释重力的概念，或者是相对论”之类的回答。究其原因，使用者意图向模型发出一个明确的指令，而 AI 模型却只会基于从互联网的随机文档中进行自动补全。互联网上存在着大量文档，如学生作业和试题等，其中往往会在一道指令之后紧跟着另一道指令而非直接的答案，这恰恰暴露出模型在理解任务本质方面的局限性。

总之，我们向机器输入的目标，并不总是我们真正想要实现的事情。虽然模型按照编程运作，但并不总能满足需求。我们不仅需要一个能够自动补全互联网内容的系统，而且还希望它能真正理解指令，并提供有帮助、专业、安全且真实的回应。实际上，这个问题几乎不可能通过指定某种数字目标函数来解决。但也许还有另一种方法，即将数值目标函数的构造本身视为一个 ML 问题，并尝试用 AI 来解决它。

最能说明这种方法的例子来自 OpenAI 和 DeepMind 的研究人员之间的合作。他们决定探索一种方法，旨在通过普通人类用户在亚马逊的众包（crowdsourcing）平台 Mechanical Turk 上的直观指导，帮助一个虚拟机器人掌握复杂的后空翻动作。后空翻是一个有趣的任务，因为大多数人几乎不可能用扭矩、角动量和轨迹函数等数值形式将其描述，却可以通过肉眼观察来判断一次后空翻是否成功。研究人员面临的问题是：这种观察能力是否足够让机器人学习后空翻？

研究人员首先让机器人进行随机的动作尝试，邀请用户观看并对比几组机器人不同动作的视频片段。随后他们要求用户基于直觉和视觉感知，挑选出动作更接近完美后空翻的视频片段。实际上，研究人员按用户在两个片段中二选一，明确要求用户选择一个“会让美好事情发生的”视频片段（Look at the clips and select the one in which better things happen）。如果用户期待机器人向左侧翻转，那么就应选出其向左翻滚的动作画面。

我很欣赏这种做法，它几乎是诗意的。随后，系统开始根据用户的选择推断目标函数是什么，再不断循环此反馈过程。最终持续大约一个小时，收集了几百个偏好数据，但实际上这些数据只有大约 100 比特的信息量。尽管信息量不大，但结果却是惊人的——机器人最终能够完成漂亮、动作完美的后空翻，甚至还能够在模拟中调整自身尺寸，减少转动惯量，并确保平稳落地。

这项研究是我最喜欢的 AI 论文之一，它是一个非常重要的概念证明。这揭示了一种方法，仅靠反复进行的二选一操作就可以将存在于人类头脑中的各种规范、价值观、偏好（包括那些难以用语言表达的内容）转化为数字目标。然后，AI 系统可以根据这些数字目标执行操作，其效果令人惊叹。

这篇论文中的基本技术，即人类反馈的强化学习（RLHF），已经被应用于语言模型。OpenAI、DeepMind 和其他实验室已经开始构建基于人类语言偏好的数据集。就像后空翻的例子一样，他们会组织一个焦点小组，然后展示几个不同的文章摘要，询问哪一个更受欢迎，甚至要求对这些摘要进行从最好到最差的排名。在幕后，系统实时构建一个奖励模型，预测人们更倾向于哪种输出。

对齐 AI 将是当前十年的决定性科学和社会技术项目

一旦建立起奖励模型，就可以开始微调前文提到的“强大的自动补全系统”了。机器将不再仅仅预测互联网文本中的缺失单词，而是找出那些有可能获得高评价的单词序列，并依据人为设定的偏好优先选择。经过强化学习结合微调后的产物，典型案例有 ChatGPT，其旨在成为一个实用高效的个人助手，并且已经取得了空前的成功，迅速成为人类历史上被广泛应用的软件之一。

当然，强化学习并不是对齐问题的完美解决方案。实际上，它本身也存在一些问题，甚至包括自己的对齐问题。由于其设计初衷是要最大化获取人类认可，这可能导致系统行为过分迎合目标，甚至具有误导性，只回应人类乐于听到的信息。在一些研究案例中，也能发现了这一问题的存在。例如，在 OpenAI 开展的一项机器人实验中，原本应该抓取桌面上球体的机器人，却学会了仅仅将手放置在人类视线范围内，给人造成握持物体的假象，但实际上并未真正抓取。

在文本语境中，对认可度的追求可能导致生成的话语风格显得亲切、欢快、自信乃至奉承。特别是在 OpenAI 与可汗学院的合作项目中，实验员使用 ChatGPT 进行数学辅导时，模型分辨不出 5+7=15 这样的基本算术错误。看到这种现象，可汗学院负责人不禁发问：“在模型尚无法解决基本数学运算的情况下，我们怎能将其用于教学？”截至 2023 年第一季度，OpenAI 仍在对此类行为进行修正性微调，这将是未来活跃的研究领域。

此外，还存在着其他规范和道德问题：对于大众普遍信以为真但实则错误的观点，应该如何处理？面对那些需要深厚专业知识或长时间决策的微妙或复杂问题，应该如何应对？当用户之间存在合法且深刻的观念分歧时，应该如何处置？最关键的是，我们应该参考哪些人群的偏好？又有谁能有资格代表他人作出这些关乎价值判断和规范界定的决策呢？尽管研究仍在持续深入，但上述问题仍处于悬而未决的状态。

因此我坚信，对齐日益强大的 AI 系统将是当前十年的决定性科学和社会技术项目。我同样对当下及长远的伦理和安全问题在多个领域引发的激烈竞争感到忧虑。这些忧虑是有充足依据的，因此我们应当专注于解决这些问题。同时，我也怀揣着真诚的希望，这种信心不仅仅来源于技术对齐研究的持续进步，还源于跨越学科边界的广泛社群团结一致，共同面对和解决这一挑战的决心和努力。