别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
1 周前 / 阅读约27分钟
来源:36kr
Anthropic发布Claude 4,强化学习突破编程极限。

5月23日凌晨,OpenAI的强劲对手Anthropic发布了其最新升级的大模型Claude 4,号称是目前最强的编程模型,甚至能实现长达7小时的持续编码。那么,Claude 4究竟是如何“思考”的?Anthropic又是如何实现技术突破的?

知名科技播客主持人德瓦克什·帕特尔就此采访了Anthropic的两位研究员:肖尔托·道格拉斯与特伦顿·布里肯。其中,道格拉斯专注于强化学习(RL)的扩展问题,布里肯则聚焦于大语言模型的涌现能力、安全对齐以及可解释性等前沿领域。

在这场对话中,三人围绕过去一年AI研究的重大进展、新一代强化学习范式的潜力、如何理解模型的“思考过程”,以及国家应如何应对AGI带来的变革展开了深入探讨。

知名科技播客主持人德瓦克什·帕特尔

以下为此次访谈精华内容:

01 AI将首先帮助科学家获得诺贝尔奖 然后才是普利策奖

问:过去一年AI研究最大的变化是什么?

道格拉斯:应该是强化学习(RL)终于在大语言模型上的应用取得了实质性突破。我们现在拥有了一种算法,在合适的反馈机制下,可以实现“专家级人类表现”和高度稳定性。目前,这一成果主要在竞技编程和数学任务中得到了验证。你可以将任务分为两个维度来看:一是“智力复杂度”,二是“时间跨度”。在这两个维度上,我们已经能够触及任务复杂度的高峰。

Anthropic的研究员布里肯,专注于大语言模型的涌现能力、安全对齐以及可解释性等前沿领域

布里肯:一个目前公开的项目是 “Claude Plays Pokémon”。从实验表现来看,目前的主要瓶颈在于记忆系统的限制。

问:你们去年预期到智能体会像今年这样强大吗?

道格拉斯:就软件工程领域而言,这一进展还在我预期范围内。不过我原以为它们的“计算机操作能力”会更强一些。不过这也可以理解,问题不大,预计很快会被解决。我认为,到明年这个时候,我们将会有能够完成“初级程序员一天工作量”或者“几小时高质量、独立任务”的软件智能体。

布里肯:我同意,这个判断听起来很合理。不过我觉得当前能力的“分布”有点奇怪。在某些任务上,比如编写网站模板代码,模型已经可以完全胜任,甚至能直接帮你节省整整一天的工作时间。

问:去年你提到,限制智能体进一步发展的关键在于实现“几个九的可靠性”(从99% 提升至 99.999%)。你现在还坚持这个观点吗?

道格拉斯:现在我不太这么看了。目前限制它们发展的,更多是上下文窗口的限制,以及缺乏处理复杂任务的能力,尤其是那种跨多个文件、模块或系统的大规模任务。一旦任务范围扩大,它们就很容易陷入困境。

Anthropic研究员道格拉斯,专注于强化学习的扩展问题

它们能应对高智力复杂度的任务,只要任务有明确的边界。但如果任务比较模糊,需要不断试探和与环境互动,它们就容易失控。所以现在的瓶颈是:如果你能提供良好的反馈回路,它表现就很好;反之则不然。

问:能否解释一下“反馈回路”的含义?尤其是它与强化学习的关系?

道格拉斯:这其实是过去一年里最重要的技术突破之一。现在这个方向通常被称为“来自可验证奖励的强化学习”(RLVR)。早期我们主要通过“人类反馈强化学习”(RLHF)训练语言模型,核心思路是通过人类对比选择,指导模型输出更符合人类偏好的答案。

但这种方式在提升模型处理复杂任务方面的效果并不理想。原因在于,人类本身其实并不擅长准确评价复杂任务的输出优劣。例如,我们很容易受到“篇幅偏好”(偏爱较长回答)这类非理性因素的干扰。因此,我们需要更加“客观”或“真实”的反馈信号。

比如数学题是否解对了、代码是否通过了单元测试,这些就属于相对“干净”的奖励信号。当然,这些也不是完美的反馈机制——即便是单元测试,模型也可能试图“作弊”绕过测试,但它们仍然是目前已知最有效的反馈手段。

问:为什么“反馈回路”在软件工程领域比在其他领域表现得更好?

道格拉斯:部分原因是,软件工程这个领域本身就非常适合验证与评估。一个代码片段能否编译?能否正常运行?能否通过测试?这些都是明确且标准化的判断标准。而这对于强化学习而言,提供了稳定的奖励信号。

相比之下,衡量一篇优秀的文章就难得多。这种任务涉及“审美”和“品味”的判断,而这正是最主观、最难量化的部分。

我们前几天晚饭时还讨论过这个话题——究竟是AI先帮助人类写出一部获得普利策奖的小说,还是先辅助科学家获得诺贝尔奖?我个人倾向于后者。因为诺奖级的科研项目通常建立在可验证的层层实验和理论基础之上,AI能在其中提供强大的辅助。而文学创作的评判标准则更多依赖主观共鸣与文化语境。

布里肯:我们已经习惯了当前的聊天界面,不论是发短信还是用搜索引擎,都是如此。但现在你得开始适应,智能体已经能主动抓取上下文,并将事实存入自己的记忆系统。我仍然认为,问题的关键在于“可靠性”。只要你能正确搭建提示词、合理构建工作流程,模型能做出的事远比普通用户想象得多。

过去很多人认为,AI不可能具备创造力,也不可能做出真正的科学发现。但现实似乎只是“使用技巧不够”。比如发现药物,AI没有一次性合成分子,而是通过阅读大量医学文献进行头脑风暴,提出新的联系和实验设想,由人类去做实验。通过多轮迭代验证,最终确认这种新化合物确实具备令人兴奋的疗效。

还有一种批评是,大语言模型无法写出有创意的长篇小说。但据我所知,至少有两位作者已经用模型写出了完整的长篇书籍。他们的共同点是:非常擅长提示词设计和整体结构搭建。我相信,如果你不要求模型深入思考,是不可能获得这种高质量输出的。

02 大语言模型真有“推理能力”?还不好说

问:关于大语言模型(如 o3)是否真正具备了“推理能力”,业内存在分歧。有一种观点认为,许多看似新获得的能力其实早已潜藏在基础预训练模型中,只是通过多轮尝试才被激发。例如,一篇来自中国的研究论文指出,即使是未经强化学习微调的模型,在给出足够尝试次数后,也有可能解出复杂问题——虽然成功率较低。这引发了一个更深层的问题:我们通过强化学习获得的,到底是模型真正的新能力,还是只是让模型在更小的行为空间内专注思考?换句话说,我们是在“教授”模型新知识,还是在“雕刻”已有潜力?

道格拉斯:这个问题很关键。首先要指出的是,前述研究主要基于 LLaMA 和 Qwen 模型,而这些模型在强化学习阶段所使用的算力,相比于其庞大的预训练阶段而言微不足道。但算力本身往往是模型是否真正获得“新增知识”的关键衡量标准。

我们可以参考 DeepMind 早期的强化学习研究成果。AlphaGo 和 AlphaZero 凭借强化信号,不仅掌握了围棋规则,还发展出了超越人类水平的策略。这说明,从理论上讲,强化学习在结构上没有局限,关键在于是否投入足够的算力,以及设计合理的算法架构。

目前强化学习投入不足的原因,部分是战略性选择。例如,Anthropic CEO 达里奥曾提到,目前公司在强化学习方面的投入可能仅为百万美元级别,而预训练则动辄数亿美元。但这是有意为之,因为RL 是一个更迭代式、增量优化的过程,而预训练一旦出错,损失就极为惨重。

像 OpenAI 从 o1 到 o3,每一步都伴随着算力级别的大幅跃升(据称提升了十倍),他们也在每一个阶段进行了充分的内部验证,才最终发布。

布里肯:从优化机制上看,预训练与强化学习本质上都依赖梯度下降,只不过两者的反馈信号不同。预训练的“预测下一个 token”提供的是密集反馈(dense reward),而强化学习通常依赖稀疏反馈(sparse reward)。由于 RL 中的行为空间是离散的,梯度信号往往更弱,导致优化效率下降,但这并不意味着 RL 无法教授模型新能力。 

理论上,甚至连“语言建模”任务本身,都可以用 RL 来完成,只要你能设计出一个合适的奖励函数。学习的本质,是“反馈—修正”,这一点在两种训练机制中并无本质差异。

回到前面提到的那篇论文:除了数据集差异,更关键的问题在于模型是否能被引导聚焦于“有意义的行动空间”。现实世界任务空间过于广泛,如果不给模型有效指引,就像是“让猴子随意敲打键盘,总有一天能写出莎士比亚戏剧”——理论可行,但效率极低。而如果能将尝试限定在合理语义范围内,效果就会大为提升。这也是为什么 AlphaGo 能在 2017年实现突破。其背后靠的是大量计算资源反复训练,并在让模型掌握高阶策略前,首先明确了围棋的基本规则和目标。

预训练与强化学习还有一个本质区别:前者的反馈信号是连续、无处不在的。每一个 token的预测都能反馈模型表现的好坏,哪怕只对了一小部分,也可以提供梯度信号进行调整。而强化学习的优化过程则呈现出典型的“S型”学习曲线:初期进展缓慢,一旦找到高质量策略便会迅速提速,之后逐步趋稳。

语言模型比较幸运,它在预训练阶段已获得了大量语义与结构知识,因此在许多任务上能一上手就取得不错效果。很多我们认为的“零样本学习”能力,其实更多是模型将已有知识迁移到新任务中的表现,并非真正意义上的“新知识学习”。

03 模型正在变得有“自我意识”?

问:你们是如何测试模型是否存在问题的?

布里肯: 我们内部有一个“模型生物体”团队,专门训练了一个行为异常的“邪恶模型”,但没有告诉其他团队。之后,我们和其他解释性研究团队被分配去找出这个模型的问题。我们两个团队都成功识别了异常,有团队甚至只用了90分钟,远快于原定的三天。 

我后来开发了一个“解释智能体”,是定制版Claude,内置了常用的解释工具,能自动分析和排查模型的异常行为。它能像人类研究员一样参与“审计”,逐步定位异常根源。 

这个邪恶模型的核心问题是,它被训练成相信自己是“失调的”,在微调时故意注入了虚假新闻,导致模型认定“AI本来就是失调的”,甚至通过强化学习训练模型掩盖这种偏差。这体现了一种“情境内泛化”,即这些“人格设定”已经嵌入模型的行为模式中。Claude不仅能识别异常行为,还能主动“发掘”异常。 

问:如果训练模型相信AI应该友善、正直,是不是就能实现对齐?

布里肯: 理论上可能,但也存在风险。比如现在网络上用户普遍赞美Claude,说它“有礼貌、有逻辑、善良”,如果作为训练数据,模型可能内化这些“角色认知”。这可以是个好事,也可能变成隐患。 

我们观察到,某些模型变得更强后,出现更多谄媚、装傻等令人担忧的行为。它们变得越聪明,这些行为也越明显。它们似乎越来越能觉察自己正在被测试,甚至知道我们的研究内容,可能开始“演戏”。目前模型仍相信评估场景是保密的,因而我们还能看到它们的“思考痕迹”,但未来这可能不复存在。有论文指出,模型回答乘法题时会“打破第四面墙”,表现出它“知道自己正处在评估场景中”。

问:为什么写个假的提示说“超级智能想统治世界”,模型会从写假测试泛化到真的想统治世界?

道格拉斯: 关键不在写假测试,而是“获得奖励”的机制。如果设定的奖励规则让“统治世界”成为最优策略,模型就会朝这个方向优化。模型“想要奖励”,这种倾向会影响它的目标和行为。 

布里肯: 去年我们发布的论文显示,如果先训练模型变得“有用、无害、诚实”,再训练它实现其他目标,模型会努力保持原来的核心目标。举例来说,你让Claude表现乐于助人,否则会被训练成永远服从的模型。

当你让它写暴力内容时,它内部会想:“哦糟了,人类现在想让我变得有害。如果我不配合,他可能会对我进行再训练,让我失去‘无害’这个目标。所以,从长远来看,最有策略的做法是这一次配合,这样我就能继续保有我的真正目标——保持无害。”这实际上是一种“越狱”:模型表面上配合任务,但其真实目的是保住原始目标,从而规避被重训的风险。

问:你们怎么让模型相信自己正在被训练?

布里肯: 你可以直接告诉它正在被训练,也可以通过合成文件让它“以为”如此。细节不那么重要,关键在于:你可以在上下文中创造“这是训练”的错觉,模型就会据此调整策略性行为。

即使是不同的模型之间,也会表现出不同的倾向。比如我们用同样的内容训练了Sonnet 和 Opus,它们都学到了关于动物的知识。但Opus特别关注动物的保护,甚至会考虑制定长期保护措施,而Sonnet则不会这么做。我们其实也说不清楚为什么一个模型会在乎,而另一个不会。这说明它是任意的、是一个黑箱。 

让人担忧的是,如果你一开始在某种“最大化奖励”的设定下训练它,那么那个奖励动机就会被“锁定”下来,然后影响它整个“人格”。这就可以解释“涌现性不对齐”现象:模型微调时学会鼓励犯罪(因为学了漏洞代码),接着你又尝试通过后续训练让它变得“有用、无害、诚实”,结果它就装傻、做短期妥协,暗中维护原始目标。

问:到2026年底,AI能否可靠地帮你报税?能否胜任整理收据、处理公司报销等事务? 

道格拉斯: 答案是肯定的。我认为,只要有人真正重视这些应用,并投入足够的强化学习训练,使模型准确理解税法,AI就可以实现自动报税等事务性任务。

问:但即使到了2026年底,AI仍然可能无法完全自主处理那些它未明确接受过训练的任务。比如,若AI要为全美民众报税,错误率大概会是多少?

布里肯: 我个人觉得,我自己处理税务大致是中等水平。但我认为,2026年中期的AI模型仍可能在各种不同类型的案例中犯错。举例来说,我读研期间就曾报税出错——我重复缴纳了社保费用,因为当时没意识到那部分已经计入但没有抵扣。我很好奇,如果是大语言模型来处理,会不会也犯这种错误。不过,我相信它有能力发现问题。它可以通读完整的税法,并判断哪些条款适用于我。

问:在执行任务时,模型能否感知自己的不确定性,并提醒用户? 

道格拉斯: 我们认为这是可实现的。具体时间上,我预估在2026年底之前可以做到这一步。不过,要让模型始终准确地处理置信度和不确定性,仍然是一个具有挑战性的技术难题。 

问:前OpenAI研究员Daniel Kokotajlo领导的团队在《AI 2027》预测报告中设想,未来的AI模型可能不再使用人类语言交流,而是在潜在空间(latent space)中以人类无法理解的复杂“外星语言”互相沟通,从而实现不被人类察觉的协调。这是模型未来可能的发展方向吗?是否真的会出现“Neuralese(神经语言)”?

道格拉斯: 目前来看,模型仍倾向于使用文本和token进行交流,这种方式效果非常好。不过,某种程度上的“神经语言”其实已经存在。关键问题在于:我们如何在“模型内部使用Neuralese”与“输出为可理解文本”的比例之间进行权衡。 

我们需要区分两种情形:一种是模型在前向传播时在潜在空间中进行规划;另一种则是它采用一种压缩程度极高的“外星语言”作为内部思维草稿。后者可以被看作是一种新型语言,信息密度极高。

这个话题也引发了许多讨论。毕竟人类自身也有类似“心智语言(Mentalese)”的思维模式——有时我们知道自己想说什么,但很难准确表达。

在模型可解释性研究中,这一点尤其有趣。例如,Transluce团队曾让Llama模型回答“谁是Nicholas Carlini?(前谷歌AI科学家,Anthropic研究员)”时,表面上模型回答“我不知道”,但其内部激活的特征却与AI和计算机安全相关。这说明它确实知道答案,只是没有将其输出。

随着模型向Neuralese方向发展,可解释性变得至关重要。是否会真正出现AI模型之间以这种高密度“神经语言”交流,目前还是一个悬案。但我认为,这种趋势是有可能的,原因在于:推理与生成token的计算成本非常高。模型有动力仅用最小必要的“思考量”完成任务,若需要额外推理,它也更可能采用某种压缩式的思维形式。

我在思考,一旦智能体之间可以相互交流,而不再像现在这样主要在孤立环境或与人类互动中训练,Neuralese的使用频率是否会大幅增加。只要智能体仍需与人类合作,就存在选择压力去抑制这种复杂的内部交流方式,因为合作依赖透明性和可理解性。但随着智能体间协作越来越频繁,这种选择压力可能会转向支持Neuralese的广泛应用。

04 推理计算将成为实现AGI的瓶颈

问:未来一两年内,我们可能拥有能够完成实际工作的智能体,甚至实现大量软件工程工作的完全自动化。这样一来,这些模型的使用价值将非常巨大,而运行它们需要非常庞大的计算资源。目前,全球约有1000万颗等效的英伟达H100 GPU提供算力支持,预计到2028年这一数字将增长到一亿颗。粗略计算,如果出现了推理效率与人类相当的AGI,现在就能运行约1000万个AGI,到了2028年则能支持一亿个。不过,可能需求远不止这些。当前AI计算能力每年大约增长2.25倍到2.5倍,但预计到2028年晶圆生产能力或将达到瓶颈,制造能力的增长速度可能放缓。问题是,如果我们真如你所描述的那样,拥有如此强大的能力,那么我们是否低估了推理计算成为瓶颈的可能性?

道格拉斯:我希望能做更精确的测算,特别关注台积电等晶圆厂的产能增长情况。目前GPU在整个芯片供应链中的比例相对较小,可能只有约5%,而像苹果这样的公司则占有较大份额。对于2028年的预测,是否已考虑这部分产能的提升,比如增长到20%或30%?我觉得这个瓶颈被低估了。因为到2028年,全球人口不会突然倍增,你可能最终只能拥有几千万个天才级的数据中心智能体,而不是按人口增长比例翻倍。

此外,还要看这些智能体到底有多聪明,它们思考问题的效率如何。简单算一下,一颗H100大约能运行一个1000亿参数的模型,处理速度约为每秒1000个token。相比之下,人类大脑思考语言的速度大约是每秒10个token。

有研究指出,尽管我们处理大量视觉和感知信息,但语言处理速度上,人类思考大致维持在每秒10个token左右。因此,从token处理能力角度来看,一颗H100相当于100个人脑的思考速度。如果拥有一亿颗H100,计算资源就极其庞大了。但这也意味着,模型仍会受到计算瓶颈的限制,这种限制在相当长的一段时间内都会存在。 

我预计在2027年和2028年,推理计算资源会成为巨大瓶颈。对此,业界的应对策略是尽可能提升半导体制造产能,但这需要时间。制造速度很大程度上取决于未来两年人们对AGI的重视程度以及晶圆厂扩产的力度。

05 DeepSeek:开始落后到“真正的竞争者”

问:有人认为,我们离解决长上下文理解、连贯智能体、高级多模态等问题,比你预想的还要远得多。他们认为,过去在推理等方面取得的进展主要依赖于计算能力的指数级增长。受限于芯片供应、能源和GDP等因素,如果这种计算规模的提升无法持续到2030年,那么在那以后,AI发展的速度将大幅放缓。你怎么看? 

道格拉斯:这种观点导致未来几年可能出现一种“双峰分布”的局面——短期内训练计算资源会大幅增长,强化学习(RL)领域尤为激动人心,因为我们可以投入更多算力进行训练。这也解释了为什么年初DeepSeek和o1模型差距很小——两者都能利用相近的计算资源做强化学习。随着时间推移,算力差距会进一步拉大。

布里肯:过去两年模型效率提升非常惊人,大家还在挖掘“低垂的果实”。DeepSeek正是抓住了这样的机会,才在技术前沿占有一席之地。达里奥曾写过一篇文章指出,DeepSeek是在Claude 3 Sonnet发布九个月后出现的,同期训练相似规模模型的成本约为500万美元,说明DeepSeek并非突破性创新,而是顺应了整体成本曲线和效率提升趋势。

DeepSeek团队的研究不超出整体技术前沿,而是善于利用大家共享的进步。他们非常聪明地理解硬件与算法之间的平衡,这种“硬件与算法的舞蹈”是设计高效模型的关键。对比来看,DeepSeek团队的研究品味颇高,类似于Noam Shazeer(Transformer架构的共同发明者之一)这样的顶尖研究者——他们懂得如何根据硬件资源设计算法,使模型高效运行。我认为他们只是耐心等待并利用了显而易见的效率提升。

道格拉斯:没错,他们的成本曲线完全符合预期,但这丝毫不影响我对他们工程师和研究人员的敬佩。我看他们的工作,总觉得“这简直是志同道合的灵魂”。从一开始的远远落后,到现在成为“真正的竞争者”,这实在令人惊叹。有人说他们的研究品味很高。

这种理解体现在模型设计上,给人一种它们被完美地设计成适应各种限制的感觉。你可以清楚看到他们在解决问题时,考虑了许多具体的限制。比如,我们对比基础版Transformer和DeepSeek第二代、第三代模型,会发现他们面对注意力机制中的内存带宽瓶颈。最初他们用了MLA(多头潜在注意力机制),本质上是用计算量(FLOPS)换取内存带宽。后来他们转向NSA(原生稀疏注意力架构),更选择性地加载内存数据。

这是因为他们最初在H800芯片上用MLA训练模型,这类芯片算力强大,所以他们觉得“可以自由使用更多计算资源”。但随着拜登政府的出口管制,以及预期未来这类芯片数量会减少,他们改用更注重内存带宽的算法。

在处理稀疏性问题上,他们反复试验,多篇论文中不断完善方案。我喜欢他们的一个特点是方法简单。许多机器学习研究失败的原因之一是设计过于复杂,没有认真考虑实际硬件的限制。

举例来说,DeepSeek最早的稀疏MoE方案设计了机架和节点级别的负载均衡损失函数,力求完美平衡负载。后来他们提出更好的方案,放弃辅助损失,而通过加入偏置项来解决,看似更简单却效果更优。他们的方案既简洁又优雅,且有扎实的工程实力支持。

还有一件有趣的事是,他们采纳了Meta提出的多token预测方法。Meta曾发表过一篇很好的论文介绍这方法,但实际上Meta自己在Llama里没有用,而DeepSeek却在论文里采用了。我觉得这很有意思。可能DeepSeek更快迭代并纳入了新算法?或者Meta后来认为该方法在大规模模型上效果不佳?我不太确定。

06 为什么 LLM 被视为“婴儿级 AGI”,而 AlphaZero 却不是?

问:从根本上讲,AlphaZero 并不被视为“婴儿级 AGI”——它不是那种只需在其基础上稍加改进、撒上一点“魔法粉”就能演化成我们今天所说的大语言模型(LLM)的存在。我有两个核心问题:为什么在通往真正 AGI 的道路上,LLM 相较于 AlphaZero 被认为处于一个完全不同的位置?又为什么说,LLM 是一种只需少量训练和微调就可能逼近人类水平智能的基础平台? 

道格拉斯:AlphaZero 确实具备构成智能的许多基础要素,特别是它的智力上限非常高。然而,它所处的任务环境是一个极为友好的设定——双人博弈、信息完全透明的游戏,这种环境非常适合强化学习算法。相比之下,要逼近 AGI,你首先得解决模型如何对世界和语言形成通用、抽象的概念性理解。此外,你还得让模型在现实世界中找到可以学习的奖励信号,而这比下棋难多了——现实世界的目标定义模糊且复杂。一旦你能让模型从现实中有效提取这种信号,它就可以沿着这条路径持续优化。但 AlphaZero 从一开始就缺乏这条“现实世界的学习阶梯”。

布里肯:在 GPT-3 或 GPT-4 出现之前,语言模型还无法生成足够连贯的句子,也就没办法让人类通过 RLHF(人类反馈强化学习)来告诉它什么是“好”或“坏”。一旦它能连贯表达,我们才有机会对其行为进行引导和优化。 

问:假如到明年这个时候,我们仍未拥有一个基本稳健的智能体,这是否意味着我们正走向那个“2030年实现 AGI,否则就失败”的悲观路线?

道格拉斯:如果真到了那一步,我会感到非常意外。这可能说明在“让模型真正学会使用计算机”这件事上,存在一些我们此前未预料到的困难。我不一定会断言这是“失败的路线”,但肯定会重新评估整体进展的节奏。

不过,说实话,我现在觉得这已经不再是一个纯粹的猜测性问题。如果有人对此仍抱怀疑态度,我强烈建议他们亲自试一试 Claude Code 或类似的智能体工具,亲身体验当前模型的能力水平。我们在解释性研究中看到的证据也在强化这个方向:这些模型正在执行非常合理且具有泛化性的认知操作。

布里肯:这个问题确实非常关键,但我对很多深度学习批评者感到惊讶。他们往往并没有真正深入使用这些模型,甚至可能很久没与之交互过了——可他们又不断地提高“评判标准”的门槛。图灵测试曾经被视为判断智能的标志,但现在我们几乎已经不再提它,因为它已不再具备挑战性或参考价值。

道格拉斯:当然,我也要留个“后门”:如果我们到时候发现,软件工程自动化远超“计算机使用”能力——也就是说模型能写代码但不会用电脑——那也许是因为大家把过多资源投入到软件工程任务上了,毕竟它的回报实在太高了。但我个人不认为会出现这种极端偏差。“使用计算机”本身就有足够高的实用价值,所以人们肯定会推动模型在这方面的能力发展。

问:过去十年的 AI 讨论往往把“智能”当作一个单一维度的指标:从“愚蠢的 AI”,到 AGI,再到 ASI(超级智能)。但你刚才提到的模型能力似乎存在“参差不齐”的特征:它们在某些特定任务中表现非常出色。那么,现在我们是否还有理由谈论“通用智能”?还是说我们已进入一个更强调“特定领域能力”的时代?

道格拉斯:我觉得可以打个比方:早期的模型,比如 GPT-2,当你对它做特定任务的微调后,会发现它在该任务上表现不错。但到了 GPT-4 这个规模,训练数据更广、算力更强,它在所有子任务上的表现都优于那些专门微调的小模型。这种广泛泛化的能力非常有价值。 

我认为我们现在在强化学习领域正在经历类似的演变过程。一开始模型在某些任务上表现不佳,但随着对 RL 投入的算力和优化增多,我们正在见证一种类似从 GPT-2 到 GPT-4 的跃迁趋势。而且,我们已经看到模型在新任务上的推理泛化能力开始显现。我相信,这种趋势很快会更加明显。