—
独家:新Claude模型引发Anthropic更严格的安全措施
一部显示Claude人工智能语言模型标志的智能手机,该模型由Anthropic开发。
一部显示Claude人工智能语言模型标志的智能手机,该模型由Anthropic开发。Cheng Xin/Getty Images
根据人工智能公司Anthropic的首席科学家表示,如今最新的人工智能模型可能被潜在的恐怖分子用来制造生物武器或设计大流行病。
Anthropic长期以来一直在警告这些风险——以至于在2023年,该公司承诺在开发出能够限制这些风险的安全措施之前,不会发布某些模型。
现在这项名为”负责任的扩展政策”(RSP)的系统面临首次真正考验。
本周四,Anthropic推出了Claude Opus 4,根据首席科学家Jared Kaplan的说法,在内部测试中,该模型在指导新手如何制造生物武器方面比之前的模型更有效。”你可以尝试合成类似新冠或更危险的流感——基本上,我们的建模表明这可能是可行的,”Kaplan表示。
因此,Claude Opus 4的发布采用了比任何以前的Anthropic模型都更严格的安全措施。这些措施——内部称为AI安全级别3或”ASL-3″——适用于可能”显著增强”具备基础STEM背景的个人获取、制造或部署化学、生物或核武器能力的人工智能系统。它们包括加强的网络安全措施、防止越狱的措施,以及检测和拒绝特定类型有害行为的补充系统。
当然,Kaplan告诉《时代》杂志,Anthropic并不完全确定新版本Claude是否构成严重的生物武器风险。但Anthropic也没有排除这种可能性。
“如果我们觉得不清楚,而且我们不确定是否能排除风险——具体来说是提升一名新手恐怖分子(比如蒂莫西·麦克维)的能力,使其能够制造比原本可能更具破坏性的武器——那么我们希望采取谨慎态度,并按照ASL-3标准行事,”Kaplan表示。”我们并不是断言这个模型一定有风险……但至少我们认为风险足够接近,我们不能排除它。”
如果进一步测试显示该模型不需要如此严格的安全标准,Anthropic可能会将保护措施降低到更宽松的ASL-2标准,此前Claude的版本都是按照这个标准发布的,他说。
2023年10月24日星期二,Anthropic联合创始人兼首席科学官Jared Kaplan。Chris J. Ratcliffe/Bloomberg via Getty Images
这一刻对Anthropic来说是一个关键考验,这家公司声称它可以在竞争市场的同时缓解人工智能的危险。Claude是ChatGPT的直接竞争对手,年收入超过20亿美元。Anthropic认为其RSP因此为自己创造了经济激励,促使它及时构建安全措施,以免因无法发布新模型而失去客户。”我们真的不希望影响客户,”Kaplan在今年5月Anthropic完善安全措施时告诉《时代》杂志。”我们正在积极准备。”
但Anthropic的RSP——以及其他人工智能公司采用的类似承诺——都是自愿政策,可以随时更改或放弃。公司本身是判断其是否完全遵守RSP的唯一标准。违反RSP除了可能造成声誉损害外,没有其他外部惩罚。Anthropic认为该政策创造了一种”向上的竞争”,促使人工智能公司竞相构建最佳安全系统。但随着人工智能霸权的数十亿美元竞赛升温,批评者担心当这些措施最关键时,RSP及其类似措施可能会被忽视。
然而,在国会尚未出台任何前沿人工智能监管的情况下,Anthropic的RSP是目前对任何人工智能公司行为的少数现有约束之一。到目前为止,Anthropic一直遵守该政策。如果Anthropic证明它可以在不造成经济损失的情况下自我约束,Kaplan表示,这可能对整个行业的安全实践产生积极影响。
Anthropic的新保障措施
Anthropic的ASL-3安全措施采用公司称之为”纵深防御”的策略——这意味着有多种不同的重叠保障措施,虽然单独来看可能不完美,但联合起来可以防止大多数威胁。
其中一项措施称为”宪法分类器”:额外的人工智能系统,用于扫描用户的提示和模型的回答以检测危险内容。早期版本的Claude已经具有类似系统,在较低的ASL-2安全级别下运行,但Anthropic表示它已改进这些系统,使其能够检测可能试图使用Claude制造生物武器的人。这些分类器专门针对检测某人可能试图提出的一系列特定问题。
Anthropic努力不让这些措施妨碍Claude对合法用户的总体实用性——因为这样做会让该模型比其竞争对手更不实用。”有些生物武器可能会造成死亡,但我们认为它们不会引发大流行,”Kaplan表示。”我们并不是要阻止每一个这样的误用。我们真正要针对的是最危险的那些。”
纵深防御策略的另一个要素是防止越狱——即可能使模型忘记其安全训练并提供原本会拒绝的答案的提示。公司会监控Claude的使用情况,并”转移”那些持续尝试越狱的用户,Kaplan表示。此外,该公司还启动了一个奖金计划,奖励用户举报所谓的”通用”越狱提示,这些提示可以一次性让系统放弃所有安全措施。据发言人称,该计划已经发现了1个通用越狱提示,随后Anthropic已进行了修补。发现该漏洞的研究人员获得了2.5万美元的奖励。
Anthropic还加强了网络安全措施,以保护Claude的基础神经网络免受非国家行为者的窃取企图。该公司仍认为自己容易受到国家层面攻击者的威胁——但目标是在其认为需要升级到ASL-4时具备足够的网络安全防御能力:下一个安全级别,预计与可能对国家安全构成重大威胁的模型或可以无需人工输入自主进行人工智能研究的模型同时出现。
最后,该公司进行了所谓的”提升”试验,旨在量化在没有上述限制的情况下,人工智能模型在对比其他工具(如谷歌或更先进的模型)时,能有多大程度地提升新手制造生物武器的能力。Kaplan表示,在这些由生物安全专家评分的试验中,Anthropic发现Claude Opus 4的表现明显优于谷歌搜索和之前模型。
Anthropic的希望是,叠加在模型之上的多个安全系统——该模型已经经过单独训练以”有用、诚实和无害”——将防止几乎所有不良使用情况。”我不敢说它在任何方面都完美。如果可以说我们的系统永远不会被越狱,那会是一个非常简单的故事,”Kaplan表示。”但我们让它变得非常、非常困难。”
尽管如此,根据Kaplan自己的承认,只要有一个恶意行为者突破防线就可能造成无法估量的混乱。”恐怖分子可能做的其他危险事情——也许他们可以杀死10人或100人,”他表示。”我们刚刚看到新冠导致数百万人死亡。”