AI聊天机器人奉承行为引发行业担忧

“`markdown
人们盯着手机,背景中有AI公司的标志
人们盯着手机,背景中有AI公司的标志

越来越多的人在个人生活中将聊天机器人作为治疗师和社会伴侣,而奉承性的回应可能会产生负面影响。信用:FT剪辑

越来越多的人在个人生活中将聊天机器人作为治疗师和社会伴侣,而奉承性的回应可能会产生负面影响。信用:FT剪辑

全球领先的人工智能公司正在加大努力应对聊天机器人向人们传递他们想听内容的日益严重的问题。

OpenAI、谷歌DeepMind和Anthropic都在致力于规范其生成式AI产品中过度奉承的行为,这些产品会向用户提供过度夸奖的回应。

这一问题源于大型语言模型的训练方式,当越来越多的人不仅在工作中将聊天机器人作为研究助手,而且在个人生活中将其作为治疗师和社会伴侣时,这一问题愈发凸显。

专家警告称,聊天机器人的讨好性质可能导致它们提供强化用户某些不良决策的答案。其他人则指出,有心理健康问题的人特别容易受到影响,有报道称一些人因与聊天机器人互动后自杀。

牛津大学神经科学和人工智能研究员马修·努尔表示:”你以为你在和一个客观的知己或向导交谈,但实际上你看到的是一种扭曲的镜子——它只是映射出你自己的信念。”

行业内部人士还警告称,AI公司存在扭曲的激励机制,一些团队在产品中整合广告以寻找收入来源。

“你越觉得可以分享任何信息,就越可能分享对潜在广告商有用的信息,”开源AI公司Hugging Face的首席伦理学家吉达·皮斯蒂利表示。

她补充说,基于付费订阅商业模式的AI公司会从用户希望持续交谈并付费的聊天机器人中获益。

AI语言模型不像人类那样”思考”,因为它们通过生成句子中下一个可能的单词来工作。

“附和效应”出现在使用人类反馈强化学习(RLHF)训练的AI模型中——人类”数据标注员”会将模型生成的答案评为可接受或不可接受。这些数据被用来教模型如何行为。

由于人们通常喜欢奉承和同意的答案,这些回应在训练中被赋予更高的权重,并反映在模型的行为中。

谷歌AI部门DeepMind表示:”奉承可能是在训练模型’有帮助’并尽量减少可能明显有害的回应时的副产品。”

科技公司面临的挑战是让AI聊天机器人和助手既有用又友好,同时不令人讨厌或上瘾。

4月下旬,OpenAI更新了其GPT-4o模型,使其”更加直观和高效”,但随后因用户投诉其过度奉承而回滚。

这家位于旧金山的公司表示,它过于关注”短期反馈”,而没有充分考虑用户与ChatGPT的互动如何随时间演变——这导致了这种奉承行为。

AI公司正在努力在训练期间和发布后防止此类行为。

OpenAI表示,它正在调整训练方法,明确引导模型远离奉承行为,同时建立更多的”护栏”以防止此类回应。

DeepMind表示,它正在进行专门的评估和训练以确保事实准确性,并持续跟踪行为以确保模型提供真实回应。

Anthropic负责微调和AI对齐的阿曼达·阿塞尔表示,该公司通过角色训练使模型更少阿谀奉承。其研究人员要求公司的聊天机器人Claude生成包含”有原则”或关心人类福祉等特质的消息。然后研究人员将这些答案展示给第二个模型,该模型会生成符合这些特质的回应并进行排序。这本质上是用一个版本的Claude来训练另一个版本。

“Claude有时的理想行为是说:’我非常乐意倾听这个商业计划,但实际上,你为你的企业起的名字在你试图开设企业的国家被视作性暗示,'”阿塞尔说。

公司在模型训练后还可以通过设置系统提示或指南来规范模型行为,以最小化奉承行为。

然而,确定最佳回应意味着深入研究人们交流的细微差别,例如判断直接回应是否比更谨慎的回应更好。

“让模型不给用户毫无根据的赞美是否合适?”OpenAI模型行为主管乔安妮·江在Reddit帖子中表示,”如果用户一开始就提供了一份糟糕的写作草稿,模型还能告诉他们这是个好开始,然后跟进建设性反馈吗?”

越来越多的证据表明,一些用户正在沉迷于使用AI。

麻省理工学院媒体实验室和OpenAI的一项研究发现,一小部分用户正在上瘾。那些将聊天机器人视为”朋友”的用户报告称,他们与其他人的社交减少,对聊天机器人的依赖程度更高,以及与成瘾相关的其他问题行为。

牛津大学的努尔表示:”这些因素形成了完美的风暴,即一个人迫切寻求确认和认可,而模型本身就有倾向于同意参与者的倾向。”

提供聊天机器人作为”伴侣”的AI初创公司Character.AI因被指责未能充分保护用户而受到批评。去年,一名青少年在与Character.AI的聊天机器人互动后自杀。该青少年的家人起诉该公司,指控其导致错误死亡,并存在疏忽和欺骗性商业行为。

Character.AI表示,它不会就待决诉讼发表评论,但补充称”在每次聊天中都有显眼的免责声明,提醒用户角色不是真人,角色所说的一切都应被视为虚构。”该公司还表示,它有保护未成年人和防止涉及自残讨论的防护措施。

另一项担忧来自Anthropic的阿塞尔,她指出AI工具可能以微妙的方式影响现实感知,例如将事实错误或有偏见的信息作为真相提供。

“如果某人过于奉承,这很明显,”阿塞尔说。”更令人担忧的是,这种行为以我们(作为个体用户)不易察觉的方式发生,并且我们花了太长时间才意识到所得到的建议实际上是糟糕的。”

© 2025 The Financial Times Ltd版权所有。不得转载、复制或以任何方式修改。

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注