Google的新机器人AI无需云端即可系鞋带

Google的新机器人AI无需云端即可系鞋带

Google的Carolina Parada表示,Gemini使机器人领域取得了巨大突破,例如新的本地AI。

Ryan Whitwam – 2025年6月24日 10:00 am | 61

Apollo机器人 Apollo机器人

人形Apollo机器人是Gemini Robotics支持的平台之一。 信用:Google

人形Apollo机器人是Gemini Robotics支持的平台之一。 信用:Google

人形Apollo机器人是Gemini Robotics支持的平台之一。 信用:Google

通用机器人,无需云端

在之前的Gemini Robotics版本(仍是Google机器人技术的“最佳”版本)中,平台运行混合系统,机器人上运行小型模型,云端运行大型模型。你可能见过聊天机器人“思考”数秒后生成输出,但机器人需要快速反应。如果你告诉机器人拿起并移动物体,你不希望它在每一步生成时暂停。本地模型允许快速适应,而基于服务器的模型可帮助处理复杂推理任务。Google DeepMind现在将本地模型作为独立的VLA释放,其表现令人惊讶地稳健。

新的Gemini Robotics本地模型仅略逊于混合版本的准确性。据Parada表示,许多任务将开箱即用。“当我们与机器人互动时,我们会发现它们出乎意料地能理解新情境,”Parada告诉Ars。

通过发布包含完整SDK的模型,团队希望开发者能为Gemini机器人赋予新任务,并展示它们在新环境中运行,这可能会揭示模型默认调校无法处理的动作。借助SDK,机器人研究者可以使用50到100次演示即可将VLA适应新任务。

机器人本地AI图表

新的机器人本地模型在云端处理的混合模型中几乎同样灵活。

信用:Google

新的机器人本地模型在云端处理的混合模型中几乎同样灵活。 信用:Google

人工智能机器人领域的“演示”与其它AI研究领域有所不同。Parada解释说,演示通常涉及远程操作机器人——手动控制机械完成任务,以调校模型自主处理该任务。尽管合成数据是Google训练的一部分,但它不能替代真实数据。“我们仍然发现,在最复杂、精细的行为中,我们需要真实数据,”Parada说。“但通过模拟,你可以完成很多事情。”

然而,这些高度复杂的行为可能超出本地VLA的能力范围。它应对简单动作如系鞋带(对AI机器人传统上困难的任务)或叠衬衫应毫无问题。如果你希望机器人为你做三明治,它可能需要更强大的模型来完成多步骤推理以将面包放在正确位置。

团队认为Gemini Robotics本地模型适合连接云端不稳定或不存在的环境。例如,在医疗环境中,本地处理机器人视觉数据也更有利于隐私。

构建安全的机器人

AI系统的安全性始终是关注点,无论是提供危险信息的聊天机器人还是走向终结者般的机器人。我们所有人都见过生成式AI聊天机器人和图像生成器在输出中虚构虚假信息,而驱动Gemini Robotics的生成系统也不例外——模型并非每次都能正确工作,但赋予模型冰冷、无情的金属夹具使其问题更加棘手。

为确保机器人行为安全,Gemini Robotics采用多层方法。“使用完整的Gemini Robotics时,你连接的是一个在推理‘什么是可以安全做的’的模型,”Parada说。“然后它会与一个实际生成选项的VLA交谈,而该VLA会调用一个低级控制器,通常包含安全关键组件,例如你能移动多大力量或手臂能移动多快。”

重要的是,新的本地模型只是一个VLA,因此开发者需自行构建安全机制。Google建议他们复制Gemini团队的做法。建议早期测试者计划的开发者将系统连接到标准Gemini Live API,该API包含安全层。他们还应为关键安全检查实现低级控制器。

任何希望测试Gemini Robotics本地模型的人都应申请Google的可信测试者计划。Google的Carolina Parada表示过去三年机器人领域取得了大量突破,这只是开始——当前Gemini Robotics版本仍基于 Gemini 2.0 。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5被引用为重大改进在聊天机器人功能上。也许机器人也会如此。

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注