谷歌发布新AI系统赋能通用机器人

新模型发布

谷歌DeepMind（Google DeepMind）宣布推出两款新的人工智能模型：Gemini Robotics和Gemini Robotics-ER，这两款基于Gemini 2.0的模型旨在让机器人能够执行更多现实世界任务。谷歌DeepMind的最终目标是开发出能够适用于任何形状和尺寸机器人的AI系统。

核心技术特点

Gemini Robotics是一个视觉-语言-动作（Vision-Language-Action，VLA）模型，能让机器人无需特定训练就能理解新场景并执行物理动作，如折纸或拧开瓶盖等任务。与此同时，Gemini Robotics-ER则专为机器人研究人员设计，提供先进的空间理解能力，并利用Gemini的具身推理能力。

谷歌表示，要让AI模型在机器人领域发挥作用，必须具备"通用性、交互性和灵巧性"三大特征，以适应各种场景、理解指令并执行类似人类的动作。Gemini Robotics-ER通过改进2D和3D物体检测和指向功能，显著增强了Gemini 2.0的性能。研究表明，在实际应用场景中，其成功率比Gemini 2.0提高了2-3倍。

实际应用与合作

谷歌DeepMind的研究人员主要使用双臂机器人平台ALOHA 2（ALOHA 2）的数据进行模型训练，并证实该模型同样适用于学术实验室常用的Franka（Franka）机械臂平台。例如，当识别到咖啡杯时，Gemini Robotics-ER能够自动规划安全抓取路径并完成精准抓取。

谷歌已与美国机器人公司Apptronik（Apptronik）达成合作，共同开发下一代人形机器人。此外，公司还将与Agile Robots（Agile Robots）、Agility Robotics（Agility Robotics）、波士顿动力（Boston Dynamics）和Enchanted Tools（Enchanted Tools）等企业展开测试合作。双方合作展示了机器人通过语音命令完成设备连接、午餐盒打包等任务。

虽然该技术的商业化时间表尚未公布，但谷歌将持续探索其应用潜力。业界预计，这些模型将为开发更具适应性的智能机器人奠定重要基础。

谷歌发布新AI系统 赋能通用机器人

新模型发布

核心技术特点

实际应用与合作

谷歌发布新AI系统赋能通用机器人