心流logo

谷歌发布新AI系统 赋能通用机器人

新模型发布

谷歌DeepMind(Google DeepMind)宣布推出两款新的人工智能模型:Gemini Robotics和Gemini Robotics-ER,这两款基于Gemini 2.0的模型旨在让机器人能够执行更多现实世界任务。谷歌DeepMind的最终目标是开发出能够适用于任何形状和尺寸机器人的AI系统。

核心技术特点

Gemini Robotics是一个视觉-语言-动作(Vision-Language-Action,VLA)模型,能让机器人无需特定训练就能理解新场景并执行物理动作,如折纸或拧开瓶盖等任务。与此同时,Gemini Robotics-ER则专为机器人研究人员设计,提供先进的空间理解能力,并利用Gemini的具身推理能力。

谷歌表示,要让AI模型在机器人领域发挥作用,必须具备"通用性、交互性和灵巧性"三大特征,以适应各种场景、理解指令并执行类似人类的动作。Gemini Robotics-ER通过改进2D和3D物体检测和指向功能,显著增强了Gemini 2.0的性能。研究表明,在实际应用场景中,其成功率比Gemini 2.0提高了2-3倍。

实际应用与合作

谷歌DeepMind的研究人员主要使用双臂机器人平台ALOHA 2(ALOHA 2)的数据进行模型训练,并证实该模型同样适用于学术实验室常用的Franka(Franka)机械臂平台。例如,当识别到咖啡杯时,Gemini Robotics-ER能够自动规划安全抓取路径并完成精准抓取。

谷歌已与美国机器人公司Apptronik(Apptronik)达成合作,共同开发下一代人形机器人。此外,公司还将与Agile Robots(Agile Robots)、Agility Robotics(Agility Robotics)、波士顿动力(Boston Dynamics)和Enchanted Tools(Enchanted Tools)等企业展开测试合作。双方合作展示了机器人通过语音命令完成设备连接、午餐盒打包等任务。

虽然该技术的商业化时间表尚未公布,但谷歌将持续探索其应用潜力。业界预计,这些模型将为开发更具适应性的智能机器人奠定重要基础。