Meta于周三发布了新一代人工智能模型V-JEPA 2,这是一个旨在帮助AI代理理解周围世界的"世界模型"。该模型是Meta去年发布的V-JEPA模型的升级版本,通过超过100万小时的视频训练,帮助机器人或其他AI代理在物理世界中运作,理解和预测重力等概念将如何影响事件的后续发展。
这类常识性的关联类似于幼儿和动物在大脑发育过程中形成的认知。例如,当人与狗玩接球游戏时,狗能够理解球落地后会反弹向上,并会跑向球可能落地的位置,而不是球的当前位置。
Meta展示了多个应用场景,如机器人从第一视角看到自己手持盘子和铲子,正走向炉子上煎好的鸡蛋。AI能够预测最可能的下一步动作是用铲子将鸡蛋铲到盘子里。
据Meta介绍,V-JEPA 2的运行速度比英伟达(Nvidia)的Cosmos模型快30倍,后者同样致力于增强与物理世界相关的智能。不过,Meta可能使用了与英伟达不同的基准来评估其模型性能。
Meta首席人工智能科学家扬·勒昆(Yann LeCun)在视频中表示:"我们相信世界模型将开启机器人技术的新纪元,使现实世界中的AI代理能够帮助完成家务和体力任务,而无需海量的机器人训练数据。"