随着机器人和自动驾驶技术的进步,物理人工智能的发展日益重要。物理人工智能是指使自主系统能够感知环境、理解场景并在现实世界中执行精确动作的技术。其核心是世界基础模型(World Foundation Models,WFMs),这类人工智能模型能够通过物理感知视频模拟物理状态,帮助机器实现准确决策和环境互动。
英伟达(NVIDIA)Cosmos是一个专门面向物理人工智能系统的开发平台,为开发者提供从数据管理、模型训练到系统定制的全流程工具支持。
开发物理人工智能系统面临着精确模拟和行为预测等技术难题。世界模型通过分析历史数据和当前输入来预测环境状态,为开发者提供可控的训练环境。然而,这需要海量数据支持、强大的计算能力和实际测试验证,往往带来安全风险和高额成本。
虽然3D模拟生成的合成数据可以部分解决问题,但创建高质量的合成数据既耗费资源,又难以完全还原真实物理环境,特别是在复杂场景中。
基于CUDA构建的Cosmos平台整合了先进的世界基础模型、视频标记器和AI加速的数据处理流程,主要包括:
Cosmos世界基础模型在9000万亿个标记上完成预训练,包含2000万小时的自动驾驶、机器人等领域数据。平台采用自回归和扩散两种模型架构,均基于transformer架构以处理复杂的时序依赖关系。
Cosmos通过两阶段护栏系统确保模型安全使用,包括预防和后处理机制,实现关键词屏蔽、内容安全分类和隐私保护。
平台可广泛应用于视频理解、3D数据生成、策略模型开发等领域。通过与NVIDIA Omniverse结合,能够模拟多种场景,辅助AI系统决策。平台采用"通用模型训练+专项优化"的两阶段方法,显著提升训练效率。
目前,Cosmos世界基础模型已在NGC和Hugging Face平台开放使用,开发者可通过NVIDIA API目录访问相关服务。NeMo Curator作为托管服务和SDK提供早期访问,Cosmos标记器在GitHub和Hugging Face开源发布。