
摘要
英伟达在2025年CES展上发布桌面AI虚拟助手R2X原型,支持GPT-4o或Grok等大语言模型,可通过文字和语音交互,具备屏幕查看和文件处理功能。该产品使用RTX神经面部算法和Audio2Face™-3D模型实现虚拟形象渲染,但目前存在面部表情僵硬、指令错误等技术局限。英伟达计划在2025年上半年开源这些虚拟形象,期望打造新型AI助手用户界面。

总结知识点
1. R2X虚拟助手支持文字和语音交互,可搭配OpenAI的GPT-4o或xAI的Grok等主流大语言模型使用,具备上传文件处理和实时查看屏幕或摄像头内容的功能。
2. R2X在演示中出现面部表情停留在奇怪位置、语气咄咄逼人等"恐怖谷"现象,且在使用GPT-4o模型时出现过错误指令和无法查看屏幕的问题。
3. 英伟达使用RTX神经面部算法生成虚拟形象,面部、嘴唇和舌头动作由Audio2Face™-3D模型自动化完成,未来计划使R2X能够加入微软Teams会议并在桌面执行操作。
4. 英伟达计划在2025年上半年开源这些虚拟形象,允许开发者构建新的用户界面,支持用户接入不同AI软件产品并实现本地运行。
英伟达(Nvidia)在2025年消费电子展(CES)上发布了一款创新型桌面AI助手R2X原型。这款助手采用类似游戏角色的视觉形象,能够协助用户进行电脑应用程序操作。
R2X采用英伟达自主研发的AI模型进行渲染和动画制作,可与OpenAI的GPT-4o或xAI的Grok等主流大语言模型集成。用户可通过文字、语音进行交互,支持文件处理功能,还可启用实时屏幕监控和摄像头访问功能。
系统支持持续屏幕截图分析功能,该功能默认处于关闭状态。启用后,R2X可对运行中的应用程序提供实时反馈,特别适用于复杂编程任务的辅助。
在TechCrunch的演示中暴露出多个技术问题:
在Adobe Photoshop操作演示中,R2X展示了协助使用生成式填充功能的能力。测试中使用了一张英伟达CEO黄仁勋与餐厅员工的合影。虽然最初使用GPT-4o模型时出现了指令错误,但切换到Grok模型后性能得到改善。
系统还展示了文档处理能力,能够读取PDF文件并回答相关问题,这得益于本地检索增强生成技术的支持。
R2X的视觉呈现依托于:
●Audio2Face™-3D模型:控制面部、嘴唇和舌头动作
英伟达计划在2025年上半年开源R2X虚拟形象系统,并正在开发更多功能:
目前,R2X的声音生成机制尚未公开,使用GPT-4o时的声音独特性引发关注,而Grok模型目前尚未支持语音功能。