苹果新AI模型性能测试不敌竞品

性能测试结果

苹果宣布对其在iOS、macOS等平台上支持智能功能（Apple Intelligence）的AI模型进行了升级。但根据该公司周一发布的基准测试数据显示，这些模型的性能表现不及主要竞争对手的早期产品。

人工测试评估显示，用于设备端离线运行的"苹果设备端模型"（Apple On-Device）在文本生成质量方面，仅与同等规模的谷歌（Google）和阿里巴巴（Alibaba）模型"相当"。而设计用于数据中心运行的"苹果服务器模型"（Apple Server）表现则落后于OpenAI的GPT-4o模型。在图像分析能力测试中，测试人员更倾向于选择Meta的美洲狮4侦察模型（Llama 4 Scout）而非苹果服务器模型，这一结果较为突出，因为Llama 4 Scout在多项测试中的表现通常低于谷歌、Anthropic和OpenAI等AI实验室的主流模型。

市场竞争现状

这些基准测试结果印证了此前关于苹果AI研究部门在激烈竞争中追赶困难的市场反馈。近年来，苹果的AI技术能力表现未达预期，其承诺的Siri升级计划也被无限期延后。部分消费者已对苹果提起诉讼，指控其在产品营销中宣传了尚未实现的AI功能。

技术特点与功能

苹果设备端模型拥有约30亿参数规模，主要支持文本生成、摘要和文本分析等功能。参数数量与模型的问题解决能力密切相关，通常参数规模越大，模型表现越好。自本周一起，第三方开发者可通过苹果基础模型框架（Foundation Models）调用该模型。

苹果表示，新一代设备端模型和服务器模型在工具使用和运行效率方面均有提升，支持约15种语言处理。这些改进得益于经过扩充的训练数据集，包含了图像、PDF文件、文档、手稿、信息图表、表格和图表等多样化内容。