心流logo

红帽发布AI推理新框架llm-d

背景与挑战

在过去两年中,强大的AI模型(包括开源和专有模型)已成功为个人和组织提供了广泛的应用场景。然而,在生产环境中部署这些模型面临着诸多挑战,特别是在推理效率和成本优化方面。

创新框架发布

美国开源技术提供商红帽人工智能(Red Hat AI)推出了一个解决方案框架llm-d。这是一个基于Kubernetes的分布式推理框架,构建在目前最广泛使用的开源推理加速框架vLLM之上。该框架由红帽与谷歌云(Google Cloud)、IBM研究院、英伟达(NVIDIA)、AMD、思科(Cisco)和英特尔(Intel)等科技巨头合作开发。

核心技术特性

llm-d框架具有多项创新技术特性:

性能突破

在双节点NVIDIA H100集群测试中,llm-d展现出显著性能优势:

行业影响与发展

IBM AI平台副总裁阿曼德·鲁伊兹(Armand Ruiz)认为,llm-d的发布标志着企业AI的重要转折点。近年来,Cerebras、Groq和SambaNova等公司也在积极开发AI推理加速解决方案。Groq公司创始人兼CEO乔纳森·罗斯(Jonathan Ross)提出,计划到2027年底提供全球半数的AI推理算力。

研究进展

华为云和苏州大学最近发布的研究《驯服巨人:高效LLM推理服务调查》深入探讨了LLM推理优化方法,涵盖实例级和集群级的多种技术创新。

同时,vLLM在3月推出的"生产堆栈"解决方案,通过分布式缓存共享和智能自动扩展,帮助早期用户在保持性能的同时降低30-40%部署成本。