Hugging Face是一个知名的AI模型托管平台,无论是字节跳动(ByteDance)、谷歌(Google)还是初创公司开发的AI模型,都可能在该平台上找到。
2024年,Hugging Face收购了总部位于西雅图的XetHub公司。XetHub是一个构建和部署生成式AI应用的平台。此次收购旨在利用其技术,为Hub的代码库升级存储系统。到2025年,Hugging Face已开始将首批模型和数据集从Git大文件存储(Git Large File Storage,简称LFS)迁移到Xet存储系统。
Git LFS是一个版本控制大文件的开源Git扩展,它将音频、视频、数据集和图形等文件在Git中替换为文本指针,同时将实际文件存储在远程服务器上。Hugging Face目前仍将Git LFS与亚马逊S3(Amazon S3)结合使用。截至2024年9月20日,平台托管的文件总量已达29PB。
Hugging Face发现,其平台上的代码库与传统软件开发平台有所不同。虽然LFS设计用于处理大文件,但AI领域的文件规模明显更大。在博客文章中,Hugging Face指出:"LFS在文件级别进行重复数据删除,即使是微小的编辑也需要完整上传新版本,这对于动辄数GB的文件来说极其低效。"
为解决这一问题,Xet存储系统应运而生。该系统使用内容定义分块(Content-Defined Chunking,CDC)技术在字节级别进行重复数据删除,当GGUF模型中的元数据被修改时,只需传输变更的数据块。系统还采用滚动哈希算法计算数据块,并保持与Git LFS的向后兼容性。
凭借这些技术优势,用户在更新10GB数据文件时,只需上传发生变更的数据块,而非重新上传整个文件。例如,使用Xet支持的gemma-2-9b-it-GGUF代码库总计97GB,比原始模型节省了约94GB存储空间,降低了近50%的存储需求。
3月18日,Hugging Face完成了首批代码库的迁移概念验证,将约6%的下载流量转移到Xet基础设施上,成功迁移了4.5TB的数据。
尽管在过程中遇到了负载不平衡和下载开销等挑战,但初步迁移取得成功。目前,平台用户可以体验更快的文件上传下载速度和更高效的大文件迭代效率。Hugging Face建议用户升级到hf_xet以获得这些优势,同时通过LFS Bridge确保与现有客户端的兼容性。