Yandex发布全球最大音乐推荐数据集大规模推荐系统数据集为何如此稀缺？如何平衡用户隐私与数据开放？开源数据集将如何改变推荐系统研究？

推荐系统应用广泛，从播放列表到产品页面均有其应用。然而，与依赖海量数据集的大型语言模型相比，推荐算法的研究往往受限于数据规模，通常只能在小型、过时的数据集上进行评估。

数据集规模与内容

全球科技公司Yandex希望通过发布Yambda-5B数据集来缩小研究与生产之间的差距。这是目前可用于推荐任务的最大规模匿名用户交互数据集。

Yambda-5B包含47.9亿条匿名用户交互数据，这些数据来自Yandex音乐（Yandex Music）在10个月期间收集的用户收听、点赞和不喜欢等信息。数据集还包括元数据、音频嵌入、带时间戳的日志，以及一个关键的标记，用于区分用户是通过自然浏览还是算法推荐发现音乐。

数据集特点与优势

Yambda不仅在数据量上更大，其结构设计也更贴近现代使用场景。许多现有的基准数据集难以模拟真实环境的复杂性。例如，经典的Netflix Prize数据集仅包含不到1.8万个项目，且只有日期级别的时间戳，不适合进行时序或序列建模。

相比之下，Yambda包含由卷积神经网络生成的高保真音频嵌入，提供了公共数据集中罕见的内容级特征。它捕捉了五种用户交互类型：收听、点赞、不喜欢、取消点赞和取消不喜欢，使研究人员能够同时研究隐式和显式反馈。

每个事件都有5秒精度的时间戳，用户行为通过"is_organic"标记进行分类，以区分自然发现和推荐驱动的活动。所有用户和音轨身份都使用数字标识符进行匿名化，确保符合隐私标准。

评估方法与应用场景

数据集采用全局时间分割（GTS）协议，基于时间而非用户交互模式将数据分为训练集和测试集。这种方法保持了因果一致性，避免了在未来信息上训练模型的常见问题。

在Yambda基准测试中，训练数据跨度为300天，之后是30分钟的缓冲期，然后是一天的测试窗口。研究论文指出："在训练集和测试集之间设置30分钟的间隔，是为了模拟工业系统中模型训练到部署之间的延迟。"

Yambda配备了完整的基准测试套件，包括传统和现代算法。从简单的基于流行度的方法（如MostPop和DecayPop）到矩阵分解方法（如iALS和BPR），以及擅长捕捉用户行为长期依赖关系的基于Transformer的序列模型SASRec。

开源与影响

所有三种规模的数据集（50M、500M和5B事件）都以Apache Parquet格式在Hugging Face上提供。这使得研究人员无需签署法律协议或获取平台访问权限，就能使用网络规模的训练数据。

值得一提的是，这并非Yandex在AI领域的首次开源项目。该公司此前已发布多个广受机器学习社区欢迎的工具，包括用于识别和评估代码效率的Perforator、用于大型语言模型极限压缩的高级量化算法AQLM、为Transformer架构优化的分片数据并行框架YaFSDP，以及高性能梯度提升决策树库CatBoost。

Yandex发布全球最大音乐推荐数据集 大规模推荐系统数据集为何如此稀缺？ 如何平衡用户隐私与数据开放？ 开源数据集将如何改变推荐系统研究？

数据集规模与内容

数据集特点与优势

评估方法与应用场景

开源与影响

Yandex发布全球最大音乐推荐数据集大规模推荐系统数据集为何如此稀缺？如何平衡用户隐私与数据开放？开源数据集将如何改变推荐系统研究？