
摘要
Meta CEO扎克伯格在AI版权案中以YouTube处理盗版内容的方式为公司使用LibGen数据集训练AI模型辩护。他认为,类似YouTube平台虽存在盗版内容但会努力删除,且大多数内容合法。证词显示,尽管AI高管对法律影响表示担忧,扎克伯格仍批准使用LibGen训练Llama模型。原告方包括知名作家在内,指控Meta明知LibGen为盗版数据集仍使用,并涉嫌通过交叉对照等方式确定许可价值,同时还从Z-Library下载盗版电子书用于训练。

总结知识点
1. 扎克伯格在证词中援引YouTube案例辩护称:"YouTube可能会在一段时间内托管一些人们盗版的内容,但YouTube一直在试图删除这些内容。我认为,YouTube上绝大多数内容都是合法的,他们拥有相应的许可。"
2. 根据证词,尽管公司AI高管和研究团队对法律影响表示担忧,扎克伯格仍批准使用LibGen来训练Meta的至少一个Llama模型。而LibGen曾多次因版权侵权被起诉、被勒令关闭并被罚款数千万美元。
3. 原告律师引用Meta员工的话称LibGen是"我们知道是盗版的数据集",但扎克伯格在证词中声称"从未听说过"LibGen,并表示全面禁止使用某些数据集"可能并不是正确的做法"。
4. 最新修改诉状指控Meta正在使用LibGen训练Llama 3和即将推出的Llama 4模型,并试图通过在微调中插入"监督样本"来隐藏模型使用版权材料训练的事实。诉状还称Meta在2024年4月从Z-Library下载盗版电子书用于训练。
根据最新公布的证词片段显示,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)以YouTube(油管)处理盗版内容的方式,为其公司使用版权电子书数据集训练AI模型进行辩护。
这份证词是原告律师向法院提交的诉状的一部分,与"卡德雷诉Meta案"(Kadrey v. Meta)有关。这是美国法院系统中的众多类似案件之一,涉及AI公司与作者及其他知识产权持有者之间的争议。在这些案件中,作为被告的AI公司大多声称使用版权内容进行训练属于"合理使用",而版权持有者则持反对意见。
扎克伯格为Meta使用电子书数据集LibGen训练其Llama系列AI模型进行辩护。LibGen自称是一个"链接聚合器",提供包括森盖奇学习(Cengage Learning)、麦克米伦学习(Macmillan Learning)等出版商的版权作品,曾多次因版权侵权被起诉和罚款。
根据本周解封的法庭文件,尽管公司AI团队对法律影响表示担忧,扎克伯格仍批准使用LibGen训练Meta的Llama模型。原告方包括畅销书作家萨拉·西尔弗曼(Sarah Silverman)和塔-内西·科茨(Ta-Nehisi Coates),其律师引用Meta员工的话称LibGen是"已知的盗版数据集"。
周三晚间提交的最新修改诉状显示,Meta将LibGen中的盗版书籍与可获得许可的版权书籍进行对比,以评估是否需要与出版商达成许可协议。诉状还指出,Meta使用LibGen训练其最新的Llama 3模型,并计划用于下一代Llama 4模型的训练。
此外,Meta研究人员allegedly试图通过在Llama的微调中插入"监督样本"来掩饰使用版权材料的事实。诉状还指控Meta在2024年4月从Z图书馆(Z-Library)下载盗版电子书用于训练。Z图书馆曾多次面临法律诉讼,其涉嫌运营者在2022年被控版权侵权、电信诈骗和洗钱。