Resemble AI开源声音克隆新模型 AI声音克隆技术会带来哪些伦理风险？开源AI模型对语音技术发展有何影响？如何平衡AI声音克隆的创新与安全？

模型发布与功能特点

美国声音克隆平台瑞森布尔人工智能公司（Resemble AI）在社交平台X（Twitter）上宣布，已开源其名为"聊天盒子"（Chatterbox）的模型。该模型集成了文本转语音和声音转换功能。

Chatterbox是首个具有情感夸张控制功能的开源模型。用户通过调节单一参数，即可将语音从单调调整至富有戏剧性表现力的效果。今年2月，瑞森布尔人工智能公司（Resemble AI）还推出了快速声音克隆2.0（Rapid Voice Clone 2.0）工具，用户只需20秒的音频样本就能创建高质量的语音内容。

性能测试结果

通过专业音频测试平台Podonos进行的评估显示，Chatterbox在生成自然、高质量语音方面表现出色。测试采用相同的文本输入（零样本、无提示工程和音频处理），生成7到20秒的音频样本。在听众测试中，63.75%的参与者更偏好Chatterbox而非竞品伊莱文实验室（ElevenLabs）的产品。

行业技术发展

在开源AI声音克隆领域，由麻省理工学院（MIT）、清华大学（Tsinghua University）研究人员与加拿大创业公司迈谢尔（MyShell）合作开发的"开放声音"（OpenVoice）是另一个重要案例。同时，AI创业公司希芙拉（Zyphra）也在2月份推出开源文本转语音模型，仅需5秒样本音频即可完成声音克隆。

据报道，这些模型各自拥有16亿个参数，通过超过20万小时的语音数据训练，涵盖有声读物旁白等中性语调语音和富有表现力的语音内容。

Resemble AI开源声音克隆新模型 AI声音克隆技术会带来哪些伦理风险？ 开源AI模型对语音技术发展有何影响？ 如何平衡AI声音克隆的创新与安全？

模型发布与功能特点

性能测试结果

行业技术发展

Resemble AI开源声音克隆新模型 AI声音克隆技术会带来哪些伦理风险？开源AI模型对语音技术发展有何影响？如何平衡AI声音克隆的创新与安全？