美国声音克隆平台瑞森布尔人工智能公司(Resemble AI)在社交平台X(Twitter)上宣布,已开源其名为"聊天盒子"(Chatterbox)的模型。该模型集成了文本转语音和声音转换功能。
Chatterbox是首个具有情感夸张控制功能的开源模型。用户通过调节单一参数,即可将语音从单调调整至富有戏剧性表现力的效果。今年2月,瑞森布尔人工智能公司(Resemble AI)还推出了快速声音克隆2.0(Rapid Voice Clone 2.0)工具,用户只需20秒的音频样本就能创建高质量的语音内容。
通过专业音频测试平台Podonos进行的评估显示,Chatterbox在生成自然、高质量语音方面表现出色。测试采用相同的文本输入(零样本、无提示工程和音频处理),生成7到20秒的音频样本。在听众测试中,63.75%的参与者更偏好Chatterbox而非竞品伊莱文实验室(ElevenLabs)的产品。
在开源AI声音克隆领域,由麻省理工学院(MIT)、清华大学(Tsinghua University)研究人员与加拿大创业公司迈谢尔(MyShell)合作开发的"开放声音"(OpenVoice)是另一个重要案例。同时,AI创业公司希芙拉(Zyphra)也在2月份推出开源文本转语音模型,仅需5秒样本音频即可完成声音克隆。
据报道,这些模型各自拥有16亿个参数,通过超过20万小时的语音数据训练,涵盖有声读物旁白等中性语调语音和富有表现力的语音内容。