心流logo

ElevenLabs研发突破:AI语音或年内通过图灵测试

技术突破

ElevenLabs正致力于让AI语音与人类对话难以区分。该公司首席执行官斯坦尼泽夫斯基(Mati Staniszewski)表示,公司的AI语音技术可能在今年或2026年初通过图灵测试(Turing test)。该测试旨在判断机器是否具备类人智能。

"我们希望能在今年证明这是可行的,"斯坦尼泽夫斯基在最近的一次采访中表示。"你可以通过与AI代理对话的图灵测试,感觉就像在与另一个人交谈一样。"

技术挑战

该公司目前采用级联架构,将语音转文本、语言生成和文本转语音分开处理,但正准备转向统一的双工模型。"很快,我们将部署一个真正的双工模型,"斯坦尼泽夫斯基说。

斯坦尼泽夫斯基表示,AI语音技术需要在表现力和可靠性之间进行权衡。"真正的双工模型反应会更快,表现力也会更强,但可靠性较低。相比之下,级联模型的可靠性更高,但在上下文响应方面可能不够理想。"

语音响应延迟仍是一个技术挑战。斯坦尼泽夫斯基指出:"我认为我们可以在两个方面都实现相当好的延迟表现",同时他承认在生产规模上将音频与大型语言模型集成的问题尚未解决。"目前还没有公司能很好地做到这一点......我希望我们能成为第一个。"

未来展望

提到Meta和OpenAI在这一领域的持续工作时,斯坦尼泽夫斯基表示:"我认为目前还没有通过图灵测试。"他同时重申,语音将成为与技术交互的主要界面,预示着用户在不久的将来可能会改变与软件交互的方式。

该公司最近发布了其新旗舰文本转语音模型Eleven v3的alpha版本,这是迄今为止最具表现力的模型。该版本引入了内联音频控制、对话生成功能,并支持70多种语言,主要面向电影、游戏、有声读物和无障碍领域的创作者。