心流logo

豆包的 asr 的识别 豆包 ASR 识别技术的优势是什么? 豆包 ASR 识别技术是如何处理多语言、方言和口音的? 豆包 ASR 识别技术在提升准确性方面是如何利用 LLM 知识的?

豆包的ASR识别

豆包的ASR(自动语音识别)技术具备高精度识别、大容量模型、支持多种语言、上下文感知、分阶段训练方法等技术亮点。豆包ASR能够准确转录各种语音信号,识别不同语言、方言、口音。具体优势包括:

  1. 基于大模型的上下文理解能力:豆包ASR利用大语言模型(LLM)的上下文理解能力,结合文本语音等上下文信息,提升转录的准确性。

  2. 高精度识别与多种语言支持:豆包ASR通过Scaling Laws理念,扩大模型容量,引入更多样更广泛的数据,从而提供更好的泛化性和能力涌现。

  3. 支持多种语言和方言:豆包ASR支持普通话和多种中国方言,如粤语、上海话、四川话、西安话、闽南语等,同时多语言版支持英语和其他7种语言,并且正在拓展支持40种语言。

  4. 强大的泛化效果:豆包ASR基于All-in-One理念,强大的泛化性使其能应用于各类场景,更为简洁。

  5. 分阶段的训练方法:豆包ASR采用编码器的自监督学习(SSL)、监督微调(SFT)、上下文微调(Context SFT)、强化学习(RL)等分阶段训练方法,既赋予模型高精度识别能力,也提供模型利用上下文推理的能力。

豆包ASR识别技术处理多语言、方言和口音的方式

  1. 上下文感知训练:豆包ASR通过构建有效且多样的训练数据,激发模型的语音模态,使得模型可以结合文本,捕捉语音中的相关信息。

  2. 联合波束搜索的解码策略:为了缓解上下文引入造成的幻觉及误转写问题,豆包ASR引入了一种联合波束搜索的解码策略,以找到最优得分。

  3. 长语音数据训练:豆包ASR构建了一系列数据集,直接用长语音数据进行微调,以提高识别准确率和一致性。