豆包的ASR识别
豆包的ASR(自动语音识别)技术具备高精度识别、大容量模型、支持多种语言、上下文感知、分阶段训练方法等技术亮点。豆包ASR能够准确转录各种语音信号,识别不同语言、方言、口音。具体优势包括:
基于大模型的上下文理解能力:豆包ASR利用大语言模型(LLM)的上下文理解能力,结合文本语音等上下文信息,提升转录的准确性。
高精度识别与多种语言支持:豆包ASR通过Scaling Laws理念,扩大模型容量,引入更多样更广泛的数据,从而提供更好的泛化性和能力涌现。
支持多种语言和方言:豆包ASR支持普通话和多种中国方言,如粤语、上海话、四川话、西安话、闽南语等,同时多语言版支持英语和其他7种语言,并且正在拓展支持40种语言。
强大的泛化效果:豆包ASR基于All-in-One理念,强大的泛化性使其能应用于各类场景,更为简洁。
分阶段的训练方法:豆包ASR采用编码器的自监督学习(SSL)、监督微调(SFT)、上下文微调(Context SFT)、强化学习(RL)等分阶段训练方法,既赋予模型高精度识别能力,也提供模型利用上下文推理的能力。
豆包ASR识别技术处理多语言、方言和口音的方式
上下文感知训练:豆包ASR通过构建有效且多样的训练数据,激发模型的语音模态,使得模型可以结合文本,捕捉语音中的相关信息。
联合波束搜索的解码策略:为了缓解上下文引入造成的幻觉及误转写问题,豆包ASR引入了一种联合波束搜索的解码策略,以找到最优得分。
长语音数据训练:豆包ASR构建了一系列数据集,直接用长语音数据进行微调,以提高识别准确率和一致性。