心流logo

印度推出22种语言互译新模型

模型主要特点

印度理工学院马德拉斯分校(IIT Madras)的人工智能实验室AI4Bharat推出了IndicTrans3测试版,这是一个最先进的多语言翻译模型,可支持22种印度语言之间的互译。该模型针对文档级机器翻译进行了优化,旨在提供与全球领先翻译模型相当的性能。

IndicTrans3的主要特点包括高精度翻译、支持多种印度语言,以及针对各种实际应用场景进行了优化。AI4Bharat还宣布计划近期发布训练数据,进一步为开源人工智能生态系统做出贡献。

负责人表态

AI4Bharat负责人米特什·卡普拉(Mitesh Khapra)在领英(LinkedIn)上发文表示:"过去4年来,我们AI4Bharat一直致力于推动印度语言人工智能的发展——构建大规模数据集、模型和工具,并将所有内容开源供社区使用。现在,我们所有的贡献都可以在Hugging Face平台上获取!"卡普拉同时感谢了EkStep基金会(EkStep Foundation)、尼勒卡尼慈善机构(Nilekani Philanthropies)和Bhashini(MeitY)在开发过程中提供的帮助。

应用进展

该模型的前一版本IndicTrans2已被多家印度公司广泛应用于人工智能研究和开发。去年11月,AI4Bharat宣布推出BhasaAnuvaad,这是一个专门针对印度语言的语音翻译数据集,覆盖13种语言,包含约44,400小时的音频数据,是目前针对印度语言多样性最大的公开可访问语音翻译资源。