印度AI公司研发70亿参数本土大模型

在选定Sarvam AI作为第一家合作伙伴后，印度人工智能计划（IndiaAI Mission）于5月选择了Soket AI Labs、Gnani AI和Gan AI共同建设印度自主人工智能能力。目前，除Sarvam AI已发布部分更新和模型外，其他公司尚未有具体成果，各公司仍在等待政府承诺提供的GPU计算资源支持。

项目整体规划

由首席执行官阿比谢克·阿珀瓦尔（Abhishek Upperwal）领导的Soket AI Labs正在其EKA项目下开发一个基于印度数据集的大规模语言模型。该模型采用开源策略，计划最终达到1200亿参数规模，重点优化国防、医疗和教育等领域的应用能力。

技术路线图

团队采用循序渐进的开发策略，从10-20亿参数规模起步，计划在6个月内完成70亿参数规模的模型开发，并在第10个月将参数规模提升至1200亿。目前团队已完成名为Pragna-1B的10亿参数模型，为后续扩展奠定基础。

重点应用领域

在国防领域，考虑到数据安全和地缘政治因素，Soket计划在离线环境中部署具有设备端计算能力的模型。在教育领域，公司已与人工智能卓越中心（AI CoEs）合作，推进教育资源数字化和智能化应用。

数据与技术创新

Soket的核心竞争力在于其独特的印度语言数据策略。团队通过光学字符识别（OCR）和自动语音识别（ASR）等技术，从政府文献、法律记录、教育资源等多个领域构建数据集。预计将积累超过5-6万亿个印度语言相关词元，总语料库规模将达到20万亿词元。

基础设施建设

项目已申请2000个GPU算力支持，包括NVIDIA H100在内的多种型号。虽然政府资源尚未到位，但预计下周将开始分批获得使用权限。

语言处理创新

阿珀瓦尔指出，即使是GPT-4等顶级模型在处理印地语时仍存在语法和发音错误。Soket特别注重印地语各种方言的准确性，致力于提供更适合印度本土语言环境的解决方案。