在选定Sarvam AI作为第一家合作伙伴后,印度人工智能计划(IndiaAI Mission)于5月选择了Soket AI Labs、Gnani AI和Gan AI共同建设印度自主人工智能能力。目前,除Sarvam AI已发布部分更新和模型外,其他公司尚未有具体成果,各公司仍在等待政府承诺提供的GPU计算资源支持。
由首席执行官阿比谢克·阿珀瓦尔(Abhishek Upperwal)领导的Soket AI Labs正在其EKA项目下开发一个基于印度数据集的大规模语言模型。该模型采用开源策略,计划最终达到1200亿参数规模,重点优化国防、医疗和教育等领域的应用能力。
团队采用循序渐进的开发策略,从10-20亿参数规模起步,计划在6个月内完成70亿参数规模的模型开发,并在第10个月将参数规模提升至1200亿。目前团队已完成名为Pragna-1B的10亿参数模型,为后续扩展奠定基础。
在国防领域,考虑到数据安全和地缘政治因素,Soket计划在离线环境中部署具有设备端计算能力的模型。在教育领域,公司已与人工智能卓越中心(AI CoEs)合作,推进教育资源数字化和智能化应用。
Soket的核心竞争力在于其独特的印度语言数据策略。团队通过光学字符识别(OCR)和自动语音识别(ASR)等技术,从政府文献、法律记录、教育资源等多个领域构建数据集。预计将积累超过5-6万亿个印度语言相关词元,总语料库规模将达到20万亿词元。
项目已申请2000个GPU算力支持,包括NVIDIA H100在内的多种型号。虽然政府资源尚未到位,但预计下周将开始分批获得使用权限。
阿珀瓦尔指出,即使是GPT-4等顶级模型在处理印地语时仍存在语法和发音错误。Soket特别注重印地语各种方言的准确性,致力于提供更适合印度本土语言环境的解决方案。