心流logo

谷歌AI助力人类解码海豚语言

创新项目启动

谷歌(Google)与佐治亚理工学院和野生海豚项目(Wild Dolphin Project,WDP)合作,推出了一款名为DolphinGemma的人工智能模型,用于分析和生成海豚发声。这一消息在国际海豚日当天宣布,标志着人类在理解并可能实现与海豚双向交流方面迈出了新的一步。

技术核心与实现

DolphinGemma模型基于WDP在巴哈马对大西洋斑海豚(Stenella frontalis)长期研究所收集的数十年水下视频和音频数据进行训练。该模型能够识别海豚声音序列中的模式,并生成逼真的类海豚声音。

这个人工智能系统基于谷歌的轻量级Gemma模型,并利用SoundStream进行音频表示。模型参数约为4亿个,体积小到足以在野外研究使用的Pixel手机上运行。它作为音频输入输出系统,能够预测后续的海豚声音,类似于语言模型预测人类文本中的下一个词。

研究进展与应用

WDP团队自1985年以来的研究表明,海豚使用特征哨声来重聚母子对,而爆发脉冲尖叫和点击嗡嗡声则与打斗和求偶行为相关。同时,研究团队开发了鲸类听觉增强遥测(CHAT)系统,通过合成哨声与海豚进行互动。

目前,Pixel 6手机已能实现实时高保真度的海豚声音分析。基于Pixel 9手机的下一代系统将直接集成深度学习和模板匹配功能,减少对专用硬件的需求。DolphinGemma计划于今年夏天作为开放模型发布,虽然目前主要针对大西洋斑海豚,但该技术有望推广到其他鲸类研究。

该研究旨在通过数据分析和交互系统,促进人类与海豚之间的交流。