数据与AI技术公司Databricks(数据砖石)开发出一项突破性的机器学习技术,可在无需清洁标注数据的情况下提升AI模型性能。该公司专注于帮助大型企业构建定制化人工智能模型。
Databricks首席AI科学家乔纳森·弗兰克尔(Jonathan Frankle)通过一年的客户调研发现,数据质量不佳是企业应用AI的最大障碍。"每个公司都有数据和应用目标,但缺乏可直接用于模型训练的高质量数据。"
Databricks的新技术结合了强化学习和AI生成的合成训练数据两种方法。这一方案与OpenAI、谷歌(Google)和DeepSeek等公司的最新模型采用类似技术路线。
该技术基于"最优N选1"原理,即通过多次尝试提升模型在特定任务上的表现。Databricks开发的奖励模型DBRM(Databricks Reward Model)可以预测人类偏好,并用于改进其他模型性能,无需额外的标注数据。
Databricks将这一技术命名为"测试时自适应优化"(Test-time Adaptive Optimization,TAO)。在金融问答基准测试(FinanceBench)中,Meta公司的Llama 3.1B模型运用TAO技术后,准确率从68.4%提升至82.8%,超过了OpenAI的GPT-4和o3-mini模型的82.1%。
东北大学(Northeastern University)计算机科学家克里斯托弗·阿马托(Christopher Amato)认为,TAO方法能实现更大规模的数据标注,随着模型增强,标注质量也会提升。但他同时提醒,强化学习可能产生不可预测的结果,使用时需要谨慎。
目前,Databricks已将TAO技术应用于客户项目中。例如,一家健康追踪应用开发商借助该技术,成功部署了此前因可靠性不足而搁置的AI模型,确保了医疗信息的准确性。