DIGIPUNK
去投稿
发表于:2024年09月03日

谷歌DeepMind推出GenRM生成式验证器,显著提升AI推理能力

数智朋克
发布者:数智朋克
阅读::1 分钟
我要投稿
要点速达👈
  • 🚀 谷歌DeepMind推出创新的生成式验证器GenRM。
  • 🧠 GenRM通过奖励模型设计,显著提升AI推理能力。
  • 🔍 GenRM在推理任务中比传统验证器高出16-64%。
  • 💡 GenRM标志着AI奖励系统的关键演化。

数智朋克消息,谷歌DeepMind团队在arxiv上发表了一篇论文,详细介绍了他们的最新研究成果——生成式验证器GenRM。该创新模型通过创造性的奖励机制设计,突破了现有大语言模型(LLMs)验证方式的局限性,显著提升了AI的推理能力。

当前提高LLMs能力的主流方法是Best-of-N模式,即由LLM生成N个候选解决方案,然后通过验证器进行排序,选出最佳答案。这种验证器通常被训练为判别分类器,对候选方案进行评分,但这一模式无法充分利用预训练LLMs的文本生成能力。

为了克服这一局限,DeepMind团队提出了GenRM验证器。与传统的判别式验证器不同,GenRM通过结合下一个token预测目标,实现了验证与生成的双重功能。其优势在于无缝集成指令调整,支持思维链推理,并通过多数投票和额外的推理时间来优化计算。实验结果表明,在算法和小学数学推理任务中,GenRM的性能比判别式验证器和LLM-as-a-Judge验证器高出16-64%。

据Google DeepMind介绍,GenRM相对于传统分类奖励模型的进步,标志着人工智能奖励系统的关键演化。这一成果表明,提升奖励模型的设计,以确保AI输出与社会责任标准保持一致,已成为当务之急。

本文链接: https://www.shuzhipunk.com/articles/NFT4BqPGblE
转载请注明文章出处

文章所属标签
DeepMind
GenRM
大语言模型