谷歌DeepMind推出GenRM生成式验证器，显著提升AI推理能力

要点速达👈

🚀 谷歌DeepMind推出创新的生成式验证器GenRM。
🧠 GenRM通过奖励模型设计，显著提升AI推理能力。
🔍 GenRM在推理任务中比传统验证器高出16-64%。
💡 GenRM标志着AI奖励系统的关键演化。

数智朋克消息，谷歌DeepMind团队在arxiv上发表了一篇论文，详细介绍了他们的最新研究成果——生成式验证器GenRM。该创新模型通过创造性的奖励机制设计，突破了现有大语言模型（LLMs）验证方式的局限性，显著提升了AI的推理能力。

当前提高LLMs能力的主流方法是Best-of-N模式，即由LLM生成N个候选解决方案，然后通过验证器进行排序，选出最佳答案。这种验证器通常被训练为判别分类器，对候选方案进行评分，但这一模式无法充分利用预训练LLMs的文本生成能力。

为了克服这一局限，DeepMind团队提出了GenRM验证器。与传统的判别式验证器不同，GenRM通过结合下一个token预测目标，实现了验证与生成的双重功能。其优势在于无缝集成指令调整，支持思维链推理，并通过多数投票和额外的推理时间来优化计算。实验结果表明，在算法和小学数学推理任务中，GenRM的性能比判别式验证器和LLM-as-a-Judge验证器高出16-64%。

据Google DeepMind介绍，GenRM相对于传统分类奖励模型的进步，标志着人工智能奖励系统的关键演化。这一成果表明，提升奖励模型的设计，以确保AI输出与社会责任标准保持一致，已成为当务之急。

谷歌DeepMind推出GenRM生成式验证器，显著提升AI推理能力

数智资讯订阅