OpenAI开源SimpleQA基准测试集，助力提升大模型真实性

要点速达👈

数智朋克讯，许多大模型在回答问题时会出现严重错误，例如在询问NBA历史得分最多的球员时，模型可能错误地回答迈克尔乔丹而非勒布朗·詹姆斯。这类现象被称为“幻觉”问题，影响了模型的可靠性，甚至包括OpenAI自身的GPT-4o、o1-preview及o1-mini等先进模型。

为了解决这一问题，OpenAI开源了SimpleQA基准测试集。该测试集设计用于帮助开发者精准检测模型的回答正确性，并对模型的“说谎”能力进行校准与优化。开发者可以使用SimpleQA进行系统性评估，从而识别模型的局限性并进行相应改进。

一些用户在查看SimpleQA测试数据后发现，o1-mini与o1-preview之间存在显著的性能差距，o1-mini的表现甚至不及GPT-4o。这一发现引发了对不同模型能力的进一步讨论。

SimpleQA采用了一种对抗性基准测试方法，专门设计了至少一次模型尝试失败的问题，旨在揭示模型的弱点并促进其改进。通过这种方式，OpenAI希望推动大模型的发展，提升其在实际应用中的表现。

开源地址如下：https://github.com/openai/simple-evals

数智资讯订阅