Nvidia发布NVLM 1.0多模态模型，性能媲美GPT-4o与Llama 3-V

要点速达👈

🔍 Nvidia发布NVLM 1.0，性能媲美GPT-4o和Llama 3-V 405B。
📊 NVLM 1.0在视觉语言和文本任务中表现突出，特别是在OCR和自然图像理解上领先。
💻 该模型权重及基于Megatron-Core框架的代码已开源。
📈 NVLM 1.0 72B在纯文本及程序代码任务中的准确率提升了4.3%。
🐱 NVLM 1.0能够理解复杂多模态幽默，例如“abstract vs. paper”迷因。

数智朋克消息，Nvidia发布了多模态大型语言模型NVLM 1.0，旨在与封闭的GPT-4o及开源的Llama 3-V 405B、InternVL 2等竞争。NVLM 1.0不仅开源了模型权重，还提供了基于Megatron-Core框架的程序代码，展现了其对AI研究与应用的贡献。

在模型架构方面，Nvidia比较了基于解码器的设计与交叉注意力机制模型的优劣，最终提出了一种新架构，不仅提高了训练效率，还增强了多模态推理能力。NVLM 1.0 72B在多个基准测试中表现优异，虽然在某些领域未能拔得头筹，但在视觉语言和纯文本任务上的表现已接近Llama 3-V、GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro，尤其是在OCRBench和VQAv2等视觉理解测试中成绩领先。

数智朋克了解到，NVLM 1.0的优势在于其创新的多模态训练方法，该方法确保纯文本与多模态任务的能力都得到提升。在纯文本数字及程序代码领域，NVLM 1.0 72B的平均准确率提升了4.3%，大幅领先其他同类模型。此外，NVLM 1.0具备卓越的指令遵循能力，并能结合OCR、推理、定位、常识、世界知识与程序代码撰写等多种技能。其对网络迷因“abstract vs. paper”表现出的幽默理解能力，进一步证明了其在多模态语境下的推理和认知优势。

Nvidia发布NVLM 1.0多模态模型，性能媲美GPT-4o与Llama 3-V

数智资讯订阅