要点速达👈
- 🔍 Nvidia发布NVLM 1.0,性能媲美GPT-4o和Llama 3-V 405B。
- 📊 NVLM 1.0在视觉语言和文本任务中表现突出,特别是在OCR和自然图像理解上领先。
- 💻 该模型权重及基于Megatron-Core框架的代码已开源。
- 📈 NVLM 1.0 72B在纯文本及程序代码任务中的准确率提升了4.3%。
- 🐱 NVLM 1.0能够理解复杂多模态幽默,例如“abstract vs. paper”迷因。
数智朋克消息,Nvidia发布了多模态大型语言模型NVLM 1.0,旨在与封闭的GPT-4o及开源的Llama 3-V 405B、InternVL 2等竞争。NVLM 1.0不仅开源了模型权重,还提供了基于Megatron-Core框架的程序代码,展现了其对AI研究与应用的贡献。
在模型架构方面,Nvidia比较了基于解码器的设计与交叉注意力机制模型的优劣,最终提出了一种新架构,不仅提高了训练效率,还增强了多模态推理能力。NVLM 1.0 72B在多个基准测试中表现优异,虽然在某些领域未能拔得头筹,但在视觉语言和纯文本任务上的表现已接近Llama 3-V、GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro,尤其是在OCRBench和VQAv2等视觉理解测试中成绩领先。
数智朋克了解到,NVLM 1.0的优势在于其创新的多模态训练方法,该方法确保纯文本与多模态任务的能力都得到提升。在纯文本数字及程序代码领域,NVLM 1.0 72B的平均准确率提升了4.3%,大幅领先其他同类模型。此外,NVLM 1.0具备卓越的指令遵循能力,并能结合OCR、推理、定位、常识、世界知识与程序代码撰写等多种技能。其对网络迷因“abstract vs. paper”表现出的幽默理解能力,进一步证明了其在多模态语境下的推理和认知优势。