Meta与斯坦福联手推出Apollo：突破视频理解的AI模型

要点速达👈

🌟Apollo模型通过双重组件设计提升了视频理解能力。
⏳通过时间戳增强模型对时间维度的感知，改善视频内容解析。
⚙️创新的分阶段训练策略使得Apollo在视频处理上取得更好效果。
🔑文本与视频数据的结合优化了模型的语言与视频理解能力。
📂Apollo的开源代码与公开演示为开发者提供了更多研究机会。

数智朋克报道，Meta与斯坦福大学联合推出的Apollo AI模型系列，标志着视频理解技术迈上新台阶。视频处理一直是人工智能的难题，尤其在包含复杂动态元素时，传统模型难以有效应对。Apollo模型通过创新的双重组件架构，显著提升了对视频内容的解析能力。

Apollo模型的设计理念非常独特，分为两部分：一部分专注于处理单独的视频帧，另一部分则聚焦于跟踪视频中的动态对象和场景变化。这一设计使得Apollo能够更加精确地捕捉到视频中的时间性变化。同时，模型通过在视频片段之间加入时间戳，进一步增强了对时间维度的感知，帮助其更好地理解视频内容与文本描述的关联。

在训练过程中，Apollo的研发团队发现，训练策略的优劣远远超过了模型参数的大小。与传统的单次训练方式不同，Apollo采用分阶段的训练方法，逐步激活模型各个部分的功能。

这一策略的实施，使得Apollo在处理视频信息时，能显著提高效果与效率。同时，Meta团队对数据处理的优化也至关重要。研究表明，适当的文本和视频数据组合，有助于提升模型的语言理解能力，并有效增强视频处理能力。具体而言，当10%至14%的文本数据与视频内容相结合时，能够达到理想的平衡效果。

Apollo系列在不同规模下的表现都非常优异。即便是较小的Apollo-3B，也已经超越了同规模的Qwen2-VL等模型，而更大参数的Apollo-7B，则在视频理解能力上超越了同类大规模模型。

Meta还决定将Apollo的代码和模型权重开源，公开演示也已在Hugging Face平台上线，为全球研究者和开发者提供了宝贵的探索机会。

Meta与斯坦福联手推出Apollo：突破视频理解的AI模型

数智资讯订阅