阿里在CVPR 2024表现出色，34篇论文入选并展示多项前沿研究成果

近日，国际计算机视觉顶会CVPR 2024在西雅图召开，阿里巴巴共34篇论文被收录，其中有6篇入选Highlight和Oral Paper，研究方向涵盖多模态模型、图像编辑及可控视频生成等前沿领域。阿里通义实验室的Highlight论文《SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing 》中，提出了全新的图像扩散生成框架 SCEdit，引入了轻量级微调模块SC-Tuner，大幅降低训练参数量、内存消耗和计算开销，能够快速迁移到特定的生成场景中，并节省30%-50%的训练显存开销。目前相关代码及微调模型均已开源。

会议期间，阿里还首次在海外展示了基于Animate Anyone和EMO打造的大模型应用，吸引了大量来自全球的参会者体验。这两个项目在过去半年内在Github上累计获得超20k的Star，成为视频生成领域的标杆项目。

CVPR是计算机视觉领域最顶级的学术会议，每年吸引大量企业、研究机构和高校参会。过去十几年里，CVPR曾诞生了ResNet、ImageNet等极具影响力的研究成果。据统计，今年CVPR共提交了11532份论文，最终2719篇被接收，接受率为23.6%，为近四年最低，其中Highlight和Oral的占比仅为11.9%和3.3%。

阿里通义大模型家族目前已拥有文本生成、图像生成、视频生成、图像理解等全模态能力。不久前开源的Qwen2-72B是全球性能最强的开源模型，其性能超过了美国最强的开源模型Llama3-70B，也超过了文心4.0、豆包pro、混元pro等众多中国闭源大模型。

阿里在CVPR 2024表现出色，34篇论文入选并展示多项前沿研究成果

数智资讯订阅