DIGIPUNK
去投稿
发表于:2024年06月27日

阿里在CVPR 2024表现出色,34篇论文入选并展示多项前沿研究成果

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿

近日,国际计算机视觉顶会CVPR 2024在西雅图召开,阿里巴巴共34篇论文被收录,其中有6篇入选Highlight和Oral Paper,研究方向涵盖多模态模型、图像编辑及可控视频生成等前沿领域。阿里通义实验室的Highlight论文《SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing 》中,提出了全新的图像扩散生成框架 SCEdit,引入了轻量级微调模块SC-Tuner,大幅降低训练参数量、内存消耗和计算开销,能够快速迁移到特定的生成场景中,并节省30%-50%的训练显存开销。目前相关代码及微调模型均已开源。

会议期间,阿里还首次在海外展示了基于Animate Anyone和EMO打造的大模型应用,吸引了大量来自全球的参会者体验。这两个项目在过去半年内在Github上累计获得超20k的Star,成为视频生成领域的标杆项目。

CVPR是计算机视觉领域最顶级的学术会议,每年吸引大量企业、研究机构和高校参会。过去十几年里,CVPR曾诞生了ResNet、ImageNet等极具影响力的研究成果。据统计,今年CVPR共提交了11532份论文,最终2719篇被接收,接受率为23.6%,为近四年最低,其中Highlight和Oral的占比仅为11.9%和3.3%。

阿里通义大模型家族目前已拥有文本生成、图像生成、视频生成、图像理解等全模态能力。不久前开源的Qwen2-72B是全球性能最强的开源模型,其性能超过了美国最强的开源模型Llama3-70B,也超过了文心4.0、豆包pro、混元pro等众多中国闭源大模型。

本文链接: https://www.shuzhipunk.com/articles/HZdM53OvXMo
转载请注明文章出处

文章所属标签
CVPR
阿里巴巴
Qwen2-72B