DIGIPUNK
去投稿

AutoStudio AI:联想研究院与中山大学团队推出创新多回合交互图像生成框架



随着科技的不断发展,文本到图像(T2I)生成技术已经取得了长足的进步。然而,多回合交互图像生成依然是一个充满挑战的领域。AutoStudio,一个无训练多代理框架,正是为了解决这一问题而生。它利用基于大型语言模型(LLMs)和稳定扩散(Stable Diffusion, SD)的代理,能够在多个回合的用户互动中生成连贯且多样的图像。

AutoStudio简介

AutoStudio由深圳的中山大学团队和联想研究院的专家共同开发,通过引入四个代理和一个主题数据库来完成多回合多主题的交互图像生成:

  1. 主题管理器:解析互动对话并管理每个主题的上下文。
  2. 布局生成器:生成细致的边界框以控制主题的位置。
  3. 监督者:提供布局优化建议。
  4. 绘图员:根据优化后的布局和主题数据库完成图像生成。

此外,AutoStudio使用并行U-Net(Parallel-UNet)来提高图像生成效率,并通过主题初始化生成方法解决小型主题在图像生成中容易被忽略的问题。

技术亮点

多代理框架

AutoStudio的多代理框架包括主题管理器、布局生成器、监督者和绘图员,协同工作以实现多回合交互图像生成。

并行U-Net

并行U-Net通过平行的文本和图像交叉注意模块,大大提升了对多主题图像生成的效率和质量。

主题初始化生成方法

这一方法使得生成的图像更加完整和精确,解决了小型主题容易被忽略的问题。

实验与评估

在CMIGBench基准上的大量实验表明,AutoStudio在保持多主题一致性方面表现优异。在平均弗里歇特嵌入距离(Frechet Inception Distance)和平均字符-字符相似度上,分别提升了13.65%和2.83%。

团队背景

本项目由位于深圳的中山大学团队和联想研究院的专家共同完成。中山大学团队包括程俊昊、吕希、李汉辉、Baiqiao Yin和Zai Khun Loun,联想研究院团队包括程宇浩和颜奕强。他们在各自领域都有着丰富的经验和卓越的研究成果,致力于推动AI技术在多种应用场景中的发展和创新。

团队展望

AutoStudio团队计划进一步优化算法,提高模型的生成速度和质量,并扩展其应用范围,如教育、娱乐和虚拟现实等领域。随着技术的不断进步,AutoStudio有望在更多实际应用中发挥重要作用,推动图像生成技术迈向新的高度。

通过不断探索和创新,AutoStudio将成为多回合交互图像生成的行业标准,期待与全球研究者和开发者共同推动这一领域的发展。


由数智朋克团队策划
发表于 2024年07月18日

所属标签
AutoStudio
漫画生成
LLMs

本文链接: https://www.shuzhipunk.com/articles/TTwoQNuZQMJ
转载请注明文章出处