DIGIPUNK
去投稿

腾讯混元文生图大模型:混元-DiT



腾讯混元文生图大模型是业内首个中文原生的DiT架构开源模型,支持中英文双语输入和理解。除用于生成图像,还可用于视频等多模态视觉生成。

技术架构

基于DiT架构,该模型实现了全面升级,相比上一代整体效果提升超过20%。DiT是基于Transformer的扩散模型架构。

中文原生

腾讯混元文生图模型原生支持中文,避免了通过中译英处理文本的误差。其深度学习汉语字符系统和文化内涵,对国风元素和中文复杂性有更深刻的理解。

表现提升

  • 多轮对话:通过自然语言对话微调生成内容,保持高一致性。
  • 人像提升:质感升级,减少畸变,支持多样人像生成。
  • 长文本理解:能分析和理解长篇文本并生成相应艺术作品。

开源

该模型已在Hugging Face和Github上发布,包括模型权重、推理代码和算法,免费开放给企业和个人开发者。

标签解释

DiT架构 DiT架构基于Transformer的扩散模型,是包括Sora和Stable Diffusion 3在内的多种先进技术的基础。

中文原生 模型以中文为母语,避免翻译误差,对中国元素有更深理解。

表现提升 多轮对话、人像生成和长文本理解能力显著提升模型的实用性和效果。

腾讯混元文生图大模型通过领先的DiT架构和中文原生支持,提供了更高效、更精准的生成效果,并免费开源,为行业共享经验,共建视觉生成开源生态。


由数智朋克团队策划
发表于 2024年05月17日

所属标签
腾讯混元
文生图
开源模型

本文链接: https://www.shuzhipunk.com/articles/E6Wtr6uXY9F
转载请注明文章出处

混元-DiT
腾讯混元文生图大模型是业内首个中文原生的DiT架构开源模型,支持中英文双语输入和理解。除用于生成图像,还可用于视频等多模态视觉生成。
1
篇内容持续更新
查看更多