腾讯混元文生图大模型：混元-DiT

腾讯混元文生图大模型是业内首个中文原生的DiT架构开源模型，支持中英文双语输入和理解。除用于生成图像，还可用于视频等多模态视觉生成。

技术架构

基于DiT架构，该模型实现了全面升级，相比上一代整体效果提升超过20%。DiT是基于Transformer的扩散模型架构。

中文原生

腾讯混元文生图模型原生支持中文，避免了通过中译英处理文本的误差。其深度学习汉语字符系统和文化内涵，对国风元素和中文复杂性有更深刻的理解。

表现提升

多轮对话：通过自然语言对话微调生成内容，保持高一致性。
人像提升：质感升级，减少畸变，支持多样人像生成。
长文本理解：能分析和理解长篇文本并生成相应艺术作品。

开源

该模型已在Hugging Face和Github上发布，包括模型权重、推理代码和算法，免费开放给企业和个人开发者。

标签解释

DiT架构 DiT架构基于Transformer的扩散模型，是包括Sora和Stable Diffusion 3在内的多种先进技术的基础。

中文原生 模型以中文为母语，避免翻译误差，对中国元素有更深理解。

表现提升 多轮对话、人像生成和长文本理解能力显著提升模型的实用性和效果。

腾讯混元文生图大模型通过领先的DiT架构和中文原生支持，提供了更高效、更精准的生成效果，并免费开源，为行业共享经验，共建视觉生成开源生态。