它是一种文本到图像的扩散转换器,强大的多分辨率扩散变压器,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面树立了新的最先进水平。
通过查阅相关文档能够发现它其实就是基于 Stable Diffusion 实现的,它的增强点在于
- 结合了预先训练的双语(英语和中文)CLIP 和多语言 T5 编码器
- 执行多轮对话和图像生成的能力,训练 MLLM 来理解多轮用户对话并输出用于图像生成的新文本提示
体验
大约 2 分钟
它是一种文本到图像的扩散转换器,强大的多分辨率扩散变压器,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面树立了新的最先进水平。
通过查阅相关文档能够发现它其实就是基于 Stable Diffusion 实现的,它的增强点在于