它是一种文本到图像的扩散转换器,强大的多分辨率扩散变压器,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面树立了新的最先进水平。
通过查阅相关文档能够发现它其实就是基于 Stable Diffusion 实现的,它的增强点在于
- 结合了预先训练的双语(英语和中文)CLIP 和多语言 T5 编码器
- 执行多轮对话和图像生成的能力,训练 MLLM 来理解多轮用户对话并输出用于图像生成的新文本提示
体验
大约 2 分钟
它是一种文本到图像的扩散转换器,强大的多分辨率扩散变压器,与其他开源模型相比,Hunyuan-DiT 在中文到图像生成方面树立了新的最先进水平。
通过查阅相关文档能够发现它其实就是基于 Stable Diffusion 实现的,它的增强点在于
我们先想一下自己为什么要学习AI绘画,无非就是想要得到符合我们需要的图像。那么如何通过AI得到我们脑海中期待的画面呢? 这时候就要了解Controlnet,中文名我们通常称为 “控制网络” ,通过它我们可以得到一些控制更为精准的图像。
提示词是以文字的方式去告诉AI我要什么东西,而Lora则是在原有流程上进行了一定微调,具体调整方向以及力度由Lora模型和强度参数有关,本节要讲的Controlnet的作用则是更加精细化地控制输出,至于具体的作用跟选择的预处理器有关,预处理器也是与前面两者(提示词/Lora)的最大区别所在,由一定的学习成本。