一、SD 基础模型介绍
1、SD 1.x:这是Stable Diffusion的早期版本,主要用于图像生成任务。这里的1.x表示1系列的主要版本,x是一个变量,表示具体的子版本。
2、SD 2.x:这是SD 1.x的后续版本,对模型进行了优化和改进,提高了图像生成质量和速度。同样,2.x表示2系列的主要版本,x是一个变量,表示具体的子版本。
3、SD 1.5:这是一个在SD 1.x基础上进行优化的版本,它在文本到图像生成任务上表现尤为出色,能够生成更符合用户需求的图像。
4、SDXL 1.0:这是一个在SD 1.5基础上进一步优化的版本,采用了一种名为“对抗性扩散蒸馏”(Adversarial Diffusion Distillation,简称ADD)的新技术,使得模型能够在保持高采样保真度的同时实现实时图像生成。
5、SDXL Turbo:它是在SDXL 1.0的基础上进行迭代的版本。特点是生成图像的效率非常高,几乎可以做到实时响应。目前SDXL Turbo只能用于学术研究,还未开放商业权限。
6、SDXL Lightning:它是字节跳动发布的生成式AI模型,采用渐进式对抗蒸馏技术,实现了快速、高质量的图像生成。
Stable Cascade
是基于Würstchen架构的,与其它模型(如Stable Diffusion)的主要区别在于它在一个更小的潜在空间中工作。为什么这很重要呢?潜在空间越小,您运行推理的速度越快,训练成本也越低。潜在空间有多小呢?Stable Diffusion使用8的压缩因子,将1024x1024的图像编码为128x128。Stable Cascade实现了42的压缩因子,这意味着可以将1024x1024的图像编码为24x24,同时保持清晰的重建。在高度压缩的潜在空间中,然后训练文本条件模型。这种架构的先前版本,将Stable Diffusion 1.5的成本降低了16倍。
生成原理:
Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。输入提示词后,Stage C 模型会根据文本生成 24*24 的低分辨率潜像,输入到 Stage B 模型中放大,然后输入到 Stage A 模型中再度放大,并转换为像素空间,最后生成图像。
优势:
这种分阶段的架构模式使得 Stable Cascade 在生成图像时更加灵活且高效。一方面,每个阶段使用不同大小的模型,可以让用户根据自己的硬件条件选择合适的模型,降低了硬件要求。另一方面,不同阶段模型能够单独训练或微调,进而让模型更好地适应不同任务和需求。
1步、2步、4步、8步 生成1024px图像
结合渐进式与对抗式蒸馏
开源、兼容 LoRA 插件
支持风格化或特定主题生成
模型存放位置:
模型存放地址ComfyUI\models\unet CLIP存放地址ComfyUI\models\clip stage_a放在ComfyUI\models\vae
下载地址:https://huggingface.co/ByteDance/SDXL-Lightning/tree/main
横向比较:
Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:
Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较
Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异
Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。
二、以SD 基础模型进行训练和优化的模型的命名规则
通常看到的就两种:safetensors和ckpt,此外还有.pt 或 .pth。
1、safetensors是一种模型文件格式,这种格式是专门为Stable Diffusion模型设计的,具有较小的文件体积和较快的加载速度。safetensors文件只包含模型的权重,而不包含优化器状态或其他信息,通常用于模型的最终版本,当我们只关心模型的性能,而不需要了解训练过程中的详细信息时,这种格式是一个很好的选择。
2、.ckpt:这是一种Checkpoint(检查点)格式的模型文件,用于保存模型的权重和优化器的状态。这种文件格式在训练过程中生成,可以用来恢复训练或调整模型。ckpt模型文件通常较大,因为它们包含了训练过程中的中间状态。
3、.pt 或 .pth:这些文件格式通常用于PyTorch模型,其中.pt表示PyTorch张量(Tensor),而.pth表示PyTorch模型参数。这些文件包含了模型的权重和结构信息,但不包含优化器状态。
在选择模型的存储格式时,需要根据使用场景来决定。例如,如果你需要进行模型微调,或者需要在训练过程中获得详细的信息,Checkpoint格式(.ckpt)可能是更好的选择。而对于那些仅需要快速加载和执行模型的场景,safetensors可能是更好的选择。
三、LCM模型介绍
Latent Consistency Models(潜一致性模型)是一个以生成速度为主要亮点的图像生成架构。和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 - 4步即可达到传统模型30步左右的效果。由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图生成速度提升了5-10倍。(其刚出来,就被上文提到的SDXL Turbo直接碾压,以后有机会再详细说)。
Stable Diffusion模型或风格的示例
Realistic Vision:逼真的照片风格,能够生成看起来非常真实的图像。
Anything v3:动漫风格,专注于生成具有动漫或卡通特点的图像。
Dreamshaper:写实绘画风格,能够生成具有绘画质感的图像。
版权声明:本文为原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
关注微信公众号:"cq_xifan";