首页 > 生活服务 > 读书学习

读书学习

comfyui之模型

管理员 11月前 64浏览

一、SD 基础模型介绍

1、SD 1.x:这是Stable Diffusion的早期版本,主要用于图像生成任务。这里的1.x表示1系列的主要版本,x是一个变量,表示具体的子版本。

2、SD 2.x:这是SD 1.x的后续版本,对模型进行了优化和改进,提高了图像生成质量和速度。同样,2.x表示2系列的主要版本,x是一个变量,表示具体的子版本。

3、SD 1.5:这是一个在SD 1.x基础上进行优化的版本,它在文本到图像生成任务上表现尤为出色,能够生成更符合用户需求的图像。

4、SDXL 1.0:这是一个在SD 1.5基础上进一步优化的版本,采用了一种名为“对抗性扩散蒸馏”(Adversarial Diffusion Distillation,简称ADD)的新技术,使得模型能够在保持高采样保真度的同时实现实时图像生成。

5、SDXL Turbo:它是在SDXL 1.0的基础上进行迭代的版本。特点是生成图像的效率非常高,几乎可以做到实时响应。目前SDXL Turbo只能用于学术研究,还未开放商业权限。

6、SDXL Lightning:它是字节跳动发布的生成式AI模型,采用渐进式对抗蒸馏技术,实现了快速、高质量的图像生成。

image.png

Stable Cascade

是基于Würstchen架构的,与其它模型(如Stable Diffusion)的主要区别在于它在一个更小的潜在空间中工作。为什么这很重要呢?潜在空间越小,您运行推理的速度越快,训练成本也越低。潜在空间有多小呢?Stable Diffusion使用8的压缩因子,将1024x1024的图像编码为128x128。Stable Cascade实现了42的压缩因子,这意味着可以将1024x1024的图像编码为24x24,同时保持清晰的重建。在高度压缩的潜在空间中,然后训练文本条件模型。这种架构的先前版本,将Stable Diffusion 1.5的成本降低了16倍。

生成原理:

Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。输入提示词后,Stage C 模型会根据文本生成 24*24 的低分辨率潜像,输入到 Stage B 模型中放大,然后输入到 Stage A 模型中再度放大,并转换为像素空间,最后生成图像。

优势:

这种分阶段的架构模式使得 Stable Cascade 在生成图像时更加灵活且高效。一方面,每个阶段使用不同大小的模型,可以让用户根据自己的硬件条件选择合适的模型,降低了硬件要求。另一方面,不同阶段模型能够单独训练或微调,进而让模型更好地适应不同任务和需求。

1步、2步、4步、8步 生成1024px图像

结合渐进式与对抗式蒸馏

开源、兼容 LoRA 插件

支持风格化或特定主题生成


8fcf5dd2624aebb03ccb6e2e769a0559_76cd39655f05ad00727b9656887f2b74.jpg

模型存放位置:

模型存放地址ComfyUI\models\unet
CLIP存放地址ComfyUI\models\clip
stage_a放在ComfyUI\models\vae


下载地址:https://huggingface.co/ByteDance/SDXL-Lightning/tree/main

image.png

横向比较:

Stable Cascade 与几乎所有模型比较中在 prompt 对齐和美学质量方面表现最佳。下图显示了使用混合的 parti-prompts 和美学提示进行人类评估的结果:


Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较


Stable Cascade、SDXL、Playground v2 和 SDXL Turbo 之间的推理速度差异

Stable Cascade 对效率的重视通过其架构和更高的压缩潜在空间得到了证明。尽管最大的模型比 Stable Diffusion XL 多出 1.4B 参数,但它仍然具有更快的推理时间。





二、以SD 基础模型进行训练和优化的模型的命名规则

通常看到的就两种:safetensors和ckpt,此外还有.pt 或 .pth。

1、safetensors是一种模型文件格式,这种格式是专门为Stable Diffusion模型设计的,具有较小的文件体积和较快的加载速度。safetensors文件只包含模型的权重,而不包含优化器状态或其他信息,通常用于模型的最终版本,当我们只关心模型的性能,而不需要了解训练过程中的详细信息时,这种格式是一个很好的选择。

2、.ckpt:这是一种Checkpoint(检查点)格式的模型文件,用于保存模型的权重和优化器的状态。这种文件格式在训练过程中生成,可以用来恢复训练或调整模型。ckpt模型文件通常较大,因为它们包含了训练过程中的中间状态。

3、.pt 或 .pth:这些文件格式通常用于PyTorch模型,其中.pt表示PyTorch张量(Tensor),而.pth表示PyTorch模型参数。这些文件包含了模型的权重和结构信息,但不包含优化器状态。

在选择模型的存储格式时,需要根据使用场景来决定。例如,如果你需要进行模型微调,或者需要在训练过程中获得详细的信息,Checkpoint格式(.ckpt)可能是更好的选择。而对于那些仅需要快速加载和执行模型的场景,safetensors可能是更好的选择。

三、LCM模型介绍

Latent Consistency Models(潜一致性模型)是一个以生成速度为主要亮点的图像生成架构。和需要多步迭代传统的扩散模型(如Stable Diffusion)不同,LCM仅用1 - 4步即可达到传统模型30步左右的效果。由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明,LCM将文生图生成速度提升了5-10倍。(其刚出来,就被上文提到的SDXL Turbo直接碾压,以后有机会再详细说)。





Stable Diffusion模型或风格的示例

Realistic Vision:逼真的照片风格,能够生成看起来非常真实的图像。

Anything v3:动漫风格,专注于生成具有动漫或卡通特点的图像。

Dreamshaper:写实绘画风格,能够生成具有绘画质感的图像。



版权声明:本文为原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
关注微信公众号:"cq_xifan";

评论

收藏

评论列表

  • 这篇文章还没有收到评论,赶紧来抢沙发吧~

Powered By 重庆饭哥 © 2014-2022 教学资源分享站 渝ICP备20005643号-1

相信有一天,理想主义终将所向披靡.

Design by © 2021 XIFAN. Powered by 重庆饭哥

站点声明: 本站转载作品版权归原作者及来源网站所有,原创内容作品版权归作者所有,任何内容转载、商业用途等均须联系原作者并注明来源。

友情链接: 官方网站 饭哥在线工具 饭哥导航 在线运行 博客交流社区 重庆艺术工程职业学院