Stable-diffusion AI入门 | Polaris的小站

type

status

date

slug

summary

什么是Stable diffusion

Stable Diffusion是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model; LDM）。

光看名词可能很难理解，这个是什么意思。

我们先来了解什么叫扩散模型。

扩散模型分两种：

前向扩散，就像一滴墨水滴入一杯水中。墨滴在水中扩散。几分钟后，它随机分布在整个水中。你再也无法判断它最初是落在中心还是靠近边缘。

这个没什么太大难度，就是向图片变成噪声图像

反向扩散，这个才是我们的重点，就是像向后播放视频、有时光倒流的魔法一样，将上面水杯中的墨水给恢复到滴落前的状态。

像上面的猫猫图片，我们只需要告诉这个我们需要生成一张猫猫，AI模型就能根据前面的正向扩散训练得来的数据，逆向去还原图片

但是这个训练非常复杂，需要很强的算力支持。其中 Stable diffusion 就是目前需要的算力不是那么强的方案，可以在普通家用机上部署运行。

显卡显存在4G以上，都可以部署（当然还有CPU支持的版本，不过运行效率会比较低）

这样就不再受任何限制来生成自己想要的图片了

要使用Stable diffusion，现在有一套开源的 stable-diffusion-webui 安装好了之后即可使用了

stable-diffusion-webui 开源仓库地址：

使用教程：

一键即可启动

Git仓库地址：

如果有Docker环境，使用docker-compose也可以很轻松的完成安装

从官方仓库：

需要使用 Python 3.10.6

安装好相关环境依赖后，也可以运行起来

在开始使用文生图之前，有必要了解以下几个参数的含义：

参数	说明
Prompt	提示词（正向）
Negative prompt	消极的提示词（反向）
Width & Height	要生成的图片尺寸。尺寸越大，越耗性能，耗时越久。
CFG scale	AI 对描述参数（Prompt）的倾向程度。值越小生成的图片越偏离你的描述，但越符合逻辑；值越大则生成的图片越符合你的描述，但可能不符合逻辑。
Sampling method	采样方法。有很多种，但只是采样算法上有差别，没有好坏之分，选用适合的即可。
Sampling steps	采样步长。太小的话采样的随机性会很高，太大的话采样的效率会很低，拒绝概率高(可以理解为没有采样到,采样的结果被舍弃了)。
Seed	随机数种子。生成每张图片时的随机种子，这个种子是用来作为确定扩散初始状态的基础。不懂的话，用随机的即可。