type
status
date
slug
summary
tags
category
icon
password
什么是Stable diffusion
Stable Diffusion是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。
光看名词可能很难理解,这个是什么意思。
我们先来了解什么叫扩散模型。
扩散模型分两种:
- 前向扩散
前向扩散,就像一滴墨水滴入一杯水中。墨滴在水中扩散。几分钟后,它随机分布在整个水中。你再也无法判断它最初是落在中心还是靠近边缘。
这个没什么太大难度,就是向图片变成噪声图像
- 反向扩散
反向扩散,这个才是我们的重点,就是像向后播放视频、有时光倒流的魔法一样,将上面水杯中的墨水给恢复到滴落前的状态。
像上面的猫猫图片,我们只需要告诉这个我们需要生成一张猫猫,AI模型就能根据前面的正向扩散训练得来的数据,逆向去还原图片
但是这个训练非常复杂,需要很强的算力支持。其中
Stable diffusion
就是目前需要的算力不是那么强的方案,可以在普通家用机上部署运行。显卡显存在4G以上,都可以部署(当然还有CPU支持的版本,不过运行效率会比较低)
这样就不再受任何限制来生成自己想要的图片了
安装Stable diffusion
要使用Stable diffusion,现在有一套开源的
stable-diffusion-webui
安装好了之后即可使用了stable-diffusion-webui
开源仓库地址:1.Windows秋叶一键启动版(强烈推荐)
使用教程:
一键即可启动
2.Docker安装
Git仓库地址:
如果有Docker环境,使用docker-compose也可以很轻松的完成安装
3.从源码安装
从官方仓库:
需要使用
Python 3.10.6
安装好相关环境依赖后,也可以运行起来
Stable diffusion能做什么
1.文字生成图片
在开始使用文生图之前,有必要了解以下几个参数的含义:
参数 | 说明 |
Prompt | 提示词(正向) |
Negative prompt | 消极的提示词(反向) |
Width & Height | 要生成的图片尺寸。尺寸越大,越耗性能,耗时越久。 |
CFG scale | AI 对描述参数(Prompt)的倾向程度。值越小生成的图片越偏离你的描述,但越符合逻辑;值越大则生成的图片越符合你的描述,但可能不符合逻辑。 |
Sampling method | 采样方法。有很多种,但只是采样算法上有差别,没有好坏之分,选用适合的即可。 |
Sampling steps | 采样步长。太小的话采样的随机性会很高,太大的话采样的效率会很低,拒绝概率高(可以理解为没有采样到,采样的结果被舍弃了)。 |
Seed | 随机数种子。生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。 |
接下来我们来生成一张赛博朋克风格的猫咪图片,配置以下参数后,点击 "Generate" 即可:
这里用的是官方默认的模型,效果可能不是很好
这里来给大家介绍一下现在流行的,写实风格模型:
Chilloutmix
我们先来尝试一下简单的效果
将我上面的内容直接copy过去
要想效果好,现在一般都会采用附加Lora模型
Lora模型下载网站:https://civitai.com/
这里我们使用:Cute_girl_mix4
下载好模型:
将模型放入:
xxx\models\Lora
在网页选择模型
填入刚刚网站上找一找你喜欢的图片,复制的参数(注意模型的版本不一样可能和样图有区别):
先点击应用参数,然后再生成
剩下的大家可以自行前往体验
更多的提示语:https://tags.novelai.dev/
更多的模型网站:https://pixai.art/
2.图生图
这里就简单的介绍一下吧
就是以你提供的图片为基础,然和和文本一起,填写相关的提示词,生成更多的图片
我在上面的例子里,稍微改了一些生成相关的参数
这样就得到了大量的类似图片
3.高级用法-训练自己的模型
有兴趣的可以参考:
就正如上面从网站上下载的lora模型一样,其实都是别人提供图片素材训练好的
我们也可以根据我们自己的画风、美术素材,去针对性的训练符合自己要求的模型,用来帮助我们更好的产出美术资源
- 作者:PolarisAspire
- 链接:https://lpolaris.com//article/unitysd
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。