大小:39.1G
更新时间:26-02-26
系统:Pc
版本:v4.11.1
stable diffusion是一种先进的深度学习模型,可以根据文本描述生成图像,简称为SD,对于新人来讲上手不易,为此小编带来了秋叶stable diffusion整合包,此版本以其开箱即用的设计理念,极大降低了AI绘画的入门门槛。用户只需解压整合包并运行启动器,就能自动完成环境搭建和模型安装。同时整合包内预装了基础资源和模型,节省用户寻找资源的时间。对界面进行汉化,同时整合常用插件,提升用户体验。还有支持多版本切换:通过绘世启动器,用户可轻松切换不同版本的Stable Diffusion模型。
一、准备工作
为了保证A绘画的效率,建议在本机安装Nvidia独立显卡,也就是俗称的N卡,并且显存要达到6G以上,6G只能出图,如果要做训练建议12G以上。推荐选择RTX40系列及以上的显卡型号,最低也要选择RTX30系列。如果你没有N卡,可以使用CPU进行图形计算,但是性价比较低,出图速度较慢。此外,还需要确保CPU性能足够高,并且搭配至少16G的内存。总的来说,如果只是进行简单的图形处理或者体验,可以使用CPU,但不适合搞Al绘画。
二、下载
下载本站提供的秋叶stable diffusion整合包,由于文件比较大,只需下载:启动器运行依赖-dotnet-6.0.11.exe和sd-webui-aki-v4.11.1-cu128.7z;
三、启动
1、安装驱动。这个整合包是由.NET6(就是一个软件基础平台)驱动的,大家需要先安装启动器运行依赖-dotnet6.0.11exe这个文件。
安装过.NET6的同学可以跳过这—步,不懂的再安装—遍也没问题。
2、解压sd-webui-aki-v4.11.1-cu128.7z”,选择—个最少有20G以上的磁盘,比如D盘,直接解压到D盘根目录就行了。然后进入解压后的文件夹sd-webui-aki-v4.11.1-cu128,双击"A启动器.exe”,它会自动下载一些最新的程序文件。可能还会弹出了“设置Windows支持长路径"”,确定就可以了。启动成功后,会打开下边这个界面。如果啥都做完了,也没打开这个界面,就再次双击这个文件或者以管理员身份运行。
3、之后点击“一键启动",然后会弹出一个控制台窗口,做一些初始化的操作,出现"Startup time ..."的提示就代表启动成功了。
4、然后会自动在浏览器中打开SD WebUI的窗口。不小心关了的时候,也可以用 htp/127.0.0.1.7860再次打开。打开的界面如下图所示:
四、出图
只需要简单5步:
1、Stable Diffusion模型: anything-v5,这个是整合包自带的默认大模型,不用选就是它。
2、外挂VAE模型:选择840000这个,这东西就像个滤镜,用它出图的颜色比较丰富。
3、提示词:想要画个什么,就在这里写,需要是英文。
4、反向提示词:不想要在图片中出现什么,就把它写在这里,这里填写的fEasyNegative"是整合包附带的一个通用反向提示词的代号。
5、其它参数先不管,点击“生成"按钮。
6、生成速度取决于你的计算机性能,等一会就会出图了。点击可以放大,右键可以下载。
除了在这个WebUl上直接下载图片,我们还可以通过启动工具下载,如下图所示,红框圈出的就是各种生成方式保存图片的位置,单击就可以打开本机目录。
Stable Diffusion实际上是一个相当复杂的系统,其中包含各种不同的模型模块。首先需要解决的问题是如何将人类理解的文字转换为计算机可理解的数学语言,毕竟计算机无法理解自然语言。这就需要一个文本理解器(text understander)来帮助进行转换。在生成图像之前,下图中蓝色的文本理解器首先将文本转换成某种计算机能够理解的数学表示:
1、图片信息生成器
上图粉色的模块是Stable Diffusion与别的Diffusion模型最大的区别之一,也是SD性能提升的着急之一。首先,需要明确一点:图片信息生成器不直接生成图片,而是生成较低维度的图片信息,即所谓的隐空间信息(latent space information)。在下图中,这个隐空间信息被表示为粉色的 4x3 的方格,随后将这个隐空间信息输入到下图中黄色的解码器中,就可以成功生成图片了。Stable Diffusion主要引用的论文“latent diffusion”中的latent一词也来自于隐变量中的“latent”。
一般的Diffusion模型直接生成图片,而不会有先生成隐变量的过程,因此普通的Diffusion在这一步上需要生成更多的信息,负荷也更大。因此之前的Diffusion模型在速度和资源利用上都不如Stable Diffusion。技术上来说,这个图片隐变量是如何生成的呢?实际上,这是由一个Unet和一个Schedule算法共同完成的。Schedule算法控制生成的进度,而Unet则负责一步一步地执行生成的过程。在Stable Diffusion中,整个Unet的生成迭代过程大约需要重复 50~100 次,隐变量的质量也在这个迭代的过程中不断地改善。下图中粉色的Image Information Creator左下角的循环标志也象征着这个迭代的过程。
2、图片解码器

图片解码器,从图片信息生成器(Image Information Creator)中接收图片信息的隐变量,然后将其升维放大(upscale),还原成一张完整的图片。图片解码器只在最后的阶段起作用,也是我们能获得一张真实图片的最终过程。
现在让更具体地了解一下这个系统中输入输出的向量形状,这样对Stable Diffusion的工作原理应该能有更直观的认识:
- 文本编码器(蓝色模块)功能:将人类语言转换成机器能理解的数学向量。输入:人类语言;输出:语义向量(77,768)。 - 图片信息生成器(粉色模块)功能:结合语义向量,逐步去除噪声,生成图片信息的隐变量。输入:噪声隐变量(4,64,64)+语义向量(77,768);输出:去噪的隐变量(4,64,64)。
- 图片解码器功能:将图片信息的隐变量转换为一张真正的图片。输入:去噪的隐变量(4,64,64);输出:一张真正的图片(3,512,512)。
大概流程中的向量形状变化就是这样。至于语义向量的形状为什么是奇怪的(77,768),会在后面讲到文本编码器里的CLIP模型时解释。
1、模型(Model)
模型可以理解为一个函数,接受一系列参数作为输入,并生成相应的输出。在这里,模型接收一些参数(如提示词、反向提示词、图片尺寸、提示词引导系数、随机数种子等),并返回生成的图像数据。
2、大模型(Big Model)
大模型通常称为基础模型,其文件大小通常在2GB至5GB之间。这些模型经过大量数据的训练,具有数十亿、甚至上百亿个参数。SD官方发布了一个通用的大模型,但由于其通用性,不能满足所有需求。因此,许多组织或个人会训练特定领域的模型,并将其发布到社区供大家使用。
3、VAE模型(Variational Autoencoder Model)
VAE模型类似于图片编辑软件中的滤镜,可以增强图像的色彩和线条,使图像看起来更加丰富。一些大模型可能已经集成了VAE模型,但用户也可以选择添加一个额外的VAE模型。常用的VAE模型之一是编号为840000的模型,用于增强图像的色彩。
4、Lora模型
Lora模型是基于大模型的风格模型,用于控制图像的风格和特征。例如,在绘制人物时,可以使用Lora模型控制服装和头饰的样式;在绘制机械四肢时,可以使用Lora模型强调机甲样式;在绘制风景时,可以使用Lora模型控制绘画风格。
5、提示词(Prompt)
提示词用于描述期望生成的图像内容。例如,描述场景、人物或物体的特征。良好的提示词对于生成所需的图像至关重要。
6、反向提示词(Negative Prompt)
反向提示词用于描述不希望在生成图像中出现的内容。例如,排除特定物体或场景。使用通用的反向提示词可以简化此过程。
7、随机数种子(Random Seed)
随机数种子影响生成图像的随机性。即使其他参数相同,不同的随机数种子也会产生不同的图像。这使得每次生成的图像都具有一定的差异,增加了创作的多样性。
应用信息
同类热门
猜你喜欢
类似软件
游戏人工智能编程案例精粹53.61M366人在用 游戏人工智能编程案例精粹是一本讲述如何使游戏角色具有人工智能的著作。对比传统游戏人工智能介绍,该书具有实例丰富、语言幽默的特点,能够帮助用户学会创建适合于各种游戏类型主要行为的、具有有趣的和挑战性的人工智能的必要技术,从而对游戏人工智能的关键领域具
查看热门标签
网友评论2人参与,1条评论
最新排行
SwiftScribe(百度AI音频转录平台)1Kv1.0英语测试版 SwiftScribe(百度AI音频转录平台)是由百度美国公司研发的一个人工智能网页应用平台,它是一个让用户能快速将音频快速转成文字的免费网页工具。SwiftScribe依托于百度新一代深度语音识别系统Deep Speech 2,通过利用长达数千小
查看
第1楼 中国–广东–梅州移动 网友
管理员 回复