当前位置：网站首页 >AI教程资讯 >正文

Stable Diffusion 3开源秒翻车，画人好掉san

来源：爱论文时间：2025-07-07 14:50:46

没想到……Stable Diffusion 3开源即出现翻车案例。

生成一个躺在草地上的女孩，结果长这样？

而且不是个例，只要是和人（整体）相关的内容，生成结果都有点掉san。

（前方高能）

但如果是局部，比如只生成人脸，确实很nice。

清晰度、写字、写实性等方面都有明显提升。

对于复杂长提示词的理解也很到位，有网友发现提示越长它画的越好。

那么问题来了，为啥偏偏画不好人类？

01 问题可能在于数据集

先来看看SD3开源的具体情况。

本次开源的版本是Stable Diffusion 3 Medium（中杯）。

它的规模为20亿参数，在笔记本上就能跑了。

官方强调的属性有5方面，逐一来看：

整体质量和写实性

可生成出色的细节，包括色彩、光线、强写实等，带来灵活风格的高质量输出。

通过16通道VAE，成功解决了其他模型的常见缺陷，比如手部和面部的写实问题。

提示词理解

可以理解复杂长提示，包含空间推理、元素组合、动作、风格等。3个文本编码器可以全部或者组合使用，方便用户平衡性能和显存。

有效利用资源

对VRAM占用很低，非常适合在消费级GPU上运行，且性能不降低。

微调

能够利用小数据集微调，方便定制化。

目前在Hugging Face上已经可以下载模型权重。非商业用途可免费下载使用，商业用途需要先拿授权。

那么为啥升级后还是会翻车？

有人发现，如果细看“躺在草坪上的女孩”这张图像，会发现它在局部细节上确实还可以，甚至很棒。

草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。

但人物整体就不敢恭维了。

不少网友都认为，这就是问题的关键。

我认为他们的NSFW过滤器，把所有人类图像都判定为了NSFW。

这个过滤器全称是filtering out adult content，作用在于过滤掉不合规的成人内容。

SD2发布时就出现过类似的问题，研究人员发现审查这部分内容可能影响了模型对人体结构的理解。

后面的SD2.1和SDXL版本有所缓解。

这次SD3的翻车，暴露了一个问题：过于严格的数据审核，可能误删了一些无害的成人图像，所以现在模型没法理解人体结构。

有网友就阴阳说，没多久之前SD还能和Midjourney竞争，现在一比，就像个笑话。

至少我们的数据集是安全和合乎道德的。

Reddit上“SD3-2B发布是个笑话吗”的帖子，热度已经冲到了800+。

当然，除了技术以外的原因，还不少人觉得SD3的性能不佳更进一步暴露了Stability AI的内部混乱。

我猜他们现在可以安全合规地破产了。

02 欠债1亿、疑似求卖身

Stability AI的动荡，从SD3开源的一再延期就能窥见端倪。

2月发布模型后，一开始，官方说的是搞完RLHF就开源，结果大家伙等了3个多月，官方放出的还是只有API。直到现在，才开源了一个中杯版本。

与此同时，公司CEO Emad辞职+退出董事会。核心团队也被曝集体离职。

今年5月，据The Information消息，这家初创公司已经面临严重现金短缺：第一季度收入不到500万美元，而亏损超过了3000万美元。同时欠了云厂商和其他企业近1亿美元，“求卖身”的消息不断传出。

值得一提的是，消息称SD3还将开源更多版本，包括4B和8B。

不知道更大版本效果会如何呢？

上一篇：2024年的AI服务器，相当于2018年的新能源车

相关资讯更多+

Stable Diffusion 3开源秒翻车，画人好掉san
没想到……StableDiffusion3开源即出现翻车案例。生成一个躺在草地上的女孩，结果长这样？而且不是个例，只要是和人（整体）相关的内容，生成结果都有点掉san。（前方高能）但如果是局部，比如只生成人脸

AI教程资讯 2023-04-14
2024年的AI服务器，相当于2018年的新能源车
01什么是当下最尖端的科技？在谈到小米做智能电动车的核心原因时，雷军对外解释到：他通过调研痛苦地认识到智能手机肯定不是当下最尖端的科技了，最尖端的科技已经变成了智能电动汽车，如果不干肯定落伍，而且

AI教程资讯 2023-04-14
打通智能体「自我进化」全流程！复旦推出通用智能体平台AgentGym
AI通用智能体的自我进化能力，并非遥不可及。LLM-basedAgent，已经不再需要人类监督者的帮助，开始实现「自我进化」！这个智能体在学习了专家轨迹以后，获得了基础的通用能力，能够在更广泛、更真实的未知环境与

AI教程资讯 2023-04-14
Sora负责人揭秘技术探索之路：成功的研究者，往往没有经过传统的研究训练
2024年1月，Sora炸场，多模态赛道则迎来了真正的春天。OpenAI发布的视频模型Sora，不仅将视频生成长度的天花板从10秒抬高到了60秒，还让AI行业从大炼大语言模型，进入到新阶段：通过原生的多模态模型（而非多个

AI教程资讯 2023-04-14

最新录入更多+

Rask
学术论文丨 9.9MB
下载
SteveAI
学术论文丨 9.9MB
下载
Pictory
学术论文丨 9.9MB
下载
Elai.io
学术论文丨 9.9MB
下载
AVCLabs
学术论文丨 9.9MB
下载
Colossyan
学术论文丨 9.9MB
下载

热门推荐更多+

Magnitude – 开源 AI Agent 驱动的端到端测试框架

2025-04-27

AI专辑热门专辑

【AI教程资讯】 SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型 01-13
【AI教程资讯】 Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent 01-13
【AI教程资讯】 rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术 01-13
【AI教程资讯】 Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架 01-13
【AI教程资讯】万相2.1 – 通义万相最新推出的视频生成模型 01-13
【AI教程资讯】 ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架 01-13
【AI教程资讯】 MedRAG – 南洋理工团队推出的医学诊断模型 04-21
【AI教程资讯】 OpenAI o3 – OpenAI推出的新一代最强推理模型 01-23
【AI教程资讯】 Eino – 字节跳动开源的大模型应用开发框架 03-22
【AI教程资讯】 Search-o1 – 人大联合清华推出自主知识检索增强的推理框架 01-13

AI工具推荐更多+

1

Rask 9.9MB

AI视频本地化解决方案，支持超过130种语言
2

AiPPT 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
3

SteveAI 9.9MB

Animaker旗下AI在线视频制作工具
4

巨日禄AI故事绘图 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
5

笔灵AI写作 9.9MB

2025顶尖智能网页抓取工具排名-2025哪款网页抓取器效率最高
6

Pika 9.9MB

Pika是近期热门的人工智能初创公司Pika Labs推出的AI视频生成和编辑工具，该工具可以将任何创意转化为视频，用户只需输入文字或图像，即可快速生成3D动画、动漫、卡通、电影等风格的视频。

确定