
Stable DiffusionはイギリスのスタートアップStability AIが、ミュンヘン大学のCompVisグループ、Runway、LAIONらと協力して開発した潜在拡散モデル(Latent Diffusion Model, LDM)である。2022年8月22日にモデル重みをオープンソースとして公開し、これがText-to-Image生成AIを一気に大衆化させた歴史的事件となった。DALL-E 2やMidjourneyと並んで画像生成AIの三本柱と呼ばれ、ローカルGPUでも動かせる手軽さからクリエイティブ界隈で爆発的に普及した。本記事では仕組み、歴史、エコシステム、そして他モデルとの比較を順に見ていく。
この記事の目次
- Stable Diffusionを支える3つの仕組み
- v1.4からSDXL、SD3への進化
- 周辺ツールとカスタマイズ手法
- DALL-E 3、Midjourneyとの比較
- まとめ
Stable Diffusionを支える3つの仕組み

Stable Diffusionの基本原理は「拡散モデル(Diffusion Model)」だ。ランダムノイズから始めて、学習済みU-Netが少しずつノイズを除去し、最終的に意味のある画像を浮かび上がらせる。原理自体は2020年のDDPM論文(Ho et al.)で確立されており、Stable Diffusionの新規性は「潜在空間で拡散させる」点にあった。
通常の拡散モデルは512x512ピクセルのRGB画像をそのまま扱うため計算が重いが、StabilityAIらは画像をVAE(変分オートエンコーダ)で64x64程度の潜在空間に圧縮してから拡散させる方式を採った。これによりVRAM 6〜8GB程度の家庭用GPUでも動作可能になり、テキスト条件付けはOpenAIのCLIPテキストエンコーダで行われる。「軽量・オープン・ローカル動作」というクリエイター歓喜の三拍子が揃ったのである。
v1.4からSDXL、SD3への進化

2022年8月にStable Diffusion 1.4が公開されると、Hugging FaceやAUTOMATIC1111製のWebUIを通じて世界中のクリエイターが一気に飛びついた。同年10月に1.5、11月に2.0、12月に2.1とハイペースで版を重ねた。
2023年7月にはSDXL 1.0が登場し、解像度1024x1024をデフォルトに、人物の指の破綻や文字の崩れが大幅に改善された。2024年6月公開のStable Diffusion 3はトランスフォーマー型アーキテクチャ「Multimodal Diffusion Transformer(MMDiT)」を採用し、テキスト追従性と複数オブジェクトの構図再現で従来比大幅に向上した。オープン公開の判断やライセンス変更などで議論を呼ぶこともあったが、生成AI画像の歴史を作り続けている。
周辺ツールとカスタマイズ手法

Stable Diffusionの普及を後押ししたのが、無償で公開された各種ローカルUIだ。AUTOMATIC1111のWebUIは初心者向けに洗練されたGradioインターフェースを提供し、ComfyUIはノードベースで複雑なパイプラインを組める。Stability MatrixやEasyDiffusionなどデスクトップアプリの選択肢も豊富になった。
カスタマイズの中心はLoRA(Low-Rank Adaptation)とControlNetだ。LoRAは数百MB程度の軽量モデルで特定の絵柄やキャラクターを追加学習でき、ControlNet(2023年2月、スタンフォードのZhang氏ら発表)はポーズや線画から構図を強制制御する。学習済みモデルや派生モデルを共有するCivitaiやHugging Face Hubには、何万件ものLoRAやチェックポイントが公開されており、エコシステム全体が活況を呈している。
DALL-E 3、Midjourneyとの比較

OpenAIのDALL-E 3はChatGPTから直接呼べる手軽さ、Midjourney V6はDiscordベースで初心者でも美麗な絵が出せるという強みがあり、ともにクローズドサービスである。Stable Diffusionの強みは「重みを自分で持てる」「商用利用条件次第ではローカルで完全運用できる」「LoRA等で独自学習を施せる」という自由度の高さだ。
ただし最新版のライセンスは公開ごとに変わり、Stable Diffusion 3 Mediumの公開時は商用利用条件が議論を呼んだ。FLUX.1(Black Forest Labs、2024年8月)など競合オープンモデルも台頭しており、生成AI画像のオープン化潮流は今も流動的である。プロジェクトに採用する際は、最新のライセンスと運用要件を必ず公式情報で確認したい。
まとめ
Stable Diffusionは2022年8月の公開で画像生成AIを一気に民主化し、クリエイティブ業界の常識を塗り替えた。潜在拡散モデルという仕組みと、AUTOMATIC1111やComfyUI、LoRA、ControlNetといった周辺ツール群が織りなすエコシステムは唯一無二だ。オープンなAI画像生成の流れを追うなら、まずSDの基本と各派生モデルを押さえておくとよい。
※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

コメント