MENU

DALL·Eとは|OpenAIが切り開いた画像生成AIの系譜

DALL·E アイキャッチ
DALL·E

DALL·E(ダリ)は、OpenAIが2021年1月に発表したテキストから画像を生成するマルチモーダルAIです。シュルレアリスム画家サルバドール・ダリと、Pixarのロボット映画WALL·Eを掛け合わせた名前で、12億パラメータのGPT-3派生モデルとして登場しました。2022年4月の続編DALL·E 2では拡散モデルへ路線変更し、1024×1024の高精細出力とインペインティング機能で世界を驚かせ、2023年10月のDALL·E 3はChatGPT統合により誰でもプロンプト設計を委ねられる存在に進化しています。

目次

この記事の目次

  1. GPT-3派生から拡散モデルへの転換
  2. DALL·E 3とChatGPTの密結合
  3. 安全策と著作権を巡る論点
  4. 競合との位置づけと将来像
  5. まとめ

GPT-3派生から拡散モデルへの転換

GPT-3派生から拡散モデルへの転換

初代DALL·EはGPT-3と同じデコーダ型Transformer構造を採用し、テキストトークンと画像トークンを連結して自己回帰的に画像を生成するアプローチでした。画像は離散VAEで32×32=1024トークンに圧縮され、テキストと合わせて1280トークン列として扱われます。「アボカドの形をしたアームチェア」のような意味的合成を初めて成功させたものの、解像度は256×256に留まり、複雑な構図では破綻も多く見られました。

2022年のDALL·E 2では設計思想が大きく変わり、CLIPの画像埋め込みを条件として拡散モデル(unCLIP)で画像を生成する2段階構造になりました。テキスト→CLIP埋め込みの変換にPrior、埋め込み→画像の生成にDecoderを置き、最後にアップサンプラで1024×1024へ拡大。これにより写実度が飛躍し、Outpaintingで画像外への描き足しやVariationsで類似バリエーション生成も可能になりました。

DALL·E 3とChatGPTの密結合

DALL·E 3とChatGPTの密結合

2023年10月に登場したDALL·E 3最大の特徴は、ChatGPTがプロンプト設計を肩代わりする点にあります。利用者が「夕暮れの東京タワー」と短く書くだけで、GPT-4が構図・光源・カメラアングル・スタイルを補完した長文プロンプトに書き換え、内部APIへ渡します。これにより呪文と揶揄されたプロンプトエンジニアリングの負荷が大幅に軽減され、テキスト指示への忠実度も従来比で大きく向上しました。

技術的にはT5系のテキストエンコーダと、より高品質なキャプションを付与した学習データセットの再構築が効いているとされ、論文Improving Image Generation with Better Captionsで詳述されています。Microsoft Copilotの画像生成、Bing Image Creator、Azure OpenAI Service経由でも利用でき、有料のChatGPT Plusでは1日あたりの生成枠が設定されつつ商用利用権も付与されます。

安全策と著作権を巡る論点

安全策と著作権を巡る論点

OpenAIはDALL·Eの公開当初から段階的アクセス制御を敷き、暴力・成人表現・実在の政治家描写などをポリシーで禁止しました。出力には透かし(C2PAメタデータ)を付与し、合成画像であることを機械的に検証できる仕組みも導入。学習データには公開ウェブ画像が含まれており、ニューヨーク・タイムズ社の提訴(2023年12月)など著作権訴訟の対象にもなっています。

アーティスト名の指定はDALL·E 3で部分的に制限され、存命作家のスタイル模倣リクエストは拒否される設定に変わりました。一方でオプトアウト窓口を設け、学習データから自作品を除外する申請を受け付けています。商用利用については規約で生成物の所有権が利用者に帰属すると明記されていますが、第三者の権利侵害責任は利用者側に残るため、ブランド用途では人間のレビューが欠かせません。

競合との位置づけと将来像

競合との位置づけと将来像

画像生成AI市場ではMidjourneyの芸術性、Stable Diffusionのオープン性、Adobe Fireflyの権利クリーン性が三つ巴を形成し、DALL·E 3はChatGPTという巨大な入口を持つ点で独自の位置にあります。プロンプトの自然言語理解と指示忠実度では業界トップクラスと評価される一方、写実的人物表現ではMidjourney v6に一歩譲り、細部の作り込みではFLUX.1 Proに迫られる構図です。

2024年以降OpenAIは動画生成のSoraへリソースをシフトしつつあり、DALL·E系列の単独アップデートは鈍化しています。代わりにGPT-4oのネイティブ画像生成機能が2025年に統合され、テキスト・画像・音声を単一モデルで扱う方向へ進化中です。今後DALL·EブランドがGPT-4o画像機能に吸収されるのか、独立路線を維持するのかはOpenAIの製品戦略を読み解く重要な観測点となります。

まとめ

DALL·EはテキストToImage領域を商業レベルに引き上げた先駆けであり、ChatGPT統合によって生成AIの大衆化を一気に進めた立役者でもあります。拡散モデルへの転換、プロンプト自動補完、C2PA透かしといった要素技術は業界標準を作り、後続モデルの設計指針にもなりました。Soraの登場で焦点は動画へ移りつつありますが、画像生成の歴史を語る上で外せない存在であり続けています。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次