MENU

FLUX.1とは|Stable Diffusion作者陣による新世代画像AI

FLUX.1 アイキャッチ
FLUX.1

FLUX.1は2024年8月にBlack Forest Labsが公開した画像生成モデル群で、Stable Diffusionのオリジナル開発者であるRobin Rombach氏、AndreasBlattmann氏、Dominik Lorenz氏らが2024年3月に設立した同社が手がけています。120億パラメータの大規模モデルで、Flow MatchingとRectified Flowを採用し、SD3を凌ぐ画質と指示忠実度を実現。Pro・Dev・Schnellの3グレードで公開され、Devがopen-weights(非商用ライセンス)、Schnellがオープンソース(Apache 2.0)として配布される点も話題を集めました。

目次

この記事の目次

  1. Black Forest Labs設立の背景
  2. Flow Matchingという新世代アーキテクチャ
  3. Pro・Dev・Schnellの3モデル戦略
  4. コミュニティの反応と競合との位置づけ
  5. まとめ

Black Forest Labs設立の背景

Black Forest Labs設立の背景

Black Forest Labsはミュンヘンに本拠を置くドイツのAIスタートアップで、Stable Diffusionを生み出したRobin Rombach氏らがStability AIを離れて創業しました。社名のBlack Forestはドイツ南西部の森林地帯シュヴァルツヴァルトに由来します。2024年8月にAndreessen Horowitzリードで3100万ドルのシード調達を発表、その後も追加資金を集めており、独立系の生成AI研究所として急成長中です。

Stability AIは2023年から2024年にかけて経営層の混乱(CEO EmadMostaque氏の退任など)が続き、コアメンバーの離脱が相次ぎました。Rombach氏らはハイデルベルク大学CompVis研究室でLatent DiffusionModels論文を執筆した張本人で、Stable Diffusionの設計思想を受け継ぎつつ、独立した環境で次世代モデルを開発する道を選んだ形です。FLUX.1は彼らの初のフラグシップとなりました。

Flow Matchingという新世代アーキテクチャ

Flow Matchingという新世代アーキテクチャ

FLUX.1の技術的核心はFlow Matchingと呼ばれる連続時間生成モデルの手法です。従来の拡散モデル(DDPM・DDIM)が離散時間ステップでノイズ除去を学習するのに対し、Flow Matchingはノイズと画像を結ぶ確率流(probability flow)のベクトル場を直接学習します。これにより少ないステップで高品質な生成が可能になり、推論速度と画質の両立を実現しています。

アーキテクチャ的にはMM-DiT(Multimodal Diffusion Transformer)とPallaiterative Streamingの組み合わせで、SD3で部分採用されたものをさらに拡張しています。テキストエンコーダはCLIPとT5-XXLの併用でプロンプト理解力を高め、120億パラメータの大規模化により細部の作り込みと意味的整合性を両立。手の指の本数や英文字の表記など、従来モデルが苦手としていた領域で明確な改善が見られます。

Pro・Dev・Schnellの3モデル戦略

Pro・Dev・Schnellの3モデル戦略

FLUX.1は3つのグレードで提供されます。FLUX.1 [pro]は最高性能版で、Black Forest Labs公式API(BFL API)、Replicate、fal.ai、Together AI経由のAPIサービスとして提供され、商用利用が認められます。FLUX.1[dev]はopen-weightsで重みが公開されるものの非商用ライセンスで、研究・個人利用に限られます。FLUX.1 [schnell]はApache 2.0の完全オープンソースで、4ステップ推論に最適化された高速版です。

このティア構成はオープンとクローズドのバランスを取るビジネスモデルとして注目されています。商用利用はAPIで収益化、コミュニティにはSchnellで開放、研究者にはDevで重み公開、という棲み分けが明確で、Stability AIの全公開路線からの方針転換でもあります。2024年11月にはFLUX1.1 [pro]とFLUX.1 Tools(Fill・Depth・Canny・Redux)が追加リリースされ、ControlNet相当の機能や画像変換ツールが純正提供されるようになりました。

コミュニティの反応と競合との位置づけ

コミュニティの反応と競合との位置づけ

FLUX.1の公開はStable Diffusion界隈で熱狂的に迎えられました。SD3 Medium(2024年6月)のリリースが期待外れと評された直後だったことも追い風となり、ComfyUIやAUTOMATIC1111向けの対応が即日進み、Civitaiでは公開数週間で数千のLoRAやFLUX対応ワークフローが流通しました。特にFLUX.1 [dev]はSDXLからの乗り換え先として有力視されています。

競合との比較では、Midjourney v6.1の芸術性、DALL·E 3の指示忠実度、Ideogram 2.0の文字描写と並ぶ第一線モデルと評価されます。特に文字(英文)を画像内に正確に描く能力はDALL·E 3に並び、Midjourneyを上回るとされています。Pro版でも1枚あたり0.025〜0.055ドル(API)と料金が抑えめで、業務利用の選択肢として急浮上中です。今後のロードマップでは動画生成への展開も予告されており、SoraやVeo 2との競合が始まる見込みです。

まとめ

FLUX.1はStable Diffusion作者陣が独立後に放った意欲作で、Flow Matchingという新アーキテクチャと120億パラメータの規模で画質・指示忠実度の両面で業界トップクラスに位置します。Pro・Dev・Schnellの3グレード戦略はオープンとクローズドのバランスを取るビジネスモデルとして注目され、コミュニティと商用の両輪を回す巧みな設計が今後の生成AI業界にも影響を与えるでしょう。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次