MENU

VAEとは|確率的潜在変数で表現を学ぶ生成モデル

VAE アイキャッチ
VAE

VAE(Variational Autoencoder、変分オートエンコーダ)は、2013年にKingmaとWellingが提案した生成モデルで、入力データを確率分布として潜在空間に符号化し、そこからサンプリングして再構成する仕組みを持ちます。確率的グラフィカルモデルと深層学習を融合させた点に独自性があり、潜在空間の連続性と解釈性に優れることから、生成・表現学習・異常検知など幅広い分野で活用されています。本稿では基本構造、ELBO損失、応用、GANや拡散モデルとの比較までを整理します。

目次

この記事の目次

  1. エンコーダと潜在空間の確率的な符号化
  2. ELBO(変分下界)と二項の損失関数
  3. VAEの応用と派生モデル
  4. GAN・拡散モデルとの比較と現在の位置づけ
  5. まとめ

エンコーダと潜在空間の確率的な符号化

エンコーダと潜在空間の確率的な符号化

VAEは通常のオートエンコーダと異なり、入力データを単一の潜在ベクトルではなく確率分布として表現します。エンコーダは入力xから潜在変数zの平均と分散を出力し、その分布から実際のzをサンプリングします。デコーダは得られたzから元の入力を再構成し、再構成誤差を最小化するよう学習が進みます。これにより潜在空間が連続的に意味を持つ表現を獲得します。

サンプリングという確率的操作を含むため、そのままでは勾配が流れません。VAEはこの問題を「再パラメータ化トリック」で解決します。z=平均+分散×ε(εは標準正規分布からのサンプル)と書き換えることで、確率的サンプリングを決定的な変換に置き換え、誤差逆伝播を可能にしました。このアイデアは生成モデル全般に影響を与えた重要な技術的工夫です。

ELBO(変分下界)と二項の損失関数

ELBO(変分下界)と二項の損失関数

VAEの学習目標は、観測データの対数尤度を最大化することですが、潜在変数を含むモデルでは直接計算できないため、変分推論の枠組みでELBO(Evidence Lower Bound、変分下界)を最大化します。ELBOは再構成項とKLダイバージェンス項の二つに分解され、前者はデコーダが入力をどれだけ正確に復元できるかを、後者は近似事後分布が事前分布(通常は標準正規分布)にどれだけ近いかを評価します。

再構成項だけを強くすると潜在空間が散らばって生成が不安定になり、KL項を強くすると潜在変数が事前分布に潰れて情報を持たなくなる「posterior collapse」が起きます。両者のバランスを取るために、β-VAEのようにKL項の重みβを変えるアプローチや、KLウォームアップ、自由ビット制約などの工夫が提案されています。ELBOの理解はVAE系モデルを応用する上で必須の数学的基礎となります。

VAEの応用と派生モデル

VAEの応用と派生モデル

VAEは画像生成、表現学習、異常検知、半教師あり学習など多様な領域に応用されてきました。β-VAEは潜在空間の各次元が独立した意味を持つように学習を促す手法で、解釈可能な表現学習や因果推論との接続で注目されています。Conditional VAE(CVAE)は条件付きの生成を可能にし、画像セグメンテーションや音声合成、対話生成といった応用に役立ちます。

VQ-VAEは潜在変数を離散コードブックで表現するモデルで、DeepMindのWaveNetや音声合成、画像生成の中間表現として広く活用され、後のDALL-E 1の基盤にもなりました。製造業の異常検知や医療画像のサーベイランスでは「正常データだけで学習し、再構成誤差が大きい入力を異常とみなす」という運用が定番です。VAEの「分布として表現する」という考え方は応用範囲が非常に広いのが特徴です。

GAN・拡散モデルとの比較と現在の位置づけ

GAN・拡散モデルとの比較と現在の位置づけ

VAEは確率モデルとして数学的に綺麗で安定して学習できる一方、生成画像が平均化されてぼやけて見える傾向があり、画像の鮮明さではGANに劣ると評価されてきました。GANは鮮明な画像を生成できるものの学習が不安定でモード崩壊が起きやすく、両者は補完的な関係にあるとよく語られます。VAE-GANのように両者を組み合わせるハイブリッド手法も研究されました。

2022年以降は拡散モデル(Diffusion Models)が画像生成の主役となり、ノイズ付与と除去という別の枠組みで高品質な生成を実現しています。ただし、Stable Diffusionに代表される潜在拡散モデルは、VAEを使って画像を低次元潜在空間に圧縮し、その空間で拡散過程を学習する設計を採用しているため、現在もVAEは生成AIの重要な構成要素として現役で活躍しています。潜在表現学習の視点でVAEの価値は再評価されつつあります。

まとめ

VAEは確率モデルと深層学習を見事に統合し、潜在空間に連続的な意味構造を学ばせる優れた枠組みです。生成画像の鮮明さで拡散モデルやGANに譲る場面もありますが、安定した学習、解釈可能な潜在表現、異常検知や半教師あり学習への応用、そしてStable Diffusionの基盤としての役割など、VAEが果たす価値は今も大きいといえます。生成AIを学ぶ上で欠かせない基礎モデルです。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次