
Attention機構は、入力系列の中から「現在の出力にとって特に重要な部分」を動的に重み付けして取り出す仕組みで、2014年にBahdanauらが機械翻訳のために導入したのが発端です。RNNが抱えていた長距離依存と固定長コンテキストの問題を解決し、その後Self-Attentionへと発展してTransformerの中核となりました。本稿では基本原理、Query/Key/Valueの考え方、応用例、Self-Attentionへの発展までを丁寧に解説します。
この記事の目次
- Attentionが解決した「長距離依存」問題
- Query・Key・Valueの汎用フレームワーク
- 機械翻訳から画像認識まで広がる応用
- Self-Attentionへの発展とTransformer
- まとめ
Attentionが解決した「長距離依存」問題

従来のSeq2Seq機械翻訳モデルでは、エンコーダRNNが入力文全体を一つの固定長ベクトルに圧縮し、デコーダがそれを参照しながら翻訳文を生成していました。しかし長い文章を一つのベクトルに押し込めるのは情報的に無理があり、文末の翻訳精度が落ちる「長文での性能劣化」が深刻な課題でした。これがいわゆる情報ボトルネック問題です。
2014年のBahdanau Attentionは、デコーダが各時刻でエンコーダの全隠れ状態を参照し、「今どの単語に注目すべきか」を学習可能な重みで決める仕組みを導入することでこの問題を解決しました。固定長ベクトルではなく可変長のコンテキストを作るこの発想は、機械翻訳の品質を劇的に向上させ、その後の深層学習研究の方向性を決定づける重要なブレークスルーとなりました。
Query・Key・Valueの汎用フレームワーク

現代的なAttentionは情報検索の比喩で説明されます。「Query(質問)」「Key(鍵)」「Value(値)」の三つのベクトル集合があり、QueryとKeyの類似度を内積などで計算してsoftmaxで重みに変換し、その重みでValueの加重平均を取って出力します。この一連の操作はパラメータがほとんどなく非常に汎用的で、入力と出力の関係を柔軟に表現できます。
Bahdanau Attentionは加法的注意(additive attention)と呼ばれ、QueryとKeyを連結して小さなニューラルネットで類似度を計算します。一方、LuongらのMultiplicative Attentionは内積を直接使い、計算効率に優れます。Transformerで使われるScaled Dot-Product Attentionは内積をキー次元の平方根で割って勾配を安定化させ、巨大モデルでも安定して学習できるよう工夫されています。
機械翻訳から画像認識まで広がる応用

Attention機構はまず機械翻訳で成功を収め、その後あらゆる系列モデルへ広がりました。画像キャプション生成では、文の各単語を生成する際に画像のどの領域を「見る」かをAttentionで決め、人間が説明するときの視線移動に近い動作を再現します。音声認識では音響特徴の系列と文字の系列を柔軟に対応付けるためにAttentionが使われ、エンドツーエンド音声認識の発展に大きく貢献しました。
また、ヘルスケアでは患者の長い時系列カルテから重要なイベントに注目するためにAttentionが使われ、推薦システムでは過去の利用行動から関連性の高い項目に重みを付ける用途で活用されています。可視化を行えば「モデルがどこに注目しているか」を観察できるため、解釈性の向上という副次的メリットもあります。Attentionは深層学習に動的な情報選択能力を与えた汎用的な道具なのです。
Self-Attentionへの発展とTransformer

通常のAttentionはエンコーダとデコーダの異なる系列をつなぐ用途で使われましたが、Self-Attention(自己注意)は同じ系列内の各位置が他の全位置を参照する仕組みです。これにより、文章中のある単語が文中のどの単語と関連しているかを直接モデル化でき、係り受けや指示語の解決といった構文情報を効率よく学習できます。
2017年の「Attention is All You Need」論文では、RNNを完全に排除しSelf-AttentionとFeed-Forwardだけで構成するTransformerが提案されました。Multi-Head Attentionによって複数の異なる関係を同時に学べる柔軟性と、系列を並列処理できる効率性を兼ね備え、GPTやBERTといった大規模言語モデルの土台となりました。Attentionは「補助的な仕組み」から「アーキテクチャの中心」へと役割を進化させ、現代AIの主役技術となったのです。
まとめ
Attention機構は、入力の中から重要な部分を動的に重み付けして取り出すというシンプルな発想で、RNNの長年の課題を解決し、Self-AttentionとTransformerへと発展して現代AIの中核を担うようになりました。機械翻訳から画像認識、音声認識、推薦システムまで応用範囲は広く、可視化による解釈性向上というメリットもあります。深層学習を学ぶ上で必修の概念といえます。
※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

コメント