
RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)は、時系列や自然言語のように順序情報を持つデータを処理するために設計された深層学習モデルです。隠れ状態を時刻ごとに更新しながら過去の情報を記憶する構造が特徴で、機械翻訳・音声認識・株価予測など幅広い分野で長らく標準的な選択肢でした。本稿ではRNNの基本構造、勾配消失問題、LSTMやGRUとの関係、そしてTransformer時代における現在の位置づけまでを順を追って解説します。
この記事の目次
- RNNの基本構造と隠れ状態の役割
- RNN最大の弱点である勾配消失問題
- LSTM・GRUによる長期依存の克服
- Transformer時代のRNNの現在地
- まとめ
RNNの基本構造と隠れ状態の役割

RNNは入力データを時刻ごとに順に処理し、各時刻で隠れ状態と呼ばれる内部メモリを更新します。隠れ状態は過去の入力履歴を要約したベクトルとして機能し、現在の入力と組み合わせて次の隠れ状態と出力を計算します。同じ重み行列を全時刻で共有することで、可変長の系列に対応でき、文の長さや時系列の長さに依存しないモデル化が可能です。
数式的にはh_t=f(W_h・h_{t-1}+W_x・x_t+b)という単純な更新式で表され、活性化関数fにはtanhがよく使われます。出力はy_t=g(W_y・h_t)として隠れ状態から計算されます。系列を順方向だけでなく逆方向にも処理するBidirectional RNNや、複数層を重ねるDeep RNNなど、基本構造を拡張した変種も多数存在し、用途に応じて使い分けられてきました。
RNN最大の弱点である勾配消失問題

RNNを誤差逆伝播で学習する際には、Backpropagation Through Time(BPTT)と呼ばれる手法を使い、系列全体を時間方向に展開して勾配を計算します。ところが同じ重み行列が時刻分だけ繰り返し掛け合わされるため、その最大固有値が1より小さければ勾配は指数的に消失し、1より大きければ爆発するという問題が生じます。これがRNNの代表的な弱点である勾配消失問題です。
結果として、素のRNNは数ステップ先までの依存関係しか学習できず、長い文章の冒頭と末尾の関係や、長期的な時系列パターンを捉えるのが苦手です。勾配爆発は勾配クリッピングで対処できますが、消失問題は構造的に根深く、これを解決するために登場したのがゲート機構を持つLSTMやGRUです。RNNを語る上で、勾配消失問題はLSTM登場の必然性を理解する鍵となります。
LSTM・GRUによる長期依存の克服

1997年にHochreiterとSchmidhuberが提案したLSTM(Long Short-Term Memory)は、セル状態と呼ばれる線形に流れる「情報の高速道路」を導入し、入力ゲート・忘却ゲート・出力ゲートで情報の取捨選択を学習させることで、勾配消失を大幅に緩和しました。これにより数百ステップ規模の長距離依存も学習可能となり、機械翻訳や音声認識の精度が劇的に向上しました。
2014年にChoらが提案したGRU(Gated Recurrent Unit)はLSTMを簡素化した構造で、リセットゲートと更新ゲートの二つだけを持ち、セル状態を別途持ちません。パラメータ数が少なく学習が速い一方で、多くのタスクでLSTMと同等の性能を示すことから、軽量な代替として広く採用されました。タスクの複雑さやデータ量に応じてLSTMとGRUを使い分けるのが、Transformer登場前までのRNN実務の定番でした。
Transformer時代のRNNの現在地

2017年のTransformer登場以降、自然言語処理の主役はSelf-Attentionへと移りました。Transformerは系列を並列処理できるため学習が高速で、長距離依存もAttentionで直接捉えられるという利点があります。これにより、機械翻訳や言語モデリングの分野でRNN系モデルはほぼ置き換えられました。
ただしRNNが完全に過去のものになったわけではありません。リアルタイム音声認識や逐次的に入力が届くストリーム処理ではRNNの逐次的性質が有利で、低レイテンシ用途で今も使われています。また2023年以降、Mambaに代表される状態空間モデルやRWKVなど「RNN的な並列学習可能モデル」が再評価され、Transformerに代わる長系列処理アーキテクチャとして注目を集めています。RNNのアイデアは形を変えて深層学習の中心に戻りつつあります。
まとめ
RNNは隠れ状態という小さな記憶装置を時間方向に引き継ぐことで、系列データを統一的に扱う枠組みを切り開きました。勾配消失という構造的弱点はLSTMやGRUのゲート機構で克服され、その後Transformerに主役を譲ったものの、ストリーム処理や状態空間モデルといった形で再評価が進んでいます。RNNの考え方は、系列モデリングを学ぶ全ての技術者にとって不可欠な基礎です。
※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

コメント