3×3 Conv: 画像処理に効果的な畳込みフィルター

2026年6月4日

3×3 Convは、ディープラーニングにおける畳み込みニューラルネットワーク(CNN)において広く使用される小さなフィルタです。2014年のImageNetコンテストで入賞したGoogLeNetが注目を浴びてから、研究者たちの間で定着しました。

この記事の目次

3×3 Convの定義
3×3 Convの歴史
3×3 Convの仕組み
3×3 Convとその他のフィルターとの比較
まとめ

3×3 Convの定義

3×3 Convは、その名の通り3行3列の小さな畳み込みフィルターです。このサイズが特徴的であり、より深いネットワークでも重みの数を増やさずに特徴マップを抽出できます。

さらに、パディングの技術により入力データの周囲にゼロを追加することで、出力画像の形状を維持しつつ、より広範な視覚的な情報を効率的に取り出すことが可能になります。

3×3 Convの歴史

3×3 Convは、2014年に開催されたImageNet Large Scale Visual Recognition Challenge (ILSVRC)の優勝モデルであるGoogLeNetで初めて注目を集めました。このモデルは、多数の小さな3×3フィルターを重ねることで、深いネットワークでも少ないパラメータ数で効果的な特徴抽出を行いました。

その後、VGGNetやResNetといったCNNモデルでも広く採用され、画像処理における主要な技術として定着しました。これらのネットワークでは、3×3フィルターが複数のレイヤーにまたがって繰り返し適用されており、深層での情報伝達を効率化しています。