VGG徹底解剖：小さなフィルタ×大きな深さで世界を変えたCNN

2025年1月13日

§はじめに: 「VGG（Very Deep Convolutional Networks）」とは？

こんにちは、ゆずかきです。
今回は、「VGGネットワーク（Very Deep Convolutional Networks）」 と呼ばれる、ディープラーニング史の中でも特に有名なモデルについて、網羅的に解説してみたいと思います。

いわゆる「VGG」は、オックスフォード大学の Visual Geometry Group（VGG） が中心となって開発し、2014年にImageNet Large Scale Visual Recognition Challenge（ILSVRC）にて大きな成果を上げたアーキテクチャです。
論文タイトルは、

“Very Deep Convolutional Networks For Large-Scale Image Recognition”
Karen Simonyan, Andrew Zisserman (ICLR 2015)

「とにかく層を深く積み重ねる」「それでもフィルタは小さく（3×3）抑える」というシンプルな発想が特徴。結果的に、当時の画像認識精度を大きく押し上げ、以後の深層ネットワーク設計の雛形となった存在です。

しかも古典的ながら、現在の転移学習シーンでも頻繁に使われる“重量級ベースモデル”として根強い人気があり、「深いCNNと言えばVGG」とも言えるほどに今でも参照される概念なんですね。

というわけで、本記事では論文の内容をできる限り丁寧かつ網羅的に掘り下げます。

なぜ3×3フィルタを積層するのか？
何がそんなに強力だったのか？
ILSVRCでの具体的なエラー率の向上
課題や、他のモデルとの比較

などを順に見ていきましょう。特に「古典だけどまだまだ必読」なトピックですので、ぜひ最後までお付き合いいただければ幸いです。

§本記事の構成

VGGの背景：なぜ「深さ」に注目したのか？
VGGアーキテクチャの肝：小さなフィルタ（3×3）の積み重ね
トレーニング手法と工夫：どんな学習プロセス？
ILSVRCでの驚異的な精度 & 具体的数値
他モデルとの比較：GoogLeNetやOverFeatなど
転移学習で未だに強い！小さいフィルタの実力は？
課題や展望：深さと速度、計算資源のバランス
まとめ

今回は単なる論文要約にとどまらず、最新の研究動向にも触れながら深堀り解説を行います（なお、本記事はWordPress投稿形式を想定しており、VGG・CNN・Image RecognitionなどSEOキーワードもしっかり盛り込みながら書いています）。

§VGGの背景：なぜ「深さ」に注目したのか？

VGG論文が登場した2014年当時、すでに AlexNet (Krizhevsky et al.) や ZFNet (Zeiler & Fergus) など、CNNによる画像分類がILSVRCで大活躍していました。しかし、それらのモデルの典型的な構造は、

大きめの最初のConvフィルタ（たとえば7×7や11×11）
プーリングやLRN（Local Response Normalization）
数層のConv＋FCを積んだ 8～10層程度のネットワーク

という設計。そこに、「深さをもっと増やせば強いんじゃないか？」という素朴かつ大胆な仮説を押し進めたのがVGGの大きな貢献です。

なぜ深さが重要なのか？
論文では「深い層がより抽象度の高い特徴を学習できる」と強調しています。これは、浅いネットでは学習しきれない複雑なパターンを捉えるために、コンボリューション（畳み込み）層を何段も積む必要がある、という考え方。もちろん、単に深くするだけでは勾配消失・爆発や大幅な計算コスト増などが懸念されますが、それを克服するために非常に小さいフィルタ（3×3）を使って層を増やすという設計を行っています。
結果的に、16〜19層という当時としては超大規模のディープネットを構築することに成功し、ILSVRC 2014でClassificationとLocalizationの両トラックで大きな成果を残しました。

§VGGアーキテクチャの肝：小さなフィルタ（3×3）の積み重ね

VGGでは、3×3フィルタ（あるいは一部1×1フィルタ）をたくさん積み重ねるのが最大の特徴です。
たとえば「7×7フィルタ1枚」を使うよりも、「3×3フィルタを複数段（例えば3段）積む」ほうが、

同じ受容野（receptive field）サイズを得られる（7×7に近い範囲をカバー）
途中に複数のReLU（活性化関数）を挿入できるので、表現力が増す
パラメータ数を抑えられ、正則化の効果も得られる

というメリットがあります。論文中の例でも、7×7を1回かけるのと、3×3を3回かけるのとでは、パラメータ総数が3×3×3重ねのほうがむしろ小さいと示されています（7×7には49のパラメータが必要だが、3×3を3回だと27パラメータで済む、など）。

さらに言えば、3×3以外の大きなフィルタは使わない（1×1はあくまで線形変換＋ReLUの補助的役割）という極端な割り切りが、実装のシンプルさと高性能を両立させています。

VGGが提案する各種構成例

論文ではA～Eと名付けられた5種類のネットワークが提示されており、その深さは11層（A）から19層（E）まで幅があります。以下のようなイメージです。

A: 11層（8個のConv + 3個のFC）
A-LRN: 同上だがLRNあり
B: 13層（Convをもう少し追加）
C: 16層（1×1フィルタを組み込んだバージョン）
D: 16層（すべて3×3フィルタ）←実験的に最もバランス良し
E: 19層（さらにConvを追加）←最も深い

19層モデルEが最強ですが、そこまで深くしなくても16層Dで十分に高精度が出る場面が多かったり、1×1フィルタを多用するCはあまり効果がなかったなど、論文中で詳細比較が載っています。

§トレーニング手法と工夫：どんな学習プロセス？

学習セットアップ

データセット: ImageNet (ILSVRC) 1000クラス、訓練画像約130万枚
最終的なFCレイヤ: 1000次元、Softmaxで分類
入力画像サイズ: 224×224で固定
前処理: 画像から平均RGB値を引き算（標準的）
学習アルゴリズム: ミニバッチSGD + Momentum (0.9)
学習率: 初期値 1e-2、学習が停滞したら1/10にして最終的に1e-5程度まで下げる
Regularization: Weight Decay (L2, 5×10^-4) + Dropout(0.5)をFC層に適用

計算リソースとしては、4 GPU環境で2〜3週間ほど学習に費やしたとのこと。当時としては「巨人ネットをガッツリ学習する」スタイルが斬新でした（現在はもっと大規模GPUでより深いモデルを回す例も多いですが、VGGが大規模学習のパイオニアだったと言えます）。

大事なポイント：重み初期化

19層もの深いネットでは、ただ適当に初期化すると勾配がうまく流れず学習が進まない可能性があります。そこでVGGでは、まず浅めのネット（Aなど）をランダム初期化で学習し、その学習済み重みをさらに深いネット（B, C, D, E）の一部に転移するという手順を踏んでいます。
これにより、初期勾配の消失問題をある程度緩和できます。のちにGlorot初期化やHe初期化などの手法が登場して、初期化を工夫することでさらに深いネットが扱いやすくなりましたが、VGGの時代はこのような段階的プレトレを行っていたわけですね。

§ILSVRCでの驚異的な精度 & 具体的数値

VGGが有名になった最大の要因は、ImageNetの分類精度（Top-5 Error）を大きく更新したことです。論文でも多くの実験が報告されていますが、ざっくりまとめると：

同じ単一モデルでのTop-5エラー率が7.0%台

16層や19層ネット（DやE）を使ってマルチスケール評価を行うと、Single Modelで7.0%程度（ILSVRCテストセット）に到達。

複数モデル（Ensemble）を組み合わせると6.8%

わずか2モデルを平均化（Softmaxの後段でクラス確率を足し合わせ）するだけで、Top-5 Errorが6.8%に到達。
これにより、当時の最先端だったGoogleNet（Szegedyら）の6.7%とほぼ肩を並べるか、若干迫るレベルまで行った。

CNN界隈で圧倒的な汎化性能の評価

Localizationタスク（オブジェクト位置を出すタスク）でも25.3%のエラー率を達成。
さらにPASCAL VOCやCaltechなど他のベンチマークにFine-tuningやFeature Extractorとして適用すると、当時のState-of-the-Artを塗り替えた。

以上の結果から、「より深くすれば精度が上がる」ということを大々的に示したのがVGGネットであり、その後のResNet（Heら）やGoogleNet系のInception V2/V3/V4、さらにはTransformerベースのVisionモデルへと続く“深層化競争”を加速させる契機になったのです。

シングルモデル vs. アンサンブル

論文でも触れられていますが、ILSVRCのトップチームはほぼ例外なく複数モデルを組み合わせて最終精度を出す、という手法を取ります。VGGは“2モデル”だけの組み合わせでも十分に強かった点が特筆されます（他チームは5〜7モデル併用など、もっと大がかり）。

ただし、VGG自体は結構重い（パラメータ数も多い＆推論計算量が大きい）ため、アンサンブルにすると推論時間がかさむ問題が生まれるのも事実。実用アプリケーションでのリアルタイム推論の際、VGGは重すぎると言われることも多いです（その後のMobileNetやShuffleNetなど軽量系CNNへの流れにつながります）。

§他モデルとの比較：GoogLeNetやOverFeatなど

GoogLeNet (Inception v1, 2014)

VGGと同時期にILSVRC 2014でトップを争ったGoogLeNet (Szegedyら) は、22層にも及ぶ非常に深いネットワークです。ただしInceptionモジュールという特殊構造を導入して、1×1や3×3、5×5フィルタを並列に処理するなど、VGGとはかなり違う設計。

GoogLeNet: 複雑なInceptionブロックでパラメータを抑えつつ深さを稼ぐ
VGG: 3×3フィルタを積み上げる、オーソドックスなコンボリューション構造で深くする

同じ“Very Deep”という指向性ではあるものの、VGGはとにかく構造がシンプルという点が対照的です。それでもILSVRC 2014のClassificationで2位（Top-5エラー6.8%程度、アンサンブル）を獲得し、Localizationでは優勝を果たしたことで、「大きなフィルタや複雑な構造を組まずとも、小さなフィルタを積み上げるだけで最先端を狙える」と証明しました。

OverFeat (Sermanetら)

こちらはILSVRC 2013のLocalizationで優勝したモデルです。ネットワークをスライドさせるDenseな推論やマルチスケール学習などを強みにしていました。VGGの論文では、そのOverFeatをさらに上回る精度を示し「VGGの特徴量は本当に強い」ということを実証しています。

§転移学習で未だに強い！小さいフィルタの実力は？

現在（2020年代）においても、VGGは転移学習のベンチマークとして頻繁に用いられています。

例えば、VGG16（16層モデルD）やVGG19（19層モデルE） が標準ライブラリに含まれていることが多く、PyTorchやTensorFlowで簡単に呼び出せます。
画像認識以外にも、物体検出（R-CNN, Faster R-CNN）やセマンティックセグメンテーションなど、多くのタスクで事前学習済みVGGをFeature Extractorとして使うだけで高い性能が出ます。

ここでのポイントは、シンプルな構造ゆえに、後段のタスク適用がやりやすいということ。Inception系やResNet系はスキップ接続やInceptionモジュールなどが込み入っている分、改変がやや複雑になる場合があります。一方VGGは「Conv + ReLU + Pool」の連鎖というクラシカルな作りなので、コード的にも分かりやすいわけですね。

またSmall Filterは、物体の局所的な特徴を捉えやすいという面もあります。とはいえ、モデルサイズは大きい（数千万～一億以上のパラメータ）ため、モバイル向けには不向きです。だからこそ近年は、より軽量なモジュールで深さを維持するMobileNetやShuffleNet、あるいはTransformerベース（Vision Transformer: ViT）へとシフトしてきています。ただし、これらを用いる際にもVGG的な「フィルタ設計思想」は部分的に受け継がれています。

§課題や展望：深さと速度、計算資源のバランス

VGGネットの成功は「深さ」による性能向上を印象づける一方で、課題も少なくありません。

学習・推論コストの大きさ

非常に多くのパラメータ（例: VGG19で約1.44億）を抱えるため、学習に大規模GPUクラスターが必要。
推論時も巨大な計算量とメモリを要する。実務でのリアルタイム推論には不向きで、モバイル・エッジデバイスでは厳しい。

深い割にスキップ接続がない

ResNetなどが導入した「ショートカット（スキップ）接続」により、より深くても勾配が流れやすくする工夫が取り入れられていない。
VGGは基本的に順伝搬オンリーであり、プレトレなど初期化戦略がなければ学習が困難。

モデルの汎化能力の強さは魅力だが、最適化の工夫が必要

転移学習やFine-tuningの際、微妙なハイパーパラメータ調整が必要な場合がある。

それでもなお、VGGの定番設計（3×3フィルタで積みまくる）というアイデアは、現在も様々なモデルに取り込まれています。

GoogLeNet系のInceptionモジュールでも、1×1フィルタを多用する設計が追加されている
ResNet系でも、3×3フィルタを積むブロックを基本形として採用
Vision Transformerが注目されている昨今でも、CNN系のバックボーンでVGGが比較対象として今なお登場する

深さを増やす方針の偉大な先駆けとして、VGGはこれからも引用され続けるはずです。

§まとめ

ここまで、VGG論文の中身を長々と紹介しました。要点を整理すると、以下の通りです。

より深くすれば精度が上がる：AlexNetやZFNetよりもさらに深い16〜19層ネットを構築。
フィルタは小さい（3×3）：7×7よりも3×3×数層の方が表現力とパラメータ効率が高い。
ILSVRC 2014でトップクラスの精度：単一モデルで7.0%、2モデルでも6.8%という破格のTop-5エラー率。Localizationでも1位。
実装はシンプル：特別なInceptionモジュールやスキップ接続はなく、クラシカルなConv + Pool + FC構造のディープ化。
今でも転移学習で強い：PASCAL VOC、Caltech、各種物体検出やセグメンテーションタスクなどにおいて、VGGバックボーンがいまだにベースラインとして機能。

一方で、モデルが非常に重いため、実運用でフットプリントを抑えたい場合はResNetやMobileNetなどの“後継モデル”を利用することが増えています。しかし、CNNアーキテクチャ史を語る上でVGGは外せない存在であり、シンプルかつ強力な古典として読み返す価値は十分にあるでしょう。

以上がVGG論文のざっくりした全容です。AlexNet登場以降、ImageNetを軸にディープラーニングが急速進化していく最中で、「深いCNNの時代」を決定づけた名作として、今なお頻繁に引用されています。ぜひ興味のある方は原文や実装を追ってみてください！

§おわりに

私自身、VGGを初めて読んだときは「3×3を積むだけって割り切りすごい」と驚かされました。実際、シンプルがゆえの汎用性があって、その後のディープラーニングブーム全体を底上げした功績は計り知れません。
現在はTransformer系の登場などでCNN一強の時代ではなくなりつつありますが、それでも「VGGが拓いた深層モデルの潮流」は色あせず、基盤技術として確固たる地位を築いています。
もし転移学習を試してみたいなら、まずはVGG16やVGG19を落としてデータセットにFine-tuning、というやり方が簡単で成果が安定しやすいのでオススメですね。

最後までお読みいただき、ありがとうございました！それでは今回はこの辺で。

🔑この記事のポイントまとめ

VGG（Very Deep Convolutional Networks）：深さを増やす×3×3フィルタで構成
シンプルかつ高精度：ILSVRC 2014で上位入賞、Localizationで1位
単一モデルでもTop-5 Error ~7.0%、2モデルアンサンブルで6.8%
転移学習で抜群の性能：他のビジョンタスクでも強い
課題：計算量・メモリが膨大、スキップ接続なしで超深層化のハンドリングが難しい
CNN史に残る名作：小さなフィルタを積み重ねる設計思想は、その後のResNetやInceptionにも影響

§参考文献（論文リンク）

Very Deep Convolutional Networks for Large-Scale Image Recognition (K. Simonyan & A. Zisserman, ICLR 2015): httpss://arxiv.org/abs/1409.1556
ILSVRC2014 Overview: httpss://arxiv.org/abs/1409.0575
GoogLeNet (Szegedy et al.): httpss://arxiv.org/abs/1409.4842
OverFeat (Sermanet et al.): httpss://arxiv.org/abs/1312.6229

（その他、VGG原著論文中で引用されている文献は多数あるため、詳しくは論文PDFを参照いただければと思います。）

画像解析

Posted by yuzukaki-dialog

GoogLeNet再考：Inception構造に見るCNN深層化の礎石！1×1ボトルネックで切り開くディープCNNの世界

AlexNet徹底解説：大規模CNNの革命とILSVRCを制したImageNet優勝モデルの全貌

コメント一覧

まだ、コメントがありません