LeNet徹底解説:手書き数字から世界を変えた?CNNの原点を築いた伝説的モデルの仕組みと歴史
こんにちは、ゆずかきです。
ここからは、「LeNet」 と呼ばれる、ディープラーニング史において極めて重要な“原初のCNN”について、一つの技術ブログ記事としてまとめてみたいと思います。
実は、LeNetの誕生以前(1980~90年代)、ニューラルネットワークは研究の下火期にありました。しかし、Yann LeCun(当時AT&T Bell Labs、後にFacebook AI Research) がMNIST数字認識のために開発した「LeNet-5(1998年)」こそが、今日のCNNブームを支える礎となるモデルだったのです。
本記事では、1998年当時のLeNet構造を振り返りつつ、「CNNの元祖がどのようなアイデアで構築され、どんな成果を残したか」を技術的に分かりやすく解説していきます。MobileNetなど後発のモデルとはまた違った歴史的背景がありますが、“畳み込み層+プーリング層の組み合わせ”という現代CNNの基本原型を作った偉大な先駆者といえるでしょう。
§本記事の構成
- はじめに: LeNetとは?
- 誕生の背景:手書き数字認識の大きな課題
- LeNet-5のアーキテクチャ
- 当時として画期的だったポイント
- その後の発展と“CNN時代”への橋渡し
- まとめ
“CNN”という単語は今や当たり前になりましたが、最初にその概念を定式化して実装・実験で実証したのがLeNet-5(およびその前身LeNet群)です。順を追って見ていきましょう。
§はじめに: LeNetとは?
LeNet は、Yann LeCun氏らが提案・開発したConvolutional Neural Network(CNN)の一系列のモデル群です。最も有名な「LeNet-5」が1998年の論文("Gradient-Based Learning Applied to Document Recognition")で紹介され、「畳み込み層 + プーリング層 + 全結合層」の基本形を完成させた、と言われています。
当時、ニューラルネットを使った画像認識の研究は限られており、SVMなどの他手法が主流となりつつありました。そんな中、LeCun氏は「勾配ベースの学習を行う多層ネットワークに、畳み込み演算とプーリング演算を導入すれば、手書き数字認識を高精度に実現できる」と主張。その結果、郵便番号の自動認識システムなどに応用され、実用レベルで初の深層学習システムとして注目を浴びたのです。
§誕生の背景:手書き数字認識の大きな課題
LeNet-5が誕生した動機の一つは、郵便番号や小切手の読み取りです。欧米圏では住所や小切手の数字を機械で読み取るニーズが高まっていましたが、当時のOCR(Optical Character Recognition)は手書き数字の多様性に苦戦していました。
- フォントが統一されていない
- 筆跡の癖で形状が大きく変化
- ノイズや解像度の問題もある
こうした課題に対して、LeCun氏は「従来の特徴量設計に頼らず、ネットワーク自体に特徴抽出を学習させる」というアプローチを提示。さらに、畳み込み(Conv)とプーリング(Subsampling/Pooling)を組み合わせるというアイデアで、位置のずれや画像の変形に対して頑健性を持たせました。この発想は、現代CNNの基本コンセプトそのものですね。
§LeNet-5のアーキテクチャ
全体の流れ
LeNet-5は、以下のようなレイヤーを順番に通過します。
- 入力層(例:32×32のグレースケール画像)
- 畳み込み層 (Conv Layer)
- サブサンプリング層(Pooling Layer)
- 再度 畳み込み層
- 再度 サブサンプリング層
- 全結合層(Fully Connected Layer)
- 出力層(最終的に10クラス:0~9の数字認識など)
論文中ではC1, S2, C3, S4, C5, F6 というような名称が付けられ、Conv層をC(Convolution)、Subsampling層をS(Subsampling)として区別しています(S層はPooling層に近い)。最終層(F6)は多数のニューロンを持つ全結合層で、ソフトマックス等に接続されて分類出力を得ます。
畳み込み層(Conv Layer)
- カーネルサイズは5×5など、当時としては小さいフィルタを使って局所領域をスキャン
- ストライドは1で、パディングを含めて入力画像とほぼ同じかやや小さい特徴マップを生成
- バイアス項を含む学習可能な重みを持ち、「エッジ検出」や「曲線の抽出」などのフィルタ機能を自動的に獲得
サブサンプリング層(Pooling Layer)
- 2×2などの領域を単純に最大値や平均値で集約
- 次元削減と局所的な平滑化効果により、位置ズレやノイズに対するロバストさを付与
- 当時は
average pooling
ベース(サブサンプリング)が多く使われ、現代のmax pooling
とは少し異なるが、基本アイデアは同じ
全結合層(Fully Connected Layer)
- 最後に複数の全結合層を重ねて、最終的な分類スコアを算出
- LeNet-5の場合、C5→F6→Outputの構造が最終段階として機能する
当時は活性化関数にシグモイドなどが使われていた点が現代ReLU系CNNと異なりますが、大枠はほぼ変わりません。
§当時として画期的だったポイント
LeNetシリーズの革新性は、単に“畳み込み+プーリング”というアイデアだけではありません。「勾配ベースの学習(バックプロパゲーション)を一貫して適用し、誤差逆伝搬で重みを学習する」という流れを明確化した点も特筆すべきです。
- バックプロパゲーション + 畳み込み層
- 従来は畳み込みフィルタを人間が設計するか、Hebbian学習などの手法を採用する例もあった
- LeCun氏は「フィルタも含めて誤差逆伝搬で学習させる」と提案し、ニューラルネットの汎用性を大幅に高めた
- MNISTベンチマークで高精度
- MNIST(手書き数字0~9の28×28ピクセル画像)で高い精度を示し、実用化を強力に後押し
- 実際に郵便番号自動読み取りや小切手処理システムで試験導入されるなど、ビジネス応用に直結した
- パラメータ数の削減
- 全結合で高次元の画像を扱うよりも、畳み込み+プーリングで特徴マップを段階的に縮小するため、学習パラメータが格段に少なくなる
- 計算量も削減され、当時の計算リソース(GPUがない/あるいは非常に性能が低い環境)でも実現可能だった
- 階層的特徴抽出
- 層を重ねるごとに抽出される特徴が抽象化され、数字の曲線・エッジ・パーツといった形で分階層に捉えられる
- 現代CNNでも同じように、低レベル特徴から高レベル特徴へと階層化して学習する仕組みが踏襲されている
§その後の発展と“CNN時代”への橋渡し
LeNetは一世を風靡したものの、しばらくはハードウェア制約や研究ブームの移り変わりなどから、大規模ニューラルネット研究は停滞期を迎えます。しかし、2012年のAlexNetを皮切りに、深層CNNが再び脚光を浴びる展開となりました。
- AlexNet (2012): 大規模GPUを用いて、ImageNetで驚異的な精度向上を達成
- VGG, GoogLeNet, ResNet… といった大型モデルが次々に登場
こうして、現代のDeep Learningブームが到来すると、改めて「畳み込み層 + プーリング層」のLeNet流構造がベースになっていることが広く再認識されました。実際、全てのCNNはLeNetの設計思想を継承していると言っても過言ではありません。
論文タイトルにもあるように、当初は「Document Recognition(文書認識)」がメインだったLeNetですが、その後、CNNは画像分類・物体検出・セグメンテーション・音声認識・自然言語処理など、あらゆる分野に応用が拡大。LeCun氏本人もFacebook AI Researchのディレクターとして、ディープラーニング世界をけん引するリーダーとなっています。
§まとめ
LeNet は、深層学習の歴史を語る上で避けて通れない“元祖”CNNです。Yann LeCun氏が手書き数字認識で大きな成功を収め、その構造が後のディープラーニングに大きな影響を与えました。
- 畳み込み層 + プーリング層 を交互に重ねるという基本形状
- フィルタパラメータも含めて誤差逆伝搬で学習
- MNIST認識で高精度&実用応用(郵便番号などの読み取り)
- 後年のAlexNet以降のCNN隆盛につながる礎
もし、現代のResNetやMobileNetを学んでいる方が、「CNNの基本構造ってどこから来たの?」と疑問に思ったら、ぜひ一度LeNet(特にLeNet-5)の論文・構造を眺めてみると面白いはずです。ある意味、すべてのCNNの祖先とも言えるこのモデルのシンプルなアーキテクチャに触れることで、“Deep Learning”の始まりを体感できるのではないでしょうか。
🔑この記事のポイントまとめ
- LeNet は 1990年代 に提案されたCNNの原点
- 畳み込み層 + プーリング層 + 最後に全結合層、という典型的構成を初めて体系化
- バックプロパゲーション によるフィルタ学習を導入し、手書き数字認識の分野で高精度を実現
- 当時はハード的にもソフト的にも厳しい状況だったが、実際の郵便番号読み取りなどに応用
- 現代のCNN(AlexNet, VGG, ResNet, MobileNet…)は、いずれもLeNetの系譜を継承
§参考文献(論文リンク)
- Y. LeCun, L. Bottou, Y. Bengio, P. Haffner: “Gradient-Based Learning Applied to Document Recognition" (Proceedings of the IEEE, 1998)
httpss://ieeexplore.ieee.org/document/726791 - MNIST Database: https://yann.lecun.com/exdb/mnist/
- Deep Learning基礎研究: [各種論文多数参照]
以上、「LeNet」の解説でした。何かと巨大モデルがもてはやされる昨今ですが、この原初のCNNを改めて振り返ってみると、今のディープラーニング技術の根幹が見えてきます。
ディスカッション
コメント一覧
まだ、コメントがありません