ブログ一覧に戻るEvolution Graph ILSVRC Accuracy Model Details
AI / ML2026.05.07
画像分類モデルの進化の歴史
1957年のPerceptronから2022年のConvNeXtまで、約65年にわたる画像分類技術の変遷を系譜図と一覧表で整理します。各モデルがどの技術を受け継ぎ、何を革新したのかを一目で追えます。
技術系譜図
矢印は技術的な影響・継承関係を表します。
グラフを読み込み中...
〜1980年代:理論的基盤
1990年代:CNNの誕生
2012〜2015年:DL革命
2017〜2019年:軽量化
2020年:Transformerの画像応用
2022年:CNNの逆襲
ImageNet Top-5 誤り率の推移
AlexNet (2012)
16.4%
GPU活用で突破口
VGGNet (2014)
7.3%
深層化の威力
GoogLeNet (2014)
6.7%
効率化で精度向上
ResNet (2015)
3.57%
人間(5.1%)を超えた
各モデルの詳細
| 年代 | モデル名 | 技術的進化 | 備考 |
|---|---|---|---|
| 〜1980年代 | Perceptron / Neocognitron 1957 / 1980 | 視覚野の階層構造(単純細胞・複雑細胞)にヒントを得た、CNNの直接の祖先となる構造を提案。 | 計算能力不足で実用化に至らなかったが、後のディープラーニングの理論的基盤を構築。 |
| 1990年代 | LeNet-5 1998 | 「畳み込み層」と「プーリング層」を交互に配置する現代CNNの基本アーキテクチャを確立。誤差逆伝播法で学習。 | 手書き数字(MNIST)の認識など限定的タスクで実用化。大規模画像には未対応。 |
| 2012年 | AlexNet 2012 | ReLU活性化関数・Dropout・GPUによる並列計算を導入し、8層の深いネットワークを実現。 | ILSVRC 2012で圧倒的差をつけて優勝(誤り率 16.4%)。第3次AIブームの火付け役。 |
| 2014年 | VGGNet 2014 | 3×3の小さな畳み込みフィルターを複数重ね、16〜19層まで深層化。 | 構造がシンプルで転移学習のベースモデルとして今も広く使われる。 |
| 2014年 | GoogLeNet(Inception v1) 2014 | Inceptionモジュールで複数サイズの畳み込みを並列実行。パラメータ数を削減しつつ精度向上。 | VGGNetと同年のILSVRCで優勝(誤り率 6.7%)。計算効率の概念を普及。 |
| 2015年 | ResNet 2015 | スキップ接続(Residual Connection)を導入し、勾配消失問題を解決。152層の超深層ネットワークを実現。 | 人間の画像認識精度(約5%)を初めて上回った記念碑的モデル(誤り率 3.57%)。 |
| 2017年 | MobileNet 2017 | Depthwise Separable Convolutionで計算量とパラメータ数を大幅削減。 | スマートフォン・IoT機器でリアルタイム動作する実用的モデルの先駆者。 |
| 2019年 | EfficientNet 2019 | ネットワークの深さ・幅・解像度を固定比率でスケールアップする複合係数(Compound Scaling)を提案。 | 少ないパラメータ・計算量で当時のSOTA(最高精度)を更新。効率性の概念を刷新。 |
| 2020年 | Vision Transformer(ViT) 2020 | NLP用の「Transformer」を画像に適用。画像をパッチ分割し、単語のように系列データとして処理。 | CNNを一切使わない画期的手法。大規模事前学習で従来CNNを凌駕する精度を達成。 |
| 2022年 | ConvNeXt 2022 | ViTの設計思想(マクロ構造・活性化関数・正規化手法)をCNNへ逆輸入して再構築。 | 純粋なCNNでTransformerベースのモデルと同等以上の性能を達成。「CNNの逆襲」として話題に。 |
お問い合わせ
AIやMLの活用について、お気軽にご相談ください。