ブログ一覧に戻る
AI / ML2026.05.07

画像分類モデルの進化の歴史

1957年のPerceptronから2022年のConvNeXtまで、約65年にわたる画像分類技術の変遷を系譜図と一覧表で整理します。各モデルがどの技術を受け継ぎ、何を革新したのかを一目で追えます。

Evolution Graph

技術系譜図

矢印は技術的な影響・継承関係を表します。

グラフを読み込み中...
〜1980年代:理論的基盤
1990年代:CNNの誕生
2012〜2015年:DL革命
2017〜2019年:軽量化
2020年:Transformerの画像応用
2022年:CNNの逆襲
ILSVRC Accuracy

ImageNet Top-5 誤り率の推移

AlexNet (2012)
16.4%
GPU活用で突破口
VGGNet (2014)
7.3%
深層化の威力
GoogLeNet (2014)
6.7%
効率化で精度向上
ResNet (2015)
3.57%
人間(5.1%)を超えた
Model Details

各モデルの詳細

年代モデル名技術的進化備考
〜1980年代Perceptron / Neocognitron
1957 / 1980
視覚野の階層構造(単純細胞・複雑細胞)にヒントを得た、CNNの直接の祖先となる構造を提案。計算能力不足で実用化に至らなかったが、後のディープラーニングの理論的基盤を構築。
1990年代LeNet-5
1998
「畳み込み層」と「プーリング層」を交互に配置する現代CNNの基本アーキテクチャを確立。誤差逆伝播法で学習。手書き数字(MNIST)の認識など限定的タスクで実用化。大規模画像には未対応。
2012年AlexNet
2012
ReLU活性化関数・Dropout・GPUによる並列計算を導入し、8層の深いネットワークを実現。ILSVRC 2012で圧倒的差をつけて優勝(誤り率 16.4%)。第3次AIブームの火付け役。
2014年VGGNet
2014
3×3の小さな畳み込みフィルターを複数重ね、16〜19層まで深層化。構造がシンプルで転移学習のベースモデルとして今も広く使われる。
2014年GoogLeNet(Inception v1)
2014
Inceptionモジュールで複数サイズの畳み込みを並列実行。パラメータ数を削減しつつ精度向上。VGGNetと同年のILSVRCで優勝(誤り率 6.7%)。計算効率の概念を普及。
2015年ResNet
2015
スキップ接続(Residual Connection)を導入し、勾配消失問題を解決。152層の超深層ネットワークを実現。人間の画像認識精度(約5%)を初めて上回った記念碑的モデル(誤り率 3.57%)。
2017年MobileNet
2017
Depthwise Separable Convolutionで計算量とパラメータ数を大幅削減。スマートフォン・IoT機器でリアルタイム動作する実用的モデルの先駆者。
2019年EfficientNet
2019
ネットワークの深さ・幅・解像度を固定比率でスケールアップする複合係数(Compound Scaling)を提案。少ないパラメータ・計算量で当時のSOTA(最高精度)を更新。効率性の概念を刷新。
2020年Vision Transformer(ViT)
2020
NLP用の「Transformer」を画像に適用。画像をパッチ分割し、単語のように系列データとして処理。CNNを一切使わない画期的手法。大規模事前学習で従来CNNを凌駕する精度を達成。
2022年ConvNeXt
2022
ViTの設計思想(マクロ構造・活性化関数・正規化手法)をCNNへ逆輸入して再構築。純粋なCNNでTransformerベースのモデルと同等以上の性能を達成。「CNNの逆襲」として話題に。

お問い合わせ

AIやMLの活用について、お気軽にご相談ください。

お問い合わせフォームブログ一覧に戻る