AI / ML2026.05.07

画像分類モデルの進化の歴史

1957年のPerceptronから2022年のConvNeXtまで、約65年にわたる画像分類技術の変遷を系譜図と一覧表で整理します。各モデルがどの技術を受け継ぎ、何を革新したのかを一目で追えます。

Evolution Graph

技術系譜図

矢印は技術的な影響・継承関係を表します。

グラフを読み込み中...

〜1980年代：理論的基盤

1990年代：CNNの誕生

2012〜2015年：DL革命

2017〜2019年：軽量化

2020年：Transformerの画像応用

2022年：CNNの逆襲

ILSVRC Accuracy

ImageNet Top-5 誤り率の推移

AlexNet (2012)

16.4%

GPU活用で突破口

VGGNet (2014)

7.3%

深層化の威力

GoogLeNet (2014)

6.7%

効率化で精度向上

ResNet (2015)

3.57%

人間（5.1%）を超えた

Model Details

各モデルの詳細

年代	モデル名	技術的進化	備考
〜1980年代	Perceptron / Neocognitron 1957 / 1980	視覚野の階層構造（単純細胞・複雑細胞）にヒントを得た、CNNの直接の祖先となる構造を提案。	計算能力不足で実用化に至らなかったが、後のディープラーニングの理論的基盤を構築。
1990年代	LeNet-5 1998	「畳み込み層」と「プーリング層」を交互に配置する現代CNNの基本アーキテクチャを確立。誤差逆伝播法で学習。	手書き数字（MNIST）の認識など限定的タスクで実用化。大規模画像には未対応。
2012年	AlexNet 2012	ReLU活性化関数・Dropout・GPUによる並列計算を導入し、8層の深いネットワークを実現。	ILSVRC 2012で圧倒的差をつけて優勝（誤り率 16.4%）。第3次AIブームの火付け役。
2014年	VGGNet 2014	3×3の小さな畳み込みフィルターを複数重ね、16〜19層まで深層化。	構造がシンプルで転移学習のベースモデルとして今も広く使われる。
2014年	GoogLeNet（Inception v1） 2014	Inceptionモジュールで複数サイズの畳み込みを並列実行。パラメータ数を削減しつつ精度向上。	VGGNetと同年のILSVRCで優勝（誤り率 6.7%）。計算効率の概念を普及。
2015年	ResNet 2015	スキップ接続（Residual Connection）を導入し、勾配消失問題を解決。152層の超深層ネットワークを実現。	人間の画像認識精度（約5%）を初めて上回った記念碑的モデル（誤り率 3.57%）。
2017年	MobileNet 2017	Depthwise Separable Convolutionで計算量とパラメータ数を大幅削減。	スマートフォン・IoT機器でリアルタイム動作する実用的モデルの先駆者。
2019年	EfficientNet 2019	ネットワークの深さ・幅・解像度を固定比率でスケールアップする複合係数（Compound Scaling）を提案。	少ないパラメータ・計算量で当時のSOTA（最高精度）を更新。効率性の概念を刷新。
2020年	Vision Transformer（ViT） 2020	NLP用の「Transformer」を画像に適用。画像をパッチ分割し、単語のように系列データとして処理。	CNNを一切使わない画期的手法。大規模事前学習で従来CNNを凌駕する精度を達成。
2022年	ConvNeXt 2022	ViTの設計思想（マクロ構造・活性化関数・正規化手法）をCNNへ逆輸入して再構築。	純粋なCNNでTransformerベースのモデルと同等以上の性能を達成。「CNNの逆襲」として話題に。

お問い合わせ

AIやMLの活用について、お気軽にご相談ください。

お問い合わせフォームブログ一覧に戻る