CNN vs. Transformer — 何が違う？ - AIインフォグラフィックス集

図でざっくり比較

CNN

カメラのズームレンズ 📷

VS

Transformer

全方位スポットライト 💡

観点	CNN	Transformer
着目のしかた	小さな窓（カメラのズームレンズ）が画像をスキャン	全体を一度に見回すスポットライト（注意機構）
計算コスト	画像サイズに比例して増える（局所演算）	入力長の2乗で増える（全結合演算）
並列処理	畳み込みごとに逐次的な依存が残る	Attention 行列で GPU による完全並列が得意
代表モデル	ResNet, EfficientNet	Vision Transformer, ViT-Hybrid
得意分野	画像分類・物体検出	言語理解・画像理解・マルチモーダル
弱み	広い文脈を捕まえにくい	入力が大きいとメモリ負荷が高い

CNN: "レンズを動かしながら撮影"

🔍 小さなフィルター（カーネル）が画像をスライド

↓

各位置で畳み込み計算 → エッジや色のパターンを抽出

↓

層を重ねるごとに視野（Receptive Field）が広がる

↓

最後に値をまとめて「犬 vs 猫」などを判定

ポイント

コンパクトなフィルターを再利用するためパラメータ数が少ない
近くのピクセル関係を捉えるのが得意（画像・音声・時系列にも応用可）

Transformer: "全員に注目度スコアを配る"

入力の各要素（単語やパッチ）同士で
どれがどれをどれくらい"見ているか" を Attention で数値化

↓

Attention 行列で文脈を重み付け → 重要な情報を強調

↓

これを重ねるだけで長距離依存もキャッチ

ポイント

RNN の逐次処理を排し、 GPU で完全並列 → 学習が高速
文や画像パッチ全体を同時に見るため長い文脈に強い
入力が大きいと計算量 O(N²) がボトルネック

実際どちらを選ぶ？

画像タスク 🖼️

シナリオ	推奨
モバイルで高速推論・低消費電力	CNN（EfficientNet Lite など）
クラウドで高精度を追求	Vision Transformer + データ拡張
物体検出・セグメンテーション	CNN 系 YOLO / Mask R-CNN が成熟

言語タスク 📝

シナリオ	推奨
文書分類・機械翻訳	Transformer（BERT, GPT 系）一択
時系列＋言語のハイブリッド	CNN（局所パターン）＋ Transformer（文脈）の併用

次世代トレンド

アプローチ	概要
ConvNeXt / CoAtNet	CNN と Transformer のハイブリッド構造。畳み込みで局所特徴、Attention で文脈を同時取得
Efficient Attention	Performer, Linformer などで O(N²) → O(N) に削減
マルチモーダル統合	画像＋テキストを同じ Transformer で処理（CLIP, GPT-4o など）

まとめ

📷

CNN は "ズームレンズ" で局所を積み重ね、計算効率が高い

💡

Transformer は "全方位スポットライト" で文脈を一気に把握

🔄

用途と計算リソースに合わせてハイブリッドが主流になりつつある

この違いを押さえると、最新研究や実務プロジェクトで「なぜこのアーキテクチャを選ぶのか？」を説明しやすくなります。

AIインフォグラフィックス集

AI Infographics Collection

CNN vs. Transformer — 何が違う？

図でざっくり比較

CNN: "レンズを動かしながら撮影"

Transformer: "全員に注目度スコアを配る"

実際どちらを選ぶ？

次世代トレンド

まとめ