💻 ITパスポート | テクノロジ系

転移学習とは?

大量データで訓練済みのAIモデルを「使い回して」、少ないデータで新しいタスクに活用する技術。

🎬 こんなシーンを想像
医療スタートアップがX線画像でがん診断AIを作りたい。でも学習データは数百枚しかない。ゼロから訓練するには数十万枚のデータと膨大なコストが必要…。
…少ないデータでも精度の高いAIを作れないの?

既存の大規模モデル(ImageNet等で学習済み)の「知識」を流用するのが転移学習

🧠 転移学習の仕組み 学習済みモデル (ImageNet等で訓練) 特徴抽出層(流用) 特徴抽出層(流用) 特徴抽出層(流用) 出力層(新しく学習) 流用 新タスクモデル (少数データで学習) 特徴抽出層(そのまま) 特徴抽出層(そのまま) 特徴抽出層(そのまま) 出力層(新規学習)

特徴抽出層(エッジ検出・形状認識など)はそのまま使い回し、最後の出力層だけ新しいタスク向けに学習し直す。データが少なくてもコストが安くても、高精度を実現できる。

🔄 転移学習の手順
① 事前学習済みモデルを選ぶ
大規模データセット(ImageNet、GPTなど)で訓練済みのモデルを入手。
② ファインチューニング(微調整)
新しいタスクの少量データを使い、出力層(または一部の層)を再学習させる。
③ 新タスクで高精度を実現
少ないデータ・短い学習時間で、ゼロから訓練するより高い精度が出る。
ゼロから訓練

大量データ・長期間・高コスト。データが少ないと過学習しやすい。

転移学習

少量データ・短期間・低コスト。既存モデルの知識を活用できる。

⚠️ ひっかけ注意ポイント
「転移学習=ファインチューニング」は不正確
ファインチューニングは転移学習の一手法。転移学習は概念で、ファインチューニングはその具体的な実施方法の1つ。
「少量データでも大丈夫」の理由を理解する
特徴抽出のための知識は既存モデルが持っている。新タスクで学習するのは出力部分だけなのでデータが少なくて済む。
機械学習・深層学習との違い
機械学習・深層学習はデータから学習する手法全般。転移学習はその中で「既存モデルを活用する」特定のアプローチ。
ドメインが大きく違うと効果が薄い
画像認識モデルを自然言語処理に転用するなど、タスクの性質が全く異なる場合は転移学習の効果が下がる。
🧠 覚え方(無理やりゴロ)
転移学習=「先輩の脳みそを借りて試験を受ける」
先輩(大規模モデル)の知識(特徴抽出層)をそのまま借りて、自分の科目(新タスク)だけ足す

ゴロ:「転校生(転移)は前の学校の知識を持ち込む」
転校生=転移学習 / 前の学校で得た知識(学習済みモデル)を新しい学校(新タスク)で活かす
ITパスポート 詳細解説 / itp-transfer-learning