このページは、第3章の内容を「試験直前に見返す地図」として整理しています。個別手法の説明は第3章本文で確認してください。
確認すること:どこに何があるか・何と何を比べるか・何で迷うか。
第3章の2層構造
AIはデータから学び、未知データを予測し、評価して改善する。
| 層 | 問い | 節 |
|---|---|---|
| 第1層:学習の種類と手法 | どうやって学ぶのか | 3-1 |
| 第2層:モデルの評価と選択 | どうやって良し悪しを測るのか | 3-2 |
機械学習の手法マップ
教師あり学習
| 分類 | 手法 | 識別キー |
|---|---|---|
| 回帰問題 数値を予測 | 線形回帰 | 直線・数値 |
| ARモデル | 時系列専用 | |
| 分類問題 カテゴリを予測 | ロジスティック回帰 | 名前は「回帰」でも分類専用 |
| 決定木 | 条件分岐・過学習しやすい | |
| ランダムフォレスト | 決定木+多数決(バギング) | |
| ブースティング | 逐次修正(AdaBoost・XGBoost) | |
| SVM | 境界線+マージン最大化 |
教師なし学習
| 系統 | 手法 | 識別キー |
|---|---|---|
| クラスタリング | k-means法 | 非階層・kを事前設定 |
| ウォード法 | 階層型・デンドログラム | |
| 次元削減 | PCA | 汎用次元削減 |
| SVD | 文章向け | |
| t-SNE・MDS | 可視化向け | |
| 推薦・トピック分析 | 協調フィルタリング | 似たユーザー参照・コールドスタート問題あり |
| コンテンツベースフィルタリング | 商品特徴参照 | |
| LDA | 文書+複数トピック混合 |
強化学習
| 識別キー | 内容 |
|---|---|
| 正解データなし | 報酬を手がかりに行動を学ぶ |
| エージェント・環境・報酬 | サイクルを繰り返して累積報酬を最大化 |
| 探索 vs 活用 | 新しい行動を試すか・既知の最善手を使うかのバランス |
評価指標マップ
| 問題 | 指標 | 重視する場面 |
|---|---|---|
| 回帰 | MSE | 外れ値を強く反映 |
| RMSE | 元の単位と対応させたい | |
| MAE | 外れ値の影響を抑えたい | |
| 分類 | 正解率 | クラスが均等なとき |
| 適合率 | 誤検出を防ぐ(スパム判定など) | |
| 再現率 | 見逃しを防ぐ(病気検出など) | |
| F値 | 適合率と再現率のバランス | |
| 確率出力 | ROC曲線・AUC | 閾値によらない総合評価 |
| モデル選択 | AIC・BIC | 複雑さへのペナルティ |
混同しやすい比較一覧
| 比較 | A | B | 見分けるポイント |
|---|---|---|---|
| 回帰 vs 分類 | 数値予測 | カテゴリ判定 | 「いくらか」→回帰、「どちらか」→分類 |
| 教師あり vs 教師なし | 正解ラベルあり | 正解ラベルなし | 答えを持っているかどうか |
| バギング vs ブースティング | 並列・多数決 | 逐次・誤り修正 | モデルを並べるか・順番に積むか |
| 適合率 vs 再現率 | 誤検出を防ぐ | 見逃しを防ぐ | スパム→適合率、病気検出→再現率 |
| PCA vs k-means | 次元削減(列を圧縮) | クラスタリング(行をまとめる) | 特徴量を減らすか・データをグループ化するか |
| k-means vs ウォード法 | 非階層・kを設定 | 階層型・デンドログラム | デンドログラムが出たらウォード法 |
| 協調 vs コンテンツベース | 似たユーザー参照 | 商品特徴参照 | 「人」を参考にするか「モノ」を参考にするか |
| FP vs FN | 誤検出 | 見逃し | 病気検出でFN=患者を見逃す致命的ミス |
| ホールドアウト vs k-分割 | 1回分割・シンプル | k回繰り返す・偏りを抑える | データが少ないならk-分割 |
| AIC vs BIC | パラメータ数にペナルティ | データ数が多いほど厳しく | どちらを使うかの明確な基準はない |
試験で狙われるひっかけ
- ロジスティック回帰は回帰問題に使う手法か?
-
いいえ。名前に「回帰」とあるが分類問題専用。G検定最頻出のひっかけ。
- バギングとブースティングの違いは?
-
バギング=並列・多数決(ランダムフォレスト)。ブースティング=逐次・誤り修正(AdaBoost・XGBoost)。どちらもアンサンブル学習。
- 正解率が高いだけでは不十分な場合とは?
-
クラス不均衡のとき。多数派に全分類するだけで正解率が高くなるから。再現率・F値を使う。
- 適合率と再現率の使い分けは?
-
誤検出を防ぎたい→適合率。見逃しを防ぎたい→再現率。2つはトレードオフ。バランスを見るのがF値。
次のステップ
Part 2(第3章)の地図が整理できました。
次はPart 3(第4章・第5章)です。いよいよディープラーニングの内部構造に踏み込みます。ニューラルネットワークがどう学ぶのか、誤差をどうやって逆向きに伝えるのか——機械学習の「手法の名前を知っている」状態から「なぜ動くのかが分かる」状態への移行です。
