わからないを、つなげて転がす。

文系GのG検定対策|Part 2まとめ:機械学習の手法と評価を地図で整理する

文系GのG検定対策|Part 2まとめ:機械学習の手法と評価を地図で整理する

このページは、第3章の内容を「試験直前に見返す地図」として整理しています。個別手法の説明は第3章本文で確認してください。

確認すること:どこに何があるか・何と何を比べるか・何で迷うか


第3章の2層構造

AIはデータから学び、未知データを予測し、評価して改善する。

問い
第1層:学習の種類と手法どうやって学ぶのか3-1
第2層:モデルの評価と選択どうやって良し悪しを測るのか3-2

機械学習の手法マップ

構造:3種類の学習 → 教師あり(回帰 / 分類)・教師なし(3系統)・強化学習

教師あり学習

分類手法識別キー
回帰問題
数値を予測
線形回帰直線・数値
ARモデル時系列専用
分類問題
カテゴリを予測
ロジスティック回帰名前は「回帰」でも分類専用
決定木条件分岐・過学習しやすい
ランダムフォレスト決定木+多数決(バギング)
ブースティング逐次修正(AdaBoost・XGBoost)
SVM境界線+マージン最大化

教師なし学習

系統手法識別キー
クラスタリングk-means法非階層・kを事前設定
ウォード法階層型・デンドログラム
次元削減PCA汎用次元削減
SVD文章向け
t-SNE・MDS可視化向け
推薦・トピック分析協調フィルタリング似たユーザー参照・コールドスタート問題あり
コンテンツベースフィルタリング商品特徴参照
LDA文書+複数トピック混合

強化学習

識別キー内容
正解データなし報酬を手がかりに行動を学ぶ
エージェント・環境・報酬サイクルを繰り返して累積報酬を最大化
探索 vs 活用新しい行動を試すか・既知の最善手を使うかのバランス

評価指標マップ

構造:回帰 → 誤差系指標(MSE・RMSE・MAE)/分類 → 混同行列ベース(適合率・再現率・F値)/閾値評価 → ROC・AUC

問題指標重視する場面
回帰MSE外れ値を強く反映
RMSE元の単位と対応させたい
MAE外れ値の影響を抑えたい
分類正解率クラスが均等なとき
適合率誤検出を防ぐ(スパム判定など)
再現率見逃しを防ぐ(病気検出など)
F値適合率と再現率のバランス
確率出力ROC曲線・AUC閾値によらない総合評価
モデル選択AIC・BIC複雑さへのペナルティ

クラス不均衡の落とし穴:不良品が0.03%のとき「全部良品」と答えれば正解率99.97%。でも不良品は1個も見つけられない。不均衡データには再現率・F値を使う。


混同しやすい比較一覧

G検定は「知っているか」より「違いを見分けられるか」を問う試験です。試験で迷ったときに戻る一覧。

比較AB見分けるポイント
回帰 vs 分類数値予測カテゴリ判定「いくらか」→回帰、「どちらか」→分類
教師あり vs 教師なし正解ラベルあり正解ラベルなし答えを持っているかどうか
バギング vs ブースティング並列・多数決逐次・誤り修正モデルを並べるか・順番に積むか
適合率 vs 再現率誤検出を防ぐ見逃しを防ぐスパム→適合率、病気検出→再現率
PCA vs k-means次元削減(列を圧縮)クラスタリング(行をまとめる)特徴量を減らすか・データをグループ化するか
k-means vs ウォード法非階層・kを設定階層型・デンドログラムデンドログラムが出たらウォード法
協調 vs コンテンツベース似たユーザー参照商品特徴参照「人」を参考にするか「モノ」を参考にするか
FP vs FN誤検出見逃し病気検出でFN=患者を見逃す致命的ミス
ホールドアウト vs k-分割1回分割・シンプルk回繰り返す・偏りを抑えるデータが少ないならk-分割
AIC vs BICパラメータ数にペナルティデータ数が多いほど厳しくどちらを使うかの明確な基準はない

試験で狙われるひっかけ

ロジスティック回帰は回帰問題に使う手法か?

いいえ。名前に「回帰」とあるが分類問題専用。G検定最頻出のひっかけ。

バギングとブースティングの違いは?

バギング=並列・多数決(ランダムフォレスト)。ブースティング=逐次・誤り修正(AdaBoost・XGBoost)。どちらもアンサンブル学習。

正解率が高いだけでは不十分な場合とは?

クラス不均衡のとき。多数派に全分類するだけで正解率が高くなるから。再現率・F値を使う。

適合率と再現率の使い分けは?

誤検出を防ぎたい→適合率。見逃しを防ぎたい→再現率。2つはトレードオフ。バランスを見るのがF値。


次のステップ

Part 2(第3章)の地図が整理できました。

次はPart 3(第4章・第5章)です。いよいよディープラーニングの内部構造に踏み込みます。ニューラルネットワークがどう学ぶのか、誤差をどうやって逆向きに伝えるのか——機械学習の「手法の名前を知っている」状態から「なぜ動くのかが分かる」状態への移行です。

この記事をシェアする

記事一覧へ戻る

関連記事 Relation Entry