教師あり学習は、入力データと正解ラベルの組み合わせから規則を学び、未知のデータに対して値やカテゴリを予測する機械学習の手法です。売上予測のような連続値の推定にも、スパム判定のようなカテゴリ分類にも使えます。一方で、正解ラベルを十分に用意できない課題や、何を正解と置くか自体が定まっていない課題では使いにくくなります。
教師あり学習は、正解ラベル付きデータを使って、入力と出力の対応関係を学習する方法です。学習済みモデルは、学習時に見ていないデータにも予測を返します。たとえば、過去の取引データから将来の売上を見積もる、メール本文からスパムかどうかを判定する、といった使い方が代表例です。
機械学習の枠組みを大づかみに分けると、正解ラベルを使う教師あり学習、ラベルなしデータから構造を探す教師なし学習、行動と報酬の関係から方策を学ぶ強化学習があります。違いは「何を手掛かりに学ぶか」です。教師あり学習は、予測したい対象が最初から決まっている課題で扱いやすくなります。
| 回帰 | 売上、価格、需要量のような連続値を予測するタスクです。 |
|---|---|
| 分類 | スパムか通常か、解約するかしないかのようなカテゴリを予測するタスクです。 |
予測対象が数値なら回帰、カテゴリなら分類と考えると整理しやすくなります。モデル選定や評価指標も、この違いに合わせて変わります。
学習用データにだけよく当てはまるモデルでは、実運用で役に立ちません。見るべきなのは、未見データに対してどれだけ予測が崩れにくいかです。そのため、訓練データだけで精度を見て終わらせず、検証用データやテストデータで性能を確認します。
まず、目的変数に対応するデータを集めます。次に、欠損値、外れ値、表記ゆれ、カテゴリ変数の変換、スケーリングなどの前処理を行います。前処理の質が低いと、どのモデルを選んでも精度が伸びにくくなります。
モデルへ渡す変数を整える工程です。業務知識に基づいて特徴量を増やすこともあれば、不要な列を減らすこともあります。変数が多すぎる場合は、主成分分析のような次元削減を使うこともありますが、解釈しやすさとの兼ね合いも見ます。
回帰か分類か、データ量が多いか少ないか、説明しやすさをどこまで求めるかに応じてモデルを選びます。学習では、訓練データでパラメータを更新し、検証データで設定を見直します。学習時間や計算資源も選定条件に入ります。
学習後はテストデータで性能を確認します。回帰なら平均絶対誤差や平均二乗誤差、分類なら正解率、適合率、再現率、F1などを見ます。性能が不足する場合は、特徴量、前処理、モデル、しきい値を見直します。
モデルが訓練データに合わせ込みすぎると、未見データで性能が落ちます。対策としては、データ分割、正則化、特徴量削減、早期終了、交差検証などがよく使われます。何を採るかは、データ量とモデルの複雑さで変わります。
連続値を予測する基本的な手法です。説明変数と目的変数の関係を比較的読み取りやすく、基準線として使いやすい一方、複雑な非線形関係は表しにくくなります。
分類問題で使う基本手法です。二値分類との相性がよく、各変数が予測へどう影響するかを比較的説明しやすい点が強みです。境界が複雑な課題では表現力に限界が出ます。
条件分岐を繰り返して予測する手法です。ルールとして読みやすい反面、単体では過学習しやすく、データの変化に敏感です。そのため、実務ではランダムフォレストや勾配ブースティング系を使う場面も多くなります。
非線形な関係を捉えやすく、画像、音声、テキストのような複雑なデータで力を出しやすい手法です。一方で、解釈しにくく、データ量や計算資源も多く要りやすくなります。
教師あり学習は、目的変数が明確で、過去データと正解ラベルをそろえられる場面で扱いやすくなります。たとえば、売上予測、離反予測、与信判定、文書分類、画像分類などです。入力と正解の対応を継続的に集められる業務では、改善のサイクルも回しやすくなります。
ラベル付けのコストが高い場面や、そもそも何を正解と置くかが曖昧な場面では扱いにくくなります。異常検知もその一例で、正常データ中心で見る方法や自己教師あり学習を含む別の枠組みを採ることがあります。画像認識や自然言語処理も、すべてが教師あり学習だけで進むわけではありません。
ラベル付き画像を使って、犬と猫、部品の良否、文書種別などを分類する用途です。画像認識全体を一つにまとめると粗くなりますが、画像分類のように目的を絞ると教師あり学習の説明と整合しやすくなります。
問い合わせ種別の振り分け、レビューの感情分類、ニュース記事のカテゴリ分けなどが代表例です。要約生成や機械翻訳まで広げると学習方式が複数混ざるため、教師あり学習の例としては文書分類の方が説明を閉じやすくなります。
過去実績、季節要因、販促情報、天候などから、将来の販売数量や来店数を予測する用途です。予測対象が数値なので、回帰タスクとして整理しやすくなります。
不正取引や不良品判定のように、正常と異常のラベルを持つデータがある場合は教師あり学習で扱えます。ただし、未知の異常を広く拾いたい場合は、教師なし学習や別の検知手法の方が合うことがあります。
教師あり学習は、正解ラベル付きデータから入力と出力の対応を学び、未知データの値やカテゴリを予測する手法です。回帰と分類が基本で、実務では前処理、特徴量設計、モデル選定、評価、過学習対策まで一続きで見ます。導入判断では、正解ラベルを集められるか、予測対象が明確か、説明しやすさと精度のどちらを優先するかを先に決めると、手法選定がぶれにくくなります。
A.入力データと正解ラベルの対応から規則を学び、未知のデータに対して値やカテゴリを予測する機械学習の手法です。
A.教師あり学習は正解ラベルを使って予測モデルを学び、教師なし学習はラベルなしデータから構造やまとまりを探します。
A.代表的なタスクは回帰と分類です。回帰は連続値、分類はカテゴリを予測します。
A.欠損値処理、外れ値への対応、スケーリング、カテゴリ変数の変換などが代表例です。
A.線形回帰、ロジスティック回帰、決定木、ニューラルネットワークなどが代表例です。
A.データ分割、正則化、特徴量削減、早期終了、交差検証などを組み合わせて抑えます。
A.売上予測、離反予測、文書分類、画像分類、不正判定など、正解ラベルを置ける課題で使われます。
A.予測対象、利用可能なラベル付きデータ、評価指標、運用後の見直し方法を先に決めておくことです。
A.複雑な非線形関係を捉えやすい一方、解釈しにくく、データ量や計算資源を多く要しやすい点が違いです。
A.ラベル付きデータ、前処理の知識、基礎的な統計とプログラミング、評価用データを分ける運用が要ります。