IT用語集 2024/09/04

ロジスティック回帰とは？ 10分でわかりやすく解説

コラム

ロジスティック回帰は、二値分類を中心に広く使われている機械学習モデルのひとつです。確率として出力でき、係数の意味（どの特徴がどれくらい効くか）も説明しやすいため、実務の「まずは基準モデルを作る」場面でよく採用されます。本記事では、ロジスティック回帰の考え方・数式の背景・実装手順・適用上の注意点までを、判断材料が残る形で整理します。

ロジスティック回帰とは何か

ロジスティック回帰とは、機械学習（統計的学習）の手法の一つであり、特徴量（説明変数）から「目的変数が1になる確率」を推定するモデルです。典型例は「購入する／しない」「不正／正常」「退会する／しない」などの二値分類で、予測結果を0〜1の確率として扱える点が特徴です。

ロジスティック回帰の基本的な考え方

ロジスティック回帰は、まず特徴量の線形結合（スコア）を作り、そのスコアをシグモイド（ロジスティック）関数で0〜1に変換して確率として解釈します。重要なのは「関係性を全部“非線形”にしている」のではなく、確率（厳密にはオッズの対数＝ロジット）を線形にモデル化する、という点です。

線形予測子：z = β0 + β1x1 + … + βpxp
確率変換：p = 1 / (1 + exp(-z))

実務的には、以下の流れで扱うことが多いです。

データの準備と前処理（欠損・カテゴリ変数・スケーリングなど）
モデル学習（係数βの推定、正則化の有無の決定）
評価（精度指標、閾値、過学習、偏りの確認）
運用（予測確率の利用、監視、再学習）

ロジスティック回帰と線形回帰の違い

ロジスティック回帰と線形回帰は、どちらも「係数を推定して予測する」点は似ていますが、目的と出力の扱いが異なります。

	ロジスティック回帰	線形回帰
目的変数	カテゴリカル（主に二値。多クラスにも拡張可）	連続値
出力	0〜1の確率（推定確率）	実数値（予測値）
モデルの意味	ロジット（対数オッズ）を線形で表す	目的変数そのものを線形で表す

ロジスティック回帰のメリットとデメリット

ロジスティック回帰は「強力だが万能ではない」モデルです。現場での向き不向きが判断できるよう、要点を整理します。

メリット：確率で出せる／係数の解釈が比較的しやすい（オッズ比として説明できる）／学習が比較的安定しやすい／正則化で制御しやすい
デメリット：単純な形だと複雑な非線形境界を表現しにくい／特徴量設計（多項式・交互作用・変換）に性能が左右されやすい／クラス不均衡に弱く、指標設計と閾値設計が不可欠

なお「交互作用を考慮できない」というより、モデルに交互作用項（例：x1*x2）を特徴量として入れない限り自動的には表現しない、が実態に近いです。

ロジスティック回帰が適している問題の特徴

ロジスティック回帰が有力な候補になるのは、たとえば次のような条件が揃うケースです。

目的変数が二値（または多クラス）で、確率として扱いたい
「どの特徴が効いたか」を説明したい（説明責任がある／監査がある）
学習データが極端に少ないわけではない（特に高次元では正則化が重要）
特徴量の作り込み（変換・交互作用・正則化）を前提に設計できる

適用例としては、スパムメール分類、購買・解約の予測、疾患の有無推定、不正検知の一次スコアなどが挙げられます。問題設定によっては決定木系（勾配ブースティング等）やSVM、ニューラルネットのほうが性能が出る場合もあるため、比較の基準モデルとしてまずロジスティック回帰を作り、他手法と指標・運用コストで比較するのが現実的です。

ロジスティック回帰の数学的背景

ロジスティック回帰は「確率を直接当てる」のではなく、確率の形を満たすためのリンク関数を使ってモデル化します。ここでは、式の意味が追える程度に要点を押さえます。

ロジスティック関数（シグモイド関数）

ロジスティック回帰の中核はロジスティック関数（シグモイド）です。実数全体を入力に取り、出力を0〜1に収めるため、確率として解釈できます。

σ(z) = 1 / (1 + exp(-z))

この変換を通すことで、線形予測子zがどんな値でも、確率pは必ず0〜1に収まります。

確率モデル（ロジット：対数オッズ）

ロジスティック回帰では、目的変数Yが1になる確率を次のように置きます。

P(Y=1|X) = 1 / (1 + exp(-(β0 + β1X1 + ... + βpXp)))

ここで重要なのは、確率そのものではなく「オッズの対数（ロジット）」が線形になる点です。

オッズ：p / (1 - p)
ロジット：log(p / (1 - p)) = β0 + β1X1 + ... + βpXp

この性質により、係数βは「特徴量が増えたときにオッズがどう変わるか」を表す指標として解釈できます（説明・監査で強い理由の一つです）。

損失関数（交差エントロピー）

係数βは、学習データに対して予測確率が当てはまるように推定します。一般的には負の対数尤度、実装上は交差エントロピー損失として最小化します。

予測確率と正解ラベルのずれを罰し、全データでの合計が最小になるように係数を更新する、と捉えると理解しやすいです。

最適化（なぜ学習が安定しやすいのか）

ロジスティック回帰（標準的な設定）では、損失関数が凸になるため、適切な最適化手法を使えば局所解にハマりにくい特性があります。実務では勾配降下法だけでなく、Newton法系（Newton-CG）、準Newton（L-BFGS）、確率的勾配法（SGD）などが選択されます。

ただし、正則化の種類や実装により最適化の性質は変わります。たとえばL1正則化は凸ですが滑らかではなく、専用の解法が用いられます。ここは「凸だから常に同じやり方で簡単」と言い切らず、利用ライブラリのソルバと前提を確認するのが安全です。

ロジスティック回帰の実装方法

実装でつまずきやすいのは「モデルそのもの」よりも、データの扱いと評価設計です。ここでは、再現できる形で要点をまとめます。

前処理

ロジスティック回帰の前処理は、結果に直結します。最低限、次の観点を押さえます。

欠損値：削除／補完の方針を決め、学習と推論で同じ処理を適用
カテゴリ変数：ワンホット（ダミー）化などで数値に変換
スケーリング：正則化や勾配系ソルバを使う場合は特に重要（標準化が定番）
多重共線性：強い相関があると係数解釈が不安定になりやすい（対策：特徴量削減・正則化）

前処理は「性能」だけでなく「係数の解釈」や「運用時の安定性」も左右するため、再現性（同じ手順を常に適用できる形）まで含めて設計します。

ハイパーパラメータ調整（正則化とソルバ）

ロジスティック回帰は、実装上「正則化の有無・強さ」と「ソルバ（最適化手法）」が実質的な調整点になります。

正則化：L2（係数を全体的に小さく）／L1（不要な特徴量を0にしやすい）／Elastic Net（混合）
強度：正則化係数（例：Cの逆数として扱う実装もある）
ソルバ：データサイズ、L1対応の有無、多クラス対応などで選択

調整の基本は、交差検証で汎化性能を見ながら、正則化強度と閾値を含めて最終判断することです。

学習と予測（閾値設計が肝）

学習後、モデルは確率pを出します。最終的な分類は、確率を閾値（カットオフ）で区切って0/1に落とすのが一般的です。

訓練データ／検証データ／テストデータに分割
学習（正則化・ソルバ・クラス重み等を含める）
評価（確率の品質と分類品質を分けて確認）
閾値決定（目的：見逃し削減／誤検知抑制／業務コスト最適化など）

閾値0.5が常に最適とは限りません。不正検知のように陽性が希少なケースでは、0.5ではほとんど陽性が出ない（見逃す）こともあり、業務要件に合わせた調整が必要です。

評価指標

二値分類でよく使われる指標は以下です。重要なのは、正解率だけで判断しないことです（クラス不均衡で簡単に誤解します）。

正解率（Accuracy）
適合率（Precision）／再現率（Recall）
F1スコア
ROC-AUC（閾値を動かしたときの識別性能）
PR-AUC（陽性が少ない場合に有用なことが多い）

また、確率としての妥当性（「0.8と言ったものが本当に8割当たるか」）を重視するなら、キャリブレーション（校正）も検討対象になります。

ロジスティック回帰の応用例

ロジスティック回帰は「解釈できる確率モデル」として、さまざまな領域で現役です。ここでは代表例を、どのように使うかが想像できる粒度で整理します。

スパムメールの分類

メール本文（単語・n-gram・TF-IDFなど）や送信者情報を特徴量とし、スパム／非スパムを分類します。まずロジスティック回帰で基準性能を作り、必要に応じてより複雑なモデルへ進むという進め方が現実的です。

クレジットカードの不正利用検知

取引金額、利用場所、時間帯、過去の利用傾向などから不正確率を推定します。ここでは誤検知コスト（止めすぎ）と見逃しコスト（被害拡大）のバランスが重要で、閾値設計と運用ルール（追加認証、保留、アラート）まで含めて設計します。

広告のクリック率（CTR）予測

ユーザー属性、閲覧文脈、広告の特徴量からクリック確率を推定します。確率がそのまま入札や配信最適化の入力になるため、確率の安定性・再学習・ドリフト監視が実務ポイントになります。

医療診断での疾患の有無予測

症状や検査値から疾患の有無の確率を推定し、スクリーニングや補助判断に活用します。医療用途では特に、データの偏り、説明可能性、見逃し許容度が設計上の大きな論点になります。

まとめ

ロジスティック回帰は、特徴量の線形結合をシグモイド関数で0〜1に変換し、目的変数が1となる確率を推定するモデルです。ロジット（対数オッズ）を線形に表すため、係数の解釈がしやすく、実務の基準モデルとして使われやすい点が強みです。一方で、複雑な非線形関係は特徴量設計や別モデルで補う必要があり、クラス不均衡では指標選定と閾値設計が欠かせません。前処理・正則化・評価設計まで含めて組み立てることで、説明可能で運用しやすい分類モデルとして有効に活用できます。