IT用語集

ロジスティック回帰とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

ロジスティック回帰は、二値分類を中心に広く使われている機械学習モデルのひとつです。確率として出力でき、係数の意味(どの特徴がどれくらい効くか)も説明しやすいため、実務の「まずは基準モデルを作る」場面でよく採用されます。本記事では、ロジスティック回帰の考え方・数式の背景・実装手順・適用上の注意点までを、判断材料が残る形で整理します。

ロジスティック回帰とは何か

ロジスティック回帰とは、機械学習(統計的学習)の手法の一つであり、特徴量(説明変数)から「目的変数が1になる確率」を推定するモデルです。典型例は「購入する/しない」「不正/正常」「退会する/しない」などの二値分類で、予測結果を0〜1の確率として扱える点が特徴です。

ロジスティック回帰の基本的な考え方

ロジスティック回帰は、まず特徴量の線形結合(スコア)を作り、そのスコアをシグモイド(ロジスティック)関数で0〜1に変換して確率として解釈します。重要なのは「関係性を全部“非線形”にしている」のではなく、確率(厳密にはオッズの対数=ロジット)を線形にモデル化する、という点です。

  • 線形予測子:z = β0 + β1x1 + … + βpxp
  • 確率変換:p = 1 / (1 + exp(-z))

実務的には、以下の流れで扱うことが多いです。

  1. データの準備と前処理(欠損・カテゴリ変数・スケーリングなど)
  2. モデル学習(係数βの推定、正則化の有無の決定)
  3. 評価(精度指標、閾値、過学習、偏りの確認)
  4. 運用(予測確率の利用、監視、再学習)

ロジスティック回帰と線形回帰の違い

ロジスティック回帰と線形回帰は、どちらも「係数を推定して予測する」点は似ていますが、目的と出力の扱いが異なります。


ロジスティック回帰線形回帰
目的変数カテゴリカル(主に二値。多クラスにも拡張可)連続値
出力0〜1の確率(推定確率)実数値(予測値)
モデルの意味ロジット(対数オッズ)を線形で表す目的変数そのものを線形で表す

ロジスティック回帰のメリットとデメリット

ロジスティック回帰は「強力だが万能ではない」モデルです。現場での向き不向きが判断できるよう、要点を整理します。

  • メリット:確率で出せる/係数の解釈が比較的しやすい(オッズ比として説明できる)/学習が比較的安定しやすい/正則化で制御しやすい
  • デメリット:単純な形だと複雑な非線形境界を表現しにくい/特徴量設計(多項式・交互作用・変換)に性能が左右されやすい/クラス不均衡に弱く、指標設計と閾値設計が不可欠

なお「交互作用を考慮できない」というより、モデルに交互作用項(例:x1*x2)を特徴量として入れない限り自動的には表現しない、が実態に近いです。

ロジスティック回帰が適している問題の特徴

ロジスティック回帰が有力な候補になるのは、たとえば次のような条件が揃うケースです。

  • 目的変数が二値(または多クラス)で、確率として扱いたい
  • 「どの特徴が効いたか」を説明したい(説明責任がある/監査がある)
  • 学習データが極端に少ないわけではない(特に高次元では正則化が重要)
  • 特徴量の作り込み(変換・交互作用・正則化)を前提に設計できる

適用例としては、スパムメール分類、購買・解約の予測、疾患の有無推定、不正検知の一次スコアなどが挙げられます。問題設定によっては決定木系(勾配ブースティング等)やSVM、ニューラルネットのほうが性能が出る場合もあるため、比較の基準モデルとしてまずロジスティック回帰を作り、他手法と指標・運用コストで比較するのが現実的です。

ロジスティック回帰の数学的背景

ロジスティック回帰は「確率を直接当てる」のではなく、確率の形を満たすためのリンク関数を使ってモデル化します。ここでは、式の意味が追える程度に要点を押さえます。

ロジスティック関数(シグモイド関数)

ロジスティック回帰の中核はロジスティック関数(シグモイド)です。実数全体を入力に取り、出力を0〜1に収めるため、確率として解釈できます。

σ(z) = 1 / (1 + exp(-z))

この変換を通すことで、線形予測子zがどんな値でも、確率pは必ず0〜1に収まります。

確率モデル(ロジット:対数オッズ)

ロジスティック回帰では、目的変数Yが1になる確率を次のように置きます。

P(Y=1|X) = 1 / (1 + exp(-(β0 + β1X1 + ... + βpXp)))

ここで重要なのは、確率そのものではなく「オッズの対数(ロジット)」が線形になる点です。

  • オッズ:p / (1 - p)
  • ロジット:log(p / (1 - p)) = β0 + β1X1 + ... + βpXp

この性質により、係数βは「特徴量が増えたときにオッズがどう変わるか」を表す指標として解釈できます(説明・監査で強い理由の一つです)。

損失関数(交差エントロピー)

係数βは、学習データに対して予測確率が当てはまるように推定します。一般的には負の対数尤度、実装上は交差エントロピー損失として最小化します。

予測確率と正解ラベルのずれを罰し、全データでの合計が最小になるように係数を更新する、と捉えると理解しやすいです。

最適化(なぜ学習が安定しやすいのか)

ロジスティック回帰(標準的な設定)では、損失関数がになるため、適切な最適化手法を使えば局所解にハマりにくい特性があります。実務では勾配降下法だけでなく、Newton法系(Newton-CG)、準Newton(L-BFGS)、確率的勾配法(SGD)などが選択されます。

ただし、正則化の種類や実装により最適化の性質は変わります。たとえばL1正則化は凸ですが滑らかではなく、専用の解法が用いられます。ここは「凸だから常に同じやり方で簡単」と言い切らず、利用ライブラリのソルバと前提を確認するのが安全です。

ロジスティック回帰の実装方法

実装でつまずきやすいのは「モデルそのもの」よりも、データの扱いと評価設計です。ここでは、再現できる形で要点をまとめます。

前処理

ロジスティック回帰の前処理は、結果に直結します。最低限、次の観点を押さえます。

  1. 欠損値:削除/補完の方針を決め、学習と推論で同じ処理を適用
  2. カテゴリ変数:ワンホット(ダミー)化などで数値に変換
  3. スケーリング:正則化や勾配系ソルバを使う場合は特に重要(標準化が定番)
  4. 多重共線性:強い相関があると係数解釈が不安定になりやすい(対策:特徴量削減・正則化)

前処理は「性能」だけでなく「係数の解釈」や「運用時の安定性」も左右するため、再現性(同じ手順を常に適用できる形)まで含めて設計します。

ハイパーパラメータ調整(正則化とソルバ)

ロジスティック回帰は、実装上「正則化の有無・強さ」と「ソルバ(最適化手法)」が実質的な調整点になります。

  • 正則化:L2(係数を全体的に小さく)/L1(不要な特徴量を0にしやすい)/Elastic Net(混合)
  • 強度:正則化係数(例:Cの逆数として扱う実装もある)
  • ソルバ:データサイズ、L1対応の有無、多クラス対応などで選択

調整の基本は、交差検証で汎化性能を見ながら、正則化強度と閾値を含めて最終判断することです。

学習と予測(閾値設計が肝)

学習後、モデルは確率pを出します。最終的な分類は、確率を閾値(カットオフ)で区切って0/1に落とすのが一般的です。

  1. 訓練データ/検証データ/テストデータに分割
  2. 学習(正則化・ソルバ・クラス重み等を含める)
  3. 評価(確率の品質と分類品質を分けて確認)
  4. 閾値決定(目的:見逃し削減/誤検知抑制/業務コスト最適化など)

閾値0.5が常に最適とは限りません。不正検知のように陽性が希少なケースでは、0.5ではほとんど陽性が出ない(見逃す)こともあり、業務要件に合わせた調整が必要です。

評価指標

二値分類でよく使われる指標は以下です。重要なのは、正解率だけで判断しないことです(クラス不均衡で簡単に誤解します)。

  • 正解率(Accuracy)
  • 適合率(Precision)/再現率(Recall)
  • F1スコア
  • ROC-AUC(閾値を動かしたときの識別性能)
  • PR-AUC(陽性が少ない場合に有用なことが多い)

また、確率としての妥当性(「0.8と言ったものが本当に8割当たるか」)を重視するなら、キャリブレーション(校正)も検討対象になります。

ロジスティック回帰の応用例

ロジスティック回帰は「解釈できる確率モデル」として、さまざまな領域で現役です。ここでは代表例を、どのように使うかが想像できる粒度で整理します。

スパムメールの分類

メール本文(単語・n-gram・TF-IDFなど)や送信者情報を特徴量とし、スパム/非スパムを分類します。まずロジスティック回帰で基準性能を作り、必要に応じてより複雑なモデルへ進むという進め方が現実的です。

クレジットカードの不正利用検知

取引金額、利用場所、時間帯、過去の利用傾向などから不正確率を推定します。ここでは誤検知コスト(止めすぎ)と見逃しコスト(被害拡大)のバランスが重要で、閾値設計と運用ルール(追加認証、保留、アラート)まで含めて設計します。

広告のクリック率(CTR)予測

ユーザー属性、閲覧文脈、広告の特徴量からクリック確率を推定します。確率がそのまま入札や配信最適化の入力になるため、確率の安定性・再学習・ドリフト監視が実務ポイントになります。

医療診断での疾患の有無予測

症状や検査値から疾患の有無の確率を推定し、スクリーニングや補助判断に活用します。医療用途では特に、データの偏り、説明可能性、見逃し許容度が設計上の大きな論点になります。

まとめ

ロジスティック回帰は、特徴量の線形結合をシグモイド関数で0〜1に変換し、目的変数が1となる確率を推定するモデルです。ロジット(対数オッズ)を線形に表すため、係数の解釈がしやすく、実務の基準モデルとして使われやすい点が強みです。一方で、複雑な非線形関係は特徴量設計や別モデルで補う必要があり、クラス不均衡では指標選定と閾値設計が欠かせません。前処理・正則化・評価設計まで含めて組み立てることで、説明可能で運用しやすい分類モデルとして有効に活用できます。

Q.ロジスティック回帰は「回帰」なのに分類に使うのはなぜですか?

確率(0〜1)を推定し、閾値でクラスに変換できるためです。

Q.ロジスティック回帰の出力はそのまま確率とみなせますか?

多くの場合は確率として扱えますが、データによっては校正が必要です。

Q.線形回帰で二値分類をしてはいけませんか?

出力が0〜1に収まらず確率解釈が崩れるため、一般に推奨されません。

Q.ロジスティック回帰は非線形モデルですか?

確率への変換は非線形ですが、ロジット(対数オッズ)は線形にモデル化します。

Q.交互作用は扱えないのですか?

交互作用項を特徴量として追加すれば扱えます。

Q.クラス不均衡では何に注意すべきですか?

正解率だけで判断せず、再現率やPR-AUC、閾値設計を重視します。

Q.前処理で特に重要な点は何ですか?

カテゴリ変数のエンコード、スケーリング、欠損処理の再現性が重要です。

Q.正則化(L1/L2)はいつ使うべきですか?

過学習や多重共線性が気になるとき、係数を安定させたいときに有効です。

Q.閾値0.5を使うのが一般的ですか?

一般的ですが最適とは限らず、業務要件に合わせて調整します。

Q.多クラス分類にも使えますか?

使えます。ソフトマックス回帰(多項ロジスティック回帰)として拡張します。

記事を書いた人

ソリトンシステムズ・マーケティングチーム