IT用語集 2024/08/09

最尤推定とは？ 10分でわかりやすく解説

コラム

UnsplashのIgor Omilaevが撮影した写真

最尤推定（Maximum Likelihood Estimation：MLE）は、観測データのもとで尤度が最大になるパラメータを選ぶ推定法です。統計モデリングや機械学習で広く使われますが、分布仮定や独立性、最適化の安定性を外すと推定結果を誤って解釈しやすくなります。定義と尤度関数の意味が分かると、計算例や応用分野、実務上の注意点も追いやすくなります。

最尤推定とは

最尤推定は、統計学における代表的なパラメータ推定法のひとつです。観測データが「ある確率分布に従って生成された」と仮定したうえで、そのデータが最も起こりやすくなるような分布のパラメータを推定します。

最尤推定の定義と概要

最尤推定は、次の3点で捉えると理解しやすくなります。

与えられたデータが、ある確率分布に従って生成されたと仮定する
その確率分布のパラメータを推定する
推定したパラメータのもとで、観測データが得られる確率（尤度）が最大となるようなパラメータを選ぶ

つまり最尤推定は、観測されたデータが最も起こりやすくなるパラメータを選ぶ推定法です。

最尤推定の基本的な考え方

ステップ	内容
1. 分布の仮定	データが従う確率分布（モデル）を仮定する
2. 尤度関数の定義	パラメータのもとでデータが得られる確率（尤度）を、パラメータの関数として表す
3. 尤度の最大化	尤度関数を最大化するパラメータを求める

この3段階が、最尤推定の基本的な流れです。

最尤推定の特徴と利点

「観測データが最も起こりやすい」という直感に沿い、概念として理解しやすい
大標本では推定量の性質が良いことが多い（例：一致性、漸近正規性、漸近効率性）
制約のあるパラメータ空間（例：分散は0以上）でも扱いやすい
多様な確率分布・モデルに適用でき、汎用性が高い

ただし、これらの利点は「前提が概ね満たされる」「最適化が安定して解ける」といった条件の上で期待しやすい性質です。利点だけでなく、どんな条件で成り立つか、どこで崩れやすいかも確認しておく必要があります。

最尤推定と他の推定法との違い

推定法にはいくつか流派があり、使い分けが重要です。

推定法	特徴
モーメント法	母集団のモーメント（平均・分散など）と標本モーメントを一致させて推定する
ベイズ推定	事前分布と尤度から事後分布を求め、事後分布に基づいて推定する
最尤推定	尤度関数を最大化するパラメータを推定値とする

最尤推定は多くの場面で扱いやすい一方で、分布仮定・独立性・最適化の安定性などに注意が必要です。

最尤推定の原理と仕組み

尤度関数の概念と役割

最尤推定では、尤度をどう定義するかが出発点になります。尤度関数とは、観測データが得られる確率質量または確率密度を、パラメータの関数として表したものです。

たとえば、データが独立同一分布（i.i.d.）で、確率密度（または確率質量）を f(x|θ) とすると、観測データ x₁, …, x_n に対する尤度は次のように書けます。

L(θ) = ∏_i=1ⁿ f(x_i | θ)

「確率（密度）」をデータの関数として見るのではなく、パラメータθの関数として見るのがポイントです。

パラメータ推定の手順

データが従う確率分布（モデル）を仮定する
尤度関数 L(θ) を定義する（扱いやすさのため、対数尤度にすることが多い）
尤度（または対数尤度）を最大化する θ を求める
得られた θ を最尤推定値（MLE）として採用する

最大化は解析的に解ける場合もあれば、数値最適化が必要な場合もあります。

最尤推定量の性質と導出方法

最尤推定量は大標本で次の性質を持つことが多いとされます（ただし一般条件が必要です）。

一致性：標本サイズが大きくなるほど真のパラメータに近づく
漸近正規性：大標本で推定量が正規分布に近づく
漸近効率性：条件下で分散が理論限界（クラメル・ラオ下界）に近づく

導出・計算では次の方法がよく使われます。

方法	説明
対数尤度の最大化	積は扱いにくいので log を取って和に変換し、最大化する
尤度方程式の解法	対数尤度を微分して0になる点（停留点）を求める
数値最適化	解析解が出ない場合に、勾配法・ニュートン法などで最大化する

最尤推定の計算例

正規分布 N(μ, σ²) に従うデータ x₁, …, x_n から、μとσ²を最尤推定する例を見てみます。

尤度関数は次の形になります。

L(μ, σ²) = (2πσ²)^-n/2 × exp( - Σ_i=1ⁿ(x_i - μ)² / (2σ²) )

対数尤度を μ と σ² で偏微分して0と置くと、最尤推定量は次の通りです。

μの最尤推定量：μ̂ = (1/n) Σ_i=1ⁿ x_i（標本平均）
σ²の最尤推定量：σ̂² = (1/n) Σ_i=1ⁿ (x_i - μ̂)²

ここで注意したいのは、分散推定が「1/(n-1)」ではなく「1/n」になる点です。これは最尤推定の結果であり、不偏分散とは目的が違います（推定法が違うため、結果が異なるのは自然です）。

最尤推定の応用分野

最尤推定は、観測データを最もよく説明するパラメータを選ぶ考え方なので、多くの統計モデルや学習モデルで推定の基準として使われます。

統計モデリングにおける活用

回帰分析や一般化線形モデルなどでは、モデルのパラメータを最尤推定で求めることが一般的です。最尤推定により、データに最も整合するパラメータを推定し、当てはまりの評価や比較に利用できます。

機械学習アルゴリズムへの適用

ロジスティック回帰、ガウス混合モデル、隠れマルコフモデルなど、多くのモデル学習は「尤度（対数尤度）最大化」として定式化できます。最尤推定の考え方が分かると、損失関数が何を最適化しているのかも理解しやすくなります。

経済学・金融工学での利用

時系列モデル、資産価格モデル、ボラティリティ推定などで、観測データに基づきパラメータを推定する際に最尤推定が使われます。モデル仮定が妥当か、推定が安定しているかが特に重要になります。

自然科学での事例

物理・化学・生物などの実験データ解析でも、理論モデルのパラメータ推定に最尤推定が登場します。「誤差モデルを含めて尤度を立てる」という発想が、結果の解釈に直結します。

最尤推定を使う前に確認したい前提と注意点

前提条件と限界

最尤推定の結果は、主に次の前提に依存します。

独立同一分布など、データ生成過程に関する仮定が概ね妥当である
モデル（分布）が正しく特定されている、または近似として許容できる

前提が崩れると、推定値は「それっぽく見えても」信頼できないことがあります。さらに、次の限界も押さえておく必要があります。

サンプルサイズが小さいと、推定量のバイアスや不安定性が目立つことがある
モデルが複雑すぎると、尤度最大化が過学習に近い振る舞いをする場合がある
尤度が多峰性だと、局所解に捕まって真の解を外す可能性がある

初期値設定と収束判定

数値最適化を使う最尤推定では、初期値が結果に影響することがあります。初期値が悪いと、収束が遅い、局所解に落ちる、そもそも発散する、といった問題が起こり得ます。複数の初期値で試す、簡易推定（モーメント法など）を初期値に使う、といった工夫が実務では有効です。

収束判定は、尤度の改善量、勾配の大きさ、パラメータ更新量などで行います。閾値が緩すぎると精度不足、厳しすぎると計算が終わらない、というトレードオフがあるため、目的（精度・速度・再現性）に合わせて設計します。

計算時の問題と対処法

最尤推定の計算では、次のような問題が起きがちです。

尤度が平坦・急峻で、最適化が不安定になる
高次元で計算量が増え、現実的な時間で終わらない
制約付きパラメータ（分散>0など）の扱いが難しい

対処としては、最適化手法の見直し（ニュートン法、準ニュートン法、EMなど）、スケーリング、正則化、パラメータの再パラメータ化（例：分散をlogで置く）などがあります。ここでは数式そのものより、どう実装して安定に解かせるかが重要になります。

推定結果の解釈と評価

推定値が出たら、それで終わりではありません。次の観点で評価します。

推定されたパラメータが、ドメイン知識やスケール感と矛盾しないか
当てはまりの評価（残差、適合度、比較指標など）で極端な歪みがないか
推定値の不確実性（標準誤差、信頼区間など）を確認できるか
欠損値・外れ値・データの偏りが推定を歪めていないか

データ品質が低いと、最尤推定は「綺麗に収束したように見えても」意味の薄い結果になり得ます。前処理やロバスト化も含めて、推定の信頼性を設計することが重要です。

まとめ

最尤推定は、観測データに対する尤度が最大になるように確率分布のパラメータを推定する方法です。統計モデリングや機械学習、経済・金融、自然科学まで幅広く使われますが、分布仮定や独立性、サンプルサイズ、局所解、数値最適化の安定性を外すと結果を誤って読み取りやすくなります。原理だけでなく、どの前提の上で成り立つ推定かまで合わせて確認することが重要です。