UnsplashのIgor Omilaevが撮影した写真
データに基づいて最も「尤もらしい」パラメータを推定する統計手法が、最尤推定(Maximum Likelihood Estimation:MLE)です。統計モデリングや機械学習など幅広い分野で活用されますが、適切に使うには原理・前提・限界を理解しておく必要があります。本記事では、最尤推定の基本的な考え方、尤度関数の役割、推定手順と性質、代表的な計算例、応用分野、実務上の留意点までを、10分で全体像がつかめるように整理します。最尤推定を正しく理解し、データ解析の精度向上や意思決定の支援に役立ててください。
最尤推定は、統計学における代表的なパラメータ推定法のひとつです。観測データが「ある確率分布に従って生成された」と仮定したうえで、そのデータが最も起こりやすくなるような分布のパラメータを推定します。
最尤推定の考え方は次の3点に集約できます。
つまり最尤推定は、観測されたデータが最も起こりやすくなるパラメータを選ぶ推定法です。
| ステップ | 内容 |
|---|---|
| 1. 分布の仮定 | データが従う確率分布(モデル)を仮定する |
| 2. 尤度関数の定義 | パラメータのもとでデータが得られる確率(尤度)を、パラメータの関数として表す |
| 3. 尤度の最大化 | 尤度関数を最大化するパラメータを求める |
この流れが、最尤推定の骨格です。
一方で、これらは「前提が概ね満たされる」「最適化が安定して解ける」といった条件の上に成り立ちます。利点だけでなく限界も後半で整理します。
推定法にはいくつか流派があり、使い分けが重要です。
| 推定法 | 特徴 |
|---|---|
| モーメント法 | 母集団のモーメント(平均・分散など)と標本モーメントを一致させて推定する |
| ベイズ推定 | 事前分布と尤度から事後分布を求め、事後分布に基づいて推定する |
| 最尤推定 | 尤度関数を最大化するパラメータを推定値とする |
最尤推定は多くの場面で扱いやすい一方で、分布仮定・独立性・最適化の安定性などに注意が必要です。
最尤推定の中心は尤度関数です。尤度関数とは、観測データが得られる確率を、パラメータの関数として表したものです。
たとえば、データが独立同一分布(i.i.d.)で、確率密度(または確率質量)を f(x|θ) とすると、観測データ x1, …, xn に対する尤度は次のように書けます。
L(θ) = ∏i=1n f(xi | θ)
「確率(密度)」をデータの関数として見るのではなく、パラメータθの関数として見るのがポイントです。
最大化は解析的に解ける場合もあれば、数値最適化が必要な場合もあります。
最尤推定量は大標本で次の性質を持つことが多いとされます(ただし一般条件が必要です)。
導出・計算では次の方法がよく使われます。
| 方法 | 説明 |
|---|---|
| 対数尤度の最大化 | 積は扱いにくいので log を取って和に変換し、最大化する |
| 尤度方程式の解法 | 対数尤度を微分して0になる点(停留点)を求める |
| 数値最適化 | 解析解が出ない場合に、勾配法・ニュートン法などで最大化する |
正規分布 N(μ, σ2) に従うデータ x1, …, xn から、μとσ2を最尤推定する例を見てみます。
尤度関数は次の形になります。
L(μ, σ2) = (2πσ2)-n/2 × exp( - Σi=1n(xi - μ)2 / (2σ2) )
対数尤度を μ と σ2 で偏微分して0と置くと、最尤推定量は次の通りです。
ここで注意したいのは、分散推定が「1/(n-1)」ではなく「1/n」になる点です。これは最尤推定の結果であり、不偏分散とは目的が違います(推定法が違うため、結果が異なるのは自然です)。
最尤推定は「モデルの当てはまりを最大化する」枠組みなので、多くの統計モデル・学習モデルの基礎になります。
回帰分析や一般化線形モデルなどでは、モデルのパラメータを最尤推定で求めることが一般的です。最尤推定により、データに最も整合するパラメータを推定し、当てはまりの評価や比較に利用できます。
ロジスティック回帰、ガウス混合モデル、隠れマルコフモデルなど、多くのモデル学習は「尤度(対数尤度)最大化」として定式化できます。最尤推定の考え方が分かると、損失関数や学習の意味が整理しやすくなります。
時系列モデル、資産価格モデル、ボラティリティ推定などで、観測データに基づきパラメータを推定する際に最尤推定が使われます。モデル仮定が妥当か、推定が安定しているかが特に重要になります。
物理・化学・生物などの実験データ解析でも、理論モデルのパラメータ推定に最尤推定が登場します。「誤差モデルを含めて尤度を立てる」という発想が、結果の解釈に直結します。
最尤推定の結果は、主に次の前提に依存します。
前提が崩れると、推定値は「それっぽく見えても」信頼できないことがあります。さらに、次の限界も押さえておく必要があります。
数値最適化を使う最尤推定では、初期値が結果に影響することがあります。初期値が悪いと、収束が遅い、局所解に落ちる、そもそも発散する、といった問題が起こり得ます。複数の初期値で試す、簡易推定(モーメント法など)を初期値に使う、といった工夫が実務では有効です。
収束判定は、尤度の改善量、勾配の大きさ、パラメータ更新量などで行います。閾値が緩すぎると精度不足、厳しすぎると計算が終わらない、というトレードオフがあるため、目的(精度・速度・再現性)に合わせて設計します。
最尤推定の計算では、次のような問題が起きがちです。
対処としては、最適化手法の見直し(ニュートン法、準ニュートン法、EMなど)、スケーリング、正則化、パラメータの再パラメータ化(例:分散をlogで置く)などが候補になります。ここは「数学」よりも「実装設計」の比重が高いポイントです。
推定値が出たら、それで終わりではありません。次の観点で評価します。
データ品質が低いと、最尤推定は「綺麗に収束したように見えても」意味の薄い結果になり得ます。前処理やロバスト化も含めて、推定の信頼性を設計することが重要です。
最尤推定は、観測データに基づいて、データが生成される確率(尤度)が最大となるように確率分布のパラメータを推定する手法です。尤度関数を定義し、それを最大化することで推定値を得ます。統計モデリングや機械学習、経済・金融、自然科学まで幅広く応用されますが、分布仮定や独立性などの前提、サンプルサイズ、局所解、数値最適化の安定性といった実務上の注意点も無視できません。原理と限界をセットで理解しておくことで、最尤推定を「使える道具」として活用しやすくなります。
観測データが得られる確率(尤度)が最大になるように、確率分布のパラメータを推定する方法です。
確率は「パラメータを固定してデータの起こりやすさを見る」のに対し、尤度は「観測データを固定してパラメータの良さを見る」点が違います。
積が和に変わって計算が安定しやすく、微分や最適化が扱いやすくなるためです。
分布仮定や独立性などの前提が崩れると、見かけ上それらしくても信頼できない推定になることがあります。
推定が不安定になったり、バイアスが目立ったり、信頼区間が広がったりする可能性が高まります。
尤度が複数の山を持つ場合に、真に最大の点ではなく、近くの山の頂上で最適化が止まってしまう状態です。
数値最適化を使う場合、収束の速さや到達する解に影響します。複数初期値で試すのが安全です。
最尤推定は尤度最大化で点推定を得るのに対し、ベイズ推定は事前分布と尤度から事後分布を求め、不確実性込みで推定します。
推定値の妥当性、当てはまり、標準誤差や信頼区間、外れ値や欠損の影響などを合わせて確認します。
ロジスティック回帰や混合モデルなど、学習が「対数尤度最大化(またはその等価な損失最小化)」として定式化される場面で頻出します。