IT用語集

最尤推定とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashのIgor Omilaevが撮影した写真

データに基づいて最も「尤もらしい」パラメータを推定する統計手法が、最尤推定(Maximum Likelihood Estimation:MLE)です。統計モデリングや機械学習など幅広い分野で活用されますが、適切に使うには原理・前提・限界を理解しておく必要があります。本記事では、最尤推定の基本的な考え方、尤度関数の役割、推定手順と性質、代表的な計算例、応用分野、実務上の留意点までを、10分で全体像がつかめるように整理します。最尤推定を正しく理解し、データ解析の精度向上や意思決定の支援に役立ててください。

最尤推定とは何か

最尤推定は、統計学における代表的なパラメータ推定法のひとつです。観測データが「ある確率分布に従って生成された」と仮定したうえで、そのデータが最も起こりやすくなるような分布のパラメータを推定します。

最尤推定の定義と概要

最尤推定の考え方は次の3点に集約できます。

  1. 与えられたデータが、ある確率分布に従って生成されたと仮定する
  2. その確率分布のパラメータを推定する
  3. 推定したパラメータのもとで、観測データが得られる確率(尤度)が最大となるようなパラメータを選ぶ

つまり最尤推定は、観測されたデータが最も起こりやすくなるパラメータを選ぶ推定法です。

最尤推定の基本的な考え方

ステップ内容
1. 分布の仮定データが従う確率分布(モデル)を仮定する
2. 尤度関数の定義パラメータのもとでデータが得られる確率(尤度)を、パラメータの関数として表す
3. 尤度の最大化尤度関数を最大化するパラメータを求める

この流れが、最尤推定の骨格です。

最尤推定の特徴と利点

  • 「観測データが最も起こりやすい」という直感に沿い、概念として理解しやすい
  • 大標本では推定量の性質が良いことが多い(例:一致性、漸近正規性、漸近効率性)
  • 制約のあるパラメータ空間(例:分散は0以上)でも扱いやすい
  • 多様な確率分布・モデルに適用でき、汎用性が高い

一方で、これらは「前提が概ね満たされる」「最適化が安定して解ける」といった条件の上に成り立ちます。利点だけでなく限界も後半で整理します。

最尤推定と他の推定法との違い

推定法にはいくつか流派があり、使い分けが重要です。

推定法特徴
モーメント法母集団のモーメント(平均・分散など)と標本モーメントを一致させて推定する
ベイズ推定事前分布と尤度から事後分布を求め、事後分布に基づいて推定する
最尤推定尤度関数を最大化するパラメータを推定値とする

最尤推定は多くの場面で扱いやすい一方で、分布仮定・独立性・最適化の安定性などに注意が必要です。

最尤推定の原理と仕組み

尤度関数の概念と役割

最尤推定の中心は尤度関数です。尤度関数とは、観測データが得られる確率を、パラメータの関数として表したものです。

たとえば、データが独立同一分布(i.i.d.)で、確率密度(または確率質量)を f(x|θ) とすると、観測データ x1, …, xn に対する尤度は次のように書けます。

L(θ) = ∏i=1n f(xi | θ)

「確率(密度)」をデータの関数として見るのではなく、パラメータθの関数として見るのがポイントです。

パラメータ推定の手順

  1. データが従う確率分布(モデル)を仮定する
  2. 尤度関数 L(θ) を定義する(扱いやすさのため、対数尤度にすることが多い)
  3. 尤度(または対数尤度)を最大化する θ を求める
  4. 得られた θ を最尤推定値(MLE)として採用する

最大化は解析的に解ける場合もあれば、数値最適化が必要な場合もあります。

最尤推定量の性質と導出方法

最尤推定量は大標本で次の性質を持つことが多いとされます(ただし一般条件が必要です)。

  • 一致性:標本サイズが大きくなるほど真のパラメータに近づく
  • 漸近正規性:大標本で推定量が正規分布に近づく
  • 漸近効率性:条件下で分散が理論限界(クラメル・ラオ下界)に近づく

導出・計算では次の方法がよく使われます。

方法説明
対数尤度の最大化積は扱いにくいので log を取って和に変換し、最大化する
尤度方程式の解法対数尤度を微分して0になる点(停留点)を求める
数値最適化解析解が出ない場合に、勾配法・ニュートン法などで最大化する

最尤推定の計算例

正規分布 N(μ, σ2) に従うデータ x1, …, xn から、μとσ2を最尤推定する例を見てみます。

尤度関数は次の形になります。

L(μ, σ2) = (2πσ2)-n/2 × exp( - Σi=1n(xi - μ)2 / (2σ2) )

対数尤度を μ と σ2 で偏微分して0と置くと、最尤推定量は次の通りです。

  • μの最尤推定量:μ̂ = (1/n) Σi=1n xi(標本平均)
  • σ2の最尤推定量:σ̂2 = (1/n) Σi=1n (xi - μ̂)2

ここで注意したいのは、分散推定が「1/(n-1)」ではなく「1/n」になる点です。これは最尤推定の結果であり、不偏分散とは目的が違います(推定法が違うため、結果が異なるのは自然です)。

最尤推定の応用分野

最尤推定は「モデルの当てはまりを最大化する」枠組みなので、多くの統計モデル・学習モデルの基礎になります。

統計モデリングにおける活用

回帰分析や一般化線形モデルなどでは、モデルのパラメータを最尤推定で求めることが一般的です。最尤推定により、データに最も整合するパラメータを推定し、当てはまりの評価や比較に利用できます。

機械学習アルゴリズムへの適用

ロジスティック回帰、ガウス混合モデル、隠れマルコフモデルなど、多くのモデル学習は「尤度(対数尤度)最大化」として定式化できます。最尤推定の考え方が分かると、損失関数や学習の意味が整理しやすくなります。

経済学・金融工学での利用

時系列モデル、資産価格モデル、ボラティリティ推定などで、観測データに基づきパラメータを推定する際に最尤推定が使われます。モデル仮定が妥当か、推定が安定しているかが特に重要になります。

自然科学での事例

物理・化学・生物などの実験データ解析でも、理論モデルのパラメータ推定に最尤推定が登場します。「誤差モデルを含めて尤度を立てる」という発想が、結果の解釈に直結します。

最尤推定の実践的な留意点

前提条件と限界

最尤推定の結果は、主に次の前提に依存します。

  • 独立同一分布など、データ生成過程に関する仮定が概ね妥当である
  • モデル(分布)が正しく特定されている、または近似として許容できる

前提が崩れると、推定値は「それっぽく見えても」信頼できないことがあります。さらに、次の限界も押さえておく必要があります。

  • サンプルサイズが小さいと、推定量のバイアスや不安定性が目立つことがある
  • モデルが複雑すぎると、尤度最大化が過学習に近い振る舞いをする場合がある
  • 尤度が多峰性だと、局所解に捕まって真の解を外す可能性がある

初期値設定と収束判定

数値最適化を使う最尤推定では、初期値が結果に影響することがあります。初期値が悪いと、収束が遅い、局所解に落ちる、そもそも発散する、といった問題が起こり得ます。複数の初期値で試す、簡易推定(モーメント法など)を初期値に使う、といった工夫が実務では有効です。

収束判定は、尤度の改善量、勾配の大きさ、パラメータ更新量などで行います。閾値が緩すぎると精度不足、厳しすぎると計算が終わらない、というトレードオフがあるため、目的(精度・速度・再現性)に合わせて設計します。

計算時の問題と対処法

最尤推定の計算では、次のような問題が起きがちです。

  • 尤度が平坦・急峻で、最適化が不安定になる
  • 高次元で計算量が増え、現実的な時間で終わらない
  • 制約付きパラメータ(分散>0など)の扱いが難しい

対処としては、最適化手法の見直し(ニュートン法、準ニュートン法、EMなど)、スケーリング、正則化、パラメータの再パラメータ化(例:分散をlogで置く)などが候補になります。ここは「数学」よりも「実装設計」の比重が高いポイントです。

推定結果の解釈と評価

推定値が出たら、それで終わりではありません。次の観点で評価します。

  • 推定されたパラメータが、ドメイン知識やスケール感と矛盾しないか
  • 当てはまりの評価(残差、適合度、比較指標など)で極端な歪みがないか
  • 推定値の不確実性(標準誤差、信頼区間など)を確認できるか
  • 欠損値・外れ値・データの偏りが推定を歪めていないか

データ品質が低いと、最尤推定は「綺麗に収束したように見えても」意味の薄い結果になり得ます。前処理やロバスト化も含めて、推定の信頼性を設計することが重要です。

まとめ

最尤推定は、観測データに基づいて、データが生成される確率(尤度)が最大となるように確率分布のパラメータを推定する手法です。尤度関数を定義し、それを最大化することで推定値を得ます。統計モデリングや機械学習、経済・金融、自然科学まで幅広く応用されますが、分布仮定や独立性などの前提、サンプルサイズ、局所解、数値最適化の安定性といった実務上の注意点も無視できません。原理と限界をセットで理解しておくことで、最尤推定を「使える道具」として活用しやすくなります。

Q.最尤推定とは何ですか?

観測データが得られる確率(尤度)が最大になるように、確率分布のパラメータを推定する方法です。

Q.尤度と確率は何が違いますか?

確率は「パラメータを固定してデータの起こりやすさを見る」のに対し、尤度は「観測データを固定してパラメータの良さを見る」点が違います。

Q.なぜ対数尤度を使うのですか?

積が和に変わって計算が安定しやすく、微分や最適化が扱いやすくなるためです。

Q.最尤推定は常に正しい推定になりますか?

分布仮定や独立性などの前提が崩れると、見かけ上それらしくても信頼できない推定になることがあります。

Q.サンプルサイズが小さいと何が起きますか?

推定が不安定になったり、バイアスが目立ったり、信頼区間が広がったりする可能性が高まります。

Q.局所解に陥るとはどういうことですか?

尤度が複数の山を持つ場合に、真に最大の点ではなく、近くの山の頂上で最適化が止まってしまう状態です。

Q.初期値はどれくらい重要ですか?

数値最適化を使う場合、収束の速さや到達する解に影響します。複数初期値で試すのが安全です。

Q.最尤推定とベイズ推定の違いは何ですか?

最尤推定は尤度最大化で点推定を得るのに対し、ベイズ推定は事前分布と尤度から事後分布を求め、不確実性込みで推定します。

Q.最尤推定の結果はどう評価すればよいですか?

推定値の妥当性、当てはまり、標準誤差や信頼区間、外れ値や欠損の影響などを合わせて確認します。

Q.機械学習で最尤推定はどこに出てきますか?

ロジスティック回帰や混合モデルなど、学習が「対数尤度最大化(またはその等価な損失最小化)」として定式化される場面で頻出します。

記事を書いた人

ソリトンシステムズ・マーケティングチーム