IT用語集 2024/12/16

ポアソン分布とは？ 10分でわかりやすく解説

コラム

ポアソン分布は、一定時間内や一定範囲内に起きる回数を扱う確率分布です。業務では、「一定の割合で起きるはずなのに、今日は多い／少ない」と感じる事象が意外と多くあります。たとえば問い合わせ件数、エラー発生数、欠品の発生回数などです。以下では、こうした回数データを扱う代表的な確率分布であるポアソン分布について、定義・計算・業務での使いどころ・注意点を順に見ていきます。

ポアソン分布とは何か

ポアソン分布とは、統計学で用いられる離散型の確率分布の一種で、一定の時間（または空間）内に、ある事象が起きる回数を表すときに使われます。フランスの数学者シメオン・ドニ・ポアソンにちなんで名付けられました。

定義と意味

ポアソン分布は、一定の時間や空間において、ある事象が平均的に一定の割合で発生し、事象の発生が互いに独立しているとみなせる場合に適用される分布です。パラメータとして、単位時間（または単位面積など）あたりの平均発生回数（期待値）を表す λ（ラムダ）を持ちます。

ここでの「回数」は 0, 1, 2, … のように整数で数えられるものが対象です。たとえば「1時間の問い合わせ件数」「1日の障害アラート数」「1m²あたりの欠陥数」などが典型例です。

特徴と性質

事象の発生回数は非負の整数値（0, 1, 2, …）をとる
事象の発生は互いに独立である（ある発生が次の発生確率を直接変えない）
一定期間内の事象の発生回数の平均値と分散が等しい
λが大きくなるにつれて分布の形状は左右対称に近づき、正規分布に近い形になる

特に「平均＝分散」は、データがポアソン分布に近いかを確認するときの手がかりになります。一方で、平均より分散が大きい（ばらつきが大きい）場合は、後述する負の二項分布などを検討した方がよいことがあります。

他の確率分布との違い

確率分布	特徴
二項分布	試行回数が有限で、各試行での成功確率が一定のときに「成功回数」を扱う
幾何分布	初めて事象（成功）が起きるまでの試行回数を扱う
指数分布	事象が発生するまでの待ち時間を扱う（ポアソン過程と対になる連続分布）

実務で特に混同しやすいのは二項分布です。二項分布は「試行回数が決まっていて、毎回同じ確率で起きる」モデルです。一方、ポアソン分布は「一定時間に何回起きるか」を扱い、試行回数を明示しないことが多い点が異なります。

適用条件と前提

事象の発生がランダムで独立している
一定期間内の事象の発生回数の平均（λ）が一定とみなせる
発生率（単位時間あたりの平均）が時間や場所によって大きく変化しない
回数データが非負の整数値である（0件も含む）

これらの条件を満たす場合、ポアソン分布を用いて「一定期間内に発生する回数が k 回になる確率」や「k 回以下／以上になる確率」を計算できます。逆に、条件が怪しいときは、計算はできても解釈が不安定になります。

ポアソン分布の計算方法

この章では、確率質量関数、パラメータ推定、平均と分散、累積分布関数（「以下になる確率」）の考え方を見ていきます。式を覚えることよりも、「何を入力して、何を出したいのか」を先に決める方が、業務では迷いにくくなります。

確率質量関数の形と意味

ポアソン分布の確率質量関数（PMF）は、次のように表されます。

ポアソン分布の確率質量関数

P(X = k) = ( e^-λ × λ^k ) / k!

各記号の意味は次のとおりです。

X：一定期間内の発生回数（0, 1, 2, …）
k：具体的な回数
λ：平均発生回数（期待値）
e：自然対数の底（約 2.71828）
k!：k の階乗

例えば「1時間あたりの平均問い合わせ件数が λ = 3 件」なら、この式を使って「ちょうど0件／1件／2件／3件…」になる確率が求められます。業務では、ここから「想定より多い日の確率（例：6件以上）」のように上振れ側の確率を出し、要員不足のリスクや、待ち時間の増加リスクを見積もる使い方がよくあります。

簡単な計算例

例えば「1時間あたりの問い合わせ件数が平均3件」と見積もるなら、λ = 3 です。このとき「1時間にちょうど2件来る確率」を出したいなら k = 2 を入れます。「6件以上来る確率」を見たいなら、個別確率を足し上げるより、1 - P(X ≤ 5) と考えるほうが扱いやすくなります。式そのものを追うだけでなく、何件以上を異常とみなすか、どの時間幅で数えるかを先に決めることが、業務では重要です。

パラメータ λ の推定方法

業務では、λ は理論値ではなく観測データから推定することがほとんどです。観測値を x₁, x₂, …, x_n とすると、最尤推定では次のようになります。

λ の推定値（最尤推定）

λ の推定値（λハット） = ( x₁ + x₂ + … + x_n ) / n

つまり観測値の平均がそのまま λ の推定値です。ここで気をつけたいのは、平均を取る期間の切り方です。たとえば問い合わせ件数なら、「営業時間内の1時間」なのか「24時間の1時間」なのかで λ の意味が変わります。さらに、曜日やキャンペーンの影響が強い場合は、単純平均でまとめると「平均は合っているのに、現場の実感とズレる」ことがあります。その場合は、曜日別・時間帯別に λ を分ける（セグメント化）だけでも、実態に合った見方をしやすくなります。

平均と分散の求め方

ポアソン分布では、平均と分散はどちらも λ になります。

ポアソン分布の平均と分散

平均（期待値）：E(X) = λ
分散：Var(X) = λ

「平均＝分散」は、モデルを当てはめる際の確認にも使えます。たとえば実測データの平均が 3 で分散が 12 なら、ばらつきが大きすぎます。この場合、問い合わせがまとまって発生している（独立性が崩れている）、時間帯によって発生率が変わっている（一定率ではない）、といった状況が疑われます。

累積分布関数の考え方

累積分布関数（CDF）は「ある回数以下になる確率」を表します。

ポアソン分布の累積分布関数

F(x) = P(X ≤ x) = Σ_{k = 0 〜 ⌊x⌋} ( e^-λ × λ^k / k! )

⌊x⌋は「x 以下の最大の整数」です。例えば「エラー件数が2件以下」の確率なら、0件・1件・2件の確率を合計します。業務では「上振れ（k以上）」が気になることが多いため、P(X ≥ k) = 1 - P(X ≤ k-1) の形で計算し、アラート閾値や要員計画に落とし込むと扱いやすくなります。

ポアソン分布の活用例

ポアソン分布は「回数」を扱うため、現場で数えられる事象に幅広く使えます。以下では、単なる例示にとどまらず、判断にどうつなげるかまで含めて見ていきます。

品質管理

製造・検査の現場では、一定ロットや一定面積あたりの欠陥数・不良数を数える場面があります。ポアソン分布を使うと、例えば「通常の発生率（λ）から見て、今日の欠陥数がどれくらい起きにくいか」を確率で表せます。

運用上は、工程変更前後で λ が変わったかを見たり、「ある閾値以上が起きる確率」が一定以下になるようにアラート条件を決めたりする使い方が現実的です。ただし、欠陥がまとまって出やすい工程では独立性が崩れやすく、ポアソン分布で計算した確率が小さく出ることがあります。

コールセンター

着信件数やチャット問い合わせ件数は、時間帯ごとに平均件数（λ）を推定し、「この時間帯に10件以上来る確率」などを計算して、要員配置やバックアップ体制の判断材料にできます。

ただし、キャンペーン、障害発生、TV放映などで発生率が急変する場合、単一の λ で扱うと見誤ります。業務では、平常時の λ と、イベント時の λ を分ける、もしくは時間帯別の λに切って運用するだけでも精度が上がります。

Webサイトのアクセス解析

「1分あたりのエラー数」「一定時間内の特定イベント（例：API 5xx）の発生回数」など、イベント回数データはポアソン分布の対象になりやすい領域です。発生率（λ）を元に、平常時に起きる範囲を見積もっておくと、偶然の増減と異常（障害兆候）を切り分けやすくなります。

一方でアクセスは急増しやすく、依存関係も出やすいので、平均と分散の関係（平均＝分散）が崩れていないかは確認が必要です。崩れているなら、ポアソン分布だけで結論を出すのではなく、集計粒度（1分→5分）やセグメント（時間帯別）を見直すのが先です。

在庫管理

需要が「一定期間に何回発生するか」として数えられる場合、需要回数をポアソン分布で近似し、在庫切れ（欠品）のリスクを確率で見積もることができます。特に、補充リードタイム中に需要が何回発生するかを扱うと、発注点（どの水準で補充に回すか）や安全在庫の考え方が整理しやすくなります。

ただし、季節性・トレンド・販促の影響が大きい商品では発生率一定の前提が崩れやすいため、期間の切り方（季節別）やモデルの使い分けが重要です。

ポアソン分布の注意点

ポアソン分布は使いどころが明確な一方、前提が崩れていると「計算は合っているのに、判断がズレる」状態になります。以下では、つまずきやすい点を具体的に見ていきます。

データの独立性

事象間に強い依存関係がある場合、ポアソン分布の適用は適切ではありません。たとえば「障害が起きると関連エラーが連鎖する」「1件の問い合わせが追加問い合わせを生む」「同一原因で不良がまとまって出る」など、発生が連続して起きやすい状況では、ばらつきが大きくなりがちです。

独立性が怪しいときは、まず集計単位を変える（1分→10分、1時間→半日など）か、原因別に分けて集計し、同一原因による連鎖を切り分けると改善することがあります。

発生率が一定かどうか

時間帯・曜日・季節変動・トレンドが強い場合、単一の λ でまとめると「平常時は過大評価、ピークは過小評価」になりやすいです。現場では、時間帯別・曜日別に λ を推定して運用する方が、判断材料として使いやすくなります。

「一定率」の前提が崩れているサインとしては、平均と分散の関係が大きく崩れる、ピークが決まった時間に集中する、などが挙げられます。

十分なデータ量

サンプルが少ない場合、推定した λ がぶれやすく、確率計算の結果も不安定になります。特に λ が小さい（平均が0〜1程度）事象は、観測期間を短くすると「たまたまゼロが続く」ことが起き、推定が小さく出やすい点に注意が必要です。

業務では「最低何日分（何週分）で推定するか」を決め、運用上の都合と精度のバランスを取りながら、必要ならセグメント（曜日別など）とセットで見直すのが現実的です。

他の分布との比較

ポアソン分布は平均と分散が等しいため、実測で分散が大きい（過分散）場合は合わないことがあります。代表的な代替として、過分散に強い負の二項分布が候補になります。

また、二項分布でモデル化できる（試行回数と成功確率が明確）ケースでは、二項分布の方が前提が素直です。さらに「発生までの待ち時間」を扱いたいなら指数分布（およびポアソン過程）という整理が自然になります。

ポアソン分布を業務で使うときの判断ポイント

ポアソン分布は、一定期間や一定範囲で起きる事象の回数を扱う確率分布です。問い合わせ件数、エラー発生数、不良数、需要発生回数のように、回数で数えられる事象を確率で見たいときに役立ちます。λ（平均発生回数）を置くことで、「k回になる確率」や「k回以上になる確率」を計算し、要員配置、閾値設定、リスク見積もりに使えます。

一方で、独立性や発生率一定といった前提が崩れると、結果の解釈は不安定になります。平均と分散の関係、時間帯・曜日・季節性の影響、データ量の妥当性を確認しながら、必要に応じてセグメント化や他分布の検討も行うことが重要です。こうした前提確認を省かないことが、実務で判断を誤らないための前提になります。