UnsplashのChris Liveraniが撮影した写真
「一定の割合で起きるはずなのに、今日は多い/少ない」と感じる事象は、業務の中に意外と多くあります。たとえば問い合わせ件数、エラー発生数、欠品の発生回数などです。この記事では、こうした一定時間内に起きる回数を扱う代表的な確率分布であるポアソン分布を、定義・計算・実務での使いどころ・注意点まで含めて整理し、現場で判断に使える形にまとめます。
ポアソン分布とは、統計学で用いられる離散型の確率分布の一種で、一定の時間(または空間)内に、ある事象が起きる回数を表すときに使われます。フランスの数学者シメオン・ドニ・ポアソンにちなんで名付けられました。
ポアソン分布は、一定の時間や空間において、ある事象が平均的に一定の割合で発生し、事象の発生が互いに独立しているとみなせる場合に適用される分布です。パラメータとして、単位時間(または単位面積など)あたりの平均発生回数(期待値)を表す λ(ラムダ)を持ちます。
ここでの「回数」は 0, 1, 2, … のように整数で数えられるものが対象です。たとえば「1時間の問い合わせ件数」「1日の障害アラート数」「1m2あたりの欠陥数」などが典型例です。
特に「平均 ≒ 分散」は、データがポアソン分布っぽいかをざっくり見分けるときの重要な手がかりになります。一方で、平均より分散が大きい(ばらつきが過大)場合は、後述する負の二項分布などを検討した方が良いことがあります。
| 確率分布 | 特徴 |
|---|---|
| 二項分布 | 試行回数が有限で、各試行での成功確率が一定のときに「成功回数」を扱う |
| 幾何分布 | 初めて事象(成功)が起きるまでの試行回数を扱う |
| 指数分布 | 事象が発生するまでの待ち時間を扱う(ポアソン過程と対になる連続分布) |
実務で混同しやすいのは二項分布です。二項分布は「試行回数が決まっていて、毎回同じ確率で起きる」モデルです。一方、ポアソン分布は「一定時間に何回起きるか」を扱い、試行回数を明示しないことが多い点が違いです。
これらの条件を満たす場合、ポアソン分布を用いて「一定期間内に発生する回数が k 回になる確率」や「k 回以下/以上になる確率」を計算できます。逆に言えば、条件が怪しいときは、ポアソン分布の“計算自体”はできても、解釈が危うくなります。
ここでは、確率質量関数、パラメータ推定、平均と分散、累積分布関数(「以下になる確率」)の考え方を押さえます。式の暗記よりも、「何を入力して、何を出したいのか」を整理するのが実務では重要です。
ポアソン分布の確率質量関数(PMF)は、次のように表されます。
各記号の意味は次のとおりです。
例えば「1時間あたりの平均問い合わせ件数が λ = 3 件」なら、この式を使って「ちょうど0件/1件/2件/3件…」になる確率が求められます。業務では、ここからさらに「想定より多い日の確率(例:6件以上)」のような形にして、過剰要員や不足要員のリスクを見積もる使い方がよくあります。
実務では、λ は理論値ではなく観測データから推定することがほとんどです。観測値を x1, x2, …, xn とすると、最尤推定では次のようになります。
つまり観測値の平均がそのまま λ の推定値です。ここで注意したいのは、平均を取る“期間の切り方”です。たとえば問い合わせ件数なら「営業時間内の1時間」なのか「24時間の1時間」なのかで λ の意味が変わります。さらに、曜日やキャンペーンの影響が強い場合は、単純平均でまとめると「平均は合っているのに現場感とズレる」ことが起きます。その場合は、曜日別・時間帯別に λ を分ける(セグメント化)だけでも現実に寄ります。
ポアソン分布では、平均と分散はどちらも λ になります。
「平均 ≒ 分散」は、モデル当てはめのチェックにも使えます。たとえば実測データの平均が 3 で分散が 12 なら、ばらつきが大きすぎます。この場合、問い合わせの“まとまり”が起きている(独立性が崩れている)、時間帯によって発生率が変わっている(一定率ではない)、などが疑われます。
累積分布関数(CDF)は「ある回数以下になる確率」を表します。
⌊x⌋は「x 以下の最大の整数」です。例えば「エラー件数が2件以下」の確率なら、0件・1件・2件の確率を合計します。実務では「上振れ(k以上)」が気になることが多いため、P(X ≥ k) = 1 - P(X ≤ k-1) の形で計算し、アラート閾値や要員計画に落とし込むと扱いやすくなります。
ポアソン分布は「回数」を扱うため、現場の“数えられる事象”に幅広く使えます。ここでは、単なる例示ではなく、どう判断に使うかまでをセットで示します。
製造・検査の現場では、一定ロットや一定面積あたりの欠陥数・不良数を数える場面があります。ポアソン分布を使うと、例えば「通常の発生率(λ)から見て、今日の欠陥数はどれくらい“珍しい”のか」を確率で表せます。
運用上は、工程変更前後で λ が変わったかを見たり、「ある閾値以上が起きる確率」が一定以下になるようにアラート条件を設計したりする使い方が現実的です。ただし、欠陥が“まとまって出る”タイプの工程では独立性が崩れやすく、ポアソン分布が過小評価になることがあります。
着信件数やチャット問い合わせ件数は、時間帯ごとに平均件数(λ)を推定し、「この時間帯に10件以上来る確率」などを計算して、要員配置やバックアップ体制の判断材料にできます。
ただし、キャンペーン、障害発生、TV放映などで発生率が急変する場合、単一の λ で扱うと見誤ります。実務では、平常時の λ と、イベント時の λ を分ける、もしくは時間帯別の λに切って運用するだけでも精度が上がります。
「1分あたりのエラー数」「一定時間内の特定イベント(例:API 5xx)の発生回数」など、イベント回数データはポアソン分布の対象になりやすい領域です。発生率(λ)を元に、通常の揺らぎの範囲を作っておくと、単なる偶然と本当の異常(障害兆候)を切り分けやすくなります。
一方でアクセスはバーストしやすく、依存性も出やすいので、平均と分散の関係(平均≒分散)が崩れていないかは必ず確認してください。崩れているなら、ポアソン分布だけで結論を出すのではなく、集計粒度(1分→5分)やセグメント(時間帯別)を見直すのが先です。
需要が「一定期間に何回発生するか」として数えられる場合、需要回数をポアソン分布で近似し、在庫切れ(欠品)のリスクを確率で見積もることができます。特に、補充リードタイム中に需要が何回起きるかを扱うと、発注点(どの水準で補充に回すか)や安全在庫の考え方が整理しやすくなります。
ただし、季節性・トレンド・販促の影響が大きい商品では発生率一定の前提が崩れやすいため、期間の切り方(季節別)やモデルの使い分けが重要です。
ポアソン分布は便利ですが、前提が崩れていると「きれいに計算できるのに、判断がズレる」状態になります。ここでは、実務で躓きやすいポイントを具体的に整理します。
事象間に強い依存関係がある場合、ポアソン分布の適用は適切ではありません。たとえば「障害が起きると関連エラーが連鎖する」「1件の問い合わせが追加問い合わせを生む」「同一原因で不良がまとまって出る」など、発生が“群れ”になっていると、ばらつきが大きくなりがちです。
独立性が怪しいときは、まず集計単位を変える(1分→10分、1時間→半日など)か、原因別に分けて集計し、ひとかたまりの原因での“連鎖”を切り離すと改善することがあります。
時間帯・曜日・季節変動・トレンドが強い場合、単一の λ でまとめると「平常時は過大評価、ピークは過小評価」になりやすいです。現場では、時間帯別・曜日別に λ を推定して運用する方が、判断材料として使いやすくなります。
「一定率」の前提が崩れているサインとしては、平均と分散の関係が大きく崩れる、ピークが決まった時間に集中する、などが挙げられます。
サンプルが少ない場合、推定した λ がぶれやすく、確率計算の結果も不安定になります。特に λ が小さい(平均が0〜1程度)事象は、観測期間を短くすると「たまたまゼロが続く」ことが起き、推定が過小になりやすい点に注意が必要です。
実務では「最低何日分(何週分)で推定するか」を決め、運用上の都合と精度のバランスを取りながら、必要ならセグメント(曜日別など)とセットで見直すのが現実的です。
ポアソン分布は平均と分散が等しいため、実測で分散が大きい(過分散)場合は合わないことがあります。代表的な代替として、過分散に強い負の二項分布が候補になります。
また、二項分布でモデル化できる(試行回数と成功確率が明確)ケースでは、二項分布の方が前提が素直です。さらに「発生までの待ち時間」を扱いたいなら指数分布(およびポアソン過程)という整理が自然になります。
ポアソン分布は、「一定期間内にランダムに発生する事象の回数」を扱うのに適した確率分布です。確率質量関数と λ(平均発生回数)を押さえることで、回数が k 回になる確率や k 回以上/以下の確率を計算し、要員配置、閾値設計、リスク見積もりなどの判断に落とし込めます。
一方で、独立性や発生率一定といった前提が崩れると、結果の解釈が危うくなります。平均と分散の関係、時間帯・曜日・季節性の影響、データ量の妥当性を確認しながら、必要に応じてセグメント化や他分布の検討も行うことが、実務での失敗を減らすポイントです。
一定時間または一定範囲内に事象が起きる回数の確率を表す離散型の確率分布です。
単位時間または単位範囲あたりの平均発生回数で、期待値に相当します。
計算できます。k=0を代入すれば、一定期間に1件も起きない確率が求められます。
観測した回数データの平均を取ることで推定できます。
期待値とばらつきの大きさが同じ値になる性質で、データ適合の目安として使えます。
1から「k-1回以下」の累積確率を引くことで求められます。
単一のλでは精度が落ちるため、時間帯別などに分けてλを推定して使うのが現実的です。
独立性が崩れてばらつきが大きくなり、ポアソン分布が上振れリスクを過小評価しやすくなるためです。
過分散の可能性があるため、負の二項分布など別の分布や集計粒度の見直しを検討します。
問い合わせ件数、エラー発生数、不良数、需要発生回数など、一定期間の回数を扱う業務で役立ちます。