IT用語集

ポアソン分布とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashChris Liveraniが撮影した写真      

「一定の割合で起きるはずなのに、今日は多い/少ない」と感じる事象は、業務の中に意外と多くあります。たとえば問い合わせ件数、エラー発生数、欠品の発生回数などです。この記事では、こうした一定時間内に起きる回数を扱う代表的な確率分布であるポアソン分布を、定義・計算・実務での使いどころ・注意点まで含めて整理し、現場で判断に使える形にまとめます。

ポアソン分布とは何か

ポアソン分布とは、統計学で用いられる離散型の確率分布の一種で、一定の時間(または空間)内に、ある事象が起きる回数を表すときに使われます。フランスの数学者シメオン・ドニ・ポアソンにちなんで名付けられました。

定義と意味

ポアソン分布は、一定の時間や空間において、ある事象が平均的に一定の割合で発生し、事象の発生が互いに独立しているとみなせる場合に適用される分布です。パラメータとして、単位時間(または単位面積など)あたりの平均発生回数(期待値)を表す λ(ラムダ)を持ちます。

ここでの「回数」は 0, 1, 2, … のように整数で数えられるものが対象です。たとえば「1時間の問い合わせ件数」「1日の障害アラート数」「1m2あたりの欠陥数」などが典型例です。

特徴と性質

  1. 事象の発生回数は非負の整数値(0, 1, 2, …)をとる
  2. 事象の発生は互いに独立である(ある発生が次の発生確率を直接変えない)
  3. 一定期間内の事象の発生回数の平均値と分散が等しい
  4. λが大きくなるにつれて分布の形状は左右対称に近づき、正規分布に近い形になる

特に「平均 ≒ 分散」は、データがポアソン分布っぽいかをざっくり見分けるときの重要な手がかりになります。一方で、平均より分散が大きい(ばらつきが過大)場合は、後述する負の二項分布などを検討した方が良いことがあります。

他の確率分布との違い

確率分布特徴
二項分布試行回数が有限で、各試行での成功確率が一定のときに「成功回数」を扱う
幾何分布初めて事象(成功)が起きるまでの試行回数を扱う
指数分布事象が発生するまでの待ち時間を扱う(ポアソン過程と対になる連続分布)

実務で混同しやすいのは二項分布です。二項分布は「試行回数が決まっていて、毎回同じ確率で起きる」モデルです。一方、ポアソン分布は「一定時間に何回起きるか」を扱い、試行回数を明示しないことが多い点が違いです。

適用条件と前提

  • 事象の発生がランダムで独立している
  • 一定期間内の事象の発生回数の平均(λ)が一定とみなせる
  • 発生率(単位時間あたりの平均)が時間や場所によって大きく変化しない
  • 回数データが非負の整数値である(0件も含む)

これらの条件を満たす場合、ポアソン分布を用いて「一定期間内に発生する回数が k 回になる確率」や「k 回以下/以上になる確率」を計算できます。逆に言えば、条件が怪しいときは、ポアソン分布の“計算自体”はできても、解釈が危うくなります。

ポアソン分布の計算方法

ここでは、確率質量関数、パラメータ推定、平均と分散、累積分布関数(「以下になる確率」)の考え方を押さえます。式の暗記よりも、「何を入力して、何を出したいのか」を整理するのが実務では重要です。

確率質量関数の形と意味

ポアソン分布の確率質量関数(PMF)は、次のように表されます。

ポアソン分布の確率質量関数
P(X = k) = ( e × λk ) / k!

各記号の意味は次のとおりです。

  • X:一定期間内の発生回数(0, 1, 2, …)
  • k:具体的な回数
  • λ:平均発生回数(期待値)
  • e:自然対数の底(約 2.71828)
  • k!:k の階乗

例えば「1時間あたりの平均問い合わせ件数が λ = 3 件」なら、この式を使って「ちょうど0件/1件/2件/3件…」になる確率が求められます。業務では、ここからさらに「想定より多い日の確率(例:6件以上)」のような形にして、過剰要員や不足要員のリスクを見積もる使い方がよくあります。

パラメータ λ の推定方法

実務では、λ は理論値ではなく観測データから推定することがほとんどです。観測値を x1, x2, …, xn とすると、最尤推定では次のようになります。

λ の推定値(最尤推定)
λ の推定値(λハット) = ( x1 + x2 + … + xn ) / n

つまり観測値の平均がそのまま λ の推定値です。ここで注意したいのは、平均を取る“期間の切り方”です。たとえば問い合わせ件数なら「営業時間内の1時間」なのか「24時間の1時間」なのかで λ の意味が変わります。さらに、曜日やキャンペーンの影響が強い場合は、単純平均でまとめると「平均は合っているのに現場感とズレる」ことが起きます。その場合は、曜日別・時間帯別に λ を分ける(セグメント化)だけでも現実に寄ります。

平均と分散の求め方

ポアソン分布では、平均と分散はどちらも λ になります。

ポアソン分布の平均と分散
平均(期待値):E(X) = λ
分散:Var(X) = λ

「平均 ≒ 分散」は、モデル当てはめのチェックにも使えます。たとえば実測データの平均が 3 で分散が 12 なら、ばらつきが大きすぎます。この場合、問い合わせの“まとまり”が起きている(独立性が崩れている)、時間帯によって発生率が変わっている(一定率ではない)、などが疑われます。

累積分布関数の考え方

累積分布関数(CDF)は「ある回数以下になる確率」を表します。

ポアソン分布の累積分布関数
F(x) = P(X ≤ x) = Σk = 0 〜 ⌊x⌋ ( e × λk / k! )

⌊x⌋は「x 以下の最大の整数」です。例えば「エラー件数が2件以下」の確率なら、0件・1件・2件の確率を合計します。実務では「上振れ(k以上)」が気になることが多いため、P(X ≥ k) = 1 - P(X ≤ k-1) の形で計算し、アラート閾値や要員計画に落とし込むと扱いやすくなります。

ポアソン分布の活用例

ポアソン分布は「回数」を扱うため、現場の“数えられる事象”に幅広く使えます。ここでは、単なる例示ではなく、どう判断に使うかまでをセットで示します。

品質管理

製造・検査の現場では、一定ロットや一定面積あたりの欠陥数・不良数を数える場面があります。ポアソン分布を使うと、例えば「通常の発生率(λ)から見て、今日の欠陥数はどれくらい“珍しい”のか」を確率で表せます。

運用上は、工程変更前後で λ が変わったかを見たり、「ある閾値以上が起きる確率」が一定以下になるようにアラート条件を設計したりする使い方が現実的です。ただし、欠陥が“まとまって出る”タイプの工程では独立性が崩れやすく、ポアソン分布が過小評価になることがあります。

コールセンター

着信件数やチャット問い合わせ件数は、時間帯ごとに平均件数(λ)を推定し、「この時間帯に10件以上来る確率」などを計算して、要員配置やバックアップ体制の判断材料にできます。

ただし、キャンペーン、障害発生、TV放映などで発生率が急変する場合、単一の λ で扱うと見誤ります。実務では、平常時の λ と、イベント時の λ を分ける、もしくは時間帯別の λに切って運用するだけでも精度が上がります。

Webサイトのアクセス解析

「1分あたりのエラー数」「一定時間内の特定イベント(例:API 5xx)の発生回数」など、イベント回数データはポアソン分布の対象になりやすい領域です。発生率(λ)を元に、通常の揺らぎの範囲を作っておくと、単なる偶然と本当の異常(障害兆候)を切り分けやすくなります。

一方でアクセスはバーストしやすく、依存性も出やすいので、平均と分散の関係(平均≒分散)が崩れていないかは必ず確認してください。崩れているなら、ポアソン分布だけで結論を出すのではなく、集計粒度(1分→5分)やセグメント(時間帯別)を見直すのが先です。

在庫管理

需要が「一定期間に何回発生するか」として数えられる場合、需要回数をポアソン分布で近似し、在庫切れ(欠品)のリスクを確率で見積もることができます。特に、補充リードタイム中に需要が何回起きるかを扱うと、発注点(どの水準で補充に回すか)や安全在庫の考え方が整理しやすくなります。

ただし、季節性・トレンド・販促の影響が大きい商品では発生率一定の前提が崩れやすいため、期間の切り方(季節別)やモデルの使い分けが重要です。

ポアソン分布の注意点

ポアソン分布は便利ですが、前提が崩れていると「きれいに計算できるのに、判断がズレる」状態になります。ここでは、実務で躓きやすいポイントを具体的に整理します。

データの独立性

事象間に強い依存関係がある場合、ポアソン分布の適用は適切ではありません。たとえば「障害が起きると関連エラーが連鎖する」「1件の問い合わせが追加問い合わせを生む」「同一原因で不良がまとまって出る」など、発生が“群れ”になっていると、ばらつきが大きくなりがちです。

独立性が怪しいときは、まず集計単位を変える(1分→10分、1時間→半日など)か、原因別に分けて集計し、ひとかたまりの原因での“連鎖”を切り離すと改善することがあります。

発生率が一定かどうか

時間帯・曜日・季節変動・トレンドが強い場合、単一の λ でまとめると「平常時は過大評価、ピークは過小評価」になりやすいです。現場では、時間帯別・曜日別に λ を推定して運用する方が、判断材料として使いやすくなります。

「一定率」の前提が崩れているサインとしては、平均と分散の関係が大きく崩れる、ピークが決まった時間に集中する、などが挙げられます。

十分なデータ量

サンプルが少ない場合、推定した λ がぶれやすく、確率計算の結果も不安定になります。特に λ が小さい(平均が0〜1程度)事象は、観測期間を短くすると「たまたまゼロが続く」ことが起き、推定が過小になりやすい点に注意が必要です。

実務では「最低何日分(何週分)で推定するか」を決め、運用上の都合と精度のバランスを取りながら、必要ならセグメント(曜日別など)とセットで見直すのが現実的です。

他の分布との比較

ポアソン分布は平均と分散が等しいため、実測で分散が大きい(過分散)場合は合わないことがあります。代表的な代替として、過分散に強い負の二項分布が候補になります。

また、二項分布でモデル化できる(試行回数と成功確率が明確)ケースでは、二項分布の方が前提が素直です。さらに「発生までの待ち時間」を扱いたいなら指数分布(およびポアソン過程)という整理が自然になります。

まとめ

ポアソン分布は、「一定期間内にランダムに発生する事象の回数」を扱うのに適した確率分布です。確率質量関数と λ(平均発生回数)を押さえることで、回数が k 回になる確率や k 回以上/以下の確率を計算し、要員配置、閾値設計、リスク見積もりなどの判断に落とし込めます。

一方で、独立性や発生率一定といった前提が崩れると、結果の解釈が危うくなります。平均と分散の関係、時間帯・曜日・季節性の影響、データ量の妥当性を確認しながら、必要に応じてセグメント化や他分布の検討も行うことが、実務での失敗を減らすポイントです。

Q.ポアソン分布は何を表す分布ですか?

一定時間または一定範囲内に事象が起きる回数の確率を表す離散型の確率分布です。

Q.ポアソン分布のパラメータ λ は何を意味しますか?

単位時間または単位範囲あたりの平均発生回数で、期待値に相当します。

Q.ポアソン分布で回数が0件になる確率も計算できますか?

計算できます。k=0を代入すれば、一定期間に1件も起きない確率が求められます。

Q.λ の推定はどうやって行いますか?

観測した回数データの平均を取ることで推定できます。

Q.ポアソン分布の平均と分散が等しいとはどういうことですか?

期待値とばらつきの大きさが同じ値になる性質で、データ適合の目安として使えます。

Q.「k回以上」の確率はどう考えればよいですか?

1から「k-1回以下」の累積確率を引くことで求められます。

Q.発生率が時間帯で変わる場合でもポアソン分布は使えますか?

単一のλでは精度が落ちるため、時間帯別などに分けてλを推定して使うのが現実的です。

Q.事象が連鎖する場合に注意が必要なのはなぜですか?

独立性が崩れてばらつきが大きくなり、ポアソン分布が上振れリスクを過小評価しやすくなるためです。

Q.分散が平均より大きいときはどうすればよいですか?

過分散の可能性があるため、負の二項分布など別の分布や集計粒度の見直しを検討します。

Q.ポアソン分布はどんな業務で役立ちますか?

問い合わせ件数、エラー発生数、不良数、需要発生回数など、一定期間の回数を扱う業務で役立ちます。

記事を書いた人

ソリトンシステムズ・マーケティングチーム