UnsplashのIgor Omilaevが撮影した写真
二項分布は、統計学や確率論で頻出する確率分布のひとつです。ただ、式が登場するため、初学者にとっては取っつきにくく感じるかもしれません。本記事では、二項分布の考え方、前提条件、計算方法、応用例までを、できる限りわかりやすく整理します。二項分布を理解すると、データ分析や意思決定の場面で「どの確率モデルを使うべきか」を判断しやすくなります。
二項分布とは、 独立した試行を複数回行ったときに、成功する回数がどのように分布するか を表す離散型の確率分布です。たとえば、コインを10回投げて表が出る回数や、アンケートで「賛成」と答える人数などが二項分布の例にあたります。
二項分布は、次のような状況をモデル化します。
このとき、確率変数 X は二項分布 B(n, p) に従うと言います。
二項分布には、次のような特徴があります。
二項分布が成立するためには、次の前提条件を満たす必要があります。
| 条件 | 説明 |
|---|---|
| 独立性 | 各試行が互いに影響を与えない |
| 一定の確率 | 各試行で成功する確率が一定 |
| 二値性 | 各試行の結果が「成功」か「失敗」のいずれか |
二項分布の確率質量関数は、次の式で表されます。
P(X = k) = nCk × p^k × (1-p)^(n-k)
ここで、
この確率質量関数を用いることで、 二項分布に従う確率変数が特定の値をとる確率 を計算できます。
二項分布は、品質管理、世論調査、医学研究など幅広い分野で応用されています。データに基づいて判断する場面では、二項分布の理解が土台になります。
二項分布は、さまざまな分野で活用されています。ここでは代表例を紹介します。
製造業では、二項分布が品質管理に広く使われています。たとえば、不良が一定確率 p で発生すると仮定し、n個の製品をサンプリングして検査するとき、 不良品の個数は二項分布に従います 。この前提があると、検査計画の設計や工程改善の判断材料になります。
アンケートで「購入する」と答える確率が p だと仮定し、n人に調査を行うと、購入意向を示す人数は二項分布でモデル化できます。結果を分析することで、 販売戦略の検討や需要予測 に活用できます。
臨床試験では、治療効果の「有無」のように結果が二値になるケースがよくあります。この場合、二項分布に基づいて統計的検定を行うことで、 新薬の有効性や安全性 を評価できます。
金融工学では、原資産価格が一定確率で上昇または下降すると仮定する二項格子モデル(バイノミアル・ツリー・モデル)が知られています。二項分布の考え方を応用することで、 オプション価格の評価やリスク管理 に役立ちます。
二項分布の計算方法として、代表的なポイントを4つ整理します。
確率質量関数を計算する際には、二項係数(nCk)が必要です。二項係数は、次の式で表されます。
nCk = n! ÷ (k! × (n-k)!)
ここで、n! は n の階乗です。階乗の計算を含むため、 n が大きいと計算量が膨らみやすい 点に注意が必要です。実務では電卓・表計算・統計ツールを使って計算するのが一般的です。
二項分布 B(n, p) の平均 μ と分散 σ^2 は、次の式で計算されます。
平均と分散を押さえると、分布の「中心」と「ばらつき」がつかみやすくなります。
累積分布関数(CDF)は、確率変数 X がある値以下になる確率を表します。
F(k; n, p) = P(X ≤ k) = Σ_{i=0}^k nCi × p^i × (1-p)^(n-i)
「k回以下で成功する確率」 を求めたいときに使います。仮説検定やリスク評価などで頻繁に登場します。
n が大きく、p が極端でない場合、二項分布を正規分布で近似できることがあります。目安として、次を満たすと近似が使いやすくなります。
このとき、B(n, p) を平均 np、分散 np(1-p) の正規分布 N(np, np(1-p)) で近似できます。目的や精度要件に応じて、近似を使うかどうか判断しましょう。
幾何分布は、 初めて成功するまでに必要な試行回数の分布 を表します。二項分布が「n回のうち成功回数」に注目するのに対し、幾何分布は「成功が起きるまで」に注目する、という違いがあります。
超幾何分布は二項分布と似ていますが、前提が異なります。二項分布は「独立試行・成功確率一定」ですが、超幾何分布は、 非復元抽出(戻さずに取り出す) のため、試行ごとに成功確率が変化します。有限母集団からのサンプリングに向いた分布です。
試行回数 n が大きく、成功確率 p が小さい(まれな事象)場合、二項分布はポアソン分布で近似できることがあります。 単位時間あたりに起こる「まれな事象の回数」 を扱うときに、ポアソン分布はよく利用されます。
多項分布は、二項分布を「成功・失敗」の2値から、 複数カテゴリ へ拡張したものです。たとえば、アンケートの選択肢が3つ以上ある場合などに利用されます。
二項分布は、独立した試行を繰り返したときの成功回数を表す確率分布で、品質管理、マーケティング、医療、金融など幅広い分野で使われます。前提条件(独立性・確率一定・二値性)を押さえたうえで、確率質量関数、平均・分散、CDF、近似などを理解すると、データ分析や意思決定に応用しやすくなります。関連する分布(幾何分布、超幾何分布、ポアソン分布、多項分布)とあわせて整理すると、「どの分布を使うべきか」の判断がより明確になります。
二項分布は、独立した試行をn回行ったときに、成功が起こる回数がどのように分布するかを表す離散型の確率分布です。
各試行が独立していること、成功確率pが試行ごとに変わらないこと、結果が成功か失敗の二値であることが前提条件です。
P(X = k) = nCk × p^k × (1-p)^(n-k) を用いて、n回中k回成功する確率を求めます。
nCkは、n回の試行のうち成功がk回起こる並び方(組み合わせ)の数を表します。
二項分布B(n, p)の平均はnp、分散はnp(1-p)です。
不良品の個数、アンケートで特定回答をした人数、治療効果の有無が出た人数など、「成功・失敗」の回数を扱う場面で使われます。
二項分布は独立試行で成功確率が一定ですが、超幾何分布は非復元抽出のため試行ごとに成功確率が変化します。
npとn(1-p)が十分に大きい場合、二項分布は平均np、分散np(1-p)の正規分布で近似できることがあります。
nが大きくpが小さい(まれな事象)場合、二項分布はポアソン分布で近似できることがあります。
二項分布は結果が2カテゴリ(成功・失敗)の場合で、多項分布はそれを3カテゴリ以上に拡張した分布です。