UnsplashのIgor Omilaevが撮影した写真
二項分布は、結果が「成功か失敗か」の2つに分かれる試行を、あらかじめ決めた回数だけ繰り返したときに、成功回数がどのように分布するかを表す確率分布です。コイン投げ、抜き取り検査での不良品数、アンケートで特定回答を選ぶ人数など、試行回数が固定され、各試行の成功確率を同じとみなせる場面で使われます。
二項分布を使う際は、公式そのものよりも、前提条件を満たしているかの確認が先です。試行が独立していない場合、成功確率が試行ごとに変わる場合、有限母集団から戻さずに抽出する場合は、別の分布を選ぶ必要があります。
二項分布とは、独立した試行を複数回行ったときに、成功する回数がどのように分布するかを表す離散型の確率分布です。確率変数Xが二項分布に従う場合、一般に X ~ B(n, p) と表します。
ここで、nは試行回数、pは1回の試行で成功する確率です。Xは成功回数を表し、0からnまでの整数値を取ります。
二項分布は、次のような状況をモデル化します。
この条件を満たすとき、成功回数Xは二項分布 B(n, p) に従います。例えば、偏りのないコインを10回投げたときに表が出る回数は、B(10, 0.5) で表せます。
ベルヌーイ分布は、1回の試行の成功・失敗を表す分布です。一方、二項分布は、そのベルヌーイ試行をn回繰り返したときの成功回数を表します。
つまり、ベルヌーイ分布は「1回の結果」、二項分布は「複数回の成功回数」を扱う分布です。二項分布は、独立したベルヌーイ試行の成功回数の合計として理解できます。
二項分布には、次の特徴があります。
平均npは、n回の試行で期待される成功回数を表します。分散np(1-p)は、成功回数のばらつきの大きさを表します。
二項分布を使うには、次の前提条件を確認します。
| 試行回数が固定されている | 試行回数nが事前に決まっている必要があります。成功するまで続けるような場合は、別の分布を検討します。 |
| 各試行が独立している | ある試行の結果が、次の試行の結果に影響しないことが前提です。 |
| 成功確率が一定である | 各試行で成功する確率pが同じである必要があります。試行ごとに確率が変わる場合は、二項分布の前提から外れます。 |
| 結果が二値である | 各試行の結果が「成功」または「失敗」の2種類に分類できる必要があります。 |
これらの前提が崩れると、二項分布で計算した確率と実際の現象がずれる可能性があります。
二項分布が適さない代表例は、次の通りです。
例えば、初めて成功するまでの試行回数を扱う場合は幾何分布、有限母集団から非復元抽出する場合は超幾何分布、3カテゴリ以上の結果を扱う場合は多項分布を検討します。
二項分布の確率質量関数は、次の式で表されます。
P(X = k) = C(n, k) p^k (1-p)^(n-k)
ここで、各記号の意味は次の通りです。
C(n, k):二項係数。n回の試行のうち、k回成功する位置の選び方p:1回の試行で成功する確率1-p:1回の試行で失敗する確率n:試行回数k:成功回数。0, 1, 2, ..., n の整数この式を使うと、n回の試行でちょうどk回成功する確率を計算できます。
二項分布の計算でよく使うのは、二項係数、平均、分散、累積分布関数、近似計算です。実務では、手計算よりも表計算ソフトや統計ツールを使うことが多くなります。
二項係数 C(n, k) は、n回の試行のうち、成功がk回起こる位置の組み合わせ数を表します。
C(n, k) = n! / {k! (n-k)!}
ここで、n! は n の階乗です。nが大きい場合、階乗の値が非常に大きくなるため、実務では電卓、表計算ソフト、統計ソフトを使って計算します。
二項分布 B(n, p) の平均と分散は、次の式で表されます。
E[X] = npVar(X) = np(1-p)平均は、n回の試行で期待される成功回数です。分散は、その成功回数が平均の周りでどの程度ばらつくかを表します。
累積分布関数(CDF)は、確率変数Xがある値以下になる確率を表します。
F(k; n, p) = P(X ≤ k) = Σ[i=0 to k] C(n, i) p^i (1-p)^(n-i)
例えば、「10回中3回以下成功する確率」や「不良品が2個以下である確率」を求めたいときに使います。仮説検定やリスク評価でも利用されます。
nが大きく、npとn(1-p)が十分大きい場合、二項分布を正規分布で近似できることがあります。
B(n, p) ≈ N(np, np(1-p))
目安として、np ≥ 5 かつ n(1-p) ≥ 5 を満たす場合に使われることがあります。ただし、これは厳密な条件ではなく経験的な目安です。精度が必要な場面では、二項分布で直接計算するか、連続補正を含めて近似の妥当性を確認します。
nが大きく、pが小さい場合、二項分布をポアソン分布で近似できることがあります。この場合、平均回数を λ = np として扱います。
B(n, p) ≈ Poisson(λ), λ = np
まれな事象の発生回数を扱う場合に使われます。ただし、pが十分小さくない場合や、nが大きくない場合は近似誤差が大きくなる可能性があります。
二項分布は、成功・失敗の回数を扱うさまざまな場面で使われます。ただし、実際のデータが前提条件を満たすかを確認してから適用します。
製造業では、不良品数の把握に二項分布を使うことがあります。例えば、各製品が独立に同じ確率pで不良になるとみなせる場合、n個の製品に含まれる不良品数は二項分布で表せます。
ただし、有限ロットから戻さずに抜き取る検査では、厳密には超幾何分布を使う方が適切です。母集団が十分大きく、抽出割合が小さい場合に、二項分布で近似することがあります。
アンケートで「購入する」と答える確率をpと仮定し、n人に調査を行う場合、購入意向を示す人数は二項分布でモデル化できます。
ただし、回答者が無作為に選ばれていない場合や、回答者同士が影響し合う場合は、独立性の前提が崩れます。そのため、調査設計やサンプルの偏りもあわせて確認します。
臨床試験や医学研究では、治療効果の有無、副作用の有無、検査結果の陽性・陰性など、結果が二値になる場面があります。このような場合、二項分布を使って成功数や発生数をモデル化し、割合の推定や検定に利用します。
ただし、医学・薬学分野では、研究デザイン、対象者の選定、交絡要因、安全性評価なども結論に影響します。二項分布だけで有効性や安全性を判断するのではなく、研究全体の設計と統計解析計画に沿って評価します。
金融分野では、一定期間内に債務不履行が起きるかどうか、ある条件を満たす取引が発生するかどうかなど、二値の結果を扱う場面で二項分布の考え方が使われます。
また、金融工学では、原資産価格が一定期間ごとに上昇または下降すると仮定する二項格子モデルが知られています。これは二項分布そのものをそのまま使うというより、二値に分岐する離散時間モデルとして、オプション価格評価などに利用されます。
二項分布を理解するには、似た前提を持つ分布との違いを押さえる必要があります。どの分布を使うかは、「何を数えるのか」「試行回数が固定されているか」「成功確率が一定か」「抽出を戻すか」によって変わります。
幾何分布は、初めて成功するまでに必要な試行回数を表します。二項分布が「n回のうち何回成功するか」に注目するのに対し、幾何分布は「成功が起きるまで何回試行するか」に注目します。
試行回数が固定されているなら二項分布、成功するまで続けるなら幾何分布を検討します。
超幾何分布は、有限母集団から戻さずに抽出する場合の成功数を扱います。二項分布は独立試行で成功確率が一定であることを前提にしますが、超幾何分布では抽出するたびに母集団の構成が変わるため、成功確率も変わります。
例えば、100個の製品の中に不良品が何個あるか分かっていて、その中から戻さずに10個を抜き取る場合は、超幾何分布の前提に近くなります。
ポアソン分布は、一定の時間や空間の中で発生する事象の回数を扱う分布です。二項分布において、試行回数nが大きく、成功確率pが小さい場合、平均 λ = np のポアソン分布で近似できることがあります。
ただし、ポアソン分布を使うには、単に「まれな事象」であるだけでなく、対象となる時間や範囲、発生率の前提が妥当かを確認します。
多項分布は、二項分布を「成功・失敗」の2カテゴリから、3カテゴリ以上へ拡張した分布です。例えば、アンケートの選択肢が「賛成・反対・保留」の3つある場合、各カテゴリの件数を扱うには多項分布を検討します。
二項分布は多項分布の特別な場合として理解できます。カテゴリが2つなら二項分布、3つ以上なら多項分布を使います。
二項分布を選ぶ前に、次の観点で確認します。
| 試行回数が固定か | n回行うと事前に決まっているなら二項分布の候補になります。成功するまで続ける場合は幾何分布を検討します。 |
| 成功確率が一定か | 各試行の成功確率が同じとみなせるなら二項分布を使いやすくなります。確率が変化する場合は別モデルを検討します。 |
| 抽出を戻すか | 戻さずに有限母集団から抽出する場合は、超幾何分布の方が厳密なモデルになります。 |
| 結果のカテゴリ数 | 結果が2カテゴリなら二項分布の候補になります。3カテゴリ以上なら多項分布を検討します。 |
| 近似でよいか | nが大きい場合は正規近似、nが大きくpが小さい場合はポアソン近似を使えることがあります。ただし、精度が必要な場合は近似誤差を確認します。 |
二項分布は、独立した試行をn回繰り返したときの成功回数を表す確率分布です。試行回数が固定され、各試行が独立し、成功確率が一定で、結果が成功・失敗の2値に分かれる場合に使います。
確率質量関数、平均、分散、累積分布関数を理解すると、品質管理、マーケティング、医学研究、金融分野などの分析に応用しやすくなります。一方で、前提条件を満たさない場合は、幾何分布、超幾何分布、ポアソン分布、多項分布など、別の分布を選ぶ必要があります。二項分布を使う際は、公式に当てはめる前に、データの発生条件が分布の前提と合っているかを確認します。
A.独立した試行をn回行ったときに、成功回数がどのように分布するかを表す離散型の確率分布です。
A.試行回数が固定され、各試行が独立し、成功確率が一定で、結果が成功・失敗の2値に分かれることです。
A.P(X = k) = C(n, k) p^k (1-p)^(n-k) を使い、n回中k回成功する確率を求めます。
A.n回の試行のうち、成功がk回起こる位置の組み合わせ数を表します。
A.二項分布B(n, p)の平均はnp、分散はnp(1-p)です。
A.不良品数、アンケートで特定回答をした人数、治療効果の有無が出た人数など、成功・失敗の回数を扱う場面で使います。
A.二項分布は独立試行で成功確率が一定の場合に使います。超幾何分布は、有限母集団から戻さずに抽出する場合に使います。
A.nが大きく、npとn(1-p)が十分大きい場合、平均np、分散np(1-p)の正規分布で近似できることがあります。
A.nが大きくpが小さい場合、平均λ = npのポアソン分布で近似できることがあります。
A.二項分布は結果が2カテゴリの場合の分布で、多項分布はそれを3カテゴリ以上に拡張した分布です。