IT用語集 2024/08/07

二項分布とは？ 10分でわかりやすく解説

コラム

二項分布は、統計学や確率論で頻出する確率分布のひとつです。ただ、式が登場するため、初学者にとっては取っつきにくく感じるかもしれません。本記事では、二項分布の考え方、前提条件、計算方法、応用例までを、できる限りわかりやすく整理します。二項分布を理解すると、データ分析や意思決定の場面で「どの確率モデルを使うべきか」を判断しやすくなります。

二項分布とは

二項分布とは、 独立した試行を複数回行ったときに、成功する回数がどのように分布するか を表す離散型の確率分布です。たとえば、コインを10回投げて表が出る回数や、アンケートで「賛成」と答える人数などが二項分布の例にあたります。

二項分布の定義

二項分布は、次のような状況をモデル化します。

独立した試行を n 回行う
各試行で成功する確率は p で一定
成功回数を確率変数 X とする

このとき、確率変数 X は二項分布 B(n, p) に従うと言います。

二項分布の特徴

二項分布には、次のような特徴があります。

離散型の確率分布である
X が取りうる値は 0, 1, 2, ..., n の整数のみ
平均は np、分散は np(1-p)
n が大きく、p が極端でないほど、正規分布で近似しやすい

二項分布の前提条件

二項分布が成立するためには、次の前提条件を満たす必要があります。

条件	説明
独立性	各試行が互いに影響を与えない
一定の確率	各試行で成功する確率が一定
二値性	各試行の結果が「成功」か「失敗」のいずれか

二項分布の確率質量関数

二項分布の確率質量関数は、次の式で表されます。

P(X = k) = nCk × p^k × (1-p)^(n-k)

ここで、

nCk：二項係数（n回の試行からk回の成功を選ぶ場合の数）
p：各試行で成功する確率
n：試行回数
k：成功回数（k = 0, 1, 2, ..., n）

この確率質量関数を用いることで、 二項分布に従う確率変数が特定の値をとる確率 を計算できます。

二項分布は、品質管理、世論調査、医学研究など幅広い分野で応用されています。データに基づいて判断する場面では、前提条件に合うモデルとして二項分布を選べるかどうかが重要になります。

二項分布の応用例

二項分布は、さまざまな分野で活用されています。ここでは代表例を紹介します。

品質管理への応用

製造業では、二項分布が品質管理に広く使われています。たとえば、不良が一定確率 p で発生すると仮定し、n個の製品をサンプリングして検査するとき、 不良品の個数は二項分布に従います 。この前提があると、検査計画の設計や工程改善の判断材料になります。

マーケティングリサーチへの応用

アンケートで「購入する」と答える確率が p だと仮定し、n人に調査を行うと、購入意向を示す人数は二項分布でモデル化できます。結果を分析することで、 販売戦略の検討や需要予測 に活用できます。

医学・薬学分野での応用

臨床試験では、治療効果の「有無」のように結果が二値になるケースがよくあります。この場合、二項分布に基づいて統計的検定を行うことで、 新薬の有効性や安全性 を評価できます。

金融工学における応用

金融工学では、原資産価格が一定確率で上昇または下降すると仮定する二項格子モデル（バイノミアル・ツリー・モデル）が知られています。二項分布の考え方を応用することで、 オプション価格の評価やリスク管理 に役立ちます。

二項分布の計算方法

二項分布の計算方法として、代表的なポイントを4つ整理します。

二項係数の計算

確率質量関数を計算する際には、二項係数（nCk）が必要です。二項係数は、次の式で表されます。

nCk = n! ÷ (k! × (n-k)!)

ここで、n! は n の階乗です。階乗の計算を含むため、 n が大きいと計算量が膨らみやすい 点に注意が必要です。実務では電卓・表計算・統計ツールを使って計算するのが一般的です。

二項分布の平均と分散

二項分布 B(n, p) の平均 μ と分散 σ^2 は、次の式で計算されます。

平均 μ = np
分散 σ^2 = np(1-p)

平均と分散を押さえると、分布の中心とばらつきがつかみやすくなります。

二項分布の累積分布関数

累積分布関数（CDF）は、確率変数 X がある値以下になる確率を表します。

F(k; n, p) = P(X ≤ k) = Σ_{i=0}^k nCi × p^i × (1-p)^(n-i)

「k回以下で成功する確率」 を求めたいときに使います。仮説検定やリスク評価などで頻繁に登場します。

正規分布による二項分布の近似

n が大きく、p が極端でない場合、二項分布を正規分布で近似できることがあります。目安として、次を満たすと近似が使いやすくなります。

np ≥ 5
n(1-p) ≥ 5

このとき、B(n, p) を平均 np、分散 np(1-p) の正規分布 N(np, np(1-p)) で近似できます。連続分布で近似するため、精度が必要な場面では連続補正の扱いも含めて、目的に合うかを確認しましょう。

二項分布に関連する分布

幾何分布との関係

幾何分布は、 初めて成功するまでに必要な試行回数の分布 を表します。二項分布が「n回のうち成功回数」に注目するのに対し、幾何分布は「成功が起きるまで」に注目する、という違いがあります。

超幾何分布との比較

超幾何分布は二項分布と似ていますが、前提が異なります。二項分布は「独立試行・成功確率一定」ですが、超幾何分布は、 非復元抽出（戻さずに取り出す） のため、試行ごとに成功確率が変化します。有限母集団からのサンプリングに向いた分布です。

ポアソン分布との関連性

試行回数 n が大きく、成功確率 p が小さい（まれな事象）場合、二項分布はポアソン分布で近似できることがあります。近似では、平均回数を λ = np として扱うのが一般的です。 単位時間あたりに起こる「まれな事象の回数」 を扱うときに、ポアソン分布はよく利用されます。

多項分布への拡張

多項分布は、二項分布を「成功・失敗」の2値から、 複数カテゴリ へ拡張したものです。たとえば、アンケートの選択肢が3つ以上ある場合などに利用されます。

まとめ

二項分布は、独立した試行を繰り返したときの成功回数を表す確率分布で、品質管理、マーケティング、医療、金融など幅広い分野で使われます。前提条件（独立性・確率一定・二値性）を押さえたうえで、確率質量関数、平均・分散、CDF、近似などを理解すると、データ分析や意思決定に応用しやすくなります。関連する分布（幾何分布、超幾何分布、ポアソン分布、多項分布）とあわせて整理すると、「どの分布を使うべきか」の判断がより明確になります。