ベルヌーイ分布は、機械学習やデータ解析で頻繁に登場する基本的な確率分布です。とはいえ「名前は聞くけれど、二項分布との違いが曖昧」「A/Bテストでどう使うのかがピンと来ない」という声も少なくありません。
本記事では、ベルヌーイ分布の定義・特徴を整理したうえで、二項分布との関係、コイン投げや品質管理、システム運用、A/Bテストなどの応用例を紹介します。さらに、成功確率 p の推定(最尤推定・ベイズ推定)と、関連分布(幾何分布、負の二項分布、ベータ分布など)とのつながりも解説します。ITエンジニアやデータにもとづいて改善を進めたい方にとって、再現性のある判断の土台になる知識です。
ベルヌーイ分布(Bernoulli distribution)は、結果が「成功/失敗」の2通りしかない試行(ベルヌーイ試行)を1回行ったときの確率分布です。例えば「クリックした/しない」「合格/不合格」「エラーが起きた/起きない」のように、0か1で表せる事象を扱うときに使います。
確率変数 X がベルヌーイ分布に従うとき、X は 0 または 1 の値を取り、確率質量関数は次のように表されます。
P(X = 1) = p
P(X = 0) = 1 - p
ここで p は成功確率で、0 ≤ p ≤ 1 を満たします。なお、一般には X ~ Bernoulli(p) と表記します。
ベルヌーイ分布の重要な性質は次の通りです。
0/1データの平均は「1の割合」に一致するため、ベルヌーイ分布はシンプルでありながら実務に直結しやすい分布だと言えます。
ベルヌーイ分布は、二項分布の特殊ケースとして理解できます。二項分布は「ベルヌーイ試行を n 回行ったときの成功回数」を表す分布で、n = 1 の場合にベルヌーイ分布と一致します。つまり、ベルヌーイ分布は二項分布の n=1 の特殊ケースです。
実務では「1回の判定(0/1)」がベルヌーイ分布、「複数回の判定の合計(成功回数)」が二項分布、という整理が分かりやすいでしょう。
ベルヌーイ試行とは、一般に次の条件を満たす試行を指します。
ただし実務では、独立性や p の一定性が完全には成り立たないケースもあります(例:時間帯でクリック率が変わる、障害が連鎖する)。この場合は、単純なベルヌーイ分布だけで判断すると誤解につながるため、条件がどの程度満たされているかを確認することが重要です。
ベルヌーイ分布は「0/1で表せる出来事」に幅広く使えます。ここでは代表的な例を4つ紹介します。
コインを1回投げて表が出る確率を p とすると、表が出たら1、裏なら0と定義した確率変数 X はベルヌーイ分布に従います。公正なコインなら p = 0.5 です。「1回の試行の成功確率」を扱う最も基本的なモデルだと考えると理解しやすいでしょう。
製品検査で「合格=1/不合格=0」として、1つの製品の検査結果をベルヌーイ試行として扱えます。合格率が p であるとき、各製品の合否はベルヌーイ分布です。さらに、一定数の製品をまとめて検査して合格数を数えるなら二項分布(n 回のベルヌーイ試行)で扱えます。
ITシステムでは、例えば「ある時間窓(例:1時間)に障害が発生したか」を 0/1 で表し、ベルヌーイ分布として扱うことがあります。時間窓ごとの発生確率を p と置けば、“発生した/しない”の発生頻度を集計して傾向を見ることができます。
一方で「故障までの時間」や「障害発生の間隔」そのものを扱う場合、ベルヌーイ分布よりも指数分布・ワイブル分布などの連続分布が適することがあります。どの量を0/1化しているか(時間窓の定義)を明確にするのがポイントです。
A/Bテストでは、ユーザーの反応を 0/1 として扱う場面が多くあります。例えば「購入した=1/しない=0」「クリックした=1/しない=0」などです。各ユーザーの反応はベルヌーイ分布としてモデリングでき、バージョンAとBで成功確率 p を比較します。
・・・・
注意点として、A/Bテストで「Aを表示する確率がp」という表現は、ベルヌーイ分布の p(成功確率)と混同しやすいです。A/Bの割り当て確率と、反応(成功)確率は別物なので、(割り当て)と(成功)を分けて記述すると誤解が減ります。
ベルヌーイ分布のパラメータは成功確率 p だけです。p が分布の形(成功しやすさ)を決めるため、実務ではこの推定が中心テーマになります。
p は「1回の試行で成功(=1)が起こる確率」です。p=0 なら必ず失敗、p=1 なら必ず成功です。例えばクリック率が2%なら p=0.02 と表せます。
ベルヌーイ試行を n 回行い、成功(=1)が k 回観測されたとします。このとき、最尤推定(MLE)による推定量は直感的に
p̂ = k / n
となります。0/1データの平均が成功率になる、という性質そのものです。
なお、推定値だけでなく「どれくらいブレるか」を示すために、信頼区間(例:二項比率の信頼区間)を併記する運用もよく行われます。標本数が小さい場合や、p が 0 や 1 に近い場合は、区間推定を使う方が安全です。
ベイズ推定では、p を確率変数として扱い、事前分布と観測データから事後分布を求めます。ベルヌーイ(および二項)と相性がよい事前分布はベータ分布で、これを用いると事後分布もベータ分布になります(共役事前分布)。
例えば事前分布を p ~ Beta(α, β) とし、n 回中 k 回成功を観測すると、事後分布は
p | data ~ Beta(α + k, β + n - k)
となります。事後平均(推定値の一例)は
E[p|data] = (α + k) / (α + β + n)
です。ベイズ推定は「事前情報を入れられる」「サンプルが少ないときに極端な推定を抑えやすい」という利点がありますが、事前分布の置き方(α, β)は目的に合わせて慎重に選ぶ必要があります。
ベルヌーイ分布は「0/1の基本単位」であり、多くの分布につながっています。関連を押さえると、問題に応じたモデル選択がしやすくなります。
二項分布は、n 回のベルヌーイ試行の成功回数を扱う分布です。「一定期間に何回成功したか」「サンプルn個のうち不良が何個か」などの集計に対応できます。
幾何分布は「初めて成功するまでに必要な試行回数」を扱います。ベルヌーイ試行を繰り返して、成功が出るまでの回数に注目する、というイメージです。例えば「初めてクリックされるまで何回表示が必要か」のような問いに対応します。
負の二項分布は、幾何分布を一般化したもので「r 回成功するまでに必要な試行回数」や、文脈によっては「一定回数の成功が得られるまでの失敗回数」を扱います。成功が複数回必要なケースで自然に登場します。
ベータ分布は、ベルヌーイ(および二項)の成功確率 p の事前分布としてよく使われます。さらに、p 自体が状況により揺れる(母集団ごとに成功確率が異なる)ような場合、p にベータ分布を置いた結果として、観測される成功回数はベータ二項分布(Beta-Binomial)になる、という見方もできます。
「成功率が一定」と見なせない現場(曜日・属性・環境で成功率が変動する等)では、ベータ二項分布の発想が役立つことがあります。
ベルヌーイ分布は、成功(1)と失敗(0)の2結果をもつ試行を1回行ったときの確率分布で、成功確率 p によって特徴づけられます。0/1データを扱う多くの場面で自然に登場し、二項分布(成功回数)、幾何分布(成功までの回数)、負の二項分布(r 回成功までの回数)などに発展します。
実務では、p の推定が重要です。最尤推定では p̂ = k/n が基本となり、サンプルが少ない場合や事前情報を使いたい場合には、ベータ分布を用いたベイズ推定が有効です。ベルヌーイ分布の前提(独立性・成功確率の一定性)を確認しつつ、扱いたい量(発生有無、成功回数、成功までの回数)に合った分布を選ぶことが、データにもとづく改善につながります。
成功(1)と失敗(0)の2結果をもつ試行を1回行ったときの確率分布で、成功確率 p によって決まります。
結果が2通り、試行が独立、成功確率 p が一定、の3条件が典型です。
ベルヌーイ分布は1回の0/1、二項分布はn回のベルヌーイ試行における成功回数(合計)を扱います。
期待値は p、分散は p(1-p) です。
n回中k回成功したなら、p̂ = k/n(成功率)です。
通常は「成功(クリック・購入など)の確率」です。A/Bの割り当て確率とは別なので混同しないよう注意します。
「一定時間窓で障害が起きたか」を0/1で表すなら使えます。故障までの時間を扱うなら別の分布が適することもあります。
事前情報を反映でき、サンプルが少ないときに極端な推定を抑えやすい点が利点です。
幾何分布は「初回成功まで」、負の二項分布は「r回成功まで」を扱います。
単純なベルヌーイモデルだと誤差が増えるため、条件の確認や、母集団差を取り込むモデル(例:ベータ二項)を検討します。