データ分析や機械学習を学ぶと、「正規分布」という言葉が何度も出てきます。ただ、式や用語を知っているだけでは十分ではありません。手元のデータを見て「正規分布として扱ってよいか」を決められないと、分析のしかたを誤るからです。この記事では、形やパラメータ、68-95-99.7の意味に加え、どんなときに使いやすいか、どんなときは別の見方を考えるべきか、確かめる手順まで順に見ます。
正規分布は、連続量に使う確率の分布の一つです。平均を中心に左右がつり合った釣鐘型の形になりやすく、測定した値のばらつきを表す近似モデルとしてよく使われます。
正規分布の主な特徴は次のとおりです。
この割合を知っておくと、外れ値をどう見るか、しきい値をどこに置くか、ばらつきをどう説明するかを、感覚だけでなく数字で話しやすくなります。
正規分布は、確率密度関数(PDF)と累積分布関数(CDF)で表します。
PDFとCDFが分かると、「あるしきい値を超える確率」や「上位何%の位置か」を計算でき、数字を判断に使いやすくなります。
正規分布は、平均と分散(標準偏差の2乗)という二つのパラメータで決まります。
| 項目 | 意味 |
|---|---|
| 平均値(μ) | 中心の位置 |
| 分散(σ^2) | 広がりの大きさ |
感覚的には、μが中心、σが散らばり具合です。現場では、μは代表値、σはばらつきの説明にそのまま使えます。
正規分布は多くの分野で使われます。大事なのは、現実を完全に表す形として使うのではなく、扱いやすい近似モデルとして役に立つ場面が多いと理解することです。
身長、測定の誤差、製品の寸法のように、小さな要因がいくつも重なって決まる量では、正規分布に近い形になることがあります。背景としてよく出てくるのが中心極限定理で、条件がそろうと、独立な要因の和や平均は正規分布に近づきます。
製造の現場では、寸法、重量、丈夫さのような特性値を正規分布で近似し、工程能力指数(Cp, Cpk)や不良率の見積もりに使うことがあります。標準偏差でばらつきを説明しやすい点は、現場で扱いやすい利点です。
金融では、収益率の分布を単純化して扱う場面で正規分布が出てきます。ただし、実際の価格の動きは裾が厚く、極端な変動が起きやすいこともあります。そのため、正規分布の仮定だけに頼ると、危険を小さく見積もるおそれがあります。
「多くのアルゴリズムが正規分布を前提にする」とまとめてしまうと不正確です。実際には、次のような場面で正規分布、またはそれに近い仮定が役立ちます。
大切なのは、「正規分布だと決めて使う」のではなく、「その仮定を置いてよいか」を確かめながら使うことです。
正規分布は左右がつり合っているため、平均・中央値・最頻値が一致します。データが大きくゆがむと、この一致は崩れます。そうなると、平均より中央値のほうが代表値として適している場合があります。
分散は「平均との差を2乗して平均したもの」、標準偏差はその平方根です。正規分布に近いデータなら、標準偏差を使って「だいたいどこまでに収まるか」を説明しやすくなります。異常を見つけるときや、ばらつきを説明するときにも使いやすい考え方です。
歪度は左右のかたより、尖度は裾の重さや山のとがり方を見る指標です。
ただし、歪度や尖度はサンプル数や外れ値の影響を受けやすい指標です。ヒストグラムやQ-Qプロットと合わせて見るほうが安全です。
ここは混同しやすいので、分けて覚えるのが無難です。
zスコア化は尺度をそろえて比べやすくする操作で、正規化は値の範囲をそろえて扱いやすくする操作です。どちらも「正規分布に変える操作」ではありません。
中心極限定理は、「独立な確率変数の和や平均が、条件のもとで正規分布に近づく」という性質です。ただし、何でも正規分布になるわけではありません。分布のゆがみが極端に強い、外れ値の影響が大きい、独立性が崩れているといった場合は、近似がうまく働かないことがあります。
正規分布が連続量のばらつきを表すのに対し、ポアソン分布は一定の時間に何回起きたかのような回数データに向きます。べき乗則(パワーロー)は、非常に大きい値が出ることが多い現象でよく見られます。たとえば、アクセス数の偏りや都市の人口です。
なお、ポアソン分布は平均(λ)が十分大きいと、正規分布で近似できることがあります。こうした使い分けを意識すると、データに合わない仮定を置く失敗を減らせます。
正規分布に従う乱数を作る方法としては、Box-Muller法のような手法があります。検定の動きを確かめたり、モンテカルロ法で挙動を見たりするときに出てくるため、知っておくと理解が進みます。
よくある落とし穴は次のとおりです。
見る順番は、ヒストグラムやQ-Qプロットで形を見る→必要ならShapiro-Wilkなどの検定を見る→変換やロバストな手法も考える、とすると堅実です。
正規分布は、データ分析、統計、機械学習で何度も出てくる基本の考え方です。大切なのは、式を覚えることだけではありません。手元のデータに対して、正規分布の仮定を置いてよいかを見分けることです。平均と標準偏差、68-95-99.7、PDFとCDFの意味、そして図で確かめる手順を知っておくと、データの読み方と説明のしかたが安定します。
平均を中心に左右がつり合った釣鐘型を持つ、連続量に使う分布です。形は平均と分散(標準偏差)で決まります。
正規分布に従うとき、平均から標準偏差1個分の範囲に、全体のおよそ68%が入るという性質です。
いいえ。連続量の分布では一点の確率は0です。PDFは、その近くに出やすい度合いを表します。区間の確率はPDFの面積で求めます。
まずヒストグラムやQ-Qプロットで形を見ます。必要ならShapiro-Wilkなどの検定も使います。外れ値や裾の重さも合わせて見ます。
zスコア化は平均0・標準偏差1に変換することです。正規化は値の範囲を0〜1などにそろえることです。どちらも正規分布に変える操作ではありません。
なりません。独立性が弱い、外れ値が極端、ゆがみが強いといった条件では、正規分布での近似がうまくいかないことがあります。
回数を数えるデータでは、ポアソン分布が候補になります。測定値のような連続量では、正規分布が候補になります。どちらを使うかは、データの形を見て決めます。ポアソン分布は、平均が十分大きいときに正規分布で近似できることがあります。
裾が重い、外れ値が多い、分布のゆがみが大きいデータでは、危険や不良率を小さく見積もるおそれがあります。