データ分析や機械学習を学ぶ中で「正規分布」という言葉は頻繁に登場します。ただ、式や用語だけ知っていても、実務で「このデータは正規分布っぽいのか?」「正規分布を前提にしてよいのか?」の判断ができないと、分析の質は上がりません。この記事では、正規分布の基本(形・パラメータ・68-95-99.7)に加えて、正規分布を前提にしてよい場面/避けるべき場面、そして実務での確認方法までを整理します。
正規分布は、連続型の確率分布の一種です。平均(中心)を境に左右対称の「釣鐘型」の形を持つのが特徴で、多くの測定値(ばらつきが複数要因の積み重ねで生じるもの)を近似するモデルとしてよく使われます。
正規分布の代表的な性質は次のとおりです。
この「どの範囲にどれくらい入るか」が分かると、外れ値の扱い、しきい値の設定、ばらつきの説明などを、感覚ではなく根拠を持って語れるようになります。
正規分布は、確率密度関数(PDF)と累積分布関数(CDF)で表されます。
PDF/CDFを理解しておくと、「ある閾値を超える確率」「上位◯%点(パーセンタイル)」などを計算し、意思決定に使える形へ落とし込めます。
正規分布は、平均と分散(標準偏差の2乗)という2つのパラメータで特徴づけられます。
| パラメータ | 意味 |
|---|---|
| 平均値(μ) | 分布の中心位置(左右対称の基準) |
| 分散(σ^2) | 分布の広がり(ばらつきの大きさ) |
直感的には、μが「中心」、σが「散らばり具合」です。実務では、μは“代表値”、σは“安定性(ばらつき)”の説明に直結します。
正規分布は多くの領域で使われますが、重要なのは「正規分布が現実を完全に表す」というより、扱いやすい近似モデルとして有効なケースが多い点です。
身長、測定誤差、製品寸法など、複数の小さな要因が積み重なって決まる量は、分布が正規分布に近づくことがあります。背景としてよく語られるのが中心極限定理(CLT)で、一定の条件のもとで「独立な要因の和」が正規分布に近づくという性質があります。
製造業の品質管理では、寸法・重量・強度などの特性値を正規分布で近似し、工程能力指数(Cp, Cpk)や不良率の推定、管理図の設計などに活用します。ばらつきを“標準偏差”で説明できるのが、正規分布を使う大きな実務的メリットです。
金融の世界では、リターン分布を単純化して扱う文脈で正規分布が登場します(例:モデル化や計算のしやすさのための近似)。ただし、現実の価格変動は裾が厚い(極端な変動が起きやすい)ことも多く、正規分布の仮定がリスクを過小評価する可能性がある点には注意が必要です。
「多くのアルゴリズムが正規分布を前提とする」と一括りにすると誤解が出ます。正確には、
といった場面で、正規分布(またはそれに近い仮定)が役に立ちます。「仮定してよいか」を確認しながら使うのが実務的な姿勢です。
正規分布は左右対称なので、平均・中央値・最頻値が一致します。データが大きく歪んでいる場合(左右非対称が強い場合)は、この一致が崩れ、代表値の選び方(平均より中央値を使う等)を見直すヒントになります。
分散は「平均との差の2乗の平均」、標準偏差はその平方根です。正規分布に近いデータであれば、標準偏差を使って「だいたいこの範囲に収まる」と説明しやすくなり、異常検知や品質の説明がスムーズになります。
歪度(左右非対称)と尖度(裾の重さ・尖り)は、分布の形状を数値で要約する指標です。
ただし、歪度・尖度はサンプルサイズや外れ値に影響されやすいため、ヒストグラムやQ-Qプロットなどの可視化と併用するのが実務的です。
用語として混同が多いので、ここは明確に区別します。
標準化は「尺度をそろえて比較しやすくする」目的でよく使われ、正規化は「値の範囲を揃えて扱いやすくする」目的で用いられます。どちらも“正規分布にする操作”ではない点は押さえておきましょう。
中心極限定理は「独立な確率変数の和(あるいは平均)が、条件のもとで正規分布に近づく」という性質です。ここで重要なのは、何でもかんでも正規分布になるわけではないという点です。分布が極端に歪んでいたり、外れ値が非常に強かったり、独立性が崩れていたりすると、近似はうまくいかないことがあります。
正規分布が連続量の「ばらつき」を表すのに対し、ポアソン分布は「一定期間に起きる回数」のような離散データ(カウント)に向きます。さらに、べき乗則(パワーロー)は、極端に大きい値が比較的起きやすい“裾の厚い”現象(例:アクセス数の偏り、都市人口など)で見られます。
なお、ポアソン分布は平均(λ)が大きいと正規分布で近似できることがあります。こうした“使い分けの発想”を持つと、データに合わない前提を置くミスが減ります。
正規分布に従う乱数生成には、Box-Muller法などの代表的手法があります。これはシミュレーション(検定の挙動確認、モンテカルロなど)で登場しやすく、理解しておくと「分布の性質を手で確かめる」学習にも役立ちます。
実務で多い落とし穴は次のとおりです。
対策としては、可視化(ヒストグラム/Q-Qプロット)→必要なら検定(Shapiro-Wilk等)→変換やロバスト手法も検討という順番で判断するのが堅実です。
正規分布は、データ分析・統計・機械学習の多くの場面で登場する“基本言語”です。大切なのは、正規分布を暗記することよりも、正規分布を仮定してよい状況かどうかを見極めることです。平均と標準偏差、68-95-99.7、PDF/CDFの意味、そして可視化による確認を押さえることで、データの捉え方と説明力が一段上がります。
平均を中心に左右対称の釣鐘型を持つ、連続型の確率分布です。平均と分散(標準偏差)で形が決まります。
正規分布に従うとき、平均から標準偏差1個分の範囲に、全体のおよそ68%が入るという性質です。
いいえ。連続分布では一点の確率は0で、PDFは“その近辺に現れやすい度合い”を表します。区間の確率はPDFの面積で求めます。
まずヒストグラムやQ-Qプロットで形を確認し、必要ならShapiro-Wilkなどの検定も併用します。外れ値や裾の厚さも合わせて評価します。
標準化は平均0・標準偏差1に変換すること、正規化は値の範囲を0〜1などに揃えることです。どちらも“正規分布にする操作”ではありません。
なりません。独立性が弱い、外れ値が極端、歪みが強いなど条件が崩れると、正規近似がうまくいかないことがあります。
回数などの離散データはポアソン分布、測定値など連続量のばらつきは正規分布が基本です。ポアソンは平均が大きいと正規で近似できる場合があります。
裾が厚い、外れ値が多い、分布が大きく歪むデータでは、リスクや不良率を過小評価する可能性があります。