IT用語集

正規分布とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashAndy Hallが撮影した写真

データ分析や機械学習を学ぶ中で「正規分布」という言葉は頻繁に登場します。ただ、式や用語だけ知っていても、実務で「このデータは正規分布っぽいのか?」「正規分布を前提にしてよいのか?」の判断ができないと、分析の質は上がりません。この記事では、正規分布の基本(形・パラメータ・68-95-99.7)に加えて、正規分布を前提にしてよい場面/避けるべき場面、そして実務での確認方法までを整理します。

正規分布とは? 基本的な概念を解説

確率分布の一種としての正規分布

正規分布は、連続型の確率分布の一種です。平均(中心)を境に左右対称の「釣鐘型」の形を持つのが特徴で、多くの測定値(ばらつきが複数要因の積み重ねで生じるもの)を近似するモデルとしてよく使われます。

正規分布の特徴と性質

正規分布の代表的な性質は次のとおりです。

  1. 平均値を中心に左右対称な分布形状を持つ
  2. 分布の広がり(ばらつき)は標準偏差で決まる
  3. 平均値±1標準偏差の範囲に約68%のデータが含まれる
  4. 平均値±2標準偏差の範囲に約95%のデータが含まれる
  5. 平均値±3標準偏差の範囲に約99.7%のデータが含まれる(いわゆる「3シグマ」)

この「どの範囲にどれくらい入るか」が分かると、外れ値の扱い、しきい値の設定、ばらつきの説明などを、感覚ではなく根拠を持って語れるようになります。

正規分布の確率密度関数と累積分布関数

正規分布は、確率密度関数(PDF)と累積分布関数(CDF)で表されます。

  • 確率密度関数(PDF):値が「その近辺に現れやすい度合い」を表す関数(※連続分布では一点の確率は0で、区間の確率を面積として扱います)
  • 累積分布関数(CDF):ある値以下になる確率を表す関数

PDF/CDFを理解しておくと、「ある閾値を超える確率」「上位◯%点(パーセンタイル)」などを計算し、意思決定に使える形へ落とし込めます。

正規分布の平均値と分散の意味

正規分布は、平均と分散(標準偏差の2乗)という2つのパラメータで特徴づけられます。

パラメータ意味
平均値(μ)分布の中心位置(左右対称の基準)
分散(σ^2)分布の広がり(ばらつきの大きさ)

直感的には、μが「中心」、σが「散らばり具合」です。実務では、μは“代表値”、σは“安定性(ばらつき)”の説明に直結します。

正規分布が使われるシーン

正規分布は多くの領域で使われますが、重要なのは「正規分布が現実を完全に表す」というより、扱いやすい近似モデルとして有効なケースが多い点です。

自然現象や社会現象での正規分布の存在

身長、測定誤差、製品寸法など、複数の小さな要因が積み重なって決まる量は、分布が正規分布に近づくことがあります。背景としてよく語られるのが中心極限定理(CLT)で、一定の条件のもとで「独立な要因の和」が正規分布に近づくという性質があります。

品質管理における正規分布の活用

製造業の品質管理では、寸法・重量・強度などの特性値を正規分布で近似し、工程能力指数(Cp, Cpk)や不良率の推定、管理図の設計などに活用します。ばらつきを“標準偏差”で説明できるのが、正規分布を使う大きな実務的メリットです。

金融工学やリスク管理での応用

金融の世界では、リターン分布を単純化して扱う文脈で正規分布が登場します(例:モデル化や計算のしやすさのための近似)。ただし、現実の価格変動は裾が厚い(極端な変動が起きやすい)ことも多く、正規分布の仮定がリスクを過小評価する可能性がある点には注意が必要です。

機械学習やデータ分析での重要性

「多くのアルゴリズムが正規分布を前提とする」と一括りにすると誤解が出ます。正確には、

  • 統計モデルの一部(例:線形回帰の誤差項に関する仮定、ガウス(Gaussian)ナイーブベイズ)
  • 推定や検定(信頼区間、p値計算など)での近似
  • 特徴量スケール調整(標準化)

といった場面で、正規分布(またはそれに近い仮定)が役に立ちます。「仮定してよいか」を確認しながら使うのが実務的な姿勢です。

正規分布に関連する統計量

平均値と中央値、最頻値の関係

正規分布は左右対称なので、平均・中央値・最頻値が一致します。データが大きく歪んでいる場合(左右非対称が強い場合)は、この一致が崩れ、代表値の選び方(平均より中央値を使う等)を見直すヒントになります。

標準偏差と分散の意味と使い方

分散は「平均との差の2乗の平均」、標準偏差はその平方根です。正規分布に近いデータであれば、標準偏差を使って「だいたいこの範囲に収まる」と説明しやすくなり、異常検知や品質の説明がスムーズになります。

歪度と尖度による“正規分布からのずれ”の評価

歪度(左右非対称)と尖度(裾の重さ・尖り)は、分布の形状を数値で要約する指標です。

  • 歪度:0に近いほど左右対称
  • 尖度:正規分布と比べて裾が厚い/薄いかの目安

ただし、歪度・尖度はサンプルサイズや外れ値に影響されやすいため、ヒストグラムやQ-Qプロットなどの可視化と併用するのが実務的です。

標準化と正規化による分布の比較

用語として混同が多いので、ここは明確に区別します。

  • 標準化(Standardization):平均を0、標準偏差を1にそろえる(zスコア)
  • 正規化(Normalization):値の範囲を0〜1にそろえる(min-max など)

標準化は「尺度をそろえて比較しやすくする」目的でよく使われ、正規化は「値の範囲を揃えて扱いやすくする」目的で用いられます。どちらも“正規分布にする操作”ではない点は押さえておきましょう。

正規分布を深く理解するためのポイント

中心極限定理と正規分布の関係性

中心極限定理は「独立な確率変数の和(あるいは平均)が、条件のもとで正規分布に近づく」という性質です。ここで重要なのは、何でもかんでも正規分布になるわけではないという点です。分布が極端に歪んでいたり、外れ値が非常に強かったり、独立性が崩れていたりすると、近似はうまくいかないことがあります。

正規分布とポアソン分布、べき乗則(パワーロー)の違い

正規分布が連続量の「ばらつき」を表すのに対し、ポアソン分布は「一定期間に起きる回数」のような離散データ(カウント)に向きます。さらに、べき乗則(パワーロー)は、極端に大きい値が比較的起きやすい“裾の厚い”現象(例:アクセス数の偏り、都市人口など)で見られます。

なお、ポアソン分布は平均(λ)が大きいと正規分布で近似できることがあります。こうした“使い分けの発想”を持つと、データに合わない前提を置くミスが減ります。

正規分布を生成するためのシミュレーション手法

正規分布に従う乱数生成には、Box-Muller法などの代表的手法があります。これはシミュレーション(検定の挙動確認、モンテカルロなど)で登場しやすく、理解しておくと「分布の性質を手で確かめる」学習にも役立ちます。

正規分布の誤用や誤解を避けるための注意点

実務で多い落とし穴は次のとおりです。

  • ヒストグラムも見ずに「正規分布のはず」と仮定してしまう
  • サンプルが小さいのに“正規性”を強く前提にしてしまう
  • 外れ値や裾の厚さを無視して、リスクや不良率を過小評価する

対策としては、可視化(ヒストグラム/Q-Qプロット)→必要なら検定(Shapiro-Wilk等)→変換やロバスト手法も検討という順番で判断するのが堅実です。

まとめ

正規分布は、データ分析・統計・機械学習の多くの場面で登場する“基本言語”です。大切なのは、正規分布を暗記することよりも、正規分布を仮定してよい状況かどうかを見極めることです。平均と標準偏差、68-95-99.7、PDF/CDFの意味、そして可視化による確認を押さえることで、データの捉え方と説明力が一段上がります。

正規分布に関するFAQ

Q.正規分布とは何ですか?

平均を中心に左右対称の釣鐘型を持つ、連続型の確率分布です。平均と分散(標準偏差)で形が決まります。

Q.「平均±1σに約68%」はどういう意味ですか?

正規分布に従うとき、平均から標準偏差1個分の範囲に、全体のおよそ68%が入るという性質です。

Q.確率密度関数(PDF)は「確率」そのものですか?

いいえ。連続分布では一点の確率は0で、PDFは“その近辺に現れやすい度合い”を表します。区間の確率はPDFの面積で求めます。

Q.データが正規分布に従うかはどう確認しますか?

まずヒストグラムやQ-Qプロットで形を確認し、必要ならShapiro-Wilkなどの検定も併用します。外れ値や裾の厚さも合わせて評価します。

Q.標準化と正規化の違いは何ですか?

標準化は平均0・標準偏差1に変換すること、正規化は値の範囲を0〜1などに揃えることです。どちらも“正規分布にする操作”ではありません。

Q.中心極限定理があるなら、何でも正規分布になりますか?

なりません。独立性が弱い、外れ値が極端、歪みが強いなど条件が崩れると、正規近似がうまくいかないことがあります。

Q.ポアソン分布と正規分布はどう使い分けますか?

回数などの離散データはポアソン分布、測定値など連続量のばらつきは正規分布が基本です。ポアソンは平均が大きいと正規で近似できる場合があります。

Q.正規分布を前提にすると危ないケースは?

裾が厚い、外れ値が多い、分布が大きく歪むデータでは、リスクや不良率を過小評価する可能性があります。

記事を書いた人

ソリトンシステムズ・マーケティングチーム