IT用語集

度数分布表とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashRuthson Zimmermanが撮影した写真      

データの分布状況を正しく理解することは、適切な分析や意思決定を行ううえで非常に重要です。しかし、膨大な量のデータを前に、その特徴をつかむことは簡単ではありません。そこで役立つのが、データの分布を整理して見せてくれる「度数分布表」です。

この記事では、度数分布表の基本概念から作成手順、読み取り方、関連する統計手法までをわかりやすく解説します。度数分布表を理解し活用することで、データ分析の質を大きく向上させることができるでしょう。

度数分布表とは? 基本概念を理解しよう

度数分布表は、統計学においてデータの分布状況を整理・把握するために用いられる、基本的かつ重要なツールです。まずは、その定義と役割から見ていきましょう。

度数分布表の定義と役割

度数分布表とは、データを一定の範囲(階級)に分け、それぞれの階級に属するデータの個数(度数)を一覧にまとめた表です。バラバラに並んでいる個々のデータをまとめて眺めることで、全体としてどのあたりにデータが集中しているのか、どのような形の分布になっているのかを把握しやすくなります。

度数分布表の主な役割は次の通りです。

  1. データの分布状況を把握する
  2. データの特徴(集中・ばらつき・偏りなど)を理解する
  3. データの傾向を分析する
  4. 複数のデータセットの比較を容易にする

度数分布表を作成する目的

度数分布表を作成する主な目的は、次のように整理できます。

  • データの全体像を直感的に把握する
  • 分布状況を整理・可視化し、特徴を明らかにする
  • 分析や報告のための基礎資料とする
  • 後続の統計手法(ヒストグラム、代表値、分散など)の計算に活用する

度数分布表を用いることで、単なる「数値の羅列」だったデータが、意味のある情報として読み取りやすくなり、効果的なデータ分析が可能になります。

度数分布表の構成要素

度数分布表は、一般的に次のような要素から構成されます。

構成要素説明
階級データを分割する一定の範囲(例:20~29歳、30~39歳など)
度数各階級に含まれるデータの個数
累積度数ある階級までの度数を順に加えた合計
相対度数全データ数に対する、各階級の度数の割合
累積相対度数ある階級までの相対度数を順に加えた合計

これらの要素を組み合わせて表を構成することで、データの分布状況を多面的に捉えられるようになります。

度数分布表の具体例

例として、ある企業の従業員 100 名の年齢データから作成した度数分布表を示します。

年齢階級度数累積度数相対度数累積相対度数
20歳以上30歳未満15150.150.15
30歳以上40歳未満30450.300.45
40歳以上50歳未満35800.350.80
50歳以上60歳未満201000.201.00
合計100-1.00-

この度数分布表から、従業員の年齢は 30~50 歳に集中していることがわかります。また、累積相対度数を見ると、50歳未満の従業員が全体の 80% を占めていることも読み取れます。

このように、度数分布表を作成することで、データの分布状況や特徴を視覚的かつ直感的に把握できるようになります。

度数分布表の作成手順をマスターしよう

度数分布表を正しく作成するためには、いくつかのステップを順に踏む必要があります。ここでは、データの準備から表の完成までの流れを整理して解説します。

データの収集と整理

最初のステップは、分析対象となるデータの収集と整理です。次の点を意識しながら、データを準備しましょう。

  • 分析目的に合致したデータを収集する
  • 単位や記録方法(小数点以下の扱いなど)を統一する
  • 欠損値や明らかな異常値を確認し、必要に応じて補完・除外する
  • データを昇順または降順に並べ替えておく

この段階でデータを丁寧に整えることで、後の階級設定や度数計算をスムーズに進められます。

階級の設定方法

データを整理したら、次に階級を設定します。階級とは、データを分割する一定の範囲のことです。階級設定のポイントは次の通りです。

  1. 階級の数を決める(一般的には 5~20 程度が目安)
  2. データの最小値と最大値から全体の範囲を求める
  3. 範囲を階級数で割り、おおよその階級の幅を決める
  4. 階級の下限・上限を決め、「以上」「未満」などの表記を統一する

階級の数や幅が極端すぎると、分布の特徴がつかみにくくなる場合があります。データの特性や利用目的に応じて、適切な階級設定を心がけましょう。

度数の計算とまとめ方

階級を設定したら、各階級に属するデータの個数(度数)を数えていきます。主な手順は次の通りです。

  • 各データがどの階級に属するかを判定する
  • 階級ごとにデータの個数をカウントし、度数として記録する
  • 度数の合計が全データ数と一致しているか確認する
  • 度数をもとに、累積度数・相対度数・累積相対度数を計算する

度数の合計と元データの件数が一致しているかどうかは、作業ミスを防ぐうえで重要なチェックポイントです。

度数分布表の完成

最後に、計算した度数や関連する指標を表形式にまとめ、度数分布表を完成させます。一般的な形式は次のようになります。

階級度数累積度数相対度数累積相対度数
階級1度数1累積度数1相対度数1累積相対度数1
階級2度数2累積度数2相対度数2累積相対度数2
合計全度数-1.00-

度数分布表を適切に作成することで、データの分布状況や特徴を視覚的に整理でき、以降の分析や報告のベースとして非常に有用な資料になります。

度数分布表から読み取れる情報と活用方法

完成した度数分布表からは、単なる「数の一覧」以上の多くの情報を読み取ることができます。ここでは、度数分布表から得られる主な情報と、その活用方法を見ていきましょう。

度数分布表からわかること

度数分布表から読み取れる代表的な情報は次の通りです。

  • データの分布の形状(左右対称か、どちらかに偏っているか など)
  • データの集中傾向(どの階級に多く集まっているか)
  • データのばらつきの程度(広く分散しているか、狭い範囲に集中しているか)
  • 極端に少ない階級や外れ値の存在
  • 全体としての特徴(若年層が多い・高価格帯が少ない など)

これらを把握することで、データの性質を理解し、後続の分析手法(代表値の計算、仮説検定など)の選択にも役立ちます。

度数分布表を用いたデータの可視化

度数分布表そのものも有用ですが、グラフと組み合わせることで、より直感的な理解が得られます。代表的な可視化手法は次の通りです。

  1. ヒストグラム:階級を横軸、度数を縦軸とし、棒グラフで分布を表現する
  2. 累積度数折れ線グラフ:階級を横軸、累積度数を縦軸とし、増え方の傾向を見る
  3. 円グラフ:各階級の相対度数を割合として表し、構成比を直感的に示す

これらのグラフを活用することで、データの分布状況や特徴を視覚的に把握しやすくなり、関係者への説明もしやすくなります。

度数分布表を活用した意思決定

度数分布表は、具体的な意思決定の場面でも活用できます。例えば、次のようなケースが考えられます。

  • 製品の品質管理:寸法や性能の分布を分析し、管理限界や改善の優先度を検討する
  • 市場調査:顧客の年齢や購入金額の分布から、主要なターゲット層を把握する
  • リスク管理:事故や故障の件数分布を分析し、重点的に対策すべき領域を絞り込む

このように、度数分布表は、データに基づいた客観的な判断を支える基礎ツールとして、多様な業務で利用できます。

度数分布表の注意点と限界

一方で、度数分布表にはいくつかの注意点や限界もあります。

  • 階級の数や幅の設定によって、分布の見え方が変わってしまうことがある
  • 階級にまとめることで、個々のデータの詳細な情報は失われる
  • 極端に偏ったデータでは、分布の特徴が読み取りにくい場合がある
  • 因果関係や相関関係の有無までは、度数分布表だけでは判断できない

これらを踏まえ、必要に応じて他の統計手法(散布図、相関分析、回帰分析など)と組み合わせながら、柔軟な分析を行うことが大切です。

度数分布表に関連する統計手法

度数分布表はデータ分析の入り口として重要な役割を果たしますが、その周辺には密接に関連する統計手法がいくつか存在します。ここでは、代表的な手法を紹介します。

ヒストグラムとの関係

ヒストグラムは、度数分布表を視覚的に表現したグラフです。横軸に階級、縦軸に度数をとり、各階級の度数に応じた高さの棒を並べて表示します。

ヒストグラムを作成することで、

  • 分布の形(山がいくつあるか、左右に偏っていないか)
  • 外れ値や極端な階級の有無
  • データのばらつきや集中度

などを直感的に把握できるようになります。度数分布表とヒストグラムは相互に変換可能であり、併用することで理解が一層深まります。

代表値(平均値・中央値・最頻値)の計算

代表値とは、データの「中心的な傾向」を 1 つの値で表す指標です。代表的なものとして、次の 3 つが挙げられます。

  • 平均値:データの合計を件数で割った値
  • 中央値:データを小さい順に並べたとき、ちょうど中央に位置する値
  • 最頻値:最も頻繁に出現する値(または階級)

度数分布表を用いると、階級値(各階級の中央値)と度数を使って、これらの代表値を近似的に計算できます。個々の生データを直接扱えない場合でも、度数分布表からおおまかな中心傾向を把握することが可能です。

分散と標準偏差の算出

分散と標準偏差は、データのばらつきの大きさを表す代表的な指標です。

  • 分散:各データと平均値との差を二乗し、その平均を取った値
  • 標準偏差:分散の平方根。元のデータと同じ単位でばらつきの大きさを表す

度数分布表を使った場合は、各階級の階級値と度数を用いて「近似値」として分散や標準偏差を求める方法が一般的です。元データをすべて参照する方法に比べると厳密さは劣るものの、実務上は十分な精度が得られるケースが多くあります。

度数分布多角形の描き方

度数分布多角形は、度数分布表の情報を折れ線グラフとして表現したものです。ヒストグラムよりも分布の「滑らかな形」をイメージしやすいのが特徴です。

描き方は次の通りです。

  1. 横軸に階級、縦軸に度数をとる
  2. 各階級の中央値と度数に対応する点をプロットする
  3. プロットした点を順に線で結ぶ

度数分布多角形は、複数の分布を重ねて比較する場合などにも有効で、データの傾向をなめらかな線で把握したいときに役立ちます。

まとめ

この記事では、度数分布表の基本概念から作成手順、読み取り方、関連する統計手法までを一通り解説しました。度数分布表は、データ分析の出発点となる重要なツールです。

  • バラバラなデータを「階級」と「度数」に整理し、分布状況を見える化できる
  • ヒストグラムや度数分布多角形などのグラフと組み合わせることで、直感的な理解が進む
  • 代表値や分散・標準偏差といった統計量の計算にも活用できる
  • 品質管理、マーケティング、リスク管理など、さまざまな業務で意思決定の土台になる

度数分布表の考え方と作り方をマスターすれば、データの「全体像」と「特徴」を素早く把握できるようになり、日々の業務における分析や報告の質を一段引き上げることができます。ぜひ実際のデータで度数分布表を作成し、その効果を体感してみてください。


Q.度数分布表とは何ですか?

度数分布表とは、データを一定の範囲(階級)に区切り、それぞれの階級に含まれるデータの個数(度数)を一覧にした表のことです。データの分布状況や特徴を把握するために用いられます。

Q.度数分布表を作成する目的は何ですか?

膨大なデータを整理して、全体像や分布の特徴をわかりやすくするためです。度数分布表を作ることで、どの範囲にデータが多いか、ばらつきはどの程度かなどを直感的に把握できます。

Q.階級はどのように決めればよいですか?

データの最小値と最大値から範囲を求め、おおよその階級数(5~20 程度が目安)で割って階級の幅を決めます。そのうえで、区切りのよい数値になるように調整し、「◯以上△未満」などの表記を統一します。

Q.度数分布表とヒストグラムの違いは何ですか?

度数分布表は表形式で階級と度数をまとめたもの、ヒストグラムはその情報を棒グラフとして視覚的に表現したものです。内容はほぼ同じで、ヒストグラムの元データが度数分布表と考えることができます。

Q.度数分布表から平均値や中央値を求めることはできますか?

はい、できます。各階級の代表値(階級の中央値)と度数を用いて平均値を近似的に求めたり、累積度数が全体の半分を超える階級から中央値を推定したりできます。

Q.度数分布表の相対度数とは何ですか?

相対度数とは、各階級の度数を全データ数で割った値です。全体に対してその階級がどれくらいの割合を占めるかを示し、構成比の把握に役立ちます。

Q.度数分布表を使う際の注意点はありますか?

階級の数や幅の設定によって、分布の見え方が変わる点に注意が必要です。また、階級にまとめることで個々のデータの詳細が失われるため、必要に応じて生データや他の統計手法も併用することが大切です。

Q.度数分布表だけで因果関係を判断できますか?

いいえ、できません。度数分布表はあくまで一つの変数の分布を示すためのツールであり、原因と結果の関係までは分かりません。因果関係を検討するには、相関分析や回帰分析などの別の手法が必要です。

Q.ビジネス現場では度数分布表をどのように活用できますか?

品質管理における寸法や不良数の分析、市場調査における年齢や購入金額の分布分析、リスク管理における事故件数の分析など、データの偏りや特徴を把握して施策の優先順位を決める場面で活用できます。

Q.度数分布表を学ぶメリットは何ですか?

データの全体像や特徴を素早く把握できるようになり、分析や報告の質が向上します。また、ヒストグラムや代表値、分散・標準偏差など、他の統計手法を理解するための基礎にもなるため、データ活用の第一歩として大きなメリットがあります。

記事を書いた人

ソリトンシステムズ・マーケティングチーム