散布図は、2つの変数の関係を点の並びで見るグラフです。相関の有無だけでなく、外れた点、集団の混在、直線ではない形まで一度に確認できます。業務データにはノイズや例外が多いため、散布図を正しく読めるかどうかで、施策づくりやKPI設計の精度が変わります。
この記事では、散布図で何が読み取れるのか、何は読み取りすぎてはいけないのかを押さえたうえで、実務で使いやすい作り方と読み方を整理します。
散布図は、2つの変数間の関係性を点の分布として可視化するグラフです。横軸と縦軸にそれぞれの変数を置き、各データを「1点」としてプロットします。
ここで重要なのは、散布図の1点は1つの観測(1レコード)を表すという点です。たとえば「広告費」と「売上高」を使う場合、ある期間(例:1週間、1か月)における広告費と売上の組み合わせ(x, y)が1点になります。期間や粒度が揃っていないと、散布図はそれらしく見えても解釈が崩れます。
散布図は「仮説を作る」ために非常に強力ですが、相関が見えても因果とは限らない点を最初に押さえておく必要があります。
散布図は、2つの数値の関係を見るためのグラフです。棒グラフや折れ線グラフとは、見たいものが異なります。
たとえば、月ごとの売上の増減を見たいなら折れ線グラフ、商品別の売上を比べたいなら棒グラフ、広告費と売上の関係を見たいなら散布図が向いています。
例として、広告費(万円)と売上高(万円)の関係を見てみます。現実のデータは一直線になりにくいため、ばらつきがある例を示します。
| 広告費(万円) | 売上高(万円) |
|---|---|
| 10 | 95 |
| 20 | 140 |
| 30 | 210 |
| 40 | 230 |
| 40 | 260 |
このデータを散布図にすると、点はおおむね右上がりに並び、広告費が増えるほど売上も増える傾向が読み取れます。一方で、同じ広告費(40万円)でも売上が230万円と260万円に分かれており、広告とは別の要因(季節性、商品力、在庫、営業の施策など)も影響している可能性が示唆されます。
特にビジネスの現場では、散布図を起点にして「効いていそうな要因」を当たりづけし、次の検証へ進める使い方が有効です。
散布図は「正の相関」「負の相関」「相関なし」だけで終えるのではなく、形の違いから仮説を作ると実務での価値が上がります。
散布図は、データに基づく議論の出発点として有用です。結論を断定する道具ではなく、「次に何を確かめるべきか」を見つける道具として使うと安定します。
この流れで進めると、散布図が「描いて終わり」にならず、判断に接続しやすくなります。
横軸と縦軸は「比較したい2つの変数」です。例えば、横軸に広告費、縦軸に売上高を置く場合、各点は「ある単位で切ったデータ」の組み合わせを表します。
| 広告費(横軸) | 売上高(縦軸) | データポイントの意味 |
|---|---|---|
| 10万円 | 100万円 | ある期間に広告費10万円で売上100万円だった |
| 20万円 | 150万円 | ある期間に広告費20万円で売上150万円だった |
実務では「ある期間」が曖昧だと解釈が破綻します。週次なのか月次なのか、全社の合計なのか担当者ごとなのかなど、点の定義を先に固定しましょう。
散布図の印象を数値で補いたいときは、相関の強さを示す値とR²を使います。
切片を含む単回帰では、R²は相関の強さを示す値rの二乗(r²)に一致します。ただし、説明に使う変数が複数ある場合や、モデルの置き方が異なる場合は、この対応をそのまま使えません。
また、相関の強さを示す値や当てはまりの度合いを示す値は原因と結果の関係を証明しません。外れた点が1点あるだけで数値が大きく動くこともあるため、散布図の形(分布・外れた点・直線ではない形)を先に確認することが重要です。
散布図の点の並び方から、相関の方向を把握できます。
ただし、ここで結論を急がないことが重要です。相関が弱い場合でも、直線ではない形(U字・飽和)や層の混在(顧客層ごとでは関係がある)が原因で、全体では見えなくなっていることがあります。
実務の散布図では、次のような「形」がよく現れます。
これらは「相関の強さを示す値」だけでは見落とされやすい情報です。散布図はまず形で読み、必要なら層別して描き直すことで解釈が安定します。
外れた点は「邪魔な点」ではなく、重要なサインである可能性があります。外れた点の主な原因は大きく3つに分かれます。
対処の基本は、除外の前に原因を特定することです。除外する場合も「なぜ除外したか」を記録し、再現性のある判断の基準にします。
散布図の傾向を数式で表したい場合、回帰を使った分析を行います。回帰を使った分析では、説明に使う変数から結果側の変数を見積もる式を作ります。
回帰は便利ですが、「直線を引けた」ことと「因果が証明できた」ことは別です。さらに実務では、第三の要因(交絡)が混ざりやすいため、必要に応じて期間を分けることや層別、あるいは多変量での検証を検討します。
散布図は、社内データに適用して初めて真価が出ます。一方で社内データは、粒度・期間・定義が混ざりやすい点に注意が必要です。
この前提を揃えるだけで、散布図の解釈は大きく安定します。
散布図はKPI候補を探すのに役立ちますが、判断は「相関があるか」だけでは不十分です。実務では次の観点が重要です。
散布図で「関係がありそう」だと分かったら、KPI化する前に、期間をずらして描いたり、層別で描いたりして、関係の安定性を確かめるのが現実的です。
散布図は、問題を見つけて終わりではありません。実務では次のループで使うと効果が出ます。
「同じ定義で描き直せる」ことが、散布図を判断の道具に変えるポイントです。
プレゼンや報告で散布図を使う場合は、誤解を防ぐために次をセットで示しましょう。
これにより、「それっぽい図」ではなく、判断に使いやすい図になります。
散布図は、2つの変数の関係を直感的に捉え、外れた点や集団の混在、直線ではない形の兆候まで読み取れる強力なグラフです。一方で、相関は因果を意味せず、期間・粒度・層別の設計を誤ると解釈が崩れます。まずは1点が何を表すかを固定し、形と分布を読んだうえで、必要なら層別や期間を分けて描き直すことで、散布図は実務の判断に直結する道具になります。
2つの変数の関係を点の分布として可視化し、傾向・ばらつき・外れた点を把握するために使います。
分かりません。散布図は相関や形の示唆を与えますが、因果の断定には追加の検証が必要です。
言えません。外れた点や交絡で高く見えることがあるため、前提を確認し別の切り口でも検証します。
透明度の調整、サンプリング、ジッター、集計した表示などで重なりを減らして読み取りやすくします。
原則として原因の確認が先です。入力ミスか見逃せない出来事かを切り分け、除外するなら理由を記録します。
直線ではない形や層の混在を疑い、期間を分けることや層別で描き直して形を確認します。
必須ではありません。まずは分布と形を読み、線形で近似できる場合に補助として使います。
必ずしも必要ありません。散布図は関係の形を読むため、データの見やすさを優先して範囲を設定します。
値の桁が大きく異なる場合や、指数的な増減を扱う場合に、分布を見やすくするために使います。
相関だけで決めず、現場が動かせるかどうか・副作用・ラグを確認し、関係が安定するかを層別や期間を分けることで確かめます。