散布図は、2つの変数の関係を「点の分布」として見せることで、相関の有無だけでなく、外れ値・グループの混在・非線形な傾向まで一度に観察できる可視化手法です。業務データはノイズや例外が多いため、散布図を正しく読めるかどうかで、施策立案やKPI設計の精度が変わります。本記事では、散布図で何が分かり、何が分からないのかを押さえたうえで、実務で使える作り方と読み解き方を整理します。
散布図は、2つの変数間の関係性を点の分布として可視化するグラフです。横軸と縦軸にそれぞれの変数を置き、各データを「1点」としてプロットします。
ここで重要なのは、散布図の1点は1つの観測(1レコード)を表すという点です。たとえば「広告費」と「売上高」を使う場合、ある期間(例:1週間、1か月)における広告費と売上の組み合わせ(x, y)が1点になります。期間や粒度が揃っていないと、散布図はそれらしく見えても解釈が崩れます。
散布図は「仮説を作る」ために非常に強力ですが、相関が見えても因果とは限らない点を最初に押さえておく必要があります。
例として、広告費用(万円)と売上高(万円)の関係を見てみます。現実のデータは一直線になりにくいため、ばらつきがある例を示します。
| 広告費用(万円) | 売上高(万円) |
|---|---|
| 10 | 95 |
| 20 | 140 |
| 30 | 210 |
| 40 | 230 |
| 40 | 260 |
このデータを散布図にすると、点はおおむね右上がりに並び、広告費が増えるほど売上も増える傾向が読み取れます。一方で、同じ広告費(40万円)でも売上が230万円と260万円に分かれており、広告以外の要因(季節性、商品力、在庫、営業施策など)も影響している可能性が示唆されます。
特にビジネスの現場では、散布図を起点にして「効いていそうな要因」を当たりづけし、次の検証設計へ進める使い方が有効です。
散布図は「正の相関」「負の相関」「相関なし」だけで終えるのではなく、形の違いから仮説を作ると実務での価値が上がります。
散布図は、データに基づく議論の出発点として有用です。結論を断定する道具ではなく、「次に何を確かめるべきか」を見つける道具として使うと安定します。
この流れで進めると、散布図が「描いて終わり」にならず、意思決定に接続しやすくなります。
横軸と縦軸は「比較したい2つの変数」です。例えば、横軸に広告費用、縦軸に売上高を置く場合、各点は「ある観測単位」における組み合わせを表します。
| 広告費用(横軸) | 売上高(縦軸) | データポイントの意味 |
|---|---|---|
| 10万円 | 100万円 | ある期間に広告費10万円で売上100万円だった |
| 20万円 | 150万円 | ある期間に広告費20万円で売上150万円だった |
実務では「ある期間」が曖昧だと解釈が破綻します。週次なのか月次なのか、全社合計なのか担当者別なのかなど、点の定義を先に固定しましょう。
散布図の印象を数値で補強したい場合、相関係数や決定係数を用います。
単回帰(説明変数が1つ)の基本的な条件下では、R²は相関係数rの二乗(r²)として理解できる場面が多いです。ただし、変数が複数になると単純な対応は崩れます。
また、相関係数や決定係数は因果関係を証明しません。外れ値が1点あるだけで数値が大きく動くこともあるため、散布図の形(分布・外れ値・非線形)を先に確認することが重要です。
散布図の点の並び方から、相関の方向を把握できます。
ただし、ここで結論を急がないことが重要です。相関が弱い場合でも、非線形(U字・飽和)や層の混在(顧客層別では関係がある)が原因で、全体では見えなくなっていることがあります。
実務の散布図では、次のような「形」がよく現れます。
これらは「相関係数」だけでは見落とされやすい情報です。散布図はまず形で読み、必要なら層別して描き直すことで解釈が安定します。
外れ値は「邪魔な点」ではなく、重要なサインである可能性があります。外れ値の主な原因は大きく3つに分かれます。
対処の基本は、除外の前に原因を特定することです。除外する場合も「なぜ除外したか」を記録し、再現性のある判断基準にします。
散布図の傾向を数式で表したい場合、回帰分析を行います。回帰分析では、説明変数(独立変数)から目的変数(従属変数)を推定する回帰式を作ります。
回帰は便利ですが、「直線を引けた」ことと「因果が証明できた」ことは別です。さらに実務では、第三の要因(交絡)が混ざりやすいため、必要に応じて期間分割や層別、あるいは多変量での検証を検討します。
散布図は、社内データに適用して初めて真価が出ます。一方で社内データは、粒度・期間・定義が混ざりやすい点に注意が必要です。
この前提を揃えるだけで、散布図の解釈は大きく安定します。
散布図はKPI候補を探すのに役立ちますが、判断は「相関があるか」だけでは不十分です。実務では次の観点が重要です。
散布図で「関係がありそう」だと分かったら、KPI化する前に、期間をずらして描いたり、層別で描いたりして、関係の安定性を確かめるのが現実的です。
散布図は、問題を見つけて終わりではありません。実務では次のループで使うと効果が出ます。
「同じ定義で描き直せる」ことが、散布図を意思決定の道具に変えるポイントです。
プレゼンや報告で散布図を使う場合は、誤解を防ぐために次をセットで示しましょう。
これにより、「それっぽい図」ではなく、判断材料として信頼できる図になります。
散布図は、2つの変数の関係を直感的に捉え、外れ値やグループ混在、非線形の兆候まで読み取れる強力な可視化手法です。一方で、相関は因果を意味せず、期間・粒度・層別の設計を誤ると解釈が崩れます。まずは点の意味(観測単位)を固定し、形と分布を読んだうえで、必要なら層別や期間分割で描き直すことで、散布図は実務の意思決定に直結する道具になります。
2つの変数の関係を点の分布として可視化し、傾向・ばらつき・外れ値を把握するために使います。
分かりません。散布図は相関や形の示唆を与えますが、因果の断定には追加の検証が必要です。
言えません。外れ値や交絡で高く見えることがあるため、前提条件を確認し別の切り口でも検証します。
透明度の調整、サンプリング、ジッター、集計表示などで重なりを減らして読み取りやすくします。
原則として原因確認が先です。入力ミスか重要事象かを切り分け、除外するなら理由を記録します。
非線形や層の混在を疑い、期間分割や層別で描き直して形を確認します。
必須ではありません。まずは分布と形を読み、線形で近似できる場合に補助として使います。
必ずしも必要ありません。散布図は関係の形を読むため、データの見やすさを優先して範囲を設定します。
値の桁が大きく異なる場合や、指数的な増減を扱う場合に、分布を見やすくするために使います。
相関だけで決めず、操作可能性・副作用・ラグを確認し、関係が安定するかを層別や期間分割で確かめます。