IT用語集 2024/12/19

散布図とは？ 10分でわかりやすく解説

コラム

散布図は、2つの変数の関係を「点の分布」として見せることで、相関の有無だけでなく、外れ値・グループの混在・非線形な傾向まで一度に観察できる可視化手法です。業務データはノイズや例外が多いため、散布図を正しく読めるかどうかで、施策立案やKPI設計の精度が変わります。本記事では、散布図で何が分かり、何が分からないのかを押さえたうえで、実務で使える作り方と読み解き方を整理します。

UnsplashのPlanet Volumesが撮影した写真

散布図とは

散布図は、2つの変数間の関係性を点の分布として可視化するグラフです。横軸と縦軸にそれぞれの変数を置き、各データを「1点」としてプロットします。

ここで重要なのは、散布図の1点は1つの観測（1レコード）を表すという点です。たとえば「広告費」と「売上高」を使う場合、ある期間（例：1週間、1か月）における広告費と売上の組み合わせ（x, y）が1点になります。期間や粒度が揃っていないと、散布図はそれらしく見えても解釈が崩れます。

散布図で分かることと分からないこと

分かること：傾向（右上がり・右下がり）、ばらつきの大きさ、外れ値、グループの混在、非線形の形（U字・飽和など）
分からないこと：因果関係（「Aが増えたからBが増えた」とは断定できない）、第三の要因（交絡）がないことの保証

散布図は「仮説を作る」ために非常に強力ですが、相関が見えても因果とは限らない点を最初に押さえておく必要があります。

散布図の例

例として、広告費用（万円）と売上高（万円）の関係を見てみます。現実のデータは一直線になりにくいため、ばらつきがある例を示します。

広告費用（万円）	売上高（万円）
10	95
20	140
30	210
40	230
40	260

このデータを散布図にすると、点はおおむね右上がりに並び、広告費が増えるほど売上も増える傾向が読み取れます。一方で、同じ広告費（40万円）でも売上が230万円と260万円に分かれており、広告以外の要因（季節性、商品力、在庫、営業施策など）も影響している可能性が示唆されます。

散布図を用いるメリット

変数間の関係性を直感的に理解できる
データの分布やばらつきを把握できる
外れ値（異常値）や入力ミスの疑いを見つけやすい
回帰分析など、次の分析へスムーズにつなげられる

特にビジネスの現場では、散布図を起点にして「効いていそうな要因」を当たりづけし、次の検証設計へ進める使い方が有効です。

散布図の基本的な見方

分布：点がどこに集中しているか、ばらつきが大きいか
形：直線的か、曲線的か（U字・飽和・段差など）
グループ：複数の集団（店舗別、顧客層別、地域別）が混在していないか
外れ値：明らかに離れた点がないか（ただし即除外しない）

散布図は「正の相関」「負の相関」「相関なし」だけで終えるのではなく、形の違いから仮説を作ると実務での価値が上がります。

散布図の具体的な使用例

マーケティング：広告費用と売上の関係を見て、予算配分の仮説を作る
品質管理：工程条件（温度・圧力など）と不良率の関係を見て、ばらつき要因を疑う
人事・組織：研修受講回数と成果指標の関係を見て、効果の出方（ラグ）を検討する
財務・経営：在庫回転率と粗利率の関係を見て、商品政策の方向性を探る

散布図は、データに基づく議論の出発点として有用です。結論を断定する道具ではなく、「次に何を確かめるべきか」を見つける道具として使うと安定します。

散布図の作成方法

散布図を作成する手順

分析目的を決める（何を判断したいか）
変数を選ぶ（結果指標と要因候補、または比較したい2指標）
データの粒度と期間を揃える（週次なのか日次なのか、店舗別なのか全体なのか）
前処理を行う（欠損値、異常値、単位、スケール）
プロットし、必要に応じて回帰線や補助情報を加える
読み取りと仮説化を行い、追加の切り口（層別・期間分割）で再プロットする

この流れで進めると、散布図が「描いて終わり」にならず、意思決定に接続しやすくなります。

散布図の軸と点の意味

横軸と縦軸は「比較したい2つの変数」です。例えば、横軸に広告費用、縦軸に売上高を置く場合、各点は「ある観測単位」における組み合わせを表します。

広告費用（横軸）	売上高（縦軸）	データポイントの意味
10万円	100万円	ある期間に広告費10万円で売上100万円だった
20万円	150万円	ある期間に広告費20万円で売上150万円だった

実務では「ある期間」が曖昧だと解釈が破綻します。週次なのか月次なのか、全社合計なのか担当者別なのかなど、点の定義を先に固定しましょう。

相関係数と決定係数

散布図の印象を数値で補強したい場合、相関係数や決定係数を用います。

相関係数（r）：2変数の線形関係の強さを表す（-1〜1）
決定係数（R²）：回帰モデルが目的変数の変動をどれだけ説明できるか（0〜1）

単回帰（説明変数が1つ）の基本的な条件下では、R²は相関係数rの二乗（r²）として理解できる場面が多いです。ただし、変数が複数になると単純な対応は崩れます。

また、相関係数や決定係数は因果関係を証明しません。外れ値が1点あるだけで数値が大きく動くこともあるため、散布図の形（分布・外れ値・非線形）を先に確認することが重要です。

散布図作成時の注意点

単位とスケール：万円、件、％などを明記し、桁が違う場合は対数軸も検討する
点の重なり：件数が多いと真っ黒になるため、透明度・サンプリング・ジッターなどで可視性を確保する
期間の混在：施策変更前後が混ざると別のグループが同居するため、期間を分けて描く
ラグ：広告や教育などは効果が遅れて出ることがあるため、当月ではなく翌月の売上なども試す
外れ値：即除外せず、入力ミスか重要事象かを切り分ける

散布図の分析と解釈

散布図から相関関係を読み取る

散布図の点の並び方から、相関の方向を把握できます。

正の相関：右上がりの傾向（xが増えるほどyも増えやすい）
負の相関：右下がりの傾向（xが増えるほどyが減りやすい）
相関が弱い／見えない：点が散らばる（線形関係がはっきりしない）

ただし、ここで結論を急がないことが重要です。相関が弱い場合でも、非線形（U字・飽和）や層の混在（顧客層別では関係がある）が原因で、全体では見えなくなっていることがあります。

非線形とグループ混在を疑う

実務の散布図では、次のような「形」がよく現れます。

飽和：ある点から先は増やしても効果が伸びない（広告費を増やしても売上が頭打ち）
閾値：一定ラインを超えたところで一気に傾向が変わる（在庫が足りると売上が伸びる等）
二つの雲：施策前後、地域差、顧客層の違いなどで別集団が混ざる

これらは「相関係数」だけでは見落とされやすい情報です。散布図はまず形で読み、必要なら層別して描き直すことで解釈が安定します。

外れ値の確認と対処

外れ値は「邪魔な点」ではなく、重要なサインである可能性があります。外れ値の主な原因は大きく3つに分かれます。

入力ミス・集計ミス：桁違い、単位違い、欠損補完の誤りなど
条件の違い：キャンペーン、障害、在庫切れ、価格改定など、通常と異なる状況
重要事象：不正、事故、重大な運用品質の劣化など、対策すべき本質的な異常

対処の基本は、除外の前に原因を特定することです。除外する場合も「なぜ除外したか」を記録し、再現性のある判断基準にします。

散布図を用いた回帰分析

散布図の傾向を数式で表したい場合、回帰分析を行います。回帰分析では、説明変数（独立変数）から目的変数（従属変数）を推定する回帰式を作ります。

散布図で形を確認する（線形で近似できそうか）
回帰直線（または曲線）を当てはめる
係数を算出し、解釈する
適合度と残差を確認する（偏りがないか、外れ値に引っ張られていないか）

回帰は便利ですが、「直線を引けた」ことと「因果が証明できた」ことは別です。さらに実務では、第三の要因（交絡）が混ざりやすいため、必要に応じて期間分割や層別、あるいは多変量での検証を検討します。

散布図から導き出せる知見

どの要因が効いていそうかの当たりづけ（仮説の生成）
ばらつきの大きさから「再現性の低さ」を疑う（運用の不安定さの発見）
外れ値から入力品質や異常事象を疑う
層別の必要性（顧客層・店舗・期間）を発見する

散布図を業務で活用するコツ

社内データに適用するときの前提を揃える

散布図は、社内データに適用して初めて真価が出ます。一方で社内データは、粒度・期間・定義が混ざりやすい点に注意が必要です。

集計単位（人別、店舗別、週次、月次など）を固定する
期間を揃える（繁忙期・閑散期を混ぜない、施策前後を分ける）
欠損や異常な値が「意味を持つのか」を確認する

この前提を揃えるだけで、散布図の解釈は大きく安定します。

散布図を用いたKPI設計

散布図はKPI候補を探すのに役立ちますが、判断は「相関があるか」だけでは不十分です。実務では次の観点が重要です。

操作可能性：現場がコントロールできる指標か
副作用：KPIを上げる行動が別の品質を下げないか
ラグ：効果が遅れて出るなら、評価タイミングをどう設計するか

散布図で「関係がありそう」だと分かったら、KPI化する前に、期間をずらして描いたり、層別で描いたりして、関係の安定性を確かめるのが現実的です。

問題の可視化と改善をループにする

散布図は、問題を見つけて終わりではありません。実務では次のループで使うと効果が出ます。

散布図で傾向・外れ値・グループを観察する
原因仮説を立て、施策を決める
施策後に同じ定義で再プロットし、変化を確認する

「同じ定義で描き直せる」ことが、散布図を意思決定の道具に変えるポイントです。

散布図を使った説明を強くする

プレゼンや報告で散布図を使う場合は、誤解を防ぐために次をセットで示しましょう。

データの期間・母集団・単位
相関と因果の違い（因果を主張しない／検証が必要である）
外れ値を除外した場合は理由
層別している場合は切り口（店舗別、顧客層別など）

これにより、「それっぽい図」ではなく、判断材料として信頼できる図になります。

まとめ

散布図は、2つの変数の関係を直感的に捉え、外れ値やグループ混在、非線形の兆候まで読み取れる強力な可視化手法です。一方で、相関は因果を意味せず、期間・粒度・層別の設計を誤ると解釈が崩れます。まずは点の意味（観測単位）を固定し、形と分布を読んだうえで、必要なら層別や期間分割で描き直すことで、散布図は実務の意思決定に直結する道具になります。