IT用語集

箱ひげ図とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashLeone Venterが撮影した写真  

箱ひげ図は、数値データの「中心」と「ばらつき」を手早くつかむための可視化手法です。平均値だけでは見えにくい分布の偏りや、極端に大きい(小さい)値の存在を一枚の図で確認できるため、売上・品質・対応時間など、ビジネスの現場でもよく使われます。本記事では、箱ひげ図が何を表しているのか、どこを見れば何が判断できるのかを、定義・構成要素・読み取り方・活用例の順に整理して解説します。

箱ひげ図とは何か?わかりやすく説明

箱ひげ図とは、データの分布状況を視覚的に表現するグラフの一種です。中央値(真ん中の値)や四分位範囲(中央50%の広がり)を中心に、データがどの程度散らばっているか、偏りがあるか、極端な値が混ざっていないかを把握しやすい点が特徴です。

箱ひげ図の定義と概要

箱ひげ図は、主に次の要素で構成されます。ただし「ひげがどこまで伸びるか」「外れ値をどう定義するか」は作図ツールや流派によって差があるため、ここでは代表的な考え方もあわせて整理します。

  1. 箱(Box):第1四分位数(Q1)から第3四分位数(Q3)までの範囲を表す長方形(データの中央50%)
  2. 中央値(Median):データを小さい順に並べたときの中央の値(箱の中に線で表示)
  3. ひげ(Whisker):箱の上下から伸びる線。一般的には「外れ値ではない範囲の端」まで伸びる
  4. 外れ値(Outlier):ひげの外側に位置する値。点や丸で別表示されることが多い

特に注意したいのは「ひげ=最小値・最大値」とは限らない点です。箱ひげ図には複数の描き方があり、よく使われる方式の一つでは、ひげはQ1−1.5×IQRからQ3+1.5×IQRの範囲(※IQRは四分位範囲)に収まるデータの端まで伸び、範囲外は外れ値として点で示します。一方で、ツールや設定によっては最小値・最大値までひげを伸ばす表現もあります。社内で資料を共有する場合は、どの定義で作図したのかを明示すると誤解が起きにくくなります。

箱ひげ図が表現するデータの特徴

箱ひげ図からは、少なくとも次のような特徴を読み取れます。

  • データの中心位置:中央値がどこにあるか
  • データのばらつき:箱(Q1〜Q3)の高さ(幅)が大きいほど散らばりが大きい
  • 分布の偏り(歪み):中央値が箱の中央から上寄り・下寄りなら、上側(下側)に偏っている可能性がある
  • 外れ値の候補:ひげの外側に点があれば、極端値が含まれる可能性がある

ここで重要なのは、外れ値が「誤り」や「異常」を意味するとは限らないことです。入力ミスや計測ミスの可能性もありますが、キャンペーン施策の成功、特定顧客の大型案件、設備トラブルによる大幅な遅延など、業務上の理由で正しく発生しているケースもあります。箱ひげ図は、原因調査の入口として有効です。

箱ひげ図を使うメリット

  • 平均値だけでは見えにくい「ばらつき」や「偏り」を把握しやすい
  • 複数グループ(部署別、期間別、施策別など)を並べて比較しやすい
  • 極端な値(外れ値候補)を早期に見つけやすい
  • 「いつも通り」の幅を可視化でき、変化の兆候に気づきやすい

一方で、箱ひげ図だけで結論を出さないことも大切です。サンプル数が少ない場合は四分位数が不安定になり、見た目が過度に強い印象を与えることがあります。箱ひげ図で当たりを付けたら、ヒストグラムや時系列、散布図、元データの確認などと組み合わせて判断すると安全です。

身近な例を用いた箱ひげ図の解説

ここでは、ある企業の部署ごとの月間売上データ(万円)を例に、箱ひげ図の見方を整理します。

部署月間売上(万円)
A部署100, 120, 130, 140, 150, 160, 180, 200, 220, 250
B部署80, 90, 100, 110, 120, 130, 140, 150, 160, 170

このデータを箱ひげ図にすると、たとえば次のような読み取りが可能です。

  • A部署の中央値はB部署より高く、中心的な売上水準が上にある可能性が高い
  • A部署はB部署より箱(中央50%)が大きくなりやすく、売上のばらつきが大きい傾向がうかがえる
  • A部署の最大値は250万円と大きいが、一般的な1.5×IQR基準では外れ値に該当しない場合もある(ツールの定義によって表示が変わる)

この例のポイントは、「最大値が大きい=外れ値」とは言い切れないことです。もし「1.5×IQR」の定義で外れ値として点表示されているなら、通常の変動幅から外れている可能性がありますし、点表示されていないなら「ばらつきの範囲内の高値」として扱われている可能性があります。会議資料などで使う場合は、外れ値の定義(ひげの伸び方)を一言添えると、読み手の解釈が揃いやすくなります。

以上が、箱ひげ図の概要と使い方の基本です。箱ひげ図は、統計が得意でない人でも「何が普通で、どこが目立つのか」を直感的に掴みやすい表現の一つなので、まずは身近なデータ(売上、工数、対応時間など)で試してみると理解が進みます。

箱ひげ図の読み方を理解しよう

箱ひげ図を読むときは、「箱の中の線(中央値)」「箱の上下(Q1とQ3)」「ひげ」「外れ値表示」の4点をセットで確認します。ここでは、読み取りに必要な代表値と外れ値の考え方を整理します。

箱ひげ図から読み取れる代表値

  • 中央値:データの中心位置を示す。平均値と違い、極端値の影響を受けにくい
  • 第1四分位数(Q1):下位25%地点の値(箱の下辺)
  • 第3四分位数(Q3):上位25%地点の値(箱の上辺)
  • 四分位範囲(IQR):Q3−Q1。データのばらつきの目安になる

中央値が高いグループは「典型的に大きい」傾向があり、IQRが大きいグループは「変動が大きい」傾向があります。たとえば、売上の箱ひげ図でIQRが大きい部署は、案件規模がまちまちだったり、特定の月に偏りがあったりする可能性があります。

外れ値の見分け方

外れ値は一般に、次の基準で判定されることが多いです。

  • 下限値 = Q1 − 1.5 × IQR
  • 上限値 = Q3 + 1.5 × IQR

この範囲外にある値が外れ値(候補)として点で表示されます。外れ値の存在は、データに特異な出来事が含まれる可能性を示しますが、原因は「入力ミス」「計測ミス」だけではありません。業務上のイベント(大型受注、障害、季節要因、施策の当たり外れなど)が反映されている可能性もあるため、外れ値を見つけたら「何が起きたのか」を確認するプロセスが重要です。

箱ひげ図を用いたデータ分布の比較方法

複数のデータセットを比較するときは、次の観点で読むと整理しやすくなります。

  • 中央値の位置:中心的な水準の違い(典型値の差)
  • 箱の大きさ:ばらつきの違い(安定しているか、荒れているか)
  • ひげの長さ:通常範囲の広さ(変動幅の広さ)
  • 外れ値の有無:特異な出来事の混入可能性

たとえば「中央値は同じだがIQRが違う」場合、平均値では差が見えないのに、実務上は安定性の差が大きいといった状況が起こり得ます。逆に、中央値に差があっても箱が小さいなら「安定して差が出ている」といった読み取りもできます。

ビジネスにおける箱ひげ図の活用術

箱ひげ図は、数値が「どのくらい散らばっているか」「いつも通りの範囲はどの程度か」を示すのが得意です。そのため、改善活動や施策評価の場面で、平均値だけでは見落としやすい論点を拾うのに向いています。

品質管理での箱ひげ図の利用方法

製造業の品質管理では、ロットごとの寸法、重量、強度などの測定値を箱ひげ図で並べると、ロット間のばらつきや偏りを一目で確認できます。たとえば、あるロットだけ箱が大きい(ばらつきが大きい)なら、材料ロットの違い、設備状態、作業条件の変化などが疑えます。

また、工程別の測定値を比較すれば、どの工程で変動が増えているか(工程能力が落ちているか)を把握しやすくなります。箱ひげ図は原因を断定する図ではありませんが、「どこから調べるべきか」を絞り込むための入口として有効です。

マーケティングデータ分析への応用

マーケティングでは、顧客セグメント別の購買金額、購入頻度、LTV、キャンペーン反応などを箱ひげ図で比較すると、セグメント間の傾向差を把握しやすくなります。中央値が高いセグメントは典型的な購買水準が高い可能性があり、IQRが大きいセグメントは購買行動が多様(個人差が大きい)である可能性があります。

さらに、外れ値として現れる高額購入が「施策による成功例」なのか「一部顧客の特殊事情」なのかを確認することで、次の施策設計(対象の絞り込み、商品構成、上限設計など)にもつながります。

経営指標の可視化ツールとしての箱ひげ図

経営指標(部門別売上、利益率、粗利、受注単価、回収日数など)を箱ひげ図で並べると、「どの部門が高いか」だけでなく「どの部門が安定しているか」も見えてきます。たとえば利益率の中央値は高いが外れ値が多い部門は、案件構成の偏りやコストの振れが大きい可能性があります。

また、年度別・四半期別の箱ひげ図を並べると、分布が年々どう変化しているか(安定化しているか、ばらつきが増えているか)を確認しやすく、戦略の見直しや投資判断の材料として使いやすくなります。

業務改善のための箱ひげ図の活用事例

業務改善では、対応時間、処理件数、リードタイム、待ち時間などの分布を見ることが多くあります。平均値だけを追うと「一部の長時間案件」が隠れてしまうことがありますが、箱ひげ図なら外れ値として浮かびやすく、改善対象の発見につながります。

たとえば顧客対応時間の箱ひげ図で外れ値が頻繁に出る場合、難易度の高い問い合わせが混ざっている、エスカレーションのルールが曖昧、システムが不安定など、運用上の課題が潜んでいる可能性があります。箱ひげ図で傾向をつかみ、該当案件のログやカテゴリ、担当者、時間帯などを掘り下げると、改善策が立てやすくなります。

まとめ

箱ひげ図は、中央値や四分位範囲を中心に、データの分布(中心・ばらつき・偏り・極端値)を一枚で把握できるグラフです。複数グループの比較にも向いており、品質管理、マーケティング、経営分析、業務改善など、さまざまな業務データの可視化に活用できます。

一方で、ひげの定義や外れ値の扱いはツールによって差があるため、資料化するときは「外れ値の定義」を簡単に補足すると誤解が起きにくくなります。箱ひげ図で当たりを付けたら、元データや他の可視化手法とも組み合わせながら、実務に役立つ判断へつなげていきましょう。

Q.箱ひげ図は何を一番最初に見るべきですか?

まず中央値と箱の大きさを見て、中心とばらつきを把握します。

Q.箱ひげ図の「ひげ」は最小値と最大値を表しますか?

ツールや設定によりますが、一般には外れ値を除いた範囲の端を表します。

Q.外れ値は必ず異常値と考えるべきですか?

必ずしも異常ではなく、業務上のイベントが反映されている場合もあります。

Q.四分位範囲(IQR)は何を意味しますか?

Q3からQ1を引いた値で、中央50%のばらつきの目安を示します。

Q.中央値と平均値はどう使い分けますか?

極端値の影響を避けたい場合は中央値、全体の総合的な水準を見る場合は平均値が向きます。

Q.サンプル数が少なくても箱ひげ図は使えますか?

使えますが四分位数が不安定になりやすいので、元データも併せて確認します。

Q.箱ひげ図だけで施策効果を判断してもよいですか?

単独では判断せず、時系列やヒストグラムなど他の視点と併用します。

Q.複数グループを比較するコツはありますか?

中央値、箱の大きさ、ひげ、外れ値の順に同じ観点で見比べます。

Q.外れ値が多いデータは使えないデータですか?

使えないとは限らず、ばらつきの原因を分解するための重要な手がかりになります。

Q.箱ひげ図はどんな業務データに向いていますか?

売上、品質測定値、対応時間、リードタイムなど、分布の把握が必要な数値データに向きます。

記事を書いた人

ソリトンシステムズ・マーケティングチーム