IT用語集

箱ひげ図とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

UnsplashLeone Venterが撮影した写真  

箱ひげ図は、数値データの「中心」と「ばらつき」を手早くつかむための可視化手法です。平均値だけでは見えにくい分布の偏りや、極端に大きい値・小さい値の有無を一枚の図で確認できるため、売上、品質、対応時間などの比較にもよく使われます。まずは箱ひげ図が何を表すのかを整理し、その後に読み方や活用場面を見ていきます。

箱ひげ図とは何か:定義と最初に見るポイント

箱ひげ図とは、データの分布状況を視覚的に表現するグラフの一種です。中央値(真ん中の値)や四分位範囲(中央50%の広がり)を中心に、データがどの程度散らばっているか、偏りがあるか、極端な値が混ざっていないかを把握しやすい点が特徴です。

箱・中央値・ひげ・外れ値は何を示すか

箱ひげ図は、主に次の要素で構成されます。ただし「ひげがどこまで伸びるか」「外れ値をどう定義するか」は作図ツールや流派によって差があるため、ここでは代表的な考え方もあわせて整理します。

  1. 箱(Box):第1四分位数(Q1)から第3四分位数(Q3)までの範囲を表す長方形(データの中央50%)
  2. 中央値(Median):データを小さい順に並べたときの中央の値(箱の中に線で表示)
  3. ひげ(Whisker):箱の上下から伸びる線。一般的には「外れ値ではない範囲の端」まで伸びる
  4. 外れ値(Outlier):ひげの外側に位置する値。点や丸で別表示されることが多い

特に注意したいのは「ひげ=最小値・最大値」とは限らない点です。箱ひげ図には複数の描き方があり、よく使われる方式の一つでは、ひげはQ1−1.5×IQRからQ3+1.5×IQRの範囲(※IQRは四分位範囲)に収まるデータの端まで伸び、範囲外は外れ値として点で示します。一方で、ツールや設定によっては最小値・最大値までひげを伸ばす表現もあります。社内で資料を共有する場合は、どの定義で作図したのかを明示すると誤解が起きにくくなります。

箱ひげ図が表現するデータの特徴

箱ひげ図からは、少なくとも次のような特徴を読み取れます。

  • データの中心位置:中央値がどこにあるか
  • データのばらつき:箱(Q1〜Q3)の高さ(幅)が大きいほど散らばりが大きい
  • 分布の偏り(歪み):中央値が箱の中央からずれている場合は、分布に偏りがある可能性がある。向きを判断するときは、箱の片側の長さや、ひげの長さも合わせて確認する
  • 外れ値の候補:ひげの外側に点があれば、極端値が含まれる可能性がある

ここで重要なのは、外れ値が「誤り」や「異常」を意味するとは限らないことです。入力ミスや計測ミスの可能性もありますが、キャンペーン施策の成功、特定顧客の大型案件、設備トラブルによる大幅な遅延など、業務上の理由で正しく発生しているケースもあります。箱ひげ図は、原因調査の入口として有効です。

箱ひげ図を使うメリット

  • 平均値だけでは見えにくい「ばらつき」や「偏り」を把握しやすい
  • 複数グループ(部署別、期間別、施策別など)を並べて比較しやすい
  • 極端な値(外れ値候補)を早期に見つけやすい
  • 「いつも通り」の幅を可視化でき、変化の兆候に気づきやすい

一方で、箱ひげ図だけで結論を出さないことも大切です。サンプル数が少ない場合は四分位数が不安定になり、見た目が過度に強い印象を与えることがあります。箱ひげ図で当たりを付けたら、ヒストグラムや時系列、散布図、元データの確認などと組み合わせて判断すると安全です。

箱ひげ図とヒストグラムの違い

箱ひげ図とよく比較される可視化にヒストグラムがあります。箱ひげ図は中央値、四分位範囲、外れ値候補を短時間で比較しやすい一方、山の数や細かな分布形状までは分かりません。ヒストグラムは分布の形を詳しく見たいときに向いており、箱ひげ図は複数グループを並べて中心とばらつきを比べたいときに向いています。

そのため、部署別や期間別の比較をざっと見たい場面では箱ひげ図、分布が一峰性か二峰性かまで確かめたい場面ではヒストグラム、といった使い分けが有効です。

身近な例を用いた箱ひげ図の解説

ここでは、ある企業の部署ごとの月間売上データ(万円)を例に、箱ひげ図の見方を整理します。

部署月間売上(万円)
A部署100, 120, 130, 140, 150, 160, 180, 200, 220, 250
B部署80, 90, 100, 110, 120, 130, 140, 150, 160, 170

このデータを箱ひげ図にすると、たとえば次のような読み取りが可能です。

  • A部署の中央値はB部署より高く、中心的な売上水準が上にある可能性が高い
  • A部署はB部署より箱(中央50%)が大きくなりやすく、売上のばらつきが大きい傾向がうかがえる
  • A部署の最大値は250万円と大きいが、一般的な1.5×IQR基準では外れ値に該当しない場合もある(ツールの定義によって表示が変わる)

この例のポイントは、「最大値が大きい=外れ値」とは言い切れないことです。もし「1.5×IQR」の定義で外れ値として点表示されているなら、通常の変動幅から外れている可能性がありますし、点表示されていないなら「ばらつきの範囲内の高値」として扱われている可能性があります。会議資料などで使う場合は、外れ値の定義(ひげの伸び方)を一言添えると、読み手の解釈が揃いやすくなります。

箱ひげ図は、中央値、四分位範囲、ひげ、外れ値候補をまとめて見られる点が強みです。細かな分布形状までは分からなくても、「どこが中心で、どのくらい散らばっているか」を短時間でつかみたい場面では役立ちます。

箱ひげ図の読み方

箱ひげ図を読むときは、「箱の中の線(中央値)」「箱の上下(Q1とQ3)」「ひげ」「外れ値表示」の4点をセットで確認します。ここでは、読み取りに必要な代表値と外れ値の考え方を整理します。

箱ひげ図から読み取れる代表値

  • 中央値:データの中心位置を示す。平均値と違い、極端値の影響を受けにくい
  • 第1四分位数(Q1):下位25%地点の値(箱の下辺)
  • 第3四分位数(Q3):上位25%地点の値(箱の上辺)
  • 四分位範囲(IQR):Q3−Q1。データのばらつきの目安になる

中央値が高いグループは「典型的に大きい」傾向があり、IQRが大きいグループは「変動が大きい」傾向があります。たとえば、売上の箱ひげ図でIQRが大きい部署は、案件規模がまちまちだったり、特定の月に偏りがあったりする可能性があります。

外れ値の見分け方

外れ値は一般に、次の基準で判定されることが多いです。

  • 下限値 = Q1 − 1.5 × IQR
  • 上限値 = Q3 + 1.5 × IQR

この範囲外にある値が外れ値(候補)として点で表示されます。外れ値の存在は、データに特異な出来事が含まれる可能性を示しますが、原因は「入力ミス」「計測ミス」だけではありません。業務上のイベント(大型受注、障害、季節要因、施策の当たり外れなど)が反映されている可能性もあるため、外れ値を見つけたら「何が起きたのか」を確認するプロセスが重要です。

複数グループを比較するときの見方

複数のデータセットを比較するときは、次の観点で読むと整理しやすくなります。

  • 中央値の位置:中心的な水準の違い(典型値の差)
  • 箱の大きさ:ばらつきの違い(安定しているか、荒れているか)
  • ひげの長さ:通常範囲の広さ(変動幅の広さ)
  • 外れ値の有無:特異な出来事の混入可能性

たとえば「中央値は同じだがIQRが違う」場合、平均値では差が見えないのに、実務上は安定性の差が大きいといった状況が起こり得ます。逆に、中央値に差があっても箱が小さいなら「安定して差が出ている」といった読み取りもできます。

比較するときの注意点

複数の箱ひげ図を比べるときは、サンプル数が極端に違わないか、同じ単位・同じ軸で並べているかも確認したいところです。見た目の差が大きくても、件数が少ないグループでは四分位数が安定しにくく、解釈を急ぐと判断を誤ることがあります。

ビジネスでの箱ひげ図の活用例

箱ひげ図は、数値が「どのくらい散らばっているか」「いつも通りの範囲はどの程度か」を示すのが得意です。そのため、改善活動や施策評価の場面で、平均値だけでは見落としやすい論点を拾うのに向いています。

品質管理で箱ひげ図をどう使うか

製造業の品質管理では、ロットごとの寸法、重量、強度などの測定値を箱ひげ図で並べると、ロット間のばらつきや偏りを一目で確認できます。たとえば、あるロットだけ箱が大きい(ばらつきが大きい)なら、材料ロットの違い、設備状態、作業条件の変化などが疑えます。

また、工程別の測定値を比較すれば、どの工程で変動が増えているかを把握しやすくなります。箱ひげ図は原因を断定する図ではありませんが、「どこから調べるべきか」を絞り込むための入口として有効です。なお、工程能力を評価するには、仕様限界や管理状態も別途確認する必要があります。

マーケティング分析でどう使うか

マーケティングでは、顧客セグメント別の購買金額、購入頻度、LTV、キャンペーン反応などを箱ひげ図で比較すると、セグメント間の傾向差を把握しやすくなります。中央値が高いセグメントは典型的な購買水準が高い可能性があり、IQRが大きいセグメントは購買行動が多様(個人差が大きい)である可能性があります。

さらに、外れ値として現れる高額購入が「施策による成功例」なのか「一部顧客の特殊事情」なのかを確認することで、次の施策設計(対象の絞り込み、商品構成、上限設計など)にもつながります。

経営指標の比較にどう使うか

経営指標(部門別売上、利益率、粗利、受注単価、回収日数など)を箱ひげ図で並べると、「どの部門が高いか」だけでなく「どの部門が安定しているか」も見えてきます。たとえば利益率の中央値は高いが外れ値が多い部門は、案件構成の偏りやコストの振れが大きい可能性があります。

また、年度別・四半期別の箱ひげ図を並べると、分布が年々どう変化しているか(安定化しているか、ばらつきが増えているか)を確認しやすく、戦略の見直しや投資判断の材料として使いやすくなります。

業務改善での活用例

業務改善では、対応時間、処理件数、リードタイム、待ち時間などの分布を見ることが多くあります。平均値だけを追うと「一部の長時間案件」が隠れてしまうことがありますが、箱ひげ図なら外れ値として浮かびやすく、改善対象の発見につながります。

たとえば顧客対応時間の箱ひげ図で外れ値が頻繁に出る場合、難易度の高い問い合わせが混ざっている、エスカレーションのルールが曖昧、システムが不安定など、運用上の課題が潜んでいる可能性があります。箱ひげ図で傾向をつかみ、該当案件のログやカテゴリ、担当者、時間帯などを掘り下げると、改善策が立てやすくなります。

まとめ

箱ひげ図は、中央値や四分位範囲を中心に、データの分布(中心・ばらつき・偏り・極端値)を一枚で把握できるグラフです。複数グループの比較にも向いており、品質管理、マーケティング、経営分析、業務改善など、さまざまな業務データの可視化に活用できます。

一方で、ひげの定義や外れ値の扱いはツールによって差があるため、資料化するときは「外れ値の定義」を簡単に補足すると誤解が起きにくくなります。箱ひげ図で当たりを付けたら、元データや他の可視化手法とも組み合わせながら、実務に役立つ判断へつなげていきましょう。

Q.箱ひげ図は何を一番最初に見るべきですか?

まず中央値と箱の大きさを見て、中心とばらつきを把握します。

Q.箱ひげ図の「ひげ」は最小値と最大値を表しますか?

ツールや設定によりますが、一般には外れ値を除いた範囲の端を表します。

Q.外れ値は必ず異常値と考えるべきですか?

必ずしも異常ではなく、業務上のイベントが反映されている場合もあります。

Q.四分位範囲(IQR)は何を意味しますか?

Q3からQ1を引いた値で、中央50%のばらつきの目安を示します。

Q.中央値と平均値はどう使い分けますか?

極端値の影響を避けたい場合は中央値、全体の総合的な水準を見る場合は平均値が向きます。

Q.サンプル数が少なくても箱ひげ図は使えますか?

使えますが四分位数が不安定になりやすいので、元データも併せて確認します。

Q.箱ひげ図だけで施策効果を判断してもよいですか?

単独では判断せず、時系列やヒストグラムなど他の視点と併用します。

Q.複数グループを比較するコツはありますか?

中央値、箱の大きさ、ひげ、外れ値の順に同じ観点で見比べます。

Q.外れ値が多いデータは使えないデータですか?

使えないとは限らず、ばらつきの原因を分解するための重要な手がかりになります。

Q.箱ひげ図はどんな業務データに向いていますか?

売上、品質測定値、対応時間、リードタイムなど、分布の把握が必要な数値データに向きます。

Q.箱ひげ図とヒストグラムの違いは何ですか?

箱ひげ図は中央値、四分位範囲、外れ値候補を手早く比較するのに向いており、ヒストグラムは分布の山の形や偏りを詳しく見るのに向いています。

記事を書いた人

ソリトンシステムズ・マーケティングチーム