IT用語集 2024/11/20

2分探索とは？ 10分でわかりやすく解説

Q: 2分探索で起きやすい実装バグは何ですか

境界更新のズレ（+1/-1の誤り）と、終了条件の不備による無限ループが典型です。特に[left, right]と[left, right)のどちらで範囲を表すかが曖昧だと、更新条件がずれて不具合につながりやすくなります。

コラム

大量のデータを扱うシステムでは、「探す」処理がボトルネックになりやすく、検索方法しだいで体感性能が大きく変わります。本記事では、代表的な高速探索アルゴリズムである2分探索（バイナリサーチ）について、基本の仕組みから実務での応用、実装時につまずきやすい点までを整理して解説します。読み終えるころには、2分探索を使うべき場面・避けるべき場面や、実装でバグを出しにくくするための考え方を判断できるようになります。

2分探索とは

2分探索の定義と概要

2分探索とは、 あらかじめソートされたデータ（昇順または降順）に対して、目的の要素を効率よく見つけ出す探索アルゴリズム です。探索範囲の中央（中間）を基準に「目的の値は左側か右側か」を判断し、探索範囲を半分に絞り込む操作を繰り返します。

比較回数がデータ数に対して増えにくいのが特徴で、ログ解析、ユーザー検索、在庫・価格帯検索など、「データが大きい」「検索回数が多い」場面で効果を発揮します。なお、2分探索は配列の検索に限らず、「単調に増減する条件（単調性）」を満たす問題を解くための汎用的な考え方としても利用されます。

2分探索が有効に機能するデータの条件

2分探索が正しく機能するためには、 探索対象がソート済みであること が大前提です。ソートされていないデータに2分探索を適用すると、比較の結果から「左／右どちらにあるか」を正しく推定できず、誤った結果になり得ます。

また、同じ値が複数存在する（重複する）ケースも珍しくありません。2分探索は「値が存在するか」を判定するのは得意ですが、最初に現れる位置（lower_bound）や最後に現れる位置（upper_bound）など、目的が変わると実装方針も変わります。業務データの検索では「該当レコードが複数ある」ことが多いため、単に一致を探すだけで足りるのか、境界を求めたいのかを最初に決めておくことが重要です。

2分探索の原理とアルゴリズム

2分探索は、探索範囲の中央の要素と目的の値を比較して、探索範囲を半分に縮めていきます。基本的な流れは次の通りです。

探索範囲の中央の要素を選択する。
選択した要素と目的の値を比較する。
- 目的の値と一致する場合、探索を終了する（または境界探索へ移行する）。
- 目的の値が選択した要素より小さい場合、探索範囲を前半に絞り込む。
- 目的の値が選択した要素より大きい場合、探索範囲を後半に絞り込む。
探索範囲が空になるまで、または条件を満たす境界が確定するまで繰り返す。

実装では、探索範囲の表現として「両端を含む」か「片方を含まない」か（例：[left, right] と [left, right)）を決めることが肝になります。範囲の定義があいまいだと、探索の終了条件や更新条件がズレてバグの原因になります。

2分探索の計算量とメリット

2分探索の計算量は、 O(log n) です。データ数nが2倍になっても、必要な比較回数は原則として1回程度しか増えません。これは「範囲を毎回半分にする」性質に由来します。

データ数	線形探索の計算量	2分探索の計算量
1,000	O(1,000)	O(10)
1,000,000	O(1,000,000)	O(20)

このように、 データ数が増えるほど、線形探索との差が大きくなる 点が最大のメリットです。一方で、2分探索を使うには事前のソートが必要です。ソートは一般にO(n log n)で、1回だけ検索するなら「ソートして2分探索」より「線形探索」のほうが速いこともあります。

ただし、同じデータに対して検索を何度も行う（例：インデックス、検索画面、APIの繰り返し呼び出し）場合は、 一度ソートしておけば、その後の検索コストを大幅に抑えられる ため、全体として効率的になりやすいと言えます。

2分探索の応用例

2分探索は「ソート済み配列を探す」だけでなく、単調性を利用して広く応用できます。ここでは代表例を、実務でのイメージが持てるように整理します。

ソート済み配列における要素の検索

もっとも基本的な応用は、 ソート済み配列（またはキー順に並んだデータ）から目的の値を探す ことです。社員番号や商品コードのように一意なキーがある場合、2分探索は特に扱いやすくなります。

例えば、CSVやログを日付順・ID順に整形しておき、特定のIDの存在確認や該当位置の特定を行うケースでは、線形探索より高速です。さらに、重複がある場合に「最初の出現位置」を見つければ、そこから連続区間をたどることで該当レコードをまとめて扱うこともできます。

境界（しきい値）を探す：条件が切り替わる点の特定

実務でよく登場するのが、 ある条件が真から偽へ（または偽から真へ）切り替わる境界を探す タイプの問題です。2分探索は「値の一致」よりも、こうした境界探索のほうが出番が多いケースもあります。

例えば、以下のような場面は「単調性」が成立します。

レスポンス時間が一定閾値を超える同時接続数を探す（負荷試験のしきい値探索）
在庫数の推移から、欠品が発生する最初の日付を探す
予算内で購入できる最大個数を探す（価格×個数が単調増加する場合）

こうした問題では、探索対象が「配列の値」ではなく、「ある入力に対する判定結果（OK/NG）」になります。判定関数が単調であることを確認できれば、2分探索で効率的に境界を求められます。

数値計算における根の発見（2分法）

2分探索の考え方は数値計算にも応用され、特に2分法（bisection method）として知られます。 連続関数の値が区間内で符号を変える（片側が正、もう片側が負） など条件が満たされる場合に、区間を半分にしながら解（根）に近づいていく手法です。

最適化、シミュレーション、制御設計などで「この値を超えると成立しない」「この範囲なら成立する」といった単調な性質が得られるとき、2分法は実装しやすく、収束の挙動も追いやすい方法として利用されます。

範囲検索やスケジューリング問題への適用

2分探索は、範囲検索（例：価格帯、日時範囲）にも適しています。例えば価格順にソートされた商品一覧があれば、 下限以上となる最初の位置 と 上限を超える最初の位置 を2分探索で求め、区間として切り出せます。

スケジューリングでも、タスクの終了時刻でソートした配列を持ち、「このタスクと両立できる直前のタスク」を二分探索で探す、といった使い方があります。これにより、動的計画法（DP）を使うタイプのスケジューリング最適化でも計算量を抑えられます。

大規模データベースでの高速検索（インデックスの考え方）

データベースで高速検索を支える重要要素がインデックスです。インデックスは、キーに基づいてデータを探索しやすい形に整える仕組みで、内部的にはB木などの構造が使われることが一般的です。概念的には、 「順序を持つ構造を作り、探索回数を対数オーダーに抑える」 という点で2分探索と親和性があります。

実務では、「アプリ側で毎回総当たり検索していないか」「検索条件に合うインデックスがあるか」などを点検し、検索のボトルネックを避けることが重要です。2分探索の考え方を知っていると、なぜインデックスが効くのか、なぜ全件走査が遅いのかを説明しやすくなります。

2分探索の注意点

事前にデータのソートが必要である点

2分探索の前提は、 探索対象がソート済みであること です。実務では、ソート順（昇順／降順）や比較ルール（文字列の大小、大小文字、ロケール、数値として比較するかなど）が期待と一致していないケースが起こりえます。

また、データが更新され続ける場合は「ソート済み」を維持するコストも発生します。更新頻度が高い場合は、毎回ソートし直すのではなく、挿入位置を2分探索で求めて挿入する、あるいは別のデータ構造（平衡木、ハッシュ、DBインデックス）を検討するといった設計判断が必要になります。

探索範囲の設定ミスによるバグの可能性

2分探索は単純に見えて、実装バグが出やすいアルゴリズムでもあります。典型例は、 境界の更新条件の誤り（+1/-1のズレ） や 終了条件の不備による無限ループ です。

特に「見つかったら終了」だけならまだしも、重複値がある状況で「最初の位置」を求める場合は、更新条件が変わります。さらに、mid = (left + right) / 2の計算は言語によってはオーバーフローの懸念があるため、実装規約としてleft + (right - left) / 2を使うといった配慮が行われることもあります。

テストでは、空配列、要素1つ、全要素が同じ、目的値が最小未満・最大超過、重複が多いケースなど、境界条件を重点的に用意することが実務的に有効です。