IT用語集

決定木とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

決定木は直感的に理解しやすく、分類・回帰のどちらにも適用できる機械学習アルゴリズムです。一方で、学習データに合わせ込みすぎると精度が落ちたり、データのわずかな違いで木の形が大きく変わったりするため、使いどころと運用設計が結果を左右します。本記事では、決定木の基本概念から代表的な学習アルゴリズム、実務での使い方、チューニングの勘所までを整理し、「どんな場面で使うと効くのか」「どこでつまずきやすいのか」を判断できる状態を目指します。

決定木とは何か

決定木(Decision Tree)は、データの特徴量に基づいて条件分岐を繰り返し、最終的に目的変数を予測するモデルです。分類(クラスを当てる)にも回帰(数値を予測する)にも使えます。人の意思決定プロセスに近い「もしAなら…、そうでなければ…」という形で表現できるため、モデルの説明が求められる場面で選択肢に入りやすいアルゴリズムです。

決定木の定義と概要

決定木は木構造でデータを分割していく手法です。木は主に次の要素から構成されます。

  • ルートノード:最初の分岐が行われる起点
  • 内部ノード:特徴量としきい値(またはカテゴリ)でデータを分割する場所
  • リーフノード:最終的な予測結果が出力される場所

学習では、各ノードで「どの特徴量で、どの条件で分割すると目的変数が最も整理されるか」を評価し、最適な分岐を選びます。分類ではジニ不純度やエントロピー、回帰では平均二乗誤差などの指標が用いられ、分割によって“混ざり具合”や誤差がどれだけ改善するかで判断します。

決定木の分類と回帰の違い

決定木は分類木と回帰木に大別されます。

  • 分類木:目的変数がカテゴリ(例:成約する/しない、不正/正常)
  • 回帰木:目的変数が連続値(例:売上、所要時間、需要量)

分類木のリーフは「クラス」または「クラス確率」を返します。一方、回帰木のリーフは「予測値(平均値など)」を返します。どちらも「分割して、まとまりを作る」という考え方は同じですが、まとまりの評価尺度が異なります。

決定木のメリット

決定木が評価される理由は、精度だけではありません。実務上の強みは次の通りです。

  • 解釈しやすい:分岐ルールを追うことで、なぜその結論になったのかを説明しやすい
  • 前処理の負担が比較的小さい:線形モデルのように特徴量のスケーリングが必須ではない
  • 非線形な関係を表現できる:特徴量間の複雑な関係を、分割の組み合わせで近似できる
  • 特徴量の重要度が得られる:どの特徴量が分岐に寄与したかを手がかりにできる

ただし「重要度」は指標の性質上バイアスが出る場合があるため、過信せず、検証と併用するのが安全です。

決定木のデメリット

決定木は扱いやすい反面、典型的な落とし穴があります。

  • 過学習しやすい:木を深くしすぎると学習データを覚え込み、未知データで精度が落ちやすい
  • 不安定になりやすい:データが少し変わるだけで分岐が変わり、木の形が大きく変化することがある
  • 境界が階段状になりやすい:回帰では予測が区分的(リーフごとの一定値)になりやすい

これらに対しては、木の複雑さを制御する、剪定を行う、あるいはアンサンブル学習(ランダムフォレストや勾配ブースティング)を活用する、といった運用設計が現実的な対策になります。

決定木のアルゴリズムと学習方法

決定木の「学習」は、分岐条件を選び続けて木を成長させるプロセスです。代表的な学習アルゴリズムとして、ID3、C4.5、CARTがよく知られています。加えて、決定木を複数組み合わせて性能と安定性を高める手法としてランダムフォレストがあります。

ID3アルゴリズムの仕組みと特徴

ID3(Iterative Dichotomiser 3)は初期の代表的アルゴリズムで、各分岐で情報利得(エントロピーの減少量)を最大化する特徴量を選びます。直感的には「その特徴量で分けたときに、クラスがどれだけ整理されるか」を評価しているイメージです。

一方で、ID3は実務上の制約もあります。典型的には、連続値の扱いが限定的であること、欠損値の取り扱いに工夫が必要であること、そして停止条件を適切に設けないと過学習しやすいことが挙げられます。そのため、考え方の理解には役立つものの、実運用では改良版や別手法が選ばれるケースが一般的です。

C4.5アルゴリズムによる改善点

C4.5はID3の改良版で、分岐の評価指標として情報利得比(gain ratio)を用いることで、分岐の偏りを緩和します。たとえば取りうる値が多い特徴量は、素朴な情報利得だけだと有利になりやすいため、その補正を入れる発想です。

またC4.5では、連続値に対してしきい値を探索して分割できるようにする、欠損値を扱う、過学習を抑えるために剪定を取り入れるなど、実務で必要になりやすい論点が強化されています。とくに剪定は「学習データには合うが、未知データでは外す」を起こしやすい決定木にとって重要な手段です。

CARTアルゴリズムの分類と回帰

CART(Classification and Regression Trees)は、分類と回帰の両方に対応する代表的アルゴリズムです。分類ではジニ不純度などを用い、回帰では平均二乗誤差などの誤差指標が小さくなるように分割します。

CARTの特徴として、基本的に二分木(各ノードで2つに分割)を作る点が挙げられます。分岐が単純になりやすく、実装・運用の観点で扱いやすい一方、木を深くしすぎると過学習に向かいやすい点は変わりません。実務では、深さや葉の条件などを制御しつつ、交差検証で汎化性能を確認する運用が重要です。

ランダムフォレストによるアンサンブル学習

ランダムフォレストは、決定木を多数作って予測を集約するアンサンブル学習です。単一の決定木は不安定になりやすい一方、複数の木の「多数決(分類)」や「平均(回帰)」を取ることで、ばらつきをならし、汎化性能を上げやすくなります。

基本的な流れは次の通りです。

  1. 学習データからブートストラップサンプリングで複数のデータ集合を作る
  2. 各集合に対して決定木を学習する
  3. 分割のたびに使う特徴量をランダムに制限し、木同士の多様性を確保する
  4. 各木の予測を集約する

ランダムフォレストは精度と安定性のバランスが取りやすく、ベースラインとして採用されることも多い手法です。ただし、木が多数になるため、単一決定木ほどの説明容易性は下がります。説明が強く求められる場面では、単純な決定木と併用して「説明用」と「予測用」を分ける設計も有効です。

決定木の適用領域と実践的な使い方

決定木は「説明しやすいルール」を作りやすい点が強みです。そのため、精度だけでなく、意思決定の根拠を求められる業務と相性が良いケースがあります。ここでは代表的な領域を整理します。

金融リスク評価への活用

与信、延滞、解約などのリスク評価では、説明責任が重要になります。決定木は、年収、勤続年数、返済履歴などの特徴量から、リスクの高いケースを段階的に切り分けるルールを作れます。

ただし、金融領域ではデータの偏りや時系列変化が起こりやすく、学習時と運用時で分布がずれることも珍しくありません。決定木のルールを一度作って終わりにせず、評価指標と再学習条件を設計し、モデル更新を運用に組み込むことが現実的です。

マーケティング施策の最適化への活用

顧客のセグメンテーションや、購買・離脱の予測では、決定木が「どんな顧客に、どんな施策を当てるべきか」を説明しやすい形に落とし込めます。たとえば「直近購入がある」「特定カテゴリの閲覧回数が多い」などの条件で、反応しやすい層を切り分けるイメージです。

注意点として、特徴量に将来情報が混入すると、見かけ上の精度が跳ね上がります。たとえば施策実施後に得られる情報を学習に入れてしまうと、運用では再現できない精度になります。学習用データを作る段階で、利用可能なタイミングを厳密に揃えることが重要です。

医療診断支援での位置づけ

医療データの分析では、モデルの解釈性は大きな価値になります。決定木は、検査値や所見などを条件分岐として扱えるため、意思決定の補助としての形を取りやすい手法です。

一方で、医療分野はデータの取り扱いがセンシティブで、評価設計も慎重さが求められます。学習データの代表性、誤判定時の影響、運用時の責任分界など、モデル精度以外の要件が大きい領域である点を前提に、導入可否を判断する必要があります。

製造業の品質管理への活用

製造工程では、温度、圧力、材料ロット、設備条件などの変数と品質の関係を把握したい場面が多くあります。決定木は、不良が起こりやすい条件を分岐ルールとして表現できるため、現場への説明と改善の議論につなげやすいのが利点です。

ただし、品質データは「不良が少ない」こと自体が望ましいため、クラス不均衡になりがちです。不良予測のモデルでは、単純な正解率ではなく、再現率や適合率、現場の許容コストに沿った評価指標を設定することが欠かせません。

決定木を使いこなすためのコツとポイント

決定木の成果は、モデル構造そのものだけでなく、データ設計と評価設計で大きく変わります。ここでは実務で効きやすい観点を整理します。

前処理とクレンジングの重要性

決定木はスケーリングが必須ではない一方、入力データの品質には敏感です。欠損、外れ値、異常なカテゴリ、集計単位の不一致などがあると、分岐が「たまたまのノイズ」に引っ張られやすくなります。

カテゴリ変数の扱いも要注意です。実装やライブラリによって、ラベルエンコーディングやone-hotエンコーディングの適否が変わります。運用時に新しいカテゴリが来る可能性も含め、学習時と同じ変換が適用できる形にパイプライン化しておくと事故が減ります。

ハイパーパラメータ設定で過学習を抑える

決定木で最も重要なのは、木の複雑さを制御することです。代表的には次のようなパラメータが効きます。

  • 最大深さ:深くしすぎると過学習しやすい
  • 最小分割サンプル数:少数のデータで分岐しないようにする
  • 葉の最小サンプル数:極端に小さな葉を作らないようにする
  • 剪定:学習後に複雑な枝を落として汎化性能を上げる

パラメータ探索は、グリッドサーチやランダムサーチで候補を作り、交差検証で評価するのが定番です。評価指標は目的に合わせて選び、分類なら不均衡を踏まえた指標も検討します。

特徴量選択とエンジニアリング

決定木は「与えられた特徴量の中から」分岐を選びます。つまり、どんな特徴量を用意するかが成果を左右します。ドメイン知識に基づいて、意味のある集計(直近◯日、平均との差、増減など)を作ると、少ない分岐で説明力のある木になりやすくなります。

一方で、特徴量が多すぎると「たまたま当たる」分岐が見つかりやすくなります。重要度の確認、不要特徴量の削減、学習データを増やすなど、過学習を避ける方向でバランスを取りましょう。

可視化とルール解釈の実務的なコツ

決定木の利点は説明のしやすさですが、木が深くなると逆に読めなくなります。実務では次のような工夫が現実的です。

  • 浅めの木を説明用に作る:主要ルールだけを示し、納得形成に使う
  • 精度重視はアンサンブルを使う:予測用はランダムフォレスト等に寄せる
  • 分岐条件の妥当性を点検する:現場知識と矛盾していないか、データリークがないか確認する

「説明できること」と「精度が出ること」は一致しない場合があります。用途に応じて、モデルを分ける設計も選択肢に入れておくと、導入が進めやすくなります。

まとめ

決定木は、条件分岐で分類・回帰を行う直感的な機械学習アルゴリズムで、解釈性の高さが大きな強みです。金融、マーケティング、医療、製造など幅広い分野で活用され、意思決定の根拠を説明しやすい形に落とし込めます。

一方で、過学習しやすく不安定になりやすいという特性があるため、深さの制御、剪定、評価設計、特徴量設計が成果を左右します。精度と安定性を重視するなら、ランダムフォレストなどのアンサンブルを視野に入れつつ、説明用途と予測用途を分けて設計することも有効です。決定木の特性を理解し、目的に合った運用で業務改善や意思決定の最適化につなげていきましょう。

Q.決定木は分類と回帰のどちらに使えますか?

どちらにも使えます。分類はクラスや確率、回帰は数値を予測します。

Q.決定木が「わかりやすい」と言われる理由は何ですか?

条件分岐の連鎖として表現でき、予測の根拠を分岐ルールとして追えるためです。

Q.決定木が過学習しやすいのはなぜですか?

分岐を増やすほど学習データに合わせ込みやすく、ノイズまで拾ってしまうためです。

Q.過学習を抑える代表的な方法は何ですか?

最大深さや葉の最小サンプル数を制限し、必要に応じて剪定を行います。

Q.決定木はデータの前処理が不要ですか?

スケーリングは必須ではありませんが、欠損や外れ値、カテゴリの整理などは重要です。

Q.特徴量が多いほど決定木は強くなりますか?

必ずしも強くなりません。不要特徴量が多いと過学習や不安定化の要因になります。

Q.決定木が不安定と言われるのはどういう意味ですか?

学習データのわずかな違いで分岐条件が変わり、木の形が大きく変化することがあるという意味です。

Q.ランダムフォレストは決定木と何が違いますか?

決定木を多数作って予測を集約し、精度と安定性を高めたアンサンブル手法です。

Q.説明性と精度を両立したい場合はどうしますか?

説明用に浅い決定木を用意し、予測用はアンサンブルを使うなど用途でモデルを分けます。

Q.実務で評価指標は何を選べばよいですか?

目的に合わせて選びます。不均衡がある分類では正解率だけでなく再現率や適合率も重視します。

記事を書いた人

ソリトンシステムズ・マーケティングチーム