IT用語集

決定木とは? 10分でわかりやすく解説

水色の背景に六角形が2つあるイラスト 水色の背景に六角形が2つあるイラスト
アイキャッチ
目次

決定木とは?考え方・主な手法・使いどころを解説

決定木は、データを条件ごとに分けながら答えを出す手法です。分類にも回帰にも使え、なぜその答えになったかを追いやすいのが強みです。ただし、木を伸ばし過ぎると別のデータで外しやすくなります。最初に押さえたい点だけ先にまとめます。

  • できること:分類と回帰のどちらにも使える
  • 強み:分け方を追えば理由を説明しやすい
  • 注意点:木を深くし過ぎると過学習しやすい

決定木とは何か

決定木は、データを条件ごとに分けながら答えを出すモデルです。分類にも回帰にも使えます。分け方を上から追えば、なぜその答えになったかを見やすいのが特長です。

木の作り

木は、最初の分け目であるルートノード、途中で分ける内部ノード、最後に答えを出すリーフノードから成ります。

学習では、どの特徴量をどこで区切ると答えがそろうかを見ながら分けます。分類ならジニ不純度やエントロピー、回帰なら MSE などを使います。

分類と回帰

分類木はクラスや確率を返し、回帰木は数値を返します。考え方は同じで、何を答えとして返すかが違います。

よい点

  • 理由を説明しやすい
  • スケーリングが必須ではない
  • 直線では表しにくい関係も扱いやすい
  • どの特徴量が効いたかを見やすい

気をつけたい点

  • 過学習しやすい:木を深くし過ぎると学習データに寄り過ぎる
  • ぶれやすい:データが少し変わるだけで形が大きく変わることがある
  • 回帰では予測が階段のようになりやすい

このため、木の大きさを調整したり、必要に応じてランダムフォレストのような手法を使ったりします。

学び方の流れ

決定木では、どこで分けると答えがそろうかを見ながら木を伸ばします。代表的な手法として ID3、C4.5、CART があり、複数の木を使うものとしてランダムフォレストがあります。

ID3

ID3 は初期の手法で、information gain が大きくなる特徴量を選びます。どの列で分けると答えがそろうかを見る考え方です。

ただし、連続値や欠損値の扱いでは後の手法ほど柔軟ではありません。そのため、考え方の理解には役立つものの、そのまま実運用に置く例は多くありません。

C4.5

C4.5 は ID3 を改良した手法で、gain ratio を使って、取り得る値が多い列に分け目が寄り過ぎるのを抑えます。

連続値や欠損値も扱いやすくし、剪定も入れています。木を作り過ぎないための工夫として重要です。

CART

CART は分類にも回帰にも使える代表的な手法です。分類ではジニ不純度など、回帰では MSE などが小さくなるように分けます。

基本は毎回二つに分ける二分木です。扱いやすい一方、木を深くし過ぎると過学習に向かいやすいため、深さや葉の条件を調整します。

ランダムフォレスト

ランダムフォレストは、決定木をたくさん作って答えをまとめる手法です。一本だけだとぶれやすい木でも、多数決や平均でならすと安定しやすくなります。

  1. 元のデータから少しずつ違う学習用データを作る
  2. それぞれで決定木を学習する
  3. 分けるときに見る特徴量も一部だけにする
  4. 最後に各木の答えをまとめる

精度と安定のバランスが取りやすい反面、一本の木ほど理由は追いにくくなります。

どんな場面で使うか

決定木は、なぜその答えになったかを説明しやすい場面と相性が良い手法です。

金融

与信、延滞、解約の見方では、どの条件で線を引いたかを説明できることが大事です。決定木は、年収、勤続年数、返済履歴などから、危ないケースを順に切り分ける形を作れます。

ただし、金融のデータは時期によって中身が変わりやすいため、作って終わりではなく、見直す時期も決めておく必要があります。

マーケティング

購買や離脱の予測では、どの層にどの施策を当てるかを見やすい形で出せます。たとえば、最近買ったか、特定のカテゴリをよく見ているか、といった条件で層を分けます。

ここで怖いのは、後からしか分からない情報を学習に入れてしまうことです。使える時点をそろえてデータを作らないと、運用では再現できません。

医療

医療では、なぜその結果を出したかを追いやすいことに価値があります。決定木は、検査値や所見を条件ごとに分けて見せやすいため、分析の補助として使われることがあります。

ただし、誤判定の重さが大きいため、精度だけでなく、どこまで使うか、誰が最終判断をするかまで決めておく必要があります。

製造

製造では、温度、圧力、材料ロット、設備条件などと品質の関係を見たい場面が多くあります。決定木は、不良が出やすい条件を現場に説明しやすい形で出せます。

ただし、不良はもともと少ないことが多いため、正解率だけでは足りません。取りこぼしをどこまで許すかを含めて指標を選ぶ必要があります。

使うときのコツ

決定木の出来は、木そのものだけでなく、データの整え方と見方で大きく変わります。

データを整える

決定木はスケーリングが必須ではありませんが、欠損、外れ値、集計単位のずれには弱い面があります。そうしたノイズがあると、たまたまの分け目を拾いやすくなります。

カテゴリ変数の変換方法も先に決めておく必要があります。運用で新しいカテゴリが来ても同じ変換をかけられるようにしておくと、あとで困りにくくなります。

木を伸ばし過ぎない

木の大きさを抑えることが重要です。

  • 最大深さを決める
  • 一度に分ける最小件数を決める
  • 葉に残す最小件数を決める
  • 必要なら剪定を使う

候補を比べるときは、クロスバリデーションで確かめるのが定番です。分類では、正解率だけでなく再現率や適合率も見ます。

特徴量を作る

どんな特徴量を入れるかで結果は変わります。最近何日、平均との差、前回からの増減など、意味のある列を作ると、少ない分け目でも使いやすい木になりやすくなります。

逆に、列が多過ぎると偶然当たる分け目を拾いやすくなります。不要な列は落とし、増やすなら理由を持って増やす方が安全です。

説明用と予測用を分ける

浅い木は説明しやすい反面、精度で不利になることがあります。逆に、精度を追うと木が読みにくくなります。

  • 説明用には浅い木を使う
  • 予測用にはランダムフォレストなども使う
  • 分け目が現場の感覚とずれていないかを確認する

用途を分けると、導入しやすくなります。

まとめ

決定木は、条件ごとにデータを分けながら答えを出す手法です。理由を追いやすいため、なぜその答えになったかを見せたい場面で使いやすいモデルです。

ただし、木を伸ばし過ぎると過学習しやすく、データが少し変わるだけで形も変わりやすくなります。木の大きさを抑えること、データを整えること、必要に応じてランダムフォレストも使うことが大切です。

要は、説明しやすさと安定しやすさのどちらを重く見るかを先に決めることです。目的に合った形で使えば、業務の判断材料として役立ちます。

Q.決定木は分類と回帰のどちらに使えますか?

どちらにも使えます。分類はクラス、回帰は数値を返します。

Q.なぜ分かりやすいと言われますか?

どこで分けたかを上から追えるため、理由を説明しやすいからです。

Q.なぜ過学習しやすいのですか?

木を伸ばし過ぎると、学習用のデータに寄り過ぎるからです。

Q.抑えるには何をしますか?

最大深さや葉の件数を決め、必要なら剪定を使います。

Q.前処理は本当に少なくて済みますか?

スケーリングは必須ではありませんが、欠損や外れ値の確認は要ります。

Q.特徴量は多いほど良いですか?

そうとは限りません。多過ぎると偶然当たる分け目を拾いやすくなります。

Q.不安定とはどういう意味ですか?

データが少し変わるだけで、木の形が大きく変わることがあるという意味です。

Q.ランダムフォレストとの違いは何ですか?

決定木を一本だけ使うか、たくさん作って答えをまとめるかの違いです。

Q.説明と精度を両立したいときはどうしますか?

説明用には浅い木を使い、予測用には別のモデルも使う方法があります。

Q.評価指標は何を見ればよいですか?

目的に合わせて選びます。分類では正解率だけでなく再現率や適合率も見ます。

記事を書いた人

ソリトンシステムズ・マーケティングチーム