決定木は、データを条件ごとに分けながら答えを出す手法です。分類にも回帰にも使え、なぜその答えになったかを追いやすいのが強みです。ただし、木を伸ばし過ぎると別のデータで外しやすくなります。最初に押さえたい点だけ先にまとめます。
決定木は、データを条件ごとに分けながら答えを出すモデルです。分類にも回帰にも使えます。分け方を上から追えば、なぜその答えになったかを見やすいのが特長です。
木は、最初の分け目であるルートノード、途中で分ける内部ノード、最後に答えを出すリーフノードから成ります。
学習では、どの特徴量をどこで区切ると答えがそろうかを見ながら分けます。分類ならジニ不純度やエントロピー、回帰なら MSE などを使います。
分類木はクラスや確率を返し、回帰木は数値を返します。考え方は同じで、何を答えとして返すかが違います。
このため、木の大きさを調整したり、必要に応じてランダムフォレストのような手法を使ったりします。
決定木では、どこで分けると答えがそろうかを見ながら木を伸ばします。代表的な手法として ID3、C4.5、CART があり、複数の木を使うものとしてランダムフォレストがあります。
ID3 は初期の手法で、information gain が大きくなる特徴量を選びます。どの列で分けると答えがそろうかを見る考え方です。
ただし、連続値や欠損値の扱いでは後の手法ほど柔軟ではありません。そのため、考え方の理解には役立つものの、そのまま実運用に置く例は多くありません。
C4.5 は ID3 を改良した手法で、gain ratio を使って、取り得る値が多い列に分け目が寄り過ぎるのを抑えます。
連続値や欠損値も扱いやすくし、剪定も入れています。木を作り過ぎないための工夫として重要です。
CART は分類にも回帰にも使える代表的な手法です。分類ではジニ不純度など、回帰では MSE などが小さくなるように分けます。
基本は毎回二つに分ける二分木です。扱いやすい一方、木を深くし過ぎると過学習に向かいやすいため、深さや葉の条件を調整します。
ランダムフォレストは、決定木をたくさん作って答えをまとめる手法です。一本だけだとぶれやすい木でも、多数決や平均でならすと安定しやすくなります。
精度と安定のバランスが取りやすい反面、一本の木ほど理由は追いにくくなります。
決定木は、なぜその答えになったかを説明しやすい場面と相性が良い手法です。
与信、延滞、解約の見方では、どの条件で線を引いたかを説明できることが大事です。決定木は、年収、勤続年数、返済履歴などから、危ないケースを順に切り分ける形を作れます。
ただし、金融のデータは時期によって中身が変わりやすいため、作って終わりではなく、見直す時期も決めておく必要があります。
購買や離脱の予測では、どの層にどの施策を当てるかを見やすい形で出せます。たとえば、最近買ったか、特定のカテゴリをよく見ているか、といった条件で層を分けます。
ここで怖いのは、後からしか分からない情報を学習に入れてしまうことです。使える時点をそろえてデータを作らないと、運用では再現できません。
医療では、なぜその結果を出したかを追いやすいことに価値があります。決定木は、検査値や所見を条件ごとに分けて見せやすいため、分析の補助として使われることがあります。
ただし、誤判定の重さが大きいため、精度だけでなく、どこまで使うか、誰が最終判断をするかまで決めておく必要があります。
製造では、温度、圧力、材料ロット、設備条件などと品質の関係を見たい場面が多くあります。決定木は、不良が出やすい条件を現場に説明しやすい形で出せます。
ただし、不良はもともと少ないことが多いため、正解率だけでは足りません。取りこぼしをどこまで許すかを含めて指標を選ぶ必要があります。
決定木の出来は、木そのものだけでなく、データの整え方と見方で大きく変わります。
決定木はスケーリングが必須ではありませんが、欠損、外れ値、集計単位のずれには弱い面があります。そうしたノイズがあると、たまたまの分け目を拾いやすくなります。
カテゴリ変数の変換方法も先に決めておく必要があります。運用で新しいカテゴリが来ても同じ変換をかけられるようにしておくと、あとで困りにくくなります。
木の大きさを抑えることが重要です。
候補を比べるときは、クロスバリデーションで確かめるのが定番です。分類では、正解率だけでなく再現率や適合率も見ます。
どんな特徴量を入れるかで結果は変わります。最近何日、平均との差、前回からの増減など、意味のある列を作ると、少ない分け目でも使いやすい木になりやすくなります。
逆に、列が多過ぎると偶然当たる分け目を拾いやすくなります。不要な列は落とし、増やすなら理由を持って増やす方が安全です。
浅い木は説明しやすい反面、精度で不利になることがあります。逆に、精度を追うと木が読みにくくなります。
用途を分けると、導入しやすくなります。
決定木は、条件ごとにデータを分けながら答えを出す手法です。理由を追いやすいため、なぜその答えになったかを見せたい場面で使いやすいモデルです。
ただし、木を伸ばし過ぎると過学習しやすく、データが少し変わるだけで形も変わりやすくなります。木の大きさを抑えること、データを整えること、必要に応じてランダムフォレストも使うことが大切です。
要は、説明しやすさと安定しやすさのどちらを重く見るかを先に決めることです。目的に合った形で使えば、業務の判断材料として役立ちます。
どちらにも使えます。分類はクラス、回帰は数値を返します。
どこで分けたかを上から追えるため、理由を説明しやすいからです。
木を伸ばし過ぎると、学習用のデータに寄り過ぎるからです。
最大深さや葉の件数を決め、必要なら剪定を使います。
スケーリングは必須ではありませんが、欠損や外れ値の確認は要ります。
そうとは限りません。多過ぎると偶然当たる分け目を拾いやすくなります。
データが少し変わるだけで、木の形が大きく変わることがあるという意味です。
決定木を一本だけ使うか、たくさん作って答えをまとめるかの違いです。
説明用には浅い木を使い、予測用には別のモデルも使う方法があります。
目的に合わせて選びます。分類では正解率だけでなく再現率や適合率も見ます。