決定木は直感的に理解しやすく、分類・回帰のどちらにも適用できる機械学習アルゴリズムです。一方で、学習データに合わせ込みすぎると精度が落ちたり、データのわずかな違いで木の形が大きく変わったりするため、使いどころと運用設計が結果を左右します。本記事では、決定木の基本概念から代表的な学習アルゴリズム、実務での使い方、チューニングの勘所までを整理し、「どんな場面で使うと効くのか」「どこでつまずきやすいのか」を判断できる状態を目指します。
決定木(Decision Tree)は、データの特徴量に基づいて条件分岐を繰り返し、最終的に目的変数を予測するモデルです。分類(クラスを当てる)にも回帰(数値を予測する)にも使えます。人の意思決定プロセスに近い「もしAなら…、そうでなければ…」という形で表現できるため、モデルの説明が求められる場面で選択肢に入りやすいアルゴリズムです。
決定木は木構造でデータを分割していく手法です。木は主に次の要素から構成されます。
学習では、各ノードで「どの特徴量で、どの条件で分割すると目的変数が最も整理されるか」を評価し、最適な分岐を選びます。分類ではジニ不純度やエントロピー、回帰では平均二乗誤差などの指標が用いられ、分割によって“混ざり具合”や誤差がどれだけ改善するかで判断します。
決定木は分類木と回帰木に大別されます。
分類木のリーフは「クラス」または「クラス確率」を返します。一方、回帰木のリーフは「予測値(平均値など)」を返します。どちらも「分割して、まとまりを作る」という考え方は同じですが、まとまりの評価尺度が異なります。
決定木が評価される理由は、精度だけではありません。実務上の強みは次の通りです。
ただし「重要度」は指標の性質上バイアスが出る場合があるため、過信せず、検証と併用するのが安全です。
決定木は扱いやすい反面、典型的な落とし穴があります。
これらに対しては、木の複雑さを制御する、剪定を行う、あるいはアンサンブル学習(ランダムフォレストや勾配ブースティング)を活用する、といった運用設計が現実的な対策になります。
決定木の「学習」は、分岐条件を選び続けて木を成長させるプロセスです。代表的な学習アルゴリズムとして、ID3、C4.5、CARTがよく知られています。加えて、決定木を複数組み合わせて性能と安定性を高める手法としてランダムフォレストがあります。
ID3(Iterative Dichotomiser 3)は初期の代表的アルゴリズムで、各分岐で情報利得(エントロピーの減少量)を最大化する特徴量を選びます。直感的には「その特徴量で分けたときに、クラスがどれだけ整理されるか」を評価しているイメージです。
一方で、ID3は実務上の制約もあります。典型的には、連続値の扱いが限定的であること、欠損値の取り扱いに工夫が必要であること、そして停止条件を適切に設けないと過学習しやすいことが挙げられます。そのため、考え方の理解には役立つものの、実運用では改良版や別手法が選ばれるケースが一般的です。
C4.5はID3の改良版で、分岐の評価指標として情報利得比(gain ratio)を用いることで、分岐の偏りを緩和します。たとえば取りうる値が多い特徴量は、素朴な情報利得だけだと有利になりやすいため、その補正を入れる発想です。
またC4.5では、連続値に対してしきい値を探索して分割できるようにする、欠損値を扱う、過学習を抑えるために剪定を取り入れるなど、実務で必要になりやすい論点が強化されています。とくに剪定は「学習データには合うが、未知データでは外す」を起こしやすい決定木にとって重要な手段です。
CART(Classification and Regression Trees)は、分類と回帰の両方に対応する代表的アルゴリズムです。分類ではジニ不純度などを用い、回帰では平均二乗誤差などの誤差指標が小さくなるように分割します。
CARTの特徴として、基本的に二分木(各ノードで2つに分割)を作る点が挙げられます。分岐が単純になりやすく、実装・運用の観点で扱いやすい一方、木を深くしすぎると過学習に向かいやすい点は変わりません。実務では、深さや葉の条件などを制御しつつ、交差検証で汎化性能を確認する運用が重要です。
ランダムフォレストは、決定木を多数作って予測を集約するアンサンブル学習です。単一の決定木は不安定になりやすい一方、複数の木の「多数決(分類)」や「平均(回帰)」を取ることで、ばらつきをならし、汎化性能を上げやすくなります。
基本的な流れは次の通りです。
ランダムフォレストは精度と安定性のバランスが取りやすく、ベースラインとして採用されることも多い手法です。ただし、木が多数になるため、単一決定木ほどの説明容易性は下がります。説明が強く求められる場面では、単純な決定木と併用して「説明用」と「予測用」を分ける設計も有効です。
決定木は「説明しやすいルール」を作りやすい点が強みです。そのため、精度だけでなく、意思決定の根拠を求められる業務と相性が良いケースがあります。ここでは代表的な領域を整理します。
与信、延滞、解約などのリスク評価では、説明責任が重要になります。決定木は、年収、勤続年数、返済履歴などの特徴量から、リスクの高いケースを段階的に切り分けるルールを作れます。
ただし、金融領域ではデータの偏りや時系列変化が起こりやすく、学習時と運用時で分布がずれることも珍しくありません。決定木のルールを一度作って終わりにせず、評価指標と再学習条件を設計し、モデル更新を運用に組み込むことが現実的です。
顧客のセグメンテーションや、購買・離脱の予測では、決定木が「どんな顧客に、どんな施策を当てるべきか」を説明しやすい形に落とし込めます。たとえば「直近購入がある」「特定カテゴリの閲覧回数が多い」などの条件で、反応しやすい層を切り分けるイメージです。
注意点として、特徴量に将来情報が混入すると、見かけ上の精度が跳ね上がります。たとえば施策実施後に得られる情報を学習に入れてしまうと、運用では再現できない精度になります。学習用データを作る段階で、利用可能なタイミングを厳密に揃えることが重要です。
医療データの分析では、モデルの解釈性は大きな価値になります。決定木は、検査値や所見などを条件分岐として扱えるため、意思決定の補助としての形を取りやすい手法です。
一方で、医療分野はデータの取り扱いがセンシティブで、評価設計も慎重さが求められます。学習データの代表性、誤判定時の影響、運用時の責任分界など、モデル精度以外の要件が大きい領域である点を前提に、導入可否を判断する必要があります。
製造工程では、温度、圧力、材料ロット、設備条件などの変数と品質の関係を把握したい場面が多くあります。決定木は、不良が起こりやすい条件を分岐ルールとして表現できるため、現場への説明と改善の議論につなげやすいのが利点です。
ただし、品質データは「不良が少ない」こと自体が望ましいため、クラス不均衡になりがちです。不良予測のモデルでは、単純な正解率ではなく、再現率や適合率、現場の許容コストに沿った評価指標を設定することが欠かせません。
決定木の成果は、モデル構造そのものだけでなく、データ設計と評価設計で大きく変わります。ここでは実務で効きやすい観点を整理します。
決定木はスケーリングが必須ではない一方、入力データの品質には敏感です。欠損、外れ値、異常なカテゴリ、集計単位の不一致などがあると、分岐が「たまたまのノイズ」に引っ張られやすくなります。
カテゴリ変数の扱いも要注意です。実装やライブラリによって、ラベルエンコーディングやone-hotエンコーディングの適否が変わります。運用時に新しいカテゴリが来る可能性も含め、学習時と同じ変換が適用できる形にパイプライン化しておくと事故が減ります。
決定木で最も重要なのは、木の複雑さを制御することです。代表的には次のようなパラメータが効きます。
パラメータ探索は、グリッドサーチやランダムサーチで候補を作り、交差検証で評価するのが定番です。評価指標は目的に合わせて選び、分類なら不均衡を踏まえた指標も検討します。
決定木は「与えられた特徴量の中から」分岐を選びます。つまり、どんな特徴量を用意するかが成果を左右します。ドメイン知識に基づいて、意味のある集計(直近◯日、平均との差、増減など)を作ると、少ない分岐で説明力のある木になりやすくなります。
一方で、特徴量が多すぎると「たまたま当たる」分岐が見つかりやすくなります。重要度の確認、不要特徴量の削減、学習データを増やすなど、過学習を避ける方向でバランスを取りましょう。
決定木の利点は説明のしやすさですが、木が深くなると逆に読めなくなります。実務では次のような工夫が現実的です。
「説明できること」と「精度が出ること」は一致しない場合があります。用途に応じて、モデルを分ける設計も選択肢に入れておくと、導入が進めやすくなります。
決定木は、条件分岐で分類・回帰を行う直感的な機械学習アルゴリズムで、解釈性の高さが大きな強みです。金融、マーケティング、医療、製造など幅広い分野で活用され、意思決定の根拠を説明しやすい形に落とし込めます。
一方で、過学習しやすく不安定になりやすいという特性があるため、深さの制御、剪定、評価設計、特徴量設計が成果を左右します。精度と安定性を重視するなら、ランダムフォレストなどのアンサンブルを視野に入れつつ、説明用途と予測用途を分けて設計することも有効です。決定木の特性を理解し、目的に合った運用で業務改善や意思決定の最適化につなげていきましょう。
どちらにも使えます。分類はクラスや確率、回帰は数値を予測します。
条件分岐の連鎖として表現でき、予測の根拠を分岐ルールとして追えるためです。
分岐を増やすほど学習データに合わせ込みやすく、ノイズまで拾ってしまうためです。
最大深さや葉の最小サンプル数を制限し、必要に応じて剪定を行います。
スケーリングは必須ではありませんが、欠損や外れ値、カテゴリの整理などは重要です。
必ずしも強くなりません。不要特徴量が多いと過学習や不安定化の要因になります。
学習データのわずかな違いで分岐条件が変わり、木の形が大きく変化することがあるという意味です。
決定木を多数作って予測を集約し、精度と安定性を高めたアンサンブル手法です。
説明用に浅い決定木を用意し、予測用はアンサンブルを使うなど用途でモデルを分けます。
目的に合わせて選びます。不均衡がある分類では正解率だけでなく再現率や適合率も重視します。