IBM business Partner logo
分析支援サービス
IBM SPSSによるデータ分析、情報活用

Classification and Regression Tree

C&R Tree
分類問題や回帰問題に使用される決定木アルゴリズムの一種です。CRT手法は、特に二分木(binary tree)の構造を用いてデータを繰り返し分割し、結果を導き出すために用いられます。
  • 分析手法の種類
  • 予測する
  • 要因を探る
  • 比較する
  • 分類する
  • 集計する
  • 可視化する
Application

不純度に基づく決定木の手法

C&R Tree(CRT)は、目的変数に対して多数の要因でデータセットをセグメントに分岐し、ツリー図を構築する分析手法です。変数の選択や分岐の基準に不純度を用いており、CHAIDと並びよく利用されるディシジョンツリーの手法ですが、分岐は常に2つになるのが特徴です。 目的変数には、カテゴリ変数(比率)とスケール変数(平均値)の両方が利用できます。

目的変数がカテゴリカルデータの場合、パーセンテージを代表値として観測データを分類するためのルールを作ります。各分割点で最適な変数を選び、データを最も純粋なグループに分割します。分割の基準は不純度(Gini Impurity)がよく使われます。不純度はデータがどれだけ混在しているかを示す指標で、0に近いほど1つのカテゴリに偏っていることを示します。

目的変数が連続データの場合、平均値を代表値としてCRTは回帰木を作成します。各分割点で、分割前後のグループ間の分散の減少量(分散減少率)を基に最適な分割を決定します。

決定木は、分割を続けるとデータに完全に適合し、過学習(overfitting)が発生する可能性があります。これを防ぐために、木を剪定(pruning)して、モデルの複雑さをコントロールします。

Software

ソフトウェア

SPSSでは、Decision Treesオプションで決定木分析の各手法に対応します。なお、SPSS Modelerの方が機能が充実しており予測に使用する場合に向いています。Rでは、rpartパッケージを使用します。Pythonでは、sklearnDecisionTreeClassifierDecisionTreeRegressorを使用してCRTを実装できます。

参考文献

  1. Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth International Group.
  2. 滋賀大学データサイエンス学部(2024),この1冊ですべてわかる データサイエンスの基本,日本実業出版社
  3. IBM_SPSS_Decision_Trees.pdf
PAGE TOP ↑