Modelerの使い方
IBM SPSS Modelerの基本的な使い方
ノードと呼ばれるアイコンを組合せてキャンバスに処理フローを描きます。
処理フローはストリームとして視覚的に管理でき、ノーコードで高度な分析機能にアクセスできます。
CRISP-DMで分析計画
CRISP-DM (CRoss-Industry Standard Process for Data Mining) は、IBM SPSS Modelerが採用しているプロセスモデルです。6つのフェーズで構成され、CRISP-DMに基づいてデータ分析を行うことで、効率よくデータ分析を進めることができます。ビジネスや分析の課題は頭の中で考えるだけでなく、きちんと文書化することが大切です。
Modelerにデータを読み込もう
データインポートは、入力パレットを使用します。可変長ファイル、Excel、データベース、Statisticsファイルなどが代表的です。カンマ区切りのCSVの場合、区切り文字、ストレージ、データ型などの主要な項目の指定を行うだけです。インポートするデータは1列1変数、1行1レコードの形式になっている必要があります。
データの加工と前処理
データの加工や前処理には、レコード設定やフィールド設定を使います。ファイル結合やフィールド作成(年齢→年代、都道府県を地域別にまとめる、利用金額を10分位に分割、前回利用との差分を出す、etc)などを、用途に応じたノードの組合せで実現します。加工フローはアイコンをつなげた視覚的なイメージで管理できます。
基礎分析へ
高度な分析処理に進む前に、データの特徴を調べる基礎分析を行います。各フィールドの要約(平均値、標準偏差、最小値、最大値、%など)、グラフ作成、欠損レコードの比率や内訳、外れ値や極値の確認、グループ比較などは、出力とグラフの機能で対応します。データ検査で全フィールドの特徴を一気に調べて、スクリーニングすることもできます。
特徴量やレコードのスクリーニング
特徴量選択ノードを使用することで、対象と相関/連関の高いものだけを選別して予測モデル作成に流し込むフィルタリングにも対応しています。また、異常値検査ではクラスタリングにより異常レコードを識別してストリームから除外させることができ、予測モデル作成のフィールド選択を補助します。
予測モデル作成、類似パターン発見
予測モデル作成の50種類近い手法がGUIで提供されます。教師あり学習のニューラルネットワーク、線型モデル、決定木分析、ベイジアンネットワーク、ランダムフォレストなどのほか、教師なし学習として、K-MeansやKohonenなどのクラスター分析、因子分析や主成分分析に対応します。共起規則を抽出するアソシエーションやシーケンスモデルも使用可能です。
予測精度の高いモデルをランキング
複数のモデルを同時実行するオートメーションの機能で、例えば、買う/買わないの2値の分類モデルにおいて、ニューラルネットワーク、決定木分析、ロジスティック回帰分析、SVMなどの手法を指定し、変数選択やブースティングなど複数パラメータを設定して、モデルを複数パターン作成させて、精度の良いモデルのランキングが可能です。
予測値のスコアリング
加工や前処理を終えたデータセットや予測値や確率などを、外部ファイルにエクスポートします。データベースのテーブルに書き込んだり、Excel形式で保存することで、別のアプリケーションやツールでの活用を実現します。エクスポートの方法は他のノードと同じく、ストリームの最後にリンクして出力先の指定を行うだけです。