Logistic Regression Analysis
ロジスティック回帰分析
二値分類(バイナリ分類)問題に使用される回帰モデルの一種で、従属変数(目的変数)が0または1の二値を取る場合に適用されます。この手法は、従属変数がカテゴリカルであるため、通常の線形回帰が適用できない状況で用いられます。
- 分析手法の種類
- 予測する
- 要因を探る
- 比較する
- 分類する
- 集計する
- 可視化する
Application
カテゴリ型の従属変数の要因分析と予測
ロジスティック回帰では、独立変数(説明変数)の値に基づいて、あるイベントが発生する確率を予測します。具体的には、0または1の結果(例:成功/失敗、購入/非購入、合格/不合格など)を予測する際に、その確率が0~1の範囲に収まるようにロジスティック関数(シグモイド関数)が使用されます。
ロジスティック回帰では、従属変数の確率をロジット変換します。ロジット変換は、確率をオッズに変換し、次にそのオッズの対数を取ります。これにより、線形回帰の形を保ったまま、二値分類の問題を解くことができます。
ロジスティック回帰では、各独立変数がオッズ比として解釈されます。オッズ比は、1単位あたりの独立変数の変化が、従属変数の発生確率にどの程度影響を与えるかを示します。
Software
ソフトウェア
SPSSではRegressionオプションやAdvanced Statisticsオプションが対応します。Rでは基本的にstatsパッケージのlm()関数が最も利用され、視覚化にはggplot2パッケージがよく使われます。Pythonでは機械学習ライブラリのscikit-learnのLogisticRegressionクラスや、statsmodelsのLogit()関数が主要な実行方法として広く使われています。
参考文献
- Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B (Methodological), 20(2), 215-242.
- 対馬 栄輝(2018),SPSSで学ぶ医療系多変量データ解析,東京図書
- IBM_SPSS_Statistics_Regression.pdf