Correspondence Analysis
- 分析手法の種類
- 予測する
- 要因を探る
- 比較する
- 分類する
- 集計する
- 可視化する
カテゴリカルデータの関係性を視覚化
コレスポンデンス分析は、クロス集計表(カテゴリカルデータの表)に基づいて、行と列のカテゴリ間の関係を視覚的に捉える手法です。特に、カテゴリカルデータの相互関係を低次元空間にプロットすることで、各カテゴリがどれだけ関連しているかを直感的に理解することができます。行と列のカテゴリ間のパターンや相関を把握できるため、マーケティング調査やアンケートデータの分析などで広く使われています。
例えば、商品の種類や地域、年代などのようなカテゴリ数の多い質的変数同士の関係を調べる場合、クロス集計表を作成すると、行と列のカテゴリ数が多くなり、結果の解釈が難しくなります。そこで、コレスポンデンス分析でカテゴリ間の関係を可視化することで、結果の解釈が容易になります。
コレスポンデンス分析を実行すると、行カテゴリと列カテゴリのスコアが計算され、カテゴリの相対的な距離から関係を把握することができます。
例えば、Eは「香りが良い」、Bは「まろやか」で「コクがある」という特徴がありそうです。また、AとCは近くに位置しているため、特徴が似ている(類似性がある)と解釈することができそうです。
解釈をしやすくするために各次元(軸)に意味づけをすることもありますが、次元の解釈やネーミングは、分析者の仮説や知見に基づいて行うべきものです。 実際にコレスポンデンス分析を行う場合は、固有値(イナーシャ)や寄与率などから、各次元が元のデータをどの程度説明できているかなどの詳細を確認することが重要です。
このように、コレスポデンス分析を使用することでカテゴリ間の相対的な距離に基づいて関係を解釈することが可能になりますが、コレスポンデンス分析の結果にサンプルサイズは反映されませんので、同時にクロス集計表を作成して解釈することも大切です。
ソフトウェア
SPSSでは、Categoriesオプションがコレスポンデンス分析に対応しています。GUIベースで操作が簡単で、専門知識がなくても利用でき、結果の可視化も容易で、ビジュアルに直感的なレポートを作成できます。Rでは、コレスポンデンス分析を実行するために、caパッケージやFactoMineRパッケージを利用します。Pythonでは、princeライブラリを使ってコレスポンデンス分析を実行することが可能です。
参考文献
- Greenacre, M. J. (1984). “Theory and Applications of Correspondence Analysis”
- Greenacre, M. J. & Blasius, J. (2006). “Multiple Correspondence Analysis and Related Methods”
- 石村貞夫,加藤千恵子,劉晨,石村友二郎,SPSSによるカテゴリカルデータ分析の手順,東京都書