2020年9月23日 更新

目的ベースのデータ分析 ~データの概観を理解する~GT、クロス集計、コレスポンデンス分析

実際のアンケートデータの例をもとに、毎回一つの目的に焦点を当て、分析事例を紹介していきます。

はじめに

近年、「AI」、「データサイエンス」分野の盛り上がりとともに多種多様な形式のデータが種類、量ともに増加し、その様々なデータを活用するため会社、研究機関などでデータを分析する、もしくは分析を始める人々が増加しています。
その中で出てくる話の一つとして、「データはある(もらった)が何をやってよいかわからない」といったような意見を聞くことがあります。このような場合、多くは目的がない(与えられていない)、どのように目的を設定すればよいかわからないなどのようなケースが多いように感じます。
そこで本記事では、実際のアンケートデータの例をもとに、毎回一つの目的に焦点を当て、分析事例を紹介していくことで、分析における目的設定の参考になればと思い執筆しました。

今回のテーマ

今回の記事におけるデータ分析のテーマは、「概観を理解する」です。
概観とは、大体の様子、ざっくり見渡すことなどの意味で、本記事でもデータの大枠であったりデータの内容などをざっくりと理解することを意図しています。
ではなぜ最初のテーマが「概観を理解する」かというと、概観の理解はデータ分析の最初に行う作業であり、かつ全体像や変数の把握ができ、後に実施する分析では特徴量の作成などの方針を決めるための非常に重要な工程だからです。
今回はバイクについてのアンケートデータを用いており、バイクユーザーの市場がどのようなものかについていくつか例を挙げ見ていくこととします。

調査概要

では分析に、と行きたいところですが、まずは分析に入る前に、データがどのようなものかを確認するため、調査概要について説明します。
今回はアンケートデータのため、調査の概要を記載しましたが、データの種類に限らず分析前にデータがどのようなものかを確認することは非常に重要です。
下記が、今回のアンケートデータの概要です。

テーマ:バイクユーザーの意識や実態に関する調査
標本サイズ:1500サンプル(バイク保有者の性年代構成比に沿って回収)
対象者:男女・16歳から60代・バイク保有者
調査手法:インターネットリサーチ
調査項目:
  1.属性(デモグラフィック、バイク利用頻度、利用目的など)
  2.保有バイク
  3.バイク重視点
  4.主利用バイク要素別満足度
  5.主利用バイク総合満足度
  6.バイクブランドイメージ
  7.バイクブランド選好度
  8.北海道ツーリング実行意向
  9.ツーリングメニュー別(日程、コース、費用等)実行意向
※紙面の関係上、今回はデモグラフィックの性年代、利用目的、保有バイクに焦点を当て見ていくこととします。

分析

では、ここから分析に移っていきます。
分析を行う過程では、一般的に大枠を確認し、そこから気になる部分や検証したい部分を深堀りしていくというフローを踏むことが多いです。本記事でもその流れに沿って分析を行っていきます。

単純集計(Grand Total)


まず概観を確認するうえで使われるのが単純集計(Grand Total)です。これは各項目に対して対象者がどの程度回答したかを度数や%で表すものです。
実際に図表1を見ていくこととします。図表1は性年代の実際の人数とその比率を表したものとなっています。
 (716)

また、本データは上記調査概要のとおりバイク保有者の性年代人口構成比(2017年度二輪車市場動向調査参照)に沿って回収を行っています。
つまり、実際のバイク市場を形はそのまま1500人に縮小した構成となっており、比率については実際のバイク市場と同様の構成となっています。その構成について見ていくとバイク市場では60代の男女の保有者の割合が高く男性60代で16.1%、女性60代で14.2%、また20代から40代の女性の保有者は少ないという傾向が見て取れます。

また、別の例として、バイクの利用目的について見ていきます。
図表2を見ると最も高いのは「買物」で53.6%、続いて「通勤・通学」で32.7%、「ツーリング・趣味」32.5%と続きます。
 (718)

つまりバイクは買い物目的の時に最も利用され、続いて通勤や通学、ツーリングや趣味などが目的の時に利用されるということがわかります。また、上記で記載した通り、今回の調査はバイクユーザーの性年代の構成比で回収しているため、実際のバイク市場での利用目的も項目が同じであればほぼ近似した値になることが想定されます。

以上のような内容が単純集計表で見て取れる一例です。

続いて、冒頭で述べたように深堀りをしていく方法としてクロス集計を説明します。

クロス集計

クロス集計とは複数の項目を縦軸と横軸で掛け合わせデータを集計する方法で、データの深堀りを行う際に使われる方法の一つです。
例えば、先ほどの性年代項目について、自身が保有しているバイクを掛け合わせると下の図表3となります。
 (720)

データを見ると、「スクーター」は、女性の50-60代で全体より10ポイント以上保有率が高く、逆に男女20-30代は全体より5-10ポイント以上保有率が低い。また「ネイキッド」では男性の20代保有が全体より10ポイント、男性30代と女性20代で5ポイント以上高く、逆に男性60代、女性50代で全体より5ポイント以上、女性60代で10ポイント以上保有率が低い傾向が見て取れます。また、アメリカンやスポーツ/レプリカでも30代以下の若年層で全体より高い傾向が見られる箇所があります。
このように、クロス集計を用いることで単純集計のバイク保有者の性年代構成で見て取れなかったデータの傾向を見ることができます。
また、現状であれば項目や選択肢の数も多くはないですが、項目や選択肢数が増えるにつれ解釈しづらくなる、もしくはもっと視覚的な解釈をしたいと感じる場合があります。
そのような場合に使われる手法の一つとしてコレスポンデンス分析を最後に紹介します。

コレスポンデンス分析

コレスポンデンス分析とは、変数相互の関連を調べることにより、いくつかのデータを集約する軸を発見し、その軸をものさしとして、カテゴリーあるいはサンプルの関係・類似性を明らかにする手法とされています。実務での使われ方としては、クロス集計やマトリクス設問の単純集計(GT)など、比率に意味のある行列データの特徴を視覚化するために使われることが多く、製品のポジショニングマップ作成に多く用いられます。

実際の例として、クロス集計で説明した図表3の数表をコレスポンデンス分析を用いて表現したのが下の図表4となります。
 (722)

クロス集計で説明したような傾向が把握しやすいマップとして見て取れます。横軸(1軸)は元の数表にある傾向の大部分(77%)を説明する軸で、30代以下(アメリカン、ネイキッド等)と40代以上(スクーター)の保有傾向の違いを示しています。
また、縦軸(2軸)は30代以下の好みの違いを表しています。30代以下で、男性に比べ女性の方が「アメリカン」を保有している傾向があるのは、重心が低いことによる乗りやすさが影響しているのかもしれません。
なお、データに顕著な傾向が見られないカテゴリーは、コレスポンデンス分析の図では中心に寄る傾向にあります。
このようにコレスポンデンス分析を用いることで項目や変数が多くなってもクロス集計の解釈が視覚的に容易にできるようになるだけでなく、クロス集計で気づかなかった傾向が見えてくることもあり、データの概観を把握するうえで非常に便利な手法となります。

終わりに

ここまでデータの概観を理解するというテーマで単純集計からクロス集計、そしてコレスポンデンス分析を用いての分析の流れを実例を交えて説明してきました。
今回のテーマ部分でも述べましたが、データの概観の理解は以降の分析を行う過程でも非常に重要となるので、データ分析を行う際は今回紹介した手法を活用することをお勧めします。
 
ここまで読んで頂きありがとうございました。
次回記事では因子分析やクラスター分析について紹介しています。
こちらからお進みください。
24 件

関連する記事 こんな記事も人気です♪

統計データ、市場調査データを見られるサービスのご紹介

統計データ、市場調査データを見られるサービスのご紹介

本記事では様々な統計データが閲覧可能なサービスをご紹介します。
単純には比較できない

単純には比較できない

ネットリサーチCron : リサーチ関連の話題・手法について、業界内外の人が息抜きに読めるような軽いコラムです。
KOJI.A | 34 view

この記事のキーワード

この記事のキュレーター

S.T_DTL S.T_DTL