公開日:
|更新日:
マークシートを使ったアンケート分析にクラスター分析を活用
アンケート分析手法「クラスター分析」とは?
集計されたデータを分析する方法には、いくつかの種類があります。分析方法は多彩で特有の個性があり、ひとつの方法をアンケート結果の分析に応用する場合は、手法の個性についてよく理解しておく必要があります。このページでは、そうしたデータ分析の方法の内で、代表的なものの一つであるクラスター分析について解説します。
クラスター分析のクラスターとは、英語で「房」「集団」「群れ」を意味します。クラスター分析とは、異なるものが混ざり合って出来ている一つの集合から、似た特徴を持ったいくつかの「集団」を抽出する分析方法をさします。アンケートデータ全体を大きな一つの集団とした場合に、最も大きな集団がどのような特徴をもつ下層の小さな集団から成り立っているか解析できます。
集計されたデータを、性別や年齢といった既に分かっている一定の属性によってグループ分けして分析することを「デモグラフィック分析」といいますが、クラスター分析は事前にデータ分類の基準を与えることはありません。クラスター分析は、あるデータの全体を分類する際にどのような基準で分類できるか、というポイントを明らかにしようとするためです。
分析する際に事前基準を与えずに分析を行うため、クラスター分析は「教師なしの分析」とよばれることもあります。
「クラスター分析」をアンケート分析で使うには?
クラスター分析には大きく分けて二つの種類があります。「階層クラスター分析」と「非階層クラスター分析」です。それぞれについて詳しく見ていきましょう。
階層クラスター分析
階層クラスター分析は、データ全体の内で、最も似ているデータ同士をあつめて小さな集団をつくり、そうしてできた集団同士をまとめていき、より大きな集団を作っていきます。階層クラスター分析のデータはデンドログラムと呼ばれる階層状のツリー図に出力できます。集計したデータ全体がどのような集団から成り立っているのか、それぞれの集団の関係を視覚的に分かりやすく提示できるメリットがあります。
具体例をあげてみましょう。特定の期間にある生花店を訪れた顧客の購入品についてのデータを、階層クラスター分析で解析したとしたとします。その結果、A、B、C、D、Eの5つの最小集団からなる分析結果が得られたとします。
このうち、Aはひまわりを購入する客を指し、Bはコスモスを、Cは菊を、Dは百合を、Eはガジュマルをそれぞれ指すとします。図の中で、AとBがまず結合され、上層のクラスターを構成していますが、これは「ひまわりを購入したことがある顧客」と「コスモスを購入したことがある顧客」のうち、その両方を買ったことがある顧客の数が多く、この二つの集団が、それぞれ他の集団よりも近いものであることを指します。
また、CとDも結合していますが、これも同様に、「菊を購入したことがある顧客」と「菊を購入したことがある顧客」の多くは、その両方を買ったことが多く、この二つの集団の相互の他の集団に対する近さを表しています。
AとBの集団の結合する位置がCとDの集団が結合する位置よりも下部に位置していますが、AとBの近似のほうがCとDの近似よりも大きいことを表しています。つまり、ひまわりかコスモスを購入したことがある顧客のうち、その両方を買ったことがある顧客の割合の方が、菊か百合を購入する顧客のうち、その両方を購入したことがある顧客の割合よりも多いことを意味しています。
AとBからなる集団とCとDからなる集団は、さらに上部で結合しています。大きな二つの集団からなる集団相互の距離の方が、カジュマルを購入したことがある顧客からなる集団よりも近いものであることを指しているのです。
階層クラスター分析では、データの全体がどのような集団からなり、それぞれの集団がどのような関係にあるか、ということを視覚的に分かりやすくできます。
非階層クラスター分析
階層クラスター分析には、分析結果がツリー状で出力されるため視覚的に分かりやすいというメリットがありました。ですが、階層クラスター分析には、データのボリュームが大きくなればなるほど、最下層の集団の数が大きくなり、分析結果の把握が難しくなるというデメリットがあります。データが多くなればなるほど、関係を見出していくのは難しくなるのです。
非階層クラスター分析は、事前にいくつの集団にデータを分類するかを指定することができるため、よりボリュームの大きなデータの解析に向いています。
生花店が利用客の「好きな花の種類」を調査するために、30項目のアンケート調査を行い、結果を「非階層クラスター分析」で解析したとしましょう。最終的な集合数は4個で設定したときに、以下のような結果が得られたとします。
結果、「αの種類の花は好むが、β、γ、Δの種類の花は好まない」というAグループが全体で最も多く、次は「αの種類とβの種類の花を好む」というBのグループです。「どの種類の花もとりわけ好きではない」というCのグループ・「どの種類の花もすきである」というDのグループと順番をつけられることがわかりました。
非階層クラスター分析は、比較的似ているデータ同士を一つの集合としてまとめ、比較的似ていないデータから区別する方法でデータ全体を分類していきます。解析結果がどのようなものになるかは、解析が終わってからではなければわかりません。
非階層クラスター分析は、最初に最終的な集合の数を設定する必要がありますが、設定を作るのが難しいという問題点があります。例えば、上記の生花店のアンケートの結果のうちに、「βとγの種類の花は好きだがαの種類の花は好きではない」といった回答と「αとβの種類の花の一部のみが好きだ」といった回答がそれぞれ少数だけ含まれていた場合、それらは回答結果の大部分をもとに作られた上記の四つのグループのいずれかに分類されなければなりません。この場合、四つという集団数は少なすぎたことになります。
「クラスター分析」をアンケート分析で使う上でのまとめ
以上で説明したように、事前にどのような基準でデータを分析していけばよいのかが明らかではない場合、クラスター分析は非常に有効な手段であると言えます。階層クラスター分析と非階層クラスター分析それぞれのメリットとデメリットについてまとめると、以下のようになります。
階層クラスター分析
- 向いている類対象:集計結果など
- クラスター数の決定タイミング:分析後
- メリット:デンドログラムを見ながら結合の過程を直感的に理解できる
- デメリット:項目数は多い場合、解釈が難しい
非階層クラスター分析
- 項目数:100程度以下
- よくある分類対象:サンプルなど
- クラスター数の決定タイミング:分析前
- メリット:項目数が多くても分析ができる
- デメリット:集合数を事前に決定する必要があるが、その決定が難しい
アンケートにマークシートを活用するなら、クラスター分析を取り入れることでもっと必要な情報を得ることができます。集合数を設定しなくてもできる階層クラスター分析から始めてみると良いでしょう。
マークシートの無料版ってあるの?
無料のマークシートがあるのをご存じでしょうか?企業によっては無料でマークシートを提供してくれているところもあります。
下記ページでは無料版のマークシート用紙・ソフトを取り扱っている会社を調査しました。有料版マークシート用紙・ソフトと無料版の違い、コスパの良いマークシート読み取り機(スキャナ)に関する情報などもまとめています。
無料版マークシートに興味がある方は参考にしてみてください。
記述式にも対応できる
おすすめのマークシート会社2選
スキャネット
引用元:スキャネット公式HP
(http://www.scanet.jp/)
- 集計/採点用ソフトの費用
- 無料ソフトあり※有料ソフト99,000円~
- 取り扱っている
読み取り機の種類
- スキャナ44,000円~
- 導入にかかる最低費用
- 48,180円
教育ソフトウェア
引用元:教育ソフトウェア公式HP
(http://www.kyoikusw.co.jp/)
- 集計/採点用ソフトの費用
- 107,800円~
- 取り扱っている
読み取り機の種類
- OMR※費用は要問合せ
- 導入にかかる最低費用
- 622,600円
【調査対象】
2023/5/8時点、Google検索で「マークシート 導入」と調べ、検索結果に表示された上位50社を選出。
【選定基準】
その中でマークシート、集計/採点用ソフト、読み取り機の金額が明記されている2社をピックアップ。