複数の属性を比較するための可視化


(このブログが終わりそうな)空気を読まずに投稿します。個人的にはネタ的にも、気持ちの余裕的にもブログを書かない時期が続きましたが、最近になっていくつか書きたいことはあって、どう書くか考えているところです。まぁ今回はリハビリがてらの軽いネタです。

顧客アンケートのMA設問など、複数の属性をグループ間で比較したいことが良くあります。グループの特徴を読み取ることが目的です。このための可視化をいくつか目にしたり試したりしましたが、今ひとつしっくり来ていませんでした。最近になって自分の中で一つの結論が見えたので、そのことについて書こうと思います。

説明のため、可視化の目的と前提を以下のように設定しておきます。

  • アンケートのMA設問への反応率など、複数の属性をグループ間で比較し、各グループの特徴を読み取りたい
  • 各属性は名義尺度で、並び順は重要ではない。年代の分布を比較する場合などは除く
  • 比較の基準となるデータが存在する。例えばグループ全体の平均を取るなど
  • 以下説明ではAグループ、Bグループおよび基準の3系列を可視化する方法を考える

これを踏まえて、同じデータをいろいろな方法で描き比べてみましょう。データはある程度それらしい方がイメージしやすいため数字そのものはダミーではありませんが、データの意味は重要ではないので中身は分からないようにしてあります。

棒グラフで比較

まずは何も考えずに棒グラフを描いてみます。棒グラフでぱっと見てわかるのは2系列までかなと思います。AまたはBが飛び出しているところが何ヶ所か目に入りますが、あまり特徴がないようにも見えます。
graph1

基準を折れ線に

基準の系列とAやBを区別したいという目的で、基準のみ折れ線で描くというやり方も時々目にします。基準を線で示すという意味でもよさそうなのですが、教科書的には名義尺度に折れ線は使うべきでないとされています。折れ線は点の位置と線の形(上がったり、下がったり)が重要ですが、尺度間に関連のない名義尺度において線の形は余分なだけでなく誤った情報となります。実際、基準との大小比較(縦軸方向)は点の位置とAまたはBの棒の先端とで行いますが、AとBの棒は点の位置からずれているため、棒の中心軸と折れ線が交わるところを読み取ってしまう可能性があります。
graph2

基準をマーカーのみ

折れ線のデメリットを回避するため、折れ線を描画せずマーカーを「横棒」の形にしてみたのがこちらです。これはExcelの機能の問題ですが、マーカーが小さくてあまりぱっとしません。AとBの棒全体を横切るような線分が引けると良かったのですが。
graph3

基準でソート

そもそも、グラフに一系列しかないとしても、項目の並び順に意味がない(名義尺度の)場合は定義順やラベルの50音順にグラフを描くのはあまり効果的ではありません。こういう場合はランキング形式にする、つまりいずれかの系列のデータでソートしておくと、順位や順位間の推移という情報を付加することができます。例えばランキングの上位で差がある項目のほうが、下位で差がある項目より重要ということが分かります。比較の対象である、基準のデータ系列でソートしておくのが良いでしょう。またこうしておくと、基準線を折れ線で示すことにも意味が出てきます。(傾きが急なのか、なだらかなのかなど)
graph4

系列すべてを折れ線

ソートをするとだいぶ良くなった気がしますが、折れ線と棒グラフを比較するデメリットは残っています。棒グラフも折れ線グラフにしてみたらどうなるでしょう。項目同士の点が縦にそろったので比較しやすくなりました。また系列ごとの線の形状から基準系列の並び順と順位が入れ替わっているといったことにも気づけるかも知れません。
graph5

高低線を追加

さらに、高低線が引ける場合は設定しておくと縦位置がそろっていることを強調できるのと、値の振れ幅の大きさを高低線の長さで可視化できるので有効です。
graph6

これでよいか?

ここまでで、私の中ではある程度満足しているのですが、いくつか課題がないわけではありません。

  1. 項目名が長い場合、縦書きで読みづらい
  2. 例示したデータは系列間のばらつきが小さいので注目点が分かりやすいが、まったく違う傾向同士を比較するとどこの違いに注目するか分かりにくい

1については、たとえばグラフを横倒しにする方法がありますが、見慣れないのであまり良い方法とは思えません。他人に見せる場合はまず自分でざっと違いの見られる項目をつかんでおいて、グラフ上に項目名を付記するのが良いと思います。

2についてはグラフ単体で改善する方法は思いつきません。少なくとも「ひどくばらついている」「系列同士に似たところがない」ということが分かったというところで可視化の目的は果たせたといえるかも知れません。また、1枚のグラフにこだわらずA系列基準でソートしたもの、B系列基準でソートしたものをそれぞれ描いて比較する手はあるでしょう。


This entry was posted in データビジュアライゼーション. Bookmark the permalink.