TwitterからのSocietas推定: 言語的成分の面白さ


我々は、価値観に基づいた人のモデル化を行い、Societasというマーケティング担当者にとって新たなインサイトを提供できるモデルを構築いたしました。また、この新しい価値観モデルをさらに人の発言と結び付けることにより、人の心を「読む」方法を探索しております。そこで、Twitterから人の価値観を推定することを試み、Twitter-Societasモデルを提案いたしました。

ところが、Twitter上の発言には、自然言語処理に不利な特徴がいくつかあります。
・構文解析しにくい(文ではなく、単語の羅列)つぶやきが多いこと
・顔文字が多いこと
・リンクやリプライ対象(“@”にTwitterアカウント)発言以外の要素も含まれていること
・Botと呼ばれる機械による自動発言システムの判定が難しいこと

我々は、顔文字や情緒キーワード(「!!!!」など)を取り組むように工夫しており、言語的成分という概念を提唱いたします。
言語的成分とは、価値観を反映できるキーワードおよびキーワードの価値観を反映する度合い(符号がある係数)のことを指します。この言語的成分は、弊社が提案したTwitterデータとSocietasモデルの紐づけであり、Twitterデータに多く存在している顔文字や情緒キーワードへの柔軟対応が特徴です。言語的成分のキーワードの取得は、APIにより取得したTwitterデータの形態素解析結果を、語彙の使用者数情報やSocietasの価値観成分などの要素と結び付けて行いました。そのため、各Societasの価値観ごとに該当価値観に関連するキーワードが集まっています。Twitter-Societasモデルは、各価値観に対して上位30語までのキーワードに注目しております。例えば、好奇心の旺盛さを表す価値観成分に対して、「研究」・「疑問」や「真実」などのキーワードがあります。もっと面白いのは、協調性を表現する価値観成分に対応するキーワード群においては、「ありがと」のような感謝のキーワード以外、「(^-^)」のような顔文字も列挙できます。また、人の繊細さを反映する価値観成分に対して、「!!!!」のような情緒的なキーワードがあります。
graph
キーワードを取得後に、統計手法を用いて各Societasの価値観とそれに対応するキーワードの関連性を計算しました。

Twitter-Scoeitasモデルでは、上述の言語的成分を利用して、弊社が構築したSocietasモデルを拡張しました。Twitter-Scoeitasモデルの詳細については、
・谷田泰郎, 馬場彩子,河本裕輔,藤井絵美子(2013).価値観モデルを利用したマイクロブログ発言者の社会的類型の推定.言語処理学会第19回年次大会(NLP2013)
・谷田泰郎, 河本裕輔,馬場彩子(2013).マイクロブログにおける潜在的価値観の推定.2013年度人工知能学会全国大会(第27回)JSAI2013
をご参照頂ければと思います。

上述のように、言語的成分を考慮したTwitter-Societasモデルは、顔文字や情緒キーワードへの対応は可能です。また、
・各価値観のキーワード群に存在しない語彙への対応
・Twitterデータのクリーニングの精度向上
という2つの課題が解決できれば、より面白いデータの取得ができると考えております。


This entry was posted in ソーシャルメディア, データマイニング, 自然言語処理. Bookmark the permalink.