研究成果のクラウドサービスへの還元(iNSIGHTBOX編)


お久しぶりです。 増田です。 研究開発グループでは日々様々な研究を行っています。 消費者行動予測、ニューロマーケティング、SNS分析、UX、画像、音声、テキストマイニングなどなど。 そこで得られたノウハウを、幸せな情報社会の実現に向けた活動の一つとして、iNSIGHTBOX(インサイトボックス)の開発に活かしています。 今回は、今までLAB BLOGで語られることのなかったiNSIGHTBOXという製品と、それにまつわる研究開発についてご紹介したいと思います。

iNSIGHTBOXとは

iNSIGHTBOXとは、一言で言うと顧客に関する行動履歴データをアップロードするだけで、次のような施策に直結するアウトプットが簡単にすぐに取り出せるクラウド型社会知データベースです。 pic_02

iNSIGHTBOXは、一般的なセグメンテーションで使われる、性別や年齢などのデモグラフィック情報を使った分析ではありません。そのかわり、商品説明文+購買情報やメールとそのクリックデータから分析を行っています。 個人と行動履歴をひもづける何らかのユニークなIDさえあれば分析が行えます。個人情報をアップロードする必要はありません 例えば、あるペットボトル飲料をiNSIGHTBOXで分析するとしましょう。 まずはじめに、飲料の商品説明文をiNSIGHTBOXに取り込みます。 その説明文から「のどの渇き/コンビニ/自販機/さわやかさ/甘み/……」などのワードを抽出し、どの要素が重視されて購入に至ったかを分析します。 次にこの飲料に対する行動履歴データ(メールクリックや、購買情報)を取り込むことで、顧客一人一人がどのキーワードに関心を示したのかという情報が蓄積されていきます。 これらの情報を作成する部分、分析を行う部分でテキストマイニングの技術が利用されています。

テキストマイニングとは

テキストマイニング(text mining)とは、テキストを対象としたデータマイニングのことです。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法です。 前述の商品説明文からキーワードを抽出した例のように、文章を単語や文節で区切る部分の事を、形態素解析といいます。日本語の形態素解析ツールは、いくつもの選択肢があるのですが、iNSIGHTBOXではGoogle、Amazon、楽天などの大手企業への導入実績があるという信頼性と、多言語対応している点でBasis TechnologyRosette® 日本語形態素解析システム という製品を選びました。 研究開発グループでは、形態素解析をWebサービスとして研究や、他の案件でも利用できるように形態素解析サーバを作りました。 iNSIGHTBOXはもちろん、最近ではWebアクセス履歴から人の価値観を推定する研究[1]のため、木虎、久保が形態素解析サーバを使って、ものすごい勢いでWebページの形態素解析を行っていました。 また、1箇所に集中しているので後述の辞書のメンテナンスが1箇所でできるというメリットもあります。

単語抽出の難しさ

形態素解析は、文章から単語を取り出すことが出来るのですが、必ずぶち当たる壁があります。それは.... 思ったとおりに単語が抽出できない。。。 一般的な形態素解析は、単語を収めた辞書を用いておこなわれます。解析対象の文中の辞書に含まれない単語が出てくると、欲しいキーワードが取れなかったり、意図しない場所で単語が分割されてしまいます。 以下に例を示します。

  • 富士山 -> 富士 / 山
  • メガボリュームマスカラ -> メガ / ボリューム / マスカラ ※ / は単語の区切りを表しています.

また、口コミやレビューデータを分析する場合、いわゆる口語(話し言葉)がネックとなります。 まず、新しいキーワードは辞書に登録されていないので、分割時にそぎ落とされてしまいます。 また、顔文字データは記号ごとに分解されてしまいます。しかし、これらの情報こそ口コミとして有益な情報が含まれています。 当社の先行研究として、マイクロブログの投稿から発話者の性格を分析を行う[2]研究を行いました。そこでは、人の性格によって以下の言葉や顔文字を投稿する傾向が見えており、目的やシーンにあわせた辞書メンテナンスが課題となっております。

  • 協調性がある人 -> 「(^ - ^)、ありがとう」
  • マイペースな人 -> 「www、Ω、やばい、めんどい、萌え」
  • デリケートな人 -> 「><、きゃー、ぎゃー」

iNSIGHTBOXでも、上記のような顔文字や、トレンディーなキーワード、なんらかの理由でうまく分割できなかった単語をログから洗い出し登録するといった終わりなき辞書メンテナンスを行っています。

研究と開発。それが研究開発グループ

簡単ではありましたが、iNSIGHTBOXの概要と、その中で使われている技術ということでテキストマイニングについて説明いたしました。 私たちは研究のための研究ではなく、幸せな情報社会の実現という目的を持ってiNSIGHTBOXの開発を行なっています。 グループの立ち上げから、1年半。 着実に研究開発の成果が出始めています。 これからの研究成果および、iNSIGHTBOXにご期待ください!

参考文献

[1] 木虎 直樹 久保 征人(2013) Web アクセス履歴に基づくユーザの価値観の類推
[2] 谷田泰郎 馬場彩子 河本裕輔 藤井絵美子(2013) 価値観モデルを利用したマイクロブログ発言者の社会的類型の推定

Daily variety


About 増田 茂樹

Ruby, Scala, JavaScript, アジャイル開発, Herokuがお好きなプログラマー。
This entry was posted in 技術, 自然言語処理. Bookmark the permalink.