【言語処理学会】Wikipediaを用いた語義曖昧性解消のための辞書の自動構築


こんにちは。胡です。
言語処理学会第20回年次大会@北海道に行ってまいりました。
今回、弊社はゴールドスポンサーとして登場しました!
それとは別に、本会議の初日に「Wikipediaを用いた語義曖昧性解消のための辞書の自動構築」というタイトルで、ポスター発表をしてきました。
本記事では、上述のポスター発表の内容についてご紹介いたします。

nlp2014_1      nlp2014_2
言語処理学会第20回年次大会                                    ポスター発表

1. 研究背景と研究目的

声優の田中さん?体操選手の田中さん?私は、アニメ好きで声優の田中理恵さんを元々知っていましたが、最近は元体操選手の田中理恵さんの話題もよく耳にしていました。
では、ツイート「劇場版ストライクウィッチーズの田中理恵と植田佳奈のサイン入り台本、まあ普通に売らないけど仮に売ったらいくらになるんだろ」の田中理恵さんは、どの田中理恵さんでしょうか。
研究目的。パソコンに人間の発話を理解させるためには、上述のような 同姓同名の人物の特定 や 複数の意味を持つ単語の意味特定(語義曖昧性解消) をする必要があります。今回の言語処理学会年次大会では、Wikipediaを用いた語義曖昧性解消のための辞書の構築方法についてポスター発表を致しました。

2. 何故Wikipedia

・業務上、ツイートデータの処理が多く、略語(ほとんど新語・造語)により生じた曖昧性に悩まされています。
・Wikipediaは、ウェブ上のフリーな百科事典であり、新語・造語への対応に優れています。
・Wikipediaには、カテゴリ「曖昧さ回避」のような、記事名の曖昧さを回避するための仕組みがあります。

3. 語義曖昧性解消のための辞書の構築

◆Wikipediaの記事「田中理恵」の内容の一部は以下となります。

 田中理恵(たなかりえ)
 ・田中理恵(声優) - 日本声優
 ・田中理恵(体操選手) - 日本の体操選手

◆上記のデータから、「田中理恵」について「田中理恵(声優)」と「田中理恵(体操選手)」という2語義が抽出できます。
◆これらの語義は、さらにこの語義に対する解釈の記事へ飛べます。語義「田中理恵(声優)」と「田中理恵(体操選手)」をクリックして頂ければお分かりになると思います。
◆このような情報を数多く集めて、最終的に以下のような語義曖昧性解消のための辞書が構築できます。

単語 語義
田中理恵 田中理恵(声優)
田中理恵 田中理恵(体操選手)
田中理恵 田中理恵 (ピアニスト)
NLP 自然言語処理 (Natural Language Processing) の略称。
NLP 神経言語プログラミング (Neuro-Linguistic Programming) の略称。
... ...

※ただし,語義に対応する記事が存在しない場合もあります.

4. 語義曖昧性解消(簡単なアプローチ)

例えば、1節に述べていた

  ツイート「劇場版ストライクウィッチーズの田中理恵と植田佳奈のサイン入り台本、まあ普通に売らないけど仮に売ったらいくらになるんだろ」

 においては、少なくとも「ストライクウィッチーズ」と「劇場版」の2語が記事「田中理恵(声優)」に存在している一方、ツイートにあるすべての単語(助詞などを除く)は記事「田中理恵(体操選手)」と重なる部分がないため、このツイートの「田中理恵」は声優の田中理恵さんと判断できます。

5. おわりに

本研究で抽出した辞書の特徴(+)と限界(-)
+語義曖昧性解消のためのデータを効率よく抽出することができます。
+ツイートデータなどの新語・造語が多いテキストデータに有効です。
-抽象度が高い名詞(例えば、「ネタ」)と動詞の語義曖昧性解消には向いていません。

以上をふまえて、これからは構築した辞書に対して、
・4節の手法の拡張
・ほかの辞書資源との統合
により語義曖昧性性能を向上させる方法を検討したいと思います。

6. おまけ:ポスター会場の雰囲気

今回は、去年のポスター発表よりもたくさんのご意見やコメントを頂きました。
特に評価の面において、単純なる語義曖昧性を解消したというよりは、
そもそもこの問題(語義曖昧性解消)の難易度がどれくらいあるかを評価しないといけないことがわかりました。

また、もっとも嬉しかったのは、やはり「ぜひシステム化してください」や「使えそう」のようなコメントを頂いたことです。
これは、研究開発の一員である私の能力への肯定だと思います。

最後ながら、本研究についてご意見とコメントを頂きました方々、本記事を見ていただくみなさまに改めてお礼を申し上げます。


This entry was posted in その他, イベント, 技術, 自然言語処理(NLP). Bookmark the permalink.