言語処理学会第19回年次大会(NLP2013)に行って来ました


nlp2013-kubo-min

久保です。

先日名古屋で行われた言語処理学会第19回年次大会(NLP2013)に行って来ました。
今回私は3/13の本会議の聴講のみです。
なお弊社のメンバーは3/14にポスター発表していますので、是非こちらも読んでください!

いくつ印象に残ったセッションの感想を書きたいと思います。
nlp2013のプログラムや論文PDFはこちらから確認できます

B1-1 カテゴリ情報を利用したblog記事からの商品名自動抽出

商品の非構造テキスト情報から、構造化された商品情報(ここでは特にECで使うような商品名、価格など)を抽出するというタスクでした。
レビューサイトの情報だとある程度構造化されているが、個別にBlogに書かれた商品レビューのような情報は構造化されていない、それを活かそうという動機があるようです。
擬似教師データを自動生成する仮説・手法(「我々は日常で何か商品のことを話題とするとき,具体的な商品名のかわりにカテゴリ名を使用することが多い」という仮説)が他にも応用できそうと感じました。

B1-2 商品説明文からの属性・属性値の自動抽出

B1-1と似ていて、非構造データである商品説明文から構造化された商品情報の自動抽出を試みるものです。
こちらはEC企業の研究者の方の発表で、実際ECサイトにおいて商品テキストから自動的に商品属性を付けられればかなり業務が楽になる(商品登録の際に、ショップの方が間違ったカテゴリに商品登録されることが多いため)というビジネスニーズが見えているため、非常に動機や背景に納得感がありました。

B1-3 文字種と画数を用いた未知若者語の抽出

TwitterやFacebook、LINEなどを使っている若者の言葉が取れない、若者語が上手く取れないことが情報取得の妨げになっているが、若者語はどんどん増えて辞書メンテも大変、なんとか自動的に若者語を取れないか?という非常に目的がわかりやすい発表でした。
ただ発表の中で若者語の例として出てきた単語が私は殆ど分からず、年齢を感じました。。
手法としてはWebから収集し人手で集めた若者語コーパスと,語感データベースを利用し、1文字ずつに対して若者語かそうでないかのラベルを付与して学習データを作成しています。
文字種や画数などに若者語の特徴が出る、という仮説は面白いものだと思いましたが、単語単位ではなく1文字単位で若者語かどうかを決める、というのは直感的には違和感を覚えるものでした。

B2-3 ファクトイド型質問応答を用いた正誤判定問題の解決

ファクトイド型質問応答というのは、回答が人名や地名、値段、日時、距離などの短い言葉になる質問応答で、例えば「はじめてxxしたのは誰ですか?」というような質問です。
より高度な質問応答として、「なぜ◯◯はxxなんですか?」や「一番効果的なxxを教えて下さい」という形のノンファクトイド型質問応答があります。
(自然言語処理シリーズ2 質問応答システムより)

この論文は、与えられた事実文が正しいかどうかの正誤判定タスクを、ファクトイド型質問応答のタスクに帰着させて解いてみるという試みです。
もう少し具体的には、センター試験の選択肢問題で出てくるような「Chirac was the president of France in 2000.」(センター試験なので実際は日本語ですが、この論文では基本的に英語に置き換えています)というような文がある場合に、文中の「France」の部分を「This Country」に変えた文章を手で作り、それをファクトイド型質問応答のタスクとしてあのWatsonに解かせてしまう、ということです。
Watsonを使うのはもちろんIBMの方ならではですが、あるタスクを別のタスクに上手く帰着させて解くという発想は重要だなあと感じました。

全体の感想

今回色々なセッションを聴講して思ったのは、
研究の目的と背景が面白いものや、研究実現したときの効果が大きいものであれば、個別の手法や現状の精度にかかわらず面白い!という当たり前の(?)ことでした。
細かい手法や精度の話になると(企業的な視点からは)途端に面白くなくなることが多く、これは自分自身も含め気をつけないと、と感じました。

イベント全体としては500人以上の参加登録ということで、質疑応答も含めて活気がありました。
会場には言語処理関係の著名な方が沢山いらっしゃったのだと思いますが、門外漢の私はよく考えたら殆どどなたの顔も分からず、今回は本当に聞いただけで終わってしまったのが心残りです。
次回は発表側で参加できるように頑張ります。


This entry was posted in その他 and tagged , , . Bookmark the permalink.