Bag Translation


Bag Translation

と言うのをご存じだろうか?最近は耳にしないが、言語モデルにN-gramモデルを採用した場合、そのモデルの頑健性を測定するための指標として用いたりする。Bagとは、文字通り袋のことで、ある文章の形態素解析結果(単語)を袋の中に入れてシャッフルする、そしてN-gramモデルを使って並べ替えてみる・・・はたして同じ順序に並べ替えることができるだろうか?この並び替えの成功率が高ければ、そのN-gramモデルは頑健であるとも言える。

「Nグラムモデルによる、日本語単語の並べ替え実験」(丸山、1994)と言う論文を読むと、「日本語では英語に比べてN-gramがうまく働かない」と言うのがやってみる動機だったようだ。確かに、日本語の場合、語順と言うのにあまり制約はないし、そんな気もする。しかしながら、その予想は見事に覆される。私も、当時いくつかの日英対訳コーパスを使ってやってみた。結果は、「日本語は英語よりN-gramモデルがよく働く」だった。

N-gramモデルで解けるのは、出てくる順序による制約だけで、意味的な内容までは解けない。テキストマイニングの世界は、N-gramだけではなく、多くの統計的、確率的なアプローチが可能になったことで現実に向かって大きく前進し、実用的な商品が続々と登場している。しかしながら、自然言語をなめてはいけない、今ある技術の組み合わせ方法や課題に適合する解決方法を見出すだけでも容易ではないし、まだまだ手つかずの部分も多く残されている。こんなことがしたい、あんなことがしたいの、こんなことやあんなことは、結局one-to-oneでしか解決できなかったりする。どこまで行っても、美しく理路整然とした理屈だけで解けるものでは実用化できないと言うことなのだ。最後は、何だか力仕事と言うか、泥臭い部分が残るのが悲しい現実だ。

でも、やはり自然言語は美しい。人間にとっては、最高のコミュニケーション手段なのだろう。そう思うのは私だけではない。私よりもっと賢明で実行力に富んだ人たちがたくさんいる限り、どこからみても人間としか思えない人工のキャラクタとの会話を楽しめる日が遠からずやって来るはずだ。


This entry was posted in その他. Bookmark the permalink.