Bag Translation

Bag Translation

と言うのをご存じだろうか?最近は耳にしないが、言語モデルにN-gramモデルを採用した場合、そのモデルの頑健性を測定するための指標として用いたりする。Bagとは、文字通り袋のことで、ある文章の形態素解析結果(単語)を袋の中に入れてシャッフルする、そしてN-gramモデルを使って並べ替えてみる・・・はたして同じ順序に並べ替えることができるだろうか?この並び替えの成功率が高ければ、そのN-gramモデルは頑健であるとも言える。

「Nグラムモデルによる、日本語単語の並べ替え実験」(丸山、1994)と言う論文を読むと、「日本語では英語に比べてN-gramがうまく働かない」と言うのがやってみる動機だったようだ。確かに、日本語の場合、語順と言うのにあまり制約はないし、そんな気もする。しかしながら、その予想は見事に覆される。私も、当時いくつかの日英対訳コーパスを使ってやってみた。結果は、「日本語は英語よりN-gramモデルがよく働く」だった。

N-gramモデルで解けるのは、出てくる順序による制約だけで、意味的な内容までは解けない。テキストマイニングの世界は、N-gramだけではなく、多くの統計的、確率的なアプローチが可能になったことで現実に向かって大きく前進し、実用的な商品が続々と登場している。しかしながら、自然言語をなめてはいけない、今ある技術の組み合わせ方法や課題に適合する解決方法を見出すだけでも容易ではないし、まだまだ手つかずの部分も多く残されている。こんなことがしたい、あんなことがしたいの、こんなことやあんなことは、結局one-to-oneでしか解決できなかったりする。どこまで行っても、美しく理路整然とした理屈だけで解けるものでは実用化できないと言うことなのだ。最後は、何だか力仕事と言うか、泥臭い部分が残るのが悲しい現実だ。

でも、やはり自然言語は美しい。人間にとっては、最高のコミュニケーション手段なのだろう。そう思うのは私だけではない。私よりもっと賢明で実行力に富んだ人たちがたくさんいる限り、どこからみても人間としか思えない人工のキャラクタとの会話を楽しめる日が遠からずやって来るはずだ。

時代を語るな、想像力を語れ

時代を語るな、想像力を語れ、

と大江健三郎氏は言った。私自身、優柔不断で言っていることはコロコロ変わる。昨日、一昨日はおろか、ついさっき断言したことでさえ、すぐに翻す。そんな性格の私にとって、数少ない、ぶれない部分がこの言葉に集約されている。

創造と想像。発音は同じであるが、漢字に表現することで全く意味が違ってくる。創造とは、神の仕事である、と私は思っている。本当の意味での創造とは、私のような凡人には成しえない仕事なのだ。

では、世間一般に言われているクリエィティブな仕事とは、いったい何なのだろう?責任を放棄したい若者は、もっとクリエィティブな仕事がしたいと不満を漏らす。彼らは何をもってクリエィティブな仕事だと思っているのだろうか?流行を追うこととクリエィティブを勘違いしている人もいる。知的な仕事や芸術的な仕事をクリエィティブだと思っている人もいる。見出しに採用した言葉の通り、前者は問題外だ。流行は追えば逃げる。追うものではなく、自ら仕掛けるものなのだ。仕掛けて待っていれば、必ずやって来る。仕掛けるためには、想像力がいる。あらゆる想像を客観的に評価して行く必要がある。想像の積み重ねが、仕掛けを生む。後者の考え方の人はまだましかも知れないが、知的だ、芸術だ、と何となく思っている行動は、流行の仕掛けを作るのと同様に、単なる想像力の集合としてとらえることもできる。とすれば、一般的に使われている創造と言う言葉は、訓練された想像の集合なのかも知れない。

何か、企画を考える時、計画を立てる時、時代を語っているだけじゃないか、ちゃんと想像力を働かしているか、と問いかけてみる。レポートを書くときも同じだ。常に想像力を働かせ、ストーリーを作り上げる必要がある。

言うのは簡単だが、実行するのは難しい。なぜなら、意識し、問いかけて評価するしかないからだ。しかし、積み重ねが訓練になる。また、やっていて苦痛はないどころか楽しい。そうやって意識づけしておくことで、ある日突然いい考えが頭に浮かんでくることがある。だったら、やならいより、やった方がましだ。そう信じて生きてきた。

今、3年後に研究開発グループは何を成し遂げているのか、を想像中である。ポッと湧いては消える、ポッと湧いては消える、の繰り返しである。何となく、もやっとした霧の中に自分が立っている気がする。それでも、常に想像し、問いかける、時代を語るんじゃねぇよ、と。いつか、陽が差し、光の筋が見えて、この霧も晴れるだろう、このメンバーなら、そう信じて、私は想像し続ける。