米国の良心

残念ながら、ノーベル言語学賞と言うのはないらしい。ノーム・チョムスキー。言語学の歴史の中では革命児であり、最も大きな存在なのだが、表題の言葉でピンと来るぐらい、どちらかと言うとアメリカおろしの過激な発言で知られる男である。彼に言わせると、人間は生まれながらにして生成文法を持っているそうだ。「文法は、文を弱生成し、構造記述を強生成する」~何のことかさっぱりわからないが、噛み砕いて言えば、学校で習ったような文法なんか重要ではない、句構造規則を記述することこそが重要なのだ、と言うことなのだろう。前者は表層を規定し、後者は文構造を規定する。私自身も変形生成文法の説明に現れる木を美しいと思って手でなぞった時期もある。人工知能的なアプローチとの融合で、自動翻訳システムの試作を試みていた時期もある。言ってみれば、世の中の流行だった。時代を追いかけたのである。当然のことながら、そんな試みがうまくいくはずもなく、次第に彼の名前は、この世界では薄れて行った。そんな中で、徐々に台頭してきたのが、隠れマルコフモデルに代表される、統計的確率的アプローチである。やはり、そこにも嵌った。統計確率しかないだろう、と断言した時期もあった。しかし、私は断言したことをすぐに撤回する名人である。今になって思うと、結局流行を追っかけたのではないかと。最近、また、テキストマイニング技術が必要になることが多くて、採用しているのはやはり統計的確率的なアプローチなのだが、それにも限界を感じる。

どんなアプローチをすれば人間らしい対話を獲得できるのか、その道は近そうで遠い。言語学なのか、確率なのか、そんなものは実現さえできればどっちでもいいが、人間は話すとき殆ど無意識である。知識を自動的に獲得するのは、無意識を表現するのに妥当な方法なのだろう。

話は逸れるが、古い言語学者にグリムと言う人がいる。グリム童話のグリムである。また、絵画や小説の世界にも、カットアップやフォールドインと言う技法があって、これらは、機械的な方法で、意外で新鮮なフレーズや印象を生み出そうと言う試みである。小説家では、バタイユやバロウズが愛用した方法でもある。自然言語を何らかの方法で論理的に説明したり、機械的に利用したりしようとすることは、何も頭の固い学者だけの特権ではない。芸術やそれに伴って生まれる付加価値ともしっかりリンクしている。

私は、行動予測能力を持った、感じのいいキャラを作りたいと思っている。自然に話せて、楽しくて、想像力に溢れていて、また仕事をお願いしたくなる、社長やマネージャなら社員として雇いたくなるようなキャラだ。そんなキャラを少しでも早く世の中に送り出すことが我々の使命なのだ。

ぶれないpart2

随分昔の話になる。25年も前のことだ。当時、某研究所勤務から一時的に戻された私は、ある組合の情報システムのコンサルティング業務を任され、当時はそれなりに有名だったコンサルティングファームの壮年コンサルタントと仕事をすることになった。年は私とふたまわり以上も違うし、そもそものポテンシャルも高そうだ。私は彼から吸収できることを全部学んでやろうと考えていた。その彼は、ことあるごとに「あるべき姿」と言う言葉を使った。あんまり乱用するので、最初は耳につかなかった言葉がだんだん耳につき始めた。だいたい「あるべき姿」って何なんだろう?そんなもの本当にあんのか?と考え始めた。

組合の委員長は、すごい甘党だった。副委員長はすごい辛党で酒飲みだった。昼は、委員長のケーキ屋のハシゴに付き合い、夜は副委員長の居酒屋のハシゴに付き合った。それが私の仕事の殆どだった。壮年コンサルタントも時々ケーキ屋のハシゴには付き合ったが、居酒屋にはいかなかった。酒を飲まなかったからではない。そう言う仕事のスタイルだったのだ。たぶん、いつもストイックに「あるべき姿」を探しているんだろう、と私は思った。

二人に付き合っていて、あることに気付いた。ケーキ屋に付き合った部下は、誰も本当のことを言わなかった。居酒屋に付き合った部下は、本当のことを言った。委員長の考え方はトップダウンで、副委員長の考え方はボトムアップだった。当然、仲が悪い。委員長のアイデアはとても合理的だった。副委員長のアイデアは、一見、発散気味の何かまとまりのない考え方だった。壮年コンサルタントのアイデアは、委員長のアイデアに近いものだった。このままだと失敗するな、と思った。壮年コンサルタントの「あるべき姿」は単なる政策論的なアイデアに過ぎないと感じたからだ。

私は、委員長を傷つけないように気を付けながら、正直に現状を報告し、現場はあほじゃない、副委員長のアイデアは現場の声をまとめ切れずにいるからだけで、これをうまくまとめるのが委員長の仕事だと訴えた。そう、現場は、自己の利益を最大化するように行動しているのです・・・全体最適化されていないだけで、知の集結、それが、今ある姿なのです・・・結果的に、私はこの仕事から降ろされた^-^;若いと言うことは、多くの失敗をするものだ。

気になりだすと、ずっと考えてしまう性質なので、本当に「あるべき姿」なんかあるのか、某研究所勤務に戻った後も頭の隅っこでずっと考えていた。あるような気もするし、ないような気もする。結論はなかなか出なかった。

その答えがようやく結論に近づいたのは、ある相場師の弟子になった時だった。高い、安いで論理的に考えるな、安く買ったものを高く売ると言う考えを捨てろ、すべては強いと弱いしかない、強いものにつけ、目の前にある現実のみを信じろ、と教えられた。要するに、相場には「あるべき価格」など存在しないと言うことだ。「あるべき価格」を創出するには、政策的に行うしかない。「姿」を「価格」に置き換えた瞬間、私の中で何かがはじけた。

もうひとつある。不動産鑑定理論の中の鑑定評価値として求める価格が、「あるべき価格」なのか、「ある価格」なのか、長いこと論争が繰り広げられた。不動産は一般的に流通性や代替性に乏しく株や債券などの相場を持たないなどの特性から、求めるのは「あるべき価格」なのではないかと言われてきた。しかしながら、長い間の論争の結果、鑑定評価値として求める価格は「ある価格」であると言うことで、決着がついた。不動産ですら、「あるべき価格」なんかないのである。

ようやく、私の中での長い心の論争にも決着がついた。すっきりしたのは、ほんの数年前のことだ。「あるべき姿」なんかない。「ある姿」を求めるべきなのだ。絶対とは言いきれないが、おそらく、この考えは今後もぶれないだろう。今でも、「あるべき姿」を口にするコンサルタントとは肌が合わない。

Bag Translation

Bag Translation

と言うのをご存じだろうか?最近は耳にしないが、言語モデルにN-gramモデルを採用した場合、そのモデルの頑健性を測定するための指標として用いたりする。Bagとは、文字通り袋のことで、ある文章の形態素解析結果(単語)を袋の中に入れてシャッフルする、そしてN-gramモデルを使って並べ替えてみる・・・はたして同じ順序に並べ替えることができるだろうか?この並び替えの成功率が高ければ、そのN-gramモデルは頑健であるとも言える。

「Nグラムモデルによる、日本語単語の並べ替え実験」(丸山、1994)と言う論文を読むと、「日本語では英語に比べてN-gramがうまく働かない」と言うのがやってみる動機だったようだ。確かに、日本語の場合、語順と言うのにあまり制約はないし、そんな気もする。しかしながら、その予想は見事に覆される。私も、当時いくつかの日英対訳コーパスを使ってやってみた。結果は、「日本語は英語よりN-gramモデルがよく働く」だった。

N-gramモデルで解けるのは、出てくる順序による制約だけで、意味的な内容までは解けない。テキストマイニングの世界は、N-gramだけではなく、多くの統計的、確率的なアプローチが可能になったことで現実に向かって大きく前進し、実用的な商品が続々と登場している。しかしながら、自然言語をなめてはいけない、今ある技術の組み合わせ方法や課題に適合する解決方法を見出すだけでも容易ではないし、まだまだ手つかずの部分も多く残されている。こんなことがしたい、あんなことがしたいの、こんなことやあんなことは、結局one-to-oneでしか解決できなかったりする。どこまで行っても、美しく理路整然とした理屈だけで解けるものでは実用化できないと言うことなのだ。最後は、何だか力仕事と言うか、泥臭い部分が残るのが悲しい現実だ。

でも、やはり自然言語は美しい。人間にとっては、最高のコミュニケーション手段なのだろう。そう思うのは私だけではない。私よりもっと賢明で実行力に富んだ人たちがたくさんいる限り、どこからみても人間としか思えない人工のキャラクタとの会話を楽しめる日が遠からずやって来るはずだ。