のんびり事件とこだわり事件、そして駆け抜けるという意思表明

アルゴリズム書いて試したり、データ分析をしたり、外に向けて研究発表やイベントしてみたり、目の前の現実から抜けられないこの2年ほど。今その目の前の現実が佳境だ。目の前の現実になりつつあるところが素晴らしい、のだ、本当は。ふわふわした研究をしながら粉砕された欠片の中から、しっかりとした現実がようやく見えてきた。苦しい、先の見えない、こんなことやってって何か見えるのか、っていう無駄なことやっているような、コストパフォーマンスが悪いような、報われない、よくわからない試行錯誤と努力は、いつしか、経験知という目に見えない財産を生む。

ずいぶん時間をおいての報告になってしまうが、今年の2月8日、光栄なことに、BIG DATA ANALYTICS TOKYOという六本木のアカデミーヒルズで行われたシンポジウムで講演をさせていただいた(http://www.bigdatacon.jp/ja/talk/yasuo-tanida/)。前々日の懇親会で、ブレインパッドの草野氏をはじめ様々な人とお話をさせていただいた。当日の私の講演の前に話していたのは、シリコンバレーから来たCROWDFLOWERという企業のルーカス・ビワルド氏という若々しいベンチャーの創業者だった。彼は、ビジネスチャンスを求めてだろう、日本語に自信がないといいながら日本語で話すと言い、次の講演の順番を登壇場所から待っている私の顔を見ながら、大丈夫、通じてるぅと時々ジョークのように確認しながら客席とコミュニケーションをとり続けた。私は終始笑って彼を見守った。私の話はやはり翻訳者泣かせだったようで(講演前に翻訳の確認を30分ほど行ったにもかかわらず)、関西弁が訳せないといういくつかの事例が同時翻訳を聞いている人たちには受けていたようだ。大勢の人がいてスポットライトを浴びて、私はそんな上等な人間ではないもかかわらず。あの時もあんまり名刺を持っておらず、講演後にたくさんの人が私のような人間に接触しようと来てくださったのに、申訳ない気持ちでいっぱいだった。今回の講演の中で一番面白かったといってくれた人もいた。面白いのは、私ではなくて(私も結構面白いと思うけどね)、価値観マーケティングであり、Societasなのだ、と強く感じた。

翌日、2月9日、大阪で電子情報通信学会の言語理解とコミュニケーション研究会 (NLC)の第10回テキストマイニングシンポジウム(http://www.ieice.org/~nlc/tm10p.htm)で講演をさせていただいた。前日、東京で話した時とはまったく違って、優しい大阪に包まれて話せる雰囲気はとてもよかった。前日からたった一日なのに帰ってきたなぁ、みたいな安心感があった。素直に楽しかった。高椋さんもその日そのシンポジウムで静かに研究発表をした。ここ数年積み上げてきた彼女の研究の総まとめ、総集編だった。彼女は入社してから大きく3つの研究を手掛けているが、どれも研究としては面白いし素晴らしい。そのうち最近の2つをまとめてくれた。ふっきるという意味とまたいつか、そして続けるという強い意志を持っていたと思う。必ず、いつかこの研究を3つとも生かしてやる、そう私は考えている。私は調子に乗って、IBMの那須川氏と国文学研究資料館の野本氏と共に「テキストマイニングとは何か?」のような大それたパネルディスカッションにも参加した。深い、深い、私の人生を取り巻いてきた、自然言語処理の世界やデータマイニングの歴史を紐解くようなそんな甘い痛みを伴った話をした気がする。苦労というのは、すぐには表れないけど、いろんな環境や別の苦労と積算されて、時間をおいていつか忘れたころに経験知に変わるものなんです。必ず役に立ちます。高椋さん、斎藤さん、それだけは心に刻んでおいてください。その懇親会の後、シンポジウムの受付をしていた大学生と第3ビルの地下の喫煙所で偶然会った。私は覚えていなかったのだが、彼が近寄ってきて私に話しかけてきた。会えてよかった、本当に感動したんです、と彼は話し始めた。はい、って私は意味が理解できずに煙草を吸いながら答えた。僕ね、就職が決まって4月から働くんですけど、一番入りたっかった大学ではない大学に行って、何となく学生生活やっていて、学生時代これといって面白いと思ったことも感動することもなく、また、今一番入りたかったわけでもない会社に入って、何となくこれといって面白いと思うことも感動することもなく社会人生活を送るのかな、って思っていたんです、そう彼は話始めた。あっ、彼の真剣な目を見て思い出した。私が講演を始めた時、パネルディスカッション前の終盤だったので受付を閉めた学生さんたちが、満席の講演会場の一番後ろに立って私の話を聞いていたと。その中にこのギラギラした目もあったなと。私の目をしっかりと見ながら、彼は続けた、僕ね、高校のときとかも大学の4年間も、いろんな講演とか聞く機会に恵まれて、いつも一生懸命に聞こうと思っていて、何かないかって思っていた、それは、いい話もあったけど、結局、大人の話みたいな、分からなかったんですよ、でも、今日は違った、生まれて初めてですよ、感動したではなくて感じた、そんなインパクトがありました。その若者の言葉に私の方が心が感じ、震えた。さらに彼は言葉を続け、テキストマイニングでも自然言語処理でもテキストアナリティクスでも何でもいい、やっと分かりました、自分がやらな誰がやるねんって、そう思えって、就職先はそこに目を向けてくれるかどうかもわからん会社ですけど、言い続けます、やり続けます、そしていつか俺もやってるでって言えるような人間になって谷田さんたちに対峙します、それでも折れそうになったら、その時は相談に乗ってください、って。うん、あぁ、ええよって、私は答えた。ふっきれなくて、迷っていて、彼の言葉に救われたのは私の方かも知れない。いっこでもええからやりきれよ、て思った。私は彼のその気持ちを応援する。

 

2月8日のテキストマイニングシンポジウムでの私の講演のタイトルは「価値観マーケティングの夜明け」であった。その話を聞いて感動した人もいる、夜は明けなければならない。しかしながら、価値観というものは、本当に私たちが提唱するように事実データ(行動データ)と紐づいて定量的に意味のある変数になりえるのだろうか、過去に数々の言葉を発しながら実は私の心痛のタネにもなっていた。定性的な解釈として成立するのは、これだけ多くの心理学者が研究しているのだから間違いないだろう。ただ、誰もそれを定量化できていないのも事実だ。だとすれば、眉唾の可能性もあるんじゃないかと事実データのクラスタリングによる類型抽出から心理的な変数の価値観による類型記述に舵を切った時から常にその不安は付きまとっていた。第一段階の不安払拭は、価値観と言語のモデル化。価値観枠組みが安定する直前に一番最初にやった。言語であれば定量的な計算結果を証明できなくても定性的な解釈が比較的容易だ。そこで、価値観枠組みや検証方法は粗々ではあるものの、そこで想定通りの結果を得ることができた、もう4年以上前のことだ。それから、事実データとの関連性という価値観研究をいったんハンドアウトしてしまい、悶々とした日々を送っていた。昨年末に転機が訪れ、私はまたそこに戻っている。Societasという価値観を記述する枠組み検証の最前線だ。自分がやらな誰がやるねん、言い出しっぺは自分やろ、って思ったからだ。次に彼に会うとき、俺もやってるでっていいたいしな。

 

そんなこんなで、昨年末からの研究企画チームは、イベントも多々あったけれども、主に価値観枠組みの検証のためのアルゴリズム開発をしようとしている。その前にアンケートがあったとして正確に価値観変数が決められる、ということすらできていなくて、その推定手法、細かい評価手法、内部検証とか多種多様な実験があって天手古舞の状態だ。

そんな中、4月5日(水)の午後、「のんびり」事件が勃発した。「c-のんびり」というネーミングの性格を表す価値観変数の評価がいつのまにか忘れられていたのだ。4月になってから疲れが溜まっていて、私は疲労感でイライラし始めていて、チームにも疲労感があった気がする。その日、それに気が付いた私。あぁ、って思った。急に積もっていた怒りとか疲労感とかが静まるのを覚えた。飛び火先はしれている。それより、自分のこのイライラ感を鎮めるほうが先だろうって。悲しいことに気が付いてしまいました、のメールをチームに打って、淡々と作業をつぶした。そういえば、高椋さんが大量のデータを正規化して新しい主成分を取った時に、そのネーミングを見てなんと間の抜けたネーミングなんだろうって思って、これってどうなん、って笑った記憶は確かにある。しかし、いつの間にか忘れ去られていて、それに誰も気が付かないなんて、何てのんびりした野郎なんだ、お前は。

4月6日(木)に、自分のイライラ感から少し内部揉めがあったけど、午後になってようやく「のんびり」事件の自体が収集に向かいつつあった時、煙草を吸いに行って戻ってきたら、高椋さんが、ちょっといいですか、すみません、気が付いてしまったんですが、といい始めて。今度はなぁに、私は笑ってしまった。購買行動の代わりに疑似的に時系列をとってフレーム化しようとおもっていた定点調査の「こだわり商品」の設問の聞き方が最初の2回分がシングルアンサー、つまり一番こだわる商品を聞いていたのを思い出したのだ。それ以降はマルチブルアンサー、つまりこだわる商品を複数個答えているから設問自体の意味が全然違うことになる。そうだった、そうだったことは知っていたのに忘れていた。重なりばかり気にしていて抜けていた。今度はそっちかー、そう思いながら、なんだか楽しくなってきた。こういうのが、データマーケティングにはつきものだから。私は、この2日間に起ったこの事件を「のんびり事件」「こだわり事件」と名付けることにした。

同じ日、人事の深田さんと話をしていると、さっき話した人とは別の学生さんのようだが、言語処理学会のスポンサーブースで私か高椋さんのどちらかと話して、テキストマイニングシンポジウムにも参加されて、今シナジーの扉を叩いてくれようとしている方がいるそうだ。その話を聞いて、少しほっこりした。コツコツマメにやってることも間接的にだけどちゃんと効果が出ていると。

 

最近、こんがらがるくらい、高椋さん、斎藤さんに仕事を振り始めている。私も若干、パンク気味ではある。前の壁は、正解データの書き換え手法のアルゴリズムを思いついたのと、コロコロ軌道修正しても、お二人がそれぞれの役割で検証結果、データ資料をアウトプットしてくれたのが、が大きな成功原因だ。今日、次の壁の一つ目のアルゴリズムの一部の技術に、クラスタ数を指定しない(よくある例でいうと、k-meansのエルボー・シルエットとか主成分分析・因子分析の際の固有値・対角SMC・MAPとかで別軸で解釈を付けて処理するとか、そもそも指定しなくてよいAffinity Propagationとか)、定性的解釈にも優れた(人が全体を見てもこう分けるだろうってやつ、k-means的、主成分分析的な発想だとそうは分かれない)、高速かつ柔軟かつ頑健でシンプルなクラスタリングアルゴリズム、というのがあった。昨日からリサーチしていて、これはダメ、あれもダメという状態が続いていたが、いいとこ取りを考えるうちに不意に思いついてしまった。なんでこんな単純なこと気が付かなかったんだろうって。また、そのうちどっかで共有します。

目の前の仕事のボリュームも壁も相当だけど、知的な部分が最低限何とかなりそうな発想はできました。明日から手を動かします。

 

さぁ、高い壁、ひとっ跳びに飛び越えて駆け抜けるぞ。

この壁に爆弾は要らんわ。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です