行動計量学会 春の合宿セミナー ~1日目~


寒くてそぼ降る雨の中、2015年3月7・8日東大駒場キャンパスにて「行動計量学会 春の合宿セミナー」が開催されました。
非常に勉強になりました。少しでもみなさんに還元したいので、つたない感想ですが、書き記します。
3月7日(土)

【基調講演】行動計量学と統計的機械学習:-Deep Learning による深層表現学習を中心に-
麻生英樹先生(産業技術総合研究所

機械学習のモチベーションとは、非明示的知識の実装。
人間は無意識に行っていることでも、言葉で明示的に表現できないものは、コンピュータに実装することができない。そこで例をたくさん見せて、システム自身に知識・ルールを獲得させる。

統計的な機械学習では、データの背後にある確率分布を想定します。
モデルの考え方には大きく2つあって、生成モデルと識別モデルがあります。
1,生成モデル:データの生成過程のモデルP(X|Y)と事前確率P(Y)をモデル化してP(X|Y)を求める
-ナイーブベイズモデル、混合正規分布モデル
-隠れマルコフモデル
2,識別モデル:条件付き確率P(Y|x)あるいはP(Y|x)を最大化するy=f(x)を直接モデル化する。
-線形回帰
-ニューラルネットワーク
-サポートベクトルマシン
実用的にも生成モデルは面倒だし、識別モデルのほうが性能はいいけれど、識別✕生成の考え方が大事なのではないだろうか?と先生。
なお、学習結果の解釈においても違いがあります。
統計的機械学習は、多数のモデルのパラメータ値であり、解釈や事後の修正が難しいことが多い。
-ニューラルネットワーク
-サポートベクトルマシン
それに対して、学習結果の解釈を重視する立場として、ベイジアンネットワークが挙げられる。

社会科学的にモデルを考えることの多い私たちとしては、日頃ベイジアンネットワークを使うことが多く、その解釈が私たち分析者にゆだねられている、ということがよくわかりました。
そのために、やはり現場に行って消費者行動を観察、また様々な人と接して定性的な勘を養ったり、社会学的な知識の蓄積が大事だなと改めて思うのでありました。

データ解析のための統計モデリング入門 久保拓弥先生(北海道大学)

あの”久保のーと”で有名な久保先生の講演です!
先生が書かれた「データ解析のための統計モデリング入門」は私たちの分野関係はみんなが持ってる、ニッチなアイドル。
当日の講演資料も、おしげもなく先生ご自身のHPからダウンロードできるという太っ腹っぷり。
まさに「情報発信するところに、情報が集まる」ということを実践されていると思います。

ちなみに、単に数字をいじるだけじゃダメという強調は久保先生からも。
「p<0.05だったら意味もわからず、何でもOKとしている論文に警報!」
「データ解析に於ける最重要事項、とにかく図を書く!」の言葉が身にしみます。
一般化線形モデルについて教えていただきましたが、最後も「手抜きのモデリングをすると変な結果を採用してしまう!」という例で、尤もらしいモデルづくりが重要だと改めて感じました。ちょうど最近作ったモデルで、モデル自体のスコアがよくなかったので、非常にタイムリーでした。

例として挙がっているのが、植物の種と発芽の関係だったので「私たちは社会科学系でどうしても変数選択が重要になって、モデルも複雑になってしまうのですが…」と質問したところ、そういう場合はベイズのほうが威力を発揮するだろうね・・とのことで、よくベイジアンネットワークを使っている自分たちの仕事ぶりにも納得感を得る結果となりました。

2日目に続く。


This entry was posted in その他. Bookmark the permalink.