そのデータに意味はあるのか? vol.1


9月9日~4日間、下記のような公開講座を受けてきました。
http://www.ism.ac.jp/lectures/jikanwari26f.pdf

十数年ぶりくらいに数式をたくさん書きました…。

数式

重回帰分析の数式です。
重回帰分析は、何か推測したい数値yがある場合に使いますが、念じていればyがでるわけではなく、いろんな変数の組み合わせによって出てきます。

誰かの年収yを求めたいときなどに使われますが、
勤続年数や年齢、家族構成があったとして、それらの変数は説明変数xと呼ばれ、
変数全体の重みw0、変数個別の重みWp、とともに計算され、年収yが求められます。

さて、この数式書いてみたものの覚える必要があるのでしょうか?
重みを計算するためには、下記のような数式も必要になります。

重み

さらに、平均値を求めるために…

平均値

yを求めるために、いろんな数式が必要になります。
さらに、分析方法によってもちろん数式は異なり、日々人生と格闘している私がすべての数式を覚えるのはムリな話…。

講習を受けてよかったなと思ったのは、数式をたくさん書いたことではなく、
「分析ソフトを使っていい」と、研究所の先生たちはしきりに仰り、私も素直にそう思えたこと。

たくさんの変数があり、サンプル数があり、手作業で計算するより、
ソフトを使っての変数選択の試行錯誤が必要で、分かりきったことに使うのが統計ではなく、
まだ分かっていないことに使うのが統計だと、どの先生も仰っていました。

変数も多ければいいというものではなく、最適な変数の組み合わせを見つけることが大事で、
何を見たいか、変数の種類によって分析方法は変わり、計算のアルゴリズムは分かっておく必要があります。
目的もなく、ただソフトにたくさんの変数を入れてみて、「ガラガラポンッ!」で出てくる数字には意味がなくて、仮説を立てて、何回も何回も変数選択→分析を繰り返して、見たいものが見えてくるのです。
そして、分析ソフトは試行錯誤を支援してくれる便利なツールですが、最後はやっぱりヒトの検証が重要で、
出てきた結果を意味あるものにするために、やっぱり格闘!?します。

まだ、続く…。

教訓: ベクトルも行列も大事です。


This entry was posted in その他, 確率・統計. Bookmark the permalink.