胡 寅駿 の記事

scikit-learnのtf-idfについて

機械学習のツールとして、scikit-learnは非常に使いやすいPythonのパッケージとされています。
このパッケージには、例えば交差検定の評価を繰り返して、
分類器に良さそうなパラメータを「検索」してくれるGridSearchなど、
研究をスムーズに進行させるための便利な機能がたくさん搭載されています。

一方、言語処理におけるクラスタリングやクラス分類問題の手がかりとして、
文書にある単語がよく使われます。
続きを読む...

中国のネットリサーチについて

インターネットの普及により、アンケート調査の実施を紙からオンラインリサーチに切り替える事例が多くなってきました。今回は中国におけるオンラインリサーチについてご説明いたします。

中国におけるオンラインリサーチの方法について、調べたところで厳密な定義はありませんが、

■ 自助调查(セルフアンケート)
■ 样本服务(サンプルサービス)

の2種類があると思われます。
続きを読む...

Feature selectionのためのInformation GainとBi-normal Separation

こんにちは。胡です。
最近は、文章カテゴリ化課題におけるFeature selectionの問題についていろいろと調べてみました。

Feature extractionとFeature selection
文章のカテゴリ化という課題を解決するために、
ベクトル空間モデルが良く使われますが、
語彙数が多い場合は次元の呪いにかかってしまいます。
その時に、次元の削減が必要となります。
続きを読む...

自由回答文の自動分類についての考察

こんにちは。胡です。
市場調査などにおいては自由回答が改めてホットになっているため、
今回は言語処理の技術を用いる自由回答の自動分類について説明させていただきます。
手法全体の詳しい説明は、文献[1]に記載していますので、
ここでは自由回答文を処理する時の注意点および私自身の心得を紹介いたします。

自由回答文のタイプ
文の構造の複雑さによって,自由回答文は以下の3つに分けられると考えられます.
単語列挙タイプ
Q:好きな果物を書いてください。
続きを読む...