『自然言語処理(NLP)』に関する記事

scikit-learnのtf-idfについて

機械学習のツールとして、scikit-learnは非常に使いやすいPythonのパッケージとされています。
このパッケージには、例えば交差検定の評価を繰り返して、
分類器に良さそうなパラメータを「検索」してくれるGridSearchなど、
研究をスムーズに進行させるための便利な機能がたくさん搭載されています。

一方、言語処理におけるクラスタリングやクラス分類問題の手がかりとして、
文書にある単語がよく使われます。
続きを読む...

Feature selectionのためのInformation GainとBi-normal Separation

こんにちは。胡です。
最近は、文章カテゴリ化課題におけるFeature selectionの問題についていろいろと調べてみました。

Feature extractionとFeature selection
文章のカテゴリ化という課題を解決するために、
ベクトル空間モデルが良く使われますが、
語彙数が多い場合は次元の呪いにかかってしまいます。
その時に、次元の削減が必要となります。
続きを読む...

自由回答文の自動分類についての考察

こんにちは。胡です。
市場調査などにおいては自由回答が改めてホットになっているため、
今回は言語処理の技術を用いる自由回答の自動分類について説明させていただきます。
手法全体の詳しい説明は、文献[1]に記載していますので、
ここでは自由回答文を処理する時の注意点および私自身の心得を紹介いたします。

自由回答文のタイプ
文の構造の複雑さによって,自由回答文は以下の3つに分けられると考えられます.
単語列挙タイプ
Q:好きな果物を書いてください。
続きを読む...

【言語処理学会】Wikipediaを用いた語義曖昧性解消のための辞書の自動構築

こんにちは。胡です。
言語処理学会第20回年次大会@北海道に行ってまいりました。
今回、弊社はゴールドスポンサーとして登場しました!
それとは別に、本会議の初日に「Wikipediaを用いた語義曖昧性解消のための辞書の自動構築」というタイトルで、ポスター発表をしてきました。
本記事では、上述のポスター発表の内容についてご紹介いたします。
続きを読む...