自由回答文の自動分類についての考察


こんにちは。胡です。
市場調査などにおいては自由回答が改めてホットになっているため、
今回は言語処理の技術を用いる自由回答の自動分類について説明させていただきます。
手法全体の詳しい説明は、文献[1]に記載していますので、
ここでは自由回答文を処理する時の注意点および私自身の心得を紹介いたします。

自由回答文のタイプ

文の構造の複雑さによって,自由回答文は以下の3つに分けられると考えられます.

  • 単語列挙タイプ
  • Q:好きな果物を書いてください。
    A:りんご バナナ

  • 単文回答タイプ
  • Q:どのような車がすきですか。
    A:かっこいい車が好き

  • 複雑回答タイプ
  • Q:自分についてどう思いますか。
    A:自分の事よりも人の事を優先して考え、人に喜んでもらう事に喜びを感じる。

    その中で、単語列挙タイプと単文回答タイプの自由回答文は、
    ある程度の前処理(i.e. スペースでスプリット,形態素解析)をすれば自動分類が可能となります。
    文献[1]では、文の構造が複雑な回答文(以下、複雑文)を主な分析対象として
    自由回答文を自動的に分類する方法を提案しました。

    複雑文処理のキーポイント

    複雑文の自動分類を

    素性ベクトル抽出→各手法による補正→クラスタリング

    という順に行い、それぞれのキーポイントを以下に示します。

    単語の中心性利用

    これは、素性ベクトル抽出の段階で考慮すべき問題だと思います。
    例えば、
    S1:自宅のパソコンは、価格よりも性能が重要である。
    S2:自宅のパソコンは、性能よりも価格が重要である。
    の2文について、形態素解析の結果だけを見ては、同じ文と捉えられてしまいます。
    この問題を解決するためには、文献[2]の手法を導入してみました。
    一言でまとめると、文構造を考慮して各単語に重付け(単語の中心性)を付与するアプローチです。
    この単語の中心性を考慮すれば、例のS1にある「価格」の重付けはS2の「価格」より小さくなり、
    S1とS2の区別がつけられるようになります。
    ただし、単語の中心性利用は、単文回答タイプには向いていないことも実験からわかりました。

    類義語,カナ統一と編集距離

    類義語.自由回答文には、類義語を含まれる可能性が高く、
    例えば「周囲」と「周り」は表記が異なりますが、
    意味は近いので素性ベクトルの要素としては同じものと見なすべきだと思われます。
    このような問題は、類義語辞書を用いて直接に類義語を統一するように書き換えるか、
    類似度を計算してweightをかけることにより解決できます。
    文献[1]では、類義語を統一するようなアプローチを採用しました。
    なお、類義語は文脈(アンケートの分野)依存であるため、
    回答文をマイニングして自動的に類義語辞書を構築することも今後の課題の1つです。

    カナ統一.カナ統一とは、例えば「綺麗」と「きれい」、「ヒト」と「人」のような
    同一単語の異なる綴りの問題を解決するための方法であり、
    文献[1]では、素性ベクトルにある単語を全部片仮名に変換することにより実現しました。

    編集距離.「ダイヤモンド」と「ダイアモンド」などの表記ゆれには編集距離の利用が有効であり、
    文献[1]では素性ベクトルに対して編集距離の計算による補正も試みました。

    考察・心得.
    上述の3つの補正手段について、実験を通して類義語の考慮とカナ統一の利用は、
    回答文のタイプに関わらず、自動分類の性能向上に有効であることが確認できました。
    編集距離は、回答文の内容によるかもしれませんが、
    自動分類の性能に影響がないことがわかりました。

    今後の課題

    今後の課題としては、主に以下の4つがあります。

  • 回答文から自動的に類義語辞書を抽出
  • ハードクラスタリングをファジークラスタリングに変更
  • クラスタリングのクラスタの数を自動的に選択
  • 文の構造(syntax)だけでなく、文の意味(semantic)も考慮すべき
  • 今は、回答文から類義語辞書を抽出する課題に取り組んでおります。
    ※今回はクラスタリングにk-meansを利用しました。

    文献

    [1]胡寅駿,谷田泰郎,"テキストマイニングによる自由記述文の自動解析, " 信学技報, vol. 114, no. 81, NLC2014-14, pp. 75-79, 2014年6月.
    [2]石井弘志,林日華,古郡廷治,"単語の中心性に基づくテキスト自動要約システム," 情報処理学会研究報告,pp. 83-90,2001.


    This entry was posted in 自然言語処理, 自然言語処理(NLP). Bookmark the permalink.