物体認識競技会


研究開発グループで注目している研究領域・技術に物体認識というものがあります。
物体認識とは「この写真に写っているものは何ですか?」という問いに答えようとするもので、これができるようになると、一枚の写真から様々な知識を取り出して様々な分野に応用できると考えられています。
研究開発グループでは、この研究領域・技術を応用することで、消費者が興味を持った写真からその消費者自身の嗜好や行動を探ることができるのではないかと考えています。

現在、世界中の研究者・企業がより良い物体認識の実現を目指しており、その技術・理論を競い合う競技会が開かれています。今回はその物体認識の競技会について簡単にご紹介します。

VOC(PASCAL Visual Object Classes, PASCAL: Pattern Analysis, Statistical Modeling and Computational Learning)

2005年から開催されている競技会ですが、2012年の開催が最後となったようです。
タイトルに「Visual Object Classes」とあるように、写真に写っているもののクラス分類を主な目的としています。
年ごとに問題設定が変化していますが、2012年の競技会では以下の問題が設定されています。

「物体が写っている写真」に対して、
・クラス分類: 写っている物体のクラス(*1)を当てる。
        (解答例:この写真には自転車が写っている。)
・物体検出:  写っている物体の範囲とクラスを当てる。
        (解答例:この写真のこの場所に自転車が写っている。)
・領域分割:  写真を背景と物体に分割し、物体のクラスを当てる。
        (解答例:この写真はここが背景で、ここが鳥で...。)
「人物が写っている写真」に対して、
・動作分類:  写っている人物の動作(*2)を当てる。
        (解答例:この人物は電話をしている。)
・部位分割:  写っている人物を部位(*3)に分割する。
        (解答例:ここが頭で、ここが手で...。)

 *1: クラスは以下の20種類。
  人物、
  鳥、猫、牛、犬、馬、羊、
  飛行機、自転車、船、バス、自動車、バイク、列車、
  ビン、椅子、食卓、植物、ソファ、テレビ
 *2: 動作は以下の10種類。
  跳ぶ、電話する、演奏する、読書、自転車に乗る、馬に乗る、走る、写真を撮る、コンピュータを使う、歩く
 *3: 人体の部位は以下の3種類。
  頭、手、足

各問題に対して複数のチームが挑戦して、いろいろな結果を出しています。

その結果のうち、ここでは「comp1:クラス分類」に注目してみます。
comp1での評価には、クラスごとのAverage Precision(平均適合率)という尺度が用いられています。
平均適合率とは、分類対象の写真を「そのクラスらしさ」の順に並び替えて、さらに正答の割合を平均したものですが、ざっくり言えば、クラス分類方法の正確さということになります。平均適合率が高ければ高いほど、良いクラス分類方法であると言えます。

この部門の優勝チームである「NUSPSL_CTX_GPM_SCM」の結果を見てみると、クラスによって平均適合率の高低はありますが、どのクラスでも他のチームよりも良い結果を出しています。
また、平均適合率を全部足し合わせて平均を求めるとその値は82.2となり、クラスごとではなくシステム全体としても高い正確さを持つことがわかります。

ILSVRC(Large Scale Visual Recognition Challenge)

前述のVOCでは、クラスの数が20個、使用する写真の数が約2万枚でした。
しかし、現実世界にはもっと多くのクラスや写真が存在します。
現実世界に即した大規模な問題を解決することを目指して、2010年より始まったのがILSVRCです。

2012年の競技会での問題設定は以下のようになっています。
・クラス分類:      写っている物体のクラスを当てる。
             (解答例:この写真には自転車が写っている。)
・物体検出:       写っている物体の範囲とクラスを当てる。
             (解答例:この写真のこの場所に自転車が写っている。)
・より詳細なクラス分類: 写っている犬の種類を当てる。
             (解答例:この写真にはシェパードが写っている。)
また、2012年の競技会で使用されたクラス数は1,000個、写真は150,000枚となっており、VOCよりも大規模なものとなっています。結果はこちらから見れます。

ここでも「Task 1:クラス分類」に注目してみます。
Task 1での評価方法はError(誤答の割合)とされており、誤答の割合が低ければ低いほど、良いクラス分類方法であると言えます。

この部門の優勝チームである「SuperVision」の結果を見てみると、誤答の割合は0.15~0.16となっており、他チームの結果を大きく上回る良い結果となっています。
「SuperVision」チームは、Deep Larningと呼ばれるニューラルネットを使う手法を使用していますが、この手法は他のチームが使用する手法と根本的に異なるものであるため、その精度の良さとともに各所で注目されています。

■まとめ
物体認識の競技会について「ざっくり」ご紹介しました。

物体認識の問題は非常に難しい問題で、完璧な答えはまだ出ていません。
研究開発グループでは条件や応用範囲を絞ることで、この技術を消費者行動予測、ひいては豊かな消費行動をサポートするサービスに応用できないかと、日々頭をひねっています。


This entry was posted in 技術. Bookmark the permalink.