3次元物体認識の概要をつかむ

obj-recog-domainAI関連の解説/論文紹介
この記事は約6分で読めます。
スポンサードリンク

はじめに

コンピュータビジョン(ComputerVision)において、物体認識(Object Recognition)は、既に様々な場面における応用がはじまっており、非常にホットな研究トピックの1つです。

物体認識で主に扱うデータは、大きく以下のような異なるドメインに分類することができます。

スクリーンショット 2016-01-17 13.40.55

このような、それぞれ異なるドメインデータに対して、様々な認識、検索などを行なうための手法が提案されています。(畳み込みニューラルネットワークベースの手法、特徴量ベースの手法など)。

今回は、特に3次元物体認識について紹介します。

3次元物体認識

3次元物体認識は、特にロボットビジョン等の領域において重要な技術です。

3次元的に空間や物体を正しく認識することで、ロボットに対して体の動かし方や物体を掴んだりするときの腕の動かし方などを指示することが可能になります。

一般的に、3次元物体認識モデルでは、
3次元センサーなどからポイントクラウドデータ、もしくは距離画像(Depth Image)を入力とします。最近では、3DCNN(3次元畳込)による3次元物体認識手法などが有名です。

3次元物体認識の実用例

例として、米アマゾン社が開催しているAmazon Picking Challengeを紹介します。

Amazon Picking Challengeは、端的に言うと、アマゾンの膨大な倉庫にある棚から、指定された商品をロボットが自動でピッキングことを目的としたコンペティションです。

2015年度の本大会では、中部大学、 中京大学、 三菱電機先端技術総合研究所の産学合同チームが日本勢最高位の全体6位となりました。このとき、用いられた認識エンジンでは、ピッキングする商品に応じて、アピアアランスベースの認識手法とポイントクラウドベースの認識手法を切り替えて認識するアプローチが取られています。

apc03画像引用:
http://mprg.jp/research/amazon_picking_challenge_j

補足的に、翌年の2016年にはPFN社(Prefferd Network)のチームが同コンペティションで、pick task部門で第2位を獲得しています。

Amazon Picking Challenge 2016のPick Task部門で第2位を獲得しました | 株式会社Preferred Networks

3次元物体認識のアプローチ

3次元物体認識における手法としては、大きく2つあります。
アピアランスベースの手法とモデルベースの手法です。

 アピアランスベースのアプローチ

この手法では、入力シーン画像と3次元物体の多視点画像を照合します。
このアプローチのためのデバイス構成としては、一般的なカメラを入力デバイスとして利用できるため、比較的手軽で実用的な手法として注目されています。

モデルベースのアプローチ

この手法では、3次元CADなどのモデルデータ(ポイントクラウド等)と入力シーンの3次元データ(ポイントクラウド等)の照合を行います。

デバイス構成として入力において、3次元センサーを必要となります。

このアプローチでは、称号部分で、アピアランスベースのように膨大な画像データベースを用意する必要がなく、3次元的ポイントデータの特徴量マッチングなどが行われます。最近では、特徴量ではなく直接3次元畳み込みニューラルネットワークを使って照合すれ事例もあります。

一方で、3次元データは2次元画像データに比べて、データサイズが大きく、照合にかかる時間がかかるという問題がある。この問題に対して、3次元特徴量の手法においては、3次元データを選択的に扱い、それらの選択された3次元点から特徴量を記述する手法が提案されています。

3次元物体認識の技術要素:3次元特徴量

これまで、2次元物体認識においては、さまざまな局所特徴量(SIFT,HOG,AKAZE,,)が研究され提案されてきました。3次元データにおいてもこのような特徴量が存在します。

最近では、もっぱらDeepLearningに注目が行くことが多く、このような特徴量は無視されがちですが、依然としてケースにおいては有用な場面もあるかもしれません。また、これまでのコンピュータビジョンにおける研究の蓄積として紹介しておきます。

3次元特徴量の紹介

3次元データにおける特徴量としては、大きく以下の2つがあります。

(1)ポイントデータ間の関係性を記述するような特徴量

(2)キーポイントベースの特徴量

(1)ポイントデータ間の関係性を記述するような特徴量

この特徴量は、複数の3次元ポイントデータにおいてデータ間の関係性を記述するような特徴量。

一般に、データ間の関係性を記述するような特徴量を計算するには、複数のデータポイント間での組み合わせ分の演算処理が必要になるため時間がかかるという問題点があります。

Point Pair Feature

複数のキーポイント間の関係記述による特徴量であるPPF(point pair feature)について説明します。

PPF特徴量は、全ての3次元点群データの間で2点を選ぶ組み合わせにおいて算出される4次元特徴量です。

ここでいう4次元はそれぞれ、2点間の距離、2点を結ぶ線分とその各点の法線方向がなす角度、2点の法線間の角度を指します。

この4次元特徴量Fは、探索の効率化のためハッシュテーブルにその特徴量をキーとして、2点の点番号を格納しておき、マッチング処理においてハッシュテーブルから対応点を検索した後、点対間の剛体変形パラメータを求めることで、モデルの位置・姿勢推定を行うことができます。

Point Pair Feature

Point Pair 特徴量

(2)キーポイントベースの特徴量

この特徴量は、3次元データ上でキーとなるデータポイントを選択して、そのキーポイント周りの特徴を記述する特徴量です。

SHOT特徴量

キーポイント周辺の情報記述として有名な特徴量の1つにSHOT特徴量がある。

SHOT特徴量は、キーポイントにおける法線方向を利用し、3次元モデルの表面形状の特徴を記述することができます。

SHOT特徴量の記述の流れとしては、あるキーポイントの局所座標系の設定をし、その上でSHOT記述子による特徴量記述が行われます。(局所座標系については、次のセクションで説明)

具体的には、あるキーポイントに対する局所座標系の設定が完了した段階で、キーポイント周辺の領域をXY平面で2分割、球の内外で2分割、z軸に対して8分割の合計32分割を行います。

さらに、各領域において法線ベクトルを求め、基準点の法線との内積を求めます。

最終的に、ヒストグラム化し、352次元の特徴量としてSHOT特徴量を記述します。

SHOT特徴量

SHOT特徴量

また、上記のキーポイントを表現するための座標概念である局所参照座標についても少し触れておきます。

局所参照座標

局所参照座標は、キーポイントに対して設定される3次元直交座標のことです。

それぞれ特定のキーポイント周辺の局所的な面に対する法線方向である1次、1次に対して水超く方向である2次。さらに、1次と2次の外積ベクトルとして表現される3次から成る座標を指します。

局所参照座標では、再現性と非曖昧性が重要となります。

再現性とは、あるキーポイントにおける局所参照座標の設定が安定的であること。また、非曖昧性とは、設定座標の向きも一定となるように設定することであり、姿勢推定への応用可能性に関係します。

さいごに

今回は3DCNNの手法までまとめられていませんが、追って追記していきたいと考えています。

タイトルとURLをコピーしました