3次元物体認識の概要をつかむ

物体認識のなかでも、とくにロボットビジョン等の領域では、3次元情報から物体認識を行なうアプローチが研究されている。

有名な取り組みとしては、GoogleのProject Tangoとかがある。

 

3次元物体認識の基本的な流れとしては、3次元センサーから取得したポイントクラウドデータ、もしくは距離画像を入力とし、この入力に対して、3次元物体認識の手法を適用し、目的とする対象物体が入力シーンに含まれているかどうか、また含まれている場合は位置・姿勢推定を行いロボットへの動作命令をおこなう。

 

物体認識としては、2次元物体認識の方が、処理速度的に比較的高速だけど、例えばテクスチャの少ない部分の認識とか、実際のロボットの手でつかむようなフィードバック動作まで考慮すると、より高い精度での物体の位置・姿勢推定までが必要とされる。このとき、3次元物体認識が役割を果たす。
例として、米アマゾン社が開催しているAmazon Picking Challengeという、アマゾンの膨大な倉庫の棚から意図する商品を取り出すことを目的としたロボットコンペティションで、日本勢最高位(全体6位)だった中部大学、 中京大学、 三菱電機先端技術総合研究所の産学合同チームの認識エンジンは、以下に示すようにアピアアランスベースの認識手法とポイントクラウドベースの認識手法を組み合わせた構成になっている。

apc03

引用元:

また、補足として、物体認識で主に扱うようなデータは以下の図のように異なるドメインであることがある。

 

スクリーンショット 2016-01-17 13.40.55

 

この異なるドメインの間での、認識、検索などを行なうためにさまざまな手法がい提案されている(シャムネットワークを用いた手法、マルチドメイン、特徴量などなど)。

次の記事で、3次元物体認識まわりの技術要素についてまとめる。

3次元物体認識の概要をつかむ:3次元特徴量編