見出し画像

3次元コンピュータビジョン研究動向


3次元コンピュータビジョンとは

 コンピュータビジョンは、近年大きな注目を集めている重要な研究分野の一つです。その代表的な学会であるCVPR(Computer Vision and Pattern Recognition、コンピュータビジョンに関する世界トップレベルの学会の1つ)では、投稿される論文数が10年で5倍以上に増加しており、今後も大きく発展することが期待されます。
 3次元コンピュータビジョンは、コンピュータビジョンの研究分野の1つで、2次元の画像をカメラの幾何学等を利用して解析し、3次元の情報を抽出する技術です。人間のように立体感を認識させることで、コンピュータに人間と同等かそれ以上の視覚機能を持たせることを目的としています。3次元の情報には、形状や動き、種類、異なる視点からの見え方などが含まれます。例えば、自動車に搭載されているカメラを使えば、歩行者を認識して、その位置や距離を知ることができます。空撮画像等の高所から撮影した画像を使えば建物の高さや地形を認識して、3次元の地図を作ることができます。自分自身を撮影すれば、自分の3次元のアバターを作り出すこともできます。
 一般的な画像処理は、RGBで表現される2次元の色情報のみを使って解析しています。一方で、3次元コンピュータビジョンは、色情報に加えて、画像から推定したカメラの位置や角度、デプス値(被写体からカメラまでの距離)等を加えることで、3次元の情報の解析を実現しています。
 現在は、自動車やロボットなどの産業用途において、3次元コンピュータビジョン技術が使われています。産業用途では、専用のカメラを使用することが多いですが、市販されているようなデジタルカメラで撮影した画像を使うこともできます。今では、多くの人が、デジタルカメラやカメラ付きのスマートフォンを所有していることから、産業用途だけでなく、日常用途においてもこの技術が重要な役割を果たすようになるでしょう。

要素技術

 3次元コンピュータビジョン技術については、多くの応用事例が出てきており、当社でも積極的に取り組んでいます。その中で、デジタルカメラで撮影した複数枚の画像から、写っているものの3次元形状を取得するフォトグラメトリ技術について紹介します。3次元コンピュータビジョンの研究範囲は広がってきており、3次元物体の認識やセグメンテーション(ピクセル単位で分類すること)等の様々な研究が行われていますが、その中でも、フォトグラメトリは長年取り組まれてきた重要な研究課題の1つとなっています。
 フォトグラメトリを行うためには、大きく2つのプロセスがあります。1つ目は画像からカメラ情報を取得すること、2つ目はカメラ情報と画像から3次元形状を求めることです。
 1つ目のカメラ情報で取得すべき情報は、画像撮影時のカメラの3次元の位置や向き、焦点距離等があります。自動車やロボットで用いられることの多いステレオカメラ(2台のカメラが平行に並べられたカメラ)のように、カメラの相対的な位置が固定されている場合は、チェスボードパターン(白黒の市松模様)を撮影した画像を十数枚程度用意して、カメラキャリブレーション(歪曲収差等を補正する処理)を行うことで、カメラ情報を求めることができます。
 普通のカメラの場合は、多視点画像を撮影して、画像の局所的な特徴(画像局所特徴量)を検出し、これらの特徴とカメラの3次元的な位置関係との整合を取るバンドル調整を適用することで、カメラ情報を求めることができます。この場合は、チェスボードパターンを用意する必要はありません。ここで、多視点画像とは、カメラを移動させながら対象物を様々な視点から撮影した画像のことです。カメラ自体の位置を移動させる必要があり、パノラマ写真を作る際に行うようなパン撮影(カメラの位置を固定して、向きを変えながら撮影する撮影方法)とは異なるため注意が必要です。画像局所特徴量は、画像の特徴的な模様を検出及び記述する方法で、異なる画像間で共通して写っているものを、ピクセル単位で検出することができます。バンドル調整は、画像局所特徴量を用いて、カメラキャリブレーションを行い、カメラ情報を求める技術になります。
 2つ目の3次元形状の求め方は、ここ最近の人工知能(機械学習技術)の進展の前後で大きく異なってきます。機械学習以前の代表的な手法にステレオマッチング[※]があります。人間の目の両眼視差(立体視)の考え方を画像処理に利用した方法になります。カメラ情報が既知のカメラで撮影した2枚の画像において、小領域(10ピクセル×10ピクセル程度)における類似度(模様のパターンや色、コントラストなどの似ている度合い)から、2つの画像間で同じものが写っている場所をピクセル毎に検出し、三角測量によりカメラからの距離を求めます。複数の画像の組み合わせでステレオマッチングを行い、最後に統合(ノイズ除去やサーフェス作成)をすることで、3次元形状が完成します。

ステレオマッチング

 機械学習を用いる場合は、形状や色の情報が格納された3次元空間を学習していきます。学習の目標は、多視点画像と同じ画像を生成できる3次元空間を作り出すことです。学習をしながら、3次元空間から抽出した形状や色から画像を生成(レンダリング)していきます。そして、レンダリングした画像と多視点画像の色が同じになるように3次元空間を、さらに学習していきます。学習を繰り返すことで、3次元空間から抽出される形状が、実物に近い精緻なものになります。
 3次元空間の表現方法はいくつかありますが、代表的なものにSDF(Signed Distance Function)があります。SDFは、3次元空間の任意の3次元座標における、物体表面からの距離を表現しています。つまり、SDFが0になる点が物体の表面になります。
 レンダリングでは、ゲームなどの3DCGで用いられるレンダリング方法を機械学習で扱えるようにした手法が使用されます。物体表面の色や法線などを使ってレンダリングする微分可能なサーフェスレンダリングや、色や密度などを使ってレンダリングするボリュームレンダリングが使われます。
 ステレオマッチングを用いる場合は、写っているものに模様があり、かつ、見る方向によって模様の見た目が大きくは変わらない(光沢の少ないマットな材質のものなど)という条件が必要になります。そのため、プラスチックや金属などに適用することは難しく、現実において適用できるものが少ないという問題がありました。近年では、機械学習により複数画像間の整合性を最適にできるため、視点による見え方の変化や光の反射も学習できるようになりつつあります。そのため、ステレオマッチングでは適用できなかったものに対しても形状が得られる可能性が見えてきています。

[※]S. Sakai, K. Ito, T. Aoki, T. Watanabe and H. Unten,"Phase-based window matching with geometric correction for multi-view stereo,"IEICE Transactions on Information and Systems, Vol. E98-D, No. 10, pp. 1818--1828, October 2015.

3次元コンピュータビジョンへの期待と課題

 3次元コンピュータビジョンでは複雑な計算処理が行われるため、高画質な画像でなければ処理が難しく、かつては、大型のデジタルカメラで撮影する必要がありました。しかし、イメージセンサーや画像処理技術の進化により、スマートフォンでも高画質な画像が撮影できるようになりました。このように、3次元コンピュータビジョンが普及するための下地が整いつつあり、今後は生活スタイルを変えるような技術に発展するでしょう。
 一方で、高画質な画像は、情報量が大きく、大規模なデータの取り扱いが難しいという課題があります。そのため、3次元のデータ処理には計算時間が長くかかり、スマートフォンなどでは簡単には処理ができません。クラウド上で計算する方法もありますが、多くの画像データをクラウド上にアップロードすると、通信に大きな負荷がかかります。高速化や軽量化は研究課題となっています。
 また、出力されるデータは、利用者がすぐに使用できる状態にはなっていないことがほとんどです。形状データであれば、CGソフトやCADソフトなどで加工する必要があります。普及に向けては、利用者が便利に扱えるデータに自動的に変換する技術が必要になります。

未来像

 デジタルカメラで3次元空間を理解できるようになれば、ロボットは人間と同等の視覚的な能力を得ることができ、これまで人が行ってきた作業の多くをロボットが代替することにより、人手不足の解消が期待できます。街中や屋内をリアルタイムに3次元でマッピングできるようになれば、ドローンの空間認識能力が高まり、行動範囲が広がります。これにより、人手不足で作業が追い付いていない橋梁やトンネルのインフラ点検をドローンが自動的に行うなど、様々な社会課題への貢献が見込まれます。
 また、利用者が自身の体型を3次元データで記録することで、医療やヘルスケアに役立てることができます。日々の体型の細かな変化は予防医療に繋がります。また、定量的なデータを医師に提供できるようになれば、診断の助けとなるでしょう。体型データはファッションにも利用できます。オンラインショッピングにおいて常に最適なものを選べるようになれば返品コストを減らすことができ、また、手軽にオーダーメイドができるようになれば廃棄を減らすことにも繋がります。
 さらに、3次元のデータ自体は思い出写真としても価値があります。2次元の静止画であった写真は、ビデオ撮影により動画として記録できるようになりました。さらにその延長線上に、写真や動画のように、3次元的な情報を記録・再生することが当たり前になる日が来るかもしれません。

活用事例

 フォトグラメトリができるソフトウェアは、スマートフォンのアプリを含めて市販されているものが複数あります。技術的な制約も多いため、使用にあたっては慣れが必要ですが、スマートフォンで写真を撮ると自動的に3次元データを生成してくれます。ここで使われている技術は、2000年代に基礎研究が行われ、2010年ごろにはソフトウェアの販売が始まりました。主な用途は空撮画像を使った測量になります。2010年代には、ドローンの販売が本格化したこともあり、ドローンとフォトグラメトリを組み合わせたドローン測量が広く行われています。
 また、最近のスポーツイベントでは、自由な方向から見ることができる映像の演出が行われるようになってきました。ここで使われている技術も3次元コンピュータビジョン技術に関連したものです。
 ゲーム制作においても、フォトグラメトリが使われるようになりました。3DCG技術の向上により、フォトリアルな映像が表示できるようになったこともあり、現実の人間や物をゲームのオブジェクトとして取り込むことが試みられています。フォトグラメトリを用いれば、リアルな表現のままCGにすることができます。
 文化財等のアーカイブや復元に用いる活動も行われています。自然災害や戦争などにより焼失した文化財や街並みを、過去の写真から3次元データとして復元できます。記録として残すことや、復元データを使って修復に利用することもできます。

トッパンの取り組み

 トッパンでは、精緻な3DCGの表現に取り組んでいます。その一つとして、フォトグラメトリを中心とした3次元コンピュータビジョンの研究を行っています。これまでに、ステレオカメラシステムやフォトグラメトリソフトウェアの技術を開発し、実証実験などを行ってきました。仏像や欄間などの文化財の3次元データ化を行い、石仏や化石の経年劣化や風化の状況について調査しました。また、橋梁等のインフラの点検や自動車の計測、ドローンによる空撮といった実証実験を実施しています。医療分野では、装具製作をサポートする技術として利用し、学会発表を行いました。今後は、これまでに無い技術の獲得に向けて、形状だけではなく、正確な色を再現した3次元データの生成などに取り組んでいきます。

トッパン有識者コメント

稲村 崇
DXデザイン事業部 技術戦略センター
情報技術研究本部 情報技術研究室 室長

 コンピュータビジョン領域における技術の進展は目覚ましく、また近年のAIの発展も相まって日々新たな技術が登場しています。そのスピードは目を見張るものがあり、スマートフォンやロボット、社会のあらゆる場所に張り巡らされたカメラセンサから取得した情報が瞬時に解析され、様々な目的で利用されています。これから先、このような技術は更に高度に生活に溶け込んでいくでしょう。
 トッパンはこれまで、顧客の伝えたいイメージを高画質な印刷や映像として表現してきました。デバイス間の色の違いを正確に補正する技術、物体の表面凹凸や反射特性に基づき質感を記録再現する技術、立体形状の3次元形状計測技術、これら物理情報に基づくリアルタイムCGレンダリング技術などによって、高品位な印刷や美しい映像制作、歴史的な文化財のアーカイブ等を実現してきました。
 今後、高度なデジタルサービスを提供する企業として、今回ご紹介した「3次元コンピュータビジョン研究」を、実世界を高度に解析、伝達する情報処理技術の中核として発展させていき、安全・安心に関わる医療やインフラ、効率的な製造、体験価値の高いeコマースなどでの活用を目指してまいります。


■編集者

渡邉 隆史
DXデザイン事業部 技術戦略センター
情報技術研究本部 情報技術研究室