(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-20
(45)【発行日】2023-04-28
(54)【発明の名称】認識位置決め装置及び情報変換装置
(51)【国際特許分類】
G06T 7/70 20170101AFI20230421BHJP
G01B 11/00 20060101ALI20230421BHJP
【FI】
G06T7/70 A
G01B11/00 H
(21)【出願番号】P 2019096946
(22)【出願日】2019-05-23
【審査請求日】2022-02-18
(73)【特許権者】
【識別番号】393021141
【氏名又は名称】株式会社岩根研究所
(74)【代理人】
【識別番号】110002354
【氏名又は名称】弁理士法人平和国際特許事務所
(72)【発明者】
【氏名】岩根 和郎
【審査官】宮島 潤
(56)【参考文献】
【文献】特開2008-304268(JP,A)
【文献】特開2007-316839(JP,A)
【文献】特開2012-118666(JP,A)
【文献】国際公開第02/001505(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
G06T 1/00 - 1/40
G06T 3/00 - 5/50
G06T 9/00 - 9/40
G01B 11/00 - 11/30
(57)【特許請求の範囲】
【請求項1】
対象をカメラで撮影して対象映像を取得する際のカメラの静止座標系
における三次元位置座標と3軸回転姿勢の値を示す
CV(カメラベクトル)値を求めるCV演算を行い、前記対象映像に前記CV値を付加したCV映像を生成するCV映像取得部と、
前記CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する
入力操作が行われた場合に、当該対象物の指定を受け付ける対象物指定部と、
前記CV映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標が付加された前記対象物のデータを教師データをとして機械学習
することによって、学習モデルを生成する処理と、前記対象物指定部で指定された対象物について、生成された当該学習モデルを用いて、当該CV映像に映り込んでいる各対象物を同一の対象物として認識する処理と、からなる認識処理を
、前記CV映像の複数フレームに亘って繰り返し実行する連続フレーム機械学習部と、
前記連続フレーム機械学習部で認識された対象物を、前記CV映像の
複数フレームで
同一の対象物として対応させ、当該CV映像に映り込んでいる各対象物の
前記静止座標系における三次元位置座標を
前記CV値に基づいて取得し、
前記三次元位置座標が一致する対象物を各フレームで確認することで同定して、当該対象物に
、一致する前記三次元位置座標を付加する三次元座標演算対象物座標付加部と、
前記連続フレーム機械学習部で認識された前記対象物のデータを前記三次元座標演算対象物座標付加部に引き渡し、前記三次元座標演算対象物座標付加部で前記三次元位置座標が付加された前記対象物のデータを前記連続フレーム機械学習部に引き渡すことにより、前記連続フレーム機械学習部と前記三次元座標演算対象物座標付加部との間で、前記対象物の認識と三次元位置座標の付加を
、前記CV映像の複数フレームに亘って繰り返すことにより、
当該対象物について
最終的な三次元
位置座標を付加して出力する座標付加認識出力部と、を備える
ことを特徴とする認識位置決め装置。
【請求項2】
前記CV映像の連続する複数フレームの1フレームのみで前記認識処理を実行し、
前記対象物指定部で指定された目的となる対象物を含む周辺領域の
前記静止座標系における三次元位置座標を示す領域座標を取得して、その領域座標の範囲を当該対象物が存在する認識処理の実行範囲となる認識領域として指定する認識領域指定部を備え、
前記連続フレーム機械学習部が、
前記認識領域指定部で指定された前記認識領域を、前記対象物が存在する隣接する複数のフレームに亘って割り
当てて、当該認識領域において前記対象物の認識処理を繰り返し実行し、
前記三次元座標演算対象物座標付加部が、
前記認識領域において座標が一致する対象物を各フレームで確認することで同定して、当該対象物に
前記三次元位置座標を付加する
ことを特徴とする請求項1に記載の認識位置決め装置。
【請求項3】
前記連続フレーム機械学習部が、
前記対象物が映り込んでいる可能性のある前記CV映像の全フレームについて、同一の対象物についての複数の方向と複数の距離の異なる情報
を、一括処理の対象となる塊として、前記
連続フレーム機械学習部による前記対象物の認識処理を一括して実行する
ことを特徴とする請求項1又は2に記載の認識位置決め装置。
【請求項4】
前記CV映像内で移動する移動体について、前記カメラ
に対する前記移動体の三次元位置座標と3軸回転軸の値を示す
RV(リージョナルベクトル)値を求めるRV演算を行う移動体RV値取得部を備え、
前記連続フレーム機械学習部が、
前記CV映像内の移動体を前記認識処理の対象物として抽出し、
前記三次元座標演算対象物座標付加部が、
前記移動体の前記RV値に基づいて、前記移動体を同定して前記三次元位置座標を付加する
ことを特徴とする請求項1~3のいずれか一項に記載の認識位置決め装置。
【請求項5】
請求項1~4に記載の認識位置決め装置に接続される情報変換装置であって、
前記対象物
の種類に対応する識別情報となる
ID及び当該IDによって分類された
前記対象物の属性情報を記憶したID部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記ID部品庫に記憶された
、当該対象物の種類に対応する前記IDを対応させ、複数の対象物を含む前記CV映像を、各対象物
の種類に対応する前記ID及びその属性情報によって再構成する画像再構成表示装置と、を備えた、
ことを特徴とする情報変換装置。
【請求項6】
前記CV映像に含まれる前記対象物を、前記ID部品庫に記憶された
、当該対象物の種類に対応する前記ID及びその属性情報によって
、識別情報にID化するID化装置を備え、
前記ID化装置によって前記対象物がID化された前記CV映像を送信又は記録する
ことを特徴とする請求項5に記載の情報変換装置。
【請求項7】
前記対象物の
種類に対応する意味・概念を示す
概念情報を記憶した概念部品庫と、
前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記概念部品庫に記憶された
、当該対象物の種類に対応する前記概念情報を対応させ、複数の対象物を含む前記CV映像を、各対象物
の種類に対応する前記概念情報によって再構成する意味表示装置と、を備えた、
ことを特徴とする請求項5又は6に記載の情報変換装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオカメラ等で取得された画像・映像に基づいて、動画像から画像内の対象物を認識すると同時に、当該対象物の三次元座標取得を行うことが可能となる画像・映像処理技術に関する。
【背景技術】
【0002】
画像認識の分野においては、機械学習が最近急速に進化している。
例えば、特許文献1には、画像解析に適した教師データを効率的に生成することにより、高精度の画像認識や状況予測などに利用する十分な量の教師データを得ようとする提案がなされている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示されているような現状の機械学習による画像認識技術によれば、例えば自動運転のための三次元地図を作成する場合に、標識,地物,信号機等の対象物を画像認識することは可能であったが、更なる改善の余地があった。
例えば、現状の機械学習はかなり進化してきているが、二次元上の画像内の対象物を認識するだけのものであり、認識された対象物の三次元位置を認識と同時に取得するようなことはできない。ここでの認識とは、対象物をニューラルネットワークにより、カテゴリーに分かれた分類の何処に属するかを判断することである。
【0005】
このため、現状の画像認識技術において対象物の三次元位置情報を得ようとすれば、対象物の認識作業とは別の、例えば測量等が必要となる。
また、現状の対象物認識は、三次元を対象とはしていないし、していたとしても、結局は二次元上に投影して認識しているに過ぎない。
このように、これまでの画像認識技術で認識される対象物は、三次元座標を持たないものである。
すなわち、機械学習は二次元上で、セグメンテーションやたたみ込み積分を行うことから、原理的に三次元形状や位置情報は失われるという欠点があった。
【0006】
このように、対象物認識が二次元でなされている以上、現実の世界とは異なり、三次元的な構造は常に不明である。
また、現状では画像伝送は二次元の伝送であり、たとえ2K,4K,8Kと画像が高解像度になっても、それは二次元のままであり、現実世界とは異なる。
本願発明者は、このような現状の画像認識技術が有する課題を解決し得る発明として、鋭意研究の結果、対象物の認識と同時に、その三次元座標を取得できるようにすることで、画像処理の技術を大きく進化させることができる本発明に想到したものである。
【0007】
すなわち、本発明は、以上のような従来の技術が有する問題を解決するために提案されたものであり、これまでの機械学習に新しい機能を付加させることで、その機能を向上させ、性能を更に拡張させることができる認識位置決め装置及び情報変換装置の提供を目的とする。
本発明は、動画像を利用して、動画像から画像内の対象物を認識し、同時に当該対象物の三次元座標取得を行い、これを連続して行うことで、自動的に座標付き対象物のデータベースを自動作成し、さらにはこのデータベースを基準の三次元地図として自動運転を行い、さらには、時間軸をも含めたこれらのデータベースの膨大な情報を効率的に伝送し記録することができる装置・技術を提供できるようにするものである。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の認識位置決め装置は、対象をカメラで撮影して対象映像を取得する際のカメラの静止座標系における三次元位置座標と3軸回転姿勢の値を示すCV(カメラベクトル)値を求めるCV演算を行い、前記対象映像に前記CV値を付加したCV映像を生成するCV映像取得部と、前記CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する入力操作が行われた場合に、当該対象物の指定を受け付ける対象物指定部と、前記CV映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標が付加された前記対象物のデータを教師データをとして機械学習することによって、学習モデルを生成する処理と、前記対象物指定部で指定された対象物について、生成された当該学習モデルを用いて、当該CV映像に映り込んでいる各対象物を同一の対象物として認識する処理と、からなる認識処理を、前記CV映像の複数フレームに亘って繰り返し実行する連続フレーム機械学習部と、前記連続フレーム機械学習部で認識された対象物を、前記CV映像の複数フレームで同一の対象物として対応させ、当該CV映像に映り込んでいる各対象物の前記静止座標系における三次元位置座標を前記CV値に基づいて取得し、前記三次元位置座標が一致する対象物を各フレームで確認することで同定して、当該対象物に、一致する前記三次元位置座標を付加する三次元座標演算対象物座標付加部と、前記連続フレーム機械学習部で認識された前記対象物のデータを前記三次元座標演算対象物座標付加部に引き渡し、前記三次元座標演算対象物座標付加部で前記三次元位置座標が付加された前記対象物のデータを前記連続フレーム機械学習部に引き渡すことにより、前記連続フレーム機械学習部と前記三次元座標演算対象物座標付加部との間で、前記対象物の認識と三次元位置座標の付加を、前記CV映像の複数フレームに亘って繰り返すことにより、当該対象物について最終的な三次元位置座標を付加して出力する座標付加認識出力部と、を備える構成としてある。
【0009】
また、本発明の情報変換装置は、本発明に係る認識位置決め装置に接続される装置であって、前記対象物の種類に対応する識別情報となるID及び当該IDによって分類された前記対象物の属性情報を記憶したID部品庫と、前記認識位置決め装置において同定されて前記三次元位置座標が付加された対象物に、前記ID部品庫に記憶された、当該対象物の種類に対応する前記IDを対応させ、複数の対象物を含む前記CV映像を、各対象物の種類に対応する前記ID及びその属性情報によって再構成する画像再構成表示装置と、を備えた構成としてある。
【0010】
本願出願人による特許第4146027号「情報変換システム」は、所定の手段により画像内の目的の対象物の三次元座標を取得し、その形状を取得し、部品に置き換え、それを再構成することで画像再構築する技術である。
また、本願出願人による特許第4767578号「高精度CV演算装置」は、動画像を解析し、動画像を取得したカメラの6変数を求める演算を実行して、カメラの位置の座標を求めることができ、その動画像を様々に加工等することを可能とする技術である。ただし、当該特許技術における三次元座標の取得と対象物認識は別の技術であり、これまでは、それらを同時に処理できるようにする技術は提案されていなかった。
【0011】
ところで最近は、世の中に普及してきた技術として、機械学習がかなり進化し、画像の中の対象物の認識がかなり自由に行えるようになり、画像解析の世界がより広がったと言える。
そこで、本発明では、単なる写真としての画像ではなく、動画像の取得が当たり前になりつつあることから、静止画像ではなく動画像、特に上記特許技術であるCV映像(詳細は後述)を利用して、対象物を機械学習で認識すると同時に、対象物の三次元座標を瞬時に求めることを可能とするものであり、さらに必要であれば、三次元の絶対座標を求めることができるものである。
【0012】
画像は、本来二次元であるが、連続する二次元の画像から、認識と同時に、三次元構造が分かれば、大きな活用・展開が期待できるようになる。
当然のことながら、例えば従来の測量機等と組み合わせれば、後処理で対象物の三次元座標の取得は可能であるが、本発明では、対象物の認識と同時に三次元座標の取得を実現しつつ、認識の確度と三次元座標の精度を向上させることができることを特徴とするものである。
ここで、本発明における対象物の三次元座標とは、目的に応じて、前もって代表点を何処にするか決めておくことができる。例えば、対象物の中心の三次元座標や、下端の三次元座標、上端の三次元座標、あるいは全体の三次元形状などを指定することができる。具体的には、道路標識であれば、標識の中心か、その上端か、その下端か、その全体か、等である。
【0013】
このような本発明によれば、先ず始めに、従来の機械学習の対象物認識において、その対象物の三次元座標の取得が可能となり、そこに本願出願人に係るCV技術が適用されることにより、映像中に動画のまま、機械学習を適応させることが可能となり、認識対象物が三次元座標を持つことになる。
これによって、これまでの機械学習技術では不可能であった新たな領域への利用・展開が可能となる。
【発明の効果】
【0014】
本発明によれば、動画像から画像内の対象物を認識し、同時に当該対象物の三次元座標取得を行い、これを連続して行うことで、自動的に座標付き対象物のデータベースを自動作成し、さらにはこのデータベースを基準の三次元地図として自動運転を行い、さらには、時間軸をも含めたこれらのデータベースの膨大な情報を効率的に伝送し記録することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明の認識位置決め装置において、対象映像のCV演算を行うCV演算手段(CV映像取得部)の一実施形態の基本構成を示すブロック図である。
【
図2】
図1に示すCV演算手段で使用する全周ビデオ映像を撮影する手段を示す概略図であり、屋根部に全周カメラを搭載した車輌の斜視図である。
【
図3】
図1に示すCV演算手段で使用する全周ビデオ映像を撮影する手段を示す概略図であり、(a)は屋根部に全周カメラを搭載した車輌の正面図、(b)は同じく平面図である。
【
図4】全周カメラで撮影される映像から得られる変換画像を示す説明図であり、(a)は球面画像が貼り付けられる仮想球面を、(b)は仮想球面に貼り付けられた球面画像の一例を、(c)は(b)に示した球面画像をメルカトール図法に従って平面展開した画像を示している。
【
図5】本発明の一実施形態に係るCV演算手段おける具体的なカメラベクトルの検出方法を示す説明図である。
【
図6】本発明の一実施形態に係るCV演算手段における具体的なカメラベクトルの検出方法を示す説明図である。
【
図7】本発明の一実施形態に係るCV演算手段における具体的なカメラベクトルの検出方法を示す説明図である。
【
図8】本発明の一実施形態に係るCV演算手段によるカメラベクトルの検出方法における望ましい特徴点の指定態様を示す説明図である。
【
図9】本発明の一実施形態に係るCV演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。
【
図10】本発明の一実施形態に係るCV演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。
【
図11】本発明の一実施形態に係るCVデータ演算手段により得られる特徴点の三次元座標とカメラベクトルの例を示すグラフである。
【
図12】本発明の一実施形態に係るCV演算手段において、カメラから特徴点の距離に応じて複数の特徴点を設定し、それを隣接するフレームに亘って追跡し、複数の演算を繰り返し行う場合を示す説明図である。
【
図13】本発明の一実施形態に係るCVデータ演算手段で求められたカメラベクトルの軌跡をビデオ映像中に表示した場合の図である。
【
図14】本発明の一実施形態に係るCVデータ演算手段で求められるCV値とRV値とMV値との関係を模式的に示す説明図である。
【
図15】本発明の一実施形態に係る認識位置決め装置の基本構成を示すブロック図である。
【
図16】本発明の一実施形態に係る認識位置決め装置における対象物認識の手法の一例を模式的に示す説明図である。
【
図17】本発明の一実施形態に係る認識位置決め装置における対象物認識の手法の他の一例を模式的に示す説明図である。
【
図18】本発明の一実施形態に係る認識位置決め装置における機械学習(ディープラーニング)の原理を模式的に示す説明図である。
【
図19】
図18に引き続いて、機械学習(ディープラーニング)の原理を模式的に示す説明図である。
【
図20】
図19に引き続いて、機械学習(ディープラーニング)の原理を模式的に示す説明図である。
【
図21】
図20に引き続いて、機械学習(ディープラーニング)の原理を模式的に示す説明図である。
【
図22】本発明の一実施形態に係る認識位置決め装置における移動体の認識と位置決めの原理を模式的に示す説明図である。
【
図23】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の一例である。
【
図24】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。
【
図25】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。
【
図26】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。
【
図27】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。
【
図28】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の他の一例である。
【
図29】本発明の一実施形態に係る認識位置決め装置において生成・出力される画像の一例である。
【
図30】本発明に係る認識位置決め装置を備えた情報変換装置の一実施形態を示す機能ブロック図である。
【
図31】
図30に示す情報変換装置の詳細構成を示す機能ブロック図である。
【
図32】
図30に示す情報変換装置の他の詳細構成を示す機能ブロック図である。
【
図33】本発明の一実施形態に係る情報変換装置において生成・出力される画像の一例である。
【
図34】本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。
【
図35】本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。
【
図36】本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。
【
図37】本発明に係る認識位置決め装置を備えた情報変換装置の他の実施形態を示す機能ブロック図である。
【発明を実施するための形態】
【0016】
以下、本発明に係る認識位置決め装置及び情報変換装置の好ましい実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明の認識位置決め装置及び情報変換装置は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示すような所定の処理や機能、例えば、対象映像中の基準となる特徴点(基準点)やその他の特徴点の自動抽出,抽出した基準点の自動追跡,基準点の三次元座標の算出,CV(カメラベクトル)値の演算,CV映像に含まれる対象物の認識・同定,認識された対象物への三次元位置座標の付加,対象物の認識と三次元位置座標の付加の繰り返しによる高精度な認識確度と三次元座標精度の付加・出力,同定・認識された対象物に対応するID及びその属性情報による再構成画像の生成等を行わせる。このように、本発明における各処理や手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。
【0017】
なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。
また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
また、コンピュータは、例えば一台のPC等で構成してもよく、また、複数台のサーバコンピュータ等で構成することもできる。
【0018】
[CV映像]
以下に示す本発明の一実施形態に係る認識位置決め装置は、例えばビデオカメラで撮影・取得された対象映像に基づいて、動画像から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与するための手段である。
そして、本実施形態に係る認識位置決め装置では、上記のような映像中の対象物の認識・三次元座標付与を高精度に実現するために、対象映像に所定の三次元座標と姿勢の計6変数の情報を付与したCV(カメラベクトル)映像を用いることを前提としている。
なお、上記と同等の6変数は、例えばカメラに取り付けた機械センサー(IMUとジャイロ等)などによっても取得できるが、CV演算による方が、精度が高く、コストがかからず、簡単に生成・取得することができる。
【0019】
以下、本発明に係る認識位置決め装置で用いられるCV映像について説明する。
認識位置決め装置での対象物の認識・三次元座標取得処理を行う前提として、対象・目的となる対象物を含む対象映像を取得・撮影する撮影カメラを車両等の移動体に設置し、動画映像、又は連続する静止画を取得する。その上で、取得した対象映像の各フレーム画像の中に特徴点を抽出
して、数学的演算により、全フレームのカメラ位置と姿勢を演算で求める。
具体的にはカメラ位置と姿勢を6変数、具体的には、カメラの位置座標(X,Y,Z)とそれぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度のベクトル(カメラベクトル:CV)で表し、それを映像の各フレームに一対一に対応させることで、CV映像を生成することができる(後述する
図1~14参照)。
このCV映像を用いることで、既存の測量機による測量技術等を用いることなく、任意の映像において所望の対象物の認識・三次元座標取得処理が可能となる。
【0020】
ここで、目的となるカメラの位置と姿勢を示す6変数とは、座標[X,Y,Z]と姿勢[Φx,Φy,Φz]の計6種類の変数である。
すなわち、本発明に係る認識位置決め装置では、対象映像に含まれる任意の対象物や点について、その位置と姿勢を示す6変数を取得するものである。
そして、この6変数の取得とは、上述のとおり、三次元位置座標を示す[X,Y,Z]と姿勢を示す[Φx,Φy,Φz]の6個の変数を決定することである。
このような位置と姿勢の6変数を示すCV値が付与された映像が、CV映像である。
【0021】
[用語の定義]
次に、本明細書・特許請求の範囲中において使用する用語・語句についての定義を説明する。
・CV値/CV演算/CV映像/CV画像:
移動する物体、(たとえば車両やロボット等)に積載された機械センサーで得られた6変数、及びカメラから得られた連続する静止画像、又は動画像から、カメラの位置と姿勢を算出した6変数をカメラベクトル(CV:Camera Vector)と呼称し、その値をCV値といい(
図14参照)、CV値を演算で求めることをCV演算といい、そしてそのようなCV値を有する画像をCV映像という。
【0022】
なお、例えばカメラに一体化された機械センサー(IMU,Gyroなど)から得られた6変数も、本発明に係るCV値とすることができる。
また、連続しない単独の画像についてはCV画像と呼称することがある。あるいは、1フレームについてのみ着目するときには、当該1フレームの画像をCV画像と呼称することがある。つまり、CV画像はCV映像の特殊な状態(単独画像)である。
【0023】
・RV値:
上記のCV値が静止座標系に対するカメラの位置姿勢の6変数であるのに対して、移動体とカメラの位置姿勢に関する6変数にCV値を代入して、静止座標系と移動体の関係に変換した6変数をムーヴィングベクトル(MV:Moving Vector)値という。
移動体抽出には座標系分離が必要であり、静止座標系から見た対象物の6変数をMV値といい、また、カメラ位置から見た対象物の6変数をリージョナルベクトル(RV:Regional Vector)値という(後記参照)。RV値は、カメラ座標系と移動体座標系との関係を表している。
これらRV値/MV値は、CV値に含まれるものであり、CV値と同様に後述するCV演算により求められる。
【0024】
・MV値/MV演算/MV画像:
上記のとおり、カメラ座標系と静止座標系との関係を示す6変数をCV値、カメラ座標系と移動体座標系との関係を示す6変数をRV値という。
移動する同一の対象物を複数フレームで含む画像において、静止画像系の中を移動する対象物は、RV値として検出される。
静止座標系に固定された例えば建築物のような対象物は、そのままCV値によってカメラ座標系との関係が規定される。
また、移動する対象物(例えば自動車)は、CV値ではなくRV値として規定される。
一方、静止座標系とカメラ座標系の関係のみを求めるときには、RV値は誤差として入ってくる値となるので削除される。
【0025】
ところで、RV値は、対象物単位(例えば車のような形の決まっている対象物)で取得される。
また、対象物を構成する複数の部分が個別の動きをする場合(例えば人間のような形の変化する対象物)には、複数のRV値を持つことになる。
ここで、移動する車両の運動を解析するような場合は、CV
画像の座標系と、移動対象物との関係を求める必要が出てくる。
まず、
図14に示すように、CV値とRV値とでは、CV値を介してその関係が求められることになる。
そこで、
図14に示すように、静止座標系と移動対象物の座標系との関係を直接的に示す
変数をMV値、そのための演算をMV演算、対象物
の画像をMV画像という。
【0026】
すなわち、CV値とRV値とで共通としている要素のカメラ座標系を削除し、静止座標系と移動体座標系との直接の関係を示す6変数を求めることをMV演算とし、その6変数をムーヴィングベクトル(MV:Moving Vector)値とする。
図14に、本発明に係るCV値・RV値・MV値の関係を模式的に示す。
同図に示すように、MV演算を行うには、カメラ座標系を共通項として、互いのCV値(RV値)を削除することで、MV値が得られることになる。
また、このようにしてMV値が取得された画像をMV画像という。
なお、当然のことながら、静止座標系と移動体座標系を示すMV値は時々刻々、時間とともに変化することになる。
【0027】
・対象物の認識:
本発明において、対象物の「認識」とは、目的の対象物、及びその物体の属性が、用意したカテゴリー別に決定されることをいう。さらに、あらかじめ決められた対象物の名称を決めることも「認識」となる。
対象映像の各フレームで認識された複数の対象物は、それが同じ物体である保証はない。
すなわち、「認識」は、形状取得ではなく、カテゴリーに分類されたことを意味する。
【0028】
・対象物の同定:
本発明において、対象物の「同定」とは、上記のように「認識」された対象物が、同一の物体であることを決定することをいう。
具体的には、認識された対象物(例えば電柱)が、決まった場所に立つ「同一の電柱」であると決定することを「同定」という。
以上のような対象物の認識/同定処理については、後述する
図15~22を参照しつつ詳しく説明する。
【0029】
[CV演算]
次に、上記のような本発明の認識位置決め装置で用いられるCV映像を生成するためのCV演算の詳細について
図1~
図14を参照しつつ説明する。
CV演算とはCV値を求めることを意味し、求められた結果をCV値,CVデータと呼ぶ。CVという表記は、「カメラベクトル:Camera Vector」の略記であり、カメラベクトル(CV)とは計測等のために映像を取得するビデオカメラ等のカメラの三次元位置と3軸回転姿勢を示す値である。
CV値は、カメラ座標系と静止座標系との関係を表している。
CV演算は、動画像(ビデオ映像)を取得し、その映像内の特徴点を検出し、それを隣接する複数のフレームに追跡し、カメラ位置と特徴点の追跡軌跡とが作る三角形を画像内に数多く生成し、その三角形を解析することで、カメラの三次元位置とカメラの3軸回転姿勢を求めるものである。
【0030】
CV演算では、CV値を求める過程で、同時に映像内の特徴点(基準点)についても三次元座標が同時に求まることが重要な特性である。
また、動画像から演算で求められるCV値は、動画像の各フレームに対応して、三次元のカメラ位置と三次元のカメラ姿勢とが同時に求まる。しかも、原理的には一台のカメラで、映像と対応してCV値が求められる特性は、CV演算でしか実現し得ない、優れた特徴である。
例えば、他の方法による計測手段(GPSやIMU等)では、動画像の各フレームと、その三次元的カメラ位置と三次元的カメラ姿勢とを同時に取得するためには画像フレームと計測サンプリング時刻を高精度で、しかも完全に同期しなければならないために、巨額の装置となり、実質的には実現が困難である。
【0031】
動画像から演算で求められるCVデータは、加工しない段階では相対値であるが、短区間であれば高精度で三次元位置情報と3軸回転の角度情報を取得できる。
また、CVデータは画像から取得するため、取得されたデータは相対値であるが、画像内の任意の対象物の位置関係を計測することができるという他の方法では実現は可能な優れた特性を備える。
また、画像に対応したCV値が求まるので、画像内計測や測量において、画像から直接にカメラ位置とその3軸回転姿勢を求めることができるCV演算は画像内計測や画像内測量に好適となる。
そして、本発明の認識位置決め装置は、このCV演算により得られたCV値データが付与された映像(CV映像)に基づいて、映像中の任意の対象物についての認識及び三次元座標取得処理を行うものである。
【0032】
[CV演算手段]
CV演算は、後述する本発明の認識位置決め装置のCV映像取得部20(
図15参照)として機能するCV演算手段20で行われる。
CV演算手段(CV映像取得部)20は、
図1に示すように、車載のビデオカメラ等で構成される対象映像取得部(全周囲カメラ部)10から入力されるビデオ映像について所定のCV演算処理を行うようになっており、具体的には、特徴点抽出部21と、特徴点対応処理部22と、カメラベクトル演算部23と、誤差最小化部24と、三次元情報追跡部25と、高精度カメラベクトル演算部26とを備えている。
【0033】
まず、CV演算に使用する映像としては、どのような映像でもよいが、画角の限られた映像では視点方向を移動した場合に映像がとぎれてしまうので、全周映像(
図2~4参照)とすることが望ましい。なお、動画映像は連続する静止画と同様であり、静止画と同様に扱うことができる。
また、映像は、一般には予め記録した動画映像を使うことになるが、自動車等の移動体の移動に合わせてリアルタイムに取り込んだ映像を使用することも勿論可能である。
【0034】
そこで、本実施形態では、CV演算に使用する映像として、車輌等の移動体の360度の全周囲を撮影した全周映像(
図2~4参照)か、又は全周映像に近い広角映像を用いて、その全周映像を視点方向に平面展開することにより、任意の視点移動の対象となる対象映像を取得・生成する対象映像取得部10を備えている(
図1参照)。
ここで、全周映像の平面展開とは、全周映像を、通常の画像として遠近法
で表現するものである。ここで、「遠近法」と呼称するのは、全周画像のそのものはメルカトール図法や球面投影図法のように、遠近法とは異なる方法で表示されているので(
図4参照)、これを平面展開表示することで、通常の遠近法映像に変換表示できるからである。
【0035】
対象映像取得部10において全周映像を生成するには、まず、
図2及び
図3に示すように、全周ビデオカメラ11を使用して、CV値データを取得する目的で、走行車輌等の移動体11aに固定された全周ビデオカメラ11で、移動体11aの移動とともに移動体周辺を撮影する。
なお、移動体11aには、その位置座標を取得する目的で、例えば、絶対座標を取得するGPS機器単独やIMU機器を付加したもの等により構成した位置計測機器等を備えることができる。
また、移動体11aに搭載される全周ビデオカメラ11としては、広範囲映像を撮影,取得するカメラであればどのような構成であってもよく、例えば、広角レンズや魚眼レンズ付きカメラ、移動カメラ、固定カメラ、複数のカメラを固定したカメラ、360度周囲に回転可能なカメラ等がある。本実施形態では、
図2及び
図3に示すように、車輌に複数のカメラが一体的に固定され、移動体11aの移動に伴って広範囲映像を撮影する全周ビデオカメラ11を使用している。
【0036】
そして、以上のような全周ビデオカメラ11によれば、
図3に示すように、移動体11aの天井部等に設置されることで、カメラの360度全周囲の映像を複数のカメラで同時に撮影することができ、移動体11aが移動することで、広範囲映像を動画データとして取得できる。
ここで、全周ビデオカメラ11は、カメラの全周映像を直接取得できるビデオカメラであるが、カメラの全周囲の半分以上を映像として取得できれば全周映像として使用できる。
また、画角が制限された通常のカメラの場合でも、CV演算の精度としては低下するが、全周映像の一部分として取り扱うことが可能である。
【0037】
なお、全周ビデオカメラ11で撮影された広範囲映像は、一枚の画像として、撮影時の画角に一致する仮想球面に貼り付けることができる。
仮想球面に貼り付けられた球面画像データは、仮想球面に貼り付けた状態の球面画像(360度画像)データとして保存・出力される。仮想球面は、広範囲映像を取得するカメラ部を中心点とした任意の球面状に設定することができる。
図4(a)は球面画像が貼り付けられる仮想球面の外観イメージであり、同図(b)は仮想球面に貼り付けられた球面画像の一例である。また、同図(c)は、(b)の球面画像をメルカトール図法に従って平面展開した画像例を示す。
【0038】
そして、以上のように生成・取得された全周ビデオ映像が、本発明に係る対象映像としてCV演算手段(CV映像取得部)20に入力されてCV値データが求められる(
図1参照)。
CV演算手段20では、まず、特徴点抽出部21が、対象映像取得部10の全周ビデオカメラ11で撮影されて一時記録された動画像データの中から、十分な数の特徴点(基準点)を自動抽出する。
特徴点対応処理部22は、自動抽出された特徴点を、各フレーム間で各フレーム画像内において自動的に追跡することで、その対応関係を自動的に求める。
カメラベクトル演算部23は、対応関係が求められた特徴点の三次元位置座標から各フレーム画像に対応したカメラベクトルを演算で自動的に求める。
誤差最小化部24は、複数のカメラ位置の重複演算により、各カメラベクトルの解の分布が最小になるように統計処理し、誤差の最小化処理を施したカメラ位置方向を自動的に決定する。
【0039】
三次元情報追跡部25は、カメラベクトル演算部23で得られたカメラベクトルを概略のカメラベクトルと位置づけ、その後のプロセスで順次画像の一部として得られる三次元形状に基づいて、複数のフレーム画像に含まれる部分的な三次元形状を隣接するフレームの画像に沿って自動追跡を行う。ここで、三次元情報(三次元形状)とは、主に特徴点の三次元分布情報であり、すなわち、三次元の点の集まりであり、この三次元の点の集まりが三次元形状を構成する。
高精度カメラベクトル演算部26は、三次元情報追跡部25で得られた追跡データに基づいて、カメラベクトル演算部23で得られるカメラベクトルより、さらに高精度なカメラベクトルを生成,出力する。
そして、以上のようにして得られたカメラベクトルが、後述する認識位置決め装置100に入力され、映像中で指定・選択される任意の対象物や点についての認識処理・三次元座標付加処理に用いられることになる。
【0040】
複数の画像(動画又は連続静止画)の特徴点からカメラベクトルを検出するには幾つかの方法があるが、
図1に示す本実施形態のCV演算手段20では、画像内に十分に多くの数の特徴点を自動抽出し、それを自動追跡することで、
例えば、ステレオビジョンを扱う幾何学である公知のエピポーラ幾何学により、カメラの三次元
位置及び3軸回転
姿勢を求めるようにしてある。
特徴点を充分に多くとることにより、カメラベクトル情報が重複することになり、重複する情報から誤差を最小化させて、より精度の高いカメラベクトルを求めることができる。
【0041】
カメラベクトルとは、カメラの持つ自由度のベクトルである。
一般に、静止した三次元物体は、位置座標(X,Y,Z)と、それぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度を持つ。
したがって、カメラベクトルは、カメラの位置座標(X,Y,Z)とそれぞれの座標軸の回転角(Φx,Φy,Φz)の六個の自由度のベクトル(6変数)をいう。なお、カメラが移動する場合は、自由度に移動方向も入るが、これは上記の六個の自由度(変数)から微分して導き出すことができる。
このように、本実施形態のカメラベクトルの検出とは、カメラは各フレーム毎に六個の自由度の値をとり、各フレーム毎に異なる六個の自由度を決定することである。
【0042】
以下、CV演算手段20における具体的なカメラベクトルの検出方法について、
図5以下を参照しつつ説明する。
まず、上述した対象映像取得部10の全周ビデオカメラ11で取得された画像データは、間接に又は直接に、CV演算手段20の特徴点抽出部21に入力され、特徴点抽出部21で、適切にサンプリングされたフレーム画像中に、特徴点となるべき点又は小領域画像が自動抽出され、特徴点対応処理部22で、複数のフレーム画像間で特徴点の対応関係が自動的に求められる。
具体的には、カメラベクトルの検出の基準となる、十分に必要な数以上の特徴点を求める。画像間の特徴点とその対応関係の一例を、
図5~
図7に示す。図中「+」が自動抽出された特徴点であり、複数のフレーム画像間で対応関係が自動追跡される(
図7に示す対応点1~4参照)。
ここで、特徴点の抽出は、
図8に示すように、各画像中に充分に多くの特徴点を指定,抽出することが望ましく(
図8の○印参照)、例えば、100点程度の特徴点を抽出する。
【0043】
続いて、カメラベクトル演算部23で、抽出された特徴点の三次元座標が演算により求められ、その三次元座標に基づいてカメラベクトルが演算により求められる。具体的には、カメラベクトル演算部23は、連続する各フレーム間に存在する、十分な数の特徴の位置と、移動するカメラ間の位置ベクトル、カメラの3軸回転ベクトル、各カメラ位置と特徴点をそれぞれ結んだベクトル等、各種三次元ベクトルの相対値を演算により連続的に算出する。
本実施形態では、例えば、360度全周画像のエピポーラ幾何からエピポーラ方程式を解くことによりカメラ運動(カメラ位置とカメラ回転)を計算するようになっている。
【0044】
図7に示す画像1,2は、360度全周画像をメルカトール展開した画像であり、緯度φ、経度θとすると、画像1上の点は(θ1,φ1)、画像2上の点は(θ2,φ2)となる。そして、それぞれのカメラでの空間座標は、z1=(cosφ1cosθ1,cosφ1sinθ1,sinφ1)、z2=(cosφ2cosθ2,cosφ2sinθ2,sinφ2)である。カメラの移動ベクトルをt、カメラの回転行列をR、とすると、z1
T[t]×Rz2=0がエピポーラ方程式である。
十分な数の特徴点を与えることにより、線形代数演算により最小自乗法による解としてt及びRを計算することができる。この演算を対応する複数フレームに適用し演算する。
【0045】
ここで、カメラベクトルの演算に利用する画像としては、360度全周画像を用いることが好ましい。
カメラベクトル演算に用いる画像としては、原理的にはどのような画像でも良いが、
図7に示す360度全周画像のような広角画像の方が特徴点を数多く選択し易くなる。そこで、本実施形態では、CV演算に360度全周画像を用いており、これによって、特徴点の追跡距離を長くでき、特徴点を十分に多く選択することができ、遠距離、中距離、短距離それぞれに都合の良い特徴点を選択することができるようになる。また、回転ベクトルを補正する場合には、極回転変換処理を加えることで、演算処理も容易に行えるようになる。これらのことから、より精度の高い演算結果が得られるようになる。
なお、
図7は、CV演算手段20における処理を理解し易くするために、1台又は複数台のカメラで撮影した画像を合成した360度全周囲の球面画像を地図図法でいうメルカトール図法で展開したものを示しているが、実際のCV演算では、必ずしもメルカトール図法による展開画像である必要はない。
【0046】
次に、誤差最小化部24では、各フレームに対応する複数のカメラ位置と複数の特徴点の数により、複数通り生じる演算方程式により、各特徴点に基づくベクトルを複数通り演算して求めて、各特徴点の位置及びカメラ位置の分布が最小になるように統計処理をして、最終的なベクトルを求める。例えば、複数フレームのカメラ位置、カメラ回転及び複数の特徴点について、Levenberg-Marquardt法により最小自乗法の最適解を推定し、誤差を収束してカメラ位置、カメラ回転行列、特徴点の座標を求める。
さらに、誤差の分布が大きい特徴点につては削除し、他の特徴点に基づいて再演算することで、各特徴点及びカメラ位置での演算の精度を上げるようにする。
このようにして、特徴点の位置とカメラベクトルを精度良く求めることができる。
【0047】
図9~
図11に、CV演算により得られる特徴点の三次元座標とカメラベクトルの例を示す。
図9~
図11は、本実施形態のCV演算によるベクトル検出方法を示す説明図であり、移動するカメラによって取得された複数のフレーム画像によって得られるカメラ及び対象物の相対的な位置関係を示す図である。
図9では、
図7の画像1,2に示した特徴点1~4の三次元座標と、画像1と画像2の間で移動するカメラベクトル(X,Y,Z)が示されている。
図10及び
図11は、充分に多くの特徴点とフレーム画像により得られた特徴点の位置と移動するカメラの位置が示されている。同図中、グラフ中央に直線状に連続する○印がカメラ位置であり、その周囲に位置する○印が特徴点の位置と高さを示している。
【0048】
ここで、CV演算手段20におけるCV演算は、より高精度な特徴点とカメラ位置の三次元情報を高速に得るために、
図12に示すように、カメラから特徴点の距離に応じて複数の特徴点を設定し、複数の演算を繰り返し行うようにする。
具体的には、CV演算手段20では、画像内には映像的に特徴がある特徴点を自動検出し、各フレーム画像内に特徴点の対応点を求める際に、カメラベクトル演算に用いるn番目とn+m番目の二つのフレーム画像FnとFn+mに着目して単位演算とし、nとmを適切に設定した単位演算を繰り返すことができる。
mはフレーム間隔であり、カメラから画像内の特徴点までの距離によって特徴点を複数段に分類し、カメラから特徴点までの距離が遠いほどmが大きくなるように設定し、カメラから特徴点までの距離が近いほどmが小さくなるように設定する。このようにするのは、カメラから特徴点までの距離が遠ければ遠いほど、画像間における位置の変化が少ないからである。
【0049】
そして、特徴点のm値による分類を、十分にオーバーラップさせながら、複数段階のmを設定し、画像の進行とともにnが連続的に進行するのにともなって、演算を連続的に進行させる。そして、nの進行とmの各段階で、同一特徴点について複数回重複演算を行う。
このようにして、フレーム画像FnとFn+mに着目した単位演算を行うことにより、m枚毎にサンプリングした各フレーム間(フレーム間は駒落ちしている)では、長時間かけて精密カメラベクトルを演算し、フレーム画像FnとFn+mの間のm枚のフレーム(最小単位フレーム)では、短時間処理で行える簡易演算とすることができる。
【0050】
m枚毎の精密カメラベクトル演算に誤差がないとすれば、m枚のフレームのカメラベクトルの両端は、高精度演算をしたFnとFn+mのカメラベクトルと重なることになる。したがって、FnとFn+mの中間のm枚の最小単位のフレームについては簡易演算で求め、簡易演算で求めたm枚の最小単位フレームのカメラベクトルの両端を、高精度演算で求めたFnとFn+mのカメラベクトルに一致するように、m枚の連続したカメラベクトルのスケール調整をすることができる。
このようにして、画像の進行とともにnが連続的に進行することにより、同一特徴点について複数回演算されて得られる各カメラベクトルの誤差が最小になるようにスケール調整して統合し、最終のカメラベクトルを決定することができる。
これにより、誤差のない高精度のカメラベクトルを求めつつ、簡易演算を組み合わせることにより、演算処理を高速化することができるようになる。
【0051】
ここで、簡易演算としては、精度に応じて種々の方法があるが、例えば、(1)高精度演算では100個以上の多くの特徴点を用いる場合に、簡易演算では最低限の10個程度の特徴点を用いる方法や、(2)同じ特徴点の数としても、特徴点とカメラ位置を同等に考えれば、そこには無数の三角形が成立し、その数だけの方程式が成立するため、その方程式の数を減らすことで、簡易演算とすることができる。
これによって、各特徴点及びカメラ位置の誤差が最小になるようにスケール調整する形で統合し、距離演算を行い、さらに、誤差の分布が大きい特徴点を削除し、必要に応じて他の特徴点について再演算することで、各特徴点及びカメラ位置での演算の精度を上げることができる。
【0052】
また、このように高速な簡易演算を行うことにより、カメラベクトルのリアルタイムに近い処理が可能となる。カメラベクトルの高速演算処理は、目的の精度をとれる最低のフレーム数と、自動抽出した最低の特徴点数で演算を行い、カメラベクトルの概略値を高速演算で求め、表示し、次に、画像が蓄積するにつれて、フレーム数を増加させ、特徴点の数を増加させ、より精度の高いカメラベクトル演算を行い、概略値を精度の高いカメラベクトル値に置き換えて表示することができる。
【0053】
さらに、本実施形態では、より高精度のカメラベクトルを求めるために、三次元情報(三次元形状)の追跡を行うことができる。
具体的には、まず、三次元情報追跡部25で、カメラベクトル演算部23,誤差最小化部24を経て得られたカメラベクトルを概略のカメラベクトルと位置づけ、その後のプロセスで生成される画像の一部として得られる三次元情報(三次元形状)に基づいて、複数のフレーム画像に含まれる部分的三次元情報を隣接するフレーム間で連続的に追跡して三次元形状の自動追跡を行う。
そして、この三次元情報追跡部25で得られた三次元情報の追跡結果から、高精度カメラベクトル演算部26においてより高精度なカメラベクトルが求められる。
【0054】
上述した特徴点抽出部21及び特徴点対応処理部22では、特徴点を複数のフレーム間画像内に自動追跡するが、特徴点が消失するなどして特徴点の追跡フレーム数に制限が出てくることがある。また、画像は二次元であり、追跡途中で形状が変化するために追跡精度にも一定の限界がある。
そこで、特徴点追跡で得られるカメラベクトルを概略値と位置づけ、その後のプロセスで得られる三次元情報(三次元形状)を各フレーム画像上に追跡して、その軌跡から高精度カメラベクトルを求めることができる。
三次元形状の追跡は、マッチング及び相関の精度を得やすく、三次元形状はフレーム画像によって、その三次元形状も大きさも変化しないので、多くのフレームに亘って追跡が可能であり、そのことでカメラベクトル演算の精度を向上させることができる。これはカメラベクトル演算部23により概略のカメラベクトルが既知であり、三次元形状が既に分かっているから可能となるものである。
【0055】
カメラベクトルが概略値の場合、非常に多くのフレームに亘る三次元座標の誤差は、特徴点追跡による各フレームに関係するフレームが少ないので、誤差が累積して長距離では次第に大きな誤差になるが、画像の一部分を切り取ったときの三次元形状の誤差は相対的に少なく、形状の変化と大きさに及ぼす影響はかなり少ないものとなる。このため、三次元形状での比較や追跡は、二次元形状追跡の時よりも極めて有利となる。追跡において、二次元形状での追跡の場合、複数のフレームにおける形状の変化と大きさの変化を避けられないまま追跡することになるので、誤差が大きかったり、対応点が見つからないなどの問題があったが、三次元形状での追跡においては形状の変化が極めて少なく、しかも原理的に大きさの変化もないので、正確な追跡が可能となる。
【0056】
ここで、追跡の対象となる三次元形状データとしては、例えば、特徴点の三次元分布形状や、特徴点の三次元分布形状から求められるポリゴン面等がある。
また、得られた三次元形状を、カメラ位置から二次元画像に変換して、二次元画像として追跡することも可能である。カメラベクトルの概略値が既知であることから、カメラ視点からの二次元画像に投影変換が可能であり、カメラ視点の移動による対象の形状変化にも追従することが可能となる。
【0057】
以上のようにして求められたカメラベクトルは、全周ビデオカメラ11で撮影されたビデオ映像中に重ねて表示することができる。
例えば、
図13に示すように、車載カメラからの映像を平面展開して、各フレーム画像内の目的平面上の対応点を自動で探索し、対応点を一致させるように結合して目的平面の結合画像を生成し、同一の座標系に統合して表示する。
さらに、その共通座標系の中にカメラ位置とカメラ方向を次々に検出し、その位置や方向、軌跡をプロットしていくことができる。CVデータは、その三次元位置と3軸回転を示しており、ビデオ映像に重ねて表示することで、ビデオ映像の各フレームでCV値を同時に観察できる。CVデータをビデオ映像に重ねた表示した画像例を
図13に示す。
【0058】
なお、ビデオ映像内にカメラ位置を正しく表示すると、CV値が示すビデオ映像内の位置は画像の中心となり、カメラ移動が直線に近い場合は、すべてのフレームのCV値が重なって表示されてしまうので、例えば
図13に示すように、敢えてカメラ位置から真下に1メートルの位置を表示することが適切である。あるいは道路面までの距離を基準として、道路面の高さにCV値を表示するのがより適切である。
【0059】
また、以上のようにして求められたCV値に基づいて、上述したRV値・MV値を求めることができる。
図14に、CV値・RV値・MV値の関係を模式的に示す。
RV値は、静止座標系に対するカメラの位置姿勢の6変数であるCV値を、移動体とカメラの位置姿勢に関する6変数にCV値を代入して、静止座標系と移動体の関係に変換した6変数として求めることができる。
MV値は、CV値とRV値とで共通としている要素のカメラ座標系を削除し、静止座標系と移動体座標系との直接の関係を示す6変数として求めることができる。
【0060】
[認識位置決め装置]
次に、以上のようにして求められたCV値,RV値,MV値が付与された対象映像(CV映像)に基づいて実行される、対象映像中の任意の点・対象物についての視点移動表示処理を行う本発明に係る認識位置決め装置の実施形態について、図面を参照しつつ具体的に説明する。
図15は、本発明の一実施形態に係る認識位置決め装置100の基本構成を示すブロック図である。
なお、同図に示す本実施形態では、認識位置決め装置100として、対象映像取得部(全周囲カメラ部)10及びCV映像取得部20を一体的に備えた装置構成として示しているが、対象映像取得部10及びCV映像取得部20のいずれか一方又は双方を、認識位置決め装置100とは分離された別体の構成要素として備えることも勿論可能である。
【0061】
図15に示すように、本実施形態に係る認識位置決め装置100は、上述したCV値が付与された対象映像(CV映像)を前提として、映像中の任意の対象物や点が指定・選択されることにより、その指定された対象物等について、映像(動画像)から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与するための装置・手段である。
【0062】
具体的には、本実施形態に係る認識位置決め装置100は、
図15に示すように、全周囲カメラ部(対象映像取得部)10・CV映像取得部20とともに、高密度GNSS部(絶対座標付加部)12,対象物指定部13,連続フレーム機械学習部30,三次元座標演算対象物座標付加部40,認識対象物表示部50の各部として機能するように構成されている。
【0063】
全周囲カメラ部10は、
図1で示した対象映像取得部10であり、認識位置決め装置100に適用する目的映像(基準映像)を撮影・取得するための手段である。
本実施形態では、全周囲カメラ部10は、上述した
図1~3に示したように、全周ビデオカメラ11を備えた走行車両等の移動体11aによって構成される。この移動体11aが、基準映像を取得する目的で、所定の道路等を一定範囲で走行することで、移動体11aに備えられた全周ビデオカメラ11により、移動体11aの移動に伴って移動体周辺の映像を対象映像として撮影・取得する。
この全周囲カメラ部10で取得された対象映像が、CV映像取得部20に入力されて、上述したCV演算に基づくCV映像の作成処理が行われる(
図1~14参照)。
【0064】
CV映像取得部20は、所定の映像取得手段となる全周囲カメラ部10で撮影された対象映像のカメラ座標系と静止座標系との関係、すなわち、カメラ位置と姿勢の三次元座標値と姿勢値を示すCV(カメラベクトル)値を求めるCV演算を行い、対象映像に前記CV値を付加したCV映像を生成するCV映像取得手段である。
また、CV映像取得部20は、CV映像内で移動する移動体について、カメラ座標系と移動体座標系との関係を示す上述したRV値(
図14参照)を求めるRV演算を行う移動体RV値取得部27として機能する。
具体的には、CV映像取得部20は、上述した
図1~14で示したCV演算手段によって構成される。CV映像取得部20によるCV演算の具体的な内容については、上述したとおりである(
図1~14参照)。
【0065】
高密度GNSS部12は、GNSS(Global Navigation Satellite System/全球測位衛星システム)を利用して目的となる対象物の絶対座標を取得する絶対座標付加部であり、、例えばGPS機器やIMU機器などで構成される位置計測機器等によって構成することができる。
このような高密度GNSS部12を備えることにより、相対座標位置を示すCV値を絶対座標で校正し、CV値を絶対座標系に変換することができるようになる。
【0066】
対象物指定部13は、CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定する手段として機能する。
この対象物指定部13によってCV映像中で指定された対象物(例えば、電柱・標識など)が、機械学習の対象として連続フレーム機械学習部30による機械学習処理の対象となる(
図23参照)。
ここで、対象物指定部13による対象物の指定は、認識位置決め装置100に備えられる入力デバイス(例えばマウス等)の入力操作により、CV映像中の任意の対象物を選択・指定することにより行うことができる。
【0067】
連続フレーム機械学習部30は、対象物指定部13で指定された対象物(
図23参照)について、機械学習による認識処理を繰り返し実行する機械学習手段として機能する。
ここで、「機械学習」とは、入力されたデータから有用な規則やルール,判断基準等を抽出し、反復的な学習を繰り返すことで、新たに入力されたデータに対する規則やルール等を自律的に生成して成長する人工知能技術である。
具体的には、例えば「電柱」を認識するための教師データとなる機械学習は、例えば「電柱」を認識するための教師データ(「電柱」を示す画像)を所定数(例えば6000回(枚)程度)、機械学習ツールに入力して学習させることで、その後に入力された画像データから、「電柱」を自律的に認識・出力できるようになる。このような機械学習は、公知の技術(機械学習ツール)を用いることができ、本実施形態に係る認識位置決め装置100が、そのような機械学習ツールを備えたコンピュータ等により構成されることで実現することができる。
この連続フレーム機械学習部30による認識処理の詳細については、
図16を参照しつつ後述する。
【0068】
また、連続フレーム機械学習部30は、CV映像の連続する複数フレームの1フレームのみで認識処理を実行し、目的となる対象物を含む周辺領域の領域座標を取得して、その領域座標の範囲を当該対象物が存在する認識処理の実行範囲となる認識領域として指定する認識領域指定部31として機能する。具体的には、連続フレーム機械学習部30は、
入力操作が行われて認識領域指定部31で指定された
領域を、対象物が存在する隣接する複数のフレームに亘って割り
当てて、当該認識領域において対象物の認識処理を繰り返し実行する。
この認識領域指定部31による認識領域を指定した認識処理の詳細については、
図17を参照しつつ後述する。
【0069】
また、連続フレーム機械学習部30は、対象物が映り込んでいる可能性のあるCV映像の全フレームについて、同一の対象物についての複数の方向と複数の距離の異なる情報
を、一括処理の対象となる塊として、機械学習による認識処理を一括して実行することができる。
さらに、連続フレーム機械学習部30は、CV映像内の移動体を認識処理の対象物として抽出することができる。
この連続フレーム機械学習部30による認識一括処理及び移動体認識処理の詳細については、
図18~
図22を参照しつつ後述する。
【0070】
三次元座標演算対象物座標付加部40は、上述した連続フレーム機械学習部30で認識された対象物を、CV映像の全てのフレームで対応させ、当該CV映像に映り込んでいる各対象物の座標を取得し、座標が一致する対象物を各フレームで確認することで同定して、当該対象物に三次元位置座標を付加する三次元座標付加手段として機能する。
具体的には、三次元座標演算対象物座標付加部40は、連続フレーム機械学習部30との間で、対象物の認識と三次元位置座標の付加を繰り返すことにより(図15の「相互信号」参照)、所定の認識確度と三次元座標精度が得られた対象物について三次元座標を付加して出力する座標付加認識出力部として機能する。
【0071】
また、三次元座標演算対象物座標付加部40は、上述した連続フレーム機械学習部30の認識領域指定部31で指定された認識領域において座標が一致する対象物を各フレームで確認することで同定して、当該対象物に三次元位置座標を付加することができる。
さらに、三次元座標演算対象物座標付加部40は、CV映像中の移動体のRV値に基づいて、移動体を同定して前記三次元位置座標を付加することができる。
この三次元座標演算対象物座標付加部40による同定処理/三次元座標付加処理の詳細についても、連続フレーム機械学習部30における認識処理とともに、
図16~
図22を参照しつつ後述する。
【0072】
認識対象物表示部50は、以上のようにして対象物が認識・同定・三次元座標付加されたCV映像を出力・表示させる出力手段として機能する。
具体的には、認識対象物表示部50は、例えば認識位置決め装置100に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像を生成・出力させることができる(
図23~
図29参照)。
例えば、認識対象物表示部50は、CV映像取得部20で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部13によって選択・指定できるように、目的の対象物(例えば電柱等)が表示される(
図23参照)。
【0073】
また、認識対象物表示部50は、CV映像中において認識・同定されて三次元座標が付与され対象物(電柱等)の識別情報を、CV映像上や二次元地図上にプロットして表示させることができる(
図24及び
図25参照)。
また、認識対象物表示部50は、CV映像上に表示されている特定の対象物「電柱」に付与された識別情報(タグ)を編集可能に表示させることができる(
図26参照)。
また、認識対象物表示部50は、CV映像上に表示されている特定の対象物(電柱等)の視角を移動可能に表示させることができ、当該対象物に付与されているCV値に基づく高さの計測結果や傾き・方位角などを表示させることができる(
図27参照)。
さらに、認識対象物表示部50は、CV映像中において認識・同定されて三次元座標が付与され対象物(例えば案内標識,交通標識等)の位置情報及び属性情報
(対象物の種類を含む)をCV映像上に表示させることができる(
図28及び
図29参照)。
【0074】
[処理動作]
次に、以上のような構成からなる認識位置決め装置100による、CV映像中の目的の対象物についての認識・同定・三次元座標付加の処理・動作(認識位置決め方法)の詳細について、
図15~
図22を参照しつつ説明する。
[全フレーム認識/三次元座標取得]
まず、認識位置決め装置100における基本的な処理動作として、全フレーム認識と、そこから三次元座標を取得する場合の処理動作について説明する。
認識位置決め装置100では、CV映像の連続する複数フレームに亘って映り込んでいる同一の対象物に対して、認識する目的の対象物を指定し、機械学習等を施し、認識作業を実行させ、同時に、認識途中の、又は認識結果の対象物を全てのフレームで対応させ、CV映像に映り込んだ各対象物の座標を取得する。
そして、一致する座標の対象物を各フレームで確認することで同定し、もし座標が一致しなければそれを削除し、認識による対象物の同定と同時に、認識した当該対象物の三次元位置座標を認識結果(対象物)に付加して出力する。必要であれば、その対象物の姿勢・移動方向・三次元形状等も取得して、認識結果に付加して出力する。
【0075】
具体的には、図
15に示すように、まず、CV映像取得部20で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部13で、認識する目的の対象物を指定する(
図23参照)。
これは対象物を内に含むように、大きめの範囲を領域指定することもあるが、
二次元領域分割したセグメンテーションにより、対象物の存在する領域を塗り絵のように切り取って指定して、対象物を指定することでもよい。
この対象物の指定は、認識位置決め装置100に備えられる入力デバイス(例えばマウス等)の入力操作により、CV映像中の任意の対象物を選択・指定することにより行うことができる。
【0076】
次に、連続フレーム機械学習部30で機械学習等を施し、認識作業を繰り返し実行させつつ、確度と座標精度を向上させ、同時に、三次元座標演算対象物座標付加部40との間で相互信号を繰り返しやり取りし、認識結果の対象物を全てのフレームで対応させ、CV映像から各対象物の座標を取得し、一致する座標の対象物を確認することで、当該対象物を同定する。
もし座標が一致しなければその対象物は削除し、同定と同時に、対応が付いた当該対象物の三次元位置座標を取得する。必要であれば、その対象物の姿勢、移動方向、三次元形状等も取得する。
【0077】
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間で相互信号のやり取りを繰り返すことで、目的の三次元座標精度と認識確度を得られるまで、繰り返し演算が実行され、座標付加認識出力部41により、当該対象物に三次元座標が付加されて出力される。
この出力を表示するには、認識対象物表示部50により、CV映像中に認識物体とその三次元座標を同時に表示することができる(
図23~
図29参照)。
【0078】
ここで、
図15に示す「相互信号」とは、
連続フレーム機械学習部30で認識された対象物のデータを三次元座標演算対象物座標付加部40に引き渡し、三次元座標演算対象物座標付加部40で三次元位置座標が付加された対象物のデータを連続フレーム機械学習部30に引き渡すことにより、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40の間で信号
(データ)をやりとりさせ、互いに依存しながら、精度を向上させ、目的の確度と精度が出るまで、
CV映像の複数フレームに亘って繰り返し演算を実行させることを意味する。
通常、機械学習は二次元の映像中の対象物を、教師データを使って機械学習させることが多い。これを映像の各フレームに亘って機械学習させることで、同一対象物を複数のフレームで機械学習させることになるので、認識率を向上させることができ、同時に、映像中に対象物を
追跡(トラッキング:Tracking)させることで三次元
位置座標を精度良く取得することができる。
【0079】
上述のとおり、CV映像によれば、画像内の任意の特徴点又は特徴領域を隣接フレームに追跡(トラッキング:Tracking)することで、三次元位置座標を取得することができる。その機能を使って、複数フレームに亘って対象物認識させると同時に、隣接フレームに対象物の一部、又は全部をトラッキングさせることで、当該対象物の全体、又は一部の三次元座標を取得できる。
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40の間で「相互信号」のやり取りを繰り返すことで、対象物認識の確度が向上すれば、それと同時に三次元座標の精度も向上することになる。
【0080】
本発明に係る認識位置決め装置100の特徴は、動画像から同一の対象物を認識し、三次元座標の完全一致をもって同定することにある。このことから、例えば20フレーム分の画像で対象物認識を行えば、20フレーム分全部で同時に同定が成されることになり、1フレームだけ同定しないということは無くなり、同定精度が大きく向上することが期待できる。
また、対象物が物(例えば建物など)の陰に隠れたときは、そのフレームは座標が定まらないから、それを排除することで、19フレーム分で認識し、同定すればよいことになる。
【0081】
さらに、CV映像を用いることにより、複数のフレーム画像のみならず、CV映像中の最低でも1フレーム中での対象物の認識と、2フレーム分の映像での三次元座標の取得も可能である。但し、この場合には、1フレーム中での対象物認識は、複数フレームでの認識による認識確度よりは精度としては低いものとなる。
なお、複数のカメラを同時に用いることにより、カメラを移動させることなく、複数画像からCV値を取得できることになるので、移動しない静止画像にも対応することができる。
【0082】
[同定・非同定]
次に、
図16を参照しつつ、認識位置決め装置100における対象物の同定・非同定処理について説明する。
一般に、ある映像中で指定された対象部物が認識された時点で、その全てが同一対象物である保証は無い。すなわち、全てが同一の対象物として同定されるわけではない。
このとき対象物を分類すれば、
図16に示すように、以下の3つのパターンに分けることができる。
(1)同定されるべき対象物301/304・・・
(2)非同定されるべき対象物303
(3)同定も非同定もされない対象物302
【0083】
(1)は、期待される座標に存在する対象物であり、座標が確認されれば同定される。
(2)は、期待されない座標に存在する、似たような対象物であり、全く同じ形状の対象物であっても、座標が異なることで、同定してはならない対象物303もある。近くに同定されるべき対象物があった場合や、同じ形状の物が、他にも存在している場合に検出される。例えば、「電柱」などは同じような形状や色合いなので、全て同じ対象物として検出されてしまう。これは座標値を確認後、非同定と判断することができ、削除される。
また、間違って認識された物も、この(2)に分類され、排除されることになる。
さらに、(3)として、同定されるべき座標に対象物が見つからない場合もある。例えば、カメラ位置からは何かの陰になって、映り込まない場合などである。この場合には、隣接フレームに対象物が同定されていれば、当然対象物が隠れていることを意味するので、そこに存在すると判断することができる。
なお、上記(1)~(3)は、移動する対象物(移動体)にも当てはまるものであり、移動体の移動軌跡、又は予想移動軌跡上で同定・非同定が判断されることになる。
【0084】
以上により、静止対象物であれば、同定されるべき対象物は複数フレームで、同一の三次元座標を持つことになる。
つまり、認識結果は、複数のフレーム画像で、同一座標にある対象物として確認することができる。座標が一致しないときは、対応が付いていないことを意味し、同定されないので、それは排除し、同定可能な対象物のみ同定すればよいことになる。
このことで、認識効率を向上させ、同時に認識対象物の三次元座標、及びその姿勢、又はその三次元形状まで取得することができるようになる。
【0085】
以上のようにして、認識位置決め装置100では、CV映像取得部20で生成されたCV映像を、三次元座標演算対象物座標付加部40とともに、CV映像内の各フレーム画像を複数フレームに亘って同一の対象物を同定し、連続フレーム機械学習部30で機械学習等を施し、認識作業を実行させ、同時に当該対象物の三次元位置座標,姿勢、必要であればその移動方向、三次元形状等を取得することが可能となる。
CV映像内では、全てのフレームに亘って対象物認識することで、その画像内の位置が、矛盾しないことを確認することができる。矛盾していれば、それは異なる対象物であることになる。
【0086】
すなわち、対象物が予想位置において同時に認識されることで、それが同一の対象物であるとの前提が成り立つことから、単一フレーム画像での認識に比較して、認識処理の回数は増加するが、認識確率及び取得した座標の精度は大きく向上する。
また、当該対象物の認識後に精度の高いマッチングを行い、当該対象物の三次元座標の精度をさらに向上させることも可能である。
なお、少なくとも二フレーム間で、容易に概略三次元座標を取得し、その三次元座標を他のフレームに割り当てて、その座標近傍に対象物を認識処理して、一致することを確認することでも同定は可能である。この場合には、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との相互信号は、頻繁にデータのやり取りを行い、先に座標を決定したとしても、結果的にはほぼ同時に、認識と三次元座標決定が成されるようにする。
【0087】
以上の認識・同定処理は、CV映像の全フレーム画像に亘って、同時に対象物認識を実施することが可能である。
また、CV映像では、CV値から対象物を見込む角度が既知であることから、方位別画像を含んだ形で学習したデータを教師として、一気に複数フレームの状態で、認識させることも可能である。
さらには、同一対象物を異なる方向、異なる距離から見ることで、自動的に教師データを作ることが可能となり、ディープラーニングの教師データ作成にも有効な装置となる。このことで、機械学習は、三次元化の方向に進むことが可能となる。これは、教師データ有りの場合でも、教師データ無しの場合でも同様である。
なお、以上で、認識位置決め装置100における対象物の認識と座標特定処理は完了するが、この後の処理として、後述する情報変換装置によって、複数の対象物に分解された
データを、画像再構成表示装置で三次元的に再構成して表示することもできる(
図30~
図33参照)。
【0088】
[対象物の座標予測]
次に、
図17を参照して、認識位置決め装置100における対象物の認識・同定処理として、先に対処物の座標を予測してから認識処理を行う場合について説明する。
認識位置決め装置100では、まずCV映像の1フレームだけで、認識作業を行い、対象物の座標、又は対象物を含む周辺領域座標を取得し、その領域座標の範囲を対象物の存在予想範囲として、認識の実行範囲を限定することができる。そして、その制限された領域を、当該対象物が存在する隣接する複数のフレームに亘って割り
当てて、その範囲で対象物認識を行い、又は姿勢を取得し、予想された座標に乗らない対象物は排除して、予想される座標に対象物が存在する対象物を同定する一連の作業を繰り返すことができる。
このような方法により、対象物をより正しく同定し、その座標をより精度良く決定することができるようになる。
【0089】
具体的には、まず、連続フレーム機械学習部30により、1フレームだけで認識作業を実行する。
その後、三次元座標演算対象物座標付加部40において、対象物の座標、又は対象物を含む周辺領域座標を取得し、認識領域指定部31により、その座標を対象物の予想位置として、認識の実行範囲を限定する。
そして、その制限された領域を隣接する複数のフレームに亘って割り当てて、その範囲で対象物認識を施し、又は姿勢を取得する。また、予想された座標の範囲に位置しない対象物は排除し、予想される座標に対象物が存在するように、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間で相互信号のやり取りを繰り返して演算を実行する。
【0090】
これによって、対象物の座標を確認することで、その対象物を同定し、その座標を決定することができる。
同定された対象物の認識結果と同時に、その過程で取得された三次元座標が同時に出力され、その出力結果は、認識対象物表示部50により、CV映像中に認識物体とその三次元座標を同時に表示することができる(
図23~
図29参照)。
CV映像内では、各対象物は三次元座標を持つので、1フレームのみで対象物認識を行えば、その座標は他のフレームにも共通であることから、他のフレームの対象物の位置は正確に予想することができる。
そこで、このようなCV映像の特性を利用して、最初の1フレームで認識した対象物の三次元座標を概略値として取得し、その時の概略三次元座標を含む小領域を他のフレームに割り
当てて、その座標近傍に対象物を認識処理して、認識結果と概略座標が一致することを確認することで、対象物を同定することができる。
【0091】
以下、
図17を参照して、より具体的に説明する。
同図に示すように、認識処理指定範囲335のように限られた領域を、処理が必要な全フレームに対して指定する。この指定範囲としては、対象物の予想値から、大枠の領域を指定することが可能である。
この認識処理指定範囲335は、全フレームの認識領域を二次元の領域として、あるいは三次元の領域として座標で指定することができる。
このことで、認識処理は全領域で行う必要はなくなり、指定された範囲の内側だけで認識処理を行えば良くなる。
これによって、非同定の検出を可能な限り少なくすることができる。また、作業範囲が小さくなることから、処理効率を向上させることができる。
【0092】
なお、この方法では、一度の作業でも認識と座標取得は可能であるが、繰り返し作業することで、認識確度と座標精度を向上させることもできる。
すなわち、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間の頻繁にデータ(相互信号)のやり取りを行い、先に座標が決定されたとしても、最終的には全フレームを使って再度詳細座標を求めることで、座標精度を向上させることができる。
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40との間で相互信号を繰り返しやり取りすることで、結果的にはほぼ同時に、認識と三次元座標決定が、確度高く、精度良く成されるようになる。
【0093】
[全フレーム一括認識]
次に、
図18~
図22を参照して、認識位置決め装置100における対象物の認識・同定処理として、対象となるCV映像の全フレームの一括認識処理を行う場合について説明する。
認識位置決め装置100では、対象物が映り込んでいる可能性のあるCV映像の全フレームを、個別に処理することなく、関連する全フレームを、対象物の持つ一つの情報
を、一括処理の対象となる塊として扱い、同一の対象物を見込む複数の方向と複数の距離の異なる情報
を、一括処理の対象となる塊として扱うことができる。
そして、その情報の塊を機械学習で一括処理し、一回で認識し、その後に、又は同時にその座標を決定して、対象物の同定を行うことができる。
このような方法によっても、対象物を正確に同定し、その座標をより精度良く決定することができるようになる。
【0094】
具体的には、まず、連続フレーム機械学習部30においては、CV映像内の各フレームで認識を繰り返すのではなく、CV映像内の対象物が映り込んでいる複数フレームの全フレームを、情報の塊とみて、一括で認識を機械学習で行う。
機械学習ツールには、複数フレームを同時に入力させ、一括認識を可能とする。複数フレーム入力を可能とすることで、各フレームでの個別の認識は行わないので、認識精度をより大きく向上させることが可能となる。
この場合、
図17で示した、認識処理指定範囲335を用いることは有効である。
【0095】
この対象物の認識手法によっても、対象物の三次元座標値を同時に求めることが可能である。
なお、この一括認識方法では、前提として、それぞれのフレーム画像内の対象物が三次元座標(CV値)を持っているが、CV値には微少の誤差があるために完全には一致しない場合がある。しかし、全フレームで、一括認識して、同時に座標取得をすれば、誤差は自動的に統計処理され、結果として精度が高まることになる。そして、当然ながら、一括認識処理によって、認識確度は大きく向上することになる。
なお、
図16及び
図17に示した認識処理も共通であるが、対象物は常に面又は体を持つから、その座標を取得して指定するには、対象物の位置(点)、例えば中心や底辺下部というように、一次元点を指定しなければならない。
それは対象物によって、あるいは使用目的によって、人間が定義して、指定することになる。
【0096】
以下、
図18~
図22を参照して、より具体的に説明する。
一般に、ディープラーニングは、RNN(Recurrent Neural Network)を複雑にしたものである。
動画データのような複数データを扱えるようにするために、
図18に示す入力層800と、再帰的な構造をもたせ、双方向に信号が伝播するニューラルネットワークを持っている中間層801に出力層802を持たせるようにする。
RNNを横に繋いで時間変化する連続的なデータに対応させたものが
図18に示すディープラーニング(Deep Learning)である。
【0097】
このディープラーニングは、入力層800は一般的な画像であり、中間層801を多層にすることで、情報伝達と処理を増やし、特徴量の精度や汎用性をあげ、認識精度を向上させることができる。
また、学習済みのモデルを使用する場合には、推論の処理のみなので大規模な計算資源は必要ない。ディープラーニングでは、大量のデータさえあれば、従来の機械学習などではできなかった、複雑な扱いづらいデータも処理を行うことが可能となる。
ここまでは、従来のディープラーニングと同様であるが、本実施形態では、
図19(b)~
図20に示すようにRNNを更に改良している。
【0098】
図19(a)は、
図18と同様の標準的な2D認識のためのディープラーニングである。
図19(b)は、二次元認識・三次元位置決めのために改良した構成である。、
図20は、三次元認識・三次元位置決めのために改良した構成である。
図21は、機能を分離した三次元認識・三次元位置決めのための構成である。
これらの改良された構成は、基本的には
図20が基本形となる。
【0099】
図22は、実際の映像取得と認識対象物とその映像を取得するカメラの移動の関係を模式的に示したものである。
図22では、全周囲カメラを積載した車両が移動する経路を822~827で示している。この図から明らかなように、車両が移動してどの位置に居ても、車両のカメラは常に対象物830を捉えていることが分かる。
また、移動した位置によって、障害物829があって対象物を捉えていないカメラがあるものとする。
【0100】
同図において、車両位置822~827で撮られて取得された映像は、CV演算され、映像を取得したカメラの三次元座標を持つCV映像として、
図19(b)に示したディープラーニングの入力層803に送られる。
この入力層には、
図22に示す822~827までのカメラからの複数画像を受け入れる許容量があるように設定される。
さらに、
図19(b)に示す中間層は、第一中間層804と第二中間層805のように、複数の中間層が設置され、求める座標精度によって、その段数が決められる。
出力層806は、二次元認識とすれば、
図19(a)に示す従来構成と同様で良いが、3次元認識とすれば、
図20に示すように、出力層809は三次元構造となる。
【0101】
さらに、ディープラーニング内部での認識と位置決めの機能を分離して処理する方式を
図21に示す。
同図においては、CV映像の入力層806は、
図19に示す場合と同様とするが、三次元認識と三次元位置決めのために、第二中間層1:808と第二中間層2:810を用意し、同様に出力層1:809と出力層2:811とに機能分離して、認識及び位置決めの精度が向上するようにしている。
以下、三次元認識の三次元位置決定の基本形である
図20(三次元認識と三次元位置決め)の構成を参照して説明する。
【0102】
同図に示す入力層806は、関連するCV動画の、連続するフレームを受容するものとする。具体的には、対象物をカメラで捉えている範囲の画像が有効なCV映像を、有効なフレーム分だけ受け入れる構造とする。
また、中間層を、第一中間層807,第二中間層808・・・のように多段階に増設して、位置決めに耐え得るための必要な段数とする。
なお、
図20では第一中間層807と第二中間層808、
図21では第二中間層1:808と第二中間層2:810と、それぞれ二段としてあるが、座標決定のためには更に多段構造にして、6変数を全て求めることができるようにすることも可能である。
【0103】
そして、
図21に示す第二中間層808,810で位置決めがなされた後、出力層1:809からは三次元認識出力が成され、出力層2:811からは三次元座標が出力されることになる。
以上のようにして、CV映像から、三次元認識と三次元位置決めが、一つのディープラーニングで一括して成されることになり、CV映像の全フレームの一括認識処理が可能となる
【0104】
[移動体認識]
次に、認識位置決め装置100における対象物の認識・同定処理として、対象となるCV映像中で移動する移動体の認識処理を行う場合について説明する。
認識位置決め装置100は、上述のように、CV映像内の移動体を認識対象物として着目し、移動体を抽出し、移動体のRV値を取得して、当該対象物の三次元座標又は三次元形状を付加して対象物認識をする、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40での認識・同定処理を目的とした移動体RV値取得部27を備えている(
図15参照)。
【0105】
本実施形態では、認識位置決め装置100で認識対象となる対象物として、主に静止対象物を想定して説明してきたが、対象物は必ずしも静止座標系上にある対象物に限らない。
すなわち、上述したRV値(リージョナルベクトル値)を取得することで、CV映像中の移動体に関しても、静止対象物の場合と全く同様に、対象物認識及び三次元座標を決定することができる。
【0106】
具体的には、CV映像取得部20の移動体RV値取得部27で生成・取得されるRV値又はMV値と、本願出願人による特許第4502795号「座標系分離記録再生装置」で開示されている移動体の座標系分離の技術を用いることにより実現が可能となる。なお、移動体抽出は、現在よく用いられるセグメンテーションの技術でも可能である。
このようにすることで、静止座標系上の対象物と全く同様に、移動体対象物に対して、本発明に係る認識及び三次元座標決定を同時に行うことができる。
【0107】
以上のような本実施形態に係る認識位置決め装置100において生成・出力される出力結果となる画像の一例を
図23~
図29に示す。
これらの図に示す出力画像は、認識対象物表示部50(
図15参照)により、例えば認識位置決め装置100に接続されたディスプレイ上に、三次元座標が付加された対象物を示す所定の映像として出力・表示させることができる。
図23は、CV映像取得部20で生成された連続する複数フレームに亘って映り込んでいる同一の対象物に対して、対象物指定部13によって認識する目的の対象物として「電柱」が指定されている場合を示している。
【0108】
図24は、CV映像中において認識・同定されて三次元座標が付与され対象物「電柱」の識別情報を、CV映像上にプロットして表示した場合を示している。
図25は、CV映像中において認識・同定されて三次元座標が付与され対象物「電柱」の識別情報を、地図上にプロットして表示した場合を示している。
【0109】
図26は、CV映像上に表示されている特定の対象物「電柱」に付与された識別情報(タグ)を編集可能に表示させた場合を示している。
図27は、CV映像上に表示されている特定の対象物「電柱」の視角を移動させて高さの計測結果や傾き・方位角
を表示させた場合を示している。
図28及び
図29は、それぞれ、CV映像中において認識・同定されて三次元座標が付与され
た対象物「案内標識」,「交通標識」の位置情報及び属性情報
(対象物の種類を含む)をCV映像上に表示した場合を示している。
【0110】
以上説明したように、本実施形態の認識位置決め装置100によれば、動画像から画像内の対象物認識を行うと同時に、認識された対象物の三次元座標取得を行い、これを連続して行うことで、映像中の各対象物に対して高精度な三次元座標を付与することが可能となる。
すなわち、認識位置決め装置100は、機械学習とCV技術を融合することで、認識しながら座標を取得し、座標を取得しながら認識をすることになり、互いに相互作用により、認識の精度を上げながら、三次元座標の精度をあげ、三次元座標の精度を上げながら、対象物認識の確度をあげるという、優れた相乗効果を生み出すことになる。
これによって、対象物の認識はCV技術と融合して、確度の高い対象物認識と同時に、認識対象物の高精度の三次元座標取得が可能となる。
【0111】
また、本実施形態の認識位置決め装置100では、CV映像を用いることにより、直接動画中の対象物を座標付きで認識することができる。
これによって、例えば、道路上を走行する車両に積載したカメラにより、撮影した動画像から、道路周辺の様々な道路設備、標識、車両等の様々な対象物を認識しながら、その三次元座標を取得することが可能となり、自動運転等に必要となる道路データベースなどを、撮影動画から直接的に作成することが可能となる。
また、本実施形態では、CV映像の中の対象物に機械学習を対応させることで、従来の機械学習に対して、対象物の位置と姿勢という情報が追加されることになり、同一対象物を複数方向から認識することになり、機械学習の認識率は格段に向上することになる。
【0112】
このように、本発明は、CV技術と機械学習を組み合わせて、CV技術の特徴を機械学習に組み込むことで、機械学習において避けられない膨大な教師データの作成作業を自動化でき、さらには教師データを減少させることが可能となる。したがって、機械学習処理を効率的に行うことができる上に、指定した対象物の認識作業と同時に、当該対象物の位置座標データ,姿勢データ及びその三次元形状データ等を取得できるようになる。
そして、このような本発明の特徴は、対象物が移動する対象物であっても有効であり、移動対象物の位置座標データ,姿勢データ及びその三次元形状データ等も取得できるようになる。
【0113】
なお、上記の実施形態では、本発明による機械学習の効率化と、対象物の三次元座標取得,姿勢取得の方向から説明したが、昔ながらの相関技術による認識にも全く同様に応用可能である。
また、上記実施形態では、本発明の対象映像取得部として全周囲カメラを想定して説明しており、確かに全周囲カメラが有利ではあるが、全周囲カメラに限定されるものではなく、例えば広角カメラでも良く、あるいは方向別に分割した複数のカメラによる広範囲カメラであっても、同様に本発明の対象映像取得部として構成することができる。
【0114】
[情報変換装置]
次に、本発明に係る情報変換装置の実施形態について説明する。
本発明に係る情報変換装置は、上述した認識位置決め装置100に接続される情報処理装置によって構成され、認識位置決め装置100によって認識・三次元座標付加がなされた対象物を含む画像を、PRM技術を用いて再構成画像として生成・出力できるようにするものである。
【0115】
PRMとは、Parts Reconstruction Method(3D対象物認識方法)の略であり、本願発明者により開発された対象物を認識するための技術である(特許第4582995号参照)。
具体的には、PRM技術は、前もって予想される対象物の形状と属性を部品(オペレータ部品)としてすべて用意しておき、それら部品と現実の実写映像を対比して、一致する部品を選択して対象物を認識する技術である。例えば、走行車輌等に必要となる対象物の「部品」は、道路標示としての車線、白線、黄線、横断道、道路標識としての速度標識、案内標識などであり、これらは定形のものであるので、PRM技術によりその認識は容易に行える。また、対象物をCV映像中に検索する場合においても、その対象物の存在する予想三次元空間を狭い範囲に限定することが可能となり、認識の効率化が可能となる。
【0116】
例えば、信号機であれば、その三次元形状を取得しただけでは「検出」であり、座標と姿勢まで分かれば「特定」であるが、信号機という名称が分かり、3個のライトが赤青黄に変化し、それぞれの交通上の意味を理解しているときに、属性を理解(認識)したということができる。
なお、PRM認識によって、あらゆる監視対象物(予測される対象物、障害物、不審物等)が認識されるとは限らない。すなわち、記憶となるデータベースに情報が存在しない対象物は認識できない。しかし、これは特に問題となるものではない。人間であっても記憶にないものは認識できないのと同様である。認識とはそのもの、あるいは、そのものに近いものの記憶との対比によって得られるものであるからである。
【0117】
本発明に係る情報変換装置は、上記のようなPRM技術と本発明に係る認識位置決め装置を融合させることにより、高精度な三次元座標が付加された対象物を含むCV映像に基づく再構成画像を生成・記録・通信等できるようにするものである。
以下、本発明の情報変換装置の好ましい実施形態について、図面を参照しつつ説明する。
【0118】
[第一実施形態]
まず、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態について、
図30~
図33を参照しつつ説明する。
図30は、本発明に係る認識位置決め装置を備えた情報変換装置の第一の実施形態を示す機能ブロック図である。
また、
図31及び
図32は、
図30に示す情報変換装置の詳細構成を示す機能ブロック図である。
これらの図に示す本実施形態に係る情報変換装置は、認識位置決め装置100に接続される一又は二以上のコンピュータ・情報処理装置等によって構成され、
図30に示すように、認識位置決め装置100の座標付加認識出力部41(
図15参照)からのデータを受信して画像再構成表示装置114に送信するPRM信号送信装置110・PRM信号受信装置111と、同様に座標付加認識出力部41からのデータを画像再構成表示装置114に入力するPRM信号記録装置112・PRM信号再生装置113などを備えて構成される。
【0119】
また、情報変換装置には、対象物に対応する識別情報となる所定のID及び当該IDによって分類された属性情報を記憶したID部品庫となる部品庫選択装置201(
図31及び
図32参照)が備えられる。
そして、画像再構成表示装置114において、認識位置決め装置100において同定されて三次元位置座標が付加された対象物に、ID部品庫に記憶された
、当該対象物の種類に対応するIDを対応させ、複数の対象物を含むCV映像を、各対象物に対応するID及びその属性情報によって再構成することができるようになっている。
【0120】
このような情報変換装置では、まず、前もって認識対象物に対応したIDによって分類されたID部品庫を用意しておき、認識位置決め装置100において複数の種類の対象物に対して対象物認識と三次元座標取得を繰り返して認識された対象物のそれぞれにIDを対応させる。最終的には、CV映像中の目的の画像範囲内の全ての、又は大部分の複数の対象物にIDを対応させる。
その後、それらIDが対応付けられた対象物の三次元座標と姿勢(6変数)が付加された認識結果と、もし当該対象物のその他の属性が取得されていれば、その属性を付加させた結果を、それぞれの対象物のIDと、IDに付加された属性により、目的の画像又は映像を複数のIDによって再構成させ、必要があれば再構成結果を表示することができる。
そして、各対象物の三次元座標と姿勢(6変数)が付加されたIDとその属性を再構築することで、元に近いCV映像を生成・表示させることができる。
【0121】
また、情報変換装置では、複数の各対象物のIDとIDに付加された属性によって、複数のIDによって再構成された目的の画像又は映像について、例えばインターネット等のネットワークを介して伝送することができ、例えば認識位置決め装置100と離れた場所にある画像再構成表示装置114において受信させることができる。
さらに、そのような再構成画像は、所定の記憶手段を備えた装置において記録させ、また、随時読み出して、画像再構成表示装置114において再生することができる。
再構成画像の再生は、各対象物に付加されたIDと属性から、対応する部品を再構成させることで画像を再生することができる。
【0122】
以上のような情報変換装置の具体的な構成及び機能について、
図31及び
図32を参照しつつ説明する。
図31は、認識位置決め装置100からのデータをPRM信号送信装置/PRM信号受信装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。
図32は、認識位置決め装置100からのデータをPRM信号記録装置/PRM信号再生装置を介して画像再構成表示装置に送信する場合の情報変換装置の機能構成を示している。
【0123】
まず、認識位置決め装置100において、画像内の大部分の対象物に認識と三次元化を施すことで、映像は複数の対象物の三次元配置として取得できることになる。
そして、認識位置決め装置100で認識された対象物は、情報変換装置においてID化される。
情報変換装置には、ID部品庫となる複数の部品庫202*1~Nを備えた部品庫選択装置201において、複数の部品庫202*1~Nの中からいずれかの部品庫(ここでは部品庫202*N)が選択される。
【0124】
次に、ID化装置203によって、選択された部品庫に従って対応する対象物IDが決定される。ID化装置203は、CV映像に含まれる対象物を、ID部品庫に記憶された、当該対象物の種類に対応するID及びその属性情報によってID化する手段である。
このID化装置203によって、CV映像の対象物は複数の部品によってID化される。
このとき、対象物は認識された二次元の画像であるが、対応物に対応する部品には三次元形状を持たせることができる。つまり、IDで特定された部品は、属性として三次元形状を持つことができる。
【0125】
また、部品庫202*1~Nに格納されている各部品には、座標以外の属性情報が前もって付属しており、部品及びIDと対応付けて記憶されている。
なお、各部品について、追加の属性を必要とする場合には、属性付加装置204を備えることにより、IDの付加情報として付加することができる。
次に、情報変換装置にはPRM信号生成装置205が備えられ、このPRM信号生成装置205において、ID化装置203でID化されたIDと属性と部品庫番号をPRM信号として生成され、そのPRM信号が、画像再構成表示装置114に送られる。
【0126】
PRM信号の受信側となる画像再構成表示装置114には、受信側部品庫選択装置206が接続され、画像再構成表示装置114では、PRM信号生成装置205から送られたID及び属性信号から、受信側部品庫選択装置206の共通の部品庫202*Nが選択される。
そして、受信されたIDに対応するように、選択された部品庫から必要な部品を収集して、IDに付加された属性情報から、三次元情報に基づいて、複数の部品を三次元に再構成して、再構成画像を生成・表示する。
【0127】
また、PRM信号生成装置205で生成されたPRM信号は、上記のように直接的に画像再構成表示装置114に送信・入力される他、ネットワークを介して通信することができ、また、再生用のデータとして記録することができる。
まず、PRM信号を通信により伝送する場合は、
図31に示すように、PRM信号生成装置205では、対象物に対応するIDと属性と部品庫番号を信号として生成し、PRM信号送信装置110から送信させ、それをPRM信号受信装置111で受信させることができる。
受信されたPRM信号は、受信側の画像再構成表示装置114に入力され、PRM信号から読み取られたID及び三次元座標等の属性信号から、受信側部品庫選択装置206から共通の部品庫202*Nが選択され、記録したIDに対応する必要な部品が収集され、IDに付加された情報を付加して部品が再構成され、再構成画像が生成・表示される。
【0128】
一方、PRM信号が記録・再生される場合には、
図32に示すように、PRM信号生成装置205で生成されたPRM信号が、PRM信号記録装置112において記録され、記録されたPRM信号がPRM信号再生装置113で受信される。
PRM信号再生装置113では、PRM信号から復元したID及び三次元座標等の属性信号から、再生側部品庫選択装置207で、記録されたPRM信号のIDに対応するように、部品庫202*Nから必要な部品が収集され、IDに付加された情報が付加されて部品が再構成され、画像再構成表示装置114においてを再構成画像が表示されるようになる。
【0129】
図33に、上記のような情報変換装置において生成・表示される再構成画像の一例を示す。
同図に示す再構成画像は、道路を撮影したCV映像に基づいて部品化・ID化された部品として、道路を跨ぐように配置された鉄塔と、道路のセンターライン上に配置された街灯を、再構成画像として生成・表示させたものである。
【0130】
以上にように、本実施形態に係る情報変換装置によれば、認識位置決め装置100によって認識・三次元座標付加がなされた対象物を含む画像を、PRM技術を用いて部品化・ID化し、所定の装置に対して伝送し、また記録させて、再構成画像として生成・出力できるようになる。
このような情報変換装置によれば、その延長上には、映像中の全ての対象物を認識し、IDを付加することで、動画像を対象物に分解して、伝送又は記録することが可能となり、上述した本願発明者による特許第4582995号の技術が、更に大きく進化して実現されることになる。
【0131】
これによって、例えば画像通信においては、複数の対象物のIDとその座標を伝送するだけで良くなり、つまり画像はIDとその座標のテキストファイルだけの伝送で、受信側での画像の再構築が可能となり、その伝送帯域は極端に小さなものとなる。
最近は通信の広帯域化に向かっているが、一方で災害時や宇宙通信においては、狭帯域通信は重要であり、本発明による通信装置(情報変換装置)は将来的にも非常に重要かつ有益なものとなる。
また、当然ながら、狭帯域通信が実現すれば、同時に超超圧縮記録も可能となり、膨大な映像を通常の記録装置に収納することが可能となる。
【0132】
[第二実施形態]
次に、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態について、
図34を参照しつつ説明する。
図34は、本発明に係る認識位置決め装置を備えた情報変換装置の第二の実施形態を示す機能ブロック図である。
同図に示す本実施形態に係る情報変換装置は、認識位置決め装置300に接続される一又は二以上のコンピュータ・情報処理装置等によって構成される。
本実施形態に係る認識位置決め装置300は、CV映像位置取得部・対象物座標付加部301と、属性付加部302aを有する時間連続情報機械学習部302を備えて構成されている。
なお、
図34では、説明の便宜上簡略化して示してあるが、本実施形態の認識位置決め装置300は、
図15で示した認識位置決め装置100と、基本的な構成・機能は同様である。
【0133】
本実施形態の情報変換装置は、
図34に示すように、ID化部303,CV映像再構成表示装置304,AI意味生成装置305,概念部品庫306,意味表示装置307の各部として機能するように構成される。
概念部品庫306は、対象物の意味・概念を示す
、当該対象物の種類に対応する所定の概念情報を記憶した部品庫として構成される。
意味表示装置307は、認識位置決め装置300において同定されて三次元位置座標が付加された対象物に、概念部品庫306に記憶された
、当該対象物の種類に対応する概念情報を対応させて、複数の対象物を含むCV映像を、各対象物に対応する概念情報によって再構成する再構成手段として機能する。
【0134】
このような本実施形態の情報変換装置では、上述した第一実施形態の場合と同様に、IDによって分類されたID部品庫を持ち、CV映像内の目的の画像範囲内の大部分を複数の対象物を「概念・意味」に分解し、各対象物の認識結果と、各対象物の三次元座標と姿勢の取得結果に、例えば色やその他付加情報等の属性取得結果を付加する。
そして、各対象物を、所定の概念を集めた概念部品庫の中の概念に対応させて、それぞれの幾つかの対象物(概念・意味)のIDの組み合わせから、特定の概念を生成し、目的の画像内の概念を、複数のIDが付加された対象物(概念・意味)によって再構成させる。
【0135】
生成された概念は、その概念のみを、又はその概念にIDを付加したデータとして伝送し、受信側に、概念のみに対応した概念部品庫を用意して、用意された概念部品庫に照らし合わされ 、その中から選択された概念を再生させることで、CV映像を構成する画像の概念を、送信し、受信し、記録し、再生し、表示することができるものである。
対象物に分割され再構成された画像は、対象物の個々の意味の集まりとして表示される。
その個々の意味を持つIDの組み合わせ方で、新しい意味が生成される。
例えば、車両や車両の形状や、道路やなどから、「交通事故」という意味が生まれる。このように交通事故等の災害、状況の意味を「概念」として認識して、その概念を、送信し、受信し、記録し、再生することができる。
【0136】
具体的には、本実施形態の情報変換装置では、CV映像再構成表示装置304の出力をAI意味生成装置305で処理し、対象物の種類に対応するIDの組み合わせにより、概念部品庫306から概念を選択して新しい意味を生み出し、それを意味表示装置307で表示させる。
上述した本願発明者による特許第4582995号の技術によれば、画像認識によりID化され、対象物の種類に対応する複数のIDの分布から概念を作り出し、そのID信号を伝送することができる。本実施形態の情報変換装置においても、IDの組み合わせで、新たな概念を生み出し、その概念を新たな概念として、送信し、受信し、記録し、再生し、再構成して表示することができる。
また、IDを破棄して、概念部品庫306によって、AI意味生成装置305で対象物の種類に対応する概念を生成し、それを再構成し表示しても良い。
【0137】
そして、この生成された概念を、第一実施形態の場合と同様に、他の装置に送信し受信することで、さらに超超狭帯域の画像伝送が可能となる。
さらには、この本実施形態の方式で、画像を記録し、再生することで、画像の超超圧縮が可能となる。
この本実施形態の方式は、画像を個々の対象物に部品化してた後、その概念にまで情報を変換することを意味している。
このような画像や他の情報系による概念の把握は、今後人工知能には必須の機能となる。
この点について、以下に示す第三実施形態において更に説明する。
【0138】
[第三実施形態]
本発明に係る認識位置決め装置を備えた情報変換装置の第三の実施形態について、
図35~
図37を参照しつつ説明する。
本実施形態は、上述した第二実施形態の方式を更に改良・発展させたものであり、第二実施形態において認識・再構成の対象としていたCV映像のみならず、対象を他の情報系に拡張するものである。
すなわち、本実施形態の情報変換装置は、CV映像のみならず、対象を他の情報系に拡張した、広範な情報系内の目的の範囲内の大部分を複数の対象物(物とは限らない個別の対象)に分解し、その対象物の認識結果と、その対象物の位置と姿勢の取得結果を、それぞれの認識対象物にIDを対応させるものである。
これにより、目的の情報系内は、複数のIDを付加された対象物から構成されたことになり、さらに必要があればそれぞれのIDに必要な属性が付加され、その付加されたIDのみを伝送し、受信側に用意された、IDに省略化された概念のみが対応した概念部品庫の中から、IDによって選択された部品を再生させるものである。生成・再生された概念は、所定の装置において表示し、通信し、記録し、再構成により再生表示されるようになる。
【0139】
図35に示すように、本実施形態の情報変換装置は、拡張情報系認識位置決め装置400として構成される。
この拡張情報系認識位置決め装置400は、上述した認識位置決め装置100と同様に、拡張情報系位置取得部420で、画像内の大部分の対象物に認識と三次元化を施すことができる。これにより、映像は複数の対象物の三次元配置として取得される。
認識された対象物は、第一/第二実施形態の場合と同様にID化される。
そのために、拡張情報系認識位置決め装置400は、時間連続情報機械学習部430において部品庫430aが選択され、その部品庫に沿ってIDが決定される。
IDの決定は、位置演算対象物位置付加部440のID化部440aにより実行され、拡張情報系の複数の部品によってID化される。
続いて、
図36に示すように、属性を必要とするときには、時間連続情報機械学習部430の属性付加部430bにより、IDの付加情報として付加し、拡張情報系再構成表示装置450で再構成され、表示される。
【0140】
また、拡張情報系再構成表示装置450で再構成されたデータは、
図36に示すように、PRM信号生成装置205によって所定のPRM信号に生成され、第一実施形態の場合(
図30参照)と同様に、通信と記録に分離される。
まず、通信の場合は、PRM信号生成装置205では、IDと属性と部品庫番号を信号として生成し、そのPRM信号がPRM信号送信装置110を介して送信され、PRM信号受信装置111で受信されて、拡張情報系再構成表示装置450に入力される。
拡張情報系再構成表示装置450で読み取られたID及び三次元座標等の属性信号に基づいて、受信側部品庫として備えられる部品庫202から、読み取られたIDに対応する必要な部品が収集され、IDに付加された情報が付加されて、部品が再構成される。
これによって、拡張情報系の再構成画像が生成・出力される。
【0141】
次に、記録再生の場合は、PRM信号生成装置205において、IDと属性と部品庫番号がPRM信号として生成され、そのPRM信号がPRM信号記録装置112で記録され、記録されたPRM信号がPRM信号再生装置113で受信・再生される。
その後、PRM信号再生装置113で読み取られたID及び三次元座標等の属性信号に基づいて、拡張情報系再構成表示装置450において、読み取られたIDに対応する必要な部品が部品庫202から収集され、IDに付加された情報が付加されて、部品が再構成され、拡張情報系の再構成画像が生成・出力される。
【0142】
以上のような本実施形態の情報変換装置を構成する拡張情報系認識位置決め装置400では、PRM技術を映像以外の情報系に展開し、映像をも含む一般化することが可能となる。
例えば、映像はしばしば音声と共に利用されるから、対象物の種類に対応する識別情報(ID)や概念情報に基づいて、映像と音声はそれぞれの機械認識によって、対象物に分解され、拡張情報系位置取得部420によって位置情報が与えられ、時間連続情報機械学習部430で機械学習が行われる。
また、時間連続情報機械学習部430と位置演算対象物位置付加部440との間で相互信号が繰り返しやり取りされることで、拡張情報系のそれぞれの部品庫407aから複数のIDに基づく複数の部品が認識・抽出されて、全体像が構成される。
【0143】
本実施形態の部品庫430aは、拡張系情報の全てを含むことから、第一/第二実施形態における部品庫と比較して、より大きな部品庫になる。
機械学習による認識と位置の決定は、同時に処理されることが適切で、そのために、上述した認識位置決め装置100と同様に、時間連続情報機械学習部430と位置演算対象物位置付加部440との間では相互信号が繰り返し頻繁にやり取りされる。
認識された対象物は、ID化部440aによってID化され、ID化された信号が拡張情報系再構成表示装置450で再構成されて、元の全体の概念像が再構成されて出力・表示される。
【0144】
そして、本実施形態では、時間連続情報機械学習部430における機械学習の対象として、画像・映像以外の他の情報系も対象とされる。
映像以外の情報系とは、例えば文書のような文字の分布の情報系や、音楽のような音の分布の情報系、匂いの分布の情報系等がある。
上述のとおり、CV映像は6変数であったが、それぞれの情報系は、それぞれ
異なる座標系を持つ。
このように、本実施形態では、情報系を一般化して扱うことができるため、「装置」や「部」の名称・符号を、
図15に示した認識位置決め装置100と異ならせているが、基本的な構成・機能は認識位置決め装置100は同様である。
【0145】
なお、拡張情報系再構成表示装置450から送られる信号は、PRM信号送受信装置110/111)を介して、又はPRM記録再生装置112/113を介して、受信側の拡張情報系再構成表示装置450において、ID発生側と同じ部品庫が使用されて情報が再構成されるが、本実施形態における部品は、概念の部品庫であるから、全く同じものでなくても、近い概念の部品を選択することも可能である。
概念とは、例えば文化によって異なるものであるから、異国文化の翻訳などに使われることでその力を発揮する。
また、全ての情報系においては、情報は時間軸上に分布して存在しているが、画像などの時間の一断面の情報もこの情報系の処理に当然含まれるものとする。
上述した認識位置決め装置100では、主に映像情報系にたいして詳細に説明したが、本実施形態においては、映像以外の他の情報系にまで拡張された、拡張情報系にまで適応が可能となるため、PRM技術はより生活に密着したものとなる。
【0146】
なお、本実施形態に係る部品庫は、画像のみならず、他の情報系に拡張されるため、それは既に人間の生活環境に存在する概念の倉庫であり、その意味するところは文化を構成する要素の入れ物を意味することになる。
ID部品庫は、画像処理側と表示側、送信側と受信側、記録側と再生側で同一の部品庫が必要であるが、敢えて、IDが意味のある対応が成されていれば、異なる部品庫でも有効である。
概念のID部品庫であれば、人間と宇宙人との通信、人間と動物との通信、文化の異なる人間間の通信などの概念の変換通信や、映像と音との変換など、他の情報系に変換して、視覚障害者、聴覚障害者に新たなツールを提供できることになる。
【0147】
また、本実施形態と上述した第二実施形態を合わせることにより、
図37に示すような、PRM再構成表示装置600,概念ID化部601,概念部品庫602,拡張情報系再構成表示装置603を備えた構成とすることもできる。
同図に示す拡張情報系再構成表示装置603では、例えば、対象物に分割され、再構成された拡張情報系は、画像のみならず、他の情報系の予想となる対象物から再構成されて表示されることになる。
そこでは、対象物の個々の意味の集まりとして表示される。
【0148】
また、上述したAI意味生成装置305(
図34参照)では、その個々の意味を持つIDの組み合わせ方で、新しい意味を生成することができる。
例えば、車両や車両の形状や、道路や、臭いや、気体の成分、温度、クラッシュの音、クラクションの音などから、交通事故という意味が生まれる。
このようにして、交通事故等の災害、状況の意味、等の再構成部品から、意味表示装置307(
図34参照)により、新しい概念を生成して、その概念を送信し、受信し、記録し、再生することができる。
図34においては、映像だけを対象として、CV映像再構成表示装置304の出力をAI意味生成装置305で処理し、IDの組み合わせにより、新しい意味を生み出し、それを意味表示装置307で表示させているが、本実施形態によれば、CV映像以外の拡張した情報系においても、新しい概念の発生を行うことが可能となる。
【実施例】
【0149】
以下、本発明に係る認識位置決め装置及び情報変換装置の、より具体的な実施例について説明する。
[実施例1]
実施例1では、本発明の認識位置決め装置を、道路データベース自動作成装置として実施して、座標認識同時処理を行う場合について説明する。
図15を参照しつつ、認識位置決め装置の実施例を示す。
図15に示すように、車載した全周囲カメラ部10による映像出力と、高精度GNSS部12の出力を、CV映像取得部20に送り、CV映像を取得する。
【0150】
映像内の静止座標系に固定している対象物の内の道路交通に関連する多くの対象物を前もって選択して、その対象物のデータ(教師データ)を対象物指定部13に置く。
車載装置からはCV映像が出力され、対象物を含む目的の範囲のCV映像取得部20は、連続フレーム機械学習部30と連結されている。
ここまでで機械学習と三次元座標取得の準備が完了し、対象物のデータは連続フレーム機械学習部30で対象物認識されると同時に、三次元座標演算対象物座標付加部40との間で相互信号のやり取りが繰り返され、三次元座標演算対象物座標付加部40で、対象物の認識と同時に、三次元座標、及び姿勢、又は 3 次元形状等が取得される。
【0151】
連続フレーム機械学習部30と三次元座標演算対象物座標付加部40は、常に相互信号がやりとりされ、機械学習と座標取得とが常に連携しつつ、互いの確度と精度を向上するように相互依存しながら認識処理と座標取得処理がなされていく。
また、対象物の絶対座標を取得するには、GNSS等の高精度の衛星測位システムを用いて、CV値を絶対座標で校正し、CV値を絶対座標系に変換することで得られる。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部41から出力される。
【0152】
さらに、座標とともに認識された複数の対象物は、認識対象物表示部50に送られ、表示されたCV映像の中の画像の中に、対象物と認識された名称と、その三次元座標が表示される(
図23~
図29参照)。
これは一見映像ではあるが、CV映像であることから、いわゆる二次元の地図や三次元CGに変換する必要はなく、画像の中の任意の点は三次元座標を持つことから、正確には、任意の特徴点、任意の特徴領域は、三次元座標を瞬時に取得できるから、そのまま三次元地図として使用できるのが特徴である。
しかも、この三次元地図には、自動認識した全ての対象物を如何様にも表示可能であり、また自動的に読み出し可能であるから、自動作成・自動読み取りのデータベースができあがる。
車両の自動運転の三次元地図として有効であると同時に、一般の二次元の地図に代わって、産業の全ての分野で利用が可能であり、更新が自動化されて、簡単であることから、未来の地図としても十分に応えられる。
【0153】
一方、以上のようにして自動生成されるデータベースを基本として、車載カメラからのリアルタイム取得の移動体について、それをリアルタイムで表示する必要があれば、CV値を取得する方法と同じように、移動体に対して、トラッキングし、カメラと移動体の関係を示すRV値を取得し、そこにCV値を代入して、静止座標系と移動体との関係を示すMV値を求めることができる。これは、移動体の三次元座標及び姿勢を取得するための移動体RV値取得部27によって実行される。
また、対象物指定部13において、対象物を移動体に指定した場合には、移動体RV値取得部27と連続フレーム機械学習部30が結合・連携される。
これによって、移動体の機械学習の準備ができ、RV値が連続フレーム機械学習部30に送られ、移動体の認識と三次元座標の取得が同時に行われる。
なお、移動体の認識と三次元座標の取得は、必ずしも同時で無くても、別々でも良いが、一般には同時に行うことにメリットが多い。
【0154】
以上のような移動体認識においても、静止座標系対象物と同様に、連続フレーム機械学習部30と三次元座標演算対象物座標付加部40は、常に相互信号のやり取りがなされ、機械学習優先か、座標取得優先かで、その作業の重みに変化が出てくる。
対象物認識と座標取得がなされた出力信号は、座標付加認識出力部41から出力される。
この出力信号を認識対象物表示部50に入力すれば、移動体の対象物は認識され、その移動体の移動方向、回転方向等と共に表示され、元の画像に対応して表示される。
【0155】
[実施例2]
実施例2では、
図30~
図32を参照しつつ、認識位置決め装置を使った情報変換装置(情報変換システム)となるPRM記録再生装置の実施例を示す。
図30に示すように、認識位置決め装置100で取得された対象物認識と対象物三次元座標が座標付加認識出力部41から出力される。
この信号が、PRM信号送信装置110から送信され、PRM信号受信装置111で受信され、再構成画像として再生されることになる。
詳細を
図31で示す。認識位置決め装置100で認識された対象物は、名称が分かっただけではなく、部品庫202は部品庫202*1~202*Nまで有り、部品庫選択装置201で選択されて、認識された対象物は対応する部品と対応づけられる。
このとき、同時にIDが振られ、対象物はIDを取得したことになる。
【0156】
全ての認識された対象物は、ID化装置203でIDを取得することになる。
さらに、対象物に付加すべき属性があれば、IDには属性が付加される。ここでは、対象物の三次元座標と姿勢を属性として扱うものとする。
つまり、IDと属性信号がPRM信号生成装置205で、PRM信号として生成されることになる。
このPRM信号は、PRM信号送信装置110に送られ、送信される。
そして、送信されたPRM信号は、PRM信号受信装置111により、IDと属性が受信され、画像再構成表示装置114で、IDはそれに対応する部品に戻され、属性の座標と姿勢から、3次元的に再構成されて表示される。
【0157】
この再構成のときには、認識側にある部品庫と同じ部品庫で、元の部品に戻され、その部品で三次元空間が再構築される。
元のCV映像は、連続する画像の集合であったが、最終的に表示される再構成された画像は三次元表示となる。
なお、部品庫202は、受信側と同じ部品庫202を用いるものとしたが、必ずしも全く同じものでなくても良い。
例えば、プリウス(登録商標)というトヨタの乗用車は黒色であったとしても、IDに対応する部品は、車種や色まで含む場合もあるし、ただの自動車で有る場合もある。したがって、必要に応じて、乗用車の部品で事は足りることもあり、再構成された画像は、一般の乗用車でも良いし、正確に車種や年式(黒のプリウス:2018年製)に対応する画像であってもよい。
【0158】
ここで、通信の原点に戻り、画像そのものを伝えるのではなく、概念情報を伝えるという立場に立てば、例えば「交差点で、車両が混み合って、渋滞している」という情報は、「交差点・車両・渋滞」という情報が必要な情報であり、車両の色や大きさ、種類は省略されたとしても、通信の目的は達していることになる。
このような概念の通信がPRM通信であり、PRM圧縮である。
勿論、IDを詳細化すれば、実際の画像そのものを再生させることは十分に可能である。そして、この技術の先には、例えば100年分の動画像をコンパクトに記録することも可能となる技術がある。
【0159】
このとき、IDで対応する部品庫が用意されていて、対応する部品を選択して表示することになる。
ここで、重要なことは、再生された画像は元画像そのものでなくても良いとすることである。
再生された画像は、ID化されるときに、その概念を変換しているのであり、全く同じ形状の対象物でなくても良いとすることである。同じ形状等とすることも勿論可能である。
【0160】
[実施例3]
実施例3では、
図37を参照しつつ、認識位置決め装置を使った情報変換装置(情報変換システム)として、映像を含む一般の情報系に拡張した拡張情報系変換装置の実施例を示す。
例えば音声,臭い,気温分布,文章の単語分布,電波の周波数分布,地域の放射線分布等の、拡張した情報系において、概念のIDによって分類された概念ID部品庫を備えることで、CV映像のみならず、他の情報系を併用して、その広範な情報系内の目的の範囲内の大部分を複数の対象物に分解し、その対象物の認識結果と、その対象物の
三次元位置
座標と
3軸回転姿勢の取得結果を、それぞれの認識対象物にIDを対応させることで、目的の情報系内は複数のIDが付加された対象物から構成されたことになる。
【0161】
さらに、必要があればそれぞれのIDに必要な属性が付加され、その付加されたIDのみを伝送し、受信側に用意した、IDには省略化された概念のみ対応した概念部品庫602を備え、その中からIDによって選択された部品を再生させ、その複数のIDは1つの意味を生み出し、それを概念IDに置き換えて、表示し、通信し、記録し、再構成により再生表示する。
【0162】
図37で示すPRM再構成表示装置600は、上述した実施例2と同様の構成・機能となっており、その後の処理として、
対象物の種類に対応するIDの組み合わせから、概念ID化部601において
対象物の種類に対応する概念IDを生成して、概念を伝送し、表示することになる。
そのための概念部品庫602が備えられ、複数のIDは、新しい意味を生み出し、その意味を概念IDに対応させる。
生み出された概念は、拡張情報系再構成表示装置603で、我々にわかる概念として表示される。それは、例えば記号であるかも知れないし、音かも知れないし、臭いかも知れない。
【0163】
以上、本発明の認識位置決め装置及び情報変換装置について、好ましい実施形態及び実施例を示して説明したが、本発明に係る認識位置決め装置は、上述した実施形態や実施例のみに限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
【産業上の利用可能性】
【0164】
本発明は、ビデオカメラ等で取得された画像・映像に基づいて対象物を認識するとともに、当該対象物の三次元座標を取得するための画像・映像処理技術として好適に利用することができる。
【符号の説明】
【0165】
10 対象映像取得部(全周囲カメラ部)
13 対象物指定部
20 CV映像取得部(CV演算手段)
30 連続フレーム機械学習部
31 認識領域指定部
40 三次元座標演算対象物座標付加部
41 座標付加認識出力部
50 認識対象物表示部
100 認識位置決め装置