特許7565886 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特許7565886情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4A
4B
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-03

(45)【発行日】2024-10-11

(54)【発明の名称】情報処理方法及びプログラム

(51)【国際特許分類】

G06T 7/55 20170101AFI20241004BHJP

G06T 7/00 20170101ALI20241004BHJP

B60W 40/02 20060101ALI20241004BHJP

【ＦＩ】

G06T7/55

G06T7/00 350C

B60W40/02

【請求項の数】 8

(21)【出願番号】P 2021122628

(22)【出願日】2021-07-27

(65)【公開番号】P2023018472

(43)【公開日】2023-02-08

【審査請求日】2023-11-28

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】アミット・ポーパーット・モア

【審査官】高野美帆子

(56)【参考文献】

【文献】特開平０９－２１９８１４（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／００４９３７１（ＵＳ，Ａ１）

【文献】Tinghui Zhou et al，Unsupervised Learning of Depth and Ego-Motion from Video，2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)，2017年07月26日，https://ieeexplore.ieee.org/document/8100183

【文献】Jie Song et al，Human Body Model Fitting by Learned Gradient Descent，arXiv，2020年08月19日，https://arxiv.org/abs/2008.08474

【文献】Mi Tian et al，3D Scene Geometry-Aware Constraint for Camera Localization with Deep Learning，2020 IEEE International Conference on Robotics and Automation (ICRA)，2020年08月31日，https://ieeexplore.ieee.org/document/9196940

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／５５

Ｇ０６Ｔ７／００

Ｂ６０Ｗ４０／０２

(57)【特許請求の範囲】

【請求項1】

情報処理装置において実行される情報処理方法であって、
第１画像又は前記第１画像と対になる第２画像を第１機械学習モデルに入力して深度マップを予測することと、
前記第１画像と前記第２画像とを第２機械学習モデルに入力して、前記第１画像と前記第２画像とを撮影した撮像装置の相対的な移動及び回転を予測することと、
前記第１画像から前記第２画像への予測された前記相対的な移動及び回転と、前記第１画像について予測された前記深度マップとに基づく画像変換を、前記第１画像に適用した第１変換画像を生成することと、
前記第１変換画像と前記第２画像の間の誤差を含んだ損失を算出することと、
前記相対的な移動及び回転に関する前記損失の勾配と、前記第１変換画像と、前記第１画像及び前記第２画像とを前記第２機械学習モデルに入力して、前記相対的な移動及び回転を繰り返し予測し、新たに予測される前記相対的な移動及び回転に基づく新たな前記第１変換画像と前記第２画像の間の誤差を含んだ前記損失を収束させることと、を含むことを特徴とする情報処理方法。

【請求項2】

前記第２画像から前記第１画像への予測された前記相対的な移動及び回転と、前記第２画像について予測された前記深度マップとに基づく画像変換を、前記第２画像に適用した第２変換画像を生成することと、
前記第２変換画像と前記第１画像の間の誤差を含んだ前記損失を算出することと、を更に含み、
前記損失を収束させることは、前記相対的な移動及び回転に関する前記損失の勾配と、前記第２変換画像と、前記第１画像及び前記第２画像とを前記第２機械学習モデルに入力して、前記相対的な移動及び回転を繰り返し予測することを含む、請求項１に記載の情報処理方法。

【請求項3】

前記損失は、前記第１変換画像と前記第２画像の間の誤差と、前記第２変換画像と前記第１画像の間の誤差との両方を含む、ことを特徴とする請求項２に記載の情報処理方法。

【請求項4】

前記第１変換画像についての深度マップを生成することと、
前記第１変換画像についての深度マップと前記第１画像についての深度マップの間の誤差を含んだ前記損失を算出することと、を更に含み、
前記損失を収束させることは、前記深度マップに関する損失の勾配と、前記第１変換画像についての深度マップと、前記第１画像とを前記第１機械学習モデルに入力して、前記深度マップを繰り返し予測することを含む、請求項１から３のいずれか１項に記載の情報処理方法。

【請求項5】

前記情報処理装置は、移動体の外部に配置される情報処理サーバである、ことを特徴とする請求項１から４のいずれか１項に記載の情報処理方法。

【請求項6】

前記情報処理装置は、車両を含む移動体である、ことを特徴とする請求項１から４のいずれか１項に記載の情報処理方法。

【請求項7】

前記第１画像と前記第２画像とは、同一の撮像装置で撮像される画像であり、撮像される時刻が異なる、ことを特徴とする請求項１から６のいずれか１項に記載の情報処理方法。

【請求項8】

コンピュータに、請求項１から７のいずれか１項に記載の情報処理方法の各ステップを実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

近年、カメラで撮影された画像をディープニューラルネットワーク（ＤＮＮ）に入力し、ＤＮＮの推論処理により画像内の深度やカメラポーズ（２枚の画像を撮影した撮像装置の間の相対的な移動及び回転）を推定する技術が知られている（非特許文献１及び２）。従来の（ＤＮＮを用いない手動の）推定方法で相対的なカメラポーズを推定するためには、２枚の画像間の対応関係を推定したうえで、当該画像の対応関係に適合するカメラポーズや深度マップを最適化問題として解く必要があったが、上記のＤＮＮを用いる方法により、画像間の対応関係や深度の推定においてより正確な推定結果を得ることが可能になった。

【0003】

一方、非特許文献１及び２で提案される技術では、カメラポーズについては、従来の（ＤＮＮを用いない手動の）推定方法で相対的なカメラポーズを推定する場合と比べて、高い性能が得られていないという課題がある。

【先行技術文献】

【非特許文献】

【0004】

【文献】ＶｉｔｏｒＧｕｉｚｉｌｉｎｉ，外３名，「３ＤＰａｃｋｉｎｇｆｏｒＳｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＭｏｎｏｃｕｌａｒＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」，ａｒＸｉｖ：１９０５．０２６９３ｖ４［ｃｓ．ＣＶ］２８Ｍａｒ２０２０ (https://arxiv.org/pdf/1905.02693.pdf)

【文献】ＣｌｅｍｅｎｔＧｏｄａｒｄ，外３名，「ＤｉｇｇｉｎｇＩｎｔｏＳｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＭｏｎｏｃｕｌａｒＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」，ａｒＸｉｖ：１８０６．０１２６０ｖ４［ｃｓ．ＣＶ］１７Ａｕｇ２０１９ (https://arxiv.org/pdf/1806.01260.pdf)

【文献】ＪｏｈｎＦｌｙｎｎ，外７名，「ＤｅｅｐＶｉｅｗ：ＶｉｅｗＳｙｎｔｈｅｓｉｓｗｉｔｈＬｅａｒｎｅｄＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ」，ａｒＸｉｖ：１９０６．０７３１６ｖ１［ｃｓ．ＣＶ］１８Ｊｕｎ２０１９ (https://arxiv.org/pdf/1906.07316.pdf)

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、ＤＮＮを用いた推論処理において、ＤＮＮの出力に基づく損失の勾配をＤＮＮに入力して繰り返し演算を行うことにより、勾配降下法のパラメータ変更に係る設計（例えば学習係数や正規化など）をＤＮＮに置き換える技術が知られている。非特許文献３は、１つのＤＮＮ（ＣＮＮ）に損失の勾配を入力する演算を行って、複数の視点から撮影された画像から深度ごとの複数画像（マルチプレーン画像）を生成し、撮影画像に無い新たな視点の合成画像を生成する技術を提案している。上述の非特許文献１及び２に係る技術は、一度のＤＮＮの演算でカメラポーズ等を推定する技術にすぎず、また、被特許文献３に係る技術は、カメラポーズを推定する構成を考慮していなかった。

【0006】

本発明は、上記課題に鑑みてなされ、その目的は、機械学習モデルを用いてカメラポーズを推定する場合に、カメラポーズの推定精度を向上させることが可能な推定技術を提供することである。

【課題を解決するための手段】

【0007】

本発明によれば、
情報処理装置において実行される情報処理方法であって、
第１画像又は前記第１画像と対になる第２画像を第１機械学習モデルに入力して深度マップを予測することと、
前記第１画像と前記第２画像とを第２機械学習モデルに入力して、前記第１画像と前記第２画像とを撮影した撮像装置の相対的な移動及び回転を予測することと、
前記第１画像から前記第２画像への予測された前記相対的な移動及び回転と、前記第１画像について予測された前記深度マップとに基づく画像変換を、前記第１画像に適用した第１変換画像を生成することと、
前記第１変換画像と前記第２画像の間の誤差を含んだ損失を算出することと、
前記相対的な移動及び回転に関する前記損失の勾配と、前記第１変換画像と、前記第１画像及び前記第２画像とを前記第２機械学習モデルに入力して、前記相対的な移動及び回転を繰り返し予測し、新たに予測される前記相対的な移動及び回転に基づく新たな前記第１変換画像と前記第２画像の間の誤差を含んだ前記損失を収束させることと、を含むことを特徴とする情報処理方法が提供される。

【発明の効果】

【0008】

本発明によれば、機械学習モデルを用いてカメラポーズを推定する場合に、カメラポーズの推定精度を向上させることが可能になる。

【図面の簡単な説明】

【0009】

【図1】実施形態１に係る情報処理サーバの機能構成例を示すブロック図

【図2】実施形態１に係るモデル処理部１１４における、深度マップ予測及びカメラポーズ予測について説明するための図

【図3A】実施形態１に係る画像変換（時刻ｔから時刻ｔ＋１）について説明する図

【図3B】実施形態１に係る、逆向きの画像変換（時刻ｔ＋１から時刻ｔ）について説明する図

【図4A】実施形態１に係る予測されたカメラポーズの損失について説明する図

【図4B】実施形態１に係る予測された深度マップの損失について説明する図

【図5】実施形態１に係る、イテレーションを伴う深度マップ予測について説明する図

【図6】実施形態１に係る、イテレーションを伴うカメラポーズ予測について説明する図

【図7】実施形態１に係る、モデル処理部における（カメラポーズ及び深度マップの）予測処理の一連の動作を示すフローチャート

【図8】実施形態２に係る車両の機能構成例を示すブロック図

【図9】実施形態２に係る車両の走行制御のための主な構成を示す図

【発明を実施するための形態】

【0010】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

【0011】

＜情報処理サーバの構成＞
次に、情報処理サーバの機能構成例について、図１を参照して説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。情報処理サーバは、車両などの移動体の外部に配置される。

【0012】

制御部１０４は、例えば、ＣＰＵ１１０、ＲＡＭ１１１、ＲＯＭ１１２を含み、情報処理サーバ１００の各部の動作を制御する。制御部１０４は、ＣＰＵ１１０がＲＯＭ１１２に格納されたコンピュータプログラムを、ＲＡＭ１１１に展開、実行することにより、制御部１０４を構成する各部の機能を発揮させる。制御部１０４は、ＣＰＵ１１０のほか、ＧＰＵ、或いは、機械学習の処理やニューラルネットワークの処理の実行に適した専用の回路を更に含んでよく、ＧＰＵ或いは当該回路がモデル処理部１１４の処理を実行してもよい。

【0013】

画像データ取得部１１３は、ユーザの操作する車両などの外部装置から送信される画像データを取得する。画像データ取得部１１３は、取得した画像データを記憶部１０３に格納する。取得された画像データは、取得された画像データに対する推論結果を得るために、推論段階の機械学習モデル（単に学習モデルともいう）に入力される。また、画像データ取得部１１３が取得した画像データは、モデル処理部１１４のモデルを学習させるために用いられてもよい。

【0014】

モデル処理部１１４は、本実施形態に係る機械学習モデルを含み、当該学習モデルの学習段階の処理や推論段階の処理を実行する。学習モデルは、例えば第１及び第２の画像データを入力して、第１の画像データを撮影したカメラ１と第２の画像データを撮影したカメラ２の間の相対的なカメラポーズを予測する。相対的なカメラポーズは、例えば、一方のカメラに対する他方のカメラの相対的な移動と相対的な３軸周りの回転とを含む。また、学習モデルは、第１及び第２の画像データのそれぞれに対応する深度マップを予測する。

【0015】

第１の画像データと第２の画像データとは、例えば車両の前方を向くように搭載されている１台のカメラで、異なる時刻（例えば時刻ｔとその後の時刻ｔ＋１）に撮影された画像データであり得る。このとき、車両の移動によって時刻ｔと時刻ｔ＋１の間でカメラが移動するため、それぞれの画像データを撮影したカメラのカメラポーズが異なる。また、第１の画像データと第２の画像データとは、例えば車両の前方を向くように搭載されている２台のカメラで撮影された２つの画像データであってよい。この場合もそれぞれの画像データを撮影したカメラのカメラポーズが異なっている。固定された２台のカメラで撮影された画像データに本実施形態の予測処理を用いる場合、推定されるカメラパラメータからカメラのキャリブレーションやカメラの異常検知を行うことができる。

【0016】

ＤＮＮは、学習段階の処理を行うことにより学習済みの状態となり、新たな画像データを学習済みのＤＮＮに入力することにより新たな画像データに対するカメラポーズ予測と深度マップ予測（推論段階の処理）を行うことができる。推論段階の処理は、学習済みモデルを用いた推論処理を情報処理サーバ１００において実行する場合に、実行される。情報処理サーバ１００は、学習させた学習済みのモデルを情報処理サーバ１００側で実行して、推論結果を、車両や情報処理装置などの外部装置に送信する。情報処理サーバ１００は、一般に、車両などと比べて豊富な計算資源を用いることができるため、後述する予測処理のように繰り返し演算を行う場合には適している。また、様々な車両で撮影された画像データを受信、蓄積することで、多種多用な状況における画像データを収集することができ、より多くの状況に対応した学習が可能になる。

【0017】

予測結果提供部１１５は、モデル処理部１１４によって予測された深度マップとカメラポーズの情報を、画像データを送信した車両などの外部装置に提供する。

【0018】

通信部１０１は、例えば通信用回路等を含む通信デバイスであり、例えばインターネットなどのネットワークを通じて、車両や情報処理装置などの外部装置と通信する。通信部１０１は、車両や情報処理装置などの外部装置から送信される実画像を受信するほか、学習モデルによって予測されたカメラパラメータや深度マップを車両に送信する。電源部１０２は、情報処理サーバ１００内の各部に電力を供給する。記憶部１０３は、ハードディスクや半導体メモリなどの不揮発性メモリである。記憶部１０３は、後述するＤＮＮの学習済みパラメータや学習データを格納する。

【0019】

＜モデル処理部の学習モデルの例＞
次に、本実施形態に係るモデル処理部１１４における学習モデルの例について説明する。なお、以下の説明では、車両に搭載された１台のカメラで時刻ｔとその後の時刻ｔ＋１に撮影された２つの画像データがモデル処理部１１４に入力される場合を例に説明する。

【0020】

図２を参照して、モデル処理部１１４の構成と、モデル処理部１１４が含む学習モデルの処理例について説明する。モデル処理部１１４は、ＤＮＮ＿Ｄ２０１、ＤＮＮ＿Ｐ２０２と、画像変換部２０３と、損失算出部２０４と、イテレーション制御部２０５とを含む。また、モデル処理部１１４は、学習モデルを含む。本実施形態に係る学習モデルは、例えば、ＤＮＮ＿Ｄ２０１、ＤＮＮ＿Ｐ２０２と、画像変換部２０３と、損失算出部２０４と、イテレーション制御部２０５とを含むものとする。

【0021】

深度マップ予測部２０１（以下、ＤＮＮ＿Ｄ２０１ともいう）は、機械学習モデルの１例としての１つ以上のディープニューラルネットワーク（ＤＮＮ）で構成され、入力された画像データの深度マップ２１１を予測結果として出力する。例えば、ＤＮＮ＿Ｄ２０１は、時刻ｔの画像データが入力されると時刻ｔの画像データに対応する深度マップを出力し、時刻ｔ＋１の画像データが入力されると時刻ｔ＋１の画像データに対応する深度マップを出力する。深度マップは、例えば、入力画像の各画素値について、予測される深度（カメラから物体までの距離）を画像で表す情報であり、カメラに近いほど白色、遠いほど黒色で表される。また、後述するように、ＤＮＮ＿Ｄ２０１は、深度マップを出力するためにイテレーション（繰り返し演算）を行って、予測する深度マップの精度を向上させることができる。このとき、ＤＮＮ＿Ｄ２０１は、画像データと、直前のイテレーションで予測した深度マップと、後述する、深度マップに関する損失の勾配とを入力して、現在のイテレーションにおける深度マップを出力することができる。ＤＮＮ＿Ｄ２０１は、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）やオートエンコーダなどにより構成されてよい。

【0022】

カメラポーズ予測部２０２（ＤＮＮ＿Ｐ２０２ともいう）は、機械学習モデルの一例としての１つ以上のＤＮＮで構成され、入力された２つの画像データの間の相対的なカメラポーズ２１２を予測結果として出力する。例えば、ＤＮＮ＿Ｐ２０２は、時刻ｔと時刻ｔ＋１の２つの画像データが入力されると、時刻ｔと時刻ｔ＋１の画像データの間の相対的なカメラポーズ（例えばカメラの移動量と３軸周りの回転量）を出力する。また、後述するように、ＤＮＮ＿Ｐ２０２は、予測結果としてのカメラポーズを出力するためにイテレーションを行って、予測するカメラポーズの精度を向上させることができる。このとき、ＤＮＮ＿Ｐ２０２は、２つの画像データと、直前のイテレーションで予測したカメラポーズと、後述する、カメラポーズに関する損失の勾配とを入力して、現在のイテレーションにおけるカメラポーズを出力することができる。ＤＮＮ＿Ｐ２０２は、時刻ｔから時刻ｔ＋１へカメラポーズが変化した場合に対応した、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）を出力することができる。また、ＤＮＮ＿Ｐ２０２は、時刻ｔ＋１から時刻ｔへの相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）を出力することができる。ＤＮＮ＿Ｐ２０１は、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などにより構成されてよい。

【0023】

画像変換部２０３は、予測された（相対的な）カメラポーズと深度マップとを用いて、一方の時刻で撮影された画像データを変換し、他方の時刻に対応する変換画像２１３を生成する。例えば、図３Ａに示すように、画像変換部２０３は、時刻ｔで撮影された画像データ３０１と、時刻ｔの画像データ３０１に対して推定された深度マップ３０２と、時刻ｔから時刻ｔ＋１への相対的なカメラポーズ３０３を入力する。そして、画像変換部２０３は、入力データに基づいて、時刻ｔ＋１に対応する変換画像３０４を生成する。

【0024】

ここで、画像変換部２０３による画像変換は、一方のカメラで撮影された画像データに対して、予測された相対的なカメラポーズと深度マップとに基づく画像変換を適用して、他方のカメラで撮影された仮想的な画像データを再現することに相当する。従って、時刻ｔにおける画像データと時刻ｔ＋１における画像データとから予測された、（相対的な）カメラポーズ（と深度マップと）が正確であるほど、時刻ｔ＋１の画像データと、時刻ｔ＋１に対応する変換画像３０４との誤差は小さくなる。反対に、実際の時刻ｔ＋１の画像データと時刻ｔ＋１に対応する変換画像３０４との誤差が大きい場合には、予測されたカメラポーズ或いは深度マップは正確ではない。従って、時刻ｔ＋１に対応する変換画像と実際の時刻ｔ＋１の画像データとの差異がより小さくなるように、予測されたカメラポーズ或いは深度マップの予測を繰り返すことにより、精度の高い（相対的な）カメラポーズと深度マップとを得ることができる。

【0025】

なお、画像変換部２０３は、画像データＩ_ｔ、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）、及び深度マップＤ_ｔを用いた画像変換に加えて、画像データＩ_ｔ+1、相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）と深度マップＤ_ｔ＋１とを用いた画像変換を行うことができる。例えば、図３Ｂに示すように、画像変換部２０３は、時刻ｔ＋１に撮影された画像データ３１１と、時刻ｔ＋１の画像データに基づいて予測された深度マップ３１２と、相対的なカメラポーズ３１３（Ｐ（Ｉ_ｔ＋１、Ｉ_ｔ））とを入力して、時刻ｔに対応する変換画像３１４を生成することができる。このように、時刻ｔから時刻ｔ＋１への画像変換と、時刻ｔ＋１から時刻ｔへの画像変換との両方向への変換についてその誤差が小さくなるように最適化を拘束することにより、高い予測精度を実現することができる。また、ＤＮＮを学習させる場合には、１対の画像があれば２倍の学習が可能になるため、少ない学習データで効率的に学習を行うことができる。

【0026】

損失算出部２０４は、撮影された画像と変換画像との間の誤差に基づく損失２１４を算出する。例えば、損失算出部２０４は、画像データＩ_ｔ+1と画像変換部２０３により出力された時刻ｔ＋１に対応する変換画像との間の誤差（例えば各画素値の差分の２乗和）を損失に含めてよい。また、損失算出部２０４は、画像データＩ_ｔと画像変換部２０３により出力された時刻ｔに対応する変換画像との間の誤差（例えば各画素値の差分の２乗和）を、更に損失に含めてよい。例えば、損失算出部２０４は、画像データＩ_ｔと画像変換部２０３により出力された時刻ｔに対応する変換画像を用いる場合、図４Ａに示すように、画像データＩ_ｔである画像データ４０１と時刻ｔに対応する変換画像４０２とを用いて、カメラポーズに関する損失４０３を算出する。

【0027】

損失算出部２０４は、画像データと変換画像との間の誤差に加えて、或いはそれに代えて、画像特徴に基づく誤差、ＳＳＩＭ（構造的類似性）指標などを用いて、損失を算出してもよい。損失算出部２０４は、例えば、所定の特徴量を抽出するように予め学習させた別のＤＮＮを用いて、画像データＩ_ｔ+1と時刻ｔ＋１に対応する変換画像とのそれぞれの特徴量を抽出するようにしてもよい。この場合、抽出したそれぞれの特徴量の相違に基づいて、画像特徴に基づく誤差を算出してもよい。もちろん、損失算出部２０４は、画像データＩ_ｔと時刻ｔに対応する変換画像についての、画像特徴に基づく誤差を算出してもよい。

【0028】

損失算出部２０４は、更に、撮影画像から予測される深度マップと、画像変換部２０３によって画像変換された深度マップとの誤差を更に加味して損失を計算してもよい。例えば、損失算出部２０４は、時刻ｔにおける深度マップ４１１と、時刻ｔに対応する深度マップの変換画像４１２とを用いて、深度マップに関する損失４１３を算出する。このとき、損失算出部２０４は、例えば、比較対象の２つの深度マップの各画素値（深度の値）の差を加味する。損失算出部２０４は、更に、これに加えて又はこれに代えて、比較対象の２つの深度マップの各画素値の勾配（深度の滑らかさ）の差を加味してもよい。

【0029】

また、損失算出部２０４は、画像変換において、隠れ領域をマスクして当該隠れ領域については誤差の算出に用いないようにしてもよい。例えば、時刻ｔの画像データから時刻ｔ＋１に対応する変換画像を得る場合に、時刻ｔ＋１でのみ画像に現れる領域については本質的に予測精度が得られない。このため、損失算出部２０４は、時刻ｔの深度マップと時刻ｔ＋１の深度マップとを用いて、隠れ領域を特定し、隠れ領域を示すマスク情報を記憶部１０３に記憶する。隠れ領域を示すマスク情報は、例えば、０又は１を有するバイナリデータであってよく、時刻ｔ＋１に対応する変換画像において正確な予測が得られない領域を０とし、そうでない領域を１として設定するものであってよい。

【0030】

例えば、損失算出部２０４は、一例として、損失Ｌを以下のように算出することができる。
Ｌ＝（Ｉ_ｔ－Ｉ_ｔ’）^２＋（Ｉ_ｔ＋１－Ｉ_ｔ＋１’）^２＋（Ｄ_ｔ－Ｄ_ｔ’）^２＋（Ｄ_ｔ＋１－Ｄ_ｔ＋１’）^２
ここで、
Ｉ_ｔ’はｔに対応する変換画像、Ｉ_ｔ＋１’はｔ＋１に対応する変換画像、Ｄ_ｔは時刻ｔの画像データから予測される深度マップ、Ｄ_ｔ’は時刻ｔに対応する深度マップの変換画像を表す。また、Ｄ_ｔ＋１は時刻ｔ＋１の画像データから予測される深度マップ、Ｄ_ｔ＋１’は時刻ｔ＋１に対応する深度マップの変換画像を表す。

【0031】

イテレーション制御部２０５は、ＤＮＮ＿Ｄ２０１及びＤＮＮ＿Ｐ２０２による最適化を実現するために、繰り返し演算（すなわちイテレーション）を制御する。ＤＮＮ＿Ｄ２０１は、上述のように、繰り返し演算によって、予測する深度マップの精度を向上させる。具体的には、図５に示すように、ＤＮＮ＿Ｄ２０１は、例えば、時刻ｔの画像データと、時刻ｔの画像データに対して直前（例えばＮ）のイテレーションで予測された深度マップ５０２と、深度マップに関する損失の勾配５０３とを入力する。そして、ＤＮＮ＿Ｄ２０１は、Ｎ＋１回目のイテレーションにおける深度マップ５０４を出力する。イテレーションによる計算では、Ｎ回目のイテレーションの深度マップ５０２と、深度マップに関する損失の勾配５０３は、イテレーションごとに更新される。時刻ｔの深度マップに関する損失の勾配５０３は、損失における時刻ｔの深度マップ（Ｄ_ｔ）の勾配（例えば、上記損失Ｌのコスト関数における当該Ｄ_ｔによる偏微分）である。また、時刻ｔ＋１の深度マップに関する損失の勾配は、損失における時刻ｔ＋１の深度マップ（Ｄ_ｔ＋１）の勾配（例えば、上記損失Ｌのコスト関数における当該Ｄ_ｔ＋１による偏微分）である。

【0032】

ＤＮＮ＿Ｐ２０２は、上述のように、繰り返し演算によって、予測するカメラポーズの精度を向上させる。具体的には、図６に示すように、ＤＮＮ＿Ｐ２０２は、例えば、時刻ｔ及び時刻ｔ＋１の画像データ６０１と、画像データ６０１に対する、直前（例えばＮ）のイテレーションで予測されたカメラポーズ６０２と、カメラポーズに関する損失の勾配６０３とを入力する。そして、ＤＮＮ＿Ｐ２０１は、Ｎ＋１回目のイテレーションにおけるカメラポーズ６０４を出力する。イテレーションによる計算では、Ｎ回目のイテレーションのカメラポーズ６０２と、カメラポーズに関する損失の勾配６０３は、イテレーションごとに更新される。（時刻ｔから時刻ｔ＋１への）カメラポーズに関する損失の勾配６０３は、損失における時刻ｔから時刻ｔ＋１へのカメラポーズの勾配（例えば、上記損失Ｌにおける当該カメラポーズによる偏微分）である。また、（時刻ｔ＋１から時刻ｔへの）カメラポーズに関する損失の勾配は、損失における時刻ｔ＋１から時刻ｔへのカメラポーズの勾配（例えば、上記損失Ｌにおける当該カメラポーズによる偏微分）である。

【0033】

イテレーション制御部２０５は、損失２１４が収束するまでイテレーションを繰り返す。イテレーション制御部２０５は、例えば、算出した損失２１４が所定の回数に渡って閾値以下である場合に、損失２１４が収束したと判定してイテレーションを終了する。

【0034】

＜モデル処理部における予測処理の一連の動作＞
次に、図７を参照して、モデル処理部１１４における（カメラパラメータ及び深度マップの）予測処理の一連の動作について説明する。なお、本処理は、例えば、制御部１０４のＣＰＵ１１０（或いはＧＰＵ）がＲＯＭ１１２に記憶されたプログラムをＲＡＭ１１１に展開、実行することにより実現される。なお、制御部１０４のモデル処理部１１４の学習モデルは学習済みの状態（すなわち、上述のＤＮＮ＿Ｄ２０１及びＤＮＮ＿Ｐ２０２は学習済みの状態）で実行される。

【0035】

Ｓ７０１において、制御部１０４の画像データ取得部１１３は、車両などの外部装置から２つの画像データを取得する。２つの画像データは、例えば、車両に搭載された１台のカメラが時刻ｔ及びその後の時刻ｔ＋１に撮影した画像である。

【0036】

Ｓ７０２において、制御部１０４のモデル処理部１１４は、時刻ｔの画像データ（Ｉ_ｔ）及び時刻ｔ＋１の画像データ（Ｉ_ｔ＋１）のそれぞれに対する深度マップ（Ｄ_ｔ及びＤ_ｔ＋１）を予測する。具体的には、最初のイテレーションにおいて、ＤＮＮ＿Ｄ２０１が画像データ（Ｉ_ｔ）を入力して、時刻ｔにおける深度マップ（Ｄ_ｔ）を予測する。また、ＤＮＮ＿Ｄ２０１は画像データ（Ｉ_ｔ＋１）を入力して、時刻ｔ＋１における深度マップ（Ｄ_ｔ＋１）を予測する。なお、本ステップの時点では直近のイテレーションは実行されていないため、ＤＮＮ＿Ｄ２０１には、直近のイテレーションの深度マップ５０２や深度マップに関する損失の勾配５０３は入力されない。

【0037】

Ｓ７０３において、モデル処理部１１４は、時刻ｔの画像データ（Ｉ_ｔ）から時刻ｔ＋１の画像データ（Ｉ_ｔ＋１）に対する、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）を予測する。また、モデル処理部１１４は、時刻ｔ＋１の画像データ（Ｉ_ｔ＋１）から時刻ｔの画像データ（Ｉ_ｔ）に対する、相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）を予測する。具体的には、最初のイテレーションにおいて、ＤＮＮ＿Ｐ２０２が画像データ（Ｉ_ｔ）と画像データ（Ｉ_ｔ＋１）とを入力して、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）を予測する。また、ＤＮＮ＿Ｐ２０２は画像データ（Ｉ_ｔ）と画像データ（Ｉ_ｔ＋１）を入力して、相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）を予測する。なお、本ステップの時点では直近のイテレーションは実行されていないため、ＤＮＮ＿Ｐ２０２には直近のイテレーションのカメラポーズ６０２やカメラポーズに関する損失の勾配６０３は入力されない。

【0038】

Ｓ７０４において、画像変換部２０３は、予測された深度マップとカメラポーズを用いて、時刻ｔにおける画像データ（Ｉ_ｔ）と時刻ｔ＋１における画像データ（Ｉ_ｔ＋１）を画像変換する。具体的には、画像変換部２０３は、時刻ｔにおける画像データ（Ｉ_ｔ）と時刻ｔにおける深度マップ（Ｄ_ｔ）と相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）を用いて、時刻ｔ＋１に対応する変換画像を生成する。また、画像変換部２０３は、時刻ｔ＋１における画像データ（Ｉ_ｔ＋１）と時刻ｔ＋１における深度マップ（Ｄ_ｔ＋１）と相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）を用いて、時刻ｔに対応する変換画像を生成する。

【0039】

また、画像変換部２０３は、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）と時刻ｔにおける深度マップ（Ｄ_ｔ）とを用いて、時刻ｔ＋１に対応する深度の変換画像（Ｄ_ｔ＋１’）を生成する。更に、画像変換部２０３は、相対的なカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）と時刻ｔ＋１における深度マップ（Ｄ_ｔ＋１）とを用いて、時刻ｔに対応する深度の変換画像（Ｄ_ｔ’）を生成する。

【0040】

Ｓ７０５において、損失算出部２０４は、変換前のデータと変換画像との差分を含む損失を計算する。損失は、例えば上述した損失Ｌであってよい。すなわち、損失算出部２０４は、時刻ｔと時刻ｔ＋１のそれぞれの画像、及び時刻ｔと時刻ｔ＋１に対応するそれぞれの変換画像の２乗誤差を損失に含める。更に、損失算出部２０４は、時刻ｔと時刻ｔ＋１のそれぞれの深度マップ、及び時刻ｔと時刻ｔ＋１に対応するそれぞれの深度マップの２乗誤差を損失に含める。すなわち、時刻ｔと時刻ｔ＋１の両方向へのカメラポーズと、時刻ｔと時刻ｔ＋１の両方における深度マップとが、損失を最小化するように最適化される。

【0041】

Ｓ７０６において、イテレーション制御部２０５は、損失算出部２０４によって算出された損失を監視し、損失が収束の条件を満たすかを判定する。イテレーション制御部２０５は、例えば、算出した損失が、所定の回数に渡って損失値の閾値以下である場合に、収束の条件を満たしたと判定して、本一連の処理を終了する。一方、イテレーション制御部２０５は、算出した損失が所定の回数に渡って損失値の閾値以下になっていないと判定した場合には、処理をＳ７０７に進める。

【0042】

Ｓ７０７において、イテレーション制御部２０５は、Ｓ７０５で算出された損失に基づき、深度マップに関する損失の勾配を算出する。深度マップに関する損失の勾配は、時刻ｔ及び時刻ｔ＋１のそれぞれの深度マップに関して算出することができる。損失における時刻ｔの深度マップ（Ｄ_ｔ）の勾配は、例えば、損失Ｌにおける当該Ｄ_ｔによる偏微分である。また、損失における時刻ｔ＋１の深度マップ（Ｄ_ｔ＋１）の勾配は、例えば、損失Ｌにおける当該Ｄ_ｔ＋１による偏微分である。

【0043】

イテレーション制御部２０５は、深度マップに関する損失の勾配と、現在のイテレーション（すなわちＳ７０２の予測結果）と、各画像データ（Ｉ_ｔ、Ｉ_ｔ＋１）とを用いて、新たなイテレーションにおける深度マップ（Ｄ_ｔ、Ｄ_ｔ＋１）を予測する。

【0044】

Ｓ７０８において、イテレーション制御部２０５は、Ｓ７０５で算出された損失に基づき、カメラポーズに関する損失の勾配を算出する。カメラポーズに関する損失の勾配は、相対的なカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）とＰ（Ｉ_ｔ＋１、Ｉ_ｔ）とのそれぞれに関して算出することができる。損失におけるカメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）の勾配は、例えば、損失Ｌにおける当該カメラポーズＰ（Ｉ_ｔ、Ｉ_ｔ＋１）による偏微分である。また、損失におけるカメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）の勾配は、例えば、損失Ｌにおける当該カメラポーズＰ（Ｉ_ｔ＋１、Ｉ_ｔ）による偏微分である。

【0045】

イテレーション制御部２０５は、カメラポーズに関する損失の勾配と、現在のイテレーション（すなわちＳ７０３の予測結果）と、各画像データ（Ｉ_ｔ、Ｉ_ｔ＋１）とを用いて、新たなイテレーションにおける相対的なカメラポーズ（Ｐ（Ｉ_ｔ、Ｉ_ｔ＋１）とＰ（Ｉ_ｔ＋１、Ｉ_ｔ））を予測する。

【0046】

イテレーション制御部２０５は、Ｓ７０８の処理が終わると、イテレーションの処理を継続するように、処理をＳ７０４に進めて、Ｓ７０４～Ｓ７０８の処理を繰り返す。

【0047】

このように、モデル処理部１１４における予測処理では、元の画像データと、推定されたカメラパラメータと深度マップとから得られる変換画像とを比較した損失を計算し、深度マップに関する損失の勾配やカメラパラメータに関する損失の勾配を用いて、深度マップ及びカメラポーズを繰り返し演算により最適化する。このようにすることで、ＤＮＮによって予測されるカメラパラメータや深度マップを勾配に応じて修正し、ＤＮＮによる一度の処理によって予測される結果よりも予測精度を高めることができる。

【0048】

上述の予測処理では明示していないが、モデル処理部１１４は、最終的に求めたカメラポーズと深度マップとを、例えば車両などの外部装置に送信することができる。すなわち、モデル処理部１１４は、車両などの外部装置から処理対象の２つの画像を受け付けて、当該画像から予測される深度マップとカメラパラメータとを当該外部装置に返信することができる。このようにすれば、車両などの外部装置は、撮影した画像に対する推論結果を情報処理サーバ１００から適宜取得しながら、例えば自動運転などの走行制御を行うことができる。

【0049】

なお、上述の予測処理の一連の動作は、モデル処理部１１４の学習モデルが推論段階（すなわち学習済み）において行われる動作であった。学習モデルを学習させる場合には、モデル処理部１１４は、上記Ｓ７０１～Ｓ７０８の処理に加え、ＤＮＮ＿Ｄ２０１とＤＮＮ＿Ｐ２０２の重みパラメータを更新する処理を加えればよい。具体的には、Ｓ７０５において損失を計算した後に、損失の勾配を用いたバックプロパゲーションを行って各ＤＮＮの重みパラメータを更新するようにすればよい。或いは、Ｓ７０６において収束の条件を満たしたと判定した後（すなわち繰り返し演算を終了した後）の最終的なカメラポーズと深度マップを用いて、Ｓ７０５と同様に変換前のデータと変換画像との差分を含む損失を算出してもよい。この場合、算出した損失を全て学習データに渡って蓄積させ、蓄積した損失に基づいてＤＮＮのバックプロパゲーションを行ってもよい。

【0050】

また、上述の例では、モデル処理部１１４が、取得した画像に基づいて深度マップを生成する例を説明した。しかし、モデル処理部１１４は、車両などのＬｉｄａｒ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）やレーダによって生成される深度マップを用いて、カメラパラメータを推定するようにしてもよい。

【0051】

（実施形態２）
次に、本発明の実施形態２について説明する。上述の実施形態では、情報処理サーバ１００において学習モデルによる予測処理を実行する場合を例に説明した。しかし、本実施形態は、当該予測処理を情報処理サーバにおいて実行する場合に限らず、移動体の一例としての車両において実行する場合にも適用可能である。すなわち、車両においてモデル処理部の学習モデルが動作して、車両内でカメラパラメータと深度マップとを予測することができる。以下、このような実施形態における車両の機能構成例について説明する。なお、以下の例では、制御部８０８が車両８００に組み込まれている制御手段である場合を例に説明する。しかし、車両８００に制御部８０８の構成を有する情報処理装置が搭載されていてもよい。すなわち、車両８００は、制御部８０８に含まれるＣＰＵ８１０やモデル処理部８１４などの構成を備える情報処理装置を搭載した車両であってもよい。

【0052】

車両において学習モデルの推論段階の処理を行う場合、例えば、情報処理サーバ１００が車両８００に学習済みモデルの情報（例えば学習後のニューラルネットワークの重みパラメータ等）を提供する。このようにすれば、車両８００は、情報処理サーバ１００において収集される様々な学習データを用いて学習された最新の学習済みモデルを用いることができる。

【0053】

＜車両の構成＞
図８を参照して、本実施形態に係る車両８００の機能構成例について説明する。なお、以降の図を参照して説明する機能ブロックの各々は、統合されまたは分離されてもよく、また説明する機能が別のブロックで実現されてもよい。また、ハードウェアとして説明するものがソフトウェアで実現されてもよく、その逆であってもよい。

【0054】

センサ部８０１は、車両の前方（或いは、更に後方方向や周囲）を撮影した撮影画像を出力するカメラ（撮像装置）を含む。センサ部８０１は、更に、車両の前方（或いは、更に後方方向や周囲）の距離を計測して得られる距離画像を出力するＬｉｄａｒ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）を含んでよい。撮影画像は、例えば、モデル処理部８１４における予測処理に用いられる。また、センサ部８０１は、車両８００の加速度、位置情報、操舵角などを出力する各種センサを含んでよい。

【0055】

通信部８０２は、例えば通信用回路等を含む通信デバイスであり、例えばＬＴＥやＬＴＥ－Ａｄｖａｎｃｅｄ等或いは所謂５Ｇとして規格化された移動体通信を介して情報処理サーバ１００や周囲の交通システムなどと通信する。通信部８０２は、情報処理サーバ１００から学習モデルの情報を取得する。そのほか、通信部８０２は、地図データの一部又は全部や交通情報などを他の情報処理サーバや周囲の交通システムから受信する。

【0056】

操作部８０３は、車両８００内に取り付けられたボタンやタッチパネルなどの操作部材のほか、ステアリングやブレーキペダルなどの、車両８００を運転するための入力を受け付ける部材を含む。電源部８０４は、例えばリチウムイオンバッテリ等で構成されるバッテリを含み、車両８００内の各部に電力を供給する。動力部８０５は、例えば車両を走行させるための動力を発生させるエンジンやモータを含む。

【0057】

走行制御部８０６は、モデル処理部８１４から出力される予測処理の結果（例えばカメラポーズや深度マップ）を用いて、車両８００の移動を推定したり、外界を認識したりして、車両８００の走行を制御する。なお、移動推定、外界の認識、及び走行制御は既知の方法を用いて行うことができる。なお、本実施形態の説明では、走行制御部８０６を制御部８０８と異なる構成として例示しているが、制御部８０８に含まれてもよい。

【0058】

記憶部８０７は、半導体メモリなどの不揮発性の大容量のストレージデバイスを含む。センサ部８０１から出力された実画像やその他、センサ部８０１から出力された各種センサデータを一時的に格納する。また、例えば外部の情報処理サーバ１００から通信部８０２を介して受信する、学習済みモデルのパラメータを格納する。

【0059】

制御部８０８は、例えば、ＣＰＵ８１０、ＲＡＭ８１１、ＲＯＭ８１２を含み、車両８００の各部の動作を制御する。また、制御部８０８は、センサ部８０１から画像データを取得して、上述の予測処理を実行する。制御部８０８は、ＣＰＵ８１０がＲＯＭ８１２に格納されたコンピュータプログラムを、ＲＡＭ８１１に展開、実行することにより、制御部８０８が有するモデル処理部８１４等の各部の機能を発揮させる。

【0060】

ＣＰＵ８１０は、１つ以上のプロセッサを含む。ＲＡＭ８１１は、例えばＤＲＡＭ等の揮発性の記憶媒体で構成され、ＣＰＵ８１０のワークメモリとして機能する。ＲＯＭ８１２は、不揮発性の記憶媒体で構成され、ＣＰＵ８１０によって実行されるコンピュータプログラムや制御部８０８を動作させる際の設定値などを記憶する。なお、以下の実施形態では、ＣＰＵ８１０がモデル処理部８１４の処理を実行する場合を例に説明するが、モデル処理部８１４の処理は不図示の１つ以上の他のプロセッサ（例えばＧＰＵ）で実行されてもよい。

【0061】

学習パラメータ取得部８１３は、情報処理サーバ１００から学習済みモデルの情報（学習パラメータ）を取得し、記憶部８０７に格納する。

【0062】

モデル処理部８１４は、実施形態１において図２に示した構成と同一の構成の学習モデルを有し、モデル処理部８１４は、当該学習モデルの推論段階の処理を実行する。モデル処理部８１４が実行する推論段階の処理は、実施形態１に示した予測処理と同様に行うことができる。

【0063】

＜車両の走行制御のための主な構成＞
次に、図９を参照して、車両８００の走行制御のための主な構成について説明する。センサ部８０１が、例えば車両８００の前方を撮影し、撮影した画像データを毎秒所定の枚数で出力する。センサ部８０１から出力された画像データは、制御部８０８のモデル処理部８１４に入力される。モデル処理部８１４に入力された画像データは、カメラポーズ及び深度マップの予測処理（推定段階の処理）に用いられる。モデル処理部８１４は、センサ部８０１から出力された画像データを入力して、当該予測処理を実行し、カメラポーズや深度マップを走行制御部８０６に出力する。

【0064】

走行制御部８０６は、カメラポーズや深度マップの予測結果、及びセンサ部８０１から得られる車両の加速度や操舵角などの各種センサ情報に基づいて、移動推定、外界の認識などを行うとともに、例えば動力部８０５への制御信号を出力して、車両８００の車両制御を行う。カメラポーズや深度マップを用いた移動推定、外界の認識、及び車両制御は公知の方法を用いて行うことができる。動力部８０５は、走行制御部８０６による制御信号に応じて、動力の発生を制御する。

【0065】

学習パラメータ取得部８１３は、情報処理サーバ１００から送信された学習モデルの情報を取得する。取得されたデータは、モデル処理部８１４のＤＮＮを学習させるために用いられる。

【0066】

このように、本実施形態では、車両８００におけるモデル処理部８１４においてカメラポーズ及び深度マップを予測する学習モデルを実行するようにした。すなわち、車両が、元の画像データと、推定されたカメラパラメータと深度マップとから得られる変換画像とを比較した損失を計算し、深度マップに関する損失の勾配やカメラパラメータに関する損失の勾配を用いて、深度マップ及びカメラポーズを繰り返し演算により最適化する。このようにすることで、車両において実行する学習モデルにおいて、ＤＮＮによる一度の処理によって予測される結果よりも予測精度を高めることができる。

【0067】

＜実施形態のまとめ＞
（１）上述の実施形態では、情報処理装置において実行される情報処理方法であって、
第１画像又は前記第１画像と対になる第２画像を第１機械学習モデルに入力して深度マップを予測することと、
前記第１画像と前記第２画像とを第２機械学習モデルに入力して、前記第１画像と前記第２画像とを撮影した撮像装置の相対的な移動及び回転を予測することと、
前記第１画像から前記第２画像への予測された前記相対的な移動及び回転と、前記第１画像について予測された前記深度マップとに基づく画像変換を、前記第１画像に適用した第１変換画像を生成することと、
前記第１変換画像と前記第２画像の間の誤差を含んだ損失を算出することと、
前記相対的な移動及び回転に関する前記損失の勾配と、前記第１変換画像と、前記第１画像及び前記第２画像とを前記第２機械学習モデルに入力して、前記相対的な移動及び回転を繰り返し予測し、新たに予測される前記相対的な移動及び回転に基づく新たな前記第１変換画像と前記第２画像の間の誤差を含んだ前記損失を収束させることと、を含むことを特徴とする情報処理方法が提供される。

【0068】

このような実施形態によれば、相対的な移動及び回転に関する損失の勾配を機械学習モデルに与えて、繰り返し計算を行うことによって、機械学習モデルを用いてカメラポーズを推定する場合に、カメラポーズの推定精度を向上させることができる。

【0069】

（２）さらに、上述の実施形態では、
前記第２画像から前記第１画像への予測された前記相対的な移動及び回転と、前記第２画像について予測された前記深度マップとに基づく画像変換を、前記第２画像に適用した第２変換画像を生成することと、
前記第２変換画像と前記第１画像の間の誤差を含んだ前記損失を算出することと、を更に含み、
前記損失を収束させることは、前記相対的な移動及び回転に関する前記損失の勾配と、前記第２変換画像と、前記第１画像及び前記第２画像とを前記第２機械学習モデルに入力して、前記相対的な移動及び回転を繰り返し予測することを含む。

【0070】

このような実施形態によれば、前記第１画像から前記第２画像への変換と、前記第２画像から前記第１画像への変換との両方向で正解となるデータとの比較を行うことができるため、推定精度を更に向上させることができる。また、機械学習モデルを学習させる場合に必要とする学習データの量を低減させることができる。

【0071】

（３）更に、上述の実施形態では、
前記損失は、前記第１変換画像と前記第２画像の間の誤差と、前記第２変換画像と前記第１画像の間の誤差との両方を含む。

【0072】

このような実施形態によれば、前記第１変換画像と第２変換画像との両方の損失が低下するように拘束されるため、それぞれの推定精度を向上させることができる。

【0073】

（４）更に、上述の実施形態では、
前記第１変換画像についての深度マップを生成することと、
前記第１変換画像についての深度マップと前記第１画像についての深度マップの間の誤差を含んだ前記損失を算出することと、を更に含み、
前記損失を収束させることは、前記深度マップに関する損失の勾配と、前記第１変換画像についての深度マップと、前記第１画像とを前記第１機械学習モデルに入力して、前記深度マップを繰り返し予測することを含む。

【0074】

このような実施形態によれば、機械学習を用いた繰り返し計算を深度マップの推定に適用することで、深度マップの推定をより精度良く行うことができる。

【0075】

（５）更に、上述の実施形態では、
前記情報処理装置は、移動体の外部に配置される情報処理サーバである。

【0076】

このような実施形態によれば、より計算資源の豊富な情報処理サーバにおいて機械学習モデルの処理を実行することができる。

【0077】

（６）更に、上述の実施形態では、
前記情報処理装置は、車両を含む移動体である。

【0078】

車両を含む移動体において上記情報処理方法を実行することにより、移動体において、撮像装置のキャリブレーションや移動予測を精度よく行うことができる。

【0079】

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。