(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-03
(45)【発行日】2023-02-13
(54)【発明の名称】モバイル装置の位置特定方法
(51)【国際特許分類】
G06T 7/246 20170101AFI20230206BHJP
G06T 7/00 20170101ALI20230206BHJP
G06T 7/73 20170101ALI20230206BHJP
【FI】
G06T7/246
G06T7/00 350C
G06T7/73
(21)【出願番号】P 2019539772
(86)(22)【出願日】2018-01-17
(86)【国際出願番号】 GB2018050134
(87)【国際公開番号】W WO2018134589
(87)【国際公開日】2018-07-26
【審査請求日】2021-01-15
(32)【優先日】2017-01-23
(33)【優先権主張国・地域又は機関】GR
(32)【優先日】2017-02-24
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】507226592
【氏名又は名称】オックスフォード ユニヴァーシティ イノヴェーション リミテッド
(74)【代理人】
【識別番号】110001999
【氏名又は名称】弁理士法人はなぶさ特許商標事務所
(72)【発明者】
【氏名】ワン,セン
(72)【発明者】
【氏名】クラーク,ロナルド
(72)【発明者】
【氏名】トリゴニ,ニキ
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開平10-170299(JP,A)
【文献】特開2009-009296(JP,A)
【文献】特開平11-110542(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/246
G06T 7/00
G06T 7/73
(57)【特許請求の範囲】
【請求項1】
カメラを含むモバイル装置の位置を特定するための、コンピュータで実行される方法であって、
前記カメラを使用して、一定期間にわたって一連の画像を取り込むステップと、
前記一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち1番目の画像が取り込まれた時間と、各一対の画像のうち2番目の画像が取り込まれた時間との間の、前記装置の動きを示す特徴を、第1のニューラルネットワークを用いて抽出するステップと、
一連の連続した画像について、前記第1のニューラルネットワークによって抽出された特徴から、前記装置の位置を示す特徴を、第2のニューラルネットワークを用いて抽出するステップと、
一連の連続した画像について、前記第2のニューラルネットワークによって抽出された特徴から、前記装置の位置を特定するステップと、
テストデータ及び目的関数を提供して、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを訓練するステップと、
前記第2のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、前記装置の相対的な位置及び向きの情報を抽出するステップと、
連続して取り込まれた各一対の画像について、前記相対的な位置及び向きの情報に対応する不確実性の情報を抽出するステップと、を含
み、
前記目的関数を、前記相対的な位置及び向きの情報の推定に関連する部分と、前記不確実性の情報に関連する部分とで構成することを特徴とする方法。
【請求項2】
前記装置の位置を特定するステップは、前記第2のニューラルネットワークによって抽出された特徴から抽出される、前記相対的な位置及び向きの情報を構成することを含むことを特徴とする請求項
1記載の方法。
【請求項3】
前記装置の位置に加えて、前記装置の向きを特定することを特徴とする請求項1
又は2記載の方法。
【請求項4】
前記一連の画像の画像は、単眼画像であることを特徴とする請求項1から
3のいずれか1項記載の方法。
【請求項5】
前記第1のニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする請求項1から
4のいずれか1項記載の方法。
【請求項6】
前記第2のニューラルネットワークは、リカレントニューラルネットワークであることを特徴とする請求項1から
5のいずれか1項記載の方法。
【請求項7】
前記第2のニューラルネットワークは、長・短期記憶ニューラルネットワークであることを特徴とする請求項
6記載の方法。
【請求項8】
前記一連の画像の各画像は、その対応する位
置及び向
きの情報に関連付けられており、
前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを訓練するステップは、更に前記対応する位
置及び向
きの情報を使用することを特徴とする請求項1から
7のいずれか1項記載の方法。
【請求項9】
前記装置は、自律型ロボットであることを特徴とする請求項1から
8のいずれか1項記載の方法。
【請求項10】
モバイル装置であって、
メモリ、プロセッサ、及びカメラを含み、
前記カメラを使用して、一定期間にわたって一連の画像を取り込み、
前記一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち1番目の画像が取り込まれた時間と、各一対の画像のうち2番目の画像が取り込まれた時間との間の、当該装置の動きを示す特徴を、前記プロセッサにより提供される第1のニューラルネットワークを用いて抽出し、
一連の連続した画像について、前記第1のニューラルネットワークによって抽出された特徴から、当該装置の位置を示す特徴を、前記プロセッサにより提供される第2のニューラルネットワークを用いて抽出し、
一連の連続した画像について、前記第2のニューラルネットワークによって抽出された特徴から、当該装置の位置を特定するように構成され、
前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、テストデータ及び目的関数が提供されて訓練されたものであ
り、
更に、前記第2のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、当該装置の相対的な位置及び向きの情報を抽出するように構成され、
更に、連続して取り込まれた各一対の画像について、前記相対的な位置及び向きの情報に対応する不確実性の情報を抽出するように構成され、
前記目的関数が、前記相対的な位置及び向きの情報の推定に関連する部分と、前記不確実性の情報に関連する部分とで構成されていることを特徴とする装置。
【請求項11】
前記第2のニューラルネットワークによって抽出された特徴から抽出される、前記相対的な位置及び向きの情報を構成することにより、当該装置の位置を特定するように構成されていることを特徴とする請求項
10記載の装置。
【請求項12】
当該装置の位置に加えて、当該装置の向きを特定するように構成されていることを特徴とする請求項
10又は11記載の装置。
【請求項13】
前記一連の画像の画像は、単眼画像であることを特徴とする請求項
10から
12のいずれか1項記載の装置。
【請求項14】
前記第1のニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする請求項
10から
13のいずれか1項記載の装置。
【請求項15】
前記第2のニューラルネットワークは、リカレントニューラルネットワークであることを特徴とする請求項
10から
14のいずれか1項記載の装置。
【請求項16】
前記第2のニューラルネットワークは、長・短期記憶ニューラルネットワークであることを特徴とする請求項
15記載の装置。
【請求項17】
モバイル装置で実行されたときに、請求項1から
9のいずれか1項記載の方法を実行するように構成されていることを特徴とするコンピュータプログラム。
【請求項18】
モバイル装置で実行されたときに、請求項
10から
16のいずれか1項記載のモバイル装置を提供するように構成されていることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、モバイル装置の位置を特定することに関する。より詳細には、排他的ではないが、本発明は、モバイル装置のカメラによって取り込まれた画像からモバイル装置の位置を特定するために、ニューラルネットワークを使用することに関する。
【0002】
特に、本発明は、排他的ではないが、モバイル装置が自律型ロボットである場合に適用可能なものである。しかしながら、本発明は、携帯電話、スマートウォッチ、及びそれらの類のものといった、他の種類のモバイル及びウェアラブル装置にも適用可能である。
【0003】
本明細書で扱う「位置」は、モバイル装置が緯度及び経度によって規定される地球上の位置にある、といった絶対位置を指し、又、別の位置に対する相対位置を指すこともある(例えば、モバイル装置は最初の開始位置からの距離及び方向)。位置の特定には、例えば地球の磁場に関する絶対的な用語での、及び初期の向きに対する特定量の回転のような相対的な用語での、向きの特定も含まれることが多い。
【背景技術】
【0004】
GPS信号が利用できない場所で、モバイル装置の位置を特定できることが望ましい。これは、正確な誘導を可能にする自律型ロボットの場合に特に当てはまる。既知のアプローチは、位置を特定するためにカメラからの画像を使用することである。しかしながら、そのようなシステムでは、位置を確実に特定する場合、カメラに非常に正確な較正が必要になる傾向がある。従来のビジュアル・オドメトリ技術には、スパース法(特徴の検出及び照合と動きの推定及び最適化とを含む、幾つかのステップを含む)、及び直接法(動きの推定及び最適化のステップを含む)が含まれる。そのような技術は、正確なカメラ較正を必要とする傾向があり、テクスチャの少ない環境(すなわち特徴が少ない環境)や、画像を取り込むカメラが急速に回転する場合に、失敗することがよくある。更に、このようなシステムは、通常、移動経路の形状を判定することはできるが、大抵はスケール、つまり実際の移動距離を推定することはできない。
【0005】
或いは、位置を特定するために、ニューラルネットワークを使用してカメラからの画像を処理することが知られている。モハンティ等作、DeepVO:単眼ビジュアル・オドメトリのための深層学習方法、arXiv識別子:1611.06069、2016年11月18日公開の論文は、そのようなシステムを開示している。しかしながら、ニューラルネットワークを使用する既知のシステムには様々な問題がある。それらは、使用される特定の環境向けのトレーニングを必要とする傾向があるため、最初に適切なトレーニングが行われないと、新しい環境で使用することができない。
【0006】
本発明は、上述した問題を軽減しようとするものである。又、代替的及び/又は付加的に、本発明は、モバイル装置の位置を特定する改善された方法を提供しようとするものである。
【発明の概要】
【0007】
本発明の第1の態様によれば、カメラを含むモバイル装置の位置を特定するための、コンピュータで実行される方法であって、カメラを使用して、一定期間にわたって一連の画像を取り込むステップと、一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち1番目の画像が取り込まれた時間と、各一対の画像のうち2番目の画像が取り込まれた時間との間の、装置の動きを示す特徴を、第1のニューラルネットワークを用いて抽出するステップと、一連の連続した画像について、第1のニューラルネットワークによって抽出された特徴から、装置の位置を示す特徴を、第2のニューラルネットワークを用いて抽出するステップと、一連の連続した画像について、第2のニューラルネットワークによって抽出された特徴から、装置の位置を特定するステップと、含む方法が提供される。
【0008】
2つのニューラルネットワークの組み合わせを使用することで、はるかに堅牢で信頼性の高い位置特定が可能になることが判明した。特に、第1のニューラルネットワークは、画像間の差分によって示唆される動きを示す画像から、特徴を最も効果的に抽出するようにトレーニングすることができ、前記動きは、2つの画像のみに依存し、以前に特定された位置のような履歴情報に依存しない。しかしながら、以前に特定された場所といった履歴情報が非常に有用であると、第1のニューラルネットワークによって抽出された特徴から、モバイル装置の位置を最も効果的に特定するように、第2のニューラルネットワークを同時にトレーニングすることができる。このように2つのニューラルネットワークに処理を分割することにより、段階的な動きと総体的な位置との双方のトレーニングを、効果的に達成することができる。更に、システム全体をトレーニングすることで、双方のニューラルネットワークを同時にトレーニングできるため、特に、実際には使用に最適なタイプの特徴ではない虞がある事前に選択された属性で、動きの特徴を抽出するようにトレーニングするのではなく、システム全体の動作に最適な動きの特徴を抽出するように、第1のニューラルネットワークをトレーニングすることができる。
【0009】
好ましくは、装置の位置に加えて装置の向きが特定される。従って、装置の「ポーズ」が特定される。
好ましくは、一連の画像の画像が単眼画像である。
【0010】
好適には、第1のニューラルネットワークが畳み込みニューラルネットワークである。この種のニューラルネットワークは、画像データ等の多数のパラメータを有するデータを処理するのに特に適している。
【0011】
好適には、第2のニューラルネットワークがリカレントニューラルネットワークである。この場合、好ましくは、第2のニューラルネットワークが長・短期記憶ニューラルネットワークである。リカレントニューラルネットワーク、特に長・短期記憶タイプのものは、時間依存型データの処理に特に適している。
【0012】
好ましくは、本方法は、更に、第2のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、装置の相対的な位置及び向きの情報を抽出するステップを含む。この場合、好ましくは、装置の位置を特定するステップが、第2のニューラルネットワークによって抽出された特徴から抽出される、相対的な位置及び向きの情報を構成することを含む。換言すれば、装置の位置は、連続した動きの推定からオドメトリ的に(odometrically)特定される。
【0013】
好適には、本方法は、更に、連続して取り込まれた各一対の画像について、相対的な位置及び向きの情報に対応する不確実性の情報を抽出するステップを含む。不確実性の情報は、ポーズの情報と共に、同時ローカリゼーション及びマッピング(SLAM)アルゴリズムへの入力として使用することができる。
【0014】
一連の画像の各画像は、その対応する位置の情報に関連付けられていてもよく、本方法は、更に、対応する位置の情報を使用して、第1及び第2のニューラルネットワークを訓練するステップを含んでいてもよい。好ましくは、各画像は、その向きの情報にも関連付けられている。
【0015】
装置は、自律型ロボットであってもよい。或いは、装置は、携帯電話、ウェアラブル装置、又は他の適切なモバイル装置であってもよい。
【0016】
本発明の第2の態様によれば、モバイル装置であって、メモリ、プロセッサ、及びカメラを含み、カメラを使用して、一定期間にわたって一連の画像を取り込み、一連の画像からの、複数の連続した一対の画像について、各一対の画像のうち1番目の画像が取り込まれた時間と、各一対の画像のうち2番目の画像が取り込まれた時間との間の、装置の動きを示す特徴を、プロセッサにより提供される第1のニューラルネットワークを用いて抽出し、一連の連続した画像について、第1のニューラルネットワークによって抽出された特徴から、位置を示す特徴を、プロセッサにより提供される第2のニューラルネットワークを用いて抽出し、一連の連続した画像について、第2のニューラルネットワークによって抽出された特徴から、装置の位置を特定するように構成されている装置が提供される。
【0017】
好ましくは、本装置は、装置の位置に加えて装置の向きを特定するように構成されている。
好ましくは、一連の画像の画像が単眼画像である。
【0018】
好適には、第1のニューラルネットワークが畳み込みニューラルネットワークである。
好適には、第2のニューラルネットワークがリカレントニューラルネットワークである。この場合、好ましくは、第2のニューラルネットワークが長・短期記憶ニューラルネットワークである。
【0019】
好ましくは、本装置は、更に、第2のニューラルネットワークによって抽出された特徴から、連続して取り込まれた各一対の画像について、装置の相対的な位置及び向きの情報を抽出するように構成されている。この場合、好ましくは、本装置は、第2のニューラルネットワークによって抽出された特徴から抽出される、相対的な位置及び向きの情報を構成することによって、装置の位置を特定するように構成されている。
【0020】
好適には、本装置は、更に、連続して取り込まれた各一対の画像について、相対的な位置及び向きの情報に対応する不確実性の情報を抽出するように構成されている。
【0021】
本発明の第3の態様によれば、モバイル装置で実行されたときに、上述した何れかの方法を実行するように構成された、コンピュータプログラム製品が提供される。
【0022】
本発明の第4の態様によれば、モバイル装置で実行されたときに、上述した何れかのモバイル装置を提供するように構成された、コンピュータプログラム製品が提供される。
【0023】
当然のことながら、本発明の一態様に関連して説明された特徴が、本発明の他の態様に組み込まれてもよいことは、理解されるであろう。例えば、本発明の方法は、本発明のモバイル装置を参照して説明された何れの特徴をも組み込むことができ、その逆もまた同様である。
【0024】
ここで、本発明の実施形態について、添付の概略的な図面を参照しながら、単なる例として説明する。
【図面の簡単な説明】
【0025】
【
図1】本発明の実施形態に係る自律型ロボットの概略図である。
【
図2】
図1の自律型ロボットの、その位置を推定するための動作を示すフローチャートである。
【
図4】
図2及び
図3の手順で使用されるLSTMの概略図である。
【発明を実施するための形態】
【0026】
本発明の実施形態に係る自律型ロボットの概略図を、
図1に示している。自律型ロボット1は、プロセッサ2を含んでいる。異なる実施形態では、プロセッサ2がシングルプロセッサシステム、デュアルプロセッサシステム、或いはその他の適切なプロセッサシステムであってもよいことは、理解されるであろう。プロセッサ2は、カメラ3及び(とりわけ)カメラ3によって取り込まれた画像を記憶するメモリ4と、通信を行う。
【0027】
ここで、自律型ロボット1がその位置を特定するための動作について、
図2のフローチャートを参照して説明する。その手順を
図3にも概略的に示している。各時間ステップにおいて、自律型ロボット1は、現在利用可能な情報に基づいてその位置を特定する。
図3は、3つの連続した時間ステップt、t+1、及びt+2を示しており、各時間ステップについての自律型ロボット1の「ポーズ(pose)」である、Pose
t、Pose
t+1、及びPose
t+2の夫々が特定され、ポーズは、位置と進路情報(すなわち自律型ロボットが向いている向き)との組み合わせである。
【0028】
まず、カメラ3によって連続的に取り込まれた一対の画像を取得する(ステップ21、
図3の部分31)。次に、画像のサンプルセットから平均RGBチャネル値を減算することにより、各画像を前処理する(ステップ22、
図3の部分32)。画像のセットは、例えば後に詳細に説明するように、自律型ロボット1が訓練される際の画像であってもよい。更に、画像を64の倍数になるようにサイズ変更する。但し、このような前処理はオプションであって、他の実施形態では存在しない。
図3から分かるように、時間ステップtの場合、最初の一対の画像は前処理された画像RGB
t及びRGB
t+1になるが、時間ステップt+1の場合、前処理された画像はRGB
t+1及びRGB
t+2であり、他の時間ステップについても同じように続いていく。
【0029】
プロセッサ2及びメモリ4によって実装される畳み込みニューラルネットワーク(CNN)は、前処理された一対の画像を取得し、それを使用して特徴を抽出する(ステップ23、
図3の部分33)。CNNは、以下の説明のように実行されたそのトレーニングに従って、特徴を抽出する。
【0030】
CNNは、ネットワーク構造に畳み込み層を組み込むニューラルネットワークの一種であるため、他の種類のニューラルネットワークで使用される全結合層とは対照的に、データの空間的規則性を活用することができる。つまり、CNNに必要なパラメータの数が大幅に削減され、高次元の入力(生の画像データ等)を取り扱うことができるようになる。CNNでは、各畳み込み層で複数の畳み込み演算が適用され、前の層の出力マップから多くの特徴が抽出される。例えば[38]で説明されているように、マップの畳み込みに使用されるフィルターカーネルは、トレーニング中に学習される。
【0031】
CNNは、前処理された連続した一対の画像を積み重ねることによって生成されたテンソルを、入力として受け取る。CNNは、9つの畳み込み層で構成され、最後を除く夫々に正規化線形ユニット(ReLU)非線形活性化(non-linearity activation)が続くことで、合計で17層になる。それらの層は次のように構成される。
【表1】
【0032】
ネットワーク内の受容野のサイズは、7×7から5×5、そして3×3へと徐々に小さくなり、小さな興味深い特徴を捉えている。受容野の構成に適応するため、或いは、畳み込み後にテンソルの空間次元を保持するために、ゼロパディングが導入される。チャネル数、すなわち、特徴検出用のフィルター数は、様々な特徴を学習するために増加する。
【0033】
本実施形態ではCNNが5500万の訓練可能な重みを有するが、他の実施形態では異なる数の重みを使用できることは、理解されるであろう。
そして、最終層(つまりConv6)からの特徴が、CNNの出力になる。
【0034】
次に、リカレントニューラルネットワーク(RNN)が、CNNによって生成された特徴を取得し、それらから動きの特徴を抽出する(ステップ24、
図3の部分34のLSTMボックス)。CNNと同様に、RNNは、以下に詳しく説明するそのトレーニングに従ってこれを行う。
【0035】
RNNは、ニューラルネットワークの一種で、層は入力に対して作用するが、隠れ層及び/又は出力の遅延バージョンに対しても作用する。この方法において、RNNは、過去の入力及び対応する特定を追跡するための「メモリ」として使用できる、内部状態を有している。
【0036】
本実施形態では、
図4に示すような長・短期記憶(LSTM)アーキテクチャを備えたRNNが使用され(その様々なバリエーションが存在する)、
図4において、丸中黒符号(○の中に●がある符号)は、要素単位の積を示し、丸囲み+符号(○の中に+がある符号)は、2つのベクトルの加算を示している。メモリセルの内容は、c
tに保存される。入力ゲートi
tは、現在の時間ステップで入力がメモリの内容に入る方法を制御する。忘却ゲートf
tは、必要に応じてメモリセルをクリアする制御信号0~1を生成することにより、メモリセルを空にするタイミングを決定する。最後に、出力ゲートo
tは、メモリセルの内容を現在の時間ステップで使用するか否かを決定する。RNNの動作は、以下の式で説明される。
【0037】
【数1】
【数2】
【数3】
【数4】
【数5】
【数6】
【0038】
パラメータWi,j及びbiは、RNNの動作を完全にパラメータ化し、トレーニング中に学習される。再帰的な隠れ層により、ネットワークは、入力データの時間的規則性を利用してパフォーマンスを向上させることができる。
【0039】
従来のLSTMモデルでは、隠れ状態のみが前の時間ステップから引き継がれるが、本実施形態では、前の時間ステップについて特定されたポーズが、入力としてRNNに直接送られる。これは
図3で確認することができ、この図では、次の時間ステップのために、時間ステップのポーズがLSTMボックスに送られる。これを行う理由は、位置推定の場合、出力が基本的に各時間ステップでの連続する変位の積分であるためである。従って、前の時間ステップで特定されたポーズは、特に重要である。
【0040】
本実施形態において、LSTMは、2000ユニットのセルを備えた2つの層を有するが、他の実施形態では、異なる数の層及びユニットを使用できることは、理解されるであろう。
【0041】
次に、(高次元の)RNNによって抽出された動きの特徴は、全結合層に渡され(ステップ25)、それは低次元(少なくともポーズについて6、不確実性について6、更にポーズ及び不確実性の推定にガウス混合を使用する場合は各々についてより多いかもしれない)の特徴を出力する。
【0042】
次に、全結合層からの低次元の特徴は、SE(3)層に渡される(ステップ26、
図3の部分34のSE3ボックス)。SE(3)は、各時間ステップで自律型ロボット1の位置(実際には、時間ステップtについてのPose
t等のポーズ)を特定するために、各時間ステップで連続した動きの特徴を構成する。
【0043】
SE3は、その要素が変換行列である特別なユークリッド群であって、特別な直交群SO3からの回転と並進ベクトルとで構成される。
【数7】
【0044】
SO3コンポーネントが直交行列である必要があるため、SE3に属する変換推定値の生成は簡単ではない。しかしながら、SE3のリー代数se3は、直交性の制約を受けないコンポーネントによって記述することができる。
【数8】
【0045】
そして、se3とSE3との間の変換は、指数マップを使用して実行できる。
【数9】
別の実施形態では、行列表現の代わりに回転の四元数表現が使用される。特に、ω成分はベクトルに変換される。
【数10】
【数11】
【数12】
【0046】
これらの量の勾配の計算は、単純な線形代数演算のみを使用して実行することができる。更に、指数マップを計算するために必要な、高価な固有値の代償(expensive eigenvalue decompensation)が回避される。
従って、このようにして自律型ロボット1は、カメラ3からの画像を使用して、その位置、特にそのポーズを推定する。
【0047】
連続したセンサ測定値からの位置の推定(すなわちオドメトリ)は、必然的にドリフトの影響を受ける。結果的に、それをループ閉じ込み、マップマッチング、又はポーズグラフ最適化手法と組み合わせて使用して、同時ローカリゼーション及びマッピング(SLAM)システムを作成するのが一般的である。オドメトリ測定をそのようなシステムに統合する重要な側面は、不確実性の推定値の可用性である。
【0048】
そのような推定値を提供するために、全結合層の出力が使用される(SE(3)層の前)。全結合層によって生成された推定値は、訓練データからのグラウンドトゥルース・ポーズ情報と比較され、ポーズ(位置及び向き)の誤差分布をもたらす。そして、不確実性を表すガウス分布の混合の予測をトレーニングするために、最尤法が利用される。
【0049】
動作させるためには、当然のことながら、ニューラルネットワークを訓練する必要があり、これは、テストデータと最小化される目的関数(cost function)とを提供することによって行われる。現在説明されている自律型ロボット1のCNNとRNNとのトレーニングは、実際、その双方が同時に訓練される。
【0050】
上述したように、本実施形態のシステムは、ポーズと不確実性との双方を推定する。テストデータは、一連の画像であり、それらの画像の「グラウンドトゥルース」ポーズ(つまり正しいポーズ)が含まれる。トレーニングのための目的関数は、2つの部分で構成され、最初の部分がポーズの推定に関連し、2番目の部分が不確実性の推定に関連している。ポーズの推定については、推定されたポーズとグラウンドトゥルース・ポーズとの差を最小化するように、目的関数の最初の部分でシステムを訓練する。不確実性の推定については、ニューラルネットワークの出力をポーズラベルと比較することにより、目的関数の2番目の部分でシステムを訓練する。その後、時間を通して誤差逆伝播によるトレーニングを行い、CNNとRNNとの重みを調整して、目的関数の結果を最適に最小化する。
【0051】
このように、CNNは、RNNへの入力に最も適した特徴を提供するように訓練され、同時にRNNは、それらの特徴(及び以前の特定)から自律型ロボット1のポーズ(及びその不確実性)を最も正確に特定するように訓練されることが分かる。特にCNNは、特定の種類の特徴又は特定の性質を備えた特徴を最適に提供するようには訓練されず、むしろ、システム全体の運用に最適な特徴を提供するように単純に訓練される。しかしながら、特定の実施形態では、初期の訓練プロセスを高速化するために、CNNが最初に単独で訓練され(或いはそのような訓練の効果を有する重みが与えられ)、連続する画像間の動きを示す特徴を提供する。これにより、CNNの初期状態が提供され、システムが全体として訓練されるにつれて、更に最適な訓練が行われる。
【0052】
特定の実施形態を参照しながら、本発明について説明及び図示してきたが、当業者は、本明細書に具体的に示されていない多くの異なる変形例に、本発明が適していることを理解されるであろう。
【0053】
前述の説明において、既知の、明白な又は予見可能な同等物を有する完全形(integer)や要素が言及されている場合、そのような同等物は、個別に記載されたものとして本明細書に組み込まれる。本発明の真の範囲の判定には特許請求の範囲を参照すべきであり、そのような同等物を包含するように解釈されるべきである。又、読者は、好ましいもの、有利なもの、便利なもの、又はそれらの類のものとして説明されている、本発明の完全形や特徴が任意のものであり、独立請求項の範囲を限定するものではないことは、理解されるであろう。更に、そのような任意の完全形や特徴は、本発明の幾つかの実施形態では可能な利点があるが、他の実施形態では望ましくないことがあり、従って存在しない場合があることを理解されたい。
【符号の説明】
【0054】
1:自律型ロボット、2:プロセッサ、3:カメラ、4:メモリ