特表2022-522176 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インペリアル・カレッジ・オブ・サイエンス・テクノロジー・アンド・メディスンの特許一覧

特表2022-522176画像処理を用いたシーン表現

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5
6
7
8
9
10A
10B
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-04-14

(54)【発明の名称】画像処理を用いたシーン表現

(51)【国際特許分類】

G06T 7/174 20170101AFI20220407BHJP

G06T 7/579 20170101ALI20220407BHJP

G06T 7/00 20170101ALI20220407BHJP

【ＦＩ】

G06T7/174

G06T7/579

G06T7/00 350C

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021550037

(86)(22)【出願日】2020-02-18

(85)【翻訳文提出日】2021-08-26

(86)【国際出願番号】 GB2020050381

(87)【国際公開番号】W WO2020174216

(87)【国際公開日】2020-09-03

(31)【優先権主張番号】1902600.4

(32)【優先日】2019-02-26

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

(71)【出願人】

【識別番号】518067272

【氏名又は名称】インペリアル・カレッジ・オブ・サイエンス・テクノロジー・アンド・メディスン

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】シュアイフェン・ジ

(72)【発明者】

【氏名】マイケル・ブローシュ

(72)【発明者】

【氏名】シュテファン・ロイテンエッガー

(72)【発明者】

【氏名】アンドリュー・デイヴィソン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096AA09

5L096BA05

5L096CA04

5L096DA02

5L096EA03

5L096FA02

5L096FA12

5L096FA66

5L096FA67

5L096FA69

5L096HA11

5L096KA04

(57)【要約】

本明細書に記述される、ある特定の例は、画像データを処理するシステムに関する。それらのような例では、システムは、シーンの少なくとも１つのビューを表す、画像データを受信する入力インタフェースを含む。また、システムは、シーンの少なくとも１つの第一ビューの第一セグメンテーションに関連する第一潜在表現を生成する初期化エンジンを含み、そこでは第一セグメンテーションはセマンティックセグメンテーションである。また、初期化エンジンは、シーンの少なくとも１つの第二ビューに関連する第二潜在表現を生成するように構成される。加えて、システムは、最適化エンジンを含み、この最適化エンジンは、潜在空間では第一潜在表現及び第二潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現を取得する。

【特許請求の範囲】

【請求項1】

画像データを処理するシステムであって、
前記画像データを受信する入力インタフェースであって、前記画像データはシーンの少なくとも１つのビューを表す、前記入力インタフェースと、
初期化エンジンであって、
前記シーンの少なくとも第一ビューの第一セグメンテーションに関連する第一潜在表現であって、前記第一セグメンテーションはセマンティックセグメンテーションである、前記第一潜在表現、及び
前記シーンの少なくとも第二ビューに関連する第二潜在表現、
を生成する、
前記初期化エンジンと、
潜在空間では前記第一潜在表現及び前記第二潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現を取得する最適化エンジンと、
を含む、前記システム。

【請求項2】

前記最適化された第一潜在表現を復号し、前記シーンの前記第一ビューの復号された第一表現を取得することであって、前記シーンの前記第一ビューの最適化された第一セグメンテーションは前記復号された第一表現から導出可能である、前記取得することと、
前記最適化された第二潜在表現を復号し、前記シーンの前記第二ビューの復号された第二表現を取得することであって、前記シーンの前記第二ビューの最適化された第二セグメンテーションは前記復号された第二表現から導出可能である、前記取得することと、
のうちの少なくとも１つを行う、デコーダシステムを含む、請求項１に記載のシステム。

【請求項3】

前記画像データの画像特徴量を識別する特徴量識別エンジンを含み、
前記デコーダシステムは、前記画像特徴量を用いて条件付けされる少なくとも１つのデコーダを含む、請求項２に記載のシステム。

【請求項4】

前記特徴量識別エンジンは、複数の異なる解像度のそれぞれにおいて画像特徴量を識別するように構成され、
前記少なくとも１つのデコーダのうちの１つのデコーダは、
復号された出力を前記複数の異なる解像度のそれぞれに生成し、
前記複数の異なる解像度のそれぞれについて、所与の解像度についての前記画像特徴量を前記所与の解像度について前記復号された出力と組み合わせる、
ように構成される、請求項３に記載のシステム。

【請求項5】

前記デコーダシステムは、
前記復号された第一表現を正規化して前記最適化された第一セグメンテーションを取得することと、
前記復号された第二表現を正規化して前記最適化された第二セグメンテーションを取得することと、
のうちの少なくとも１つのために構成される、請求項２から４のいずれか１項に記載のシステム。

【請求項6】

前記シーンの観測中にカメラの姿勢を決定する追跡システムと、
マッピングシステムであって、
前記シーンの前記第一ビューの前記最適化された第一セグメンテーション、及び前記シーンの前記第一ビューのキャプチャ中にカメラの第一姿勢を表す第一姿勢データ、ならびに
前記シーンの前記第二ビューの前記最適化された第二セグメンテーション、及び前記シーンの前記第二ビューのキャプチャ中の前記カメラの前記姿勢を表す第二姿勢データ、
のうちの少なくとも１つを前記シーンのマップに読み込むように構成される、前記マッピングシステムと、
を含む、請求項２から５のいずれか１項に記載のシステム。

【請求項7】

前記画像データは、前記シーンの前記第一ビューを表す第一フレーム、及び前記シーンの前記第二ビューを表す第二フレームを含み、
前記第一セグメンテーションは、前記シーンの前記第一ビューのセマンティックセグメンテーションであり、
前記第二潜在表現は、前記シーンの前記第二ビューのセマンティックセグメンテーションである第二セグメンテーションに関連付けられる、
請求項１から６のいずれか１項に記載のシステム。

【請求項8】

前記最適化エンジンは、
前記第一潜在表現と前記第二潜在表現との間の差分を示すセマンティック誤差項を決定することと、
前記セマンティック誤差項を最小にする、前記第一潜在表現の値、及び前記第二潜在表現の値を決定することと、
によって、前記第一潜在表現及び前記第二潜在表現を共同して最適化するように構成される、請求項７に記載のシステム。

【請求項9】

前記第一潜在表現を復号し、復号された第一表現を取得し、
前記第二潜在表現を復号し、復号された第二表現を取得する、
ように構成されるデコーダシステムを含み、
前記最適化エンジンは前記復号された第一表現、及び前記復号された第二表現を使用して、前記セマンティック誤差項を決定するように構成される、請求項８に記載のシステム。

【請求項10】

前記デコーダシステムは、入力画像データ、及びグランドトゥルースセマンティックセグメンテーションの対を用いてトレーニングされる、請求項９に記載のシステム。

【請求項11】

前記初期化エンジンは、
前記シーンの前記第一ビューのデプスマップに関連する第三潜在表現と、
前記シーンの前記第二ビューのデプスマップに関連する第四潜在表現と、
を生成するように構成され、
前記最適化エンジンは、前記潜在空間では前記第一潜在表現、前記第二潜在表現、前記第三潜在表現及び前記第四潜在表現を共同して最適化し、前記最適化された第一潜在表現、及び前記最適化された第二潜在表現、ならびに最適化された第三潜在表現、及び最適化された第四潜在表現を取得するように構成される、請求項７から１０のいずれか１項に記載のシステム。

【請求項12】

前記最適化エンジンは、
前記第一潜在表現と前記第二潜在表現との間の差分を示すセマンティック誤差項を決定することと、
前記第三潜在表現と前記第四潜在表現との間の差分を示す幾何学的誤差項を決定することと、
前記セマンティック誤差項及び前記幾何学的誤差項を共同して最小にし、前記最適化された第一潜在表現、前記最適化された第二潜在表現、前記最適化された第三潜在表現、及び前記最適化された第四潜在表現を取得する、前記第一潜在表現、前記第二潜在表現、前記第三潜在表現及び前記第四潜在表現のそれぞれの値を決定することと、
によって前記第一潜在表現、前記第二潜在表現、前記第三潜在表現及び前記第四潜在表現を共同して最適化するように構成される、請求項１１に記載のシステム。

【請求項13】

第一デコーダであって、
前記最適化された第一潜在表現を復号し、前記シーンの前記第一ビューの最適化されたセマンティックセグメンテーションを取得すること、及び
前記最適化された第二潜在表現を復号し、前記シーンの前記第二ビューの最適化されたセマンティックセグメンテーションを取得すること、
のうちの少なくとも１つのために構成される、前記第一デコーダと、
第二デコーダであって、
前記最適化された第三潜在表現を復号し、前記シーンの前記第一ビューの最適化されたデプスマップを取得すること、及び
前記最適化された第四潜在表現を復号し、前記シーンの前記第二ビューの最適化されたデプスマップを取得すること、
のうちの少なくとも１つのために構成される、前記第二デコーダと、
を有する、デコーダシステムを含む、請求項１２に記載のシステム。

【請求項14】

前記最適化エンジンは、
前記シーンの前記第一ビューと、前記シーンの前記第二ビューとの間の光整合性を示す測光誤差項を決定し、
前記測光誤差項を最小にする前記第一潜在表現、前記第二潜在表現、第三潜在表現及び第四潜在表現のうちの少なくとも１つのそれぞれの値を決定する、
ように構成される、請求項７から１３のいずれか１項に記載のシステム。

【請求項15】

前記第一セグメンテーションは、前記シーンの前記第一ビューの前記セマンティックセグメンテーションであり、
前記第二潜在表現は、前記シーンの前記第二ビューについてのデプスマップに関連付けられる、請求項１から６のいずれか１項に記載のシステム。

【請求項16】

前記第一潜在表現及び前記第二潜在表現のうちの少なくとも１つは、所定の表現である、請求項１から１５のいずれか１項に記載のシステム。

【請求項17】

請求項１から１５のいずれか１項に記載の前記システムと、
ロボットデバイスが周囲の３次元環境とインタラクトすることを可能にする１つ以上のアクチュエータであって、前記周囲の３次元環境の少なくとも一部分は前記シーンに示される、前記１つ以上のアクチュエータと、
前記１つ以上のアクチュエータを制御する少なくとも１つのプロセッサを有するインタラクションエンジンと、
を含む、ロボットデバイス。

【請求項18】

画像データを処理する方法であって、
前記画像データによって表現されるシーンの第一ビューの第一セグメンテーションに関連する第一潜在表現を取得することであって、前記第一セグメンテーションはセマンティックセグメンテーションである、前記取得することと、
前記シーンの第二ビューに関連する第二潜在表現を取得することと、
潜在空間では前記第一潜在表現及び前記第二潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現を取得することと、
を含む、前記方法。

【請求項19】

【請求項20】

前記シーンについての深度データに関連する第三潜在表現を取得することと、
前記シーンについての深度データに関連する第四潜在表現を取得することと、
前記潜在空間では前記第一潜在表現、前記第二潜在表現、前記第三潜在表現及び前記第四潜在表現を共同して最適化し、前記最適化された第一潜在表現、及び前記最適化された第二潜在表現、ならびに最適化された第三表現、及び最適化された第四表現を取得することと、
を含む、請求項１９に記載の方法。

【請求項21】

潜在表現予測エンジンが入力画像のセマンティックセグメンテーションを予測するようにトレーニングする方法であって、
画像の画像特徴量を検出することと、
オートエンコーダのエンコーダを使用して前記画像のグランドトゥルースセマンティックセグメンテーションを符号化し、前記グランドトゥルースセマンティックセグメンテーションの潜在表現を取得することと、
前記オートエンコーダのデコーダを使用して前記グランドトゥルースセマンティックセグメンテーションの前記潜在表現を復号し、前記画像の予測されたセマンティックセグメンテーションを取得することであって、前記オートエンコーダは前記画像特徴量を使用して条件付けされる、前記取得することと、
前記画像の前記予測されたセマンティックセグメンテーションと、前記画像の前記グランドトゥルースセマンティックセグメンテーションとの間の比較に基づく損失関数を使用して前記潜在表現予測エンジンを更新することと、
を含む、前記方法。

【請求項22】

前記デコーダは前記画像特徴量を使用して条件付けされる、または
前記エンコーダは前記画像特徴量を使用して条件付けされ、前記デコーダは前記画像特徴量を使用して条件付けされる、請求項２１に記載の方法。

【請求項23】

前記セマンティックセグメンテーション及び前記入力画像に関連するデプスマップを予測するように、前記潜在表現予測エンジンをトレーニングすることを含む、請求項２１または請求項２２に記載の方法。

【請求項24】

前記エンコーダは第一エンコーダであり、
前記デコーダは第一デコーダであり、
前記オートエンコーダは第一オートエンコーダであり、
前記損失関数は第一損失関数であり、
前記方法は、
第二オートエンコーダの第二エンコーダを使用して前記画像に関連するグランドトゥルースデプスマップを符号化し、前記グランドトゥルースデプスマップの潜在表現を取得することと、
前記第二オートエンコーダの第二デコーダを使用して前記グランドトゥルースデプスマップの前記潜在表現を復号し、前記画像について予測されたデプスマップを取得することであって、前記第二オートエンコーダは前記画像特徴量を使用して条件付けされる、前記取得することと、
前記予測されたデプスマップと、前記グランドトゥルースデプスマップとの間の比較に基づいて、第二損失関数を使用して前記潜在表現予測エンジンを更新することと、
を含む、請求項２３に記載の方法。

【請求項25】

前記第二デコーダは前記画像特徴量を使用して条件付けされる、または
前記第二エンコーダは前記画像特徴量を使用して条件付けされ、前記第二デコーダは前記画像特徴量を使用して条件付けされる、請求項２４に記載の方法。

【請求項26】

前記潜在表現予測エンジンをトレーニングすることは、前記入力画像の入力されたセマンティックセグメンテーションの変分自己符号化を実行するように、前記エンコーダ及び前記デコーダをトレーニングすることを含む、請求項２１から２５のいずれか１項に記載の方法。

【請求項27】

前記デコーダは線形デコーダを含む、請求項２１から２６のいずれか１項に記載の方法。

【請求項28】

前記エンコーダは、複数の異なる解像度のそれぞれにおいて符号化された出力を生成するように構成され、
前記方法は、
前記複数の異なる解像度のそれぞれにおいて前記画像の前記画像特徴量を検出することと、
前記複数の異なる解像度のそれぞれについて、所与の解像度についての前記画像特徴量を前記所与の解像度について前記符号化された出力と組み合わせることによって、前記画像特徴量を使用して前記エンコーダを条件付けすることと、
を含む、請求項２１から２７のいずれか１項に記載の方法。

【請求項29】

前記デコーダは、複数の異なる解像度のそれぞれにおいて復号された出力を生成するように構成され、
前記方法は、
前記複数の異なる解像度のそれぞれにおいて前記画像の前記画像特徴量を検出することと、
前記複数の異なる解像度のそれぞれについて、所与の解像度についての前記画像特徴量を前記所与の解像度について前記復号された出力と組み合わせることによって、前記画像特徴量を使用して前記デコーダを条件付けすることと、
を含む、請求項２１から２８のいずれか１項に記載の方法。

【請求項30】

前記画像はカラー画像である、請求項２１から２９のいずれか１項に記載の方法。

【請求項31】

前記損失関数は正則化項を含む、請求項２１から３０のいずれか１項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理を使用してシーンの表現を取得するための方法及びシステムに関する。本発明は、シーンの潜在表現を取得することに特に関連しているが、排他的ではなく、例えば、そのシーンの潜在表現をロボットデバイスが使用して、その環境に関してナビゲートする、及び／またはその環境とインタラクトすることができる。

【背景技術】

【0002】

コンピュータビジョン及びロボット工学の分野では、多くの場合、ロボットデバイスを使用してナビゲート可能な３次元空間などの環境の表現を構築する必要がある。３次元空間の表現を構築することによって、現実世界の環境を仮想領域またはデジタル領域にマッピングすることができ、そこで電子デバイスは環境マップを使用して、操作することができる。例えば、可動ロボットデバイスは、同時のローカライズ及びマッピング（「ＳＬＡＭ」と称されることが多い）、したがって、その環境のナビゲーションを可能にするために、３次元空間の表現を必要とする場合がある。ロボットデバイスは、屋内の家庭内環境もしくは商業施設環境、または屋外の自然環境中で動作することができる。環境の表現は、識別される、及び／または抽出される、その空間内のオブジェクトのモデルを有効にすることができる。これらは、現実世界の環境上での測定を実行するために使用される、及び／またはアディティブマニュファクチャリングシステムなどを介して、３次元複製を製作するために使用されることができる。同様に、３次元空間における人体の部位の検出は、物理世界での動作を使用して操作されるオブジェクトの仮想表現を可能にする、新規のマンマシンインタラクションを可能にすることができる。

【0003】

環境の表現を構築するために利用可能ないくつかの技法がある。例えば、モーション及びマルチビューステレオからの構造は、これを行うために使用されることができる２つの技法である。多くの技法は、この環境の画像から特徴量を抽出することに続き、これらの特徴量を画像間で相関させ、３次元表現を構築する。ある特定の技法は、減少した数のポイントまたは特徴量を使用して表現を生成し、「疎」の技法と称される。例えば、これらの技法は、１０から１００個の特徴量及び／またはポイントを使用して、この表現を生成することができる。これらは、何千個または何百万個ものポイントを用いて表現を生成する、「密」の技法とは対照的であることができる。「疎」の技法は、限定された数のポイントまたは特徴量を使用することによって、３次元表現を構築するために必要とされる処理範囲が限定される、例えば、１秒あたり３０フレームほどのフレームレートで、実時間に実施することをより容易にするという利点を有する。計算必要量が原因で環境の実時間で「密」のマッピングを実行することが比較的より難しい。例えば、３０分の提供された画像データから「密」の表現を生成するために１０時間かかる可能性があるため、例えば、多くの場合、「密」のマッピングをオフラインで実行することが好ましい。

【0004】

空間の３次元（３Ｄ）表現が生成されると、この表現の有用性の問題がさらにある。例えば、多くのロボット工学用途は、空間のジオメトリの定義を必要とするだけでなく、その空間内に何が存在するかに関する有用な情報も必要とする。これは、コンピュータビジョン分野では空間の「セマンティック」ナレッジと称される。空間内に何が存在するかを知ることは、例えば、同等の能力を有するマシンを構築することの難しさを過小評価しやすいなど、人間の脳内の潜在意識下で起こるプロセスである。例えば、人間が３Ｄ空間内のコップなどのオブジェクトを観測しているときに、脳の多くの異なる領域を、固有受容性感覚（例えば、オブジェクトに向けた運動）及び言語処理に関するそれらの領域を含むコア視覚処理ネットワークに加えてアクティブにする。ただし、多くのコンピュータビジョンシステムは、空間に対する理解が非常に素朴で、これらのシステムは、空間のジオメトリを「知る」だけである。

【0005】

コンピュータビジョン及びロボット工学分野では、空間の表現内にリッチセマンティック情報を含むことで、ジオメトリ単独よりもはるかに幅広い機能が可能になる。例えば、家庭用ロボット工学では、単純なフェッチタスクは、置かれているものが何か、またそれが置かれているのはどこかという両方のナレッジを必要とする。同様に、表現内のセマンティック情報のクエリを行う能力は、例えば、以前に生成された表現のセマンティックについての音声クエリ、「会議室に椅子が何脚ある？講演台と講演台に最も近い椅子との間の距離は？」に回答するためにデータベースを提供するなど、人間にとって直接有用である。

【0006】

２０１７年のＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎ（ＩＣＲＡ）のＰｒｏｃｅｅｄｉｎｇｓに発表されたＭｃＣｏｒｍａｃｅｔａｌ．による論文「ＳｅｍａｎｔｉｃＦｕｓｉｏｎ：Ｄｅｎｓｅ３ＤＳｅｍａｎｔｉｃＭａｐｐｉｎｇｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ」は、畳み込みニューラルネットワーク（ＣＮＮ）を含むシステム、及びＳＬＡＭシステムの用途を説明する。ＣＮＮは、２Ｄ画像（例えば、ビデオのフレーム）を受信し、画素ごとのクラス確率セットを返す。ＳＬＡＭシステムは、表面要素（「サーフェル」と称される場合があり、３Ｄ座標系内に定義される表面を使用して空間のジオメトリをモデル化することを可能にする）のグローバルに一貫性のあるマップを作成する。加えて、ＳＬＡＭシステムは、カメラの単純に制限された回転とは対照的に、複数の異なる位置及び／または向きからシーンの部分を表示する、「ループ状」の動きの中でも、ビデオフレーム間の長期の密な対応を提供する。これらの対応によって、複数の視点からのＣＮＮのセマンティック予測を表面要素のマップと確率論的に融合させ、セマンティック３Ｄマップを作成することができる。そのような方法は、比較的に計算集約型であり、オブジェクトのラベル付けでは不正確になることがある、または一貫性がなくなることがある。

【0007】

その対極は、オブジェクトインスタンスを明示的に認識し、シーンモデルを３Ｄオブジェクトグラフとして構築するアプローチである。２０１８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３ＤＶｉｓｉｏｎに提出されたＭｃＣｏｒｍａｃｅｔａｌ．による論文「Ｆｕｓｉｏｎ＋＋：ＶｏｌｕｍｅｔｒｉｃＯｂｊｅｃｔ－ＬｅｖｅｌＳＬＡＭ」は、任意の再構築されたオブジェクトのパーシステント３Ｄグラフマップを構築するオブジェクトレベルＳＬＡＭシステムを記述する。ただし、そのようなアプローチは、記述されていないシーンの大きなフラクションを残すことがある。したがって、このようなアプローチは、環境のナビゲーション、または環境とのインタラクションにあまり適していない場合がある。

【0008】

既存の技法を考慮すると、シーン内で何が可視であるかに関する情報を提供する、シーンの効率的な表現への要望が依然としてある。例えば、そのような表現は、人間のものに似た直感的な方式で空間及び形状について推論する能力を人工システムに与えることができる。

【発明の概要】

【課題を解決するための手段】

【0009】

本発明の第一態様によれば、画像データを処理するためのシステムが提供され、このシステムは、画像データを受信する入力インタフェースであって、画像データはシーンの少なくとも１つのビューを表す、入力インタフェースと、初期化エンジンであって、シーンの少なくとも第一ビューの第一セグメンテーションに関連する第一潜在表現であって、第一セグメンテーションはセマンティックセグメンテーションである、第一潜在表現、及びシーンの少なくとも第二ビューに関連する第二潜在表現を生成する、該初期化エンジンと、潜在空間では第一潜在表現及び第二潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現を取得する最適化エンジンとを含む。

【0010】

ある特定の例では、システムは、最適化された第一潜在表現を復号して、シーンの第一ビューの復号された第一表現を取得することであって、シーンの第一ビューの最適化された第一セグメンテーションは復号された第一表現から導出可能である、取得することと、最適化された第二潜在表現を復号して、シーンの第二ビューの復号された第二表現を取得することであって、シーンの第二ビューの最適化された第二セグメンテーションは復号された第二表現から導出可能である、取得することとのうちの少なくとも１つを行うデコーダシステムを含む。これらの例では、システムは、画像データの画像特徴量を識別する特徴量識別エンジンを含むことができ、そこではデコーダシステムは画像特徴量を用いて条件付けされる少なくとも１つのデコーダを含む。これらの例では、特徴量識別エンジンは、複数の異なる解像度のそれぞれにおいて画像特徴量を識別するように構成されることができ、少なくとも１つのデコーダのうちの１つのデコーダは、複数の異なる解像度のそれぞれにおいて復号された出力を生成し、複数の異なる解像度のそれぞれについて、所与の解像度についての画像特徴量を所与の解像度について復号された出力と組み合わせるように構成されることができる。

【0011】

システムがデコーダシステムを含む、ある特定の例では、デコーダシステムは、復号された第一表現を正規化して最適化された第一セグメンテーションを取得することと、復号された第二表現を正規化して最適化された第二セグメンテーションを取得することとのうちの少なくとも１つのために構成されることができる。

【0012】

システムがデコーダシステムを含む、ある特定の例では、システムは、シーンの観測中にカメラの姿勢を決定する追跡システムと、マッピングシステムであって、シーンの第一ビューの最適化された第一セグメンテーション、及びシーンの第一ビューのキャプチャ中のカメラの第一姿勢を表す第一姿勢データ、ならびにシーンの第二ビューの最適化された第二セグメンテーション、及びシーンの第二ビューのキャプチャ中のカメラの姿勢を表す第二姿勢データのうちの少なくとも１つをシーンのマップに読み込むように構成される、該マッピングシステムとをさらに含むことができる。

【0013】

ある特定の例では、画像データは、シーンの第一ビューを表す第一フレーム、及びシーンの第二ビューを表す第二フレームを含み、第一セグメンテーションはシーンの第一ビューのセマンティックセグメンテーションであり、第二潜在表現はシーンの第二ビューのセマンティックセグメンテーションである第二セグメンテーションに関連付けられる。これらの例では、最適化エンジンは、第一潜在表現と第二潜在表現との間の差分を示すセマンティック誤差項を決定することと、セマンティック誤差項を最小にする第一潜在表現及び第二潜在表現の値を決定することとによって、第一潜在表現及び第二潜在表現を共同して最適化するように構成されることができる。それらの例では、システムは、第一潜在表現を復号して復号された第一表現を取得し、第二潜在表現を復号して復号された第二表現を取得するように構成されるデコーダシステムをさらに含むことができ、そこでは最適化エンジンは復号された第一表現、及び復号された第二表現を使用してセマンティック誤差項を決定するように構成される。デコーダシステムは、入力された画像データ及びグランドトゥルースセマンティックセグメンテーションの対を用いてトレーニングされることができる。これらの例では、初期化エンジンは、シーンの第一ビューのデプスマップに関連する第三潜在表現と、シーンの第二ビューのデプスマップに関連する第四潜在表現とを生成するように構成されることができ、そこでは最適化エンジンは潜在空間では第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現、ならびに最適化された第三潜在表現、及び最適化された第四潜在表現を取得するように構成される。最適化エンジンは、第一潜在表現と第二潜在表現との間の差分を示すセマンティック誤差項を決定することと、第三潜在表現と第四潜在表現との間の差分を示す幾何学的誤差項を決定することと、セマンティック誤差項及び幾何学的誤差項を共同して最小にし、最適化された第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現を取得する、第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現のそれぞれの値を決定することとによって、第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現を共同して最適化するように構成されることができる。これらの例では、システムは、第一デコーダであって、最適化された第一潜在表現を復号してシーンの第一ビューの最適化されたセマンティックセグメンテーションを取得すること、及び最適化された第二潜在表現を復号してシーンの第二ビューの最適化されたセマンティックセグメンテーションを取得することのうちの少なくとも１つのために構成される、該第一デコーダと、第二デコーダであって、最適化された第三潜在表現を復号してシーンの第一ビューの最適化されたデプスマップを取得すること、及び最適化された第四潜在表現を復号してシーンの第二ビューの最適化されたデプスマップを取得することのうちの少なくとも１つのために構成される、該第二デコーダとを有するデコーダシステムを含むことができる。最適化エンジンは、シーンの第一ビューとシーンの第二ビューとの間の光整合性（ｐｈｏｔｏ－ｃｏｎｓｉｓｔｅｎｃｙ）を示す測光誤差項を決定し、測光誤差項を最小にする第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現のうちの少なくとも１つのそれぞれの値を決定するように構成されることができる。

【0014】

ある特定の例では、第一セグメンテーションはシーンの第一ビューのセマンティックセグメンテーションであり、第二潜在表現はシーンの第二ビューについてのデプスマップに関連付けられる。

【0015】

ある特定の例では、第一潜在表現及び第二潜在表現のうちの少なくとも１つは、所定の表現である。

【0016】

本発明の第二態様によれば、上記の例のいずれか１つによるシステムと、ロボットデバイスが周囲の３次元環境とインタラクトすることを可能にする１つ以上のアクチュエータであって、周囲の３次元環境の少なくとも一部分はシーンに示される、１つ以上のアクチュエータと、これら１つ以上のアクチュエータを制御する少なくとも１つのプロセッサを含むインタラクションエンジンとを含む、ロボットデバイスが提供される。

【0017】

本発明の第三態様によれば、画像データを処理する方法が提供され、この方法は、画像データによって表現されるシーンの第一ビューの第一セグメンテーションに関連する第一潜在表現を取得することであって、第一セグメンテーションはセマンティックセグメンテーションである、取得することと、シーンの第二ビューに関連する第二潜在表現を取得することと、潜在空間では第一潜在表現及び第二潜在表現を共同して最適化して最適化された第一潜在表現、及び最適化された第二潜在表現を取得することとを含む。

【0018】

ある特定の例では、画像データは、シーンの第一ビューを表す第一フレーム、及びシーンの第二ビューを表す第二フレームを含み、第一セグメンテーションはシーンの第一ビューのセマンティックセグメンテーションであり、第二潜在表現はシーンの第二ビューのセマンティックセグメンテーションである第二セグメンテーションに関連付けられる。これらの例では、方法は、シーンについての深度データに関連する第三潜在表現を取得することと、シーンについての深度データに関連する第四潜在表現を取得することと、潜在空間では第一潜在表現、第二潜在表現、第三潜在表現及び第四潜在表現を共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現、ならびに最適化された第三表現、及び最適化された第四表現を取得することとを含むことができる。

【0019】

本発明の第四態様によれば、潜在表現予測エンジンが入力画像のセマンティックセグメンテーションを予測するようにトレーニングする方法が提供され、この方法は、画像の画像特徴量を検出することと、オートエンコーダのエンコーダを使用して画像のグランドトゥルースセマンティックセグメンテーションを符号化してグランドトゥルースセマンティックセグメンテーションの潜在表現を取得することと、オートエンコーダのデコーダを使用してグランドトゥルースセマンティックセグメンテーションの潜在表現を復号して画像の予測されたセマンティックセグメンテーションを取得することであって、オートエンコーダは画像特徴量を使用して条件付けされる、取得することと、画像の予測されたセマンティックセグメンテーションと、画像のグランドトゥルースセマンティックセグメンテーションとの間の比較に基づく損失関数を使用して潜在表現予測エンジンを更新することとを含む。

【0020】

ある特定の例では、デコーダは画像特徴量を使用して条件付けされる、またはエンコーダは画像特徴量を使用して条件付けされ、デコーダは画像特徴量を使用して条件付けされる。

【0021】

ある特定の例では、方法は、セマンティックセグメンテーション、及び入力画像に関連するデプスマップを予測するように潜在表現予測エンジンをトレーニングすることを含む。これらの例では、エンコーダは第一エンコーダであることができ、デコーダは第一デコーダであることができ、オートエンコーダは第一オートエンコーダであることができ、損失関数は第一損失関数であることができ、この方法は、第二オートエンコーダの第二エンコーダを使用して画像に関連するグランドトゥルースデプスマップを符号化してグランドトゥルースデプスマップの潜在表現を取得することと、第二オートエンコーダの第二デコーダを使用してグランドトゥルースデプスマップの潜在表現を復号して画像について予測されたデプスマップを取得することであって、第二オートエンコーダは画像特徴量を使用して条件付けされる、取得することと、予測されたデプスマップと、グランドトゥルースデプスマップとの間の比較に基づく第二損失関数を使用して潜在表現予測エンジンを更新することとを含むことができる。第二デコーダは画像特徴量を使用して条件付けされる、または第二エンコーダは画像特徴量を使用して条件付けされることができ、第二デコーダは画像特徴量を使用して条件付けされる。

【0022】

ある特定の例では、潜在表現予測エンジンをトレーニングすることは、入力画像の入力されたセマンティックセグメンテーションの変分自己符号化を実行するようにエンコーダ及びデコーダをトレーニングすることを含む。

【0023】

ある特定の例では、デコーダは線形デコーダを含む。

【0024】

ある特定の例では、エンコーダは複数の異なる解像度のそれぞれにおいて符号化された出力を生成するように構成され、方法は、複数の異なる解像度のそれぞれにおいて画像の画像特徴量を検出することと、複数の異なる解像度のそれぞれについて、所与の解像度についての画像特徴量を所与の解像度について符号化された出力と組み合わせることによって、画像特徴量を使用してエンコーダを条件付けすることとを含む。

【0025】

ある特定の例では、デコーダは、複数の異なる解像度のそれぞれにおいて復号された出力を生成するように構成され、方法は、複数の異なる解像度のそれぞれにおいて画像の画像特徴量を検出することと、複数の異なる解像度のそれぞれについて、所与の解像度についての画像特徴量を所与の解像度について復号された出力と組み合わせることによって、画像特徴量を使用してデコーダを条件付けすることとを含む。

【0026】

ある特定の例では、画像はカラー画像である。

【0027】

ある特定の例では、損失関数は正則化項を含む。

【0028】

本発明の第五態様によれば、コンピュータ実行可能命令を含む非一時的なコンピュータ可読記憶媒体が提供され、これらのコンピュータ実行可能命令は、プロセッサによって実行されると、コンピューティングデバイスに上記の方法のいずれかを実行させる。

【0029】

さらなる特徴は、添付の図面を参照して行われる、以下の説明から明らかになるであろう。

【図面の簡単な説明】

【0030】

【図1A】マッピングされる環境の一例を示す概略図である。

【図1B】例示的なデバイスに利用可能な自由度を示す概略図である。

【図1C】例示的なキャプチャデバイスによって生成されるビデオデータを示す概略図である。

【図2】実施例による画像データを処理する方法を示す流れ図である。

【図3】さらなる実施例による画像データを処理する方法を示す流れ図である。

【図4】実施例による画像データを処理するシステムの概略図である。

【図5】さらなる実施例による画像データを処理するシステムの概略図である。

【図6】実施例による画像特徴量を用いて条件付けされるオートエンコーダの概略図である。

【図7】実施例による最適化方法を示す流れ図である。

【図8】さらなる実施例による最適化方法を示す流れ図である。

【図9】さらに別の実施例による最適化方法を示す流れ図である。

【図10A】実施例によるコンピューティングシステムのコンポーネントを示す概略図である。

【図10B】実施例によるロボットデバイスのコンポーネントを示す概略図である。

【図11】実施例による非一時的なコンピュータ可読媒体を示す概略図である。

【図12】実施例によるトレーニング中の潜在表現予測エンジンの概略図である。

【図13】実施例による潜在表現予測エンジンをトレーニングする方法を示す流れ図である。

【図14】さらなる実施例による潜在表現予測エンジンをトレーニングする方法を示す流れ図である。

【発明を実施するための形態】

【0031】

本明細書に記述される、ある特定の例は、シーンの潜在表現を取得することを可能にする。潜在表現は、例えば、測定から推論される表現である。潜在表現は、環境から直接測定可能ではない場合があるため、時として「隠れた」変数値セットと称される。この場合には、シーンの測定は、例えば、シーンの画像であることができ、このシーンの画像はＲＧＢ（赤色、緑色、青色）画像などの２次元（２Ｄ）カラー画像、またはＲＧＢ－Ｄ画像（深度「Ｄ」のデータを含む）などの深度情報を含む画像であることができる。一般に、潜在表現は、直接測定よりも、次元数が低いなど、よりコンパクトである。したがって、それらのような潜在表現は、より効率的に処理され、保存されることができる。潜在表現は、例えば、確率モデルを使用して、またはニューラルネットワークアーキテクチャの１つ以上の「隠れた」層を使用して生成されることができる。

【0032】

ある特定の場合には、本明細書に記述される例を使用して、シーンの潜在表現からシーンのセマンティックセグメンテーションを取得することができる。セマンティックセグメンテーションは、画像部分のラベル付けなどのオブジェクトセグメンテーションであるとみなされることができ、そこでは各ラベルは特定のオブジェクト、またはオブジェクトクラスとの関連性を有する。オブジェクトは、例えばロボットがインタラクトすることができるなど、物質的な存在感を有する、いずれかの可視な物体または実体を指すことができる。したがって、本明細書でのオブジェクトは、他にも多数あるが、自宅、オフィス及び／または屋外空間内の家具、他のデバイス、及び従来のオブジェクトだけでなく、壁、ドア、床及び人々などの実体と広くみなされ、これらを含む。セマンティックセグメンテーションを使用して、例えば、ロボットデバイスと環境との間で向上したインタラクションを可能にするなど、環境のマッピングを向上させることができる。例えば、特定のオブジェクトに関連付けられる空間領域を識別する、セマンティックセグメンテーションを家事ロボット用のマップが有する場合、ロボットは、「ドア」を「壁」と区別することができる。

【0033】

場合によっては、本明細書に記述される例を使用して、シーンの潜在表現からシーンのデプスマップを取得することができる。デプスマップは、例えば、シーンの画像の、画素または画像部分などの空間要素に関連する深度を示す。画素または画像部分についての深度値は、シーンをとらえるカメラから照準線に沿った環境内の表面までの距離を表すことができる。したがって、シーンのマッピングは、デプスマップを使用することによって向上することができ、そのうえ、ロボットデバイスとシーンとの間のインタラクションを強化する、または向上させることができる。例えば、このデプスマップを使用して、ロボットデバイスの把持機構を、把持されるオブジェクトの深度により近くで対応する環境内の位置に移動させることによって、オブジェクトを正確に把持するように、ロボットデバイスを制御することができる。

【0034】

本明細書に記述される、ある特定の例では、潜在表現は、例えば、潜在表現の初期推定値よりも潜在表現のより洗練化された推定値、またはそうでなければ、より正確な推定値などである、最適化された潜在表現であることができる。それらのような場合には、シーンの第一ビューの第一セグメンテーションに関連する第一潜在表現、及びシーンの第二ビューに関連する第二潜在表現を取得することができる。セグメンテーションは、所与の画像部分の特性を表す適切なラベルによる画像部分のラベル付けを一般的に指すとみなされることができる。例えば、第一セグメンテーションは、セマンティックセグメンテーションであることができ、セマンティックセグメンテーションでは、画像部分は特定のオブジェクト、またはオブジェクトのクラスに関連付けられる。これらの例での第一潜在表現及び第二潜在表現を潜在空間に共同して最適化し、最適化された第一潜在表現、及び最適化された第二潜在表現を取得する。第一潜在表現及び第二潜在表現を共同して最適化することは、第一ビューと第二ビューとの間の相関を保ち、潜在表現の一貫性を向上させる。したがって、最適化された第一潜在表現及び第二潜在表現は、シーンの特性をより正確に表すことができる。さらに、セグメンテーションまたはマップは、第一潜在表現及び第二潜在表現のうちの少なくとも１つから取得されることができ、より内部に一貫性があることができる。セマンティックセグメンテーションなどである、最適化された第一セグメンテーションは、最適化された第一潜在表現から導出されることができる。最適化された第一セグメンテーションのセマンティックラベルの分布は、そうでない場合よりも平滑であることができる。

【0035】

一例として、以前のアプローチでは、１画素に関連するセマンティックラベルは、隣接する画素に関連するセマンティックラベルから独立していることができる。そのため、それらのような以前のアプローチの使用は、画像全体で急速かつシャープに変化するセマンティックセグメンテーションとなる可能性がある。一例として、画像がテーブルのものである場合、このテーブルの隣接する３画素は、これらの画素のそれぞれが同じラベル（「テーブル」）に関連付けられるべきであるにもかかわらず、異なるそれぞれのラベル（例えば、「テーブル」、「ベッド」、「椅子」）に各関連付けられることがある。

【0036】

対照的に、本明細書に記述される例にあるように、第一潜在表現及び第二潜在表現を共同して最適化することは、最適化された潜在表現から取得されるセグメンテーション（例えば、セマンティックセグメンテーション）の平滑性を改善することができる。例えば、テーブルの画像に関して、隣接する３画素は、共同最適化によって保たれる相関が原因で、本明細書での方法を使用して、同じラベル（「テーブル」）に各関連付けられることができる。これらの例では、したがって、本明細書に記述される方法を使用して、シーンのいずれかの所与の部分が視点に関係なく同じセマンティックラベルを有するように、改善されたセマンティック一貫性を有する最適化されたセマンティックセグメンテーション（例えば、最適化された潜在表現から）を取得することができる。例えば、シーンのビューを表すデータ（例えば、相関された、または共有されたカメラ姿勢からのデータ）について異なるモダリティ及び／または異なる時間にわたって共同して最適化するなど、セマンティックセグメンテーション及びデプスマップなどの異なる表現を、及び／またはセマンティックセグメンテーション及びデプスマップのうちの１つ以上について異なるフレームを共同して最適化することができる。したがって、ロボットデバイスとその環境とのインタラクションは、そのようなセグメンテーションを使用することによって向上することができる。

【0037】

図１Ａ及び１Ｂは、３Ｄ空間、及びその空間に関連する画像データのキャプチャの一例を概略的に示す。次いで、図１Ｃは、この空間をとらえるときに画像データを生成するように設定されるキャプチャデバイスを示す。これらの例は、本明細書に記述されるある特定の特徴をより良く説明するために提示されるが、限定するものとみなされるべきではなく、ある特定の特徴は、説明を容易にするために省略されており、簡略化されている。

【0038】

図１Ａは、３次元空間１１０の一例１００を示す。３Ｄ空間１１０は、内部の物理空間、及び／または外部の物理空間、例えば、部屋の少なくとも一部分、または地理的位置などであることができる。この例１００での３Ｄ空間１１０は、３Ｄ空間内に位置している複数の物理オブジェクト１１５を含む。これらのオブジェクト１１５は、とりわけ、人々、電子デバイス、家具、動物、建物の部分、及び設備のうちの１つ以上を含むことができる。図１Ａには表面が低い３Ｄ空間１１０が示されるが、これはこの場合すべての実装にある必要はなく、例えば、環境は空中にあっても、地球外空間内にあってもよい。

【0039】

また、例１００は、さまざまな例示的なキャプチャデバイス１２０－Ａ、１２０－Ｂ、１２０－Ｃ（参照番号１２０と総称される）を示し、これらのキャプチャデバイスを使用して、３Ｄ空間１１０に関連するビデオデータをキャプチャすることができる。図１Ａのキャプチャデバイス１２０－Ａなどのキャプチャデバイスは、カメラを含むことができ、このカメラは、デジタル形式かアナログ形式かいずれかで、３Ｄ空間１１０を観測することから生じるデータを記録するように構成される。例えば、キャプチャデバイス１２０－Ａは、単眼カメラなどの単眼キャプチャデバイスであることができる。単眼カメラは、シーンの画像を１回で１つの位置から一般にキャプチャし、単レンズまたはレンズ系を含むことができる。対照的に、ステレオカメラは、レンズごとに別個のイメージセンサを有する、少なくとも２枚のレンズを一般的に含む。キャプチャデバイス１２０－Ａとして使用可能な単眼キャプチャデバイスは、３Ｄ空間１１０の画像を複数の角度位置からキャプチャするように構成される、単眼多方向カメラデバイスであることができる。使用に際し、複数の画像をつぎつぎにキャプチャすることができる。ある特定の場合には、複数の角度位置は、広い視野をカバーする。特定の場合には、キャプチャデバイス１２０－Ａは、全方位カメラ、例えば、実質的に３６０度の視野をキャプチャするように構成されるデバイスなどを含むことができる。この場合には、全方位カメラは、パノラマ環状レンズを備えたデバイスを含むことができ、例えば、このレンズを電荷結合アレイに関して取り付けることができる。

【0040】

３Ｄ空間の複数の画像を複数の異なる位置からキャプチャするために、キャプチャデバイス１２０－Ａは可動であることができる。例えば、キャプチャデバイス１２０－Ａは、３Ｄ空間１１０の異なる観測された部分に対応する異なるフレームをキャプチャするように構成されることができる。キャプチャデバイス１２０－Ａは、静止マウントに関して可動であることができ、例えば、３Ｄ空間１１０に関してカメラの位置及び／または向きを変えるアクチュエータを含むことができる。別の場合には、キャプチャデバイス１２０－Ａは、人間の使用者が操作し、動かすハンドヘルドデバイスであることができる。１つの場合には、キャプチャデバイス１２０－Ａは、画像シーケンスをキャプチャするように構成される静止画像デバイスを含むことができ、もう１つの場合には、キャプチャデバイス１２０－Ａは、ビデオフレーム形式で画像シーケンスを有するビデオデータをキャプチャするビデオデバイスを含むことができる。例えば、キャプチャデバイス１２０－Ａは、ビデオデータのフレームをキャプチャする、またはその他の方法により取得する、単眼カメラまたは単眼キャプチャデバイスであってもよい。

【0041】

図１Ａでは、３Ｄ空間１１０内で移動するように構成されるロボットデバイス１３０に結合される、複数のキャプチャデバイス１２０－Ｂ、Ｃも示される。ロボットデバイス１３０は、自律空中及び／または地上モバイルデバイスを含むことができる。本発明の例１００では、ロボットデバイス１３０は、デバイスが３Ｄ空間１１０をナビゲートすることを可能にするアクチュエータ１３５を含む。これらのアクチュエータ１３５は、図では車輪を含み、他の場合には、トラック、掘進機構、ロータなどを含むことができる。そのようなデバイスに、１つ以上のキャプチャデバイス１２０－Ｂ、Ｃを静的に、または可動に取り付けることができる。ある特定の場合には、ロボットデバイスは、３Ｄ空間１１０内に静的に取り付けられることができるが、アームまたは他のアクチュエータなどのデバイスの一部分は、この空間内で移動し、空間内でオブジェクトとインタラクトするように構成されることができる。各キャプチャデバイス１２０－Ｂ、Ｃは、異なるタイプの画像データ、ビデオデータをキャプチャすることができる、及び／またはステレオ画像ソースを含むことができる。ある場合には、キャプチャデバイス１２０－Ｂ、Ｃのうちの少なくとも１つは、測光データ、例えば、カラー画像またはグレースケール画像などをキャプチャするように構成される。ある場合には、キャプチャデバイス１２０－Ｂ、Ｃのうちの１つ以上は、ロボットデバイス１３０から独立して可動であることができる。ある場合には、キャプチャデバイス１２０－Ｂ、Ｃのうちの１つ以上は、例えば、角度を付けた弧を描いて回転する、及び／または３６０度で回転する、回転機構上に取り付けられることができる、及び／またはシーンのパノラマ（例えば、３６０度のフルパノラマまで）をキャプチャするように適合された光学系と共に構成される。場合によっては、キャプチャデバイス１２０－Ａに類似している、またはこれと同じであるキャプチャデバイスを、図１Ａのキャプチャデバイス１２０－Ｂ、Ｃの一方または両方として使用することができることが理解されよう。

【0042】

図１Ｂは、キャプチャデバイス１２０及び／またはロボットデバイス１３０に利用可能な自由度の一例１４０を示す。１２０－Ａなどのキャプチャデバイスの場合には、このデバイスの方向１５０は、レンズまたは他の撮像装置の軸と同一直線上にあることができる。３軸のうちの１軸を中心にする回転の一例として、法線軸１５５を図中に示す。同様に、ロボットデバイス１３０の場合には、ロボットデバイス１３０のアライメント１４５の方向を定義することができる。これは、ロボットデバイスの向き、及び／または進行方向を示すことができる。また、法線軸１５５を示す。キャプチャデバイス１２０またはロボットデバイス１３０に関して単一の法線軸のみを示すが、これらのデバイスは、下記のように概略的に１４０として示される軸のうちのいずれか１つ以上の周囲で回転することができる。

【0043】

より一般的には、キャプチャデバイスの向き及び位置は、６つの自由度（６ＤＯＦ）に関して３次元に定義されることができ、位置は例えば［ｘ，ｙ，ｚ］座標などによって３次元のそれぞれの内に定義されることができ、向きは例えば［θ_ｘ，θ_ｙ，θ_ｚ］などの３軸のそれぞれの周囲での回転を表す角度ベクトルによって定義されることができる。位置及び向きは、例えば３Ｄ座標系内で定義される原点などに関して、３次元内の変換とみなされることができる。例えば、［ｘ，ｙ，ｚ］座標は原点から３Ｄ座標系内の特定の位置への変換を表すことができ、角度ベクトル［θ_ｘ，θ_ｙ，θ_ｚ］は３Ｄ座標系内の回転を定義することができる。行列による乗算が変換を適用するように、６ＤＯＦを有する変換を行列として定義することができる。ある特定の実施態様では、キャプチャデバイスは、例えばｙ次元が一定であることができる地上車両上のキャプチャデバイスなどについて、これらの６つの自由度の制限されたセットに関して定義されることができる。ロボットデバイス１３０のそのようなものとして、ある特定の実施態様では、別のデバイスに結合されるキャプチャデバイスの向き及び位置は、その他のデバイスの向き及び位置に関して定義されることができ、例えば、ロボットデバイス１３０の向き及び位置に関して定義されることができる。

【0044】

本明細書に記述される例では、例えば６ＤＯＦの変換行列に示されるような、キャプチャデバイスの向き及び位置は、キャプチャデバイスの姿勢として定義されることができる。同様に、例えば６ＤＯＦの変換行列に示されるような、オブジェクト表現の向き及び位置は、オブジェクト表現の姿勢として定義されることができる。例えばビデオデータまたは一連の静止画像が記録されると、キャプチャデバイスが時間ｔ＋１では時間ｔとは異なる姿勢を有することができるように、キャプチャデバイスの姿勢は経時的に異なることができる。キャプチャデバイスを含むハンドヘルドモバイルコンピューティングデバイスの場合には、このハンドヘルドデバイスをユーザが３Ｄ空間１１０内で移動させるため、姿勢は異なることができる。

【0045】

図１Ｃは、キャプチャデバイス構成の一例を概略的に示す。図１Ｃの例１６０では、キャプチャデバイス１６５は、画像データ１７０を生成するように構成される。図１Ｃでは、画像データ１７０は、複数のフレーム１７５を含む。各フレーム１７５は、一定期間中の特定の時間ｔに関することができ、この一定期間にわたって、図１Ａ中の１１０などの３Ｄ空間の画像（すなわち、Ｆ_ｔ）をキャプチャする。フレーム１７５は、測定されたデータの２Ｄ表現を一般に含む。例えば、フレーム１７５は、時間ｔに記録された画素値の２Ｄアレイまたは行列を含むことができる。図１Ｃの例では、画像データ内のすべてのフレーム１７５は同じサイズであるが、これがすべての例に当てはまる必要はない。フレーム１７５内の画素値は、３Ｄ空間の特定の部分の測定を表す。図１Ｃでは、画像データは、単眼キャプチャデバイスからのシーンの複数のビューを表現し、これら複数のビューのそれぞれは、異なるそれぞれの時間ｔにキャプチャされる。ただし、他の場合には、キャプチャデバイス（または画像もしくはビデオキャプチャシステム）によってキャプチャされる画像データは、互いに同じ時間に、または互いに少なくとも部分的に重複している時間にキャプチャされるシーンの複数のビューを表すことができる。これは、キャプチャデバイスがステレオキャプチャシステムである場合に当てはまることができる。

【0046】

図１Ｃの例では、各フレーム１７５は、測光データを含む。一般に、測光データは、輝度、強度または色などの画像の測光特性を表す。図１Ｃでは、各フレーム１７５は、フレーム１７５の各画素の強度値を含み、これらの強度値を、例えばカラーバンドまたはカラーチャネルごとに０から２５５などのグレースケールまたは輝度レベルによって保存することができる。０のグレースケールレベルは、例えば最も暗い強度（例えば、黒色）に対応し、２５５のグレースケールレベルは、例えば最も明るい強度（例えば、白色）に対応し、０から２５５の間のグレースケールレベルは黒色と白色との間の中間の強度に対応する。図１Ｃでは、測光データは所与の解像度について赤色、緑色、青色の画素強度値を表す。したがって、各フレーム１７５は、カラー画像を表現し、そこではフレーム内の各［ｘ，ｙ］画素値は、ＲＧＢベクトル［Ｒ，Ｇ，Ｂ］を含む。一例として、カラーデータの解像度は、６４０×４８０画素であることができる。他の例では、他のカラー空間を使用することができる、及び／または測光データは他の測光特性を表すことができる。

【0047】

キャプチャデバイス１６５は、画像データ１７０を結合されたデータストレージデバイスに保存するように構成されることができる。別の場合には、キャプチャデバイス１６５は、例えばデータストリームとして、またはフレームごとになど、画像データ１７０を結合されたコンピューティングデバイスに伝送することができる。結合されたコンピューティングデバイスは、例えばユニバーサルシリアルバス（ＵＳＢ）接続などを介して直接結合されることができる、または例えば画像データ１７０が１つ以上のコンピュータネットワーク経由で伝送されることができるなど、間接的に結合されることができる。さらに別の場合には、キャプチャデバイス１６５は、ネットワークアタッチドストレージデバイスに保存のために１つ以上のコンピュータネットワークにわたって画像データ１７０を伝送するように構成されることができる。フレームごとに、または例えば複数のフレームが合わせて束ねられることができる、バッチに基づいて、画像データ１７０を保存する、及び／または伝送することができる。

【0048】

１つ以上の前処理操作もまた、後述される例に使用される前に、画像データ１７０に対して実行されることができる。ある場合には、前処理は、２つのフレームセットが共通のサイズ及び解像度を有するように適用されることができる。

【0049】

場合によっては、キャプチャデバイス１６５は、ビデオデータを画像データとして生成するように構成されることができる。ビデオデータは、異なるそれぞれの時間にキャプチャされた複数のフレームを同様に表すことができる。ある場合には、キャプチャデバイス１６５によってキャプチャされたビデオデータは、圧縮されたビデオストリームまたはファイルを含むことができる。この場合には、ビデオデータのフレームは、このストリームまたはファイルから、例えばビデオデコーダの出力などとして再構築されることができる。ビデオストリームまたはファイルの前処理に次いで、ビデオデータをメモリ位置から取得することができる。

【0050】

図１Ｃを一例として提供するが、理解されるように、以下に記述される方法及びシステムでの使用のために、図に示される構成とは異なる構成を使用して画像データ１７０を生成することができる。画像データ１７０は、３Ｄ空間のキャプチャされた、または記録されたビューを表す２次元形式で構成される、いずれかの測定された感覚入力をさらに含むことができる。例えば、これは、とりわけ、測光データ、深度データ、電磁撮像、超音波撮像、及びレーダー出力を含むことができる。これらの場合には、デプスデータを含まないＲＧＢデバイスなど、特定のデータ形式に関連する撮像デバイスのみが必要とされる場合がある。

【0051】

図２は、本明細書での実施例による画像データを処理する方法２００を示す流れ図である。図２の項目２０２では、第一潜在表現Ｌ_１を取得する。第一潜在表現は、画像データによって表現されるシーンの第一ビューの第一セグメンテーションに関連付けられる。例えば図３を参照してさらに議論されるように潜在表現を処理することなどによって、セグメンテーションが潜在表現から導出可能である場合、潜在表現は、シーンのビューのセグメンテーションに関連付けられるとみなされることができる。

【0052】

図２では、第一セグメンテーションは、セマンティックセグメンテーションである。第一潜在表現は、より低い次元数であること、よりコンパクトであること、またはその他の方法により、セマンティックセグメンテーションよりも少ないパラメータを使用して表現可能であることができる。この方法では、第一潜在表現は、より効率的にセマンティックセグメンテーションを表すことができるが、詳細（もしあれば）を多く犠牲にすることはない。第一潜在表現は、例えば、セマンティックセグメンテーションを表すために使用される、一連の、または他の構成の数字、文字及び／または記号などである、コードなどであることができる。一例として、コードは、数値または他の値のベクトルなどのテンソルであってもよい。第一潜在表現は、所定の、または固定のデータサイズを有することができる。この方法では、第一潜在表現のサイズは、セマンティックセグメンテーションを正確に再構築することを可能にするのに十分な量の詳細を保存することができるが、効率的に処理する、または保存するのに十分に小さいように選択されることができる。図３をさらに参照して、第一潜在表現を取得する一例を議論する。

【0053】

図２の項目２０４では、第二潜在表現Ｌ_２を取得する。第二潜在表現は、シーンの第二ビューに関連付けられる。第一ビュー及び第二ビューは、互いに同じであってもよい。換言すれば、画像データをキャプチャするために使用されるキャプチャデバイスは、第一及び第二ビューのキャプチャ間で移動していなくてもよい。他の例では、けれども、第一及び第二ビューは互いに異なってもよい。それにもかかわらず、第一及び第二ビューは、互いに部分的に重複することがあるため、第一ビューの少なくとも一部分は第二ビューにも存在する（異なる位置にあるにもかかわらず）。第二潜在表現は、第一潜在表現と同じセグメンテーションに関連付けられることができる。例えば、第二潜在表現は、シーンの第二ビューのセマンティックセグメンテーションに関連付けられることができる。他の例では、けれども、第二潜在表現は、第一潜在表現とは異なるセグメンテーションまたは他のマップに関連付けられることができる。例えば、第一潜在表現はセマンティックセグメンテーションに関連付けられるが、第二潜在表現はデプスマップに関連付けられてもよい。

【0054】

図２の項目２０６では第一潜在表現及び第二潜在表現を潜在空間内で共同して最適化し、項目２０８では最適化された第一潜在表現を取得し、項目２１０では最適化された第二潜在表現を取得する。最適化された第一及び第二潜在表現を、互いに同じ時間になど、同時に取得することができる、または一方を他方の前に取得することができることを理解されたい。シーンの第一ビューの最適化されたセマンティックセグメンテーションを最適化された第一潜在表現から導出することができる。ただし、最適化された第一潜在表現は、最適化されたセマンティックセグメンテーションを再生することを可能にしながら、最適化されたセマンティックセグメンテーション自体よりもさらに小さくなることができるため、より効率的に保存され、処理されることができる。

【0055】

潜在空間内で第一及び第二潜在表現を共同して最適化することは、例えば、第一及び第二潜在表現の値を反復更新して残差を最小にする最適化プロシージャを参照する。それが反復更新される第一及び第二潜在表現自体の値であるため、この最適化は、潜在空間にあるとみなされることができる。対照的に、最適化プロシージャは、この最適化プロシージャでは他の変数の値を反復更新することに続き、これらの他の変数から第一及び第二潜在表現を導出するため、潜在空間にあるとみなされないことができる。図２による例では潜在空間内で最適化することによって、第一潜在表現と第二潜在表現との間の相関を有することができ、これらの相関は、この最適化によって取得される最適化された第一及び第二潜在表現がシーンの詳細をキャプチャする精度を向上させることができる。これは、例えば、最適化された第一潜在表現から導出される最適化されたセマンティックセグメンテーションがシーンのセマンティックコンテンツを表す精度を向上させることができる。

【0056】

別々にキャプチャ及びストレージを必要とする他のデータからよりも、ロボットマッピングシステムに一般に容易にアクセス可能である、画像データ自体から、最適化された潜在表現を取得することができる。例えば、最適化プロシージャ中に画像データを使用することができる。この画像データは、例えば、シーンの少なくとも１つの第一ビュー（第一潜在表現に関連付けられる）、及びシーンの少なくとも１つの第二ビュー（第二潜在表現に関連付けられる）を表す。それらのような場合には、画像データを使用して、シーンの第一ビューの一部分と、シーンの第二ビューの一部分との間の対応関係を識別することができる。例えば、画像データを使用して、第一ビューの所与の一部分に対応する第二ビューの一部分（換言すれば、シーンの同じ部分を示す）を識別することができる。第一及び第二ビューの対応する部分がシーンの同じ部分のものであるため、第一及び第二ビューのこれらの部分の所与の特性（例えば、セマンティックラベルまたは深度）は同じである。これは、最適化プロシージャ中に活用されることができ、例えば、シーンの同じ部分を示すと識別される第一及び第二ビューの部分について、第一潜在表現から導出される特性と、第二潜在表現から導出される同じ特性との間の差分を最小にする第一及び第二潜在表現の値を識別するように構成されることなどができる。

【0057】

図３は、本明細書でのさらなる実施例による画像データを処理する方法３００を示す流れ図である。図３の方法３００は、図２の方法に類似している。ただし、図３の方法３００は、図２の方法２００がどのように実装されることができるかの一例として、より詳細に説明されている。けれども、図３の方法３００が図２の方法２００を実行することができる１つの方法に過ぎず、他の方法が他の例では可能であることを理解されたい。

【0058】

項目３０２では、Ｌ_{１ｉｎｉｔ}と称されることができる、第一潜在表現の初期値Ｌ_１を取得する。同様に、項目３０４では、Ｌ_{２ｉｎｉｔ}と称されることができる、第一潜在表現の初期値Ｌ_２を取得する。この例では、第一潜在表現は、処理される画像データ中でキャプチャされるシーンの第一ビューのセマンティックセグメンテーションに関連付けられる。図２のように、第二潜在表現は、シーンの第二ビューに関連付けられ、セマンティックセグメンテーション、またはデプスマップなどの異なるセグメンテーションもしくはマップであることができる。

【0059】

第一潜在表現及び第二潜在表現のうちの少なくとも１つは、所定の表現であってもよい。例えば、第一及び／または第二潜在表現は、デフォルト値、またはゼロ値などの他の所定の値であってもよい。この方法では、所定の表現は、シーン（及び画像データ）から独立している、第一及び／または第二潜在表現の初期推定値であってもよい。その後、この初期推定値は、この例では図３の最適化プロシージャによって洗練化される。

【0060】

項目３０６では、それが最適化プロシージャの第一パスであるかどうかについて決定を行う。そうである場合、第一及び第二潜在表現の初期値を入力Ｌ_１ｉｎ、Ｌ_２ｉｎとして項目３０８での最適化に使用する。

【0061】

項目３０８では、入力された第一及び第二潜在表現Ｌ_１ｉｎ、Ｌ_２ｉｎを復号して、復号された第一及び第二潜在表現Ｌ_１ｄ、Ｌ_２ｄを取得する。この場合には、入力から所与のセグメンテーションまたはマップを取得する際に使用するためにトレーニングされるデコーダシステムを使用して、入力された第一及び第二潜在表現を復号する。例えば、デコーダシステムは、入力された第一潜在表現からセマンティックセグメンテーションを取得する際に使用するためにトレーニングされる第一デコーダと、入力された第二潜在表現からデプスマップを取得する際に使用するためにトレーニングされる第二デコーダとを含むことができる。これは、図４をさらに参照して記述される。それらのような場合には、デコーダシステムは、所定の範囲の値に正規化されるセグメンテーションまたはマップを取得する、正規化エンジンを含むことができる。これらの場合には、復号された第一及び第二潜在表現をそれらの正規化前に取得することができる。

【0062】

復号された第一及び第二潜在表現を使用して、最適化プロシージャを実行し、最適化された第一及び第二潜在表現を識別することができる。最適化は、いずれかの最適化プロシージャを使用して実行されることができる。図３の例では、最適化プロシージャは、ガウス・ニュートンアルゴリズムの使用を必要とし、このアルゴリズムを使用して非線形最小二乗問題を解くことができる（これは一例に過ぎないが）。ｎ個の変数β＝（β_１，．．．，β_ｎ）のｍ個の残差ｒ＝（ｒ_１，．．．，ｒ_ｍ）が与えられ、ｍ≧ｎであると、ガウス・ニュートンアルゴリズムを使用して、二乗和を最小にする変数の値を反復して求めることができる。

【0063】

【数1】

【0064】

変数の値を次の通りに反復計算する。

【0065】

【数2】

【0066】

式中、Ｔは行列転置を示し、Ｊは以下のように表されることができるヤコビ行列である。

【0067】

【数3】

【0068】

これは図３に示されている。図３の項目３１２では、少なくとも１つの残差は、復号された第一及び第二潜在表現を使用して決定される。残差は、例えば、測定値と予測値との間の差分の尺度であり、例えば、誤差項に対応する。一般に、測定値と予測値との間の差分が大きくなるほど、残差が大きくなる。したがって、測定値と予測値との間の差分の最小化（例えば、残差またはこの残差に基づいた関数を最小にすることによる）を使用して、最適なパラメータのモデルを決定することができ、このモデルから、予測値を取得することができる。一例として、項目３１２は、復号された第一潜在表現と、復号された第二潜在表現との間の差分を表す残差を計算することを含むことができる。

【0069】

図３を参照して説明されるように、画像データは、シーンの第一及び第二ビューを含むことができる。画像データは、シーンの第一ビューの所与の一部分（画素または他の空間要素でもあることができる）に対応する、シーンの第二ビューの一部分（例えば、画素または他の空間要素）を識別する最適化プロシージャ中に画像データを使用することができる。それらのような場合には、残差は、シーンの第一ビューの画素について復号された第一潜在表現と、シーンの第一ビューの画素とシーンの同じ部分を示すと識別されるシーンの第二ビューの画素について復号された第二潜在表現との間の差分を表すことができる。

【0070】

項目３１４では、少なくとも１つの残差を使用して、例えば、上記の式を使用して、少なくとも１つのヤコビアンを決定する。したがって、このような例では、残差（複数可）は、対応するヤコビアン（複数可）を計算することができるように微分可能であることができる。項目３１６では、ヤコビアン（複数可）を使用して、第一及び第二潜在表現の値Ｌ_１ｏｕｔ、Ｌ_２ｏｕｔを決定し、これらの値は、残差の関数（例えば、１つより多い残差がある例での残差の二乗和）を最小にする。この方法において、潜在空間では第一及び第二潜在表現を共同して最適化する。

【0071】

場合によっては、１つ以上のヤコビアンを事前に計算し、ヤコビアンの値を評価することができる速度を上げることができる。例えば、ヤコビアン（複数可）は、他の特徴量に依存することなく、画像データによって表現される画像に依存することができる。それらのような場合には、ヤコビアン（複数可）を、最適化プロシージャの反復ごとに再計算することなく、入力画像ごとに１回計算することができる。この方法では、最適化プロシージャのその後の反復中に事前に計算されたヤコビアン（複数可）を繰り返し使用することができ、同じ入力画像に基づいて後の最適化に再使用することができる。例えば、ヤコビアン（複数可）を、ビデオのキーフレームについて計算することに続き、同じキーフレームを含む今後の最適化に使用するために保存することができる。キーフレームは、外部のＳＬＡＭシステムなどの外部システムによって指定されるようなキーフレームであってもよい。他の場合には、シーンを観測するキャプチャデバイスが閾値距離を上回る距離まで移動した後に取得されるフレームがキーフレームであってもよい。図３の項目３１８では、最適化が完了したかどうかを決定する。最適化は、例えば、コスト関数（上記に議論される二乗和Ｓ（β）など）が所定の値を満たす、もしくは所定の値未満である場合、または所定の反復回数後などに、完了したとみなされることができる。最適化が完了していない場合、図３の方法は、図３の項目３２０に示されるように、その後の反復への入力Ｌ_１ｉｎ、Ｌ_２ｉｎとして、前の反復の出力Ｌ_１ｏｕｔ、Ｌ_２ｏｕｔを使用することを含む。最適化は、項目３１０、３１２、３１４、３１６及び３１８を介して、上述されるように進行する。例示的な最適化のさらなる詳細は、図７、８及び９を参照して説明される。

【0072】

項目３１８で最適化が完了したと決定される場合、最適化プロセスによって出力される第一及び第二潜在表現の値Ｌ_１ｏｕｔ、Ｌ_２ｏｕｔは、それぞれ最適化された第一及び第二潜在表現であるとみなされることができる。場合によっては、最適化された第一及び第二潜在表現は、例えば図３の方法を実行するためにシステムのストレージなどに保存されることができる、または例えば他の箇所への保存のためにストレージ容量の大きいストレージシステムなどに転送されることができる。この方法では、その後に使用するために、最適化された第一及び第二潜在表現を保持することができる。図３の例において、けれども、項目３２２では、最適化された第一潜在表現を復号し、シーンの第一ビューの復号された第一表現を取得する。項目３２４では、最適化された第二潜在表現を復号し、シーンの第二ビューの復号された第二表現を取得する。最適化プロシージャに入力される第一及び第二潜在表現を復号する項目３１０に使用されるデコーダシステムのような、デコーダシステムが最適化された第一及び第二潜在表現を復号してもよい。図３の例では、最適化された第一及び第二潜在表現の両方を復号する。ただし、場合によっては、最適化された第一及び第二潜在表現のうちの一方または両方の復号を省略してもよいことを理解されたい。

【0073】

復号された第一及び第二表現は、最適化された第一及び第二潜在表現ほどコンパクトではない方法でシーンの観測可能な特性、または測定可能な特性を表すとみなされることができる。復号された第二表現は、復号された第一表現に類似しているが、シーンの第二ビュー（シーンの第一ビューと同じであっても、異なってもよい）を表すことができ、復号された第一表現とは異なる特性を表すことができる。例えば、復号された第一表現の値がこれらの値に関連するシーンの第一ビューの一部分のセマンティックコンテンツを示すことができるが、復号された第二表現の値はこれらの値に関連するシーンの第二ビューの一部分の深度を示すことができる。ただし、他の場合には、復号された第一及び第二表現は、互いに同じ特性を表すが、同じシーンの異なるビューについてのものであることができる。

【0074】

復号された第一及び第二表現の値は、正規化されていない値であることができる。この方法では、復号された第一及び第二表現の値は、それぞれ内部に一貫性があるが、互いに異なるスケールのものであることができる。図３は、そのような場合を示す。図３の例において、項目３２６では、復号された第一表現を正規化して、例えばシーンの第一ビューのセマンティックセグメンテーションなどである、最適化された第一セグメンテーションを取得する。図３の項目３２８では、復号された第二表現を正規化して、例えば、セマンティックセグメンテーションなど、シーンの第二ビューのセグメンテーションなどである、最適化された第二セグメンテーションを取得する。最適化中に第一及び第二潜在表現を復号するために使用されるデコーダシステム（それ自体が最適化された第一及び第二潜在表現を復号するために使用されるデコーダシステムであることができる）のような、デコーダシステムは、復号された第一及び第二表現のうちの少なくとも１つの正規化を実行することができる。図３の例では、復号された第一及び第二表現の両方を正規化する。ただし、場合によっては、復号された第一及び第二表現のうちの一方または両方の正規化を省略してもよいことを理解されたい。

【0075】

復号された第一及び第二表現を正規化することによって、より有意義な、またはその他の方法により直感的な表現を取得することができる。例えば、ソフトマックス関数を使用することができる。このソフトマックス関数は、実数値のｎ次元ベクトルを０から１の範囲内の実数値のｎ次元ベクトルにマッピングする。これは、数学的に以下のように要約されることができる。

【0076】

【数4】

【数5】

【0077】

式中、（０，１）の範囲内にそれぞれあり、ベクトルσ（ｚ）のすべての値の合計が１になるように、実数値のＫ次元ベクトルσ（ｚ）に実数値のＫ次元ベクトルをマッピングする。

【数6】

はＫ次元に関するすべての実数値タプルのセットを示す。ただし、他の例では他の正規化関数を使用することができる。

【0078】

一例として、復号された第一表現を正規化して、シーンの第一ビューの最適化されたセマンティックセグメンテーションを取得することができる。そのようなセマンティックセグメンテーションは、（０，１）の範囲内にそれぞれあり、シーンの第一ビューの画素が対応するセマンティックセグメンテーション値を有するような、値のアレイであることができる。そのような場合には、セマンティックセグメンテーション値の特定の範囲は、特定のクラスのオブジェクト（「テーブル」など）に対応するとみなされることができ、異なる範囲は、異なるクラスのオブジェクト（「ベッド」など）に対応するとみなされることができる。この方法では、最適化されたセマンティックセグメンテーションを使用して、特定のクラスのオブジェクト（または特定のオブジェクト）に対応するシーンの第一ビューの領域を識別することができる。

【0079】

図４は、図２及び３の例などの実施例による画像データを処理するシステム４００の概略図である。システム４００は、画像データ４０４を受信し、処理するために画像データ４０４を転送する入力インタフェース４０２を含む。画像データ４０４は、シーンの少なくとも１つのビューを表す。入力インタフェース４０２は、カメラなどのキャプチャデバイスに結合されることができる、画像取得インタフェースであってもよい。画像取得インタフェースは、ＵＳＢまたはネットワークインタフェースなどのハードウェアインタフェース、及びソフトウェアドライバを実装するコンピュータプログラムコードを含んでもよい。１つの場合には、システム４００は、システム４００の画像取得インタフェースが受信することができる、ライブビデオデータなどのストリーミングデータ上で動作するように構成されることができる。もう１つの場合には、システム４００は、カメラに通信可能に結合されることができ、永続データストレージ及び非永続データストレージのうちの１つ以上にカメラデバイスから受信する画像データ４０４を保存するように構成されることができ、例えば、データフレームを、メモリにコピーすることができる、及び／またはハードディスクドライブまたはソリッドステートストレージに保存することができる。もう１つの場合には、システム４００の外部の所与のファイルフォーマットに、例えば、データストレージデバイスにアクセス可能な１つ以上のファイルなどに、画像データ４０４を保存することができる。この場合には、システム４００は、１つ以上のファイルからデータを少なくとも読み出すためにファイルシステムの部分を使用する、または実装することができる。それらのような場合には、入力インタフェース４０２は、システム４００がデータストレージデバイスから画像データ４０４を受信することを可能にする、いずれかの適切なインタフェースであってもよい。システム４００は、専用の処理用電子機器を含んでもよい、及び／または少なくとも１つのコンピューティングデバイスのプロセッサによって実行されるコンピュータプログラムコードとして実装されてもよい。

【0080】

システム４００は、１つ以上の組み込みコンピューティングデバイスを含むことができる。これは、コンピュータ可読媒体上にロードされるコンピュータプログラムコードを実行するために、メモリと共に動作する少なくとも１つのプロセッサを含むことができる。この媒体は、消去可能でプログラム可能な読み出し専用メモリなどのソリッドステートストレージを含んでもよく、コンピュータプログラムコードは、ファームウェアを含んでもよい。他の場合には、システム４００は、適切に設定されたシステムオンチップ、特定用途向け集積回路、及び／または１つ以上の適切にプログラムされたフィールドプログラマブルゲートアレイを含んでもよい。ある場合には、システム４００は、モバイルコンピューティングデバイス及び／またはデスクトップコンピューティングデバイスにコンピュータプログラムコード及び／または専用の処理用電子機器として実装されてもよい。この場合には、システム４００は、ロボットデバイスから送信される画像を受信する、及び／または決定された潜在表現（または決定された潜在表現から導出されるセグメンテーションもしくはマップ）を送信してロボットデバイスに返すように構成されることができる。本明細書に記述された例から逸脱することなく、分散コンピューティングの他の実装も使用することができる。ある場合には、システム４００は、コンピュータプログラムコードを実行する１つ以上のＧＰＵによって、前の場合と同様に、または前の場合の代替に、全体が、または部分が実装されてもよい。ある特定の場合には、システム４００は、例えば複数のプロセッサ、及び／またはＧＰＵのコアなどに、並列に実装される１つ以上の機能として実装されることができる。

【0081】

図４のシステム４００は、初期化エンジン４０６も含み、この初期化エンジン４０６は、画像データ４０４内でキャプチャされるシーンの少なくとも１つの第一ビューの第一セグメンテーションに関連する第一潜在表現Ｌ_１、４０８を生成するように構成される。第一セグメンテーションは、この例ではセマンティックセグメンテーションである。また、初期化エンジン４０６は、シーンの少なくとも１つの第二ビューに関連する第二潜在表現Ｌ_２、４１０を生成するように構成される。図３を参照して説明されるように、第一及び第二ビューは、互いに異なっても、同じであってもよい。第二潜在表現は、第一潜在表現と同じ、または異なる特性を表すことができる。例えば、第二潜在表現は、シーンの少なくとも１つの第二ビューのセマンティックセグメンテーション、またはこのシーンの少なくとも１つの第二ビューのデプスマップに関連付けられることができる。「生成する」という用語は、新規に生成された第一及び第二潜在表現を示すか、例えばシステム４００のストレージから、またはシステム４００にアクセス可能な、初期化エンジン４０６によって取得される、またはその他の方法により得られる第一及び第二潜在表現を示すかいずれかであるように、この文脈の中では広く使用されることができる。

【0082】

システム４００は、画像データ４０４、ならびに第一及び第二潜在表現を最適化エンジン４１２に入力するように構成され、この最適化エンジン４１２は、潜在空間では第一潜在表現４０８及び第二潜在表現４１０を共同して最適化し、最適化された第一潜在表現４１４、及び最適化された第二潜在表現４１６を取得するように構成される。

【0083】

図４の例では、最適化エンジン４１２は、図３を参照して記述される最適化プロシージャを実装するように構成される（これは一例に過ぎず、他の最適化プロシージャが可能であるが）。最適化エンジン４１２は、デコーダシステム４１８を含み、この例では、デコーダシステム４１８は、第一潜在表現４０８を復号するように構成される第一デコーダ４２０、及び第二潜在表現４１０を復号するように構成される第二デコーダ４２２を含む。この場合には、図３の項目３１０を参照して説明されるように、最適化中に第一及び第二潜在表現４０８、４１０を復号する。

【0084】

図４では、第一デコーダ４２０は、セマンティックセグメンテーションの第一潜在表現を復号して、セマンティックセグメンテーション自体を取得するように、入力された画像データ及びグランドトゥルースセマンティックセグメンテーションの対上でトレーニングされている。第一デコーダ４２０は、例えば、図１２から１４を参照してさらに議論されるように、入力された画像データ及びグランドトゥルースセマンティックセグメンテーションの対を使用してトレーニングされる、オートエンコーダのデコーダなどである。

【0085】

図４の例での第二デコーダ４２２は、第二潜在表現が表すことが意図される特性に対応する、入力された画像データ及びグランドトゥルースセグメンテーションまたはマップの対上でトレーニングされている。例えば、第二デコーダ４２２は、デプスマップの第二潜在表現を復号してデプスマップ自体を取得するように、入力された画像データ及びグランドトゥルースデプスマップの対上でトレーニングされていてもよい。また、第二デコーダ４２２は、第一デコーダ４２０が部分を形成することができるものとは一般に異なるオートエンコーダである、オートエンコーダのデコーダであってもよい。

【0086】

場合によっては、第一及び第二潜在表現が（それぞれ、シーンの第一及び第二ビューの）セマンティックセグメンテーションをそれぞれ表すことができることを理解されたい。それらのような場合には、デコーダシステム４１８は、第二デコーダ４２２を含まなくてもよい。それらの場合には、第一及び第二潜在表現は、両方とも同じデコーダ（例えば、第一デコーダ４２０）によって復号されることができる。

【0087】

第一デコーダ４２０は、所定の潜在表現を最も可能性の高い潜在表現として出力するようにトレーニングされてもよい。例えば、第一デコーダ４２０は、セマンティックセグメンテーションの最も可能性の高い潜在表現としてゼロコードを出力するようにトレーニングされることができる。第一デコーダ４２０のこのビヘイビアは、ゼロを中心とする多変量ガウス事前分布を使用して第一デコーダ４２０をトレーニングすることによって課せられることができる。この方法でトレーニングされる第一デコーダ４２０に関して、初期化エンジン４０６は、例えば最も可能性の高い潜在表現である、第一潜在表現として所定の表現を生成するように構成されることができる。例えば、初期化エンジン４０６は、ゼロの潜在表現を第一潜在表現として生成するように構成されることができる。第二デコーダ４２２は、同様にトレーニングされることができる。したがって、初期化エンジン４０６は、ゼロの潜在表現など、例えば最も可能性の高い潜在表現である、第二潜在表現として所定の表現を、その上、または代替に生成するように構成されることができる。

【0088】

最適化された第一及び第二潜在表現４１４、４１６を出力することに加えて、最適化エンジン４１２は、その上、例えば図３の項目３２２、３２４、３２６、３２８を参照して記述されるように、復号された第一及び第二表現４２４、４２６、ならびに最適化された第一及び第二セグメンテーション４２８、４３０を出力するように構成される。場合によっては、最適化された第一及び第二潜在表現４１４、４１６、復号された第一及び第二表現４２４、４２６、ならびに最適化された第一及び第二セグメンテーション４２８、４３０のうちの少なくとも１つが、最適化エンジン４１２によって出力されなくてもよい、または他のものとは異なる時間に出力されてもよいことを理解されたい。さらに、場合によっては、デコーダシステム４１８は、最適化エンジン４１２の部分を形成しなくてもよいが、代替に、最適化エンジン４１２がそれらと通信することができる、またはデータをそれらの間で転送することができる、別個の、またはその他の異なるコンポーネントであることができる。

【0089】

図５は、さらなる実施例による画像データ５０４を処理するシステム５００の概略図である。図４の特徴に類似から対応している図５の特徴は、同じであるが、１００ずつ増加している参照番号を用いてラベル付けされる。対応する説明が適用される。

【0090】

図５のシステム５００は、画像データ５０４の画像特徴量５３４を識別するように構成される特徴量識別エンジン５３２をさらに含むことを除き、図４のシステム４００と同じである。特徴量識別エンジン５３２は、識別される、コーナー、エッジ、形状、色など、画像特徴量５３４を可能にするいずれかのエンジンであることができる。例えば、特徴量識別エンジン５３２は、ニューラルネットワークアーキテクチャとして実装されることができ、このニューラルネットワークアーキテクチャは、ソフトウェア、ハードウェア、またはソフトウェア及びハードウェアの組み合わせに実装されることができる。そのようなニューラルネットワークアーキテクチャは、完全畳み込みネットワークなど、畳み込みニューラルネットワーク（ＣＮＮ）であってもよい。一例では、特徴量識別エンジン５３２は、完全畳み込みネットワークの一例である、いわゆる「Ｕ－Ｎｅｔ」を含む。Ｕ－Ｎｅｔアーキテクチャは、Ｒｏｎｎｅｂｅｒｇｅｒｅｔａｌによる２０１５年の論文、「Ｕ－Ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ」に記載されている（該当する場合は参照により援用されている）。

【0091】

図５の例では、デコーダシステム５１２は、画像特徴量５３４を用いて条件付けされる。第一デコーダ５２０及び第二デコーダ５２２の一方または両方は、画像特徴量５３４を用いて条件付けされることができる。

【0092】

図６は、実施例による画像特徴量を用いて条件付けされるオートエンコーダ６００の概略図である。オートエンコーダは、エンコーダまたはデコーダのうちの少なくとも１つが画像特徴量を用いて条件付けされる場合、画像特徴量を用いて条件付けされるとみなされることができる。例えば、場合によっては、オートエンコーダのデコーダは、オートエンコーダのエンコーダが画像特徴量を用いて条件付けされることなく、画像特徴量を用いて条件付けされることができる。

【0093】

図６では、入力画像を畳み込み特徴量に分解するように構成される、Ｕ－Ｎｅｔ６０１を使用して画像特徴量を取得する。Ｕ－Ｎｅｔ６０１は、参照番号６０４によって概略的に示される、縮小パス（ｃｏｎｔｒａｃｔｉｎｇｐａｔｈ）（時としてダウンサンプリングパスと称される）を含む。図６では、縮小パス６０４は、１セットのダウンサンプリングブロック６０２ａ～６０２ｃを含み、これらのダウンサンプリングブロックは、所与の解像度を有する画像特徴量を取得するようにそれぞれ構成される。各ダウンサンプリングブロックは、正規化線形ユニット（ＲｅＬＵ）及び最大プーリング演算を後に伴う、畳み込みを有することができる。縮小パス６０４中では、空間情報を減少させる。ただし、例えば、各ステージでの特徴量マップ数を増加させることなどによって、特徴量情報を増加させる。この方法では、画像特徴量の、粗さが増加しているが、次元数が増加している、画像の表現を取得することができる。

【0094】

また、Ｕ－Ｎｅｔ６０１は、時としてアップサンプリングパスと称される、拡張パス６０６を含む。図６では、拡張パス６０６は、１セットのアップサンプリングブロック６０３a～６０３ｃを含む。各アップサンプリングブロックは、例えば、アップコンボリューション及び連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）（図６では６０２ａ及び６０３ａ、６０２ｂ及び６０３ｂ、ならびに６０２ｃ及び６０３ｃの間の矢印によって示される）などを使用して、縮小パス６０４によって取得される特徴量及び空間情報を組み合わせる。この方法では、アップサンプリングブロック６０３a～６０３ｃは、画像特徴量を複数の異なる解像度で取得するように構成される。

【0095】

図６中のアップサンプリングブロック６０３ａ～６０３ｃによって取得される画像特徴量を使用して、オートエンコーダ６００を条件付けする。オートエンコーダは、例えば、人工ニューラルネットワークであり、この人工ニューラルネットワークは、自己符号化されるデータのコンパクトな表現をオートエンコーダに学習させるボトルネックの影響を受けやすい中で、恒等写像を学習するようにトレーニングされる。例えば、オートエンコーダ６００は、画像のセマンティックセグメンテーションのコンパクトな表現（本明細書では潜在表現と称されることがある）を学習するようにトレーニングされることができる。オートエンコーダ６００は、エンコーダ６０８及びデコーダ６１０を含む。図６のデコーダ６１０などのデコーダは、図５の第一デコーダ５２０及び第二デコーダ５２２のうちの少なくとも１つとして使用されることができる。

【0096】

図６の例では、オートエンコーダ６００は、変分部分６１２を有する、条件付き変分オートエンコーダである。変分オートエンコーダの使用は、潜在表現と、この潜在表現から導出可能である（例えば、オートエンコーダを使用して潜在表現を復号することによって）セグメンテーション（例えば、セマンティックセグメンテーション）との間のマッピングの平滑性を増加させることができる。それらのような場合には、潜在表現中の小さな変化は、オートエンコーダによって出力されるセグメンテーション中の小さな変化をもたらす傾向がある。

【0097】

エンコーダ６０８は、１セットの符号化ブロック６１４ａ～６１４ｃを有する一連の符号化コンポーネントを含み、この一連の符号化コンポーネントは、例えばオートエンコーダ６００が自己符号化するようにトレーニングされるグランドトゥルースセグメンテーションなど、受信したデータを符号化する。また、エンコーダ６０８は、例えば符号化ブロック６１４ａ～６１４ｃの前に、入力データの畳み込み及びサブサンプリングを実行するように構成される第一コンポーネントを含むことができる。符号化ブロック６１４ａ～６１４ｃは、ダウンサンプリング操作を実装するとみなされることができる。ダウンサンプリングは、エンコーダ６０８の所与のステージに関連するフィルタ（時としてカーネルと称される）と、エンコーダ６０８への入力との間の一連の畳み込みのストライドを変えることによって達成されることができる。エンコーダ６０８は、例えば、ＩＣＬＲ２０１５で会議論文として発表されたＫ．ＳｉｍｏｎｙａｎａｎｄＡ．Ｚｉｓｓｅｒｍａｎによる論文「ＶｅｒｙＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＬａｒｇｅ－ＳｃａｌｅＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」（該当する場合には参照により援用されている）に記述されている畳み込みネットワークに基づいて、完全畳み込み認識モデルなどの畳み込みニューラルネットワークであってもよい。

【0098】

この場合には、エンコーダ６０８は、バニラエンコーダよりもむしろ変分オートエンコーダ６００の部分を形成する。したがって、この場合には、エンコーダ６０８は、エンコーダ６０８が符号化するようにトレーニングされている特性の平均値及び不確かさを出力するようにトレーニングされる。これらの例では、エンコーダ６０８は、複数の空間要素を有する、入力されたセグメンテーションまたはマップを使用してトレーニングされることができる。例えば、エンコーダ６０８は、入力画像の画素に対応する画素アレイを有する、グランドトゥルースセマンティックセグメンテーションを使用してトレーニングされることができる。ただし、グランドトゥルースセマンティックセグメンテーションの画素は、測光値よりもむしろセマンティック値（例えば、入力画像の対応する画素に関連するセマンティックラベルを示す、またはその他の方法で表す値）を含むことができる。それらのような場合には、エンコーダ６０８は、例えば、所与の画素についてセマンティックセグメンテーションの潜在表現を直接出力することよりもむしろ、グランドトゥルースセマンティックセグメンテーションの画素のそれぞれについて、平均セマンティック値、及びこの平均セマンティック値に関連する不確かさ（または平均値及び関連する不確かさのベクトル）を出力する。これらの場合には、変分部分６１２は、平均セマンティック値に対応する平均値、及び平均セマンティック値に関連する不確かさに対応する不確かさに関する分布からサンプリングし、特定の画素について潜在表現を取得する。この分布は、例えば、ガウス分布である。これは、オートエンコーダ６００が自己符号化するようにトレーニングされる特性に関連する潜在空間からのサンプリングに対応するとみなされることができる。

【0099】

次いで、例えば入力データの減少した次元数の符号化である、変分部分６１２によって取得される潜在表現をデコーダ６１０が復号し、エンコーダ６０８に入力されるデータの推定された再構築（例えば、セマンティックセグメンテーションまたはデプスマップ）を取得することができる。デコーダ６１０は、１セットの復号ブロック６１５a～６１５ｃを含む。デコーダ６１０は、アップサンプリング操作を実装するとみなされることができる。アップサンプリングは、例えば、バイリニア補間または逆畳み込みを使用して達成されることができる。復号中に、デコーダ６１０は、複数の特徴量マップ（例えば、それぞれ復号された出力に対応するとみなされることができる）を複数の異なる解像度で出力する。例えば、各復号ブロック６１５ａ～６１５ｃは、復号された出力を異なるそれぞれの解像度で出力することができる。図６のこの例では、復号ブロック６１５ａ～６１５ｃによって生成される、復号された出力の解像度は、復号ブロック６１５ａから復号ブロック６１５ｃに低下する。デコーダ６１０の出力は、例えば、復号された潜在表現であり、この復号された潜在表現は、例えば図３の項目３２６及び３２８を参照して議論されるように、正規化されることができる。

【0100】

図６では、エンコーダ６０８及びデコーダ６１０は、Ｕ－Ｎｅｔ６０１（特徴量識別エンジンの一例である）のアップサンプリングブロック６０３ａ～６０３ｃによって取得される画像特徴量を使用して条件付けされる。ただし、他の場合には、デコーダ６１０は、エンコーダ６０８が画像特徴量を使用して条件付けされることなく、画像特徴量を使用して条件付けされる（またはその逆も同様である）。画像特徴量は、複数の解像度である。この場合には、特徴量識別エンジンによって（この場合には、アップサンプリングブロック６０３ａ～６０３ｃによって）取得される画像特徴量を使用して、エンコーダ６０８及びデコーダ６１０を条件付けする。この場合にはエンコーダ６０８は、符号化された出力（例えば、特徴量マップ）を複数の異なる解像度のそれぞれに生成する。複数の異なる解像度のそれぞれについて、エンコーダ６０８は、所与の解像度についての画像特徴量を、この所与の解像度について符号化された出力と組み合わせることによって条件付けされることができる。同様に、この場合にはデコーダ６１０は、復号された出力（例えば、特徴量マップ）を複数の異なる解像度のそれぞれに生成する。複数の異なる解像度のそれぞれについて、エンコーダ６０８は、所与の解像度についての画像特徴量を、この所与の解像度について復号された出力と組み合わせることによって条件付けされることができる。これは、図６中の矢印を使用して示され、図６では、Ｕ－Ｎｅｔ６０１ａの第一アップサンプリングブロック６０３ａによって出力される最低解像度の画像特徴量を、第三符号化ブロック６１４ｃによって生成される最低解像度の符号化された出力、及び第一復号ブロック６１５ａによって生成される最低解像度の復号された出力と組み合わせる。同様に、第三アップサンプリングブロック６０３ｃによって出力される最高解像度の画像特徴量を、第一符号化ブロック６１４ａによって生成される最高解像度の符号化された入力、及び第三復号ブロック６１５ｃによって生成される最高解像度の復号された出力と組み合わせる。画像特徴量を、符号化された、または復号された出力と組み合わせることは、例えば、画像特徴量（例えばテンソル形式での）を、符号化された、または復号された出力（同様に、テンソル形式であることができる）と連結することによって実行されることができる。

【0101】

図６の構成が説明を容易にするために簡略化されており、他の層が他の構成に含まれることができることを理解されたい。例えば、オートエンコーダ６００は、エンコーダ６０８と変分部分６１２との間に少なくとも１つの全結合層を含むことができる。

【0102】

一例として、図６のものと同様の構成は、図５のシステム５００に使用されることができる。例えば、システム５００は、Ｕ字型マルチタスクネットワークを含むことができ、このＵ字型マルチタスクネットワークは、共有エンコーダ、及び２つの別個のデコーダ（場合によっては、画像特徴量を用いて第一及び第二デコーダのうちの少なくとも１つを条件付けしていないことがあるが、１つは第一デコーダ５２０を条件付けするためのものであり、もう１つは第二デコーダ５２２を条件付けするためのものである）を含むことができる。エンコーダは、ＫａｉｍｉｎｇＨｅｅｔａｌによる２０１５年の論文「ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」（該当する場合には参照により援用されている）に記述されるように、「ＲｅｓＮｅｔ」モデル（例えば、ＲｅｓＮｅｔ１０１）に基づくことができる。エンコーダは、ＩｍａｇｅＮｅｔ（該当する場合には参照により援用されている、２００９年、Ｄｅｎｇｅｔａｌによる「ＩｍａｇｅＮｅｔ：ＡＬａｒｇｅ－ＳｃａｌｅＨｉｅｒａｒｃｈｉｃａｌＩｍａｇｅＤａｔａｂａｓｅ」に記述されているような）などの１つ以上の画像データセットを用いてトレーニングされることができる。エンコーダは、実装の部分としてトレーニングされること、及び／または事前にトレーニングされたパラメータ値のセットを使用することのいずれかができる。デコーダは、例えば、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１７の抄録集に発表された、Ｇ．Ｌｉｎｅｔａｌ．による「ＲｅｆｉｎｅＮｅｔ：Ｍｕｌｔｉ－ＰａｔｈＲｅｆｉｎｅｍｅｎｔＮｅｔｗｏｒｋｓｆｏｒＨｉｇｈ－ＲｅｓｏｌｕｔｉｏｎＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ」（該当する場合には参照により援用されている）に記述されるような、ＲｅｆｉｎｅＮｅｔユニットを含むことができる。さらに、システム５００は、２つの変分オートエンコーダ（第一及び第二デコーダ５２０、５２２を提供する）を含むことができる。これらのオートエンコーダのエンコーダ部分は、決定される特性のグランドトゥルース値（例えば、セマンティックセグメンテーションまたはデプスマップ）が一般に利用できない場合、トレーニング中にのみ使用されることができるが、推論中に省略されることができる。これらの場合には、エンコーダ部分は、例えば、ＶＧＧ－ｌｉｋｅ完全畳み込み認識モデルであることができ、デコーダ部分は、例えば、線形生成モデルであることができる。

【0103】

このような例では、第一または第二デコーダ５２０、５２２は、線形デコーダであることができる。このアプローチを使用して、潜在表現と、この潜在表現に関連するセグメンテーションとの間の線形関係を取得することができ、この線形関係は、非線形方式で入力画像を用いて条件付けされる。この線形性により、例えば、最適化中などに使用される、ヤコビアンの事前計算ができる。したがって、この最適化は、その他のものよりもさらに迅速に実行されることができる。

【0104】

図７は、実施例による最適化方法７００を示す流れ図である。図７の項目７０２では、画像データを受信する。この場合には、画像データは、シーンの第一ビューを表す第一フレーム、及びシーンの第二ビューを表す第二フレームを含む。例えば図４及び５の入力インタフェース４０２、５０２などの入力インタフェースを使用して、画像データを受信することができる。

【0105】

図７の項目７０４では、例えば図４及び５の初期化エンジン４０６、５０６などの初期化エンジンを使用して、第一及び第二潜在表現Ｌ_１、Ｌ_２を取得する。この例では、第一潜在表現は、第一セグメンテーションに関連付けられ、この第一セグメンテーションは、シーンの第一ビューのセマンティックセグメンテーションである。この場合には、第二潜在表現は、第二セグメンテーションに関連付けられ、この第二セグメンテーションは、シーンの第二ビューのセマンティックセグメンテーションである。シーンの第一及び第二ビューは、互いに同じであっても、異なってもよい。これらの例では、第一及び第二潜在表現は、所定の表現、例えば、ゼロ表現である。

【0106】

図７の項目７０６では、例えば図２または３による最適化方法を実装する、例えば図４及び５の最適化エンジン４１２、５１２などの最適化エンジンを使用して、第一及び第二潜在表現を共同して最適化する。図７のこの例では、最適化は、第一潜在表現と第二潜在表現との間の差分を示すセマンティック誤差項の決定を含む。そのような差分は、２つの要素間の距離または非類似度を測定する、さまざまな関数の形式で表現されることができる。

【0107】

一例では、シーンの第一及び第二ビューＩ_１、Ｉ_２は、部分的に重複しているため、共通の視野を共有する。この例では、図４及び５の第一デコーダ４２０、５２０などのデコーダを使用して、第一及び第二潜在表現Ｌ_１、Ｌ_２を復号し、復号された第一及び第二潜在表現Ｌ_１ｄ、Ｌ_２ｄを取得することができる。復号された第一及び第二潜在表現Ｌ_１ｄ、Ｌ_２ｄは、例えば、正規化されていないため、デコーダから取得されるソフトマックス前の予測であることができる。復号された第一及び第二潜在表現を使用して、例えば、

【数7】

を使用して、セマンティック誤差項ｒ_ｓを決定することができる。式中、ＤＳはユークリッド距離関数などの差分関数を表し、Ｌ_１ｄ ^ｉはシーンの第一ビュー中の画像領域ｉについて復号された第一潜在表現を表し、Ｌ_２ｄ ^ｊはシーンの第二ビュー中の画像領域ｊについて復号された第二潜在表現を表す。シーンの第一ビュー中の画像領域ｉは、シーンの第二ビュー中の画像領域ｊに対応する。換言すれば、シーンの同じ部分は、画像領域ｉ及びｊの両方に存在している。シーンの第二ビュー中の画像領域ｊは、シーンの第一ビュー中の画像領域ｉに対応し、密な対応関数を使用して見いだされることができる。この密な対応関数は、例えば、第一ビューから第二ビューへのシーンの推定された相対的な剛体変換に基づく。

【0108】

図４及び５の最適化エンジン４１２、５１２などの最適化エンジンを使用して、セマンティック誤差項ｒ_ｓを決定することができ、このセマンティック誤差項ｒ_ｓを残差（例えば、図３の項目３１２で決定されるような）として使用することができる。このセマンティック誤差項ｒ_ｓを残差（例えば、図３の項目３１４を参照して記述されるような）として使用して、ヤコビアンを決定することができる。次に、このヤコビアンを使用して、二乗和関数などのセマンティック誤差項ｒ_ｓの関数を最小にする第一及び第二潜在表現の値を決定することができる。

【0109】

このプロセスは、例えば図３を参照して記述されるように、反復して実行されることができる。これに基づいて、図７の項目７０８では、セマンティック誤差項を最小にする第一潜在表現及び第二潜在表現の値を見いだすことができる。これらの値は、それぞれ最適化された第一及び第二潜在表現に対応することができる。ただし、場合によっては、最適化された第一及び第二潜在表現を取得するために、これらの値のさらなる最適化、またはさらなる処理を実行することができる。シーンの第一及び第二ビューにそれぞれ関連付けられる、最適化された第一及び第二セマンティックセグメンテーションは、例えば最適化された第一及び第二潜在表現を復号して正規化プロシージャを実行することによって、最適化された第一及び第二潜在表現から導出されることができる。

【0110】

図８は、さらなる実施例による最適化方法８００を示す流れ図である。図８の最適化方法８００は、図７の最適化方法７００に類似している。図７に類似して、図８の最適化方法８００は、最適化された第一及び第二潜在表現を取得するために使用されることができ、これら最適化された第一及び第二潜在表現は、それぞれシーンの第一及び第二ビューに関連する最適化された第一及び第二セマンティックセグメンテーションに関連付けられる。加えて、けれども、図８の最適化方法８００は、最適化された第三及び第四潜在表現を取得するために使用されることができ、これら最適化された第三及び第四潜在表現は、それぞれシーンの第一及び第二ビューに関連する最適化された第一及び第二デプスマップに関連付けられる。

【0111】

図８の項目８０２は、図７の項目７０２に類似しており、対応する説明が適用される。

【0112】

図８の項目８０４では、例えば図４及び５の初期化エンジン４０６、５０６などの初期化エンジンを使用して、第一及び第二潜在表現Ｌ_１、Ｌ_２を取得する。この例では、第一潜在表現は、シーンの第一ビューのセマンティックセグメンテーションである、第一セグメンテーションに関連付けられる。この場合には、第二潜在表現は、シーンの第二ビューのセマンティックセグメンテーションである、第二セグメンテーションに関連付けられる。シーンの第一及び第二ビューは、互いに同じであっても、異なってもよい。これらの例では、第一及び第二潜在表現は、ゼロ表現などの所定の表現である。

【0113】

また、図８の項目８０４は、シーンの第一ビューのデプスマップに関連する第三潜在表現Ｌ_３、及びシーンの第二ビューのデプスマップに関連する第四潜在表現Ｌ_４を取得することを含む。第三及び第四潜在表現Ｌ_３、Ｌ_４は、図４及び５の初期化エンジン４０６、５０６などの初期化エンジンを使用して取得されることができ、ゼロ表現などの所定の表現であることができる。

【0114】

図８による例において、潜在空間では第一、第二、第三及び第四潜在表現を共同して最適化し、最適化された第一及び第二潜在表現、ならびに最適化された第三及び第四潜在表現を取得する。そのような最適化は、図３の方法などの方法を使用して実行されることができ、図４及び５の最適化エンジン４１２、５１２などの最適化エンジンを使用して実装されることができる。

【0115】

特に、図８の例において、項目８０６では、潜在空間での第一、第二、第三及び第四潜在表現の共同最適化は、第一潜在表現と第二潜在表現との間の差分を示すセマンティック誤差項を決定することを含む。セマンティック誤差項は、図７の項目７０６を参照して記述されるように決定されることができる。

【0116】

この例において、項目８０８では、潜在空間での第一、第二、第三及び第四潜在表現の共同最適化は、第三潜在表現と第四潜在表現との間の差分を示す幾何学的誤差項ｒ_ｄを決定することも含む。幾何学的誤差項ｒ_ｄは、第一デプスマップＤ_１を使用して決定されることができ、この第一デプスマップＤ_１は、第三潜在表現を復号する（そして場合によっては、復号された第三潜在表現を正規化する）ことによって取得されることができる。第三潜在表現は、図４及び５の第二デコーダ４２２、５２２などのデコーダを使用して復号されることができ、このデコーダは、デプスマップの潜在表現を復号し、デプスマップを取得するようにトレーニングされている。この場合には、その上、幾何学的誤差項ｒ_ｄの決定は、第二デプスマップＤ_２を使用し、この第二デプスマップＤ_２は、第四潜在表現を復号する（そして場合によっては、復号された第四潜在表現を正規化する）ことによって取得されることができる。シーンの第一ビュー中の画像領域ｉについて、幾何学的誤差項ｒ_ｄは以下のように表現されることができる。

【0117】

【数8】

【0118】

式中、Ｄ_１ ^ｉはシーンの第一ビュー中の画像領域ｉについての深度値（第一デプスマップＤ_１から取得されるような）を表し、Ｄ_２ ^ｊはシーンの第二ビュー中の画像領域ｊについての深度値（第二デプスマップＤ_２から取得されるような）を表す。シーンの第一ビュー中の画像領域ｉは、シーンの第二ビュー中の画像領域ｊに対応する。この例では、幾何学的誤差項ｒ_ｄは、Ｄ_１ ^ｉとＤ_２ ^ｊとの間の差分である。ただし、他の場合には、幾何学的誤差項ｒ_ｄは、Ｄ_１ ^ｉ及びＤ_２ ^ｊに基づく差分関数（ユークリッド距離関数など）であってもよいし、この差分関数を含んでもよい。幾何学的誤差項ｒ_ｄは、図４及び５の最適化エンジン４１２、５１２などの最適化エンジンを使用して決定されることができ、残差（例えば、図３の項目３１２で決定されるような）として使用されることができる。

【0119】

図８の項目８１０では、セマンティック誤差項及び幾何学的誤差項を共同して最小にするように、第一、第二、第三及び第四潜在表現のそれぞれの値を決定する。この共同最適化は、残差として少なくともセマンティック誤差項及び幾何学的誤差項を使用してヤコビアンを評価することを含むことができる。次に、そのようなヤコビアンを使用して、二乗和関数など、これらの残差の関数を最小にする、第一、第二、第三及び第四潜在表現の値を決定することができる。この方法では、最適化された第一、第二、第三及び第四潜在表現を取得することができる。

【0120】

最適化されたセマンティックセグメンテーション及びデプスマップは、例えばこれらの表現を復号することによって、最適化された第一、第二、第三及び第四潜在表現から取得されることができる。例えば、最適化された第一及び第二潜在表現を復号して、それぞれシーンの第一及び第二ビューの最適化されたセマンティックセグメンテーションを取得することができる。最適化された第三及び第四潜在表現を復号し、それぞれシーンの第一及び第二ビューの最適化されたデプスマップを取得することができる。場合によっては、セマンティックセグメンテーションの入力された潜在表現からセマンティックセグメンテーションを取得するようにトレーニングされている第一デコーダを使用して、最適化された第一及び第二潜在表現を復号し、デプスマップの入力された潜在表現からデプスマップを取得するようにトレーニングされている第二デコーダを使用して、最適化された第三及び第四潜在表現を復号する。

【0121】

図９は、さらなる実施例による最適化方法９００を示す流れ図である。図９の最適化方法９００は、図８の最適化方法８００に類似している。ただし、図９の最適化方法９００は、画像データの第一及び第二フレームに関連する測光データに基づく最適化も含む。

【0122】

図９の項目９０２及び９０４は、それぞれ図８の項目８０２及び８０４に類似しており、対応する説明が適用される。

【0123】

項目９０６では、シーンの第一ビュー（第一フレーム中でキャプチャされるような）と、シーンの第二ビュー（第二フレーム中でキャプチャされるような）との間の光整合性（ｐｈｏｔｏ－ｃｏｎｓｉｓｔｅｎｃｙ）を示す測光誤差項を決定する。シーンの第一ビューの一部分は、色または強度値などの測光特性が類似している、または同じである、第二ビューの対応する部分と光整合性があるとみなされることができる。換言すれば、シーンの同じ部分は、シーンのこの部分の画像を取得するために使用されるカメラの視点に関係なく同様に、または同じに見えるはずである。測光誤差項は、例えば、第一ビューの所与の部分（例えば、第一ビューの画像領域ｉ）が第二ビューの対応する部分（例えば、第二ビューの画像領域ｊ）と光整合性がある程度の尺度を提供する。

【0124】

一例として、シーンの第一ビュー中の画像領域ｉについて、測光誤差項ｒ_ｐは以下のように表現されることができる。

【0125】

【数9】

【0126】

式中、Ｉ_１ ^ｉはシーンの第一ビュー中の画像領域ｉの強度を表し、Ｉ_２ ^ｊはシーンの第二ビュー中の画像領域ｊの強度を表す。シーンの第一ビュー中の画像領域ｉは、シーンの第二ビュー中の画像領域ｊに対応する。この強度は、例えば、シーンの所与の部分から受光する光の量の尺度である。画像領域ｉ、ｊがそれぞれ第一及び第二ビューの画素に各対応する一例では、第一及び第二フレーム中の画素ｉ、ｊの画素値は、測光誤差項を決定するための強度Ｉ_１ ^ｉ、Ｉ_２ ^ｊとみなされることができる。これは、一例に過ぎないが、他の場合には、測光誤差項は、輝度（例えば、シーンの明るさによって得られる視覚の尺度である）、または色（色空間に位置として表現されることができる）などの強度とは異なる測光特性に基づくことができる。この例では、測光誤差項ｒ_ｐは、Ｉ_１ ^ｉとＩ_２ ^ｊとの間の差分である。ただし、他の場合には、測光誤差項ｒ_ｐは、Ｉ_１ ^ｉ及びＩ_２ ^ｊに基づく差分関数（ユークリッド距離関数など）であっても、この差分関数を含んでもよい。測光誤差項ｒ_ｐは、図４及び５の最適化エンジン４１２、５１２などの最適化エンジンを使用して決定されることができる。

【0127】

図９の項目９０８は、第一潜在表現と第二潜在表現（それぞれシーンの第一及び第二ビューのセマンティックセグメンテーションに関連付けられる）との間の差分を示すセマンティック誤差項ｒ_ｓを決定することを含む。セマンティック誤差項ｒ_ｓは、図８の項目８０６を参照して記述されるように決定されることができる。

【0128】

図９の項目９１０は、第三潜在表現と第四潜在表現（それぞれシーンの第一及び第二ビューのデプスマップに関連付けられる）との間の差分を示す幾何学的誤差項ｒ_ｄを決定することを含む。幾何学的誤差項ｒ_ｄは、図８の項目８０８を参照して記述されるように決定されることができる。

【0129】

測光誤差項ｒ_ｐ、セマンティック誤差項ｒ_ｓ、及び幾何学的誤差項ｒ_ｄのうちの少なくとも１つを、残差（例えば、図３の項目３１２で決定されるような）として使用することができる。これらの残差のうちの１つ以上は、例えば、残差を使用するヤコビアンの決定と、図３の項目３１４及び３１６を参照して記述されるような残差の関数を最小にする第一、第二、第三及び第四潜在表現の値を決定するヤコビアンの使用とを含む、最適化プロシージャに使用されることができる。場合によっては、最適化プロセスは、これらの誤差項のうちの２つの少なくとも１つの共同最適化を含む。この最適化は、複数の最適化を含むことができる。これら複数の最適化は、単一の誤差項の最適化、または誤差項のうちの少なくとも２つの共同最適化を含むことができる。例えば、測光誤差項が決定される場合によっては、最適化は、測光誤差項を最小にする第一、第二、第三及び第四潜在表現のうちの少なくとも１つのそれぞれの値を決定することを含むことができる。測光誤差項を最小にすることによって、カメラの姿勢（例えば、第一及び第二フレームのキャプチャ中の）をより正確に決定することができる。

【0130】

図９の例は、項目９１２では、測光誤差項及び幾何学的誤差項を共同して最小にする第三及び第四潜在表現の値を決定することを含む。したがって、図９の項目９１２は、測光誤差項及び幾何学的誤差項に基づいてヤコビアンを決定することと、このヤコビアンを使用して、測光及び幾何学的誤差項の関数を最小にする第三及び第四潜在表現の値を決定することとを含むことができる。

【0131】

図９の項目９１４では、例えば、共同最適化プロセスを使用して、セマンティック誤差項を最小にする第一及び第二潜在表現の値を決定する。したがって、図９の項目９１４は図７の項目７０８に類似していることができる。

【0132】

最後に、図９の項目９１６では、セマンティック誤差項及び幾何学的誤差項を共同して最小にする、第一、第二、第三及び第四潜在表現の値を決定する。したがって、図９の項目９１６は、セマンティック誤差項及び幾何学的誤差項に基づいてヤコビアンを決定することと、このヤコビアンを使用して、セマンティック及び幾何学的誤差項の関数を最小にする、第一、第二、第三及び第四潜在表現の値を決定することとを含むことができる。項目９１４で取得される第一及び第二潜在表現の最適化された値、ならびに項目９１２で取得される第三及び第四潜在表現の最適化された値を、項目９１６の最適化への入力として使用することができる。この方法では、ジオメトリ及びセマンティクスの両方を最適化フレームワークにおいて結合することができ、この最適化フレームワークは、第三及び第四潜在表現から導出される幾何学的推定値（例えば、デプスマップ）と、第一及び第二潜在表現から導出されるセマンティック推定値（例えば、セマンティックセグメンテーション）との両方を改善することができる。

【0133】

図７から９は、本明細書では方法を使用して決定されることができる潜在表現の例に過ぎない。これらの方法が他の潜在表現を取得するために使用されることができることを理解されたい。例えば、場合によっては、第一潜在表現はシーンの第一ビューのセマンティックセグメンテーションに関連付けられることができ、第二潜在表現はシーンの第二ビューについてのデプスマップに関連付けられることができる。

【0134】

図１０Ａは、本明細書に記述される方法のいずれかを実装するために使用されることができるコンピューティングシステム１０００のコンポーネントを示す概略図である。コンピューティングシステム１０００は、単一のコンピューティングデバイス（例えば、デスクトップ、ラップトップ、モバイル及び／または組み込みコンピューティングデバイス）であっても、分散コンピューティングシステムであってもよく、この分散コンピューティングシステムは、複数のディスクリートコンピューティングデバイスに分散される（例えば、ある特定のコンポーネントはネットワーク経由で行われる１つ以上のクライアントコンピューティングデバイスからの要求に基づいて１つ以上のサーバコンピューティングデバイスによって実装されることができる）。

【0135】

コンピューティングシステム１０００は、カメラ１００２を含み、この場合には、カメラは、例えばシーンの観測値を有する、ビデオフレームを提供するように構成されるビデオカメラである。コンピューティングシステム１０００は、本明細書に記述されるものによる方法を実装するように構成される、画像処理システム１００４を含む。図１０Ａでは、画像処理システム１００４は、カメラ１００２によって取得される画像データを処理して、シーンの少なくとも１つのビューの最適化されたセグメンテーション、例えばセマンティックセグメンテーションを取得するように構成される。ある場合には、画像処理システム１００４は、シーンの第一ビューの最適化された第一セグメンテーション、及びシーンの第二ビューの最適化された第二セグメンテーションを取得するように構成される。最適化された第一及び第二セグメンテーションは、例えば、セマンティックセグメンテーションである。画像処理システム１００４は、その上、他の最適化されたセグメンテーションまたはマップ、例えばシーンの少なくとも１つのビューについて最適化されたデプスマップなどを取得するように構成されることができる。

【0136】

また、コンピューティングシステム１０００は、シーンの観測中にカメラ１００２の姿勢を決定するように構成される追跡システム１００６を含む。コンピューティングシステム１０００は、マッピングシステム１００８を含み、このマッピングシステム１００８は、画像処理システム１００４が取得する最適化されたセグメンテーションまたはマップをシーンのマップに読み込むように構成される。図１０Ａでは、マッピングシステム１００８は、シーンの第一ビューの最適化された第一セグメンテーション、及びシーンの第一ビューのキャプチャ中のカメラの第一姿勢を表す第一姿勢データ、ならびにシーンの第二ビューの最適化された第二セグメンテーション、及びシーンの第二ビューのキャプチャ中のカメラの姿勢を表す第二姿勢データのうちの少なくとも１つをシーンのマップに読み込むように構成される。

【0137】

追跡システム及びマッピングシステム１００６、１００８は、同時ローカライゼーションとマッピング（ＳＬＡＭ）システムの部分を形成することができる。ロボットマッピング及びナビゲーションの分野におけるＳＬＡＭシステムは、未知の環境のマップを構築して更新すると同時に、この環境内のマップに関連するロボットデバイスを位置特定する。例えば、ロボットデバイスは、マップを構築している、更新している、及び／または使用しているデバイスであることができる。

【0138】

図１０Ｂは、一実施例によるロボットデバイス１０１０のコンポーネントを示す概略図である。ロボットデバイス１０１０は、図１０Ａのコンピューティングシステム１０００を含む。また、ロボットデバイス１０１０は、ロボットデバイス１０１０が周囲の３次元環境とインタラクトすることを可能にする、１つ以上のアクチュエータ１０１２を含む。周囲の３次元環境の少なくとも一部分は、コンピューティングシステム１０００のカメラ１００２によってキャプチャされるシーンに示されることができる。図１０Ｂの場合には、ロボットデバイス１０１０が特定の環境をナビゲートする場合（例えば、図１Ａ中のデバイス１３０のように）、ロボットデバイス１０１０は、ビデオデータ形式などで、画像データをキャプチャするように構成されることができる。別の場合には、けれども、ロボットデバイス１０１０は、環境を走査することができる、またはモバイルデバイスもしくは別のロボットデバイスを用いるユーザなどの第三者から受信する画像データに基づいて動作することができる。ロボットデバイス１０１０は、画像データを処理すると、セグメンテーション及び／またはマップ（例えば、セマンティックセグメンテーションまたはデプスマップ）を導出することができる最適化された潜在表現を取得し、例えば、ロボットデバイス１０１０がその環境をマッピングすることを可能にするように構成されることができる。

【0139】

また、ロボットデバイス１０１０は、１つ以上のアクチュエータ１０１２を制御する少なくとも１つのプロセッサを有するインタラクションエンジン１０１４を含む。図１０Ｂのインタラクションエンジン１０１４は、ロボットデバイス１０１０によって取得されるセグメンテーション及び／またはマップを使用して、周囲の３次元環境とインタラクトするようにロボットデバイス１０１０を制御するように構成されることができる。例えば、セマンティックセグメンテーションを使用して、把持される環境内の特定のオブジェクトを識別することができる、またはデプスマップを使用して、把持されるオブジェクトの位置を識別することができる、及び／または壁などの障害物との衝突を回避することができる。

【0140】

図１０Ａ及び１０Ｂを参照して本明細書に記述されるような機能コンポーネントの例は、専用の処理用電子機器を含むことができる、及び／または少なくとも１つのコンピューティングデバイスのプロセッサによって実行されるコンピュータプログラムコードとして実装されることができる。ある特定の場合には、１つ以上の組み込みコンピューティングデバイスを使用することができる。本明細書に記述されるようなコンポーネントは、コンピュータ可読媒体上にロードされるコンピュータプログラムコードを実行するために、メモリと共に動作する少なくとも１つのプロセッサを含むことができる。この媒体は、消去可能でプログラム可能な読み出し専用メモリなどのソリッドステートストレージを含んでもよく、コンピュータプログラムコードは、ファームウェアを含んでもよい。他の場合には、コンポーネントは、適切に設定されたシステムオンチップ、特定用途向け集積回路、及び／または１つ以上の適切にプログラムされたフィールドプログラマブルゲートアレイを含んでもよい。ある場合には、コンポーネントは、モバイルコンピューティングデバイス及び／またはデスクトップコンピューティングデバイスにコンピュータプログラムコード及び／または専用の処理用電子機器として実装されてもよい。ある場合には、コンポーネントは、コンピュータプログラムコードを実行する１つ以上のグラフィカルプロセッシングユニットによって、前の場合と同様に、または前の場合の代替に、実装されてもよい。ある特定の場合には、コンポーネントは、例えば複数のプロセッサ、及び／またはグラフィックスプロセッシングユニットのコアなどの上で、並列に実装される１つ以上の機能として実装されることができる。

【0141】

図１１は、プロセッサ１１０２、及びコンピュータ実行可能命令１１０４を含む非一時的なコンピュータ可読記憶媒体１１０４の一例１１００を示す概略図である。コンピュータ実行可能命令１１０４は、プロセッサ１１０２によって実行されると、プロセッサ１１０２を含むコンピューティングデバイスなどのコンピューティングデバイスに、シーンのビュー（例えば、画像データにキャプチャされるような）に関連する少なくとも１つの潜在表現を取得させる。これらの命令により、上述される例示的な方法に類似している方法が実行されることができる。例えば、コンピュータ可読記憶媒体１１０６は、シーンの観測値を表す画像データ１１０８を保存するように構成されることができる。コンピュータ実行可能命令１１０４は、プロセッサ１１０２によって実行されると、コンピューティングデバイスに、画像データ１１０８を処理させ、少なくとも１つの最適化された潜在表現１１１０を生成させるように構成されることができ、この少なくとも１つの最適化された潜在表現１１１０は、コンピュータ可読記憶媒体１１０６に保存されることができる。図１１では、画像データ１１０８及び最適化された潜在表現１１１０をコンピュータ可読記憶媒体１１０６に保存するように示しているが、他の例では、コンピュータ可読記憶媒体１１０６の外部にある（けれども、コンピュータ可読記憶媒体によってアクセス可能である）ストレージに、画像データ１１０８及び最適化された潜在表現１１１０のうちの少なくとも１つを保存することができる。

【0142】

本明細書ではさらなる例は、入力画像のセマンティックセグメンテーションを予測するような潜在表現エンジンのトレーニングに関する。これらの例は、図１２から１４を参照してここでは記述される。

【0143】

図１２は、実施例による、トレーニング中の潜在表現予測エンジン１２００の概略図である。潜在表現予測エンジン１２００は、画像データ１２０２を受信する。この場合に、画像データ１２０２は、トレーニングデータであり、このトレーニングデータを使用して、潜在表現予測エンジン１２００が入力画像のセマンティックセグメンテーションを予測するようにトレーニングする。この例では、画像データ１２０２は、例えば画素値の２Ｄアレイ（画素強度値など）として、入力画像を表す画像データを含む。例えば、画像は、カラー画像であることができる。この画像データは、潜在表現予測エンジン１２００の特徴量識別エンジン１２０４によって処理される。特徴量識別エンジン１２０４は、入力画像の画像特徴量１２０６を検出する（例えば、画像データ１２０２を処理することによって）ように構成される。図１２の特徴量識別エンジン１２０４及び画像特徴量１２０６は、図５の特徴量識別エンジン５３２及び画像特徴量５３４に類似していても、これらと同じであってもよく、対応する説明が適用される。

【0144】

画像データ１２０２に戻り参照して、図１２の例での画像データ１２０２は、入力画像のグランドトゥルースセマンティックセグメンテーション１２０８も含む。グランドトゥルースセマンティックセグメンテーションは、例えば、入力画像のそれぞれの部分に各関連する、複数の空間要素を含む。空間要素のそれぞれは、セマンティックラベルによってラベル付けされ、このセマンティックラベルは、入力画像のそれぞれの部分の実際のコンテンツを示す。実際のコンテンツは、例えば、「テーブル」、「ベッド」、「椅子」など、入力画像の部分に存在するオブジェクトのタイプまたはクラスである。セマンティックラベルは、テキストラベル（例えば、ストリング）である必要はないが、代替に、それにもかかわらず特定のクラスのオブジェクトを示す数値または他のラベルであることができる。グランドトゥルースセマンティックセグメンテーション１２０８の空間要素と、入力画像の画素との間で１対１マッピングである必要はないが、１対１マッピングがあってもよい。

【0145】

また、図１２の画像データ１２０２は、入力画像のグランドトゥルースデプスマップ１２１０を含む。グランドトゥルースデプスマップ１２１０は、グランドトゥルースセマンティックセグメンテーション１２０８に類似していてもよいが、セマンティックラベルよりもむしろ深度値を含むことができる。グランドトゥルースセマンティックセグメンテーション１２０８に関しては、グランドトゥルースデプスマップ１２１０の深度要素と、入力画像の画素との間で１対１マッピングである必要はないが、１対１マッピングがあってもよい。

【0146】

グランドトゥルースセマンティックセグメンテーション及びデプスマップ１２０８、１２１０は、潜在表現予測エンジン１２００のエンコーダシステム１２１２によって処理される。この例では、エンコーダシステム１２１２は、第一エンコーダ１２１４及び第二エンコーダ１２１６を含む。第一エンコーダ１２１４は、グランドトゥルースセマンティックセグメンテーション１２０８を符号化して、グランドトゥルースセマンティックセグメンテーション１２０８の潜在表現を生成するようにトレーニングされる。第二エンコーダ１２１６は、グランドトゥルースデプスマップ１２１０を符号化して、グランドトゥルースデプスマップ１２１０の潜在表現を生成するようにトレーニングされる。この例では、第一エンコーダ１２１４及び第二エンコーダ１２１６は、特徴量識別エンジン１２０４によって取得される画像特徴量１２０６を使用して各条件付けされ、図６のエンコーダ６０８に類似していても、これと同じであってもよい。例えば、第一エンコーダ１２１４は、符号化された出力を複数の異なる解像度のそれぞれで生成するように構成されることができ、画像特徴量１２０６は、複数の異なる解像度のそれぞれにあることができる。この場合には、第一エンコーダ１２１４は、複数の異なる解像度のそれぞれについて、例えば連結を使用して、所与の解像度についての画像特徴量１２０６を、所与の解像度について符号化された出力と組み合わせることによって、画像特徴量１２０６を用いて条件付けされることができる。他の例では、けれども、第二エンコーダ１２１６は、画像特徴量１２０６を使用して条件付けされていないことがある。第二エンコーダ１２１６は、構造では第一エンコーダ１２１４に類似していても、これとは異なってもよい。

【0147】

図１２の第一エンコーダ１２１４は、グランドトゥルースセマンティックセグメンテーション１２０８の潜在表現である、第一潜在表現１２１８を出力する。第二エンコーダ１２１６は、グランドトゥルースデプスマップ１２１０の潜在表現である、第二潜在表現１２２０を出力する。

【0148】

第一及び第二潜在表現１２１８、１２２０は、図１２のデコーダシステム１２２２を使用して処理される。デコーダシステム１２２２は、第一デコーダ１２２４及び第二デコーダ１２２６を含む。第一デコーダ１２２４は、グランドトゥルースセマンティックセグメンテーション１２０８の潜在表現を復号して、入力画像の予測されたセマンティックセグメンテーションを取得するようにトレーニングされる。第二デコーダ１２２６は、グランドトゥルースデプスマップ１２１０の潜在表現を復号して、入力画像の予測されたデプスマップを取得するようにトレーニングされる。第一デコーダ１２２４及び第二デコーダ１２２６は、特徴量識別エンジン１２０４によって取得される画像特徴量１２０６を使用して各条件付けされ、図６のデコーダ６１０に類似していても、これと同じであってもよい。例えば、第一デコーダ１２２４は、復号された出力を複数の異なる解像度のそれぞれで生成するように構成されることができ、画像特徴量１２０６は、複数の異なる解像度のそれぞれにあることができる。この場合には、第一デコーダ１２２４は、複数の異なる解像度のそれぞれについて、例えば連結を使用して、所与の解像度についての画像特徴量１２０６を、所与の解像度について復号された出力と組み合わせることによって、画像特徴量１２０６を用いて条件付けされることができる。第二デコーダ１２２６は、構造では第一デコーダ１２２４に類似していても、これとは異なってもよい。例えば、場合によっては、第二デコーダ１２２６は、画像特徴量１２０６を使用して条件付けされないことがある。さらに、場合によっては、第一及び／または第二デコーダ１２２４、１２２６は、第一及び／または第二エンコーダ１２１４、１２１６が画像特徴量１２０６を使用して条件付けされることなく、画像特徴量１２０６を使用して条件付けされることができる。特定の場合に、第一及び第二デコーダ１２２４、１２２６のそれぞれは、画像特徴量１２０６を使用して条件付けされ、第一及び第二エンコーダ１２１４、１２１６のいずれも、画像特徴量１２０６を使用して条件付けされないが、これは一例に過ぎない。

【0149】

この例では、第一エンコーダ１２１４及び第一デコーダ１２２４は、第一オートエンコーダに対応し、この第一オートエンコーダは、入力画像のセマンティックセグメンテーションを自己符号化するようにトレーニングされる。この例では、第二エンコーダ１２１６及び第二デコーダ１２２６は、第二オートエンコーダに対応し、この第二オートエンコーダは、入力画像のデプスマップを自己符号化するようにトレーニングされる。図６を参照して説明されるように、オートエンコーダは、オートエンコーダのエンコーダまたはデコーダのうちの少なくとも１つが画像特徴量を使用して条件付けされる場合、画像特徴量を使用して条件付けされるとみなされることができる。したがって、図１２の例では、第一オートエンコーダ及び第二オートエンコーダの両方は、画像特徴量を使用して条件付けされている。

【0150】

図６を参照して記述されるように、第一及び第二オートエンコーダは、変分オートエンコーダであり、オートエンコーダの潜在表現と出力との間のマッピングの平滑性を改善することができる。例えば、第一エンコーダ１２１４及び第一デコーダ１２２４は、図６を参照して説明されるように、入力画像の入力されたセマンティックセグメンテーションの変分自己符号化を実行するようにトレーニングされることができる。場合によっては、第一デコーダ１２２４及び／または第二デコーダ１２２６は、デコーダシステム１２２２が線形デコーダを含むように線形デコーダであることができる。

【0151】

第一デコーダ１２２４は、入力画像の予測されたセマンティックセグメンテーション１２２８を出力するように構成され、第二デコーダ１２２６は、入力画像の予測されたデプスマップ１２３０を出力するように構成される。予測されたセマンティックセグメンテーション１２２８及び予測されたデプスマップ１２３０は、正規化されたセマンティックセグメンテーションまたはデプスマップであることができる。正規化は、デコーダシステム１２２２によって（例えば、第一デコーダ１２２４及び／または第二デコーダ１２２６によって）、または別のコンポーネントによって実行されることができる。

【0152】

予測されたセマンティックセグメンテーション１２２８を使用して、第一エンコーダ１２１４及び第一デコーダ１２２４に関連する重みまたは他のパラメータを調整することで、第一エンコーダ及びデコーダ１２１４、１２２４が入力されたセマンティックセグメンテーションをより正確に自己符号化するようにトレーニングすることができる。例えば、潜在表現予測エンジン１２００は、予測されたセマンティックセグメンテーション１２２８と、グランドトゥルースセマンティックセグメンテーション１２０８との間の比較に基づく損失関数を使用して更新されることができる。

【0153】

同様の方法で、第二エンコーダ１２１６及び第二デコーダ１２２６に関連する重みを更新することができる。例えば、潜在表現予測エンジン１２００は、予測されたセマンティックセグメンテーション１２２８と、グランドトゥルースセマンティックセグメンテーション１２０８との間の比較に基づく損失関数を使用して更新されることができる。

【0154】

次に、さらなる入力画像は、更新された重みを有するエンコーダシステム１２１２及びデコーダシステム１２２２を使用して処理されることができ、これらの重みは、同様の方法で再度、更新されることができる。このプロセスは、入力画像データ及びグランドトゥルースセマンティックセグメンテーション及び／またはグランドトゥルース深度データの対を含むトレーニングデータセットを使用して、繰り返し実行されることができる。この方法では、潜在表現予測エンジン１２００は、セマンティックセグメンテーションに関連する入力された潜在表現を復号してセマンティックセグメンテーションを取得する（例えば、第一デコーダ１２２４を使用して）ように、そしてデプスマップに関連する入力された潜在表現を復号してデプスマップを取得する（例えば、第二デコーダ１２２６を使用して）ようにトレーニングされることができる。したがって、第一及び第二デコーダ１２２４、１２２６は、図３から１１を参照して上述される方法では、最適化された潜在表現を取得すること、及び／または最適化されたセグメンテーションまたはマップを取得することができる。

【0155】

図１２が潜在表現予測エンジン１２００の一例に過ぎないことを理解されたい。他の場合には、特徴量識別エンジン１２０４を省略してもよい。それらのような場合には、エンコーダシステム１２１２及びデコーダシステム１２２２は、画像特徴量１２０６を用いて条件付けされる必要はない。さらに、図１２の潜在表現予測エンジン１２００が入力画像に関連するセマンティックセグメンテーション及びデプスマップを予測するように構成されるが、他の場合には、潜在表現予測エンジンは、セマンティックセグメンテーションまたはデプスマップの１つのみを予測するように構成されてもよい（または異なるセグメンテーションもしくはマップを予測するように構成されてもよい）。例えば、ある場合には、潜在表現予測エンジン１２００は、予測されたデプスマップ１２３０を取得することなく、予測されたセマンティックセグメンテーション１２２８を取得するように構成される。この場合には、画像データ１２０２は、グランドトゥルースデプスマップ１２１０を含まなくてもよく、第二エンコーダ１２１６及び第二デコーダ１２２６は、省略されてもよい。この場合には、第一エンコーダ１２１４または第一デコーダ１２２４のうちの少なくとも１つは、セマンティックセグメンテーションを自己符号化するオートエンコーダ（この場合には第一エンコーダ１２１４及び第一デコーダ１２２４を含む）が画像特徴量１２０６を使用して条件付けされるように、画像特徴量１２０６を使用して条件付けされることができる。

【0156】

図１３は、実施例による潜在表現予測エンジンをトレーニングする方法１３００を示す流れ図である。図１３の方法１３００に、図１２の潜在表現予測エンジン１２００を、または同様の潜在表現予測エンジンを使用することができるが、第二エンコーダ及びデコーダ１２１６、１２２６を使用することが省略されてもよい。方法１３００は、本明細書に記述されるような最適化された潜在表現を取得する方法を実行する（例えば、方法１３００を使用してトレーニングされることができるデコーダシステムを使用する）前に、コンフィグレーションステージで実行されることができる。

【0157】

図１３の項目１３０２では、画像の画像特徴量を検出する。これは、図１２の特徴量識別エンジン１２０４を使用して実行されることができる。この場合には、画像は、画像データによって表現され、この画像データは、例えば、複数の異なるシーンについてのサンプルを含むトレーニングデータである。トレーニングデータの各サンプルは、シーンを表す測光データ（画像特徴量を検出するために処理されることができる）、及びシーンの少なくとも１つのグランドトゥルースセグメンテーションまたはマップを含むことができる。

【0158】

図１３の項目１３０４では、エンコーダを使用して、画像のグランドトゥルースセマンティックセグメンテーションを符号化する。このエンコーダ、例えば図１２の第一エンコーダ１２１４は、画像特徴量を使用して条件付けされることができるが、そのように条件付けされる必要はない。この方法では、グランドトゥルースセマンティックセグメンテーションの潜在表現を取得することができる。

【0159】

図１３の項目１３０６では、デコーダを使用してグランドトゥルースセマンティックセグメンテーションの潜在表現を復号し、画像の予測されたセマンティックセグメンテーションを取得する。この場合には、デコーダは、画像特徴量を使用して条件付けされ、図１２の第一デコーダ１２２４に類似していても、これと同じであってもよい。

【0160】

図１３の項目１３０８では、画像の予測されたセマンティックセグメンテーションと、画像のグランドトゥルースセマンティックセグメンテーションとの間の比較に基づく損失関数を使用して、潜在表現予測エンジンを更新する。この場合には、潜在表現予測エンジンは、エンコーダシステム及びデコーダシステムを含み、ニューラルネットワークアーキテクチャを含んでもよい。一般に、損失関数は、予測値とグランドトゥルース値との間の差分の尺度を提供し、さまざまな形式をとることができる。例えば、損失関数は、予測されたセマンティックセグメンテーションと、グランドトゥルースセマンティックセグメンテーションとの間の二乗誤差を含んでもよい。

【0161】

損失関数は、再構成項（時として再構成損失と称される）を含むことができ、この再構成項は、潜在表現予測エンジンが入力（例えば、所与のサンプルについてのグランドトゥルースセマンティックセグメンテーション）を正確に自己符号化することを学習するように制約する。一例として、離散した数であってもよい、グランドトゥルースセマンティックセグメンテーションのセグメンテーションラベルは、潜在表現予測エンジンによって処理される前にワンホットエンコードされることができる。そのような場合には、多クラス交差エントロピー関数を再構成損失Ｒ：

【数10】

として使用することができる。式中、Ｃはクラス数であり、ｋ_ｃ ^（ｉ）はグランドトゥルースセマンティックセグメンテーションでｉ番目の画素についてワンホットエンコードされたセマンティックラベルのｃ番目の要素であり、ｐ_ｃ ^（ｉ）はｉ番目の画素について予測されたセマンティックセグメンテーション（例えば、正規化後のデコーダシステムの出力である）である。ただし、これは一例に過ぎず、他の場合には他の再構成項を使用することができる。

【0162】

また、損失関数は、正則化項（時として正則化損失と称される）を含むことができ、この正則化項は、潜在表現予測エンジンが意味のある潜在空間内で潜在表現を予測することを学習するように制約する（例えば、潜在空間では互いにより近い潜在表現がさらに離れている潜在表現よりも類似しているように）。一例として、正則化項は、例えば、２０１４年のＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ）の抄録集に発表されたＤ．Ｐ．Ｋｉｎｇｍａ及びＪ．Ｂａ．Ａｄａｍによる「Ａｕｔｏ－ＥｎｃｏｄｉｎｇＶａｒｉａｔｉｏｎａｌＢａｙｅｓ」に説明されるように、カルバックライブラーダイバージェンスに基づくことができる。

【0163】

潜在表現予測エンジンのために１セットのパラメータ値（例えば、ニューラルネットワークアーキテクチャに関連する重み）を決定し、セマンティックセグメンテーションに関連する潜在表現からセマンティックセグメンテーションを予測することができるまで、項目１３０２から１３０８を複数のサンプルに繰り返すことができる。

【0164】

図１４は、実施例による潜在表現予測エンジンをトレーニングする方法１４００を示す流れ図である。図１４の方法１４００が入力画像のセマンティックセグメンテーション及びデプスマップの両方を予測するように潜在表現予測エンジンをトレーニングするために使用されることができることを除き、図１４の方法１４００は、図１３の方法１３００に類似している。図１４の方法１４００に図１２の潜在表現予測エンジン１２００を使用することができるが、他の例では他のエンジンを使用することができる。方法１４００は、本明細書に記述されるように最適化された潜在表現を取得する方法を実行する（例えば、方法１４００を使用してトレーニングされることができるデコーダシステムを使用する）前に、コンフィグレーションステージに実行されることができる。

【0165】

図１４の項目１４０２から１４０６は、図１３の項目１３０２から１３０６と同じであり、対応する説明が適用される。

【0166】

図１４の項目１４０８は、図１３の項目１３０８に類似している。ただし、潜在表現予測エンジンがデプスマップを予測するようにトレーニングするために、図１４の方法１４００が第二損失関数の使用（項目１４１４を参照して記述される）も伴う場合、１４０８の損失関数は、この場合には第一損失関数である。

【0167】

図１４の項目１４１０では、画像（画像特徴量が項目１４０２で検出される）に関連するグランドトゥルースデプスマップを決定する。エンコーダシステムを使用してグランドトゥルースデプスマップを決定し、グランドトゥルースデプスマップの潜在表現を取得する。この場合には、エンコーダシステムを使用して、グランドトゥルースセマンティックセグメンテーション及びグランドトゥルースデプスマップの両方の潜在表現を取得する。ただし、グランドトゥルースセマンティックセグメンテーションの潜在表現はエンコーダシステムの第一エンコーダを使用して取得されることができるが、グランドトゥルースデプスマップの潜在表現はデコーダシステムの第二エンコーダを使用して取得されることができる。第一エンコーダ及び／または第二エンコーダは、画像特徴量を用いて条件付けされることができるが、条件付けされる必要はない。

【0168】

図１４の項目１４１２では、グランドトゥルースデプスマップの潜在表現は、デコーダシステムを使用して、画像について予測されたデプスマップを取得する。この場合には、デコーダシステムを使用して、グランドトゥルースセマンティックセグメンテーション及びグランドトゥルースデプスマップの両方の潜在表現を取得する。ただし、グランドトゥルースセマンティックセグメンテーションの潜在表現はデコーダシステムの第一デコーダを使用して取得されることができるが、グランドトゥルースデプスマップの潜在表現はデコーダシステムの第二デコーダを使用して取得されることができる。第一デコーダ及び第二デコーダのうちの少なくとも１つは、画像特徴量を用いて条件付けされることができる。

【0169】

図１４の項目１４１４では、潜在表現予測エンジンは、予測されたデプスマップと、グランドトゥルースデプスマップとの間の比較に基づく第二損失関数を使用して更新される。第一損失関数に関しては、第二損失関数は、再構成項及び／または正則化項を含むことができる。ただし、再構成項は、例えば、予測されたデプスマップと、グランドトゥルースデプスマップとの間の差分を表す。一例として、次式は、第二損失関数についての再構成損失Ｒ_２として使用されることができる。

【0170】

【数11】

【0171】

式中、Ｎはデプスマップ中の画素数であり、

【数12】

は画素ｉの予測された深度であり、ｐ_ｉは画素ｉのグランドトゥルース深度であり、ｂ_ｉは画素ｉの予測された不確かさである（例えば、第二デコーダによって予測されるような）。ただし、これは一例に過ぎず、他の場合には他の再構成項を使用することができる。

【0172】

潜在表現予測エンジンについて１セットのパラメータ値（例えば、ニューラルネットワークアーキテクチャに関連する重み）を決定し、セマンティックセグメンテーションに関連する潜在表現からセマンティックセグメンテーション、または深度に関連する潜在表現からデプスマップを予測することができるまで、項目１４１０から１４１４を複数のサンプルに繰り返すことができる。

【0173】

場合によっては、潜在表現予測エンジンは、セマンティックセグメンテーション及びデプスマップを自己符号化するように共同してトレーニングされることができる。それらのような場合には、例えば第一損失関数及び第二損失関数の関数である、組み合わされた損失関数は、潜在表現予測エンジンについてのパラメータ値を更新するために最小にされることができる。

【0174】

上記の実施形態を例示として理解されたい。さらなる例は想起される。最適化された第一及び第二潜在表現（または本明細書に記述されるようなシーンの他の表現）がビデオフレームごとに取得される必要がなく、代替にキーフレームなどのフレームのサブセットに実行されることができることを理解されたい。

【0175】

いずれかの一例に関して記述されるいずれかの特徴が単独で、または記述される他の特徴と組み合わせて使用されることができ、そのうえ、いずれかの他の例の１つ以上の特徴と組み合わせて、またはいずれかの他の例のいずれかの組み合わせで使用されることができることを理解されたい。さらに、上述されていない均等物及び修正形態もまた、添付の特許請求の範囲から逸脱することなく用いられることができる。

【符号の説明】

【0176】

1102 プロセッサ
1106 コンピュータ可読記憶媒体

【図1A】