特開2024-56655 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧 ▶ ネイバーラボス　コーポレーションの特許一覧

特開2024-56655幾何学的ビジョンモデルの教師なし事前学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024056655

(43)【公開日】2024-04-23

(54)【発明の名称】幾何学的ビジョンモデルの教師なし事前学習

(51)【国際特許分類】

G06T 7/00 20170101AFI20240416BHJP

【ＦＩ】

G06T7/00 350B

【審査請求】有

【請求項の数】24

【出願形態】ＯＬ

(21)【出願番号】P 2023175164

(22)【出願日】2023-10-10

(31)【優先権主張番号】22306534.3

(32)【優先日】2022-10-11

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】18/230414

(32)【優先日】2023-08-04

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＳＷＩＦＴ

２．ＳＭＡＬＬＴＡＬＫ

３．ＭＡＴＬＡＢ

４．ＳＩＭＵＬＩＮＫ

(71)【出願人】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(71)【出願人】

【識別番号】319012978

【氏名又は名称】ネイバーラボスコーポレーション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ブレジエ，ロマン

(72)【発明者】

【氏名】カボン，ヨハン

(72)【発明者】

【氏名】ルーカス，トマス

(72)【発明者】

【氏名】レヴォー，ジェローム

(72)【発明者】

【氏名】ヴァインザエペル，フィリップ

(72)【発明者】

【氏名】チドロフスキー，ボリス

(72)【発明者】

【氏名】ルロイ，ヴァンサン

(72)【発明者】

【氏名】アンツフェルド，レオニッド

(72)【発明者】

【氏名】ケダリクスルカ，ガブリエラ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA04

5L096CA05

5L096DA02

5L096FA66

5L096GA10

5L096HA11

5L096KA04

(57)【要約】

【課題】幾何学的ビジョンタスクのための機械学習モデルを訓練するための方法を開示する。
【解決手段】開示される方法は、エンコーダおよびデコーダを含むモデルの教師なし事前学習を実行する段階、および幾何学的ビジョンタスクのために、事前学習されたエンコーダパラメータのセットで初期化されたモデルを微調整する段階を含み、モデルの教師なし事前学習を実行する段階は、異なる条件または異なる時点で第１画像および第２画像を取得する段階、エンコーダによって、第１画像を第１画像表現にエンコードし、第２画像を第２画像表現にエンコードする段階、第１画像表現を変換された表現に変換する段階、デコーダによって、変換された表現を再構成された画像にデコードする段階、および損失の最小化に基づいて、エンコーダおよびデコーダのうちの少なくとも１以上のパラメータを調整する段階を含み、第１画像表現を変換する段階および変換された表現をデコードする段階は、第１画像表現および第２画像表現に基づく。
【選択図】図１

【特許請求の範囲】

【請求項1】

幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練するコンピュータ実現機械学習方法であって、
当該方法は、
エンコーダパラメータのセットを有するエンコーダとデコーダパラメータのセットを有するデコーダを含む機械学習モデルの教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）事前学習を実行する段階、
前記事前学習された機械学習モデルに基づいて、前記幾何学的下流ビジョンタスクのための、タスク特定エンコーダパラメータのセットを有するタスク特定エンコーダを含む前記タスク特定機械学習モデルを構成する段階、
前記事前学習された機械学習モデルの前記エンコーダパラメータのセットで前記タスク特定エンコーダパラメータのセットを初期化する段階、
前記幾何学的下流ビジョンタスクのために、前記エンコーダパラメータのセットで初期化された前記タスク特定機械学習モデルを微調整する段階
を含み、
前記機械学習モデルの前記教師なし事前学習を実行する段階は、
同じシーンを描写し、異なる条件または異なる視点で撮影された第１画像と第２画像を含む注釈なし画像のペアを取得する段階、
前記エンコーダにより、前記第１画像を第１画像表現にエンコードし、前記第２画像を第２画像表現にエンコードする段階、
前記第１画像表現を変換された表現に変換する段階、
前記デコーダによって、前記変換された表現を再構成された画像にデコードする段階、および
損失の最小化に基づき、前記エンコーダと前記デコーダのうちの少なくとも一方の少なくとも１つのパラメータを調整する段階
を含み、
前記第１画像表現を変換する段階と前記変換された表現をデコードする段階は、前記第１画像表現と前記第２画像表現に基づく、
方法。

【請求項2】

前記機械学習モデルの前記教師なし事前学習は、クロスビュー整列（ｃｒｏｓｓ－ｖｉｅｗａｌｉｇｎｍｅｎｔ）事前学習であり、
前記第１画像表現を変換する段階は、
前記変換された表現を生成するために、前記第１画像表現に変換を適用する段階
を含み、
前記変換は、前記変換された表現が前記第２画像表現に近似するように、前記第１画像表現および前記第２画像表現に基づいて決定される、
請求項１に記載の方法。

【請求項3】

前記機械学習モデルの前記教師なし事前学習は、クロスビュー整列事前学習であり、
前記損失は、前記再構成された画像と前記第２画像の差を定量化するメトリックに基づく、
請求項１に記載の方法。

【請求項4】

前記機械学習モデルの前記教師なし事前学習は、クロスビュー整列事前学習であり、
前記損失は、前記変換された表現と前記第２画像表現の差を定量化するメトリックに基づく、
請求項１に記載の方法。

【請求項5】

前記第１画像表現は、第１のｎ個のベクトルのセット：

【数1】

であり、
前記第２画像表現は、第２のｎ個のベクトルのセット：

【数2】

であり、
前記変換を適用する段階は、
Ｄ次元等辺部分と（Ｋ－Ｄ）次元不変部分で、前記第１のベクトルのセットと前記第２のベクトルのセットの各ベクトルを分解する段階、および
（Ｄ×Ｄ）次元変換行列（Ω）を、前記第１のベクトルのセットの各ベクトルの前記等辺部分に適用する段階
を含み、
０＜Ｄ≦Ｋである、
請求項２に記載の方法。

【請求項6】

前記変換はＤ次元回転であり、前記変換行列（Ω）はＤ次元回転行列であり、
前記変換行列（Ω）は、前記第１のベクトルのセットのベクトルの等辺部分を前記第２のベクトルのセットのそれぞれのベクトルの等辺部分と整列させることに基づいて設定される、
請求項５に記載の方法。

【請求項7】

下記数式に基づいて前記変換行列（Ω）を決定する段階、

【数3】

をさらに含み、
ここで、ｘ_ｉ，ｉ ^{ｅｑｕｉｖ}はベクトルｘ_ｉ，ｊの等辺部分を示し、ｘ_２，ｉ ^{ｅｑｕｉｖ}はベクトルｘ_２，ｉの等辺部分を表し、ＳＯ（Ｄ）はＤ次元回転グループを示す、
請求項５に記載の方法。

【請求項8】

前記教師なし事前学習は、クロスビュー完成（ｃｒｏｓｓ－ｖｉｅｗｃｏｍｐｌｅｔｉｏｎ）事前学習であり、
前記機械学習モデルの前記クロスビュー完成事前学習を実行する段階、
第１画像を第１の素集合パッチのセットに分割し、第２画像を第２の素集合パッチのセットに分割する段階、
前記第１の素集合パッチのセットのパッチのうちの少なくとも１つをマスキングする段階
をさらに含み、
前記第１画像を前記第１画像表現にエンコードする段階は、
前記エンコーダによって、前記第１の素集合パッチのセットの各マスキングされていないパッチを、対応する各マスキングされていないパッチ表現にエンコードして第１パッチ表現セットを生成する段階、
を含み、
前記第２画像を前記第２画像表現にエンコードする段階は、
前記エンコーダにより、前記第２の素集合パッチのセットの各パッチを、対応するそれぞれのパッチ表現にエンコードして第２パッチ表現セットを生成する段階、
を含み、
前記変換された表現をデコードする段階は、
前記デコーダによって、前記第１の素集合パッチのセットの各マスキングされたパッチに対して、前記変換された表現および前記第２パッチ表現セットに基づいてそれぞれのマスキングされたパッチに対して予測された再構成を生成する段階、
を含み、
損失関数は、各マスキングされたパッチとそれぞれの予測された再構成の差を定量化するメトリックに基づく、
請求項１に記載の方法。

【請求項9】

前記第１画像表現を前記変換された表現に変換する段階は、
前記第１の素集合パッチのセットの各マスキングされたパッチに対して、前記第１パッチ表現セットを前記マスキングされたパッチのそれぞれの学習された表現でパッチングする段階
をさらに含む、
請求項８に記載の方法。

【請求項10】

各学習された表現は、表現パラメータのセットを含む、
請求項９に記載の方法。

【請求項11】

前記第１の素集合パッチのセットのマスキングされたパッチの予測された再構成を生成する段階は、
前記デコーダによって、前記マスキングされたパッチの前記学習された表現を前記マスキングされたパッチの前記予測された再構成にデコードする段階、
を含み、
ここで、前記デコーダは、前記第１パッチ表現セットおよび前記第２パッチ表現セットを入力データとして受信し、前記入力データに基づいて前記マスキングされたパッチの前記学習された表現をデコードし、
当該方法は、
それぞれの表現パラメータのセットを調整することにより、マスキングされたパッチの学習された表現を調整する段階
をさらに含む、
請求項９に記載の方法。

【請求項12】

前記それぞれの表現パラメータのセットを調整することは、前記損失の最小化に基づいて前記表現パラメータのセットを調整することを含む、
請求項１１に記載の方法。

【請求項13】

前記タスク特定機械学習モデルを微調整する段階は、
前記タスク特定機械学習モデルの教師あり（ｓｕｐｅｒｖｉｓｅｄ）微調整を実行する段階
を含む、
請求項１に記載の方法。

【請求項14】

前記教師あり微調整は、
ｉ）前記幾何学的下流ビジョンタスクによって出力データを生成するために、前記幾何学的下流ビジョンタスクに対するグランドトゥルースデータとして注釈が付いている１つ以上の注釈付き画像に前記タスク特定機械学習モデルを適用すること、および
ｉｉ）前記生成された出力データとグランドトゥルースデータの差を定量化するメトリックに基づくタスク特定損失の最小化に基づいて前記タスク特定機械学習モデルのタスク特定エンコーダパラメータのセットを調整することにより、前記タスク特定機械学習モデルを調整すること
を含む、請求項１３に記載の方法。

【請求項15】

予め定められた回数または前記タスク特定損失の最小値に達するまで、ｉ）とｉｉ）を繰り返す段階
をさらに含む、請求項１４に記載の方法。

【請求項16】

幾何学的下流ビジョンタスクのために１つ以上の新たな画像から予測データを抽出するために、前記１つ以上の新たな画像に前記微調整されたタスク特定機械学習モデルを適用する段階
をさらに含む、請求項１４に記載の方法。

【請求項17】

前記幾何学的下流ビジョンタスクは、相対姿勢の推定である、
請求項１６に記載の方法。

【請求項18】

前記微調整されたタスク特定機械学習モデルを適用する段階は、
新たな画像ペアの画像間の相対的回転と相対的変形を予測データとして抽出するために、前記新たな画像ペアに前記微調整されたタスク特定機械学習モデルを適用する段階
を含み、
前記新たな画像ペアの前記画像は、同じシーンの２つのビューを描写する、
請求項１７に記載の方法。

【請求項19】

前記幾何学的下流ビジョンタスクは、深度の推定である、
請求項１６に記載の方法。

【請求項20】

前記微調整されたタスク特定機械学習モデルを適用する段階は、
１つ以上の新たな画像から１つ以上の深度マップを予測データとして抽出するために、前記１つ以上の新たな画像に前記微調整されたタスク特定機械学習モデルを適用する段階
を含む、請求項１９に記載の方法。

【請求項21】

前記幾何学的下流ビジョンタスクは、オプティカルフローの推定である、
請求項１６に記載の方法。

【請求項22】

前記微調整されたタスク特定機械学習モデルを適用する段階は、
複数のピクセルペアを前記予測データとして生成するために、新たな第１画像および新たな第２画像を含む新たな画像ペアに前記微調整されたタスク特定機械学習モデルを適用する段階
を含み、
各ピクセルペアは、前記新たな第１画像のピクセルと前記新たな第２画像の対応するピクセルを含み、
前記新たな第１画像と前記新たな第２画像は、異なる条件または異なる視点で同じシーンを描写する、
請求項２１に記載の方法。

【請求項23】

幾何学的下流ビジョンタスクによって予測データを生成するためのコンピュータ実現機械学習方法であって、
当該方法は、
第１機械学習モデルのクロスビュー整列事前学習を使用して、前記幾何学的下流ビジョンタスクに対して第１タスク特定機械学習モデルを訓練する段階、
第２プレテキスト機械学習モデルのクロスビュー完成事前学習を使用して、前記幾何学的下流ビジョンタスクに対して第２タスク特定機械学習モデルを訓練する段階、
少なくとも１つの画像に前記訓練された第１タスク特定機械学習モデルを適用することにより、前記幾何学的下流ビジョンタスクによって第１予測データを生成する段階、
前記少なくとも１つの画像に前記訓練された第２タスク特定機械学習モデルを適用することにより、前記幾何学的下流ビジョンタスクによって第２予測データを生成する段階、
前記第１予測データに対する第１信頼値および前記第２予測データに対する第２信頼値を決定する段階、および
前記第１信頼値および前記第２信頼値に基づいて前記第１予測データと前記第２予測データをともに融合することにより、前記幾何学的下流ビジョンタスクによって結果的な予測データを生成する段階
含む、方法。

【請求項24】

コンピューティングシステムであって、
１つ以上のプロセッサ、および
前記１つ以上のプロセッサによって実行されるときに以下を実行するコードを含むメモリ
を含み、
前記コードは、
エンコーダパラメータのセットを有するエンコーダとデコーダパラメータのセットを有するデコーダを含む機械学習モデルの教師なし事前学習を実行し、
前記事前学習された機械学習モデルに基づいて、幾何学的下流ビジョンタスクのための、タスク特定エンコーダパラメータを有するタスク特定エンコーダを含むタスク特定機械学習モデルを構成し、
前記事前学習された機械学習モデルの前記エンコーダパラメータのセットで前記タスク特定エンコーダパラメータのセットを初期化し、
前記幾何学的下流ビジョンタスクのために、前記エンコーダパラメータのセットで初期化された前記タスク特定機械学習モデルを微調整し、
前記機械学習モデルの前記教師なし事前学習の実行は、
同じシーンを描写し、異なる条件または異なる視点で撮影された第１画像および第２画像を含む注釈なし画像のペアを取得すること、
前記エンコーダによって、前記第１画像を第１画像表現にエンコードし、前記第２画像を第２画像表現にエンコードすること、
前記第１画像表現を変換された表現に変換すること、
前記デコーダによって、前記変換された表現を再構成された画像にデコードすること、
損失の最小化に基づき、前記エンコーダおよび前記デコーダのうちの少なくとも一方の少なくとも１つのパラメータを調整すること
を含み、
前記第１画像表現を変換することと前記変換された表現をデコードすることは、前記第１画像表現および前記第２画像表現に基づく、
コンピューティングシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２２年１０月１１日に出願された欧州特許出願ＥＰ２２３０６５３４．３号の利益を主張するものであって、この出願のすべての開示内容の参照としてここに含まれる。

【0002】

本開示は、コンピュータ基盤の画像分析に関し、より詳細には、幾何学的ビジョンタスクに対する機械学習モデルを訓練するためのシステム、方法、およびコンピュータ読み取り可能な媒体に関する。

【背景技術】

【0003】

ここで提供する説明は、本開示の脈略を一般的に提示するためのものである。ここで指名されている発明者の研究は、ここで説明する範囲だけでなく、出願当時には先行技術としての資格がなかった説明の側面まで、明示的かつ黙示的に本開示の先行技術として認定されない。

【0004】

人間の視覚は、２つの光学センサ（目）と、高度に専門化された効果的な画像解析エンジン（脳の視覚関連部分）を基盤とする。目から検出された画像を脳が分析することにより、画像からオブジェクトとオブジェクトのエッジを認識し、オブジェクト距離を推定し、オブジェクト速度と以後のオブジェクト位置を推定する。

【0005】

このような画像分析能力は、自動車の運転、機械の操作、物体を掴んだり投げたりする行為、金づちで釘を打つ行為、群衆の中から探索する行為など、人間の日常的な活動において極めて重要である。

【0006】

コンピュータ基盤の装置は、人間の活動を自律的に実行するように構成されているが、この目標を達成するための要素として、コンピュータ基盤の装置に人間の視覚を模倣したコンピュータビジョンを提供することが挙げられる。

【0007】

コンピュータビジョンシステムは、人間の視覚システムと同じように画像を解析するように構成される。コンピュータビジョンシステムは、コンピュータ基盤の装置が、オブジェクトおよびエッジの認識、単眼または両眼深度の推定、オプティカルフローの推定、または姿勢の推定などのような高度な視覚関連タスクを実行できるようにするために、人間の脳の画像分析能力に対する十分な近似を提供する。深度の推定、オプティカルフローの推定、姿勢の推定などのような高度な視覚関連タスクは、描写されたシーンの３次元（３Ｄ）幾何学に対する理解を基盤とする。

【0008】

以下、このような高度な視覚関連タスクを、幾何学的ビジョンタスクと呼ぶことにする。コンピュータビジョン関連技術は、例えば、自律走行（自律的）車、自律型ロボット機械、その他の装置に使用される。コンピュータ基盤の幾何学的ビジョンタスクに対する性能の向上は、画像ベースの診断やテストのような他の技術分野にも大きな影響を与えるであろう。

【0009】

人工知能（ＡＩ）基盤の画像分析は、コンピュータビジョンに使用することができる。ＡＩ基盤の画像分析では、訓練された機械学習モデルが１つ以上の画像に適用され、１つ以上の画像から特定の幾何学的ビジョンタスクに関する分析データ（例えば、深度マップ、対応するピクセルのペア、オブジェクト速度など）を抽出する。抽出された分析データの品質は、機械学習モデルの訓練によって異なる。

【0010】

一般的に、機械学習モデルは、学習可能な多数のパラメータを含む。機械学習モデルの訓練は、訓練データのセットに対する特定のタスクの結果が最適となるパラメータのセットを見つけ出すことを目的とする。最適な結果からの偏差は、損失（例えば、損失関数の値）で表現される。最適なパラメータのセットを見つけ出すということは、損失関数の最小値につながるパラメータのセットを見つけ出すということに解釈される。訓練は、損失を最小化するために与えられたタスクに対して達成された結果の最適な結果に対する偏差に基づくため、ＡＩシステムは、訓練の段階中に、改善のための最適な結果の指示（ｉｎｄｉｃａｔｉｏｎ）を受信したりする。

【0011】

教師あり学習のアプローチ法は、特定のタスクに対する最適な結果を示すグランドトゥルースデータ（ｇｒｏｕｎｄｔｒｕｔｈｄａｔａ）を含む、注釈付き（ａｎｎｏｔａｔｅｄ）訓練データを含む。訓練データに注釈を付けるには相当な労力が強いられるため、特定のタスクに対して利用可能な注釈付きデータの量は制限的である。制限的な訓練データの問題は、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｔｒａｉｎｉｎｇ）のアプローチ法に緩和される。

【0012】

教師なし学習は、明示的に指定されたグランドトゥルースデータなしで、注釈のない学習データを使用することができるため、注釈のないデータの大規模データストレージ（例えば、画像データベースやインターネットテキストストレージ）の利点を生かすことができる。ただし、教師なし学習は、グランドトゥルースデータの明示的な注釈がなくてもタスクの最適結果を決定することができるタスクに制限されることがある。

【0013】

機械学習モデルが訓練されるタスクが教師なし訓練を支援するものでなくても、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄ）と教師あり学習（ｓｕｐｅｒｖｉｓｅｄ）を組み合わせることによって向上した訓練結果を得ることができる。教師なし事前学習は（ｐｒｅ-ｔｒａｉｎｉｎｇ）は、コンピュータビジョンの多様な高度タスクに使用することができる。２番目の訓練段階において、事前学習された機械学習モデル（基礎モデルとも呼ばれる）は、注釈付きの小規模データセットに対して微調整（ｆｉｎｅ－ｔｕｎｅ）訓練され、教師あり学習のアプローチ法と比べて、一部のタスクに対して優れたパフォーマンスを発揮し、注釈付き大規模データセットが利用できないときに教師あり学習のアプローチ法を上回ることがある。

【0014】

教師なし学習は、画像分類やオブジェクト検出のような多様な高度コンピュータビジョンタスクに適している。このようなモデルは、追加のラベル（ｌａｂｅｌｓ）なしで追加の画像データを使用する。教師なし学習の一例として対照学習（ｃｏｎｔｒａｓｔｉｖｅｌｅａｒｉｎｇ）が挙げられるが、これは、データ拡張に不変のモデル出力を学習することによってプレテキストタスクを構成する。マスク付き画像モデリング（ＭａｓｋｅｄＩｍａｇｅＭｏｄｅｌｉｎｇ：ＭＩＭ）は、教師なし学習の代わりとなるが、このようなモデルは、自動完成プレテキストタスクを使用することで訓練される。エンコーダは、画像をパッチに分割し、そのうちの一部をマスキングすることによって得られる、画像入力の部分的なビューを潜在表現（ｌａｔｅｎｔｒｅｐｒｅｓｅｎｔａｔｉｏｎ）にエンコードする。この後、見えないパッチは、潜在表現に基づいてデコーダによって予測される。このような方法は、教師なし学習に対する特定のアプローチ法である、いわゆる、自己教師あり学習（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄ）の例である。このような従来の自己教師あり学習が優れているタスクには、画像分類やセマンティックセグメンテーションのような単一ビューのセマンティックセグメンテーション指向のタスクが含まれる。ただし、描写されたシーンの３Ｄ幾何学関連の３Ｄタスク（例えば、幾何学的ビジョンタスク）への対応は難しい状況にある。

【発明の概要】

【発明が解決しようとする課題】

【0015】

上述したような問題点を克服するために、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練するためのコンピュータ実現方法およびシステム、コンピュータ読み取り可能な媒体を提供する。アプローチ法の１つとして、マルチビュー幾何学的キューの使用に対する報酬により、幾何学的下流ビジョンタスクに対するモジュールによって特別に調整された教師なし事前学習を基盤とする。事前学習は、異なる視点および／または異なる条件（例えば、照明など）で同じシーンを描写する注釈なし画像ペアだけを含む。プレテキストタスクは、プレテキストモデルが２つの画像間の空間的関係に対する理解を学習し、これによってプレテキストタスクを正しく実行するために、描写されたシーンの３Ｄ幾何学を学習するように特別に調整される。プレテキストモデルは、エンコーダとデコーダを含む。エンコーダは、画像ペアである２つの画像のそれぞれを、表現空間内でそれぞれの（例えば、ベクトルまたは行列）画像表現にエンコードする。このような画像表現は潜在表現とも呼ばれ、それぞれの表現空間は潜在空間とも呼ばれる。この後、画像表現の１つが表現空間で変換され、変換された表現は再構成された画像にデコードされる。

【0016】

教師なし事前学習の一例として、ペアの１つの画像が部分的にマスキングされ、マスキングされたコンテンツは、最初の画像の可視コンテンツだけでなく、２番目の画像からも予測される。このようなアプローチ法は、クロスビュー完成（ＣｒｏＣｏ）事前学習と呼ばれる。クロスビュー完成において、１つの画像の一部をマスキングすることによって生じる不明確（ａｍｂｉｇｕｉｔｙ）は、２つの画像の空間的な関係に対する一部の理解を提供する、マスキングされていない他の画像からマスキングされたコンテンツを推論することによって解決することができる。

【0017】

教師なし事前学習の一例として、画像うちの１つの表現が他の画像の表現と整列するように表現空間で変換される。このようなアプローチ法は、クロスビュー整列（ｃｒｏｓｓ－ｖｉｅｗａｌｉｇｎｍｅｎｔ：Ｃａｉｍａｎ）事前学習と呼ばれる。クロスビュー整列において、第１画像の変換された表現は、再構成された画像で第２画像の予測としてデコードされる。このようなタスクを解決することは、シーンの幾何学的ビューの間でその形状がどのように変化するかに対する一部理解を含む。

【0018】

提示された事前学習アプローチ法は、いずれかの教師あり学習、例えば、訓練画像間のグランドトゥルース対応（ｇｒｏｕｎｄ－ｔｒｕｔｈｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓ）を必要としない。開示するアプローチ法は、ラベル付けされていないデータから下位レベルの幾何学的キューを学習するための適応を含む。したがって、プレテキストモデルは、事前学習されたプレテキストモデル（基礎モデル）が描写されたシーンの３Ｄ幾何学の一般的な理解を学習し、したがって、多数の幾何学的ビジョンタスクを効率よく微調整できるように、大規模な注釈なしデータセットを事前に訓練することができる。

【課題を解決するための手段】

【0019】

一実施形態では、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練する機械学習方法を提供する。当該方法は、エンコーダパラメータのセットを有するエンコーダと、デコーダパラメータのセットを有するデコーダを含むプレテキスト機械学習モデルの教師なし事前学習を実行する段階、事前学習されたプレテキスト機械学習モデルに基づいて、幾何学的下流ビジョンタスクのための、タスク特定エンコーダパラメータのセットを有するタスク特定エンコーダを含むタスク特定機械学習モデルを構成する段階、事前学習されたプレテキスト機械学習モデルのエンコーダパラメータのセットでタスク特定エンコーダパラメータのセットを初期化する段階、および幾何学的下流ビジョンタスクのために、エンコーダパラメータのセットで初期化された、タスク特定機械学習モデルを微調整する段階を含む。プレテキスト機械学習モデルを事前学習する段階は、同じシーンを描写し、異なる条件または異なる視点で撮影された第１画像と第２画像を含む注釈なし画像のペアを取得する段階、エンコーダによって、第１画像を第１画像表現にエンコードし、第２画像を第２画像表現にエンコードする段階、第１画像表現を変換された表現に変換する段階、デコーダによって、変換された表現を再構成された画像にデコードする段階、および損失関数の最小化に基づいて、または損失関数の最小化のためにエンコーダパラメータのセットおよびデコーダパラメータのセットを調整することによってエンコーダおよびデコーダを調整する段階を含む。ここで、第１画像表現を変換する段階および／または変換された表現をデコードする段階は、第１画像表現および第２画像表現に基づく。

【0020】

一特徴において、教師なし事前学習は、プレテキスト機械学習モデルのクロスビュー整列事前学習であり、第１画像表現を変換する段階は、変換された表現を決定するために第１画像表現に変換を適用する段階を含み、変換は、変換された表現が第２画像表現に近似するように（例えば、整列されるように）、第１画像表現と第２画像表現に基づいて決定される。損失関数は、再構成された画像と第２画像の差を定量化するメトリック、または変換された表現と第２画像表現の差を定量化するメトリックに基づいてよい。

【0021】

一特徴において、教師なし事前学習は、プレテキスト機械学習モデルのクロスビュー完成事前学習であり、前記プレテキスト機械学習モデルのクロスビュー完成事前学習を実行する段階は、前記第１画像を第１素集合パッチセットに分割し、前記第２画像を第２素集合パッチセットに分割する段階、および前記第１のパッチセットの複数のパッチをマスキングする段階をさらに含む。第１画像を第１画像表現にエンコードする段階は、エンコーダによって、第１パッチセットのマスキングされていないパッチを、対応するそれぞれのマスキングされていないパッチ表現にエンコードして第１パッチ表現セットを生成する段階を含む。第２画像を第２画像表現にエンコードする段階は、エンコーダによって、第２パッチセットの各パッチを、対応する各パッチ表現にエンコードして第２パッチ表現セットを生成する段階を含む。変換された表現を再構成された画像にデコードする段階は、デコーダによって、第１パッチセットの各マスキングされたパッチに対して、第１パッチ表現セットおよび第２パッチ表現セットに基づいて、それぞれのマスキングされたパッチに対して予測された再構成を生成する段階を含む。損失関数は、各マスキングされたパッチとそれぞれの予測された再構成の差を定量化するメトリックに基づいてよい。

【0022】

一特徴において、幾何学的下流ビジョンタスクによって予測データを生成するための機械学習方法は、クロスビュー整列事前学習とクロスビュー完成事前学習を融合して提供される。当該方法は、第１プレテキスト機械学習モデルのクロスビュー整列事前学習を使用して幾何学的下流ビジョンに対して第１タスク特定機械学習モデルを訓練する段階、第２プレテキスト機械学習モデルのクロスビュー完成事前学習を使用して幾何学的下流ビジョンタスクに対して第２タスク特定機械学習モデルを訓練する段階、少なくとも１つの画像に訓練された第１タスク特定機械学習モデルを適用することにより、幾何学的下流ビジョンタスクによって第１予測データを生成する段階、少なくとも１つの画像に訓練された第２タスク特定機械学習モデルを適用することにより、幾何学的ビジョンタスクによって第２予測データを生成する段階、第１予測データに対する第１信頼値と第２予測データに対する第２信頼値を決定する段階、および第１信頼値および第２信頼値に基づいて第１予測データと第２予測データを融合することにより、幾何学的ビジョンタスクによって結果的な予測データを生成する段階を含んでよい。当該方法は、タスク特定機械学習モデルで第１プレテキスト機械学習モデルと第２プレテキスト機械学習モデルを融合する前に、第１プレテキスト機械学習モデルと第２プレテキスト機械学習モデルに対するプレテキスト機械学習の教師なし事前学習を繰り返す段階を含んでよい。教師なし事前学習を繰り返す段階は、クロスビュー完成事前学習を使用して第１プレテキスト機械学習モデルを事前学習する段階と、クロスビュー整列事前学習を使用して第２プレテキスト機械学習モデルを事前学習する段階を含む。

【0023】

一特徴において、幾何学的ビジョンタスクを実行するためのコンピュータ実現方法を含む方法を提供する。当該方法は、１つ以上の入力画像を受信する段階、幾何学的ビジョンタスクによって第１入力画像を処理し、ここに記載しているコンピュータ実現方法のうちのいずれか１つによって訓練されたニューラルネットワークによって第２入力画像を処理する段階を含む。訓練されたニューラルネットワークは、幾何学的ビジョンタスクのための出力を生成する。一特徴において、幾何学的ビジョンタスクは相対姿勢の推定であって、出力は、第１入力画像と第２入力画像の相対的な動き（例えば、２つの画像間の変換－画像のビューの相対的な回転および変形を含む）である。一特徴において、幾何学的ビジョンタスクは深度の推定であって、出力はカメラに対する相対的な距離であり、深度推定方法により、シーンを描写する深度マップは、第１入力画像（シーンの単眼ビュー）または第１入力画像と第２入力画像（シーンの両眼ビュー）から決定されてよい。第３実施形態において、幾何学的ビジョンタスクはオプティカルフローの推定であって、出力は、第１入力画像と第２入力画像の間で描写されたシーンの識別された視覚的特徴の動きである。

【0024】

一特徴において、コンピュータ読み取り可能な命令が記録された１つ以上のコンピュータ読み取り可能な媒体が提供される。１つ以上のプロセッサによって実行されるとき、コンピュータ読み取り可能な命令は、１つ以上のプロセッサがここに記載された方法を実行するようにする。

【0025】

一特徴において、システムは、１つ以上のプロセッサとメモリを含む。メモリは、１つ以上のプロセッサによって実行されるとき、１つ以上のプロセッサがここに記載されたコンピュータ実現方法を実行するようにする。

【0026】

一特徴において、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練する、コンピュータが実現する機械学習方法について説明する。当該方法は、エンコーダパラメータのセットを有するエンコーダと、デコーダパラメータのセットを有するデコーダを含む機械学習モデルの教師なし事前学習を実行する段階、事前学習された機械学習モデルに基づいて、幾何学的下流ビジョンタスクのための、タスク特定エンコーダパラメータのセットを有するタスク特定エンコーダを含むタスク特定機械学習モデルを構成する段階、事前学習された機械学習モデルのエンコーダパラメータのセットでタスク特定エンコーダパラメータのセットを初期化する段階、および幾何学的下流ビジョンタスクのために、エンコーダパラメータのセットで初期化されたタスク特定機械学習モデルを微調整する段階を含む。ここで、機械学習モデルの教師なし事前学習を実行する段階は、同じシーンを描写し、異なる条件または異なる視点で撮影された第１画像および第２画像を含む注釈なし画像のペアを取得する段階、エンコーダによって、第１画像を第１画像表現にエンコードし、第２画像を第２画像表現にエンコードする段階、第１画像表現を変換された表現に変換する段階、デコーダによって、変換された表現を再構成された画像にデコードする段階、および損失の最小化に基づいてエンコーダおよびデコーダの少なくとも１つのパラメータを調整する段階を含む。ここで、第１画像表現を変換する段階および変換された表現をデコードする段階は、第１画像表現および第２画像表現に基づく。

【0027】

追加の特徴において、機械学習モデルの教師なし事前学習は、クロスビュー整列事前学習であり、第１画像表現を変換する段階は、変換された表現を生成するために第１画像表現に変換を適用する段階を含み、変換は、変換された表現が第２画像表現に近似するように第１画像表現および第２画像表現に基づいて決定される。

【0028】

追加の特徴において、機械学習モデルの教師なし事前学習は、クロスビュー整列事前学習であり、損失は、再構成された画像と第２画像の差を定量化するメトリックに基づく。

【0029】

追加の特徴において、機械学習モデルの教師なし事前学習は、クロスビュー整列事前学習であり、損失は、変換された表現と第２画像表現の差を定量化するメトリックに基づく。

【0030】

追加の特徴において、第１画像表現は第１のｎ個のベクトルセット：

【数1】

であり、第２画像表現は第２のｎ個のベクトルセット：

【数2】

であり、変換を適用する段階は、Ｄ次元等辺（ｅｑｕｉｖａｒｉａｎｔ）部分と（Ｋ－Ｄ）次元不変（ｉｎｖａｒｉａｎｔ）部分で第１ベクトルセットおよび第２ベクトルセットの各ベクトルを分解する段階、および（Ｄ×Ｄ）次元変換行列（Ω）を前記第１ベクトルセットの各ベクトルの前記等辺部分に適用する段階を含み、０＜Ｄ≦Ｋである。

【0031】

追加の特徴において、変換はＤ次元回転であり、変換行列（Ω）はＤ次元回転行列であり、変換行列（Ω）は、第１ベクトルセットのベクトルの等辺部分を第２ベクトルセットのそれぞれのベクトルの等辺部分と整列させることに基づいて設定される。

【0032】

追加の特徴において、前記方法は、以下の数式に基づいて変換行列（Ω）を決定する段階をさらに含む。

【0033】

【数3】

【0034】

ここで、ｘ_ｉ，ｉ ^{ｅｑｕｉｖ}はベクトル（ｘ_ｉ，ｊ）の等辺部分を、ｘ_２，ｉ ^{ｅｑｕｉｖ}はベクトル（ｘ_２，ｉ）の等辺部分を、ＳＯ（Ｄ）はＤ次元回転グループを示す。

【0035】

追加の特徴において、前記教師なし事前学習は、クロスビュー完成事前学習であり、前記機械学習モデルのクロスビュー完成事前学習を実行する段階は、前記第１画像を第１素集合パッチセットに分割し、前記第２画像を第２素集合パッチセットに分割する段階、前記第１パッチセットのパッチのうちの少なくとも１つをマスキングする段階をさらに含み、前記第１画像を第１画像表現にエンコードする段階は、エンコーダによって、前記第１パッチセットの各マスキングされていないパッチを、対応するそれぞれのマスキングされていないパッチ表現にエンコードして第１パッチ表現セットを生成する段階を含み、前記第２画像を第２画像表現にエンコードする段階は、エンコーダによって、前記第２パッチセットの各パッチを、対応する各パッチ表現にエンコードして第２画像表現を生成する段階を含み、変換された表現をデコードする段階は、デコーダによって、第１パッチセットの各マスキングされたパッチに対して、変換された表現および第２パッチ表現セットに基づいてそれぞれのマスキングされたパッチの予測された再構成を生成する段階を含み、損失関数は、各マスキングされたパッチとそれぞれの予測された再構成の差を定量化するメトリックに基づく。

【0036】

追加の特徴において、第１画像表現を変換された表現に変換する段階は、第１パッチセットの各マスキングされたパッチに対して、第１パッチ表現セットを、マスキングされたパッチのそれぞれの学習された表現でパッチングする段階をさらに含む。

【0037】

追加の特徴において、各学習された表現は、表現パラメータのセットを含む。

【0038】

追加の特徴において、第１パッチ表現セットのマスキングされたパッチの予測された再構成を生成する段階は、デコーダによって、マスキングされたパッチの学習された表現をマスキングされたパッチの予測された再構成にデコードする段階を含む。ここで、デコーダは、第１パッチ表現セットおよび第２パッチ表現セットを入力データとして受信し、入力データに基づいてマスキングされたパッチの学習された表現をデコードし、前記方法は、それぞれの表現パラメータのセットを調整することによってマスキングされたパッチの学習された表現を調整する段階をさらに含む。

【0039】

追加の特徴において、それぞれの表現パラメータのセットを調整することは、損失の最小化に基づいて表現パラメータのセットを調整することを含む。

【0040】

追加の特徴において、タスク特定機械学習モデルを微調整する段階は、タスク特定機械学習モデルの教師あり微調整を実行する段階を含む。

【0041】

追加の特徴において、マップの微調整は、ｉ）幾何学的下流ビジョンタスクによって出力データを生成するために、幾何学的下流ビジョンタスクに対するグランドトゥルースデータとして１つ以上の注釈付き画像にタスク特定機械学習モデルを適用すること、およびｉｉ）生成された出力データとグランドトゥルースデータの差を定量化するメトリックに基づいたタスク特定損失の最小化に基づいてタスク特定機械学習モデルのタスク特定エンコーダパラメータのセットを調整することによって、タスク特定機械学習モデルを調整することを含む。

【0042】

追加の特徴において、前記方法は、予め定められた回数中、またはタスク特定損失の最小値に達するまで、段階ｉ）およびｉｉ）を繰り返す段階をさらに含む。

【0043】

追加の特徴において、前記方法は、幾何学的下流ビジョンタスクのために１つ以上の新たな画像から予測データを抽出するために、１つ以上の新たな画像に微調整されたタスク特定機械学習モデルを適用する段階をさらに含む。

【0044】

追加の特徴において、幾何学的下流ビジョンタスクは、相対姿勢の推定である。

【0045】

追加の特徴において、微調整されたタスク特定機械学習モデルを適用する段階は、新たな画像ペアの画像間の相対的回転および相対的変形を予測データとして抽出するために、新たな画像ペアに微調整されたタスク特定機械学習モデルを適用する段階を含み、新たな画像ペアの画像は、同じシーンの２つのビューを描写する。

【0046】

追加の特徴において、幾何学的下流ビジョンタスクは、深度の推定である。

【0047】

追加の特徴において、微調整されたタスク特定機械学習モデルを適用する段階は、１つ以上の新たな画像から１つ以上の深度マップを予測データとして抽出するために、１つ以上の新たな画像に微調整されたタスク特定機械学習モデルを適用する段階を含む。

【0048】

追加の特徴において、幾何学的下流ビジョンタスクは、オプティカルフローの推定である。

【0049】

追加の特徴において、微調整されたタスク特定機械学習モデルを適用する段階は、複数のピクセルペアを予測データとして生成するために、新たな第１画像および新たな第２画像を含む新たな画像ペアに微調整されたタスク特定機械学習モデルを適用する段階を含み、各ピクセルペアは、新たな第１画像のピクセルと新たな第２画像の対応するピクセルを含み、新たな第１画像と新たな第２画像は、異なる条件または異なる視点で同じシーンを描写する。

【0050】

一特徴において、幾何学的視覚下流タスクによって予測データを生成するためにコンピュータが実現する機械学習方法について説明する。当該方法は、第１機械学習モデルのクロスビュー整列事前学習を使用して幾何学的視覚下流タスクに対して第１タスク特定機械学習モデルを訓練する段階、第２プレテキスト機械学習モデルのクロスビュー完成事前学習を使用して幾何学的視覚下流タスクに対して第２タスク特定機械学習モデルを訓練する段階、少なくとも１つの画像に訓練された第１タスク特定機械学習モデルを適用することによって、幾何学的下流ビジョンタスクによって第１予測データを生成する段階、少なくとも１つの画像に訓練された第２タスク特定機械学習モデルを適用することによって、幾何学的下流ビジョンタスクによって第２予測データを生成する段階、第１予測データに対する第１信頼値および第２予測データに対する第２信頼値を決定する段階、および第１信頼値および第２信頼値に基づいて第１予測データと第２予測データを融合することによって、幾何学的ビジョンタスクによって結果的な予測データを生成する段階を含む。

【0051】

一特徴において、コンピューティングシステムは、１つ以上のプロセッサと、１つ以上のプロセッサによって実行されるときに次の事項を実行するコードを含むメモリを含み、前記コードは、エンコーダパラメータのセットを有するエンコーダとデコーダパラメータのセットを有するデコーダを含む機械学習モデルの教師なし事前学習を実行し、事前学習された機械学習モデルに基づいて、幾何学的下流ビジョンタスクのために、タスク特定エンコーダパラメータのセットを有するタスク特定エンコーダを含むタスク特定機械学習モデルを構成し、事前学習された機械学習モデルのエンコーダパラメータのセットでタスク特定エンコーダパラメータのセットを初期化し、幾何学的下流ビジョンタスクのために、エンコーダパラメータのセットで初期化されたタスク特定機械学習モデルを微調整するが、ここで、機械学習モデルの教師なし事前学習の実行は、同じシーンを描写し、異なる条件または異なる視点で撮影された第１画像と第２画像を含む注釈なし画像のペアを取得すること、エンコーダによって、第１画像を第１画像表現にエンコードして第２画像を第２画像表現にエンコードすること、第１画像表現を変換された表現に変換すること、デコーダによって、変換された表現を再構成された画像にデコードすること、および損失の最小化に基づいて、エンコーダおよびデコーダの少なくとも１つのパラメータを調整することを含むが、ここで、第１画像表現を変換することと変換された表現をデコードすることは、第１画像表現および第２画像表現に基づく。

【0052】

本開示の適用が可能な他の領域は、具体的な内容、特許請求の範囲、および図面によって明らかになるであろう。具体的な内容および特定の実施例は例示に過ぎず、本開示の範囲を限定するものではない。

【図面の簡単な説明】

【0053】

本開示は、詳細な説明および添付の図面によって完全に理解できるであろう。

【図1】幾何学的ビジョンタスクのための機械学習モデルを訓練するための手順の一例を示した機能ブロック図である。

【図2】注釈なし画像のペアを使用するプレテキストタスクに対する機械学習モデルの教師なし事前学習のための手順の一例を示した機能ブロック図である。

【図3】注釈なし画像のペアを使用するプレテキスト機械学習モデルの自己教師ありクロスビュー完成事前学習のための手順の一例を示した機能ブロック図である。

【図4】注釈なし画像のペアを使用したプレテキスト機械学習の自己教師ありクロスビュー整列事前学習の手順の一例を示した機能ブロック図である。

【図5】幾何学的下流ビジョンタスクに対してタスク特定機械学習モデルを訓練する方法の一例を示したフローチャートである。

【図6】プレテキストタスクに対するプレテキスト機械学習モデルの教師なし事前学習のための方法を示したフローチャートである。

【図7】プレテキスト機械学習モデルの自己教師ありクロスビュー完成事前学習のための方法を示したフローチャートである。

【図8】プレテキスト機械学習モデルの自己教師ありクロスビュー完成事前学習のための方法を示したフローチャートである。

【図9】図７の自己教師ありクロスビュー完成事前学習と図８の自己教師ありクロスビュー整列事前学習を組み合わせた幾何学的下流ビジョンタスクによって予測データを生成するための方法を示したフローチャートである。

【図10】システムのアーキテクチャの一例を示した機能ブロック図である。図面の参照符号は、類似あるいは同一の要素を識別するために多数にわたって使用する。

【発明を実施するための形態】

【0054】

ここでは、幾何学的ビジョンタスクのためのタスク特定機械学習モデルを訓練するためのシステム、コンピュータ読み取り可能な媒体、および方法について説明する。説明の目的のために、実施形態の完全な理解を提供するために、多くの実施形態と特定の詳細事項を提示する。特許請求の範囲によって定義されるような実施形態は、これらの特徴の一部またはすべてを単独または以下で説明する他の特徴との組み合わせによって含むことができ、ここで説明する特徴および概念の修正および同等物をさらに含むことができる。例示的な実施形態は図面を参照しながら説明し、類似の要素および構造は類似の参照符号で表示する。

【0055】

本発明は、幾何学的ビジョンタスク（例えば、コンピュータビジョンにおける３次元（３Ｄ）幾何学的タスク）のための機械学習モデルを訓練するための方法、システム、およびコンピュータ読み取り可能な媒体に関する。訓練は２つの段階で実行され、最初の段階である事前学習段階で、プレテキスト機械学習モデルは、多数の画像ペア（例えば、１０００件を超えるペア）を含む訓練データセットを使用し、プレテキストタスクに対して教師なし訓練モジュールによって訓練される。

【0056】

プレテキストタスクは、画像ペアからの３Ｄ幾何学的キューの教師なし学習のために設計されてよい。ここで、１つの画像ペアの各画像は、同じシーンを描写するが、異なる視点または異なる条件（例えば、異なる焦点距離、異なる照明条件、異なる季節）で描写する。幾何学的下流ビジョンタスクのために特別に構築される、第２タスク特定機械学習モデルが構成される。幾何学的下流ビジョンタスクは、学習（微調整）が注釈付き画像を使用した教師あり訓練が含まれるコンピュータビジョンの高度３Ｄ幾何学的タスクである。タスク特定機械学習モデルのパラメータのうちの一部は、事前学習されたプレテキスト機械学習モデルの対応するパラメータの値に初期化される。２番目の訓練段階である微調整段階で、タスク特定機械学習モデルは、注釈付きイメージを含む訓練データセットを使用して教師あり訓練とともに訓練モジュールによって訓練される。

【0057】

図１は、機械学習モデルのための訓練モジュール５０によって実行される、２段階の訓練プロセスの一例を示した機能ブロック図である。訓練は、訓練モジュール５０が、プレテキストタスクに対してプレテキスト学習モデル１３０の教師なし事前学習１１０を実行することから始まる。プレテキスト機械学習モデル１３０は、複数の学習可能なパラメータθ１３２を含む。事前学習プロセス１１０は、訓練モジュール５０が、パラメータ１３２の値を繰り返し適応させ、結果的なプレテキスト機械学習モデル１３０がプレテキストタスクに対してより優れた結果を継続して達成するようにすることを含む。

【0058】

事前学習１１０は、パラメータ（θ）１３２に対するパラメータ値の初期セットから始まる。パラメータ（θ）１３２に対する値の初期セットは、すべてのパラメータ（θ）１３２に対して共通（例えば、予め定められた）値として選択されてよく、パラメータ値の初期セットが複数のパラメータ（θ）１３２の各パラメータに対してランダム値を含むように初期パラメータ値をランダムに設定してもよいし、他の適切な方法で設定してもよい。

【0059】

事前学習１１０中に、プレテキスト機械学習モデル１３０は、訓練モジュール５０から、第１画像（Ｉ_１）１２０および第２画像（Ｉ_２）１２２を含む注釈なし画像のペアを受信する。第１画像１２０および第２画像１２２は、少なくとも部分的に同じ視覚的コンテンツ（例えば、同じシーン、同じオブジェクト、同じ人物、または同じ建築構造）を描写するが、異なる視点または異なる条件（例えば、照明など）で描写する。このような文脈において、シーンが描写される視点とは、シーンを描写する画像が撮影される描写されたシーンに対するカメラの位置および／またはカメラの角度を意味し得る。第１画像１２０および第２画像１２２のピクセルサイズは、同じであってもよいし、異なってもよい。画像１２０、１２２は、プレテキストタスクによってグランドトゥルースデータを有する注釈（ａｎｎｏｔａｔｉｏｎｓ）を含まない。

【0060】

第１画像１２０と第２画像１２２のペアに基づいて、プレテキスト機械学習モデル１３０は、再構成された画像（Ｉ_Ｒ）１４０を生成する。再構成された画像１４０は、第１画像または第２画像の再構成であってもよいし、または第１画像および／または第２画像に予め設定された変換を適用することによって第１画像および／または第２画像から誘導される画像の再構成であってもよい。このような予め定められた変換は、グレースケール変換のように画像のうちの１つまたは両方に１つ以上の色変換を適用すること、画像のうちの１つまたは両方に１つ以上の幾何学的変換を適用すること、画像間の各ピクセルの差のような第１画像と第２画像の組み合わせを決定することなどを含んでよい。

【0061】

プレテキスト機械学習モデル１３０は、画像ペアの画像１２０、１２２を、数学的表現空間（潜在空間）での画像の表現（潜在表現とも呼ばれる）に変換する。表現は、例えば、ベクトルや行列などであってよい。

【0062】

特定のプレテキストタスクにしたがい、プレテキスト機械学習モデル１３０は、表現空間における画像表現に対して変換を実行し、最終的に再構成された画像１４０の表現を生成する。最終的に再構成された画像１４０の表現は、画像空間に再び変換され、これによって再構成された画像１４０を生成する。再構成された画像１４０および／または再構成された画像１４０の表現に基づいて、プレテキスト損失１４２が訓練モジュール５０によって決定されるが、これは、画像ペアの画像に対するプレテキスト機械学習モデル１３０の適用によって達成される結果の品質を表現する。損失は、例えば、結果（再構成された画像１４０および／または再構成された画像１４０の表現）のペアに対して予想される結果との比較に基づいて決定され得る。

【0063】

一般的な機械学習において、損失は、損失関数（「費用関数」とも呼ばれる）の値を示すが、これは、イベントまたは１つ以上の変数の値をイベントと関連する一部の「費用」を示す実数にマッピングする関数である。事前学習段階の目標は、訓練モジュール５０が、プレテキスト機械学習モデル１３０の内部の学習可能なパラメータ（θ）１３２を修正し、プレテキスト損失１４２（すなわち、損失関数の値）を最小化することにある。損失関数は、プレテキスト機械関数モデル１３０の学習可能なパラメータ（θ）１３２のそれぞれによる複雑な実数値のスカラー関数であってよい。損失関数の最適化（最小値に収束される）は、損失勾配のバックプロパゲーション（ｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ）１４４によって訓練モジュール５０によって実行されるが、これは、プレテキスト機械学習モジュール１３０の学習可能なパラメータ（θ）１３２に対する損失関数の偏微分から訓練モジュールによって取得される。このような損失勾配は、次に繰り返される事前学習段階でより低い損失１４２を生成するためにプレテキスト機械学習モデル１３０の学習可能パラメータ（θ）１３２を修正（または、適応または更新）するために使用されるという点において、訓練モジュール５０によってそれぞれの学習可能パラメータ（θ）１３２にバックプロパゲーションされる。

【0064】

次の繰り返しにおいて、修正された学習可能パラメータ（θ）１３２を含む機械学習モデル１３０は、上述したように修正された学習可能パラメータ１３２を使用し、同一または異なる画像ペアに基づいて他の再構成画像１４０を生成する。この画像のペアの表現への変換、表現空間における変換、および再構成された画像１４０の生成は、修正された学習可能パラメータ（θ）１３２を使用して計算される。この後、修正されたプレテキスト機械学習モデル１３０は、画像ペアに対してプレテキスト作業を実行するのに適するようになり、損失関数が最小損失１４２に収束するまで、学習可能なパラメータ（θ）１３２の適応が不要になるまで、損失勾配の次のバックプロパゲーションにおいてより低い損失１４２と学習可能なパラメータ（θ）１３２のより小さい適応につながる。損失関数が最小値に収束すると、プレテキスト機械学習モデル１３０は、成功的に事前学習されたこととなり、事前学習段階は完了されてよい。代案的な実施形態において、繰り返される事前学習は、完全な収束に達するまで実行されるのではなく、予め定められた回数後に終了となる。

【0065】

２番目の訓練段階は、訓練モジュール５０によるタスク特定機械学習モデル１７０の微調整１５０である。ここで、微調整という用語は、事前学習の結果に基づいて事前学習段階後に実行される訓練を意味し得る。多様な実施形態において、微調整は、教師ありまたは部分的教師ありによって訓練モジュール５０によって実行され得る。ここで、教師ありという用語は、注釈付き訓練データに基づく訓練を意味し得る。注釈付き訓練データは、訓練が実行される特定タスクの最適な／予想される結果／成果に関する追加の情報を含むグランドトゥルースデータを含む。グランドトゥルースデータは、訓練される機械学習モデル１７０によっては使用されずに訓練モジュール５０によって使用され、入力が与えられた訓練される機械学習モデル１７０によって生成された結果に基づいて特定訓練タスクに対する損失１８２を決定する。

【0066】

プレテキスト機械学習モデル１３０と同様に、タスク特定機械学習モデル１７０は、複数の学習可能なパラメータ（θ’）１７２を含む。微調整は、事前学習と同じように実行される。ただし、タスク特定機械学習モデル１７０が訓練モジュール５０によって訓練されるタスクは、より正確な訓練が注釈付き（グランドトゥルース）データの使用を含む幾何学的ビジョンタスクである。このタスクは、訓練の最終的な目標が、このタスクを実行するために最適化された訓練済み機械学習モデルを提供することにあることを示す下流タスクと呼ぶことができる。プレテキストタスクは、幾何学的下流ビジョンタスクに対するタスク特定機械学習モデル１７０の訓練を向上させるための先行タスクである。

【0067】

微調整１５０は、パラメータ（θ’）１７２に対するパラメータ値の初期セットから始まる。訓練モジュール５０は、パラメータ１７２を初期セットで初期化する。訓練モジュール５０は、パラメータ（θ’）１７２の少なくとも一部分を、事前学習されたプレテキスト機械学習モデル１３０のパラメータ（θ）１３２の対応する部分の値に初期化する。事前学習されたプレテキスト機械学習モデル１３０のパラメータ値に初期化されていないパラメータ（θ’）１７２の残りの部分の値の初期セットは、訓練モジュール５０によって、例えば、パラメータ（θ’）１７２の残りの部分のすべてのパラメータに対して共通（例えば、予め定められた）値が設定されてもよいし、パラメータ値の初期セットがパラメータ（θ’）１７２の残りの部分の各パラメータに対してランダム値を含むようにランダムに設定されてもよいし、他の適切な方法によって設定されてもよい。

【0068】

タスク特定機械学習モデル１７０は、訓練モジュール５０からの１つ以上の注釈付き画像に適用される。図１の例は、注釈付き画像（Ｐ_１、Ｐ_２）１６０、１６２を示している。画像（Ｐ_２）１６２は、第２入力画像の選択的な特性を示す点線で示されている。画像（Ｐ_１）１６０はグランドトゥルース注釈１６４を含み、画像（Ｐ_２）１６２はグランドトゥルース注釈１６６を含む。一部の実施形態において、２つの画像（Ｐ_１、Ｐ_２）１６０、１６２は、画像のペアとして提供されてよいが、ここで、グランドトゥルース注釈は、ペアに対して提供されるものであり、各画像に対しては個別に提供されない。多様な実施形態において、画像の一部にのみ注釈が付けられ、微調整は部分的な教師ありと部分的な教師なしで実行される。入力画像の数は、下流タスクによって異なる。タスク特定機械学習モデル１７０を１つまたは複数の画像に適用することは、タスク特定出力データ１８０を招来する。すなわち、タスク特定機械学習モデル１７０は、入力画像に基づいてタスク特定出力データ１８０を生成する。タスク特定出力データ１８０および１つ以上の注釈付き入力画像のグランドトゥルースデータに基づいて、タスク特定損失１８２が訓練モジュール５０によって決定される。タスク特定損失１８２は、画像ペアの画像（または、入力画像）に対するタスク特定機械学習モデル１７０の適用によって達成されるタスク特定出力データ１８０の品質を表現する。

【0069】

事前学習のように、タスク特定損失１８２は、損失関数の値を表現する。微調整段階の目標は、訓練モジュール５０によってタスク特定機械学習モデル１７０内部の学習可能なパラメータ（θ’）１７２を修正し、タスク特定損失１８２（損失関数の値）を最小化することにある。損失関数は、タスク特定機械学習モデル１７０の学習可能パラメータ（θ’）１７２のそれぞれによる複雑な実数値のスカラー関数であってよい。損失関数の最適化（最小値に収束される）は、損失勾配のバックプロパゲーション１８４によって実行されるが、これは、タスク特定機械学習モデル１７０の学習可能なパラメータ（θ’）１７２に対する損失関数の偏微分から訓練モジュール５０によって取得される。このような損失勾配は、次の繰り返しの微調整段階でより低い損失１８２を生成するためにタスク特定機械学習モデル１７０の学習可能なパラメータ（θ’）１７２を修正（または、適応または更新）するために使用されるという点において、訓練モジュール５０によって、それぞれの学習可能なパラメータ（θ’）１７２にバックプロパゲーションされる。

【0070】

次の繰り返しにおいて、修正された学習可能パラメータ（θ’）１７２を含むタスク特定機械学習モデル１７０は、異なるタスク特定出力データ１８０を生成するために、同一または異なる注釈付き画像に適用される。すなわち、タスク特定機械学習モデル１７０は、入力画像に基づいて新たなタスク特定出力データ１８０を生成する。修正されたタスク特定機械学習モデル１７０は、１つ以上の画像に対して下流タスクを実行することに適するようになり、損失関数が最小損失１８２に収束し、学習可能なパラメータ（θ’）１７２の適応が不要になるまで、損失勾配の次のバックプロパゲーションでより低い損失１８２と学習可能なパラメータ（θ’）１７２のより小さい適応につながる。損失関数が収束すると、タスク特定機械学習モデル１７０は、成功的に微調整されたことになる。多様な実施形態において、繰り返される微調整は、収束に達するまで実行されるのではなく、予め定められた回数後に訓練モジュール５０によって終了となる。

【0071】

図２は、図１の訓練の事前学習段階１１０の一例を示している。プレテキスト機械学習モデル１３０は、エンコーダ（モジュール）２３０、表現空間ブロック（モジュール）２６０、およびデコーダ（モジュール）２７０を含む。エンコーダ２３０は、学習可能なエンコーダパラメータのセットを含み、デコーダ２７０は、学習可能なデコーダパラメータのセットを含む。特定のプレテキストタスクによって、表現空間ブロック２６０も、学習可能なパラメータのセットを含んでよい。学習可能および訓練可能は、互いに代替して使用されてよい。

【0072】

プレテキスト機械学習モデル１３０は、第１画像（Ｉ_１）１２０および第２画像（Ｉ_２）１２２を含む注釈なし画像のペアに適用される。第１画像１２０は、第１時点において視覚的コンテンツを描写する。第２画像１２２は、少なくとも部分的に同じ視覚的コンテンツ（例えば、同じシーン、同じオブジェクト、同じ人物、または同じ建築構造）を描写するが、同じ視覚的コンテンツが描写される時点、照明条件、季節、被写界深度、焦点距離のように画像が生成された条件が異なるという点において第１画像とは異なる。第１画像１２０と第２画像１２２のピクセルサイズは、同じであってもよいし、異なってもよい。画像１２０および１２２は、事前学習方法が教師なしで実行されるため、プレテキストタスクによるグランドトゥルースデータを有する注釈を含む必要がない。一部の実施形態において、事前学習は、自己教師ありで実行されてよい。自己教師あり事前学習は、教師なし事前学習の特定の例を意味し得るが、ここで、損失は、注釈なし入力データ（例えば、入力画像）に基づいて学習モジュール５０によって決定され、事前学習を実行するためにグランドトゥルース注釈を必要としない。

【0073】

プレテキスト機械学習モデル１３０のエンコーダ２３０は、第１画像（Ｉ_１）１２０に適用され、画像を第１表現（Ｒ_１）２４０にエンコードする。プレテキスト機械学習モデル１３０のエンコーダ２３０は、第２画像（Ｉ_２）１２２に追加で適用され、独立的に第２画像１２２を第２表現（Ｒ_２）２５０にエンコードする。画像の表現は、数学的空間（例えば、ベクトル空間）の要素である。表現は、ベクトル、ベクトルの集合、行列、またはテンソルであってよい。

【0074】

表現空間ブロック２６０は、２つの画像表現（Ｒ_１、Ｒ_２）２４０、２５０を受信し、表現のうちの一方（例えば、第１画像（Ｉ_１）１２０の表現（Ｒ_１）２４０）を変換された表現２６４に変換する。一例として、第１表現（Ｒ_１）２４０は、第２表現（Ｒ_２）２５０にしたがって変換され、変換された表現２６４と第２表現（Ｒ_２）２５０が整列するようにする。他の例として、第１表現は、学習可能な要素を第１表現に追加することによって変換される。表現の変換は、他の表現に依存してもよいし、他の表現とは独立的であってもよい。

【0075】

デコーダ２７０は、変換された表現２６４を再構成された画像１４０にデコードする。再構成された画像１４０は、第１画像または第２画像の再構成、または第１画像および／または第２画像から誘導可能な画像の再構成であってよい。選択的に、デコーダ２７０は、変換された表現２６４を再構成された画像１４０にデコードするための追加の入力として、変換された表現２６４に変換されていない画像表現を受信する。一例として、第１画像表現（Ｒ_１）２４０が変換された表現２６４に変換された場合、デコーダ２７０は、変換された表現２６４を再構成された画像１４０にデコードするための追加の入力として第２表現（Ｒ_２）２５０を受信してよい。いずれにしても、再構成された画像１４０は、第１表現（Ｒ_１）２４０の変換が第２表現（Ｒ_２）２５０に依存する、および／または変換された表現２６４（第１表現（Ｒ_１）２４０の変換に起因するとき）のデコードが第２表現（Ｒ_２）２５０に基づくという点において、２つの画像表現（Ｒ_１、Ｒ_２）２４０、２５０に基づいて生成され得る。

【0076】

この後、プレテキスト損失１４２が、再構成された画像１４０に基づいて訓練モジュール５０によって決定され、バックプロパゲーション１４４が、プレテキスト損失の最小化に基づいてプレテキスト機械学習モデル１３０の学習可能なパラメータを修正するために訓練モジュールによって実行される。これは、特に、訓練モジュール５０がエンコーダ２３０およびデコーダ２７０の学習可能なパラメータを修正することを含む。表現空間ブロック２６０が学習可能なパラメータを含む場合、このようなパラメータも、バックプロパゲーション１４４中に訓練モジュールによって更新されてよい。プレテキスト損失１４２の決定は、再構成された画像１４０に基づいてよく、特に、再構成の必要がある画像から再構成された画像１４０の偏差を定量化するメトリックに基づいてよい。一例として、再構成された画像１４０は、第１画像（Ｉ_１）１２０の再構成であってよく、この例において、プレテキスト損失１４２は、第１画像（Ｉ_１）１２０からの再構成された画像１４０の偏差を定量化するメトリックに基づいて訓練モジュール５０によって決定されてよい。他の例として、再構成された画像１４０は、第２画像（Ｉ_２）１２２の再構成であってよく、プレテキスト損失１４２は、第２画像（Ｉ_２）１２２からの再構成された画像１４０の偏差を定量化するメトリックに基づいて訓練モジュール５０によって決定されてよい。追加的または代案的に、プレテキスト損失１４２は、変換された表現２６４と、変換された表現２６４に変換されていない画像表現（Ｒ_１、Ｒ_２）２４０、２５０の差を定量化するメトリックに基づいて訓練モジュール５０によって決定されてよい。

【0077】

以下、図３および図４を参照しながら、プレテキスト機械学習モデル１３０の教師なし事前学習１１０のための２つの特定プレテキストタスクについて説明する。

【0078】

図３は、クロスビュー完成のプレテキストタスクのための事前学習システムを示した例示図である。クロスビュー完成事前学習という用語は、クロスビュー完成プレテキストタスクのためのプレテキスト機械学習モデルの事前学習を意味し得る。ここで、ＣｒｏＣｏという略語が、クロスビュー完成を意味するために使用される。

【0079】

図４は、クロスビュー整列のプレテキストタスクのための教師なし事前学習システムを示した例示図である。クロスビュー整列事前学習という用語は、クロスビュー整列プレテキストタスクのためのプレテキスト機械学習モデルの事前学習を意味し得る。ここで、Ｃａｉｍａｎという略語が、クロスビュー整列を意味するために使用される。

【0080】

図３に示したクロスビュー完成事前学習システムは、教師なし事前学習１１０の一例である。以下、ＣｒｏＣｏ事前学習のためのプレテキスト機械学習モデルは、ＣｒｏＣｏ機械学習モデルと呼ぶことにする。ＣｒｏＣｏ機械学習モデルは、図２に示したようなプレテキスト機械学習モデル１３０に該当する。ＣｒｏＣｏ機械学習モデルは、エンコーダ（モジュール）３３０（エンコーダ２３０に対応）、デコーダ（モジュール）３７０（デコーダ２７０に対応）、およびクロスビュー完成ブロック（モジュール）３６０（表現空間ブロック２６０に対応）を含む。

【0081】

ＣｒｏＣｏ機械学習モデルは、第１画像（Ｉ_１）３１０と第２画像（Ｉ_２）３２０を含む注釈なし画像のペアに適用される。２つの画像は、同じ視覚的コンテンツ（例えば、同じシーン、同じオブジェクト、同じ人物、または同じ建築構造）を異なる視点または異なる条件（例えば、照明条件、季節条件、被写体深度、焦点距離など）で描写する。２つの画像のピクセルサイズは、同じであってもよいし、異なってもよい。ＣｒｏＣｏ事前学習方法は教師なしで実行されるため、画像３１０、３２０は、ＣｒｏＣｏ操作によるグランドトゥルースデータを有する注釈を含む必要がない。

【0082】

分割モジュール３００は、第１画像（Ｉ_１）３１０をＮ_１個の素集合画像パッチ（ｐ^ｉ _１）３１２のセット（ｐ_１）：

【数4】

に分割する。異なるパッチ（ｐ^ｉ _１）３１２は、同じピクセルサイズを有してもよいし、異なるピクセルサイズを有してもよい。パッチ３１２は、４×４、８×８、１２×１２、１６×１６、または３２×３２ピクセルのように予め定められたピクセルサイズを有してよい。ただし、パッチ３１２は、任意の他の適切なピクセルサイズを有してよく、正方形ではなく長方形（例えば、４×８または１６×３２ピクセル）であってもよい。簡略化のために、図３は、ａ～ｌのようにラベリングされた画像（Ｉ_１）３１０の比較的に小さい数の１２個のパッチ３１２を示している。ただし、画像（Ｉ_１）３１０は任意の数のパッチに分割されてよく、それは、画像ピクセルサイズおよびパッチピクセルサイズに基づき得る。

【0083】

第１画像（Ｉ_１）３１０と同じように、分割モジュール３００は、第２画像（Ｉ_２）３２０をＮ_２個の素集合画像パッチ（ｐ^ｉ _２）３２２のセット（ｐ_２）：

【数5】

に分割する。第１画像（Ｉ_１）３１０のパッチ３１２と第２画像（Ｉ_２）３２０のパッチ３２２のピクセルサイズは、同じであってもよいし、異なってもよい。一例として、第１画像（Ｉ_１）３１０と第２画像（Ｉ_２）３２０の両方が、１６×１６のピクセルサイズを有する素集合パッチ３１２、３２２に分割される。セット（Ｐ_１）のパッチの数は、セット（Ｐ_２）のパッチの数と同じであってもよいし、それ以上あるいはそれ以下であってもよい。

【0084】

セット（ｐ_１）のパッチ３１２のうちの一部は、マスキングモジュール３０５によってマスキングされ、セット（ｐ_１）が、マスキングされたパッチ３１４（すなわち、ハッチングによって識別されるパッチａ、ｃ、ｄ、ｈ、ｉ、ｊ、およびｋ）セット：

【数6】

（以下、^－ｐ_１とも表記する；上に“－”が付された記号について以下同様）と、残りのマスキングされていないパッチセット：

【数7】

（以下、^～ｐ_１とも表記する；上に“～”が付された記号について以下同様）と、に分割される。ここで、ｍ_ｉ＝０は、パッチ（ｐ^ｉ _１）がマスキングされていないことを示し、ｍ_ｉ＝１は、パッチ（ｐ^ｉ _１）がマスキングされていることを示す。ここで、パッチをマスキングするということは、パッチをマスキングされたパッチ３１４であるものとしてマーキングしたり、その他の方法によって識別することを意味してよい。多様な実施形態において、マスキングされたパッチ３１４のピクセルコンテンツが、ＣｒｏＣＯ損失（プレテキスト損失１４２に対応）を決定するために継続して使用されるように、マスキングされたパッチ３１４のピクセルコンテンツが変更または削除されないようにし得る。マスキングするパッチのうちのどれかが、パッチの総数（Ｎ_１）に対するマスキングされたパッチの予め定められた比率によって画像（Ｉ_１）３１０のパッチ３１２のセットから、例えば、ランダムに、マスキングモジュール３０５によって選択されてよい。代案的に、マスキングされたパッチ３１４は、予め定められたパターンまたは他の予め定められた選択規則に基づいて、マスキングモジュール３０４によって選択されてよい。一例として、画像（Ｉ_１）３１０のパッチの総数に対するマスキングされたパッチの比率は０．５よりも高い。例えば、比率は、０．７５または０．９５の間であってよい。図３において、第１画像（Ｉ_１）３１０は、１２個のパッチに分割されているが、これは、画像（Ｉ_２）３２０のパッチ３２２と同じようにラベリングされる。ラベルｂ、ｅ、ｆ、ｇ、およびｌを有する５つのパッチ３１２だけがマスキングされておらず、ａ、ｃ、ｄ、ｈ、ｉ、ｊ、およびｋとラベリングされた残りの７つのパッチはマスキングされたパッチ３１４である。本出願は、分割後の他の数のパッチで適用可能であり、他の数のマスキングされていないパッチとマスキングされたパッチで適用可能である。

【0085】

エンコーダ（ε_θ）３３０は、学習可能なパラメータθのセットを含む。エンコーダ３３０は、エンコーダ３３０をパッチのセット（ｐ_２）に適用することによって第２画像（Ｉ_２）３２０に適用され、これにより、パッチのセット（ｐ_２）を画像（Ｉ_２）３２０の表現（ε_θ（ｐ_２））３５０にエンコードする。パッチのセット（ｐ_２）は、パッチ表現のセット３５２にエンコードされ、画像（Ｉ_２）３２０の表現（ε_θ（ｐ_２））３５０を形成する。エンコーダ３３０が、パッチのセット（ｐ_２）の各パッチ３２２を対応するパッチ表現３５２に個別にエンコードすることにより、エンコーダ３３０は、パッチのセット（ｐ_２）のパッチ３２２に対して１つのパッチ表現３５２（例えば、特徴ベクトル）を生成する。

【0086】

第１画像（Ｉ_１）３１０を画像（Ｉ_１）３１０の表現３４０に独立的にエンコードするために、同じエンコーダ（ε_θ）３３０が画像（Ｉ_１）３１０にも適用される。しかし、この場合、エンコーダ３３０は、残りのマスキングされていないパッチのセット（^～ｐ_１）だけを受信し、これにより、マスキングされていないパッチのセット（^～ｐ_１）を画像（Ｉ_１）３１０の表現（ε_θ（^～ｐ_１））３４０にエンコードする。パッチのセット（^～ｐ_１）は、パッチ表現のセット３４２にエンコードされ、画像（Ｉ_１）３１０の表現（ε_θ（^～ｐ_１））３４０を形成する。エンコーダ３３０がパッチのセット（^～ｐ_１）の各パッチを対応するパッチ表現３４２に個別にエンコードすることにより、エンコーダは、マスキングされていないパッチのセット（^～ｐ_１）のパッチに対して１つのパッチ表現３４２（例えば、特徴ベクトル）を生成する。

【0087】

一例として、エンコーダ３３０は、そのすべてがここに含まれる、Ｄｏｓｏｖｉｔｓｋｉｙｅｔａｌ．，ＡｎＩｍａｇｅｉｓＷｏｒｔｈ１６×１６Ｗｏｒｄｓ：ＴｒａｎｓｆｏｒｍｅｒｓｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎａｔＳｃａｌｅ，ＩＣＬＲ，２０２１に記載されているようなビジョントランスフォーマ（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ：ＶｉＴ）アーキテクチャで実現されてよい。画像パッチは、ＶｉＴバックボーンのトークンとして使用されてよい。ＶｉＴのアプローチ法にしたがって、エンコーダ３３０は、正弦波位置インベディングが追加される入力トークン（セット（ｐ_２）のパッチ３２２またはセット（^～ｐ_１）のマスキングされていないパッチ３１２に対する線形プロジェクションを含み、一連のトランスフォーマブロックが続いてよい（例えば、マルチレイヤーパーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ：ＭＬＰ）。セルフアテンション（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ））正弦波位置インベディングは、そのすべてがここに含まれる、Ｖａｓｗａｎｉｅｔａｌ．，Ａｔｔｅｎｔｉｏｎｉｓａｌｌｙｏｕｎｅｅｄ，ＮｅｕｒＩＰＳ，２０１７に記載されている。

【0088】

クロスビュー完成ブロック３６０は、表現（ε_θ（^～ｐ_１））３４０、および選択的に表現（ε_θ（ｐ_２））３５０を受信する。ＣｒｏＣｏ完成ブロック３６０は、表現（ε_θ（ｐ_２））３５０を変更されていないそのままとし、該表現をデコーダ３７０に伝達する。追加的に、ＣｒｏＣｏブロック３６０は、表現（ε_θ（^～ｐ_１））３４０を、画像（Ｉ_１）３１０のマスキングされたパッチに対応する学習されたパッチ表現３６２（例えば、学習された特徴ベクトル）でパッチングすることにより、表現（ε_θ（^～ｐ_１））３４０を変換された表現（ε_θ（^～ｐ_１）’）３６４に変換する。一例として、表現（ε_θ（^～ｐ_１））３４０は、画像（Ｉ_１）３１０の各マスキングされたパッチに対して１つの学習された表現３６２（例えば、学習された特徴ベクトル）にパッチングされる。デコーダ３７０によって入力として使用されるパッチ表現の次元がエンコーダ３３０によって生成されるパッチ表現の次元と異なる場合があるため、ＣｒｏＣｏブロック３６０は、全結合層をパッチ表現に適用してデコーダ３７０に対する予め定められた入力次元に投影することにより、ε_θ（ｐ_２）とε_θ（^～ｐ_１）’に対して追加の変換を実行してよい。

【0089】

クロスビュー完成ブロック３６０は、変換された表現（ε_θ（^～ｐ_１）’）３６４をデコーダ３７０に提供する。追加的に、デコーダ３７０は、エンコーダ３３０から直接またはクロスビュー完成ブロック３６０を介して表現（ε_θ（ｐ_２））３５０を受信する。以下、デコーダはＤ_φと表示するが、これは、デコーダ（Ｄ_φ）３７０が学習可能なパラメータ（φ）のセットを含むことを示す。デコーダ３７０は、ε_θ（ｐ_２）３５０を条件とする変換された表現（ε_θ（^～ｐ_１）’）３６４をパッチのセット（ｐ_１）の再構成：

【数8】

（以下、＾ｐ_１とも表記する；上に“＾”が付された記号について以下同様）にデコードし、これにより、画像（Ｉ_１）３１０の各パッチの再構成として再構成された画像３８０を生成するが、これは次のように表現され得る。

【0090】

【数9】

【0091】

一例として、変換された表現（ε_θ（^～ｐ_１）’）３６４は、一連のデコートランスフォーマブロック（デコーダのトランスフォーマモジュール（トランスフォーマアーキテクチャを有するモジュール））に供給される。各ブロックは、（ａ）画像表現（ε_θ（^～ｐ_１））３４０のパッチ表現３４２と、＾ｐ_１のマスキングされたパッチ３１４に対応する追加された学習されたパッチ表現３６２を含むε_θ（^～ｐ_１）’３６４のパッチ表現に対するセルフアテンション、（ｂ）ε_θ（ｐ_２）３４０のマスキングされたパッチ表現を使用したクロスアテンション、および（ｃ）多層パーセプトロン（ＭＬＰ）を含んでよい。

【0092】

学習可能なエンコーダパラメータ（θ）のセットおよび学習可能なデコーダパラメータ（φ）のセット、および変換された表現（ε_θ（^～ｐ_１）’）の学習されたパッチ表現のパラメータは、図２を参照しながら説明したように、プレテキスト損失１４２に基づいてバックプロパゲーション１４４によって訓練モジュール５０によって更新される。

【0093】

一例として、それぞれのプレテキストの損失は、＾ｐ_１の＾ｐ^ｉ _１と^－ｐ_１の対応するマスキングされたパッチ（ｐ）^ｉ _１の差を定量化するメトリックに基づいて、マスキングされていないパッチに対する＾ｐ_１とｐ_１の各パッチの比較に基づいて訓練モジュール５０によって決定さ得る。一例として、画像（Ｉ_１およびＩ_２）に対するプレテキストの損失は、以下の数式に示すように、＾ｐ_１の再構成されたパッチ（＾ｐ^ｉ _１）のピクセルと、^－ｐ_１のすべてのマスキングされていないパッチに対して平均化された^－ｐ_１の対応するマスキングされたパッチ（ｐ^ｉ _１）の対応するピクセルとの平均二乗誤差（ＭＳＥ）損失として評価される。

【0094】

【数10】

【0095】

代案的に、プレテキスト損失は、例えば、与えられたパッチのすべてのピクセルの平均および標準偏差にしたがって、＾ｐ_１の再構成されたパッチ＾ｐ^ｉ _１と、各パッチ内の^－ｐ_１の対応するマスキングされたパッチｐ^ｉ _１を正規化することにより、訓練モジュール５０によって決定されてよい。各パッチの正規化値に基づいて、＾ｐ_１の再構成されたパッチ＾ｐ^ｉ _１と^－ｐ_１のそれぞれの対応するマスキングされていないパッチｐ^ｉ _１の間の平均二乗誤差（ＭＳＥ）損失が、^－ｐ_１のすべてのマスキングされていないパッチに対して訓練モジュール５０によって決定されて平均化される。

【0096】

事前学習されたＣｒｏＣｏ機械学習モデルは、図１の微調整プロセス１５０で詳しく説明したように、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを教師あり微調整するために使用され得る。単一の画像に対する予測を生成する、単眼タスク（例えば、単眼深度推定、深度マップが単一の画像に対して予測される）に対する微調整は、入力として複数の画像（例えば、２つの画像）を必要とするタスクの微調整と区別され得る。単眼微調整シナリオにおいて、入力画像は、分割モジュール３００によって素集合パッチ（例えば、４×４、８×８、１６×１６、または３２×３２ピクセルパッチ）に分割されてよく、ＶｉＴエンコーダに入力されてよく、訓練モジュール５０によって自己教師ありで事前学習されたエンコーダ３３０のパラメータから初期化される。この後、ＶｉＴエンコーダは、下流タスクに対して訓練モジュール５０によって微調整される。精密な予測タスクの場合、タスク特定機械学習モデルは、ＶｉＴエンコーダによって生成された各パッチ表現を独立的に処理し、各パッチ表現のピクセルに対して必要な予測を出力する予測ヘッドとして最終的な全結合層が提供されてよい。この最終出力層は、ＶｉＴエンコーダとは異なり、事前準備を経ずに訓練モジュール５０によって訓練される。

【0097】

ＣｒｏＣｏ事前学習は、入力として画像のペアを含む下流タスク（例えば、オプティカルフロー）に対して使用されてよい。この場合、各入力画像は、分割モジュール３００によって素集合パッチ（例えば、４×４、８×８、１６×１６、または３２×３２ピクセルパッチ）に分割される。タスク特定機械学習モデルは、エンコーダ３３０と同じ構造を有するタスク特定エンコーダを含む。タスク特定エンコーダは、訓練モジュール５０によって、事前学習されたエンコーダ３３０のパラメータ値で初期化される。タスク特定機械学習モデルのエンコーダ３３０は、画像ペアの各画像のパッチを、パッチ表現セットをそれぞれ含むそれぞれの表現にエンコードする。

【0098】

タスク特定機械学習モデルは、デコーダ３７０と同じ構造を有する、タスク特定デコーダをさらに含む。タスク特定デコーダは、訓練モジュール５０によって、事前学習されたデコーダ３７０のパラメータ値で初期化される。第１画像の表現のパッチ表現は、第２画像の表現のパッチ表現に対して計算されたクロスアテンションを使用してデコーダ３７０によって処理される。

【0099】

デコーダ３７０の出力を予め定められたサイズおよび形状に投影するために、最終層が予測ヘッドとして含まれてよい。

【0100】

訓練のために、ＣｒｏＣｏ機械学習モデルは、ＡｄａｍＷオプティマイザを使用するなど、２００個または他の適切な数のエポックで事前学習されてよい。１．５×１０^－４の基本学習率を有するコサイン学習率スケジュールは、２５６の有効バッチサイズが使用されてよい。また、最初の４０個のエポックで線形ウォーミングアップが実行されてよい。ＶｉＴ基盤のバックボーンは、１６×１６ピクセルサイズのパッチとともに、７６８次元を有する一連の１２個のトランスフォーマブロック（モジュール）とセルフアテンションのための１２個のヘッドを含むエンコーダとして使用されてよい。デコーダの場合、５１２次元を有する８個のデコーダブロック（モジュール）と、セルフおよびクロスアテンションのための１６個のヘッドが使用されてよい。

【0101】

ＣｒｏＣｏ機械学習モデルは、屋内シーンの画像ペアを含むデータセットに対して事前学習されてよい。事前学習されたエンコーダは、単眼深度推定を実行するために事前学習されたエンコーダが微調整される一環として、タスク特定機械学習モデルの初期エンコーダとして維持されてよい。下流タスクのオプティカルフローを推定するために事前学習されたエンコーダと事前学習されたデコーダはどちらも、オプティカルフローを推定するためのタスク特定機械学習モデルの初期エンコーダとデコーダとして維持されてよい。エンコーダとデコーダはどちらも、以後に訓練モジュール５０によって微調整され、与えられた画像のペアに対してオプティカルフローの推定を実行する。

【0102】

事前学習されたＣｒｏＣｏモデルの性能は、単眼深度推定タスクのために微調整されるときに評価されてよい。このような例において、タスク特定機械学習モデルは、パッチあたり２５６個の値（深度予測）を生成する。最終出力は、深度予測が正数であることを強制するためにモデルによって指数化される。次に、訓練モジュール５０は、予測値とグランドトゥルース深度値の平均二乗誤差（ＭＳＥ）損失の最小化に基づいてモデルを選択的に訓練する。また、事前学習されたＣｒｏＣｏモデルは、予測ヘッドを使用して各パッチのピクセルに対して２つの値を予測することにより、オプティカルフローを推定するために微調整して評価されてよい。ＭＳＥ損失は、微調整中に訓練モジュール５０によって最小化されてよい。実験結果は、ＣｒｏＣｏプレテキストタスクが低レベルの幾何学キューの利点を採択することにより、他の方法よりも効果的に幾何学的下流ビジョンタスクに対してタスク特定モデルを事前学習できることを示した。

【0103】

【表1】

【0104】

実験は、３Ｄ室内シーンの合成画像に対して実行された。各３Ｄシーンにおいて、５０％よりも大きい共同可視性を有する最大１０００台のペアのカメラ視点がランダムにサンプリングされた。このような視点のペアは、Ｈａｂｉｔａｔシミュレータを使用してレンダリングされてよい。一例として、事前学習のために、互いに異なる室内シーンから合計１，８２１，３９１点のペアが生成されてよい。

【0105】

また、一例において、２００，０００個の下流タスクのための訓練（および、それぞれのテスト）セット（それぞれ２０，０００のペア）が、異なる屋内シーンに対して生成されてよい。単眼深度推定のために、下流タスク特定モデルは、２０，０００枚の画像に対して微調整される反面、２，０００枚の画像がオプティカルフロー推定のための微調整に使用されてよい。２５６×２５６ピクセルサイズの画像が生成されてよく、２２４×２２４サイズのクロップが使用されてよい。単眼深度推定のためにＡｃｃ＠１．２５が報告されているが、これは条件：

【数11】

を満たすピクセルの比率を含んでよく、ｄと^－ｄはそれぞれ予測深度とグランドトゥルース深度である。オプティカルフロー推定のために、平均二乗誤差（ＭＳＥ）損失が報告される。

【0106】

上の表１では、マスキング比率（ｒ）の影響について説明した。７５％マスキングは、ＭＡＥの自動完成のコンテキストで正確度を提供している。全体的に９０％または９５％のような高いマスキング比率は、ＣｒｏＣｏモデルの性能を高める。

【0107】

以下の表２では、追加で、ＣｒｏＣｏアプローチ法の性能がターゲットを正規化するときと、デコーダの深度、すなわち、Ｄ_φにおいてデコーダブロック数（Ｄ）を変更するときに評価される。ターゲットの正規化により、２つの下流タスクの性能を高めることができる。デコーダ深度は単眼タスクに最小限の影響しか及ぼすことができないが，十分な深さのデコーダは，例えばオプティカルフローなどの、入力として画像のペアを採択するタスクに使用可能であるが、これはモデル容量も増加するためである。

【0108】

【表2】

【0109】

下流タスクに対して評価されたＣｒｏＣｏの事前学習方法は、以下の表３において事前準備なし学習および他のモデル（ＭＡＥ）と比較されている。他のモデルは、このデータセットに対する画像分類のための教師ありによって事前学習され、追加で微調整されたり、ＣｒｏＣｏアプローチ法によって事前学習に使用された同じ画像と同じデータセットに対して事前学習されてよい。例えば、１．２５の閾値での深度正確度に対して約２０％の差がある事前準備なし訓練と比較することで２つのタスクに対する事前学習の利点が観察された。ＣｒｏＣｏの事前学習は、１．２５での深度正確度に対して約１％の利得をもたらし、幾何学的タスクに対して他のモデルよりも優れた性能を発揮した。さらに、オプティカルフロー推定に対しては２桁のより優れた改善が得られた。

【0110】

【表3】

【0111】

図４に示したクロスビュー整列（Ｃａｉｍａｎ）事前学習システムは、教師なし事前学習１１０の他の実施例である。Ｃａｉｍａｎ事前学習のためのプレテキスト機械学習モデルは、Ｃａｉｍａｎ機械学習モデルとも呼ばれる。Ｃａｉｍａｎ機械学習モデルは、図２に示したようなプレテキスト機械学習モデル１３０に該当する。Ｃａｉｍａｎ機械学習モデルは、エンコーダ（モジュール）４３０（エンコーダ２３０に対応）、デコーダ（モジュール）４７０（デコーダ２７０に対応）、およびクロスビュー整列ブロック（モジュール）４６０（表現空間ブロック２６０に対応する）を含む。エンコーダ４３０は学習可能なエンコーダパラメータ（θ）のセットを含み、デコーダ４７０は学習可能なデコーダパラメータ（φ）のセットを含む。

【0112】

Ｃａｉｍａｎ機械学習モデルは、ソース画像（Ｉ_Ｓ）４１０とターゲット画像（Ｉ_Ｔ）４２０を含む注釈なし画像のペアに適用される。２つの画像は、同じ視覚的コンテンツ（例えば、同じシーン、同じオブジェクト、同じ人物、または同じ建築構造）を異なる視点または異なる条件（例えば、照明条件、季節条件、被写界深度、焦点距離など）で描写する。２つの画像のピクセルサイズは、同じであってもよし、異なってもよい。Ｃａｉｍａｎ事前学習は教師なしで実行されるため、画像４１０、４２０は、Ｃａｉｍａｎタスクによってグランドトゥルースデータを有する追加の注釈を含む必要がない。

【0113】

ソース画像（Ｉ_Ｓ）４１０は、エンコーダ４３０によってソース表現（ｘ_Ｓ）４４０にエンコードされる。エンコーダ４３０は、ターゲット画像（Ｉ_Ｔ）４２０をターゲット表現（ｘ_Ｔ）４５０に独立的にエンコードする。一実施形態において、ソース表現（ｘ_Ｓ）４４０は、ｎ個のＫ次元ベクトル４４２の整列されたセット：

【数12】

とし得る。これと同様に、ターゲット表現（ｘ_Ｔ）４５０は、ｎ個のＫ次元ベクトル４５２の整列されたセット：

【数13】

とし得る。ベクトルの数（Ｎ）および次元（Ｋ）は、Ｃａｉｍａｎ事前学習方法の調整可能なパラメータであり、任意の適切な値が設定されてよい。一実施形態では、ｎ＝５１２、Ｋ＝１２８である。

【0114】

エンコーダ４３０の一例として、ソースおよびターゲット表現は、そのすべてがここに含まれる、Ｊａｅｇｌｅｅｔａｌ．，ＰｅｒｃｅｉｖｅｒＩＯ：ＡＧｅｎｅｒａｌＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＳｔｒｕｃｔｕｒｅｄＩｎｐｕｔｓ＆Ｏｕｔｐｕｔｓ，ＩＣＬＲ，２０２２に記載されているパーシーバＩＯ（ＰｅｒｃｅｉｖｅｒＩＯ）基盤のアーキテクチャを使用して生成されてよい。例えば、２次元（２Ｄ）畳み込み層（例えば、５×５、６×６、７×７、または９×９の２Ｄ畳み込み層）および整流線形ユニット（ＲｅｃｔｉｆｉｅｒＬｉｎｅａｒＵｎｉｔ：ＲｅＬＵ）を活性化する特徴マップを生成するために入力画像（例えば、ソース画像（Ｉ_Ｓ）４１０またはターゲット画像（Ｉ_Ｔ）４２０）に適用されてよいが、ここで、特定マップは、入力画像の各ピクセルに対する１つの特徴ベクトルを含んでよい。特徴ベクトルの次元は、エンコーダの予め定められたパラメータであってよく、適切な数であってよい。一例として、特徴ベクトルの次元は、３２、６４、１２８、または２５６である。特徴マップは、分割モジュール３００によって、特徴ベクトルのパッチ（例えば、サイズが８×８、１２×１２、１６×１６、２０×２０、または３２×３２である素集合二次パッチ）に分割されてよい。各パッチは、フーリエ位置エンコードに関連してよい。次に、パッチは、入力画像（例えば、ソース画像（Ｉ_Ｓ）４１０またはターゲット画像（Ｉ_Ｔ）４２０の表現（ｘ）を生成するために、クロスアテンションによって次元（Ｋ）のｎ個のランダムに初期化されたベクトルのセットを修正するために使用されるが、これは、セルフアテンション層（例えば、４、６、８、１０、または１２のセルフアテンション層）のブロックを適用することによって更新される。

【0115】

ソース表現（ｘ_Ｓ）４４０およびターゲット表現（ｘ_Ｔ）４５０は、クロスビュー整列ブロック４６０に提供される。クロスビュー整列ブロック４６０は、ソース表現（ｘ_Ｓ）４４０に変換（ｈ）４６６を適用することにより、ソース表現（ｘ_Ｓ）４４０を変換されたソース表現（＾ｘ_ｓ）４６８に変換する。変換（ｈ）４６６は、結果的に変更されたソース表現（＾ｘ_ｓ）４６８がターゲット表現（ｘ_Ｔ）４５０に近似するように（例えば、整列されるように）、ソース表現（ｘｓ）４４０を変換するように構成される変換パラメータ（Ω）４６４のセットを含む。変換されたソース表現（＾ｘ_ｓ）４６８とターゲット表現（ｘ_Ｔ）４５０の整列を達成するために、パラメータモジュール（ｇ）４６２は、ソース表現（ｘ_Ｓ）４４０およびターゲット表現（ｘ_Ｔ）４５０に基づいて変換（ｈ）のパラメータ（Ω）４６４を決定してもよいし、数学的な用語として変換（ｈ）のパラメータ（Ω）４６４を決定してもよい（Ω＝ｇ（ｘ_ｓ，ｘ_Ｔ））。決定されたパラメータ（Ω）４６４は、ソース表現４４２を変換されたソース表現４６８に変換するための変換（ｈ）４６６に入力される。

【0116】

クロスビュー整列ブロック４６０の一例として、各ベクトル：

【数14】

は、２つの部分、すなわち、等辺部分：

【数15】

と、不変部分：

【数16】

（ここで、０＜Ｄ≦Ｋ）に分解されると仮定される。不変部分は、ソースとターゲットビューで変更される等辺部分とは異なり、同じシーンの異なるビューにおいて一定であってよい。変換（ｈ_Ω）４６６の可能な一例として、Ｄ次元回転が挙げられる。しかし、本出願は、他の変換にも適用可能であるし、この代わりにより複雑な変換が選択されてもよい（例えば、より一般的なＤ次元アフィンまたは幾何学的変換など）。上述したように、変換（ｈ_Ω）４６６は、Ｄ次元回転行列（Ω）として与えられ、ソース表現（ｘ_Ｓ）４４０に変換（ｈ_Ω）４６６を適用することは、各表現ベクトルの等辺部分（ｘ_Ｓ，ｉ ^{ｅｑｕｉｖ}）を回転行列（Ω）と掛けることと同じである。ソースとターゲット画像（Ｉ_Ｓ、Ｉ_Ｔ）の表現（ｘ_Ｓ、ｘ_Ｔ）が与えられれば、ソースとターゲットの表現の等辺部分を最も適切に整列させる回転行列（Ω）は、次のように推定されてよい。

【0117】

【数17】

【0118】

ＳＯ（Ｄ）は、すべての可能なＤ次元回転行列を含むＤ次元特殊直交グループを示す。回転は、その全体がここに含まれる、Ｓｃｈｏｎｅｍａｎｎ，ＡｇｅｎｅｒａｌｉｚｅｄｓｏｌｕｔｉｏｎｏｆｔｈｅｏｒｔｈｏｇｏｎａｌＰｒｏｃｒｕｓｔｅｓｐｒｏｂｌｅｍ，Ｐｓｙｃｈｏｍｅｔｒｉｋａ，１９６６、またはＵｍｅｙａｍａ，Ｌｅａｓｔ－ｓｑｕａｒｅｓｅｓｔｉｍａｔｉｏｎｏｆｔｒａｎｓｆｏｒｍａｔｉｏｎｐａｒａｍｅｔｅｒｓｂｅｔｗｅｅｎｔｗｏｐｏｉｎｔｐａｔｔｅｒｎｓ，ＴＰＡＭＩ，１９９１、またはＢｒｅｇｉｅｒ，Ｄｅｅｐｒｅｇｒｅｓｓｉｏｎｏｎｍａｎｉｆｏｌｄｓ：ａ３Ｄｒｏｔａｔｉｏｎｃａｓｅｓｔｕｄｙ，３ＤＶ，２０２１に記載されているように、閉じた微分可能な形式を使用して推定されてよい。これは，ソース表現（ｘ_Ｓ）４４０をターゲット表現（ｘ_Ｔ）４５０に整列させることを許容する。具体的に、変換されたソース表現（＾ｘ_ｓ）４６８は、次のようなクロスビュー整列ブロック４６０によって決定されてよい：

【数18】

【0119】

クロスビュー整列タスクを解決するために、Ｃａｉｍａｎ機械学習モデルは、ソース画像とターゲット画像がどのように関連しているかを示す一部の変換パラメータ（回転行列（Ω）を抽出する。これは、モデルがビュー間の視点や照明などの変更事項をエンコードするようにする。一実施形態において、変換（ｈ）は、予め定められた自由度を有するように制限される。この予め定められた数は、Ｃａｉｍａｎ事前学習手順の適応可能なパラメータであり、任意の適した数が設定されてよい。上述した例示的な実施形態では、この制限された数の自由度は、Ｄを予め定められた数（例えば、２４）に制限することに相当する。

【0120】

ソース表現（ｘ_Ｓ）４４０が変換されたソース表現（＾ｘ_ｓ）４６８に変換されると、デコーダ４７０は、変換されたソース表現（＾ｘ_ｓ）４６８を再構成された画像（Ｉ_Ｒ）４８０にデコードする。デコーダの一例として、変換されたソース表現（＾ｘ_ｓ）４６８は、パッチベースのアプローチ法を使用して特徴マップにデコードされる。特徴マップは、再構成された画像の各ピクセルに対する予め定められた次元（例えば、３２、６４、１２８、または２５６）の１つの特徴ベクトルを含んでよい。特徴マップの予め定められたパッチサイズ（例えば、８×８、１２×１２、１６×１６、３２×３２ピクセル）の各パッチに対して、このパッチに対する特徴マップ値の平坦化された表現は、＾ｘ_ｓとパッチの２次元位置のフーリエ符号化の間のクロスアテンションを実行することによって生成される（例えば、平坦化モジュールによって）。平坦化された表現は、単一特徴マップに併合され（例えば、併合モジュールによって）、予め定められた畳み込みカーネルサイズ（例えば、５×５、７×７、９×９）を有する２Ｄ畳み込み層が最終的に再構成されたＲＧＢ画像を生成するために適用される。再構成された画像は、ターゲット画像（Ｉ_Ｔ）４２０と同じピクセルサイズを有する。

【0121】

学習可能なエンコーダパラメータ（θ）のセットおよび学習可能なデコーダパラメータ（φ）のセットは、プレテキスト損失（例えば、プレテキスト損失１４２）に基づいたバックプロパゲーション（例えば、バックプロパゲーション１４４）によって、訓練モジュール５０によって更新される。Ｃａｉｍａｎ事前学習に対する損失（Ｃａｉｍａｎ損失）は、再構成された画像（Ｉ_Ｒ）４８０のターゲット画像（Ｉ_Ｔ）４２０に対する比較に基づいて、例えば、再構成された画像（Ｉ_Ｒ）４８０のターゲット画像（Ｉ_Ｔ）４２０からの偏差を定量化するメトリック（例えば、平均二乗誤差メトリック）に基づいて、訓練モジュール５０によって決定されてよい。追加的または代案的に、Ｃａｉｍａｎ損失は、変換されたソース表現（＾ｘ_ｓ）４６８のターゲット表現（ｘ_Ｔ）４５０に対する比較に基づいて、例えば、変換されたソース表現（＾ｘ_ｓ）４６８のターゲット表現（ｘ_Ｔ）４５０からの偏差を定量化するメトリック（例えば、平均二乗誤差メトリック）に基づいて、訓練モジュール５０によって決定されてよい。一実施形態において、Ｃａｉｍａｎ損失は、以下の数式を使用して、訓練モジュール５０によって決定されてよい。

【0122】

【数19】

【0123】

ここで、Ｉ_Ｒ（ｉ）は、ピクセル位置（ｉ）における再構成画像（Ｉ_Ｒ）４８０の赤－緑－青（ＲＧＢ）値に対応し、これと同様に、Ｉ_Ｔ（ｉ）は、ピクセル位置（ｉ）におけるターゲット画像（Ｉ_Ｔ）４２０のＲＧＢ値に対応する。Ｌ_δはフーバー（Ｈｕｂｅｒ）損失である。

【0124】

【数20】

【0125】

一例として、δ＝０．１である。しかし、δ＝０．１に対して他の適切な値を使用することも可能である。

【0126】

事前学習されたＣａｉｍａｎ機械学習モデル（具体的には、事前学習されたエンコーダ４３０および事前学習されたデコーダ４７０）は、図１の微調整プロセス１５０に詳しく説明されているように、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルの教師あり微調整に使用され得る。単一画像に対する予測を生成する単眼タスク（例えば、深度マップが単一画像に対して予測される、単眼深度推定）に対する微調整と、複数の画像（例えば、２つの画像）を入力として使用するタスクに対する微調整を区別してよい。単眼微調整シナリオにおいて、タスク特定機械学習モデルは、エンコーダとデコーダを含んでよく、どちらもＣａｉｍａｎ機械学習モデルの対応部分と同じ構造を有する。タスク特定機械学習モデルのエンコーダのエンコーダパラメータは、Ｃａｉｍａｎ機械学習モデルの事前学習されたエンコーダのパラメータによって初期化される。これと同様に、タスク特定機械学習モデルのデコーダのデコーダパラメータは、Ｃａｉｍａｎ機械学習モデルの事前学習されたデコーダのパラメータによって初期化される。単眼幾何学的下流ビジョンタスク（例えば、単眼深度推定）のためのタスク特定のモデルは、単一チャンネル（深度など）を出力する最終畳み込み層を含んでよい。この最終層は、事前準備なしで訓練モジュール５０によって訓練される反面、エンコーダとデコーダは、事前学習された（予め定められた）パラメータで訓練モジュール５０によって初期化される。エンコーダは入力画像に適用され、入力画像の表現を生成する。デコーダは、最終層とともに、出力データ（例えば、深度データ）を生成する。

【0127】

ＣｒｏＣｏ事前学習は、画像のペアを入力として必要とする下流タスク（例えば、相対姿勢の推定など）に使用されてもよい。相対カメラ姿勢の推定の例として、幾何学的下流ビジョンタスクは、同じシーンの２つのビュー間の相対的なカメラ変位を推定することを含む。クロスビュー整列は、相対姿勢推定の問題に近い事前学習タスクを提供し、Ｃａｉｍａｎによって事前学習されたモデルは、特定のカメラに対して与えられたシーンの２つのビューの相対的回転（Ｒ∈ＳＯ（３））および相対的変形：

【数21】

を決定するために微調整される。

【0128】

姿勢推定のためのタスク特定機械学習モデルにおいて、２つの画像は、Ｃａｉｍａｎ機械学習モデルのエンコーダ４３０と同じ構造を有するタスク特定エンコーダに独立的に供給され、事前学習されたＣａｉｍａｎエンコーダ４３０のパラメータで訓練モジュール５０によって初期化される。生成された２つの表現は、２つの画像表現間の整列パラメータ（Ω）を推定するためにパラメータモジュール（ｇ）４６２に入力される。このパラメータは、例えば、３×３行列および３Ｄ変形ベクトル（ｔ）をそれぞれ決定する回転および変形ヘッドの入力として与えられる。このようなヘッドは、予め定められた数の隠し層（例えば、６４、１２８、１９６、２５６）を有する多様な実施形態において多層パーセプトロン（ＭＬＰ）を使用して実現されてよい。３×３行列は、そのすべてがここに含まれる、Ｂｒｅｇｉｅｒ，Ｄｅｅｐｒｅｇｒｅｓｓｉｏｎｏｎｍａｎｉｆｏｌｄｓ：ａ３Ｄｒｏｔａｔｉｏｎｃａｓｅｓｔｕｄｙ”，３ＤＶ，２０２１に記載されるように、特殊直交プロクルステス直交正規化を使用して回転行列（Ｒ）に追加で直交正規化される。

【0129】

下流モデルは、教師あり方式で訓練モジュール５０によって微調整され、グランドトゥルース相対姿勢：

【数22】

に対して次のような姿勢推定エラーを最小化する。

【0130】

【数23】

【0131】

一実施形態によると、λ＝０．１ｍ^－２である。ただし、他の適切な値が使用されてもよい。

【0132】

以下の表は、上述した自己教師ありＣａｉｍａｎプロセスで事前学習された単眼深度推定と姿勢推定に関する実験結果を示したものである。実験結果は、ＰｙＴｏｒｃｈでＣａｉｍａｎモデルを実現することによって達成された。Ｃａｉｍａｎ機械学習モデルは、Ｒａｄａｍオプティマイザで事前学習されてよい。

【0133】

【表4】

【0134】

実験は、３Ｄ室内シーンの合成画像に対して実行された。各シーンにおいて、５０％以上の共通視認性を有する最大１０００点のカメラ視点をランダムにサンプリングした。このような視点ペアは、シミュレータを使用してレンダリングされた。２５６×２５６サイズの画像が使用されたし、２２４×２２４サイズのランダムクロップが入力画像として使用された。全体的に、異なる室内シーンからの８００，０００ペアのＣａｉｍａｎ機械学習モデルを事前学習するために使用されることができた。数ペア、視点、サンプリング、およびサイズの一例が提供されているが、本出願は他の値の適用も可能である。

【0135】

相対姿勢推定下流タスクの場合、訓練（各テスト）セットには、Ｃａｉｍａｎの事前学習プロセス中には目に見えない屋内シーンから、同様の方法でさらに生成される２００，０００個（それぞれ２０，０００個）のペアを含んでよい。モデルの相対姿勢推定性能を評価するために異なるサイズのサブセットが考慮されてよく、タスク特定機械学習モデルは、１００個のエポックに対して微調整されてよい。

【0136】

表４は、事前準備なしで相対姿勢推定のためのタスク特定機械学習モデル（エンコーダとデコーダを含む）を訓練したときに得られる結果と、タスク特定モデルが説明されているクロスビュー整列プロセスを使用して事前学習されたプレテキスト機械学習モデルから微調整したときに得られる結果を比較している。表４は、事前学習がこのタスクに対するモデルの性能に持続的に有益であることを示している。

【0137】

単眼深度推定のために、各タスク特定機械学習モデルは、相対姿勢推定のために使用される下流タスク訓練セットからランダムに選択された２０，０００枚の画像に対して微調整されてよい。微調整されたタスク特定機械学習モデルは、対応するテストセットで評価されてよい。予測された深度の品質を評価するためにＡｃｃ＠１．２５が使用されてよく、これは、ｍａｘ（ｄ／^－ｄ，^－ｄ／ｄ）＜１．２５を満たすピクセルの割合を含み、ｄと^－ｄはそれぞれ予測深度とグランドトゥルース深度である。

【0138】

Ｃａｉｍａｎの事前学習の性能は、単眼深度推定の幾何学的下流ビジョンタスクに対して経験的に評価されてよい。タスク特定機械学習モデルは、正数の深度予測を強制するために指数化された（例えば、指数関数に入力された）スカラー値を出力する。タスク特定モデルは、例えば、ログ空間において、深度予測とグランドトゥルース深度値のＭＳＥ損失を最小限に抑えるために訓練モジュール５０によって微調整されてよい。表５では、事前準備なしで単眼深度推定のためのタスク特定機械学習モデル（エンコーダとデコーダの両方）を訓練したときに得られる性能と、Ｃａｉｍａｎが事前学習されたときのタスク特定機械学習モデルの性能を比較している。事前学習されたモデルを使用したときの性能利得が観察され、性能は０．３９から０．４８に増加した。

【0139】

【表5】

【0140】

図５は、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練するコンピュータ実装方法５００を示したフローチャートである。当該方法は、段階５１０で、訓練モジュール５０が、プレテキスト機械学習モデル（例えば、プレテキスト機械学習モデル１３０）の教師なし事前学習を実行することから始まる。実施形態によって、教師なし事前学習は、自己教師あり事前学習であってもよい。プレテキスト機械学習モデルは、エンコーダ（例えば、エンコーダ２３０、３３０、または４３０）およびデコーダ（例えば、デコーダ２７０、３７０、または４７０）を含む。エンコーダはエンコーダパラメータのセットを有し、デコーダはデコーダパラメータのセットを有する。教師なし事前学習は、図１の教師なし事前学習１１０によって実行され得る。

【0141】

段階５２０で、タスク特定機械学習モデル（例えば、タスク特定機械学習モデル１７０）が、事前学習されたプレテキスト機械学習モデルに基づいて、幾何学的下流ビジョンタスク（例えば、深度推定、光流推定、または相対姿勢推定のようなコンピュータビジョンにおける３Ｄ幾何学的タスク）のために構成または取得される。タスク特定機械学習モデルは、タスク特定エンコーダパラメータのセットを有するタスク特定エンコーダを含む。タスク特定機械学習モデルは、タスク特定デコーダパラメータのセットを有するタスク特定デコーダをさらに含み得る。一実施形態において、タスク特定エンコーダは、プレテキスト機械学習モデルのエンコーダと同じ構造を有する。さらに、タスク特定デコーダは、プレテキスト機械学習モデルのデコーダと同じ構造を有し得る。

【0142】

段階５３０で、事前学習されたプレテキスト機械学習モデルのエンコーダパラメータのセットでタスク特定エンコーダパラメータのセットを初期化する。一実施形態において、タスク特定デコーダパラメータのセットは、事前学習されたプレテキスト機械学習モデルのデコーダパラメータのセットで訓練モジュール５０によって初期化される。

【0143】

段階５４０で、タスク特定機械学習モデルは、幾何学的下流ビジョンタスクのために訓練モジュール５０によって微調整訓練される。一実施形態において、微調整は、図１の教師あり微調整１５０にしたがって、注釈付き画像の訓練データセットまたは注釈付き画像のペアに基づいた教師あり微調整によって実行される。

【0144】

幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルの微調整は、１つ以上の画像（例えば、注釈付き画像など）にタスク特定機械学習モデルを適用することから始まる。単眼ダウンストリームの幾何学的ビジョンタスク（例えば、単眼深度推定など）の場合は、タスク特定機械学習モデルを１つの入力画像に適用し、両眼ダウンストリームの幾何学的ビジョンタスク（両眼深度推定、相対姿勢推定、画像フロー推定など）の場合は、タスク特定機械学習モデルを入力画像のペアに適用する。画像ペアの画像は、同じ視覚的コンテンツ（同じシーン）を描写してよく、異なる視点または異なる条件（例えば、異なる焦点距離、異なる被写界深度、異なる照明条件、異なる季節）で撮影されてよい。

【0145】

タスク特定エンコーダは、各入力画像に対するそれぞれの画像表現を生成する。一実施形態において、１つ以上の画像表現は、デコードされた画像表現を生成するようにタスク特定デコーダに入力される。１つ以上の画像表現またはデコードされた画像表現は、幾何学的下流ビジョンタスクによってタスク特定出力データ（例えば、シーンの深度マップ、相対的回転行列、および相対的変形ベクトル）を生成するように、タスク特定機械学習モデルのタスク特定出力層（例えば、２次元畳み込み層または多層パーセプトロン）に入力され得る。１つ以上の注釈付き画像は、幾何学的下流ビジョンタスクに対応するグランドトゥルースデータが注釈として付けられている。タスク特定損失関数の値は、生成された出力データとグランドトゥルースデータとの差を定量化する（これに対応する）メトリックに基づいて訓練モジュール５０によって決定され得る。次に、タスク特定機械学習モデルは、例えば、タスク特定の損失関数の値に基づいてまたはそれを最小化するために、タスク特定機械学習モデルのタスク特定エンコーダパラメータのセット（および、オプションとしてタスク特定デコーダパラメータのセット）を調整することによって訓練モジュール５０によって調整される。

【0146】

次の繰り返し段階は、新たなタスク特定出力データを生成するために、１つ以上の注釈付き画像に調整されたタスク特定機械学習モデルを適用すること、タスク特定損失関数の新たな値を決定すること、およびタスク特定エンコーダ（および、オプションとしてタスク特定デコーダ）の学習可能なパラメータをさらに調整することから始まってもよいし、これを含んでもよい。この繰り返しプロセスは、予め定められた回数が繰り返された（例えば、エポック）後に、またはタスク特定損失関数の最小値に達したとき（損失関数の最小化が収束したとき）に停止となる。

【0147】

タスク特定機械学習モデルが幾何学的下流ビジョンタスクのために微調整されると、モデルは、画像のセットに対して幾何学的下流ビジョンタスクを実行するように適用されてよい。微調整されたモデルは、微調整段階（例えば、微調整段階１５０）の繰り返し段階と同じ方式によって１つ以上の注釈なし画像に適用される。しかし、損失関数の値の決定およびタスク特定機械学習モデルの繰り返し調整は、適用段階では実行されない。

【0148】

一例として、タスク特定機械学習モデルは、相対姿勢の推定のために微調整されてよい。このような例において、微調整されたタスク特定機械学習モデルは、事前学習または微調整されたデータセットの一部ではなく、新たな画像のペアに適用される。新たな画像のペアは、同じシーンの２つのビューを描写する（同じシーンを異なる視点から描写する）。新たな画像のペアに微調整されたモデルを適用することにより、新たな画像ペアの画像のビュー間の相対的回転と相対的変形が、予測データとしてタスク特定機械学習モデルによって決定される。

【0149】

一例として、タスク特定機械学習モデルが微調整される幾何学的下流ビジョンタスクは、深度の推定であってよい。深度推定は、単眼方式（単一の画像を使用）と両眼法（２つの画像を使用）で実行されてよい。単眼の場合、微調整されたタスク特定機械学習モデルは、新たな画像の深度マップを予測データとして抽出するために、新たな画像（事前学習または微調整されたデータセットの一部ではない）に適用する。両眼の場合、微調整されたタスク特定機械学習モデルは、描写されたシーンに対する深度マップを出力予測データとして抽出するために、同じシーンを異なる視点から描写した新たな画像のペアに適用する。

【0150】

他の例として、タスク特定機械学習モデルは、オプティカルフローの推定のために微調整されてよい。この幾何学的下流ビジョンタスクの場合、微調整されたタスク特定機械学習モデルは、新たな第１画像と新たな第２画像を含む新たな画像ペア（事前学習または微調整されたデータセットの一部ではない）に適用される。新たな第１画像と第２画像は、同じシーンを異なる条件または異なる視点から描写する。新たな画像ペアに適用するとき、微調整されたタスク特定機械学習モデルは、予測データとして複数のピクセルペアを識別する。各ピクセルペアは、新たな第１画像の１つのピクセルと新たな第２画像の対応する１つのピクセルを含み、ピクセルのペアは、描写されたシーンの同じ視覚的特徴に対応する。ピクセルのペアから新たな第１画像と新たな第２画像との間の描写されたシーンの識別された視覚的特徴量の動きが、タスク特定機械学習モデルによって決定される。

【0151】

以下、図６、図７、および図８を参照しながら、図５の事前学習５１０についてより詳しく説明する。

【0152】

図６は、プレテキストタスクのためのプレテキスト機械学習モデル（例えば、プレテキスト機械学習モデル１３０）を事前学習するコンピュータ実現方法６００を示したフローチャートである。方法６００は、図５の教師なし事前学習５１０の例示的な実装を提供する。プレテキスト機械学習モデルは、エンコーダ（例えば、エンコーダ２３０、３３０、または４３０）およびデコーダ（例えば、デコーダ２７０、３７０、または４７０）を含む。エンコーダはエンコーダパラメータのセットを有し、デコーダはデコーダパラメータのセットを有する。

【0153】

段階６１０は、第１画像（例えば、画像１２０、３１０、または４１０）および第２画像（例えば、画像１２２、３２０、または４２０）を含む注釈なし画像のペアを取得することから始まる。第１および第２画像は、異なる条件（例えば、異なる焦点距離、異なる照明条件、異なる季節）または異なる視点で撮影された同じシーンを描写する。

【0154】

段階６２０で、プレテキスト機械学習モデルのエンコーダは、第１画像を第１表現（例えば、画像表現２４０、３４０、または４４０）にエンコードする。追加的に、第２画像は、エンコーダによって第２表現（例えば、画像表現（２５０、３５０、または４５０））にエンコードされる。

【0155】

段階６３０で、第１表現は、変換された表現（例えば、変換された表現２６４、３６４、または４６８）に変換される。変換は、表現空間ブロック２６０、クロスビュー完成ブロック３６０、またはクロスビュー整列ブロック４６０で実行され得る。段階６４０で、変換された表現は、プレテキスト機械学習モデルのデコーダによって再構成された画像（例えば、再構成された画像１４０、３８０、または４８０）にデコードされる。再構成された画像は、第１表現の変換が、第２表現に依存するか、デコーダが、変換された表現と第２表現の両方を入力として採択して、第１表現を、第２表現を条件とする再構成された画像にデコードするか、であるという点において、第１および第２表現に基づく。

【0156】

段階６５０で、エンコーダおよびデコーダは、損失関数に基づいてまたはそれを最小化するために（損失関数の値（例えば、プレテキスト損失１４２）を最小するために）エンコーダおよびデコーダパラメータの各セットを調整することによって、訓練モジュール５０によって調整される（すなわち、更新または修正される）。エンコーダおよびデコーダパラメータを調整することにより、プレテキスト機械学習モデルは、調整後にプレテキストタスクをより適切に実行するように調整される。プレテキスト機械学習モデルは、例えば、表現空間ブロック２６０などの表現空間ブロックの一部として、追加の学習可能なパラメータを含んでよい。このような選択的な追加学習が可能なパラメータも、損失関数の最小化に基づいて調整される。損失関数を最小化するために、プレテキストの損失（損失関数の値）は、再構成された画像の再構成しようとする画像（例えば、入力画像ペアの画像のうちの１つ）に対する偏差に基づいて決定されてよい。追加的または代案的に、損失は、変換された表現の入力画像ペアの画像にエンコーダを適用することによって生成される画像表現の１つに対する偏差に基づいて決定されてよい。プレテキスト機械学習モデルの学習可能なパラメータ（エンコーダおよびデコーダのパラメータを含む）の調整は、バックプロパゲーションによって実行される（例えば、バックプロパゲーション１４４）。プレテキスト機械学習モデルを調整した後、プロセスは、停止されてもよいし、繰り返されてもよい。プロセスが繰り返される場合、新たな繰り返しは、段階６１０で、調整されたエンコーダおよびデコーダを含む調整されたプレテキスト機械学習モデルによって開始される。プロセスは、予め定められた回数の繰り返し（例えば、エポック）の後に、またはプレテキスト損失関数の最小値に達したとき（例えば、プレテキスト損失関数の値が最小値に向かうか、最小値に収束したとき）に停止され得る。

【0157】

図７は、クロスビュー完成プレテキストタスクのためのプレテキスト機械学習モデル（例えば、プレテキスト機械学習モデル１３０）のクロスビュー完成事前学習を実行するコンピュータ実現方法７００の一例を示したフローチャートである。このような方法７００は、図５の事前学習段階５１０の一例であって、クロスビュー完成の特定プレテキストタスクのための方法６００の一例である。プレテキスト機械学習モデルは、エンコーダ（例えば、エンコーダ３３０）とデコーダ（例えば、デコーダ３７０）を含む。エンコーダはエンコーダパラメータのセットを有し、デコーダはデコーダパラメータのセットを有する。

【0158】

方法７００は、段階７１０で、第１画像（例えば、画像３１０）と第２画像（例えば、画像３２０）を含む画像のペアを取得することから始まる。第１画像および第２画像は、同じシーン（同じ視覚的コンテンツ）を描写し、異なる条件または異なる視点で撮影される。したがって、画像ペアの２つの画像は、同じ視覚的コンテンツを異なる視点、異なる照明、異なる被写界深度、異なる焦点距離、またはその他の差によって表す。特に、画像ペアの２つの画像のピクセルコンテンツは、互いに異なるが同じシーンを描写する。画像ペアの各画像は、描写されたシーンの明確なビューを提供し、これはペアの他の画像によって提供されるビューとは異なる。

【0159】

段階７２０で、第１画像を第１の素集合パッチのセット（例えば、画像パッチ３１２）に分割し、第２画像を第２の素集合パッチのセット（例えば、画像パッチ３２２）に分割する。段階７３０で、第１パッチのセットの複数のパッチがマスキングされる。一例として、第１パッチのセットの予め定められた割合（例えば、７５～９５％）のパッチがマスキングされるようにランダムに選択されて、マスキングされる。

【0160】

第１画像を分割した後、段階７４０で、エンコーダは、第１パッチのセットの残りのマスキングされていないパッチを、対応するマスキングされていないパッチ表現（例えば、パッチ表現３４２）にエンコードして第１パッチ表現セットを生成することによって、第１画像を第１表現（例えば、画像表現３４０）にエンコードする。第１画像を第１表現にエンコードすることは、第１パッチ表現セットがマスキングされたパッチ（例えば、マスキングされたパッチ３１４）に対するパッチ表現を含まないように、マスキングされていないパッチだけを第１パッチ表現セットにエンコードすることを含む。

【0161】

段階７５０で、エンコーダは、第２パッチのセットの各パッチを、対応するそれぞれのパッチ表現（例えば、パッチ表現３５２）にエンコードして第２パッチ表現セットを生成することによって、第２画像を第２表現（例えば、画像表現３５０）にエンコードする。段階７４０および段階７５０は、図６の段階６２０に示したＣｒｏＣｏプレテキストタスクのための実装例である。

【0162】

段階７６０で、第１画像の第１表現は、変換された表現（例えば、変換された表現３６４）に変換される。一例として、第１表現は、第１画像のマスキングされたパッチのそれぞれに対して、第１画像のマスキングされていないパッチに対するパッチ表現だけを含む第１パッチ表現セットをそれぞれの学習された表現（例えば、学習された表現３６２）でパッチングすることによって変換された表現に変換される。結果的に得られる変換された表現は、第１パッチ表現セットのパッチ表現のそれぞれ（例えば、パッチ表現３４２）を含み、マスキングされたパッチに対応する複数の学習されたパッチ表現（例えば、学習されたパッチ表現３６２）を含み得る。

【0163】

第１表現の変換に続き、当該方法は、デコーダによって、変換された表現を再構成された画像（例えば、再構成された画像３８０）にデコードする（段階７７０）。変換された表現は、第１のパッチのセットの各マスキングされたパッチに対して、第１および第２パッチ表現セットに基づいてそれぞれのマスキングされたパッチの予測された再構成を生成することによってデコードされる。一例において、第１パッチのセットのマスキングされたパッチの予測された再構成の生成は、デコーダによって、マスキングされたパッチの学習された表現をマスキングされたパッチの予測された再構成にデコードすることを含む。マスキングされたパッチの学習された表現をデコードするために、デコーダは、第１および第２パッチ表現セットを入力データとして受信し、入力データに基づいてマスキングされたパッチの学習された表現をデコードする。一実施形態において、変換された表現は第１パッチ表現セットのパッチ表現を含み、変換された表現は第２表現を条件とする再構成された画像にデコードされる。

【0164】

段階７８０において、エンコーダおよびデコーダは、損失関数の最小化（例えば、損失関数の値（例えば、プレテキスト損失１４２）の最小化）のために、対応するエンコーダおよびデコーダパラメータのセットを調整することによって調整される（例えば、更新または修正される）。一例において、損失関数は、第１画像の各マスキングされたパッチとそれぞれの予測された再構成の差を定量化するメトリックに基づいてよい。一例において、プレテキスト機械学習モデルは、第１画像のマスキングされたパッチに対応する学習された表現の学習可能なパラメータのセットを含んでよい。この例において、追加学習が可能なパラメータとそれに対応する学習された表現も、損失関数を最小化するために調整される。エンコーダおよびデコーダパラメータ、および選択的に学習された表現のパラメータを調整することにより、プレテキスト機械学習モデルは、調整後にクロスビュー完成タスクがより適切に実行されるように調整される。プレテキスト機械学習モデルの学習可能なパラメータ（エンコーダおよびデコーダのパラメータを含む）の調整は、バックプロパゲーション（例えば、バックプロパゲーション１４４）によって実行される。プレテキスト機械学習モデルを調整した後、プロセスは、停止されてもよいし、繰り返されてもよい。プロセスが繰り返される場合、新たな繰り返しは、調整されたエンコーダおよびデコーダ（および、選択的に調整された学習可能な表現を含む）を含む調整されたプレテキスト機械学習モデルで７１０によって開始される。当該方法は、予め定められた回数の繰り返しが完了した後、またはプレテキスト損失関数の最小値に達したとき（例えば、プレテキスト損失関数の値が最小値に向かって、または最小値に収束したときに）に停止され得る。

【0165】

図８は、図５の事前学習５１０のコンピュータ実現方法８００の一例、すなわち、クロスビュー整列プレテキストタスクのためのプレテキスト機械学習モデル（例えば、プレテキスト機械学習モデル１３０）のクロスビュー整列事前学習を実行するコンピュータ実現方法を示したフローチャートである。方法８００は、クロスビュー整列の特定プレテキストタスクのための方法６００の一例である。プレテキスト機械学習モデルは、エンコーダ（例えば、エンコーダ４３０）とデコーダ（例えば、デコーダ４７０）を含む。エンコーダはエンコーダパラメータのセットを有し、デコーダはデコーダパラメータのセットを有する。

【0166】

当該方法は、第１画像（例えば、ソース画像４１０）および第２画像（例えば、ターゲット画像４２０）を含む画像のペアを取得することから始まるが、ここで、第１画像および第２画像は、同じシーンを描写し、異なる条件または異なる視点から撮影される。したがって、画像ペアの２つの画像は、同じ視覚的コンテンツを異なる視点または異なる照明、異なる被写界深度、異なる焦点距離、または同じシーンに対する他の視覚的な差によって表す。特に、画像ペアの２つの画像のピクセルコンテンツは、互いに異なるが同じシーンを含む。画像ペアの各画像は、描写されたシーンの明確なビューを提供し、これはペアの他の画像によって提供されるビューとは異なる。

【0167】

段階８２０で、プレテキスト機械学習モデルのエンコーダによって、第１画像を第１画像の第１表現（例えば、ソース表現４４０）にエンコードし、第２画像を第２画像の第２表現（例えば、ターゲット表現４５０）にエンコードする。一例として、第１表現は、第１のｎ個のベクトルのセット（例えば、整列されたセット）：

【数24】

とし得る。同様に、第２表現は、第２のｎ個のベクトルのセット（例えば、整列されたセット）：

【数25】

とし得る。

【0168】

段階８３０で、第１表現は、第１表現に変換（例えば、変換４６６）を適用することによって、変換された表現（例えば、変換されたソース表現４６８）に変換される。変換は、変換された表現が第２表現に近似するように（例えば、整列するように）、第１および第２表現に基づいて決定される。変換は、第１表現および第２表現に基づいて、パラメータモジュール（例えば、パラメータモジュール４６２）によって決定される変換パラメータ（例えば、パラメータ（Ω）４６４）のセットに依存する。一実施形態において、第１および第２ベクトルセットの各ベクトルは、Ｄ次元等辺部分および（Ｋ－Ｄ）次元不変部分に分解されるが、ここで、Ｄは１とＫの間の自然数である。この例において、変換を適用することは、各ベクトルを分解すること、第１ベクトル集合の各ベクトルの等辺部分に（Ｄ×Ｄ）次元変換行列（Ω）を適用することを含む。第１および第２ベクトル集合の任意のベクトルに変換を適用することは、それぞれのベクトルの不変部分を変更しない。ベクトルの等辺部分に変換行列（Ω）を適用することは、変換行列（Ω）をベクトルの等辺部分と乗算することによって実行されてよい。変換行列（Ω）は、第１のベクトル集合のベクトルの等辺部分を第１のベクトル集合の各ベクトルの等辺部分と整列させるように決定されてよい。一実施形態において、変換はＤ次元回転であってよく、変換行列（Ω）はＤ次元回転行列であってよい。このような実施形態の場合、変換行列（Ω）は、以下の数式によって決定されてよい。

【数26】

【0169】

ここで、ｘ_ｉ，ｉ ^{ｅｑｕｉｖ}はベクトル（ｘ_ｉ，ｊ）の等辺部分を示し、ｘ_２，ｉ ^{ｅｑｕｉｖ}はベクトル（ｘ_２，ｉ）の等辺部分を示す。ＳＯ（Ｄ）はＤ次元回転グループ（すなわち、次元Ｄの特殊直交グループ）を示す。前記数式において、関数「ａｒｇ」は、変換値が合の最小値でなく、合の最小値が達成される行列（＾Ω）であることを示している。

【0170】

段階８４０で、デコーダは、変換された表現を再構成された画像（例えば、再構成された画像４８０）にデコードする。

【0171】

段階８５０で、エンコーダおよびデコーダは、損失関数の最小化（損失関数の値（プレテキスト損失１４２）の最小化）のために、対応するエンコーダおよびデコーダパラメータのセットを調整することによって調整される（すなわち、更新または修正される）。損失関数は、再構成された画像と第２画像の差を定量化するメトリックに基づく。追加的または代案的に、損失関数は、変換された表現と第２表現の差を定量化するメトリックに基づいてよい。エンコーダおよびデコーダパラメータを調整することにより、プレテキスト機械学習モデルは、調整後にクロスビュー整列タスクがより適切に実行されるように調整される。プレテキスト機械学習モデルの学習可能なパラメータ（エンコーダおよびデコーダのパラメータを含む）の調整は、バックプロパゲーション（例えば、バックプロパゲーション１４４）によって実行され得る。プレテキスト機械学習モデルを調整した後、プロセスは、停止されてもよいし、繰り返されてもよい。プロセスが繰り返される場合、新たな繰り返しは、段階８１０で、調整されたエンコーダおよびデコーダを含む調整されたプレテキスト機械学習モデルから始まる。プロセスは、予め定められた回数の繰り返しが完了した後、またはプレテキスト損失関数の最小値に達したとき（例えば、プレテキスト損失関数の値が最小値に向かって、または最小値に収束したとき）に停止され得る。

【0172】

クロスビュー完成とクロスビュー整列の２つのプレテキストタスクは、幾何学的下流ビジョンタスクに対してタスク特定機械学習モデルを訓練するために組み合わされてよい。このために、メソッドを組み合わせる多様な技術が実装され得る。一例（「初期融合アプローチ法」と呼ぶ）として、２つの個別のプレテキスト機械学習モデルが、訓練モジュール５０によって事前に訓練される。第１プレテキスト機械学習モデルは、クロスビュー完成事前学習方法７００によって事前学習される。第２プレテキスト機械学習モデルは、クロスビュー整列事前学習方法８００によって事前学習される。これは、２つの事前学習されたエンコーダを招来するが、１つはＣｒｏＣｏプレテキストタスクに対して事前学習され、他の１つはＣａｉｍａｎプレテキストタスクに対して事前学習される。幾何学的下流ビジョンタスクのためのタスク特定機械学習モデル（例えば、モデル１７０）は、このような事前学習されたエンコーダの両方に基づくか、これらを使用して訓練モジュール５０によって構築される。一例として、ガイダンス微調整（例えば、教師あり微調整１５０）は、１つ以上の入力画像を第１事前学習されたエンコーダに供給して１つ以上の画像に対する１つ以上の第１表現を招来することにより、訓練モジュール５０によって実行される。これと同様に、１つ以上の入力画像は、訓練モジュール５０によって第２事前学習されたエンコーダに供給され、これは１つ以上の入力イメージに対する１つ以上の表現を招来する。次に、各画像の第１および第２表現を連結することにより、１つ以上の入力画像のそれぞれに対して訓練モジュール５０によって結合された表現が生成される。最終的に、結合された表現は、タスク特定機械学習モデルの最終タスク特定層（例えば、多層パーセプトロン）に入力される。タスク特定層は、幾何学的下流ビジョンタスクによってタスク特定の出力データを生成し、タスク特定損失（例えば、損失１８２）が、出力データと１つ以上の入力画像の注釈付きグランドトゥルースデータに基づいて訓練モジュール５０によって決定される。最後に、タスク特定機械学習モデルの学習可能なパラメータ（エンコーダのパラメータおよびタスク特定層のパラメータを含む）が、例えば、バックプロパゲーション（例えば、バックプロパゲーション１８４）によって訓練モジュール５０によって調整される。

【0173】

クロスビュー完成事前学習とクロスビュー整列事前学習を組み合わせるための他の例（「後期融合アプローチ法」と呼ぶ）が図９に示されているが、これは、幾何学的下流ビジョンタスクの予測データを生成するコンピュータ実装方法９００を示したフローチャートである。方法９００は、段階９１０で、第１プレテキスト機械学習モデル（例えば、モデル１３０）のクロスビュー整列事前学習を使用して、幾何学的下流ビジョンタスクに対して第１タスク特定機械学習モデル（例えば、モデル１７０）を訓練することから始まる。第１タスク特定機械学習モデルの訓練は、方法５００にしたがって実行され、事前学習段階５１０は、クロスビュー整列事前学習方法８００にしたがって実行される。

【0174】

段階９２０で、第２タスク特定機械学習モデルが、第２プレテキスト機械学習モデルのクロスビュー完成事前学習を使用して幾何学的下流ビジョンタスクに対して訓練される。第２タスク特定機械学習モデルの訓練は方法５００によって実行され、事前学習段階５１０はクロスビュー完成事前学習方法７００によって実行される。段階９１０および９２０は、任意の順序にしたがって順に実行されてもよいし、並行して実行されてもよい。

【0175】

段階９３０および段階９４０で、２つの個別に訓練されたタスク特定機械学習モデルが、少なくとも１つの画像からそれぞれの予測データを抽出するために少なくとも１つの画像に適用される。段階９３０および段階９４０は、任意の順序にしたがって順に実行されてもよいし、並行して実行されてもよい。具体的に、段階９３０で、幾何学的下流ビジョンタスクによる第１予測データは、少なくとも１つの画像に訓練された第１タスク特定機械学習モデルを適用することによって生成される。段階９４０で、幾何学的ビジョンタスクによる第２予測データは、少なくとも１つの画像に訓練された第２タスク特定機械学習モデルを適用することによって生成される。段階９５０で、第１信頼値が第１予測データに対して決定され、第２信頼値が第２予測データに対して決定される。第１信頼値は、幾何学的下流ビジョンタスクに対する第１予測データの予測（例えば、推定）の正確度を示すことができ、第２信頼値は、幾何学的下流ビジョンタスクに対する第２予測データの予測（例えば、推定）の正確度を示すことができる。第１および第２信頼値は、注釈付き画像のテストセットにそれぞれの訓練されたタスク特定機械学習モデルを適用すること、テストセットの注釈付き画像の結果として抽出された予測データをテストセットの注釈付き画像の注釈ありグランドトゥルースデータと比較することによって決定され得る。図９に示すように、段階９５０は、段階９３０および段階９４０の後、および段階９６０の前に実行されてよい。しかし、段階９５０は、段階９１０および段階９２０の後、および９６０の前の任意の時点に実行されてもよい。特に、段階９５０は、段階９３０と段階９４０の前または９３０と９４０の間に実行されてよい。

【0176】

当該方法は、段階９６０で、第１信頼値および第２信頼値に基づいて第１予測データと第２予測データを融合させることにより、幾何学的ビジョンタスクに対する結果的な予測データを生成することで終了となる。第１予測データと第２予測データを融合することは、予測データの加重和を決定することを含むが、ここで、加重値は、それぞれの信頼値に基づく。

【0177】

上述した例では方法のコンテキストについて説明したが、これは、対応する装置またはシステムの対応するコンポーネント、モジュール、または特徴の説明でもある。方法の機能の一部またはすべては、これらが１つ以上のプロセッサ、マイクロプロセッサ、電子回路、および／または処理回路によって（または、これを使用して）実行されるという点において、コンピュータによって実現されるものであってよい。

【0178】

上述した方法および特徴は、図１０の機能ブロック図に示すようなアーキテクチャ内に実現されてよく、これは、データ交換のために、インターネットなどのネットワーク１００４（無線および／または有線）を介して通信するサーバ１０００および１つ以上のコンピューティング装置（総称して１００２）を含む。サーバ１０００およびコンピューティング装置１００２は各々、１つ以上のプロセッサ１０１２およびハードディスクなどのメモリ１０１３を含む。コンピューティング装置１００２は、自律型車両１００２ｂ、ロボット１００２ｃ、コンピュータ１００２ｄまたは携帯電話１００２ｅ、または他の適切なタイプのコンピューティング装置などの、サーバ１０００と通信する任意のコンピューティング装置を含み得る。

【0179】

一例として、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練する方法５００が、事前学習方法６００、７００、または８００と組み合わせて実行される。サーバは、任意のサーバ装置に訓練されたタスク特定機械学習モデルを提供してよく、これは、入力される１つ以上の画像に訓練された機械学習モデルを適用することにより、１つ以上の画像から幾何学的下流ビジョンタスクによる予測データを抽出する。一例として、装置の１つは、事前学習方法６００、７００、または８００と組み合わせて幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練するために方法５００を実行した後、１つ以上の画像から幾何学的下流ビジョンタスクによって予測データを抽出するために、１つ以上のイメージに訓練されたタスク特定機械学習モデルを適用する。一実施形態において、装置の１つは、幾何学的下流ビジョンタスクによって予測データを生成する方法９００を実行する。

【0180】

追加の実施形態において、自律的装置（例えば、車両１００２ｂまたはロボット１００２ｃ）は、装置周辺の第１画像を生成する光学センサ（例えば、カメラ）を含んでよい。自律的装置は、装置周辺の第２画像を生成する第２光学センサ（例えば、第２カメラ）をさらに含んでよい。第１画像および第２画像は、異なる視点で装置の周囲を描写する。代案的に、自律的装置は、第２の光学センサは含まず、メモリ装置（例えば、メモリ装置１０１３ｂ／ｃ）に装置の周辺の第２画像を記録する。記録された第２画像は、光学センサによって事前に生成されたものとし得る。自律的装置は、事前学習方法６００、７００、または８００と組み合わせ、方法５００によって、幾何学的下流ビジョンタスクのためのタスク訓練機械学習モデルを訓練してよい。代案的に、自律的装置は、訓練されたタスク特定機械学習モデルをサーバから受信してよく、サーバが、事前学習方法６００、７００、または８００と組み合わせて、方法５００によって、幾何学的下流ビジョンタスクのためのタスク特定機械学習モデルを訓練する。自律的装置は、幾何学的ビジョンタスクによって、１つ以上の画像から予測データを抽出するために、１つ以上の画像に訓練されたタスク特定機械学習モデルを適用し得る。自律的装置は、抽出された予測データに基づいて、その移動状態（例えば、速度または移動方向）またはその動作をさらに調整し得る。すなわち、自律的装置は、抽出された予測データに基づいて、速度および／またはステアリングを調整し得る。

【0181】

一実施形態において、タスク特定機械学習モデルが訓練された幾何学的下流ビジョンタスクは、単眼深度の推定であってよい。自律的装置は、訓練されたタスク特定機械学習モデルを第１画像に適用し、これにより第１画像から深度マップを抽出するが、ここで、深度マップは自律的装置の周辺に対応する。深度マップは、画像を撮影したカメラに対するピクセルまたはパッチから最も近いオブジェクトまでのそれぞれの相対距離に対する各ピクセルまたは各パッチのインジケーションを含んでよい。抽出された深度マップに基づいて、自律的装置は、自律的装置の周辺に存在するオブジェクトまでの距離を決定する。自律的装置は、決定されたオブジェクトまでの距離に基づいて速度および／または移動方向を調整する。

【0182】

他の実施形態において、タスク特定機械学習モデルが訓練された幾何学的下流ビジョンタスクは、両眼深度の推定であってよい。自律的装置は、訓練されたタスク特定機械学習モデルを画像のペアに適用し、これにより画像のペアから深度マップを抽出するが、ここで、深度マップは自律的装置の周辺に対応する。深度マップは、画像を撮影したカメラに対するピクセルまたはパッチから最も近いオブジェクトまでのそれぞれの相対距離に対する各ピクセルまたは各パッチのインジケーションを含む。画像のペアは、光学センサによって生成される第１画像と第２光学センサによって生成される第２画像とを含み、画像ペアの画像は、光学センサによって実質的に同時に生成される。抽出された深度マップに基づいて、自律的装置は、自律的装置の周辺に存在するオブジェクトまでの距離を決定する。決定されたオブジェクトまでの距離に基づいて、自律的装置は、その速度および／またはその移動方向を調整する。すなわち、自律的装置は、抽出された距離データに基づいて速度および／またはステアリングを調整する。

【0183】

また他の実施形態において、タスク特定機械学習モデルが訓練された幾何学的下流ビジョンタスクは、相対姿勢の推定であってよい。自律的装置は、訓練されたタスク特定機械学習モデルを画像のペアに適用し、これにより画像のペアから相対的回転行列と相対的変形ベクトルを抽出する。画像のペアは、光学センサによって生成された第１画像と装置のメモリに記録された第２画像とを含むが、ここで、第２画像は、第１画像よりも先に光学センサまたは他の光学センサによって生成されたものである。装置のメモリは、第２画像の位置情報をさらに記録し得る。位置情報は、装置の周辺に対する以前の装置の位置を示し得る。抽出された相対的回転行列、相対的変形ベクトル、および位置情報に基づいて、自律的装置は、自律的装置の周辺に対する新たな装置の位置を決定する。自律装置は、決定された新たな位置に基づいて速度および／またはその移動方向を調整する。すなわち、自律装置は、決定された位置に基づいて速度および／またはステアリングを調整する。

【0184】

また他の実施形態において、タスク特定機械学習モデルが訓練された幾何学的下流ビジョンは、オプティカルフロー量の推定であってよい。自律的装置は、訓練されたタスク特定機械学習モデルを画像のペアに適用し、これにより、画像のペアに対して対応するピクセルのペアを抽出する。画像のペアは、光学センサによって生成された第１画像と装置のメモリに記録された第２画像を含むが、ここで、第２画像は、第１画像よりも先に光学センサによって生成されたものである。抽出された対応するピクセルのペアは、第１画像からの１つのピクセルと第２画像からの対応する１つのピクセルを含む。自律型装置は、抽出された対応するピクセルのペアに基づいて、自律型車両の周辺に存在するオブジェクトの速度および／または移動方向を決定する。自律型車両は、決定されたオブジェクトの速度および／または移動方向に基づいて速度および／またはその移動方向を調整する。すなわち、自律型装置は、例えば、オブジェクトとの衝突を回避するために、決定されたオブジェクトの速度および／または移動方向に基づいて速度および／またはステアリングを調整する。

【0185】

上述した説明は、本質的な例示に過ぎず、開示、この適用、または用途を制限しようとする意図はない。本開示の広範囲の教示は、多様な形態で実現することができる。したがって、本開示は、特定の実施形態を含んでいるが、図面、明細書、および添付の特許請求の範囲を研究することによって他の修正事項が明らかになるため、本開示の実際の範囲がこれに限定されてはならない。上述した方法に含まれる１つ以上の段階は、本開示の原理を変更しない範囲であれば、異なる順序（または、同時に）で実行可能であることが理解されなければならない。また、それぞれの実施形態が特定の特徴を有するものと説明したが、本開示の一実施形態と関連して説明した特徴の１つ以上は、他の実施形態のいずれかの特徴として実施されてもよいし、その組み合わせが明確に説明されていなくても、他の実施形態のいずれかの特徴と組み合わせることが可能である。すなわち、上述した実施形態は、相互排他的ではなく、１つ以上の実施形態の相互の順列は本開示の範囲内で維持される。

【0186】

要素（例えば、モジュール、回路素子、半導体層など）同士の空間的および機能的関係は、「接続」、「嵌合」、「結合」、「隣接」、「次」、「上」、「上」、「下」、および「配置」を含む様々な用語を用いて説明する。「直接的」と明確に記載されていない限り、本開示で第１要素と第２要素の関係を説明する場合、その関係は第１要素と第２要素の間に他の介在要素が存在しない直接的な関係であってもよいが、第１要素と第２要素の間に１つ以上の介在要素が（空間的または機能的に）存在する間接的な関係であってもよい。ここで使用するように、用語Ａ、Ｂ、Ｃのうち少なくとも１つは、非排他的な論理ＯＲを使用する論理（ＡＯＲＢＯＲＣ）を意味するものであると解釈されなければならず、「Ａのうち少なくとも１つ、Ｂのうち少なくとも１つ、Ｃのうち少なくとも１つ」として解釈されてはならない。

【0187】

図面において矢印の方向は、一般的には、図面内で関心のある情報（データや命令など）の流れを示す。例えば、要素Ａと要素Ｂが多様な情報を交換する関係であるが、要素Ａから要素Ｂに送信される情報が該当の図面と関連する場合は、矢印は要素Ａから要素Ｂを指すように示す。この単方向の矢印は、要素Ｂから要素Ａに送信される情報がないことを意味するものではない。また、要素Ａから要素Ｂに送信される情報の場合、要素Ｂは要素Ａに情報に対する要求や情報の受信確認を送信することもある。

【0188】

本出願において、以下の定義を含め、「モジュール」または「コントローラ」という用語は、「回路」という用語に置き換えることが可能である。「モジュール」という用語は、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル、アナログ、または混合アナログ／デジタル個別回路、デジタル、アナログ、または混合アナログ／デジタル集積回路、組み合わせ論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コードを実行するプロセッサ回路（共有、専用、またはグループ）、プロセッサ回路によって実行されるコードを記録するメモリ回路（共有、専用、またはグループ）、上述した機能を提供する他の適切なハードウェアコンポーネント、またはシステムオンチップなどのような、これに含まれる一部またはすべての組み合わせを意味し、その一部であっても、これを含むものであってもよい。

【0189】

モジュールは、１つ以上のインタフェース回路を含んでよい。一例として、インタフェース回路は、ＬＡＮ、インターネット、ＷＡＮ、またはこれらの組み合わせに接続される有線または無線インタフェースを含んでよい。本開示の任意の所定のモジュールの機能は、インタフェース回路を介して接続される複数のモジュールに分散されてよい。例えば、複数のモジュールは、ロードバランシングを許容してよい。他の例として、サーバ（リモートまたはクラウドとも呼ばれる）モジュールは、モジュールの代わりに一部の機能を実行してもよい。

【0190】

上述したように、コードは、ソフトウェア、ファームウェア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、機能、クラス、データ構造、および／またはオブジェクトを示してよい。共有プロセッサ回路は、複数のモジュールからのコードの一部またはすべてのコードを実行する単一のプロセッサ回路を含む。用語グループプロセッサ回路は、追加のプロセッサ回路と組み合わせて、１つ以上のモジュールからのコードの一部またはすべてのコードを実行するプロセッサ回路を含む。マルチプロセッサ回路に関する言及は、個別のダイ上の複数のプロセッサ回路、単一ダイ上の複数のプロセッサ回路、単一プロセッサ回路の複数のコア、単一プロセッサ回路の複数のスレッド、またはこれらの組み合わせを含む。共有メモリ回路は、複数のモジュールからのコードの一部またはすべてを記録する単一メモリ回路を含む。グループメモリ回路は、追加のメモリと組み合わせて、１つ以上のモジュールからのコードの一部またはすべてを記録するメモリ回路を含む。

【0191】

メモリ回路は、コンピュータ読み取り可能な媒体のサブセットである。ここで使用されるように、コンピュータ読み取り可能な媒体という用語は、媒体（例えば、搬送波）によって伝播される一時的な電気または電気的信号は含まない。したがって、コンピュータ読み取り可能な媒体という用語は、有形的かつ非一時的なものであると見なされる。有形的かつ非一時的なコンピュータ読み取り可能な媒体の非限定的な例として、不揮発性メモリ回路（例えば、フラッシュメモリ回路、消去可能なプログラム読み取り可能な専用メモリ回路、またはマスク読み取り専用メモリ回路）、揮発性メモリ回路（例えば、静的ランダムアクセスメモリ回路または動的ランダムアクセスメモリ回路）、磁気記録媒体（例えば、アナログまたはデジタル磁気テープ、またはハードディスクドライブ）、および光学記録媒体（例えば、ＣＤ、ＤＶＤ、またはブルーレイディスク）が挙げられる。

【0192】

本出願で説明する装置および方法は、コンピュータプログラムによって実現される１つ以上の特定の機能を実行するように汎用コンピュータを構成することによって作成された特殊目的コンピュータによって部分的または完全に実現されてよい。上述した機能ブロック、フローチャートの構成要素、およびその他の要素は、熟練した技術者またはプログラマの日常的な作業によってコンピュータプログラムに変換可能なソフトウェアとして機能する。

【0193】

コンピュータプログラムは、少なくとも１つの有形的かつ非一時的なコンピュータ読み取り可能な媒体に記録されるプロセッサ実行可能命令を含む。コンピュータプログラムは、記録されたデータを含むか、またはこれに依存する。コンピュータプログラムは、特殊目的コンピュータのハードウェアと相互作用する基本入力／出力システム（ＢＩＯＳ）、特殊目的コンピュータの特定の装置と相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザーアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを含んでよい。

【0194】

コンピュータプログラムは、（ｉ）ＨＴＭＬ（（ｈｙｐｅｒｔｅｘｔｍａｒｋｕｐｌａｎｇｕａｇｅ）、ＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）、またはＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）のような構文解析説明テキスト、（ｉｉ）アセンブリコード、（ｉｉｉ）コンパイラによってソースコードから生成される目的コード、（ｉｖ）インタプリタによる実行のためのソースコード、（ｖ）適時コンパイラによるコンパイルおよび実行のためのソースコードなどを含んでよい。例えば、ソースコードは、Ｃ、Ｃ＋＋、Ｃ＃、ＯｂｊｅｃｔｉｖｅＣ、Ｓｗｉｆｔ、Ｈａｓｋｅｌｌ、Ｇｏ、ＳＱＬ、Ｒ、Ｌｉｓｐ、Ｊａｖａ（登録商標）、Ｆｏｒｔｒａｎ、Ｐｅｒｌ、Ｐａｓｃａｌ、Ｃｕｒｌ、ＯＣａｍｌ、Ｊａｖａｓｃｒｉｐｔ（登録商標）、ＨＴＭＬ５（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ５ｔｈｒｅｖｉｓｉｏｎ）、Ａｄａ、ＡＳＰ（ＡｃｔｉｖｅＳｅｒｖｅｒＰａｇｅｓ）、ＰＨＰ（ＨｙｐｅｒｔｅｘｔＰｒｅｐｒｏｃｅｓｓｏｒ）、Ｓｃａｌａ、Ｅｉｆｆｅｌ、Ｓｍａｌｌｔａｌｋ、Ｅｒｌａｎｇ、Ｒｕｂｙ、Ｆｌａｓｈ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ（登録商標）、Ｌｕａ、ＭＡＴＬＡＢ、ＳＩＭＵＬＩＮＫ、およびＰｙｔｈｏｎ（登録商標）を含む言語からの構文を使用して作成されてよい。

【図1】