(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024052634
(43)【公開日】2024-04-11
(54)【発明の名称】物体発見のための球面オートエンコーダを備えたシステム及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240404BHJP
G06T 7/11 20170101ALI20240404BHJP
【FI】
G06T7/00 350B
G06T7/11
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023170122
(22)【出願日】2023-09-29
(31)【優先権主張番号】17/957,156
(32)【優先日】2022-09-30
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】フィリペ カブリタ コンデッサ
(72)【発明者】
【氏名】マヤ ルドルフ
(72)【発明者】
【氏名】マックス ウェリング
(72)【発明者】
【氏名】シンディー ロー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA01
5L096FA02
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】コンピュータ実装システム及び方法は、物体発見に関連する。
【解決手段】本システム及び方法は、ソース画像を受信することと、ソース画像の各ピクセルと所定の位相値とを関連付けることによって入力データを生成することとを含む。エンコーダは、入力データを符号化して球面座標の潜在表現データを生成する。デコーダは、潜在表現データを復号してソース画像の球面再構成データを生成する。球面再構成データは、動径成分及び複数の位相成分を含む。再構成画像は、少なくとも動径成分に基づいて生成される。再構成画像は、ソース画像の再構成である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
物体発見のためのコンピュータ実装された方法であって、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと、
を含む、コンピュータ実装された方法。
【請求項2】
前記方法はさらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項1に記載のコンピュータ実装された方法。
【請求項3】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付けるものである、
請求項1に記載のコンピュータ実装された方法。
【請求項4】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項1に記載のコンピュータ実装された方法。
【請求項5】
前記方法はさらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項1に記載のコンピュータ実装された方法。
【請求項6】
前記損失データは、前記ソース画像と前記再構成画像との間の平均二乗誤差に基づいて生成される、請求項5に記載のコンピュータ実装された方法。
【請求項7】
前記方法はさらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項1に記載のコンピュータ実装された方法。
【請求項8】
プロセッサと、
前記プロセッサとデータ通信するメモリと、
を備えるシステムであって、
前記メモリは、前記プロセッサによって実行されるときに、前記プロセッサに、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと
を含む方法を実施させるための命令を含むコンピュータ可読データを記憶している、システム。
【請求項9】
前記システムはさらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項8に記載のシステム。
【請求項10】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付けるものである、
請求項8に記載のシステム。
【請求項11】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項8に記載のシステム。
【請求項12】
前記システムはさらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項8に記載のシステム。
【請求項13】
前記損失データは、前記ソース画像と前記再構成画像との間の平均二乗誤差に基づいて生成される、請求項12に記載のシステム。
【請求項14】
前記システムはさらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項8に記載のシステム。
【請求項15】
プロセッサによって実行されるときに前記プロセッサに方法を実施させるための命令を含むコンピュータ可読データを記憶した非一時的コンピュータ可読媒体であって、前記方法は、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと、
を含む、非一時的コンピュータ可読媒体。
【請求項16】
さらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付ける、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項18】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項19】
さらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項20】
さらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項15に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概してデジタル画像処理に関し、より具体的には、物体発見のための物体中心表現に関連する機械学習システムに関する。
【背景技術】
【0002】
発明の背景
現在、物体発見に関するほとんどの機械学習の取り組みは、個々の物体の潜在表現を分離するスロットに基づくアプローチに焦点を当てている。ただし、こうしたスロットに基づくシステムにおいては、物体の特徴を各スロットへ適当に分離するために、反復手順と複雑なトレーニングスキームとを備えた複雑なアーキテクチャを必要とする傾向がある。さらに、複素値の活性化を使用して物体中心表現を学習する複素オートエンコーダが存在する。ただし、複素オートエンコーダは、表現し得る物体の数に制限がある。
【発明の概要】
【課題を解決するための手段】
【0003】
発明の概要
以下は、以下にて詳細に説明される特定の実施形態の概要である。記載の態様は、単に読者にこれらの特定の実施形態の簡単な概要を提供するために提示されたものであり、その説明によって本開示の範囲を限定することを意図したものではない。実際に、本開示は、以下に明示的に記載されていない様々な態様を包含し得る。
【0004】
少なくとも1つの態様によれば、コンピュータ実装された方法は、物体発見に関する。本方法は、ソース画像を受信することを含む。本方法は、ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することを含む。本方法は、エンコーダを介して入力データを符号化して球面座標の潜在表現データを生成することを含む。本方法は、デコーダを介して潜在表現データを復号してソース画像の球面再構成データを生成することを含む。球面再構成データは、動径成分及び複数の位相成分を含む。本方法は、少なくとも動径成分に基づいて再構成画像を生成することを含む。再構成画像は、ソース画像の再構成である。
【0005】
少なくとも1つの態様によれば、システムは、プロセッサとメモリとを含む。メモリはプロセッサとデータ通信する。メモリは、プロセッサによって実行される際にプロセッサに方法を実行させるための命令を含むコンピュータ可読データを記憶している。本方法は、ソース画像を受信することを含む。本方法は、ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することを含む。本方法は、エンコーダを介して入力データを符号化して球面座標の潜在表現データを生成することを含む。本方法は、デコーダを介して潜在表現データを復号してソース画像の球面再構成データを生成することを含む。球面再構成データは、動径成分及び複数の位相成分を含む。本方法は、少なくとも動径成分に基づいて再構成画像を生成することを含む。再構成画像は、ソース画像の再構成である。
【0006】
少なくとも1つの態様によれば、非一時的コンピュータ可読媒体は、プロセッサによって実行される際にプロセッサに方法を実行させるための命令を含むコンピュータ可読データを記憶している。本方法は、ソース画像を受信することを含む。本方法は、ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することを含む。本方法は、エンコーダを介して入力データを符号化して球面座標の潜在表現データを生成することを含む。本方法は、デコーダを介して潜在表現データを復号してソース画像の球面再構成データを生成することを含む。球面再構成データは、動径成分及び複数の位相成分を含む。本方法は、少なくとも動径成分に基づいて再構成画像を生成することを含む。再構成画像は、ソース画像の再構成である。
【0007】
本発明のこれらの及び他の特徴、態様及び利点につき、添付の図面に従って以下の詳細な説明において論じる。なお、図面を通して同様の符号は、類似の又は同様の部分を表現している。
【図面の簡単な説明】
【0008】
【
図1】本開示の例示的な実施形態による、物体発見のための球面オートエンコーダを含むシステムの一例を示す図である。
【
図2】本開示の例示的な実施形態による、球面自動符号化ネットワークの一例を示す図である。
【
図3】本開示の例示的な実施形態による、球面オートエンコーダを含むシステムの一例を示す図である。
【
図4】本開示の例示的な実施形態による、モバイルマシン技術に関する
図3のシステムの図である。
【
図5】本開示の例示的な実施形態による、セキュリティ技術に関する
図3のシステムの図である。
【
図6】本開示の例示的な実施形態による、撮像技術に関する
図3のシステムの図である。
【発明を実施するための形態】
【0009】
詳細な説明
例として図示及び説明する本明細書に記載の実施形態及びその利点の多くは前述の説明によって理解され、さらに、開示の主題から逸脱することなく、又は、その利点の1つ以上を犠牲にすることなく、構成要素の形状、構造及び配置に様々な変更を加えることができることが明らかであろう。実際に、これらの実施形態についての記載の形態は単なる説明にすぎない。これらの実施形態につき種々の修正形態及び代替形態が可能であり、以下の特許請求の範囲はこうした変更を包含及び含むことを意図しており、開示の特定の形態に限定されず、むしろ、本開示の精神及び範囲に該当する全ての変更形態、等価形態及び代替形態を包含するものである。
【0010】
図1は、デジタル画像処理を実行するシステム100を示している。システム100は、球面オートエンコーダ130を含む。球面オートエンコーダ130は、球面座標を使用した活性化を介して物体中心表現を学習するように構成されている。これに関して、システム100は、入力画像(例えば、ソース画像202)を受信し、球面オートエンコーダ130を介して出力画像(例えば、再構成画像228)を生成するように構成されている。出力画像は、入力画像の再構成されたバージョンである。さらに、システム100は、入力画像(例えば、ソース画像202)内の物体の物体セグメンテーションマスク230を生成するように構成されている。
【0011】
システム100は、少なくとも1つの処理デバイスを備えた少なくとも1つの処理システム110を含む。例えば、処理システム110は、少なくとも電子プロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、任意の適当な処理技術又は任意の数及び任意の組合せのこれらを含む。処理システム110は、本明細書において説明される機能を提供するように動作可能である。
【0012】
システム100は、処理システム110に動作可能に接続されたメモリシステム120を含む。例示的な実施形態においては、メモリシステム120は少なくとも1つの非一時的コンピュータ可読記憶媒体を含み、これは、本明細書に開示しているように、少なくとも処理システム110が動作及び機能を実行することができるようにするために、種々のデータを記憶し、これらへのアクセスを提供するように構成されている。例示的な実施形態においては、メモリシステム120は、単一のメモリデバイス又は複数のメモリデバイスを備える。メモリシステム120は、電気的、電子的、磁気的、光学的、半導体的、電磁気的、又は、システム100とともに動作可能な任意の適当なストレージ技術を含み得る。例えば、例示的な実施形態においては、メモリシステム120は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、ディスクドライブ、メモリカード、光記憶デバイス、磁気記憶デバイス、メモリモジュール、任意の適当なタイプのメモリデバイス、又は、任意の数及び任意の組合せのこれらを含む。処理システム110及び/又はシステム100の他のコンポーネントに関して、メモリシステム120は、ローカル、リモート又はこれらの組合せ(例えば、部分的にローカルかつ部分的にリモート)である。例えば、メモリシステム120は、処理システム110及び/又はシステム100の他のコンポーネントから遠隔にある少なくともクラウドに基づくストレージシステム(例えば、クラウドに基づくデータベースシステム)を含み得る。
【0013】
メモリシステム120は、少なくとも球面オートエンコーダ130と機械学習データ140とを含み、これらはメモリシステム120に記憶されている。メモリシステム120はまた、コンピュータビジョンアプリケーション150及び他の関連データ160を含み得るものであり、これらもメモリシステム120に記憶され得る。球面オートエンコーダ130は、命令を含むコンピュータ可読データを含み、ここでの命令は、処理システム110によって実行される際に、少なくとも球面自動符号化ネットワーク200をトレーニングする(又は、トレーニングして使用する)ように構成されている。球面オートエンコーダ130はまた、別のシステム(例えば、
図3)に展開されて使用されるように構成されている。コンピュータ可読データは、命令、コード、ルーチン、様々な関連データ、任意のソフトウェア技術、又は、任意の数及び任意の組合せのこれらを含む。
【0014】
球面オートエンコーダ130は、球面自動符号化ネットワーク200(
図2)を含む。球面自動符号化ネットワーク200は、本明細書において説明する球面自動符号化プロセスを実行するように構成された少なくとも1つの人工ニューラルネットワークモデル及び/又は任意の適当な機械学習モデルを含む。例えば、球面自動符号化ネットワーク200は、畳み込みオートエンコーダ208及び畳み込み層224を含む。畳み込みオートエンコーダ208は、畳み込みエンコーダ210(f
encの符号化関数を有する)及び畳み込みデコーダ214(f
decの復号関数を有する)を備えている。さらに、球面自動符号化ネットワーク200は、物体セグメンタ226を含むように構成されている。球面自動符号化ネットワーク200は、ソース画像202などの入力画像を入力として受信するように構成されている。ソース画像202は、センサシステム170の1つ以上のセンサから直接に又は間接的に取得されるデジタル画像である。球面自動符号化ネットワーク200は、ソース画像202を受信すると、球面再構成データ218を生成するように構成されている。球面再構成データ218を用いて、球面自動符号化ネットワーク200は、再構成画像228、物体セグメンテーションマスク230、又は、再構成画像228及び物体セグメンテーションマスク230の両方を生成するように構成されている。
【0015】
さらに、機械学習データ140は、球面オートエンコーダ130のトレーニング、展開又は使用に関する任意のデータを含む。例えば、機械学習データ140は、トレーニングデータ、種々の画像、種々の損失データ、物体セグメンテーションマスクデータ、球面オートエンコーダ130に関連する任意のデータ、又は、任意の数及び任意の組合せのこれらを含む。また、コンピュータビジョンアプリケーション150は、球面オートエンコーダ130の出力(例えば、物体セグメンテーションマスク230及び/又は再構成画像228)をコンピュータビジョン技術に適用するように構成されている。コンピュータビジョンアプリケーション150は、物体セグメンテーションマスク230に基づいて、物体分類、物体認識、物体追跡、任意のコンピュータビジョンタスク又は任意の数及び任意の組合せのこれらを実行するように構成されている。さらに、コンピュータビジョンアプリケーション150は、再構成画像228とソース画像202とを比較して、球面自動符号化ネットワーク200によって生成されている出力の品質を判定することができる。一方、他の関連データ160は、システム100が本明細書において説明する機能を実行することができるようにする種々のデータ(例えば、オペレーティングシステムなど)を提供する。
【0016】
システム100は、少なくとも1つのセンサシステム170を含むように構成されている。センサシステム170は、1つ以上のセンサを含む。例えば、センサシステム170は、画像センサ、カメラ、レーダセンサ、光検出測距(LiDAR)センサ、熱センサ、超音波センサ、赤外線センサ、モーションセンサ、音声センサ(例えば、マイクロフォン)、任意の適当なセンサ、又は、任意の数及び任意の組合せのこれらを含む。センサシステム170は、システム100の1つ以上の他のコンポーネント(例えば、処理システム110及びメモリシステム120)と通信するように動作可能である。例えば、センサシステム170は、センサデータを提供することができ、その後、当該データは、処理システム110によって、センサデータに基づいてデジタル画像を生成するために使用される。これに関して、処理システム110は、センサシステム170の1つ以上のセンサから直接に又は間接的にデジタル画像としてセンサデータを取得するように構成されている。センサシステム170は、ローカル、リモート又はこれらの組合せ(例えば、部分的にローカルかつ部分的にリモート)である。センサデータを受信すると、処理システム110は、球面オートエンコーダ130、機械学習データ140、コンピュータビジョンアプリケーション150、他の関連データ160、又は、任意の数及び任意の組合せのこれらに関連してこのセンサデータ(例えば、デジタル画像)を処理するように構成されている。
【0017】
さらに、システム100は、少なくとも1つの他のコンポーネントを含み得る。例えば、
図1に示されているように、メモリシステム120は、1つ以上のコンポーネント(例えば、センサシステム170、I/Oデバイス180、及び、他の機能モジュール190)に関連したシステム100の動作に関連する他の関連データ160を記憶するようにも構成されている。さらに、システム100は、システム100に関連する1つ以上のI/Oデバイス180(例えば、ディスプレイデバイス、キーボードデバイス、スピーカデバイスなど)を含むように構成されている。また、システム100は、システム100の機能を支援する若しくはシステム100の機能に寄与する任意の適当なハードウェア、ソフトウェア又はこれらの組合せなどの他の機能モジュール190を含む。例えば、他の機能モジュール190は、本明細書において説明されるように、システム100のコンポーネントが相互に通信し得るようにする通信技術(例えば、有線通信技術、無線通信技術、又は、これらの組合せ)を含む。
【0018】
前述したように、システム100は、本明細書において説明するように、球面座標を使用した活性化を介して物体発見のためにデジタル画像処理を実行するように動作可能である。システム100は、ベクトルを表現するために球面座標を使用するように構成されている。この点に関しては、
図2で論じたプロセス中に、システム100は、次の少なくとも式1、式2及び式3に従って球面座標データをデカルト座標データに変換するように構成されている。すなわち、
【数1】
である。
【0019】
また、システム100は、少なくとも次の式4、式5、式6及び式7に従って、デカルト座標データを球面座標データに変換するように構成されている。システム100がφ
k=yであることを判定した場合、システム100は、この変換が一意ではなく、yは任意に選択可能であることを判別する。この場合、例えば、システム100は、yをゼロに等しく設定する(すなわち、y=0)。すなわち、
【数2】
となる。特殊なケースにおいて、x
k+1,…,x
n=0である場合には、φ
kは、式7によって決定することができる。すなわち、
【数3】
である。
【0020】
図2は、例示的な実施形態による球面自動符号化ネットワーク200を示す図である。
図2に示されているように、球面自動符号化ネットワーク200は、畳み込みエンコーダ210(f
encの符号化関数を有する)、畳み込みデコーダ214(f
decの復号関数を有する)、畳み込み層224(シグモイド活性化関数f
outを有する)、及び、物体セグメンタ226を含む。処理システム110は、入力画像(例えば、ソース画像202)をセンサから直接に又は間接的に受信するように構成されている。より具体的には、ソース画像202(すなわち、高さh、幅w、チャネルcの画像
【数4】
)が与えられると、処理システム110は、各ピクセルを固定位相値204に関連付けて、球面自動符号化ネットワーク200に対する球面入力206を作成する。例えば、固定位相値204は、φ
1,…,φ
n-1=0を含み得る。球面自動符号化ネットワーク200は、
【数5】
の球面入力206を含む入力データを受信する。処理システム110は、以下の式8に示すように、この球面入力206を畳み込みオートエンコーダ208に適用して、球面再構成データ218
【数6】
を生成する。すなわち、
【数7】
である。
【0021】
球面自動符号化ネットワーク200をトレーニングするために、処理システム110は、球面再構成データ218
【数8】
の動径座標220
【数9】
を抽出する。動径座標は、動径成分とも称されることがある。処理システム110は、シグモイド活性化関数f
outを有する1×1畳み込み層224を抽出された動径座標220
【数10】
に適用して、式9を介して結果
【数11】
を生成する。この場合、結果
【数12】
は再構成画像228を指す。再構成画像228は、ソース画像202の再構成バージョンである。処理システム110は、平均二乗誤差(MSE)関数を使用して結果
【数13】
(例えば、再構成画像228)と入力画像r(例えば、ソース画像202)とを比較し、式10を介して損失Lを計算する。処理システム110は、この損失計算に基づいて損失データを生成し、損失データに基づいて少なくとも自動符号化ネットワーク200のパラメータを更新する。すなわち、
【数14】
である。
【0022】
さらに、処理システム110は、球面再構成データ218
【数15】
の位相成分222
【数16】
を使用して、物体セグメンタ226を介して、入力画像rの物体に対するピクセル精度のセグメンテーションマスク230を作成する。位相成分222は、角度成分又は角度座標と称されることもある。位相成分222は、物体アフィリエーション情報を提供する。一例として、例えば、物体セグメンタ226は、特定の位相成分222
【数17】
の支配的な位相を識別し、その支配的な位相を有するピクセルのセットをソース画像202内の同一の物体に属するものとして識別するように構成されている。物体セグメンタ226は、物体セグメンテーションマスクがソース画像202のその物体に対応するように、物体に属すると識別されたピクセルのセットに対する物体セグメンテーションマスクを生成するように構成されている。
【0023】
さらに、層ごとの演算に関して、デカルト座標x
1,…,x
nにおいて層への入力
【数18】
が与えられると、処理システム110は、層の重み(wで示される)をn次元の各々に個別に適用して、式11を介して中間表現z(又は潜在表現データ212)を取得する。この定式化により、球面自動符号化ネットワーク200は、既存の深層学習フレームワークにおける任意の標準的なニューラルネットワーク層を含むものとして使用することができ、重みの次元は、適用される層のタイプにのみ依存する。例えば、全結合層の場合、球面自動符号化ネットワーク200は、
【数19】
が満たされるように構成され、ここで、fは特徴次元を表現している。次に、処理システム110は、潜在表現データ212(z)を球面座標に変換し、式12及び式13を介して、結果として生じる各次元に別個のバイアスを適用する。すなわち、
【数20】
である。
【0024】
バイアスの次元は、適用される層の種類によって異なる。例えば、全結合層の場合、全てのバイアスは
【数21】
である。処理システム110はまた、式14を介して入力ベクトルの動径座標に重みを適用して、結果として得られる表現Xを生成する。処理システム110は、非線形性を適用する前に、結果として得られた表現Xを前の計算の動径座標r’と組み合わせて、式15に示されているように、バッチ正規化(例えば、BatchNorm関数)及び活性化関数としての整流された線形ユニット(ReLU:rectified linear unit)を介して層の最終的な動径出力(すなわち、r”)を作成する。上記に基づいて、処理システム110は、球面座標における層の最終出力を生成する。この点に関して、球面再構成データ218又は最終出力は、値{r”,φ’
1,…,φ’
n-1}を含む。すなわち、
【数22】
である。
【0025】
球面自動符号化ネットワーク200は、単一チャネル画像(例えば、グレースケール画像)に容易に適用することができる。ここでの設定においては、処理システム110は、再構成画像228として出力ベクトルの動径成分
【数23】
及び1つ以上の位相
【数24】
を使用して、1つ以上の物体識別を表現する。ただし、高次元の入力に対して同様の手順を実行すると、良好な結果が得られない可能性がある。非限定的な例として、例えば、画像に赤色の物体と青色の物体とが含まれる場合、球面再構成プロセスは、それぞれの物体に対して非アクティブなカラーチャネルに小さい動径成分を割り当てる方向に偏る。小さい動径成分を有する値の位相値がマスクされるので、割り当てられた位相値ではなく、再構成されたカラー値に基づいて物体が分離されることになる。好都合なことに、球面オートエンコーダ130は、チャネル全体の位相値の加重平均を使用して、各ピクセルの最終的な物体分離位相φ’を作成することによって、この問題を解決している。機械学習モデル(例えば、畳み込みオートエンコーダ208)がチャネル全体に同様の位相を割り当てるので、球面オートエンコーダ130は、これを技術的解決策として提供するように構成されている。この場合、各ピクセルの最終的な物体分離位相φ’は式16で表され、ここで、ε=1e-8、w
c=10・r
c(r
c<0.1の場合)、かつ、w
c=1(r
c≧0.1の場合)である。すなわち、
【数25】
である。
【0026】
上述したように、球面オートエンコーダ130は、トレーニングされると、再構成画像データ及び物体識別データを生成するように構成されており、これらは、コンピュータビジョンアプリケーション及び/又は他の適当なアプリケーションなどの様々な下流タスクで使用され得る。例えば、
図3、
図4、
図5及び
図6は、球面オートエンコーダ130を実装する種々のアプリケーションの非限定的な例を示している。より具体的には、
図3は、
図4、
図5及び
図6の基礎を提供している。
図4、
図5及び
図6は、
図3のシステム300の1つ以上の態様を含む様々なアプリケーションの非限定的な例を示しているが、システム300は、製造機械、ロボット、パーソナルアシスタント技術などの他の用途にも使用され得る。
【0027】
図3は、トレーニングされた球面オートエンコーダ130を含むシステム300の図である。システム300は、少なくともセンサシステム310、制御システム320及びアクチュエータシステム330も含むように構成されている。システム300は、制御システム320がセンサシステム310からのセンサデータに基づいてアクチュエータシステム330を制御するように構成されている。より具体的には、センサシステム310は、センサデータを生成するための1つ以上のセンサ及び/又は対応するデバイスを含む。例えば、センサシステム310は、画像センサ、カメラ、レーダセンサ、光検出測距(LiDAR)センサ、熱センサ、超音波センサ、赤外線センサ、モーションセンサ、衛星に基づくナビゲーションセンサ(例えば、全地球測位システム(GPS)センサ)、光センサ、音声センサ、任意の適当なセンサ、又は、任意の数及び任意の組合せのこれらを含む。環境から検出を取得すると、センサシステム310は、入出力(I/O)システム370及び/又は通信技術を含む他の機能モジュール350を介して制御システム320と通信するように動作可能である。
【0028】
制御システム320は、センサシステム310の1つ以上のセンサから直接に又は間接的にセンサデータを取得するように構成されている。これに関して、センサデータは、単一のセンサからのセンサデータ、又は、複数のセンサからのセンサフュージョンデータを含み得る。少なくともセンサデータを含む入力を受信すると、制御システム320は、処理システム340を介してセンサデータを処理するように動作可能である。これに関して、処理システム340は、少なくとも1つのプロセッサを含む。例えば、処理システム340は、電子プロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、処理回路、任意の適当な処理技術、又は、これらの任意の組合せを含む。少なくともこのセンサデータを処理すると、処理システム340は、球面オートエンコーダ130のための適当な入力データ(例えば、デジタル画像データ)を抽出、生成、及び/又は、取得するように構成されている。さらに、処理システム340は、メモリシステム360との通信に基づいて、球面オートエンコーダ130を介して出力データ(例えば、球面再構成データ218、再構成画像228、物体セグメンテーションマスク230、又は、任意の数及び任意の組合せのこれら)を生成するように動作可能である。さらに、処理システム340は、球面オートエンコーダ130及び/又はコンピュータビジョンアプリケーション150からの出力データに基づいて、アクチュエータ制御データをアクチュエータシステム330に提供するように動作可能である。
【0029】
メモリシステム360は、本明細書に開示しているように、少なくとも動作及び機能を可能にするために、種々のデータを記憶し、これらへのアクセスを提供するように構成されたコンピュータ又は電子ストレージシステムである。メモリシステム360は、単一のデバイス又は複数のデバイスを備える。メモリシステム360は、電気的、電子的、磁気的、光学的、半導体的、電磁気的、任意の適当なメモリ技術、又は、これらの任意の組合せを含む。例えば、メモリシステム360は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、ディスクドライブ、メモリカード、光記憶デバイス、磁気記憶デバイス、メモリモジュール、任意の適当なタイプのメモリデバイス、又は、任意の数及び任意の組合せのこれらを含み得る。例示的な実施形態においては、制御システム320及び/又は処理システム340に関して、メモリシステム360は、ローカル、リモート又はこれらの組合せ(例えば、部分的にローカルかつ部分的にリモート)である。例えば、メモリシステム360は、処理システム340及び/又は制御システム320の他のコンポーネントから遠隔にある少なくともクラウドに基づくストレージシステム(例えば、クラウドに基づくデータベースシステム)を含み得る。
【0030】
メモリシステム360は、処理システム340を介して実行される球面オートエンコーダ130を少なくとも含む。球面オートエンコーダ130は、デジタル画像(例えば、ソース画像202)を受信又は取得するように構成されている。この点に関して、球面オートエンコーダ130は、処理システム340を介して、ソース画像202に基づいて出力データ(例えば、球面再構成データ218、再構成画像228、物体セグメンテーションマスク230、又は、任意の数及び任意の組合せのこれら)を生成するように構成されている。
【0031】
さらに、メモリシステム360は、コンピュータビジョンアプリケーション150を含む。コンピュータビジョンアプリケーション150は、球面オートエンコーダ130の出力(例えば、物体セグメンテーションマスク230及び/又は再構成画像228)をコンピュータビジョン技術に適用するように構成されている。コンピュータビジョンアプリケーション150は、物体セグメンテーションマスク230に基づいて、物体分類、物体認識、物体追跡などを実行することができる。また、メモリシステム360は、1つ以上のコンポーネント(例えば、センサシステム310、アクチュエータシステム330など)に関するシステム300の動作に関連する他の関連データ380を記憶するようにも構成されている。
【0032】
さらに、
図3に示されているように、システム300は、センサシステム310及びアクチュエータシステム330に関連した制御システム320の動作に寄与する他のコンポーネントを含む。例えば、
図3に示されているように、制御システム320は、システム300に関連する1つ以上のI/Oデバイスのための1つ以上のインタフェースを含むI/Oシステム370を含む。例えば、I/Oシステム370は、センサシステム310に少なくとも1つのインタフェースを提供し、アクチュエータシステム330に少なくとも1つのインタフェースを提供する。また、制御システム320は、システム300の機能を支援し及び/又はシステム300の機能に寄与する任意の適当なハードウェア技術、ソフトウェア技術又はこれらの任意の組合せなどの他の機能モジュール350を提供するように構成されている。例えば、他の機能モジュール350は、オペレーティングシステムと、本明細書において説明しているようにシステム300のコンポーネントが相互に通信し得るようにする通信技術とを含む。少なくとも
図3の例で説明した構成により、システム300は種々の技術に適用可能である。
【0033】
図4は、例示的な実施形態によるモバイルマシン技術400に関するシステム300の図である。非限定的な例として、モバイルマシン技術400は、少なくとも部分的に自律型の車両又はロボットを含む。
図4において、モバイルマシン技術400は、少なくとも部分的に自律型の車両であり、センサシステム310を含む。センサシステム310は、光学センサ、画像センサ、ビデオセンサ、超音波センサ、位置センサ(例えば、GPSセンサ)、レーダセンサ、LiDARセンサ、任意の適当なセンサ、又は、任意の数及び任意の組合せのこれらを含む。1つ以上のセンサを車両に関して統合することができる。センサシステム310は、センサデータを制御システム320に提供するように構成されている。
【0034】
制御システム320は、センサシステム310からのセンサデータ又はセンサフュージョンデータに基づく画像データを取得するように構成されている。さらに、制御システム320は、センサデータを前処理して、適当な形式の入力データ(例えば、デジタル画像データ)を球面オートエンコーダ130に提供するように構成されている。この点において、球面オートエンコーダ130は、物体発見のための物体セグメンテーションマスクを生成するように構成されると有利である。
【0035】
さらに、制御システム320は、コンピュータビジョンアプリケーション150による球面オートエンコーダ130の出力データに少なくとも基づくアクチュエータ制御データを生成するように構成されている。球面オートエンコーダ130はピクセル精度の物体セグメンテーションマスクをコンピュータビジョンアプリケーション150に提供することができるため、制御システム320は、画像/ビデオデータ内の物体をピクセルレベルで正確に識別及び追跡することが可能であることによって、車両のアクチュエータシステム330のより安全かつ正確な制御を可能にするアクチュエータ制御データを生成するように構成されている。アクチュエータシステム330は、車両のブレーキシステム、推進システム、エンジン、ドライブトレイン、ステアリングシステム、又は、任意の数及び組合せのアクチュエータを含み得る。アクチュエータシステム330は、車両が道路規則に従い、球面オートエンコーダ130及びコンピュータビジョンアプリケーション150によって決定される物体検出、物体認識及び/又は物体追跡に少なくとも基づいて衝突を回避するように車両を制御するように構成されている。
【0036】
図5は、例示的な実施形態によるセキュリティ技術500に関するシステム300の図である。非限定的な例として、セキュリティ技術500は、少なくとも監視システム、制御アクセスシステム、サーベイランスシステム又は任意の適当なタイプのセキュリティ装置を含む。例えば、一例として、
図5は、ドア502の錠の施錠状態及び解錠状態を物理的に制御し、増強された画像/ビデオをディスプレイ504上に表示するように構成されたセキュリティ技術500に関する。センサシステム310は、画像/ビデオデータを提供するように構成された画像センサを少なくとも含む。
【0037】
制御システム320は、センサシステム310から画像/ビデオデータを取得するように構成されている。制御システム320はまた、センサシステム310から取得された画像/ビデオデータに基づいて、球面オートエンコーダ130を介して物体発見のためのピクセル精度の物体セグメンテーションマスクを生成するように構成されている。これに関して、球面オートエンコーダ130は、画像/ビデオデータ内の1つ以上の物体を検出及び識別するように構成されている。さらに、制御システム320は、ピクセル単位の精度で物体セグメンテーションマスクに基づいて画像/ビデオデータ内の物体を検出及び識別することによって、アクチュエータシステム330のより安全かつ正確な制御を可能にするアクチュエータ制御データを生成するように構成されている。制御システム320は、画像/ビデオデータ内で識別された物体に関する任意のデータを、ディスプレイ504を介して表示するように構成されている。
【0038】
図6は、例示的な実施形態による撮像技術600に関するシステム300の図である。非限定的な例として、撮像技術600は、磁気共鳴撮像(MRI)装置、X線撮像装置、超音波装置、医療用撮像装置、又は、任意の適当なタイプの撮像装置を含む。
図6においては、センサシステム310は、少なくとも1つの撮像センサを含む。制御システム320は、センサシステム310から画像データを取得するように構成されている。制御システム320はまた、球面オートエンコーダ130によって提供される物体セグメンテーションマスクを介して画像/ビデオデータ内の物体を発見するように構成されている。さらに、制御システム320は、より正確な医療情報を提供するように構成されている。なぜなら、球面オートエンコーダ130によって発見される物体により、ピクセル単位の精度が提供されるからである。さらに、制御システム320は、画像/ビデオデータ内の発見された物体に関する任意の関連データをディスプレイ602上に表示するように構成されている。
【0039】
本開示において説明しているように、球面オートエンコーダ130は、複数の利点及び利益を提供する。例えば、球面オートエンコーダ130は、教師なしトレーニング手順を介して物体表現を学習するように構成されている。また、球面オートエンコーダ130は、単一チャネル画像(例えば、グレースケール画像)又はマルチチャネル画像(例えば、RGBカラー画像など)に適用することができる。球面オートエンコーダ130は、高次元の入力に適用することができる。利点として、球面オートエンコーダ130により、球面座標を使用した活性化がレバレッジされ、表現される。これに関して、球面オートエンコーダ130は、多次元角度を使用して物体を表現するように構成されている。また、球面オートエンコーダ130は、画像内の物体及び物体の境界(線、曲線など)をピクセルレベルで正確に位置特定するために有利な物体セグメンテーションマスクを生成するように構成されている。
【0040】
さらに、球面オートエンコーダ130は、スロットに基づくアーキテクチャよりも複雑でなく、簡素なアーキテクチャを球面自動符号化ネットワーク200に提供することから、スロットに基づくアプローチよりも有利である。さらに、球面オートエンコーダ130は、複素オートエンコーダよりも多くの物体を表現する能力を有することによって、複素オートエンコーダの制限を克服する。球面オートエンコーダ130は、分散物体中心表現に関連付けられた球面自動符号化ネットワーク200を提供する。全体として、球面オートエンコーダ130は、効率的かつ効果的な方法により再構成及び物体発見を実行する球面自動符号化ネットワーク200及び対応するプロセスを提供する。
【0041】
すなわち、上記の説明は、例示を目的とするものであって、限定のためのものではなく、特定の用途及びその要件に関連して提供されるものである。当業者は、以上の説明から、本発明が種々の形態で実装可能であること、及び、種々の実施形態が単独で又は組み合わせて実装可能であることを理解することができる。したがって、本発明の実施形態につき、その特定の例に関連して説明したが、本明細書において定義される一般的な基本方式は、説明した実施形態の精神及び範囲から逸脱することなく、他の実施形態及び用途に適用可能である。また、本発明の実施形態及び/又は方法の真の範囲は、図面、明細書及び特許請求の範囲を検討すれば当業者には種々の修正が明らかとなるため、図示及び説明した実施形態に限定されない。これに加えて又はこれに代えて、構成要素及び機能は、説明した種々の実施形態とは異なる方法により分離可能又は結合可能であり、異なる用語を使用して説明することもできる。これらの及び他の変形、修正、追加及び改良は、特許請求の範囲で定義される本開示の範囲内に含まれ得る。
【手続補正書】
【提出日】2023-12-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
物体発見のためのコンピュータ実装された方法であって、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと、
を含む、コンピュータ実装された方法。
【請求項2】
前記方法はさらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項1に記載のコンピュータ実装された方法。
【請求項3】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付けるものである、
請求項1に記載のコンピュータ実装された方法。
【請求項4】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項1に記載のコンピュータ実装された方法。
【請求項5】
前記方法はさらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項1に記載のコンピュータ実装された方法。
【請求項6】
前記損失データは、前記ソース画像と前記再構成画像との間の平均二乗誤差に基づいて生成される、請求項5に記載のコンピュータ実装された方法。
【請求項7】
前記方法はさらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項1に記載のコンピュータ実装された方法。
【請求項8】
プロセッサと、
前記プロセッサとデータ通信するメモリと、
を備えるシステムであって、
前記メモリは、前記プロセッサによって実行されるときに、前記プロセッサに、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと
を含む方法を実施させるための命令を含むコンピュータ可読データを記憶している、システム。
【請求項9】
前記システムはさらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項8に記載のシステム。
【請求項10】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付けるものである、
請求項8に記載のシステム。
【請求項11】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項8に記載のシステム。
【請求項12】
前記システムはさらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項8に記載のシステム。
【請求項13】
前記損失データは、前記ソース画像と前記再構成画像との間の平均二乗誤差に基づいて生成される、請求項12に記載のシステム。
【請求項14】
前記システムはさらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項8に記載のシステム。
【請求項15】
プロセッサによって実行されるときに前記プロセッサに方法を実施させるための命令を含むコンピュータ可読データを記憶した非一時的コンピュータ可読媒体であって、前記方法は、
少なくとも1つのセンサから取得されたソース画像を受信することと、
前記ソース画像の各ピクセルと所定の位相値とを関連付けることによって、エンコーダの入力データを生成することと、
前記エンコーダを介して、前記入力データを符号化して球面座標の潜在表現データを生成することと、
デコーダを介して、前記潜在表現データを復号して前記ソース画像の球面再構成データを生成することであって、前記球面再構成データは、動径成分及び複数の位相成分を含む、ことと、
少なくとも前記動径成分に基づいて再構成画像を生成することであって、前記再構成画像は、前記ソース画像の再構成である、ことと、
を含む、非一時的コンピュータ可読媒体。
【請求項16】
前記方法はさらに、前記複数の位相成分に基づいて、第1の位相成分に基づく第1の物体マスクと第2の位相成分に基づく第2の物体マスクとを含む複数の物体マスクを生成することを含み、
前記第1の物体マスクは、前記ソース画像に表示される第1の物体に対応し、前記第2の物体マスクは、前記ソース画像に表示される第2の物体に対応する、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記動径成分は、前記ソース画像の特徴情報に対応し、
前記複数の位相成分は、前記ソース画像の物体アフィリエーション情報に対応し、前記物体アフィリエーション情報は、ピクセルのセットを、前記ソース画像に表示される対応する物体に関連付ける、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項18】
前記再構成画像は、シグモイド活性化関数を有する畳み込み層を前記動径成分に適用することによって生成される、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記方法はさらに、
前記ソース画像と前記再構成画像との比較に基づいて損失データを生成することと、
前記損失データに基づいてオートエンコーダのパラメータデータを更新することと、
を含み、
前記オートエンコーダは、前記エンコーダ及び前記デコーダを含む、
請求項15に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記方法はさらに、前記ソース画像に関連付けられたチャネルにわたる複数の位相成分の加重平均を使用することによって、前記ソース画像の各ピクセルに対する物体分離位相データを生成することを含み、
前記チャネルは、赤色チャネル、緑色チャネル及び青色チャネルを含む、
請求項15に記載の非一時的コンピュータ可読媒体。
【外国語明細書】