IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ ザ ユニバーシティ コート オブ ザ ユニバーシティ オブ エジンバラの特許一覧

特開2022-162552ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク
<>
  • 特開-ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク 図1
  • 特開-ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク 図2
  • 特開-ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク 図3
  • 特開-ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022162552
(43)【公開日】2022-10-24
(54)【発明の名称】ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワーク
(51)【国際特許分類】
   G06T 7/70 20170101AFI20221017BHJP
   G06T 7/00 20170101ALI20221017BHJP
   G06V 10/82 20220101ALI20221017BHJP
【FI】
G06T7/70 B
G06T7/00 350C
G06V10/82
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022065744
(22)【出願日】2022-04-12
(31)【優先権主張番号】21167942.8
(32)【優先日】2021-04-12
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】501337513
【氏名又は名称】ザ ユニバーシティ コート オブ ザ ユニバーシティ オブ エジンバラ
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(74)【代理人】
【識別番号】100120499
【弁理士】
【氏名又は名称】平山 淳
(72)【発明者】
【氏名】スベン マイアー
(72)【発明者】
【氏名】オクテイブ マリオッティ
(72)【発明者】
【氏名】ハカン バイレン
(72)【発明者】
【氏名】オイシン マック エイダ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096CA04
5L096DA02
5L096FA67
5L096GA30
5L096GA59
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】方法の提供。
【解決手段】画像が第1ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、物体の所与のカテゴリに属する、物体の視点を検出するように第1ニューラルネットワークをトレーニングする方法は、異なる視点の下における画像のペアのデータセットを提供するステップと、物体の外観情報を供給し得るように構成された第2ニューラルネットワークを提供するステップと、外観情報及び視点を使用してカテゴリの物体の合成画像を供給し得るように構成された第3ニューラルネットワークを提供するステップと、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像が第1ニューラルネットワークに入力されている際に、この画像上において可視状態にある、センタリングされている、且つ、物体の所与のカテゴリに属する、物体の視点を検出するために第1ニューラルネットワークをトレーニングする方法であって、
画像のペアのデータセットを提供するステップであって、画像のそれぞれのペアは、前記カテゴリに属する物体が、第1視点の下において可視状態にある、且つ、センタリングされている、第1画像と、同一の物体が、前記第1視点とは異なる第2視点の下において可視状態にある、且つ、センタリングされている、第2画像と、を有する、ステップと、
この画像が第2ニューラルネットワークに入力された際に、画像上において可視状態にある、且つ、前記カテゴリに属する、物体の外観情報を供給し得るように構成された前記第2ニューラルネットワークを提供するステップと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に、前記カテゴリの物体の合成画像を供給し得るように構成された前記第3ニューラルネットワークを提供するステップと、
前記画像のペアのデータセットからの画像のペアの前記第1画像の少なくとも一部分であって、前記画像上において可視状態にある前記物体を示す部分、及び、
前記第1画像を前記第1ニューラルネットワークに入力することによって供給される視点及び前記ペアの前記第2画像を前記第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る前記第3ニューラルネットワークによって供給される合成画像、
の間の距離を極小化するように、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークのパラメータを適合させることにより、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするステップと、
を有する方法。
【請求項2】
前記距離は、知覚損失を使用して定義されている請求項1に記載の方法。
【請求項3】
前記第1ニューラルネットワークは、複数の視点仮定を供給するように構成されており、且つ、最小距離と関連する前記視点仮定が、前記パラメータを適合させるために使用されている請求項1又は2に記載の方法。
【請求項4】
前記第1ニューラルネットワークは、最良の仮定を通知し得るように構成されたインジケータを供給し得るように更に構成されている請求項3に記載の方法。
【請求項5】
前記第3ニューラルネットワークは、前記外観情報を入力として使用するために、且つ/又は、前記視点を入力として使用するために、物体条件付き生成プロセスを使用している請求項1乃至4のいずれか1項に記載の方法。
【請求項6】
前記第3ニューラルネットワークは、入力として一般的コードを更に受け取るように構成されており、且つ、入力として前記一般的コードを受け取るように構成された複数の連続的な3次元畳み込み層を有し、それぞれの3次元畳み込み層の出力は、変換された出力を得るように、パラメータとして前記第3ニューラルネットワークへの入力として使用される前記外観情報を使用する所与のアファイン変換によって変換されるように構成されており、且つ、
前記第3ニューラルネットワークは、前記第3ニューラルネットワークへの入力として使用される最後の3次元畳み込み層の前記変換された出力及び前記視点を入力として受け取るように構成されたレンダリングモジュールを有する請求項5に記載の方法。
【請求項7】
前記レンダリングモジュールは、前記第3ニューラルネットワークへの入力として使用される前記視点に従って前記レンダリングモジュールによって受け取られた前記変換された出力に対して回転を実行するように構成された、且つ、回転された出力を出力するように構成された、回転モジュールと、
前記回転された出力にパースペクティブを適用するように構成されたパースペクティブモジュールと、
前記第3ニューラルネットワークによって出力された前記画像を生成するように、且つ、前記パースペクティブが適用された前記回転された出力を使用するように、構成された光線追跡モジュールと、
を含む請求項6に記載の方法。
【請求項8】
前記光線追跡モジュールは、
ピクセルの光線が所定の深さにおいて停止する確率を通知する確率マップを生成するように、
前記確率マップから占有マップを得るように、
前記占有マップ及び前記パースペクティブが適用された前記回転された出力から前記画像を生成するように、
構成されている請求項7に記載の方法。
【請求項9】
前記方法は、少なくとも、
ランダム視点を判定するステップと、
前記データセットからランダム画像を選択するステップと、
外観情報を取得するために前記第2ニューラルネットワークに前記ランダム画像を入力するステップと、
前記ランダム視点及び前記ランダム画像の前記外観情報を前記第3ニューラルネットワークに入力することにより、更なる合成画像を供給するステップと、
前記更なる合成画像が前記第1ニューラルネットワークに入力された際に、前記ランダム視点と前記第1ニューラルネットワークの出力の間の前記距離を極小化するステップと、
を有する更なるトレーニングを更に含む請求項1乃至8のいずれか1項に記載の方法。
【請求項10】
前記第1ニューラルネットワークとしての請求項1乃至9のいずれか1項に記載の方法によってトレーニングされたニューラルネットワーク。
【請求項11】
画像が第1ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、センタリングされている、且つ、所与の物体のカテゴリに属する、物体の視点を検出するように第1ニューラルネットワークをトレーニングするシステムであって、
画像のペアのデータセットであって、画像のそれぞれのペアは、前記カテゴリに属する物体が、第1視点の下において可視状態にある、且つ、センタリングされている、第1画像と、同一の物体が、前記第1視点とは異なる第2視点の下において可視状態にあり、且つ、センタリングされている、第2画像と、を有する、データセットと、
画像が第2ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、前記カテゴリに属する、物体の外観情報を供給し得るように構成された前記第2ニューラルネットワークと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に、前記カテゴリの物体の合成画像を供給し得るように構成された前記第3ニューラルネットワークと、
前記画像のペアのデータセットからの画像のペアの前記第1画像の少なくとも一部分であって、前記画像上において可視状態にある前記物体を示す部分、及び、
前記第1画像を前記第1ニューラルネットワークに入力することによって供給される視点及び前記ペアの前記第2画像を前記第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る前記第3ニューラルネットワークによって供給された合成画像、
の間の距離を極小化するように、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークのパラメータを適合させることにより、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークを一緒にトレーニングするように構成されたトレーニングモジュールと、
を有するシステム。
【請求項12】
サポート部及びカメラ上において保存された、請求項10に記載の前記ニューラルネットワークを有するシステム。
【請求項13】
請求項12に記載の前記システムを有する車両。
【請求項14】
コンピュータプログラムであって、前記プログラムがコンピュータによって実行された際に、請求項1乃至9のいずれか1項に記載の前記方法の前記ステップを実行するための命令を含むコンピュータプログラム。
【請求項15】
コンピュータによって可読である、且つ、請求項1乃至9のいずれか1項に記載の前記方法の前記ステップを実行するための命令を含むコンピュータプログラムをその上において記録された状態において有する、記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ニューラルネットワークをトレーニングする方法、ニューラルネットワークをトレーニングするシステム、及びニューラルネットワークに関する。
【背景技術】
【0002】
コンピュータシステム上において実装されたニューラルネットワークを使用することにより、カメラによって取得された画像上において3次元物体を検出することが提案されている。また、通常、画像上において可視状態にある物体の6Dポーズとの関係において情報を取得することが望ましい。「6Dポーズ」は、物体の3次元位置及び3次元向きの組合せを表記する当業者には周知の表現である。6Dポーズの取得は、物体が検出及び操作されているロボット工学の分野において特に有用である。また、自律的又は部分的に自律的な運転を許容するように、運転シーンにおける物体の向きを判定することも有用である。
【0003】
画像上において可視状態にある物体の視点は、このような6Dポーズとの関係における望ましい1つの情報である。視点は、画像を取得するために使用されているカメラとの関係における物体の方位角、仰角、及びプレーン内回転として定義することができる。また、ニューラルネットワークも、画像上において可視状態にある物体の視点を自動的に判定するために使用されている。
【0004】
物体視点推定は、自律型システムが3次元(3D)世界を理解することを可能にするために必要とされている主要成分の1つである。既知の方法は、制御された環境においては、物体の視点を成功裏に検出することが観察されている。これらの既知の方法は、現代の学習可能な表現から受益すると共に物体検出及び3D再構築などのその他のビジョンタスクを支援することが示されており、且つ、様々な用途において使用されている。例えば、人工ニューラルネットワーク(以下においては、ニューラルネットワーク)が、視点を検出するために使用されている。
【0005】
画像上において可視状態にある物体の視点を自動的に判定するタスクを実行するニューラルネットワークを得るには、ニューラルネットワークのトーレニングフェーズを実行しなければならない。このトレーニングフェーズは、通常、ラベル付与されたトレーニング画像の組を使用して実行されている。「ラベル付与された」は、対象の物体の視点がトレーニング画像の組のそれぞれの画像ごとに提供されていることを意味しており、この場合に、提供された視点は、グラウンドトルスと呼称されている。この結果、トレーニングは、トレーニングセットからニューラルネットワークに画像を入力するステップと、ニューラルネットワークの出力を対応するグラウンドトルスと比較するステップと、この比較に基づいて(例えば、既知の確率的勾配法を使用して)ニューラルネットワークのパラメータを適合させるステップと、を有する。
【0006】
当技術分野において周知のように、ニューラルネットワークの良好なトレーニングを得るには、多数のラベル付与されたトレーニング画像が必要とされている。大規模なラベル付与されたデータセットは、コンピュータビジョンタスクにおける最新技術の進歩において重要な駆動力となっている。但し、データの注釈付けは、費用を所要し(即ち、時間を所要し)、且つ、増大する複雑な視覚的概念の体系にとってスケーラブルではない。実際に、グラウンドトルス/ラベルを得ることは、通常、専門的なハードウェア、制御された環境、現実世界の物体との間の3DのCADモデルの操作者による手動的なアライメントの使用を必要としている。
【0007】
上記の方法は、教師付きの方法として表記され得る。これらは、ロボット工学又は自律型運転の分野における用途を伴って集約的に研究されている。これらの方法は、検出された物体を取り囲む3D境界ボックスを成功裏に供給することができる。
【0008】
また、画像から物体の基礎をなす3D構造について認知する表現を学習する方法も存在している(「3D認知表現」)。ポーズ監視を伴なって又は伴うことなしに、その外観から物体のポーズを解明することが提案されている(例えば、(非特許文献1)という文献又は(非特許文献2)という文献を参照されたい)。様々な解決策が提案されている。但し、これらは、依然として、有意な埋め込みを学習するために3D注釈付けを必要としている。実際に、3D回転は、ネットワークが注釈付けを伴うことなしに学習することが過剰に複雑である激烈な外観の変化をもたらすことが観察されている。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】「Interpretable transformations with encoder-decoder networks」(Daniel E Worrall, Stephan J Garbin, Daniyar Turmukhambetov, and Gabriel J Brostow. In Proceedings of the IEEE International Conference on Computer Vision, pages 5726-5735, 2017)
【非特許文献2】「Deep Convolutional Inverse Graphics Network」(Tejas D Kulkarni, William F Whitney, Pushmeet Kohli, and Josh Tenenbaum. In Advances in neural information processing systems, pages 2539-2547, 2015)
【発明の概要】
【発明が解決しようとする課題】
【0010】
ラベル付与されていないデータは低廉であり且つ取得が相対的に容易であることから、視点推定などのタスクを実行するようにニューラルネットワークをトレーニングするために、ラベル付与されていないデータを使用する方法が望ましい。
【課題を解決するための手段】
【0011】
本開示は、画像が第1ニューラルネットワークに入力された際に、この画像上において可視状態にある、センタリングされている(即ち、この画像内においてセンタリングされている)、且つ、物体の所与のカテゴリに属する、物体の視点を検出するように第1ニューラルネットワークをトレーニングする(例えば、コンピュータシステムによって実行される)方法を提供しており、これは、
画像のペアのデータセットを提供するステップであって、画像のそれぞれのペアは、前記カテゴリに属する物体が第1視点の下において可視状態にある且つセンタリングされている(即ち、第1画像内においてセンタリングされている)第1画像と、同一の物体が第1視点とは異なる第2視点に下において可視状態にある且つセンタリングされている(即ち、第2画像内においてセンタリングされている)第2画像と、を有する、ステップと、
画像が第2ニューラルネットワークに入力された際に、この画像上において可視状態にある且つ前記カテゴリに属する物体の外観情報を供給し得るように構成された第2ニューラルネットワークを提供するステップと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に前記カテゴリの物体の(例えば、物体上においてセンタリングされた)合成画像を供給し得るように構成された第3ニューラルネットワークを提供するステップと、
画像のペアのデータセットからの画像のペアの第1画像の少なくとも一部分であって、画像上において可視状態にある物体を(その全体において)示す部分、及び、
第1画像を第1ニューラルネットワークに入力することによって供給される視点及びペアの第2画像を第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る第3ニューラルネットワークによって供給される合成画像、
の間の距離を極小化するように、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークのパラメータを適合させることにより、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするステップと、
を有する。
【0012】
画像のペアのデータセットの画像内においては、物体は、センタリングされている。例えば、画像は、物体が検出されている且つ境界ボックスによって取り囲まれている別の画像のクロッピングの結果であり得る。この境界ボックスは、手動的に配置することもできる。合成画像は、トレーニングを通じて第1画像を再生するように試みるのに伴って、センタリングされた物体を示すことになる。
【0013】
第1画像の一部分は、セグメント化マスクを第1画像に適用した結果であることが可能であり、この場合に、セグメント化マスクは、適用された際に物体のピクセルのみを維持している。これは、背景を有していない合成画像の取得と、第1画像の背景を考慮していないトレーニングと、を許容している。視点の判定は、トレーニングが完了したら、背景の存在によって影響されることにはならない。
【0014】
或いは、この代わりに、画像のペアのデータセットの画像が背景を有していない場合には、距離を極小化する際に第1画像の全体を使用することができる。この代替肢は、データセットの画像がCAD画像からレンダリングされている際に使用することができる。背景を有する画像の中心に配置されている物体の視点の判定は、依然として、このケースにおいて実現可能であり得る。
【0015】
第1ニューラルネットワークは、例えば、検出された物体を取り囲む境界ボックスを配置する物体検出器によって出力された画像などのように、物体上においてセンタリングされた画像に対して動作していることに留意されたい(画像は、境界ボックスに従ってクロッピングすることができる)。
【0016】
従って、方法は、完全に教師なしのトレーニング方法を提案している。(トレーニングデータセットとも呼称され得る)データセットは、ラベル付与されていないデータセットであってよい。このデータセットからの画像上において可視状態にある物体の視点は、既知ではない。但し、第1ニューラルネットワークのトレーニングは、画像のそれぞれのペアが同一の物体を(ペアの場合には、異なるペアが異なる物体を示し得る)、但し、異なる視点において、示しているという条件の下において実行することができる。実際に、視点検出が正確である場合には、第3ニューラルネットワークによって出力された画像は、オリジナルの第1画像に可能な限り近接することになる。その結果、トレーニングは、2つ画像の間の距離を低減するために努力することになる。
【0017】
また、上記の方法においては、2つの画像の間の差を知ることが必要ではなく、第2画像からの外観のみが利用されている。
【0018】
外観は、色、3D形状、テクスチャ、などを意味している。第2ニューラルネットワークの出力が外観になることを強制することになるのがトレーニング方法であり、この外観は、物体を示す別の画像と比較されることになる且つ外観を伴うことなしにはトーレニングが収束することにならない画像を再構築するために使用されることになる。
【0019】
トレーニングの第1ステージにおいて、第1、第2、及び第3ニューラルネットワーク出力ランダム情報並びにトレーニングの後続の反復が、上記のように、第1ニューラルネットワークの出力が視点になることを強制し、第2ニューラルネットワークの出力が外観情報を含むことを強制し、且つ、第3ニューラルネットワークの出力が画像となることを強制することになる、
【0020】
この結果、当業者は、視点、外観情報(サイズは、形状、色、などを含むために十分に大きいことを要する)、及び同一サイズの画像をトレーニングデータセットの画像として収容するように、これらのそれぞれのものの層の寸法を選択することができることになる。
【0021】
第1ニューラルネットワークは、(物体の視点を検出するために)試験時において使用されることになる実際のニューラルネットワークであるが、2つのその他のニューラルネットワーク(第2及び第3ニューラルネットワーク)は、トレーニングフェーズにおいて使用されるのみならず、トレーニングフェーズにおいてトレーニングされることに留意されたい。
【0022】
この方法は、例えば、トレーニングを自動的に実行するために演算システム上において実装することができる。
【0023】
本説明において、視点は、物体が可視状態にある画像を取得するために使用されたカメラとの関係における視点を意味している。
【0024】
物体のカテゴリは、物体検出又はセマンティックセグメント化の分野における当業者によって通常使用されている方式においては、物体のタイプ又はクラスと呼称することが可能である。例として、カテゴリは、ストリートにおいて観察されるシーン内に通常は存在している物体のカテゴリのリスト内において選択することができる。例えば、カテゴリは、自動車、歩行者、自転車に乗っている人、バス、トラック、などを有するリスト内において選択することができる。また、カテゴリは、更に正確に定義することもできる(例えば、自動車の場合に、セダン、コンパクトカー、などを考慮することができる)。例えば、上記の方法における物体は、自動車であり、且つ、画像のペアは、異なる視角の下において観察されている同一の自動車の2つの異なる画像を含むことになる。
【0025】
上記のように、第1ニューラルネットワークに入力される画像は、視点の判定を要する物体上においてセンタリングされている。これらの画像は、方法の予備ステップにおいて物体検出器によって出力することができる(これは、トレーニングデータセットの画像についても当て嵌まる)。
【0026】
ニューラルネットワークを一緒にトレーニングするステップは、反復的に実行することができる。例えば、それぞれの反復は、ペアの第1画像を第1ニューラルネットワークに入力し且つこのペアの第2画像を第2ニューラルネットワークに入力するステップと、前記距離を算出するステップと、を有することができる。距離のそれぞれの算出の後に、或いは、(バッチトレーニングのケースにおいて)複数の距離が算出された後に、確率的勾配降下法又は任意のその他の好適なトレーニングアルゴリズム又は確率的勾配降下法の変形を使用することができる。確率的勾配降下法は、それ自体が既知である方式により、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークのパラメータを適合させるために使用することができる。これらのパラメータは、例えば、これらのニューラルネットワークの重みである。距離を極小化するステップは、極小化対象の損失を算出するステップと、例えば、この損失を第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークを通じて逆伝播させるステップと、を有する。
【0027】
当業者は、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークの構造を選択する方法を認知するであろうことに留意されたい。例えば、第1ニューラルネットワークは、3の深さ(RGB画像を受け取っている場合に)を有する入力として所与の分解能を有する画像を受け取ることができなければならず、且つ、これは、また、視点の表現を出力しなければならず(例えば、視点を表す少なくとも3つの数値(方位角、仰角、プレーン内回転)又は単位球上のポイントの座標)、且つ、これは、この第1ニューラルネットワークの第1層及び最後の層のニューロンの所与の数に対応している。
【0028】
また、例えば、第2ニューラルネットワークは、3の深さ(RGB画像を受け取っている場合)を有する入力として所与の分解能を有する画像を受け取ることができなければならない。これは、また、画像上において可視状態である物体の外観情報を出力することができなければならず、且つ、これは、第2ニューラルネットワークの第1層及び第2ニューラルネットワークの最後の層のニューロンの所与の数に対応している。この外観情報の次元は、較正ステップにおいて見出すことができる。例として、外観情報は、物体の画像が任意の視点の下において生成され得るように、十分な情報を含むことを要する。物体が自動車である場合には、外観情報は、自動車の形状及び色が含まれ得るように、十分な情報を含むことを要する。
【0029】
外観情報は、コード化された形態を有し得ることに留意されたい。これは、第2ニューラルネットワークが、画像を処理するように構成されたオートエンコーダにおいて使用され得るエンコーダの構造を有する場合に当て嵌まり得るであろう。オートエンコーダにおいては、エンコーダの出力は、オリジナルの画像を取得するためにコード化された方式で十分な情報を含んでいる。第3ニューラルネットワークは、例えば、第1及び第2ニューラルネットワークに入力された画像と同一の分解能を有する画像などの画像を供給するように構成されている。これは、この第3ニューラルネットワークの最後の層のニューロンの数を示している。また、この第3ニューラルネットワークは、その構造内の任意のポイントにおいて外観情報及び視点を受け取ることができるように構成することもできる。
【0030】
また、当業者は、例えば、第3ニューラルネットワークの出力と第2画像の間の距離などの2つの画像の間の距離を判定する方法について認知するであろう。
【0031】
また、上記の方法は、所与のカテゴリからの物体又は複数のカテゴリからの物体の視点を自動的に判定することが可能であり得る。好ましくは、上記の方法において使用されている画像は、画像当たりに、この複数のカテゴリの1つの物体を示すのみである。
【0032】
特定の実施形態によれば、距離は、知覚損失を使用して定義することができる。
【0033】
知覚損失の使用は、第3ニューラルネットワークによって出力された画像の品質の観点において相対的に良好な結果を提供するものと本発明者らによって観察されている。
【0034】
特定の一実施形態によれば、第1ニューラルネットワークは、複数の視点仮定を供給するように構成されていてもよく、且つ、この場合には、最小距離と関連する視点仮定が前記パラメータを適合させるために使用されている。
【0035】
視点推定の分野における既知の問題は、対称的な物体を取り扱う方法であり、且つ、既知の方法は、しばしば、(方位角の+又は-πにおける)誤りを含み得る結果を生成している。複数の仮定を供給し得る第1ニューラルネットワークを有することにより、この問題を克服し得ることが観察された。この結果、最良の仮定を使用した逆伝播勾配が、相対的に良好な仮定を生成するように第1ニューラルネットワークをトレーニングすることになる。
【0036】
特定の実施形態によれば、第1ニューラルネットワークは、最良の仮定を通知し得るように構成されたインジケータを供給し得るように更に構成することができる。
【0037】
このインジケータの生成に参加する第1ニューラルネットワークの重みは、トレーニングの際に適合することができる。この結果、第1ニューラルネットワークは、このインジケータを供給するように更にトレーニングされている。
【0038】
このインジケータは、対称的な物体上において試験フェーズにおいてニューラルネットワークを使用するステップを許容している。インジケータによって表記された視点は、試験フェーズにおいて第1ニューラルネットワークの出力として見なされる視点であることを要する。
【0039】
特定の実施形態によれば、第3ニューラルネットワークは、入力として外観情報を使用するために且つ/又は入力として視点を使用するために、物体条件付き生成プロセスを使用することができる。
【0040】
物体条件付き生成プロセスは、「Arbitrary style transfer in real-time with adaptive instance normalization」(Xun Huang and Serge Belongie. In Proceedings of the IEEE International Conference on Computer Vision, pages 1501-1510, 2017)という文献の1つであることができ、換言すれば、これは、適応的インスタンス正規化(当業者によって「AdaIN」とも呼称される)に基づくことができる。物体条件付き生成プロセスは、第3ニューラルネットワークが画像を生成する際に物体の外観が実際に第3ニューラルネットワークによって考慮されることを保証していることが観察された。(例えば、オートエンコーダからのデコーダを使用する)その他の方法は、外観を正しい方式で因数分解しないことにより、外観の寄与を無視する場合がある。物体条件付き生成プロセスは、異なるスケールにおいて生成プロセス(即ち、画像の生成プロセス)を適合させ得ることから、外観を無視する可能性が軽減されている。
【0041】
同様に、視点は、画像の生成のために考慮されることを保証するように、且つ、視点情報が見逃される状況を回避するように、画像生成プロセスの後のステージにおいて使用することができる。
【0042】
特定の実施形態によれば、第3ニューラルネットワークは、入力として一般的なコードを更に受け取るように構成されていてもよく、且つ、入力として一般的なコードを受け取るように構成された複数の連続的な3D畳み込み層を有しており、この場合に、それぞれの3D畳み込み層の出力は、変換された出力を得るように、パラメータとして第3ニューラルネットワークへの入力として使用される外観情報を使用して所与のアファイン変換によって変換されるように構成されており、且つ、
この場合に、第3ニューラルネットワークは、最後の3D畳み込み層の変換された出力及び第3ニューラルネットワークへの入力として使用される視点を入力として受け取るように構成されたレンダリングモジュールを有する。
【0043】
変換された出力は、容積であることが可能であり、且つ、これは、3D畳み込み層を使用した結果である。
【0044】
上記の実施形態において、一般的なコードは、例えば、ランダムに選択されたコード(例えば、経験的に選択されたサイズを有するランダム1Dベクトル)であってよい。トレーニングプロセスの後に、一般的なコードは、影響を受けることになり、これは、これが標準ポーズにおいて平均物体をエンコーディングすることになることを意味している。一般的なコードは、トレーニングフェーズの全体において固定されることを要する。
【0045】
また、連続的な3D畳み込み層は、アファイン変換のそれぞれの適用の後に増大する分解能を有し得る。
【0046】
アファイン変換は、物体条件付き生成プロセスを実装している。
【0047】
また、第3ニューラルネットワークにおいて、視点は、最後のレンダリングステップにおいて考慮されている。これは、勾配の逆伝播が第1ニューラルネットワークに伝播することを保証しており、且つ、視点エラーが畳み込み層によって補償され得ないことを保証している。
【0048】
特定の実施形態によれば、レンダリングモジュールは、
第3ニューラルネットワークへの入力として使用される視点に従ってレンダリングモジュールによって受け取られた変換された出力に対して回転を実行するように構成された且つ回転された出力を出力するように構成された回転モジュールと、
回転された出力に対してパースペクティブを適用するように構成されたパースペクティブモジュールと、
第3ニューラルネットワークによって出力された画像を生成するように且つパースペクティブが適用された回転された出力を使用するように構成された光線追跡モジュールと、
を含むことができる。
【0049】
上記において定義されているレンダリングモジュールは、上記の容積(変換された出力)と最終的な生成された画像の間において生成プロセス(第3ニューラルネットワークの動作)における幾何学的な一貫性を強制している。
【0050】
特定の一実施形態によれば、光線追跡モジュールは、
所定の深さにおいてピクセルの光線が停止する確率を通知する確率マップを生成するように、
確率マップから占有マップを得るように、
占有マップ及びパースペクティブが適用された回転された出力から画像を生成するように、
構成することができる。
【0051】
特定の実施形態によれば、方法は、少なくとも、
ランダム視点を判定するステップと、
データセットからランダム画像を選択するステップと、
外観情報を得るために第2ニューラルネットワークにランダム画像を入力するステップと、
ランダム画像のランダム視点及び外観情報を第3ニューラルネットワークに入力することにより、更なる合成画像を供給するステップと、
更なる合成画像が第1ニューラルネットワークに入力された際に(例えば、第1ニューラルネットワークを通じてエラーの逆伝播を実行することにより)ランダム視点と第1ニューラルネットワークの出力の間の距離を極小化するステップと、
を有する更なるトレーニングを更に含むことができる。
【0052】
この特定の実施形態は、トレーニングの際に視点が実際に考慮されることを保証しており、且つ、画像の間の相関が影響することを防止している。
【0053】
この実施形態は、上記の方法がランダムな視野から画像を生成し得るという事実を使用しており、且つ、トレーニングデータセットが限定されている場合には、第1ニューラルネットワークのトレーニングを改善している。
【0054】
このトレーニングは、反復的であることが可能であり、且つ、反復は、共同トレーニングが実行された後に又は並行した方式で実行することができる。
【0055】
本発明は、第1ニューラルネットワークとして、上記の方法によってトレーニングされたニューラルネットワークを更に提供している。
【0056】
このニューラルネットワークは、例えば、不揮発性メモリ内などのように、電子サポート部上において保存されていてもよい。
【0057】
また、本発明は、画像が第1ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、センタリングされている、且つ、物体の所与のカテゴリに属する、物体の視点を検出するように第1ニューラルネットワークをトレーニングするシステムを提供しており、これは、
画像のペアのデータセットであって、画像のそれぞれのペアは、前記カテゴリに属する物体が第1視点の下において可視状態にある且つセンタリングされている第1画像と、同一の物体が第1視点とは異なる第2視点の下において可視状態にある且つセンタリングされている第2画像と、を有する、データセットと、
この画像が第2ニューラルネットワークに入力された際に、この画像上において可視状態にある且つ前記カテゴリに属する物体の外観情報を供給し得るように構成された第2ニューラルネットワークと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に、前記カテゴリの物体の合成画像を供給し得るように構成された第3ニューラルネットワークと、
画像のペアのデータセットからの画像のペアの第1画像の少なくとも一部分であって、画像上において可視状態にある物体を示している部分、及び
第1ニューラルネットワークに第1画像を入力することによって供給される視点及びペアの第2の画像を第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る第3ニューラルネットワークによって供給された合成画像、
の間の距離を極小化するように、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークのパラメータを適合させることにより、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするように構成されたトレーニングモジュールと、
を有する。
【0058】
このシステムは、上記において定義されている方法の任意の実施形態を実行するように構成することができる。
【0059】
また、本発明は、サポート部及びカメラ上において保存された、上記のトレーニング方法からの第1のものであるとして上記において定義されているシステムを提供している。また、本発明は、このシステムを含む車両をも提供している。
【0060】
特定の一実施形態において、方法のステップは、コンピュータプログラム命令によって決定されている。
【0061】
その結果、本発明は、コンピュータによって実行された際に上記の方法のステップを実行するコンピュータプログラムをも対象としている。
【0062】
このプログラムは、任意のプログラミング言語を使用することが可能であり、且つ、ソースコード、オブジェクトコード、又は部分的にコンパイルされた形態などのソースコードとオブジェクトコードの間に介在するコードの形態、或いは、任意のその他の望ましい形態を有することができる。
【0063】
また、本発明は、上記のようにコンピュータプログラムの命令を含むコンピュータ可読情報媒体をも対象としている。
【0064】
情報媒体は、プログラムを保存する能力を有する任意のエンティティ又は装置であってよい。例えば、媒体は、例えば、CD-ROM又はマイクロ電子回路ROMなどのROM、或いは、例えば、ディスケット(フロッピー(登録商標)ディスク)又はハードディスクなどの磁気ストレージ手段などのストレージ手段を含み得る。
或いは、この代わりに、情報媒体は、プログラムが内蔵された集積回路であることが可能であり、この場合に、回路は、対象の方法を実行するように又はその実行において使用されるように適合されている。
【0065】
以下、以下のとおりの、同一の符号が同一の要素を表記している、添付図面を参照し、本発明の例示用の実施形態の特徴、利点、及び技術的且つ産業的重要性について説明する。
【図面の簡単な説明】
【0066】
図1図1は、トレーニング方法の概略図である。
図2図2は、トレーニングモジュールの動作の概略図である。
図3図3は、一例によるシステムの概略図である。
図4図4は、一例による車両である。
【発明を実施するための形態】
【0067】
以下、画像上において可視状態にある所与の物体の視点を供給するようにニューラルネットワークをトレーニングする例示用の方法について説明する。
【0068】
物体の視点は、カメラとの関係における物体の方位角、物体の仰角、及び物体のプレーン内回転(オイラー角)の組合せとして定義することができる。また、視点は、回転行列R∈SOとして定義することもできる。
【0069】
図1は、このニューラルネットワークが、このニューラルネットワークに入力された画像上において可視状態にある物体の視点を検出することができるように、ニューラルネットワークをトレーニングする方法の概略図である。この図においては、このニューラルネットワーク(のみならず、このニューラルネットワークによって実装される対応する関数)は、fとして表記されている。また、且つ、更なるニューラルネットワークがfのトレーニングの際に使用されることになることから、fは、第1ニューラルネットワークとも呼称されることになる。
【0070】
は、ポーズ/視点空間V内において視点を出力するために画像空間Iに対して動作している(f:I→V)。この動作は、物体の所与のカテゴリを有する物体の場合である。従って、fは、物体検出の動作を実行しているが、検出された物体の視点を出力している。
【0071】
物体の画像及び対応する視点(グラウンドトルス)を有するトレーニングデータセットを取得することは困難であることから、合成による条件付き生成及び分析からの原理を使用した自己管理トレーニングを実行することが提案されている(入力画像を再構築することによって視覚情報を理解するように試みる方式である)。これを目的として、上記の関数f及び本説明における第2のニューラルネットワークである第2のものfというニューラルネットワークによって実装された2つの関数を介して画像上において可視状態にある物体の視点及び外観を因数分解することが提案されている。実際に、fは、入力として画像を受け取り得るように、且つ、fが視点vを出力している間にfによって処理された画像上において可視状態にある物体の外観情報aを出力し得るように、構成されている。
【0072】
本出願においては、外観情報は、色、3D形状、テクスチャ、などを含み得る。また、外観情報は、コード化された形態において提示され得る。
【0073】
視点推定が正確であることを検証するように、比較の実行を許容することになる物体を生成するために、第3ニューラルネットワークfが提供されている。第3ニューラルネットワークは、物体の視点v(物体が再構築された画像上において観察されることになる視点であることを要する)と、物体の外観a(物体は、再構築された画像上においてaに対応する外観を有することになる)と、が付与された場合に、物体を示す合成画像Iを再構築し得るように構成されている。
【0074】
3つのニューラルネットワークf、f、及びfは、それぞれθ、θ、及びθと表記されたパラメータ(又は、重み)を有する。これらのパラメータは、fが物体の視点を通知する注釈が付与された画像を使用することなしに正確な視点推定を供給することを保証するという目的の下に、トレーニングの際に適合されることになる。これを目的として、画像のペアを有するトレーニングデータTが提供されている。Tは、次式として定義されている。
【数1】
【0075】
この場合に、(I,I’)は、画像のN個のペアを有するデータセットT内のインデックスiの画像のペアを表記している。画像のペア(I,I’)において、I及びI’の両方は、同一の物体を(例えば、同一の自動車)、但し、それぞれ、v及びv’という異なる視点に下において、示している。物体は、画像(I,I’)内においてセンタリングされており、且つ、これらの画像は、背景を有していてもよく、或いは、有していなくてもよい(例えば、これらは、物体のみを示している)。例えば、画像(I,I’)は、異なる視点の下において物体を示すビデオのフレーム上において物体検出器を使用して取得することが可能であり(このケースにおいて、これらは、背景を有する)、或いは、これらは、CADモデルから生成することもできる(このケースにおいては、これらは、背景を有していなくてもよい)。
【0076】
本方法は、
画像のペアのデータセットからの画像のペアの第1画像I、及び
第1画像Iを第1ニューラルネットワークに入力することによって供給される視点及びペアの第2画像I’を第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る第3ニューラルネットワークによって供給される合成画像、
の間の距離を極小化するように、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークのパラメータを適合させることにより、第1ニューラルネットワークf、第2ニューラルネットワークf、及び第3ニューラルネットワークfを一緒にトレーニングすることを提案している。
【0077】
換言すれば、以下の最適化が実行されている。
【数2】
【0078】
上記の式は、画像(I,I’)が背景を有していない場合に使用することができる。これらが背景を有している場合には、Iに対するセグメント化マスクの適用の結果であるM(I)によって差の右の項内のIを置換することが好ましく、この場合に、このセグメント化マスクは、物体を示すピクセルの範囲を定めている。
【0079】
更に詳しくは、fは、バッチ正規化及びReLU活性化関数によってインターリーブされた7つの畳み込み層を有する構造を有し得ることに留意されたい。fは、64×64の解像度を有するRGB画像を受け取るように構成することができる。但し、本発明は、この構造及びこの分解能に限定されるものではなく、且つ、当業者は、f用のその他のニューラルネットワーク構造を生成し得ることになる。
【0080】
また、fは、視点v∈S、即ち、単位球のポイント、を出力するように構成されている。球上のそれぞれのポイントを視点に対して一意にマッピングすることができる。
【0081】
視点vは、後述するように、第3ニューラルネットワークfによって使用可能となるように、好ましくは、トレーニングステージにおいて回転行列として表現されている。
【0082】
回転行列として表現された視点を得るために、直交化演算がfの出力に対して実行されている。まず、ベクトルuが上向き方向を表すものとして任意に選択され、w=v×u及びu’=w×vという2つの連続的なクロス積が実行され、結果が正規化され、且つ、回転行列Rが、[v,w,u’]として定義されている。
【0083】
Rを得るためのステップを実行するモジュールは、学習可能(微分可能)であることが可能であり、且つ、vと共に一緒にuを学習することも可能である。
【0084】
1つの視点推定のみを出力するように構成された第1ニューラルネットワークfを使用することが可能であるが、複数の視点推定を出力するように構成された第1ニューラルネットワークfを使用することが好ましい。実際に、教師なし視点推定の主要な落とし穴は、対称性によってもたらされる予測の崩壊である。大部分のシステムは、それぞれの面が異なる方式で着色された立方体のような非常に単純化された物体上においては良好に機能するが、現実世界の物体は、少なくとも1つの、そうでない場合には、多くの、対称的な視点ペアを有する傾向を有する。vから物体を観察することによって生成された画像が、v’からその物体を観察することによって生成されるものに近接している場合には、2つの視点v、v’は、対称ペアv~v’を形成しているものと見なされる。例えば、大部分の自動車の場合には、(a,e,t)~(a+π,e,t)が任意の方位角a、仰角e、及びカメラの傾きt用の対称的なペアを形成している。従って、再構築に基づいた教師なし方法は、通常、これらの2つの視点を同一視し、これにより、予測の崩壊をもたらしている。ポーズ分布に対してプライア(prior)を強制するために敵対的モデルを使用する、いくつかの予測ヘッドを使用する、或いは、画像の反転したバージョンを使用して予測においてなんからの対称的一貫性を強制する、などのような様々な回避策がこれを軽減するために提案されている。これらの解決策は、満足できるものではない。例えば、画像の反転したバージョンを使用することは、画像を反転させた際にセマンティクスが保持されることを仮定しており(これは、物体の事前の知識を仮定している)、且つ、これが左-右の面対称性についてのみ有効であることを仮定しており、この既知の方式は、自動車について取得された上記の対称的なペアにおいては失敗し得る。複数の(例えば、M個の)視点仮定を出力することが、この困難を克服している。例えば、対称性を有する物体用の2つの仮定が、それぞれ、fによって同時に出力されることになり、正しいものの判定は、最小再構築エラーを提供するものを選択することにより、実行することができる。例えば、正しい視点vは、
【数3】
となるように、次式として定義することが可能であり、
【数4】
この場合に、
【数5】
は、m番目の仮定を表記しており、且つ、Mは、仮定の合計数である(例えば、3に等しい)。勾配は、対称的な仮定を分離するように、インデックスmのfの出力を通じてのみ伝播することを要することに留意されたい。
【0085】
試験フェーズにおいては(fが物体の視点を検出するために実際の画像上において使用されることになる際には)、複数の仮定を有することは、便利でない場合があり又は費用を所要し得ることに留意されたい。この問題を克服するために、fを通じて、fによって出力される複数の仮定のうちの最良の仮定を通知するようにトレーニングされることになるインジケータの取得を実装することが提案される。
【0086】
このインジケータは、学生出力と呼称することができる。
【0087】
試験フェーズにおいて複数の仮定を維持することにより、相対的に安定したものとなることが観察された。
【0088】
第2ニューラルネットワークfとの関連において、fは、バッチ正規化及びReLU活性化関数によってインターリーブされた7つの畳み込み層を有する構造を有し得ることに留意されたい。fは、64×64の解像度を有するRGB画像を受け取るように構成することができる。但し、本発明は、この構造及びこの解像度に限定されるものではなく、且つ、当業者は、f用のその他のニューラルネットワーク構造を生成することが可能となる。
【0089】
の動作は、
【数6】
であり(nは、システムが過大なオーバーヘッドを伴うことなしに動作することを保証するように、例えば、128、256、或いは、場合によっては、1024において経験的に選択されている)、且つ、fは、オートエンコーダの一部分であり得るエンコーダの構造を有する。
【0090】
は、オートエンコーダのデコーダの構造を有し得るが、以下、有利な構造について説明する。実際に、オートエンコーダ構造は、外観及び視点が、デコーダに入力された際に、正しく因数分解されるという保証を提供してはいないことが観察された。例えば、画像I’上における物体の視点v’は、a’内において含まれることが可能であり、これは、v’の変化が再構築の外観の変化を誘発し得ることを意味している。極端なケースにおいては、ネットワークは、場合によってはvを無視する可能性があり、且つ、(I,I’)ペアを記憶することにより、Iを再構築する可能性があろう。これを軽減するために、ここでは(「Arbitrary style transfer in real-time with adaptive instance normalization」という文献において記述されている)適応的インスタンス正規化に基づいた物体条件付きプロセスが使用されている。この方式は、当初、スタイル転送のために使用されていたが、異なるスケールにおいて生成プロセスを適合させるその能力に起因して、この方式は、GANにおいても一般的である。
【0091】
予備的ステップにおいて、fのメイン入力を形成するように、ランダムな静的コード
【数7】
(mは、例えば、1024に設定されるなどのように、経験的に選択されており、好ましくは、ネットワークがfの出力におけるすべてのものをエンコーディングし得ないように、m>nであり、これにより、物体カテゴリに関するグローバル情報をエンコーディングするためにzに依存することが必要とされている)が定義されている。zは、1Dベクトルの正規分布からランダムに選ぶことが可能であり、且つ、トレーニングフェーズの末尾においてデータセットから平均的物体をエンコーディングすることを狙いとしており、且つ、トレーニングフェーズの全体において一定の/固定された状態に留まっている。zの目的は、トレーニングの後に標準的ポーズにおいて平均的物体をエンコーディングするというものである。
【0092】
zは、fに、且つ、更に正確には第1の3D畳み込み層に、入力され、この層の出力は、変換用のパラメータとしてa’を使用するアファイン変換によって変換されている(このステップは、図1においては、AdaINとして表記されている)。アファイン変換によって(且つ、更にはReLUによって)後続される複数のこのような3D畳み込み層が実装されている。例として、7つのこのような3D畳み込み層及び変換が使用されており、且つ、これらの3D畳み込み層の分解能は、逐次増大している。
【0093】
a’は、異なる深さにおいてそれぞれの特徴チャネルにわたって均一に変換を通じて適用されており、且つ、これは、再構築に対して相対的に良好に影響を及ぼすことになることに留意されたい。
【0094】
また、このステージにおいては、fから得られた視点vは、fによってまだ使用されてはいない。
【0095】
最後の変換の後に、変換された出力が取得されている。次いで、この変換された出力は、変換された出力及びfから得られた視点vを入力として受け取るレンダリングモジュールにおいて使用されている。
【0096】
変換された出力は、例えば、RGB値、占有グリッド、及び空間座標(X、Y、及びZ)を保存し得る多次元構造を有し得る。例えば、変換された出力は、テンソルであってよい。
【0097】
レンダリングモジュールの第1モジュールにおいて、回転された出力を得るために、容積Vを定義している変換された出力が、パラメータとして上記において定義された行列Rを使用して回転されている。次いで、回転された軸に沿ってデータをリサンプリングすることにより、新しい容積が取得されている。
【0098】
次いで、パースペクティブが、回転された出力に適用されている。ピンホールカメラの単一ポイントパースペクティブは、距離に比例して物体の見かけのサイズを減少させる効果を有することになることから、このパースペクティブの適用は、容積内の近いポイントの膨張と、容積の遠いポイントの縮小と、を有し得る。
【0099】
次いで、2Dプレーン上において容積を投射するように、疑似光線追跡モジュールが使用されている。
【0100】
図2は、レンダリングモジュールの動作をグラフィカルに示している。
【0101】
物体の各部分は、自己閉塞に晒されることになり、この結果、最終的な再構築において出現することになる部分を演算し、これにより、適切な幾何学的一貫性を保証するために疑似光線追跡モジュールの使用が許容されている。
【0102】
回転及びパースペクティブの適用の後に得られる容積Vは、4つのチャネルを有しており、この場合に、最初の3つは、RGB成分を表し、且つ、4つ目のものは、物体の形状に関する情報を含む占有マップである。それぞれのセルの値は、物体が対応する空間的場所を占有している確率として解釈されている。投射を演算するために、それぞれの光線が停止する可能性が高い場所を推定する必要がある。パースペクティブは、既に考慮されていることから、すべての光線は平行であり、これにより、それぞれの停止ポイントの深さの演算のみが残されている。それぞれの光線ごとに経路を演算する必要はなく、この経路は、容積の形状内において埋め込まれていることに留意されたい。すべての光経路は、並行動作を使用して同時に演算することができる。ピクセル座標i;jにおける光線が深さkにおいて停止する確率は、次式によって付与され、
【数8】
これには、空積が1に等しいという取り決めが伴っている。
【0103】
第1の項Qi,j,kは、座標(i,j,k)におけるボクセルが占有される確率を表す一方で、第2のもの
【数9】
は、すべての以前のものが非可視である確率である。従って、最後の画像は、座標i;jにおいて以下のピクセル値を有することになる。
【数10】
【0104】
管理は、セグメント化マスクのみを使用して提供され得る一方で、光線が容積全体を通過するかどうか又はなんらかのポイントにおいて停止するかどうかをシステムが認知している場合には、別の方式が好ましい。管理のために直接的ピクセル値を使用することが提案され、これは、すべての光線がなんらかのポイントにおいて停止すると考えられることから、光線が通過又は停止することに関する情報が提供されないことを意味している。従って、本方法の強故障モードは、キャンバスとして容積Vを使用するステップと、側部において異なるポーズにおいて物体を「ペイント」するステップと、を有する。これは、物体の形状におけるエラーをもたらす可能性があり、その理由は、物体に属するピクセルに関する知識が存在していないからである。この課題を克服するために、占有グリッドの再パラメータ化が実行されている。Qを学習する代わりに、Q=Q’+Sとなるように、Q’が学習されており、この場合に、Sは、V上においてセンタリングされた3次元ガウス分布である。基本的に、Q’の学習は、Sにわたって残差を学習するステップ、即ち、観察された物体の形状にマッチングするようにSを変形させるステップ、を有する。この結果、ネットワークが、中心から離れたボクセルを使用しないようにしつつ、物体の形状及び位置用のプライアが設定されている。
【0105】
これに加えて、画像空間内における管理の設定(即ち、単なるセグメント化マスクの代わりにピクセル値との比較)は、利益と、新しい視野の生成の許容と、を提供している。具体的には、これらの視野は、予測の洗練を支援するためにトレーニングにおいて使用することが可能であり、視点空間
【数11】
をランダムサンプリングすることが可能であり、且つ、外観情報a’を使用して新しい画像
【数12】
をレンダリングすることが可能である。この結果、ポーズエスティメータにおいてこれらの画像を供給することが可能であり、且つ、ターゲット
【数13】
として
【数14】
を設定することが可能である(Lcycleは、
【数15】
上のfvの出力と
【数16】
の間の二乗された距離である)。これは、トレーニングセット内に存在するポーズのトレーニングセット内に存在するポーズの組を超えた一般化を許容し、且つ、新たに生成されたサンプルは、ポーズネットワークの正則化を支援する。
【0106】
スケーリングファクタによって実装された物体とカメラの間の距離又は物体の各部分を照明するための別の回転及び光線追跡動作によって実装されたライティングなどの更なるパラメータをレンダリングプロセスに追加することができる。
【0107】
トレーニングは、64個のサンプルのバッチによって実行することが可能であり、且つ、最適化をアダムオプティマイザを使用して実行することができる(「Adam: A method for stochastic optimization」(Diederik P Kingma and Jimmy Ba. arXiv preprint arXiv:1412.6980, 2014)という文献を参照されたい)。
【0108】
図3は、上記において定義された第1ニューラルネットワークfをトレーニングするシステム100を示している。このシステムは、プロセッサ101を有し、且つ、コンピュータシステムの構造を有する。
【0109】
また、これは、3つのニューラルネットワークf、f、及びfのみならず、トレーニングデータセットTが保存されている不揮発性メモリをも有する。また、トレーニングを実行するためのコンピュータプログラム命令103は、不揮発性メモリ内においても保存されている。コンピュータプログラム命令103及びプロセッサ101は、
画像のペアのデータセットからの画像のペアの第1画像、及び、
第1画像を第1ニューラルネットワークに入力することによって供給される視点及びペアの第2画像を第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る第3ニューラルネットワークによって供給される合成画像、
の間の距離を極小化するように、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークのパラメータを適合させることにより、第1ニューラルネットワーク、第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするように構成されたトレーニングモジュールを形成している。
【0110】
図4は、車両のカメラ202によって取得された画像上において可視状態にある物体の視点を判定するシステム201を具備する、ここでは自動車である、車両200の概略図である。
【0111】
システム201は、プロセッサ203と、ニューラルネットワークfが上記において定義されたトレーニングが実行された後に保存される不揮発性メモリ204と、を有する。
【0112】
上記のトレーニングは、トレーニング画像のラベル付与された組を使用して単純にトレーニング(教師付きトレーニング)されたニューラルネットワークよりも視点の検出において相対的に良好に振る舞うことが観察されるニューラルネットワークを取得することを許容している。
【0113】
請求項を含む本説明の全体を通じて、「1つの~を有する(comprising a)」という用語は、そうではない旨が記述されていない限り、「少なくとも1つの~を有する(comprising at least one)」と同義語であるものとして理解されたい。これに加えて、請求項を含む説明において記述されている任意の範囲は、そうではない旨が記述されていない限り、1つ又は複数のその端部値を含むものとして理解されたい。記述されている要素の特定の値は、当業者には既知である受け入れられている製造又は産業の許容範囲内にあるものとして理解することを要し、且つ、「実質的(substantially)」及び/又は「約(approximately)」及び/又は「ほぼ(generally)」という用語の任意の使用は、そのような受け入れられている許容範囲内に含まれることを意味するものと理解されたい。
【0114】
本明細書における本開示は、特定の実施形態を参照して記述されているが、これらの実施形態は、本開示の原理及び用途を例示するためのものに過ぎないことを理解されたい。
【0115】
仕様及び例は、単に例示を目的としたものとして見なすことを要し、本開示の真の範囲は、添付の請求項によって示されているものと解釈されたい。
図1
図2
図3
図4
【手続補正書】
【提出日】2022-09-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像が第1ニューラルネットワークに入力されている際に、この画像上において可視状態にある、センタリングされている、且つ、物体の所与のカテゴリに属する、物体の視点を検出するために第1ニューラルネットワークをトレーニングする方法であって、
画像のペアのデータセットを提供するステップであって、画像のそれぞれのペアは、前記カテゴリに属する物体が、第1視点の下において可視状態にある、且つ、センタリングされている、第1画像と、同一の物体が、前記第1視点とは異なる第2視点の下において可視状態にある、且つ、センタリングされている、第2画像と、を有する、ステップと、
この画像が第2ニューラルネットワークに入力された際に、画像上において可視状態にある、且つ、前記カテゴリに属する、物体の外観情報を供給し得るように構成された前記第2ニューラルネットワークを提供するステップと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に、前記カテゴリの物体の合成画像を供給し得るように構成された前記第3ニューラルネットワークを提供するステップと、
前記画像のペアのデータセットからの画像のペアの前記第1画像の少なくとも一部分であって、前記画像上において可視状態にある前記物体を示す部分、及び、
前記第1画像を前記第1ニューラルネットワークに入力することによって供給される視点及び前記ペアの前記第2画像を前記第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る前記第3ニューラルネットワークによって供給される合成画像、
の間の距離を極小化するように、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークのパラメータを適合させることにより、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び第3ニューラルネットワークを一緒にトレーニングするステップと、
を有する方法。
【請求項2】
前記距離は、知覚損失を使用して定義されている請求項1に記載の方法。
【請求項3】
前記第1ニューラルネットワークは、複数の視点仮定を供給するように構成されており、且つ、最小距離と関連する前記視点仮定が、前記パラメータを適合させるために使用されている請求項1又は2に記載の方法。
【請求項4】
前記第1ニューラルネットワークは、最良の仮定を通知し得るように構成されたインジケータを供給し得るように更に構成されている請求項3に記載の方法。
【請求項5】
前記第3ニューラルネットワークは、前記外観情報を入力として使用するために、且つ/又は、前記視点を入力として使用するために、物体条件付き生成プロセスを使用している請求項1又は2に記載の方法。
【請求項6】
前記第3ニューラルネットワークは、入力として一般的コードを更に受け取るように構成されており、且つ、入力として前記一般的コードを受け取るように構成された複数の連続的な3次元畳み込み層を有し、それぞれの3次元畳み込み層の出力は、変換された出力を得るように、パラメータとして前記第3ニューラルネットワークへの入力として使用される前記外観情報を使用する所与のアファイン変換によって変換されるように構成されており、且つ、
前記第3ニューラルネットワークは、前記第3ニューラルネットワークへの入力として使用される最後の3次元畳み込み層の前記変換された出力及び前記視点を入力として受け取るように構成されたレンダリングモジュールを有する請求項5に記載の方法。
【請求項7】
前記レンダリングモジュールは、前記第3ニューラルネットワークへの入力として使用される前記視点に従って前記レンダリングモジュールによって受け取られた前記変換された出力に対して回転を実行するように構成された、且つ、回転された出力を出力するように構成された、回転モジュールと、
前記回転された出力にパースペクティブを適用するように構成されたパースペクティブモジュールと、
前記第3ニューラルネットワークによって出力された前記画像を生成するように、且つ、前記パースペクティブが適用された前記回転された出力を使用するように、構成された光線追跡モジュールと、
を含む請求項6に記載の方法。
【請求項8】
前記光線追跡モジュールは、
ピクセルの光線が所定の深さにおいて停止する確率を通知する確率マップを生成するように、
前記確率マップから占有マップを得るように、
前記占有マップ及び前記パースペクティブが適用された前記回転された出力から前記画像を生成するように、
構成されている請求項7に記載の方法。
【請求項9】
前記方法は、少なくとも、
ランダム視点を判定するステップと、
前記データセットからランダム画像を選択するステップと、
外観情報を取得するために前記第2ニューラルネットワークに前記ランダム画像を入力するステップと、
前記ランダム視点及び前記ランダム画像の前記外観情報を前記第3ニューラルネットワークに入力することにより、更なる合成画像を供給するステップと、
前記更なる合成画像が前記第1ニューラルネットワークに入力された際に、前記ランダム視点と前記第1ニューラルネットワークの出力の間の前記距離を極小化するステップと、
を有する更なるトレーニングを更に含む請求項1又は2に記載の方法。
【請求項10】
前記第1ニューラルネットワークとしての請求項1又は2に記載の方法によってトレーニングされたニューラルネットワーク。
【請求項11】
画像が第1ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、センタリングされている、且つ、所与の物体のカテゴリに属する、物体の視点を検出するように第1ニューラルネットワークをトレーニングするシステムであって、
画像のペアのデータセットであって、画像のそれぞれのペアは、前記カテゴリに属する物体が、第1視点の下において可視状態にある、且つ、センタリングされている、第1画像と、同一の物体が、前記第1視点とは異なる第2視点の下において可視状態にあり、且つ、センタリングされている、第2画像と、を有する、データセットと、
画像が第2ニューラルネットワークに入力された際に、この画像上において可視状態にある、且つ、前記カテゴリに属する、物体の外観情報を供給し得るように構成された前記第2ニューラルネットワークと、
物体の外観情報及び視点が第3ニューラルネットワークに入力された際に、前記カテゴリの物体の合成画像を供給し得るように構成された前記第3ニューラルネットワークと、
前記画像のペアのデータセットからの画像のペアの前記第1画像の少なくとも一部分であって、前記画像上において可視状態にある前記物体を示す部分、及び、
前記第1画像を前記第1ニューラルネットワークに入力することによって供給される視点及び前記ペアの前記第2画像を前記第2ニューラルネットワークに入力することによって供給される外観情報を入力として受け取る前記第3ニューラルネットワークによって供給された合成画像、
の間の距離を極小化するように、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークのパラメータを適合させることにより、前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、及び前記第3ニューラルネットワークを一緒にトレーニングするように構成されたトレーニングモジュールと、
を有するシステム。
【請求項12】
サポート部及びカメラ上において保存された、請求項10に記載の前記ニューラルネットワークを有するシステム。
【請求項13】
請求項12に記載の前記システムを有する車両。
【請求項14】
コンピュータプログラムであって、前記プログラムがコンピュータによって実行された際に、請求項1又は2に記載の前記方法の前記ステップを実行するための命令を含むコンピュータプログラム。
【請求項15】
コンピュータによって可読である、且つ、請求項1又は2に記載の前記方法の前記ステップを実行するための命令を含むコンピュータプログラムをその上において記録された状態において有する、記録媒体。
【外国語明細書】