(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-14
(45)【発行日】2024-06-24
(54)【発明の名称】写実的画像を生成する生成器のためのトレーニング方法
(51)【国際特許分類】
G06V 10/774 20220101AFI20240617BHJP
G06V 10/82 20220101ALI20240617BHJP
【FI】
G06V10/774
G06V10/82
(21)【出願番号】P 2023513119
(86)(22)【出願日】2021-08-20
(86)【国際出願番号】 EP2021073127
(87)【国際公開番号】W WO2022043204
(87)【国際公開日】2022-03-03
【審査請求日】2023-02-22
(31)【優先権主張番号】102020210710.6
(32)【優先日】2020-08-24
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】エドガー シェーンフェルト
(72)【発明者】
【氏名】バディム スシュコ
(72)【発明者】
【氏名】ダン チャン
(72)【発明者】
【氏名】アンナ コレヴァ
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】Xihui Liu, et al.,Learning to Predeict Layout-to-image Conditional Convolutions for Semantic Image Synthesis,arXiv,2019年,DOI:10.48550/arXiv.1910.06809,arXiv:1910.06809V1
【文献】Edgar Schonfeld, et al.,A U-Net Based Discriminator for Generative Adversarial Networks,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2020年06月,PP.8207-8216
【文献】Michal Uricar, et al.,Yes. we GAN: Applying Adversarial Techniques for Autonomous Driving,arXiv,2019年,DOI:10.2352/ISSN.2470-1173.2019.15.AVM-048,arXiv:1902.03442v1
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/00 - 20/90
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
画像(3)のピクセル各々に当該ピクセルが属する物体のセマンティックな意味(4)を割り当てるセマンティックマップ(2、5a)からの画像(3)のための生成器(1)をトレーニングする方法(100)であって、
・本物のトレーニング画像(5)と、個々の前記トレーニング画像(5)のピクセル各々にセマンティックな意味(4)を割り当てる対応するセマンティックトレーニングマップ(5a)とを用意するステップ(110)と、
・少なくとも1つのセマンティックトレーニングマップ(5a)から、前記生成器(1)により画像(3)を生成するステップ(120)と、
・少なくとも1つの同一の前記セマンティックトレーニングマップ(5a)に対し、少なくとも1つの本物のトレーニング画像(5)を求めるステップ(130)と、
・前記生成器(1)によって生成された少なくとも1つの画像(3)と、求められた少なくとも1つの本物のトレーニング画像(5)とから、混合画像(6)を生成するステップ(140)であって、前記混合画像(6)において、前記ピクセルの第1の真部分集合(6a)は、前記生成器(1)によって生成された前記画像(3)のそれぞれ対応するピクセル値によって占有されており、前記ピクセルの残余の真部分集合(6b)は、前記本物のトレーニング画像(5)のそれぞれ対応するピクセル値によって占有されている、ステップ(140)と、
・同一の前記セマンティックトレーニングマップ(5a)に属する、前記生成器(1)によって生成された前記画像(3)と、少なくとも1つの前記本物のトレーニング画像(5)と、少なくとも1つの混合画像(6)とを、識別器(7)に供給するステップ(150)であって、前記識別器(7)は、前記生成器(1)によって生成された画像(3)を、前記セマンティックトレーニングマップ(5a)によって予め定められたシーンの本物の画像(5)と区別するように構成されている、ステップ(150)と、
・前記生成器(1)によって生成された前記画像(3)が前記識別器(7)によって本物の画像(5)として誤って分類されることを目標として、前記生成器(1)の挙動を特徴付ける生成器パラメータ(1a)を最適化するステップ(160)と、
・生成された画像(3)と本物の画像(5)とを区別する際の精度を改善することを目標として、前記識別器(7)の挙動を特徴付ける識別器パラメータ(7a)を最適化するステップ(170)と、
を含
み、
前記セマンティックトレーニングマップ(5a)が同様の前記セマンティックな意味(4)を割り当てる、前記混合画像(6)のピクセルの連続する領域(61、62)を、前記生成器(1)によって生成された前記画像(3)の対応するピクセル値によって画一的に占有させ、又は、前記本物のトレーニング画像(5)の対応するピクセル値によって画一的に占有させる(141)、生成器(1)をトレーニングする方法(100)。
【請求項2】
本物のトレーニング画像(5)から前記混合画像(6)に引き継がれたピクセル及び/又は物体の数的な割合に対応する程度に応じて、前記混合画像(6)が本物の画像(5)として分類されることを目標として、前記識別器パラメータ(7a)を付加的に最適化する(171)、請求項
1に記載の方法(100)。
【請求項3】
識別器(7)としてPatchGAN識別器を選択し(151)、前記PatchGAN識別器は、予め定められたサイズを有する前記画像(3、5、6)の部分領域において、生成された画像(3)と本物の画像(5)との間の識別を決定し、その際にそれぞれ得られた結果を結合して総合結果を形成する、請求項
1又は2に記載の方法(100)。
【請求項4】
エンコーダ構造とデコーダ構造とを備えた識別器(7)を選択し(152)、前記エンコーダ構造は、入力された画像を複数の相前後する処理層において、情報が削減された表現に変換し、前記デコーダ構造は、情報が削減された前記表現を、入力された前記画像のピクセル各々が本物のピクセル又は生成されたピクセルであるとする評価に、さらに変換する、請求項
1又は2に記載の方法(100)。
【請求項5】
情報が削減された前記表現を回避して、前記エンコーダ構造の処理層と前記デコーダ構造の処理層との間に、少なくとも1つの直接的な接続を備えた識別器(7)を選択する(152a)、請求項
4に記載の方法(100)。
【請求項6】
前記識別器(7)を付加的に、予め定められたルールに従って本物のトレーニング画像(5)と生成された画像(3)とから求められた混合画像(6)から、前記識別器(7)が空間分解された出力を生成するように、トレーニングし(172)、前記空間分解された出力は、一方では前記本物のトレーニング画像(5)について、他方では前記生成された画像(3)について得られた出力を、予め定められた同一の前記ルールに従って混合したものに可及的に近い、請求項1乃至
5のいずれか一項に記載の方法(100)。
【請求項7】
前記空間分解された出力は、前記識別器(7)のニューラルネットワークの最後の層の出力を含み、当該出力から、入力された前記画像が本物であるのか又は生成されたものであるのかの区分、及び、双方の区分に対する確率が判明する、請求項
6に記載の方法(100)。
【請求項8】
入力された画像及び/又は入力された前記画像のピクセルをセマンティックな意味に割り当てる画像分類器(9)をトレーニングする方法(200)であって、
・請求項1乃至
7のいずれか一項に記載の方法(100)によって生成器(1)をトレーニングするステップ(210)と、
・トレーニングされた前記生成器(1)によって、セマンティックマップ(2)から画像(3)を生成するステップ(220)と、
・それぞれ使用される前記セマンティックマップ(2)から、トレーニングされた前記画像分類器(9)が前記画像(3)をそれぞれマッピングすることになるセマンティックな目標意味(4)を求めるステップ(230)と、
・本物のトレーニング画像(5’)及び対応するセマンティックな目標意味(4’)を含む、前記画像分類器(9)のためのトレーニングデータセット(9a)を、生成された前記画像(3)と対応するセマンティックな目標意味(4)とによって拡張するステップ(240)と、
・前記画像分類器(9)を、拡張された前記トレーニングデータセット(9a
*)によってトレーニングするステップ(250)と、
を含む、画像分類器(9)をトレーニングする方法(200)。
【請求項9】
・請求項
8に記載の方法(200)によって画像分類器(9)をトレーニングするステップ(310)と、
・車両(50)に搭載された少なくとも1つのセンサ(51)によって撮影された画像(5)を、前記画像分類器(9)によってセマンティックな意味(4)に割り当てるステップ(320)と、
・前記画像分類器(9)によって求められた前記セマンティックな意味(4)から、動作制御信号(330a)を求めるステップ(330)と、
・前記動作制御信号(330a)によって前記車両(50)の動作を制御するステップ(340)と、
を含む方法(300)。
【請求項10】
コンピュータプログラムであって、当該コンピュータプログラムが1つ又は複数のコンピュータ上において実行されるときに、請求項1乃至
9のいずれか一項に記載の方法(100、200、300)を前記1つ又は複数のコンピュータに実施させるための機械可読命令を含むコンピュータプログラム。
【請求項11】
請求項
10に記載のコンピュータプログラムを含む機械可読データ担体。
【請求項12】
請求項
10に記載のコンピュータプログラム及び/又は請求項
11に記載の機械可読データ担体を装備したコンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、写実的画像のための生成器のトレーニングに関するものであり、それらの画像は、同様に画像分類器のトレーニングのためにも使用可能である。
【背景技術】
【0002】
人間の運転者が道路交通において車両を運転するために必要とする情報の約90%は、視覚的な情報である。よって、車両の少なくとも部分的に自動化された運転のために不可欠であることは、どのようなモダリティであれ、車両周囲を監視する際に撮影される画像データを内容に関して的確に評価することである。走行タスクにとって特に重要であることは、たとえば、他の交通利用者、車道マーク、障害物及び交通標識など、交通に関連するいずれの物体がそれらの画像に含まれているのかについて、画像データを分類することである。
【0003】
多数の交通状況において撮影されたトレーニング画像を用いて、相応の画像分類器をトレーニングしなければならない。トレーニング画像を調達することは、比較的困難であり、費用が嵩む。実際には稀にしか発生しない交通状況は、トレーニング画像を含むデータセットにおいて取り上げられる数が少なく、従って、画像分類器は、それらの適正な分類を最適には学習することができない。さらに、トレーニング画像又はそれらのピクセルに、帰属する目標クラス分類(「グランドトゥルース」)を「ラベリング」するためには、人の手による多くの作業が必要である。
【0004】
このため、合成によって生成されるトレーニングデータも付加的に使用され、そのようなトレーニングデータは、敵対的生成ネットワークGANに基づく生成器によって生成される。独国特許発明第102018204494号明細書から、レーダデータに対するこの種の生成器が知られている。
【先行技術文献】
【特許文献】
【0005】
【文献】独国特許発明第102018204494号明細書
【発明の概要】
【課題を解決するための手段】
【0006】
発明の開示
本発明の枠組みにおいて、画像のための生成器をトレーニングする方法が開発された。
【0007】
画像という用語は、静止カメラ画像に限られるものではなく、たとえば、ビデオ画像、レーダ画像、ライダ画像及び超音波画像も含む。
【0008】
生成すべき画像を特に、たとえば予め定められた用途に関して写実的なものとすることができる。この場合、「写実的な」とは特に、たとえば画像分類器をトレーニングする際など、後段での処理において、画像を物理的なセンサによって撮影された画像と同様に利用可能である、ということを意味するものとすることができる。写実的に生成された画像を特に、たとえばセンサにより撮影され次いで「ラベリングされた」画像分類器用の本物のトレーニング画像のストックを増加させる目的で、利用することができる。よって、生成すべき画像を、以下においては、読み易くするために、「写実的画像」又は「写実的に生成された画像」と称する。
【0009】
生成器は、セマンティックマップから写実的画像を生成する。このセマンティックマップは、生成すべき写実的画像のピクセル各々に、このピクセルが属している物体のセマンティックな意味を割り当てる。即ち、何らかのランダムな写実的画像が生成されるのではなく、セマンティックマップにおいて予め定められた状況を反映する画像が生成される。従って、セマンティックマップは、たとえば、様々な車道、車道境界線、交通標識、交通利用者及びさらなる物体を含む交通状況を表すことができる。
【0010】
この方法のために、本物のトレーニング画像と、個々のトレーニング画像のピクセル各々にセマンティックな意味を割り当てる対応するセマンティックトレーニングマップとが用意される。即ち、本物のトレーニング画像ごとに、1つのセマンティックトレーニングマップが存在する。これとは逆に、セマンティックトレーニングマップごとに、少なくとも1つの本物のトレーニング画像が存在する。なぜならば、たとえば、それぞれ異なる露光又は他のマッピングパラメータを有するセマンティック的に同一の状況が撮影されている可能性があるからである。セマンティックトレーニングマップを、たとえば、本物のトレーニング画像の手動のラベリングによって取得することができる。
【0011】
トレーニング対象の生成器によって、少なくとも1つのセマンティックトレーニングマップから写実的画像が生成される。少なくとも1つの同一のセマンティックトレーニングマップに対し、少なくとも1つの本物のトレーニング画像が求められる。生成器をトレーニングするために、生成器によって生成された写実的画像を、セマンティックトレーニングマップによって予め定められたシーンの本物の画像と区別するように構成された識別器が用いられる。
【0012】
生成器によって生成された少なくとも1つの写実的画像と、同一のセマンティックトレーニングマップに対して求められた少なくとも1つの本物のトレーニング画像とから、混合画像が生成される。この混合画像において、ピクセルの第1の真部分集合は、生成器によって生成された写実的画像のそれぞれ対応するピクセル値によって占有されている。ピクセルの残余の真部分集合は、本物のトレーニング画像のそれぞれ対応するピクセル値によって占有されている。即ち、混合画像のピクセル各々は、生成器によって生成された写実的画像の対応するピクセル値、又は、本物のトレーニング画像の対応するピクセル値のいずれかによって占有されている。
【0013】
この場合、特にたとえば、セマンティックトレーニングマップが同様のセマンティックな意味を割り当てる、混合画像のピクセルの連続する領域を、生成器によって生成された写実的画像の対応するピクセル値によって画一的に占有させることができ、又は、本物のトレーニング画像の対応するピクセル値によって画一的に占有させることができる。従って、このようにした場合には、混合画像をたとえば、一方では生成器によって生成された写実的画像における物体の表示と、他方では本物のトレーニング画像における物体の表示とから成る「コラージュ」とすることができる。
【0014】
生成器によって生成された写実的画像と、少なくとも1つの本物のトレーニング画像と、少なくとも1つの混合画像とが、識別器に供給される。生成器によって生成された写実的画像が、識別器によって本物の画像として誤って分類されることを目標として、生成器の挙動を特徴付ける生成器パラメータが最適化される。
【0015】
これと同時に又はこれと交互に、写実的に生成された画像と本物の画像とを区別する際の精度を改善することを目標として、識別器の挙動を特徴付ける識別器パラメータが最適化される。即ち、識別器は、写実的に生成された画像を写実的に生成された画像として分類し、本物のトレーニング画像を本物のトレーニング画像として分類するようにトレーニングされる。
【0016】
このトレーニングにおいて、混合画像がどのような役割を果たすべきであるのか、即ち、混合画像に対するリアクションとして識別器がどのようなクラス分類を出力すべきであるのかは、トレーニングに対する調節可能な自由度である。この場合、十分に動機付けられる複数の選択肢がある。
【0017】
たとえば、大部分が写実的に生成された画像から取り出されたピクセル及び/又は物体を含む混合画像を、写実的に生成された画像として識別器が分類することを所望することができる。同様に、たとえば、大部分が本物の画像から取り出されたピクセル及び/又は物体を含む混合画像を、本物の画像として識別器が分類することを所望することができる。これらの間で任意の段階付けを行うこともできる。即ち、識別器が混合画像に対するリアクションとして、その都度望ましい目標分類を出力するように、識別器のパラメータを最適化することができる。
【0018】
その際に任意の段階付けも可能である。たとえば、本物のトレーニング画像から混合画像に引き継がれたピクセル及び/又は物体の数的な割合に対応する程度に応じて、この混合画像が本物の画像として分類されることを目標として、識別器パラメータを付加的に最適化することができる。即ち、たとえば、混合画像の画像内容の60%が本物のトレーニング画像から取り出され、この混合画像の画像内容の40%が写実的に生成された画像から取り出された場合には、混合画像を0.6のスコアで本物の画像として、0.4のスコアで写実的に生成された画像として、識別器が分類することを所望することができる。
【0019】
識別器のトレーニングのために混合画像を加えることによって、二重の効果を奏することが認識された。これによって、一方では、写実的に生成された画像と本物の画像との内容的かつ構造的な違いを、識別器がより良好に学習するように、トレーニングを調節することができる。他方では、トレーニング画像の既存のストックを、多数の混合画像の生成によってほぼ倍増させることができる。ただ1つの本物のトレーニング画像を写実的に生成された1つの画像と組み合わせるだけで既に、双方の画像からの物体の「コラージュ」として混合画像を編集する多数の選択肢が存在する。
【0020】
識別器として特にたとえば、PatchGAN識別器を選択することができる。かかる識別器は、予め定められたサイズを有する画像の部分領域(「パッチ」)において、写実的に生成された画像と本物の画像との間の識別を決定する。次いで、その際にそれぞれ得られた結果が結合されて、総合結果が形成される。かかる識別器は、特に良好に、混合画像における本物の画像内容と写実的に生成された画像内容との混合比を、定量的に捕捉することができる。
【0021】
識別器は、たとえば、エンコーダ構造とデコーダ構造とを備えたエンコーダ-デコーダ装置を有し得る。エンコーダ構造は、入力された画像を複数の処理層において、情報が削減された表現に変換する。デコーダ構造は、情報が削減されたこの表現を、入力された画像のピクセル各々が本物のピクセル又は写実的に生成されたピクセルであるとする評価に、さらに変換する。即ち、この種の識別器の出力は、入力された画像を全体として評価するスコアだけではない。その代わりに、この評価は、空間分解されたものとし、従って、混合画像のどのピクセル又は物体が本物の画像に由来するのか、及び、混合画像のどのピクセル又は物体が写実的に生成された画像に由来するかを、個別に捕捉することもできる。
【0022】
さらなる有利な実施形態によれば、識別器は、情報が削減された表現を回避して、エンコーダ構造の処理層とデコーダ構造の処理層との間に、少なくとも1つの直接的な接続を有する。このようにした場合、最大に情報が削減された表現の「ボトルネック」を通過させる必要なく、特に関係する情報部分をエンコーダ構造からデコーダ構造に選択的に移送することができる。これによって、識別器は、「U-Net」アーキテクチャを得ることになる。
【0023】
さらなる特に有利な実施形態によれば、識別器は付加的に、予め定められたルールに従って本物のトレーニング画像と写実的に生成された画像とから求められた混合画像から、この識別器が空間分解された出力を生成するように、トレーニングされ、この空間分解された出力は、一方では本物のトレーニング画像のために、他方では写実的に生成された画像のために得られた出力を、予め定められた同一のルールに従って混合したものに可及的に近い。この場合に識別器は、混合画像への画像の混合において同変である。
【0024】
これついて、セマンティックマップによるシーンが、画像の左上隅に車両を有し、画像の右下隅に樹木を有する、という例を用いて明らかにする。予め定められたルールは、混合画像は、写実的に生成された画像から取り出された車両を、本物のトレーニング画像から取り出された樹木と組み合わせよ、というものである。従って、混合画像に対し識別器によって求められた空間分解された出力は、車両を含む領域を写実的に生成された画像部分として分類し、樹木を含む領域を本物の画像部分として分類する。
【0025】
識別器を本物の画像に適用した場合には、空間分解された識別器出力は、この本物の画像を、完全に本物の画像として分類するであろう。識別器を写実的に生成された画像に適用した場合には、空間分解された識別器出力は、写実的に生成されたこの画像を、完全に写実的に生成された画像として分類するであろう。ここで、これら双方の空間分解された出力が、混合画像と同様の方法により結合される場合には、結果として、左上隅が本物の画像部分として分類され、右下隅が写実的に生成された画像部分として分類されるであろう。これは、最初に混合画像が形成され、次いで空間分解された出力が求められる場合であっても得られる結果である。
【0026】
たとえば、識別器の費用関数(Loss関数)を式
【数1】
のコンシステント項L
cによって拡張することができる。ここで、Dは、識別器の空間分解された出力であり、Mは、予め定められたルールによる結合の演算を表す。xは、本物の画像であり、
【数2】
は、写実的に生成された画像である。
【0027】
コンシステント項Lcの動機付けは、仕分けされていない硬貨及び/又は紙幣の多くの現金を、2人の異なる人間が計数するときの、一貫性チェックにいくらか対比し得るものである。この場合に、双方の人間がそれぞれ異なる方法により計数に着手する可能性がある。たとえば、1番目の人は、硬貨及び/又は紙幣を任意の順序で掴み、それらの値をその都度加算するのに対し、2番目の人は、同一の値を有する特定の個数の硬貨及び/又は紙幣から成る包みを形成し、次いでそれらの包みの値を加算する。両者の計数の方法のいずれによっても、最終的には等しい金額が得られるだろう。
【0028】
本明細書において説明する調節によって、識別器は、自然なセマンティッククラス境界に注意を払うよう仕向けられる。従って、生成された画像は、個々のピクセルの平面において写実的であるだけでなく、セマンティックマップに従ってそれぞれ異なる物体タイプに割り当てられた画像領域をそれぞれ有する形状も考慮する。
【0029】
空間分解された出力は特に、たとえば、識別器のニューラルネットワークの最後の層の出力を含み、この出力から、入力された画像が本物であるのか又は写実的に生成されたものであるのかの区分、及び、双方の区分に対する確率が判明する。この最後の層は特に、たとえば、「ロジット」即ちソフトマックス関数によってまだ正規化されていない分類スコアを含み得る。
【0030】
先に説明したように、本明細書において説明するトレーニング方法の基本的な用途は、画像分類器のためのトレーニングデータセットを拡大し、そのようにして画像分類器を、本物のトレーニング画像と、セマンティックな意味への対応する目標分類とを有する予め定められたトレーニングデータセットを起点として、全体としてより良好にトレーニングする、ということである。従って、本発明は、入力された画像及び/又は入力されたこの画像のピクセルをセマンティックな意味に割り当てる画像分類器をトレーニングする方法にも関する。
【0031】
この方法によれば、上述の方法に従って生成器がトレーニングされる。トレーニングされたこの生成器によって、セマンティックマップから写実的画像が生成される。この場合にこれらのセマンティックマップは、生成器のトレーニングのために使用されたセマンティックマップに限られたものではなく、任意の所望のシーンを記述することができる。
【0032】
セマンティックマップからセマンティックな目標意味が求められ、このセマンティックな目標意味に対し、トレーニングされた画像分類器は写実的画像をそれぞれマッピングすることになる。目標意味は特に、たとえば予め定められた分類の1つ又は複数のクラスへの帰属関係を含み得る。たとえば、セマンティックマップにおいて、ある1つの特定の場所に車両が書き込まれている場合には、写実的に生成された画像は、この場所に車両を含むようになる。このため画像分類器は、少なくともこの画像領域を「車両」クラスに割り当てることになる。
【0033】
本物のトレーニング画像及び対応するセマンティックな目標意味を含む、画像分類器用のトレーニングデータセットは、写実的に生成された画像及び対応するセマンティックな目標意味によって拡張される。画像分類器は、拡張されたトレーニングデータセットによってトレーニングされる。
【0034】
上述のようにトレーニングデータセットをこのようにして特に、予めトレーニングデータセットにおいて取り上げられることが少なかった状況の写実的画像によって充実させることができる。このようにして画像分類器をより良好に、そのような状況を取り扱い得る状態にすることができる。
【0035】
たとえば、稀ではあるが危険な交通状況のトレーニング画像は、入手困難であることが多い。たとえば、そのような状況の主要な構成要素である霧、極度の積雪又は路面凍結は、稀にしか存在し得ない。たとえば、衝突コース上にある2台の車両のように、状況の他の部分は、それを本物の車両により再現することは、場合によっては危険すぎる。
【0036】
従って、本発明は、さらに他の方法にも関する。この方法によれば、上述のように、トレーニングされた生成器によって生成された写実的画像を利用しながら、画像分類器がトレーニングされる。トレーニングされたこの画像分類器によって、車両に搭載された少なくとも1つのセンサによって撮影された画像が、セマンティックな意味に割り当てられる。画像分類器によって求められたセマンティックな意味から、動作制御信号が求められる。この動作制御信号によって車両の動作が制御される。
【0037】
改善されたトレーニングにより、画像分類器から供給されるセマンティックな意味の精度が有利に改善される。かくして、動作制御信号により起動された車両のリアクションが画像に示されている交通状況に相応しいという確率が、有利には高められている。
【0038】
これらの方法を特に、完全に又は部分的にコンピュータによって実装することができる。従って、本発明は、1つ又は複数のコンピュータ上において実行されるときに、既述の方法のうちの1つを1つ又は複数のコンピュータに実施させるための機械可読命令を備えたコンピュータプログラムにも関する。この意味においては、同様に機械可読命令を実行することができる車両用の制御機器及び技術機器用の組み込みシステムも、コンピュータとみなすことができる。
【0039】
同様に、本発明は、コンピュータプログラムを備えた機械可読データ担体及び/又はダウンロード製品にも関する。ダウンロード製品は、データネットワークを介して伝送可能な、即ち、データネットワークのユーザによってダウンロード可能なディジタル製品であり、このディジタル製品を、たとえばオンラインショップにおいて即座にダウンロードするために販売することができる。
【0040】
さらにコンピュータに、コンピュータプログラム、機械可読データ担体、又は、ダウンロード製品を装備させることができる。
【0041】
本発明を改善するさらなる措置について、図面に基づく本発明の好ましい実施例の説明と共に、以下において詳細に示す。
【図面の簡単な説明】
【0042】
【
図1】生成器1をトレーニングする方法100の実施例を示す図である。
【
図2】混合画像6の形成について説明する図である。
【
図3】画像分類器9をトレーニングする方法200の実施例を示す図である。
【
図4】車両50の動作を制御するに至るまでの完全なイベントチェーンを含む方法300の実施例を示す図である。
【発明を実施するための形態】
【0043】
実施例
図1は、方法100の1つの実施例の概略的なフローチャートである。ステップ110において、本物のトレーニング画像5及び対応するセマンティックトレーニングマップ5aが用意される。セマンティックトレーニングマップ5aは、個々のトレーニング画像5のピクセル各々にセマンティックな意味4を割り当てる。
【0044】
ステップ120において、少なくとも1つのセマンティックトレーニングマップ5aから、トレーニング対象の生成器1によって写実的画像3が生成される。ステップ130において、少なくとも1つの同一のセマンティックトレーニングマップ5aに対し、少なくとも1つの本物のトレーニング画像5が求められる。これをたとえば、「ラベリング」によりセマンティックトレーニングマップ5aがそもそも前もって生じているトレーニング画像5とすることができる。
【0045】
ステップ140において、生成器1によって生成された少なくとも1つの写実的画像3と、ステップ130において求められた少なくとも1つの本物のトレーニング画像5とから、混合画像6が生成される。この混合画像6において、ピクセルの第1の真部分集合6aは、生成器1によって生成された写実的画像3のそれぞれ対応するピクセル値によって占有されている。ピクセルの残余の真部分集合6bは、本物のトレーニング画像5のそれぞれ対応するピクセル値によって占有されている。
【0046】
ブロック141によれば、セマンティックトレーニングマップ5aが同様のセマンティックな意味4を割り当てる、混合画像6のピクセルの連続する領域61、62を、生成器1によって生成された写実的画像3の対応するピクセル値によって画一的に占有させることができ、又は、本物のトレーニング画像5の対応するピクセル値によって画一的に占有させることができる。
【0047】
混合画像6の形成については、
図2に詳細に説明されている。
【0048】
ステップ150において、すべて同一のセマンティックトレーニングマップ5aに属する、生成器1によって生成された写実的画像3と、少なくとも1つの本物のトレーニング画像5と、少なくとも1つの混合画像6とが、識別器7に供給される。この識別器7は、生成器1によって生成された写実的画像3と、セマンティックトレーニングマップ5aによって予め定められたシーンの本物の画像5とを区別するように構成されている。識別器7は、トレーニングのためにのみ必要とされる。トレーニングが完了した生成器1を後で使用する際には、識別器7は、もはや必要とされない。
【0049】
ブロック151によれば、識別器7としてPatchGAN識別器を選択することができる。PatchGAN識別器は、予め定められたサイズを有する画像3、5、6の部分領域において、写実的に生成された画像3と本物の画像5との間の識別を決定し、その際にそれぞれ得られた結果をまとめて総合結果を形成する。
【0050】
ブロック152によれば、エンコーダ-デコーダ装置を備えた識別器7を選択することができる。このエンコーダ-デコーダ装置におけるエンコーダ構造は、入力された画像を複数の相前後する処理層において、情報が削減された表現に変換する。エンコーダ-デコーダ装置におけるデコーダ構造は、情報が削減されたこの表現を、入力された画像のピクセル各々が本物のピクセル又は写実的に生成されたピクセルであるとする評価に、さらに変換する。ブロック152aによれば、特にたとえば識別器7において、情報が削減された表現を回避して、エンコーダ構造の処理層とデコーダ構造の処理層との間に、少なくとも1つの直接的な接続を設けることができる。
【0051】
ステップ160において、生成器1によって生成された写実的画像3が識別器7によって本物の画像5として誤って分類されることを目標として、生成器1の挙動を特徴付ける生成器パラメータ1aが最適化される。これと同時に又はこれと交互に、ステップ170において、写実的に生成された画像3と本物の画像5とを区別する際の精度を改善することを目標として、識別器7の挙動を特徴付ける識別器パラメータ7aが最適化される。
【0052】
その際、ブロック171による識別器パラメータ7aの最適化を付加的に、本物のトレーニング画像5から混合画像6に引き継がれたピクセル及び/又は物体の数的な割合に対応する程度(即ち、たとえばスコア)に応じて、この混合画像6が本物の画像5として分類されることを目標とするものとすることができる。
【0053】
ブロック172によれば、識別器7を付加的に、予め定められたルールに従って本物のトレーニング画像5と写実的に生成された画像3とから求められた混合画像6から、識別器7が空間分解された出力を生成するように、トレーニングすることができ、この空間分解された出力は、一方では本物のトレーニング画像5のために、他方では写実的に生成された画像3のために得られた出力を、予め定められた同一のルールに従って混合したものに可及的に近い。
【0054】
生成器パラメータ1aのトレーニングが完了した状態は、参照符号1a*によって表されている。識別器パラメータ7aのトレーニングが完了した状態は、参照符号7a*によって表されている。
【0055】
図2には、混合画像6をどのようにして形成することができるかについて、簡単な例を用いて説明されている。この例においては、セマンティックマップ2が予め定められている。このセマンティックマップ2は、使用されている画像3、5はそこでは本を示すものとする、というセマンティックな意味4を、第1の領域21に割り当てる。セマンティックマップ2は、使用されている画像3、5はそこでは机を示すものとする、というセマンティックな意味4を、第2の領域22に割り当てる。
【0056】
生成器1によって生成された写実的画像3は、セマンティックマップ2と一致して、本31が載置されている机32を示している。本物のトレーニング画像5は、別の本51が載置されている別の机52を示している。
【0057】
混合画像6において、1つの連続する領域61を成すピクセル6aが、生成器1によって生成された写実的画像3の対応するピクセル値によって占有されており、これの値は、机32に関連するものである。1つの連続する領域62を成すピクセル6bは、本物のトレーニング画像5の対応するピクセル値によって占有されており、これらの値は、本51に関連するものである。かくして混合画像6は、生成器1によって生成された写実的画像3におけるテーブル32と、本物のトレーニング画像5における本51とから成るコラージュである。
【0058】
図3は、画像分類器9をトレーニングする方法200の1つの実施例の概略的なフローチャートである。ステップ210において、生成器1が上述の方法100によってトレーニングされる。ステップ220において、トレーニングされた生成器1によって、セマンティックマップ2から写実的画像3が生成される。それぞれ使用されるセマンティックマップ2から、ステップ230において、セマンティックな目標意味が求められ、このセマンティックな目標意味4に対し、画像分類器9が写実的画像3又はそれらの画像のピクセルをそれぞれマッピングすることになる。
【0059】
生成器1によって生成された写実的画像3及び対応する目標意味4は、ステップ240において、既に本物のトレーニング画像5’及び対応する目標意味4’を含むトレーニングデータセット9aに追加される。このようにして拡張されたトレーニングデータセット9a*は、ステップ250において、画像分類器9をトレーニングするために使用される。
【0060】
図4は、方法300の1つの実施例の概略的なフローチャートである。ステップ310において、画像分類器9が上述の方法200によってトレーニングされる。ステップ320において、この画像分類器9によって、車両50に搭載された少なくとも1つのセンサ50aによって撮影された画像5が、1つのセマンティックな意味4に割り当てられる。画像分類器9によって求められたこのセマンティックな意味4から、ステップ330において、動作制御信号330aが求められる。ステップ340において、この動作制御信号330aによって車両50の動作が制御される。