IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特表2023-538747予め定められたセマンティックマップからの写実的画像の生成
<>
  • 特表-予め定められたセマンティックマップからの写実的画像の生成 図1
  • 特表-予め定められたセマンティックマップからの写実的画像の生成 図2
  • 特表-予め定められたセマンティックマップからの写実的画像の生成 図3
  • 特表-予め定められたセマンティックマップからの写実的画像の生成 図4
  • 特表-予め定められたセマンティックマップからの写実的画像の生成 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-09-11
(54)【発明の名称】予め定められたセマンティックマップからの写実的画像の生成
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230904BHJP
   G06V 10/82 20220101ALI20230904BHJP
   G06N 3/0475 20230101ALI20230904BHJP
   G06N 3/094 20230101ALI20230904BHJP
   G06N 3/048 20230101ALI20230904BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/0475
G06N3/094
G06N3/048
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023513120
(86)(22)【出願日】2021-08-20
(85)【翻訳文提出日】2023-02-22
(86)【国際出願番号】 EP2021073115
(87)【国際公開番号】W WO2022043200
(87)【国際公開日】2022-03-03
(31)【優先権主張番号】102020210712.2
(32)【優先日】2020-08-24
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】エドガー シェーンフェルト
(72)【発明者】
【氏名】バディム スシュコ
(72)【発明者】
【氏名】アンナ コレヴァ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096HA11
5L096KA04
(57)【要約】
画像(3)のピクセル各々に、そのピクセルが属する物体のセマンティックな意味(4)を割り当てるセマンティックマップ(2、5a)から画像(3)を生成する方法(100)であって、当該方法(100)は、セマンティックマップ(2、5a)を、複数のチャネル(6a~6c)から成るマップテンソル(6)として用意するステップ(110)であって、各チャネル(6a~6c)は、セマンティックマップ(2、5a)が具体的なセマンティックな意味(4)を割り当てる、生成すべき画像(3)のすべてのピクセルを表す、ステップ(110)と、ある1つの画像(3)から次の画像(3’)に向けてピクセルが変化することが望まれる、生成すべき画像(3)の可変のピクセルの少なくとも1つの集合(3a)を用意するステップ(120)と、少なくとも1つのランダム分布(Z)から取り出された値を用いて、複数のチャネル(7a~7c)を有するノイズテンソル(7)を生成するステップ(130)であって、可変のピクセルの集合(3a)に関連するノイズテンソル(7)の値を、生成すべき画像(3)ごとに新たに取り出す、ステップ(130)と、マップテンソル(6)のチャネル(6a~6c)と、ノイズテンソル(7)のチャネル(7a~7c)とを1つにまとめて、入力テンソル(8)を形成するステップ(140)と、入力テンソル(8)を、トレーニングされた生成器(1)によって少なくとも1つの画像(3)にマッピングするステップ(150)と、を含む。
【特許請求の範囲】
【請求項1】
画像(3)のピクセル各々に当該ピクセルが属する物体のセマンティックな意味(4)を割り当てるセマンティックマップ(2、5a)から画像(3)を生成する方法(100)であって、
・前記セマンティックマップ(2、5a)を、複数のチャネル(6a~6c)から成るマップテンソル(6)として用意するステップ(110)であって、各チャネル(6a~6c)は、前記セマンティックマップ(2、5a)が具体的なセマンティックな意味(4)を割り当てる、生成すべき前記画像(3)のすべてのピクセルを表す、ステップ(110)と、
・ある1つの画像(3)から次の画像(3’)に向けてピクセルが変化することが望まれる、生成すべき前記画像(3)の可変の前記ピクセルの少なくとも1つの集合(3a)を用意するステップ(120)と、
・少なくとも1つのランダム分布(Z)から取り出された値を用いて、複数のチャネル(7a~7c)を有するノイズテンソル(7)を生成するステップ(130)であって、可変の前記ピクセルの前記集合(3a)に関連する前記ノイズテンソル(7)の値を、生成すべき画像(3)ごとに新たに取り出す、ステップ(130)と、
・前記マップテンソル(6)の前記チャネル(6a~6c)と、前記ノイズテンソル(7)の前記チャネル(7a~7c)とを1つにまとめて、入力テンソル(8)を形成するステップ(140)と、
・前記入力テンソル(8)を、トレーニングされた生成器(1)によって少なくとも1つの画像(3)にマッピングするステップ(150)と、
を含む、セマンティックマップ(2、5a)から画像(3)を生成する方法(100)。
【請求項2】
1つの生成された画像(3)から次の画像(3’)に向けて前記ピクセルが画一的に変化することが望まれる、可変の前記ピクセルの少なくとも1つの画一部分集合(3b)について、前記ノイズテンソル(7)の値を等しく設定する(131)、請求項1に記載の方法(100)。
【請求項3】
前記セマンティックマップ(2、5a)が画一的なセマンティックな意味(4)を割り当てる、生成された前記画像(3)のピクセルの少なくとも1つの部分集合(21、22)を、画一部分集合(3b)として求める(131a)、請求項2に記載の方法(100)。
【請求項4】
少なくとも1つのさらなる画像(3’)を生成し、当該生成において、
・可変の前記ピクセルの前記集合(3a)に関連する前記ノイズテンソル(7)の値について、それぞれ新たなサンプルを少なくとも1つの前記ランダム分布(Z)から取り出し、
・前記値が前記新たなサンプルによって更新されている新たな入力テンソル(8’)を求め(170)、
・前記新たな入力テンソル(8’)を、トレーニングされた前記生成器(1)によって少なくとも1つの前記さらなる画像(3’)にマッピングする(180)、
請求項1乃至3のいずれか一項に記載の方法(100)。
【請求項5】
48個から80個までの間のチャネル(7a~7c)を有するノイズテンソル(7)を生成する(132)、請求項1乃至4のいずれか一項に記載の方法(100)。
【請求項6】
・複数の処理層から成るシーケンスを有するニューラルネットワークを含む生成器(1)を選択し(151)、前記複数の処理層はそれぞれ、空間的に分解された特徴マップを生成し、前記特徴マップは、次の処理層への入力としても機能させられており、
・少なくとも1つの特徴マップを前記入力テンソル(8、8’)に合わせて調整する(152)、
請求項1乃至5のいずれか一項に記載の方法(100)。
【請求項7】
少なくとも1つの前記特徴マップを、当該特徴マップを生成する前記処理層におけるニューロン又は他の処理単位の活性化を、前記入力テンソル(8、8’)の値を用いて変化させるようにして(152a)、前記入力テンソルに合わせて調整する(152)、請求項6に記載の方法(100)。
【請求項8】
請求項1乃至7のいずれか一項に記載の方法(100)において使用するための生成器(1)をトレーニングする方法(200)であって、
・本物のトレーニング画像(5)と、個々の前記トレーニング画像(5)のピクセル各々にセマンティックな意味(4)を割り当てる対応するセマンティックトレーニングマップ(5a)とを用意するステップ(210)と、
・少なくとも1つのセマンティックトレーニングマップ(5a)から、請求項1乃至7のいずれか一項に記載の方法(100)によって画像(3)を生成するステップ(220)と、
・少なくとも1つの同一の前記セマンティックトレーニングマップ(5a)に対し、少なくとも1つの本物のトレーニング画像(5)を求めるステップ(230)と、
・前記生成器(1)によって生成された前記画像(3)及び少なくとも1つの前記本物トレーニング画像(5)を識別器(10)に供給するステップ(240)であって、前記識別器(10)は、前記生成器(1)によって生成された画像(3)を、前記セマンティックトレーニングマップ(5a)によって予め定められたシーンの本物の画像(5)と区別するように構成されている、ステップ(240)と、
・前記生成器(1)によって生成された前記画像(3)が前記識別器(10)によって本物の画像(5)として誤って分類されることを目標として、前記生成器(1)の挙動を特徴付ける生成器パラメータ(1a)を最適化するステップ(250)と、
・生成された画像(3)と本物の画像(5)とを区別する際の精度を改善することを目標として、前記識別器(10)の挙動を特徴付ける識別器パラメータ(10a)を最適化するステップ(260)と、
を含む、生成器(1)をトレーニングする方法(200)。
【請求項9】
入力された画像及び/又は入力された前記画像のピクセルをセマンティックな意味(4)に割り当てる画像分類器(9)をトレーニングする方法(300)であって、
・トレーニングされた生成器(1)によってセマンティックマップ(2)から、請求項1乃至7のいずれか一項に記載の方法(100)に従って画像(3)を生成するステップ(310)と、
・それぞれ使用される前記セマンティックマップ(2)から、トレーニングされた前記画像分類器(9)が前記画像(3)をそれぞれマッピングすることになるセマンティックな目標意味(4)を求めるステップ(320)と、
・本物のトレーニング画像(5’)及び対応するセマンティックな目標意味(4’)を含む、前記画像分類器(9)のためのトレーニングデータセット(9a)を、生成された前記画像(3)と対応するセマンティックな目標意味(4)とによって拡張するステップ(330)と、
・前記画像分類器(9)を、拡張された前記トレーニングデータセット(9a)によってトレーニングするステップ(340)と、
を含む、画像分類器(9)をトレーニングする方法(300)。
【請求項10】
前記生成器(1)を、請求項8に記載の方法(200)によってトレーニングする(305)、請求項9に記載の方法(300)。
【請求項11】
・請求項9乃至10のいずれか一項に記載の方法(300)によって画像分類器(9)をトレーニングするステップ(410)と、
・車両(50)に搭載された少なくとも1つのセンサ(51)によって撮影された画像(5)を、前記画像分類器(9)によってセマンティックな意味(4)に割り当てるステップ(420)と、
・前記画像分類器(9)によって求められた前記セマンティックな意味(4)から、動作制御信号(430a)を求めるステップ(430)と、
・前記動作制御信号(430a)によって前記車両(50)の動作を制御するステップ(440)と、
を含む方法(400)。
【請求項12】
コンピュータプログラムであって、当該コンピュータプログラムが1つ又は複数のコンピュータ上において実行されるときに、請求項1乃至11のいずれか一項に記載の方法(100、200、300、400)を前記1つ又は複数のコンピュータに実施させるための機械可読命令を含むコンピュータプログラム。
【請求項13】
請求項12に記載のコンピュータプログラムを含む機械可読データ担体。
【請求項14】
請求項12に記載のコンピュータプログラム及び/又は請求項13に記載の機械可読データ担体を装備したコンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、たとえば画像分類器のトレーニングに使用可能である、予め定められたセマンティックな意味を含む写実的画像の生成に関する。
【背景技術】
【0002】
人間の運転者が道路交通において車両を運転するために必要とする情報の約90%は、視覚的な情報である。よって、車両の少なくとも部分的に自動化された運転のために不可欠であることは、どのようなモダリティであれ、車両周囲を監視する際に撮影される画像データを内容に関して的確に評価することである。走行タスクにとって特に重要であることは、たとえば、他の交通利用者、車道マーク、障害物及び交通標識など、交通に関連するいずれの物体がそれらの画像に含まれているのかについて、画像データを分類することである。
【0003】
多数の交通状況において撮影されたトレーニング画像を用いて、相応の画像分類器をトレーニングしなければならない。トレーニング画像を調達することは、比較的困難であり、費用が嵩む。実際には稀にしか発生しない交通状況は、トレーニング画像を含むデータセットにおいて取り上げられる数が少なく、従って、画像分類器は、それらの適正な分類を最適には学習することができない。さらに、トレーニング画像又はそれらのピクセルに、帰属する目標クラス分類(「グランドトゥルース」)を「ラベリング」するためには、人の手による多くの作業が必要である。
【0004】
このため、合成によって生成されるトレーニングデータも付加的に使用され、そのようなトレーニングデータは、敵対的生成ネットワークGANに基づく生成器によって生成される。独国特許発明第102018204494号明細書から、レーダデータに対するこの種の生成器が知られている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】独国特許発明第102018204494号明細書
【発明の概要】
【課題を解決するための手段】
【0006】
発明の開示
本発明の枠組みにおいて、画像を生成する方法が開発された。
【0007】
画像という用語は、静止カメラ画像に限られるものではなく、たとえば、ビデオ画像、レーダ画像、ライダ画像及び超音波画像も含む。
【0008】
生成すべき画像を特に、たとえば予め定められた用途に関して写実的なものとすることができる。この場合、「写実的な」とは特に、たとえば画像分類器をトレーニングする際など、後段での処理において、画像を物理的なセンサによって撮影された画像と同様に利用可能である、ということを意味するものとすることができる。写実的に生成された画像を特に、たとえばセンサにより撮影され次いで「ラベリングされた」画像分類器用の本物のトレーニング画像のストックを増加させる目的で、利用することができる。よって、生成すべき画像を、以下においては、読み易くするために、「写実的画像」又は「写実的に生成された画像」と称する。
【0009】
写実的画像は、セマンティックマップから生成される。このセマンティックマップは、生成すべき写実的画像のピクセル各々に、このピクセルが属している物体のセマンティックな意味を割り当てる。即ち、何らかのランダムな写実的画像が生成されるのではなく、セマンティックマップにおいて予め定められた状況を反映する画像が生成される。従って、セマンティックマップは、たとえば、様々な車道、車道境界線、交通標識、交通利用者及びさらなる物体を含む交通状況を表すことができる。
【0010】
セマンティックマップは、複数のチャネルから成るマップテンソルとして用意される。各チャネルは、生成すべき写実的画像のすべてのピクセルを表しており、セマンティックマップは、これらのピクセルに、具体的なセマンティックな意味を割り当てる。生成すべき写実的画像が、たとえば、複数の同種の車両及び複数の樹木を含む場合には、車両に属するピクセルは、チャネル「車両」において収集される。同様に、樹木に属するピクセルは、チャネル「樹木」において収集される。
【0011】
生成すべき写実的画像の可変のピクセルの少なくとも1つの集合が用意される。この文脈において「可変」とは、まさにそれらのピクセルについて、それらがある1つの写実的画像から次の画像に向けて変化することが望ましい、ということを意味している。即ち、この方法によれば、特に、1つのシーンを記述する同一のセマンティックマップから、このシーンの複数の様々な画像を一度に生成する、という目標が追求される。
【0012】
この場合、具体的な用途又は問題提起によって、どのピクセルが可変であるべきかが予め定められる。従って、たとえば、有用となり得ることは、交通状況を特徴付けるある1つのセマンティックマップを起点として、互いに可能な限り大きく異なる複数の写実的画像を生成することである。この目的で、たとえば、可変のピクセルの集合が画像全体を含み得る。しかしながら、たとえば、特定の物体(たとえば、車両又は樹木)がそれぞれ同様のタイプの異なるように見える物体と交換されても、画像分類器が、具体的なトレーニング状態において交通状況を依然として的確に評価しているのかについて、目標を定めて問い合わせることもできる。かかる検査のために、たとえば、車両又は樹木に属するピクセルだけを、可変のピクセルとして選択することができる。
【0013】
少なくとも1つのランダム分布から取り出された値を用いて、複数のチャネルを有するノイズテンソルが生成される。可変のピクセルの集合に関連するノイズテンソルの値が、生成すべき写実的画像ごとに新たに取り出される。可変のピクセルの集合に関連しないノイズテンソルの値は、生成すべきすべての写実的画像について一定のまま保持される。マップテンソルのチャネルとノイズテンソルのチャネルとが1つにまとめられて、1つの入力テンソルが形成される。この入力テンソルは、トレーニングされた生成器によって少なくとも1つの写実的画像にマッピングされる。
【0014】
ここで認識されたことは、このようにすることによって、一方では事前に決定されたセマンティックな意味を有し、他方では大きいと同時に良好に制御可能な可変性を有する、多数の写実的画像を特に簡単に生成することができる、ということである。このようにすることでたとえば、画像分類器のためのトレーニング画像の集合を、画像分類器が現在依然として問題を抱えている局面が特に集中的に「練習される」ように、目標を定めて調整することができる。さらにたとえば、トレーニング画像を用いて画像分類器をトレーニングする際、最適化のために使用されるアルゴリズムの関心が、特に極めて頻繁に発生する状況にフォーカスされる一方、これと同時に、稀にしか現れない状況においては、画像分類器の性能が著しく悪いということがあまりにわずかしか重要視されないという傾向に対し、対抗措置を講じることができる。
【0015】
即ち、画像分類器のトレーニングは、大きいプールに属するトレーニング画像が平均的に可能な限り良好に、予め定められたセマンティックな目標意味に対してマッピングされることになるように、整えられていることが多い。このような平均化においては、トレーニング画像において頻繁に現れる状況が自ずとより高い重みを得ることになる。画像分類器がたとえば、交通状況を該当するセマンティックな意味に対してマッピングしようという場合、画像分類器は、テスト走行時に車両によって撮影されたトレーニング画像を用いてトレーニングされることが多い。それらのトレーニング画像は、たとえば速度制限又は交差点を含むことが比較的多く、その理由は、このような状況は実際に頻繁に発生するからである。これと比較すると、たとえば、車道が防護されていない岸に通じている状況、又は、前方を走行する車両から落下した貨物によって車道が塞がれている状況は、ごく稀にしか起こらない。このことがトレーニング時に考慮されないと、トレーニングは、たとえば、以下のような状態に、即ち、交差点におけるどのような交通状況であっても非常に絶妙に解決され、そのために獲得される「報酬」に比較すると、防護されていない岸における貧弱な性能についての「ペナルティ」は最小限に抑制されているという状態に、収束してしまう可能性がある。即ち、画像分類器は、「三角形」をテーマにした数学問題に耐えられず、そのため、筆記試験において三角形のない課題で必要な得点を獲得しようと、学習時にそれを最初から除外してしまう生徒と同様に、「余白を残す勇気」というモットーに従って学習してしまう可能性がある。
【0016】
自動運転車両のユーザにとって、車両が交差点では非常に絶妙に走行するが、その代償として、岸では水中に向かって進んで行ったり、又は、上述の落下した貨物によって樹木のところで終端する回避操作が引き起こされたりするのでは、何の得にもならない。これに対し、本明細書において説明する方法によれば、画像分類器のトレーニングデータを、目標を定めて著しく多くの岸での状況又は貨物が落下した状況を用い、多種多様な表現形態で増加させることができる。即ち、これらの状況を根本的に掌握していない画像分類器は、トレーニングにおける最適化という枠組みでは、良好な「成績」をもはや獲得することはできない。従って、本発明に係る方法により生成される写実的画像によって、最も安易な道を歩まず、「好まれない」テーマである岸及び落下貨物についても根本的に学習するように、画像分類器に対して、結局は「強制」することができる。
【0017】
多くの用途において望まれる可能性があることは、生成器によって生成された画像を個々の用途の関係において写実的とみなすことができるように、特定の画像領域が画一的に変化する、ということである。即ち、たとえば、1つの画一的な物体が丸ごとそのまま1つの別の物体によって置き換えられることが望ましく、複数の物体の重畳又は混合によって置き換えられるべきではない。たとえば、画像がある特定の箇所で歩行者を含むことが、セマンティックマップによって予め定められている場合には、写実的に生成されたある1つの画像から次の画像に移行する際に、複数の異なる人物の身体部分が互いに混合されるのではなく、その代わりに、あるひとりの人物が完全に他のひとりの人物と置き換えられることが望ましい。
【0018】
従って、特に有利な実施形態によれば、写実的に生成されたある1つの画像から次の画像に向けてピクセルが画一的に変化することが望まれる、可変のピクセルの少なくとも1つの画一部分集合について、ノイズテンソルの値が等しく設定される。次の写実的画像を生成するためにこれらの値が更新されると、これについて画一部分集合全体が同様に影響を受ける。
【0019】
従って、この実施形態の場合、ノイズテンソルを形成する際に、たとえば、ノイズテンソルが有するチャネルと同数の構成要素を含むノイズベクトルを、乱数分布からの新たな値で満たし、画一部分集合に属するすべてのピクセルポジションにコピーすることができる。
【0020】
複数のピクセルから成る複数の画一部分集合を存在させることもでき、それらのピクセルは、写実的に生成されたある1つの画像から次の画像に移行する際に、それぞれが画一的に、ただし異なる態様で変化することになる。たとえば、画像における車両に関連する2つのこの種の画一部分集合が存在する場合には、第1の画像における自家用車を、次の画像ではタクシーに変換することができる一方、第1の画像における警察バスは、第2の画像ではスクールバスに置き換えられる。この目的で、たとえば画一部分集合ごとに、それぞれ1つの新たなノイズベクトルをランダム分布から取り出し、個々の画一部分集合のすべてのピクセルポジションにコピーすることができる。
【0021】
特に有利には、セマンティックマップによって1つの画一的なセマンティックな意味が割り当てられる、写実的に生成された画像のピクセルから成る少なくとも1つの部分集合を、画一部分集合として求めることができる。これによってたとえば、写実的に生成されたある1つの画像から次の画像に移行する際に、特定のタイプの物体が、同等の大きさの、ただし異なるように見える同様のタイプの物体と交換される、ということを生じさせることができる。
【0022】
写実的に生成されたある1つの画像から次の画像に移行させる目的で、即ち、少なくとも1つのさらなる写実的画像を生成する目的で、可変のピクセルの集合に関連するノイズテンソルの値について、それぞれ新たなサンプルを少なくとも1つのランダム分布から取り出すことができる。次いで、これらの値が新たなサンプルによって更新されている新たな入力テンソルを求めることができる。たとえば、ノイズテンソルを更新し、その後、改めてマップテンソルと組み合わせることができ、そのようにして新たな入力テンソルが形成される。ただし、それらの値を、たとえば入力テンソルにおいて直接更新することもできる。
【0023】
ノイズテンソル内のチャネルの個数を介して、特にたとえば生成器のトレーニング時に、以下の要求の相対的な重み付けを調整することができる。即ち、
・一方では、写実的に生成された画像は、予め定められたセマンティックマップに従ってセマンティックな意味を有することが望ましく、
・他方では、写実的に生成されたある1つの画像から次の画像に移行する際に、特定の画像領域を有意な方法により変更することが望ましい。発明者の実験によれば、48個から80個までの間のチャネル、好ましくは64個のチャネルを有するノイズテンソルが特に有利な妥協であると判明した。
【0024】
生成器として原則的に、入力テンソルを写実的画像にマッピングすることができる、どのようなトレーニング可能なモジュールであっても使用することができる。かかる生成器を、写実的に生成された画像と本物の画像とを区別するように構成されている識別器と、特に「敵対的に」同時に又は交互にトレーニングすることができる。従って、トレーニングが進むにつれて、生成器はより良好な「偽物」を生成する一方、同時に識別器は、この「偽物」の識別においてますます良好になる。
【0025】
特に有利な実施形態によれば、複数の処理層から成るシーケンスを有するニューラルネットワークを含む生成器が選択される。これらの処理層は、それぞれ空間的に分解された特徴マップを形成する。次いで、処理層によって生成された特徴マップは、次の処理層がまだ存在する限りは、かかる次の層へ入力として機能させられる。ここでは、少なくとも1つの特徴マップが、入力テンソルに合わせて調整されている。
【0026】
このことは、マップテンソルにおけるセマンティックマップも、ノイズテンソルにおけるノイズも、もはや生成器の入力においてのみ作用するのではなく、さらなる処理段階においても作用する、ということを意味する。従って、セマンティックマップ及びノイズの影響は、ネットワークにおいて1回限りの警告のように「消滅してしまう」のではなく、何度も想起させられる。
【0027】
入力テンソルに合わせて特徴マップを調整する目的で、特にたとえば、特徴マップを生成する処理層におけるニューロン又は他の処理単位の活性化を、入力テンソルの値を用いて変化させることができる。これに適しているものは、特にたとえば、空間適応型正規化によって動作するSPADE生成器である。
【0028】
本発明は、写実的画像を生成する上述の方法において使用するための生成器をトレーニングする方法にも関する。
【0029】
この方法のために、本物のトレーニング画像と、個々のトレーニング画像のピクセル各々にセマンティックな意味を割り当てる対応するセマンティックトレーニングマップとが用意される。即ち、本物のトレーニング画像ごとに、1つのセマンティックトレーニングマップが存在する。これとは逆に、セマンティックトレーニングマップごとに、少なくとも1つの本物のトレーニング画像が存在する。なぜならば、たとえば、それぞれ異なる露光又は他のマッピングパラメータを有するセマンティック的に同一の状況が撮影されている可能性があるからである。セマンティックトレーニングマップを、たとえば本物のトレーニング画像の手動のラベリングによって取得することができる。
【0030】
少なくとも1つのセマンティックトレーニングマップから、上述した方法によって写実的画像が生成される。少なくとも1つの同一のセマンティックトレーニングマップに対し、少なくとも1つの本物のトレーニング画像が求められる。生成器をトレーニングするために、生成器によって生成された写実的画像を、セマンティックトレーニングマップによって予め定められたシーンの本物の画像と区別するように構成された識別器が用いられる。
【0031】
生成器によって生成された写実的画像及び少なくとも1つの本物のトレーニング画像が、識別器に供給される。生成器によって生成された写実的画像が、識別器によって本物の画像として誤って分類されることを目標として、生成器の挙動を特徴付ける生成器パラメータが最適化される。
【0032】
これと同時に又はこれと交互に、写実的に生成された画像と本物の画像とを区別する際の精度を改善することを目標として、識別器の挙動を特徴付ける識別器パラメータが最適化される。即ち、識別器は、写実的に生成された画像を写実的に生成された画像として分類し、本物のトレーニング画像を本物のトレーニング画像として分類するようにトレーニングされる。
【0033】
これに関連して、写実的画像を生成する上述の方法が有する利点とは、本物のトレーニング画像の利用可能な同一の集合と、セマンティックトレーニングマップとを起点として、生成すべき写実的画像の全く異なる複数の局面に合わせて生成器をトレーニングすることができる、ということである。
【0034】
先に説明したようにしたように、冒頭で述べた方法に従って特に、予め定められたセマンティックな意味を有すると同時に厳密に定義された可変性を有するトレーニング画像を、画像分類器のために生成することができる。特に、画像分類器のためのトレーニングデータセットをたとえば、いかなる状況も「取りこぼし」がないように、調整することができる。ある1つの特定の状況について、比較的わずかなトレーニング画像しか利用できない場合には、より多くの適当なトレーニング画像を簡単に生成することができる。
【0035】
従って、本発明は、入力された画像及び/又は入力されたこの画像のピクセルをセマンティックな意味に割り当てる画像分類器をトレーニングする方法にも関する。
【0036】
この方法によれば、トレーニングされた生成器を用い、セマンティックマップから冒頭で述べたマップに従って写実的画像が生成される。これらのセマンティックマップは、生成器のトレーニングのために使用されたセマンティックマップに限られておらず、任意の所望のシーンを記述することができる。それにもかかわらず、生成器を特に有利には敵対的に、識別器と協働させて既述のようにトレーニングすることができる。
【0037】
セマンティックマップからセマンティックな目標意味が求められ、このセマンティックな目標意味に対して、トレーニングされた画像分類器は写実的画像をそのつどマッピングすることになる。目標意味は特に、たとえば予め定められた分類の1つ又は複数のクラスへの帰属関係を含み得る。たとえば、セマンティックマップにおいて、ある1つの特定の場所に車両が書き込まれている場合には、写実的に生成された画像は、この場所に車両を含むようになる。このため画像分類器は、少なくともこの画像領域を「車両」クラスに割り当てることになる。
【0038】
本物のトレーニング画像及び対応するセマンティックな目標意味を含む、画像分類器用のトレーニングデータセットは、写実的に生成された画像及び対応するセマンティックな目標意味によって拡張される。画像分類器は、拡張されたトレーニングデータセットによってトレーニングされる。
【0039】
上述のようにトレーニングデータセットをこのようにして特に、予めトレーニングデータセットにおいて取り上げられることが少なかった状況の写実的画像によって充実させることができる。このようにして画像分類器をより良好に、そのような状況を取り扱い得る状態にすることができる。
【0040】
たとえば、稀ではあるが危険な交通状況のトレーニング画像は、入手困難であることが多い。たとえば、そのような状況の主要な構成要素である霧、極度の積雪又は路面凍結は、稀にしか存在し得ない。たとえば、衝突コース上にある2台の車両のように、状況の他の部分は、それを本物の車両で再現することは、場合によっては危険すぎる。
【0041】
従って、本発明は、さらに他の方法にも関する。この方法によれば、写実的に生成された画像を付加的に利用しながら、上述のように画像分類器がトレーニングされる。トレーニングされたこの画像分類器によって、車両に搭載された少なくとも1つのセンサによって撮影された画像が、セマンティックな意味に割り当てられる。画像分類器によって求められたセマンティックな意味から、動作制御信号が求められる。この動作制御信号によって車両の動作が制御される。
【0042】
改善されたトレーニングにより、画像分類器から供給されるセマンティックな意味の精度が有利に改善される。かくして、動作制御信号により起動された車両のリアクションが画像に示されている交通状況に相応しいという確率が、有利には高められている。
【0043】
これらの方法を特に、完全に又は部分的にコンピュータによって実装することができる。従って、本発明は、1つ又は複数のコンピュータ上において実行されるときに、既述の方法のうちの1つを1つ又は複数のコンピュータに実施させるための機械可読命令を備えたコンピュータプログラムにも関する。この意味においては、同様に機械可読命令を実行することができる車両用の制御装置及び技術装置用の組み込みシステムも、コンピュータとみなすことができる。
【0044】
同様に、本発明は、コンピュータプログラムを備えた機械可読データ担体及び/又はダウンロード製品にも関する。ダウンロード製品は、データネットワークを介して伝送可能な、即ち、データネットワークのユーザによってダウンロード可能なディジタル製品であり、このディジタル製品を、たとえばオンラインショップにおいて即座にダウンロードするために販売することができる。
【0045】
さらにコンピュータに、コンピュータプログラム、機械可読データ担体、又は、ダウンロード製品を装備させることができる。
【0046】
本発明を改善するさらなる措置について、図面に基づく本発明の好ましい実施例の説明と共に、以下において詳細に示す。
【図面の簡単な説明】
【0047】
図1】写実的画像3を生成する方法100の実施例を示す図である。
図2】1つの簡単な例を用いて方法100を具体的に示す図である。
図3】生成器1をトレーニングする方法200の実施例を示す図である。
図4】画像分類器9をトレーニングする方法300の実施例を示す図である。
図5】車両50の動作を制御するに至るまでの完全なイベントチェーンを含む方法400の実施例を示す図である。
【発明を実施するための形態】
【0048】
実施例
図1は、写実的画像3を生成する方法100の1つの実施例の概略的なフローチャートである。起点データとして、セマンティックマップ2、5aが使用される。このセマンティックマップ2、5aは、生成すべき写実的画像3のピクセル各々に、そのピクセルが属する物体のセマンティックな意味4を割り当てる。
【0049】
ステップ110において、セマンティックマップ2、5aが、複数のチャネル6a~6cから成るマップテンソル6として用意される。各チャネル6a~6cは、生成すべき写実的画像3のすべてのピクセルを表しており、セマンティックマップ2、5aは、これらのピクセルに、具体的なセマンティックな意味4を割り当てる。従って、チャネル6a~6cは、使い易いドローイングプログラムのレイヤにいくぶん類似しており、それらのレイヤ上においては、それぞれ異なるセマンティックな意味4に対し絵図を互いに別個に編集することができ、その後、上下に重ね合わせることができる。
【0050】
ステップ120において、生成すべき写実的画像3の可変のピクセルの少なくとも1つの集合3aが用意される。これは、写実的に生成されたある1つの画像3から写実的に生成された次の画像3’に移行する際に変化することが望まれるピクセルである。
【0051】
少なくとも1つのランダム分布Zから取り出された値を利用し、ステップ130において、複数のチャネル7a~7cを含むノイズテンソル7が生成される。その際、可変のピクセルの集合3aに関連するノイズテンソル7の値が、生成すべき写実的画像3ごとに新たに取り出される。
【0052】
この場合、ブロック131によれば特に、たとえば、写実的に生成されたある1つの画像3から写実的に生成された次の画像3’に移行する際に画一的に変化する、画一部分集合3bにおけるピクセルについて、ノイズテンソル7の値を等しくセットすることができる。特に、たとえばブロック131aに従って、写実的に生成された画像3のピクセルであって、セマンティックマップ2、5aにより画一的なセマンティックな意味4が割り当てられているピクセルから成る少なくとも1つの部分集合21、22を、画一部分集合3bとして求めることができる。
【0053】
即ち、画像平面をたとえば、種々の領域A、B、C、...に細分化することができる。このようにした場合、領域Aに対しノイズテンソル7は、写実的に生成されたある1つの画像3から写実的に生成された次の画像3’まで変化しない値を含む。領域Bに対応する区域では、ノイズテンソル7は、すべてのピクセルについて同一の第1のノイズベクトルによって占められている。領域Cに対応する区域では、ノイズテンソル7は、すべてのピクセルについて同一の第2のノイズベクトルによって占められている、といった具合である。
【0054】
ブロック132によれば特に、たとえば、48個から80個までの間のチャネルを有するノイズテンソル7を生成することができる。
【0055】
ステップ140において、マップテンソル6のチャネル6a~6cと、ノイズテンソル7のチャネル7a~7cとが1つにまとめられて、入力テンソル8が形成される。即ち、この入力テンソル8は、マップテンソル6とノイズテンソル7とを合わせたものと同等の個数のチャネルを有する。
【0056】
ステップ150において、この入力テンソル8が、トレーニングされた生成器1により少なくとも1つの写実的画像3にマッピングされる。その際に特に、たとえばブロック151に従って、複数の処理層から成るシーケンスを備えたニューラルネットワークを含む生成器1を選択することができる。これらの処理層は、それぞれ空間的に分解された特徴マップを生成し、これらの特徴マップは、さらに、次の処理層が存在する限りは、かかる次の層への入力として機能させられる。次いで、ブロック152によれば、少なくとも1つの特徴マップを入力テンソル8に合わせて調整することができる。この場合に、この調整ブロック152は、他方では、ブロック152aに従って、特徴マップを生成する処理層におけるニューロン又は他の処理単位の活性化を、入力テンソル8の値を用いて変化させる、ということを含み得る。
【0057】
図1には例示的に、どのようにして引き続きさらなる写実的画像3’を生成することができるかが示されている。ステップ160において、可変のピクセルの集合3aに関連するノイズテンソル7のランダムな値を、新たにサンプルとしてランダム分布Zから取り出すことができる。次いでステップ170において、新たなサンプルによって更新された新たな入力テンソル8’を求めることができる。その後、新たな入力テンソル8’を、ステップ180において、既に以前に使用されているトレーニングされた生成器1によって、少なくとも1つのさらなる写実的画像3’にマッピングすることができる。破線の矢印によって示唆されているように、このプロセスを任意に何度も繰り返すことができる。
【0058】
図2には、簡単な例を用いて方法100の動きが示されている。起点は、セマンティックマップ2であり、これによれば、第1の領域21にはセマンティックな意味4「紙幣」が、第2の領域22にはセマンティックな意味4「鍵」が割り当てられる。このセマンティックマップ2は、マップテンソル6に変換される。その際に第1の領域21のピクセルは、意味4「紙幣」を受け持つマップテンソル6の第1のチャネル6aにおいてマーキングされる。これに対して、第2の領域22のピクセルは、意味4「鍵」を受け持つマップテンソル6の第2のチャネル6bにおいてマーキングされる。写実的に生成されたある1つの画像3から次の画像3’に向けて変化すべきピクセルの集合3aは、図2に示された例においては、領域21も領域22も含む。これに加え領域21及び22は、それぞれ画一的にしか変化すべきではない画一部分集合3bでもある。
【0059】
ノイズテンソル7において、すべてのチャネル7a~7cにおけるすべてのピクセルに、それぞれランダム分布Zから取り出された値が割り当てられている。この場合、領域21のすべてのピクセルについて同一の第1のランダムベクトルが使用され、領域22のすべてのピクセルについて同一の第2のランダムベクトルが使用される。このようにして、生成器1が領域21、22においてそれぞれ厳密に1つの物体を生成し、たとえば2つ以上の物体から成る混合物を生成しない、ということが保証されている。見易くするため、ノイズテンソル7において領域21及び22の外側に存在するノイズは、図2には書き込まれていない。
【0060】
入力テンソル8は、マップテンソル6のチャネル6a~6cとノイズテンソル7のチャネル7a~7cとを互いに並べることによって生じる。この入力テンソル8が生成器1によって処理されると、領域21内には紙幣11を、領域22内には鍵12を含む、写実的に生成された画像3が生じる。
【0061】
2つの新たなランダムベクトルが取り出され、それぞれノイズテンソル7における領域21及び22内において画一的に適用されると、新たなノイズテンソル7’が生じる。この新たなノイズテンソル7がマップテンソル6に付加されると、新たな入力テンソル8が得られる。この新たな入力テンソル8’が生成器1によって処理されると、写実的に生成された新たな画像3’が生じる。この新たな画像3’は、領域21内において別の紙幣11’を示しており、領域22内において別の鍵12’を示している。この場合も、ノイズテンソル7’において領域21及び22の外側に存在するノイズは、見易くするため省略されている。
【0062】
これは、単なる1つの例にすぎない。セマンティックマップ2は、さらに別の領域を含み得るものであり、ここでは特に、写実的に生成されたある1つの画像3から次の画像3’に移行する際に変化しない領域を含み得る。
【0063】
図3は、生成器をトレーニングするための方法200の1つの実施例の概略的なフローチャートである。ステップ210において、本物のトレーニング画像5及び対応するセマンティックトレーニングマップ5aが用意される。セマンティックトレーニングマップ5aは、個々のトレーニング画像5のピクセル各々にセマンティックな意味4を割り当てる。
【0064】
ステップ220において、少なくとも1つのセマンティックトレーニングマップ5aから、トレーニングすべき生成器1により上述の方法100に従って写実的画像3が生成される。ステップ230において、少なくとも1つの同一のセマンティックトレーニングマップ5aに対し、少なくとも1つの本物のトレーニング画像5が求められる。これをたとえば、「ラベリング」によりセマンティックトレーニングマップ5aがそもそも前もって生じているトレーニング画像5とすることができる。
【0065】
ステップ240において、生成器1によって生成された写実的画像3と、同一のセマンティックトレーニングマップ5aに属する少なくとも1つの本物のトレーニング画像5とが、識別器10に供給される。この識別器10は、生成器1によって生成された写実的画像3と、セマンティックトレーニングマップ5aによって予め定められたシーンの本物の画像5とを区別するように構成されている。識別器10は、トレーニングのためにのみ必要とされる。トレーニングが完了した生成器1を後で使用する際には、識別器10はもはや必要とされない。
【0066】
ステップ250において、生成器1によって生成された写実的画像3が識別器10によって本物の画像5として誤って分類されることを目標として、生成器1の挙動を特徴付ける生成器パラメータ1aが最適化される。これと同時に又はこれと交互に、ステップ260において、写実的に生成された画像3と本物の画像5とを区別する際の精度を改善することを目標として、識別器10の挙動を特徴付ける識別器パラメータ10aが最適化される。
【0067】
生成器パラメータ1aのトレーニングが完了した状態は、参照符号1aによって表されている。生成器パラメータ1aのトレーニングが完了した状態は、参照符号10aによって表されている。
【0068】
図4は、画像分類器9をトレーニングする方法300の1つの実施例の概略的なフローチャートである。ステップ305において、生成器1が上述の方法200によってトレーニングされる。ステップ310において、トレーニングされた生成器1によって、セマンティックマップ2から写実的画像3が生成される。それぞれ使用されるセマンティックマップ2から、ステップ320において、セマンティックな目標意味4が求められ、このセマンティックな目標意味4に対し、画像分類器9が写実的画像3又はそれらの画像のピクセルをそれぞれマッピングすることになる。
【0069】
生成器1によって生成された写実的画像3及び対応する目標意味4は、ステップ330において、既に本物のトレーニング画像5’及び対応する目標意味4’を含むトレーニングデータセット9aに追加される。このようにして拡張されたトレーニングデータセット9aは、ステップ340において、画像分類器9をトレーニングするために使用される。
【0070】
図5は、車両50の動作を制御するに至るまでの完全なイベントチェーンを含む方法300の1つの実施例の概略的なフローチャートである。ステップ410において、画像分類器9が上述の方法300によってトレーニングされる。ステップ420においてこの画像分類器9によって、車両50に搭載された少なくとも1つのセンサ50aによって撮影された画像5が、1つのセマンティックな意味4に割り当てられる。画像分類器9によって求められたこのセマンティックな意味4から、ステップ430において、動作制御信号430aが求められる。ステップ440において、この動作制御信号430aによって車両50の動作が制御される。
図1
図2
図3
図4
図5
【国際調査報告】