特表2023-511521 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフトの特許一覧

特表2023-511521原動機付き車両のトップビューの生成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-03-20

(54)【発明の名称】原動機付き車両のトップビューの生成

(51)【国際特許分類】

G06T 3/00 20060101AFI20230313BHJP

【ＦＩ】

G06T3/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022540672

(86)(22)【出願日】2020-11-23

(85)【翻訳文提出日】2022-06-30

(86)【国際出願番号】 EP2020083051

(87)【国際公開番号】W WO2021148164

(87)【国際公開日】2021-07-29

(31)【優先権主張番号】102020101637.9

(32)【優先日】2020-01-24

(33)【優先権主張国・地域又は機関】DE

(81)【指定国・地域】

(71)【出願人】

【識別番号】398037767

【氏名又は名称】バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト

(74)【代理人】

【識別番号】100069556

【弁理士】

【氏名又は名称】江崎光史

(74)【代理人】

【識別番号】100111486

【弁理士】

【氏名又は名称】鍛冶澤實

(74)【代理人】

【識別番号】100191835

【弁理士】

【氏名又は名称】中村真介

(74)【代理人】

【識別番号】100221981

【弁理士】

【氏名又は名称】石田大成

(72)【発明者】

【氏名】ハイデン・テッサ

(72)【発明者】

【氏名】ヴァイス・クリスティアン

【テーマコード（参考）】

5B057

【Ｆターム（参考）】

5B057CA12

5B057CA16

5B057CB12

5B057CB16

5B057CD11

5B057DA16

5B057DC02

5B057DC33

5B057DC40

(57)【要約】

【課題】トップビューの画像範囲がカメラの位置によって限定されることを除去する原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法を提供する。
【解決手段】少なくとも１つのカメラｋ１，ｋ２，ｋ３，ｋ４の少なくとも１つの画像に基づき、第１の視覚情報に依存する車両の第１のトップビューを生成する装置であって、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっており、装置は、カメラｋ１，ｋ２，ｋ３，ｋ４から少なくとも１つの画像を受け取り、コーディングユニットを用いて画像から第２の視覚情報を抽出し、コーディングユニットを用いて、視覚に依存しない内容情報を画像から抽出し、第１の生成ユニットを用いて、第１の視覚情報と、視覚に依存しない内容情報とに依存して第１のトップビューを生成する。

【特許請求の範囲】

【請求項1】

少なくとも１つのカメラ（ｋ１，ｋ２，ｋ３，ｋ４）の少なくとも１つの画像（ｂ）に基づき、第１の視覚情報（ｓ１）に依存する車両の第１のトップビュー（ｄ１）を生成する装置であって、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっており、装置は、
・カメラ（ｋ１，ｋ２，ｋ３，ｋ４）から少なくとも１つの画像（ｂ）を受け取り、
・コーディングユニット（Ｅ）を用いて画像（ｂ）から第２の視覚情報（ｓ２）を抽出し、
・コーディングユニット（Ｅ）を用いて、視覚に依存しない内容情報（ｚ）を画像（ｂ）から抽出し、
・第１の生成ユニット（Ｇ１）を用いて、第１の視覚情報（ｓ１）と、視覚に依存しない内容情報（ｚ）とに依存して第１のトップビュー（ｄ１）を生成する
ように構成されていることを特徴とする装置。

【請求項2】

装置は、更に、
・第１の生成ユニット（Ｇ１）によって生成されるトップビュー（ｄ１）を受け取るように構成された第１の識別ユニット（Ｄ１）と、
・第３の視覚情報（ｓ３）及びノイズ情報（ｒ）から第２のトップビュー（ｄ２）を生成するように構成された第２の生成ユニット（Ｇ２）と、
・第２の生成ユニット（Ｇ２）によって生成されるトップビュー（ｄ２）を受け取るように構成された第２の識別ユニット（Ｄ２）と
を含んでいることを特徴とする請求項１に記載の装置。

【請求項3】

第１の識別ユニット（Ｄ１）及び第２の識別ユニット（Ｄ２）が、それぞれ、第１のトップビュー（ｄ１）あるいは第２のトップビュー（ｄ２）が第１の生成ユニット（Ｇ１）あるいは第２の生成ユニット（Ｇ２）によって生成されたかどうか、又は第１のトップビュー（ｄ１）あるいは第２のトップビュー（ｄ２）が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されていることを特徴とする請求項２に記載の装置。

【請求項4】

第１の生成ユニット（Ｇ１）、第２の生成ユニット（Ｇ２）、第１の識別ユニット（Ｄ１）及び第２の識別ユニット（Ｄ２）が、それぞれニューラルネットワークを含んでおり、
・第１の生成ユニット（Ｇ１）のニューラルネットワーク及び第２の生成ユニット（Ｇ２）のニューラルネットワークが、それぞれ少なくとも部分的に同一のエッジ重みを有しており、
・第１の識別ユニット（Ｄ１）のニューラルネットワーク及び第２の識別ユニット（Ｄ２）のニューラルネットワークが、それぞれ少なくとも部分的に同一のエッジ重みを有している
ことを特徴とする請求項２又は３に記載の装置。

【請求項5】

請求項２、３又は４に記載の装置をトレーニングする方法であって、該方法が、以下のステップ：
・トレーニング画像（ｂ）及び第１のトレーニングトップビュー（ｔｄ１）から成るトレーニングデータペアを提供するステップと、
・コーディングユニット（Ｅ）を用いてトレーニング画像（ｂ）から第２の視覚情報（ｓ２）を抽出するステップと、
・コーディングユニット（Ｅ）を用いて、視覚に依存しない内容情報（ｚ）をトレーニング画像（ｂ）から抽出するステップと、
・第１の生成ユニット（Ｇ１）を用いて、第１の視覚情報（ｓ１）と、視覚に依存しない内容情報（ｚ）とに依存して第１のトップビュー（ｄ１）を生成するステップと、
・第１の識別ユニット（Ｄ１）を用いて、第１のトップビュー（ｓ１）が第１の生成ユニット（Ｇ１）によって生成されたかどうか、又は第１のトップビュー（ｓ１）が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップと、
・第１のトップビュー（ｓ１）を第１のトレーニングトップビュー（ｔｄ１）と比較するステップと、
・第１のトレーニングトップビュー（ｔｄ１）との第１のトップビュー（ｄ１）の比較に依存して、コーディングユニット（Ｅ）及び／又は第１の生成ユニット（Ｇ１）及び／又は第１の識別ユニット（Ｄ１）を適合させるステップと
を含むことを特徴とする方法。

【請求項6】

方法が、以下のステップ：
・第１のトレーニングトップビュー（ｔｄ１）との第１のトップビュー（ｄ１）の比較に依存して、コーディングユニット（Ｅ）、第１の生成ユニット（Ｇ１）及び第１の識別ユニット（Ｄ１）のうち少なくとも２つを適合させるステップ
を含むことを特徴とする請求項５に記載の方法。

【請求項7】

請求項２、３又は４に記載の装置をトレーニングする方法であって、該方法が、以下のステップ：
・トレーニング視覚情報（ｓ３）及び第２のトレーニングトップビュー（ｔｄ２）から成るトレーニングデータペアを提供するステップと、
・第２の生成ユニット（Ｇ２）を用いて、トレーニング視覚情報（ｓ３）と、ノイズ情報（ｒ）とに依存して第２のトップビュー（ｄ２）を生成するステップと、
・第２の識別ユニット（Ｄ２）を用いて、第２のトップビュー（ｓ２）が第２の生成ユニット（Ｇ２）によって生成されたかどうか、又は第２のトップビュー（ｓ２）が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップと、
・第２のトップビュー（ｄ２）を第２のトレーニングトップビュー（ｔｄ２）と比較するステップと、
・トレーニングトップビュー（ｔｄ２）との第２のトップビュー（ｄ２）の比較に依存して、第２の生成ユニット（Ｇ２）及び／又は第２の識別ユニット（Ｄ２）を適合させるステップと
を含むことを特徴とする方法。

【請求項8】

方法が、以下のステップ：
・トレーニングトップビュー（ｔｄ２）との第２のトップビュー（ｄ２）の比較に依存して、第２の生成ユニット（Ｇ２）及び第２の識別ユニット（Ｄ２）を適合させるステップ
を含むことを特徴とする請求項７に記載の方法。

【請求項9】

請求項２、３又は４に記載の装置をトレーニングする方法であって、該方法が、以下のステップ：
・請求項５又は６に記載の方法を少なくとも１回実行することで装置をトレーニングするステップと、
・請求項７又は８に記載の方法を少なくとも１回実行することで装置をトレーニングするステップと
を含む方法。

【請求項10】

請求項７又は８に記載の方法を少なくとも１回実行することで装置をトレーニングするステップが、請求項５又は６に記載の方法を少なくとも１回実行することで装置をトレーニングするステップの後に初めてなされることを特徴とする請求項９に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法に関するものである。

【背景技術】

【0002】

原動機付き車両のトップビューは、例えば、サイドミラーの下側に設けられた１つ又は複数のカメラを用いて生成されることが可能である。このようなシステムは、例えばＢＭＷＴｏｐＶｉｅｗの名称で市場において既に入手可能である。

【0003】

原動機付き車両のトップビューを生成する公知の方法における欠点は、例えば、トップビューの画像範囲がカメラの位置によって設定され、限定されていることである。そのほか、このために、適当なカメラが必須である。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の課題は、上述の欠点を除去する原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法を提供することにある。

【課題を解決するための手段】

【0005】

当該課題は、独立請求項の特徴によって解決される。有利な実施形態は、従属請求項に記載されている。独立請求項に従属する請求項の追加的な特徴は、独立請求項の特徴なしに、又は独立請求項の特徴の一部との組合せにおいてのみでも、固有の、及び独立請求項の全ての特徴の組合せから独立した発明を形成することができ、当該発明は、独立請求項、分割出願又は後出願の対象に対して行われ得ることを指摘しておく。このことは、独立請求項の特徴のうち１つから独立した発明を形成し得る、明細書に記載された技術的な示唆についても同様に当てはまる。

【0006】

本発明の第１の態様は、少なくとも１つのカメラの少なくとも１つの画像に基づき、第１の視覚情報に依存する車両の第１のトップビューを生成する装置に関するものであり、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっている。

【0007】

第１の視覚情報は、特に、基準系に対する場合によっては仮想的なカメラあるいは視覚の光軸の方向を記述する情報である。例えば、第１の視覚情報は、車両長手方向及び車両横方向で描かれる平面に対して生成されるべきトップビューの光軸の方向を記述する情報である。

【0008】

トップビューは、その光軸が、車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している上からの視点である。

【0009】

したがって、第１の視覚情報は、例えば、その光軸が車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している視点を特徴付ける情報であり、光軸と平面の間で生じる角度は、８０°と１００°の間であり、例えば９０°の場合である。

【0010】

光軸と平面の間で生じる角度が１０°未満であれば、例えば当該角度が０°であれば、カメラの光軸は、特に、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行である。

【0011】

装置は、カメラの少なくとも１つの画像を受け取るように構成されている。

【0012】

そのほか、装置は、コーディングユニットを用いて、画像から視覚情報を抽出するように構成されている。第２の視覚情報は、特に、車両長手方向及び車両横方向で描かれる平面に対するカメラの光軸の向きを記述する情報である。

【0013】

そのほか、装置は、コーディングユニットを用いて、視覚に依存しない内容情報を画像から抽出し、第１の生成ユニットを用いて、第１の視覚情報及び視覚に依存しない内容情報に依存して第１のトップビューを生成するように構成されている。

【0014】

ここでの本発明の核心は、第１の視覚情報の遠近法的な視点に基づいて視覚に依存しない内容情報を示すことである。

【0015】

本発明の有利な一実施形態では、装置は、更に、第１の生成ユニットによって生成されるトップビューを受け取るように構成された第１の識別ユニットと、第３の視覚情報及びノイズ情報から第２のトップビューを生成するように構成された第２の生成ユニットと、第２の生成ユニットによって生成されるトップビューを受け取るように構成された第２の識別ユニットとを含んでいる。

【0016】

第１の識別ユニット及び第２の識別ユニットは、特に、それぞれ、第１のトップビューあるいは第２のトップビューが第１の生成ユニットあるいは第２の生成ユニットによって生成されたかどうか、又は第１のトップビューあるいは第２のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されている。

【0017】

光軸と平面の間で生じる角度が８０～１００°、例えば当該角度が９０°であれば、当該カメラの光軸は、特に、車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している。

【0018】

ここでの本発明の核心は、両識別ユニットが、人工的に生成されたカメラ画像から「真の」カメラ画像を区別するように構成されている構成されていることである。これにより、装置をトレーニングする後述の方法について、両生成ユニットにより得られるトップビューが高いクオリティを有するとともに、理想的な場合にはもはや真のカメラ画像とは区別可能でないという効果が得られる。

【0019】

有利な別の一実施形態では、第１の生成ユニット、第２の生成ユニット、第１の識別ユニット及び第２の識別ユニットは、それぞれニューラルネットワークを含んでいる。

【0020】

神経回路網（ニューラルネットワークともいう）は、ネットワークアーキテクチャにおいて層状に配置された個々の情報処理ユニット（ニューロン）の集まりである。人工知能に関連して、人工ニューラルネットワークと呼ばれる。

【0021】

人工ニューラルネットワークのニューロン（結節点ともいう）は、いわゆるレイヤにおいて層状に配置されているとともに、通常は、固定された階層（ヒエラルキー）において互いに接続されている。このとき、ニューロンは、少なくとも２つのレイヤ間で接続されており（Ｉｎｔｅｒ－Ｎｅｕｒｏｎｌａｙｅｒ－Ｃｏｎｎｅｃｔｉｏｎ（ニューロン層間接続））、より希少な場合には、レイヤ内（Ｉｎｔｒａ－Ｎｅｕｒｏｎｌａｙｅｒ－Ｃｏｎｎｅｃｔｉｏｎ（同一層内接続））でも接続されている。

【0022】

情報は、入力層（ＩｎｐｕｔＬａｙｅｒ）を起点として、１つ又は複数の中間層（ＨｉｄｄｅｎＬａｙｅｒ）を介して出力層（ＯｕｔｐｕｔＬａｙｅｒ）まで流れる。このとき、１つのニューロンの出力は、次のものの入力である。

【0023】

入力層は、人工ニューラルネットワークにおける情報の流れの開始点である。

【0024】

通常、入力信号は、当該層の初期にニューロンから受け取られ、最後には、重み付けされて第１の中間層のニューロンへ引き渡される。このとき、入力層のニューロンは、各情報を第１の中間層のニューロンへ引き渡す。

【0025】

各人工ニューラルネットワークにおいて、入力層と出力層の間には少なくとも１つの中間層（活性化層又は英語のｈｉｄｄｅｎｌａｙｅｒである隠れ層ともいう）が存在する。中間層が多くなればなるほど、ニューラルネットワークは「より深く」なり、このような場合には、英語でＤｅｅｐＬｅａｒｎｉｎｇ（ディープラーニング）とも呼ばれる。

【0026】

論理的には、人工ニューラルネットワークにおけるあり得る隠れ層の数は無限である。しかし、実際には、それぞれ追加される隠れ層により、ネットワークの動作に必要な演算出力も増大する。

【0027】

出力層は、中間層の後方に位置するとともに、人工ニューラルネットワークにおける最後の層を形成する。出力層に配置されたニューロンは、それぞれ最後の中間層のニューロンと接続されている。出力層は、人工ニューラルネットワークにおける情報の流れの終点であるとともに、ネットワークによる情報処理の結果を得る。

【0028】

重みは、ニューラルネットワークにおける接続に沿った情報の流れの強度を表す。このために、各ニューロンは、通流する情報に対して重みを与えて当該情報を重み付けし、当該情報を、場合によってはニューロン特有のバイアス（Ｂｉａｓ（バイアス））についての値を付加した後、次の層のニューロンへ引き渡す。通常、重み及びバイアスは、トレーニングの開始時に初期化される。重み及びバイアスの結果は、次の層のニューロンへ引き渡される前に、しばしばいわゆる活性化関数（例えばシグモイド又はｔａｎｈ）によって導出される。

【0029】

重み及びバイアスは、結果ができる限り正確に要求に対応するように、トレーニングプロセス中に適合される。

【0030】

第１の生成ユニットのニューラルネットワーク及び第２の生成ユニットのニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有し、第１の識別ユニットのニューラルネットワーク及び第２の識別ユニットのニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有している。

【0031】

特に、第１の生成ユニットのニューラルネットワーク及び第２の生成ユニットのニューラルネットワークあるいは第１の識別ユニットのニューラルネットワーク及び第２の識別ユニットのニューラルネットワークは、それぞれ互いに対応するニューラルネットワークの箇所、すなわち例えば同一の構造を有し、及び／又はそのノードが意味的に互いに対応する箇所において、少なくとも部分的に同一のエッジ重みを有している。

【0032】

そして、エッジ重みの少なくとも９０％が同一であるか、又は特にエッジ重みの好ましくは１００％が同一であれば、ニューラルネットワークのエッジ重みは、特に少なくとも部分的に同一である。

【0033】

本発明の第２の態様は、請求項２、３又は４に記載の装置をトレーニングする方法に関するものである。

【0034】

方法の１つのステップは、トレーニング画像及び第１のトレーニングトップビューから成るトレーニングデータペアを提供することである。このとき、トレーニングデータペアは、トレーニング画像からの関連する視覚情報を考慮して第１のトレーニングトップビューを生成するように選択されている。

【0035】

方法の別の１つのステップは、コーディングユニットを用いてトレーニング画像から第２の視覚情報を抽出すること、及びコーディングユニットを用いて、視覚に依存しない内容情報をトレーニング画像から抽出することである。

【0036】

方法の別の１つのステップは、第１の生成ユニットを用いて、第１の視覚情報と、視覚に依存しない内容情報とに依存して第１のトップビューを生成することである。

【0037】

方法の別の１つのステップは、第１の識別ユニットを用いて、第１のトップビューが第１の生成ユニットによって生成されたかどうか、又は第１のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定することである。

【0038】

方法の別の１つのステップは、第１のトップビューを第１のトレーニングトップビューと比較すること、及び第１のトレーニングトップビューとの第１のトップビューの比較に依存して、コーディングユニット及び／又は第１の生成ユニット及び／又は第１の識別ユニットを適合させることである。

【0039】

特に、コーディングユニット及び第１の識別ユニットは、第１のトップニューを、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラの画像として第１の識別ユニットが分類する確率が上がるように適合される。

【0040】

これに代えて、又はこれに加えて、識別ユニットは、第１のトップビューを、第１の生成ユニットによって生成される画像として第１の識別ユニットが認識する確率が上がるように適合される。

【0041】

ここでの本発明の核心は、一方では第１の識別ユニットが、他方では第１の生成ユニット及びコーディングユニットが、競合的な目的の達成に関して同時にトレーニングされることである。これにより、第１の生成ユニットによって生成される第１のトップビューのクオリティが向上し、当該トップビューを実際のカメラ画像と区別することがますます困難となる。

【0042】

有利な一実施形態では、方法は、第１のトレーニングトップビューとの第１のトップビューの比較に依存して、コーディングユニット、第１の生成ユニット及び第１の識別ユニットのうち少なくとも２つを適合させるステップを含む。

【0043】

コーディングユニット、第１の生成ユニット及び／又は第１の識別ユニットの適合は、これらユニットがそれぞれニューラルネットワークを含む場合には、ニューラルネットワークのエッジ重みの適合を意味する。

【0044】

エッジ重みの適合により、ニューラルネットワークが「学習する」。

【0045】

学習は、例えば以下のように機能する：ネットワーク構造が構成された後、各ニューロンがランダムな初期重みを得る。そして、入力データがネットワークへ与えられ、各ニューロンは、その重みで入力信号を重み付けし、結果を次の層（レイヤ）のニューロンへ引き渡す。そして、出力層（出力レイヤ）では全体結果が演算され、当該全体結果は、通常、既知の実際の結果とはあまり関係がない。なぜなら、ニューロンはランダムな初期重みを有しているためである。しかし、誤差の大きさと、各ニューロンが当該誤差において有する割合とを演算することができ、そして、誤差を最小化する方向へ各ニューロンの重みをわずかに変更することが可能である。そして、次の進行（実行）、誤差の新たな測定、重みの適合などが行われる。したがって、ニューラルネットワークは、入力データから既知の出力データを推定するためにますます良好に「学習する」。

【0046】

詳細には、入力データは、ニューラルネットワークの１つの側において導入される。このとき、各入力信号は、第１の層（レイヤ）のそれぞれ個別のニューロンへ分配される。そして、各ニューロンは、入ってくる信号を（最初にランダムに与えられる）入力特有の重みで重み付けし、いわゆるニューロン特有のバイアス項を付加し、このように重み付けされた全ての入力データを当該１つのニューロンの出力へ合計する。

【0047】

このとき、しばしば、例えば出力の所定の数値範囲を強制するために、出力は、非線形の活性化関数によって更に導出される。そして、各ニューロンの出力は、入力として後続の層の全てのニューロンへ引き渡される。当該プロセスは、全ての演算の結果を提供する出力層に到達するまで継続される。

【0048】

これまで、人工ニューラルネットワークは全く学習していない。ニューラルネットワークの初期化時に全ての重みが所定の値範囲内でランダムに選択されるため、結果は、純粋にランダムな値となる。現時点で多く用いられる態様をネットワークに学習させることは、いわゆる教師あり学習であり、これにより、例に基づく学習が意図されている。

【0049】

この場合、１つの例は、真の入力－出力データペアの組合せを意味する。当該例は、全ての重み及びバイアス項を最適に設定するために、人工ニューラルネットワークのトレーニングにおいて用いられ、その結果、ネットワークは、全ての入力データ及びこれまでまだ見ない新たな入力データの最後に正しい結果を演算することが可能である。

【0050】

このとき、まだトレーニングされていないニューラルネットワークは、入力データ（Ｆｅａｔｕｒｅｓ（フィーチャー）とも呼ばれる）のセットについてそれぞれ１つの結果を演算する。そして、当該結果は、例データセット（Ｔａｒｇｅｔｓ（ターゲット）又はＬａｂｅｌ（ラベル）とも呼ばれる）の既知の結果と比較され、偏差あるいは誤差の大きさが演算される。正の偏差も、また負の偏差も同時に描写することができるように、例えば、二乗誤差の平均値又は他の誤差関数が用いられる。

【0051】

そして、実際の「学習」が開始される。測定される誤差は、人工ニューラルネットワークへ戻すように後方へ導かれ、各重み及び各バイアス項は、誤差を小さくする方向へ幾分適合される。当該適合の大きさは、第１に、結果における所定のニューロン重みを有する割合を介して演算され、第２に、ニューラルネットワークの最も重要な設定量に属するいわゆる学習係数（学習率）を介して演算される。

【0052】

一般的な学習係数は、例えば０．００１又は０．０１であり、すなわち、演算される誤差の１／１００～１／１０００のみが実行ごとに補正される。実行ごとの適合が大きすぎる場合には、誤差曲線の最小値が誤りとなり、偏差が小さくなる代わりにますます大きくなることとなり得る。したがって、誤差関数の最小値をより良好に特定するために、学習係数は、トレーニング中にますます低減されることがある。

【0053】

他のあり得る問題は、局所的な最小値を有する誤差関数であり、当該誤差関数では、ニューラルネットワークが「吊られた」ままであり、したがって実際の最小値がない。補正の方向は、各関数の微分によって得られ、その負の値は、誤差関数を最小化する方向を与える。選択された誤差関数の最小化は、トレーニングあるいは学習の目的である。

【0054】

全ての重みが適合された後、全ての入力データの更なる進行（実行）及び誤差の新たな測定並びに重みの新たな適合への当該誤差のバックプロパゲーションがなされる。このとき、全ての入力データの完全な実行は、それぞれエポックと呼ばれる。トレーニングエポックの数も、同様にニューラルネットワークのトレーニングについての重要なハイパーパラメータである。ここで、入力データは、データセットの大きさに応じて、同一の大きさのグループに分割することもでき、トレーニングは、それぞれバッチごとに実行されることが可能である。

【0055】

このことは、例えば、人工ニューラルネットワークがより迅速に学習するのに、又は実行されるコンピュータの演算容量の限度を考慮するのに有意義であり得る。バッチへの分割において重要なことは、データセット全体と比較した各バッチ内の値の正規分布である。全てのバッチがニューラルネットワークを一度実行した場合、１つのエポックが完全に終了する。

【0056】

人工ニューラルネットワークがトレーニングのために得る例が多ければ多いほど、及びこれらが頻繁に見られれば見られるほど、結果における誤差はより小さくなる。このとき、１００％の線への誤差曲線の接近及び寄り掛かりは、収束とよばれ、場合によってはトレーニングを停止し、ハイパーパラメータへの適合を行うことができるように、トレーニング中には誤差曲線の推移が監視される。しかし、小さな誤差は、ニューラルネットワークの良好な一般的なパフォーマンスを必ずしも意味するものではない。

【0057】

なぜなら、トレーニング中には全ての既知のデータが非常に頻繁に見られる場合には、人工ニューラルネットワークは、抽象的な概念を学習する代わりに、むしろ当該データを暗記することとなり得るためである。この問題は、オーバーフィッティング（過学習）とも呼ばれる。ニューラルネットワークは非常に複雑な関数を描写することができるため、既知の各データ点に対して完全な関数が見出されても、新たなデータに対して当該関数が良好に機能しないというおそれがある。

【0058】

ニューラルネットワークが既知の例データから抽出され、これまで学習されていない入力データに対して正しい結果が提供され得ることを保証するために、例データは、トレーニング前に、トレーニングデータ、テストデータ及びブラインドテストデータへ例えば７０／２０／１０の比率で分割される。

【0059】

そして、トレーニング中には、トレーニングデータのみが用いられ、それぞれトレーニングデータについても、またテストデータについても、誤り率（ＥｒｒｏｒＲａｔｅ（エラーレート））が測定される。しかし、テストデータの測定された誤差は、人工ニューラルネットワークへ戻されない。そして、ニューラルネットワークは、全ての変数の適合によって、トレーニングデータ及びテストデータに関して最大のパフォーマンスが得られるように改善される。ニューラルネットワークの当該「調律」は、人工知能についての技術者の中心的な活動に属するものである。

【0060】

ネットワークが完全にトレーニングされていると思われる場合に初めて、ブラインドテストデータが使用される。人工ニューラルネットワークがブラインドテストデータにおいても良好に成果を収める場合には、抽象的な概念が良好に学習された確率が高い。

【0061】

上述の教師あり学習には、適当に大きな量の例データが必要である。大きな量は、ここでは、例えば１００万例を意味する。人工ニューラルネットワークは、部分的により小さなデータセットで既に著しい結果を達成することができるものの、多くのデータが提供されればされるほど、より改善される。画像の分類については、例えば等級ごとに約１０００例の画像以上で有用な結果が得られる。人工知能の全体的な研究の方向性は、いわゆるワンショット学習、すなわち非常にわずかな例、又は１つの例のみに基づく学習のための方法に取り組むものである。

【0062】

教師あり学習（監視学習）事態は、人工ニューラルネットワーク内でのデータ使用及びデータ引渡しの様々な手法へ更に分割されることが可能である：いわゆる回帰型ニューラルネットワークでは、例えば以前の入力データの結果が現在の出力の演算に導入され、その結果、例えば時系列及びテキストを、例えば、言語認識及びテキストの翻訳に用いられる長・短期記憶（ＬＳＴＭ）ネットワーク及びシーケンス－シーケンスネットワークにおいても解析及び処理することができる。画像処理にはいわゆる畳み込みニューラルネットワーク（ＣＮＮ）が用いられ、当該畳み込みニューラルネットワークは、画像をグリッドで走査し、各層におけるより深い（下位の）レベル（点、ラインなど）からより高い概念（顔、家など）へ抽象化する。

【0063】

本発明の第３の態様は、請求項２、３又は４に記載の装置をトレーニングする方法である。

【0064】

方法の１つのステップは、トレーニング視覚情報及び第２のトレーニングトップビューから成るトレーニングデータペアを提供することである。

【0065】

方法の別の１つのステップは、第２の生成ユニットを用いて、トレーニング視覚情報と、ノイズ情報とに依存して第２のトップビューを生成することである。

【0066】

本発明の第３の態様によるトレーニング方法は、本発明の第２の態様によるトレーニング方法に比べて、トレーニングデータへの生成ユニット及び識別ユニットのいわゆる過適合が回避されるという利点を有している。なぜなら、この場合、生成ユニット及び識別ユニットが、ランダムに生成されことから不意である入力情報と調和する必要があるためである。

【0067】

方法の別の１つのステップは、第２の識別ユニットを用いて、第２のトップビューが第２の生成ユニットによって生成されたかどうか、又は第２のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定することである。

【0068】

方法の別の１つのステップは、第２のトップビューを第２のトレーニングトップビューと比較すること、及びトレーニングトップビューとの第２のトップビューの比較に依存して、第２の生成ユニット及び／又は第２の識別ユニットを適合させることである。

【0069】

特に、第２の識別ユニットは、第２のトップニューを、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラの画像として第２の識別ユニットが分類する確率が上がるように適合される。

【0070】

これに代えて、又はこれに加えて、第２の識別ユニットは、第２のトップビューを、第２の生成ユニットによって生成される画像として第２の識別ユニットが認識する確率が上がるように適合される。

【0071】

特に、方法は、トレーニングトップビューとの第２のトップビューの比較に依存して、第２の生成ユニット及び第２の識別ユニットを適合させるステップを含む。

【0072】

第２の生成ユニット及び／又は第２の識別ユニットの適合は、これらユニットがそれぞれニューラルネットワークを含む場合には、ニューラルネットワークのエッジ重みの適合を意味する。

【0073】

本発明の第４の態様は、請求項２、３又は４に記載の装置をトレーニングする方法に関するものである。

【0074】

方法の１つのステップは、本発明の第２の態様による方法を少なくとも１回実行することで装置をトレーニングすることを含む。

【0075】

方法の別の１つのステップは、本発明の第３の態様による方法を少なくとも１回実行することで装置をトレーニングすることを含む。

【0076】

このとき、特に、本発明の第３の態様による方法を少なくとも１回実行することで装置をトレーニングするステップは、本発明の第２の態様による方法を少なくとも１回実行することで装置をトレーニングするステップの後に初めて実行される。

【0077】

以下に、本発明を、添付の図面を参照しつつ実施例に基づいて説明する。

【図面の簡単な説明】

【0078】

【図1】本発明による装置の一実施例を示す図である。

【図2】複数のカメラを有する原動機付き車両の一実施例を示す図である。

【図3】ニューラルネットワークの一実施例を示す図である。

【発明を実施するための形態】

【0079】

図１には、少なくとも１つのカメラｋ１，ｋ２，ｋ３，ｋ４の少なくとも１つの画像ｂに基づき、第１の視覚情報ｓ１に依存する車両の第１のトップビューｄ１を生成する装置が示されており、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっている。

【0080】

このとき、装置は、カメラｋ１，ｋ２，ｋ３，ｋ４から少なくとも１つの画像ｂを受け取り、コーディングユニットＥを用いて第２の視覚情報ｓ２を画像ｂから抽出し、コーディングユニットＥを用いて、視覚に依存しない内容情報ｚを画像ｂから抽出するように構成されている。

【0081】

そのほか、装置は、第１の生成ユニットＧ１を用いて、第１の視覚情報ｓ１と、視覚に依存しない内容情報ｚとに依存して第１のトップビューｄ１を生成するように構成されている。

【0082】

そのほか、装置は、第１の生成ユニットＧ１によって生成されるトップビューｄ１を受け取るように構成された第１の識別ユニットＤ１と、第３の視覚情報ｓ３及びノイズ情報ｒから第２のトップビューｄ２を生成するように構成された第２の生成ユニットＧ２と、第２の生成ユニットＧ２によって生成されるトップビューｄ２を受け取るように構成された第２の識別ユニットＤ２とを含んでいる。

【0083】

第１の識別ユニットＤ１及び第２の識別ユニットＤ２は、それぞれ、第１のトップビューｄ１あるいは第２のトップビューｄ２が第１の生成ユニットＧ１あるいは第２の生成ユニットＧ２によって生成されたかどうか、又は第１のトップビューｄ１あるいは第２のトップビューｄ２が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されている。

【0084】

第１の生成ユニットＧ１、第２の生成ユニットＧ２、第１の識別ユニットＤ１及び第２の識別ユニットＤ２は、それぞれ神経回路網（ニューラルネットワーク）を含んでいる。

【0085】

第１の生成ユニットＧ１のニューラルネットワーク及び第２の生成ユニットＧ２のニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有し、第１の識別ユニットＤ１のニューラルネットワーク及び第２の識別ユニットＤ２のニューラルネットワークは、それぞれ同様に少なくとも部分的に同一のエッジ重みを有している。

【0086】

当該装置は、本発明の第２の態様、第３の態様及び第４の態様による方法によってトレーニングされ得る。

【0087】

本発明の第２の態様による方法は、特に以下のステップを含んでいる：
・トレーニング画像ｂ及び第１のトレーニングトップビューｔｄ１から成るトレーニングデータペアを提供するステップ、
・コーディングユニットＥを用いてトレーニング画像ｂから第２の視覚情報ｓ２を抽出するステップ、
・コーディングユニットＥを用いて、視覚に依存しない内容情報ｚをトレーニング画像ｂから抽出するステップ、
第１の生成ユニットＧ１を用いて、第１の視覚情報ｓ１と、視覚に依存しない内容情報ｚとに依存して第１のトップビューｄ１を生成するステップ、
第１の識別ユニットＤ１を用いて、第１のトップビューｓ１が第１の生成ユニットＧ１によって生成されたかどうか、又は第１のトップビューｓ１が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップ、
・第１のトップビューｓ１を第１のトレーニングトップビューｔｄ１と比較するステップ、
・第１のトレーニングトップビューｔｄ１との第１のトップビューｄ１の比較に依存して、コーディングユニットＥ、第１の生成ユニットＧ１及び第１の識別ユニットＤ１を適合させるステップ。

【0088】

本発明の第２の態様による方法は、特に以下のステップを含んでいる：
・トレーニング視覚情報ｓ３及び第２のトレーニングトップビューｔｄ２から成るトレーニングデータペアを提供するステップ、
・第２の生成ユニットＧ２を用いて、トレーニング視覚情報ｓ３と、ノイズ情報ｒとに依存して第２のトップビューｄ２を生成するステップ、
・第２の識別ユニットＤ２を用いて、第２のトップビューｓ２が第２の生成ユニットＧ２によって生成されたかどうか、又は第２のトップビューｓ２が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップ、
・第２のトップビューｄ２を第２のトレーニングトップビューｔｄ２と比較するステップ、
・トレーニングトップビューｔｄ２との第２のトップビューｄ２の比較に依存して、第２の生成ユニットＧ２及び第２の識別ユニットＤ２を適合させるステップ。

【0089】

本発明の第４の態様による装置をトレーニングする方法は、有利には、本発明の第２の態様及び本発明の第３の態様による両トレーニング方法を関連付けるものである。

【0090】

当該効果は、特に、第１の生成ユニットＧ１及び第２の生成ユニットＧ２並びに第１の識別ユニットＤ１及び第２の識別ユニットＤ２が、共通のエッジ重みを共有することにより互いに接続されることで得られる。

【0091】

このとき、好ましい一実施形態では、本発明の第３の態様によるトレーニング方法が後の時点で強化して実行される前に、まず、本発明の第２の態様によるトレーニング方法が強化して実行される。

【0092】

図２には複数のカメラｋ１，ｋ２，ｋ３，ｋ４を有する原動機付き車両の一実施例が示されており、当該カメラは、それぞれ、その光軸が車両長手方向及び車両横方向で描かれる平面に対して本質的に平行であるように原動機付き車両に配置されている。

【0093】

図３にはニューラルネットワークの一実施例が示されており、当該ニューラルネットワークは、ニューロンＡ１～Ａ４、Ｂ１～Ｂ５、Ｃ１～Ｃ５、Ｄ１～Ｄ３の４つの層Ａ，Ｂ，Ｃ，Ｄで構成されている。

【0094】

ニューロンは、部分的にエッジで互いに結合されている。上述したように、これら各エッジには、図３では不図示のエッジ重みが割り当てられている。