IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフトの特許一覧

特表2023-511521原動機付き車両のトップビューの生成
<>
  • 特表-原動機付き車両のトップビューの生成 図1
  • 特表-原動機付き車両のトップビューの生成 図2
  • 特表-原動機付き車両のトップビューの生成 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-20
(54)【発明の名称】原動機付き車両のトップビューの生成
(51)【国際特許分類】
   G06T 3/00 20060101AFI20230313BHJP
【FI】
G06T3/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022540672
(86)(22)【出願日】2020-11-23
(85)【翻訳文提出日】2022-06-30
(86)【国際出願番号】 EP2020083051
(87)【国際公開番号】W WO2021148164
(87)【国際公開日】2021-07-29
(31)【優先権主張番号】102020101637.9
(32)【優先日】2020-01-24
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】398037767
【氏名又は名称】バイエリシエ・モトーレンウエルケ・アクチエンゲゼルシヤフト
(74)【代理人】
【識別番号】100069556
【弁理士】
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【弁理士】
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【弁理士】
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【弁理士】
【氏名又は名称】石田 大成
(72)【発明者】
【氏名】ハイデン・テッサ
(72)【発明者】
【氏名】ヴァイス・クリスティアン
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057CA12
5B057CA16
5B057CB12
5B057CB16
5B057CD11
5B057DA16
5B057DC02
5B057DC33
5B057DC40
(57)【要約】
【課題】トップビューの画像範囲がカメラの位置によって限定されることを除去する原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法を提供する。
【解決手段】少なくとも1つのカメラk1,k2,k3,k4の少なくとも1つの画像に基づき、第1の視覚情報に依存する車両の第1のトップビューを生成する装置であって、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっており、装置は、カメラk1,k2,k3,k4から少なくとも1つの画像を受け取り、コーディングユニットを用いて画像から第2の視覚情報を抽出し、コーディングユニットを用いて、視覚に依存しない内容情報を画像から抽出し、第1の生成ユニットを用いて、第1の視覚情報と、視覚に依存しない内容情報とに依存して第1のトップビューを生成する。
【特許請求の範囲】
【請求項1】
少なくとも1つのカメラ(k1,k2,k3,k4)の少なくとも1つの画像(b)に基づき、第1の視覚情報(s1)に依存する車両の第1のトップビュー(d1)を生成する装置であって、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっており、装置は、
・カメラ(k1,k2,k3,k4)から少なくとも1つの画像(b)を受け取り、
・コーディングユニット(E)を用いて画像(b)から第2の視覚情報(s2)を抽出し、
・コーディングユニット(E)を用いて、視覚に依存しない内容情報(z)を画像(b)から抽出し、
・第1の生成ユニット(G1)を用いて、第1の視覚情報(s1)と、視覚に依存しない内容情報(z)とに依存して第1のトップビュー(d1)を生成する
ように構成されていることを特徴とする装置。
【請求項2】
装置は、更に、
・第1の生成ユニット(G1)によって生成されるトップビュー(d1)を受け取るように構成された第1の識別ユニット(D1)と、
・第3の視覚情報(s3)及びノイズ情報(r)から第2のトップビュー(d2)を生成するように構成された第2の生成ユニット(G2)と、
・第2の生成ユニット(G2)によって生成されるトップビュー(d2)を受け取るように構成された第2の識別ユニット(D2)と
を含んでいることを特徴とする請求項1に記載の装置。
【請求項3】
第1の識別ユニット(D1)及び第2の識別ユニット(D2)が、それぞれ、第1のトップビュー(d1)あるいは第2のトップビュー(d2)が第1の生成ユニット(G1)あるいは第2の生成ユニット(G2)によって生成されたかどうか、又は第1のトップビュー(d1)あるいは第2のトップビュー(d2)が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されていることを特徴とする請求項2に記載の装置。
【請求項4】
第1の生成ユニット(G1)、第2の生成ユニット(G2)、第1の識別ユニット(D1)及び第2の識別ユニット(D2)が、それぞれニューラルネットワークを含んでおり、
・第1の生成ユニット(G1)のニューラルネットワーク及び第2の生成ユニット(G2)のニューラルネットワークが、それぞれ少なくとも部分的に同一のエッジ重みを有しており、
・第1の識別ユニット(D1)のニューラルネットワーク及び第2の識別ユニット(D2)のニューラルネットワークが、それぞれ少なくとも部分的に同一のエッジ重みを有している
ことを特徴とする請求項2又は3に記載の装置。
【請求項5】
請求項2、3又は4に記載の装置をトレーニングする方法であって、該方法が、以下のステップ:
・トレーニング画像(b)及び第1のトレーニングトップビュー(td1)から成るトレーニングデータペアを提供するステップと、
・コーディングユニット(E)を用いてトレーニング画像(b)から第2の視覚情報(s2)を抽出するステップと、
・コーディングユニット(E)を用いて、視覚に依存しない内容情報(z)をトレーニング画像(b)から抽出するステップと、
・第1の生成ユニット(G1)を用いて、第1の視覚情報(s1)と、視覚に依存しない内容情報(z)とに依存して第1のトップビュー(d1)を生成するステップと、
・第1の識別ユニット(D1)を用いて、第1のトップビュー(s1)が第1の生成ユニット(G1)によって生成されたかどうか、又は第1のトップビュー(s1)が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップと、
・第1のトップビュー(s1)を第1のトレーニングトップビュー(td1)と比較するステップと、
・第1のトレーニングトップビュー(td1)との第1のトップビュー(d1)の比較に依存して、コーディングユニット(E)及び/又は第1の生成ユニット(G1)及び/又は第1の識別ユニット(D1)を適合させるステップと
を含むことを特徴とする方法。
【請求項6】
方法が、以下のステップ:
・第1のトレーニングトップビュー(td1)との第1のトップビュー(d1)の比較に依存して、コーディングユニット(E)、第1の生成ユニット(G1)及び第1の識別ユニット(D1)のうち少なくとも2つを適合させるステップ
を含むことを特徴とする請求項5に記載の方法。
【請求項7】
請求項2、3又は4に記載の装置をトレーニングする方法であって、該方法が、以下のステップ:
・トレーニング視覚情報(s3)及び第2のトレーニングトップビュー(td2)から成るトレーニングデータペアを提供するステップと、
・第2の生成ユニット(G2)を用いて、トレーニング視覚情報(s3)と、ノイズ情報(r)とに依存して第2のトップビュー(d2)を生成するステップと、
・第2の識別ユニット(D2)を用いて、第2のトップビュー(s2)が第2の生成ユニット(G2)によって生成されたかどうか、又は第2のトップビュー(s2)が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップと、
・第2のトップビュー(d2)を第2のトレーニングトップビュー(td2)と比較するステップと、
・トレーニングトップビュー(td2)との第2のトップビュー(d2)の比較に依存して、第2の生成ユニット(G2)及び/又は第2の識別ユニット(D2)を適合させるステップと
を含むことを特徴とする方法。
【請求項8】
方法が、以下のステップ:
・トレーニングトップビュー(td2)との第2のトップビュー(d2)の比較に依存して、第2の生成ユニット(G2)及び第2の識別ユニット(D2)を適合させるステップ
を含むことを特徴とする請求項7に記載の方法。
【請求項9】
請求項2、3又は4に記載の装置をトレーニングする方法であって、該方法が、以下のステップ:
・請求項5又は6に記載の方法を少なくとも1回実行することで装置をトレーニングするステップと、
・請求項7又は8に記載の方法を少なくとも1回実行することで装置をトレーニングするステップと
を含む方法。
【請求項10】
請求項7又は8に記載の方法を少なくとも1回実行することで装置をトレーニングするステップが、請求項5又は6に記載の方法を少なくとも1回実行することで装置をトレーニングするステップの後に初めてなされることを特徴とする請求項9に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法に関するものである。
【背景技術】
【0002】
原動機付き車両のトップビューは、例えば、サイドミラーの下側に設けられた1つ又は複数のカメラを用いて生成されることが可能である。このようなシステムは、例えばBMWTopViewの名称で市場において既に入手可能である。
【0003】
原動機付き車両のトップビューを生成する公知の方法における欠点は、例えば、トップビューの画像範囲がカメラの位置によって設定され、限定されていることである。そのほか、このために、適当なカメラが必須である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の課題は、上述の欠点を除去する原動機付き車両のトップビューを生成する装置及び当該装置をトレーニングする方法を提供することにある。
【課題を解決するための手段】
【0005】
当該課題は、独立請求項の特徴によって解決される。有利な実施形態は、従属請求項に記載されている。独立請求項に従属する請求項の追加的な特徴は、独立請求項の特徴なしに、又は独立請求項の特徴の一部との組合せにおいてのみでも、固有の、及び独立請求項の全ての特徴の組合せから独立した発明を形成することができ、当該発明は、独立請求項、分割出願又は後出願の対象に対して行われ得ることを指摘しておく。このことは、独立請求項の特徴のうち1つから独立した発明を形成し得る、明細書に記載された技術的な示唆についても同様に当てはまる。
【0006】
本発明の第1の態様は、少なくとも1つのカメラの少なくとも1つの画像に基づき、第1の視覚情報に依存する車両の第1のトップビューを生成する装置に関するものであり、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっている。
【0007】
第1の視覚情報は、特に、基準系に対する場合によっては仮想的なカメラあるいは視覚の光軸の方向を記述する情報である。例えば、第1の視覚情報は、車両長手方向及び車両横方向で描かれる平面に対して生成されるべきトップビューの光軸の方向を記述する情報である。
【0008】
トップビューは、その光軸が、車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している上からの視点である。
【0009】
したがって、第1の視覚情報は、例えば、その光軸が車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している視点を特徴付ける情報であり、光軸と平面の間で生じる角度は、80°と100°の間であり、例えば90°の場合である。
【0010】
光軸と平面の間で生じる角度が10°未満であれば、例えば当該角度が0°であれば、カメラの光軸は、特に、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行である。
【0011】
装置は、カメラの少なくとも1つの画像を受け取るように構成されている。
【0012】
そのほか、装置は、コーディングユニットを用いて、画像から視覚情報を抽出するように構成されている。第2の視覚情報は、特に、車両長手方向及び車両横方向で描かれる平面に対するカメラの光軸の向きを記述する情報である。
【0013】
そのほか、装置は、コーディングユニットを用いて、視覚に依存しない内容情報を画像から抽出し、第1の生成ユニットを用いて、第1の視覚情報及び視覚に依存しない内容情報に依存して第1のトップビューを生成するように構成されている。
【0014】
ここでの本発明の核心は、第1の視覚情報の遠近法的な視点に基づいて視覚に依存しない内容情報を示すことである。
【0015】
本発明の有利な一実施形態では、装置は、更に、第1の生成ユニットによって生成されるトップビューを受け取るように構成された第1の識別ユニットと、第3の視覚情報及びノイズ情報から第2のトップビューを生成するように構成された第2の生成ユニットと、第2の生成ユニットによって生成されるトップビューを受け取るように構成された第2の識別ユニットとを含んでいる。
【0016】
第1の識別ユニット及び第2の識別ユニットは、特に、それぞれ、第1のトップビューあるいは第2のトップビューが第1の生成ユニットあるいは第2の生成ユニットによって生成されたかどうか、又は第1のトップビューあるいは第2のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されている。
【0017】
光軸と平面の間で生じる角度が80~100°、例えば当該角度が90°であれば、当該カメラの光軸は、特に、車両長手方向及び車両横方向で描かれる平面に対して本質的に直交している。
【0018】
ここでの本発明の核心は、両識別ユニットが、人工的に生成されたカメラ画像から「真の」カメラ画像を区別するように構成されている構成されていることである。これにより、装置をトレーニングする後述の方法について、両生成ユニットにより得られるトップビューが高いクオリティを有するとともに、理想的な場合にはもはや真のカメラ画像とは区別可能でないという効果が得られる。
【0019】
有利な別の一実施形態では、第1の生成ユニット、第2の生成ユニット、第1の識別ユニット及び第2の識別ユニットは、それぞれニューラルネットワークを含んでいる。
【0020】
神経回路網(ニューラルネットワークともいう)は、ネットワークアーキテクチャにおいて層状に配置された個々の情報処理ユニット(ニューロン)の集まりである。人工知能に関連して、人工ニューラルネットワークと呼ばれる。
【0021】
人工ニューラルネットワークのニューロン(結節点ともいう)は、いわゆるレイヤにおいて層状に配置されているとともに、通常は、固定された階層(ヒエラルキー)において互いに接続されている。このとき、ニューロンは、少なくとも2つのレイヤ間で接続されており(Inter-Neuronlayer-Connection(ニューロン層間接続))、より希少な場合には、レイヤ内(Intra-Neuronlayer-Connection(同一層内接続))でも接続されている。
【0022】
情報は、入力層(Input Layer)を起点として、1つ又は複数の中間層(Hidden Layer)を介して出力層(Output Layer)まで流れる。このとき、1つのニューロンの出力は、次のものの入力である。
【0023】
入力層は、人工ニューラルネットワークにおける情報の流れの開始点である。
【0024】
通常、入力信号は、当該層の初期にニューロンから受け取られ、最後には、重み付けされて第1の中間層のニューロンへ引き渡される。このとき、入力層のニューロンは、各情報を第1の中間層のニューロンへ引き渡す。
【0025】
各人工ニューラルネットワークにおいて、入力層と出力層の間には少なくとも1つの中間層(活性化層又は英語のhidden layerである隠れ層ともいう)が存在する。中間層が多くなればなるほど、ニューラルネットワークは「より深く」なり、このような場合には、英語でDeep Learning(ディープラーニング)とも呼ばれる。
【0026】
論理的には、人工ニューラルネットワークにおけるあり得る隠れ層の数は無限である。しかし、実際には、それぞれ追加される隠れ層により、ネットワークの動作に必要な演算出力も増大する。
【0027】
出力層は、中間層の後方に位置するとともに、人工ニューラルネットワークにおける最後の層を形成する。出力層に配置されたニューロンは、それぞれ最後の中間層のニューロンと接続されている。出力層は、人工ニューラルネットワークにおける情報の流れの終点であるとともに、ネットワークによる情報処理の結果を得る。
【0028】
重みは、ニューラルネットワークにおける接続に沿った情報の流れの強度を表す。このために、各ニューロンは、通流する情報に対して重みを与えて当該情報を重み付けし、当該情報を、場合によってはニューロン特有のバイアス(Bias(バイアス))についての値を付加した後、次の層のニューロンへ引き渡す。通常、重み及びバイアスは、トレーニングの開始時に初期化される。重み及びバイアスの結果は、次の層のニューロンへ引き渡される前に、しばしばいわゆる活性化関数(例えばシグモイド又はtanh)によって導出される。
【0029】
重み及びバイアスは、結果ができる限り正確に要求に対応するように、トレーニングプロセス中に適合される。
【0030】
第1の生成ユニットのニューラルネットワーク及び第2の生成ユニットのニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有し、第1の識別ユニットのニューラルネットワーク及び第2の識別ユニットのニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有している。
【0031】
特に、第1の生成ユニットのニューラルネットワーク及び第2の生成ユニットのニューラルネットワークあるいは第1の識別ユニットのニューラルネットワーク及び第2の識別ユニットのニューラルネットワークは、それぞれ互いに対応するニューラルネットワークの箇所、すなわち例えば同一の構造を有し、及び/又はそのノードが意味的に互いに対応する箇所において、少なくとも部分的に同一のエッジ重みを有している。
【0032】
そして、エッジ重みの少なくとも90%が同一であるか、又は特にエッジ重みの好ましくは100%が同一であれば、ニューラルネットワークのエッジ重みは、特に少なくとも部分的に同一である。
【0033】
本発明の第2の態様は、請求項2、3又は4に記載の装置をトレーニングする方法に関するものである。
【0034】
方法の1つのステップは、トレーニング画像及び第1のトレーニングトップビューから成るトレーニングデータペアを提供することである。このとき、トレーニングデータペアは、トレーニング画像からの関連する視覚情報を考慮して第1のトレーニングトップビューを生成するように選択されている。
【0035】
方法の別の1つのステップは、コーディングユニットを用いてトレーニング画像から第2の視覚情報を抽出すること、及びコーディングユニットを用いて、視覚に依存しない内容情報をトレーニング画像から抽出することである。
【0036】
方法の別の1つのステップは、第1の生成ユニットを用いて、第1の視覚情報と、視覚に依存しない内容情報とに依存して第1のトップビューを生成することである。
【0037】
方法の別の1つのステップは、第1の識別ユニットを用いて、第1のトップビューが第1の生成ユニットによって生成されたかどうか、又は第1のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定することである。
【0038】
方法の別の1つのステップは、第1のトップビューを第1のトレーニングトップビューと比較すること、及び第1のトレーニングトップビューとの第1のトップビューの比較に依存して、コーディングユニット及び/又は第1の生成ユニット及び/又は第1の識別ユニットを適合させることである。
【0039】
特に、コーディングユニット及び第1の識別ユニットは、第1のトップニューを、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラの画像として第1の識別ユニットが分類する確率が上がるように適合される。
【0040】
これに代えて、又はこれに加えて、識別ユニットは、第1のトップビューを、第1の生成ユニットによって生成される画像として第1の識別ユニットが認識する確率が上がるように適合される。
【0041】
ここでの本発明の核心は、一方では第1の識別ユニットが、他方では第1の生成ユニット及びコーディングユニットが、競合的な目的の達成に関して同時にトレーニングされることである。これにより、第1の生成ユニットによって生成される第1のトップビューのクオリティが向上し、当該トップビューを実際のカメラ画像と区別することがますます困難となる。
【0042】
有利な一実施形態では、方法は、第1のトレーニングトップビューとの第1のトップビューの比較に依存して、コーディングユニット、第1の生成ユニット及び第1の識別ユニットのうち少なくとも2つを適合させるステップを含む。
【0043】
コーディングユニット、第1の生成ユニット及び/又は第1の識別ユニットの適合は、これらユニットがそれぞれニューラルネットワークを含む場合には、ニューラルネットワークのエッジ重みの適合を意味する。
【0044】
エッジ重みの適合により、ニューラルネットワークが「学習する」。
【0045】
学習は、例えば以下のように機能する:ネットワーク構造が構成された後、各ニューロンがランダムな初期重みを得る。そして、入力データがネットワークへ与えられ、各ニューロンは、その重みで入力信号を重み付けし、結果を次の層(レイヤ)のニューロンへ引き渡す。そして、出力層(出力レイヤ)では全体結果が演算され、当該全体結果は、通常、既知の実際の結果とはあまり関係がない。なぜなら、ニューロンはランダムな初期重みを有しているためである。しかし、誤差の大きさと、各ニューロンが当該誤差において有する割合とを演算することができ、そして、誤差を最小化する方向へ各ニューロンの重みをわずかに変更することが可能である。そして、次の進行(実行)、誤差の新たな測定、重みの適合などが行われる。したがって、ニューラルネットワークは、入力データから既知の出力データを推定するためにますます良好に「学習する」。
【0046】
詳細には、入力データは、ニューラルネットワークの1つの側において導入される。このとき、各入力信号は、第1の層(レイヤ)のそれぞれ個別のニューロンへ分配される。そして、各ニューロンは、入ってくる信号を(最初にランダムに与えられる)入力特有の重みで重み付けし、いわゆるニューロン特有のバイアス項を付加し、このように重み付けされた全ての入力データを当該1つのニューロンの出力へ合計する。
【0047】
このとき、しばしば、例えば出力の所定の数値範囲を強制するために、出力は、非線形の活性化関数によって更に導出される。そして、各ニューロンの出力は、入力として後続の層の全てのニューロンへ引き渡される。当該プロセスは、全ての演算の結果を提供する出力層に到達するまで継続される。
【0048】
これまで、人工ニューラルネットワークは全く学習していない。ニューラルネットワークの初期化時に全ての重みが所定の値範囲内でランダムに選択されるため、結果は、純粋にランダムな値となる。現時点で多く用いられる態様をネットワークに学習させることは、いわゆる教師あり学習であり、これにより、例に基づく学習が意図されている。
【0049】
この場合、1つの例は、真の入力-出力データペアの組合せを意味する。当該例は、全ての重み及びバイアス項を最適に設定するために、人工ニューラルネットワークのトレーニングにおいて用いられ、その結果、ネットワークは、全ての入力データ及びこれまでまだ見ない新たな入力データの最後に正しい結果を演算することが可能である。
【0050】
このとき、まだトレーニングされていないニューラルネットワークは、入力データ(Features(フィーチャー)とも呼ばれる)のセットについてそれぞれ1つの結果を演算する。そして、当該結果は、例データセット(Targets(ターゲット)又はLabel(ラベル)とも呼ばれる)の既知の結果と比較され、偏差あるいは誤差の大きさが演算される。正の偏差も、また負の偏差も同時に描写することができるように、例えば、二乗誤差の平均値又は他の誤差関数が用いられる。
【0051】
そして、実際の「学習」が開始される。測定される誤差は、人工ニューラルネットワークへ戻すように後方へ導かれ、各重み及び各バイアス項は、誤差を小さくする方向へ幾分適合される。当該適合の大きさは、第1に、結果における所定のニューロン重みを有する割合を介して演算され、第2に、ニューラルネットワークの最も重要な設定量に属するいわゆる学習係数(学習率)を介して演算される。
【0052】
一般的な学習係数は、例えば0.001又は0.01であり、すなわち、演算される誤差の1/100~1/1000のみが実行ごとに補正される。実行ごとの適合が大きすぎる場合には、誤差曲線の最小値が誤りとなり、偏差が小さくなる代わりにますます大きくなることとなり得る。したがって、誤差関数の最小値をより良好に特定するために、学習係数は、トレーニング中にますます低減されることがある。
【0053】
他のあり得る問題は、局所的な最小値を有する誤差関数であり、当該誤差関数では、ニューラルネットワークが「吊られた」ままであり、したがって実際の最小値がない。補正の方向は、各関数の微分によって得られ、その負の値は、誤差関数を最小化する方向を与える。選択された誤差関数の最小化は、トレーニングあるいは学習の目的である。
【0054】
全ての重みが適合された後、全ての入力データの更なる進行(実行)及び誤差の新たな測定並びに重みの新たな適合への当該誤差のバックプロパゲーションがなされる。このとき、全ての入力データの完全な実行は、それぞれエポックと呼ばれる。トレーニングエポックの数も、同様にニューラルネットワークのトレーニングについての重要なハイパーパラメータである。ここで、入力データは、データセットの大きさに応じて、同一の大きさのグループに分割することもでき、トレーニングは、それぞれバッチごとに実行されることが可能である。
【0055】
このことは、例えば、人工ニューラルネットワークがより迅速に学習するのに、又は実行されるコンピュータの演算容量の限度を考慮するのに有意義であり得る。バッチへの分割において重要なことは、データセット全体と比較した各バッチ内の値の正規分布である。全てのバッチがニューラルネットワークを一度実行した場合、1つのエポックが完全に終了する。
【0056】
人工ニューラルネットワークがトレーニングのために得る例が多ければ多いほど、及びこれらが頻繁に見られれば見られるほど、結果における誤差はより小さくなる。このとき、100%の線への誤差曲線の接近及び寄り掛かりは、収束とよばれ、場合によってはトレーニングを停止し、ハイパーパラメータへの適合を行うことができるように、トレーニング中には誤差曲線の推移が監視される。しかし、小さな誤差は、ニューラルネットワークの良好な一般的なパフォーマンスを必ずしも意味するものではない。
【0057】
なぜなら、トレーニング中には全ての既知のデータが非常に頻繁に見られる場合には、人工ニューラルネットワークは、抽象的な概念を学習する代わりに、むしろ当該データを暗記することとなり得るためである。この問題は、オーバーフィッティング(過学習)とも呼ばれる。ニューラルネットワークは非常に複雑な関数を描写することができるため、既知の各データ点に対して完全な関数が見出されても、新たなデータに対して当該関数が良好に機能しないというおそれがある。
【0058】
ニューラルネットワークが既知の例データから抽出され、これまで学習されていない入力データに対して正しい結果が提供され得ることを保証するために、例データは、トレーニング前に、トレーニングデータ、テストデータ及びブラインドテストデータへ例えば70/20/10の比率で分割される。
【0059】
そして、トレーニング中には、トレーニングデータのみが用いられ、それぞれトレーニングデータについても、またテストデータについても、誤り率(Error Rate(エラーレート))が測定される。しかし、テストデータの測定された誤差は、人工ニューラルネットワークへ戻されない。そして、ニューラルネットワークは、全ての変数の適合によって、トレーニングデータ及びテストデータに関して最大のパフォーマンスが得られるように改善される。ニューラルネットワークの当該「調律」は、人工知能についての技術者の中心的な活動に属するものである。
【0060】
ネットワークが完全にトレーニングされていると思われる場合に初めて、ブラインドテストデータが使用される。人工ニューラルネットワークがブラインドテストデータにおいても良好に成果を収める場合には、抽象的な概念が良好に学習された確率が高い。
【0061】
上述の教師あり学習には、適当に大きな量の例データが必要である。大きな量は、ここでは、例えば100万例を意味する。人工ニューラルネットワークは、部分的により小さなデータセットで既に著しい結果を達成することができるものの、多くのデータが提供されればされるほど、より改善される。画像の分類については、例えば等級ごとに約1000例の画像以上で有用な結果が得られる。人工知能の全体的な研究の方向性は、いわゆるワンショット学習、すなわち非常にわずかな例、又は1つの例のみに基づく学習のための方法に取り組むものである。
【0062】
教師あり学習(監視学習)事態は、人工ニューラルネットワーク内でのデータ使用及びデータ引渡しの様々な手法へ更に分割されることが可能である:いわゆる回帰型ニューラルネットワークでは、例えば以前の入力データの結果が現在の出力の演算に導入され、その結果、例えば時系列及びテキストを、例えば、言語認識及びテキストの翻訳に用いられる長・短期記憶(LSTM)ネットワーク及びシーケンス-シーケンスネットワークにおいても解析及び処理することができる。画像処理にはいわゆる畳み込みニューラルネットワーク(CNN)が用いられ、当該畳み込みニューラルネットワークは、画像をグリッドで走査し、各層におけるより深い(下位の)レベル(点、ラインなど)からより高い概念(顔、家など)へ抽象化する。
【0063】
本発明の第3の態様は、請求項2、3又は4に記載の装置をトレーニングする方法である。
【0064】
方法の1つのステップは、トレーニング視覚情報及び第2のトレーニングトップビューから成るトレーニングデータペアを提供することである。
【0065】
方法の別の1つのステップは、第2の生成ユニットを用いて、トレーニング視覚情報と、ノイズ情報とに依存して第2のトップビューを生成することである。
【0066】
本発明の第3の態様によるトレーニング方法は、本発明の第2の態様によるトレーニング方法に比べて、トレーニングデータへの生成ユニット及び識別ユニットのいわゆる過適合が回避されるという利点を有している。なぜなら、この場合、生成ユニット及び識別ユニットが、ランダムに生成されことから不意である入力情報と調和する必要があるためである。
【0067】
方法の別の1つのステップは、第2の識別ユニットを用いて、第2のトップビューが第2の生成ユニットによって生成されたかどうか、又は第2のトップビューが、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定することである。
【0068】
方法の別の1つのステップは、第2のトップビューを第2のトレーニングトップビューと比較すること、及びトレーニングトップビューとの第2のトップビューの比較に依存して、第2の生成ユニット及び/又は第2の識別ユニットを適合させることである。
【0069】
特に、第2の識別ユニットは、第2のトップニューを、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラの画像として第2の識別ユニットが分類する確率が上がるように適合される。
【0070】
これに代えて、又はこれに加えて、第2の識別ユニットは、第2のトップビューを、第2の生成ユニットによって生成される画像として第2の識別ユニットが認識する確率が上がるように適合される。
【0071】
特に、方法は、トレーニングトップビューとの第2のトップビューの比較に依存して、第2の生成ユニット及び第2の識別ユニットを適合させるステップを含む。
【0072】
第2の生成ユニット及び/又は第2の識別ユニットの適合は、これらユニットがそれぞれニューラルネットワークを含む場合には、ニューラルネットワークのエッジ重みの適合を意味する。
【0073】
本発明の第4の態様は、請求項2、3又は4に記載の装置をトレーニングする方法に関するものである。
【0074】
方法の1つのステップは、本発明の第2の態様による方法を少なくとも1回実行することで装置をトレーニングすることを含む。
【0075】
方法の別の1つのステップは、本発明の第3の態様による方法を少なくとも1回実行することで装置をトレーニングすることを含む。
【0076】
このとき、特に、本発明の第3の態様による方法を少なくとも1回実行することで装置をトレーニングするステップは、本発明の第2の態様による方法を少なくとも1回実行することで装置をトレーニングするステップの後に初めて実行される。
【0077】
以下に、本発明を、添付の図面を参照しつつ実施例に基づいて説明する。
【図面の簡単な説明】
【0078】
図1】本発明による装置の一実施例を示す図である。
図2】複数のカメラを有する原動機付き車両の一実施例を示す図である。
図3】ニューラルネットワークの一実施例を示す図である。
【発明を実施するための形態】
【0079】
図1には、少なくとも1つのカメラk1,k2,k3,k4の少なくとも1つの画像bに基づき、第1の視覚情報s1に依存する車両の第1のトップビューd1を生成する装置が示されており、カメラの光軸は、車両長手方向及び車両横方向で描かれる平面に対して本質的に平行となっている。
【0080】
このとき、装置は、カメラk1,k2,k3,k4から少なくとも1つの画像bを受け取り、コーディングユニットEを用いて第2の視覚情報s2を画像bから抽出し、コーディングユニットEを用いて、視覚に依存しない内容情報zを画像bから抽出するように構成されている。
【0081】
そのほか、装置は、第1の生成ユニットG1を用いて、第1の視覚情報s1と、視覚に依存しない内容情報zとに依存して第1のトップビューd1を生成するように構成されている。
【0082】
そのほか、装置は、第1の生成ユニットG1によって生成されるトップビューd1を受け取るように構成された第1の識別ユニットD1と、第3の視覚情報s3及びノイズ情報rから第2のトップビューd2を生成するように構成された第2の生成ユニットG2と、第2の生成ユニットG2によって生成されるトップビューd2を受け取るように構成された第2の識別ユニットD2とを含んでいる。
【0083】
第1の識別ユニットD1及び第2の識別ユニットD2は、それぞれ、第1のトップビューd1あるいは第2のトップビューd2が第1の生成ユニットG1あるいは第2の生成ユニットG2によって生成されたかどうか、又は第1のトップビューd1あるいは第2のトップビューd2が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するように構成されている。
【0084】
第1の生成ユニットG1、第2の生成ユニットG2、第1の識別ユニットD1及び第2の識別ユニットD2は、それぞれ神経回路網(ニューラルネットワーク)を含んでいる。
【0085】
第1の生成ユニットG1のニューラルネットワーク及び第2の生成ユニットG2のニューラルネットワークは、それぞれ少なくとも部分的に同一のエッジ重みを有し、第1の識別ユニットD1のニューラルネットワーク及び第2の識別ユニットD2のニューラルネットワークは、それぞれ同様に少なくとも部分的に同一のエッジ重みを有している。
【0086】
当該装置は、本発明の第2の態様、第3の態様及び第4の態様による方法によってトレーニングされ得る。
【0087】
本発明の第2の態様による方法は、特に以下のステップを含んでいる:
・トレーニング画像b及び第1のトレーニングトップビューtd1から成るトレーニングデータペアを提供するステップ、
・コーディングユニットEを用いてトレーニング画像bから第2の視覚情報s2を抽出するステップ、
・コーディングユニットEを用いて、視覚に依存しない内容情報zをトレーニング画像bから抽出するステップ、
第1の生成ユニットG1を用いて、第1の視覚情報s1と、視覚に依存しない内容情報zとに依存して第1のトップビューd1を生成するステップ、
第1の識別ユニットD1を用いて、第1のトップビューs1が第1の生成ユニットG1によって生成されたかどうか、又は第1のトップビューs1が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップ、
・第1のトップビューs1を第1のトレーニングトップビューtd1と比較するステップ、
・第1のトレーニングトップビューtd1との第1のトップビューd1の比較に依存して、コーディングユニットE、第1の生成ユニットG1及び第1の識別ユニットD1を適合させるステップ。
【0088】
本発明の第2の態様による方法は、特に以下のステップを含んでいる:
・トレーニング視覚情報s3及び第2のトレーニングトップビューtd2から成るトレーニングデータペアを提供するステップ、
・第2の生成ユニットG2を用いて、トレーニング視覚情報s3と、ノイズ情報rとに依存して第2のトップビューd2を生成するステップ、
・第2の識別ユニットD2を用いて、第2のトップビューs2が第2の生成ユニットG2によって生成されたかどうか、又は第2のトップビューs2が、車両長手方向及び車両横方向で描かれる平面に対してその光軸が本質的に垂直なカメラによって生成されたかどうかを決定するステップ、
・第2のトップビューd2を第2のトレーニングトップビューtd2と比較するステップ、
・トレーニングトップビューtd2との第2のトップビューd2の比較に依存して、第2の生成ユニットG2及び第2の識別ユニットD2を適合させるステップ。
【0089】
本発明の第4の態様による装置をトレーニングする方法は、有利には、本発明の第2の態様及び本発明の第3の態様による両トレーニング方法を関連付けるものである。
【0090】
当該効果は、特に、第1の生成ユニットG1及び第2の生成ユニットG2並びに第1の識別ユニットD1及び第2の識別ユニットD2が、共通のエッジ重みを共有することにより互いに接続されることで得られる。
【0091】
このとき、好ましい一実施形態では、本発明の第3の態様によるトレーニング方法が後の時点で強化して実行される前に、まず、本発明の第2の態様によるトレーニング方法が強化して実行される。
【0092】
図2には複数のカメラk1,k2,k3,k4を有する原動機付き車両の一実施例が示されており、当該カメラは、それぞれ、その光軸が車両長手方向及び車両横方向で描かれる平面に対して本質的に平行であるように原動機付き車両に配置されている。
【0093】
図3にはニューラルネットワークの一実施例が示されており、当該ニューラルネットワークは、ニューロンA1~A4、B1~B5、C1~C5、D1~D3の4つの層A,B,C,Dで構成されている。
【0094】
ニューロンは、部分的にエッジで互いに結合されている。上述したように、これら各エッジには、図3では不図示のエッジ重みが割り当てられている。
図1
図2
図3
【国際調査報告】