IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2023-165669ラベル付けされた訓練データに対する要求が緩和されているニューラルネットワークの訓練
<>
  • 特開-ラベル付けされた訓練データに対する要求が緩和されているニューラルネットワークの訓練 図1
  • 特開-ラベル付けされた訓練データに対する要求が緩和されているニューラルネットワークの訓練 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023165669
(43)【公開日】2023-11-16
(54)【発明の名称】ラベル付けされた訓練データに対する要求が緩和されているニューラルネットワークの訓練
(51)【国際特許分類】
   G06N 3/0455 20230101AFI20231109BHJP
【FI】
G06N3/0455
【審査請求】未請求
【請求項の数】19
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023076288
(22)【出願日】2023-05-02
(31)【優先権主張番号】22172172
(32)【優先日】2022-05-06
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ピヤパット サランリッチチャイ
(72)【発明者】
【氏名】アンドレス マウリシオ ムニョス デルガド
(72)【発明者】
【氏名】チャイタンヤ クマール ムンマディ
(72)【発明者】
【氏名】クラウディア ブライオッタ
(72)【発明者】
【氏名】フォルカー フィッシャー
(57)【要約】      (修正有)
【課題】測定データの入力レコードxから所与のタスクに関するタスク出力yを決定するためのニューラルネットワーク及びそれを訓練する方法を提供する。
【解決手段】ニューラルネットワーク1は、入力レコードxを表現Zにマッピングするエンコーダネットワーク2と、入力レコードxの表現成分z,・・・,zをタスク出力yにマッピングする1つ又は複数のタスクヘッドネットワーク3、4と、入力レコードxのうちの、それぞれのタスクヘッドネットワークのタスクにとって関連性のある表現成分z,・・・,zの線形結合z,zを、それぞれのタスクヘッドネットワークに提供する関連付けネットワーク5と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
測定データの入力レコードxから所与のタスクに関するタスク出力yを決定するためにニューラルネットワーク(1)を訓練するための方法(100)であって、
前記ニューラルネットワーク(1)は、
・前記入力レコードxを表現Zにマッピングするように構成されたエンコーダネットワーク(2)であって、当該表現Zは、複数の独立した成分z,・・・,zを含む、エンコーダネットワーク(2)と、
・前記入力レコードxの表現成分z,・・・,zを前記タスク出力yにマッピングするように構成された1つ又は複数のタスクヘッドネットワーク(3,4)と、
・前記入力レコードxのうちの、それぞれのタスクヘッドネットワーク(3,4)のタスクにとって関連性のある表現成分z,・・・,zの線形結合z,zを、それぞれのタスクヘッドネットワーク(3,4)に提供するように構成された関連付けネットワーク(5)と、
を含み、前記方法は、
・前記測定データの、ラベル付けされていないエンコーダ訓練レコード(10)、及び/又は、ラベル付けされたエンコーダ訓練レコード(10)を提供するステップ(110)と、
・エンコーダ訓練レコード(10)を表現Zにマッピングするように、以下の目標に向けて前記エンコーダネットワーク(2)を訓練するステップ(120)であって、当該目標は、
○ラベル付けされていないエンコーダ訓練レコード(10)から前記表現Zが導出される場合には、前記表現Zが、及び/又は、前記表現Zから導出される1つ又は複数の作業成果物が、グラウンドトゥルースに依拠しない自己無矛盾条件を満たすこと、並びに、
○ラベル付けされたエンコーダ訓練レコード(10)から前記表現Zが導出される場合には、前記表現Zが、及び/又は、前記表現Zから導出される1つ又は複数の作業成果物が、当該エンコーダ訓練レコード(10)にラベル付けされたグラウンドトゥルースに相当すること
である、ステップ(120)と、
・グラウンドトゥルースy*がラベル付けされたタスク訓練レコード(12)を提供するステップ(130)と、
・前記関連付けネットワーク(5)と、前記1つ又は複数のタスクヘッドネットワーク(3,4)とを、以下の目標に向けて訓練するステップ(140)であって、当該目標は、タスク訓練レコード(12)が、前記エンコーダネットワーク(2)を使用して表現Zにマッピングされる場合であって、かつ、前記表現Zが、前記関連付けネットワーク(5)と前記タスクヘッドネットワーク(3,4)との組合せによってタスク出力yにマッピングされる場合に、そのようにして取得された前記タスク出力yが、タスク損失関数(13)によって測定されたときに前記訓練レコード(12)にラベル付けされた前記グラウンドトゥルースy*に相当することである、ステップ(140)と、
を含む、方法(100)。
【請求項2】
前記自己無矛盾条件は、前記表現Zから取得された前記エンコーダ訓練レコードをデコーダネットワークによって再構成したものが、元の前記エンコーダ訓練レコード(10)に相当することを含む(121)、
請求項1に記載の方法。
【請求項3】
前記ニューラルネットワーク(1)は、タスク出力yとして、測定データの前記入力レコードxの分類を決定するように構成されている、
請求項1又は2に記載の方法。
【請求項4】
前記ニューラルネットワーク(1)は、測定データの入力レコードxとして画像を処理するように構成されている、
請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
・前記タスク出力yは、1つ又は複数のオブジェクト値oと1つ又は複数の属性値aとの組合せであり、
・前記グラウンドトゥルースy*は、前記1つ又は複数のオブジェクト値oのためのグラウンドトゥルースo*と、前記1つ又は複数の属性値aのためのグラウンドトゥルースa*とを含み、
・オブジェクトタスクヘッドネットワーク(3)は、前記入力レコードxの表現成分z,・・・,zを前記1つ又は複数のオブジェクト値oにマッピングするように構成されており、
・属性タスクヘッドネットワーク(4)は、前記入力レコードxの表現成分z,・・・,zを前記1つ又は複数の属性値aにマッピングするように構成されている、
請求項3及び4に記載の方法。
【請求項6】
前記属性値aは、前記オブジェクトの色又はテクスチャである、
請求項5に記載の方法。
【請求項7】
前記タスク訓練レコード(12)は、道路交通状況の画像を含む、
請求項4乃至6のいずれか一項に記載の方法。
【請求項8】
前記方法は、
・前記表現Zのそれぞれの成分z,・・・,zごとに、因子ヘッドネットワーク(6~9)を提供すること(122)であって、前記因子ヘッドネットワーク(6~9)は、前記それぞれの成分z,・・・,zを前記入力レコードxの所定の基本因子f,・・・,fにマッピングするように構成されている、こと(122)と、
・因子訓練レコードを提供すること(123)であって、前記因子訓練レコードには、エンコーダ訓練レコード(10)として前記成分z,・・・,zによって表現される前記基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*がラベル付けされている、こと(123)と、
・前記エンコーダネットワーク(2)及び前記因子ヘッドネットワーク(6~9)により、前記因子訓練レコード(10)を前記基本因子f,・・・,fの値y,・・・,yにマッピングすること(124)と、
・そのようにして決定された前記基本因子f,・・・,fの前記値y,・・・,yと、前記グラウンドトゥルース値y*,・・・,y*との偏差を、エンコーダ損失関数(11)によって評価すること(125)と、
・さらなる因子訓練レコード(10)が処理される際に、前記エンコーダ損失関数(11)による前記評価(11a)が改善される可能性を高くするという目標に向けて、前記エンコーダネットワーク(2)の挙動を特徴付けるパラメータ(2a)と、前記因子ヘッドネットワーク(6~9)の挙動を特徴付けるパラメータ(6a~9a)とを最適化すること(126)と、
をさらに含む、請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
前記表現Zの前記成分z,・・・,zに対応する前記基本因子f,・・・,fは、前記画像xが取得されたときの
・時刻、
・照明条件、
・季節、及び、
・気象条件
のうちの1つ又は複数を含む、
請求項7及び8に記載の方法。
【請求項10】
前記表現Zの前記成分z,・・・,zに対応する前記基本因子f,・・・,fは、
・前記画像x内の少なくとも1つのオブジェクトの形状、
・前記画像x内の少なくとも1つのオブジェクトの色、及び/又は、前記画像xの領域の色、
・前記画像xが取得されたときの照明条件、並びに、
・前記画像x内の少なくとも1つのオブジェクトのテクスチャパターン
のうちの1つ又は複数を含む、
請求項4及び追加的に請求項8乃至9のいずれか一項に記載の方法。
【請求項11】
前記因子訓練レコード(10)を提供すること(122)は、
・少なくとも1つの基本因子f,・・・,fに影響を与える処理を、少なくとも1つの所与の開始レコードに対して適用することにより、因子訓練レコード(10)を生成すること(122a)と、
・適用された前記処理に基づいて、前記基本因子f,・・・,fに関する前記グラウンドトゥルース値y*,・・・,y*を決定すること(122b)と、
を含む、請求項8乃至10のいずれか一項に記載の方法(100)。
【請求項12】
それぞれの因子訓練レコード(10)において、それぞれの基本因子f,・・・,fは、特定の値を取り、
前記因子訓練レコード(10)の集合は、前記基本因子f,・・・,fの値のそれぞれの組合せごとに少なくとも1つの因子訓練レコード(10)を含む、
請求項8乃至11のいずれか一項に記載の方法(100)。
【請求項13】
・前記エンコーダ損失関数(11)と前記タスク損失関数(13)との重み付き和として1つの組み合わせられた損失関数(14)が形成され、
・当該組み合わせられた損失関数(14)の値を改善することを目標として、全てのネットワーク(2,3,4,5,6,7,8,9)の挙動を特徴付ける前記パラメータ(2a,3a,4a,5a,6a,8a,9a)が最適化される、
請求項8乃至12のいずれか一項に記載の方法(100)。
【請求項14】
一方では1つのエンコーダネットワーク(2)の組合せと、他方では関連付けネットワーク(5)及びタスクヘッドネットワーク(3,4)の複数の異なる組合せとが、エンコーダ訓練レコード(10)を用いた前記エンコーダネットワーク(2)の1回の同一の訓練に基づいて訓練される、
請求項1乃至13のいずれか一項に記載の方法(100)。
【請求項15】
前記タスク損失関数(13)は、エントロピー損失項を含み(141)、
前記関連付けネットワーク(5)がそれぞれのタスクヘッドネットワーク(3,4)に提供する前記表現成分z,・・・,zの数が少なければ少ないほど、当該エントロピー損失項の値がより良好になる、
請求項1乃至14のいずれか一項に記載の方法(100)。
【請求項16】
前記タスク損失関数(13)は、抑制損失項を含み(142)、
前記関連付けネットワーク(5)によってそれぞれの表現成分z,・・・,zが提供される前記タスクネットワーク(3,4)の数が少なければ少ないほど、当該抑制損失項の値がより良好になる、
請求項1乃至15のいずれか一項に記載の方法(100)。
【請求項17】
1つ又は複数のコンピュータによって実行された場合に、請求項1乃至16のいずれか一項に記載の方法(100)を前記1つ又は複数のコンピュータに実施させるための機械可読命令を含むコンピュータプログラム。
【請求項18】
請求項17に記載のコンピュータプログラムを有する非一時的な記憶媒体及び/又はダウンロード製品。
【請求項19】
請求項17に記載のコンピュータプログラムを有する、及び/又は、請求項18に記載の非一時的な記憶媒体及び/又はダウンロード製品を有する1つ又は複数のコンピュータ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、少なくとも部分的に自動化された運転を目的として交通状況の画像を分析するなどの、所与のタスクを実行するためのニューラルネットワークの訓練に関する。
【背景技術】
【0002】
背景
車両の環境の観察は、人間の運転者が交通を通って車両を操舵する際に使用する主な情報源である。その結果、少なくとも部分的に自動化された運転のためのシステムも、車両の環境の画像の分析に依拠している。この分析は、取得された画像内のオブジェクト-属性のペアを検出する画像分類器を使用して実施される。例えば、オブジェクトは、(交通標識、車両、車線のような)特定の種類のものであってよく、(色のような)特定のプロパティ又はオブジェクトの状態を指し示す属性を、オブジェクトに与えることもできる。そのような画像分類器は、訓練画像を用いて訓練され、これらの訓練画像には、これらの訓練画像のオブジェクト内容に関するグラウンドトゥルースがラベル付けされている。
【0003】
画像分類器の信頼性できる動作のために、多種多様な状況において取得された大規模な画像集合を用いて訓練することが必要であり、これによって画像分類器は、初見の状況に対する最適な汎化を行うことが可能となる。このタスク又は他のタスクのためにニューラルネットワークを訓練する際には、訓練データにラベル付けすることが、総コストにとっての主な要因となっている。
【発明の概要】
【課題を解決するための手段】
【0004】
発明の開示
本発明は、測定データの入力レコードxから所与のタスクに関するタスク出力yを決定するためにニューラルネットワークを訓練するための方法を提供する。
【0005】
そのような所与のタスクの一例は、測定データの入力レコードxの分類をタスク出力yとして決定することである。例えば、タスク出力yは、所与のクラスの集合に関する1つ又は複数の分類スコアを含み得る。
【0006】
入力レコードxにおける測定データは、任意の種類のものであってよい。主な例は、測定データとしての画像である。静止画カメラ又はビデオカメラ、サーマルカメラを用いて画像を取得することも可能であるが、任意の他の適当なイメージングモダリティを用いて画像を取得することも可能である。レーダデータ又はライダデータは、しばしば点群の形態で供給される。しかしながら、測定データは、例えば測定装置によって供給される時系列データも含み得る。
【0007】
ニューラルネットワークは、入力レコードxを表現Zにマッピングするように構成されたエンコーダネットワークを含み、当該表現Zは、複数の独立した成分z,・・・,zを含む。例えば、このエンコーダネットワークは、1つ又は複数の畳み込み層を含み得るものであり、この1つ又は複数の畳み込み層は、(画像のような)入力レコードxにフィルタカーネルを適用して、1つ又は複数の特徴マップを生成する。
【0008】
ニューラルネットワークは、入力レコードxの表現成分z,・・・,zをタスク出力yにマッピングするように構成された1つ又は複数のタスクヘッドネットワークをさらに含む。例えば、複数のタスクヘッドネットワークの各々を、いくつかの部分が最終的なタスク出力yに寄与するように特殊化することができる。
【0009】
これらのタスクヘッドネットワークは、全ての表現成分z,・・・,zを有する完全な表現Zを、入力として獲得しているわけではない。むしろ、ニューラルネットワークは、入力レコードxのうちの、それぞれのタスクヘッドネットワークのタスクにとって関連性のある表現成分z,・・・,zの線形結合z,zを、それぞれのタスクヘッドネットワークに提供するように構成された関連付けネットワークを含む。特に、関連付けネットワークは、訓練可能なネットワークであるものとしてよく、したがって、線形結合z,zを提供するように「構成されている」ということは、関連付けネットワークが、このタスクのために訓練されている最中の及び/又は訓練済みの訓練可能なネットワークである、ということを含み得る。
【0010】
それぞれのタスクヘッドネットワークへのアクセスを、入力レコードxのうちの特定の表現成分z,・・・,zに限定することにより、ニューラルネットワークが訓練中に望ましくない関連付けを学習する傾向が低減される。
【0011】
例えば、訓練レコードxが、その特徴的な赤色を有する消防車が含まれている画像を含む場合には、画像分類器として構成されたニューラルネットワークは、「消防車」というオブジェクトの種類を、消防車の形状だけでなく「赤色」という色にも関連付ける可能性がある。特に、画像分類器は、画像に赤色が多く含まれていることを判定することの方が、車両の複数の異なる形状を区別することよりも容易であるので、画像分類器は、形状よりも色の方に依拠する可能性がある。このような「ショートカット学習」は、訓練画像の分布に存在していない画像を汎化することに失敗する可能性がある。例えば、いくつかの空港用消防車は、黄色である。黄色自体は、多くのスクールバスが有する色であり、両方ともかなり大きいシルエットを有する車両であるので、「ショートカット学習」に陥った画像分類器は、黄色の消防車をスクールバスとして誤分類するおそれがある。
【0012】
こうした挙動を阻止することが、関連付けネットワークの仕事である。車両の種類を特定するために、車両の色よりも形状の方がより重要であって識別力があるということが事前に判明している場合には、関連付けネットワークは、入力画像xのうちの、オブジェクトの形状に関連する表現成分z,・・・,zをタスクヘッドネットワークに伝達することができ、その一方で、オブジェクトの色を、このタスクヘッドネットワークから隠したままにすることができる。その場合、訓練中、タスクヘッド分類ネットワークは、自身が獲得した情報のみを用いて動作することができ、どのようにして車両の種類を形状によって区別するかを学習することの他に選択肢を有さなくなる。
【0013】
これによって今度は、画像プロパティのより少数の組合せを用いて画像分類器を訓練することが可能となり、これによって今度は、必要とされる訓練画像の量がより少なくなる。全ての消防車が赤色ではないことを画像分類器に教示するために、種々異なる色の消防車が含まれている訓練画像は必要ない。この「ショートカット学習」と矛盾しているより多数の訓練画像を供給するだけで「ショートカット学習」を克服するということは、困難である可能性がある。消防車の例においては、消防車の大半は赤色であり、他の色の消防車を示す画像を意図的に調達するためには余分な労力が必要とされる。この労力を、本発明においては、節約することが可能である。
【0014】
この効果は、表現Zが、入力画像xのそれぞれ異なる側面に関連する複数の成分z,・・・,zへと因子分解される場合に最も顕著であり、これにより、関連付けネットワークは、どの特定のタスクのためにどの情報を分類ヘッドネットワークに転送すべきかをきめ細かく選択することができる。したがって、特に有利な実施形態においては、エンコーダネットワークは、入力画像xの1つの所定の一般的な基本因子に関する情報をそれぞれ含む複数の成分z,・・・,zを有する1つの表現Zを生成するように訓練される。そのような一般的な基本因子は、いくつかのタスクに適合し得る。そのような基本因子の例は、
・画像x内の少なくとも1つのオブジェクトの形状、
・画像x内の少なくとも1つのオブジェクトの色、及び/又は、画像xの領域の色、
・画像xが取得されたときの照明条件、並びに、
・画像x内の少なくとも1つのオブジェクトのテクスチャパターン
を含む。
【0015】
他の種類のデータの場合には、成分z,・・・,zは、他の異なる基本因子に対応し得る。例えば、一般的な時系列測定データの基本因子は、勾配、最大値若しくは最小値の存在、平滑性、又は、統計的プロパティを含み得る。他の例においては、測定データがオーディオ信号である場合、基本因子は、音源の種類(楽器など)、音のピッチ、及び、音の振幅を含み得る。
【0016】
訓練方法は、測定データの、ラベル付けされていないエンコーダ訓練レコード、及び/又は、ラベル付けされたエンコーダ訓練レコードを提供することから始まる。エンコーダネットワークは、これらの訓練レコードを使用して一般的な手法により訓練される。この訓練中、エンコーダを最適化するための目標は、
・ラベル付けされていないエンコーダ訓練レコードから表現Zが導出される場合には、これらの表現Zが、及び/又は、これらの表現Zから導出される1つ又は複数の作業成果物が、グラウンドトゥルースに依拠しない自己無矛盾条件を満たすこと、並びに、
・このようなグラウンドトゥルースが利用可能である場合には、これらの表現Zが、及び/又は、これらの表現Zから導出される1つ又は複数の作業成果物が、エンコーダ訓練レコードにラベル付けされたグラウンドトゥルースに相当すること
である。
【0017】
特に、この訓練を、ラベル付けされていないエンコーダ訓練レコードを用いてより多く行うことができればできるほど、エンコーダ訓練レコードをラベル付けするためのより多くの費用及び労力を節約することができる。例えば、自己無矛盾条件は、表現Zから取得されたエンコーダ訓練レコードをデコーダネットワークによって再構成したものが、元のエンコーダ訓練レコードに相当することを含み得る。すなわち、エンコーダネットワークとデコーダネットワークとの組合せを、1つのオートエンコーダとして訓練することができる。
【0018】
所与のタスクに向けた特定の訓練のために、グラウンドトゥルースy*がラベル付けされたタスク訓練レコードが提供される。例えば、タスク訓練レコードの集合は、エンコーダ訓練レコードの集合と少なくとも部分的に一致するものとしてよいが、今やレコードにはグラウンドトゥルースy*がラベル付けされているという差異を有する(エンコーダ訓練のためのラベルの代わりに又は全くラベルなしの代わりに)関連付けネットワークと、1つ又は複数のタスクヘッドネットワークとは、以下の目標に向けて訓練され、当該目標は、タスク訓練レコードが、エンコーダネットワークを使用して表現Zにマッピングされる場合であって、かつ、表現Zが、関連付けネットワークとタスクヘッドネットワークとの組合せによってタスク出力yにマッピングされる場合に、このようにして取得されたタスク出力yが、訓練レコードにラベル付けされたグラウンドトゥルースy*に相当することである。
【0019】
タスクに向けた一般的な訓練及び特定の訓練の両方は、エンコーダネットワークの挙動を特徴付ける、それぞれ関連付けネットワークのパラメータと、1つ又は複数のタスクヘッドネットワークのパラメータとを最適化することによって実施可能である。この最適化に対するフィードバックとして、エンコーダ損失関数又はタスク損失関数は、現在のところそれぞれの訓練目標がどのくらい良好に達成されているかを測定することができる。損失関数によるこの評価を、最適化されているパラメータへと逆伝播させることができ、これにより、これらのパラメータを変化させるための勾配を取得することができる。
【0020】
特に、驚くべきことに、関連付けネットワークを訓練可能にして、この関連付けネットワークを所与のタスクに向けた訓練に含めることは、ラベル付けされていないエンコーダ訓練レコードに対するエンコーダネットワークの一般的な訓練との相乗効果を有することが分かった。関連付けネットワークが訓練可能でない場合には、関連付けネットワークの状態をユーザに提供する必要がある。すなわち、ユーザは、表現成分z,・・・,zの性質を理解する必要がある。この理解は、どの表現成分z,・・・,zが、どのタスクヘッドネットワークにとって関連性があるのかを決定するための前提条件である。結果として、表現成分z,・・・,zは、そもそもユーザが理解できる性質のものに限定される。このことを、今度はグラウンドトゥルースを用いたエンコーダネットワークの教師あり訓練によって強化する必要がある。対照的に、関連付けネットワークが訓練可能である場合には、表現成分z,・・・,zは、この要求から解放されている。表現成分z,・・・,zは、現在のタスクに適した任意の性質のものであってよい。したがって、エンコーダの訓練を、全体的又は部分的に、ラベル付けされていないエンコーダ訓練レコードに対して実施することができる。
【0021】
さらに、関連付けネットワークが、ユーザによって事前に構成されたものではなく、訓練されたものである場合には、ニューラルネットワーク全体が、訓練データのより良好な理解を学習し、ニューラルネットワークの挙動が、より説明可能なものとなる。
【0022】
例えば、関連付けネットワークは、表現成分に対応する行と、タスクヘッドネットワークに対応する列とを有する行列を含み得る。その場合、この行列の要素は、それぞれのタスクヘッドネットワークに供給される表現成分z,・・・,zの線形結合(又は他の集約)のための係数を提供することができる。
【0023】
入力レコードxが画像を含み、かつ、現在のタスクが分類である場合には、有利な実施形態においては、タスク出力yは、1つ又は複数のオブジェクト値oと1つ又は複数の属性値aとの組合せである。すなわち、グラウンドトゥルースy*は、1つ又は複数のオブジェクト値oのためのグラウンドトゥルースo*と、1つ又は複数の属性値aのためのグラウンドトゥルースa*とを含む。タスクヘッドネットワークのうちの一方は、入力レコードxの表現成分z,・・・,zを1つ又は複数のオブジェクト値oにマッピングするように構成されたオブジェクトタスクヘッドネットワークである。他方のタスクヘッドネットワークは、入力レコードxの表現成分z,・・・,zを1つ又は複数の属性値aにマッピングするように構成された属性タスクヘッドネットワークである。オブジェクト値oは、例えば、利用可能な種類の所与の集合からオブジェクト種類を指定することができる。例えば、交通状況の画像を評価する場合には、これらの画像の種類は、交通標識、他の車両、障害物、車線標示、信号機、又は、任意の他の交通関連オブジェクトを含み得る。上述したように、分類可能であって、かつ、オブジェクト値oに関連付け可能である属性aの例は、オブジェクトの色及びテクスチャを含む。関連付けネットワークによって、色又はテクスチャの情報を、色又はテクスチャの分類のために使用することができ、その一方で、この色又はテクスチャの情報が、オブジェクト種類の分類へと「漏れる」ことが阻止される。
【0024】
オブジェクト値oを決定するために、関連付けネットワークは、表現成分z,・・・,zの第1の部分集合を選択して、オブジェクトタスクヘッドネットワークに伝達することができる。属性値aを決定するために、関連付けネットワークは、表現成分z,・・・,zの他の異なる部分集合を選択して、属性タスクネットワークに伝達することができる。
【0025】
ラベル付けされた訓練画像を用いた従来の訓練中には、言及したように表現Zを複数の成分z,・・・,zへと因子分解するだけでもう有利である。なぜなら、「ショートカット学習」を克服するための余分な画像が不要になるからである。しかも、この因子分解により、ラベル付けされた訓練画像の必要性をさらに一層低減する新たな形態の訓練も可能となる。
【0026】
さらなる特に有利な実施形態においては、タスク訓練レコードは、道路交通状況の画像を含む。実際のオブジェクト内容に加えて、これらの画像は、非常に多数の因子に依存しているので、多数の種々異なる因子の組合せを有する訓練画像の集合を取得することは、非常に困難であり、かつ、費用がかかる。例えば、データ集合は、昼間のみの道路作業員によるアクティブ(活動的)な工事現場を含む可能性がある。なぜなら、ほとんどの工事現場は、夜間にはアクティブでないからである。しかしながら、このような工事現場が夜間にアクティブである場合には、画像分類器は、それでもなおこの工事現場を認識すべきである。本明細書において提案されている訓練方法によれば、画像が昼間に撮影されたか夜間に撮影されたかとは切り離して分類を実施することができる。なぜなら、関連付けネットワークは、それぞれの成分z,・・・,zを、オブジェクト分類ヘッドネットワークに及び/又は属性分類ヘッドネットワークに供与することなく留保することができるからである。
【0027】
さらなる特に有利な実施形態においては、表現Zのそれぞれの成分z,・・・,zごとに、因子ヘッドネットワークが提供される。この因子ヘッドネットワークは、それぞれの成分z,・・・,zを入力レコードxの所定の基本因子にマッピングするように構成されている。
【0028】
さらに、因子訓練レコードが提供される。これらの因子訓練レコードには、成分z,・・・,zによって表現される基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*がラベル付けされている。例えば、基本因子が色である場合には、因子訓練画像のための対応するグラウンドトゥルース値は、この画像内に表示されているオブジェクトの色である。以下において説明するように、因子訓練画像は、元のラベル付けされた訓練画像に含まれている必要はないし、又は、元のラベル付けされた訓練画像に類似している必要さえもない。
【0029】
エンコーダネットワーク及び因子ヘッドネットワークにより、因子訓練レコードが基本因子f,・・・,fの値y,・・・,yにマッピングされる。すなわち、エンコーダは、複数の成分z,・・・,zを有する表現Zを生成し、次いで、それぞれのこのような成分z,・・・,zが、各自のそれぞれの因子ヘッドネットワークに伝達されて、それぞれの基本因子f,・・・,fの値y,・・・,yにマッピングされる。
【0030】
そのようにして決定された基本因子f,・・・,fの値y,・・・,yと、グラウンドトゥルース値y*,・・・,y*との偏差が、エンコーダ損失関数によって評価される。さらなる因子訓練レコードが処理される際に、エンコーダ損失関数による評価が改善される可能性を高くするという目標に向けて、エンコーダネットワークの挙動を特徴付けるパラメータと、因子ヘッドネットワークの挙動を特徴付けるパラメータとが最適化される。
【0031】
このようにして、それぞれのこのような成分z,・・・,zが、ただ1つの基本因子のみに依存するように、複数の成分z,・・・,zへと十分に因子分解される表現Zを生成するために、エンコーダネットワークを特別に訓練することができる。エンコーダネットワークは、このようにして基本的なスキルを学習し、タスクヘッドネットワークが使用するための実際の処理されるべき入力レコードの有意な表現を生成するために、この基本的なスキルを後の時点で使用することができる。例えば、エンコーダネットワークが訓練された後、エンコーダネットワークのパラメータを固定したまま、タスクヘッドネットワーク及び関連付けネットワークを従来の手法により訓練することができる。
【0032】
したがって、訓練は、ある意味においては、ピアノのような楽器の演奏手法の学習に類似したものとなる。まず始めに、如何なる音楽作品にも似ていないものであり得る特別に作曲された練習曲を使用して、基本的なスキルの集合が学習される。基本的なスキルが学習された後、訓練は、現実の音楽作品に移行することができる。このことは、最初に楽器を用いて現実の音楽作品に直接的に挑戦し、それと同時に全ての必要なスキルを学習しようと試みることよりもはるかに簡単である。
【0033】
特に、道路交通状況に伴うタスク訓練レコードの使用事例においては、表現Zの成分z,・・・,zに対応する基本因子は、画像xが取得されたときの
・時刻、
・照明条件、
・季節、及び、
・気象条件
のうちの1つ又は複数を含み得る。
【0034】
因子訓練レコードは、任意の適当なソースから取得可能である。特に、因子訓練レコードは、ニューラルネットワークが処理するように訓練されている実際の入力レコードxとの類似性を何ら有している必要はない。したがって、特に有利な実施形態においては、因子訓練レコードを提供することは、
・少なくとも1つの基本因子f,・・・,fに影響を与える処理を、少なくとも1つの所与の開始レコードに対して適用することにより、因子訓練レコードを生成することと、
・適用された処理に基づいて、基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*を決定することと、
を含む。
【0035】
したがって、これらの因子訓練レコードは、楽器の演奏手法を学習するときに演奏される練習曲に類似している。これらの因子訓練レコードは、人間によるラベル付けを何ら用いることなく自動的に生成可能であるという意味では「安価」であるが、その一方で、タスクヘッドネットワークの訓練には、ラベル付けされた訓練レコードが必要である。
【0036】
さらなる特に有利な実施形態においては、それぞれの因子訓練レコードにおいて、それぞれの基本因子は、特定の値を取る。因子訓練レコードの集合は、基本因子の値のそれぞれの組合せごとに少なくとも1つの因子訓練レコードを含む。このようにして、エンコーダネットワークの訓練中、因子間のあらゆる望ましくない相関を解消することができる。例えば、因子訓練画像の集合においては、あらゆるテクスチャ及びあらゆるオブジェクト形状との組合せにおいて、あらゆる色が出現する可能性がある。
【0037】
タスクに対する特定の訓練は、エンコーダネットワークが既に取得している基本因子f,・・・,fを処理するスキルに基づいて進めることができるので、より少量のラベル付けされたタスク訓練レコードを用いて良好な結果を達成することができる。
【0038】
有利な実施形態においては、エンコーダ損失関数とタスク損失関数との重み付き和として1つの組み合わせられた損失関数が形成される。この組み合わせられた損失関数の値を改善することを目標として、全てのネットワークの挙動を特徴付けるパラメータが最適化される。すなわち、エンコーダネットワークと、因子ヘッドネットワークと、タスクヘッドネットワークとを全て同時に訓練することができる。その場合、これらの訓練は、組み合わせられた損失関数に関して最適な解を取得するために連携することができる。エンコーダ損失関数及びタスク損失関数は、例えば、クロスエントロピー損失関数であるものとしてよい。
【0039】
さらなる特に有利な実施形態においては、一方では1つのエンコーダネットワークの組合せと、他方では関連付けネットワーク及びタスクヘッドネットワークの複数の異なる組合せとを、エンコーダ訓練レコードを用いたエンコーダネットワークの1回の同一の訓練に基づいて訓練することができる。すなわち、エンコーダ訓練レコードに基づく訓練を、完全に別の異なるレコードドメインにおける別の異なる用途に対して再利用することができる。これにより、訓練のための時間が節約され、また、ニューラルネットワークの規制上の承認が容易になる。例えば、因子訓練レコードに対して一度訓練されると、エンコーダネットワークに対して規制上の承認印を得ることができる。その後、新たな使用事例が処理されるべき場合には、新たに訓練されたタスクヘッドネットワークに対してのみ新たな承認が必要とされる。
【0040】
まず始めにエンコーダ及び因子ヘッドネットワークの訓練が実施され、その後にタスクヘッドネットワークの訓練が実施される場合には、因子訓練レコードに対する訓練中に取得されたエンコーダネットワークの学習された状態が、最終的に訓練されたニューラルネットワークが使用される用途のドメインにおけるタスク訓練レコードに対する訓練へと伝送される。この理由から、因子訓練レコードは、「ソースドメイン」における「ソースレコード」として理解可能であり、タスク訓練レコードは、「ターゲットドメイン」における「ターゲットレコード」として理解可能である。しかしながら、このことは、CycleGAN又は他の生成モデルを使用するドメイン転移と混同されるべきではない。
【0041】
基本因子f,・・・,fをタスクヘッドネットワークに供与することなく留保することができる場合には、訓練データ集合におけるタスク訓練レコード間のばらつきは、訓練画像内のオブジェクトのような、レコード間の実際の意味論的な差異により焦点を合わせることができる。その結果、分類の精度のような所望のレベルの精度を達成するために必要とされる訓練レコードが少なくてよくなる。
【0042】
さらに有利な実施形態においては、タスク損失関数は、エントロピー損失項を含み得る。関連付けネットワークがそれぞれのタスクヘッドネットワークに提供する表現成分z,・・・,zの数が少なければ少ないほど、エントロピー損失項の値がより良好になるように、このエントロピー損失項を構成することができる。このようにして、少数の表現成分z,・・・,zからの、ひいては少数の基本因子f,・・・,fからの情報を使用するように、それぞれのタスクヘッドネットワークに促すことができる。
【0043】
さらに有利な実施形態においては、タスク損失関数は、抑制損失項を含み得る。関連付けネットワークによってそれぞれの表現成分z,・・・,zが提供されるタスクネットワークの数が少なければ少ないほど、抑制損失項の値がより良好になるように、この抑制損失項を構成することができる。例えば、関連付けネットワークによって表現成分z=z,・・・,zと1つのタスクヘッドネットワークj=jmaxとの組合せに割り当てられた係数Aijが、閾値τ(0.33など)を超えている場合には、この同一の表現成分z,・・・,zと他のタスクネットワークとの組合せに対する係数を低減することができ又は完全に抑制することができる。例えば、全ての行iに対する
【数1】
を、抑制損失項に加えることができる。ここで、sgは、訓練中の
【数2】
の更新を阻止する勾配停止演算子である。このようにして、それぞれ異なるタスクヘッドネットワークによる、タスク出力yのそれぞれ異なる部分の予測は、同一の表現成分z,・・・,z、ひいては同一の基本因子f,・・・,fを使用しないように仕向けられる。
【0044】
上述した訓練方法は、全体的又は部分的にコンピュータ実装されるものとしてよく、したがって、ソフトウェアの形態において具現化されるものとしてよい。したがって、本発明は、1つ又は複数のコンピュータによって実行された場合に、上述した方法を1つ又は複数のコンピュータに実施させるための機械可読命令を含むコンピュータプログラムにも関する。これに関して、実行可能プログラムコードを実行することができる車両及び他の組み込みシステムのための制御ユニットも、コンピュータであると理解されるべきである。非一時的な記憶媒体及び/又はダウンロード製品は、コンピュータプログラムを含み得る。ダウンロード製品とは、オンラインで販売可能であって、かつ、即時の実現のためにネットワークを介して伝送可能である電子製品である。1つ又は複数のコンピュータには、上記のコンピュータプログラム及び/又は上記の非一時的な記憶媒体及び/又はダウンロード製品を搭載することができる。
【0045】
以下においては、本発明及び本発明の好ましい実施形態について、本発明の範囲を限定する如何なる意図もなく、図面を使用して説明する。
【図面の簡単な説明】
【0046】
図1】ニューラルネットワーク1の例示的な実施形態を示す図である。
図2】訓練方法100の例示的な実施形態を示す図である。
【発明を実施するための形態】
【0047】
図1は、ニューラルネットワーク1の例示的な実施形態の概略図である。ニューラルネットワーク1は、入力レコードxを表現Zにマッピングするように構成されたエンコーダネットワーク2を含む。この表現Zは、複数の独立した成分z,z,z,zを含み、これらの成分z,z,z,zは、それぞれ入力レコードxの1つの所定の基本因子f,f,f,fに関する情報を含む。それぞれの所定の基本因子f,f,f,fの値y,y,y,yは、それぞれの因子ヘッドネットワーク6~9によってそれぞれの表現成分z,z,z,zから評価可能であり、この因子ヘッドネットワーク6~9は、エンコーダ2の教師あり訓練中にのみ必要とされ、この訓練が完了すると破棄されるものとしてよい。エンコーダ2が、ラベル付けされていないエンコーダ訓練レコード10のみを用いて教師なしで訓練される場合には、因子ヘッドネットワーク6~9は全く必要ない。したがって、因子ヘッドネットワーク6~9は、破線により描かれている。
【0048】
ニューラルネットワーク1は、2つのタスクヘッドネットワーク、すなわち、入力画像xの表現成分z,・・・,zを1つ又は複数のオブジェクト値oにマッピングするように構成されたオブジェクトタスクヘッドネットワーク3と、入力画像xの表現成分z,・・・,zを1つ又は複数の属性値aにマッピングするように構成された属性タスクヘッドネットワーク4とをさらに含む。関連付けネットワーク5は、入力画像xのうちの、それぞれのタスクヘッドネットワーク3,4のタスクにとって関連性のある表現成分z,・・・,zの線形結合z,zを、それぞれのタスクヘッドネットワーク3,4に提供する。すなわち、分類ヘッドネットワーク3,4が依拠すべきではない情報は、そのネットワーク3,4に供与されることなく留保される。例えば、オブジェクトタスクヘッドネットワーク3が、入力レコードxとしての画像内の車両の種類を、その車両の形状ではなく色に基づいて分類することによって「ショートカット」すること阻止するために、色を表している表現成分z,・・・,zを、オブジェクトタスクヘッドネットワーク3に供与することなく留保することができる。他の例においては、属性タスクヘッドネットワーク4が、属性aとしてオブジェクトの色を決定すべきである場合には、関連付けネットワーク5は、オブジェクトの形状を表している表現成分z,・・・,zを、この属性タスクヘッドネットワーク4に供与することなく留保することができる。オブジェクト値o及び属性値aは、ニューラルネットワーク1のタスク出力yを形成する。
【0049】
図2は、上述したニューラルネットワーク1を訓練又は事前訓練するための方法100の概略的なフローチャートである。
【0050】
ステップ110において、測定データの、ラベル付けされていないエンコーダ訓練レコード10、及び/又は、ラベル付けされたエンコーダ訓練レコード10が提供される。
【0051】
ステップ120において、エンコーダ訓練レコード10を表現Zにマッピングするように、エンコーダネットワーク2が訓練される。その目標は、
・ラベル付けされていないエンコーダ訓練レコード10から表現Zが導出される場合には、これらの表現Zが、及び/又は、これらの表現Zから導出される1つ又は複数の作業成果物が、グラウンドトゥルースに依拠しない自己無矛盾条件を満たすこと、並びに、
・このようなグラウンドトゥルースが利用可能である場合には、これらの表現Zが、及び/又は、これらの表現Zから導出される1つ又は複数の作業成果物が、エンコーダ訓練レコード10にラベル付けされたグラウンドトゥルースに相当すること
である。この訓練は、現在のところ目標がどのくらい良好に達成されているかを評価するエンコーダ損失関数11を使用し、その結果が、訓練のためのフィードバックとして使用される。
【0052】
ステップ130において、ニューラルネットワーク1のタスクに関してグラウンドトゥルースy*がラベル付けされたタスク訓練レコード12が提供される。
【0053】
ステップ140において、関連付けネットワーク5と、1つ又は複数のタスクヘッドネットワーク3,4とがタスク固有の手法により訓練される。この訓練の目標は、タスク訓練レコード12が、エンコーダネットワーク2を使用して表現Zにマッピングされる場合であって、かつ、表現Zが、関連付けネットワーク5とタスクヘッドネットワーク3,4との組合せによってタスク出力yにマッピングされる場合に、このようにして取得されたタスク出力yが、訓練レコード(12)にラベル付けされたグラウンドトゥルースy*に相当することである。タスク損失関数13は、現在のところ目標がどのくらい良好に達成されているかを測定し、その結果が、訓練のためのフィードバックとして使用される。訓練は、タスクヘッドネットワーク3,4の挙動と、関連付けネットワーク5の挙動とをそれぞれ特徴付けるパラメータ3a,4a,5aを最適化する。これらのパラメータの最終的に最適化された状態には、参照符号3a*,4a*及び5a*が付されている。
【0054】
ブロック121によれば、エンコーダネットワーク2を教師なしで訓練するための自己無矛盾条件は、表現Zから取得されたエンコーダ訓練レコードをデコーダネットワークによって再構成したものが、元のエンコーダ訓練レコード10に相当することを含み得る。
【0055】
ブロック122によれば、表現Zのそれぞれの成分z,・・・,zごとに、因子ヘッドネットワーク6~9を提供することができる。この因子ヘッドネットワーク6~9は、それぞれの成分z,・・・,zを入力レコードxの所定の基本因子f,・・・,fにマッピングするように構成されている。
【0056】
ブロック123によれば、因子訓練レコード10を提供することができる。これらの因子訓練レコード10には、成分z,・・・,zによって表現される基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*がラベル付けされている。
【0057】
ブロック123aによれば、少なくとも1つの基本因子f,・・・,fに影響を与える処理を、少なくとも1つの所与の開始レコードに対して適用することができる。これにより、因子訓練レコード10が生成された。次いで、ブロック123bによれば、適用された処理に基づいて、基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*を決定することができる。
【0058】
ブロック124によれば、エンコーダネットワーク2及び因子ヘッドネットワーク6~9は、因子訓練レコード10を基本因子f,・・・,fの値y,・・・,yにマッピングすることができる。このことは、内部的には以下のようにして行われる。すなわち、エンコーダネットワーク2が、因子訓練レコード10を表現Zにマッピングする。表現Zのそれぞれの成分z,z,z,zが、それぞれの因子ヘッドネットワーク6~9に伝達され、次いで、それぞれの因子ヘッドネットワーク6~9が、基本因子f,・・・,fのそれぞれの値y,・・・,yを出力する。
【0059】
次いで、ブロック125によれば、そのようにして決定された基本因子f,・・・,fの値y,・・・,yと、グラウンドトゥルース値y*,・・・,y*との偏差を、エンコーダ損失関数11によって評価することができる。
【0060】
次いで、ブロック126によれば、さらなる因子訓練レコード10が処理される際に、損失関数11による評価11aが改善される可能性を高くするという目標に向けて、エンコーダネットワーク2の挙動を特徴付けるパラメータ2aと、因子ヘッドネットワーク6~9の挙動を特徴付けるパラメータ6a~9aとを最適化することができる。パラメータ2a及び6a~9aの最終的に訓練された状態には、参照符号2a*及び6a*~9a*が付されている。
【0061】
ブロック141によれば、タスク損失関数13は、エントロピー損失項を含み得る。その場合、関連付けネットワーク5がそれぞれのタスクヘッドネットワーク3,4に提供する表現成分z,・・・,zの数が少なければ少ないほど、エントロピー損失項の値がより良好になるように、このエントロピー損失項を構成することができる。
【0062】
ブロック142によれば、タスク損失関数13は、抑制損失項を含み得る。その場合、関連付けネットワーク5によってそれぞれの表現成分z,・・・,zが提供されるタスクネットワーク3,4の数が少なければ少ないほど、抑制損失項の値がより良好になるように、この抑制損失項を構成することができる。
【0063】
エンコーダ損失関数11とタスク損失関数13との重み付き和として1つの組み合わせられた損失関数14を形成することができる。その場合、この組み合わせられた損失関数14の値を改善することを目標として、全てのネットワーク2,3,4,5,6,7,8,9の挙動を特徴付けるパラメータ2a,3a,4a,5a,6a,8a,9aを1回のエンドツーエンド訓練で最適化することができる。
図1
図2
【手続補正書】
【提出日】2023-07-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
測定データの入力レコードxから所与のタスクに関するタスク出力yを決定するためにニューラルネットワーク(1)を訓練するための方法(100)であって、
前記ニューラルネットワーク(1)は、
・前記入力レコードxを表現Zにマッピングするように構成されたエンコーダネットワーク(2)であって、当該表現Zは、複数の独立した成分z,・・・,zを含む、エンコーダネットワーク(2)と、
・前記入力レコードxの表現成分z,・・・,zを前記タスク出力yにマッピングするように構成された1つ又は複数のタスクヘッドネットワーク(3,4)と、
・前記入力レコードxのうちの、それぞれの前記タスクヘッドネットワーク(3,4)のタスクにとって関連性のある表現成分z,・・・,zの線形結合z,zを、それぞれの前記タスクヘッドネットワーク(3,4)に提供するように構成された関連付けネットワーク(5)と、
を含み、前記方法は、
・前記測定データの、ラベル付けされていないエンコーダ訓練レコード(10)、及び/又は、ラベル付けされたエンコーダ訓練レコード(10)を提供するステップ(110)と、
前記エンコーダ訓練レコード(10)を表現Zにマッピングするように、以下の目標に向けて前記エンコーダネットワーク(2)を訓練するステップ(120)であって、当該目標は、
○ラベル付けされていない前記エンコーダ訓練レコード(10)から前記表現Zが導出される場合には、前記表現Zが、及び/又は、前記表現Zから導出される1つ又は複数の作業成果物が、グラウンドトゥルースに依拠しない自己無矛盾条件を満たすこと、並びに、
○ラベル付けされた前記エンコーダ訓練レコード(10)から前記表現Zが導出される場合には、前記表現Zが、及び/又は、前記表現Zから導出される1つ又は複数の作業成果物が、当該エンコーダ訓練レコード(10)にラベル付けされたグラウンドトゥルースに相当すること
である、ステップ(120)と、
・グラウンドトゥルースy*がラベル付けされたタスク訓練レコード(12)を提供するステップ(130)と、
・前記関連付けネットワーク(5)と、前記1つ又は複数のタスクヘッドネットワーク(3,4)とを、以下の目標に向けて訓練するステップ(140)であって、当該目標は、タスク訓練レコード(12)が、前記エンコーダネットワーク(2)を使用して表現Zにマッピングされる場合であって、かつ、前記表現Zが、前記関連付けネットワーク(5)と前記タスクヘッドネットワーク(3,4)との組合せによって前記タスク出力yにマッピングされる場合に、そのようにして取得された前記タスク出力yが、タスク損失関数(13)によって測定されたときに前記タスク訓練レコード(12)にラベル付けされた前記グラウンドトゥルースy*に相当することである、ステップ(140)と、
を含む、方法(100)。
【請求項2】
前記自己無矛盾条件は、前記表現Zから取得された前記エンコーダ訓練レコード(10)をデコーダネットワークによって再構成したものが、元の前記エンコーダ訓練レコード(10)に相当することを含む(121)、
請求項1に記載の方法。
【請求項3】
前記ニューラルネットワーク(1)は、前記タスク出力yとして、前記測定データの前記入力レコードxの分類を決定するように構成されている、
請求項に記載の方法。
【請求項4】
前記ニューラルネットワーク(1)は、前記測定データの前記入力レコードxとして画像を処理するように構成されている、
請求項に記載の方法。
【請求項5】
・前記タスク出力yは、1つ又は複数のオブジェクト値oと1つ又は複数の属性値aとの組合せであり、
・前記グラウンドトゥルースy*は、前記1つ又は複数のオブジェクト値oのためのグラウンドトゥルースo*と、前記1つ又は複数の属性値aのためのグラウンドトゥルースa*とを含み、
・オブジェクトタスクヘッドネットワーク(3)は、前記入力レコードxの表現成分z,・・・,zを前記1つ又は複数のオブジェクト値oにマッピングするように構成されており、
・属性タスクヘッドネットワーク(4)は、前記入力レコードxの表現成分z,・・・,zを前記1つ又は複数の属性値aにマッピングするように構成されている、
請求項に記載の方法。
【請求項6】
前記属性値aはオブジェクトの色又はテクスチャである、
請求項5に記載の方法。
【請求項7】
前記タスク訓練レコード(12)は、道路交通状況の画像を含む、
請求項に記載の方法。
【請求項8】
前記方法は、
・前記表現Zのそれぞれの成分z,・・・,zごとに、因子ヘッドネットワーク(6~9)を提供すること(122)であって、前記因子ヘッドネットワーク(6~9)は、前記それぞれの成分z,・・・,zを前記入力レコードxの所定の基本因子f,・・・,fにマッピングするように構成されている、こと(122)と、
・因子訓練レコードを提供すること(123)であって、前記因子訓練レコードには、前記エンコーダ訓練レコード(10)として前記成分z,・・・,zによって表現される前記基本因子f,・・・,fに関するグラウンドトゥルース値y*,・・・,y*がラベル付けされている、こと(123)と、
・前記エンコーダネットワーク(2)及び前記因子ヘッドネットワーク(6~9)により、前記因子訓練レコード前記基本因子f,・・・,fの値y,・・・,yにマッピングすること(124)と、
・そのようにして決定された前記基本因子f,・・・,fの前記値y,・・・,yと、前記グラウンドトゥルース値y*,・・・,y*との偏差を、エンコーダ損失関数(11)によって評価すること(125)と、
・さらなる因子訓練レコード処理される際に、前記エンコーダ損失関数(11)による前記評価(11a)が改善される可能性を高くするという目標に向けて、前記エンコーダネットワーク(2)の挙動を特徴付けるパラメータ(2a)と、前記因子ヘッドネットワーク(6~9)の挙動を特徴付けるパラメータ(6a~9a)とを最適化すること(126)と、
をさらに含む、請求項に記載の方法。
【請求項9】
前記表現Zの前記成分z,・・・,zに対応する前記基本因子f,・・・,fは、前記画像xが取得されたときの
・時刻、
・照明条件、
・季節、及び、
・気象条件
のうちの1つ又は複数を含む、
請求項に記載の方法。
【請求項10】
前記表現Zの前記成分z,・・・,zに対応する前記基本因子f,・・・,fは、
・前記画像x内の少なくとも1つのオブジェクトの形状、
・前記画像x内の少なくとも1つのオブジェクトの色、及び/又は、前記画像xの領域の色、
・前記画像xが取得されたときの照明条件、並びに、
・前記画像x内の少なくとも1つのオブジェクトのテクスチャパターン
のうちの1つ又は複数を含む、
請求項に記載の方法。
【請求項11】
前記因子訓練レコード提供すること(123)は、
・少なくとも1つの基本因子f,・・・,fに影響を与える処理を、少なくとも1つの所与の開始レコードに対して適用することにより、前記因子訓練レコード生成すること(123a)と、
・適用された前記処理に基づいて、前記基本因子f,・・・,fに関する前記グラウンドトゥルース値y*,・・・,y*を決定すること(123b)と、
を含む、請求項に記載の方法(100)。
【請求項12】
それぞれの前記因子訓練レコードおいて、それぞれの前記基本因子f,・・・,fは、特定の値を取り、
前記因子訓練レコード集合は、前記基本因子f,・・・,fの値のそれぞれの組合せごとに少なくとも1つの因子訓練レコード含む、
請求項に記載の方法(100)。
【請求項13】
・前記エンコーダ損失関数(11)と前記タスク損失関数(13)との重み付き和として1つの組み合わせられた損失関数(14)が形成され、
・当該組み合わせられた損失関数(14)の値を改善することを目標として、全てのネットワーク(2,3,4,5,6,7,8,9)の挙動を特徴付ける前記パラメータ(2a,3a,4a,5a,6a,8a,9a)が最適化される、
請求項に記載の方法(100)。
【請求項14】
つのエンコーダネットワーク(2)の組合せと、連付けネットワーク(5)及び前記タスクヘッドネットワーク(3,4)の複数の異なる組合せとが、前記エンコーダ訓練レコード(10)を用いた前記エンコーダネットワーク(2)の1回の同一の訓練に基づいて訓練される、
請求項に記載の方法(100)。
【請求項15】
前記タスク損失関数(13)は、エントロピー損失項を含み(141)、
前記関連付けネットワーク(5)がそれぞれの前記タスクヘッドネットワーク(3,4)に提供する前記表現成分z,・・・,zの数が少なければ少ないほど、当該エントロピー損失項の値がより良好になる、
請求項に記載の方法(100)。
【請求項16】
前記タスク損失関数(13)は、抑制損失項を含み(142)、
前記関連付けネットワーク(5)によってそれぞれの表現成分z,・・・,zが提供される前記タスクヘッドネットワーク(3,4)の数が少なければ少ないほど、当該抑制損失項の値がより良好になる、
請求項に記載の方法(100)。
【請求項17】
1つ又は複数のコンピュータによって実行された場合に、請求項に記載の方法(100)を前記1つ又は複数のコンピュータに実施させるための機械可読命令を含むコンピュータプログラム。
【請求項18】
請求項17に記載のコンピュータプログラムを有する非一時的な記憶媒体
【請求項19】
請求項17に記載のコンピュータプログラムを有する又は、請求項18に記載の非一時的な記憶媒体有する1つ又は複数のコンピュータ。
【外国語明細書】