特許第6983800号(P6983800)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエの特許一覧

特許6983800ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法
<>
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000002
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000003
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000004
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000005
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000006
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000007
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000008
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000009
  • 特許6983800-ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6983800
(24)【登録日】2021年11月26日
(45)【発行日】2021年12月17日
(54)【発明の名称】ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類のための方法
(51)【国際特許分類】
   G06N 3/08 20060101AFI20211206BHJP
   G06N 3/04 20060101ALI20211206BHJP
   G06N 20/00 20190101ALI20211206BHJP
   G06T 7/00 20170101ALI20211206BHJP
   G08G 1/16 20060101ALI20211206BHJP
【FI】
   G06N3/08 140
   G06N3/04
   G06N20/00 130
   G06T7/00 350C
   G08G1/16 C
【請求項の数】10
【全頁数】25
(21)【出願番号】特願2018-549257(P2018-549257)
(86)(22)【出願日】2017年3月15日
(65)【公表番号】特表2019-514107(P2019-514107A)
(43)【公表日】2019年5月30日
(86)【国際出願番号】EP2017056172
(87)【国際公開番号】WO2017158058
(87)【国際公開日】20170921
【審査請求日】2020年2月17日
(31)【優先権主張番号】102016204275.0
(32)【優先日】2016年3月15日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】517217922
【氏名又は名称】イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【復代理人】
【識別番号】100196449
【弁理士】
【氏名又は名称】湯澤 亮
(74)【代理人】
【識別番号】100167793
【弁理士】
【氏名又は名称】鈴木 学
(72)【発明者】
【氏名】ティシュコフ,ディミトリ
(72)【発明者】
【氏名】ベンダハン,レミー
【審査官】 松崎 孝大
(56)【参考文献】
【文献】 特開2012−026982(JP,A)
【文献】 特表2017−516992(JP,A)
【文献】 三品陽平,Random Forestを用いた事例型追加学習,SSII2014第20回画像センシングシンポジウム講演論文集,日本,画像センシング技術研究会,IS1-16-1〜IS1-16-7
【文献】 兼平篤志,不完全ラベル付きデータからのマルチラベル分類問題,情報処理学会研究報告コンピュータビジョンとイメージメディア(CVIM) 2015−CVIM−199,日本,情報処理学会
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/08
G06N 3/04
G06N 20/00
G06T 7/00
G08G 1/16
(57)【特許請求の範囲】
【請求項1】
画像データを元データ(Data−A)として取り込むステップと、
元データ(Data−A)よりも多量な、ラベル付けされていないデータ(Data−C)としてラベル付けされていない画像を供給するステップと、
取り込まれた画像データの間で希少なケースを分類するように深層ニューラルネットワーク学習能力を強化するステップであって、
一般的なケースおよび希少なケースを含む前記元データ(Data−A)および指定されたラベル(Label−A)を供給すること、ならびに
前記元データの一般的なケースを前記指定されたラベルに分類するために使用される少なくとも1つのクラス固有特徴空間(Conv−A)および少なくとも1つのクラス固有決定空間(FC−A)を出力すること
によって、第1の深層ニューラルネットワーク(DNN−A)を訓練するサブステップと、
前記第1の深層ニューラルネットワーク(DNN−A)の前記少なくとも1つのクラス固有特徴空間(Conv−A)を介して処理された元データ内の識別クラス固有特徴(HEAT−B)を局所化し、前記識別クラス固有特徴を空間確率ラベル(Label−B)として前記元データにマッピングするサブステップと、
元データ(Data−A)および前記空間確率ラベル(Label−B)を供給すること、ならびに
前記元データ(Data−A)の希少なケースを空間確率ラベル(Label−B)に分類するために使用される少なくとも1つのクラス汎用特徴(Conv−C)空間および少なくとも1つの汎用決定空間(FC−C)を出力すること
によって、第2の深層ニューラルネットワーク(DNN−C)を訓練するサブステップと、
前記元データ(Data−A)、前記指定されたラベル(Label−A)、および前記空間確率ラベル(Label−B)を供給すること、ならびに
前記元データ(Data−A)の一般的なケースと希少なケースの両方を1次結合指定および空間確率ラベル(Label−A+B)に分類するために使用される1次結合クラス固有および汎用特徴(Conv−C→A→D)および決定(FC−C→A→D)空間を出力すること
によって、第1の結合深層ニューラルネットワーク(DNN−D)を訓練するサブステップと
ラベル付けされていないデータ(Data−C)を供給することと、
前記ラベル付けされていないデータを前記1次結合指定および空間確率ラベル(Label−A+B)に分類することと、
前記1次結合指定および空間確率ラベル(Label−A+B)を2次結合指定および空間確率誤分類ラベル(Label−C)にマッピングすることと
によって、前記第1の結合深層ニューラルネットワーク(DNN−D)をさらに訓練するサブステップと、
前記ラベル付けされていないデータ(Data−C)、前記2次結合指定および空間確率誤分類ラベル(Label−C)、およびペナルティ行列を供給すること、ならびに
前記ペナルティ行列に従って、前記ラベル付けされていないデータ(Data−C)の一般的なケースと希少なケースの両方を前記2次結合指定および空間確率誤分類ラベル(Label−C)に分類するために使用される2次結合決定および特徴(FC−C→A→D→F;Conv−C→A→D→F)空間を出力すること
によって、結合深層ニューラルネットワーク(DNN−F)を訓練するサブステップと
を備えるステップと、
前記取り込まれたれた画像に基づいて一般的なケースおよび希少なケースを分類するステップと
を備える、画像処理方法。
【請求項2】
前記第1の深層ニューラルネットワーク(DNN−A)前記第2の深層ニューラルネットワーク(DNN−C)前記第1の結合深層ニューラルネットワーク(DNN−D)、および前記第2の結合深層ニューラルネットワーク(DNN−F)が畳み込みニューラルネットワークである、請求項1に記載の画像処理方法。
【請求項3】
識別クラス固有特徴(HEAT−B)の前記局所化ステップが、
前記少なくとも1つのクラス固有特徴空間(Conv−A)を介して処理された元データのパッチ(Ext−B)をランダムに抽出するステップと、
同じ指定されたラベル(Label−A)のすべてのパッチの中から、それらの統計的な人気度によってランダムに抽出されたパッチ(Rank−B)をランク付けするステップと、
上位ランクのパッチから始まるビジュアルワード(BOW−B)の特徴を袋詰めするステップと、
ビジュアルワード特徴の袋をランダムフォレストツリー(RFT−B)分類するステップと、
識別クラス固有特徴を局所化し、それらの相対的な重要度(HEAT−B)を推定するために、前記ランダムフォレストツリー分類を使用して変数重要度測定値(IMP−B)を抽出するステップと
から構成される、請求項1または2に記載の画像処理方法。
【請求項4】
前記第2の深層ニューラルネットワーク(DNN−C)の前記訓練ステップが、
空間確率ラベル(Label−B)をサイズ変更するステップと、
汎用損失関数(Loss−C)によって生成されたフィードバックの後方伝播を介して汎用特徴(Conv−C)および決定(FC−C)空間を学習するために、対応するサイズ変更された空間確率ラベルを有する元データのバッチを作成するステップと、
指定されたラベル(Label−A)とは関係なく、前記識別クラス固有特徴の局所化および確率を推定するステップと、
前記元データ(Data−A)の希少なケースをサイズ変更された空間確率ラベル(Label−B)に分類するステップと
をさらに含む、請求項1から3のいずれか一項に記載の画像処理方法。
【請求項5】
前記第1の結合深層ニューラルネットワーク(DNN−D)の前記訓練ステップが、
少なくとも1つの汎用特徴空間(Conv−C)および少なくとも1つのクラス固有特徴空間(Conv−A)を、異なる学習率を有する前記1次結合クラス固有および汎用特徴空間(Conv−C→A→D)を形成する少なくとも1つの統合特徴空間(Conv−D)に結合するステップと、
少なくとも1つの汎用決定空間(FC−C)および少なくとも1つのクラス固有決定空間(FC−A)を、前記1次結合クラス固有および汎用決定空間(FC−C→A→D)を形成する少なくとも1つの統合決定空間(FC−D)に結合するステップと、
前記第2の深層ニューラルネットワーク(DNN−C)の前記汎用損失関数(Loss−C)および前記第1の深層ニューラルネットワーク(DNN−A)のクラス固有損失関数(Loss−A)の結合損失関数を使用して、前記1次結合指定および空間確率ラベル(Label−A+B)から任意のラベルに属する元データに対するフィードバックを提供するステップと
をさらに含む、請求4に記載の画像処理方法。
【請求項6】
前記汎用特徴空間(Conv−C)の前記学習率が、前記クラス固有特徴空間(Conv−A)の前記学習率よりも小さい、請求項5に記載の画像処理方法。
【請求項7】
前記第2の結合深層ニューラルネットワーク(DNN−F)の前記訓練ステップが、
訓練された前記第1の結合深層ニューラルネットワーク(DNN−D)から開始するステップと
ネットワークの能力を向上させて新たに学習された特徴および決定をホストする目的で、隠れレイヤを追加することによって特徴空間および決定空間(FC−C→A→D→F;Conv−C→A→D→F)を拡張するステップと、
前記ペナルティ行列に基づいて誤分類に対するより高いペナルティを有する、前記希少なケースに対してより多くのデータサンプルを使用することにより、前記第2の結合深層ニューラルネットワーク(DNN−F)の損失関数(Loss−C→A→F)またはラベル付けされていないデータのバッチを修正するステップと
をさらに含む、請求項1から6のいずれか一項に記載の画像処理方法。
【請求項8】
一般的なケースと希少なケース、指定されたラベル(Label−A)、および前記ペナルティ行列を含む元データ(Data−A)を供給すること、ならびに
前記ペナルティ行列に従って、前記元データ(Data−)の一般的なケースと希少なケースの両方を前記指定されたラベル(Label−A)に分類するために使用される1次結合決定および特徴空間(FC−C→A→D→F→A;Conv−C→A→D→F→A)を出力すること
によって、第3の結合深層ニューラルネットワーク(DNN−G)を訓練するステップ
をさらに備える、請求項7に記載の画像処理方法。
【請求項9】
前記第3の結合深層ニューラルネットワーク(DNN−G)の前記訓練ステップが、
前記ラベル付けされていないデータ(Data−C)および前記2次結合指定および空間確率誤分類ラベル(Label−C)に対して訓練された第2の結合深層ニューラルネットワーク(DNN−F)から開始するステップと、
隠れレイヤを追加することによって特徴空間および決定空間(FC−C→A→D→F→A;Conv−C→A→D→F→A)を拡張するステップと、
前記ペナルティ行列に基づいて誤分類に対するより高いペナルティを有する、前記希少なケースに対してより多くのデータサンプルを使用することにより、前記第3の結合深層ニューラルネットワーク(DNN−G)の損失関数(Loss−A)またはラベル付けされていないデータのバッチを修正するステップと
をさらに含む、請求項8に記載の画像処理方法。
【請求項10】
車両(100)であって、
前記車両が運転されているときに、少なくとも運転者の視点から見える辿った経路の部分を取り込み、一連のデジタルファイルに変換するように配置された経路取込みユニット(200;210)と、
請求項1〜9のいずれか一項に記載の前記画像処理方法に従って、前記一連のデジタルファイルを処理し、前記一連のデジタルファイルに基づいて一般的なケースおよび希少なケースを分類するように配置された処理ユニットと、
前記分類された一般的なケースおよび希少なケースに関する情報を表示するように配置された表示ユニットと、
前記車両を制御するように配置された自動運転ユニットと、
前記分類された希少なケースに応じて、前記表示ユニットおよび前記自動運転ユニット
のうちの少なくとも1つを作動させるように配置された決定ユニットと
を備える、車両(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は機械学習技法に関し、より詳細には、深層畳み込みニューラルネットワーク(CNN)などの深層ニューラルネットワーク(DNN)に関する。特に、本発明は、ニューラルネットワークにおける強化学習によるユニーク/希少なケースの分類方法に関する。そのような希少なケースは、以前に学習されたすべてのデータと大幅に異なる可能性があり、普段の状況で発生する可能性が低い状況またはシナリオとして定義することができる。
【0002】
そのような方法は、特に、障害物の検出および回避のためのカメラまたはライダーセンサなどの深度センサを使用して環境の中を安全に操縦する、人間支援型または自律型の車両の分野において有用である。
【背景技術】
【0003】
公開文献「Distilling the Knowledge in a Neural Network」、Geoffrey Hinton、Oriol Vinyals、Jeff Dean、arXiv:1503.02531は、特殊な圧縮技法を使用して、モデルの集合の知識(すべてのモデルの間の合意の必要性に起因する低いレベルの誤警報)を単一のモデルに圧縮する方法を提案しているモデルの集合から単一のモデルに知識を転送するプロセスは、「蒸留」と呼ばれる。それは、小さいモデルを訓練するための「ソフトターゲット」として、モデルの集合によって生成されたクラス確率を使用することによって行うことができる。訓練は、完全にラベル付けされてないデータを使用することにより、または元の訓練データセットを使用することによって行うことができる。知識は、完全にラベル付けされていないデータを使用して転送することができるが、この方法は、ネットワークの初期集合内と同じ数のクラスをターゲットネットワークに保持する必要がある。したがって、単一のネットワークに転送されるべきネットワークの集合によって獲得された共通の合意のために、選択された誤警報を回避する方法に関する知識でさえ、ラベル付けされたデータサンプルで訓練されたネットワークの特徴/決定空間のローカル近傍内に限定されるはずである。このように、分類段階で、以前に見えなかったデータサンプルに効率的に対処することはできない。
【0004】
公開文献「Generative Adversarial Networks」、Ian J. Goodfellow、Jean Pouget−Abadie、Mehdi Mirza、Bing Xu、David Warde−Farley、Sherjil Ozair、Aaron Courville、Yoshua Bengio、arXiv:1406.2661は、発生モデルと識別モデルの両方の同時訓練の対立プロセスの使用を開示している。発生モデルは、新しいデータサンプルを合成することができるように、以前にラベル付けされたデータサンプルからのデータ分布をモデル化しなければならない。識別モデルは、モデルによって生成されるのではなく、この新しいサンプルが訓練データセットからである確率を推定するように訓練されなければならない。この反復プロセスはミニマックス2人ゲームに対応し、そこでは、強化学習が識別モデルの改善につながる。このシステムの主な欠点は二重になっている。第1に、2つのモデルは、ラベル付けされたデータサンプルによって境界が定められた同じ特徴空間で動作しており、それにより、ラベル付けされたデータセット内で提示されたサンプルと比較して実質的に異なるサンプルの分類の改善が非常に限定される。生成モデルでも新規のサンプルを生成している。新規のサンプルは、ラベル付けされたサンプルから学習された特徴の線形結合として解釈できるので、生成モデルは純粋に新規のデータをモデル化することはできない
。第2に、初期段階において、この方法は決定空間を局所的に改善することができるが、識別モデルの評価からのフィードバックが弱いためにその未知の領域を効率的に探索することができず、補強プロセスの高速飽和につながるであろう。
【0005】
公開文献「Explaining and Harnessing Adversarial Examples」、Ian J.Goodfellow、Jonathon Shlens、Christian Szegedy、arXiv:1412.6572は、誤警報の潜在的な原因である、特定の画像位置にランダムノイズを加えることによって容易に欺くことができる深層ニューラルネットワークを開示している。その上にわずかな偏差を生成することによって誤分類につながる初期画像サンプルの最小歪みを探索するために、2次方法を採用することが提案されている−修正された画像は対立例と呼ばれる。それらは、分類器からの損失を後方伝搬することによって生成することができる。あらゆる画像サンプルに対してネットワークの2回のパスが必要である。この方法は、データ拡張の別の形態と考えることができる。しかしながら、そのような方法は、既存のラベル付けされたデータサンプルからのデータ拡張にのみ限定されるので、たとえば、希少な/見えない/ユニークなオブジェクトに関して異なる外観を有するオブジェクトの誤分類の問題を解決することはできない。
【0006】
公開文献 「The Virtues of Peer Pressure:A Simple Method for Discovering High−Value Mistakes」、Shumeet Baluja、Michele Covell、Rahul Sukthankar、CAIP2015は、ニューラルネットワークによって誤分類された入力インスタンスを効率的かつ直感的に発見する方法を提案している。互いに矛盾がない圧力を提供するべきN個の同様の「ピアネットワーク」のバスケットを訓練することが提案されている。単一のネットワークが、それらの予測が一致している他のすべてのネットワークと合意しない例が見つかったとき、その例は潜在的な間違いとみなされる。変換、縮尺変更、色の変更などのデータ拡張変換を使用して元データを修正することによって間違いを生成することも提案されている。すべての潜在的な間違いは、分類精度を向上させるために訓練データセットに後で追加される。この技法のさらなるバージョンは、元の画像上で行われる幾何学的変換の代わりに、ビデオ内のオブジェクトの画像時系列を分類するためにピアネットワークを適用することができ、ネットワークがほとんどを合意しないフレームの場合、訓練データセットを増強するために使用される間違いとみなすことができる。このようにして、ビデオはかなり豊富なデータソースを提供する。データ拡張の変動率は、オブジェクト追跡を使用することによって拡大することができるが、ラベル付けされたデータサンプルに対する訓練によって開始されたローカル空間でデータを収集することによって、依然として制限される。ピアネットワークは同様のラベル付けされたデータで同様の方式で学習しているので、以前は見えない/希少な/ユニークなデータを矛盾なく分類することができない。以前に学習されたデータと視覚的に類似するデータサンプルに関するそれらの確実な合意、および新しいデータサンプルに対する意見の相違または確実でない合意を期待するべきである。したがって、分類精度を向上させるために必要な重要アクションである、新しいデータサンプルのための特徴/決定空間の矛盾がない改善を期待することができない。
【発明の概要】
【0007】
要約すると、従来技術の公開文献は、様々な種類のデータ拡張を介して希少な/見えない/ユニークなデータの誤分類の問題に対する解決策を提案し、そこでは、ビデオ内の追跡を介して、既存のラベル付けされたデータサンプルを修正すること、または(以前に学習されたデータサンプルに視覚的に類似するが)ラベル付けされていないデータサンプルの様々な時間インスタンスを使用することにより、(現在の深層ニューラルネットワークによって誤分類される)新しいデータサンプルが生成される。対象の問題は、以前見えな
かったが初期訓練中に利用可能なデータサンプルに視覚的に類似するデータサンプルの誤分類を回避する深層ニューラルネットワークを用いて、大きく解決することができるが、訓練中に使用されなかった視覚的に類似していないデータサンプルに対する精度を矛盾なく向上させることはできない。1つの解決策は、ラベル付けされたデータの非常に大きいデータセットを使用して、視覚的に類似していない見えないデータサンプルの数を最小化することに基づく可能性があるが、これは、実際にはほとんど不可能な指数関数的に高価なデータ収集タスクである。
【0008】
本発明は、従来技術の上述された欠点に対処し、視覚的に類似する誤分類データサンプルと視覚的に類似していない誤分類データサンプルの両方をホストし分類することができる、特徴空間ならびに決定空間を結合する深層ニューラルネットワークを使用することによってこの問題を克服する第1の態様によって処理することを目的とする。
【0009】
この目的のために、本発明の第1の態様は、
−画像データを元データ(Data−A)として取り込むステップと、
−元データ(Data−A)よりも高いスケールでラベル付けされていないデータ(Data−C)としてラベル付けされていない画像を供給するステップと、
−取り込まれた画像データの間で希少なケースを分類するように深層ニューラルネットワーク学習能力を強化するステップであって、
−前記元データ(Data−A)の一般的なケースを指定されたラベル(Label−A)に分類するために使用される第1の深層ニューラルネットワーク(DNN−A)を訓練するサブステップと、
−第1の深層ニューラルネットワークを介して処理された元データ内の識別クラス固有特徴を局所化し、識別クラス固有特徴を空間確率ラベル(Label−B)としてマッピングするサブステップと、
−元データの希少なケースを空間確率ラベルに分類するために使用される第2の深層ニューラルネットワーク(DNN−C)を訓練するサブステップと、
−元データの一般的なケースと希少なケースの両方を1次結合指定および空間確率ラベル(Label−A+B)に分類するために使用される結合深層ニューラルネットワーク(DNN−D)を訓練するサブステップと
を備えるステップと
を備える、画像処理方法に関する。
【0010】
有利なことに、第1の態様による画像処理方法は、より具体的に、
−一般的なケースおよび希少なケースを含む元データならびに指定されたラベル(Label−A)を供給することによって第1の深層ニューラルネットワーク(DNN−A)を訓練し、元データの一般的なケースを指定されたラベルに分類するために使用される少なくとも1つのクラス固有特徴空間および少なくとも1つの決定空間を出力するステップと、
−第1の深層ニューラルネットワークの前記少なくとも1つのクラス固有特徴空間を介して処理された元データ内の識別クラス固有特徴(HEAT−B)を局所化し、識別クラス固有特徴を空間確率ラベル(Label−B)として元データにマッピングするステップと、
−元データおよび前記空間確率ラベルを供給することによって第2の深層ニューラルネットワーク(DNN−C)を訓練し、元データの希少なケースを(サイズ変更された)空間確率ラベル(Label−B)に分類するために使用される、少なくとも1つの汎用特徴(すなわち、非クラス固有特徴)空間および少なくとも1つの汎用決定(すなわち、非クラス固有決定)空間を出力するステップと、
−元データ、指定されたラベル(Label−A)、および空間確率ラベル(Label−B)を供給することによって第1の結合深層ニューラルネットワーク(DNN−D
)を訓練し、元データの一般的なケースと希少なケースの両方を1次結合指定および空間確率ラベル(Label−A+B)に分類するために使用される、1次結合クラス固有および汎用特徴/決定空間を出力するステップと、
−ラベル付けされていないデータ(Data−C)を供給することによって前記結合深層ニューラルネットワーク(DNN−D)をさらに訓練し、ラベル付けされていないデータを1次結合指定および空間確率ラベル(Label−A+B)に分類し、1次結合指定および空間確率ラベル(Label−A+B)を2次結合指定および空間確率誤分類ラベル(Label−C)にマッピングするステップと、
−ラベル付けされていないデータ(Data−C)、2次誤分類ラベル(Label−C)、およびペナルティ行列を供給することによって第2の結合深層ニューラルネットワーク(DNN−F)を訓練し、ペナルティ行列に従って、ラベル付けされていないデータ(Data−C)の一般的なケースと希少なケースの両方を2次誤分類ラベル(Label−C)に分類するために使用される2次結合決定および特徴(FC−C→A→D→F;Conv−C→A→D→F)空間を出力するステップと、
−取り込まれたれた画像に基づいて一般的なケースおよび希少なケースを分類するステップと
を備える。
【0011】
そのような画像処理方法は、視覚的に類似する誤分類データサンプルと視覚的に類似していない誤分類データサンプルの両方を容易にホストし分類することができる、汎用空間とクラス固有空間を結合する深層ニューラルネットワークを使用する。より詳細には、第1の深層ニューラルネットワークでは、訓練された特徴空間は、非識別情報をフィルタリングし、次のステップで最も識別可能な情報を見つける事前フィルタとして機能する。局所化ステップおよびマッピングステップは、元の画像に関連付けられたラベル付け情報の空間的および確率的な寸法を追加する。第2の深層ニューラルネットワークの訓練ステップの間、この情報は、クラス固有情報を除去することにより、識別クラス固有特徴に基づいて汎用特徴空間を作成するために使用される。クラス固有特徴空間と汎用特徴空間の両方は、視覚的に類似する誤分類データサンプルおよび視覚的に類似しない誤分類データサンプルを効率的に処理するために互いに補完する。さらに、第1の結合深層ニューラルネットワークの訓練ステップの間、汎用特徴空間とクラス固有特徴空間の両方を結合することにより、すべての希少なケースが自動的にクラスタリングされ、これらの希少なケースに対する訓練プロセスにより良く焦点を合わせるが可能になり、したがって、希少なケースを検出し誤警報を減らす精度が上がることをもたらす深層ニューラルネットワーク全体の学習能力が向上する。
【0012】
さらに、方法は、新しい1次結合クラス固有および汎用の特徴/決定空間内でホストされる誤分類エラーの各グループのまわりに新しい誤分類ラベルを形成する。(任意の種類の自然な画像/ビデオである可能性がある)ラベル付けされていないデータの大きいソースを使用することにより、十分なデータサンプルを収集することを保証することが可能であり、その結果、(第1の深層ニューラルネットワークのラベル付けされたデータを訓練する視点から)以前の希少な/ユニークな/見えないケースに視覚的に類似する多くのデータは、一般的なケースと希少なケースの両方が高い分類精度を有する適切な特徴/決定空間を構築することができる、さらなる深層ニューラルネットワークによって使用されるはずである。
【0013】
加えて、ラベル付けされていないデータの大きいソースを使用することにより、第2の結合深層ニューラルネットワークが、一般的なケースと希少なケースの両方が高い分類精度を有する適切な特徴/決定空間を構築することが可能になる。
ラベルの選択されたペアの間の誤分類の優先重要度に関する人間の知識は、ペナルティ行列の形態で導入され、それは、(ペナルティ行列内のラベルの各ペアの間の誤分類に対
するペナルティとして定義される)アプリケーションレベルのリスクの事前推定に従って、希少な/ユニークなケースごとに将来の誤分類ミスを再調整するように、訓練に使用されるラベル付けされていないデータサンプルの分布を制御するために使用される。そのようなペナルティ行列は、訓練段階の前に自動的に定義されるか、強化ループの各反復において人間の専門家によって再定義される可能性がある。
【0014】
有利なことに、第1、第2、および結合の深層ニューラルネットワークは、畳み込みニューラルネットワークである。そのような場合、様々な深層ニューラルネットワークは、2次元入力を使用することを可能にする。
【0015】
有利なことに、識別クラス固有特徴(HEAT−B)の局所化ステップは、
−前記少なくとも1つのクラス固有特徴空間を介して処理された元データのパッチをランダムに抽出するステップと、
−同じ指定されたラベル(Label−A)のすべてのパッチの中から、それらの統計的な人気度によってランダムに抽出されたパッチをランク付けするステップと、
−上位ランクのパッチから始まるビジュアルワード特徴を袋詰めするステップと、
−ビジュアルワード特徴の袋をランダムフォレストツリー分類するステップと、
−識別クラス固有特徴を局所化し、それらの相対的な重要度を推定するために、ランダムフォレストツリー分類を使用して変数重要度測定値を抽出するステップと
から構成される。
【0016】
識別クラス固有特徴を局所化およびマッピングするそのようなステップは、指定されたラベルとともに機能する損失関数を使用している、深層ニューラルネットワークによる特徴/決定空間作成のための正規化プロセスを定義する方法を、空間位置に関連する空間確率ラベル、およびヒートマップの形態で最も識別可能な特徴(すなわち、非クラス固有)の対応する確率を使用するプロセスに再公式化する。そのような特徴/決定空間作成プロセスにより、クラス固有特徴を補完する汎用特徴の特徴/決定空間を訓練することが可能になる。次いで、両方の特徴空間を結合することにより、様々なタイプの誤分類エラーを確実に識別できる深層ニューラルネットワークを訓練することが可能になる、なぜなら、誤分類エラーは、クラス固有特徴/決定空間において以前に不明瞭にマージされた汎用特徴によって識別することもできるからである。
【0017】
有利なことに、ランダムに抽出されたパッチは、前記少なくとも1つのクラス固有特徴空間を介して処理された元データの高レベルの活性化を有し、ビジュアルワード特徴の袋詰めが高ランクのパッチに対して実行され、抽出された変数重要度測定値は、識別性が高いクラス固有特徴を局所化するために、ランダムフォレストツリー分類を使用している。
【0018】
有利なことに、第2の深層ニューラルネットワーク(DNN−C)の訓練ステップは、
−空間確率ラベル(Label−B)をサイズ変更するステップと、
−汎用損失関数によって生成されたフィードバックの後方伝播を介して汎用特徴および決定空間を学習するために、対応するサイズ変更された空間確率ラベルを有する元データのバッチ(またはミニバッチ)を作成するステップと、
−指定されたラベル(Label−A)とは関係なく、識別クラス固有特徴の局所化および確率を推定するステップと、
・元データの希少なケースをサイズ変更された空間確率ラベル(Label−B)に分類するステップと
をさらに含む。
第2の深層ニューラルネットワークのそのような訓練ステップは、識別クラス固有特徴に対応する汎用特徴/決定空間を学習し、希少なケースをサイズ変更された空間確率ラベルに分類するために、前のステップから受け取ったヒートマップをサイズ変更することを
保証する。
【0019】
有利なことに、第1の結合深層ニューラルネットワーク(DNN−D)の訓練ステップは、
−少なくとも1つの汎用特徴空間および少なくとも1つのクラス固有特徴空間を、異なる学習率を有する1次結合クラス固有および汎用特徴空間を形成する少なくとも1つの統合特徴空間に結合するステップと、
−少なくとも1つの汎用決定空間および少なくとも1つのクラス固有決定空間を、1次結合クラス固有および汎用決定空間を形成する少なくとも1つの統合決定空間に結合するステップと、
−第2の深層ニューラルネットワークの汎用損失関数および第1の深層ニューラルネットワークのクラス固有損失関数の結合損失関数を使用して、1次結合指定および空間確率ラベル(Label−A+B)から任意のラベルに属する元データに対するフィードバックを提供するステップと
をさらに含む。
汎用およびクラス固有特徴/決定空間の結合または融合により、任意の種類のラベル付けされた、またはラベル付けされていないデータを用いてそのような結合深層ニューラルネットワークを訓練することが可能になる。
【0020】
有利なことに、汎用特徴空間の学習率は、クラス固有特徴空間の学習率よりも小さい。
【0021】
有利なことに、第2の結合深層ニューラルネットワーク(DNN−F)の訓練ステップは、
−訓練された第1の結合深層ニューラルネットワーク(DNN−D)から開始するステップと、
−ネットワークの能力を向上させて新たに学習された特徴および決定をホストする目的で、必要に応じて隠れレイヤを追加することによって特徴空間および決定空間を拡張するステップと、
−ペナルティ行列に基づいて誤分類に対するより高いペナルティを有する、希少なケースに対してより多くのデータサンプルを使用することにより、第2の結合深層ニューラルネットワークの損失関数またはラベル付けされていないデータのバッチを修正するステップと
をさらに含む。
【0022】
より一般的には、方法は、第2の結合深層ニューラルネットワークの損失関数のための新しい誤分類ラベルを定義し、第2の結合深層ニューラルネットワークは、次いで、元の指定されたラベルに関連する間違いのサブラベル付けを、第1の結合深層ニューラルネットワークからの結合汎用/クラス固有特徴/決定空間において行うことができるので、見えない/希少な誤分類の間違いの位置において特徴/決定空間をより良く学習する。さらに、第2の結合深層ニューラルネットワークは、次いで、ラベル付けされていないデータを使用して、第1の結合深層ニューラルネットワーク(DNN−D)に供給し、新たに定義された間違いのサブラベルごとに十分なデータサンプルを収集することができる。次いで、好ましくは第1の結合深層ニューラルネットワーク(DNN−D)から事前訓練された別の(第2の)深層ニューラルネットワーク(DNN−F)を、元々ラベル付けされていないデータソースから新たに収集されたデータサンプルに対して訓練することにより、以前に見えない/希少な位置における結合特徴/決定空間を効率的に改善することができる。
【0023】
有利なことに、方法は、
−一般的なケースと希少なケース、指定されたラベル(Label−A)、およびペナ
ルティ行列を含む元データ(Data−A)を供給すること、ならびに
−ペナルティ行列に従って、元データの一般的なケースと希少なケースの両方を指定されたラベルに分類するために使用される1次結合決定および特徴空間を出力すること
−によって、第3の結合深層ニューラルネットワーク(DNN−G)を訓練するステップ
をさらに備える。
【0024】
有利なことに、第3の結合深層ニューラルネットワーク(DNN−G)の訓練ステップは、
−ラベル付けされていないデータ(Data−C)および2次誤分類ラベル(Label−C)に対して訓練された第2の結合深層ニューラルネットワーク(DNN−F)から開始するステップと、
−隠れレイヤを追加することによって特徴空間および決定空間を拡張するステップと、
−ペナルティ行列に基づいて誤分類に対するより高いペナルティを有する、希少なケースに対してより多くのデータサンプルを使用することにより、第3の結合深層ニューラルネットワークの損失関数(Loss−A)またはラベル付けされていないデータのバッチを修正するステップと
をさらに含む。
第3の結合深層ニューラルネットワーク(DNN−G)の訓練ステップは、入力されたラベル付けされていないデータを間違いのサブラベルに分類することができる、訓練された第2の結合深層ニューラルネットワーク(DNN−F)から転送された知識を使用する。この第3の結合深層ニューラルネットワーク(DNN−G)は、初期の深層ニューラルネットワーク(DNN−A)と同じ入力および出力構成を有し、したがって、大きい補強ループを作ることを可能にする。別のユニーク/希少なケースと比較して、ユニーク/希少なケースごとに新しいラベルを訓練するために、より多くの訓練データサンプルを提供することにより、一般的なケースおよび希少なケースをホストする可能性がある特徴/決定空間を構築する方法に関する知識転送の産物である、最終(第3の)結合深層ニューラルネットワークにおける誤分類エラーの将来の分布を制御することが可能になる。各反復の間に、ラベル付けされていないデータからの新しいデータサンプルが学習されるはずなので、補強方法は、最終ネットワーク(DNN−G)のさらなる改善を維持しなければならない。
【0025】
有利なことに、2次結合誤分類ラベル(Label−C)への1次結合ラベル(Label−A+B)のマッピングステップは、第2の結合深層ニューラルネットワークと第3の結合深層ニューラルネットワークの両方の訓練ステップとともに、小さい補強ループを形成し、第1の深層ニューラルネットワークの訓練ステップから第3の結合深層ニューラルネットワークの訓練ステップまでのステップは、大きい補強ループを形成する。
このように、誤分類の間違いおよびより良い特徴/決定空間の構築を介して見えない/希少なケースの学習を初期化するために使用された、初期深層ニューラルネットワーク(DNN−A)は、したがって、より正確で信頼できるグローバルネットワークと(DNN−AからDNN−Gへ)置き換えることができ、そのようなプロセス全体を再び繰り返すことができる。各補強ループは、前の段階では学習されていない新しい情報を学習することから恩恵を受け、それは、ラベル付けされていないほとんど無制限のソースからもたらされ、したがって、大幅には飽和しない。
【0026】
より一般的には、上述された本発明の様々な態様は、様々な先行技術の公開文献に大幅な改善をもたらす。
「Distilling the Knowledge in a Neural Network」の公開文献とは対照的に、本発明では、以前に学習されたデータサンプルの近くだけでなく、ペナルティ行列によって定義される誤分類のリスクが高い未知の位置
/領域に焦点を当てることにより他の場所でも、ラベル付けされていないデータを使用して、特徴/決定空間を構築することが提案されている。そのような方法で、本発明は、より正確で強固な分類につながる、これまでは希少な/ユニークな/見えないケース、すなわちデータサンプルのための特徴/決定空間のカバレージを大きくかつ高密度にする。
【0027】
「Generative Adversarial Networks」の公開文献とは対照的に、本発明では、補間的な汎用特徴/決定空間、すなわち、非クラス固有特徴/決定空間を使用することにより、そのような特徴/決定空間を大幅に細分することが可能になり、データの巨大なラベル付けされていないソースを使用することにより、準独立した方式で各部分空間における分類を改善することが可能になる。これは、2つのモデルおよびラベル付けされたデータのみを使用する統合プロセスと比較して、補強飽和レベルがはるかに低くなる。なぜなら、補強方法の場合、各強化ループは新しい(ラベル付けされていない)データを探索し、したがって、現在のデータと以前に学習されたデータとの類似性が高いため、局所的な最小値に留まる可能性がはるかに低いからである。
【0028】
「Explaining and Harnessing Adversarial Example」の公開文献とは対照的に、本発明では、既存のラベル付けされたデータサンプルからのデータ拡張と比較して変動性が高い潜在的に桁違いの大きさを有するラベル付けされていないデータを使用し、誤分類のリスクが高いこれまでは見えない/希少なケースを具体的に検索することを可能にする特徴/決定空間を拡張することによってデータ拡張の問題が対処される。したがって、本発明では、はるかに高い変動性のより多くの対立データサンプルを収集することが可能であり、それにより、より良い特徴/決定空間の構築をもたらし、最終的に、より正確な分類および誤警報のレベル低下をもたらす。
【0029】
「The Virtues of Peer Pressure:A Simple Method for Discovering High−Value Mistakes」の公開文献とは対照的に、本発明では、非クラス固有ラベルを有する結合汎用/クラス固有特徴空間を使用することにより、ラベル付けされたデータを使用して以前に学習された位置/領域に限らず、ペナルティ行列に従って高いアプリケーションリスクに特に焦点を当てて、任意のこれまでは見えない/希少なデータサンプルのまわりの特徴/決定空間を適切に訓練するために、ラベル付けされていないデータから十分なデータサンプルを収集することが可能になる。
【0030】
別の態様によれば、本発明は、
−車両が運転されているときに、少なくとも運転者の視点から見える辿った経路の部分を取り込み、一連のデジタルファイルに変換するように配置された経路取込みユニットと、
−上記の画像処理方法に従って一連のデジタルファイルに基づいて希少なケースを分類するように配置された、深層ニューラルネットワークをホストする処理ユニットと、
−分類された希少なケースに関する情報を表示するように配置された表示ユニットと、
−車両を制御するように配置された自動運転ユニットと、
−分類された希少なケースに応じて、表示ユニットおよび自動運転ユニットのうちの少なくとも1つを作動させるように配置された決定ユニットと
を備える車両に関する。
【0031】
別の実施形態によれば、処理ユニットは、分散補強ループプロセスの最新結果を統合するサービスモードにおいて、クラウドコンピューティング処理リソースを介してオンラインで、またはオフラインで更新されるように配置される。
【0032】
本発明の他の特徴および利点は、添付の図面によって例示される、本発明の特定の非限
定的な例の以下の詳細説明からより明らかになる。
【図面の簡単な説明】
【0033】
図1】本発明の好ましい実施形態による、希少なケースを分類するように深層ニューラルネットワークの学習能力を強化する方法を表す図である。
図2】本発明の好ましい実施形態による段階Aを表す図である。
図3】本発明の好ましい実施形態による段階Bを表す図である。
図4】本発明の好ましい実施形態による段階Cを表す図である。
図5】本発明の好ましい実施形態による段階Dを表す図である。
図6】本発明の好ましい実施形態による段階Eを表す図である。
図7】本発明の好ましい実施形態による段階Fを表す図である。
図8】本発明の好ましい実施形態による段階Gを表す図である。
図9】本発明による方法を実施するために必要なユニットを備えた車両を表す図である。
【発明を実施するための形態】
【0034】
全体的な要約
図1は、本発明の好ましい実施形態による、希少なケースを分類する能力を学習する、畳み込みニューラルネットワークなどの深層ニューラルネットワーク(DNN)を強化する方法を表す。
【0035】
DNNの訓練プロセス全体は、大きい強化ループ(段階I)を形成するいくつかの段階A〜Gを備える。大きい補強ループの中で、段階E−Gは小さい補強ループ(段階H)を形成する。
【0036】
DNN全体に対応する大きい補強ループの入力(段階A)には、画像/ビデオデータなどの元データサンプル(Data−A)、および元データサンプルを分類するために指定されたタグまたはラベル(Label−A)がある。小さい補強ループの入力(段階E)には、広範囲のカテゴリのラベル付けされていないデータサンプル(Data−C)が供給される。任意の画像/ビデオソースから取ることができるラベル付けされていないデータの量は、通常、元データよりもはるかに(100倍以上)高い。ペナルティ行列も段階FおよびGで小さい補強ループに供給される。
【0037】
簡単に述べると、DNN全体の主な目標は、以下のアルゴリズムを使用してDNNの訓練を強化することである。段階Aの間、アルゴリズムは、Data−AおよびLabel−Aを使用して最先端のDNN−Aを訓練する。段階B〜D(大きい補強ループ)の間、アルゴリズムはDNNの隠れレイヤに接続し、汎用特徴として信号活性化を再解釈し、次いで、希少なケースを適切にホスト/分類できる結合特徴/決定空間(1次空間)を作成し、その後に小さい補強ループが続く。
【0038】
段階E〜G(小さい補強ループ)の間、アルゴリズムは1次空間を2次特徴/決定空間にマッピングし、それらをラベル付けされていないデータで満たす。そのような2次空間は、一般的なケースと同様に希少なケースを学ぶために十分なデータサンプルおよびレイヤを有する。ペナルティ行列は、どのように特徴空間が構築されるべきかについてのプライアを与える。プライアは、事実、仮説、または結果に関してエージェント(すなわち、プログラマ)が保持する信念を一般的に指す。一度訓練されると、2次特徴/決定空間は、最先端のDNN−Aの入力および出力に一致するように歪められる。この段階の間、マッピングの品質を直接評価することはできないが、少なくとも2つの間接的な方法を使用することができる。第1に、DNN−Cの正確な評価は、地上検証データが利用可能なその訓練データを訓練/試験バッチにさらに分割することによって行うことができる。第2
に、最終的なパフォーマンスは、以下に起因してマッピングの精度と相関させることができる。より良いマッピングは、より視覚的に類似するラベル付けされていない画像をアンチクラスごとに一緒にグループ化されるようにするはずであり、したがって、より反応が早い特徴/決定は段階E〜Gで学習されるべきであり、一般的なケースと希少なケースの両方を認識する際の最終的な精度が高くなる。
【0039】
ところで、使用され得るラベル付けされていないデータは、品質要件に対処する必要がない。実際、任意の種類の画像は、さらに合成またはランダムに生成されたラベル付けされていないデータとして使用される可能性がある。今日、写真/オーディオをホストするプラットフォームにアクセスすると、誰でも何十億もの画像を取得して、ラベル付けされていないデータを取得することができる。ラベル付けされていない画像のドメインがターゲットドメインに近ければ近いほど、ラベル付けされた/ラベル付けされていないデータの新しく学習された特徴/決定空間の間の重なりが高くなるはずである。特に、自動車用途では、任意の自然/合成の屋外または屋内の画像を使用することができる。最後に、画像の質または解像度は、ほとんどの視覚的特徴が画像の中で反復可能なので、何百万もの画像サンプルを使用する場合に重要な要素ではない。
【0040】
DNN全体の達成目標は、(一般的な知識に基づいて)ペナルティ行列として定義された誤分類の危険にさらされるプライアに応じて、希少/ユニークなケースの分類精度を向上させるように、DNNの学習能力を強化することである。
使用できるDNNの一例はlnception−V3であり、さらなる詳細は、http://arxiv.orq/pdf/1512.00567v3.pdfに与えられている。
【0041】
段階A
図2は、第1の深層ニューラルネットワーク(DNN−A)の訓練の段階Aを表す。
供給されるデータは、画像(Data−A)およびタグ(Label−A)であり、xyの画像は1:Nクラスのインスタンスとしてタグ付けされる。
アルゴリズムはDNN−Aを訓練し、そこで、畳み込みレイヤに関連する特徴空間(Conv−A)と完全に接続されたレイヤに関連する決定空間(FC−A)の両方が、タグ付き画像のミニバッチからの順方向信号を与えられた損失関数(Loss−A)によって生成されるフィードバックの後方伝播を介して構築される。
【0042】
段階Aの出力は決定(FC−A)空間および特徴(Conv−A)空間を含み、それらは、Data−Aのような画像インスタンスをLabel−A指定タグに自動的に分類するためにDNN−Aによって使用される。
段階Aの目標は、訓練された特徴/決定空間が、Data−A内の非識別情報をフィルタリングすることであり、それは、次のステップで最も識別可能な情報を見つける事前フィルタとして機能する。
【0043】
段階B
図3は、「プラグイン」画像およびタグの段階B、ならびに段階Aの「再解釈」出力を表す。
供給されるデータは、段階Aと同じ、すなわち画像(Data−A)およびタグ(Label−A)であり、そこで、xyの画像が1:Nクラスのインスタンスとしてタグ付けされ、段階B向けの入力として強力な活性化のみを維持しながら、画像(data−A)が畳み込みレイヤを通過する。
アルゴリズムは、
−DNN−Aの畳み込みレイヤを介して処理された画像信号の活性化レベルが高いパッチ(Ext−B)のランダム抽出、
−同じクラスのすべてのパッチの中からそれらの統計的人気度によってランダムに抽出されたパッチ(Ext−B)のランク付け(Rank−B)、
−高いランクのパッチ(Rank−B)を使用する(ビジュアル)ワード特徴(BOW−B)の袋詰め、
−(ビジュアル)ワード特徴(BOW−B)変換されたデータの袋のランダムフォレストツリー(RFT−B)分類、
−ランダムフォレストツリー(RFT−B)分類結果を使用して、最も識別可能なパッチを見つけ、それらの相対的重要度を推定する変数重要度(IMP−B)測定、
−最も識別可能なパッチ(IMP−B)の局所化(HEAT−B)および新しい空間確率ラベル(Label−B;ヒートマップxy)としての元データに対するマッピング
により、クラス固有高度識別特徴の位置を見つける。
【0044】
段階Bの出力は、元の画像データとリンクされた、最も識別可能なクラス固有特徴のヒートマップを含む。
段階Bの目標は、ヒートマップが元の画像に関連付けられたラベル付け情報の新しい寸法を加えること(空間確率+指定クラス対指定クラス)である。この情報は、クラス固有情報を削除することにより、汎用特徴空間を作成するために次の段階で使用される。
より具体的には、ランダム抽出パッチは、(たとえば、Conv−AのレイヤNのような)深層ニューラルネットワークの畳み込みレイヤの活性化マップから行うことができる。活性化マップについての説明は、たとえば、http://cs231n.qithub.io/understandinqcnn/から取得することができる。
【0045】
各畳み込みレイヤは、ランダムパッチの抽出に別々に使用されるはずなので、レイヤ1、レイヤ2、…についてのパッチランク付けを行い、その後、融合を行うために最良の結果を選択することができる。また、各フィルタは別々に処理され、構成レイヤn=1:Nのフィルタm=1:Mのそのような活性化マップは、パッチランク付けを行うために使用され、m、nは、パッチランク付けを繰り返すために必要な合計MN回を有する。
通常、第1の畳み込みレイヤには64〜96個のフィルタがあり、その結果、パッチランク付けプロセスは64〜96回計算され、より深層の畳み込みレイヤには128〜512個のフィルタがある、などであり、畳み込みレイヤの数は5〜100である。
【0046】
畳み込みレイヤの活性化マップは疎であり、たとえば、96個のフィルタ−96個の活性化マップがあるので、各フィルタが特定の信号にのみ応答するように調整された場合、高レベルの活性化は、何らかのしきい値を上回る入力信号(すなわち、第1のレイヤ向けの元の画像、または前の隠れレイヤの出力)に対するフィルタの応答レベルに対応する。通常、正規化された活性化マップ、および、対応する正規化された活性化マップにおいて少なくとも活性化レベルが最大値の10%よりも高いピクセルの少なくとも5%を有するものとして、さらなる処理に対して考えられるべきランダムパッチ向けの考えられ得る高い活性化レベルを使用することができる。
【0047】
(ビジュアル)ワードの袋に関しては、たとえば、最も高いランクのパッチの上位5%をビジュアルワードとして考えることができるので、同じクラス向けのすべてのパッチが畳み込みレイヤおよびフィルタごとに別々にランク付けされると、パッチの上位5%を取り、各パッチをビジュアルワードとみなす。そのような場合、レイヤ/フィルタのペアごとに、クラス当たり約200,000個のパッチを収集し、2つのパッチ間の視覚的類似性しきい値を定義する人気度によってそれらをランク付けし、その結果、合計5,000個のビジュアルワードが定義される。言い換えれば、各ビジュアルワードはクラスタの重心とみなすことができるので、それは、200,000個のパッチを5,000個のクラスタにクラスタリングすることに、どことなく類似する。次いで、たとえば、サンプルの密度が最も高い(パッチの上位ランク)、256個のビジュアルワード(すなわちクラス
タ)のみを取ることができる。実際には、ビジュアルワードの5%がサンプルの総数の80%以上に相当する。したがって、全サンプルの20%未満に相当する、ビジュアルワードの残り95%を無視することができる。
【0048】
ランダムフォレストツリーの実装形態に関しては、たとえば、opencv v2.4からの実装形態を使用することができる。さらなる詳細は、http://docs.opencv.Org/2.4/modules/ml/doc/random trees.htmlに与えられる。
変数重要度に関しては、http://www.inside−r.org/packaqes/cran/randomforest/docs/importanceで定義を見つけることができる。
変数重要度を計算するために、様々なフィルタからの特徴ベクトルを一緒に積み重ねることができ、その結果、どのビジュアルワードがそれ自体のフィルタ内で重要であるかだけでなく、すべてのフィルタの中で重要であるかも測定することができる。
【0049】
最も識別可能なパッチの局所化に関しては、本ケース内の一例は以下の通りである。特徴ベクトルとしてBOW概念を使用することにより、対象のクラスと他のすべてのクラスとの間を識別するためにフォレストツリー分類器を訓練する。各ビジュアルワードは、ランダムフォレストツリー分類記を学習する間の変数とみなされ、変数重要度は、(カバーされるパッチの総数の〜80%の非常に識別可能なパッチのみを保持するので)総ビジュアルワードの5%を使用するフォレストツリー分類器の分類パフォーマンスがこのビジュアルワードの寄与にどれだけ依存するかを推定するために計算される。したがって、(前の段階で保持された5%から)どのビジュアルワードが、ランダムツリー分類器にとって多かれ少なかれ重要であるかを知ることができる。したがって、ビジュアルワードの5%のいずれも、パッチランク付けに応じて多かれ少なかれ人気があり得るが、それらの人気度はそれ自体のクラスサンプル内でのみ測定されるので、上位ランクのパッチの5%を取ることによって全サンプルの80%をカバーすることが保証される。次いで、変数重要度を計算することにより、2つのクラスの間を識別するために、ランダムフォレストツリー分類器がこれらのサンプルのうちのどれに依存しているかが理解される。実際、パッチが多くのクラスに人気がある場合、変数重要度は低くなり、ランダムフォレスト分類器がそれらに依存するので、他のクラスでは人気がなく、それら自体のクラスで人気があるパッチのみが高い重要度を有するはずである。
【0050】
さらに、ヒートマップは、空間確率ラベルであるいくつかのあらかじめ定義された着色領域(たとえば、赤色)内のマップ上の最も識別可能なパッチ位置を示す。したがって、Label−Aに従ってラベル付けされた初期画像に対して、そのようなヒートマップが計算される。フィルタごとのランダムに抽出されたパッチは、それらの空間的性質(位置=パッチの中心)によって局所化されるので、ヒートマップを生成することができる。高いランクのパッチの上位5%に視覚的に類似するパッチのみを考慮しなければならず(しきい値を超える活性化を有するすべてのパッチの80%が考慮されるはずである)、次いで確率的性質は、変数重要度測定値を重みとして使用して、個々のパッチの最終的なヒートマップへの寄与を推定することによって与えられる。変数重要度はすべてのフィルタに対して一緒に計算されるので、パッチの位置パッチの重み(変数重要度)を使用することにより、特定の畳み込みレイヤごとにすべてのフィルタ向けの結合ヒートマップを生成することができる。最後に、各ヒートマップは、最小値/最大値の間で0:256の範囲に収まるように正規化される。そのようなヒートマップは、対応する画像のためのLabel−Bサンプルである。
【0051】
段階C
図4は、第2の深層ニューラルネットワーク(DNN−C)のトポロジーマッピングの
段階Cを表す。
供給されるデータは、画像(Data−A)および新しい空間確率タグ(Label−B、ヒートマップxy)である。
アルゴリズムは、
−Label−BからMクラスへのxyヒートマップをサイズ変更することであって、1/sqrt(M)が空間確率ラベル(Label−B)の解像度である、サイズ変更することと、
−Label−Bからの対応するサイズ変更されたラベルを有するData−Aのミニバッチを作成して、画像クラスに依存しない方法で最も識別可能な特徴(HEAT−B)の位置を推定するようにDNN−Cに促す損失関数(Loss−C)によって生成されたフィードバックの後方伝搬を介して、汎用(非クラス固有)特徴(Conv−C)および決定(FC−C)空間を学習することと
によって、DNN−Cを訓練する。
【0052】
段階Cの出力は、汎用特徴空間に基づいてData−Aのような画像インスタンスをサイズ変更された空間確率ラベル(Label−B;ヒートマップ1:M)に自動的にマッピングするためにDNN−Cによって使用される、決定(FC−C)および特徴空間(Conv−C)を含む。
段階Cの目標は、汎用特徴空間が(段階Aで取得された)クラス固有特徴空間と補間的であることであり、その結果、2つの空間の後の融合がDNNの学習能力を向上させるに違いない。
【0053】
空間確率ラベル(Label−B)の解像度に関して、最大解像度はパッチが計算される畳み込みレイヤの活性化マップの寸法によって定義される。たとえば、56×56の第1の畳み込みレイヤの活性化マップを使用することができ、したがって、Mは56×56より小さいか等しい。第2の考慮点は収集できるサンプルの数であり、それはm=1:Mクラスの各々に対応する。たとえば、1:Mクラス当たり1,000個のサンプルがDNNを後の段階に訓練するのに十分であると考えることができる。したがって、56×56クラス(すなわち、3,136)を選択する場合、訓練のために最小3,136.000サンプルを収集する必要があるはずである。実際には、1:Mの中のすべてのクラスがサンプルの等しく分布を有するとは限らないので、以前推定された3,136.000と比較して必要とされる10〜100倍の現実的な推定値を与える、少なくとも1,000サンプルを1:Mクラスの各々が有することを確認する必要がある。したがって、クラスMの数は56×56未満であるが、画像Data−Aの総数を1,000で割った値よりも多いと判断される。本ケースでは、データ拡張を使用して、Mの間の希少なクラスのサンプル数を10〜100倍に増やすことができる。たとえば、Data−A内の画像の総数が1,000,000である場合、Mを32×32=1,024と定義する。
【0054】
空間確率ラベルの解像度に関しては、空間部分はヒートマップの解像度にリンクされ、クラスの数Mを定義し、確率部分は、訓練段階中の1:Mクラスの各々のサンプルの分布を定義し、その結果、より高い確率を有するLabel−Bからのラベルを有するサンプルは、より低い確率のサンプルと比較して、訓練中に過剰表示されるはずである。
ミニバッチの作成に関しては、DNNの訓練段階は一連のより小さい段階に分割され、各々のより小さい段階において、データの小さいランダムに選ばれた部分(すなわちミニバッチ)のみが、損失を計算し後方伝搬を行うために使用される。これは、計算の複雑さを大幅に減らし、局所的な最小値を回避することに役立つ。たとえば、各ミニバッチは、1,000,000個以上のうちの200個のランダムに選択されたサンプルから構成することができる。
【0055】
汎用特徴に関しては、それらは特定のクラスにリンクされていない特徴であり、様々な
クラスの様々なオブジェクトの間で共有することができる。段階Cの間、物体の識別部分を局所化し、それらの確率(たとえば、それがどれほど識別可能か)を推定することをDNN−Cに学習させる。この情報がクラス固有であった段階Bと比較して、それは、Label−Bに従って同じクラスMを有するLabel−Aからのすべてのクラスのサンプルを(段階Cにおいて)同じカテゴリに混合することにより、汎用的な情報に変換される。DNN−Cの出力はクラスに依存しない(汎用的)ようになるので、訓練中にそのようなDNN−Cによって学習された特徴も汎用的である。
【0056】
段階D
図5は、1次結合深層ニューラルネットワーク(DNN−D)における1次結合特徴/決定空間の段階Dを表す。
供給されるデータは、画像(Data−A)およびタグ(Label−A;1:Nクラス)およびサイズ変更された空間確率タグ(Label−B;1:Mクラス)である。
アルゴリズムは、
−初期特徴空間を別のものに歪め、任意に新しいレイヤ(Conv−D)を追加して結合特徴(Conv−C→A→D)を学習するように、AレイヤおよびCレイヤ向けの異なる学習率で事前訓練を使用して、Conv−CおよびConv−Aを統合特徴空間(Conv−C→A)に結合することと、
−結合決定(FC−C→A→D)を学習するために決定空間用の前のステップを繰り返すことと、
−Loss−CおよびLoss−Aの結合損失関数を使用して、MNのうちのクラスの1つに属する画像信号ごとにフィードバックを提供することと
によって、DNN−Dを訓練する。
【0057】
段階Dの出力は決定(FC−C→A→D)空間および特徴(Conv−C→A→D)空間を含み、それらは、Data−Aのような画像インスタンスを結合汎用/クラス固有特徴空間(「1次」と呼ばれるLabel−A+B)に自動的にマッピングするためにDNN−Dによって使用される。
段階Dの目標は、すべての希少なケースが自動的にクラスタリングされ得るように、汎用特徴空間とクラス固有特徴空間の両方を結合することである。DNN−Aによる同じクラス固有クラス(1:N)を有する多くの希少なケースは、DNN−Dによって汎用/クラス固有サブクラス(1:MN)に繰り返し細分される。さらに、希少なケースが同じクラス特有特徴を提示する場合でも、それらは、希少なケースとは異なるはずのそれらの汎用特徴によって別のケースと識別することができ、次いで、これらの希少なケースでより良く訓練され、したがって精度を高め、誤警報を減らすことに役立つ。
【0058】
DNN−Dでは、DNN−AおよびDNN−Cからの転送学習が使用される。したがって、たとえば、汎用特徴は、以前のレイヤではほとんど使用されているが、より深層のレイヤではクラス固有特徴が使用されているとみなすことができる。段階Dにおいて、次いで、DNN−Dは、DNN−Aの場合の1:NまたはDNN−Cの場合の1:Mの代わりに出力数MNを有するはずなので、最終的に完全に接続されたレイヤを除いてDNN−Dの同じ構成を考慮することができる。たとえば、DNN−A、DNN−C、およびDNN−Dが、最終的に完全に接続されたレイヤを除いてすべてのレイヤに対して同じ構成を有するように定義することができる。次いで、重みの初期化を介して転送学習を有するように、DNN−Cから完全に接続されたレイヤを有する最終的なレイヤを除いてすべてのレイヤを初期化することにより、ラベルMNでDNN−Dの訓練を開始することができる。したがって、完全に接続されたレイヤはより高い学習率で再訓練されるようになるので、それらを積み重ねることができる。
【0059】
学習率に関しては、それは、レイヤごとのDNNに対する各後方伝搬段階における変化
がどれほど重要であるかを定義する。たとえば、高い学習率の場合、後方伝搬は、各訓練反復においてDNN接続をかなり修正するはずである。現在のケースでは、たとえば、第1の隠れレイヤは主にDNN−Cに関連し、より深層の隠れレイヤは主にDNN−Aに関連すると考えることができる。最初の隠れレイヤ向けの学習率を小さくした場合、それらは、ネットワークの他の部分よりも大幅に少なく修正されるはずなので、汎用特徴のほとんどが保持されるはずであると考えることができる。しかし、学習率はゼロではないので、これらの汎用特徴が飽和からの後方伝搬を防ぐためにわずかに適合されることが可能になる。次いで、より深層のレイヤおよび完全に接続されたレイヤ向けのかなり高い学習率を使用した場合、DNN−Cにおいて訓練された重みをほとんど忘れ、新しいラベルMNにより良く対応するようにそれらを適合させる。この場合、ラベルはMNであるはずなので、ラベルを介して転送学習を有するはずである。
【0060】
結合損失関数(Loss−D)に関しては、たとえば、DNN−Cは入力画像を1:Mクラスに分類するように訓練され、DNN−Aは入力画像を1:Nクラスに分類するように訓練される。段階Dの間、入力画像ごとに、それに対してLabel−Aからラベルn=1:Nをすでに有しているので、ラベルm=1:Mを推定するためにそれをDNN−Cに通すことができる。後で、結合ラベルmn=nM+mを構築することができる。そのようにして、段階D向けの可能なラベルの総数はMNである。DNN−DはDNN−Cで事前訓練されているので、ラベル1:Mを予測するために必要な特徴をすでに有しているはずであり、この知識が転送されたことを知っている。次いで、DNN−Dがラベルmn=1:MNで訓練され、その結果、損失関数は結合損失関数(Loss−CおよびLoss−A)に類似するはずである。損失関数に関しては、DNN−Dは、入力画像ごとに、MN個のカテゴリのうちのそのカテゴリmnを分類するべきなので、誤分類のコストは、分類が正しい場合は0であり、分類が正しくない場合は1である。したがって、DNN−Dは、認識できないオブジェクトのクラス1:Nに対して罰せられ、同時にこのオブジェクトについての最も識別可能な特徴の位置を推定しないはずである。
【0061】
段階E
図6は、ラベル付けされていないデータを2次クラスにマッピングする段階Eを表す。
供給されるデータは、画像(Data−A)よりもはるかに高いスケールのラベル付けされていない画像(Data−C)である。
アルゴリズムは、
−DNN−Dを使用して、Data−Cの各ラベル付けされていないデータサンプルに1:MN汎用/クラス固有タグ(「1次」と呼ばれるLabel−A+B)のうちの1つを割り当てることと、
−「1次」カテゴリ(Label−A+B)から、(DNN−Dによって分類された)同様に見えるすべてのオブジェクトに対してオブジェクトの「1次」カテゴリに割り当てられるべきであるが、実際はこのカテゴリに属していない、以前存在しなかった種類のオブジェクトの「2次」カテゴリにマッピングすることと
によって、Data−Cからラベル付けされていないデータサンプルを分類する。したがって、実際の「1次」カテゴリは、仮想2次カテゴリ(1:MN)にマッピングされる。
【0062】
段階Eの出力は、1次空間に関連する1:MNクラスの2次空間(Label−C;1:MNクラス)内の割り当てられたタグを含む。これらの割り当てられたタグ(Label−C)は、2次結合指定および空間確率誤分類ラベルとも呼ばれる。
段階Eの目標は、DNN−Dが実際の希少なケース対希少なケースの誤警報を正確に分類するように適切に訓練され得るように、ラベル付けされていないデータ(Data−C)の十分に大きいソースを使用することにより、希少なケースの各「2次」バージョンに関連する十分なデータサンプルを常に見つけることである。
【0063】
ラベル付けされていない画像データ(Data−C)に関しては、このデータは、元データ(Data−A)と比較してはるかに大きいデータコーパスに関連する。好ましくは、Data−Cは、Data−A内のサンプルと少なくともいくつかの視覚的に類似するサンプルを有することが必要である。通常、Data−CはData−Aの100倍以上であり、その結果、特定のクラスに対応するラベル付けされていないデータの部分のみを使用する可能性は極めて小さく、したがって無視することができる。
【0064】
以前は存在しなかった種類のオブジェクトの「2次」カテゴリに関しては、それは、ラベル付けされていないデータを使用するDNN−Dの誤分類エラーにのみ対応する。段階DでDNN−Dを訓練することから開始して、画像をMNクラス、言い換えれば、実際のオブジェクトに関連する「1次」カテゴリに分類する。その上、段階Eにおいて、MN個のカテゴリの各々に入る誤分類エラーが互いにどのように異なっているかという疑問を尋ねる。「1次」はオブジェクト分類に関連し、「2次」はエラー分類に関連する。多くの様々な誤分類エラーは、様々な実際のオブジェクト、これまでラベル付けされていないオブジェクトおよびラベル付けされたオブジェクトに関連するので、それはDNN−Dによって同じカテゴリ1:MNに分類される可能性がある。この新しい「2次」カテゴリは、これまで存在しなかった種類のオブジェクトと呼ばれる。
【0065】
段階F
図7は、2次結合深層ニューラルネットワーク(DNN−F)における2次結合特徴/決定空間の段階Fを表す。
供給されるデータは、段階Eで自動的にラベル付けされたデータおよびペナルティ行列から構成される、ラベル付けされていない画像(Data−C)および割り当てられたタグ(Label−C)である。
アルゴリズムは、
−事前訓練されたDNN−Dから開始し、より多くのレイヤを追加することによって特徴空間および決定空間をさらに拡張することと、
−ペナルティ行列で提供されたデータを使用して、誤分類に対するより高いペナルティを有する希少なケースに対してより多くのサンプルを使用することにより、ミニバッチの損失関数または組成を修正することと
によって、DNN−Fを訓練する。
段階Fの出力は、オフラインで定義されたペナルティ行列に従って、高いペナルティを有する希少なケースサンプルのために構築された2次結合特徴/決定空間である。
段階Fの目標は、事前知識、すなわちペナルティ行列に従って、誤警報のリスクレベルが高い頻繁なケースと希少なケースの両方を最も良くホストする特徴/決定空間を作成することである。
【0066】
修正された損失関数ステップに関しては、一例は以下の通りであり得る:DNN−Fは、入力画像ごとに、MN個のカテゴリからそのカテゴリmnを分類するべきなので、誤分類のコストは、分類が正しい場合は0になり、分類が正しくない場合は1(ペナルティ)になるはずである。したがって、DNN−Fは、認識できないオブジェクトのクラス1:Nに対して罰せられ、同時にこのオブジェクトについての最も識別可能な特徴の位置を推定しないはずである。
【0067】
ペナルティは、(Mとは無関係の)NNクラスのペアごとに訓練より前に定義される。たとえば、クラス1対クラス2を除くクラスのすべてのペアに対してそのようなペナルティが1である場合、損失関数は、クラスMN(N=1)からのサンプルがMN(N=2)として誤分類される場合を除くすべてのケースについて、DNN−Dにあるように同様であるはずであり、ここでMは任意であり得る。次いで、ペナルティは10と定義す
ることができ、したがって、誤分類エラーは、他のケースと比較して、このケースの場合10倍のコストがかかり、その結果、後方伝搬段階において、それは任意の他のサンプルよりもニューラルネットワークの重みの更新にかなり大きい影響を及ぼすはずである。別の修正形態は、任意の他のペアのクラスと比較して、クラス1対2の誤分類に関連する希少なケースの場合、10倍のサンプルの使用に関連する可能性がある。このように、特定のクラスのより多くのサンプルを人為的に使用することにより、DNNは、それらを識別するために必要とされる特徴をより良く学習するように強制されるはずである。これにより、この知識が転送されるので、段階Gにおける最終深層ニューラルネットワークによるこれらのエラーのより良い認識がもたらされる。
ペナルティ行列に関しては、それは、たとえばNN行列であり得るし、ここで、NはLabel−Aからのクラスである。そのような行列は、外部のアプリケーション知識を使用して、システムエンジニアによって定義される。各値は、行と列で定義されたクラスの特定のペア間の誤分類に関連付けられた正規化されたアプリケーションリスクを表す。
【0068】
段階G
図8は、深層畳み込みニューラルネットワーク(DNN−G)においてホストされる「元の」特徴/決定空間を訓練する段階Gを表す。
供給されるデータは、画像(Data−A)およびタグ(Label−A)およびペナルティ行列である。
アルゴリズムは、
−事前訓練されたDNN−Fから開始し、より多くのレイヤを追加することによって特徴空間および決定空間をさらに拡張することと、
−ペナルティ行列で提供されたデータを使用して、誤分類に対するより高いペナルティを有する、希少なケースに対してより多くのサンプルを使用することにより、ミニバッチの損失関数または組成を修正することと
によって、DNN−Gを訓練する。
【0069】
段階Gの出力は、オフラインで定義されたペナルティ行列に従って、高いペナルティを有する希少なケースサンプルのために構築された、かなり大きい容量MNを有する事前訓練された2次空間から歪められた、1次結合特徴/決定空間である。
段階Gの目標は段階Fと同じであり、入力および出力は、補強ループを閉じるためにDNN−Aの元のデータフローと互換性がある。
段階Gに関しては、ペナルティ行列で定義されたプライアに従って段階Fで希少なケースを分類する能力においてもたらされた知識転送のシーケンスを行ったので、このレイヤがDNN−Fの分類結果1:MNを1:Nの初期クラス空間に再ルーティングするように、DNN−Fの最後に1つの完全に接続されたレイヤを積み重ねることが望ましい。
【0070】
より一般的には、DNN全体に関して、以前の知識に基づいてDNNが訓練される各段階において、新しい知識が獲得され、チェーンに沿ってさらに転送される。そのような手順で、希少なケースに近く、以前に学習されたサンプルから遠く離れた多くのサンプルを収集することにより、特徴空間および決定空間が改善されている。このプロセスは、希少/ユニークなケースなどの、統計的に過小評価されているサンプルを分類する際の不確実性を低減する。段階Gにおいて、ラベル付けされたサンプルLabel−Aのまわりで最初に訓練された特徴/決定空間は、この段階において大部分の誤分類ケースの近くの汎用的な特徴およびサンプルによって増強される。したがって、これらのサンプルのいずれも正確に分類することができた。
【0071】
図9は、本発明のための1つの可能な用途を表す。
車両100は、車両が運転されているときに、少なくとも運転者の視点から見える辿った経路の部分を取り込み、一連のデジタルファイルに変換するように配置された経路取込
みユニット(200;210)を備えている。そのような経路取込みユニットは、移動中に道路の前方を指してビデオまたは連続する一連の画像を撮影する、カメラ200および/またはレーザ光走査ユニット(LIDAR)などの360°走査ユニット210である。
【0072】
車両100はまた、
−本発明の画像処理方法に従って、一連のデジタルファイルに基づいて一般的なケースと希少なケースの両方を分類するように配置された、深層ニューラルネットワークをホストする処理ユニットと、
−分類された一般的なケースおよび希少なケースに関する情報を表示するように配置された表示ユニットと、
−車両を制御するように配置された自動運転ユニットと、
−分類された希少なケースに応じて、表示ユニットおよび自動運転ユニットのうちの少なくとも1つを作動させるように配置された決定ユニットと
を備える。
【0073】
添付の特許請求の範囲によって規定される本発明の範囲から逸脱することなく、本明細書に記載された本発明の様々な実施形態に、当業者には明らかな様々な修正および/または改善をもたらすことができることが理解されよう。
図1
図2
図3
図4
図5
図6
図7
図8
図9