IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特表2023-514294オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス
<>
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図1
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図2
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図3
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図4
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図5
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図6
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図7
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図8
  • 特表-オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-05
(54)【発明の名称】オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法及びそれを利用したアクティブラーニングデバイス
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230329BHJP
   G06N 7/01 20230101ALI20230329BHJP
   G06N 20/00 20190101ALI20230329BHJP
【FI】
G06T7/00 350B
G06N7/01
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022549370
(86)(22)【出願日】2021-03-29
(85)【翻訳文提出日】2022-08-16
(86)【国際出願番号】 KR2021003824
(87)【国際公開番号】W WO2021225279
(87)【国際公開日】2021-11-11
(31)【優先権主張番号】63/021,809
(32)【優先日】2020-05-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/135,033
(32)【優先日】2020-12-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
【氏名又は名称原語表記】STRADVISION,INC.
【住所又は居所原語表記】Suite 304-308,5th Venture-dong,394,Jigok-ro,Nam-gu,Pohang-si,Gyeongsangbuk-do 37668 Republic of Korea
(74)【代理人】
【識別番号】100121728
【弁理士】
【氏名又は名称】井関 勝守
(74)【代理人】
【識別番号】100165803
【弁理士】
【氏名又は名称】金子 修平
(74)【代理人】
【識別番号】100170900
【弁理士】
【氏名又は名称】大西 渉
(72)【発明者】
【氏名】金桂賢
(72)【発明者】
【氏名】權成顔
(72)【発明者】
【氏名】金鎔重
(72)【発明者】
【氏名】康鳳男
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096HA09
5L096KA04
5L096KA15
(57)【要約】
オブジェクトディテクタ(OD)用ベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニング方法は、(a)テストイメージをODに入力してクロップされたイメージを生成し、テストイメージと該イメージとをリサイズ後データエンコーダに入力してデータコードを出力し(b)(b1)テストイメージをODに入力してベイジアン出力エンベディングを適用し、アクティベーションエントロピーマップ(AEM)とクロップされたAEMとをリサイズするか、リサイズされたオブジェクトイメージを入力してベイジアン出力エンベディングを適用し、(b2)リサイズされたAEMをモデルエンコーダに入力してモデルコードを出力し(c)リファレンスデータコードを確認しレアサンプルに特定のテストイメージを選択してデータコードブックをアップデートし、リファレンスモデルコードを確認しハードサンプルに特定のテストイメージを選択する。
【選択図】図9
【特許請求の範囲】
【請求項1】
オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法において、
(a)テストイメージが獲得されると、アクティブラーニングデバイスが、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させる段階;
(b)前記アクティブラーニングデバイスが、(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させる段階;及び
(c)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定する段階;
を含む方法。
【請求項2】
(d)前記アクティブラーニングデバイスは、前記以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させる段階;
をさらに含む、請求項1に記載の方法。
【請求項3】
前記(b)段階で、
前記アクティブラーニングデバイスは、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する、請求項1に記載の方法。
【請求項4】
前記(a)段階で、
前記アクティブラーニングデバイスは、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする、請求項1に記載の方法。
【請求項5】
前記(c)段階で、
前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、
前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である、請求項1に記載の方法。
【請求項6】
前記(a)段階以前に、
(a1)前記アクティブラーニングデバイスが、前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させる段階;
をさらに含む、請求項1に記載の方法。
【請求項7】
(a2)前記アクティブラーニングデバイスが、前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成する段階;
をさらに含む、請求項6に記載の方法。
【請求項8】
前記(a)段階以前に、
(a3)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させる段階;
をさらに含む、請求項1に記載の方法。
【請求項9】
(a4)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成する段階;
をさらに含む、請求項8に記載の方法。
【請求項10】
前記アクティブラーニングデバイスは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する、請求項9に記載の方法。
【請求項11】
オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニングを遂行するアクティブラーニングデバイスにおいて、
オブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ;及び
前記メモリに格納されたインストラクションによってオブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するプロセッサ;
を含み、
前記プロセッサは、(I)テストイメージが獲得されると、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させるプロセス、(II)(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させるプロセス、及び(III)(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定するプロセスを遂行する、アクティブラーニングデバイス。
【請求項12】
前記プロセッサは、(IV)以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
【請求項13】
前記プロセッサは、前記(II)プロセスで、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する、請求項11に記載のアクティブラーニングデバイス。
【請求項14】
前記プロセッサは、前記(I)プロセスで、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする、請求項11に記載のアクティブラーニングデバイス。
【請求項15】
前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、
前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である、請求項1に記載のアクティブラーニングデバイス。
【請求項16】
前記プロセッサは、前記(I)プロセス以前に、(I01)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
【請求項17】
前記プロセッサは、(I02)前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成するプロセスをさらに遂行する、請求項16に記載のアクティブラーニングデバイス。
【請求項18】
前記プロセッサは、前記(I)プロセス以前に、(I03)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させるプロセスをさらに遂行する、請求項11に記載のアクティブラーニングデバイス。
【請求項19】
前記プロセスは、(I04)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成するプロセスをさらに遂行する、請求項18に記載のアクティブラーニングデバイス。
【請求項20】
前記プロセッサは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する、請求項19に記載のアクティブラーニングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年5月8日に米国特許庁に出願された米国特許出願第63/021,809号及び2020年12月28日に米国特許庁に出願された米国特許出願第17/135,033号に基づいて出願され、これに対して優先権を主張し、その全体内容が参照として本明細書に含まれる。
【0002】
本発明は、オブジェクトディテクションのためのアクティブラーニング(active leaning)方法及びそれを利用したアクティブラーニング装置に関し、より詳細には、イメージ上に特定の類型のオブジェクトが登場するか否か及びイメージのシーン(scene)特性を反映し、アクティブラーニングによってイメージを選択した理由を知ることができるようにし、これによって特定の類型のイメージをサンプリングすることができるようにするオブジェクトディテクタのためのベイシアンデュアルオートエンコーダ(Bayesian dual autoencoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法及びそれを利用したアクティブラーニングデバイスに関する。
【背景技術】
【0003】
最近、マシンラーニング(machine learning)を利用して物体の識別などを遂行する方法に対する研究が行われている。
【0004】
このようなマシンラーニングのうちの一つとして、インプットレイヤ(input layer)とアウトプットレイヤ(output layer)との間に複数のヒドゥンレイヤ(hidden layer)を有する神経網を利用したマシンラーニング(machine learning)であるディープラーニング(deep learning)は、高い識別性能を有している。
【0005】
そして、ディープラーニングを利用するニューラルネットワーク(neural network)は、一般的にロス(loss)を利用したバックプロパゲーション(backpropagation)を通じて学習をする。
【0006】
このようなディープラーニングネットワークの学習のために、従来は、データ収集政策に従ってロー(raw)データを収集し、ヒューマンラベラーが収集されたローデータをアノテーション(annotation)することで新しいトレーニングデータを生成する。以後、新しいトレーニングデータと既存のトレーニングデータとを利用してディープラーニングネットワークを学習させた後、ヒューマンエンジニアが性能を分析した結果を参照することで、ディープラーニングネットワークの学習のための学習アルゴリズムを修正及び改善する。また、分析した結果を参照することで、データ収集政策を変更し、誤ったアノテーションがあるか否かを再検査し、修正する。
【0007】
しかし、ディープラーニングネットワークの性能が良くなる程、学習に有用なハードエグザンプル(hard example)は希少となるため、新しいトレーニングデータによるディープラーニングネットワークの性能向上効果が減少するだけでなく、ラベルされたイメージに対するデータベースが大きくなる程、ディープラーニングネットワークの性能向上効果が減少し、それに応じて、ヒューマンラベラーによるデータアノテーションの投資収益が減少する。
【0008】
一方、このような問題点を解決するために、従来は、収集されたすべてのアンラベルされた(unlabeled)イメージをラベリングする代わりに、ラベルされたイメージを格納するデータベースのサイズ及び学習させようとするモデル性能などの、現在の状況で効果が大きいと予想されるアンラベルされたイメージのみを選び、ラベリングするアクティブラーニング技術が利用されている。
【0009】
このような従来のアクティブラーニング技術においては、データ分布の観点からまれに獲得可能なデータを重要に取り扱っており、このために様々なサブスペース(subspaces)またはパーティション(partitions)からのクエリング(querying)、探索(exploration)と利用(exploitation)との間のバランス(balance)などが利用されている。
【0010】
様々なサブスペースまたはパーティションからのクエリングでは、オリジナルフィーチャー(feature)スペースのオーバーラッピングされないか、最小限にオーバーラッピングされるパーティションからアンラベルされたデータを選択する。そして、探索と利用との間のバランスでは、エグザンプルの選択は、データスペースの表現(represent)に対する探索と利用との間のジレンマと見なされる。各ラウンド(round)で、この接近方式はプール(pool)にサンプリング分布を割り当て、この分布から一地点をサンプリングする。
【0011】
また、従来のアクティブラーニング技術においては、イメージを認識するためのニューラルネットワークモデルの観点から難しいデータ、即ち、データの種類がレア(rare)であるため、ニューラルネットワークモデルにおける学習が不十分だったデータであるか、本来からニューラルネットワークモデルで認識し難いデータを重要に取り扱っており、このためにコミッティ(committee)によるクエリ、アンサーティンティ(uncertainty)サンプリングなどが利用されている。
【0012】
コミッティによるクエリでは、様々なモデル(コミッティ)が出力に対して投票し、最も同意しないアンラベルされたデータを選択する。
【0013】
そして、アンサーティンティサンプリングでは、正しい出力が何であるかに対して現在モデルが一例として、クラシフィケーションのためのソフトマックス(softmax)出力スコアの側面で、最も確実でないアンラベルされたデータを選択する。
【0014】
しかし、従来のアクティブラーニング技術は、クラシフィケーションの問題に限定されている。
【0015】
即ち、従来のアクティブラーニング技術は、クラシフィケーションの問題では、与えられたH×Wの大きさのイメージ全体をフィーチャースペースにマッピングすることで、全体的に類似したシーン同士が同一のサブスペースに属するようにしている。
【0016】
しかし、従来のアクティブラーニング技術は、オブジェクトディテクションの問題では、レアイメージを判別することが困難である。
【0017】
一例として、類似した距離シーンで、歩行者の有無によって互いに異なるサブスペースにマッピングしなければならないが、従来のアクティブラーニング技術は、同一のサブスペースに分類するという問題点がある。
【0018】
また、従来のアクティブラーニング技術は、ストップサイン(stop sign)が登場するイメージの場合、全体のイメージ内で極めて小さい領域のみで他のサブスペースにマッピングすることができないという短所がある。
【0019】
即ち、1920×1080の大きさのイメージ内でストップサインが存在する領域は、50×50の大きさ、100×100の大きさなど、極めて小さい領域に属し、仮りに、ストップサインが登場するイメージを選ぶとすると、該当領域を除いた他の部分は全て無視しなければならないが、従来のアクティブラーニング技術ではこれを具現することができないという短所がある。
【0020】
特に、従来のアクティブラーニングは、データ分布の観点から、まれだといって必らず性能が悪いものではなく、小さいオブジェクト、暗い環境などのように頻繁に登場するが難しい場合もあり得る。また、ハードサブスペースである場合、イージー(easy)サブスペースよりも多く選択しなければならないが、どのくらい多く選択するかに対する最適なバランスを見つけることが容易ではない。
【0021】
そして、アンサーティンティサンプリングにおいて、主にモデルがオーバーフィッティング(overfitting)された場合、100%に近い確信を持って誤答を下す場合も多いが、このようなハードエグザンプルは全く選び出せないという問題点がある。
【0022】
一方、コミッティによるクエリでは、特定のサブスペースで複数のモデルが全部オーバーフィッティングまたはアンダーフィッティング(underfitting)された可能性は低いため、ハードエグザンプルをもう少しよく見つけ出せるという長所があるが、我々が学習しようとするニューラルネットワークモデルは通常1個であるのに対し、コミッティによるクエリは、複数のモデルの間の出力ミスマッチ(mismatch)を通じて一般的なハードエグザンプルを見つけるため、ターゲットモデル固有の現在の弱点、一例として、オーバーフィッティングまたはアンダーフィッティングサブスペースを見つけることができないという問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0023】
本発明は、上述した問題点を全て解決することをその目的とする。
【0024】
本発明は、アクティブラーニングにおいて、オブジェクトの類型によるレアサンプルを容易に獲得することを他の目的とする。
【0025】
本発明は、アクティブラーニングにおいて、特定の類型のオブジェクトが登場するか否か及び全体のシーンの特性を反映したレアサンプルを獲得することをさらに他の目的とする。
【0026】
本発明は、アクティブラーニングにおいて、レアサンプルを選択した理由を容易に確認可能にすることをさらに他の目的とする。
【0027】
本発明は、アクティブラーニングにおいて、獲得されたレアサンプルから特定の類型のアンラベルされたイメージのみを容易に選択することをさらに他の目的とする。
【0028】
本発明は、アクティブラーニングにおいて、データ分布の観点からのレアサンプルとモデルの観点からのハードサンプルとを容易に獲得することをさらに他の目的とする。
【課題を解決するための手段】
【0029】
本発明の一実施例によると、オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニング方法において、(a)テストイメージが獲得されると、アクティブラーニングデバイスが、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させる段階;(b)前記アクティブラーニングデバイスが、(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させる段階;及び(c)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定する段階;を含む方法が提供される。
【0030】
(d)前記アクティブラーニングデバイスは、前記以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させる段階;をさらに含む。
【0031】
前記(b)段階で、前記アクティブラーニングデバイスは、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する。
【0032】
前記(a)段階で、前記アクティブラーニングデバイスは、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする。
【0033】
前記(c)段階で、前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である。
【0034】
前記(a)段階以前に、(a1)前記アクティブラーニングデバイスが、前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させる段階;をさらに含む。
【0035】
(a2)前記アクティブラーニングデバイスが、前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成する段階;をさらに含む。
【0036】
前記(a)段階以前に、(a3)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させる段階;をさらに含む。
【0037】
(a4)前記アクティブラーニングデバイスが、(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成する段階;をさらに含む。
【0038】
前記アクティブラーニングデバイスは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する。
【0039】
また、本発明の他の実施例によると、オブジェクトディテクタのためのベイジアンデュアルエンコーダ(Bayesian dual encoder)を利用したエクスプレイナブル(explainable)アクティブラーニングを遂行するアクティブラーニングデバイスにおいて、オブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ;及び前記メモリに格納されたインストラクションによってオブジェクトディテクタのためのベイジアンデュアルエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するプロセッサ;を含み、前記プロセッサは、(I)テストイメージが獲得されると、前記テストイメージをオブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させ、前記テストイメージのそれぞれから前記テスト用バウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたイメージ乃至テスト用第n(前記nは1以上の整数である)クロップされたイメージを生成し、前記テストイメージ及び前記テストイメージのそれぞれに対応する前記テスト用第1クロップされたイメージ乃至前記テスト用第nクロップされたイメージを同一のサイズにリサイズしてテスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージを生成し、前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをデータエンコーダに入力することで、前記データエンコーダをもって前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージをエンコーディングして前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージに対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させるプロセス、(II)(i)前記テストイメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テストイメージのそれぞれをm(前記mは2以上の整数である)回モンテカルロドロップアウトを遂行して前記テストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用アクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップのそれぞれから前記テスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第o(前記oはn以下の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記テスト用アクティベーションエントロピーマップ及び前記テスト用アクティベーションエントロピーマップに対応する前記テスト用第1クロップされたアクティベーションエントロピーマップ乃至前記テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたイメージ乃至前記テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させ、前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをベイジアン出力エンベディングして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成し、前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをモデルエンコーダに入力することで、前記モデルエンコーダをもって前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップに対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させるプロセス、及び(III)(i)前記オブジェクトディテクタの以前の学習に使用された以前の学習イメージによって生成されたデータコードブック(前記データコードブックは、前記以前の学習用イメージにおけるデータコード別リサイズされたイメージの個数を整理したものである)を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンスデータコードを確認し、前記第1データコード乃至前記第n+1データコードのうち前記リファレンスデータコードにマッチングする第1特定のデータコードを抽出し、前記第1特定のデータコードに対応する第1特定のテストイメージを前記オブジェクトディテクタの再学習のためのレアサンプルに選定し、前記レアサンプルに対応する第2特定のデータコードを参照することで前記データコードブックをアップデートし、(ii)前記オブジェクトディテクタの再学習の以前に検証イメージによって生成されたモデルコードブック(前記モデルコードブックは、前記検証イメージにおけるモデルコード別リサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を整理したものである)を参照することで、エントロピースレッショルド以上であるアベレージエントロピー値に対応するリファレンスモデルコードを確認し、前記第1モデルコード乃至前記第o+1モデルコードのうち前記リファレンスモデルコードにマッチングする特定のモデルコードを抽出し、前記特定のモデルコードに対応する第2特定のテストイメージを前記オブジェクトディテクタの再学習のためのハードサンプルに選定するプロセスを遂行する、アクティブラーニングデバイスが提供される。
【0040】
前記プロセッサは、(IV)以前の学習用イメージ、前記レアサンプル、及び前記ハードサンプルを利用して前記オブジェクトディテクタを再学習させるプロセスをさらに遂行する。
【0041】
前記プロセッサは、前記(II)プロセスで、(i)前記テスト用第1フィーチャーマップ乃至前記テスト用第mフィーチャーマップをバイナリ変換してテスト用第1バイナリフィーチャーマップ乃至テスト用第mバイナリフィーチャーマップを生成し、前記テスト用第1バイナリフィーチャーマップ乃至前記テスト用第mバイナリフィーチャーマップをコンカチネートしてテスト用アクティベーションプロバビリティマップを生成し、前記テスト用アクティベーションプロバビリティマップを参照することで前記テスト用アクティベーションエントロピーマップを生成するか、(ii)前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換して前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成し、前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応する前記テスト用第1バイナリオブジェクトフィーチャーマップ乃至前記テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートして前記テスト用第1リサイズされたオブジェクトイメージ乃至前記テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで前記テスト用第1リサイズされたアクティベーションエントロピーマップ乃至前記テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成する。
【0042】
前記プロセッサは、前記(I)プロセスで、前記テスト用バウンディングボックスのうち誤検出されたテスト用バウンディングボックスは、バックグラウンドデータコードにマッピングする。
【0043】
前記カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、前記データコードブックでリサイズされたイメージの個数が高い順からq(前記qは1以上の整数である)番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり、前記エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、前記モデルコードブックでアベレージエントロピー値が高い順からs(前記sは1以上の整数である)番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値である。
【0044】
前記プロセッサは、前記(I)プロセス以前に、(I01)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第t(前記tは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第u(前記uは1以上の整数である)クロップされたバックグラウンドイメージを生成し、前記学習イメージ及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたオブジェクトイメージ乃至前記学習用第tクロップされたオブジェクトイメージ、及び前記学習イメージのそれぞれに対応する前記学習用第1クロップされたバックグラウンドイメージ乃至前記学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージ、及び学習用第1リサイズされたバックグラウンドイメージ乃至学習用第uリサイズされたバックグラウンドイメージを生成し、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをデータオートエンコーダの前記データエンコーダに入力することで、前記データエンコーダをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージをエンコーディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージに対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び前記学習用第1リサイズされたバックグラウンドイメージ乃至前記学習用第uリサイズされたバックグラウンドイメージに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させ、前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダに入力することで、前記データデコーダをもって前記学習用第1オブジェクトデータコード乃至前記学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済みイメージ乃至第t+1リコンストラクト済みイメージを出力させ、前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第t+1リサイズされたオブジェクトイメージ及び前記学習用第1リコンストラクト済みイメージ乃至前記学習用第t+1リコンストラクト済みイメージを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用して前記データデコーダと前記データエンコーダとを学習させ、前記学習用第1バックグラウンドデータコード乃至前記学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用して前記データエンコーダを学習させるプロセスをさらに遂行する。
【0045】
前記プロセッサは、(I02)前記学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第v(前記vは1以上の整数である)クロップされたオブジェクトイメージを生成し、前記検証イメージ及び前記検証イメージのそれぞれに対応する前記検証用第1クロップされたオブジェクトイメージ乃至前記検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ乃至検証用第v+1リサイズされたオブジェクトイメージを生成し、前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージを前記データエンコーダに入力することで、前記データエンコーダをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージをエンコーディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第v+1リサイズされたオブジェクトイメージに対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させ、前記検証用第1オブジェクトデータコード乃至前記検証用第v+1オブジェクトデータコードをデータコード別に分類し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングして前記データコードブックを生成するプロセスをさらに遂行する。
【0046】
前記プロセッサは、前記(I)プロセス以前に、(I03)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、前記学習用第1フィーチャーマップ乃至前記学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第x(前記xは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記学習用アクティベーションエントロピーマップ及び前記学習用アクティベーションエントロピーマップに対応する前記学習用第1クロップされたアクティベーションエントロピーマップ乃至前記学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記学習イメージ及び前記学習イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させ、前記学習用第1オブジェクトフィーチャーマップ乃至前記学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記学習用第1リサイズされたオブジェクトイメージ乃至前記学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップを生成し、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップに対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させ、前記学習用第1モデルコード乃至前記学習用第x+1モデルコードを前記モデルオートエンコーダのモデルデコーダに入力することで、前記モデルデコーダをもって前記学習用第1モデルコード乃至前記学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させ、前記学習用第1リサイズされたアクティベーションエントロピーマップ乃至前記学習用第x+1リサイズされたアクティベーションエントロピーマップ及び前記学習用第1リコンストラクト済みエントロピーマップ乃至前記学習用第x+1リコンストラクト済みエントロピーマップを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用して前記モデルデコーダと前記モデルエンコーダとを学習させるプロセスをさらに遂行する。
【0047】
前記プロセスは、(I04)(i)前記オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、前記検証用第1フィーチャーマップ乃至前記検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第y(前記yは1以上の整数である)クロップされたアクティベーションエントロピーマップを生成し、前記検証用アクティベーションエントロピーマップ及び前記検証用アクティベーションエントロピーマップに対応する前記検証用第1クロップされたアクティベーションエントロピーマップ乃至前記検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ乃至検証用第y+1リサイズされたアクティベーションエントロピーマップを生成するか、(ii)前記検証イメージ及び前記検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれを前記オブジェクトディテクタに入力することで、前記オブジェクトディテクタをもって前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させ、前記検証用第1オブジェクトフィーチャーマップ乃至前記検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして前記検証用第1リサイズされたオブジェクトイメージ乃至前記検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップを生成し、前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをモデルオートエンコーダの前記モデルエンコーダに入力することで、前記モデルエンコーダをもって前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップをエンコーディングして前記検証用第1リサイズされたアクティベーションエントロピーマップ乃至前記検証用第y+1リサイズされたアクティベーションエントロピーマップに対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させ、前記検証用第1モデルコード乃至前記検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで前記モデルコードブックを生成するプロセスをさらに遂行する。
【0048】
前記プロセッサは、前記オブジェクトディテクタの学習及び再学習が行われる度に、前記モデルエンコーダを学習させ、前記モデルコードブックを生成する。
【発明の効果】
【0049】
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングすることでオブジェクトの類型によるレアサンプルを容易に獲得することができる。
【0050】
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングすることで特定の類型のオブジェクトが登場するか否か及び全体のシーンの特性を反映したレアサンプルを獲得することができる。
【0051】
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングし、コード化することによってレアサンプルを選択した理由を容易に確認可能になる。
【0052】
本発明は、アクティブラーニングにおいて、オブジェクトディテクタとベイジアンデュアルオートエンコーダとを共に利用してフィーチャースペースをマッピングし、コード化することによって特定の類型のイメージサンプルのみを容易に選択することができる。
【0053】
本発明は、アクティブラーニングにおいて、データ分布の観点からのレアサンプルとモデルの観点からのハードサンプルとを容易に獲得することができる。
【図面の簡単な説明】
【0054】
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
【0055】
図1図1は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するアクティブラーニングデバイスを簡略に示した図面である。
図2図2は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法を簡略に示した図面である。
図3図3は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でアクティベーションエントロピーマップ(activation entropy map)を生成する過程を簡略に示した図面である。
図4図4は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でコードブック(codebook)を利用してオブジェクトディテクタの学習のためのサンプルイメージを選定する過程を簡略に示した図面である。
図5図5は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でコードブックに応じた学習イメージの選択理由を説明する状態を簡略に示した図面である。
図6図6は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でデータエンコーダを学習する過程を簡略に示した図面である。
図7図7は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でデータコードブックを生成する過程を簡略に示した図面である。
図8図8は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でモデルエンコーダを学習する過程を簡略に示した図面である。
図9図9は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法でモデルコードブックを生成する過程を簡略に示した図面である。
【発明を実施するための形態】
【0056】
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
【0057】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴若しくは各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本明細書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
【0058】
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取られるものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な態様にわたって同一であるか、又は類似の機能を指す。
【0059】
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
【0060】
図1は、本発明の一実施例において、オブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニングを遂行するアクティブラーニングデバイスを簡略に示した図面であり、図1を参照すると、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習に使用するための学習イメージをサンプリングするためにベイジアンデュアルオートエンコーダを利用してエクスプレイナブルアクティブラーニングを遂行するためのインストラクションが格納されたメモリ1001と、メモリ1001に格納されたインストラクションによってオブジェクトディテクタの学習に使用するための学習イメージをサンプリングするためにベイジアンデュアルオートエンコーダを利用してエクスプレイナブルアクティブラーニングを遂行するプロセッサ1002とを含むことができる。
【0061】
具体的に、アクティブラーニングデバイス1000は、コンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)及びコンピュータソフトウェア(即ち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)の組合せを利用して所望のシステム性能を達成するものであり得る。
【0062】
また、コンピューティング装置のプロセッサはMPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置はオペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むことができる。
【0063】
しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
【0064】
このように構成されたアクティブラーニングデバイス1000を利用してオブジェクトディテクタのためのベイジアンデュアルオートエンコーダを利用したエクスプレイナブルアクティブラーニング方法について図2を参照して説明すると以下の通りである。
【0065】
まず、テストイメージが獲得されると、アクティブラーニングデバイス1000が、前記テストイメージをオブジェクトディテクタ200に入力することで、前記オブジェクトディテクタ200をもって前記テストイメージのそれぞれにおけるテスト用オブジェクトを検出して前記テスト用オブジェクトに対応するテスト用バウンディングボックスを出力させることができる。また、オブジェクトディテクタ200は、テスト用オブジェクトに対応するテスト用クラス情報及びテスト用オブジェクトに関する様々なディテクション情報を出力することができる。
【0066】
この際、オブジェクトディテクタ200は、ディテクションスレッショルド(threshold)を低く設定することで、テストイメージにおけるフォアグラウンド(foreground)クラススコアが低いバウンディングボックスも含めてできるだけ多くのテスト用バウンディングボックスを検出することができるようにする。これにより、実際には登場するオブジェクトを登場しないものと誤って判断する場合をできるだけ防止することができ、特に、検出し難い類型のオブジェクトを検出することができるようになる。
【0067】
そして、オブジェクトディテクタ200は、入力されるイメージ上に位置するオブジェクトを検出するように予め学習された状態であり得る。
【0068】
また、テストイメージは、オブジェクトディテクタ200がインストールされた装置と連係したイメージキャプチャ(capture)装置から獲得されたイメージであるか、オブジェクトディテクタ200が遂行しようとするタスク(task)に関して収集されたイメージであり得、学習イメージに利用するためのラベリングが遂行されていないアンラベルされたイメージであり得る。
【0069】
一例として、テストイメージは、自動車の走行中のカメラ、ライダ、レーダなどを通じて獲得された走行イメージであり得る。
【0070】
次に、アクティブラーニングデバイス1000は、テストイメージのそれぞれからテスト用バウンディングボックスに対応する領域をクロップ(crop)したテスト用第1クロップされたイメージ乃至テスト用第nクロップされたイメージを生成し、テストイメージ及びテストイメージのそれぞれに対応するテスト用第1クロップされたイメージ乃至テスト用第nクロップされたイメージを同一のサイズにリサイズ(resize)してテスト用第1リサイズされた(resized)イメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)を生成することができる。前記nは1以上の整数であり得る。
【0071】
次に、アクティブラーニングデバイス1000は、テスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)をデータエンコーダ310に入力することで、データエンコーダ310をもってテスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)をエンコーディングしてテスト用第1リサイズされたイメージ210_1乃至テスト用第n+1リサイズされたイメージ210_(n+1)に対応するテスト用第1データコード乃至テスト用第n+1データコードを出力させることができる。
【0072】
この際、アクティブラーニングデバイス1000は、データエンコーダ310の出力にシグモイド(sigmoid)などのようなアクティベーション関数(activation function)を適用してテスト用第1データコード乃至テスト用第n+1データコードを獲得することもできる。
【0073】
そして、データコードはd-ディメンションの[0,1]レンジ(range)で表現され得、それぞれのリサイズされたイメージに対するサブスペースとなり得る。そして、バックグラウンド(background)領域に対応するデータコードはall zero(オールゼロ)で表現され得る。また、誤検出されたテスト用バウンディングボックスに対応するリサイズされたイメージに対するデータコードは、バックグラウンドコード、即ち、all zeroにマッピングされ得る。
【0074】
次に、アクティブラーニングデバイス1000は、テストイメージをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200をもってテストイメージのそれぞれについてm回モンテカルロドロップアウト(Monte Carlo dropout)を遂行してテストイメージのそれぞれに対応するテスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップを生成させ、テスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップをベイジアンアウトプットエンベディング(embedding)してテスト用アクティベーションエントロピーマップを生成することができる。前記mは2以上の整数であり得る。
【0075】
即ち、図3を参照すると、アクティブラーニングデバイス1000は、テストイメージをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200がテストイメージに対するインファレンス(inference)を遂行するようにし、オブジェクトディテクタ200における特定のレイヤ(layer)に対してドロップアウトを遂行することができる。より好ましくは、オブジェクトディテクタ200のコンボリューションブロックにおける特定のレイヤに対してドロップアウトを遂行することができる。
【0076】
この際、それぞれの特定のレイヤにおけるドロップアウトは、一例として、モンテカルロドロップアウトを利用することができ、次の数式のように示され得る。
【数1】
【0077】
前記数式でiは、テストイメージの高さ(height)方向のピクセル位置を示し、jは、テストイメージの幅(width)方向のピクセル位置を示し、kは、テストイメージのチャンネルを示すものであり得る。
【0078】
一方、オブジェクトディテクタ200がドロップアウトを含めて学習されていない場合には、ドロップアウト確率を十分に低く、一例として、0.01乃至0.1に設定することができる。
【0079】
従って、アクティブラーニングデバイス1000は、オブジェクトディテクタ200にm回のドロップアウトを遂行してテストイメージのそれぞれに対応するテスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmを出力させた後、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmに対応するテスト用アクティベーションプロバビリティ(probability)マップを生成し、テスト用アクティベーションプロバビリティマップにおけるエントロピーを計算することによってテスト用アクティベーションエントロピーマップを生成することができる。
【0080】
即ち、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmをバイナリ(binary)変換してテスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmを生成し、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmをコンカチネート(concatenate)してテスト用アクティベーションプロバビリティマップを生成し、テスト用アクティベーションプロバビリティマップを参照してテスト用アクティベーションエントロピーマップを生成することができる。
【0081】
これをさらに詳細に説明すると、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップF乃至テスト用第mフィーチャーマップFmのそれぞれに次の数式のようなバイナリ関数を適用することで、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmを生成する。
【数2】
【0082】
そして、アクティブラーニングデバイス1000は、テスト用第1バイナリフィーチャーマップB1乃至テスト用第mバイナリフィーチャーマップBmのプロバビリティを参照することで、次の数式によりテストイメージに対応するテスト用アクティベーションプロバビリティマップを生成する。
【数3】
【0083】
以後、アクティブラーニングデバイス1000は、テスト用アクティベーションプロバビリティマップにおいて次の数式によるエントロピーを演算することで、テスト用アクティベーションエントロピーマップを生成することができる。
【数4】
【0084】
即ち、アクティブラーニングデバイス1000は、テストイメージに対してドロップアウトをm回遂行した後、フィーチャーマップのエントロピーを計算することができる。
【0085】
この際、エントロピーは、フィーチャーがアクティベーションされているか否かを2クラスに計算することができる。これは、一般的にアクティベーション値の大きさの違いよりは、アクティベーションがされているか否かがオブジェクトディテクタ200の最終出力により大きい影響を与えるためである。
【0086】
そして、オブジェクトディテクタ200自体にパータベーション(perturbation)を適用することで、ターゲットモデルのアンステーブル(unstable)なサブスペースを効果的に感知することができるようになる。この際、オブジェクトディテクタ200自体にパータベーションを適用することによって、オブジェクトディテクタ200から一部の出力への連結を強制的に切断する効果があり得る。
【0087】
即ち、一般的にサブスペースがステーブルに学習された場合には、若干のコネクション(connection)切断ではフィーチャーに有意味な影響を与えない。
【0088】
しかし、サブスペースがアンステーブルな状況、一例として、オーバーフィッティングまたはアンダーフィッティングな場合には、若干のパータベーションもフィーチャーに大きい影響を与え得る。
【0089】
従って、インプットを多様に変換する(transform)する方法、一例として、データオーグメンテーション(augmentation)を使用する場合、サブスペース自体が変わり得るため、本発明では、オブジェクトディテクタ200にパータベーションを与えるベイジアン方法(Bayesian method)を使用してサブスペース自体が変わることを防止することができるようになる。
【0090】
再び図2を参照すると、アクティブラーニングデバイス1000は、テスト用アクティベーションエントロピーマップのそれぞれからテスト用バウンディングボックスのうちオブジェクトとして判別されたテスト用特定のバウンディングボックスに対応する領域をクロップしたテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第oクロップされたアクティベーションエントロピーマップを生成し、テスト用アクティベーションエントロピーマップ及びテスト用アクティベーションエントロピーマップに対応するテスト用第1クロップされたアクティベーションエントロピーマップ乃至テスト用第oクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズしてテスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)を生成することができる。前記oはn以下の整数であり得る。
【0091】
この際、アクティベーションエントロピーマップは、テストイメージよりも大きさが小さいため、リサイズされたアクティベーションエントロピーマップの大きさをリサイズされたイメージよりも大きくすることができる。
【0092】
一方、前記では、テスト用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージをアクティベーションエントロピーマップとして生成することもできる。
【0093】
即ち、アクティブラーニングデバイス1000は、テスト用第1リサイズされたイメージ乃至テスト用第n+1リサイズされたイメージのうちオブジェクトとして判別されたテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタ200に入力することで、オブジェクトディテクタ200をもってテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれについてm回モンテカルロドロップアウトを遂行してテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、テスト用第1フィーチャーマップ乃至テスト用第mフィーチャーマップをベイジアン出力エンベディングしてテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)を生成することができる。
【0094】
これをさらに詳細に説明すると、アクティブラーニングデバイス1000は、テスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトフィーチャーマップ乃至テスト用第mオブジェクトフィーチャーマップをバイナリ変換してテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップを生成することができる。そして、アクティブラーニングデバイス1000は、テスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1バイナリオブジェクトフィーチャーマップ乃至テスト用第mバイナリオブジェクトフィーチャーマップをコンカチネートしてテスト用第1リサイズされたオブジェクトイメージ乃至テスト用第o+1リサイズされたオブジェクトイメージのそれぞれに対応するテスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを生成し、テスト用第1オブジェクトアクティベーションプロバビリティマップ乃至テスト用第o+1オブジェクトアクティベーションプロバビリティマップを参照することで、テスト用第1リサイズされたアクティベーションエントロピーマップ乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップを生成することができる。
【0095】
次に、アクティブラーニングデバイス1000は、テスト用第1リサイズされたアクティベーションエントロピーマップ220_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ220_(o+1)をモデルエンコーダ410に入力することで、モデルエンコーダ410をもってテスト用第1リサイズされたアクティベーションエントロピーマップ210_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ210_(o+1)をエンコーディングしてテスト用第1リサイズされたアクティベーションエントロピーマップ210_1乃至テスト用第o+1リサイズされたアクティベーションエントロピーマップ210_(o+1)に対応するテスト用第1モデルコード乃至テスト用第o+1モデルコードを出力させることができる。
【0096】
この際、モデルコードは、d-ディメンションの[0,1]レンジで表現され得、それぞれのモデルコードは、オブジェクトディテクタ200のスタビリティ(stability)の類型を示すものであり得る。
【0097】
次に、図4を参照すると、アクティブラーニングデバイス1000は、オブジェクトディテクタ200の以前の学習に使用された以前の学習用イメージによって生成されたデータコードブック510を参照することで、カウンタスレッショルド以下であるリサイズされたイメージの個数に対応するリファレンス(reference)データコードを確認し、第1データコード乃至第n+1データコードのうちリファレンスデータコードにマッチングする第1特定のデータコードを抽出し、第1特定のデータコードに対応する第1特定のテストイメージをオブジェクトディテクタ200の再学習のためのレアサンプルに選定し、レアサンプルに対応する第2特定のデータコードを参照することで、データコードブック510をアップデートすることができる。前記データコードブック510を生成する過程については、以下に説明する。
【0098】
この際、カウンタスレッショルドは、予め設定されたリサイズされたイメージの個数であるか、データコードブック510においてリサイズされたイメージの個数が高い順からq番目に該当するスレッショルドデータコードに対応するリサイズされたイメージの個数であり得る。前記qは1以上の整数であり得る。
【0099】
即ち、データコードであるサブスペースに対応するイメージ数の個数が少ないほど、オブジェクトディテクタ200の以前の学習で十分に学習されていないレアサブスペースと判断することができ、それによってデータコードブックを利用してオブジェクトディテクタ200の以前の学習で十分に学習されていない第1特定のデータコードに対応するテストイメージをレアサンプル、即ち、レアイメージにサンプリングすることができ、サンプリングされた特定のテストイメージに対応する第2特定のデータコードを利用してデータコードブック510をアップデートすることによって、オブジェクトディテクタ200の再学習以後、新しいテストイメージから新しいレアイメージをサンプリングするための基準として使用することができる。
【0100】
そして、データコードブック510は、オブジェクトディテクタ200の再学習が行われる度にアップデートし続けることができる。
【0101】
また、アクティブラーニングデバイス1000は、オブジェクトディテクタ200の再学習の以前に検証(evaluation)イメージによって生成されたモデルコードブック520を参照することで、エントロピースレッショルド以上であるアベレージ(average)エントロピー値に対応するリファレンスモデルコードを確認し、第1モデルコード乃至第o+1モデルコードのうちリファレンスモデルコードにマッチングする特定のモデルコードを抽出し、特定のモデルコードに対応する第2特定のテストイメージをオブジェクトディテクタの再学習のためのハードサンプルに選定することができる。前記モデルコードブック520を生成する過程については、以下に説明する。
【0102】
この際、エントロピースレッショルドは、予め設定されたアベレージエントロピー値であるか、モデルコードブック520においてアベレージエントロピー値が高い順からs番目に該当するスレッショルドモデルコードに対応するアベレージエントロピー値であり得る。前記sは1以上の整数であり得る。
【0103】
即ち、モデルコードであるスタビリティの類型に対応するアベレージエントロピーが大きいほど、現在の学習された状態のオブジェクトディテクタ200にとって難しい類型であるため、それによってモデルコードブック520を利用してオブジェクトディテクタ200にとって難しい類型に対応するモデルコードを含むテストイメージをハードサンプルと判断することができる。
【0104】
一方、オブジェクトディテクタ200の再学習によってアップデートされるデータコードブック510とは異なり、モデルコードブック520は、オブジェクトディテクタ200の再学習を遂行する以前に新たに生成することができる。
【0105】
即ち、オブジェクトディテクタ200が再学習されると、以前には難しかった類型に対して性能が良くなるか、類型自体が異なって分類され得る。即ち、容易な類型はより大きいカテゴリーにまとめられ、難しい類型はさらに細分化され得る。従って、オブジェクトディテクタ200の再学習以後、モデルコードブック520を新たに生成することによって、現在の学習されたオブジェクトディテクタ200の状態を反映することができる。
【0106】
次に、図5を参照すると、前記のような方法によって生成されたデータコードブックを通じて特定のテストイメージがレアサンプルに選択された理由を確認することができる。
【0107】
即ち、データコードブックを通じてテストイメージをシーンレベルとオブジェクトレベルとに説明することができ、シーンレベルとオブジェクトレベルとを通じてレアサンプルに選択された理由を確認することができる。
【0108】
一例として、自動車がday road(日中の道路)を走行する状態、即ち、テストイメージのシーンがday roadである状態でストップサインはレアに現れることが分かる。
【0109】
また、heavy rain(大雨)であるシーンから検出される自動車は、同一の自動車でも雨の影響で染みや滲みが激しい形態であるため、day highway(日中の高速道路)であるシーンから検出される自動車よりもオブジェクトレベルにおいてレアであることが分かる。
【0110】
次に、アクティブラーニングデバイスは、以前の学習用イメージ、レアサンプル、及びハードサンプルを利用してオブジェクトディテクタ200を再学習させることができる。
【0111】
一方、データエンコーダとモデルエンコーダとを学習させる方法、及びデータコードブックとモデルコードブックとを生成する過程を説明すると以下の通りである。
【0112】
まず、図6を参照してデータエンコーダ310を学習させる方法を説明すると以下の通りである。
【0113】
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータエンコーダ310の学習に利用するための学習イメージをサンプリングすることができる。
【0114】
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージのそれぞれからオブジェクト領域をクロップして学習用第1クロップされたオブジェクトイメージ乃至学習用第tクロップされたオブジェクトイメージを生成し、学習イメージのそれぞれからバックグラウンド領域をクロップして学習用第1クロップされたバックグラウンドイメージ乃至学習用第uクロップされたバックグラウンドイメージを生成することができる。前記tとuとは1以上の整数であり得る。
【0115】
この際、クロップされたバックグラウンドイメージの個数がクロップされたオブジェクトイメージの個数に比べて1倍乃至3倍となるようにバックグラウンド領域をランダムクロップすることができる。
【0116】
以後、アクティブラーニングデバイス1000は、学習イメージ及び学習イメージのそれぞれに対応する学習用第1クロップされたオブジェクトイメージ乃至学習用第tクロップされたオブジェクトイメージ及び学習イメージのそれぞれに対応する学習用第1クロップされたバックグラウンドイメージ乃至学習用第uクロップされたバックグラウンドイメージを同一のサイズにリサイズして学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)、及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uを生成することができる。
【0117】
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uをデータオートエンコーダのデータエンコーダ310に入力することで、データエンコーダ310をもって学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ20_(t+1)及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uをエンコーディングして学習用第1リサイズされたオブジェクトイメージ20_1乃至学習用第t+1リサイズされたオブジェクトイメージ30_(t+1)に対応する学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコード及び学習用第1リサイズされたバックグラウンドイメージ30_1乃至学習用第uリサイズされたバックグラウンドイメージ30_uに対応する学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを出力させることができる。
【0118】
以後、アクティブラーニングデバイス1000は、学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコードを前記データオートエンコーダのデータデコーダ320に入力することで、データデコーダ320をもって学習用第1オブジェクトデータコード乃至学習用第t+1オブジェクトデータコードをデコーディングして学習用第1リコンストラクト済み(reconstructed)イメージ乃至第t+1リコンストラクト済みイメージを出力させることができる。
【0119】
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたオブジェクトイメージ乃至学習用第t+1リサイズされたオブジェクトイメージと学習用第1リコンストラクト済みイメージ乃至学習用第t+1リコンストラクト済みイメージとを参照した第1オブジェクトロス乃至第t+1オブジェクトロスを利用してデータデコーダ320とデータエンコーダ310とを学習させ、学習用第1バックグラウンドデータコード乃至学習用第uバックグラウンドデータコードを参照したバックグラウンドロスを利用してデータエンコーダ310を学習させることができる。
【0120】
この際、オブジェクトロス(object loss)は、次の通り示され得る。
【数5】
【0121】
また、バックグラウンドロス(background loss)は、次の通り示され得る。
【数6】
【0122】
即ち、アクティブラーニングデバイス1000は、全体のイメージ10とオブジェクトとはリコンストラクトション(reconstruction)ロスに反映してデータデコーダ320とデータエンコーダ310との学習に利用し、バックグラウンドはリコンストラクトションロスには反映せず、データコードがall zeroとなるようにデータコードにのみロスを反映してデータエンコーダ310の学習に利用することができる。
【0123】
一方、前記では、アクティブラーニングデバイス1000がデータエンコーダ310を学習させたが、これとは異なり、別途の学習装置を通じてデータエンコーダ310を学習させることもできる。
【0124】
次に、図7を参照してデータコードブックを生成する方法を説明すると以下の通りである。
【0125】
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータコードブックの生成に利用するための検証(evaluation)イメージをサンプリングすることができる。
【0126】
この際、アクティブラーニングデバイス1000は、学習イメージデータベースから学習イメージをサンプリングし、サンプリングされた学習イメージをデータエンコーダ310の学習に利用するための学習イメージとデータコードブックの生成のための検証イメージとに分割することができる。そして、学習イメージと検証イメージとの分割は、ユニフォーム(uniform)ランダムサンプリングを利用して遂行することができ、これを通じて学習イメージと検証イメージとの分布特性、即ち、サブスペースのレアネス(rareness)が互いに異ならないようにすることができる。
【0127】
そして、アクティブラーニングデバイス1000は、学習イメージデータベースからサンプリングした検証イメージのそれぞれからオブジェクト領域をクロップして検証用第1クロップされたオブジェクトイメージ乃至検証用第vクロップされたオブジェクトイメージを生成し、検証イメージ及び検証イメージのそれぞれに対応する検証用第1クロップされたオブジェクトイメージ乃至検証用第vクロップされたオブジェクトイメージを同一のサイズにリサイズして検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)を生成することができる。
【0128】
以後、アクティブラーニングデバイス1000は、検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)をデータエンコーダ310に入力することで、データエンコーダ310をもって検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)をエンコーディングして検証用第1リサイズされたオブジェクトイメージ40_1乃至検証用第v+1リサイズされたオブジェクトイメージ40_(v+1)に対応する検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードを出力させることができる。
【0129】
そして、アクティブラーニングデバイス1000は、検証用第1オブジェクトデータコード乃至検証用第v+1オブジェクトデータコードをデータコード別に分類(sort)し、それぞれのデータコードに対応するリサイズされたイメージの個数をカウンティングしてデータコードブック510を生成することができる。即ち、データコード別リサイズされたイメージの個数をそれぞれのデータコードにマッピングしてデータコードブック510を生成することができる。この際、データコードブック510には、イメージIDが追加的にマッピングされ得る。
【0130】
一方、前記ではアクティブラーニングデバイス1000がデータコードブック510を生成したが、これとは異なり、別途の学習装置やデータコードブックの生成装置を通じてデータコードブック510を生成することもできる。
【0131】
次に、図8を参照してモデルエンコーダ410を学習させる方法を説明すると以下の通りである。
【0132】
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからデータエンコーダ310の学習に利用するための学習イメージをサンプリングすることができる。
【0133】
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした学習イメージをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって学習用イメージのそれぞれについいてm回モンテカルロドロップアウトを遂行して学習用イメージのそれぞれに対応する学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップを生成させ、学習用第1フィーチャーマップ乃至学習用第mフィーチャーマップをベイジアン出力エンベディングして学習用アクティベーションエントロピーマップを生成することができる。
【0134】
この際、モデルエンコーダ410の学習では、データエンコーダ310の学習とは異なり、バックグラウンド領域は使用しない。これは、バックグラウンド領域はアクティベーションエントロピーを通じて判別するよりは、データエンコーダでイメージ基盤に判別した方がより正確であるためであり得る。
【0135】
以後、アクティブラーニングデバイス1000は、学習用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第xクロップされたアクティベーションエントロピーマップを生成し、学習用アクティベーションエントロピーマップ及び学習用アクティベーションエントロピーマップに対応する学習用第1クロップされたアクティベーションエントロピーマップ乃至学習用第xクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)を生成することができる。前記xは1以上の整数であり得る。
【0136】
一方、前記では、学習用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージをアクティベーションエントロピーマップとして生成することもできる。
【0137】
即ち、アクティブラーニングデバイス1000は、学習用イメージ及び学習用イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、学習用第1オブジェクトフィーチャーマップ乃至学習用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして学習用第1リサイズされたオブジェクトイメージ乃至学習用第x+1リサイズされたオブジェクトイメージのそれぞれに対応する学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)を生成することができる。
【0138】
そして、アクティブラーニングデバイス1000は、学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)をモデルオートエンコーダのモデルエンコーダ410に入力することで、モデルエンコーダ410をもって学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)をエンコーディングして学習用第1リサイズされたアクティベーションエントロピーマップ50_1乃至学習用第x+1リサイズされたアクティベーションエントロピーマップ50_(x+1)に対応する学習用第1モデルコード乃至学習用第x+1モデルコードを出力させることができる。
【0139】
以後、アクティブラーニングデバイス1000は、学習用第1モデルコード乃至学習用第x+1モデルコードをモデルオートエンコーダのモデルデコーダ420に入力することで、モデルデコーダ420をもって学習用第1モデルコード乃至学習用第x+1モデルコードをデコーディングして学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップを出力させることができる。
【0140】
以後、アクティブラーニングデバイス1000は、学習用第1リサイズされたアクティベーションエントロピーマップ乃至学習用第x+1リサイズされたアクティベーションエントロピーマップと学習用第1リコンストラクト済みエントロピーマップ乃至学習用第x+1リコンストラクト済みエントロピーマップとを参照した第1エントロピーロス乃至第x+1エントロピーロスを利用してモデルデコーダ420とモデルエンコーダ410とを学習させることができる。
【0141】
この際、エントロピーロス(entropy loss)は次の通り示され得る。
【数7】
【0142】
一方、アクティベーションエントロピーマップは、学習イメージよりも大きさが小さいため、全体のイメージ及びクロップされたイメージを同一のサイズとなるようにリサイズする場合、データエンコーダ310の学習でより大きいサイズを有するようにリサイズすることができる。
【0143】
この際、モデルエンコーダ410の学習は、オブジェクトディテクタの学習及び再学習が行われる度に遂行され得る。
【0144】
また、アクティブラーニングデバイス1000がモデルエンコーダ410を学習させるものとして説明したが、これとは異なり、別途の学習装置を通じてモデルエンコーダ410を学習させることもできる。
【0145】
次に、図9を参照してモデルコードブックを生成する方法を説明すると以下の通りである。
【0146】
アクティブラーニングデバイス1000は、ターゲットモデル、即ち、オブジェクトディテクタの学習のための学習イメージを格納している学習イメージデータベースからモデルコードブックの生成に利用するための検証イメージをサンプリングすることができる。
【0147】
この際、アクティブラーニングデバイス1000は、学習用イメージデータベースから学習イメージをサンプリングし、サンプリングされた学習イメージを、モデルエンコーダ410の学習に利用するための学習イメージとモデルコードブックの生成のための検証イメージとに分割することができる。そして、学習イメージと検証イメージとの分割は、ユニフォームランダムサンプリングを利用して遂行することができる。
【0148】
そして、アクティブラーニングデバイス1000は、オブジェクトディテクタの学習のための学習イメージデータベースからサンプリングした検証イメージをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって検証イメージのそれぞれをm回モンテカルロドロップアウトを遂行して検証イメージのそれぞれに対応する検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップを生成させ、検証用第1フィーチャーマップ乃至検証用第mフィーチャーマップをベイジアン出力エンベディングして検証用アクティベーションエントロピーマップを生成することができる。
【0149】
以後、アクティブラーニングデバイス1000は、検証用アクティベーションエントロピーマップのそれぞれからオブジェクトに対応する領域をクロップした検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第yクロップされたアクティベーションエントロピーマップを生成し、検証用アクティベーションエントロピーマップ及び検証用アクティベーションエントロピーマップに対応する検証用第1クロップされたアクティベーションエントロピーマップ乃至検証用第yクロップされたアクティベーションエントロピーマップを同一のサイズにリサイズして検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)を生成することができる。前記yは1以上の整数であり得る。
【0150】
一方、前記では、検証用アクティベーションエントロピーマップを生成した後にオブジェクト領域をクロップしたが、これとは異なり、オブジェクト領域をクロップした後にクロップされたイメージに対応するアクティベーションエントロピーマップを生成することもできる。
【0151】
即ち、アクティブラーニングデバイス1000は、検証イメージ及び検証イメージからオブジェクト領域をクロップしたオブジェクトイメージを同一のサイズにリサイズした検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれをオブジェクトディテクタに入力することで、オブジェクトディテクタをもって検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれをm回モンテカルロドロップアウトを遂行して検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップを生成させることができる。そして、アクティブラーニングデバイス1000は、検証用第1オブジェクトフィーチャーマップ乃至検証用第mオブジェクトフィーチャーマップをベイジアン出力エンベディングして検証用第1リサイズされたオブジェクトイメージ乃至検証用第y+1リサイズされたオブジェクトイメージのそれぞれに対応する検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)を生成することができる。
【0152】
そして、アクティブラーニングデバイス1000は、検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)をモデルオートエンコーダのモデルエンコーダ410に入力することで、モデルエンコーダ410をもって検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)をエンコーディングして検証用第1リサイズされたアクティベーションエントロピーマップ60_1乃至検証用第y+1リサイズされたアクティベーションエントロピーマップ60_(y+1)に対応する検証用第1モデルコード乃至検証用第y+1モデルコードを出力させることができる。
【0153】
以後、アクティブラーニングデバイス1000は、検証用第1モデルコード乃至検証用第y+1モデルコードをモデルコード別に分類し、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのアベレージエントロピー値を参照することで、モデルコードブック520を生成することができる。
【0154】
即ち、アクティブラーニングデバイス1000は、それぞれのモデルコードに対応するリサイズされたアクティベーションエントロピーマップのエントロピー値を平均してアベレージエントロピー値を生成し、アベレージエントロピー値をコード別にマッチングしてモデルコードブック520を生成することができる。この際、モデルコードブック520にはイメージIDが追加的にマッピングされ得る。
【0155】
そして、前記ではアクティブラーニングデバイス1000がモデルコードブック520を生成したが、これとは異なり、別途の学習装置やモデルコードブックの生成装置を通じてモデルコードブック520を生成することもできる。
【0156】
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フレキシブルディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカル・ディスク(Floptical Disk)のような磁気-光メディア(Magneto-Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0157】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは、本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
【0158】
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】