特許7220813 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

特許7220813ディープＱ‐ネットワークを利用してディープラーニング基盤のディテクションネットワークに対する自己教師あり学習を遂行する方法及びこれを利用した学習装置｛ＭＥＴＨＯＤＳＦＯＲＰＥＲＦＯＲＭＩＮＧＳＥＬＦ‐ＳＵＰＥＲＶＩＳＥＤＬＥＡＲＮＩＮＧＯＦＤＥＥＰ‐ＬＥＡＲＮＩＮＧＢＡＳＥＤＤＥＴＥＣＴＩＯＮＮＥＴＷＯＲＫＢＹＵＳＩＮＧＤＥＥＰＱ‐ＮＥＴＷＯＲＫＡＮＤＤＥＶＩＣＥＳＵＳＩＮＧＴＨＥＳＡＭＥ｝

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-02-02

(45)【発行日】2023-02-10

(54)【発明の名称】ディープＱ‐ネットワークを利用してディープラーニング基盤のディテクションネットワークに対する自己教師あり学習を遂行する方法及びこれを利用した学習装置｛ＭＥＴＨＯＤＳＦＯＲＰＥＲＦＯＲＭＩＮＧＳＥＬＦ‐ＳＵＰＥＲＶＩＳＥＤＬＥＡＲＮＩＮＧＯＦＤＥＥＰ‐ＬＥＡＲＮＩＮＧＢＡＳＥＤＤＥＴＥＣＴＩＯＮＮＥＴＷＯＲＫＢＹＵＳＩＮＧＤＥＥＰＱ‐ＮＥＴＷＯＲＫＡＮＤＤＥＶＩＣＥＳＵＳＩＮＧＴＨＥＳＡＭＥ｝

(51)【国際特許分類】

G06T 7/00 20170101AFI20230203BHJP

G06N 20/00 20190101ALI20230203BHJP

【ＦＩ】

G06T7/00 350C

G06N20/00 130

【請求項の数】 20

(21)【出願番号】P 2022007514

(22)【出願日】2022-01-21

(65)【公開番号】P2022151596

(43)【公開日】2022-10-07

【審査請求日】2022-01-21

(31)【優先権主張番号】17/213,853

(32)【優先日】2021-03-26

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】517038176

【氏名又は名称】株式会社ストラドビジョン

【氏名又は名称原語表記】ＳＴＲＡＤＶＩＳＩＯＮ，ＩＮＣ．

【住所又は居所原語表記】Ｓｕｉｔｅ３０４－３０８，５ｔｈＶｅｎｔｕｒｅ－ｄｏｎｇ，３９４，Ｊｉｇｏｋ－ｒｏ，Ｎａｍ－ｇｕ，Ｐｏｈａｎｇ－ｓｉ，Ｇｙｅｏｎｇｓａｎｇｂｕｋ－ｄｏ３７６６８ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100120628

【弁理士】

【氏名又は名称】岩田慎一

(72)【発明者】

【氏名】柳宇宙

(72)【発明者】

【氏名】康鳳男

(72)【発明者】

【氏名】諸泓模

【審査官】片岡利延

(56)【参考文献】

【文献】中国特許出願公開第１１１４７６３０２（ＣＮ，Ａ）

【文献】特開２０１９－６７４０５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する方法において、
（ａ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データを利用して学習された状態で、ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、学習装置が、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）をもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援する段階；
（ｂ）前記学習装置が、（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度（ａｃｃｕｒａｃｙ）を参照してリワードを生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度（ａｃｃｕｒａｃｙ）を参照して前記リワードを生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクター（ｔｒａｎｓｉｔｉｏｎｖｅｃｔｏｒ）としてメモリに格納したり格納するように支援する段階；及び
（ｃ）前記学習装置が、前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援する段階；
を含む方法。

【請求項2】

前記（ａ）段階において、
前記学習装置は、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１_１のバウンディングボックスに対応される前記第１_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティ、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のバウンディングボックスに対応される前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１_ｋ_１のプールドフィーチャーマップのそれぞれに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１_１のバウンディングボックスに対応される第１のインターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１のインターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第１_ｋ_１のバウンディングボックスに対応される第ｋ_１のインターミディエートアクセプタンススコア及び第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコアを平均演算して前記アクセプタンススコアを生成するようにし、前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを平均演算して前記リジェクションスコアを生成させることで前記アクセプタンススコアと前記リジェクションスコアとを含む前記Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする請求項１に記載の方法。

【請求項3】

前記学習装置は、前記ディープＱ‐ネットワークをもって、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のプールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１のフィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_１のフィーチャー値を生成し、前記第１_１のクラシフィケーションコンフィデンスないし前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティないし前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１のフィーチャー値ないし前記第ｋ_１のフィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコア及び前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする請求項２に記載の方法。

【請求項4】

前記（ａ）段階、前記（ｂ）段階及び前記（ｃ）段階は反復的に遂行されて複数の前記トランジションベクターを生成し、
毎イテレーションの前記（ｃ）段階において、
前記学習装置は、前記メモリの前記トランジションベクターの蓄積量に比例して前記学習用トランジションベクターとして使われるａ×ｎ個や２ⁿ個（ここで、ａとｎは１以上の整数であり、ｎは既設定されたイテレーション数ごとに１ずつ増加する）の前記特定トランジションベクターをランダムに選択して少なくとも一つの前記ミニバッチを生成して、前記各ミニバッチを利用して前記ディープＱ‐ネットワークを学習させたり学習させるように支援することを特徴とする請求項１に記載の方法。

【請求項5】

前記（ａ）段階、前記（ｂ）段階及び前記（ｃ）段階は反復的に遂行されて複数の前記トランジションベクターを生成し、
前記メモリはリプレイメモリ（ｒｅｐｌａｙｍｅｍｏｒｙ）を含み、
毎イテレーションの前記（ｃ）段階において、
前記学習装置は、（ｉ）前記トランジションベクターを前記リプレイメモリに伝送して前記リプレイメモリをもってサイクリックバッファ（ｃｙｃｌｉｃｂｕｆｆｅｒ）の既設定された容量によって前記トランジションベクターを最も古い以前のトランジションベクターにオーバライト（ｏｖｅｒｗｒｉｔｅ）して格納させたり格納するように支援し、（ｉｉ）前記リプレイメモリから前記学習用トランジションベクターとして使われる前記特定トランジションベクターをランダムにサンプリングして前記ミニバッチを生成したり生成するように支援することを特徴とする請求項１に記載の方法。

【請求項6】

前記（ａ）段階において、
前記学習装置は、前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記第１のラベルなしのイメージを少なくとも一回コンボリューション演算して前記第１のラベルなしのイメージに対応される第１のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記第１のフィーチャーマップを参照して前記第１のラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_１の客体があると予測される候補領域に対するＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記第１のフィーチャーマップ上で前記ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記ＲＯＩのそれぞれに対応されるプールドフィーチャーマップをそれぞれ生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記プールドフィーチャーマップをＦＣ演算して前記ＲＯＩのそれぞれに対応するリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記ＲＯＩのそれぞれに対応する前記リグレッション情報と前記クラシフィケーション情報とを参照して前記第１のラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_１の客体のそれぞれに対応する前記第１_１のバウンディングボックスないし前記第１_ｋ_１のバウンディングボックスと、前記第１_１のクラシフィケーション情報ないし前記第１_ｋ_１のクラシフィケーション情報とを生成させたり生成するように支援することを特徴とする請求項１に記載の方法。

【請求項7】

ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する方法において、
（ａ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データで学習された状態で、学習装置によって、（Ｉ）ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に対する第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援し、（ＩＩ）（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度をリワード（ｒｅｗａｒｄ）として生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度を前記リワードとして生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセットを生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクターとしてメモリに格納したり格納するように支援し、（ＩＩＩ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援した状態で、自己学習装置が、新規ラベルなしのデータベースから選択された少なくとも一つの新規ラベルなしのイメージが獲得されると、（ｉ）前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記新規ラベルなしのイメージに対するオブジェクトディテクションを遂行して新規オブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記新規オブジェクトディテクション情報を参照して前記新規ラベルなしのイメージ上に含まれた第１の客体に対する第１の新規バウンディングボックスに対応される第１の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし前記新規ラベルなしのイメージ上に含まれた第ｋ_３の客体に対する第ｋ_３の新規バウンディングボックス（前記ｋ_３は１以上の整数である）に対応される第ｋ_３の新規クラシフィケーションコンフィデンス、第ｋ_３の新規リグレッションアンサーティンティ及び第ｋ_３の新規プールドフィーチャーマップを含む新規ステートセットを生成したり生成するように支援し、（ｉｉｉ）前記新規ステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記新規ステートセットをラーニング演算して前記新規ラベルなしのイメージに対応される新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して新規アクションを生成したり生成するように支援する段階；及び
（ｂ）前記自己学習装置が、前記新規アクションを参照して（ｉ）前記新規アクションが前記新規ラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記新規オブジェクトディテクション情報を前記新規ラベルなしのイメージにラベルとして追加した新規ラベル付きのイメージを前記学習データとして前記学習データベースに追加させ、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させたり再学習させるように支援し、（ｉｉ）前記新規アクションが前記新規ラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除する段階；
を含む方法。

【請求項8】

前記（ａ）段階において、
前記自己学習装置は、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１の新規バウンディングボックスに対応される前記第１の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティ及び前記第１の新規プールドフィーチャーマップないし前記第１の新規バウンディングボックスに対応される前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１の新規バウンディングボックスに対応される第１の新規インターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１の新規インターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第ｋ_３の新規バウンディングボックスに対応される第ｋ_３の新規インターミディエートアクセプタンススコア及び第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコアを平均演算して前記新規アクセプタンススコアを生成するようにし、前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを平均演算して前記新規リジェクションスコアを生成させることで前記新規アクセプタンススコアと前記新規リジェクションスコアとを含む前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする請求項７に記載の方法。

【請求項9】

前記自己学習装置は、前記ディープＱ‐ネットワークをもって、前記第１の新規プールドフィーチャーマップないし前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１の新規フィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_３の新規フィーチャー値を生成し、前記第１の新規クラシフィケーションコンフィデンスないし前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティないし前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第１の新規フィーチャー値ないし前記第ｋ_３の新規フィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコア及び前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする請求項８に記載の方法。

【請求項10】

前記（ａ）段階において、
前記自己学習装置は、前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記新規ラベルなしのイメージを少なくとも一回コンボリューション演算して前記新規ラベルなしのイメージに対応される新規フィーチャーマップを生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記新規フィーチャーマップを参照して前記新規ラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_３の客体があると予測される候補領域に対する新規ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記新規フィーチャーマップ上で前記新規ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記新規ＲＯＩのそれぞれに対応される新規プールドフィーチャーマップを生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記新規プールドフィーチャーマップをＦＣ演算して前記新規ＲＯＩのそれぞれに対応する新規リグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と新規クラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記新規ＲＯＩのそれぞれに対応する前記新規リグレッション情報と前記新規クラシフィケーション情報とを参照して前記新規ラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_３の客体のそれぞれに対応する前記第１の新規バウンディングボックスないし前記第ｋ_３の新規バウンディングボックスと、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報とを生成させたり生成するように支援することを特徴とする請求項７に記載の方法。

【請求項11】

ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する学習装置であって、
インストラクションを格納する少なくとも一つのメモリ；及び
前記インストラクションを実行するために構成された少なくとも一つのプロセッサ；を含み、
前記プロセッサが、（Ｉ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データを利用して学習された状態で、ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援するプロセス、（ＩＩ）（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度（ａｃｃｕｒａｃｙ）を参照してリワードを生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度（ａｃｃｕｒａｃｙ）を参照して前記リワードを生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクター（ｔｒａｎｓｉｔｉｏｎｖｅｃｔｏｒ）としてメモリに格納したり格納するように支援するプロセス、及び（ＩＩＩ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援するプロセスを遂行する学習装置。

【請求項12】

前記（Ｉ）プロセスにおいて、
前記プロセッサは、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１_１のバウンディングボックスに対応される前記第１_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティ、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のバウンディングボックスに対応される前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１_ｋ_１のプールドフィーチャーマップのそれぞれに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１_１のバウンディングボックスに対応される第１のインターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１のインターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第１_ｋ_１のバウンディングボックスに対応される第ｋ_１のインターミディエートアクセプタンススコア及び第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコアを平均演算して前記アクセプタンススコアを生成するようにし、前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを平均演算して前記リジェクションスコアを生成させることで前記アクセプタンススコアと前記リジェクションスコアとを含む前記Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする請求項１１に記載の学習装置。

【請求項13】

前記プロセッサは、前記ディープＱ‐ネットワークをもって、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のプールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１のフィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_１のフィーチャー値を生成し、前記第１_１のクラシフィケーションコンフィデンスないし前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティないし前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１のフィーチャー値ないし前記第ｋ_１のフィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコア及び前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする請求項１２に記載の学習装置。

【請求項14】

前記（Ｉ）プロセス、前記（ＩＩ）プロセス及び前記（ＩＩＩ）プロセスは反復的に遂行されて複数の前記トランジションベクターを生成し、
毎イテレーションの前記（ＩＩＩ）プロセスにおいて、
前記プロセッサは、前記メモリの前記トランジションベクターの蓄積量に比例して前記学習用トランジションベクターとして使われるａ×ｎ個や２ⁿ個（ここで、ａとｎは１以上の整数であり、ｎは既設定されたイテレーション数ごとに１ずつ増加する）の前記特定トランジションベクターをランダムに選択して少なくとも一つの前記ミニバッチを生成して、前記各ミニバッチを利用して前記ディープＱ‐ネットワークを学習させたり学習させるように支援することを特徴とする請求項１１に記載の学習装置。

【請求項15】

前記（Ｉ）プロセス、前記（ＩＩ）プロセス及び前記（ＩＩＩ）プロセスは反復的に遂行されて複数の前記トランジションベクターを生成し、
前記メモリはリプレイメモリ（ｒｅｐｌａｙｍｅｍｏｒｙ）を含み、
毎イテレーションの前記（ＩＩＩ）プロセスにおいて、
前記プロセッサは、（ｉ）前記トランジションベクターを前記リプレイメモリに伝送して前記リプレイメモリをもってサイクリックバッファ（ｃｙｃｌｉｃｂｕｆｆｅｒ）の既設定された容量によって前記トランジションベクターを最も古い以前のトランジションベクターにオーバライト（ｏｖｅｒｗｒｉｔｅ）して格納させたり格納するように支援し、（ｉｉ）前記リプレイメモリから前記学習用トランジションベクターとして使われる前記特定トランジションベクターをランダムにサンプリングして前記ミニバッチを生成したり生成するように支援することを特徴とする請求項１１に記載の学習装置。

【請求項16】

前記（Ｉ）プロセスにおいて、
前記プロセッサは、前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記第１のラベルなしのイメージを少なくとも一回コンボリューション演算して前記第１のラベルなしのイメージに対応される第１のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記第１のフィーチャーマップを参照して前記第１のラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_１の客体があると予測される候補領域に対するＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記第１のフィーチャーマップ上で前記ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記ＲＯＩのそれぞれに対応されるプールドフィーチャーマップをそれぞれ生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記プールドフィーチャーマップをＦＣ演算して前記ＲＯＩのそれぞれに対応するリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記ＲＯＩのそれぞれに対応する前記リグレッション情報と前記クラシフィケーション情報とを参照して前記第１のラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_１の客体のそれぞれに対応する前記第１_１のバウンディングボックスないし前記第１_ｋ_１のバウンディングボックスと、前記第１_１のクラシフィケーション情報ないし前記第１_ｋ_１のクラシフィケーション情報とを生成させたり生成するように支援することを特徴とする請求項１１に記載の学習装置。

【請求項17】

ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する自己学習装置であって、
インストラクションを格納する少なくとも一つのメモリ；及び
前記インストラクションを実行するために構成された少なくとも一つのプロセッサ；を含み、
前記プロセッサが、学習装置によって、（Ｉ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データで学習された状態で、（ｉ）ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ‐１）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉ‐２）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に対する第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉ‐３）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉ‐４）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援し、（ｉｉ）（ｉｉ‐１）前記アクションを参照して（１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度をリワード（ｒｅｗａｒｄ）として生成したり生成するように支援し、（２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度を前記リワードとして生成したり生成するように支援し、（ｉｉ‐２）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセットを生成したり生成するように支援し、（３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクターとしてメモリに格納したり格納するように支援し、（ｉｉｉ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援した状態で、新規ラベルなしのデータベースから選択された少なくとも一つの新規ラベルなしのイメージが獲得されると、（ｉ）前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記新規ラベルなしのイメージに対するオブジェクトディテクションを遂行して新規オブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記新規オブジェクトディテクション情報を参照して前記新規ラベルなしのイメージ上に含まれた第１の客体に対する第１の新規バウンディングボックスに対応される第１の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし前記新規ラベルなしのイメージ上に含まれた第ｋ_３の客体に対する第ｋ_３の新規バウンディングボックス（前記ｋ_３は１以上の整数である）に対応される第ｋ_３の新規クラシフィケーションコンフィデンス、第ｋ_３の新規リグレッションアンサーティンティ及び第ｋ_３の新規プールドフィーチャーマップを含む新規ステートセットを生成したり生成するように支援し、（ｉｉｉ）前記新規ステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記新規ステートセットをラーニング演算して前記新規ラベルなしのイメージに対応される新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して新規アクションを生成したり生成するように支援するプロセス、及び（ＩＩ）前記新規アクションを参照して（ｉ）前記新規アクションが前記新規ラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記新規オブジェクトディテクション情報を前記新規ラベルなしのイメージにラベルとして追加した新規ラベル付きのイメージを前記学習データとして前記学習データベースに追加させ、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させたり再学習させるように支援し、（ｉｉ）前記新規アクションが前記新規ラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除するプロセスを遂行する自己学習装置。

【請求項18】

前記（Ｉ）プロセスにおいて、
前記プロセッサは、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１の新規バウンディングボックスに対応される前記第１の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティ及び前記第１の新規プールドフィーチャーマップないし前記第１の新規バウンディングボックスに対応される前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１の新規バウンディングボックスに対応される第１の新規インターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１の新規インターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第ｋ_３の新規バウンディングボックスに対応される第ｋ_３の新規インターミディエートアクセプタンススコア及び第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコアを平均演算して前記新規アクセプタンススコアを生成するようにし、前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを平均演算して前記新規リジェクションスコアを生成させることで前記新規アクセプタンススコアと前記新規リジェクションスコアとを含む前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする請求項１７に記載の自己学習装置。

【請求項19】

前記プロセッサは、前記ディープＱ‐ネットワークをもって、前記第１の新規プールドフィーチャーマップないし前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１の新規フィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_３の新規フィーチャー値を生成し、前記第１の新規クラシフィケーションコンフィデンスないし前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティないし前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第１の新規フィーチャー値ないし前記第ｋ_３の新規フィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコア及び前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする請求項１８に記載の自己学習装置。

【請求項20】

前記（Ｉ）プロセスにおいて、
前記プロセッサは、前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記新規ラベルなしのイメージを少なくとも一回コンボリューション演算して前記新規ラベルなしのイメージに対応される新規フィーチャーマップを生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記新規フィーチャーマップを参照して前記新規ラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_３の客体があると予測される候補領域に対する新規ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記新規フィーチャーマップ上で前記新規ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記新規ＲＯＩのそれぞれに対応される新規プールドフィーチャーマップを生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記新規プールドフィーチャーマップをＦＣ演算して前記新規ＲＯＩのそれぞれに対応する新規リグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と新規クラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記新規ＲＯＩのそれぞれに対応する前記新規リグレッション情報と前記新規クラシフィケーション情報とを参照して前記新規ラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_３の客体のそれぞれに対応する前記第１の新規バウンディングボックスないし前記第ｋ_３の新規バウンディングボックスと、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報とを生成させたり生成するように支援することを特徴とする請求項１７に記載の自己学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は２０２１年３月２６日付にて出願された米国特許出願第１７／２１３，８５３号に対して優先権を主張し、これは本願に参照として組み込まれる。

【0002】

本発明はディープＱ‐ネットワークを利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）に対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行する方法及びこれを利用した学習装置に係り、より詳細には、ディテクションネットワークにおけるオブジェクトディテクション結果を利用してディープＱ‐ネットワークが学習に有用なものとして選択した学習データを利用してディテクションネットワークを自己教師あり学習させる方法及びこれを利用した学習装置に関する。

【背景技術】

【0003】

イメージ上の客体に対する位置とクラスを認識するためのオブジェクトディテクションを遂行するディテクションネットワークを効果的に学習させるためには多くの学習データが要求される。

【0004】

従来には、イメージ上の客体に対する正解データである原本正解（ｇｒｏｕｎｄｔｒｕｔｈ）をラベリングした学習データを利用した学習を通じてディテクションネットワークのイメージ分析に対する正確度を高める教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）技法がよく使用された。しかし、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）では高い性能を達成するためには膨大な量の学習データが要求され、ラベリングされた学習データが必要であるため、人間が直接ラベリング作業を遂行しなければならないので、与えられたタスクが複雑であるほどラベリング作業に時間と費用が多く所要されるので、これを克服できる学習技法が開発されている成り行きである。

【0005】

その例として、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）の場合、ラベリングされた学習データを使用する代わり、群集化（ｃｌｕｓｔｅｒｉｎｇ）や密度推定（ｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ）などの方法を利用してデータをグルーピングしたりデータの間のパターンを把握する方法でディテクションネットワークを学習させる。しかし、ラベリングされたデータが提供されないため群集化に対する結果を評価しがたく、群集化やパターンを定義して実際データに適用するには限界があるという問題点がある。

【0006】

また、他の代案として半教師あり学習（ｓｅｍｉ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）や自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）のような方法も研究される。半教師あり学習や自己教師あり学習の場合、最小限のラベリングされた学習データと多くの量のラベリングされていない学習データとを利用してディテクションネットワークに対する学習を進行させる。

【0007】

具体的に、半教師あり学習や自己教師あり学習は、ラベリングされた学習データを利用してディテクションネットワークに対する初期学習を進めた後、さらに獲得した学習データを利用してディテクションネットワークをもって与えられたタスク（ｔａｓｋ）を遂行してラベリングデータを生成させ、このように自ら生成したラベリングデータを持つ追加学習データと初期学習の際に与えられたラベリングされた学習データとを利用してディテクションネットワークに対する学習を引き続き進める。

【0008】

ただし、半教師あり学習や自己教師あり学習を遂行するにあたり、ディテクションネットワークの学習に使われる自己生成データの選択は主にモデルコンフィデンス（ｍｏｄｅｌｃｏｎｆｉｄｅｎｃｅ）などを利用したヒューリスティクス（ｈｅｕｒｉｓｔｉｃ）な接近を利用して選択するが、このようなモデルコンフィデンスなどの選択基準の正確度を判断しにくいだけでなく、このような選択基準を持続的に調整するには多くの時間と費用が要される。

【0009】

したがって、前記問題点を解決するための改善方案が要求される実情である。

【発明の概要】

【発明が解決しようとする課題】

【0010】

本発明は上述した問題点を全て解決することをその目的とする。

【0011】

また、本発明はディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）が生成したＱ値（Ｑ‐ｖａｌｕｅ）を利用してディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）の正確度を増加させることができる最適の学習データを効果的に選択することを目的とする。

【0012】

また、本発明はディテクションネットワークにつながったディープＱ‐ネットワークに対してディテクションネットワークの正確度をリワード（ｒｅｗａｒｄ）として利用した強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を遂行してディープＱ‐ネットワークがディテクションネットワークの正確度を増加させることができる最適の学習データを選択するＱ値（Ｑ‐ｖａｌｕｅ）を生成させることをまた他の目的とする。

【0013】

また、本発明はディープＱ‐ネットワークが生成するＱ値（Ｑ‐ｖａｌｕｅ）に基づいて選択された学習データを利用してディテクションネットワークに対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を可能にすることをまた他の目的とする。

【課題を解決するための手段】

【0014】

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は下記のとおりである。

【0015】

本発明の一態様によると、ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する方法において、（ａ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データを利用して学習された状態で、ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、学習装置が、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）をもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援する段階；（ｂ）前記学習装置が、（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度（ａｃｃｕｒａｃｙ）を参照してリワードを生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度（ａｃｃｕｒａｃｙ）を参照して前記リワードを生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクター（ｔｒａｎｓｉｔｉｏｎｖｅｃｔｏｒ）としてメモリに格納したり格納するように支援する段階；及び（ｃ）前記学習装置が、前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援する段階；を含む方法が開示される。

【0016】

一例として、前記（ａ）段階において、前記学習装置は、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１_１のバウンディングボックスに対応される前記第１_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティ、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のバウンディングボックスに対応される前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１_ｋ_１のプールドフィーチャーマップのそれぞれに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１_１のバウンディングボックスに対応される第１のインターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１のインターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第１_ｋ_１のバウンディングボックスに対応される第ｋ_１のインターミディエートアクセプタンススコア及び第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコアを平均演算して前記アクセプタンススコアを生成するようにし、前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを平均演算して前記リジェクションスコアを生成させることで前記アクセプタンススコアと前記リジェクションスコアとを含む前記Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする方法が開示される。

【0017】

一例として、前記学習装置は、前記ディープＱ‐ネットワークをもって、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のプールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１のフィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_１のフィーチャー値を生成し、前記第１_１のクラシフィケーションコンフィデンスないし前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティないし前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１のフィーチャー値ないし前記第ｋ_１のフィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコア及び前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする方法が開示される。

【0018】

一例として、前記（ａ）段階、前記（ｂ）段階及び前記（ｃ）段階は反復的に遂行されて複数の前記トランジションベクターを生成し、毎イテレーションの前記（ｃ）段階において、前記学習装置は、前記メモリの前記トランジションベクターの蓄積量に比例して前記学習用トランジションベクターとして使われるａ×ｎ個や２ⁿ個（ここで、ａとｎは１以上の整数であり、ｎは既設定されたイテレーション数ごとに１ずつ増加する）の前記特定トランジションベクターをランダムに選択して少なくとも一つの前記ミニバッチを生成して、前記各ミニバッチを利用して前記ディープＱ‐ネットワークを学習させたり学習させるように支援することを特徴とする方法が開示される。

【0019】

一例として、前記（ａ）段階、前記（ｂ）段階及び前記（ｃ）段階は反復的に遂行されて複数の前記トランジションベクターを生成し、前記メモリはリプレイメモリ（ｒｅｐｌａｙｍｅｍｏｒｙ）を含み、毎イテレーションの前記（ｃ）段階において、前記学習装置は、（ｉ）前記トランジションベクターを前記リプレイメモリに伝送して前記リプレイメモリをもってサイクリックバッファ（ｃｙｃｌｉｃｂｕｆｆｅｒ）の既設定された容量によって前記トランジションベクターを最も古い以前のトランジションベクターにオーバライト（ｏｖｅｒｗｒｉｔｅ）して格納させたり格納するように支援し、（ｉｉ）前記リプレイメモリから前記学習用トランジションベクターとして使われる前記特定トランジションベクターをランダムにサンプリングして前記ミニバッチを生成したり生成するように支援することを特徴とする方法が開示される。

【0020】

一例として、前記（ａ）段階において、前記学習装置は、前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記第１のラベルなしのイメージを少なくとも一回コンボリューション演算して前記第１のラベルなしのイメージに対応される第１のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記第１のフィーチャーマップを参照して前記第１のラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_１の客体があると予測される候補領域に対するＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記第１のフィーチャーマップ上で前記ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記ＲＯＩのそれぞれに対応されるプールドフィーチャーマップをそれぞれ生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記プールドフィーチャーマップをＦＣ演算して前記ＲＯＩのそれぞれに対応するリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記ＲＯＩのそれぞれに対応する前記リグレッション情報と前記クラシフィケーション情報とを参照して前記第１のラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_１の客体のそれぞれに対応する前記第１_１のバウンディングボックスないし前記第１_ｋ_１のバウンディングボックスと、前記第１_１のクラシフィケーション情報ないし前記第１_ｋ_１のクラシフィケーション情報とを生成させたり生成するように支援することを特徴とする方法が開示される。

【0021】

本発明の他の態様によると、ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する方法において、（ａ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データで学習された状態で、学習装置によって、（Ｉ）ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に対する第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援し、（ＩＩ）（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度をリワード（ｒｅｗａｒｄ）として生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度を前記リワードとして生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセットを生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクターとしてメモリに格納したり格納するように支援し、（ＩＩＩ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援した状態で、自己学習装置が、新規ラベルなしのデータベースから選択された少なくとも一つの新規ラベルなしのイメージが獲得されると、（ｉ）前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記新規ラベルなしのイメージに対するオブジェクトディテクションを遂行して新規オブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記新規オブジェクトディテクション情報を参照して前記新規ラベルなしのイメージ上に含まれた第１の客体に対する第１の新規バウンディングボックスに対応される第１の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし前記新規ラベルなしのイメージ上に含まれた第ｋ_３の客体に対する第ｋ_３の新規バウンディングボックス（前記ｋ_３は１以上の整数である）に対応される第ｋ_３の新規クラシフィケーションコンフィデンス、第ｋ_３の新規リグレッションアンサーティンティ及び第ｋ_３の新規プールドフィーチャーマップを含む新規ステートセットを生成したり生成するように支援し、（ｉｉｉ）前記新規ステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記新規ステートセットをラーニング演算して前記新規ラベルなしのイメージに対応される新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して新規アクションを生成したり生成するように支援する段階；及び
（ｂ）前記自己学習装置が、前記新規アクションを参照して（ｉ）前記新規アクションが前記新規ラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記新規オブジェクトディテクション情報を前記新規ラベルなしのイメージにラベルとして追加した新規ラベル付きのイメージを前記学習データとして前記学習データベースに追加させ、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させたり再学習させるように支援し、（ｉｉ）前記新規アクションが前記新規ラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除する段階；を含む方法が開示される。

【0022】

一例として、前記（ａ）段階において、前記自己学習装置は、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１の新規バウンディングボックスに対応される前記第１の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティ及び前記第１の新規プールドフィーチャーマップないし前記第１の新規バウンディングボックスに対応される前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１の新規バウンディングボックスに対応される第１の新規インターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１の新規インターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第ｋ_３の新規バウンディングボックスに対応される第ｋ_３の新規インターミディエートアクセプタンススコア及び第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコアを平均演算して前記新規アクセプタンススコアを生成するようにし、前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを平均演算して前記新規リジェクションスコアを生成させることで前記新規アクセプタンススコアと前記新規リジェクションスコアとを含む前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする方法が開示される。

【0023】

一例として、前記自己学習装置は、前記ディープＱ‐ネットワークをもって、前記第１の新規プールドフィーチャーマップないし前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１の新規フィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_３の新規フィーチャー値を生成し、前記第１の新規クラシフィケーションコンフィデンスないし前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティないし前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第１の新規フィーチャー値ないし前記第ｋ_３の新規フィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコア及び前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする方法が開示される。

【0024】

一例として、前記（ａ）段階において、前記自己学習装置は、前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記新規ラベルなしのイメージを少なくとも一回コンボリューション演算して前記新規ラベルなしのイメージに対応される新規フィーチャーマップを生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記新規フィーチャーマップを参照して前記新規ラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_３の客体があると予測される候補領域に対する新規ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記新規フィーチャーマップ上で前記新規ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記新規ＲＯＩのそれぞれに対応される新規プールドフィーチャーマップを生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記新規プールドフィーチャーマップをＦＣ演算して前記新規ＲＯＩのそれぞれに対応する新規リグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と新規クラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記新規ＲＯＩのそれぞれに対応する前記新規リグレッション情報と前記新規クラシフィケーション情報とを参照して前記新規ラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_３の客体のそれぞれに対応する前記第１の新規バウンディングボックスないし前記第ｋ_３の新規バウンディングボックスと、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報とを生成させたり生成するように支援することを特徴とする方法が開示される。

【0025】

本発明のまた他の態様によると、ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する学習装置であって、インストラクションを格納する少なくとも一つのメモリ；及び前記インストラクションを実行するために構成された少なくとも一つのプロセッサ；を含み、前記プロセッサが、（Ｉ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データを利用して学習された状態で、ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉｉ）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援するプロセス、（ＩＩ）（ｉ）前記アクションを参照して（ｉ‐１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度（ａｃｃｕｒａｃｙ）を参照してリワードを生成したり生成するように支援し、（ｉ‐２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度（ａｃｃｕｒａｃｙ）を参照して前記リワードを生成したり生成するように支援し、（ｉｉ）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（ｉｉ‐１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ‐２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉｉ‐３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクター（ｔｒａｎｓｉｔｉｏｎｖｅｃｔｏｒ）としてメモリに格納したり格納するように支援するプロセス、及び（ＩＩＩ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援するプロセスを遂行する学習装置が開示される。

【0026】

一例として、前記（Ｉ）プロセスにおいて、前記プロセッサは、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１_１のバウンディングボックスに対応される前記第１_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティ、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のバウンディングボックスに対応される前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１_ｋ_１のプールドフィーチャーマップのそれぞれに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１_１のバウンディングボックスに対応される第１のインターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１のインターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第１_ｋ_１のバウンディングボックスに対応される第ｋ_１のインターミディエートアクセプタンススコア及び第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコアを平均演算して前記アクセプタンススコアを生成するようにし、前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを平均演算して前記リジェクションスコアを生成させることで前記アクセプタンススコアと前記リジェクションスコアとを含む前記Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする学習装置が開示される。

【0027】

一例として、前記プロセッサは、前記ディープＱ‐ネットワークをもって、前記第１_１のプールドフィーチャーマップないし前記第１_ｋ_１のプールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１のフィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_１のフィーチャー値を生成し、前記第１_１のクラシフィケーションコンフィデンスないし前記第１_ｋ_１のクラシフィケーションコンフィデンス、前記第１_１のリグレッションアンサーティンティないし前記第１_ｋ_１のリグレッションアンサーティンティ及び前記第１のフィーチャー値ないし前記第ｋ_１のフィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１のインターミディエートアクセプタンススコアないし前記第ｋ_１のインターミディエートアクセプタンススコア及び前記第１のインターミディエートリジェクションスコアないし前記第ｋ_１のインターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする学習装置が開示される。

【0028】

一例として、前記（Ｉ）プロセス、前記（ＩＩ）プロセス及び前記（ＩＩＩ）プロセスは反復的に遂行されて複数の前記トランジションベクターを生成し、毎イテレーションの前記（ＩＩＩ）プロセスにおいて、前記プロセッサは、前記メモリの前記トランジションベクターの蓄積量に比例して前記学習用トランジションベクターとして使われるａ×ｎ個や２ⁿ個（ここで、ａとｎは１以上の整数であり、ｎは既設定されたイテレーション数ごとに１ずつ増加する）の前記特定トランジションベクターをランダムに選択して少なくとも一つの前記ミニバッチを生成して、前記各ミニバッチを利用して前記ディープＱ‐ネットワークを学習させたり学習させるように支援することを特徴とする学習装置が開示される。

【0029】

一例として、前記（Ｉ）プロセス、前記（ＩＩ）プロセス及び前記（ＩＩＩ）プロセスは反復的に遂行されて複数の前記トランジションベクターを生成し、前記メモリはリプレイメモリ（ｒｅｐｌａｙｍｅｍｏｒｙ）を含み、毎イテレーションの前記（ＩＩＩ）プロセスにおいて、前記プロセッサは、（ｉ）前記トランジションベクターを前記リプレイメモリに伝送して前記リプレイメモリをもってサイクリックバッファ（ｃｙｃｌｉｃｂｕｆｆｅｒ）の既設定された容量によって前記トランジションベクターを最も古い以前のトランジションベクターにオーバライト（ｏｖｅｒｗｒｉｔｅ）して格納させたり格納するように支援し、（ｉｉ）前記リプレイメモリから前記学習用トランジションベクターとして使われる前記特定トランジションベクターをランダムにサンプリングして前記ミニバッチを生成したり生成するように支援することを特徴とする学習装置が開示される。

【0030】

一例として、前記（Ｉ）プロセスにおいて、前記プロセッサは、前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記第１のラベルなしのイメージを少なくとも一回コンボリューション演算して前記第１のラベルなしのイメージに対応される第１のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記第１のフィーチャーマップを参照して前記第１のラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_１の客体があると予測される候補領域に対するＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記第１のフィーチャーマップ上で前記ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記ＲＯＩのそれぞれに対応されるプールドフィーチャーマップをそれぞれ生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記プールドフィーチャーマップをＦＣ演算して前記ＲＯＩのそれぞれに対応するリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記ＲＯＩのそれぞれに対応する前記リグレッション情報と前記クラシフィケーション情報とを参照して前記第１のラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_１の客体のそれぞれに対応する前記第１_１のバウンディングボックスないし前記第１_ｋ_１のバウンディングボックスと、前記第１_１のクラシフィケーション情報ないし前記第１_ｋ_１のクラシフィケーション情報とを生成させたり生成するように支援することを特徴とする学習装置が開示される。

【0031】

本発明のまた他の態様によると、ディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を利用してディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する自己学習装置であって、インストラクションを格納する少なくとも一つのメモリ；及び前記インストラクションを実行するために構成された少なくとも一つのプロセッサ；を含み、前記プロセッサが、学習装置によって、（Ｉ）客体探知のためのディテクションネットワークが学習データベースに格納された学習データで学習された状態で、（ｉ）ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、（ｉ‐１）前記第１のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させたり生成するように支援し、（ｉ‐２）前記第１のオブジェクトディテクション情報を参照して前記第１のラベルなしのイメージ上に含まれた第１の客体に対する第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）、第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、第１_１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）ないし前記第１のラベルなしのイメージ上に含まれた第ｋ_１の客体に対する第１_ｋ_１のバウンディングボックス（前記ｋ_１は１以上の整数である）に対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成したり生成するように支援し、（ｉ‐３）前記第１のステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記第１のステートセットをラーニング演算して前記第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉ‐４）前記Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクション（ａｃｔｉｏｎ）を生成したり生成するように支援し、（ｉｉ）（ｉｉ‐１）前記アクションを参照して（１）前記アクションが前記第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記第１のオブジェクトディテクション情報を前記第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージ（ｌａｂｅｌｅｄｉｍａｇｅ）を学習データとして前記学習データベースに追加させ、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させ、再学習された前記ディテクションネットワークを検証データベースを利用してテストして獲得した再学習された前記ディテクションネットワークの第１正確度をリワード（ｒｅｗａｒｄ）として生成したり生成するように支援し、（２）前記アクションが前記第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記第１のラベルなしのイメージを前記ラベルなしのデータベースから削除し、前記ディテクションネットワークを前記検証データベースを利用してテストして獲得した前記ディテクションネットワークの第２正確度を前記リワードとして生成したり生成するように支援し、（ｉｉ‐２）前記ラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージが獲得されると、（１）前記第２のラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させたり生成するように支援し、（２）前記第２のオブジェクトディテクション情報を参照して前記第２のラベルなしのイメージ上に含まれた第１の客体に対する第２_１のバウンディングボックスに対応される第２_１のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティ及び第２_１のプールドフィーチャーマップないし前記第２のラベルなしのイメージ上に含まれた第ｋ_２の客体に対する第２_ｋ_２のバウンディングボックス（前記ｋ_２は１以上の整数である）に対応される第２_ｋ_２のクラシフィケーションコンフィデンス、第２_ｋ_２のリグレッションアンサーティンティ及び第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセットを生成したり生成するように支援し、（３）前記第１のステートセット、前記アクション、前記リワード及び前記第２のステートセットをトランジションベクターとしてメモリに格納したり格納するように支援し、（ｉｉｉ）前記メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、前記ミニバッチを利用して前記ディープＱ‐ネットワークが前記第１のステートセット及び前記第２のステートセットによって前記リワードを増加させるためのアクションを出力するように前記ディープＱ‐ネットワークを学習させたり学習させるように支援した状態で、新規ラベルなしのデータベースから選択された少なくとも一つの新規ラベルなしのイメージが獲得されると、（ｉ）前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって、前記新規ラベルなしのイメージに対するオブジェクトディテクションを遂行して新規オブジェクトディテクション情報を生成させたり生成するように支援し、（ｉｉ）前記新規オブジェクトディテクション情報を参照して前記新規ラベルなしのイメージ上に含まれた第１の客体に対する第１の新規バウンディングボックスに対応される第１の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし前記新規ラベルなしのイメージ上に含まれた第ｋ_３の客体に対する第ｋ_３の新規バウンディングボックス（前記ｋ_３は１以上の整数である）に対応される第ｋ_３の新規クラシフィケーションコンフィデンス、第ｋ_３の新規リグレッションアンサーティンティ及び第ｋ_３の新規プールドフィーチャーマップを含む新規ステートセットを生成したり生成するように支援し、（ｉｉｉ）前記新規ステートセットをディープＱ‐ネットワークに入力して、前記ディープＱ‐ネットワークをもって、前記新規ステートセットをラーニング演算して前記新規ラベルなしのイメージに対応される新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援し、（ｉｖ）前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して新規アクションを生成したり生成するように支援するプロセス、及び（ＩＩ）前記新規アクションを参照して（ｉ）前記新規アクションが前記新規ラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、前記新規オブジェクトディテクション情報を前記新規ラベルなしのイメージにラベルとして追加した新規ラベル付きのイメージを前記学習データとして前記学習データベースに追加させ、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除し、前記学習データベースに含まれた少なくとも一つの前記学習データを利用して前記ディテクションネットワークを再学習させたり再学習させるように支援し、（ｉｉ）前記新規アクションが前記新規ラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、前記新規ラベルなしのイメージを前記新規ラベルなしのデータベースから削除するプロセスを遂行する自己学習装置が開示される。

【0032】

一例として、前記（Ｉ）プロセスにおいて、前記プロセッサは、前記ディープＱ‐ネットワークをもって、（ｉ）前記第１の新規バウンディングボックスに対応される前記第１の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティ及び前記第１の新規プールドフィーチャーマップないし前記第１の新規バウンディングボックスに対応される前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）演算を適用して前記第１の新規バウンディングボックスに対応される第１の新規インターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１の新規インターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし前記第ｋ_３の新規バウンディングボックスに対応される第ｋ_３の新規インターミディエートアクセプタンススコア及び第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援し、（ｉｉ）前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコアを平均演算して前記新規アクセプタンススコアを生成するようにし、前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを平均演算して前記新規リジェクションスコアを生成させることで前記新規アクセプタンススコアと前記新規リジェクションスコアとを含む前記新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させたり生成するように支援することを特徴とする自己学習装置が開示される。

【0033】

一例として、前記プロセッサは、前記ディープＱ‐ネットワークをもって、前記第１の新規プールドフィーチャーマップないし前記第ｋ_３の新規プールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１の新規フィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_３の新規フィーチャー値を生成し、前記第１の新規クラシフィケーションコンフィデンスないし前記第ｋ_３の新規クラシフィケーションコンフィデンス、前記第１の新規リグレッションアンサーティンティないし前記第ｋ_３の新規リグレッションアンサーティンティ及び前記第１の新規フィーチャー値ないし前記第ｋ_３の新規フィーチャー値に少なくとも一つの前記ＦＣ演算を適用して前記第１の新規インターミディエートアクセプタンススコアないし前記第ｋ_３の新規インターミディエートアクセプタンススコア及び前記第１の新規インターミディエートリジェクションスコアないし前記第ｋ_３の新規インターミディエートリジェクションスコアを生成させたり生成するように支援することを特徴とする自己学習装置が開示される。

【0034】

一例として、前記（Ｉ）プロセスにおいて、前記プロセッサは、前記新規ラベルなしのイメージを前記ディテクションネットワークに入力して、前記ディテクションネットワークをもって（ｉ）少なくとも一つのコンボリューションレイヤーを通じて前記新規ラベルなしのイメージを少なくとも一回コンボリューション演算して前記新規ラベルなしのイメージに対応される新規フィーチャーマップを生成させたり生成するように支援し、（ｉｉ）ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて前記新規フィーチャーマップを参照して前記新規ラベルなしのイメージ上で前記第１の客体ないし前記第ｋ_３の客体があると予測される候補領域に対する新規ＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成させたり生成するように支援し、（ｉｉｉ）プーリングレイヤーを通じて前記新規フィーチャーマップ上で前記新規ＲＯＩに対応されるそれぞれの前記候補領域をＲＯＩプーリングして前記新規ＲＯＩのそれぞれに対応される新規プールドフィーチャーマップを生成させたり生成するように支援し、（ｉｖ）少なくとも一つのＦＣ（Ｆｕｌｌｙ‐Ｃｏｎｎｅｃｔｅｄ）レイヤーを通じて前記新規プールドフィーチャーマップをＦＣ演算して前記新規ＲＯＩのそれぞれに対応する新規リグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と新規クラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成させたり生成するように支援し、（ｖ）前記新規ＲＯＩのそれぞれに対応する前記新規リグレッション情報と前記新規クラシフィケーション情報とを参照して前記新規ラベルなしのイメージ上に位置する前記第１の客体ないし前記第ｋ_３の客体のそれぞれに対応する前記第１の新規バウンディングボックスないし前記第ｋ_３の新規バウンディングボックスと、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報とを生成させたり生成するように支援することを特徴とする自己学習装置が開示される。

【0035】

この他にも、本発明の方法を実行するためのコンピュータープログラムを記録するためのコンピューターの読み取り可能な記録媒体がさらに提供される。

【発明の効果】

【0036】

本発明はディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）が生成したＱ値（Ｑ‐ｖａｌｕｅ）を利用してディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）の正確度を増加させることができる最適の学習データを効果的に選択する効果がある。

【0037】

【0038】

また、本発明はディープＱ‐ネットワークが生成するＱ値（Ｑ‐ｖａｌｕｅ）に基づいて選択された学習データを利用してディテクションネットワークに対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を可能にする効果がある。

【図面の簡単な説明】

【0039】

本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野における通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られる。

【0040】

【図1】図１は、本発明の一実施例によってディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）におけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）させるための学習装置を簡略に示したものである。

【図2】図２は、本発明の一実施例によってディープラーニング基盤のディテクションネットワークにおけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワークを強化学習させる過程を簡略に示したものである。

【図3】図３は、本発明の一実施例によるディープＱ‐ネットワークの構造を簡略に示したものである。

【図4】図４は、本発明の一実施例によってディープＱ‐ネットワークを利用してディープラーニング基盤のディテクションネットワークに対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行する自己学習装置（ｓｅｌｆ‐ｌｅａｒｎｉｎｇｄｅｖｉｃｅ）を簡略に示したものである。

【図5】図５は、本発明の一実施例によってディープＱ‐ネットワークを利用してディープラーニング基盤のディテクションネットワークに対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行する過程を簡略に示したものである。

【発明を実施するための形態】

【0041】

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

【0042】

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除くことを意図したものではない。通常の技術者にとって本発明の他の目的、長所及び特性が、一部は本説明書から、また一部は本発明の実施から明らかになる。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

【0043】

本発明で言及する各種イメージは、舗装または非舗装道路関連のイメージを含むことができるし、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他障害物）を想定することができるが、必ずしもこれに限定されるものではなく、本発明で言及する各種イメージは、道路とは関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、天、屋内に関連するイメージ）であってもよく、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、天、屋内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンなどの飛行体、その他障害物）を想定することができるが、必ずしもこれに限定されるものではない。ここで提供される本開示のタイトル及び要約は単に便宜のためのものであり、実施例の範囲または意味を制限したり解釈するものではない。

【0044】

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好ましい実施例について添付された図面を参照して詳しく説明する。

【0045】

図１は、本発明の一実施例によってディープラーニング基盤のディテクションネットワーク（ｄｅｔｅｃｔｉｏｎｎｅｔｗｏｒｋ）におけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）に有用な学習データを選択できるようにディープＱ‐ネットワーク（ｄｅｅｐＱ‐ｎｅｔｗｏｒｋ）を強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）させるための学習装置１０００を簡略に示したものである。

【0046】

図１を参照すれば、学習装置１０００はディープラーニング基盤のディテクションネットワークにおけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワークを強化学習させるためのインストラクションを格納するメモリ１００１と、メモリ１００１に格納されたインストラクションに対応してディープラーニング基盤のディテクションネットワークにおけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワークを強化学習させるための動作を遂行するプロセッサ１００２を含むことができる。

【0047】

具体的に、学習装置１０００は典型的にコンピューティング装置（例えば、コンピュータープロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルーター、スイッチなどのような電子通信装置；ネットワーク付きストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）とコンピューターソフトウェア（すなわち、コンピューティング装置をもって特定方式で機能させるインストラクション）の組み合わせを利用して所望のシステム性能を達成するものである。

【0048】

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、運営体制、特定目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

【0049】

しかし、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態であるインテグレイティド（ｉｎｔｅｇｒａｔｅｄ）プロセッサを含む場合を排除することではない。

【0050】

このように構成された学習装置１０００を利用して本発明の一実施例によってディープラーニング基盤のディテクションネットワークにおけるオブジェクトディテクション結果に基づいてディテクションネットワークの自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワークを強化学習させるための方法を図２と図３を参照して説明すれば次のとおりである。

【0051】

先ず、図２は本発明の一実施例によってディープラーニング基盤のディテクションネットワーク１００におけるオブジェクトディテクション結果に基づいてディテクションネットワーク１００の自己教師あり学習に有用な学習データを選択できるようにディープＱ‐ネットワーク２００に対して強化学習させる過程を簡略に示したものである。

【0052】

図２を参照すれば、学習装置１０００は、客体探知のためのディテクションネットワーク１００が学習データベースに格納された学習データを利用して学習された状態で、ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から少なくとも一つの第１のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、第１のラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって、第１のラベルなしのイメージに対するオブジェクトディテクションを遂行して第１のオブジェクトディテクション情報を生成させることができる。ここで、第１のラベルなしのイメージはラベルなしのデータベースからランダムに選択されることができる。また、ディテクションネットワーク１００の初期学習に利用された学習データベースが含んだ学習データは、各学習データに対応される原本正解を利用して全てアノテーション（ａｎｎｏｔａｔｉｏｎ）された状態である。そして、ラベルなしのデータベースは原本正解がアノテーションされていないラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が格納されている。

【0053】

具体的に、学習装置１０００は第１のラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって少なくとも一つのコンボリューションレイヤーを通じて第１のラベルなしのイメージを少なくとも一回コンボリューション演算して第１のラベルなしのイメージに対応される第１のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて第１のフィーチャーマップを参照して第１のラベルなしのイメージ上で第１の客体ないし第ｋ_１の客体があると予測される候補領域に対する第１のＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成するようにし、プーリングレイヤーを通じて第１のフィーチャーマップ上で第１のＲＯＩに対応されるそれぞれの候補領域をＲＯＩプーリングして第１のＲＯＩのそれぞれに対応される第１のプールドフィーチャーマップ（ｐｏｏｌｅｄｆｅａｔｕｒｅｍａｐ）を生成するようにし、少なくとも一つのＦＣレイヤー（Ｆｕｌｌｙ‐ＣｏｎｎｅｃｔｅｄＬａｙｅｒ）を通じて第１のプールドフィーチャーマップを第１のＦＣ演算して第１のＲＯＩのそれぞれに対する第１のリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と第１のクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成するようにし、第１のＲＯＩのそれぞれに対する第１のリグレッション情報と第１のクラシフィケーション情報とから第１のラベルなしのイメージ上に位置する第１の客体ないし第ｋ_１の客体のそれぞれに対する第１_１のバウンディングボックスないし第１_ｋ_１のバウンディングボックスと、第１_１のクラシフィケーション情報ないし第１_ｋ_１のクルレピシケイション情報とを生成させることができる。この時、第１_１のクラシフィケーション情報ないし第１_ｋ_１のクラシフィケーション情報それぞれは第１_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）ないし第１_ｋ_１のクラシフィケーションコンフィデンスを含むことができるし、第１_１のバウンディングボックスないし第１_ｋ_１のバウンディングボックスのそれぞれは第１_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）ないし第１_ｋ_１のリグレッションアンサーティンティを含むことができる。ここで、ｋ_１は１以上の整数であり、第１のラベルなしのイメージ上に存在する客体数によってその値が変わることができる。

【0054】

次いで、学習装置１０００は、第１のオブジェクトディテクション情報を参照して第１のラベルなしのイメージ上に含まれた第１の客体ないし第ｋ_１の客体に対する第１_１のバウンディングボックスないし第１_ｋ_１のバウンディングボックスそれぞれに対応される第１_１のクラシフィケーションコンフィデンスないし第１_ｋ_１のクラシフィケーションコンフィデンス、第１_１のリグレッションアンサーティンティないし第１_ｋ_１のリグレッションアンサーティンティ、及び第１_１のプールドフィーチャーマップないし第１_ｋ_１のプールドフィーチャーマップを含む第１のステートセット（ｓｔａｔｅｓｅｔ）を生成することができる。

【0055】

そして、学習装置１０００は、第１のステートセットをディープＱ‐ネットワーク２００に入力して、ディープＱ‐ネットワーク２００をもって、第１のステートセットをラーニング演算して第１のラベルなしのイメージに対応されるアクセプタンススコア（ａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）とリジェクションスコア（ｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）とを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成するようにし、Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用してアクションを生成することができる。

【0056】

具体的に、図３を参照すれば、学習装置１０００は、ディープＱ‐ネットワーク２００をもって、第１_１のバウンディングボックスに対応される第１_１のクラシフィケーションコンフィデンス、第１_１のリグレッションアンサーティンティ、第１_１のプールドフィーチャーマップないし第１_ｋ_１のバウンディングボックスに対応される第１_ｋ_１のクラシフィケーションコンフィデンス、第１_ｋ_１のリグレッションアンサーティンティ及び第１_ｋ_１のプールドフィーチャーマップのそれぞれに少なくとも一つの第２のＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）演算を適用して第１_１のバウンディングボックスに対応される第１のインターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１のインターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし第１_ｋ_１のバウンディングボックスに対応される第ｋ_１のインターミディエートアクセプタンススコア及び第ｋ_１のインターミディエートリジェクションスコアを生成させることができる。

【0057】

ここで、学習装置１０００は、ディープＱ‐ネットワーク２００をもって、第１_１のプールドフィーチャーマップないし第１_ｋ_１のプールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１のフィーチャー値（ｆｅａｔｕｒｅｖａｌｕｅ）ないし第ｋ_１のフィーチャー値を生成した後、第１_１のクラシフィケーションコンフィデンスないし第１_ｋ_１のクラシフィケーションコンフィデンス、第１_１のリグレッションアンサーティンティないし第１_ｋ_１のリグレッションアンサーティンティ及び第１のフィーチャー値ないし第ｋ_１のフィーチャー値に少なくとも一つの第２のＦＣ演算を適用させることができる。これを通じて、第１のステートセットにおける各要素、すなわち、第１_１のクラシフィケーションコンフィデンスないし第１_ｋ_１のクラシフィケーションコンフィデンス、第１_１のリグレッションアンサーティンティないし第１_ｋ_１のリグレッションアンサーティンティ及び第１_１のプールドフィーチャーマップないし第１_ｋ_１のプールドフィーチャーマップのデータフォーマットを同一または類似にした後、第２のＦＣ演算を遂行させることができる。ここで、ｍ×ｍは第１_１のプールドフィーチャーマップないし第１_ｋ_１のプールドフィーチャーマップのサイズに対応されることができる。

【0058】

一例として、図３で例示として示したように、ディテクションネットワーク１００から生成された第１_１のプールドフィーチャーマップないし第１_ｋ_１のプールドフィーチャーマップがそれぞれ５×５のサイズを持つ場合、少なくとも一つの１×１コンボリューション演算と一つの５×５コンボリューション演算とを適用して第１のフィーチャー値ないし第ｋ_１のフィーチャー値を生成した後、第１_１のクラシフィケーションコンフィデンスないし第１_ｋ_１のクラシフィケーションコンフィデンス、第１_１のリグレッションアンサーティンティないし第１_ｋ_１のリグレッションアンサーティンティ及び第１のフィーチャー値ないし第ｋ_１のフィーチャー値のそれぞれに少なくとも一つの第２のＦＣ演算を適用して第１のインターミディエートアクセプタンススコアないし第ｋ_１のインターミディエートアクセプタンススコア及び第１のインターミディエートリジェクションスコアないし第ｋ_１のインターミディエートリジェクションスコアを生成することができる。

【0059】

以後、学習装置１００は、ディープＱ‐ネットワーク２００をもって、第１のインターミディエートアクセプタンススコアないし第ｋ_１のインターミディエートアクセプタンススコアを平均演算してアクセプタンススコアを生成するようにし、第１のインターミディエートリジェクションスコアないし第ｋ_１のインターミディエートリジェクションスコアを平均演算してリジェクションスコアを生成させることでアクセプタンススコアとリジェクションスコアとを含むＱ値（Ｑ‐Ｖａｌｕｅ）を生成させることができる。

【0060】

また、図２を参照すれば、学習装置１０００はディープＱ‐ネットワーク２００のＱ値（Ｑ‐ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して生成したアクションを参照してアクションが第１のラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、第１のオブジェクトディテクション情報を第１のラベルなしのイメージにラベルとして追加したラベル付きのイメージを学習データとして学習データベースに追加させ、第１のラベルなしのイメージをラベルなしのデータベースから削除し、学習データベースに含まれた少なくとも一つの学習データを利用してディテクションネットワーク１００を再学習させ、再学習されたディテクションネットワーク１００を検証データベース（ｖａｌｉｄａｔｉｏｎｄａｔａｂａｓｅ）を利用し、テストして獲得した再学習されたディテクションネットワーク１００の第１正確度を参照してリワード（ｒｅｗａｒｄ）を生成することができる。ここで、第１正確度は検証データベースを利用してディテクションネットワーク１００をテストした結果から獲得することができる。例えば、第１正確度は検証データベースに含まれたテストデータに対してディテクションネットワーク１００が生成したテストオブジェクトディテクション情報をテストデータの原本正解と比べて生成したｍＡＰ（ｍｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）として設定することができる。

【0061】

一方、学習装置１０００はＱ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して生成したアクションを参照してアクションが第１のラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、第１のラベルなしのイメージをラベルなしのデータベースから削除し、検証データベースを利用してディテクションネットワーク１００をテストして獲得したディテクションネットワーク１００の第２正確度、すなわち、再学習が行われていない現状のディテクションネットワーク１００の第２正確度を参照してリワードを生成することができる。ここで、第２正確度はディテクションネットワーク１００に対する再学習が行われていない状態で測定されたものであるため、第２正確度の測定以前に測定された正確度で変化のない状態である。

【0062】

次に、学習装置１０００はラベルなしのデータベースから少なくとも一つの第２のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、第２のラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって、第２のラベルなしのイメージに対するオブジェクトディテクションを遂行して第２のオブジェクトディテクション情報を生成させることができる。ここで、第２のラベルなしのイメージはラベルなしのデータベースからランダムに選択されることができる。

【0063】

具体的に、学習装置１０００は第２のラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって少なくとも一つのコンボリューションレイヤーを通じて第２のラベルなしのイメージを少なくとも一回コンボリューション演算して第２のラベルなしのイメージに対応される第２のフィーチャーマップ（ｆｅａｔｕｒｅｍａｐ）を生成するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて第２のフィーチャーマップを参照して第２のラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）上で第１の客体ないし第ｋ_２の客体があると予測される候補領域に対する第２のＲＯＩ（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）を生成するようにし、プーリングレイヤーを通じて第２のフィーチャーマップ上で第２のＲＯＩに対応されるそれぞれの候補領域をＲＯＩプーリングして第２のＲＯＩのそれぞれに対応される第２のプールドフィーチャーマップを生成するようにし、少なくとも一つのＦＣレイヤーを通じて第２のプールドフィーチャーマップを第１のＦＣ演算して第２のＲＯＩのそれぞれに対する第２のリグレッション情報（ｒｅｇｒｅｓｓｉｏｎｉｎｆｏｒｍａｔｉｏｎ）と第２のクラシフィケーション情報（ｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）とを生成するようにし、第２のＲＯＩのそれぞれに対する第２のリグレッション情報と第２のクラシフィケーション情報とから第２のラベルなしのイメージ上に位置する第１の客体ないし第ｋ_２の客体のそれぞれに対する第２_１のバウンディングボックスないし第２_ｋ_２のバウンディングボックスと、第２_１のクラシフィケーション情報ないし第２_ｋ_２のクラシフィケーション情報とを生成させることができる。この時、第２_１のクラシフィケーション情報ないし第２_ｋ_２のクラシフィケーション情報のそれぞれは第２_１のクラシフィケーションコンフィデンス（ｃｌａｓｓｉｆｉｃｉａｔｉｏｎｃｏｎｆｉｄｅｎｃｅ）ないし第２_ｋ_２のクラシフィケーションコンフィデンスを含むことができるし、第２_１のバウンディングボックスないし第２_ｋ_２のバウンディングボックスのそれぞれは第２_１のリグレッションアンサーティンティ（ｒｅｇｒｅｓｓｉｏｎｕｎｃｅｒｔａｉｎｔｙ）ないし第２_ｋ_２のリグレッションアンサーティンティを含むことができる。ここで、ｋ_２は１以上の整数であり、第２のラベルなしのイメージ上に含まれた客体数によってその値が変わることができる。

【0064】

次いで、学習装置１０００は、第２のオブジェクトディテクション情報を参照して第２のラベルなしのイメージ上に含まれた第１の客体ないし第ｋ_２の客体に対する第２_１のバウンディングボックスないし第２_ｋ_２のバウンディングボックスのそれぞれに対応される第２_１のクラシフィケーションコンフィデンスないし第２_ｋ_２のクラシフィケーションコンフィデンス、第２_１のリグレッションアンサーティンティないし第２_ｋ_２のリグレッションアンサーティンティ、及び第２_１のプールドフィーチャーマップないし第２_ｋ_２のプールドフィーチャーマップを含む第２のステートセット（ｓｔａｔｅｓｅｔ）を生成することができる。

【0065】

次に、学習装置１０００は第１のステートセット、アクション、リワード及び第２のステートセットをトランジションベクター（ｔｒａｎｓｉｔｉｏｎｖｅｃｔｏｒ）としてメモリに格納することができる。ここで、学習装置１０００は第１のラベルなしのイメージに対応される第１のステートセット、アクション、リワードをメモリに格納した状態で、第２のステートセットが生成されると第２のステートセットをさらにメモリに格納することができる。また、トランジションベクターの各要素はトランジションの各コンポーネントと言えるし、トランジションベクターはメモリにタプル（ｔｕｐｌｅ）の形態で格納されることができる。

【0066】

そして、学習装置１０００は、メモリから少なくとも一つの学習用トランジションベクターとして使われる少なくとも一つの特定トランジションベクターをサンプリングしてミニバッチ（ｍｉｎｉｂａｔｃｈ）を生成し、ミニバッチを利用してディープＱ‐ネットワーク２００が第１のステートセット及び第２のステートセットによってリワードを増加させるためのアクションを出力するようにディープＱ‐ネットワーク２００を学習させることができる。ここで、ディープＱ‐ネットワーク２００の学習はミニバッチに含まれた学習用トランジションベクターを参照してベルマン方程式（Ｂｅｌｌｍａｎ’ｓｅｑｕａｔｉｏｎ）を利用したロス関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を生成した後、ロスを最小化する方法で遂行することができる。

【0067】

一方、第１のステートセット、アクション、リワード及び第２のステートセットを生成する段階は反復的に遂行されて複数のトランジションベクターを生成することができるし、トランジションベクターが格納されたメモリはリプレイメモリ（ｒｅｐｌａｙｍｅｍｏｒｙ）を含むことができる。したがって、毎イテレーション（ｉｔｅｒａｔｉｏｎ）ごとに、学習装置１０００はトランジションベクターをリプレイメモリに伝送してリプレイメモリをもってサイクリックバッファ（ｃｙｃｌｉｃｂｕｆｆｅｒ）の既設定された容量によってトランジションベクターを最も古い以前のトランジションベクターにオーバライト（ｏｖｅｒｗｒｉｔｅ）して格納させることができる。これを通じて、学習装置１０００はリプレイメモリから少なくとも一つの学習用トランジションベクターとして使用される特定トランジションベクターをランダムにサンプリングしてミニバッチを生成することができる。

【0068】

また、毎イテレーションごとにミニバッチをサンプリングしてディープＱ‐ネットワーク２００を学習させる一例として、学習装置１０００は、トランジションベクターの蓄積量に比例して学習用トランジションベクターとして使われるａ×ｎ個や２ⁿ個の特定トランジションベクターをランダムに選択して少なくとも一つのミニバッチを生成し、各ミニバッチを利用してディープＱ‐ネットワーク２００を学習させることができる。ここで、ａとｎは１以上の整数であり、ｎは既設定されたイテレーション数ごとに１ずつ増加する。

【0069】

前記のようなディープＱ‐ネットワーク２００に対する強化学習は、以下のような擬似コード（ｐｓｅｕｄｏｃｏｄｅ）を利用して遂行されることができる。以下の擬似コードにおいて、ディープＱ‐ネットワーク２００はＱ‐Ｎｅｔで、ディテクションネットワーク１００はＤｅｔｅｃｔｉｏｎ‐Ｎｅｔで表される。以下の擬似コードによると、学習装置１０００はトランジションベクターが生成される毎イテレーションごとにミニバッチを生成してディープＱ‐ネットワーク２００を学習させる過程を繰り返すことができる。

【0070】

【数1】

【0071】

一方、前記のような方法を使用してディープＱ‐ネットワーク２００の強化学習を進めると同時に、ディテクションネットワーク１００に対する自己教師あり学習も同時に進めることができるが、本発明がこれに限定されるものではなく、前記のように学習されたディープＱ‐ネットワークを利用してディテクションネットワーク１００に対する自己教師あり学習を遂行する方法は以下のとおりである。

【0072】

ディープＱ‐ネットワーク２００が前記のように学習された状態で、自己学習装置（ｓｅｌｆ‐ｌｅａｒｎｉｎｇｄｅｖｉｃｅ）がディープＱ‐ネットワーク２００を利用してディープラーニング基盤のディテクションネットワーク１００を自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）する方法を図４と図５を参照して説明すれば次のとおりである。

【0073】

図４は、本発明の一実施例によってディープＱ‐ネットワーク２００を利用してディープラーニング基盤のディテクションネットワークに対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行する自己学習装置２０００を簡略に示したものである。

【0074】

図４を参照すれば、自己学習装置２０００はディープＱ‐ネットワーク２００を利用してディテクションネットワーク１００に対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行するためのインストラクションを格納するメモリ２００１とメモリ２００１に格納されたインストラクションに対応してディープＱ‐ネットワーク２００を利用してディテクションネットワーク１００に対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行するプロセッサ２００２を含むことができる。

【0075】

具体的に、自己学習装置２０００は典型的にコンピューティング装置（例えば、コンピュータープロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の構成要素を含むことができる装置；ルーター、スイッチなどのような電子通信装置；ネットワーク付きストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）とコンピューターソフトウェア（すなわち、コンピューティング装置をもって特定方式で機能させるインストラクション）の組み合わせを利用して所望のシステム性能を達成するものである。

【0076】

【0077】

【0078】

一方、前記のような自己学習装置２０００はラベリングされていない学習データが持続的に提供されるクラウド、ＩｏＴ機器、映像装置、自律走行自動車、ロボットなどに搭載されることができるし、必要に応じて一定期間ごとにディテクションネットワーク１００とディープＱ‐ネットワーク２００とのパラメーターを学習装置１０００に伝送してアップデートされたディープＱ‐ネットワーク２００のパラメーターを学習装置１０００から伝送してもらうことができる。このように学習装置１０００と自己学習装置２０００とは物理的に分離されて互いにデータを取り交わすことができるが、本発明がこれに限定されるものではなく、容量や物理的な制限がない場合や必要に応じては学習装置１０００と自己学習装置２０００とが同一機器として動作することができる。

【0079】

このように構成された本発明の一実施例による自己学習装置２０００を利用してディープＱ‐ネットワーク２００を利用してディープラーニング基盤のディテクションネットワーク１００に対する自己教師あり学習（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を遂行する過程を図５を参照して説明すれば次のとおりである。以下では、図２と図３を参照した説明から容易に理解できる部分に対しては詳細な説明を省略する。

【0080】

図５を参照すれば、前記のようにディープＱ‐ネットワーク２００が学習された状態で、自己学習装置２０００は新規ラベルなしのデータベース（ｕｎｌａｂｅｌｅｄｄａｔａｂａｓｅ）から選択された少なくとも一つの新規ラベルなしのイメージ（ｕｎｌａｂｅｌｅｄｉｍａｇｅ）が獲得されると、新規ラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって、新規ラベルなしのイメージに対するオブジェクトディテクションを遂行して新規オブジェクトディテクション情報を生成させることができる。ここで、新規ラベルなしのイメージは新規ラベルなしのデータベースからランダムに選択されることができる。そして、新規ラベルなしのデータベースは原本正解がアノテーション（ａｎｎｏｔａｔｉｏｎ）されていない新規ラベルなしのイメージが格納されている。

【0081】

すなわち、自己学習装置２０００は新規ラベルなしのイメージをディテクションネットワーク１００に入力して、ディテクションネットワーク１００をもって少なくとも一つのコンボリューションレイヤーを通じて新規ラベルなしのイメージを少なくとも一回コンボリューション演算して新規ラベルなしのイメージに対応される新規フィーチャーマップを生成するようにし、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を通じて新規フィーチャーマップを参照して新規ラベルなしのイメージ上で第１の客体ないし第ｋ_３の客体があると予測される候補領域に対する新規ＲＯＩを生成するようにし、プーリングレイヤーを通じて新規フィーチャーマップ上で新規ＲＯＩのそれぞれに対応されるそれぞれの候補領域をＲＯＩプーリングして新規ＲＯＩに対応される新規プールドフィーチャーマップを生成するようにし、少なくとも一つのＦＣレイヤーを通じて新規プールドフィーチャーマップを第１のＦＣ演算して新規ＲＯＩのそれぞれに対する新規リグレッション情報と新規クラシフィケーション情報とを生成するようにし、新規ＲＯＩのそれぞれに対する新規リグレッション情報と新規クラシフィケーション情報とから新規ラベルなしのイメージ上に位置する第１の客体ないし第ｋ_３の客体に対する第１の新規バウンディングボックスないし第ｋ_３の新規バウンディングボックスと、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報とを生成させることができる。この時、第１の新規クラシフィケーション情報ないし第ｋ_３の新規クラシフィケーション情報それぞれは第１の新規クラシフィケーションコンフィデンスないし第ｋ_３のクラシフィケーションコンフィデンスを含むことができるし、第１の新規バウンディングボックスないし第ｋ_３のバウンディングボックスのそれぞれは第１の新規リグレッションアンサーティンティないし第ｋ_３の新規リグレッションアンサーティンティを含むことができる。ここで、ｋ_３は１以上の整数であり、新規ラベルなしのイメージ上に含まれた客体数によってその値が変わることができる。

【0082】

次いで、自己学習装置２０００は新規オブジェクトディテクション情報を参照して新規ラベルなしのイメージ上に含まれた少なくとも一つの客体に対する第１の新規バウンディングボックスないし第ｋ_３の新規バウンディングボックスのそれぞれに対応される第１の新規クラシフィケーションコンフィデンスないし第ｋ_３の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティないし第ｋ_３の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし第１の新規プールドフィーチャーマップを含む新規ステートセットを生成することができる。

【0083】

これによって、自己学習装置２０００は新規ステートセットをディープＱ‐ネットワーク２００に入力して、ディープＱ‐ネットワーク２００をもって、新規ステートセットをラーニング演算して新規ラベルなしのイメージに対応される新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成するようにし、新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して新規アクションを生成することができる。

【0084】

具体的に、自己学習装置２０００は、ディープＱ‐ネットワーク２００をもって、新規ラベルなしのイメージ上に含まれた第１の客体ないし第ｋ_３の客体に対する第１の新規バウンディングボックスに対応される第１の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし第１の新規バウンディングボックスに対応される第ｋ_３の新規クラシフィケーションコンフィデンス、第ｋ_３の新規リグレッションアンサーティンティ及び第ｋ_３の新規プールドフィーチャーマップのそれぞれに少なくとも一つの第２のＦＣ演算を適用して第１の新規バウンディングボックスに対応される第１の新規インターミディエートアクセプタンススコア（ｉｎｔｅｒｍｅｄｉａｔｅａｃｃｅｐｔａｎｃｅｓｃｏｒｅ）及び第１の新規インターミディエートリジェクションスコア（ｉｎｔｅｒｍｅｄｉａｔｅｒｅｊｅｃｔｉｏｎｓｃｏｒｅ）ないし第ｋ_３の新規バウンディングボックスに対応される第ｋ_３の新規インターミディエートアクセプタンススコア及び第ｋ_３の新規インターミディエートリジェクションスコアを生成させることができる。

【0085】

ここで、自己学習装置２０００は、ディープＱ‐ネットワーク２００に、第１の新規プールドフィーチャーマップないし第ｋ_３の新規プールドフィーチャーマップに少なくとも一つの１×１コンボリューション演算と一つのｍ×ｍコンボリューション演算とを適用して第１の新規フィーチャー値ないし第ｋ_３の新規フィーチャー値を生成した後、第１の新規クラシフィケーションコンフィデンスないし第ｋ_３の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティないし第ｋ_３の新規リグレッションアンサーティンティ及び第１の新規フィーチャー値ないし第ｋ_３の新規フィーチャー値に少なくとも一つのＦＣ演算を適用するようにして第１の新規インターミディエートアクセプタンススコアないし第ｋ_３の新規インターミディエートアクセプタンススコアと第１の新規インターミディエートリジェクションスコアないし第ｋ_３の新規インターミディエートリジェクションスコアとを生成させることができる。これを通じて、新規ステートセットにおける各要素、すなわち、第１の新規クラシフィケーションコンフィデンスないし第ｋ_３の新規クラシフィケーションコンフィデンス、第１の新規リグレッションアンサーティンティないし第ｋ_３の新規リグレッションアンサーティンティ及び第１の新規プールドフィーチャーマップないし第ｋ_３の新規プールドフィーチャーマップのデータフォーマットを同一または類似にした後、第２のＦＣ演算を遂行させることができる。

【0086】

次に、自己学習装置２０００は、第１の新規インターミディエートアクセプタンススコアないし第ｋ_３の新規インターミディエートアクセプタンススコアを平均演算して新規アクセプタンススコアを生成するようにし、第１の新規インターミディエートリジェクションスコアないし第ｋ_３の新規インターミディエートリジェクションスコアを平均演算して新規リジェクションスコアを生成させることで新規アクセプタンススコアと新規リジェクションスコアとを含む新規Ｑ値（Ｑ‐Ｖａｌｕｅ）を生成させることができる。

【0087】

次いで、自己学習装置２０００はディープＱ‐ネットワーク２００の新規Ｑ値（Ｑ‐ｖａｌｕｅ）にａｒｇｍａｘ関数を適用して生成した新規アクションを参照して新規アクションが新規ラベルなしのイメージのアクセプタンス（ａｃｃｅｐｔａｎｃｅ）に対応される場合、新規オブジェクトディテクション情報を新規ラベルなしのイメージにラベルとして追加した新規ラベル付きのイメージを学習データとして学習データベースに追加させ、新規ラベルなしのイメージを新規ラベルなしのデータベースから削除し、学習データベースに含まれた少なくとも一つの学習データを利用してディテクションネットワークを再学習させることができる。

【0088】

一方、自己学習装置２０００は新規Ｑ値（Ｑ‐Ｖａｌｕｅ）にａｒｇＭａｘ関数を適用して生成したアクションを参照して新規アクションが新規ラベルなしのイメージのリジェクション（ｒｅｊｅｃｔｉｏｎ）に対応される場合、新規ラベルなしのイメージを新規ラベルなしのデータベースから削除することができる。

【0089】

前記のようなディテクションネットワーク１００に対する自己教師あり（ｓｅｌｆ‐ｓｕｐｅｒｖｉｓｅｄ）学習は以下のような擬似コード（ｐｓｅｕｄｏｃｏｄｅ）を利用して遂行されることができる。以下の擬似コード（ｐｓｅｕｄｏｃｏｄｅ）において、ディープＱ‐ネットワーク２００はＱ‐Ｎｅｔで、ディテクションネットワーク１００はＤｅｔｅｃｔｉｏｎ‐Ｎｅｔで表されている。以下の擬似コード（ｐｓｅｕｄｏｃｏｄｅ）によると、自己学習装置２０００は新規ラベルなしのデータベースから新規ラベルなしのイメージが獲得される度に新規ステートセット、新規Ｑ値（Ｑ‐ｖａｌｕｅ）及び新規アクションを生成してディテクションネットワーク１００に対する学習を進めることができる。

【0090】

【数2】

【0091】

一方、前記ディテクションネットワーク１００の自己教師あり学習に利用された学習データベースは、ディープＱ‐ネットワークの強化学習の時にディテクションネットワーク１００の学習データとして使われたデータを含むことができるが、これに限定されるものではなく、ディープＱ‐ネットワークの強化学習の時にディテクションネットワーク１００の学習データとして使われたデータの代わりに新規学習データを含む学習データベースである。

【0092】

また、自己学習装置２０００は前記ディテクションネットワーク１００や前記ディテクションネットワーク１００とは異なるディテクションネットワークを使用して新規ラベルなしのデータベースから選択された新規ラベルなしのイメージに対する新規オブジェクトディテクション情報を生成させることができる。すなわち、ディープＱ‐ネットワーク２００の強化学習に利用されたディテクションネットワーク１００ではない他のディテクションネットワークの自己教師あり学習に強化学習を通じて学習されたディープＱ‐ネットワーク２００が使われることができる。

【0093】

以上で説明された本発明による実施例は多様なコンピューター構成要素を通じて遂行できるプログラム命令語の形態で具現され、コンピューターの読み取り可能な記録媒体に記録されることができる。前記コンピューターの読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピューターの読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別設計されて構成されたものであるか、またはコンピューターソフトウェア分野の当業者に公知されて使用可能なものであってもよい。コンピューターの読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ‐ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気‐光媒体（ｍａｇｎｅｔｏ‐ｏｐｔｉｃａｌｍｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作われるもののような機械語コードのみならず、インタプリタなどを使用してコンピューターによって実行されることができる高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を行うために一つ以上のソフトウェアモジュールとして作動するように構成されることができるし、その逆も同様である。

【0094】

以上、本発明が具体的な構成要素などのような特定事項と、限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野における通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。

【0095】

したがって、本発明の思想は前記説明された実施例に限って決まってはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等に、または等価的に変形された全てのものなどは本発明の思想の範疇に属するものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版