(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-06
(45)【発行日】2022-07-14
(54)【発明の名称】対象検出方法、装置、機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220707BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2020567517
(86)(22)【出願日】2019-11-27
(86)【国際出願番号】 CN2019121300
(87)【国際公開番号】W WO2020238101
(87)【国際公開日】2020-12-03
【審査請求日】2020-12-18
(31)【優先権主張番号】201910449107.7
(32)【優先日】2019-05-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520018428
【氏名又は名称】センスタイム グループ リミテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ワン,クン
(72)【発明者】
【氏名】マ,ジャビン
(72)【発明者】
【氏名】フー,ジェキ
(72)【発明者】
【氏名】ワン,フージャン
(72)【発明者】
【氏名】ジャン,シンギュ
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2019-32821(JP,A)
【文献】特開2012-243180(JP,A)
【文献】米国特許出願公開第2018/0075594(US,A1)
【文献】中国特許出願公開第109242096(CN,A)
【文献】中国特許出願公開第108229591(CN,A)
【文献】中国特許出願公開第106096538(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項12】
コンピュータ実行可能命令を含むコンピュータプログラ
ムであって、
前記コンピュータ実行可能命令が実行されるとき、請求項1~8のいずれか一項に記載の対象検出方法を実行する、
ことを特徴とするコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、中国特許庁に提出された中国特許出願の優先権を主張し、出願日は2019年5月27日であり、出願番号はCN201910449107.7であり、発明の名称は「対象検出方法、装置、機器及びコンピュータ可読記憶媒体」であり、且つ参照のためそれらの全文を本出願に組み込む。
【0002】
本発明は、ディープラーニング技術分野に関し、特に、対象検出方法、装置、機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
ディープラーニングニューラルネットワーク(Deep Learning Neural Networks)の発展に伴い、ディープラーニングニューラルネットワークはさまざまな分野で広く使用されており、例えば、オブジェクト検出に応用される畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)、言語翻訳に応用されるリカレントニューラルネットワーク(Recurrent Neural Network,RNN)などである。
【0004】
ディープニューラルネットワークのトレーニングの開始時に、すべてのデータが準備されていると仮定する。ニューラルネットワークのトレーニングプロセスにおいて、ニューラルネットワークのパラメータはターゲットタスクに応じて更新されるので、ニューラルネットワークをターゲットデータに成功的にフィッティング(Fitting)させる。新しいタスクと新しいデータが到着すると、ニューラルネットワークが以前に学んだ知識はトレーニング中に書き換えられ、従ってニューラルネットワークは以前のタスクとデータに関連する性能を失う可能性がある。
【発明の概要】
【0005】
本出願の実施形態は、対象検出方法を提供し、ニューラルネットワークはトレーニングされたシーンの既存の検出性能を保持するとともに、新しいシーンの対象検出性能を迅速に取得することができる。ニューラルネットワークは連続学習の能力を有し、即ち、ニューラルネットワークは元のシーンの処理性能を維持するとともに、新しいシーンの任務処理要件も十分に満たすことができる。
【0006】
第一態様において、本出願の実施形態は対象検出方法を提供する。対象検出方法は、
第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得することと、ニューラルネットワークは第一画像サンプルセットでトレーニングされる、ことと、
検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとすることと、
第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択することと、
ニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力することと、
出力された予測結果及び選択された各画像サンプルの実際値(ground truth)に基づいて、ニューラルネットワークのネットワークパラメータの値を調整することと、
を含む。
【0007】
1つの選択的な実施形態において、前記方法は、
ネットワークパラメータが更新されたニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行することをさらに含む。
【0008】
1つの選択的な実施形態において、第二ドメインは1つであり、第二画像サンプルセットは1つであり、第一画像サンプルセットの画像サンプルの数量は第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第一比率範囲内にある。
【0009】
1つの選択的な実施形態において、第二ドメインはk個であり、第二画像サンプルセットはk個であり、第一画像サンプルセットの画像サンプルの数量は各々の第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と各々の第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第二比率範囲内にあり、kは1より大きい整数である。
【0010】
1つの選択的な実施形態において、ネットワークパラメータが更新されたニューラルネットワークを獲得した後、前記方法は、
第二画像サンプルセットと第一画像サンプルセットを合併して、新しい第一画像サンプルセットを獲得することをさらに含む。
【0011】
1つの選択的な実施形態において、新しい第一画像サンプルセットを獲得した後、前記方法は、
ネットワークパラメータが更新されたニューラルネットワークによって新しい第一画像サンプルセットの各画像サンプルを処理して得られる処理結果及び新しい第一画像サンプルセットの各画像サンプルの実際値に基づいて、新しい第一画像サンプルセットの画像サンプルを選別することをさらに含む。
【0012】
1つの選択的な実施形態において、ネットワークパラメータが更新されたニューラルネットワークによって新しい第一画像サンプルセットの各画像サンプルを処理して得られる処理結果及び新しい第一画像サンプルセットの各画像サンプルの実際値に基づいて、新しい第一画像サンプルセットの画像サンプルを選別することは、
新しい第一画像サンプルセットの各画像サンプルをネットワークパラメータが更新されたニューラルネットワークに入力して、各画像サンプルの処理結果を獲得することと、
各画像サンプルの処理結果及びその実際値に基づいて、ネットワークパラメータが更新されたニューラルネットワークによって各画像サンプルを処理するときに生成された画像サンプルの損失値を確定することと、
新しい第一画像サンプルセットにおける損失値が第二閾値より小さい画像サンプルを捨てることと、
を含む。
【0013】
1つの選択的な実施形態において、以下のように検出結果の信頼性を確定する。検出結果と検出結果に対応する画像の実際値を比較して、検出結果の信頼性を獲得する。
【0014】
第二態様において、本出願の実施形態は対象検出装置を提供する。対象検出装置は、検出モジュールと、サンプル収集モジュールと、サンプル選択モジュールと、パラメータ調整モジュールと、を含む。検出モジュールは、第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して検出結果を獲得するために用いられ、ニューラルネットワークは第一画像サンプルセットでトレーニングされる。サンプル収集モジュールは、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとするために用いられる。サンプル選択モジュールは、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択するために用いられる。検出モジュールは、さらにニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力するために用いられる。パラメータ調整モジュールは、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整するために用いられる。
【0015】
第三態様において、本出願の実施形態は、対象検出機器を提供する。対象検出機器は、メモリ及びプロセッサを含み、メモリにはコンピュータ実行可能命令が格納されており、メモリに格納されたコンピュータ実行可能命令がプロセッサによって実行されると、第一態様の方法を実行する。
【0016】
第四態様において、本出願の実施形態は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体を提供する。コンピュータプログラムがプロセッサによって実行されると、第一態様の方法を実行する。
【0017】
第五態様において、本出願の実施形態は、コンピュータ実行可能命令を含むコンピュータプログラム製品を提供し、コンピュータ実行可能命令が実行されるとき、第一態様の方法を実現することができる。
【0018】
本出願の実施形態において、第二ドメインの画像に対して対象検出を実行して、検出結果を獲得した後、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとしてから、ニューラルネットワークを使用して別々に第一画像サンプルセット及び第二画像サンプルセットから選択された画像サンプルに対して対象検出を実行することにより予測結果を獲得し、最後に予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータを調整する。ニューラルネットワークをトレーニングする時、第一画像サンプルセットの画像サンプルを使用してニューラルネットワークをトレーニングするとともに、第二画像サンプルセットの画像サンプルを使用してニューラルネットワークをトレーニングするので、ニューラルネットワークは、第一ドメインの検出性能を保持するとともに、第二ドメインの検出要件を満たすことができる。即ち、ニューラルネットワークはトレーニングされたシーンの既存の検出性能を保持するとともに、新しいシーンの対象検出要件も満たすことができる。
【図面の簡単な説明】
【0019】
本出願の実施形態の技術的解決策をより明確に説明するために、以下、実施形態を説明するために使用される図面を簡単に紹介する。
【
図1】
図1は、本発明の実施形態に係わる対象検出方法のフローチャートである。
【
図2】
図2は、本発明の実施形態に係わる別の対象検出方法のフローチャートである。
【
図3】
図3は、本発明の実施形態に係わるさらに別の対象検出方法のフローチャートである。
【
図4】
図4は、本発明の実施形態に係わる対象検出方法で使用されるニューラルネットワークのトレーニングフレームワークを示す概略図である。
【
図5】
図5は、本発明の実施形態に係わるデュアルプールデータの組み合わせでニューラルネットワークをトレーニングすることを示す概略図である。
【
図6】
図6は、本発明の実施形態に係わるマルチプールデータの組み合わせでニューラルネットワークをトレーニングすることを示す概略図である。
【
図7】
図7は、本発明の実施形態に係わる対象検出装置を示すブロック図である。
【
図8】
図8は、本発明の実施形態に係わる対象検出機器の構造を示す概略図である。
【発明を実施するための形態】
【0020】
以下、本出願の実施形態の添付図面を参照しながら、本出願の実施形態の技術的方案を明確且つ完全に説明する。明らかに、説明された実施形態は、本発明の実施形態の一部にすぎず、すべての実施形態ではない。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態は、本発明の保護範囲に含まれる。
【0021】
本発明の明細書及び特許請求の範囲で使用される用語「含む」、「有する」は、記載された特徴、全体、ステップ、操作、要素及び/又は構成要素の存在を示すが、1つ又は複数の他の特徴、全体、ステップ、操作、要素、構成要素及び/又はそのコレクションの存在又は追加を除外しない。
【0022】
また、本出願の明細書で使用される用語は、ただ特定の実施形態を説明するために用いられ、本出願を限定することを意図しないことも理解されたい。本出願の明細書及び添付された特許請求の範囲で使用されるように、文脈が他の状況を明確に示さない限り、単数の形態「一」、「1つの」及び「前記」は、複数の形態を含むことを意図する。
【0023】
本出願の明細書及び特許請求の範囲で使用される用語「及び/又は」という用語は、リストされた関連項目の中の1つ又は複数の任意の組み合わせ及びすべての可能な組み合わせを指し、且つこれらの組み合わせを含むことを指す。
【0024】
本明細書及び添付された特許請求の範囲で使用されるように、「もし」という用語は、文脈に応じて、「...ている時」又は「...と(...たら)」又は「確定されることに応答する」又は「検出されることに応答する」と解釈することができる。同様に、「もし確定されると」又は「もし検出されると(記述された条件又は事件)」という句は、文脈に応じて、「確定したら」又は「確定されることに応答する」又は「検出したら(記述された条件又は事件)」又は「検出されることに応答する(記述された条件又は事件)と解釈することができる。
【0025】
さまざまな場所に快速に適用できるように、優れたニューラルネットワークは、通常、ある程度の適応性を有することを必要とする。ただし、ニューラルネットワーク自体の能力に限定され、且つ異なる地域又は異なるシーンの画像サンプルデータは異なり、例えば、複数の建物がある都市道路、複数の植生がある田舎道などであり、単一の画像サンプルデータソースを使用してトレーニングされたニューラルネットワークが他の地域又はシーンに応用されると、問題が発生する可能性がある。例えば、道路識別にとって、トレーニングに使用される画像サンプルはすべて都市道路サンプルであると、応用する時、都市道路はよく識別することができるが、田舎道を識別する場合、識別エラーが発生する可能性がある。最も安全な方法は、異なる地域に対して異なるニューラルネットワークをトレーニングすることである。しかし、このような方法は、新しいデータを収集してラベルを付ける必要があり、ニューラルネットワークを再びトレーニングする必要があるので、非常に時間と労力がかかる。
【0026】
これに対して、本出願の実施形態は対象検出方法を提供し、ニューラルネットワークは、トレーニングされたシーンの既存の検出性能を保持するとともに、新しいシーンの対象検出性能を迅速に獲得することができる。
【0027】
図1を参照すると、
図1は本発明の実施形態に係わる対象検出方法のフローチャートである。
図1に示されたように、前記方法は、以下のステップを含む。
【0028】
101、第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得し、その中において、ニューラルネットワークは第一画像サンプルセットでトレーニングされる。
【0029】
本出願の実施形態において、第一ドメイン及び第二ドメインは、ニューラルネットワークの2つの異なる適用範囲を指す。第一ドメインと第二ドメインの違いは、次のとおりである。1、応用領域が異なり、スマートビデオ、セキュリティモニタリング、先進運転支援システム(Advanced Driving Assistant System,ADAS)、自動運転(Automatic Driving,AD)などの応用領域が含まれる。例えば、第一ドメインはセキュリティモニタリング領域でA対象を検出することであり、第二ドメインは自動運転領域でA対象又はA対象に類似した対象を検出することである。2、時空が異なる。3、データソースが異なり、例えば、第一ドメインはシミュレートされた環境でA対象を検出することであり、第二ドメインは実際の環境でA対象又はA対象に類似した対象を検出することである。上記の対象は、人、動物、自動車、非自動車、交通標識、交通灯、障害物などであることができる。
【0030】
本出願の実施形態において、ニューラルネットワークは、任意のディープラーニングニューラルネットワークであることができる。例えば、オブジェクト検出に応用される畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)、言語識別に応用されるリカレントニューラルネットワーク(Recurrent Neural Network,RNN)、又はシーン識別に応用される再帰型ニューラルネットワーク(recursive neural network,RNN)などであることができる。
【0031】
どのようなニューラルネットワークに係わらず、ニューラルネットワークを実際に使用する前に、ニューラルネットワークが適用されるシナリオの最適な重みパラメータを取得するために、ニューラルネットワークをトレーニングすることを必要として、従ってニューラルネットワークを上記のシナリオに適用することができる。ニューラルネットワークをトレーニングする時、トレーニング用の画像サンプルを収集し、画像サンプルにラベルを付けて、画像サンプルセットを取得することを必要とする。それから、画像サンプルセットを使用して、ニューラルネットワークをトレーニングする。トレーニングされたニューラルネットワークをテストして、テスト結果が条件を満たす場合、ニューラルネットワークを実際の生産応用に適用することができる。
【0032】
本出願の実施形態において、「第一ドメインに用いられるニューラルネットワーク(ニューラルネットワークは第一画像サンプルセットでトレーニングされる)」とは、ニューラルネットワークは第一画像サンプルセットでトレーニングされ、且つ第一ドメインに応用され、第一ドメインの画像に対して対象検出を実行するとき、対象検出の要件を満たすことができ、それから前記ニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得することを意味する。例えば、ニューラルネットワークがトレーニングされた後、元にエリアAの道路画像に対して車両検出を実行するために用いられるニューラルネットワークが現在はエリアBの道路画像に対して車両検出を実行するために直接使用されている。
【0033】
1つの選択的な実施形態において、以下のように、第一画像サンプルセットを使用してニューラルネットワークをトレーニングする。第一画像サンプルセットの画像サンプルは事前設定された数量の画像サンプルグループに分けられ、ニューラルネットワークをトレーニングするために、事前設定された数量の画像サンプルグループが順番に使用される。単一グループの画像サンプルを使用してニューラルネットワークをトレーニングする具体的なプロセスは、1つのグループの画像サンプルをニューラルネットワークに入力して順方向伝播して、ニューラルネットワークの各層の出力結果を取得し、次に、画像サンプルのラベル付け結果を使用してニューラルネットワークの各層の誤差項を逆に計算し、最後に、勾配降下(Gradient Descent)法を採用して、損失関数を使用してニューラルネットワークの重みパラメーターを更新する。
【0034】
上記のトレーニング方法では、画像サンプルデータをいくつかのグループに分けて、ニューラルネットワークのパラメータはグループごとに更新される。このように、同じグループのデータが共同で勾配方向を決定するので、下降偏差が発生しにくくなり、ランダム性を減らす。一方、単一グループ内の画像サンプルの数量は画像サンプルセット全体の画像サンプルの数量よりもはるかに少ないので、計算量が削減される。その中において、損失関数を使用してニューラルネットワークの重みパラメータを更新し、その計算式は次のとおりである。
【0035】
【0036】
その中において、ηはステップサイズ(Step Size)であり、又は学習率(Learning Rate)とも呼ばれ、wはパラメータであり、Qは損失関数であり、nは各グループの画像サンプルの数量である。
【0037】
102、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとする。
【0038】
その中において、ニューラルネットワークが第二ドメインの画像に対して対象検出を実行して検出結果を獲得してから、検出結果と検出結果に対応する画像の画像実際値を比較することにより、差値を獲得する。差値が小さければ小さいほど、検出結果が画像実際値に接近することを説明し、検出結果の信頼性は高い。差値が大きければ大きいほど、検出結果は画像実際値から逸脱し、検出結果の信頼性が低い。その中において、画像の実際値は、画像の注釈情報であることができ、画像自体(実際の画像)であることもできる。
【0039】
実際のシーンは非常に複雑であり、さまざまな未知の状況がある。一般的なデータ収集は、非常に限られたサブセットしかカバーできない。第一画像サンプルセットを使用してニューラルネットワークをトレーニングした後、第一画像サンプルセットのカバレッジが全面ではないので、ニューラルネットワークを利用して一部のシーンの画像に対して対象検出を実行して得られる検出結果は要件を満たすことができるが、第一画像サンプルセットにカバーされていないシーンの画像に対して対象検出を実行して得られる検出結果は正確ではないことを招く。又は、第一画像サンプルセットにおいて、各シーンの画像サンプル分布は均一ではないので、ニューラルネットワークが誤検出するか、又は検出漏れを招く。例えば、異なる地域の道路画像に対して対象検出を実行するときに発生する。
【0040】
上述した問題について、本出願の実施形態において、第一画像サンプルセットを使用してニューラルネットワークをトレーニングした後、検出要件を満たすことができるシーンに対して、前記ニューラルネットワークを使い続けて対象検出を実行するが、検出要件を満たすことができないシーンに対して対象検出を実行する場合、問題のある検出結果に対応する画像を収集してから、問題のある検出結果に対応する画像を第二画像サンプルセットの画像サンプルとする。その中において、問題のある検出結果とは、検出結果の信頼性が第一閾値よりも低い状況を指し、具体的には、検出結果と検出結果に対応する画像の実際値を比較して、上記の検出結果の信頼性を獲得する。
【0041】
その中において、検出結果の信頼性が第一閾値よりも低いか否かを判断する場合、具体的には、検出結果と対応する正確結果(実際値)を手動で比較して判断するか、又は半自動方法で判断し、例えば、より複雑な構造を有するニューラルネットワークを使用して画像処理を実行し、2つの処理結果(より複雑な構造を有するニューラルネットワークによ
って得られた処理結果と上記のニューラルネットワークによって得られた処理結果)を比較する。
【0042】
1つの選択的な実施形態において、第二画像サンプルセットの画像サンプルは、検出結果の信頼性が第一閾値よりも低い画像に加えて、これらの画像と類似した特徴を有する画像であることができるので、第二画像サンプルセットの画像と類似した特徴を有する画像を獲得して、第二画像サンプルセットの画像サンプルとすることもできる。具体的には、ニューラルネットワークをトレーニングするために、第二ドメインでトレーニングサンプルを収集して第二画像サンプルセットの画像サンプルとすることができる。
【0043】
103、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択する。
【0044】
本出願の実施形態において、第二ドメインの第二画像サンプルセットを獲得してから、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択する。ニューラルネットワークを使用して選択された各画像サンプルを処理して予測結果を獲得し、従って予測結果及び選択された各画像サンプルの実際値に基づいてニューラルネットワークのパラメータの値を最適化及び調整し、即ち第一画像サンプルセット及び第二画像サンプルセットを使用して一緒にニューラルネットワークをトレーニングする。
【0045】
1つの選択的な実施形態において、第二ドメインは1つであり、第二画像サンプルセットは1つであり、第一画像サンプルセットの画像サンプルの数量は第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第一比率範囲内にある。
【0046】
第一画像サンプルセットから選択した画像サンプルの数量と第二画像サンプルセットから選択した画像サンプルの数量との間の比率は第一比率範囲内にあり、第一画像サンプルセットの画像サンプルの数量は第二画像サンプルセットの画像サンプルの数量より多いので、トレーニング中にニューラルネットワークの性能パラメータを第二画像サンプルセットに素早くフィッティングさせるために、2つのサンプルセットからサンプルを選択するたびに、2つのンプルセットから選択された画像サンプルの数量の比率が第一比率範囲内にあるようにする。例えば、ニューラルネットワークが元の第一ドメインの検出性能を保持するとともに、第二ドメインの検出性能をすばやく学習して取得できるように、上述した比例は約1:1であることができる。
【0047】
別の可能な実施形態において、1つの第二ドメインがあることに基づいて、第二ドメインの数量は複数であることもでき、即ち複数の第二ドメインが存在する。具体的には、第二ドメインはk個であり、第二画像サンプルセットはk個であり、第一画像サンプルセットの画像サンプルの数量は各々の第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と各々の第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第二比率範囲内にあり、その中において、kは1より大きい整数である。ニューラルネットワークが元の第一ドメインでの検出性能を保持するとともに、第二ドメインでの検出性能をすばやく学習して取得できるように、第一画像サンプルセット及び各第二画像サンプルセットから同じ数量のサンプル画像を選択することができ、即ち第二比例範囲は約1である。
【0048】
104、ニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力し、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整する。
【0049】
ステップ104において、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整することは、反復プロセス(iterative process)である。反復プロセスは、出力された予測結果及び選択された各画像サンプルの実際値の差が要件を満たすときに終了する。
【0050】
その中において、選択された各画像サンプルの実際値は選択された各画像サンプルの注釈情報である。例えば、画像検出分類用の画像サンプルに対して、画像サンプルの対象が車両である場合、画像サンプルの実際値は画像サンプルの中の車両である。
【0051】
ディープラーニングにおいて、トレーニングはフィッティングを意味し、即ちニューラルネットワークは特定の画像サンプルデータセットにフィッティング(Fitting)する。一般的に、異なる画像サンプルデータは異なる分布を有する。画像サンプルデータのターゲットオブジェクトは大きい差異がある。新しい画像サンプルデータソースを使用してトレーニングすると、元の画像サンプルデータソースの性能を影響し、且つ差異が大きければ大きいほど、性能の低下は深刻である。
【0052】
ニューラルネットワークトレーニングの本質は、次のとおりである。画像サンプルに対するニューラルネットワークの予測結果及び画像サンプルの実際値(即ち、画像サンプルの注釈情報又は実際の画像である)に基づいて、ニューラルネットワークのパラメータの
値を絶えずに調整して、予測結果と画像サンプルの実際値の差異が要件を満たすようにする。ニューラルネットワークのトレーニング中に、特定のデータソースのアクセス頻度は、ニューラルネットワークを前記データソースにフィッティングさせることができる確率を表す。アクセス頻度が高いほど、ニューラルネットワークは前記データソースにフィッティングし易く、即ちニューラルネットワークは前記データソースに対して優れる性能を発揮する。新しいデータソースが出現された場合、ただ新しいデータソースでトレーニングすると、トレーニングされたニューラルネットワークを再び新しいデータソースにフィッティングさせて、ニューラルネットワークが以前のデータソースにフィッティングできなくなる。従って、新しいデータソースと古いデータソースのアクセス頻度を同時に維持することは、本出願の実施形態におけるニューラルネットをワークトレーニングするキーポイントである。
【0053】
本出願の実施形態において、第一画像サンプルセットは古いデータであり、第二画像サンプルセットは新しいデータである。ニューラルネットワークが元の第一画像サンプルセット上の性能を維持するとともに第二画像サンプルセットにうまくフィッティングするように、同時に第一画像サンプルセット及び第二画像サンプルセットから画像サンプル選択してから、選択されたサンプルに対して対象検出を実行し、且つ検出結果とそれに対応する実際値(注釈結果又は実際の画像である)を利用してニューラルネットワークのパラメータを調整することを必要とする。
【0054】
本出願の実施形態において、ニューラルネットワークが第一ドメインに対する検出性能を失うことを防ぐために、第二画像サンプルセットを収集してから、第一画像サンプルセット及び第二画像サンプルセットを使用して一緒にニューラルネットワークをトレーニングして、ニューラルネットワークのパラメータを更新し、従ってニューラルネットワークは第一ドメインの画像に対する対象検出性能を保持するとともに、第二ドメインの画像に対する対象検出性能も有する。具体的なトレーニングプロセスは、第一画像サンプルセットのみを使用してニューラルネットワークをトレーニングするプロセスと類似し、グループごとに画像サンプルセットから画像サンプルを獲得する。異なることは、各グループのサンプルは、第一画像サンプルセットから少なくもと1つの画像サンプルを選択し且つ第二画像サンプルセットから少なくもと1つの画像サンプルを選択して、1つのグループのトレーニングサンプルとする。そして、上記の式(1)を使用して、ニューラルネットワークのパラメータが最適になるまで、ニューラルネットワークの重みパラメータを更新する。
【0055】
第一画像サンプルセット及び第二画像サンプルセットの画像サンプルを使用してニューラルネットワークをトレーニングするプロセスにおいて、毎回第一画像サンプルセット及び第二画像サンプルセットからn個(各グループの画像サンプルの数量である)の画像サンプルがランダムに選択される場合、各画像サンプルがサンプリングされる確率はn/N(Nは第一画像サンプルセット及び第二画像サンプルセットの画像サンプルの総数である)であるので、以下の問題が発生する可能性がある。特定の分布を有する画像サンプルデータに対して、この部分の画像サンプルデータの量が少ないと、画像サンプルデータがトレーニングに参加する機会が少なくなり、ニューラルネットワークのトレーニングに貢献する貢献度が薄れてしまく、ニューラルネットワークが特定の分布を有する画像サンプルデータにうまくフィッティングできなくなる。性能を向上させるために、十分な新しい画像サンプルデータを収集することを必要とする。なお、新しい画像サンプルデータのみを使用すると、元の画像サンプルデータはトレーニングに参加できなくなり、ニューラルネットワークは新しい画像サンプルデータにフィッティングされ、元の画像サンプルデータの性能が低下する。
【0056】
1つの選択的な実施形態において、新しい画像サンプルデータの量が少ないのでニューラルネットワークの性能を向上させることに影響する問題を解決するために、本出願の実施形態において、順方向伝播に参与する各グループの画像サンプルデータは、第一画像サンプルセットから選択された画像サンプルと第二画像サンプルセットから選択された画像サンプルを第一比率に応じて組み合わせてなる。例えば、第一画像サンプルセットから選択された画像サンプルと第二画像サンプルセットから選択された画像サンプルの比例は1:1であり、実際の状況に応じて適切に調整することができる。例えば、現在の各グループの画像サンプル数量が32に設定されている場合、16個の画像サンプルは第一画像サンプルセットから獲得し、16個の画像サンプルは第二画像サンプルセットから獲得する。なお、第一画像サンプルセットの画像サンプルの数量と第二画像サンプルセットの画像サンプルの数量は異なるので、第一画像サンプルセットの画像サンプルと第二画像サンプルセットの画像サンプルがトレーニングに参加する回数も異なる。参加回数によって異なるデータソースの比率を調整することにより、複数の画像サンプルデータソースから最適点を見つけることは、大量の新しい画像サンプルデータを収集する方法より便利である。
【0057】
ネットワークパラメータが更新された後、ニューラルネットワークは第一ドメインに対する検出性能を維持するとともに、第二ドメインに対する検出性能も向上させるので、選択的に、第二ドメインの画像に対して対象検出を実行する場合、ネットワークパラメータが更新されたニューラルネットワークを使用することができる。
図2に示されるように、本発明の実施形態に係わる別の対象検出方法は、以下のステップを含む。
【0058】
201、第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得し、その中において、ニューラルネットワークは第一画像サンプルセットでトレーニングされる。
【0059】
202、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとする。
【0060】
203、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択する。
【0061】
204、ニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力し、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整する。
【0062】
205、ネットワークパラメータが更新されたニューラルネットワークを利用して、第二ドメインの画像に対して対象検出を実行する。
【0063】
本出願の実施形態において、ニューラルネットワークのネットワークパラメータは、第一画像サンプルセット及び第二画像サンプルセットの両方に基づいて更新されるので、ニューラルネットワークは、第一ドメインに対する検出性能を保持するとともに、第二ドメインに対する検出性能を向上させることができ、ネットワークパラメータが更新されたニューラルネットワークを使用して第二ドメインの画像に対して対象検出を実行すると、検出結果はより正確になる。
【0064】
本出願の実施形態において、第二ドメインの画像に対して対象検出を実行して、検出結果を獲得した後、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとしてから、ニューラルネットワークを使用して別々に第一画像サンプルセット及び第二画像サンプルセットから選択された画像サンプルに対して対象検出を実行することにより予測結果を獲得し、最後に新しい画像サンプル(第二画像サンプルセット
から選択される)の予測結果、古い画像サンプル(第一画像サンプルセットから選択され
る)の予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整する。ニューラルネットワークをトレーニングする時、新しい画像サンプルセットが追加されるとともに、古い画像サンプルセットを保留することにより、トレーニングされたニューラルネットワークは、第一ドメインに対する検出性能を保持するとともに、新しい画像サンプルセットによくフィッティングすることができ、即ち、ニューラルネットワークはすでにトレーニングされたシーンの既存の検出性能を保持するとともに、新しいシーンの対象検出性能にすばやく獲得することができる。
【0065】
図3を参照すると、
図3は、本発明の実施形態に係わる別の対象検出方法のフローチャートである。図面に示されたように、前記方法は、以下のステップを含む。
【0066】
301、第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得し、その中において、ニューラルネットワークは第一画像サンプルセットでトレーニングされる。
【0067】
302、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとする。
【0068】
303、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択する。
【0069】
304、ニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力し、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整する。
【0070】
ネットワークパラメータが更新されたニューラルネットワークから出力された予測結果と選択された各画像サンプルの実際値の差異が要件を満たすと、ステップ304は終了する。
【0071】
305、ネットワークパラメータが更新されたニューラルネットワークを利用して、第二ドメインの画像に対して対象検出を実行する。
【0072】
ステップ304が完了した後、第二ドメインの画像に対して対象検出を実行するニューラルネットワークをアップグレードすることができ、即ち、ネットワークパラメータが更新されたニューラルネットワークを利用して、第二ドメインの画像に対して対象検出を実行する。
【0073】
ステップ304の後、さらに以下のステップを含むことができる。
【0074】
306、第二画像サンプルセットと第一画像サンプルセットを合併して、新しい第一画像サンプルセットを獲得する。
【0075】
その中において、305と306は並行して実行することができ、両者の実行順序は限定されない。
【0076】
本出願の実施形態において、第一画像サンプルセット及び第二画像サンプルセットを使用してニューラルネットワークをトレーニングした後、元の第一画像サンプルセットと第二画像サンプルセットを合併して新しい第一画像サンプルセットとする。従って、ニューラルネットワークの応用過程で再び問題が発生した場合、問題が発生したシーンに対して新しい第二画像サンプルセットを収集し、新しい第二画像サンプルセットを第二画像サンプルセットと見なし、新しい第一画像サンプルセットを第一画像サンプルセットと見なして、戻ってステップ301~304を実行し、新しいシーン(つまり、新しい第二ドメイン)に対して、ニューラルネットワークのネットワークパラメータの値を再び更新及び調整する。
【0077】
第一画像サンプルセットをトレーニングされた古い画像サンプルセットと見なすことができ、ニューラルネットワークが新しいシーン又は領域に対して学習することを必要とする場合、新しい画像サンプルセット(即ち、第二画像サンプルセット又は新しい第二画像サンプルセットである)を収集してから、新しい画像サンプルセット及び古い画像サンプルセットを一緒に使用してニューラルネットワークをトレーニングすることにより、ニューラルネットワークは新しいシーン又は領域に対して学習することができ、且つ以前に学んだものを忘れない。
【0078】
本出願の実施形態において、新しい画像サンプルセット及び古い画像サンプルセット(即ち、第一画像サンプルセットである)を使用してニューラルネットワークをトレーニングするたびに、新しい画像サンプルセットと古い画像サンプルセットを合併して次のトレーニング用の古い画像サンプルセットを形成するので、ニューラルネットワークのアプリケーションシナリオが増えることにつれて、古い画像サンプルセットはだんだん大きくなる。ただし、ニューラルネットワークが古い画像サンプルセットの画像サンプルを適切に処理できる(検出、識別など)場合、これは前記画像サンプルがトレーニング過程で有用な情報を提供できないことを意味し、従ってトレーニングする前に前記画像サンプルを古い画像サンプルセットから削除して、不要なトレーニングを減らし、古い画像サンプルセットのサンプルの数量を減少して、ストレージスペースを節約する。
【0079】
従って、本出願の実施形態に係わる対象検出方法は、ステップ306の後に、さらに以下のステップを含む。
【0080】
307、ネットワークパラメータが更新されたニューラルネットワークによって新しい第一画像サンプルセットの各画像サンプルを処理して得られる処理結果及び新しい第一画像サンプルセットの各画像サンプルの実際値に基づいて、新しい第一画像サンプルセットの画像サンプルを選別する。
【0081】
本願の実施形態において、第二画像サンプルセットと第一画像サンプルセットを合併して新しい画像サンプルセットを形成してから、新しい画像サンプルセットの各画像サンプルをネットワークパラメータが更新されたニューラルネットワークに入力して、各画像サンプルの処理結果を獲得し、ネットワークパラメータが更新されたニューラルネットワークによって新しい第一画像サンプルセットの各画像サンプルを処理して得られる処理結果及び新しい第一画像サンプルセットの各画像サンプルの実際値に基づいて、ネットワークパラメータが更新されたニューラルネットワークの損失関数を使用して、ネットワークパラメータが更新されたニューラルネットワークによって各画像サンプルを処理するときに生成された画像サンプルの損失値を計算し、最後に損失値が閾値より小さい画像サンプルを削除し、即ち、新しい第一画像サンプルセットにおけるトレーニングに寄与しない画像サンプルを削除して、新しい第一画像サンプルセットの画像サンプルを選別する目的に達成し、不要なトレーニングを減らし、トレーニング効率を向上させる。先ず古い第一画像サンプルセット及び第二画像サンプルセットの画像サンプルを選別することもでき、古い第一画像サンプルセット及び第二画像サンプルセットにおけるトレーニングに寄与しない画像サンプルを削除してから、選別した後の第一画像サンプルセット及び第二画像サンプルセットを合併して新しい第一画像サンプルセットを獲得することもできる。
【0082】
1つの選択的な実施形態において、ネットワークパラメータが更新されたニューラルネットワークがオブジェクト検出に応用される畳み込みニューラルネットワークである場合、ネットワークパラメータが更新されたニューラルネットワークによって画像サンプルを処理するときに生成された画像サンプルの損失値は分類損失と回帰損失からなり、具体的な計算式は次のとおりである。
【0083】
【0084】
その中において、L(x,c,l,g)は損失を表し、Lconf(x,c)は分類損失を表し、Lloc(x,l,g)は回帰損失を表し、xは入力された画像サンプルデータを表し、cは入力された画像サンプルデータのタイプを表し、lは予測検出フレームを表し、gは標識フレームを表し、Nは入力された画像サンプルデータの数量を表し、αは重みを表す。
【0085】
1つの選択的な実施形態として、第一画像サンプルセットを使用してニューラルネットワークをトレーニングし且つ第一ドメインに正常に適用した後、ユーザーはニューラルネットワークを複数の第二ドメインに適用しようとする。ニューラルネットワークが複数の第二ドメインに適用されるとき、複数の第二画像サンプルセットが収集される場合がある。第一画像サンプルセット及び複数の第二画像サンプルセットを使用してニューラルネットワークをトレーニングするプロセスでは、グループごとに第一画像サンプルセット及び複数の第二画像サンプルセットから画像サンプルを抽出してニューラルネットワークをトレーニングすることができる。その中において、第一画像サンプルセットから選択された画像サンプルの数量と各々の第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第二比率範囲内にある。画像サンプルセットにおけるトレーニングに参加する画像サンプルの数量が多いほど、ニューラルネットワークはこの画像サンプルセットによくフィッティングするので、ニューラルネットワークが各画像サンプルセットに均一にフィッティングできるように、第二比率範囲は約1である。
【0086】
例えば、第一画像サンプルセットに200個の画像サンプルがあり、2つの第二画像サンプルセットにそれぞれ100個の画像サンプルがあると仮定する。次に、グループごとに第一画像サンプルセット及び2つの第二画像サンプルセットから60個の画像サンプルを取得して、ニューラルネットワークをトレーニングする。各グループの画像サンプルにおいて、第一画像サンプルセットから選択された画像サンプルと2つの第二画像サンプルセットから選択された画像サンプルの比率は3:1:2であり、即ち、第一画像サンプルセットから30個の画像サンプルを取得し、1つの第二画像サンプルセットから10個の画像サンプルを取得し、別の第二画像サンプルセットから20個の画像サンプルを取得する。
【0087】
308、ニューラルネットワークの応用過程で再び問題が発生した場合、問題が発生したシーンに対して新しい第二画像サンプルセットを収集し、新しい第二画像サンプルセットを第二画像サンプルセットと見なし、新しい第一画像サンプルセットを第一画像サンプルセットと見なして、戻ってステップ301~304を実行する。
【0088】
本出願の実施形態において、第一ドメインに用いられるニューラルネットワーを第二ドメインに適用する場合、ニューラルネットワークによって第二ドメインの画像に対して対象検出を実行して検出結果を獲得し、検出結果の信頼性が第一閾値よりも低い画像を収集して第二画像サンプルとし、収集された複数の第二画像サンプルは第二画像サンプルセットを構成し、第一画像サンプルセット(第一ドメインに適用する前にニューラルネットワークをトレーニングするときに使用する画像サンプルセットである)及び第二画像サンプルセットを一緒に使用してニューラルネットワークをトレーニングする。従って第一ドメインに対するニューラルネットワークの検出性能を保持するとともに、第二ドメインに対するニューラルネットワークの検出性能を向上させることができ、即ち、ニューラルネットワークはすでに学習した知識を忘れなく、新しい知識を学習し続けることができる。
【0089】
さらに、第一画像サンプルセット及び第二画像サンプルセットを使用してニューラルネットワークをトレーニングしてから、前記ニューラルネットワークが処理できない新しいシーン又は領域が存在する可能性があるので、新しい第二画像サンプルセットを収集し続けることができ、且つ以前の第一画像サンプルセットと第二画像サンプルセットを合併して新しい第一画像サンプルセットを形成し、新しい第一画像サンプルセット及び新しい第二画像サンプルセットを使用して、前記ニューラルネットワークをトレーニングし続ける。
【0090】
さらに、第一画像サンプルセット及び第二画像サンプルセットを使用してニューラルネットワークをトレーニングするたびに、第二画像サンプルセットと第一画像サンプルセットを合併して次のトレーニング用の第一画像サンプルセットを形成するので、第一画像サンプルセットはトレーニング回数につれてだんだん大きくなる。ただし、ニューラルネットワークが第一画像サンプルセットの画像サンプルを適切に処理できる(検出、識別など)場合、前記画像サンプルはトレーニングに有用な情報を提供できないので、トレーニングする前にトレーニングに有用な情報を提供できない画像サンプルを第一画像サンプルセットから削除して、不要なトレーニングを減らし、第一画像サンプルセットのサンプルの数量を減少して、ストレージスペースを節約することができる。
【0091】
図4を参照すると、
図4は、本発明の実施形態に係わる対象検出方法で使用されるニューラルネットワークのトレーニングフレームワークを示す概略図である。
図4に示されたように、トレーニングフレームワークは、ラージプールデータ401と、スモールプールデータ402と、デュアルプールデータ403と、古いターゲット検出モデル404(第一ドメインに適用されるニューラルネットワークに対応する)と、新しいターゲット検出モデル405(ネットワークパラメータが更新されたニューラルネットワークに対応する)と、を含むことができる。
【0092】
ラージプールデータ:ラージプールデータは、第一ドメインに適用されるニューラルネットワークをトレーニングするための画像サンプルデータであり、第一画像サンプルセットに対応する。
【0093】
スモールプールデータ:スモールプールデータは、ニューラルネットワークが第二ドメインに適用されるときに収集された画像サンプルデータであり、第二画像サンプルセットに対応する。
【0094】
デュアルプールデータ:デュアルプールデータは、ラージプールデータ401とスモールプールデータ402を合併して形成し、第二画像サンプルセットと第一画像サンプルセットを合併して形成された画像サンプルセットに対応する。
【0095】
古いターゲット検出モデル:古いターゲット検出モデルは、ラージプールデータでトレーニングされる。古いターゲット検出モデルは、第一ドメインに適用されるニューラルネットワークに対応するか、又は新しい第一画像サンプルセット及び新しい第二画像サンプルセットを使用してニューラルネットワークをトレーニングする前に、第一画像サンプルセット及び第二画像サンプルセットでトレーニングされたニューラルネットワークに対応する。
【0096】
新しいターゲット検出モデル:新しいターゲット検出モデルは、ラージプールデータとスモールプールデータでトレーニングされ、ネットワークパラメータが更新されたニューラルネットワークに対応し、即ち、第一画像サンプルセット及び第二画像サンプルセットでトレーニングされたニューラルネットワークに対応するか、又は新しい第一画像サンプルセット及び新しい第二画像サンプルセットでトレーニングされたニューラルネットワークに対応する。
【0097】
具体的には、先ず、ラージプールデータでターゲット検出モデルをトレーニングして、古いニューラルネットワーク(即ち、古いターゲット検出モデルである)を獲得する。古いニューラルネットワークは特定のシーンに適用することができ、例えば、第一ドメインの画像に対して対象検出を実行する。古いターゲット検出モデルが第二ドメインに適用されるとき、応用又はテスト過程で発生する問題に対して、新しい画像サンプルセットが収集される。収集された新しい画像サンプルセットをスモールプールデータと見なすことができる。スモールプールデータとラージプールデータを組み合わせてデュアルプールデータを取得してから、デュアルプールデータで古いターゲット検出モデルを再びトレーニングして新しいターゲット検出モデルを取得する。最後に、新しいターゲット検出モデルと対応する損失関数でデュアルプールデータを選別して、次の反復に用いられる新しいラージプールデータを取得する。
【0098】
図5を参照すると、
図5は、本発明の実施形態に係わる、デュアルプールデータを組み合わせてデュアルプールデータを取得し、デュアルプールデータでニューラルネットワークを再びトレーニングすることを示す概略図である。
図5に示されたように、ニューラルネットワークは畳み込みニューラルネットワークである。先ず、ラージプールデータ及びスモールプールデータが入力として使用され、1:1に比率によってラージプールデータとスモールプールデータからデータを選択して畳み込みニューラルネットワークをトレーニングする。
【0099】
1つの選択的な実施形態として、上述したデュアルプールスキームに基づいて、マルチプールデータに改善することもでき、例えば、
図6に示されたマルチプールデータ構造を用いたトレーニング方法である。その中において、異なるプールのデータは、異なる画像サンプルセットを表す。マルチプールデータスキームの原理は、デュアルプールスキームの原理と同じであり、特定のデータソースのトレーニング参与度を向上させることである。マルチプールデータスキームでは、より多いデータソースを同時に考慮することができ、複数のデータ分布から最適値を見つけることができる。具体的なプロセスは
図5に示された方法と類似するので、詳しく説明しない。
【0100】
本出願の実施形態に係わるトレーニング方法によって、ニューラルネットワークは連続学習の能力を有することができる。即ち、ニューラルネットワークは既に学んだ知識を忘れなく、新しい知識を学び続けることができる。
【0101】
例えば、実際に使用されているトレーニングされたニューラルネットワークがある。ニューラルネットワークのトレーニングに使用されるデータは領域Aから収集され、スマート運転に用いられる。ビジネス需要のために、ニューラルネットワークを領域Bに適用する。領域Bのデータでニューラルネットワークをトレーニングしないと、ニューラルネットワークの検出効果は良くない。例えば、領域Bの固有の車両に対して、検出器は車両を検出しない場合がある。別の例として、領域Bのいくつかのロードコーンも誤判定することができる。ただし、ただ領域Bのデータで再びトレーニングすると、忘却により領域Aに対するニューラルネットワークの検出性能が低下する場合がある。この場合、デュアルプールトレーニング方式を採用することができる。領域Bのビデオを収集してスモールプールデータとすることができ、元の領域Aのラージプールデータと協同して、ニューラルネットワークは、元のシーン(領域A)での性能を保持するとともに、新しいシーン(領域B)にうまくフィッティングすることができる。トレーニングが完了すると、スモールプールデータとラージプールデータを組み合わせることができる。つまり、ニューラルネットワークの反復が完了する。
【0102】
別の例として、実際に使用されているトレーニングされたニューラルネットワークがある。ニューラルネットワークは一般的なデータでトレーニングされ、トレーニングされたニューラルネットワークはセキュリティ監視に使用される。トレーニングされたニューラルネットワークを遠隔地や特殊なシーンに適用すると、シーンの違いが大きいので、ニューラルネットワークは誤検出や漏検出が発生し易い。この場合、デュアルプールトレーニング方式を採用することができる。新しいシーンのビデオを収集してスモールプールデータとすることができ、元のラージプールデータと協同して、新しいシーンでのニューラルネットワークの検出性能をすばやく改善し、フィッティング過ぎることを免れる。トレーニングが完了すると、スモールプールデータとラージプールデータを組み合わせることができる。つまり、ニューラルネットワークの反復が完了する。
【0103】
本願の実施形態は、さらに対象検出装置を提供する。対象検出装置は、上記の方法のいずれかを実行するために用いられる。具体的には、
図7を参照すると、
図7は、本出願の実施形態に係わる対象検出装置を示すブロック図である。本実施形態の装置は、検出モジュール710、サンプル収集モジュール720、サンプル選択モジュール730及びパラメータ調整モジュール740を含む。
【0104】
検出モジュール710は、第一ドメインに用いられるニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して、検出結果を獲得するために用いられ、ニューラルネットワークは第一画像サンプルセットでトレーニングされる。サンプル収集モジュール720は、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルセットの画像サンプルとするために用いられる。サンプル選択モジュール730は、第一画像サンプルセットから少なくとも1つの画像サンプルを選択し、且つ第二画像サンプルセットから少なくとも1つの画像サンプルを選択するために用いられる。検出モジュール710は、さらにニューラルネットワークを使用して選択された各画像サンプルに対して対象検出を実行して、予測結果を出力するために用いられる。パラメータ調整モジュール740は、出力された予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータの値を調整するために用いられる。
【0105】
1つの選択的な実施形態において、検出モジュール710は、さらにネットワークパラメータが更新されたニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行するために用いられる。
【0106】
1つの選択的な実施形態において、第二ドメインは1つであり、第二画像サンプルセットは1つであり、第一画像サンプルセットの画像サンプルの数量は第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第一比率範囲内にある。
【0107】
1つの選択的な実施形態において、第二ドメインはk個であり、第二画像サンプルセットはk個であり、第一画像サンプルセットの画像サンプルの数量は各々の第二画像サンプルセットの画像サンプルの数量より多く、第一画像サンプルセットから選択された画像サンプルの数量と各々の第二画像サンプルセットから選択された画像サンプルの数量との間の比率は第二比率範囲内にあり、その中において、kは1より大きい整数である。
【0108】
1つの選択的な実施形態において、対象検出装置は、サンプル合併モジュール750をさらに含む。サンプル合併モジュール750は、ネットワークパラメータが更新されたニューラルネットワークを獲得した後、第二画像サンプルセットと第一画像サンプルセットを合併して、新しい第一画像サンプルセットを獲得するために用いられる。
【0109】
1つの選択的な実施形態において、本出願の実施形態に係わる対象検出装置は、選別モジュール760をさらに含む。選別モジュール760は、新しい第一画像サンプルセットを獲得した後、ネットワークパラメータが更新されたニューラルネットワークによって新しい第一画像サンプルセットの各画像サンプルを処理して得られる処理結果及び新しい第一画像サンプルセットの各画像サンプルの実際値に基づいて、新しい第一画像サンプルセットの画像サンプルを選別するために用いられる。
【0110】
1つの選択的な実施形態において、選別モジュール760は、処理サブモジュールと、確定サブモジュールと、削除サブモジュールと、を含む。処理サブモジュールは、新しい第一画像サンプルセットの画像サンプルをネットワークパラメータが更新されたニューラルネットワークに入力して、各画像サンプルの処理結果を獲得するために用いられる。確定サブモジュールは、各画像サンプルの処理結果及びその実際値に基づいて、ネットワークパラメータが更新されたニューラルネットワークによって各画像サンプルを処理するときに生成された画像サンプルの損失値を確定するために用いられる。削除サブモジュールは、新しい第一画像サンプルセットにおける損失値が第二閾値より小さい画像サンプルを捨てるために用いられる。
【0111】
1つの選択的な実施形態において、本出願の実施形態に係わる対象検出装置は、比較モジュール770をさらに含む。比較モジュール770は、検出結果と検出結果に対応する画像の実際値を比較して、検出結果の信頼性を獲得するために用いられる。
【0112】
本出願の実施形態において、第一ドメインに適用されたニューラルネットワーが第二ドメインに適用される場合、ニューラルネットワークを利用して第二ドメインの画像に対して対象検出を実行して検出結果を獲得し、検出結果の信頼性が第一閾値よりも低い画像を第二画像サンプルとして収集し、収集された複数の第二画像サンプルは第二画像サンプルセットを構成する。次に、ニューラルネットワークを使用して別々に第一画像サンプルセット及び第二画像サンプルセットから選択された画像サンプルに対して対象検出を実行することにより予測結果を獲得する。最後に、予測結果及び選択された各画像サンプルの実際値に基づいて、ニューラルネットワークのネットワークパラメータを調整する。つまり、ニューラルネットワークが再トレーニングされるとき、新しい画像サンプルセットを追加するとともに、古い画像サンプルセットを保留するので、再びトレーニングされたニューラルネットワークは第一ドメインに対する検出性能を維持できるだけではなく、第二ドメインに対する検出性能を向上させる。つまり、ニューラルネットワークは、トレーニングされたシーンの既存の検出性能を保持するとともに、新しいシーンの対象検出性能を迅速に獲得することができる。
【0113】
図8、本出願の実施形態に係わる対象検出機器の構造を示す概略図である。対象検出機器4000は、プロセッサ41を含む。対象検出機器4000は、入力装置42、出力装置43及びメモリ44をさらに含むことができる。入力装置42、出力装置43、メモリ44及びプロセッサ41は、バスによって互いに接続される。
【0114】
メモリは、ランダムアクセスメモリ(Random Access Memory,RAM)、読み取り専用メモリ(Read-Only Memory,ROM)、消去可能プログラム可能読み取り専用メモリ(erasable programmable read only memory,EPROM)又はポータブル読み取り専用メモリ(コンパクトディスクROM(CD ROMなど)が含まれますが、これらに限定されません。メモリは、命令とデータを格納するために用いられる。
【0115】
入力装置は、データ及び/又は信号を入力するために用いられる。出力装置は、データ及び/又は信号を出力するために用いられる。出力装置と入力装置は、互いに分離されていてもよく、または互いに統合されていてもよい。
【0116】
プロセッサは、1つ又は複数のプロセッサを含むことができる。例えば、プロセッサは、1つ又は複数の中央処理装置(CPU)を含む。一例では、プロセッサはCPUであり、CPUはシングルコアCPU又はマルチコアCPUであることができる。プロセッサは、1つ又は複数の専用プロセッサをさらに含むことができる。専用プロセッサは、一般処理装置(general processing unit,GPU)、フィールドプログラマブルゲートアレイ(field programmable gate array,FPGA)が含むことができ、高速処理に使用される。
【0117】
メモリは、ネットワークデバイスのプログラムコード及びデータを格納するために用いられる。
【0118】
プロセッサは、メモリに格納されたプログラムコード及びデータを呼び出して、上述した方法実装例のステップを実行するために用いられる。具体的には、方法実施例の説明を参照することができ、ここでは繰り返されない。
【0119】
図8は、ただ対象検出機器の簡略化された設計を示している。実際応用では、動作識別装置は、他の必要なンポーネントをさらに含むことができ、任意の数量の入力/出力装置、プロセッサ、コントローラ、メモリなどを含むがこれらに限定されない。本出願の実施形態を実施することができるすべての動作識別装置は、本出願の保護範囲に含まれる。
【0120】
本出願の実施形態は、コンピュータプログラムが格納されたコンピュータ可読記憶媒体をさらに提供する。コンピュータプログラムがプロセッサによって実行されると、本出願の実施形態で提供される任意の対象検出方法を実現する。本出願の実施形態は、コンピュータプログラム製品をさらに提供する。コンピュータプログラム製品には、コンピュータ実行可能命令が含まれる。コンピュータ実行可能命令が実行されると、本出願の実施形態で提供される任意の対象検出方法を実現することができる。
【0121】
当業者であれば、説明の便利及び簡潔さのために、上述したシステム、装置及びユニットの具体的な作業プロセスは上述したの方法実施例の対応するプロセスを参照できることを明確に理解することができ、ここでは繰り返さない。
【0122】
本出願で提供される幾つかの実施例において、開示されたシステム、装置及び方法は、他の方法で実現され得ることを理解されるべきである。例えば、ユニットの分割は、ロジック機能の分割に過ぎず、実際に実現するときに別の分割形態を有してもよい。例えば、複数のユニット又は部品を組み合わせ、又は別のシステムに集積し、又は若干の特徴を無視し、又は実行しなくてもよい。さらに、図示又は検討する相互間の結合や直接結合や通信接続は、いくつかのインタフェース、装置、又はユニットの間接結合や通信接続であってもよいし、電気、機械や他の形態であってもよい。
【0123】
分離部品として記載されたユニットは、物理的に分離してもよいし、分離しなくてもよい。ユニットとして表示される部品は、物理的なユニットであってもよいし、物理的なユニットではなくておもよい。即ち、一つの箇所に設置してもよいし、複数のネットワークユニットに設置してもよい。実際の要求に応じて一部又は全部のユニットを選択して本実施例の技術方案の目的を実現することができる。
【0124】
上述した実施形態において、全部又は一部はソフトウェア、ハードウェア、ファームウェア(firmware)、又は任意の他の組み合わせによって実現することができる。ソフトウェアによって実現する場合、全部又は一部は、コンピュータプログラム製品の形式で実現することができる。コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータにコンピュータプログラム命令をアップロードして実行される場合、本発明の実施形態のプロセス又は機能の全部または一部が実行される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラム可能な装置であることができる。コンピュータ命令は、コンピュータ可読記憶媒体に記憶することができ、又はコンピュータ可読記憶媒体によって送信することができる。例えば、コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者線(digital subscriber line, DSL)である)又は無線(赤外線、無線、マイクロ波などである)方式によって、あるウェブサイト、コンピュータ、サーバ、又はデータセンタから別のウェブサイト、コンピュータ、サーバ、又はデータセンタに送信することができる。コンピュータ可読記憶媒体は、コンピュータがアクセスすることができる任意の利用可能な媒体、又は1つ又は複数の利用可能な媒体統合を含むサーバ、データセンタなどのデータ記憶装置であることができる。使用可能な媒体は、読み取り専用メモリ(Read-Only Memory,ROM)、又はランダムアクセスメモリ(random access memory,RAM)、又は磁気媒体(例えば、ソフトディスク、ハードディスク、磁気テープ、磁気ディスクである)、光学媒体(例えば、デジタルビデオディスク(digital video disc,DVD)である)、又は半導体媒体(例えば、ソリッドステートディスク(solid state disk,SSD)である)などであることができる。
【0125】
上述したのは、ただ本願の具体的な実施形態であり、本願の保護範囲はこれに限定されるものではない。当業者であれば、本願に開示された技術範囲内で変更又は置換を容易に想到しうることであり、このような変更又は置換は全て本出願の範囲内に含まれるべきである。従って本願の保護範囲は特許請求の範囲によって決めるべきである。