(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-27
(45)【発行日】2022-08-04
(54)【発明の名称】インスタンス検出およびセグメント化のためのドメイン適応
(51)【国際特許分類】
G06T 7/00 20170101AFI20220728BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2020570871
(86)(22)【出願日】2019-08-29
(86)【国際出願番号】 US2019048722
(87)【国際公開番号】W WO2020051053
(87)【国際公開日】2020-03-12
【審査請求日】2020-12-18
(32)【優先日】2019-08-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-07-26
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-09-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】トラン、 クオック-フイ
(72)【発明者】
【氏名】ツァイ、 イ-シューアン
(72)【発明者】
【氏名】ソン、 キヒョク
(72)【発明者】
【氏名】リウ、 ブユ
(72)【発明者】
【氏名】チャンドラカー、 マンモハン
(72)【発明者】
【氏名】ス、 ジョン-チー
【審査官】新井 則和
(56)【参考文献】
【文献】国際公開第2018/020277(WO,A1)
【文献】米国特許出願公開第2016/0253597(US,A1)
【文献】Jong-Chyi Su et al.,Active Adversarial Domain Adaptation, [online], 2019.04.16 [retrieved on 2021.12.15], Internet: <https://arxiv.org/pdf/1904.07848.pdf>,2019年04月16日,[online], 2019.04.16 [retrieved on 2021.12.15], Internet: <https://arxiv.org/pdf/1904.07848.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
ドメイン適応のための方法であって、
ドメイン弁別器を訓練している間、敵対的学習プロセスに基づいてソースドメインとターゲットドメインとの間で画像レベル特徴を合わせること(710)と、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から最も離れたターゲットドメインからラベル付けされていない試料を選択すること(720)と、
プロセッサデバイスによって、前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて(730)、より低い予測スコアを有する試料を選択すること(740)と、
前記より低い予測スコアを有する試料に注釈を付けること(750)とを含む方法。
【請求項2】
前記より低い予測スコアを有する注釈付けされた試料に基づいて、前記ラベル付けされていない試料に注釈を付けるモデルを反復的に再訓練することをさらに含み、前記モデルは、少なくとも1つの所定のタスクを実施する、請求項1に記載の方法。
【請求項3】
前記少なくとも1つの所定のタスクは、インスタンス物体検出とセグメント化とのうちの少なくとも1つを含む、請求項2に記載の方法。
【請求項4】
前記モデルを再訓練することは、
少なくとも1つの特徴を生成するために、前記より低い予測スコアを有する注釈付き試料を含む更新されたラベルセットを画像レベル畳み込みニューラルネットワーク(CNN)に入力することと、
前記少なくとも1つの特徴に基づいて、更新されたラベルセットを関心領域レベル(ROIレベル)CNNに伝搬することと、
少なくとも1つの物体検出として出力境界ボックスを生成することとをさらに含む、請求項2に記載の方法。
【請求項5】
各境界ボックス内のインスタンスセグメンテーションマップを予測することをさらに含む、請求項
4に記載の方法。
【請求項6】
前記敵対的学習プロセスに基づいて、前記ソースドメインと前記ターゲットドメインとの間で前記画像レベル特徴を合わせることは、
ラベルセットからのラベル付けされた試料と前記ラベル付けされていない試料との分布を促進するための敵対的損失関数を適用することと、
プロセッサデバイスによって、前記ラベル付けされていない試料から少なくとも1つのより高い多様性スコアのラベル付けされていない試料を選択することと、
前記少なくとも1つのより高い多様性スコアのラベル付けされていない試料から少なくとも1つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することとをさらに含む、請求項1に記載の方法。
【請求項7】
前記少なくとも1つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付けることと、
少なくとも1つの注釈付けされたより低い予測スコアのより高い多様性スコアのラベル付けされていない試料でラベルセットを更新して、更新されたラベル付けされたセットを形成することとをさらに含む、請求項6に記載の方法。
【請求項8】
前記ラベル付けされていない試料から前記少なくとも1つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することは、
前記
ラベル付けされていない試料の予測スコアを信頼スコアとして使用することをさらに含む、請求項6に記載の方法。
【請求項9】
前記ソースドメインおよび前記ターゲットドメインは、異なる地理的エリアと、異なる気象条件と、異なる照明条件とのうちの少なくとも1つから選択される、請求項1に記載の方法。
【請求項10】
前記ラベル付けされていない試料から前記少なくとも1つのより高い多様性スコアのラベル付けされていない試料を選択することは、
前記ラベルセット内の既存の注釈付き画像から最も遠く離れたラベル付けされていない画像を選択することをさらに含む、請求項1に記載の方法。
【請求項11】
少なくとも1つの画像レベル畳み込みニューラルネットワーク(CNN)を訓練するために、前記ソースドメインと前記ターゲットドメインとからの教師あり損失関数およびグランドトゥルースラベルを使用することをさらに含む、請求項1に記載の方法。
【請求項12】
ドメイン適応のためのコンピュータシステムであって、
メモリデバイスに動作可能に結合されたプロセッサデバイスを含み、前記プロセッサデバイスは、
ドメイン弁別器を訓練している間に、敵対的学習プロセスに基づいてソースドメインとターゲットドメインとの間で画像レベル特徴を合わせ(710)、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからラベル付けされていない試料を選択し(720)、
前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて(730)、より低い予測スコアを有する試料を選択し(740)、
前記より低い予測スコアを有する試料に注釈を付ける(750)ように構成されるコンピュータシステム。
【請求項13】
前記プロセッサデバイスは、さらに、
前記より低い予測スコアを有する注釈付けされた試料に基づいて、前記ラベル付けされていない試料に注釈を付けるモデルを反復的に再訓練し、前記モデルは、少なくとも1つの所定のタスクを実施するように構成される、請求項12に記載のシステム。
【請求項14】
前記少なくとも1つの所定のタスクは、インスタンス物体検出とセグメント化とのうちの少なくとも1つを含む、請求項13に記載のシステム。
【請求項15】
前記モデルを再訓練するとき、前記プロセッサデバイスは、さらに、
少なくとも1つの特徴を生成するために、前記より低い予測スコアを有する注釈付き試料を含む更新されたラベルセットを画像レベル畳み込みニューラルネットワーク(CNN)に入力し、
前記少なくとも1つの特徴に基づいて、更新されたラベルセットを関心領域レベル(ROIレベル)CNNに伝搬し、
少なくとも1つの物体検出として出力境界ボックスを生成するように構成される、請求項13に記載のシステム。
【請求項16】
前記プロセッサデバイスは、さらに、
各境界ボックス内のインスタンスセグメンテーションマップを予測するように構成される、請求項15に記載のシステム。
【請求項17】
前記敵対的学習プロセスに基づいて、前記ソースドメインと前記ターゲットドメインとの間で前記画像レベル特徴を合わせるとき、前記プロセッサデバイスは、さらに、
ラベルセットからのラベル付けされた試料と前記ラベル付けされていない試料との分布を促進するために敵対的損失関数を適用し、
前記ラベル付けされていない試料から少なくとも1つのより高い多様性スコアのラベル付けされていない試料を選択し、
前記少なくとも1つのより高い多様性スコアのラベル付けされていない試料から少なくとも1つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択するように構成される、請求項13に記載のシステム。
【請求項18】
前記ソースドメインおよび前記ターゲットドメインは、異なる地理的エリアと、異なる気象条件と、異なる照明条件とのうちの少なくとも1つから選択される、請求項12に記載のシステム。
【請求項19】
前記プロセッサデバイスは、さらに、
少なくとも1つの画像レベル畳み込みニューラルネットワーク(CNN)を訓練するために、前記ソースドメインと前記ターゲットドメインとからの教師あり損失関数およびグランドトゥルースラベルを使用するように構成される、請求項12に記載のシステム。
【請求項20】
ドメイン適応のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、非一時的コンピュータ可読記憶媒体を備え、該コンピュータプログラム製品には、プログラム命令が具現化されており、コンピュータデバイスによって実行可能なプログラム命令が、
ドメイン弁別器を訓練している間に(710)、敵対的学習プロセスに基づいて、ソースドメインとターゲットドメインとの間で画像レベル特徴を合わせることと、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからラベル付けされていない試料を選択する(720)ことと、
プロセッサデバイスによって、前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて(730)、より低い予測スコアを有する試料を選択する(740)ことと、
前記より低い予測スコアを有する試料に注釈を付ける(750)こととを含む、方法を実行させるために、コンピュータデバイスによって実行可能なコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願情報
本出願は、2018年9月6日に出願された米国仮特許出願第62/727,730号、2019年7月26日に出願された米国仮特許出願第62/878,777号、および2019年8月8日に出願された米国特許出願第16/535,681号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
本発明は、ドメイン管理に関し、より詳細には、ドメイン間で情報を転送することに関する。
関連技術の説明
【0003】
2つの都市からの道路シーン画像は、建築及び道路の異なるスタイルのために著しく変化することがある。また、同じ都市内でも、天候や照明環境などさまざまな条件で映像を撮影することができる。したがって、インスタンスオブジェクトの検出および画像のセグメンテーションは、すべての領域において完全に監視されたモデルを訓練するために労働集約的な注釈プロセスを必要とすることが知られている。
【発明の概要】
【0004】
本発明の一態様によれば、ドメイン適応のための方法が提供される。この方法は、ラベルセットからのラベル付けされた試料とラベル付けされていない試料との分布を促進するために、敵対的損失関数を適用することを含む。この方法はまた、ラベル付けされていない試料からより高い多様性スコアのラベル付けされていない試料を選択することを含む。この方法は、より高い多様性スコアのラベル付けされていない試料からより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することと、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付けることとを含む。この方法はさらに、ラベルセットを、注釈付きより低い予測スコアのより高い多様性スコアのラベル付けされていない試料で更新して、更新されたラベルセットを形成することと、更新されたラベルセットを使用してモデルを再訓練することとを含む。
【0005】
本発明の別の態様によれば、ドメイン適応のためのシステムが提供される。このシステムは、ドメイン弁別器を訓練している間に、敵対的学習プロセスに基づいて、ソースドメインとターゲットドメインとの間で画像レベル特徴を合わせる。システムは、ドメイン弁別器を使用して、ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからのラベル付けされていない試料を選択する。システムは、ラベル付けされていない試料のそれぞれの予測スコアに基づいて、より低い予測スコアを有する試料を選択する。システムは、より低い予測スコアで試料に注釈を付ける。
【0006】
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0007】
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0008】
【
図1】本発明の一実施形態によるニューラルネットワークの一般化された図である。
【0009】
【
図2】本発明の一実施形態による人工ニューラルネットワーク(ANN)アーキテクチャの図である。
【0010】
【
図3】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のための高レベルシステムを示すブロック図である。
【0011】
【
図4】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応の実装を示すブロック図である。
【0012】
【
図5】本発明による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のための方法を示すフロー図である。
【0013】
【
図6】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のためのシステムの実装を示すブロック図である。
【発明を実施するための形態】
【0014】
本発明の実施形態によれば、(物体)インスタンス検出およびセグメント化のためのドメイン適応のためのシステムおよび方法が提供される。システムは、ラベルセットからのラベル付けされた試料およびラベル付けされていない試料の分布を促進するために、敵対的損失関数を適用する。システムは、ラベル付けされていない試料から、より高い多様性スコアのラベル付けされていない試料を選択する。より高い多様性スコアのラベル付けされていない試料は、他のラベル付けされていない試料よりも高い多様性スコアを有するラベル付けされていない試料である。システムは、より高い多様性スコアのラベル付けされていない試料から、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択する。より低い予測スコアのより高い多様性スコアのラベル付けされていない試料は、他のより高い多様性スコアのラベル付けされていない試料よりも低い予測スコアを有するより高い多様性スコアのラベル付けされていない試料である。システムは、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付ける。システムは、注釈付きのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料でラベルセットを更新し、更新されたラベルセットを形成し、更新されたラベルセットを使用してモデルを再訓練する。このモデルは、少なくとも1つの所定のタスク、例えば、物体検出およびセマンティックセグメンテーションを実施する。
【0015】
一実施形態では、システムは、ドメイン弁別器を使用して、既存の注釈付き画像から遠く離れたラベル付けされていない画像を選択するために、アクティブ学習フレームワークを提供する。ドメイン適応およびアクティブ学習プロセスが継続するにつれて、ドメイン弁別器は、選択された画像が注釈のために多様であることを保証するためにより強くなる。さらに、システムは、分類器スコアを組み合わせて、予測の信頼度が低いこれらの画像をさらにフィルタリングする。ターゲット画像を選択した後、システムは、選択されたターゲット画像に注釈を付け、反復方式でモデルを再訓練する。
【0016】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。
【0017】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ読み取り可能媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0018】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体またはデバイスがコンピュータによって読み取られるときに、コンピュータの動作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体またはデバイス(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
【0019】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/Oデバイス(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0020】
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
【0021】
図1を参照すると、ニューラルネットワークの一般化された図が示されている。
【0022】
人工ニューラルネットワーク(ANN)は、脳のような生体神経系に刺激される情報処理システムである。ANNの重要な要素は、情報処理システムの構造であり、これは、特定の問題を解決するために並列に動作する多くの高度に相互接続された処理要素(「ニューロン」と呼ばれる)を含む。ANNはさらに、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ANNは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定のアプリケーションのために構成される。
【0023】
ANNは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は、一般に、1つまたは複数の「隠れた」ニューロン104に情報を提供する入力ニューロン102を有する。入力ニューロン102と隠れニューロン104との間の接続108は重み付けされ、次に、これらの重み付けされた入力は、複数層間の重み付けされた接続108と共に、隠れニューロン104内の何らかの関数に従って隠れニューロン104によって処理される。隠れニューロン104、ならびに異なる機能を実行するニューロンの任意の数の層が存在し得る。畳み込みニューラルネットワーク、最大出力ネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン106のセットは、隠れニューロン104の最後のセットからの重み付けされた入力を受け入れ、処理する。
【0024】
これは、情報が入力ニューロン102から出力ニューロン106に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は訓練データから利用可能な所望の出力と比較される。訓練データに対する誤差は、「フィードバック」計算で処理され、隠れニューロン104および入力ニューロン102は、出力ニューロン106から後方に伝播する誤差に関する情報を受け取る。一旦、逆方向エラー伝播が完了すると、重み付けされた接続108が受信された誤差を考慮するように更新されて、重み付け更新が実行される。これは、単に1つの種類のANNを表す。
【0025】
本明細書で説明するように、ANN100は、
図6に関して以下で説明するように、入力画像に基づいてインスタンス物体検出およびセグメント化を実施することができる。
【0026】
次に、同一の数字が同一または類似の要素を表し、最初に
図2を参照すると、人工ニューラルネットワーク(ANN)アーキテクチャ200が示される。本アーキテクチャは純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるANN実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。
【0027】
さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層は、畳み込み層、プーリング層、完全に接続された層、ストップマックス層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な形態のために重りを省略することができる。
【0028】
フィードフォワード動作中、1組の入力ニューロン202はそれぞれ、重み204のそれぞれの行に並列に入力信号を供給する。以下に説明するハードウェアの実施形態では、重み204は、重み出力が、重み204からそれぞれの隠れニューロン206に渡されて、隠れニューロン206への重み付けされた入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み204は、関連する信号に対して乗算される係数値として単純に表されてもよい。各重みからの信号は列ごとに加算され、隠れニューロン206に流れる。
【0029】
隠れニューロン206は、重み204の配列からの信号を使用して、何らかの計算を実行する。次に、隠れニューロン206は、それ自体の信号を別の重み204の配列に出力する。この配列は、同じ方法で、重み204の列が、それぞれの隠れニューロン206から信号を受け取り、行方向に加算し、出力ニューロン208に供給される重み付けされた信号出力を生成する。
【0030】
配列および隠れニューロン206の追加の層を介在させることによって、任意の数のこれらの段階を実施できることを理解されたい。また、いくつかのニューロンは、配列に一定の出力を提供する定常ニューロン209であってもよいことに注意すべきである。定常ニューロン209は、入力ニューロン202および/または隠れニューロン206の間に存在することができ、フィードフォワード動作中にのみ使用される。
【0031】
逆伝搬の間、出力ニューロン208は、重み204の配列を横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号を誤差値に比例させることができる。この実施例では、重み204の行は、それぞれの出力ニューロン208から並列に信号を受け取り、列ごとに加算して隠れニューロン206に入力を提供する出力を生成する。隠れニューロン206は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と結合し、フィードバック信号を重み204のそれぞれの列に出力する前に誤差値を記憶する。この逆伝搬は、すべての隠れニューロン206および入力ニューロン202が誤差値を記憶するまで、ネットワーク200全体を通って進行する。
【0032】
重み更新中、記憶された誤差値は、重み204の設定可能な値を更新するために使用される。このようにして、重み204は、ニューラルネットワーク200をその工程における誤差に適応させるように訓練され得る。3つの動作モード、フィードフォワード、逆伝搬、および重み更新は、互いに重複しないことに留意されたい。
【0033】
畳み込みニューラルネットワーク(CNN)は、少なくとも1つの畳み込み層を有するANNのサブクラスである。CNNは、入力層および出力層、ならびに複数の隠れ層からなる。CNNの隠れ層は畳み込み層、整流線形ユニット(RELU)層(例えば活性化関数)、プーリング層、完全接続層および規格化層から成る。畳み込み層は、入力に畳み込み演算を適用し、その結果を次の層に渡す。畳み込みは、視覚刺激に対する個々のニューロンの応答をエミュレートする。
【0034】
CNNは、視覚画像の分析に適用することができる。CNNは、ローカル情報(例えば、画像内の隣接画素またはテキスト内の周囲の単語)を捕捉し、モデルの複雑さを低減することができる(例えば、より速い訓練、より少ない試料の必要性、およびオーバーフィッティングの機会の低減を可能にする)。
【0035】
CNNは、最小限の前処理を必要とするように設計された多層パーセプトロンの変形を使用する。CNNは、それらの共有重みアーキテクチャおよび変換不変特性に基づいて、シフト不変または空間不変人工ニューラルネットワーク(SIANN)としても知られている。CNNは、画像および映像認識、推薦システム、画像分類、医用画像解析、および自然言語処理における用途に使用することができる。CNNは、
図3に関して以下に説明するように、入力画像に基づいてインスタンス物体検出およびセグメンテーションを実施するために適用することができる。CNNはまた、
図3および
図4に関して以下でさらに説明するように、敵対的損失関数を適用することができる。
【0036】
図3を参照すると、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のための高レベルシステム300が、本発明の実施形態に従って例示的に示されている。
【0037】
半教師ありドメイン適応を有するシステムでは、システムは、ターゲットドメインから幾つかの(例えば、幾つかの)画像に対する注釈を取得することができる(これにより、(例えば、制限された)監視の尺度を提供する)。
図3に示すように、システム300は、メインタスクシステム305、ドメイン適応システム400、およびアクティブ学習システム500を含む。正方形の辺を有するボックスは、データ(例えば、ソース(I_src)、ラベル付きターゲット(I_tar_l)など)、または畳み込みニューラルネットワーク(CNN)またはクラスタリングなどの計算ユニット(またはデバイス)を示すことに留意されたい。丸められたエッジボックスは、損失関数(例えば、タスク損失375および敵対的損失405)を示す。矢印はデータの流れを示す。
【0038】
ドメイン適応システム400とアクティブ学習システム500との組み合わせは、メインタスク畳み込みニューラルネットワーク(CNN)310によって推定される多様性および不確実性を共同で考慮するためのフレームワークを提供する。ドメイン弁別器410は、ドメイン転送(例えば、注釈を用いた知識のシフト)を実施し、有益なラベル付けされていないターゲット試料を効率的に選択するための信号を提供する。メインタスクCNN310から推定される多様性および不確実性を共同で考慮することによって、フレームワーク(ドメイン適応システム400およびアクティブ学習システム500によって提供される)は、モデル予測(メインタスクCNN310を介して)とアクティブ学習(アクティブ学習システム500を介して)との両方を反復的に更新する。その結果、例示的な実施形態は、より少ない試料に注釈を付けながら、より高い精度を達成することができるフレームワークを提供する。フレームワークは一般的であり、様々なタスク(例えば、セマンティックセグメンテーションや細粒物認識)にも適用できることに注意する。例示的な実施形態は、ターゲットドメインにおける注釈のための制限された予算に基づいて、物体検出のためのより高い精度を達成する。
【0039】
メインタスクCNN310は、
図3に示すように、入力画像を受信する。メインタスクCNN310は、入力画像に基づいてインスタンス物体検出およびセグメンテーションを実施する。入力画像は、本明細書でソース(I_src 315)、ラベル付きターゲット(I_tar_l 320)、およびラベル付けされていないターゲット(I_tar_u 325)として示される2つのドメインから得ることができる。これらの入力は、画像レベルCNN(IL CNN 330)へ供給され、特徴(F_src 335、F_tar_I 340、およびF_tar_u 345)を生成する。特徴は、エッジ、コーナー、関心点、ブロブ、関心点の領域、リッジなどを含むことができる。これらの特徴に基づいて、メインタスクCNN310は、特徴を関心領域レベル(ROiレベル)CNN(
図3でROI_L CNN 350として示す)に伝搬し、出力境界ボックス(O_src 355、O_tar_l 360、およびO_tar_u 365)を(例えば、最終)物体検出結果として生成する。バウンディングボックスは、デジタル画像がページ、キャンバス、スクリーン、または他の同様の(例えば、二次元)背景上に置かれたときに、デジタル画像を完全に囲む矩形境界の座標である。メインタスクCNN310は、各バウンディングボックス内のインスタンスセグメンテーションマップを予測することもできることに留意されたい。インスタンスセグメンテーションは、物体が同じクラスラベルのものであっても、画像内の各物体についてピクセルごとのマスクを決定する。
【0040】
メインタスク損失機能370は、メインタスクCNN310からCNNを訓練する。ソースドメインおよびラベル付けされたターゲットドメインからの画像について、メインタスク損失関数370は、メインタスクCNN310を訓練するために標準的な監視損失関数(タスク損失375)で使用されるグラウンドトゥルースラベル(GT_src 380およびGT_tar_I 385)にアクセスする(例えば、与えられる、受信するなど)。グラウンドトゥルースは、教師あり学習技法のための訓練セットの分類の精度を指し、メインタスクCNN310による統計モデルで使用されて、ソースドメインからの画像に関する仮説を証明または非証明する。損失関数は、予測値と実際のラベルとの間の不一致を測定する。
【0041】
ドメイン適応システム400は、(ドメイン弁別器を介して)ドメインを適応させる。メインタスクCNN310を訓練し、ラベル付けされていないターゲットドメイン(I_tar_u 325)からの画像も処理するために、ドメイン適応システム400は、ラベル付き試料(F_src 335およびF_tar_l 340)およびラベル付けされていない試料(F_tar_u)の類似性の分散を奨励するために、敵対的損失405関数(または正則化)を適用する。この敵対的損失405関数は、ドメインアラインメント目的のためにラベル付けされた試料とラベル付けされていない試料とを区別することを目的とするドメイン弁別器410に基づいて計算される。ドメイン適応システム400は、敵対的学習スキームを用いて画像レベル特徴(F_src 335およびF_tar_l 340)をアラインメントすることにより、2つのドメイン間のドメインギャップ(例えば、問題点、論争点など)を解決する(または決着させる)。このプロセスの間、特徴がソースからのもの(例えば、0としてラベル付けされている)かターゲットからのもの(例えば、1としてラベル付けされている)かを区別するために、ドメイン識別器410が採用される。
【0042】
ターゲットドメインに注釈のための制限された予算を導入するとき、システム300は、ターゲット性能を効率的に改善することができる、例えば、より高い性能を達成しながら、より少ない画像に注釈を付けることができる、有益な画像を選択することを目的とする。この目的のために、システム300は、ドメイン弁別器410を使用して、既存の注釈付き画像から遠く離れたラベル付けされていない画像を選択することによって、アクティブ学習フレームワークを実施する。ドメイン適応およびアクティブ学習プロセスが継続するにつれて、ドメイン弁別器410は、選択された画像が注釈のために多様であることを保証するために、より強くなる。
【0043】
アクティブ学習システム500は、試料選択を介してアクティブ学習を実施する。ラベル付けされていないターゲット画像に注釈を付けるための制限された予算が与えられると、アクティブ学習システム500は、注釈のためにターゲットドメインから有益な試料を反復的に選択する。第1に、アクティブ学習システム500は、既存のラベル付けされた試料とは異なるラベル付けされていないターゲット画像のセットを見つけるためのインジケータとして、ドメイン適応システム400からのドメイン弁別器410を使用する。これを達成するために、アクティブ学習システム500は、全てのラベル付けされていない試料(I_tar_u 325)にドメイン弁別器410を適用し、ラベル付けされていない試料のスコアをランク付けする。例えば、特徴空間内のラベル付けされた試料から遠く離れた、より高いスコアを有するラベル付けされていない試料(I_tar_u 325)を選択することによって、アクティブ学習システム500は、これらの選択された試料が、既存のラベル付けされた試料とは異なることを保証し、それによって、試料間の多様性を増加させる。
【0044】
上述したように、既存のラベル付けされた試料とは異なるラベル付けされていない試料を選択した後、アクティブ学習システム500は、メインタスクCNN310からの予測スコア(O_tar_u 365)を信頼度スコアとしてさらに使用する。次いで、アクティブ学習システム500は、不確実性を考慮するために、より低いスコアを有する試料を選択することによって、試料をフィルタリングする。
【0045】
これら2つの基準を使用してラベル付けされていない試料(I_tar_u 325)を選択することにより、アクティブ学習システム500はラベル付けされていない試料に注釈を付け、これらの新たに注釈を付けられた試料をラベル付きセット(I_tar_l 320)に追加し、モデルを再訓練する。アクティブ学習システム500は、各反復において多様性(例えば、I_tar_u 325に基づく)および不確実性(例えば、O_tar_u 365に基づく信頼度)が考慮されるように、CNN(例えば、メインタスクCNN310)およびドメイン弁別器410を訓練することによって、このプロセスを反復的に繰り返す。言い換えれば、アクティブ学習システム500は、分類器スコアを組み合わせて、予測の信頼度がより低い画像をさらにフィルタリングする。ターゲット画像を選択した後、アクティブ学習システム500は、選択されたターゲット画像に注釈を付け、反復方式でモデルを再訓練する。
【0046】
ドメイン弁別器410は、ラベル付けされた試料とラベル付けされていない試料との間の分布差をより良く理解するために、試料選択器510のための手がかりを提供する。その結果、システム300は、(例えば、既存のプロセスよりも)より良好なタスク性能を達成しながら、小さい有益な試料のセットを取得するために、重要な方法で手がかりを使用する。試料選択器510は、試料注釈515をI_tar_l 320およびI_tar_u 325に(例えば、試料更新として)提供する(例えば、515を送信する)。
【0047】
次に
図4を参照すると、本発明の一実施形態による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応の実施が例示的に示されている。
【0048】
図4に示されるように、例示的な実施形態は、(例えば、ターゲット)インスタンス物体検出およびセグメンテーションを対象とし、これは、既存の実装形態では、すべてのドメインにおいて完全な教師ありモデルを訓練するために労働集約的な注釈プロセスを必要とすることが知られている。対照的に、例示的な実施形態は、モデルを訓練するためのグランドトゥルースに注釈を付けるために、完全な注釈を有する1つのドメインから、限定された予算のみを有する別のドメインに知識を転送することによって、注釈のボトルネックに対処する。
【0049】
例えば、実装600に関して、システム300に関して説明したのと同様の方法を使用して、学習モジュール615は、ソースドメイン605(例えば、昼間の物体検出620のための昼間の画像)内の注釈を有する大量の既存のデータ610(例えば、訓練データ)を使用して、物体検出(例えば、自動車、自転車、および歩行者)モデルを学習することができる。昼間の場合よりも困難であり得る夜間の場合(夜間の物体検出665)に対して、試料選択器510は、日中モデルを使用して、(限定された予算で)注釈のための夜間ドメイン655から有益なデータ(新規データ660)を選択し、物体検出器(例えば、夜間の物体検出665)を再度訓練して、夜間の間の性能を改善することができる。
【0050】
例示的な実施形態は、ターゲットドメイン内に注釈を有するいくつかの画像を利用し、これは、注釈に利用可能な予算が限られている場合に実用的な設定である。例示的な実施形態は、例えば、ターゲット画像に注釈を付けるために利用可能な制限された予算、例えば、制限された時間および金額のみがある場合に、半教師ありドメイン適応のためのアクティブ学習技術を提供する。
【0051】
例示的な実施形態は、様々なタイプのドメインおよびタスク、例えば、物体検出、セマンティックセグメンテーション、およびきめの細かな物体認識などの労働集約的タスクに適用することができる一般的なフレームワークを提供する。
【0052】
次に
図5を参照すると、本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のための方法700が例示的に示されている。
【0053】
ブロック710において、システム300は、ラベル付けされた試料およびラベル付けされていない試料の分布を促進するために、敵対的損失関数を適用する。試料は、ターゲットドメインからのものである。システム300はまた、ソースドメインから入力試料(例えば、画像、映像、またはテキストなどの他のデータ形式)を受信する。ソースドメインおよびターゲットドメインは、異なる様式の建築物および道路、2つの異なる地理的領域、2つの異なる照明条件などのために著しく変化する2つの都市からのシーン画像などの異なる条件下で撮影された画像を含むことができる。
【0054】
ブロック720において、システム300は、より高い多様性スコア(例えば、特徴空間内のラベル付けされた試料から遠く離れた)を有する試料を選択し、これらの選択されたラベル付けされていない試料が、既存のラベル付けされた試料と異なることを保証する。
【0055】
ブロック730において、システム300は、メインタスクCNN310から選択されたラベル付けされていない試料の予測スコアを信頼スコアとして使用する。次に、システム300は、(ブロック740で)不確実性を考慮するために、より低い予測スコアを有するラベル付けされていない試料を選択することによって試料をフィルタリングする。
【0056】
システム300は、これらの2つの基準(より高い多様性スコアおよびより低い予測スコア)を使用して、ラベル付けされていない試料を選択する。ブロック750において、システム300は、試料に注釈を付け、これらの新たに注釈を付けられた試料をラベル付けされたセットに追加し、モデルを再訓練する。システム300は、CNNおよびドメイン弁別器を訓練することによってこのプロセスを反復的に繰り返し、それによって、多様性および不確実性が各反復において考慮されることを保証する。
【0057】
ここで
図6を参照すると、本発明の一実施形態による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のためのシステムを含むデバイスの実装が例示的に示されている。
【0058】
図6に示されるように、デバイス800は、インスタンス検出およびセグメンテーションのために半教師ありドメイン適応を使用するカメラまたは他の画像処理デバイスを含むことができる。例示的な実施形態によれば、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応は、カメラがターゲット画像を連続的に収集し、どのデータに注釈を付けるかを選択する自動プロセスを含むことができる。選択された画像は、手動または半自動注釈のために、関連するデバイス(またはインターフェースなど)に送ることができる。最後に、注釈付けされた画像は、モデルを自動的に微調整するために、半教師ありドメイン適応デバイスへ送り返される。これらのプロセスは、並列的かつ反復的に実行することができる。例えば、システム300に関して説明したのと同様の方法を使用して、学習モジュール815は、ソースドメイン805(例えば、ソース条件物体検出820のためのソース条件(例えば、特定の気象、地理的など)で検出された画像)内の注釈を有する大量のソースドメインデータ810を使用して、物体検出モデルを学習することができる。ソース条件およびターゲット条件は、物体検出および注釈がソースドメインにおいてより容易に達成されるように、関連付けられ得る(例えば、異なる気象条件)。
【0059】
日中の場合よりも困難であり得るターゲット条件物体検出865の場合、試料選択器510は、ソースドメインモデルを使用して、注釈(制限された予算で)のためにターゲットドメイン855から有益なデータ(ターゲットドメインデータ860)を選択し、ターゲット条件が存在するときの性能を改善するために物体検出器(例えば、ターゲットドメイン物体検出865)を再訓練することができる。その後、ターゲット条件物体検出865は、ターゲット条件下で捕捉された画像を受信することができる。物体検出器(ターゲットドメイン物体検出865)は、学習モジュール815からの訓練に基づいて、画像870(例えば、ターゲットドメインデータ860から)を検出し、注釈を付けることができる。
【0060】
したがって、例示的な実施形態は、高度ドライバ支援システム(ADAS)およびきめの細かな物体認識システムなど、異なるドメインからの撮像データを、新しいデータから連続的に学習するアクティブ学習方式で使用するシステムを支援することができる。同様に、気象条件、照明条件、クロスシティ事例などの他のシナリオを分析することができ、同じ方法を適用することによって、完全な注釈を有する1つのドメインから、限られた予算のみを有する別のドメインへの知識の移転を、安価に(および/または費用効果的に)実施することができる。
【0061】
上記は、あらゆる点において例示的かつ例示的であると理解されるべきであり、限定的ではなく、本明細書に開示される本発明の範囲は、詳細な説明から決定されるべきではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明される実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。