特許7113093 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー　ラボラトリーズ　アメリカ　インクの特許一覧

特許7113093インスタンス検出およびセグメント化のためのドメイン適応

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-07-27

(45)【発行日】2022-08-04

(54)【発明の名称】インスタンス検出およびセグメント化のためのドメイン適応

(51)【国際特許分類】

G06T 7/00 20170101AFI20220728BHJP

【ＦＩ】

G06T7/00 350C

【請求項の数】 20

(21)【出願番号】P 2020570871

(86)(22)【出願日】2019-08-29

(65)【公表番号】

(43)【公表日】2021-10-28

(86)【国際出願番号】 US2019048722

(87)【国際公開番号】W WO2020051053

(87)【国際公開日】2020-03-12

【審査請求日】2020-12-18

(31)【優先権主張番号】16/535,681

(32)【優先日】2019-08-08

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/878,777

(32)【優先日】2019-07-26

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/727,730

(32)【優先日】2018-09-06

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】504080663

【氏名又は名称】エヌイーシーラボラトリーズアメリカインク

【氏名又は名称原語表記】ＮＥＣＬａｂｏｒａｔｏｒｉｅｓＡｍｅｒｉｃａ，Ｉｎｃ．

(74)【代理人】

【識別番号】100123788

【弁理士】

【氏名又は名称】宮崎昭夫

(74)【代理人】

【識別番号】100127454

【弁理士】

【氏名又は名称】緒方雅昭

(72)【発明者】

【氏名】トラン、クオック－フイ

(72)【発明者】

【氏名】ツァイ、イ－シューアン

(72)【発明者】

【氏名】ソン、キヒョク

(72)【発明者】

【氏名】リウ、ブユ

(72)【発明者】

【氏名】チャンドラカー、マンモハン

(72)【発明者】

【氏名】ス、ジョン－チー

【審査官】新井則和

(56)【参考文献】

【文献】国際公開第２０１８／０２０２７７（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１６／０２５３５９７（ＵＳ，Ａ１）

【文献】Jong-Chyi Su et al.，Active Adversarial Domain Adaptation， [online], 2019.04.16 [retrieved on 2021.12.15], Internet: <https://arxiv.org/pdf/1904.07848.pdf>，2019年04月16日，[online], 2019.04.16 [retrieved on 2021.12.15], Internet: <https://arxiv.org/pdf/1904.07848.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

ドメイン適応のための方法であって、
ドメイン弁別器を訓練している間、敵対的学習プロセスに基づいてソースドメインとターゲットドメインとの間で画像レベル特徴を合わせること（７１０）と、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から最も離れたターゲットドメインからラベル付けされていない試料を選択すること（７２０）と、
プロセッサデバイスによって、前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて（７３０）、より低い予測スコアを有する試料を選択すること（７４０）と、
前記より低い予測スコアを有する試料に注釈を付けること（７５０）とを含む方法。

【請求項2】

前記より低い予測スコアを有する注釈付けされた試料に基づいて、前記ラベル付けされていない試料に注釈を付けるモデルを反復的に再訓練することをさらに含み、前記モデルは、少なくとも１つの所定のタスクを実施する、請求項１に記載の方法。

【請求項3】

前記少なくとも１つの所定のタスクは、インスタンス物体検出とセグメント化とのうちの少なくとも１つを含む、請求項２に記載の方法。

【請求項4】

前記モデルを再訓練することは、
少なくとも１つの特徴を生成するために、前記より低い予測スコアを有する注釈付き試料を含む更新されたラベルセットを画像レベル畳み込みニューラルネットワーク（ＣＮＮ）に入力することと、
前記少なくとも１つの特徴に基づいて、更新されたラベルセットを関心領域レベル（ＲＯＩレベル)ＣＮＮに伝搬することと、
少なくとも１つの物体検出として出力境界ボックスを生成することとをさらに含む、請求項２に記載の方法。

【請求項5】

各境界ボックス内のインスタンスセグメンテーションマップを予測することをさらに含む、請求項４に記載の方法。

【請求項6】

前記敵対的学習プロセスに基づいて、前記ソースドメインと前記ターゲットドメインとの間で前記画像レベル特徴を合わせることは、
ラベルセットからのラベル付けされた試料と前記ラベル付けされていない試料との分布を促進するための敵対的損失関数を適用することと、
プロセッサデバイスによって、前記ラベル付けされていない試料から少なくとも１つのより高い多様性スコアのラベル付けされていない試料を選択することと、
前記少なくとも１つのより高い多様性スコアのラベル付けされていない試料から少なくとも１つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することとをさらに含む、請求項１に記載の方法。

【請求項7】

前記少なくとも１つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付けることと、
少なくとも１つの注釈付けされたより低い予測スコアのより高い多様性スコアのラベル付けされていない試料でラベルセットを更新して、更新されたラベル付けされたセットを形成することとをさらに含む、請求項６に記載の方法。

【請求項8】

前記ラベル付けされていない試料から前記少なくとも１つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することは、
前記ラベル付けされていない試料の予測スコアを信頼スコアとして使用することをさらに含む、請求項６に記載の方法。

【請求項9】

前記ソースドメインおよび前記ターゲットドメインは、異なる地理的エリアと、異なる気象条件と、異なる照明条件とのうちの少なくとも１つから選択される、請求項１に記載の方法。

【請求項10】

前記ラベル付けされていない試料から前記少なくとも１つのより高い多様性スコアのラベル付けされていない試料を選択することは、
前記ラベルセット内の既存の注釈付き画像から最も遠く離れたラベル付けされていない画像を選択することをさらに含む、請求項１に記載の方法。

【請求項11】

少なくとも１つの画像レベル畳み込みニューラルネットワーク（ＣＮＮ）を訓練するために、前記ソースドメインと前記ターゲットドメインとからの教師あり損失関数およびグランドトゥルースラベルを使用することをさらに含む、請求項１に記載の方法。

【請求項12】

ドメイン適応のためのコンピュータシステムであって、
メモリデバイスに動作可能に結合されたプロセッサデバイスを含み、前記プロセッサデバイスは、
ドメイン弁別器を訓練している間に、敵対的学習プロセスに基づいてソースドメインとターゲットドメインとの間で画像レベル特徴を合わせ（７１０）、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからラベル付けされていない試料を選択し（７２０）、
前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて（７３０）、より低い予測スコアを有する試料を選択し（７４０）、
前記より低い予測スコアを有する試料に注釈を付ける（７５０）ように構成されるコンピュータシステム。

【請求項13】

前記プロセッサデバイスは、さらに、
前記より低い予測スコアを有する注釈付けされた試料に基づいて、前記ラベル付けされていない試料に注釈を付けるモデルを反復的に再訓練し、前記モデルは、少なくとも１つの所定のタスクを実施するように構成される、請求項１２に記載のシステム。

【請求項14】

前記少なくとも１つの所定のタスクは、インスタンス物体検出とセグメント化とのうちの少なくとも１つを含む、請求項１３に記載のシステム。

【請求項15】

前記モデルを再訓練するとき、前記プロセッサデバイスは、さらに、
少なくとも１つの特徴を生成するために、前記より低い予測スコアを有する注釈付き試料を含む更新されたラベルセットを画像レベル畳み込みニューラルネットワーク（ＣＮＮ）に入力し、
前記少なくとも１つの特徴に基づいて、更新されたラベルセットを関心領域レベル（ＲＯＩレベル)ＣＮＮに伝搬し、
少なくとも１つの物体検出として出力境界ボックスを生成するように構成される、請求項１３に記載のシステム。

【請求項16】

前記プロセッサデバイスは、さらに、
各境界ボックス内のインスタンスセグメンテーションマップを予測するように構成される、請求項１５に記載のシステム。

【請求項17】

前記敵対的学習プロセスに基づいて、前記ソースドメインと前記ターゲットドメインとの間で前記画像レベル特徴を合わせるとき、前記プロセッサデバイスは、さらに、
ラベルセットからのラベル付けされた試料と前記ラベル付けされていない試料との分布を促進するために敵対的損失関数を適用し、
前記ラベル付けされていない試料から少なくとも１つのより高い多様性スコアのラベル付けされていない試料を選択し、
前記少なくとも１つのより高い多様性スコアのラベル付けされていない試料から少なくとも１つのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択するように構成される、請求項１３に記載のシステム。

【請求項18】

前記ソースドメインおよび前記ターゲットドメインは、異なる地理的エリアと、異なる気象条件と、異なる照明条件とのうちの少なくとも１つから選択される、請求項１２に記載のシステム。

【請求項19】

前記プロセッサデバイスは、さらに、
少なくとも１つの画像レベル畳み込みニューラルネットワーク（ＣＮＮ）を訓練するために、前記ソースドメインと前記ターゲットドメインとからの教師あり損失関数およびグランドトゥルースラベルを使用するように構成される、請求項１２に記載のシステム。

【請求項20】

ドメイン適応のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、非一時的コンピュータ可読記憶媒体を備え、該コンピュータプログラム製品には、プログラム命令が具現化されており、コンピュータデバイスによって実行可能なプログラム命令が、
ドメイン弁別器を訓練している間に（７１０）、敵対的学習プロセスに基づいて、ソースドメインとターゲットドメインとの間で画像レベル特徴を合わせることと、
前記ドメイン弁別器を使用して、前記ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからラベル付けされていない試料を選択する（７２０）ことと、
プロセッサデバイスによって、前記ラベル付けされていない試料のそれぞれの予測スコアに基づいて（７３０）、より低い予測スコアを有する試料を選択する（７４０）ことと、
前記より低い予測スコアを有する試料に注釈を付ける（７５０）こととを含む、方法を実行させるために、コンピュータデバイスによって実行可能なコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願情報
本出願は、２０１８年９月６日に出願された米国仮特許出願第６２／７２７，７３０号、２０１９年７月２６日に出願された米国仮特許出願第６２／８７８，７７７号、および２０１９年８月８日に出願された米国特許出願第１６／５３５，６８１号の優先権を主張し、その全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

本発明は、ドメイン管理に関し、より詳細には、ドメイン間で情報を転送することに関する。
関連技術の説明

【0003】

２つの都市からの道路シーン画像は、建築及び道路の異なるスタイルのために著しく変化することがある。また、同じ都市内でも、天候や照明環境などさまざまな条件で映像を撮影することができる。したがって、インスタンスオブジェクトの検出および画像のセグメンテーションは、すべての領域において完全に監視されたモデルを訓練するために労働集約的な注釈プロセスを必要とすることが知られている。

【発明の概要】

【0004】

本発明の一態様によれば、ドメイン適応のための方法が提供される。この方法は、ラベルセットからのラベル付けされた試料とラベル付けされていない試料との分布を促進するために、敵対的損失関数を適用することを含む。この方法はまた、ラベル付けされていない試料からより高い多様性スコアのラベル付けされていない試料を選択することを含む。この方法は、より高い多様性スコアのラベル付けされていない試料からより低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択することと、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付けることとを含む。この方法はさらに、ラベルセットを、注釈付きより低い予測スコアのより高い多様性スコアのラベル付けされていない試料で更新して、更新されたラベルセットを形成することと、更新されたラベルセットを使用してモデルを再訓練することとを含む。

【0005】

本発明の別の態様によれば、ドメイン適応のためのシステムが提供される。このシステムは、ドメイン弁別器を訓練している間に、敵対的学習プロセスに基づいて、ソースドメインとターゲットドメインとの間で画像レベル特徴を合わせる。システムは、ドメイン弁別器を使用して、ターゲットドメインから既存の注釈付き試料から遠く離れたターゲットドメインからのラベル付けされていない試料を選択する。システムは、ラベル付けされていない試料のそれぞれの予測スコアに基づいて、より低い予測スコアを有する試料を選択する。システムは、より低い予測スコアで試料に注釈を付ける。

【0006】

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

【図面の簡単な説明】

【0007】

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

【0008】

【図1】本発明の一実施形態によるニューラルネットワークの一般化された図である。

【0009】

【図2】本発明の一実施形態による人工ニューラルネットワーク（ＡＮＮ）アーキテクチャの図である。

【0010】

【図3】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のための高レベルシステムを示すブロック図である。

【0011】

【図4】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応の実装を示すブロック図である。

【0012】

【図5】本発明による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のための方法を示すフロー図である。

【0013】

【図6】本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のためのシステムの実装を示すブロック図である。

【発明を実施するための形態】

【0014】

本発明の実施形態によれば、（物体）インスタンス検出およびセグメント化のためのドメイン適応のためのシステムおよび方法が提供される。システムは、ラベルセットからのラベル付けされた試料およびラベル付けされていない試料の分布を促進するために、敵対的損失関数を適用する。システムは、ラベル付けされていない試料から、より高い多様性スコアのラベル付けされていない試料を選択する。より高い多様性スコアのラベル付けされていない試料は、他のラベル付けされていない試料よりも高い多様性スコアを有するラベル付けされていない試料である。システムは、より高い多様性スコアのラベル付けされていない試料から、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料を選択する。より低い予測スコアのより高い多様性スコアのラベル付けされていない試料は、他のより高い多様性スコアのラベル付けされていない試料よりも低い予測スコアを有するより高い多様性スコアのラベル付けされていない試料である。システムは、より低い予測スコアのより高い多様性スコアのラベル付けされていない試料に注釈を付ける。システムは、注釈付きのより低い予測スコアのより高い多様性スコアのラベル付けされていない試料でラベルセットを更新し、更新されたラベルセットを形成し、更新されたラベルセットを使用してモデルを再訓練する。このモデルは、少なくとも１つの所定のタスク、例えば、物体検出およびセマンティックセグメンテーションを実施する。

【0015】

一実施形態では、システムは、ドメイン弁別器を使用して、既存の注釈付き画像から遠く離れたラベル付けされていない画像を選択するために、アクティブ学習フレームワークを提供する。ドメイン適応およびアクティブ学習プロセスが継続するにつれて、ドメイン弁別器は、選択された画像が注釈のために多様であることを保証するためにより強くなる。さらに、システムは、分類器スコアを組み合わせて、予測の信頼度が低いこれらの画像をさらにフィルタリングする。ターゲット画像を選択した後、システムは、選択されたターゲット画像に注釈を付け、反復方式でモデルを再訓練する。

【0016】

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実施される。

【0017】

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ読み取り可能媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

【0018】

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体またはデバイスがコンピュータによって読み取られるときに、コンピュータの動作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体またはデバイス（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

【0019】

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏデバイス（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

【0020】

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

【0021】

図１を参照すると、ニューラルネットワークの一般化された図が示されている。

【0022】

人工ニューラルネットワーク（ＡＮＮ）は、脳のような生体神経系に刺激される情報処理システムである。ＡＮＮの重要な要素は、情報処理システムの構造であり、これは、特定の問題を解決するために並列に動作する多くの高度に相互接続された処理要素（「ニューロン」と呼ばれる）を含む。ＡＮＮはさらに、ニューロン間に存在する重みの調整を含む学習を用いて、使用中に訓練される。ＡＮＮは、そのような学習プロセスを介して、パターン認識またはデータ分類などの特定のアプリケーションのために構成される。

【0023】

ＡＮＮは、複雑または不正確なデータから意味を導出する能力を示し、パターンを抽出し、人間または他のコンピュータベースのシステムによって検出するには複雑すぎる傾向を検出するために使用することができる。ニューラルネットワークの構造は、一般に、１つまたは複数の「隠れた」ニューロン１０４に情報を提供する入力ニューロン１０２を有する。入力ニューロン１０２と隠れニューロン１０４との間の接続１０８は重み付けされ、次に、これらの重み付けされた入力は、複数層間の重み付けされた接続１０８と共に、隠れニューロン１０４内の何らかの関数に従って隠れニューロン１０４によって処理される。隠れニューロン１０４、ならびに異なる機能を実行するニューロンの任意の数の層が存在し得る。畳み込みニューラルネットワーク、最大出力ネットワーク等のような異なるニューラルネットワーク構造も存在する。最後に、出力ニューロン１０６のセットは、隠れニューロン１０４の最後のセットからの重み付けされた入力を受け入れ、処理する。

【0024】

これは、情報が入力ニューロン１０２から出力ニューロン１０６に伝播する「フィードフォワード」計算を表す。フィードフォワード計算が完了すると、出力は訓練データから利用可能な所望の出力と比較される。訓練データに対する誤差は、「フィードバック」計算で処理され、隠れニューロン１０４および入力ニューロン１０２は、出力ニューロン１０６から後方に伝播する誤差に関する情報を受け取る。一旦、逆方向エラー伝播が完了すると、重み付けされた接続１０８が受信された誤差を考慮するように更新されて、重み付け更新が実行される。これは、単に１つの種類のＡＮＮを表す。

【0025】

本明細書で説明するように、ＡＮＮ１００は、図６に関して以下で説明するように、入力画像に基づいてインスタンス物体検出およびセグメント化を実施することができる。

【0026】

次に、同一の数字が同一または類似の要素を表し、最初に図２を参照すると、人工ニューラルネットワーク（ＡＮＮ）アーキテクチャ２００が示される。本アーキテクチャは純粋に例示的なものであり、代わりに他のアーキテクチャまたはタイプのニューラルネットワークを使用することができることを理解されたい。本明細書で説明されるＡＮＮ実施形態は、高レベルの一般性でニューラルネットワーク計算の一般原理を示すことを意図して含まれており、いかなる形でも限定するものと解釈されるべきではない。

【0027】

さらに、以下に記載されるニューロンの層およびそれらを接続する重みは、一般的な様式で記載され、任意の適切な程度またはタイプの相互接続性を有する任意のタイプのニューラルネットワーク層によって置き換えられ得る。例えば、層は、畳み込み層、プーリング層、完全に接続された層、ストップマックス層、または任意の他の適切なタイプのニューラルネットワーク層を含むことができる。さらに、必要に応じて層を追加または除去することができ、相互接続のより複雑な形態のために重りを省略することができる。

【0028】

フィードフォワード動作中、１組の入力ニューロン２０２はそれぞれ、重み２０４のそれぞれの行に並列に入力信号を供給する。以下に説明するハードウェアの実施形態では、重み２０４は、重み出力が、重み２０４からそれぞれの隠れニューロン２０６に渡されて、隠れニューロン２０６への重み付けされた入力を表すように、それぞれの設定可能な値を有する。ソフトウェアの実施形態では、重み２０４は、関連する信号に対して乗算される係数値として単純に表されてもよい。各重みからの信号は列ごとに加算され、隠れニューロン２０６に流れる。

【0029】

隠れニューロン２０６は、重み２０４の配列からの信号を使用して、何らかの計算を実行する。次に、隠れニューロン２０６は、それ自体の信号を別の重み２０４の配列に出力する。この配列は、同じ方法で、重み２０４の列が、それぞれの隠れニューロン２０６から信号を受け取り、行方向に加算し、出力ニューロン２０８に供給される重み付けされた信号出力を生成する。

【0030】

配列および隠れニューロン２０６の追加の層を介在させることによって、任意の数のこれらの段階を実施できることを理解されたい。また、いくつかのニューロンは、配列に一定の出力を提供する定常ニューロン２０９であってもよいことに注意すべきである。定常ニューロン２０９は、入力ニューロン２０２および／または隠れニューロン２０６の間に存在することができ、フィードフォワード動作中にのみ使用される。

【0031】

逆伝搬の間、出力ニューロン２０８は、重み２０４の配列を横切って戻る信号を提供する。出力層は、生成されたネットワーク応答を訓練データと比較し、誤差を計算する。誤差信号を誤差値に比例させることができる。この実施例では、重み２０４の行は、それぞれの出力ニューロン２０８から並列に信号を受け取り、列ごとに加算して隠れニューロン２０６に入力を提供する出力を生成する。隠れニューロン２０６は、重み付けされたフィードバック信号をそのフィードフォワード計算の導関数と結合し、フィードバック信号を重み２０４のそれぞれの列に出力する前に誤差値を記憶する。この逆伝搬は、すべての隠れニューロン２０６および入力ニューロン２０２が誤差値を記憶するまで、ネットワーク２００全体を通って進行する。

【0032】

重み更新中、記憶された誤差値は、重み２０４の設定可能な値を更新するために使用される。このようにして、重み２０４は、ニューラルネットワーク２００をその工程における誤差に適応させるように訓練され得る。３つの動作モード、フィードフォワード、逆伝搬、および重み更新は、互いに重複しないことに留意されたい。

【0033】

畳み込みニューラルネットワーク（ＣＮＮ）は、少なくとも１つの畳み込み層を有するＡＮＮのサブクラスである。ＣＮＮは、入力層および出力層、ならびに複数の隠れ層からなる。ＣＮＮの隠れ層は畳み込み層、整流線形ユニット（ＲＥＬＵ）層（例えば活性化関数）、プーリング層、完全接続層および規格化層から成る。畳み込み層は、入力に畳み込み演算を適用し、その結果を次の層に渡す。畳み込みは、視覚刺激に対する個々のニューロンの応答をエミュレートする。

【0034】

ＣＮＮは、視覚画像の分析に適用することができる。ＣＮＮは、ローカル情報（例えば、画像内の隣接画素またはテキスト内の周囲の単語）を捕捉し、モデルの複雑さを低減することができる（例えば、より速い訓練、より少ない試料の必要性、およびオーバーフィッティングの機会の低減を可能にする）。

【0035】

ＣＮＮは、最小限の前処理を必要とするように設計された多層パーセプトロンの変形を使用する。ＣＮＮは、それらの共有重みアーキテクチャおよび変換不変特性に基づいて、シフト不変または空間不変人工ニューラルネットワーク（ＳＩＡＮＮ）としても知られている。ＣＮＮは、画像および映像認識、推薦システム、画像分類、医用画像解析、および自然言語処理における用途に使用することができる。ＣＮＮは、図３に関して以下に説明するように、入力画像に基づいてインスタンス物体検出およびセグメンテーションを実施するために適用することができる。ＣＮＮはまた、図３および図４に関して以下でさらに説明するように、敵対的損失関数を適用することができる。

【0036】

図３を参照すると、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のための高レベルシステム３００が、本発明の実施形態に従って例示的に示されている。

【0037】

半教師ありドメイン適応を有するシステムでは、システムは、ターゲットドメインから幾つかの（例えば、幾つかの）画像に対する注釈を取得することができる（これにより、（例えば、制限された）監視の尺度を提供する）。図３に示すように、システム３００は、メインタスクシステム３０５、ドメイン適応システム４００、およびアクティブ学習システム５００を含む。正方形の辺を有するボックスは、データ（例えば、ソース（Ｉ＿ｓｒｃ）、ラベル付きターゲット（Ｉ＿ｔａｒ＿ｌ）など）、または畳み込みニューラルネットワーク（ＣＮＮ）またはクラスタリングなどの計算ユニット（またはデバイス）を示すことに留意されたい。丸められたエッジボックスは、損失関数（例えば、タスク損失３７５および敵対的損失４０５）を示す。矢印はデータの流れを示す。

【0038】

ドメイン適応システム４００とアクティブ学習システム５００との組み合わせは、メインタスク畳み込みニューラルネットワーク（ＣＮＮ）３１０によって推定される多様性および不確実性を共同で考慮するためのフレームワークを提供する。ドメイン弁別器４１０は、ドメイン転送（例えば、注釈を用いた知識のシフト）を実施し、有益なラベル付けされていないターゲット試料を効率的に選択するための信号を提供する。メインタスクＣＮＮ３１０から推定される多様性および不確実性を共同で考慮することによって、フレームワーク（ドメイン適応システム４００およびアクティブ学習システム５００によって提供される）は、モデル予測（メインタスクＣＮＮ３１０を介して）とアクティブ学習（アクティブ学習システム５００を介して）との両方を反復的に更新する。その結果、例示的な実施形態は、より少ない試料に注釈を付けながら、より高い精度を達成することができるフレームワークを提供する。フレームワークは一般的であり、様々なタスク（例えば、セマンティックセグメンテーションや細粒物認識）にも適用できることに注意する。例示的な実施形態は、ターゲットドメインにおける注釈のための制限された予算に基づいて、物体検出のためのより高い精度を達成する。

【0039】

メインタスクＣＮＮ３１０は、図３に示すように、入力画像を受信する。メインタスクＣＮＮ３１０は、入力画像に基づいてインスタンス物体検出およびセグメンテーションを実施する。入力画像は、本明細書でソース（Ｉ＿ｓｒｃ３１５）、ラベル付きターゲット(Ｉ＿ｔａｒ＿ｌ３２０）、およびラベル付けされていないターゲット(Ｉ＿ｔａｒ＿ｕ３２５）として示される２つのドメインから得ることができる。これらの入力は、画像レベルＣＮＮ（ＩＬＣＮＮ３３０）へ供給され、特徴（Ｆ＿ｓｒｃ３３５、Ｆ＿ｔａｒ＿Ｉ３４０、およびＦ＿ｔａｒ＿ｕ３４５）を生成する。特徴は、エッジ、コーナー、関心点、ブロブ、関心点の領域、リッジなどを含むことができる。これらの特徴に基づいて、メインタスクＣＮＮ３１０は、特徴を関心領域レベル（ＲＯｉレベル）ＣＮＮ（図３でＲＯＩ＿ＬＣＮＮ３５０として示す）に伝搬し、出力境界ボックス（Ｏ＿ｓｒｃ３５５、Ｏ＿ｔａｒ＿ｌ３６０、およびＯ＿ｔａｒ＿ｕ３６５）を（例えば、最終）物体検出結果として生成する。バウンディングボックスは、デジタル画像がページ、キャンバス、スクリーン、または他の同様の（例えば、二次元）背景上に置かれたときに、デジタル画像を完全に囲む矩形境界の座標である。メインタスクＣＮＮ３１０は、各バウンディングボックス内のインスタンスセグメンテーションマップを予測することもできることに留意されたい。インスタンスセグメンテーションは、物体が同じクラスラベルのものであっても、画像内の各物体についてピクセルごとのマスクを決定する。

【0040】

メインタスク損失機能３７０は、メインタスクＣＮＮ３１０からＣＮＮを訓練する。ソースドメインおよびラベル付けされたターゲットドメインからの画像について、メインタスク損失関数３７０は、メインタスクＣＮＮ３１０を訓練するために標準的な監視損失関数（タスク損失３７５）で使用されるグラウンドトゥルースラベル（ＧＴ＿ｓｒｃ３８０およびＧＴ＿ｔａｒ＿Ｉ３８５）にアクセスする（例えば、与えられる、受信するなど）。グラウンドトゥルースは、教師あり学習技法のための訓練セットの分類の精度を指し、メインタスクＣＮＮ３１０による統計モデルで使用されて、ソースドメインからの画像に関する仮説を証明または非証明する。損失関数は、予測値と実際のラベルとの間の不一致を測定する。

【0041】

ドメイン適応システム４００は、（ドメイン弁別器を介して）ドメインを適応させる。メインタスクＣＮＮ３１０を訓練し、ラベル付けされていないターゲットドメイン（Ｉ＿ｔａｒ＿ｕ３２５）からの画像も処理するために、ドメイン適応システム４００は、ラベル付き試料（Ｆ＿ｓｒｃ３３５およびＦ＿ｔａｒ＿ｌ３４０）およびラベル付けされていない試料（Ｆ＿ｔａｒ＿ｕ）の類似性の分散を奨励するために、敵対的損失４０５関数（または正則化）を適用する。この敵対的損失４０５関数は、ドメインアラインメント目的のためにラベル付けされた試料とラベル付けされていない試料とを区別することを目的とするドメイン弁別器４１０に基づいて計算される。ドメイン適応システム４００は、敵対的学習スキームを用いて画像レベル特徴（Ｆ＿ｓｒｃ３３５およびＦ＿ｔａｒ＿ｌ３４０）をアラインメントすることにより、２つのドメイン間のドメインギャップ（例えば、問題点、論争点など）を解決する（または決着させる）。このプロセスの間、特徴がソースからのもの（例えば、０としてラベル付けされている）かターゲットからのもの（例えば、１としてラベル付けされている）かを区別するために、ドメイン識別器４１０が採用される。

【0042】

ターゲットドメインに注釈のための制限された予算を導入するとき、システム３００は、ターゲット性能を効率的に改善することができる、例えば、より高い性能を達成しながら、より少ない画像に注釈を付けることができる、有益な画像を選択することを目的とする。この目的のために、システム３００は、ドメイン弁別器４１０を使用して、既存の注釈付き画像から遠く離れたラベル付けされていない画像を選択することによって、アクティブ学習フレームワークを実施する。ドメイン適応およびアクティブ学習プロセスが継続するにつれて、ドメイン弁別器４１０は、選択された画像が注釈のために多様であることを保証するために、より強くなる。

【0043】

アクティブ学習システム５００は、試料選択を介してアクティブ学習を実施する。ラベル付けされていないターゲット画像に注釈を付けるための制限された予算が与えられると、アクティブ学習システム５００は、注釈のためにターゲットドメインから有益な試料を反復的に選択する。第１に、アクティブ学習システム５００は、既存のラベル付けされた試料とは異なるラベル付けされていないターゲット画像のセットを見つけるためのインジケータとして、ドメイン適応システム４００からのドメイン弁別器４１０を使用する。これを達成するために、アクティブ学習システム５００は、全てのラベル付けされていない試料（Ｉ＿ｔａｒ＿ｕ３２５）にドメイン弁別器４１０を適用し、ラベル付けされていない試料のスコアをランク付けする。例えば、特徴空間内のラベル付けされた試料から遠く離れた、より高いスコアを有するラベル付けされていない試料（Ｉ＿ｔａｒ＿ｕ３２５）を選択することによって、アクティブ学習システム５００は、これらの選択された試料が、既存のラベル付けされた試料とは異なることを保証し、それによって、試料間の多様性を増加させる。

【0044】

上述したように、既存のラベル付けされた試料とは異なるラベル付けされていない試料を選択した後、アクティブ学習システム５００は、メインタスクＣＮＮ３１０からの予測スコア（Ｏ＿ｔａｒ＿ｕ３６５）を信頼度スコアとしてさらに使用する。次いで、アクティブ学習システム５００は、不確実性を考慮するために、より低いスコアを有する試料を選択することによって、試料をフィルタリングする。

【0045】

これら２つの基準を使用してラベル付けされていない試料（Ｉ＿ｔａｒ＿ｕ３２５）を選択することにより、アクティブ学習システム５００はラベル付けされていない試料に注釈を付け、これらの新たに注釈を付けられた試料をラベル付きセット（Ｉ＿ｔａｒ＿ｌ３２０）に追加し、モデルを再訓練する。アクティブ学習システム５００は、各反復において多様性（例えば、Ｉ＿ｔａｒ＿ｕ３２５に基づく）および不確実性（例えば、Ｏ＿ｔａｒ＿ｕ３６５に基づく信頼度）が考慮されるように、ＣＮＮ（例えば、メインタスクＣＮＮ３１０）およびドメイン弁別器４１０を訓練することによって、このプロセスを反復的に繰り返す。言い換えれば、アクティブ学習システム５００は、分類器スコアを組み合わせて、予測の信頼度がより低い画像をさらにフィルタリングする。ターゲット画像を選択した後、アクティブ学習システム５００は、選択されたターゲット画像に注釈を付け、反復方式でモデルを再訓練する。

【0046】

ドメイン弁別器４１０は、ラベル付けされた試料とラベル付けされていない試料との間の分布差をより良く理解するために、試料選択器５１０のための手がかりを提供する。その結果、システム３００は、（例えば、既存のプロセスよりも）より良好なタスク性能を達成しながら、小さい有益な試料のセットを取得するために、重要な方法で手がかりを使用する。試料選択器５１０は、試料注釈５１５をＩ＿ｔａｒ＿ｌ３２０およびＩ＿ｔａｒ＿ｕ３２５に（例えば、試料更新として）提供する（例えば、５１５を送信する）。

【0047】

次に図４を参照すると、本発明の一実施形態による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応の実施が例示的に示されている。

【0048】

図４に示されるように、例示的な実施形態は、（例えば、ターゲット）インスタンス物体検出およびセグメンテーションを対象とし、これは、既存の実装形態では、すべてのドメインにおいて完全な教師ありモデルを訓練するために労働集約的な注釈プロセスを必要とすることが知られている。対照的に、例示的な実施形態は、モデルを訓練するためのグランドトゥルースに注釈を付けるために、完全な注釈を有する１つのドメインから、限定された予算のみを有する別のドメインに知識を転送することによって、注釈のボトルネックに対処する。

【0049】

例えば、実装６００に関して、システム３００に関して説明したのと同様の方法を使用して、学習モジュール６１５は、ソースドメイン６０５（例えば、昼間の物体検出６２０のための昼間の画像）内の注釈を有する大量の既存のデータ６１０（例えば、訓練データ）を使用して、物体検出（例えば、自動車、自転車、および歩行者）モデルを学習することができる。昼間の場合よりも困難であり得る夜間の場合（夜間の物体検出６６５）に対して、試料選択器５１０は、日中モデルを使用して、（限定された予算で）注釈のための夜間ドメイン６５５から有益なデータ（新規データ６６０）を選択し、物体検出器（例えば、夜間の物体検出６６５）を再度訓練して、夜間の間の性能を改善することができる。

【0050】

例示的な実施形態は、ターゲットドメイン内に注釈を有するいくつかの画像を利用し、これは、注釈に利用可能な予算が限られている場合に実用的な設定である。例示的な実施形態は、例えば、ターゲット画像に注釈を付けるために利用可能な制限された予算、例えば、制限された時間および金額のみがある場合に、半教師ありドメイン適応のためのアクティブ学習技術を提供する。

【0051】

例示的な実施形態は、様々なタイプのドメインおよびタスク、例えば、物体検出、セマンティックセグメンテーション、およびきめの細かな物体認識などの労働集約的タスクに適用することができる一般的なフレームワークを提供する。

【0052】

次に図５を参照すると、本発明の一実施形態による、インスタンス検出およびセグメント化のための半教師ありドメイン適応のための方法７００が例示的に示されている。

【0053】

ブロック７１０において、システム３００は、ラベル付けされた試料およびラベル付けされていない試料の分布を促進するために、敵対的損失関数を適用する。試料は、ターゲットドメインからのものである。システム３００はまた、ソースドメインから入力試料（例えば、画像、映像、またはテキストなどの他のデータ形式）を受信する。ソースドメインおよびターゲットドメインは、異なる様式の建築物および道路、２つの異なる地理的領域、２つの異なる照明条件などのために著しく変化する２つの都市からのシーン画像などの異なる条件下で撮影された画像を含むことができる。

【0054】

ブロック７２０において、システム３００は、より高い多様性スコア（例えば、特徴空間内のラベル付けされた試料から遠く離れた）を有する試料を選択し、これらの選択されたラベル付けされていない試料が、既存のラベル付けされた試料と異なることを保証する。

【0055】

ブロック７３０において、システム３００は、メインタスクＣＮＮ３１０から選択されたラベル付けされていない試料の予測スコアを信頼スコアとして使用する。次に、システム３００は、（ブロック７４０で）不確実性を考慮するために、より低い予測スコアを有するラベル付けされていない試料を選択することによって試料をフィルタリングする。

【0056】

システム３００は、これらの２つの基準（より高い多様性スコアおよびより低い予測スコア）を使用して、ラベル付けされていない試料を選択する。ブロック７５０において、システム３００は、試料に注釈を付け、これらの新たに注釈を付けられた試料をラベル付けされたセットに追加し、モデルを再訓練する。システム３００は、ＣＮＮおよびドメイン弁別器を訓練することによってこのプロセスを反復的に繰り返し、それによって、多様性および不確実性が各反復において考慮されることを保証する。

【0057】

ここで図６を参照すると、本発明の一実施形態による、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応のためのシステムを含むデバイスの実装が例示的に示されている。

【0058】

図６に示されるように、デバイス８００は、インスタンス検出およびセグメンテーションのために半教師ありドメイン適応を使用するカメラまたは他の画像処理デバイスを含むことができる。例示的な実施形態によれば、インスタンス検出およびセグメンテーションのための半教師ありドメイン適応は、カメラがターゲット画像を連続的に収集し、どのデータに注釈を付けるかを選択する自動プロセスを含むことができる。選択された画像は、手動または半自動注釈のために、関連するデバイス（またはインターフェースなど）に送ることができる。最後に、注釈付けされた画像は、モデルを自動的に微調整するために、半教師ありドメイン適応デバイスへ送り返される。これらのプロセスは、並列的かつ反復的に実行することができる。例えば、システム３００に関して説明したのと同様の方法を使用して、学習モジュール８１５は、ソースドメイン８０５（例えば、ソース条件物体検出８２０のためのソース条件（例えば、特定の気象、地理的など）で検出された画像）内の注釈を有する大量のソースドメインデータ８１０を使用して、物体検出モデルを学習することができる。ソース条件およびターゲット条件は、物体検出および注釈がソースドメインにおいてより容易に達成されるように、関連付けられ得る（例えば、異なる気象条件）。

【0059】

日中の場合よりも困難であり得るターゲット条件物体検出８６５の場合、試料選択器５１０は、ソースドメインモデルを使用して、注釈（制限された予算で）のためにターゲットドメイン８５５から有益なデータ（ターゲットドメインデータ８６０）を選択し、ターゲット条件が存在するときの性能を改善するために物体検出器（例えば、ターゲットドメイン物体検出８６５）を再訓練することができる。その後、ターゲット条件物体検出８６５は、ターゲット条件下で捕捉された画像を受信することができる。物体検出器（ターゲットドメイン物体検出８６５）は、学習モジュール８１５からの訓練に基づいて、画像８７０（例えば、ターゲットドメインデータ８６０から）を検出し、注釈を付けることができる。

【0060】

したがって、例示的な実施形態は、高度ドライバ支援システム（ＡＤＡＳ）およびきめの細かな物体認識システムなど、異なるドメインからの撮像データを、新しいデータから連続的に学習するアクティブ学習方式で使用するシステムを支援することができる。同様に、気象条件、照明条件、クロスシティ事例などの他のシナリオを分析することができ、同じ方法を適用することによって、完全な注釈を有する１つのドメインから、限られた予算のみを有する別のドメインへの知識の移転を、安価に（および／または費用効果的に）実施することができる。

【0061】

上記は、あらゆる点において例示的かつ例示的であると理解されるべきであり、限定的ではなく、本明細書に開示される本発明の範囲は、詳細な説明から決定されるべきではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明される実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版