(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-11
(45)【発行日】2024-04-19
(54)【発明の名称】多様な人分析のための勾配分割によるマルチタスク学習
(51)【国際特許分類】
G06T 7/00 20170101AFI20240412BHJP
G06N 3/084 20230101ALI20240412BHJP
G06N 3/0464 20230101ALI20240412BHJP
【FI】
G06T7/00 350C
G06T7/00 660Z
G06N3/084
G06N3/0464
(21)【出願番号】P 2023514020
(86)(22)【出願日】2021-10-08
(86)【国際出願番号】 US2021054142
(87)【国際公開番号】W WO2022086728
(87)【国際公開日】2022-04-28
【審査請求日】2023-02-28
(32)【優先日】2020-11-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-10-21
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-10
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-10-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ス、 ユミン
(72)【発明者】
【氏名】ユ、 シャオ
(72)【発明者】
【氏名】ファラキ、 マスード
(72)【発明者】
【氏名】チャンドラカー、 マンモハン
(72)【発明者】
【氏名】デン、 ウェイジャン
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】国際公開第2019/084189(WO,A1)
【文献】特開2019-087237(JP,A)
【文献】国際公開第2020/180469(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06N 3/0464
G06N 3/084
(57)【特許請求の範囲】
【請求項1】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法であって、
各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し(1001)、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し(1003)、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し(1005)、
前記N個のグループの各グループにそれぞれ1つのタスクを割り当て(1007)、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新する、方法。
【請求項2】
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項1に記載の方法。
【請求項3】
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項1に記載の方法。
【請求項4】
訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項1に記載の方法。
【請求項5】
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項1に記載の方法。
【請求項6】
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項1に記載の方法。
【請求項7】
ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項1に記載の方法。
【請求項8】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ(1001)、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給させ(1003)、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割させ(1005)、
前記N個のグループの各グループにそれぞれ1つのタスクを割り当てさせ(1007)、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータを、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新させる、非一時的なコンピュータで読み取り可能な記録媒体。
【請求項9】
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項10】
前記特徴量抽出器のタスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項11】
訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項12】
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項13】
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項14】
ラウンドロビンのバッチレベル更新メカニズムが適用される、請求項8に記載の非一時的なコンピュータで読み取り可能な記録媒体。
【請求項15】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムであって、
メモリと、
各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し(1001)、
特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに前記訓練データを供給し(1003)、
前記特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し(1005)、
前記N個のグループの各グループにそれぞれ1つのタスクを割り当て(1007)、
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、前記パラメータから、定数と、前記特徴量抽出器タスク固有コンポーネントの割り当てられたタスクの損失の前記パラメータに対しての勾配との積を減算することのみによって更新されるように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
を有するシステム。
【請求項16】
前記特徴量抽出器は前記抽出された画像から特徴量マップを生成し、前記タスク固有ヘッドは前記生成された特徴量マップに基づいてタスク予測を出力する、請求項15に記載のシステム。
【請求項17】
前記特徴量抽出器タスク固有コンポーネントにおけるパラメータは、その割り当てられたタスクのみの損失を最小化するように更新される、請求項15に記載のシステム。
【請求項18】
訓練中、前記N個のグループの各グループは、対応するタスク勾配によってのみ更新される、請求項15に記載のシステム。
【請求項19】
各タスクは、他のタスクから干渉されることなくその特徴量を学習する、請求項15に記載のシステム。
【請求項20】
前記フィルタを分割することは誤差逆伝播のみに適用される、請求項15に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2020年10月21日に出願された米国仮特許出願第63/094,365号、2020年11月10日に出願された米国仮特許出願第63/111,662号、2020年11月15日に出願された米国仮特許出願第63/113,944号及び2021年10月7日に出願された米国特許出願第17/496,214号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。
【0002】
本発明は、マルチタスク学習に関し、より具体的には、多様な人分析のための勾配分割によるマルチタスク学習に関する。
【背景技術】
【0003】
現実世界の問題の多くは、画像における人の広範囲な理解を必要とする。例えば、人々を追跡調査するカスタマイズされた広告システムは、複数のカメラにわたる再識別化を利用し、基本的な情報(性別や年齢等)を認識し、姿勢推定を用いて行動を分析し、最適な広告を作成する。近年、人の再識別化、歩行者の検出、人の姿勢推定等、人に関連する様々なタスクに関して目覚ましい進歩が見られる。一方で、個々のタスク毎に多くのアノテーション付きのデータセットが提案されている。しかしながら、それらのほとんどは単一のタスクを考慮しており、他の問題と共に調査する能力は無い。
【発明の概要】
【0004】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のための方法が提示される。本方法は、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し、N個のグループの各グループにそれぞれ1つのタスクを割り当て、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理することを含む。
【0005】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出させ、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給させ、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割させ、N個のグループの各グループにそれぞれ1つのタスクを割り当てさせ、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理させる。
【0006】
多様な人分析にふさわしい勾配分割によるマルチタスク学習のためのシステムが提示される。本システムは、メモリと、各データセットがそれぞれ1つのタスクに関連付けられた、複数のデータセットを有する訓練データから画像を抽出し、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する特徴量抽出器、並びにタスク固有ヘッドを含むニューラルネットワークモデルに訓練データを供給し、特徴量抽出器の畳み込み層のより深い層のフィルタを、タスクの数であるN個のグループに分割し、N個のグループの各グループにそれぞれ1つのタスクを割り当て、各タスクの損失がフィルタの1つのサブセットのみを更新するように、勾配を処理するように構成された、メモリと通信する1つまたは複数のプロセッサとを有する。
【0007】
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
【0008】
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
【図面の簡単な説明】
【0009】
【
図1】
図1は、例示的な人分析パイプラインを示すブロック/フロー図である。
【0010】
【
図2】
図2は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む例示的な人分析パイプラインを示すブロック/フロー図である。
【0011】
【
図3】
図3は、本発明の実施形態による、例示的なモデル分割プロセスを示すブロック/フロー図である。
【0012】
【
図4】
図4は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデル更新を示すブロック/フロー図である。
【0013】
【
図5】
図5は、本発明の実施形態による、共有バックボーン及びタスク固有ヘッドモジュールを含む、例示的なGradSplitフレームワークを示すブロック/フロー図である。
【0014】
【
図6】
図6は、本発明の実施形態による、GradSplitのための2タスク訓練で使用される例示的な勾配テンソルを示すブロック/フロー図である。
【0015】
【
図7】
図7は、本発明の実施形態による、GradSplitが重みを均一に分割し、各タスクの損失が1つの特定のフィルタグループのみに影響を与える方法を示すブロック/フロー図である。
【0016】
【
図8】
図8は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な実際のアプリケーションを示す図である。
【0017】
【
図9】
図9は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な処理システムを示す図である。
【0018】
【
図10】
図10は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な方法を示すブロック/フロー図である。
【発明を実施するための形態】
【0019】
例示的な実施形態は、個々のタスクにそれぞれアノテーションが付与されたデータセットを用いて、人に関連する複数のタスクを同時にまたは並行して解明する統合フレームワークを導入する。必要なフレームワークは、タスク全体で相互情報量を利用し、共有ネットワークアーキテクチャを用いてメモリと計算コストを節約する。但し、あるタスクにとって重要な勾配信号は、別のタスクにとって有害な情報になる可能性があり、共有ネットワークを学習するときに勾配のコンフリクトが発生する可能性がある。これにより、最適化の課題が発生し、全体的な性能が最適化されなくなる。例えば、姿勢の推定には姿勢に敏感な特徴量が必要であるが、人物の再識別化には姿勢の不変な特徴量が必要である。
【0020】
この問題に対処するため、既存の方法は、タスク固有の特徴量を生成できるように、タスク固有モジュールを共有バックボーンに統合する。共有ネットワークは、人のタスクによるタスク固有の特徴量を学習することが推奨されるが、追加のモジュールを用いる代わりに、例示的な方法では慎重に設計された訓練スキームを用いてこれを達成する。具体的には、共有バックボーン内の各畳み込みモジュールにおいて、例示的な方法は、フィルタをN個のタスクのN個のグループに分離または分割する。訓練中、各グループは対応するタスク勾配によってのみ更新される。これは、更新中に勾配をグループに分離または分割するため、Gradient Split(または、GradSplit)と呼ばれる。
【0021】
GradSplitは誤差逆伝播のプロセス中のフィルタにのみ適用されるが、順方向パスはベースラインと同じである。これにより少なくとも次の利点がもたらされる。まず、タスク固有のフィルタは、他のタスク固有のフィルタから生成された特徴量を受け取るため、他のタスクからの情報を引き続き利用できる。さらに、例示的な方法は、追加のパラメータまたは計算コストを導入しない。最後に、例示的な方法は、全てのタスクの損失からの勾配の比較が不要であり、そのため、特に複数の単一のアノテーションデータセットを扱う場合の訓練手順が簡素化する。別の貢献では、例示的な方法は、共有バックボーンにおける正規化層を分析することで強力なマルチタスクベースラインを提供する。これにより、複数のデータセットから学習する際のドメインギャップ問題が効果的に軽減される。
【0022】
例示的な方法は、人に関連する複数のタスクを同時にまたは並行して解明する統合モデルを訓練することを目標とする。
【0023】
例示的な方法は、共同タスクの損失Lを最小化する最適パラメータΘを求める。
【数1】
【0024】
ここで、Tはタスクの数を表し、L
tはタスクの損失L
tを表す。マルチヘッドネットワークは、
図5に関して後述するように、1つの共有バックボーンとタスク固有ヘッドを有すると仮定する。
【0025】
マルチタスク学習のよく知られた問題は、タスクに矛盾がある場合(例えば、恒等不変特徴量対恒等可変属性)、共同最適化が準最適解につながることである。これを軽減するため、例示的な方法は、各タスクが他のタスクから干渉されることなくその本質的な特徴量を学習できるようにする、Gradient Split(またはGradSplit)と呼ばれる訓練スキームを提案する。各タスクの損失を用いて共有バックボーンの畳み込みの全てのフィルタを更新する代わりに、GradSplitは明確にフィルタのサブセットのみに影響を与えるようにする。
【0026】
勾配分割(gradient split)に関して、
【数2】
によってパラメータ化された、入力チャネルc
iと出力チャネルc
oとの畳み込みを考える。これにはc
oフィルタが含まれており、各フィルタは1つの特徴量マップを生成する。ここで、hは高さを示し、wは幅を示す。先の方程式に基づいて、標準的な確率的勾配降下法は次のように定式化される。
【数3】
【0027】
GradSplitは異なるタスクからの勾配を平均化するため、GradSplitは、タスクがコンフリクトの場合に有用な信号を相殺する可能性があり、性能を低下させる。
【0028】
例示的な方法は、勾配のコンフリクトが無いように、勾配をタスク全体にわたって分割し、それらに異なるフィルタに適用する。T個のタスクが与えられると、例示的な方法はフィルタをT個のグループに分割し、各グループを明確に1つのタスクに割り当てる。例示的な方法は、t番目のタスクに割り当てられたパラメータを
【数4】
として示す。ここで、n
tはタスクtに割り当てられた出力チャネルの数である。次に、GradSplit用いたパラメータ更新の1回の反復は、次のように定式化される。
【数5】
ここで、
【数6】
である。
【0029】
したがって、GradSplitは、割り当てられたタスクのみからの勾配を用いてパラメータθ
tを更新し、他のタスクからの勾配は廃棄する。更新では、勾配がタスク全体で平均化されないため、1つのタスクが別のタスクに干渉することは無い。以下で説明する
図6は、GradSplitで使用される勾配を示している。
【0030】
GradSplitは、転送手順に影響を与えず、勾配更新手順のみに影響を与える。その結果、GradSplitは、ネットワーク構造を変更することなく、任意の畳み込み層に簡単に適用できる。例示的な方法は、GradSplitを、経験的に最良の性能をもたらす、共有バックボーンの最後の層(例えば、ResNet-50のLayer4)に適用する。各モジュールに関して、例示的な方法は、各グループが[co/T]フィルタを含むT個のグループにそのフィルタを均等に分割する単純な戦略を採用する。
【0031】
正則化としてのGradSplitの直感的な理解に関して、タスク勾配の重み付けされた線形和としてのθ
tに関して、勾配を処理することを考慮する。
【数7】
【0032】
m
t=1及びm
t’=0(t≠t’)の場合、上式は、
【数8】
になる。m
tが確率的バイナリマスクである場合、それはドロップアウト勾配と同等である。訓練中に勾配にノイズを注入するため、正則化効果が得られる。この処理は、ドロップレートp∈[0,1)の場合、特別に設計されたドロップアウトマスクを用いたGradDropと同等であることが分かる。
【0033】
複数のタスク固有のデータセットを用いた訓練に関して、各データセットが単一タスクのアノテーションを含む実際の設定が想定される。この条件下において、モデルは、画像が、背景、照明、カメラの視野及び解像度に固有の視覚的特性を示す、複数のデータセットを用いて訓練される。
【0034】
【0035】
ここで、
【数11】
は、タスクtの損失関数及び予測関数を表す。
【0036】
例示的な方法は、最適化のためにラウンドロビンのバッチレベル更新方式を採用する。1つのマルチタスクの繰り返しには、各タスクのバッチ転送とパラメータ更新のシーケンスが含まれる。様々なタスクに様々な入力サイズを許容するのに十分な柔軟性を有し、制約のあるグラフィックプロセッシングユニット(GPU)メモリでタスクの数にスケーリングすることもできる。これは、トリプレット損失等、バッチサイズが性能に影響する特定の損失関数で訓練する場合に役に立つ。
【0037】
訓練データセット間のドメインギャップに関して、ラウンドロビンのバッチ構築を用いると、タスクtのミニバッチは、分布Dtからサンプリングされた画像を含む。
【0038】
【0039】
ここで、
【数13】
は、タスクtに関してサンプリングされたミニバッチを表す。それと同時に、バッチ正規化(BN)には、EfficientNetやResNet等の最新式のネットワークアーキテクチャが広く採用されている。BNは、訓練中に実行中のバッチ統計を使用し、推論中に蓄積された統計を用いて独立同分布(iid)のミニバッチ仮定を使用することに注意されたい。データセット間のドメインギャップにより、ミニバッチ
【数14】
のタスクtの損失を計算するために使用される実行中のBN統計は、訓練中にタスク全体で異なる分布に従うが、一般的なBN統計はタスク全体で蓄積され、テスト段階で使用される。このような訓練段階とテスト段階の間のBN統計の不一致により、性能が大幅に低下することが見出された。
【0040】
解決策の1つの候補として、残りの畳み込みパラメータを共有しつつ、異なるタスクに関して固有のBNモジュールを用いることで、タスク固有のBNが、この問題を軽減する。但し、最初のタスク固有のBNに続く特徴量はタスク間で共有できず、N個のタスクに対してN個の順方向パスが必要になるため、計算コストが増加する。もう1つの解決策は、訓練中にBN統計を修正することであるが、これもベースラインの性能を低下させる。その代わりに、例示的な方法は、共有バックボーンにおいてグループ正規化(GN)を使用する。これにより、上記の問題を回避することが可能であり、信頼できるベースラインが得られる。
【0041】
図1は、例示的な人分析パイプラインを示すブロック/フロー図である。
【0042】
訓練画像110は、入力訓練データに基づいて人分析システムのパラメータを更新する訓練アルゴリズム120に対する入力として使用される。訓練後、人分析システム130は、見知らぬ画像に対して使用することができる。
【0043】
訓練データセット110に関して、人分析システムのための訓練データは、関心のあるタスクのためのアノテーションと共に画像のセットを含む。アノテーションの形式は、タスクによって異なる。例えば、各人物画像には、人物の再識別化タスクのために人物の身元がアノテーションとして付与される。姿勢推定タスクでは、主要なポイントのアノテーションが各画像に付与される。1つの主要な身体関節のアノテーションには、画像空間における座標とその視認性の2つの値が含まれる。1つの画像に対する各アノテーションは、例えば、肩、肘及び手首等の主要な身体関節に関するアノテーションを含む。
【0044】
訓練アルゴリズム120に関して、モデルは、与えられた訓練データに基づいて調整する必要がある、パラメータを有する深層ニューラルネットワークである。損失関数は、グラウンドトゥルースと現在のモデルの予測との差が訓練データの特定の画像に関して測定されるように定義される。確率的勾配降下法(SGD:stochastic gradient descent)等の最適化手法を用いて、損失を低減する方向にモデルのパラメータを更新できる。
【0045】
多様な人分析モデル/システム130に関して、訓練データ110を用いてニューラルネットワークモデルのパラメータを調整した後、システムは新しい画像に適用する準備ができている。与えられた画像について、多様な人分析システム130は、全てのタスクの出力を同時にまたは並行して戻す。
【0046】
図2は、本発明の実施形態による、複数のデータセットを用いる訓練手順を含む、例示的な人分析パイプラインを示すブロック/フロー図である。
【0047】
図2のパイプラインは、
図1の標準パイプラインとは、人分析のために2つの点で異なる。第1に、訓練データ110は、タスク毎に1つずつのN個のデータセットを含む。1つのデータセットには、画像とタスクのアノテーションが含まれる。例えば、データセット1には、注釈付きの身元を備える人物の画像が含まれ、データセット2には、主要な身体の関節位置の注釈付きの人物画像が含まれる。第2に、複数のタスクを同時にまたは並行して実行するようにモデルを訓練する。タスク間の潜在的なコンフリクトに対処するため、例示的な方法は、モデルをタスク固有の部分と共有部分、すなわちモデル124と変更された訓練アルゴリズム122とに分割する。
【0048】
図3は、本発明の実施形態による、例示的なモデル分割プロセスを示すブロック/フロー図である。
【0049】
モデルは、2つの部分、すなわち特徴量抽出器125とタスク固有ヘッド140とを含む。特徴量抽出器125は、与えられた画像から特徴量マップを生成し、タスク固有ヘッド140は、特徴量マップに基づいてタスク予測を出力する。例示的な方法は、特徴量抽出器125を共有モジュール(またはコンポーネント)126とタスク固有モジュール(またはコンポーネント)128とにさらに分割する。タスク固有モジュール128の各層に関して、フィルタはN個のグループに分割され、各グループは1つのタスクに割り当てられる。この割り当ては、各フィルタの専門分野を特定し、訓練アルゴリズム120がこれらの専門分野を強化する方法でパラメータを更新するようにする。特徴量抽出器125は、全てのデータセットを用いて訓練され、タスク固有ヘッド140は、対応するタスクデータセットを用いて訓練される。
【0050】
図4は、本発明の実施形態による、訓練アルゴリズムの例示的なパラメータ及びモデルの更新を示すブロック/フロー図である。
【0051】
訓練中、例示的な方法は、モデル分割124に基づいてパラメータ更新150を修正し、モデル更新152を取得する。従来の訓練アルゴリズムでは、全てのタスクの損失の合計を最小化する方向に全てのパラメータが更新される。同じ更新手順は、124で定義された特徴量抽出器のタスク固有モジュールにおけるものを除いて、全てのパラメータに関して従来のアルゴリズムのように維持される。タスク固有モジュールのパラメータは、全てのタスクの損失の合計を最小化するのではなく、割り当てられたタスクのみの損失を最小化するように更新される。
【0052】
図5は、本発明の実施形態による、共有バックボーン180及びタスク固有ヘッドモジュール140を含む、例示的なGradSplitフレームワーク160を示すブロック/フロー図である。
【0053】
本発明の例示的な実施形態は、与えられたRGB画像における人の様々な属性を認識するタスクである視覚的な人分析を目的としている。人の姿勢推定は人分析の一例である。人の姿勢推定システムは、画像を入力として受け取り、頭、肩等の主要な身体関節の位置として表される、画像内の人物の姿勢を予測する。多様な人分析により、この例は人の姿勢推定を超えた様々なタスク(身元、性別、年齢認識等)に拡張される。人分析システムを訓練するには、システムが解明するタスク毎に十分な量の訓練データが必要である。
【0054】
深層ニューラルネットワークは、各層が前の層の出力特徴量マップを入力として取得し、特徴量マップを出力する複数の順序層を含むシステムである。各層の出力または特徴量マップは、各位置の周囲に存在する特定の特性を表すいくつかの行列を含む3次元テンソルである。例えば、姿勢推定システムの最初の層は、RGB画像を入力として受け取り、エッジ、色、テクスチャ等の抽象的なレベルの低い視覚情報をエンコードする特徴量マップを出力する。より深い層は、各位置における身体部分の存在等、より抽象的なレベルの情報をエンコードする特徴量マップを出力する。各層には複数のフィルタが含まれており、1つのフィルタは前の層から特徴量マップを入力として取得し、2次元行列を出力する。その層における全てのフィルタからのこれらの行列は、出力特徴量マップに連結される。
【0055】
1つの画像のいくつかの人関連のタスクを同時に実行するため、従来のシステムは、タスクの数に比例して増加した計算コスト及びメモリを必要とする。例えば、システムが人の識別とその姿勢の認識を同時に行う必要がある場合、従来の方法では、人を識別するシステムと姿勢を予測するシステムの2つのシステムが使用されていた。このアプローチでは、必要な計算とメモリのコストが増加するだけでなく、他のタスクから得られる有用な情報を活用できない。
【0056】
それに対して、例示的な方法は、共有バックボーン180及びタスク固有ヘッドモジュール140を含む、
図5のネットワークを導入する。勾配のコンフリクト問題を軽減するため、GradSplitは勾配を処理し、各タスクの損失がフィルタの1つのグループのみを更新し、タスク固有のフィルタ170を生成するようにする。順方向のフローは同じままであるのに対し、逆方向のフローのみが変更されることに注意されたい。入力162からの勾配は、対応するフィルタのみを更新するために使用される。このようにして、他のタスクの損失はコンフリクトな勾配を導入しない。
【0057】
したがって、
図5の例示的なアプローチは、計算コストと性能との間のトレードオフを軽減する。例示的なアプローチは、同等またはより優れた性能を達成しながら、単一のタスクシステム毎に同様の計算コストでRGB画像が与えられた人の多様な情報を予測できる。例示的なアプローチは、共通の特徴量抽出器を共有することで、タスク全体で有用な情報をさらに活用する。
【0058】
一例として、自動チェックインのために人々を識別できる空港監視システムを考えてみる。感染症の拡大を予防するため、マスクを着用しているか否かをチェックする新しい機能をシステムに追加したい場合がある。さらに、乗客の性別及び年齢の分布を理解することで、サービスを最適化したい場合がある。上記のシナリオと同様に、タスク毎に1つずつ、複数のシステムを採用する必要がある。
図5の例示的なアプローチは、複数のタスクを同時に効果的にかつ効率的に実行できる統合システムを用いることを可能にする。
【0059】
図6は、本発明の実施形態による、GradSplitの2タスク訓練で使用される例示的な勾配テンソル200を示すブロック/フロー図である。
【0060】
GradSplitの確率的勾配降下のための2タスク訓練で使用される勾配テンソル200の視覚的な例が示されている。畳み込みには、入力チャネルc
iと出力チャネルc
o、例えば
【数15】
が含まれる。GradSplitでは、タスクの損失L
tを用いて、対応するフィルタのみの勾配テンソルを計算する。GradSplitは、右側(例えば、タスクB)220から左側(例えば、タスクA)210を分離する分離線または分割線215を含む。
【0061】
図7は、本発明の実施形態による、GradSplitが重みを均一に分割し、各タスクの損失が1つの特定のフィルタグループのみに影響を与える方法を示すブロック/フロー図である。
【0062】
誤差逆伝播プロセス中、ベースラインモデル300では、各タスクの損失を用いて全ての重みを更新する。その結果、タスクAとタスクBとがコンフリクトを有し、重みの共有に混乱が生じる可能性がある。
【0063】
誤差逆伝播中、GradSplitモデル310において、例示的な方法は、重みをN=2のグループに一様に分割する。したがって、各タスクの損失は、1つの特定のフィルタグループにのみ影響する。第1のフィルタグループG1には、最下位の重みまたは最下位のグループのみ(指定G1と水平に並べられた)が含まれる。第2のフィルタグループG2には、最上位のグループのみ(指定G2と水平に並べられた)の最上位の重みが含まれる。
【0064】
結論として、本発明の例示的な実施形態は、慎重に設計された最適化法によりコンフリクトの問題を緩和する。例示的な実施形態は、エンコーダ及びデコーダを含むモデルを想定している。エンコーダは、全てのタスクにわたってその出力を共有する特徴量抽出器125である。デコーダは、特徴量抽出器125の出力を入力として受け取り、タスク固有の結果を予測するタスク固有ヘッド140を含む。
【0065】
第1に、例示的な方法は、特徴量抽出器125の畳み込み層の最後の層または最も深い層のフィルタをN個のグループに分割し、各グループに1つのタスクを割り当てる。ここで、Nはタスクの数である。
【0066】
第2に、例示的な方法は、割り当てられたタスクのみの損失を最小化するために各グループ内のパラメータ(150、
図4)を更新しながら、N個のタスクの全体的な損失を最小化するためにパラメータ全体を更新することでネットワークを訓練する。
【0067】
訓練手順をよりよく理解するために、タスクがA及びBである場合、特徴量抽出器の最後の層または最も深い層に10個のフィルタを有するシステムを考える。従来の訓練アルゴリズムでは、10個のフィルタを更新して、タスクAとBの損失の合計を最小化する。しかしながら、例示的な方法は、タスクAの損失を最小化するために最初の5つのフィルタを更新し、タスクBの損失を最小化するために残りの5つのフィルタを更新する。これにより、タスクAで特に必要な特徴量を予測するための最初の5つのフィルタが作成される。これらのフィルタは、入力として、前の層からタスクAとBの両方の特徴量を取得することに注意されたい。この訓練アルゴリズムは、割り当てられたタスクに固有の特徴量を学習するように各フィルタを明確に誘導することで、タスク間の潜在的なコンフリクトを回避する。同時に、システムがタスク全体で有用な特徴量を活用できるようにする。提案するシステムに必要な計算コスト及びメモリは、従来のマルチヘッドネットワークと同じであり、複数の単一タスクモデルを含むシステムよりもN分の1である。
【0068】
したがって、例示的な実施形態は、人の再識別化、姿勢推定及び属性予測等の複数の人関連のタスクを同時にまたは並行して解明する統合深層ネットワークを訓練するアプローチを提示する。このようなフレームワークは、タスク全体の情報が制限された計算リソースで活用される可能性があるため、望ましいものである。但し、コンフリクトなタスクからの勾配の更新は互いにコンフリクトになる可能性があり、共有パラメータの最適化が困難になり、性能が最適化されない。例示的な実施形態は、そのような問題を効果的に軽減するGradSplitと呼ばれる訓練方式を導入する。各畳み込みモジュールにおいて、GradSplitは特徴量をN個のタスクのN個のグループに分離または分割し、対応するタスクのみからの勾配更新を用いて各グループを訓練する。訓練中、例示的な方法は、GradSplitを一連の畳み込みに適用する。その結果、各モジュールまたはコンポーネントは、前のモジュールと共有する特徴量を用いてタスク固有の特徴量のセットを生成するように訓練される。これにより、ネットワークは勾配のコンフリクトを回避しながら、タスク全体で補完的な情報を活用できる。
【0069】
図8は、本発明の実施形態による、多様な人分析のための勾配分割を介したマルチタスク学習の実際のアプリケーションを示すブロック/フロー図である。
【0070】
1つの実際の例において、カメラ802は、異なる性別で異なる姿勢のオブジェクトまたは人804、806を検出できる。例示的な方法は、特徴量抽出器125及びタスク固有ヘッド140を用いる勾配分割160によるマルチタスク学習を使用する。結果810(例えば、姿勢)は、ユーザ814により扱われるユーザインタフェース812に提供または表示できる。
【0071】
図9は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な処理システムを示す図である。
【0072】
処理システムは、システムバス902を介して他のコンポーネントと動作可能に接続された少なくとも1つのプロセッサ(CPU)904を含む。システムバス1002には、GPU905、キャッシュ906、読み取り専用メモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ9400及び/またはディスプレイアダプタ960が動作可能に接続されている。さらに、Gradient Split160によるマルチタスク学習は、特徴量抽出器125及びタスク固有ヘッド140を用いることで採用できる。
【0073】
記憶装置922は、I/Oアダプタ920によってシステムバス902と動作可能に接続されている。記憶装置922は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置等のいずれであってもよい。
【0074】
トランシーバ932は、ネットワークアダプタ930によってシステムバス902に動作可能に接続されている。
【0075】
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902に動作可能に接続されている。ユーザ入力装置942は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置942は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置942は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
【0076】
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902に動作可能に接続されている。
【0077】
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
【0078】
図10は、本発明の実施形態による、多様な人分析のための勾配分割によるマルチタスク学習のための例示的な方法を示すブロック/フロー図である。
【0079】
ブロック1001において、複数のデータセットを有する訓練データから画像を抽出する。各データセットはそれぞれ1つのタスクに関連付けられている。
【0080】
ブロック1003において、訓練データを、特徴量抽出器及びタスク固有ヘッドを含むニューラルネットワークモデルに入力する。特徴量抽出器は、特徴量抽出器共有コンポーネント及び特徴量抽出器タスク固有コンポーネントを有する。
【0081】
ブロック1005において、特徴量抽出器の畳み込み層のより深い層のフィルタをN個のグループに分割する。Nはタスクの数である。
【0082】
ブロック1007において、N個のグループの各グループにそれぞれ1つのタスクを割り当てる。
【0083】
ブロック1009において、各タスクの損失がフィルタのサブセットを1つだけ更新するように勾配を処理する。
【0084】
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
【0085】
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
【0086】
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
【0087】
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
【0088】
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
【0089】
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
【0090】
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
【0091】
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。
【0092】
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
【0093】
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
【0094】
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
【0095】
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図する。
【0096】
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴量の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。