(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-20
(54)【発明の名称】クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
(51)【国際特許分類】
G06N 20/20 20190101AFI20220113BHJP
G06T 7/00 20170101ALI20220113BHJP
G06N 3/08 20060101ALI20220113BHJP
A63F 13/60 20140101ALI20220113BHJP
【FI】
G06N20/20
G06T7/00 350C
G06T7/00 P
G06N3/08
A63F13/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021548504
(86)(22)【出願日】2019-07-12
(85)【翻訳文提出日】2021-06-15
(86)【国際出願番号】 US2019041658
(87)【国際公開番号】W WO2020091856
(87)【国際公開日】2020-05-07
(32)【優先日】2018-10-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】チェン、ルーシン
(72)【発明者】
【氏名】チェン、ミン-ハン
(72)【発明者】
【氏名】ユー、ジェクウォン
(72)【発明者】
【氏名】リュー、シャオユー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096CA02
5L096DA02
5L096EA11
5L096EA39
5L096FA32
5L096FA33
5L096HA09
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【解決手段】ドメイン適応モジュール(1800)は、ドメインのそれぞれの並列の隠れ層からのそれぞれの出力を使用して、第2のドメイン(1802)から得られた第1のドメイン(1804)を最適化するために使用される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、前記少なくとも1つのプロセッサにより、
第1のデータタイプに関連付けられた第1のニューラルネットワークにアクセスすることと、
前記第1のデータタイプとは異なる第2のデータタイプに関連付けられた第2のニューラルネットワークにアクセスすることと、
入力として、第1の訓練データを前記第1のニューラルネットワークに提供することと、
入力として、第2の訓練データを前記第2のニューラルネットワークに提供することとであって、前記第1の訓練データが前記第2の訓練データとは異なる、前記提供することと、
前記第1のニューラルネットワークの中間層からの第1の出力を識別することであって、前記第1の出力が前記第1の訓練データに基づいている、前記識別することと、
前記第2のニューラルネットワークの中間層からの第2の出力を識別することであって、前記第2の出力が前記第2の訓練データに基づき、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのそれぞれの前記中間層が並列層である、前記識別することと、
前記第1の出力及び前記第2の出力を正規化するための比率を識別することと、
前記第2のニューラルネットワークの前記中間層の1つ以上の重みを変更するために前記比率を算定する式を適用することと、
を行うように実行可能である命令を含む、前記1つのコンピュータ記憶装置と、
を含む、装置。
【請求項2】
前記比率が平均値に関係する、請求項1に記載の装置。
【請求項3】
前記式を適用するために、前記第1の出力と前記第2の出力との間の平均と分散とが両方とも分析される、請求項1に記載の装置。
【請求項4】
前記比率が識別され、クロスドメインバッチ正規化(CDBN)を使用して前記式が適用される、請求項1に記載の装置。
【請求項5】
前記第2のニューラルネットワークが、前記第2の訓練データが前記第2のニューラルネットワークに提供される前に、前記第1のニューラルネットワークのコピーによって確立される、請求項1に記載の装置。
【請求項6】
前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの前記中間層が出力層以外の層である、請求項1に記載の装置。
【請求項7】
前記第1の訓練データが前記第2の訓練データに関連し、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークがアクション認識に関係し、前記第1の訓練データが、前記第1の訓練データと前記第2の訓練データとが両方とも同じアクションに関係するという点で前記第2の訓練データに関連する、請求項1に記載の装置。
【請求項8】
前記第1の訓練データが前記第2の訓練データに関連し、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークがオブジェクト認識に関係し、前記第1の訓練データが、前記第1の訓練データと前記第2の訓練データとが両方とも同じオブジェクトに関係するという点で前記第2の訓練データに関連する、請求項1に記載の装置。
【請求項9】
第1のデータタイプに関連付けられた第1のニューラルネットワークにアクセスすることと、
前記第1のデータタイプとは異なる第2のデータタイプに関連付けられた第2のニューラルネットワークにアクセスすることと、
入力として、第1の訓練データを前記第1のニューラルネットワークに提供することと、
入力として、第2の訓練データを前記第2のニューラルネットワークに提供することであって、前記第1の訓練データが前記第2の訓練データとは異なる、前記提供することと、
前記第1のニューラルネットワークの隠れ層からの第1の出力を識別することであって、前記第1の出力が前記第1の訓練データに基づいている、前記識別することと、
前記第2のニューラルネットワークの隠れ層からの第2の出力を識別することであって、前記第2の出力が前記第2の訓練データに基づき、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのそれぞれの前記隠れ層が並列層である、前記識別することと、
前記第1の出力及び前記第2の出力を正規化するための比率を識別することと、
前記第2のニューラルネットワークの前記隠れ層からの前記出力を正規化するために前記第2のニューラルネットワークの前記隠れ層からの前記出力に前記比率を適用することと、
を含む、方法。
【請求項10】
前記比率が平均値に関係する、請求項9に記載の方法。
【請求項11】
前記識別することのステップ及び前記適用することのステップが、クロスドメインバッチ正規化(CDBN)モジュールを使用して実行される、請求項9に記載の方法。
【請求項12】
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
訓練データの第1のドメインであって、第1のドメインジャンルに関連付けられた前記第1のドメインにアクセスすることと、
訓練データの第2のドメインであって、前記第1のドメインジャンルとは異なる第2のドメインジャンルに関連付けられた前記第2のドメインにアクセスすることと、
前記第1のドメイン及び前記第2のドメインからの前記訓練データを使用して、ターゲットデータセットを分類することと、
前記ターゲットデータセットの分類を出力することであって、前記ターゲットデータセットが、ドメイン統計を適応的に選択して入力を正規化するためにクロスドメインバッチ正規化(CDBN)モジュールを含むドメイン適応モジュールによって分類される、前記出力することと、
を行うように実行可能な命令を含む、前記少なくとも1つのコンピュータ記憶装置を含む、装置。
【請求項13】
前記第1のドメインが実世界のビデオを含み、前記第2のドメインがコンピュータゲームのビデオを含む、請求項12に記載の装置。
【請求項14】
前記第1のドメインが、第1の音声から得られた情報を含み、前記第2のドメインが、第2の音声から得られた情報を含む、請求項12に記載の装置。
【請求項15】
前記第1のドメインが標準フォントテキストを含み、前記第2のドメインが筆記体スクリプトを含む、請求項12に記載の装置。
【請求項16】
前記少なくとも1つのプロセッサを含む、請求項12に記載の装置。
【請求項17】
前記CDBNモジュールが、空間モデル内で全結合層の後に動作可能に配置される、請求項12に記載の装置。
【請求項18】
前記命令が、ソースデータとターゲットデータとの両方を正規化するための比率を学習する訓練動作を実行することを行うように実行可能である、請求項12に記載の装置。
【請求項19】
前記命令が、前記比率及び前記ターゲットに関連する統計を使用して前記ソースと前記ターゲットとの両方に関する統計を正規化するテスト動作を実行することを行うように実行可能である、請求項18に記載の装置。
【請求項20】
前記命令が、エントロピー損失を使用してラベルなしのターゲットデータを分離することを行うように実行可能である、請求項18に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、一般に、コンピュータ技術に必然的に根ざしており、具体的な技術的改善をもたらす、技術的に創意工夫された非定型的な解決策に関する。
【背景技術】
【0002】
機械学習は、時としてディープラーニングと称され、画像分類、光学式文字認識(OCR)、オブジェクト認識、アクション認識、スピーチ認識及び感情認識を含む、データの理解、検出及び/または分類に関する多岐にわたる有用な用途に使用することができる。しかしながら、本明細書で理解されるように、機械学習システムは、例えば、コンピュータゲームなどのあるドメインにおけるアクションを、例えば、動画ビデオといった別のドメインからのデータの訓練セットを使用して認識するには不十分である可能性がある。
【0003】
例えば、コンピュータゲーム業界では、ビデオとオーディオとは、2つの別個のプロセスである。ゲームは、オーディオなしで最初に設計及び制作され、次いで、オーディオグループがゲームビデオ全体を調査し、対応するサウンドエフェクト(SFX)をSFXデータベースから挿入するが、これには時間がかかる。本明細書で理解されるように、プロセスを促進するために機械学習が使用され得るが、現在のアクション認識モデルは、実世界のビデオデータセット上で訓練されるため、ゲームビデオ上で使用されるとデータセットシフトまたはデータセットバイアスの影響を受ける場合がある。
【発明の概要】
【0004】
上記で言及されたドメインの不一致の問題を克服するために、訓練データの少なくとも2つの汎用ドメイン(画像もしくはビデオまたはオーディオ)を使用してターゲットデータセットを分類する。訓練データドメインのペアは、例えば、実世界のビデオとコンピュータゲームのビデオ、第1の話者の音声と第2の話者の音声(音声認識用)、標準フォントテキストと筆記体スクリプト(手書き認識用)などによって確立され得る。
【0005】
したがって、損失関数及び/または実際のニューラルネットワークによって確立された汎用ドメイン適応モジュールは、深層学習の2つの訓練ドメインから複数の出力ポイントからの入力を受け取り、ニューラルネットワークの2つのトラックの一方及び場合によっては両方に対して最適化を行うことができるように出力測定値を提供する。汎用クロスドメイン特徴正規化モジュールも使用され得、このモジュールは、ニューラルネットワークのいずれかの層に挿入される。
【0006】
したがって、一態様では、装置は、少なくとも1つのプロセッサと、一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサによって実行可能な命令を含む少なくとも1つのコンピュータ記憶装置とを含む。命令は、第1のデータタイプに関連付けられた第1のニューラルネットワークにアクセスすることと、第1のデータタイプとは異なる第2のデータタイプに関連付けられた第2のニューラルネットワークにアクセスすることと、入力として第1の訓練データを第1のニューラルネットワークに提供することと、入力として第2の訓練データを第2のニューラルネットワークに提供することとを行うように実行可能である。第1の訓練データは、第2の訓練データとは異なる。命令はまた、第1のニューラルネットワークの中間層からの第1の出力を識別することであって、第1の出力が第1の訓練データに基づいている、識別することと、第2のニューラルネットワークの中間層からの第2の出力を識別することであって、第2の出力が第2の訓練データに基づいている、識別することとを行うように実行可能である。第1及び第2のニューラルネットワークのそれぞれの中間層は並列層である。命令は、第1の出力及び第2の出力を正規化するための比率を識別することと、第2のニューラルネットワークの中間層の1つ以上の重みを変更するために比率を算定する式を適用することとを行うようにさらに実行可能である。
【0007】
いくつかの例では、比率は平均値に関係し得る。さらに、式を適用するために、第1の出力と第2の出力との間の平均と分散とが両方とも分析され得る。比率が識別され得、クロスドメインバッチ正規化(CDBN)を使用して式が適用され得る。
【0008】
いくつかの実施態様では、第2のニューラルネットワークは、第2の訓練データが第2のニューラルネットワークに提供される前に、第1のニューラルネットワークのコピーによって確立され得る。さらに、第1及び第2のニューラルネットワークの中間層は、出力層以外の層であり得る。
【0009】
また、いくつかの実施態様では、第1の訓練データは第2の訓練データに関連し得る。そのため、例えば、第1及び第2のニューラルネットワークがアクション認識に関係する場合、第1の訓練データは、第1の訓練データと第2の訓練データとが両方とも同じアクションに関係し得るという点で第2の訓練データに関連し得る。別の例として、第1及び第2のニューラルネットワークがオブジェクト認識に関係する場合、第1の訓練データは、第1の訓練データと第2の訓練データとが両方とも同じオブジェクトに関係し得るという点で第2の訓練データに関連し得る。
【0010】
別の態様では、方法は、第1のデータタイプに関連付けられた第1のニューラルネットワークにアクセスすることと、第1のデータタイプとは異なる第2のデータタイプに関連付けられた第2のニューラルネットワークにアクセスすることと、入力として第1の訓練データを第1のニューラルネットワークに提供することと、入力として第2の訓練データを第2のニューラルネットワークに提供することとを含む。第1の訓練データは、第2の訓練データとは異なる。方法はまた、第1のニューラルネットワークの隠れ層からの第1の出力を識別することであって、第1の出力が第1の訓練データに基づいている、識別することと、第2のニューラルネットワークの隠れ層からの第2の出力を識別することであって、第2の出力が第2の訓練データに基づいている、識別することとを含む。第1及び第2のニューラルネットワークのそれぞれの隠れ層は並列層である。方法は、次いで、第1の出力及び第2の出力を正規化するための比率を識別することと、第2のニューラルネットワークの隠れ層からの出力を正規化するために第2のニューラルネットワークの隠れ層からの出力に比率を適用することとを含む。
【0011】
さらに別の態様では、装置は、一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサによって実行可能な命令を含む少なくとも1つのコンピュータ記憶装置を含む。命令は、第1のドメインジャンルに関連付けられた訓練データの第1のドメインにアクセスすることと、第1のドメインジャンルとは異なる第2のドメインジャンルに関連付けられた訓練データの第2のドメインにアクセスすることと、第1及び第2のドメインからの訓練データを使用してターゲットデータセットを分類することとを行うように実行可能である。命令はまた、ターゲットデータセットの分類を出力することであって、ターゲットデータセットが、ドメイン統計を適応的に選択して入力を正規化するためにクロスドメインバッチ正規化(CDBN)モジュールを含むドメイン適応モジュールによって分類される、出力することを行うように実行可能である。
【0012】
本出願の詳細は、その構造と動作との両方について、同様の参照符号が同様の部分を指す添付図面を参照して最も良く理解することができる。
【図面の簡単な説明】
【0013】
【
図1】本原理と一致した例示的なシステムのブロック図である。
【
図2】本原理と一致する例示的な論理のフローチャートである。
【
図3】本原理と一致する例示的な論理のフローチャートである。
【
図4】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図5】本原理と一致する例示的な論理のフローチャートである。
【
図6】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図7】本原理と一致する例示的な論理のフローチャートである。
【
図8】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図9】本原理と一致する例示的な論理のフローチャートである。
【
図10】本原理と一致する例示的な論理のフローチャートである。
【
図11】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図13】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図14】本原理と一致する例示的な論理のフローチャートである。
【
図15】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【
図16】本原理と一致する例示的な論理のフローチャートである。
【
図18】本原理に従った各種のドメイン適応アーキテクチャの例を示す。
【発明を実施するための形態】
【0014】
本原理によれば、深層学習ベースのドメイン適応方法は、任意のソース及びターゲットドメインデータが与えられた場合の理解/検出/分類などの画像もしくはビデオまたはオーディオ関連タスクのドメイン不一致の問題を克服するために使用され得る。少なくとも3つの汎用タイプのデータが使用され得(画像もしくはビデオまたはオーディオ)、システムパフォーマンスを改善するために全てのタイプのニューラルネットワークモジュールが使用され得る。
【0015】
本明細書で説明されるように、深層学習処理フローの2つのトラックが、タスクを出力するための特定の入力のいずれかに使用され得る。一方のトラックは、一方のデータのドメインに使用され得、別のトラックは、別のデータのドメインに使用され得るため、2つのデータのドメインに少なくとも2つの深層学習のトラックが存在し得る。ドメインのペアは、例として、実世界のビデオ及びビデオゲーム世界のビデオなどの2つのタイプのビデオ、ある話者の音声と別の話者の音声、標準フォントテキストと筆記体スクリプト、スピーチ認識ドメイン、テキスト・トゥ・スピーチ、及びスピーチ・トゥ・テキストとすることができる。
【0016】
汎用ドメイン適応モジュールについて以下に説明するが、このモジュールは、時として損失関数を使用する。汎用ドメイン適応モジュールはまた、複数の出力ポイントからの入力を深層学習の2つのトラックから取り、ニューラルネットワークの2つのトラックに対して最適化を行うことができるように出力測定値を提供する実際のニューラルネットワーク接続を使用し得る。汎用ドメイン適応モジュールはまた、ニューラルネットワークのいずれかの層に挿入することができる汎用クロスドメイン特徴正規化モジュールを使用し得る。
【0017】
したがって、本明細書で説明される方法は、複数のオブジェクト及び複数のオブジェクトに関連付けられた複数のアクションに関係し得る。例えば、多くのテキストの画像テキストブロックは「オブジェクト」であり得、画像ブロックのタイプは「アクション」であり得る。
【0018】
この開示はまた、一般に、限定されることはないが、分散コンピュータゲームネットワーク、拡張現実(AR)ネットワーク、仮想現実(VR)ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなどの、家電(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。
【0019】
本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ARヘッドセット、VRヘッドセット、Sony PlayStation(登録商標)などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ(例えば、スマートTV、インターネット対応TV)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の例を含む他のモバイルデバイスを含む1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、多岐にわたる動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、例として、Orbis(登録商標)もしくはLinux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステムもしくはUnix(登録商標)オペレーティングシステム、またはApple,Inc.(登録商標)もしくはGoogle(登録商標)によって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、以下で議論されるインターネットサーバによってホスティングされたウェブサイトにアクセスすることができる、Microsoft(登録商標)もしくはGoogle(登録商標)もしくはMozilla(登録商標)によって作られたブラウザ、または他のブラウザプログラムなどの、1つ以上のプログラム/アプリケーションを実行するために使用され得る。また、本原理に従った動作環境は、本原理を担う1つ以上のコンピュータゲームプログラム/アプリケーション及び他のプログラム/アプリケーションを実行するために使用され得る。
【0020】
サーバ及び/またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する1つ以上のプロセッサを含み得る。追加的または代替的に、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、Sony PlayStation(登録商標)、パーソナルコンピュータなどの、ゲームコンソール及び/またはその1つ以上のマザーボードよってインスタンス化され得る。
【0021】
情報は、クライアントとサーバとの間でネットワークを通じて交換され得る。この目的のために、さらにはセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、一時的記憶装置、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。1つ以上のサーバは、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティを本原理に従ってクラウドソーシングによってコミュニケーションするためにネットワークユーザに提供する方法を実施する装置を形成し得る。
【0022】
本明細書で使用される場合、命令は、本システムにおいて情報を処理するためのコンピュータによって実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアにおいて実施することができ、システムのコンポーネントが担ういずれかのタイプのプログラムされたステップを含むことができる。
【0023】
プロセッサは、アドレスライン、データライン及び制御ラインなどの各種のライン、ならびにレジスタ及びシフトレジスタによって論理を実行することができる、いずれかの従来の汎用シングルチッププロセッサまたはマルチチッププロセッサであり得る。
【0024】
本明細書でフローチャート及びユーザインタフェースによって説明されるソフトウェアモジュールは、各種のサブルーチン、手順などを含むことができる。本開示を限定することなく、特定のモジュールによって実行されるように規定された論理は、他のソフトウェアモジュールに再分配することができ、及び/または共に組み合わせて単一のモジュールにすることができ、及び/または共有可能ライブラリにおいて利用可能にすることができる。
【0025】
上記で指示されたように、本明細書で説明される本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、例示的なコンポーネント、ブロック、モジュール、回路及びステップが、それらの機能性の観点から記載される。
【0026】
さらに、上記で示唆されたものについて、以下で説明される論理ブロック、モジュール及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、もしくは特定用途向け集積回路(ASIC)などの他のプログラマブルロジックデバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実装または実行することができる。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせによって実装することができる。
【0027】
以下で説明される機能及び方法は、ハードウェア回路またはソフトウェア回路で実装され得る。ソフトウェアで実装されるとき、機能及び方法は、限定されることはないが、Java(登録商標)、C#またはC++などの適切な言語で書き込むことができ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、コンパクトディスクリードオンリーメモリ(CD-ROM)もしくはデジタル多用途ディスク(DVD)などの他の光ディスク記憶装置、磁気ディスク記憶装置もしくは着脱可能なサムドライブを含む他の磁気記憶デバイスなどのコンピュータ可読記憶媒体上に記憶させることができるか、またはそのようなコンピュータ可読記憶媒体を通じて転送することができる。接続は、コンピュータ可読媒体を確立し得る。係る接続は、例として、光ファイバ及び同軸ワイヤ及びデジタル加入者回線(DSL)及びツイストペアワイヤを含む有線ケーブルを含むことができる。係る接続は、赤外線及び無線を含む無線通信接続を含み得る。
【0028】
一実施形態に含まれるコンポーネントは、他の実施形態では、いずれかの適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び/または図で示される各種のコンポーネントのいずれかが、組み合わされ得、交換され得、または他の実施形態から排除され得る。
【0029】
「A、B及びCのうちの少なくとも1つを有するシステム」(同様に「A、BまたはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、A単独、B単独、C単独、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、ならびに/またはA、B及びCを一緒に有するシステムなどを含む。
【0030】
ここで、具体的には
図1を参照すると、上記で言及され、本原理に従って以下でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示されている。システム10に含まれる例示的なデバイスのうちの最初のものは、限定されることはないが、テレビチューナ(同様に、テレビを制御するセットトップボックス)を備えたインターネット対応テレビなどのオーディオビデオデバイス(AVD)12などの家電(CE)デバイスである。しかしながら、AVD12は、代替的に、例えば、コンピュータ化されたインターネット対応冷蔵庫、洗濯機または乾燥機といった、電気器具または家庭用品であり得る。代替的に、AVD12はまた、コンピュータ化されたインターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、インターネット対応グラスまたは「スマート」グラス、コンピュータ化されたインターネット対応時計などの別のタイプのコンピュータ化されたウェアラブルデバイス、コンピュータ化されたインターネット対応ブレスレット、コンピュータ化されたインターネット対応ミュージックプレイヤー、コンピュータ化されたインターネット対応ヘッドフォン、埋め込み可能な皮膚用デバイスなどのコンピュータ化されたインターネット対応の埋め込み可能なデバイス、他のコンピュータ化されたインターネット対応デバイスなどであり得る。それにも関わらず、AVD12は、本原理を担う(例えば、本原理を担うように他の家電(CE)デバイスと通信し、本明細書で説明される論理を実行し、本明細書で説明されるいずれかの他の機能及び/または動作を実行する)ように構成されることが理解されよう。
【0031】
したがって、係る原理を担うために、AVD12は、
図1に示されるコンポーネントのいくつかまたは全てによって確立することができる。例えば、AVD12は、高解像度または超高解像度「4K」以上のフラットスクリーンによって実装され得、ディスプレイに対するタッチを介してユーザ入力信号を受信するためにタッチ対応であり得る1つ以上のディスプレイ14を含むことができる。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカ16、及び可聴コマンドをAVD12に入力してAVD12を制御するためのオーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12はまた、1つ以上のプロセッサの制御下で、インターネット、WAN、LANなどの、少なくとも1つのネットワーク22を経由して通信するための1つ以上のネットワークインタフェース20を含み得る。したがって、インタフェース20は、限定されることはないが、Wi-Fi送受信機であり得、このWi-Fi送受信機は、限定されることはないが、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの例である。さらに、ネットワークインタフェース20は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニー送受信機もしくは上記で言及されたようなWi-Fi送受信機などの他の適切なインタフェースであり得ることに留意されたい。
【0032】
1つ以上のプロセッサは、ディスプレイ14を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明されるAVD12の他の要素を含む、本原理を担うようにAVD12を制御することが理解されよう。1つ以上のプロセッサは、中央処理装置(CPU)24、及びグラフィックスカード25A上のグラフィックス処理装置(GPU)25を含み得る。
【0033】
上記に加えて、AVD12はまた、例えば、別の家電(CE)デバイスに(例えば、有線接続を使用して)物理的に接続するための高解像度マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通じてAVD12からユーザにオーディオを提供するためにAVD12にヘッドフォンを接続するためのヘッドフォンポートなどの、1つ以上の入力ポート26を含み得る。例えば、入力ポート26は、ケーブルまたはオーディオビデオコンテンツのサテライトソース26aに有線または無線を介して接続され得る。したがって、ソース26aは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース26aは、チャネル割り当て目的でユーザによって好みとみなされ得るコンテンツを含むゲームコンソールまたはディスクプレイヤーであり得る。ソース26aは、ゲームコンソールとして実装されるとき、CEデバイス44に関連して以下で説明されるコンポーネントのいくつかまたは全てを含み得、本明細書で説明される論理のいくつかまたは全てを実装し得る。
【0034】
AVD12はさらに、いくつかの場合には、スタンドアロンデバイスとして、もしくはパーソナルビデオレコーディングデバイス(PVR)としてAVDのシャーシ内で具現化され、またはAVプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでビデオディスクプレイヤーとして具現化され、または着脱可能なメモリ媒体として具現化された、一時的信号ではないディスクベースの記憶装置またはソリッドステート記憶装置などの1つ以上のコンピュータメモリ28を含み得る。また、いくつかの実施形態では、AVD12は、限定されることはないが、例えば、少なくとも1つのサテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはAVD12がプロセッサ24と共に配置される高度を判定するように構成された、携帯電話受信機、GPS受信機及び/または高度計30などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての3つの次元において、AVD12の場所を判定するために、携帯電話受信機、GPS受信機及び/または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。
【0035】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、赤外線(IR)カメラ、ならびに/またはAVD12に統合され、本原理に従って写真/画像及び/もしくはビデオを生成するようにプロセッサ24によって制御可能であるカメラであり得る。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術をそれぞれ使用して他のデバイスと通信するためのBluetooth(登録商標)送受信機34及び他のNFC要素36であり得る。例示的なNFC要素は、無線周波数識別(RFID)要素とすることができる。
【0036】
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、(例えば、ジェスチャコマンドを検出するための)ジェスチャセンサなど)を含み得る。AVD12は、プロセッサ24に入力を提供する無線経由TV放送を受信するためのOTAテレビ放送ポート38を含み得る。上記に加えて、AVD12はまた、赤外線データアソシエーション(IRDA)デバイスなどの赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。AVD12に給電するためにバッテリ(図示せず)が提供され得る。
【0037】
さらに
図1を参照すると、AVD12に加えて、システム10は、1つ以上の他の家電(CE)デバイスタイプを含み得る。一例では、第1のCEデバイス44は、AVD12に直接送られるコマンドを介して、及び/または以下で説明されるサーバを通じてコンピュータゲームのオーディオ及びビデオをAVD12に送るために使用され得る一方、第2のCEデバイス46は、第1のCEデバイス44と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス46は、示されるようにユーザ47によって装着されたARまたはVRヘッドセットとして構成され得る。示される例では、2つのCEデバイス44、46のみが示されているが、より少ない、またはより多いデバイスも本原理に従って使用され得ることを理解されたい。
【0038】
示される例では、3つのデバイス12、44、46は全て、安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくは例えば家庭内のWi-Fiなどのネットワークのメンバであるか、または、少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに、及びサーバと通信可能であると仮定される。しかしながら、本原理は、他に明確に主張されない限り、特定の場所またはネットワークに限定されない。
【0039】
例示的な限定されない第1のCEデバイス44は、上記で言及されたデバイス、例えば、スマートフォン、デジタルアシスタンス、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータまたはゲームコントローラ(「コンソール」とも称される)のうちのいずれか1つによって確立され得、したがって、以下で説明されるコンポーネントのうちの1つ以上を有し得る。限定されない第2のCEデバイス46は、ARヘッドセット、VRヘッドセット、「スマート」インターネット対応グラス、またはさらにはBlu-ray(登録商標)プレイヤー、ゲームコンソールなどのビデオディスクプレイヤーなどによって確立され得る。またさらに、いくつかの実施形態では、第1のCEデバイス44は、例えば、AVD12にAV再生及び一時停止コマンドを発行するためのリモート制御(RC)であり得、または、この第1のCEデバイスは、有線もしくは無線リンクを介して
図1に示されたデバイスのうちの別の1つによって実装されたゲームコンソールと通信し、AVD12、パーソナルコンピュータ、無線電話などに対するビデオゲームの提示を制御するタブレットコンピュータ、ゲームコントローラなどの、より洗練されたデバイスであり得る。
【0040】
したがって、第1のCEデバイス44は、1つ以上のディスプレイ50を含み得、このディスプレイは、ディスプレイ50に対するタッチを介してユーザ入力信号を受信するためのタッチ対応であり得る。追加的または代替的に、ディスプレイ50(複数可)は、ARヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにVRヘッドセットディスプレイ、またはAR及び/もしくはVR画像を提示するように構成された他のディスプレイなどの、少なくとも部分的に透明なディスプレイであり得る。
【0041】
第1のCEデバイス44は、本原理に従ってオーディオを出力するための1つ以上のスピーカ52、及びデバイス44を制御するために可聴コマンドを第1のCEデバイス44に入力するための、例えば、オーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス54を含み得る。例示的な第1のCEデバイス44はさらに、1つ以上のCEデバイスプロセッサ58の制御下で、ネットワーク22を経由して通信するための1つ以上のネットワークインタフェース56を含み得る。したがって、インタフェース56は、限定されることはないが、Wi-Fi送受信機であり得る。このWi-Fi送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ58は、例えば、ディスプレイ50を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明される第1のCEデバイス44の他の要素を含む、本原理を担うように第1のCEデバイス44を制御することが理解されよう。さらに、ネットワークインタフェース56は、例えば、有線もしくは無線のモデムもしくはルータ、または無線テレフォニー送受信機もしくは上記で言及されたようなWi-Fi送受信機などの他の適切なインタフェースなどであり得ることに留意されたい。
【0042】
またさらに、プロセッサ(複数可)58に加えて、第1のCEデバイス44はまた、グラフィックスカード55A上にグラフィックス処理ユニット(GPU)55を含み得ることに留意されたい。グラフィックス処理ユニット55は、とりわけ、ディスプレイ50上にAR及び/またはVR画像を提示するように構成され得る。
【0043】
上記に加えて、第1のCEデバイス44はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続するためのHDMI(登録商標)ポートもしくはUSBポート、及び/またはヘッドフォンを通じて第1のCEデバイス44からユーザにオーディオを提示するために第1のCEデバイス44にヘッドフォンを接続するためのヘッドフォンポートなどの、1つ以上の入力ポート60を含み得る。第1のCEデバイス44はさらに、ディスクベースの記憶装置またはソリッドステート記憶装置などの、1つ以上の有形コンピュータ可読記憶媒体62を含み得る。また、いくつかの実施形態では、第1のCEデバイス44は、限定されることはないが、例えば、三角測量を使用して、少なくとも1つのサテライト基地局及び/または携帯電話基地局から地理的位置情報を受信し、CEデバイスプロセッサ58に情報を提供し、及び/または第1のCEデバイス44がCEデバイスプロセッサ58と共に配置される高度を判定するように構成された携帯電話及び/またはGPS受信機及び/または高度計64などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての3つの次元において第1のCEデバイス44の場所を判定するために、携帯電話及び/またはGPS受信機及び/または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。
【0044】
第1のCEデバイス44の説明を続けると、いくつかの実施形態では、第1のCEデバイス44は、1つ以上のカメラ66を含み得る。このカメラは、例えば、サーマルイメージングカメラ、IRカメラ、ウェブカメラなどのデジタルカメラ、ならびに/または第1のCEデバイス44に統合され、本原理に従って写真/画像及び/もしくはビデオを生成するようCEデバイスプロセッサ58によって制御可能である別のタイプのカメラであり得る。また、第1のCEデバイス44に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術をそれぞれ使用して他のデバイスと通信するためのBluetooth(登録商標)送受信機68及び他のNFC要素70であり得る。例示的なNFC要素は、無線周波数識別(RFID)要素とすることができる。
【0045】
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つ以上の補助センサ72(例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、(例えば、ジェスチャコマンドを検知するための)ジェスチャセンサなど)を含み得る。第1のCEデバイス44は、例えば、CEデバイスプロセッサ58に入力を提供する1つ以上の気候センサ74(例えば、気圧計、湿度センサ、風力センサ、光センサ、温度センサなど)及び/または1つ以上の生体センサ76などの、さらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第1のCEデバイス44はまた、赤外線(IR)データアソシエーション(IRDA)デバイスなどのIR送信機及び/またはIR受信機及び/またはIR送受信機78を含み得ることに留意されたい。第1のCEデバイス44に給電するためにバッテリ(図示せず)が提供され得る。CEデバイス44は、上記で説明された通信モード及び関連コンポーネントのいずれかを通じてAVD12と通信し得る。
【0046】
第2のCEデバイス46は、CEデバイス44に関して示されたコンポーネントのいくつかまたは全てを含み得る。いずれか1つまたは両方のCEデバイスは、1つ以上のバッテリによって給電され得る。
【0047】
ここで、先に言及された少なくとも1つのサーバ80を参照すると、このサーバは、少なくとも1つのサーバプロセッサ82、ディスクベースの記憶装置またはソリッドステート記憶装置などの、少なくとも1つの有形コンピュータ可読記憶媒体84を含む。実施態様では、媒体84は、1つ以上のソリッドステート記憶ドライブ(SSD)を含む。サーバはまた、ネットワーク22を経由した
図1の他のデバイスとの通信を可能にし、実際には、本原理に従ってサーバとクライアントデバイスとの間の通信を容易化し得る少なくとも1つのネットワークインタフェース86を含む。ネットワークインタフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi送受信機、または無線テレフォニー送受信機などの他の適切なインタフェースであり得ることに留意されたい。ネットワークインタフェース86は、サーバプロセッサ82を通過することなく、いわゆる「ファブリック」などのネットワークに媒体84を直接接続するリモートダイレクトメモリアクセス(RDMA)インタフェースであり得る。ネットワークは、イーサネット(登録商標)ネットワーク及び/またはファイバチャネルネットワーク及び/またはインフィニバンドネットワークを含み得る。典型的には、サーバ80は、物理サーバ「スタック」に配列され得る「ブレード」と称される複数のコンピュータにおいて複数のプロセッサを含む。
【0048】
したがって、いくつかの実施形態では、サーバ80は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を実行し得、それにより、システム10のデバイスは、例えば、本明細書に開示されるようなドメイン適応のための例示的な実施形態ではサーバ80を介して「クラウド」環境にアクセスし得る。追加的または代替的に、サーバ80は、1つ以上のゲームコンソール、または
図1に示された他のデバイスと同じ部屋もしくはその近くにある他のコンピュータによって実装され得る。
【0049】
追加の図を説明する前に、本原理に従って、人工知能システムを最適化するために、十分に訓練されたデータの最適化されたソースドメイン/モデルをコピーすることにより、異なるタイプのデータのためにソースドメインよりもさらに改良されるターゲットドメイン/モデルが確立され得ることが理解されよう。例えば、ソースドメインは、実世界のビデオにおけるアクション認識のためのものであり得るのに対し、ターゲットドメインは、ビデオゲームのビデオにおけるアクション認識のためのものであり得る。ビデオタイプ及びビジュアルが異なるため、ソースドメインは、ビデオゲームデータを使用してアクション認識を実行するには不十分であり得るが、ビデオゲームデータからのアクション認識に対して適切なターゲットドメインを適合させるための良好な開始点を依然として提供し得る。
【0050】
したがって、本原理は、ドメインの適応及び最適化を実行するためのシステム及び方法について説明する。本開示によれば、これは、人間の監督者またはシステム管理者によってエラーが一旦識別されてからニューラルネットワークの出力/活性化層から逆伝播することによってのみならず、異なるが関連する訓練データをターゲットドメインとソースドメインとの両方を通じて実行し、出力が類似しているか、またはさらには同一であるかを判定するために互いに並列である各ドメインについていずれかの所与の隠れ層または中間層を選択することによって実行され得る。出力が統計的に類似していない場合、監督者または管理によって定義され得るように、中間ターゲット層についての特定の重み調整を本明細書で説明されるように実行して、(例えば、並列層についての抽象化が類似している/同一であることを保証するために)並列層からの出力の差を最小限に抑え、それによって異なるタイプのデータについてターゲットドメインをさらに最適化することができる。次いで、訓練後、最適化が許容可能な程度に実行されたことを保証するためにテストも行われ得る。
【0051】
異なるが関連する訓練データに関する限り、データは、所与のドメインに適したデータであるという点で異なり得るが、ドメインのそれぞれについての訓練データが類似の概念またはメタファに関係し得るという点で関連し得る。例えば、ソースドメインに供給された訓練データは、パンチを実行する人間の実世界のビデオであり得、一方、ターゲットドメインに供給された訓練データは、パンチを実行するゲームキャラクタのビデオゲームのビデオであり得る。別の例として、今回はオブジェクト認識に関連して、ソースドメインに供給された訓練データは、リンゴの実世界の写真であり得、一方、ターゲットドメインに供給された訓練データは、デジタルのリンゴのビデオゲームのビデオであり得る。
【0052】
加えて、上記で参照して使用されたような並列のソース及びターゲットの中間/隠れ層は、それらの層が同じタスク(複数可)を実行し、及び/または同じ目的を有する状態で、最初にターゲットドメインを確立するためにソースドメインがコピーされるため、同じことを開始するそれぞれのソース及びターゲット中間層を指す。したがって、中間ソース層番号500は、例えば、中間ターゲット層番号500と並列であり得る。ここで、ターゲットドメインはソースドメインからコピーされ、2つのドメインは同じ数の中間層を有し、ターゲット層番号500は最初にソース層番号500によって確立された。
【0053】
上記を念頭に置き、以下、本原理についてより詳細に説明する。ビデオ分類のためのニューラルネットワーク(NN)の汎用トラックの修正の例としてフローチャート形式で示されたような
図2の論理を参照して開始すると、ビデオ分類のためのベースラインアーキテクチャは次のように修正され得る。ブロック200で開始すると、共通畳み込みニューラルネットワーク(CNN)の空間領域抽出ネットワーク(SREN)への修正が実行され得る。その結果、ビデオのシーン全体及び重要な空間領域(例えば、オブジェクト、身体部分など)の特徴ベクトルを抽出することができる。
図2の論理は、次いで、ブロック202に進み得る。ここで、2つのタイプの出力である領域の特徴及びシーンの特徴が、フレームレベルの特徴ベクトルに連結され得、次いで、ブロック204で、それらがビデオモデルに入力され得る。
【0054】
図2の論理は、次いで、ブロック206に進み得る。このブロックで、フレームレベルの特徴ベクトルは、時間的動的情報をモデル化するために長短期記憶(LSTM)ユニットを含むリカレントニューラルネットワーク(RNN)に入力され得る。論理は、次いで、ブロック208に進み得る。このブロックで、(A)シーン全体と(B)ビデオ(複数可)内の全ての重要な領域との両方を分類するように最終分類器が修正され得る。
【0055】
図2の論理は、次いで、ブロック210に進み得る。このブロックで、ブロック200~208が、異なるビデオタイプ/ジャンルからのデータを用いてアーキテクチャ全体を利用及び最適化するために第2のドメインジャンルに対して繰り返され得る。次いで、ブロック212で、フレームレベルの特徴ベクトル、RNN後の特徴、及び分類器の出力が、入力としてドメイン適応モジュールに入力され得る。ドメイン適応モジュールは、以下の3つの方法のうちの1つ以上を使用し得る。これらのそれぞれは、
図3、5及び7の異なるフローチャートにおいてそれぞれ示されており、ビデオデータを参照して説明される:不一致関数方法(
図3)、ドメイン分類方法(
図5)及びクロスドメインバッチ正規化方法(
図7)。
【0056】
図3を参照して不一致関数方法で開始すると、不一致関数は、ソースデータとターゲットデータとの間の全体的なデータ分布の距離を算出するために使用され得ることが理解されよう。不一致損失は、(以下参照してさらに説明されるような)モデルの複数の層から抽出されたソースデータとターゲットデータとの間の確率ベースの距離などの、ソース/ターゲットモデルの層のいずれかのサブセットからの異なるメトリックにより、または(以下でもさらに説明されるような)ソースモデルとターゲットモデルとの間のパラメータの差、もしくは(以下でもさらに説明されるような)これら2つのタイプの損失の加重和を規格化することによって定義することができる。不一致関数によって同時訓練することにより、分布の差が減少するようにモデルが最適化されて汎用化機能が向上する。
【0057】
したがって、上記で説明されたようなブロック212から、
図3は、ブロック300で開始し得る。ここで、(出力層から逆伝播するときに使用される全体的な損失関数とは異なる)別の損失関数が定義及び追加され得、この追加の損失関数は、ソースから学習された特徴と、それぞれの並列層から出力されたターゲットデータとの間の距離として算出される不一致損失関数である。
【0058】
不一致損失がない場合、全体的な損失関数は、ラベル付きのソースデータのみを使用して計算され得るため、最適化中、モデルはソースデータに徐々に適合する。これにより、2つのドメイン間の分布の差が大きくなる。したがって、ソースドメインからのラベル付きデータ及びターゲットドメインからのラベルなしデータを含む訓練データが使用される場合(一般に指定されたブロック302)、ならびにターゲットドメインからの全てであるテストデータが使用される場合(一般に指定されたブロック304)、教師なしドメイン適応プロトコルが、ソースデータとターゲットデータとの間の全体的な分布の差を減少させるように使用され得る。
【0059】
図3のブロック306で、論理は、場合によってはラベルなしで、それぞれの並列層から出力されたソースデータ及びターゲットデータから学習された特徴間の距離を算出する。次いで、ブロック308で、不一致損失関数を用いた同時訓練が、ソースデータとターゲットデータとの間の全体的な分布の差を減少させるためにモデルに対して使用され得る。これは、時間モジュール及び最後の全結合層の出力からの特徴ベクトルを使用して不一致損失を算出することによってブロック310で行われ得る。
図3からのこれらの原理を組み込んだ例示的なアクション認識アーキテクチャ及びその説明について
図4に示す。
【0060】
したがって、
図4に示されるように、本原理を担うデバイスは、ソースニューラルネットワーク/ドメインであり得る第1のデータタイプに関連付けられた第1のニューラルネットワーク/ドメイン400にアクセスし得、ターゲットニューラルネットワーク/ドメインであり得る第1のデータタイプとは異なる第2のデータタイプに関連付けられた第2のニューラルネットワーク/ドメイン402にアクセスし得、入力として、第1の訓練データを第1のニューラルネットワークに提供し得る。デバイスはまた、入力として、第2の訓練データを第2のニューラルネットワークに提供し得る。ここで、第1の訓練データは、第2の訓練データとは異なるが、依然として関連している。
【0061】
例えば、第1のニューラルネットワーク/ドメイン400は、実世界のビデオを使用したオブジェクト認識に関係し得る一方、第2のニューラルネットワーク/ドメイン402は、ビデオゲームのビデオを使用したオブジェクト認識に関係し得る。したがって、第1の訓練データは、実際のビデオ録画からの実世界のリンゴのビデオであり得、第2の訓練データは、ビデオゲームからのビデオゲームでレンダリングされたグラフィカルなリンゴのビデオであり得る。
【0062】
デバイスは、次いで、第1の層からの第1の出力を識別し得、第1の層は、第1のニューラルネットワークの出力/活性化層であり、第1の出力は、第1の訓練データに基づいている。デバイスはまた、第2の層からの第2の出力を識別し得、第2の層は、第2のニューラルネットワークの出力/活性化層であり、第2の出力は、第2の訓練データに基づいている。デバイスは、次いで、第1及び第2の出力に基づき、第3の層の1つ以上の重みに対する第1の調整を決定し得、第3の層は、第2のニューラルネットワークの中間層である。第1の調整は、例えば、第1の不一致/損失関数を使用して、第2のニューラルネットワークの第2の層(第2のニューラルネットワークの出力/活性化層)からの逆伝播を介して決定され得る。
【0063】
その後、人間の監督者が、第3の層及び第4の層(第4の層は、第1のニューラルネットワークの中間層である)を手動で選択するためにコマンドを提供し得、またはデバイス自体が、第3の層及び第4の層を(例えば、ランダムに)選択し得る。第3及び第4の層は、並列の中間層/隠れ層であり得る。その後、第3の層からの第3の出力が測定され得、第2のニューラルネットワーク用のオブジェクトラベル(例えば、「リンゴ」)が利用可能かどうかに関係なく第3の出力と第4の出力との間の類似性を測定するように(例えば、人間の監督者によって)変えられた第2の不一致/損失関数を使用して第4の層からの第4の出力と比較され得る。第3及び第4の出力自体は、第3及び第4の出力が、それぞれの第2及び第1のニューラルネットワークの後続のそれぞれの中間層にそれぞれ提供される前の、それぞれの第3及び第4の層のそれぞれのベクトル出力であり得、第3及び第4の出力自体は、それぞれ、第2及び第1の訓練データに基づいている。
【0064】
デバイスは、次いで、比較/第2の関数に基づき、第3の層の1つ以上の重みに対する第2の調整を決定し得、重みの変化の量は、第2の関数の大きさに比例する。その後、デバイスは、第1の調整と第2の調整との両方の検討に基づき、第3の層(及びさらには第2のニューラルネットワークの1つまたは全ての先行層)の1つ以上の重みを継続して調整し得る。例えば、第3の層の1つ以上の重みは、第1の調整からの重みの変化及び第2の調整からの重みの変化をそれぞれ合計することによって調整され得る。しかしながら、いくつかの例では、第1の調整と第2の調整との両方からの重みの変化の和よりも損失が少なくなるように人間の監督者またはデバイスによって決定された場合、第1の調整または第2の調整のうちの一方からの重みの変化のみが適用され得る。さらに他の例では、上記の代替例よりも損失が少なくなるように人間の監督者またはデバイスによって決定された場合、第1の調整からの重みの変化(複数可)の半分と第2の調整からの重みの変化(複数可)の半分とが合計され得る。
【0065】
加えて、第2のニューラルネットワークは、第2の訓練データが第2のニューラルネットワークに提供される前に、第1のニューラルネットワークのコピーによって確立され得ることに留意されたい。それぞれのニューラルネットワークの第3及び第4の層は、それぞれのニューラルネットワークの中間の隠れ層などの、出力層以外の層であり得る。
【0066】
加えて、第1の訓練データは第2の訓練データに関連し得、例えば、これら訓練データの両方は、アクション認識中の同じタイプのアクションまたはオブジェクト認識中の同じタイプのオブジェクトに関係する。
【0067】
以下、上記で参照されたドメイン分類方法について、例示的な敵対的ベースのドメイン適応について説明するために
図5を参照して説明する。この方法は、ドメイン分類器において勾配反転層(GRL)を使用して重みを調整するため、アーキテクチャ/ドメイン分類器全体を混乱させ、その結果、ドメイン分類器は、異なるドメインからの出力を区別する機能を徐々に失い得る。ドメイン分類器は、それ自体、ソース及びターゲットニューラルネットワークとは別の第3のニューラルネットワークによって少なくとも部分的に確立され得る。
【0068】
上記を念頭に置くと、上記で説明されたようなブロック212から、ブロック212のドメイン適応モジュールへのデータ入力が、
図6に示されるようにブロックFC-2 600を介してソースドメインからのものか、それともターゲットドメインからのものかを識別または判別するために
図5の論理は、追加の浅い二値分類器(「ドメイン分類器」と称される)を追加することによってブロック500で開始し得る。さらに、デバイスがメインモデル(例えば、メインビデオモデル)に勾配を逆伝播させる前に、ブロック502で勾配反転層(GRL)602は、勾配を反転するために1つ以上のドメイン分類器604によって使用され得、その結果、ビデオモデルは反対方向に最適化され得、したがってドメイン分類器(複数可)は、2つのドメインからのベクトルを区別する能力を徐々に失う。したがって、モデルはソースドメインとターゲットドメインとの両方に汎用化される。
【0069】
次いで、ブロック504で、1つのドメイン分類器604が、アーキテクチャの空間モジュール605の直後に挿入され得、別のドメイン分類器606が、空間方向と時間方向との両方においてドメイン適応を実行するためにアーキテクチャの時間モジュール608の直後に挿入され得る。次いで、ブロック506で、デバイスは、勾配をメインモデル(この場合、ビデオモデルであり得る)に逆伝播させ得る。この実施形態のための例示的なアーキテクチャ自体を
図6に示す。
【0070】
したがって、本原理を担うデバイスは、第1のデータタイプに関連付けられ、ソースニューラルネットワーク/ドメインであり得る第1のニューラルネットワーク/ドメインにアクセスし得る。デバイスはまた、第1のデータタイプとは異なる第2のデータタイプに関連付けられ、ターゲットニューラルネットワーク/ドメインであり得る第2のニューラルネットワーク/ドメインにアクセスし得る。デバイスは、次いで、入力として、第1の訓練データを第2のニューラルネットワークに提供し得る。
【0071】
例えば、第1のニューラルネットワーク/ドメインは、実世界のビデオを使用したアクション認識に関係し得る一方、第2のニューラルネットワーク/ドメインは、ビデオゲームのビデオを使用したアクション認識に関係し得る。したがって、第1の訓練データは、ビデオゲームからのビデオゲームレンダリングされたグラフィカルなパンチングアクションの1フレームであり得る。
【0072】
その後、人間の監督者が、第2のニューラルネットワークの第1の中間/隠れ層を手動で選択するためにコマンドを提供し得、またはデバイス自体が、第2のニューラルネットワークの第1の中間/隠れ層を(例えば、ランダムに)選択し、次いで、第2のニューラルネットワークの第1の層からの第1のベクトル出力をビデオのそれぞれのフレームについて識別し得る。次いで、ドメイン分類器であり得る第3のニューラルネットワークを使用して、デバイスは、第1のベクトル出力が第1のニューラルネットワークからのものであるか、それとも第2のニューラルネットワークからのものであるかを判定し得る。
【0073】
第3のニューラルネットワークが、第1のベクトル出力が第2のニューラルネットワーク(例えば、ビデオゲームビデオドメイン)からのものであると判定した場合、第3のニューラルネットワークは混乱させられず、したがって、第2のニューラルネットワークの第1の層の1つ以上の重みは、第3のニューラルネットワークが再度実行されたときに第3のニューラルネットワークを継続して混乱させるように調整され得、第3のニューラルネットワークに、第2のニューラルネットワークの第1の層からの第2のベクトル出力を、実際には第2のニューラルネットワークからのベクトル出力ではなく第1のニューラルネットワークからのベクトル出力であるとして分類させる。ただし、その第2のベクトル出力が、依然として、第2のニューラルネットワークからのベクトル出力であるとして分類された場合、調整された第1の層の重みがその以前の値に戻され得、第2のニューラルネットワークの別の層が代わりに選択され得、このプロセスが繰り返され得る。
【0074】
しかしながら、第3のニューラルネットワークのすぐ上のパラグラフの代わりに、第2のニューラルネットワークの第1の層からの第1のベクトル出力を、実際には第1のニューラルネットワーク(例えば、実世界のビデオのドメイン)からの出力であるとして分類した場合、デバイスは、第2のニューラルネットワークの第1の層が既に少なくともある程度最適化されている(例えば、第3のニューラルネットワークを混乱させて第2のニューラルネットワークからの第1のベクトル出力が実際には第1のニューラルネットワークからのものであったと勘違いさせる程度に最適化されている)ために第2のニューラルネットワークの第1の層の1つ以上の重みを調整することを拒否し得る。必要に応じて、別の隠れ層が次いで選択され得、このプロセスが、第2のニューラルネットワークの他の隠れ層について繰り返され得る。
【0075】
したがって、アクション認識の例を使用すると、ゲームデータ出力がドメイン分類器/第3のニューラルネットワークによってゲームドメインからのものとして分類された場合、ゲームドメインの隠れ層の重みは、ドメイン分類器/第3のニューラルネットワークに後続のゲームデータ出力を実際のビデオドメインからのものとして分類させるという目標を達成するように、ドメイン分類器/第3のニューラルネットワークの勾配反転層を介して「逆」損失関数を使用して調整され得る。
【0076】
ドメイン分類器方法に関係するような上記の事項は、第3のニューラルネットワーク自体(ドメイン分類器)が最初に訓練され、精度に対して最適化された後に実行され得ることにも留意されるべきである。第3のニューラルネットワークの訓練のこの初期段階中、第3のニューラルネットワークは、ラベル付きデータのベクトル出力を、そのベクトル出力が実際にはラベル毎の他のドメインからのものであったときにあるドメインからのものとして誤って分類するとき、教師なしで自己訂正し得る。
【0077】
したがって、第3のニューラルネットワークについての重みは、最初はランダムであり得、次いで自己訂正中、第3のニューラルネットワークの重みを調整し、したがって(ドメイン分類器を確立する)第3のニューラルネットワーク自体を最適化して隠れ層または出力層からの出力を一方のドメインまたは他方のドメインからのものとして正しく分類するように第3のニューラルネットワークの出力層からの逆伝播が行われ得る。
【0078】
上記で参照されたクロスドメインバッチ正規化(CDBN)方法について、以下、本原理に従った別のバージョンのドメイン適応を明らかにするために
図7を参照して説明し、例としてビデオデータを再度参照する。本出願は、最適化を改善するために当初使用されたバッチ正規化(BN)自体がドメイン適応に利益をもたらすように修正することもできることを認識する。そのように行うために、CDBN方法は、CBDNモジュール800(
図8)を空間領域抽出ネットワーク(SREN)802とビデオモデル804との両方に適用し得る。CDBNを用いて、メカニズムは、入力を正規化するようにドメイン統計を適応的に選択し得る。これにより、異なるビデオタイプ間の分布の差を減少させることができる。したがって、このCDBNと通常のBNとの違いのうちの1つは、一方がソースブランチ用であり、他の一方がターゲットブランチ用である、2つの統計をCDBNが算出することである。両方の統計は、この実施形態のための
図8の例示的なアーキテクチャに従って示されるように、比率α(アルファ)でのソースデータとターゲットデータとの混合を使用して算出される。
【0079】
ここで、CDBN方法のための
図7の例示的な論理について説明すると、上記で説明されたようなブロック212から、論理は、
図8に示されたように空間モジュール内でCDBNを全結合層806の後に追加することによってブロック700で開始し得る。次いで、ブロック702での訓練中、モデルは、ソースブランチとターゲットブランチとの両方に対してデータを正規化するための最良の比率α(アルファ)を学習し得る。次いで、ブロック704でのテスト中、ソースブランチに関する統計及びターゲットブランチに関する統計を正規化するためにα(アルファ)及びターゲットブランチに関する統計が使用され得る。次いで、ブロック706で、別個のラベルなしのターゲットデータにエントロピー損失808が追加され得る。
【0080】
したがって、本原理を担うデバイスは、第1のデータタイプに関連付けられた第1のニューラルネットワークにアクセスし得、第2のデータタイプに関連付けられた第2のニューラルネットワークにアクセスし得、入力として、第1の訓練データを第1のニューラルネットワークに提供し得る。デバイスはまた、入力として、第2の異なる訓練データを第2のニューラルネットワークに提供し得る。デバイスは、次いで、第1の訓練データに基づいて第1のニューラルネットワークの中間層からの第1の出力を識別し得、第2の訓練データに基づいて第2のニューラルネットワークの並列中間層からの第2の出力を識別し得る。デバイスは、次いで、第1の出力及び第2の出力を正規化するための比率を識別し得、比率を算定する式を適用して第2のニューラルネットワークの中間層の1つ以上の重みを変更し得る。
【0081】
比率は、平均値に関係し得、いくつかの例では、第1の出力と第2の出力との間の平均と分散との両方が、式を適用するために分析され得る。比率が識別され得、並列中間層からの出力間で同様の平均及び分散を有するようにクロスドメインバッチ正規化(CDBN)を使用して式が適用され得る。
【0082】
他の方法と同様に、CDBN方法の場合の第2のニューラルネットワークは、第2の訓練データが第2のニューラルネットワークに提供される前に第1のニューラルネットワークのコピーによって確立され得る。さらに、いくつかの例では、第1及び第2のニューラルネットワークは、アクション認識に関係し得、第1の訓練データは、第1の訓練データと第2の訓練データとが両方とも同じアクションに関係し得るという点で第2の訓練データに関連し得る。他の例では、第1及び第2のニューラルネットワークは、オブジェクト認識に関係し得、第1の訓練データは、第1の訓練データと第2の訓練データとが両方とも同じオブジェクトに関係し得るという点で第2の訓練データに関連し得る。
【0083】
図2~8を参照した前述の説明に基づき、ここで、提案されたフレームワーク(複数可)が汎用的でもあり、フレキシブルでもあることが認識され得る。ドメイン損失の1つ以上またはソース/ターゲットモデルの一部をわずかに修正した状態で、多くの話者/ユーザ適応アルゴリズムをこのフレームワークに適用することができる。例えば、話者の適応では、敵対的損失は話者分類エラーとして定義することができるため、ソースモデルによって学習された深い特徴は、音響単位(例えば、音素または単語など)に関して判別できることにもなり、話者に対して変わらないことにもなる。
【0084】
以下、本原理を組み込んだ適用及び例について説明する。
【0085】
本原理は、とりわけ、画像、ビデオ及びオーディオデータ処理のための全ての可能な深層学習ベースの方法において使用され得る。
【0086】
ゲームオブジェクト及び/またはアクション検出の場合、ゲームビデオが収集され得、別の既存のビデオデータセットを用いたプロトコルに従って生のビデオを処理済みのデータセットに変換するために効率的なデータ準備ツールが開発され得る。これを実世界のビデオデータセット「Kinetics」と組み合わせることにより、ドメイン適応のための第1のアクション認識データセットを形成することができる。本原理は、実世界とゲームの世界との両方において複数のオブジェクト及びアクションを認識するために使用することができ、データセットを評価し、データセット生成を強化するために使用することもできる。
【0087】
光学式文字認識の場合、本原理は、標準フォント、芸術的テキスト、ゲーム内のフォントなどを含む、種々の手書きスタイルを認識するために使用され得る。
【0088】
音声変換の場合、本原理は、ある話者の音声を他の話者の音声に変換するために使用され得る。
【0089】
スピーチ認識のための話者適応の場合、本原理は、入力をスピーチのスペクトログラムに置き換えることによってオーディオ関連のタスクに対して使用され得る。話者適応では、ソースモデルは、多くの話者の音声を使用して事前に訓練され得、ターゲットドメインは、新しい話者からのわずかの発話のみを含み得る。この場合、ターゲットドメインモデルはソースモデルによって初期化することができる。適応中、ターゲットドメインデータの分類損失及びソースモデルとターゲットモデルとの間の不一致損失に対して同時最適化を実行することができる。不一致損失は、ソースモデルとターゲットモデルとの間のパラメータの差、またはソースモデル出力とターゲットモデル出力との間の電話配信距離のいずれかである可能性がある。
【0090】
感情認識のためのマルチモーダルユーザ適応(例えば、感情出力を伴うテキスト、画像、ビデオ及び音声としての入力)の場合、ユーザの音声またはビデオクリップ(またはその両方)が与えられると、ドメイン適応モジュールは、あるユーザのスタイルを別のユーザのスタイルに適応させることができるため、ユーザの適応により、訓練セットに含まれていない新しい話者について感情認識の精度を改善することができる。加えて、空間領域抽出ネットワークを使用して複数の顔の表情を検出することができるため、種々のスタイルを有する複数の人々から感情を認識することができる。
【0091】
ゲームの世界と実世界との間のアクション認識のためのドメイン適応について、以下でさらに詳細に述べるが、このタイプのドメイン適応に従って使用される例示的なアーキテクチャは、
図4、6及び8において既に示されている。
【0092】
ゲーム業界では、ビデオとオーディオとは、2つの別個のプロセスであり得る。ゲームは、最初にオーディオなしで設計及び制作されることが多く、次いで、オーディオグループは、ゲームビデオ全体を調査し、ゲームのSFXデータベースから対応するサウンドエフェクト(SFX)を挿入する。本原理に従ってアルゴリズムを開発することにより、マシンに、ゲームビデオからのビジュアルコンテンツを自動的に分析させ、次いで、対応するSFXを分析結果とマッチングさせて、プロセスを最適化することができる。
【0093】
深層学習技術はまた、ゲームビデオコンテンツを分析するために使用され得る。重要なサウンドエフェクトのほとんどはキャラクタのアクションに関連しているため、アクション認識はSFXマッチングの重要なタスクである。深層学習アプローチを使用したアクション認識の場合、これらのアプローチは、ゲーム内のアクションを認識し、対応するアクション関連のSFXを自動的に識別及び特定してゲーム制作プロセスを加速するために適用され得る。
【0094】
残念なことに、全てではないとしてもほとんどの既存のアクション認識システムは実世界のビデオ用のものである。このことは、これらのシステムが全て、実世界のデータセットに対するパフォーマンスを示すことを意味する。それらの訓練済みのモデルは、データセットシフトまたはデータセットバイアスとも呼ばれる大きな分布の不一致が存在するため、ゲームビデオに対して直接使用することができない。したがって、本原理を使用することにより、ゲームビデオから収集されたデータを使用してモデルを訓練することができ、ドメイン適応を使用して、アクション認識のための深いアーキテクチャ用を含む、ビデオタスクの場合のデータセットシフトによる影響を低下させることができる。
【0095】
以下では、
図9及び10のフローチャートに示される論理を参照しながら、ゲームのビデオと実世界のビデオとの間のドメイン関係を学習するためのモデルについて説明する。
【0096】
実際のアクションデータセットの場合、
図9のブロック900に反映されているように、ゲームビデオが収集され得、効率的なデータ準備ツールが開発され得ることにより、別の既存のビデオデータセットを用いた共通プロトコルに従って生のビデオが処理済みのデータセットに変換される。次いで、
図9のブロック902に反映されているように、これを実世界のビデオデータセット「Kinetics」と組み合わせて、ドメイン適応のための第1のアクション認識データセットを形成することができる。
【0097】
次いで、
図9のブロック904に従って、例えば、適正な比較のためのドメイン適応技術を用いることなく、アクション認識のためにベースラインアプローチが提供され得る。次いで、ビデオドメイン適応の場合、
図9のブロック906に反映されているように、ベースラインと比較してパフォーマンスを改善するためにいくつかの(例えば、不一致ベース、敵対的ベース及び正規化ベースの)ドメイン適応技術をパイプラインに統合する第1のアクション認識アーキテクチャが開発され得る。
【0098】
したがって、
図11に示されるように、アクション認識のためのベースラインアーキテクチャが確立され得る。入力された生のビデオは、フレームレベルの特徴ベクトルを抽出するために101層のResNetにフィードフォワードされ得る。特徴ベクトルの数は、ビデオフレームの数に対応し得る。特徴ベクトルは、次いで、均一にサンプリングされ得、モデルに供給され得る。モデル全体は、
図11に示されるように、空間モジュール1100と時間モジュール1102との2つの部分に分割され得る。空間モジュールは、1つの全結合層1104、1つの正規化線形ユニット(ReLU)1106及び1つのドロップアウト層1108を含み得る。空間モジュールは、汎用特徴ベクトル1110を、アクション認識であり得るタスク駆動型の特徴ベクトルに変換し得る。時間モジュール1102は、フレームレベルの特徴ベクトルを集約して、各ビデオを表す単一のビデオレベルの特徴ベクトルを形成することを目的としている。ビデオレベルの特徴ベクトルを生成するために、時間方向に沿った全ての特徴要素について平均値が計算され得る。この技術は、時として、時間プーリングと称される。次いで、ビデオレベルの特徴ベクトルは、予測1114を生成するための分類器としての最後の全結合層1112に供給され得る。予測は、分類損失を算出するために使用され得、次いで、モデル全体を最適化するために使用され得る。
【0099】
次いで、
図10のブロック1000によれば、本明細書で説明されたような1つ以上のドメイン適応(DA)アプローチ:(
図4、6及び8にそれぞれ示されたような)不一致ベースのドメイン適応、敵対的ベースのドメイン適応及び正規化ベースのドメイン適応がベースラインアーキテクチャに統合され得る。次いで、教師なしのドメイン適応プロトコルに従い得る。ここで、訓練データは、(
図10のブロック1002によれば)ソースドメインからのラベル付きデータ及びターゲットドメインからのラベルなしデータを含む一方、テストデータは、(
図10のブロック1004によれば)全てターゲットドメインからのものであり得る。アクション認識のためのこの例によるドメイン適応方法に関するさらなる詳細については、
図2~8及びそれに対応する説明を再度参照のこと。
【0100】
次いで、各種のドメイン適応アプローチのパフォーマンスを評価するために、データセットは、仮想ドメインと実ドメインとの両方におけるデータを含み得る。ゲームビデオは、次いで、仮想ドメイン用のゲームアクションデータセットを構築するためにいくつかのゲームから収集され得る。ビデオの全体の長さは、例として、5時間41分であり得る。全ての生のビデオ及びトリミングされていないビデオは、注釈に応じてビデオクリップにセグメント化され得る。各ビデオクリップについての全体の長さは10秒であり得、最小の長さは1秒であり得る。データセット全体はまた、7:2:1の比率で各カテゴリのビデオをランダムに選択することによって訓練セット、検証セット及びテストセットに分割され得る。実ドメインの場合、Kinetics-600が使用され得る。
【0101】
ドメイン適応のための互いに近接した設定に従うことにより、仮想ドメインと実ドメインとの間で30個の重複するカテゴリが選択され得る。カテゴリは、例として、休憩する、運ぶ、床を掃除する、登る、這う、しゃがむ、泣く、踊る、飲む、運転する、倒れる、戦う、抱擁する、ジャンプする、蹴る、点灯する、ニュースアンカー、ドアを開ける、塗装ブラシ、パラグライド、注ぐ、押す、読む、走る、銃を撃つ、凝視する、話す、投げる、歩く、皿を洗う、を含み得る。各カテゴリは、Kinetics-600または仮想/ゲームデータセットの複数のカテゴリに対応し得る。例えば、「読む」というカテゴリは、Kinetics-600における本を読んだり新聞を読んだりするカテゴリに対応し得る。
【0102】
次いで、ビデオゲームの実際のアクションデータセットが、両方のドメインを用いて構築され得る。仮想ドメインの場合、合計で2625本の訓練ビデオと749本の検証ビデオとが存在し得る。実世界のドメインの場合、実ドメインと仮想ドメインとの間で同様のスケールの訓練データを保つために各カテゴリについて100本のビデオがランダムに選択され得、元のKinetics-600の設定からの全ての検証ビデオが使用され得る。合計で3000本の訓練用ビデオと3256本の検証用ビデオとが存在し得る。加えて、純粋なテスト用に542本のビデオも存在し得る。
【0103】
提案されたドメイン適応アプローチは、次いで、自己収集された仮想データセット上で評価され得る。いくつかの例では、実装は、PyTorchフレームワークに基づき得る。フレームレベルの特徴抽出器としてImageNetrawビデオ1118上で事前に訓練されたResNet-101 1116モデルが利用され得る。モデルに供給する前に、各ビデオについて時間方向に等しいスペースを有する固定数のフレームレベルの特徴ベクトルがサンプリングされ得る。適切な比較のために、アクション認識の一般的なプロトコルに従って、25フレームがテストのためにサンプリングされ得る。訓練の場合、計算リソースの何らかの制限を仮定して5フレームのみがサンプリングされ得る。最適化の場合、初期学習率が0.1であり得、学習率の減少戦略に従い得る。確率的勾配降下法(SGD)は、運動量及び重量の減衰が0.9及び1×10-4のオプティマイザとして使用され得る。バッチサイズは512であり得、ここで、半分はラベル付きのソースデータからのものであり得、半分はラベルなしのターゲットデータからのものであり得る。
【0104】
次いで、教師なしドメイン適応の実験プロトコルに従い得、この実験プロトコルは、次の実験設定を有し得る(ここで、全ての設定は仮想検証セット上でテストされ得る):Oracle、ドメイン適応アプローチなしのラベル付きの仮想訓練セットを用いた訓練;ソースのみ、ドメイン適応アプローチなしのラベル付きの実際のアクション訓練セットを用いた訓練;不一致ベースのドメイン適応、不一致ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練;敵対的ベースのドメイン適応、敵対的ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練;ならびに正規化ベースのドメイン適応、正規化ベースのドメイン適応アプローチを用いたラベル付きの実際のアクション訓練セット及びラベルなしの仮想訓練セットを用いた訓練。
【0105】
例示的な結果を
図12に示す。Oracle1200とソースのみの設定1202との間の違いは、訓練に使用されるドメインである。Oracleの設定は、そもそもドメインシフトの問題がない上限とみなすことができる一方、ソースのみの設定は、種々のドメインからのデータを用いて訓練されたモデルを直接適用する下限を示す。示されるように、精度の差は50パーセントである。
図12はまた、本明細書に開示される3つのドメイン適応アプローチ1204のそれぞれが、ドメインシフト問題を緩和することができることを示す。中でも、正規化ベースのドメイン適応は、この例において最良のパフォーマンスを有し、精度を9.2%上げる。
【0106】
以下、感情認識のためのドメイン適応についてさらに詳細に説明する。限定されたユーザ固有のオーディオ及びビデオサンプルが与えられると、マルチモーダル感情認識の精度が改善され得る。ユーザ適応は、本原理に従って汎用ドメイン適応フレームワークに適合するユーザ適応構造により、例えば、オーディオのみ、ビデオのみ、またはオーディオデータとビデオデータとの両方を共に使用する深層学習ベースの感情認識精度に役立ち得る。
【0107】
この例のためのベースラインモデル構造が
図13に示されており、
図14のフローチャートに反映された論理に対してさらに参照がなされる。同じモデル構造がオーディオ及びビデオの感情認識に対して使用され得る。
【0108】
最初に、一連の特徴1300(
図13)が、
図14のブロック1400に反映されているように、生データ1302から抽出され得る。話者非依存(SI)モデル1304が、次いで、
図14のブロック1402に反映されているように、複数の話者訓練データセットによって訓練され得る。モデル構造は、3つの双方向長短期記憶(BLSTM)層1306のスタックを含み得、各層1306は、方向ごとに512個のセルを有し得る。特徴は、フレーム毎にモデルに送られ得、
図14のブロック1404で、時間平均層1308は、発話埋め込みとして最後のLSTM層の隠れた状態の時間平均をとり得る。全結合層1310は、次いで、ブロック1406で1024次元の埋め込みを256次元に縮小し、次いで、ブロック1408でソフトマックス分類器1312を通過させて埋め込みを事後感情確率に変換するために使用され得る。モデルは、クロスエントロピーエラーを最小化することによって訓練され得る。
【0109】
したがって、オーディオ及びビデオデータを使用して別個のモデルが訓練され得る。テスト中、オーディオとビデオとの各テストデータペアは、前処理ステップにおいて同じ発話に対して揃えられ得る。各ペアについて、感情事後確率が、2つのモデルから計算され得、意思決定の最終確率を取得するために平均され得る。この方法は、「決定融合」と称され得る。
【0110】
この例のためのユーザ適応構造が
図15に示されており、
図16のフローチャートに反映された論理に対してさらに参照がなされる。この新しい話者からの限定された適応データを使用して事前に訓練されたSIモデルを新しいユーザに適応させるために、話者依存(SD)モデル1500(上部ブランチ)が、
図16のブロック1600でSIモデル1502から初期化され得る。ユーザ適応の場合、現実的な用途は、時として、適応中にターゲット(新しいユーザ)の適応データのみを使用できることを意味し得る。したがって、ソースデータ(SIモデルの訓練に対して使用される多くの話者)は、汎用構造のように使用されない場合がある。
【0111】
損失関数は、2つの項の合計を含み得、一方は、ターゲットドメインデータに対して定義されたクロスエントロピー分類損失であり、もう一方は、ソースモデルとターゲットモデルとの間のモデルパラメータL2距離であり、これは、汎用構造の不一致損失に類似し得る。ブロック1602及び1604でそれぞれこれらの2つの項を同時最適化することにより、ターゲットモデルは、ブロック1606で新しい各ユーザについて感情を正しく分類するように学習し得、ソースモデルから離れすぎて適応されることも回避し得る。したがって、
図15のユーザ適応構造は、例えば、ターゲットドメインデータのみが使用されているため、分類エラーがターゲットデータに対してのみ定義され得るように汎用構造を修正し得る。ユーザ適応構造はまた、ソースモデルとターゲットモデルとの間のL2ノルムであり得る特定の形式をとった不一致損失を介して汎用構造を修正し得る。
【0112】
本原理に従った例として、オーディオSIモデルを訓練するために、84人の話者のオーディオの感情的録音が収集され得る。テストの場合、訓練セットには現れなかった別の5人の話者が使用され得る。データベースには10個の感情クラスが存在し得る。それらは、幸せ、怒り、悲しみ、恐れ、驚き、その他(例えば、興奮、退屈、平静、失望、反感を含む)を含む6個のクラスにマージされ得、重み付けされていない精度が報告され得、これは、6個のクラスの個々の精度の平均として計算され得る。ビデオデータの場合、訓練のために114人の話者が収集され得る。テストの場合、同じ5人の話者のテストセットが使用され得、その場合、オーディオ及びビデオが各発話に対して揃えられている。
【0113】
次いで、ユーザ適応を行うために、最大の適応セットとして5人のテスト話者のそれぞれについて最大150個の発話がランダムに選択され得る。残りの発話はテストに対して使用され得る。5人のテスト話者は、合計2661個の発話を有し得るため、各話者について150個の適応発話を削除した後、テスト用に依然として1911個の発話が存在し得、これにより、この例において結果が統計的に有効になり得る。
【0114】
各話者についての適応データの数はまた、5個の発話から150個の発話まで変化し得る。結果を比較するために、テストセットが同じになり得るように全てのより小さい適応セットが150個の発話から選択され得る。
【0115】
適応データを使用して、オーディオモデルとビデオモデルとが別々に適応され得、テスト時に、個々のモデルのパフォーマンスが決定融合のパフォーマンスと共にテストされ得る。オーディオ用の40次元のログメルフィルタバンク特徴が使用され得、1次及び2次のデルタ(合計123次元)、フレームエネルギーが追加され得る。オーディオフレームの長さは25ミリ秒であり得、10ミリ秒ごとにシフトされ得る。ビデオ特徴は、各フレームについてVGGモデルの最後の層(1024次元)から抽出され得る。VGGモデルは、顔の表情を認識するためのデータセットであるFERPlusデータセット上で事前に訓練され得、136次元のランドマークの顔のポイントも各フレームに追加され得る。
【0116】
モデルの訓練及び適応の場合、損失関数を最小限に抑えるためのAdamオプティマイザを用いて、40個の発話/ビデオのミニバッチサイズが使用され得る。SIモデルを訓練するときの初期学習率は0.001に設定され得、開発セット上で分類精度が低下したときにはこの学習率に0.1が掛けられ得る。適応の場合、学習率は0.001に固定され得、オーディオモデルは5エポックに適応され得、ビデオモデルは適応セット上で25エポックに適応され得る。
【0117】
図17は、ユーザ適応前後の、テストセット上の例示的な6クラスの感情認識精度の表を示す。SI_A、SI_V及びSI_AVは、オーディオのみ、ビデオのみ及び決定融合を使用したSIモデルのパフォーマンスを指す。同様に、SD_A、SD_V及びSD_AVは、適応後の結果を示す。単独の各モダリティについて、ユーザ適応がベースラインのパフォーマンスを改善し得、より多くの適応データがより良い認識精度をもたらすことが認識され得る。また、決定融合は、単一のモダリティのみを使用するよりも優れた精度を提供し得る。
【0118】
図18に移ると、この図は、第2の(ソース)ドメイン1804から得られた第1の(ターゲット)ドメイン1802を最適化するために本原理に従ってドメイン適応モジュール1800によって共に使用される3つのドメイン適応方法の全てを示す。
【0119】
したがって、前述の詳細な説明から認識され得るように、本原理は、本明細書で説明された技術的解決策を通じてニューラルネットワークの適応及び訓練を改善する。
【0120】
いくつかの例示的な実施形態を参照して本原理が説明されてきたが、これらは限定することを意図しておらず、各種の代替的な配置が本明細書で特許請求される主題を実装するために使用され得ることが認識されよう。
【国際調査報告】