(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-26
(54)【発明の名称】画像データを自然言語の説明に変換するためのシステム及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220119BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021530948
(86)(22)【出願日】2019-11-26
(85)【翻訳文提出日】2021-05-28
(86)【国際出願番号】 US2019063298
(87)【国際公開番号】W WO2020112808
(87)【国際公開日】2020-06-04
(32)【優先日】2018-11-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ツェン、ジェン
(72)【発明者】
【氏名】チェン、ルーシン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096DA02
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【解決手段】コンピュータゲーム画像または他の画像などの画像のキャプショニングに対し、ボトムアップ注意(400)をトップダウン注意(402)と結合して、マルチレベルの残差注意ベースの画像キャプショニングモデルを提供する。残差注意メカニズム(500)がFaster R-CNNネットワークに最初に適用されて、空間的情報を考慮に入れることによってより良い特徴表現を各領域について学習する。画像キャプショニングネットワークでは、抽出された領域特徴を入力として受け取って、後続のキャプション生成のために領域特徴を注意深く融合させるように第2の残差注意ネットワーク(1204)が実装される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、前記少なくとも1つのプロセッサにより、
画像を受信することと、
畳み込みニューラルネットワーク(CNN)を使用して前記画像を処理して特徴マップを生成することと、
ニューラルネットワーク(NN)を使用して少なくとも前記特徴マップのうちの第1の特徴マップを処理して前記画像の少なくとも1つの特性を表す少なくとも1つの注意ベクトルを生成することと、
前記注意ベクトルを前記第1の特徴マップと結合して出力特徴ベクトルをレンダリングすることと、
前記出力特徴ベクトルを前記第1の特徴マップから導出されたプーリング済みの特徴ベクトルと結合して最終特徴ベクトルをレンダリングすることと、
少なくとも前記最終特徴ベクトルをキャプション生成ネットワークに入力して前記画像の自然言語のキャプションを生成することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置とを含む、装置。
【請求項2】
前記命令を実行する前記少なくとも1つのプロセッサと、人間が知覚できる形式で前記キャプションを提示するための少なくとも1つの出力デバイスとを含む、請求項1に記載の装置。
【請求項3】
前記画像がビデオゲームからの画像である、請求項1に記載の装置。
【請求項4】
前記NNが多層パーセプトロン(MLP)を含む、請求項1に記載の装置。
【請求項5】
前記命令が、前記出力特徴ベクトルをレンダリングするために前記注意ベクトルとの前記第1の特徴マップ内の特徴ベクトルにわたる加重和を実行することによって前記注意ベクトルを前記第1の特徴マップと結合することを行うように実行可能である、請求項1に記載の装置。
【請求項6】
前記命令が、前記出力特徴ベクトルと前記プーリング済みの特徴ベクトルとの要素ごとの加算を実行することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項1に記載の装置。
【請求項7】
前記命令が、前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと連結することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項1に記載の装置。
【請求項8】
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
少なくとも1つの畳み込みニューラルネットワーク(CNN)を含む特徴生成モジュールを使用して画像を処理してボトムアップ特徴情報を出力することと、
前記ボトムアップ特徴情報を、前記画像を説明する自然言語のキャプションを出力するキャプション生成モジュールに入力することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含み、
前記特徴生成モジュール及び/または前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報から導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、装置。
【請求項9】
前記特徴生成モジュールが、注意ベクトルからの情報を特徴ベクトルのソースから導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、請求項8に記載の装置。
【請求項10】
前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報に関連付けられた特徴ベクトルから導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含む、請求項8に記載の装置。
【請求項11】
前記特徴生成モジュールの前記残差トップダウンネットワークが、
少なくとも前記CNNからの第1の特徴マップを処理して前記画像の少なくとも1つの特性を表す少なくとも1つの注意ベクトルを生成するためのニューラルネットワーク(NN)を含み、
前記注意ベクトルが、前記第1の特徴マップと結合されて出力特徴ベクトルをレンダリングし、前記出力特徴ベクトルが、前記第1の特徴マップから導出されたプーリング済みの特徴ベクトルと結合されて前記キャプション生成モジュールに入力するための最終特徴ベクトルをレンダリングする、請求項9に記載の装置。
【請求項12】
前記NNが多層パーセプトロン(MLP)を含む、請求項11に記載の装置。
【請求項13】
前記キャプション生成モジュールが、
前記特徴生成モジュールからの特徴ベクトルを処理するための第1のNNと、
コンテキストベクトルを出力するための第2のNNと、
前記第1及び第2のNNによる出力を受信して、前記第1のNNの出力と結合される出力を生成することにより、1つ以上のベクトルと結合するための入力をレンダリングして結果をレンダリングするための第3のNNとを含む、請求項10に記載の装置。
【請求項14】
注意ベクトルを使用して前記特徴ベクトルを注意深くプーリングすることにより、注意深くプーリングされた特徴ベクトルを生成する、請求項13に記載の装置。
【請求項15】
前記注意深くプーリングされた特徴ベクトルが、入力から自然言語の単語を生成するニューラルネットワークに入力するために前記平均プーリングベクトルと結合される、請求項14に記載の装置。
【請求項16】
入力から自然言語の単語を生成する前記ニューラルネットワークが長短期記憶(LSTM)モジュールを含む、請求項15に記載の装置。
【請求項17】
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
第1のニューラルネットワーク(NN)を使用して画像の特性を表す特徴ベクトルを処理することと、
第3のNNを使用して第2のNNによって出力されたコンテキストベクトルを処理することと、
前記第1のNNの出力を前記第3のNNの出力と結合して入力をレンダリングすることと、
第4のNNを使用して前記入力を処理して注意ベクトルをレンダリングすることと、
前記注意ベクトルを前記コンテキストベクトルと結合して結合ベクトルをレンダリングすることと、
前記結合ベクトルを前記特徴ベクトルから導出されたプーリング済みのベクトルと結合して最終特徴ベクトルをレンダリングすることと、
キャプショニングNNを使用して前記最終特徴ベクトルを処理して、前記画像を説明する少なくとも1つの単語を生成することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含む、装置。
【請求項18】
前記最終特徴ベクトルを処理する動作が、少なくとも部分的に長短期記憶(LSTM)ニューラルネットワークを使用して実行される、請求項17に記載の装置。
【請求項19】
前記第2のNNが、
前のタイムステップにおいて前記キャプショニングNNによって予測された単語埋め込み、
前記キャプショニングNNからの最後の隠れ状態、
前記画像の平均プーリングされた特徴表現、
領域特徴ベクトルのセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴から選択された2つ以上の入力を含む入力に基づいて前記コンテキストベクトルを出力する、請求項17に記載の装置。
【請求項20】
一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、
第1のニューラルネットワーク(NN)を使用して特徴ベクトルを処理することと、
少なくとも1つのコンテキストベクトルを第2のNNに入力することと、
第3のNNであって、注意情報を出力する前記第3のNNに入力するために前記第1及び第2のNNの出力を結合することと、
前記注意情報を前記第1のNNの出力と結合して、前記特徴ベクトルによって表現された画像のキャプションの単語を予測するのに有用なコンテキスト特徴ベクトルを出力することとを行うように実行可能な命令を含む前記少なくとも1つのコンピュータ記憶装置を含む、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、一般に、コンピュータ技術に必然的に根ざしており、具体的な技術的改善をもたらす、技術的に創意工夫された非定型的な解決策に関する。
【背景技術】
【0002】
機械学習は、時として深層学習と称され、画像分類、光学式文字認識(OCR)、オブジェクト認識、アクション認識、スピーチ認識及び感情認識を含む、データの理解、検出及び/または分類に関する多岐にわたる有用な用途に使用することができる。
【0003】
特定のアプリケーションは、画像、画像内の被写体とオブジェクトとの両方、及びそれらが何をしているのかを説明するためのキャプションを生成している。確かに、シーンの理解は、今日のコンピュータビジョンの重要な目標である。人間は、短時間で視覚シーンを完全に把握する能力を持っている。シーン理解の目的は、機械が視覚シーンを人間として見て理解できるようにすることである。画像のキャプショニングでは、機械が所与の画像を自動的に理解し、自然言語の説明を生成する必要がある。このように、説明を視覚的または聴覚的に提示することにより、知覚の問題を有し得る人とそうでない人との両方を支援することができる。
【0004】
画像のキャプショニングは、所与の画像の合理的な説明を生成するために、機械が、非構造化オブジェクトのセットを有する画像の主要な視覚的態様を獲得し、人間が理解できる自然言語でシーンを表現する必要があることから、困難な問題であった。ゲーム用の利用可能な画像キャプションデータセットが存在しないため、ゲーム画像のキャプショニングは特に困難である。
【発明の概要】
【0005】
装置は、少なくとも1つのプロセッサと、一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、画像を受信することと、畳み込みニューラルネットワーク(CNN)を使用して画像を処理して特徴マップを生成することとを行うようにプロセッサによって実行可能な命令を順番に含む少なくとも1つのコンピュータ記憶装置とを含む。命令は、ニューラルネットワーク(NN)を使用して少なくとも特徴マップのうちの第1の特徴マップを処理して画像の少なくとも1つの特徴を表す少なくとも1つの注意ベクトルを生成することを行うように実行可能である。命令はさらに、注意ベクトルを第1の特徴マップと結合して出力特徴ベクトルをレンダリングすることと、出力特徴ベクトルを第1の特徴マップから導出されたプーリング済みの特徴ベクトルと結合して最終特徴ベクトルをレンダリングすることと、最終特徴ベクトルをキャプション生成ネットワークに入力して画像の自然言語のキャプションを生成することとを行うように実行可能である。
【0006】
例示的な実施形態では、画像はビデオゲームからの画像である。
【0007】
非限定的な実施態様では、NNは多層パーセプトロン(MLP)によって実装される。
【0008】
いくつかの実施形態では、命令は、出力特徴ベクトルをレンダリングするために注意ベクトルとの第1の特徴マップ内の特徴ベクトルにわたる加重和を実行することによって注意ベクトルを第1の特徴マップと結合することを行うように実行可能であり得る。命令は、出力特徴ベクトルとプーリング済みの特徴ベクトルとの要素ごとの加算を実行することによって出力特徴ベクトルをプーリング済みの特徴ベクトルと結合することを行うように実行可能であり得る。いくつかの実施態様では、命令は、出力特徴ベクトルをプーリング済みの特徴ベクトルと連結することによって出力特徴ベクトルをプーリング済みの特徴ベクトルと結合することを行うように実行可能である。
【0009】
別の態様では、装置は、一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、少なくとも1つの畳み込みニューラルネットワーク(CNN)を含む特徴生成モジュールを使用して画像を処理してボトムアップ機能情報を出力することを行うように実行可能な命令を順番に含む少なくとも1つのコンピュータ記憶装置を含む。ボトムアップ特徴情報は、画像を説明する自然言語のキャプションを出力するキャプション生成モジュールに入力される。モジュールの一方または両方は、注意ベクトルからの情報を特徴情報から導出された平均プーリングベクトルからの情報と結合する少なくとも1つの残差トップダウンネットワークを含むことができる。
【0010】
この態様の例示的な実施態様では、特徴生成モジュールは、注意ベクトルからの情報を特徴ベクトルのソースから導出された平均プーリングベクトルからの情報と結合する残差トップダウンネットワークを含む。この態様の例示的な実施態様では、キャプション生成モジュールは、注意ベクトルからの情報を特徴情報に関連付けられた特徴ベクトルから導出された平均プーリングベクトルからの情報と結合する残差トップダウンネットワークを含む。
【0011】
いくつかの実施形態では、特徴生成モジュールの残差トップダウンネットワークは、少なくともCNNからの第1の特徴マップを処理して画像の少なくとも1つの特性を表す少なくとも1つの注意ベクトルを生成するための多層パーセプトロン(MLP)などのニューラルネットワーク(NN)を含むことができる。注意ベクトルは、第1の特徴マップと結合されて出力特徴ベクトルをレンダリングし、出力特徴ベクトルは、第1の特徴マップから導出されたプーリング済みの特徴ベクトルと順番に結合されて、キャプション生成モジュールに入力するための最終特徴ベクトルをレンダリングする。
【0012】
他方、キャプション生成モジュールは、特徴生成モジュールからの特徴ベクトルを処理するための第1のNNと、コンテキストベクトルを出力するための第2のNNと、第2のNNによって出力されたコンテキストベクトルを受信して入力をレンダリングするために第1のNNの出力と結合される出力を生成するための第3のNNと、入力を処理して注意ベクトルをレンダリングするための第4のNNとを含むことができる。第4のNNからの注意ベクトルは、コンテキストベクトルと結合されて結合ベクトルをレンダリングし得、この結合ベクトルは、自然言語の単語を入力から生成する長短期記憶(LSTM)モジュールなどのニューラルネットワークに入力するために平均プーリングベクトルと順番に結合される。
【0013】
別の態様では、装置は、一時的信号ではない少なくとも1つのコンピュータ記憶装置であって、少なくとも1つのプロセッサにより、第1のニューラルネットワーク(NN)を使用して画像の特性を表す特徴ベクトルを処理することを行うように実行可能な命令を含む少なくとも1つのコンピュータ記憶装置を含む。命令は、第3のNNを使用して第2のNNによって出力されたコンテキストベクトルを処理することと、第1のNNの出力を第3のNNの出力と結合して入力をレンダリングすることとを行うように実行可能である。命令はさらに、第4のNNを使用して入力を処理してコンテキストベクトルと結合される注意ベクトルをレンダリングして結合ベクトルをレンダリングすることを行うように実行可能であり、この結合ベクトルは、特徴ベクトルから導出されたプーリング済みのベクトルと順番に結合されて注意ベクトルをレンダリングする。命令は、キャプショニングNNを使用して注意ベクトルを処理して画像を説明する少なくとも1つの単語を生成することを行うように実行可能である。
【0014】
この最後の態様の非限定的な実施態様では、予測ベクトルは、長短期記憶(LSTM)ニューラルネットワークを使用して処理され、1つ以上のNNは、多層パーセプトロン(MLP)によって実装され得る。例示的な実施形態では、第2のNNは、
(a)前のタイムステップにおいてキャプショニングNNによって予測された単語埋め込み、(b)キャプショニングNNからの最後の隠れ状態、(c)画像の平均プーリングされた特徴表現、及び(d)特徴のセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴のうちの少なくとも2つを含むことができる入力に基づいてコンテキストベクトルを出力する。
【0015】
別の態様では、コンピュータメモリは、第1のニューラルネットワーク(NN)を使用して特徴ベクトルを処理することと、少なくとも1つのコンテキストベクトルを第2のNNに入力することと、第3のNNに入力するために第1及び第2のNNの出力を結合することとを行うようにプロセッサによって実行可能な命令を含む。第3のNNは注意情報を出力する。命令は、注意情報を第1のNNの出力と結合して、特徴ベクトルによって表現された画像のキャプションの単語を予測するのに有用なコンテキスト特徴ベクトルを出力することを行うように実行可能である。
【0016】
本出願の詳細は、その構造と動作との両方について、同様の参照符号が同様の部分を指す添付図面を参照して最も良く理解することができる。
【図面の簡単な説明】
【0017】
【
図1】本原理と一致した例示的なシステムのブロック図である。
【
図2】例示的な論理全体を示すフローチャートである。
【
図3】コンピュータゲームシミュレーションもしくは他のコンピュータシミュレーションからのものであり得るか、または実世界のビデオからのものであり得る例示的な画像の概略図である。
【
図4】画像から特徴ベクトルを生成し、その特徴ベクトルを使用して、画像を説明する自然言語のキャプションを出力するための例示的な論理を示すフローチャートである。
【
図5】画像キャプショニングモデル全体のブロック図である。
【
図6】領域特徴ベクトルを抽出する特徴ベクトル生成モデルのブロック図である。
【
図7】
図6の特徴ベクトル生成モデルで使用される残差トップダウン注意モジュールのブロック図である。
【
図8】
図6及び
図7の構成要素によって実行される例示的なロジックを示すフローチャートである。
【
図9】キャプション生成モデルのLSTMユニットのうちの1つのブロック図であり、キャプション生成ネットワークは、典型的には、複数のそのようなLSTMユニットで構成されていることが理解される。
【
図10】
図9のキャプション生成モデルで使用される残差トップダウン注意モジュールのブロック図である。
【
図11】
図9及び
図10の構成要素によって実行される例示的なロジックを示すフローチャートである。
【
図12】代替的なキャプション生成モデルのブロック図である。
【
図13】
図12のキャプション生成モデルで使用される残差トップダウン注意モジュールのブロック図である。
【発明を実施するための形態】
【0018】
本明細書における特定の用語の理解を促進するために、トップダウン注意とは、画像に関連したコンテキスト情報を様々な方法で活用して空間的位置及び時間的特徴に対して注意を導くことを指す。トップダウン注意とは対照的に、ボトムアップ注意は、追加のコンテキスト情報を提供することなく自動的に画像内の複数の顕著な領域に選択的に注意を引き付ける。ボトムアップ注意ネットワークを使用して、入力画像内の顕著なオブジェクトを検出し、画像キャプショニングモデルへの入力として特徴を抽出することができる。本明細書で理解されるように、トップダウン注意は、情報を失うリスクの可能性があり、ボトムアップ注意は、検出された領域における空間的注意を無視する可能性がある。
【0019】
この開示はまた、一般に、限定されることはないが、分散コンピュータゲームネットワーク、拡張現実(AR)ネットワーク、仮想現実(VR)ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなどの、家電(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。
【0020】
本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ARヘッドセット、VRヘッドセット、Sony PlayStation(登録商標)などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ(例えば、スマートTV、インターネット対応TV)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の例を含む他のモバイルデバイスを含む1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、多岐にわたる動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、例として、OrbisもしくはLinux(登録商標)オペレーティングシステム、MicrosoftのオペレーティングシステムもしくはUnix(登録商標)オペレーティングシステム、またはApple,Inc.もしくはGoogleによって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、以下で議論されるインターネットサーバによってホスティングされたウェブサイトにアクセスすることができる、MicrosoftもしくはGoogleもしくはMozillaによって作られたブラウザ、または他のブラウザプログラムなどの、1つ以上のプログラム/アプリケーションを実行するために使用され得る。また、本原理に従った動作環境は、本原理を担う1つ以上のコンピュータゲームプログラム/アプリケーション及び他のプログラム/アプリケーションを実行するために使用され得る。
【0021】
サーバ及び/またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する1つ以上のプロセッサを含み得る。追加的または代替的に、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、Sony PlayStation(登録商標)、パーソナルコンピュータなどの、ゲームコンソール及び/またはその1つ以上のマザーボードよってインスタンス化され得る。
【0022】
情報は、クライアントとサーバとの間でネットワークを通じて交換され得る。この目的のために、さらにはセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、一時的記憶装置、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。1つ以上のサーバは、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティを本原理に従ってクラウドソーシングによってコミュニケーションするためにネットワークユーザに提供する方法を実施する装置を形成し得る。
【0023】
本明細書で使用される場合、命令は、本システムにおいて情報を処理するためのコンピュータによって実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアにおいて実施することができ、システムのコンポーネントが担ういずれかのタイプのプログラムされたステップを含むことができる。
【0024】
プロセッサは、アドレスライン、データライン及び制御ラインなどの各種のライン、ならびにレジスタ及びシフトレジスタによって論理を実行することができる、いずれかの従来の汎用シングルチッププロセッサまたはマルチチッププロセッサであり得る。
【0025】
本明細書でフローチャート及びユーザインタフェースによって説明されるソフトウェアモジュールは、各種のサブルーチン、手順などを含むことができる。本開示を限定することなく、特定のモジュールによって実行されるように規定された論理は、他のソフトウェアモジュールに再分配することができ、及び/または共に組み合わせて単一のモジュールにすることができ、及び/または共有可能ライブラリにおいて利用可能にすることができる。
【0026】
上記で指示されたように、本明細書で説明される本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、例示的なコンポーネント、ブロック、モジュール、回路及びステップが、それらの機能性の観点から記載される。
【0027】
さらに、上記で示唆されたものについて、以下で説明される論理ブロック、モジュール及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、もしくは特定用途向け集積回路(ASIC)などの他のプログラマブルロジックデバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実装または実行することができる。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせによって実装することができる。
【0028】
以下で説明される機能及び方法は、ハードウェア回路またはソフトウェア回路で実装され得る。ソフトウェアで実装されるとき、機能及び方法は、限定されることはないが、Java(登録商標)、C#またはC++などの適切な言語で書き込むことができ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラマブルリードオンリーメモリ(EEPROM)、コンパクトディスクリードオンリーメモリ(CD-ROM)もしくはデジタル多用途ディスク(DVD)などの他の光ディスク記憶装置、磁気ディスク記憶装置もしくは着脱可能なサムドライブを含む他の磁気記憶デバイスなどのコンピュータ可読記憶媒体上に記憶させることができるか、またはそのようなコンピュータ可読記憶媒体を通じて転送することができる。接続は、コンピュータ可読媒体を確立し得る。係る接続は、例として、光ファイバ及び同軸ワイヤ及びデジタル加入者回線(DSL)及びツイストペアワイヤを含む有線ケーブルを含むことができる。係る接続は、赤外線及び無線を含む無線通信接続を含み得る。
【0029】
一実施形態に含まれるコンポーネントは、他の実施形態では、いずれかの適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び/または図で示される各種のコンポーネントのいずれかが、組み合わされ得、交換され得、または他の実施形態から排除され得る。
【0030】
「A、B及びCのうちの少なくとも1つを有するシステム」(同様に「A、BまたはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、A単独、B単独、C単独、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、ならびに/またはA、B及びCを一緒に有するシステムなどを含む。
【0031】
ここで、具体的には
図1を参照すると、上記で言及され、本原理に従って以下でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示されている。システム10に含まれる例示的なデバイスのうちの最初のものは、限定されることはないが、テレビチューナ(同様に、テレビを制御するセットトップボックス)を備えたインターネット対応テレビなどのオーディオビデオデバイス(AVD)12などの家電(CE)デバイスである。しかしながら、AVD12は、代替的に、例えば、コンピュータ化されたインターネット対応冷蔵庫、洗濯機または乾燥機といった、電気器具または家庭用品であり得る。代替的に、AVD12はまた、コンピュータ化されたインターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、インターネット対応グラスまたは「スマート」グラス、コンピュータ化されたインターネット対応時計などの別のタイプのコンピュータ化されたウェアラブルデバイス、コンピュータ化されたインターネット対応ブレスレット、コンピュータ化されたインターネット対応ミュージックプレーヤー、コンピュータ化されたインターネット対応ヘッドフォン、埋め込み可能な皮膚用デバイスなどのコンピュータ化されたインターネット対応の埋め込み可能なデバイス、他のコンピュータ化されたインターネット対応デバイスなどであり得る。それにも関わらず、AVD12は、本原理を担う(例えば、本原理を担うように他の家電(CE)デバイスと通信し、本明細書で説明される論理を実行し、本明細書で説明されるいずれかの他の機能及び/または動作を実行する)ように構成されることが理解されよう。
【0032】
したがって、係る原理を担うために、AVD12は、
図1に示されるコンポーネントのいくつかまたは全てによって確立することができる。例えば、AVD12は、高解像度または超高解像度「4K」以上のフラットスクリーンによって実装され得、ディスプレイに対するタッチを介してユーザ入力信号を受信するためにタッチ対応であり得る1つ以上のディスプレイ14を含むことができる。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカ16、及び可聴コマンドをAVD12に入力してAVD12を制御するためのオーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12はまた、1つ以上のプロセッサの制御下で、インターネット、WAN、LANなどの、少なくとも1つのネットワーク22を経由して通信するための1つ以上のネットワークインタフェース20を含み得る。したがって、インタフェース20は、限定されることはないが、Wi-Fi送受信機であり得、このWi-Fi送受信機は、限定されることはないが、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの例である。さらに、ネットワークインタフェース20は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニー送受信機もしくは上記で言及されたようなWi-Fi送受信機などの他の適切なインタフェースであり得ることに留意されたい。
【0033】
1つ以上のプロセッサは、ディスプレイ14を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明されるAVD12の他の要素を含む、本原理を担うようにAVD12を制御することが理解されよう。1つ以上のプロセッサは、中央処理装置(CPU)24、及びグラフィックスカード25A上のグラフィックス処理装置(GPU)25を含み得る。
【0034】
上記に加えて、AVD12はまた、例えば、別の家電(CE)デバイスに(例えば、有線接続を使用して)物理的に接続するための高解像度マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通じてAVD12からユーザにオーディオを提供するためにAVD12にヘッドフォンを接続するためのヘッドフォンポートなどの、1つ以上の入力ポート26を含み得る。例えば、入力ポート26は、ケーブルまたはオーディオビデオコンテンツのサテライトソース26aに有線または無線を介して接続され得る。したがって、ソース26aは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース26aは、チャネル割り当て目的でユーザによって好みとみなされ得るコンテンツを含むゲームコンソールまたはディスクプレーヤーであり得る。ソース26aは、ゲームコンソールとして実装されるとき、CEデバイス44に関連して以下で説明されるコンポーネントのいくつかまたは全てを含み得、本明細書で説明される論理のいくつかまたは全てを実装し得る。
【0035】
AVD12はさらに、いくつかの場合には、スタンドアロンデバイスとして、もしくはパーソナルビデオレコーディングデバイス(PVR)としてAVDのシャーシ内で具現化され、またはAVプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでビデオディスクプレーヤーとして具現化され、または着脱可能なメモリ媒体として具現化された、一時的信号ではないディスクベースの記憶装置またはソリッドステート記憶装置などの1つ以上のコンピュータメモリ28を含み得る。また、いくつかの実施形態では、AVD12は、限定されることはないが、例えば、少なくとも1つのサテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはAVD12がプロセッサ24と共に配置される高度を判定するように構成された、携帯電話受信機、GPS受信機及び/または高度計30などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての3つの次元において、AVD12の場所を判定するために、携帯電話受信機、GPS受信機及び/または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。
【0036】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、赤外線(IR)カメラ、ならびに/またはAVD12に統合され、本原理に従って写真/画像及び/もしくはビデオを生成するようにプロセッサ24によって制御可能であるカメラであり得る。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術をそれぞれ使用して他のデバイスと通信するためのBluetooth(登録商標)送受信機34及び他のNFC要素36であり得る。例示的なNFC要素は、無線周波数識別(RFID)要素とすることができる。
【0037】
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、(例えば、ジェスチャコマンドを検出するための)ジェスチャセンサなど)を含み得る。AVD12は、プロセッサ24に入力を提供する無線経由TV放送を受信するためのOTAテレビ放送ポート38を含み得る。上記に加えて、AVD12はまた、赤外線データアソシエーション(IRDA)デバイスなどの赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。AVD12に給電するためにバッテリ(図示せず)が提供され得る。
【0038】
さらに
図1を参照すると、AVD12に加えて、システム10は、1つ以上の他の家電(CE)デバイスタイプを含み得る。一例では、第1のCEデバイス44は、AVD12に直接送られるコマンドを介して、及び/または以下で説明されるサーバを通じてコンピュータゲームのオーディオ及びビデオをAVD12に送るために使用され得る一方、第2のCEデバイス46は、第1のCEデバイス44と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス46は、示されるようにユーザ47によって装着されたARまたはVRヘッドセットとして構成され得る。示される例では、2つのCEデバイス44、46のみが示されているが、より少ない、またはより多いデバイスも本原理に従って使用され得ることを理解されたい。
【0039】
示される例では、3つのデバイス12、44、46は全て、安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくは例えば家庭内のWi-Fi(登録商標)などのネットワークのメンバであるか、または、少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに、及びサーバと通信可能であると仮定される。しかしながら、本原理は、他に明確に主張されない限り、特定の場所またはネットワークに限定されない。
【0040】
例示的な限定されない第1のCEデバイス44は、上記で言及されたデバイス、例えば、スマートフォン、デジタルアシスタント、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータまたはゲームコントローラ(「コンソール」とも称される)のうちのいずれか1つによって確立され得、したがって、以下で説明されるコンポーネントのうちの1つ以上を有し得る。限定されない第2のCEデバイス46は、ARヘッドセット、VRヘッドセット、「スマート」インターネット対応グラス、またはさらにはBlu-ray(登録商標)プレーヤー、ゲームコンソールなどのビデオディスクプレーヤーなどによって確立され得る。またさらに、いくつかの実施形態では、第1のCEデバイス44は、例えば、AVD12にAV再生及び一時停止コマンドを発行するためのリモート制御(RC)であり得、または、この第1のCEデバイスは、有線もしくは無線リンクを介して
図1に示されたデバイスのうちの別の1つによって実装されたゲームコンソールと通信し、AVD12、パーソナルコンピュータ、無線電話などに対するビデオゲームの提示を制御するタブレットコンピュータ、ゲームコントローラなどの、より洗練されたデバイスであり得る。
【0041】
したがって、第1のCEデバイス44は、1つ以上のディスプレイ50を含み得、このディスプレイは、ディスプレイ50に対するタッチを介してユーザ入力信号を受信するためのタッチ対応であり得る。追加的または代替的に、ディスプレイ50(複数可)は、ARヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにVRヘッドセットディスプレイ、またはAR及び/もしくはVR画像を提示するように構成された他のディスプレイなどの、少なくとも部分的に透明なディスプレイであり得る。
【0042】
第1のCEデバイス44は、本原理に従ってオーディオを出力するための1つ以上のスピーカ52、及びデバイス44を制御するために可聴コマンドを第1のCEデバイス44に入力するための、例えば、オーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス54を含み得る。例示的な第1のCEデバイス44はさらに、1つ以上のCEデバイスプロセッサ58の制御下で、ネットワーク22を経由して通信するための1つ以上のネットワークインタフェース56を含み得る。したがって、インタフェース56は、限定されることはないが、Wi-Fi送受信機であり得る。このWi-Fi送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ58は、例えば、ディスプレイ50を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明される第1のCEデバイス44の他の要素を含む、本原理を担うように第1のCEデバイス44を制御することが理解されよう。さらに、ネットワークインタフェース56は、例えば、有線もしくは無線のモデムもしくはルータ、または無線テレフォニー送受信機もしくは上記で言及されたようなWi-Fi送受信機などの他の適切なインタフェースなどであり得ることに留意されたい。
【0043】
またさらに、プロセッサ(複数可)58に加えて、第1のCEデバイス44はまた、グラフィックスカード55A上にグラフィックス処理ユニット(GPU)55を含み得ることに留意されたい。グラフィックス処理ユニット55は、とりわけ、ディスプレイ50上にAR及び/またはVR画像を提示するように構成され得る。
【0044】
上記に加えて、第1のCEデバイス44はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続するためのHDMI(登録商標)ポートもしくはUSBポート、及び/またはヘッドフォンを通じて第1のCEデバイス44からユーザにオーディオを提示するために第1のCEデバイス44にヘッドフォンを接続するためのヘッドフォンポートなどの、1つ以上の入力ポート60を含み得る。第1のCEデバイス44はさらに、ディスクベースの記憶装置またはソリッドステート記憶装置などの、1つ以上の有形コンピュータ可読記憶媒体62を含み得る。また、いくつかの実施形態では、第1のCEデバイス44は、限定されることはないが、例えば、三角測量を使用して、少なくとも1つのサテライト基地局及び/または携帯電話基地局から地理的位置情報を受信し、CEデバイスプロセッサ58に情報を提供し、及び/または第1のCEデバイス44がCEデバイスプロセッサ58と共に配置される高度を判定するように構成された携帯電話及び/またはGPS受信機及び/または高度計64などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての3つの次元において第1のCEデバイス44の場所を判定するために、携帯電話及び/またはGPS受信機及び/または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。
【0045】
第1のCEデバイス44の説明を続けると、いくつかの実施形態では、第1のCEデバイス44は、1つ以上のカメラ66を含み得る。このカメラは、例えば、サーマルイメージングカメラ、IRカメラ、ウェブカメラなどのデジタルカメラ、ならびに/または第1のCEデバイス44に統合され、本原理に従って写真/画像及び/もしくはビデオを生成するようCEデバイスプロセッサ58によって制御可能である別のタイプのカメラであり得る。また、第1のCEデバイス44に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術をそれぞれ使用して他のデバイスと通信するためのBluetooth(登録商標)送受信機68及び他のNFC要素70であり得る。例示的なNFC要素は、無線周波数識別(RFID)要素とすることができる。
【0046】
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つ以上の補助センサ72(例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、(例えば、ジェスチャコマンドを検知するための)ジェスチャセンサなど)を含み得る。第1のCEデバイス44は、例えば、CEデバイスプロセッサ58に入力を提供する1つ以上の気候センサ74(例えば、気圧計、湿度センサ、風力センサ、光センサ、温度センサなど)及び/または1つ以上の生体センサ76などの、さらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第1のCEデバイス44はまた、赤外線(IR)データアソシエーション(IRDA)デバイスなどのIR送信機及び/またはIR受信機及び/またはIR送受信機78を含み得ることに留意されたい。第1のCEデバイス44に給電するためにバッテリ(図示せず)が提供され得る。CEデバイス44は、上記で説明された通信モード及び関連コンポーネントのいずれかを通じてAVD12と通信し得る。
【0047】
第2のCEデバイス46は、CEデバイス44に関して示されたコンポーネントのいくつかまたは全てを含み得る。いずれか1つまたは両方のCEデバイスは、1つ以上のバッテリによって給電され得る。
【0048】
ここで、先に言及された少なくとも1つのサーバ80を参照すると、このサーバは、少なくとも1つのサーバプロセッサ82、ディスクベースの記憶装置またはソリッドステート記憶装置などの、少なくとも1つの有形コンピュータ可読記憶媒体84を含む。実施態様では、媒体84は、1つ以上のソリッドステート記憶ドライブ(SSD)を含む。サーバはまた、ネットワーク22を経由した
図1の他のデバイスとの通信を可能にし、実際には、本原理に従ってサーバとクライアントデバイスとの間の通信を容易化し得る少なくとも1つのネットワークインタフェース86を含む。ネットワークインタフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi送受信機、または無線テレフォニー送受信機などの他の適切なインタフェースであり得ることに留意されたい。ネットワークインタフェース86は、サーバプロセッサ82を通過することなく、いわゆる「ファブリック」などのネットワークに媒体84を直接接続するリモートダイレクトメモリアクセス(RDMA)インタフェースであり得る。ネットワークは、イーサネット(登録商標)ネットワーク及び/またはファイバチャネルネットワーク及び/またはインフィニバンドネットワークを含み得る。典型的には、サーバ80は、物理サーバ「スタック」に配列され得る「ブレード」と称される複数のコンピュータにおいて複数のプロセッサを含む。
【0049】
したがって、いくつかの実施形態では、サーバ80は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を実行し得、それにより、システム10のデバイスは、例えば、本明細書に開示されるようなドメイン適応のための例示的な実施形態ではサーバ80を介して「クラウド」環境にアクセスし得る。追加的または代替的に、サーバ80は、1つ以上のゲームコンソール、または
図1に示された他のデバイスと同じ部屋もしくはその近くにある他のコンピュータによって実装され得る。
【0050】
以下で実施態様の詳細を説明するのに先立って本原理を簡潔に要約するために、マルチレベルの残差注意ベースの画像キャプショニングモデルでボトムアップ注意がトップダウン注意と結合される。図及び他の場所でResTD注意ネットワークと称される残差トップダウン注意モデルは、典型的な視覚的注意ネットワークにおける情報損失を防ぐ。図及び他の場所でResTD_BPネットワークと称されるボトムアップ注意ネットワークは、本明細書で注意プーリングを備えたResTD_1と称される残差トップダウン注意モジュールを使用する。このように、各空間的位置の異なる重要性を考慮に入れることにより、検出された各領域について改善された特徴表現が学習される。
【0051】
さらに、本明細書でResTD_2と称される、新しい残差トップダウン注意ネットワークが画像キャプショニングモデル内に実装されて、入力されたボトムアップ領域特徴ベクトル間の注意分布を学習するため、予測される次の単語により関連性のある領域情報が選択される。さらに、本原理は、本明細書でResTD_LSTMと称される、複数の残差トップダウン注意ベースの長短期記憶(LSTM)ユニットを含むキャプション生成ネットワークを提供する。各ResTD_LSTMユニットでは、入力されたボトムアップ領域特徴ベクトルに加えて、4つのコンテキストベクトルが結合され、例えば、連結され、多層パーセプトロン(MLP)モジュールに入力されて、注意分布学習用のコンテキスト情報を提供するために、ResTD_2(キャプション生成器内の残差トップダウン注意ネットワーク)への入力としてコンテキストベクトル全体を学習する。また、キャプション生成ネットワークでは、タイムステップt-1での出力単語をコンテキストベクトルとして扱い、タイムステップtで次のResTD_LSTMユニットに入力することができる。
【0052】
本原理の潜在的なアプリケーションには、限定されることはないが、コンピュータゲームにおけるオンデマンドアクセシビリティが含まれる。例えば、一部のゲームプレイヤーには視覚障害があり、画像のキャプショニングを使用することにより、シーンの説明を生成し、TTS(テキスト・トゥ・スピーチ)技術の助けを借りてスピーチに変換することができる。加えて、ゲームプレイヤーが、ゲームの途中で邪魔される恐れがあり、ゲームを続行することを望む場合があるが、そのとき、ゲームプレイヤーは、画像のキャプショニングの助けを借りて、コンピュータまたはゲームコンソールから離れたまま進行中のゲームを聞くことができる。他のアプリケーションは、ゲームオブジェクトの検出を含み、それにより、所与の画像について各領域内の空間的位置を考慮することにより、より良い画像表現を学習させることができる。本原理はまた、例えば、顔、目、鼻、唇などの、人間の顔の異なる部分を検出することによって顔の感情認識を改善するために使用され得る。検出された顔の部分に対して残差トップダウン注意を実施することにより、特定の感情により関連性のある部分に選択的に注意が向けられる。さらに、本原理は、実世界のビデオの説明における使用に適合させることができる。
【0053】
上記を念頭に置き、ここで本原理を全体的に理解するために
図2に目を向けると、以下でさらに議論されるニューラルネットワークモデルが、ブロック200で訓練データセットを使用して訓練される。一旦訓練されると、それらのモデルは、以下の議論に従ってブロック202で1つ以上の画像に対して実行される。結果は、ブロック204で評価される。
【0054】
ゲーム画像のキャプチャリングに対し、ブロック200での例示的な訓練は、Krisna et al., 「Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations」,Int'l Journal of Computer Vision,123(1):32-73(2017)において議論された視覚的ゲノムデータセットを使用し得る。加えて、ゲーム画像データセットは、領域提案生成及び画像特徴抽出のために、以下で説明される1つ以上の畳み込みニューラルネットワーク(CNN)、例えば、Faster R-CNNを訓練するために使用され得る。画像のキャプショニングに対し、いくつかの例では、コンテキスト内の視覚的共通オブジェクト(V-COCO)データセット及びゲームデータセットを含む2つのデータセットが使用され得る。V-COCOデータセットは、Lin et al.,in 「Common Objects in Context」、European Conference on Computer Vision、740~755ページ、Springer、2014において説明されたMicrosoftCOCOデータセットのサブセットである。
【0055】
加えて、ネットワークを訓練するために、ゲーム画像のキャプショニング用にゲームデータセットが生成され得る。データセット名が示すように、多数のゲームビデオ(例えば、数百)から多数の画像(例えば、数千)が収集され得、それらの画像には、領域の説明、境界ボックス及び関連付けられたオブジェクト名を用いて注釈が付けられ得る。ゲームデータセットは、3つの部分、すなわち訓練用、検証用及びテスト用のそれぞれに分割することができる。
【0056】
ブロック204での評価について、いくつかの例では、例えば、PlayStation(登録商標)画像に対する、以下でさらに説明される注意ベースの画像キャプショニングネットワークのパフォーマンスを評価するために、ゲーム画像(上記で説明されたゲームデータセットのテスト分割)のみがモデルの評価に使用され得る。ResNet-101は、特徴埋め込み学習に使用され得る。ゲームのキャプショニングの結果を評価するために、CIDEr、METEOR、ROUGE、BLEU及びSIM_USEを含む、様々なメトリックのセットが展開され得る。
【0057】
図3は、斧を上げながら走る行動をとっている女性302のゲーム画像が示された例示的な画像300を示す。
【0058】
図4は、ブロック400で始まる論理全体を示す。このブロックでは、(例えば)画像300が1つ以上のCNNを使用して処理されて、例えば、画像内の色、画像内のオブジェクト境界、画像内のオブジェクトのタイプなどの、画像の特性を説明する情報を含むボトムアップ特徴ベクトル(FV)を生成する。以下でさらに議論されるように、例示的な実施形態では、注意ベースのFaster R-畳み込みニューラルネットワーク(CNN)を使用して領域特徴ベクトルが抽出され、それにより、各画像について、画像内の異なる領域について多数の特徴ベクトルが抽出される。以下でもさらに議論されるように、注意を伴うボトムアップ特徴ベクトルは、Faster R-CNNネットワーク(このネットワークはオブジェクト検出用である)、及びFaster R-CNNネットワークの一部としてのResNet-101サーバに基づいて抽出される。
【0059】
特徴ベクトルは、ブロック404で画像の自然言語のキャプションを生成するために、ブロック402で、以下でさらに説明される残差トップダウンネットワークに入力される。直後により一層詳細に説明されるように、残差トップダウンネットワークは、注意ベクトルを、特徴ベクトルから導出された平均プーリングベクトルと結合することができる。キャプションは、ブロック406で、ビデオディスプレイ、オーディオスピーカ、ブザーなどの1つ以上の出力デバイス上に人間が知覚できる形式で、例えば、視覚的に、及び/または聴覚的に、及び/または触覚的に提示され得る。
【0060】
図5は、主として2つの部分、すなわち、画像300及び出力領域特徴502からボトムアップ領域特徴を抽出するためのResTD_BPニューラルネットワーク500、ならびに抽出された領域特徴を受信して、複数のモジュール506を連続的に使用して、画像300(示された例では、「a woman running with axe(斧を持って走っている女性)」)を説明する自然言語での単語単位のキャプション508を予測するキャプション生成ネットワーク504で構成された例示的なモデル全体を示す。ResTD_BPニューラルネットワーク500のボトムアップ注意モデルは、領域特徴を、画像300内のその顕著性に基づいて抽出するためのFaster R-CNNネットワークを含み得る。しかしながら、RoIプーリング層から出力された特徴マップに対するグローバル平均プーリングを通じて領域特徴を抽出する代わりに、以下でさらに説明されるようにトップダウン注意がFaster R-CNNベースのボトムアップ注意ネットワークに導入され、各領域内のいくつかのエリアに選択的に注意を向けることによって領域の特徴表現を学習するように残差トップダウン注意ネットワーク(ResTD_1)によって残差注意プーリングが実装される。
【0061】
したがって、ResTD_BPネットワーク500の例示的な実施態様の詳細な理解のために、ここで
図6及び
図7に目を向けると、ResNet-101ニューラルネットワークなどの深層畳み込みニューラルネットワーク600を通じて画像300が入力及び処理されて、所与の各画像300についてボトムアップ領域特徴602のセットを抽出する。次いで、領域提案ネットワークが中間特徴マップに対して適用されて複数の領域提案を予測し、それらの中から、非最大抑制及びIoU閾値を適用することによってサブセットのみが選択され得る。次いで、関心領域(RoI)プーリングが展開されて、選択された各領域について典型的には固定されたサイズの特徴マップ604を抽出する。
図6の「X」606によって示されるように、グローバル平均プーリングを適用する代わりに、残差トップダウン注意ネットワーク608を使用して領域特徴マップを注意深くプーリングすることができる。ResTD_BPネットワークの出力は、領域特徴ベクトル610のセットであり、これらは、
図5に示され、
図9~11を参照してさらに説明されるキャプション生成ネットワーク504に入力される。
【0062】
図7は、ボトムアップ注意ネットワーク(「ResTD_BP」)内の残差トップダウン注意ネットワーク608(図では「ResTD-1」と称される)の詳細を示す。示されるように、RoIプーリング後の特定の領域の特徴マップ604は、示された例ではそれぞれ7x7x2048の次元を有し、ニューラルネットワークに入力される。示された例では、ニューラルネットワークは、フィードフォワード人工ニューラルネットワークとすることができ、特定の実施態様では多層パーセプトロン(MLP)700とすることができる。この多層パーセプトロンは、1×Nの形状を有する注意ベクトル702によって表現され得る、領域特徴のN個(示された例では、N=49)の空間的位置にわたる注意分布を学習するためにソフトマックス活性化関数に関連付けることができる。注意ベクトル702は、704で特徴604と結合され得、例えば、注意深いプーリングが、学習された注意ベクトル702とのN個の場所の特徴ベクトルにわたる加重和を実施することによって実行されて、1×2048の次元を有し得る注意深くプーリングされたグローバル特徴ベクトル705が生じ得る。
【0063】
トップダウン注意を導くためにボトムアップ注意ネットワークに追加のコンテキスト情報が導入されていないことを認めて、注意深いプーリングから重要な情報が失われるのを防ぐために残差モジュールがトップダウン注意ネットワーク内に実装される。より具体的には、注意深くプーリングされた特徴ベクトル705は、例えば、要素ごとの加算を使用して、706で、テスト中の領域の平均プーリングされたグローバル特徴ベクトル610Aと結合されて、その領域の最終特徴ベクトル708を出力する。
【0064】
図8は、プログラミングの制限という意図ではなく、説明を容易にするためのフローチャート形式で、
図7及び8のシステムで具現化されるロジックを示す。ブロック800から始まって、畳み込みニューラルネットワーク(CNN)は、CNNに入力される画像から特徴マップを生成する。ブロック802に移動すると、少なくとも特徴マップのうちの第1の特徴マップが、多層パーセプトロン(MLP)などのニューラルネットワークを使用して処理されて、画像の少なくとも1つの特徴を表す、注意深くプーリングされたグローバル特徴ベクトルを生成する。ブロック804に進むと、注意ベクトルは、第1の特徴マップと結合されて出力特徴ベクトルをレンダリングし、この出力特徴ベクトルは、ブロック806で、第1の特徴マップから導出された平均プーリングされた特徴ベクトルなどのプーリング済みの特徴ベクトルと結合されて最終特徴ベクトルをレンダリングする。最終特徴ベクトルは、キャプション生成ネットワークに到達して、画像の自然言語のキャプションを生成することができる。
【0065】
ここで、
図5に示されたキャプション生成ネットワーク504(本明細書では残差トップダウン注意LSTM(ResTD_LSTM)モジュールと称され、明確にするために複数のモジュール506のうちの1つのみを示す)を理解するために
図9~11に目を向けると、
図5のネットワーク500からの領域特徴ベクトル502のセットは、各タイムステップでキャプションを単語単位で予測するための入力である。残差トップダウン注意を適用することにより、各タイムステップで、キャプション生成LSTMは、選択的な領域に注意を向け、キャプション単語を注意深く生成することが可能である。
【0066】
示されたように、例示的なResTD_LSTMは、残差トップダウン注意モデル及び長短期記憶(LSTM)ベースのキャプション予測モデルを含む、2つの部分を含むことができる。時間ステップtでのResTD_LSTMの多層パーセプトロン(MLP)900などのニューラルネットワークへの入力は、前の時間ステップから予測された単語埋め込み906(
図9でW
e*E
yt-1と指定されている)、キャプション生成LSTMからの最後の隠れ状態902(h
t-1と指定されている)、全体画像の平均プーリングされた特徴表現708 x
0、ならびに特徴のセット(以下の
図10でX
bと指定されている)の中からのグローバルに平均プーリングされたボトムアップ領域特徴904A(x
bと指定されている)を含む、コンテキスト情報を含む。
図5のボトムアップ特徴ベクトル502は、
図9でX
bと指定されたものと同じであることに留意されたい。
【0067】
コンテキスト情報は、例えば、連結または加算により、2つのグローバルな画像表現と結合され、MLP900に供給されて、学習された汎用コンテキストベクトル908(x
ct-1と指定されている)を、ResTD_2と指定され、
図10で詳細に示される第2の残差トップダウン注意ネットワーク910を導くための入力として出力する。コンテキストベクトル908(x
ct-1)、及びボトムアップ特徴ベクトル502のセットを入力として受け取って、ResTD_2モデル910は、入力されたボトムアップ領域特徴ベクトルにおける注意分布を学習し、予測される単語により関連性のある特定の領域に選択的に注意を向ける。汎用特徴ベクトル912は、モジュール910によって出力され、914でコンテキストベクトル908 x
ct-1と結合される。状態914からの結合は、
図9においてy
tと指定されたキャプションの次の単語918を予測するために共にLSTMモジュール916に入力される。LSTM916はまた、最後の隠れ状態902(h
t-1)を入力として受け取り、次の入力段で使用するために現在の隠れ状態920(h
t)を出力することに留意されたい。
【0068】
図10は、
図9に示されたResTD_2モジュール910の詳細を示す。先に説明された
図7のResTD_1モジュールと同様に、
図9のResTD_2は、予測される次の単語により関連する特定の領域を選択するのに役立つ残差トップダウン注意ネットワークであることに留意されたい。しかしながら、
図10のモジュールは、
図7のモジュールとは対照的に、MLPによって実装され得る第1のニューラルネットワーク1000で、入力特徴ベクトルX
bのセット502を受信することに加えて、MLPによって実装され得る第2のニューラルネットワーク1002で、入力されたボトムアップ領域特徴ベクトルのセットにおける注意分布を学習するのに役立つようにコンテキストベクトル908(x
ct-1)をも受信する。ニューラルネットワーク1000、1002の出力は、(例えば、加算を使用して)1004で結合され、第3のニューラルネットワーク1006に入力される。この第3のニューラルネットワークもMLPによって実装され得る。
【0069】
第3のNN1006は、別の注意ベクトル1008を出力し、この注意ベクトルは、1010で(例えば、乗算などによって)入力特徴ベクトルXbのセット502と結合されて、一実施形態では注意深くプーリングされたグローバル特徴ベクトルである積1012を生成する。次に、積1012は、1014で、グローバルに平均プーリングされたボトムアップ領域特徴904A(xbと指定されている)と(例えば、加算によって)結合されて、汎用特徴ベクトル912を出力として生成する。したがって、重要な特徴情報の漏洩を防ぐために、キャプション生成モジュール内にも残差モジュールが実装される。
【0070】
図11は、プログラミングの制限という目的ではなく、説明を容易にするためのフローチャート形式で、
図9及び10のシステムで具現化された論理を示す。ブロック1100で始まって、画像の特性を表す特徴ベクトルが、第1のニューラルネットワーク(NN)(
図10のネットワーク1000など)を使用して処理される。ブロック1102に移動すると、第2のNN(
図9の最初のNN900など)によって出力されたコンテキストベクトルが、第3のNN(
図10に示されたNN1002など)を使用して処理される。ブロック1104で、第1のNNの出力が(
図10の1004などで)第3のNNの出力と結合されて第4のNN(NN1006など)への入力をレンダリングして、ブロック1106で注意ベクトル1008をレンダリングする。本質的に、一実施形態では、ブロック1106で、結合された特徴ベクトルは、注意ベクトルを生成するために第3のMLPに埋め込まれる。
【0071】
ブロック1108に移動すると、注意ベクトルは、(1010などで)特徴ベクトルのうちの1つ以上と結合されて、結合ベクトル(注意深くプーリングされた特徴ベクトルであり得る積1012など)をレンダリングする。ブロック1108で、入力された領域特徴ベクトルを注意ベクトルと融合させて/プーリングして、簡略的に「結合ベクトル」と称される、注意深くプーリングされたグローバル特徴ベクトルを出力することができる。
【0072】
ブロック1110に進むと、注意深くプーリングされた特徴ベクトルは、特徴ベクトルから導出されたプーリング済みのベクトル(グローバルに平均プーリングされたボトムアップ領域特徴904Aなど)と結合されて、注意ベクトル(注意特徴ベクトル912など)をレンダリングする。ブロック1112で、注意ベクトルは、画像を説明する少なくとも1つの単語を生成するためにLSTMによって処理される。
【0073】
図12及び13は、代替的なキャプション生成ネットワーク1200(ResTD_LSTMとラベル付けされている)を示す。代替的なキャプション生成ネットワーク1200は、第1のLSTMセル1202によって実装され得る第1のニューラルネットワークを含む。第1のLSTMセル1202は、画像特徴情報をコンテキスト情報と結合する。一例では、第1のLSTMセル1202は、これらの2つの情報を連結して、
図12でh
1
tとラベル付けされた汎用コンテキストベクトルを形成する。コンテキストベクトルは、注意分布の学習を支援するためのガイダンスとして、ResTD_2と指定され、
図13で詳細に示される残差トップダウン注意ネットワーク1204に転送されるために送られる。
【0074】
より一層具体的には、X
rb(
図5からの領域特徴ベクトル502のセット)にわたる平均プーリングが取得されて、第1のLSTM1202に入力される平均プーリングされたグローバルボトムアップ特徴ベクトル1206(x
rbとラベル付けされている)が得られる。領域特徴ベクトルのセットX
rbは、N個の異なる領域の特徴表現のみをカバーしていることを認めると、全体画像のいくつかの特徴を欠いている。データ損失の問題を解決するために、全体画像のグローバル特徴ベクトル1208(
図12で上に平均線が付いたXとラベル付けされている)が第1のLSTM1202に入力される。このグローバル特徴ベクトルは、セットXにわたってグローバル平均プーリングを行うことによって取得することができる。
【0075】
加えて、第1のLSTM1202は、入力として、コンテキスト情報の2つの構成要素1210、1212、具体的には、前の時間ステップから予測された単語埋め込み(
図12でW
ee
wt-1とラベル付けされている)、及び
図12でLSTM_2とラベル付けされた第2のLSTMセルによって実装され得るキャプション生成ニューラルネットワーク1214の前のタイムステップにおいて取得された隠れ状態(h
t-1
2とラベル付けされている)を受信する。h
1
tとラベル付けされた第1のLSTM1202の出力1216は、ニューラルネットワーク1204に送られる汎用コンテキストベクトルである。
【0076】
汎用コンテキストベクトルは、以下のように計算され得ることに留意されたい。
【0077】
h1
t=LSTM([h2
t-1;x;xrb;We1wt-1];h1
t-1);式中、We1wt-1は、単語wt-1のワンホット埋め込みであり、We∈RMxVであり、Vは画像キャプションの語彙のサイズである。
【0078】
図12に示されるように、グローバルコンテキストベクトルh
1
t及び
図5からの領域特徴ベクトルのセットX
rbは、第2の残差トップダウン注意ネットワーク1204(ResTD_2)に入力されて、N個の領域にわたる注意分布を学習し、それらを融合させることにより、第2のニューラルネットワーク1214に入力される出力コンテキストベクトル1218(x
rctとラベル付けされている)を取得する。第2のニューラルネットワーク1214はまた、入力として、前の時間ステップからの隠れ状態1212(h
2
t-1)、及び第1のニューラルネットワーク1202からの汎用コンテキストベクトル1216(h
1
t)を受信する。第2のニューラルネットワーク1214の出力1220は、現在の隠れ状態h
2
tである。この隠れ状態が、次のタイムステップにおいて隠れ状態1212としての第1のニューラルネットワーク1202と単層パーセプトロン1222との両方に入力され、次の単語wtを予測するためのソフトマックス関数1224が続く。具体的には、タイムステップtでの次の可能な単語の分布は、
p
θ(w
t|w
1,...w
t-1)=σ(W
wh
2
t)であり、式中、W
W∈R
HxV及びθはモデルパラメータである。タイムステップt-1で予測される単語は、
w
t=argmax(w)p
0(w|w
1,...w
t-1)である。
【0079】
例では、一連のグラウンドトゥルースの単語w*=(w*
1,...w*
T)が与えられ、クロスエントロピー損失を最小化することによって画像キャプショニングネットワークを訓練することができる。一例では、クロスエントロピー損失L(θ)は、log pθ(w*
t|w*
1,...w*
t-1)のt=1からTにわたる合計である。
【0080】
ここで、
図12に示されたResTD_2ネットワーク1204の理解のために
図13に目を向けると、この残差トップダウン注意ネットワークは、予測される次の単語により関連性のある特定の領域に選択的に注意を向ける。
図13に示されるように、領域特徴ベクトルX
rbは、単層パーセプトロンによって実装され得る第1のニューラルネットワーク1300に送られる一方、コンテキストベクトル1216(h
1
t)は、第2のニューラルネットワーク1302に入力される。この第2のニューラルネットワークも単層パーセプトロンによって実装され得る。第1及び第2のNN1300、1302の出力は、一例では要素ごとに合計することなどによって1304で結合されて、x
stとラベル付けされた結合出力1306を生成し、この出力は次に、第3のNN1308に入力される。この第3のNNも、2層パーセプトロンなどのMLPによって実装され得る。第3のNN1308によって学習される出力1310は、N個の領域特徴ベクトルの注意分布である。具体的には、
x
st=σ(W
hh
1
t[+]σ(W
rX
rb));(ここで[+]は直和を示す)及び
β
t=σ(W
s2σ(W
s1x
st))であり、式中、W
r∈R
KxD、W
h∈R
KxM、W
s1∈R
PxK、及びW
s2∈R
Kである。入力された領域特徴ベクトルβ
tにわたる注意分布が与えられると、1312で、N個の異なる領域特徴を第1のNN1300の出力と結合して(例えば、融合させて)、β
ix
rbiのi=1~Nにわたる合計に等しいコンテキスト特徴ベクトル1314(x
ctとラベル付けされている)を出力することができる。
【0081】
1316で、注意深いプーリングにおける情報損失を防ぐために、コンテキスト特徴ベクトル1314(x
ctとラベル付けされている)は、グローバル特徴ベクトル1206と(例えば、連結などによって)結合され得る。このグローバル特徴ベクトルは、X
rbにわたる平均プーリングを使用して取得され、再現され得る。これにより、汎用コンテキスト特徴ベクトル1218(
図12でx
rctとラベル付けされている)=x
ct[+]x
rb(ここで[+]は直和を示す)が得られる。
【0082】
ここで、ゲームシーンを理解するためのマルチレベルの残差注意ベースの画像キャプショニングモデルが、ボトムアップ注意をトップダウン注意と統合することによって提供されることが認識され得る。最初に、トップダウン注意からの学習済みの注意の重みとの特徴融合の過程で重要な情報が失われる問題を解決するために、失われた情報を補償するのに役立つ新規の残差注意ネットワークが提供される。キャプション予測に残差注意を適用するために、新規の残差トップダウン注意ベースのLSTMユニットが提供される。加えて、残差トップダウン注意ネットワークがボトムアップ注意ネットワーク内に実装されて、より良い領域特徴表現をさらに学習する。ゲームシーンを理解するためのパフォーマンスを検証するために、ゲーム画像のキャプショニングデータセットへのアクセスがなされる。
【0083】
上記で説明された注意メカニズムをさらに示すために、異なるタイムステップに対応する学習済みの注意マップが視覚化され得る。具体的には、各特徴ベクトルについての学習済みの注意の重みを、再形成し、サイズ変更し、ゲーム画像上にオーバーレイすることができる。加えて、赤い境界ボックスで囲まれ得る領域は、画像上で最も重要なエリア(最大の注意の重みに対応する)を示す。
【0084】
いくつかの例示的な実施形態を参照して本原理が説明されてきたが、これらは限定することを意図しておらず、各種の代替的な配置が本明細書で特許請求される主題を実装するために使用され得ることが認識されよう。
【国際調査報告】