IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

<>
  • 特表-音響効果のテキスト注釈 図1
  • 特表-音響効果のテキスト注釈 図2A
  • 特表-音響効果のテキスト注釈 図2B
  • 特表-音響効果のテキスト注釈 図2C
  • 特表-音響効果のテキスト注釈 図2D
  • 特表-音響効果のテキスト注釈 図3
  • 特表-音響効果のテキスト注釈 図4
  • 特表-音響効果のテキスト注釈 図5
  • 特表-音響効果のテキスト注釈 図6
  • 特表-音響効果のテキスト注釈 図7
  • 特表-音響効果のテキスト注釈 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-17
(54)【発明の名称】音響効果のテキスト注釈
(51)【国際特許分類】
   G10L 25/57 20130101AFI20220107BHJP
   G10L 25/30 20130101ALI20220107BHJP
   H04N 21/84 20110101ALI20220107BHJP
   H04N 21/235 20110101ALI20220107BHJP
   H04N 21/233 20110101ALI20220107BHJP
   H04N 5/278 20060101ALI20220107BHJP
【FI】
G10L25/57
G10L25/30
H04N21/84
H04N21/235
H04N21/233
H04N5/278
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021523900
(86)(22)【出願日】2019-09-30
(85)【翻訳文提出日】2021-04-30
(86)【国際出願番号】 US2019053751
(87)【国際公開番号】W WO2020091930
(87)【国際公開日】2020-05-07
(31)【優先権主張番号】16/177,232
(32)【優先日】2018-10-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】表 雅則
【テーマコード(参考)】
5C023
5C164
【Fターム(参考)】
5C023AA18
5C023CA01
5C023CA04
5C023DA08
5C164FA22
5C164MB11P
5C164PA41
5C164SB04P
5C164SB06P
5C164UC01S
(57)【要約】
【解決手段】カラーまたは視覚障害への適応は、選択的なカラーの置換によって実施することができる。カラー適応モジュールは、ホストシステムから画像フレームを受け取り、画像フレームのカラー適合バージョンを生成する。カラー適応モジュールは、画像フレーム内の1つ以上のカラーを1つ以上の対応する代替カラーで置き換えるルールベースのフィルタを含むことができる。
【選択図】図8
【特許請求の範囲】
【請求項1】
オーディオビジュアルコンテンツのアクセシビリティを強化するためのシステムであって、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成するように構成されている音響効果注釈モジュールを含む、
システム。
【請求項2】
前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項1に記載のシステム。
【請求項3】
前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項1に記載のシステム。
【請求項4】
前記音響効果注釈モジュールが、前記オーディオセグメント内で発生する前記主要な音響効果を分類するように構成されているニューラルネットワークを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項1に記載のシステム。
【請求項5】
前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要な音響効果を分類するための時間以下である、請求項1に記載のシステム。
【請求項6】
前記音響効果注釈モジュールに結合されたコントローラをさらに含み、前記コントローラは、表示画面に表示するために前記1つ以上のタグをホストシステムに提供し、前記音響効果注釈モジュールの出力を1つ以上の他のニューラルネットワークモジュールと同期させるように構成されている、請求項1に記載のシステム。
【請求項7】
前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項6に記載のシステム。
【請求項8】
ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項1に記載のシステム。
【請求項9】
オーディオビジュアルコンテンツのアクセシビリティを強化するための方法であって、
オーディオセグメント内で発生する主要な音響効果を分類して、音響効果注釈モジュールを使用して前記オーディオセグメント内で発生する前記主要な音響効果を記述する1つ以上のタグを生成することを含む、方法。
【請求項10】
前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項9に記載の方法。
【請求項11】
前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項9に記載の方法。
【請求項12】
オーディオ記述モジュールを用いて前記オーディオセグメント内で発生する主要なオーディオイベントを分類することは、ニューラルネットワークを使用して前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類することを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項9に記載の方法。
【請求項13】
前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類するための時間以下である、請求項9に記載の方法。
【請求項14】
表示画面に表示するために前記1つ以上のタグをホストシステムに提供することと、オーディオ記述モジュールの出力を、前記オーディオ記述モジュールに結合されたコントローラを備えた1つ以上の他のニューラルネットワークモジュールと同期させることとをさらに含む、請求項9に記載の方法。
【請求項15】
前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項14に記載の方法。
【請求項16】
ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項9に記載の方法。
【請求項17】
コンピュータ可読命令を中に具現化している非一時的なコンピュータ可読媒体であって、前記命令は、実行時に、オーディオビジュアルコンテンツのアクセシビリティを強化するための方法を実施するように構成されており、前記方法は、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、オーディオ記述モジュールを使用して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成することを含む、非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オーディオビジュアルメディア強化の分野、特に障害者のアクセシビリティを改善するための既存のオーディオビジュアルメディアへのコンテンツの追加に関する。
【背景技術】
【0002】
ビデオゲームなどのすべてのオーディオビジュアルメディアが障害者にアクセスできるわけではない。ビデオゲームでは、聴覚障害者のために機能を果たすキャプション付き音声を有することがますます一般的になっているが、視覚障害などの他の障害には対応できない。さらに、古い映画やゲームにはキャプションが含まれていなかった。
【0003】
ビデオゲームのインタラクティブなオーディオビジュアルの性質を組み合わせることは、単にシーンを通過してそれらを説明することが不可能であることを意味する。今日の多くのビデオゲームには、ユーザが多数のオプションを持っているオープンワールドコンポーネントが含まれており、これは、ゲーム内の2つのアクションシーケンスが同一ではないことを意味する。さらに、色覚異常のためにカラーパレットをカスタマイズすることは、シーンの数と各シーン内の色が非常に多いため、多くのビデオゲームや映画では不可能である。結局、障害者のための適応がなされていない多くのビデオゲームや映画がすでに存在し、そのような適応を追加するには時間がかかり大きな労力が必要となる。
【発明の概要】
【0004】
本発明の実施形態が現れるのはこの文脈内である。
【図面の簡単な説明】
【0005】
本発明の教示は、添付図面と併せて以下の発明を実施するための形態を検討することによって容易に理解できる。
【0006】
図1】本開示の態様による、オンデマンドアクセシビリティシステムの概略図である。
図2A】本開示の態様による、オンデマンドアクセシビリティシステムで使用するためのリカレントニューラルネットワークの簡略化されたノード図である。
図2B】本開示の態様による、オンデマンドアクセシビリティシステムで使用するための展開されたリカレントニューラルネットワークの簡略化されたノード図である。
図2C】本開示の態様による、オンデマンドアクセシビリティシステムで使用するための畳み込みニューラルネットワークの簡略図である。
図2D】本開示の態様による、オンデマンドアクセシビリティシステムにおいてニューラルネットワークをトレーニングするための方法のブロック図である。
図3】本開示の態様による、アクション記述コンポーネントシステムの動作プロセスを示すブロック図である。
図4】本開示の態様による、タグ付けされたシーン要素を備えた画像フレームを示す図である。
図5】本開示の態様による、シーン注釈コンポーネントシステムエンコーダデコーダのトレーニング方法のブロック図である。
図6】本開示の態様による、カラー適応コンポーネントシステムの動作プロセスを示すブロック図である。
図7】本開示の態様による、グラフィックスタイル修正コンポーネントシステムのトレーニングを示すブロック図である。
図8】本開示の態様による、音響効果注釈コンポーネントシステムの動作プロセスを示すブロック図である。
【発明を実施するための形態】
【0007】
以下の発明を実施するための形態は、例示を目的として多くの具体的な詳細を含むが、当業者であれば誰でも、以下の詳細に対する多くの変形及び改変が本発明の範囲内にあることを理解するであろう。したがって、以下で説明される本発明の例示的な実施形態は、本特許請求される発明に対するいかなる一般性も損なうことなく、かつ限定も課すことなく示されている。
【0008】
本発明の実施形態の完全な理解を提供するために多数の特定の詳細が示されているが、当業者は、他の実施形態がこれらの特定の詳細なしで実施され得ることを理解するであろう。他の例において、既知の方法、手順、コンポーネント及び回路は、本開示の態様を不明瞭にすることを回避するために詳述していない。本明細書の説明いくつかの部分は、コンピュータメモリ内のデータビットまたは2値デジタル信号上での動作のアルゴリズム及び記号的表現の観点で表される。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者が彼らの仕事の実体を当業者に伝えるために使用する技術であり得る。
【0009】
本明細書で使用されるアルゴリズムは、所望の結果につながる、首尾一貫した一連のアクションまたは動作である。これらの動作は、物理量の物理的操作を含む。通常、必須ではないが、これらの量は、格納され、転送され、組み合わされ、比較され、またさもなければ操作されることが可能な、電気または磁気信号の形をとる。主に一般的使用上の理由で、これらの信号をビット、値、要素、記号、文字、用語、番号、及び類似物などと称することは、時に好都合であることがわかっている。
【0010】
特に明記されていない限り、または以下の説明から明らかなように、説明全体を通して、「処理」、「計算」、「変換」、「調整」、「決定」または「識別」などの用語を使用する説明は、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理的(例えば電子的)量として表されるデータを操作して、コンピュータプラットフォームメモリ、プロセッサレジスタ、またはディスプレイ画面内の物理的量として同様に表される他のデータに変換するプロセッサを含む電子コンピューティングデバイスである、コンピュータプラットフォームのアクション及びプロセスを指すことが理解されるべきである。
【0011】
コンピュータプログラムは、フロッピー(登録商標)ディスク、光ディスク(例えば、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルビデオディスク(DVD)、Blu-Ray(登録商標) Disc(商標)など)、及び磁気光ディスクを含む任意のタイプのディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードまたは光カード、フラッシュメモリ、または任意のその他の種類の電子命令の保存に適した非一時的なメディアなどを含むがこれらに限定されない、コンピュータ可読記憶媒体に格納することができる。
【0012】
「結合された」及び「接続された」という用語は、それらの派生物とともに、本明細書の操作を実行するための装置のコンポーネント間の構造的関係を説明するために本明細書で使用され得る。これらの用語は、相互に同義語と見なされないことを理解されたい。例えば、いくつかの特定の例では、「接続された」という用語は、2つ以上の要素が相互に直接物理的または電気的接触状態にあることを示すことができる。他のいくつかの例では、「接続された」、「接続」、及びそれらの派生語は、例えば、ニューラルネットワーク内のノード層間の論理的関係を示すために使用される。「結合された」は、2つ以上の要素が互いに直接または(それらの間に他の介在要素と共に)間接的に、物理的または電気的に接触していること、及び/または2つ以上の要素が互いに(例えば、原因と結果の関係のように)協力または通信することを示すために使用され得る。
【0013】
[オンデマンドアクセシビリティシステム]
本開示の態様によれば、オンデマンドアクセシビリティシステムは、障害のあるユーザへのアクセシビリティを改善するために既存のメディアの強化を提供する。さらに、オンデマンドアクセシビリティシステムは、障害のないユーザに美的メリットと改善された体験を提供することができる。さらに、オンデマンドアクセシビリティシステムは、既存のメディアを変更することなく、障害者向けのアクセシビリティコンテンツを作成するので、メディアシステムの機能を向上させる。この場合のメディアは、ビデオゲーム、映画、テレビ、または音楽であり得る。オンデマンドアクセシビリティシステムは、字幕、テキスト読み上げの記述、カラーの変更及びスタイルの変更を適用して、障害を持つ人々へのビデオゲームやその他のメディアのアクセシビリティを助ける。
【0014】
図1に概略的に示されている1つの潜在的な実施態様では、オンデマンドアクセシビリティシステム100は、異なるコンポーネントモジュールを含む。これらのモジュールは、アクション記述モジュール110、シーン注釈モジュール120、カラー適応モジュール130、グラフィックスタイル修正モジュール140、及び音響効果注釈モジュール150を含み得る。これらの各コンポーネントモジュールは、ユーザへのメディアコンテンツのアクセシビリティを強化するための個別の機能を提供する。これらのモジュールは、ハードウェア、ソフトウェアまたはハードウェア及びソフトウェアの組合せによって実施することができる。本開示の態様は、オンデマンドアクセシビリティシステムが上記のコンポーネントモジュールのうちの1つのみを組み込む実施態様を含む。本開示の態様はまた、オンデマンドアクセシビリティシステムが、上記の5つのコンポーネントモジュールのうちの2つ以上で5つすべて未満の組み合わせを組み込む実施態様を含む。
【0015】
アクセシビリティシステム100は、ホストシステム102によって実装された、ライブゲームプレイからのオーディオ及びビデオを入力として受信することができる。入力されたオーディオとビデオは、例えばTwitchを介してインターネットライブストリームにストリーミングされ、そこでオンラインで処理されてもよい。アクセシビリティシステム100のオンデマンドアーキテクチャは、プレイヤに制御を与え、その結果、単純なコマンド、例えばボタンを押すことによって、プレイヤが異なるコンポーネントモジュール110、120、130、140及び150のうち1つ以上を選択的に起動することができる。
【0016】
図1に示すように、5つのコンポーネントモジュールを実装する特定の要素は、制御モジュール101によってリンクされている。制御モジュール101は、ホストシステム102から入力画像フレームデータ及びオーディオデータを受信する。制御モジュール101は、モジュールがその特定のプロセスを実行できるように、ホストシステムから各モジュールに適切なデータを送る。制御モジュール101は、このようにコンポーネントモジュール110、120、130、140は、「マネージャ」として作用し、これらのモジュールの各々に適切な入力データを提供し、データ上のモジュールの作業を指示する。制御モジュール101は、コンポーネントモジュールから出力データを受信し、そのデータを使用して、出力デバイスが使用することのできる対応する画像またはオーディオデータを生成することができ、これらが、ビデオ出力デバイス104及びオーディオ出力デバイス106によってユーザに提示される対応する修正された画像及びオーディオ信号を生成することができる。限定ではなく例として、制御モジュール101は、出力データを使用して、クローズドキャプション及びスタイル/カラー変換を含む出力画像フレームデータ、または対応する画像のテキスト読み上げ(TTS)記述を含むオーディオデータを生成することができる。コントローラ101はまた、例えば、コンポーネントモジュールによって生成されたタイムスタンプを使用して、コンポーネントモジュールによって生成されたオーディオ及び/またはビデオを、ホストシステム102によって提供されたオーディオ及び/またはビデオと同期させることができる。例えば、コントローラ101は、アクション記述モジュール120またはシーン注釈モジュール130によって生成されたTTSのデータに関連付けられたタイムスタンプを使用して、対応するビデオフレーム上でTTSオーディオの再生を同期させることができる。さらに、コントローラ101は、音響効果注釈モジュール150によって生成されたキャプションのデータに関連付けられたタイムスタンプを使用して、対応するオーディオに関連付けられたビデオフレーム上のテキストキャプションの表示を同期させることができる。
【0017】
コントローラ101、ホストシステム102及びコンポーネントモジュール110、120、130、140、150の間のオーディオ及びビデオデータの通信は重要な課題であり得る。例えば、ビデオ及びオーディオデータは、それをコントローラ101に送信する前に互いに分割することができる。コントローラ101は、オーディオ及びビデオデータストリームを、コントローラ及びコンポーネントモジュール内のバッファに適したサイズのユニットに分割し、次にこれらのデータユニットを適切なコンポーネントモジュールに送信することができる。次に、コントローラ101は、コンポーネントモジュールが適切に修正されたデータで応答するのを待つことができ、データはそれから、ホストシステム102に直接送信するか、またはホストシステムに送信する前にさらに処理することができる。
【0018】
コントローラ101とコンポーネントモジュール110、120、130、140及び150との間の通信を容易にするために、必要なときにのみデータを使用するように、そしてコンポーネントモジュール内の予測ニューラルネットワークが継続的には予測をしないように、システム100を構成することができる。この目的のために、コントローラ101及びコンポーネントモジュール110、120、130、140及び150は、予測を行うためのコンポーネントモジュールのために必要なデータしか含まない比較的小さなバッファを利用することができる。例えば、コンポーネントモジュール内の最も遅いニューラルネットワークが毎秒予測を行うことができる場合、1秒のバッファのみが必要になる。制御モジュール101は、バッファがどれだけの長さであるべきかの情報を含み、これらのバッファを使用して、コンポーネントモジュールにデータを送信するための情報を格納する。いくつかの実施態様では、コンポーネントモジュールの1つ以上は、その中に埋め込まれているバッファを有することができる。限定ではなく例として、アクション記述モジュール110は、ビデオ用にその中に埋め込まれたバッファを有することができる。より望ましい実施態様では、すべての連続メモリ管理/バッファは、コントローラモジュール101に存在する。システム100は、ホストシステム102からのオーディオ及び/またはビデオデータが必要な場合にのみ消費され、そうでない場合には破棄されるように構成され得る。これにより、計算が複雑になりすぎたり、ホストシステム102が過負荷になったり、オーディオとビデオの処理時間が異なることによる同期の問題など、常にオンになっている予測ニューラルネットワークに関連する問題が回避される。
【0019】
限定ではなく例として、オーディオ及びビジュアルコンポーネントが適切に同期されることを保証するために、制御モジュールは、ホストシステム102からのオーディオまたはビデオデータの比較的短いウィンドウを、例えば、約1秒以下の間隔で動作し得る。いくつかの実施態様では、制御モジュールは、ホストシステムならびに各コンポーネントモジュールからの1秒のオーディオ及びビデオを含むのに十分なバッファまたはメモリを有し得る。制御モジュールはまた、テキストまたは音声を入力に追加するためのテキスト読み上げモジュール及び/またはクローズドキャプションモジュールを含み得る。
【0020】
制御モジュール101は、ユーザのためのスムーズな体験を保証するまとまりのある方法で、別個のニューラルネットワークモデルを一緒にマージすることを担当する。制御モジュール101は、オーディオ及びビデオストリームをセットアップし、それらを上記のバッファに分割し、(例えば、ゲーム入力デバイス108からの)ユーザ入力をリッスンする。入力を受信すると、制御モジュール101は、対応するコンポーネントモジュールにデータを送信することによってそれに応じて反応する(受信したユーザ入力の性質に応じて)。次に、制御モジュールは対応するコンポーネントモジュールから戻る結果を受け取り、それに応じてゲームのビジュアル/オーディオを変更する。
【0021】
限定ではなく例として、コントローラ101は、Stremlinkなどのストリーミングサービス、及びFFMPEGなどのストリーミングメディアソフトウェアスイートを使用してオーディオストリームとビデオストリームを分離する、マルチスレッドプロセスを実装することができる。結果として得られた情報を切り刻んで、アクション記述モジュール110、シーン注釈モジュール120、グラフィックスタイル修正モジュール140、及び音響効果注釈モジュール150を実装するために使用されるものなどの深層学習システムに送信する。コントローラ101は、高レベルのオブジェクト指向プログラミング言語でプログラムされて、ホストシステム102からのビデオライブストリームにアクセスし、ホストシステムによって処理されるゲームプレイなどの操作を中断することなく流動的に実行するために戻る結果を時間内に得るプロセスを実装することができる。いくつかの実施態様では、オーディオ及びビデオデータは、ホストシステム102と、コントローラ101及び/またはモジュール110、120、130、140、150との間で、これらの別々のコンポーネントが相互にローカルである高解像度マルチメディアインターフェース(HDMI(登録商標))などの適切なインタフェースを介して、非圧縮形式で転送することができる。オーディオ及びビデオデータは、ホストシステム102とコントローラ101及び/またはモジュール110、120、130、140、150との間で、インターネットなどのネットワークを介して圧縮された形式で転送することができる。このような実施態様では、これらのコンポーネントには、オーディオ及びビデオデータのエンコードとデコードを処理するための既知のハードウェア及び/またはソフトウェアコーデックを含むことができる。他の実施態様では、コントローラ101及び/またはモジュール110、120、130、140、150の機能は、すべてホストシステム102内に統合されたハードウェア及び/またはソフトウェアで実装されてもよい。
【0022】
所望のオンデマンドアクセシビリティモジュールを選択的に起動するために、制御モジュール101は、例えば、デュアルショックコントローラなどの入力デバイス108から起動入力を受信することができる。限定ではなく例として、起動入力は、単純なボタン押下、ラッチ型ボタン、タッチ起動、音声コマンド、コントローラで変換されたユーザからのモーションコマンドまたはジェスチャコマンドの結果であり得る。したがって、入力デバイス108は、入力のタイプに適した任意のデバイスであり得る。例えば、ボタン押下またはラッチ型ボタンの場合、入力デバイスは、適切なハードウェア及び/またはソフトウェアインターフェースを介してコントローラ101に結合されるゲームコントローラ上の適切に構成されたボタンであり得る。タッチスクリーン起動の場合、入力デバイスは、コントローラに結合されたタッチスクリーンまたはタッチパッドであり得る。音声コマンドの場合、入力デバイス108は、コントローラに結合されたマイクロフォンであり得る。そのような実施態様では、コントローラ101は、マイクロフォン信号を対応するデジタル信号に変換し、例えば、オーディオスペクトル分析、音声認識、もしくは発話認識、またはこれらのうちの2つ以上の組み合わせによって、結果として生じるデジタル信号を解釈する、ハードウェア及び/またはソフトウェアを含み得る。ジェスチャまたはモーションコマンドの場合、入力デバイス108は、コントローラに結合された画像キャプチャユニット(例えば、デジタルビデオカメラ)であり得る。そのような実施態様では、コントローラ101またはホストシステム102は、画像キャプチャユニットからの画像を解釈するハードウェア及び/またはソフトウェアを含み得る。
【0023】
いくつかの実施態様では、コントローラ101は、アクション記述モジュール110及び/またはシーン注釈モジュール120によって生成された出力データをホストシステム102によって生成されたオーディオデータと組み合わせるビデオタグ付けモジュール107を含み得る。アクション記述モジュールとシーン注釈モジュールの両方がビデオタグ付けを利用することができるが、それらの入力には重要な違いがある。アクション記述では、フレーム間の時間的関係を決定してアクションの分類を決定するために、入力として複数の連続したビデオフレームが必要である。対照的に、シーン注釈は、より画像の比較的静的な要素に関係しており、単一のスクリーンショットを入力として使用できる。
【0024】
いくつかの実施態様では、コントローラ101は、それぞれのモジュールの機能に適合するように、ビデオデータをアクション記述モジュール110及び/またはシーン注釈モジュール120に送信する前に、ビデオデータを分析及びフィルタリングすることができる。例えば、限定されないが、コントローラ101は、画像フレームデータを分析して、シーンの変化を検出し、いつ画像をシーン注釈モジュール120に提供するかを決定することができる。さらに、コントローラは、画像フレームデータを分析して、所与の期間のフレームシーケンスを、動きを含むかまたは含まないかのいずれかとして識別し、十分な動きを含むフレームシーケンスのみをアクション記述モジュール110に選択的に送信することができる。動きは、例えばエンコーダモーション検出などの既知の手段によって識別することができる。
【0025】
アクション記述モジュール110及びシーン注釈コンポーネントモジュール120は両方とも、テキスト情報の形式で情報を生成することができる。このようなテキスト情報を生成する1つの方法は、ゲーム設定を使用することである。例えば、ゲーム設定をプログラムして、発見されたオブジェクトをリスト表示できる。リスト内のオブジェクトごとに、ユーザはそれを制御するユーザインターフェイスキーまたはボタンを設定できる。生成されると、このテキスト情報は、ビデオタグ付けモジュール107によって発話オーディオに変換され得る。または、この情報を使用して、ゲーマーがアクセスしやすい方法でコントロールキーを再マップすることもできる。コントローラ101は、発話オーディオを、ホストシステム102によって生成された他のオーディオ出力に同期させることができる。他の実施態様では、アクション記述モジュール110及びシーン注釈モジュール120はそれぞれ、ホストシステム102からのオーディオデータと直接組み合わせることができる発話情報を生成することができる。ビデオタグ付けモジュール107は、発話出力またはオーディオを、ユーザに提示するためにホストシステム102によって生成された他のオーディオ出力と組み合わせることができる。あるいは、ビデオタグ付けモジュールは、ホストシステム102からの他のオーディオ出力とのその後の組み合わせのために、発話出力を単に制御モジュールに転送することができる。
【0026】
音響効果注釈モジュール150は、制御モジュール101からオーディオ情報を受け取り、対応するテキスト情報を生成する。音響効果注釈モジュール150、コントローラ101、またはホストシステム102は、テキスト情報を、例えば、字幕またはキャプションとしてビデオフレーム情報と組み合わせて、テキスト情報がビデオ出力デバイス104によって提示される対応するビデオ画像に現れるようにするオーディオタグ付けモジュール190を含み得る。
【0027】
グラフィックスタイル修正モジュール140は、制御モジュール101から画像フレームデータを受信し、スタイルに適合された画像フレーム情報を制御モジュールに出力する。グラフィックスタイル修正モジュール140は、機械学習を使用して、コンテンツの1つのソースに関連付けられたスタイル、例えば、カラーパレット、テクスチャ、背景などを入力画像フレームまたはコンテンツの別のソースからのフレームに適用して、ビデオ出力デバイス104による提示のための修正された出力フレームデータを生成することができる。さらに、グラフィックスタイル修正モジュール140は、カラー適応コンポーネントモジュール130の要素を含むか、または実装することができる。カラー適応システムは、ルールベースのアルゴリズムを入力ビデオフレームデータに適用して、色覚異常などの特定のユーザの視覚障害に適応するカラー適合出力ビデオフレームを生成することができる。ルールベースのアルゴリズムは、ユーザがよく見たり区別したりできないカラーに対応する特定の入力フレームピクセルクロマ値を、ユーザが見たり区別したりできる他の値に置き換えることができる。
【0028】
オンデマンドアクセシビリティシステムは、スタンドアロンデバイスであってもよく、ホストシステムへのアドオンデバイスとして統合されていてもよく、またはホストシステムによってソフトウェアでシミュレートされてもよい。スタンドアロンまたはアドオンデバイスとして、オンデマンドアクセシビリティシステムには、各モジュールの必要なプロセスを実装するように構成された特化型回路が含まれていてもよい。あるいは、オンデマンドアクセシビリティシステムは、プロセッサ及び、実行されるとプロセッサコンピュータに各モジュールの必要なプロセスを実行させる非一時的なコンピュータ可読媒体に埋め込まれた特化型ソフトウェアを備えたメモリから構成されていてもよい。他の代替の実施態様では、オンデマンドアクセシビリティシステムは、特化型の非一時的なコンピュータ可読命令を備えた汎用コンピュータと特化型回路の両方の混合物を含む。各モジュールは、別個で独立していてもよく、または単に、単一の汎用コンピュータによって実行されるプロセスであってもよい。あるいは、独立したモジュールと共有の汎用コンピュータが混在していてもよい。ホストシステムは、高解像度マルチメディアインターフェース(HDMI(登録商標))ケーブル、ユニバーサルシリアルバス(USB)、ビデオグラフィックスアレイ(VGA)ケーブルまたはD-サブミニチュア(D-Sub)ケーブルなどのコネクタを直接介して制御モジュール101に結合することができる。いくつかの実施態様では、ホストシステムはネットワークを介してオンデマンドアクセシビリティシステムに接続される。
【0029】
音響効果注釈、アクション記述、シーン注釈及びグラフィックスタイル修正モジュールはすべて、ニューラルネットワークを利用してそれぞれの出力データを生成する。ニューラルネットワークは、一般に、以下で説明するのと同じトレーニング手法の多くを共有している。
【0030】
[ニューラルネットワークトレーニング]
一般に、オンデマンドアクセシビリティシステムのコンポーネントシステムで使用されるニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークのうちの1つ以上を含むことができ、多くの異なる層を有し得る。限定ではなく例として、分類ニューラルネットワークは、1つ以上の畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、及び/または動的ニューラルネットワーク(DNN)からなり得る。
【0031】
図2Aは、ノード220の層を有するRNNの基本形態を示し、そのそれぞれは、活性化関数S、1つの入力重みU、リカレント隠れノード遷移重みW、及び出力遷移重みVによって特徴付けられる。活性化関数Sは、当技術分野で知られている任意の非線形関数とすることができ、双曲線正接(tanh)関数に限定されない。例えば、活性化関数Sは、シグモイド関数またはReLu関数であり得る。他のタイプのニューラルネットワークとは異なり、RNNには、レイヤー全体に対して1セットの活性化関数と重みを有する。図2Bに示されるように、RNNは、時間T及びT+1を通して移動する同じ活性化関数を有する一連のノード220と見なすことができる。したがって、RNNは、前の時間Tから現在の時間T+1までの結果を供給することによって履歴情報を維持する。
【0032】
いくつかの実施形態では、畳み込みRNNを使用することができる。使用できる別のタイプのRNNは、長短期記憶(LSTM)ニューラルネットワークであり、これは、RNNノードのメモリブロックに、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を追加し、参照により本明細書に組み込まれているHochreiter & Schmidhuberの「Long Short-term memory」 Neural Computation 9(8):1735-1780(1997)で説明されているように、ネットワークが一部の情報を長期間保持できるようにする、ゲートメモリを生成する。
【0033】
図2Cは、本開示の態様による、CRNNなどの畳み込みニューラルネットワークの例示的なレイアウトを示す。この描写では、畳み込みニューラルネットワークは、高さ4単位、幅4単位のサイズを有する画像232に対して生成され、総面積は16単位である。描写された畳み込みニューラルネットワークは、スキップ値1で高さ2ユニット及び幅2ユニットのサイズのフィルタ233、及びサイズ9のチャネル236を有する。明確にするために図2Cでは、チャネルの第1の列とそれらのフィルタウィンドウとの間の接続234のみが示されている。しかしながら、本開示の態様は、このような実施態様には限定されない。本開示の態様によれば、分類229を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層231を有することができ、任意のサイズの追加の畳み込み層、完全接続層、プーリング層、最大プーリング層、ローカルコントラスト正規化層などの層タイプを含み得る。
【0034】
図2Dに見られるように、ニューラルネットワーク(NN)のトレーニングは、NNの重みの初期化で始まる(241)。一般に、初期の重みはランダムに分散する必要がある。例えば、tanh活性化関数を使用するNNは、-1/√nと1/√nの間にランダムな値を分散させる必要があり、ここで、nはノードへの入力の数である。
【0035】
初期化後、活性化関数とオプティマイザが定義される。次に、NNには、特徴ベクトルまたは入力データセットが提供される(242)。異なる特徴ベクトルのそれぞれは、既知のラベルを持つ入力からNNによって生成することができる。同様に、NNには、既知のラベリングまたは分類を有する入力に対応する特徴ベクトルが提供され得る。次に、NNは、特徴または入力のラベルまたは分類を予測する(243)。予測されたラベルまたはクラスは、既知のラベルまたはクラス(グラウンドトゥルースとも呼ばれる)と比較され、損失関数は、すべてのトレーニングサンプルの予測とグラウンドトゥルースの間の合計誤差を測定する(244)。限定ではなく例として、損失関数は、クロスエントロピー損失関数、二次コスト、トリプレット対照関数、指数コストなどであり得る。目的に応じて、複数の異なる損失関数を使用することができる。限定ではなく例として、分類器をトレーニングするためにクロスエントロピー損失関数を使用することができ、一方、事前トレーニングされた埋め込みを学習するためにトリプレット対照関数を使用することができる。次にNNは、損失関数の結果を使用し、適応型勾配降下法を使用したバックプロパゲーションなどのニューラルネットワークの既知のトレーニング方法を使用して、最適化及びトレーニングされる(245)。各トレーニングエポックで、オプティマイザは、トレーニング損失関数(つまり、合計誤差)を最小化するモデルパラメータ(つまり、重み)を選択しようとする。データは、トレーニング、検証、及びテストサンプルに分割される。
【0036】
トレーニング中、オプティマイザはトレーニングサンプルの損失関数を最小化する。各トレーニングエポックの後、検証の損失と精度を計算することにより、検証サンプルでモードが評価される。著しい変化がない場合は、トレーニングを停止することができ、結果として得られたトレーニング済みモデルを使用して、テストデータのラベルを予測できる。
【0037】
したがって、ニューラルネットワークは、既知のラベルまたは分類を有する入力からトレーニングされて、それらの入力を識別及び分類することができる。同様に、NNは、既知のラベルまたは分類を有する入力から特徴ベクトルを生成するために、説明された方法を使用してトレーニングされ得る。
【0038】
[オートエンコーダトレーニング]
オートエンコーダは、教師なし学習と呼ばれる方法を使用してトレーニングされたニューラルネットワークである。教師なし学習では、エンコーダNNにはデコーダNN対応物が提供され、エンコーダとデコーダは単一のユニットとして一緒にトレーニングされる。オートエンコーダの基本的な機能は、Rの要素である入力xを受け取り、それをRの要素である表現hにマッピングすることであり、このマッピングされた表現は、特徴ベクトルとも呼ばれる。タイプh=fθ=σ(Wχ+b)の決定論的関数は、パラメータθ={W,b}で、特徴ベクトルを作成するために使用される。次に、デコーダNNを使用して、f:y=fθ’(h)=σ(W’h+b’)の逆によって代表的な特徴ベクトルからの入力を再構築し、ここでθ’={W’,b’}であり、2つのパラメータのセットが入力をエンコードして表現をデコードするために同じ重みを使用して、W’=Wの形式に制約されてもよい。各トレーニング入力χは、その特徴ベクトルh及びその再構成yにマッピングされる。これらのパラメータは、クロスエントロピーコスト関数などのトレーニングセットに対して適切なコスト関数を最小化することによってトレーニングされる。畳み込みオートエンコーダは、重みが入力のすべての場所で共有されることを除いて、基本的なオートエンコーダと同様に機能する。従って(例えば白黒画像などの)単チャネル入力xに対して、k番目の特徴マップの表現はバイアスがマップ全体にブロードキャストされ、h=σ(x*W+b)によって与えられる。変数σは活性化関数を表し、bは潜在マップごとに使用される単一のバイアスを表し、Wはマップ全体で共有される重みを表し、*は2D畳み込み演算子である。入力を再構築する式は次の式で与えられる。
y=σ(Σk∈H*W^+C)
【0039】
上記の式では、入力チャネルごとに1つのバイアスCがあり、Hは特徴マップのグループを識別し、W^は次元と重みの両方にわたるフリップ演算を識別する。畳み込みオートエンコーダのトレーニングと重み付けの詳細については、Masci et al. “Stacked Convolutional Auto-Encoders for Hierarchical Feature Extraction” In IICANN, pages 52-59. 2011を参照されたい。
【0040】
[アクション記述]
アクション記述モジュール110は、入力としてビデオストリームから画像フレームの短いシーケンスを受け取り、ビデオストリーム内で発生するアクティビティのテキスト記述を生成する。これを実装するために、3つの畳み込みニューラルネットワークが使用される。第1のアクション記述NN301は、本明細書ではウィンドウと呼ばれるビデオフレームの短いシーケンスを受け取り、セグメントレベルまたはビデオレベルの特徴ベクトル、例えば、ウィンドウ内のビデオフレームごとに1つの特徴ベクトルを生成する。
【0041】
限定ではなく例として、ウィンドウは、約1秒、またはおよそ18フレームかつ18フレーム/秒(fps)持続し得る。第2のアクション記述NN302は、フレームレベルの特徴ベクトルを受け取り、ビデオセグメントウィンドウレベルの特徴データを生成する。第2のアクション記述NN302は、教師あり学習を使用してトレーニングすることができる。代替の実施態様では、十分な精度を生成できる場合は、半教師ありまたは教師なしのトレーニング方法を使用できる。
【0042】
第3のアクション記述NN303は、ビデオストリームウィンドウレベル特徴ベクトルを入力として受けて、それらをそのシーンで発生するアクションに応じて分類する。ラベル付きビデオストリームウィンドウレベルの特徴データの場合、ラベルはマスクされ、第3のアクション記述NNがラベルを予測する。フレームは、システムが受信したビデオのフレームレートに従ってビデオシーケンスから抽出される。したがって、ウィンドウレベルの特徴データは、ホストシステムによって送信されるフレームレートに応じて、1つの特徴から60または120以上の特徴の範囲になり得る。第3のアクション記述N303によって生成されたアクションの分類は、例えば、ウィンドウ内での発生動作を記述するテキストの形で、制御モジュール101に提供されてもよい。あるいは、分類データをテキスト読み上げ合成モジュール304に提供して、ウィンドウ中に、またはその直後に発生する他のオーディオと組み合わせることができる発話データを生成してもよい。
【0043】
アクション記述モジュールは、上記で説明した既知の方法でトレーニングできる。トレーニング中、フレームレベルのビデオラベルはなく、したがって、各フレームが同じアクションを参照している場合、ビデオレベルのラベルはフレームレベルのラベルと見なされる。これらのラベル付きフレームは、第2のNNのフレームレベルトレーニング入力として使用できるか、または、CNNをトレーニングして、ビデオレベルのラベルを使用してフレームレベルの埋め込みを生成することもできる。いくつかの実施態様では、第1のNNは、教師なし方法を使用してフレーム埋め込みを生成することができ、上記のオートエンコーダトレーニングのセクションを参照されたい。ビデオレベルラベルとともになったフレームレベル埋め込みのシーケンスは、第2のNNをトレーニングするために使用される。第2のNNは、フレームレベルの埋め込みをビデオレベルの埋め込みに組み合わせるように構成されたCNNであり得る。次に、ビデオレベルの埋め込みとアクションラベルを使用して、第3のNNをトレーニングする。第3のNNは、ビデオレベルの埋め込みからアクションクラスを予測するRNNであり得る。
【0044】
アクション記述モジュール110は、ニューラルネットワーク301、302、303のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、ウィンドウ内で発生するアクションを分類することができる。
【0045】
アクション記述モジュールがユーザ体験を向上させることのできる多くの異なる方法がある。例えば、電子スポーツ(eスポーツ)では、アクション記述モジュール110は、ホストシステム101からのビデオストリームに示されるシミュレートされたスポーツイベントにおけるアクションについてのライブ解説を生成することができる。
【0046】
[シーン注釈]
シーン注釈コンポーネントモジュール120は、ユーザに提示されたビデオストリームからの画像フレームを使用して、画像フレーム内のシーン要素のテキスト記述を生成する。シーン注釈モジュール120の出力は、例えば、テキストの形式でのシーンの自然言語記述とすることができ、これは、次に、例えば、ビデオタグ付けモジュール107によって実装され得る、テキスト読み上げモジュールによって音声に変換することができる。アクション記述モジュールとは対照的に、シーン注釈コンポーネントシステムは、シーン要素を決定するために単一の画像フレームしか必要としない。ここで、シーン要素は、画像内で発生するアクションとは別のコンテキスト情報を提供する画像の個々のコンポーネントを指す。限定ではなく例として、シーン要素は、図4に示されるように、アクションの背景を提供することができ、アクションは、フィニッシュライン402を横切るランナー401である。示されているシーン要素は次に、道路403、海404、護岸405、帆船406、及び時刻407である。シーン注釈モジュール120は、これらのシーン要素を記述するテキストを生成し、テキストを画像データと組み合わせて、シーンのキャプションを形成することができる。例えば、図4に示されるシーンに限定されないが、シーン注釈モジュール120は、「海のそばの晴れた日で、帆船が遠くに浮かんでいる。道路は壁の前にある。」のようなキャプションを作成することができる。テキストを生成するために、いくつかのニューラルネットワークを使用することができる。
【0047】
ニューラルネットワークは、図5に示されるようにエンコーダ対として配置され得る。本明細書でエンコーダ501と呼ばれる第1のNNは、特徴ベクトル502を出力する深層畳み込みネットワーク(CNN)タイプで、例えば、限定されないが、resnetタイプNNである。第1のNNは、画像フレームのクラスを表す特徴ベクトルを出力するように構成されている。本明細書でデコーダ503と呼ばれる第2のNNは、深層ネットワーク、例えば、シーンの要素を表す単語ごとにキャプションを出力するRNNまたはLSTMである。エンコーダへの入力は、画像フレーム504である。エンコーダ501は、画像フレームの特徴ベクトル502を生成し、デコーダは、それらの特徴ベクトル502を受け取り、画像のキャプション507を予測する。
【0048】
トレーニング中、エンコーダとデコーダは別々にトレーニングされてもよい。代替の実施態様では、エンコーダとデコーダを一緒にトレーニングすることができる。エンコーダ501は、画像フレーム内のオブジェクトを分類するようにトレーニングされている。トレーニング中のエンコーダへの入力は、ラベル付けされた画像フレームである。ラベルはエンコーダから隠され、トレーニング中にエンコーダ出力でチェックされる。デコーダ503は、特徴ベクトルを受け取り、画像フレームのキャプションを出力する。デコーダへの入力は、デコーダから隠され、トレーニング中にチェックされるキャプションを有する画像特徴ベクトルである。代替の実施態様では、エンコーダデコーダアーキテクチャが一緒にトレーニングされて、画像をテキストに変換することができる。限定ではなく例として、エンコーダ、例えば、深層CNNは、画像から埋め込み画像を生成することができる。次に、デコーダ、例えばRNNバリアントは、この画像埋め込みを受け取り、対応するテキストを生成することができる。上で説明したNNアルゴリズムは、重みの調整と最適化に使用される。
【0049】
シーン注釈モジュール120は、入力として単一の画像フレームのみを必要とするが、シーン注釈モジュールは、ニューラルネットワーク501、502のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、予測されたキャプション507を生成することができる。オンデマンドのアクセシビリティシステムの一部として、シーン注釈モジュールは、ウィンドウ内の各フレームのキャプションを生成することができる。いくつかの実施態様では、シーン注釈モジュールは、例えば、限定されないが、変更シーンの複雑さまたはシーンの複雑さが新しいキャプションを生成する前に閾値を超えるシーンの変化を検出することができる。
【0050】
[カラー適応]
カラー適応モジュール130は、601で示されるように入力としてビデオフレームデータを受信し、602で示されるようにビデオフレームにフィルタを適用する。フィルタは、ビデオフレームの特定のカラーの値を変更する。フィルタは、ビデオフレーム内のカラーの違いを強調するように選択され、色覚障害のあるユーザのためにビデオフレーム内のオブジェクトの視認性を強化するように構成できる。フィルタの適用は、ルールベースとすることができる。具体的には、特定のカラーを区別するのに問題がある人々のために、ビデオフレームのカラーの区別を改善するためにフィルタを選択することができる。さらに、フィルタは、より一般的な視覚障害を持つユーザ向けにビデオを強化することもできる。例えば、暗いビデオは明るくすることができる。
【0051】
フィルタは、ビデオストリーム内の各ビデオフレームに1秒間隔でリアルタイムに適用される。フィルタは、好みに基づいてユーザが選択することも、既知の視力障害に基づいて事前設定することもできる。フィルタは、ビデオのさまざまな色相に変換を適用し、ストリーム内の各ビデオフレームにリアルタイムのガンマ補正を適用する場合がある。次に、フレームのカラー適合ビデオデータ603は、604に示されるように、制御モジュール101に提供され得る。次に、制御モジュールは、ビデオ出力デバイス104上にレンダリング及び表示するために、適合ビデオフレームデータ603をホストシステム102に送信することができる。
【0052】
[グラフィックスタイル修正]
グラフィックスタイル修正モジュール140は、画像フレームのセットからスタイルを受け取り、そのスタイルを画像フレームの第2のセットに適用する。スタイル適合は、カラーパレット、テクスチャ、背景に影響を与える可能性がある。いくつかの実施態様では、NN、例えば、GANは、アニメスタイルのビデオゲーム(例えば、Fortnite)の外観をフォトリアリスティックなスタイル(例えば、Grand Theft Auto)に変換するようにトレーニングされ得る。例えば、Fortnightのようなビデオゲームでは、環境とキャラクターに鮮やかな緑と赤のカラーが使用されるが、Bloodborneのようなゲームでは、環境とキャラクターにさめた濃い茶のカラーが使用される。グラフィックスタイル修正コンポーネントは、鮮やかな緑と赤のカラースタイルパレットを受け取ってBloodborneに適用することができる。したがって、元のBloodborneのくすんだ茶色の環境は、実際の環境のジオメトリが一定のままで、明るい緑と赤に置き換えられる。
グラフィックスタイル修正コンポーネントは、敵対的生成ニューラルネットワークレイアウトを使用して実装できる。敵対的生成NN(GAN)レイアウトは、入力画像zのデータを受け取り、それらG(z、θ)にマッピング関数を適用して、入力画像に適用されるスタイルのソース画像セット(x)の特性を近似し、ここで、θはNNパラメータである。GANの出力は、ソース画像セットのスタイルにマッピングされたカラーのスタイルに適合した入力画像データである。
【0053】
[敵対的生成NNトレーニング]
敵対的生成NN(GAN)レイアウトのトレーニングには、2つのNNが必要である。2つのNNは、互いに対向して設定されており、第1のNN702は、ソース画像フレーム701及びターゲット画像フレーム705から合成ソース画像フレーム705を生成し、第2のNNは、画像706をターゲット画像フレーム704であるか否かのいずれかとして分類する。第1のNN702は、第2のNN706によって行われた分類に基づいて708でトレーニングされる。第2のNN706は、分類が正確にターゲット画像フレーム704を特定したかどうかに基づいて、709でトレーニングされる。第1のNN702は、以下では生成的NNまたはGNNと呼ばれるが、入力画像(z)を受け取り、それらを表現G(z;θ)にマッピングする。
【0054】
第2のNN706は、以下では、識別的NNまたはDNNと呼ぶ。DNNは、ラベル付けされていないマッピングされた合成ソース画像フレーム706及びラベル付けされていないターゲット画像(x)セット704を受け取り、画像をターゲット画像セットに属するものとして分類しようとする。DNNの出力は、画像がターゲット画像セット704からのものである確率を表す単一のスカラーである。DNNはデータ空間D(x;θ)を有しており、θはNNのパラメータを表す。
【0055】
敵対的生成NNのトレーニング中に使用されるNNのペアは、多層パーセプトロンとすることができ、これは、上記の畳み込みネットワークに似ているが、各層は完全に接続されている。敵対的生成NNは、多層パーセプトロンに限定されず、CNN、RNN、またはDNNとして編成されてもよい。さらに、敵対的生成NNは、任意の数のプーリング層またはソフトマックス層を有し得る。
【0056】
トレーニング中、GNN702の目標は、DNNの逆の結果を最小限にすることである。言い換えると、GNNは、log(1-D(G(z))を最小化するようにトレーニングされる。トレーニングの初期段階で、DNNがマッピングされた入力画像をターゲット画像セットとは大きく異なるために高い信頼水準で拒否する場合に、問題が発生する可能性がある。その結果、式log(1-D(G(z))はすぐに飽和し、学習は遅くなる。これを克服するために、最初にGは、学習の早い段階ではるかに強い勾配を提供し、ダイナミクスの同じ固定点を持つlogD(G(z))を最大化することによってトレーニングできる。さらに、GANは、本明細書に参照により組み込まれている、https://arxiv.org/pdf/1703.10593.pdf(2018年8月30日)で入手できる、Zhu et al. “Unpaired Image to Image Translation using Cycle-Consistent Adversarial Networks” ArXiv, ArXiv:1703.10593v5 [cs.CV]で説明されているように、マッピング結果をさらに改善するために周期的整合性損失関数を含むように修正できる。
【0057】
NN706のトレーニングの目的は、トレーニングデータセットに正しいラベルを割り当てる確率を最大化することである。トレーニングデータセットには、マップされたソース画像とターゲット画像の両方が含まれる。DNNは、トレーニングデータセット内の各画像がターゲット画像セットに属する確率を表すスカラー値を提供する。そのため、トレーニング中の目標は、log G(x)を最大化することである。
【0058】
第1及び第2のNNは一緒になって2人のプレイヤのミニマックスゲームを形成し、第1のNN702は画像を生成して第2のNN706をだまそうとする。ゲームに対する方程式は、
minmaxV(D,G)=Epdata(x)[logD(x)]+Epz(z)[log1-logD(G(z))である。
【0059】
NNとDNNは、DNNを最適化してから、GNNを最適化することにより、段階的にトレーニングされる。このプロセスは、識別器にそれ以上の改善が見られなくなるまで何度も繰り返される。これは、トレーニング画像がマップされた入力画像pである確率が、トレーニング画像がソース画像pdataである確率と等しい場合に発生する。言い換えると、p=pdataの場合、代わりにD(x)=1/2である。一般に、ニューラルネットワークについて上述したものと同様に、GNN及びDNNはミニバッチ確率的勾配降下法または互換性のニューラルネットワークをトレーニングするための任意の他の公知の方法を使用してトレーニングすることができる。敵対的生成ニューラルネットワークのトレーニングと編成の詳細については、https://arxiv.org/abs/1406.2661で入手できる、Goodfellow et al. “Generative Adversarial Nets” arXiv:1406.2661を参照されたい。
【0060】
スタイル修正モジュール140は、ソース画像に目標画像704のカラースタイルを適用するようにトレーニングされたGNN706を使用する。結果として得られるスタイルに適合されたソース画像は、コントローラモジュール101に提供される。このシステムの他のコンポーネントと同様に、グラフィックスタイル修正コンポーネントシステムは、ビデオストリーム上でそのニューラルネットワークの時間以下の間隔で動作することができる。例として、限定ではなく、スタイル適応モジュールのニューラルネットワークが1秒で予測を生成できる場合、グラフィックスタイル修正モジュール140は、ビデオストリームの1秒に相当する画像フレームを保持するのに十分なバッファを有し得る。1秒のウィンドウ内の各フレームには、ターゲットスタイルが適用されていてもよい。
【0061】
[音響効果のテキスト注釈]
ビデオゲームを含む多くのタイプのオーディオビジュアルメディアでは、シーン内で一度に複数の音が発生することがよくある。これらの複数の音には、他の音よりも重要な音が含まれている。例えば、シーンには、風音や交通音などの背景ノイズだけでなく、銃声、タイヤのきしみ音、足音などの前景音が含まれる場合がある。背景音と前景音はそれぞれ異なる音レベルである可能性がある。現在、ほとんどのオーディオビジュアルコンテンツにはこれらの音の重要性に関する情報が含まれておらず、最も大きな音にラベルを付けるだけでは実際の重要性を捉えることはできない。例えば、ビデオゲームでは、風や雨などの環境音が高レベルで再生され、足音が低レベルで再生される場合があるが、ユーザにとって足音は、敵が接近している可能性があることを示す場合があるため、より重要で目立つ音を表す。
【0062】
音響効果注釈コンポーネントモジュール150は、入力オーディオ801を受け取り、入力オーディオ内で発生する最も重要な音響効果または効果音響効果を分類する。限定ではなく例として、音響効果注釈コンポーネントモジュール150は、入力オーディオ内で発生する上位3つの最も重要な音響効果を分類することができる。音響効果注釈モジュール150は、2つの別個のトレーニングされたNNを使用することができる。第1のNNは、802で示されているように、オーディオで発生する音のどれが最も重要であるかを予測する。最も重要な音を予測するために、教師なし転移学習を使用して第2のNNがトレーニングされる。次に、選択された3つの音が第2のNNに提供される。第2のNNは、803で示されているように、最も重要な音またはオーディオ内で発生する音を分類するようにトレーニングされた畳み込みNNである。次に、3つの最も重要なオーディオイベントについて結果として得られた分類データ804は、制御モジュール101に提供されてもよい。あるいは、分類データ804は、例えば字幕またはキャプションとして対応する画像フレームに適用されてもよく、それらの修正された画像フレームは、コントローラモジュール101に提供されてもよい。音響効果注釈モジュール150は、第1及び第2のニューラルネットワークがオーディオセグメント内で発生する主要な音響効果を分類するための時間以下の持続時間のオーディオセグメントのオーディオデータを保持するのに十分なサイズのバッファを含み得る。
【0063】
上記は、本発明の好ましい実施形態の完全な記述であるが、様々な代替物、修正、及び等価物を使用することが可能である。上の記述は、限定的ではなく、例示的であることを意図するものであることを理解すべきである。例えば、図面のフロー図は、本発明の特定の実施形態によって実行される動作の特定の順序を示しているが、そのような順序は必要ではないことを理解されたい(例えば、代替の実施形態は、異なる順序で動作を実行し、特定の動作を組み合わせ、特定の動作をオーバーラップすることなどができる)。さらに、多くの他の実施形態が、上述の説明を読んで理解すると、当業者に明らかになるであろう。本発明は、特定の例示的な実施形態を参照して説明されてきたが、本発明は、説明された実施形態に限定されず、添付の特許請求の範囲の精神及び範囲内で修正及び変更を加えて実施できることが認識されよう。したがって本発明の範囲は、添付の特許請求の範囲及びそのような請求の範囲の権利が与えられる等価物の十分な範囲を参照して、決定されるべきである。好ましいかどうかに関わらず、本明細書に説明された任意の特徴は、好ましいかどうかに関わらず、本明細書に説明された任意の他の特徴と組み合わせることができる。以下の特許請求の範囲において、不定冠詞「A」または「An」は、別途明記しない限り、冠詞に続く項目のうちの1つ以上の量を指す。添付の特許請求の範囲は、語句「するための手段(means for)」を使用し、所与の請求項に明示的に述べられない限り、ミーンズプラスファンクションの限定を含むとして解釈されるべきではない。
図1
図2A
図2B
図2C
図2D
図3
図4
図5
図6
図7
図8
【国際調査報告】