(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-09
(45)【発行日】2024-04-17
(54)【発明の名称】視覚的特徴をサウンドタグに相関させることによるビデオタグ付け
(51)【国際特許分類】
G10K 15/04 20060101AFI20240410BHJP
G06N 3/045 20230101ALI20240410BHJP
H04N 5/92 20060101ALI20240410BHJP
H04N 21/854 20110101ALI20240410BHJP
H04R 3/00 20060101ALN20240410BHJP
【FI】
G10K15/04 302F
G06N3/045
G10K15/04 302G
H04N5/92 020
H04N21/854
H04R3/00
(21)【出願番号】P 2021564437
(86)(22)【出願日】2020-04-14
(86)【国際出願番号】 US2020028129
(87)【国際公開番号】W WO2020223007
(87)【国際公開日】2020-11-05
【審査請求日】2021-12-10
(32)【優先日】2019-04-30
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】クリシュナムルティ、スーダ
(72)【発明者】
【氏名】リュー、シャオユー
【審査官】中嶋 樹理
(56)【参考文献】
【文献】米国特許出願公開第2019/0005128(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04
G06N 3/045
H04N 5/92
H04N 21/854
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、
命令を含む少なくとも1つのコンピュータストレージと、
を備える装置であって、
前記命令は、前記少なくとも1つのプロセッサに、
サウンドエフェクト(SFX)を分類して、分類されたSFXをレンダリングすることと、
少なくとも1つの機械学習エンジンを使用して、第1のコンピュータシミュレーションの視覚的特徴と前記分類されたSFXとの間の学習された相関関係に基づいて、少なくとも前記第1のコンピュータシミュレーションに対し、前記分類されたSFXのうちの少なくとも第1のSFXを出力することと、
前記視覚的特徴とSFXタグとの間の相関関係を学習するようにトレーニングされる少なくとも第1のニューラルネットワーク(NN)に、サウンドが抽出された前記第1のコンピュータシミュレーションを入力することと、
前記第1のNNに、抽出された前記サウンドを第1の混音SFXモデルに入力することにより前記第1の混音SFXモデルから出力された混音SFXのグラウンドトゥルース分類を入力することと、
を実行させる、前記装置。
【請求項2】
前記命令は、前記少なくとも1つのプロセッサに、
前記視覚的特徴と、前記分類されたSFXのうちの前記第1のSFXの分類との直接マッピングを使用して、前記第1のコンピュータシミュレーションに対し、前記分類されたSFXのうちの前記第1のSFXを推薦すること、
を実行させる、請求項1に記載の装置。
【請求項3】
前記命令は、前記少なくとも1つのプロセッサに、
前記第1の混音SFXモデルにトレーニングデータを入力して、前記第1の混音SFXモデルをトレーニングすることを、実行させ、前記トレーニングデータは、1つ以上のコンピュータシミュレーションからのオーディオクリップと、前記1つ以上のコンピュータシミュレーションとは別に生成された合成オーディオクリップとを含む、
請求項1に記載の装置。
【請求項4】
前記命令は、前記少なくとも1つのプロセッサに、
前記第1の混音SFXモデルの複数の畳み込みNN(CNN)に前記トレーニングデータを入力して第1の出力をレンダリングすることと、
前記第1の出力を分類マッパーに入力して、SFXの予測を含む第2の出力をレンダリングすることと、
を実行させる、請求項3に記載の装置。
【請求項5】
前記第1の混音SFXモデルは、
複数のゲート付き畳み込みニューラルネットワーク(CNN)と、
前記複数のゲート付きCNNの出力を受信するように構成された少なくとも1つの双方向リカレントニューラルネットワーク(RNN)と、
前記RNNの出力を受信するように構成された複数のアテンションベースのフィードフォワードニューラルネットワーク(FNN)と、
を備える、請求項1に記載の装置。
【請求項6】
前記第1の混音SFXモデルは、
複数のゲート付き畳み込みニューラルネットワーク(CNN)であって、これらのうちの少なくとも1つは、前記トレーニングデータを受信するように構成される、前記複数のゲート付きCNNと、
前記複数のゲート付きCNNの出力を受信するように構成された少なくとも第1の分類器(CLF)ネットワークと、
前記複数のゲート付きCNNの出力を受信するように構成された少なくとも第2のCLFネットワークと、
を備える、請求項3に記載の装置。
【請求項7】
前記第1のCLFネットワークは、1つ以上のコンピュータシミュレーションからの前記オーディオクリップと前記合成オーディオクリップとの両方からのデータを入力する前記複数のゲート付きCNNから、出力を受信するように構成された32カテゴリの教師ありネットワークである、請求項6に記載の装置。
【請求項8】
前記第2のCLFネットワークは、1つ以上のコンピュータシミュレーションの前記オーディオクリップからではなく、前記合成オーディオクリップからのデータを入力する前記複数のゲート付きCNNから、出力を受信するように構成された182カテゴリの教師ありネットワークである、請求項7に記載の装置。
【請求項9】
少なくとも1つのプロセッサと、
命令を含む少なくとも1つのコンピュータストレージと、
を備える装置であって、
前記命令は、前記少なくとも1つのプロセッサに、
少なくとも第1のサウンドエフェクト(SFX)推薦エンジンをトレーニングすることと、
少なくともサウンドのない第1のビデオに対し、少なくとも1つのSFXを推薦することと、
を実行させ、
前記SFX推薦エンジンをトレーニングすることは、
サイレントビデオフレームと混音SFXラベルを複数の残差ニューラルネットワーク(Resnet)に入力することと、
前記Resnetの出力を少なくとも1つの双方向ゲート付きリカレントユニットに入力して、ベクトルをレンダリングすることと、
を含み、
前記少なくとも1つのSFXを推薦することは、
前記Resnet
と前記少なくとも1つの双方向ゲート付きリカレントユニットと
をトレーニングした少なくとも1つのトレーニングされるモデルに、
少なくともサウンドのない第2のビデオを入力することを含み、
前記トレーニングされるモデルはまた
、前記第2のビデオに対する推薦SFXを表す少なくとも1つのSFXタグを出力するように構成される、
前記装置。
【請求項10】
前記命令は、前記少なくとも1つのプロセッサに、前記推薦SFXを前記第2のビデオと組み合わせることを実行させる、請求項9に記載の装置。
【請求項11】
前記命令は、前記少なくとも1つのプロセッサに、
第1の混音SFXモデルにトレーニングデータを入力して、前記第1の混音SFXモデルをトレーニングすることを、実行させ、前記トレーニングデータは、1つ以上のコンピュータシミュレーションからのオーディオクリップと、前記1つ以上のコンピュータシミュレーションとは別に生成された合成オーディオクリップとを含む、
請求項9に記載の装置。
【請求項12】
前記命令は、前記少なくとも1つのプロセッサに、
前記第1の混音SFXモデルの複数の畳み込みNN(CNN)に前記トレーニングデータを入力して第1の出力をレンダリングすることと、
前記第1の出力を分類マッパーに入力して、SFXの予測を含む第2の出力をレンダリングすることと、
を実行させる、請求項11に記載の装置。
【請求項13】
前記第1の混音SFXモデルは、
複数のゲート付き畳み込みニューラルネットワーク(CNN)であって、これらのうちの少なくとも1つは、前記トレーニングデータを受信するように構成される、前記複数のゲート付きCNNと、
前記複数のゲート付きCNNの出力を受信するように構成された少なくとも第1の分類器(CLF)ネットワークと、
前記複数のゲート付きCNNの出力を受信するように構成された少なくとも第2のCLFネットワークと、
を備える、請求項12に記載の装置。
【請求項14】
前記第1のCLFネットワークは、1つ以上のコンピュータシミュレーションからの前記オーディオクリップと前記合成オーディオクリップとの両方からのデータを入力する前記複数のゲート付きCNNから、出力を受信するように構成された32カテゴリの教師ありネットワークである、請求項13に記載の装置。
【請求項15】
前記第2のCLFネットワークは、1つ以上のコンピュータシミュレーションの前記オーディオクリップからではなく、前記合成オーディオクリップからのデータを入力する前記複数のゲート付きCNNから、出力を受信するように構成された細粒度の半教師ありネットワークである、請求項14に記載の装置。
【請求項16】
プロセッサが、
第1のビデオまたは第1のコンピュータシミュレーションにおける第1のサウンドエフェクトと第2のサウンドエフェクトとを分類することと、
前記分類に基づいて、第2のビデオまたは第2のコンピュータシミュレーションのサウンドエフェクト予測を提供することと、
を実行し、
前記分類することは、
コンピュータシミュレーションの視覚的特徴とサウンドエフェクト(SFX)タグとの間の相関関係を学習するようにトレーニングされる少なくとも第1のニューラルネットワーク(NN)に、サウンドが抽出された前記第1のコンピュータシミュレーションと抽出された前記サウンドを第1の混音SFXモデルに入力することにより前記第1の混音SFXモデルから出力された混音SFXのグラウンドトゥルース分類及び/または予測されたSFXタグとを入力することにより、前記第1のNNをトレーニングすることと、
前記第1のNNに前記第1のサウンドエフェクトと前記第2のサウンドエフェクトとを入力することにより、前記分類を取得することと、
を含む、
方法。
【請求項17】
前記提供することは、前記第2のビデオまたは前記第2のコンピュータシミュレーションにおけるサウンドエフェクトをサウンドエフェクトタグに直接マッピングすることにより前記サウンドエフェクト予測を出力することを含む、請求項16に記載の方法。
【請求項18】
前記提供することは、前記第2のビデオまたは前記第2のコンピュータシミュレーションの画像認識を行うことにより識別されたオブジェクト、アクション、及びキャプションに基づいて前記サウンドエフェクト予測を出力することを含む、請求項16に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、概して、コンピュータ技術に必然的に根ざし、かつ具体的な技術的改善をもたらす、技術的に独創性のある非定型的解決策に関する。
【背景技術】
【0002】
深層学習と称されることもある機械学習は、データの理解、検出、及び/または分類に関連する様々な有用なアプリケーションに使用できる。ゲーム業界などのコンピュータシミュレーション業界では、ビデオとオーディオは、2つの別個のプロセスである。シミュレーションは、最初に、オーディオなしで設計及び制作され、次いで、オーディオグループがシミュレーションビデオを調査して、対応するサウンドエフェクト(SFX)をSFXデータベースから挿入するのだが、これには時間がかかる。
【発明の概要】
【0003】
本明細書で理解されるように、機械学習を使用して、コンピュータシミュレーションシーンに関連するSFX推薦を提供することにより、上記の技術的問題は対処され得る。
【0004】
従って、装置は、少なくとも1つのプロセッサと、一時的信号ではなく、かつ命令を含む少なくとも1つのコンピュータストレージと、を含み、命令は、プロセッサにより、サウンドエフェクト(SFX)を分類して、分類されたSFXをレンダリングすることを、実行可能である。命令は、少なくとも1つの機械学習エンジンを使用して、第1のコンピュータシミュレーションのビデオ属性と分類されたSFXとの間の学習された相関関係に少なくとも部分的に基づいて、少なくとも第1のコンピュータシミュレーションに対し、分類されたSFXのうちの少なくとも第1のSFXを出力することを、実行可能である。
【0005】
例示的な実施形態では、命令は、第1のコンピュータシミュレーション内の要素と、分類されたSFXのうちの第1のSFXの分類との直接マッピングを使用して、第1のコンピュータシミュレーションに対し、分類されたSFXのうちの第1のSFXを推薦することを、実行可能であり得る。このような実施形態では、命令は、ビデオの視覚的特徴とSFXタグとの間の相関関係を学習するようにトレーニングされた少なくとも第1のニューラルネットワーク(NN)に、サウンドのない第1のコンピュータシミュレーションを入力することと、第1のNNに、混音SFXのグラウンドトゥルース分類を含む少なくとも第1の混音SFXモデルからの情報を入力することと、を実行可能であり得る。命令はさらに、第1の混音SFXモデルにトレーニングデータを入力して、第1の混音SFXモデルをトレーニングすることを、実行可能であり得、トレーニングデータは、1つ以上のコンピュータシミュレーションからのオーディオクリップと、合成オーディオクリップとを含む。命令はさらに、第1の混音SFXモデルの複数の畳み込みNN(CNN)にトレーニングデータを入力して第1の出力をレンダリングし、次に第1の出力を分類マッパーに入力して、第1のコンピュータシミュレーションに対するSFXの予測を含む第2の出力をレンダリングすることを、実行可能であり得る。
【0006】
いくつかの実施態様では、第1の混音SFXモデルは、複数のゲート付き畳み込みニューラルネットワーク(CNN)を含む。少なくとも1つの双方向リカレントニューラルネットワーク(RNN)は、複数のゲート付きCNNの出力を受信するように構成され得る。また、複数のアテンションベースのフィードフォワードニューラルネットワーク(FNN)は、RNNの出力を受信するように構成され得る。
【0007】
いくつかの実施例では、第1の混音SFXモデルは、複数のゲート付き畳み込みニューラルネットワーク(CNN)を含み得、これらのうちの少なくとも1つは、トレーニングデータを受信するように構成される。少なくとも第1の分類器(CLF)ネットワークは、複数のゲート付きCNNの出力を受信するように構成され得、少なくとも第2のCLFネットワークは、複数のゲート付きCNNの出力を受信するように構成され得る。このような実施形態では、第1のCLFネットワークは、1つ以上のコンピュータシミュレーションからのオーディオクリップと合成オーディオクリップとの両方からのデータを含む複数のゲート付きCNNから、出力を受信するように構成された教師あり32カテゴリネットワークであり得る。第2のCLFネットワークは、1つ以上のコンピュータシミュレーションのオーディオクリップからではなく、合成オーディオクリップからのデータを含む複数のゲート付きCNNから、出力を受信するように構成された教師あり182カテゴリネットワークであり得る。
【0008】
別の態様では、装置は、少なくとも1つのプロセッサと、一時的信号ではなく、かつ命令を含む少なくとも1つのコンピュータストレージと、を含み、命令は、プロセッサにより、サイレントビデオフレーム及び混音SFXラベルを複数の残差ニューラルネットワーク(Resnet)に少なくとも部分的に入力することにより、少なくとも第1のサウンドエフェクト(SFX)推薦エンジンをトレーニングすることを、実行可能である。命令は、Resnetの出力を少なくとも1つの双方向ゲート付きリカレントユニットに入力して、ベクトルをレンダリングすることと、少なくとも1つのトレーニング済みモデルに、Resnetの出力を少なくとも部分的に入力することにより、少なくともサウンドのない第1のビデオに対し、少なくとも1つのSFXを推薦することと、を実行可能であり、トレーニング済みモデルはまた、少なくともサウンドのない第2のビデオを入力として受信して、第2のビデオに対する推薦SFXを表す少なくとも1つのSFXタグを出力するように構成される。
【0009】
別の態様では、方法は、第1のビデオまたは第1のコンピュータシミュレーションにおける第1のサウンドエフェクト及び第2のサウンドエフェクトを分類することと、少なくとも部分的に分類に基づいて、第2のビデオまたは第2のコンピュータシミュレーションのサウンドエフェクト予測を提供することと、を含む。
【0010】
本出願の構造及び動作の両方についての詳細は、添付図面を参照することで最良に理解でき、図面では、同様の参照番号は、同様の部分を指す。
【図面の簡単な説明】
【0011】
【
図1】本発明の原理と一致する、例示的なシステムのブロック図である。
【
図2】本発明の原理と一致する、ビデオまたはコンピュータシミュレーションに対するサウンドエフェクト(SFX)を推薦するための例示的な全体ロジックのフローチャートである。
【
図3】
図2のロジックを例示するブロック図である。
【
図4】ビデオからSFXタグへの直接マッピングを伴うSFXタグ付けの第1の手法のブロック図である。
【
図5】
図4の第1の手法と一致する、追加機能のブロック図である。
【
図6】
図4の第1の手法と一致する、「混音」粗粒度(図示される例では32カテゴリ)SFX分類に関連する機械学習アーキテクチャのブロック図である。
【
図7】
図4の第1の手法と一致する、「混音」粗粒度(図示される例では32カテゴリ)SFX分類に関連する機械学習アーキテクチャのブロック図である。
【
図8】
図4の第1の手法と一致する、「混音」細粒度SFX分類に関連する半教師あり機械学習アーキテクチャのブロック図である。
【
図9】
図4の第1の手法と一致する、トレーニングフェーズ及びテストフェーズに関連する機械学習アーキテクチャのブロック図である。
【
図10】視覚的把握による間接的なタグ付けを伴うビデオタグ付けの第2の手法の特徴のブロック図である。
【
図11】スクリーンショット、及び視覚的タグとマッチングするSFXオーディオタグとの相関を示す関連テーブルである。
【
図12】スクリーンショット、及び視覚的タグとマッチングするSFXオーディオタグとの相関を示す関連テーブルである。
【発明を実施するための形態】
【0012】
本発明の原理に従って、深層学習ベースのドメイン適応方法を使用して、ビデオ、及びビデオゲームなどのコンピュータシミュレーションに対するSFXが推薦され得る。
【0013】
本明細書で説明される方法は、複数のオブジェクト、及び複数のオブジェクトに関連付けられた複数のアクションに関係し得る。例えば、多くのテキストの画像テキストブロックは「オブジェクト」であり得、画像ブロックのタイプは「アクション」であり得る。
【0014】
本開示はまた、概して、分散コンピュータゲームネットワーク、拡張現実(AR)ネットワーク、仮想現実(VR)ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなど、これらに限定されない一般消費者向け電子製品(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。
【0015】
本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを介して接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントには、ARヘッドセット、VRヘッドセット、Sony PlayStation(登録商標)などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ(例えばスマートTV、インターネット対応TV)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートホン及び下記で論じられる追加例を含む他のモバイルデバイスを含む1つ以上のコンピューティングデバイスが含まれ得る。これらのクライアントデバイスは、様々な動作環境で作動し得る。例えば、クライアントコンピュータのうちのいくつかは、例を挙げると、Orbis(登録商標)もしくはLinux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、またはUnix(登録商標)オペレーティングシステム、またはApple, Inc.(登録商標)製もしくはGoogle(登録商標)製のオペレーティングシステムを採用し得る。これらの動作環境を使用して、Microsoft(登録商標)製もしくはGoogle(登録商標)製のブラウザ、または下記に論じられるインターネットサーバによりホストされるウェブサイトにアクセスできるMozilla(登録商標)もしくは他のブラウザプログラムなど、1つ以上のプログラム/アプリケーションが実行され得る。また、本発明の原理による動作環境を使用して、本発明の原理を実施する1つ以上のコンピュータゲームプログラム/アプリケーション及び他のプログラム/アプリケーションが実行され得る。
【0016】
サーバ及び/またはゲートウェイは、1つ以上のプロセッサを含み得、1つ以上のプロセッサは、インターネットなどのネットワークを介してデータを送受信するようにサーバを構成する命令を実行する。付加的または代替的に、クライアントとサーバは、ローカルイントラネットまたは仮想プライベートネットワークを介して接続され得る。サーバまたはコントローラは、Sony PlayStation(登録商標)といったゲームコンソール及び/またはその1つ以上のマザーボード、パーソナルコンピュータなどにより、インスタンス化され得る。
【0017】
クライアントとサーバとの間でネットワークを介して情報が交換され得る。このために、及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。1つ以上のサーバは、本発明の原理に従って、ネットワークユーザがクラウドソーシングによる通信を行うために、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティをネットワークユーザに提供する方法を実施する装置を形成し得る。
【0018】
本明細書で使用される命令は、システムで情報を処理するためのコンピュータ実施ステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。
【0019】
プロセッサは、アドレスライン、データライン、及び制御ラインなどの様々なライン、ならびにレジスタ及びシフトレジスタにより、ロジックを実行することができる任意の従来の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。
【0020】
本明細書において、フローチャートを介して説明されるソフトウェアモジュール、及びユーザインターフェースは、様々なサブルーチン、プロシージャなどを含み得る。本開示を限定することなく、特定のモジュールにより実行されると述べられるロジックは、他のソフトウェアモジュールに再配分されてもよく、及び/または単一モジュール内に一緒に組み合わされてもよく、及び/または共有可能なライブラリで利用可能な状態にされてもよい。
【0021】
上記のように、本明細書で記述される本発明の原理は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせで実施され得、ゆえに、例示的なコンポーネント、ブロック、モジュール、回路、及びステップは、これらの機能の観点から説明される。
【0022】
上記で示唆されたことに加えて、後述されるロジックブロック、モジュール、及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、または例えば特定用途向け集積回路(ASIC)、個別ゲート、もしくはトランジスタロジックなどの他のプログラムマブルロジックデバイス、個別ハードウェアコンポーネント、またはこれらの任意の組み合わせにより、実装または実行され得る。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせにより、実施され得る。
【0023】
後述される機能及び方法は、ハードウェア回路またはソフトウェア回路で実施され得る。ソフトウェアで実施される場合、機能及び方法は、Java(登録商標)、C#、またはC++などのこれに限定されない好適な言語で記述され得、コンピュータ可読記憶媒体により格納または送信され得、コンピュータ可読記憶媒体の例には、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)、またはデジタル多用途ディスク(DVD)などの他の光学ディスクストレージ、磁気ディスクストレージ、またはリムーバブルサムドライブを含む他の磁気ストレージデバイスなどが挙げられる。接続により、コンピュータ可読媒体が確立され得る。このような接続には、例として、光ファイバ及び同軸ワイヤを含むハードワイヤケーブル、ならびにデジタル加入者線(DSL)及びツイストペア線が含まれ得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。
【0024】
一実施形態に含まれるコンポーネントは、他の実施形態において、任意の好適な組み合わせで使用することができる。例えば、本明細書で説明され及び/または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。
【0025】
「A、B、及びCのうちの少なくとも1つを有するシステム」(同様に「A、B、またはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)には、Aのみ、Bのみ、Cのみ、AとBを一緒に、AとCを一緒に、BとCを一緒に、及び/またはAとBとCを一緒に、などを有するシステムが含まれる。
【0026】
ここで具体的に
図1を参照すると、本発明の原理による、上記で言及され下記でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示される。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、TVチューナー(同等にTVを制御するセットトップボックス)を備えたインターネット対応TVなどのこれに限定されないオーディオビデオデバイス(AVD)12といった一般消費者向け電子製品(CE)デバイスである。しかし、AVD12は、代替的に、例えばインターネット対応コンピュータ化冷蔵庫、洗濯機、または乾燥機などの電化製品または家庭用品であってもよい。また、AVD12は、代替的に、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、インターネット対応すなわち「スマート」グラス、別の種類のウェアラブルコンピュータ制御型デバイス、例えばコンピュータ制御型インターネット対応腕時計、コンピュータ制御型インターネット対応ブレスレット、コンピュータ制御型インターネット対応ミュージックプレーヤ、コンピュータ制御型インターネット対応ヘッドホン、インプラント可能皮膚用デバイスなどのコンピュータ制御型インターネット対応インプラント可能デバイス、他のコンピュータ制御型インターネット対応デバイスなどであってもよい。いずれにせよ、AVD12は、本発明の原理を実施する(例えば本発明の原理を実施するために他の一般消費者向け電子製品(CE)デバイスと通信し、本明細書で説明されるロジックを実行し、本明細書で説明されるいずれかの他の機能及び/または動作を実行する)ように構成されることを理解されたい。
【0027】
従って、このような原理を実施するために、
図1に示されるコンポーネントのうちのいくつかまたは全てにより、AVD12は確立され得る。例えば、AVD12は、1つ以上のディスプレイ14を含み得、これは、高解像度または超高解像度「4K」以上のフラットスクリーンが実装され得、ディスプレイ上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。AVD12は、本発明の原理に従ってオーディオを出力するための1つ以上のスピーカ16、及びAVD12を制御するようにAVD12に可聴コマンドを入力するための、オーディオ受信器/マイクロホンなどの少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12はまた、1つ以上のプロセッサの制御下でインターネット、WAN、LANなどの少なくとも1つのネットワーク22を介して通信するための1つ以上のネットワークインターフェース20を含み得る。従って、インターフェース20は、Wi-Fi(登録商標)送受信器であり得るが、これに限定されず、Wi-Fi(登録商標)送受信器は、非限定的にメッシュネットワーク送受信器などの無線コンピュータネットワークインターフェースの例である。さらに、ネットワークインターフェース20は、例えば有線もしくは無線のモデムもしくはルータであり得る、または、例えば無線電話送受信器、または上述のWi-Fi(登録商標)送受信器などの他の好適なインターフェースであり得ることに、留意されたい。
【0028】
1つ以上のプロセッサは、本発明の原理を実施するためにAVD12を制御し、これには、例えばディスプレイ14を制御してディスプレイ14上に画像を提示し、ディスプレイ14から入力を受信するなど、本明細書に説明されるAVD12の他の素子が含まれることを理解されたい。1つ以上のプロセッサは、中央処理装置(CPU)24、ならびにグラフィックスカード25A上のグラフィックス処理装置(GPU)25を含み得る。
【0029】
上記に加えて、AVD12はまた、別の一般消費者向け電子製品(CE)デバイスに(例えば有線接続を用いて)物理的に接続するための、例えば高解像度マルチメディアインターフェース(HDMI(登録商標))ポートまたはUSBポートなどの1つ以上の入力ポート26、及び/または、AVD12からのオーディオをヘッドホンを介してユーザに提供するように、ヘッドホンをAVD12に接続するためのヘッドホンポートを含み得る。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルソースまたは衛星ソース26aに、有線または無線を介して接続され得る。従って、ソース26aは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信器であり得る。あるいは、ソース26aは、チャネル割り当て目的でユーザがお気に入りとみなし得るコンテンツを含むゲームコンソールまたはディスクプレーヤであってもよい。ソース26aは、ゲームコンソールとして実装される場合、CEデバイス44に関連して後述されるコンポーネントのうちのいくつかまたは全てを含み得、本明細書で説明されるロジックのうちのいくつかまたは全てを実施し得る。
【0030】
AVD12はさらに、一時的信号ではないディスクベースストレージまたはソリッドステートストレージなどの1つ以上のコンピュータメモリ28を含み得、これらは、いくつかの事例では、AVDのシャシー内にスタンドアロンデバイスとして、またはAVプログラムを再生するためにAVDのシャシーの内部もしくは外部のパーソナルビデオレコーディングデバイス(PVR)もしくはビデオディスクプレーヤとして、またはリムーバブルメモリ媒体として、具現化される。また、いくつかの実施形態では、AVD12は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話受信器、GPS受信器、及び/または高度計30などであるがこれらに限定されず、例えば少なくとも1つの衛星または携帯電話中継塔から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはプロセッサ24と連動して、AVD12が配置されている高度を特定するように構成される。しかしながら、例えばAVD12の所在地を全3次元で特定するために、本発明の原理による、携帯電話受信器、GPS受信器、及び/または高度計以外の別の好適な位置受信器が使用されてもよいことを、理解されたい。
【0031】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含み得、これは、例えば熱画像カメラ、ウェブカメラなどのデジタルカメラ、赤外線(IR)カメラ、及び/またはAVD12に統合されたカメラであり得、本発明の原理に従って写真/画像及び/またはビデオを生成するようにプロセッサ24により制御可能であり得る。また、AVD12は、ブルートゥース(登録商標)送受信器34、及び他の近距離無線通信(NFC)素子36を含み得、これらは、ブルートゥース(登録商標)及び/またはNFC技術をそれぞれ使用して、他のデバイスと通信する。例示的なNFC素子は、無線周波数識別(RFID)素子であり得る。
【0032】
さらにまた、AVD12は、プロセッサ24に入力を提供する1つ以上の補助センサ37を含み得る(例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、あるいは磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、ジェスチャセンサ(例えばジェスチャコマンドを感知する)など)。AVD12は、地上波(OTA)TV放送を受信し、プロセッサ24に入力を提供するOTA TV放送ポート38を含み得る。前述に加えて、AVD12はまた、赤外線データ協会(IRDA)デバイスなどの赤外線(IR)送信器及び/またはIR受信器及び/またはIR送受信器42を含み得ることに留意されたい。バッテリ(図示せず)が、AVD12に電力供給を行うために設けられ得る。
【0033】
さらに
図1を参照すると、AVD12に加えて、システム10は、1つ以上の他の一般消費者向け電子製品(CE)デバイス類を含み得る。一例では、AVD12に直接及び/または後述のサーバを通して送信されるコマンドを介して、AVD12にコンピュータゲームのオーディオ及びビデオを送信するために、第1のCEデバイス44は使用され得るが、第2のCEデバイス46も、第1のCEデバイス44と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス46は、図示されるようにユーザ47が装着するARまたはVRヘッドセットとして構成され得る。示される例では、2つのCEデバイス44、46のみが図示されるが、より少ないまたはより多いデバイスも本発明の原理に従って使用されてもよいことが理解されよう。
【0034】
示される例では、3つのデバイス12、44、46は全て、例えば自宅内の安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくはWi-Fi(登録商標)などのネットワークのメンバーであり、または少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに及びサーバと通信可能であると想定される。しかし、本発明の原理は、明確に別段の主張がない限り、特定の場所またはネットワークに限定されない。
【0035】
非限定的な例示の第1のCEデバイス44は、上記のデバイスのうちのいずれか1つ、例えば、スマートホン、デジタルアシスタント、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータ、またはゲームコントローラ(「コンソール」とも称される)により確立され得、従って、後述されるコンポーネントのうちの1つ以上を有し得る。第2のCEデバイス46は、ARヘッドセット、VRヘッドセット、「スマート」インターネット対応グラス、またはさらにブルーレイプレーヤ及びゲームコンソールなどのビデオディスクプレーヤによっても、確立され得るが、これらに限定されない。またさらに、いくつかの実施形態では、第1のCEデバイス44は、例えばAV再生及び一時停止コマンドをAVD12に発令するためのリモートコントロール(RC)であり得、または第1のCEデバイス44は、タブレットコンピュータ、
図1に示されるデバイスのうちの別のデバイスにより実施されるゲームコンソールと有線または無線リンクを介して通信し、AVD12上のビデオゲームの提示を制御するゲームコントローラ、パーソナルコンピュータ、無線電話などのより洗練されたデバイスであり得る。
【0036】
従って、第1のCEデバイス44は、1つ以上のディスプレイ50を含み得、これは、ディスプレイ50上のタッチを介してユーザ入力信号を受信するタッチ対応であり得る。付加的または代替的に、ディスプレイ(複数可)50は、ARヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにVRヘッドセットディスプレイ、もしくはAR及び/またはVR画像を提示するように構成された他のディスプレイなど、少なくとも部分的に透明なディスプレイであり得る。
【0037】
第1のCEデバイス44はまた、本発明の原理に従ってオーディオを出力するための1つ以上のスピーカ52と、例えば第1のCEデバイス44を制御するように第1のCEデバイス44に可聴コマンドを入力するための、例えばオーディオ受信器/マイクロホンなどの少なくとも1つの追加入力デバイス54と、を含み得る。例示的な第1のCEデバイス44はさらに、1つ以上のCEデバイスプロセッサ58の制御下で、ネットワーク22を介して通信するための1つ以上のネットワークインターフェース56を含み得る。従って、インターフェース56は、Wi-Fi(登録商標)送受信器であり得るが、これに限定されず、Wi-Fi(登録商標)送受信器は、メッシュネットワークインターフェースを含む無線コンピュータネットワークインターフェースの例である。プロセッサ58は、本発明の原理を実施するために第1のCEデバイス44を制御し、これには、例えばディスプレイ50を制御してディスプレイ50上に画像を提示し、ディスプレイ50から入力を受信するなど、本明細書に説明される第1のCEデバイス44の他の素子が含まれることを理解されたい。さらに、ネットワークインターフェース56は、例えば有線または無線のモデムまたはルータであり得、または、無線電話送受信器、もしくは上記のWi-Fi(登録商標)送受信器などの他の好適なインターフェースであり得ることに、留意されたい。
【0038】
またさらに、プロセッサ(複数可)58に加えて、第1のCEデバイス44はまた、グラフィックスカード55A上にグラフィックス処理ユニット(GPU)55を含み得ることに留意されたい。グラフィックス処理ユニット55は、とりわけ、ディスプレイ50上にAR及び/またはVR画像を提示するように構成され得る。
【0039】
上記に加えて、第1のCEデバイス44はまた、別のCEデバイスに(例えば有線接続を用いて)物理的に接続するための、例えばHDMI(登録商標)ポートまたはUSBポートなどの1つ以上の入力ポート60、及び/または、ヘッドホンを第1のCEデバイス44に接続して、第1のCEデバイス44からのオーディオをヘッドホンを介してユーザに提供するためのヘッドホンポートを含み得る。第1のCEデバイス44はさらに、ディスクベースストレージまたはソリッドステートストレージなどの1つ以上の有形コンピュータ可読記憶媒体62を含み得る。また、いくつかの実施形態では、第1のCEデバイス44は、位置受信器すなわち所在地受信器を含み得、これは、携帯電話及び/またはGPS受信器及び/または高度計64などであるがこれらに限定されず、例えば、三角測量を使用して、少なくとも1つの衛星及び/または携帯電話中継塔から地理的位置情報を受信し、情報をCEデバイスプロセッサ58に提供し、及び/またはCEデバイスプロセッサ58と連動して、第1のCEデバイス44が配置されている高度を特定するように構成される。しかし、例えば、第1のCEデバイス44の所在地を全3次元で特定するために、携帯電話及び/またはGPS受信器及び/または高度計以外の別の好適な位置受信器が、本発明の原理に従って使用されてもよいことを、理解されたい。
【0040】
第1のCEデバイス44の説明を続けると、いくつかの実施形態では、第1のCEデバイス44は、1つ以上のカメラ66を含み得、これは、例えば熱画像カメラ、IRカメラ、ウェブカメラなどのデジタルカメラ、及び/または第1のCEデバイス44に統合された別の種類のカメラであり得、本発明の原理に従って写真/画像及び/またはビデオを生成するようにCEデバイスプロセッサ58により制御可能であり得る。また、第1のCEデバイス44は、ブルートゥース(登録商標)送受信器68と他の近距離無線通信(NFC)素子70とを含み得、これらは、ブルートゥース(登録商標)及び/またはNFC技術をそれぞれ使用して、他のデバイスと通信する。例示的なNFC素子は、無線周波数識別(RFID)素子であり得る。
【0041】
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つ以上の補助センサ72を含み得る(例えば加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度及び/またはケイデンスセンサ、ジェスチャセンサ(例えばジェスチャコマンドを感知する)など)。第1のCEデバイス44はさらに、例えば1つ以上の気候センサ74(例えば気圧計、湿度センサ、風センサ、光センサ、温度センサなど)及び/または1つ以上の生体センサ76などの他のセンサを含み得、これらは、CEデバイスプロセッサ58に入力を提供する。前述に加えて、いくつかの実施形態では、第1のCEデバイス44はまた、赤外線データ協会(IRDA)デバイスなどの赤外線(IR)送信器及び/またはIR受信器及び/またはIR送受信器78を含み得ることに留意されたい。第1のCEデバイス44に給電するためにバッテリ(図示せず)が提供され得る。CEデバイス44は、前述の通信モード及び関連コンポーネントのうちのいずれかを介して、AVD12と通信し得る。
【0042】
第2のCEデバイス46は、CEデバイス44に関して示されるコンポーネントのうちのいくつかまたは全てを含み得る。一方または両方のCEデバイスは、1つ以上のバッテリにより電力供給され得る。
【0043】
ここで、上記の少なくとも1つのサーバ80を参照すると、これは、少なくとも1つのサーバプロセッサ82と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも1つの有形コンピュータ可読記憶媒体84とを含む。実施態様では、媒体84は、1つ以上のソリッドステートストレージドライブ(SSD)を含む。サーバはまた、少なくとも1つのネットワークインターフェース86を含み、これにより、ネットワーク22を介して
図1の他のデバイスとの通信が可能となり、実際に、本発明の原理に従ってサーバとクライアントデバイスとの間の通信が促進され得る。ネットワークインターフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi(登録商標)送受信器、または無線電話送受信器などの他の好適なインターフェースであり得ることに、留意されたい。ネットワークインターフェース86は、サーバプロセッサ82を通ることなく、いわゆる「ファブリック」などのネットワークに媒体84を直接接続するリモートダイレクトメモリアクセス(RDMA)インターフェースであり得る。ネットワークは、イーサネット(登録商標)ネットワーク及び/またはファイバチャネルネットワーク及び/またはインフィニバンドネットワークを含み得る。通常、サーバ80は、物理サーバ「スタック」に配置され得る「ブレード」と称される複数のコンピュータに、複数のプロセッサを含む。
【0044】
従って、いくつかの実施形態では、サーバ80は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含んで実行し得、これにより、例えば本明細書で開示されるドメイン適応などの例示的な実施形態では、システム10のデバイスがサーバ80を介して「クラウド」環境にアクセスし得る。付加的または代替的に、サーバ80は、
図1に示される他のデバイスと同じ部屋または近くに存在する1つ以上のゲームコンソールまたは他のコンピュータにより、実施され得る。
【0045】
図2及び
図3は、全体的な原理を示す。
図2のブロック200から始まり、サウンドエフェクト(SFX)が分類される。一例では、この分類は、入力デジタル化サウンドエフェクト信号300に対して実行され、本明細書の他の箇所で説明されるように、分類されるサウンドエフェクトを言葉で説明するタグ302(
図3に図示される)がレンダリングされ得る。
【0046】
図2のブロック202へ移動して、さらに
図3を相互参照すると、タグ302はデータベース304に登録される。次に、
図2のブロック204に進むと、登録されたタグがサウンドのないビデオ306と組み合わされて、ビデオにサウンドエフェクトサウンド308がレンダリングされ得る。「サウンドエフェクト」とは、例えば、銃声音、火の燃える音、人が走る音、人が叫び声を上げる音、水の音などをコンピュータゲームが模倣するコンピュータシミュレーションの一環である非言語オーディオを指すことに留意されたい。さらに後述されるように、ビデオゲームなどのコンピュータシミュレーションのサウンドコンテンツ作成を支援するために、本明細書では、深層学習/AI技術が提供される。
【0047】
本明細書で使用される「クリーンSFXタグ付け」とは、ゲームサウンドデザイナが使用するクリーンオーディオサンプル(単一の音源によるサウンドエフェクト)を、彼らのカテゴリ及びサブカテゴリに基づいて分類またはタグ付けすることで、クリーンオーディオサンプルがデータベースに自動的に登録され得ることを指す。これは、サウンドミキシング中の検索及び取得をより効率的にすることで、ゲームデザイナを支援する。「ビデオタグ付け」とは、ゲームシーンに関連するサウンドエフェクトを自動的に推薦することを指す。これは、サウンドデザインプロセスをより効率的にすることで、ゲームデザイナを支援するために行われる。本発明の原理は、ビデオのタグ付けを実現する技法に焦点を当てる。
【0048】
本開示は、ビデオのタグ付けの2つの技法を明らかにする。
図4~
図9は、ゲームビデオの視覚的特徴と対応するSFX(オーディオ)タグ302との間の相関関係を学習するように深層学習エンジンがトレーニングされる直接マッピング手法を説明する。
図10~
図12は、視覚的把握手法を、2つのステップで、すなわち、ゲームシーンの視覚的コンテンツを把握して、オブジェクトタグ、アクションタグ、及びキャプションを含む視覚的タグを生成するニューラルネットワーク(NN)を提供することと、続いて、セマンティックテキストの類似性を使用して視覚的タグをオーディオタグにマッピングすることと、の2つのステップで説明する。辞書ベースのマッピングも、他の知識ベースに基づいて使用され得る。
【0049】
従って、ここで
図4を参照すると、トレーニングフェーズ400では、SFXサウンド付きのコンピュータシミュレーション402などのビデオを使用して、NNシステムは、様々なSFXソースのタグ404を生成して、SFXタグ406をレンダリングするように、トレーニングされる。NNシステムは、一旦トレーニングされると、テストフェーズ408にて、SFXサウンドのないコンピュータシミュレーションなどのビデオ410を、下記でさらに説明されるトレーニング済みモデル412への入力として受信し、ビデオ410と組み合わせるSFXタグ414を出力し、SFXサウンドが組み込まれたビデオ416をレンダリングするように、使用され得る。
【0050】
ここで
図5を参照すると、
図4のトレーニングフェーズのより詳細な説明が示され得る。コンピュータゲームビデオ500などのサイレントビデオは、トレーニング済みNN502に入力される。ビデオの視覚的特徴と対応するサウンドエフェクトとの間の直接マッピングを学習するために、教師あり学習手法がNN502により使用される。この教師ありモデルをトレーニングするには、ゲームオーディオのサウンドアノテーションが必要である。本明細書で理解されるように、ゲームオーディオは通常、サウンドの混合(混音SFXとも称される)を含むという事実により、サウンドカテゴリの数が多い場合は特に、人間アノテーション504を取得することが困難になるため、プロセスは複雑である。ゆえに、深層学習モデル506は、サウンドの混合(混音SFXモデル)に自動的にタグ付けして、構成サウンドのカテゴリを識別するようにトレーニングされる。
【0051】
ここで
図6及び
図7を参照すると、最初の実施形態では、混音SFXモデルは、人間アノテーションを使用した少数のカテゴリ(32クラス)のタグ付けを行うようにトレーニングされる。スペクトログラム600により表されるオーディオクリップは、一連の畳み込みNN(CNN)604を含むセグメンテーションマッピングモジュール602に入力される。セグメンテーションマスク606は、マッピングモジュール602により出力され、分類マッピング608が対応する確率を有するタグの予測610を生成するのに使用される。関連して、
図7は、ゲート付き畳み込みリカレントNN(CRNN)700を示し、これは、SFXクリップ702を入力として受信し、時間ステップごとにスペクトルパターンを抽出し、双方向長短期記憶(LSTM)などの双方向RNN704に出力を提供する。
図7は、ネットワーク700で使用されるCNNの種類を示す。Bi-RNN704は、複数のフィードフォワードNN(FNN)を含むアテンションベースのローカリゼーションモジュール706に接続され、複数のFNNは、シグモイドFNN及びソフトマックスFNNとして作動し、加重平均で予測タグ708を生成することが示される。
【0052】
本発明の原理で重要なことは、
図8が示す混音SFXタグ付けの高度な技法である。混音サンプル内の様々なサウンドエフェクトをより適切に区別するために、より細粒度のSFXタグ(例えば182クラスもしくは5000クラスのラベル、またはさらにより細かいラベル)を生成するために、コンピュータシミュレーションからの実際のSFXデータ800と、ゲート付きCNNモジュール804をトレーニングすることのみを目的として全てのシミュレーションとは別に生成された合成混音SFXデータ802とを使用して、教師ありモデルがトレーニングされる。言い換えると、
図8に反映される本発明の原理では、教師ありモデルをトレーニングするには、より細粒度(例えば182クラスまたは5000クラス)のグラウンドトゥルースタグを有するトレーニングデータが必要であるが、より粗粒度(32クラス)の人間アノテーション付きSFXラベルのみがゲームオーディオ用に現在利用可能であることが、認識される。ゆえに、
図8以降の図は、追加の人間アノテーションなしで、粗粒度オーディオタグから細粒度オーディオタグを生成する半教師あり手法を示す。粗粒度タグと細粒度タグの例として、32クラスと182クラスが使用されていることに留意されたい。
【0053】
802で表されるサウンドサンプルの合成混合物が作成され、それらのカテゴリがミキシング中に記録される。この合成混合物では、細粒度SFXラベル(本明細書の他の箇所ではデータセット1と称される)が確立される。一方、ブロック800は、データセット2と称される粗粒度ラベル(人間が生成)を有する実際の利用可能なゲームオーディオを表す。
図8に示されるように、実際のシミュレーションまたはゲームデータのデータセット1と、シミュレーションまたはゲームからではなく、ゲームデータを補足する目的で作成された合成データのデータセット2を組み合わせて、エンドツーエンドの半教師ありモデル804がトレーニングされ、半教師ありモデル804は、混音ゲームオーディオの成分を識別する細粒度タグ810を生成するために、粗粒度分類器806と、細粒度分類器808とを含む。前に説明されたように、本物の細粒度ゲームオーディオラベルがトレーニング用に存在しないため、これは半教師ありで行われる。これは、粗粒度オーディオタグ812及び細粒度オーディオタグ810の両方を生成することができるので、マルチタスクモデルである。言い換えると、細粒度分析は、粗粒度分析よりも多くのカテゴリを使用する。
【0054】
このモデルのトレーニング損失関数は、細粒度タグ付け及び粗粒度タグ付けの損失の合計である。トレーニングの目標は、トレーニングの損失を最小化することである。モデルが収束すると、トレーニングは終了する。この時点で、混音オーディオ混合を成分タグに分解することができるモデルが実現する。
【0055】
従って、上記の説明は、ゲームオーディオの成分サウンドエフェクトカテゴリを識別する技法を明らかにし、一方、
図9は、これらのタグ(人間または
図8のモデルによる生成)を使用して教師ありビデオタグ付けモデルをトレーニングする方法を示す。示されるように、トレーニング中、サウンドが抽出されたビデオ900は、前述のように生成された、及び/または人間アノテーションが付けられた混音SFXタグ902と共に、トレーニングフェーズモジュール904に入力される。より具体的には、ビデオから抽出された対応するオーディオは、上記の
図8で説明された混音SFXモデルに通され、SFXタグまたはラベル902が生成され、これらは、対応するビデオセグメント900と共に、教師ありトレーニングフェーズモデル904に入力される。このようにして、トレーニングの前に、ビデオはオーディオタグと同期化される。非限定的な例示的実施態様では、使用されるフレームレートは、毎秒30フレーム(30fps)であり得、ビデオ持続時間は1秒であり得る。
【0056】
トレーニングフェーズモジュール904は、サイレントビデオフレームを深層CNN906(例えばResnetまたは同様のネットワーク)に通すことにより、ビデオ埋め込み(数値ベクトル)を生成する。フレームごとに、1つの埋め込み(ベクトル)が生成され、ビデオフレームの視覚的特徴として機能する。他の視覚的機能も使用され得る。ビデオは一連のフレームであるため、一連のビデオ埋め込みが生成され、これは次に、リカレントニューラルネットワーク908に、示される例ではタグ予測910を生成する双方向ゲート付きリカレントユニット(GRU)またはゲート付きリカレントネットワークに、入力される。
【0057】
トレーニングの出力は、ニューラルモデル912であり、これは、テストフェーズでサウンドのない新たなシミュレーションビデオ914を受信し、サイレントビデオ914に対応するサウンドタグ916を生成することができる。これらのタグを使用して、対応するサウンドエフェクト918が取得され、920に示されるビデオと組み合わされ得る。
【0058】
図10~
図12は、上記で示唆された視覚的把握手法を示す。第1のステップでは、サウンド(オーディオ)のないコンピュータシミュレーションなどのビデオ1000を使用して、例えば、ビデオ内の識別されたオブジェクト1004、ビデオ内の識別されたアクション1006、及びビデオ内の識別されたシーン説明1008の視覚的把握に基づいて、視覚的タグ1002が生成される。次に、セマンティックテキスト類似性モジュール1010は、視覚的タグ1002を、前述のデータベースからのSFXタグ1012と共に受信して、視覚的タグをサウンドデータベース内の特定のオーディオカテゴリに自動的にマッピングして、サウンド付きのビデオ1014を生成する。
【0059】
図11にて、さらなる例示が行われる。オブジェクト1102を含むビデオを提示するディスプレイ1100が示され、オブジェクトは、画像認識技術を使用して認識され、対応する視覚的タグ1104が生成される。視覚的タグ1104は、単語埋め込みまたは文埋め込みを使用して埋め込まれ得、これは、数値ベクトルを生じる。ビデオタグ1104は、対応するオーディオタグ1106とマッチングされる。オーディオサンプルを識別する各オーディオカテゴリまたはオーディオファイル名は、単語埋め込みまたは文埋め込みを使用して埋め込まれ、これも数値ベクトルを生じる。
図12は、同様に、ディスプレイ1200上のビデオを、キャプション1202と共に示し、キャプション1202は、教師なしセマンティックテキスト類似性モデル1203を使用して、オーディオタグ1204にマッチングされ得る。
【0060】
いずれの事例も、オーディオタグを、オブジェクトタグに、キャプションタグに、またはアクションタグにマッチングさせるかに関係なく、2つの数値ベクトルが、1つはオーディオタグのために、もう1つはビデオから派生するタグのために、生成される。タグの類似性は、2つのベクトル間の距離を計算することにより決定される。コサイン類似度またはユークリッド距離など、任意の距離測定が使用され得る。距離が小さいほど、タグの類似度は高くなる。この手法を使用して、各視覚的タグは、上位k個の最も類似するオーディオタグにマッピングされる。
【0061】
このテキスト類似性手法を使用することで、各視覚的タグは、オーディオサンプルのグループを識別する粗粒度(例えば32クラス)タグから、個々のサウンドサンプルを識別する高細粒度タグまでに至る、様々な粒度のオーディオタグにマッピングされ得る。
【0062】
ゲームシーンの視覚的把握から自動的に生成されるオーディオタグは、2つの目的を果たし得る。1つ目は、オーディオタグを使用して、ゲームシーンに対するサウンドエフェクトを、ゲームデザイナに推薦することができる。2つ目に、オーディオタグは、オーディオから派生する混音SFXラベルの代わりに、
図4~
図9で明らかにされた直接マッピングビデオタグ付けモデルをトレーニングするためのSFXラベルとしても使用できる。
【0063】
図4~
図9の直接マッピングは、
図10~
図12に示される視覚的把握技法よりも、タグ付け精度を高め得るが、視覚的把握は、教師なしテキスト類似性を使用してより細粒度のタグ付けを行い、オブジェクト及びキャプションに比較的簡単にアノテーション付けを行う。直接マッピングは、正確なグラウンドトゥルースSFXタグがタグ付けに使用できる場合、または音源分離が実行可能な場合に、特に有利である。あるいは細粒度SFXアノテーションを取得することが困難な場合、視覚的把握は特に有利であり、視覚的把握は、サウンドエンジニアのワークフローに類似する。
【0064】
本発明の原理は、数ある中でも画像、ビデオ、及びオーディオのデータ処理を行うための深層学習ベースの方法で、使用され得る。従って、前述の詳細説明から理解され得るように、本発明の原理は、本明細書で説明される技術的解決策により、ニューラルネットワークの適応及びトレーニングを向上させる。
【0065】
本発明の原理は、いくつかの例示的な実施形態を参照して説明されたが、これらは限定を意図するものではなく、本明細書で特許請求される発明の主題を実施するために、様々な代替的構成が使用されてもよいことが、理解されよう。