IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7515612サイレントビデオ用のAI支援音響効果生成
<>
  • 特許-サイレントビデオ用のAI支援音響効果生成 図1A
  • 特許-サイレントビデオ用のAI支援音響効果生成 図1B
  • 特許-サイレントビデオ用のAI支援音響効果生成 図1C
  • 特許-サイレントビデオ用のAI支援音響効果生成 図1D
  • 特許-サイレントビデオ用のAI支援音響効果生成 図2A
  • 特許-サイレントビデオ用のAI支援音響効果生成 図2B
  • 特許-サイレントビデオ用のAI支援音響効果生成 図3
  • 特許-サイレントビデオ用のAI支援音響効果生成 図4
  • 特許-サイレントビデオ用のAI支援音響効果生成 図5
  • 特許-サイレントビデオ用のAI支援音響効果生成 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-04
(45)【発行日】2024-07-12
(54)【発明の名称】サイレントビデオ用のAI支援音響効果生成
(51)【国際特許分類】
   G06N 3/045 20230101AFI20240705BHJP
   G06T 7/00 20170101ALI20240705BHJP
   G06V 10/82 20220101ALI20240705BHJP
   G10L 25/48 20130101ALI20240705BHJP
   G06F 16/55 20190101ALI20240705BHJP
   G06F 16/65 20190101ALI20240705BHJP
   G06F 16/75 20190101ALI20240705BHJP
   G06N 3/0895 20230101ALI20240705BHJP
【FI】
G06N3/045
G06T7/00 P
G06T7/00 350B
G06V10/82
G10L25/48
G06F16/55
G06F16/65
G06F16/75
G06N3/0895
【請求項の数】 19
(21)【出願番号】P 2022562558
(86)(22)【出願日】2021-04-09
(65)【公表番号】
(43)【公表日】2023-05-25
(86)【国際出願番号】 US2021026554
(87)【国際公開番号】W WO2021211368
(87)【国際公開日】2021-10-21
【審査請求日】2022-10-13
(31)【優先権主張番号】16/848,512
(32)【優先日】2020-04-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】クリシュナムルティ、スーダ
【審査官】千葉 久博
(56)【参考文献】
【文献】林坂 享祐,梶川 嘉延,野村 康雄,異種メディア相互検索システムに関する検討-画像に見合う音楽について-,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2002年12月,Vol.102 No.533,pp.33-38
【文献】池添 剛,梶川 嘉延,野村 康雄,音楽感性空間を用いた感性語による音楽データベース検索システム,情報処理学会論文誌,日本,社団法人情報処理学会,2001年12月,第42巻,第12号,pp.3201-3212
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/045
G06T 7/00
G06V 10/82
G10L 25/48
G06F 16/55
G06F 16/65
G06F 16/75
G06N 3/0895
(57)【特許請求の範囲】
【請求項1】
ペアワイズ損失関数を含む機械学習アルゴリズムを使用して訓練されたマルチモーダル相関ニューラルネットワークを含む訓練済み音響推奨ネットワークを使用し、
a)前記マルチモーダル相関ニューラルネットワークがオーディオ埋め込み及びビジュアル埋め込みを出力し、前記マルチモーダル相関ニューラルネットワークが前記オーディオ埋め込み及び前記ビジュアル埋め込みを使用して、画像フレームまたはビデオセグメントとデータベースから取得される1つ以上のオーディオセグメントとの間の相関距離を計算することと、
b)ソート及びフィルタリング505が前記データベース内の前記1つ以上のオーディオセグメントの前記相関距離をソートすることと、
c)前記訓練済み音響推奨ネットワークのマルチモーダル相関ニューラルネットワークが前記データベースからの前記1つ以上のオーディオセグメントの前記ソートされたオーディオ相関距離から、最も近い相関距離を有する1つ以上のオーディオセグメントを決定することと、
d)前記訓練済み音響推奨ネットワークのマルチモーダル相関ニューラルネットワークが前記最も近いオーディオ相関距離を有する前記オーディオセグメントを、入力される前記画像フレームまたは前記ビデオセグメントに適用することと、
を含む方法。
【請求項2】
前記訓練済み音響推奨ネットワークは、いかなるマニュアルアノテーションまたはラベルもない自己教師あり方法で、オーディオ-ビジュアルペアサンプルのセットを使用して訓練されるマルチモーダル相関ニューラルネットワークを含み、
訓練するために使用された前記オーディオ-ビジュアルペアサンプルのセットのオーディオ-ビジュアルサンプルは、単一オーディオソースまたはビジュアルシーンに関係のあるオーディオソースのミクスチャーからなる正のペア、及び単一オーディオソースまたは前記ビジュアルシーンに関係のないオーディオソースのミクスチャーからなる負のペアを含み、
前記マルチモーダル相関ニューラルネットワークは、オーディオ入力及びビジュアル入力の個々の領域をクラスタリングするかしないかにかかわらず、ペアワイズ類似度または三重項類似度を使用して、前記オーディオ入力と前記ビジュアル入力との間の粗粒度関係または細粒度関係を学習する機械学習アルゴリズムを使用して訓練される、請求項1に記載の方法。
【請求項3】
前記訓練済み音響推奨ネットワークはビジュアルサブネットワークを含み、
前記ビジュアルサブネットワークは、相関距離が生成される前に入力される前記画像フレームまたは前記ビデオセグメントの特徴ベクトルを生成する、請求項2に記載の方法。
【請求項4】
前記ビジュアルサブネットワークは、前記画像フレームまたは前記ビデオセグメントの特徴マップを提供するように構成される、請求項3に記載の方法。
【請求項5】
前記データベースは、1つ以上のフィルタリングされたオーディオセグメントを含み、前記1つ以上のフィルタリングされたオーディオセグメントは、前記訓練済み音響推奨ネットワークに入力として使用される、請求項1に記載の方法。
【請求項6】
入力される前記画像フレームまたは前記ビデオセグメントは入力ビデオから取られ、前記入力ビデオは音響を欠く、請求項1に記載の方法。
【請求項7】
前記入力ビデオはダウンサンプリングされたフレームレートを有する、請求項6に記載の方法。
【請求項8】
前記ダウンサンプリングされた入力ビデオは、毎秒1フレームのビデオまたは毎秒30フレームのビデオであり、入力される前記画像フレームまたは前記ビデオセグメントは、1秒の前記ダウンサンプリングされた入力ビデオである、請求項7に記載の方法。
【請求項9】
前記相関距離をソートすることは、前記オーディオセグメントと入力される前記画像フレームまたは前記ビデオセグメントとの間の近い関係を示す上位5個の相関距離を選択することを含み、
前記1つ以上のオーディオセグメントを決定することは、前記上位5個の相関距離をそれらの対応するオーディオセグメントと関連付けることを含む、請求項1に記載の方法。
【請求項10】
プロセッサ、
前記プロセッサに結合されるメモリ、
前記メモリに埋め込まれる非一時的な命令、
を含む、音響効果推奨システムであって、
前記非一時的な命令は、実行されると前記プロセッサに方法を実行させ、
前記方法は、ペアワイズ損失関数または三重項対照損失関数を含む機械学習アルゴリズムを使用して訓練されたマルチモーダル相関ニューラルネットワークを含む訓練済み音響推奨ネットワークを使用し、
a)前記マルチモーダル相関ニューラルネットワークがオーディオ埋め込み及びビジュアル埋め込みを出力し、前記マルチモーダル相関ニューラルネットワークが前記オーディオ埋め込み及び前記ビジュアル埋め込みを使用して、画像フレームまたはビデオセグメントとデータベースから取得される1つ以上のオーディオセグメントとの間の相関距離を計算することと、
b)ソート及びフィルタリング505が前記データベース内の前記1つ以上のオーディオセグメントの前記相関距離をソートすることと、
c)前記訓練済み音響推奨ネットワークのマルチモーダル相関ニューラルネットワークが前記データベースからの前記1つ以上のオーディオセグメントの前記ソートされたオーディオ相関距離から、最も近い相関距離を有する1つ以上のオーディオセグメントを決定することと、
d)前記訓練済み音響推奨ネットワークのマルチモーダル相関ニューラルネットワークが前記最も近いオーディオ相関距離を有する前記オーディオセグメントを、入力される前記画像フレームまたは前記ビデオセグメントに適用することと、
を含む音響効果推奨システム。
【請求項11】
前記訓練済み音響推奨ネットワークは、いかなるマニュアルアノテーションまたはラベルもない自己教師あり方法で、オーディオ-ビジュアルペアサンプルのセットを使用して訓練されるマルチモーダル相関ネットワークを含み、
訓練するために使用された前記オーディオ-ビジュアルペアサンプルのオーディオ-ビジュアルサンプルは、単一オーディオソースまたはビジュアルシーンに関係のあるオーディオソースのミクスチャーからなる正のペア、及び単一オーディオソースまたは前記ビジュアルシーンに関係のないオーディオソースのミクスチャーからなる負のペアを含み、
前記マルチモーダル相関ネットワークは、オーディオ入力及びビジュアル入力の個々の領域をクラスタリングするかしないかにかかわらず、ペアワイズ類似度または三重項類似度を使用して、前記オーディオ入力と前記ビジュアル入力との間の粗粒度関係または細粒度関係を学習する機械学習アルゴリズムを使用して訓練され得る、請求項10に記載の音響効果推奨システム。
【請求項12】
前記訓練済み音響推奨ネットワークはビジュアルサブネットワークを含み、
前記ビジュアルサブネットワークは、相関距離が生成される前に入力される前記画像フレームまたは前記ビデオセグメントのビジュアル特徴ベクトルを生成する、請求項11に記載の音響効果推奨システム。
【請求項13】
前記ビジュアルサブネットワークは、前記画像フレームまたは前記ビデオセグメントの特徴マップを提供するように構成される、請求項12に記載の音響効果推奨システム。
【請求項14】
前記データベースは、1つ以上のオーディオセグメントを含み、前記1つ以上のオーディオセグメントは、前記訓練済み音響推奨ネットワークに入力として使用される、請求項10に記載の音響効果推奨システム。
【請求項15】
入力される前記画像フレームまたは前記ビデオセグメントは入力ビデオから取られ、前記入力ビデオは音響を欠く、請求項10に記載の音響効果推奨システム。
【請求項16】
前記入力ビデオはダウンサンプリングされたフレームレートを有する、請求項15に記載の音響効果推奨システム。
【請求項17】
前記ダウンサンプリングされたビデオは、毎秒1フレームのビデオまたは毎秒30フレームのビデオであり、入力される前記画像フレームまたは前記ビデオセグメントは、1秒の前記ダウンサンプリングされた入力ビデオである、請求項16に記載の音響効果推奨システム。
【請求項18】
前記相関距離をソートすることは、前記1つ以上のオーディオセグメントのうちの1つと入力される前記画像フレームまたは前記ビデオセグメントとの間の近い関係を示す上位5個の相関距離を選択することを含み、
前記1つ以上のオーディオセグメントを決定することは、前記上位5個の相関距離をそれらの対応するオーディオセグメントと関連付けることを含む、請求項10に記載の音響効果推奨システム。
【請求項19】
コンピュータ可読媒体に埋め込まれる非一時的な命令であって、
コンピュータによって実行されると、前記コンピュータに方法を実行させ、
前記方法は、
a)オーディオ埋め込み及びビジュアル埋め込みを提供し、前記オーディオ埋め込み及び前記ビジュアル埋め込みを使用して、画像フレームまたはビデオセグメントとデータベースから取得される1つ以上のオーディオセグメントとの間の相関距離を計算するように構成される訓練済み音響推奨ネットワークを使用することと、
b)前記データベース内の前記1つ以上のオーディオセグメントの前記相関距離をソートすることと、
c)前記データベースからの前記1つ以上のオーディオセグメントの前記ソートされたオーディオ相関距離から、最も近い相関距離を有する1つ以上のオーディオセグメントを決定することと、
d)前記最も近いオーディオ相関距離を有する前記オーディオセグメントを、入力される前記画像フレームまたは前記ビデオセグメントに適用することと、
を含み、
前記訓練済み音響推奨ネットワークは、いかなるマニュアルアノテーションまたはラベルもない自己教師あり方法で、オーディオ-ビジュアルペアサンプルのセットを使用して訓練されるマルチモーダル相関ネットワークを含み、
訓練するために使用された前記オーディオ-ビジュアルペアサンプルのオーディオ-ビジュアルサンプルは、単一オーディオソースまたはビジュアルシーンに関係のあるオーディオソースのミクスチャーからなる正のペア、及び単一オーディオソースまたは前記ビジュアルシーンに関係のないオーディオソースのミクスチャーからなる負のペアを含み、
前記マルチモーダル相関ネットワークは、オーディオ入力及びビジュアル入力の個々の領域をクラスタリングするかしないかにかかわらず、ペアワイズ類似度または三重項類似度を使用して、前記オーディオ入力と前記ビジュアル入力との間の粗粒度関係または細粒度関係を学習する機械学習アルゴリズムを使用して訓練され得る非一時的な命令。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、メディアの音響効果の選択に関し、具体的には、本開示の態様は、メディアでの音響選択に機械学習技術を使用することに関する。
【背景技術】
【0002】
ビデオゲーム及び映画のサウンドデザイナーは、ビデオ内で発生するオブジェクトを確かめて、ビデオに適用する音響を決定することがよくある。音響同期映画(口語ではトーキーと呼ばれる)の開始以来、サウンドデザイナーは、録音されたオーディオセグメントのコーパスを生成してきた。現在、これらのオーディオセグメントのコレクションは、サウンドデザイナーが検索できるデジタルオーディオデータベースに格納されている。
【0003】
サウンドデザイナーは、サイレントビデオシーケンスに音響効果を追加したい場合、ビデオシーケンスを見て、ビデオ内で発生する音響がどのようなものかを想像する必要がある。次に、デザイナーは、音響データベースを検索し、ビジュアルシーンでのコンテキストにマッチングする音響を見いだす必要がある。これは、音響設計プロセスを非常に芸術的で反復的なプロセスにし、メディア用に選択された音響が現実とは根本的に異なる場合があることを意味する。日常生活において、ほとんどのオブジェクトには、想像上の音響設計ではなく、それらの物性に基づいて音響が制作される。このように、音響は彼らの作品の物理的コンテキストにほぼ関係しているとみなされることができる。
【発明の概要】
【0004】
本開示の教示は、添付図面と併せて以下の詳細な説明を検討することによって容易に理解できる。
【図面の簡単な説明】
【0005】
図1A】本開示の態様による、音響効果推奨ツールでの使用のための畳み込みニューラルネットワークの簡略図である。
図1B】本開示の態様による、音響効果推奨ツールでの使用のための回帰型ニューラルネットワークの簡略化されたノード図である。
図1C】本開示の態様による、音響効果推奨ツールでの使用のために展開された回帰型ニューラルネットワークの簡略化されたノード図である。
図1D】本開示の態様による、音響効果推奨ツールの開発中にニューラルネットワークを訓練する方法のブロック図である。
図2A】本開示の態様による、音響推奨ツールでの使用のために、音源のノイジーミクスチャーを含むオーディオとペアにされたビジュアル入力を使用して、オーディオ-ビジュアル相関NNを訓練するための方法を示すブロック図である。
図2B】本開示の態様による、音源のミクスチャーを含むオーディオが個々の音源に最初にマッピングされると、ビジュアル入力とペアにされることで、オーディオ-ビジュアル相関NNが音響推奨ツールでの使用のために訓練される方法を示すブロック図である。
図3】本開示の態様による、音響推奨ツールでの使用のために、ビジュアル入力、正の相関オーディオ、及び負の無相関オーディオを含む三重項入力を使用して、正及び負の相関を同時に学習するオーディオ-ビジュアル相関NNの訓練を示すブロック図である。
図4】本開示の態様による音響推奨ツールでの使用のために、音源のミクスチャーを含むオーディオに基づいて、細粒度オーディオ-ビジュアル相関を学習するためのNNの訓練を示すブロック図である。
図5】本開示の態様による、音響を有する新しいビデオを制作するために音響効果推奨ツールで訓練済みNNを使用する方法を示すブロック図である。
図6】本開示の態様による、ニューラルネットワークの訓練及び音響効果推奨ツールの使用を実施するシステムを示すブロックシステム図である。
【発明を実施するための形態】
【0006】
以下の詳細な説明は、例示を目的として多くの具体的な詳細を含むが、当業者の誰でも、以下の詳細に対する多くの変形及び改変が本発明の範囲内にあることを認識する。したがって、以下で説明される発明の例示的な実施形態は、特許請求される発明への一般性を失うことなく、及び特許請求される発明への限定を課すことなく示される。
【0007】
本開示の態様によれば、ニューラルネットワーク(NN)及び機械学習を音響設計に適用して、音響を欠くビデオシーケンスに適切な音響を選択することができる。本明細書では、音響効果推奨ツールを開発するための3つの技術が説明されている。第一に、一般的なNN訓練方法が説明される。第二に、オーディオミクスチャーから直接的なだけでなく、類似度NNを使用してオーディオミクスチャーを単一オーディオソースにマッピングすることによる、参照ビデオに基づいた音響効果の予測のために粗粒度相関NNを訓練する方法が説明される。第三に、参照ビデオに基づいて音響効果を推奨するために細粒度相関NNを訓練する方法が説明される。最後に、訓練済み音響効果推奨ネットワークを個別に、または組み合わせて用いるツールの使用が説明される。
【0008】
一般的なNN訓練
本開示の態様によれば、音響効果推奨ツールは、いくつかの異なるタイプのニューラルネットワークのうちの1つ以上を含むことができ、多くの異なる層を有することができる。限定としてではなく、例として、分類ニューラルネットワークは、1つまたは複数の深層ニューラルネットワーク(DNN)、例えば、畳み込みニューラルネットワーク(CNN)及び/または回帰型ニューラルネットワーク(RNN)から構成されてもよい。音響効果推奨ツールは、本明細書で開示される一般的な訓練方法を使用して訓練され得る。
【0009】
図1Aは、本開示の態様による、畳み込みニューラルネットワークの例示的なレイアウトを示す。この表現では、畳み込みニューラルネットワークは、16のユニットの総領域を与える、高さにおける4のユニット及び幅における4のユニットのサイズを有する入力132に対して生成される。表される畳み込みニューラルネットワークは、1のスキップ値及びサイズ9のチャネル136を有する、高さにおける2のユニット及び幅における2のユニットのサイズを有するフィルタ133を有する。図1Aにおいて明確にするために、チャネルの第1の列とそれらのフィルタウインドウとの間の接続134のみが表される。しかしながら、本開示の態様は、そのような実装態様に限定されない。本開示の態様に従って、畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層131を有してもよく、任意のサイズの、追加の畳み込み層、全結合層、プーリング層、最大値プーリング層、正規化層などとして、そのような層のタイプを含んでもよい。
【0010】
例示の目的で、本明細書ではRNNが説明されているが、隠れ回帰層の追加では、RNNがベーシックNNとは異なることに留意されたい。図1Bは、ノード120の層を有する基本的な形式のRNNを表し、ノード120の各々は、活性化関数S、入力U、回帰ノード重みW、及び出力Vによって特徴付けられる。活性化関数Sは、通常、本分野において既知の非線形関数であり、双曲線正接(tanh)関数に限定されない。例えば、活性化関数Sは、シグモイド関数またはReLU関数であってもよい。図1Cに示されるように、RNNは、活性化関数Sの値がTの前のS0、Tの後のS1、及びT+1の後のS2から経時的に移る、同じ活性化関数を有する一連のノード120とみなされることができる。RNNの層内のノードは、同じセットの活性化関数及び重みを一連の入力に適用する。各ノードの出力は、そのノードの入力に適用される活性化関数及び重みだけでなく、そのノードの以前のコンテキストにも依存する。よって、RNNは、前の時間Tから現在の時間T+1までの結果をフィードすることによって、履歴情報を使用する。
【0011】
いくつかの実施形態では、特にビジュアル入力がビデオである場合、畳み込みRNNを使用することができる。使用することができる別のタイプのRNNは、長・短期記憶(LSTM)ニューラルネットワークであり、LSTMニューラルネットワークは、参照によって本明細書に組み込まれる、Hochreiter&Schmidhuber「Long Short-term memory」Neural Computation9(8):1735-1780(1997)によって説明されるように、より長期間ネットワークが何らかの情報を保持することを可能にするゲーティングメモリをもたらす、入力ゲート活性化関数、出力ゲート活性化関数及び忘却ゲート活性化関数と共にRNNノードにメモリブロックを追加する。
【0012】
図1Dにおいて見られるように、ニューラルネットワーク(NN)を訓練することは、141でのNNの重みの初期化により開始する。概して、初期の重みは、ランダムに分散されるべきである。例えば、tanh活性化関数を有するNNは、
【数1】

【数2】
との間で分散されたランダムな値を有するべきであり、nは、ノードへの入力の数である。
【0013】
初期化後、活性化関数及びオプティマイザが定義される。次いで142では、NNには特徴ベクトルまたは入力データセットが提供される。異なる特徴ベクトルの各々は、既知の関係を有する入力からNNによって生成されてもよい。同様に、NNは、既知の関係を有する入力に対応する特徴ベクトルが提供されてもよい。次いで143では、NNは、特徴または入力間の距離を予測する。144では、予測された距離は、既知の関係(グラウンドトゥルースとしても知られる)と比較され、損失関数は、すべての訓練サンプルにわたって予測とグラウンドトゥルースとの間の全誤差を測定する。例として、及び限定としてではなく、損失関数は、クロスエントロピ損失関数、二次コスト関数、三重項対照関数(triplet contrastive function)、指数コスト関数、平均二乗誤差などであってもよい。目的に応じて複数の異なる損失関数が使用されてもよい。限定としてではなく、例として、分類器を訓練するために、クロスエントロピ損失関数が使用されてもよいのに対し、埋め込みを学習するために、三重項対照損失関数(triplet contrastive loss function)が採用されてもよい。次いで145で示されるように、NNは、損失関数の結果を誤差逆伝播するようなニューラルネットワークの既知の訓練方法を使用して、そして確率的及び適応的勾配降下法などのようなオプティマイザを使用して、最適化されて訓練される。各々の訓練エポックでは、オプティマイザは、訓練損失関数(すなわち、全誤差)を最小化するモデルパラメータ(すなわち、重み)を選択することを試みる。データは、訓練サンプル、検証サンプル、及び試験サンプルに区分化される。
【0014】
訓練の間、オプティマイザは、訓練サンプルに対して損失関数を最小にする。各々の訓練エポックの後、検証損失及び精度を計算することによって、検証サンプルに対してモデルが評価される。有意な変化がない場合、訓練が停止されてもよく、訓練に起因する最適なモデルを使用して、試験データのラベルまたは関係を予測してもよい。
【0015】
したがって、ニューラルネットワークは、関係のある入力をグループ化する既知の関係を有する入力から訓練され得る。同様に、記述された方法を使用してNNを訓練し、既知の関係を有する入力から特徴ベクトルを生成し得る。
【0016】
自己教師ありオーディオ-ビジュアル相関
ビジュアルシーンの音響効果を推奨する自動化方法は、1つ以上の音源がミキシングされている、多数の例示的なビデオ(ビデオゲームまたはムービークリップなど)で訓練することにより、オーディオ-ビジュアル相関を学習することに基づいている。オーディオ-ビジュアル関係を学習するモデルを訓練するために訓練データを生成する1つの方法は、ラベル付き音源を含むビデオからオーディオ-ビジュアルセグメントのペアを生成することである。ただし、各音源を手動で検出してラベル付けし、大規模な訓練データセットを作成することは、スケーラブルではない。本開示に記載の方法は、ビジュアルシーン及び対応する音源が明示的にラベル付けされていない場合の事例を説明する。ただし、開示された方法は、その事例に、それらのようなラベルが利用可能である場合でも適合されることができる。
【0017】
最初に、ビデオからオーディオが抽出され、ビデオフレームの各秒が対応する音響とペアにされることで、オーディオ-ビジュアル訓練例のペアが作成されると、これらのペアから相関が学習されることができる。各オーディオ-ビジュアル訓練ペアは、ビジュアルシーンから構成され、このビジュアルシーンは、いかなる明示的なラベルまたはアノテーションもビジュアル要素または音源を記述することなく、1つ以上のオブジェクト及びアクションを含み、ミキシングされた1つ以上の音源(以降、ノイジーオーディオと称される)を含むオーディオとペアにされる。オーディオ-ビジュアル訓練ペアのこのセットが与えられると、1)ビジュアル入力とノイジーオーディオ入力との間で直接に粗粒度相関を学習し、2)ノイジーオーディオ内で支配的な単一音源(以降、クリーンオーディオと称される)を最初に予測し、これらの単一音源を使用してビジュアル入力との相関を学習することにより、粗粒度相関を学習し、3)ビジュアル入力のローカル領域とノイジーオーディオ入力の領域との間でさらなる細粒度相関を学習するように独立した方法が開示される。訓練後、これらの方法を独立して、またはアンサンブル(モデルのミクスチャー)として使用し、ビジュアルシーンの音響効果を推奨することができる。ここでは、これら3つの方法が説明される。
【0018】
ノイジーオーディオ-ビジュアルのペアからの粗粒度相関の学習
図2Aは、オーディオ-ビジュアルペアのサンプルのバッチを訓練入力として与えられると、オーディオ-ビジュアル相関を学習するように機械学習モデルが訓練される方法を示す。ビジュアル入力200は、静止画像、ビデオフレーム、またはビデオセグメントであってもよい。ノイジーオーディオセグメント201は、ビジュアル入力200から抽出されてもされなくてもよい。いくつかの実施形態では、ノイジーオーディオセグメント201は持続時間が1秒であるが、本開示の態様はそのように限定されず、他の実施形態では、オーディオセグメント201は1秒より長くてもよい。本開示の態様による生オーディオ信号201は、当該技術で知られている任意のオーディオまたはオーディオ/ビデオ信号形式であってもよく、例えば、限定するものではないが、オーディオ信号は、MP3、WAV、WMA、MP4、OGG、QT、AVI、MKVなどのファイルタイプであってもよい。
【0019】
オーディオ入力201に含まれる1つ以上の音源がビジュアル入力200に関係のある場合、その関係を表す対応するラベルが適用される。例えば、限定するものではないが、オーディオ入力201がビデオシーケンスの制作中にビジュアル入力200と同じ時間枠にアライメントされたオーディオ録音に対応する場合、またはオーディオ入力201がビジュアル入力200内の1つ以上のオブジェクトによって作成された音響の録音である場合、ラベル210は値1を有する。オーディオ入力201に含まれる音源がビジュアル入力200に関係のない場合、関係の欠如を表す対応するラベルが適用される。例えば、限定するものではないが、オーディオ入力201及びビジュアル入力200がビデオシーケンスの異なる時間枠からのものである場合、ラベル210は値0を有する。ビジュアル入力200は、202では任意選択で変換され(例えば、リサイズされ、正規化され、背景差分が行われ)、入力としてビジュアルニューラルネットワーク204に適用され得る。いくつかの実施形態では、ビジュアルNN204は、例えば、限定するものではないが、任意の数のプーリング層に加えて、8から11層の間の畳み込み層を有する2次元または3次元のCNNであってもよく、任意選択で、バッチ正規化及びアテンションメカニズムを含んでもよい。ビジュアルNN204は、ビジュアル入力200から学習された数理表現であるビジュアル埋め込み206を出力する。
【0020】
同様に、ノイジーオーディオ入力201は、メルフィルタバンクまたは同様の2次元スペクトル特徴などのオーディオ特徴を抽出する特徴抽出器203によって処理される。オーディオ特徴は、任意選択で、オーディオNN205に入力されるオーディオ特徴が固定次元を有することを確実にするために、正規化され得、パディングされ得る。いくつかの実施形態では、オーディオNN205は、例えば、限定するものではないが、任意の数のプーリング層に加えて、バッチ正規化の有無にかかわらず8から11層の間の畳み込み層を有するCNNであってもよく、任意選択で、バッチ正規化及びアテンションメカニズムを含んでもよい。オーディオNN205は、オーディオ入力201から学習された数理表現であるオーディオ埋め込み207を出力する。
【0021】
訓練データの表現または特徴ベクトルを作成するのに適している、NN204及び205の一部である1つまたは複数のサブネットワーク層が選択されることができる。いくつかの実施態様では、オーディオ及び画像入力サブネットワークは、128成分を有する特徴ベクトルの形式で埋め込みを生成することができるが、本開示の態様は、128成分の特徴ベクトルに限定されず、他の特徴ベクトルコンフィグレーション及び埋め込みコンフィグレーションを包含することができる。オーディオ埋め込み207及びビジュアル埋め込み206は、それらの間の距離値208を計算することによって比較される。この距離値は、限定するものではないが、ユークリッド距離またはL1距離などのいずれかの距離メトリックによって計算されることができる。この距離値は、オーディオ-ビジュアル入力のペア間の相関の尺度である。距離が小さいほど、相関が高くなる。
【0022】
相関NN209は、距離値208の関数としてオーディオ-ビジュアル入力ペアの相関を予測する。NN209は、1つまたは複数の線形層または非線形層を含むことができる。各訓練エポック中に、交差エントロピー損失などの損失関数を使用して予測値がバイナリラベル210と比較され、それらの予測値とそれぞれのラベルとの間の誤差は、204、205、及び209を含むネットワーク全体を介して誤差逆伝播されることで、予測が改善される。訓練の目標は、予測値とラベルとの間の誤差を測定する交差エントロピー損失、及び/または相関のない埋め込み間の距離を最大にしながら、相関のあるオーディオ-ビジュアル埋め込み間の距離値208を最小にする対照損失を最小にすることであり得る。オーディオ-ビジュアルペア間のペアごとの対照損失関数LPairsは、式1で与えられる。
【数3】
式中、F(I)は参照画像のビジュアルNN204の出力であり、F(A)はオーディオ信号AのオーディオNN205の出力である。
【0023】
相関のあるオーディオ入力とビジュアル入力との間の距離208が小さいが、相関のないオーディオ埋め込みとビジュアル埋め込みとの間の距離が大きいような方法で、負で相関のないオーディオ-ビジュアル入力ペアと、正で相関のあるオーディオ-ビジュアル入力ペアとの両方を含む訓練を何度も反復した後、図2Aに示されるモデルは、オーディオ埋め込み207及びビジュアル埋め込み206を学習する。この訓練済みペアワイズオーディオ-ビジュアル相関モデルは、音響推奨ツールで使用されることができると、いずれかの新しいサイレントビデオまたは画像入力のビジュアル埋め込みと、音響サンプルのセットのオーディオ埋め込みとが生成されることができることで、これらの埋め込みから、最も近いオーディオ-ビジュアル埋め込み距離を有するものとして、サイレントビジュアル入力に最も相関のある音響効果を推奨することができる。次に、推奨された音響効果がサイレントビジュアル入力とミキシングされることができると、音響効果付きのビデオが制作されることができる。
【0024】
音源予測による粗粒度オーディオ-ビジュアル相関の学習
図2Bは、ビジュアル入力用の音響を推奨するようにオーディオ-ビジュアル相関を学習するための機械学習モデルを訓練する代替の実施形態を示す。前の図2Aの実施形態で説明されるように、ビジュアル入力200は画像またはビデオフレームまたはビデオセグメントであり、オーディオ入力201は1つまたは複数のオーディオソースのミクスチャーであり得る。図2Bの実施形態は、訓練するオーディオビジュアルペアが生成される方法で図2Aとは異なる。前の実施形態とは異なり、ノイジーオーディオ入力201は、この方法では訓練に直接使用されない。代わりに、それは、オーディオ入力201に含まれ得る1つまたは複数の支配的な音源を識別するノイジーからクリーンのマッピングモジュール211によって最初に処理される。
【0025】
ノイジーからクリーンのマッピングモジュール211は、さまざまな方法で訓練されることができる。それは、ペアワイズ類似度または三重項類似度の方法を使用して訓練されたオーディオ類似度モデルであってもよい。いくつかの実施形態では、オーディオミクスチャー中の音源を分類するように訓練されたオーディオ分類器であってもよい。あるいは、それは、非負値行列因子分解(NMF)を使用して訓練されたオーディオソース分離モジュール、またはオーディオソース分離用に訓練されたニューラルネットワーク(U-netなど)の場合がある。どのように訓練されているかに関係なく、ノイジーからクリーンのマッピングモジュール211の目的は、オーディオ入力201にベストマッチングしている、またはオーディオ入力201に含まれる上位K個の支配的な参照音源を識別することである。ここでは、Kは、限定するものではないが、1から5の間の値などのいずれかの妥当な値であり得る。これらK個の音源は、ビジュアルシーンに関係があるため、ビジュアル入力200に対して正のオーディオ信号とみなされることができる。これらK個の正のオーディオ信号が与えられると、選択モジュール212は、K個の正の信号と相補的であるか、異なるかいずれかである、K個の負の参照オーディオ信号を選択する。したがって、ノイジーからクリーンのマッピングモジュール211及び選択モジュール212を合わせた結果、合計で2*K個の「クリーンな」単一ソースの参照オーディオ信号213が予測される。これらの参照オーディオ信号は、オーディオデータベースの一部であってもなくてもよい。図2Aに示される前の実施形態について上述されるように、ビジュアル入力200が2*K個の予測されたクリーンなオーディオ信号のそれぞれとペアにされると、図2Bの相関NN209を訓練するために、2*K個のオーディオ-ビジュアルペアが作成される。2*K個の半分のオーディオ-ビジュアルペアは、オーディオ入力がビジュアルシーン内の1つ以上のオブジェクトによって生成された音響に関係のある、または類似している正のペアであり、これら正のペアのそれぞれは、値1のラベル210を有する。2*K個の残り半分のオーディオ-ビジュアル入力ペアは、オーディオ入力がビジュアル入力200に関係のない負のペアであり、これら負のペアのそれぞれは、値0のラベル210を有する。いくつかの実施形態では、正のオーディオ信号及び負のオーディオ信号のすべては、ラベル付きオーディオ信号ファイルを含むオーディオデータベースの一部であってもよい。ラベル付きオーディオ信号ファイルは、K個のクリーンな正のオーディオ信号がオーディオ入力201内の信号と同じカテゴリまたはサブカテゴリの一部であるが、K個のクリーンな負のオーディオ信号がK個の正のオーディオ信号とは異なるカテゴリまたはサブカテゴリの一部であってもよいタクソノミーに編成されることができる。
【0026】
いくつかの実施形態では、オーディオ-ビジュアル相関は、三重項を入力として取る機械学習モデルによって学習され、ペアワイズ損失関数の代わりに三重項対照損失関数によって訓練される。図3に示されるように、相関NNへの入力は、参照画像またはビデオ301、正のオーディオ信号302及び負のオーディオ信号303であってもよい。参照画像またはビデオ301は、図2Bの実施形態で上述されるように、静止画像または参照ビデオシーケンスの一部であってもよい。上述のように、正のオーディオ信号302は参照画像またはビデオ301に関係し、例えば、限定するものではないが、正のオーディオは参照画像内の1つ以上のオブジェクトによって作成された音響の録音であってもよく、正のオーディオは参照画像の制作中に作成された、録音のまたは対応するオーディオであってもよい。上述のように、負のオーディオ信号303は、正のオーディオ信号302とは異なり、参照ビジュアル入力301に関係がない。いくつかの実施形態では、ビジュアル入力301は、図2Bに示される訓練済み相関NNによって出力されたビジュアル埋め込み206であってもよく、正のオーディオ入力302及び負のオーディオ入力303は、それぞれ正及び負のオーディオ信号に対して、図2Bに示される訓練済み相関NNによって出力されたオーディオの負の埋め込み207であってもよい。
【0027】
ビジュアル入力301は、三重項相関NN305に入力される前に、限定するものではないが、リサイズ及び正規化などの操作304によって任意選択で変換されてもよい。同様に、正及び負のオーディオ入力は、相関NN305を訓練するのに適しているオーディオ特徴310を抽出するように前処理されることができる。この実施形態では、追加のラベルは必要ではない。相関NN305は、正及び負のオーディオ入力に対するビジュアル埋め込み及びオーディオ埋め込みを同時に学習するように、複数の反復を通じて訓練される。三重項対照損失関数を使用してNN305を訓練するには、参照ビジュアル埋め込み308と正のオーディオ埋め込み309との間の距離306を最小にすると同時に、参照ビジュアル埋め込み308と負のオーディオ埋め込み311との間の距離307を最大にすることが求められる。三重項対照学習損失関数は次のように表されることができる。
【数4】
式中、F(I)は参照ビジュアル(I)の訓練中のニューラルネットワークの埋め込み308であり、F(A)は負のオーディオ(A)の訓練中のニューラルネットワークの埋め込み311であり、F(A)は正のオーディオ(A)の訓練中のニューラルネットワークの埋め込み309である。mは負のオーディオ及び正のオーディオの埋め込み間の最小分離を定義するマージンである。Ltripletは、参照ビジュアル入力301及び負のオーディオ303のペアの間の距離を最大にし、参照ビジュアル入力301と正のオーディオ302との間の距離を最小にするように訓練中に最適化される。
【0028】
負の訓練セット303と正の訓練セット302との両方を含む、三重項を用いた訓練の多くのラウンドの後、相関NN305は、ビジュアル及びオーディオの埋め込みを学習するように構成される。相関NNは、負のオーディオ埋め込み311と参照ビジュアル埋め込み308との間の距離値よりも小さい、正のオーディオ埋め込み309と、308での参照画像またはビデオ埋め込みとの間の距離値を生成するような方法で埋め込みを学習する。距離は、限定するものではないが、コサイン距離、ユークリッド距離、または任意の他のタイプのペアワイズ距離関数として計算されてもよい。そのような訓練済み相関NNによって埋め込みが生成され、以下で説明されるように、音響推奨ツールによって使用されることができると、ビジュアルシーンまたはビデオセグメントとマッチングされることができる音響効果が推奨されることができる。
【0029】
ローカライゼーションによる細粒度オーディオ-ビジュアル相関の学習
図2A図2B、及び図3での機械学習モデルは、各オーディオ入力とビジュアル入力を単一の粗粒度埋め込み(表現)に符号化することにより、粗粒度オーディオ-ビジュアル相関を学習する。ビジュアル入力が複数のオブジェクトを含む複雑なシーンであり、オーディオ入力が音源のミクスチャーである場合、さまざまな音源に関係してもよいビジュアル入力内の領域を相関することによってオーディオソースをローカライズすることができる細粒度相関を学習することにより、推奨パフォーマンスが改善されることができる。図4は、オーディオ-ビジュアル特徴をローカライズすることによって細粒度オーディオ-ビジュアル相関を学習するような方法を示す。この方法は、図2Aに提示された方法の拡張とみなされることができる。ビジュアル入力400は、静止画像、ビデオフレーム、またはビデオセグメントであってもよい。図2Aについて上述されるように、ノイジーオーディオ入力401は、ラベル410が1の値を有し得る場合にビジュアルシーン400に関係のある正のオーディオセグメントであり得るか、例えば限定するものではないが、値0のラベル410を有する、ビジュアルシーン400に関係のない負のオーディオセグメントであり得るかいずれかであり得る。記述された相関がバイナリ相関であるため、ラベル値1及び0が明示的に説明されているが、バイナリ関係を記述すると解釈されることができる任意のラベルが使用されてもよい。
【0030】
ビジュアル入力は、モジュール402によって任意選択で前処理されて変換されてもよく、入力は、ビジュアルNN404を訓練するために使用される。同様に、特徴抽出モジュール403は、オーディオ入力401からフィルタバンクなどの2Dオーディオ特徴を抽出してから、オーディオNN405を訓練するために使用する。ビジュアルNN404及びオーディオNN405は、1つまたは複数の畳み込み層、プーリング層、ならびに任意選択で回帰層及びアテンション層を含む階層型NNである。2D以上の次元の特徴マップ406の形態でのビジュアル表現は、ビジュアルNN404から抽出される。同様に、2D以上の次元の特徴マップ407の形態でのオーディオ表現は、オーディオNN405から抽出される。これらの特徴マップは、ビジュアル及びオーディオ入力のさまざまな領域からNNによって学習されたよりハイレベルの特徴を表す特徴ベクトルのセットを含む。
【0031】
オーディオ及び特徴マップ内の一部の特徴ベクトルは類似している場合がある。したがって、限定としてではなく一例として、K平均法によるクラスタリングなどの方法を使用して、類似した特徴ベクトルを合わせてクラスタリングして、K個の別個のビジュアルクラスタ408を生成することにより、ビジュアル特徴ベクトルは任意選択で統合され得る。同様に、オーディオ特徴マップ内のオーディオ特徴ベクトルは、K個の別個のオーディオクラスタ409に任意選択で統合されることができる。オーディオ特徴ベクトル及びビジュアル特徴ベクトルは、クラスタリングされてから(任意選択で)、マルチモーダル類似度モジュール411によって比較され、ローカライズされる。ビジュアルマップから導出された特徴ベクトルごとに、マルチモーダル類似度モジュール411は、限定としてではなく例としてコサイン類似度などの類似度メトリックによって計算され得る、オーディオマップ及び対応する相関スコアから導出される最も相関のある特徴ベクトルを計算する。次いで、異なるビジュアル及びオーディオ特徴ベクトル間(入力ビジュアルシーン及びオーディオ入力の異なる領域を表す)の相関スコアが相関NN412に入力されることで、スコアが集約されて、オーディオ-ビジュアル入力ペアの全体的な相関スコアが予測される。各訓練エポック中に、交差エントロピー損失などの損失関数を使用して予測値がラベル410と比較され、それらの予測値とそれぞれのラベルとの間の誤差がモデルによって誤差逆伝播されることで、予測が改善される。訓練の目的は、予測値とラベルとの間の誤差を測定する交差エントロピー損失を最小にすることであってもよいが、これに限定されなくてよい。
【0032】
負で相関のないオーディオ-ビジュアル入力ペアと正で相関のあるオーディオ-ビジュアル入力ペアとの両方を含む訓練を何度も反復した後、図4でのモデルは、相関のあるオーディオ及びビジュアル領域の表現が相関のない領域の表現よりも類似しているような方法で、オーディオ表現及びビジュアル表現を学習する。この訓練済み細粒度オーディオ-ビジュアル相関モデルが音響推奨ツールで使用されることができると、新しいサイレントビデオまたは画像及び1セットの音響効果サンプルの表現が生成され、それらのオーディオ及びビジュアル表現を比較することによって、サイレントビジュアル入力のさまざまなビジュアル要素に最も相関のある音響効果が推奨されることができる。
【0033】
いくつかの実施形態では、ビデオセグメントは毎秒1フレームのフレームレートを有し、そのように各フレームは入力参照画像として使用される。いくつかの代替の実施形態では、入力画像は、毎秒1フレームまで、より高いフレームを有するビデオセグメントをサンプリングし、各フレームを入力画像として使用することによって生成される。例えば、入力ビデオセグメントは、毎秒30フレームのフレームレートを有してもよいが、これに限定されない。入力ビデオを15フレームごとにサンプリングして、ダウンサンプリングされた毎秒1フレームのビデオを生成することができ、ダウンサンプリングされたビデオの各フレームをNNへの入力として使用することができる。同様に、オーディオデータベースは、正または負のオーディオ信号として選択されることができる、長さ1秒のオーディオセグメントを含むことができる。あるいは、オーディオ信号の長さは1秒より長くてもよく、1秒のオーディオはより長いオーディオセグメントから選択されてもよい。例えば、限定するものではないが、オーディオセグメントの最初の1秒が使用されてもよく、またはオーディオの中間にある1秒のサンプルが選択されてもよく、またはオーディオセグメントの終端での1秒のサンプルが選択されてもよく、またはオーディオセグメントでランダムな時間からの1秒のサンプルが選択されてもよい。
【0034】
マルチモーダル音響推奨ツール
図5は、本開示の態様による、マルチモーダル音響推奨ツールの使用を示す。マルチモーダル音響推奨ツールは、オーディオデータベース502と、訓練済みマルチモーダル相関ニューラルネットワーク503とを含み得る。マルチモーダル相関NN503への入力は、音響501のない入力画像フレームまたはビデオであってもよい。マルチモーダル相関NN503は、入力画像フレームまたはビデオと、オーディオサンプルのオーディオデータベースまたはコレクション内の各オーディオセグメントとの表現の間で、距離値504によって定量化されている、相関を予測するように構成される。オーディオデータベースからオーディオセグメントごとに相関値504が生成された後、505によって相関値がソートされてフィルタリングされると、入力画像/ビデオに最もよく相関している(最低距離値によって示される)オーディオセグメントが選択される。ソート及びフィルタリング505は、限定するものではないが、上位の相関のあるK個のオーディオセグメントを除くすべてのオーディオセグメントをフィルタリングして取り除くことができ、ここでのKは、1、5、10または20個のオーディオセグメントなどの妥当な値であり得る。このソート及びフィルタリング505から、相関値507を使用して、自動的にか、ユーザによってかいずれかで、最も相関のあるオーディオセグメントが選択され得る。次に、ベストマッチングのオーディオセグメントは、入力画像フレーム/ビデオとのミキシングのためにサウンドデザイナーに推奨されてもよい。一部の代替の実施形態では、1つより多いオーディオセグメントは、これらの相関値507を使用して、ベストマッチングとして選択され、これらのオーディオセグメントはすべてサイレントビジュアル入力506に推奨される。
【0035】
オーディオデータベース内のオーディオセグメントは、マルチモーダル音響選択NN503に入力される前に、特徴抽出及び任意選択で特徴正規化プロセスを受ける。抽出されたオーディオ特徴は、例えば、限定するものではないが、フィルタバンク、スペクトログラム、または他の同様の2Dオーディオ特徴であってもよい。同様に、入力画像/ビデオは、マルチモーダル音響選択ネットワーク503に入力される前に、特徴の正規化、リサイズ、クロッピングなどの何らかの変換を受けてもよい。
【0036】
本開示のいくつかの態様によれば、マルチモーダル音響選択NN503は、図2A図2B図3、または図4からの訓練済みモデルのうちの1つであってもよく、それぞれは、ビジュアル入力501と、オーディオデータベース502からのオーディオセグメントであり得る対応するオーディオ入力とのオーディオ-ビジュアル表現を出力するように構成されてもよい。次いで、それらの表現を使用して、相関のある距離値504を生成し、ビジュアル入力用の上位K個の相関のある音響を選択する。本開示の他の代替の態様によれば、マルチモーダル音響推奨ツールは、図2A図2B図3、または図4での1つまたは複数の訓練済みモデルから最も推奨されている上位の音響をマージすることができる。
【0037】
本開示のいくつかの態様によれば、オーディオデータベース502は、タクソノミーに配置された膨大な数の異なるオーディオセグメントを含み得る。制約がない場合、このツールを使用してデータベースを検索すると、相関のある音響が多すぎる可能性がある。したがって、本開示のいくつかの態様によれば、データベース502からの入力オーディオセグメントは、タクソノミーでのカテゴリまたはサブカテゴリに制限されることができる。あるいは、ビジュアル理解アプローチを適用することができると、検索がデータベースの関連部分に制限されることができる。オブジェクト認識及びビジュアル記述がビジュアル要素を識別して、ビジュアル要素を音響カテゴリ/サブカテゴリにマッピングするように訓練されたニューラルネットワークが使用されることができると、オーディオデータベース内の検索が制限されることができる。
【0038】
システム
図6は、例えば図1、2、3、4及び5の本明細書全体で図に示されるような訓練及び音響選択方法を実施するためのマルチモーダル音響推奨システムを示す。システムは、ユーザ入力デバイス602に結合されたコンピューティングデバイス600を含むことができる。ユーザ入力デバイス602は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、またはユーザが音響データを含む情報をシステムに入力することを可能にする他のデバイスであり得る。ユーザ入力装置は、触覚フィードバックデバイス621に結合される場合がある。触覚フィードバックデバイス621は、例えば振動モータ、力フィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムである場合がある。
【0039】
コンピューティングデバイス600は、例えば、シングル-コア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、及びセルプロセッサなどの公知のアーキテクチャに従って構成することができる、1つ以上のプロセッサユニット603を含んでもよい。コンピューティングデバイスはまた、1つ以上のメモリユニット604(例えば、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、及びリードオンリメモリ(ROM)など)を含んでもよい。
【0040】
プロセッサユニット603は、1つ以上のプログラムを実行してもよく、1つ以上のプログラムの一部は、メモリ604に記憶されてもよく、プロセッサ603は、例えば、データバス605を介してメモリにアクセスすることによって、メモリに動作可能に結合されてもよい。プログラムは、上述のように、NN610の重み及び遷移値を調整するように構成された機械学習アルゴリズム621を含むことができ、NN610は、図2、3または4に示されるNNのいずれかである。さらに、メモリ604は、機械学習アルゴリズム621でNN610を訓練する際に使用される正の、負の、または参照オーディオであり得るオーディオ信号608を格納することができる。さらに、参照オーディオ信号、正のオーディオ信号、及び負のオーディオ信号は、オーディオデータベース622に格納されてもよい。NN610を訓練する際に使用される画像フレームまたはビデオ609もまた、メモリ604に格納することができる。画像フレームまたはビデオ609もまた、図5に示されており本明細書の上記に説明されているような、音響推奨ツールの操作ではオーディオデータベース622と共に使用され得る。データベース622、画像フレーム/ビデオ609、オーディオ信号608は、データ618として格納されてもよく、機械学習アルゴリズム621は、プログラム617としてマスストア618に、またはネットワークインタフェース614を介してアクセスされるネットワーク620に結合されたサーバに格納されてもよい。
【0041】
入力オーディオ、画像、及び/またはビデオは、マスストア615にデータ618として格納され得る。さらにプロセッサユニット603は、マスストア615にまたはメモリ604に格納された1つ以上のプログラム617を実行すると、プロセッサが上述の方法のうちの1つ以上を実行するように構成される。
【0042】
コンピューティングデバイス600はまた、例えば、バス605を介してシステムの他の構成要素を通信することができる、入力/出力(I/O)607、回路、電力供給装置(P/S)611、クロック(CLK)612、及びキャッシュ613などの公知のサポート回路を含んでもよい。コンピューティングデバイスは、ネットワークインタフェース614を含んでもよい。プロセッサユニット603及びネットワークインタフェース614は、適切なネットワークプロトコル、例えば、パーソナルエリアネットワーク(PAN)に対するBluetooth(登録商標)を介して、ローカルエリアネットワーク(LAN)またはPANを実装するように構成されてもよい。コンピューティングデバイスは任意選択で、ディスクドライブ、CD-ROMドライブ、テープドライブ、またはフラッシュメモリなど大容量記憶装置615を含んでもよく、大容量記憶装置は、プログラム及び/またはデータを記憶してもよい。コンピューティングデバイスはまた、システムとユーザとの間の対話を促進するためのユーザインタフェース616を含んでもよい。ユーザインタフェースは、モニタ、テレビスクリーン、スピーカ、ヘッドフォン、または情報をユーザに通信する他のデバイスを含んでもよい。
【0043】
コンピューティングデバイス600は、電子通信ネットワーク620を介した通信を促進するためのネットワークインタフェース614を含んでもよい。ネットワークインタフェース614は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワークを通じた有線通信または無線通信を実装するように構成されてもよい。デバイス600は、ネットワーク620を通じて1つ以上のメッセージパケットを介してデータ及び/またはファイルについての要求を送信及び受信してもよい。ネットワーク620を通じて送信されるメッセージパケットは、メモリ604内のバッファに一時的に格納されてもよい。オーディオデータベースは、ネットワーク620を介して利用可能であり、使用のためにメモリ604に部分的に格納され得る。
【0044】
提案された方法は、ラベルまたはマニュアルアノテーションを必要とせずに、自己教師あり方法でオーディオ-ビジュアル相関(より一般的にはマルチモーダル相関)を学習する方法を提供する。提案された機械学習方法は、ノイズの多いオーディオ入力に基づいて粗粒度のオーディオ-ビジュアル表現を学習し、それを使用して粗粒度のマルチモーダル(オーディオ-ビジュアル)相関を決定する。提案された機械学習方法は、ノイズの多いオーディオミクスチャーに含まれるクリーンな参照オーディオソースを予測し、それらの予測されたクリーンなオーディオソースを使用して、粗粒度のオーディオ-ビジュアル表現を学習し、粗粒度のマルチモーダル(オーディオ-ビジュアル)相関を決定する。機械学習方法は、参照ビジュアル入力に対する、参照画像またはビデオ、正のオーディオ信号、及び負のオーディオ信号から構成する入力三重項から、オーディオ-ビジュアル表現を学習し、粗粒度のマルチモーダル(オーディオ-ビジュアル)相関を決定することができる。訓練された後のマルチモーダル相関ニューラルネットワークは、所与のオーディオの表現(埋め込み)を生成することができる。訓練された後のマルチモーダル相関ニューラルネットワークは、所与の画像/ビデオの表現(埋め込み)を生成することができる。相関のある画像/ビデオ及びオーディオのペアの場合、生成されたビジュアル表現及び生成されたオーディオ表現は、近い(すなわち、それらの間の距離が短い)可能性がある。相関のない画像/ビデオ及びオーディオのペアの場合、生成されたビジュアル表現及び生成されたオーディオ表現は、類似していない(すなわち、それらの間の距離が長い)可能性がある。訓練済み相関NNまたはマルチモーダルクラスタリングNNを使用して、ビジュアルシーンまたはビデオに最も関連するそれらの音響サンプルのみを自動的に選択して推奨することができる。選択された音響サンプルは、ビジュアルシーン内の1つ以上のオブジェクトによって直接制作される音響を参照してもよく、及び/またはビジュアルシーン内の1つ以上のオブジェクトに間接的に関連付けられてもよい。
【0045】
上記は、本発明の好ましい実施形態の完全な説明であるが、多様な代替策、修正、及び均等物を使用することが可能である。したがって、本発明の範囲は、上記説明を参照して判定されるべきでなく、代わりに、均等物のそれらの全範囲に従った、添付の特許請求の範囲を参照して判定されるべきである。好ましいか否かに関わらず、本明細書で説明されたいずれかの特徴は、好ましいか否かに関わらず、本明細書で説明されたいずれかの他の特徴と組み合わされてもよい。以下の特許請求の範囲では、不定冠詞「A」または「An」は、明確に述べられる場合を除き、冠詞に続く項目のうちの1つ以上の量を指す。添付の特許請求の範囲は、手段プラス機能の限定が、フレーズ「~する手段(means for)」を使用して所与の請求項に明確に記載されない限り、そのような限定を含むとして解釈されるべきではない。
図1A
図1B
図1C
図1D
図2A
図2B
図3
図4
図5
図6