(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-23
(45)【発行日】2024-05-31
(54)【発明の名称】敵対的生成ネットワークを用いた音声映像源分離および位置特定
(51)【国際特許分類】
G10L 21/0272 20130101AFI20240524BHJP
G10L 21/0356 20130101ALI20240524BHJP
G10L 25/30 20130101ALI20240524BHJP
【FI】
G10L21/0272 100Z
G10L21/0356
G10L25/30
(21)【出願番号】P 2021538661
(86)(22)【出願日】2020-04-21
(86)【国際出願番号】 IB2020053754
(87)【国際公開番号】W WO2020217165
(87)【国際公開日】2020-10-29
【審査請求日】2022-09-22
(32)【優先日】2019-04-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】チャン、ヤン
(72)【発明者】
【氏名】ガン、チュアン
【審査官】毛利 太郎
(56)【参考文献】
【文献】特開2018-036359(JP,A)
【文献】Bochen Li, Karthik Dinesh, Zhiyao Duan, and Gaurav Sharma,SEE AND LISTEN: SCORE-INFORMED ASSOCIATION OF SOUND TRACKS TO PLAYERS IN CHAMBER MUSIC PERFORMANCE VIDEOS [online],ICASSP 2017,米国,IEEE,2017年03月05日,pp.2906-2910,Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7952688>,[検索日 2023.11.28]
【文献】Shuaishuai Ye, Ting Jiang, Shan Qin, Weixia Zou, Chengyun Deng,Speech Enhancement Based on A New Architecture of Wasserstein Generative Adversarial Networks [online],ISCSLP 2018,米国,IEEE,2018年11月26日,pp.399-403,Internet<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8706647>,[検索日 2023.11.28]
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 - 25/93
(57)【特許請求の範囲】
【請求項1】
音声映像源分離処理のための方法であって、
ビデオ・エンコーダに、複数の音源の画像を示すビデオ・フレーム・データを受信するステップと、
前記ビデオ・エンコーダに、前記ビデオ・フレーム・データのオプティカル・フロー・フレーム・データを同時に受信するステップであって、前記オプティカル・フロー・フレーム・データは、前記ビデオ・フレーム・データのフレーム間のピクセルの動きを示す、ステップと、
前記ビデオ・エンコーダにおいて、前記受信されたビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化するステップと、
前記ビデオ・エンコーダにおいて、前記受信されたオプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化するステップと
、
前記ビデオ・フレーム・データに関連する音声を受信するステップと、
前記受信された音声を短時間フーリエ変換(STFT)関数を用いて処理して、前記受信された音声の時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データを提供するステップと、
を含む方法。
【請求項2】
前記異なる音のチャネルの前記ビデオ分離データを前記スペクトログラム・データに関連付けて、混合物スペクトログラム・データを提供するステップをさらに含む、請求項
1に記載の方法。
【請求項3】
前記混合物スペクトログラム・データからの特徴量を、前記異なる音のチャネルの異なるチャネルに関連付けられ、前記混合物スペクトログラム・データから抽出された特徴量としての音声の抽出された特徴量に抽出するステップと、
前記抽出された特徴量をビデオ・フレーム内の異なるピクセルと関係付けるために、前記音声の抽出された特徴量を前記位置特定データからの重みに関連付けるステップと
をさらに含む、請求項
2に記載の方法。
【請求項4】
ビデオ・フレーム内の各ピクセルについて、前記抽出された特徴量を合計して、分離されたスペクトログラム・データを提供するステップをさらに含む、請求項
3に記載の方法。
【請求項5】
ユーザによって選択されたピクセルの位置を入力データとして受信するステップと、
逆短時間フーリエ変換(ISTFT)を用いて前記選択されたピクセルの前記分離されたスペクトログラム・データを前記ビデオ・フレームにつき受信された前記音声データと混合するステップと、
前記ISTFTを出力音声データとして提供するステップと
によってビデオ・フレームの選択されたピクセルの音声を合成するステップをさらに含む、請求項
4に記載の方法。
【請求項6】
クラウド・サービスによって実装される、請求項1に記載の方法。
【請求項7】
音声映像源分離処理のための方法であって、
GAN生成器とGAN判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク(DNNs)を含む敵対的生成ネットワーク(GAN)システムを提供するステップであって、前記GAN生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップと、
前記ビデオ・フレーム・データに関連する音声を受信する音声受信機を提供するステップであって、前記音声受信機は、前記関連する音声を時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換(STFT)機能部を含む、ステップと、
前記ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部を提供するステップと、
音声合成器において前記選択されたピクセルのスペクトログラム・データを前記関連する音声と混合し、前記音声合成器の出力を逆短時間フーリエ変換(ISTFT)機能部に提供するステップと、
前記ISTFT機能部の出力を前記選択されたピクセルの出力音声として提供するステップと
を含む方法。
【請求項8】
前記GAN生成器の前記DNNsは、
前記ビデオ・フレーム・データおよび前記オプティカル・フロー・フレーム・データを、前記ビデオ・フレーム内のピクセル位置を前記ビデオの音チャネル・データに関連付ける位置特定特徴量ベクトルと、前記ピクセルの動き情報を前記ビデオの前記音チャネル・データに関連付ける分離特徴量ベクトルとに符号化し、
ビデオ・フレームのタイミングを前記スペクトログラム・データと統一し、
前記スペクトログラム・データを、異なる音チャネルに関連する前記スペクトログラムの特徴量としてスペクトログラム分離特徴量に分離する
ように訓練される、請求項
7に記載の方法。
【請求項9】
前記位置特定特徴量ベクトルの重み値を用いて、前記スペクトログラム分離特徴量を前記ピクセル位置に関連付けるステップをさらに含む、請求項
8に記載の方法。
【請求項10】
前記GAN生成器の前記DNNsおよび前記GAN判別器の前記DNNsを訓練するステップをさらに含み、前記訓練は、前記GAN生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記GAN判別器を訓練しながら前記GAN判別器を騙そうとする前記候補を生成するように前記GAN生成器を訓練するステップとを含む、請求項
7に記載の方法。
【請求項11】
クラウド・サービスによって実装される、請求項
7に記載の方法。
【請求項12】
音声映像源分離処理のための方法であって、GAN生成器とGAN判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク(DNNs)を含む敵対的生成ネットワーク(GAN)システムを訓練するステップであって、前記GAN生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップを含み
、
前記訓練は、前記GAN生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記GAN判別器を訓練しながら前記GAN判別器を騙そうとする前記候補を生成するように前記GAN生成器を訓練するステップと
、
前記GANシステムの前記訓練は、前記源分離のための基準音としてK個の異なる音のチャネルを提供し、
音声を提供する複数の音源を含む画像を示すビデオ・フレーム・データに関連する前記音声を受信するステップと、
前記受信された音声を短時間フーリエ変換(STFT)機能部で処理して、前記受信された音声を、時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換するステップと、
前記訓練されたGAN生成器への入力データとして、前記複数の音源を含む前記画像を示す前記ビデオ・フレーム・データと前記ビデオ・フレーム・データのオプティカル・フロー・フレーム・データとを受信するステップであって、前記オプティカル・フロー・フレーム・データは、前記ビデオ・フレーム・データのフレーム間のピクセルの動きを示し、前記訓練されたGAN生成器は、
前記受信されたビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを前記K個の異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化し、
前記受信されたオプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記K個の異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化し、
前記K個の異なる音のチャネルの前記ビデオ分離データを前記スペクトログラム・データに関連付けて、混合物スペクトログラム・データを提供し、
前記混合物スペクトログラム・データからの特徴量を、前記異なる音のチャネルの異なるチャネルに関連付けられ、前記混合物スペクトログラム・データから抽出された特徴量としての音声の抽出された特徴量に抽出し、
前記抽出された特徴量をビデオ・フレーム内の異なるピクセルと関係付けるために、前記音声の抽出された特徴量を前記位置特定データからの重みに関連付ける、
ステップと、
ユーザによって選択されたピクセルの位置を入力データとして受信するステップと、
逆短時間フーリエ変換(ISTFT)を用いて前記選択されたピクセルの前記分離されたスペクトログラム・データを前記ビデオ・フレームにつき受信された前記音声データと混合するステップと、
前記ISTFTを前記選択されたピクセルに関連する音として出力音声データとして提供するステップと
を含む、
方法。
【請求項13】
GAN生成器とGAN判別器とを含む複数のディープ・ニューラル・ネットワーク(DNNs)を含む敵対的生成ネットワーク(GAN)システムであって、前記GAN生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、前記GANシステムと、
前記ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、前記関連する音声を時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換(STFT)機能部を含む音声受信機と、
前記ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部と、
音声合成器において前記選択されたピクセルのスペクトログラム・データを前記関連する音声と混合するように構成された音声合成器と、
音声合成器の出力を受信し、前記選択されたピクセルの音声の出力をその出力として提供するように構成された逆短時間フーリエ変換(ISTFT)機能部と
を含む、音声映像源分離システム。
【請求項14】
前記GANシステムは、
前記GAN生成器に複数の異なるビデオ・クリップを受信するステップと、
前記GAN生成器の前記DNNsに勾配降下訓練プロセスを適用して、前記GAN判別器を騙そうとする候補を生成するように前記GAN生成器を訓練するステップと、
前記GAN判別器に前記勾配降下訓練プロセスを適用して、前記候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記GAN判別器を訓練するステップと
によって最初に訓練される、請求項
13に記載の音声映像源分離システム。
【請求項15】
ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成されるビデオ・エンコーダであって、前記ビデオ・エンコーダは、前記ビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化し、および前記オプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化する、前記ビデオ・エンコーダと、
前記ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、前記関連する音声を時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換(STFT)機能部を含む音声受信機と、
を含む、音声映像源分離システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に源分離に関する。特に、音を位置特定するためにビデオ画像内の動き情報からの時間情報を用いて音源がビデオ・フレーム内の特定のピクセルに位置特定され、敵対的生成ネットワーク(GAN:Generative Adversarial Network)が位置特定された音(単数または複数)の自然さを改良する。
【背景技術】
【0002】
源分離は、複数の音声の混合物を分離するタスクを指す。市販の発話処理システムにとって干渉およびノイズの存在下での発話を処理できることが重要であるため、源分離は発話の最も白熱する研究分野の一つである。
【0003】
音声映像源分離は、映像キュー、例えばビデオを利用する重要な部類の源分離である。ビデオ情報は、動きの併発、楽曲分離のための楽器の動作、および発話分離のための唇の動作など、多数の有用なキューを与えるため、分離性能を改良することが期待される。最近では、音声映像源分離にディープ・ラーニングのアプローチが応用されており、優れた結果を達成している。
【0004】
例えば、本発明の共同発明者の一人が参加して開発された一つのビデオベースの源分離システムPixelPlayerが、論文「The sound of Pixels」に記載される。この論文の表題名または単に「PixelPlayer」を用いてインターネット検索したウェブサイトにデモが提供される。PixelPlayerは音を産出し、入力音をビデオ画像データの各ピクセルからの音を表す成分のセットに分離する。このシステムは、様々な楽器を演奏する一人または二人の人を含むいくつかのビデオを、ビデオ・データに関連する単一の聴覚入力とともに用いて訓練される。映像と音声のモダリティが同期されるため、PixelPlayerシステムは、音声映像源分離および位置特定を学習して、入力音信号を異なる楽器カテゴリにそれぞれ対応するN個の音チャネルに分割することができ、音を位置特定し、異なる音声波を入力ビデオの各ピクセルに割り当てることができる。
【0005】
しかし、PixelPlayerなどのこれらの源分離のアプローチの重要な問題は、出力される発話/楽曲が十分に自然に聞こえないことである。
【発明の概要】
【課題を解決するための手段】
【0006】
本発明は、このような音声映像源分離の問題およびその他の問題に対処する。
【0007】
例示的実施形態によれば、本発明は、ビデオ・エンコーダ・モジュールに、複数の音源に関連する映像データを含むビデオ・データを受信するステップと、ビデオ・エンコーダ・モジュールに、ビデオ・データのオプティカル・フロー・データを同時に受信するステップであって、オプティカル・フロー・データは、ビデオ・データのフレーム間のピクセルの動きを示す、ステップと、ビデオ・エンコーダにおいて、受信されたビデオ・データを、異なる音源をビデオ・データのフレーム内の異なるピクセルに関連付けるための情報を含む位置特定データに符号化するステップと、ビデオ・エンコーダにおいて、受信されたオプティカル・フロー・データを、ビデオ・データのフレーム内の異なる音源を単離するための映像キュー情報を含む分離データに符号化するステップとを含む、ビデオ・データ内の音源分離のための方法(ならびに装置およびコンピュータ製品)を開示する。
【0008】
別の例示的実施形態によれば、音声映像源分離処理のための方法であって、GAN生成器とGAN判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク(DNNs:Deep Neural Network)を含む敵対的生成ネットワーク(GAN)システムを提供するステップであって、GAN生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップと、ビデオ・フレーム・データに関連する音声を受信する音声受信機を提供するステップであって、音声受信機は、関連する音声を時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換(STFT:Short‐Time Fourier Transform)機能部を含む、ステップと、ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部を提供するステップと、音声合成器において選択されたピクセルのスペクトログラム・データを関連する音声と混合し、音声合成器の出力を逆短時間フーリエ変換(ISTFT:Inverse Short‐Time Fourier Transform)機能部に提供するステップと、ISTFT機能部の出力を選択されたピクセルの出力音声として提供するステップとを含む方法も本明細書に開示される。
【0009】
別の例示的実施形態によれば、音声映像源分離処理のための方法であって、GAN生成器とGAN判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク(DNNs)を含む敵対的生成ネットワーク(GAN)システムを訓練するステップであって、GAN生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップを含み、訓練は、GAN生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するようにGAN判別器を訓練しながらGAN判別器を騙そうとする候補を生成するようにGAN生成器を訓練するステップとを含む、方法も本明細書に開示される。
【0010】
別の例示的実施形態によれば、音声映像源分離に使用される敵対的生成ネットワーク(GAN)システムを訓練する方法であって、GANシステムは、GAN生成器とGAN判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク(DNNs)を含み、GAN生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成され、訓練方法は、GAN生成器に複数の異なるビデオ・クリップを受信するステップと、GAN生成器のDNNsに勾配降下訓練プロセスを適用して、GAN判別器を騙そうとする候補を生成するようにGAN生成器を訓練するステップと、GAN判別器に勾配降下訓練プロセスを適用して、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するようにGAN判別器を訓練するステップとを含む、方法も本明細書に開示される。
【0011】
さらなる例示的実施形態によれば、GAN生成器とGAN判別器とを含む複数のディープ・ニューラル・ネットワーク(DNNs)を含む敵対的生成ネットワーク(GAN)システムであって、GAN生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、GANシステムと、ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、関連する音声を時間tにおける異なる周波数ビンnの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換(STFT)機能部を含む音声受信機と、ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部と、音声合成器において選択されたピクセルのスペクトログラム・データを関連する音声と混合するように構成された音声合成器と、音声合成器の出力を受信し、選択されたピクセルの音声の出力をその出力として提供するように構成された逆短時間フーリエ変換(ISTFT)機能部とを含む音声映像源分離システムも本明細書に開示される。
【0012】
次に本発明の実施形態を、添付の図面を参照して単なる例として説明する。
【図面の簡単な説明】
【0013】
【
図1】PixelPlayerで使用される従来の音声映像源分離回路のアーキテクチャを示す。
【
図2】本発明の音声映像源分離回路の例示的実施形態を示す。
【
図3】ペア・データを用いたGAN生成器の例示的な訓練に関する式を示す。
【
図4】ペア・データを用いずにGAN生成器を訓練するための式を例示的に示す。
【
図5】本発明の一実施形態によるクラウド・コンピューティング環境を示す。
【
図6】本発明の一実施形態による抽象モデル層を示す。
【発明を実施するための形態】
【0014】
本発明をより良く説明するために、導入部で言及した従来の音声映像PixelPlayer分離回路のアーキテクチャ100をより詳細に説明する説明を提供する。
【0015】
PixelPlayerシステム
図1に示されるように、PixelPlayer100は、ビデオ分析ネットワーク102、音声分析ネットワーク110、および音声合成器ネットワーク120を含む。
【0016】
ビデオ分析ネットワーク102は、ResNet‐18の拡張版を用いて、Tはフレーム数であるT×H×W×3のサイズの入力ビデオを処理して、ビデオ・フレーム104から映像特徴量を抽出する。ResNetスタック106は、T×(H/16)×(W/16)×Kのサイズのフレーム毎の特徴量を抽出し、ここでKは音声源/チャネルの数である。時間プーリングおよびシグモイド活性化の後、サイズKすなわち訓練中に使用される音源数の、フレーム・データの各ピクセルの映像特徴量ik,(x,y)108が得られる。
【0017】
音声分析ネットワーク110は、短時間フーリエ変換(STFT)を用いて入力音声114から音スペクトログラム112を導出し、続いてスペクトログラム・データをU‐Net(畳み込みニューラル・ネットワークの一形式)アーキテクチャ116に入力される対数周波数スケール・データに変換する。U‐Net116は、入力音をK個の成分118s
k,k=(1,…,K)に分割し、それによって、K個のチャネルに分割された入力音の時間周波数表現を提供する。
図1に例示的に示されるシナリオでは、ビデオ・フレーム104に示される各音楽家に一つずつ二つの音源が存在するため、K=2と想定しうる。しかし、実際にはKは、訓練に使用されるデータセットにサンプリングされた異なる楽器カテゴリの総数であり、したがって上に特定されたk値は通常、
図1に例示的に入力データとして示された二つの楽器以外の任意の数の追加の楽器に対応すると考えられるが、任意の特定のビデオ・クリップにおいて様々な楽器タイプkの寄与はゼロである可能性もある。
【0018】
音声合成器ネットワーク120は、音声特徴量sk118を用いたピクセルレベルの映像特徴量ik,(x,y)108の映像ベースのスペクトログラム・マスキングによって音を予測する。予測されるスペクトログラムの大きさを入力スペクトログラムの位相と組み合わせ、逆STFTを適用することによって、予測の出力波形122が得られる。
【0019】
PixelPlayerには、関連する映像入力を条件とした目的の音源を分離することを学習目的として異なるビデオからの音を混合して複合音声入力チャネルを生成する自己教師あり訓練手順が用いられる。訓練フェーズは、訓練セットのためにN個の複数のビデオがランダムにサンプリングされ、それらの関連する音声が入力データとして混合され、目標は、各音声をその関連する映像入力に伴って復元するようにニューラル・ネットワークを訓練することである点でユーザ・フェーズと異なった。
【0020】
PixelPlayerのResNet‐18スタック106は、最後の平均プーリング層および全結合(fc:fully connected)層を除去して、最後の残差ブロックのストライドを除去し、このブロックの畳み込み層に3の拡張を持たせ、K個の出力チャネルの3×3畳み込み層を加えて修正された。各ビデオ・サンプルで、224×224×3のサイズのT個のフレームが入力として使用され、出力は時空間maxプーリング後のサイズKの特徴量であった。
【0021】
音声分析ネットワークのU‐Netは、間にショートカットを伴う七つの畳み込み(またはダウン畳み込み)および七つの逆畳み込み(またはアップ畳み込み)を有するように修正された。U‐Netは、256×256×1のサイズの音声スペクトログラムおよび256×256×KのサイズのK個の特徴量マップの出力をとった。
【0022】
本発明
音声映像源分離のタスクに対するPixelPlayerなどの従来のアプローチを検討する際に、本発明者らは、そのような先行技術のシステムの限界には、少なくとも
‐ビデオにおける時間情報が考慮されないこと、
‐出力があまり自然に聞こえないこと、および
‐グラウンド・トゥルースを利用できないこと
が含まれることを認めた。
【0023】
PixelPlayerの手法と同様に、また
図2に例示的に示されるように、本発明は、
図1に示されるPixelPlayerの音声入力114と同様に、STFTを用いてスペクトログラム・データ218に変換するための音声入力206を受信し、ISFTFを介して選択されたピクセルの音声出力を提供する。
【0024】
しかし、出力される発話/楽曲が自然に聞こえないという指摘された限界に対応して、本発明者らは、敵対的生成ネットワーク(GAN)がPascualらによって「SEGAN:Speech Enhancement Generative Adversarial Network」に記載されるように通常の源分離性能を潜在的に改良することが実証されていることから自然な画像/音声を生成できるモデルであることを認めた。この所見を動機として、本発明は、
1)ビデオ内の音を位置特定するためにビデオの動き検出を入力として用いることにより映像キューを利用して分離を支援し、
2)各音源をビデオのピクセル上に位置特定し、
3)GANを利用して自然に聞こえる出力を生成する、
新規な源分離システムを提供する。
【0025】
したがって、本発明の問題の定式化は、音スペクトログラムの混合物s(n,t)=Σisi(n,t)および対応するビデオv(x,y,t)を前提として、位置ベースのスペクトログラムの推定
【0026】
【0027】
を、ピクセルが発する音に真に対応するように産出することであり、ここでxは水平位置インデックスであり、yは垂直位置インデックスであり、tはフレーム・インデックスであり、nは周波数インデックスであり、ここでS(n,t)は、フレームtおよび周波数ビンnにおけるスペクトログラム値を意味する。
【0028】
本発明の様々なモジュールの最初の概要として、またPixelPlayerについて記載された機構との違いの説明を開始するために、ビデオ符号化モジュール210は、ニューラル・ネットワーク212を用いて、入力ビデオ・ストリーム内の関連のコンテンツおよび動き情報をピクセル変動位置特定特徴量214および時間変動分離特徴量216に符号化する。位置特定特徴量214は、異なる源をビデオ内の異なるピクセルに関連付けるための情報を提供し、分離特徴量216は、動き情報からの異なる音源の単離のための源分離モジュール220への映像キューを提供する。
【0029】
源分離モジュール220は、音声混合物スペクトログラムs(n,t)218(PixelPlayerと同様にSTFFを用いて音声入力206から導出)および分離ベクトル216をとって、チャネルkに沿った分離にしたがって音声の分離特徴量222を提供する。次に、分離された特徴量222が、位置特定ベクトル214のデータから導出された重みを用いてピクセルに関連付けられる。より正確には重みは、フレームの各ピクセルが訓練中に使用されるk個の楽器カテゴリのそれぞれに対応する重みに関連付けられるように特定のピクセルに対応する214からの1×Kのサブベクトルである。様々な重みwk(x,y)は、任意の特定の入力ビデオ・クリップ202でそのチャネルの音がビデオ・クリップに存在しない場合にはゼロに等しい値を有しうる。
【0030】
上に簡単に言及したSEGANで使用される判別器に類似する判別器モジュール230は、入力スペクトログラムが本物であるか偽物であるかを指定するスカラー234を提供し、これはGANの決定的特徴である。音声判別器230は、入力スペクトログラムが本物(グラウンド・トゥルースの単一チャネルの音声)であるか位置特定ベクトル214を条件とした偽物(分離された結果)であるかを予測する。
【0031】
図2は、単一の音声判別器230を記号で示すが、実際には判別器記号230によって二つの判別器機能部が提供される。一方の判別器機能部は、音声が本物であるか偽物であるかを判別し(これはペア・ビデオ・データで使用される)、他方の判別器機能部は、音声がクリーンであるか混合物であるかを判別する(これはペア・データによらない訓練で使用される)。二つの判別器機能部のいずれが使用されるかは、使用される訓練ビデオ・クリップのタイプに依存し、各判別器機能部は、訓練についてより詳しく説明する際に後述するように、そのタイプの訓練ビデオ・クリップが使用されるときに最小化されるべき目的関数が異なる。
【0032】
源分離モジュール220の目標の一つは、音声判別器モジュール230を騙すことである(例えば本物であるか偽物であるかまたはクリーンであるか混合されたものであるか)。したがって、ビデオ符号化モジュール210(ResNet212およびプーリング層212A、212Bを有する)、リサンプリングdeconvモジュール240、および源分離モジュール220(加算器226を含む)を含む
図2に示される本発明と音声判別器モジュール230とが一緒にGANシステムを形成し、このGANシステムは分離された音声の強化を目的とする本発明の顕著な特徴の一つであり、ビデオ符号化モジュール210、リサンプリングdeconvモジュール240、および源分離モジュール220が一緒にGANシステムの生成器構成要素を形成し、判別器モジュール230が判別器構成要素として働く。
【0033】
後述のように、GANの三つのニューラル・ネットワーク212、224、232の訓練が完了すると、システム200は、混合物スペクトログラム218の位相を分離された特徴量222に適用し、その後システムは、重畳加算226および逆短時間フーリエ変換(ISTFT)を行って、選択されたピクセルからの音として目的の波形208を復元する。
【0034】
ディスプレイ内の特定のピクセルを指すために使用されうるキーボードもしくはマウスなどのポインタ・デバイスまたはその組み合わせなどのユーザ入力デバイス、ならびにディスプレイ出力デバイスおよび音声出力回路は、当技術分野で周知であると考えられ、本発明の新規性の一部ではないため
図2には示されない。加えて、
図2の構成要素を実装するため、ならびに後述する訓練関数の計算を実行することによってネットワークの訓練を実装するために使用されるであろうプロセッサ(単数または複数)も、この態様が当技術分野で周知であると考えられることから
図2には示されない。
【0035】
次に、主要な構成要素および動作の追加の詳細を説明する。
【0036】
ビデオ符号化モジュール
上述のように、ビデオ符号化モジュール210は、入力ビデオ情報内の関連のコンテンツ202および動き情報204を、ピクセル変動位置特定特徴量214および時間変動分離特徴量216に符号化する。分離特徴量216は、源分離モジュール220に映像キューを提供し、位置特定特徴量214は、異なる源をビデオ上の異なるピクセルに関連付けるために使用される。理想的には、本発明の訓練が完璧であれば、出力ビデオ・ディスプレイ上で関連する音を有する
図2に例示的に示される入力ビデオ202のピクセルは、二人の音楽家の動作に起因する二つの楽器の周りの領域の動きを示す画像データのピクセルだけとなり、静止した背景ピクセルなどの任意の他のピクセルは関連する音を有しないと考えられる。本発明は、入力ビデオ202の音声ストリーム部分から収集され、GANニューラル・ネットワークによって強化された、その楽器の音声音206を提供すると考えられる。
【0037】
ビデオ符号化モジュール210は、位置特定特徴量214から利用可能な位置特定を行うだけでなく、映像情報が分離を支援できるように分離特徴量216を提供する分離ベクトルを追加することによって、例えばPixelPlayerで使用される従来の方法で説明されるものを改良する。本明細書において「チャネル」とも呼ばれるパラメータKは、異なる音特徴量に対するビデオ入力データ内の異なるピクセル動き領域に関係するものと最初に考えられうる。しかし、より正確にはパラメータKは、システムの訓練中に様々なビデオ・クリップにおいて使用される楽器のデータベースに様々な楽器のいずれが含まれるかに関係する。したがって、重要な特徴は、本発明のGANシステムによって組み込まれるニューラル・ネットワークが様々な楽器の音を強化するように訓練されることである。
【0038】
ビデオ符号化モジュール210は、ResNetモジュールがPixelPlayerについての説明と同様に構成される点で、一つ一つの入力フレームに対する2D畳み込み層のスタック212であるPixelPlayerで使用されるものに多少類似する。しかし、二つの重要な違いがある。第一に、本発明の符号化モジュール210は、生のビデオに加えて、オプティカル・フロー入力データ204として生のビデオの各フレームの動き画像データもとるため、本発明のResNetスタック212は、このオプティカル・フロー・データ用の追加のResNetユニットを含む。なお、ビデオ・フレーム202の各フレームおよびオプティカル・フロー・フレーム204の各フレームは、ResNetスタック212の関連するそれぞれのResNetに提供されるため、好ましい例示的実施形態ではスタック212には実際に六つのResNetユニットが存在することに留意されたい。このような入力データの各フレーム・ユニットに対するそれぞれのResNetユニットの一意性は、本発明がビデオ・フレーム202の画像動きデータから導出されたオプティカル・フロー・データ204のためのResNetユニットも含むことを除いて、
図1に示されるビデオ入力104と同様である。
【0039】
第二に、最初の畳み込みニューラル・ネットワーク(CNN:Convolutional Neural Network)層(すなわちResNet層212)の後、符号化モジュール210は二つのブランチ212A、212Bに分かれる。第一ブランチ212Aは、PixelPlayerで行われるのと同様に、空間次元のmeanプーリングを行う。このブランチの出力は、まもなく説明するピクセル特徴量fp(x,y,k)に対応するX×Y×Kのサイズの三次元テンソルとしてのX*Y*Kのサイズの位置特定特徴量214と呼ばれ、ここでX、Y、Kはそれぞれ幅、高さ、および特徴量の次元である。第二ブランチ212Bは、追加のCNN層を適用して時間次元をさらに縮小し、最後に時間次元のmeanプーリングを行う。このブランチの出力は、T*Kのサイズの分離特徴量216と呼ばれ、ここでTはビデオ・フレームの数である。
【0040】
ビデオ・エンコーダ210への入力は、ビデオ・フレーム・データv(x,y,t)202およびオプティカル・フロー・データo(x,y,t)204を含み、ここでxは水平位置インデックスであり、yは垂直位置インデックスであり、tはビデオ・フレーム・インデックスである。本発明のKパラメータ・データは、オプティカル・フロー入力データ204から部分的に導出され、オプティカル・フロー・データ204はさらに、ビデオ圧縮/伸長の技術において周知の従来の動き特徴検出手法を用いてビデオ・フレーム・データ202からビデオ・データ202内の動き特徴量として抽出され、通常はピクセルのブロックの単位でビデオ・データのフレーム間のピクセルの動きを示す。
【0041】
本発明のこの例示的実施形態において示されるように、ResNetスタック212は、画像データ202およびオプティカル・フロー・データ204から残差を学習するように訓練される残差ネットワーク(ResNet:Residual Network)層のスタックである。当技術分野で知られるように、残差は、ある層で学習される特徴量をその層への入力から減算したものであり、ResNet構想の開発の根底にあるのは、ディープ畳み込みニューラル・ネットワークが深くなるほど訓練が難しくなり、精度が劣化し始めるという認識である。ResNetアプローチは、これらの懸念の両方に対処することが実証されている。したがって、好ましい例示的実施形態ではResNetが用いられるが、この特定のニューラル・ネットワーク・タイプの機能/結果を達成するために他のニューラル・ネット機構が用いられることもできるため、本発明がResNetニューラル・ネットワーク・アーキテクチャに基づくこの特定の例示的実施形態に限定されると見なされてはならない。
【0042】
二つのプーリング層212A、212Bは、平均するかまたは最大値をとるかのいずれかを提供しうる、すなわちこれらのプーリング層はmeanプーリングまたはmaxプーリング層のいずれかでありうる。空間プーリング層212Aはピクセル特徴量ベクトルfp(x,y,k)214を提供し、時間プーリング層212Bは時間特徴量ベクトルf
τ(t,k)216を提供し、ここでτは時間領域を示す。
図2の点線214Aは、ピクセル特徴量ベクトル・データ214が、音を異なるピクセルに関連付ける機構としての分離モジュール220における処理のための重み情報を提供することを示す。特に、分離モジュール220で使用される重み214Aは、ピクセル特徴量ベクトル・データfp(x,y,k)214がX×Y×Kの重みテンソルであることを前提として、ピクセル特徴量ベクトル・データ214内の選択されたピクセルに対応する1×Kのサブベクトルである。したがって、総重みテンソル214がX×Y×Kであり、各抽出された特徴量222にX×Yのピクセルがあるため、抽出された特徴量222内の選ばれたピクセル(x,y)ごとにK個の重みがある。
【0043】
リサンプリングDeconvモジュール
本発明は、(1)ビデオ・フレーム・レート、および(2)スペクトログラム・フレーム・レートの二つの時間分解能を含む。ビデオ・フレーム・レートは通常、12~24フレーム/秒である。スペクトログラム218のフレーム・レートは通常、100フレーム/秒である。ビデオ・フレーム・レートは、「リサンプリングdeconv」モジュール240を介してスペクトログラム・データ218と統一され、それによってビデオ・フレーム・データ202が関連する音声入力データ206に関連付けられる。
【0044】
リサンプリングdeconvモジュール240の出力は、音声入力206のSTFTフィルタリング処理によって導出される混合物スペクトログラムs(n,t)218に関連付けられ、ここでnは周波数インデックスであり、tはビデオ・フレーム時間である。混合物スペクトログラム218は、混合物スペクトログラム218の上の「プレート」記号によって示されるようにビデオ・フレーム単位でメモリ・バッファに記憶され、混合物スペクトル・データ218は、K個のチャネル全てのスペクトル・データを含む。したがって次のモジュールである分離モジュール220は、混合物スペクトログラム・フレーム218を、ビデオ・データ内のK個の異なる音源のための別々のチャネル成分に分離する機能を有する。
【0045】
源分離モジュール
源分離モジュール220内のConvDeconvモジュール224は、異なるチャネルkに基づき混合物スペクトログラム・フレームs(n,t)218から特徴量を抽出して、抽出された特徴量222を提供するニューラル・ネットワークである。抽出された特徴量222は、これらの抽出された特徴量フレーム222の重み付けされた組み合わせが分離されたスペクトログラム・フレーム228になるため、スペクトログラムに多少関係する。したがって、例示的な三つの抽出された特徴量フレーム222は三つの入力ビデオ・フレーム202に対応するのではなく、K個のスペクトログラム特徴量があることを想起してK個のチャネルの異なるチャネルkに関連付けられることが意図されることに留意されたい。このConvDeconvニューラル・ネットワークはGANの一部であるため、このニューラル・ネットで定義される抽出機構は、本発明によって導入されるGANシステム全体の訓練中の誤差逆伝播法による重み調整に基づく。抽出された特徴量fs(n,t,k)222は、エンコーダ210からの位置特定ベクトル214によって提供される重みを用いてビデオ・データのピクセルに関連付けられる。分離モジュール220内の「+」記号226は、各ピクセルについての異なる特徴量222の線形加算を示す。したがって、ピクセル位置(x,y)およびビデオ・エンコーダ210からのそのピクセル特徴量fp(x,y,k)を前提として、分離モジュール220から出力される分離されたスペクトログラム228は、以下の通りである。
【0046】
【0047】
上記の式から、分離されたスペクトログラム228は、k個の特徴量222(例えばfs(n,t,1),fs(n,t,2)…fs(n,t,k))とビデオ・エンコーダ210からのk個の線形結合の重み214(例えばfp(x,y,1),fp(x,y,2)…fp(x,y,k)がエンコーダ210からのk個の線形結合の重み214である)との積からなる。k個の特徴量が重みによって重み付け(乗算)されてから合計されて、分離されたスペクトログラム228が形成される。
【0048】
本発明は、音声入力206に対するSTFTフィルタリング機能を用いて混合物スペクトログラム218を導出することによって、
図1で説明されたものと同様の音声スペクトログラム・データを導出する機能を実装する。
図1のPixelPlayerの音声U‐Net116によって行われる機能がConvDevonv NN224によって行われて、PixelPlayerの
図1の音声特徴量118と同様に分離された特徴量222が導出される。加えて、PixelPlayerの
図1に示される音声分析ネットワーク110および音声合成器ネットワーク120と同様に、分離モジュール220が加算機能226を提供し、音声合成器250がISTFTを提供して音声出力208を提供する。
【0049】
しかし、本発明の音声処理は、少なくとも二つの重要な点でPixelPlayerの機構と異なる。
【0050】
第一に、本発明の方法は、混合物スペクトログラム218に加えて、ビデオ符号化モジュール210からの分離特徴量ベクトル216も入力としてとる。前述のように、分離特徴量ベクトル216は、ビデオ・データ202ならびにオプティカル・フロー・データ204から導出され、これはPixelPlayerと比較して本発明において新規である。また前述のように、分離特徴量216は、スペクトログラム・データ218を導出する際にビデオのタイミングが音声入力206から作成される音声のタイミングに一致するように音声スペクトログラムのフレーム・レートをビデオ・フレームのものと一致させるために本発明のリサンプリングdeconvモジュール240において時間的にリサンプリングされる。
【0051】
第二に、源分離モジュール220の出力は、PixelPlayerで行われるように入力スペクトログラムに対する時間周波数マスクを予測する代わりに、分離されたスペクトログラム228を直接予測する。マスクの予測は、元の混合物スペクトログラムと同じサイズの0~1の値のマスクの行列を予測する。入力混合物スペクトログラムにマスクを掛けたものが、予測される分離されたスペクトログラム228になる。この顕著な特徴は、本発明においては、PixelPlayerで行われるように
図1に示されるマスクでこの機能を行うかわりに、分離されたスペクトログラム228の存在によって
図2に示される。
【0052】
判別器モジュール
音声判別器モジュール230は、本発明の敵対的生成ネットワーク(GAN)能力の判別器構成要素を提供し、この判別器機能部は、GANシステムの初期訓練中に、入力スペクトログラムが本物(グラウンド・トゥルースの単一チャネルの音声)であるか位置特定ベクトル214を条件とした偽物(分離された結果)であるかを予測する。したがって、(ビデオ・エンコーダ210のResNetスタック212と組み合わせた)源分離モジュール220のConvDeconvニューラル・ネットワーク224の目標の一つは、訓練中に音声判別器モジュール230を騙すことである。GANシステムのこの訓練を達成するための式はまもなく記載され、さらに説明するように、これらのニューラル・ネットワーク212、224、232、240は、初期GAN訓練中に順番に交互に更新される。
【0053】
しかし、「敵対的生成ネットワーク」の構想をさらに説明すると、GANシステムは、教師なし学習の一形態として、二つのニューラル・ネットワークがゼロサムゲームのフレームワークにおいて互いに競合する機械学習システムのクラスである。GAN手法は、少なくともいくつかの本物らしい特徴を持つことにより、人間の観察者にとって少なくとも表面的に真正に見える写真が生成されうる手法として始まった。GANは、第一生成ネットワークを用いて候補を生成する一方で、第二判別ネットワークが候補を評価することによって実装され、競合はデータ分布の観点から動作する。生成ネットワークは、潜在空間から目的のデータ分布にマッピングすることを学習する一方で、判別ネットワークは、生成器によって生成された候補を真のデータ分布と見分ける。
図2の「本物/偽物」の記号234は、判別ネットワークのエラー率を高める本発明の生成ネットワークの訓練目的を指すことを意図する。すなわち、本発明では、分離モジュール220内の生成ネットワークGAN構成要素224は(ResNet構成要素212およびリサンプリングdeconv240からの入力と組み合わせて)、判別器ニューラル・ネットワーク230が合成でない、すなわちそれらが真のデータ分布の一部であると判断する新規候補を産出することによって、判別器モジュール230内の判別器ネットワーク構成要素232を「騙す」ことを試みる。既知のビデオ・クリップのデータセットが、判別器232の初期訓練データとして働き、その訓練には、認容可能な精度を達成するまで訓練データセットからのサンプルを判別器に提示することを含む。
【0054】
GANシステムの生成器は、生成器が判別器をうまく騙せるか否かに基づいて訓練する。生成器は通常、定義済みの潜在空間からサンプリングされるランダム化された入力でシードされ、その後、生成器によって合成された候補が判別器によって評価され、生成ネットワークおよび判別器ネットワークの両方において誤差逆伝播法が適用される。その結果、判別器は合成画像をより良くフラグ付けすることを学習する一方で、生成器ネットワークはより良い画像を生成することを学習する。GANシステムにおいて、生成器ニューラル・ネットワークは通常、conv deconvニューラル・ネットワーク224などを含む逆畳み込みニューラル・ネットワークであり、判別器ニューラル・ネットワークは通常、convニューラル・ネットワーク232などの畳み込みニューラル・ネットワークである。
【0055】
前述のように、本発明におけるGAN処理は、源分離の一部として、およびPixelPlayerなどの従来の源分離システムに対する改良として、より本物らしい音声を提供することに関する。
【0056】
PixelPlayerシステムでの処理と同様に、線形結合の重みは、訓練中とテスト中とで異なって決定される。訓練中には、単一チャネルの音声のビデオ二つがつなぎ合わされて人工的な混合物が形成される。二つのチャネルのそれぞれを表す重みは、そのチャネルのビデオに属するピクセル上の位置特定特徴量をmeanプーリングすることにより得られる。テスト(例えばユーザ・フェーズ)中には、真の混合物ビデオが使用され、重みは一つのピクセルの位置特定特徴量である。分離結果は、そのピクセルが出す音を示すことが期待される。
【0057】
判別器モジュール230は、畳み込み層のスタックとそれに続くmeanプーリング層とそれに続く全結合層のスタックからなる、Pascualらによって説明される前述のSeganシステムの判別器モジュールに類似する。訓練中の判別器230の出力は、入力スペクトログラムが本物であるか偽物であるかを指定するスカラーである(ラベル234を参照)。
【0058】
最後に、
図1に示されるPixelPlayerの音声合成器ネットワーク120と同様に、音声合成器ネットワーク250は、混合物スペクトログラムの位相を分離されたスペクトログラムに適用してから逆短時間フーリエ変換(ISTFT)および重畳加算を行って波形を復元し、出力音声208を提供するスペクトログラム反転モジュールを含む。
【0059】
訓練フェーズ
本発明の音声映像源分離システムの訓練は、
図2のニューラル・ネットワークすなわちエンコーダ210内のニューラル・ネットワーク212、分離器220内のconv/deconvニューラル・ネットワーク224、および判別器230内のconvネットワーク232の初期訓練を含む。前述のように、ビデオ・エンコーダ210内のニューラル・ネットワーク212、リサンプリングdeconvネットワーク240、および分離器220内のconv/deconvニューラル・ネットワーク224が一緒にGANシステムの生成器を形成し、判別器モジュール230のconvネットワーク232がGANシステムの判別器を形成する。訓練手順は、最小化/最大化するために様々なアルゴリズムを処理することを含み、これには
図1または
図2のいずれにも示されないプロセッサを要すると考えられる。
【0060】
訓練中には、少なくとも一つの音源を含む、典型的にはそれぞれ楽器を演奏する少なくとも二人の音楽家を含む様々なビデオ・クリップが導入され、訓練は、当技術分野で周知のように誤差逆伝播法を用いて損失関数を最小化するようにニューラル・ネットワークを調整することを含む。三つのニューラル・ネットワークの訓練中の更新は、順番に交互に生じる。
【0061】
音源分離システムの目的は、異なる音源からの音を分離し、それらをビデオ内の特定のピクセルで識別することであるため、訓練は通常少なくとも一対の音源を含むビデオ・クリップを用いる。訓練ビデオには、グラウンド・トゥルースを含むビデオ・クリップまたはグラウンド・トゥルースを含まないビデオ・クリップが含まれうる。
【0062】
本発明の文脈において、「グラウンド・トゥルース」という用語は、個々の音の源が既知である入力ビデオ・クリップを指す。グラウンド・トゥルースは、例えば、楽器を演奏する一人の音楽家など一つの音源を含むビデオ・クリップが導入される場合に既知である。しかし、本発明の目的は音源分離であるため、音分離のための訓練の目的でグラウンド・トゥルースを提供するより良い方法は、楽器を演奏する一人の音楽家をそれぞれ含む二つの別々のビデオを人工的に混合して、二つの既知のグラウンド・トゥルースを含む入力ビデオ・クリップを提供することである。しかし、まもなく説明するが、GANの生成的損失および敵対的損失の最適化関数を適合させることによって、グラウンド・トゥルースを一切知らずに訓練が行われることができる。
【0063】
しかし最初に、全体的な訓練損失関数を以下に説明する。
【0064】
損失関数
ノイズありスペクトログラムをxと表し、分離モジュールの出力をG(x;z)と表し、ここでzは分離特徴量および位置特定特徴量を指す。対応する真のクリーンなスペクトログラムをyと表す。(この説明でのx、y、zパラメータは、前に用いられた使用法とは異なることに留意されたい。)判別器の出力をD(y;z)と表す。訓練中、GANシステムの生成器の目標は下記の式1を最小化することであり、GANシステムの判別器の目標は汎用式2を最大化することであり、これは以下の式3および4により正確に反映される。判別器および生成器は、勾配降下ステップを交互に行う。
L(G)=aE[logD(G(x;z);z)]+b(G(x;z)-y)^2 (式1)
L{D)=E[logD(y;z)]-E[logD(G(x;z);z)] (式2)
【0065】
これらの上下の式において、D()は判別器の出力を表し、G()は生成器の出力を表し、xは入力混合物を表し、zは選択されたピクセル位置を表し、yはピクセルzに対応するグラウンド・トゥルースのクリーンな音声を表す。
入力:任意の本物のスペクトログラムsreal(n,t)および偽物のスペクトログラムsfake(n,t)
本物/偽物判別器
出力:入力が本物であるか偽物であるかを判断。
Dr/f(sreal(n,t))できるかぎり大きく
Dr/f(sfake(n,t))できるかぎり小さく
Max Error[(f(Dr/f(sreal(n,t)))+f(1-Dr/f(sfake(n,t)))] (式3)
ノイズあり/クリーン判別器
Max Error[(f(Dn/c(sclean(n,t)))+f(1-Dn/c(snoisy(n,t)))] (式4)
【0066】
図3および
図4は、GAN生成器機能の式を提供し、生成器の目標は、訓練がペア・データを用いるか否かに応じてこれらの式を最小化することである。
【0067】
訓練フェーズ中には、前述のように、三つのモジュールがそれぞれの損失を最小化するように交互に更新される。換言すれば、初回の実行の後に一つのモジュールが更新され、その後、二回目の実行の後に別のモジュールが更新され、その後、三回目の実行の後に残る第三のモジュールが更新され、このシーケンスが繰り返される。したがって、例えば二つのプレーヤが以下の様式で更新される。ラウンド1で、生成器が、勾配降下法によって、訓練がペア・データを用いるか否かに応じて
図3または
図4の値を減少させるように更新され、ラウンド2で、判別器が、勾配上昇法によって、式2の値を増加させるように更新され、このプロセスが繰り返される。
【0068】
ペア・データによる訓練
訓練ビデオ・クリップがペア・データを含むときには、例えば楽器を演奏する一人の音楽家など単一の音源をそれぞれ有する二つの別々のビデオ・クリップからのビデオおよび音声を一緒に混合した結果としてペア・データが生じるため、グラウンド・トゥルースが既知である。
【0069】
ペア・データによる訓練では、グラウンド・トゥルースがs1(n,t)およびs2(n,t)で既知である。また、二つの源に対応するピクセルR1、R2も既知である。分離モジュールの出力
【0070】
【0071】
【0072】
ペア・データにより訓練するときには、GAN生成器ネットワークの訓練の目標は、
図3の下の式に示すように、再構成損失と敵対的損失の合計を最小化することである。
【0073】
ペア・データによらない訓練
ペア・データによらない訓練の場合、グラウンド・トゥルースがs
1(n,t)およびs
2(n,t)で未知である。したがって、訓練の目標は、
図4の式に示されるように、敵対的損失を最小化することである。
【0074】
システムの実装
本発明は、例えば本発明の構成要素の構築を可能にするアプリケーションとして、または本発明の構成要素の使用結果を実証するプレーヤとして提供されるクラウド・サービスを含む、多くの様々なコンピュータ実装物において実装されうる。本発明は、ニューラル・ネットワーク能力を実装するためのコプロセッサとして提供する一つ以上のニューラル・ネットワーク・アクセラレータを含むかまたは含まない、本発明の構成要素の構築を可能にする適切なライブラリにアクセスできるコンピュータも含みうる。
【0075】
したがって、本開示は、以下のようにクラウド・コンピューティングの詳細な説明を含むが、本明細書に記載の教示の実施態様は、クラウド・コンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在知られているかまたは後に開発される他の任意のタイプのコンピューティング環境と連動して実施されることができる。
【0076】
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのインタラクションで迅速にプロビジョニングおよびリリースされうる、構成可能なコンピューティング・リソース(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの簡便なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも五つの特徴、少なくとも三つのサービス・モデル、および少なくとも四つの展開モデルを含みうる。
【0077】
特徴は以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービスのプロバイダとの人的やり取りを要せずに必要に応じて自動的にサーバの時間およびネットワーク・ストレージなどのコンピューティング能力を一方的に設定しうる。
幅広いネットワーク・アクセス:能力はネットワーク上で利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム(例えば携帯電話、ラップトップ、およびPDA)による利用を促進する標準的機構を通じてアクセスされる。
リソースのプール:プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマに提供されるようにプールされ、様々な物理的リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされる。コンシューマは通常、提供されたリソースの正確な場所についての制御力または知識を有しないが、より抽象的なレベル(例えば国、州、またはデータセンタ)で場所を特定しうるという点で、場所にとらわれない感覚が存在する。
スピーディな拡張性:能力は、スピーディに弾力的に、場合によっては自動的に提供されて即座にスケール・アウトし、スピーディに解放されて即座にスケール・インしうる。コンシューマにとって、提供のために利用可能な能力は多くの場合無限に見え、いつでも任意の量で購入されうる。
測定されるサービス:クラウド・システムは、サービスの種類(例えばストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適した何らかの抽象レベルで計測能力を活用することにより、リソースの利用を自動的に制御および最適化する。リソースの利用状況は、監視、制御、および報告されることができ、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供する。
【0078】
サービス・モデルは以下の通りである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース(例えばウェブベースの電子メール)を通じて、様々なクライアント・デバイスからアクセス可能である。コンシューマは、限られたユーザ固有のアプリケーション構成設定を場合によっては除いて、ネットワーク、サーバ、オペレーティング・システム、ストレージまたは個々のアプリケーション能力をも含む基礎的クラウド・インフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成されるコンシューマが作成または入手したアプリケーションをクラウド・インフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的クラウド・インフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御できる。
サービスとしてのインフラストラクチャ(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースを提供することであり、コンシューマは、オペレーティング・システムおよびアプリケーションを含みうる任意のソフトウェアを展開して実行させることができる。コンシューマは、基礎的クラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御でき、場合によっては選抜されたネットワーキング・コンポーネント(例えばホスト・ファイアウォール)を限定的に制御できる。
【0079】
展開モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織専用に運用される。クラウド・インフラストラクチャは、その組織または第三者によって管理されることができ、オン・プレミスまたはオフ・プレミスで存在することができる。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有の懸念事項(例えばミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、これらの組織または第三者によって管理されることができ、オン・プレミスまたはオフ・プレミスで存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大きな業界グループに利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティであり続けるがデータおよびアプリケーションのポータビリティを可能にする標準化されたまたは専用の技術(例えばクラウド間の負荷平衡のためのクラウド・バースティング)によって一緒に結び付けられた二つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0080】
クラウド・コンピューティング環境はサービス本位であり、無国籍性、低結合度、モジュール性、およびセマンティックな相互運用性に重点を置く。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
【0081】
ここで
図5を参照すると、例示的なクラウド・コンピューティング環境50が示される。示されているように、クラウド・コンピューティング環境50は、例えばパーソナル・デジタル・アシスタント(PDA:personal digital assistant)または携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、もしくは自動車コンピュータ・システム54Nまたはその組み合わせなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信しうる一つ以上のクラウド・コンピューティング・ノード10を含む。ノード10は互いに通信しうる。これらは、本明細書に上述したプライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドまたはそれらの組み合わせなど、一つ以上のネットワークにおいて物理的または仮想的にグループ化されうる(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要のないサービスとしてインフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを提供することが可能になる。
図5に示されるコンピューティング・デバイスのタイプ54A~Nは、例示を意図したものにすぎず、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークもしくはネットワークアドレス可能な接続またはその両方により(例えばウェブ・ブラウザを使用して)任意のタイプのコンピュータ化デバイスと通信しうるものと理解される。
【0082】
ここで
図6を参照すると、クラウド・コンピューティング環境50(
図5)によって提供される機能抽象層のセットが示される。
図6に示される構成要素、層、および機能は例示を意図したものにすぎず、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層および対応する機能が提供される。
【0083】
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メイン・フレーム61、RISC(縮小命令セット・コンピュータ、Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ62、サーバ63、ブレード・サーバ64、記憶デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0084】
仮想化層70は、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75という仮想エンティティの例が提供されうる抽象層を提供する。
【0085】
一例では、管理層80は、以下で説明される機能を提供しうる。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを行うために利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格設定82は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡、およびこれらのリソースの消費についての課金またはインボイシングを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含みうる。セキュリティは、クラウド・コンシューマおよびタスクの識別検証、ならびにデータおよび他のリソースの保護を提供する。ユーザ・ポータル83は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス水準管理84は、必要なサービス水準に達するようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス水準合意(SLA:Service Level Agreement)の計画および履行85は、SLAにしたがって将来の必要が見込まれるクラウド・コンピューティング・リソースの事前手配および調達を提供する。
【0086】
作業負荷層90は、クラウド・コンピューティング環境が利用されうる機能の例を提供する。この層から提供されうる作業負荷および機能の例は、音声映像源分離がクラウド・サービスとして実装される本発明に関係するタスクを含む。
【0087】
本発明の様々な実施形態の説明は、例示を目的として提示されているものであり、網羅的であること、または開示された実施形態に限定されることを意図するものではない。記載された実施形態の範囲および精神から逸脱することなく、多数の修正例および変形例が通常の技術を有する当業者に明らかとなるであろう。本明細書で使用される用語は、実施形態の原理、実際の応用例、または市場に見られる技術に対する技術的改良を最も良く説明するため、または通常の技術を有する他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。
【0088】
本発明は、いくつかの例示的実施形態に関して説明されているが、当業者は本発明が修正を加えて実施されうることを認識するであろう。したがって、前述のように、本発明の構想は、任意の特徴保存暗号化(PPE:Property Preserving Encryption)方式に組み込まれることもでき、本発明を説明するために使用される順序保存暗号化(OPE:Order Preserving Encryption)に限定されない。
【0089】
さらに、出願人の意図は、後に審査中に修正される場合であっても、全てのクレーム要素の等価物を包含することであることに留意されたい。