(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-24
(54)【発明の名称】オーディオ・コンテンツの生成および分類
(51)【国際特許分類】
G06N 3/08 20230101AFI20241217BHJP
H04S 3/00 20060101ALI20241217BHJP
G10L 25/18 20130101ALI20241217BHJP
G10L 25/30 20130101ALI20241217BHJP
【FI】
G06N3/08
H04S3/00
G10L25/18
G10L25/30
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024527263
(86)(22)【出願日】2022-11-03
(85)【翻訳文提出日】2024-05-08
(86)【国際出願番号】 US2022048762
(87)【国際公開番号】W WO2023086253
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ポッター,ブレントン ジェームズ
(72)【発明者】
【氏名】ノスラティ,ハディス
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA02
5D162BA09
(57)【要約】
いくつかの開示される方法は、オーディオ信号および関連する空間データを含む少なくとも第1のオーディオ・データ・タイプおよび第2のオーディオ・データ・タイプのオーディオ・データを受領し、オーディオ・データから少なくとも第1の特徴タイプを決定し、オーディオ・データに位置エンコード・プロセスを適用して、エンコードされたオーディオ・データを生成することに関わる。エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも空間データおよび第1の特徴タイプの表現を含みうる。いくつかの方法は、入力空間データ・タイプを有する入力オーディオ・データ・タイプから変換空間データ・タイプを有する変換オーディオ・データ・タイプにオーディオ・データを変換するために、エンコードされたオーディオ・データに基づいてニューラルネットワークをトレーニングすることに関わっていてもよい。いくつかの方法は、入力オーディオ・データ・タイプを識別するためにニューラルネットワークをトレーニングすることに関わっていてもよい。
【特許請求の範囲】
【請求項1】
制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプの第1のオーディオ・データを受領する段階であって、前記第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第1のオーディオ・データから少なくとも第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成する段階であって、前記第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける、少なくとも前記第1の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
前記制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプの第2のオーディオ・データを受領する段階であって、前記第2のオーディオ・データ・タイプは前記第1のオーディオ・データ・タイプとは異なり、前記第2の空間データは、前記一つまたは複数の第2のオーディオ信号のための意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第2のオーディオ・データから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第2のオーディオ・データに前記位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成する段階であって、前記第2のエンコードされたオーディオ・データは、前記埋め込み次元の第2の埋め込みベクトルにおける、少なくとも前記第2の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
入力空間データ・タイプを有する入力オーディオ・データ・タイプから変換空間データ・タイプを有する変換オーディオ・データ・タイプにオーディオ・データを変換するよう、前記制御システムによって実装されるニューラルネットワークをトレーニングする段階であって、該トレーニングは、前記第1のエンコードされたオーディオ・データおよび前記第2のエンコードされたオーディオ・データに少なくとも部分的に基づく、段階とを含む、
方法。
【請求項2】
当該方法が:
第1~第Nのオーディオ信号および関連する第1~第Nの空間データを含む第1~第Nの入力オーディオ・データ・タイプの第1~第Nのオーディオ・データを受領する段階であって、Nは2よりも大きい整数である、段階と;
前記制御システムによって、前記第1~第Nの入力オーディオ・データ・タイプから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第1~第Nのオーディオ・データに前記位置エンコード・プロセスを適用して、第1~第Nのエンコードされたオーディオ・データを生成する段階と;
前記第1~第Nのエンコードされたオーディオ・データに少なくとも部分的に基づいて前記ニューラルネットワークをトレーニングする段階とを含む、
請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークは、アテンション・ベースのニューラルネットワークである、またはアテンション・ベースのニューラルネットワークを含む、請求項1または2に記載の方法。
【請求項4】
前記ニューラルネットワークは、マルチヘッド・アテンション・モジュールを含む、請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
前記ニューラルネットワークをトレーニングすることは、前記第1のオーディオ・データを潜在空間の第1の領域に変換し、前記第2のオーディオ・データを前記潜在空間の第2の領域に変換するように前記ニューラルネットワークをトレーニングすることに関わり、前記第2の領域は、少なくとも部分的に、前記第1の領域とは別個である、請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記意図された知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応する、請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
前記入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応し、前記変換オーディオ・データ・タイプは第2のオーディオ・データ・フォーマットに対応する、請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記入力空間データ・タイプは第1の数のチャネルに対応し、前記変換オーディオ・データ・タイプは第2の数のチャネルに対応する、請求項1ないし7のうちいずれか一項に記載の方法。
【請求項9】
前記第1の特徴タイプは、オーディオ・データの周波数領域表現に対応する、請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
前記制御システムによって、前記第1のオーディオ・データおよび前記第2のオーディオ・データから少なくとも第2の特徴タイプを決定する段階をさらに含み、前記位置エンコード・プロセスは、前記埋め込み次元において前記第2の特徴タイプを表現することに関わる、請求項1ないし9のうちいずれか一項に記載の方法。
【請求項11】
前記制御システムによって、前記入力オーディオ・データ・タイプのオーディオ・データを受領する段階と;
前記入力オーディオ・データ・タイプの前記オーディオ・データを前記変換オーディオ・データ・タイプに変換する段階とをさらに含む、
請求項1ないし10のうちいずれか一項に記載の方法。
【請求項12】
請求項1ないし11のうちいずれか一項に記載の方法に従ってトレーニングされたニューラルネットワーク。
【請求項13】
請求項12に記載のニューラルネットワークを実装するための命令を含むソフトウェアが記憶されている一つまたは複数の非一時的な媒体。。
【請求項14】
制御システムによって、入力空間データ・タイプを有する入力オーディオ・データ・タイプのオーディオ・データを受領する段階と;
前記制御システムによって、前記入力オーディオ・データ・タイプの前記オーディオ・データを、変換空間データ・タイプを有する変換オーディオ・データ・タイプのオーディオ・データに変換する段階とを含む、オーディオ処理方法であって、
該変換することは、オーディオ・データを前記入力オーディオ・データ・タイプから前記変換オーディオ・データ・タイプに変換するようにトレーニングされたニューラルネットワークを前記制御システムによって実装することに関わり、前記ニューラルネットワークは、位置エンコード・プロセスから帰結するエンコードされたオーディオ・データに少なくとも部分的に基づいてトレーニングされており、前記エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含み、前記第1の空間データは、再生されるオーディオ信号についての意図された知覚される空間位置を示す、
方法。
【請求項15】
前記入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応し、前記変換オーディオ・データ・タイプは第2のオーディオ・データ・フォーマットに対応する、請求項14に記載の方法。
【請求項16】
制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプの第1のオーディオ・データを受領する段階であって、前記第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第1のオーディオ・データから少なくとも第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成する段階であって、前記第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも前記第1の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
前記制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプの第2のオーディオ・データを受領する段階であって、前記第2のオーディオ・データ・タイプは、前記第1のオーディオ・データ・タイプとは異なり、前記第2の空間データは、前記一つまたは複数の第2のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第2のオーディオ・データから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第2のオーディオ・データに前記位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成する段階であって、前記第2のエンコードされたオーディオ・データは、前記埋め込み次元の第2の埋め込みベクトルにおける、少なくとも前記第2の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
入力オーディオ・データの入力オーディオ・データ・タイプを識別するために、前記制御システムによって実装されるニューラルネットワークをトレーニングする段階であって、該トレーニングは、前記第1のエンコードされたオーディオ・データおよび前記第2のエンコードされたオーディオ・データに少なくとも部分的に基づく、段階とを含む、
方法。
【請求項17】
前記入力オーディオ・データ・タイプを識別することは、前記入力オーディオ・データのコンテンツ・タイプを識別することに関わる、請求項16に記載の方法。
【請求項18】
前記入力オーディオ・データ・タイプを識別することは、前記入力オーディオ・データがポッドキャスト、映画もしくはテレビ番組のダイアログ、または音楽に対応するかどうかを判定することに関わる、請求項16または17に記載の方法。
【請求項19】
選択されたコンテンツ・タイプの新しいコンテンツを生成するよう前記ニューラルネットワークをトレーニングする段階をさらに含む、請求項16ないし18のうちいずれか一項に記載の方法。
【請求項20】
請求項1ないし19のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項21】
請求項1ないし19のうちいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項22】
ソフトウェアが記憶されている一つまたは複数の非一時的な媒体であって、前記ソフトウェアは、請求項1ないし19のうちいずれか一項に記載の方法を実行するように一つまたは複数のデバイスを制御するための命令を含む、一つまたは複数の非一時的な媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、以下の優先権出願の優先権を主張する:2021年11月9日に出願された米国仮出願第63/277,217号(整理番号D21107USP1)および2022年9月6日に出願された米国仮出願第63/374,702号(整理番号D21107USP2)。これらのすべては、その全体が参照により本明細書中に援用される。
【0002】
技術分野
本開示は、既存のオーディオ・コンテンツに基づいて新しいオーディオ・コンテンツを生成するためのデバイス、システム、および方法、ならびにオーディオ・コンテンツを分類するためのデバイス、システム、および方法に関する。
【背景技術】
【0003】
オーディオ・コンテンツを分類する既存の方法は、いくつかのコンテキストにおいて適切な結果を提供することができるが、より高度な方法が望ましい。
【0004】
記法および命名法
特許請求の範囲を含む本開示全体を通して、「スピーカー」、「ラウドスピーカー」、および「オーディオ再生トランスデューサ」という用語は、単一のスピーカー・フィードによって駆動される任意の音放出トランスデューサ(またはトランスデューサのセット)を表すために同義に使用される。典型的なヘッドフォンのセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカー・フィードまたは複数のスピーカー・フィードによって駆動されうる複数のトランスデューサ(たとえば、ウーファおよびツイーター)を含むように実装されうる。いくつかの例では、スピーカー信号は、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受けうる。
【0005】
特許請求の範囲を含む本開示全体を通して、信号またはデータ「に対して」動作を実行する(たとえば、信号またはデータをフィルタリングする、スケーリングする、変換する、または信号またはデータに利得を適用する)という表現は、信号またはデータに対して直接、あるいは信号またはデータの処理されたバージョンに対して(たとえば、当該動作の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して)動作を実行することを表すために広い意味で使用される。
【0006】
特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと呼ばれてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、サブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるもの)も、デコーダ・システムと呼ばれてもよい。
【0007】
特許請求の範囲を含む本開示全体を通して、「プロセッサ」という用語は、データ(たとえば、オーディオまたはビデオもしくは他の画像データ)に対して動作を実行するようにプログラム可能であるか、または(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能であるシステムまたはデバイスを表すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサまたはコンピュータ、およびプログラマブルマイクロプロセッサチップまたはチップセットを含む。
【0008】
特許請求の範囲を含む本開示全体を通して、「結合する」または「結合された」という用語は、直接接続または間接接続のいずれかを意味するために使用される。よって、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接接続を通して、または他のデバイスおよび接続を介した間接接続を通してであり得る。
【0009】
本明細書で使用されるところでは、「スマートデバイス」は、一般に、Bluetooth(登録商標)、Zigbee、近距離場通信、Wi-Fi、光忠実度(Li-Fi)、3G、4G、5Gなどのさまざまな無線プロトコルを介して一つまたは複数の他のデバイス(またはネットワーク)と通信するように構成され、ある程度対話式および/または自律的に動作することができる電子デバイスである。スマートデバイスのいくつかの注目すべきタイプは、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットおよびタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、ならびにスマート・オーディオ・デバイスである。「スマートデバイス」という用語は、人工知能などのユビキタスコンピューティングのいくつかの特性を示すデバイスを指すこともある。
【0010】
本明細書では、「スマート・オーディオ・デバイス」という表現を使用して、単一目的のオーディオ・デバイスまたは多目的のオーディオ・デバイス(たとえば、仮想アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイス)のいずれかであるスマートデバイスを示す。単一目的のオーディオ・デバイスは、少なくとも1つのマイクロフォンを含むか、またはそれに結合され(および、任意的に、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むか、またはそれに結合され)、主として、または主に、単一目的を達成するように設計されるデバイス(たとえば、テレビ(TV))である。たとえば、TVは、典型的には、番組素材からのオーディオを再生することができる(そしてそれを再生可能であると考えられる)が、ほとんどの場合、現代のTVは、テレビを見るアプリケーションを含むアプリケーションがローカルに実行される何らかのオペレーティングシステムを実行する。この意味で、スピーカーおよびマイクロフォンを有する単一目的のオーディオ・デバイスは、しばしば、スピーカーおよびマイクロフォンを直接使用するためにローカルアプリケーションおよび/またはサービスを実行するように構成される。いくつかの単一目的のオーディオ・デバイスは、ゾーンまたはユーザー構成されたエリアにわたってオーディオの再生を達成するために、一緒にグループ化するように構成されうる。
【0011】
1つの一般的なタイプの多目的オーディオ・デバイスは、仮想アシスタント機能の少なくともいくつかの側面を実装する、「スマート・スピーカー」のようなスマート・オーディオ・デバイスであるが、仮想アシスタント機能の他の側面は、多目的オーディオ・デバイスが通信のために構成される一つまたは複数のサーバーなどの一つまたは複数の他のデバイスによって実装されてもよい。そのような多目的オーディオ・デバイスは本願では「仮想アシスタント」と称されることがある。仮想アシスタントは、少なくとも1つのマイクロフォンを含むかまたはそれに結合された(そして任意的には、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラも含むかまたはそれに結合された)デバイス(たとえば、スマート・スピーカーまたは音声アシスタント統合デバイス)である。いくつかの例では、仮想アシスタントは、ある意味ではクラウドで有効にされるか、または他の仕方で仮想アシスタント自体の中もしくは上に完全には実装されていないアプリケーションについて、(仮想アシスタントとは異なる)複数のデバイスを利用する能力を提供してもよい。言い換えれば、仮想アシスタント機能の少なくともいくつかの側面、たとえば、発話認識機能は、仮想アシスタントがそれを用いてインターネットなどのネットワークを介して通信することができる一つまたは複数のサーバーまたは他のデバイスによって(少なくとも部分的に)実装されてもよい。諸仮想アシスタントは、時々、たとえば離散的な、条件付きで定義された仕方で、一緒に動作してもよい。たとえば、2つ以上の仮想アシスタントは、そのうちの一つ、たとえば、ウェイクワードを聞いたことに最も自信があるものがそのウェイクワードに応答するという意味で、協働することができる。接続された諸仮想アシスタントは、いくつかの実装では、一種のコンステレーションを形成することができ、これは、仮想アシスタントであってもよい(またはそれを実装してもよい)1つのメイン・アプリケーションによって管理されてもよい。
【0012】
ここで、「ウェイクワード」とは、任意の音(たとえば、人間によって発声された単語、または何らかの他の音)を意味するために広義で使用され、スマート・オーディオ・デバイスは、その音の検出(「聞く」)(スマート・オーディオ・デバイスに含まれるかまたはそれに結合される少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを使用する)に応答して、覚醒するように構成される。この文脈において、「覚醒」とは、デバイスが音声コマンドを待つ(すなわち、音声コマンドがあるかどうか傾聴する)状態に入ることを表す。いくつかの事例では、本明細書において「ウェイクワード」と称されうるものは、複数の単語、たとえば、フレーズを含んでいてもよい。
【0013】
ここで、「ウェイクワード検出器」という表現は、リアルタイムの音声(たとえば、発話)特徴とトレーニングされたモデルとの間の整列を連続的に探すよう構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードが検出された確率が所定の閾値を超えることがウェイクワード検出器によって判別されるときは常に、ウェイクワード・イベントがトリガーされる。たとえば、閾値は、誤受理率と誤拒否率との間の合理的な妥協を与えるように調整された所定の閾値であってもよい。ウェイクワード・イベントに続いて、デバイスは、コマンドがあるかどうか傾聴し、受け取ったコマンドをより大きな、より計算集約的な認識器に渡す状態(「覚醒した」状態または「注意を払っている」状態と呼ばれてもよい)にはいってもよい。
【0014】
本明細書で使用されるところでは、用語「プログラム・ストリーム」および「コンテンツ・ストリーム」は、一つまたは複数のオーディオ信号の集合体を指し、場合によっては少なくとも一部が一緒に聴取されることが意図されるビデオ信号を指す。例は、音楽、映画のサウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などのセレクションを含む。いくつかの事例では、コンテンツ・ストリームは、オーディオ信号の少なくとも一部の複数のバージョン、たとえば、複数の言語での同じダイアログを含むことがある。そのような事例において、一時には、オーディオ・データまたはその一部の1つのバージョン(たとえば、単一言語に対応するバージョン)のみが再生されることが意図されている。
【発明の概要】
【課題を解決するための手段】
【0015】
本開示の少なくともいくつかの側面は、一つまたは複数のオーディオ処理方法を介して実装されうる。いくつかの例では、方法は、少なくとも部分的に、制御システムによって、および/または一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)を介して実装されうる。いくつかのそのような方法は、制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプの第1のオーディオ・データを受領することに関わる。第1の空間データは、前記一つまたは複数の第1のオーディオ信号の意図された知覚される空間位置を示してもよい。いくつかの例では、方法は、制御システムによって、第1のオーディオ・データから少なくとも第1の特徴タイプを決定することに関わっていてもよい。方法は、制御システムによって、第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成することに関わっていてもよい。いくつかの例では、第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける、少なくとも第1の空間データおよび第1の特徴タイプの表現を含みうる。
【0016】
いくつかの例では、方法は、制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプの第2のオーディオ・データを受領することに関わっていてもよい。いくつかの例によれば、第2のオーディオ・データ・タイプは第1のオーディオ・データ・タイプとは異なっていてもよい。いくつかの例では、第2の空間データは、一つまたは複数の第2のオーディオ信号のための意図された知覚される空間位置を示しうる。いくつかの例では、方法は、制御システムによって、第2のオーディオ・データから少なくとも第1の特徴タイプを決定することに関わっていてもよい。
【0017】
いくつかの例によれば、方法は、制御システムによって、第2のオーディオ・データに位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成することに関わっていてもよい。いくつかの例では、第2のエンコードされたオーディオ・データは、埋め込み次元の第2の埋め込みベクトルにおける、少なくとも前記第2の空間データおよび第1の特徴タイプの表現を含みうる。
【0018】
いくつかの例では、方法は、入力空間データ・タイプを有する入力オーディオ・データ・タイプから変換空間データ・タイプを有する変換オーディオ・データ・タイプにオーディオ・データを変換するために、制御システムによって実装されるニューラルネットワークをトレーニングすることに関わっていてもよい。いくつかの例では、トレーニングは、第1のエンコードされたオーディオ・データおよび第2のエンコードされたオーディオ・データに少なくとも部分的に基づいていてもよい。
【0019】
いくつかの例によれば、方法は、第1~第Nのオーディオ信号および関連する第1~第Nの空間データを含む第1~第Nの入力オーディオ・データ・タイプの第1~第Nのオーディオ・データを受領することに関わっていてもよく、Nは2よりも大きい整数である。いくつかのそのような例では、方法は、制御システムによって、第1~第Nの入力オーディオ・データ・タイプから少なくとも前記第1の特徴タイプを決定し、制御システムによって、第1~第Nのオーディオ・データに位置エンコード・プロセスを適用して、第1~第Nのエンコードされたオーディオ・データを生成し、第1~第Nのエンコードされたオーディオ・データに少なくとも部分的に基づいてニューラルネットワークをトレーニングすることに関わっていてもよい。
【0020】
いくつかの例では、ニューラルネットワークは、アテンション・ベースのニューラルネットワークであってもよく、またはそれを含んでいてもよい。いくつかの例では、ニューラルネットワークは、マルチヘッド・アテンション・モジュールを含みうる。
【0021】
いくつかの例によれば、ニューラルネットワークをトレーニングすることは、第1のオーディオ・データを潜在空間の第1の領域に変換し、第2のオーディオ・データを潜在空間の第2の領域に変換するようにニューラルネットワークをトレーニングすることに関わっていてもよい。いくつかの例では、第2の領域は、少なくとも部分的に、第1の領域から分離されていてもよい。
【0022】
いくつかの例では、意図される知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応する。
【0023】
いくつかの例によれば、入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応してもよく、変換されたオーディオ・データ・タイプは第2のオーディオ・データ・フォーマットに対応してもよい。いくつかの例では、入力空間データ・タイプは第1の数のチャネルに対応してもよく、変換されたオーディオ・データ・タイプは第2の数のチャネルに対応してもよい。いくつかの例では、第1の特徴タイプは、オーディオ・データの周波数領域表現に対応しうる。
【0024】
いくつかの例では、方法は、制御システムによって、第1のオーディオ・データおよび第2のオーディオ・データから少なくとも第2の特徴タイプを決定することに関わっていてもよい。いくつかのそのような例では、位置エンコード・プロセスは、埋め込み次元において第2の特徴タイプを表すことに関わっていてもよい。
【0025】
いくつかの例によれば、方法は、制御システムによって、入力オーディオ・データ・タイプのオーディオ・データを受領することに関わっていてもよい。いくつかのそのような例では、方法は、入力オーディオ・データ・タイプのオーディオ・データを変換されたオーディオ・データ・タイプに変換することに関わっていてもよい。
【0026】
いくつかの代替的な方法は、制御システムによって、入力空間データ・タイプを有する入力オーディオ・データ・タイプのオーディオ・データを受領し、制御システムによって、入力オーディオ・データ・タイプのオーディオ・データを、変換された空間データ・タイプを有する変換されたオーディオ・データ・タイプのオーディオ・データに変換することに関わっていてもよい。いくつかの例によれば、変換することは、制御システムによって、オーディオ・データを入力オーディオ・データ・タイプから変換されたオーディオ・データ・タイプに変換するようにトレーニングされたニューラルネットワークを実装することに関わっていてもよい。いくつかのそのような例では、ニューラルネットワークは、位置エンコード・プロセスから帰結するエンコードされたオーディオ・データに少なくとも部分的に基づいてトレーニングされていてもよい。エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含みうる。第1の空間データは、再生されたオーディオ信号についての意図された知覚される空間位置を示してもよい。いくつかの例によれば、入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応してもよく、変換されたオーディオ・データ・タイプは第2のオーディオ・データ・フォーマットに対応してもよい。
【0027】
いくつかの代替的な方法は、制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプの第1のオーディオ・データを受領することに関わっていてもよい。第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示してもよい。いくつかの例では、方法は、制御システムによって、第1のオーディオ・データから少なくとも第1の特徴タイプを決定することに関わっていてもよい。いくつかの例によれば、方法は、制御システムによって、第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成することに関わっていてもよい。いくつかの例では、第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含みうる。
【0028】
いくつかの例によれば、方法は、制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプの第2のオーディオ・データを受領することに関わっていてもよい。第2のオーディオ・データ・タイプは、いくつかの例では、第1のオーディオ・データ・タイプとは異なっていてもよい。いくつかの例では、第2の空間データは、前記一つまたは複数の第2のオーディオ信号についての意図された知覚される空間位置を示しうる。
【0029】
いくつかの例では、方法は、制御システムによって、第2のオーディオ・データから少なくとも前記第1の特徴タイプを決定することに関わっていてもよい。いくつかの例によれば、方法は、制御システムによって、第2のオーディオ・データに位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成することに関わっていてもよい。いくつかの例では、第2のエンコードされたオーディオ・データは、埋め込み次元の第2の埋め込みベクトルにおける、少なくとも第2の空間データおよび第1の特徴タイプの表現を含みうる。いくつかの例では、方法は、入力オーディオ・データの入力オーディオ・データ・タイプを識別するために、制御システムによって実装されるニューラルネットワークをトレーニングすることに関わっていてもよい。いくつかの例によれば、トレーニングは、第1のエンコードされたオーディオ・データおよび第2のエンコードされたオーディオ・データに少なくとも部分的に基づいていてもよい。
【0030】
いくつかの例では、入力オーディオ・データ・タイプを識別することは、入力オーディオ・データのコンテンツ・タイプを識別することに関わっていてもよい。いくつかの例によれば、入力オーディオ・データ・タイプを識別することは、入力オーディオ・データがポッドキャスト、映画もしくはテレビ番組のダイアログ、または音楽に対応しうるかどうかを判定することに関わっていてもよい。いくつかの例では、方法は、選択されたコンテンツ・タイプの新しいコンテンツを生成するためにニューラルネットワークをトレーニングすることに関わっていてもよい。
【0031】
本明細書に記載された動作、機能、および/または方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限定されない、本明細書で記載されるものなどのメモリデバイスを含みうる。よって、本開示で説明する主題のいくつかの革新的側面は、ソフトウェアが記憶されている一つまたは複数の非一時的媒体を介して実装されうる。
【0032】
本開示の少なくともいくつかの側面は、装置を介して実装されうる。たとえば、一つまたは複数のデバイス(たとえば、一つまたは複数のデバイスを含むシステム)は、本明細書で開示される方法を少なくとも部分的に実行することが可能でありうる。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを有するオーディオ処理システムであるか、またはそれを含む。制御システムは、一つまたは複数の汎用シングルチップまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理、離散的ハードウェアコンポーネント、またはそれらの組み合わせを含みうる。制御システムは、本明細書に開示される方法の一部または全部を実装するために構成されてもよい。
【0033】
本明細書に記載された主題の一つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、本稿、図面、および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0034】
さまざまな図面における同様の参照番号および記号は、同様の要素を示す。
【
図1】いくつかの開示された実装による、ニューラルネットワークをトレーニングすることに関与しうるブロックの例を示す。
【
図2A】いくつかの例による、ニューラルネットワークをトレーニングすることに関与しうるブロックの例を示す。
【
図2B】本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。
【
図3A】一例による位置エンコード行列の表現を示す。
【
図3B】単位円上にラウドスピーカー位置をマッピングする例を示す。
【
図4】別の例による位置エンコード行列の表現を示す。
【
図5】一例による、新しいオーディオ・コンテンツを生成するためのブロックを示す。
【
図6】開示される方法の例を概説するフロー図である。
【
図7】別の開示される方法の例を概説するフロー図である。
【
図8】追加の開示される方法の例を概説するフロー図である。
【発明を実施するための形態】
【0035】
オーディオ・コンテンツが作成された仕方について一般化することができ、同じクラスのオーディオ・コンテンツ間では、慣例に従うのが一般的である。たとえば、映画またはテレビ番組に対応するドルビー5.1および7.1チャネル・オーディオ・コンテンツでは、メイン・ダイアログ発話は、一般に、前方中央スピーカーに位置付けられ、瞬間的な特殊効果は、一般に、後方に位置付けられる。同様に、音楽に対応するドルビー5.1および7.1チャネル・オーディオ・コンテンツでは、リード歌手に対応するオーディオは、概して、前方中央スピーカーに位置付けられる。
【0036】
マルチチャネル・オーディオ・コンテンツのコンテキストにおいては、信号の複雑な関係をモデル化し、理解する必要がある。本明細書で使用されるところでは、「マルチチャネル・オーディオ・コンテンツ」という用語は、たとえば、シングル・チャネル・ダイアログおよびポッドキャスト、ステレオ音楽および映画コンテンツ、マルチチャネル映画サウンドトラックおよびダイアログ、ならびにマルチチャネル音楽コンテンツなどの、複数のチャネルをもつ任意のオーディオを指すことができる。ドルビー・アトモス(商標)のようなオブジェクト・ベースのオーディオ・フォーマットは文字通りチャネル・ベースではないが、本稿で使われるところの用語「マルチチャネル・オーディオ・コンテンツ」はそのようなオーディオ・フォーマットにも適用されることが意図されている。
【0037】
本開示は、オーディオ・コンテンツにおけるチャネル間の複雑な多次元関係をモデル化するための方法、デバイスおよびシステムを記述する。いくつかの開示される例は、強化学習の後に生じ、オーディオ・コンテンツの本体の中の主分散を記述する、オーディオ・コンテンツの本体に対応する潜在空間変数を識別することに関わる。
【0038】
いくつかの開示される例では、ニューラルネットワークの能力が、そのような潜在空間変数を識別するために活用される。いくつかの開示される例は、これらの潜在変数の性質に基づいてオーディオ・コンテンツ・タイプを識別するよう構成される。代替的または追加的に、いくつかの開示される例は、これらの潜在変数の性質に基づいて新しいオーディオ・コンテンツの任意の生成のために構成される。新しいオーディオ・コンテンツは、たとえば、映画ダイアログ、ポッドキャスト、音楽などの所望のオーディオ・コンテンツ・クラスを表しうる。いくつかのそのような例は、入力空間データ・タイプを有することからのオーディオ・データを、変換された空間データ・タイプを有するオーディオ・データに変換するために適用されうる変換関数を識別することに関わっていてもよい。いくつかのそのような例によれば、入力空間データ・タイプは、変換された空間データ・タイプよりも少ない数のチャネルを含みうる。いくつかの例は、ニューラルネットワークをトレーニングするための位置エンコードの新規の方法を開示する。
【0039】
図1は、いくつかの開示された実装による、ニューラルネットワークをトレーニングすることに関与しうるブロックの例を示す。本願で提供される他の図と同様に、
図1に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/または配置の要素を含んでいてもよい。この例では、
図1のブロックは、制御システム160によって実装され、その例は、
図2Bを参照して詳細に説明される。
【0040】
【0041】
101:ニューラルネットワークをトレーニングするためのオーディオ・データを含むトレーニング・コンテンツ・データベース。いくつかの例では、トレーニング・コンテンツ・データベースは、オーディオ・コンテンツの複数のクラスを含みうる。たとえば、オーディオ・データの1つのクラスは映画ダイアログに対応してもよく、オーディオ・データの別のクラスはポッドキャストに対応してもよく、オーディオ・データの別のクラスは音楽に対応してもよい、等である。いくつかの例では、トレーニング・コンテンツ・データベース101は、オーディオ・コンテンツの一つまたは複数のクラスについての複数のオーディオ・フォーマットでのオーディオ・データを含みうる。オーディオ・フォーマットは、いくつかの例では、Dolby 5.1フォーマット、ドルビー6.1フォーマット、ドルビー7.1フォーマット、ドルビー9.1フォーマット、ドルビーAtmos(商標)フォーマットなどの標準オーディオ・フォーマットを含みうる。本明細書で使用されるところでは、X.1フォーマットと呼ばれるオーディオ・フォーマットは、一般的に、X.1、X.2などを指す。たとえば、ドルビー9.1フォーマットへの言及は、特に断りのない限り、ドルビー9.2フォーマットにも適用される。
図1に示される例によれば、トレーニング・コンテンツ・データベース101内のオーディオ・データは、オーディオ信号および対応する空間データを含むか、または表す。空間データは、オーディオ信号についての意図された知覚される空間位置を示す。意図された知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルまたはオブジェクト・ベースのオーディオ・フォーマットの位置メタデータに対応していてもよい。
【0042】
102A:時間領域から周波数領域への変換後のトレーニング・コンテンツ・データベース101からのオーディオ・データのデジタル・サンプル。
【0043】
102B:デジタル・サンプル102Aに対応する、映画ダイアログ、ポッドキャスト、音楽等のようなオーディオ・コンテンツのクラスを識別するラベル。
【0044】
103:オーディオ・データ102Aのデジタル・サンプルから特徴を抽出し、入力特徴データ123を生成するように構成された入力変換ブロック。ここで、入力特徴データ123は、短い(時間的に)コンテキスト窓を表す一つまたは複数の(およびいくつかの例では多数の)タイプのオーディオ特徴を含む。時間的に短いコンテキスト窓は、たとえば、100msの時間区間、200msの時間区間、300msの時間区間、400msの時間区間、500msの時間区間、600msの時間区間、700msの時間区間、800msの時間区間等のような、1秒未満の時間区間でありうる。いくつかの例では、入力特徴データ123は、X(T,C,B)として表されてもよく、ここで、Tは時間フレームを表し、Cはコンテンツ・チャネルを表し、Bは離散的なフーリエ・ビンを表す。
【0045】
104:位置エンコード情報124を出力するように構成された位置エンコード信号生成器ブロック。位置エンコード情報124は、いくつかの例では、位置エンコード行列に対応しうる。
【0046】
105:エンコーダ・ネットワーク入力データ129をエンコードされたオーディオ・データ113に変換するように構成されたエンコーダ・ニューラルネットワーク。エンコードされたオーディオ・データ113は、多次元潜在空間の潜在空間ベクトルでありうるか、またはそれを含みうる。よって、いくつかの事例では、エンコードされたオーディオ・データ113は潜在空間ベクトル113と呼ばれることがある。多次元潜在空間は、本明細書ではエンコード空間またはエンコード次元と呼ばれることもある。いくつかの例では、エンコーダ・ニューラルネットワーク105は、マルチヘッド・アテンション・ニューラルネットワークでありうるか、またはそれを含みうる。
【0047】
107:トレーニング・コンテンツ・データベース101内のすべてのオーディオ・コンテンツについての潜在空間ベクトル113の統計モデル。
【0048】
108:エンコードされたオーディオ・データ113をデコードするように構成されたデコーダ・ニューラルネットワーク。この例では、エンコードされたオーディオ・データ113をデコードすることは、潜在空間ベクトル113を潜在空間座標から「現実世界」の特徴データ109に変換することに関わる。この例では、出力特徴データ109は、入力特徴データ123と同じタイプの特徴を含む。
【0049】
109:デコーダ・ニューラルネットワーク108によって出力され、損失関数ブロック121に提供される特徴データ。この例では、損失関数データ142は、入力特徴データ123と出力特徴データ109との比較に少なくとも部分的に基づく。
【0050】
110:2次元における潜在空間変数の統計モデル107の表現を示すグラフ。この例では、グラフ110は、高次元潜在空間の二次元表現である。
【0051】
111:一例によるオーディオ・コンテンツ・クラスAの二次元表現。
【0052】
112:一例によるオーディオ・コンテンツ・クラスBの二次元表現。
【0053】
113A:
図1ではYとしても表される潜在空間変数の例。
【0054】
113B:グラフ110の2次元空間における潜在空間変数113Aの位置。
【0055】
114A:統計モデル107のコンテンツ・クラスAの表現内からのサンプリングされた点。
【0056】
115:コンテンツ・データ・ベース101内のオーディオ・データを時間領域から周波数領域に変換するように構成されたフーリエ変換ブロック。いくつかの例では、フーリエ変換ブロック115は、入力データの絶対値のみを提供するために絶対演算も適用する。しかしながら、いくつかの代替例では、フーリエ変換ブロック115は、複素フーリエ情報を提供してもよい。
【0057】
120:特徴123をより高次元の空間特徴125のエンコード次元Dにマッピングするように構成された入力次元変換ブロック。エンコード次元Dは、本明細書では隠れ次元Dとも呼ばれることがある。この例では、より高次元の空間特徴125の次元の数(言い換えれば、Dの次元の数)は、位置エンコード信号生成器ブロック104によって出力される位置エンコード情報124の次元の数と一致すべきである。
【0058】
121:入力次元変換ブロック、位置エンコード信号生成器ブロック104、エンコーダ・ネットワーク105、および/またはデコーダ・ネットワーク108をトレーニングするためのフィードバックとして使用されうる損失関数データ142を出力するように構成された損失関数ブロック。損失関数データ142は、たとえば、予測および目標入力、ならびに重み更新を含むことができる。
【0059】
123:入力変換ブロック103によって出力される特徴。
【0060】
124:位置エンコード信号生成ブロック104によって出力される位置エンコード情報124。
【0061】
125:次元変換ブロック120によって出力される高次元空間特徴。
【0062】
127:エンコーダ・ネットワーク入力データ129を生成するために、高次元空間特徴125を位置エンコーディング情報124と組み合わせるように構成された加算ブロック。
【0063】
129:加算ブロック127によって生成され、エンコーダ・ネットワーク105に提供されるエンコーダ・ネットワーク入力データ。
【0064】
トレーニング・コンテンツ・データベース101に格納されたトレーニング・データは、広範囲のコンテンツを含むべきであり、理想は「存在するすべてのデジタル化コンテンツ」であるが、実際的なものは、アクセス可能なもの、ライセンスの法的要件に準拠するもの、およびニューラルネットワーク・モデルに供給され、合理的な時間の長さでトレーニングされうるものである。トレーニング・データのオーディオ・チャネルの数は多様であるべきであり、適切な場合、一連のサラウンドサウンド・チャネル・フォーマットにわたるデータ内の分散を最も良く例示するために、より高いチャネル・サラウンドサウンド・フォーマットのデータも、より低いチャネル・フォーマットでダウンミックスされて提示されるべきである。いくつかの例では、データは案内された仕方で生成されうる。該仕方では、たとえば、コンテンツが例示しうる典型的な分散の経験的推定が行使され、それは、空間内の任意の位置を占有することができるオブジェクトとしてオーディオ・チャネルが表される、ドルビーAtmos(商標)などのサラウンドサウンド・フォーマット・ドメイン内の複数のコンテンツ片を合成することによる。
【0065】
いくつかの例では、データにノイズが追加されてもよい。これは、トレーニング中にネットワークからの入力データの一部を難読化し、最適化を乱して、所望のタスクを最もよく満たすことができる解を見つけるためである。同様に、いくつかの例では、データは、時に省略されてもよい。省略は、特に、(a)チャネル次元において(この場合、選択されたチャネル上でデータが完全に省略されうる)、または(b)時間的に、小さい時間セグメントにおいてである。後者は、ネットワークがデータを最も良くモデル化することを促進しうる。
【0066】
ニューラルネットワークは、オフライントレーニング(たとえば、エンドユーザーによる配備前)、オンライントレーニング(たとえば、エンドユーザーによる配備中)、またはオフライントレーニングとオンライントレーニングの両方の組み合わせによってトレーニングされうる。
【0067】
損失関数ブロック121は、ニューラルネットワークをトレーニングするために使用される一つまたは複数のコスト関数を実装しうる。いくつかの例では、コスト関数は、システム設計者などの人によって選択されてもよい。コスト関数は、いくつかの例では、エンコーダ‐デコーダ・ネットワークをして、教師なしニューラルネットワーク最適化セッティングにおいて入力および出力トレーニング・データのためのグローバルに最適なフィットを最も良く見出さしめるように試みるような仕方で選択されうる。「グローバルに最適」の定義は、用途に依存し、たとえば、システム設計者によって選択されてもよい。いくつかの例では、コスト関数(複数可)は、以下のうちの一つまたは複数について最適化するように選択されうる。
・分類およびクラスタリング・タスクにおいて前記ベクトルを最も良く使用するために、用途固有のクラス埋め込み/潜在空間ベクトルの分布間の最大距離を生成する。
・潜在空間ベクトルが分布関数からサンプリングされて、サンプリングされている潜在空間の分布に関するある種の特性を満たす新規のオーディオ・データを生成するタスクにおいて、ノイズまたは不連続性を最小化する。
・既存のデータから、ネットワークが補間または生成することを課されているオーディオ・チャネルにおいて、意味のある、主観的に望ましい新規コンテンツを生成する。
・潜在空間における線形変換によって、識別されたデータを1つのコンテンツ・クラスから別のコンテンツ・クラスに変換するために、データ、たとえばコンテンツのフォーマット間で適切に補間することができる、潜在空間における基礎となる関数のグローバルに最適なフィットを提供する。
・上記の任意の組み合わせ。
【0068】
いくつかの例によれば、損失関数ブロック121は、ベクトルの絶対値の和として計算されるL1ノルム、ベクトル値の2乗の和の平方根として計算されるL2ノルム、またはそれらの組み合わせに少なくとも部分的に基づく一つまたは複数のコスト関数を実装しうる。L1およびL2損失関数は、たとえば、デコーダ出力をエンコーダ入力オーディオと最もよく一致させる解に収束するためにトレーニングにおいてモデルを摂動させるために使用されうる。初歩的な損失関数の使用は、教師なしトレーニング手順をサポートするためである。いくつかのそのような例によれば、前述の加法的ノイズ、ならびにチャネルと時間の両方におけるマスキングのため、より複雑な損失関数の必要がないことがある。
【0069】
一つまたは複数の損失関数を使用することに加えて、いくつかの例では、ニューラルネットワーク・トレーニング手順は、たとえば、量子化、ガウス・フィッティングおよびサンプリング、またはさもなくば潜在ベクトルの補間および修正によって、潜在空間において摂動されて、オーディオ・データ生成またはオーディオ・データ分類のタスクに最も適した潜在空間を生成しうる。
【0070】
図2Aは、いくつかの例による、ニューラルネットワークをトレーニングすることに関与しうるブロックの例を示す。本明細書で提供される他の図と同様に、
図2Aに示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含んでいてもよい。この例では、
図2Aのブロックは、制御システム160によって実装され、該制御システムの例は、
図2Bを参照して詳細に説明される。
【0071】
図2Aは、
図1のエンコーダ・ニューラルネットワーク105がN個のヘッドを有するマルチヘッド・アテンション・ニューラルネットワークである例を示す。この例によれば、
図1を参照してまだ説明されていない
図2Aの要素は、以下の通りである。
【0072】
201:入力特徴103がサンプリングされる現実世界の離散的な単位を記述する入力次元座標。
【0073】
202:クエリー(Q)変換ブロック。これは、第1ないし第Nの異なる線形変換(これらは学習された線形変換であってもよい)を、加算ブロック127によって生成されたエンコーダ・ネットワーク入力データ129に適用して、マルチヘッド・アテンション・プロセスのN個のヘッドに対応するクエリー212aないし212nを生成するように構成される。
【0074】
203:鍵(K)変換ブロック。これは、第1ないし第Nの異なる線形変換(これらは学習された線形変換であってもよい)をエンコーダ・ネットワーク入力データ129に適用して、鍵213aないし213nを生成するように構成される。
【0075】
204:値(V)変換ブロック。これは、第1ないし第Nの異なる線形変換(これらは学習された線形変換であってもよい)をエンコーダ・ネットワーク入力データ129に適用して、値214aないし214nを生成するように構成される。
【0076】
205a~205n:マルチヘッド・アテンション・プロセスのN個のヘッドのそれぞれに1つが対応するスケーリングされたドット積モジュール。各モジュールは、マルチヘッド・アテンション・プロセスを実装するように構成されており、該プロセスでは、クエリー212aないし212n、鍵213aないし213n、および値214aないし214nに対してアテンション関数が並列に実行されて、出力値222a~222nを生成する。関連するスケーリングされたドット積アテンション・プロセスおよびマルチヘッド・アテンション・プロセスは、非特許文献1に記載されており、同文献は、参照により本明細書に組み込まれる。
【非特許文献1】A. Vaswani et al、“Attention Is All You Need”、31st Conference on Neural Information Processing Systems (NIPS 2017)、特にSection 3, p.2-6
【0077】
206:並列ネットワークとして示された複数(N個)の変換器ヘッド。
【0078】
207:各ヘッドのスケーリングされたドット積の出力値222a~222nを組み合わせるように構成された連結ブロック。
【0079】
208:ヘッドそれぞれの出力を投影し、組み合わせて、エンコードされたオーディオ・データ113を生成するように構成された最終線形変換ブロック。該オーディオ・データ113は、本明細書では潜在空間ベクトル113と呼ばれることもある。
【0080】
図2Bは、本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、
図2Bに示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含んでいてもよい。いくつかの例によれば、装置250は、本明細書で開示する方法のうちの少なくともいくつかを実行するように構成されうる。いくつかの実装では、装置250は、オーディオシステムの一つまたは複数の構成要素であってよく、またはそれを含んでよい。たとえば、装置250は、いくつかの実装では、スマート・オーディオ・デバイスなどのオーディオ・デバイスでありうる。他の例では、装置250は、モバイルデバイス(携帯電話など)、ラップトップコンピュータ、タブレットデバイス、テレビ、または別のタイプのデバイスであってもよい。
【0081】
いくつかの代替実装によれば、装置250は、サーバーであってもよく、またはサーバーを含んでいてもよい。いくつかのそのような例では、装置250は、エンコーダであってもよく、またはエンコーダを含んでいてもよい。よって、いくつかの事例では、装置250は、ホームオーディオ環境などのオーディオ環境内で使用するために構成されたデバイスであってもよく、他の事例では、装置250は、「クラウド」、たとえばサーバーにおいて使用するために構成されたデバイスであってもよい。
【0082】
この例では、装置250は、インターフェース・システム255および制御システム160を含む。インターフェース・システム255は、いくつかの実装では、オーディオ環境の一つまたは複数の他のデバイスと通信するように構成されうる。オーディオ環境は、いくつかの例では、ホームオーディオ環境であってもよい。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、通りまたは歩道環境、公園環境などの別のタイプの環境でありうる。インターフェース・システム255は、いくつかの実装では、オーディオ環境のオーディオ・デバイスと制御情報および関連するデータを交換するように構成されうる。制御情報および関連するデータは、いくつかの例では、装置250が実行している一つまたは複数のソフトウェアアプリケーションに関係しうる。
【0083】
インターフェース・システム255は、いくつかの実装では、コンテンツ・ストリームを受領するか、または提供するように構成されうる。コンテンツ・ストリームは、オーディオ・データを含みうる。オーディオ・データは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの事例では、オーディオ・データは、チャネル・データおよび/または空間的メタデータのような空間的データを含んでいてもよい。メタデータは、たとえば、本明細書で「エンコーダ」と呼ばれうるものによって提供されていることがある。いくつかの例では、コンテンツ・ストリームは、ビデオ・データと、ビデオ・データに対応するオーディオ・データとを含みうる。
【0084】
インターフェース・システム255は、一つまたは複数のネットワークインターフェースおよび/または一つまたは複数の外部デバイスインターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェースなど)を含みうる。いくつかの実装によれば、インターフェース・システム255は、一つまたは複数のワイヤレスインターフェースを含みうる。インターフェース・システム255は、一つまたは複数のマイクロフォン、一つまたは複数のスピーカー、ディスプレイシステム、タッチセンサーシステムおよび/またはジェスチャーセンサーシステムなど、ユーザーインターフェースを実装するための一つまたは複数のデバイスを含みうる。よって、いくつかのそのようなデバイスが
図2Bでは別個に表されているが、そのようなデバイスは、いくつかの例では、インターフェース・システム255の側面に対応しうる。
【0085】
いくつかの例では、インターフェース・システム255は、制御システム160と、
図2Bに示される任意的なメモリシステム265などのメモリシステムとの間の一つまたは複数のインターフェースを含みうる。しかしながら、制御システム160は、いくつかの事例ではメモリシステムを含んでいてもよい。インターフェース・システム255は、いくつかの実装では、環境内の一つまたは複数のマイクロフォンから入力を受領するように構成されうる。
【0086】
制御システム160は、たとえば、汎用のシングルチッププロセッサまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、リアン的ゲートまたはトランジスタ論理、および/または離散的ハードウェアコンポーネントを含むことができる。
【0087】
いくつかの実装では、制御システム160は、2つ以上のデバイス内に存在してもよい。たとえば、いくつかの実装では、制御システム160の一部は、本明細書に示される環境のうちの1つの中のデバイスに存在してもよく、制御システム160の別の部分は、サーバー、モバイルデバイス(たとえば、スマートフォンまたはタブレットコンピュータ)などの、環境の外部にあるデバイスに存在してもよい。他の例では、制御システム160の一部は、本明細書に示される環境のうちの1つの中のデバイス内に存在してもよく、制御システム160の別の部分は、環境の一つまたは複数の他のデバイス内に存在してもよい。たとえば、制御システム機能は、環境の複数のスマート・オーディオ・デバイスにまたがって分散されてもよく、または統率デバイス(本明細書でスマートホームハブと呼ばれることがあるものなど)および環境の一つまたは複数の他のデバイスによって共有されてもよい。他の例では、制御システム160の一部は、サーバーなどのクラウド・ベースのサービスを実装しているデバイス内に存在してもよく、制御システム160の別の部分は、別のサーバー、メモリデバイスなどのクラウド・ベースのサービスを実装している別のデバイス内に存在してもよい。インターフェース・システム255はまた、いくつかの例では、2つ以上のデバイス内に存在しうる。
【0088】
いくつかの実装では、制御システム160は、本明細書に開示された方法を少なくとも部分的に実行するように構成されてもよい。いくつかの例によれば、制御システム160は、オーディオ信号と、該オーディオ信号のための意図された知覚される空間位置を示す関連する空間データとを含む、少なくとも第1のオーディオ・データ・タイプおよび第2のオーディオ・データ・タイプのオーディオ・データを受領するように構成されうる。いくつかのそのような例では、制御システム160は、オーディオ・データから少なくとも第1の特徴タイプを決定し、該オーディオ・データに位置エンコード・プロセスを適用して、エンコードされたオーディオ・データを生成するように構成されうる。エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも空間データおよび第1の特徴タイプの表現を含みうる。空間データは、いくつかの例では、「第1の特徴タイプ」に加えて、別のタイプの特徴と見なされうる。
【0089】
いくつかの例によれば、制御システム160は、トレーニングされたまたはトレーニングされていないニューラルネットワークを実装するように構成されうる。いくつかのそのような例では、ニューラルネットワークは、アテンション・ベースのニューラルネットワークであってもよく、またはそれを含んでいてもよい。
【0090】
いくつかの開示される方法は、入力空間データ・タイプを有する入力オーディオ・データ・タイプから変換空間データ・タイプを有する変換オーディオ・データ・タイプにオーディオ・データを変換するために、エンコードされたオーディオ・データに少なくとも部分的に基づいて、制御システム160によって実装されるニューラルネットワークをトレーニングすることに関わっていてもよい。たとえば、制御システム160によって実装されるトレーニングされたニューラルネットワークは、映画サウンドトラックのドルビー7.1フォーマットの既存のバージョンがない場合であっても、映画サウンドトラックをドルビー5.1フォーマットからドルビー7.1フォーマットに変換するように構成されうる。いくつかのそのような例では、当該映画サウンドトラックの、ドルビー5.1バージョンよりも高いチャネル・バージョンはなかったことがありうる。
【0091】
いくつかの開示された方法は、入力オーディオ・データ・タイプを識別するために、制御システム160によって実装されるニューラルネットワークをトレーニングすることに関わっていてもよい。たとえば、制御システム160によって実装されるトレーニングされたニューラルネットワークは、入力オーディオ・データが音楽、ポッドキャスト、映画サウンドトラック、テレビ番組サウンドトラックなどに対応するかどうかを判定するように構成されてもよい。
【0092】
本明細書に記載された方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイス等を含むがこれらに限定されない、本明細書に記載されるもの等のメモリデバイスを含みうる。一つまたは複数の非一時的媒体は、たとえば、
図2Bに示される任意的なメモリシステム265および/または制御システム160に存在しうる。よって、本開示で説明する主題のさまざまな革新的側面は、ソフトウェアが記憶されている一つまたは複数の非一時的媒体において実装されうる。ソフトウェアは、たとえば、本明細書に開示される方法の一部または全部を実行するように少なくとも1つのデバイスを制御するための命令を含みうる。ソフトウェアは、たとえば、
図2Bの制御システム160などの制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0093】
いくつかの実装では、装置250は、
図2Bに示されている任意的なセンサーシステム270を含みうる。任意的なセンサーシステム270は、一つまたは複数のタッチセンサー、ジェスチャーセンサー、動き検出器などを含むことができる。いくつかの実装によれば、任意的なセンサーシステム270は、一つまたは複数のカメラを含むことができる。いくつかの実装では、カメラは、自立型カメラでありうる。いくつかの例では、任意的なセンサーシステム270の一つまたは複数のカメラは、スマート・オーディオ・デバイス内に存在してもよく、スマート・オーディオ・デバイスは、単一目的オーディオ・デバイスまたは仮想アシスタントであってもよい。いくつかのそのような例では、任意的なセンサーシステム270の一つまたは複数のカメラは、テレビ、携帯電話またはスマート・スピーカー内に存在しうる。いくつかの例では、装置250は、センサーシステム270を含まなくてもよい。しかしながら、いくつかのそのような実装では、装置250は、それでもなお、インターフェース・システム160を介してオーディオ環境における一つまたは複数のセンサーについてのセンサー・データを受領するよう構成されていてもよい。
【0094】
いくつかの例では、任意的なセンサーシステム270は、任意的なマイクロフォンシステムを含む。任意的なマイクロフォンシステムは、一つまたは複数のマイクロフォンを含んでいてもよい。いくつかの例によれば、任意的なマイクロフォンシステムは、マイクロフォンのアレイを含みうる。いくつかの例では、マイクロフォンのアレイは、たとえば、制御システム160からの命令に従って、到来方向(DOA)および/または到来時間(TOA)情報を決定するように構成されうる。マイクロフォンのアレイは、いくつかの事例では、たとえば、制御システム160からの命令に従って、受領側ビームフォーミングのために構成されうる。いくつかの実装では、マイクロフォンのうちの一つまたは複数は、ラウドスピーカーシステム275のラウドスピーカー、スマート・オーディオ・デバイスなどの別のデバイスの一部であるか、またはそれに関連付けられうる。
【0095】
いくつかの例では、装置250はマイクロフォンシステムを含まなくてもよい。しかしながら、いくつかのそのような実装では、装置250は、それでもなお、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のマイクロフォンについてのマイクロフォンデータを受領するように構成されうる。いくつかのそのような実装では、装置250のクラウド・ベースの実装が、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のマイクロフォンから、マイクロフォンデータ、または該マイクロフォンデータに対応するデータを受領するように構成されうる。
【0096】
いくつかの実装によれば、装置250は、
図2Bに示されている任意的なラウドスピーカーシステム275を含みうる。任意的なラウドスピーカーシステム275は、本明細書では「スピーカー」、またはより一般的には「オーディオ再生トランスデューサ」とも呼ばれうる一つまたは複数のラウドスピーカーを含みうる。いくつかの例(たとえば、クラウド・ベースの実装)では、装置250は、ラウドスピーカーシステム275を含まなくてもよい。
【0097】
いくつかの実装では、装置250は、
図2Bに示されている任意的なディスプレイシステム280を含みうる。任意的なディスプレイシステム280は、一つまたは複数の発光ダイオード(LED)ディスプレイなどの一つまたは複数のディスプレイを含むことができる。いくつかの例では、任意的なディスプレイシステム280は、一つまたは複数の有機発光ダイオード(OLED)ディスプレイを含みうる。いくつかの例では、任意的なディスプレイシステム280は、スマート・オーディオ・デバイスの一つまたは複数のディスプレイを含みうる。他の例では、任意的なディスプレイシステム280は、テレビディスプレイ、ラップトップディスプレイ、モバイルデバイスディスプレイ、または別のタイプのディスプレイを含みうる。装置250がディスプレイシステム280を含むいくつかの例では、センサーシステム280は、ディスプレイシステム280の一つまたは複数のディスプレイに近接したタッチセンサーシステムおよび/またはジェスチャーセンサーシステムを含みうる。いくつかのそのような実装によれば、制御システム160は、一つまたは複数のグラフィカルユーザーインターフェース(GUI)を提示するようにディスプレイシステム280を制御するように構成されうる。
【0098】
いくつかのそのような例によれば、装置250は、スマート・スピーカーなどのスマート・オーディオ・デバイスでありうるか、またはそれを含みうる。いくつかのそのような実装では、装置250は、ウェイクワード検出器であってもよく、またはそれを含んでいてもよい。たとえば、装置250は、仮想アシスタントを(少なくとも部分的に)実装するように構成されてもよい。
【0099】
図3Aは、一例による位置エンコード行列の表現を示す。この例は、位置エンコード行列301のマルチチャネル・フォーマット領域302Aおよび302Bと、物理的提示フォーマット303Aおよび303Bとの間の関係をそれぞれ示す。この例によれば、
図3Aの要素は以下の通りである。
【0100】
301:4次元位置エンコード行列の3次元表現の例。この例では、位置エンコード行列301はPE(T,C,B,D)として表現され、ここで、Tは時間フレームを表し、Cはオーディオ・コンテンツ・チャネルを表し、Bは離散的なフーリエ・ビンを表し、Dは
図3Aの三次元表現には示されていないエンコード次元を表し、PEは位置エンコード(positional encoding)を表す。4次元位置エンコード行列のD次元の例が
図4に示されており、以下に説明する。
【0101】
302A:ドルビー5.1オーディオ・フォーマットのオーディオ・データに対応する位置エンコード行列301のマルチチャネル・フォーマット領域。
302B:ドルビー7.1オーディオ・フォーマットのオーディオ・データに対応する位置エンコード行列301のマルチチャネル・フォーマット領域。
303A:ドルビー5.1オーディオ・フォーマットに対応するラウドスピーカー位置の表現。
303B:ドルビー7.1オーディオ・フォーマットに対応するラウドスピーカー位置の表現。
【0102】
図3Bは、ラウドスピーカー位置を単位円上にマッピングする例を示す。この例では、
図3Bは、ドルビー7.1オーディオ・フォーマットに対応するラウドスピーカー位置の単位円304上へのマッピングを示す。
図3Aのラウドスピーカー位置303Bの表現によって示唆されるようなデカルトまたは(x,y)座標位置の代わりに、
図3Bでは、ドルビー7.1オーディオ・フォーマットに対応するラウドスピーカー位置が、この例では角度シータ(Θ)の値に対応する角度座標として示される。ドルビー7.1オーディオ・フォーマットに対応するラウドスピーカー位置のみが
図3Bに示されているが、他のオーディオ・フォーマットに対応するラウドスピーカー位置も、同じ仕方で角度座標として表されてもよい。
【0103】
本明細書の他の箇所に記載されるように、いくつかの開示される例は、制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプのオーディオ・データを受領することに関わる。第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示してもよい。いくつかの開示される例は、制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプのオーディオ・データを受領することに関わる。第1の空間データは、一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示してもよく、第2の空間データは、一つまたは複数の第2のオーディオ信号についての意図された知覚される空間位置を示してもよい。いくつかの開示される例は、制御システムによって、第1ないし第Nのオーディオ信号および関連する第1ないし第Nの空間データを含む第1ないし第Nの入力オーディオ・データ・タイプの第1ないし第Nのオーディオ・データを受領することに関わり、ここで、Nは2よりも大きい整数である。
【0104】
オーディオ・データ・タイプ、一つまたは複数のオーディオ信号および関連する空間データの文脈における形容語「第1の」、「第2の」および「第Nの」は、単にあるオーディオ・データ・タイプ等を別のものと区別するために使用され、必ずしも時間的シーケンスを示すものではない。言い換えれば、第1のオーディオ・データ・タイプのオーディオ・データは、必ずしも、第2のオーディオ・データ・タイプのオーディオ・データまたは第Nのオーディオ・データ・タイプのオーディオ・データが受領される時間より前に受領されるとは限らない。
【0105】
図3Aに表されるドルビー5.1オーディオ・フォーマットは、上述の「第1のオーディオ・データ・タイプ」(または第2のオーディオ・データ・タイプもしくは第Nのオーディオ・データ・タイプ)の例である。第1のオーディオ・データ・タイプがドルビー5.1オーディオ・フォーマットである場合、「第1の空間データ」は、
図3Aの表現303A、対応する角度表現、または任意の他の好適な表現において示される意図された知覚される空間位置(ラウドスピーカー位置)でありうる。同様に、第2のオーディオ・データ・タイプがドルビー7.1オーディオ・フォーマットである場合、「第2の空間データ」は、
図3Aの表現303Bにおいて示されるラウドスピーカー位置、
図3Bにおいて示される対応する角度表現、または他の任意の好適な表現であってもよい。
【0106】
いくつかの開示される例は、制御システムによって、入力オーディオ・データから少なくとも第1の特徴タイプを決定することに関わっていてもよい。いくつかの例では、制御システムは、入力オーディオ・データから2つ以上の特徴タイプを決定するように構成されうる。特徴タイプは、たとえば、複数の周波数帯域のそれぞれにおけるエネルギーまたはパワーの表現など、オーディオ・サンプルの周波数領域表現の一つまたは複数のタイプでありうるか、またはそれを含みうる。本明細書の他の箇所で述べたように、空間データは、いくつかの例では、特徴のタイプと見なされてもよい。
【0107】
いくつかの開示される例は、制御システムによって、位置エンコード・プロセスをオーディオ・データに適用して、エンコードされたオーディオ・データを生成することに関わる。エンコードされたオーディオ・データは、いくつかの例では、埋め込み次元の第1の埋め込みベクトルにおける、少なくとも第1の空間データおよび第1の特徴タイプ(複数可)の表現を含みうる。いくつかの例が
図3Aおよび
図3Bに示される。
図3Aの例では、位置エンコード・プロセスは、位置エンコード・プロセスをドルビー5.1オーディオ・フォーマットのオーディオ・データに適用して、位置エンコード行列301のマルチチャネル・フォーマット領域302Aを生成することに関わる。
図3Aの例によれば、位置エンコード・プロセスは、位置エンコード・プロセスをドルビー7.1オーディオ・フォーマットのオーディオ・データに適用して、位置エンコード行列301のマルチチャネル・フォーマット領域302Bを生成することに関わる。ドルビー5.1および7.1オーディオ・フォーマットにおけるオーディオ・データの「現実世界」のラウドスピーカー位置は、初期には、
図3Aの表現303Aおよび303Bに示されるように表現され(たとえば(x,y)座標を介して表現され)、
図3Bに示されるように角度座標を介して表現され、または他の任意的な便利な仕方で表現されてもよい。
【0108】
図4は、別の例による位置エンコード行列および位置エンコード・ベクトルの表現を示す。この例によれば、
図4の要素は以下の通りである。
【0109】
401:4次元位置エンコード行列の3次元表現の別の例。この例では、位置エンコード行列301はPE(T,C,B,D)として表現される。ここで、Tは
図4の3次元表現には示されていない時間フレームを表し、Cはオーディオ・コンテンツ・チャネルを表し、Bは離散フーリエ・ビンを表し、Dはエンコード次元を表す。
402:位置エンコード行列401のエンコード次元Dにおける位置エンコード・ベクトルの例。
402A:この事例では関数fを介して変換される、変換された入力特徴の例を示すベクトル402の一部。
402B:この事例では関数gを介して変換される、変換された空間データの例を示すベクトル402の一部。
404:インデックスi(Nまで)および次元Bにおける座標に関する位置エンコード行列変換関数fの例。
405:インデックスj(Mまで)および次元Cにおける座標に関する位置エンコード行列変換関数gの例。
【0110】
図4に示される例では、エンコード次元Dにおける各ベクトルは、入力特徴次元のそれぞれ、この場合はチャネルCおよびビンBからの寄与の連結である。各次元が寄与する、次元Dにおける各ベクトルの部分(この例では、部分404および405)は、等しくても等しくなくてもよい。言い換えれば、NとMは必ずしも等しくなく、多くの事例では、等しくない。NおよびMのサイズは、各特徴次元がいくつのサンプルを含むか、および特徴次元座標にわたってどれだけの分解能が要求されるかに応じて変化しうる。
【0111】
ビンの実際の数(B)は、Nまたは(i+N)ではない場合がある。Nは、ビンの数Bよりも小さい、Bと同じ、またはBより大きいことがありうる。Nをビンの数よりも小さくすることは、計算の複雑さを低減しうる。しかしながら、特定のデータセットについてNをビンの数Bより大きくすることは、より多数のビンを有する他のデータセットがある場合に有用でありうる。たとえば、諸ビンに対応する既知の座標がある入力オーディオ・データと、諸ビンに対応する座標が異なる他の入力オーディオ・データとがあってもよい。たとえば、ある場合には、0から24キロヘルツまでの間に512個のビンがあってもよく、別の場合には、0から22.5キロヘルツまでの間に256個のビンがあってもよい。いずれのデータセットについてもNをビンの数Bよりも大きくすることにより、異なる数のビンを有する入力データを、エンコード次元D内の適切な位置にマッピングすることが可能になる。
【0112】
同様に、次元Cについて、Mは、変換されているデータセット中のチャネルの実際の数に対応しないことがある。通常、MはCよりも大きい。特定のデータセットについてMをチャネルの数Cよりも大きくすることは、より多数のチャネルを有する他のデータ・フォーマットがある場合に有用(または必要)でありうる。
図3Bに示される例では、Mは、エンコード次元Dへの変換後の単位円マッピング上の粒度に対応する。したがって、トレーニングされたニューラルネットワークが、トレーニング・プロセス中に使用されるいかなる入力データセットにおいても表されないチャネルであってもよい任意のチャネルに対応する新しいコンテンツを作成することが可能であることを保証するために、所与のオーディオ・フォーマットにおけるチャネルの実際の数と比較して、Mの大きい値を使用することが有利でありうる。
【0113】
位置エンコード行列についてのパラメータが作成されるとき、エンコード次元Dのベクトル部分を決定するために使用される関数が適用されるときに生じる一意的な距離メトリックが存在することを確実にすることが有益でありうる。それにより、埋め込み次元への変換前に互いに近接していたビンは変換後にも互いに近接しており、埋め込み次元への変換前により遠くに離れていたビンは変換後にもより遠くに離れているようになる。Bに比してのNの選択は、たとえば、ビン間隔が非常に類似しているがわずかに異なるベクトルがあるかどうかに依存することがある。選択することが望ましい関数は、Bをエンコード次元Dに変換することができ、たとえば、1キロヘルツのところにビンがありうる48キロヘルツ・サンプル・レート例と、1キロヘルツのところにビンがなくてもよい別のサンプル・レート例(たとえば44.1キロヘルツ・サンプル・レート例)とについて一意的な解があることを保証するようなものである。
【0114】
有効位置エンコード行列は、入力座標の離散的な点を、トレーニング・プロセス中に重要でありうる離散的な座標のセットを表すことができる埋め込み次元におけるベクトルにマッピングすることができる。有効位置エンコード行列の例は、異なるオーディオ・コンテンツ・クラスに対応するオーディオ・データを、
図1のグラフ110に示されるもののような、埋め込み空間の区別可能に異なる領域に変換させるものである。
【0115】
いくつかの例では、開示される位置エンコード行列は、
図1のコンテンツ・データ102の基礎となる離散的な座標を受け入れる。以下の式1、2、および3のように、以前に開示された座標フリーのエンコード行列を改善する理由の複数の例がある。1番目として、一連の空間オーディオ・チャネル・フォーマットについて準備された制御システムの場合、以前に開示された位置エンコード定式化に対する修正および座標の追加は、2つの目的に資する。第1に、物理的な位置の意味をオーディオ・チャネルに割り当てる手段を提供することであり、第2に、入力データ103におけるチャネルの順序付けおよび意図される物理的提示位置(空間フォーマット)における自由度を許容することである。これは、異なる空間フォーマット、またはアトモスにおけるような任意の空間位置およびチャネル数を有するコンテンツのセットの提示が潜在空間を乱さないように、潜在空間を収束させるように、トレーニング中の制御システムを最も良く促すためである。式3において、オーディオ・チャネルcの空間フォーマット位置θは、位置エンコードの定式化において受け入れられることが、下記で見て取れる。空間フォーマット・チャネル位置を、連続的な範囲の諸位置にわたって比較されうるエンコードに変換する連続関数が、場合によっては望ましいことがある。他では、空間フォーマット位置の離散的なセットにわたって最大距離測定値を証明する任意のエンコード・ベクトルの離散的なセットを選択することが、代わりに使用されてもよい。重要なことに、開示されたエンコードの定式化は、多様な仕方で実装されうる。エンコードが空間座標を受け入れ、距離測定において、エンコード距離比較において扱いやすく均一な結果を提供するのであればよい。
【0116】
開示された位置エンコード方法の2番目の理由は、式1および2に見ることができ、ここで、時間tは、最大時間Tによって正規化され、周波数ビンbは、位置エンコードの定式化において使用される最大周波数ビンBによって正規化される。応用では、tにおける更新レートおよびbにおける周波数間隔が変化しうるよう、複数の離散フーリエ変換定式化の可能性がある。これは、実装制約によるものでありうる。ここで、事前トレーニングされた制御システムがこれらの条件を課され、それでいて堅牢であることが期待されることがあり、また、これらの次元における座標の受け入れは、トレーニング中のデータのサンプリングにおける一意的な分散を提供することができ、それにより、ネットワークが収束する最終的な解がより良好に一般化することができ、より代表的な潜在空間を見出すことができる。
【0117】
本開示は、オーディオ・データに位置エンコード・プロセスを適用して、埋め込み次元の埋め込みベクトルにおける、空間データおよび一つまたは複数の他の特徴タイプの表現を含む、エンコードされたオーディオ・データを生成する他の例を含む。以下の例では、3つの入力特徴タイプがあり、そのそれぞれが特徴次元に対応する。これらの例では、エンコード次元Dの1/3が3つの入力特徴次元のそれぞれに専用である。この例では、入力特徴タイプを埋め込み次元ベクトルの一部に変換するために、以下の式1、2、および3がそれぞれ使用される。
【数1】
【0118】
上記の式において、w(オメガ)は、隠れ次元Dに対する交互のsinおよびcosエンコードの式への寄与を表す。これは、各dについて一意的な値を与えるように構築され、位置エンコード行列PEの次元d全体にわたる最終的な値における数値的に有意な差(0または±無限大というよりも1.0に近い)を許容するようにfによってスケーリングされる。重要な、基礎となる目標は、物理的距離を示す区別を行うことであり、たとえば、PE(t=1,c=1,b=1,1<d<D)が、ユークリッド的な意味において、PE(t=2,c=1,b=1,1<d<D)に近いが、次元c、b、およびtのいずれかにおける特徴内では、それらのそれぞれのdエンコード次元にわたって、PE(t=T,c=1,b=1,1<d<D)から遠いことを確実にすることである。上記の式において、fは任意のハイパーパラメータを表し、これは、PE行列の式のいずれかの範囲が、コンピュータにとって、測定可能な精度未満に縮退する次元Dをエンコードすることを回避するために、数値的に有用であるように選択される。広範囲の数がfの適切な値でありうる。
【0119】
これらの例では、前と同様に、位置エンコード行列PEは、T、C、BおよびDの関数として表現されてもよい。ここで、Tは時間フレームを表し、Cはオーディオ・コンテンツ・チャネルを表し、Bは離散フーリエ・ビンを表し、Dはエンコード次元を表す。式1~3において、tは時間フレームTの時間インスタンスまたはインデックスを表し、cはオーディオ・コンテンツ・チャネル・インデックスを表し、bは離散的な周波数領域特徴、たとえばB個の周波数領域ビンのうちのフーリエ・ビンまたはメル帯域(Bに対応するインデックス)を表し、dはエンコード次元Dのインデックスを表す。いくつかの例によれば、fはDよりも何倍も大きくてもよい。
【0120】
式1および式2は、いくつかの例では、たとえば、離散フーリエ変換(DFT)を実行する前の離散時間サンプリング間隔について、およびDFTビン周波数についての同様の特性を維持するために、正規化されうる。これは、異なるデータセットが異なるサンプル・レートを有する場合に有利でありうる。いくつかの事例では、異なる特徴抽出プロセスに潜在的に対応する、それらのデータセットとは異なる特徴が使用されてもよい。式1および式2においてサンプル・レートを指定することが可能であることは、そのような例において有益でありうる。
【0121】
たとえば、式1は合計Tで割ったtインデックスのサインを指定する。大文字のTは時間次元Tにおける時間インスタンスの数を表す。一例において、時間次元Tにおいて100個の時間インスタンスtがあるとする。そのサンプリングレートの2倍でサンプリングされたデータを使用することを選択することができ、そのような例では、Tがインデックスではなく、むしろ、正規化することを決めた絶対時間であるという事実を考慮に入れることが望まれる。たとえばこれらの100個のサンプルが1秒のデータを表す場合、式1が入力データの実際の時間サンプリング周波数にとらわれないように、式1のどこかに1秒の定数を有することが有利である。
【0122】
図5は、一例による新しいオーディオ・コンテンツを生成するためのブロックを示す。この例によれば、
図5のブロックは、
図2Bの制御システム160のインスタンスによって実装される。この例では、制御システム160は、入力空間データ・タイプを有する入力オーディオ・データ・タイプからのオーディオ・データを、変換空間データ・タイプを有する変換されたオーディオ・データ・タイプのオーディオ・データに変換するように構成される。この例によれば、入力空間データ・タイプは、変換された空間データ・タイプよりも少数のチャネルを含む。いくつかの例では、入力空間データ・タイプはドルビー5.1オーディオ・フォーマットに対応してもよく、変換空間データ・タイプはドルビー6.1オーディオ・フォーマット、ドルビー7.1オーディオ・フォーマット、ドルビー9.1オーディオ・フォーマット、ドルビー・アトモス(商標)フォーマットなどに対応してもよい。
【0123】
501:入力オーディオ・データを特徴空間から、より低次元の(「ボトルネックのある」)潜在空間に変換するように構成されたエンコーダ・ニューラルネットワーク。
【0124】
502:
図5において「y」としても示される、エリア507の内側の点を表す潜在空間ベクトル。
【0125】
503:変換空間データ・タイプと呼ばれることがある、所望されるタイプの新しいオーディオ・コンテンツを生成するための(たとえば、本明細書で開示されるようにニューラルネットワークをトレーニングすることによって)以前に導出された変換h。この例では、hは、入力空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルを、変換空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルに変換するように構成される。
【0126】
504:
図5において「y^」としても示される、エリア508内の点を表す変換された潜在空間ベクトル。
【0127】
505:潜在空間におけるベクトルを特徴空間に変換するように構成されたデコーダ・ニューラルネットワーク。
【0128】
506:潜在空間の2次元表現。これは一般には2次元よりも多くの次元を有するであろう。
【0129】
507:入力空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルのサンプリング。
【0130】
508:この例では入力空間データ・タイプのオーディオ・データよりも多くのチャネルを含む変換空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルのサンプリング。
【0131】
より低いチャネル・カウントのコンテンツとより高いチャネル・カウントのコンテンツとの間の差を一般に記述する、ニューラルネットワークをトレーニングすることによって形成される基礎となるモデルの諸側面は、モデルが潜在空間ベクトルを変換するように実装されるときに理解されうる。たとえば、ネットワークが、異なる空間データ・タイプ(より低いチャネル・カウントのバージョンとより高いチャネル・カウントのバージョンなど)を有する同じタイプのオーディオ・コンテンツ(ポッドキャスト、音楽、テレビ番組ダイアログ、映画ダイアログなど)の複数の例でトレーニングされる場合、ニューラルネットワークは、特定のタイプのオーディオ・コンテンツが何らかの空間データ・タイプにおいて存在することが意味するものの、潜在空間における一つまたは複数のモデルを導出することができる。
【0132】
コンテンツの各空間データ・タイプについて潜在ベクトルをサンプリングすることによって、ニューラルネットワークは、多次元潜在ベクトル空間において、オーディオ・コンテンツのある空間データ・タイプから別の空間データ・タイプへの線形または非線形マッピングを導出することができる。異なる空間データ・タイプを有する類似のオーディオ・コンテンツ(たとえば、映画サウンドトラック)のデータベースについて、ニューラルネットワークは、一般的なマッピングh(503)を導出するようにトレーニングされうる。該一般的なマッピングは、その後、ある空間データ・タイプ(入力空間データ・タイプ)を有するオーディオ・データのための潜在空間ベクトルを、より高いチャネル・カウントのフォーマットを有する別の空間データタイプ(変換空間データタイプ)を有するオーディオ・データに変換するために使用されうる。該変換は、より高いチャネル・カウントのフォーマットでコンテンツの新しいサンプルを生成することによる。いくつかの事例では、変換空間データ・タイプのオーディオ・データは、その特定の空間データ・タイプにおいて以前には存在していなかったものでもよい。たとえば、オーディオ・データは、以前にはドルビー5.1フォーマットのような、入力オーディオ・データ・タイプの、より低いチャネル・カウントのバージョンにおいてのみ存在していたことがありうるが、ドルビー7.1フォーマットまたは任意の高チャネル・フォーマットでは以前には存在していなかったかものでもよい。
【0133】
図6は、開示される方法の例を概説するフロー図である。方法600のブロックは、本明細書に記載された他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるよりも多いまたは少ないブロックを含みうる。
【0134】
方法600は、
図2Bに示され、上述された装置250、その一つまたは複数の構成要素などの装置またはシステムによって実行されてもよい。いくつかのそのような例では、方法600を実行するように構成された装置250は、
図1および
図2に示され、上述された制御システム160を少なくとも含んでいてもよい。
【0135】
この例では、ブロック605は、制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・タイプの第1のオーディオ・データを受領することに関わる。ここで、第1の空間データは、一つまたは複数の第1のオーディオ信号の意図された知覚される空間位置を示す。いくつかの例によれば、意図された知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルに対応してもよく、他の例では、意図された知覚される空間位置は、ドルビーAtmos(商標)のようなオーディオ・オブジェクト・ベースのオーディオ・フォーマットの位置メタデータに対応してもよく、および/またはそれによって示されてもよい。いくつかの例では、第1のオーディオ・データ・タイプは、ドルビー5.1オーディオ・フォーマット、ドルビー6.1オーディオ・フォーマット、ドルビー7.1オーディオ・フォーマット、ドルビー9.1オーディオ・フォーマット、ドルビーAtmos(商標)オーディオ・フォーマットなどのオーディオ・フォーマットに対応してもよい。第1の空間データは、第1のオーディオ・データ・タイプのオーディオ・フォーマットに対応するラウドスピーカー位置に対応する情報であってもよく、またはそれを含んでいてもよい。空間データのいくつかの関連する例は、
図3Aおよび
図3Bの議論などにおいて、本明細書で開示されている。
【0136】
この例によれば、ブロック610は、制御システムによって、第1のオーディオ・データから少なくとも第1の特徴タイプを決定することに関わる。特徴タイプは、たとえば、複数の周波数帯域のそれぞれにおけるエネルギーまたはパワーの表現など、オーディオ・サンプルの一つまたは複数の周波数領域表現であってもよく、またはそれを含んでいてもよい。
【0137】
この例では、ブロック615は、制御システムによって、第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成することに関わる。この例によれば、第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含む。位置エンコード・プロセスを適用するいくつかの関連する例が、
図3A、
図3B、および
図4の議論、ならびに式1、式2、および式3の議論を含め、本明細書で開示される。
【0138】
この例によれば、ブロック620は、制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・タイプの第2のオーディオ・データを受領することに関わる。この例では、第2のオーディオ・データ・タイプは、第1のオーディオ・データ・タイプとは異なる。たとえば、第1のオーディオ・データ・タイプがドルビー5.1オーディオ・フォーマットに対応する場合、第2のオーディオ・データ・タイプは、ドルビー6.1オーディオ・フォーマット、ドルビー7.1オーディオ・フォーマット、ドルビー9.1オーディオ・フォーマット、ドルビー・アトモス(商標)オーディオ・フォーマット等のような別のオーディオ・フォーマットに対応してもよい。ここで、第2の空間データは、一つまたは複数の第2のオーディオ信号の意図された知覚される空間位置を示す。
この例では、ブロック625は、制御システムによって、第2のオーディオ・データから少なくとも第1の特徴タイプを決定することに関わる。
【0139】
この例では、ブロック630は、制御システムによって、第2のオーディオ・データに位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成することに関わる。この事例では、第2のエンコードされたオーディオ・データは、埋め込み次元の第2の埋め込みベクトルにおける少なくとも第2の空間データおよび第1の特徴タイプの表現を含む。
【0140】
この例によれば、ブロック635は、入力空間データ・タイプを有する入力オーディオ・データ・タイプから変換空間データ・タイプを有する変換オーディオ・データ・タイプにオーディオ・データを変換するために、制御システムによって実装されるニューラルネットワークを、トレーニングすることに関わる。いくつかの例では、入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応してもよく、変換されたオーディオ・データ・タイプは第2の(および異なる)オーディオ・データ・フォーマットに対応する。たとえば、入力空間データ・タイプは第1の数のチャネルに対応してもよく、変換されたオーディオ・データ・タイプは第2の数のチャネルに対応してもよい。この例では、トレーニングは、第1のエンコードされたオーディオ・データおよび第2のエンコードされたオーディオ・データに少なくとも部分的に基づく。適切なニューラルネットワーク・トレーニングのさまざまな例が、
図1および
図2Aの説明など、本明細書で開示される。
【0141】
いくつかの例では、ニューラルネットワークをトレーニングすることは、第1のオーディオ・データを潜在空間の第1の領域に変換し、第2のオーディオ・データを潜在空間の第2の領域に変換するようにニューラルネットワークをトレーニングすることに関わっていてもよい。いくつかの例によれば、第2の領域は、たとえば
図1および
図5に示されるように、第1の領域から少なくとも部分的に分離していてもよい。いくつかの例では、ニューラルネットワークは、アテンション・ベースのニューラルネットワークであってもよく、またはそれを含んでいてもよい。いくつかのそのような例によれば、ニューラルネットワークは、マルチヘッド・アテンション・モジュールを含みうる。
【0142】
いくつかの例では、方法600は、制御システムによって、第1~第Nのオーディオ信号および関連付けられた第1~第Nの空間データを含む第1~第Nの入力オーディオ・データ・タイプの第1~第Nのオーディオ・データを受領することに関わっても良く、Nは2よりも大きい整数である。いくつかのそのような例では、方法600は、制御システムによって、第1~第Nの入力オーディオ・データ・タイプから少なくとも第1の特徴タイプを決定することに関わっていてもよい。いくつかのそのような例によれば、方法600は、制御システムによって、第1~第Nのオーディオ・データに位置エンコード・プロセスを適用して、第1~第Nのエンコードされたオーディオ・データを生成することに関わっていてもよい。いくつかのそのような例では、方法600は、第1~第Nのエンコードされたオーディオ・データに少なくとも部分的に基づいてニューラルネットワークをトレーニングすることに関わっていてもよい。
【0143】
いくつかの例によれば、方法600は、制御システムによって、第1のオーディオ・データおよび第2のオーディオ・データから少なくとも第2の特徴タイプを決定することに関わっていてもよい。いくつかのそのような例では、位置エンコード・プロセスは、埋め込み次元において第2の特徴タイプを表すことに関わっていてもよい。
【0144】
いくつかの例では、方法600は、制御システムによって、入力オーディオ・データ・タイプのオーディオ・データを受領することに関わっていてもよい。いくつかのそのような例では、方法600は、制御システムによって、入力オーディオ・データ・タイプのオーディオ・データを変換オーディオ・データ・タイプのオーディオ・データに変換することに関わっていてもよい。
【0145】
図7は、別の開示される方法の例を概説するフロー図である。方法700のブロックは、本明細書に記載された他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるよりも多いまたは少ないブロックを含みうる。方法700は、
図2Bに示され、上述された装置250、その一つまたは複数の構成要素などの装置またはシステムによって実行されてもよい。いくつかのそのような例では、方法700を実行するように構成された装置250は、
図2Bに示され、上述された制御システム160を少なくとも含む。
【0146】
この例によれば、方法700は、入力オーディオ・データ・タイプから変換オーディオ・データ・タイプにオーディオ・データを変換するようにトレーニングされたニューラルネットワークを実装することに関わる。いくつかの例では、ニューラルネットワークは、たとえば
図1、
図2Aまたは
図6を参照して、本明細書で説明されたようにトレーニングされていてもよい。
【0147】
この例では、ブロック705は、制御システムによって、入力空間データ・タイプをもつ入力オーディオ・データ・タイプのオーディオ・データを受領することに関わる。入力空間データ・タイプは、たとえば、ドルビー5.1オーディオ・フォーマット、ドルビー6.1オーディオ・フォーマット等のようなオーディオ・フォーマットに対応してもよい。
【0148】
この例によれば、ブロック710は、制御システムによって、入力オーディオ・データ・タイプのオーディオ・データを、変換空間データ・タイプをもつ変換オーディオ・データ・タイプのオーディオ・データに変換することに関わる。この例では、変換することは、オーディオ・データを前記入力オーディオ・データ・タイプから前記変換オーディオ・データ・タイプに変換するようトレーニングされたニューラルネットワークを、制御システムによって実装することに関わる。この例によれば、ニューラルネットワークは、位置エンコード・プロセスから生じるエンコードされたオーディオ・データに少なくとも部分的に基づいてトレーニングされている。ここで、エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含んでいた。第1の空間データは、再生されるオーディオ信号についての意図された知覚される空間位置を示す。
【0149】
いくつかの例では、入力空間データ・タイプは第1のオーディオ・データ・フォーマットに対応してもよく、変換オーディオ・データ・タイプは第2のオーディオ・データ・フォーマットに対応してもよい。たとえば、入力空間データ・タイプがドルビー5.1オーディオ・フォーマットに対応する場合、変換オーディオ・データ・タイプは、ドルビー6.1オーディオ・フォーマット、ドルビー7.1オーディオ・フォーマット、ドルビー9.1オーディオ・フォーマット、ドルビー・アトモス・フォーマット等に対応しうる。
【0150】
いくつかの例では、ニューラルネットワークは、たとえば、
図5を参照して説明されたように、入力空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルを変換空間データ・タイプのオーディオ・データに対応する潜在空間ベクトルに変換するように構成された変換hを決定するようにトレーニングされていてもよい。
【0151】
図8は、追加的な開示された方法の例を概説するフロー図である。方法800のブロックは、本明細書に記載された他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるよりも多いまたは少ないブロックを含みうる。
【0152】
方法800は、
図2Bに示され、上述された装置250、その一つまたは複数の構成要素などの装置またはシステムによって実行されてもよい。いくつかのそのような例では、方法800を実行するように構成された装置250は、
図2Bに示され、上述された制御システム160を少なくとも含む。
【0153】
この例では、ブロック805~830は、
図6を参照して詳細に説明されたブロック605~630と同様である。したがって、ブロック805~830の説明は、ここでは繰り返さない。
【0154】
しかしながら、この例によれば、ブロック835は、入力オーディオ・データの入力オーディオ・データ・タイプを識別するために、制御システムによって実装されるニューラルネットワークをトレーニングすることに関わる。この例では、トレーニングは、第1のエンコードされたオーディオ・データおよび第2のエンコードされたオーディオ・データに少なくとも部分的に基づく。
図1および
図2Aの説明など、適切なニューラルネットワーク・トレーニングのさまざまな例が本明細書で開示される。
【0155】
いくつかの例では、入力オーディオ・データ・タイプを識別することは、入力オーディオ・データのコンテンツ・タイプを識別することに関わっていてもよい。いくつかのそのような例によれば、コンテンツ・タイプを識別することは、入力オーディオ・データがポッドキャスト、映画もしくはテレビジョン番組のダイアログ、または音楽に対応するかどうかを決定することに関わっていてもよい。いくつかのそのような例では、コンテンツ・タイプを識別することは、たとえば
図1に示されるように、特定のコンテンツ・タイプに対応する多次元潜在空間の領域を決定することに関わっていてもよい。
【0156】
本開示のいくつかの側面は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)システムまたはデバイスと、開示された方法またはそのステップの一つまたは複数の例を実装するためのコードを記憶する有形コンピュータ可読媒体(たとえば、ディスク)とを含む。たとえば、いくつかの開示されたシステムは、開示された方法またはそのステップの実施形態を含む、データに対する多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれらを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して、開示される方法(またはそのステップ)の一つまたは複数の例を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータシステムであるか、またはそれを含みうる。
【0157】
いくつかの実施形態は、開示された方法の一つまたは複数の例の実行を含む、オーディオ信号(複数可)に対して必要な処理を実行するように構成された(たとえば、プログラムされた、および他の仕方で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装されうる。あるいはまた、開示されたシステム(またはその要素)の実施形態は、開示された方法の一つまたは複数の例を含む多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された汎用プロセッサ(たとえば、入力デバイスおよびメモリを含みうるパーソナルコンピュータ(PC)または他のコンピュータシステムまたはマイクロプロセッサ)として実装されうる。あるいはまた、本発明のシステムのいくつかの実施形態の要素は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)を含む。開示される方法の一つまたは複数の例を実行するように構成された汎用プロセッサは、入力デバイス(たとえば、マウスおよび/またはキーボード)、メモリ、およびディスプレイデバイスに結合されうる。
【0158】
本開示の別の側面は、開示された方法またはそのステップの一つまたは複数の例を実行するためのコード(たとえば、実行するように実行可能なコーダ)を記憶するコンピュータ可読媒体(たとえば、ディスクまたは他の有形記憶媒体)である。
【0159】
本開示の特定の実施形態および本開示の応用が本明細書に記載されているが、本明細書に記載された実施形態および応用に対する多くの変形が、本明細書に記載され、特許請求される本開示の範囲から逸脱することなく可能であることは、当業者には明らかであろう。本開示のある種の形態が示され、説明されたが、本開示は、説明され、示された特定の実施形態、または説明された特定の方法に限定されるべきではないことを理解されたい。
【手続補正書】
【提出日】2024-05-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・
フォーマットの第1のオーディオ・データを受領する段階であって、前記第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第1のオーディオ・データから少なくとも第1の特徴タイプを決定する段階
であって、前記第1の特徴タイプは前記オーディオ・データの周波数領域表現に対応する、段階と;
前記制御システムによって、前記第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成する段階であって、前記第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける、少なくとも前記第1の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
前記制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・
フォーマットの第2のオーディオ・データを受領する段階であって、前記第2のオーディオ・データ・
フォーマットは前記第1のオーディオ・データ・
フォーマットとは異なり、前記第2の空間データは、前記一つまたは複数の第2のオーディオ信号のための意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第2のオーディオ・データから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第2のオーディオ・データに前記位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成する段階であって、前記第2のエンコードされたオーディオ・データは、前記埋め込み次元の第2の埋め込みベクトルにおける、少なくとも前記第2の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
入力オーディオ・データを
あるオーディオ・データ・フォーマットから異なるオーディオ・データ・フォーマットに変換するよう、前記制御システムによって実装されるニューラルネットワークをトレーニングする段階であって、該トレーニングは、前記第1のエンコードされたオーディオ・データおよび前記第2のエンコードされたオーディオ・データに少なくとも部分的に基づく、段階とを含む、
方法。
【請求項2】
当該方法が:
第1~第Nのオーディオ信号および関連する第1~第Nの空間データを含む第1~第Nの入力オーディオ・データ・
フォーマットの第1~第Nのオーディオ・データを受領する段階であって、Nは2よりも大きい整数である、段階と;
前記制御システムによって、前記第1~第Nの入力オーディオ・データ・
フォーマットから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第1~第Nのオーディオ・データに前記位置エンコード・プロセスを適用して、第1~第Nのエンコードされたオーディオ・データを生成する段階と;
前記第1~第Nのエンコードされたオーディオ・データに少なくとも部分的に基づいて前記ニューラルネットワークをトレーニングする段階とを含む、
請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークは、アテンション・ベースのニューラルネットワークである、またはアテンション・ベースのニューラルネットワークを含む、請求項
1に記載の方法。
【請求項4】
前記ニューラルネットワークは、マルチヘッド・アテンション・モジュールを含む、請求項
1に記載の方法。
【請求項5】
前記ニューラルネットワークをトレーニングすることは、前記第1のオーディオ・データを潜在空間の第1の領域に変換し、前記第2のオーディオ・データを前記潜在空間の第2の領域に変換するように前記ニューラルネットワークをトレーニングすることに関わり、前記第2の領域は、少なくとも部分的に、前記第1の領域とは別個である、請求項
1に記載の方法。
【請求項6】
前記意図された知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応する、請求項
1に記載の方法。
【請求項7】
前記制御システムによって、前記第1のオーディオ・データおよび前記第2のオーディオ・データから少なくとも第2の特徴タイプを決定する段階をさらに含み、前記位置エンコード・プロセスは、前記埋め込み次元において前記第2の特徴タイプを表現することに関わる、請求項
1に記載の方法。
【請求項8】
請求項
1に記載の方法に従ってトレーニングされたニューラルネットワーク。
【請求項9】
請求項
8に記載のニューラルネットワークを実装するための命令を含むソフトウェアが記憶されている一つまたは複数の非一時的な媒体。。
【請求項10】
制御システムによって、
第1のオーディオ・データ・フォーマットを有する
入力オーディオ・データを受領する段階と;
前記制御システムによって、前記入
力オーディオ・データを
第2のオーディオ・データ・フォーマットに変換する段階とを含む、オーディオ処理方法であって、
該変換することは、オーディオ・データを
あるオーディオ・データ・
フォーマットから
異なるオーディオ・データ・
フォーマットに変換するようにトレーニングされたニューラルネットワークを前記制御システムによって実装することに関わり、前記ニューラルネットワークは、位置エンコード・プロセスから帰結するエンコードされたオーディオ・データに少なくとも部分的に基づいてトレーニングされており、前記エンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも第1の空間データおよび第1の特徴タイプの表現を含み、
前記第1の特徴タイプは前記オーディオ・データの周波数領域表現に対応し、前記第1の空間データは、再生されるオーディオ信号についての意図された知覚される空間位置を示す、
方法。
【請求項11】
制御システムによって、一つまたは複数の第1のオーディオ信号および関連する第1の空間データを含む第1のオーディオ・データ・
フォーマットの第1のオーディオ・データを受領する段階であって、前記第1の空間データは、前記一つまたは複数の第1のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第1のオーディオ・データから少なくとも第1の特徴タイプを決定する段階
であって、前記第1の特徴タイプは前記オーディオ・データの周波数領域表現に対応する、段階と;
前記制御システムによって、前記第1のオーディオ・データに位置エンコード・プロセスを適用して、第1のエンコードされたオーディオ・データを生成する段階であって、前記第1のエンコードされたオーディオ・データは、埋め込み次元の第1の埋め込みベクトルにおける少なくとも前記第1の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
前記制御システムによって、一つまたは複数の第2のオーディオ信号および関連する第2の空間データを含む第2のオーディオ・データ・
フォーマットの第2のオーディオ・データを受領する段階であって、前記第2のオーディオ・データ・
フォーマットは、前記第1のオーディオ・データ・タイプとは異なり、前記第2の空間データは、前記一つまたは複数の第2のオーディオ信号についての意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記第2のオーディオ・データから少なくとも前記第1の特徴タイプを決定する段階と;
前記制御システムによって、前記第2のオーディオ・データに前記位置エンコード・プロセスを適用して、第2のエンコードされたオーディオ・データを生成する段階であって、前記第2のエンコードされたオーディオ・データは、前記埋め込み次元の第2の埋め込みベクトルにおける、少なくとも前記第2の空間データおよび前記第1の特徴タイプの表現を含む、段階と;
入力オーディオ・データの入力オーディオ・データ・タイプを識別するために、前記制御システムによって実装されるニューラルネットワークをトレーニングする段階であって、
前記入力オーディオ・データ・タイプを識別することは、前記入力オーディオ・データのコンテンツ・タイプを識別することに関わり、該トレーニングは、前記第1のエンコードされたオーディオ・データおよび前記第2のエンコードされたオーディオ・データに少なくとも部分的に基づく、段階とを含む、
方法。
【請求項12】
前記入力オーディオ・データ・タイプを識別することは、前記入力オーディオ・データがポッドキャスト、映画もしくはテレビ番組のダイアログ、または音楽に対応するかどうかを判定することに関わる、請求項
11に記載の方法。
【請求項13】
選択されたコンテンツ・タイプの新しいコンテンツを生成するよう前記ニューラルネットワークをトレーニングする段階をさらに含む、請求項
11に記載の方法。
【請求項14】
請求項1ないし
13のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項15】
ソフトウェアが記憶されている一つまたは複数の非一時的な媒体であって、前記ソフトウェアは、請求項1ないし
13のうちいずれか一項に記載の方法を実行するように一つまたは複数のデバイスを制御するための命令を含む、一つまたは複数の非一時的な媒体。
【国際調査報告】