IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

<>
  • 特表-オーディオソース分離 図1
  • 特表-オーディオソース分離 図2
  • 特表-オーディオソース分離 図3
  • 特表-オーディオソース分離 図4
  • 特表-オーディオソース分離 図5
  • 特表-オーディオソース分離 図6
  • 特表-オーディオソース分離 図7
  • 特表-オーディオソース分離 図8
  • 特表-オーディオソース分離 図9
  • 特表-オーディオソース分離 図10
  • 特表-オーディオソース分離 図11
  • 特表-オーディオソース分離 図12
  • 特表-オーディオソース分離 図13
  • 特表-オーディオソース分離 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-04
(54)【発明の名称】オーディオソース分離
(51)【国際特許分類】
   G10L 21/0308 20130101AFI20240927BHJP
   G10L 25/30 20130101ALI20240927BHJP
   G10L 21/0324 20130101ALI20240927BHJP
   G10L 25/78 20130101ALI20240927BHJP
【FI】
G10L21/0308 Z
G10L25/30
G10L21/0324
G10L25/78
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024518662
(86)(22)【出願日】2022-09-27
(85)【翻訳文提出日】2024-05-21
(86)【国際出願番号】 EP2022076804
(87)【国際公開番号】W WO2023052345
(87)【国際公開日】2023-04-06
(31)【優先権主張番号】21200442.8
(32)【優先日】2021-10-01
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110003339
【氏名又は名称】弁理士法人南青山国際特許事務所
(72)【発明者】
【氏名】ウーリッヒ ステファン
(72)【発明者】
【氏名】ファブロ ジオージオ
(72)【発明者】
【氏名】エネクル ミハエル
(72)【発明者】
【氏名】ケンプ トーマス
(72)【発明者】
【氏名】大迫 慶一
(57)【要約】
イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソース及び残差信号を含む処理されたオーディオ信号を取得するように構成された回路を含み、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成された電子機器。
【選択図】 図3
【特許請求の範囲】
【請求項1】
イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソース及び残差信号を含む処理されたオーディオ信号を取得するように構成された回路を含み、前記イネーブル信号は、前記ソース分離をアクティブ化又は非アクティブ化するように構成された電子機器。
【請求項2】
前記ソース分離が前記イネーブル信号によって非アクティブ化された場合、前記オーディオ信号を調整して、調整されたオーディオ信号を前記処理されたオーディオ信号として取得するように構成された回路をさらに含む、請求項1に記載の電子機器。
【請求項3】
前記イネーブル信号の値に基づいて、スイッチの位置を変更して、前記ソース分離をアクティブ化又は非アクティブ化するように構成された回路をさらに含む、請求項1に記載の電子機器。
【請求項4】
前記ソース分離は、ディープニューラルネットワークによって実施され、前記イネーブル信号を用いて、前記DNNのいくつか又は全てのレイヤを非アクティブ化して、それらの出力がもはや更新されないようする、請求項1に記載の電子機器。
【請求項5】
前記イネーブル信号に基づいて、前記オーディオ信号にゲインを適用して、前記調整されたオーディオ信号を取得するように構成された回路をさらに含む、請求項2に記載の電子機器。
【請求項6】
前記ソース分離が前記イネーブル信号によって非アクティブ化された場合、前記オーディオ信号を遅延して、遅延されたオーディオ信号を取得するように構成された回路をさらに含む、請求項1に記載の電子機器。
【請求項7】
ユーザのボーカル信号にゲインを適用して、調整されたユーザのボーカル信号を取得するように構成された回路をさらに含み、前記ユーザのボーカル信号は、マイクロフォンによって取得される、請求項2に記載の電子機器。
【請求項8】
前記調整されたユーザのボーカルを前記処理されたオーディオ信号とミックスして、ミックスオーディオ信号を取得するように構成された回路をさらに含む、請求項7に記載の電子機器。
【請求項9】
前記分離されたソース及び前記残差信号に基づいて、イネーブル信号生成を実行して、前記イネーブル信号を取得するように構成された回路をさらに含む、請求項1に記載の電子機器。
【請求項10】
前記オーディオ信号に対してボーカル検出を実行して、ボーカル検出信号を取得するように構成された回路をさらに含み、前記イネーブル信号生成を、前記ボーカル検出信号、前記分離されたソース、及び前記残差信号に基づいて実行して、前記イネーブル信号を取得する、請求項9に記載の電子機器。
【請求項11】
前記イネーブル信号は、サーバ側で予め計算される、請求項9に記載の電子機器。
【請求項12】
前記イネーブル信号は、前記電子機器で曲を初めて再生する時に計算される、請求項9に記載の電子機器。
【請求項13】
前記分離されたソースは、ボーカルを含み、前記残差信号は、伴奏を含む、請求項1に記載の電子機器。
【請求項14】
前記ボーカルにゲインを適用して、調整されたボーカルを取得し、前記伴奏にゲインを適用して、調整された伴奏を取得するように構成された回路をさらに含む、請求項13に記載の電子機器。
【請求項15】
前記調整されたボーカルを前記調整された伴奏とミックスして、前記処理されたオーディオ信号を取得するように構成された回路をさらに含む、請求項14に記載の電子機器。
【請求項16】
前記オーディオ信号は、ボーカル及び伴奏のうちの少なくとも1つを含む、又は前記分離されたソースは、音声を含み、前記残差信号は、バックグラウンドノイズを含む、請求項1に記載の電子機器。
【請求項17】
前記処理されたオーディオ信号は、ラウドスピーカシステムに出力される、請求項1に記載の電子機器。
【請求項18】
オーディオ信号に対してソース分離を実行して、分離されたソース及び残差信号を取得し、
前記分離されたソース及び前記残差信号に基づいて、イネーブル信号生成を実行して、イネーブル信号を取得するように構成された回路を含み、前記イネーブル信号は、前記ソース分離をアクティブ化又は非アクティブ化するように構成された電子機器。
【請求項19】
前記分離されたソース及び前記残差信号に対してボーカル検出を実行して、ボーカル検出信号を取得するように構成された回路をさらに含み、前記イネーブル信号生成を、前記ボーカル検出信号、前記分離されたソース及び前記残差信号に基づいて実行して、前記イネーブル信号を取得する、請求項18に記載の電子機器。
【請求項20】
前記イネーブル信号は、ボーカル検出ネットワークを使用してサーバ側で予め計算されるか、又は前記イネーブル信号は、前記分離されたソース及び前記残差信号におけるエネルギー閾値を使用して、前記電子機器で曲を初めて再生する時に計算される、請求項18に記載の電子機器。
【請求項21】
イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソース及び残差信号を含む処理されたオーディオ信号を取得することを含み、前記イネーブル信号は、前記ソース分離をアクティブ化又は非アクティブ化するように構成されている、方法。
【請求項22】
プログラムがコンピュータによって実行される時、前記コンピュータに請求項21に記載の方法を実行させる命令を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、オーディオ処理の分野に関し、特に、オーディオ再生のための装置、方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
例えば、コンパクトディスク(CD)、テープ、インターネットからダウンロード可能なオーディオデータファイルの方式だけではなく、例えば、デジタルビデオディスク等に記憶されたビデオのサウンドトラックの方式で、利用可能な多くのオーディオコンテンツがある。
【0003】
音楽プレーヤが既存の音楽データベースの曲を再生している時、聴取者は、一緒に歌うことを望むことがある。一般的に、最新のカラオケやプレイアロングシステムでは、オーディオソース分離を常に使用して、再生中の曲のオリジナルボーカルが除去される。
【0004】
概して、エネルギー消費を低減するための方法及び装置を改善することが望ましい。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】欧州特許出願EP3201917号
【非特許文献】
【0006】
【非特許文献1】Uhlich, Stefan, et al. "Improving music source separation based on deep neural networks through data augmentation and network blending." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017.
【非特許文献2】Stoeter, Fabian-Robert et al. in "Open-Unmix - A Reference Implementation for Music Source Separation"
【発明の概要】
【課題を解決するための手段】
【0007】
第1の態様によれば、本開示は、イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得するように構成された回路を含む電子機器を提供し、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0008】
第2の態様によれば、本開示は、イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得することを含む方法を提供し、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0009】
第3の態様によれば、本開示は、プログラムがコンピュータによって実行される時、コンピュータに、イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得させる命令を含むコンピュータプログラムを提供し、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0010】
さらなる態様は、従属項、以下の説明、及び図面に記載されている。
【0011】
実施形態は、添付の図面に関して例として説明される。
【図面の簡単な説明】
【0012】
図1】音楽ソース分離(MSS)等のブラインドソース分離(BSS)によるオーディオミキシングの一般的なアプローチを概略的に示す。
図2】オーディオ処理に基づくオーディオミキシングのプロセスの一実施形態を概略的に示す。
図3図2に示したオーディオミキシングのプロセスにおいて実行されるオーディオ処理の一実施形態をより詳細に概略的に示すものであり、ソース分離は、イネーブル信号に基づいて実行される。
図4】リカレントニューラルネットワーク(RNN)と、RNNレイヤの前後の追加の非リカレント学習可能レイヤとを含むディープニューラルネットワークを概略的に示すものであり、図3に示したソース分離のスイッチオフが実行される。
図5】イネーブル信号が初めて生成される、イネーブル信号生成のプロセスの一実施形態を概略的に示す。
図6】曲再生中の経時的なイネーブル信号の図を概略的に示す。
図7図7aは、イネーブル信号値とスイッチ位置とがマッピングされたテーブルを概略的に示し、図7bは、イネーブル信号値とゲイン係数とがマッピングされたテーブルを概略的に示す。
図8】イネーブル信号値が真ボーカル及び伴奏である場合に実行される、図3に示したオーディオ処理の一実施形態をより詳細に概略的に示す。
図9】イネーブル信号値が偽のみボーカルである場合に実行される、図3に示したオーディオ処理の一実施形態をより詳細に概略的に示す。
図10】イネーブル信号値が偽のみ伴奏である場合に実行される、図3に示したオーディオ処理の一実施形態をより詳細に概略的に示す。
図11】ボーカル検出が実行される、イネーブル信号生成のプロセスの別の実施形態を概略的に示す。
図12】イネーブル信号に基づいてソース分離を実行して、ミックスオーディオ信号を取得することによって、オーディオ処理に関連する信号ミキシングのための方法を視覚化するフロー図を示す。
図13】調整されたオーディオ信号を取得するための、イネーブル信号に基づいたソース分離に関連するオーディオ処理のための方法を視覚化するフロー図を示す。
図14】イネーブル信号及びオーディオ処理に基づいてオーディオミキシングの処理を実施することができる電子機器の一実施形態を示すブロック図を示す。
【発明を実施するための形態】
【0013】
図1図14を参照して実施形態を詳細に説明する前に、いくつかの一般的な説明を行う。
【0014】
冒頭に示したように、一般的に、例えば、カラオケシステムのようなプレイアロングシステムでは、オーディオソース分離を常に使用して、再生中の曲のオリジナルボーカルが除去される。しかしながら、例えば、カラオケ装置では、そのような絶えず実行されるオーディオソース分離は、エネルギーを消費する可能性があり、その結果、カラオケ装置のバッテリが急速に消耗する可能性があることが認識されている。
【0015】
従って、いくつかの実施形態は、イネーブル信号に基づいて、オーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得するように構成された電子機器に関し、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0016】
電子機器の回路は、プロセッサを含んでもよく、例えば、CPU、メモリ(RAM、ROM等)、メモリ及び/又はストレージ、インターフェース等であってもよい。回路は、入力手段(マウス、キーボード、カメラ等)、出力手段(ディスプレイ(例えば、液晶、(有機)発光ダイオード等))、ラウドスピーカ等、(無線)インターフェース等を備えてもよく、又はこれらと接続されてもよく、これらは、電子機器(コンピュータ、スマートフォン等)で一般的に知られている。さらに、回路は、環境パラメータ(例えば、レーダ、湿度、光、温度)等を感知するための、静止画や動画データ(イメージセンサ、カメラセンサ、ビデオセンサ等)を感知するためのセンサを含むか、又はそれに接続されていてもよい。
【0017】
オーディオソース分離では、多数のソース(例えば、楽器、ボイス等)を含むオーディオ信号が分解されて分離される。オーディオソース分離は、管理されていない(「ブラインドソース分離」BSSと呼ばれる)場合もあれば、部分的に管理されている場合もある。「ブラインド」とは、ブラインドソース分離が、必ずしもオリジナルソースに関する情報を持っているとは限らないことを意味する。例えば、オリジナル信号がどれだけのソースを含んでいるか、又は入力信号のどの音情報がどのオリジナルソースに属するかを必ずしも知らないことがある。ブラインドソース分離の目的は、以前の分離を知らずに、オリジナル信号を分解することである。ブラインドソース分離ユニットは、当業者に知られている任意のブラインドソース分離技術を使用することができる。(ブラインド)オーディオソース分離では、確率論的又は情報理論的な意味で、又はオーディオソース信号に対する非負行列因数分解構造制約に基づいて、最小限に相関する、すなわち最大限に独立したオーディオソース信号を探索することができる。(ブラインド)ソース分離を実行するための方法は、当業者に知られており、例えば、主成分分析、特異値分解(独立成分分析、非負行列因数分解、人工ニューラルネットワーク等)に基づく。
【0018】
いくつかの実施形態は、分離されたオーディオソース信号を生成するためにブラインドソース分離を使用するが、本開示は、オーディオソース信号の分離のためにさらなる情報が使用されない実施形態に限定されず、いくつかの実施形態では、分離されたオーディオソース信号の生成のためにさらなる情報が使用される。このようなさらなる情報は、例えば、ミキシング処理に関する情報、入力オーディオコンテンツに含まれるオーディオソースのタイプに関する情報、入力オーディオコンテンツに含まれるオーディオソースの空間的位置に関する情報などである。
【0019】
オーディオ信号は、どのようなタイプのオーディオ信号でも構わない。アナログ信号、デジタル信号の形態とすることができ、コンパクトディスク、デジタルビデオディスク等から生じさせることもでき、ウェーブファイル、mp3ファイル等のようなデータファイルとすることもでき、本開示は、入力オーディオコンテンツの特定のフォーマットに限定されない。入力オーディオコンテンツは、例えば、第1のチャネル入力オーディオ信号及び第2のチャネル入力オーディオ信号を有するステレオオーディオ信号であってもよく、本開示は、2つのオーディオチャネルを有する入力オーディオコンテンツに限定されない。他の実施形態において、入力オーディオコンテンツは、5.1オーディオ信号のリミックス等、任意の数のチャネルを含んでいてよい。
【0020】
入力信号は、1つ以上のソース信号を含んでいてもよい。特に、入力信号は、いくつかのオーディオソースを含んでいてもよい。オーディオソースは、音波を生成する任意のエンティティ、例えば、楽器、ボイス、音声、ボーカル、人工的に生成された音、例えば、シンセサイザから生成されたもの等であり得る。
【0021】
入力オーディオコンテンツは、ミックスオーディオソースを表す、又は含んでいてよく、これは、その音情報が、入力オーディオコンテンツの全てのオーディオソースに対して個別に利用可能ではないが、異なるオーディオソースのための音情報が、例えば、少なくとも部分的にオーバーラップしているか、又はミックスされていることを意味する。
【0022】
オーディオ信号からのソース分離によって生成される分離されたソースは、例えば、「ボーカル」分離、「低音」分離、「ドラム」分離、及び「その他」分離を含んでいてよい。「ボーカル」分離において、人間の声に属する全ての音が含まれてもよく、「低音」分離において、所定の閾値周波数未満の全てのノイズが含まれてもよく、「ドラム」分離において、曲/楽曲の中の「ドラム」に属する全てのノイズが含まれてもよく、「その他」分離において、残りの全ての音が含まれてもよい。
【0023】
分離されたソースが「ボーカル」である場合、残差信号は、「伴奏」であってもよいが、本開示はそれに限定されない。あるいは、他のタイプの分離されたソースが取得されてもよく、例えば、音声強調の場合、分離されたソースは「音声」であってもよく、残差信号は「背景ノイズ」であってもよい。さらに、楽器分離の場合、分離されたソースは「ドラム」であってもよく、残差信号は「ボーカル」、「低音」、「ギター」、「その他」等であってもよい。
【0024】
音楽ソース分離(MSS)システムによって得られるソース分離は、干渉、クロストーク、又はノイズ等のアーチファクトとなる恐れがある。
【0025】
処理されたオーディオ信号は、分離されたソースと残差信号とを含む信号であってよい。言い換えれば、分離されたソースは、イネーブル信号に基づいてゲイン係数等によって調整され、次いで、処理されたオーディオ信号が取得されるように残差信号とミックスされてよい。
【0026】
イネーブル信号は、ブール信号、すなわち、ボーカルのみ、伴奏のみ、又はボーカル及び伴奏が、オーディオ信号に存在するかどうかを示す、真偽値を有する信号等のデジタル信号であってよい。あるいは、イネーブル信号は、バイナリ信号、すなわち、2つのバイナリ値、すなわち、「0」及び「1」値を有する信号であってもよいが、本開示はそれに限定されず、オーディオ信号にボーカルが存在するか否かを示す。さらに、イネーブル信号は、低音、ドラム、ボーカル、その他が、オーディオ信号に存在するか否かを示す4つのバイナリ値を有するバイナリ信号によるものであってもよい。さらに、イネーブル信号は、「オン」、「音声のみ」、「ノイズのみ」、又はそのサブセットのいずれかを示す値を有していてよい。
【0027】
イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するトリガとして作用する信号であってもよい。例えば、イネーブル信号は、ソース分離をオンに切り替える、すなわち、ソース分離がイネーブル信号によってアクティブ化された時、ソース分離は、受信されたオーディオに対して実行される。イネーブル信号は、ソース分離をスイッチオフしてよく、すなわち、ソース分離がイネーブル信号によって非アクティブ化される時、ソース分離は、受信されたオーディオに対して実行されない。
【0028】
いくつかの実施形態において、電子機器は、ソース分離がイネーブル信号によって非アクティブ化された場合、オーディオ信号を調整して、処理されたオーディオ信号として調整されたオーディオ信号を取得するように構成された回路をさらに含んでいてもよい。オーディオ信号は、処理されたオーディオ信号を取得するために、オーディオ信号にゲイン係数、例えばゲインパラメータを適用することによって調整してもよい。
【0029】
ソース分離は、イネーブル信号に基づいてアクティブ化及び非アクティブ化されてよい。ソース分離のアクティブ化及び非アクティブ化を実行することによって、電子機器、例えば、カラオケシステムのエネルギー消費が低減され得る。
【0030】
いくつかの実施形態において、電子機器は、ソース分離をアクティブ化又は非アクティブ化するために、イネーブル信号の値に基づいてスイッチの位置を変更するように構成された回路をさらに含んでいてもよい。例えば、スイッチの位置を変更することによって、ソース分離は、アクティブ化、すなわち、スイッチオン、又は非アクティブ化、すなわち、スイッチオフされ得る。
【0031】
いくつかの実施形態において、ソース分離は、ディープニューラルネットワーク(DNN)によって実施されてもよく、イネーブル信号は、それらの出力がもう更新されないように、DNNのいくつかの又は全てのレイヤを非アクティブ化するために使用してもよい。ディープニューラルネットワーク(DNN)は、例えば、リカレントニューラルネットワーク(RNN)、フィードフォワードネットワーク(FFNN)、畳み込みニューラルネットワーク(CNN)等、任意の種類のDNNであってよい。ソース分離は、ニューラルネットワーク、また、ニューラルネットワークレイヤの隠れ状態を凍結することによって非アクティブ化され、このようにして、全ての計算を保存してもよい。あるいは、ソース分離は、ニューラルネットワークレイヤまでニューラルネットワークを介して順方向伝搬を実行することによって非アクティブ化して、隠れ状態を更新してもよく、このようにして、復号レイヤの動作等、ニューラルネットワークの後に来る全ての動作を保存してもよい。
【0032】
いくつかの実施形態において、イネーブル信号は、イネーブル信号の値が「真」である場合に、ソース分離をアクティブ化し、イネーブル信号の値が「偽」である場合に、ソース分離を非アクティブ化するように構成してよい。例えば、いくつかの実施形態において、イネーブル信号の値は、「真ボーカル及び伴奏」、「偽のみボーカル」、又は「偽のみ伴奏」であってもよいが、本開示はそれに限定されない。あるいは、イネーブル信号の値は、「オン」、「音声のみ」、「ノイズのみ」、又はそのサブセットであってもよい。
【0033】
いくつかの実施形態において、電子機器は、イネーブル信号の値が「真ボーカル及び伴奏」である場合は、ソース分離をアクティブ化するように、又は、イネーブル信号の値が「偽のみボーカル」又は「偽のみ伴奏」である場合は、ソース分離を非アクティブ化するように構成された回路をさらに含んでいてもよい。このようにして、オーディオ信号がボーカルのみ又は伴奏のみを含む場合、ソース分離はイネーブル信号によって非アクティブ化される。イネーブル信号「真ボーカル及び伴奏」の値は、オーディオ信号がボーカル及び伴奏を含むことを示してもよい。イネーブル信号「偽のみボーカル」の値は、オーディオ信号がボーカルのみを含むことを示してもよい。イネーブル信号「偽のみ伴奏」の値は、オーディオ信号が伴奏のみを含むことを示してもよい。
【0034】
いくつかの実施形態において、電子機器は、調整されたオーディオ信号を取得するために、イネーブル信号に基づいてオーディオ信号にゲインを適用するように構成された回路をさらに含んでいてもよい。例えば、いくつかの実施形態において、電子機器は、ソース分離がイネーブル信号に基づいて非アクティブ化される場合、遅延されたオーディオ信号を取得するためにオーディオ信号に対して遅延を実行し、オーディオ信号を調整して、調整されたオーディオ信号を取得するように、遅延されたオーディオ信号にゲインを適用するように構成された回路をさらに含んでいてもよい。処理されたオーディオ信号は、調整されたオーディオ信号を含んでいてもよい。あるいは、処理されたオーディオ信号は、調整されたオーディオ信号であってもよい。
【0035】
オーディオ信号は、ボーカルを含むオーディオ信号であってもよく、又はボーカルのみであってもよく、ゲインは、ゲイン係数、すなわち、ボーカルに適用されるゲインパラメータ、例えば、+3dB、-12dB、-20dBであって、ボーカルのボリュームを増減し、又は無音を生成するためのゲイン係数等であってもよい。しかしながら、当業者であれば、特定の使用事例の必要性に応じて、他の方法で適用されるゲインを選択することができる。
【0036】
あるいは、オーディオ信号は、伴奏又は伴奏のみを含むオーディオ信号であってもよく、ゲインは、伴奏のボリュームを増加、減少、又は不変のままにするために、ゲイン係数、すなわち、伴奏に適用されるゲインパラメータ、例えば、+6dB、0dB、-6dB等であってもよい。例えば、当業者であれば、当該の器具の特定の要件に従って、又は特定の使用事例の必要性に従って、予め定義されたパラメータとして伴奏に適用されるゲイン係数を設定することができる。
【0037】
いくつかの実施形態において、電子機器は、調整されたユーザのボーカル信号を取得するためにユーザのボーカル信号にゲインを適用するように構成された回路をさらに含んでいてもよく、ユーザのボーカル信号は、マイクロフォンによって取得されてよい。ゲインは、ゲイン係数、すなわち、ユーザのボーカル信号に適用されるゲインパラメータ、例えば、+3dB、+6dB、-3dB等であって、ユーザのボーカルのボリュームを増減してよい。しかしながら、当業者であれば、特定の使用事例の必要性に応じて、他の方法で適用されるゲインを選択することができる。
【0038】
いくつかの実施形態において、電子機器は、調整されたユーザのボーカル信号を、処理されたオーディオ信号とミックスして、ミックスオーディオ信号を取得するように構成された回路をさらに含んでいてもよい。
【0039】
いくつかの実施形態において、電子機器は、分離されたソースと残差信号とに基づいてイネーブル信号生成を実行してイネーブル信号を取得するように構成された回路をさらに含んでいてもよいが、本開示はそれに限定されない。いくつかの実施形態において、電子機器は、オーディオ信号に対して音声検出を実行して、ボーカル検出信号を取得するように構成された回路をさらに含んでいてもよい。
【0040】
いくつかの実施形態において、電子機器は、オーディオ信号に対してボーカル検出を実行して、ボーカル検出信号を取得するように構成された回路をさらに含んでいてもよく、イネーブル信号生成を、ボーカル検出信号、分離されたソース、及び残差信号に基づいて実行して、イネーブル信号を取得する。
【0041】
いくつかの実施形態において、イネーブル信号は、電子機器で曲を初めて再生する時に計算されてよい。イネーブル信号は、ボーカル及び/又は伴奏信号における単純なエネルギー閾値を使用することによって、オーディオを初めて聴いた時のソース分離自体の出力によって計算されてよいが、本開示はそれに限定されない。
【0042】
いくつかの実施形態において、イネーブル信号は、サーバ側で予め計算されてもよい。例えば、イネーブル信号は、「ボーカル検出ネットワーク」を使用してストリーミングサーバ側で予め計算されてもよく、次いで、オーディオと共に電子機器に送信される。この送信は、透かし技術によって信号をオーディオに直接埋め込むことによって行ってよい。あるいは、イネーブル信号は、小規模「ボーカル検出ネットワーク」を使用して電子機器で計算されてもよい。計算が必要とされるよりも多くの動作がイネーブル信号と共に保存される場合、これによって全体的な電力消費が低減し得る。
【0043】
いくつかの実施形態において、分離されたソースは、ボーカルを含んでもよく、残差信号は、伴奏を含んでもよい。
【0044】
いくつかの実施形態において、電子機器は、調整されたボーカルを取得するためにボーカルにゲインを適用し、調整された伴奏を取得するために伴奏にゲインを適用するように構成された回路をさらに含んでいてもよい。ゲインは、ボーカルのボリュームを増減するためのゲイン係数、すなわちボーカルに適用されるゲインパラメータ、例えば、-12dB、-20dB等であってもよい。ゲインは、例えば、-3dB、0dB、+3dB、+6dB等、伴奏に適用されるゲインパラメータであり、伴奏のボリュームを増加、減少、又は不変のままにする。しかしながら、当業者であれば、特定の使用事例の必要性に応じて、他の方法で適用されるゲインを選択することができる。
【0045】
いくつかの実施形態において、電子機器は、処理されたオーディオ信号を取得するために、調整されたボーカル信号を調整された伴奏とミックスするように構成された回路をさらに含んでいてもよい。
【0046】
いくつかの実施形態において、オーディオ信号は、ボーカル及び伴奏のうちの少なくとも1つを含んでいてよいが、本開示はそれに限定されない。あるいは、いくつかの実施形態において、分離されたソースは、音声を含んでいてよく、残差信号は、背景ノイズを含んでいてよい。さらに、分離されたソースは、ドラムを含んでいてもよく、残差信号は、低音、その他を含んでいてもよい。使用事例に応じて、ソース分離は、適切な分離されたソース及び適切な残差信号を取得するために実行されてもよい。
【0047】
いくつかの実施形態において、ユーザのボーカルは、マイクロフォンによって取得されてもよい。いくつかの実施形態において、マイクロフォンは、スマートフォン、ヘッドフォン、TVセット、ブルーレイプレーヤ等の電子機器のマイクロフォンであってもよい。
【0048】
いくつかの実施形態において、処理されたオーディオ信号は、ラウドスピーカシステムに出力されてもよい。ラウドスピーカシステムは、電子機器のユーザが、再生されたオーディオを聴いている間に一緒に歌ってもよいように、電子機器のラウドスピーカアレイであってもよい。実施形態はまた、分離されたソース及び残差信号を取得するためにオーディオ信号に対してソース分離を実行し、イネーブル信号を取得するために分離されたソース及び残差信号に基づいてイネーブル信号生成を実行するように構成された回路を含む電子機器を開示しており、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0049】
いくつかの実施形態において、電子機器は、分離されたソース及び残差信号に対してボーカル検出を実行して、ボーカル検出信号を取得するように構成された回路をさらに含んでいてもよく、イネーブル信号生成を、ボーカル検出信号、分離されたソース及び残差信号に基づいて実行して、イネーブル信号を取得する。
【0050】
いくつかの実施形態において、イネーブル信号は、ボーカル検出ネットワークを使用してサーバ側で予め計算されてもよく、又はイネーブル信号は、分離されたソース及び残差信号におけるエネルギー閾値を使用して、電子機器で曲を初めて再生する時に計算されてもよい。
【0051】
実施形態はまた、イネーブル信号に基づいてオーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得することを含む方法を開示しており、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0052】
本明細書に記載の方法はまた、コンピュータ及び/又はプロセッサで実行される時に、コンピュータ及び/又はプロセッサに方法を実行させるコンピュータプログラムとして、いくつかの実施形態において実施されることに留意されたい。いくつかの実施形態において、上述のプロセッサによって実行される時、本明細書に記載の方法を実行させるコンピュータプログラム製品を記憶する、非一時的コンピュータ可読記録媒体も提供される。
【0053】
実施形態はまた、プログラムがコンピュータによって実行される時、コンピュータに、イネーブル信号に基づいてオーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得させる命令を含むコンピュータプログラムを開示しており、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0054】
実施形態はまた、プロセッサによって実行された時、イネーブル信号に基づいてオーディオ信号に対してソース分離を実行して、分離されたソースと残差信号とを含む処理されたオーディオ信号を取得する、コンピュータプログラム製品を記憶する、非一時的コンピュータ可読記録媒体を開示しており、イネーブル信号は、ソース分離をアクティブ化又は非アクティブ化するように構成される。
【0055】
オーディオソース分離によるオーディオミキシング
図1は、オーディオソース分離(MSS)のようなブラインド音分離(BSS)によるオーディオミキシングの一般的なアプローチを概略的に示す。
【0056】
第1に、ソース分離(「デミキシング」とも呼ばれる)が実行され、複数のチャネルIを含むソースオーディオ信号1と、複数のオーディオソース、ソース1、ソース2...ソースK(例えば、楽器、ボイス等)からのオーディオとを、「分離」、ここでは各チャネルiについてのソース推定値2a~2dへ分解する。Kは整数であり、オーディオソースの数を示す。本実施形態において、ソースオーディオ信号1は、2つのチャネルi=1及びi=2を有するステレオ信号である。例えば、オーディオソースのミキシングに起因して、オーディオソース信号の分離が不完全である場合、分離されたオーディオソース信号2a~2dに加えて、残差信号3(r(n))が生成される。この残差信号は、例えば、入力オーディオコンテンツと、全ての分離されたオーディオソース信号の和との差を表すことがある。各オーディオソースによって発信されるオーディオ信号は、入力オーディオコンテンツ1において、そのそれぞれの記録された音波によって表される。ステレオ又はサラウンドサウンド入力オーディオコンテンツ等、2つ以上のオーディオチャネルを有する入力オーディオコンテンツの場合、オーディオソースのための空間情報も、典型的には、入力オーディオコンテンツに含まれるか、又は、それによって(例えば、異なるオーディオチャネルに含まれるオーディオソース信号の割合によって)表される。入力音声コンテンツ1の、分離されたオーディオソース信号2a~2d及び残差3への分離は、ブラインドソース分離又はオーディオソースを分離することができる他の技法に基づいて実行される。
【0057】
第2のステップでは、分離2a~2d及び起こり得る残差3が、リミックスされ、新たなラウドスピーカ信号4、ここでは5つのチャネル4a~4eを含む信号、すなわち5.0チャネルシステムにレンダリングされる。分離されたオーディオソース信号及び残差信号に基づいて、空間情報を考慮に入れて分離されたオーディオソース信号及び残差信号をミックスすることによって、出力オーディオコンテンツが生成される。出力オーディオコンテンツは、図1に例示的に参照番号4で示されている。
【0058】
以下では、入力オーディオコンテンツの音声チャネル数をMinとし、出力オーディオコンテンツの音声チャネル数をMoutとする。図1の例における入力オーディオコンテンツ1は、2つのチャネルi=1及びi=2を有し、図1の例における出力オーディオコンテンツ4は、5つのチャネル4a~4e、Min=2及びMout=5を有する。図1のアプローチは、一般に、リミキシングと呼ばれ、特に、Min<Moutである場合、アップミキシングと呼ばれる。図1の例では、入力オーディオコンテンツ1の音声チャネル数Mm=2が、出力オーディオコンテンツ4の音声チャネル数Mout=5よりも少なく、従って、ステレオ入力オーディオコンテンツ1から5.0サラウンドサウンド出力オーディオコンテンツ4へのアップミキシングである。
【0059】
上記の図1に示されたソース分離プロセスに関する技術的詳細は、当業者に知られている。ブラインドソース分離を実行するための例示的な技術は、例えば、特許文献1又は非特許文献1に開示されている。また、Open-Unmix、DEMUCS、Spleeter、Asteroid等のブラインドソース分離を実行するためのプログラミングツールキットも存在し、当業者であれば、上記の図1に示されるようなソース分離プロセスを実行することができる。RNN前後に追加の非リカレント学習可能レイヤを含むことが知られており、その役割は、非特許文献2によって記載されているように、RNNに、より適切な信号表現をRNNに提供するために信号を符号化することであり、RNNの前後に追加のレイヤが使用される。
【0060】
オーディオ処理及びイネーブル信号に基づくオーディオミキシング
図2は、オーディオ処理に基づくオーディオミキシングのプロセスの一実施形態を概略的に示す。この処理により、イネーブル信号に基づくオーディオ処理を用いて音声ミキシングを行うことができる。
【0061】
例えば、複数のチャネル(例えば、Mm=2)を有する複数のソース(図1の1、2、…、Kを参照)を含むオーディオ200(図1のオーディオ入力信号1を参照)、例えば、楽曲が、オーディオ処理202に入力され、イネーブル信号201に基づいて処理され、処理されたオーディオ206、すなわち処理されたオーディオ信号が取得される。ゲイン204が、ユーザのボーカル203に適用されて、調整されたユーザのボーカル207が取得される。ミキサー205は、処理されたオーディオ206を、調整されたユーザのボーカル207とミックスして、ミックスオーディオ208、すなわち、ミックスオーディオ信号が取得される。
【0062】
図2の実施形態において、オーディオ処理は、図4に示されるように、音楽プレーヤ等の再生装置によって、オーディオ、例えば、曲を初めて再生する時に、ソース分離中に取得されるイネーブル信号に基づいて実行される。イネーブル信号は、ブール信号、すなわち、真値及び偽値を有する信号等のデジタル信号、又はバイナリ信号、すなわち、「0」値及び「1」値を有する信号であってよい。本開示においては、図5に示されるように、イネーブル信号は、真偽値を有するブール信号であるが、本開示はそれに限定されない。あるいは、イネーブル信号は、バイナリ信号等であってもよい。
【0063】
図2の実施形態において、ユーザのボーカルにゲインを適用して、ユーザの好みに従ってユーザのボーカルを調整する。例えば、ゲインは、それに応じてユーザのボーカルを調整するプリセットパラメータであってもよいし、ユーザがリアルタイムで設定するパラメータであってもよい。プリセットゲインパラメータは、所定のボリューム変更パラメータ等を含んでいてもよい。ゲインパラメータは、ボーカルに関連する所定のボリューム増加パラメータ又は減少パラメータを含んでいてもよい。例えば、所定のボリューム増加パラメータは、+3dBのボリューム増加パラメータ等であってもよく、所定のボリューム減少パラメータは、-3dBのボリューム増加パラメータ等であってもよいが、本開示はそれに限定されない。当業者であれば、適した任意のパラメータを使用して、ユーザのボーカルを調整することができる。あるいは、ユーザのボーカルにゲインが適用されなくてもよい。
【0064】
ユーザのボーカル203は、マイクロフォン、例えば、マイクロフォンアレイに含まれるマイクロフォン(図13の1310を参照)を介して受信されてもよいことに留意されたい。
【0065】
処理されたオーディオ206及び/又はミックスオーディオ208は、ラウドスピーカシステム(図13の1309を参照)、例えば、耳上、耳内、耳かけ、ワイヤレスヘッドフォン等に出力されてもよく、及び/又は、記録媒体、例えば、CD等に記録されてもよく、又は、電子機器のメモリ(図13の1302を参照)等に記憶されてもよいことに留意されたい。例えば、処理されたオーディオ206は、ユーザが再生されたオーディオと一緒に歌うことができるように、ユーザのヘッドフォンに出力される。
【0066】
ソース分離及びイネーブル信号に基づくオーディオ処理
図3は、図2に示されたオーディオミキシングのプロセスにおいて実行されるオーディオ処理の実施形態をより詳細に概略的に示し、ここで、ソース分離は、イネーブル信号に基づいて実行される。本実施形態において、イネーブル信号は、図4に示したように、イネーブル信号生成処理によって既に生成され、メモリに記憶されている。
【0067】
複数のソース(図1の1、2、…、Kを参照)を、例えば、複数のチャネル(例えば、Mm=2)、例えば、楽曲と共に含むオーディオ200(図1のオーディオ入力信号1も参照)は、上記の図2に示されるように、イネーブル信号201と一緒にオーディオ処理202に入力される。ソース分離301は、オーディオ処理202中に、オーディオ信号200に対して実行され、オーディオ信号200は、ここでは、ボーカル及び伴奏に分解される。本実施形態において、ソース分離301は、ソース分離が実行されるアクティブ化状態、すなわち、スイッチオン状態である第1の状態と、ソース分離が実行されない非アクティブ化状態、すなわち、スイッチオフ状態である第2の状態との2つの状態を有する。イネーブル信号201に基づいて、オーディオ処理202が、オーディオ200に対して実行され、イネーブル信号201は、ソース分離301をアクティブ化、すなわちスイッチオン、又は非アクティブ化、すなわちスイッチオフする。図3の実施形態において、ソース分離の状態がアクティブ化状態、すなわち、ソース分離がスイッチオンに切り換えられた状態(ここではスイッチ300の位置AB)である場合、オーディオ信号200に対してソース分離が実行されて、ボーカル及び伴奏が取得される。ソース分離の状態が非アクティブ化状態、すなわちソース分離がスイッチオフされた状態(ここではスイッチ300の位置AC)である場合、ソース分離は実行されず、オーディオ信号200は遅延303及びゲイン304によって処理される。イネーブル信号201は、オーディオの持続時間中に、オーディオ200がボーカルのみ、伴奏のみ、又はボーカル及び伴奏を含むかどうかを示し、従って、ソース分離301がアクティブ化されているか非アクティブ化されているかどうかを示す。
【0068】
ソース分離モデルは、ニューラルネットワーク、例えば、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)等の機械学習技法を使用してよい。このソース分離モデルでは、ソース分離301がリカレントニューラルネットワークとして実施される。例えば、ニューラルネットワーク内のRNNレイヤの場合、ネットワークをスイッチオフするための少なくとも2つの方法があり、ここでは、ソース分離301をスイッチオフする。1つの方法は、ニューラルネットワークをフリーズし、従ってRNNレイヤの隠れ状態をフリーズし、このようにして全ての計算を保存することである(以下の図4を参照)。別の方法は、ニューラルネットワークを通ってRNNレイヤまで順方向伝搬し、それらの隠れ状態を更新し、このようにして、RNNの後に来る全ての動作、すなわち復号レイヤ(以下の図4を参照)を保存することである。
【0069】
図3の実施形態において、イネーブル信号201が、オーディオ200がボーカル及び伴奏を含むことを示す場合、ソース分離301がスイッチオンされ(ここではスイッチ300の一対のコンタクトABが接続される)、オーディオ200は上記の図1を参照して説明したように、分離(図1の分離されたソース2a~2d及び残差信号3を参照)に分解される。本実施形態において、オーディオ200は、ボーカルと伴奏(分離されたソース2と残差信号3)とに分解される。イネーブル信号201に基づいて、ボーカル及び伴奏はゲイン302によって調整され、例えば、ゲイン係数がボーカル及び伴奏に適用されて、調整されたボーカル及び調整された伴奏が、それぞれ取得される。ミキサー305は、調整されたボーカルを調整された伴奏とミックスして、処理されたオーディオ206が取得される。すなわち、ソース分離301から予想されるレイテンシ、例えば、時間遅延△tが存在する。予想される時間遅延は、既知の所定のパラメータであり、これは、所定のパラメータとして遅延303において設定してよい。
【0070】
イネーブル信号201が、オーディオ200がボーカルのみ又は伴奏のみを含むことを示す場合、ソース分離301はスイッチオフされ(ここではスイッチ300の一対のコンタクトACが接続される)、遅延303がオーディオ200に実行され、遅延されたオーディオ、すなわち、遅延されたオーディオ信号、例えば、遅延されたボーカル又は遅延された伴奏が取得される。イネーブル信号201に基づいて、遅延されたオーディオは、ゲイン304によって調整され、例えば、ゲイン係数が、遅延されたオーディオに適用されて、調整されたオーディオが取得される。調整されたオーディオは、処理されたオーディオ206であり、調整されたユーザのボーカル(図2の207を参照)とミックスされて、上記の図2に示したミックスオーディオ(図2の208を参照)が取得される。すなわち、予想されるレイテンシ、例えば、ソース分離からの時間遅延△tがある。予想される時間遅延は、既知の所定のパラメータであり、これは、所定のパラメータとして遅延303において設定されてよい。遅延303において、オーディオ信号、ここではボーカル又は伴奏は、ソース分離301プロセスに起因して、予想されるレイテンシだけ遅延されて、遅延されたボーカル又は遅延された伴奏が取得される。これは、ソース分離301プロセスに起因して、レイテンシが、ボーカル又は伴奏のそれぞれの遅延によって補償されるという効果を有する。
【0071】
図3の実施形態において、イネーブル信号201に基づいて、遅延されたオーディオ又はボーカル及び伴奏は、ゲイン、例えば、オーディオ又はボーカル及び伴奏のボリュームをそれぞれ増加、減少、又は不変のままにするゲイン係数によって調整される。ゲイン係数は、ユーザがリアルタイムで設定してもよいし、予め静的に設定してもよい。本実施形態において、ボーカル信号のボリュームを-12dBに等しいゲイン係数だけ増減する等して、ボーカルを調整してもよいが、本実施形態はそれに限定されない。伴奏は、ボーカル信号のボリュームを、-3dB、0dB、+3dB等に等しいゲイン係数だけ増加、減少、又は不変のままにすることによって調整してもよいが、本実施形態はそれに限定されない。遅延されたオーディオは、遅延されたオーディオが遅延されたボーカルである場合には-12dB、-20dBに等しいゲイン係数、又は遅延されたオーディオが遅延された伴奏である場合には0dB、+3dBに等しいゲイン係数によって調整されてもよいが、本実施形態はそれに限定されない。ボーカル、伴奏、又は遅延されたオーディオを調整するために、当業者に適した任意のゲイン係数を使用してよい。あるいは、ボーカル、伴奏、又は遅延されたオーディオにゲインを適用しなくてもよい。あるいは、オーディオがボーカルのみである場合、無音のみが出力されるように遅延ボーカルが調整されてもよいし、オーディオが伴奏のみである場合、伴奏が処理されたオーディオ206として直接出力されるように遅延された伴奏が調整されなくてもよい。
【0072】
上述のように、すなわち、ソース分離301及びゲイン304は、リアルタイムで、例えば、いくらかのレイテンシ、ここでは遅延303を伴って「オンライン」で実行され得る。例えば、それらは、スマートフォン、ユーザのスマートウォッチ、ヘッドフォン、ブルートゥース(登録商標)デバイス等で直接実行され得る。
【0073】
ソース分離301プロセスは、例えば、非特許文献1により詳細に記載されているように実施されてもよい。また、Open-Unmix、DEMUCS、Spleeter、Asteroid等のブラインドソース分離を実行するためのプログラミングツールキットが存在し、当業者であれば、上記の図1に示されるようなソース分離プロセスを実行することができる。
【0074】
図2の実施形態において、ソース分離が、曲であるオーディオに対して実行されて、ボーカル及び伴奏に分解されるが、本実施形態はそれに限定されない。あるいは、他のタイプのソース分離が実行されてもよい。例えば、音声強調が実行されてもよく、オーディオは、例えば、レクチャーであり、音声とノイズに分解される。そのような場合、イネーブル信号は、「オン」、「音声のみ」、「ノイズのみ」、又はそのサブセットのいずれかとすることができる。さらに、楽器分離が実行されてもよく、オーディオは、例えば、録音されたコンサートであり、低音、ドラム、ボーカル、及びその他に分解される。そのような場合、イネーブル信号は、「低音」、「ドラム」、「ボーカル」、「その他」が存在するか否かを示す4つのバイナリ値を有するバイナリ信号であってもよい。
【0075】
イネーブル信号201を使用することによって、電子機器のエネルギー消費が低減される可能性があり、電子機器は、再生デバイスであってもよいことに留意されたい。ソース分離301等のソース分離モデルは、ニューラルネットワークに、分離する必要があるかどうか、又は、現在、ボーカルのみが存在するか、又は伴奏のみが存在し、分離が必要とされないかどうかを知らせるために、イネーブル信号を用いてトレーニングされてもよい。これは、例えば、変更条件、例えば、「唯一の楽器」から「楽器及びボーカル」への変更に迅速に適応するために、ソース分離モデルがそれから来る情報を活用することを可能にし得る。
【0076】
図3の実施形態において、ソース分離が、リカレントニューラルネットワーク(RNN)によって実施される。リカレントニューラルネットワークは、その入力に加えて、タスクを実行するために内部状態を使用するニューラルネットワークである。新しい内部状態は、古い内部状態から計算され、新しい内部状態の入力は、古い内部状態の出力である。言い換えれば、RNNは、次の時間ステップ、すなわち、次の状態のための入力として、それらの出力の一部が取得される。RNNは、1つ以上の入力ベクトルを取得し、1つ以上の出力ベクトルを生成することができ、出力は、入力に適用される重みによって、及び前の入力/出力に基づいてコンテキストを表す隠れ状態ベクトルによって影響を受ける。典型的には、RNNでは同じ重みが各入力に適用される。
【0077】
以下の図4の実施形態において、ニューラルネットワークは、ソース分離を実施するRNNであり、ソース分離は、イネーブル信号に基づいてスイッチオフされる(ここではスイッチの状態はACである)。イネーブル信号(図2及び3の201を参照)は、DNN、ここではRNNのいくつか又は全てのレイヤを非アクティブ化するために使用され、その結果、それらの出力もはや更新されない。
【0078】
図4は、リカレントニューラルネットワーク(RNN)と、RNNレイヤの前後の追加の非リカレント学習可能レイヤとを含むディープニューラルネットワークを概略的に示し、図3に示されたソース分離のスイッチオフが実行される。
【0079】
本実施形態では、Open-Unmixを用いてソース分離を行うディープニューラルネットワーク(図3の301参照)が示されている。非特許文献2に記載されているように、Open-Unmixは、3レイヤ双方向ロングショートタームメモリ(BLSTM)ネットワークに基づいている。このモデルは学習して、ミックス入力、例えば、オーディオ信号(図2の200を参照)の振幅スペクトログラム500から、ターゲット、例えば、ボーカル(図1の分離されたソース2を参照)の振幅スペクトログラム517を予測する。内部的には、入力にマスクを適用することによって予測が得られる。複数のソースへの分離を実行するために(図1の分離2a~2dを参照)、複数のモデルが、各ターゲットについて、すなわち各分離についてトレーニングされる。
【0080】
Open-Unmixモデルは、双方向LSTMセルを使用し、従って、オフラインでミックスを処理するが、本実施形態において、双方向LSTMセルは、一方向LSTMセルに置き換えられる。それによって、Open-Unmixモデルは、因果的であり、オンライン分離等のオンラインカラオケ作業に使用することができる。
【0081】
典型的には、Open-Unmixは、その予測を実行するために、時間-周波数領域で動作し、従って、モデルの入力は、時間領域信号テンソル又は予め計算された振幅スペクトログラムのいずれかとすることができる。例えば、振幅スペクトログラムは、時間にわたるオーディオ信号(図2の200を参照)の対数的にスケーリングされた振幅スペクトルとして定義することができる。
【0082】
クロッピング501は、クロップされたミックススペクトログラムを取得するために、左右のチャネルを有する入力ミックススペクトログラム500に対して実行される。クロッピング501は、高周波数のみが除去され、従って、情報が経時的に失われないように、周波数次元にわたって実行される。クロップされたミックススペクトログラムは、全てのフレームにわたる全ての周波数ビンについてのグローバル平均及び標準偏差を使用して、入力スケーラ502によって標準化される、すなわち正規化される。標準化されたクロップされたミックススペクトログラムは、特徴変換、例えば、アフィン変換(すなわち、アフィンレイヤfc1)を適用する第1の完全に接続されたレイヤ(fc1)503を通過し、それにより、単方向LSTMネットワーク506のためのより適切な表現、例えば、特徴が得られる。加えて、入力スペクトログラムの次元、すなわち、周波数成分を表すために使用できる数値の数は、完全に接続されたレイヤ(fc1)503によって低減され、従って、入力における冗長性が低減される。言い換えれば、完全に接続されたレイヤ(fc1)503は、モデルの周波数及びチャネル軸を圧縮し、両方のチャネル(及び1つのフレーム)の振幅STFTビンを特徴にマッピングする。第1の一括正規化(bn1)504が特徴に対して実行され、続いて、数値を[-1,1]に圧縮するアクティブ化関数として使用されるタンエイチ関数505が実行される。Open-Unmixのコアは、3レイヤの単方向ロングショートタームメモリ(Uni-LSTM)ネットワーク506である。本実施形態においては、Uni-LSTMがスイッチオフされ、ソース分離が実行されないため、単方向LSTMネットワーク506は使用されない。RNNであるLSTMネットワーク506の後、一括正規化(bn2)509及び(bn3)512と一緒に、2つ以上のアフィン変換(すなわち、アフィンレイヤfc2及びfc3)が適用される。特に、推定されたターゲットソース表現は、完全に接続されたレイヤ(fc2)508に入力され、続いて、第2の一括正規化(bn2)509と、アクティブ化関数である整流線形ユニット(ReLU)510が続く。次いで、ReLU510の出力は、スペクトログラムのSTFT次元の復元を実行する第3の完全に接続されたレイヤ(fc3)511に入力される。第3の完全に接続されたレイヤ(fc3)511の後に、第3の一括正規化(bn3)512と、数値を非正規化する出力スケーラ513が続く。ReLU514アクティブ化関数が出力スケーラ513の出力に適用され、次いで、ミックススペクトログラム500と乗算され516、モデルは、マスクを予測するように求められる。
【0083】
上述のプロセスは、動作フェーズ、すなわち、マスクが予測される「評価フェーズ」中にネットワーク内で内部的に実行されるプロセスである。動作フェーズ、すなわち「評価フェーズ」は、マスクではなくモデルのパラメータが学習される「トレーニングフェーズ」とは無関係であり、その後である。
【0084】
Open-Unmixニューラルネットワークは、リカレントニューラルネットワーク(RNN)、すなわち、UniLSTM506と、追加の非リカレント学習可能レイヤ、すなわち、RNNレイヤの前後に適用される一括正規化bnl、bn2、bn3を有するアフィンレイヤfc1、fc2、fc3を含む。一括正規化bnl、bn2、bn3を有するアフィンレイヤは、モデルの複数の段階で実行され、特徴変換は、アフィンレイヤfc1、fc2、fc3によって実行され、一括正規化レイヤは、特徴を正規化するためにのみ使用される。このようにして、ディープアーキテクチャのトレーニングがより容易になり得る。
【0085】
本実施形態において、ソース分離を行わない場合には、LSTMネットワーク506をスイッチオフする。ネットワークのスイッチオフは、fc2、bn2、fc3及びbn3を介して何も計算せず、内部LSTM状態のみを更新することを意味する。最初の2つのLSTMの出力は、連続するLSTMレイヤの状態を更新するために使用され、最後のBLSTMの出力は使用されない。
【0086】
上述のニューラルネットワークのスイッチオフは、2つの方法で、すなわち、ネットワークを介して何も計算しないこと(隠れ状態は更新されない)によって、又はRNNまでの計算のみを実行することによって実行することができ、内部状態を更新するが、新たな出力を生成することはない。
【0087】
例えば、ニューラルネットワークを介して何も計算しないことによって、RNNレイヤの隠れ状態が凍結され、従って、実行されたであろう全ての計算が保存される。例えば、RNN及びそのレイヤを凍結することは、ネットワークを介して何も計算しないこと(例えば、隠れ状態を更新しないことを伴う)によって実行されてもよい。言い換えると、RNN及びその隠れ状態が、隠れ状態を更新しないこと、すなわち、変更しないことによって、凍結される時、LSTMは動作していない。このようにして、その時点までに実行された計算が保存される。
【0088】
本実施形態において、計算が実行されない(LSTMが動作していない)ので、RNNは出力を有さず、すなわち、出力が不要であるので、入力はRNNを介して順方向に送られない。あるいは、ニューラルネットワークのスイッチオフは、RNNまでの計算を実行するだけで実行することができ、内部状態が更新されるが、新たな出力は生成しない。例えば、ソース分離をスイッチオフするために、ニューラルネットワークを介してRNNレイヤまで順方向伝搬が行われ、その後、RNN隠れ状態の更新が行われ、RNNの後に来る全ての動作が保存される。そのような動作は、復号レイヤにおいて実行される復号動作である。
【0089】
このように、LSTMの内部状態は更新されるが、最後のLSTMの出力は使用されない。この場合、LSTMは、スイッチオフ信号の値に関係なく、常に完全に動作可能である(ニューラルネットワークの後続のレイヤにおける計算は実行されない)。従って、隠れ状態の更新のための式は次のとおりである。
【数1】
式中、全てのW、U、bはLSTMの重み(トレーニング中に変化するだけ)、σは非線形(ゲート)関数、Oは行列の要素ごとの積、hは隠れ状態、cはセル状態、χは入力、hはまた出力である。h及びcの初期値は通常0である。
【0090】
初めてのイネーブル信号生成
図5は、イネーブル信号が初めて生成される、イネーブル信号生成のプロセスの一実施形態を概略的に示す。
【0091】
オーディオ200は、ソース分離301に入力され、分離、ここではボーカルと伴奏に分解される。ボーカル及び伴奏は、イネーブル信号生成400に入力され、イネーブル信号201が取得される。次いで、イネーブル信号201は、例えば、記憶ユニット(図14の1302を参照)内の電子機器に記憶され、次にユーザが同じ曲を聴く時に再使用することができる。
【0092】
図5の実施形態において、カラオケ機器、スマートフォン等の電子機器によってオーディオを初めて再生する時、オーディオは、オーディオソース分離に直接入力され、分解されて分離される。図5に示されたこのプロセスは、図3に示された上記のプロセスと同様であり、図5のプロセスは、予め設定された条件、すなわち、ソース分離をアクティブ化するイネーブル信号、すなわち、ソース分離をスイッチオンするイネーブル信号を使用して実施されてもよく、電子機器がオーディオを初めて再生する時に、ソース分離を実行して、イネーブル信号を取得する。
【0093】
図5の実施形態において、イネーブル信号が、ボーカル及び/又は伴奏信号における単純なエネルギー閾値を使用することによって、オーディオ(ここではオーディオ200は曲である)を初めて聴いた時のソース分離自体の出力によって計算されるが、本実施形態はそれに限定されない。あるいは、イネーブル信号は、「ボーカル検出ネットワーク」を使用してストリーミングサーバ側で予め計算されてもよく、次いで、オーディオと共に、電子機器に送信される。この送信は、透かし技術によって信号をオーディオに直接埋め込むことによって行ってもよい。さらに、イネーブル信号は、小規模「ボーカル検出ネットワーク」を使用して電子機器で計算されてもよい。これは、イネーブル信号を計算するために必要とされるよりも多くの動作がイネーブル信号と共に保存される場合、全体的な電力消費を低減し得る。音声検出のプロセスは、図11を参照して説明される。
【0094】
図6は、曲再生中のイネーブル信号の経時変化を模式的に示す。本実施形態によれば、イネーブル信号は、オーディオがボーカル及び伴奏を含むか、ボーカルのみを含むか、又は伴奏のみを含むかを示す、真偽値を有するブール信号である。ここで、イネーブル信号は、値「真ボーカル及び伴奏」、値「偽のみ伴奏」、及び、値「偽のみボーカル」を有する。
【0095】
図6の実施形態において、横座標は時間、縦座標をイネーブル信号の値を示す。水平方向の破線はイネーブル信号の値、ここでは3つの値を表し、垂直破線は、タイムインスタンスt、t、t、t、tを表す。オーディオの持続時間は、0からタイムインスタンスtまでである。水平方向の実線は、オーディオの持続時間中のイネーブル信号の値を表す。ここで、0からタイムインスタンスtの間、イネーブル信号は「偽のみボーカル」であり、タイムインスタンスtからタイムインスタンスtの間、イネーブル信号は「真ボーカル及び伴奏」であり、タイムインスタンスtからタイムインスタンスtの間、イネーブル信号は「偽のみ伴奏」であり、タイムインスタンスtからタイムインスタンスtの間、イネーブル信号は「真ボーカル及び伴奏」であり、タイムインスタンスtからタイムインスタンスtの間、イネーブル信号は「偽のみボーカル」である。
【0096】
上述のように、0からタイムインスタンスtの間、及びタイムインスタンスtからタイムインスタンスtの間、イネーブル信号は「偽のみボーカル」であり、これは、これらの期間中、オーディオがボーカルのみを含むことを示し、それによって、オーディオ処理中に、オーディオに対してソース分離を実行する必要がない。詳細は、図9を参照して説明する。従って、処理されたオーディオは、リアルタイムでのユーザの好みに基づいて、又は予め定義されたゲインパラメータに基づいて、無音であっても、又はゲインによって調整されたオーディオであってもよい(図3、9の304を参照)。タイムインスタンスtとタイムインスタンスtの間、イネーブル信号は「偽のみ伴奏」であり、これは、この期間中、オーディオが伴奏のみを含むことを示し、それによって、オーディオ処理中に、オーディオに対してソース分離を実行する必要がない。詳細は、図10を参照して説明する。従って、処理されたオーディオ信号は、ユーザの好みに基づいて、又は予め定義されたゲインパラメータに基づいて、伴奏であっても、ゲインによって調整されたオーディオであってもよい(図3、10の304を参照)。タイムインスタンスtからタイムインスタンスtまで、及びタイムインスタンスtからタイムインスタンスtまでは、イネーブル信号「真ボーカル及び伴奏」であり、これは、これらの期間中に、オーディオがボーカル及び伴奏を含むことを示し、それによって、オーディオ処理中、ソース分離がオーディオに対して実行される。詳細は、図8を参照して説明する。
【0097】
図6の実施形態において、イネーブル信号は、ブール信号、すなわち、真偽値を有する信号等のデジタル信号であるが、本開示はそれに限定されない。あるいは、イネーブル信号は、バイナリ信号、すなわち、「0」及び「1」値を有する信号等のデジタル信号であってもよい。例えば、値「0」を有するバイナリ信号は、オーディオがボーカルを含まないことを示し、値「1」を有するバイナリ信号は、オーディオがボーカルを含むこと等を示してもよい。
【0098】
図7aは、イネーブル信号の値とスイッチのスイッチ位置とがマッピングされたテーブルを概略的に示す。イネーブル信号(図2、3、5の201を参照)は、3つの可能な値、すなわち、「真ボーカル及び伴奏」、「偽のみ伴奏」、及び「偽のみボーカル」を有し、スイッチ(図3の300を参照)は、2つの可能な位置、すなわち、AB及びACを有する。スイッチは、ソース分離のスイッチオン/オフを表しており(図3の301を参照)、スイッチの位置がABの時、ソース分離はスイッチオンされる、すなわち、アクティブ化され、スイッチの位置がACの時、ソース分離はスイッチオフされる、すなわち、非アクティブ化される。
【0099】
例えば、値「真ボーカル及び伴奏」(図6参照)を有するイネーブル信号(図2、3、5の201参照)は、スイッチAB(図3参照)にマッピングされ、これはイネーブル信号に基づいてソース分離(図3の301参照)がスイッチオンされることを示す。
【0100】
言い換えれば、イネーブル信号の値「真ボーカル及び伴奏」は、ソース分離をアクティブ化する、すなわち、ソース分離が実行されるトリガ値として機能する。図7aのテーブルに基づいて、値「偽のみ伴奏」(図6参照)を有するイネーブル信号(図2、3、5の201参照)及び値「偽のみボーカル」を有するイネーブル信号の両方が、スイッチAC(図3参照)にマッピングされ、これは、ソース分離(図3の301参照)がイネーブル信号に基づいてスイッチオフされることを示す。言い換えれば、イネーブル信号の値「偽のみ伴奏」及び値「偽のみボーカル」は、ソース分離を非アクティブ化するトリガ値として働き、すなわち、ソース分離は実行されない。
【0101】
図7bは、イネーブル信号値とゲイン係数とがマッピングされたテーブルを概略的に示す。値「真ボーカル及び伴奏」(図6参照)を有するイネーブル信号(図2、3、5の201参照)は、イネーブル信号に基づいて、ボーカルに適用される-12dBのゲイン(図3の302参照)にマッピングされる。値「偽のみ伴奏」(図6参照)を有するイネーブル信号(図2図3図5の201参照)は、そのイネーブル信号に基づいて、伴奏に適用される0dBのゲイン(図3の304参照)にマッピングされる。値「偽のみボーカル」(図6を参照)を有するイネーブル信号(図2図3図5の201を参照)は、イネーブル信号に基づいて、ボーカルに適用される-20dBのゲイン(図3の304を参照)にマッピングされる。
【0102】
図7bの実施形態において、イネーブル信号の値に基づいて、ゲインは異なる値を有し、例えば、異なるゲイン係数がボーカル又は伴奏に適用されるが、本実施形態はそれに限定されない。当業者であれば、その専門知識に基づいて、任意の適切なゲイン係数を適用することができる。例えば、イネーブル信号の値が「偽のみボーカル」である場合、ボーカルにゲイン係数を適用して無音を生成することができる。イネーブル信号の値が「偽のみ伴奏」である場合、伴奏にゲイン係数を適用して、伴奏のボリュームを増加することができる。イネーブル信号の値が「真ボーカル及び伴奏」である場合、ボーカルにゲイン係数を適用して、ボーカルのボリュームを減少してもよい。
【0103】
図8は、イネーブル信号値が「真ボーカル及び伴奏」である場合に実行される、図3に記載したオーディオ処理の実施形態をより詳細に概略的に示す。本実施形態において、イネーブル信号値は、「真ボーカル及び伴奏」であり、ソース分離、すなわちスイッチオンを作動させるトリガ値として機能する。オーディオ200は、ソース分離301に入力され、ボーカル及び伴奏に分解される。ゲイン302は、上記の図3にも記載されているように、ボーカルに適用されて、調整されたボーカルを取得し、伴奏に適用されて、調整された伴奏が取得される。ミキサー305は、調整されたボーカルを伴奏とミックスして、処理されたオーディオ信号を取得する(図2、3の206を参照)。ボーカルは、ボーカルがゲイン係数によって調整されてもよい、又はカットオフされてもよいことを示す破線によって表され、その代わりに、無音がミキサー305に出力される。伴奏は、伴奏がゲイン係数によって調整されてもよい、又はミキサー305に直接出力されてもよいことを示す実線によって表される。
【0104】
図8の実施形態において、ボーカルは、-12dB、-20dB等に等しいゲイン係数を適用することによって調整されて、ボーカルのボリュームを減少させてもよいが、本実施形態はそれに限定されない。あるいは、例えば、+3dBに等しいゲイン係数をボーカルに適用して、ボーカルのボリュームを増加させてもよく、又は0dBに等しいゲイン係数をボーカルに適用して、ボリュームを変更しないようにしてもよい。伴奏は、-3dB、0dB、+3dB等に等しいゲイン係数を適用することによって調整されて、ボーカルのボリュームを減少、増加、又は不変のままとしてもよいが、本実施形態はそれに限定されない。当業者であれば、特定の使用事例の必要性に応じて、ボーカル及び伴奏に適用される任意の適切なゲイン係数を、予め定義されたパラメータとして設定することができる。
【0105】
図9は、イネーブル信号値が「偽のみボーカル」である場合に実行される、図3に示されるオーディオ処理の実施形態をより詳細に概略的に示す。本実施形態において、イネーブル信号値は、「偽のみボーカル」であり、ソース分離を非アクティブ化する、すなわちスイッチオフするトリガ値として機能する。ボーカルのみを含むオーディオ200は、遅延303に入力され、遅延されたオーディオ、ここでは遅延されたボーカルを出力する。ゲイン304は、遅延されたボーカルに適用されて、調整されたオーディオ、ここでは、図3にも記載されている調整されたボーカルが取得される。調整されたボーカル信号は、処理されたオーディオ信号(図2、3の206を参照)であり、オーディオ処理から出力される(図2、3の202を参照)。
【0106】
イネーブル信号(図2、3の201を参照)に基づいて、遅延されたオーディオは、ゲイン304によって調整され、例えば、ゲイン係数が遅延されたオーディオに適用されて、調整されたオーディオ、ここでは調整されたボーカルが取得される。すなわち、予想されるレイテンシ、例えば、ソース分離からの時間遅延△tが存在する(図3の301参照)。予想される時間遅延は、既知の所定のパラメータであり、これは、所定のパラメータとして遅延303において設定されてよい。遅延303において、オーディオ信号、ここではボーカルは、ソース分離プロセスに起因して、予想されるレイテンシだけ遅延されて、遅延されたボーカルが取得される。これは、ソース分離プロセスに起因して、レイテンシがボーカルのそれぞれの遅延によって補償されるという効果を有する。
【0107】
図10は、イネーブル信号値が「偽のみ伴奏」である場合に実行される、図3に示されるオーディオ処理の実施形態をより詳細に概略的に示す。本実施形態において、イネーブル信号値は、「偽のみ伴奏」であり、ソース分離をスイッチオフにする、すなわち実行されないトリガ値として機能する。伴奏のみを含むオーディオ200は、遅延303に入力されて、遅延されたオーディオ、ここでは遅延された伴奏を出力する。ゲイン304は、遅延されたボーカルに適用されて、調整されたオーディオ、ここでは、図3にも示すように、調整された伴奏が取得される。調整された伴奏は、オーディオ処理から出力される(図2、3の202を参照)処理されたオーディオ(図2、3の206を参照)である。
【0108】
イネーブル信号(図2、3の201を参照)に基づいて、遅延されたオーディオはゲイン304によって調整され、例えば、ゲイン係数が遅延されたオーディオに適用されて、調整されたオーディオ、ここでは調整された伴奏が取得される。すなわち、予想されるレイテンシ、例えば、ソース分離からの時間遅延△tが存在する(図3の301参照)。予想される時間遅延は、既知の所定のパラメータであり、これは、所定のパラメータとして遅延303において設定されてよい。遅延303において、オーディオ信号、ここでは、伴奏は、ソース分離プロセスに起因して、予想されるレイテンシだけ遅延されて、遅延されたボーカルが取得される。これは、ソース分離プロセスに起因して、レイテンシが、ボーカルのそれぞれの遅延によって補償されるという効果を有する。
【0109】
ボーカル検出を使用した信号生成の有効化
図11は、ボーカル検出が実行される、イネーブル信号生成のプロセスの別の実施形態を概略的に示す。オーディオ200は、ソース分離301に入力され、分離、ここではボーカル及び伴奏に分解される。ボーカル及び伴奏は、ボーカル検出1000に入力され、オーディオ200に対するボーカルの有無を検出し、ボーカル検出信号1002が取得される。ボーカル検出信号1002、ボーカル及び伴奏が、イネーブル信号生成1001に入力され、イネーブル信号201が取得される。次いで、イネーブル信号201は、電子機器(図14の1302を参照)に記憶され、次にユーザが同じ曲を聴く時に再使用することができる。
【0110】
図11の実施形態において、ボーカル検出1000は、イネーブル信号生成1001と共に、イネーブル信号201を計算するために使用されるボーカル検出ネットワークを形成することができる。例えば、イネーブル信号は、そのようなボーカル検出ネットワークを使用してストリーミングサーバ側で予め計算されてもよく、オーディオと共に電子機器に送信されてもよい。この送信は、透かし技術によって信号をオーディオに直接埋め込むことによって行ってもよい。あるいは、イネーブル信号は、小規模ボーカル検出ネットワークを使用して電子機器で計算されてもよく、これは計算されることが必要とされるよりも多くの動作がイネーブル信号と共に保存される場合、全体的な電力消費を低減させる結果となり得る。
【0111】
方法及び実施
図12は、イネーブル信号に基づいてソース分離を実行して、ミックスオーディオ信号を取得することによって、オーディオ処理に関連する信号ミックスのための方法を視覚化するフロー図を示す。
【0112】
1100において、オーディオ処理(図2、3の202を参照)は、オーディオを受信する(図2、3の200を参照)。1101において、オーディオ処理(図2、3の202を参照)は、イネーブル信号を受信する(図2、3の201を参照)。1102において、受信されたイネーブル信号(図2、3の201を参照)に基づいて、受信されたオーディオ(図2、3の202を参照)に対してオーディオ処理が実行され(図2、3の200を参照)、処理されたオーディオが取得される(図2、3の206を参照)。1103において、ミキサー(図2の205を参照)は、ユーザのボーカルを受信し(図2の203、207を参照)、1104において、処理されたオーディオ信号と、受信されたユーザのボーカルとのミキシングが実行され、ミックスされたオーディオが取得される(図2の208を参照)。ミックスオーディオ及び/又は処理されたオーディオ信号は、スマートフォン、スマートウォッチ、ブルートゥース等のラウドスピーカシステム、例えば、ヘッドフォン等に出力されてもよい。
【0113】
図13は調整されたオーディオ信号を取得するための、イネーブル信号に基づいたソース分離に関連するオーディオ処理のための方法を視覚化するフロー図を示す。1200において、オーディオ処理(図2、3の202を参照)は、オーディオを受信する(図2、3の200を参照)。1201において、オーディオ処理(図2、3の202を参照)は、イネーブル信号を受信する(図2、3の201を参照)。1202において、イネーブル信号が真である場合(図5、7a、8参照)、イネーブル信号はアクティブ化され、すなわち、ソース分離(図3の301参照)をスイッチオンし、プロセスは1203に進む。1203において、受信されたオーディオでソース分離を実行して、ボーカル及び伴奏が取得される。1204において、受信されたイネーブル信号に基づいて、ボーカルを調整して、調整されたボーカルが取得される。1205において、伴奏の調整されたボーカルとのミキシングが実行されて、処理されたオーディオが取得される(図2、3の206参照)。1202において、イネーブル信号が真でない場合(図6、7a、8を参照)、イネーブル信号は非アクティブ化され、すなわち、ソース分離をスイッチオフし(図3の301を参照)、プロセスは1206に進む。1206において、ソース分離は、イネーブル信号に基づいて、非アクティブ化される、すなわち、実行されず、プロセスは1207に進む。1207において、オーディオは、受信されたイネーブル信号に基づいて調整されて、調整されたオーディオが取得される(図3、9、10参照)。
【0114】
イネーブル信号に応じて、調整されたオーディオは、リアルタイムでユーザの好みに基づいた、又は予め設定されたゲインパラメータに基づいた、調整されたボーカルであって、ボーカルボリュームを減少もしくは増加させてよく、又はユーザがボーカルを自分自身で歌うことができるように無音のみを出力してもよい。あるいは、調整されたオーディオは、リアルタイムでユーザの好みに基づいた、又は予め設定されたゲインパラメータに基づいた、調整された伴奏であって、ユーザがボーカルを自分自身で歌うことができるように、伴奏のみがユーザに対して再生される時、伴奏ボリュームを減少又は増加させてもよい。
【0115】
図14は、イネーブル信号及びオーディオ処理に基づくオーディオミキシングのプロセスを実施することができる電子機器の一実施形態を示すブロック図を示す。電子機器1300は、プロセッサとしてのCPU1301を含む。電子機器1300は、マイクロフォンアレイ1310、ラウドスピーカアレイ1309、及びプロセッサ1301に接続される畳み込みニューラルネットワークユニット1207をさらに含む。プロセッサ1301は、例えば、図2及び図3に関してより詳細に説明したプロセスを実現するゲイン302、304、ミキサー205、305を実施してもよい。CNN1307は、例えば、ハードウェア内の人工ニューラルネットワーク、例えば、GPUのニューラルネットワーク、又は人工ニューラルネットワークを実施する目的に特化された任意の他のハードウェアであってもよい。CNN1320は、例えば、図2図3図5図8図9図10、及び図11に関してより詳細に説明した処理を実現するオーディオ処理202、ソース分離301、遅延303、イネーブル信号生成400、1001、ボーカル検出1000を実施してよい。
【0116】
ラウドスピーカアレイ1309は、例えば、オンイヤ、インイヤ、オーバーイヤ、ワイヤレスヘッドフォン等のヘッドフォンであってもよく、又は、所定の空間にわたって分散され、3Dオーディオ等の任意の種類のオーディオをレンダリングするように構成された1つ以上のラウドスピーカからなっていてもよい。マイクロフォンアレイ1310は、例えば、ユーザが曲を歌ったり、楽器を演奏したりする時に、音声(ボイス)、ボーカル(歌声)、楽器音等を受信するように構成されてもよい(図2、3、5、8、9、10、及び11のオーディオ200を参照)。マイクロフォンアレイ1310は、電子機器1300を動作させるために、自動音声認識を介して音声(ボイス)コマンドを受信するように構成されてもよい。電子機器1300はさらに、プロセッサ1301に接続されるユーザインタフェース1308を含む。このユーザインタフェース1308は、マンマシンインタフェースとして機能し、管理者と電子機器との間の対話を可能にする。例えば、管理者は、このユーザインタフェース1308を使用してシステムを構成してもよい。電子機器1300は、イーサネットインターフェース1306、ブルートゥースインターフェース1304、及びWLANインターフェース1305をさらに含む。これらのユニット1304、1305、1306は、外部機器とのデータ通信のためのI/Oインターフェースとして機能する。例えば、イーサネット、WLAN、又はブルートゥース接続を有する追加のラウドスピーカ、マイクロフォン、及びビデオカメラが、これらのインターフェース1304、1305、及び1306を介してプロセッサ1301に結合されてもよい。
【0117】
電子機器1300は、データ記憶装置1302と、データメモリ1303(ここではRAM)とをさらに含む。データメモリ1303は、プロセッサ1301による処理のために、データ又はコンピュータ命令を一時的に記憶又はキャッシュするように構成される。データ記憶装置1302は、例えば、マイクロフォンアレイ1310から取得されたセンサデータを記録するための、又はスイッチを回転させるために使用されるイネーブル信号値、及びスイッチ位置をイネーブル信号値にマッピングするマッピングテーブルを記憶するための、長期記憶装置として構成される(図3、6、及び7aを参照)。データ記憶装置1302はまた、オーディオメッセージを表すオーディオデータを記憶してもよく、電子機器は、ユーザにガイド又はヘルプを出力することができる。
【0118】
なお、上記の説明は単なる構成例である。代替の構成は、追加の又は他のセンサ、記憶装置、インターフェース等を用いて実施されてもよい。
【0119】
実施形態は、方法ステップの例示的な順番を伴う方法を説明していることを理解されたい。しかしながら、方法ステップの特定の順番は、例示の目的のみで示されており、拘束力のあるものとして解釈されないものとする。
【0120】
また、図14の電子機器をユニットに分割することは例示の目的のためのみで行われており、本開示は特定のユニットにおける機能のいかなる特定の分割にも限定されないことにも留意されたい。例えば、回路の少なくとも一部は、それぞれプログラムされたプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、専用回路等によって実現することができる。
【0121】
本明細書に記載され、添付の特許請求の範囲に請求された全てのユニット及びエンティティは、別段の記載がない限り、例えば、チップ上の集積回路ロジックとして実施することができ、そのようなユニット及びエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実施することができる。
【0122】
上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、及びそのようなコンピュータプログラムが提供される送信、記憶、又は他の媒体が、本開示の態様として想定されることが理解される。
【0123】
なお、本技術は以下のような構成も取ることができる。
(1)イネーブル信号(201)に基づいて、オーディオ信号(1;200)に対してソース分離(301)を実行して、分離されたソース(2)及び残差信号(3)を含む処理されたオーディオ信号(206)を取得するように構成された回路を含み、イネーブル信号(201)は、ソース分離(301)をアクティブ化又は非アクティブ化するように構成された電子機器。
(2)ソース分離(301)がイネーブル信号(201)によって非アクティブ化された場合、オーディオ信号(1;200)を調整して、調整されたオーディオ信号(206)を処理されたオーディオ信号(206)として取得するように構成された回路をさらに含む、(1)の電子機器。
(3)イネーブル信号(201)の値(真、偽)に基づいて、スイッチ(300、AB、AC)の位置(B、C)を変更して、ソース分離をアクティブ化又は非アクティブ化するように構成された回路をさらに含む、(1)又は(2)の電子機器。
(4)イネーブル信号(201)の値(真、偽)が「真」である場合にソース分離(301)をアクティブ化し、イネーブル信号(201)の値(真、偽)が「偽」である場合にソース分離(301)を非アクティブ化するように、イネーブル信号(201)は構成された(3)の電子機器。
(5)ソース分離(301)は、ディープニューラルネットワーク(DNN)によって実施され、イネーブル信号(201)を用いて、DNNのいくつか又は全てのレイヤを非アクティブ化して、それらの出力がもはや更新されないようする、(1)~(4)のいずれか1つの電子機器。
(6)イネーブル信号(201)に基づいて、オーディオ信号(1;200)にゲイン(304)を適用して、調整されたオーディオ信号(206)を取得するように構成された回路をさらに含む、(2)の電子機器。
(7)ソース分離(301)がイネーブル信号(201)によって非アクティブ化された場合、オーディオ信号(200)を遅延(303)して、遅延されたオーディオ信号を取得するように構成された回路をさらに含む、(1)~(6)のいずれか1つの電子機器。
(8)ユーザのボーカル信号(203)にゲイン(204)を適用して、調整されたユーザのボーカル信号(207)を取得するように構成された回路をさらに含み、ユーザのボーカル信号(203)は、マイクロフォン(1310)によって取得される、(2)の電子機器。
(9)調整されたユーザのボーカル(207)を処理されたオーディオ信号(206)とミックスして、ミックスオーディオ信号(208)を取得するように構成された回路をさらに含む、(7)の電子機器。
(10)分離されたソース(2)及び残差信号(3)に基づいてイネーブル信号生成(400;1001)を実行して、イネーブル信号(201)を取得するように構成された回路をさらに含む、(1)~(9)のいずれか1つの電子機器。
(11)オーディオ信号(1;200)に対してボーカル検出(1000)を実行して、ボーカル検出信号(1002)を取得するように構成された回路をさらに含み、イネーブル信号生成(400)は、ボーカル検出信号(1002)、分離されたソース(2)、及び残差信号(3)に基づいて実行されて、イネーブル信号(201)が取得される、(10)の電子機器。
(12)イネーブル信号(201)は、サーバ側で予め計算される、(10)の電子機器。
(13)イネーブル信号(201)は、電子機器で曲を初めて再生する時に計算される、(10)の電子機器。
(14)分離されたソース(2)は、ボーカルを含み、残差信号(3)は、伴奏を含む、(1)~(13)のいずれか1つの電子機器。
(15)ボーカルにゲイン(302)を適用して、調整されたボーカルを取得し、伴奏にゲイン(302)を適用して、調整された伴奏を取得するように構成された回路をさらに含む、(14)の電子機器。
(16)調整されたボーカルを調整された伴奏とミックス(305)して、処理されたオーディオ信号(206)を取得するように構成された回路をさらに含む、(15)の電子機器。
(17)オーディオ信号(1;200)は、ボーカル及び伴奏のうちの少なくとも1つを含む、又は分離されたソース(2)は、音声を含み、残差信号(3)は、バックグラウンドノイズを含む、(1)~(16)のいずれか1つの電子機器。
(18)イネーブル信号(201)の値(真、偽)は、「真ボーカル及び伴奏」、「偽のみボーカル」、又は「偽のみ伴奏」である、(3)の電子機器。
(19)イネーブル信号(201)の値(真、偽)が「真ボーカルと伴奏」である場合、ソース分離(301)をアクティブ化する、又は
イネーブル信号(201)の値(真、偽)が「偽のみボーカル」又は「偽のみ伴奏」である場合、ソース分離(301)を非アクティブ化するように構成された回路をさらに含む、(18)の電子機器。
(20)マイクロフォン(1310)は、スマートフォン、ヘッドフォン、TVセット、ブルーレイプレーヤ等のデバイス(1300)のマイクロフォンである、(7)の電子機器。
(21)処理されたオーディオ(206)は、ラウドスピーカシステム(1309)に出力される、(1)~(20)のいずれか1つの電子機器。
(22)イネーブル信号(201)に基づいて、オーディオ信号(1)に対してソース分離(301)を実行して、分離されたソース(2)及び残差信号(3)を含む処理されたオーディオ信号(206)を取得することを含み、イネーブル信号(201)は、ソース分離(301)をアクティブ化又は非アクティブ化するように構成されている、方法。
(23)プログラムがコンピュータによって実行される時、コンピュータに(22)の方法を実行させる命令を含む、コンピュータプログラム。
(24)オーディオ信号(200)に対してソース分離(301)を実行して、分離されたソース(2)及び残差信号(3)を取得し、
分離されたソース(2)及び残差信号(3)に基づいてイネーブル信号生成(400;1001)を実行して、イネーブル信号(201)を取得するように構成された回路を含み、イネーブル信号は、ソース分離(301)をアクティブ化又は非アクティブ化するように構成された電子機器。
(25)分離されたソース(2)及び残差信号(3)に対してボーカル検出(1000)を実行して、ボーカル検出信号(1002)を取得するように構成された回路をさらに含み、イネーブル信号生成(1001)は、ボーカル検出信号(1002)、分離されたソース(2)及び残差信号(3)に基づいて実行されて、イネーブル信号(201)が取得される、(24)の電子機器。
(26)イネーブル信号(201)は、ボーカル検出ネットワーク(1000)を使用してサーバ側で予め計算されるか、又はイネーブル信号(201)は、分離されたソース(2)及び残差信号(3)におけるエネルギー閾値を使用して、電子機器で曲を初めて再生する時に計算される、(24)の電子機器。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【国際調査報告】