(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-02
(45)【発行日】2024-08-13
(54)【発明の名称】バイノーラル化ステレオ・コンテンツのブラインド検出
(51)【国際特許分類】
H04S 7/00 20060101AFI20240805BHJP
G10L 25/30 20130101ALI20240805BHJP
G10L 25/51 20130101ALI20240805BHJP
【FI】
H04S7/00 300
G10L25/30
G10L25/51
【外国語出願】
(21)【出願番号】P 2023077649
(22)【出願日】2023-05-10
(62)【分割の表示】P 2020558985の分割
【原出願日】2019-04-24
【審査請求日】2023-05-10
(31)【優先権主張番号】PCT/CN2018/084787
(32)【優先日】2018-04-27
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2018-05-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-06-14
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ジャーン、チュンマオ
(72)【発明者】
【氏名】チェン,リエンウー
(72)【発明者】
【氏名】ヤーン,ズーユイ
(72)【発明者】
【氏名】ランドー,ジョシュア ブランドン
(72)【発明者】
【氏名】フィッシャー,デイヴィッド マシュー
(72)【発明者】
【氏名】ルウ,リエ
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特表2016-519493(JP,A)
【文献】特開2005-338086(JP,A)
【文献】特開2016-067817(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
G10L 25/30
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
オーディオ信号のバイノーラル化を検出する装置であって、当該装置は:
入力オーディオ信号を受領するよう構成され、前記入力オーディオ信号から複数の特徴を抽出するよう構成された特徴抽出器と;
前記特徴抽出器によって抽出された前記複数の特徴を受領するよう構成され、前記複数の特徴の分類を実行するよう構成され、該分類に基づいて結果を生成するよう構成された分類器であって、前記結果は、前記入力オーディオ信号がバイノーラル信号である確率を示す、分類器と;
前記入力オーディオ信号を受領するよう構成され、前記入力オーディオ信号に対して仮想化を実行してバイノーラル・オーディオ信号を生成するように構成された仮想化器と;
前記入力オーディオ信号、前記バイノーラル・オーディオ信号および前記結果を受領するよう構成され、前記結果に従って出力オーディオ信号を生成するよう構成された混合器とを有しており、
前記結果が、前記入力オーディオ信号が前記バイノーラル信号ではないことを示す場合は、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応し、
前記結果が、前記入力オーディオ信号がバイノーラル・オーディオ信号であることを示す場合は、前記出力オーディオ信号は前記入力オーディオ信号に対応する、
装置。
【請求項2】
前記分類器からの前記結果を平滑化するよう構成され、平滑化された結果を前記混合器に提供するよう構成された平滑化器をさらに有しており、
前記混合器は、前記入力オーディオ信号と前記バイノーラル・オーディオ信号とを、前記平滑化器によって平滑化された前記結果に従って混合するよう構成されている、
請求項1に記載の装置。
【請求項3】
前記平滑化器により平滑化された前記結果は、前記仮想化器に提供され、前記仮想化器は、平滑化された前記結果に基づいて仮想化を実行するよう構成されている、請求項2に記載の装置。
【請求項4】
前記特徴抽出器は、前記入力オーディオ信号を変換ドメイン情報に変換するよう構成されている、請求項1に記載の装置。
【請求項5】
前記特徴抽出器は、チャネル間時間差(ICTD)特徴、チャネル間位相差(ICPD)特徴、チャネル間レベル差(ICLD)特徴、およびチャネル間コヒーレンス(ICC)特徴のうちの少なくとも1つを含む特徴を抽出するよう構成される、請求項1に記載の装置。
【請求項6】
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成される、請求項1に記載の装置。
【請求項7】
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成されており、前記特徴抽出器は、前記HCQMFドメイン情報の帯域の部分集合のチャネル間位相差(ICPD)を含む特徴を抽出するよう構成されている、請求項1に記載の装置。
【請求項8】
前記HCQMFドメイン情報は77個の帯域を含み、帯域の前記部分集合は帯域21~60を含む、請求項7に記載の装置。
【請求項9】
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成されており、前記特徴抽出器は、前記HCQMFドメイン情報を複数のサブバンドにグループ化するよう構成されており、前記特徴抽出器は、前記複数のサブバンドの第1の部分集合のチャネル間位相差(ICPD)特徴、前記複数のサブバンドの前記第1の部分集合のチャネル間コヒーレンス(ICC)特徴、および前記複数のサブバンドの第2の部分集合のチャネル間レベル差(ICLD)特徴を含む特徴を抽出するよう構成されている、請求項1に記載の装置。
【請求項10】
前記特徴抽出器は:
前記入力オーディオ信号から変換ドメイン情報を生成するよう構成された信号変換器と;
前記変換ドメイン情報から複数の生特徴を計算するよう構成された特徴計算器と;
前記複数の生特徴にマスキングを適用して、複数の修正された特徴を生成するよう構成されたパラメータマスクと;
前記複数の修正された特徴のそれぞれについて、複数のパラメータ帯域上の複数のヒストグラムを計算するよう構成されたヒストグラム分析器と;
前記複数の修正された特徴および前記複数のヒストグラムから、複数のウィンドウ・レベルの統計を計算するよう構成された統計計算器であって、前記複数のウィンドウ・レベルの統計は、前記特徴抽出器によって抽出された前記複数の特徴に対応する、統計計算器とを有する、
請求項1に記載の装置。
【請求項11】
前記分類器は、前記複数の特徴の前記分類を実行するために機械学習モデルを実装するよう構成されている、請求項1に記載の装置。
【請求項12】
前記機械学習モデルは、適応ブースティングモデル、深層ニューラルネットワークモデル、および疎な深層ニューラルネットワークモデルのうちの1つである、請求項11に記載の装置。
【請求項13】
プロセッサと;メモリとをさらに有する請求項1に記載の装置であって、
前記プロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するよう構成されている、装置。
【請求項14】
前記メモリは、コンピュータ・プログラムを記憶しており、前記プロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するために前記コンピュータ・プログラムを実行するよう構成されている、請求項13に記載の装置。
【請求項15】
前記出力オーディオ信号が、左出力成分および右出力成分を含み、当該装置はさらに:
前記左出力成分を出力するよう構成された左スピーカーと;
前記右出力成分を出力するよう構成された右スピーカーとを有する、
請求項1に記載の装置。
【請求項16】
第1のイヤーバッドおよび第2のイヤーバッドをさらに有する、請求項1に記載の装置であって、
前記第1のイヤーバッドは、第1のスピーカーと、第1のプロセッサと、第1のメモリとを含み、前記第1のプロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するよう構成され、
前記第2のイヤーバッドは、第2のスピーカーと、第2のプロセッサと、第2のメモリとを含み、前記第2のプロセッサは、第2の特徴抽出器、第2の分類器、第2の仮想化器、および第2の混合器を実装するよう構成される、
装置。
【請求項17】
オーディオ信号のバイノーラル化を検出する方法であって、当該方法は:
入力オーディオ信号を受領するステップと;
特徴抽出器によって、前記入力オーディオ信号から複数の特徴を抽出するステップと;
分類器によって、前記特徴抽出器によって抽出された前記複数の特徴の分類を実行するステップと;
前記分類器によって、前記分類に基づいた結果を生成するステップであって、該結果は、前記入力オーディオ信号がバイノーラル信号である確率を示す、ステップと;
前記入力オーディオ信号に対して仮想化を仮想化器によって実行して、バイノーラル・オーディオ信号を生成するステップと;
混合器によって、前記結果に従って出力オーディオ信号を生成するステップとを含み、
前記結果が前記入力オーディオ信号が前記バイノーラル信号でないことを示すときは、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応し、
前記結果が前記入力オーディオ信号がバイノーラル信号であることを示すときは、前記出力オーディオ信号は前記入力オーディオ信号に対応する、
方法。
【請求項18】
プロセッサによって実行されると、請求項17に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している非一時的なコンピュータ読取可能媒体。
【請求項19】
前記結果は、前記入力オーディオ信号がステレオ信号ではなく前記バイノーラル信号である確率を示し、
前記結果が前記入力オーディオ信号が前記ステレオ信号であることを示すときは、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応する、
請求項1に記載の装置。
【請求項20】
前記混合器は、前記入力オーディオ信号および前記バイノーラル・オーディオ信号を前記結果に従って混合するように構成されている、請求項1に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2018年4月27日に出願されたPCT出願第PCT/CN2018/084787号、2018年5月30日に出願された米国仮出願第62/677,829号、および2018年6月14日に出願された欧州出願第18177821.8号に対する優先権を主張するものであり、これらの出願のそれぞれは、その全体が参照により本明細書に組み込まれる。
【0002】
背景
本発明は、バイノーラル・オーディオに関し、特に、バイノーラル化されたオーディオ・データのブラインド検出に関する。
【背景技術】
【0003】
本明細書に別段の記載がない限り、本セクションに記載されたアプローチは、本願の請求項に対する従来技術ではなく、本セクションに含まれることにより従来技術であると自認されるものではない。
【0004】
マルチチャネルまたはオブジェクト・ベースのオーディオ・コンテンツのバイノーラル化は、ヘッドフォンでのサラウンドサウンドの効果をシミュレートするための一般的な技法である。このシミュレーションを実行するためにしばしばシミュレーションまたは合成された頭部伝達関数(HRTF)が使用され、結果として、絶対値および位相応答の変化を与える。バイノーラル化は、仮想化とも呼ばれ、生成された音は、バイノーラル・オーディオまたは仮想化オーディオと呼ばれることがある。
【0005】
ドルビーのヘッドフォン・バイノーラル・レンダリング解決策のように、消費者によるバイノーラル化適用の例が複数存在する。バイオーラル化を達成するための1つの典型的な構成は、処理を実行できるソース装置をヘッドフォンに接続することである。代替的に、コンテンツは、バイノーラル処理を実行することができる高度なヘッドフォンに送信されてもよい。
【0006】
ソース装置とヘッドフォンの両方がバイノーラル処理を適用できるシナリオが存在する。これは、両方のバイノーラル・プロセスからの絶対値および位相の応答が組み合わさって、否定的なユーザー体験につながるため、オーディオに悪影響を及ぼす可能性がある。
【0007】
上述の構成における二重処理を回避する一つの手段は、バイノーラル処理がアクティブである時を示す、ソースからヘッドフォンへの一方向通信をサポートすることであり、それによりヘッドフォンは、その処理ステージを無効にすることができる。しかしながら、IEEE802.15.1標準(Bluetooth(商標)オーディオなど)などの無線用途では、そのような情報を通信するための共有されるプロファイルは存在しない。さらに、そのようなプロファイルが存在したとしても、ソース装置がそのような処理を適切に信号伝達する保証はない。
【0008】
特許文献1は、オーディオ信号の後続の処理のために使用される条件付き確率スコアを生成するために、オーディオ信号に対して特徴抽出を実行することを論じている。しかしながら、そのような議論は、バイノーラル処理に伴う特定の問題に関しては、あまり詳しくは説明していない。
【文献】米国特許第9,311,923号
【0009】
特許文献2は、バイノーラル・レンダリング・メタデータを用いて、入力オーディオをバイノーラル・オーディオにレンダリングすることを論じている。しかしながら、そのような議論は、入力オーディオがすでにバイノーラル化されている状況を想定していない。
【文献】米国特許第9,933,989号
【発明の概要】
【発明が解決しようとする課題】
【0010】
上記を考慮すると、上流のコンテンツがバイノーラル化された時を判別することができるブラインド検出プロセスが必要である。ある実施形態は、バイノーラル化されたオーディオのブラインド検出を実行するために機械学習技法を使用することに向けられる。
【課題を解決するための手段】
【0011】
ある実施形態によれば、装置が、オーディオ信号のバイノーラル化を検出する。この装置は、特徴抽出器、分類器、仮想化器、および混合器を有する。特徴抽出器は、入力オーディオ信号を受領し、入力オーディオ信号から複数の特徴を抽出する。分類器は、特徴抽出器によって抽出された複数の特徴を受領し、該複数の特徴の分類を実行し、該分類に基づいて結果を生成する。この結果は、入力オーディオ信号がステレオ信号に対してバイノーラル信号である確率を示す。仮想化器は、入力オーディオ信号を受領し、入力オーディオ信号に対して仮想化を実行し、バイノーラル・オーディオ信号を生成する。混合器は、入力オーディオ信号、バイノーラル・オーディオ信号および前記結果を受領し、混合器は、入力オーディオ信号およびバイノーラル・オーディオ信号を前記結果に従って混合して、出力オーディオ信号を生成する。前記結果が、入力オーディオ信号がステレオ信号であることを示す場合、出力オーディオ信号はバイノーラル・オーディオ信号に対応し、前記結果が、入力オーディオ信号がバイノーラル・オーディオ信号であることを示す場合、出力オーディオ信号は入力オーディオ信号に対応する。
【0012】
本装置は、さらに、分類器からの結果を平滑化し、平滑化された結果を混合器に提供する平滑化器を有していてもよく、混合器は、入力オーディオ信号とバイノーラル・オーディオ信号とを、平滑化器によって平滑化された前記結果に従って混合する。平滑化器により平滑化された前記結果は、仮想化器に提供されてもよく、仮想化器は、平滑化された結果に基づいて仮想化を実行してもよい。
【0013】
特徴抽出器は、入力オーディオ信号を変換ドメイン情報に変換してもよい。
【0014】
特徴抽出器は、チャネル間時間差(inter-channel time difference、ICTD)特徴、チャネル間位相差(inter-channel phase difference、ICPD)特徴、チャネル間レベル差(inter-channel level difference、ICLD)特徴、およびチャネル間コヒーレンス(inter-channel coherence、ICC)特徴のうちの少なくとも1つを含む特徴を抽出してもよい。
【0015】
特徴抽出器は、入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(hybrid complex quadrature mirror filter、HCQMF)ドメイン情報に変換してもよい。特徴抽出器は、HCQMFドメイン情報の帯域の部分集合のチャネル間位相差(ICPD)を含む特徴を抽出してもよい。HCQMFドメイン情報は77個の帯域を含んでいてもよく、帯域の前記部分集合は帯域21~60を含む。
【0016】
特徴抽出器は、入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換してもよく、特徴抽出器は、HCQMFドメイン情報を複数のサブバンドにグループ化し、特徴抽出器は、前記複数のサブバンドの第1の部分集合のチャネル間位相差(ICPD)特徴、前記複数のサブバンドの前記第1の部分集合のチャネル間コヒーレンス(ICC)特徴、および前記複数のサブバンドの第2の部分集合のチャネル間レベル差(ICLD)特徴を含む特徴を抽出する。
【0017】
特徴抽出器は、信号変換器と、特徴計算器と、パラメータマスクと、ヒストグラム分析器と、統計計算器とを有していてもよい。信号変換器は入力オーディオ信号から変換ドメイン情報を生成する。特徴計算器は、変換ドメイン情報から複数の生特徴(raw feature)を計算する。パラメータマスクは、前記複数の生特徴にマスキングを適用して、複数の修正された特徴を生成する。ヒストグラム分析器は、前記複数の修正された特徴のそれぞれについて、複数のパラメータ帯域上の複数のヒストグラムを計算する。統計計算器は、前記複数の修正された特徴および前記複数のヒストグラムから、複数のウィンドウ・レベルの統計を計算し、前記複数のウィンドウ・レベルの統計は、特徴抽出器によって抽出された前記複数の特徴に対応する。
【0018】
分類器は、前記複数の特徴の分類を実行するために機械学習モデルを実装してもよい。機械学習モデルは、適応ブースティングモデル、深層ニューラルネットワークモデル、および疎な深層ニューラルネットワークモデルのうちの1つであってもよい。
【0019】
本装置は、プロセッサとメモリとを有していてもよく、プロセッサは、特徴抽出器、分類器、仮想化器、および混合器を実装する。メモリは、コンピュータ・プログラムを記憶してもよく、プロセッサは、特徴抽出器、分類器、仮想化器、および混合器を実装するためにコンピュータ・プログラムを実行する。
【0020】
本装置は、左スピーカーおよび右スピーカーをさらに有していてもよく、出力オーディオ信号は、左出力成分および右出力成分を含み、左スピーカーは左出力成分を出力し、右スピーカーは右出力成分を出力する。
【0021】
本装置は、第1のイヤーバッドおよび第2のイヤーバッドをさらに有していてもよく、第1のイヤーバッドは、第1のスピーカーと、第1のプロセッサと、第1のメモリとを含み、第1のプロセッサは、特徴抽出器、分類器、仮想化器、および混合器を実装し、第2のイヤーバッドは、第2のスピーカーと、第2のプロセッサと、第2のメモリとを含み、第2のプロセッサは、第2の特徴抽出器、第2の分類器、第2の仮想化器、および第2の混合器を実装する。
【0022】
もう一つの実施形態によれば、方法が、オーディオ信号のバイノーラル化を検出する。本方法は、入力オーディオ信号を受領することを含む。本方法は、特徴抽出器によって、入力オーディオ信号から複数の特徴を抽出するステップをさらに含む。本方法は、さらに、分類器によって、特徴抽出器によって抽出された前記複数の特徴の分類を実行するステップを含む。本方法は、さらに、前記分類器によって、前記分類に基づいた結果を生成することを含み、該結果は、前記入力オーディオ信号がステレオ信号に対してバイノーラル信号である確率を示す。本方法は、入力オーディオ信号に対して仮想化を仮想化器によって実行して、バイノーラル・オーディオ信号を生成することをさらに含む。本方法は、さらに、前記結果に従って、入力オーディオ信号とバイノーラル・オーディオ信号とを混合器によって混合して、出力オーディオ信号を生成することを含む。前記結果が入力オーディオ信号がステレオ信号であることを示すときは、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応し、前記結果が入力オーディオ信号がバイノーラル信号であることを結果が示すときは、前記出力オーディオ信号は前記入力オーディオ信号に対応する。
【0023】
本方法は、装置に関して上記で論じたものと同様の詳細を含んでいてもよい。
【0024】
もう一つの実施形態によれば、非一時的なコンピュータ読み取り可能媒体が、プロセッサによって実行されるときに上記で論じた方法のうちの一つまたは複数を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶する。
【0025】
下記の詳細な説明および添付の図面は、さまざまな実装の性質および利点のさらなる理解を提供する。
【図面の簡単な説明】
【0026】
【
図1】ヘッドフォン装置100のブロック図である。
【0027】
【
図2】バイノーラル化検出器200のブロック図である。
【0028】
【
図3】オーディオ信号のバイノーラル化を検出する方法300のフローチャートである。
【0029】
【
図4】特徴抽出器202(
図2参照)の追加的な詳細を示すブロック図である。
【発明を実施するための形態】
【0030】
本明細書には、バイノーラル化されたオーディオのブラインド検出のための技法が記載される。下記の説明では、説明の目的で、本発明の十全な理解を提供するために、多数の例および具体的詳細が記載される。しかしながら、特許請求の範囲によって定義される本発明は、これらの例における特徴の一部または全部を単独で、または下記に記載される他の特徴との組み合わせで含むことができ、さらに、本明細書に記載される特徴および概念の修正および均等物を含むことができることは、当業者にとって明らかであろう。
【0031】
以下の記述では、さまざまな方法、プロセスおよび手順が詳述される。具体的なステップが、ある順序で記述されることがあるが、そのような順序は、主として、簡便のためである。特定のステップが、2回以上繰り返されてもよく、他のステップの前または後に(たとえそれらのステップがそれ以外では別の順序で記述されていても)行なわれてもよく、他のステップと並行して行なわれてもよい。第2のステップが第1のステップの後にくることが要求されるのは、第2のステップが始まる前に第1のステップが完了する必要がある場合のみである。そのような状況は、文脈から明確でない場合には、特に指摘されるであろう。
【0032】
本稿において、用語「および」、「または」および「および/または」が使われる。かかる用語は、包含的な意味を有するものとして読まれるべきである。たとえば、「AおよびB」は少なくとも:「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「AまたはB」は少なくとも:「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「Aおよび/またはB」は少なくとも:「AおよびB」、「AまたはB」を意味しうる。排他的離接が意図される場合は、その旨を具体的に記載する(たとえば、「AまたはBのいずれか一方」、「高々AおよびBの一方」)。
【0033】
図1は、ヘッドフォン装置100のブロック図である。(このブロック図は、ヘッドフォンの形状因子で示されてはいないことを注意しておく。)ヘッドフォン装置100は、本体102、電力コンポーネント104、無線コンポーネント106、プロセッサ108、メモリ110、左スピーカー112、右スピーカー114を含む。ヘッドフォン装置100は、(簡潔のために)図示されていない他のコンポーネントを含んでいてもよい。一般に、ユーザーは、無線で受信されたオーディオ信号を聴くためにヘッドフォン装置100を着用する。
【0034】
本体102は、一般に、ヘッドフォン装置100のための構造的支持を与え、他のコンポーネントを固定する。本体102の詳細は、形状因子に依存して異なることがある。伝統的なヘッドフォン形状因子については、本体102は、スピーカー112および114を含むイヤーパッドをつなぐヘッドバンドを含む。イヤーバッド・ヘッドフォン形状因子については、イヤーバッドはヘッドフォン対(たとえば、左イヤーバッドと右イヤーバッド)であり、各イヤーバッドの本体102は、スピーカー112または114のうちの1つと、他のコンポーネント(プロセッサ、無線コンポーネントなど)とを含む。イヤーバッド形状因子の例示的実装として、イヤーバッドの一方がマスターとして動作し、処理の大部分を実行する;他方のイヤーバッドはスレーブとして動作し、処理されたオーディオをマスターから、限られた近接場磁気誘導(near-field magnetic induction、NFMI)チャネルを通じて受信する。
【0035】
電力コンポーネント104は、一般に、他のコンポーネントに電力を提供する。電力コンポーネント104は、再充電可能バッテリーのようなバッテリーを含んでいてもよい。
【0036】
無線コンポーネント106は、一般に、無線信号を送受信する。無線コンポーネント106は、IEEE802.15.1標準(たとえば、Bluetooth(商標))を実装してもよい。無線コンポーネント106は、一般に、入力オーディオ信号を受信し、入力オーディオ信号を他のコンポーネントに提供する。
【0037】
プロセッサ108は、メモリ110と協働して、無線コンポーネント106から受領したオーディオ信号を処理する。プロセッサ108は、一般に、以下にさらに詳述するように、機械学習プロセスを実装して、バイノーラル化されたオーディオのブラインド検出を実行する。メモリ110は、一般に、機械学習パラメータを記憶する。プロセッサ108はまた、以下にさらに詳述するように、バイノーラル化プロセスをも実装する。
【0038】
左スピーカー112は左チャネル出力オーディオ信号を出力し、右スピーカー114は右チャネル出力オーディオ信号を出力する(まとめて出力オーディオ信号)。プロセッサ108が、ブラインド検出プロセスに従って、入力オーディオ信号がバイノーラル信号であることを検出すると、出力オーディオ信号は入力オーディオ信号に対応する。プロセッサ108が、入力オーディオ信号がバイノーラル信号でない(たとえば、ステレオ信号である)ことを検出すると、出力オーディオ信号は、プロセッサ108によって生成されるバイノーラル化されたオーディオ信号に対応する。このようにして、出力信号は、一度だけバイノーラル化された信号に対応し、すでにバイノーラル化された入力信号がもう一度バイノーラル化されたものには対応しない。それにより、否定的なユーザー体験が回避される。
【0039】
図2は、バイノーラル化検出器200のブロック図である。一般に、バイノーラル化検出器200は、
図1に関して上記で論じたように、バイノーラル化のブラインド検出を実行し、適切な出力信号(たとえば、2回バイノーラル化された信号ではない)を生成する。バイノーラル化検出器200は、プロセッサ108およびメモリ110(
図1参照)によって、たとえば、一つまたは複数のコンピュータ・プログラムを記憶し、実行することによって実装されてもよい。
【0040】
バイノーラル化検出器200は、入力オーディオ信号220を受領し、出力オーディオ信号230を生成する。入力オーディオ信号220は、2チャネル・ステレオ信号または2チャネル・バイノーラル信号のような2チャネル・オーディオ信号であってもよい。たとえば、入力オーディオ信号220は、左チャネル信号および右チャネル信号を含んでいてもよく、各信号は、44.1または48kHzでサンプリングされ、サンプル当たり16または24ビットを有するパルス符号変調(PCM)信号である。(入力オーディオ信号220は、
図1の無線コンポーネント106が、PCM以外のフォーマットであってもよい受信された無線信号に対してデコードを実行した結果として得られることを注意しておく。)バイノーラル化検出器200は、入力オーディオ信号220のフレーム毎に作用し(たとえば、20msフレーム・サイズ)、複数フレーム毎またはウィンドウ毎に作用してもよい(たとえば、48フレームまたは1秒)。
【0041】
バイノーラル化検出器200は、特徴抽出器202、分類器204、平滑化器206、仮想化器208、および混合器210を含む。
【0042】
特徴抽出器202は、一般に、入力オーディオ信号220から特徴240を抽出する。上述のように、特徴240は、フレーム・レベルの特徴、ウィンドウ・レベルの特徴、およびフレーム・レベルの特徴およびウィンドウ・レベルの特徴の統計(平均、標準偏差など)を含みうる。特徴抽出器202のさらなる詳細は、
図4を参照して下記で与えられる。
【0043】
分類器204は、一般に、特徴抽出器202によって抽出された特徴240に対して分類を実行し、該分類に基づいて結果250を生成する。結果250は信頼スコアの形であってもよい。上述したように、分類器204は、下記でさらに詳述するように、機械学習プロセスを実装してもよい。結果250は、入力オーディオ信号220がステレオ信号に対してバイノーラル信号である確率を示す。たとえば、結果250は、入力オーディオ信号220がバイノーラル信号である95%(または逆に入力オーディオ信号220がステレオ信号である5%)であり得る。
【0044】
平滑化器206は、一般に、分類器204からの結果250を平滑化して、平滑化された結果252を生成する。分類器204がフレーム・レベルの特徴に基づいて分類を実行する場合、分類器204が、フレームをバイノーラル(ステレオでなく)として誤分類する可能性がある。平滑化がない場合、この誤分類は、バイノーラル化検出器200が、すでにバイノーラル化された信号を素通しにすることとバイノーラル信号を生成することとの間でスイッチングすることによるオーディオ・アーチファクトを導入する可能性がある。たとえば、バイノーラル化検出器200がすでにバイノーラル化された信号を100フレームにわたって素通しにし、次いで1つのフレームをステレオとして誤分類してバイノーラル化を実行し、次いで、もとの、すでにバイノーラル化された信号を素通しにすることに切り換えるとすると、オーディオ・アーチファクトを生じる可能性がある。このように、平滑化器206は、結果250を平滑化するように動作し、それにより、誤分類の影響を低減する。
【0045】
平滑化器206は、不安定性の問題を防止し、ステレオとバイノーラルの間の遷移のための遅延を短縮するために適応的な平滑化を適用してもよい。平滑化は、メジアンフィルタと1極フィルタの組み合わせによって達成されてもよい。分類器204によって生成された信頼スコアs(t)について、平滑化されたスコアs'(t)は
【数1】
によって計算される。ここで、median(*)はベクトルの中央値を表わす。
【0046】
遅延時間Dはもとのスコアの安定性に応じて適応的に変化する。具体的には、もとのスコアが不安定である場合には大きな平滑化遅延が適用され、もとのスコアが安定である場合には小さな平滑化遅延を採用する。遅延時間Dは、いくつかのモード(たとえば、高速、中速、低速)にあらかじめ設定されてもよく、これは、実際上の用途においてさらに適応的に選択されてもよい。たとえば、遅延時間Dは、高速モードについては4秒、中速モードについは6秒、低速モードについては10秒に設定されてもよい。αの値は、用途に応じて所望されるままに調整されうる。αについての典型的な値は0.89である。
【0047】
(平滑化器206は、諸実施形態において省略されることがあり、その場合、分類器204からの結果250は、平滑化なしに、仮想化器208または混合器210に提供されることに留意されたい。)
【0048】
仮想化器208は、一般に、入力オーディオ信号220に対して仮想化を実行し、バイノーラル・オーディオ信号222を生成する。仮想化器208は、分類器204からの結果250(または、平滑化器206によって平滑化された平滑化結果252)を受領してもよく、その仮想化を実行する際に結果250(または、平滑化結果252)を使用してもよい。たとえば、結果250(または平滑化された結果252)が、入力オーディオ信号220がバイノーラル信号である高い確率を10秒間にわたって一貫して示す場合、仮想化器208は、その仮想化を非アクティブ化するか、さもなければ入力オーディオ信号220に対するその処理を低減させてもよい。
【0049】
代替的な実施形態によれば、仮想化器208は、連続的に動作し、分類器204からの結果250(または、平滑化器206によって平滑化された平滑化結果252)を受領しない。
【0050】
仮想化器208は、設計基準またはユーザー選択に従って、多様なバイノーラル化プロセスのうちの一つまたは複数を実装することができる。例示的なバイノーラル化プロセスは、ドルビー(登録商標)ヘッドフォン・バイノーラル化プロセス、DTSヘッドフォンX(商標)バイノーラル化プロセス、MaxxSpace(商標)バイノーラル化プロセス、フラウンホーファーシンゴ(登録商標)バイノーラル化プロセスなどを含む。
【0051】
他の実施形態では、仮想化器208は、分類器204からの結果250(または平滑化器206からの平滑化された結果252)を受領することなく動作してもよい。
【0052】
混合器210は、一般に、分類器204からの結果250(または平滑化器206からの平滑化結果252)に従って、入力オーディオ信号220とバイノーラル・オーディオ信号222とを混合して、出力オーディオ信号230を生成する。(混合器210は、他の機能も実行してもよい。たとえば、バイノーラル・オーディオ信号222の生成に伴う遅延をマッチさせるよう入力オーディオ信号220を遅延させることにより、その入力を時間的に整列させるなどである。)結果250(または、平滑化された結果252)が、入力オーディオ信号220がステレオ信号であることを示す場合は、出力オーディオ信号230はバイノーラル・オーディオ信号222に対応し、結果250(または、平滑化された結果252)が、入力オーディオ信号220がバイノーラル信号であることを示す場合は、出力オーディオ信号230は、入力オーディオ信号220に対応する。たとえば、結果250が、入力オーディオ信号220がバイノーラル信号である95%を示す場合、混合器210は、95%入力オーディオ信号220に、5%バイノーラル・オーディオ信号222に対応するよう出力オーディオ信号230を混合する。逆に、結果250が、入力オーディオ信号220がバイノーラル信号である5%を示す場合は、混合器210は、5%入力オーディオ信号220に、95%バイノーラル・オーディオ信号222に対応するよう出力オーディオ信号230を混合する。
【0053】
別の例として、混合器210は、分類結果250(または平滑化された結果252)を使用して、2チャネル・オーディオ・バイノーラル化のためのヘッドフォン仮想化器のオン/オフを操縦する。ヘッドフォン仮想化器を適用するオーディオ信号(たとえば、バイノーラル・オーディオ信号222)およびもとの信号(たとえば、入力オーディオ信号220)を表わすためにそれぞれx
vir(t)およびx
ori(t)を使用する。すると、バイノーラル化混合は、次の混合手法によって達成できる:
【数2】
ここで、g(t)は、時間的に変化する利得である。利得は、もとのコンテンツがバイノーラル化されているか否かを示す二値(1または0)であることができる。この場合、ヘッドフォン仮想化器は、バイノーラル化検出器によって(たとえば、結果250または平滑化された結果252に従って)操縦される。他方、入力オーディオのバイノーラル化のための連続数(continuous number)として利得を設定することができる。その場合、結果250(または平滑化された信頼スコア252)自体を、二値の値の代わりに利得として使用することができる。
【0054】
図3は、オーディオ信号のバイノーラル化を検出する方法300のフローチャートである。方法300は、たとえば、一つまたは複数のコンピュータ・プログラムの実行に従って、プロセッサ108によって制御されるように、ヘッドフォン装置100(
図1参照)によって実装されてもよい。
【0055】
302では、入力オーディオ信号が受領される。たとえば、無線コンポーネント106(
図1参照)が入力オーディオ信号220(
図2参照)を受領してもよい。
【0056】
304では、入力オーディオ信号から複数の特徴が抽出される。たとえば、特徴抽出器202(
図2参照)が、入力オーディオ信号220から特徴240を抽出してもよい。
【0057】
306では、特徴抽出器によって抽出された複数の特徴の分類が実行される。たとえば、分類器204(
図2参照)が、特徴抽出器202によって抽出された特徴240の分類を実行してもよい。
【0058】
308では、分類に基づいて結果が生成される。たとえば、分類器204(
図2参照)が、分類(306参照)に基づいて結果250を生成してもよい。この結果は、入力オーディオ信号がステレオ信号に対してバイノーラル信号である確率を示す。
【0059】
310では、分類器からの結果が平滑化される。たとえば、平滑化器206(
図2参照)が、分類器204からの結果250を平滑化して、平滑化された結果252を生成してもよい。(310は任意的であり、平滑化を実装しない実施形態では省略してもよいことに留意されたい。)
【0060】
312では、平滑化された結果が混合器に提供される。たとえば、平滑化器206(
図2参照)が、平滑化された結果252を混合器210に提供してもよい。(312は任意的であり、平滑化を実装しない実施形態では省略することができることに留意されたい。)
【0061】
314では、入力オーディオ信号に対して仮想化が実行され、バイノーラル・オーディオ信号が生成される。たとえば、仮想化器208(
図2参照)が、入力オーディオ信号220に対して仮想化を実行して、バイノーラル・オーディオ信号222を生成してもよい。
【0062】
316では、前記結果に従って、入力オーディオ信号とバイノーラル・オーディオ信号とが混合され、出力オーディオ信号が生成される。たとえば、混合器210(
図2を参照)が、分類器204からの結果250に従って、入力オーディオ信号220およびバイノーラル・オーディオ信号222を混合して、出力オーディオ信号230を生成してもよい。このようにして、前記結果が、入力オーディオ信号がステレオ信号であることを示すときは、出力オーディオ信号はバイノーラル・オーディオ信号に対応し、前記結果が、入力オーディオ信号がバイノーラル信号であることを示すときは、出力オーディオ信号は入力オーディオ信号に対応する。
【0063】
平滑化(たとえば、310および312)を含む実施形態では、入力オーディオ信号およびバイノーラル・オーディオ信号は、平滑化器によって平滑化された前記結果に従って混合される。たとえば、混合器210(
図2参照)は、平滑化器206からの平滑化結果252に従って混合を実行してもよい。平滑化を含まない実施形態では(たとえば、310および312が省略される場合)、入力オーディオ信号およびバイノーラル・オーディオ信号は、分類器からの結果に従って混合される。たとえば、混合器210(
図2を参照)は、分類器204からの結果250に従って(たとえば、平滑化器206による平滑化なしに)混合を実行してもよい。
【0064】
図4は、特徴抽出器202(
図2参照)の追加的な詳細を示すブロック図である。特徴抽出器202は、信号変換器402と、特徴計算器404と、パラメータマスク406と、ヒストグラム分析器408と、統計計算器410とを含む。これらのコンポーネントは、プロセッサ108およびメモリ110(
図1参照)によって、たとえば、一つまたは複数のコンピュータ・プログラムを記憶および実行することによって、実装されうる。
【0065】
信号変換器402は、一般に、入力オーディオ信号220を受領し、変換ドメイン情報420を生成するために変換を実行する。一般に、変換とは、ある信号ドメインから別の信号ドメインへと信号を転換することをいう。たとえば、入力オーディオ信号220は時間ドメイン信号(たとえば、PCM信号)であってもよく、変換ドメイン情報420は周波数ドメイン情報、直交ミラー・フィルタ(QMF)ドメイン情報、複素QMF(CQMF)ドメイン情報、ハイブリッドCQMF(HCQMF)ドメイン情報などであってもよい。一般に、QMFドメイン情報は、絶対値応答が他のフィルタの絶対値応答のπ/2のまわりの鏡像であるフィルタによって生成される。これらのフィルタを一緒にしてQMF対(QMF pair)と呼ぶ。一般に、QMFフィルタ係数が複素値を含む場合、CQMFドメイン情報が結果として得られる。一般に、HCQMFドメイン情報は、CQMFドメイン情報であって、CQMFフィルタバンクが、人間の聴覚系の周波数分解能に一致する効率的な非一様な周波数分解能を得るためにハイブリッド構造に拡張されたCQMFドメイン情報に対応する。特定のHCQMF実装によれば、HCQMF情報は77個の周波数帯に生成され、より低いCQMFサブバンドは、より低い周波数について、より高い周波数分解能を得るためにさらに分割される。のちにさらに詳述するように、信号変換器402は、変換ドメイン情報420としてHCQMFドメイン情報を生成する。特定の実装によれば、入力オーディオ信号220は、2つのチャネルにおける48kHzサンプリングされた時間ドメイン信号であり、信号変換器402は、各チャネルをHCQMFドメインにおける60個の細分された帯域に変換し、変換ドメイン情報420を形成する。別の具体的な実装によれば、信号変換器402は、各チャネルを64のCQMFサブバンドに変換し、下位3つのサブバンドを次のようにサブ・サブバンドにさらに分割する:第1のサブバンドは8つのサブ・サブサブバンドに分割され、第2および第3のサブバンドはそれぞれ4つのサブ・サブバンドに分割される。
【0066】
入力信号対によって表わされる入力オーディオ信号220について、信号変換器402は、変換ドメイン変換を実行して、信号をいくつかのサブバンド(周波数帯域)信号に分解し、x1(k)およびx2(k)と記される変換ドメイン情報420を形成する。特徴抽出は、変換ドメイン情報(たとえば、周波数帯域表現)に対して作用する。
【0067】
特徴計算器404は、一般に、変換ドメイン情報420から一つまたは複数の特徴422を計算する。これらの特徴422は、生特徴とも呼ばれ、チャネル間レベル差(ICLD)、チャネル間位相差(ICPD)、チャネル間コヒーレンス(ICC)、およびチャネル間時間差(ICTD)のうちの一つまたは複数を含んでいてもよい。(ICTD特徴は、HCQMF実装のような変換ドメイン処理では省略されてもよいことに注意。)
【0068】
複素数値信号x
1(k)およびx
2(k)についてのICLD ΔL(k)は、
【数3】
によって計算されてもよい。ここで、(*)は複素共役を示す。
【0069】
x
1(k)およびx
2(k)についてのICPD φ(k)は、
【数4】
によって計算できる。ここで、∠(*)は複素数の方向角を示す。
【0070】
x
1(k)およびx
2(k)についてのICC c(k)は、
【数5】
によって計算できる。ここで、Φ
12(d,k)は、正規化された相互相関関数
【数6】
であり、p(*)は、平均の短時間推定である。
【0071】
生の特徴はすべて周波数帯域kの関数であることに注意。記号の簡単のため、上記の生の特徴の一つまたは複数を表わすのにr(k)を使用する。
【0072】
パラメータマスク406は、一般に、特徴422にマスキングを適用して、修正された特徴424を生成する。ここで、マスキングは、関心帯域に適用される。周波数帯域{1,…,K}は、臨界帯域の概念を模倣するために、いくつかのパラメータ帯域{kb}b=1,…,Bに分割することができる。分割の仕方はオーディオ信号のサンプリングレートに依存することを注意しておく。
【0073】
(ICLD、ICPD、ICCなどのいずれかでありうる)各生特徴r(k)について、特徴固有のパラメータ帯域マスキングM
r(k)が、対応する生特徴に適用され、修正された特徴r'(k)が得られる:
r'(k)=M
r(k)・r(k) (9)
ここで、マスキングM
r(k)は
【数7】
のように定義され、S
rは特徴rの選択されたパラメータ帯域をもつ集合である。たとえば、集合S
rは、特徴422のそれぞれについて関心対象の帯域のみを含むように選択されてもよい。一実施形態における特定の例として、下記でより詳細に議論されるように、集合S
rは、ICPDの帯域21~60のみを含むように選択されてもよい。ある実施形態における別の特定の例として、前記集合は、さまざまなサブバンドまたは周波数ビンの諸集合を含むように選択されてもよい(たとえば、データの次元を削減することに関連して後述するように)。
【0074】
ヒストグラム分析器408は、一般に、修正された特徴424のそれぞれについて、パラメータ帯域(サブバンドとも呼ばれる)上のヒストグラム426を計算する。具体的には、各パラメータ帯域bが、nBarsPerHist個のバーをもつヒストグラムを有する。ヒストグラムは、パラメータ帯域bに属する特徴、すなわちr'(k)、k∈{kb}に基づいて生成される。
【0075】
周波数帯域エネルギーおよびパラメータ帯域エネルギーを考慮して、修正された特徴について二つの重み付け係数、すなわちそれぞれ周波数帯域エネルギー重み付けgFおよびパラメータ帯域エネルギー重み付けgPを取る。
【0076】
周波数帯域エネルギー重み付けg
F(k)は、
【数8】
によって計算される。
【0077】
パラメータ帯域エネルギー重み付けはg
P(k)は、
【数9】
によって計算される。
【0078】
すると、パラメータ帯域上のヒストグラムh(i)は、
【数10】
によって計算される。
【数11】
は床関数である。
【0079】
統計計算器410は、一般に、ウィンドウ長を形成するN個フレームについて、修正された特徴424および諸ヒストグラム426についてのウィンドウ・レベルの統計を計算する。統計計算器410は、最終的な特徴として、(Nに関する)諸ヒストグラムの平均および標準変動のような統計を計算する。統計計算器410は、特徴240として、これらの統計を分類器204に提供する(
図2を参照)。
【0080】
モデル・トレーニング
【0081】
上記で論じたように、分類器204(
図2参照)は、分類を実行するための機械学習プロセスを実装する。ある実施形態によれば、分類器204によって記憶された機械学習モデルは、静的モデルである。一般に、静的モデルは、オフラインで(たとえば、装置が製造または初期化されるとき、たとえばファームウェアのソフトウェアビルド中に)トレーニングされており、装置の動作中には(たとえば、装置のファームウェアが更新されない限り)変化しない。静的モデルは、装置が動作させられる際に、変化する入力に応じて変化する動的モデルと対比されうる。一般に、静的モデルの作成はトレーニング・データに対して実行され、静的モデルは――ひとたび生成されたら――運用データに対して作用する。
【0082】
トレーニング・データは、運用システムが作用すると予想されるデータのカテゴリーと同様のデータのカテゴリーに基づいて選択されてもよい。例示的なカテゴリーは、映画コンテンツ(たとえば、ドラマ、コメディ、アクション等のさまざまなジャンルの映画)、放送コンテンツ(たとえば、スポーツ、広告、ドラマ、コメディ、ニュース等のさまざまなジャンルの番組)、音楽コンテンツ(たとえば、クラシック、ポップス等のさまざまなジャンルから選択される)、ゲームコンテンツ等を含む。トレーニング目的のためのコンテンツの長さは、それぞれの一般的なカテゴリーについて、5時間程度から20時間程度までの範囲であってもよいが、より多様なコンテンツがモデルの堅牢性を向上させることが理解される。
【0083】
モデルは、純粋なバイノーラル・データ(たとえば、バイノーラル・マイクロフォンを使って取り込まれたオーディオ)を使用して、レンダリングされたバイノーラル(たとえば、非バイノーラル的に取り込まれたオーディオを、たとえば頭部伝達関数を使用してバイノーラル・フォーマットにレンダリングしたもの)を使用して、またはその両方を使用して、トレーニングされうる。モデルは、バイノーラルをステレオとして検出することを避けるようバイアスをかけられてもよい;バイノーラルとステレオの間で判断が不確定であるときは、判断バイアスはバイノーラルに向かう。
【0084】
以下のパラグラフは、静的モデルを生成するために使用されうるさまざまなトレーニング・プロセスを記述する。簡潔のために、これらは、静的モデルが正確であるためには、トレーニング・システムは運用システムに似ているべきであるという理解の下に、運用システムのコンテキスト(たとえば、
図1~
図4)において記述される。
【0085】
オプション1:単一特徴
【0086】
1つのオプションは、単一の特徴、たとえばICPDを使用することである。
図4を参照するに、信号変換器402は、入力オーディオ信号220を、変換ドメイン情報420に対応する77個のHCQMFビン(帯域とも呼ばれる)内の情報に変換するように構成される。特徴計算器404は、特徴422に対応する77個のHCQMFビン内の情報からICPD(式(5)参照)を計算するように構成される。
【0087】
モデル・トレーニングの分析により、(77個のHCQMFビンのうち)ビン21~60が特に堅牢な分類結果を提供するものとして決定された。よって、パラメータマスク406は、修正された特徴424が選択されるビン21~60に対応するように、マスキングを適用するように構成される。
【0088】
ヒストグラム分析器408は、修正された特徴424の各ビン上でB個のバーをもつヒストグラムを計算し、周波数帯域エネルギーおよびパラメータ帯域エネルギー(式(11)~(12)参照)を計算して、最終的なフレーム・レベルの諸特徴(諸ヒストグラム426に対応する)を与えるように構成される。
【0089】
最後に、統計計算器410は、定義された期間、たとえば1秒にわたって、諸ヒストグラム426の平均および標準偏差を計算するように構成される。
【0090】
オプション2:複数の特徴
【0091】
もう1つのオプションは、複数の特徴を使用することである。このオプションでは、選択された特徴はICPD、ICLD、およびICCである。
図4を参照するに、信号変換器402は、入力オーディオ信号220を、変換ドメイン情報420に対応するHCQMFビン(たとえば、一実施形態によれば77個のHCQMFビン)内の情報に変換するように構成される。さらに、信号変換器402は、HCQMFビンをサブバンドにグループ化するように構成される。一実施形態によれば、77個のHCQMFビンは4つのサブバンドにグループ化される;例示的なグループ化は、ビン1~10をサブバンド1に、ビン11~18をサブバンド2に、ビン19~30をサブバンド3に、ビン31~77をサブバンド4にする。特徴計算器404、パラメータマスク406、ヒストグラム分析器408、および統計計算器410は、入力情報を以下のように処理するように構成される。
【0092】
436次元の8つの特徴は、表1~表3のようにカテゴリー分けできる(若干の重複があることに注意):
【表1】
【表2】
【表3】
【0093】
表1~表3において、ICPD、ICCおよびICLDは、上記の通りである。一般に、各88次元特徴が計算され、他の特徴は計算された特徴から導かれる。weightedICPDはICPDとICCの積のヒストグラムに対応する。特徴rWICPDは、次式に対応する:
【数12】
ここで、bはサブバンド・インデックスであり、{k
b}はサブバンドb内のすべての周波数帯域を含む集合である。値nは、[(n
BarsPerHist-1)/2]より小さい任意の値でありうる。nについての典型的な値は1または3を含む。
【0094】
特徴rICPDは次式に対応する:
【数13】
ここで、φ(k)は式(5)で定義されるICPDである。
【0095】
特徴histICGDは、ICGDのヒストグラムに対応し、ここで、ICGDはφ(k)/f
c(k)によって計算され、φ(k)は式(5)で定義されるICPDであり、f
c(k)は帯域kの中心周波数である。特徴ratioICCは、現在のサブバンドの重み付けされたICCと全体的な重み付けされたICCとの間のフラクション、すなわち、
【数14】
に対応する。ここで、g
Fおよびg
Pは、式(11)および式(12)でそれぞれ定義される。weightedICPD、rWICPD、およびhistICGDは、カテゴリー横断的な特徴であることを注意しておく。各特徴は、上記で論じたように、平均および標準偏差を含む。たとえば、88次元ICPDは、44次元平均および44次元標準偏差を含む。
【0096】
モデルのテスト中に、さまざまな特徴選択順列が、見える場合(たとえば、既知のバイノーラル化器によって生成されたデータを用いる)および見えない場合(たとえば、未知のバイノーラル化器によって生成されたデータを用いる)の両方の下で評価された。これらの実験からいくつかの結論が得られた。第1に、同数の特徴が選択されるなら、特徴を3つのカテゴリー(表1~表3のような)にグループ化するほうが、2つのカテゴリーを使用するよりも、よりよいパフォーマンスを達成する。第2に、ratioICC(6次元)およびhistICGD(62次元)を保存すると、通例、見えない場合の精度が改善される;これらの2つの特徴は、見えない場合について、重要な役割を果たす。第3に、高次元の特徴(たとえば、ICPDは88次元である)は、見える場合に対して、何らかの影響を及ぼす。第4に、ICLD(88次元)を加えることにより、通例、両方の場合について、精度が改善される。
【0097】
次いで、サブバンドを使用して、436次元を200次元に削減する。具体的には、ICPDは44次元について、サブバンド1および2を使用して計算され(サブバンド3および4は除外);ICCは44次元について、サブバンド1および2を使用して計算され(サブバンド3および4は除外);ICLDは44次元について、サブバンド3および4を使用して計算され(サブバンド1および2は除外);histICDは、62次元について保存され;ratioICCは6次元について保存され;weightedICPD、rWICPDおよびrICPDは破棄される。この削減の結果、見える場合については精度が残り、見えない場合については精度がわずかに改善される。
【0098】
機械学習モデル・オプション
【0099】
上記で論じたように、さまざまな機械学習モデルが、分類器204(
図2参照)を実装するため、またはモデル・トレーニングを実行するために使用されうる。好適な機械学習モデルは、AdaBoost(適応ブースティング)モデル、深層ニューラルネットワーク(DNN)モデル、および疎DNNモデルを含む。
【0100】
AdaBoostモデルは、一般に、一組の弱い分類器から強力な分類器を生成する。一実施形態では、それぞれの弱い分類器は、1つの特徴に基づいて二値判断を行なう単純ベイズ分類器である。第1の弱い分類器は、最も弁別的な特徴を探索することによって構築された。この弱い分類器の分類結果に基づいて、次の弱い分類器を構築するときには、誤分類されたサンプルの重みを増加させる。すなわち、次の弱い分類器は、以前の弱い分類器によってなされた誤りに対して、より焦点を当て、よって、相補的な特徴が選択されることがあり、よって、前記強力な分類器の全体的な精度を増加させる。
【0101】
DNNモデルは、一般に、相互接続されたノードの複数のステージを集約する。この「深い(deep)」側面は、相互接続されたノードのステージがより少ない「浅い」ニューラルネットワークと対照的でありうる。本明細書で使用されるDNNは、隠れ層を含む多層ネットワークであってもよい。一実施形態では、3つの隠れ層のDNNが使用され、それぞれの隠れ層は200個のノードを含み、50%のドロップアウトを適用し、活性化関数としてシグモイドを使用する。
【0102】
疎DNNモデルは、一般に、モデルのメモリ・フットプリントを低減するために、構造(たとえば、フィルタ、ノード重みなど)を正則化する方法が適用されているDNNを指す。一実施形態では、トレーニングされたモデルの重みは、次式に基づいて量子化される:
【数15】
ここで、w
qは量子化された重みであり、s
iはきざみ0.1の量子化スケールであり、
s=[-1.05 -0.95 -0.85 -0.75 -0.65 -0.55 -0.45 -0.35 -0.25 -0.15 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 1.05]
【0103】
疎マトリックス記憶のような同様の技法を用いて、モデルのフットプリントを低減することができる。一方、モデルの計算複雑性を低減することもでき、一方、モデルの一般化能力を増加させることができる。
【0104】
実装の詳細
【0105】
実施形態は、ハードウェア、コンピュータ読取可能媒体上に記憶された実行可能モジュール、または両方の組み合わせ(たとえば、プログラマブル論理アレイ)で実装されてもよい。別段の規定がない限り、実施形態によって実行されるステップは、本来的に特定のコンピュータまたは他の装置に関連する必要はないが、関連している実施形態もありうる。特に、さまざまな汎用マシンが、本明細書の教示に従って書かれたプログラムとともに使用されてもよく、または、要求される方法ステップを実行するために、より特化した装置(たとえば、集積回路)を構築することがより便利であることがありうる。このように、実施形態は、それぞれが少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶素子を含む)、少なくとも1つの入力装置またはポート、および少なくとも1つの出力装置またはポートを有する、一つまたは複数のプログラマブルコンピュータシステム上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。プログラムコードは、本明細書に記載される機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、公知の仕方で一つまたは複数の出力装置に適用される。
【0106】
そのようなコンピュータ・プログラムのそれぞれは、好ましくは、本明細書に記載される手順を実行するためにコンピュータ・システムによって記憶媒体またはデバイスが読まれるときに、コンピュータを構成し、動作させるために、汎用または特殊目的のプログラム可能なコンピュータによって読出可能な記憶媒体またはデバイス(たとえば、固体メモリまたは媒体、または磁気または光学媒体)に記憶される、またはダウンロードされる。本発明のシステムは、コンピュータ・プログラムをもって構成されたコンピュータ読取可能な記憶媒体として実装されているとみなすこともでき、そのように構成された記憶媒体は、コンピュータ・システムを、本明細書に記載される機能を実行するために、特定の所定の仕方で動作させる。(ソフトウエア自体および無形もしくは一時的な信号は、それらが特許性のない主題事項である限りにおいて、除外される。)。
【0107】
上述の説明は、本発明の諸側面がどのように実装されうるかの例とともに、本発明のさまざまな実施形態を例示する。上記の例および実施形態は、唯一の実施形態とみなされるべきではなく、特許請求の範囲によって定義される本発明の柔軟性および利点を示するために提示されている。上述の開示および以下の特許請求の範囲に基づいて、他の構成、実施形態、実装および等価物が当業者にとって明らかになり、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく、使用されることができる。
【0108】
いくつかの態様を記載しておく。
〔態様1〕
オーディオ信号のバイノーラル化を検出する装置であって、当該装置は:
入力オーディオ信号を受領するよう構成され、前記入力オーディオ信号から複数の特徴を抽出するよう構成された特徴抽出器と;
前記特徴抽出器によって抽出された前記複数の特徴を受領するよう構成され、前記複数の特徴の分類を実行するよう構成され、該分類に基づいて結果を生成するよう構成された分類器であって、前記結果は、前記入力オーディオ信号がステレオ信号ではなくバイノーラル信号である確率を示す、分類器と;
前記入力オーディオ信号を受領するよう構成され、前記入力オーディオ信号に対して仮想化を実行してバイノーラル・オーディオ信号を生成するように構成された仮想化器と;
前記入力オーディオ信号、前記バイノーラル・オーディオ信号および前記結果を受領するよう構成され、前記入力オーディオ信号および前記バイノーラル・オーディオ信号を前記結果に従って混合して、出力オーディオ信号を生成するよう構成された混合器とを有しており、
前記結果が、前記入力オーディオ信号がステレオ信号であることを示す場合は、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応し、
前記結果が、前記入力オーディオ信号がバイノーラル・オーディオ信号であることを示す場合は、前記出力オーディオ信号は前記入力オーディオ信号に対応する、
装置。
〔態様2〕
前記分類器からの前記結果を平滑化するよう構成され、平滑化された結果を前記混合器に提供するよう構成された平滑化器をさらに有しており、
前記混合器は、前記入力オーディオ信号と前記バイノーラル・オーディオ信号とを、前記平滑化器によって平滑化された前記結果に従って混合するよう構成されている、
態様1に記載の装置。
〔態様3〕
前記平滑化器により平滑化された前記結果は、前記仮想化器に提供され、前記仮想化器は、平滑化された前記結果に基づいて仮想化を実行するよう構成されている、態様2に記載の装置。
〔態様4〕
前記特徴抽出器は、前記入力オーディオ信号を変換ドメイン情報に変換するよう構成されている、態様1ないし3のうちいずれか一項に記載の装置。
〔態様5〕
前記特徴抽出器は、チャネル間時間差(ICTD)特徴、チャネル間位相差(ICPD)特徴、チャネル間レベル差(ICLD)特徴、およびチャネル間コヒーレンス(ICC)特徴のうちの少なくとも1つを含む特徴を抽出するよう構成される、態様1ないし4のうちいずれか一項に記載の装置。
〔態様6〕
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成される、態様1ないし5のうちいずれか一項に記載の装置。
〔態様7〕
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成されており、前記特徴抽出器は、前記HCQMFドメイン情報の帯域の部分集合のチャネル間位相差(ICPD)を含む特徴を抽出するよう構成されている、態様1ないし5のうちいずれか一項に記載の装置。
〔態様8〕
前記HCQMFドメイン情報は77個の帯域を含み、帯域の前記部分集合は帯域21~60を含む、態様7に記載の装置。
〔態様9〕
前記特徴抽出器は、前記入力オーディオ信号をハイブリッド複素直交ミラー・フィルタ(HCQMF)ドメイン情報に変換するよう構成されており、前記特徴抽出器は、前記HCQMFドメイン情報を複数のサブバンドにグループ化するよう構成されており、前記特徴抽出器は、前記複数のサブバンドの第1の部分集合のチャネル間位相差(ICPD)特徴、前記複数のサブバンドの前記第1の部分集合のチャネル間コヒーレンス(ICC)特徴、および前記複数のサブバンドの第2の部分集合のチャネル間レベル差(ICLD)特徴を含む特徴を抽出するよう構成されている、態様1ないし5のうちいずれか一項に記載の装置。
〔態様10〕
前記特徴抽出器は:
前記入力オーディオ信号から変換ドメイン情報を生成するよう構成された信号変換器と;
前記変換ドメイン情報から複数の生特徴を計算するよう構成された特徴計算器と;
前記複数の生特徴にマスキングを適用して、複数の修正された特徴を生成するよう構成されたパラメータマスクと;
前記複数の修正された特徴のそれぞれについて、複数のパラメータ帯域上の複数のヒストグラムを計算するよう構成されたヒストグラム分析器と;
前記複数の修正された特徴および前記複数のヒストグラムから、複数のウィンドウ・レベルの統計を計算するよう構成された統計計算器であって、前記複数のウィンドウ・レベルの統計は、前記特徴抽出器によって抽出された前記複数の特徴に対応する、統計計算器とを有する、
態様1ないし9のうちいずれか一項に記載の装置。
〔態様11〕
前記分類器は、前記複数の特徴の前記分類を実行するために機械学習モデルを実装するよう構成されている、態様1ないし10のうちいずれか一項に記載の装置。
〔態様12〕
前記機械学習モデルは、適応ブースティングモデル、深層ニューラルネットワークモデル、および疎な深層ニューラルネットワークモデルのうちの1つである、態様11に記載の装置。
〔態様13〕
プロセッサと;メモリとをさらに有する態様1ないし12のうちいずれか一項に記載の装置であって、
前記プロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するよう構成されている、装置。
〔態様14〕
前記メモリは、コンピュータ・プログラムを記憶しており、前記プロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するために前記コンピュータ・プログラムを実行するよう構成されている、態様13に記載の装置。
〔態様15〕
前記出力オーディオ信号が、左出力成分および右出力成分を含み、当該装置はさらに:
前記左出力成分を出力するよう構成された左スピーカーと;
前記右出力成分を出力するよう構成された右スピーカーとを有する、
態様1ないし14のうちいずれか一項に記載の装置。
〔態様16〕
第1のイヤーバッドおよび第2のイヤーバッドをさらに有する、態様1ないし14のうちいずれか一項に記載の装置であって、
前記第1のイヤーバッドは、第1のスピーカーと、第1のプロセッサと、第1のメモリとを含み、前記第1のプロセッサは、前記特徴抽出器、前記分類器、前記仮想化器、および前記混合器を実装するよう構成され、
前記第2のイヤーバッドは、第2のスピーカーと、第2のプロセッサと、第2のメモリとを含み、前記第2のプロセッサは、第2の特徴抽出器、第2の分類器、第2の仮想化器、および第2の混合器を実装するよう構成される、
装置。
〔態様17〕
オーディオ信号のバイノーラル化を検出する方法であって、当該方法は:
入力オーディオ信号を受領するステップと;
特徴抽出器によって、前記入力オーディオ信号から複数の特徴を抽出するステップと;
分類器によって、前記特徴抽出器によって抽出された前記複数の特徴の分類を実行するステップと;
前記分類器によって、前記分類に基づいた結果を生成するステップであって、該結果は、前記入力オーディオ信号がステレオ信号ではなくバイノーラル信号である確率を示す、ステップと;
前記入力オーディオ信号に対して仮想化を仮想化器によって実行して、バイノーラル・オーディオ信号を生成するステップと;
前記結果に従って、前記入力オーディオ信号と前記バイノーラル・オーディオ信号とを混合器によって混合して、出力オーディオ信号を生成するステップとを含み、
前記結果が前記入力オーディオ信号がステレオ信号であることを示すときは、前記出力オーディオ信号は前記バイノーラル・オーディオ信号に対応し、
前記結果が前記入力オーディオ信号がバイノーラル信号であることを示すときは、前記出力オーディオ信号は前記入力オーディオ信号に対応する、
方法。
〔態様18〕
前記分類器からの結果を平滑化器によって平滑化するステップと;
前記平滑化器によって平滑化された前記結果を前記混合器に提供するステップとをさらに含み、
前記混合器は、前記平滑化器によって平滑化された結果に従って、前記入力オーディオ信号と前記バイノーラル・オーディオ信号とを混合する、
態様17に記載の方法。
〔態様19〕
前記出力オーディオ信号が、左出力成分および右出力成分を含み、当該方法がさらに:
左スピーカーから前記左出力成分を出力し;
右スピーカーから前記右出力成分を出力することを含む、
態様17または18に記載の方法。
〔態様20〕
プロセッサによって実行されると、態様17ないし19のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している非一時的なコンピュータ読取可能媒体。