IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特許7586573オーディオのバイノーラル化のステアリング
<>
  • 特許-オーディオのバイノーラル化のステアリング 図1
  • 特許-オーディオのバイノーラル化のステアリング 図2
  • 特許-オーディオのバイノーラル化のステアリング 図3A
  • 特許-オーディオのバイノーラル化のステアリング 図3B
  • 特許-オーディオのバイノーラル化のステアリング 図3C
  • 特許-オーディオのバイノーラル化のステアリング 図4
  • 特許-オーディオのバイノーラル化のステアリング 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-11
(45)【発行日】2024-11-19
(54)【発明の名称】オーディオのバイノーラル化のステアリング
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241112BHJP
【FI】
H04S7/00 300
【請求項の数】 20
(21)【出願番号】P 2022509676
(86)(22)【出願日】2020-08-19
(65)【公表番号】
(43)【公表日】2022-10-21
(86)【国際出願番号】 US2020047079
(87)【国際公開番号】W WO2021034983
(87)【国際公開日】2021-02-25
【審査請求日】2023-08-16
(31)【優先権主張番号】PCT/CN2019/101291
(32)【優先日】2019-08-19
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】62/896,321
(32)【優先日】2019-09-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】19218142.8
(32)【優先日】2019-12-19
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】62/956,424
(32)【優先日】2020-01-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ビン,チーンユエン
(72)【発明者】
【氏名】ルオ,リービン
(72)【発明者】
【氏名】ヤーン,ズーユイ
(72)【発明者】
【氏名】シュワーン,ジーウエイ
(72)【発明者】
【氏名】ユイ,シュエメイ
(72)【発明者】
【氏名】ワーン,グイピーン
【審査官】松崎 孝大
(56)【参考文献】
【文献】特表2010-511910(JP,A)
【文献】国際公開第2019/122580(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオのバイノーラル化をステアリングする方法であって、当該方法は:
複数のオーディオ・フレームを含むオーディオ入力信号を受領する段階と;
前記オーディオ入力信号の現在のオーディオ・フレームがバイノーラル化オーディオを含む確からしさを示す信頼値を計算する段階と;
前記信頼値に基づいて状態信号を決定する段階とを含み、該状態信号は、現在のオーディオ・フレームが非バイノーラル化状態またはバイノーラル化状態にあることを示す、段階と;
ステアリング信号を決定する段階であって、前記状態信号が前記非バイノーラル化状態を示すものから前記バイノーラル化状態を示すものに変更されると、
前記オーディオ入力信号に対して頭部伝達関数(HRTF)を適用することによってオーディオのバイノーラル化をアクティブ化して、結果としてバイノーラル化オーディオ信号を生じるよう前記ステアリング信号を変化させ、
少なくとも部分的に前記バイノーラル化オーディオ信号を含むオーディオ出力信号を生成し、
前記状態信号が前記バイノーラル化状態を示すものから前記非バイノーラル化状態を示すものに変更されると、バイノーラル化の非アクティブ化モードを真に設定し、
バイノーラル化の前記非アクティブ化モードが真であり、現在のオーディオ・フレームの前記信頼値が非アクティブ化閾値を下回り、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームより前の前記オーディオ入力信号の閾値数のオーディオ・フレームのエネルギー値より小さい場合:
バイノーラル化の前記非アクティブ化モードを偽に設定し、
オーディオのバイノーラル化を非アクティブ化するまたは低減するように前記ステアリング信号を変更し、
少なくとも部分的に前記オーディオ入力信号を含む前記オーディオ出力信号を生成する、
方法。
【請求項2】
オーディオのバイノーラル化をアクティブ化するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は:
第1の閾値時間期間にわたって、前記バイノーラル化オーディオ信号と前記オーディオ入力信号とを混合オーディオ信号に混合し、前記混合オーディオ信号をオーディオ出力信号として設定することを含み、前記混合オーディオ信号における前記バイノーラル化オーディオ信号の部分は、前記第1の閾値期間の間、徐々に増加させられ、前記第1の閾値期間の終了時には、前記オーディオ出力信号は、前記バイノーラル化オーディオ信号のみを含む、
請求項1に記載の方法。
【請求項3】
オーディオのバイノーラル化を非アクティブ化または低減するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は:
第2の閾値時間期間にわたって、前記バイノーラル化されたオーディオ信号と前記オーディオ入力信号とを混合オーディオ信号に混合し、前記混合オーディオ信号をオーディオ出力信号として設定することを含み、前記混合オーディオ信号における前記バイノーラル化オーディオ信号の部分は、前記第2の閾値期間の間、徐々に減少させられ、前記第2の閾値期間の終了時には、前記オーディオ出力信号は、前記オーディオ入力信号のみを含む、
請求項1または2に記載の方法。
【請求項4】
オーディオのバイノーラル化をアクティブ化するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は、前記オーディオ出力信号を前記バイノーラル化オーディオ信号として設定することを含む、請求項1に記載の方法。
【請求項5】
オーディオのバイノーラル化を非アクティブ化または低減するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は、前記オーディオ出力信号を前記オーディオ入力信号として設定することを含む、請求項1または4に記載の方法。
【請求項6】
信頼値を計算する段階は、前記オーディオ入力信号の現在のオーディオ・フレームの特徴を抽出する段階と;抽出された特徴に基づいて前記信頼値を計算する段階とを含み、前記特徴は:
チャネル間レベル差(ICLD)、チャネル間位相差(ICPD)、チャネル間コヒーレンス(ICC)、ミッド/サイド・メル周波数ケプストラル係数(MFCC)、およびスペクトログラムのピーク/ノッチ特徴のうちの少なくとも1つを含む、
請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
信頼値を計算する段階は、さらに:
現在のオーディオ・フレームより前の前記オーディオ入力信号の複数のオーディオ・フレームの特徴を受領する段階であって、前記特徴は、現在のオーディオ・フレームの抽出された特徴に対応するものである、段階と;
前記オーディオ入力信号の現在のおよび前記複数の前のオーディオ・フレームの特徴に重みを適用する段階であって、現在のオーディオ・フレームの特徴に適用される重みは、前記複数の前のオーディオ・フレームの特徴に適用される重みよりも大きい、段階と;
重み付けされた特徴に基づいて前記信頼値を計算する段階とを含む、
請求項6に記載の方法。
【請求項8】
信頼値を計算する段階は、さらに:
非対称な窓関数に従って、前記オーディオ入力信号の現在のおよび前記複数の前のオーディオ・フレームの特徴に重みを適用することを含む、
請求項7に記載の方法。
【請求項9】
前記非対称な窓は、ハミング窓の前半である、請求項8に記載の方法。
【請求項10】
現在のオーディオ・フレームおよび前記複数の前のオーディオ・フレームがインパルス様の信号を含むかどうかを判定する段階と;
そうである場合、現在のオーディオ・フレームおよび前記複数の前のオーディオ・フレームの特徴に動的な重みを適用する段階とをさらに含み、
前記動的な重みは、フレーム・エネルギーの比に基づく、
請求項7に記載の方法。
【請求項11】
前記判定する段階は:
【数25】
に従って各フレームについてのフレーム・エネルギー比Riを計算する段階であって、Eiはフレームiにおける全チャネルのエネルギーの平均である、段階と;
Riが第1の閾値よりも大きく、Eiが第2の閾値よりも大きい場合に、フレームiがインパルス様であると判定する段階とを含む、
請求項10に記載の方法。
【請求項12】
信頼値を計算する段階は、さらに:
前記オーディオ入力信号の現在のおよび所定数の前のオーディオ・フレームの特徴を、重み付けされたヒストグラムに累積する段階であって、該重み付けされたヒストグラムは、前記特徴を計算するために使用される各サブバンドを、そのサブバンド内の総エネルギーに従って重み付けする、段階と;
前記重み付けされたヒストグラムの平均値または標準分散に基づいて前記信頼値を計算する段階とをさらに含む、
請求項7ないし11のうちいずれか一項に記載の方法。
【請求項13】
信頼値を計算する段階は:
前記オーディオ入力信号の現在のオーディオ・フレームの抽出された特徴、および受領されていれば現在のオーディオ・フレームより前の前記オーディオ入力信号の複数のオーディオ・フレームの特徴を、機械学習分類器に入力することを含み、
前記機械学習分類器は、前記入力に基づいて信頼値を出力するようにトレーニングされている、
請求項6ないし12のうちいずれか一項に記載の方法。
【請求項14】
信頼値を計算する段階は:
現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値を受領する段階と;
1極フィルタを使用して、現在のオーディオ・フレームの前記信頼値を調整する段階とを含み、
現在のオーディオ・フレームの信頼値と、現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値とが前記1極フィルタへの入力であり、調整された信頼値が前記1極フィルタからの出力である、
請求項1ないし13のうちいずれか一項に記載の方法。
【請求項15】
前記状態信号を決定する段階は:
4状態の状態機械を適用することを含み、前記4状態の状態機械の2つの状態は、前記状態信号が現在のオーディオ・フレームがバイノーラル化されていない状態であることを示すことに対応し、前記4状態の状態機械の残りの2つの状態は、前記状態信号が現在のオーディオ・フレームがバイノーラル化された状態であることを示すことに対応する、
請求項1ないし14のうちいずれか一項に記載の方法。
【請求項16】
前記1極フィルタが平滑化閾値よりも小さな平滑化時間をもち、前記平滑化閾値はRC時定数に基づいて決定される、請求項15に記載の方法。
【請求項17】
前記4状態の状態機械は、非バイノーラル化保持状態(UBH)、バイノーラル化保持状態(BH)、バイノーラル化リリース計数状態(BRC)、およびバイノーラル化アタック計数状態(BAC)を含み、
ここで、UBHおよびBACは、前記状態信号が、現在のオーディオ・フレームがバイノーラル化されていない状態にあることを示すことに対応し、BHおよびBRCは、前記状態信号が、現在のオーディオ・フレームがバイノーラル化された状態にあることを示すことに対応し、
前記信頼値が信頼閾値を上回ると状態はUBHからBACに遷移し、状態が到達されているBACである間に閾値数のフレームが信頼閾値より高い信頼値をもつと、状態はBACからBHに遷移し、信頼値が信頼閾値を下回ると、状態はBHからBRCに遷移し、所定数の連続するフレームが信頼閾値より低い信頼値をもつと、状態はBRCからUBHに遷移する、
請求項15または16に記載の方法。
【請求項18】
一つまたは複数のコンピュータ・プロセッサによる実行時に、該一つまたは複数のプロセッサに請求項1ないし17のうちいずれか一項に記載の方法を実行させる命令を記憶している非一時的なコンピュータ読み取り可能媒体。
【請求項19】
オーディオのバイノーラル化をステアリングするシステムであって、当該システムは:
複数のオーディオ・フレームを含むオーディオ入力信号を受領するオーディオ受領器と;
前記オーディオ入力信号の現在のオーディオ・フレームがバイノーラル化オーディオを含む確からしさを示す信頼値を計算するバイノーラル化検出器と;
前記信頼値に基づいて状態信号を決定する状態決定器であって、該状態信号は、前記現在のオーディオ・フレームが非バイノーラル化状態またはバイノーラル化状態にあることを示す、状態決定器と;
ステアリング信号を決定する切り換え決定器とを含み、前記状態決定器が、前記状態信号を前記非バイノーラル化状態を示すものから前記バイノーラル化状態を示すものに変更すると、前記切り換え決定器は:
前記オーディオ入力信号に対して頭部伝達関数(HRTF)を適用することによってオーディオのバイノーラル化をアクティブ化して、結果としてバイノーラル化オーディオ信号を生じるよう前記ステアリング信号を変化させ、
少なくとも部分的に前記バイノーラル化オーディオ信号を含むオーディオ出力信号を生成するように構成され、
前記状態決定器が、前記状態信号を前記バイノーラル化状態を示すものから前記非バイノーラル化状態を示すものに変更すると、前記切り換え決定器は、バイノーラル化の非アクティブ化モードを真に設定し;
バイノーラル化の前記非アクティブ化モードが真であり、現在のオーディオ・フレームの前記信頼値が非アクティブ化閾値を下回り、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームの前の前記オーディオ入力信号の閾値数のオーディオ・フレームのエネルギー値より小さい場合、前記切り換え決定器は:
バイノーラル化の前記非アクティブ化モードを偽に設定し、
オーディオのバイノーラル化を非アクティブ化するまたは低減するように前記ステアリング信号を変更し、
少なくとも部分的に前記オーディオ入力信号を含む前記オーディオ出力信号を生成するように構成される、
システム。
【請求項20】
一つまたは複数のコンピュータ・プロセッサ回路と;
前記一つまたは複数のプロセッサによる実行時に、前記一つまたは複数のプロセッサに請求項1ないし17のうちいずれか一項に記載の方法を実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体とを有する、
システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2019年8月19日に出願された国際特許出願第PCT/CN2019/101291号、2019年9月5日に出願された米国仮特許出願第62/896,321号、2019年12月19日に出願された欧州特許出願第19218142.8号、および2020年1月2日に出願された米国仮特許出願第62/956,424号に対する優先権を主張し、これらは参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、オーディオのバイノーラル化のステアリングの分野に関する。詳細には、本開示は、オーディオのバイノーラル化をステアリングするための方法、非一時的なコンピュータ読み取り可能媒体、およびシステムに関する。
【背景技術】
【0003】
今日、没入的なユーザー体験を提供するために、空間的オーディオ技法をオーディオ・コンテンツに実装することが一般的である。最も一般的な技法の1つは、バイノーラル化(binauralization)である。バイノーラル化は、頭部伝達関数(HRTF)を使用して仮想オーディオ・シーンを生成し、それがヘッドフォンまたはスピーカーによって再生されうる。バイノーラル化は、仮想化と称されることもある。バイノーラル化方法によって生成されたオーディオは、バイノーラル化オーディオまたは仮想化オーディオと称されることもある。
【0004】
電子ゲームは、スマートフォン、タブレット、パソコンなどの消費者の娯楽機器の台頭とともに人気が高まっている。ゲームの使用事例では、バイノーラル化はプレイヤーに追加的な情報を提供するために広く使用されている。たとえば、一人称シューティングゲームにおけるバイノーラル化された銃声音クリップは、方向情報を提供し、目標位置を示すことができる。
【0005】
ゲームの使用事例では、バイノーラル化されたオーディオは、コンテンツ作成側または再生側のいずれかで動的に生成されうる。コンテンツ作成側では、さまざまなゲームエンジンが、オーディオ・オブジェクトをバイノーラル化し、それらを[バイノーラル化されていない]背景音にミックスするバイノーラル化方法を提供する。再生側では、後処理技法がバイノーラル化オーディオを生成することもある。
【0006】
しかしながら、上記のいずれの場合でも、ユーザーの体験にマイナスの影響を及ぼす可能性のある、オーディオへの悪影響を避けるために、オーディオ・バイノーラル化に注意を払うべきである。
【発明の概要】
【課題を解決するための手段】
【0007】
第1の側面によれば、オーディオのバイノーラル化をステアリングする方法が提供される。本方法は、複数のオーディオ・フレームを含むオーディオ入力信号を受領する段階と;前記オーディオ入力信号の現在のオーディオ・フレームがバイノーラル化オーディオを含む確からしさを示す信頼値を計算する段階と;前記信頼値に基づいて状態信号を決定する段階であって、該状態信号は、前記現在のオーディオ・フレームが非バイノーラル化状態またはバイノーラル化状態にあることを示す、段階と;ステアリング信号を決定する段階であって、前記状態信号が前記非バイノーラル化状態を示すものから前記バイノーラル化状態を示すものに変更されると、前記オーディオ入力信号に頭部伝達関数HRTFを適用することによってオーディオのバイノーラル化をアクティブ化して、結果としてバイノーラル化オーディオ信号を生じるよう前記ステアリング信号を変化させ、少なくとも部分的に前記バイノーラル化オーディオ信号を含むオーディオ出力信号を生成し、前記状態信号が前記バイノーラル化状態を示すものから前記非バイノーラル化状態を示すものに変更されると、バイノーラル化の非アクティブ化モードを真に設定し、バイノーラル化の前記非アクティブ化モードが真であり、現在のオーディオ・フレームの前記信頼値が非アクティブ化閾値を下回り、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームの前の前記オーディオ入力信号の閾値数のオーディオ・フレームのエネルギー値より小さい場合、バイノーラル化の前記非アクティブ化モードを偽に設定し、オーディオのバイノーラル化を非アクティブ化するまたは低減するように前記ステアリング信号を変更し、前記オーディオ入力信号を少なくとも部分的に含む前記オーディオ出力信号を生成する、段階とを含む。
【0008】
そのような方法に従ってバイノーラル化をステアリングすることにより、バイノーラル化オーディオ入力信号と非バイノーラル化オーディオ入力信号との間のオーディオ出力信号の頻繁な切り換えが避けられる。頻繁な切り換えは、オーディオに悪影響を及ぼし、マイナスのユーザーの体験につながる可能性があるため、避けることが望ましい。たとえば、頻繁な切り換えは、耳障りであり、ユーザーに不快感を生じさせる可能性がある。
【0009】
該ステアリングはまた、たとえオーディオ入力信号が非バイノーラル化バックグラウンドと短期のバイノーラル化音の混合を含んでいるとしても、すでにバイノーラル化されたオーディオのバイノーラル化後処理のような二重バイノーラル化を回避する。二重バイノーラル化は、オーディオに悪影響を及ぼし、マイナスのユーザー体験につながる可能性があるため、回避することが望ましい場合がある。たとえば、ゲームプレーヤーが知覚する銃撃の方向は、バイノーラル化を二回適用すると、不正確になることがある。
【0010】
該ステアリングはさらに、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームに先行する、オーディオ入力信号の閾値数のオーディオ・フレームのエネルギー値より低いことのチェックのため、適正に設計された切り換え点を有する。これは、マイナスのユーザー体験を回避する。たとえば、連続的な射撃音の期間がバイノーラル化されていると検出された場合、すぐにバイノーラル化器のスイッチを入れるべきではない。すぐにスイッチを入れると、射撃音を不安定にする。この不安定性問題は、顕著に知覚され、全体的なオーディオ品質に有害でありうる。
【0011】
ある実施形態によれば、オーディオのバイノーラル化をアクティブ化するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は:第1の閾値時間期間にわたって、前記バイノーラル化オーディオ信号と前記オーディオ入力信号とを混合オーディオ信号に混合し、前記混合オーディオ信号をオーディオ出力信号として設定することを含み、前記混合オーディオ信号における前記バイノーラル化オーディオ信号の部分は、前記第1の閾値期間の間、徐々に増加させられ、前記第1の閾値期間の終了時には、前記オーディオ出力信号は、前記バイノーラル化オーディオ信号のみを含む。
【0012】
混合オーディオ信号は、ユーザーの不快感を引き起こしうる急激な変化が回避されるように前記オーディオ入力信号から前記バイノーラル化オーディオ信号への遷移を平滑化するという点で有益である。
【0013】
混合オーディオ信号は、任意的に、オーディオ入力信号とバイノーラル化オーディオ信号とを、和が1になる重みを用いた線形結合として含み、重みはステアリング信号の値に依存してもよい。和が1になる重みは、オーディオ出力信号の全エネルギー含有量が混合の影響を受けないという点で有益である。
【0014】
別の実施形態によれば、オーディオのバイノーラル化を非アクティブ化または低減するように前記ステアリング信号が変更されると、前記オーディオ出力信号を生成する段階は:第2の閾値時間期間にわたって、前記バイノーラル化されたオーディオ信号と前記オーディオ入力信号とを混合オーディオ信号に混合し、前記混合オーディオ信号をオーディオ出力信号として設定する段階を含み、前記混合オーディオ信号における前記バイノーラル化オーディオ信号の部分は、前記第2の閾値期間の間、徐々に減少させられ、前記第2の閾値期間の終了時には、前記オーディオ出力信号は、前記オーディオ入力信号のみを含む。
【0015】
混合オーディオ信号は、ユーザーに不快感を生じさせうる急激な変化が回避されるようバイノーラル化オーディオ信号からオーディオ入力信号への遷移をなめらかにするという点で有益である。
【0016】
混合オーディオ信号は、任意的に、オーディオ入力信号とバイノーラル化オーディオ信号とを、和が1になる重みを用いた線形結合として含み、重みはステアリング信号の値に依存してもよい。和が1になる重みは、オーディオ出力信号の全エネルギー含有量が混合の影響を受けないという点で有益である。
【0017】
さらに別の実施形態によれば、信頼値を計算する段階は、オーディオ入力信号の現在のオーディオ・フレームの特徴を抽出する段階であって、オーディオ入力信号の特徴は、チャネル間レベル差(inter-channel level differences、ICLD)、チャネル間位相差(inter-channel phase difference、ICPD)、チャネル間コヒーレンス(inter-channel coherence、ICC)、ミッド/サイド・メル周波数ケプストラル係数(mid/side Mel-Frequency Cepstral Coefficient、MFCC)、およびスペクトログラムのピーク/ノッチ特徴のうちの少なくとも1つを含む、段階と;抽出された特性に基づいて前記信頼値を計算する段階とを含む。
【0018】
抽出された特徴は、信頼値の、より精密な計算を許容するという点で有益である。
【0019】
一つまたは複数の実施形態によれば、信頼値を計算する段階は、さらに:現在のオーディオ・フレームに先行する前記オーディオ入力信号の複数のオーディオ・フレームの特徴を受領する段階であって、前記特徴は、現在のオーディオ・フレームの抽出された特徴に対応するものである、段階と;オーディオ入力信号の現在のおよび複数の以前のオーディオ・フレームの特徴に重みを適用する段階であって、現在のオーディオ・フレームの特徴に適用される重みは、複数の以前のオーディオ・フレームの特徴に適用される重みよりも大きい、段階と;重み付けされた特徴に基づいて信頼値を計算する段階とを含む。
【0020】
重みは、より新しいフレーム、特に現在のフレームを優先し、そのことは、結果を、それらのフレームから計算される特徴の変化に、より大きく反応させる点で、有益である。
【0021】
さらに別の一実施形態によれば、信頼値を計算する段階は、さらに:非対称な窓関数に従って、オーディオ入力信号の現在のおよび複数の以前のオーディオ・フレームの特徴に重みを加えることを含む。
【0022】
非対称な窓関数は、オーディオ・フレームに異なる重みを適用するための簡単で信頼性の高い方法であるという点で有益である。非対称な窓は、たとえば、ハミング窓の前半であってもよい。
【0023】
第2の側面によれば、一つまたは複数のコンピュータ・プロセッサによる実行時に、該一つまたは複数のプロセッサに第1の側面の方法を実行させる命令を記憶している非一時的なコンピュータ読み取り可能媒体が提供される。
【0024】
第3の側面によれば、オーディオのバイノーラル化をステアリングするシステムが提供される。本システムは、複数のオーディオ・フレームを含むオーディオ入力信号を受領するオーディオ受領器と;前記オーディオ入力信号の現在のオーディオ・フレームがバイノーラル化オーディオを含む確からしさを示す信頼値を計算するバイノーラル化検出器と;前記信頼値に基づいて状態信号を決定する状態決定器であって、該状態信号は、前記現在のオーディオ・フレームが非バイノーラル化状態またはバイノーラル化状態にあることを示す、状態決定器と;ステアリング信号を決定する切り換え決定器とを含み、前記状態決定器が、前記状態信号を前記非バイノーラル化状態を示すものから前記バイノーラル化状態を示すものに変更すると、前記切り換え決定器は、前記オーディオ入力信号に頭部伝達関数HRTFを適用することによってオーディオのバイノーラル化をアクティブ化して、結果としてバイノーラル化オーディオ信号を生じるよう前記ステアリング信号を変化させ、少なくとも部分的に前記バイノーラル化オーディオ信号を含むオーディオ出力信号を生成するように構成され、前記状態決定器が、前記状態信号を前記バイノーラル化状態を示すものから前記非バイノーラル化状態を示すものに変更すると、前記切り換え決定器は、バイノーラル化の非アクティブ化モードを真に設定し、バイノーラル化の前記非アクティブ化モードが真であり、現在のオーディオ・フレームの前記信頼値が非アクティブ化閾値を下回り、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームの前の前記オーディオ入力信号の閾値数のオーディオ・フレームのエネルギー値より小さい場合、前記切り換え決定器は、バイノーラル化の前記非アクティブ化モードを偽に設定し、オーディオのバイノーラル化を非アクティブ化するまたは低減するように前記ステアリング信号を変更し、前記オーディオ入力信号を少なくとも部分的に含む前記オーディオ出力信号を生成するように構成される。
【0025】
第2および第3の側面は、一般に、第1の側面と同じ特徴および利点を有してもよい。
【図面の簡単な説明】
【0026】
例として、ここで、添付の図面を参照して、本開示の実施形態が記述される。
図1】バイノーラル化ステアリングの例示的システムのブロック図である。
図2】例示的な4状態の状態機械の図である。
図3A】例示的な信頼値の例を示す。
図3B】例示的な状態信号を示す。
図3C】例示的なステアリング信号を示す。
図4】バイノーラル化ステアリングの例示的プロセスを示すフローチャートである。
図5】ある実施形態による、図1図4を参照して記載される特徴およびプロセスを実装するための移動装置アーキテクチャーである。
【発明を実施するための形態】
【0027】
ここで、添付の図面を参照して、本開示の実施形態を説明する。しかしながら、本開示は、多くの異なる形で具現でき、本明細書に記載される実施形態に限定されるものと解釈されるべきではない。むしろ、これらの実施形態は、本開示が十全かつ完備であり、当業者に本開示の範囲を完全に伝えるように提供される。添付の図面に示された具体的な実施形態の詳細な説明において使用される用語は、本開示を限定することは意図されていない。図面において、同様の番号は、同様の要素を指す。
【0028】
従来のバイノーラル化技法は、バイノーラル化されたオーディオを生成するために、バイノーラル化検出モジュールおよび混合モジュールを使用する。この方法は、映画のような一般的な娯楽コンテンツにも有効である。しかしながら、ゲームコンテンツと他の娯楽コンテンツ(たとえば、映画または音楽)との間の差異のため、それはゲーム使用事例には好適でない。
【0029】
一般的なゲームコンテンツは、多くの短期のバイノーラル化音を含んでいる。これは、ゲームコンテンツのために使用される特殊なバイノーラル化法のためである。一般に、バイノーラル化された映画コンテンツは、すべてのオーディオ・フレームに(時にはすべて一度に)バイノーラル化器を適用することによって得られる。しかしながら、ゲームコンテンツについては、バイノーラル化器は通例、特定のオーディオ・オブジェクト(銃声、足音など)に適用され、それらは通例、時間的には現れるのは少ない。つまり、比較的長いバイノーラル化された期間をもつ他のタイプのバイノーラル化されたコンテンツとは対照的に、ゲームコンテンツは、非バイノーラル化背景と短期のバイノーラル化音との混合を有している。
【0030】
バイノーラル化検出モジュールは、再生側のバイノーラル化法がバイノーラル化または非バイノーラル化オーディオを適応的に処理するために有益である。このモジュールは、通例、メディア・インテリジェンス(Media Intelligence、MI)技法を使用し、信号がバイノーラル化される、またはされない確率を表す信頼値を提供する。MIは、機械学習技法と統計信号処理を使用してマルチメディア信号から情報を導出する技術の集合体である。
【0031】
バイノーラル化検出モジュールは、リアルタイムでオーディオ・データをフレームごとに解析し、オーディオの複数のタイプ(たとえば、バイノーラル化/ダイアログ/音楽/ノイズ/VOIP)に関連する信頼スコアを同時に出力することができる。信頼値は、バイノーラル化方法をステアリングするために使用されてもよい。
【0032】
よって、本開示は、上記の問題の少なくともいくつかを解決し、先行技術のシステムの欠点のいくつかを解消または少なくとも緩和するように努力する。
【0033】
本開示のさらなる目的は、比較的頻繁な切り換えを回避するバイノーラル化検出方法を提供することである。
【0034】
図1から始めると、オーディオのバイノーラル化をステアリングするための方法を実装する例示的なシステム100のブロック図が示される。
【0035】
システム100への入力は、オーディオ入力信号110である。オーディオ入力信号110は、複数のオーディオ・フレームを含み、オーディオ・フレームは前景のバイノーラル・オーディオのみ、背景の非バイノーラル・オーディオのみ、または両方の混合を含んでいてもよい。入力信号110は、非圧縮でも、圧縮されていてもよい。圧縮された信号および/またはエンコードされた信号は、オーディオのバイノーラル化をステアリングする方法を実行する前に、非圧縮化および/またはデコード(図1には示されていない)されてもよい。
【0036】
オーディオ入力信号110は、バイノーラル化検出器130に入力される。バイノーラル化検出器130は、入力オーディオがバイノーラル化オーディオを含む確からしさを示す信頼値135を出力する。信頼値135は、任意的に、ゼロから1までの間で正規化される。ここで、ゼロは、オーディオ入力信号110がバイノーラル化オーディオを含む可能性がないことを示し、1は、オーディオ入力信号110がバイノーラル化オーディオを含む完全な確からしさを示す。
【0037】
バイノーラル化検出器130は、バイノーラル化オーディオを示すオーディオ入力信号110の特徴を抽出することを含む、信頼値135を計算する段階を実装してもよい。特徴は、任意的に、周波数領域で抽出される。これは、特徴が抽出前に変換され、抽出後に逆変換されることを示す。変換は、信号をいくつかのサブバンド(周波数帯域)に分解するドメイン変換を含む。
【0038】
ある特定の実装によれば、バイノーラル化検出器130は、各チャネルの各フレームを64個の複素直交ミラーフィルタ領域サブバンドに変換し、下位3つのサブバンドをさらに、次のようにサブサブバンドに分割する:第1のサブバンドは8つのサブサブバンドに分割され、第2および第3のサブバンドはそれぞれ4つのサブサブバンドに分割される。
【0039】
バイノーラル化されたオーディオを示すオーディオ入力信号の特徴は、チャネル間レベル差(ICLD)、チャネル間位相差(ICPD)、チャネル間コヒーレンス(ICC)、ミッド/サイド・メル周波数ケプストラム係数(MFCC)、およびスペクトログラムのピーク/ノッチ特徴のうちの少なくとも1つを含んでいてもよい。
【0040】
チャネル間レベル差(ICLD)は、2つの異なるサブバンドのサブバンド音響エネルギーのデシベル差に比例する指標である。周波数領域におけるΔL(k)であるICLDは、
【数1】
に従って計算されてもよい。ここで、x1(k)およびx2(k)は、周波数領域での2つの入力信号サブバンドであり、*は複素共役を示す。
【0041】
チャネル間位相差(ICPD)は、2つのサブバンドの位相差の指標である。周波数領域におけるφ(k)であるICPDは、
【数2】
に従って計算されてもよい。ここで、∠は複素数の方向角を示す。
【0042】
チャネル間コヒーレンス(ICC)は、2つのサブバンドのコヒーレンスの指標である。周波数領域におけるc(k)であるICCは、
【数3】
に従って計算されてもよい。ここで、Φ12(k)は
【数4】
による正規化された相互相関関数であり、d1=max{-d,0}、d2=max{d,0}、dは2つの入力信号サブバンドの間の時間差であり、pは平均エネルギーの短時間推定、すなわちp=x1(k-d1)x2(k-d2)である。
【0043】
ミッドおよびサイドのメル周波数ケプストラム係数(MFCC)は、HRTF(頭部伝達関数)によって引き起こされるスペクトログラム修正を含んでいてもよい。これらの特徴を抽出する手順には、以下を含む:
1.ミッドおよびサイド信号AMおよびASが、
【数5】
のように左右のチャネル信号から得られる。
2.次いで、メル周波数ケプストラム係数(MFCC)が、古典的な教科書(たとえば、非特許文献1)に見られるアプローチに従って計算される。
【文献】Rabiner and Schafer、Theory and Applications of Digital Speech Processing
【0044】
HRTFフィルタリングは、いくつかの周波数範囲(5~13kHz)でスペクトログラムにピークおよびノッチを生じさせる。そのようなスペクトログラムのピークおよびノッチの特徴は、HRTFによるスペクトル修正を見つけるのに役立ちうる。スペクトルのピーク/ノッチ特徴は、以下の手順で各チャネルについて計算されてもよい。
【0045】
1.対数領域の信号絶対値の局所的な最大と最小を見出し、特定の周波数範囲(たとえば、5~13kHz)内の最大値と最小値の数Nummax、Numminを同定する。
局所的な最大は以下の条件を満たす必要がある:
【数6】
ここで、X-およびX+は局所的な最大または最小の左および右の値であり、MAXthresは選択された閾値である。
局所的な最小は以下の条件を満たす必要がある:
【数7】
ここで、MINthresは選択された閾値である。
【0046】
2.[0,1]の範囲にするために、NummaxおよびNumminをあらかじめ定義された値NUMnorm_factorで正規化する。
【数8】
【0047】
これらの特徴は、2つのサブバンドについて計算されるものとして開示されているが、任意の2つのサブバンドおよび/またはサブサブバンドが選択されてもよく、任意的に、特徴は、いくつかの対のサブバンドおよび/またはサブサブバンドについて計算され、可能性としては、それらを単一の平均またはアベレージ指標に組み合わせる。ある実施形態では、これらの特徴は、すべてのサブバンドについて計算され、ある特徴が少なくとも1つのサブバンドについて正確に計算できない場合、そのようなサブバンドは無視される。
【0048】
別の実施形態では、サブバンドの特定の諸範囲のみが特定の諸特徴のために使用され、他の範囲およびこれらの範囲内の計算不可能なサブバンドは無視される。たとえば、77のハイブリッド複素直交ミラーフィルタ(HCQMF)帯域を用いると、サブバンド1~9および10~18の範囲のみが、ICCおよびICPDの計算に使用でき、サブバンド19~77は無視される。
【0049】
バイノーラル化されたオーディオを示すオーディオ入力信号110の抽出された特徴は、重み付けされたヒストグラムに累積されてもよい。重み付けされたヒストグラムは、カウントに重みを適用する。この実施形態では、信頼値を計算する段階は、さらに:オーディオ入力信号の現在のオーディオ・フレームおよび所定数の前のオーディオ・フレームの特徴を重み付けされたヒストグラムに累積する段階であって、該重み付けされたヒストグラムは、特徴を計算するために使用される各サブバンドを、そのサブバンドの総エネルギーに従って重み付けする、段階と;重み付けされたヒストグラムの平均値または標準分散に基づいて、たとえば、それらを下記で説明するように機械学習方法の入力として使用することによって、信頼値を計算する段階とを含む。
【0050】
重み付けされたヒストグラムは、24、48、96、または任意の他の好適な数のような、所定の数のフレームからの特徴を含む。これらのフレームは、任意的に、順次的であり、現在のフレームから開始し、後ろ向きにカウントする。重み付けされたヒストグラムは、いくつかの異なるフレームからのオーディオ入力信号の抽出された特徴の良好な概観を提供する。
【0051】
ある実施形態では、2つの異なる重みが乗算され、ヒストグラムに適用される。一方は、サブバンド内の各周波数帯域エネルギー比に従ってカウントを重み付けし、他方は、全サブバンドの総サブバンドエネルギーに対する各サブバンドエネルギーの比に従ってカウントを重み付けする。
【0052】
重み付けされたヒストグラムは、
【数9】
に従って計算されてもよい。ここで、i=1,…,nBarsPerHistであり、nBarsPerHistは、前記ヒストグラムにおけるバーの数であり、
【数10】
であり、周波数帯域エネルギー重み付けは
【数11】
であり、パラメータ帯域エネルギー重み付けは
【数12】
であり、p(k)はサブバンドkのエネルギーであり、{kb}はパラメータ帯域であり、r'(k)は部分的に無視される特徴r(k)である。
【0053】
バイノーラル化検出器130は、さらに、トレーニングデータから推定された少なくとも1つのパラメータの関数として入力を変換し、信頼値135を出力する機械学習分類器を実装してもよい。入力は、オーディオ入力信号そのままであってもよく、または、上に例示したもののような、該オーディオ入力信号の抽出された特徴であってもよい。
【0054】
ある実施形態では、信頼値135を計算する段階は:オーディオ入力信号110の現在の音声フレームの抽出された特徴、および、現在の音声フレームに先行するオーディオ入力信号110の複数の音声フレームの特徴が受領または計算されていればそれを、機械学習分類器に入力する段階を含み、機械学習分類器は、該入力に基づいて信頼値135を出力するようにトレーニングされている。
【0055】
機械学習分類器は、入力をどのように処理して信頼値135にするかを学習するようにトレーニングされてもよく、任意的に、信頼値135をクラスとして監督される。
【0056】
機械学習分類器は、前もってトレーニングされてもよく、またはバイノーラル化検出器130に入力されている同じデータから分岐されるトレーニングセットを用いてトレーニングされてもよい。
【0057】
分類器は、信頼値135の計算をより精密にする点で有益である。分類器は、たとえば、AdaBoost、k最近傍、k平均クラスタリング、サポートベクターマシン、回帰、決定木/フォレスト/ジャングル、ニューラルネットワーク、および/またはナイーブ・ベイズ・アルゴリズムを使用して実装されてもよい。
【0058】
分類器は、たとえば、AdaBoostモデルであってもよい。[-∞,∞]の間の実数値が、AdaBoostモデルから得られてもよく、よって、得られた結果を信頼値の範囲[0,1]にマッピングするために、シグモイド関数が使用されてもよい。そのようなシグモイド関数の例は、
【数13】
である。ここで、xはAdaBoostからの出力スコアであり、AおよびBは、任意の周知の技術を使用することによってトレーニングデータセットから推定される2つのパラメータである。
【0059】
バイノーラル化検出器130は、信頼値135を計算するときに、オーディオ入力信号に重みを適用してもよく、現在のオーディオ・フレームの重みは、前の音声フレームの重みよりも大きい。
【0060】
これは、信頼値135を計算する段階が、さらに:現在のオーディオ・フレームに先行する、オーディオ入力信号110の複数のオーディオ・フレームの特徴を受領する段階であって、該特徴は、現在のオーディオ・フレームの抽出された特徴に対応する、段階と;オーディオ入力信号110の現在のオーディオ・フレームおよび前記複数の先行するオーディオ・フレームの特徴に重みを適用する段階であって、現在のオーディオ・フレームの特徴に適用される重みは、前記複数の先行するオーディオ・フレームの特徴に適用される重みよりも大きい、段階と;重み付けされた特徴に基づいて信頼値を計算する段階と、をさらに含むことにおいて実装されてもよい。
【0061】
複数のオーディオ・フレームの受領された特徴は、たとえばメタデータから抽出されるか、または現在のオーディオ・フレームの特徴と同様の方法で計算されうる。
【0062】
前のオーディオ・フレームよりも現在のオーディオ・フレームについての重みが大きいことは、より新しいフレーム、特に現在のフレームに対して優先を与え、これにより、バイノーラル化検出器130は、より変化に反応しやすくなる。
【0063】
重みは、信頼値135の計算における定数または関数として実装されてもよい。重みは、現在のオーディオ・フレームと、オーディオ入力信号110の最も最近の諸オーディオ・フレームとを含む非対称な窓として実装されてもよい。
【0064】
従来のバイノーラル化検出法は、いくつかの連続したフレームを含む窓の統計に基づいて特徴を計算する。しかしながら、それは各フレームを等しく扱うので、遅延は窓長の半分にもなり、それはゲームコンテンツには大きすぎる。これは、窓のすべてのフレームが等しく重み付けされる場合、バイノーラル化検出器130の到着時に窓のフレームの少なくとも半分がバイノーラル化を示すからである。ここに記載されるように信頼値を重み付けすることによって、オーディオのバイノーラル化のステアリングの待ち時間を減少させる。
【0065】
重みは、信頼値135を計算する段階が、さらに:オーディオ入力信号110の現在のオーディオ・フレームおよび前記複数の以前のオーディオ・フレームの特徴に対して、非対称な窓関数に従って、重み付けを適用することを含むことにおいて実装されてもよい。
【0066】
非対称な窓は、ハミング窓、ハン窓、または三角窓の前半であってもよい。
【0067】
重みは、所定の数のフレーム、たとえば24、48、64、96、または特定の実施形態の精度要件に依存して他の任意の好適な数に適用されうる。これらのフレームは、任意的に、順次的であり、現在のフレームから開始し、後ろ向きカウントする。
【0068】
よって、バイノーラル化検出器130は、比較的低い待ち時間を有し、変化に対して比較的高い適応性を有するという点で、ゲームコンテンツに特に適合されてもよい。
【0069】
ゲーム中に発生する可能性のあるいくつかのバイノーラル・オーディオ・イベントは、非常に短い継続時間をもつ(たとえば銃声)。これは、比較的長い窓長(オーディオ・クリップ)を有する特徴ベースの分類器にとって問題を引き起こす。この状況を処理するために、より短い特徴窓(より短いクリップ)を使用することができるが、分類器がより短いクリップに基づいて決定を行うため、一般的な性能(たとえば、待ち時間)は悪化する。
【0070】
この問題に対処するために、本発明のいくつかの実施形態は、動的なフレーム特徴重み付けスキームを適用する。このアプローチによれば、フレーム特徴重みは、このフレームが属するクリップに対する、そのフレームのフレーム・エネルギー比に基づく。よって、重みは、高エネルギーフレームについて、より大きくなる。
【0071】
そのような動的な重み付けは、まず、オーディオクリップが任意のインパルス様のフレーム(すなわち、他のフレームよりも顕著に高いエネルギーを有するフレーム)を含むかどうかを判定することによって実現することができる。2チャネルの実装では、この判定は以下のようにして達成できる:
1.1つのクリップ(Nフレーム)における各フレームiについて左右のチャネルの平均フレーム・エネルギーを計算する。
【数14】
ここで、EleftとErightはそれぞれ左右のチャネルにおけるフレームiのエネルギーである。
2.フレーム・エネルギー比Riを次のように計算する
【数15】
3.次の場合に、かつ次の場合にのみ、フレームiがインパルス様であると結論する:
【数16】
ここで、RthresholdおよびEthresholdは、用語「インパルス様」を定義する第1および第2の閾値である。
【0072】
フレームがインパルス様であることが判明した場合、これは、フラグP=1を設定することによって示されてもよい。そのようなフレームをもたないクリップについては、重み付けは別の場所で説明されているようにされてもよい。しかしながら、フラグP=1を有するフレームを含むクリップについては、動的な重みが以下に従って決定されてもよい:
1)対数領域での平均フレーム・エネルギーの最大値と最小値MinE(dB)およびMaxE(dB)を計算する。
2)各フレームiについてのフレーム特徴重み(frame feature weight)を計算する
【数17】
ここで、αは指数であり、たとえば3に等しい。
3)特徴ベクトルについての平均(mean)および標準偏差(standard deviation)を計算するときに、フレーム特徴(feature)ベクトルfeaiに動的重みを適用する
【数18】
【0073】
信頼値を計算することは、任意的に、計算された信頼値を平滑器140に入力することを含んでいてもよい。平滑化は、急激な変化がそれほど急激でない変化に平滑化されるように、信頼値を安定化させる。この平滑化は、急激な変化がステアリングに与える影響がより小さいという点で有益である。普通なら、急激な変化は、ユーザーにとって不快な急激な変動を引き起こす可能性がある。
【0074】
これは、信頼値を計算する段階が:現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値を受領する段階と;1極フィルタを使用して、現在のオーディオ・フレームの信頼値を調整する段階であって、現在のオーディオ・フレームの信頼値および現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値が該1極フィルタへの入力であり、調整された信頼値145が該1極フィルタからの出力である、段階とを含むことにおいて実装されてもよい。
【0075】
1極フィルタは、速度を増加させ、平滑化の応答時間を制限する効率的な方法であるという点で有益である。1極フィルタの1つの技術的効果は、1つの前のフレームの信頼値のみが使用されるということであり、そのことは、チェックされるフレームの数を減らし、それによって待ち時間を減らす。
【0076】
1極フィルタの例は:y(n)=ay(n-1)+(1-a)x(n)であり、ここで、y(n)は現在のフレームの平滑化された信頼値145であり、y(n-1)は前のフレームの平滑化された信頼値145であり、x(n)は現在のフレームの(平滑化されていない)信頼値135であり、aは定数である。aはオーディオ信号のサンプルレートFs、および/または平滑化の期間τに依存してもよく、たとえば、
【数19】
である。ここで、τはRC時定数τ=RC=1/2πfcであり、fcはカットオフ周波数である。
【0077】
RC時定数は、信頼値を計算する段階を実行する処理回路、すなわち本実施形態では平滑器140に対応する抵抗器‐コンデンサ回路の充電または放電速度である。
【0078】
1極フィルタは、平滑化閾値よりも短い平滑化時間を有していてもよい。ここで、平滑化閾値は、RC時定数に基づいて決定される。平滑化閾値は、平滑化の期間があまり長くなく、平滑化440の応答時間が比較的短いことを確実にする。
【0079】
信頼値(平滑化された145または平滑化されていない135)は、状態決定器150に入力される。状態決定器150は、オーディオのバイノーラル化をステアリングする方法の状態信号155を決定する段階を実行する。状態信号155は、現在のオーディオ・フレームがバイノーラル化されていない状態にあるか、バイノーラル化された状態にあるかを示す。
【0080】
状態決定器150は、オーディオの状態、すなわちバイノーラル化状態または非バイノーラル化状態が最近変化したかどうかを判定する。最近は、前の1、2、3、5、10個、または任意の好適な数の前のフレームなど、所定の数の前のフレーム以内を含むことができる。
【0081】
状態決定器150は、任意的に、図2に例示され、以下にさらに説明される4状態の状態機械であり、4状態の状態機械の2つの状態は、現在のオーディオ・フレームが非バイノーラル化状態にあることを示す状態信号155に対応し、4状態の状態機械の残りの2つの状態は、現在のオーディオ・フレームがバイノーラル化された状態にあることを示す状態信号155に対応する。
【0082】
4状態の状態機械は、非バイノーラル化保持状態(un-binauralized holding state、UBH)210、バイノーラル化保持状態(binauralized holding state、BH)230、バイノーラル化リリース・カウント状態(binauralized release counting state、BRC)240、およびバイノーラル化アタック・カウント状態(binauralized attack counting state、BAC)220を含み、ここで、UBH 210およびBAC 220は、現在のオーディオ・フレームが非バイノーラル化状態にあることを示す状態信号155に対応し、BH 230およびBRC 240は、現在のオーディオ・フレームがバイノーラル化状態にあることを示す状態信号に対応する。
【0083】
BAC 220は、状態信号がいつBAC 220からBH 230に、すなわち、現在のオーディオ・フレームが非バイノーラル化状態にあることを示すことから、現在のオーディオ・フレームがバイノーラル化状態にあることを示すことに遷移dするかを決定するために、ゆるい〔スラック〕計数規則をもつ短期アキュムレータを実装する。アキュムレータは、たとえば、信頼性閾値を超える任意の信頼値をカウントすることを、所定の数に達するまで継続する。アキュムレータは、たとえば5秒のような比較的短い事前設定された期間にわたって実装されるという点で短期である。すなわち、短期アキュムレータは任意的に、BAC 220状態からの抜け出すのが比較的容易であるように、ゆるい計数規則を使用する。
【0084】
BRC 240は、状態信号がいつBRC 240からUBH 210に、すなわち、現在のオーディオ・フレームがバイノーラル化状態にあることを示すことから、現在のオーディオ・フレームが非バイノーラル化状態にあることを示すことに遷移iするかを決定するために、厳格な〔タイト〕計数規則を使用する長期モニターを実装する。モニターは、たとえば、所定数の前の信頼値が信頼閾値を下回っているかどうかをチェックhする。モニターは、20秒のような比較的長い事前設定された期間にわたって実装されるという点で長期である、すなわち、長期モニターは任意的に、BRC 240状態を抜け出すことが比較的困難であるように、厳格な計数規則を使用する。
【0085】
短期アキュムレータと長期モニターとの間のこの相違は、先行技術で一般的な短期バイノーラル化音検出の欠落誤差(missing error)を減少させる。
【0086】
4状態の状態機械は、状態決定段階の出力155をさらに安定化するという点で有益である。これは、普通ならユーザーにとってわずらわしいことがありうる、バイノーラル化状態と非バイノーラル化状態との間の頻繁な切り換えを回避する。
【0087】
4状態の状態機械は、図2に関して以下でさらに議論される。
【0088】
入力オーディオ110は、エネルギー解析器120にさらに入力されてもよい。エネルギー解析器120は、オーディオ入力信号のオーディオ・エネルギーを解析し、切り換え決定器160のための情報を提供する。別の実施形態では、オーディオ入力信号110のオーディオ・エネルギーは、たとえば、オーディオ入力信号110のメタデータを介して受領される。
【0089】
信号のエネルギーは、信号の合計の大きさに対応する。オーディオ信号については、それは信号の音量にほぼ対応する。たとえば、オーディオ・フレームについてのエネルギーは、フレーム長によって正規化された振幅の絶対値の2乗の和として計算されてもよい。
【0090】
ある実施形態では、現在のフレームのエネルギー値は、エネルギー解析器120によって計算される。所定のフレーム数Nにわたるエネルギー値の二乗平均平方根は、
【数20】
によって計算されてもよい。所定のフレーム数Nは、N=1、2、8、16、48、512、1024、2048のような任意の好適な数であってよい。別の実施形態では、現在のフレームについてのエネルギー値は、たとえばメタデータとして、オーディオ入力信号と共に受領される。
【0091】
ある実施形態では、フレームの短期エネルギーは、エネルギー解析器120によって計算される。平滑化されたエネルギー信号〔 ̄p(t)とも書く〕は
【数21】
によって計算されてもよい。ここで、αenergyは平滑化係数である。αenergyは、たとえば、0.8、0.9、0.95、0.99、または他の任意の適正な割合でありうる。
【0092】
次いで、エネルギー値および/または平滑化されたエネルギー信号または任意の他の好適なエネルギー情報の二乗平均平方根が、エネルギー指向信号(energy-orientated signal)125として切り換え決定器160に出力される。
【0093】
切り換え決定器160は、オーディオのバイノーラル化をステアリングする方法のステアリング信号165を決定する段階を実装する。切り換え決定器160は、バイノーラル化検出器130の結果である信頼値135、145、状態決定器150の結果である状態信号155、およびエネルギー解析器120の結果であるか、またはメタデータからなど他の手段を通じて受領されるエネルギー指向信号125の入力をもつ。
【0094】
ステアリング信号165を決定する段階は、状態信号155が、非バイノーラル化状態を示すものからバイノーラル化状態を示すものに変更されると、ステアリング信号165を変更して、オーディオ入力信号110に対して頭部伝達関数HRTFを適用して結果としてバイノーラル化されたオーディオ信号を生じることによってオーディオのバイノーラル化をアクティブ化する段階と、少なくとも部分的には前記バイノーラル化されたオーディオ信号を含むオーディオ出力信号175を生成する段階とを含む。
【0095】
ステアリング信号165を決定する段階は、さらに、状態信号155がバイノーラル化状態を示すものから非バイノーラル化状態を示すものに変更されると、バイノーラル化の非アクティブ化モードを真に設定する段階と;バイノーラル化の非アクティブ化モードが真であり、現在のオーディオ・フレームの信頼値135、145が非アクティブ化閾値を下回り、現在のオーディオ・フレームのエネルギー値が、現在のオーディオ・フレームに先行するオーディオ入力信号110の閾値数のオーディオ・フレームのエネルギー値より低い場合:バイノーラル化の非アクティブ化モードを偽に設定し、ステアリング信号165を変更して、オーディオのバイノーラル化を非アクティブ化または低減し、少なくとも部分的に前記オーディオ入力信号110を含むオーディオ出力信号175を生成する段階とを含む。
【0096】
非アクティブ化モードは、現在のオーディオ・フレームの信頼値135、145が非アクティブ化閾値を下回らない限り、また現在のオーディオ・フレームのエネルギー値が現在のオーディオ・フレームに先行するオーディオ入力信号110の閾値数のオーディオ・フレームのエネルギー値を下回らない限り、オーディオのバイノーラル化を非アクティブ化または低減させるステアリング信号165の変更は、すぐには起こらないという点で有益である。
【0097】
これは、非アクティブ化閾値の要件が切り換えを遅延させるため、バイノーラル化状態と非バイノーラル化状態との間の頻繁な切り換えを回避し、また、たとえば、信頼値の突然かつ一時的な低下も、それが閾値に達しないなら、無視される。非アクティブ化閾値は、事前設定されていてもよく、またはユーザー定義されていてもよい。
【0098】
これはまた、現在のオーディオのエネルギー値を以前の諸オーディオ・フレームのエネルギー値と比較するため、高エネルギー期間の間の顕著な変化を回避し、これは、一貫性のない聴取体験を防止する。
【0099】
ステアリング信号165を決定する段階のさらなる詳細は、図3Cに関して開示される。
【0100】
図1のシステム100によって実装されるオーディオのバイノーラル化をステアリングする方法の最終段階では、ステアリングされたバイノーラル化をもつオーディオ出力175を生成する段階がオーディオ処理170によって実行される。オーディオ出力を生成する段階は、ステアリング信号によってステアリングされ、切り換え決定器160または別個のオーディオプロセッサ170によって実行されてもよい。オーディオ処理は、(上記に従って)必要とされるときに、オーディオ入力信号110に対してHRTFを適用することを含み、その結果、バイノーラル化されたオーディオ信号を生じる。
【0101】
図2は、オーディオのバイノーラル化をステアリングする方法の状態信号を決定する段階を実装する、ある実施形態による4状態の状態機械を示す。
【0102】
状態信号はゼロから1の範囲のバイナリ関数である。状態信号の値がゼロであることは、オーディオ入力信号がバイノーラル化されていない状態を含むことを示し、一方、状態信号の値が1であることは、オーディオ入力信号がバイノーラル化された状態を含むことを示す。状態信号は、信頼値を1またはゼロのストレッチに丸めることにより、信頼値からのバイノーラル化状態と非バイノーラル化状態の間の頻繁な切り換えを防止することを目的とする。
【0103】
状態機械の状態は、信頼値が信頼閾値を上回るとUBH 210からBAC 220に遷移し、状態が到達されたBAC 220である間に閾値数のフレームが信頼閾値を上回る信頼値を有すると状態はBAC 220からBH 230に遷移し、信頼値が信頼閾値を下回ると状態はBH 230からBRC 240に遷移し、所定数の連続するフレームが信頼閾値を下回る信頼値を有すると状態はBRC 240からUBH 210に遷移する。
【0104】
以下では、図2の状態機械の使用事例について説明する。これは、異なる状態の機能をさらに説明するための非限定的な例としてのみ意図されている。この例では、状態機械の初期状態はUBH 210であるが、たとえば、BH 230も初期状態として選択されうる。
【0105】
最後の状態がUBH 210であるとすると(これは、UBH 210状態が初期状態である場合にも成り立つ)、信頼値が信頼閾値Thighより小さい場合、状態は維持され(図2の矢印a)、状態信号はゼロに設定されるか、ゼロとして維持される。ある実施形態では、Thighは0.6であるが、任意の他の適正な割合が可能である。
【0106】
信頼値が信頼閾値以上である場合、状態は、BAC 220状態に変化し(図2の矢印b)、状態信号はゼロとして維持される。
【0107】
最後の状態がBAC 220状態である間、短期アキュムレータはアクティブである。アキュムレータは、信頼閾値TmedianLowより高い信頼値のカウントを保存する。カウントが所定のカウント閾値Naccよりも小さい場合、アキュムレータは、状態がBAC 220状態として維持され(図2の矢印c)、状態信号がゼロに維持される間、カウントし続ける。ある実施形態では、TmedianLowは0.45であるが、任意の他の適正な割合が可能である。ある実施形態では、Naccは5秒に対応するフレーム数であるが、任意の他のフレーム数が可能である。
【0108】
ひとたびアキュムレータのカウントが所定のカウント閾値Nacc以上になったら、状態は、BH 230状態に変えられる(図2の矢印d)。一方、状態信号は1に設定され、アキュムレータはリセットされる。
【0109】
最後の状態がBH 230状態である場合、信頼値が信頼閾値Tlow以上であれば、状態は保持され(図2の矢印e)、状態信号は1に保持される。ある実施形態では、Tlowは0.25であるが、任意の他の適正な割合が可能である。
【0110】
信頼値が信頼閾値Tlowより低い場合、状態は、状態信号が1として維持される間、BRC 240状態に変化する(図2の矢印f)。
【0111】
最後の状態がBRC 240状態である間、長期モニターがアクティブである。モニターは、最も最近の連続した信頼値がすべて信頼閾値TmedianHighより小さいかどうかをチェックする。もし、TmedianHigh以上の信頼値が現れる場合、状態信号が1として維持されている間に、状態はBH 230に戻る(図2の矢印g)。
【0112】
ある実施形態では、20秒の最近の連続した信頼値がチェックされるが、任意の他の秒数が可能である。ある実施形態では、TmedianHighは0.55であるが、任意の他の適正な割合が可能である。
【0113】
信頼値が信頼閾値TmedianHighより小さい間、状態は、BRC 240として維持され(図2の矢印h)、モニターは、連続する信頼値のフルスパンがチェックされるまで待機し続ける。
【0114】
ひとたびモニターが連続した信頼値がみな信頼閾値TmedianHighよりも小さいことを観察したら、状態はUBH 210に変化する(図2の矢印i)。この間、状態はゼロに設定され、モニターはリセットされる。
【0115】
図3Aは、時間の経過に伴う例示的な信頼値330を示す。示された信頼値330は、平滑化された信頼値であるが、平滑化されていないものであってもよい。
【0116】
図3Bは、図3Aの例示的な信頼値330から帰結する例示的な状態信号350を示す。状態は、数秒間の高い信頼値330の後にのみ、ゼロから1に変化することに留意されたい。この時間は、BAC 220アキュムレータが所定のカウント閾値Naccに達し、状態をBH 230に変化させることに対応する。さらに、状態信号350は、信頼値330が低下してすぐには1からゼロに変化しない。なぜなら、BRC 240状態に対応する長期モニターの連続要件が達成されず、よって、状態機械は、後になるまでUBH 210状態に移行しないからである。
【0117】
よって、バイノーラル化状態と非バイノーラル化状態との間の頻繁な切り換えを防止するという状態信号350の目的が達成される。
【0118】
図3Cは、図3Aの例示的な信頼値330および図3Bの例示的な状態信号350から帰結する例示的なステアリング信号360を示す。
【0119】
ステアリング信号360は、オーディオの処理をステアリングする。ステアリング信号360がゼロである場合、処理は行われない。結果として、オーディオ入力信号はそのままオーディオ出力信号として出力される。ステアリング信号360が1である場合、頭部伝達関数HRTFをオーディオ入力信号に対して適用することによってバイノーラル化処理が行われ、その結果、オーディオ出力信号としてバイノーラル化オーディオ信号が得られる。ステアリング信号360がゼロと1の間であれば、混合が起こり、混合されたオーディオ信号がオーディオ出力信号として出力される。ゼロと1との間のステアリング信号360は、たとえば、ゼロ状態と1状態との間の中間ランプ〔傾斜〕によって引き起こされてもよく、これについては後述する。
【0120】
二重バイノーラル化はオーディオに悪影響を及ぼし、結果として否定的なユーザー体験をもたらす可能性があるので、二重バイノーラル化を回避するために、本発明の目的は、バイノーラル化された音をすでに含んでいるのでないオーディオ入力信号のオーディオ・フレームについてのみ、処理が行われるようにすることである。
【0121】
よって、多くの従来技術のステアリング信号は、信頼値または状態信号の逆(inverse)に対応する。しかしながら、本発明者らは、ステアリング信号360の1からゼロへの、および任意的にはその逆の切り換え点は、不安定性の問題を回避するために適正に設計されるべきであることを認識するに至った。
【0122】
ステアリング信号360の切り換え点は、高密度かつ大音量のバイノーラル化された音の期間中は選択されるべきではない。なぜなら、その期間にHRTFのオン/オフをすぐに切り換えると、一貫性のない聴取体験につながるからである。
【0123】
よって、図3Cの例示的なステアリング信号360のようなステアリング信号360を決定する段階は、状態信号350の変化を観察することを超えて、現在のオーディオ・フレームの信頼値330を非アクティブ化閾値と比較し、そして現在のオーディオ・フレームのエネルギー値を以前のオーディオ・フレームのエネルギー値と比較することを含む。
【0124】
よって、図3Cの例示的なステアリング信号360は、状態信号350が変化するにもかかわらず、高い信頼値330のブロックの途中で1からゼロへの切り換えを回避する。これは、オーディオ入力信号の現在のオーディオ・フレームのエネルギー値が、前のフレームの所定の集合のエネルギー値と比較され、オーディオのエネルギー値が前のフレームの所定の集合にわたって比較的変化しない場合に、ステアリング信号360がその現在の値に維持されるからである。所定の集合は、たとえば、最も最近の24、48または96個のオーディオ・フレームであってもよい。
【0125】
特定の一例では、ステアリング信号360は、現在のオーディオ・フレームのエネルギー値が、直近の48個のオーディオ・フレームのうち90%のもののエネルギー値以上である場合に、その現在の値に保持される。80%、70%などの他の比率が可能であり、10、35、42などのオーディオ・フレームの他の数も可能である。
【0126】
ひとたび高い信頼値330のブロックが完了すると、図3Cの例示的なステアリング信号は、1からゼロに切り換わる。切り換えは、ランプ関数を適用して実装される。ランプ中、ステアリング信号360は、ゼロと1との間の値を有し、よって、バイノーラル化されたオーディオ信号とオーディオ入力信号とを混合して、混合オーディオ信号にし、混合オーディオ信号をオーディオ出力信号として設定することになる。これはさらに、一貫性のない聴取体験につながるような、バイノーラル化への急激な変化を回避する。
【0127】
ランプ式の変化は、オーディオのバイノーラル化をアクティブ化するようにステアリング信号360が変更されるとき、オーディオ出力信号を生成する段階が:第1の閾値時間期間にわたって、バイノーラル化されたオーディオ信号とオーディオ入力信号とを混合して混合オーディオ信号にし、該混合オーディオ信号をオーディオ出力信号として設定することを含み、前記混合オーディオ信号における前記バイノーラル化されたオーディオ信号の部分が前記第1の閾値期間の間に徐々に増加し、前記第1の閾値期間の終了時に、前記オーディオ出力信号が前記バイノーラル化されたオーディオ信号のみを含むようにすることを含むことにおいて実装されうる。
【0128】
代替的に、オーディオのバイノーラル化をアクティブ化するようステアリング信号360が変更されるとき、オーディオ出力信号を生成する段階は、オーディオ出力信号をバイノーラル化されたオーディオ信号として設定することを含み、たとえばランプ式の変化はない。
【0129】
ランプ式の変化は、さらに、オーディオのバイノーラル化を非アクティブ化するまたは減らすようにステアリング信号360が変更されるとき、オーディオ出力信号を生成する段階が:第2の閾値時間期間にわたって、バイノーラル化されたオーディオ信号とオーディオ入力信号とを混合して混合オーディオ信号にし、該混合オーディオ信号をオーディオ出力信号として設定することを含み、前記混合オーディオ信号における前記バイノーラル化されたオーディオ信号の部分が前記第2の閾値期間の間に徐々に減少し、前記第2の閾値期間の終了時に、前記オーディオ出力信号が前記オーディオ入力信号のみを含むようにすることを含むことにおいて実装されうる。
【0130】
代替的に、オーディオのバイノーラル化を非アクティブ化するまたは減らすようステアリング信号360が変更されるとき、オーディオ出力信号を生成する段階は、オーディオ出力信号をオーディオ入力信号として設定することを含む。
【0131】
図3Cの例示的なステアリング信号360は、以下の3つの規則に従って実装される。
【0132】
状態信号350が1からゼロに切り替わる場合、ステアリング信号360は、
【数22】
に従ってゼロから1に増加し始める。ここで、w(t)はフレームtにおけるステアリング信号360であり、I[・]は、条件[・]が満たされた場合に、かつその場合にのみ1に等しい特性関数であり、τは状態信号350が1からゼロに切り換わる時間であり、βaは、ステアリング信号360がゼロから1に変化するときの直線の傾きの絶対値である。ある実施形態では、βa=1/2であり、これは2秒の傾斜を上る時間〔ランプアップ時間〕になる。
【0133】
状態信号350がゼロから1に切り換わる場合、ステアリング信号360は、次の2つの条件、すなわち、現在のフレームの信頼値330 c(t)が非アクティブ化閾値Tswitch未満であること、および平滑化されたエネルギー信号 ̄p(t)が、所定の数Mの先行フレームのエネルギー値の閾値部分Rよりも小さいこと、を満たす場合にのみ、1からゼロに減少し始める。ここで、
【数23】
であり、αenergyは平滑化係数である。これらの条件が満たされると、ステアリング信号360は、いくつかの実施形態により、
【数24】
に従って、1からゼロに減少し始める。ここで、τは状態信号350がゼロから1に切り換わる時刻であり、βrはステアリング信号360が1からゼロに変わる時の直線の傾きの絶対値である。ある実施形態では、Tswitchは0.5であり、αenergyは0.99であり、Rは10%であり、Mは1秒に対応するフレーム数であり、βr=1/3であり、これは3秒の傾斜を下る時間〔ランプダウン時間〕になる。
【0134】
状態信号350が変化しない場合、ステアリング信号360は、その最後の値を保持する。
【0135】
バイノーラル化がアクティブであるのとアクティブでないのとの間のなめらかな遷移を達成するために、w(t)∈(0,1)の場合に混合手順が行われる。すなわち、オーディオ出力信号は混合オーディオ信号となる。オーディオ入力信号x(t)、生成されたバイノーラル化されたオーディオ信号B(t)、およびステアリング信号360 w(t)が与えられると、出力オーディオ信号y(t)は、y(t)=w(t)B(t)+(1-w(t))x(t)と表されてもよい。
【0136】
よって、バイノーラル化されたオーディオ信号とオーディオ入力信号とは、合計が1になる重みによる線形結合として混合され、重みは、ステアリング信号360の値に依存する。ステアリング信号360がゼロよりも1に近い場合、バイノーラル化されたオーディオ信号の重みは、オーディオ入力信号の重みよりも高く、その逆もまた同様である。
【0137】
図4は、オーディオのバイノーラル化をステアリングするための方法400を示すフローチャートを示す。方法400は、いくつかの段階を含み、そのいくつかは任意的であり、いくつかは任意の順序で実行されうる。図4に示される方法400は、例示的な実施形態であり、限定することを意図したものではない。
【0138】
方法400の第1の段階は、オーディオ入力信号を受領410する段階である。オーディオ入力信号は、任意のフォーマットであってよく、圧縮および/または暗号化されていてもよく、されていなくてもよい。好ましくは、オーディオ入力信号410を受領する段階は、方法400の他のいずれかの段階が実行される前に、暗号化されたオーディオがあればそれを解読し、および/または圧縮されたオーディオがあればそれを圧縮解除することを含む。オーディオ入力信号は、オーディオのいくつかのチャネルを含んでいてもよく、そのいくつかは、バイノーラル化された音のみを含んでいてもよく、そのいくつかは、バイノーラル化されていない音のみを含んでいてもよく、そのいくつかは、バイノーラル化された音とバイノーラル化されていない音との混合を含んでいてもよい。オーディオ入力信号は、バイノーラル化音と非バイノーラル化音の両方を含む必要はないが、他のいかなる場合においても、ステアリング結果は非常に単純である。
【0139】
方法400の別の段階は、オーディオ入力信号のエネルギー値420を解析する段階である。この段階420は、たとえば、エネルギー値および/または平滑化されたエネルギー信号 ̄p(t)または他の任意の好適なエネルギー情報の二乗平均平方根を計算することによって、現在のフレームtのエネルギー値x(t)を計算することを含んでいてもよい。次いで、この情報は、オーディオ入力信号のエネルギー値を解析420する段階の結果として出力される。
【0140】
オーディオ入力信号のエネルギー値を解析する段階420は任意的であり、含まれる場合、この段階420は、ステアリング信号を決定する段階460の前に実行される。この段階420の代替として、エネルギー情報は、メタデータなどの別の源から抽出されてもよい。
【0141】
方法400の別の段階は、オーディオ入力信号の現在のオーディオ・フレームがバイノーラル化されたオーディオを含む確からしさを示す信頼値を計算430する段階である。
【0142】
この段階430は、方法400の他の段階とは独立して実行されてもよい。
【0143】
この段階430はさらに、オーディオ入力信号の現在のオーディオ・フレームの特徴を抽出する段階であって、オーディオ入力信号の特徴は、チャネル間レベル差(ICLD)、チャネル間位相差(ICPD)、およびチャネル間コヒーレンス(ICC)のうちの少なくとも1つを含む、段階と、抽出された特徴に基づいて信頼値を計算する段階と;オーディオ入力信号の、現在のオーディオ・フレームより前の複数のオーディオ・フレームの特徴を受領する段階であって、該特徴は、現在のオーディオ・フレームの抽出された特徴に対応するものである、段階と;オーディオ入力信号の、現在のオーディオ・フレームおよび前記複数の前のオーディオ・フレームの特徴に重みを適用する段階であって、現在のオーディオ・フレームの特徴に適用される重みは、前記複数の以前のオーディオ・フレームの特徴に適用される重みよりも大きい、段階と、重み付けされた特徴に基づいて信頼値を計算する段階とを含んでいてもよい。
【0144】
この段階430は、非対称な窓関数に従って、オーディオ入力信号の現在のおよび複数の以前のオーディオ・フレームの特徴に重みを適用することをさらに含んでいてもよく、非対称な窓は、ハミング窓の前半であってもよい。
【0145】
この段階430は、さらに、オーディオ入力信号の現在のオーディオ・フレームおよび所定数の前のオーディオ・フレームの特徴を重み付けされたヒストグラムに累積する段階であって、該重み付けされたヒストグラムは、特徴を計算するために使用される各サブバンドを、そのサブバンドにおける総エネルギーに従って重み付けする、段階と;重み付けされたヒストグラムの平均値または標準分散に基づいて、信頼値を計算する段階とを含む。
【0146】
この段階430は、さらに、オーディオ入力信号の現在のおよび複数の以前のオーディオ・フレームの重み付けされた特徴を、機械学習分類器に入力する段階をさらに含んでいてもよく、機械学習分類器は、入力に基づいて信頼値を出力するようにトレーニングされている。
【0147】
方法400の別の段階は、信頼値を平滑化された信頼値に平滑化440する段階である。この段階440は任意的であり、含まれる場合、この段階440は、信頼値を計算430する段階の一部として実行されるが、段階430、440は、異なる回路/ユニットによって実装されてもよい。結果として、この段階440は、信頼値を計算430する段階以外の方法400の段階とは独立して実行されてもよい。
【0148】
この段階440は、現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値を受領する段階と;1極フィルタを使用して、現在のオーディオ・フレームの信頼値を調整する段階とを含んでいてもよく、ここで、現在のオーディオ・フレームの信頼値および現在のオーディオ・フレームの直前のオーディオ・フレームの信頼値が1極フィルタへの入力であり、調整された信頼値が1極フィルタからの出力である。
【0149】
この段階440は、さらに、前記1極フィルタが平滑化閾値よりも低い平滑化時間を有することを含んでいてもよく、平滑化閾値は、RC時定数に基づいて決定される。
【0150】
方法400の別の段階は、信頼値に基づいて状態信号を決定450する段階である。
【0151】
状態信号はゼロから1の範囲のバイナリ関数である。状態信号の値がゼロであることは、オーディオ入力信号がバイノーラル化されていない状態を含むことを示し、一方、状態信号の値が1であることは、オーディオ入力信号がバイノーラル化された状態を含むことを示す。
【0152】
方法400の別の段階は、オーディオ入力信号のエネルギー値を解析する段階420において解析された、または他の手段を通じて受領された、オーディオ・フレームのエネルギー値;信頼値を平滑化する段階440が行われたかどうかに依存して信頼値を計算する段階430および/または信頼値を平滑化する段階440において計算された信頼値、および状態信号を決定する段階450において決定された状態信号に基づいて、ステアリング信号を決定460する段階である。
【0153】
ステアリング信号は、オーディオ出力信号を生成470する段階をステアリングする。ステアリング信号がゼロである場合、オーディオのバイノーラル化は、非アクティブ化または低減される。ステアリング信号が1である場合、オーディオのバイノーラル化はアクティブ化される。ステアリング信号がゼロから1の間であれば、混合が発生する。
【0154】
オーディオ出力信号を生成470する段階は、ステアリング信号を決定460する段階と併せて実行されても、そうでなくてもよく、同じ回路によって実行されても、そうでなくてもよい。
【0155】
図5は、ある実施形態による、図1図4を参照して説明した特徴およびプロセスを実装するための移動装置アーキテクチャーを示す。アーキテクチャー500は、デスクトップ・コンピュータ、コンシューマ・オーディオ/ビジュアル(AV)機器、ラジオ放送機器、またはモバイル・デバイス(たとえば、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、またはウェアラブル・デバイス)を含むが、これらに限定されない、任意の電子装置において実装されうる。図示した例示的実施形態では、アーキテクチャー500は、スマートフォン用であり、プロセッサ501、周辺機器インターフェース502、オーディオサブシステム503、ラウドスピーカー504、マイクロフォン505、センサー506(たとえば、加速度計、ジャイロ、気圧計、磁力計、カメラ)、位置プロセッサ507(たとえば、GNSS受信機)、無線通信サブシステム508(たとえば、Wi-Fi、Bluetooth、セルラー)およびI/Oサブシステム509を含み、これらは、タッチコントローラ510および他の入力コントローラ511、タッチ面512および他の入力/制御装置513を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャーも、開示された実施形態を実施するために使用されうる。
【0156】
メモリインターフェース514は、プロセッサ501、周辺機器インターフェース502、およびメモリ515(たとえば、フラッシュ、RAM、ROM)に結合される。メモリ515は、オペレーティングシステム命令516、通信命令517、GUI命令518、センサー処理命令519、電話命令520、電子メッセージング命令521、ウェブブラウジング命令522、オーディオ処理命令523、GNSS/ナビゲーション命令524、およびアプリケーション/データ525を含むが、これらに限定されないコンピュータ・プログラム命令およびデータを記憶する。オーディオ処理命令523は、図1図4を参照して記載したオーディオ処理を実行するための命令を含む。
【0157】
本明細書に記載されるシステムの諸側面は、デジタルまたはデジタル化されたオーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境において実装されてもよい。適応オーディオシステムの諸部分は、コンピュータ間で送信されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ(図示せず)を含む、任意の所望の数の個々の機械を含む一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、またはそれらの任意の組み合わせであってもよい。
【0158】
コンポーネント、ブロック、プロセス、または他の機能コンポーネントの一つまたは複数は、システムのプロセッサベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されうる。また、ここに開示されたさまざまな機能は、ハードウェア、ファームウェア、および/またはさまざまな機械可読またはコンピュータ可読媒体に具体化されたデータおよび/または命令の任意の数の組み合わせを使用して、それらの挙動、レジスタ転送、論理構成要素、および/または他の特徴に関して記載されることがあることに注意しておくべきである。そのようなフォーマットされたデータおよび/または命令が具体化されうるコンピュータ可読媒体は、光、磁気または半導体記憶媒体のようなさまざまな形の物理的な(非一時的な)不揮発性記憶媒体を含むが、これらに限定されない。
【0159】
本開示のさらなる実施形態は、上記の説明を検討した後、当業者に明白になるであろう。本明細書および図面は、実施形態および例を開示しているが、本開示は、これらの特定の例に制約されない。添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、多数の修正および変形を行うことができる。請求項に現れる参照符号は、その範囲を限定するものとして理解されない。
【0160】
さらに、開示された実施形態に対する変形が、図面、開示、および添付の特許請求の範囲の研究から、本開示を実施する際に当業者によって理解され、実施されうる。ある種の施策が相互に異なる従属請求項に記載されているというだけの事実が、これらの施策の組み合わせが有利に使用できないことを示すものではない。
【0161】
上述のシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせとして実装されうる。たとえば、本願の諸側面は、少なくとも部分的に、装置、複数の装置を含むシステム、方法、コンピュータ・プログラム・プロダクトなどにおいて具現されうる。ハードウェア実装においては、上述の機能ユニット間のタスクの分割は、必ずしも物理的なユニットへの分割に対応しない。逆に、1つの物理的なコンポーネントが複数の機能を有していてもよく、1つのタスクが、協働する複数の物理的なコンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、またはハードウェアとして、または特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含むことができるコンピュータ可読媒体上で頒布されてもよい。当業者には周知のように、用語「コンピュータ記憶媒体」は、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータのような情報の記憶のための任意の方法または技術で実装される揮発性および不揮発性、取り外し可能および非取り外し可能な媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)、または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイス、または所望の情報を記憶するために使用でき、コンピュータによってアクセスされることができる他の任意の媒体を含まれるが、これらに限定されない。さらに、通信媒体は、典型的には、搬送波または他のトランスポート機構のような、変調されたデータ信号においてコンピュータ読み取り可能な命令、データ構造、プログラムモジュールまたは他のデータを具現し、任意の情報送達媒体を含むことが当業者には周知である。
図1
図2
図3A
図3B
図3C
図4
図5