(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-09
(45)【発行日】2024-02-20
(54)【発明の名称】メディア補償されたパススルーおよびモード切り換え
(51)【国際特許分類】
H04R 3/00 20060101AFI20240213BHJP
H04R 1/10 20060101ALI20240213BHJP
【FI】
H04R3/00 310
H04R1/10 101A
【外国語出願】
(21)【出願番号】P 2022191251
(22)【出願日】2022-11-30
(62)【分割の表示】P 2021170834の分割
【原出願日】2017-06-14
【審査請求日】2022-11-30
(31)【優先権主張番号】PCT/CN2016/085697
(32)【優先日】2016-06-14
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2016-06-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アレグザンダー,マーク
(72)【発明者】
【氏名】リー,チュンジエン
(72)【発明者】
【氏名】ランドー,ジョシュア ブランドン
(72)【発明者】
【氏名】シーフェルト,アラン ジェイ.
(72)【発明者】
【氏名】ブラウン,シー. フィリップ
(72)【発明者】
【氏名】ブレーバールト,ディルク イェルーン
【審査官】西村 純
(56)【参考文献】
【文献】米国特許出願公開第2013/0259244(US,A1)
【文献】特表2016-506640(JP,A)
【文献】特表2016-510198(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 1/00-31/00
(57)【特許請求の範囲】
【請求項1】
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データのメディア入力励起関数を計算する段階と;
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を計算する段階と;
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、人間のラウドネス知覚における非線形性をモデル化する特定ラウドネス関数に従って、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と;
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と;
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するメディア処理利得を決定する段階と;
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と;
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と;
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを含む、
方法。
【請求項2】
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項1記載の方法。
【請求項3】
前記決定されたメディア処理利得を適用し、前記決定されたマイクロフォン処理利得を適用することが、前記マイクロフォン入力オーディオ・データの一つまたは複数の周波数帯域のレベルをブーストし、前記メディア入力オーディオ・データの一つまたは複数の周波数帯域のレベルを減衰させることに関わる、請求項1に記載の方法。
【請求項4】
前記混合オーディオ・データをヘッドセットのスピーカーに提供することをさらに含む、請求項1記載の方法。
【請求項5】
モード切り換え指標を受領する段階と;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正する段階とをさらに含む、
請求項1記載の方法。
【請求項6】
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、請求項5記載の方法。
【請求項7】
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、請求項6記載の方法。
【請求項8】
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、請求項5記載の方法。
【請求項9】
前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、請求項5記載の方法。
【請求項10】
前記慣性センサー・データは、ヘッドセットの動きに対応する、請求項9記載の方法。
【請求項11】
ソフトウェアが記憶されている一つまたは複数の非一時的な媒体であって、前記ソフトウェアは:
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データのメディア入力励起関数を、周波数変化する知覚的重み付けを用いた、前記メディア入力オーディオ・データの時間平滑化されたパワーとして計算する段階と;
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を、周波数変化する知覚的重み付けを用いた、前記マイクロフォン入力オーディオ・データの時間平滑化されたパワーとして計算する段階と;
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と;
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と;
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するメディア処理利得を決定する段階と;
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と;
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と;
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行するよう一つまたは複数の装置を制御するための命令を含む、
一つまたは複数の非一時的な媒体。
【請求項12】
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項11記載の一つまたは複数の非一時的な媒体。
【請求項13】
モード切り換え指標を受領することと;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正することをさらに含む
請求項11記載の一つまたは複数の非一時的な媒体。
【請求項14】
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、請求項13記載の一つまたは複数の非一時的な媒体。
【請求項15】
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、請求項14記載の一つまたは複数の非一時的な媒体。
【請求項16】
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、請求項13記載の一つまたは複数の非一時的な媒体。
【請求項17】
前記モード切り換え指標は少なくとも部分的には、ヘッドセットの動きに対応する慣性センサー・データに基づく、請求項13記載の一つまたは複数の非一時的な媒体。
【請求項18】
インターフェース・システムおよび制御システムを有するオーディオ処理装置であって、前記制御システムは:
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データのメディア入力励起関数を、周波数変化する知覚的重み付けを用いた、前記メディア入力オーディオ・データの時間平滑化されたパワーとして計算する段階と;
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を、周波数変化する知覚的重み付けを用いた、前記マイクロフォン入力オーディオ・データの時間平滑化されたパワーとして計算する段階と;
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、人間のラウドネス知覚における非線形性をモデル化する特定ラウドネス関数に従って、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と;
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と;
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用するメディア処理利得を決定する段階と;
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と;
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と;
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行することができる、オーディオ処理装置。
【請求項19】
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項18記載のオーディオ処理装置。
【請求項20】
前記制御システムはさらに:
モード切り換え指標を受領する段階と;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正する段階とを実行するように構成されている、
請求項18記載のオーディオ処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はオーディオ・データの処理に関する。詳細には、本開示は、メディア・ストリームに対応するメディア入力オーディオ・データと、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データとを処理することに関する。
【背景技術】
【0002】
ヘッドフォンおよびイヤーバッドのようなオーディオ装置の使用がきわめて一般的になった。そのようなオーディオ装置は、ヘッドフォン・スピーカーと鼓膜との間の実質的に閉じた系を作り出すことができ、その中では外界からの音は大幅に減衰させられる。ヘッドフォンまたは他のそのようなオーディオ装置を介して外界からの音を減衰させることのさまざまな潜在的な利点がある。歪みの解消、フラットな等化の提供などである。しかしながら、そのようなオーディオ装置を身につけるとき、ユーザーは、接近する車の音、友人の声の音など、聞くことが有利であろう外界からの音を、聞くことができないことがありうる。
【発明の概要】
【課題を解決するための手段】
【0003】
本稿に開示されるいくつかの方法は、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することに関わってもよい。本稿での用法では、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は音楽、ポッドキャスト、映画サウンドトラックなどに対応するオーディオ・データを指すために使用されうる。しかしながら、これらの用語はそのような例に限定されるものではない。その代わり、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は、たとえば電話の会話の一部のような、再生のために受領される他の音に対応するオーディオ・データを指すために使われることもある。いくつかの方法は、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定することに関わってもよい。いくつかのそのような方法は、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することに関わってもよい。たとえば、いくつかの方法は、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整することに関わってもよい。いくつかのそのような方法は、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することに関わってもよい。いくつかのそのような例は、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供することに関わってもよい。
【0004】
いくつかの実装では、前記調整は、前記第一および第二の複数の周波数帯域のうちの前記一つまたは複数の周波数帯域にマイクロフォン利得およびメディア利得を適用することに関わってもよい。前記マイクロフォン利得および前記メディア利得の少なくとも一方は、マイクロフォンおよびメディア入力レベルの関数として計算されてもよい。関数は、所望されるマイクロフォン入力レベルの範囲にわたる次の特性のうちの少なくとも一つを有していてもよい:固定したマイクロフォン入力レベルについては、メディア入力レベルが増すとともにマイクロフォン利得が増す;あるいは固定したメディア入力レベルについては、マイクロフォン入力レベルが増すとともにマイクロフォン利得が減少する。
【0005】
いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。しかしながら、いくつかの例では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、いくつかの例では、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの例によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間の範囲内であってもよい。しかしながら、いくつかの事例では、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはメディアおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しくてもよい。
【0006】
いくつかの実装は、モード切り換え指標を受領(または判別)し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正することに関わってもよい。たとえば、いくつかの実装は、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正することに関わってもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。
【0007】
いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、頭の動きの指標および/または目の動きの指標に基づいていてもよい。いくつかのそのような実装では、モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づいていてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。いくつかの事例では、目の動きの指標はカメラ・データおよび/または脳電図データを含んでいてもよい。
【0008】
いくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、該音源の方向が頭の動きおよび/または目の動きと対応するかどうかを判定することに関わってもよい。代替的または追加的に、いくつかの例は、選択された音源方向のユーザーから指標を受領することに関わってもよい。いくつかのそのような例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別することに関わってもよい。
【0009】
他のいくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別することに関わってもよい。いくつかのそのような例は、少なくとも部分的には、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。
【0010】
代替的または追加的に、いくつかの例は、音源の速度を決定することに関わってもよい。いくつかのそのような例は、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。
【0011】
いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例は、マイクロフォン入力オーディオ・データの分類に関わってもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび/または公共アナウンスを含むかどうかを判定することに関わってもよい。モード切り換え指標は少なくとも部分的には該分類に基づいていてもよい。
【0012】
本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的な媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されうる。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび制御システムを含む装置において実装されてもよい。インターフェース・システムは、ユーザー・インターフェースおよび/またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、制御システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。
【0013】
制御システムは、少なくとも一つのプロセッサ、たとえば汎用の単一または複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラム可能な論理デバイス、離散的なゲートまたはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。
【0014】
いくつかの例によれば、制御システムは、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することができてもよい。いくつかの実装では、マイクロフォン・システムは二つ以上のマイクロフォンを含んでいてもよい。いくつかの実装では、本装置は、一つまたは複数のスピーカーを含むスピーカー・システムを含んでいてもよい。いくつかのそのような実装によれば、本装置はヘッドセットまたはヘッドセットのコンポーネントであってもよい。しかしながら、他の実装では、本装置は、マイクロフォン入力オーディオ・データおよび/またはメディア・ストリームに対応するメディア入力オーディオ・データを別の装置から受領するよう構成されてもよい。
【0015】
いくつかの例では、制御システムは、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定することができてもよい。制御システムは、たとえば、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することができてもよい。たとえば、制御システムは、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整することができてもよい。いくつかの例では、制御システムは、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することができてもよい。いくつかの例によれば、制御システムは、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供するができてもよい。
【0016】
いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。しかしながら、いくつかの例では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、いくつかの例では、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの例によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間の範囲内であってもよい。しかしながら、いくつかの事例では、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはメディアおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しくてもよい。
【0017】
いくつかの例によれば、制御システムは、モード切り換え指標を受領(または判別)し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正することができてもよい。たとえば、制御システムは、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正することができてもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。
【0018】
いくつかの実装によれば、制御システムは、モード切り換え指標を、少なくとも部分的には、頭の動きの指標および/または目の動きの指標に基づいて決定できてもよい。いくつかのそのような実装では、本装置は、慣性センサー・システムを含んでいてもよい。いくつかのそのような実装によれば、制御システムは、モード切り換え指標を、少なくとも部分的には、該慣性センサー・システムから受領される慣性センサー・データに基づいて決定できてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。
【0019】
いくつかの事例では、本装置は、目の動きの検出システムを含んでいてもよい。いくつかのそのような実装によれば、制御システムは、目の動きの検出システムから受領されるデータに基づいて、モード切り換え指標を決定できてもよい。目の動きの検出システムは、いくつかの例では、一つまたは複数のカメラを含んでいてもよい。目の動きの検出システムは、いくつかの例では、一つまたは複数のEEG電極を含みうる脳電図(EEG: electroencephalogram)システムを含んでいてもよい。いくつかの実装によれば、EEG電極は、ユーザーの外耳道内および/またはユーザーの頭皮上に位置されるよう構成されてもよい。いくつかのそのような例によれば、制御システムは、EEGシステムの一つまたは複数のEEG電極から受領されるEEG信号の解析を通じてユーザーの目の動きを検出できてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には目の動きの指標に基づいてモード切り換え指標を決定できてもよい。目の動きの指標は、目の動きの検出システムからのカメラ・データおよび/またはEEGデータに基づいていてもよい。
【0020】
いくつかの例によれば、制御システムは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することができてもよい。いくつかのそのような例によれば、制御システムは、該音源の方向が頭の動きおよび/または目の動きと対応するかどうかを判定することができてもよい。代替的または追加的に、制御システムは、選択された音源方向のユーザーから指標を受領することができてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することができてもよい。制御システムは、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別することができてもよい。
【0021】
他のいくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別することができてもよい。いくつかのそのような例は、制御システムは、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。
【0022】
代替的または追加的に、制御システムは、音源の速度を決定できてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することができてもよい。
【0023】
いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例では、制御システムは、マイクロフォン入力オーディオ・データの分類をすることができてもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび/または公共アナウンスを含むかどうかを判定することに関わってもよい。モード切り換え指標は少なくとも部分的には該分類に基づいていてもよい。
【0024】
いくつかの実装は、ソフトウェアが記憶されている一つまたは複数の非一時的な媒体を含んでいてもよい。いくつかの例では、非一時的な媒体は、フラッシュメモリ、ハードドライブおよび/または他のメモリ・デバイスを含みうる。ソフトウェアは、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領するよう少なくとも一つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定するための命令を含んでいてもよい。ソフトウェアは、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成するための命令を含んでいてもよい。たとえば、ソフトウェアは、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整するための命令を含んでいてもよい。いくつかの例では、ソフトウェアは、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成するための命令を含んでいてもよい。いくつかのそのような例は、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供することに関わってもよい。
【0025】
いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。しかしながら、いくつかの例では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、いくつかの例では、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの例によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間の範囲内であってもよい。しかしながら、いくつかの事例では、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはメディアおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しくてもよい。
【0026】
いくつかの実装では、ソフトウェアは、モード切り換え指標を受領(または判別/決定)し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正するための命令を含んでいてもよい。たとえば、いくつかの実装では、ソフトウェアは、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正するための命令を含んでいてもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、ソフトウェアは、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことを、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することによって行なうための命令を含んでいてもよい。
【0027】
いくつかの実装によれば、ソフトウェアは、モード切り換え指標を、少なくとも部分的には、頭の動きの指標および/または目の動きの指標に基づいて決定するための命令を含んでいてもよい。いくつかのそのような実装では、ソフトウェアは、モード切り換え指標を、少なくとも部分的には、慣性センサー・データに基づいていて決定するための命令を含んでいてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。いくつかの事例では、目の動きの指標はカメラ・データおよび/または脳電図データを含んでいてもよい。
【0028】
いくつかの例では、ソフトウェアは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、該音源の方向が頭の動きおよび/または目の動きと対応するかどうかを判定するための命令を含んでいてもよい。代替的または追加的に、いくつかの例では、ソフトウェアは、選択された音源方向のユーザーから指標を受領するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別するための命令を含んでいてもよい。
【0029】
いくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかの実装によれば、ソフトウェアは、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別するための命令を含んでいてもよい。いくつかのそのような例は、少なくとも部分的には、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。
【0030】
代替的または追加的に、いくつかの例では、ソフトウェアは、音源の速度を決定するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別するための命令を含んでいてもよい。
【0031】
いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例では、ソフトウェアは、マイクロフォン入力オーディオ・データの分類をするための命令を含んでいてもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび/または公共アナウンスを含むかどうかを判定することに関わってもよい。いくつかのそのような例では、ソフトウェアは、モード切り換え指標を、少なくとも部分的には該分類に基づいて決定するための命令を含んでいてもよい。
【0032】
本明細書に記載される主題の一つまたは複数の実装の詳細は、付属の図面および下記の説明に記載される。他の特徴、側面および利点は、該説明、図面および請求項から明白になるであろう。以下の図面の相対的な寸法は同縮尺ではないことがあることを注意しておく。
【図面の簡単な説明】
【0033】
【
図1A】本開示のさまざまな側面を実装することのできる装置のコンポーネントの例を示すブロック図である。
【0034】
【
図1B】スピーカー・システムおよび制御システムが異なる装置にある例を示す図である。
【0035】
【
図2】
図1Aまたは
図1Bに示されるもののような装置によって実行されうる方法の一例を概観する流れ図である。
【0036】
【
図3】慣性センサー・システムを含むオーディオ装置の例を示す図である。
【0037】
【
図4】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの一例を示す図である。
【0038】
【
図5】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの別の例を示す図である。
【0039】
【
図6】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムに関する方位角および仰角の例を示す図である。
【0040】
【
図7】一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される右および左のマイクロフォン・オーディオ信号の間の強度またはレベルの比(L/Rエネルギー比)と方位角の間の関係を示す曲線の例を示すグラフである。
【0041】
さまざまな図面における同様の参照符号および指示は同様の要素を示す。
【発明を実施するための形態】
【0042】
以下の説明は、本開示のいくつかの革新的な側面を記述する目的のためのある種の実装ならびにこれらの革新的な側面が実装されうるコンテキストの例に向けられている。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装は具体的なオーディオ装置に関して記述されるが、本稿の教示は他の既知のオーディオ装置ならびに将来導入されうるオーディオ装置に広く適用可能である。さらに、記載される実装は少なくとも部分的にはさまざまな装置およびシステムにおいてハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステムなどとして実装されうる。よって、本開示の教示は、図面に示されるおよび/または本稿に記載される実装に限定されることは意図されておらず、広い適用可能性をもつものである。
【0043】
上記のように、少なくともいくらかの度合いの音の隠蔽を提供するオーディオ装置は、オーディオ品質を制御する改善された能力のようなさまざまな潜在的な恩恵を提供する。他の恩恵は、外界からの潜在的にわずらわしいまたは気を散らす音の減衰を含む。しかしながら、そのようなオーディオ装置のユーザーは、接近する自動車の音、自動車の警笛、公共アナウンスなどといった、聞くことが有利であろう外界からの音を聞くことができないことがある。
【0044】
よって、一つまたは複数の型の音隠蔽管理が望ましいであろう。本稿に記載されるさまざまな実装は、ユーザーがヘッドフォン、イヤーバッドまたは他のそのようなオーディオ装置を介してオーディオ・データのメディア・ストリームを聞いている時間の間の音隠蔽管理に関わる。本稿での用法では、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は音楽、ポッドキャスト、映画サウンドトラックなどに対応するオーディオ・データならびに電話の会話の一部のような、再生のために受領される音に対応するオーディオ・データを指すために使用されうる。イヤーバッド実装のようないくつかの実装では、ユーザーは、メディア・ストリームに対応するオーディオ・データを聞いている間であっても、外界からの有意な量の音を聞くことができることがありうる。しかしながら、いくつかのオーディオ装置(たとえばヘッドフォン)は、外界からの音を有意に減衰させることができる。よって、いくつかの実装は、ユーザーに対してマイクロフォン・データを提供することに関わってもよい。マイクロフォン・データは外界からの音を提供しうる。
【0045】
ヘッドフォンのようなオーディオ装置の外部の音に対応するマイクロフォン信号がメディア信号と混合されてヘッドフォンのスピーカーを通じて再生されるとき、しばしばメディア信号がマイクロフォン信号をマスクして、外部の音は聴取者にとって聞こえないまたは聞き取れないものとなる。よって、マイクロフォンおよびメディア信号の両方を、混合されたときにマイクロフォン信号がメディア信号より大きく聞こえ、かつ、処理されたマイクロフォンおよびメディア信号の両方が知覚的に自然に聞こえるままになるよう、処理することが望ましい。この効果を達成するために、本稿で開示されるような、知覚的ラウドネスおよび部分ラウドネスのモデルを考えることが有用である。いくつかのそのような実装は、一つまたは複数の型のパススルー・モードを提供する。パススルー・モードでは、メディア信号は音量を下げられてもよく、ユーザーと他の人々との間の会話(またはマイクロフォン信号によって示される、ユーザーにとって関心のある他の外部音)がユーザーに提供されるオーディオ信号に混合されてもよい。いくつかの例では、メディア信号は一時的に無音にされてもよい。
【0046】
図1Aは、本開示のさまざまな側面を実装できる装置のコンポーネントの例を示すブロック図である。この例では、装置100は、インターフェース・システム105および制御システム110を含む。インターフェース・システム105は、一つまたは複数のネットワーク・インターフェース、一つまたは複数のユーザー・インターフェースおよび/または一つまたは複数の外部装置インターフェース(たとえば一つまたは複数のユニバーサルシリアルバス(USB)インターフェース)を含んでいてもよい。いくつかの例では、インターフェース・システム105は、制御システム110とメモリ・システム、たとえば
図1Aに示される任意的なメモリ・システム115との間の一つまたは複数のインターフェースを含んでいてもよい。しかしながら、制御システム110がメモリ・システムを含んでいてもよい。制御システム110はたとえば、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラム可能な論理デバイス、離散的なゲートまたはトランジスタ論理および/または離散的なハードウェア・コンポーネントを含んでいてもよい。いくつかの実装では、制御システム110は本稿に開示される方法を少なくとも部分的に実行できてもよい。
【0047】
本稿に記載される方法の一部または全部は、非一時的媒体に記憶される命令(たとえばソフトウェア)に従って一つまたは複数の装置によって実行されてもよい。そのような非一時的な媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限られない、本稿に記載されるもののようなメモリ・デバイスを含んでいてもよい。非一時的な媒体はたとえば、
図1Aに示される任意的なメモリ・システム115に、および/または制御システム110内に存在してもよい。よって、本開示において記載される主題のさまざまな革新的な側面は、ソフトウェアが記憶されている非一時的な媒体において実装されることができる。ソフトウェアはたとえば、オーディオ・データを処理するよう少なくとも一つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、たとえば、
図1Aの制御システム110のような制御システムの一つまたは複数のコンポーネントによって実行可能であってもよい。
【0048】
いくつかの例では、装置100は、
図1Aに示されるように、一つまたは複数のマイクロフォンを含む任意的なマイクロフォン・システム120、一つまたは複数のスピーカーを含む任意的なスピーカー・システム125および/または一つまたは複数の慣性センサーを含む任意的な慣性センサー・システム130を含んでいてもよい。マイクロフォン構成のいくつかの例が本稿に開示される。慣性センサーはたとえば、一つまたは複数の加速度計またはジャイロスコープを含んでいてもよい。
【0049】
しかしながら、いくつかの実装では、インターフェース・システム105および制御システム110が一つの装置にあってもよく、マイクロフォン・システム120、スピーカー・システム125および/または慣性センサー・システム130が一つまたは複数の他の装置にあってもよい。
図1Bは、スピーカー・システムおよび制御システムが異なる装置にある例を示している。この例では、スピーカー・システム125はイヤーバッド150を含み、制御システムは、ユーザーの腕に取り付けられているスマートフォン100aにある。よって、スマートフォンは
図1Aに示される装置100の例である。そのいくつかを後述する代替的な例では、スピーカー・システム125はヘッドフォンを含んでいてもよい。
【0050】
図2は、
図1Aまたは
図1Bに示されるもののような装置によって実行されうる方法の一例を概観する流れ図である。本稿に記載される他の方法と同様に方法200のブロックは、必ずしも示される順序で実行されるのではない。さらに、そのような方法は図示および/または記載されるより多くのまたはより少数のブロックを含んでいてもよい。
【0051】
この例では、方法200のブロック205は、メディア・ストリームに対応するメディア入力オーディオ・データを受領することに関わる。オーディオ・データはたとえば、音楽、テレビ番組サウンドトラック、映画サウンドトラック、ポッドキャストなどに対応していてもよい。
【0052】
ここで、ブロック210は、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することに関わる。いくつかの実装によれば、マイクロフォン入力オーディオ・データは、一つまたは複数のローカルなマイクロフォンから受領されてもよく、それによりマイクロフォン入力オーディオ・データは外界からの音と対応する。いくつかのそのような例では、方法200の制御システム・ブロック205は、インターフェース・システムを介して、メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データを受領することに関わる。
【0053】
図2の例では、ブロック215は、メディア入力オーディオ・データの複数の周波数帯域の各周波数帯域の第一のレベルを決定することに関わる。ここで、ブロック220は、マイクロフォン入力オーディオ・データの複数の周波数帯域の各周波数帯域の第二のレベルを決定することに関わる。用語「第一のレベル」および「第二のレベル」は本稿では、メディア入力オーディオ・データの周波数帯域のレベルを、マイクロフォン入力オーディオ・データの周波数帯域のレベルから区別するために使われている。具体的な状況に依存して、第一のレベルは、第二のレベルと実質的に異なることもあれば異ならないこともある。いくつかの例では、ブロック215および220は、時間領域から周波数領域への変換を行なうことに関わってもよい。しかしながら、代替的な例では、受領されたメディア入力オーディオ・データおよび/または受領されたマイクロフォン入力オーディオ・データはすでに時間領域から周波数領域に変換されていてもよい。
【0054】
この実装において、ブロック225は、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することに関わる。この例によれば、レベルは少なくとも部分的には、知覚されるラウドネスに基づいて調整される。特に、いくつかの例は、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することに関わる。いくつかの詳細な例を後述する。
【0055】
ここで、ブロック230は、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することに関わる。該混合オーディオ・データは、たとえばヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供されてもよい。
【0056】
いくつかの例では、前記調整のプロセスは、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。いくつかのそのような例は、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルだけを一時的にブーストすることに関わっていてもよい。しかしながら、いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。
【0057】
いくつかの事例では、メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの実装によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、マイクロフォン信号をブーストするだけであることによって生成されるメディアおよびマイクロフォン・オーディオ・データの全ラウドネスとの間の範囲内であってもよい。あるいはまた、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはマイクロフォン信号をブーストするだけであることによって生成されるメディアおよびマイクロフォン・オーディオ・データの全ラウドネスに等しくてもよい。
【0058】
いくつかの実装によれば、ラウドネス・モデルが、励起信号Eに対して作用する特定ラウドネス関数L{.}によって定義される。周波数および時間の両方を通じて変化する励起信号は、関心対象のオーディオ信号によって耳の基底膜に沿って誘起されるエネルギーの時間変化する分布を表わすことが意図されている。実際上は、励起は、信号を離散的な周波数帯域bに分割するフィルタバンク分解を通じて計算される。各帯域の信号が時間tを通じて変化する。必須ではないが理想的には、周波数を通じたこれらの帯域の間隔は、ERB(Equivalent Rectangular Bandwidth[等価長方形帯域幅])のような知覚的な周波数スケールに対応するものでありうる。このフィルタバンク分解を関数FB{.}によって表わすと、入力メディアおよびマイクロフォン信号xmed(t)およびxmic(t)の複数帯域バージョンが、たとえば式1aおよび1bに示されるように、生成されうる:
【0059】
Xmed(b,t)=FB{xmed(t)} (1a)
【0060】
Xmic(b,t)=FB{xmic(t)} (1b)
【0061】
式1aにおいて、X
med(b,t)は、入力メディア信号の複数帯域バージョンを表わす。式1bにおいて、X
mic(b,t)は、入力マイクロフォン信号の複数帯域バージョンを表わす。いくつかの例では、
図2のブロック205は、x
med(t)のような入力メディア信号の時間領域バージョンを受領することに関わってもよく、ブロック210は、x
mic(t)のような入力マイクロフォン信号の時間領域バージョンを受領することに関わってもよい。しかしながら、代替的な例では、
図2のブロック205は、x
med(b,t)のような入力メディア信号の複数帯域バージョンを受領することに関わってもよく、ブロック210は、x
mic(b,t)のような入力マイクロフォン信号の複数帯域バージョンを受領することに関わってもよい。
【0062】
いくつかの実装によれば、次に、メディアおよびマイクロフォン信号の励起関数が計算される。いくつかのそのような例では、メディアおよびマイクロフォン信号の励起は、式2aおよび2bに示されるように、周波数変化する知覚的な重みW(b)を適用された、時間平滑化された、複数帯域信号のパワーとして計算されてもよい:
【0063】
Emed(b,t)=λEmed(b,t-1)+(1-λ)W(b)|Xmed(b,t)|2 (2a)
【0064】
Emic(b,t)=λEmic(b,t-1)+(1-λ)W(b)|Xmic(b,t)|2 (2b)
【0065】
いくつかの実装では、W(b)はヘッドフォン、外耳および中耳の伝達関数を考慮に入れてもよい。式2aにおいて、E
med(b,t)はメディア信号の励起を表わし、式2bにおいて、E
mic(b,t)はマイクロフォン信号の励起を表わす。式2aおよび2bは、平滑化係数λによってパラメータ化される単純な単極(one-pole)平滑化関数に関わるが、他の平滑化フィルタも可能である。式2aは、
図2のブロック215のプロセスの一例を与え、式2bは、ブロック220のプロセスの一例を与える。
【0066】
励起信号が生成されたら、たとえば式3aおよび3bに示されるように、特定ラウドネス関数(specific loudness function)L{.}が適用されて、メディアおよびマイクロフォンの特定ラウドネスを与える:
【0067】
Lmed(b,t)=L{Emed(b,t} (3a)
【0068】
Lmic(b,t)=L{Emic(b,t} (3b)
【0069】
式3aにおいて、L
med(b,t)はメディア信号に対応する特定ラウドネス関数を表わし、式3bにおいて、L
mic(b,t)はマイクロフォン信号に対応する特定ラウドネス関数を表わす。特定ラウドネス関数は、人間によるラウドネスの知覚におけるさまざまな非線形性をモデル化するものであり、結果として得られる特定ラウドネス信号は、周波数を横断した知覚されるラウドネスの時間変化する分布を記述する。よって、特定ラウドネス関数L
mic(b,t)は、
図2のブロック225を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネス」の一例を与える。
【0070】
メディアおよびマイクロフォン・オーディオ・データについてのこれらの特定ラウドネス信号は、メディア・ストリームおよびマイクロフォンからの音の、それぞれが単独で聞かれたときの知覚されるラウドネスを表わす。しかしながら、二つの信号が混合されると、マスキングが起こることがある。具体的には、一方の信号が他方よりずっと大きい場合、それは小さいほうの信号をマスクしてしまい、それにより、単独で聞かれたときの該小さいほうの信号の知覚されるラウドネスに対して、該小さいほうの信号の知覚されるラウドネスを低下させる。
【0071】
このマスキング現象は、二つの入力を取る部分ラウドネス関数(partial loudness function)PL{.,.}を用いてモデル化されうる。第一の入力は関心対象の信号の励起であり、第二の入力は競合信号の励起である。部分ラウドネス関数は、競合信号の存在時に関心対象の信号の知覚されるラウドネスを表わす部分特定ラウドネス信号PLを返す。競合信号の励起が0であれば、関心対象の信号の部分特定ラウドネスはその特定ラウドネスに等しく、PL=Lとなる。干渉信号の励起が大きくなるにつれて、マスキングのためにPLはL未満に減少する。しかしながら、この低下が有意であるためには、競合信号励起のレベルが、関心対象の信号の励起に近いか、それより大きい必要がある。関心対象の信号の励起が競合信号励起より有意に大きい場合には、関心対象の信号の部分特定ラウドネスはその特定ラウドネスに近似的に等しく、
【数1】
となる。
【0072】
メディア信号の存在時にマイクロフォン信号の可聴性を維持するという目的のために、マイクロフォンを関心対象信号と考え、メディアを競合信号と考えてもよい。この呼称を用いると、マイクロフォンの部分特定ラウドネスは、たとえば式4に示されるように、マイクロフォンおよびメディアの励起から計算される:
【0073】
PLmic(b,t)=PL{Emic(b,t),Emed(b,t)} (4)
【0074】
一般に、メディアの存在時のマイクロフォンの部分特定ラウドネスPLmic(b,t)は、単独での特定ラウドネスLmic(b,t)より小さい。メディアと混合されたときのマイクロフォン信号の可聴性を維持するために、マイクロフォンおよびメディア信号は、処理されたメディア信号の存在時の処理されたマイクロフォン信号の部分特定ラウドネスが、単独でのマイクロフォン信号の可聴性を表わすLmic(b,t)により近くなるよう処理されてもよい。具体的には、マイクロフォン特定ラウドネスLmic(b,t)と処理されたマイクロフォン部分特定ラウドネス〔 ̄付きのPLmic(b,t)〕との間の差が、マイクロフォン特定ラウドネスLmic(b,t)と未処理のマイクロフォン部分特定ラウドネスPLmic(b,t)との間の差より小さくなるよう、周波数および時間変化するマイクロフォンおよびメディア処理利得Gmic(b,t)およびGmed(b,t)が計算されてもよい:
【0075】
【0076】
式5bの左辺が、
図2のブロック225を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差」の一例を与える。
【0077】
同様に、式5bの右辺が
図2のブロック225を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差」の一例を与える。
【0078】
ひとたびこれらの利得が計算されたら、処理されたメディアおよびマイクロフォン信号が、たとえば下記に示されるように、対応する利得修正されたフィルタバンク信号に合成フィルタバンクまたは逆変換を適用することによって、生成されうる:
【0079】
【0080】
式6aのy
med(t)は、
図2のブロック225を参照して上記した「メディア出力オーディオ・データ」の一例を与える。
【0081】
同様に、式6bのy
mic(t)は、
図2のブロック225を参照して上記した「マイクロフォン出力オーディオ・データ」の一例を与える。
【0082】
いくつかの例では、最終的な出力信号は、処理されたメディアおよびマイクロフォン信号を混合することによって生成されてもよい:
【0083】
y(t)=ymed(t)+ymic(t) (7)
【0084】
よって、式7は、
図2のブロック230を参照して上記した「メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成すること」の一例を与える。
【0085】
必要とされるマイクロフォンおよびメディア処理利得を計算するために、競合信号励起の存在時に関心対象の信号の個別の部分特定ラウドネスに対応する関心対象の信号の励起を返す逆部分特定ラウドネス関数を定義することが有用でありうる:
【0086】
PL-1{PLint,Ecomp}=Eint (8a)
【0087】
ただし、
【0088】
PLint=PL{Eint,Ecomp} (8b)
【0089】
式8aおよび8bにおいて、PL-1は、逆部分特定ラウドネス関数を表わし、PLintは関心対象信号(signal of interest)の部分特定ラウドネスを表わし、Eintは関心対象信号の励起を表わし、Ecompは競合信号(competing signal)の励起を表わす。
【0090】
式5によって記述される実装の全体的な目的を満たすための解決策の一例は、たとえば下記に示されるように、処理されたマイクロフォン部分特定ラウドネスを、単独でのマイクロフォンの特定ラウドネスと等しくすることである:
【0091】
【0092】
この条件を設定することは、処理されたメディアの存在時の処理されたマイクロフォンのラウドネスが、もとの未処理のマイクロフォン自身のラウドネスと同じであることを定める。換言すれば、マイクロフォンの知覚されるラウドネスは、メディア信号の再生によらず、一貫したままであるべきである。式9および式3bを式5aに代入し、式8aおよび8bで与えられる逆部分特定ラウドネスの定義を使うと、マイクロフォン処理利得Gmic(b,t)についての対応する解が得られる:
【0093】
【0094】
メディア信号が未処理のままに留まる、つまりGmed(b,t)=1という制約条件を課すと、(10)に見られるように既知のマイクロフォンおよびメディア励起信号から計算される、マイクロフォン処理利得への一意的な解が得られる。この具体的な解は、メディア信号には手をつけずに、マイクロフォン信号のみをブーストしてその知覚されるラウドネスを維持することに関わることができる。よって、マイクロフォン利得に対するこの解は、Gboost(b,t)と称される。
【0095】
解Gboost(b,t)はマイクロフォン信号の可聴性をメディアより上に維持するものの、実際上は、組み合わされた処理されたマイクロフォンおよびメディアの音は、うるさすぎるまたは不自然に聞こえることがありうる。これを避けるために、式10に対して、マイクロフォンおよびメディア利得に対する一意的な解を与えるための異なる制約条件を課すことが望ましいことがありうる。一つのそのような代替は、混合の全ラウドネスが、何らかの目標に等しくなるよう制約することである。未処理のマイクロフォンおよびメディア混合の全ラウドネスLtot(b,t)は、マイクロフォンおよびメディア励起の和に適用したラウドネス関数によって与えられてもよい:
【0096】
Ltot(b,t)=L{Emic(b,t)+Emed(b,t)} (11a)
【0097】
メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの処理された混合の全ラウドネス〔 ̄付きのLtot(b,t)〕は、同様の仕方で定義されうる:
【0098】
【0099】
ブーストのみの解の全ラウドネスは次のように表わされてもよい:
【0100】
【0101】
処理された混合の全体的なラウドネスを下げるために、処理された混合の全ラウドネスは、たとえば下記のように、ブーストのみの解の全ラウドネスと未処理の混合の全ラウドネスとの間のどこかにあると規定してもよい:
【0102】
【0103】
式12を式10と組み合わせると、マイクロフォンおよびメディア利得の両方について一意的な解が指定される。α=1であるとき、結果として得られる解はブーストのみの解と等価であり、α=0のときは、混合の全ラウドネスは、メディア信号をさらに減衰させることによって未処理の混合と同じままとなる。αが1と0の間にあるときは、混合の全ラウドネスは、これら二つの極端の間のどこかにある。にも関わらず、式10の適用は、処理されたマイクロフォン信号の部分ラウドネスがマイクロフォン信号単独のラウドネスに等しいままであることを保証し、それによりメディア信号の存在時におけるその可聴性を維持する。
【0104】
ヘッドフォンおよびイヤーバッドのような通常のオーディオ装置は典型的には、ラップトップ、コンピュータ、携帯電話、携帯オーディオ・プレーヤーまたはタブレットからのメディア入力オーディオ・データがユーザーの鼓膜に対して再生されるメディア再生モードという一つの作動モードをもつ。いくつかの例では、そのようなメディア再生モードは、周囲の音または背景ノイズからの干渉をなくす、または少なくとも減らすために能動ノイズ打ち消し技法を使ってもよい。
【0105】
本稿に開示されるいくつかのオーディオ方法は、パススルー・モードのような追加的なモードに関わってもよい。いくつかのそのようなパススルー・モードは上記した。いくつかのパススルー・モードの例において、メディア・オーディオ信号は、音量を下げられたり、無音化されたりしてもよく、ユーザーと他の人々との間の会話(またはユーザーにとって関心のある他の外部の音)が、ヘッドフォンまたはイヤーバッドのようなオーディオ装置のマイクロフォンによって補足されて、再生のために出力オーディオに混合されてもよい。いくつかのそのような実装では、ユーザーは、メディア再生を停止させるおよび/またはオーディオ装置をユーザーの耳から取り外す必要なしに、会話に参加することができうる。よって、いくつかのそのようなモードはここでは「会話モード」と称されることがある。いくつかの例では、動作モードを会話モードに変更するために、たとえば上記のインターフェース・システム105のユーザー・インターフェースを介してユーザーがコマンドを与えてもよい。そのようなコマンドは、本稿で記載される「モード切り換え指標(mode-switching indication)」の一例である。
【0106】
しかしながら、オーディオ装置のための他の型の動作モード切り換えが本稿で開示される。いくつかのそのような実装によれば、モード切り換えは、ユーザー入力を必要としなくてもよく、むしろ自動的であってもよい。一つまたは複数の型のオーディオ処理が、モード切り換え指標の受領時に修正されてもよい。いくつかのそのような例によれば、
図2を参照して上記した受領する、決定する、生成するまたは混合するプロセスのうちの一つまたは複数が、前記モード切り換え指標に従って修正されてもよい。いくつかの例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。たとえば、前記修正は、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することによって、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わってもよい。
【0107】
さまざまな型のモード切り換え指標が発明者によって考えられている。いくつかの例では、モード切り換え指標は少なくとも部分的には、頭の動きの指標に基づいていてもよい。代替的または追加的に、モード切り換え指標は少なくとも部分的には、目の動きの指標に基づいていてもよい。いくつかの例では、頭の動きは慣性センサー・システムによって検出されてもよい。よって、いくつかの実装では、モード切り換え指標は少なくとも部分的には、慣性センサー・システムからの慣性センサー・データに基づいていてもよい。慣性センサー・データは、たとえば、ユーザーが身につけているヘッドフォンの動きを示していてもよい。
【0108】
図3は、慣性センサー・システムを含むオーディオ装置の例を示している。この例では、オーディオ装置はヘッドセット305である。慣性センサー・システム310は一つまたは複数の慣性センサー装置、たとえば一つまたは複数のジャイロスコープ、一つまたは複数の加速度計などを含む。慣性センサー・システム310は、慣性センサー・データを制御システムに提供することができる。この例において、制御システムの少なくとも一部は、本稿の他所で記述される装置100の例である装置100bのコンポーネントである。代替的または追加的に、制御システムの少なくとも一部は、ヘッドセット305のようなオーディオ装置のコンポーネントであってもよい。慣性センサー・データは、ヘッドセット305の動きを示すことができ、よって、ユーザーがヘッドセット305を身につけているときにユーザーの頭の動きを示すことができる。
【0109】
図3に示される例では、装置100bは、少なくとも一つのカメラ350をもつカメラ・システムを含む。いくつかの例では、カメラ・システムは二つ以上のカメラを含んでいてもよい。いくつかの実装では、(たとえば装置100bの)制御システムは、ユーザーの目の動きおよび/またはユーザーが現在見ている方向を、少なくとも部分的にはカメラ・システムからのカメラ・データに基づいて決定することができてもよい。代替的または追加的に、制御システムは、ユーザーの目の動きを脳電図データに基づいて決定することができてもよい。そのような脳電図データは、たとえば、ヘッドセット305の脳電図システムから受領されてもよい。いくつかの実装では、ヘッドセット305(またはイヤーバッドのような別のオーディオ装置)は、ユーザーの外耳道におよび/またはユーザーの頭皮上に位置されるよう構成されている一つまたは複数のEEG電極を含んでいてもよい。ユーザーの目の動きは、該一つまたは複数のEEG電極からのEEG信号の解析を通じて決定されてもよい。
【0110】
この例では、ヘッドセット305は、ヘッドフォン・ユニット325aおよび325bを含み、そのそれぞれはスピーカー・システム125の一つまたは複数のスピーカーを含む。いくつかの例では、ヘッドフォン・ユニット325aおよび325bのそれぞれは、一つまたは複数のEEG電極を含んでいてもよい。いくつかのそのような例によれば、ヘッドフォン・ユニット325aおよび325bのそれぞれは、少なくとも一つのEEG電極を前側に含んでいてもよく、それによりヘッドセット305が装着されたときに該EEG電極はユーザー370の目の近くに位置されうる。
図3の例では、ヘッドセット305が装着されたとき、ヘッドフォン・ユニット325aのEEG電極375aはユーザー370の右目の近くに位置されることができ、ヘッドフォン・ユニット325bのEEG電極375bは左目380の近くに位置されることができる。いくつかのそのような実装では、EEG電極375aとEEG電極375bとの間の電位差が、目の動きを検出するために使われてもよい。この例では、ヘッドフォン・ユニット325aおよび325bはマイクロフォン320aおよび320bをも含む。いくつかの例では、装置100bまたはヘッドセット305の制御システムは、少なくとも部分的にはマイクロフォン320aおよび320bのような二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を決定することができてもよい。いくつかのそのような例によれば、制御システムは、少なくとも部分的にはマイクロフォン320aからの第一のマイクロフォン・オーディオ信号とマイクロフォン320bからの第二のマイクロフォン・オーディオ信号との間の強度差に基づいて、音源位置に対応する方向を決定することができてもよい。いくつかの例では、「強度差」は、第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号との間の強度またはレベルの比であってもよく、またはそれと対応していてもよい。
【0111】
代替的または追加的に、制御システムは、少なくとも部分的にはマイクロフォン320aからの第一のマイクロフォン・オーディオ信号とマイクロフォン320bからの第二のマイクロフォン・オーディオ信号との間の時間差に基づいて、音源位置に対応する方向を決定することができてもよい。音源位置に対応する方位角の決定および音源位置に対応する仰角の決定のいくつかの例を下記で与える。
【0112】
いくつかの例では、制御システムは、音源の方向が頭の動きまたは目の動きと対応するかどうかを判定することができてもよい。そのような実装は潜在的に有利である。というのも、イベントのかかる組み合わせは、ユーザーの注意が、メディア・ストリームの内容から現実世界における関心対象イベントに一時的に移ったことを示唆するからである。たとえば、マイクロフォン入力オーディオ・データを介して周囲音を能動的にパススルー〔通過〕させることによって、あるいはヘッドセット305によって提供される不完全な音の隠蔽に起因する周囲音の受動的な漏れのため、ユーザーにとって周囲音のいくらかの可聴性があってもよい。いくつかの事例では、ユーザーは、周囲音によって示される活動があることを判別できることがあるが、周囲音は、モード切り換えかヘッドセット305を外すことなしに会話をするには十分に聞き取り可能ではないことがありうる。この周囲音および/または視覚的情報に基づいて、ユーザーはしばしば、注意を向ける必要があるイベントがあると判断できる。そのような場合、ユーザーの自然な反応は、音源の方向に頭を向けるおよび/または視線を投じることであろう。特定の方向からのオーディオ・イベントに続いてすぐに、あるいはほとんどすぐに音のイベントの方向に頭の回転がある場合には特に、オーディオ・イベントが関心のあるイベントと対応していると想定することが理にかなっている。
【0113】
よって、制御システムが音源の方向が頭の動きまたは目の動きに対応するかどうかを判定できるいくつかの実装では、そのような判定は、モード切り換え指標の例となる。いくつかの例では、制御システムは、少なくとも部分的には該モード切り換え指標に基づいて(
図2を参照して上記した)受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正してもよい。たとえば、制御システムは、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増してもよい。いくつかのそのような例では、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。
【0114】
計算上の簡単のため、マイクロフォン・システムの配向と慣性センサー・システムの配向との間の何らかの対応があることが有利であることがある。
図3に示した例では、マイクロフォン320aおよび320bは、慣性センサー・システム310の座標系335の一つの軸に平行に整列されている。この例では、軸345はマイクロフォン320aおよび320bを通る。ここで、座標系335のy軸がヘッドバンド330と整列させられ、軸345に平行である。この例では、ヘッドセット座標系905aのz軸は、ヘッドバンド330の頂部および慣性センサー・システム310の頂部に対して鉛直方向に整列されている。この実装では、座標系335はx,y,z座標系であるが、他の実装は別の座標系、たとえば極座標系、球面座標系または円筒座標系を使ってもよい。
【0115】
他の型のモード切り換えは、少なくとも部分的には、音源の動きの方向に基づいていてもよい。音源がユーザーのほうに動いていることが判別される場合、これは安全上の理由のため重要であることがある。例は、接近する自動車のノイズ、足音、走っている人々からの叫びなどを含む。
【0116】
よって、いくつかの実装は、少なくとも部分的には二つ以上のマイクロフォン(たとえば
図3に示されるマイクロフォン320aおよび320b)からのマイクロフォン・データに基づいて音源の動き方向を判別することに関わってもよい。そのような実装は、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標〔指示〕があるかどうかを判定することに関わってもよい。動き方向がユーザーが所有する装置のマイクロフォンの一つまたは複数のほうに向いている場合には、これは、その音を発しているオブジェクトがユーザーのほうに動いていることの指標である。たとえば、ユーザーのほうに向かう動き方向は、音源がマイクロフォンに近づくにつれての音源の見かけの音量の増大に従って判別されてもよい。したがって、いくつかの実装は、少なくとも部分的には音源の動きの方向がマイクロフォンのうちの少なくとも一つのほうに向いているとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。
【0117】
音源がユーザーに接近しつつあり、所定の速度より速い速度で動いている場合、これはユーザーに対する潜在的な危険という点で、一層有意でありうる。よって、いくつかの実装は、音源の速度を決定し、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。たとえば、自動車のような接近する音源の速さが自動車ノイズの音量変化を測定し、それを三次パワー増大曲線と比較することによって決定されることができる。パワーは、音源とマイクロフォンとの間の距離の減少の三乗で増大するからである。
【0118】
いくつかのモード切り換え実装は、ユーザーにとって関心のある人物を識別することに関わってもよい。いくつかの例では、関心のある人物は、間接的に、たとえば該関心のある人物の現在位置に対応する音源の方向に従って、識別されてもよい。音源の方向は、いくつかの事例では、該関心のある人物が位置している、ユーザーに隣接する位置に対応していてもよい。たとえば、キャビン内での映画再生の使用事例について、ユーザーの選択された音源方向は、ユーザーの友人が座っている、ユーザーの左または右のシートと対応していてもよい。制御システムは、音が該選択された音源方向から受領されるときの事例を判別し、そのような事例を、モード切り換え指標として識別することができてもよい。いくつかのそのような例によれば、制御システムは、選択された音源方向からの音を通過させ、一方で他の方向からの音は通されないようにするよう、ヘッドフォンのようなオーディオ装置を制御することができてもよい。
【0119】
したがって、いくつかの実装は、選択された音源方向のユーザーからの指標を受領することに関わってもよい。そのような実装は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を決定することに関わってもよい。いくつかのそのような実装は、音源の位置が選択された音源方向に対応する場合に、音源の位置がモード切り換え指標であることを判別することに関わってもよい。
【0120】
いくつかのモード切り換え実装は、マイクロフォン入力オーディオ・データの発話認識および/または発話として認識されるマイクロフォン入力オーディオ・データに基づくキーワードの識別に関わってもよい。たとえば、あらかじめ決定されたキーワードがモード切り換え指標であってもよい。そのようなキーワードは、たとえば、緊急事態、ユーザーに対する潜在的な危険など、たとえば「助けて!(Help!)」または「あぶない!(Watch out!)」に対応してもよい。
【0121】
いくつかのモード切り換え実装は、マイクロフォン入力オーディオ・データを分類し、モード切り換え指標を少なくとも部分的には該分類に基づかせることに関わってもよい。いくつかのそのようなモード切り換え実装は、ユーザーにとって関心のある人物の声(本稿では事前選択された人の声とも称される)を認識することに関わってもよい。代替的または追加的に、前記分類は、マイクロフォン入力オーディオ・データが、ユーザーにとって潜在的な重要性のある別の音、たとえば自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび/または公共アナウンスを示すかどうかを判定することに関わってもよい。
【0122】
図3に示されるマイクロフォン配置は満足のいく結果を提供することができるが、他の実装は他のマイクロフォン配置を含んでいてもよい。
図4は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの一例を示している。この例では、マイクロフォン・システム400aは、それぞれがマイクロフォン・カプセルを含む、垂直方向に積層したマイクロフォン405aおよび405bをもつXYステレオ・マイクロフォン・システムを含む。マイクロフォン405aと405bの間の既知の垂直方向オフセットをもつことは、対応するオーディオ信号の到着の間の時間差の検出を許容するので、潜在的に有利である。そのような時間差は、たとえば下記のように、音源の仰角を決定するために使われてもよい。
【0123】
この実装では、マイクロフォン405aはマイクロフォン・カプセル410aを含み、マイクロフォン405bはマイクロフォン・カプセル410bを含む。後者はマイクロフォン405bの配向のため
図4では見えていない。マイクロフォン・カプセル410aの長手軸415aは、この例では紙面から出入りする方向に延在する。
【0124】
図4に示される例では、xyz座標系がマイクロフォン・システム400aに関して示されている。この例では、座標系のz軸は垂直軸である。よって、この例では、マイクロフォン・カプセル410aの長手軸415aとマイクロフォン・カプセル410bの長手軸415bとの間の垂直方向オフセット420aはz軸に沿って延びる。しかしながら、
図4に示されるxyz座標系の配向および本稿に開示される他の座標系の配向は単に例として示されている。他の実装では、xまたはy軸が垂直軸であってもよい。さらに他の実装では、xyz座標系の代わりに円筒または球面座標系が参照されてもよい。
【0125】
この実装では、マイクロフォン・システム400aは、ヘッドセット、スマートフォンなどといった第二の装置に取り付けられることができる。いくつかの例では、マイクロフォン・システム400aの座標系は、
図3に示される慣性センサー・システム310のような慣性センサー・システムの座標系と一致していてもよい。ここで、架台425は、第二の装置と結合するよう構成される。この例では、マイクロフォン・システム400aが架台525を介して第二の装置と物理的に接続された後、マイクロフォン・システム400aと第二の装置との間に電気的接続が形成されてもよい。よって、マイクロフォン・システム400aによって捕捉される音に対応するオーディオ・データは、記憶、さらなる処理、再生などのために第二の装置に伝達されてもよい。
【0126】
図5は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムのもう一つの例を示している。マイクロフォン・システム400bは、それぞれが
図5では見えないマイクロフォン・カプセルを含む、垂直方向に積層したマイクロフォン405eおよび405fを含んでいる。マイクロフォン405eはマイクロフォン・カプセル410eを含み、マイクロフォン405fはマイクロフォン・カプセル410fを含む。この例では、マイクロフォン・カプセル410eの長手軸415eおよびマイクロフォン・カプセル410fの長手軸415fは、xy平面内に延在する。
【0127】
ここでは、z軸は紙面から出入りする方向に延在する。この例では、z軸は長手軸415eと長手軸415fの交点410を通る。この幾何学的関係は、マイクロフォン・システム400bのマイクロフォンが「同軸である」(coincident)ことの一つの例である。長手軸415eと長手軸415fはz軸に沿って垂直方向にオフセットされているが、このオフセットは
図5では見えない。長手軸415eと長手軸415fは角度α離れており、αは具体的な実装に依存して90度、120度または他の角度でありうる。
【0128】
この例では、マイクロフォン405eおよびマイクロフォン405fは指向性マイクロフォンである。マイクロフォンの指向性の度合いは、「極性パターン」によって表わされてもよい。極性パターンは、マイクロフォンの長手軸に対する異なる角度で到達する音に対してマイクロフォンがどのくらい敏感であるかを示す。
図5に示される極性パターン405aおよび405bは、その点から所与の音圧レベル(SPL: sound pressure level)が生成される場合にマイクロフォンにおいて同じ信号レベル出力を生成するような点の軌跡を表わしている。この例では、極性パターン405aおよび405bはカーディオイド極性パターンである。代替的な実装では、マイクロフォン・システムは、同軸で垂直方向に積層した、スーパーカーディオイドまたはハイパーカーディオイド極性パターンまたは他の極性パターンをもつマイクロフォンを含んでいてもよい。
【0129】
マイクロフォンの指向性は、本稿では時に、「前方」領域および「後方」領域に言及するために使用されることがある。
図5に示される音源415aは、本稿で前方領域と称される領域に位置している。音源415aは、長手軸415eおよび415fに沿っての極性パターンのより大きな広がりによって示されるように、マイクロフォンが相対的により敏感である領域に位置されているからである。音源415bは、マイクロフォンが相対的にそれほど敏感でない領域であるため本稿で後方領域と称される領域に位置している。
【0130】
音源方向に対応する方位角θの決定は、少なくとも部分的には、マイクロフォン・カプセル410eによって捕捉される音とマイクロフォン・カプセル410fによって捕捉される音との間の音圧レベルの差(これは本稿では強度または振幅の差と称されることもある)に基づいていてもよい。いくつかの例を後述する。
【0131】
図6は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムに関する方位角および仰角の例を示している。簡単のため、この例では、マイクロフォン・システム400dのマイクロフォン・カプセル410gおよび410hのみが、支持構造、電気接続などはなしに、示されている。ここで、マイクロフォン・カプセル410gの長手軸415gとマイクロフォン・カプセル410hの長手軸415hの間の垂直方向のオフセット420cはz軸に沿って延在する。音源515bのような音源の位置に対応する方位角は、この例ではxy平面に平行な平面内で測られる。この平面は、本稿では「方位角平面」と称されることがある。よって、仰角は、この例ではxy平面に垂直な平面内で測られる。
【0132】
図7は、一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される右および左のマイクロフォン・オーディオ信号の間の強度またはレベルの比(L/Rエネルギー比)と方位角の間の関係を示す曲線の例を示すグラフである。右および左のマイクロフォン・オーディオ信号は、本稿の他所で言及される第一および第二のマイクロフォン・オーディオ信号の例である。この例では、曲線705は、方位角平面内で90度離れた長手軸をもつ、一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。
【0133】
たとえば
図5を参照するに、長手軸415eおよび415fは方位角平面内で角度α離れている。
図5に示される音源515aは方位角θにあり、これはこの例では長手軸415eと長手軸415fの間の中間である軸402から測られる。曲線705は、αが90度である場合の、同様の一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。曲線710は、αが120度である場合の、別の一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。
【0134】
図7に示される例では、曲線705および710はいずれも方位角0度において変曲点をもつことが観察されうる。方位角0度はこの例では、左マイクロフォンの長手軸と右マイクロフォンの長手軸との間の中間にある軸に沿って音源が位置される方位角に対応する。
図7に示されるように、方位角-130度または-120度において極大が生じる。
図7に示される例では、曲線705および710は、それぞれ方位角130度および120度に対応する極小をももつ。これらの極小の位置は部分的には、αが90度であるか120度であるかに依存するが、マイクロフォンの指向性パターンにも依存する。
図7に示される極大および極小の位置は一般に、
図5に示される極性パターン505aおよび505bによって示されるもののようなマイクロフォン指向性パターンに対応する。極大および極小の位置は、異なる指向性パターンをもつマイクロフォンについてはいくらか異なってくる。
【0135】
図6を再び参照するに、音源515cは、仰角φでマイクロフォン・システム400dの上方に位置していることが見て取れる。マイクロフォン・カプセル410gとマイクロフォン・カプセル410hとの間の垂直方向オフセット420cのため、音源515cによって放出された音は、マイクロフォン・カプセル410hに到達する前にマイクロフォン・カプセル410gに到達する。よって、音源515cからの音に応答するマイクロフォン・カプセル410gからのマイクロフォン・オーディオ信号と、音源515cからの音に応答するマイクロフォン・カプセル410hからの対応するマイクロフォン・オーディオ信号との間には時間差がある。
【0136】
よって、いくつかの実装は、少なくとも部分的には第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号の間の時間差に基づいて、音源位置に対応する仰角を決定することに関わってもよい。仰角は、一対の同軸で垂直方向に積層した指向性マイクロフォンの第一のマイクロフォンと第二のマイクロフォンとの間の、本稿で垂直方向オフセットとも称される垂直距離に従って決定されてもよい。いくつかの実装によれば、
図1Aの制御システム110が、少なくとも部分的には第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号の間の時間差に基づいて、音源位置に対応する仰角を決定することができてもよい。
【0137】
本開示に記載された実装に対するさまざまな修正が、当業者には容易に明白になるであろう。本稿で定義される一般的な原理は、本開示の精神または範囲から外れることなく他の実装に適用されてもよい。このように、請求項は本稿に示される実装に限定されることは意図されておらず、本開示、本稿に開示される原理および新規な特徴と整合する最も広い範囲を与えられるものである。
【0138】
いくつかの態様を記載しておく。
〔態様1〕
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と;
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と;
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを含む、
方法。
〔態様2〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様1記載の方法。
〔態様3〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様2記載の方法。
〔態様4〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様1記載の方法。
〔態様5〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様4記載の方法。
〔態様6〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネス(A)は、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネス(B)と、前記調整が、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わるときの前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネス(C)との間である、あるいは(B)に実質的に等しい、あるいは(C)に実質的に等しい、態様4または5記載の方法。
〔態様7〕
前記混合オーディオ・データをヘッドセットのスピーカーに提供することをさらに含む、態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
モード切り換え指標を受領する段階と;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とをさらに含む、
態様1ないし6のうちいずれか一項記載の方法。
〔態様9〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様8記載の方法。
〔態様10〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様9記載の方法。
〔態様11〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、態様8ないし11のうちいずれか一項記載の方法。
〔態様13〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様12記載の方法。
〔態様14〕
前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標がカメラ・データまたは脳電図データの一つまたは複数を含む、態様11ないし13のうちいずれか一項記載の方法。
〔態様15〕
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを含む、
態様11ないし14のうちいずれか一項記載の方法。
〔態様16〕
選択された音源方向のユーザーからの指標を受領する段階と;
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを含む、
態様8ないし14のうちいずれか一項記載の方法。
〔態様17〕
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と;
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを含む、
態様8ないし14のうちいずれか一項記載の方法。
〔態様18〕
少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別することをさらに含む、態様17記載の方法。
〔態様19〕
前記音源の速度を決定する段階と;
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを含む、
態様18記載の方法。
〔態様20〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様8ないし19のうちいずれか一項記載の方法。
〔態様21〕
前記マイクロフォン入力オーディオ・データの分類をさらに含み、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様8ないし20のうちいずれか一項記載の方法。
〔態様22〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛;接近する乗り物の音;悲鳴;叫び;事前選択された人物の声;事前選択されたキーワード;および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様21記載の方法。
〔態様23〕
ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは:
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と;
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と;
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行するよう一つまたは複数の装置を制御するための命令を含む、
非一時的な媒体。
〔態様24〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様23記載の非一時的な媒体。
〔態様25〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様24記載の非一時的な媒体。
〔態様26〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様23記載の非一時的な媒体。
〔態様27〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様26記載の非一時的な媒体。
〔態様28〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスは、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスと、前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間である、あるいは前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しい、あるいは前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しい、態様26または27記載の非一時的な媒体。
〔態様29〕
前記ソフトウェアは、前記混合オーディオ・データをヘッドセットのスピーカーに提供するための命令を含む、態様23ないし28のうちいずれか一項記載の非一時的な媒体。
〔態様30〕
前記ソフトウェアは:
モード切り換え指標を受領する段階と;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とを実行するための命令を含む、
態様23ないし28のうちいずれか一項記載の非一時的な媒体。
〔態様31〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様30記載の非一時的な媒体。
〔態様32〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様31記載の非一時的な媒体。
〔態様33〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様30ないし32のうちいずれか一項記載の非一時的な媒体。
〔態様34〕
前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、態様30ないし33のうちいずれか一項記載の非一時的な媒体。
〔態様35〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様34記載の非一時的な媒体。
〔態様36〕
前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標がカメラ・データまたは脳電図データの一つまたは複数を含む、態様33ないし35のうちいずれか一項記載の非一時的な媒体。
〔態様37〕
前記ソフトウェアが:
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを実行するための命令を含む、
態様33ないし36のうちいずれか一項記載の非一時的な媒体。
〔態様38〕
前記ソフトウェアが:
選択された音源方向のユーザーからの指標を受領する段階と;
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを実行するための命令を含む、
態様30ないし36のうちいずれか一項記載の非一時的な媒体。
〔態様39〕
前記ソフトウェアが:
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と;
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを実行するための命令を含む、
態様30ないし36のうちいずれか一項記載の非一時的な媒体。
〔態様40〕
前記ソフトウェアが、少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別するための命令を含む、態様39記載の非一時的な媒体。
〔態様41〕
前記ソフトウェアが:
前記音源の速度を決定する段階と;
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを実行するための命令を含む、
態様40記載の非一時的な媒体。
〔態様42〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様30ないし41のうちいずれか一項記載の非一時的な媒体。
〔態様43〕
前記ソフトウェアが、前記マイクロフォン入力オーディオ・データの分類をするための命令を含み、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様30ないし42のうちいずれか一項記載の非一時的な媒体。
〔態様44〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛;接近する乗り物の音;悲鳴;叫び;事前選択された人物の声;事前選択されたキーワード;および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様43記載の非一時的な媒体。
〔態様45〕
インターフェース・システムおよび制御システムを有するオーディオ処理装置であって、前記制御システムは:
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と;
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と;
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行することができる、装置。
〔態様46〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様45記載の装置。
〔態様47〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに等しい、態様46記載の装置。
〔態様48〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様45記載の装置。
〔態様49〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様48記載の装置。
〔態様50〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスは、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスと、前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間である、あるいは前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しい、あるいは前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しい、態様48または49記載の装置。
〔態様51〕
前記制御システムは、前記混合オーディオ・データを一つまたは複数のスピーカーを含むスピーカー・システムに、前記インターフェース・システムを介して提供することができる、態様45ないし50のうちいずれか一項記載の装置。
〔態様52〕
前記制御システムは:
モード切り換え指標を受領する段階と;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とを実行できる、
態様45ないし50のうちいずれか一項記載の装置。
〔態様53〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様52記載の装置。
〔態様54〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様53記載の装置。
〔態様55〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様52ないし54のうちいずれか一項記載の装置。
〔態様56〕
慣性センサー・システムをさらに有しており、前記モード切り換え指標は少なくとも部分的には、前記慣性センサー・システムからの慣性センサー・データに基づく、態様52ないし55のうちいずれか一項記載の装置。
〔態様57〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様56記載の装置。
〔態様58〕
目の動きの検出システムをさらに有しており、前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標が、前記目の動きの検出システムからのカメラ・データまたは脳電図データの一つまたは複数を含む、態様55ないし57のうちいずれか一項記載の装置。
〔態様59〕
前記制御システムが:
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを実行できる、
態様55ないし58のうちいずれか一項記載の装置。
〔態様60〕
前記制御システムが:
選択された音源方向のユーザーからの指標を受領する段階と;
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と;
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを実行できる、
態様52ないし58のうちいずれか一項記載の装置。
〔態様61〕
前記制御システムが:
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と;
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを実行できる、
態様52ないし58のうちいずれか一項記載の装置。
〔態様62〕
前記制御システムが、少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別できる、態様61記載の装置。
〔態様63〕
前記制御システムが:
前記音源の速度を決定する段階と;
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを実行できる、
態様62記載の装置。
〔態様64〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様52ないし63のうちいずれか一項記載の装置。
〔態様65〕
前記制御システムがさらに、前記マイクロフォン入力オーディオ・データの分類をすることができ、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様52ないし63のうちいずれか一項記載の装置。
〔態様66〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛;接近する乗り物の音;悲鳴;叫び;事前選択された人物の声;事前選択されたキーワード;および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様65記載の装置。
〔態様67〕
一つまたは複数のスピーカーを含むスピーカー・システムと;
二つ以上のマイクロフォンを含むマイクロフォン・システムとをさらに有する、
態様45ないし66のうちいずれか一項記載の装置。
〔態様68〕
当該装置がヘッドセットである、態様67記載の装置。
〔態様69〕
インターフェース・システムと;
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と;
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と;
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と;
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と;
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と;
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを実行するための制御手段とを有する、
オーディオ処理装置。
〔態様70〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様69記載の装置。
〔態様71〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様70記載の装置。
〔態様72〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様69記載の装置。
〔態様73〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに等しい、態様72記載の装置。
〔態様74〕
前記制御手段が、前記混合オーディオ・データを一つまたは複数のスピーカーを含むスピーカー・システムに、前記インターフェース・システムを介して提供するための手段を含む、態様69ないし73のうちいずれか一項記載の装置。
〔態様75〕
前記制御手段が:
モード切り換え指標を受領し;
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正するための手段を含む、
態様69ないし74のうちいずれか一項記載の装置。
〔態様76〕
前記修正が、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様75記載の装置。