特許7434505 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特許7434505メディア補償されたパススルーおよびモード切り換え

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-09

(45)【発行日】2024-02-20

(54)【発明の名称】メディア補償されたパススルーおよびモード切り換え

(51)【国際特許分類】

H04R 3/00 20060101AFI20240213BHJP

H04R 1/10 20060101ALI20240213BHJP

【ＦＩ】

H04R3/00 310

H04R1/10 101A

【請求項の数】 20

【外国語出願】

(21)【出願番号】P 2022191251

(22)【出願日】2022-11-30

(62)【分割の表示】P 2021170834の分割

【原出願日】2017-06-14

(65)【公開番号】P2023022215

(43)【公開日】2023-02-14

【審査請求日】2022-11-30

(31)【優先権主張番号】PCT/CN2016/085697

(32)【優先日】2016-06-14

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】62/357,127

(32)【優先日】2016-06-30

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】アレグザンダー，マーク

(72)【発明者】

【氏名】リー，チュンジエン

(72)【発明者】

【氏名】ランドー，ジョシュアブランドン

(72)【発明者】

【氏名】シーフェルト，アランジェイ．

(72)【発明者】

【氏名】ブラウン，シー．フィリップ

(72)【発明者】

【氏名】ブレーバールト，ディルクイェルーン

【審査官】西村純

(56)【参考文献】

【文献】米国特許出願公開第２０１３／０２５９２４４（ＵＳ，Ａ１）

【文献】特表２０１６－５０６６４０（ＪＰ，Ａ）

【文献】特表２０１６－５１０１９８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｒ１／００－３１／００

(57)【特許請求の範囲】

【請求項1】

メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データのメディア入力励起関数を計算する段階と；
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を計算する段階と；
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、人間のラウドネス知覚における非線形性をモデル化する特定ラウドネス関数に従って、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と；
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と；
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するメディア処理利得を決定する段階と；
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と；
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と；
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを含む、
方法。

【請求項2】

前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項１記載の方法。

【請求項3】

前記決定されたメディア処理利得を適用し、前記決定されたマイクロフォン処理利得を適用することが、前記マイクロフォン入力オーディオ・データの一つまたは複数の周波数帯域のレベルをブーストし、前記メディア入力オーディオ・データの一つまたは複数の周波数帯域のレベルを減衰させることに関わる、請求項１に記載の方法。

【請求項4】

前記混合オーディオ・データをヘッドセットのスピーカーに提供することをさらに含む、請求項１記載の方法。

【請求項5】

モード切り換え指標を受領する段階と；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正する段階とをさらに含む、
請求項１記載の方法。

【請求項6】

前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、請求項５記載の方法。

【請求項7】

前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、請求項６記載の方法。

【請求項8】

前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、請求項５記載の方法。

【請求項9】

前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、請求項５記載の方法。

【請求項10】

前記慣性センサー・データは、ヘッドセットの動きに対応する、請求項９記載の方法。

【請求項11】

ソフトウェアが記憶されている一つまたは複数の非一時的な媒体であって、前記ソフトウェアは：
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データのメディア入力励起関数を、周波数変化する知覚的重み付けを用いた、前記メディア入力オーディオ・データの時間平滑化されたパワーとして計算する段階と；
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を、周波数変化する知覚的重み付けを用いた、前記マイクロフォン入力オーディオ・データの時間平滑化されたパワーとして計算する段階と；
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と；
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と；
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するメディア処理利得を決定する段階と；
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用する周波数および時間変化するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と；
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と；
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行するよう一つまたは複数の装置を制御するための命令を含む、
一つまたは複数の非一時的な媒体。

【請求項12】

前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項１１記載の一つまたは複数の非一時的な媒体。

【請求項13】

モード切り換え指標を受領することと；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正することをさらに含む
請求項１１記載の一つまたは複数の非一時的な媒体。

【請求項14】

前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、請求項１３記載の一つまたは複数の非一時的な媒体。

【請求項15】

前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、請求項１４記載の一つまたは複数の非一時的な媒体。

【請求項16】

前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、請求項１３記載の一つまたは複数の非一時的な媒体。

【請求項17】

前記モード切り換え指標は少なくとも部分的には、ヘッドセットの動きに対応する慣性センサー・データに基づく、請求項１３記載の一つまたは複数の非一時的な媒体。

【請求項18】

インターフェース・システムおよび制御システムを有するオーディオ処理装置であって、前記制御システムは：
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データのメディア入力励起関数を、周波数変化する知覚的重み付けを用いた、前記メディア入力オーディオ・データの時間平滑化されたパワーとして計算する段階と；
前記マイクロフォン入力オーディオ・データのマイクロフォン入力励起関数を、周波数変化する知覚的重み付けを用いた、前記マイクロフォン入力オーディオ・データの時間平滑化されたパワーとして計算する段階と；
少なくとも部分的には前記マイクロフォン入力励起関数に基づき、人間のラウドネス知覚における非線形性をモデル化する特定ラウドネス関数に従って、前記マイクロフォン入力オーディオ・データのマイクロフォン入力特定ラウドネスを決定する段階であって、前記マイクロフォン入力特定ラウドネスは前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに対応する、段階と；
少なくとも部分的には前記メディア入力励起関数および前記マイクロフォン入力励起関数に基づき、前記メディア入力オーディオ・データの存在時における前記マイクロフォン入力オーディオ・データの前記知覚されるラウドネスに対応するマイクロフォン部分特定ラウドネスを決定する段階と；
メディア出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用するメディア処理利得を決定する段階と；
マイクロフォン出力オーディオ・データを生成するために前記メディア入力オーディオ・データに適用するマイクロフォン処理利得を決定する段階であって、前記メディア処理利得および前記マイクロフォン処理利得は、前記マイクロフォン入力特定ラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力特定ラウドネスと前記マイクロフォン部分特定ラウドネスとの間の第二の差より小さくなるように決定される、段階と；
前記決定されたメディア処理利得を前記メディア入力オーディオ・データに適用して前記メディア出力オーディオ・データを生成する段階と；
前記決定されたマイクロフォン処理利得を前記マイクロフォン入力オーディオ・データに適用して前記マイクロフォン出力オーディオ・データを生成する段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行することができる、オーディオ処理装置。

【請求項19】

前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、請求項１８記載のオーディオ処理装置。

【請求項20】

前記制御システムはさらに：
モード切り換え指標を受領する段階と；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、または混合するプロセスのうちの少なくとも一つを修正する段階とを実行するように構成されている、
請求項１８記載のオーディオ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はオーディオ・データの処理に関する。詳細には、本開示は、メディア・ストリームに対応するメディア入力オーディオ・データと、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データとを処理することに関する。

【背景技術】

【0002】

ヘッドフォンおよびイヤーバッドのようなオーディオ装置の使用がきわめて一般的になった。そのようなオーディオ装置は、ヘッドフォン・スピーカーと鼓膜との間の実質的に閉じた系を作り出すことができ、その中では外界からの音は大幅に減衰させられる。ヘッドフォンまたは他のそのようなオーディオ装置を介して外界からの音を減衰させることのさまざまな潜在的な利点がある。歪みの解消、フラットな等化の提供などである。しかしながら、そのようなオーディオ装置を身につけるとき、ユーザーは、接近する車の音、友人の声の音など、聞くことが有利であろう外界からの音を、聞くことができないことがありうる。

【発明の概要】

【課題を解決するための手段】

【0003】

本稿に開示されるいくつかの方法は、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することに関わってもよい。本稿での用法では、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は音楽、ポッドキャスト、映画サウンドトラックなどに対応するオーディオ・データを指すために使用されうる。しかしながら、これらの用語はそのような例に限定されるものではない。その代わり、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は、たとえば電話の会話の一部のような、再生のために受領される他の音に対応するオーディオ・データを指すために使われることもある。いくつかの方法は、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定することに関わってもよい。いくつかのそのような方法は、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することに関わってもよい。たとえば、いくつかの方法は、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整することに関わってもよい。いくつかのそのような方法は、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することに関わってもよい。いくつかのそのような例は、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供することに関わってもよい。

【0004】

いくつかの実装では、前記調整は、前記第一および第二の複数の周波数帯域のうちの前記一つまたは複数の周波数帯域にマイクロフォン利得およびメディア利得を適用することに関わってもよい。前記マイクロフォン利得および前記メディア利得の少なくとも一方は、マイクロフォンおよびメディア入力レベルの関数として計算されてもよい。関数は、所望されるマイクロフォン入力レベルの範囲にわたる次の特性のうちの少なくとも一つを有していてもよい：固定したマイクロフォン入力レベルについては、メディア入力レベルが増すとともにマイクロフォン利得が増す；あるいは固定したメディア入力レベルについては、マイクロフォン入力レベルが増すとともにマイクロフォン利得が減少する。

【0005】

いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。しかしながら、いくつかの例では、前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、いくつかの例では、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの例によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間の範囲内であってもよい。しかしながら、いくつかの事例では、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはメディアおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しくてもよい。

【0006】

いくつかの実装は、モード切り換え指標を受領（または判別）し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正することに関わってもよい。たとえば、いくつかの実装は、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正することに関わってもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。

【0007】

いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、頭の動きの指標および／または目の動きの指標に基づいていてもよい。いくつかのそのような実装では、モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づいていてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。いくつかの事例では、目の動きの指標はカメラ・データおよび／または脳電図データを含んでいてもよい。

【0008】

いくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、該音源の方向が頭の動きおよび／または目の動きと対応するかどうかを判定することに関わってもよい。代替的または追加的に、いくつかの例は、選択された音源方向のユーザーから指標を受領することに関わってもよい。いくつかのそのような例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別することに関わってもよい。

【0009】

他のいくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例は、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別することに関わってもよい。いくつかのそのような例は、少なくとも部分的には、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。

【0010】

代替的または追加的に、いくつかの例は、音源の速度を決定することに関わってもよい。いくつかのそのような例は、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。

【0011】

いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例は、マイクロフォン入力オーディオ・データの分類に関わってもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび／または公共アナウンスを含むかどうかを判定することに関わってもよい。モード切り換え指標は少なくとも部分的には該分類に基づいていてもよい。

【0012】

本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的な媒体に記憶されたソフトウェアおよび／またはそれらの組み合わせを介して実装されうる。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび制御システムを含む装置において実装されてもよい。インターフェース・システムは、ユーザー・インターフェースおよび／またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、制御システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。

【0013】

制御システムは、少なくとも一つのプロセッサ、たとえば汎用の単一または複数チップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）または他のプログラム可能な論理デバイス、離散的なゲートまたはトランジスタ論理、離散的なハードウェア・コンポーネントおよび／またはそれらの組み合わせを含んでいてもよい。

【0014】

いくつかの例によれば、制御システムは、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することができてもよい。いくつかの実装では、マイクロフォン・システムは二つ以上のマイクロフォンを含んでいてもよい。いくつかの実装では、本装置は、一つまたは複数のスピーカーを含むスピーカー・システムを含んでいてもよい。いくつかのそのような実装によれば、本装置はヘッドセットまたはヘッドセットのコンポーネントであってもよい。しかしながら、他の実装では、本装置は、マイクロフォン入力オーディオ・データおよび／またはメディア・ストリームに対応するメディア入力オーディオ・データを別の装置から受領するよう構成されてもよい。

【0015】

いくつかの例では、制御システムは、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定することができてもよい。制御システムは、たとえば、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することができてもよい。たとえば、制御システムは、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整することができてもよい。いくつかの例では、制御システムは、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することができてもよい。いくつかの例によれば、制御システムは、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供するができてもよい。

【0016】

【0017】

いくつかの例によれば、制御システムは、モード切り換え指標を受領（または判別）し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正することができてもよい。たとえば、制御システムは、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正することができてもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。

【0018】

いくつかの実装によれば、制御システムは、モード切り換え指標を、少なくとも部分的には、頭の動きの指標および／または目の動きの指標に基づいて決定できてもよい。いくつかのそのような実装では、本装置は、慣性センサー・システムを含んでいてもよい。いくつかのそのような実装によれば、制御システムは、モード切り換え指標を、少なくとも部分的には、該慣性センサー・システムから受領される慣性センサー・データに基づいて決定できてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。

【0019】

いくつかの事例では、本装置は、目の動きの検出システムを含んでいてもよい。いくつかのそのような実装によれば、制御システムは、目の動きの検出システムから受領されるデータに基づいて、モード切り換え指標を決定できてもよい。目の動きの検出システムは、いくつかの例では、一つまたは複数のカメラを含んでいてもよい。目の動きの検出システムは、いくつかの例では、一つまたは複数のEEG電極を含みうる脳電図（EEG: electroencephalogram）システムを含んでいてもよい。いくつかの実装によれば、EEG電極は、ユーザーの外耳道内および／またはユーザーの頭皮上に位置されるよう構成されてもよい。いくつかのそのような例によれば、制御システムは、EEGシステムの一つまたは複数のEEG電極から受領されるEEG信号の解析を通じてユーザーの目の動きを検出できてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には目の動きの指標に基づいてモード切り換え指標を決定できてもよい。目の動きの指標は、目の動きの検出システムからのカメラ・データおよび／またはEEGデータに基づいていてもよい。

【0020】

いくつかの例によれば、制御システムは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することができてもよい。いくつかのそのような例によれば、制御システムは、該音源の方向が頭の動きおよび／または目の動きと対応するかどうかを判定することができてもよい。代替的または追加的に、制御システムは、選択された音源方向のユーザーから指標を受領することができてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することができてもよい。制御システムは、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別することができてもよい。

【0021】

他のいくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別することができてもよい。いくつかのそのような例は、制御システムは、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。

【0022】

代替的または追加的に、制御システムは、音源の速度を決定できてもよい。いくつかのそのような例では、制御システムは、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することができてもよい。

【0023】

いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例では、制御システムは、マイクロフォン入力オーディオ・データの分類をすることができてもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび／または公共アナウンスを含むかどうかを判定することに関わってもよい。モード切り換え指標は少なくとも部分的には該分類に基づいていてもよい。

【0024】

いくつかの実装は、ソフトウェアが記憶されている一つまたは複数の非一時的な媒体を含んでいてもよい。いくつかの例では、非一時的な媒体は、フラッシュメモリ、ハードドライブおよび／または他のメモリ・デバイスを含みうる。ソフトウェアは、メディア・ストリームに対応するメディア入力オーディオ・データを受領し、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領するよう少なくとも一つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定し、マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定するための命令を含んでいてもよい。ソフトウェアは、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成するための命令を含んでいてもよい。たとえば、ソフトウェアは、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、レベルを調整するための命令を含んでいてもよい。いくつかの例では、ソフトウェアは、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成するための命令を含んでいてもよい。いくつかのそのような例は、該混合オーディオ・データを、ヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供することに関わってもよい。

【0025】

【0026】

いくつかの実装では、ソフトウェアは、モード切り換え指標を受領（または判別／決定）し、少なくとも部分的には該モード切り換え指標に基づいて一つまたは複数のプロセスを修正するための命令を含んでいてもよい。たとえば、いくつかの実装では、ソフトウェアは、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを、少なくとも部分的には前記モード切り換え指標に基づいて修正するための命令を含んでいてもよい。いくつかの事例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。いくつかのそのような例によれば、ソフトウェアは、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことを、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することによって行なうための命令を含んでいてもよい。

【0027】

いくつかの実装によれば、ソフトウェアは、モード切り換え指標を、少なくとも部分的には、頭の動きの指標および／または目の動きの指標に基づいて決定するための命令を含んでいてもよい。いくつかのそのような実装では、ソフトウェアは、モード切り換え指標を、少なくとも部分的には、慣性センサー・データに基づいていて決定するための命令を含んでいてもよい。慣性センサー・データは、たとえば、ヘッドセットの動きに対応していてもよい。いくつかの事例では、目の動きの指標はカメラ・データおよび／または脳電図データを含んでいてもよい。

【0028】

いくつかの例では、ソフトウェアは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、該音源の方向が頭の動きおよび／または目の動きと対応するかどうかを判定するための命令を含んでいてもよい。代替的または追加的に、いくつかの例では、ソフトウェアは、選択された音源方向のユーザーから指標を受領するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、該音源の位置が選択された音源方向と対応する場合に、該音源の位置がモード切り換え指標であることを判別するための命令を含んでいてもよい。

【0029】

いくつかの例は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別することに関わってもよい。いくつかの実装によれば、ソフトウェアは、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標があるかどうかを判別するための命令を含んでいてもよい。いくつかのそのような例は、少なくとも部分的には、該音源の動きの方向がマイクロフォンのうちの少なくとも一つに向かうものでありうるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。

【0030】

代替的または追加的に、いくつかの例では、ソフトウェアは、音源の速度を決定するための命令を含んでいてもよい。いくつかのそのような例では、ソフトウェアは、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別するための命令を含んでいてもよい。

【0031】

いくつかの実装によれば、モード切り換え指標は、少なくとも部分的には、マイクロフォン入力オーディオ・データにおける発話の認識に基づいていてもよい。いくつかのそのような例では、ソフトウェアは、マイクロフォン入力オーディオ・データの分類をするための命令を含んでいてもよい。たとえば、分類は、マイクロフォン入力オーディオ・データが自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび／または公共アナウンスを含むかどうかを判定することに関わってもよい。いくつかのそのような例では、ソフトウェアは、モード切り換え指標を、少なくとも部分的には該分類に基づいて決定するための命令を含んでいてもよい。

【0032】

本明細書に記載される主題の一つまたは複数の実装の詳細は、付属の図面および下記の説明に記載される。他の特徴、側面および利点は、該説明、図面および請求項から明白になるであろう。以下の図面の相対的な寸法は同縮尺ではないことがあることを注意しておく。

【図面の簡単な説明】

【0033】

【図1A】本開示のさまざまな側面を実装することのできる装置のコンポーネントの例を示すブロック図である。

【0034】

【図1B】スピーカー・システムおよび制御システムが異なる装置にある例を示す図である。

【0035】

【図2】図１Ａまたは図１Ｂに示されるもののような装置によって実行されうる方法の一例を概観する流れ図である。

【0036】

【図3】慣性センサー・システムを含むオーディオ装置の例を示す図である。

【0037】

【図4】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの一例を示す図である。

【0038】

【図5】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの別の例を示す図である。

【0039】

【図6】一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムに関する方位角および仰角の例を示す図である。

【0040】

【図7】一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される右および左のマイクロフォン・オーディオ信号の間の強度またはレベルの比（L/Rエネルギー比）と方位角の間の関係を示す曲線の例を示すグラフである。

【0041】

さまざまな図面における同様の参照符号および指示は同様の要素を示す。

【発明を実施するための形態】

【0042】

以下の説明は、本開示のいくつかの革新的な側面を記述する目的のためのある種の実装ならびにこれらの革新的な側面が実装されうるコンテキストの例に向けられている。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装は具体的なオーディオ装置に関して記述されるが、本稿の教示は他の既知のオーディオ装置ならびに将来導入されうるオーディオ装置に広く適用可能である。さらに、記載される実装は少なくとも部分的にはさまざまな装置およびシステムにおいてハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステムなどとして実装されうる。よって、本開示の教示は、図面に示されるおよび／または本稿に記載される実装に限定されることは意図されておらず、広い適用可能性をもつものである。

【0043】

上記のように、少なくともいくらかの度合いの音の隠蔽を提供するオーディオ装置は、オーディオ品質を制御する改善された能力のようなさまざまな潜在的な恩恵を提供する。他の恩恵は、外界からの潜在的にわずらわしいまたは気を散らす音の減衰を含む。しかしながら、そのようなオーディオ装置のユーザーは、接近する自動車の音、自動車の警笛、公共アナウンスなどといった、聞くことが有利であろう外界からの音を聞くことができないことがある。

【0044】

よって、一つまたは複数の型の音隠蔽管理が望ましいであろう。本稿に記載されるさまざまな実装は、ユーザーがヘッドフォン、イヤーバッドまたは他のそのようなオーディオ装置を介してオーディオ・データのメディア・ストリームを聞いている時間の間の音隠蔽管理に関わる。本稿での用法では、用語「メディア・ストリーム」、「メディア信号」および「メディア入力オーディオ・データ」は音楽、ポッドキャスト、映画サウンドトラックなどに対応するオーディオ・データならびに電話の会話の一部のような、再生のために受領される音に対応するオーディオ・データを指すために使用されうる。イヤーバッド実装のようないくつかの実装では、ユーザーは、メディア・ストリームに対応するオーディオ・データを聞いている間であっても、外界からの有意な量の音を聞くことができることがありうる。しかしながら、いくつかのオーディオ装置（たとえばヘッドフォン）は、外界からの音を有意に減衰させることができる。よって、いくつかの実装は、ユーザーに対してマイクロフォン・データを提供することに関わってもよい。マイクロフォン・データは外界からの音を提供しうる。

【0045】

ヘッドフォンのようなオーディオ装置の外部の音に対応するマイクロフォン信号がメディア信号と混合されてヘッドフォンのスピーカーを通じて再生されるとき、しばしばメディア信号がマイクロフォン信号をマスクして、外部の音は聴取者にとって聞こえないまたは聞き取れないものとなる。よって、マイクロフォンおよびメディア信号の両方を、混合されたときにマイクロフォン信号がメディア信号より大きく聞こえ、かつ、処理されたマイクロフォンおよびメディア信号の両方が知覚的に自然に聞こえるままになるよう、処理することが望ましい。この効果を達成するために、本稿で開示されるような、知覚的ラウドネスおよび部分ラウドネスのモデルを考えることが有用である。いくつかのそのような実装は、一つまたは複数の型のパススルー・モードを提供する。パススルー・モードでは、メディア信号は音量を下げられてもよく、ユーザーと他の人々との間の会話（またはマイクロフォン信号によって示される、ユーザーにとって関心のある他の外部音）がユーザーに提供されるオーディオ信号に混合されてもよい。いくつかの例では、メディア信号は一時的に無音にされてもよい。

【0046】

図１Ａは、本開示のさまざまな側面を実装できる装置のコンポーネントの例を示すブロック図である。この例では、装置１００は、インターフェース・システム１０５および制御システム１１０を含む。インターフェース・システム１０５は、一つまたは複数のネットワーク・インターフェース、一つまたは複数のユーザー・インターフェースおよび／または一つまたは複数の外部装置インターフェース（たとえば一つまたは複数のユニバーサルシリアルバス（USB）インターフェース）を含んでいてもよい。いくつかの例では、インターフェース・システム１０５は、制御システム１１０とメモリ・システム、たとえば図１Ａに示される任意的なメモリ・システム１１５との間の一つまたは複数のインターフェースを含んでいてもよい。しかしながら、制御システム１１０がメモリ・システムを含んでいてもよい。制御システム１１０はたとえば、汎用の単一チップまたは複数チップ・プロセッサ、デジタル信号プロセッサ（DSP）、特定用途向け集積回路（ASIC）、フィールドプログラマブルゲートアレイ（FPGA）または他のプログラム可能な論理デバイス、離散的なゲートまたはトランジスタ論理および／または離散的なハードウェア・コンポーネントを含んでいてもよい。いくつかの実装では、制御システム１１０は本稿に開示される方法を少なくとも部分的に実行できてもよい。

【0047】

本稿に記載される方法の一部または全部は、非一時的媒体に記憶される命令（たとえばソフトウェア）に従って一つまたは複数の装置によって実行されてもよい。そのような非一時的な媒体は、ランダムアクセスメモリ（RAM）デバイス、読み出し専用メモリ（ROM）デバイスなどを含むがそれに限られない、本稿に記載されるもののようなメモリ・デバイスを含んでいてもよい。非一時的な媒体はたとえば、図１Ａに示される任意的なメモリ・システム１１５に、および／または制御システム１１０内に存在してもよい。よって、本開示において記載される主題のさまざまな革新的な側面は、ソフトウェアが記憶されている非一時的な媒体において実装されることができる。ソフトウェアはたとえば、オーディオ・データを処理するよう少なくとも一つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、たとえば、図１Ａの制御システム１１０のような制御システムの一つまたは複数のコンポーネントによって実行可能であってもよい。

【0048】

いくつかの例では、装置１００は、図１Ａに示されるように、一つまたは複数のマイクロフォンを含む任意的なマイクロフォン・システム１２０、一つまたは複数のスピーカーを含む任意的なスピーカー・システム１２５および／または一つまたは複数の慣性センサーを含む任意的な慣性センサー・システム１３０を含んでいてもよい。マイクロフォン構成のいくつかの例が本稿に開示される。慣性センサーはたとえば、一つまたは複数の加速度計またはジャイロスコープを含んでいてもよい。

【0049】

しかしながら、いくつかの実装では、インターフェース・システム１０５および制御システム１１０が一つの装置にあってもよく、マイクロフォン・システム１２０、スピーカー・システム１２５および／または慣性センサー・システム１３０が一つまたは複数の他の装置にあってもよい。図１Ｂは、スピーカー・システムおよび制御システムが異なる装置にある例を示している。この例では、スピーカー・システム１２５はイヤーバッド１５０を含み、制御システムは、ユーザーの腕に取り付けられているスマートフォン１００ａにある。よって、スマートフォンは図１Ａに示される装置１００の例である。そのいくつかを後述する代替的な例では、スピーカー・システム１２５はヘッドフォンを含んでいてもよい。

【0050】

図２は、図１Ａまたは図１Ｂに示されるもののような装置によって実行されうる方法の一例を概観する流れ図である。本稿に記載される他の方法と同様に方法２００のブロックは、必ずしも示される順序で実行されるのではない。さらに、そのような方法は図示および／または記載されるより多くのまたはより少数のブロックを含んでいてもよい。

【0051】

この例では、方法２００のブロック２０５は、メディア・ストリームに対応するメディア入力オーディオ・データを受領することに関わる。オーディオ・データはたとえば、音楽、テレビ番組サウンドトラック、映画サウンドトラック、ポッドキャストなどに対応していてもよい。

【0052】

ここで、ブロック２１０は、少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領することに関わる。いくつかの実装によれば、マイクロフォン入力オーディオ・データは、一つまたは複数のローカルなマイクロフォンから受領されてもよく、それによりマイクロフォン入力オーディオ・データは外界からの音と対応する。いくつかのそのような例では、方法２００の制御システム・ブロック２０５は、インターフェース・システムを介して、メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データを受領することに関わる。

【0053】

図２の例では、ブロック２１５は、メディア入力オーディオ・データの複数の周波数帯域の各周波数帯域の第一のレベルを決定することに関わる。ここで、ブロック２２０は、マイクロフォン入力オーディオ・データの複数の周波数帯域の各周波数帯域の第二のレベルを決定することに関わる。用語「第一のレベル」および「第二のレベル」は本稿では、メディア入力オーディオ・データの周波数帯域のレベルを、マイクロフォン入力オーディオ・データの周波数帯域のレベルから区別するために使われている。具体的な状況に依存して、第一のレベルは、第二のレベルと実質的に異なることもあれば異ならないこともある。いくつかの例では、ブロック２１５および２２０は、時間領域から周波数領域への変換を行なうことに関わってもよい。しかしながら、代替的な例では、受領されたメディア入力オーディオ・データおよび／または受領されたマイクロフォン入力オーディオ・データはすでに時間領域から周波数領域に変換されていてもよい。

【0054】

この実装において、ブロック２２５は、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成することに関わる。この例によれば、レベルは少なくとも部分的には、知覚されるラウドネスに基づいて調整される。特に、いくつかの例は、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるよう、前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することに関わる。いくつかの詳細な例を後述する。

【0055】

ここで、ブロック２３０は、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成することに関わる。該混合オーディオ・データは、たとえばヘッドセットまたはイヤーバッドのようなオーディオ装置のスピーカーに提供されてもよい。

【0056】

いくつかの例では、前記調整のプロセスは、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルをブーストすることに関わるだけであってもよい。いくつかのそのような例は、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルだけを一時的にブーストすることに関わっていてもよい。しかしながら、いくつかの実装では、前記調整は、前記マイクロフォン入力オーディオ・データの複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの複数の周波数帯域のレベルを減衰させることとの両方に関わっていてもよい。

【0057】

いくつかの事例では、メディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスは、マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しくてもよい。いくつかの実装によれば、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスと、マイクロフォン信号をブーストするだけであることによって生成されるメディアおよびマイクロフォン・オーディオ・データの全ラウドネスとの間の範囲内であってもよい。あるいはまた、メディアおよびマイクロフォン出力オーディオ・データの全ラウドネスは、メディアおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しくてもよく、あるいはマイクロフォン信号をブーストするだけであることによって生成されるメディアおよびマイクロフォン・オーディオ・データの全ラウドネスに等しくてもよい。

【0058】

いくつかの実装によれば、ラウドネス・モデルが、励起信号Eに対して作用する特定ラウドネス関数L{.}によって定義される。周波数および時間の両方を通じて変化する励起信号は、関心対象のオーディオ信号によって耳の基底膜に沿って誘起されるエネルギーの時間変化する分布を表わすことが意図されている。実際上は、励起は、信号を離散的な周波数帯域bに分割するフィルタバンク分解を通じて計算される。各帯域の信号が時間tを通じて変化する。必須ではないが理想的には、周波数を通じたこれらの帯域の間隔は、ERB（Equivalent Rectangular Bandwidth［等価長方形帯域幅］）のような知覚的な周波数スケールに対応するものでありうる。このフィルタバンク分解を関数FB{.}によって表わすと、入力メディアおよびマイクロフォン信号x_med(t)およびx_mic(t)の複数帯域バージョンが、たとえば式1aおよび1bに示されるように、生成されうる：

【0059】

X_med(b,t)＝FB{x_med(t)} (1a)

【0060】

X_mic(b,t)＝FB{x_mic(t)} (1b)

【0061】

式1aにおいて、X_med(b,t)は、入力メディア信号の複数帯域バージョンを表わす。式1bにおいて、X_mic(b,t)は、入力マイクロフォン信号の複数帯域バージョンを表わす。いくつかの例では、図２のブロック２０５は、x_med(t)のような入力メディア信号の時間領域バージョンを受領することに関わってもよく、ブロック２１０は、x_mic(t)のような入力マイクロフォン信号の時間領域バージョンを受領することに関わってもよい。しかしながら、代替的な例では、図２のブロック２０５は、x_med(b,t)のような入力メディア信号の複数帯域バージョンを受領することに関わってもよく、ブロック２１０は、x_mic(b,t)のような入力マイクロフォン信号の複数帯域バージョンを受領することに関わってもよい。

【0062】

いくつかの実装によれば、次に、メディアおよびマイクロフォン信号の励起関数が計算される。いくつかのそのような例では、メディアおよびマイクロフォン信号の励起は、式2aおよび2bに示されるように、周波数変化する知覚的な重みW(b)を適用された、時間平滑化された、複数帯域信号のパワーとして計算されてもよい：

【0063】

E_med(b,t)＝λE_med(b,t－1)＋(1－λ)W(b)|X_med(b,t)|² (2a)

【0064】

E_mic(b,t)＝λE_mic(b,t－1)＋(1－λ)W(b)|X_mic(b,t)|² (2b)

【0065】

いくつかの実装では、W(b)はヘッドフォン、外耳および中耳の伝達関数を考慮に入れてもよい。式2aにおいて、E_med(b,t)はメディア信号の励起を表わし、式2bにおいて、E_mic(b,t)はマイクロフォン信号の励起を表わす。式2aおよび2bは、平滑化係数λによってパラメータ化される単純な単極（one-pole）平滑化関数に関わるが、他の平滑化フィルタも可能である。式2aは、図２のブロック２１５のプロセスの一例を与え、式2bは、ブロック２２０のプロセスの一例を与える。

【0066】

励起信号が生成されたら、たとえば式3aおよび3bに示されるように、特定ラウドネス関数（specific loudness function）L{.}が適用されて、メディアおよびマイクロフォンの特定ラウドネスを与える：

【0067】

L_med(b,t)＝L{E_med(b,t} (3a)

【0068】

L_mic(b,t)＝L{E_mic(b,t} (3b)

【0069】

式3aにおいて、L_med(b,t)はメディア信号に対応する特定ラウドネス関数を表わし、式3bにおいて、L_mic(b,t)はマイクロフォン信号に対応する特定ラウドネス関数を表わす。特定ラウドネス関数は、人間によるラウドネスの知覚におけるさまざまな非線形性をモデル化するものであり、結果として得られる特定ラウドネス信号は、周波数を横断した知覚されるラウドネスの時間変化する分布を記述する。よって、特定ラウドネス関数L_mic(b,t)は、図２のブロック２２５を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネス」の一例を与える。

【0070】

メディアおよびマイクロフォン・オーディオ・データについてのこれらの特定ラウドネス信号は、メディア・ストリームおよびマイクロフォンからの音の、それぞれが単独で聞かれたときの知覚されるラウドネスを表わす。しかしながら、二つの信号が混合されると、マスキングが起こることがある。具体的には、一方の信号が他方よりずっと大きい場合、それは小さいほうの信号をマスクしてしまい、それにより、単独で聞かれたときの該小さいほうの信号の知覚されるラウドネスに対して、該小さいほうの信号の知覚されるラウドネスを低下させる。

【0071】

このマスキング現象は、二つの入力を取る部分ラウドネス関数（partial loudness function）PL{.,.}を用いてモデル化されうる。第一の入力は関心対象の信号の励起であり、第二の入力は競合信号の励起である。部分ラウドネス関数は、競合信号の存在時に関心対象の信号の知覚されるラウドネスを表わす部分特定ラウドネス信号PLを返す。競合信号の励起が0であれば、関心対象の信号の部分特定ラウドネスはその特定ラウドネスに等しく、PL＝Lとなる。干渉信号の励起が大きくなるにつれて、マスキングのためにPLはL未満に減少する。しかしながら、この低下が有意であるためには、競合信号励起のレベルが、関心対象の信号の励起に近いか、それより大きい必要がある。関心対象の信号の励起が競合信号励起より有意に大きい場合には、関心対象の信号の部分特定ラウドネスはその特定ラウドネスに近似的に等しく、

【数1】

となる。

【0072】

メディア信号の存在時にマイクロフォン信号の可聴性を維持するという目的のために、マイクロフォンを関心対象信号と考え、メディアを競合信号と考えてもよい。この呼称を用いると、マイクロフォンの部分特定ラウドネスは、たとえば式4に示されるように、マイクロフォンおよびメディアの励起から計算される：

【0073】

PL_mic(b,t)＝PL{E_mic(b,t),E_med(b,t)} (4)

【0074】

一般に、メディアの存在時のマイクロフォンの部分特定ラウドネスPL_mic(b,t)は、単独での特定ラウドネスL_mic(b,t)より小さい。メディアと混合されたときのマイクロフォン信号の可聴性を維持するために、マイクロフォンおよびメディア信号は、処理されたメディア信号の存在時の処理されたマイクロフォン信号の部分特定ラウドネスが、単独でのマイクロフォン信号の可聴性を表わすL_mic(b,t)により近くなるよう処理されてもよい。具体的には、マイクロフォン特定ラウドネスL_mic(b,t)と処理されたマイクロフォン部分特定ラウドネス〔￣付きのPL_mic(b,t)〕との間の差が、マイクロフォン特定ラウドネスL_mic(b,t)と未処理のマイクロフォン部分特定ラウドネスPL_mic(b,t)との間の差より小さくなるよう、周波数および時間変化するマイクロフォンおよびメディア処理利得G_mic(b,t)およびG_med(b,t)が計算されてもよい：

【0075】

【数2】

【0076】

式5bの左辺が、図２のブロック２２５を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア出力オーディオ・データの存在時のマイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差」の一例を与える。

【0077】

同様に、式5bの右辺が図２のブロック２２５を参照して上記した「マイクロフォン入力オーディオ・データの知覚されるラウドネスとメディア入力オーディオ・データの存在時のマイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差」の一例を与える。

【0078】

ひとたびこれらの利得が計算されたら、処理されたメディアおよびマイクロフォン信号が、たとえば下記に示されるように、対応する利得修正されたフィルタバンク信号に合成フィルタバンクまたは逆変換を適用することによって、生成されうる：

【0079】

【数3】

【0080】

式6aのy_med(t)は、図２のブロック２２５を参照して上記した「メディア出力オーディオ・データ」の一例を与える。

【0081】

同様に、式6bのy_mic(t)は、図２のブロック２２５を参照して上記した「マイクロフォン出力オーディオ・データ」の一例を与える。

【0082】

いくつかの例では、最終的な出力信号は、処理されたメディアおよびマイクロフォン信号を混合することによって生成されてもよい：

【0083】

y(t)＝y_med(t)＋y_mic(t) (7)

【0084】

よって、式7は、図２のブロック２３０を参照して上記した「メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成すること」の一例を与える。

【0085】

必要とされるマイクロフォンおよびメディア処理利得を計算するために、競合信号励起の存在時に関心対象の信号の個別の部分特定ラウドネスに対応する関心対象の信号の励起を返す逆部分特定ラウドネス関数を定義することが有用でありうる：

【0086】

PL^-1{PL_int,E_comp}＝E_int (8a)

【0087】

ただし、

【0088】

PL_int＝PL{E_int,E_comp} (8b)

【0089】

式8aおよび8bにおいて、PL^-1は、逆部分特定ラウドネス関数を表わし、PL_intは関心対象信号（signal of interest）の部分特定ラウドネスを表わし、E_intは関心対象信号の励起を表わし、E_compは競合信号（competing signal）の励起を表わす。

【0090】

式5によって記述される実装の全体的な目的を満たすための解決策の一例は、たとえば下記に示されるように、処理されたマイクロフォン部分特定ラウドネスを、単独でのマイクロフォンの特定ラウドネスと等しくすることである：

【0091】

【数4】

【0092】

この条件を設定することは、処理されたメディアの存在時の処理されたマイクロフォンのラウドネスが、もとの未処理のマイクロフォン自身のラウドネスと同じであることを定める。換言すれば、マイクロフォンの知覚されるラウドネスは、メディア信号の再生によらず、一貫したままであるべきである。式9および式3bを式5aに代入し、式8aおよび8bで与えられる逆部分特定ラウドネスの定義を使うと、マイクロフォン処理利得G_mic(b,t)についての対応する解が得られる：

【0093】

【数5】

【0094】

メディア信号が未処理のままに留まる、つまりG_med(b,t)＝1という制約条件を課すと、(10)に見られるように既知のマイクロフォンおよびメディア励起信号から計算される、マイクロフォン処理利得への一意的な解が得られる。この具体的な解は、メディア信号には手をつけずに、マイクロフォン信号のみをブーストしてその知覚されるラウドネスを維持することに関わることができる。よって、マイクロフォン利得に対するこの解は、G_boost(b,t)と称される。

【0095】

解G_boost(b,t)はマイクロフォン信号の可聴性をメディアより上に維持するものの、実際上は、組み合わされた処理されたマイクロフォンおよびメディアの音は、うるさすぎるまたは不自然に聞こえることがありうる。これを避けるために、式10に対して、マイクロフォンおよびメディア利得に対する一意的な解を与えるための異なる制約条件を課すことが望ましいことがありうる。一つのそのような代替は、混合の全ラウドネスが、何らかの目標に等しくなるよう制約することである。未処理のマイクロフォンおよびメディア混合の全ラウドネスL_tot(b,t)は、マイクロフォンおよびメディア励起の和に適用したラウドネス関数によって与えられてもよい：

【0096】

L_tot(b,t)＝L{E_mic(b,t)＋E_med(b,t)} (11a)

【0097】

メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの処理された混合の全ラウドネス〔￣付きのL_tot(b,t)〕は、同様の仕方で定義されうる：

【0098】

【数6】

【0099】

ブーストのみの解の全ラウドネスは次のように表わされてもよい：

【0100】

【数7】

【0101】

処理された混合の全体的なラウドネスを下げるために、処理された混合の全ラウドネスは、たとえば下記のように、ブーストのみの解の全ラウドネスと未処理の混合の全ラウドネスとの間のどこかにあると規定してもよい：

【0102】

【数8】

【0103】

式12を式10と組み合わせると、マイクロフォンおよびメディア利得の両方について一意的な解が指定される。α＝1であるとき、結果として得られる解はブーストのみの解と等価であり、α＝0のときは、混合の全ラウドネスは、メディア信号をさらに減衰させることによって未処理の混合と同じままとなる。αが1と0の間にあるときは、混合の全ラウドネスは、これら二つの極端の間のどこかにある。にも関わらず、式10の適用は、処理されたマイクロフォン信号の部分ラウドネスがマイクロフォン信号単独のラウドネスに等しいままであることを保証し、それによりメディア信号の存在時におけるその可聴性を維持する。

【0104】

ヘッドフォンおよびイヤーバッドのような通常のオーディオ装置は典型的には、ラップトップ、コンピュータ、携帯電話、携帯オーディオ・プレーヤーまたはタブレットからのメディア入力オーディオ・データがユーザーの鼓膜に対して再生されるメディア再生モードという一つの作動モードをもつ。いくつかの例では、そのようなメディア再生モードは、周囲の音または背景ノイズからの干渉をなくす、または少なくとも減らすために能動ノイズ打ち消し技法を使ってもよい。

【0105】

本稿に開示されるいくつかのオーディオ方法は、パススルー・モードのような追加的なモードに関わってもよい。いくつかのそのようなパススルー・モードは上記した。いくつかのパススルー・モードの例において、メディア・オーディオ信号は、音量を下げられたり、無音化されたりしてもよく、ユーザーと他の人々との間の会話（またはユーザーにとって関心のある他の外部の音）が、ヘッドフォンまたはイヤーバッドのようなオーディオ装置のマイクロフォンによって補足されて、再生のために出力オーディオに混合されてもよい。いくつかのそのような実装では、ユーザーは、メディア再生を停止させるおよび／またはオーディオ装置をユーザーの耳から取り外す必要なしに、会話に参加することができうる。よって、いくつかのそのようなモードはここでは「会話モード」と称されることがある。いくつかの例では、動作モードを会話モードに変更するために、たとえば上記のインターフェース・システム１０５のユーザー・インターフェースを介してユーザーがコマンドを与えてもよい。そのようなコマンドは、本稿で記載される「モード切り換え指標（mode-switching indication）」の一例である。

【0106】

しかしながら、オーディオ装置のための他の型の動作モード切り換えが本稿で開示される。いくつかのそのような実装によれば、モード切り換えは、ユーザー入力を必要としなくてもよく、むしろ自動的であってもよい。一つまたは複数の型のオーディオ処理が、モード切り換え指標の受領時に修正されてもよい。いくつかのそのような例によれば、図２を参照して上記した受領する、決定する、生成するまたは混合するプロセスのうちの一つまたは複数が、前記モード切り換え指標に従って修正されてもよい。いくつかの例では、前記修正は、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わっていてもよい。たとえば、前記修正は、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することによって、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わってもよい。

【0107】

さまざまな型のモード切り換え指標が発明者によって考えられている。いくつかの例では、モード切り換え指標は少なくとも部分的には、頭の動きの指標に基づいていてもよい。代替的または追加的に、モード切り換え指標は少なくとも部分的には、目の動きの指標に基づいていてもよい。いくつかの例では、頭の動きは慣性センサー・システムによって検出されてもよい。よって、いくつかの実装では、モード切り換え指標は少なくとも部分的には、慣性センサー・システムからの慣性センサー・データに基づいていてもよい。慣性センサー・データは、たとえば、ユーザーが身につけているヘッドフォンの動きを示していてもよい。

【0108】

図３は、慣性センサー・システムを含むオーディオ装置の例を示している。この例では、オーディオ装置はヘッドセット３０５である。慣性センサー・システム３１０は一つまたは複数の慣性センサー装置、たとえば一つまたは複数のジャイロスコープ、一つまたは複数の加速度計などを含む。慣性センサー・システム３１０は、慣性センサー・データを制御システムに提供することができる。この例において、制御システムの少なくとも一部は、本稿の他所で記述される装置１００の例である装置１００ｂのコンポーネントである。代替的または追加的に、制御システムの少なくとも一部は、ヘッドセット３０５のようなオーディオ装置のコンポーネントであってもよい。慣性センサー・データは、ヘッドセット３０５の動きを示すことができ、よって、ユーザーがヘッドセット３０５を身につけているときにユーザーの頭の動きを示すことができる。

【0109】

図３に示される例では、装置１００ｂは、少なくとも一つのカメラ３５０をもつカメラ・システムを含む。いくつかの例では、カメラ・システムは二つ以上のカメラを含んでいてもよい。いくつかの実装では、（たとえば装置１００ｂの）制御システムは、ユーザーの目の動きおよび／またはユーザーが現在見ている方向を、少なくとも部分的にはカメラ・システムからのカメラ・データに基づいて決定することができてもよい。代替的または追加的に、制御システムは、ユーザーの目の動きを脳電図データに基づいて決定することができてもよい。そのような脳電図データは、たとえば、ヘッドセット３０５の脳電図システムから受領されてもよい。いくつかの実装では、ヘッドセット３０５（またはイヤーバッドのような別のオーディオ装置）は、ユーザーの外耳道におよび／またはユーザーの頭皮上に位置されるよう構成されている一つまたは複数のEEG電極を含んでいてもよい。ユーザーの目の動きは、該一つまたは複数のEEG電極からのEEG信号の解析を通じて決定されてもよい。

【0110】

この例では、ヘッドセット３０５は、ヘッドフォン・ユニット３２５ａおよび３２５ｂを含み、そのそれぞれはスピーカー・システム１２５の一つまたは複数のスピーカーを含む。いくつかの例では、ヘッドフォン・ユニット３２５ａおよび３２５ｂのそれぞれは、一つまたは複数のEEG電極を含んでいてもよい。いくつかのそのような例によれば、ヘッドフォン・ユニット３２５ａおよび３２５ｂのそれぞれは、少なくとも一つのEEG電極を前側に含んでいてもよく、それによりヘッドセット３０５が装着されたときに該EEG電極はユーザー３７０の目の近くに位置されうる。図３の例では、ヘッドセット３０５が装着されたとき、ヘッドフォン・ユニット３２５ａのEEG電極３７５ａはユーザー３７０の右目の近くに位置されることができ、ヘッドフォン・ユニット３２５ｂのEEG電極３７５ｂは左目３８０の近くに位置されることができる。いくつかのそのような実装では、EEG電極３７５ａとEEG電極３７５ｂとの間の電位差が、目の動きを検出するために使われてもよい。この例では、ヘッドフォン・ユニット３２５ａおよび３２５ｂはマイクロフォン３２０ａおよび３２０ｂをも含む。いくつかの例では、装置１００ｂまたはヘッドセット３０５の制御システムは、少なくとも部分的にはマイクロフォン３２０ａおよび３２０ｂのような二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を決定することができてもよい。いくつかのそのような例によれば、制御システムは、少なくとも部分的にはマイクロフォン３２０ａからの第一のマイクロフォン・オーディオ信号とマイクロフォン３２０ｂからの第二のマイクロフォン・オーディオ信号との間の強度差に基づいて、音源位置に対応する方向を決定することができてもよい。いくつかの例では、「強度差」は、第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号との間の強度またはレベルの比であってもよく、またはそれと対応していてもよい。

【0111】

代替的または追加的に、制御システムは、少なくとも部分的にはマイクロフォン３２０ａからの第一のマイクロフォン・オーディオ信号とマイクロフォン３２０ｂからの第二のマイクロフォン・オーディオ信号との間の時間差に基づいて、音源位置に対応する方向を決定することができてもよい。音源位置に対応する方位角の決定および音源位置に対応する仰角の決定のいくつかの例を下記で与える。

【0112】

いくつかの例では、制御システムは、音源の方向が頭の動きまたは目の動きと対応するかどうかを判定することができてもよい。そのような実装は潜在的に有利である。というのも、イベントのかかる組み合わせは、ユーザーの注意が、メディア・ストリームの内容から現実世界における関心対象イベントに一時的に移ったことを示唆するからである。たとえば、マイクロフォン入力オーディオ・データを介して周囲音を能動的にパススルー〔通過〕させることによって、あるいはヘッドセット３０５によって提供される不完全な音の隠蔽に起因する周囲音の受動的な漏れのため、ユーザーにとって周囲音のいくらかの可聴性があってもよい。いくつかの事例では、ユーザーは、周囲音によって示される活動があることを判別できることがあるが、周囲音は、モード切り換えかヘッドセット３０５を外すことなしに会話をするには十分に聞き取り可能ではないことがありうる。この周囲音および／または視覚的情報に基づいて、ユーザーはしばしば、注意を向ける必要があるイベントがあると判断できる。そのような場合、ユーザーの自然な反応は、音源の方向に頭を向けるおよび／または視線を投じることであろう。特定の方向からのオーディオ・イベントに続いてすぐに、あるいはほとんどすぐに音のイベントの方向に頭の回転がある場合には特に、オーディオ・イベントが関心のあるイベントと対応していると想定することが理にかなっている。

【0113】

よって、制御システムが音源の方向が頭の動きまたは目の動きに対応するかどうかを判定できるいくつかの実装では、そのような判定は、モード切り換え指標の例となる。いくつかの例では、制御システムは、少なくとも部分的には該モード切り換え指標に基づいて（図２を参照して上記した）受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正してもよい。たとえば、制御システムは、メディア出力オーディオ・データのラウドネスに対するマイクロフォン出力オーディオ・データの相対ラウドネスを増してもよい。いくつかのそのような例では、マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、メディア入力オーディオ・データを抑制することまたはメディア・ストリームを一時停止することに関わってもよい。

【0114】

計算上の簡単のため、マイクロフォン・システムの配向と慣性センサー・システムの配向との間の何らかの対応があることが有利であることがある。図３に示した例では、マイクロフォン３２０ａおよび３２０ｂは、慣性センサー・システム３１０の座標系３３５の一つの軸に平行に整列されている。この例では、軸３４５はマイクロフォン３２０ａおよび３２０ｂを通る。ここで、座標系３３５のy軸がヘッドバンド３３０と整列させられ、軸３４５に平行である。この例では、ヘッドセット座標系９０５ａのz軸は、ヘッドバンド３３０の頂部および慣性センサー・システム３１０の頂部に対して鉛直方向に整列されている。この実装では、座標系３３５はx,y,z座標系であるが、他の実装は別の座標系、たとえば極座標系、球面座標系または円筒座標系を使ってもよい。

【0115】

他の型のモード切り換えは、少なくとも部分的には、音源の動きの方向に基づいていてもよい。音源がユーザーのほうに動いていることが判別される場合、これは安全上の理由のため重要であることがある。例は、接近する自動車のノイズ、足音、走っている人々からの叫びなどを含む。

【0116】

よって、いくつかの実装は、少なくとも部分的には二つ以上のマイクロフォン（たとえば図３に示されるマイクロフォン３２０ａおよび３２０ｂ）からのマイクロフォン・データに基づいて音源の動き方向を判別することに関わってもよい。そのような実装は、少なくとも部分的には音源の動きの方向に基づいてモード切り換え指標〔指示〕があるかどうかを判定することに関わってもよい。動き方向がユーザーが所有する装置のマイクロフォンの一つまたは複数のほうに向いている場合には、これは、その音を発しているオブジェクトがユーザーのほうに動いていることの指標である。たとえば、ユーザーのほうに向かう動き方向は、音源がマイクロフォンに近づくにつれての音源の見かけの音量の増大に従って判別されてもよい。したがって、いくつかの実装は、少なくとも部分的には音源の動きの方向がマイクロフォンのうちの少なくとも一つのほうに向いているとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。

【0117】

音源がユーザーに接近しつつあり、所定の速度より速い速度で動いている場合、これはユーザーに対する潜在的な危険という点で、一層有意でありうる。よって、いくつかの実装は、音源の速度を決定し、少なくとも部分的には該音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別することに関わってもよい。たとえば、自動車のような接近する音源の速さが自動車ノイズの音量変化を測定し、それを三次パワー増大曲線と比較することによって決定されることができる。パワーは、音源とマイクロフォンとの間の距離の減少の三乗で増大するからである。

【0118】

いくつかのモード切り換え実装は、ユーザーにとって関心のある人物を識別することに関わってもよい。いくつかの例では、関心のある人物は、間接的に、たとえば該関心のある人物の現在位置に対応する音源の方向に従って、識別されてもよい。音源の方向は、いくつかの事例では、該関心のある人物が位置している、ユーザーに隣接する位置に対応していてもよい。たとえば、キャビン内での映画再生の使用事例について、ユーザーの選択された音源方向は、ユーザーの友人が座っている、ユーザーの左または右のシートと対応していてもよい。制御システムは、音が該選択された音源方向から受領されるときの事例を判別し、そのような事例を、モード切り換え指標として識別することができてもよい。いくつかのそのような例によれば、制御システムは、選択された音源方向からの音を通過させ、一方で他の方向からの音は通されないようにするよう、ヘッドフォンのようなオーディオ装置を制御することができてもよい。

【0119】

したがって、いくつかの実装は、選択された音源方向のユーザーからの指標を受領することに関わってもよい。そのような実装は、少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を決定することに関わってもよい。いくつかのそのような実装は、音源の位置が選択された音源方向に対応する場合に、音源の位置がモード切り換え指標であることを判別することに関わってもよい。

【0120】

いくつかのモード切り換え実装は、マイクロフォン入力オーディオ・データの発話認識および／または発話として認識されるマイクロフォン入力オーディオ・データに基づくキーワードの識別に関わってもよい。たとえば、あらかじめ決定されたキーワードがモード切り換え指標であってもよい。そのようなキーワードは、たとえば、緊急事態、ユーザーに対する潜在的な危険など、たとえば「助けて！（Help!）」または「あぶない！（Watch out!）」に対応してもよい。

【0121】

いくつかのモード切り換え実装は、マイクロフォン入力オーディオ・データを分類し、モード切り換え指標を少なくとも部分的には該分類に基づかせることに関わってもよい。いくつかのそのようなモード切り換え実装は、ユーザーにとって関心のある人物の声（本稿では事前選択された人の声とも称される）を認識することに関わってもよい。代替的または追加的に、前記分類は、マイクロフォン入力オーディオ・データが、ユーザーにとって潜在的な重要性のある別の音、たとえば自動車の警笛、接近する乗り物の音、悲鳴、叫び、事前選択された人の声、事前選択されたキーワードおよび／または公共アナウンスを示すかどうかを判定することに関わってもよい。

【0122】

図３に示されるマイクロフォン配置は満足のいく結果を提供することができるが、他の実装は他のマイクロフォン配置を含んでいてもよい。図４は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムの一例を示している。この例では、マイクロフォン・システム４００ａは、それぞれがマイクロフォン・カプセルを含む、垂直方向に積層したマイクロフォン４０５ａおよび４０５ｂをもつXYステレオ・マイクロフォン・システムを含む。マイクロフォン４０５ａと４０５ｂの間の既知の垂直方向オフセットをもつことは、対応するオーディオ信号の到着の間の時間差の検出を許容するので、潜在的に有利である。そのような時間差は、たとえば下記のように、音源の仰角を決定するために使われてもよい。

【0123】

この実装では、マイクロフォン４０５ａはマイクロフォン・カプセル４１０ａを含み、マイクロフォン４０５ｂはマイクロフォン・カプセル４１０ｂを含む。後者はマイクロフォン４０５ｂの配向のため図４では見えていない。マイクロフォン・カプセル４１０ａの長手軸４１５ａは、この例では紙面から出入りする方向に延在する。

【0124】

図４に示される例では、xyz座標系がマイクロフォン・システム４００ａに関して示されている。この例では、座標系のz軸は垂直軸である。よって、この例では、マイクロフォン・カプセル４１０ａの長手軸４１５ａとマイクロフォン・カプセル４１０ｂの長手軸４１５ｂとの間の垂直方向オフセット４２０ａはz軸に沿って延びる。しかしながら、図４に示されるxyz座標系の配向および本稿に開示される他の座標系の配向は単に例として示されている。他の実装では、xまたはy軸が垂直軸であってもよい。さらに他の実装では、xyz座標系の代わりに円筒または球面座標系が参照されてもよい。

【0125】

この実装では、マイクロフォン・システム４００ａは、ヘッドセット、スマートフォンなどといった第二の装置に取り付けられることができる。いくつかの例では、マイクロフォン・システム４００ａの座標系は、図３に示される慣性センサー・システム３１０のような慣性センサー・システムの座標系と一致していてもよい。ここで、架台４２５は、第二の装置と結合するよう構成される。この例では、マイクロフォン・システム４００ａが架台５２５を介して第二の装置と物理的に接続された後、マイクロフォン・システム４００ａと第二の装置との間に電気的接続が形成されてもよい。よって、マイクロフォン・システム４００ａによって捕捉される音に対応するオーディオ・データは、記憶、さらなる処理、再生などのために第二の装置に伝達されてもよい。

【0126】

図５は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムのもう一つの例を示している。マイクロフォン・システム４００ｂは、それぞれが図５では見えないマイクロフォン・カプセルを含む、垂直方向に積層したマイクロフォン４０５ｅおよび４０５ｆを含んでいる。マイクロフォン４０５ｅはマイクロフォン・カプセル４１０ｅを含み、マイクロフォン４０５ｆはマイクロフォン・カプセル４１０ｆを含む。この例では、マイクロフォン・カプセル４１０ｅの長手軸４１５ｅおよびマイクロフォン・カプセル４１０ｆの長手軸４１５ｆは、xy平面内に延在する。

【0127】

ここでは、z軸は紙面から出入りする方向に延在する。この例では、z軸は長手軸４１５ｅと長手軸４１５ｆの交点４１０を通る。この幾何学的関係は、マイクロフォン・システム４００ｂのマイクロフォンが「同軸である」（coincident）ことの一つの例である。長手軸４１５ｅと長手軸４１５ｆはz軸に沿って垂直方向にオフセットされているが、このオフセットは図５では見えない。長手軸４１５ｅと長手軸４１５ｆは角度α離れており、αは具体的な実装に依存して90度、120度または他の角度でありうる。

【0128】

この例では、マイクロフォン４０５ｅおよびマイクロフォン４０５ｆは指向性マイクロフォンである。マイクロフォンの指向性の度合いは、「極性パターン」によって表わされてもよい。極性パターンは、マイクロフォンの長手軸に対する異なる角度で到達する音に対してマイクロフォンがどのくらい敏感であるかを示す。図５に示される極性パターン４０５ａおよび４０５ｂは、その点から所与の音圧レベル（SPL: sound pressure level）が生成される場合にマイクロフォンにおいて同じ信号レベル出力を生成するような点の軌跡を表わしている。この例では、極性パターン４０５ａおよび４０５ｂはカーディオイド極性パターンである。代替的な実装では、マイクロフォン・システムは、同軸で垂直方向に積層した、スーパーカーディオイドまたはハイパーカーディオイド極性パターンまたは他の極性パターンをもつマイクロフォンを含んでいてもよい。

【0129】

マイクロフォンの指向性は、本稿では時に、「前方」領域および「後方」領域に言及するために使用されることがある。図５に示される音源４１５ａは、本稿で前方領域と称される領域に位置している。音源４１５ａは、長手軸４１５ｅおよび４１５ｆに沿っての極性パターンのより大きな広がりによって示されるように、マイクロフォンが相対的により敏感である領域に位置されているからである。音源４１５ｂは、マイクロフォンが相対的にそれほど敏感でない領域であるため本稿で後方領域と称される領域に位置している。

【0130】

音源方向に対応する方位角θの決定は、少なくとも部分的には、マイクロフォン・カプセル４１０ｅによって捕捉される音とマイクロフォン・カプセル４１０ｆによって捕捉される音との間の音圧レベルの差（これは本稿では強度または振幅の差と称されることもある）に基づいていてもよい。いくつかの例を後述する。

【0131】

図６は、一対の同軸で垂直方向に積層した指向性マイクロフォンを含むマイクロフォン・システムに関する方位角および仰角の例を示している。簡単のため、この例では、マイクロフォン・システム４００ｄのマイクロフォン・カプセル４１０ｇおよび４１０ｈのみが、支持構造、電気接続などはなしに、示されている。ここで、マイクロフォン・カプセル４１０ｇの長手軸４１５ｇとマイクロフォン・カプセル４１０ｈの長手軸４１５ｈの間の垂直方向のオフセット４２０ｃはz軸に沿って延在する。音源５１５ｂのような音源の位置に対応する方位角は、この例ではxy平面に平行な平面内で測られる。この平面は、本稿では「方位角平面」と称されることがある。よって、仰角は、この例ではxy平面に垂直な平面内で測られる。

【0132】

図７は、一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される右および左のマイクロフォン・オーディオ信号の間の強度またはレベルの比（L/Rエネルギー比）と方位角の間の関係を示す曲線の例を示すグラフである。右および左のマイクロフォン・オーディオ信号は、本稿の他所で言及される第一および第二のマイクロフォン・オーディオ信号の例である。この例では、曲線７０５は、方位角平面内で90度離れた長手軸をもつ、一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。

【0133】

たとえば図５を参照するに、長手軸４１５ｅおよび４１５ｆは方位角平面内で角度α離れている。図５に示される音源５１５ａは方位角θにあり、これはこの例では長手軸４１５ｅと長手軸４１５ｆの間の中間である軸４０２から測られる。曲線７０５は、αが90度である場合の、同様の一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。曲線７１０は、αが120度である場合の、別の一対の同軸で垂直方向に積層した指向性マイクロフォンによって生成される信号についての方位角とL/R比との間の関係に対応する。

【0134】

図７に示される例では、曲線７０５および７１０はいずれも方位角0度において変曲点をもつことが観察されうる。方位角0度はこの例では、左マイクロフォンの長手軸と右マイクロフォンの長手軸との間の中間にある軸に沿って音源が位置される方位角に対応する。図７に示されるように、方位角－130度または－120度において極大が生じる。図７に示される例では、曲線７０５および７１０は、それぞれ方位角130度および120度に対応する極小をももつ。これらの極小の位置は部分的には、αが90度であるか120度であるかに依存するが、マイクロフォンの指向性パターンにも依存する。図７に示される極大および極小の位置は一般に、図５に示される極性パターン５０５ａおよび５０５ｂによって示されるもののようなマイクロフォン指向性パターンに対応する。極大および極小の位置は、異なる指向性パターンをもつマイクロフォンについてはいくらか異なってくる。

【0135】

図６を再び参照するに、音源５１５ｃは、仰角φでマイクロフォン・システム４００ｄの上方に位置していることが見て取れる。マイクロフォン・カプセル４１０ｇとマイクロフォン・カプセル４１０ｈとの間の垂直方向オフセット４２０ｃのため、音源５１５ｃによって放出された音は、マイクロフォン・カプセル４１０ｈに到達する前にマイクロフォン・カプセル４１０ｇに到達する。よって、音源５１５ｃからの音に応答するマイクロフォン・カプセル４１０ｇからのマイクロフォン・オーディオ信号と、音源５１５ｃからの音に応答するマイクロフォン・カプセル４１０ｈからの対応するマイクロフォン・オーディオ信号との間には時間差がある。

【0136】

よって、いくつかの実装は、少なくとも部分的には第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号の間の時間差に基づいて、音源位置に対応する仰角を決定することに関わってもよい。仰角は、一対の同軸で垂直方向に積層した指向性マイクロフォンの第一のマイクロフォンと第二のマイクロフォンとの間の、本稿で垂直方向オフセットとも称される垂直距離に従って決定されてもよい。いくつかの実装によれば、図１Ａの制御システム１１０が、少なくとも部分的には第一のマイクロフォン・オーディオ信号と第二のマイクロフォン・オーディオ信号の間の時間差に基づいて、音源位置に対応する仰角を決定することができてもよい。

【0137】

本開示に記載された実装に対するさまざまな修正が、当業者には容易に明白になるであろう。本稿で定義される一般的な原理は、本開示の精神または範囲から外れることなく他の実装に適用されてもよい。このように、請求項は本稿に示される実装に限定されることは意図されておらず、本開示、本稿に開示される原理および新規な特徴と整合する最も広い範囲を与えられるものである。

【0138】

いくつかの態様を記載しておく。
〔態様１〕
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と；
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と；
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを含む、
方法。
〔態様２〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様１記載の方法。
〔態様３〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様２記載の方法。
〔態様４〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様１記載の方法。
〔態様５〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様４記載の方法。
〔態様６〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネス（A）は、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネス（B）と、前記調整が、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わるときの前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネス（C）との間である、あるいは（B）に実質的に等しい、あるいは（C）に実質的に等しい、態様４または５記載の方法。
〔態様７〕
前記混合オーディオ・データをヘッドセットのスピーカーに提供することをさらに含む、態様１ないし６のうちいずれか一項記載の方法。
〔態様８〕
モード切り換え指標を受領する段階と；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とをさらに含む、
態様１ないし６のうちいずれか一項記載の方法。
〔態様９〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様８記載の方法。
〔態様１０〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様９記載の方法。
〔態様１１〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様８ないし１０のうちいずれか一項記載の方法。
〔態様１２〕
前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、態様８ないし１１のうちいずれか一項記載の方法。
〔態様１３〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様１２記載の方法。
〔態様１４〕
前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標がカメラ・データまたは脳電図データの一つまたは複数を含む、態様１１ないし１３のうちいずれか一項記載の方法。
〔態様１５〕
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを含む、
態様１１ないし１４のうちいずれか一項記載の方法。
〔態様１６〕
選択された音源方向のユーザーからの指標を受領する段階と；
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを含む、
態様８ないし１４のうちいずれか一項記載の方法。
〔態様１７〕
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と；
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを含む、
態様８ないし１４のうちいずれか一項記載の方法。
〔態様１８〕
少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別することをさらに含む、態様１７記載の方法。
〔態様１９〕
前記音源の速度を決定する段階と；
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを含む、
態様１８記載の方法。
〔態様２０〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様８ないし１９のうちいずれか一項記載の方法。
〔態様２１〕
前記マイクロフォン入力オーディオ・データの分類をさらに含み、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様８ないし２０のうちいずれか一項記載の方法。
〔態様２２〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛；接近する乗り物の音；悲鳴；叫び；事前選択された人物の声；事前選択されたキーワード；および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様２１記載の方法。
〔態様２３〕
ソフトウェアが記憶されている非一時的な媒体であって、前記ソフトウェアは：
メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
少なくとも一つのマイクロフォンからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と；
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と；
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行するよう一つまたは複数の装置を制御するための命令を含む、
非一時的な媒体。
〔態様２４〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様２３記載の非一時的な媒体。
〔態様２５〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様２４記載の非一時的な媒体。
〔態様２６〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様２３記載の非一時的な媒体。
〔態様２７〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様２６記載の非一時的な媒体。
〔態様２８〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスは、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスと、前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間である、あるいは前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しい、あるいは前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しい、態様２６または２７記載の非一時的な媒体。
〔態様２９〕
前記ソフトウェアは、前記混合オーディオ・データをヘッドセットのスピーカーに提供するための命令を含む、態様２３ないし２８のうちいずれか一項記載の非一時的な媒体。
〔態様３０〕
前記ソフトウェアは：
モード切り換え指標を受領する段階と；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とを実行するための命令を含む、
態様２３ないし２８のうちいずれか一項記載の非一時的な媒体。
〔態様３１〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様３０記載の非一時的な媒体。
〔態様３２〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様３１記載の非一時的な媒体。
〔態様３３〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様３０ないし３２のうちいずれか一項記載の非一時的な媒体。
〔態様３４〕
前記モード切り換え指標は少なくとも部分的には、慣性センサー・データに基づく、態様３０ないし３３のうちいずれか一項記載の非一時的な媒体。
〔態様３５〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様３４記載の非一時的な媒体。
〔態様３６〕
前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標がカメラ・データまたは脳電図データの一つまたは複数を含む、態様３３ないし３５のうちいずれか一項記載の非一時的な媒体。
〔態様３７〕
前記ソフトウェアが：
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを実行するための命令を含む、
態様３３ないし３６のうちいずれか一項記載の非一時的な媒体。
〔態様３８〕
前記ソフトウェアが：
選択された音源方向のユーザーからの指標を受領する段階と；
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを実行するための命令を含む、
態様３０ないし３６のうちいずれか一項記載の非一時的な媒体。
〔態様３９〕
前記ソフトウェアが：
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と；
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを実行するための命令を含む、
態様３０ないし３６のうちいずれか一項記載の非一時的な媒体。
〔態様４０〕
前記ソフトウェアが、少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別するための命令を含む、態様３９記載の非一時的な媒体。
〔態様４１〕
前記ソフトウェアが：
前記音源の速度を決定する段階と；
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを実行するための命令を含む、
態様４０記載の非一時的な媒体。
〔態様４２〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様３０ないし４１のうちいずれか一項記載の非一時的な媒体。
〔態様４３〕
前記ソフトウェアが、前記マイクロフォン入力オーディオ・データの分類をするための命令を含み、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様３０ないし４２のうちいずれか一項記載の非一時的な媒体。
〔態様４４〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛；接近する乗り物の音；悲鳴；叫び；事前選択された人物の声；事前選択されたキーワード；および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様４３記載の非一時的な媒体。
〔態様４５〕
インターフェース・システムおよび制御システムを有するオーディオ処理装置であって、前記制御システムは：
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と；
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と；
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階と
を実行することができる、装置。
〔態様４６〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様４５記載の装置。
〔態様４７〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに等しい、態様４６記載の装置。
〔態様４８〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様４５記載の装置。
〔態様４９〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様４８記載の装置。
〔態様５０〕
前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスは、前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスと、前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスとの間である、あるいは前記メディア入力オーディオ・データおよびマイクロフォン入力オーディオ・データの全ラウドネスに実質的に等しい、あるいは前記メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データの全ラウドネスに実質的に等しい、態様４８または４９記載の装置。
〔態様５１〕
前記制御システムは、前記混合オーディオ・データを一つまたは複数のスピーカーを含むスピーカー・システムに、前記インターフェース・システムを介して提供することができる、態様４５ないし５０のうちいずれか一項記載の装置。
〔態様５２〕
前記制御システムは：
モード切り換え指標を受領する段階と；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正する段階とを実行できる、
態様４５ないし５０のうちいずれか一項記載の装置。
〔態様５３〕
前記修正は、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様５２記載の装置。
〔態様５４〕
前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことは、前記メディア入力オーディオ・データを抑制することまたは前記メディア・ストリームを一時停止することに関わる、態様５３記載の装置。
〔態様５５〕
前記モード切り換え指標は、少なくとも部分的には、頭の動きの指標または目の動きの指標の少なくとも一方に基づく、態様５２ないし５４のうちいずれか一項記載の装置。
〔態様５６〕
慣性センサー・システムをさらに有しており、前記モード切り換え指標は少なくとも部分的には、前記慣性センサー・システムからの慣性センサー・データに基づく、態様５２ないし５５のうちいずれか一項記載の装置。
〔態様５７〕
前記慣性センサー・データは、ヘッドセットの動きに対応する、態様５６記載の装置。
〔態様５８〕
目の動きの検出システムをさらに有しており、前記モード切り換え指標が、少なくとも部分的には目の動きの指標に基づき、前記目の動きの指標が、前記目の動きの検出システムからのカメラ・データまたは脳電図データの一つまたは複数を含む、態様５５ないし５７のうちいずれか一項記載の装置。
〔態様５９〕
前記制御システムが：
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の方向が頭の動きまたは目の動きと対応するかどうかを判定する段階とを実行できる、
態様５５ないし５８のうちいずれか一項記載の装置。
〔態様６０〕
前記制御システムが：
選択された音源方向のユーザーからの指標を受領する段階と；
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の方向を判別する段階と；
前記音源の位置が選択された音源方向と対応する場合に、前記音源の位置がモード切り換え指標であることを判別する段階とを実行できる、
態様５２ないし５８のうちいずれか一項記載の装置。
〔態様６１〕
前記制御システムが：
少なくとも部分的には二つ以上のマイクロフォンからのマイクロフォン・データに基づいて音源の動き方向を判別する段階と；
少なくとも部分的には前記音源の動き方向に基づいてモード切り換え指標があるかどうかを判定する段階とを実行できる、
態様５２ないし５８のうちいずれか一項記載の装置。
〔態様６２〕
前記制御システムが、少なくとも部分的には、前記音源の動き方向が前記マイクロフォンのうちの少なくとも一つに向かうものであるとの判定に基づいて、モード切り換え指標を判別できる、態様６１記載の装置。
〔態様６３〕
前記制御システムが：
前記音源の速度を決定する段階と；
少なくとも部分的には前記音源の速度が閾値を超えるとの判定に基づいて、モード切り換え指標を判別する段階とを実行できる、
態様６２記載の装置。
〔態様６４〕
前記モード切り換え指標は、少なくとも部分的には、前記マイクロフォン入力オーディオ・データにおける発話の認識に基づく、態様５２ないし６３のうちいずれか一項記載の装置。
〔態様６５〕
前記制御システムがさらに、前記マイクロフォン入力オーディオ・データの分類をすることができ、前記モード切り換え指標は少なくとも部分的には前記分類に基づく、態様５２ないし６３のうちいずれか一項記載の装置。
〔態様６６〕
前記分類は、前記マイクロフォン入力オーディオ・データが自動車の警笛；接近する乗り物の音；悲鳴；叫び；事前選択された人物の声；事前選択されたキーワード；および公共アナウンスからなるオーディオ信号型のリストから選択された一つまたは複数のオーディオ信号型を含むかどうかを判定することに関わる、態様６５記載の装置。
〔態様６７〕
一つまたは複数のスピーカーを含むスピーカー・システムと；
二つ以上のマイクロフォンを含むマイクロフォン・システムとをさらに有する、
態様４５ないし６６のうちいずれか一項記載の装置。
〔態様６８〕
当該装置がヘッドセットである、態様６７記載の装置。
〔態様６９〕
インターフェース・システムと；
前記インターフェース・システムを介して、メディア・ストリームに対応するメディア入力オーディオ・データを受領する段階と；
前記インターフェース・システムを介して、少なくとも一つのマイクロフォンを含むマイクロフォン・システムからのマイクロフォン入力オーディオ・データを受領する段階と；
前記メディア入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第一のレベルを決定する段階と；
前記マイクロフォン入力オーディオ・データの複数の周波数帯域のうちの少なくとも一つの周波数帯域の第二のレベルを決定する段階と；
前記第一および第二の複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを調整することによって、メディア出力オーディオ・データおよびマイクロフォン出力オーディオ・データを生成して、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスとの間の第一の差が、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスと前記メディア入力オーディオ・データの存在時の前記マイクロフォン入力オーディオ・データの知覚されるラウドネスとの間の第二の差より小さくなるようにする段階と；
前記メディア出力オーディオ・データおよび前記マイクロフォン出力オーディオ・データを混合して混合オーディオ・データを生成する段階とを実行するための制御手段とを有する、
オーディオ処理装置。
〔態様７０〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることだけに関わる、態様６９記載の装置。
〔態様７１〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに実質的に等しい、態様７０記載の装置。
〔態様７２〕
前記調整は、前記マイクロフォン入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルをブーストすることと、前記メディア入力オーディオ・データの前記複数の周波数帯域のうちの一つまたは複数の周波数帯域のレベルを減衰させることとの両方に関わる、態様６９記載の装置。
〔態様７３〕
前記メディア出力オーディオ・データの存在時の前記マイクロフォン出力オーディオ・データの知覚されるラウドネスが、前記マイクロフォン入力オーディオ・データの知覚されるラウドネスに等しい、態様７２記載の装置。
〔態様７４〕
前記制御手段が、前記混合オーディオ・データを一つまたは複数のスピーカーを含むスピーカー・システムに、前記インターフェース・システムを介して提供するための手段を含む、態様６９ないし７３のうちいずれか一項記載の装置。
〔態様７５〕
前記制御手段が：
モード切り換え指標を受領し；
少なくとも部分的には前記モード切り換え指標に基づいて、前記の受領する、決定する、生成するまたは混合するプロセスのうちの少なくとも一つを修正するための手段を含む、
態様６９ないし７４のうちいずれか一項記載の装置。
〔態様７６〕
前記修正が、前記メディア出力オーディオ・データのラウドネスに対する前記マイクロフォン出力オーディオ・データの相対ラウドネスを増すことに関わる、態様７５記載の装置。

【図1A】