(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-23
(54)【発明の名称】ノイズの多い環境における音声最適化
(51)【国際特許分類】
G10L 21/0208 20130101AFI20240416BHJP
G10L 21/0216 20130101ALI20240416BHJP
H04R 3/00 20060101ALI20240416BHJP
G10K 11/178 20060101ALI20240416BHJP
【FI】
G10L21/0208 100B
G10L21/0216
H04R3/00 310
G10K11/178 100
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023566012
(86)(22)【出願日】2022-05-11
(85)【翻訳文提出日】2023-12-18
(86)【国際出願番号】 SE2022050461
(87)【国際公開番号】W WO2022240346
(87)【国際公開日】2022-11-17
(32)【優先日】2021-05-12
(33)【優先権主張国・地域又は機関】SE
(81)【指定国・地域】
(71)【出願人】
【識別番号】521501130
【氏名又は名称】オウディオド アーベー(パブル)
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100165157
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100205659
【氏名又は名称】齋藤 拓也
(74)【代理人】
【識別番号】100126000
【氏名又は名称】岩池 満
(74)【代理人】
【識別番号】100185269
【氏名又は名称】小菅 一弘
(72)【発明者】
【氏名】フィリップソン ジョン
(72)【発明者】
【氏名】ルンドバック ヨナス
【テーマコード(参考)】
5D061
5D220
【Fターム(参考)】
5D061FF02
5D220AA02
5D220AB01
(57)【要約】
本発明は、スピーチオーディオを含むオーディオストリーム(20)のスピーチ了解度を高める方法に関する。方法は、オーディオデバイスによってリアルタイムで実行され、周囲ノイズを検出するステップ(40)と、周囲ノイズに基づいて内部ノイズを推定するステップ(40)とを含む。音声フィルタ(50)は、推定された内部ノイズ及びオーディオストリーム(20)に基づいて決定され、音声フィルタ(50)は、標的オーディオストリーム(20’)を提供するためにオーディオストリーム(20)に適用される。標的オーディオストリーム(20’)は、オーディオデバイスの内部サウンド(37)を生成するために、1つ以上のトランスデューサ(35)に出力される。オーディオデバイス(30)の内部サウンド(37)が検出され、音声フィルタ(50)の決定は、検出された内部サウンド(37)に、さらに基づく。オーディオデバイス等も提示される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
オーディオデバイス(30)によってリアルタイムで実行されるスピーチオーディオを含むオーディオストリーム(20)のスピーチ了解度を高める方法(100)であって、
周囲ノイズ(40)を検出するステップ(110)と、
前記周囲ノイズ(40)に基づいて内部ノイズ(40’)を推定するステップ(120)と、
推定された前記内部ノイズ(40’)及び前記オーディオストリーム(20)に基づいて音声フィルタ(50)を決定するステップ(130)と、
前記音声フィルタ(50)を前記オーディオストリーム(20)に適用して(140)、標的オーディオストリーム(20’)を提供するステップと、
前記標的オーディオストリーム(20’)を1つ以上のトランスデューサ(35)に出力して(150)、それによって、前記オーディオデバイス(30)の内部サウンド(37)を生成するステップと、
前記オーディオデバイス(30)の前記内部サウンド(37)を検出するステップ(160)と、
を含み、
前記音声フィルタ(50)を決定するステップ(130)は、検出された前記内部サウンド(37)にさらに基づき、
検出された前記内部サウンド(37)から推定された前記内部ノイズ(40’)を減算し(132)、真のオーディオストリーム(37’)を提供するステップと、
前記標的オーディオストリーム(20’)と前記真のオーディオストリーム(37’)との間の差に基づいて、前記音声フィルタ(50)を更新する(138)ステップと、
を含む、方法(100)。
【請求項2】
前記音声フィルタ(50)を決定するステップ(130)は、
推定された前記内部ノイズ(40’)を1つ以上のマスキング閾値(T)と比較するステップ(134)と、
前記比較(134)に基づいて、前記音声フィルタ(50)を更新するステップ(138)と、
をさらに含む、請求項1に記載の方法(100)。
【請求項3】
前記1つ以上のマスキング閾値(T)は、前記オーディオストリーム(20)の臨界帯域分析(137)を実行することによって計算され、前記臨界帯域分析(137)は、周波数拡散による聴覚マスキングを含む、請求項2に記載の方法(100)。
【請求項4】
前記オーディオデバイス(30)のユーザに関連付けられた聴覚プロファイル(HL(f
k))を補償するために、前記オーディオストリーム(20)をフィルタリングするステップ(105)をさらに含む、請求項1~3のいずれか一項に記載の方法(100)。
【請求項5】
前記音声フィルタ(5)を決定するステップ(130)は、前記決定(130)が前記オーディオデバイス(30)の前記ユーザに関連付けられた聴覚プロファイル(HL(f
k))について補償されたオーディオストリーム(20)に基づくように、前記フィルタリング(105)の後に実行される、請求項4に記載の方法(100)。
【請求項6】
前記音声フィルタ(50)を決定するステップ(130)は、
再生音量(15)に基づいて再生フォンを決定するステップ(136)
をさらに含み、
前記音声フィルタ(50)を更新するステップ(138)は、決定された前記再生フォンに関連付けられた等ラウドネス曲線に、さらに基づく、請求項1~5のいずれか一項に記載の方法(100)。
【請求項7】
前記再生フォンを決定するステップ(136)は、前記内部サウンド内部サウンド(37)に、さらに基づく、請求項6に記載の方法(100)。
【請求項8】
前記音声フィルタ(50)を決定するステップ(130)は、周波数窓関数を使用する畳み込みによって、周波数において前記音声フィルタ(50)の利得を平滑化することをさらに含む、請求項1~7のいずれか一項に記載の方法(100)。
【請求項9】
前記音声フィルタ(50)を決定するステップ(130)は、1つ以上の重み付けパラメータ(T
i)を含む指数的に重み付けされた移動平均を使用して前記音声フィルタ(50)の前記利得を平均化することをさらに含む、請求項1~8のいずれか一項に記載の方法(100)。
【請求項10】
前記音声フィルタ(5)を決定するステップ(130)は、前記音声フィルタ(5)が前記オーディオストリーム(20)に適用されるべき度合い(m)を選択するために、構成可能な混合設定を適用することをさらに含む、請求項1~9のいずれか一項に記載の方法(100)。
【請求項11】
前記内部ノイズ(37’)を推定するステップ(120)は、1つ以上の反復ニューラルネットワーク(RNN)によって実装される、請求項1~10のいずれか一項に記載の方法(100)。
【請求項12】
前記周囲ノイズ(40)は、前記オーディオデバイス(30)に動作可能に接続された外部マイクロホン(5)によって検出される、請求項1~11のいずれか一項に記載の方法(100)。
【請求項13】
前記周囲ノイズ(40)は、最大10kHz、好ましくは最大8kHzまでの最大オーディオ帯域幅に制限される、請求項1~12のいずれか一項に記載の方法(100)。
【請求項14】
前記音声フィルタ(50)を前記オーディオストリーム(20)に適用した(140)後、前記オーディオストリーム(20)に能動型ノイズキャンセル(ANC)を適用するステップをさらに含む、請求項1~13のいずれか一項に記載の方法(100)。
【請求項15】
1つ以上のトランスデューサ(35)と、ユーザの耳腔における内部サウンド(37)を検出するように配置された少なくとも1つの内部マイクロフォン(36)と、前記内部マイクロフォン(36)と、前記1つ以上のトランスデューサ(35)と、外部マイクロフォン(5)に動作可能に接続された処理モジュール(32)とを備えるオーディオデバイス(30)であって、前記処理モジュール(32)は、請求項1~14のいずれか一項に記載の方法(100)を実行するように構成される、オーディオデバイス(30)。
【請求項16】
前記外部マイクロフォン(5)は、前記オーディオデバイス(30)に含まれる、請求項15に記載のオーディオデバイス(30)。
【請求項17】
リアルタイムでスピーチ了解度を高めるためのオーディオシステム(1)であって、前記システム(1)は、オーディオデバイス(30)に動作可能に接続され、スピーチオーディオを含むオーディオストリーム(20)を前記オーディオデバイス(30)に伝達するように構成されたポータブル電子デバイス(10)を備え、前記オーディオデバイスは、請求項15又は16のいずれかに記載のオーディオデバイスである、オーディオシステム(1)。
【請求項18】
前記周囲ノイズ(40)は、前記電子デバイス(10)内に含まれる外部マイクロホン(5)によって感知され、前記電子デバイス(10)は、前記外部マイクロホン(5)によって感知された前記周囲ノイズ(40)を前記オーディオデバイス(30)に伝達するように、さらに構成される、請求項17に記載のオーディオシステム(1)。
【請求項19】
処理モジュール(32)によって実行されると、前記処理モジュール(32)に請求項1~14のいずれか一項に記載の方法(100)を実行させるように構成されたコンピュータプログラム製品(200)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオの音声最適化に関し、より詳細には、ノイズの多い環境における音声最適化を提供するための方法及びデバイスに関する。
【背景技術】
【0002】
ポータブル電子機器は、事実上あらゆる人によって、あらゆる場所で使用されている。例えば、携帯電話は、常時携帯されており、通話又は音声の聴取に用いることができる。聴取するオーディオは、音楽であり得るが、ポッドキャスト及びオーディオブックも、ますます一般的になっている。コミュニケーション及びエンターテイメントのための電子デバイスの使用及び可搬性が高まるにつれて、オーディオがノイズの多い環境で消費されるリスクが増加している。音楽では、ノイズの多い環境は、迷惑でしかないかもしれないが、音声オーディオを聴くとき、ノイズの多い環境は、ノイズのためにスピーチを分かりにくくなることがある。
【0003】
スピーチオーディオのスピーチ了解度(speech intelligibility)は、信号対ノイズ比、この場合、スピーチオーディオとノイズとの間の比に依存する。歴史的に、スピーチ了解度は、信号対ノイズ比を修正することによって改善される。強引なアプローチは、音声信号を増幅し、ノイズを上回るようにすることであり、言うまでもなく、このアプローチは、スピーチオーディオを聴いている人の聴覚に損傷を引き起こす可能性がある。別のアプローチは、ヘッドホンが使用される場合、外部ノイズを減衰させるようにヘッドホンを形成することによって、又は能動型ノイズキャンセルを利用することによって、ノイズを低減することである。ノイズ減衰は、音響設計及びユーザのヘッドホンのフィッティングに依存する。能動型ノイズキャンセルには、かなりの処理能力が必要になり、それに伴って、材料コスト及びエネルギー消費が増加する。
【0004】
以上のことから、改善の余地があることが分かる。
【発明の概要】
【0005】
本発明の目的は、従来技術よりも改善され、上述の欠点を排除又は少なくとも軽減する新しいタイプの音声最適化を提供することである。より具体的には、本発明の目的は、ノイズの多い環境におけるスピーチ又は有声オーディオの了解度を改善する方法及びオーディオデバイスを提供することである。これらの目的は、添付の独立請求項に記載される技術によって達成され、好ましい実施形態は、それに関連する従属請求項に定義される。
【0006】
第一の態様では、スピーチオーディオを含むオーディオストリームのスピーチ了解度を高める方法が提示される。方法は、オーディオデバイスによってリアルタイムで実行され、周囲ノイズを検出するステップと、周囲ノイズに基づいて内部ノイズを推定するステップと、推定された内部ノイズ及びオーディオストリームに基づいて音声フィルタを決定するステップと、を含む。方法は、音声フィルタをオーディオストリームに適用して標的オーディオストリームを提供するステップと、標的オーディオストリームを1つ以上のトランスデューサに出力することによってオーディオデバイスの内部サウンドを生成するステップと、をさらに含む。これに加えて、方法は、オーディオデバイスの内部サウンドを検出するステップを含み、音声フィルタを決定するステップは、検出された内部サウンドにさらに基づき、検出された内部サウンドから推定された内部ノイズを減算して真のオーディオストリームを提供することを含む。方法は、標的オーディオストリームと真のオーディオストリームとの間の差に基づいて、音声フィルタを更新することをさらに含む。
【0007】
一変形形態では、音声フィルタを決定するステップは、推定された内部ノイズを1つ以上のマスキング閾値と比較するステップと、比較に基づいて音声フィルタを更新するステップと、をさらに含む。これは、オーディオがノイズによってマスキングされているか否かを決定するエネルギー的かつ計算的に効率的な方法を提供するので有益である。
【0008】
一変形形態では、前記1つ以上のマスキング閾値は、オーディオストリームの臨界帯域分析を実行することによって計算される。臨界帯域分析は、周波数拡散による聴覚マスキングを含む。これは、マスキング閾値の精度を高めるので有益である。
【0009】
一変形形態では、方法は、オーディオデバイスのユーザに関連付けられた聴覚プロファイルを補償するためにオーディオストリームをフィルタリングするステップをさらに含む。これは、スピーチ了解度がユーザのためにさらに高まって、最適化されるので有益である。
【0010】
一変形形態では、音声フィルタを決定するステップは、決定がオーディオデバイスのユーザに関連付けられた聴覚プロファイルについて補償されたオーディオストリームに基づくように、フィルタリングの後に行われる。これは、同じ音声フィルタアルゴリズムがユーザにかかわらず使用され得、何らかの補償が聴覚プロファイルを通して既に適用されているので、計算労力が低減され得るため、有益である。
【0011】
一変形形態では、音声フィルタを決定するステップは、再生音量に基づいて再生フォンを決定するステップをさらに含み、音声フィルタを更新するステップは、決定されたフォンに関連する等ラウドネス曲線に、さらに基づく。これは、スピーチ了解度が音量にわたって変化するが、全ての周波数にわたって均等ではなく、再生音量にかかわらず、この増加したスピーチ了解度を補償するので有益である。
【0012】
一変形形態では、再生フォンを決定するステップは、内部サウンド内部サウンドにさらに基づく。これは、ユーザが経験する実際の音圧レベルの正確な読み取り値を与えるので有益である。
【0013】
一変形形態では、音声フィルタを決定するステップは、周波数窓関数を使用する畳み込みによって、周波数において音声フィルタの利得を平滑化するステップをさらに含む。これは、隣接する周波数グループ間の望ましくない差を除去するので有益である。
【0014】
一変形形態では、音声フィルタを決定するステップは、1つ以上の重み付けパラメータを含む指数的に重み付けされた移動平均を使用して音声フィルタの利得を平均化するステップをさらに含む。これは、隣接する周波数グループ間の望ましくない差を除去するので有益である。
【0015】
一変形形態では、音声フィルタを決定するステップは、音声フィルタがオーディオストリームに適用されるべき度合いを選択するために、構成可能な混合設定を適用することをさらに含む。これは、改善の量をカスタマイズ可能にし、ユーザが所望の補償量を選択できるので有益である。
【0016】
一変形形態では、内部ノイズを推定するステップは、1つ以上の反復ニューラルネットワーク(RNN)によって実装される。RNNを使用すると、内部ノイズを推定する正確で効率的な方法が可能になるので有益である。
【0017】
一変形形態では、周囲ノイズは、オーディオデバイスに動作可能に接続された外部マイクロフォンによって検出される。これによって、周囲ノイズの正確な測定が提供されるので有益である。
【0018】
一変形形態では、周囲ノイズは、最大10kHz、好ましくは最大8kHzまでの最大オーディオ帯域幅に制限される。これは、本方法の計算の複雑さをさらに低減するので有益である。
【0019】
一変形形態では、方法は、音声フィルタをオーディオストリームに適用した後、能動型ノイズキャンセル(ANC)をオーディオストリームに適用するステップをさらに含む。これは、内部サウンドのノイズがさらに低減されるので有益である。
【0020】
第二の態様では、オーディオデバイスが提示される。オーディオデバイスは、1つ以上のトランスデューサと、ユーザの耳腔における内部サウンドを検出するように配置された少なくとも1つの内部マイクロフォンと、内部マイクロフォン、前記1つ以上のトランスデューサ、及び外部マイクロフォンに動作可能に接続された処理モジュールと、を備える。処理モジュールは、本発明の方法を実行するように構成される。
【0021】
一変形形態では、外部マイクロフォンは、オーディオデバイスに含まれる。これによって、マイクロフォンからのデータが処理モジュールに容易に利用可能になるので、有益である。
【0022】
第三の態様では、リアルタイムでスピーチ了解度を高めるためのオーディオシステムが提示される。システムは、オーディオデバイスに動作可能に接続され、スピーチオーディオを含むオーディオストリームをオーディオデバイスに伝達するように構成されたポータブル電子デバイスを備え、オーディオデバイスは、本発明によるオーディオデバイスである。
【0023】
一変形形態では、周囲ノイズは、電子デバイス内に含まれる外部マイクロフォンによって感知され、電子デバイスは、外部マイクロフォンによって感知された周囲ノイズをオーディオデバイスに伝達するように、さらに構成される。これは、追加のノイズデータがオーディオデバイスの外部マイクロフォンによって提供され得るので有益である。代替又は追加として、オーディオデバイスは、外部マイクロフォンなしで構成され得、したがって、オーディオデバイスのコストを削減する。
【0024】
第四の態様では、コンピュータプログラム製品が提示される。コンピュータプログラム製品は、処理モジュールによって実行されると、処理モジュールに本発明の方法を実行させるように構成される。
【図面の簡単な説明】
【0025】
本発明の実施の形態について、以下で説明するにあたって、本発明の概念をどのように実施することができるかの非限定的な例を示す添付の図式的図面を参照する。
【0026】
【
図1a】本発明の実施形態によるオーディオシステムの概略図である。
【
図1b】本発明の実施形態によるオーディオシステムの概略図である。
【
図2】本発明の実施形態による音声フィルタ及びその信号の概略図である。
【
図3】本発明の実施形態によるオーディオストリームのスピーチ了解度を高める方法のブロック図である。
【
図4】本発明の実施形態によるスピーチ最適化の例示的なプロットである。
【
図5】本発明の実施形態による等ラウドネス曲線の例示的なプロットである。
【
図6】本発明の実施形態によるスピーチ最適化の例示的なプロットである。
【
図7】本発明の実施形態による音声フィルタの音声決定のブロック図である。
【
図8】本発明の実施形態によるコンピュータプログラム製品である。
【発明を実施するための形態】
【0027】
以下では、添付の図面を参照して、特定の実施形態をより完全に説明する。しかしながら、本発明は、多くの異なる形態で具現化されてもよく、本明細書に記載される実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は、本開示が徹底的かつ完全であり、添付の特許請求の範囲で定義されるような本発明の範囲を当業者に十分に伝えるように、例として提供される。
【0028】
「結合された」という用語は、必ずしも直接的ではなく、必ずしも機械的ではないが、接続されたものとして定義される。「結合された」2つ以上のアイテムは、互いに一体であってもよい。「1つの」という用語は、本開示が別途明示的に必要としない限り、1つ以上として定義される。「実質的に」、「およそ」、及び「約」という用語は、当業者によって理解されるように、指定されたものの大部分であるが、必ずしもその全体でないものとして定義される。「備える」(また、「備え」及び「備えている」等の任意の形態の備える)、「有する」(また、「有し」及び「有している」等の任意の形態の有する)、「含む」(また、「含み」及び「含んでいる」等の任意の形態の含む)、及び「含有する」(また、「含有し」、「含有している」等の任意の形態の含有する)は、オープンエンド連結動詞である。結果として、1つ以上のステップを「備える」、「有する」、「含む」又は「含有する」方法は、それらの1つ以上のステップを有するが、それらの1つ以上のステップのみを保有することに限定されない。
【0029】
図1aは、オーディオストリーム20の形態のオーディオソース信号20のスピーチ了解度を改善するためのリアルタイムオーディオシステム1の簡略図である。対応するオーディオシステム1は、また
図1bに概略図で描かれており、構成要素及び特徴の位置の代替的な例示を与える。オーディオストリーム20は、スピーチオーディオを備え、ストリーミングされたオーディオの任意の好適な形態であってもよい。スピーチオーディオは、ポッドキャスト、オーディオブック、音声通信等のデジタル形式の任意のスピーチオーディオであってもよい。オーディオストリーム20は、典型的には、電子デバイス10からオーディオデバイス30に伝達される。伝達は、好ましくは、BLE等の適切な無線インターフェースを介して無線であるが、有線であってもよい。電子デバイス10は、任意の適切な電子デバイス10であってもよいが、好ましくは、モバイル端末10等のポータブル電子デバイス10である。オーディオデバイス30は、好ましくは、一対のヘッドホン30であり、任意の適切な設計、例えば、耳上、耳囲、又は耳内であり得るが、当業者によって容易に理解されるように、本発明とともに動作可能な任意のオーディオデバイス30が適切である。オーディオデバイス30は、モバイル端末10からオーディオストリーム20を受信するように適合され、これは、オーディオストリーム20がBLEを介して伝達される場合、オーディオデバイスが1つ以上のBLEチップセットを備えることを意味する。これに加えて、オーディオデバイス30は、1つ以上のトランスデューサ35、好ましくは2つのトランスデューサ35と、受信されたオーディオストリーム20を1つ以上のトランスデューサ35によって出力されることが可能なアナログ信号に変換するために必要なハードウェア及びソフトウェアモジュールとを備える。オーディオストリーム20は、オーディオストリーム20が再生されるべきレベルを示すオーディオシステム1の任意のデバイス10、30によって設定された再生音量15に関連付けられる。オーディオデバイス30のハードウェアは、少なくとも1つの処理モジュール32を含む。処理モジュール32は、適切なMCU、又は複数のMCU、1つ以上のDSP、1つ以上のメモリを備えてもよく、インターフェースにわたって通信するための必要なハードウェア、例えば、BLEトランシーバをさらに備えてもよい。
【0030】
オーディオデバイス30のトランスデューサ35は、オーディオデバイス30のユーザの耳腔に向けられたサウンドを生成するように構成される。オーディオデバイス30は、トランスデューサ35によって生成されたサウンドを測定するように配置された1つ以上の内部マイクロフォン36を備える。サウンドは、好ましくは、オーディオデバイス30がユーザによって使用されるときに、ユーザの耳腔において測定される。好ましくは、各トランスデューサ35によって生成されるサウンドを測定するために、1つの内部マイクロフォン36が設けられる。
【0031】
オーディオシステム1は、1つ以上の外部マイクロフォン5をさらに備える。外部マイクロフォン5は、オーディオデバイス30の外部にあり、オーディオデバイス30の処理モジュール32に動作可能に接続された任意の適切なマイクロフォン5であってもよい。外部マイクロフォン5は、例えば、オーディオデバイス30がヘッドセットである場合、オーディオデバイス20に含まれてもよく、外部マイクロフォンは、オーディオデバイス30のユーザの音声を検出するように配置されてもよい。代替又は追加として、外部マイクロフォン5は、例えば、ポータブル電子デバイス10がモバイル端末10である場合、ポータブル電子デバイス10に含まれてもよい。
【0032】
ここで
図2を参照すると、本発明の概念的な概要が与えられる。本発明は、好ましくは、本明細書に提示されるオーディオデバイス30上で実施される。音声ストリーム20のスピーチ了解度は、音声フィルタ50によって高められる。オーディオストリーム20に適用されたこの音声フィルタ50は、1つ以上のトランスデューサ35に出力される標的オーディオストリーム20’を生成する。標的オーディオストリーム20’は、オーディオストリーム20と比較して、スピーチ了解度を高めるためにフィルタリングされる。オーディオフィルタ50の内部動作に関するさらなる詳細は、本開示を通して与えられる。音声フィルタ50は、少なくとも周囲ノイズ40及び内部サウンド37に基づいて決定される。周囲ノイズ40は、オーディオデバイス30の処理モジュール32に動作可能に接続された1つ以上の外部マイクロフォン5によって検出されてもよい。内部サウンド37は、オーディオデバイス30のユーザの耳腔におけるサウンドであるか、又はその推定値である。内部サウンド37は、1つ以上のトランスデューサ35に関連付けられた内部マイクロフォン36によって測定される。好ましくは、オーディオデバイス30は、オーディオデバイス30のトランスデューサ35の各々に関連付けられた少なくとも1つの音声フィルタ50を備える。
【0033】
図3を参照して、スピーチオーディオを備えるオーディオストリーム20のスピーチ了解度を高める方法100の概要を説明する。方法100は、スピーチオーディオを備えるオーディオストリーム20の処理によって、スピーチ了解度を高めるものとして説明され得ることに留意されたい。方法100は、本明細書で提示されるオーディオデバイス30によって実行されてもよい。方法100の各ステップは、本開示の他の箇所で、さらに詳細に説明される。方法100は、オーディオデバイス30のユーザに標的オーディオストリーム20’を出力するステップ150を含む。すなわち、オーディオフィルタ50は、オーディオストリーム20に適用され140、内部サウンド37を生成するためにトランスデューサ35に提供される標的オーディオストリーム20’を提供する。内部サウンド37は、典型的には、内部マイクロフォン36が周囲ノイズ40を検出している110ことによって検出される160。これは、典型的には、1つ以上の外部マイクロフォン5が周囲ノイズを測定し、これをオーディオデバイス30の処理モジュール32に提供することによって行われる。周囲ノイズ40は、内部ノイズ40’を推定する120ために使用され、内部ノイズ40’は、ユーザの鼓膜によって知覚されるノイズである。音声ストリーム20、推定された内部ノイズ40’及び検出された内部サウンド37は、スピーチフィルタ50を決定するために使用される。
【0034】
方法100のいくつかの実施形態では、システム1のユーザの聴覚プロファイルHL(fk)を補償するためにオーディオストリーム20をフィルタリングするステップ105をさらに含む。これは、ユーザの聴覚障害及び/又は障害が、本方法のスピーチ了解度に加えて補償されるので有益である。好ましくは、聴覚プロファイルHL(fk)補償は、音声フィルタ50を適用又は決定するステップ130の前にオーディオソース信号20に適用され、その結果、音声フィルタ50は、ユーザの聴覚不能(disabilities)及び/又は障害(impairments)について補償されたオーディオストリーム20に基づいて決定される。これは、ユーザ間の差異を効果的に除去し、音声フィルタ50決定するために同じ方法130が全てのユーザに対して使用され得るので、有益である。さらに、聴覚能力に関する補償はオーディオストリーム20に影響を与えるだけなので、ほとんどの場合、スピーチ了解度を直接改善する。これに加えて、聴覚プロファイル補償は、音声フィルタ50の決定において考慮され得、音声フィルタ50が適用される140まで前処理は必要とされない。聴覚プロファイルHL(fk)と周囲ノイズ40との間の関係は、ユーザの聴覚プロファイルHL(fk)を考慮しない場合、スピーチ了解度を高めるための処理結果が、ユーザによっては、ユーザの聴覚能力に関して低減された影響を有し得るので、重要なことがある。
【0035】
能動型ノイズキャンセル(ANC)等のノイズキャンセル技術を利用するオーディオシステム1又はオーディオデバイス30において、ノイズキャンセルは、好ましくは、音声フィルタ50の後のオーディオストリーム20に適用されることが言及されるべきである。これが有益なのは、ノイズキャンセルを行うとノイズレベルが減少するが、同時にオーディオ信号が歪むことがあるからである。歪みの程度は、ノイズキャンセルの構成と、ノイズキャンセル技術の同調及び/又は較正とに依存する。
【0036】
標的オーディオストリーム20’は、例えば、デジタル-アナログ変換器、トランスデューサの動作及びユーザ上のオーディオデバイス30の位置によって、歪められるか、そうでなければ悪影響を受ける可能性がある。したがって、ノイズキャンセルによってノイズが除去された後に、ユーザの鼓膜に提示される内部サウンド37を検出し、真のオーディオストリーム37’、すなわち、内部ノイズ40’が除去された後の内部サウンド37を標的オーディオストリーム20’と比較し、差を最小限に抑えるように作用することが有益である。
【0037】
既に示されているように、オーディオシステム1は、リアルタイム制約を有するオーディオシステム1である。オーディオストリーム20は、サンプル毎又はフレーム毎に、デジタルサンプルとして受信される。フレーム内のサンプルの収集は、他の場所で、あるいはシステム1の一部として、例えば、電子デバイス10によって行うことができる。オーディオストリーム20は、サンプルレートFs(サンプル/s)を有するN個のサンプルの集合を含み、これらは、フレーム(時間)インデックスlを有するオーディオ信号フレームに形成される。オーディオストリーム20は、モノラルであっても、ステレオであってもよい。
【0038】
音声フィルタ50は、好ましくは、音響心理学的マスキングに基づき、スピーチ了解度指数又は等価物、例えば、明瞭度指数、スピーチ伝送指数又は短期客観的了解度、及びノイズの音調マスキングの理論から導出される音響心理学的モデルを含む。音声フィルタ50の周波数利得は、内部ノイズ40’が標的オーディオストリーム20’によってマスキングされるように計算され、これは、本開示の他の節においてより詳細に説明される。
【0039】
推定された内部ノイズ40’は、いくつかの異なる方法で提供することができ、内部ノイズ40’の推定120への入力は、少なくとも外部マイクロフォン5のうちの1つによって検出された周囲ノイズ40である110。周囲ノイズ40は、外部マイクロフォンによってマイクロフォン信号として提供され、好ましくは、オーディオストリーム20のものと実質的に等しいフレーム単位の構成で表される。マイクロフォン信号は、また、ステレオ信号であってもよく、そのような信号は、典型的には、デュアルマイクロフォン信号と称される。デュアルマイクロフォン信号は、単一のステレオ信号としてフォーマットされた2つの独立したマイクロフォン信号を含む。前述のように、システム1には複数の外部マイクロフォン5が存在してもよく、内部ノイズ40’を推定するステップ120は、例えば、外部マイクロフォン5によって提供される全てのマイクロフォン信号のうちの1つのマイクロフォン信号のみを使用することを決定することを含んでもよい。どの外部マイクロフォンを使用すべきかに関する決定は、例えば、最高信号レベル、トランスデューサへの近接度等に基づいてもよい。全ての外部マイクロフォン5は、処理された外部マイクロフォン5の各々から周囲ノイズ40を得るために、別々に処理されてもよい。外部マイクロフォン5は、ステレオ信号を得るために処理されてもよく、さらには、各トランスデューサ35が異なる周囲ノイズ40に関連付けられ得るように、周囲ノイズ40の方向を得るために処理されてもよい。
【0040】
本明細書の教示を消化した後で当業者が理解するように、リソース管理及びリアルタイムオーディオシステム1における利用可能な処理能力の最適化に基づいて、周囲ノイズ40を検出する(110)ために複数の外部マイクロフォン5を利用するか否かのトレードオフが必要となることがある。このトレードオフは、アプリケーションに依存することがある。オーディオデバイス30が、例えば、一対のヘッドホン30であり、充分な処理能力が存在する場合、内部ノイズ40’の2つの別個の推定120が、1つはユーザの左耳用に、1つはユーザの右耳用に、実現可能である。しかしながら、例えば処理能力が不充分である場合、又は電流消費に関する厳しい要件が存在する場合、合理的な仮定では、周囲ノイズ40が左耳及び右耳について実質的に等しく、同じ内部ノイズ40’が両耳に利用され得る。
【0041】
外部マイクロフォン5は、オーディオ信号と比較して異なるサンプリングレートでサンプリングされてもよい。音声通信のための重要な周波数範囲が8kHzまでであることを考慮すると、外部マイクロフォン5は、10kHzの最大帯域幅、又は好ましくは8kHzに帯域制限される。より低い帯域幅は、処理負荷、メモリ負荷及び電流消費を低減する。最大帯域幅は、処理負荷、メモリ負荷、及び電流消費をさらに低減するために、さらに低減してもよいが、最大帯域幅は、周囲ノイズ40の要件とトレードオフされなければならない。
【0042】
本開示を読んだ後に当業者が理解するように、外部マイクロフォン5は、周囲ノイズ40と追加の音源の両方を含む信号を生成することに留意されたい。周囲ノイズ40のみが関連するため、これは、例えば、トランスデューサから生じるエコー及び会話に関与する聴取者からの近端トークは、外部マイクロフォン5によって生成される信号から除外することが有益であることを意味する。これが有益なのは、追加の音源が周囲ノイズ40として誤分類されるリスクを低減するからである。
【0043】
追加のサウンドを周囲ノイズとして誤分類することを回避する1つの解決策は、1つ以上のノイズ推定技術、例えば、高次統計、ケプストラム分析、自己回帰モデリング、又はウェルチスペクトル及び最小分散法等のノンパラメトリック法を使用することである。典型的には、最小限の努力の実装形態では、方法100は、外部マイクロフォン5によって追加の音源が検出された場合、周囲ノイズ40の検出110及び/又は内部ノイズ40’の推定120を停止することができる。背景ノイズと音声ソースとの間の区別は、例えば、音声区間検出器(VAD:voice activity detector)を使用して解決してもよい。
【0044】
本発明の一実施形態では、内部ノイズ40’は、反復ニューラルネットワーク(RNN)によって推定120される。これは、本開示の他の節でより詳細に説明されるが、1つの利点は、例えば、内部ノイズ120を推定すること120、追加のサウンドの検出、音声検出等の実装及び構成の複雑さが、機械学習の理論でよく説明されるRNNのトレーニング及び動作に交換されることである。
【0045】
内部ノイズ40’がどのように推定されるか120にかかわらず、内部ノイズ40’の表現は、各聴覚フィルタ帯域又は臨界帯域bについてのみ、内部ノイズ40’の平均エネルギー値Ev(b),b=1,…,NBを含む。臨界帯域bの概念については、以下の節で説明する。
【0046】
前述のように、音声フィルタ50の周波数利得は、内部ノイズ40’が標的オーディオストリーム20’によってマスキングされるように、計算される。これを達成するために、オーディオストリーム20は、周波数において、あるいは臨界帯域b表現としてのいずれかで表されるように、フィルタリングされる。これは、オーディオストリーム20をサブフレームに分割して、前のサブフレームとの例えば50%までのオーバーラップを可能にすることによって達成することができる。サブフレームは、適切な窓関数、例えば、ハミング窓、ハニング窓、三角窓等を使用して、窓化してもよい。パワースペクトルPx(k)=│X(k)│2は、サブフレーム化された時間領域データ及び高速フーリエ変換FFT実装を使用して計算され、式中、kは周波数ビンインデックスである。周波数変換の分解能は、好ましくは、サンプルレートFs及びサブフレームサイズに基づいて選択される。典型的には、分解能とリソース需要との間のトレードオフが必要とされる。
【0047】
周波数領域で記述される量は、全て音圧レベルSPLで表され、Px(k)/Nは、周波数ビンインデックスk当たりのSPLでのパワースペクトル密度であり、聴取者の耳腔に位置する自由場基準点を基準とする。デジタル信号から音圧レベルへの変換は、適切な周波数依存スケーリング、マイクロフォン5、36当たり1つのスケーリング周波数関数、及びトランスデューサ35当たり1つのスケーリング周波数関数によって行われる。スケーリング関数は、予め決定され、及び/又は構成可能であり、好ましくは、処理モジュール32に動作可能に結合されたメモリに記憶される。スケーリング関数は、オーディオデバイス30の設計又は構成中に一度行われる較正ステップと見なすことができる。典型的には、限定はしないが、マイクロフォン5、36のスケーリング関数は、周波数ビンインデックスkごとに1つのスケール値からなり、マイクロフォン周波数応答から推定することができる。トランスデューサ35のスケーリング周波数関数は、例えば、基準点、典型的には聴取者の耳までの距離によるスケーリングを含むトランスデューサ周波数応答に対応する。例示として、一対のヘッドホン30について、オーディオストリーム20のスケーリング周波数関数は、耳基準点ERPを基準とするトランスデューサ35の周波数応答に基づく。
【0048】
蝸牛モデルは、オーディオストリーム20をN
B個の周波数帯域に分割し、各周波数帯域は、1つの臨界帯域bを表す。臨界帯域の数N
Bは、音声フィルタ50によってオーディオストリーム20が調整され得る粒度を直接制御することができるように、周波数領域における所望の分解能に従って設定することができる。当業者が理解するように、周波数分解能とリソース需要との間にはトレードオフがあり、分解能を増大させることは、より大きな蝸牛モデルを必要とし、したがって、より高い計算労力及びより複雑な実装の両方が必要となる。本開示の背後にある発明者らは、20個の周波数帯域N
B=20が、周波数分解能及び計算の複雑さに関して妥当な選択であることを見出した。一般性を失うことなく、臨界帯域bへの分割は、等価矩形帯域幅ERB、スケール及びガンマトーンフィルタバンクを使用して行ってもよい。蝸牛モデルを正確に提供するために、他のスケール及びフィルタタイプを利用してもよい。一般的な信号について、各臨界帯域bについて、パワースペクトルを使用して平均化エネルギー
【数1】
が計算され、式中、F
b(k)は、ガンマトーンフィルタバンク内の臨界帯域bに関連するフィルタの周波数応答である。各帯域のエネルギーは、
【数2】
によってベクトルとして表される。
【0049】
以下において、マスキングの心理音響特性は、いくらかさらに詳細に、特に、第一の信号がどのように第二の信号をマスキングし、その結果、第二の信号が知覚されなくなるかについて説明する。説明のために、オーディオストリーム20は、トーン信号によって近似されるが、周囲ノイズ40は広帯域ノイズであり、トーンマスキングノイズの理論が適用されると仮定する。
【0050】
臨界帯域bに関連するマスキング閾値T(b)は、周波数のマスキング、拡散による同時周波数マスキング、及び利得平滑化による時間マスキングを含み得るオーディオストリーム20の臨界帯域分析に基づいて計算される。
【0051】
臨界帯域分析は、オーディオストリーム20の臨界帯域表現
【数3】
を取得するために、
【数4】
として適用される。るこれは、上述のようなマスキング閾値T(b)が、聴覚プロファイルHL(f
k)による補償105が最初に適用される実施形態において、ユーザの聴覚障害を考慮することを意味することに留意されたい。
【0052】
上述した拡散による同時周波数マスキングは、周波数拡散をモデル化する拡散関数SFによって記述することができる。拡散関数SFは、
【数5】
によって得られ、式中、xはバークの単位(unit of Barks)(注1)を有し、SF
dB(x)はdBで記述される。周波数拡散は、臨界帯域領域における畳み込みであり、畳み込みカーネル行列
【数6】
によって表すことができることに留意されたい。次いで、トーンマスキングノイズのための臨界帯域bごとのマスキング閾値T(b)がマスキング閾値ベクトル
【数7】
として与えられ、式中、
【数8】
、
【数9】
、及び
【数10】
であり、xは、バーク数(Bark number)に等しい。SF
dB(x)及びγ(x)の両方は、本明細書で使用されるように、バークから臨界帯域領域に変換されてもよい。X
Lは、マスキング閾値
【数11】
と臨界帯域
【数12】
当たりのノイズエネルギー、すなわち内部ノイズ40’との間の定数差(dB単位)を記述する構成パラメータである。この構成パラメータの典型的な値は、X
L=14.5である。値が大きいほど、ノイズエネルギーに対するより感度を高くなり、したがって、周囲ノイズ40をマスキングするために、より高いオーディオストリーム20のエネルギーが必要となる。
【0053】
オーディオシステム1は、好ましくは、音声最適化において、すなわち、スピーチ了解度を改善する際に使用される少なくとも1つのマスキング閾値Tを計算するように構成される。用途、例えばヘッドホン30等に応じて、オーディオシステム1によって計算されるマスキング閾値
【数13】
が2つ以上ある場合もある。各マスキング閾値
【数14】
は、典型的には、1つ以上のトランスデューサ35に関連する。
【0054】
マスキング閾値
【数15】
、聴覚障害補償を含み得るオーディオストリーム20の臨界帯域表現
【数16】
、及びノイズ臨界帯域表現
【数17】
に基づいて、音声最適化は、音声フィルタ50の形態の周波数依存利得を計算し、聴取者のスピーチ了解度を向上させる。
【0055】
この文脈における音声最適化は、ベクトル
【数18】
によって表される周波数依存利得を計算するプロセスを指し、これは、次いで、標的オーディオストリーム20’の形態で音声最適化されると見なされるオーディオストリームに適用される。各臨界帯域bについて、各臨界帯域bに関連するノイズエネルギーe
v(b)、すなわち内部ノイズ40’を各臨界帯域bに関連するマスキング閾値T(b)と比較する。ノイズエネルギーがマスキング閾値T(b)を下回る場合、オーディオストリーム20は、ノイズをマスキングされたと決定され、オーディオストリーム20の増幅は、対応する臨界帯域bにおいて、必要ない。すなわち、この臨界帯域bについて、音声フィルタ50の利得は、1(unity)以下であるが、好ましくは、少なくとも、マスキング閾値T(b)を下回るノイズエネルギーを満たすのに必要な大きさであると決定される130。ノイズエネルギーがマスキング閾値T(b)を超える場合、ノイズは、マスキングされず、オーディオソース信号の増幅が必要となる。すなわち、この臨界帯域bについて、音声フィルタ50の利得は、1より大きいと決定される130。増幅は、多くの方法で表すことができ、当業者は、本開示を消化した後、問題なしに、本明細書の教示のいずれも工業できる。
【0056】
【数19】
による各臨界帯域bにおけるオーディオストリーム20の増幅により、音声最適化信号、すなわち標的オーディオストリーム20’が得られる。
【0057】
本開示は、モデル(行列
【数20】
)に含まれる周波数の同時マスキングを実行することに留意されたい。最適な利得g
opt(b)を計算するとき、周波数帯域ごとに個別に利得を計算するのではなく、全ての周波数帯域を含む一般的な公式を述べることが好ましいことがある。本発明による最適な利得
【数21】
の定式化は、全ての周波数帯域及び周波数の同時マスキングを含む。その結果、本発明は、各利得が個別に計算され、モデルにおける同時マスキングを含まない場合と比較して、利用可能な利得パラメータの使用が最適化されることになる。
【0058】
前述のように、オーディオストリーム20
【数22】
は、推定された内部ノイズ40’が比較され、マスキングされていると見なされるマスキング閾値T(b)を計算するために使用される。トランスデューサ35を介したユーザの耳腔における音声最適化信号20’、標的オーディオストリーム20’の提示は、いくつかの周波数依存成分によって影響を受ける可能性があり、その中でもおそらく最も重要なのはヘッドホン30の位置及びフィットであり、その結果、標的オーディオストリーム20’の提示されたバージョンは、期待される周波数成分を有さない。知覚された最適化音声信号
【数23】
は、推定された内部周囲ノイズ40’とともにマイクロフォン信号37の一部である。
【0059】
ノイズが外部マイクロフォン5と内部マイクロフォン36との組み合わせによって測定されるANC又はノイズ低減技術とは対照的に、本発明では、内部ノイズ40’
【数24】
は、外部ノイズ40に基づいて推定される。したがって、提示された音声最適化信号
【数25】
は、限定はしないが、例えば、内部サウンド37から
【数26】
を減算することによって推定されてもよい。このことの1つのさらなる利点は、
【数27】
が、例えば二乗平均平方根等のいくつかの予め定義された尺度で
【数28】
に向かって収束し、次いで、例えば、ヘッドホン30のフィッティングの位置又は程度の変化を考慮し、方法100をよりロバストかつ弾力的にすることができるように、音声最適化処理に対するリアルタイム調整を可能にすることである。
【0060】
非限定的な例では、増幅は、オーディオストリーム20に適用される場合に、結果として得られるマスキング閾値
【数29】
に対応する利得が計算されるようなものであってもよい。ノイズエネルギーがマスキング閾値
【数30】
以下の場合、増幅は不要であり、ノイズエネルギーが閾値を超える周波数帯域については増幅が必要であるとする。逆の場合もよくあり得ること、及び両方の場合において、負の利得、すなわち減衰が生じる可能性があることに留意されたい。結果として生じる最適な音声フィルタ50は、必要な増幅のみを含み、場合によっては、非マスキング周波数から適用されるマスキング周波数にエネルギーを再分配する。周波数帯域bごとの所望の目標関数T
d(b)は、
【数31】
のように定義することができる。
【0061】
所望の目標関数
【数32】
を使用して、重み付き最小二乗ノルム最適化問題を定式化してもよく、この問題は、
【数33】
に従って
【数34】
を最小化することを意味するラグランジュ乗数及びKarush-Kuhn-Tucker条件(注2)の方法を使用して、
【数35】
について解くことができる。
【0062】
Wは、対角重み付け行列であり、この例における主対角は、スピーチ了解度指数(注3)によって与えられる周波数帯域重み付けによって投入される(populated)。最適化は、周波数全体に重み付けする重要度を使用して周波数が増幅又は減衰されるべきプロセスにおいて明示的に周波数拡散を利用する。
【0063】
別の非限定的な例では、重み付け行列Wは、トランスデューサ35に提供される標的オーディオストリーム20’と、内部ノイズ40’が除去された後、すなわち、推定された内部ノイズ40’のノイズ120が内部マイクロフォン36によって提供される信号から減算された後、内部マイクロフォン36によって提供される対応する検出された内部サウンド37との間の誤差に基づいて投入されてもよい。この場合、適切な重み付け行列Wは、周波数領域、好ましくは、聴覚帯域領域における誤差に基づいてもよく、さらにより好ましくは、適切な重み値が[0-1]の範囲内であり、最も好ましくは、例えば、1の二乗平均平方根値に正規化されるようなものでもよく、例えば、
【数36】
と
【数37】
との間の相関係数を使用すると、高い相関、すなわち、信号が非常に類似していることは、低い重み、すなわち、この周波数帯域における誤差に焦点を当てないことに対応し、逆もまた同様である。
【0064】
最適利得
【数38】
は、好ましくは、臨界帯域表現から振幅にわたる周波数ビン表現H
g(k)に変換される。そのような変換は、好ましくは、採用された臨界帯域分割、例えば、この例では
【数39】
のようなガンマトーンフィルタバンクにわたる補間を含む。
【0065】
Hg(k)は、オーディオストリーム20及び内部ノイズ40’の新しいフレームlごとに1回更新されることに注目する。典型的には、オーディオフレームは、比較的短く、オーディオフレームのサンプルの数は、100msに相当する持続時間未満であり得る。他方、ヒトの耳は、100~300msまでの積分時間を有する。これに加えて、適応周波数調整を適用する場合、聴取者は、オーディオストリーム20のトーンバランスの安定性を経験しなければならず、これを達成できないと、ユーザに不快感を感じることがある。別の態様は、音声最適化信号、すなわち標的オーディオストリーム20’における周波数変動である。隣接する周波数帯域は、調整度合いがあまりにも異なりすぎると、不快感が生じることがある。これらの特性は、全て主観的であり、本開示を読んだ後、当業者には、既知となる。
【0066】
本開示の背後にある発明者らは、音声フィルタ50の利得は、上記の主観的効果を軽減するために処理され得ることを認識した。一実施形態では、音声フィルタ50の利得は、周波数窓関数、例えば、三角窓又は同様のものを用いた畳み込みによって周波数が平滑化され、孤立した周波数ビンが隣接する周波数ビンと比較して、増幅又は減衰のいずれも高すぎないこと、すなわち、周波数ビン間の利得の変動が制限されることを主張する。一実施形態では、窓は、[0.15,0.7,0.15]の典型的な値に設定することができ、すなわち、畳み込みの後、各周波数帯域において得られる利得は、隣接する帯域の15/15パーセント比及び現在の帯域の70パーセント比からなる。典型的には、各臨界帯域は、周波数においてより離れているほど隣接する帯域からより独立しているため、そのような畳み込み演算において、3~5を超える臨界帯域を含むことは不適切であり得る。別の追加又は代替の実施形態では、音声フィルタ50の利得は、重み付けパラメータTiで指数的に重み付けされた移動平均を使用して平均化される。重み付けパラメータTiは、例えば、ユーザによって選択可能であってもよく、又は、例えば、人間の耳の積分時間、すなわちTi=0.3に対応する固定値に設定されてもよい。これは、また、更新レートを効果的に減速させ、したがって、ユーザが聴覚を周波数着色に調整することを可能にするであろう。
【0067】
本開示による方法100の学習後の当業者には明らかなように、方法100は、オーディオストリーム20のスピーチ了解度を高めるためにオーディオストリーム20を処理(フィルタリング、変更)することに関する。方法100は、その最も一般的な形態では、周囲ノイズ40又は推定内部ノイズ40’の逆数を加算することを含まない。方法100は、むしろ、音声フィルタ50によってオーディオストリーム20を変更(フィルタリング、処理)する。音声フィルタ50は、スピーチ了解度を高めるように適合されたフィルタであり、周囲ノイズ40又は推定された内部ノイズ40’を除去することには関心がなく、むしろ、ノイズの多い環境で聴取されたときにオーディオストリーム20に含まれるスピーチ了解度を高めるようにオーディオストリーム20を適応させることに関心がある。オーディオストリーム20のスピーチオーディオを、その了解度が高まるようにフィルタリングすると、スピーチオーディオの周波数成分が変化する。言い換えれば、スピーチオーディオを発話した人の音声は、音声フィルタにかけられた後、異質に見えたり歪んだりすることがあるが、スピーチの了解度は、高くなる。
【0068】
音声フィルタ50の利得調整は、同時マスキング及びエネルギー制約により、ソース信号帯域幅の全ての周波数にわたって分散されるであろうことが強調されるべきである。したがって、ノイズがマスキングされるいくつかの周波数では、オーディオソース信号は、減衰されることがあり、その逆も同様である。この現象は、オーディオストリーム20の例を実線で示し、内部ノイズ40’を密な破線で示し、マスキング閾値Tを破線で示し、標的オーディオストリーム20’を点線で示す
図4に示されている。
図4で視覚化された最適化は、1フレームに対して有効である。標的オーディオストリーム20’は、全ての周波数帯域において内部ノイズ40’をマスキングするためにエネルギー再分配されている。
図4に見られるように、標的オーディオストリーム20’をオーディオストリーム20と比較するとき、標的オーディオストリーム20’は、音声フィルタ50によって、一部の周波数で増幅され、本明細書の教示に従って他の周波数で減衰されている。内部ノイズ40’が全ての周波数についてマスキング閾値Tを下回る場合、背景ノイズによる音声強調は必要ないことに留意されたい。
【0069】
適用可能な場合、聴覚障害補償は、限定はしないが、ユーザの聴覚障害を打ち消すか又は軽減する時間領域又は周波数領域のいずれかにおけるフィルタとして説明され得る。聴覚障害は、聴覚プロファイルHL(f
k)によって記述され得、周波数関数HL(f
k)、f
kは、周波数当たりの聴覚レベルdB、dB HLの単位で離散周波数のセット(典型的には、5~7個の周波数のセットが使用される)を示す。聴覚プロファイルHL(f
k)は、トーン聴覚図が実施された聴覚検査の結果である聴力図(audiogram)に等しいか又は同等であるが、これに限定されない。0dB HLに対応する障害はなく、増加する値、すなわち、0より大きい値は、聴覚障害又は難聴を示す。聴覚障害を軽減するための補償の作成については後述する。一実施形態では、聴覚障害補償は、周波数関数H
HI(k)、すなわち、ユーザの聴覚プロファイルHL(f
k)による補償であるフィルタによって周波数領域で定義され、音声最適化の前にオーディオストリーム20に適用105することができる。代替的に、オーディオストリーム20を事前に処理することなく、音声最適化130に含めることができる。先に示されているように、H
HI(k)は、臨界帯域表現にグループ化され、周波数ビンスケーリングとして
【数40】
に適用されることができ、それによって、H
HI(k)は、結果として得られる最適利得H
g(k)に含まれることになる。最終的な周波数振幅調整は、音声フィルタ50のH
HI(k)
Hg(k)=H
vo(k)によって与えられる。これは、聴覚障害補償が充分なスピーチ了解度の改善を提供するので、低ノイズ条件における周囲ノイズ40に起因して音声フィルタ50によって提供される音声強調が、全ての周波数にわたってユニティゲイン音声フィルタ50であり得ることを意味する。
【0070】
一実施形態では、ユーザは、例えば、混合設定を介して、周囲ノイズ40をマスキングするために音声補償が適用されるべき度合いmを選択してもよい。各周波数ビン及びm=[0,…,1]に対して、
【数41】
となるようにする。
式中、m=0は、背景ノイズによる周波数調整なしに対応する。注目すべきは、位相応答がそのまま保存されること、すなわち、
【数42】
となることである。
【0071】
ユーザの聴覚プロファイルHL(f
k)を補償することに加え、本発明は、任意選択で、音量依存補償VDCと組み合わせられてもよい。説明したように、オーディオストリーム20は、周波数スペクトルを含み、オーディオ信号のこの周波数スペクトルは、異なる再生音圧レベルで異なるように知覚される。これは、異なるSPLにおける等ラウドネス曲線300(
図5参照)を比較するときに、見ることができる。異なる等ラウドネス曲線300の間の差を補償することによって、オーディオストリーム20は、意図されたとおりに、すなわち、ポッドキャスト又はオーディオブック等の事前記録されたデータの原因において、マスタでマスタリングされるときに、知覚されるものとして、知覚される可能性がより高い。
【0072】
多数の等ラウドネス曲線300が
図5に示されている。等ラウドネス曲線300は、典型的には、dB音圧レベルSPLとしてデシベルで表されるSPLの尺度である。音圧レベルは、周波数スペクトル、典型的には、人間の可聴スペクトルにわたって提供される。等ラウドネス曲線300内の各点は、聴取者が、あるフォンを用いて1kHzで提示される純音と比較した場合に一定のラウドネスを知覚する音圧レベルを表す。フォンは、DIN 45631及びISO532において定義され、本明細書では、50dB SPLを有する1kHzトーンが50フォンのラウドネスを有し、この信号と同じラウドネスで知覚される全ての他の周波数も50フォンのラウドネスを有することを意味するように定義される。
【0073】
図5において、等ラウドネス曲線300は、6つの異なるフォンについてプロットされており、すなわち、
図5のグラフには6つのプロットがある。
図5では、等ラウドネス曲線300が、0、20、40、60、80、及び100フォンについて提示されている。
図5のラウドネス曲線300は、ISO226:213によるラウドネス曲線300である。これらの曲線300は、1933年にHarvey Fletcher及びWilden A. Munsonによって提供されたFletcher-Munson曲線と比較して補正される。Fletcher-Munson曲線は、通常、等ラウドネスの概念の第一の説明と呼ばれる。音圧レベルが、オーディオ信号の周波数スペクトルが聴取者によってどのように知覚されたかに影響を及ぼさない場合、
図5の曲線300間のオフセットは、全ての周波数にわたって同じである。
【0074】
聴覚プロファイルフィルタリング105に加えて、又はその代わりに、方法100は、オーディオストリームの再生音量15及び/又は検出された内部サウンド37に基づいて再生フォンを決定するステップ136をさらに含んでもよい。
【0075】
上述のように、内部ノイズ40’が全ての周波数についてマスキング閾値Tを下回る場合、背景ノイズによる音声強調は、必要ない。これは、例えば、低い周囲ノイズ環境において、あるいは例えば、聴覚障害補償が、対応する閾値Tが内部周囲ノイズ40’を上回る信号レベルになった場合においての結果となり得る。
【0076】
以下の実施形態では、聴覚障害は、ユーザ聴覚プロファイルHL(f
k)に基づいて計算される。スピーチ了解度指数カウント・ザ・ドット・オーディオ・フォーム(注4)として知られているものを利用して、さらなる最適化問題を形成してもよい。聴覚プロファイルHL(f
k)が与えられると、カウント・ザ・ドット聴力図によって与えられるように、標準化された明瞭度指数AI又はスピーチ了解度指数SIIを最大にするように聴覚閾値を調整するためのフィルタH
HI(k)を提供することが望ましい。AIは、聴覚プロファイルHL(f
k)が定義された図上にプロットされるとき、聴覚プロファイルHL(f
k)を下回るドットの数として計算され、これは、
図6において破線によって示される。
【0077】
一実施形態では、これは、周波数ビンの関数としての利得h
HI(k)のセットが、了解度指数が最大化されるように、オーディオストリームのエネルギーを増幅/減衰し、再分配するように最適化される最適化定式として説明することができる。
【数43】
【0078】
したがって、フィルタH
HI(k)=h
HI(k)は、したがって、結果として生じるフィルタによる標的オーディオストリーム20’の総エネルギー変化がガンマに等しくなるように、周波数kにおける必要な利得から生成される。一実施形態では、γ=1は、
図6に例示されるようなエネルギー再分配に対応し、別の例では、全ての周波数にわたって2の一定の利得が得られる場合、γ=2である。ガンマは、システム1における増幅の可能性に応じて設定されてもよく、典型的には、増幅が許容されない場合、上記に例示されるように1(unity)に設定され、倍加が可能である場合、2に設定される。ここでも、背景ノイズによるエネルギー分布に関して、同じ理由がここで当てはまり、全ての周波数にわたって増幅することは不可能である。
【0079】
図6は、点線が単位dB HL(聴覚レベル)での聴覚試験結果である例示的なカウント・ザ・ドット聴力図を示す。実線は、補償フィルタが適用された後の結果である。見られるように、AIは増加しており、すなわち、点線よりも実線の下に多くのドットが存在する。フィルタH
HI(k)によって提供される全体的なエネルギー変化を1にすることが望ましいので、いくつかのドットは、失われる。
図6に示す結果は、60dBの音圧、すなわち、かなりの環境における通常の会話レベル又は聴取レベルに対して有効である。トランスデューサ35によって再生されるときの標的オーディオストリーム20’の近似的な音圧レベルは、例えば、システム1の音量ステップ及び対応する音圧レベルの事前較正によって、内部マイクロフォン36を使用した音圧レベルの測定によって利用可能であり、それに応じて、例えば、聴覚プロファイルを調整することが可能である。
【0080】
VDCは、上述のように、オーディオストリーム20のダイナミクスに基づいてフィルタHHI(k)を変化させない固定方法にする事前較正されたテーブルを使用して実装される1つの任意選択の実施形態では、実装される。したがって、フィルタHHI(k)は、音量設定、すなわちオーディオデバイス30の再生音量15が変更された場合にのみ更新される。一実施形態では、事前較正されたテーブルは、HHI(k)、例えばa(k)HHI(k)に適用される各音量ステップ及び周波数ビンに対するスケーリング係数a(k)を含む。事前較正されたテーブルのサイズは、音量ステップの数及び計算に使用される周波数ビンの数に依存する。
【0081】
一実施形態では、VDCは、各耳に1つずつ、周波数領域における2つの聴覚補償を計算する。1つの追加の実施形態では、それは、両耳に適した単一の聴覚補償を提供するために、左耳補償及び右耳補償を組み合わせるように構成されてもよい。これは、再生がいくつかのトランスデューサを使用し、各トランスデューサからの音が聴取者の各耳に物理的に到達することができるときに、重要である。
【0082】
上記の実施形態と非常によく組み合わせることができるVDCの実装の別の実施形態では、フィードバックマイクロホン信号は、トランスデューサ35によって再生されるときの標的オーディオストリーム20’のレベルに基づいて、フィルタHHI(k)を更新する動的方法になるように使用される。このアプローチは、より頻繁に補償を計算する。オーディオ信号の急激な過渡を回避するために、フィルタHHI(k)の更新レートは、約0.25~1Hzと低く保たれてもよい。
【0083】
カウント・ザ・ドット聴力図は、信号又はスピーチレベルが60dB SPLであると仮定して提供されるが、本明細書における結果及び方法100は、正しい結果を伴って、音圧レベルを用いて非常に良好にスケーリングされ得る。非限定的な例では、10dBのSPLに対応する10dBの音量の増加は、聴覚レベルスケール、y軸上で0dBのHLに向かって10dBオフセットされている
図6の点線に対応する。これは、音量の増加により、スピーチ了解度が増加し、対応する聴覚障害補償がそれに応じて調整されることを意味する。より低い音量は、類似の例を有する。当業者が推論したように、点線が、信号レベルの増加によるオフセットを含むドットを有する領域の上方にある場合、増強は必要ない。
【0084】
結果をスケーリングし、カウント・ザ・ドット聴力図及び本明細書の教示に基づいて聴覚障害を調整する他の方法は、ここで当業者には明らかであろう。
【0085】
前述のように、本開示の背後にある発明者らは、内部ノイズ40’が、機械学習によって周囲ノイズ40に基づいて正確にモデル化され得ることを認識した。内部ノイズ40’は、ANC技術から、一次(音響)経路によってフィルタリングされた外部ノイズ40であることが知られている。ここで、一次経路は、ヘッドホン30の外部から耳腔内に伝播するときの外部ノイズ40への影響を説明する。一次経路は、ANCが正しく動作するために、すなわち、ANC技術が内部ノイズ40’をキャンセルする(したがって、減衰させる)正しいアンチノイズを形成するために、リアルタイムで高い精度で見つけられなければならない重要な(未知の)ノイズ伝達関数である。ANC技術に対するリアルタイム及び精度の要件は、典型的には、ANC技術が専用ハードウェアで実行されることを規定している。
【0086】
本発明において、内部ノイズ40’を推定する際のリアルタイム及び精度の要件は、後述するように、ANC技術と比較してはるかに低い。さらに、専用のハードウェアを必要としない。当業者に知られている同じ態様の多くが依然として存在し、例えば、内部ノイズ40’の推定は、トランスデューサ35によってレンダリングされるときに、近端オーディオストリームからエコーを除外しなければならず、複雑なリアルタイム適応フィルタリング及び較正(ANCの場合のように)の代わりに、ニューラルネットワークを使用して、ノイズ、エコー及び近端トーカー(near-end talker)間の分離を含む一次経路をモデル化する。
【0087】
好ましい実施形態のニューラルネットワークは、RNNである。RNNは、典型的には、長・短期記憶(LSTM)、又はゲート付き回帰型ユニット(GRU)に基づく。一般に、RNNの特徴ベクトル及び出力ベクトルは、多数の方法で選択することができ、2つの選択、すなわち、トレーニングデータ品質及びRNNのトレーニングとともに、RNNのサイズは、入力、すなわち特徴データが与えられた場合に、所望の出力データを出力するRNNの能力の性能を決定する。
【0088】
RNNのサイズは、トレーニング結果と、リアルタイムオーディオシステムへの実装によって提起されるリソース制約によって設定される。一般に、サイズ、すなわち、RNNのユニットの数及び隠れ層の数は、FFT計算における点の数の選択と同様に設計選択である。RNNの典型的なサイズは、例えば、3~4個の隠れ層を有する200~300個のユニットである。RNNの計算需要は、例えば、より低次のRNNを選択すること、出力上の誤差を増加させること、及び/又はRNNユニットをスキップして、構造化プルーニングすることによって減少させることができる。
【0089】
外部マイクロフォン5によって提供される信号の絶対レベルは、用途にとって重要であることに留意されたい。したがって、各トレーニング例がランダム化されて生成された二次フィルタで事前フィルタリングされる、データ増強のためのアプローチが採用され得る。それによって、外部マイクロフォン5の周波数応答公差及び外部マイクロフォン5の配置変動に起因する周波数変動に対してロバストになるようにRNNをトレーニングする。トレーニング例における個々の信号のレベルは、好ましくは、レベル変動に対するロバスト性のために変動される。
【0090】
上記のRNNの説明は、RNNの1つの動作例として提供される1つの非限定的な例であるにすぎないことは明らかである。当業者は、本明細書の教示を消化した後、特徴セット、出力セット、及び/又はトレーニング、例えば、データセット、損失関数、最適化プロセス等を変更する異なる例を確かに考案することができる。
【0091】
RNNの特徴抽出は、スピーチ認識理論によって提供されてもよい。また、以下の実施形態は、任意の順序で互いに組み合わせること、あるいは想像可能に設定することができる特徴抽出の非網羅的な例として見なされるべきである。
【0092】
一実施形態では、特徴は、マイクロフォン5によって提供される信号の臨界帯域当たりのエネルギーの対数の離散コサイン変換を含む。一実施形態では、特徴は、マイクロフォン5によって提供される信号のスペクトルを含み、本開示で説明されるように臨界帯域で表される。さらなる実施形態では、特徴は、サブフレーム全体における平均エネルギーをさらに含む。一実施形態では、特徴は、少なくとも600Hzまで、好ましくは少なくとも1000Hzまでをカバーする現在のサブフレームと前のサブフレームケプストラム対数係数との間の振幅のデルタ変化を含む。それによって、高い確実性で、典型的な音声のボーカル基礎を含む。一実施形態では、特徴は、非ノイズ源信号がアクティブであるか否かを示すバイナリ信号を含み、例えば、ユーザが話しているか、又はトランスデューサからのエコーが存在するかを示す単純なレベル検出器を含む。
【0093】
RNNの出力は、典型的には、各聴覚フィルタ帯域についての内部ノイズ40’の平均エネルギー値Ev(b),b=1,…,NBを含む。一実施形態では、RNNの出力は、また、上記に加えて、ノイズ又は非ノイズを示すバイナリ信号と、低レベル又は高レベルを示す第二のバイナリ信号と、近端信号がアクティブであることを示す第三のバイナリ信号も含む。説明されたバイナリ信号のような追加の信号は、最適な音声フィルタ50を計算するためにアルゴリズムにおいて直接使用されなくてもよいが、当業者にとって、説明されたような関連する出力は、RNNをトレーニングするときに、より良い結果を得るのに役立ち得ることが容易に認識される。
【0094】
RNNのトレーニングにおいて、1つの重要な態様は、トレーニング中に使用されない条件下でさえもRNNが正しく動作するようなRNNの一般化能力である。したがって、降雨の例は、好ましくは、背景ノイズ、例えば、フルサイズの自動車100km/h及びカフェテリア(注5)、様々なレベルのエコー信号及び近端トーク、並びに上述のような濾過の組み合わせによって構成される。エコー信号及び近端トーク信号は、好ましくは、独立しており、すなわち、同じ発話が同時に存在しない。
【0095】
一実施形態では、トレーニングのグラウンドトゥルースは、ノイズ信号(のみ)のスペクトルに基づく聴覚フィルタ当たりのノイズ(のみ)パワーによって構成され、聴覚フィルタに分割され、ヘッドホン及び耳腔内で参照(測定)される。したがって、これは、一次経路、すなわち、ヘッドホンの外側からヘッドホンと耳腔の内側までの経路を含む。これは、ヘッドホンが、(ヘッドホンの種類、インイヤー、オーバーイヤー、及びオンイヤーに応じて)装着されたときに、音響シールに起因するノイズに対して少なくとも高周波減衰を有するので重要である。ヘッドホンがまた、能動型ノイズキャンセル(典型的には、150~900Hzの周波数範囲で動作可能)を有する場合、ヘッドホンの外側のノイズは、耳腔の内側のノイズとはかなり異なる。
【0096】
ノイズ、近端スピーチ及びエコーの提示を容易にし、同時に内部ノイズ40’(グラウンドトゥルース)を記録することができるシステムは、業界標準であり、プロセスは、完全に自動化されている。1つの非限定的な例では、背景ノイズが測定チャンバ内のマルチスピーカセットアップからレンダリングされるシナリオが開始され、試験中のヘッドホンは、各耳シミュレータ内に配置されたマイクロフォンに到達する信号として内部ノイズを記録する頭部及び胴体シミュレータ上に配置される。同時に、背景ノイズが外部マイクロフォン5によってヘッドホン30に記録される。シナリオが完了した後、各信号は、調整され、時間調整され、特徴セット又はグラウンドトゥルースセットのいずれかに変換される。
【0097】
要約すると、内部ノイズ40’のモデル化における機械学習及び再帰型ニューラルネットワークを使用すると、聴覚帯域モデルにおけるノイズ推定が得られ、複雑な音声区間検出又はエコー消去を使用せずに、近端トーク及びエコーを除去することは、ヘッドホンの外側からヘッドホン及び耳腔の内側への一次経路をモデル化するであろう。
【0098】
音声フィルタ50の異なる態様のいくつかの詳細な実装は、本開示全体にわたって提示される。音声フィルタ50がどのように決定されるかにかかわらず、Hvo(k)として上述した音声フィルタ50が、デジタルソース信号であるオーディオストリーム20に適用される140。多数の音声フィルタ50があってもよく、各音声フィルタ50は、トランスデューサ35上にレンダリングされる標的オーディオストリーム20’を提供する。オーディオストリーム20を処理するためのいくつかのアプローチがあり、当業者であれば、本開示を読んだ後、以下の2つの例以外のいくつかの他のアプローチが分かるであろう。音声フィルタ50は、一実施形態では、例えば、位相応答があまり重要でない場合、周波数関数の有限インパルス応答フィルタへの変換によって適用されてもよく140、線形位相をもたらす対称インパルス応答フィルタであってもよい。音声フィルタ50は、一実施形態では、周波数関数に乗算するときに、巡回畳み込みを回避するために、重畳加算法による周波数領域における乗算によって適用されてもよい140。
【0099】
1つの好ましい実施形態では、オーディオデバイス30は、トランスデューサ35ごとに少なくとも1つの音声フィルタ50を備える。
【0100】
一実施形態では、標的オーディオストリーム20’を提供する音声フィルタ50は、エネルギー正規化される。これは、時間領域信号における高いピーク振幅につながり得る。さらなる実施形態では、標的オーディオストリーム20’の信号振幅が最終信号フォーマットにとって高すぎないことを保証するために、標的オーディオストリーム20’を減衰する。信号振幅は、次いで、例えば、標準リミッタ又はダイナミックレンジコントローラDRCを使用して、歪曲を伴わずに正しいフォーマットに変換されてもよい。信号振幅の制御とは別に追加の処理を必要としないことに留意されたい。リミッタ及びDRCは、デジタルオーディオシステムの他の構成要素とすることができ、聴覚安全のために含まれることが好ましい。
【0101】
図7を参照して、音声フィルタ50を決定する130のいくつかのさらなる非網羅的なステップを説明する。以下の実施形態は、本明細書に提示される他の実施形態のいずれかと組み合わせることが可能であり、本明細書に開示される詳細な例及び計算と完全に適合する。
【0102】
方法100の一実施形態では、音声フィルタ50を決定するステップ130は、検出された内部サウンド37から推定内部ノイズ40’を減算するステップ132を含む。これは、標的オーディオストリーム20’がユーザの耳でのように実際に聞こえるものである真のオーディオストリーム37’を提供する。したがって、標的オーディオストリーム20’と真のオーディオストリーム37’との差に基づいて、この差に基づいて音声フィルタ50を更新する138ことが可能である。これにより、標的オーディオストリーム37が実際にユーザの聞いているものであることを保証できる制御ループが効果的に作成される。これは、音声フィルタが、例えば、オーディオデバイスがユーザによってどのように装着されているか、及びオーディオデバイスがユーザの耳にどの程度良好に適合するかに基づいて更新され得ることを可能にするため、有益である。
【0103】
方法100の一実施形態では、音声フィルタ50を決定するステップ130は、推定内部ノイズ40’と1つ以上のマスキング閾値Tとを比較するステップ134を含む。これは、
図4の破線であるマスキング閾値Tに対して、密な破線である推定内部ノイズ40’を実質的に比較する134。次いで、音声フィルタは、比較134に基づいて更新され、標的オーディオストリーム20’が提供される。方法100のさらなる任意選択の実施形態では、マスキング閾値Tは、オーディオストリーム20の臨界帯域分析137を実行することによって計算される。臨界帯域分析137は、周波数拡散による聴覚マスキングを含む。
【0104】
方法100の一実施形態では、
図5を参照して説明したようなオーディオデバイス30の再生音量15を補償するように構成される。これは、音声フィルタ50を決定するステップ130において、再生音量15に基づいて再生フォンを決定するステップ136を含む。再生フォンは、トランスデューサ35を通るサウンドの伝達関数を記述する伝達関数によって再生フォンから決定されてもよい。これに加えて、音声フィルタ50を更新するステップ138は、決定されたフォンに関連付けられた等ラウドネス曲線に、さらに基づく。さらなる実施形態では、再生フォンは、検出された160内部サウンド37に、さらに基づく。
【0105】
本発明は、先に提示された問題を解決することに加えて、オーディオデバイス30のユーザがオーディオデバイス30を持ち運ぶことをどのように選択するかにか実質的にかわらず、スピーチ了解度を高める。典型的には、オーディオデバイスのトランスデューサ35は、特定の負荷で動作するように構成される。この負荷は、ユーザとトランスデューサ35との間の空気空洞の形態である。オーディオデバイス30が、例えば、閉じた一対のヘッドホンである場合、空気空洞は、ユーザの外耳の周りにしっかり密着して運ばれるヘッドホン30によって形成される。しかしながら、全ての耳が同じであるわけではなく、全てのユーザがオーディオデバイス30を同じように持ち運ぶわけではないので、トランスデューサ35の負荷はユーザ間で異なり、それによって、オーディオデバイス30の音が異なることになる。また、本発明は、オーディオデバイス30がどのように装着されているかに応じて、異なる内部サウンド37を検出する160ことによって、この問題を解決する。
【0106】
(注の説明)
注1:バークスケール(Bark scale)は、音響心理学的スケールである。
注2:Boyd, S., & Vandenberghe, L. (2009). Convex Optimization. Cambridge University Press.
ETSI. (2012). Speech and multimedia Transmission Quality (STQ); Speech quality performance in the presence of background noise; Part 1: Background noise simulation technique and background noise database 202 396-1. ETSI
注3:S3.5-1997, A. (1997). Methods for calculation of the Speech Intelligibility Index. ANSI.
注4:https://www.audiologyonline.com/articles/20q-aided-speech-intelligibility-index-23707
注5:ETSI. (2012). Speech and multimedia Transmission Quality (STQ); Speech quality performance in the presence of background noise; Part 1: Background noise simulation technique and background noise database 202 396-1. ETSI.
【手続補正書】
【提出日】2023-12-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオデバイス(30)によってリアルタイムで実行されるスピーチオーディオを含むオーディオストリーム(20)のスピーチ了解度を高める方法(100)であって、
周囲ノイズ(40)を検出するステップ(110)と、
前記周囲ノイズ(40)に基づいて内部ノイズ(40’)を推定するステップ(120)
であって、推定された前記内部ノイズ(40’)は、前記オーディオデバイス(30)のユーザの鼓膜で知覚されるノイズの推定値である、ステップと、
推定された前記内部ノイズ(40’)及び前記オーディオストリーム(20)に基づいて音声フィルタ(50)を決定するステップ(130)
であって、前記音声フィルタ(50)は、心理音響マスキングに基づく音声フィルタ(50)である、ステップと、
前記音声フィルタ(50)を前記オーディオストリーム(20)に適用して(140)、標的オーディオストリーム(20’)を提供するステップと、
前記標的オーディオストリーム(20’)を1つ以上のトランスデューサ(35)に出力して(150)、それによって、前記オーディオデバイス(30)の
前記ユーザの前記鼓膜で内部サウンド(37)を生成するステップと、
前記オーディオデバイス(30)の前記内部サウンド(37)を検出するステップ(160)と、
を含み、
前記音声フィルタ(50)を決定するステップ(130)は、検出された前記内部サウンド(37)にさらに基づき、
検出された前記内部サウンド(37)から推定された前記内部ノイズ(40’)を減算し(132)、真のオーディオストリーム(37’)を提供するステップと、
前記標的オーディオストリーム(20’)と前記真のオーディオストリーム(37’)との間の差に基づいて、前記音声フィルタ(50)を更新する(138)ステップと、
を含む、方法(100)。
【請求項2】
前記音声フィルタ(50)を決定するステップ(130)は、
推定された前記内部ノイズ(40’)を1つ以上のマスキング閾値(T)と比較するステップ(134)と、
前記比較(134)に基づいて、前記音声フィルタ(50)を更新するステップ(138)と、
をさらに含
み、
好ましくは、前記1つ以上のマスキング閾値(T)は、前記オーディオストリーム(20)の臨界帯域分析(137)を実行することによって計算され、前記臨界帯域分析(137)は、周波数拡散による聴覚マスキングを含む、請求項1に記載の方法(100)。
【請求項3】
前記オーディオデバイス(30)のユーザに関連付けられた聴覚プロファイル(HL(f
k))を補償するために、前記オーディオストリーム(20)をフィルタリングするステップ(105)をさらに含
み、
好ましくは、前記音声フィルタ(5)を決定するステップ(130)は、前記決定(130)が前記オーディオデバイス(30)の前記ユーザに関連付けられた聴覚プロファイル(HL(f
k
))について補償されたオーディオストリーム(20)に基づくように、前記フィルタリング(105)の後に実行される、請求項
1に記載の方法(100)。
【請求項4】
前記音声フィルタ(50)を決定するステップ(130)は、
再生音量(15)に基づいて再生フォンを決定するステップ(136)
をさらに含み、
前記音声フィルタ(50)を更新するステップ(138)は、決定された前記再生フォンに関連付けられた等ラウドネス曲線に、さらに基づ
き、
好ましくは、前記再生フォンを決定するステップ(136)は、前記内部サウンド(37)に、さらに基づく、請求項
1に記載の方法(100)。
【請求項5】
前記音声フィルタ(50)を決定するステップ(130)は、周波数窓関数を使用する畳み込みによって、周波数において前記音声フィルタ(50)の利得を平滑化することをさらに含む、請求項
1に記載の方法(100)。
【請求項6】
前記音声フィルタ(50)を決定するステップ(130)は、1つ以上の重み付けパラメータ(T
i)を含む指数的に重み付けされた移動平均を使用して前記音声フィルタ(50)
の利得を平均化することをさらに含む、請求項
1に記載の方法(100)。
【請求項7】
前記音声フィルタ(5)を決定するステップ(130)は、前記音声フィルタ(5)が前記オーディオストリーム(20)に適用されるべき度合い(m)を選択するために、構成可能な混合設定を適用することをさらに含む、請求項
1に記載の方法(100)。
【請求項8】
前記内部ノイズ(37’)を推定するステップ(120)は、1つ以上の反復ニューラルネットワーク(RNN)によって実装される、請求項1~
7のいずれか一項に記載の方法(100)。
【請求項9】
前記周囲ノイズ(40)は、前記オーディオデバイス(30)に動作可能に接続された外部マイクロホン(5)によって検出され
、及び/又は
前記周囲ノイズ(40)は、最大10kHz、好ましくは最大8kHzまでの最大オーディオ帯域幅に制限される、請求項1~
7のいずれか一項に記載の方法(100)。
【請求項10】
前記音声フィルタ(50)を前記オーディオストリーム(20)に適用した(140)後、前記オーディオストリーム(20)に能動型ノイズキャンセル(ANC)を適用するステップをさらに含む、請求項1~
7のいずれか一項に記載の方法(100)。
【請求項11】
1つ以上のトランスデューサ(35)と、ユーザの耳腔における内部サウンド(37)を検出するように配置された少なくとも1つの内部マイクロフォン(36)と、前記内部マイクロフォン(36)と、前記1つ以上のトランスデューサ(35)と、外部マイクロフォン(5)に動作可能に接続された処理モジュール(32)とを備えるオーディオデバイス(30)であって、前記処理モジュール(32)は、請求項1~
7のいずれか一項に記載の方法(100)を実行するように構成される、オーディオデバイス(30)。
【請求項12】
前記外部マイクロフォン(5)は、前記オーディオデバイス(30)に含まれる、請求項
11に記載のオーディオデバイス(30)。
【請求項13】
リアルタイムでスピーチ了解度を高めるためのオーディオシステム(1)であって、前記システム(1)は、オーディオデバイス(30)に動作可能に接続され、スピーチオーディオを含むオーディオストリーム(20)を前記オーディオデバイス(30)に伝達するように構成されたポータブル電子デバイス(10)を備え、前記オーディオデバイスは、請求項
11に記載のオーディオデバイスである、オーディオシステム(1)。
【請求項14】
前記周囲ノイズ(40)は、前記電子デバイス(10)内に含まれる外部マイクロホン(5)によって感知され、前記電子デバイス(10)は、前記外部マイクロホン(5)によって感知された前記周囲ノイズ(40)を前記オーディオデバイス(30)に伝達するように、さらに構成される、請求項
13に記載のオーディオシステム(1)。
【請求項15】
処理モジュール(32)によって実行されると、前記処理モジュール(32)に請求項1~
7のいずれか一項に記載の方法(100)を実行させるように構成されたコンピュータプログラム製品(200)。
【国際調査報告】