(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-06
(54)【発明の名称】適応ビーム形成のためのシステム及び方法
(51)【国際特許分類】
G10L 21/0208 20130101AFI20230929BHJP
G10L 25/84 20130101ALI20230929BHJP
【FI】
G10L21/0208 100A
G10L25/84
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023517767
(86)(22)【出願日】2021-09-16
(85)【翻訳文提出日】2023-05-15
(86)【国際出願番号】 US2021071487
(87)【国際公開番号】W WO2022061357
(87)【国際公開日】2022-03-24
(32)【優先日】2020-09-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】591009509
【氏名又は名称】ボーズ・コーポレーション
【氏名又は名称原語表記】BOSE CORPORATION
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】エリー・ブー・ダヘル
(72)【発明者】
【氏名】クリスティアン・エム・ヘラ
(57)【要約】
ユーザの音声を捕捉するためのシステムであって、システムは、車両キャビンの周りに配設された複数のマイクロフォンであって、複数のマイクロフォンの各々がマイクロフォン信号を生成し、車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、少なくとも、複数の着座位置のうちのターゲット座席に着座したユーザが発話中であるときを検出するように構成された音声活動検出器と、複数のマイクロフォンからマイクロフォン信号を受信し、マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、音声活動検出器に従って、ターゲット着座位置に着座したユーザが発話中であるときに雑音コヒーレンス行列が更新されなくなる、適応ビーム形成器と、を含む。
【特許請求の範囲】
【請求項1】
適応ビーム形成システムであって、前記システムが、
車両キャビンの周りに配設された複数のマイクロフォンであって、前記複数のマイクロフォンの各々がマイクロフォン信号を生成し、前記車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、
少なくとも、前記複数の着座位置のうちのターゲット座席に着座したユーザが発話中であるときを検出するように構成された、音声活動検出器と、
前記複数のマイクロフォンから前記マイクロフォン信号を受信し、前記マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、前記音声活動検出器に従って、前記ターゲット着座位置に着座した前記ユーザが発話中であるときに前記雑音コヒーレンス行列が更新されなくなる、適応ビーム形成器と、を備える、システム。
【請求項2】
前記ターゲット座席が、ユーザ選択に従って選択される、請求項1に記載のシステム。
【請求項3】
ユーザが発話中であることを、前記音声活動検出器が前記複数の着座位置のうちのどの着座位置で検出するかに従って、前記ターゲット座席が選択される、請求項1に記載のシステム。
【請求項4】
前記適応ビーム形成器が、前記音声活動検出器に従って、前記複数の着座位置のいずれかにいるユーザが発話中であるときに、前記雑音コヒーレンス行列の更新をやめるように更に構成されている、請求項1に記載のシステム。
【請求項5】
前記適応ビーム形成器が、複数の雑音コヒーレンス行列を計算するように更に構成され、前記複数の雑音コヒーレンス行列の各々が、前記複数の着座位置と関連付けられたそれぞれの着座位置における雑音条件を表し、前記複数の雑音コヒーレンス行列の各々が、前記音声活動検出器に従って、前記関連付けられた着座位置にいるユーザが発話中であるときに更新されなくなる、請求項1に記載のシステム。
【請求項6】
前記適応ビーム形成器が、前記音声活動検出器に従って、前記ターゲット着座位置に着座した前記ユーザが発話中であり、第2のターゲット着座位置に着座した前記ユーザが発話中であるときに、前記第2のターゲット着座位置における第2の音響信号の推定値を生成するように更に構成され、前記音響信号の前記推定値と前記第2の音響信号とが合計される、請求項1に記載のシステム。
【請求項7】
前記適応ビーム形成器が、前記音声活動検出器に従って、前記ターゲット着座位置に着座した前記ユーザが発話中であり、第2のターゲット着座位置に着座した前記ユーザが発話中であるときに、第2の適応ビーム形成アルゴリズムに従って、前記音響信号の推定値及び前記第2のターゲット着座位置における第2の音響信号を生成するように更に構成されている、請求項1に記載のシステム。
【請求項8】
前記第2の適応ビーム形成アルゴリズムが、線形制約最小分散ビーム形成アルゴリズムである、請求項7に記載のシステム。
【請求項9】
適応ビーム形成システムであって、前記システムが、
車両キャビンの周りに配設された複数のマイクロフォンであって、前記複数のマイクロフォンの各々がマイクロフォン信号を生成し、前記車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、
前記複数の着座位置のうちのターゲット着座位置に着座したユーザが発話中であるときを検出するように構成された、音声活動検出器と、
適応ビーム形成器であって、前記複数のマイクロフォンから前記マイクロフォン信号を受信し、適応ビーム形成アルゴリズムに従って、前記マイクロフォン信号と、第1の雑音コヒーレンス行列及び第2の雑音コヒーレンス行列のうちの1つとに基づいて、前記ターゲット着座位置における音響信号の推定値を生成するように構成された、適応ビーム形成器と、を備え、
前記第1の雑音コヒーレンス行列が、以前に計算された第1の雑音コヒーレンス行列を新たに計算された第1の雑音コヒーレンス行列と再帰的に合計することによって計算され、前記以前に計算された第1の雑音コヒーレンス行列が、前記新たに計算された第1の雑音コヒーレンス行列よりも重く重み付けされ、前記音声活動検出器が前記ターゲット着座位置に着座した前記ユーザが発話中であることを検出したときに、前記適応ビーム形成器の係数が前記第1の雑音コヒーレンス行列を使用して更新され、
前記第2の雑音コヒーレンス行列が、以前に計算された第2の雑音コヒーレンス行列を新たに計算された第2の雑音コヒーレンス行列と再帰的に合計することによって計算され、前記以前に計算された第2の雑音コヒーレンス行列が、前記新たに計算された第2の雑音コヒーレンス行列よりも軽く重み付けされ、前記音声活動検出器が前記ターゲット着座位置に着座した前記ユーザが発話中であることを検出しないときに、適応ビーム形成フィルタの前記係数が前記第2の雑音コヒーレンス行列を使用して更新される、システム。
【請求項10】
前記適応ビーム形成器の前記係数が、前のフレーム中に記憶された第1の過去の雑音コヒーレンス行列を使用して更新され、前記第1の過去の雑音コヒーレンス行列が、前記ターゲット着座位置に着座した前記ユーザが発話中であることを前記音声活動検出器が検出する少なくとも所定の時間期間だけ前に記憶されており、前記所定の時間期間が、ターゲットユーザが発話中であることを前記音声活動検出器が検出するのに必要な遅延よりも長い、請求項9に記載のシステム。
【請求項11】
適応ビーム形成システムであって、前記システムが、
車両キャビンの周りに配設された複数のマイクロフォンであって、前記複数のマイクロフォンの各々がマイクロフォン信号を生成し、前記車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、
前記複数のマイクロフォンから前記マイクロフォン信号を受信し、前記マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、前記雑音コヒーレンス行列が、少なくとも部分的に所定の雑音コヒーレンス行列から決定され、前記所定の雑音コヒーレンス行列が、前記車両キャビン内に配設された少なくとも1つのスピーカによって前記車両キャビンに導入される雑音条件を表す、適応ビーム形成器と、を備える、システム。
【請求項12】
前記所定の雑音コヒーレンス行列の利得が、前記雑音条件の大きさに従って設定される、請求項11に記載のシステム。
【請求項13】
前記所定の雑音コヒーレンス行列の前記利得が、複数のサンプルにわたって増加される、請求項12に記載のシステム。
【請求項14】
前記所定の雑音コヒーレンス行列が、前記雑音条件が前記車両キャビンに導入されなくなったときに、更新された雑音コヒーレンス行列から減算され、前記更新された雑音コヒーレンス行列が、複数のマイクロフォン信号による前記雑音コヒーレンス行列の更新である、請求項11に記載のシステム。
【請求項15】
前記雑音コヒーレンス行列が、計算された雑音コヒーレンス行列と前記所定の雑音コヒーレンス行列との合計を含み、前記計算された雑音コヒーレンス行列が、前記所定の雑音コヒーレンス行列と合計される前に反転状態から反転される、請求項11に記載のシステム。
【請求項16】
前記所定の雑音コヒーレンス行列が、逆行列として取り出される、請求項11に記載のシステム。
【請求項17】
適応ビーム形成システムであって、前記システムが、
車両キャビンの周りに配設された複数のマイクロフォンであって、前記複数のマイクロフォンの各々がマイクロフォン信号を生成し、前記車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、
前記複数のマイクロフォンから前記マイクロフォン信号を受信し、前記マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、前記音響信号の前記推定値の白色雑音利得が改善されるように、複数のマイクロフォン信号の各々に人為的な白色雑音信号が加算される、適応ビーム形成器と、を備える、システム。
【請求項18】
前記人為的な白色雑音信号が、最小白色雑音利得が所定の周波数範囲にわたって達成されるように選択される、請求項17に記載のシステム。
【請求項19】
前記人為的な白色雑音信号が、予め定められている、請求項17に記載のシステム。
【請求項20】
前記人為的な白色雑音信号が、前記キャビン内の雑音条件に従って複数の人為的な白色雑音信号から選択される、請求項17に記載のシステム。
【請求項21】
前記人為的な白色雑音信号が、前記雑音コヒーレンス行列の条件数が周波数にわたって所定の範囲内に維持されるように調整される、請求項17に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2020年9月17日に出願され、「Systems and Methods for Adaptive Beamforming」と題された米国特許出願第17/024,361号の優先権を主張し、その開示全体が参照により本明細書に組み込まれる。
本発明は、適応ビーム形成のためのシステム及び方法に関する。
【背景技術】
【0002】
本開示は、概して、適応ビーム形成のためのシステム及び方法に関する。
【発明の概要】
【課題を解決するための手段】
【0003】
下記で言及される全ての実施例及び特徴は、任意の技術的に可能な方式で組み合わせることができる。
【0004】
一態様によれば、適応ビーム形成システムは、車両キャビンの周りに配設された複数のマイクロフォンであって、複数のマイクロフォンの各々がマイクロフォン信号を生成し、車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、少なくとも、複数の着座位置のうちのターゲット座席に着座したユーザが発話中であるときを検出するように構成された音声活動検出器と、複数のマイクロフォンからマイクロフォン信号を受信し、マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、音声活動検出器に従って、ターゲット着座位置に着座したユーザが発話中であるときに雑音コヒーレンス行列が更新されなくなる、適応ビーム形成器と、を含む。
【0005】
一実施例では、ターゲット座席は、ユーザ選択に従って選択される。
【0006】
一実施例では、ユーザが発話中であることを、音声活動検出器が複数の着座位置のうちのどの着座位置で検出するかに従って、ターゲット座席が選択される。
【0007】
一実施例では、適応ビーム形成器は、音声活動検出器に従って、複数の着座位置のいずれかにいるユーザが発話中であるときに、雑音コヒーレンス行列の更新をやめるように更に構成されている。
【0008】
一実施例では、適応ビーム形成器は、複数の雑音コヒーレンス行列を計算するように更に構成され、複数の雑音コヒーレンス行列の各々は、複数の着座位置と関連付けられたそれぞれの着座位置における雑音条件を表し、複数の雑音コヒーレンス行列の各々は、音声活動検出器に従って、関連付けられた着座位置にいるユーザが発話中であるときに更新されなくなる。
【0009】
一実施例では、適応ビーム形成器は、音声活動検出器に従って、ターゲット着座位置に着座したユーザが発話中であり、第2のターゲット着座位置に着座したユーザが発話中であるときに、第2のターゲット着座位置における第2の音響信号の推定値を生成するように更に構成され、音響信号の推定値と第2の音響信号とが合計される。
【0010】
一実施例では、適応ビーム形成器は、音声活動検出器に従って、ターゲット着座位置に着座したユーザが発話中であり、第2のターゲット着座位置に着座しているユーザが発話中であるときに、第2の適応ビーム形成アルゴリズムに従って、音響信号の推定値及び第2のターゲット着座位置における第2の音響信号を生成するように更に構成されている。
【0011】
一実施例では、第2の適応ビーム形成アルゴリズムは、線形制約最小分散ビーム形成アルゴリズムである。
【0012】
別の態様によれば、適応ビーム形成システムは、車両キャビンの周りに配設された複数のマイクロフォンであって、複数のマイクロフォンの各々がマイクロフォン信号を生成し、車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、複数の着座位置のターゲット着座位置に着座したユーザが発話中であるときを検出するように構成された、音声活動検出器と、適応ビーム形成器であって、複数のマイクロフォンからマイクロフォン信号を受信し、適応ビーム形成アルゴリズムに従って、マイクロフォン信号と、第1の雑音コヒーレンス行列及び第2の雑音コヒーレンス行列のうちの1つとに基づいて、ターゲット着座位置における音響信号の推定値を生成するように構成された、適応ビーム形成器と、を含み、第1の雑音コヒーレンス行列は、以前に計算された第1の雑音コヒーレンス行列を新たに計算された第1の雑音コヒーレンス行列と再帰的に合計することによって計算され、以前に計算された第1の雑音コヒーレンス行列は、新たに計算された第1の雑音コヒーレンス行列よりも重く重み付けされ、音声活動検出器がターゲット着座位置に着座したユーザが発話中であることを検出したときに、適応ビーム形成器の係数が第1の雑音コヒーレンス行列を使用して更新され、第2の雑音コヒーレンス行列は、以前に計算された第2の雑音コヒーレンス行列を新たに計算された第2の雑音コヒーレンス行列と再帰的に合計することによって計算され、以前に計算された第2の雑音コヒーレンス行列は、新たに計算された第2の雑音コヒーレンス行列よりも軽く重み付けされ、音声活動検出器がターゲット着座位置に着座したユーザが発話中であることを検出しないときに、適応ビーム形成フィルタの係数が第2の雑音コヒーレンス行列を使用して更新される。
【0013】
一実施例では、適応ビーム形成器の係数は、前のフレーム中に記憶された第1の過去の雑音コヒーレンス行列を使用して更新され、第1の過去の雑音コヒーレンス行列は、ターゲット着座位置に着座したユーザが発話中であることを音声活動検出器が検出する少なくとも所定の時間期間だけ前に記憶されており、所定の時間期間は、ターゲットユーザが発話中であることを音声活動検出器が検出するのに必要な遅延よりも長い。
【0014】
別の態様によれば、適応ビーム形成システムは、車両キャビンの周りに配設された複数のマイクロフォンであって、複数のマイクロフォンの各々がマイクロフォン信号を生成し、車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、複数のマイクロフォンからマイクロフォン信号を受信し、マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、雑音コヒーレンス行列が、少なくとも部分的に所定の雑音コヒーレンス行列から決定され、所定の雑音コヒーレンス行列が、車両キャビン内に配設された少なくとも1つのスピーカによって車両キャビンに導入される雑音条件を表す、適応ビーム形成器と、を含む。
【0015】
一実施例では、所定の雑音コヒーレンス行列の利得は、雑音条件の大きさに従って設定される。
【0016】
一実施例では、所定の雑音コヒーレンス行列の利得は、複数のサンプルにわたって増加される。
【0017】
一実施例では、所定の雑音コヒーレンス行列は、雑音条件が車両キャビンに導入されなくなったときに、更新された雑音コヒーレンス行列から減算され、更新された雑音コヒーレンス行列は、複数のマイクロフォン信号による雑音コヒーレンス行列の更新である。
【0018】
一実施例では、雑音コヒーレンス行列は、計算された雑音コヒーレンス行列と所定の雑音コヒーレンス行列との合計を含み、計算された雑音コヒーレンス行列は、所定の雑音コヒーレンス行列と合計される前に反転状態から反転される。
【0019】
一実施例では、所定の雑音コヒーレンス行列は、逆行列として取り出される。
【0020】
別の態様によれば、適応ビーム形成システムは、車両キャビンの周りに配設された複数のマイクロフォンであって、複数のマイクロフォンの各々がマイクロフォン信号を生成し、車両キャビンが複数の着座位置を画定する、複数のマイクロフォンと、複数のマイクロフォンからマイクロフォン信号を受信し、マイクロフォン信号及び雑音コヒーレンス行列に基づいて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成するように構成された適応ビーム形成器であって、音響信号の推定値の白色雑音利得が改善されるように、複数のマイクロフォン信号の各々に人為的な白色雑音信号が加算される、適応ビーム形成器と、を含む。
【0021】
一実施例では、人為的な白色雑音信号は、最小白色雑音利得が所定の周波数範囲にわたって達成されるように選択される。
【0022】
一実施例では、人為的な白色雑音信号は、予め定められている。
【0023】
一実施例では、人為的な白色雑音信号は、キャビン内の雑音条件に従って複数の人為的な白色雑音信号から選択される。
【0024】
一実施例では、人為的な白色雑音信号は、雑音コヒーレンス行列の条件数が周波数にわたって所定の範囲内に維持されるように調整される。
【0025】
1つ以上の実装形態の詳細が、添付図面及び以下の説明において記載される。他の特徴、目的、及び利点は、本明細書及び図面から、並びに特許請求の範囲から明らかになるであろう。
図面では、同じ参照符号は、一般に、異なる図を通して同じ部分を指す。また、図面は、必ずしも縮尺通りではなく、むしろ、一般に、様々な態様の原理を例解することに重点が置かれている。
【図面の簡単な説明】
【0026】
【
図1A】適応ビーム形成器及びマイクロフォンを実装するコントローラを有する、一実施例による車両キャビンの概略図を示す。
【
図1B】適応ビーム形成器及び音声活動検出器を実装し、マイクロフォンからマイクロフォン信号を受信する、一実施例によるコントローラの概略図を示す。
【
図2A】少なくとも1人のユーザが発話中でないことを音声活動検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2B】少なくとも1人のユーザが発話中でないことを音声アクティビティ検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2C】少なくとも1人のユーザが発話中でないことを音声アクティビティ検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2D】少なくとも1人のユーザが発話中でないことを音声活動検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2E】少なくとも1人のユーザが発話中でないことを音声アクティビティ検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2F】少なくとも1人のユーザが発話中でないことを音声アクティビティ検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図2G】少なくとも1人のユーザが発話中でないことを音声活動検出器が検出したときに雑音コヒーレンス行列が更新される、一実施例による適応ビーム形成のための方法を示す。
【
図3A】可変忘却係数を持つ雑音コヒーレンス行列が、最小限の1人のユーザの音声活動検出器に従って選択される、一実施例による適応ビーム形成のための方法を示す。
【
図3B】可変忘却係数を持つ雑音コヒーレンス行列が、最小限の1人のユーザの音声アクティビティ検出器に従って選択される、一実施例による適応ビーム形成のための方法を示す。
【
図3C】可変忘却係数を持つ雑音コヒーレンス行列が、最小限の1人のユーザの音声アクティビティ検出器に従って選択される、一実施例による適応ビーム形成のための方法を示す。
【
図3D】可変忘却係数を持つ雑音コヒーレンス行列が、最小限の1人のユーザの音声活動検出器に従って選択される、一実施例による適応ビーム形成のための方法を示す。
【
図4A】雑音コヒーレンス行列が少なくとも部分的に所定の雑音コヒーレンス行列に基づく、一実施例による適応ビーム形成のための方法を示す。
【
図4B】雑音コヒーレンス行列が少なくとも部分的に所定の雑音コヒーレンス行列に基づく、一実施例による適応ビーム形成のための方法を示す。
【
図5】マイクロフォン信号に人為的な白色雑音が付加される、一実施例による適応ビーム形成のための方法を示す。
【発明を実施するための形態】
【0027】
マイクロフォンアレイは、車両内に配設されたハンズフリーシステムの信号処理チェーンにおける第1段のうちの1つを構成する。マイクロフォンアレイは、それらの雑音及び干渉除去能力に加えて、それらの入力における改善された信号対雑音比に起因して、音響エコーキャンセラ及び残留エコー抑制器などのシステム内の後続構成要素の改善された性能をもたらす。車両環境は非常に雑音が多く、したがって、許容できる全体的なシステム性能を得るためにはマイクロフォンアレイの使用が不可欠である。
【0028】
マイクロフォンアレイは、固定型又は適応型のいずれかであることができる。固定マイクロフォンアレイは、通常、実装がより容易で計算コストがより低い。しかしながら、固定マイクロフォンアレイは、様々な雑音条件に対処する場合、性能に一貫性がないことに悩まされる。実際、全ての雑音条件において良好に機能することができる固定マイクロフォンを設計することは非常に困難である。アレイは、そのアレイが設計されたのと同じ雑音条件に適用されるときに最良の性能を有する。しかしながら、雑音条件が変化すると、アレイの性能は低下し始め、アレイが性能を促進するのではなく性能を損なう点に達する。
【0029】
適応ビーム形成器は、フィルタ係数を雑音条件に適応させることによって、固定ビーム形成器の性能劣化を除去する。
図1Aは、マイクロフォン104のアレイから複数のマイクロフォン信号m
1、m
2、m
3を受信し、適応ビーム形成アルゴリズムを実装して、着座位置のうちの少なくとも1つにおける音響信号を推定するコントローラ102を特徴とする、車両キャビン100の例示的な概略図を示す。キャビンは複数の着座位置を画定し、
図1Aではそれぞれ座席106の中心であるP1及びP2として示されるが、任意の数の着座位置をそのように画定することができる(例えば、5座席の乗用車に対して5つの着座位置を画定することができる)。同様に、マイクロフォン104のアレイは、3つのマイクロフォン104のみを含むように示されているが、アレイは、キャビン内の音声活動を捕捉し、任意の数のマイクロフォン信号mを生成するのに適した任意の場所に配設された任意の数のマイクロフォンを含むことができる。本開示の目的のために、マイクロフォンは、車両キャビン内の音響信号を受信し、それを電気信号に変換する任意のセンサである。
【0030】
一実施例では、コントローラ102は、非一時的記憶媒体108とプロセッサ110とを備え得る。一実施例では、非一時的記憶媒体108はプログラムコードを記憶し得、当該プログラムコードは、プロセッサ110によって実行されたときに、下で記載する種々のフィルタ及びアルゴリズムを実施する。コントローラ102は、ハードウェア及び/又はソフトウェアに実装され得る。例えば、コントローラ102は、SHARC浮動小数点DSPプロセッサによって実装され得るが、コントローラ102が、任意の他のプロセッサ、FPGA、ASIC、又は他の好適なハードウェアによって実装され得ることを理解されたい。
【0031】
図1Bは、コントローラ102及びマイクロフォン104のブロック図を示す。示されるように、コントローラ102は、適応ビーム形成器112を実装することができ、適応ビーム形成器112は、適応ビーム形成アルゴリズムに従って、マイクロフォン信号mを受信し、少なくとも1つの着座位置における音響信号の推定値を表す出力信号p
outを生成するように構成されている。本開示の目的のために、適応ビーム形成器112は、それぞれのマイクロフォン104の場所における音響信号の位相シフト及び減衰を考慮するために各マイクロフォン信号mをフィルタリングすることによって、少なくとも1つの音響信号を推定する。加えて、適応ビーム形成器112は、適応ビーム形成器アルゴリズムに従って、出力信号p
outにおいて周囲雑音が低減されるように、フィルタ係数をキャビン内の雑音条件に適応させることによって、固定ビーム形成器の性能劣化を低減する。したがって、音響信号の推定は純粋な推定ではなく、むしろユーザの音声を明瞭に再生するために周囲雑音を低減するものである。適応ビーム形成器112の動作は、下に詳述されるように、
図2~
図5に関連してより完全に記載される。
【0032】
図1Bに示されるように、コントローラ102は、音声活動検出器114を更に実装することができる。音声活動検出器114は、一実施例では、マイクロフォン信号mの一部又は全部を受信し、それらのマイクロフォン信号mから、着座位置P1に座っているユーザが発話(音声活動)中かどうかを判定することができる。音声活動検出器114は、ユーザが発話中かどうか(例えば、VAD=0又はVAD=1)を表す音声活動検出信号v
outを出力することができる。加えて、いくつかの実施例では、音声活動検出器は、車両内の他の着座位置(例えば、着座位置P2)における音声活動を検出することができる。これらの実施例では、音声活動検出信号v
outは、どの着座位置で音声活動が検出されるかを識別することができる。そのような座席ごとの音声活動検出器は、車両キャビン100内の任意の数の音声活動を検出することができ、すなわち、VAD
i,i=1,...,N
sであり、ここで、VAD
iは、所望のi番目の座席からの発話を検出し、N
sは、所望の座席の数である。
【0033】
音声活動検出方法は一般に公知であり、音声活動検出器114は、任意の好適な音声活動検出方法に従って実装することができる。音声活動検出器114は、コントローラ102によって実装されるように示されているが、様々な代替例では、音声活動検出器がコントローラ102とは別個に実装されてもよい。
【0034】
図2~
図5は、適応ビーム形成に対する様々な改善を特徴とする方法を示す。これらの方法は、
図1A及び
図1Bのシステムに関連して記載される。ただし、
図2~
図5の方法のステップは、適応ビーム形成のための任意の好適なシステムによって実装され得ることを理解されたい。
【0035】
最初に
図2Aを参照すると、適応ビーム形成のための方法200が示されており、そこでは、ターゲット座席のユーザが発話中でないときにのみ雑音コヒーレンス行列が更新される。ステップ202において、車両キャビン100の周りに配設されたマイクロフォン104から、複数のマイクロフォン信号mが受信される。ステップ204において、適応ビーム形成器112は、雑音コヒーレンス行列に基づいて、これらのマイクロフォン信号を用いて、適応ビーム形成アルゴリズムに従ってターゲット着座位置における音響信号の推定値を生成する。(「ターゲット着座位置」とは、車両内の任意の着座位置を指すことができることを理解されたい。)
【0036】
例えば、着座位置P
1のユーザが発話中であるとき、各マイクロフォン104は、着座位置P
1のユーザ及びそれぞれのマイクロフォン104からの経路によって影響を受けるユーザの発話から生じる音響信号を受信する。この経路の性質(例えば、経路の長さ、及び経路内に位置する任意の障害物を含む)は、各マイクロフォン信号mの相対的な大きさ及び位相の何らかの変化を決定付ける。
図1Aに示されるように、マイクロフォン信号m
1を生成するマイクロフォン104aは、着座位置P
1からある距離d
1の場所に配設されている。同様に、マイクロフォン104bは、座席P
1からある距離d
2の場所に配設され、マイクロフォン104cは、着座位置P
1からある距離d
3の場所に配設されている。マイクロフォン104a及び104cから着座位置P
1までの経路に障害物がないと仮定すると、距離d
1は距離d
3よりも短いので、マイクロフォン104aは、マイクロフォン104bで受信された同じ音響信号の減衰及び位相シフトよりも比較的小さい音響信号の減衰及び位相シフトを受ける。適応ビーム形成器112は、実際には、各マイクロフォン信号mをフィルタリングして、着座位置P
1からそれぞれのマイクロフォンまでの経路から生じる減衰及び位相シフトを除去する。このようにして、マイクロフォン信号m
3は、音響信号の進行距離d
3の結果としてのマイクロフォン104cにおける音響信号の減衰及び位相シフトを除去するためにフィルタリングされ、マイクロフォン信号m
2は、音響信号の進行距離d
2の結果としてのマイクロフォン104bにおける音響信号の減衰及び位相シフトを除去するためにフィルタリングされ、マイクロフォン信号m
1は、音響信号の進行距離d
1の結果としてのマイクロフォン104aにおける音響信号の減衰及び位相シフトを除去するためにフィルタリングされる。着座位置P
1との間の経路に障害物がある限りにおいて、障害物によって誘発される減衰及び位相シフトもまた推定され、フィルタにおいて考慮されることができる。
【0037】
代替的に、マイクロフォン104aなどの1つのマイクロフォンが着座位置P1のための基準マイクロフォンとして機能することができ、他の全てのマイクロフォンは、マイクロフォン信号m1に対する相対減衰及び位相シフトを考慮するためにフィルタリングされ得る。したがって、マイクロフォンm2は、マイクロフォン信号m1に関する減衰及び位相シフトを除去するためにフィルタリングされ得、マイクロフォンm3は、マイクロフォン信号m1に関する減衰及び位相シフトを除去するためにフィルタリングされ得る。この場合、適応ビーム形成器112は、各マイクロフォン間の大きさ及び位相関係を推定し、各マイクロフォン信号mをフィルタリングして、大きさ及び位相においてマイクロフォン信号mを基準マイクロフォン信号と建設的に整合させる。
【0038】
いずれの実施例においても、すなわち、各マイクロフォン及び着座位置からの固有の伝達関数を考慮するか、又は各マイクロフォンと基準マイクロフォンとの間の大きさ及び位相関係を考慮すると、適応ビーム形成器112は、着座位置P1に向かってビームをステアリングして、そこに着座したユーザの音響信号を推定すると考えられる。更に、各マイクロフォン信号は、減衰及び位相シフトが周波数にわたって変化するため、各周波数に対して一意にフィルタリングされなければならない。加えて、適応ビーム形成器112は、着座位置P1でユーザが発話中であることの結果として生じた車両キャビン内の反射を考慮することができる。例えば、着座位置P1に着座したユーザからの発話は、窓、天井などからの反射を生成する。これらの反射を考慮するために、適応ビーム形成器112は、ビームが着座位置に向かってステアリングされたのと同じように、反射源に向かって追加のビームをステアリングすることができる。したがって、適応ビーム形成器112は、所望の音声信号の全ての発信元の累積を考慮することができる。(上記の実施例は、ターゲット座席P1について説明されているが、車両内の任意の座席が、音響信号が推定される対象座席として同様に機能することができる。)
【0039】
上述したように、固定ビーム形成器性能及び推定された音声の品質は、車両キャビン内に雑音の存在下では劣化する。適応ビーム形成アルゴリズムは、キャビン内の雑音条件にフィルタ係数を適応させることによって、固定ビーム形成器の性能劣化を低減する。そのような1つの適応ビーム形成器アルゴリズムは、最小分散無歪応答(minimum variance distortionless response、MVDR)である。k番目の周波数ビンでMVDR設計係数は、次のように得られる。
【0040】
【数1】
式中、C
nn(k)は、周波数N×Nにおけるkの雑音コヒーレンス行列であり、Nは、マイクロフォンの数であり、d(k)は、同じ周波数における所望の音源のステアリングベクトルである。上述したように、ステアリングベクトルは、マイクロフォンの場所及び所望の音源に依存する遅延及び減衰の表現である。雑音コヒーレンス行列は、現在のサンプルについて検出された雑音条件を表す。
【0041】
実際には、d(k)及び初期Cnn(k)は、車両内の所望の音源及び望ましくない音源の記録から生成することができる。自由場方程式の代わりに記録を使用することにより、記録が車両における反射及び伝達関数を組み込むので、より堅牢な設計をもたらす。ステアリングベクトルd(k)は、所望の信号の記録を使用して事前に測定され、メモリに記憶される。これは、所望の音源場所(例えば運転席)が経時的に大きく変化しないので可能である。対照的に、雑音コヒーレンス行列は、雑音条件を追跡するために定期的に更新される。雑音コヒーレンス更新の式は次のように表される。
【0042】
【数2】
式中、λ(k)は適応の速度を制御する忘却係数であり、C
nn(k,n)はk番目の周波数ビンにおける更新された雑音コヒーレンス行列であり、C
nn(k,n-1)は前の雑音コヒーレンス行列であり、x(k,n)は現在のフレームにおける受信信号ベクトルである。したがって、雑音コヒーレンス行列は、以前に計算された雑音コヒーレンス行列及び新しく計算された雑音コヒーレンス行列を使用して再帰的に更新することができる。
【0043】
忘却係数λ(k)は、周波数ビンkにおける収束速度を制御する。λ(k)は、特に発話活動の存在下において、正しい雑音条件への収束の速度とアルゴリズムの長期性能との間のトレードオフをもたらす。
【0044】
式(1)の雑音コヒーレンス行列の逆行列(すなわち、
【0045】
【数3】
は、周波数ごとに行われなければならない。多数のマイクロフォン104又は多数のFFTポイントの場合、これは結果として高い計算複雑性をまねく。逆行列補題を使用して、逆行列のより効率的な実装を実施することができる。したがって、雑音コヒーレンスの逆数は以下のように計算することができる。
【0046】
【0047】
【数5】
は、前のフレームにおける雑音コヒーレンス行列の逆数であり、
【0048】
【0049】
【0050】
したがって、式(3)及び式(4)は、より効率的な方法で雑音コヒーレンス行列の逆数を再帰的に計算するために使用することができる。
【0051】
式(1)~(2)の雑音コヒーレンス行列は、既知の雑音コヒーレンス行列、すなわち、Cnn(k,0)=Cnn(k,init),k=1...Nf(式中、Nfは周波数ポイントの数であり、Cnn(k,init)は、車両内の予想される雑音条件に対して事前に計算された(すなわち、予め定められた)雑音コヒーレンス行列である)に初期化することができる。同様にして、雑音コヒーレンス行列(式(3)及び(4))の逆数を更新するために逆行列補題を使用した場合、
【0052】
【0053】
【数9】
に初期化することができる。一実施例では、所定の雑音コヒーレンス行列及び逆雑音コヒーレンス行列は、ほとんどの雑音状況に対して良好に機能するように選択された工場出荷値とすることができる。代替実施例では、雑音コヒーレンス行列及び逆雑音コヒーレンス行列は、所定の間隔で、又はa車両のエンジンが止まったときに、非一時的記憶媒体(例えば、非一時的記憶媒体108)に記憶され得る。雑音コヒーレンス行列及び逆雑音コヒーレンス行列が初期化されると、最も新しく記憶された雑音コヒーレンス行列及び逆雑音コヒーレンス行列が記憶装置から取り出され、使用される。代替実施例では、雑音コヒーレンス行列又は逆雑音コヒーレンス行列のうちの一方のみが記憶され、記憶装置から取り出され、反転されて他方に到達する。雑音コヒーレンス行列及び逆雑音コヒーレンス行列が初期化されると、これらの値は、実際の雑音条件を追跡するために、上述したように更新される。
【0054】
しかしながら、所望の信号(すなわち、ターゲット座席における音声活動)の存在下で雑音コヒーレンス行列を更新し続けることは、音響音声信号の望ましくない無効化をもたらすことになるであろう。これを回避するために、雑音コヒーレンス行列は、以下の式に示されるように、所望の信号がない場合にのみ、更新することができる。
【0055】
【0056】
別の言い方をすれば、音声活動がない場合(すなわちVAD=0))、マイクロフォン104からの受信信号mは、雑音を良好に表現しており、したがって、雑音コヒーレンス行列を更新することは、式(2)にあるように、雑音の現在の状態を追跡する。一方、音声活動の存在下では(VAD=1))、マイクロフォン104からの受信信号は、発話及び雑音の両方からなり、その結果、雑音を良好に表現しない。したがって、音声活動の存在下では、前のサンプルからの雑音コヒーレンス行列が現在のサンプルの雑音コヒーレンス行列として設定される。同様に、音声活動が継続する各連続サンプルについて、前のサンプルからの雑音コヒーレンス行列が現在の雑音コヒーレンス行列として設定される。したがって、音声活動の開始前に計算された雑音コヒーレンス行列が、検出された音声活動の持続時間にわたって使用される。音声活動が停止すると、雑音コヒーレンス行列は、式(5)に従って再び更新される。
【0057】
上述したように、逆行列補題は、雑音コヒーレンス行列の逆数をより効率的な方法で計算するために使用することができる。逆行列補題を使用して所望の信号の存在下で雑音コヒーレンス行列の逆数を更新することを防止するために音声活動検出を使用することは、
【0058】
【0059】
【0060】
図2Bは、ターゲット座席のユーザが発話中に雑音コヒーレンス行列を更新するステップを示す。ステップ206において、条件付きステップ206は、ターゲット着座位置で音声活動が検出されたかどうかを尋ねる。検出されなかった場合、雑音コヒーレンス行列は、現在のサンプルにおいて検出された雑音により更新される(例えば、式(12)を参照)。検出された場合、方法200は、雑音コヒーレンス行列を更新せずにステップ204に進む(すなわち、以前に計算された雑音コヒーレンス行列が使用される)。
【0061】
音声活動検出を使用する上記の定式化は、車両内の複数の座席をカバーするように拡張することができる。換言すれば、適応ビーム形成器112は、車両内の2つ以上の座席で音響信号を検出するように構成することができる。
【0062】
概して、座席ごとのステアリングベクトル、すなわちd
i(k)は、座席の場所が実質的に変化しないので、事前に計算されメモリに記憶され得る。一実施例では、ユーザは、ターゲット座席を選択する能力を有することができ、結果として、対応するステアリングベクトルが式で使用される。したがって、着座位置P2が選択された場合は、着座位置P2のステアリングベクトルが式(1)で使用される。一方、着座位置P1が選択された場合は、着座位置P1のステアリングベクトルが式(1)で使用される。これは
図2Cのフロー図に描写されており、ステップ202に先行するステップ210において、ターゲット座席のユーザ選択が受信されることを示している。このユーザ選択はターゲット座席を決定し、ステップ204においてこのターゲット座席について音響信号が推定される。ユーザ選択は、任意の好適なユーザインターフェースに従って(例えば、車両内のタッチスクリーンを使用して)受信することができる。
【0063】
第2の実施例では、選択されたステアリングベクトルは、アクティブな発話場所に基づいて選ばれ得る。換言すれば、発話が特定の座席iから検出されたとき(VADi=1)、対応するステアリングベクトルが使用される。したがって、2座席の実施例では、式(1)が以下のように修正される。
【0064】
【数13】
式中、d
1は、第1の着座位置P1に関連付けられたステアリングベクトルであり、d
2は、第2の着座位置P2に関連付けられたステアリングベクトルである。したがって、音響信号が推定されるターゲット座席は、どの座席音声活動が検出されるかに従って決定される。当然のことながら、これは任意の数の座席に拡張することができ、2座席は例として提供されているにすぎない。これは
図2Dに描写されており、そこでは、ステップ212において、音声活動検出器がユーザの発話を検出する着座位置に従って、(ステアリングベクトルに従って選択された)ターゲット座席が選択される。
【0065】
2つ以上の座席で発話がアクティブである場合(例えばVAD1=1及びVAD2=1の両方)、フィルタ係数が式(7)の和によって与えられ得る。すなわち、係数は、以下のように、各ステアリングベクトルwH(k)、d1に対して計算されたd2の合計を与え得る。
【0066】
【0067】
これは同様に、車両内の任意の数のアクティブな発話に拡張することができる。例えば、
図2E及び
図2Fに描写するように、条件付きステップ214において音声活動が1つの着座位置のみで検出された場合(すなわち、分岐「いいえ」)、ステップ212に関連して上述したように、どの着座位置の音声活動が検出されたかに従ってターゲット座席が選択される。一方で、音声活動が2つ以上の着座位置で検出された場合、ステップ216(
図2F)において、音声活動が検出された着座位置における各音響信号の推定値が、適応ビーム形成アルゴリズムに従って生成される。これらの推定値は、例えば上記の式(8)に記述されているように、合計することができる。
【0068】
代替的に、
図2Gのステップ218に示されるように、発話が2つ以上の座席でアクティブである場合、異なるビーム形成アルゴリズムが実施され得る。例えば、線形制約最小分散(linearly constrained minimum variance、LCMV)定式化をMVDRの代わりに使用することができる。したがって、発話が1つの座席のみでアクティブである場合、MVDRは、例えば式(7)及びステップ212に従って使用することができるが、発話が2つ以上の座席でアクティブである場合、複数の話者の発話を推定するために、LCMV(2つ以上の音響信号を推定するように適合されている)を使用することができる。
【0069】
複数の座席のうちの1つが選択され得るときに雑音コヒーレンス行列を更新することに関して、一実施例では、音声活動検出器が、発話が存在しないこと(すなわち、VADi=0,i=1...Ns)を示すときに更新される全ての所望の座席にわたって、共通の雑音コヒーレンス行列が用いられ得る。この方法は、必要とされるメモリ及び計算の複雑さを低減する。ただし、選択された座席位置にいるユーザが発話中であるときに、他の所望の座席のうちの任意の座席における発話をキャンセルすることはできない。
【0070】
代替的に、座席ごとの雑音コヒーレンス行列、すなわちCi,nn(k,n)を計算することができる。例えば、ターゲット座席として着座位置P1が選択されると、第1の着座位置に対する雑音コヒーレンス行列C1,nn(k)が使用され、これにより他の着座位置での発話がキャンセルされ、一方、ターゲット座席として着座位置P2が選択されると、他の着座位置での発話をキャンセルする雑音コヒーレンス行列C1,nn(k)が使用される。各雑音コヒーレンス行列は、対応する音声活動検出器が、発話が存在しないことを示したときに更新することができる。したがって、例えば、C1,nn(k)はVAD1=0であるときに更新することができ、C2,nn(k)はVAD2=0であるときに更新することができる、などである。
【0071】
上述したように、より小さい忘却係数λ(k)の結果として雑音条件の追跡はより速くなるが、発話活動中の音声劣化を犠牲にする。一方、忘却係数が大きいほど、雑音条件の変化に対する適応は遅くなるが、音声歪みは小さくなる。
【0072】
別の言い方をすれば、小さい忘却係数の結果として、現在の雑音条件へのより速い収束をもたらす短期記憶をもたらす。しかしながら、発話活動が始まると、雑音コヒーレンス行列は、発話の開始前に最後に計算された値にロックされる。この値は、使用された積極的な追跡に起因して、もはや発話活動中の雑音条件を良好に表現しない。一方で、より大きな忘却係数を選択することにより、現在の雑音への収束が遅くなる。しかしながら、発話活動が開始されると、大量の平均化に起因して、最後に計算された雑音コヒーレンス行列は、発話セグメント全体の間、良好に機能することができる。
【0073】
例えば、道路の突起物に衝突した車両からの雑音又は他の何らかの急速な過渡雑音は、より大きな忘却係数を有する雑音コヒーレンスよりも、より小さな忘却係数を有する雑音コヒーレンス行列に対してより大きな影響を及ぼす。結果として、小さい忘却係数を用いた雑音コヒーレンス行列更新は、概して、より大きい忘却係数を用いた雑音コヒーレンス行列更新よりも、急速な過渡にうまく適応する。しかしながら、急速な過渡雑音の直後に発話が開始される場合、雑音コヒーレンス行列は、発話が過渡雑音に適応されている持続時間にわたってフリーズし、それはもはや車両キャビン内の雑音条件を示さない。したがって、小さい忘却係数を有する雑音コヒーレンス行列更新を使用することは、ユーザが発話中でないときに雑音をキャンセルするためにより良く機能するが、大きい忘却係数を有する雑音コヒーレンス行列更新は、ユーザが発話中であるときにより一貫した結果をもたらす。
【0074】
したがって、小さい忘却係数及び大きい忘却係数を有することの利点は、以下の式に示されるように、各周波数ビンについて、2つの雑音コヒーレンス行列、すなわち、より小さい忘却係数を有する一方の雑音コヒーレンス行列と、より大きい忘却係数を有するもう一方の雑音コヒーレンス行列とを計算することによって組み合わせることができる。
【0075】
【数15】
式中、λ
1(k)は、より小さい忘却係数であり、λ
2(k)は、より大きい忘却係数である。本開示において、「より小さい」忘却係数及び「より大きい」忘却係数は互いに相対的であることを理解されたい。したがって、より小さい忘却係数はより大きい忘却係数よりも小さく、より大きい忘却係数はより小さい忘却係数よりも大きい。
【0076】
式(1)は、変化を反映するよう以下のように修正される。
【0077】
【0078】
したがって、発話活動がない場合、フィルタ係数を更新するために、(より小さい忘却係数を用いて計算された)Cnn,1(k)が使用され、これにより、雑音変化へのより速い適応とより良好な干渉キャンセルとをもたらす。発話活動の存在下では、フィルタ係数を更新するために、(より大きい忘却係数を用いて計算された)Cnn,2(k)が使用され、これにより、わずかに低い干渉キャンセルを犠牲にして、発話劣化がより少なくなる。
【0079】
これは
図3A~
図3Cに描写された方法300に示されており、そこでは、ステップ304及び306において、より小さい忘却係数及びより大きい忘却係数を用いて雑音コヒーレンス行列が計算される。これらは、それぞれ上記の式9及び10に従って計算することができる。ステップ308において、ターゲット座席において音声活動が検出されたかどうかが判定される。検出されなかった場合、ステップ310において、マイクロフォン信号mと、より小さい忘却係数を用いて計算された雑音コヒーレンス行列とに基づいて、ターゲット座席における音響信号が推定される。しかしながら、ターゲット座席において音声活動が検出された場合、ステップ310において、マイクロフォン信号と、より大きい忘却係数を用いて計算された雑音コヒーレンス行列とに基づいて、ターゲット座席における音響信号が推定される。
【0080】
上述したように、雑音コヒーレンス行列は、発話活動がない場合にのみ更新されるように構成することができる。発話セグメント中の適応を防止するために、堅牢な発話活動検出器が必要とされる。残念ながら、発話が発生する前にその存在を識別することは不可能であり、又は発話が始まるのと同一のサンプル内においても不可能である。発話活動状態は、常にその開始後に識別される。この問題に対処するため、前のフレームで計算された雑音コヒーレンス行列の履歴をメモリに記憶することができる。例えば、発話活動検出器が発話活動を識別するのに必要な時間をΔtであるとする。発話活動状態が検出されると、発話活動が識別される少なくともΔtだけ前に計算された、以前に記憶された雑音コヒーレンス行列をメモリ(例えば、RAM)からロードし、発話の進行中にフィルタ係数の計算に使用することができる。一般的に言えば、発話を検出する前のある時点Δtに計算された、以前に記憶された雑音コヒーレンス行列を取り出すことを可能にするために、十分な数の以前に計算された雑音コヒーレンス行列のみを記憶する必要がある。
【0081】
これは、長い忘却係数を有する雑音コヒーレンス行列の履歴を記憶することによって、大きい忘却係数及び小さい忘却係数を有する雑音コヒーレンス行列を記憶する上述の実施例と組み合わせることができる。ユーザが発話を開始すると、発話活動が識別される少なくともΔtだけ前に計算された、より長い忘却係数を有する雑音コヒーレンス行列がメモリからロードされ得、フィルタ係数の計算に使用され得る。
【0082】
これは
図3Cのステップ314に示されており、そこでは、ステップ308においてターゲット座席で音声活動が検出された後、音声活動を検出する前のある時点で計算されたより大きい忘却係数を用いて計算された雑音コヒーレンス行列が取り出される。より大きい忘却係数を用いて計算され取り出されたこの雑音コヒーレンス行列は、ステップ312において、ターゲット座席における音響信号を推定するために使用される。
【0083】
より大きな忘却係数を用いて計算された雑音コヒーレンス行列に加えて、より小さい忘却係数を用いて計算された雑音コヒーレンス行列は、音声活動検出器がユーザの発話を検出する前に、ユーザの音声活動によって同様に損なわれる。したがって、発話活動が停止すると、より小さい忘却係数を用いて計算された以前に記憶された雑音コヒーレンス行列をメモリから取り出し、ステップ310において音響信号を推定するために使用することができる。より小さい忘却係数を用いて計算された取り出された雑音コヒーレンス行列は、発話活動が識別される前のある時点で計算することができる。上の実施例のように、より小さい忘却係数を用いて雑音コヒーレンス行列を取り出すことは、少なくともユーザの音声活動が検出されるある長さΔtだけ前に計算されたそのような1つの雑音コヒーレンス行列が取り出され得るように、より小さい忘却係数を用いて計算された雑音コヒーレンス行列の履歴を記憶することを必要とする。ほとんどの場合、より小さい忘却係数を用いて計算され取り出されたこの雑音コヒーレンス行列は、(例えば、ステップ314において)より大きい忘却係数を用いて取り出された雑音コヒーレンス行列が計算されるのと同じサンプル中に計算される。しかしながら、いくつかの例では、取り出された雑音コヒーレンス行列は、異なるサンプル中に計算することができる。より小さい忘却係数を用いて計算された雑音コヒーレンス行列が取り出されると、それはユーザの発話の終了後に続くサンプルの雑音コヒーレンス行列として(例えば、式(9)のCnn,1(k)のように)使用してもよく、又は(例えば、式(9)のCnn,1(k,n-1)のように)雑音コヒーレンス行列を初期化するために使用してもよい。
【0084】
図3Bの「いいえ」分岐に位置する
図3Dは、より小さい忘却係数を用いて雑音コヒーレンス行列を取り出すステップを描写している。
図3Dのステップ316において、前のサンプルで音声活動が検出された場合、ステップ318において、(前のサンプルで始まるか又はその前に始まる)音声活動の検出前のある時点で計算された、より小さい忘却係数を用いて計算された雑音コヒーレンス行列が取り出される。より小さい忘却係数を用いて計算され取り出されたこの雑音コヒーレンス行列は、ステップ310において、ターゲット座席における音響信号を推定するために使用される。ステップ316において、前のサンプル中に音声活動が検出されなかった場合、ステップ310において、現在のサンプル及び前のサンプルによって計算された、より小さい忘却係数を有する雑音コヒーレンス行列が、ターゲット着座位置における音響信号を推定するために使用される。
【0085】
より小さい忘却係数及びより大きい忘却係数を使用してターゲット座席における音響信号を推定するための方法が、単一の座席について説明されているが、車両キャビン内の任意の数の座席に拡張され得ることを理解されたい。
【0086】
アルゴリズムの性能は、雑音条件の突然の変化が発生すると、短期間の間、悪化する場合がある。これは、例えば、音楽がオン又はオフにされたとき、ナビゲーションプロンプトが発生したとき、又は発話が望ましくない場所から開始されたときに起こり得る。新たな雑音条件への雑音コヒーレンスの収束時間中、アレイの性能が劣化する可能性がある。これを回避するために、重畳原理を使用して、雑音コヒーレンス行列への調整を導入して、現在の雑音条件により良く一致させ収束時間を短縮することができる。
【0087】
例えば、任意の所与の時間において、全体的な雑音プラス干渉信号は、以下のように表すことができる。
【0088】
【数17】
式中、n
i(t)は、i番目の干渉/雑音信号であり、N
Iは、干渉/雑音信号の総数である。これらの信号には、とりわけ、道路雑音、風切り音、換気雑音、ナビゲーションプロンプト、望ましくない発話、音楽が含まれる。干渉信号が相関していない、すなわちi≠jについて<n
i(t),n
j(t)>=0であると仮定すると、全体の雑音コヒーレンス行列は、以下のように表すことができる。
【0089】
【数18】
式中、C
nn,i(k,n)は、i番目の干渉/雑音信号の雑音コヒーレンス行列である。
【0090】
この定式化は、既知の干渉信号が車両キャビンに導入されたときに雑音コヒーレンス行列を更新するために使用することができる。この例では、既知の信号、すなわち、音楽、ナビゲーションなどに関連付けられた雑音コヒーレンス行列が、(例えば、既知の雑音コヒーレンス行列の工場出荷時設定として、又は既知の信号が車両キャビンに導入される前に計算される雑音コヒーレンス行列のセットとして)予め定められ、以下のように雑音コヒーレンス行列更新に付加される。
【0091】
【数19】
式中、n
0は、既知の干渉信号n
i(t)が出現又は消失したフレームを表記し、C
nn,i(k)は、干渉信号と関連付けられた雑音コヒーレンス行列であり、g
iは、干渉信号のレベルを反映する利得である。換言すれば、既知の信号と関連付けられた所定の雑音コヒーレンス行列は、マイクロフォン信号mから計算される雑音コヒーレンス行列と重畳される。例えば、車両キャビン内で音声ナビゲーションが再生されるように待ち行列に入れられている場合、雑音コヒーレンス行列は、ナビゲーション信号が車両キャビン内で再生されるのと同一のフレーム中に所定の雑音コヒーレンス行列で更新することができる。これは、雑音コヒーレンス行列がマイクロフォン信号のみから別様に更新され得るよりも速く、既知の信号の所定の雑音コヒーレンス行列を用いて雑音コヒーレンス行列が更新されることを可能にする。雑音コヒーレンス行列が所定の雑音コヒーレンス行列を用いて更新されると、雑音コヒーレンス行列の通常の更新を再開することができる。
【0092】
これは、
図4Aの方法400に示されており、そこでは、ステップ404において、車両キャビン内の少なくとも1つのスピーカによって車両キャビンに導入される既知の雑音条件(例えば、ナビゲーション、音楽など)を表す所定の雑音コヒーレンス行列に部分的に基づいて、雑音コヒーレンス行列が計算される。上述したように、所定の雑音コヒーレンス行列は、予め記憶された工場出荷時の雑音コヒーレンス行列であってもよいし、既知の雑音条件が車両キャビン内で再生されるように待ち行列に入れられている間に計算されてもよい。雑音コヒーレンス行列は、例えば、計算された雑音コヒーレンス行列を所定の雑音コヒーレンス行列と重畳することによって計算することができる。
【0093】
同様に、既知の信号が車両キャビン内でもはや再生されなくなったときに、計算された雑音コヒーレンス行列から所定の雑音コヒーレンス行列を減算することができる。これは、ユーザの発話中に既知の信号が再生されなくなったとき、すなわち雑音コヒーレンス行列が更新されていないときに、特に有効である。そうでなければ、雑音コヒーレンス行列が更新されていないときに既知の信号の雑音コヒーレンス行列を減算することに失敗すると、再生されていない信号の原因となる不正確な雑音コヒーレンス行列をもたらし、ひいては正しく実施されない。
【0094】
したがって、ステップ408において、更新された雑音コヒーレンス行列から雑音コヒーレンス行列が減算される。更新された雑音コヒーレンス行列は、少なくとも所定の雑音コヒーレンス行列から計算された雑音コヒーレンス行列である。このステップは、雑音コヒーレンス行列が更新され、既知の雑音条件が車両キャビン内で再生されなくなった後のサンプルで生じる。
【0095】
単一のフレーム内で、対応する雑音コヒーレンス行列を追加又は除去する代わりに、項gi・Cnn,i(k)が追加又は除去される短い遷移期間が使用され得ることに留意されたい。換言すれば、フィルタ係数の急激な変化を防止するために、利得giを複数のフレームにわたってより小さい値からより大きい値に増加させることができる。最終値giは、車両キャビン100内の既知の騒音条件の大きさによって決定され得る。
【0096】
雑音コヒーレンス行列の逆数を更新するために逆行列補題(すなわち、式(2)の後の直接逆行列ではなく式(3))を使用する場合、式(14)に関連して上述した重畳法は、雑音コヒーレンス行列を更新するために使用することはできない。
【0097】
したがって、提案される方法では、各解が雑音コヒーレンス行列の逆行列
【0098】
【数20】
からなる、複数の解がメモリに記憶される。各解は、1組の条件(音楽レベル、HVACレベル、車両速度など)に対応する。記憶された解は、事前に計算されるか、又はランタイム中に更新されることができる。既知の条件に遭遇すると、関連付けられた逆数をメモリからロードすることができ、次いで、システムは、式(3)を使用して雑音コヒーレンス逆行列を適応させる。換言すれば、計算された雑音コヒーレンス行列を所定の雑音コヒーレンス行列と重畳して、そこから逆雑音コヒーレンス行列が計算され得るのではなく、既知の信号がキャビンに導入されるときに、(逆行列補題を使用して計算された)逆雑音コヒーレンス行列全体が所定の逆雑音コヒーレンス行列に置き換えられる。
【0099】
しかしながら、この解はメモリ集約的である。なぜなら、サウンドステージ設定、音楽レベル、HVACレベル、車両速度などの条件の組み合わせを含めて、これらの条件の各々の組み合わせが雑音コヒーレンス行列の逆数を決定するので、多数の解を事前に記憶しなければならないからである。逆行列補題が使用される代替実施例では、非逆雑音コヒーレンス行列を得るために、逆行列補題を使用して計算された雑音コヒーレンス行列の逆数の値が反転される。次に、非反転雑音コヒーレンス行列は、式(14)に従って所定の雑音コヒーレンス行列と重畳され、この時点で、この値が再び反転されて、雑音コヒーレンス行列の逆数をもたらす。式(14)から重畳された解の逆数が決定されると、新たなマイクロフォン信号mに従って、逆行列補題を使用してこの逆数は更新され得る。この解は、逆雑音コヒーレンス行列を所定の逆雑音コヒーレンス行列で置換するよりも、計算集約的であるが実装するために必要なメモリリソースはより少ない。
【0100】
信号対雑音比(Signal-to-noise ratio、SNR)の改善は、マイクロフォンアレイの性能を評価する際に使用される主要なメトリックの1つである。別の性能評価メトリックに、白色雑音利得(white noise gain、WNG)がある。白色雑音利得は、非コヒーレント雑音を抑圧するマイクロフォンアレイの能力を測定する。換言すれば、白色雑音利得は、マイクロフォンにおける雑音が白色雑音であるときにマイクロフォンアレイによって提供されるSNR改善である。SNR改善及び白色雑音利得は、競合するメトリックである。最適なSNR改善のためにマイクロフォンアレイを設計することは、低い(又は負の)白色雑音利得をもたらす可能性がある。この結果、アレイの出力において非コヒーレント雑音がブーストされる。一方、アレイの白色雑音利得を改善することは、達成可能なSNR改善を低減する結果となる。
【0101】
MVDR設計の白色雑音利得を改善するために、対角ローディングを使用することができる。また、雑音条件の変化に対する設計の堅牢性を改善することもできる。全逆行列が全てのフレームにおいて計算される場合、対角ローディングは、式(1)を以下のように修正することによって達成することができる。
【0102】
【数21】
式中、μ(k)はスカラー値であり、Iは、単位行列である。対角ローディングは、雑音コヒーレンス行列の主対角に小さな値を加える。μを増加させることにより、アレイの白色雑音利得を、そのSNR改善を低下させることを犠牲にして、改善する。対角ローディング値は、周波数ビンにわたって一定であり得るか、又は可変であり得る。各周波数ビンについて異なるμを選択することにより、アレイの白色雑音利得が周波数ビンごとに変化するので、設計においてより多くの柔軟性を提供する。車両環境において、より低い周波数は、より高い周波数よりも大きな対角負荷値を必要とする傾向がある。
【0103】
一方、雑音コヒーレンス行列の逆数を更新するために逆行列補題が使用される場合、式(15)は、設計に対角ローディングを適用するために使用することはできない。次善策として、同じ効果を達成するために、式(3)及び式(4)を変更することができる。対角ローディングは、雑音コヒーレンス行列の主対角にスカラー値を加える。これは、ローディング値に対して等しい分散を有する白色雑音を雑音信号に付加することと等しい。したがって、マイクロフォン信号mの観測ベクトルx(k,n)は、対角ローディングを加えるために以下のように修正することができる。
【0104】
【数22】
式中、μ(k)は所望の対角ローディング値であり、r
WGN(n)はN
A×1ベクトルであり、その要素は、平均ゼロ、標準偏差1のガウス分布からサンプリングされ、N
Aは、アレイ内のマイクロフォンの数である。式(3)及び式(4)で十分な平均化が行われた後、有効雑音コヒーレンス行列は、C
nn(k)+μ(k)・Iに等しくなる。別の言い方をすれば、(非コヒーレントである)白色雑音信号は、白色雑音信号がキャンセルされるように、(マイクロフォン信号又は適応ビーム形成器112のいずれかにおいて)各マイクロフォン信号に付加することができる。
【0105】
これは
図5Aに示されており、そこでは、ステップ504において、(例えば、式(16)に従って)複数のマイクロフォン信号の各々に白色雑音が人為的に付加され、これにより、ステップ506においてターゲット座席における音響信号が推定されるときに白色雑音利得が改善されるようになる。上述したように、白色雑音信号は、マイクロフォン信号に加えることもできるし、適応ビーム形成器112において付加することもできる。
【0106】
対角ローディング又は付加された白色雑音のいずれの実施例においても、値μ(k)を設定するためにいくつかの方法を使用することができる。例えば、μ(k)の値は、各周波数で最小白色雑音利得を達成するように設定することができる。代替的に、結合された雑音コヒーレンス行列Cnn(k)+μ(k)・I、又はマイクロフォン信号104に白色雑音信号が人為的に付加された後の雑音コヒーレンス行列の条件数が、μ(k)を設定するために使用される。条件数は、所与の行列が反転され得る程度を特徴付けるメトリックである。その結果、低すぎる条件数は、アレイの性能に影響を及ぼし、一方、高すぎる条件数は、周波数ビンごとに非コヒーレント雑音が増幅される結果となる。μ(k)を増加させることによる結果として、結合された雑音コヒーレンス行列の条件数が低くなり、その結果、より堅牢なMVDR設計が得られる。
【0107】
μ(k)の値は、事前に計算されメモリに記憶され得る。この値は、値{μ(k),k=1,...,Nf}の単一セットからなり得、式中、Nfは、周波数ビンの数である。セットは、様々な雑音条件で良好に機能するように設計される。すなわち、ほとんどの雑音条件において、結合された雑音コヒーレンス又は雑音コヒーレンス行列の条件数は、最小条件数よりも大きく、最大条件数よりも小さい。換言すれば、車両キャビン内で検出された雑音条件にかかわらず、μ(k)と同じ値が周波数ビンごとに使用される。最小条件数は、許容可能なアレイ性能を維持するために可能である最小条件数であり、一実施例では、条件数20などである。最大条件数は、非コヒーレント雑音が増幅され得る最大許容可能度に従って選択された値であり、一実施例では、条件数100などである。
【0108】
また、代替実施例では、複数セットの対角ローディング値{μ(k),k=1,...,N_f}は、値の複数のセットからなることもでき、各セットは、少なくとも1つの雑音条件において良好に機能する。使用されるセットは、最小条件数と最大条件数との間の条件数を維持するために、又は理想的な条件数(例えば、70)に近い条件数を維持するために、遭遇する実際の雑音条件に基づいて選ばれる。したがって、検出されたマイクロフォン信号mの雑音条件は、μ(k)の値のどのセットが使用されるかを定める。
【0109】
代替実施例では、μ(k)の値は、雑音条件の変化に適応するようにリアルタイムで更新することができる。これは、例えば、有効雑音コヒーレンス行列の条件数を監視し、それを予め定められた所望の条件数と比較し、これに応じて対角ローディング値を調整することによって、行うことができる。
【0110】
本明細書における記号の使用に関し、大文字、例えばHは、概して、周波数領域又はスペクトル領域における項、信号、又は量を表し、小文字、例えばhは、概して、時間領域における項、信号、又は量を表す。時間領域と周波数領域との間の関係は、一般に周知であり、少なくともフーリエ数学又はフーリエ分析の分野で説明されており、したがって本明細書では提示しない。加えて、本明細書で記号によって表される信号、伝達関数、又は他の項若しくは量は、アナログ形式又は離散形式で演算、考慮、又は分析され得る。時間領域の項又は量の場合、アナログ時間インデックス、例えばt、及び/又は離散サンプルインデックス、例えばnは、様々な場合に交換又は省略可能である。同様に、周波数領域では、アナログ周波数インデックス、例えばf、及び離散周波数インデックス、例えばkは、ほとんどの場合省略される。更に、本明細書で開示される関係及び計算は、一般に、当業者によって理解されるように、時間領域又は周波数領域のいずれか、及びアナログ領域又は離散領域のいずれかにおいて、存在し得るか又は実行され得る。したがって、時間領域又は周波数領域、及びアナログ領域又は離散領域における全ての可能な変動を例解するための様々な例は、本明細書では提示されない。
【0111】
本明細書に説明される機能又はその部分、及びその様々な修正(以下「機能」)は、少なくとも部分的に、コンピュータプログラム製品(例えば、1つ以上のデータ処理装置、例えば、プログラム可能プロセッサ、コンピュータ、複数のコンピュータ、及び/若しくはプログラム可能論理構成要素による実行のための、又はその動作を制御するための、1つ以上の非一時的機械可読媒体又は記憶デバイスなどの情報キャリアにおいて有形に具現化されたコンピュータプログラム)を介して実装され得る。
【0112】
コンピュータプログラムは、コンパイル型言語又はインタプリタ型言語を含む任意の形態のプログラム言語で書き得るが、それは、独立型プログラムとして、又はコンピューティング環境での使用に好適なモジュール、構成要素、サブルーチン若しくは他のユニットとして含む任意の形態で配設され得る。コンピュータプログラムは、1つのコンピュータ上で、若しくは1つのサイトにおける複数のコンピュータ上で実行されるように配設され得るか、又は複数のサイトにわたって配信されて、ネットワークによって相互接続され得る。
【0113】
機能の全部又は一部を実装することと関連した動作は、較正プロセスの機能を実施するために1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって、実施され得る。機能の全部又は一部は、特殊目的論理回路、例えば、FPGA及び/又はASIC(特定用途向け集積回路)として実装され得る。
【0114】
コンピュータプログラムの実行に好適なプロセッサとしては、例として、汎用マイクロプロセッサ及び特殊目的マイクロプロセッサの両方並びに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般的に、プロセッサは、読取り専用メモリ、ランダムアクセスメモリ、又はその両方から命令及びデータを受信することになる。コンピュータの構成要素は、命令を実行するためのプロセッサ並びに命令及びデータを記憶するための1つ以上のメモリデバイスを含む。
【0115】
本明細書において、いくつかの本発明の実施形態について説明及び例解してきたが、当業者であれば、様々な他の手段及び/若しくは機能の実行及び/若しくは結果を得るための構造、並びに/又は本明細書に説明される1つ以上の利点を容易に想起し、こうした変更形態及び/又は修正の各々は、本明細書に説明される本発明の実施形態の範囲内にあるとみなされる。より一般的には、当業者であれば、本明細書に説明されるパラメータ、寸法、材料及び構成の全てが例示的であること、実際のパラメータ、寸法、材料、及び/又は構成が、具体的な用途又は本発明の教示が使用される用途に依存するであろうことを、容易に理解するであろう。当業者であれば、本明細書に説明される具体的な本発明の実施形態に対する多くの同等物を、通常の実験のみを使用して認識するか、又は確認することができるであろう。したがって、前述の実施形態は、単なる例として提示されたものであり、添付の特許請求の範囲及びその等価物の範囲内で、具体的に記載及び特許請求されるものとは別様に本発明の実施形態を実践することができるということを理解されたい。本開示の本発明の実施形態は、本明細書に説明される各個々の特徴、システム、物品、材料、及び/又は方法に関する。更に、2つ以上のこうした特徴、システム、物品、材料及び/又は方法のいかなる組む合わせも、こうした特徴、システム、物品、材料及び/又は方法が相互に矛盾しない場合、本開示の発明の範囲内に含まれる。
【符号の説明】
【0116】
100 車両キャビン
102 コントローラ
104a、104b、104c マイクロフォン
106 座席
108 非一時的記憶媒体
110 プロセッサ
d1、d2、d3 距離
m1、m2、m3 マイクロフォン信号
P1、P2 中心
pout 出力信号
【国際調査報告】