(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6905077
(24)【登録日】2021年6月28日
(45)【発行日】2021年7月21日
(54)【発明の名称】ボイスアクティビティ検出に基づく音声の指向性捕捉
(51)【国際特許分類】
G10L 25/78 20130101AFI20210708BHJP
H04R 3/00 20060101ALI20210708BHJP
G10L 25/84 20130101ALI20210708BHJP
G10L 15/10 20060101ALI20210708BHJP
【FI】
G10L25/78
H04R3/00 320
G10L25/84
G10L15/10 200W
【請求項の数】19
【全頁数】16
(21)【出願番号】特願2019-553552(P2019-553552)
(86)(22)【出願日】2018年3月29日
(65)【公表番号】特表2020-515901(P2020-515901A)
(43)【公表日】2020年5月28日
(86)【国際出願番号】US2018025080
(87)【国際公開番号】WO2018183636
(87)【国際公開日】20181004
【審査請求日】2019年11月8日
(31)【優先権主張番号】15/475,191
(32)【優先日】2017年3月31日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】591009509
【氏名又は名称】ボーズ・コーポレーション
【氏名又は名称原語表記】BOSE CORPORATION
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】マシュー・ライアン・ヒックス
(72)【発明者】
【氏名】デイヴィッド・ローランド・クリスト
(72)【発明者】
【氏名】アミール・レザ・モギミ
【審査官】
上田 雄
(56)【参考文献】
【文献】
米国特許第09432769(US,B1)
【文献】
特開2004−109361(JP,A)
【文献】
特表2015−513704(JP,A)
【文献】
特表2006−504130(JP,A)
【文献】
中島 栄俊、外4名, 頭部回転型音源分離システムを用いた特定単語認識と頭部回転制御,日本音響学会 2006年 春季研究発表会講演論文集,社団法人日本音響学会,2006年 3月 7日,pp.643−644
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−25/93
H04R 3/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
マイクロフォンアレイによって捕捉された音声を表す情報を受信することであって、前記情報が、前記マイクロフォンアレイに対して対応する方向に沿って第1の感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む、受信することと、
前記複数のデータセットの各々について1つ以上の処理デバイスを使用して、前記対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することと、
複数の前記複数のデータセットについて計算された前記1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成することと、を含み、
前記マイクロフォンアレイによって捕捉された前記音声を表す前記情報が、前記マイクロフォンアレイを使用して捕捉された信号を処理するように構成された第1のビーム形成器から受信され、
指向性音声信号を生成することは、第2のビーム形成器に前記特定の方向に対して生成された第2の感度パターンに従って音声を捕捉させることを含み、前記第2のビーム形成器は動的ビーム形成器である、
方法。
【請求項2】
前記複数のデータセットの各々が、前記ビーム形成器を使用して生成されたビームに対応する、請求項1に記載の方法。
【請求項3】
前記ビーム形成器が、固定ビーム形成器又は動的ビーム形成器のうちの一方である、請求項1に記載の方法。
【請求項4】
人間のボイスアクティビティを示す前記1つ以上の量が、前記対応する方向の前記データセットに表された前記音声信号における人間のボイスアクティビティの尤度スコアを含む、請求項1に記載の方法。
【請求項5】
人間のボイスアクティビティを示す前記1つ以上の量が、信号対雑音比(SNR)を含む、請求項1に記載の方法。
【請求項6】
前記SNRが、ボイス信号を表す第1の量と非ボイス信号を表す第2の量との比として計算される、請求項5に記載の方法。
【請求項7】
人間のボイスアクティビティを示す前記1つ以上の量が、前記対応する方向の前記データセットに表された前記音声信号におけるキーワードの存在の尤度スコアを表す、請求項1に記載の方法。
【請求項8】
前記指向性音声信号を生成することが、前記複数のデータセットのうちの1つを選択することを含む、請求項1に記載の方法。
【請求項9】
前記指向性音声信号を生成することが、動的ビーム形成器に、前記特定の方向について生成された感度パターンに従って音声を捕捉させることを含む、請求項1に記載の方法。
【請求項10】
マイクロフォンアレイと、
音声信号を生成するように構成された1つ以上の音響トランスデューサと、
メモリ及び1つ以上の処理デバイスを含む音声処理エンジンであって、前記1つ以上の処理デバイスが、
前記マイクロフォンアレイによって捕捉された前記音声を表す情報を受信することであって、前記情報が、前記マイクロフォンアレイに対して対応する方向に沿って第1の感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む、受信することと、
前記複数のデータセットの各々について、前記対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することと、
複数の前記複数のデータセットについて計算された前記1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成することと、を行うように構成された、音声処理エンジンと、
前記マイクロフォンアレイを使用して捕捉された信号を処理することによって前記情報を生成するように構成された第1のビーム形成器と、
を備え、
指向性音声信号を生成することは、第2のビーム形成器に前記特定の方向に対して生成された第2の感度パターンに従って音声を捕捉させることを含み、前記第2のビーム形成器は動的ビーム形成器である、
装置。
【請求項11】
前記複数のデータセットの各々が、前記ビーム形成器を使用して生成されたビームに対応する、請求項10に記載の装置。
【請求項12】
前記ビーム形成器が、固定ビーム形成器又は動的ビーム形成器のうちの一方である、請求項10に記載の装置。
【請求項13】
人間のボイスアクティビティを示す前記1つ以上の量が、前記対応する方向の前記データセットに表された前記音声信号における、人間のボイスアクティビティの尤度スコアを含む、請求項10に記載の装置。
【請求項14】
人間のボイスアクティビティを示す前記1つ以上の量が、信号対雑音比(SNR)を含む、請求項10に記載の装置。
【請求項15】
前記SNRが、ボイス信号を表す第1の量と非ボイス信号を表す第2の量との比として計算される、請求項14に記載の装置。
【請求項16】
人間のボイスアクティビティを示す前記1つ以上の量が、前記対応する方向の前記データセットに表された前記音声信号におけるキーワードの存在の尤度スコアを表す、請求項10に記載の装置。
【請求項17】
前記指向性音声信号を生成することが、前記複数のデータセットのうちの1つを選択することを含む、請求項10に記載の装置。
【請求項18】
前記指向性音声信号を生成することが、動的ビーム形成器に、前記特定の方向について生成された感度パターンに従って音声を捕捉させることを含む、請求項10に記載の装置。
【請求項19】
1つ以上の機械可読記憶デバイスであって、前記1つ以上の機械可読記憶デバイスは、前記1つ以上の機械可読記憶デバイスにおいて符号化されたコンピュータ可読命令を有し、前記コンピュータ可読命令は、1つ以上の処理デバイスに、
マイクロフォンアレイによって捕捉された音声を表す情報を受信することであって、前記情報が、前記マイクロフォンアレイに対して対応する方向に沿って第1の感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む、受信することと、
前記複数のデータセットの各々について、前記対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することと、
複数の前記複数のデータセットについて計算された前記1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成することと、を含む、動作を実施させ、
前記マイクロフォンアレイによって捕捉された前記音声を表す前記情報が、前記マイクロフォンアレイを使用して捕捉された信号を処理するように構成された第1のビーム形成器から受信され、
前記指向性音声信号を生成することは、第2のビーム形成器に前記特定の方向に対して生成された第2の感度パターンに従って音声を捕捉させることを含み、前記第2のビーム形成器は動的ビーム形成器である、
機械可読記憶デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に、音響信号を捕捉するためのマイクロフォンアレイを含む音響デバイスに関する。
【背景技術】
【0002】
特定の方向に沿って音響信号を捕捉するために、マイクロフォンのアレイを使用することができる。
【発明の概要】
【0003】
一態様では、本文書は、マイクロフォンアレイによって捕捉された音声を表す情報を受信することであって、この情報が、マイクロフォンアレイに対して対応する方向に沿って感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む、受信することを含む、コンピュータ実装方法を特徴とする。この方法はまた、複数のデータセットの各々について1つ以上の処理デバイスを使用して、対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することと、複数の複数のデータセットについて計算された1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成することと、を含む。
【0004】
別の態様では、本文書は、マイクロフォンアレイと、音声信号を生成するように構成された1つ以上の音響トランスデューサと、メモリ及び1つ以上の処理デバイスを含む音声処理エンジンと、を含む装置を特徴とする。音声処理エンジンは、マイクロフォンアレイによって捕捉された音声を表す情報を受信するように構成されており、この情報が、マイクロフォンアレイに対して対応する方向に沿って感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む。音声処理エンジンはまた、複数のデータセットの各々について、対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算し、複数の複数のデータセットについて計算された1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成する、ように構成されている。
【0005】
別の態様では、本文書は、1つ以上の機械可読記憶デバイスを特徴とし、このデバイスは、このデバイスにおいて符号化された、1つ以上の処理デバイスに様々な動作を実施させるためのコンピュータ可読命令を有する。動作は、マイクロフォンアレイによって捕捉された音声を表す情報を受信することを含み、この情報が、マイクロフォンアレイに対して対応する方向に沿った感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含む。動作はまた、複数のデータセットの各々について、対応する方向から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することと、複数の複数のデータセットについて計算された1つ以上の量に少なくとも基づいて、特定の方向から捕捉された音声を表す指向性音声信号を生成することと、を含む。
【0006】
上記の態様の実装は、以下の特徴のうちの1つ以上を含むことができる。マイクロフォンアレイによって捕捉された音声を表す情報は、マイクロフォンアレイを使用して捕捉された信号を処理するように構成されたビーム形成器から受信することができる。複数のデータセットの各々は、ビーム形成器を使用して生成されたビームに対応し得る。ビーム形成器は、固定ビーム形成器又は動的ビーム形成器のうちの一方であり得る。人間のボイスアクティビティを示す1つ以上の量は、対応する方向のデータセットに表された音声信号における人間のボイスアクティビティの尤度スコアを含むことができる。人間のボイスアクティビティを示す1つ以上の量は、信号対雑音比(signal-to-noise ratio、SNR)を含むことができる。SNRは、ボイス信号を表す第1の量と非ボイス信号を表す第2の量との比として計算することができる。人間のボイスアクティビティを示す1つ以上の量は、対応する方向のデータセットに表された音声信号におけるキーワードの存在の尤度スコアを表すことができる。指向性音声信号を生成することは、複数のデータセットのうちの1つを選択することを含むことができる。指向性音声信号を生成することは、動的ビーム形成器に、特定の方向に関して生成された感度パターンに従って音声を捕捉させることを含むことができる。
【0007】
本明細書に記載される様々な実装は、以下の利点のうちの1つ以上を提供し得る。最も主要な音響源の方向ではなく、ボイスアクティビティの方向に基づいてビーム形成器を操作することによって、著しい音響エネルギーを生成する雑音源の存在下でも、ボイス入力が正確に捕捉され得る。いくつかの場合では、これは、空気調節器などの主要な非ボイス雑音源の存在下で、ボイス作動デバイスの性能を向上させ得る。いくつかの場合では、適切なボイスアクティビティの方向はまた、発声されるキーワードの発生を検出することによって決定されてもよい。これは、次に、複数の話し手からのボイス信号の存在下で、ボイス作動デバイスの性能を向上させることができる。
【0008】
本概要の項に記載される特徴を含む、本開示に記載される特徴の2つ以上は、特に本明細書に記載されない実装を形成するために組み合わされ得る。
【0009】
1つ以上の実装の詳細は、添付図面及び以下の説明において述べられる。他の特徴、目的、及び利点は、本説明及び図面から、並びに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0010】
【
図1】ボイス作動デバイスが配設され得る環境の例である。
【0011】
【
図2A】本明細書に記載される技術と併せて使用され得る指向性音声捕捉デバイスの例である。
【
図2B】本明細書に記載される技術と併せて使用され得る指向性音声捕捉デバイスの例である。
【0012】
【
図3A】固定ビーム形成器を使用して音声信号の指向性捕捉を制御するように構成されたビーム制御システムの概略図である。
【0013】
【
図3B】動的ビーム形成器を使用して音声信号の指向性捕捉を制御するように構成されたビーム制御システムの概略図である。
【0014】
【
図3C】フィードバックループを使用して制御される動的ビーム形成器を使用して音声信号の指向性捕捉を制御するように構成されたビーム制御システムの概略図である。
【0015】
【
図4】本明細書に記載される技術に従って指向性音声を捕捉するための例示のプロセスのフロー図である。
【発明を実施するための形態】
【0016】
本文書は、ボイスアクティビティ検出に基づいて音声の指向性捕捉を制御する技術について記載している。発声されるコマンドを使用して制御することができる、様々なボイス作動デバイスが現在利用可能である。市販されているこのようなデバイスの例としては、Seattle,WAのAmazon社製のEcho(登録商標)及びFIRE TV(登録商標)、Apple社製の様々なiOS(登録商標)対応デバイス、並びにMountain View,CAのGoogle社製のGoogle Home(登録商標)及び他のAndroid(登録商標)搭載デバイスが挙げられる。ボイス作動デバイスは、発声される入力の指向性捕捉に使用されるマイクロフォンのアレイ(例えば、線形アレイ、円形アレイなど)を含むことができる。例えば、デバイス上のマイクロフォンアレイによって捕捉された信号は、特定の方向から捕捉された信号を強調し、及び/又は1つ以上の他の方向からの信号を抑制するように処理することができる。このようなプロセスはビーム形成と呼ばれ、このようなプロセスから得られる指向性感度パターンはビームと呼ばれる場合がある。ビーム形成プロセスを実行しているデバイスは、ビーム形成器と呼ばれる場合がある。特定の方向に沿った感度パターン又はビームの選択は、ビームステアリングと呼ばれる場合がある。
【0017】
いくつかの場合では、ビーム形成器は、主要な音響エネルギー源の方向にビームを操作してもよい。ヒトの話し手が主要な音響エネルギー源である低雑音環境では、ビーム形成器は、ビームを正確に操作して話し手に向け得る。一方、主要な音響エネルギー源が雑音源であるいくつかの場合では、ビーム形成器は、ビームを操作してその雑音源に向け、その結果、ヒトの話し手からのボイス入力を抑制してもよい。例えば、マイクロフォンアレイが大音源(例えば、空気調節器、加湿器、除湿器など)の近くに配設される場合、ビーム形成器は、ビームを操作してその音源に向けてもよい。このような場合、別の方向から来るボイス入力は、不意に抑制され得る。複数の話し手が環境に存在する(例えば、複数の人々が互いに話している部屋)いくつかの状況では、主要な音響エネルギー源は、マイクロフォンアレイが捕捉する必要があるボイス入力を提供していない人であり得る。むしろ、ボイス入力は、主要な音響エネルギー源の方向とは異なる方向から来るかもしれない。これらの上述の状況では、ビームが主要な雑音源の方向に基づいて操作される場合、別の方向から来る発声された入力を逸失する場合があり、ひいては、対応するボイス作動デバイスの性能に悪影響を及ぼし得る。
【0018】
本明細書に記載される技術は、キーワードスポット(keyword spotting、KWS)を含み得るボイスアクティビティ検出(voice activity detection、VAD)に基づいてマイクロフォンアレイによる音声捕捉の方向を制御することを可能にする。例えば、ビームステアリングすること、又は他の方法で指向性音声捕捉を制御することは、特定の方向から捕捉された音声におけるボイスアクティビティ又は特定のキーワードの存在の尤度を示す予備出力に基づいて実装されてもよい。これらの予備出力は、ソフトVAD出力(ボイスアクティビティ検出用)又はソフトKWS出力(キーワードスポット用)と呼ばれる場合があり、これは、後続の処理のために強調される捕捉された音声の方向を判定するために使用され得る。いくつかの場合では、このようなソフトVAD出力に基づいて方向を判定することは、空気調節器、加湿器、除湿器、電気掃除機、洗濯機、乾燥機、若しくは他の機械、又は動物(例えば、ペット)などの、人間以外の主要な音源から発生する音響信号を抑制するのに役立ち得る。ひいては、これにより、このような雑音環境における関連するボイス作動デバイスの性能が向上し得る。いくつかの場合では、ソフトKWS出力に基づいて方向を判定することはまた、複数の他のヒトの話し手が環境内で話している場合であっても、適切なボイスコマンドを正確に拾い上げることによって、対応するボイス作動デバイスの性能を向上させ得る。
【0019】
図1は、本明細書に記載される指向性音声捕捉を実装するために使用することができるシステム100の概略図である。システム100は、デバイスの近傍で発生する音響信号を捕捉するために使用することができる音声捕捉デバイス105を含む。いくつかの実装態様では、音声捕捉デバイス105は、デバイス105の近傍の様々な発信源から発生する音響信号を捕捉するように構成された複数のマイクロフォンのアレイを含む。例えば、音声捕捉デバイス105は、1人以上のヒトの話し手110a,110b(一般には110)、又は人間以外の音源115(例えば、空気調節器、加湿器、除湿器、電気掃除機、洗濯機、乾燥機、若しくは他の機械又は動物)などの音源から発生する音響信号を捕捉するために使用することができる。いくつかの実装態様では、音声捕捉デバイス105は、音声捕捉デバイス105によって捕捉又は拾い上げられた音響信号に基づいて制御することができるボイス作動デバイス上に配設される、又はボイス作動デバイスの一部とすることができる。いくつかの実装態様では、音声捕捉デバイス105は、アレイ内の連続するマイクロフォンが実質的に直線に沿って配設された線形アレイを含むことができる。いくつかの実装態様では、音声捕捉デバイス105は、マイクロフォンが実質的に円形、楕円形、又は別の構成で配設された非線形アレイを含むことができる。
図1に示す例では、音声捕捉デバイス105は、円形構成で配設された6個のマイクロフォンのアレイを含む。
【0020】
マイクロフォンアレイは、特定の方向に沿って音響信号を捕捉するために使用することができる。例えば、アレイ内の複数のマイクロフォンによって捕捉された信号を処理して、特定の方向のビームに沿って信号を強調し、1つ以上の他の方向からの信号を抑止又は抑制する感度パターンを生成してもよい。このようなデバイス200の例を、
図2Aに示す。デバイス200は、特定の距離だけ互いに分離された複数のマイクロフォン205を含む。ビーム形成効果は、このようなマイクロフォンのアレイによって達成することができる。
図2Aに示すように、波面210a,210b,又は210c(一般には210)が発生する方向は、波面210がアレイ内の各マイクロフォン205と遭遇する時間に影響を及ぼし得る。例えば、マイクロフォンアレイに対して45°の角度で左から到来する波面210aが、最初に左側のマイクロフォン205aに到達し、次いで、マイクロフォン205b及び205cにその順序で到達する。同様に、アレイに対して垂直な角度で到達する波面210bが、同時に各マイクロフォン205に到達し、マイクロフォンアレイに対して45°の角度で右から到来する波面210cが、最初に右側のマイクロフォン205cに到達し、次いで、マイクロフォン205b及び205aにその順序で到達する。マイクロフォンアレイの出力が、例えば、信号を合計することによって計算される場合、アレイに対して垂直に位置する発信源から発生する信号が、同時にマイクロフォン205に到達し、したがって、互いを補強することとなる。一方、垂直でない方向から発生する信号は、異なる時間に異なるマイクロフォン205に到達し、したがって、より低い出力振幅をもたらす。垂直でない信号の到達方向は、例えば、異なるマイクロフォンにおける到達の遅延から計算することができる。逆に、異なるマイクロフォンによって捕捉された信号に適切な遅延を加えて、合計の前に信号を互いに整列させてもよい。これは、1つの特定の方向からの信号を強調し得、したがって、アンテナを物理的に移動させることなく、特定の方向に沿ってビーム又は感度パターンを形成するために使用することができる。上述のビーム形成プロセスは、遅延和ビーム形成として知られている。
【0021】
いくつかの実装態様では、指向性音声捕捉デバイスはまた、単一のマイクロフォンをスロット付き干渉管と共に使用して実現されてもよい。このようなデバイス250の例を、
図2Bに示す。デバイス250は、軸外の音響信号270が管255に入ることを可能にする複数のスロット260を含む管255内に配設された単一のマイクロフォン205を含む。軸上の音響信号265は、管255の一端の開口部を通って管に入る。所望の軸上の音響信号265は、
図2Bに示すように、スロット260を通って管255に入ることによって、望ましくない軸外の音響信号270がマイクロフォン205に到達する間に、管の長さに沿ってマイクロフォン205に伝播し得る。軸外の音響信号270が複数のスロット260を通って入り、また異なるスロット260からのマイクロフォンの距離は等しくないため、軸外の音響信号270は、互いに部分的に相殺し得る様々な位相関係を有してマイクロフォンに到達し得る。このような弱め合う干渉は、軸上の音響信号265に対して軸外の音響信号270の少なくとも一部分を減衰させ得、それにより、マイクロフォン205のみを使用して起こり得るものよりも指向性が高い感度パターンを生み出し得る。管255は干渉管と呼ばれる場合があり、デバイス250は、ショットガン(又はライフル)マイクロフォンと呼ばれる場合がある。
【0022】
いくつかの実装態様では、音声捕捉デバイス105上のマイクロフォンアレイは、上述のショットガンマイクロフォンなどの指向性マイクロフォンを含むことができる。いくつかの実装態様では、音声捕捉デバイス105は、マイクロフォン間に配設された受動指向性音響要素によって分離された複数のマイクロフォンを含むデバイスを含むことができる。いくつかの実装態様では、受動指向性音響要素は、パイプ又は管状構造体を含み、パイプ又は管状構造体は、パイプの長さの少なくとも一部分に沿った長尺の開口部と、長尺の開口部の少なくとも一部分を覆う音響抵抗材料と、を有する。音響抵抗材料は、音響信号が音響抵抗材料を通ってパイプに入り、そしてパイプに沿って1つ以上のマイクロフォンに伝播するように、例えば、ワイヤメッシュ、焼結プラスチック、又は布地を含むことができる。ワイヤメッシュ、焼結プラスチック、又はファブリックは、複数の小さい開口部又は穴を含み、そこを通って音響信号がパイプに入る。したがって、受動指向性音響要素は各々、近接して離間配置されたセンサ又はマイクロフォンのアレイとして機能する。受動指向性音響要素の様々な種類及び形態が、音声捕捉デバイス105内で使用されてもよい。このような受動指向性音響要素の例は、米国特許第8,351,630号、米国特許第8,358,798号、及び米国特許第8,447,055号に例示され、記載されており、その内容は参照によって本明細書に援用される。受動指向性音響要素を有するマイクロフォンアレイの例は、「Capturing Wide−Band Audio Using Microphone Arrays and Passive Directional Acoustic Elements」と題された同時係属中の米国特許出願第15/406,045号に記載されており、その全内容も参照によって本明細書に援用される。
【0023】
音声捕捉デバイス105によって捕捉された信号から生成されたデータは、特定の方向の「ビーム」に沿って信号を強調し、かつ1つ以上の他の方向からの信号を抑制する感度パターンを生成するように処理されてもよい。このようなビーム又は感度パターン107a〜107c(一般には107)の例を
図1に示す。音声捕捉デバイス105のビーム又は感度パターンは、例えば、音声処理エンジン120を使用して生成することができる。例えば、音声処理エンジン120は、メモリと、マイクロフォンアレイによって捕捉された音声情報を表すデータを処理し、かつビーム107などの1つ以上の感度パターンを生成するように構成された1つ以上の処理デバイスと、を含むことができる。いくつかの実装態様では、これは、音声処理エンジン120によって実行されるビーム形成プロセスを使用して行うことができる。このような場合、音声処理エンジン120は、ビーム形成器と呼ばれることがある。(i)(固定された個別の方向に沿って、捕捉された音響信号を強調する)固定ビーム形成器と、(ii)(このような方向を指定する制御入力に従って、方向に沿って、又は方向の近似に沿って、捕捉された音響信号を、動的に強調する)動的ビーム形成器と、のうちの1つ以上。音声処理エンジン120はまた、ビーム形成器の動作を制御するためのビーム制御システム(以下でさらに詳細に記載される)を実装するために、VAD及び/又はKWSプロセスを実行するように構成されてもよい。
【0024】
音声処理エンジン120は、様々な場所に配置することができる。いくつかの実装態様では、音声処理エンジン120は、音声捕捉デバイス105上、又は音声捕捉デバイス105に関連付けられたボイス作動デバイス上に配設されてもよい。いくつかのこのような場合に、音声処理エンジン120は、音声捕捉デバイス105又は関連付けられたボイス作動デバイスの一部として配設されてもよい。いくつかの実装態様では、音声処理エンジン120は、音声捕捉デバイス105に対して遠隔の場所にあるデバイス上に配置されてもよい。例えば、音声処理エンジン120は、遠隔サーバ上、又はクラウドベースのシステムなどの分散コンピューティングシステム上に配置することができる。
【0025】
いくつかの実装態様では、音声処理エンジン120は、音声捕捉デバイス105によって捕捉された信号から生成されたデータを処理し、かつ音声捕捉デバイス105に対して1つ以上の方向に沿って捕捉された音声データを強調する音声データを生成する、ように構成することができる。いくつかの実装態様では、音声処理エンジン120は、音声データがリアルタイム又はほぼリアルタイムのアプリケーションに使用可能であるように、実質的にリアルタイム(例えば、数ミリ秒以内)で音声データを生成するように構成することができる。特定のアプリケーションにおけるリアルタイム処理の許容可能又は容認可能な時間遅延は、例えば、特定のアプリケーションに関連する対応するユーザエクスペリエンスを著しく劣化させることなく許容され得る遅れ又は処理遅延の量によって調整されてもよい。いくつかの実装態様では、音声処理エンジン120によって生成された音声データは、例えば、インターネットなどのネットワークを介して、音声データを処理するように構成された遠隔のコンピューティングデバイスに送信することができる。例えば、音声処理エンジンによって生成された音声データを遠隔サーバに送信してもよく、遠隔サーバは、音声データを解析して音声データに含まれるボイスコマンドを判定し、それに応じて、1つ以上の制御信号を対応するボイス作動デバイスに送り返し、そのようなボイス作動デバイスの動作に影響を及ぼす。
【0026】
いくつかの実装態様では、音声処理エンジン120は、所与の方向に沿って存在するボイスアクティビティの尤度を計算することに基づいて、マイクロフォンアレイによる音響信号の指向性捕捉を制御するように構成することができる。このような制御機能を実装する例示のシステムを
図3Aに示す。具体的には、
図3Aは、固定ビーム形成器を使用して音声信号の指向性捕捉を制御するように構成されたビーム制御システム300の概略図である。システム300は、音声捕捉デバイス105上に配設された複数のマイクロフォン305a〜305m(一般には305)を含む。マイクロフォン305は、マイクロフォンからの信号を処理し、かつ1つ以上の方向からの強調された音響信号を表す出力信号330を生成する、音声処理エンジン120に接続されている。次いで、このような指向性信号は、例えば、ボイス作動デバイスの1つ以上の動作を制御するために使用することができる。
【0027】
いくつかの実装態様では、音声処理エンジン120は、音声捕捉デバイス105に対して複数の方向に対応する強調された指向性信号を生成する固定ビーム形成器310を含む。例えば、固定ビーム形成器310は、M個のマイクロフォンによって捕捉された音響信号に基づいてN個の指向性信号又はビームを生成するように構成することができる。Mは、Nよりも大きくてもよく、Nに等しくてもよく、又はNよりも小さくてもよい。N個のビームの各々は、音声捕捉デバイス105に対して特定の別個の方向に沿って強調された音響信号を表す。
【0028】
システム300はまた、固定ビーム形成器310によって生成されたN個のビームのうちの1つ以上のための予備スコアを計算するように構成されたビームスコア計算器315を含む。例えば、ビームスコア計算器315は、固定ビーム形成器310によってそれぞれ生成されたN個のビームの各々に対応するビームスコア320a〜320n(一般には320)を計算してもよい。いくつかの実装態様では、ビームスコア計算器315は、ビームの対応する方向に沿ったボイスアクティビティの存在の尤度に基づいて、予備スコアを計算するように構成されている。例えば、ビームスコア計算器315は、特定のビームを表すデータに対してVADプロセスを実行し、かつ対応するビームスコア320としてVADスコアを生成する、ように構成することができる。いくつかの実装態様では、ビームスコア320は、特定のビームに対応するデータ内の人間の発話の存在又は不在を示すフラグであってもよい。
【0029】
VADプロセスを使用して、特定のビームに対応する入力音声データに人間の発話が存在するかどうかを識別することができる。いくつかの実装態様では、特定のビームに対応するデータに人間の発話が存在する場合、VADプロセスを実行しているビームスコア計算器315は、フラグに基づいて1つ以上の動作を取ることができるように、このような発話の存在を示す別個のフラグを生成する。このような動作の例としては、更なるプロセス、快適雑音の注入、音声パススルーのゲーティングなどをオン・オフすることが挙げられる。いくつかの実装態様では、ビームスコア計算器315は、特定のビームに対応する音声ストリームに人間の発話が存在する確率に基づいてビームスコア320を計算するように構成することができる。このようなビームスコア320は、ソフトVADスコアと呼ばれることがある。様々な種類のVADプロセスが、このようなソフトVADスコアを計算する際に使用されてもよい。このようなプロセスの一例は、文献、Huang,Liang−sheng and Chung−ho Yang.「A novel approach to robust speech endpoint detection in car environments.」Acoustics,Speech,and Signal Processing,2000.ICASSP’00.Proceedings.2000 IEEE International Conference on.Vol.3.IEEE,2000,に記載されており、その全内容は、参照により本明細書に援用される。
【0030】
いくつかの実装態様では、異なるビームに対応する複数のソフトVADスコアを比較して、人間の発話源が存在する可能性が高い1つ以上の方向を判定してもよい。次いで、このような方向に対応する1つ以上のビームは、更なる処理のために対象となる方向(複数可)として選択されてもよい。例えば、ビーム制御エンジン325は、ビームスコア320(例えば、ソフトVADスコア)を分析して、高いビームスコアに対応する1つ以上の対象となる方向に焦点を合わせることができる。1つ以上の対象となる方向は、様々な方法で選択されてもよい。いくつかの実装態様では、ビーム制御エンジン325は、ビーム形成器によって生成された複数のビームのうちの1つを選択するように構成されたマルチプレクサ335を含むことができる。例えば、ビーム制御エンジン325が、特定のビームスコア(例えば、320a)が他のビームスコアよりも高いと判定した場合、ビーム制御エンジン325は、更なる処理のために特定のビーム(本例ではビーム1)に対応するデータを選択するように、マルチプレクサ335に(例えば、制御信号を使用して)指示してもよい。いくつかの実装態様では、更なる処理のために、2つ以上のビームが選択されてもよい。例えば、2つの特定のビームに対応するビームスコア320が互いに近接しているが、各々が他のビームスコアよりも実質的に高い場合、2つの特定のビームに対応するデータが、更なる処理のために選択されてもよい。
【0031】
いくつかの実装態様では、1つ以上の対象となる方向はまた、例えば、ソフトVADスコアによって示される空間情報に基づいて新たな動的ビームを生成するように構成された動的ビーム形成器を使用して選択されてもよい。このようなシステム350の例が
図3Bに示されており、音声処理エンジン120は、動的ビーム形成器355を含む。M個のマイクロフォンから受信された入力は、ビーム制御エンジン325によって制御される動的ビーム形成器355に提供される。いくつかの実装態様では、1つ以上の方向に対応するソフトVADスコアが残りのものよりも高い場合、ビーム制御エンジン325は、動的ビーム形成器355を制御して、1つ以上の方向に対応するビームを動的に生成するように構成することができる。動的又は適応ビーム形成器355の例としては、Frostビーム形成器及びGriffiths−Jimビーム形成器が挙げられる。
【0032】
いくつかの実装態様では、動的ビーム形成器は、固定ビーム形成器なしで使用されてもよい。このようなシステムの例が
図3Cに示されており、この図は、フィードバックループを使用して制御される動的ビーム形成器380を使用して音声信号の指向性捕捉を制御するように構成されたビーム制御システム375の概略図を示す。このような実装態様では、動的ビーム形成器は、ビームスコア計算器315によって評価される複数のビームを最初に生成して、対応するビームスコア320を生成する。ビーム制御エンジン325は、ビームスコア320に基づいて、1つ以上の制御信号をフィードバック経路385を介して動的ビーム形成器380に提供して、1つ以上の対象となるビームを生成することができる。いくつかの実装態様では、1つ以上の対象となるビームに対応するデータは、次いで、ビーム制御エンジン325を通過し、出力信号330として提供される。
【0033】
上記の記載は、ビームスコア320の例として、ソフトVADスコアを主に使用する。ただし、他の種類のビームスコア320も可能である。例えば、ビームスコア320は、信号対雑音比(SNR)を含むことができ、信号は、対象となるボイスアクティビティを表し、雑音は、非ボイス音響信号及び望ましくないボイス信号などの他の不要な信号を表す。SNRは、対象となるボイス信号を表す第1の量(例えば、振幅、電力など)と、雑音を表す第2の量(例えば、振幅、電力など)と、の比として計算されてもよい。いくつかの実装態様では、ビームスコア計算器315は、ビームスコア320としてソフトKWSスコアを生成するKWSプロセスを実行することができる。KWSプロセスを使用して、特定のフレーズ、又は1つ以上の「キーワード」セットが、特定のビームに対応するデータストリームに存在するかどうかを判定することができる。いくつかの実装態様では、フレーズ又はキーワードセットが存在する場合、フラグを設定することができ、フラグが設定されているかどうかに基づいて1つ以上の動作が取られてもよい。市販のシステムで使用されるキーワード又はフレーズの例としては、Mountain View,CAのGoogle社製のGoogle Home(登録商標)及び他のAndroid(登録商標)搭載デバイスに使用される「OK Google」、及びCupertino,CAのApple 社製のiOS(登録商標)対応デバイスに使用される「Hey Siri」、及びSeattle,WAのAmazon社製のEcho(登録商標)及びFIRE TV(登録商標)デバイスに使用される「Alexa」が挙げられる。ビームスコア計算器315は、ビームに対応するデータに特定のフレーズが存在する尤度を示すビームスコア320を生成するために、ソフトKWSプロセスを使用するように構成することができる。このようなビームスコアは、ソフトKWSスコアと呼ばれる場合があり、これは次いで、ソフトVADスコアが1つ以上の対象となる方向を選択するためにどのように使用されるかと類似して使用することができる。1つ以上の対象となる方向を特定すると、ビーム制御エンジン325は、固定ビーム形成器によって生成されたビームを選択するか、又は動的ビーム形成器に、1つ以上の対象となる方向に対して動的ビームを生成させるように、構成することができる。
【0034】
いくつかの実装態様では、ビームスコア計算器315は、ソフトVADスコア及びソフトKWSスコアの両方を計算するように構成されてもよい。このような場合、ビーム制御エンジン325は、両方のスコアに基づいてビーム形成器を制御してもよい。例えば、複数のヒトの話し手が存在する環境では、特定の話し手の最初の方向を判定するためにソフトKWSスコアを使用してもよく、次いで、特定の話し手が位置を変更する場合、特定のユーザのボイスに基づいて計算されたソフトVADスコアを、特定のユーザの位置に従ってビーム形成器を制御するために使用することができる。いくつかの実装態様では、特定の話し手が識別されると(例えば、ソフトKWSスコアを使用して)、特定の話し手のボイスの1つ以上の特性が、ソフトVADスコアを計算するのにどのボイスを使用するかを判定する際に識別され得る。いくつかの実装態様では、最初の方向又はビームは、ソフトKWSスコアに基づいて選択されてもよく、次いで、そのボイスが位置を変えても、初期方向に対応するボイスを「追従」するためにソフトVADスコアを使用してもよい。いくつかの実装態様では、ソフトVADスコア及びソフトKWSスコアの両方が利用可能である場合、組み合わされたスコアが、2つのスコアの重み付けされた組み合わせとして各ビームについて計算されてもよい。いくつかの実装態様では、一方のスコアが他方よりも好ましい場合がある。例えば、ソフトVADスコアは、キーワードが検出されない場合(例えば、ソフトKWSスコアの不在によって、又はソフトKWSスコアが閾値を下回ることによって示されるように)に使用されるが、ソフト KWSスコアは、キーワードが検出されたときにソフトVADスコアよりも好ましい場合がある。
【0035】
図4は、本明細書に記載される技術に従って指向性音声を捕捉するための例示のプロセス400のフロー図である。いくつかの実装態様では、プロセス400は、少なくとも部分的に、上述の音声処理エンジン120によって実行されてもよい。プロセス400の動作は、マイクロフォンアレイ(402)によって捕捉された音声を表す情報を受信することを含む。情報は、マイクロフォンアレイに対して対応する方向に沿った感度パターンに従って捕捉された音声信号を各々が表す複数のデータセットを含むことができる。感度パターンは、固定ビーム形成器又は動的ビーム形成器などのビーム形成器によって生成されるビームと実質的に同様であり得る。いくつかの実装態様では、ビーム形成器は、マイクロフォンアレイによって捕捉された信号を処理して、複数のデータセットを含む情報を生成し、その情報を音声処理エンジン120に提供する。いくつかの実装態様では、ビーム形成器は、音声処理エンジンの一部である。
【0036】
プロセス400の動作はまた、複数のデータセットの各々について、対応する方向(404)から捕捉された人間のボイスアクティビティを示す1つ以上の量を計算することを含む。いくつかの実装態様では、1つ以上の量は、上述のビームスコア計算器315によって計算することができる。人間のボイスアクティビティを示す1つ以上の量は、例えば、対応する方向のデータセットに表された音声信号における人間のボイスアクティビティの尤度スコアを含むことができる。このような尤度スコアは、例えば、ボイスアクティビティ検出器の助けを借りて計算されてもよい。人間のボイスアクティビティを示す1つ以上の量はまた、信号対雑音比(SNR)を含むことができ、信号は、対象となるボイスアクティビティであり、雑音は、非ボイス音響信号並びに望ましくないボイス信号を含む他の不要な信号である。SNRは、対象となるボイス信号を表す第1の量(例えば、振幅、電力など)と、雑音を表す第2の量(例えば、振幅、電力など)と、の比として計算されてもよい。いくつかの実装態様では、人間のボイスアクティビティを示す1つ以上の量は、例えば、ソフトVAD及びソフトKWSスコアを含む、上記のビームスコア320と実質的に同様であり得る。いくつかの実装態様では、人間のボイスアクティビティを示す1つ以上の量は、対応する方向のデータセットに表された音声信号におけるキーワードの存在の尤度スコアを表すことができる。
【0037】
プロセス400は、複数の複数のデータセットについて計算された1つ以上の量に少なくとも基づいて、特定の方向(406)から捕捉された音声を表す指向性音声信号を生成することを含む。いくつかの実装態様では、指向性音声信号を生成することは、複数のデータセットのうちの1つを選択することを含む。例えば、固定ビーム形成器が複数のデータセットを生成するために使用される場合、指向性音声信号を生成することは、固定ビーム形成器によって生成された複数のデータセットのうちの1つを選択することを含むことができる。いくつかの実装態様では、指向性音声信号を生成することは、特定の方向に対して生成された感度パターンに従って、動的ビーム形成器に音声を捕捉させることを含むことができる。
【0038】
特定の方向について生成された感度パターンに従って捕捉された音声は、様々な目的に使用することができる。いくつかの実装態様では、捕捉された音声に基づいて生成された信号は、例えば、発話認識、話し手認識、話し手検証、又は別の発話分類を含む様々な発話処理アプリケーションで使用されてもよい。いくつかの実装態様では、プロセス400を実行しているデバイス(例えば、音声処理エンジン120、又は音声処理エンジンを含む別のデバイス若しくは装置)は、上述の発話処理アプリケーションのうちの1つ以上を実装する発話処理エンジンを含むことができる。いくつかの実装態様では、プロセス400を実行しているデバイスは、捕捉された音声に基づいて、発話処理サービスを提供する1つ以上の遠隔コンピューティングデバイス(例えば、クラウドベースのシステムに関連付けられたサーバ)に情報を送信してもよい。いくつかの実装態様では、ボイス作動デバイスを動作させるための1つ以上の制御信号は、特定の方向について生成された感度パターンに従って捕捉された音声を処理することに基づいて生成することができる。
【0039】
本明細書に記載される機能又はその部分、及びその様々な修正(以下「機能」)は、少なくとも部分的にコンピュータプログラム製品(例えば、1つ以上のデータ処理装置、例えば、プログラム可能プロセッサ、コンピュータ、複数のコンピュータ、及び/若しくはプログラム可能論理構成要素、による実行のための、又はその動作を制御するための、1つ以上の非一時的機械可読媒体又は記憶デバイスなどの情報担体において有形に具現化されたコンピュータプログラム)を介して実装され得る。
【0040】
コンピュータプログラムは、コンパイラ型言語又はインタープリタ型言語を含む任意の形態のプログラム言語で書くことができ、それは、スタンドアローンプログラムとして、又はコンピューティング環境での使用に好適なモジュール、構成要素、サブルーチン、若しくは他のユニットとして含む任意の形態で配備され得る。コンピュータプログラムは、1つのコンピュータ上で、若しくは1つのサイトにおける複数のコンピュータ上で実行されるように配備されるか、又は複数のサイトにわたって配信されて、ネットワークによって相互接続され得る。
【0041】
機能の全部又は一部を実装することと関連した動作は、較正プロセスの機能を実施するために1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって実施され得る。機能の全部又は一部は、特殊目的論理回路、例えば、FPGA及び/又はASIC(特定用途向け集積回路)として実装され得る。いくつかの実装態様では、機能の少なくとも一部はまた、Analog Devices社によって開発されたSuper Harvard Architecture Single−Chip Computer(SHARC)などの浮動小数点又は固定小数点デジタル信号プロセッサ(digital signal processor、DSP)上で実行されてもよい。
【0042】
コンピュータプログラムの実行に好適な処理デバイスとしては、例として、汎用及び専用マイクロプロセッサの両方、並びに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般的に、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、又はそれらの両方から命令及びデータを受信することになる。コンピュータの構成要素は、命令を実行するためのプロセッサ、並びに命令及びデータを記憶するための1つ以上のメモリデバイスを含む。
【0043】
本明細書に具体的には記載されていない他の実施形態及び用途もまた、以下の特許請求の範囲内にある。例えば、並列フィードフォワード補償は、フィードバック経路内の同調可能なデジタルフィルタと組み合わされてもよい。いくつかの実装態様では、フィードバック経路は、周波数範囲の特定の部分において、生成された制御信号を減衰させるための同調可能なデジタルフィルタ並びに並列補償スキームを含むことができる。
【0044】
本明細書に記載される異なる実装の要素は、特に上に記載されない他の実施形態を形成するために組み合わされ得る。要素は、それらの動作に悪影響を及ぼすことなく、本明細書に記載される構造から除かれ得る。更にまた、様々な別個の要素は、本明細書に記載される機能を実施するために、1つ以上の個々の要素と組み合わされ得る。
【符号の説明】
【0045】
100 システム
105 音声捕捉デバイス
110 話し手
115 音源
120 音声処理エンジン
200 デバイス
205 マイクロフォン
210 波面
250 デバイス
255 管
260 スロット
265 軸上の音響信号
270 軸外の音響信号
300 システム
305 マイクロフォン
310 固定ビーム形成器
315 ビームスコア計算器
320 ビームスコア
325 ビーム制御エンジン
330 出力信号
335 マルチプレクサ
350 システム
355 動的ビーム形成器
375 ビーム制御システム
380 動的ビーム形成器
385 フィードバック経路