(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-18
(54)【発明の名称】音声活動検出に伴うマイクロホンのミュート通知
(51)【国際特許分類】
H04M 1/00 20060101AFI20240411BHJP
H04R 3/00 20060101ALI20240411BHJP
G10K 11/178 20060101ALI20240411BHJP
【FI】
H04M1/00 H
H04R3/00 320
G10K11/178 100
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023562986
(86)(22)【出願日】2022-03-24
(85)【翻訳文提出日】2023-10-12
(86)【国際出願番号】 EP2022057830
(87)【国際公開番号】W WO2022218673
(87)【国際公開日】2022-10-20
(32)【優先日】2021-04-15
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523387194
【氏名又は名称】アールティーエックス エーエス
【氏名又は名称原語表記】RTX A/S
(74)【代理人】
【識別番号】100176072
【氏名又は名称】小林 功
(72)【発明者】
【氏名】シーラー セバスチャン ビーゲル
(72)【発明者】
【氏名】ブラント クリスチャン
【テーマコード(参考)】
5D061
5D220
5K127
【Fターム(参考)】
5D061FF02
5D220BA04
5D220BA06
5D220BB04
5K127BA03
5K127BB02
5K127DA15
5K127GB72
5K127JA15
5K127MA08
5K127MA09
(57)【要約】
主マイクロホンがミュートされた状態でユーザが話す場合に、通話中に主マイクロホンのミュート状態をユーザへ通知するための方法および装置、例えばヘッドセット。方法は、ユーザの場所での周囲騒音を抑制するために、主マイクロホンからの出力信号、およびユーザの周囲の音声をキャプチャする追加マイクロホンからの出力信号に対してノイズキャンセルアルゴリズム(ENC)を実行することを含む。さらに、主マイクロホンがミュートされた状態で主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出(VAD)アルゴリズムに基づいて処理する。VADアルゴリズムを使用して発話が存在するかどうかが判定され、次に、追加の条件が満たされているかどうかが判定される。最終的には、発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供する。この方法は、例えば、口用マイクロホンにおける様々な雑音が意図しない邪魔なミュート状態通知を通常なら引き起こしかねないヘッドセットに非常に適している。VADアルゴリズムを用いることで発話にのみより通知が引き起こされることを保証することができて、追加の条件を用いて、例えば通話の他の参加者の発話活動に基づいて、またはユーザの周囲の発話に基づいて、ミュート状態通知をインテリジェントに提供する方法により邪魔な通知をなくす、または少なくとも減らす。
【選択図】
図3
【特許請求の範囲】
【請求項1】
1人または複数人の他の参加者との通話中にユーザの発話をキャプチャするよう構成されている主マイクロホン(MM)のミュート状態を、マイクロホンシステムの前記主マイクロホン(MM)がミュートされた状態で前記ユーザが話す場合に前記ユーザへ通知する方法であって、
- 1) 周囲騒音を抑制するために、前記主マイクロホンから(MM)の出力信号、および前記ユーザの周囲の音声をキャプチャするために設置されている追加マイクロホン(M2、AM)からの出力信号を処理してノイズキャンセルアルゴリズム(NC)を実行すること(ENC)と、
- 2) 前記主マイクロホン(MM)がミュートされた状態で前記主マイクロホン(MM)からの前記出力信号をプロセッサシステム(P1)を用いて音声活動検出(VAD1)アルゴリズムに基づいて処理すること(VAD)と、
- 3) 前記音声活動検出アルゴリズム(VAD1、VAD2)の出力に基づいて発話が存在するかどうかを判定すること(S_D)と、
- 4) 追加の条件が満たされているかどうかを判定すること(D_AC)と、
- 5) 発話が存在して前記追加の条件が満たされていると判定された場合にのみミュート状態通知(MT_N)を前記ユーザへ提供すること(P_MSN)と、
を含む方法。
【請求項2】
前記追加の条件の判定は、発話と判定されたものが前記ユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、前記発話と判定されたものが前記ユーザの周囲の発話ソースに由来していないようである場合にのみ前記ミュート状態通知を前記ユーザへ提供することと、を含む請求項1に記載の方法。
【請求項3】
前記ユーザによる発話と前記ユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含む、請求項2に記載の方法。
【請求項4】
前記ユーザによる発話と前記ユーザの周囲からの発話とを判別できるように、前記複数のマイクロホンからの前記出力信号を処理してビームフォーミング感度パターンを提供することを含む、請求項3に記載の方法。
【請求項5】
前記追加の条件の判定は、前記ユーザが物理的な会話をしているようであるかどうかを判定することと、前記ユーザが物理的な会話をしていないようである場合にのみ前記ミュート状態通知を前記ユーザへ提供することと、を含む請求項1~4のいずれか一項に記載の方法。
【請求項6】
口用マイクロホンなどの前記主マイクロホン(MM)からの前記出力信号に対して第1音声活動検出アルゴリズム(VAD1)を実行することと、前記追加マイクロホン(M2)からの前記出力信号に対して第2音声活動検出アルゴリズム(VAD2)を実行して別のソースからの発話を判定することと、を含む請求項5に記載の方法。
【請求項7】
前記ユーザが物理的な会話をしているようであるかどうかを判定するために、前記ユーザによる発話と別のソースからの発話の間の時間を判定することを含む、請求項5または6に記載の方法。
【請求項8】
前記通話の少なくとも1人の前記他の参加者による発話を検出するために前記通話の少なくとも1人の前記他の参加者の音声を示す信号に対して音声活動検出アルゴリズムを実行することを含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記ユーザが話していて、かつ前記通話の少なくとも1人の前記他の参加者による発話が検出されない場合にのみ前記ミュート状態通知を前記ユーザへ提供することを含む、請求項8に記載の方法。
【請求項10】
ステップ1)~4)は、前記主マイクロホンと、前記追加マイクロホンと、スピーカーとを備えるヘッドセットのプロセッサなどの第1プロセッサにより実行され、ステップ5)は前記通話を容易にするコンピュータ装置やコンピュータシステムのプロセッサなどの第2プロセッサにより実行される、請求項1~9のいずれか一項に記載の方法。
【請求項11】
ステップ1)~4)の後に、前記ミュート状態通知の送信を防ぐために、発話が存在して前記追加の条件が満たされていると判定された場合に、前記主マイクロホンからの音声をミュートする判断をするステップが行われる、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記主マイクロホン(MM)および前記追加マイクロホン(M2、AM)からの前記出力信号(A_MM、AM_2)に対して発話の存在を示す出力(V)を与える音声活動検出アルゴリズムを含むノイズキャンセルアルゴリズム(NC)を実行することと、発話の存在を示す前記出力(V)に基づいて前記主マイクロホン(A_MM)からの前記出力信号のノイズキャンセルが行われたバージョン(A_MM_NC)を生成することと、を含む請求項1~11のいずれか一項に記載の方法。
【請求項13】
発話の存在を示す前記出力(V)を、前記主マイクロホン(MM)からの前記出力信号(A_MM)において発話が存在しない期間における雑音(N)を推定する雑音推定器(NE)に適用することを含む、請求項12に記載の方法。
【請求項14】
一連の周波数ビンを用いた前記主マイクロホンの信号(X)の周波数領域表現にゲインベクトル(G)を乗じることであって、前記ゲインベクトル(G)は発話を含まない周波数ビンに対しては低いゲイン値で生成されている、乗じることを含む、請求項12または13に記載の方法。
【請求項15】
前記雑音推定器(NE)からの入力(N)に応答して前記ゲインベクトル(G)を生成することを含む、請求項13または14に記載の方法。
【請求項16】
適応フィルタ(AF)を含む適応型ノイズキャンセルアルゴリズムを適用して前記主マイクロホン(MM)からの前記出力信号(x)のノイズキャンセルが行われたバージョン(z)を生成することを含む、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記適応フィルタ(AF)は、最小二乗平均アルゴリズム、または正規化最小二乗平均アルゴリズムにより実現される、請求項16に記載の方法。
【請求項18】
主マイクロホン(MM)および追加マイクロホン(AM)と、請求項1~17のいずれか一項に記載の方法の少なくともステップ1)~4)を実行するよう構成されているプロセッサシステム(P1)とを備えるマイクロホンシステムを含む装置。
【請求項19】
前記装置はヘッドセットであり、例えば、その不可欠な部分を形成する前記プロセッサシステム(P1)を備えるヘッドセットである、請求項18に記載の装置。
【請求項20】
前記プロセッサシステム(P1)は、前記通話(CL)において前記ユーザが話すことを意図しているようであると判定される場合にのみ前記主マイクロホン(MM)からの音声出力(A_O)を提供するように、前記追加の条件に応じて前記主マイクロホン(MM)をミュートする判断をするように構成される、請求項18または19に記載の装置。
【請求項21】
無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを備え、前記ヘッドセットシステムは、
- 前記ユーザにより着用されるよう構成されているヘッドセット(HS)であって、口用マイクロホンと(MM)、前記口用マイクロホン(MM)とは別に配置される追加マイクロホン(AM)と、スピーカーを備える少なくとも1つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセット(HS)と、
- 前記通話中に前記ユーザが有効化してミュート状態の前記口用マイクロホン(MM)からの音声をミュートすることができるミュート有効化機能(MT)と、
- 前記口用マイクロホン(MM)が前記ミュート状態で前記ユーザが話している場合に前記ミュート状態であることを前記ユーザへ通知するのが適切かどうかを判断するために、または、前記口用マイクロホン(MM)が前記ミュート状態で前記ユーザが話している場合に前記口用マイクロホン(MM)をミュートするべきかを判断するために、請求項1~11のいずれか一項に記載の方法の少なくともステップ1)~4)を実行するよう構成されているプロセッサシステム(P、P1)と、
を含む、請求項20に記載の装置。
【請求項22】
前記プロセッサシステム(P1)は、前記ユーザが話すことを意図しているようであるかどうかを判定して、前記通話(CL)を容易にするエンティティ(P2)によってあらゆるミュート状態通知(MT_N)が送信されるのを防ぐために、前記ユーザが話すことを意図しているようであると判定される場合にのみ前記口用マイクロホン(MM)からの音声(A_O)を状況に応じて送信するよう構成される、請求項21に記載の装置。
【請求項23】
前記プロセッサシステム(P、P2)は、前記スピーカーを介して前記通知(MT_N)を音声通知として前記ユーザへ提供するよう構成される、請求項21または22に記載の装置。
【請求項24】
電話、オンライン通話、電話会議のうちの1つまたは複数を実行するための請求項1~17のいずれか一項に記載の方法の利用法。
【請求項25】
電話、オンライン通話、電話会議のうちの1つまたは複数を実行するための請求項18~22のいずれか一つに記載の装置の利用法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信リンクを介した双方向音声通信、例えばオンライン双方向通信などの音声通信分野に関する。具体的には、本発明はマイクロホンのミュート(消音)をユーザへ通知する方法を提案し、例えば1つまたは複数のマイクロホン入力を用いて、音声活動検出アルゴリズムに基づいてユーザへの邪魔な通知をなくす、または減らす。
【背景技術】
【0002】
ヘッドセットは、オンラインの通話や会議に参加するのに多くの利点を有するが、いくつかの利点は欠点も有する。例えば、しばらくの間はユーザが通話に付け加えることが何もない場合に、ヘッドセットのマイクロホンをミュートできることが望まれている。この機能の一つの欠点は、ユーザは通話で話したくなった場合にマイクロホンがミュートされていることを忘れてしまっているかもしれないことである。
【0003】
この問題は、いくつかの場合には、ユーザがミュートされたマイクロホンへ向かって話しているかどうかを検出してユーザへ視覚的な、または音声の通知を行うことで解決される。音声通知は、通話中のユーザは常に通知を聞くことになるので、利点となりうる。しかし、この機能の一つの欠点は、ユーザは時には意図的に、ミュートされたマイクロホンへ向かって話すかもしれないことである。
【0004】
例えば、ユーザは、通話している場合にどこかの時点で、ユーザの近くに物理的に存在している同僚へ話しかけたくなる。ユーザのマイクロホンはミュートされているので、ユーザが同僚と会話を始めると音声通知が再生されて、その結果、音声通知は支援の役割を果たすのではなく、ユーザを妨害してしまう。
【0005】
さらに、別の欠点は、ヘッドセットのマイクロホンは周囲の音も拾ってしまうことである。こうした周囲の音には同僚の話も含まれうる。これは、ユーザがマイクロホンをミュートして通話している状況につながりかねず、同僚が話している際にヘッドセットのマイクロホンはその発話を拾って、実際はそうではないのに、ユーザがミュートされたマイクロホンへ向かって話しているとユーザへ警告する。
【0006】
EP2881946A1は、遠端および近端での音声信号から静かな事象と音声活動を検出して、音声事象が妨害するものか、話者によるものかを判断するマイクロホンミュート/ミュート解除システムについて記載している。記載のシステムはさらにカメラの画像から顔や動作を検出して、ミュートの表示またはミュート解除の表示を決定しうる。
【0007】
US2015/0195411A1は、インテリジェントで自動的にミュート通知を提供するシステムについて記載している。このシステムは、記録された特性と起動されたタイマーを組み合わせて利用することで、ミュート状態での発話が偽陽性であるとの判断を制御する仕組みを提供する。
【発明の概要】
【発明が解決しようとする課題】
【0008】
したがって、上記の説明によれば、本発明の目的は、ユーザがマイクロホンをミュートした状態で通話や会話に参加している場合の意図しない通知や警告の問題をなくす、または減らす方法および装置を提供することである。
【課題を解決するための手段】
【0009】
第1態様では、本発明は、1人または複数人の他の参加者との通話中に、マイクロホンシステムの主マイクロホンがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法を提供し、この方法は、
- マイクロホンシステムの主マイクロホンがミュートされた状態でマイクロホンシステム、少なくとも主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出(VAD)アルゴリズムに基づいて処理することと、
- 音声活動検出アルゴリズムの出力に基づいて発話が存在するかどうかを判定することと、
- 追加の条件が満たされているかどうかを判定することと、
- 発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供することと、
を含む。
【0010】
好ましくは、マイクロホンシステムは、ユーザの発話をキャプチャするよう構成されている主マイクロホンと、ユーザの周囲の音声をキャプチャするために設置されている追加マイクロホンとを備え、方法は、周囲騒音を抑制するために、主マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセル(雑音消去)アルゴリズムを実行することを含む。追加マイクロホンは、好ましくはいかなる時も音声を通話へ送信するようには接続されず、これはその役割が主マイクロホンをミュートするべきかどうかを判断するため、またはミュート通知を送信するべきかどうかを判断するために情報を提供することであるためである。
【0011】
そのような方法は有益であるが、これはミュートされたマイクロホンの簡易通知に伴う多くの問題をなくす、または少なくとも減らすことができるからである。したがって、通話中の様々な状況での重大な妨害を回避することができる。特に、この方法は、コンピュータ、タブレット、スマートフォン、または同種のものへ接続されるよう構成されているヘッドセットに適している。概して、この方法は、通話で使用することを目的としたマイクロホンを備え、マイクロホンにミュート機能がある様々な装置で使用することができる。この方法の一部はヘッドセットまたはマイクロホンおよびスピーカーを備える他の装置のプロセッサで有利に実施可能であり、この方法の他の部分は通話を容易にするのに関与する構成要素、例えばコンピュータや、オンライン通話を提供するサーバにおいて実施可能である。特に、ヘッドセットまたは他の装置は、主マイクロホンをミュートすることでオンライン通話から意図しないミュート状態の通知を単純に取り除くことができる。
【0012】
本発明は、例えばヘッドセットで実現可能なかなり簡易な処理により、かなりの数の意図しないマイクロホンミュート通知をインテリジェントに取り除く、または減らすことができる、という知見に基づいている。音声活動検出(VAD)アルゴリズムを用いることで、ミュートされたマイクロホンにおける発話だけがミュート状態通知を引き起こすことを保証することができる。ミュート状態通知がユーザへ提供される前に満たされるべき追加の条件をさらに導入することで、例えばユーザが物理的に周囲にいる同僚へ話しかける場合に邪魔なミュート状態通知を大幅に減らすように、ユーザの活動をインテリジェントに検出することができる。ユーザがマイクロホンへ向かって話していることにVADアルゴリズムが気付いた場合、VADアルゴリズムから割り込みが送信されて、例えば「ヘッドセットがミュートされています」という声によるプロンプトをヘッドセットに再生させる。ミュート状態通知は音声によるものであってよく、これはヘッドセットのユーザがこの形態の通知に気づく可能性が最も高いからである。好ましくは、ミュート状態通知の頻度は、ヘッドセットのユーザが物理的な会話をしている場合にあまりに頻繁に通知が再生されるのを防ぐために、例えばユーザにより設定可能であるべきである。
【0013】
特に、ユーザ用主マイクロホンとは別により多くのマイクロホンを使用することは、周囲で話している別の人を検出するのに使用することができる。さらに、別のVADアルゴリズムを、そのような追加マイクロホンによりキャプチャされた発話の検出に使用することができる。さらに、通話において入力される音声信号に対して別のVADアルゴリズムを適用可能であり、その結果他の参加者が話しているのを検出可能として、例えば通話中に他の参加者の誰も話していない場合にのみユーザへのミュート状態通知を許可することで、ユーザが話すことを意図しているかもしれないことを示すことができる。
【0014】
1つまたは複数の追加マイクロホンを用いたノイズキャンセル(ENCまたはANC)はVADアルゴリズムを支援し、VADアルゴリズムが発話の存在を判定するのを改善する。追加マイクロホンは、ユーザがユーザの周囲の発話ソースの方を向いているかどうかを判定するためにビームフォーミングを実行するのに使用することができる。ユーザが周囲の発話ソースの方を向いている場合、ユーザは物理的な会話をしている可能性が最も高く、通知は送信されない。また、追加マイクロホンは、ユーザの頭がユーザの周囲の発話ソースの方に向けられているかどうかを検出するためにビームフォーミングで使用することができる。ユーザの周囲の発話ソースの方に向けられている場合、ユーザは物理的な会話をしている可能性が最も高く、通知は送信されない。また、追加マイクロホンは、ヘッドセットのユーザがその周囲の人からの質問に答えているかどうかを推定するために使用することもできる。周囲のマイクロホンはユーザの周囲の発話を検出し、主マイクロホンが流れの中で物理的な会話への回答または寄与であると推定されるユーザによる発話を検出した場合は、通知は送信されない。
【0015】
1つまたは複数の追加マイクロホンと組み合わせてノイズキャンセルアルゴリズムを導入することでVADアルゴリズムの効率が改善されることが判明し、背景雑音と発話とを区別するのを助ける。さらに、追加マイクロホンを使用することで、ユーザが周囲の人と物理的な会話をしていることの判別が大幅に改善される。これにより、意図しないミュート通知を大幅に減らすことができる、またはさらになくすことができる。
【0016】
以下では、好ましい実施形態および特徴が、記載される「追加の条件」を判定する様々な方法を含めて説明される。
【0017】
好ましい実施形態では、方法は、発話と判定されたものがユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、発話と判定されたものがユーザの周囲の発話ソースに由来していないようである場合にのみミュート状態通知をユーザへ提供することと、を含む。特に、方法は、ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含みうる。特に、方法は、ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理してビームフォーミング感度パターンを提供することを含みうる。
【0018】
一部の実施形態では、方法は、ユーザが物理的な会話をしているようであるかどうかを判定することと、ユーザが物理的な会話をしていないようである場合にのみミュート状態通知をユーザへ提供することと、を含む。特に、方法は、ユーザの発話をキャプチャする、ヘッドセットの口用マイクロホンなどのマイクロホンからの出力信号に対して第1VADアルゴリズムを実行することと、少なくとも1つの追加マイクロホンからの出力信号に対して第2音声活動検出アルゴリズムを実行して別のソースからの発話を判定することと、を含みうる。特に、方法は、ユーザが物理的な会話をしているようであるかどうかを判定するために、ユーザによる発話と別のソースからの発話の間の時間を判定することを含みうる。
【0019】
方法は、通話の少なくとも1人の他の参加者による発話を検出するために、通話の少なくとも1人の他の参加者の音声を示す信号に対してVADアルゴリズムを実行することを含みうる。特に、方法は、ユーザが話していて、かつ通話の少なくとも1人の他の参加者による発話が検出されない場合にのみミュート状態通知をユーザへ提供することを含みうる。したがって、マイクロホンがミュートされているにも関わらずユーザが話すことを意図している可能性が最も高い場合、つまり、通話の他の参加者が静かでユーザが話している場合にのみ、インテリジェントなミュート状態通知をユーザへ提供することができる。
【0020】
方法は、周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセルアルゴリズムを実行することを含みうる。これはVADアルゴリズムの性能の改善を助けうる。
【0021】
希望する場合、ミュート状態通知の頻度の測定をユーザが設定することができる。これにより、通知がなおも邪魔であるとわかった場合に、ユーザは通知の頻度を下げることができるので、体験する妨害をさらに減らすことができる。
【0022】
VADアルゴリズムは信号の中の発話の存在を検出すると理解される。好ましくは、時間領域または周波数領域で信号から特徴量が抽出され、分類規則で使用されて、発話が存在するかどうかが判定される。ミュートされた状態のままで、マイクロホン、例えばヘッドセットのマイクロホンがリアルタイムの信号をVADアルゴリズムへ提供する。VADアルゴリズムの実装は、当業者には既知であろう。
【0023】
一部の実施形態では、方法は、周囲騒音を抑制するために、主マイクロホンおよび追加マイクロホンからの信号に対してノイズキャンセルを実行するステップと、マイクロホンシステムからの出力信号をVADアルゴリズムに基づいて処理するステップと、発話が存在するかどうかを判定するステップと、追加の条件が満たされているかどうかを判定するステップと、を第1プロセッサにより実行することを含み、主マイクロホン、追加マイクロホン、およびスピーカーを備えるヘッドセットのプロセッサなどの第1プロセッサにより実行される。ミュート状態通知を提供するステップは、前記通話を容易にするコンピュータ装置やコンピュータシステムのプロセッサなどの第2プロセッサにより実行される。そのような実施形態では、記載されたステップは、主マイクロホンからの音声をミュートするのか、通話を容易にする第2プロセッサへ送信するのかを判断するために、つまり、発話が存在して追加の条件が満たされていると判断された場合に、主マイクロホンからの音声を通話を容易にする第2プロセッサへ送信すると判断するためだけに利用されるのが望ましい。このようにして、従来の通話システムが使用されたとしても、主マイクロホンがミュートされているため、通話においてユーザが話すことを意図している可能性が高くない限りは正常なミュート状態通知は引き起こされないので、意図しないミュート状態通知は回避される。
【0024】
ノイズキャンセルの一部の実装では、方法は、主マイクロホンからの出力信号、および追加マイクロホンからの出力信号に対して発話の存在を示す出力を与えるVADアルゴリズムを含むノイズキャンセルアルゴリズムを実行することと、発話の存在を示す前記出力に基づいて主マイクロホンからの出力信号のノイズキャンセルが行われたバージョンを生成することとを含む。特に、ノイズキャンセルアルゴリズムは、発話の存在を示す前記出力を、主マイクロホンからの出力信号において発話が存在しない期間における雑音を推定する雑音推定器に適用することを含みうる。特に、ノイズキャンセルアルゴリズムは、一連の周波数ビンを用いた主マイクロホンの信号の周波数領域表現にゲインベクトルを乗じることであって、ゲインベクトルは発話を含まない周波数ビンに対しては低いゲイン値で、発話を含む周波数ビンに対しては好ましくは高いゲイン値で生成されている、乗じることを含みうる。特に、ノイズキャンセルアルゴリズムは、雑音推定器からの入力に応答してゲインベクトルを生成することを含むことができて、その結果、ゲインベクトルは好ましくは雑音推定器からの雑音推定値に基づいて生成される。
【0025】
ノイズキャンセルアルゴリズムにおいてVADアルゴリズムを用いることで雑音推定値は改善されるが、これは発話が存在しない期間にのみ基づくことができるからである。これにより、主マイクロホンからの信号において雑音を良好に抑制することができて、そのような良好な雑音抑制から、ミュート状態通知を判断するために実行されるVADアルゴリズムが改善されることが分かった。
【0026】
別のノイズキャンセルアルゴリズムは、適応フィルタを含む適応型ノイズキャンセルアルゴリズムを適用して主マイクロホンからの出力信号のノイズキャンセルが行われたバージョンを生成することに基づく。具体的には、適応フィルタは当業者には知られている最小二乗平均アルゴリズム、または正規化最小二乗平均アルゴリズムにより実現することができる。
【0027】
第2態様では、本発明は、無線方式などでの双方向音声通信向けに構成されている装置を提供し、この装置は、主マイクロホンおよび追加マイクロホンと、第1態様に係る方法のすべてのステップ、または少なくとも第1態様に係る方法のミュート状態通知を提供すること以外のステップを実行するよう構成されているプロセッサシステムとを備えるマイクロホンシステムを含む。特に、前記プロセッサシステムは、通話においてユーザが話すことを意図しているようであると判定される場合にのみ主マイクロホンからの音声出力を提供するように、前記追加の条件に応じて主マイクロホンをミュートする判断をするように構成することができる。したがって、装置は好ましくは、通話においてユーザが話すことを意図しているようであると判明しない限りは、あらゆる音声が通話を容易にするプロセッサシステムへ送信されるのを防ぐために主マイクロホンをミュートする判断をする。
【0028】
特に、装置はヘッドセットとすることができて、例えば、その不可欠な部分を形成するプロセッサシステムを備えるヘッドセットとすることができる。
【0029】
装置は、双方向音声通信を可能とするために、好ましくはスピーカーを備える。装置は、例えば、コンピュータ、スマートフォン、または同種のものに有線(例えばUSB)または無線(例えばブルートゥース)で接続される、一つのユニット内にマイクロホンシステムおよびスピーカーを備えるスタンドアロン型装置とすることができる。
【0030】
特に、装置は無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを含むことができて、このヘッドセットシステムは、
- ユーザにより着用されるよう構成されているヘッドセットであって、口用マイクロホンと、口用マイクロホンとは別に配置される追加マイクロホンと、スピーカーを備える少なくとも1つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセットと、
- 通話中にユーザが有効化してミュート状態の口用マイクロホンからの音声をミュートすることができるミュート有効化機能と、
- 口用マイクロホンがミュート状態でユーザが話している場合にユーザにミュート状態であることを通知するのが適切かどうかを判断するために、または、口用マイクロホンがミュート状態でユーザが話している場合に口用マイクロホンをミュートするべきかを判断するために、第1態様に係る方法、または少なくともミュート状態通知を送信するステップ以外のステップを実行するよう構成されているプロセッサシステムと、
を含む。特に、装置のプロセッサシステムは、ユーザが話すことを意図しているようであるかどうかを判定して、通話を容易にするプロセッサシステムなどのエンティティによってあらゆるミュート状態通知が送信されるのを防ぐために、ユーザが話すことを意図しているようであると判定される場合にのみ口用マイクロホンからの音声を状況に応じて送信するよう構成されるのが好ましいことがある。
【0031】
特に、マイクロホンシステムは、口用マイクロホンとは別に配置される2つ以上の追加マイクロホンを備えうる。例えば、口用マイクロホンは、口用マイクロホンによりキャプチャされた周囲の音を抑制するためのビームフォーミングを可能とするために複数の別々のマイクロホンとして実現可能である。例えば、1つまたはいくつかの追加マイクロホンをヘッドセットの一方または両方のイヤーカップに設置して、例えばユーザの耳に達した音声に対するアクティブ式ノイズキャンセルのために、周囲の音をキャプチャすることができる。例えば、追加マイクロホンのアレイを、発話がユーザとの会話の一部としてユーザを対象としているようであるかどうか、または、そのような音声がユーザを対象としていない発話と考えられるか、を判断できるようにするために、ユーザだけに対して限定された方向からの発話をキャプチャできるように、および/または、例えば発話が来る方向を判断するためにビームフォーミングを行うように構成される。
【0032】
特に、プロセッサシステムは、スピーカーを介して、通知を例えば音声メッセージなどの音声通知としてユーザへ提供するよう構成される。
【0033】
特に、ミュート機能は、ヘッドセットの一部に設置されるユーザ操作可能なノブ、押しボタン、接点、または他の手段として実現可能である。
【0034】
プロセッサシステムは、ヘッドセットなどの既存の装置において既知のプロセッサとすることができる。したがって、本発明は、VADアルゴリズムを実行するなどの特別な能力のあるプロセッサを有する装置における簡易な実装に適している。したがって、小型のヘッドセットで必要な処理を実装することも可能であるが、希望する場合は、処理システムはコンピュータもしくはスマートフォン、またはヘッドセットとは別の専用の装置上で実現可能である。
【0035】
第3態様では、本発明は通信システムを提供し、この通信システムは、
- 少なくとも1つの第1態様に係る装置と、
- 通信チャネルを介して双方向通話を提供し、少なくとも1つの第1態様に係る装置へ、例えばDECTやブルートゥース、他の類似の短距離無線方式などのデジタル無線方式での双方向音声を状況に応じて提供するよう構成されている通信装置と、
を含む。
【0036】
特に、通信装置は、コンピュータ、またはスマートフォンなどの携帯電話を含みうる。通信チャネルは、例えば2G、3G、4G、5Gや同種のものなどの携帯ネットワーク、インターネット、または有線もしくは無線の専用通信チャネルなどとすることができる。通信装置と通信チャネルの間の接続は、有線接続、または無線接続とすることができて、接続は例えばwi-fi接続を含みうる。
【0037】
特に、通信システムは、例えば電話会議システムや同種のものとすることができる。
【0038】
第4態様では、本発明は、電話、オンライン通話、電話会議のうちの1つまたは複数を実行するための第1態様に係る方法の利用法を提供する。
【0039】
第5態様では、本発明は、電話、オンライン通話、電話会議のうちの1つまたは複数を実行するための第2態様に係る装置の利用法を提供する。
【0040】
第6態様では、本発明は、電話、オンライン通話、電話会議のうちの1つまたは複数を実行するための第3態様に係るシステムの使用を提供する。
【0041】
第7態様では、本発明はプログラムコードを提供し、このプログラムコードは、1つまたは2つの別のプロセッサで実行された場合に、第1態様に係る方法を実行させるよう構成されている。特に、プログラムコードはチップ上のメモリ、または1つもしくは複数の有形の記憶媒体に記憶することができる、あるいはダウンロード用のバージョンでインターネット上で利用可能とすることができる。プログラムコードは、一般的なコード形式、またはプロセッサ専用の形式とすることができる。
【0042】
第1態様に対して説明したのと同じ利点および実施形態が、さらに記載される態様にも同様に当てはまることが理解される。さらに、説明された実施形態は、記載されるすべての態様の間で任意の方法で混合できることが理解される。
【図面の簡単な説明】
【0043】
これより、本発明について添付の図を参照してより詳細に説明する。
【0044】
【
図1】ヘッドセットユーザがオンライン通話を通話の参加者としていて、一方でヘッドセットユーザは通話中にヘッドセットユーザへ話しかける別の人がいる物理的な部屋に存在している状況を示す。
【
図5】主マイクロホン(口用マイクロホン)および追加マイクロホンの両方において、これらのマイクロホンからVADアルゴリズムへ信号を与えるより前に提供されるノイズキャンセルを含む実施形態の要素のブロック図を示す。
【
図6】イヤーカップに設置された追加マイクロホンと、進行中の通話でユーザが話すことを意図しているようであると判定された場合にのみ主マイクロホン(口用マイクロホン)からの音声出力を送信する判断をするプロセッサとを備えるヘッドセットシステムの実施形態を示す。
【
図7】主マイクロホンおよび追加マイクロホンからの音声入力に基づいて、主マイクロホンからの音声信号のノイズキャンセルが行われたバージョンを生成するノイズキャンセルアルゴリズム例のブロック図を示す。
【
図8】適応型ノイズキャンセルに基づくノイズキャンセルアルゴリズムの別の例のブロック図を示す。
【0045】
図は本発明を実施する特定の方法を示しており、これらの図は添付の請求項一式の範囲に入る他の取りうる実施形態を制限すると解釈されるべきではない。
【発明を実施するための形態】
【0046】
図1は本発明の背景にある基本的状況、つまり、ユーザUが別の人P、例えば同僚がいる物理的な部屋RMに存在している状況を示す。ユーザUは、例えばコンピュータまたは同種のものを用いたオンライン会議である通話CLを通話の他の参加者CL_Pと行っている。ユーザUは、通話の参加者CL_Pとの双方向通信向けのヘッドセットを着用している。ユーザUが何らかの理由でヘッドセットのマイクロホンをミュートしていて、雑音または発話がヘッドセットの口用マイクロホンによりキャプチャされる場合、ディスプレイ上の視覚的メッセージまたはヘッドセットのスピーカーを介した音声メッセージのいずれかであるミュート状態通知がユーザへ提供される。しかし、そのような通知は、例えばキャプチャされる音声が部屋RMの中の人Pによる発話である、および/または部屋RMの中の人Pとの会話におけるユーザUによる発話である場合には、ユーザにとって意図していない、邪魔なものである。
【0047】
この問題は、本発明により、音声活動検出(VAD)アルゴリズム、およびミュート状態通知がユーザUへ提供されるべきかを判断する追加の条件を用いることで解決される。これにより、意図しないものであり、支援の役割を果たすのではなくユーザUを妨害する可能性のある通知をなくすことが可能である。
【0048】
図2は、方法の実施形態、つまり、1人または複数人の他の参加者との通話中に、マイクロホンシステムがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法のステップを示す。この方法は、ユーザが位置する環境からの周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理して環境騒音消去アルゴリズムを実行すること(ENC)を含む。さらに、この方法は、マイクロホンシステム、少なくとも主マイクロホンからの出力信号、任意選択で主マイクロホンと追加マイクロホンの両方からの出力信号を、マイクロホンシステムがミュートされた状態でプロセッサシステムを用いてVADアルゴリズムに基づいて処理すること(VAD)を含む。次に、VADアルゴリズムの出力に基づいて発話が存在するかどうかを判定する(S_D)。さらに、発話が存在することが検出されたかもしれないこととは別に、追加の条件が満たされているかどうかを判定して(D_AC)、発話が存在して追加の条件が満たされていると判定された場合にのみ最終的にミュート状態通知をユーザへ提供する(P_MSN)。
【0049】
一部の実施形態では、ステップENC、VAD、S_D、D_ACが第1装置、例えばヘッドセットなどの第1プロセッサにより実行され、ステップP_MSNは遠位にいる参加者との通話を実行するコンピュータなどの第2装置などの第2プロセッサにより実行される。一部の実施形態では、記載される5つのすべてのステップが一つの装置のプロセッサにより実行される。
【0050】
追加の条件は、追加マイクロホンに対して作用して発話がユーザの周りの環境に存在するかどうかを判定するよう構成されている1つまたは複数の別のVADアルゴリズム、および/または、通話から入力される音声に対して作用して他の参加者が話しているかどうかを判断する別のVADアルゴリズムに基づきうる。これは、ユーザが置かれた実際の状況を判断してミュート状態通知を提供するのが適切であるかどうかを判断するのに重要な情報を与える上で有用となりうる。
【0051】
ノイズキャンセルアルゴリズム(しばしば、ENC、ANC、または同種のものと表記される)を用いることで、1つまたは複数のVADアルゴリズムの性能が改善される。
【0052】
説明された方法は例えばヘッドセットで実施されて、ミュート状態通知をインテリジェントに提供する方法を利用することができる。
【0053】
図3は、ヘッドセットの実施形態の一部を示すためのブロック図を示す。判断アルゴリズムD_Aは、特定の条件が満足されていて、ユーザの口用マイクロホンMMがミュート状態MTである場合、つまり、進行中の通話の間にユーザからの音声を遮断している場合に、ミュート状態通知MT_Nをユーザへ送信するべきかを判断する。
【0054】
第1VADアルゴリズムVAD1はヘッドセットの口用マイクロホンMMからの信号に対して作用し、判断アルゴリズムD_Aへの第1入力、つまり、発話が存在するかどうかを判定する。第2VADアルゴリズムVAD2はユーザの周りの環境からの音声をキャプチャするよう構成されている1つまたは複数のマイクロホン、例えばヘッドセットの外装部に配置されている1つまたはいくつかのマイクロホンからの入力に対して作用し、その環境に発話が存在するかどうかが判断アルゴリズムD_Aへ提供される。最終的に、第3VADアルゴリズムVAD3は通話CSからの音声入力に対して作用し、第3VADアルゴリズムは、通話において他の参加者が話しているか、静かであるかを判断する役割を果たす。
【0055】
したがって、判断アルゴリズムD_Aは、ユーザが話すと想定することができるVAD1からの入力に加えて、VAD2、VAD3からの2つの入力を有する。特に、VAD2からの入力は、ユーザが話している間に環境の中の人が話しているかを判断するのに使用することができて、この場合はユーザが環境に存在する人と会話をしており通話の参加者へ話しかける意図はないかもしれないことを意味する可能性がもっとも高く、したがって、ミュート状態通知MT_Nはそのような場合には回避されるべきである。さらに、ユーザが話していることが検出された場合、通話音声CSは他の参加者が話していないことを示しており、通話においてユーザが話したいと思っている可能性が高く、したがって、ミュート状態通知MT_Nを提供するのが適切である。
【0056】
図4は、通話中にユーザに着用されるヘッドセットHSを備えるヘッドセットシステムの実施形態を示し、この実施形態は、ユーザの声をキャプチャするための口用マイクロホンMMの形態の主マイクロホンと、通話CLからの音声をユーザへ提供するためのスピーカーをそれぞれ備える2つのイヤーカップとを有する。ヘッドセットHSの口用マイクロホンMMおよびスピーカーは、例えばヘッドセットHSの一方または両方のイヤーカップに一体化されている、プロセッサPに接続されている。プロセッサPは、無線方式などにおける通話CLに関連する双方向音声通信に対処する。ヘッドセットHSは、通話CL中にユーザが有効化してミュート状態MTの口用マイクロホンMMからの音声をミュートすることができるミュート有効化機能MTを有する。ミュート状態MTは入力としてプロセッサPへ提供され、プロセッサPは前述した方法に従って適切な場合、つまり口用マイクロホンMMがミュート状態MTでユーザが話していることがVADアルゴリズムを用いて検出された場合にのみミュート状態通知MT_Nをユーザへ提供する。
【0057】
示されているヘッドセットシステムの実施形態は、通信チャネルを介して呼接続を提供する役割を果たす通信装置への有線または無線通信での双方向音声通話CL用に構成されていることを理解されたい。
【0058】
一部のヘッドセットシステムの実施形態では、主マイクロホンまたは口用マイクロホンからの音声をミュートするミュート機能の少なくとも一部はヘッドセットシステムの一部を形成するプロセッサ上で実現される。したがって、そのような実施形態では、ヘッドセットシステムは、主マイクロホンがミュートされるべきとユーザが考えているようであると判明した場合に、単純に自ら主マイクロホンをミュートする。したがって、そのような実施形態は通信チャネルを介して呼接続を提供する役割を果たす既存の通信装置またはコンピュータプログラムと互換性があり、これは通話に向けたユーザの発話である可能性が高い音声をヘッドセットが渡してきた場合にのみそのような装置またはプログラムはミュート通知を送信するよう促されるからであり、その結果、装置またはプログラムのミュート通知は意図したように、つまり標準的ヘッドセットシステムを用いる場合と比べて改善した品質で機能する。ただし、処理およびミュート通知の判断は、他の実施形態では通話を容易にする装置またはプログラムによって完全に実行できることを理解されたい。
【0059】
以下の4つの副態様1)~4)はミュート状態通知の方法および装置の性能を改善することが判明しており、したがって好ましい実施形態と考えられる。
【0060】
1)ビームフォーミングによるコンテキスト認識。マイクロホンアレイとして機能するようにヘッドセットに設置される追加マイクロホンの利用。ユーザの環境で話している人、例えば同僚を方向的に特定するのにビームフォーミング技術が使用される。その人が特定の受信角度内で検出された場合は、方法はその人との会話である可能性が高いコンテキストであると認定するよう構成することができて、その結果、ミュート状態通知は提供されるべきではないと判断される。あるいは、またはさらに、ビームフォーミング構成はユーザがその人に注意を向けているかどうかを検出するのに使用することもできる。これは、ビームフォーミングを用いて、ユーザが自分の頭を話している人へ向けているかどうかを検出することにより行われる。人が話し始めた場合、ヘッドセットは特定の角度でその人を検出する。ユーザが自分の頭をその人へ向けている場合、ヘッドセットはその人を別の角度で検出することになり、その結果、会話がもっともらしいコンテキストであるためミュート状態通知は提供されるべきではないと判断されることがある。
【0061】
2)VAD性能を最適化するノイズキャンセルアルゴリズム。例えば環境騒音消去(ENC)アルゴリズムは、主マイクロホン(例えば口用マイクロホン)および1つまたは複数の別々のマイクロホンの入力を使用して周囲騒音を除去することができる。2つの手法を組み合わせることでVADアルゴリズムは周囲騒音にそれほど影響を受けないので、環境音がミュート状態通知を誤って有効化させる危険性を本発明は減少させる。
【0062】
3)会話コンテキスト認識。ユーザの発話をキャプチャする主マイクロホン(例えば口用マイクロホン)とユーザの周囲の発話をキャプチャする1つまたは複数の補助マイクロホンを使用することができる。2つのマイクロホンでのそれぞれの入力に対して、別々に実行されているVADアルゴリズムが発話が存在するかどうかを検出して、ユーザが話している場合、および誰かがユーザの周囲で話している場合にヘッドセットに知らせる。モデルを用いて、2つのマイクロホンでキャプチャされた発話が同じ会話の一部である可能性を評価することができる。この評価を用いて、ミュート状態通知が提供されるべきかを判断することができる。
【0063】
4)通話活動コンテキスト認識。ユーザが通話している場合に2つの別々に実行されているVADアルゴリズムを用いて、一方のVADアルゴリズムは主マイクロホン(例えば口用マイクロホン)からの信号の中の発話を検出する。他方のVADアルゴリズムは通話から入力される音声を処理して音声を検出し、通話活動、つまり通話における発話活動を判定する。通話活動における発話の存在は、ユーザが意図せずミュートされたマイクロホンへ向かって話している可能性を評価するのに使用される。通話活動で発話が検出されず、ユーザがミュートされたマイクロホンへ向かって話している場合、ユーザが寄与するのを通話の参加者が待っている可能性が高いと推定されるので、ミュート状態通知が提供される。通話活動で発話が検出されて、ユーザがミュートされたマイクロホンへ向かって話している場合、ユーザが寄与するのを通話の参加者が待っている可能性はあまり高くないと推定されるので、そのような場合はミュート状態通知は提供されない。
【0064】
図5は、主マイクロホンとしての口用マイクロホンMMおよび追加マイクロホンM2を備えるヘッドセットの実施形態の一部を示すブロック図を示す。判断アルゴリズムD_Aは、口用マイクロホンMMからの音声をミュートするべきか、口用マイクロホンMMからの音声を音声出力A_Oへ渡すべきかを、特定の条件が満足されるかどうかに応じて判断する。
【0065】
口用マイクロホンMMおよび追加マイクロホンM2からの音声出力はいずれも、口用マイクロホンMMからの音声出力の中に存在しうる雑音を消去するためにノイズキャンセルアルゴリズムNCにより処理されて、雑音が抑制された口用マイクロホンMMからの音声信号がVADアルゴリズムVAD1へ入力として提供される。追加マイクロホンM2からの音声出力は別のVADアルゴリズムVAD2により処理される。希望する場合は、これに代えて別の雑音算出アルゴリズムが2つのマイクロホンMMおよびM2からの出力に対して提供されうることを理解されたい。
【0066】
VADアルゴリズムVAD1およびVAD2のそれぞれは、判断アルゴリズムD_A、つまり2つのマイクロホンMMおよびM2のそれぞれで発話が存在するかどうかを判定するアルゴリズムへ入力として提供される結果を提供する。これらの入力は特に、ユーザが環境にいる人と話している、つまり、別の人と物理的な会話をしているようであるかどうかを判定するのに使用することができる。そのような場合、判断アルゴリズムD_Aは口用マイクロホンからの音声をミュートする判断を行い、VAD1に基づいてユーザが話していることが検出され、VAD2がある期間にわたって周囲に更なる発話が存在しないことを示している場合は、口用マイクロホンからの発話を音声出力A_Oに与える。
【0067】
図6は、
図4のヘッドセットシステム(破線で囲まれた部分)の変形を示す。
図6では、ヘッドセットHSは、ここでは口用マイクロホンMMとして示されている主マイクロホンと、ここではヘッドセットHSのイヤーカップに設置されている、環境音をキャプチャするための追加マイクロホンAMとを有する。例えばヘッドセットHSのイヤーカップの一方と一体化されて実装されている、プロセッサシステムP1は、周囲騒音を抑制するために、口用マイクロホンMMおよび追加マイクロホンAMからの出力信号を処理してノイズキャンセルアルゴリズムを実行するよう構成される。さらに、プロセッサシステムP1は、VADに基づいて口用マイクロホンMMからの出力を処理するよう構成され、任意選択で、例えば
図5にあるように別のVADアルゴリズムに基づいて追加マイクロホンからの出力も処理される。さらに、プロセッサシステムP1は、口用マイクロホンMMからの出力に対して実行されたVADの出力に基づいて発話が存在するかどうかを判定するよう構成され、さらに追加の条件が満足されているかどうかを判定する。プロセッサシステムP1は、口用マイクロホンMMが発話をキャプチャしていて、追加の条件が満足されていると判定される場合にのみ口用マイクロホンMMからの音声出力A_Oを生成するよう構成される。特に、追加の条件は、ユーザが話している可能性が高く、かつユーザが周囲の人との物理的な会話に関与していない、と判定されている、とすることができる。具体的には、追加の条件の判定は、追加マイクロホンAMによりキャプチャされた音声の処理に基づいてもよい。
【0068】
別のプロセッサシステムP2は通話を容易にし、その結果、通話参加者CL_Pへ双方向の音声接続性を提供する。プロセッサシステムP2はパソコン、ノートパソコン、タブレット、スマートフォン、または専用の装置を備えることができて、ヘッドセットシステムからの音声出力A_Oを処理して、遠位にいる通話の参加者CL_Pからの音声を用いてヘッドセットシステムへの音声入力A_Iを生成する役割を果たす。
【0069】
このようにして、既存の汎用通話、またはオンライン通信向けのプログラムをヘッドセットと共に使用することができて、よりインテリジェントなミュート通知MT_Nの機能をそれでも得られるが、これは別のプロセッサシステムP2が既存の通話システムで知られている従来の方法で、例えばミュート状態にある場合に音声出力A_Oの音声レベルがあるレベルを超えた場合にミュート通知MT_Nを提供するからである。通知MT_Nは、例えば視覚的通知、および/または音声通知として提供される。しかし、ヘッドセットシステムのプロセッサシステムP1は口用マイクロホンMMのインテリジェントなミュートを提供する役割を果たすので、別のプロセッサシステムP2への音声出力A_Oは、ユーザが進行中の通話で話すことを意図しているようであるとヘッドセットシステムが判断した場合にのみ提供されることが保証され、その結果、既存の通話システムであっても迷惑なミュート状態通知MT_Nが取り除かれる。
【0070】
図7は、主マイクロホンからの音声信号A_MMおよび追加マイクロホンからの音声信号A_M2を処理して、ノイズキャンセルが行われた主マイクロホンからの音声信号A_MM_NCを生成するノイズキャンセルアルゴリズムの例を示す。基本的に、アルゴリズムは音声入力信号A_MMおよびA_M2のそれぞれの周波数領域表現XおよびX2に対して作用する。ゲインベクトルGは主マイクロホンの音声信号Xの周波数表現に乗じられる。ゲインベクトルGは、主マイクロホンの信号Xの周波数表現の発話を含まない周波数ビンに対して低いゲインが設定されるように生成される。そして、XとGの乗算の結果として得られる出力Yは、主マイクロホンの元の音声信号A_MMのノイズキャンセルが行われたバージョンを表現する時間信号A_MM_NCへと変換される。
【0071】
より詳細には、
図7のブロック図はそれぞれの音声信号A_MMおよびA_M2に対して実行される初期の短時間分析STAを示し、これに基づいて、2つの音声信号A_MMおよびA_M2はそれぞれの周波数領域表現XおよびX2へと変換される。発話を含む周波数ビンを増幅して発話を含まない周波数ビンを減衰させるゲインベクトルGを生成するために、Xが雑音Nを推定する雑音推定器NEへ適用されて、最終的にゲイン推定器GEが推定される雑音NおよびXに基づいてゲインベクトルGを生成する。雑音推定器NEは、入力としてのXとX2の両方に作用する音声活動検出器VADからの入力Vを受信し、入力Vは雑音推定器NEに対して発話が存在する場合、または存在しない場合を示し、雑音推定器NEは発話が存在しない期間における自身の雑音推定値Nを更新する。
【0072】
図8は、簡易な適応型ノイズキャンセルに基づくノイズキャンセルアルゴリズムの別の例のブロック図を示す。このアルゴリズムは、主マイクロホンからの音声信号xが意図した発話および雑音を含み、追加マイクロホンからの音声信号x2が同じ雑音を含む、という仮定に基づいているが、2つのマイクロホンは異なる場所に配置されているため、この仮定は実際には完全には有効ではない可能性がある。
【0073】
適応型ノイズキャンセルの目的は、出力電力zを最小化することである。これは、適応フィルタAFにおける誤差信号eとして出力信号を用いることで実現される。最小限の出力電力は、yが雑音と等しい場合に実現されることが証明可能であり、これは出力信号zが所望の信号xと等しいことを意味する。
【0074】
いくつかのアルゴリズム、例えば最小二乗平均(LMS)アルゴリズムに基づく正規化最小二乗平均(NLMS)アルゴリズムを適応フィルタAFとして使用することが可能であり、この場合は誤差eを最小化するために勾配降下法がフィルタ係数を調整するのに使用される。NLMSは入力の電力を正規化し、より速く収束するように時間的に変化するステップサイズを用いる。
【0075】
記載されるノイズキャンセルの例は、主マイクロホンからの音声信号の雑音を抑制するノイズキャンセルは様々な方法で実現可能であることを示す役割を果たすに過ぎないことが理解される。したがって、ノイズキャンセルが行われた主マイクロホンの信号に対して実行されるVADの信頼性を改善する効果は、様々な実装により得ることができる。
【0076】
以下では、追加の実施形態E1~E15が規定される。
【0077】
E1.1人または複数人の他の参加者との通話中にマイクロホンシステムがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法であって、
- マイクロホンシステムがミュートされた状態でマイクロホンシステムからの出力信号をプロセッサシステムを用いて音声活動検出アルゴリズムに基づいて処理すること(VAD)と、
- 音声活動検出アルゴリズムの出力に基づいて発話が存在するかどうかを判定すること(S_D)と、
- 追加の条件が満たされているかどうかを判定すること(D_AC)と、
- 発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供すること(P_MSN)と、
を含む方法。
【0078】
E2.発話と判定されたものがユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、発話と判定されたものがユーザの周囲の発話ソースに由来していないようである場合にのみミュート状態通知をユーザへ提供することと、を含むE1に記載の方法。
【0079】
E3.ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含む、E2に記載の方法。
【0080】
E4.ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理してビームフォーミング感度パターンを提供することを含む、E3に記載の方法。
【0081】
E5.ユーザが物理的な会話をしているようであるかどうかを判定することと、ユーザが物理的な会話をしていないようである場合にのみミュート状態通知をユーザへ提供することと、を含むE1~E4のいずれか一つに記載の方法。
【0082】
E6.ユーザの発話をキャプチャする、口用マイクロホンなどのマイクロホンからの出力信号に対して第1音声活動検出アルゴリズムを実行することと、少なくとも1つの追加マイクロホンからの出力信号に対して第2音声活動検出アルゴリズムを実行して別のソースからの発話を判定することと、を含むE5に記載の方法。
【0083】
E7.ユーザが物理的な会話をしているようであるかどうかを判定するために、ユーザによる発話と別のソースからの発話の間の時間を判定することを含む、E5またはE6に記載の方法。
【0084】
E8.通話の少なくとも1人の他の参加者による発話を検出するために、通話の少なくとも1人の他の参加者の音声を示す信号に対して音声活動検出アルゴリズムを実行することを含む、E1~E7のいずれか一つに記載の方法。
【0085】
E9.ユーザが話していて、かつ通話の少なくとも1人の他の参加者による発話が検出されない場合にのみミュート状態通知をユーザへ提供することを含む、E8に記載の方法。
【0086】
E10.周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセルアルゴリズム(ENC)を実行することを含む、E1~E9のいずれか一つに記載の方法。
【0087】
E11.マイクロホンシステムおよびプロセッサシステム(P)を備え、E1~E10のいずれか一項に記載の方法を実行するよう構成されている装置。
【0088】
E12.無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを備える、E11に係る装置であって、ヘッドセットシステムは、
- ユーザにより着用されるよう構成されているヘッドセット(HS)であって、少なくとも口用マイクロホン(MM)と、スピーカーを備える少なくとも1つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセット(HS)と、
- 通話中にユーザが有効化してミュート状態の口用マイクロホン(MM)からの音声をミュートすることができるミュート有効化機能(MT)と、
- 口用マイクロホン(MM)がミュート状態でユーザが話している場合にミュート状態通知をユーザへ通知するのが適切かどうかを判断するために、E1~E10のいずれか一つに記載の方法を実行するよう構成されているプロセッサシステム(P)と、
を含む、装置。
【0089】
E13.マイクロホンシステムは、口用マイクロホン(MM)とは別に配置される少なくとも1つの追加マイクロホン(M2)を備える、E12に係る装置。
【0090】
E14.プロセッサシステム(P)は、スピーカーを介して通知を音声通知としてユーザへ提供するよう構成される、E12またはE13に係る装置。
【0091】
E15.電話、オンライン通話、電話会議のうちの1つまたは複数を実行するためのE1~E10のいずれか一つに記載の方法の利用法。
【0092】
要約すると、本発明は、主マイクロホンがミュートされた状態でユーザが話す場合に、通話中に主マイクロホンのミュート状態をユーザへ通知するための方法および装置、例えばヘッドセットを提供する。方法は、ユーザの場所での周囲騒音を抑制するために、主マイクロホンからの出力信号、およびユーザの周囲の音声をキャプチャする追加マイクロホンからの出力信号に対してノイズキャンセルアルゴリズム(ENC)を実行することを含む。さらに、主マイクロホンがミュートされた状態で主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出(VAD)アルゴリズムに基づいて処理する。VADアルゴリズムを使用して発話が存在するかどうかが判定され、次に、追加の条件が満たされているかどうかが判定される。最終的には、発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供する。この方法は、例えば、口用マイクロホンにおける様々な雑音が意図しない邪魔なミュート状態通知を通常なら引き起こしかねないヘッドセットに非常に適している。VADアルゴリズムを用いることで発話にのみより通知が引き起こされることを保証することができて、追加の条件を用いて、例えば通話の他の参加者の発話活動に基づいて、およびユーザの周囲の発話に基づいて、ミュート状態通知をインテリジェントに提供する方法により邪魔な通知をなくす、または少なくとも減らす。
【0093】
本発明は特定の実施形態に関連して説明されたが、提示された例に限定されるとは決して解釈されるべきではない。本発明の範囲は、添付の請求項一式を踏まえて解釈されるべきである。請求項に関連して、用語、「備える/含む(including)」または「備える/含む(includes)」は、他の考えられる要素またはステップを排除しない。また、「a」、「an」などの参照の言及は、複数を排除すると解釈されるべきではない。また、請求項における、図に示される要素に対する参照符号の使用も、本発明の範囲を限定すると解釈されるべきではない。さらに、異なる請求項に記載される個々の特徴は、場合によっては有利に組み合わせることができて、異なる請求項におけるこれらの特徴への言及は、特徴の組み合わせが可能ではなく有益であるということを排除するものではない。
【国際調査報告】