特表2024-516946 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アールティーエックスエーエスの特許一覧

特表2024-516946音声活動検出に伴うマイクロホンのミュート通知

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-18

(54)【発明の名称】音声活動検出に伴うマイクロホンのミュート通知

(51)【国際特許分類】

H04M 1/00 20060101AFI20240411BHJP

H04R 3/00 20060101ALI20240411BHJP

G10K 11/178 20060101ALI20240411BHJP

【ＦＩ】

H04M1/00 H

H04R3/00 320

G10K11/178 100

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023562986

(86)(22)【出願日】2022-03-24

(85)【翻訳文提出日】2023-10-12

(86)【国際出願番号】 EP2022057830

(87)【国際公開番号】W WO2022218673

(87)【国際公開日】2022-10-20

(31)【優先権主張番号】21168551.6

(32)【優先日】2021-04-15

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ブルートゥース

(71)【出願人】

【識別番号】523387194

【氏名又は名称】アールティーエックスエーエス

【氏名又は名称原語表記】ＲＴＸＡ／Ｓ

(74)【代理人】

【識別番号】100176072

【弁理士】

【氏名又は名称】小林功

(72)【発明者】

【氏名】シーラーセバスチャンビーゲル

(72)【発明者】

【氏名】ブラントクリスチャン

【テーマコード（参考）】

5D061

5D220

5K127

【Ｆターム（参考）】

5D061FF02

5D220BA04

5D220BA06

5D220BB04

5K127BA03

5K127BB02

5K127DA15

5K127GB72

5K127JA15

5K127MA08

5K127MA09

(57)【要約】

主マイクロホンがミュートされた状態でユーザが話す場合に、通話中に主マイクロホンのミュート状態をユーザへ通知するための方法および装置、例えばヘッドセット。方法は、ユーザの場所での周囲騒音を抑制するために、主マイクロホンからの出力信号、およびユーザの周囲の音声をキャプチャする追加マイクロホンからの出力信号に対してノイズキャンセルアルゴリズム（ＥＮＣ）を実行することを含む。さらに、主マイクロホンがミュートされた状態で主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出（ＶＡＤ）アルゴリズムに基づいて処理する。ＶＡＤアルゴリズムを使用して発話が存在するかどうかが判定され、次に、追加の条件が満たされているかどうかが判定される。最終的には、発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供する。この方法は、例えば、口用マイクロホンにおける様々な雑音が意図しない邪魔なミュート状態通知を通常なら引き起こしかねないヘッドセットに非常に適している。ＶＡＤアルゴリズムを用いることで発話にのみより通知が引き起こされることを保証することができて、追加の条件を用いて、例えば通話の他の参加者の発話活動に基づいて、またはユーザの周囲の発話に基づいて、ミュート状態通知をインテリジェントに提供する方法により邪魔な通知をなくす、または少なくとも減らす。
【選択図】図３

【特許請求の範囲】

【請求項1】

１人または複数人の他の参加者との通話中にユーザの発話をキャプチャするよう構成されている主マイクロホン（ＭＭ）のミュート状態を、マイクロホンシステムの前記主マイクロホン（ＭＭ）がミュートされた状態で前記ユーザが話す場合に前記ユーザへ通知する方法であって、
－１）周囲騒音を抑制するために、前記主マイクロホンから（ＭＭ）の出力信号、および前記ユーザの周囲の音声をキャプチャするために設置されている追加マイクロホン（Ｍ２、ＡＭ）からの出力信号を処理してノイズキャンセルアルゴリズム（ＮＣ）を実行すること（ＥＮＣ）と、
－２）前記主マイクロホン（ＭＭ）がミュートされた状態で前記主マイクロホン（ＭＭ）からの前記出力信号をプロセッサシステム（Ｐ１）を用いて音声活動検出（ＶＡＤ１）アルゴリズムに基づいて処理すること（ＶＡＤ）と、
－３）前記音声活動検出アルゴリズム（ＶＡＤ１、ＶＡＤ２）の出力に基づいて発話が存在するかどうかを判定すること（Ｓ＿Ｄ）と、
－４）追加の条件が満たされているかどうかを判定すること（Ｄ＿ＡＣ）と、
－５）発話が存在して前記追加の条件が満たされていると判定された場合にのみミュート状態通知（ＭＴ＿Ｎ）を前記ユーザへ提供すること（Ｐ＿ＭＳＮ）と、
を含む方法。

【請求項2】

前記追加の条件の判定は、発話と判定されたものが前記ユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、前記発話と判定されたものが前記ユーザの周囲の発話ソースに由来していないようである場合にのみ前記ミュート状態通知を前記ユーザへ提供することと、を含む請求項１に記載の方法。

【請求項3】

前記ユーザによる発話と前記ユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含む、請求項２に記載の方法。

【請求項4】

前記ユーザによる発話と前記ユーザの周囲からの発話とを判別できるように、前記複数のマイクロホンからの前記出力信号を処理してビームフォーミング感度パターンを提供することを含む、請求項３に記載の方法。

【請求項5】

前記追加の条件の判定は、前記ユーザが物理的な会話をしているようであるかどうかを判定することと、前記ユーザが物理的な会話をしていないようである場合にのみ前記ミュート状態通知を前記ユーザへ提供することと、を含む請求項１～４のいずれか一項に記載の方法。

【請求項6】

口用マイクロホンなどの前記主マイクロホン（ＭＭ）からの前記出力信号に対して第１音声活動検出アルゴリズム（ＶＡＤ１）を実行することと、前記追加マイクロホン（Ｍ２）からの前記出力信号に対して第２音声活動検出アルゴリズム（ＶＡＤ２）を実行して別のソースからの発話を判定することと、を含む請求項５に記載の方法。

【請求項7】

前記ユーザが物理的な会話をしているようであるかどうかを判定するために、前記ユーザによる発話と別のソースからの発話の間の時間を判定することを含む、請求項５または６に記載の方法。

【請求項8】

前記通話の少なくとも１人の前記他の参加者による発話を検出するために前記通話の少なくとも１人の前記他の参加者の音声を示す信号に対して音声活動検出アルゴリズムを実行することを含む、請求項１～７のいずれか一項に記載の方法。

【請求項9】

前記ユーザが話していて、かつ前記通話の少なくとも１人の前記他の参加者による発話が検出されない場合にのみ前記ミュート状態通知を前記ユーザへ提供することを含む、請求項８に記載の方法。

【請求項10】

ステップ１）～４）は、前記主マイクロホンと、前記追加マイクロホンと、スピーカーとを備えるヘッドセットのプロセッサなどの第１プロセッサにより実行され、ステップ５）は前記通話を容易にするコンピュータ装置やコンピュータシステムのプロセッサなどの第２プロセッサにより実行される、請求項１～９のいずれか一項に記載の方法。

【請求項11】

ステップ１）～４）の後に、前記ミュート状態通知の送信を防ぐために、発話が存在して前記追加の条件が満たされていると判定された場合に、前記主マイクロホンからの音声をミュートする判断をするステップが行われる、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記主マイクロホン（ＭＭ）および前記追加マイクロホン（Ｍ２、ＡＭ）からの前記出力信号（Ａ＿ＭＭ、ＡＭ＿２）に対して発話の存在を示す出力（Ｖ）を与える音声活動検出アルゴリズムを含むノイズキャンセルアルゴリズム（ＮＣ）を実行することと、発話の存在を示す前記出力（Ｖ）に基づいて前記主マイクロホン（Ａ＿ＭＭ）からの前記出力信号のノイズキャンセルが行われたバージョン（Ａ＿ＭＭ＿ＮＣ）を生成することと、を含む請求項１～１１のいずれか一項に記載の方法。

【請求項13】

発話の存在を示す前記出力（Ｖ）を、前記主マイクロホン（ＭＭ）からの前記出力信号（Ａ＿ＭＭ）において発話が存在しない期間における雑音（Ｎ）を推定する雑音推定器（ＮＥ）に適用することを含む、請求項１２に記載の方法。

【請求項14】

一連の周波数ビンを用いた前記主マイクロホンの信号（Ｘ）の周波数領域表現にゲインベクトル（Ｇ）を乗じることであって、前記ゲインベクトル（Ｇ）は発話を含まない周波数ビンに対しては低いゲイン値で生成されている、乗じることを含む、請求項１２または１３に記載の方法。

【請求項15】

前記雑音推定器（ＮＥ）からの入力（Ｎ）に応答して前記ゲインベクトル（Ｇ）を生成することを含む、請求項１３または１４に記載の方法。

【請求項16】

適応フィルタ（ＡＦ）を含む適応型ノイズキャンセルアルゴリズムを適用して前記主マイクロホン（ＭＭ）からの前記出力信号（ｘ）のノイズキャンセルが行われたバージョン（ｚ）を生成することを含む、請求項１～１５のいずれか一項に記載の方法。

【請求項17】

前記適応フィルタ（ＡＦ）は、最小二乗平均アルゴリズム、または正規化最小二乗平均アルゴリズムにより実現される、請求項１６に記載の方法。

【請求項18】

主マイクロホン（ＭＭ）および追加マイクロホン（ＡＭ）と、請求項１～１７のいずれか一項に記載の方法の少なくともステップ１）～４）を実行するよう構成されているプロセッサシステム（Ｐ１）とを備えるマイクロホンシステムを含む装置。

【請求項19】

前記装置はヘッドセットであり、例えば、その不可欠な部分を形成する前記プロセッサシステム（Ｐ１）を備えるヘッドセットである、請求項１８に記載の装置。

【請求項20】

前記プロセッサシステム（Ｐ１）は、前記通話（ＣＬ）において前記ユーザが話すことを意図しているようであると判定される場合にのみ前記主マイクロホン（ＭＭ）からの音声出力（Ａ＿Ｏ）を提供するように、前記追加の条件に応じて前記主マイクロホン（ＭＭ）をミュートする判断をするように構成される、請求項１８または１９に記載の装置。

【請求項21】

無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを備え、前記ヘッドセットシステムは、
－前記ユーザにより着用されるよう構成されているヘッドセット（ＨＳ）であって、口用マイクロホンと（ＭＭ）、前記口用マイクロホン（ＭＭ）とは別に配置される追加マイクロホン（ＡＭ）と、スピーカーを備える少なくとも１つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセット（ＨＳ）と、
－前記通話中に前記ユーザが有効化してミュート状態の前記口用マイクロホン（ＭＭ）からの音声をミュートすることができるミュート有効化機能（ＭＴ）と、
－前記口用マイクロホン（ＭＭ）が前記ミュート状態で前記ユーザが話している場合に前記ミュート状態であることを前記ユーザへ通知するのが適切かどうかを判断するために、または、前記口用マイクロホン（ＭＭ）が前記ミュート状態で前記ユーザが話している場合に前記口用マイクロホン（ＭＭ）をミュートするべきかを判断するために、請求項１～１１のいずれか一項に記載の方法の少なくともステップ１）～４）を実行するよう構成されているプロセッサシステム（Ｐ、Ｐ１）と、
を含む、請求項２０に記載の装置。

【請求項22】

前記プロセッサシステム（Ｐ１）は、前記ユーザが話すことを意図しているようであるかどうかを判定して、前記通話（ＣＬ）を容易にするエンティティ（Ｐ２）によってあらゆるミュート状態通知（ＭＴ＿Ｎ）が送信されるのを防ぐために、前記ユーザが話すことを意図しているようであると判定される場合にのみ前記口用マイクロホン（ＭＭ）からの音声（Ａ＿Ｏ）を状況に応じて送信するよう構成される、請求項２１に記載の装置。

【請求項23】

前記プロセッサシステム（Ｐ、Ｐ２）は、前記スピーカーを介して前記通知（ＭＴ＿Ｎ）を音声通知として前記ユーザへ提供するよう構成される、請求項２１または２２に記載の装置。

【請求項24】

電話、オンライン通話、電話会議のうちの１つまたは複数を実行するための請求項１～１７のいずれか一項に記載の方法の利用法。

【請求項25】

電話、オンライン通話、電話会議のうちの１つまたは複数を実行するための請求項１８～２２のいずれか一つに記載の装置の利用法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、通信リンクを介した双方向音声通信、例えばオンライン双方向通信などの音声通信分野に関する。具体的には、本発明はマイクロホンのミュート（消音）をユーザへ通知する方法を提案し、例えば１つまたは複数のマイクロホン入力を用いて、音声活動検出アルゴリズムに基づいてユーザへの邪魔な通知をなくす、または減らす。

【背景技術】

【0002】

ヘッドセットは、オンラインの通話や会議に参加するのに多くの利点を有するが、いくつかの利点は欠点も有する。例えば、しばらくの間はユーザが通話に付け加えることが何もない場合に、ヘッドセットのマイクロホンをミュートできることが望まれている。この機能の一つの欠点は、ユーザは通話で話したくなった場合にマイクロホンがミュートされていることを忘れてしまっているかもしれないことである。

【0003】

この問題は、いくつかの場合には、ユーザがミュートされたマイクロホンへ向かって話しているかどうかを検出してユーザへ視覚的な、または音声の通知を行うことで解決される。音声通知は、通話中のユーザは常に通知を聞くことになるので、利点となりうる。しかし、この機能の一つの欠点は、ユーザは時には意図的に、ミュートされたマイクロホンへ向かって話すかもしれないことである。

【0004】

例えば、ユーザは、通話している場合にどこかの時点で、ユーザの近くに物理的に存在している同僚へ話しかけたくなる。ユーザのマイクロホンはミュートされているので、ユーザが同僚と会話を始めると音声通知が再生されて、その結果、音声通知は支援の役割を果たすのではなく、ユーザを妨害してしまう。

【0005】

さらに、別の欠点は、ヘッドセットのマイクロホンは周囲の音も拾ってしまうことである。こうした周囲の音には同僚の話も含まれうる。これは、ユーザがマイクロホンをミュートして通話している状況につながりかねず、同僚が話している際にヘッドセットのマイクロホンはその発話を拾って、実際はそうではないのに、ユーザがミュートされたマイクロホンへ向かって話しているとユーザへ警告する。

【0006】

ＥＰ２８８１９４６Ａ１は、遠端および近端での音声信号から静かな事象と音声活動を検出して、音声事象が妨害するものか、話者によるものかを判断するマイクロホンミュート／ミュート解除システムについて記載している。記載のシステムはさらにカメラの画像から顔や動作を検出して、ミュートの表示またはミュート解除の表示を決定しうる。

【0007】

ＵＳ２０１５／０１９５４１１Ａ１は、インテリジェントで自動的にミュート通知を提供するシステムについて記載している。このシステムは、記録された特性と起動されたタイマーを組み合わせて利用することで、ミュート状態での発話が偽陽性であるとの判断を制御する仕組みを提供する。

【発明の概要】

【発明が解決しようとする課題】

【0008】

したがって、上記の説明によれば、本発明の目的は、ユーザがマイクロホンをミュートした状態で通話や会話に参加している場合の意図しない通知や警告の問題をなくす、または減らす方法および装置を提供することである。

【課題を解決するための手段】

【0009】

第１態様では、本発明は、１人または複数人の他の参加者との通話中に、マイクロホンシステムの主マイクロホンがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法を提供し、この方法は、
－マイクロホンシステムの主マイクロホンがミュートされた状態でマイクロホンシステム、少なくとも主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出（ＶＡＤ）アルゴリズムに基づいて処理することと、
－音声活動検出アルゴリズムの出力に基づいて発話が存在するかどうかを判定することと、
－追加の条件が満たされているかどうかを判定することと、
－発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供することと、
を含む。

【0010】

好ましくは、マイクロホンシステムは、ユーザの発話をキャプチャするよう構成されている主マイクロホンと、ユーザの周囲の音声をキャプチャするために設置されている追加マイクロホンとを備え、方法は、周囲騒音を抑制するために、主マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセル（雑音消去）アルゴリズムを実行することを含む。追加マイクロホンは、好ましくはいかなる時も音声を通話へ送信するようには接続されず、これはその役割が主マイクロホンをミュートするべきかどうかを判断するため、またはミュート通知を送信するべきかどうかを判断するために情報を提供することであるためである。

【0011】

そのような方法は有益であるが、これはミュートされたマイクロホンの簡易通知に伴う多くの問題をなくす、または少なくとも減らすことができるからである。したがって、通話中の様々な状況での重大な妨害を回避することができる。特に、この方法は、コンピュータ、タブレット、スマートフォン、または同種のものへ接続されるよう構成されているヘッドセットに適している。概して、この方法は、通話で使用することを目的としたマイクロホンを備え、マイクロホンにミュート機能がある様々な装置で使用することができる。この方法の一部はヘッドセットまたはマイクロホンおよびスピーカーを備える他の装置のプロセッサで有利に実施可能であり、この方法の他の部分は通話を容易にするのに関与する構成要素、例えばコンピュータや、オンライン通話を提供するサーバにおいて実施可能である。特に、ヘッドセットまたは他の装置は、主マイクロホンをミュートすることでオンライン通話から意図しないミュート状態の通知を単純に取り除くことができる。

【0012】

本発明は、例えばヘッドセットで実現可能なかなり簡易な処理により、かなりの数の意図しないマイクロホンミュート通知をインテリジェントに取り除く、または減らすことができる、という知見に基づいている。音声活動検出（ＶＡＤ）アルゴリズムを用いることで、ミュートされたマイクロホンにおける発話だけがミュート状態通知を引き起こすことを保証することができる。ミュート状態通知がユーザへ提供される前に満たされるべき追加の条件をさらに導入することで、例えばユーザが物理的に周囲にいる同僚へ話しかける場合に邪魔なミュート状態通知を大幅に減らすように、ユーザの活動をインテリジェントに検出することができる。ユーザがマイクロホンへ向かって話していることにＶＡＤアルゴリズムが気付いた場合、ＶＡＤアルゴリズムから割り込みが送信されて、例えば「ヘッドセットがミュートされています」という声によるプロンプトをヘッドセットに再生させる。ミュート状態通知は音声によるものであってよく、これはヘッドセットのユーザがこの形態の通知に気づく可能性が最も高いからである。好ましくは、ミュート状態通知の頻度は、ヘッドセットのユーザが物理的な会話をしている場合にあまりに頻繁に通知が再生されるのを防ぐために、例えばユーザにより設定可能であるべきである。

【0013】

特に、ユーザ用主マイクロホンとは別により多くのマイクロホンを使用することは、周囲で話している別の人を検出するのに使用することができる。さらに、別のＶＡＤアルゴリズムを、そのような追加マイクロホンによりキャプチャされた発話の検出に使用することができる。さらに、通話において入力される音声信号に対して別のＶＡＤアルゴリズムを適用可能であり、その結果他の参加者が話しているのを検出可能として、例えば通話中に他の参加者の誰も話していない場合にのみユーザへのミュート状態通知を許可することで、ユーザが話すことを意図しているかもしれないことを示すことができる。

【0014】

１つまたは複数の追加マイクロホンを用いたノイズキャンセル（ＥＮＣまたはＡＮＣ）はＶＡＤアルゴリズムを支援し、ＶＡＤアルゴリズムが発話の存在を判定するのを改善する。追加マイクロホンは、ユーザがユーザの周囲の発話ソースの方を向いているかどうかを判定するためにビームフォーミングを実行するのに使用することができる。ユーザが周囲の発話ソースの方を向いている場合、ユーザは物理的な会話をしている可能性が最も高く、通知は送信されない。また、追加マイクロホンは、ユーザの頭がユーザの周囲の発話ソースの方に向けられているかどうかを検出するためにビームフォーミングで使用することができる。ユーザの周囲の発話ソースの方に向けられている場合、ユーザは物理的な会話をしている可能性が最も高く、通知は送信されない。また、追加マイクロホンは、ヘッドセットのユーザがその周囲の人からの質問に答えているかどうかを推定するために使用することもできる。周囲のマイクロホンはユーザの周囲の発話を検出し、主マイクロホンが流れの中で物理的な会話への回答または寄与であると推定されるユーザによる発話を検出した場合は、通知は送信されない。

【0015】

１つまたは複数の追加マイクロホンと組み合わせてノイズキャンセルアルゴリズムを導入することでＶＡＤアルゴリズムの効率が改善されることが判明し、背景雑音と発話とを区別するのを助ける。さらに、追加マイクロホンを使用することで、ユーザが周囲の人と物理的な会話をしていることの判別が大幅に改善される。これにより、意図しないミュート通知を大幅に減らすことができる、またはさらになくすことができる。

【0016】

以下では、好ましい実施形態および特徴が、記載される「追加の条件」を判定する様々な方法を含めて説明される。

【0017】

好ましい実施形態では、方法は、発話と判定されたものがユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、発話と判定されたものがユーザの周囲の発話ソースに由来していないようである場合にのみミュート状態通知をユーザへ提供することと、を含む。特に、方法は、ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含みうる。特に、方法は、ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理してビームフォーミング感度パターンを提供することを含みうる。

【0018】

一部の実施形態では、方法は、ユーザが物理的な会話をしているようであるかどうかを判定することと、ユーザが物理的な会話をしていないようである場合にのみミュート状態通知をユーザへ提供することと、を含む。特に、方法は、ユーザの発話をキャプチャする、ヘッドセットの口用マイクロホンなどのマイクロホンからの出力信号に対して第１ＶＡＤアルゴリズムを実行することと、少なくとも１つの追加マイクロホンからの出力信号に対して第２音声活動検出アルゴリズムを実行して別のソースからの発話を判定することと、を含みうる。特に、方法は、ユーザが物理的な会話をしているようであるかどうかを判定するために、ユーザによる発話と別のソースからの発話の間の時間を判定することを含みうる。

【0019】

方法は、通話の少なくとも１人の他の参加者による発話を検出するために、通話の少なくとも１人の他の参加者の音声を示す信号に対してＶＡＤアルゴリズムを実行することを含みうる。特に、方法は、ユーザが話していて、かつ通話の少なくとも１人の他の参加者による発話が検出されない場合にのみミュート状態通知をユーザへ提供することを含みうる。したがって、マイクロホンがミュートされているにも関わらずユーザが話すことを意図している可能性が最も高い場合、つまり、通話の他の参加者が静かでユーザが話している場合にのみ、インテリジェントなミュート状態通知をユーザへ提供することができる。

【0020】

方法は、周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセルアルゴリズムを実行することを含みうる。これはＶＡＤアルゴリズムの性能の改善を助けうる。

【0021】

希望する場合、ミュート状態通知の頻度の測定をユーザが設定することができる。これにより、通知がなおも邪魔であるとわかった場合に、ユーザは通知の頻度を下げることができるので、体験する妨害をさらに減らすことができる。

【0022】

ＶＡＤアルゴリズムは信号の中の発話の存在を検出すると理解される。好ましくは、時間領域または周波数領域で信号から特徴量が抽出され、分類規則で使用されて、発話が存在するかどうかが判定される。ミュートされた状態のままで、マイクロホン、例えばヘッドセットのマイクロホンがリアルタイムの信号をＶＡＤアルゴリズムへ提供する。ＶＡＤアルゴリズムの実装は、当業者には既知であろう。

【0023】

一部の実施形態では、方法は、周囲騒音を抑制するために、主マイクロホンおよび追加マイクロホンからの信号に対してノイズキャンセルを実行するステップと、マイクロホンシステムからの出力信号をＶＡＤアルゴリズムに基づいて処理するステップと、発話が存在するかどうかを判定するステップと、追加の条件が満たされているかどうかを判定するステップと、を第１プロセッサにより実行することを含み、主マイクロホン、追加マイクロホン、およびスピーカーを備えるヘッドセットのプロセッサなどの第１プロセッサにより実行される。ミュート状態通知を提供するステップは、前記通話を容易にするコンピュータ装置やコンピュータシステムのプロセッサなどの第２プロセッサにより実行される。そのような実施形態では、記載されたステップは、主マイクロホンからの音声をミュートするのか、通話を容易にする第２プロセッサへ送信するのかを判断するために、つまり、発話が存在して追加の条件が満たされていると判断された場合に、主マイクロホンからの音声を通話を容易にする第２プロセッサへ送信すると判断するためだけに利用されるのが望ましい。このようにして、従来の通話システムが使用されたとしても、主マイクロホンがミュートされているため、通話においてユーザが話すことを意図している可能性が高くない限りは正常なミュート状態通知は引き起こされないので、意図しないミュート状態通知は回避される。

【0024】

ノイズキャンセルの一部の実装では、方法は、主マイクロホンからの出力信号、および追加マイクロホンからの出力信号に対して発話の存在を示す出力を与えるＶＡＤアルゴリズムを含むノイズキャンセルアルゴリズムを実行することと、発話の存在を示す前記出力に基づいて主マイクロホンからの出力信号のノイズキャンセルが行われたバージョンを生成することとを含む。特に、ノイズキャンセルアルゴリズムは、発話の存在を示す前記出力を、主マイクロホンからの出力信号において発話が存在しない期間における雑音を推定する雑音推定器に適用することを含みうる。特に、ノイズキャンセルアルゴリズムは、一連の周波数ビンを用いた主マイクロホンの信号の周波数領域表現にゲインベクトルを乗じることであって、ゲインベクトルは発話を含まない周波数ビンに対しては低いゲイン値で、発話を含む周波数ビンに対しては好ましくは高いゲイン値で生成されている、乗じることを含みうる。特に、ノイズキャンセルアルゴリズムは、雑音推定器からの入力に応答してゲインベクトルを生成することを含むことができて、その結果、ゲインベクトルは好ましくは雑音推定器からの雑音推定値に基づいて生成される。

【0025】

ノイズキャンセルアルゴリズムにおいてＶＡＤアルゴリズムを用いることで雑音推定値は改善されるが、これは発話が存在しない期間にのみ基づくことができるからである。これにより、主マイクロホンからの信号において雑音を良好に抑制することができて、そのような良好な雑音抑制から、ミュート状態通知を判断するために実行されるＶＡＤアルゴリズムが改善されることが分かった。

【0026】

別のノイズキャンセルアルゴリズムは、適応フィルタを含む適応型ノイズキャンセルアルゴリズムを適用して主マイクロホンからの出力信号のノイズキャンセルが行われたバージョンを生成することに基づく。具体的には、適応フィルタは当業者には知られている最小二乗平均アルゴリズム、または正規化最小二乗平均アルゴリズムにより実現することができる。

【0027】

第２態様では、本発明は、無線方式などでの双方向音声通信向けに構成されている装置を提供し、この装置は、主マイクロホンおよび追加マイクロホンと、第１態様に係る方法のすべてのステップ、または少なくとも第１態様に係る方法のミュート状態通知を提供すること以外のステップを実行するよう構成されているプロセッサシステムとを備えるマイクロホンシステムを含む。特に、前記プロセッサシステムは、通話においてユーザが話すことを意図しているようであると判定される場合にのみ主マイクロホンからの音声出力を提供するように、前記追加の条件に応じて主マイクロホンをミュートする判断をするように構成することができる。したがって、装置は好ましくは、通話においてユーザが話すことを意図しているようであると判明しない限りは、あらゆる音声が通話を容易にするプロセッサシステムへ送信されるのを防ぐために主マイクロホンをミュートする判断をする。

【0028】

特に、装置はヘッドセットとすることができて、例えば、その不可欠な部分を形成するプロセッサシステムを備えるヘッドセットとすることができる。

【0029】

装置は、双方向音声通信を可能とするために、好ましくはスピーカーを備える。装置は、例えば、コンピュータ、スマートフォン、または同種のものに有線（例えばＵＳＢ）または無線（例えばブルートゥース）で接続される、一つのユニット内にマイクロホンシステムおよびスピーカーを備えるスタンドアロン型装置とすることができる。

【0030】

特に、装置は無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを含むことができて、このヘッドセットシステムは、
－ユーザにより着用されるよう構成されているヘッドセットであって、口用マイクロホンと、口用マイクロホンとは別に配置される追加マイクロホンと、スピーカーを備える少なくとも１つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセットと、
－通話中にユーザが有効化してミュート状態の口用マイクロホンからの音声をミュートすることができるミュート有効化機能と、
－口用マイクロホンがミュート状態でユーザが話している場合にユーザにミュート状態であることを通知するのが適切かどうかを判断するために、または、口用マイクロホンがミュート状態でユーザが話している場合に口用マイクロホンをミュートするべきかを判断するために、第１態様に係る方法、または少なくともミュート状態通知を送信するステップ以外のステップを実行するよう構成されているプロセッサシステムと、
を含む。特に、装置のプロセッサシステムは、ユーザが話すことを意図しているようであるかどうかを判定して、通話を容易にするプロセッサシステムなどのエンティティによってあらゆるミュート状態通知が送信されるのを防ぐために、ユーザが話すことを意図しているようであると判定される場合にのみ口用マイクロホンからの音声を状況に応じて送信するよう構成されるのが好ましいことがある。

【0031】

特に、マイクロホンシステムは、口用マイクロホンとは別に配置される２つ以上の追加マイクロホンを備えうる。例えば、口用マイクロホンは、口用マイクロホンによりキャプチャされた周囲の音を抑制するためのビームフォーミングを可能とするために複数の別々のマイクロホンとして実現可能である。例えば、１つまたはいくつかの追加マイクロホンをヘッドセットの一方または両方のイヤーカップに設置して、例えばユーザの耳に達した音声に対するアクティブ式ノイズキャンセルのために、周囲の音をキャプチャすることができる。例えば、追加マイクロホンのアレイを、発話がユーザとの会話の一部としてユーザを対象としているようであるかどうか、または、そのような音声がユーザを対象としていない発話と考えられるか、を判断できるようにするために、ユーザだけに対して限定された方向からの発話をキャプチャできるように、および／または、例えば発話が来る方向を判断するためにビームフォーミングを行うように構成される。

【0032】

特に、プロセッサシステムは、スピーカーを介して、通知を例えば音声メッセージなどの音声通知としてユーザへ提供するよう構成される。

【0033】

特に、ミュート機能は、ヘッドセットの一部に設置されるユーザ操作可能なノブ、押しボタン、接点、または他の手段として実現可能である。

【0034】

プロセッサシステムは、ヘッドセットなどの既存の装置において既知のプロセッサとすることができる。したがって、本発明は、ＶＡＤアルゴリズムを実行するなどの特別な能力のあるプロセッサを有する装置における簡易な実装に適している。したがって、小型のヘッドセットで必要な処理を実装することも可能であるが、希望する場合は、処理システムはコンピュータもしくはスマートフォン、またはヘッドセットとは別の専用の装置上で実現可能である。

【0035】

第３態様では、本発明は通信システムを提供し、この通信システムは、
－少なくとも１つの第１態様に係る装置と、
－通信チャネルを介して双方向通話を提供し、少なくとも１つの第１態様に係る装置へ、例えばＤＥＣＴやブルートゥース、他の類似の短距離無線方式などのデジタル無線方式での双方向音声を状況に応じて提供するよう構成されている通信装置と、
を含む。

【0036】

特に、通信装置は、コンピュータ、またはスマートフォンなどの携帯電話を含みうる。通信チャネルは、例えば２Ｇ、３Ｇ、４Ｇ、５Ｇや同種のものなどの携帯ネットワーク、インターネット、または有線もしくは無線の専用通信チャネルなどとすることができる。通信装置と通信チャネルの間の接続は、有線接続、または無線接続とすることができて、接続は例えばｗｉ－ｆｉ接続を含みうる。

【0037】

特に、通信システムは、例えば電話会議システムや同種のものとすることができる。

【0038】

第４態様では、本発明は、電話、オンライン通話、電話会議のうちの１つまたは複数を実行するための第１態様に係る方法の利用法を提供する。

【0039】

第５態様では、本発明は、電話、オンライン通話、電話会議のうちの１つまたは複数を実行するための第２態様に係る装置の利用法を提供する。

【0040】

第６態様では、本発明は、電話、オンライン通話、電話会議のうちの１つまたは複数を実行するための第３態様に係るシステムの使用を提供する。

【0041】

第７態様では、本発明はプログラムコードを提供し、このプログラムコードは、１つまたは２つの別のプロセッサで実行された場合に、第１態様に係る方法を実行させるよう構成されている。特に、プログラムコードはチップ上のメモリ、または１つもしくは複数の有形の記憶媒体に記憶することができる、あるいはダウンロード用のバージョンでインターネット上で利用可能とすることができる。プログラムコードは、一般的なコード形式、またはプロセッサ専用の形式とすることができる。

【0042】

第１態様に対して説明したのと同じ利点および実施形態が、さらに記載される態様にも同様に当てはまることが理解される。さらに、説明された実施形態は、記載されるすべての態様の間で任意の方法で混合できることが理解される。

【図面の簡単な説明】

【0043】

これより、本発明について添付の図を参照してより詳細に説明する。

【0044】

【図1】ヘッドセットユーザがオンライン通話を通話の参加者としていて、一方でヘッドセットユーザは通話中にヘッドセットユーザへ話しかける別の人がいる物理的な部屋に存在している状況を示す。

【図2】方法実施形態のステップを示す。

【図3】実施形態の要素を用いたブロック図を示す。

【図4】ヘッドセットシステムの実施形態を示す。

【図5】主マイクロホン（口用マイクロホン）および追加マイクロホンの両方において、これらのマイクロホンからＶＡＤアルゴリズムへ信号を与えるより前に提供されるノイズキャンセルを含む実施形態の要素のブロック図を示す。

【図6】イヤーカップに設置された追加マイクロホンと、進行中の通話でユーザが話すことを意図しているようであると判定された場合にのみ主マイクロホン（口用マイクロホン）からの音声出力を送信する判断をするプロセッサとを備えるヘッドセットシステムの実施形態を示す。

【図7】主マイクロホンおよび追加マイクロホンからの音声入力に基づいて、主マイクロホンからの音声信号のノイズキャンセルが行われたバージョンを生成するノイズキャンセルアルゴリズム例のブロック図を示す。

【図8】適応型ノイズキャンセルに基づくノイズキャンセルアルゴリズムの別の例のブロック図を示す。

【0045】

図は本発明を実施する特定の方法を示しており、これらの図は添付の請求項一式の範囲に入る他の取りうる実施形態を制限すると解釈されるべきではない。

【発明を実施するための形態】

【0046】

図１は本発明の背景にある基本的状況、つまり、ユーザＵが別の人Ｐ、例えば同僚がいる物理的な部屋ＲＭに存在している状況を示す。ユーザＵは、例えばコンピュータまたは同種のものを用いたオンライン会議である通話ＣＬを通話の他の参加者ＣＬ＿Ｐと行っている。ユーザＵは、通話の参加者ＣＬ＿Ｐとの双方向通信向けのヘッドセットを着用している。ユーザＵが何らかの理由でヘッドセットのマイクロホンをミュートしていて、雑音または発話がヘッドセットの口用マイクロホンによりキャプチャされる場合、ディスプレイ上の視覚的メッセージまたはヘッドセットのスピーカーを介した音声メッセージのいずれかであるミュート状態通知がユーザへ提供される。しかし、そのような通知は、例えばキャプチャされる音声が部屋ＲＭの中の人Ｐによる発話である、および／または部屋ＲＭの中の人Ｐとの会話におけるユーザＵによる発話である場合には、ユーザにとって意図していない、邪魔なものである。

【0047】

この問題は、本発明により、音声活動検出（ＶＡＤ）アルゴリズム、およびミュート状態通知がユーザＵへ提供されるべきかを判断する追加の条件を用いることで解決される。これにより、意図しないものであり、支援の役割を果たすのではなくユーザＵを妨害する可能性のある通知をなくすことが可能である。

【0048】

図２は、方法の実施形態、つまり、１人または複数人の他の参加者との通話中に、マイクロホンシステムがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法のステップを示す。この方法は、ユーザが位置する環境からの周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理して環境騒音消去アルゴリズムを実行すること（ＥＮＣ）を含む。さらに、この方法は、マイクロホンシステム、少なくとも主マイクロホンからの出力信号、任意選択で主マイクロホンと追加マイクロホンの両方からの出力信号を、マイクロホンシステムがミュートされた状態でプロセッサシステムを用いてＶＡＤアルゴリズムに基づいて処理すること（ＶＡＤ）を含む。次に、ＶＡＤアルゴリズムの出力に基づいて発話が存在するかどうかを判定する（Ｓ＿Ｄ）。さらに、発話が存在することが検出されたかもしれないこととは別に、追加の条件が満たされているかどうかを判定して（Ｄ＿ＡＣ）、発話が存在して追加の条件が満たされていると判定された場合にのみ最終的にミュート状態通知をユーザへ提供する（Ｐ＿ＭＳＮ）。

【0049】

一部の実施形態では、ステップＥＮＣ、ＶＡＤ、Ｓ＿Ｄ、Ｄ＿ＡＣが第１装置、例えばヘッドセットなどの第１プロセッサにより実行され、ステップＰ＿ＭＳＮは遠位にいる参加者との通話を実行するコンピュータなどの第２装置などの第２プロセッサにより実行される。一部の実施形態では、記載される５つのすべてのステップが一つの装置のプロセッサにより実行される。

【0050】

追加の条件は、追加マイクロホンに対して作用して発話がユーザの周りの環境に存在するかどうかを判定するよう構成されている１つまたは複数の別のＶＡＤアルゴリズム、および／または、通話から入力される音声に対して作用して他の参加者が話しているかどうかを判断する別のＶＡＤアルゴリズムに基づきうる。これは、ユーザが置かれた実際の状況を判断してミュート状態通知を提供するのが適切であるかどうかを判断するのに重要な情報を与える上で有用となりうる。

【0051】

ノイズキャンセルアルゴリズム（しばしば、ＥＮＣ、ＡＮＣ、または同種のものと表記される）を用いることで、１つまたは複数のＶＡＤアルゴリズムの性能が改善される。

【0052】

説明された方法は例えばヘッドセットで実施されて、ミュート状態通知をインテリジェントに提供する方法を利用することができる。

【0053】

図３は、ヘッドセットの実施形態の一部を示すためのブロック図を示す。判断アルゴリズムＤ＿Ａは、特定の条件が満足されていて、ユーザの口用マイクロホンＭＭがミュート状態ＭＴである場合、つまり、進行中の通話の間にユーザからの音声を遮断している場合に、ミュート状態通知ＭＴ＿Ｎをユーザへ送信するべきかを判断する。

【0054】

第１ＶＡＤアルゴリズムＶＡＤ１はヘッドセットの口用マイクロホンＭＭからの信号に対して作用し、判断アルゴリズムＤ＿Ａへの第１入力、つまり、発話が存在するかどうかを判定する。第２ＶＡＤアルゴリズムＶＡＤ２はユーザの周りの環境からの音声をキャプチャするよう構成されている１つまたは複数のマイクロホン、例えばヘッドセットの外装部に配置されている１つまたはいくつかのマイクロホンからの入力に対して作用し、その環境に発話が存在するかどうかが判断アルゴリズムＤ＿Ａへ提供される。最終的に、第３ＶＡＤアルゴリズムＶＡＤ３は通話ＣＳからの音声入力に対して作用し、第３ＶＡＤアルゴリズムは、通話において他の参加者が話しているか、静かであるかを判断する役割を果たす。

【0055】

したがって、判断アルゴリズムＤ＿Ａは、ユーザが話すと想定することができるＶＡＤ１からの入力に加えて、ＶＡＤ２、ＶＡＤ３からの２つの入力を有する。特に、ＶＡＤ２からの入力は、ユーザが話している間に環境の中の人が話しているかを判断するのに使用することができて、この場合はユーザが環境に存在する人と会話をしており通話の参加者へ話しかける意図はないかもしれないことを意味する可能性がもっとも高く、したがって、ミュート状態通知ＭＴ＿Ｎはそのような場合には回避されるべきである。さらに、ユーザが話していることが検出された場合、通話音声ＣＳは他の参加者が話していないことを示しており、通話においてユーザが話したいと思っている可能性が高く、したがって、ミュート状態通知ＭＴ＿Ｎを提供するのが適切である。

【0056】

図４は、通話中にユーザに着用されるヘッドセットＨＳを備えるヘッドセットシステムの実施形態を示し、この実施形態は、ユーザの声をキャプチャするための口用マイクロホンＭＭの形態の主マイクロホンと、通話ＣＬからの音声をユーザへ提供するためのスピーカーをそれぞれ備える２つのイヤーカップとを有する。ヘッドセットＨＳの口用マイクロホンＭＭおよびスピーカーは、例えばヘッドセットＨＳの一方または両方のイヤーカップに一体化されている、プロセッサＰに接続されている。プロセッサＰは、無線方式などにおける通話ＣＬに関連する双方向音声通信に対処する。ヘッドセットＨＳは、通話ＣＬ中にユーザが有効化してミュート状態ＭＴの口用マイクロホンＭＭからの音声をミュートすることができるミュート有効化機能ＭＴを有する。ミュート状態ＭＴは入力としてプロセッサＰへ提供され、プロセッサＰは前述した方法に従って適切な場合、つまり口用マイクロホンＭＭがミュート状態ＭＴでユーザが話していることがＶＡＤアルゴリズムを用いて検出された場合にのみミュート状態通知ＭＴ＿Ｎをユーザへ提供する。

【0057】

示されているヘッドセットシステムの実施形態は、通信チャネルを介して呼接続を提供する役割を果たす通信装置への有線または無線通信での双方向音声通話ＣＬ用に構成されていることを理解されたい。

【0058】

一部のヘッドセットシステムの実施形態では、主マイクロホンまたは口用マイクロホンからの音声をミュートするミュート機能の少なくとも一部はヘッドセットシステムの一部を形成するプロセッサ上で実現される。したがって、そのような実施形態では、ヘッドセットシステムは、主マイクロホンがミュートされるべきとユーザが考えているようであると判明した場合に、単純に自ら主マイクロホンをミュートする。したがって、そのような実施形態は通信チャネルを介して呼接続を提供する役割を果たす既存の通信装置またはコンピュータプログラムと互換性があり、これは通話に向けたユーザの発話である可能性が高い音声をヘッドセットが渡してきた場合にのみそのような装置またはプログラムはミュート通知を送信するよう促されるからであり、その結果、装置またはプログラムのミュート通知は意図したように、つまり標準的ヘッドセットシステムを用いる場合と比べて改善した品質で機能する。ただし、処理およびミュート通知の判断は、他の実施形態では通話を容易にする装置またはプログラムによって完全に実行できることを理解されたい。

【0059】

以下の４つの副態様１）～４）はミュート状態通知の方法および装置の性能を改善することが判明しており、したがって好ましい実施形態と考えられる。

【0060】

１）ビームフォーミングによるコンテキスト認識。マイクロホンアレイとして機能するようにヘッドセットに設置される追加マイクロホンの利用。ユーザの環境で話している人、例えば同僚を方向的に特定するのにビームフォーミング技術が使用される。その人が特定の受信角度内で検出された場合は、方法はその人との会話である可能性が高いコンテキストであると認定するよう構成することができて、その結果、ミュート状態通知は提供されるべきではないと判断される。あるいは、またはさらに、ビームフォーミング構成はユーザがその人に注意を向けているかどうかを検出するのに使用することもできる。これは、ビームフォーミングを用いて、ユーザが自分の頭を話している人へ向けているかどうかを検出することにより行われる。人が話し始めた場合、ヘッドセットは特定の角度でその人を検出する。ユーザが自分の頭をその人へ向けている場合、ヘッドセットはその人を別の角度で検出することになり、その結果、会話がもっともらしいコンテキストであるためミュート状態通知は提供されるべきではないと判断されることがある。

【0061】

２）ＶＡＤ性能を最適化するノイズキャンセルアルゴリズム。例えば環境騒音消去（ＥＮＣ）アルゴリズムは、主マイクロホン（例えば口用マイクロホン）および１つまたは複数の別々のマイクロホンの入力を使用して周囲騒音を除去することができる。２つの手法を組み合わせることでＶＡＤアルゴリズムは周囲騒音にそれほど影響を受けないので、環境音がミュート状態通知を誤って有効化させる危険性を本発明は減少させる。

【0062】

３）会話コンテキスト認識。ユーザの発話をキャプチャする主マイクロホン（例えば口用マイクロホン）とユーザの周囲の発話をキャプチャする１つまたは複数の補助マイクロホンを使用することができる。２つのマイクロホンでのそれぞれの入力に対して、別々に実行されているＶＡＤアルゴリズムが発話が存在するかどうかを検出して、ユーザが話している場合、および誰かがユーザの周囲で話している場合にヘッドセットに知らせる。モデルを用いて、２つのマイクロホンでキャプチャされた発話が同じ会話の一部である可能性を評価することができる。この評価を用いて、ミュート状態通知が提供されるべきかを判断することができる。

【0063】

４）通話活動コンテキスト認識。ユーザが通話している場合に２つの別々に実行されているＶＡＤアルゴリズムを用いて、一方のＶＡＤアルゴリズムは主マイクロホン（例えば口用マイクロホン）からの信号の中の発話を検出する。他方のＶＡＤアルゴリズムは通話から入力される音声を処理して音声を検出し、通話活動、つまり通話における発話活動を判定する。通話活動における発話の存在は、ユーザが意図せずミュートされたマイクロホンへ向かって話している可能性を評価するのに使用される。通話活動で発話が検出されず、ユーザがミュートされたマイクロホンへ向かって話している場合、ユーザが寄与するのを通話の参加者が待っている可能性が高いと推定されるので、ミュート状態通知が提供される。通話活動で発話が検出されて、ユーザがミュートされたマイクロホンへ向かって話している場合、ユーザが寄与するのを通話の参加者が待っている可能性はあまり高くないと推定されるので、そのような場合はミュート状態通知は提供されない。

【0064】

図５は、主マイクロホンとしての口用マイクロホンＭＭおよび追加マイクロホンＭ２を備えるヘッドセットの実施形態の一部を示すブロック図を示す。判断アルゴリズムＤ＿Ａは、口用マイクロホンＭＭからの音声をミュートするべきか、口用マイクロホンＭＭからの音声を音声出力Ａ＿Ｏへ渡すべきかを、特定の条件が満足されるかどうかに応じて判断する。

【0065】

口用マイクロホンＭＭおよび追加マイクロホンＭ２からの音声出力はいずれも、口用マイクロホンＭＭからの音声出力の中に存在しうる雑音を消去するためにノイズキャンセルアルゴリズムＮＣにより処理されて、雑音が抑制された口用マイクロホンＭＭからの音声信号がＶＡＤアルゴリズムＶＡＤ１へ入力として提供される。追加マイクロホンＭ２からの音声出力は別のＶＡＤアルゴリズムＶＡＤ２により処理される。希望する場合は、これに代えて別の雑音算出アルゴリズムが２つのマイクロホンＭＭおよびＭ２からの出力に対して提供されうることを理解されたい。

【0066】

ＶＡＤアルゴリズムＶＡＤ１およびＶＡＤ２のそれぞれは、判断アルゴリズムＤ＿Ａ、つまり２つのマイクロホンＭＭおよびＭ２のそれぞれで発話が存在するかどうかを判定するアルゴリズムへ入力として提供される結果を提供する。これらの入力は特に、ユーザが環境にいる人と話している、つまり、別の人と物理的な会話をしているようであるかどうかを判定するのに使用することができる。そのような場合、判断アルゴリズムＤ＿Ａは口用マイクロホンからの音声をミュートする判断を行い、ＶＡＤ１に基づいてユーザが話していることが検出され、ＶＡＤ２がある期間にわたって周囲に更なる発話が存在しないことを示している場合は、口用マイクロホンからの発話を音声出力Ａ＿Ｏに与える。

【0067】

図６は、図４のヘッドセットシステム（破線で囲まれた部分）の変形を示す。図６では、ヘッドセットＨＳは、ここでは口用マイクロホンＭＭとして示されている主マイクロホンと、ここではヘッドセットＨＳのイヤーカップに設置されている、環境音をキャプチャするための追加マイクロホンＡＭとを有する。例えばヘッドセットＨＳのイヤーカップの一方と一体化されて実装されている、プロセッサシステムＰ１は、周囲騒音を抑制するために、口用マイクロホンＭＭおよび追加マイクロホンＡＭからの出力信号を処理してノイズキャンセルアルゴリズムを実行するよう構成される。さらに、プロセッサシステムＰ１は、ＶＡＤに基づいて口用マイクロホンＭＭからの出力を処理するよう構成され、任意選択で、例えば図５にあるように別のＶＡＤアルゴリズムに基づいて追加マイクロホンからの出力も処理される。さらに、プロセッサシステムＰ１は、口用マイクロホンＭＭからの出力に対して実行されたＶＡＤの出力に基づいて発話が存在するかどうかを判定するよう構成され、さらに追加の条件が満足されているかどうかを判定する。プロセッサシステムＰ１は、口用マイクロホンＭＭが発話をキャプチャしていて、追加の条件が満足されていると判定される場合にのみ口用マイクロホンＭＭからの音声出力Ａ＿Ｏを生成するよう構成される。特に、追加の条件は、ユーザが話している可能性が高く、かつユーザが周囲の人との物理的な会話に関与していない、と判定されている、とすることができる。具体的には、追加の条件の判定は、追加マイクロホンＡＭによりキャプチャされた音声の処理に基づいてもよい。

【0068】

別のプロセッサシステムＰ２は通話を容易にし、その結果、通話参加者ＣＬ＿Ｐへ双方向の音声接続性を提供する。プロセッサシステムＰ２はパソコン、ノートパソコン、タブレット、スマートフォン、または専用の装置を備えることができて、ヘッドセットシステムからの音声出力Ａ＿Ｏを処理して、遠位にいる通話の参加者ＣＬ＿Ｐからの音声を用いてヘッドセットシステムへの音声入力Ａ＿Ｉを生成する役割を果たす。

【0069】

このようにして、既存の汎用通話、またはオンライン通信向けのプログラムをヘッドセットと共に使用することができて、よりインテリジェントなミュート通知ＭＴ＿Ｎの機能をそれでも得られるが、これは別のプロセッサシステムＰ２が既存の通話システムで知られている従来の方法で、例えばミュート状態にある場合に音声出力Ａ＿Ｏの音声レベルがあるレベルを超えた場合にミュート通知ＭＴ＿Ｎを提供するからである。通知ＭＴ＿Ｎは、例えば視覚的通知、および／または音声通知として提供される。しかし、ヘッドセットシステムのプロセッサシステムＰ１は口用マイクロホンＭＭのインテリジェントなミュートを提供する役割を果たすので、別のプロセッサシステムＰ２への音声出力Ａ＿Ｏは、ユーザが進行中の通話で話すことを意図しているようであるとヘッドセットシステムが判断した場合にのみ提供されることが保証され、その結果、既存の通話システムであっても迷惑なミュート状態通知ＭＴ＿Ｎが取り除かれる。

【0070】

図７は、主マイクロホンからの音声信号Ａ＿ＭＭおよび追加マイクロホンからの音声信号Ａ＿Ｍ２を処理して、ノイズキャンセルが行われた主マイクロホンからの音声信号Ａ＿ＭＭ＿ＮＣを生成するノイズキャンセルアルゴリズムの例を示す。基本的に、アルゴリズムは音声入力信号Ａ＿ＭＭおよびＡ＿Ｍ２のそれぞれの周波数領域表現ＸおよびＸ２に対して作用する。ゲインベクトルＧは主マイクロホンの音声信号Ｘの周波数表現に乗じられる。ゲインベクトルＧは、主マイクロホンの信号Ｘの周波数表現の発話を含まない周波数ビンに対して低いゲインが設定されるように生成される。そして、ＸとＧの乗算の結果として得られる出力Ｙは、主マイクロホンの元の音声信号Ａ＿ＭＭのノイズキャンセルが行われたバージョンを表現する時間信号Ａ＿ＭＭ＿ＮＣへと変換される。

【0071】

より詳細には、図７のブロック図はそれぞれの音声信号Ａ＿ＭＭおよびＡ＿Ｍ２に対して実行される初期の短時間分析ＳＴＡを示し、これに基づいて、２つの音声信号Ａ＿ＭＭおよびＡ＿Ｍ２はそれぞれの周波数領域表現ＸおよびＸ２へと変換される。発話を含む周波数ビンを増幅して発話を含まない周波数ビンを減衰させるゲインベクトルＧを生成するために、Ｘが雑音Ｎを推定する雑音推定器ＮＥへ適用されて、最終的にゲイン推定器ＧＥが推定される雑音ＮおよびＸに基づいてゲインベクトルＧを生成する。雑音推定器ＮＥは、入力としてのＸとＸ２の両方に作用する音声活動検出器ＶＡＤからの入力Ｖを受信し、入力Ｖは雑音推定器ＮＥに対して発話が存在する場合、または存在しない場合を示し、雑音推定器ＮＥは発話が存在しない期間における自身の雑音推定値Ｎを更新する。

【0072】

図８は、簡易な適応型ノイズキャンセルに基づくノイズキャンセルアルゴリズムの別の例のブロック図を示す。このアルゴリズムは、主マイクロホンからの音声信号ｘが意図した発話および雑音を含み、追加マイクロホンからの音声信号ｘ２が同じ雑音を含む、という仮定に基づいているが、２つのマイクロホンは異なる場所に配置されているため、この仮定は実際には完全には有効ではない可能性がある。

【0073】

適応型ノイズキャンセルの目的は、出力電力ｚを最小化することである。これは、適応フィルタＡＦにおける誤差信号ｅとして出力信号を用いることで実現される。最小限の出力電力は、ｙが雑音と等しい場合に実現されることが証明可能であり、これは出力信号ｚが所望の信号ｘと等しいことを意味する。

【0074】

いくつかのアルゴリズム、例えば最小二乗平均（ＬＭＳ）アルゴリズムに基づく正規化最小二乗平均（ＮＬＭＳ）アルゴリズムを適応フィルタＡＦとして使用することが可能であり、この場合は誤差ｅを最小化するために勾配降下法がフィルタ係数を調整するのに使用される。ＮＬＭＳは入力の電力を正規化し、より速く収束するように時間的に変化するステップサイズを用いる。

【0075】

記載されるノイズキャンセルの例は、主マイクロホンからの音声信号の雑音を抑制するノイズキャンセルは様々な方法で実現可能であることを示す役割を果たすに過ぎないことが理解される。したがって、ノイズキャンセルが行われた主マイクロホンの信号に対して実行されるＶＡＤの信頼性を改善する効果は、様々な実装により得ることができる。

【0076】

以下では、追加の実施形態Ｅ１～Ｅ１５が規定される。

【0077】

Ｅ１．１人または複数人の他の参加者との通話中にマイクロホンシステムがミュートされた状態でユーザが話す場合にマイクロホンシステムのミュート状態をユーザへ通知する方法であって、
－マイクロホンシステムがミュートされた状態でマイクロホンシステムからの出力信号をプロセッサシステムを用いて音声活動検出アルゴリズムに基づいて処理すること（ＶＡＤ）と、
－音声活動検出アルゴリズムの出力に基づいて発話が存在するかどうかを判定すること（Ｓ＿Ｄ）と、
－追加の条件が満たされているかどうかを判定すること（Ｄ＿ＡＣ）と、
－発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供すること（Ｐ＿ＭＳＮ）と、
を含む方法。

【0078】

Ｅ２．発話と判定されたものがユーザの周囲の発話ソースに由来しているようであるかどうかを判定することと、発話と判定されたものがユーザの周囲の発話ソースに由来していないようである場合にのみミュート状態通知をユーザへ提供することと、を含むＥ１に記載の方法。

【0079】

Ｅ３．ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理することを含む、Ｅ２に記載の方法。

【0080】

Ｅ４．ユーザによる発話とユーザの周囲からの発話とを判別できるように、複数のマイクロホンからの出力信号を処理してビームフォーミング感度パターンを提供することを含む、Ｅ３に記載の方法。

【0081】

Ｅ５．ユーザが物理的な会話をしているようであるかどうかを判定することと、ユーザが物理的な会話をしていないようである場合にのみミュート状態通知をユーザへ提供することと、を含むＥ１～Ｅ４のいずれか一つに記載の方法。

【0082】

Ｅ６．ユーザの発話をキャプチャする、口用マイクロホンなどのマイクロホンからの出力信号に対して第１音声活動検出アルゴリズムを実行することと、少なくとも１つの追加マイクロホンからの出力信号に対して第２音声活動検出アルゴリズムを実行して別のソースからの発話を判定することと、を含むＥ５に記載の方法。

【0083】

Ｅ７．ユーザが物理的な会話をしているようであるかどうかを判定するために、ユーザによる発話と別のソースからの発話の間の時間を判定することを含む、Ｅ５またはＥ６に記載の方法。

【0084】

Ｅ８．通話の少なくとも１人の他の参加者による発話を検出するために、通話の少なくとも１人の他の参加者の音声を示す信号に対して音声活動検出アルゴリズムを実行することを含む、Ｅ１～Ｅ７のいずれか一つに記載の方法。

【0085】

Ｅ９．ユーザが話していて、かつ通話の少なくとも１人の他の参加者による発話が検出されない場合にのみミュート状態通知をユーザへ提供することを含む、Ｅ８に記載の方法。

【0086】

Ｅ１０．周囲騒音を抑制するために、主マイクロホン、例えばヘッドセットの口用マイクロホンからの出力信号および追加マイクロホンからの出力信号を処理してノイズキャンセルアルゴリズム（ＥＮＣ）を実行することを含む、Ｅ１～Ｅ９のいずれか一つに記載の方法。

【0087】

Ｅ１１．マイクロホンシステムおよびプロセッサシステム（Ｐ）を備え、Ｅ１～Ｅ１０のいずれか一項に記載の方法を実行するよう構成されている装置。

【0088】

Ｅ１２．無線方式などでの双方向音声通信向けに構成されているヘッドセットシステムを備える、Ｅ１１に係る装置であって、ヘッドセットシステムは、
－ユーザにより着用されるよう構成されているヘッドセット（ＨＳ）であって、少なくとも口用マイクロホン（ＭＭ）と、スピーカーを備える少なくとも１つのイヤーカップとを備えるマイクロホンシステムを含むヘッドセット（ＨＳ）と、
－通話中にユーザが有効化してミュート状態の口用マイクロホン（ＭＭ）からの音声をミュートすることができるミュート有効化機能（ＭＴ）と、
－口用マイクロホン（ＭＭ）がミュート状態でユーザが話している場合にミュート状態通知をユーザへ通知するのが適切かどうかを判断するために、Ｅ１～Ｅ１０のいずれか一つに記載の方法を実行するよう構成されているプロセッサシステム（Ｐ）と、
を含む、装置。

【0089】

Ｅ１３．マイクロホンシステムは、口用マイクロホン（ＭＭ）とは別に配置される少なくとも１つの追加マイクロホン（Ｍ２）を備える、Ｅ１２に係る装置。

【0090】

Ｅ１４．プロセッサシステム（Ｐ）は、スピーカーを介して通知を音声通知としてユーザへ提供するよう構成される、Ｅ１２またはＥ１３に係る装置。

【0091】

Ｅ１５．電話、オンライン通話、電話会議のうちの１つまたは複数を実行するためのＥ１～Ｅ１０のいずれか一つに記載の方法の利用法。

【0092】

要約すると、本発明は、主マイクロホンがミュートされた状態でユーザが話す場合に、通話中に主マイクロホンのミュート状態をユーザへ通知するための方法および装置、例えばヘッドセットを提供する。方法は、ユーザの場所での周囲騒音を抑制するために、主マイクロホンからの出力信号、およびユーザの周囲の音声をキャプチャする追加マイクロホンからの出力信号に対してノイズキャンセルアルゴリズム（ＥＮＣ）を実行することを含む。さらに、主マイクロホンがミュートされた状態で主マイクロホンからの出力信号をプロセッサシステムを用いて音声活動検出（ＶＡＤ）アルゴリズムに基づいて処理する。ＶＡＤアルゴリズムを使用して発話が存在するかどうかが判定され、次に、追加の条件が満たされているかどうかが判定される。最終的には、発話が存在して追加の条件が満たされていると判定された場合にのみミュート状態通知をユーザへ提供する。この方法は、例えば、口用マイクロホンにおける様々な雑音が意図しない邪魔なミュート状態通知を通常なら引き起こしかねないヘッドセットに非常に適している。ＶＡＤアルゴリズムを用いることで発話にのみより通知が引き起こされることを保証することができて、追加の条件を用いて、例えば通話の他の参加者の発話活動に基づいて、およびユーザの周囲の発話に基づいて、ミュート状態通知をインテリジェントに提供する方法により邪魔な通知をなくす、または少なくとも減らす。

【0093】

本発明は特定の実施形態に関連して説明されたが、提示された例に限定されるとは決して解釈されるべきではない。本発明の範囲は、添付の請求項一式を踏まえて解釈されるべきである。請求項に関連して、用語、「備える／含む（ｉｎｃｌｕｄｉｎｇ）」または「備える／含む（ｉｎｃｌｕｄｅｓ）」は、他の考えられる要素またはステップを排除しない。また、「ａ」、「ａｎ」などの参照の言及は、複数を排除すると解釈されるべきではない。また、請求項における、図に示される要素に対する参照符号の使用も、本発明の範囲を限定すると解釈されるべきではない。さらに、異なる請求項に記載される個々の特徴は、場合によっては有利に組み合わせることができて、異なる請求項におけるこれらの特徴への言及は、特徴の組み合わせが可能ではなく有益であるということを排除するものではない。

【図1】