特許第6113303号(P6113303)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特許6113303会議システム及び会議システムにおけるボイスアクティベーションのための処理方法
<>
  • 特許6113303-会議システム及び会議システムにおけるボイスアクティベーションのための処理方法 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6113303
(24)【登録日】2017年3月24日
(45)【発行日】2017年4月12日
(54)【発明の名称】会議システム及び会議システムにおけるボイスアクティベーションのための処理方法
(51)【国際特許分類】
   H04M 3/56 20060101AFI20170403BHJP
   H04R 3/00 20060101ALI20170403BHJP
【FI】
   H04M3/56 Z
   H04R3/00 320
【請求項の数】11
【全頁数】15
(21)【出願番号】特願2015-549995(P2015-549995)
(86)(22)【出願日】2012年12月27日
(65)【公表番号】特表2016-503265(P2016-503265A)
(43)【公表日】2016年2月1日
(86)【国際出願番号】EP2012076972
(87)【国際公開番号】WO2014101944
(87)【国際公開日】20140703
【審査請求日】2015年6月26日
(73)【特許権者】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100099483
【弁理士】
【氏名又は名称】久野 琢也
(72)【発明者】
【氏名】ハンス ファン デル スハール
(72)【発明者】
【氏名】レネ デルクス
(72)【発明者】
【氏名】マルク スマーク
(72)【発明者】
【氏名】ヨヘム ボナリウス
(72)【発明者】
【氏名】ケース ヤンセ
【審査官】 永田 義仁
(56)【参考文献】
【文献】 特開2009−141400(JP,A)
【文献】 特開2006−304032(JP,A)
【文献】 特開2006−217593(JP,A)
【文献】 特開平11−331434(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/00
H04M 3/16− 3/20
H04M 3/38− 3/58
H04M 7/00−11/10
H04N 7/10
H04M 7/14− 7/173
H04M 7/20− 7/56
H04M 21/00−21/858
H04R 3/00− 3/14
(57)【特許請求の範囲】
【請求項1】
会議システム(1)であって、
周囲からオーディオ信号を受信するためのマイクロフォン(5)を各々備えた複数のデリゲートユニット(2)と、
複数の発言チャネルを処理する中央サービスモジュール(3)と
を含み、
前記発言チャネルのオーディオ出力が、前記会議システム(1)の増幅されたオーディオ出力を成し、
前記デリゲートユニット(2)はそれぞれ、発言チャネルコミットの要求を前記中央サービスモジュール(3)へ送信するように構成されており、
前記中央サービスモジュール(3)は、前記要求を許可し、要求送出側の前記デリゲートユニット(2)に1つの発言チャネルを割り当てて、要求送出側の前記デリゲートユニット(2)をアクティブ状態(A)にセットするように構成されている、
会議システム(1)において、
前記デリゲートユニット(2)は、ボイスアクティベーションによって前記要求をトリガするように構成されており、
前記要求は、少なくとも第1のトリガ条件が満たされた場合にトリガされ、該第1のトリガ条件は、前記複数のデリゲートユニット(2)のうち、要求送出側の候補デリゲートユニット(i)である1つのデリゲートユニットのオーディオ信号レベルが、アクティブ状態(A)にある他のデリゲートユニット(2)のいずれの個々のテスト値よりも高いことを規定するものであり、
前記個々のテスト値は、他のアクティブなデリゲートユニット(2)へ供給されるオーディオ信号又は音声信号から得られる、要求送出側の前記候補デリゲートユニット(i)の推定オーディオ信号レベルであり、
テストデリゲートユニット(p)に関する個々のテスト値は、要求送出側の前記候補デリゲートユニット(i)と該テストデリゲートユニット(p)との間の個々の音響結合係数を、テスト期間中の該テストデリゲートユニット(p)のオーディオ信号レベルと、乗算することによって導出される、または、
テストデリゲートユニット(p)に関する個々のテスト値は、要求送出側の前記候補デリゲートユニット(i)と該テストデリゲートユニット(p)との間の個々の音響結合係数を、最後の所定回数のテスト期間中の該テストデリゲートユニット(p)のオーディオ信号レベルの最大値と、乗算することによって導出される、
ことを特徴とする、会議システム(1)。
【請求項2】
テストデリゲートユニット(p)に関する前記個々のテスト値は、前記個々の音響結合係数を、さらに閾値係数と乗算することによって導出される、
請求項に記載の会議システム(1)。
【請求項3】
前記デリゲートユニット(2)は各々、他のデリゲートユニットの個々のID及び個々の音響結合係数を含む係数テーブル(ACF)と、他のアクティブなデリゲートユニット(2)の個々のID及びテスト期間中のオーディオ信号レベルを含むオーディオ信号レベルテーブル(ALT)とを備えている、
請求項1又は2に記載の会議システム(1)。
【請求項4】
前記係数テーブル(ACF)は、前記デリゲートユニット(2)によって管理され、及び/又は、前記デリゲートユニット(2)内に格納され、前記オーディオ信号レベルテーブル(ALT)は、前記中央サービスモジュール(3)によって供給される、
請求項に記載の会議システム(1)
【請求項5】
前記デリゲートユニット(2)は、他のデリゲートユニット(2)各々の個々の音響結合係数を反復して推定するように構成されており、反復ステップが行われるたびに、前記個々の音響結合係数の初期値が更新される、
請求項1から4のいずれか1項に記載の会議システム(1)。
【請求項6】
第1のテスト期間(KB)のデータに基づき発言チャネルを要求し、1つの発言チャネルが自身に割り当てられたことにより該発言チャネル専用にされた前記デリゲートユニット(2)は、第2のテスト期間((k+1)B)のデータに基づき少なくとも前記第1のトリガ条件を再テストすることによって、前記要求即ち前記割り当てをチェックするように構成されている、
請求項1から5のいずれか1項に記載の会議システム(1)。
【請求項7】
前記第1のトリガ条件と、要求送出側の前記候補デリゲートユニット(i)のオーディオ信号レベルが前記テスト期間中の基準ノイズレベル(N)よりも高いことを要求する第2のトリガ条件とが、少なくとも満たされた場合、前記デリゲートユニット(i)は前記要求をトリガするように構成されている、
請求項1から6のいずれか1項に記載の会議システム(1)。
【請求項8】
前記中央サービスモジュール(3)は、予め選定されたデッドタイム中にただ1つの要求だけを許可するように構成されている、
請求項1から7のいずれか1項に記載の会議システム(1)。
【請求項9】
前記デリゲートユニット(2)は、該デリゲートユニット(2)の話者のステータスを表すための話者表示装置(6)を有しており、
前記話者表示装置(6)は、前記デリゲートユニット(2)がアクティブ状態であることを要求する第1の表示条件が満たされ、かつ、ボイスが検出されることを要求する第2の表示条件のもとにある場合、起動される、
請求項1からのいずれか1項に記載の会議システム(1)。
【請求項10】
前記第2の表示条件は、ボイスピッチが検出されることを要求する、
請求項に記載の会議システム(1)。
【請求項11】
請求項1から10のいずれか1項に記載の会議システム(1)におけるボイスアクティベーションのための処理方法において、
少なくとも第1のトリガ条件が満たされた場合、デリゲートユニット(2)はボイスアクティベーションによって要求をトリガし、前記第1のトリガ条件は、前記複数のデリゲートユニット(2)のうち、要求送出側の候補デリゲートユニット(i)である1つのデリゲートユニット(2)のオーディオ信号レベルが、アクティブ状態(A)にある他のデリゲートユニット(2)のいずれの個々のテスト値よりも高いことを規定するものであり、
前記個々のテスト値は、他のアクティブなデリゲートユニット(2)へ供給されるオーディオ信号又は音声信号から得られる、要求送出側の前記候補デリゲートユニット(i)の推定オーディ信号レベルである
ことを特徴とする、
会議システム(1)におけるボイスアクティベーションのための処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は会議システムに関する。さらに詳しくは、本発明は以下のような会議システムに関する。即ちこの会議システムは、周囲からオーディオ信号を受信するためのマイクロフォンを各々備えた複数のデリゲートユニットと、複数の発言チャネルを処理する中央サービスモジュールとを含み、発言チャネルのオーディオ出力が、会議システムの増幅されたオーディオ出力を成し、デリゲートユニットはそれぞれ、発言チャネルコミットの要求を中央サービスモジュールへ送信するように構成されており、中央サービスモジュールは、要求を許可し、要求送出側のデリゲートユニットに1つの発言チャネルを割り当てて、要求送出側のデリゲートユニットをアクティブ状態にセットするように構成されている。さらに本発明は、会議システムにおけるボイスアクティベーションのための処理方法にも関する。
【背景技術】
【0002】
会議システムは、例えばディスカッションのために用いられ、一般に、それぞれマイクロフォンを備えた複数のデリゲートユニットを備えており、ディスカッション中、ディスカッション参加者は各々、自分用のデリゲートユニットを使用する。通常、デリゲートユニットはスイッチ或いは同様の部材を備えており、これによってデリゲートユニットの前に位置する参加者は、自分のマイクロフォンの起動を要求することができ、それによって参加者の音声が会議システムへ入力され、会議システムによって増幅される。
【0003】
例えば、おそらく最も近い従来技術である文献、欧州特許出願公開第1686835号明細書には、複数のデリゲートユニットを備えた会議システムが開示されており、このシステムによれば、デリゲートユニットの様々な状態を表すため、デリゲートユニットに種々のインジケータが配置されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】欧州特許出願公開第1686835号明細書
【発明の概要】
【課題を解決するための手段】
【0005】
本発明では、請求項1に記載の特徴を備えた会議システムを提案する。さらに、請求項11に記載の特徴を備えた処理方法についても説明する。従属請求項、以下の説明及び添付の図面には、本発明の好ましい又は有利な実施形態が示されている。
【0006】
本発明によれば、会議室又は大会議場に設置して動作可能な会議システムが提供される。この会議システムは例えば、互いに議論し合う政治家又は他の参加者によって利用される。なお、このような会議システムを会議施設と称する場合もある。
【0007】
この会議システムは、複数のデリゲートユニットを備えている。好ましくは50台よりも多くのデリゲートユニット、特に100台よりも多くのデリゲートユニットが、会議システムにおいて使用される。各デリゲートユニットは、周囲からオーディオ信号を受信するためのマイクロフォンを備えている。オーディオ信号は特に、デリゲートユニットの前つまりはマイクロフォンの前に立っている又は座っている参加者からの音声信号である。好ましくはデリゲートユニットは、オプションとしてスピーカを備えた又は備えていないベースボディを有するテーブルトップユニットとして実現されており、マイクロフォンはベースボディ上に配置されている。データを処理するために好ましいのは、デリゲートユニットがローカル処理ユニットを備えていることであり、このユニットは好ましくはベースボディに組み込まれている。
【0008】
さらに会議システムは、中央サービスモジュールを備えている。このモジュールは、複数のコントリビューションチャネル即ち発言チャネルを処理するように動作可能であり、特にチャネルの増幅を行う。この場合、各発言チャネルのオーディオ出力によって、会議システムの増幅されたオーディオ出力が構成される。会議システムの増幅されたオーディオ出力は、周囲環境の中に設けられた会議システムによって供給される合成されたオーディオ環境である。好ましくはこの会議システムは、発言チャネルを利用することで、デリゲートユニットから到来するオーディオ信号を増幅して、増幅されたオーディオ信号を形成するように動作可能であり、この場合、増幅されたオーディオ信号は、例えば大会議場又はミーティングルーム内のオーディオ環境の一部分である。
【0009】
各デリゲートユニットは、発言チャネルにコミットする要求を中央サービスモジュールへ送信又は伝達するように構成されている。この要求によってデリゲートユニットは、自身のオーディオ信号を発言チャネルへ伝達する目的で、複数の発言チャネルのうち1つの発言チャネルとの接続を要請し、それによってオーディオ信号が増幅されて、増幅されたオーディオ出力の一部分が形成され、従って、オーディオ環境の一部分が形成される。中央サービスモジュールは、この要求を許可し、複数の発言チャネルのうち1つの発言チャネルを、要求送出側のデリゲートユニットへ割り当てるように構成されている。この手順によって、要求送出側のデリゲートユニットはアクティブ状態にセットされ、パッシブ状態のデリゲートユニットからアクティブ状態のデリゲートユニットへ、その状態が変更される。
【0010】
中央サービスモジュールをコンピュータとして実現することができ、特にサーバとして実現することができる。中央サービスモジュールとデリゲートユニットとの通信は、要求の送信及び/又はオーディオ信号の伝送のために、好ましくはディジタル通信であり、特に何らかのネットワークプロトコルを利用したディジタル通信である。
【0011】
本発明によれば、デリゲートユニットは、ボイスアクティベーションにより要求をトリガし、それに続いてその要求を伝送するように構成されている。従って、この会議システムによれば、デリゲートユニットをボイスアクティベーションによって、パッシブ状態からアクティブ状態に変更することができる。ボイスアクティベーションとは、要求のトリガを起こすために、デリゲートユニットの前にいる話者が話し始めるだけでよい、ということである。ボイスアクティベーションモードの利点は、ディスカッション参加者は、ボタンなどを押してディスカッションに対する発言要求を送出する必要がなく、単に話し始めるだけでディスカッションに加わることができる点である。ボイスアクティベーション方式は、対話形式のディスカッションに役立つだけでなく、他のディスカッション方式において議場オーディオを構成するチャネル数の制限にも利用できる。
【0012】
複数のデリゲートユニットのうち、要求をトリガしてよいデリゲートユニットのことを、要求送出側の候補デリゲートユニットと称し、デリゲートユニットのいずれであっても、このような要求送出側の候補ユニットになることができる。要求送出側の候補デリゲートユニットは、少なくとも第1のトリガ条件が満たされた場合に要求をトリガするように構成されており、この第1のトリガ条件とは、要求送出側の候補デリゲートユニットのオーディオ信号レベルが、アクティブ状態にある他のいずれのデリゲートユニットの個々のテスト値よりも高い、ということを要求するものである。要求送出側の候補デリゲートユニットの固有のオーディオ信号レベルは、要求送出側の候補デリゲートユニットのマイクロフォンによって受信されたオーディオ信号のレベルである。他のアクティブなデリゲートユニットのいずれについても、固有のテスト値が推定又は算出される。個々のテスト値は、アクティブ状態にある他のデリゲートユニットから供給された、及び、要求送出側の候補ユニットのマイクロフォンに入力されたオーディオ信号又は音声信号から得られる、要求送出側の候補デリゲートユニットの推定又は計算されたオーディオ信号レベルである。
【0013】
本発明の基礎を成す着想として挙げられるのは、デリゲートユニットが互いに密接して配置されているケースでは、例えば1mよりも近い間隔で、特に60cmよりも近い間隔で配置されているケースでは、デリゲートユニットのオーディオ入力ダイナミックレンジが広い場合が多い点を考慮すると、デリゲートユニットは、それが要求送出側の候補デリゲートユニットであるのか、近隣のデリゲートユニットであるのか、付加的な情報がなければ判断できない、というものである。しかも、室内の条件(反射及び残響)によっては、誤って話者であると認識されてしまうレベルにまで音声が蓄積して増大する複数のポイントが、室内に発生する可能性がある。
【0014】
第1のトリガ条件のテストを実施することにより、要求送出側の候補デリゲートユニットは、自身のオーディオ信号が、自身のマイクロフォンに向けて話している話者ないしは参加者から受信されたものであるのか、或いは近隣のデリゲートユニットに向けて話している話者ないしは参加者から受信されたものであるのか、をテストする。ここでは、近隣のデリゲートユニットの個々のテスト値が、自身のオーディオ信号レベルよりも高いものとし、その場合、要求送出側の候補デリゲートユニットは、ボイスアクティベーションすべきではない、との結論を出す。つまり要求送出側の候補デリゲートユニットは、第1のトリガ条件の真偽についてテストする。
【0015】
テストデリゲートユニットに対する個々のテスト値は、好ましくは以下のようにして推定され、特に算出される。即ちこの場合、要求送出側の候補デリゲートユニットとテストデリゲートユニットから成る各ペアについて規定された個々の音響結合係数を、テスト期間中のテストデリゲートユニットのオーディオ信号レベルと、オプションとして閾値係数と、乗算するのである。つまり各ペア(要求送出側の候補デリゲートユニット<−>テストデリゲートユニット)ごとに、固有の音響結合係数が規定される。テストデリゲートユニットのオーディオ信号レベルは、個々のテストデリゲートユニットのマイクロフォンによって受信されるオーディオ信号のレベルとして規定される。テスト期間は、好ましくは1秒よりも短く、特に0.1秒よりも短い。この場合、アクティブなデリゲートユニットだけがデリゲートユニットとして評価されるのが好ましい。
【0016】
本発明の1つの択一的な実施形態によれば、最後の数回の期間にわたるテストデリゲートユニットのオーディオ信号レベルの最大値が、現在のテスト期間のオーディオ信号レベルの代わりに用いられる。最大値を求めるために、例えば最後の3回、5回又は10回の期間が用いられる。この択一的な実施形態によって、値のロバストネスが向上し、つまりはボイスアクティベーションのロバストネスが向上する。
【0017】
本発明のさらに別の実施形態によれば、複数のサンプルから成る1つのブロックごとに個々のテスト値が更新され、例えば1024個のサンプルから成る1ブロックごとに48kHzのサンプリングレートで更新され、従って、この場合、個々のテスト値は21msごとに更新される。サンプリングレート及びブロック長について、これ以外の値を用いてもよい。さらに好ましいのは、第1のトリガ条件のテストをサンプルごとに実施することである。従って、上述の例であれば、1/48000秒ごとにテストが実施される。
【0018】
個々の音響結合係数は、要求送出側の候補デリゲートユニットのオーディオ信号レベルと、テストデリゲートユニットを使用する話者から音声信号が発せられた場合のテストデリゲートユニットのオーディオ信号レベルとの比を記述又は表現するものである。換言すれば、個々の音響結合係数は、テストデリゲートユニットのマイクロフォンに向けて話者が発声している状況において導出することができ、その際、音響結合係数を取り出すために、要求送出側の候補デリゲートユニットのオーディオ信号レベルが、テストデリゲートユニットのオーディオ信号レベルによって除算される。つまり音響結合係数は、要求送出側の候補デリゲートユニットのマイクロフォンと、テストデリゲートユニットマイクロフォンが、音声信号からどれだけ受信したかの比を表す。
【0019】
さらにこの会議システムは、要求送出側の候補デリゲートユニットが、自身のスピーカ又は他のスピーカからオーディオ信号を受信した場合の耐性もある。この場合、個々の音響結合係数は、そのつど同様にスピーカからのオーディオに向かって収束することになり、このことからスピーカの信号によって要求がトリガされてしまうような事態が回避される。これが可能である理由は、どの(アクティブな)デリゲートユニットがそのスピーカ信号に寄与しているのかが既知だからである。ローカルスピーカがマイクロフォンに結合されるのを低減するため、短い音響エコーのためのエコーキャンセラを実装することができ、これによればデリゲートユニットのスピーカの信号が自身のマイクロフォン信号からフィルタリングされて取り除かれる。
【0020】
1つの有利な実施形態によれば、各デリゲートユニットは、(アクティブ状態及びパッシブ状態のデリゲートユニットから成る)他のデリゲートユニットの個々のIDと個々の結合係数とを含む係数テーブルを有している。ここで強調しておきたいのは、種々のデリゲートユニットの結合テーブルは互いに異なる、ということである。さらにこのデリゲートユニットは、アクティブ状態にある他のデリゲートユニットの個々のIDとテスト期間中のオーディオ信号レベルとを含むオーディオ信号レベルテーブルを有している。これら2つのテーブルを用いることによって、要求送出側の候補デリゲートユニットは、第1のトリガ条件に関するテストを実行することができる。
【0021】
本発明の1つの有利な実施形態によれば、係数テーブルは各デリゲートユニットにより管理され、好ましくは各デリゲートユニットに格納される。例えばデリゲートユニットは、係数テーブルを格納するための記憶装置を有している。オーディオ信号レベルテーブルは、中央サービスモジュールによって供給される。オーディオ信号レベルテーブルは、テスト周期ごとに更新する必要があるので、例えばブロードキャスト又はマルチキャストによる分配方式によって、オーディオ信号レベルテーブルを各デリゲートユニットに分配することができる。
【0022】
本発明の1つの実現可能な改良形態によれば、デリゲートユニットは、他のデリゲートユニット各々に関する個々の音響結合係数を繰り返し推定するように構成されており、反復ステップごとに、個々の結合係数の初期値が改善される。1つの実現可能な実施形態によれば、すべての個々の結合係数は、会議システムのインストール又は初期化の際に1.0=0dBにセットされる。個々の結合係数を推定するための状況が発生するとただちに、次の繰り返しステップが実施される。この種の状況とは、1人の話者だけが会議システムの1つのデリゲートユニットを使用している場合である。このような状況であると、使用されているデリゲートユニットに関して、他のすべてのデリゲートユニットの個々の結合係数を、反復ステップにおいて改善することができる。従って、この会議システムは自己学習型であり、つまり時間の経過につれて自己最適化されていく。
【0023】
本発明のさらに別の実現可能な改良形態によれば、第1のテスト期間のデータに基づき発言チャネルを要求し、1つの発言チャネルが自身に割り当てられたことによりこの発言チャネル専用にされたデリゲートユニットは、第2のテスト期間のデータに基づき、少なくとも第1のトリガ条件を再テストすることによって、要求従ってその割り当てをチェックするように構成されている。本発明の基礎を成す着想とは、以下のような状況である。即ち、例えば他のデリゲートユニット各々と隣り合った例えば3つのデリゲートユニットは、第1のテスト期間中、パッシブ状態にあり、これら3つのデリゲートユニットすべては同じ音声信号を受信する、というものである。このような状況において起こり得る可能性があるのは、3つのデリゲートユニットすべてがパッシブ状態であり、互いにテストし合わないことから、これら3つのデリゲートユニットすべてが上述のように要求をトリガすることである。3つのデリゲートユニットがそれぞれ1つの発言チャネルに割り当てられた後、第2のテスト期間のデータに基づき第1の条件が再テストされる。この第2のテスト期間は、好ましくは第1のテスト期間以降の期間であり、特に、第1のテスト期間後の次のテスト期間である。第2のテスト期間中、上述の3つのデリゲートユニットはアクティブ状態である。第2のテスト期間のデータに基づき第1のトリガ条件をテストすることにより、3つのデリゲートユニットのうち2つのデリゲートユニットは、第1のトリガ条件をテストして、偽と判定する。その理由は、このとき3つのデリゲートユニットは、第1のトリガ条件について互いにテストし合うことになるからである。
【0024】
本発明のさらに別の改良実施形態によれば、第1のトリガ条件と、要求送出側の候補デリゲートユニットのオーディオ信号レベルがテスト期間中の基準ノイズレベルよりも高いということを要求する第2のトリガ条件とが少なくとも満たされた場合に、要求をトリガするように、デリゲートユニットが構成されている。ノイズレベルのデータは、好ましくは中央サービスモジュールによって供給され、特にオーディオ信号レベルテーブルとともに供給される。
【0025】
同じ音声信号に由来する2つのデリゲートユニットからの要求が許可されてしまわないようにするための、さらに別の実現可能な改良形態によれば、中央サービスモジュールは、予め選定されたデッドタイム中、ただ1つの要求だけしか許可しないように構成されている。先に挙げた例で述べたように、すべてのデリゲートユニットはそれらの要求を著しく短い時間期間内で送信する。中央サービスモジュールは、最初の要求だけを許可し、デッドタイム中、他の要求は拒否することになる。
【0026】
本発明のさらに別の改良形態によれば、デリゲートユニットは、自身の話者のステータスを表すための話者表示装置を備えており、第1の表示条件としてデリゲートユニットがアクティブ状態にあるとき、かつ第2の表示条件としてボイスピッチが検出されたとき、話者表示が起動にされる。この改良形態によって保証されるのは、トリガとなるオーディオ信号が音声信号である場合だけ、表示装置が起動されることである。
【0027】
本発明の1つの実施形態に関する以下の説明を通して、本発明のさらに別の特徴、利点、及び詳細な点が明らかになるであろう。
【図面の簡単な説明】
【0028】
図1】本発明の1つの実施形態である会議システムを示すブロック図。
【発明を実施するための形態】
【0029】
図1には、本発明の1つの実施形態である会議システム1の概観が示されている。会議システム1には、参照符号i,p1,p2,p3,p(n−1),pnが付された複数のデリゲートユニット2と、ネットワーク4を介してこれら複数のデリゲートユニット2に接続された中央サービスモジュール3とが含まれている。中央サービスモジュール3を、コンピュータサーバとして実現してもよいし、又は他のサーバとして実現してもよく、或いは別個のモジュールをサーバとして構築してもよい。
【0030】
デリゲートユニット2はそれぞれ、話者又はディスカッション参加者から音声信号を受信するためのマイクロフォン5を有している。中央サービスモジュール3は、複数のコントリビューションチャネル即ち発言チャネルを構成する。この場合、これらの発言チャネルは増幅器チャネルであり、つまりデリゲートユニット2から発言チャネルのうちの1つに送信される音声信号が、増幅されたオーディオ信号として周囲に発せられる。
【0031】
この会議システムを例えば大会議場に設置することができ、その場合、各議席にそれぞれ1つのデリゲートユニット2が装備される。大会議場でディスカッションが行われている間、それぞれ1つのデリゲートユニットを使用するディスカッション参加者は、デリゲートユニット2のマイクロフォン5へ向けて話しをすることができ、そのようにして音声信号がデリゲートユニット2によって受信される。オーディオ信号は発言チャネルへ伝送され、増幅されて大会議場内に発せられ、その結果、他の参加者がそのオーディオ信号を聞くことができるようになる。
【0032】
きちんと統制のとれたディスカッションとなるよう、デリゲートユニット2のいくつかは、ディスカッションでの発言が参加者に許可されたアクティブ状態Aにあり、デリゲートユニット2のいくつかは、音声信号が増幅されず議場内に発せられないパッシブ状態Pにある。デリゲートユニット2がアクティブ状態Aである場合、発言チャネルの1つが、中央サービスモジュールからデリゲートユニット2へ割り当てられる。
【0033】
動作中、デリゲートユニット2は、あとで説明するボイスアクティベーションによって、パッシブ状態Pからアクティブ状態Aへ切り替えられる。
【0034】
パッシブ状態Pにあるデリゲートユニット2はそれぞれ、第1のトリガ条件とオプションとしての第2のトリガ条件が満たされると、発言チャネルのコミットを要求する。
【0035】
第1のトリガ条件は、指向性ノイズ条件である。即ち第1のトリガ条件とは、要求送出側の候補デリゲートユニット2の入力オーディオ信号レベルが、推定入力オーディオレベルよりも十分に高く、つまり他のデリゲートユニット2を使用している話者からの音声信号の受信に由来する推定オーティオ信号レベルよりも十分に高い、ということである。
【0036】
第2のトリガ条件は、拡散ノイズ条件である。即ち第2のトリガ条件とは、要求送出側の候補デリゲートユニット2の入力オーディオ信号レベルが、基準レベル(例えば議場バックグラウンドノイズレベル)よりも十分に高い、ということである。
【0037】
上述の2つの条件を判定するため、各デリゲートユニット2に対し外部情報として要求されるデータ(これをオーディオメタデータとも称する)は、
1)各デリゲートユニットのユニークな識別子IDと1つのテスト期間T中の各デリゲートユニットのオーディオ信号レベルとを含む、アクティブ状態にあるすべてのデリゲートユニット2のテーブルALT、
及び
2)基準(バックグラウンドノイズ)レベルN
である。テーブルALTは、例えば以下の構造を有することができる:
p2 レベルXp2(T)
p(n-1) レベルXp(n-1)(T)
pn レベルXpn(T)
ノイズレベル N
ただし、p2, p(n-1), pnは識別子IDを表し、レベルXp#はテスト期間T中のオーディオ信号レベルを表す。ノイズレベルNについてはあとで説明する。
【0038】
以下に限定されるものではないが、1つの実装可能な形態として、レベルは16ビットの符号なし整数によって表される範囲[0,1]内の値である。レベルを算出するため、複数のサンプルから成る1つのブロック中で、例えば1024個のサンプルから成るブロック中で、オーディオレベルが求められる。32個のサンプルから成る各サブブロックごとに、二乗平均平方根が計算され、その結果が指数平均フィルタに送り込まれる。ノイズレベルに関しては、議場の可聴音(すべての発言チャネルを混合したもの)に対し所定のアルゴリズム(例えばスペクトルノイズ密度)を利用して、レベルが計算される。
【0039】
中央サービスモジュール3によって、オーディオメタデータが収集及び分配される。実際的な観点からすると、通信帯域幅を節約するために、例えば1024個のサンプルごとにオーディオメタデータを周期的に分配すれば十分である。ブロードキャスト又はマルチキャストによる分配方式を利用することで、オーディオメタデータを効率的に分配することができる。
【0040】
発言チャネルリクエストを受信すると、中央サービスモジュール3は、ある発言チャネルが利用可能であれば、その発言チャネルの割り当てを許可する。すべての発言チャネルが占有されていたならば、中央サービスモジュール3は拒否レスポンスで応答する。アクティブ状態Aにあるデリゲートユニット2が、もはやいずれの条件も満たしてなければ、そのユニットはタイムアウト期間後、発言チャネルのリリースを要求する。タイムアウト期間によって、音声の短い休止によってもリリースが要求されてしまわないようになる。発言チャネルのコミット又はリリースは、必ず中央サービスモジュール3から要求されなければならない。なぜならば、結果として拒否されることになる要求も存在する可能性があるからである。例えば、少なくとも1つのデリゲートユニット2を常にアクティブのままとする、といった要求などである。
【0041】
第1のトリガ条件を次式の通りとすることができる:
【数1】
ただし、
k 離散的な時点、
B 複数のサンプル、例えば1024個のサンプルから成る1ブロック長を有するブロック、これによって時点又はテスト期間の長さを規定、
K Bのブロック期間の離散的な時間フレームのインデックス、
Xp,max(KB) 期間kが経過する前の最後の数回の期間についての、例えば最後の3乃至10回の期間についての、デリゲートユニットpの最大オーディオ信号レベル、
Xi(k) 期間k中に要求を送出している候補デリゲートユニットiのオーディオレベル、
γdir この条件に対する閾値係数、
P 期間k中にアクティブ状態Aにあるデリゲートユニット2の集合、
Wp,i(KB) 期間k中のデリゲートユニットpとデリゲートユニットiとの間の音響結合係数、
である。
【0042】
つまり第1のトリガ条件によって、要求送出側の候補デリゲートユニットであるデリゲートユニットiのオーディオ信号レベルが、他のアクティブな各デリゲートユニットpの基準テスト値に閾値係数が乗算された値よりも高いか否かがテストされる。関数maxは、最も高い基準テスト値を抽出することから、プリセレクトとしての役割を果たす。このため基準テスト値は、期間k中のデリゲートユニットpの最大オーディオ信号レベルと、テストデリゲートユニットpと期間k中に要求を送出している候補デリゲートユニットiとの間の結合係数との積である。
【0043】
個々の音響結合係数Wp,i(KB)は、要求送出側の候補デリゲートユニットiのオーディオ信号レベルXiと、テストデリゲートユニットpを使用する話者から音声信号が発せられた場合のテストデリゲートユニットpのオーディオ信号レベルXiとの比を表す。従って、個々の音響結合係数は、テストデリゲートユニットpごとに互いに異なる可能性がある。第1のトリガ条件が満たされるのは、テストデリゲートユニットpの前ではなく、要求送出側の候補デリゲートユニットiのマイクロフォン4の前にいる話者によって、音声信号が供給されたときである。
【0044】
実現可能な1つの実施形態によれば、ブロック長"B"は1024個のサンプルインターバルである。"k"は、サンプリング周波数に依存する離散的な時点である。少なくとも第1のトリガ条件が、好ましくは両方のトリガ条件が、サンプル周期ごとにそのつど評価される。この場合、最初にオーディオレベルXが好ましくは指数平均を利用し最新のサンプルを使って更新され、次に比較が行われる。さもなければ、例えば1024個のサンプルのワーストケース遅延によって、話者が発するセンテンスの最初の何文字かをシステムが逃してしまうことになる。テスト値Wp,i(kB)Xp,max(kB)及びノイズ値(N)は、(ブロックBごとに発生する)新たなオーディオメタデータを受信したときにだけ更新される。
【0045】
個々の音響結合係数Wp,i(KB)は、標準的な正規化最小二乗アルゴリズムを利用して推定され取得される。この目的は、誤差(=残留レベル)を最小化するためにフィルタリング係数を迅速に収束させるためである。ここでも説明のため、期間KBを使用する。
【0046】
第1のステップにおいて、デリゲートユニットpからデリゲートユニットiへの残留レベルRp,iが求められる。この場合、デリゲートユニットpは、アクティブ状態Aにあるデリゲートユニット2のみである。ただ1つのデリゲートユニットpのみがアクティブであるという状況において、他のすべてのデリゲートユニット2は、それらのユニットのマイクロフォン4の入力のオーディオ信号レベルと、ただ1つのアクティブなデリゲートユニットpのオーディオ信号レベルとを使用して、アクティブなデリゲートユニットpに対する音響結合係数の推定をダイナミックに調整する。その際、ただ1つのアクティブなデリゲートユニットpのオーディオ信号レベルが、中央サービスモジュール3によってすべてのデリゲートユニット2に分配される。
【0047】
【数2】
【0048】
次のステップにおいて、音響結合係数が更新される:
【数3】
ただし、
Wp,i(kB)は、デリゲートユニットpからデリゲートユニットiへの更新された音響結合係数、
μは収束速度の時定数、
ε{}は指数平均関数、
thrは、初期化中のスパイクを防止するための「ボトム」閾値、
である。
【0049】
初期値として、すべての音響結合係数Wが値1.0 = 0 dBにセットされる。
【0050】
指数平均関数の実現可能な実施形態として、次式が定義される:
【数4】
平滑係数βは、次式を用いて求められる:
【数5】
ただし、
Texpは指数時定数、
Fsはサンプリング周波数、
である。他の周知の実施手法を用いてもよい。
【0051】
指数(移動)平均関数については既に説明したが、(平均パワーレベルを求める)ε{}関数に関して、入力の二乗に基づきこれが実行され、更新レートはブロック期間KBごとである。ここで
【数6】
をPxx,p(KB)とする。この場合、
【数7】
である。
【0052】
この関数に対する入力は、例えば5個の先行ブロックの最大レベルであり、このレベルはオーディオの指数平均関数により求められるので、これは二重の作業のように見えるが、NLMSアルゴリズムにとっては、迅速に収束させるためにこのような平滑化が好まれる。アルゴリズムの外部の妨害に対し反応するためには、別の値
【数8】
が有利である。例えば、ただ1つのデリゲートユニットだけしかアクティブ状態ではないシステムの場合には、そのデリゲートユニットに対する結合係数が更新されることになる。非アクティブ状態にあるデリゲートユニットの後方にいる話者が話し始めたとすると、そのデリゲートユニットは要求を送信することになる。ただし、この要求を許可するのにこのシステムでは数10秒がかかる。つまり平均時間内にこの話者の音声が、不適当な入力によって結合係数の更新を引き起こす場合がある。しかしながら、大きな誤差/残留信号ゆえに、Prr,p,i(KB)が急速に上昇し、これによって結合係数の急速な更新が回避される。
【0053】
その結果、各デリゲートユニット2は、他のデリゲートユニット2各々に対する音響結合係数の推定値を含むテーブルを保持する。音響結合係数テーブルは、図1においてACFi, ACF1, ACF2 ... ACFnによって表されている。
【0054】
第2のトリガ条件即ち拡散ノイズ条件は、次式で表すことができる:
【数9】
ただし、
γdifは、この条件に対する閾値係数、
Nは、(ALTからの)基準(バックグラウンドノイズ)レベル、
である。
【0055】
会議システム1は分散型システムであるので、通信中に遅延及び待ち時間が発生する可能性があり、これを以下のように処理することができる。
【0056】
ある話者のデリゲートユニット2に対し、発言チャネルが許可される前に、他のデリゲートユニット2も、音響結合に基づきチャネルのコミットを要求する。その結果、最初のコミット要求だけが許可され、以降、所定の期間(「デッドタイム」と称する)にわたり、すべてのコミット要求が拒否される。このデッドタイムは、分配されるメタデータに話者のデリゲートユニット2における情報が含まれるようにするのに十分な長さである。
【0057】
再要求の氾濫を防止するため、デリゲートユニット2は、前回の要求が拒否された後、新たな要求を送信する前に、所定の期間にわたり待機する。
【0058】
メタデータは、x個のサンプルごとに1回だけしか送信されないので、最後の既知の情報が遅れる可能性がある。そのようなケースでは、話者が声を発し始めることで1つ又は複数のデリゲートユニット2においてコミットがトリガされるのを回避できない(これは結合推定値がそれらの最終値に向けて収束する場合に、いっそう頻繁に発生する)。このことを解消する目的で、デリゲートユニット2は、そのチャネルコミット要求が許可された直後にメタデータが更新されるまで待機する。つまり、コミット要求が音響結合によってトリガされたことが、新たなメタデータから明確であれば、デリゲートユニット2はただちに(即ちタイムアウト期間なしで)チャネルリリースを要求する。
【0059】
ボイス検出/ボイス識別:
会議システム1において、あるデリゲートユニット2が、妨害(ペンのクリック、咳など)によって、発言チャネルを継続的に要求し且つ受け取る可能性がある。この場合、チャネルはただちに開放されるので、これは許容される。デリゲートユニット2は表示装置6を有しており、この装置は、デリゲートユニット2がアクティブ状態又はパッシブ状態にあることを、光又はLEDを用いて表示する。ただし、ディスカッションにとって好ましいのは、デリゲートユニット2において表示装置を起動することによって、会衆に本当の話者だけを知らせることである。1つの実現可能な実施形態によれば、表示をチャネル割り当てから分離することが提案される。
【0060】
発言チャネルが割り当てられた、即ちアクティブ状態Aにあるデリゲートユニット2における表示装置6は、オーディオ信号においてボイス(ピッチ)が検出されるとただちに起動される。処理要求を制限するために、最も音が大きい発言チャネルにおいてのみ、ボイス(ピッチ)の検出を行えば十分である。デリゲートユニットに対するハードウェア要求を低くするために、中央サービスモジュール3においてボイス(ピッチ)の検出を行うのも好ましい。
【0061】
会議システム1において得られる利点は、各デリゲートユニット2間の音響結合が動的に決定されることである。このためには特定の情報を分配する必要があり、その情報によって各デリゲートユニット2は、それらのユニットのオーディオ入力が本当の話者であるのか否かを判定することができる。これによって、情報交換における通信遅延を処理することができる。このような改善によって、会議システム1をフレキシブルかつスケーラブルなものにすることができる。会議システム1は、特にボイスアクティベーションは、きわめてロバストである。その理由は、話者が話し始めたとき、近隣のデリゲートユニット2はアクティブ状態にならず、或いは音響結合に基づきごく短期間アクティブ状態になるだけだからである。会議システム1は、特にデリゲートユニット2は、自己学習型であり、たとえ近隣の装置のところであっても、短期間のうちに他の話者がディスカッションに参加するのが容易である。また、会議システム1はスケーラブルである。その理由は、会議システム1は、手動で構成する必要なく、小さい編成でも大きい編成でも動作するからである。さらに、通信のオーバヘッドが小さい。なぜならば、例えばブロードキャスト又はマルチキャストを利用して分配される周期的なメタデータを用いるからである。以上、要約すると、会議システム1によって、デリゲートユニット2における音響結合及びオプションとして音声条件を判定することにより、ロバストネス及びフレキシビリティが向上する。
図1