(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-16
(45)【発行日】2025-01-24
(54)【発明の名称】超音波ベースの人検出システム及び方法
(51)【国際特許分類】
G01S 15/62 20060101AFI20250117BHJP
G01S 15/04 20060101ALI20250117BHJP
【FI】
G01S15/62
G01S15/04
(21)【出願番号】P 2022518752
(86)(22)【出願日】2020-09-17
(86)【国際出願番号】 EP2020075976
(87)【国際公開番号】W WO2021053071
(87)【国際公開日】2021-03-25
【審査請求日】2023-09-13
(32)【優先日】2019-09-20
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】522113475
【氏名又は名称】ニートフレーム リミテッド
(74)【代理人】
【識別番号】100107456
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ビルケネス オイステイン
【審査官】山下 雅人
(56)【参考文献】
【文献】特公昭56-037596(JP,B2)
【文献】国際公開第2015/083348(WO,A1)
【文献】特開2017-066672(JP,A)
【文献】欧州特許出願公開第02357625(EP,A1)
【文献】特開2000-338234(JP,A)
【文献】特開2019-100993(JP,A)
【文献】特開2015-075387(JP,A)
【文献】国際公開第2014/102938(WO,A1)
【文献】米国特許第04193055(US,A)
【文献】国際公開第2015/087541(WO,A1)
【文献】米国特許第03432855(US,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01S 7/00-17/95
G01V 1/00-99/00
G08B13/00-27/00
(57)【特許請求の範囲】
【請求項1】
超音波ベースの人検出方法であって、
(a)超音波信号をエミッタから放射するステップであって、前記超音波信号は、第1の周波数
【数1】
にある成分を含む、放射するステップと、
(b)前記超音波信号の反射を受信するステップであって、該受信する信号は、前記第1の周波数より大きな周波数にある成分と、前記第1の周波数未満の周波数にある成分とを含む、受信するステップと、
(c)前記第1の周波数よりも高い周波数を含む前記受信する信号の上方部分と前記第1の周波数よりも低い周波数を含む前記受信する信号の下方部分との間の差を決定するステップと、
(d)前記上方部分と前記下方部分との間の差に基づいて、人が存在するかどうかを決定するステップと
、
(e)前記受信する信号を複数のビンに分割するステップを含み、各ビンは、前記受信する信号における周波数の範囲を表し、前記上方部分は、前記第1の周波数よりも高い周波数にある前記受信する信号の部分を含む、上方周波数ビンであり、前記下方部分は、前記第1の周波数よりも低い周波数にある前記受信する信号の部分を含む、下方周波数ビンである、分割するステップと、を含み、
前記ステップ(d)における人の存在を決定することは、前記上方周波数ビンの正規化されたパワーのロジット関数を決定することを含む、
方法。
【請求項2】
前記決定は、前記上方周波数部分と前記下方周波数部分との間の差に基づく、請求項1に記載の方法。
【請求項3】
前記受信する信号の前記上方部分は、前記第1の周波数の直ぐ近傍のより高い周波数を含み、前記受信する信号の前記下方部分は、前記第1の周波数の直ぐ近傍のより低い周波数を含む、請求項1又は2に記載の方法。
【請求項4】
前記決定は、前記上方周波数ビンの正規化されたパワー推定値と前記下方周波数ビンの正規化されたパワー推定値との間の差に基づいて行われる、請求項
1に記載の方法。
【請求項5】
前記正規化係数は、前記上方周波数ビン及び前記下方周波数ビンのパワー推定値の合計である、請求項
4に記載の方法。
【請求項6】
前記ロジット関数は、
【数2】
の形態を取り、
ここで、
【数3】
は、時間tでの前記上方周波数ビンを表す係数であり、
【数4】
は、時間tでの前記下方周波数ビンを表す係数である、
請求項
1に記載の方法。
【請求項7】
前記ステップ(b)~(d)が所定の速度で繰り返される、請求項1~
6のうちのいずれか1項に記載の方法。
【請求項8】
人が存在することが決定された後に、前記人が前記受信機に向かって移動しているか或いは前記受信機から離れて移動しているかを決定するステップを更に含む、請求項1~
7のうちのいずれか1項に記載の方法。
【請求項9】
前記人が前記受信機に向かって移動しているか或いは前記受信機から離れて移動しているかどうかを決定することは、
人が受信機に向かう動きがある可能性を示す第1の対数尤度比と所定の閾値との比較、及び、
人が受信機から離れる動きがある可能性を示す第2の対数尤度比と所定の閾値との比較、に更に基づく、請求項
8に記載の方法。
【請求項10】
前記第1の対数尤度比が、人に動きがない可能性に対する人が受信機に向かう動きがある可能性の比に基づいて導き出され、前記第2の対数尤度比が、人に動きがない可能性に対する人が受信機から離れる動きがある可能性の比に基づいて導き出され、第1の対数尤度比及び第2の対数尤度比の各々は従前の値から回帰的に計算される、請求項
9に記載の方法。
【請求項11】
人が存在することが決定されるときに、当該方法は、ビデオ会議デバイスをスタンバイモードから外すステップを含む、請求項1~
10のうちのいずれか1項に記載の方法。
【請求項12】
人を検出するシステムであって、
第1の周波数
【数5】
にある成分を含む超音波信号を放射するように構成されるエミッタと、
前記超音波信号の反射を受信するように構成される1つ以上の受信機と、
1つ以上のプロセッサと、を含み、該プロセッサは、
前記受信機が、前記第1の周波数よりも大きい周波数にある成分と前記第1の周波数未満の成分とを含む受信される信号を受信することに応答して、
(a)前記第1の周波数よりも高い周波数を含む前記受信される信号の上方部分と前記第1の周波数よりも低い周波数を含む前記受信される信号の下方部分との間の差を決定し
、
(b)前記上方部分と前記下方部分との間の差に基づいて、人が存在するかどうかを決定
し、
(c)前記受信される信号を複数のビンに分割する、
ように構成され、
各ビンは、前記受信される信号における周波数の範囲を表し、前記上方部分は、前記第1の周波数よりも高い周波数にある前記受信される信号の部分を含む、上方周波数ビンであり、前記下方部分は、前記第1の周波数よりも低い周波数にある前記受信される信号の部分を含む、下方周波数ビンであり、
前記(b)の構成における人の存在を決定することは、前記上方周波数ビンの正規化されたパワーのロジット関数を決定することを含む、
システム。
【請求項13】
前記決定は、前記受信される信号の前記上方部分と前記下方部分との間の差に基づく、請求項
12に記載のシステム。
【請求項14】
前記受信される信号の前記上方部分は、前記第1の周波数の直ぐ近傍のより高い周波数を含み、前記受信される信号の前記下方部分は、前記第1の周波数の直ぐ近傍のより低い周波数を含む、請求項
12又は13に記載のシステム。
【請求項15】
前記決定は、前記上方周波数ビンの正規化されたパワー推定値と前記下方周波数ビンの正規化されたパワー推定値との間の差に基づいて行われる、請求項
12に記載のシステム。
【請求項16】
前記正規化係数は、前記上方周波数ビン及び前記下方周波数ビンの前記パワー推定値の合計である、請求項
15に記載のシステム。
【請求項17】
前記ロジット関数は、
【数6】
の形態を取り、
ここで、
【数7】
は、時間tでの前記上方周波数ビンを表す係数であり、
【数8】
は、時間tでの前記下方周波数ビンを表す係数である、
請求項
12に記載のシステム。
【請求項18】
前記プロセッサは、所定の速度で前記ステップ(a)~(b)を繰り返すように構成される、請求項
12~17のうちのいずれか1項に記載のシステム。
【請求項19】
前記プロセッサは、人が存在することが決定された後に、前記人が前記受信機に向かって移動しているか或いは前記受信機から離れて移動しているかどうかを決定するように更に構成される、請求項
12~18のうちのいずれか1項に記載のシステム。
【請求項20】
前記人が前記受信機に向かって移動しているか或いは前記受信機から離れて移動しているかどうかを決定することは、
人が受信機に向かう動きがある可能性を示す第1の対数尤度比と所定の閾値との比較、及び、人が受信機から離れる動きがある可能性を示す第2の対数尤度比と所定の閾値との比較、に更に基づく、請求項19に記載のシステム。
【請求項21】
ユーザが存在することが決定されるときに、前記プロセッサは、ビデオ会議デバイスをスタンバイモードから外すように構成される、請求項12~20のうちのいずれか1項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、超音波人検出システム及び方法に関する。
【背景技術】
【0002】
コラボレーションエンドポイント(collaboration endpoints)のようなビデオ会議デバイスは、典型的には、デバイスが使用されていないときにアクティブであることを意味するスタンバイ(待機)状態を有する。有利には、スタンバイ状態は、例えば、不要なコンポーネント(例えば、モニタ)をオフにすることによって、電力消費を削減する。スタンバイ状態の別の利点は、カメラセンサ、プロジェクタバルブ等のようなコンポーネントの寿命の増加である。
【0003】
スタンバイ状態を有するデバイスは、デバイスをスタンバイ状態に置き、そして、デバイスを再び覚醒させる方法を持たなければならない。例えば、従前のビデオ会議デバイスは、タイマ及び人入力方法で動作してきた。デバイスは、所定の非活動の期間(例えば、10分)後にスタンバイモードになるようにプログラムされ、制御パネル又は類似物への人入力により覚醒される。しかしながら、これは、特に制御パネルが容易にアクセスで可能でないか或いは見えないならば、一部のユーザにとっては特に直観的でない。
【0004】
人検出器を使用することも知られており、このデバイスは、近くに人がいないと決定するときにスタンバイモードに置かれる。1つのそのような例が、特許文献1に開示されており、超音波が空間領域に伝達される。次に、コントローラは、反射超音波を受信し、エコーフリー受信超音波信号の推定値を表すエラー信号を計算する。次に、コントローラは、時間に亘るエラー信号のパワー推定値を計算し、このパワー推定値の変化に基づいて人の存在を検出する。
【0005】
しかしながら、上述の超音波方法の問題は、それが偽陽性を起こしやすくあり得ることである。上述のシステムは、比較的狭い周波数範囲に亘って検出する。しかしながら、エミッタによって生成されない過渡ノイズ(雑音)、例えば、ドアを閉じること又は手を叩くことは、周波数において比較的広帯域であり、よって、検出範囲内に入る成分を有する。これは、デバイスの近くで検出される過渡ノイズ(しかしながら、部屋に人がいることを示さない)デバイスをスタンバイモードから覚醒させる偽陽性を引き起こし得る。
【発明の概要】
【発明が解決しようとする課題】
【0006】
それゆえ、偽陽性を起こしにくい、より堅牢(ロバスト)な人検出方法の必要がある。
【課題を解決するための手段】
【0007】
従って、第1の態様では、本発明の実施形態は、
(a)超音波信号をエミッタから放射するステップであって、超音波信号は、第1の周波数
(外1)
にある成分を含む、放射するステップと、
(b)超音波信号の反射を受信するステップであって、受信する信号は、第1の周波数より大きな周波数にある成分と、第1の周波数未満の周波数にある成分とを含む、受信するステップと、
(c)第1の周波数よりも高い周波数を含む受信する信号の上方部分と第1の周波数よりも低い周波数を含む受信する信号の下方部分との間の差を決定するステップと、
(d)上方部分と下方部分との間の差に基づいて、人が存在するかどうかを決定するステップとを含む、
超音波ベースの人検出方法を提供する。
【0008】
このような方法は、動きを示さない広帯域ノイズによって引き起こされる偽陽性を緩和することによって、人が実際に存在するかどうかを検出することにおいて、より堅牢(ロバスト)である。本方法は、近接近する
(外2)
にある超音波信号を放射することがある他のデバイスに関してもより堅牢である。更に、本方法は、一時的に同期されるエミッタ及び受信機に依存しない。
【0009】
本方法は、以下の任意的な構成のいずれか1つ、又は互換性がある限りの任意の組み合わせを有してよい。
【0010】
決定は、前記上方周波数部分と前記下方周波数部分との間の差に基づいてよい。
【0011】
受信する信号の上方部分は、第1の周波数の直ぐ近傍のより高い周波数を含んでよく、受信する信号の下方部分は、第1の周波数の直ぐ近傍のより低い周波数を含んでよい。
【0012】
本方法は、受信する信号を複数のビンに分割することを含んでよく、各ビンは、受信する信号における周波数の範囲を表し、上方部分は、第1の周波数よりも高い周波数にある受信する信号の部分を含む、上方周波数ビンであり、下方部分は、第1の周波数よりも低い周波数にある受信する信号の部分を含む、下方周波数ビンである。
【0013】
決定は、上方周波数ビンの正規化されたパワー推定値と下方周波数ビンの正規化されたパワー推定値との間の差に基づいて行われてよい。正規化係数は、上方周波数ビン及び下方周波数ビンのパワー推定値の合計であってよい。正規化は、上方周波数ビンと下方周波数ビンの平均の推定値を減算することによって行われてよい。
【0014】
人の存在を決定することは、上方周波数ビンの正規化されたパワーのロジット関数を決定することを含んでよい。人の存在を決定することは、下方周波数ビンの正規化されたパワーのロジット関数を決定することを含んでよい。人の存在を決定することは、上方周波数ビンの正規化されたパワーの第1のロジット関数を決定することと、下方周波数ビンの正規化されたパワーの第2のロジット関数を決定することとを含んでよい。
【0015】
ロジット関数は、
【数1】
の形態を取ってよく、
ここで、
【数2】
は、時間tでの上方周波数ビンを表す係数であり、
【数3】
は、時間tでの下方周波数ビンを表す係数である。
【0016】
ステップ(b)~(d)は、所定の速度で繰り返されてよい。(b)~(d)の各反復は、受信する信号の時間窓で行われてよい。時間窓は、約20msであることがある。
【0017】
人が存在することが決定された後に、当該方法は、人が受信機に向かって移動しているか或いは受信機から離れて移動しているかを決定するステップを更に含んでよい。人が受信機に向かって移動しているか或いは受信機から離れて移動しているかどうかを決定することは、人が受信機に向かって移動しているかどうかを決定するための第1の対数尤度比テストと、人が受信機から離れて移動しているかどうかを決定するための第2の対数尤度比テストとに更に基づいてよい。対数尤度比が、各尤度比について導き出されてよく、それぞれの対数尤度比の従前の値から回帰的に計算されてよい。有利には、そのような対数尤度比は、実施がより単純であり、より低い計算複雑性を有し、計算的により安い方法をもたらす。
【0018】
人が存在することが決定されるときに、当該方法は、ビデオ会議デバイスをスタンバイモードから外すステップを含んでよい。
【0019】
幾つかの実施形態では、第1の受信機及び第2の受信機が存在してよく、第1の受信機は、第1の周波数よりも高い周波数成分を有する超音波信号の反射を受信し、第2の受信機は、第1の周波数よりも低い周波数成分を有する超音波信号の反射を受信する。従って、第1の受信機は、受信する信号の上方部分を受信することがあり、第2の受信機は、受信する信号の下方部分を受信することがある。受信する信号の上方部分と受信する信号の下方部分との間の差を決定することは、第1の受信機及び/又は第2の受信機がそれぞれの信号を受信したかどうかを決定することを含んでよい。両方の受信機が信号を受信した場合には、受信した信号が偽陽性であると決定されてよい。1つの受信機のみが信号を受信する場合には、人が存在すると決定されてよい。
【0020】
第2の態様において、本発明の実施形態は、人を検出するシステムを提供し、システムは、
第1の周波数
(外3)
にある成分を含む超音波信号を放射するように構成されるエミッタと、
超音波信号の反射を受信するように構成される1つ以上の受信機と、
1つ以上のプロセッサと、を含み、プロセッサは、
受信機が、第1の周波数よりも大きい周波数にある成分と第1の周波数未満の成分とを含む受信される信号を受信することに応答して、
(a)第1の周波数よりも高い周波数を含む受信される信号の上方部分と第1の周波数よりも低い周波数を含む受信される信号の下方部分との間の差を決定し、且つ、
(b)上方部分と下方部分との間の差に基づいて、人が存在するかどうかを決定する
ように構成される。
【0021】
そのようなシステムは、動きを示さない広帯域ノイズによって引き起こされる偽陽性を緩和することによって、人が実際に存在するかどうかを検出することにおいてより堅牢である。本システムは、近接近して
(外4)
で超音波信号を放射することがある他のデバイスに関してもより堅牢である。更に、システムは、一時的に同期されるエミッタ及び受信機に依存しない。
【0022】
本システムは、以下の任意的な構成のいずれか1つ、又は互換性がある限りの任意の組み合わせを有してよい。
【0023】
決定は、受信される信号の上方部分と下方部分との間の差に基づいてよい。
【0024】
受信される信号の上方部分は、第1の周波数の直ぐ近傍のより高い周波数を含んでよく、受信される信号の下方部分は、第1の周波数の直ぐ近傍のより低い周波数を含んでよい。
【0025】
プロセッサは、受信される信号を複数のビンに分割するように更に構成されてよく、各ビンは、受信される信号における周波数の範囲を表し、上方部分は、第1の周波数よりも高い周波数にある受信される信号の部分を含む、上方周波数ビンであり、下方部分は、第1の周波数よりも低い周波数にある受信される信号の部分を含む、下方周波数ビンである。
【0026】
決定は、上方周波数ビンの正規化されたパワー推定値と下方周波数ビンの正規化されたパワー推定値との間の差に基づいて行われてよい。正規化係数は、上方周波数ビン及び下方周波数ビンのパワー推定値の合計であってよい。
【0027】
人の存在を決定することは、上方周波数ビンの正規化されたパワーのロジット関数を決定することを含んでよい。人の存在を決定することは、下方周波数ビンの正規化されたパワーのロジット関数を決定することを含んでよい。人の存在を決定することは、上方周波数ビンの正規化されたパワーの第1のロジット関数を決定することと、下方周波数ビンの正規化されたパワーの第2のロジット関数を決定することとを含んでよい。
【0028】
ロジット関数は、
【数4】
の形態を取ってよく、
ここで、
【数5】
は、時間tでの上方周波数ビンを表す係数であり、
【数6】
は、時間tでの下方周波数ビンを表す係数である。
【0029】
プロセッサは、所定の速度でステップ(a)~(b)を繰り返すように構成されてよい。(a)~(b)の各反復は、受信される信号の時間窓で行われてよい。時間窓は、約20msであってよい。
【0030】
プロセッサは、人が存在することが決定された後に、人が受信機に向かって移動しているか或いは受信機から離れて移動しているかどうかを決定するように更に構成されてよい。人が受信機に向かって移動しているか或いは受信から離れて移動しているかどうかを決定することは、人が受信機に向かって移動しているかどうかを決定するための第1の尤度比テストと、人が前記受信機から離れて移動しているかどうかを決定するための第2の尤度比テストとに更に基づいてよい。対数尤度比は、各尤度比について導き出されてよく、それぞれの対数尤度比の従前の値から回帰的に計算されてよい。
【0031】
ユーザが存在することが決定されるときに、プロセッサは、ビデオ会議デバイスをスタンバイモードから外すように構成されてよい。
【0032】
幾つかの実施形態では、第1の受信機及び第2の受信機が存在してよく、第1の受信機は、第1の周波数よりも高い周波数成分を有する超音波信号の反射を受信するように構成され、第2の受信機は、第1の周波数よりも低い周波数成分を有する超音波信号の反射を受信するように構成される。従って、第1の受信機は、受信する信号の上方部分を受信することがあり、第2の受信機は、受信する信号の下方部分を受信することがある。受信する信号の上方部分と受信する信号の下方部分との間の差を決定することは、第1の受信機及び/又は第2の受信機がそれぞれの信号を受信したかどうかを決定することを含んでよい。両方の受信機が信号を受信した場合には、受信した信号が偽陽性であると決定されてよい。1つの受信機のみが信号を受信する場合には、人が存在すると決定されてよい。
【0033】
本発明の更なる態様は、コンピュータ上で動作するときに、コンピュータに第1の態様の方法を実行させるコードを含むコンピュータプログラムと、コンピュータ上で動作するときに、コンピュータに第1の態様の方法を実行させるコードを含むコンピュータプログラムを格納するコンピュータ可読媒体と、第1の態様の方法を実行するようにプログラムされたコンピュータシステムとを提供する。
【0034】
上述の本発明の態様の任意的な構成は、単独で或いは本発明のいずれかの態様との任意の組み合わせにおいて適用可能である。
【0035】
次に、添付の図面を参照して、本発明の実施形態を一例として記載する。
【図面の簡単な説明】
【0036】
【
図1】本発明の実施形態に従ったシステムを示している。
【
図2】
図1のシステムのマイクロホン近傍の空間内の点のスペクトログラム(時間-周波数プロット)を示している。
【
図3】本発明の実施形態に従った方法のフロー図である。
【数7】
【数8】
及び
【数9】
のプロットを示している
【
図5】動きが起きていないときの対応するヒストグラムと共にL(t)のプロットを示している。
【数10】
【数11】
及びL(t)のプロットを示している。
【
図7】L(t)のプロット、対応する対数尤度比のプロット及び検出閾値を示している。
【
図8】本発明の変形実施形態に従った方法のフロー図である。
【発明を実施するための形態】
【0037】
次に、添付の図面を参照して、本発明の態様及び実施形態を以下に議論する。更なる態様及び実施形態は、当業者に明らかであろう。
【0038】
図1は、本発明のシステムを含む部屋を示している。システムは、(トーンとも呼ぶ)第1の周波数
(外5)
(外6)
は、22000Hzであるが、任意の超音波周波数値(例えば、少なくとも20kHzであり且つ24kHz以下)を取ってよい。エミッタは、連続的にトーンを放射する。この例において、エミッタは、ビデオ会議デバイスにも使用されるスピーカである。システムは、受信機103も含み、この例では、マイクロホンも、ビデオ会議デバイスの一部である。受信機は、
(外7)
にある超音波信号だけでなく、ドップラーシフトされた信号の反射も検出するように構成される。システムは、1つ以上のプロセッサ(図示せず)も含み、プロセッサは、受信機103から受信される信号を使用して、人が部屋にいるかどうかを決定するように構成される。
【0039】
超音波信号は、部屋を通じて伝播するにつれて、超音波信号は、様々な物体及び/又はインターフェースから反射する。例えば、壁から反射した後に、シフトされていない反射104、すなわち、
(外8)
で静止している反射は、受信機103に戻される。このシフトされていない反射は、(動きによって示される)部屋内の人の存在に関する情報が殆ど提供しないので、無視される。一方、受信機103に向かって移動している人105から反射した後に、上方シフトされた反射106は、受信機に戻される。上方シフトされた反射106は、
(外9)
よりも高い周波数を有する。この上方シフトされた反射は、部屋内の人の存在、特に人が受信機103に向かって動いていることに関する情報を提供する。同様に、受信機103から離れて移動している人107から反射した後に、下方シフトされた反射108は、受信機に戻される。下方シフトされた反射108は、
(外10)
よりも低い周波数を有する。この下方シフトされた反射は、部屋内の人の存在、特に人が受信機103から離れて移動していることに関する情報も提供する。
【0040】
しかしながら、前述したように、ドア109を閉めること又は手を叩くことによって生成されるもののような過渡ノイズ110(transient noises)は、比較的広い周波数範囲を有し、上方シフトされた又は下方シフトされた成分と同じ又は類似の周波数を有する成分を含むことがある。エミッタ101に由来しないこれらの過渡ノイズは、受信機(又はそれに接続されたプロセッサ)によって、人の存在を示すものとして解釈されることができる。
【0041】
図2は、この原理を示す受信機近傍の空間の領域のスペクトログラム(時間-周波数プロット)である。トーンがエミッタによって22000Hzで放射され、よって、長い時間期間に亘って延びる狭帯域の信号を提供する。t0で、人は、第1の速度で受信機に向かって歩き、よって、上方シフトされた信号201が、受信機によって受信される。この例において、人は、次に、受信機に向かう速度を増加させて、受信機によって受信される更なる上方シフトされた信号202をもたらす。次に、人は、停止し、上方シフトされた信号は受信されない。t1で、人は、次に、受信機から離れて歩き、よって、下方シフトされた信号203が受信機によって受信される。
【0042】
次に、時間t2で、過渡信号204(transient signal)が受信機によって受信される。この信号は、「x」軸において限定的な存在を有するという点で一時的なものである。しかしながら、過渡信号は、上方シフトされた信号201、更に上方シフトされた信号202、及び下方シフトされた信号203と同じ周波数にある成分を含む。その場合には、受信機に接続されたプロセッサが、過渡信号204を、人が存在することを示すものとして解釈することがあるリスクがある。
【0043】
図3は、本発明の実施形態に従った方法のフロー図を示している。第1のステップ301において、超音波トーンが周波数
(外11)
で放射される。次に、ステップ302において、1つ以上の受信機によって受信される信号は、マイクロホンフレーム、すなわち、マイクロホン信号の短い時間フレーム(time frame)から、時間-周波数領域(time-frequency domain)に変換される。これは、受信される信号の短い時間窓(time window)又は時間フレーム(例えば、20ミリ秒)に亘って行われ、受信される信号は、フィルタバンク(filter bank)を用いて周波数領域に変換される。これは
【数12】
として示される複数の時間-周波数ビン(time-frequency bins)を記述する複数の係数(coefficients)をもたらし、ここで、tは、時間フレームであり、t=0,1,2,...であり、
(外12)
は、周波数ビン指数(frequency bin index)であり、
【数13】
であり、ここで、Kは、離散フーリエ変換(DFT)サイズである。フィルタバンクは、フィルタが鋭利であり(隣接する周波数ビンからの漏れがほとんどなく)、低速歩行速度、例えば、65Hzを検出するために十分に狭い帯域幅を備えるように設計される。
【0044】
次に、ステップ303において、正規化されたドップラーシフトパワー(Doppler shift power)のロジット(logit)が計算される。
(外13)
が放射されたトーンの周波数(例えば、22000Hz)を含む周波数ビン指数(frequency bin index)を示すとする。その場合、ドップラーシフトの正規化されたパワーのロジットは以下のように定義される。
【数14】
ここで、
【数15】
は、絶対値を示し、
【数16】
は、
(外14)
についてのロジット関数である。ロジット関数の引数(argument)、すなわち、
【数17】
は、
(外15)
より上の周波数ビンの正規化されたパワー推定値(power estimates)であり、正規化係数(normalisation factor)は、
(外16)
より上及び下の周波数ビンのパワー推定値の合計である。
【0045】
これは、
(外17)
が0~1の間の数字であることを意味し、確率に例えることができる。その場合、ロジット関数は、この確率が
(外18)
の間の値を取るように、この確率を変換する。
【0046】
これが所与の時間窓に亘って計算された後に、本方法は、同時に実行されるステップ304及び307に移動する。ステップ304では、受信機に向かう動きがある可能性がどの程度あるかを示すために、第1の対数尤度比、すなわち、対数尤度比0が、計算されたロジットに基づいて更新される。同時に、ステップ307では、受信機から離れる動きがある可能性がどの程度あるかを示すために、第2の対数尤度比、すなわち、対数尤度比1が、計算されたロジットに基づいて更新される。
【0047】
一般に、尤度比は、閉形式表現を持たず、よって、それは1を計算するには計算上高価である。しかしながら、L(t)の値は、ほぼ独立しており且つ正規に分布されることが分かっているので、対数尤度比についての簡単な式を導き出すことができる。
【0048】
当該技術分野においてそれ自体知られているタイプの対数尤度比は、以下の一般式を有し、
【数18】
ここで、
【数19】
は、受信機に向かう或いは受信機から離れる動きがある可能性であり、は、
【数20】
は、動きがない可能性である。例えば、その内容を参照により本明細書に援用する、The CuSum Algorithm - a small review, Pierre Granjonを参照されたい。
【0049】
更に、対数尤度比は、L(t)の従前の値と新しい値とを使って、再帰的に計算されることができる。対数尤度比の初期化は、それらをゼロに初期化することを含んでよく、それは初期尤度比が1であることを意味する。これは、初期化時に、動きの可能性が、動きがない可能性と同じであることを意味する。
【数21】
が受信機に向かう動きの対数尤度比を示し、
【数22】
が受信機から離れる動きの対数尤度比を示すとすると、対数尤度比の更新方程式は、以下のように指定されることができる。
【数23】
【数24】
【0050】
これらの式において、δは、予想される大きさの変化、すなわち、運動後の平均ゼロからのL(t)の平均における予想される偏差(deviation)である。これは初期化段階の間に設定される定数(constant)である。L(t)の分散(variance)は、
(外19)
として示される。これは、初期化段階の間に固定値に設定されるか、或いは計算されるL(t)の値として推定される。
【0051】
対数尤度比が、計算されたロジットからの情報の一部又は全部を使用してひとたび計算されると、各対数尤度比は、ステップ305及びステップ308において閾値と比較される。尤度比のうちの1つがその閾値を超えるならば、すなわち、ステップ305及び/又はステップ308において「はい」であるならば、受信機に向かう或いは受信機から離れる動きは、ステップ306及びステップ309においてそれぞれ決定されることができる。
【0052】
ひとたび動きが検出されるか或いは検出されないと(ステップ305及びステップ308において「いいえ」)、本方法は、新しい時間窓に亘ってステップ302に戻る。このようにして、運動検出方法は、連続的に作動することができる。以下に議論する例において、δの値は、5として選択され、
(外20)
は、L(t)の値から推定された。一例では、
(外21)
についての推定値は、動きが存在しないことが知られていたときの時間窓における最大尤度推定器(maximum likelihood estimator)を用いて得られる。最大尤度推定(maximum likelihood estimate)は、動きがないことが知られているときの時間窓におけるtに亘るL(t)
2の平均として計算されることができる。
【0053】
上述のロジット関数は、以下の3つの理由、すなわち、(1)過渡ノイズ耐性、(2)正規分布値、及び(3)運動方向の表示の故に、運動検出に特に適している。
【0054】
先ず、ポイント(1)を取り上げると、
図4は、過渡広帯域信号が受信されるときの、より低い周波数ビン
【数25】
より高い周波数ビン
【数26】
及び
【数27】
のプロットを示している。
【0055】
図4の上方グラフは、時間に対する
【数28】
のプロットであり、よって、
(外22)
の直ぐ下の周波数ビンのパワーのプロットである。2つのピーク、すなわち、約3秒及び約5秒によって見ることができるように、この周波数ビンは、過渡広帯域ノイズの成分をカプセル化する。
図4中の中央のグラフは、時間に対する
【数29】
のプロットであり、よって、
(外23)
の直ぐ上の周波数ビンのパワーのプロットである。やはり、約3秒及び約5秒で2つのピークを見ることができる。その場合には、過渡広帯域信号が信号の上方部分及び下方部分の両方にほぼ等しく加わることが決定されることができる。
【0056】
よって、L(t)のプロットである
図4の下方グラフ中に見ることができるように、信号の上方部分及び下方部分におけるほぼ等しい寄与は、L(t)における比によって相殺され、よって、ロジット関数は、過渡広帯域ノイズ又は信号に対するノイズ耐性を有する。
【0057】
次に、正規分布値であるポイント(2)を参照すると、
図5は、動きが起こっていないときの対応するヒストグラムと共にL(t)のプロットを示している。動きがなく、故に、ドップラーシフトがないならば、t=0,1,2,...に亘るL(t)の値は、正規分布に類似する分布に従う。これは実験によって検証されたものであり、その結果は、
図5の下方プロットであるヒストグラムに示されている。それらの値は互いに殆ど独立していることも予期される。上述したように、これらの値は、互いに独立しており、正規に分布されるので、対数尤度比についての単純な式を導き出すことができる。
【0058】
次に、ポイント(3)、動きの検出に関して、
図6は、動きが起こっているときの、
【数30】
【数31】
及びL(t)のプロットを示している。L(t)の値、t=1,2,...は、前述のように、動きの方向に関する情報を含む。動きがないとき、L(t)は、ゼロに近い。受信機に向かう動きがあるとき、L(t)は、概ね正であり、例えば、ゼロより数デシベル上である。反対に、受信機から離れる動きがあるとき、L(t)は、概ね負であり、例えば、ゼロより数デシベル下である。
図6中の上方プロットは、
(外24)
を含む周波数より下の周波数ビンのプロットであり、振幅の増加を通じて人が受信機から離れて歩いている6~10秒の間を示している。
図6中の中央プロットは、
(外25)
を含む周波数ビンより上の周波数ビンのプロットであり、振幅の増加を通じて人が受信機に向かって歩いている4~6秒の間を示している。下方プロットは、ロジット関数L(t)のプロットであり、それが4~6秒の間に正の値を取り、6~10秒の間に負の値を取ることを示しており、それは受信機に対する動きの方向を決定するためにL(t)を使用し得ることを実証している。
【0059】
図7は、L(t)のプロット、並びに対応する対数尤度比及び検出閾値のプロットを示している。
図7の上方プロットは、L(t)のものであり、
図6の下方プロットに対応する。
図7の下方プロットは、対数尤度比と、受信機に向かう或いは受信機から離れる動きを検出するための検出閾値とのプロットである。線701は、上記で議論した
【数32】
の値を示しており、線702は、上記で議論した
【数33】
の値を示している。破線703は、この例では100であるとみなされている閾値である。
【0060】
分かるように、線701は、4~5秒の間に閾値703より上に上昇し、受信機に向かう動きがあることを示す。約7秒で、線702は、閾値703より上に上昇する一方で、線701は、閾値703より下に下降し、受信機から離れる動きがあることを示す。
【0061】
図8は、本発明の実施形態に従った変形方法のフロー図である。
図8が
図3に示すフロー図と構成を共有する場合、同等の構成は、同等の参照番号によって示される。
図3に示す方法とは対照的に、
図8の方法は、2つのロジット関数、すなわち、ビデオシステムに向かう動きをより良く検出するために調整された第1のロジット関数L
1(t)と、ビデオシステムから離れる動きをより良く検出するために調整された第2のロジット関数L
2(t)とを利用する。
【0062】
図3に関して議論されたロジット関数を以下の観察に基づいて改良することができる。部屋内のテレビ会議デバイスに向かう動きの間に、動いている物体からの反射は、より高い受信周波数を引き起こす。しかしながら、後壁に当たり、次に、移動する物体に当たり、次に、テレビ会議デバイス内の受信機によって受信される前に再び後壁に当たる反射は、より低い受信周波数を有する。その場合には、受信周波数は、ドップラーシフトの範囲を構成することに留意されたい。ビデオ会議デバイスに向かう動きで、これらのドップラーシフトの殆どはより高い周波数であるが、一部はより低い周波数である。
【0063】
従って、L(t)を以下のように定式化することができる。
【数34】
すなわち、L(t)内の
【数35】
を
【数36】
と置き換える。これは、ビデオ会議デバイスに向かう動きの検出のためのより堅牢な信号をもたらす。何故ならば、通常の歩行速度では、
【数37】
程度のドップラーシフトは殆ど受信されないからである。更に、ノイズ耐性は、依然として良好である。何故ならば、ドアを閉めること又は手を叩くことのような広帯域ノイズは、両方の周波数ビン
【数38】
及び
【数39】
の両方において非常に類似するエネルギ量を有するからである。しかしながら、ロジット関数L1(t)は、動きがビデオ会議デバイスから離れる方向にあるときには、同様に機能しない。従って、以下のように定式化される第2のロジット関数L
2(t)が利用される。
【数40】
【0064】
これは、並列に実行される両方のロジット関数について、ステップ303a~309a及び303b~309bに示されている。
【0065】
本発明を上述の例示的な実施形態と共に記載したが、本開示が与えられるときに、多くの均等な修正及び変形が当業者には明らかであろう。従って、上述の本発明の例示的な実施形態は、例示的なものであり、限定的なものではないと考えられる。本発明の精神及び範囲から逸脱することなく、記載の実施形態に対する様々な変更が行われることがある。
【先行技術文献】
【特許文献】
【0066】