(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-16
(54)【発明の名称】アクションを開始するための方法及び装置
(51)【国際特許分類】
G06F 3/01 20060101AFI20241008BHJP
G06F 3/16 20060101ALI20241008BHJP
【FI】
G06F3/01 510
G06F3/16 630
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024520952
(86)(22)【出願日】2022-09-08
(85)【翻訳文提出日】2024-04-05
(86)【国際出願番号】 EP2022074999
(87)【国際公開番号】W WO2023057166
(87)【国際公開日】2023-04-13
(32)【優先日】2021-10-07
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】ヴァーエカンプ クリスティアン
(72)【発明者】
【氏名】オーメン アーノルドゥス ウェルナー ヨハネス
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555BA01
5E555BA22
5E555BB01
5E555BB22
5E555CA41
5E555CA42
5E555CA47
5E555CB64
5E555CB65
5E555CB66
5E555CC01
5E555DA13
5E555EA22
5E555EA23
5E555FA00
(57)【要約】
装置は、デバイス又は人であるエンティティの第1及び第2の特性セットを決定する第1のセンサ101及び第2のセンサ103を含み、これらのセットは、異なるセンサモダリティに従って決定される。第1のプロセッサ105がエンティティ間の方向を決定し、第2のプロセッサ107がエンティティの向きを決定する。第1の検出器109が、方向及び少なくとも1つの向きに応答して、エンティティ間の複数の可能な双方向情報交換リンクの中から、第1の人と別のエンティティとの間の双方向情報交換リンクを検出する。イニシエータ111が、双方向情報交換リンクの検出に応答してアクションを開始する。双方向情報交換リンクの検出は、第1の特性セット及び第2の特性セットに応答するものである。
【特許請求の範囲】
【請求項1】
実世界環境内の複数のエンティティの第1の特性セットを決定する第1のセンサであって、前記第1の特性セットは、第1のセンサモダリティに従って決定され、前記複数のエンティティの各エンティティは、人又はデバイスである、第1のセンサと、
前記複数のエンティティの第2の特性セットを決定する第2のセンサであって、前記第2の特性セットは、第2のセンサモダリティに従って決定され、前記第2のセンサモダリティは前記第1のセンサモダリティとは異なる、第2のセンサと、
前記複数のエンティティのうちのエンティティ間の実世界の方向を決定する第1のプロセッサであって、2つのエンティティ間の実世界の方向は、前記実世界環境内の前記2つのエンティティのうちの1つのエンティティから、前記2つのエンティティのうちの別のエンティティへの方向である、第1のプロセッサと、
前記第1の特性セットに応答して、前記複数のエンティティのうちのエンティティの少なくとも1つの実世界の向きを決定する第2のプロセッサと、
前記実世界の方向及び前記少なくとも1つの実世界の向きに応答して、前記複数のエンティティのうちのエンティティ間の複数の可能な実世界の双方向情報交換リンクの中から、前記複数のエンティティのうちの第1の人と前記複数のエンティティのうちの別のエンティティとの間に存在する実世界の双方向情報交換リンクを検出する第1の検出器であって、前記実世界の双方向情報交換リンクは、前記第1の人から前記別のエンティティへの情報交換及び前記別のエンティティから前記第1の人への情報交換を可能にする実世界の視聴覚コミュニケーションリンクである、第1の検出器と、
前記実世界の双方向情報交換リンクの前記検出に応答してアクションを開始するイニシエータと、
を含み、
前記第1の検出器は、前記第1の特性セット及び前記第2の特性セットに応答して前記実世界の双方向情報交換リンクを検出する、装置。
【請求項2】
前記少なくとも1つの実世界の向きは、前記第1の人の実世界の向きを含む、請求項1に記載の装置。
【請求項3】
前記第1の検出器は、前記第1の人と前記別のエンティティとの間の実世界の方向に応答して前記実世界の双方向情報交換リンクを決定する、請求項1又は2に記載の装置。
【請求項4】
前記第1の検出器は、前記第1の人の実世界の向きが、前記第1の人と前記別のエンティティとの間の実世界の方向と整列しているとの検出に応答して前記実世界の双方向情報交換リンクを決定する、請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記少なくとも1つの実世界の方向は、前記別のエンティティの向きを含む、請求項1又は2に記載の装置。
【請求項6】
前記第1の検出器は、前記別のエンティティから前記第1の人への情報の放射の向きが、前記第1の人と前記別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、前記実世界の双方向情報交換リンクを決定する、請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記第1の検出器は、前記第1の人のビュー方向が、前記第1の人と前記別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、前記実世界の双方向情報交換リンクを決定する、請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記第1の人によるトリガーアクションを検出する第2の検出器を更に含み、前記イニシエータは、前記トリガーアクションに応答して前記アクションを開始する、請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記第2の検出器は、前記実世界の双方向情報交換リンクを介した前記第1の人によるコミュニケーションとして前記トリガーアクションを検出する、請求項8に記載の装置。
【請求項10】
前記第1のセンサモダリティは視覚モダリティであり、前記第2のセンサモダリティは聴覚モダリティである、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記別のエンティティは人である、請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記第1の検出器は、前記第1の人の実世界の姿勢及び前記別のエンティティの実世界の姿勢が一致基準を満たし、前記第1の人及び前記別のエンティティの少なくとも一方からの音が基準を満たしているという検出に応答して、前記実世界の双方向情報交換リンクを検出する、請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記アクションは、前記別のエンティティのアクションである、請求項1から12のいずれか一項に記載の装置。
【請求項14】
前記第1のセンサモダリティ及び前記第2のセンサモダリティは、
視覚、
聴覚、
触覚、
超音波、
赤外線、
レーダー、
タグ検出の群から選択される異なるモダリティである、請求項1に記載の装置。
【請求項15】
アクションを開始する方法であって、前記方法は、
実世界環境内の複数のエンティティの第1の特性セットを決定するステップであって、前記第1の特性セットは、第1のセンサモダリティに従って決定され、前記複数のエンティティの各エンティティは、人又はデバイスである、決定するステップと、
前記複数のエンティティの第2の特性セットを決定するステップであって、前記第2の特性セットは、第2のセンサモダリティに従って決定され、前記第2のセンサモダリティは前記第1のセンサモダリティとは異なる、決定するステップと、
前記複数のエンティティのうちのエンティティ間の実世界の方向を決定するステップであって、2つのエンティティ間の実世界の方向は、前記実世界環境内の前記2つのエンティティのうちの1つのエンティティから、前記2つのエンティティのうちの別のエンティティへの方向である、決定するステップと、
前記第1の特性セットに応答して、前記複数のエンティティのうちのエンティティの少なくとも1つの実世界の向きを決定するステップと、
前記実世界の方向及び前記少なくとも1つの実世界の向きに応答して、前記複数のエンティティのうちのエンティティ間の複数の可能な実世界の双方向情報交換リンクの中から、前記複数のエンティティのうちの第1の人と前記複数のエンティティのうちの別のエンティティとの間の実世界の双方向情報交換リンクを検出するステップであって、前記実世界の双方向情報交換リンクは、前記第1の人から前記別のエンティティへの情報交換及び前記別のエンティティから前記第1の人への情報交換を可能にする実世界の視聴覚コミュニケーションリンクである、検出するステップと、
前記実世界の双方向情報交換リンクの前記検出に応答してアクションを開始するステップと、
を含み、
前記実世界の双方向情報交換リンクの前記検出は、前記第1の特性セット及び前記第2の特性セットに応答するものである、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、エンティティ間のリンクの検出に基づいてアクションを開始するための装置及び方法に関し、特に、排他的ではないが、マンマシン対話に基づいてアクションを開始することに関する。
【背景技術】
【0002】
マンマシン対話がますます普及しており、人間とマシンとの対話に基づいた又はそれを利用した多くの新しい用途が開発されている。人間とマシンとの対話のために、音声制御が、多くの実用的な状況でより効率的でユーザフレンドリーな対話を提供するため、ますます重要になり、人気が高まっている。病院環境などの重要な環境では、非接触操作や、よりシンプルなユーザインターフェース(物理的なボタンが少なくなる)を提供することがよくある。
【0003】
一例として、人間と対話するデバイスの数が増加しており、家庭や職業環境の一部となっている。実際、家庭やオフィスには、ユーザが音声コマンドやクエリを使用することによってインターフェースできる多数の仮想アシスタント又は音声アシスタントがますます含まれるようになってきている。例としては、AmazonのAlexa、AppleのSiri、MicrosoftのCortana、及びGoogleのAssistantなどのホームアシスタントデバイスがあり、多くの家庭やオフィスで普及している。更に、音声アシスタント又はダイレクトヒューマンインターフェースが、テレビ、ラジオなどの家電機器や他のデバイスに実装されている場合がある。このようなデバイスは、異なる時間に異なる人によって操作及びアクセスされることが多く、自宅やオフィス空間など、複数の人が同時に存在する環境で使用されることが多い。
【0004】
別の例は、同じ部屋に多数のデバイスが存在することが多い医療産業である。例えば、手術室では、患者の健康状態や生物学的状態をモニタリングし、特に外科医、専門家、看護師などの医療専門家に情報を提供するために、多数のデバイスが存在して使用される。更に、比較的多数の人々がデバイスと動的に対話している可能性があり、人々とデバイスとの対話はしばしば急速かつ大幅に変化する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、複数の人と複数のデバイスとが存在する可能性のある動的な環境で使用する場合、ヒューマンマシン対話が効率的で堅牢で実用的であることが、多くのシナリオで重要になってきている。しかし、現在のシステムのほとんどは、1人の人と1つのデバイスとの直接リンクに焦点を当てている傾向があり、デバイス自体が1人の人と直接対話してコマンドや要求を検出する。しかし、このようなアプローチは多くのシナリオや用途で効率的である可能性があるが、複数のデバイスや人がいる環境ではいくつかの欠点があり、最適ではない場合がある。
【0006】
改良されたアプローチが、多くのシナリオで有利であろう。特に、操作の向上、柔軟性の増加、複雑さの軽減、実装の容易化、ユーザエクスペリエンスの向上、信頼性が高く、より堅牢な対話若しくは操作、計算負荷の軽減、適用性の拡大、操作の容易化、及び/又はパフォーマンスや操作の向上を可能にするアプローチが有利である。
【0007】
したがって、本発明は、好ましくは、上記の欠点のうちの1つ以上を、単独又は任意の組み合わせで軽減、緩和、又は排除しようと務めるものである。
【課題を解決するための手段】
【0008】
本発明のある態様によれば、装置が提供される。この装置は、実世界環境内の複数のエンティティの第1の特性セットを決定する第1のセンサであって、第1の特性セットは、第1のセンサモダリティに従って決定され、複数のエンティティの各エンティティは、人又はデバイスである、第1のセンサと、複数のエンティティの第2の特性セットを決定する第2のセンサであって、第2の特性セットは、第2のセンサモダリティに従って決定され、第2のセンサモダリティは第1のセンサモダリティとは異なる、第2のセンサと、複数のエンティティのうちのエンティティ間の実世界の方向を決定する第1のプロセッサであって、2つのエンティティ間の実世界の方向は、実世界環境内の2つのエンティティのうちの1つのエンティティから、2つのエンティティのうちの別のエンティティへの方向である、第1のプロセッサと、第1の特性セットに応答して、複数のエンティティのうちのエンティティの少なくとも1つの実世界の向きを決定する第2のプロセッサと、実世界の方向及び少なくとも1つの実世界の向きに応答して、複数のエンティティのうちのエンティティ間の複数の可能な実世界の双方向情報交換リンクの中から、複数のエンティティのうちの第1の人と複数のエンティティのうちの別のエンティティとの間に存在する実世界の双方向情報交換リンクを検出する第1の検出器であって、実世界の双方向情報交換リンクは、第1の人から別のエンティティへの情報交換及び別のエンティティから第1の人への情報交換を可能にする実世界の視聴覚コミュニケーションリンクである、第1の検出器と、実世界の双方向情報交換リンクの検出に応答してアクションを開始するイニシエータとを含み、第1の検出器は、第1の特性セット及び第2の特性セットに応答して実世界の双方向情報交換リンクを検出する。
【0009】
本発明は、多くの用途及びシナリオにおいて、ユーザエクスペリエンスの向上、並びに/又は機能及び/若しくはパフォーマンスの強化を提供する。例えば、多くの実施形態では、マンマシンインターフェースの向上が提供される。通常は、特に、複数の人及び/又はデバイスが相互に対話する環境における操作/パフォーマンス/ユーザエクスペリエンスの向上が可能になる。このアプローチでは、例えば、人と人との間、及び/又は人とデバイスとの間のコミュニケーションの対話を反映するアクションを開始することが可能になる。
【0010】
多くの実施形態では、例えば、音声制御又はジェスチャ制御に基づいてユーザ制御を向上させることによって、より堅牢で信頼性の高い、柔軟なユーザとの対話が達成される。装置は、多くのシナリオでは、2つのエンティティ間の対話を検出し、その検出に応じてシステム/デバイス、実際には、双方向情報交換リンクが検出されたエンティティのうちの1つの動作を適応させる「中間物」又は「仲介者」として機能する。時に複雑で一様ではない環境で人間が無意識に採用する作用と同様の作用が得られる。
【0011】
いくつかの実施形態では、第2のプロセッサは、第1の特性セットと第2の特性セットの両方に応答して、複数のエンティティのうちのエンティティの少なくとも1つの向きを決定する。
【0012】
いくつかの実施形態では、第2のプロセッサは、第1の特性セットに応答して複数のエンティティのうちのエンティティの少なくとも1つの向きを決定し、第1のプロセッサは、第2の特性セットに応答して複数のエンティティのうちのエンティティ間の方向を決定する。
【0013】
いくつかの実施形態では、第1のプロセッサは、第1の特性セットに応答して方向を決定する。いくつかの実施形態では、第1のプロセッサは、第2の特性セットに応答して方向を決定する。いくつかの実施形態では、第1のプロセッサは、第1の特性セットと第2の特性セットの両方に応答して方向を決定する。
【0014】
第1の特性セットと第2の特性セットの両方に依存して、第1のプロセッサ及び第2のプロセッサによって、方向と少なくとも1つの向きとの組み合わされたセットが生成される。方向と少なくとも1つの向きとの組み合わされたセットは、第1及び第2のセンサモダリティデータの両方に依存して、第1のプロセッサ及び第2のプロセッサによって生成されてもよい。
【0015】
第1の特性セット及び/又は第2の特性セットは、デバイスの電源状態、エンティティの位置、エンティティの向き、人の頭部の向き、人の目の姿勢、人の視線の方向、人のジェスチャ、エンティティの移動方向、ユーザアクション、エンティティから発せられる音、及び人からの発話の群から選択される少なくとも1つの特性を含み得る。
【0016】
イニシエータは、アクション開始コマンド又はメッセージを生成し、これをプロセッサに転送/送信することによって、アクションを開始する。
【0017】
実世界の視聴覚通信リンクとは、音及び光の少なくとも一方を使用して情報/データの通信をサポートする通信リンクである。
【0018】
本発明の任意選択の特徴では、少なくとも1つの実世界の向きは、第1の人の実世界の向きを含む。
【0019】
これにより、多くのシナリオでパフォーマンスが向上され、特に多くのシナリオ、用途、及び実施形態で双方向情報交換リンクの検出が向上される。効率的な操作が可能になり、多くの場合、機能が強化される。
【0020】
本発明の任意選択の特徴では、第1の検出器は、第1の人と別のエンティティとの間の実世界の方向に応答して実世界の双方向情報交換リンクを決定する。
【0021】
これにより、多くのシナリオでパフォーマンスが向上され、特に多くのシナリオ、用途、及び実施形態で双方向情報交換リンクの検出が向上される。効率的な操作が可能になり、多くの場合、機能が強化される。
【0022】
本発明の任意選択の特徴では、第1の検出器は、第1の人の実世界の向きが、第1の人と別のエンティティとの間の実世界の方向と整列しているとの検出に応答して実世界の双方向情報交換リンクを決定する。
【0023】
これは、多くの実施形態において特に有利な操作を提供する。多くのシナリオでは、特に第1の人を含む、ユーザのエクスペリエンスを強化するために特に適した操作の適応とアクションの開始に特に適した双方向情報交換リンクの効率的な検出が可能になる。
【0024】
第1の検出器は、向きを反映した方向ベクトルと、第1の人と別のエンティティとの間の方向を反映した方向ベクトルとを比較することによって、整列基準を評価する。例えば、方向が十分に平行である場合、例えば、所与の閾値を超えない最小角度を有する又はベクトルの正規化されたドット積が所与の閾値を下回っていない場合などに整列が存在していると考えられる。
【0025】
本発明の任意選択の特徴では、少なくとも1つの実世界の向きは、別のエンティティの向きを含む。
【0026】
これは多くの実施形態において特に有利な操作を提供し、特にアクションを開始するための適切な双方向情報交換リンクの検出を向上させることを可能にする。
【0027】
本発明の任意選択の特徴では、第1の検出器は、別のエンティティから第1の人への情報の放射の向きが、第1の人と別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、実世界の双方向情報交換リンクを決定する。
【0028】
これは多くの実施形態において特に有利な操作を提供し、特にアクションを開始するための適切な双方向情報交換リンクの検出を向上させることを可能にする。投影方向とは、具体的には別のエンティティからの情報を投影するためのメイン方向又は中心方向である。具体的には、ディスプレイ平面に直交する方向、又はスピーカ若しくはスピーカ配置の中心軸であってもよい。
【0029】
本発明の任意選択の特徴では、第1の検出器は、第1の人のビュー方向が、第1の人と別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、実世界の双方向情報交換リンクを決定する。
【0030】
これは多くの実施形態において特に有利な操作を提供し、特にアクションを開始するための適切な双方向情報交換リンクの検出を向上させることを可能にする。
【0031】
本発明の任意選択の特徴では、装置は更に、第1の人によるトリガーアクションを検出する第2の検出器を含み、イニシエータは、トリガーアクションに応答してアクションを開始する。
【0032】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0033】
本発明の任意選択の特徴では、第2の検出器は、実世界の双方向情報交換リンクを介した第1の人によるコミュニケーションとしてトリガーアクションを検出する。
【0034】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0035】
本発明の任意選択の特徴では、第1のセンサモダリティは視覚モダリティであり、第2のセンサモダリティは聴覚モダリティである。
【0036】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0037】
本発明の任意選択の特徴では、別のエンティティは人である。
【0038】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。特に、システムの適応が可能にされ、例えば、具体的には、人と人との間の双方向情報交換リンクの検出に基づいて、マンマシンインターフェースを適応させることができる。
【0039】
本発明の任意選択の特徴では、第1の検出器は、第1の人の実世界の姿勢及び別のエンティティの実世界の姿勢が一致基準を満たし、第1の人及び別のエンティティの少なくとも一方からの音が基準を満たしているという検出に応答して、実世界の双方向情報交換リンクを検出する。
【0040】
これにより、多くのシナリオでパフォーマンスが向上され、特に多くのシナリオ、用途、及び実施形態で双方向情報交換リンクの検出が向上される。効率的な操作が可能になり、多くの場合、機能が強化される。
【0041】
本発明の任意選択の特徴では、アクションは、別のエンティティのアクションである。
【0042】
本発明の任意選択の特徴では、第1のセンサモダリティ及び第2のセンサモダリティは、視覚、聴覚、触覚、超音波、赤外線、レーダー、タグ検出の群から選択される異なるモダリティである。
【0043】
いくつかの実施形態では、別のエンティティはデバイスである。
【0044】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0045】
いくつかの実施形態では、双方向情報交換リンクは、第1の人から別のエンティティへの視聴覚コミュニケーションリンクを含む。
【0046】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0047】
いくつかの実施形態では、双方向情報交換リンクは、別のエンティティから第1の人への視聴覚コミュニケーションリンクを含む。
【0048】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0049】
いくつかの実施形態では、第1のセンサは、環境内の異なる位置に複数のセンサ要素を含む。
【0050】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。
【0051】
いくつかの実施形態では、装置は更に、双方向情報交換リンクの検出に応答してユーザ指示を生成するためのユーザ出力部を含む。
【0052】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。これにより、ユーザにフィードバックを更に提供する適応が向上され、ユーザとデバイスとの組み合わされた適応が可能になる。
【0053】
いくつかの実施形態では、イニシエータは、第1の人のアイデンティティ指示を決定し、アクションの開始はアイデンティティ指示に依存する。
【0054】
これにより、多くの実施形態において、操作性、パフォーマンス、及び/又はユーザエクスペリエンスの向上が可能にされる。これにより、個々のユーザに対するユーザ適応及び最適化が向上される。
【0055】
本発明の態様によれば、アクションを開始する方法が提供される。この方法は、実世界環境内の複数のエンティティの第1の特性セットを決定するステップであって、第1の特性セットは、第1のセンサモダリティに従って決定され、複数のエンティティの各エンティティは、人又はデバイスである、決定するステップと、複数のエンティティの第2の特性セットを決定するステップであって、第2の特性セットは、第2のセンサモダリティに従って決定され、第2のセンサモダリティは第1のセンサモダリティとは異なる、決定するステップと、複数のエンティティのうちのエンティティ間の実世界の方向を決定するステップであって、2つのエンティティ間の実世界の方向は、実世界環境内の2つのエンティティのうちの1つのエンティティから、2つのエンティティのうちの別のエンティティへの方向である、決定するステップと、第1の特性セットに応答して、複数のエンティティのうちのエンティティの少なくとも1つの実世界の向きを決定するステップと、実世界の方向及び少なくとも1つの実世界の向きに応答して、複数のエンティティのうちのエンティティ間の複数の可能な実世界の双方向情報交換リンクの中から、複数のエンティティのうちの第1の人と複数のエンティティのうちの別のエンティティとの間の実世界の双方向情報交換リンクを検出するステップであって、実世界の双方向情報交換リンクは、第1の人から別のエンティティへの情報交換及び別のエンティティから第1の人への情報交換を可能にする実世界の視聴覚コミュニケーションリンクである、検出するステップと、実世界の双方向情報交換リンクの検出に応答してアクションを開始するステップとを含み、実世界の双方向情報交換リンクの検出は、第1の特性セット及び第2の特性セットに応答するものである。
【0056】
本発明のこれらの及び他の態様、特徴、及び利点は、以下に説明される実施形態から明らかになり、また、当該実施形態を参照して説明される。
【図面の簡単な説明】
【0057】
本発明の実施形態を、ほんの一例として図面を参照して以下に説明する。
【0058】
【
図1】
図1は、本発明のいくつかの実施形態による装置の構成要素の例を示す。
【
図2】
図2は、ある環境において人々が対話している例を示す。
【
図3】
図3は、環境内のオーディオ源を検出するためのビームフォーミングオーディオセンサの使用の例を示す。
【発明を実施するための形態】
【0059】
人間と対話するデバイスの存在は、日常生活の中でますます一般的になりつつあり、人間とマシンとの対話の量は急速に増加し、至る所に存在し始めている。
【0060】
例として、家若しくは家の部屋、又はオフィスは、オーディオアクション(口頭によるコマンドなど)や可視アクション(ジェスチャなど)などによって、人間によって制御できる比較的多数のデバイスを含む。複数の人が部屋にいて、音声アシスタント、ディスプレイ、オーディオ再生システムなど、様々なデバイスと対話しようとする。
【0061】
別の例として、救急車、病棟、又は手術室などの医療環境では、複数の医療専門家が音声又はジェスチャコマンドなどを介して様々なデバイスと対話しようとする。
【0062】
しかし、多くのエンティティを含む環境でのマンマシンコミュニケーションは(各エンティティは人又はデバイスである)、管理が非常に困難になる傾向があり、また、ユーザアクションの適切な特性に基づいて正しい(デバイス)アクションが開始されるようにすることはこのような環境では非常に困難になる傾向がある。
【0063】
以下では、多くの実施形態及びシナリオにおいて、複数のエンティティがある、具体的には、同じ部屋など、同じ環境に複数の人及びデバイスが存在する実世界環境(以下では、簡潔さのために実世界環境を指すために「環境」という用語を使用する)でのアクションの開始を支援するアプローチについて説明する。このアプローチは、実世界環境内の少なくとも第1の人と別のエンティティ(具体的には、環境内の別の人及び/又は別のデバイス)との間の実世界における双方向情報交換リンクを検出する装置に基づいている。実世界の双方向情報交換リンクは、情報が第1の人から他のエンティティに交換され、情報がエンティティから第1の人に交換されるリンクである。実世界の双方向情報交換リンクは、第1の人が第1のエンティティから情報を受け取り、別のエンティティに情報を提供することを可能にする。このリンクは、第1の人と他のデバイス/人との間でデータ及び情報を双方向に交換することを可能にする実世界のコミュニケーションリンクである。例えば、双方向情報交換リンクは人とディスプレイとの間に存在し、その人は音声コマンドによってディスプレイを制御し、ディスプレイはユーザが見ることができる画像を提供する。第1の人と他のエンティティとの間のリンクの検出に基づいて、アクションが開始される。
【0064】
リンクは視覚的なリンクである場合がある。例えば、双方向情報交換リンクが人とディスプレイとの間に存在し、その人は目の焦点によって拡大される画像の部分を制御できる。
【0065】
リンクはジェスチャリンクである場合がある。例えば、双方向情報交換リンクが人とロボットアームデバイスとの間に存在し、その人は手のジェスチャでロボットアームを制御できる。
【0066】
図1は、環境において検出された特性に基づいてアクションを開始できる装置の例を示している。この環境は実世界環境であり、実世界エンティティの特性と実世界対話が決定される。同様に、人及びエンティティの方向並びに向きが実世界で決定され、実世界での方向及び向きなどの実世界の方向及び/又は実世界の向きである。したがって、このような特性への以下の参照は、(仮想特性ではなく)実世界特性を参照していると考えることができる。
【0067】
装置は、実世界環境を感知する第1のセンサ101及び第2のセンサ103を含む。これらの2つのセンサ101、103は異なるモダリティを使用する。例えば、第1のセンサ101は環境の視覚情報を捕捉するカメラであり、第2のセンサ103は環境のオーディオ情報を捕捉するマイクロホンアレイである。センサは、環境の捕捉に基づいて環境の特性を決定できる。例えば、第1のセンサ101は、例えば、顔、人間、ディスプレイなどに対応する画像オブジェクトなど、環境内の可能性のあるエンティティに対応する捕捉された画像の特徴を検出する。例えば、第2のセンサは、環境内の様々なオーディオ源を判断し、また、例えば、異なるオーディオ源について、到着方向、音量、オーディオの種類(発話、音楽など)を決定する。
【0068】
装置は更に、各エンティティが人又はデバイスである実世界環境内の複数のエンティティのうちのエンティティ間の実世界の方向を決定する第1のプロセッサ105を含む。第1のエンティティから第2のエンティティへの方向(したがって、同等に、第2のエンティティから第1のエンティティへの方向)が決定され、例えばベクトルとして表現される。多くの実施形態では、第1のプロセッサは、環境内の人及びデバイスの位置など、異なるエンティティの位置を決定し、この位置から方向を決定する。第1のプロセッサ105は、センサの入力に基づいて位置及び方向を決定するか、又は、例えば、1つ以上のエンティティ用の直接ユーザ入力に基づいて方向及び/又は位置を決定する。例えば、ユーザがディスプレイや医療用モニタリング機器などの静的デバイスの位置を入力し、第1のプロセッサ105がビデオ捕捉とオーディオ捕捉に基づいて環境内の人々の位置を推定できる。別の例として、デバイスはGPSを介して又は固定具に基づいて、取り付けラックなどの既知のグリッドにそれらの位置を通信できる。その後、決定された位置から全てのエンティティ間の方向を決定できる。
【0069】
第1のセンサ101及び第2のセンサ103は更に、第1のセンサ101及び第2のセンサ103のうちの少なくとも1つによって決定された特性に基づいてエンティティの少なくとも1つの向きを決定する第2のプロセッサ107に結合されている。
【0070】
第2のプロセッサ107は通常、実世界環境内の少なくとも1人の人の実世界の向きを決定/推定する。向きは、人が向いている方向、頭部の向き、視線の方向、目の追跡方向などを反映するために決定される。したがって、人の向きは、その人の焦点の方向を示す。
【0071】
多くの実施形態では、第2のプロセッサ107は、センサデータに応答して複数のエンティティの向きを決定する。例えば、第2のプロセッサ107は、環境内のデバイスを検出し、それらが向いている方向を決定する。例えば、ディスプレイの向いている方向は、第1のセンサ101によって捕捉されたビデオに基づいて推定される。
【0072】
第1のプロセッサ105及び第2のプロセッサ107は、エンティティのうちの少なくとも1つについての変更を反映するために方向及び/又は向きを動的に更新する。具体的には、人が環境内で動く又は方向転換すると、第1のプロセッサ105及び第2のプロセッサ107は、その人の動きを反映するためにエンティティへの方向及び/又は向きを更新する。
【0073】
第1のプロセッサ105及び第2のプロセッサ107は、第1の検出器109に結合されている。第1の検出器109は、(第1の)人と別のエンティティ(以降、ターゲットエンティティと呼ぶ)との間の実世界環境での双方向情報交換リンクを検出するために、決定された方向及び向きを評価する。ターゲットエンティティは、別の人である場合もあれば、ディスプレイや医療機器若しくは装置(心電図装置、透析装置など)などのデバイスである場合もある。
【0074】
実世界の双方向情報交換リンクは、双方向情報交換のための準備ができている2つの実世界エンティティ間の実世界リンクと見なすことができる。実際の情報は、単方向性(例えば、受信エンティティからの応答のないコマンドのみ)又は双方向性(例えば、受信エンティティからの応答(例えば、画像の表示)が後に続くコマンド)のいずれかである。また、双方向情報交換リンクが確立された後、例えば医師がディスプレイの現在の状態を確認するなど、情報交換が行われない可能性もある。
【0075】
実世界の双方向情報交換リンクは、実世界で形成され、実世界空間に存在する/それを介する情報交換/伝送リンクである。これは、環境の空気を介して存在するコミュニケーションリンクであり得る。具体的には、実世界の双方向情報交換リンクは、人とエンティティとの間(人及びエンティティへの/これらから)の光及び/又は音の伝送によって形成/サポートされるリンクである。実世界の双方向情報交換リンクには、1つ以上の光学/光ベースのコミュニケーション/情報リンク及び/又は1つ以上のオーディオ/音響ベースのコミュニケーション/情報リンクが含まれる。
【0076】
検出器は、双方向情報交換リンクの検出に応答してアクションを開始するイニシエータ111に結合されている。具体的には、イニシエータ111は、アクション開始コマンドを生成し、これを具体的には別のデバイス又はエンティティである受信器に送信する。アクション開始コマンドは、アクションを開始するためのコマンドを含む。例えば、アクションの開始とは、プロセスの開始、ソフトウェアプログラム/ルーチンの開始などである。多くの実施形態では、イニシエータ111は、アクション開始コマンドをリモートデバイスに送信することによってアクションを開始できる。アクションは、具体的には(方向及び/又は向きが決定されている)複数のエンティティのうちの(デバイス)エンティティのアクションである。イニシエータ111は、複数のエンティティのうちのデバイスのアクションを、当該デバイスにアクション開始コマンド/メッセージを送信することによって開始できる。
【0077】
いくつかの実施形態では、イニシエータ111は、双方向情報交換リンクが存在することが検出されると、アクションを開始する。双方向情報交換リンクの検出により、アクションの開始がトリガーされる。例えば、所与の第1の人とデバイスのうちの1つとの間に双方向情報交換リンクが存在することが検出されると、イニシエータ111は、アクション開始コマンドを生成し、(例えば、デバイスとのアイコンタクトによってトリガーされる)双方向情報交換リンクが形成されているデバイスに送信できる。
【0078】
他の実施形態では、アクションは、トリガーが検出されると開始される。このような実施形態では、装置は、第1の人によるトリガーアクションを検出する第2の検出器113を含む。トリガーアクションは通常、センサによって生成されたデータ/特性に基づいて決定される。トリガーアクションは具体的には、オーディオセンサ又はビデオセンサからの出力を使用して、第1の人の特定の音や動きを検出することによって検出される。
【0079】
第2の検出器113は、検出されたトリガーアクションを示す指示が供給されるイニシエータ111に結合されている。トリガーアクションの検出に応答して、イニシエータ111は、アクショントリガーコマンドを適切な外部デバイスに送信することによってなど、アクションの開始に進む。
【0080】
いくつかの実施形態では、トリガーアクションの例としては、「ウェイクワード」トリガーなどの可聴キューがある。例えば、ある人が手術室で所与の医療機器を見ている場合、その人(医師など)に健康状態に関する情報などを提供する当該医療機器と双方向情報交換リンクが存在することが検出される。しかし、双方向情報交換リンクが検出されても、装置はアクションを行わない場合がある。ある時点で人/医師が適切な可聴コマンド(「検査を開始する」など)を出すと、第2の検出器113がこのキューを検出し、イニシエータ111がアクション開始コマンドを医療機器に送信する。これにより、医療機器は診断検査手順を行う。検出された双方向情報交換リンクに応じて、装置はアクション開始コマンドを送信するデバイスを決定する。例えば、「検査を開始する」という表現が検出されると、装置は、検出された双方向情報交換リンクに基づいて、複数の可能なデバイスのうちどれが検査を開始すべきかを決定する。つまり、当業者がどの他のデバイスに命令をしたいのかを決定する。
【0081】
いくつかの実施形態では、アクション開始コマンドの宛先は、双方向情報交換リンクによって異なる。例えば、具体的には、宛先は、双方向情報交換リンクを形成するデバイスである。
【0082】
いくつかの実施形態では、開始されるアクション及び/又はその特性は、双方向情報交換リンクによって異なる。例えば、送信されるコマンドは、双方向情報交換リンクが形成されるデバイスによって異なるため、コマンドは宛先デバイスに適合される。例えば「検査を開始する」という表現の可聴キューが第1の人によって発せられていることを検出すると、装置は、双方向情報交換リンクが形成されているデバイスを評価し、このデバイスに特に適したアクション開始コマンドを生成する。したがって、ユーザがコマンドの目的の受信対象物を明示的に定義することを気にすることなく、異なるコマンドを異なるデバイスに送信できる。
【0083】
いくつかの実施形態では、開始されるアクション及び/又はその特性は、トリガーアクションによって異なる。例えば第2の検出器113は、様々なトリガー表現を検出でき、検出されるトリガーに応じて、異なるアクション開始コマンドが生成され、送信される。例えばユーザが「検査1を開始する」、「検査2を開始する」、「検査3を開始する」などの表現を発するかどうかによって、イニシエータ111は、それぞれ異なる診断検査を行うように医療機器に指示する異なるアクション開始コマンドを生成する。
【0084】
異なるトリガーアクションが異なる実施形態で使用され、これらは異なるモダリティに基づいて検出され得る(特に第1のセンサ101、第2のセンサ103、又はその両方からのデータに基づいて検出され得る)ことが理解されるであろう。例えば、いくつかの実施形態では、ジェスチャや動きが、環境の視覚的な捕捉に基づいてトリガーアクションとして検出される。
【0085】
ユーザ入力アクション及びコマンドを検出するための多くの異なるアルゴリズム並びにアプローチは、当業者に知られているであろう。これらは簡潔さと明瞭さのために、本明細書では詳細を説明しない。ただし、ユーザ/人によるトリガーアクションを検出するための任意の適切なアプローチを、説明されている原理及びアプローチを損なうことなく使用できることが理解されるであろう。
【0086】
多くの実施形態では、第2の検出器113は、双方向情報交換リンクを介した第1の人によるコミュニケーションとしてトリガーアクションを検出する。トリガーアクションは、特に、第1の人から、第1の人が双方向情報交換リンクを形成したことが検出されたデバイス又は人への対話の一部であるアクションである。
【0087】
例えば、第1の人と別の人との間に双方向情報交換リンクが存在していることを、これらの人が会話していることによって検出した場合、第2の検出器113は第2のセンサのマイクロホンアレイによって捕捉された第1の人からの発話をモニタリングする。例えば、この発話の中に所定のフレーズが検出された場合、トリガーアクションが検出されたと見なされる。
【0088】
別の例として、双方向情報交換リンクが、第1の人と、第1の人が読み取ることができる情報を表示し、例えば第1の人からのジェスチャを検出するディスプレイとの間にあることが検出された場合、第2の検出器113は、そのようなジェスチャを検出するために第1の人をモニタリングする。ジェスチャを検出すると、装置はアクションを開始する。例えば装置は、別のデバイスに送信されるアクション開始コマンドを生成して、このデバイスでアクションが行われる/実行されるようにすることができる。
【0089】
いくつかの実施形態では、装置は適宜、人と別のエンティティとの間の双方向情報交換リンクを検出し、第1の人から他のエンティティへの情報に応じて、別のデバイス内のアクションを開始する。例えば、人が、ディスプレイにジェスチャやオーディオコマンドを与えると、異なるデバイスがオーディオ指示を生成する。このようなシナリオでは、装置は、人とデバイス又は他の人との間の情報交換を、事実上「傍受」し、特定のトリガーアクションが検出された場合にアクションを行うことができる。
【0090】
この装置は、複数のエンティティが共存する多くのシナリオ及び環境では、効率的なマンマシンインターフェース及び対話を提供するのに役立つ。例えば、複数の人が存在し、オーディオ又はビジュアルコマンド及び命令などに基づいてマンマシンインターフェースを使用して複数のデバイスと対話しようとする環境が存在する。例えば、手術室又は集中治療室では、患者(又は複数の患者)の健康状態をモニタリング及び評価するために使用される様々な機器が比較的多数存在する。更に、医療従事者に様々な情報を提供するための多数のデバイスが存在する場合があり、異なる専門家に向けた異なる情報を提供するいくつかのディスプレイが例として挙げられる。更に、外科医、コンサルタント/専門医、看護師など、複数の医療従事者が存在し、これらのデバイスと対話する場合がある。
【0091】
このような環境では、人々とデバイスとの間、又は異なる人々の間の対話に基づいて、信頼性が高く、効率的でユーザフレンドリーなデバイス制御を確保することは困難である。実際、各個々のデバイスが発話及び/又はジェスチャを検出するといった従来のアプローチは不十分で信頼性が低く、通常、どのアクションやデバイスを起動することを意図したものであるかに関して不確実になる傾向がある。
【0092】
説明されているアプローチは、例えば多くのデバイスや人がいるシナリオで、操作の向上を促進及び/又は可能にする。このアプローチは、例えば、エンティティ間の接続/リンクを検出し、形成された特定のリンクに基づいてアクションを開始できる「仲介者」として事実上動作する。装置は、環境を特に継続的にモニタリングし、確立される特定のリンクに応じてデバイスのうちの1つ以上(又は別のデバイス)の動作を適応させることができる。
【0093】
具体的な例として、装置は、例えば部屋全体を捕捉するカメラと、部屋の様々な位置に設置される1つ以上のマイクロホンアレイとを備える手術室に実装される。例えば、装置は部屋の複数の顔を検出し、対応する頭部の向きを決定する。このようにして、医療従事者が、医療従事者に向いているディスプレイを有する音声制御式の医療機器に向いていることが検出される。例えば、これはディスプレイの位置又は向きに関する手動入力情報に基づく場合や、カメラセンサデータなどに基づくディスプレイの自動検出に基づく場合がある。オーディオセンサに基づいて、ディスプレイに向いている間に医療従事者が話していることが更に検出され、例えばカメラセンサに基づいて、医療機器がオンになっていて情報が表示されていることが検出される。したがって、医療従事者と医療機器との間に双方向情報交換リンクが形成されていることが装置によって検出され、それに応じて、装置自体で、又は通常は特に医療機器である別のデバイスでアクションが開始される。例えば、装置は、双方向情報交換リンクが検出され、医療機器が音声コマンドに応答する必要があることを示すコマンドを医療機器に送信する。別の例として、医療機器(例えば、複雑なユーザインターフェース)に関連付けられている領域を強調表示するライトをオンにするなど、別のアクションが開始されてもよい。
【0094】
別の例として、深度センサ及び骨格検出ソフトウェア(例えば、当技術分野で知られているMicrosoftのSkeletal Tracking(商標))が、環境内で検出された各人の頭部-視線ベクトルを決定してもよい。例えば、このようなベクトルは、人間の頭部グラフィックモデルのバリエーションを使用して、3次元の耳、鼻、及び目の位置の関数として事前に計算される。検出された骨格データを所与として、装置はこの頭部-視線ベクトルを計算する。全て人の頭部位置及びこのベクトルは、頭部姿勢推定ステージの出力である。マルチマイクロホン信号解析では、捕捉デバイスに対する向きの大まかな関数として音データを提供する。いくつかの実施形態では、深度カメラ及びマイクロホンは、単一のデバイス内に配置され、デバイスは捕捉デバイスに対する方向に基づいて、音の断片を頭部姿勢に関連付ける。このような対応推定ステップの後、装置は、姿勢ベクトルの相対位置及び方向を解析することによって双方向情報交換リンクを検出する。単純な基準を使用して、音データと画像データの両方に基づく双方向情報交換リンクを確立できる。
【0095】
一例として、次のアプローチを使用して、2人の人の間の双方向情報交換リンクを検出できる:
1.入力:2つの頭部姿勢ベクトル:
2.入力:各頭部からの音
3.両方の頭部が所与の過去の時間間隔(例えば5秒)にわたって音を出し
4.2つの頭部姿勢ベクトルが反対方向に十分に平行である(例えば30度未満の角度差)場合
5.2人の間にコミュニケーションが存在する
【0096】
別の例として、人とディスプレイとの間のアクティブな双方向情報交換リンクは、次のアプローチに従うことによって検出できる:
1.入力:複数の頭部姿勢ベクトル
2.入力:各頭部からの音
3.入力:ディスプレイの位置及び向き
4.ディスプレイの法線ベクトルに最も平行で、方向が反対の頭部姿勢ベクトルを検索し
5.角度差が閾値(10度など)未満の場合
6.人とディスプレイとの間にコミュニケーションが存在する
【0097】
この双方向情報交換リンクの検出に応答して、ディスプレイには、例えば、コミュニケーションが進行中である人の小さな写真又は名前が表示されたり、ディスプレイが回転したりすることがある。或いは、3Dビューが人の方向に合わせて最適化されてもよい。
【0098】
別の応用シナリオとしては、複数の人が物理的に同じ部屋にいて、別の複数の人がオーディオ/視覚リンクを介して利用できるハイブリッドコミュニケーションシナリオがある。装置は、同じ空間内の誰かがその空間内の他の誰かと話していることに対応する双方向情報交換リンクを検出する。次に、装置は、この直接の人対人の双方向情報交換リンクの情報を、同じ空間に存在しないが、オーディオ/ビデオリンクを介するコミュニケーションを使用して接触している人々に送信するアクションを開始する。このようにして、同じ場所にいない人々に、直接の人対人のコミュニケーション(並びにコミュニケーションリンク)を通知できる。(例えば、レンダリングされたアバターの姿勢を変更することによって)例えば他の場所で誰が誰と話しているかを示すグラフィカル表現が提示される。これにより、同じ場所にいない人々の没入感が大幅に増加する。
【0099】
このアプローチは特に多くの実施形態においてパフォーマンス及び操作を向上させる。装置は、いくつかのシナリオにおいて、人間のグループが互いに対話する環境で人間が達成するものと同様の効果及び操作を提供すると考えられる。いくつかの実施形態では、装置は、人々/デバイス間の「仲介者」として機能し、環境内の様々なエンティティ間の対話/コミュニケーション/情報交換に関する追加情報を提供する。これにより、現在のシナリオへの承認された適応が可能になり、例えば、複雑なシナリオでの向上されたマンマシンインターフェースが可能になる。
【0100】
例えば、機器の音声制御を使用する主な利点は、特に病院環境では、非接触操作や、よりシンプルなユーザインターフェース(物理的なボタンが少なくなる)である。しかし、音声制御エンジンのパフォーマンスを向上させるために重要なステップが行われているが、人間とマシンとの対話は、人間と人間との対話の没入型体験からは程遠いものであり、特に複雑なシナリオでは、同じ対話の容易さ、適応性、及び信頼性を提供できない傾向がある。特に、複数の人が1つ以上のデバイスと(同時に)対話する使用事例は困難である。説明されている装置は、環境に存在する人間がシナリオを評価するために複数の情報を使用するやり方に類似したやり方で環境をモニタリング又は調査することによって、そのような例において役立つ。
【0101】
いくつかの実施形態では、このアプローチは、人間対マシンの対話の没入感を高めるため、マシン対人間の対話の差を減らすことができる。つまり、具体的には、多くのシナリオにおいて、より自然で、ユーザが別の人間と対話するやり方と同様のやり方で、ユーザがデバイスと対話することを可能にする。例えば、多くの実用的な環境、特に病院環境では、中間にいる人は、医師などが出した特定のコマンドを解釈して実行する必要がある。また、デバイスとの信頼性の高い対話には、ヘッドセットや他のオンボディデバイスが必要になる場合がある。
【0102】
現実の「人間対人間の」コミュニケーションでは、視覚的及び可聴式の様々なキューが無意識に使われている。
図2に、人間の交流の例示的なシナリオを示している。このようなシナリオでは、重要な視覚的キューは「アイコンタクト」である。人B、Cが人Aを見ているとき、人B、Cは、人Aから情報を受け取る準備ができていることを示す。人Aも人Bを見ているとき、通常、双方向コミュニケーションチャネルが確立され、人Aは人Bと直接対話する。例えばアイコンタクトを介して、2人A、Bの間に双方向コミュニケーションチャネルが確立された後、他の人Cは、人A(及び人B)から依然として情報を受け取ることができるが、人Cは、人AとBとの間のコミュニケーションがまだある間は、干渉すべきではないことを暗黙のうちにわかっている。
【0103】
装置は、人々の間、又は人々とデバイスとの間の双方向情報交換リンクを観察及び検出するために、複数の異なるモダリティを使用して環境を感知する。これにより、人間の「仲介者」が自分の感覚器官(目と耳)を使用して、誰が誰と話しているのかを判断するやり方と同様の操作を提供できる。装置は、環境内のこのような双方向情報交換リンクを検出し、リンクの存在やその特性(どのエンティティが関与しているかなど)を別のデバイスに通知するなどのアクションを開始できる。これは例えば、検出された双方向情報交換リンクの一部であり、したがって音声コマンドなどに反応する必要があるという情報を特定のデバイスに提供するなど、操作を適応させるためにデバイスが使用することがある。
【0104】
このアプローチは、装置が、特に第1の人からの可聴又は視覚キューであり得るトリガーを検出することによって更に強化される。トリガーは、アクションの生成時に考慮され、例えば、トリガーアクションが検出されるまでアクションは実行されないか、又は、アクションの特性はトリガーアクションによって異なる。トリガーアクションは、「ウェイクワード」トリガーなどの可聴キューである。
【0105】
一例として、人間のシナリオでは、人Cは、人Aの名前を呼ぶことによって人Aの注意を引く。典型的な人対人のコミュニケーションでは、人Cが可聴キューを発するかどうか、また、いつ発するかは、視覚キューの状態、具体的には人Aが人Bと依然としてアイコンタクトを取っているかどうか、又は人A又は人Bがまだ活発にコミュニケーションをとっているかどうかによって決まる。説明されている装置は、例えば、双方向情報交換リンクが存在するかどうか、及びアクションを行うためにトリガーアクションが行われたかどうかを検出するために様々なモダリティが評価される同様の操作を達成することを可能にする。
【0106】
双方向情報交換リンクを検出するための特定のアルゴリズム及び基準は、特定の所望の操作及びパフォーマンスに応じて、実施形態によって異なる。
【0107】
一般に、双方向情報交換リンクの検出は、エンティティ間の方向と、少なくとも1つ(多くの場合は複数又は全て)のエンティティの向きとに基づいている。
【0108】
多くの実施形態では、第1のプロセッサは最初に、考慮される全てデバイス及び/又は人の現在位置を決定する。これは例えば、カメラやマイクロホンの位置などのセンサ位置、マイクロホンアレイ、及びセンサから検出された様々なアイテムへの方向を提供する物体検出の知識に基づいている。例えば、カメラの場合、人や関連するデバイス(例えば、検出及び識別に役立つように光学的に検出可能なステッカーをデバイスに貼り付ける場合を含め、光学的特性によって識別されるディスプレイ又は他のデバイス)に対応する物体を検出するために画像物体検出を行うことができる。同様に、マイクロホンアレイの場合、オーディオ源が検出される。ビームフォーミング重みからこれらへの方向が検出可能である。既知のセンサ位置から推定される方向に基づいて、人及び/又はデバイスの推定位置を推定できる。
【0109】
いくつかの実施形態では、位置の一部又は全部は、例えばユーザが位置データを明示的に入力することによってなど、ユーザの入力に応じて決定される。いくつかの実施形態では、専用の位置決定プロセスが行われる。例えば、ディスプレイは、検出及び識別を容易にする特定の画像を表示し、容易に検出できる特定の音が出力する。
【0110】
位置に基づいて、デバイス間の方向が決定される。これらは例えばベクトルによって表現される。2つのエンティティ間の(実世界の)方向は、実世界環境内の2つのエンティティのうちの1つのエンティティから2つのエンティティのうちの別のエンティティへの(実世界環境内の)方向である。いくつかの実施形態では、例えば、ベクトルの始点と長さでそれぞれ表現されるエンティティ間の位置及び/又は距離も考慮される。
【0111】
位置は静的又は動的に更新される。実際、多くの実施形態では、静的位置で表されるエンティティ(静的デバイスなど)もあれば、常に変化する位置で表されるエンティティ(人など)もある。これに対応して、一定である方向(例えば静的デバイス間)もあれば、動的に変化し、動的に更新されるエンティティ間の方向もある。
【0112】
更に、第2のプロセッサ107は、実世界環境内の1つ以上のエンティティの向きを決定する。例えば、顔認識及び/又は骨格追跡などに基づいて、人間の全て向きが決定される。多くの実施形態では、デバイスの向きが考慮される。これらは、例えば、センサ入力に基づいて推定されるか、又は、例えば、一部若しくは全てデバイスについて自動的に推定される。例えば、第1のセンサ101のカメラで捕捉された画像内のディスプレイの画像物体のサイズ及び形状を評価して、ディスプレイの向き、したがって、ディスプレイがどの方向に画像を投影しているのかを決定できる。
【0113】
(実世界の)向き及び方向は、実世界環境に適用される座標系を参照して決定される。したがって、座標系の座標/姿勢は、現実世界環境での座標/姿勢と直接的に一致する。
【0114】
いくつかの実施形態では、第1の検出器109は、例えば第1の人と双方向情報交換リンクに関与していないデバイスとの間の方向を考慮した基準を使用して、双方向情報交換リンクを検出する。例えば、第1の人が部屋の特定のマーカー(プレースホルダ)を見ている場合、その位置は双方向情報交換リンクが確立されている実際のデバイスの位置に対応していない(デバイスは第1の人には見えない場合がある)。
【0115】
多くの実施形態では、第1の検出器109は、第1の人とデバイス又は人との間の方向に応答して双方向情報交換リンクを決定する。特に、第1の検出器109は、第1の人と別のデバイスとの間の方向が、第1の人の向きと一致するかどうかを検出する。
【0116】
例えば、基準は、第1の人から部屋の全てデバイスへの方向を決定する。次に、顔の向き/方向、及び/又は目の視線の向き/方向が決定される。次に、様々なデバイスへの方向を評価して、いずれかの方向が第1の人の向きと整列するかどうかが確認される。整列要件が満たされている場合、特に、デバイスのうちのあるデバイスへの方向と、第1の人の向き方向との角度差が所与の閾値を下回る場合、第1の人とデバイスとの間の双方向情報交換リンクが検出されたと考えることができる。このような要件は、基本的に、第1の人がデバイスに向いているという検出に対応しており、特に第1の人がデバイスに集中している、例えば、デバイスを見ている又はデバイスに話しかけているという検出に対応している。したがって、第1の人と、顔/目の視線方向にあるデバイスとの間に双方向情報交換リンクが検出されたと考えられる。第1の人の向きは通常は、ビュー方向である。ビュー方向は、その人が見ている方向の指示/推定値である。
【0117】
具体的には、第1の人の向きが第1の人と第1のデバイス/人との間の方向と一致している場合(例えば、これらの間の角度が閾値(5°、10°、15°など)未満である場合)、第1の人と第1のデバイス/人との間に双方向情報交換リンクが形成されていることが検出されたと考えられる。第1の人から(及び/又は第2の人から)オーディオ又はジェスチャが検出されること、及び/又は第2のデバイスからオーディオが出ている若しくは画像を表示していることが検出されることなどの更なる要件が含まれる場合がある。
【0118】
いくつかの実施形態では、他のエンティティが第1の人に向いていること、つまり、第1の人と関わるデバイス又は人物が第1の人と他のデバイス又は人との間の方向と整列していることが検出されてもよい。第2の人の向きは、特に向いている向き、つまり、頭部が向いている向き、及び/又は視線の向きである。第2のデバイスの向きは、特に(情報)投影又は放射の向きである。例えば、ディスプレイの場合、向きはディスプレイ平面に垂直な方向であり、スピーカの場合、向きは主な音放射方向である。
【0119】
具体的には、第2のデバイス又は人の向きが第2のデバイス/人と第1の人との間の方向と一致している場合(例えば、これらの間の角度が閾値(5°、10°、15°など)未満である場合)、これにより、第1の人と第2のデバイス/人との間に双方向情報交換リンクが形成されていることが検出されたと考えられる。第1の人から(及び/又は第2の人から)オーディオ又はジェスチャが検出されること、及び/又は第2のデバイスからオーディオが出ている若しくは画像を表示していることが検出されることなどの更なる要件が含まれる場合がある。
【0120】
多くの実施形態では、第1の人の向きと第2の人/デバイスの向きの両方が、第1の人と第2の人/デバイスとの間の方向と整列している必要がある。
【0121】
いくつかの実施形態では、第1の検出器109は、第1の人の姿勢及び第2の人又はデバイスの姿勢が一致基準を満たし、任意選択で第1の人及び双方向情報交換リンクの他のエンティティのうちの少なくとも1つからの音が基準を満たす(そして、多くの場合、その両方)との検出に応答して、双方向情報交換リンクを検出する。
【0122】
いくつかの実施形態では、一致基準は、2つのエンティティの向きを表すベクトル間の角度が所与の量(例えば5°、10°、15°)未満であるが、方向が反対であるようなものである。例えば、一致基準は、向きを表すベクトル間の正規化されたドット積が負であり、所与の閾値(0.8、0.9、0.95など)を下回らない大きさを有するという要件に対応する。
【0123】
音の基準は、第1の人が所与の閾値(例えば、所与の時間における平均)を下回らない音量の音を放射することであるか、及び/又は第2の人/デバイスが所与の閾値(例えば、所与の時間における平均)を下回らない音量の音を放射する。
【0124】
多くのシナリオにおいて、このようなアプローチ及び検出は、2人の人、又は実際には1人の人と1つのデバイスとが互いに積極的に関わっているという信頼できる指示を提供する。これは、2つのエンティティが向き合い、互いに集中しながら、情報を交換していることの信頼できる指示を提供する。
【0125】
2つの方向の間、又は方向と向きとの間の整列を考慮する場合、装置が、方向/向きがどれだけ平行であるかだけを考慮する実施形態もあれば、評価された方向/向きが同じ方向を向いているかどうかも考慮する実施形態もある。方向/向き間に形成された最小角度に基づいて整列が判定される実施形態もあれば、整列にはこれらが同じ方向を指しているかどうかも考慮される実施形態もある。2つの方向間又は方向と向きとの間のドット積の大きさに単調に依存するパラメータが考慮される実施形態もあれば、2つの方向間又は方向と向きとの間の(符号付き)ドット積に単調に依存するパラメータが代替的に又は追加的に考慮される実施形態もある。
【0126】
前述のように、装置は異なるモダリティを使用して様々な特性を決定して、双方向情報交換リンクを検出する。前述のように、(少なくとも)2つのセンサモダリティは、視覚モダリティ及び聴覚モダリティであり得る。具体的には、1つ以上のカメラを使用して、環境内の人及び/又はデバイスの位置並びに向きが検出される。
【0127】
例えば、人間の姿勢推定を使用して、2D画像から人の集中方向を検出できる。例えば、典型的な人間の頭部の既知のサイズから頭部の3D位置を決定できる。カメラの光学軸に対する頭部の向きの部分は、顔の特徴の相対的な画像位置と典型的な3D頭部モデルとのそれらの関係によって決定できる。最後に、「仮想の頭部」を、ワールド座標系に対する捕捉カメラの既知の(例えば事前に較正された)姿勢を使用して、3D空間のほぼ正確な場所及び向きに配置できる。代案として、Azure Kinectにあるような深度センサを使用して同じことを達成することもできる。例えば、Azure Kinect Body Tracking SDKは、人間の骨格関節の位置を3D空間に出力する。ワールド空間に対するAzure Kinectの深度センサの姿勢を知ることで、ワールド空間のポイントを直接表現できる。人間の視線ベクトルを、2つの耳の位置に直交し、2つの耳を結ぶ線の中間から鼻の方向に外側に指し示して構築できる。同様に、カメラの検出に基づいて、人が行ったジェスチャを認識できる。
【0128】
マイクロホン(特にマイクロホンアレイや指向性マイクロホンなど)は、環境内の音をモニタリングするために使用され、また、(例えば、異なる声を区別する音声パターンによって、又はオーディオの受信方向を検出し、視覚ベースの位置検出と連携することによって)特に誰が話しているかを特定するために使用される。
【0129】
例えば、オーディオ/マイクロホンの捕捉モダリティの場合、ビームフォーミングを使用して話している1人の人又は複数の人を分離し、任意選択でマイクロホンからの2D又は3Dの方向を決定し、したがって、位置を決定できる。これは、話している人を検出するために使用され、それによって人に(名前やタイトルなどを用いて)注釈を付けることができる。このようなアプローチは、例えば、初期登録手順に基づいている。オーディオモダリティ及びセンサは、特定の地域で音を追跡するために使用でき、これは、例えば、除外ゾーンや優先ゾーンの使用を可能にする。
【0130】
例えば、マイクロホンセンサの集合体を戦略的に配置することで、時間/位相差を使用してコヒーレントソースの方向を決定できる。適応ディレイアンドサムビームフォーミング(DSB)又はフィルタアンドサムビームフォーミング(FSB)を使用すると、感度の高いビームが移動している可能性のあるスピーカに向けられる。
図3は、集束された追跡ビームを複数のソースに同時に向け、また、同時に、高速追跡ビームを使用することによって、新しいソースの領域をスキャンできるマルチビームFSBソリューションの例を示す。FSBフィルタのフィルタ係数に基づいて、マイクロホン形状に対する各ビームの角度を決定できる。
【0131】
別のモダリティの例として、所与のセンサ位置からの深度がある。例えば、深度センサを使用して、複数の人の3D骨格点をリアルタイムで検出できる。このようなシステムを1つ以上使用すると、人の頭部の姿勢をリアルタイムで推測できる。そして、このような検出及び推定を使用して、様々な人々のコミュニケーションの意図を推定し、双方向情報交換リンクを検出できる。例えば、推定された頭部の姿勢は骨格データから導出され、様々なデバイス(ディスプレイなど)の既知/推定位置に関して評価される。
【0132】
モダリティの他の例には、超音波、赤外線、レーダー、タグ検出がある。
【0133】
異なるモダリティを使用した異なるセンサによって使用される正確なアプローチ及び当該センサによって決定される特性は、個々の実施形態の優先傾向及び要件によって異なる。同様に、双方向情報交換リンクを検出するためのアプローチ、例えば方向や位置を決定するためのアプローチも、個々の実施形態の優先傾向及び要件によって異なる。
【0134】
例えば、センサからの特性には、デバイスの電源状態、エンティティの位置、エンティティの向き、人の頭部の向き、人の目の姿勢、人の視線の方向、人のジェスチャ、エンティティの移動方向、ユーザアクション、エンティティから発せられる音、及び人からの発話のうちの1つ以上があり、及び/又は双方向情報交換リンクを検出するためのアプローチは、これらのうちの1つ以上を考慮する。
【0135】
多くの実施形態では、双方向情報交換リンクは、第1の人から、双方向情報交換リンクを形成するデバイス/他の人への視聴覚コミュニケーションリンクを含む。視聴覚リンクとは、オーディオ及び/又は視覚情報が2つの方向に交換されるリンクである。視聴覚リンクは、実世界環境で形成される。視聴覚リンクは、実世界環境で伝播する音及び/又は光によってそのまま形成される。
【0136】
典型的な例としては、人がディスプレイにコマンドを話しかけ、このディスプレイが、第1の人が見る表示情報を適応させることで応答することである。別の例としては、第1の人がジェスチャ入力を使用して医療機器などを制御し、この制御機器が、第1の人が聞くことができる音又は発話で応答することである。多くの実施形態では、双方向情報交換リンクは、オーディオとビデオの両方を少なくとも一方向に伝送するコミュニケーションリンクである。例えば、ディスプレイが音を出すこともできるし、医療機器が第1の人によるジェスチャと音声コマンドの両方を検出することもできる。
【0137】
したがって、多くの実施形態では、双方向情報交換リンクは、第1の人からデバイス/他の人への、及び/又はデバイス/他の人から第1の人への視聴覚コミュニケーションリンクを含む。例えば、双方向情報交換リンクが、2人の人が互いに直接話していることを反映している場合、通常、オーディオ情報と視覚情報の両方が両方向で交換される。
【0138】
いくつかの実施形態では、センサのうちの少なくとも1つが、環境内の異なる位置に複数のセンサ要素を含む。センサ要素は互いに離れていてもよく、例えば、少なくとも1メートル、2メートル、5メートル、又は一部の用途では10メートルの最小距離で配置される。
【0139】
例えば、マイクロホン(又はマイクロホンアレイ)を部屋の様々な場所に配置し、異なるマイクロホンから捕捉されたオーディオ信号を使用して、双方向情報交換リンクを検出できる。例えば、異なる位置で捕捉されたオーディオに基づいて、例えば、単にどのマイクロホンが最も大きなオーディオを検出するかを検出することによって、又は、適応ビームフォーミングマイクロホンのビームを三角測量することなどによってユーザの位置を決定できる。
【0140】
別の例として、全てのエリアの視認性を高めるように、また、例えば、人又はデバイスが他の人又はデバイスをブロックするリスクを軽減するようにカメラを部屋の周りの様々な位置に配置する。例えば、ある人を複数のカメラで追跡し、人の頭部の向きは、頭部が最も鮮明であるカメラに基づいて決定される。
【0141】
いくつかの実施形態では、装置は、双方向情報交換リンクの検出に応答してユーザ指示を生成するためのユーザ出力部を含む。例えば、新しい双方向情報交換リンクが検出されると、装置はアラートを生成する。このアラートは、単に双方向情報交換リンクが検出されたことを示すか、又は、特にどの他の人若しくはエンティティが双方向情報交換リンクの形成の一部であるかなど、双方向情報交換リンクの一部の特性を示すこともある。このアラートは、例えば、手術室で検出されたデバイスの名前やタイプを音声で伝えることができ、装置は、特定の医療機器がオーディオ入力を受信するコマンドを送信したことを装置が示す。例えば、装置は「ECGモニタ、コマンド準備完了」という文を発する。他の例では、装置は単にオーディオ又はライトアラートを生成する。
【0142】
したがって、装置は、部屋のユーザに情報を提供するフィードバック機構を含む。例えば、可聴確認応答を提供したり、ロゴやLED(赤、オレンジ、緑など)を使用して画面に視覚的な指示を表示したりできる。音の多い環境である傾向があるヘルスケア(HC)環境では、視覚的な指示が好ましい場合が多い。
【0143】
フィードバックの確認応答後、多くの実施形態では、人はその特定のデバイスに焦点を合わせ続ける必要はなく、むしろ、双方向情報交換リンクが検出された後、デバイスが音声入力を受信することが有効にされたと考えることができる。このステータスは、例えば、同じ人に対して新しい双方向情報交換リンクが検出されるまで維持される。
【0144】
いくつかの実施形態では、イニシエータ111は、双方向情報交換リンクに含まれる第1の人のアイデンティティ指示を決定する。例えば、カメラに基づいて、双方向情報交換リンクが検出された人を特定するために顔検出が適用される。或いは又は追加的に、イニシエータ111は、捕捉されたオーディオに基づいて、1つ以上のマイクロホンで捕捉されたオーディオから話者のアイデンティティを検出してもよい。例えば、イニシエータ111は、ビデオ又はオーディオから決定されたシグニチャと、特定のアイデンティティにリンクされた保存済みのシグニチャとを比較する。シグニチャ間の一致が十分に正確である場合、第1の人は保存済みのシグニチャにリンクされた人であると特定されると見なされる。
【0145】
イニシエータ111は更に、決定されたアイデンティティ指示に応じてアクションを開始する。いくつかの実施形態では、アクションは、アイデンティティ指示が、アクションを行う可能性のある人として以前に選択された人を示している場合にのみ開始される。したがって、いくつかの実施形態では、アクションは、特定されたユーザがアクションを行う資格のあるユーザである場合にのみ開始される。例えば、特定の医療機器は、特定の医療専門家/コンサルタントのみが操作できる。この場合、第1の人が医療機器と双方向情報交換リンクを形成していることが検出されると、アクションが医療機器に送信されるが、第1の人がその特定の医療専門家/コンサルタント(以前に承認されている)である場合に限る。
【0146】
いくつかの実施形態では、開始されるアクションは、アイデンティティ指示に応じて適応される。具体的な例として、アクションは人によって修正される。例えば、特定された特定の人の好みに合わせてディスプレイの音量が適応される。別の例として、アクション開始コマンドは、特に双方向情報交換リンクが形成されているデバイスなど、別のエンティティに送信される。例えば、アクション開始コマンドには、検出されたアイデンティティを示すデータが含まれ、これにより、デバイスは特定のユーザに合わせて操作を適応させることができる。
【0147】
実世界の方向、実世界の向き、実世界エンティティ、実世界環境、実世界の双方向情報交換リンクとの用語に置き換えられる可能性がある方向、向き、エンティティ、環境、双方向情報交換リンクなどの用語を含む全て論点及び用語は、実世界との用語に置き換えられる可能性がある。
【0148】
明確にするための上記の説明は、様々な機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明していることが理解されるであろう。しかしながら、本発明を損なうことなく、様々な機能回路、ユニット、又はプロセッサ間で適切に機能を分配できることは明らかである。例えば、別々のプロセッサ又はコントローラによって実行されるものと説明される機能が、同じプロセッサ又はコントローラによって実行されてもよい。したがって、特定の機能ユニット又は回路への参照は、厳密な論理若しくは物理構造又は組織を示すのではなく、説明された機能を提供するための適切な手段への参照としてのみ見なされる。
【0149】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む、任意の適切な形式で実装できる。本発明は、任意選択で、1つ以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の実施形態の要素及び構成要素は、任意の適切なやり方で物理的、機能的、及び論理的に実装できる。実際に、機能は、1つのユニット、複数のユニット、又は他の機能ユニットの一部として実装できる。したがって、本発明は、1つのユニットに実装することも、異なるユニット、回路、及びプロセッサ間で物理的且つ機能的に分散させることもできる。
【0150】
本発明は、いくつかの実施形態に関連して説明されているが、本明細書に記載される特定の形態に限定されることを意図していない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるものである。更に、ある特徴が特定の実施形態に関連して説明されているように見える場合もあるが、当業者であれば、説明される実施形態の様々な特徴を本発明に従って組み合わせてもよいことを認識するであろう。特許請求の範囲では、「含む」という用語は、他の要素やステップの存在を排除するものではない。
【0151】
更に、個別にリストされているが、複数の手段、要素、回路又は方法ステップは、例えば1つの回路、ユニット、又はプロセッサによって実装できる。更に、個々の特徴が異なる請求項に含まれている場合があるが、これらの特徴を有利に組み合わせることもでき、様々な請求項における包含は、特徴の組み合わせが実現可能ではない及び/又は有利ではないことを示唆するものではない。また、請求項の1つのカテゴリにおける特徴の包含は、このカテゴリの限定を示唆するものではなく、むしろ、必要に応じて、特徴が他の請求項カテゴリにも同様に適用できることを示している。更に、請求項における特徴の順序は、特徴が機能する必要がある特定の順序を示唆するものではなく、特に、方法の請求項における個々のステップの順序は、この順序でステップを実行する必要があることを示唆するものではない。むしろ、ステップは、任意の適切な順序で実行できる。また、単数形の参照は、複数形の参照を排除するものではない。したがって、単数形の要素は、複数形を排除するものではない。特許請求の範囲における参照符号は、明確にするための例としてのみ提供されており、これらの例は、いかようにも特許請求の範囲を限定するものと解釈されるべきではない。
【0152】
一般的に、装置及び方法の例を以下の実施形態で示す。
【0153】
実施形態:
1.環境内の複数のエンティティの第1の特性セットを決定する第1のセンサ(101)であって、第1の特性セットは、第1のセンサモダリティに従って決定され、複数のエンティティの各エンティティは、人又はデバイスである、第1のセンサ(101)と、
複数のエンティティの第2の特性セットを決定する第2のセンサ(103)であって、第2の特性セットは、第2のセンサモダリティに従って決定され、第2のセンサモダリティは第1のセンサモダリティとは異なる、第2のセンサ(103)と、
複数のエンティティのうちのエンティティ間の方向を決定する第1のプロセッサ(105)と、
第1の特性セットに応答して、複数のエンティティのうちのエンティティの少なくとも1つの向きを決定する第2のプロセッサ(107)と、
方向及び少なくとも1つの向きに応答して、複数のエンティティのうちのエンティティ間の複数の可能な双方向情報交換リンクの中から、複数のエンティティのうちの第1の人と複数のエンティティのうちの別のエンティティとの間の双方向情報交換リンクを検出する第1の検出器(109)と、
双方向情報交換リンクの検出に応答してアクションを開始するイニシエータ(111)と、
を含み、第1の検出器(109)は、第1の特性セット及び第2の特性セットに応答して双方向情報交換リンクを検出する、装置。
2.少なくとも1つの向きは、第1の人の向きを含む、請求項1に記載の装置。
3.第1の検出器(109)は、第1の人と別のエンティティとの間の方向に応答して双方向情報交換リンクを決定する、請求項1又は2に記載の装置。
4.第1の検出器(109)は、第1の人の向きが、第1の人と別のエンティティとの間の方向と整列しているとの検出に応答して双方向情報交換リンクを決定する、請求項1から3のいずれか一項に記載の装置。
5.少なくとも1つの向きは、別のエンティティの向きを含む、請求項1又は2に記載の装置。
6.第1の検出器(109)は、別のエンティティから第1の人への投影向きが、第1の人と別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、双方向情報交換リンクを決定する、請求項1から5のいずれか一項に記載の装置。
7.第1の検出器(109)は、第1の人のビュー方向が、第1の人と別のエンティティとの間の方向と整列しているという要件を含む基準に応答して、双方向情報交換リンクを決定する、請求項1から6のいずれか一項に記載の装置。
8.第1の人によるトリガーアクションを検出する第2の検出器(113)を更に含み、イニシエータ(111)は、トリガーアクションに応答してアクションを開始する、請求項1から7のいずれか一項に記載の装置。
9.第2の検出器(113)は、双方向情報交換リンクを介した第1の人によるコミュニケーションとしてトリガーアクションを検出する、請求項8に記載の装置。
10.第1のセンサモダリティは視覚モダリティであり、第2のセンサモダリティは聴覚モダリティである、請求項1から9のいずれか一項に記載の装置。
11.別のエンティティは人である、請求項1から10のいずれか一項に記載の装置。
12.第1の検出器(109)は、第1の人の姿勢及び別のエンティティの姿勢が一致基準を満たし、第1の人及び別のエンティティの少なくとも一方からの音が基準を満たしているという検出に応答して、双方向情報交換リンクを検出する、請求項1から11のいずれか一項に記載の装置。
13.アクションは、別のエンティティのアクションである、請求項1から12のいずれか一項に記載の装置。
14.第1のセンサモダリティ及び第2のセンサモダリティは、
視覚、
聴覚、
触覚、
超音波、
赤外線、
レーダー、
タグ検出の群から選択される異なるモダリティである、請求項1に記載の装置。
15.アクションを開始する方法であって、
環境内の複数のエンティティの第1の特性セットを決定するステップであって、第1の特性セットは、第1のセンサモダリティに従って決定され、複数のエンティティのうちの各エンティティは、人又はデバイスである、決定するステップと、
複数のエンティティの第2の特性セットを決定するステップであって、第2の特性セットは、第2のセンサモダリティに従って決定され、第2のセンサモダリティは第1のセンサモダリティとは異なる、決定するステップと、
複数のエンティティのうちのエンティティ間の方向を決定するステップと、
第1の特性セットに応答して、複数のエンティティのうちのエンティティの少なくとも1つの向きを決定するステップと、
方向及び少なくとも1つの向きに応答して、複数のエンティティのうちのエンティティ間の複数の可能な双方向情報交換リンクの中から、複数のエンティティのうちの第1の人と複数のエンティティのうちの別のエンティティとの間の双方向情報交換リンクを検出するステップと、
双方向情報交換リンクの検出に応答してアクションを開始するステップと、
を含み、
双方向情報交換リンクの検出は、第1の特性セット及び第2の特性セットに応答するものである、方法。
【国際調査報告】