(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024155703
(43)【公開日】2024-10-31
(54)【発明の名称】3次元空間におけるユーザポーズの推定装置及び方法
(51)【国際特許分類】
G06T 7/70 20170101AFI20241024BHJP
G06T 7/579 20170101ALI20241024BHJP
【FI】
G06T7/70 Z
G06T7/579
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023208694
(22)【出願日】2023-12-11
(31)【優先権主張番号】10-2023-0051461
(32)【優先日】2023-04-19
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和5年3月13日 [米国電気電子学会(IEEE) センサーズジャーナル(SENSORS JOURNAL)第23巻、第8号、2023年4月15日 PP.8613-8629] サイト https://ieeexplore.ieee.org/document/10068431
(71)【出願人】
【識別番号】314000442
【氏名又は名称】高麗大学校産学協力団
【氏名又は名称原語表記】KOREA UNIVERSITY RESEARCH AND BUSINESS FOUNDATION
【住所又は居所原語表記】145, Anam-ro Seongbuk-gu Seoul 02841, Republic of Korea
(74)【代理人】
【識別番号】110000383
【氏名又は名称】弁理士法人エビス国際特許事務所
(72)【発明者】
【氏名】都 洛珠
(72)【発明者】
【氏名】金 周亨
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096AA09
5L096BA05
5L096CA04
5L096DA02
5L096FA66
5L096FA67
5L096FA69
5L096GA30
5L096HA11
5L096JA03
5L096KA04
(57)【要約】 (修正有)
【課題】現実空間で取得されたデータに基づいて構築された3次元空間情報と、ユーザ装置が時間順に順次取得したユーザ情報とを活用して、ユーザポーズの推定の正確度及びロバスト性を向上させる3次元空間におけるユーザポーズの推定装置及び方法を提供する。
【解決手段】3次元空間におけるユーザポーズの推定装置200は、現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認する相対ポーズ確認部と、現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、取得した3次元空間モデルに基づいてポーズ候補推定情報を生成し、生成したポーズ候補推定情報と生成した相対ポーズ推定情報とを相互に連携してユーザポーズを推定するユーザポーズ推定部と、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認する相対ポーズ確認部と、
前記現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、前記取得された3次元空間モデルに基づいてポーズ候補推定情報を生成し、前記生成されたポーズ候補推定情報と前記取得された相対ポーズ推定情報とを相互に連携してユーザポーズを推定するユーザポーズ推定部と、を含むことを特徴とする、3次元空間におけるユーザポーズの推定装置。
【請求項2】
前記ユーザポーズ推定部は、前記3次元空間モデルをなす前記イメージ情報と前記複数のイメージとの間の類似度を計算し、前記計算された類似度に基づいてイメージクラスタを構成し、前記イメージクラスタに該当する複数の特徴と前記複数のイメージのいずれか1つのイメージの特徴とをマッチングし、各クラスタ毎に特徴マッチングを通じて推定したポーズからポーズ候補を生成し、前記生成されたポーズ候補に対する前記ポーズ候補推定情報を生成することを特徴とする、請求項1に記載の3次元空間におけるユーザポーズの推定装置。
【請求項3】
前記ユーザポーズ推定部は、前記相対ポーズ推定情報と前記ポーズ候補推定情報とを相互に連携してポーズ仮説セットを生成し、前記生成されたポーズ仮説セットから確率及び/又は点数を算出し、前記算出された確率及び/又は点数に基づいて前記ユーザポーズを推定することを特徴とする、請求項1に記載の3次元空間におけるユーザポーズの推定装置。
【請求項4】
前記ユーザポーズ推定部は、前記相対ポーズ推定情報に基づくローカルマップ情報、及び前記ポーズ候補推定情報に基づく特徴マッチング情報を用いて、ローカルマップの実測比率であるスケール(scale)仮説を確立し、前記確立されたスケール仮説に対して前記複数のイメージ毎に収束性を考慮してポーズ仮説セットを生成することを特徴とする、請求項3に記載の3次元空間におけるユーザポーズの推定装置。
【請求項5】
前記ユーザポーズ推定部は、前記複数のイメージのうち第1イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、第2イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、最後のイメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択した第1ポーズ仮説セットを生成し、前記第1イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記第2イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記最後のイメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択した第2ポーズ仮説セットを生成することを特徴とする、請求項4に記載の3次元空間におけるユーザポーズの推定装置。
【請求項6】
前記空間情報は、深さ測定装置、映像取得装置、無線通信装置、慣性装置、及び位置情報測定装置のうちの少なくとも1つを用いて取得されることを特徴とする、請求項1に記載の3次元空間におけるユーザポーズの推定装置。
【請求項7】
前記3次元空間モデルは、前記空間情報を取得した装置のポーズ又は3次元点群データを再建し、前記複数の特徴に含まれたイメージを情報化して表現するグローバル特徴、特徴点情報を含むローカル特徴、及び3次元情報を用い、
前記3次元情報は、3次元位置、方向、法線方向及び意味論的種類の情報のうちの少なくとも1つを含むことを特徴とする、請求項2に記載の3次元空間におけるユーザポーズの推定装置。
【請求項8】
前記相対ポーズ推定情報は、前記複数のイメージ間の特徴点情報であるローカル特徴を活用して構成された3次元ローカルマップに基づいて、前記複数のイメージから相対ポーズが推定され、相対座標系の原点及び方向が定義され、前記複数のイメージに対して選別されたキーフレームに対して選択的に相対ポーズが推定されて生成されることを特徴とする、請求項1に記載の3次元空間におけるユーザポーズの推定装置。
【請求項9】
相対ポーズ確認部において、現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認するステップと、
ユーザポーズ推定部において、前記現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、前記取得された3次元空間モデルに基づいてポーズ候補推定情報を生成し、前記生成されたポーズ候補推定情報と前記確認された相対ポーズ推定情報とを相互に連携してユーザポーズを推定するステップとを含むことを特徴とする、3次元空間におけるユーザポーズの推定方法。
【請求項10】
前記ユーザポーズを推定するステップは、
前記3次元空間モデルをなす前記イメージ情報と前記複数のイメージとの間の類似度を計算し、前記計算された類似度に基づいてイメージクラスタを構成し、前記イメージクラスタに該当する複数の特徴と前記複数のイメージのいずれか1つのイメージの特徴とをマッチングし、各クラスタ毎に特徴マッチングを通じて推定したポーズからポーズ候補を生成し、前記生成されたポーズ候補に対する前記ポーズ候補推定情報を生成するステップを含むことを特徴とする、請求項9に記載の3次元空間におけるユーザポーズの推定方法。
【請求項11】
前記ユーザポーズを推定するステップは、
前記相対ポーズ推定情報及び前記ポーズ候補推定情報に基づいてポーズ仮説セットを生成し、前記生成されたポーズ仮説セットから確率及び/又は点数を算出し、前記算出された確率及び/又は点数に基づいて前記ユーザポーズを推定するステップを含むことを特徴とする、請求項9に記載の3次元空間におけるユーザポーズの推定方法。
【請求項12】
前記ユーザポーズを推定するステップは、
前記相対ポーズ推定情報に基づくローカルマップ情報、及び前記ポーズ候補推定情報に基づく特徴マッチング情報を用いて、ローカルマップの実測比率であるスケール(scale)仮説を確立し、前記確立されたスケール仮説に対して前記複数のイメージ毎に収束性を考慮してポーズ仮説セットを生成するステップを含むことを特徴とする、請求項11に記載の3次元空間におけるユーザポーズの推定方法。
【請求項13】
前記ポーズ仮説セットを生成するステップは、
前記複数のイメージのうち第1イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、第2イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、最後のイメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択した第1ポーズ仮説セットを生成し、前記第1イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記第2イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記最後のイメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択した第2ポーズ仮説セットを生成するステップを含むことを特徴とする、請求項12に記載の3次元空間におけるユーザポーズの推定方法。
【請求項14】
前記相対ポーズ推定情報は、前記複数のイメージ間の特徴点情報であるローカル特徴を活用して構成された3次元ローカルマップに基づいて、前記複数のイメージから相対ポーズが推定され、相対座標系の原点及び方向が定義され、前記複数のイメージに対して選別されたキーフレームに対して選択的に相対ポーズが推定されて生成されることを特徴とする、請求項9に記載の3次元空間におけるユーザポーズの推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2023年04月19日付の韓国特許出願第10-2023-0051461号に基づく優先権の利益を主張し、当該韓国特許出願の文献に開示された全ての内容は本明細書の一部として組み込まれる。
【0002】
本発明は、3次元空間におけるユーザポーズの推定装置及び方法に関し、より具体的には、現実空間で取得されたデータに基づいて構築された3次元空間情報と、ユーザ装置が時間順に順次取得したユーザ情報とを活用して、ユーザポーズの推定の正確度及びロバスト性を向上させる技術に関する。
【背景技術】
【0003】
イメージ情報及び空間情報を活用してユーザポーズを推定する方法と関連して、伝統的には、映像情報を用いる方式、地形情報と映像情報とを混合して用いる方式が多く用いられた。
【0004】
カメラあるいはこれと類似の動作原理を有する映像測定装置を活用して映像情報を取得するか、ライダー(LiDAR)あるいはこれと類似の動作原理を有する深さ測定装置を活用して点群情報を取得するか、キネクト(Kinect)あるいはこれと類似の動作原理を有する映像深さ測定装置を活用して色点群情報を取得するか、またはこれらの組み合わせで現実空間を表現する空間情報を構成し、類似の方法でユーザが取得したユーザ情報を空間情報と比較してユーザポーズを推定する方法がある。
【0005】
しかし、このような従来の技術は、次のように様々な問題点が存在する。
【0006】
第一に、空間情報構築用データの取得時点と、ユーザポーズ推定用センサ情報の取得時点との差による情報の変化が、ユーザポーズの推定の正確度を低下させることがある。
【0007】
時点の差により、動的オブジェクトの存在の有無、インテリアやオブジェクトの変化及び移動、環境の明るさや照明などの変化などが発生することがある。このような変化は、情報の類似性を低下させ、ポーズの推定の正確度を低下させることがある。
【0008】
第二に、空間情報をなすデータの取得時点の情報量に応じて、ユーザポーズの推定の正確度を低下させることがある。
【0009】
理想的には、空間内の全てのポーズでデータを取得する場合、情報量が多くなり、これによって、ユーザが取得する情報と類似度の高いデータを探し易くなることによって、正確度を高めることができる。
【0010】
しかし、現実的には、空間情報の取得時間、処理可能容量、計算の効率性などを考慮してデータを取得するようになり、これは、情報量が十分でない可能性があることを意味し、ポーズの推定時に、類似度が低い情報により、正確度の低下を引き起こすことがある。
【0011】
第三に、イメージ情報を用いたポーズの推定時に1枚のイメージを用いる場合、精度を低下させることがある。
【0012】
空間情報内でユーザのイメージ情報と類似した複数のデータが存在し得、類似度が高い複数のデータを活用したポーズの推定時に、複数の互いに異なるポーズ候補が生成され得る。
【0013】
これは、複数のポーズ候補のうち任意の一つを選択しなければならない問題が発生し、誤った選択は精度を低下させることがある。
【0014】
したがって、上述したような空間情報に基づいてユーザポーズを推定する際に発生する既存の問題点を解決できる空間情報を構成する方法、及びこれを活用したユーザポーズの推定方法に対する必要性が台頭している。
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は、現実空間で取得されたデータに基づいて構築された3次元空間情報と、ユーザ装置が時間順に順次取得したユーザ情報とを活用して、ユーザポーズの推定の正確度及びロバスト性を向上させることを目的とする。
【0016】
本発明は、小さな部屋のサイズの空間だけでなく、空港、大規模複合ショッピングモール、野外道路空間などの大規模空間でもデータを取得し、空間情報を効率的に構築することによって、ポーズ推定の安定性を向上させることを目的とする。
【0017】
本発明は、順次的なイメージ情報を含め、時間順に取得したユーザ装置のセンサ情報を、個別のイメージ情報及び空間情報と相互に連携して用いることによって、1枚のイメージ情報あるいは単数の情報を通じて得ることができる情報よりも多くの情報を活用することによって、ユーザポーズの推定に対する正確度及びロバスト性を向上させることを目的とする。
【0018】
本発明は、拡張現実(Augmented Reality)、複合現実(Mixed Reality)でユーザポーズを推定する際、自律走行ロボット、自律走行モビリティなどに対するポーズを推定する際などに活用することができ、当該技術の商用化及び発展に寄与することを目的とする。
【課題を解決するための手段】
【0019】
本発明の一実施例によれば、3次元空間におけるユーザポーズの推定装置は、現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認する相対ポーズ確認部と、前記現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、前記取得された3次元空間モデルに基づいてポーズ候補推定情報を生成し、前記生成されたポーズ候補推定情報と前記生成された相対ポーズ推定情報とを相互に連携してユーザポーズを推定するユーザポーズ推定部とを含むことができる。
【0020】
前記ユーザポーズ推定部は、前記3次元空間モデルをなす前記イメージ情報と前記複数のイメージとの間の類似度を計算し、前記計算された類似度に基づいてイメージクラスタを構成し、前記イメージクラスタに該当する複数の特徴と前記複数のイメージのいずれか1つのイメージの特徴とをマッチングし、各クラスタ毎に特徴マッチングを通じて推定したポーズからポーズ候補を生成し、前記生成されたポーズ候補に対する前記ポーズ候補推定情報を生成することができる。
【0021】
前記ユーザポーズ推定部は、前記相対ポーズ推定情報と前記ポーズ候補推定情報とを相互に連携してポーズ仮説セットを生成し、前記生成されたポーズ仮説セットから確率及び/又は点数を算出し、前記算出された確率及び/又は点数に基づいて前記ユーザポーズを推定することができる。
【0022】
前記ユーザポーズ推定部は、前記相対ポーズ推定情報に基づくローカルマップ情報、及び前記ポーズ候補推定情報に基づく特徴マッチング情報を用いて、ローカルマップの実測比率であるスケール(scale)仮説を確立し、前記確立されたスケール仮説に対して前記複数のイメージ毎に収束性を考慮してポーズ仮説セットを生成することができる。
【0023】
前記ユーザポーズ推定部は、前記複数のイメージのうち第1イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、第2イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、最後のイメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択した第1ポーズ仮説セットを生成し、前記第1イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記第2イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記最後のイメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択した第2ポーズ仮説セットを生成することができる。
【0024】
前記空間情報は、深さ測定装置、映像取得装置、無線通信装置、慣性装置、及び位置情報測定装置のうちの少なくとも1つを用いて取得することができる。
【0025】
前記3次元空間モデルは、前記空間情報を取得した装置のポーズ又は3次元点群データを再建し、前記複数の特徴に含まれたイメージを情報化して表現するグローバル特徴、特徴点情報を含むローカル特徴、及び3次元情報を用いることができる。
【0026】
前記3次元情報は、3次元位置、方向、法線方向及び意味論的種類の情報のうちの少なくとも1つを含むことができる。
【0027】
前記相対ポーズ推定情報は、前記複数のイメージ間の特徴点情報であるローカル特徴を活用して構成された3次元ローカルマップに基づいて、前記複数のイメージから相対ポーズが推定され、相対座標系の原点及び方向が定義され、前記複数のイメージに対して選別されたキーフレームに対して選択的に相対ポーズが推定されて生成され得る。
【0028】
本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法は、相対ポーズ確認部において、現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認するステップと、ユーザポーズ推定部において、前記現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、前記取得された3次元空間モデルに基づいてポーズ候補推定情報を生成し、前記生成されたポーズ候補推定情報と前記確認された相対ポーズ推定情報とを相互に連携してユーザポーズを推定するステップとを含むことができる。
【0029】
前記ユーザポーズを推定するステップは、前記3次元空間モデルをなす前記イメージ情報と前記複数のイメージとの間の類似度を計算し、前記計算された類似度に基づいてイメージクラスタを構成し、前記イメージクラスタに該当する複数の特徴と前記複数のイメージのいずれか1つのイメージの特徴とをマッチングし、各クラスタ毎に特徴マッチングを通じて推定したポーズからポーズ候補を生成し、前記生成されたポーズ候補に対する前記ポーズ候補推定情報を生成するステップを含むことができる。
【0030】
前記ユーザポーズを推定するステップは、前記相対ポーズ推定情報及び前記ポーズ候補推定情報に基づいてポーズ仮説セットを生成し、前記生成されたポーズ仮説セットから確率及び/又は点数を算出し、前記算出された確率及び/又は点数に基づいて前記ユーザポーズを推定するステップを含むことができる。
【0031】
前記ユーザポーズを推定するステップは、前記相対ポーズ推定情報に基づくローカルマップ情報、及び前記ポーズ候補推定情報に基づく特徴マッチング情報を用いて、ローカルマップの実測比率であるスケール(scale)仮説を確立し、前記確立されたスケール仮説に対して前記複数のイメージ毎に収束性を考慮してポーズ仮説セットを生成するステップを含むことができる。
【0032】
前記ポーズ仮説セットを生成するステップは、前記複数のイメージのうち第1イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、第2イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、最後のイメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択した第1ポーズ仮説セットを生成し、前記第1イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記第2イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記最後のイメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択した第2ポーズ仮説セットを生成するステップを含むことができる。
【0033】
前記相対ポーズ推定情報は、前記複数のイメージ間の特徴点情報であるローカル特徴を活用して構成された3次元ローカルマップに基づいて、前記複数のイメージから相対ポーズが推定され、相対座標系の原点及び方向が定義され、前記複数のイメージに対して選別されたキーフレームに対して選択的に相対ポーズが推定されて生成され得る。
【発明の効果】
【0034】
本発明は、現実空間で取得されたデータに基づいて構築された3次元空間情報と、ユーザ装置が時間順に順次取得したユーザ情報とを活用して、ユーザポーズの推定の正確度及びロバスト性を向上させることができる。
【0035】
本発明は、小さな部屋のサイズの空間だけでなく、空港、大規模複合ショッピングモール、野外道路空間などの大規模空間でもデータを取得し、空間情報を効率的に構築することによって、ポーズ推定の安定性を向上させることができる。
【0036】
本発明は、順次的なイメージ情報を含め、時間順に取得したユーザ装置のセンサ情報を、個別のイメージ情報及び空間情報と相互に連携して用いることによって、1枚のイメージ情報あるいは単数の情報を通じて得ることができる情報よりも多くの情報を活用することによって、ユーザポーズの推定に対する正確度及びロバスト性を向上させることができる。
【0037】
本発明は、拡張現実(Augmented Reality)、複合現実(Mixed Reality)でユーザポーズを推定する際、自律走行ロボット、自律走行モビリティなどに対するポーズを推定する際などに活用することができ、当該技術の商用化及び発展に寄与することができる。
【図面の簡単な説明】
【0038】
【
図1A】本発明の一実施例に係る3次元空間情報を含む3次元空間モデルを説明する図である。
【
図1B】本発明の一実施例に係る3次元空間情報を含む3次元空間モデルを説明する図である。
【
図2】本発明の一実施例に係る3次元空間におけるユーザポーズの推定装置を説明する図である。
【
図3】本発明の一実施例に係る相対ポーズ情報に基づくローカルマップと3次元空間情報との相互連携方法を説明する図である。
【
図4】本発明の一実施例に係る時間順に順次取得される複数のイメージを含むユーザ情報を用いたユーザポーズの推定に対する性能の改善を説明する図である。
【
図5】本発明の一実施例に係る時間順に順次取得される複数のイメージを含むユーザ情報を用いたユーザポーズの推定に対する性能の改善を説明する図である。
【
図6】本発明の一実施例に係る時間順に順次取得される複数のイメージを含むユーザ情報を用いたユーザポーズの推定に対する性能の改善を説明する図である。
【
図7】本発明の一実施例によってポーズ候補推定情報及び相対ポーズ推定情報に基づくポーズ仮説セットを生成して、ユーザポーズを推定する方法を説明する図である。
【
図8】本発明の一実施例によって仮説セットを通じてユーザポーズベースのユーザポーズ推定の確率の計算及び数値化を説明する図である。
【
図9】本発明の一実施例によって時間順に順次取得される複数のイメージに基づくデータ活用の例示を説明する図である。
【
図10】本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法を説明する図である。
【
図11】本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法を説明する図である。
【発明を実施するための形態】
【0039】
本明細書に開示されている本発明の概念による実施例についての特定の構造的又は機能的な説明は、単に本発明の概念による実施例を説明するための目的で例示されたものであって、本発明の概念による実施例は、様々な形態で実施可能であり、本明細書に説明された実施例に限定されない。
【0040】
本発明の概念による実施例は、様々な変更を加えることができ、様々な形態を有することができるので、実施例を図面に例示し、本明細書で詳しく説明する。しかし、これは、本発明の概念による実施例を特定の開示形態に対して限定しようとするものではなく、本発明の思想及び技術範囲に含まれる変更、均等物、または代替物を含む。
【0041】
「第1」又は「第2」などの用語は様々な構成要素を説明するのに 用いられるが用いられるが、前記構成要素は、前記用語によって限定されてはならない。前記用語は、一つの構成要素を他の構成要素から区別する目的でのみ、例えば、本発明の概念による権利範囲から逸脱しないまま、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素と命名することができる。
【0042】
ある構成要素が他の構成要素に「連結されて」いるとか、「接続されて」いると言及された際には、その他の構成要素に直接的に連結又は接続されていることもあるが、その構成要素間に他の構成要素が存在することもあると理解されなければならない。反面、ある構成要素が他の構成要素に「直接連結されて」いるとか、「直接接続されて」いると言及された際には、その構成要素間に他の構成要素が存在しないものと理解されなければならない。構成要素間の関係を説明する表現、例えば、「~間に」と「すぐ~間に」又は「~に直接隣接する」なども同様に解釈されなければならない。
【0043】
本明細書で使用した用語は、単に特定の実施例を説明するために用いられたもので、本発明を限定しようとする意図ではない。単数の表現は、文脈上明らかに別の意味を示すものでない限り、複数の表現を含む。本明細書において、「含む」又は「有する」などの用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを指定しようとするものであって、1つ又はそれ以上の他の特徴や数字、段階、動作、構成要素、部分品またはこれらを組み合わせたものの存在又は付加可能性をあらかじめ排除しないものと理解されなければならない。
【0044】
別に定義されない限り、技術的又は科学的な用語を含めてここで用いられる全ての用語は、本発明の属する技術分野における通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる辞書に定義されている用語は、関連技術の文脈上有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明らかに定義しない限り、理想的又は過度に形式的な意味として解釈されない。
【0045】
図1A及び
図1Bは、本発明の一実施例に係る3次元空間情報を含む3次元空間モデルを説明する図である。
【0046】
図1A及び
図1Bは、本発明の一実施例に係る3次元空間情報を含む3次元空間モデルを例示する。
【0047】
図1Aを参照すると、SfM方法を通じて作られた結果イメージ100を示し、
図1Bを参照すると、SLAM方法を通じて作られた結果イメージ110を示す。
【0048】
イメージ100及びイメージ110は、空間情報であって、映像または深さ-映像連携情報を用いて構成された現実空間を仮想に再建した情報を含むこともできる。
【0049】
また、空間情報は、obj、x3dなどが生成されたモデルまたはTeeVRモデルを含むこともできる。
【0050】
3次元仮想空間モデルを構成するために、背景部分と非背景部分とを区分して背景部分を活用することもできる。
【0051】
併せて、3次元仮想空間モデルは、室内空間と室外空間の両方を含む概念であって、独立した室内空間、独立した室外空間、または室内と室外が連結された空間であってもよい。
【0052】
3次元仮想空間モデルにobj、x3dなどのようなモデル(人、事物など)を追加することもでき、モデルが追加された3次元仮想空間モデルも含む概念であり得、次元を下げて2次元仮想空間モデルとして用いることもできる。
【0053】
3次元空間モデルは、事前に構築されたobj、x3dのようなモデルを用いてもよく、空間データを取得して3次元空間モデルを構築して用いてもよく、または事前に構築されたモデルを更新して用いてもよい。
【0054】
3次元空間モデルは、現実空間と類似すると判断され得、ユーザ情報は、映像情報が含まれた情報であって、映像測定装置を1つ以上含み、深さ測定装置又は付加装置などを用いて取得することができる。
【0055】
ユーザ情報は、単一又は複数の映像センサ(カメラなど)で取得することができ、ピンホール(pin-hole)モデルや魚眼レンズなどの形態で取得されてもよい。
【0056】
単一の映像情報、または時間順にあるいは順次取得された映像情報、またはそれらの組み合わせなどとして取得され得、取得したユーザ情報を用いて、映像情報、深さ情報、または深さ-映像連携情報などを構成することができる。
【0057】
例えば、単一の映像測定装置を使用する場合、イメージのような映像情報を取得することができる。
【0058】
順次取得された映像情報(イメージ)を用いて深さ情報を計算することができ、これを通じて、深さと映像の連携情報を構成することができる。
【0059】
例えば、複数の映像測定装置を使用する場合、各映像測定装置で取得された映像情報及び映像測定装置間の関係を活用して深さ情報を計算することができ、これを通じて、深さ-映像連携情報を構成することができる。
【0060】
映像測定装置間の関係は、映像測定装置間のキャリブレーション(Calibration)情報、または各映像測定装置で取得された映像情報間の変換情報(Homography matrix)であってもよい。
【0061】
例えば、少なくとも1つ以上の映像測定装置、及び少なくとも1つ以上の深さ測定装置を使用する場合、2つの装置間のキャリブレーション情報を用いて深さ-映像連携情報を構成することができる。
【0062】
深さ予測ディープラーニング(Deep Learning)モデルを活用して映像情報から深さ情報を抽出することもできる。学習及び試験のための多数のデータが必要であり得る。
【0063】
繰り返し学習を行うこともでき、パラメータチューニングが必要となることもある。深さ予測モデルで抽出された深さ情報を活用して深さ-映像連携情報を構成することができる。
【0064】
映像情報を加工した、加工された映像情報を用いることもでき、例えば、イメージの明暗、彩度などを変化させたり、パノラマイメージを矯正イメージ(Rectified Image)に変換させる作業などが行われてもよい。
【0065】
ユーザ付加情報とは、ユーザが取得した映像情報以外に、ユーザポーズを推定するのに役立つこともある情報であって、慣性情報(inertial measurement unit、IMU)、距離情報(odometry)などで構成され得る。
【0066】
一例として、慣性測定装置を使用して慣性情報の取得が可能な場合に、映像情報の処理時に映像取得ポーズに対する推定(prediction)情報として用いることで、映像取得ポーズに対する補正(correction)がより容易になるようにすることができる。
【0067】
また、慣性情報の加速度値あるいは角速度値を活用して実際の移動距離を予想することができ、これを、単一あるいは複数の映像測定装置から抽出された深さ情報の大きさ(scale)を補正するのに活用することもできる。
【0068】
距離情報は、ユーザが取得した映像情報に基づいて構成されたVO(Visual Odometry)、VIO(Visual Inertial Odometry)を活用して予測した距離情報であり得、車輪型移動ロボットに測定装置を取り付けてユーザ情報を取得する場合、距離情報は移動ロボットの距離情報であり得る。
【0069】
慣性情報から距離情報を導出してもよく、あるいは慣性情報を活用して、前記方法により抽出された距離情報を補正するのに活用してもよい。
【0070】
また、GPSやGNSSセンサなどから受信した絶対ポーズを介して、距離情報を推定又は補正するのに活用することもできる。
【0071】
距離情報を用いて、順次取得されたイメージ間の相対ポーズを示すことができる。
【0072】
より正確には、各イメージが取得されたときの映像取得装置のポーズを、距離情報を用いて示すことができる。
【0073】
図2は、本発明の一実施例に係る3次元空間におけるユーザポーズの推定装置を説明する図である。
【0074】
図2は、本発明の一実施例に係る3次元空間におけるユーザポーズの推定装置の構成要素を例示する。
【0075】
図2を参照すると、本発明の一実施例に係る3次元空間におけるユーザポーズの推定装置200は、相対ポーズ確認部240、ユーザポーズ推定部250、及び制御部260を含む。
【0076】
一例として、3次元空間におけるユーザポーズの推定装置200は、空間情報取得部210、空間モデル構築部220、及びユーザ情報取得部230をさらに含むことができる。
【0077】
例えば、空間情報取得部210は、空間情報を取得する装置から空間情報を取得する構成であってもよい。
【0078】
一方、空間モデル構築部220は、空間情報を取得する装置から空間情報の伝達を受けて空間モデルを構築する構成であってもよい。
【0079】
また、ユーザ情報取得部230は、ユーザ情報を取得する装置からユーザ情報を取得する構成であってもよい。
【0080】
制御部260は、ユーザポーズの推定装置200の構成要素を制御し、ディスプレイ、センサ及び通信構成を制御する少なくとも1つのプロセッサを含むことができる。
【0081】
本発明の一実施例によれば、ユーザポーズの推定装置200は、現実空間で取得されたデータに基づいて構築された3次元空間情報と、ユーザ装置が時間順に順次取得したユーザ情報とを活用して、ユーザポーズの推定の正確度及びロバスト性を向上させることができる。
【0082】
本発明の一実施例によれば、空間情報取得部210は、現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を取得することができる。
【0083】
一例として、空間情報取得部210は、深さ測定装置、映像取得装置、無線通信装置、慣性装置、及び位置情報測定装置のうちの少なくとも1つを用いて前記空間情報を取得することができる。
【0084】
本発明の一実施例によれば、空間モデル構築部220は、空間情報を活用して、複数の特徴(feature)に対する3次元情報を含む3次元空間モデルを構築することができる。
【0085】
例えば、3次元空間モデルは現実空間に対応し、特徴(feature)はフィーチャーと称することができる。
【0086】
一例として、空間モデル構築部220は、空間情報を取得した装置のポーズ又は3次元点群データを再建し、前記複数の特徴に含まれたイメージを情報化して表現するグローバル特徴、特徴点情報を含むローカル特徴、及び3次元情報を用いることができる。
【0087】
3次元情報は、3次元位置、方向、法線方向及び意味論的種類の情報のうちの少なくとも1つを含むことができる。
【0088】
本発明の一実施例によれば、ユーザ情報取得部230は、現実空間でユーザ装置に基づいて時間順に複数のイメージを含むユーザ情報を取得することができる。
【0089】
一例として、ユーザ情報取得部230は、深さ測定装置、映像取得装置、無線通信装置、慣性装置、及び位置情報測定装置のうちの少なくとも1つを用いて順次的な空間情報を取得することができる。
【0090】
本発明の一実施例によれば、ユーザ情報取得部230は、複数のイメージを3次元情報に対する補完情報として活用するものの、複数のイメージに対してキーフレーム(keyframe)を選別することができる。
【0091】
本発明の一実施例によれば、相対ポーズ確認部240は、複数のイメージ間の相対ポーズを推定して相対ポーズ推定情報を生成する。
【0092】
一例として、相対ポーズ確認部240は、複数のイメージ間の特徴点情報であるローカル特徴を活用して3次元ローカルマップを構成し、複数のイメージから相対ポーズを推定し、相対座標系の原点及び方向を定義し、キーフレームに対して選択的に相対ポーズを推定することができる。
【0093】
一例として、相対ポーズ推定情報は、複数のイメージ間の特徴点情報であるローカル特徴を活用して構成された3次元ローカルマップに基づいて、複数のイメージから相対ポーズが推定され、相対座標系の原点及び方向が定義され、複数のイメージに対して選別されたキーフレームに対して選択的に相対ポーズが推定されて生成され得る。
【0094】
例えば、相対ポーズ確認部240は、相対ポーズを推定する相対ポーズ推定装備から受信される相対ポーズ情報を取得して確認する構成であってもよい。
【0095】
本発明の一実施例によれば、ユーザポーズ推定部250は、構築された3次元空間モデルに基づいてポーズ候補推定情報を生成し、生成されたポーズ候補推定情報と生成された相対ポーズ推定情報とを相互に連携してポーズ仮説セットを生成し、生成されたポーズ仮説セットを用いてユーザポーズを推定することができる。
【0096】
一例として、ユーザポーズ推定部250は、3次元空間モデルをなすイメージ情報と複数のイメージとの間の類似度を計算し、計算された類似度に基づいてイメージクラスタを構成し、イメージクラスタに該当する複数の特徴と複数のイメージのいずれか1つのイメージの特徴とをマッチングし、各クラスタ毎に特徴マッチングを通じて推定したポーズからポーズ候補を生成し、生成されたポーズ候補に対するポーズ候補推定情報を生成することができる。
【0097】
本発明の一実施例によれば、ユーザポーズ推定部250は、相対ポーズ推定情報及びポーズ候補推定情報に基づいてポーズ仮説セットを生成し、生成されたポーズ仮説セットから確率及び/又は点数を算出し、算出された確率及び/又は点数に基づいてユーザポーズを推定することができる。
【0098】
一例として、ユーザポーズ推定部250は、相対ポーズ推定情報に基づくローカルマップ情報、及びポーズ候補推定情報に基づく特徴マッチング情報を用いて、ローカルマップの実測比率であるスケール(scale)仮説を確立し、確立されたスケール仮説に対して複数のイメージ毎に収束性を考慮してポーズ仮説セットを生成することができる。
【0099】
ユーザポーズ推定部250は、複数のイメージのうち第1イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、第2イメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択し、最後のイメージに対する複数のポーズ候補のいずれか1つのポーズ候補を選択した第1ポーズ仮説セットを生成することができる。
【0100】
ユーザポーズ推定部250は、前記第1イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記第2イメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択し、前記最後のイメージに対する複数のポーズ候補の前記いずれか1つのポーズ候補と異なるポーズ候補を選択した第2ポーズ仮説セットを生成することができる。
【0101】
したがって、本発明は、現実空間で取得されたデータに基づいて構築された3次元空間情報、及びユーザが取得したユーザ情報を活用して、ユーザポーズを推定することができる。
【0102】
また、本発明は、小さな部屋のサイズの空間だけでなく、空港、大規模複合ショッピングモール、野外道路空間などの大規模空間でもデータを取得し、空間情報を効率的に構築することによって、ポーズ推定の安定性を向上させることができる。
【0103】
空間情報取得部210は、3次元空間情報を構築するためのデータの取得時に、映像取得装置を使用するか、または深さ取得装置などを連携した装置を通じて空間情報を取得することができる。
【0104】
カメラあるいはこれと類似の動作原理の映像取得装置、LiDARあるいはこれと類似の動作原理の深さ測定装置などで構成された測定装置の視野角(FoV、Field of View)が現実空間を確保することができる経路で空間情報(Database)を取得すれば、3次元空間情報は、現実空間と類似に構成され得、空間情報の取得時間、空間情報の容量、データ処理速度などが低減できるので、効率的である。
【0105】
映像情報は、3次元空間に対する2次元イメージであって、2自由度あるいは3自由度の基底ベクトル(basis vector)で表現可能な形態を有することができ、カメラのように2次元あるいは3次元形態のデータであるイメージを取得する形態、またはカメラに赤外線フィルタを装着して3次元情報を2次元で表現した形態であってもよい。
【0106】
深さ情報は、3自由度の基底ベクトルで表現可能な点形態を有し、深さ測定装置を使用して取得されてもよい。
【0107】
相対ポーズ確認部240及びユーザポーズ推定部250は、互いに異なる場所で撮影された2つ以上のイメージを活用して推定されてもよい。
【0108】
ユーザ情報取得部230は、深さ測定装置を通じて測定される深さ情報の例としては、ライダー(LiDAR)、ソナー(SONAR)、赤外線(InfraRed)、TOF(Time Of Flight)距離探知機を通じて取得された深さ情報がある。
【0109】
互いに異なる場所で撮影された2つ以上のイメージを活用して推定される後者の例としては、ステレオカメラ、多重カメラ、全方向ステレオカメラなどを通じて取得された深さ情報がある。
【0110】
一方、Kinect、JUMP、PrimeSense、Project Beyondなどのデバイスを利用すれば、深さ情報及び映像情報を同時に取得することもできる。
【0111】
例えば、ユーザポーズ推定部250は、深さ測定装置を通じて取得した深さ情報だけでなく、内挿法(interpolation)を通じて深さ情報を新たに推定して使用することもできる。
【0112】
より具体的には、複数の取得深さ情報の中で3つ以上の深さ情報を選別して多角形(三角形を含む)メッシュ(Mesh)を構成した後、その多角形メッシュの内部に内挿法を通じて新たな深さ情報を推定して追加することができる。
【0113】
一方、本発明の一実施例に係る取得深さ情報及び映像情報は、統合センサ装置(システム)を用いて同時に取得されてもよい。
【0114】
複数の測定装置を使用する場合、センサ間の座標関係を求めるキャリブレーション過程が必要となり得る。
【0115】
空間データを取得する過程において慣性測定装置などを追加で使用してもよく、車輪型移動ロボットにセンサを取り付けて測定する場合には距離情報(odometry)を活用してもよい。
【0116】
現実空間が測定装置の視野角よりも広い場合、センサの回転、移動、またはこれらを組み合わせて空間データを取得することができる。
【0117】
このとき、個別の空間データが取得された3次元ポーズ(pose)がそれぞれ異なり得、個別の空間データが取得されたポーズを予測するために、SfM(Structure from Motion)、スラム(SLAM、Simultaneous Localization And Mapping)、映像-慣性距離情報(VIO、Visual Inertial Odometry)、映像距離情報(VO、Visual Odometry)などの技法を活用することができる。
【0118】
このとき、ポーズは、位置(position)と方向(orientation)の両方を含む概念である。
【0119】
すなわち、ユーザポーズの推定装置は、現実空間でイメージが含まれた情報に基づいて3次元座標系でのイメージなどのデータを収集する測定装置の位置及び方向を含むユーザポーズを推定する。
【0120】
一方、SfMを行う前に、SLAMなどの方法を行ってSfMのための初期ポーズ情報を作ることができる。初期ポーズ情報を活用したSfMを行うことで、様々な環境の空間で安定的に空間情報を構築することができる。
【0121】
一方、空間情報の構成は、測定装置の種類によって異なり得る。
【0122】
例えば、測定装置が単一のカメラのみで構成された場合、事前測定情報はカメラ映像情報で構成され、当該映像情報を活用して、単一のカメラである場合にはピクセル間の相対的距離を、複数のカメラである場合にはピクセル間の絶対距離を予測することができる。
【0123】
特に、特徴点を抽出しなくても、単一のカメラの場合は、累積した映像情報を活用してピクセルの深さを予測することができ、複数のカメラの場合は、複数のカメラ映像やその累積した映像情報を活用してピクセルの深さを予測することもできる。
【0124】
さらに、追加の深さ情報、慣性情報などの情報が共に活用される場合、各測定装置の固有の特性に合うように空間情報の処理が可能となり得る。
【0125】
例えば、慣性測定装置を使用して慣性情報が取得可能な場合、これを活用してスラムの性能を向上させたり、映像情報の処理時に映像取得地点に対する推定(prediction)情報として用いて、映像取得地点に対する補正(correction)がより容易になるようにすることができる。
【0126】
また、慣性情報の加速度値あるいは角速度値を活用して実際の移動距離を予想することができ、これを、単一のカメラあるいは複数のカメラから抽出された深さ情報の大きさ(scale)を補正するのに活用することもできる。
【0127】
3次元空間情報を構築するために取得するデータは、現実空間の一部のポーズで取得される。理想的に3次元空間内で全ての位置及び方向でデータを取得すると、3次元空間内の全てのデータを取得することができるが、現実的には不可能であるため、一部のポーズでデータを取得する。
【0128】
追加のデータを人為的に合成あるいは生成して空間情報として活用することができる。一例として、空間データを取得したポーズ以外のポーズでのデータを作るために、NeRF(Neural Radiance fields)などの技術を用いて人為的なデータを合成又は生成することができる。
【0129】
また、同じ目的で仮想空間モデルを構築し、モデル内で所望のポーズのデータを合成又は生成することができる。これを通じて、空間データを取得していないポーズでも、空間情報と類似の対応情報を生成することができる。
【0130】
3次元空間情報には、空間情報を構築する際に用いられたイメージから抽出した特徴(feature)情報を含むことができる。
【0131】
特徴情報は、ローカル特徴(local feature)情報あるいは特徴点(keypoint)情報を含むことができる。
【0132】
ローカル特徴情報は、ローカル特徴のインデックス(index)やID(id)、あるいはイメージ上の位置、あるいは記述語(descriptor)、あるいは3次元空間上の位置、あるいはこれらの組み合わせを含むことができる。
【0133】
ローカル特徴の記述語は、1次元ベクトルの形態、あるいは2次元マトリックスの形態、あるいはそれ以上の次元のテンソルの形態の情報であってもよい。
【0134】
それだけでなく、ローカル特徴情報は、ローカル特徴の方向情報、あるいは法線方向、あるいは意味論的(semantic)情報などの情報も含むことができる。また、空間情報内の各ローカル特徴、及びこれを観測する1枚以上の複数のイメージ情報を含むことができる。
【0135】
また、空間情報の特徴情報は、イメージを一つの情報として表現するグローバル特徴(global feature)を含むことができる。
【0136】
グローバル特徴は、1次元ベクトルの形態、あるいは2次元マトリックスの形態、あるいはそれ以上の次元のテンソルの形態の情報であってもよい。
【0137】
グローバル特徴の3次元空間上のポーズは、イメージが取得されたポーズとして示すことができる。
【0138】
空間情報には、空間情報をなすイメージ間の共可視性(Covisibility)情報も含むことができる。
【0139】
共可視性情報は、空間内で観測可能な領域が重なるイメージペアを示す情報であって、各イメージ毎に、観測可能な領域が重なる他のイメージが何かを知らせる情報として活用することができる。
【0140】
共可視性は、SfM又はSLAMの結果物から導出することができ、3次元空間情報は、事前に構築された情報に追加で取得した空間情報を加えて構築することができ、事前に構築された空間情報を更新して使用することもできる。
【0141】
本発明は、小さな部屋のサイズの空間だけでなく、空港、大規模複合ショッピングモール、野外道路空間などの大規模空間でもデータを取得し、空間情報を効率的に構築することによって、安定的にポーズの推定を行うことができる。
【0142】
ポーズの推定時に一般的に用いられる空間情報には特徴情報が含まれるが、このとき、3次元情報が良好に再建されるようにすることが重要である。
【0143】
一般の再建方法では大規模空間を再建する際に失敗することがあるが、映像取得装置を含め、必要に応じてLiDARのような深さ取得装置を連携して使用することによって、大規模空間の再建が可能となり、さらに効率的かつ正確な情報を空間情報として利用できるようにする。これは、ポーズの推定時にさらに効率的かつ正確な推定が可能なようにするのに寄与する。
【0144】
本発明は、順次的なイメージ情報を用いてポーズの推定の正確度及びロバスト性を向上させることができる。
【0145】
順次的なイメージ情報を含め、時間順に取得したユーザ装置のセンサ情報を、個別のイメージ情報及び空間情報と相互に連携して用いることによって、1枚のイメージ情報あるいは単数の情報を通じて得ることができる情報よりも多くの情報を活用できるようになる。
【0146】
これは、さらに多くの情報を用いて区分可能であり、特別な情報を見つけることができる可能性を高め、環境の変化にロバストなポーズの推定が可能なようにする。
【0147】
例えば、順次的な情報から変化に敏感な動的オブジェクト/事物/インテリア/照明などのような情報と、変化にロバストな背景/構造物などの情報とを区分し、ロバストな情報を用いたポーズの推定を通じて、ロバスト性及び正確度の向上を図ることができる。
【0148】
また、1枚のイメージを用いるポーズ推定のように、少ない情報のみを用いたときに生じるポーズ推定の不確実性を克服することができる。
【0149】
空間情報からユーザ情報と特別に類似した情報を見つけることが、不確実性を減らす方法である。
【0150】
このとき、1枚のイメージのように単数あるいは少ない数のセンサ情報を通じてポーズの推定を行う際には、類似度が互いに似ている空間情報の間で真の情報を類推し難くなる不確実性が生じるようになる。
【0151】
しかし、時間順に取得したユーザセンサ情報を活用すれば、類似度が似ている空間情報の間でさらに差があり、類似度の高い情報を類推することができ、不確実性を減らすのに寄与することができる。
【0152】
また、本発明は、ポーズ推定の成功率及び精度を向上させることができる。精度とは、一定の誤差範囲内に入るポーズ推定の割合として定義することができる。
【0153】
これは、ユーザが、ポーズ推定が正しいと判断できる根拠となる。本発明は、順次的なイメージを含む時間順に取得した情報を用いるので、不確実性が低く、ロバストなポーズ推定を行えるようになるので、ポーズ推定の成功率及び精度を高めることができる。
【0154】
したがって、本発明は、拡張現実(Augmented Reality)、複合現実(Mixed Reality)でユーザポーズを推定する際、自律走行ロボット、自律走行モビリティなどに対するポーズを推定する際などに活用することができ、当該技術の商用化及び発展に寄与することができる。
【0155】
図3は、本発明の一実施例に係る相対ポーズ情報に基づくローカルマップと3次元空間情報との相互連携方法を説明する図である。
【0156】
図3は、本発明の一実施例に係る相対ポーズ情報に基づくローカルマップと3次元空間情報との相互連携方法を例示する。
【0157】
取得された全てのイメージに対して相対ポーズの推定を行うことができ、キーフレームを選定し、キーフレームに対してのみ相対ポーズの推定を行うことも可能である。
【0158】
相対ポーズの推定のために、初期に入力されたユーザ情報で初期化を行い、相対座標系の原点及び方向を定義することができる。
【0159】
累積して時間順に入力されたユーザ情報から特定の情報を基準として相対座標系の原点及び方向を定義し、イメージ間の相対ポーズを定義することもできる。
【0160】
推定された相対ポーズと距離情報からローカルマップ(local map)を構成することができる。ローカルマップは、相対ポーズを推定した座標系を基準として構成した3次元点群データ(PCD、point cloud data)を含むことができる。
【0161】
また、点群データの各ポイント(point)は、観測されたイメージの情報を含み、当該イメージでのローカル特徴の記述語情報を含むことができる。
【0162】
また、イメージ間のローカル特徴マッチング情報も含むことができる。その他にも、各ポイントの方向情報、あるいは法線方向、あるいは意味論的(semantic)情報などの情報も含むことができる。
【0163】
図3を参照すると、ローカルマップ310は、事前に構築された空間情報300でデータベースのポイントと相互連携が可能であり、ユーザポーズの推定装置は、相互連携を通じてユーザポーズを推定する際に空間情報300及びローカルマップ310を用いることができる。
【0164】
また、ローカルマップ310を通じて、新たに取得されるユーザの相対ポーズ情報を類推するのに使用することができる。
【0165】
また、ローカルマップ310は、新たに取得されるユーザ情報から拡張あるいは変形されてもよく、または新たに追加されてもよい。
【0166】
ローカルマップ310は、バンドル調整(Bundle adjustment)技法などでイメージ間の相対ポーズあるいは3次元点群データの位置などを修正、改善することを繰り返して最適化するのに使用され得る。
【0167】
ローカルマップ310での点群データは、イメージ320とマッチングされるデータであり得る。
【0168】
相対ポーズの推定時に用いられた情報を格納した相対ポーズ推定情報には、イメージ間の相対ポーズ情報、あるいはローカルマップ、あるいはフィーチャー(特徴)マッチング情報、あるいはグローバルフィーチャー、あるいはローカルフィーチャー情報、あるいはこれらの組み合わせが含まれてもよい。
【0169】
ユーザのポーズは、映像取得装置(カメラ)のポーズ、あるいはキャリブレーションされた装置のポーズとして定義され得る。
【0170】
イメージポーズとは、当該イメージが取得された瞬間の当該イメージを取得したセンサ(カメラなど)のポーズを意味する。
【0171】
構築された空間情報内でユーザのポーズの推定は、イメージのみを用いて推定することも可能である。
【0172】
このとき、個別のイメージのみを用いてポーズの推定を行う場合、各イメージ毎のポーズを推定することもでき、順次的なイメージあるいは選別された複数のイメージを用いてポーズの推定を行うことも可能である。
【0173】
個別のイメージのポーズを推定する際には、計算の効率性のために、空間情報をなすイメージデータと取得されたイメージ情報との類似度を計算し、類似度が高い空間情報のイメージを選別することができる。
【0174】
例えば、グローバルフィーチャーの類似度、あるいはローカルフィーチャーの類似度、あるいはSSIM(structural similarity index)又はこれと類似の方式のイメージ間の類似度、あるいはディープラーニングモデルのレイヤの類似度、あるいはテンソル(tensor)の類似度などを計算して類似度を考慮することができる。
【0175】
類似の空間情報イメージを、同時可視性(covisibility)情報を通じてイメージクラスタ(Cluster)を形成することができる。
【0176】
各イメージクラスタに該当する空間情報の特徴と、取得されたイメージとの特徴マッチングを通じて、空間情報内でのポーズを推定することができる。
【0177】
または、イメージクラスタを形成せずに、各選別された空間情報内のイメージ毎に取得されたイメージとの特徴マッチングを行ってポーズを推定することもできる。
【0178】
このとき、クラスタが複数個であるか、選別された空間情報イメージが複数個である場合、推定されたイメージポーズは複数個となり得る。
【0179】
各ポーズを最終ポーズの候補と見なし、最も適したポーズを選定する過程が含まれ得る。
【0180】
また、個別のイメージのポーズの推定のために、全空間情報及びその中の特徴情報を全部利用して特徴マッチングを行い、イメージのポーズを推定することもできる。
【0181】
図4乃至
図6は、本発明の一実施例に係る時間順に順次取得される複数のイメージを含むユーザ情報を用いたユーザポーズの推定に対する性能の改善を説明する図である。
【0182】
図4は、本発明のユーザポーズの推定方法と関連して、1枚のイメージでポーズを推定する際には不確実性が存在することを例示する。
【0183】
図4を参照すると、ユーザ装置が1枚のイメージ400をユーザ情報として取得し、ユーザポーズの推定装置がイメージ400に基づいて第1候補410、第2候補411及び第3候補412を推定し、推定された第1候補410、第2候補411及び第3候補412に対する類似度を計算すると、第1候補410、第2候補411及び第3候補412が全て類似し、ユーザポーズの推定に不確実性が存在することを確認できる。
【0184】
イメージ400のみを用いる際には、空間内の類似部分が複数箇所存在する場合、正しいポーズを推定するのが容易でないことがある。
【0185】
図5は、本発明のユーザポーズの推定方法と関連して、複数枚のイメージでポーズを推定する際には不確実性が解消されることを例示する。
【0186】
図5を参照すると、ユーザ装置が複数のイメージ500,501,502をユーザ情報として取得し、ユーザポーズの推定装置が複数のイメージ500,501,502に基づいて第1候補510、第2候補511及び第3候補512を推定し、推定された第1候補510、第2候補511及び第3候補512に対する類似度を計算し、計算された類似度に基づいて、第1候補510、第2候補511及び第3候補512のうち第1候補510に対してユーザポーズの推定を確定することを確認できる。
【0187】
複数のイメージ500,501,502は、ユーザ装置が移動するなどの方式を通じて時間順に取得できる複数枚のイメージであって、ユーザポーズの推定に活用され得る。
【0188】
複数のイメージ500,501,502が活用されると、空間情報内のポーズの不確実性を低減し、正しいポーズを推定することができる。
【0189】
図6は、本発明のユーザポーズの推定方法と関連して、空間情報内で正しいポーズを推定するために複数のイメージを活用することによって、ポーズの正確度及び精度を向上させることを例示する。
【0190】
図6を参照すると、取得時点が異なるイメージ600及びイメージ610を示し、取得時点の差によりイメージで観測されたオブジェクトや事物、インテリアまたは照明などに変化があった場合、空間情報内で正しいポーズを推定しにくい。
【0191】
複数のイメージを用いることによって、空間内で変化にさらにロバストな特徴点を探し出し、さらに正確なポーズを推定することができる。
【0192】
例えば、イメージ600及びイメージ610の差による相対ポーズは、相対ポーズ推定情報として活用され得る。
【0193】
例えば、相対ポーズ推定情報を活用すれば、複数のイメージを用いることで、1枚のイメージから探し得る空間情報のローカル特徴マッチング情報よりもさらにロバストなマッチング情報を作り出すことができ、ポーズの正確度及び精度を向上させることができる。
【0194】
順次的なイメージあるいは複数のイメージを用いてポーズを推定する際に、キーフレーム(Keyframe)を選定し、キーフレームに該当するイメージのみでポーズの推定を行ってもよく、または全てのイメージに対してポーズの推定を行ってもよい。
【0195】
例えば、時間順に取得されたイメージのうち1枚以上のイメージを用いれば、可能なポーズ候補群もイメージ毎に1個以上存在することができる。
【0196】
図7は、本発明の一実施例によってポーズ候補推定情報及び相対ポーズ推定情報に基づくポーズ仮説セットを生成して、ユーザポーズを推定する方法を説明する図である。
【0197】
図7は、本発明の一実施例によってポーズ候補推定情報及び相対ポーズ推定情報に基づくポーズ仮説セットを生成して、ユーザポーズを推定する方法を例示する。
【0198】
図7を参照すると、本発明の一実施例によれば、ユーザポーズを推定する方法は、相対ポーズ推定情報を活用すれば、複数枚のイメージを用いることで、1枚のイメージから探し得る空間情報のローカル特徴マッチング情報よりもさらにロバストなマッチング情報を作り出すことができ、ポーズの正確度及び精度を向上させることができる。
【0199】
本発明の一実施例によれば、ユーザポーズを推定する方法は、順次的なイメージ又は複数のイメージを用いてポーズを推定する際に、キーフレームを選定し、キーフレームに該当するイメージのみでポーズの推定を行ってもよく、または全てのイメージに対してポーズの推定を行ってもよい。
【0200】
ユーザポーズを推定する方法は、時間順に取得されたイメージのうちの少なくとも1つ以上のイメージを用いれば、可能なポーズ候補群もイメージ毎に複数で存在することができる。
【0201】
すなわち、ユーザポーズを推定する方法は、時間順に取得されたイメージ700において、イメージI1~イメージIt-1毎に複数の候補Cを設定する。
【0202】
複数の候補は、3次元空間モデル及び複数のイメージを用いて設定され得る。
【0203】
ユーザポーズを推定する方法は、相対ポーズ推定情報を相互に連携して、正しいポーズ候補に対する仮説セットHを複数として仮説710を生成することができる。
【0204】
一つの仮説セットHには、1枚以上のイメージから得たポーズ候補、そのときに用いた情報、及び相対ポーズの推定時に用いられた情報を格納又は記憶していてもよい。
【0205】
仮説710に対して新たに取得されるイメージ情報を連携し、各仮説に対する確率を計算するか、あるいは点数化して仮説選定の尺度720とし、ユーザポーズ対象730に対して最終ポーズ731を推定することができる。
【0206】
例えば、各仮説から推論できる現在のユーザポーズ情報と、ユーザが取得したイメージなどの現在のセンサ情報との相互連携を通じて、仮説が正しい確率あるいは点数を計算することができる。
【0207】
図8は、本発明の一実施例によって仮説セットを通じてユーザポーズベースのユーザポーズ推定の確率の計算及び数値化を説明する図である。
【0208】
図8は、本発明の一実施例によって仮説セットを通じてユーザポーズベースのユーザポーズ推定の確率の計算及び数値化を例示する。
【0209】
図8を参照すると、ユーザセンサ情報及び各仮説を通じて推論できる現在のユーザポーズ情報が正しい確率又は点数を計算することができる。
【0210】
本発明の一実施例によれば、ユーザポーズの推定装置は、仮説による位置800を指定し、誤差範囲801内で候補810を決定し、候補810に対してユーザポーズ情報と一致する確率820を計算する。
【0211】
立てられた仮説に基づいて継続して取得するユーザセンサ情報を用いてユーザポーズを予測し、選択的に仮説に含めてユーザポーズ仮説を作ることができる。
【0212】
また、相対ポーズ推定情報とイメージポーズ推定情報の相互連携時に、マッチング情報あるいはその他のセンサ情報を活用して、ローカルマップ及び相対ポーズ座標系の実測スケール(scale)、あるいは当該仮説に合うスケールを推定することができる。
【0213】
仮説を作る代わりに、相対ポーズ推定情報、及び個別イメージあるいは選択された1つ以上のイメージのポーズ候補推定情報を通じて、ユーザポーズを推定することもできる。
【0214】
最終ポーズを推定する前、あるいは最終ポーズを推定した後に、ポーズに対する正確度の改善のために、補正(refinement)、修正(correction)またはアップデート(update)などを行うことができる。
【0215】
このとき、相対ポーズ推定情報、あるいはローカルマップ情報、あるいはポーズ推定候補情報、あるいはこれらの組み合わせでポーズ改善作業を行うことができる。例えば、相対ポーズ情報を用いて最終ポーズのマッチング情報を更新して、ポーズの正確度を向上させることができる。このようなポーズ改善作業は、1回以上繰り返して行うことも可能である。
【0216】
時間順に取得されたイメージのうち複数枚のイメージを用いて単一のポーズを推定することができる。例えば、複数枚のイメージを用いて示したローカル特徴、あるいは1つのグローバル特徴、あるいはこれらの組み合わせにより、単一のイメージでポーズを推定することと同一又は類似の方法でポーズを推定することができる。このとき、相対ポーズ推定情報を活用して最終ポーズを選定したり、正確度を改善することができる。
【0217】
時間順に取得するイメージ情報を活用して最終ポーズを推定するか、または収束性を判断する前まで継続してユーザセンサ情報を取得することができる。
【0218】
例えば、ユーザのポーズの可能性がある程度収束したと判断すると、最終ポーズを当該収束されたポーズとして選定することができる。
【0219】
ディープラーニング(Deep Learning)モデル又はニューラルネットワークを活用して、相対ポーズあるいは空間情報内でのポーズを推定することができる。
【0220】
学習問題の形態によって、強化学習(reinforcement learning)、教師あり学習(supervised learning)、教師なし学習(unsupervised learning)に分けられることができる。
【0221】
学習段階で訓練データ(training data)が必要となり得、訓練データは、映像情報が含まれたデータ、及びそのデータが取得されたポーズが含まれたデータなどで構成され得、学習データの量を増加させるために、前記2種類のデータにノイズ(noise)を追加したり、データ増強技法を通じてデータを増大及び変形して使用することもできる。
【0222】
畳み込みニューラルネットワーク(CNN)あるいは様々なニューラルネットワークの全体又は一部を使用してもよい。ディープラーニングの結果を用いて、ユーザ情報が取得されたポーズとして予想されるユーザポーズを推定したり、イメージ間の相対ポーズを推定するのに使用することができる。
【0223】
入力として、ユーザ情報の映像情報を用いることができ、ユーザ付加情報を共に用いることができる。ユーザ付加情報を共に用いる場合、ニューラルネットワークにレイヤ(layer)を追加したり、関数を変化させたり、パラメータ数を調節したり、その値を変更してもよい。
【0224】
時間順に取得されるユーザ情報を、空間情報をベースとして粒子フィルタ(Particle Filter)、EKF.EIF、UKFなどの技法を活用してユーザポーズを推定することができる。
【0225】
ユーザ付加情報として慣性情報又は距離情報が取得される場合、推定されたユーザポーズを補正することができる。
【0226】
順次取得されたユーザ情報に応じて、粒子フィルタの値が特定のポーズに収束することができ、このとき、収束された地点をユーザポーズとして推定することができる。ユーザポーズの推定時に、重み(Weight)を付けることができ、多数の収束地点の中でユーザポーズを推定することもできる。
【0227】
ディープラーニングで推定したポーズと、粒子フィルタなどで推定されたポーズとを融合してユーザポーズを推定することができる。
【0228】
例えば、ディープラーニングで推定したポーズの周りで粒子フィルタを行ってユーザポーズを推定することができ、反対の方法として、粒子フィルタで収束されたポーズの周りでディープラーニングでユーザポーズを推定することができる。
【0229】
ユーザポーズの推定時に、重み(Weight)を付けることができ、多数の収束地点の中でユーザポーズを推定することもできる。
【0230】
ユーザの代わりに車輪型移動ロボットにセンサを取り付けてユーザ情報を取得する場合、ユーザが移動ロボットを操縦するか、移動ロボットが自律走行するか、またはこれらの組み合わせでユーザ情報を取得することができる。
【0231】
移動ロボットのポーズをユーザポーズとして考慮することができ、移動ロボットとユーザの視野との間の座標変換関係を知っているか、または座標変換が可能であれば、移動ロボットのポーズをユーザポーズに変換させることができる。
【0232】
移動ロボットは、映像が含まれたユーザ情報だけでなく、モバイルロボットの距離情報(odometry)をユーザ付加情報として取得することができる。前記距離情報を活用してユーザポーズを補正することができる。
【0233】
順次取得した距離情報を活用して移動ロボットの相対予想ポーズを予測することができ、EKF、EIF、UKFなどの技法又は類似の方法を活用して共分散行列(Covariance matrix)などの情報を計算することができ、この情報を更新してユーザポーズを補正することができる。
【0234】
移動ロボットを利用する場合、移動ロボットの動作、運転、操縦、移動、データの取得、格納及び処理などの関連アルゴリズムは、ロボットオペレーティングシステム(ROS、robot operating system)上で行われ得る。
【0235】
空間情報、深さ-映像連携情報、3次元仮想空間モデル、ユーザ情報、ユーザ付加情報などは、サーバー(Server)に格納及び処理され得る。
【0236】
空間情報が取得されると同時に深さ-映像連携情報が構成され、3次元仮想空間モデルが構築され得、ユーザ情報が取得されると同時にユーザポーズをリアルタイムで推定してもよく、遅延(Latency)があってもよく、ユーザポーズの取得が終わった後に処理されてもよい。
【0237】
ユーザ情報を先に取得した後に空間情報を後で取得して3次元仮想空間モデルを構築して、ユーザポーズを推定してもよく、3次元仮想空間モデルを構築するための空間情報を先に取得した後にユーザ情報を後で取得してユーザポーズを推定してもよい。
【0238】
本発明は、センサシステムとコンピュータが融合されたシステムで行われてもよく、または独立したセンサシステムとコンピュータで行われてもよい。
【0239】
ユーザ情報の取得時に、各測定装置のポーズとユーザセンサシステム全体のポーズとが異なることがあるが、各測定装置及びセンサシステムの座標変換関係を利用して変換が可能である。例えば、ユーザセンサシステムの中心又は適切な位置をユーザポーズとして仮定するか、またはユーザセンサシステムを基準にユーザポーズとして仮定してもよい。
【0240】
この場合、必要なキャリブレーション情報又はユーザセンサシステムからユーザポーズまでの相対ポーズを知っているか、またはある値として仮定することができる。
【0241】
図9は、本発明の一実施例によって時間順に順次取得される複数のイメージに基づくデータ活用の例示を説明する図である。
【0242】
図9は、本発明の一実施例によって時間順に順次取得される複数のイメージに基づくデータ活用を例示する。
【0243】
図9を参照すると、複数のイメージに基づくデータ活用の例示は、ユーザポーズの推定装置においてさらに豊富な2D-3D機能対応、M
1
k及びM
2
kを探すために順次データを活用することを示すことができる。
【0244】
M1
kは、最終仮説の現在のキーフレームIk及び以前のキーフレームと、単一のイメージを用いたユーザポーズ推定プロセス中に行われたPnP-RANSACプロセスで見つけた当該3Dマップポイントとの間の2D-2Dローカルフィーチャーマッチングを通じて探すことができる。
【0245】
また、3Dマップポイントを観察し、共同可視性クラスタリング(covisibility clustering)を繰り返した後、単一のイメージを用いたユーザポーズ推定プロセスと類似した2D-3D対応M2
kを探すデータベースイメージを検索する。
【0246】
データベースに格納された空間情報を示すイメージ901が共同可視性クラスタリング900をなし、イメージ901が3次元マップポイント902を観察又はマッピングされ、問い合わせイメージI1,I2~IKでのポイント903と3次元マップポイント902がマッチングされ、仮説セットが生成される。
【0247】
指示線910は、2次元に2次元のマッチングを示し、指示線911は、観察(observation)を示すことができ、指示線912は、単一のイメージの2次元に3次元を一致(correspondence)させることを示すことができ、指示線913は、順次的イメージの2次元に3次元を一致させることを示す。
【0248】
言い換えると、ユーザポーズの推定方法は、空間情報を示すイメージ901及び相対ポーズ推定情報と関連する3次元マップポイント902を問い合わせイメージI1,I2~IKと相互に連携した仮説を設計する。
【0249】
SfMデータベースは、3次元マップポイント902に対するデータを提供するため、問い合わせイメージI1,I2~IKを検索するように支援することができる。
【0250】
検索された全てのイメージを併合し、共同可視性クラスタリングステップを行った。
【0251】
元のクラスタと交差する場合に基本クラスタが選択され、他のクラスタは無視される反面、キーフレームIkのポーズXl
kを推定する。
【0252】
選択されたクラスタで検索されたイメージは、グローバルディスクリプタのコサイン距離に応じてフィルタリングされ、使用されたイメージ数がK1イメージの150%を超えないようにした。
【0253】
ポーズ推定ステップと同様に、新たに見つけたクラスタとの2D-3D対応を探し、対応をM2
kと表記する。
【0254】
M1
kとM2
kの2つの対応セットを結合し、RANSACループでPnPアルゴリズムを適用して最終ポーズXkを出力する。
【0255】
図10及び
図11は、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法を説明する図である。
【0256】
図10は、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法に基づいて現実空間内のユーザのポーズを推定する手順を例示する。
【0257】
図10を参照すると、ステップ(S1001)において、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法は相対ポーズ推定情報を確認する。
【0258】
すなわち、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法は、現実空間で時間順に取得された複数のイメージ間の相対ポーズ推定情報を確認することができる。
【0259】
ステップ(S1002)において、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法は、相対ポーズ推定情報とポーズ候補推定情報とを相互に連携してユーザポーズを推定する。
【0260】
すなわち、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法は、現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を活用して構築された3次元空間モデルを取得し、取得された3次元空間モデルに基づいてポーズ候補推定情報を生成し、生成されたポーズ候補推定情報と確認された相対ポーズ推定情報とを相互に連携してユーザポーズを推定することができる。
【0261】
したがって、本発明は、順次的なイメージ情報を含め、時間順に取得したユーザ装置のセンサ情報を、個別のイメージ情報及び空間情報と相互に連携して用いることによって、1枚のイメージ情報あるいは単数の情報を通じて得ることができる情報よりも多くの情報を活用することによって、ユーザポーズの推定に対する正確度及びロバスト性を向上させることができる。
【0262】
図11は、本発明の一実施例に係る3次元空間におけるユーザポーズの推定方法が順次的なイメージ情報及び3次元空間情報を用いて現実空間内のユーザのポーズを推定する手順を例示する。
【0263】
図11を参照すると、ステップ(S1101)において、3次元空間におけるユーザポーズの推定方法は、深さ情報及びイメージ情報を含む空間情報を取得する。
【0264】
すなわち、3次元空間におけるユーザポーズの推定方法は、現実空間に対する慣性情報、深さ情報及びイメージ情報のうちの少なくとも1つを含む空間情報を取得することができる。
【0265】
ステップ(S1102)において、3次元空間におけるユーザポーズの推定方法は3次元空間モデルを構築する。
【0266】
すなわち、3次元空間におけるユーザポーズの推定方法は、ステップ(S1101)で取得された空間情報を活用して、複数の特徴(feature)に対する3次元情報を含む3次元空間モデルを構築することができる。
【0267】
ステップ(S1103)において、3次元空間におけるユーザポーズの推定方法は、時間順に複数のイメージを含むユーザ情報を取得する。
【0268】
すなわち、3次元空間におけるユーザポーズの推定方法は、現実空間でユーザ装置に基づいて時間順に複数のイメージを含むユーザ情報を取得することができる。
【0269】
ステップ(S1104)において、3次元空間におけるユーザポーズの推定方法は、複数のイメージ間の相対ポーズを推定する。
【0270】
すなわち、3次元空間におけるユーザポーズの推定方法は、複数のイメージ間の相対ポーズを推定して相対ポーズ推定情報を生成することができる。
【0271】
ステップ(S1105)において、3次元空間におけるユーザポーズの推定方法は、ポーズ候補推定情報と相対ポーズ推定情報とを相互に連携してユーザポーズを推定する。
【0272】
すなわち、3次元空間におけるユーザポーズの推定方法は、ステップ(S1102)で構築された3次元空間モデルに基づいてポーズ候補推定情報を生成し、生成されたポーズ候補推定情報と生成された相対ポーズ推定情報とを相互に連携してポーズ仮説セットを生成し、生成されたポーズ仮説セットを用いてユーザポーズを推定することができる。
【0273】
言い換えると、3次元空間におけるユーザポーズの推定方法は、現実空間に対するユーザポーズの候補を示すポーズ候補推定情報で相対ポーズ推定情報を適用して、イメージが示すフレームでポーズ候補を決定する手順を繰り返し、複数のイメージを用いて決定したポーズ仮説セットを多数で設定した後、設定されたポーズ仮説セットに対する類似度及び確率点数を計算してユーザポーズを推定することができる。
【0274】
以上で説明された装置は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素とソフトウェア構成要素の組み合わせで実現されてもよい。例えば、実施例で説明された装置及び構成要素は、例えば、プロセッサ、コントローラー、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令(instruction)を実行し、応答できる他のある装置のように、1つ以上の汎用コンピュータ又は特殊目的のコンピュータを用いて実現されてもよい。処理装置は、運用システム(OS)及び前記運用システム上で行われる1つ以上のソフトウェアアプリケーションを行うことができる。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理及び生成することもできる。理解の便宜のために、処理装置は、1つが使用されるものとして説明された場合もあるが、当該技術分野における通常の知識を有する者は、処理装置が複数個の処理要素(processing element)及び/又は複数タイプの処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサ又は1つのプロセッサ及び1つのコントローラーを含むことができる。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0275】
ソフトウェアは、コンピュータプログラム(computer program)、コード(code)、命令(instruction)、またはこれらのうちの1つ以上の組み合わせを含むことができ、望む通りに動作するように処理装置を構成したり、独立して又は結合的に(collectively)処理装置に命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり、処理装置に命令又はデータを提供するために、あるタイプの機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピュータ格納媒体又は装置、あるいは伝送される信号波(signal wave)に永久的に、または一時的に具体化(embody)されてもよい。ソフトウェアは、ネットワークで接続されたコンピュータシステム上に分散され、分散された方法で格納又は実行されてもよい。ソフトウェア及びデータは、一つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。
【0276】
以上のように、実施例を限定された図面によって説明したが、当該技術分野における通常の知識を有する者であれば、前記の記載から様々な修正及び変形が可能である。例えば、説明された技術が説明された方法と異なる順序で行われたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって代替又は置換されたりしても適切な結果が達成され得る。
【0277】
したがって、他の具現、他の実施例及び特許請求の範囲と均等なものも、添付の特許請求の範囲の範囲に属する。