特許7513564 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7513564システム、情報処理方法および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-01

(45)【発行日】2024-07-09

(54)【発明の名称】システム、情報処理方法および情報処理プログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20240702BHJP

G06F 3/0484 20220101ALI20240702BHJP

【ＦＩ】

G06F3/01 560

G06F3/0484

【請求項の数】 7

(21)【出願番号】P 2021067660

(22)【出願日】2021-04-13

(65)【公開番号】P2022162702

(43)【公開日】2022-10-25

【審査請求日】2023-04-10

(73)【特許権者】

【識別番号】310021766

【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント

(74)【代理人】

【識別番号】110000637

【氏名又は名称】弁理士法人樹之下知的財産事務所

(72)【発明者】

【氏名】宮田直之

(72)【発明者】

【氏名】柳澤英樹

(72)【発明者】

【氏名】石田麻美子

(72)【発明者】

【氏名】岩木英明

【審査官】佐藤光起

(56)【参考文献】

【文献】特開２００７－２９６２４８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／０１８７９９０（ＵＳ，Ａ１）

【文献】特表２０１２－５２１０３９（ＪＰ，Ａ）

【文献】特表２０１５－５２７６２７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１

Ｇ０６Ｆ３／０４８４

(57)【特許請求の範囲】

【請求項1】

センサ装置と、ユーザー操作を受け付けるコントローラと、前記ユーザー操作に基づいて処理を行う情報処理装置とを含むシステムであって、
前記センサ装置は、
所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサと、
画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサと、
前記第１画像信号と前記第２画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持する前記コントローラについて、前記ユーザーが前記コントローラのどの部分を把持しているか、および、前記コントローラが前記ユーザーに保持されている姿勢の少なくとも一方を含む前記コントローラの姿勢とを推定する推定部と、
前記ユーザーの状態を示す情報と前記コントローラの姿勢を示す情報とを出力する情報出力部とを備え、
前記情報処理装置は、
前記ユーザーの状態を示す情報と前記コントローラの姿勢を示す情報との少なくとも一方に基づいて、前記コントローラへのフィードバック制御の制御値を算出する制御値算出部を備え、
前記コントローラは、前記制御値に基づいて力覚を提示する力覚提示装置、前記制御値に基づいて振動する振動装置、または前記制御値に基づいて音声を出力する音声出力装置の少なくとも１つを有する、システム。

【請求項2】

前記ユーザーの状態は、前記ユーザーの姿勢、前記ユーザーの腕の形状、または前記ユーザーの手指の形状の少なくとも１つを含む、請求項１に記載のシステム。

【請求項3】

前記推定部は、複数の関節を有する人物の画像と、前記複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、前記第１画像信号に基づく第１画像に含まれる前記ユーザーの少なくとも１つの関節の座標情報を算出し、前記座標情報に基づいて前記ユーザーの状態を推定する、請求項１または請求項２に記載のシステム。

【請求項4】

前記情報処理装置は、前記第１画像信号と前記第２画像信号との少なくとも一方に基づいて、被写界に含まれる１以上のユーザーを認識する第１認識部をさらに備え、
前記推定部は、前記第１認識部により認識した前記ユーザーごとに、前記ユーザーの状態と、当該ユーザーが保持する前記コントローラの姿勢とを推定する、請求項１から請求項３のいずれか１項に記載のシステム。

【請求項5】

前記システムは複数の前記コントローラを含み、
前記情報処理装置は、前記第１認識部により認識した前記ユーザーごとに、当該ユーザーが保持する前記コントローラを認識する第２認識部をさらに備え、
前記情報出力部は、前記第１認識部により認識した前記ユーザーと、前記第２認識部により認識した前記コントローラとの組み合わせを示す情報を出力する、請求項４に記載のシステム。

【請求項6】

コントローラへのフィードバック制御の制御値を出力する情報処理方法であって、
所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された前記第２画像信号に基づいて、ユーザーの状態と、当該ユーザーが保持する前記コントローラについて、前記ユーザーが前記コントローラのどの部分を把持しているか、および、前記コントローラが前記ユーザーに保持されている姿勢の少なくとも一方を含む前記コントローラの姿勢とを推定する推定ステップと、
前記ユーザーの状態を示す情報と前記コントローラの姿勢を示す情報とを出力する情報出力ステップと
を含む情報処理方法。

【請求項7】

所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された前記第２画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラについて、前記ユーザーが前記コントローラのどの部分を把持しているか、および、前記コントローラが前記ユーザーに保持されている姿勢の少なくとも一方を含む前記コントローラの姿勢とを推定する機能と、
前記ユーザーの状態を示す情報と前記コントローラの姿勢を示す情報とを出力する機能と
をコンピュータに実現させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、システム、情報処理方法および情報処理プログラムに関する。

【背景技術】

【0002】

入射する光の強度変化を検出したピクセルが時間非同期的に信号を生成する、イベント駆動型のビジョンセンサが知られている。イベント駆動型のビジョンセンサは、所定の周期ごとに全ピクセルをスキャンするフレーム型ビジョンセンサ、具体的にはＣＣＤやＣＭＯＳなどのイメージセンサに比べて、低電力で高速に動作可能である点で有利である。このようなイベント駆動型のビジョンセンサに関する技術は、例えば特許文献１および特許文献２に記載されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特表２０１４－５３５０９８号公報

【文献】特開２０１８－８５７２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、イベント駆動型のビジョンセンサについては、上記のような利点は知られているものの、他の装置と組み合わせた利用方法については、まだ十分に提案されているとは言いがたい。

【0005】

そこで、本発明は、所定のタイミングで全画素を同期的にスキャンするセンサにより生成した画像信号と、イベント駆動型のビジョンセンサにより生成した画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラの姿勢とを推定し、推定結果に基づいて、コントローラへのフィードバック制御の制御値を算出することによって、レイテンシを抑えつつ、コントローラへの好適なフィードバック制御を実現することができるシステム、情報処理方法および情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明のある観点によれば、センサ装置と、ユーザー操作を受け付けるコントローラと、ユーザー操作に基づいて処理を行う情報処理装置とを含むシステムであって、センサ装置は、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサと、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサと、第１画像信号と第２画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラの姿勢とを推定する推定部と、ユーザーの状態を示す情報とコントローラの姿勢を示す情報とを出力する情報出力部とを備え、情報処理装置は、ユーザーの状態を示す情報とコントローラの姿勢を示す情報との少なくとも一方に基づいて、コントローラへのフィードバック制御の制御値を算出する制御値算出部を備え、コントローラは、制御値に基づいて力覚を提示する力覚提示装置、制御値に基づいて振動する振動装置、または制御値に基づいて音声を出力する音声出力装置の少なくとも１つを有する、システムが提供される。
本発明の別の観点によれば、コントローラへのフィードバック制御の制御値を出力する情報処理方法であって、所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された第２画像信号に基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラの姿勢とを推定する推定ステップと、ユーザーの状態を示す情報とコントローラの姿勢を示す情報とを出力する情報出力ステップとを含む情報処理方法が提供される。
本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンする第１画像センサにより生成された第１画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサにより生成された第２画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラの姿勢とを推定する機能と、ユーザーの状態を示す情報とコントローラの姿勢を示す情報とを出力する機能とをコンピュータに実現させる情報処理プログラムが提供される。

【発明の効果】

【0007】

上記の構成によれば、所定のタイミングで全画素を同期的にスキャンするセンサにより生成した画像信号と、イベント駆動型のビジョンセンサにより生成した画像信号とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラの姿勢とを推定し、推定結果に基づいて、コントローラへのフィードバック制御の制御値を算出する。したがって、レイテンシを抑えつつ、コントローラへの好適なフィードバック制御を実現することができる。

【図面の簡単な説明】

【0008】

【図1】本発明の一実施形態に係るシステムの全体を示す模式図である。

【図2】本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。

【図3】本発明の一実施形態に係るシステムにおける推定部の概略的な構成を示すブロック図である。

【図4】本発明の一実施形態における推定の例について説明するための図である。

【図5】本発明の一実施形態に係る処理方法の例を示すフローチャートである。

【図6】本発明の一実施形態におけるフィードバック制御について説明する図である。

【図7】本発明の一実施形態におけるフィードバック制御について説明する別の図である。

【図8】本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。

【発明を実施するための形態】

【0009】

以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

【0010】

図１は、本実施形態に係るシステム１の全体を示す模式図である。
本実施形態に係るシステム１は、図１に示すように、カメラユニット１０と、情報処理装置２０と、１以上のコントローラ３０と、表示装置４０とを含むゲームシステムである。情報処理装置２０は、カメラユニット１０、コントローラ３０、および表示装置４０のぞれぞれと有線または無線のネットワークにより接続される。
システム１では、カメラユニット１０およびコントローラ３０から送信される情報に応じて情報処理装置２０がゲームを進行し、表示装置４０が、情報処理装置２０の実行時画面、例えばゲーム画面を表示する。

【0011】

本実施形態において、カメラユニット１０は、ゲームのプレイヤーであるユーザーの状態と、当該ユーザーが保持するコントローラ３０の姿勢とを推定し、推定結果を情報処理装置２０に送信する。ここで、ユーザーの状態とは、ユーザーの姿勢、ユーザーの腕の形状、またはユーザーの手指の形状の少なくとも１つを含む。
カメラユニット１０は、ユーザーの状態とコントローラ３０の姿勢とを推定して出力することにより、コントローラ３０と同様にユーザー操作を受け付けるための操作装置として機能する。このようなカメラユニット１０は、ユーザーの状態とコントローラ３０の姿勢とを推定するために、被写界にユーザーが収まる位置、例えばユーザーから１メートル程度の距離に配置される。図１の例では、カメラユニット１０は、表示装置４０の近傍に配置される。カメラユニット１０の最適な配置位置は、目的に応じて異なる。例えば、プレイ対象のゲームの内容に応じて、ユーザーの体全体、上半身、手元等、把握する対象が被写界に収まる位置にカメラユニット１０を配置することが望まれる。
なお、カメラユニット１０の配置に際しては、例えば、情報処理装置２０によって表示装置４０にチュートリアルなどを表示することにより、ユーザーがカメラユニット１０を適切な位置に配置するよう案内するとよい。

【0012】

以下、システム１の各構成について説明する。
図２は、本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。
カメラユニット１０は、ＲＧＢカメラ１１と、ＥＤＳ（Event Driven Sensor）１２と、ＩＭＵ（Inertial Measurement Unit）１３と、推定部１４と、情報出力部１５とを含む。
ＲＧＢカメラ１１は、第１画像センサであるイメージセンサ１１１と、イメージセンサ１１１に接続される処理回路１１２とを含む。イメージセンサ１１１は、例えば所定の周期で、またはユーザー操作に応じた所定のタイミングで全ピクセルを同期的にスキャンすることによってＲＧＢ画像信号１１３を生成する。処理回路１１２は、例えばＲＧＢ画像信号１１３を保存および伝送に適した形式に変換する。また、処理回路１１２は、ＲＧＢ画像信号１１３にタイムスタンプを与える。

【0013】

ＥＤＳ１２は、センサアレイを構成する第２画像センサであるセンサ１２１と、センサ１２１に接続される処理回路１２２とを含む。センサ１２１は、受光素子を含み、画素ごとに入射する光の強度変化、より具体的には予め定めた所定の値を超える輝度変化を検出したときにイベント信号１２３を生成するイベント駆動型のビジョンセンサである。処理回路１２２を経て出力されるイベント信号１２３は、センサ１２１の識別情報（例えばピクセルの位置）と、輝度変化の極性（上昇または低下）と、タイムスタンプとを含む。また、輝度変化を検出した際に、ＥＤＳ１２は、ＲＧＢ画像信号１１３の生成頻度（ＲＧＢカメラ１１のフレームレート）より大幅に高い頻度でイベント信号１２３を生成することができる。また、ＥＤＳ１２は、ＲＧＢ画像信号１１３の生成頻度（ＲＧＢカメラ１１のフレームレート）より大幅に高い頻度でイベント信号１２３を生成することができる。
なお、本明細書では、当該信号に基づいて画像を構築可能な信号を画像信号という。したがって、ＲＧＢ画像信号１１３およびイベント信号１２３は、画像信号の一例を示す。

【0014】

本実施形態において、ＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプは同期している。具体的には、例えば、ＥＤＳ１２でタイムスタンプを生成するために用いられる時刻情報をＲＧＢカメラ１１に提供することによって、ＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプを同期させることができる。あるいは、タイムスタンプを生成するための時刻情報がＲＧＢカメラ１１とＥＤＳ１２とでそれぞれ独立している場合、特定のイベント（例えば、画像全体にわたる被写体の変化）が発生した時刻を基準にしてタイムスタンプのオフセット量を算出することによって、事後的にＲＧＢ画像信号１１３およびイベント信号１２３に与えられるタイムスタンプを同期させることができる。

【0015】

また、本実施形態では、事前に実行されるＲＧＢカメラ１１とＥＤＳ１２とのキャリブレーション手順によって、ＥＤＳ１２のセンサ１２１がＲＧＢ画像信号１１３の１または複数のピクセルに対応付けられ、イベント信号１２３はＲＧＢ画像信号１１３の１または複数のピクセルにおける光の強度変化に応じて生成される。より具体的には、例えば、ＲＧＢカメラ１１とＥＤＳ１２とで共通の校正パターンを撮像し、ＲＧＢカメラ１１およびＥＤＳ１２のぞれぞれの内部パラメータおよび外部パラメータからカメラとセンサとの間の対応パラメータを算出することによって、ＲＧＢ画像信号１１３の１または複数のピクセルにセンサ１２１を対応付けることができる。

【0016】

ＩＭＵ１３は、カメラユニット１０自体の姿勢を検出するセンサである。ＩＭＵ１３は、所定の周期で、または、所定のタイミングでカメラユニット１０の三次元の姿勢データを取得し、推定部１４に出力する。

【0017】

推定部１４は、ＥＤＳ１２において生成されたイベント信号１２３と、ＲＧＢカメラ１１において生成されたＲＧＢ画像信号１１３とに基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラ３０の姿勢とを推定する。図３は、推定部１４の概略的な構成を示すブロック図である。推定部１４は、第１認識部１４１と、座標算出部１４２と、学習済みモデル１４３と、状態推定部１４４と、第２認識部１４５と、姿勢推定部１４６とを含む。
推定部１４の第１認識部１４１は、ＲＧＢ画像信号１１３とイベント信号１２３との少なくとも一方に基づいて、カメラユニット１０の被写界に含まれる１以上のユーザーを認識する。第１認識部１４１は、例えば、イベント信号１２３において同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、ＲＧＢ画像信号１１３の対応する部分に基づいて被写体認識を行うことによりユーザーを認識する。カメラユニット１０の被写界に複数のユーザーが含まれる場合、第１認識部１４１は、それぞれのユーザーを識別する。

【0018】

推定部１４の座標算出部１４２は、第１認識部１４１により認識したユーザーごとに、学習済みモデル１４３に基づいて、ＲＧＢ画像信号１１３からユーザーが有する複数の関節の位置を示す座標情報を算出する。学習済みモデル１４３は、例えば、複数の関節を有する人物の画像を入力データとし、人物の複数の関節の位置を示す座標情報を正解データとした教師あり学習を実行することによって予め構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、推定部１４に関係性学習部を備え、ＲＧＢ画像信号１１３が入力される度に、入力されたＲＧＢ画像信号１１３に基づく画像と関節の位置を示す座標情報との関係性を学習して学習済みモデル１４３を更新する構成としてもよい。そして、推定部１４の状態推定部１４４は、第１認識部１４１により認識したユーザーごとに、座標算出部１４２により算出した座標情報に基づいて、ユーザーの状態を推定する。

【0019】

推定部１４の第２認識部１４５は、ＲＧＢ画像信号１１３とイベント信号１２３との少なくとも一方に基づいて、第１認識部１４１により認識したユーザーごとに、当該ユーザーが保持するコントローラ３０を認識する。第２認識部１４５は、例えば、座標算出部１４２により算出したユーザーが有する複数の関節の位置を示す座標情報に基づき、ＲＧＢ画像信号１１３のうち、ユーザーの手の近傍に対応する部分について被写体認識を行うことによりコントローラ３０を認識する。第１認識部１４１により複数のユーザーが認識された場合、第２認識部１４５は、それぞれのユーザーについてコントローラ３０を識別する。なお、コントローラ３０の識別、つまり、何れのユーザーが何れのコントローラ３０を保持しているかの判別はどのように行ってもよい。例えば、複数のコントローラ３０のそれぞれに識別のためのマークなどを添付し、ＲＧＢ画像信号１１３に基づいて判別してもよいし、複数のコントローラ３０のそれぞれから所定の識別信号を出力する構成とし、カメラユニット１０または情報処理装置２０により受信した識別信号に基づいて判別してもよい。また、ユーザーがコントローラ３０を保持していない場合、第２認識部１４５は、「ユーザーがコントローラ３０を保持していない」ことを認識する。

【0020】

推定部１４の姿勢推定部１４６は、第２認識部１４５により認識したコントローラ３０ごとに、コントローラ３０の姿勢を推定する。姿勢推定部１４６は、例えば、ＲＧＢ画像信号１１３のうち、第２認識部１４５により行った被写体認識の結果に基づいてコントローラ３０の形状を推定し、推定した形状に基づいてコントローラ３０の姿勢を推定する。なお、コントローラ３０がコントローラ３０自体の姿勢を検出するセンサを有する場合、そのセンサの出力を加味してコントローラ３０の姿勢を行ってもよい。第２認識部１４５により複数のコントローラ３０が認識された場合、姿勢推定部１４６は、それぞれのコントローラ３０について姿勢を推定する。なお、姿勢推定部１４６は、上述した座標算出部１４２と同様に、学習済みモデルを用いた機械学習の手法を利用してコントローラ３０の姿勢を推定してもよい。

【0021】

図４は、推定部１４によるユーザーの状態の推定、およびコントローラ３０の姿勢の推定の例について説明するための図である。図４では、左右にグリップ部分を有するコントローラ３０を例示する。
推定部１４により推定されるユーザーの状態は、上述したように、ユーザーの姿勢、ユーザーの腕の形状、またはユーザーの手指の形状の少なくとも１つを含む。ユーザーの姿勢は、例えば、ユーザーが椅子などに着席している状態、ユーザーが立っている状態、さらに、ユーザーがカメラユニット１０に対して正面を向いている状態、側方を向いている状態等を含む。また、ユーザーの腕の形状は、例えば、ユーザーが腕を上げている状態やユーザーが腕を動かして所定のポーズをとっている状態等を含む。また、ユーザーの手指の形状は、例えば、ユーザーが手指を動かして２本の指を立てるピースサイン等の所定のポーズをとっている状態やユーザーがコントローラ３０を握っている状態等を含む。また、コントローラ３０の姿勢は、ユーザーがコントローラ３０のどの部分を把持し、どのような姿勢でコントローラ３０を保持しているかを示す。

【0022】

図４Ａは、ユーザーが弓矢を構えるポーズをとり、コントローラ３０の中央部分を片手で把持している状態を例示する。図４Ａの例は、ユーザーの状態とコントローラ３０の姿勢に基づき、仮想の弓Ｖ１および矢Ｖ２を操作するゲームの例を示す。
図４Ｂは、ユーザーがコントローラ３０のグリップ部分を両手で把持して回転させる状態を例示する。図Ｂの例は、ユーザーの状態とコントローラ３０の姿勢に基づき、オートバイ等のハンドルを操作するゲームの例を示す。
図４Ｃは、ユーザーがバットを構えるポーズをとり、コントローラ３０の片側のグリップ部分を片手で把持している状態を例示する。図４Ｃの例は、ユーザーの状態とコントローラ３０の姿勢に基づき、仮想のバットＶ３を操作するゲームの例を示す。
図４Ｄは、ユーザーがコントローラ３０を把持せずに手裏剣を投げるポーズをとっている状態を例示する。図４Ｄの例は、コントローラ３０を使用せずに、ユーザーの状態に基づき、仮想の手裏剣Ｖ４を操作するゲームの例を示す。

【0023】

ここまで説明した推定部１４による推定処理は一例であり、ＲＧＢ画像信号１１３およびイベント信号１２３をどのタイミングでどのように利用するかはこの例に限定されない。例えば、推定部１４は、イベント信号１２３に基づいて、被写界に含まれるユーザーの一部または全体の移動量を算出し、算出結果を推定処理に利用してもよい。また、ブロックマッチング法、勾配法などの公知の手法を用いて推定処理を行ってもよい。
また、例えば、推定部１４による推定処理に、ＩＭＵ１３により検出したカメラユニット１０の三次元の姿勢データを利用してもよい。

【0024】

情報出力部１５は、推定部１４により推定したユーザーの状態を示す情報と、コントローラ３０の姿勢を示す情報とを情報処理装置２０に出力する。なお、ユーザーの状態を示す情報は、座標算出部１４２によって算出された座標情報でもよいし、状態推定部１４４によって推定されたユーザーの状態を示す情報であってもよい。
また、第１認識部１４１により複数のユーザーが認識された場合、情報出力部１５は、ユーザーと、当該ユーザーが保持するコントローラとの組み合わせを示す情報を情報処理装置２０に出力する。このような情報を出力する際には、ユーザーの状態を示す情報とコントローラ３０の姿勢を示す情報との組み合わせを示すテーブルなどの情報を出力してもよいし、ユーザーの状態を示す情報に、当該ユーザーが保持するコントローラ３０の識別情報を関連付けてもよいし、コントローラ３０の姿勢を示す情報に、当該コントローラ３０を保持するユーザーの状態を示す情報を関連付けてもよい。
さらに、ユーザーの状態およびコントローラ３０の姿勢と、ユーザー操作との関係を予めテーブルなどに定めておくことにより、情報出力部１５は、ユーザー操作を示す情報を情報処理装置２０に出力してもよい。

【0025】

ここまで説明したように、カメラユニット１０は、ユーザーの状態およびコントローラ３０の姿勢を推定することにより、コントローラ３０と同様にユーザー操作を受け付けるための操作装置として機能する。つまり、推定部１４により推定されるユーザーの状態およびコントローラ３０の姿勢に基づいて、ユーザー操作を識別することができる。また、カメラユニット１０は、ＲＧＢ画像信号１１３およびイベント信号１２３の生成からユーザーの状態の推定およびコントローラ３０の姿勢の推定までを単体で完結し、情報処理装置２０に対してＲＧＢ画像信号１１３およびイベント信号１２３は出力せずに、推定結果を出力することができる。なお、カメラユニット１０は、独立した電源を有することが好ましい。

【0026】

再び図２を参照して、情報処理装置２０は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、通信部２１および制御部２２を含む。制御部２２は、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される制御値算出部２２１および画像生成部２２２の各機能を含む。以下、各部の機能についてさらに説明する。

【0027】

通信部２１は、カメラユニット１０の情報出力部１５から出力された情報を受信する。また、通信部２１は、コントローラ３０と相互に通信可能であるとともに、表示装置４０に表示させる画像を出力する。
制御部２２の制御値算出部２２１は、カメラユニット１０の情報出力部１５から受信した情報とコントローラ３０から受信した情報との少なくとも一方に基づいて、コントローラ３０および表示装置４０を含む外部装置へのフィードバック制御の制御値を算出する。上述したように、カメラユニット１０およびコントローラ３０は、ユーザー操作を受け付けるための操作装置として機能する。そこで、制御値算出部２２１は、カメラユニット１０とコントローラ３０との少なくとも一方を介して行われたユーザー操作に応じて、コントローラ３０および表示装置４０を含む外部装置へのフィードバック制御の制御値を算出する。算出された制御値は、通信部２１を介してコントローラ３０および表示装置４０に出力される。
制御部２２の画像生成部２２２は、制御値算出部２２１により算出した制御値に応じて、表示装置４０に表示する表示画像を生成する。生成された表示画像は、通信部２１を介して表示装置４０に出力される。
なお、制御値の算出、および表示画像の生成の詳細については、後述するコントローラ３０および表示装置４０の構成の説明と関連して説明を行う。

【0028】

コントローラ３０は、図２に示すように、通信部３１、操作部３２、力覚提示部３３、振動部３４、および音声出力部３５を含む。ユーザーはコントローラ３０を操作することによりゲームに関する各種操作を行うことができる。
通信部３１は、情報処理装置２０の通信部２１から出力された制御値を受信して、力覚提示部３３、振動部３４、および音声出力部３５の各部に出力する。また、通信部３１は、操作部３２により受け付けたユーザー操作に関する情報を、情報処理装置２０に出力する。
操作部３２は、ボタンおよびパッドなどの複数の操作子を備え、操作子に対するユーザーの操作入力を受け付ける。
力覚提示部３３は、操作部３２の少なくとも一部の操作子に設けられ、情報処理装置２０から供給される制御値にしたがい、ユーザー操作に抗する、あるいは連動する力をユーザーに提示する。具体的に、力覚提示部３３は、回転するロータを含むモータやアクチュエータ等で構成できる。力覚提示部３３を構成する力覚提示装置については広く知られたものを採用できるので、ここでの詳しい説明を省略する。

【0029】

振動部３４は、情報処理装置２０から供給される制御値にしたがい、振動を発生するものであり、例えばモータにより構成できる。振動部３４は、ユーザー操作が行われた場合に振動を発生することにより、ユーザー操作が正しく行われ、情報処理装置２０に認識されたことをユーザーに通知することが可能である。
音声出力部３５は、情報処理装置２０から供給される制御値にしたがい、音声を出力するものであり、例えばスピーカにより構成できる。音声出力部３５は、ユーザー操作が行われた場合に音声を出力することにより、ユーザー操作が正しく行われ、情報処理装置２０に認識されたことをユーザーに通知することが可能である。
なお、上述した力覚提示部３３による力覚の提示と連動して、振動部３４による振動と、音声出力部３５による音声出力との少なくとも一方が行われることにより、ユーザーへのフィードバック制御の多様性を高めることが可能である。

【0030】

情報処理装置２０の制御値算出部２２１は、上述したように、コントローラ３０へのフィードバック制御の制御値を算出するが、より具体的には、コントローラ３０の力覚提示部３３、振動部３４、および音声出力部３５へのフィードバック制御の制御値を算出する。力覚提示部３３に関して、制御値算出部２２１は、ユーザー操作に応じたフィードバック制御としてどのような力覚を提示させるかを示す制御値を算出する。振動部３４に関して、制御値算出部２２１は、ユーザー操作に応じたフィードバック制御としてどのような振動を発生させるかを提示するかを示す制御値を算出する。音声出力部３５に関して、制御値算出部２２１は、ユーザー操作に応じたフィードバック制御としてどのような音声を出力させるかを示す制御値を算出する。制御値算出部２２１による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。
なお、第１認識部１４１により複数のユーザーが認識され、情報出力部１５によりユーザーと、当該ユーザーが保持するコントローラとの組み合わせを示す情報とが出力された場合、制御値算出部２２１は、ユーザーと、当該ユーザーが保持するコントローラとの組み合わせごとに制御値を算出する。

【0031】

例えば、上述した図４Ａの例で示したように、仮想の弓Ｖ１により矢Ｖ２を放つユーザー操作が行われた場合、制御値算出部２２１は、ユーザーの状態とコントローラ３０の姿勢に基づき、力覚提示部３３および振動部３４に関して、実際に弓矢を放った際の反動に相当する力覚の提示および振動の発生を示す制御値を算出する。また、制御値算出部２２１は、実際に弓矢を放った際の音声に相当する音声の出力を示す制御値を算出する。
図４Ｂの例で示したように、オートバイ等のハンドルを操作するユーザー操作が行われた場合、制御値算出部２２１は、ユーザーの状態とコントローラ３０の姿勢に基づき、力覚提示部３３および振動部３４に関して、ハンドルの操作への反動に相当する力覚の提示および振動の発生を示す制御値を算出する。また、制御値算出部２２１は、ハンドルの操作に相当する音声の出力を示す制御値を算出する。
図４Ｃの例で示したように、仮想のバットＶ３を操作するユーザー操作が行われた場合、制御値算出部２２１は、ユーザーの状態とコントローラ３０の姿勢に基づき、力覚提示部３３および振動部３４に関して、実際にバットを操作した際の反動に相当する力覚の提示および振動の発生を示す制御値を算出する。また、制御値算出部２２１は、実際にバットを操作した際に発生する音声に相当する音声の出力を示す制御値を算出する。
なお、図４Ｄの例で示したように、コントローラ３０を使用せずにユーザー操作が行われた場合には、制御値算出部２２１は、コントローラ３０へのフィードバック制御の制御値を算出しない。

【0032】

なお、ここまで説明したコントローラ３０には公知の様々な構成を適用することが可能である。例えば、両手のそれぞれに把持可能な一対のコントローラにより構成されてもよいし、キーボートのような文字入力が可能なコントローラにより構成されてもよいし、スマートフォンなどのアプリケーションにより構成されてもよい。
また、コントローラ３０に、接触センサを備え、接触センサへのユーザーの接触状態を示す情報を、通信部３１を介して情報処理装置２０に供給してもよい。このような情報は、制御値算出部２２１による制御値の算出に利用することができる。
また、コントローラ３０に、音声入力部を備え、音声認識技術を適用してもよい。例えば、コントローラ３０にマイクなどの音声入力部と音声認識部とを備え、ユーザーが発声するコマンドや、ユーザーの呼びかけなどを示す情報を、通信部３１を介して情報処理装置２０に供給してもよい。

【0033】

表示装置４０は、図２に示すように、受信部４１、および表示部４２を含む。
受信部４１は、情報処理装置２０の画像生成部２２２が生成した表示画像を示す情報を、通信部２１を介して受信する。
表示部４２は、例えばＬＣＤ（Liquid Crystal Display）や有機ＥＬなどのモニタを備え、受信部４１により受信した情報に基づき、表示画像を表示することにより、ユーザーに提示することが可能である。

【0034】

なお、上述した表示装置４０には公知の様々な構成を適用することが可能である。例えば、図１に示した専用の表示装置により構成されてもよいし、ユーザーの頭部に装着されるＨＭＤなどの表示装置により構成されてもよい。例えば、ＨＭＤの表示部は、例えばＬＣＤ（Liquid Crystal Display）、有機ＥＬなどの表示素子と、レンズなどの光学装置とを備え、表示素子は、透過型の表示素子であってもよいし、非透過型の表示素子であってもよい。さらに、ＡＲ（Augmented Reality）グラス、ＭＲ（Mixed Reality）グラスなどの装着型デバイスをＨＭＤとして使用してもよい。また、上述した表示装置４０は、コンピュータの表示装置により構成されてもよいし、スマートフォンなどの端末装置の表示装置により構成されてもよい。また、表示部４２の表面に接触を検知するタッチパネルを備えてもよい。

【0035】

情報処理装置２０の制御値算出部２２１は、上述したように、表示装置４０に表示する表示画像へのフィードバック制御の制御値を算出するが、より具体的には、制御値算出部２２１は、ユーザー操作に応じたフィードバック制御として表示画像をどのように変化させるかを示す制御値を算出する。制御値算出部２２１による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。

【0036】

情報処理装置２０の画像生成部２２２は、上述したように、制御値算出部２２１により算出した制御値に応じて表示装置４０に表示する表示画像を生成する。より具体的には、画像生成部２２２は、表示画像を変化させるための制御値にしたがって、新たに表示装置４０に表示する表示画像を生成する。なお、表示画像の生成には、カメラユニット１０により推定したユーザーの状態およびコントローラ３０の姿勢が反映される。そのため、例えば、ユーザーが静止し、コントローラ３０の姿勢が変化しない場合には、生成される表示画像の変化が小さいか変化がなく、ユーザー操作が行われた場合には、生成される表示画像はユーザー操作に応じて変化した画像となる。また、カメラユニット１０の被写界に複数のユーザーが含まれる場合には、生成される表示画像はユーザーの人数に応じて変化した画像となる。

【0037】

図５は、本発明の一実施形態に係るカメラユニット１０の処理の例を示すフローチャートである。図示された例では、ＲＧＢカメラ１１のイメージセンサ１１１がＲＧＢ画像信号１１３を生成する（ステップＳ１０１）とともに、ＥＤＳ１２のセンサ１２１がイベント信号１２３を生成する（ステップＳ１０２）。
そして、第１認識部１４１がユーザーを認識し（ステップＳ１０３）、座標算出部１４２および状態推定部１４４がユーザーの状態を推定する（ステップＳ１０４）。次に、第２認識部１４５がコントローラ３０の状態を推定し（ステップＳ１０５）、姿勢推定部１４６がコントローラ３０の姿勢を推定する（ステップＳ１０６）。
そして、情報出力部１５がユーザーの状態を示す情報、コントローラ３０の姿勢を示す情報、及びユーザーと、当該ユーザーが保持するコントローラとの組み合わせを示す情報を出力する（ステップＳ１０７）。
推定部１４は、ステップＳ１０３からステップＳ１０７を繰り返す（ステップＳ１０１からＳ１０２の処理も繰り返されるが、必ずしもステップＳ１０３以降の処理と同じ周期でなくてもよい）ことにより、情報の出力を継続する。

【0038】

このような処理により、カメラユニット１０は、常に最新のユーザーの状態を示す情報、コントローラ３０の姿勢を示す情報、及びユーザーと、当該ユーザーが保持するコントローラ３０との組み合わせを示す情報を出力する。
情報処理装置２０は、これらの情報に基づいてコントローラ３０へのフィードバック制御の制御値を算出することにより、ユーザーの状態およびコントローラ３０の姿勢の変化に応じた好適なフィードバック制御を実現することができる。
例えば、図６に例示するように、ユーザーの人数が変化する場合を考える。図６Ａに示すように、カメラユニット１０の被写界内に一人のユーザーＵ１が存在する状態では、カメラユニット１０は、ユーザーＵ１の状態を示す情報と、ユーザーＵ１が保持するコントローラ３０_Ｕ１の姿勢を示す情報とを出力し、情報処理装置２０は、コントローラ３０_Ｕ１へのフィードバック制御の制御値を算出する。その後、図６Ｂに示すように、カメラユニット１０の被写界内にもう一人のユーザーＵ２が入ってきた場合、カメラユニット１０は、ユーザーＵ１およびユーザーＵ２の状態を示す情報と、ユーザーＵ１が保持するコントローラ３０_Ｕ１およびユーザーＵ２が保持するコントローラ３０_Ｕ２の姿勢を示す情報と、ユーザーと当該ユーザーが保持するコントローラ３０との組み合わせを示す情報とを出力し、情報処理装置２０は、コントローラ３０_Ｕ１へのフィードバック制御の制御値と、コントローラ３０_Ｕ２へのフィードバック制御の制御値とをそれぞれ算出する。
つまり、ユーザーの人数が動的に変化しても、ユーザーの状態を示す情報、コントローラ３０の姿勢を示す情報、およびユーザーと当該ユーザーが保持するコントローラ３０との組み合わせを示す情報が更新されるため、常に最新の状態に合わせたフィードバック制御を実現することができる。

【0039】

また、例えば、図７に例示するように、ユーザーの人数が変化し、コントローラ３０を保持するユーザーが変化する場合を考える。図７Ａに示すように、カメラユニット１０の被写界内に一人のユーザーＵ１が存在する状態では、カメラユニット１０は、ユーザーＵ１の状態を示す情報と、ユーザーＵ１が保持するコントローラ３０_Ｕ１の姿勢を示す情報とを出力し、情報処理装置２０は、コントローラ３０_Ｕ１へのフィードバック制御の制御値を算出する。その後、図７Ｂに示すように、カメラユニット１０の被写界内にもう一人のユーザーＵ２が入ってきて、ユーザーＵ１が保持していたコントローラ３０_Ｕ１をユーザーＵ２が保持した場合、カメラユニット１０は、ユーザーＵ１およびユーザーＵ２の状態を示す情報と、ユーザーＵ２が保持するコントローラ３０_Ｕ１の姿勢を示す情報と、ユーザーと当該ユーザーが保持するコントローラ３０との組み合わせを示す情報とを出力し、情報処理装置２０は、コントローラ３０_Ｕ１へのフィードバック制御の制御値を算出する。
つまり、あるコントローラ３０を保持するユーザーが動的に変化しても、ユーザーの状態を示す情報、コントローラ３０の姿勢を示す情報、およびユーザーと当該ユーザーが保持するコントローラ３０との組み合わせを示す情報が更新されるため、常に最新の状況に合わせたフィードバック制御を実現することができる。
なお、図示は省略するが、ユーザーの人数が変化せず、コントローラ３０を保持するユーザーが変化する場合についても同様である。何れの場合においても、ユーザーの人数が変化しても、コントローラ３０を保持するユーザーが変化しても、特別な設定処理等を行うことなく、状況に合わせたフィードバック制御を実現することができる。

【0040】

以上で説明したような本発明の一実施形態では、カメラユニット１０は、イメージセンサ１１１およびセンサ１２１によりそれぞれ生成したＲＧＢ画像信号１１３およびイベント信号１２３に基づいて、ユーザーの状態と、当該ユーザーが保持するコントローラ３０の姿勢とを推定して推定結果を出力し、情報処理装置２０は、ユーザーの状態を示す情報とコントローラ３０の姿勢を示す情報との少なくとも一方に基づいて、コントローラ３０へのフィードバック制御の制御値を算出する。
したがって、カメラユニット１０を介したユーザー操作が行われた場合に、ユーザーの状態を示す情報とコントローラ３０の姿勢を示す情報に基づいてコントローラ３０へのフィードバック制御の制御値を算出することにより、レイテンシを抑えつつ、コントローラへの好適なフィードバック制御を実現する。

【0041】

また、ＲＧＢ画像信号１１３およびイベント信号１２３の生成からユーザーの状態およびコントローラ３０の姿勢の推定までをカメラユニット１０で行い、ＲＧＢ画像信号１１３およびイベント信号１２３は出力せずに、推定結果を示す情報を出力することにより、通信負荷や通信遅延の問題を低減することができる。さらに、ＲＧＢ画像信号１１３およびイベント信号１２３を出力する必要がないため、プライバシー保護の点でも有用である。
また、本発明の一実施形態のカメラユニット１０は、ユーザーの状態およびコントローラ３０の姿勢を推定してユーザー操作を受け付けることができるため、従来のポインティングデバイス方式の操作装置のようにカーソル位置を維持するためにユーザーの肉体疲労を引き起こすこともない。また、カメラユニット１０は、従来の姿勢検出方式の操作装置のように認識対象となるマーカーやアタッチメントをユーザーに装着させる必要もない。

【0042】

また、本発明の一実施形態では、ＥＤＳ１２およびＲＧＢカメラ１１の両方を備え、イベント信号１２３とＲＧＢ画像信号１１３とに基づいて、ユーザーの状態およびコントローラ３０の姿勢を推定する。そのため、ＲＧＢ画像信号１１３およびイベント信号１２３のそれぞれの特性を活かした好適な処理を実現することができる。

【0043】

また、本発明の一実施形態では、推定部１４により推定されるユーザーの状態は、ユーザーの姿勢、ユーザーの腕の形状、またはユーザーの手指の形状の少なくとも１つを含む。したがって、特徴的なユーザーの状態を推定し、ユーザー操作の意図や内容を的確に把握することができる。

【0044】

また、本発明の一実施形態では、推定部１４は、複数の関節を有する人物の画像と、複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、ＲＧＢ画像信号１１３に基づく画像に含まれるユーザーの少なくとも１つの関節の座標情報を算出し、座標情報に基づいてユーザーの状態を推定する。したがって、ユーザーの状態を的確かつ高速に推定することができる。

【0045】

また、本発明の一実施形態では、ＲＧＢ画像信号１１３とイベント信号１２３との少なくとも一方に基づいて、被写界に含まれる１以上のユーザーを認識する第１認識部１４１を備え、推定部１４は、第１認識部１４１により認識したユーザーごとに、ユーザーの状態と、当該ユーザーが保持するコントローラ３０の姿勢とを推定する。したがって、カメラユニット１０の被写界に含まれる複数のユーザーごとにユーザー操作を把握することができる。

【0046】

また、本発明の一実施形態では、第１認識部１４１により認識したユーザーごとに、当該ユーザーが保持するコントローラ３０を認識する第２認識部１４５を備え、情報出力部１５は、第１認識部１４１により認識したユーザーと、第２認識部１４５により認識したコントローラ３０との組み合わせを示す情報を出力する。したがって、複数のユーザーにより複数のコントローラ３０が使用されている状態であっても、ユーザーとコントローラ３０との組み合わせをふまえたユーザー操作を把握し、フィードバック制御に反映させることができる。

【0047】

図８は、本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。なお、図８は、図２の情報処理装置２０に代えて、サーバ５０および端末装置６０を備えたシステム２の構成を示すブロック図であり、図８においては、図２と実質的に同一の機能構成を有する構成要素については、同一の符号を付する。

【0048】

図８の例においては、サーバ５０は、カメラユニット１０および端末装置６０とインターネット通信網や、無線によって通信可能に接続されたサーバ（例えば、クラウドサーバ）である。サーバ５０は、図２で説明した情報処理装置２０と同様の構成を有し、カメラユニット１０により出力された情報に基づく各種処理を行う。また、端末装置６０は、通信部６１を備え、通信部６１は、サーバ５０から出力された情報を受信する。また、通信部６１は、図２で説明した情報処理装置２０の通信部２１と同様に、コントローラ３０と相互に通信可能であるとともに、表示装置４０に表示させる画像を出力する。
このような構成により、ＲＧＢ画像信号１１３およびイベント信号１２３の生成から人物の状態の推定までをカメラユニット１０で行い、サーバ５０には推定した情報を出力することにより、クラウドサーバなどのサーバを用いたゲームシステムにおいても同様の効果を得ることができる。

【0049】

また、上記の各例において、ＲＧＢカメラ１１およびＥＤＳ１２の数は同数であってもよいし、異なる数であってもよい。また、ＲＧＢカメラ１１およびＥＤＳ１２の数は、それぞれ１つであってもよいし、複数であってもよい。例えば、複数のＲＧＢカメラ１１を備える場合には、ＲＧＢ画像信号１１３を生成する被写界のレンジを拡大したり、複数のＲＧＢ画像信号１１３から人物の状態を三次元で推定したりすることができる。また、例えば、複数のＥＤＳ１２を備える場合には、イベント信号１２３を生成する被写界のレンジを拡大したり、複数のイベント信号１２３に基づいて、人物の三次元の移動量を算出したりすることができる。

【0050】

また、上記の各例で説明されたカメラユニット１０は、単一の装置内で実装されてもよいし、複数の装置に分散して実装されてもよい。例えば、各センサの少なくとも一部を独立に備え、その他の構成をカメラユニット１０本体として実装してもよい。

【0051】

以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

【符号の説明】

【0052】

１・２…システム、１０…カメラユニット、１１…ＲＧＢカメラ、１２…ＥＤＳ、１３…ＩＭＵ、１４…推定部１４…情報出力部、２０…情報処理装置、２１・３１・６１…通信部、２２…制御部、３２…操作部、３３…力覚提示部、３４…振動部、３５…音声出力部、４０…表示装置、４１…受信部、４２…表示部、５０…サーバ、６０…端末装置、１１１…イメージセンサ、１１２・１２２…処理回路、１１３…ＲＧＢ画像信号、１２１…センサ、１２３…イベント信号、１４１…第１認識部、１４２…座標算出部、１４３…学習済みモデル、１４４…状態推定部、１４５…第２認識部、１４６…姿勢推定部、２２１…制御値算出部、２２２…画像生成部。

【図1】