IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベステル エレクトロニク サナイー ベ ティカレト エー.エス.の特許一覧

特許7162079頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体
<>
  • 特許-頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 図1
  • 特許-頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 図2
  • 特許-頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 図3
  • 特許-頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-19
(45)【発行日】2022-10-27
(54)【発明の名称】頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムを記録する記録媒体
(51)【国際特許分類】
   G06T 7/20 20170101AFI20221020BHJP
   G06F 3/01 20060101ALI20221020BHJP
   G06F 3/0346 20130101ALI20221020BHJP
【FI】
G06T7/20 300A
G06T7/20 300B
G06F3/01 570
G06F3/0346 422
【請求項の数】 9
(21)【出願番号】P 2020565364
(86)(22)【出願日】2018-07-31
(65)【公表番号】
(43)【公表日】2022-03-04
(86)【国際出願番号】 EP2018070797
(87)【国際公開番号】W WO2019223889
(87)【国際公開日】2019-11-28
【審査請求日】2021-06-04
(31)【優先権主張番号】18173425.2
(32)【優先日】2018-05-21
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】513121384
【氏名又は名称】ベステル エレクトロニク サナイー ベ ティカレト エー.エス.
(74)【代理人】
【識別番号】110000637
【氏名又は名称】特許業務法人樹之下知的財産事務所
(72)【発明者】
【氏名】トパル ジハン
(72)【発明者】
【氏名】キリスケン バルバロス
【審査官】片岡 利延
(56)【参考文献】
【文献】特開平09-146692(JP,A)
【文献】米国特許出願公開第2017/0160797(US,A1)
【文献】米国特許出願公開第2016/0148434(US,A1)
【文献】米国特許出願公開第2012/0169887(US,A1)
【文献】国際公開第2008/073801(WO,A2)
【文献】特開2013-156680(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
G06F 3/01
G06F 3/0346
(57)【特許請求の範囲】
【請求項1】
コンピュータ装置(120)を遠隔制御する方法であって、
ビデオフレームから画像を繰り返し撮影し、
前記撮影された画像内で人間の顔を検出し、
前記検出された人間の顔を、先に検出された人間の顔と照合し、
照合元の前記検出された人間の顔から顔の特徴部(140)を抽出し、
前記抽出された顔の特徴部に基づき、照合元の前記検出された人間の顔の3次元の頭部姿勢を推定し、前記3次元の頭部姿勢は、前記人間の顔を起点に方向づけられた3次元の姿勢ベクトルにより自己中心座標系(150)において表され、前記3次元の姿勢ベクトルは、前記自己中心座標系(150)のx軸、y軸およびz軸の周りをそれぞれの回転行列を用いて自由に回転し、前記自己中心座標系(150)の前記x軸、y軸およびz軸上を並進ベクトルを用いて自由に並進し、
前記コンピュータ装置(120)のディスプレイ画面(170)上のユーザインタフェースを前記推定された3次元の頭部姿勢に応じて制御し、
前記コンピュータ装置(120)の前記ディスプレイ画面(170)上の前記ユーザインタフェースを制御することは、前記コンピュータ装置(120)の前記ディスプレイ画面(170)上のカーソル(110)を前記推定された3次元の頭部姿勢にマッピングすることを含み、
前記コンピュータ装置(120)の前記ディスプレイ画面(170)上の前記カーソル(110)を前記推定された3次元の頭部姿勢にマッピングすることは、前記自己中心座標系(150)における前記3次元の姿勢ベクトルを前記ディスプレイ画面(170)の2次元平面の座標系における2次元の姿勢ベクトルに変換することを含み、
前記自己中心座標系(150)における前記3次元の姿勢ベクトルを前記ディスプレイ画面(170)の前記2次元平面の座標系における2次元の姿勢ベクトルに変換することは、前記自己中心座標系(150)の前記3次元の頭部姿勢ベクトルの軸を前記ディスプレイ画面(170)の前記2次元平面に投影し、回転に基づく情報を利用する3次元から2次元へのマッピング関数を適用することを含み、
前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルの座標(x screen ,y screen )は、ピクセルで表され、下記式の前記3次元から2次元へのマッピング関数を適用した後で得られ、
【数1】
【数2】
式中、
Wは、前記ディスプレイ画面(170)の幅(ピクセル単位)を表し、
Hは、前記ディスプレイ画面(170)の高さ(ピクセル単位)を表し、
は、前記ディスプレイ画面(170)の前記座標系の前記x軸上の置換因数を表し、
は、前記ディスプレイ画面(170)の前記座標系の前記y軸上の置換因数を表し、
(x ,y )は、前記自己中心座標系(150)の原点の座標を変換した後の、前記ディスプレイ画面(170)の前記座標系における原点の座標を表し、
(x ,y )は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのz軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのz軸成分の座標を表し、
は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのx軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのx軸成分の横座標を表し、
は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのy軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのy軸成分の縦座標を表す
ことを特徴とする方法。
【請求項2】
請求項に記載の方法であって、前記回転に基づく情報は、ピッチ角およびヨー角に対する方向情報であることを特徴とする方法。
【請求項3】
請求項1または請求項2に記載の方法であって、前記抽出された顔の特徴部は、一般的な3次元の顔モデルと照合させて使用されることを特徴とする方法。
【請求項4】
請求項1または請求項2に記載の方法であって、前記画像は、少なくとも1つの画像撮影装置(160)を用いて前記ビデオフレームから繰り返し撮影されることを特徴とする方法。
【請求項5】
インタラクティブシステム(100)であって、
ビデオフレームから画像を繰り返し撮影するように構成された少なくとも1つの画像撮影装置(160)と、
コンピュータ装置(120)とを備え、
前記コンピュータ装置(120)は、
ディスプレイ画面(170)と、
プロセッサとを備え、
前記プロセッサは、
前記撮影された画像内で人間の顔を検出し、
前記検出された人間の顔を、先に検出された人間の顔と照合し、
照合元の前記検出された人間の顔から顔の特徴部(140)を抽出し、
前記抽出された顔の特徴部に基づき、照合元の前記検出された人間の顔の3次元の頭部姿勢を推定し、前記3次元の頭部姿勢は、前記人間の顔を起点に方向づけられた3次元の姿勢ベクトルにより自己中心座標系(150)において表され、前記3次元の姿勢ベクトルは、前記自己中心座標系(150)のx軸、y軸およびz軸の周りをそれぞれの回転行列を用いて自由に回転し、前記自己中心座標系(150)の前記x軸、y軸およびz軸上を並進ベクトルを用いて自由に並進し、
前記コンピュータ装置(120)のディスプレイ画面(170)上のユーザインタフェースを前記推定された3次元の頭部姿勢に応じて制御するように構成され
前記コンピュータ装置(120)の前記ディスプレイ画面(170)上の前記ユーザインタフェースを制御することは、前記コンピュータ装置(120)の前記ディスプレイ画面(170)上のカーソル(110)を前記推定された3次元の頭部姿勢にマッピングすることを含み、
前記コンピュータ装置(120)の前記ディスプレイ画面(170)上の前記カーソル(110)を前記推定された3次元の頭部姿勢にマッピングすることは、前記自己中心座標系(150)における前記3次元の姿勢ベクトルを前記ディスプレイ画面(170)の2次元平面の座標系における2次元の姿勢ベクトルに変換することを含み、
前記自己中心座標系(150)における前記3次元の姿勢ベクトルを前記ディスプレイ画面(170)の前記2次元平面の座標系における2次元の姿勢ベクトルに変換することは、前記自己中心座標系(150)の前記3次元の頭部姿勢ベクトルの軸を前記ディスプレイ画面(170)の前記2次元平面に投影し、回転に基づく情報を利用する3次元から2次元へのマッピング関数を適用することを含み、
前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルの座標(x screen ,y screen )は、ピクセルで表され、下記式の前記3次元から2次元へのマッピング関数を適用した後で得られ、
【数3】
【数4】
式中、
Wは、前記ディスプレイ画面(170)の幅(ピクセル単位)を表し、
Hは、前記ディスプレイ画面(170)の高さ(ピクセル単位)を表し、
は、前記ディスプレイ画面(170)の前記座標系の前記x軸上の置換因数を表し、
は、前記ディスプレイ画面(170)の前記座標系の前記y軸上の置換因数を表し、
(x ,y )は、前記自己中心座標系(150)の原点の座標を変換した後の、前記ディスプレイ画面(170)の前記座標系における原点の座標を表し、
(x ,y )は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのz軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのz軸成分の座標を表し、
は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのx軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのx軸成分の横座標を表し、
は、前記自己中心座標系(150)における前記3次元の姿勢ベクトルのy軸成分を変換した後の、前記ディスプレイ画面(170)の前記座標系における前記2次元の姿勢ベクトルのy軸成分の縦座標を表す
ことを特徴とするシステム。
【請求項6】
請求項5に記載のインタラクティブシステム(100)であって、前記コンピュータ装置(120)は、照合元の前記検出された人間の顔を記憶するように構成された記憶部を備えることを特徴とするシステム。
【請求項7】
請求項5または請求項6に記載のインタラクティブシステム(100)であって、前記少なくとも1つの画像撮影装置(160)は、前記コンピュータ装置(120)内に実装されることを特徴とするシステム。
【請求項8】
請求項5または請求項6に記載のインタラクティブシステム(100)であって、前記カーソル(110)が前記ディスプレイ画面(170)上で自由に移動するように構成されることを特徴とするシステム。
【請求項9】
プログラム命令を含むコンピュータプログラムを記録する記録媒体であって、前記コンピュータプログラムがデバイス上で実行された場合、前記プログラム命令前記デバイスに請求項1または請求項2に記載の方法を行うように構成されることを特徴とするコンピュータプログラムを記録する記録媒体
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ヒューマン・コンピュータ・インタラクションに関し、限定されるわけではないが、特に頭部のジェスチャーを介してディスプレイ装置を遠隔制御する方法、システムおよびコンピュータプログラムに関する。
【背景技術】
【0002】
ジェスチャーベースのソリューションが進展し、ヒューマン・コンピュータ・インタラクションによるより自然な方法でのディスプレイ装置制御を可能にしている。
【0003】
この非言語ソリューションのほとんどは、ユーザの手を自由にする必要がある手のジェスチャーに基づくが、腕、手および/または指を動かすことを妨げる障害をユーザが持っている場合には制約されることがある。
【0004】
人間工学の観点では、手のジェスチャーを介してディスプレイ装置のインタラクティブな画面上で選択を行うためには、通常ユーザが垂直方向および水平方向に手を動かすことが必要である。しかし、手の動きの範囲が限られていると、ユーザが画面上のすべての位置には手を届かせることができない可能性があるため、画面上のいくつかの特定の位置にのみ静的メニューが表示され、ユーザは対応するメニューボタンに向かって手を動かすことで選択を行なえることを確実とする。 手の動きは、いくつかの環境、例えば、公共の場所、特に空港、鉄道駅、ショッピングセンター等の混雑した公共の場所でも制限されることがある。
【0005】
したがって、ディスプレイ装置の制御のために、ユーザが画面全体のすべての位置にアクセスすることを可能とする代替のヒューマン・コンピュータ・インタラクションを提案することは困難となっている。
【発明の概要】
【0006】
本願明細書に開示される第一の側面によれば、コンピュータ装置を遠隔制御する方法が提供されてもよい。この方法では、ビデオフレームから画像を繰り返し撮影し、撮影された画像内で人間の顔を検出し、検出された人間の顔を、先に検出された人間の顔と照合し、照合元の検出された人間の顔から顔の特徴部を抽出し、抽出された顔の特徴部に基づき、照合元の検出された人間の顔の3次元(3D)の頭部姿勢を推定し、3次元の頭部姿勢は、人間の顔を起点に方向づけられた3次元の姿勢ベクトルにより自己中心座標系において表され、3次元の姿勢ベクトルは、自己中心座標系のx軸、y軸およびz軸の周りをそれぞれの回転行列を用いて自由に回転し、自己中心座標系のx軸、y軸およびz軸上を並進ベクトルを用いて自由に並進し、コンピュータ装置のディスプレイ画面上のユーザインタフェース(UI)を推定された3次元の頭部姿勢に応じて制御してもよい。
【0007】
第一の側面の一例では、コンピュータ装置のディスプレイ画面上のユーザインタフェースを制御することは、コンピュータ装置のディスプレイ画面上のカーソルを推定された3次元の頭部姿勢にマッピングすることを含んでもよい。
【0008】
第一の側面の一例では、コンピュータ装置のディスプレイ画面上のカーソルを推定された3次元の頭部姿勢にマッピングすることは、自己中心座標系における3次元の姿勢ベクトルをディスプレイ画面の2次元平面の座標系における2次元の姿勢ベクトルに変換することを含んでもよい。
【0009】
第一の側面の一例では、自己中心座標系における3次元の姿勢ベクトルをディスプレイ画面(170)の2次元平面の座標系における2次元の姿勢ベクトルに変換することは、自己中心座標系の3次元の頭部姿勢ベクトルの軸をディスプレイ画面の2次元平面に投影し、回転に基づく情報を利用する3次元から2次元へのマッピング関数を適用することを含んでもよい。
【0010】
第一の側面の一例では、回転に基づく情報は、ピッチ角およびヨー角に対する方向情報であってもよい。
【0011】
第一の側面の一例では、ディスプレイ画面の座標系における2次元の姿勢ベクトルの座標(xscreen,yscreen)は、ピクセルで表されてもよく、下記式の3次元から2次元へのマッピング関数を適用した後で得られてもよく、
【数1】
【数2】
式中、
Wは、ディスプレイ画面の幅(ピクセル単位)を表し、
Hは、ディスプレイ画面の高さ(ピクセル単位)を表し、
は、ディスプレイ画面の座標系のx軸上の置換因数を表し、
は、ディスプレイ画面の座標系のy軸上の置換因数を表し、
(x,y)は、自己中心座標系の原点の座標を変換した後の、ディスプレイ画面の座標系における原点の座標を表し、
(x,y)は、自己中心座標系における3次元の姿勢ベクトルのz軸成分を変換した後の、ディスプレイ画面の座標系における2次元の姿勢ベクトルのz軸成分の座標を表し、
は、自己中心座標系における3次元の姿勢ベクトルのx軸成分を変換した後の、ディスプレイ画面の座標系における2次元の姿勢ベクトルのx軸成分の横座標を表し、
は、自己中心座標系における3次元の姿勢ベクトルのy軸成分を変換した後の、ディスプレイ画面の座標系における2次元の姿勢ベクトルのy軸成分の縦座標を表す。
【0012】
第一の側面の一例では、抽出された顔の特徴部は、一般的な3次元の顔モデルと照合させて使用されてもよい。
【0013】
第一の側面の一例では、画像は、少なくとも1つの画像撮影装置を用いてビデオフレームから繰り返し撮影されてもよい。
【0014】
本願明細書に開示される第二の側面によれば、インタラクティブシステムであって、ビデオフレームから画像を繰り返し撮影するように構成された少なくとも1つの画像撮影装置と、コンピュータ装置とを備えたシステムが提供されてもよい。コンピュータ装置は、ディスプレイ画面と、プロセッサとを備えてもよい。プロセッサは、撮影された画像内で人間の顔を検出し、検出された人間の顔を、先に検出された人間の顔と照合し、照合元の検出された人間の顔から顔の特徴部を抽出し、抽出された顔の特徴部に基づき、照合元の検出された人間の顔の3次元(3D)の頭部姿勢を推定し、3次元の頭部姿勢は、人間の顔を起点に方向づけられた3次元の姿勢ベクトルにより自己中心座標系において表され、3次元の姿勢ベクトルは、自己中心座標系のx軸、y軸およびz軸の周りをそれぞれの回転行列を用いて自由に回転し、自己中心座標系のx軸、y軸およびz軸上を並進ベクトルを用いて自由に並進し、コンピュータ装置のディスプレイ画面上のユーザインタフェースを推定された3次元の頭部姿勢に応じて制御するように構成されてもよい。
【0015】
第二の側面の一例では、インタラクティブシステムは、ディスプレイ画面上のユーザインタフェースを制御することが、コンピュータ装置のディスプレイ画面上のカーソルを推定された3次元の頭部姿勢にマッピングすることを含んでもよいように構成されてもよい。
【0016】
第二の側面の一例では、コンピュータ装置は、照合元の検出された人間の顔を記憶するように構成された記憶部を備えてもよい。
【0017】
第二の側面の一例では、少なくとも1つの画像撮影装置は、コンピュータ装置内に実装されてもよい。
【0018】
第二の側面の一例では、カーソルがディスプレイ画面上で自由に移動してもよいように構成されてもよい。
【0019】
本願明細書に開示される第三の側面によれば、プログラム命令を含むコンピュータプログラム製品であって、コンピュータプログラムがデバイス上で実行された場合、コンピュータ装置が第一の側面および第一の側面の例のいずれかに記載の方法を行うように構成されることを特徴とするコンピュータプログラム製品が提供されてもよい。
【図面の簡単な説明】
【0020】
本開示の理解を促進し、どのように実施形態が効果を奏するかを示すため、例示として添付の図面が参照される。
【0021】
図1】本開示に従い、コンピュータ装置のカーソルとユーザの推定された3次元の頭部姿勢との間でリアルタイムマッピングを行う構成の一例を模式的に示す。
図2】本開示に従い、カーソルとユーザの推定された3次元の頭部姿勢との間のリアルタイムマッピングを用いて、コンピュータ装置を遠隔制御するプロセスを示すフローチャートの一例を模式的に示す。
図3】本開示に従い、自己中心座標系における3次元の頭部ベクトルをディスプレイ画面の座標系における2次元の姿勢ベクトルに変換した一例を模式的に示す。
図4】本開示に従い、複数のグラフィック要素/アイコンを有するユーザインタフェースの一例を模式的に示す。
【発明を実施するための形態】
【0022】
人間の頭部の動きまたはジェスチャーは、回転および並進で構成されてもよいため、参照オブジェクト(カメラなど)に対する人間の頭部の位置と向きによって指定される人間の頭部の姿勢を3次元(3D)空間で決定するには、6自由度(DOF)が必要になる場合がある。したがって、人間の頭部の位置は、x軸、y軸およびz軸上の変位量を指し、「t」で表される3×1並進ベクトルで記述されてもよいのに対して、人間の頭部の向きは回転量を指し、自己中心座標系(すなわち、人間の頭がオブジェクトとされるオブジェクト座標フレーム)において3つのオイラー角(ピッチ角、ヨー角およびロール角としても知られる)により記述されてもよい。ピッチは、うなずき動作(すなわち、上向きまたは下向きの頭部の動き)を指し、自己中心座標系の水平軸(すなわち、x軸)の周りの角度量分の回転であると規定されてもよく、この回転は、単一のピッチに基づく3×3回転行列として符号化される。ヨーは、揺れ動作(すなわち、傾きを伴わない左側または右側への頭部の動き)を指し、自己中心座標系の垂直軸(すなわち、y軸)の周りの角度量分の回転であると規定されてもよく、この回転は、単一のヨーに基づく3×3回転行列として符号化される。ロールは、傾き動作(すなわち、左側または右側への頭部の傾き)を指し、自己中心座標系の前述の2つの軸に垂直な軸(すなわち、z軸)の周りの角度量分の回転であると規定されてもよく、この回転は、単一のロールに基づく3×3回転行列として符号化される。したがって、ピッチ、ヨーおよびロールに基づく回転は、人間の頭部等の3次元のオブジェクトを任意の向きに配置するために使用されてもよく、「R」で表される組み合わされた3×3回転行列は、ピッチ、ヨーおよびロールに基づく3×3回転行列を掛け合わせることにより得られる。最終的に、人間の頭部姿勢は、3×4行列「[R|t]」で記述されてもよい3次元の頭部姿勢であり、その行列の左3列は組み合わされた3×3回転行列Rにより構成され、最も右の列は3×1並進ベクトルtにより構成される。
【0023】
図1は、本開示に従い、コンピュータ装置120のカーソル110とユーザ130の推定された3次元の頭部姿勢との間でリアルタイムマッピング(特に、3次元から2次元へのマッピング)を行う構成の一例を模式的に示す。この構成は、インタラクティブシステム100およびユーザ130を備えていてもよい。ユーザ130は、顔の特徴部140(例えば、顔の特徴点)が配置され、推定された3次元の頭部姿勢に対応する3次元の姿勢ベクトルが自己中心座標系150において表される頭部または顔により図示される。図1の例において、インタラクティブシステム100は、コンピュータ装置120と、少なくとも1つの画像撮影装置160(例えば、適切なレンズを有するカラーセンサまたはグレースケールセンサを有するデジタルカメラ、RGBデジタルカメラおよび/または赤外線デジタルカメラ等)とを備えてもよく、少なくとも1つの画像撮影装置160は、コンピュータ装置120の入力側に接続される。別の例において、少なくとも1つの画像撮影装置160は、コンピュータ装置120内に実装され、合わせて単一のユニットに統合されてもよい。図示されるように、コンピュータ装置120は、ディスプレイ画面170を備えてもよく、ディスプレイ画面170上でカーソル110は自由に移動してもよい。ディスプレイ画面170は、ユーザインタフェース(UI)(例えば、グラフィカルユーザインタフェース(GUI))を有して構成されてもよく、カーソル110は、ディスプレイ画面170上でUIのグラフィック要素/アイコンまたはインタフェースオブジェクトと相互作用してもよい。より一般的に、ディスプレイ画面170を有するコンピュータ装置120は、家電製品(例えば、テレビセット、メディアプレーヤー、ゲーム機等)、デジタルサイネージ、タブレット、スマートフォンおよびデジタル広告掲示板等の画面ディスプレイを有する任意のディスプレイ装置を備えてもよいが、これらに限定されない。
【0024】
図2は、本開示に従い、カーソル110とユーザ130の推定された3次元の頭部姿勢との間のリアルタイムマッピングを用いて、コンピュータ装置120を遠隔制御するプロセスを示すフローチャートの一例を模式的に示す。このプロセスは、図1の構成に関連して以下に説明される。
【0025】
S1において、少なくとも1つの画像撮影装置160は、ビデオフレームから画像を繰り返し撮影し、撮影された画像をコンピュータ装置120のプロセッサまたは演算部に提供するように構成されてもよい。
【0026】
S2において、プロセッサまたは演算部は、例えば、顔検出アルゴリズムおよび顔境界矩形/ボックスを用いて、撮影された画像内で人間の顔を検出するように構成されてもよく、この構成は、第1の手法においていわゆる積分画像を、第2の手法において単純で効率的な分類器を、第3の手法において分類器のカスケードを用いて、高い検出精度を達成しつつ、演算時間を最小にする、ビオラ P.およびジョーンズ M.J.著「Robust Real-Time Face Detection(堅牢なリアルタイム顔検出)」(International Journal of Computer Vision(コンピュータビジョンの国際ジャーナル)、57巻、2刷、137ー154ページ、2004年5月)において特に見出されるが、これに限定されない。
【0027】
S3において、プロセッサまたは演算部は、例えば、顔認識アルゴリズムを用いて、検出された人間の顔をコンピュータ装置120の記憶部(例えば、メモリ)に記憶された、先に検出された人間の顔と照合させるように構成されてもよい。実際、検出された人間の顔の照合は、各連続したビデオフレームに対して行われるため、任意の適切で高速かつ効率的な顔認識アルゴリズムが使用されてもよく、この構成は非常に高速な特徴抽出を可能にする単純な顔認識方法を開示するアホーネン T.、ハディッド A.およびピエティカイネン M.著「Face Recognition with Local Binary Patterns(ローカルバイナリパターンによる顔認識)」(8th European Conference on Computer Vision(ECCV) in Prague(CZE)(プラハ(チェコ)での第8回欧州コンピュータビジョン会議(ECCV))、469-481ページ、2004年5月)において特に見出されるが、これに限定されない。一例において、検出された人間の顔は、任意の他の認識タスクを適用することなく、単に人間の顔の空間座標を比較するのみで照合させてもよい。
【0028】
S4において、プロセッサまたは演算部は、照合ありの場合、すなわち検出された人間の顔が特定または追跡できない場合、S1に戻ることを決定し、照合なしの場合、S5に進むことを決定するように構成されてもよい。
【0029】
S5において、プロセッサまたは演算部は、例えば、顔の特徴部抽出アルゴリズムを用いて、照合元の検出された人間の顔から顔の特徴部140を抽出し、これらの抽出された顔の特徴部140を一般的または平均的な3次元の顔モデルと照合して使用するように構成されてもよい。
【0030】
S6において、プロセッサまたは演算部は、抽出された顔の特徴部140およびそれに対応する一般的または平均的な3次元の顔モデルに基づき、検出・照合された人間の顔の3次元の頭部姿勢を推定するように構成されてもよい。3次元の頭部姿勢は、3次元の姿勢ベクトルにより表されてもよく、3次元の姿勢ベクトルは、人間の顔を起点に方向づけられ、自己中心座標系150の仮想x軸、y軸およびz軸の周りでそれぞれの3×3回転行列を用いて回転量(すなわち、角度量)分自由に回転し、当該仮想x軸、y軸およびz軸上で3×1並進ベクトルtを用いて変位量分自由に並進移動する。したがって、人間の頭部の向きおよび位置は、3次元の頭部姿勢の推定において考慮されてもよいため、ピッチ、ヨーおよびロールに基づく3×3回転行列、それらを組み合わせた3×3回転行列Rならびに3×1並進ベクトルtが、プロセッサまたは演算部により演算されることで、3次元の頭部姿勢を推定する。複数の人間の顔が同じ撮影画像において検出されてもよいことを理解されたい。これらの検出された人間の顔のすべてが、それぞれ先に検出された人間の顔と照合できる場合、検出された人間の顔それぞれの頭部姿勢は、それぞれの識別する3D姿勢ベクトルにより表され得る。
【0031】
S7において、プロセッサまたは演算部は、コンピュータ装置120のディスプレイ画面170上のカーソル110を推定された3次元の頭部姿勢にリアルタイムでマッピングすることにより、コンピュータ装置120のディスプレイ画面170上のUIを推定された3次元の頭部姿勢に応じて制御するように構成されてもよい。このマッピングは、自己中心座標系150の3次元の頭部姿勢ベクトルの軸をディスプレイ画面170の2次元平面に投影し、カーソル位置を演算および決定するための3次元から2次元へのマッピング関数を適用することにより、自己中心座標系150における3次元の姿勢ベクトルをディスプレイ画面170の2次元平面の座標系における2次元の姿勢ベクトルに変換することを含んでもよい。一例において、3Dから2Dへのマッピング関数は、ディスプレイ画面170の座標系における2次元の姿勢ベクトルの座標(すなわち、xの値およびyの値)を演算することにより、カーソル位置を決定するために、ピッチ角およびヨー角に対する方向情報を利用する。図3に示されるように、ディスプレイ画面170の座標系における2次元の姿勢ベクトルの座標(xscreen, yscreen)は、ピクセルで表され、下記式の3次元から2次元へのマッピング関数を適用した後得られてもよい。
【数3】
【数4】
式中、
Wは、ディスプレイ画面170の幅(ピクセル単位)を表し、
Hは、ディスプレイ画面170の高さ(ピクセル単位)を表し、
は、ディスプレイ画面170の座標系のx軸上の置換因数を表し、
は、ディスプレイ画面170の座標系のy軸上の置換因数を表し、
(x,y)は、自己中心座標系150の原点の座標(0,0,0)を変換した後に得られるディスプレイ画面170の座標系における原点の新しい座標を表し、
(x,y)は、自己中心座標系150における3次元の姿勢ベクトルの座標(0,0,k)のz軸成分を変換した後に得られるディスプレイ画面170の座標系における2次元の姿勢ベクトルのz軸成分の新しい座標を表し、
は、自己中心座標系150における3次元の姿勢ベクトルの座標(k,0,0)のx軸成分を変換した後に得られるディスプレイ画面170の座標系における2次元の姿勢ベクトルのx軸成分の新しい横座標を表し、
は、自己中心座標系150における3次元の姿勢ベクトルの座標(0,k,0)のy軸成分を変換した後に得られるディスプレイ画面170の座標系における2次元の姿勢ベクトルのy軸成分の新しい縦座標を表す。
【0032】
置換因数(f,f)は、頭部移動の単位ごとに、すなわち、1度単位で、カーソル110の変位を制御してもよい係数と同様に機能することを理解されたい。すなわち、置換因数(f,f)が大きくなるにつれて、カーソル110の変位は、大きくなる。カーソル110の変位は、水平(x軸)方向および垂直(y軸)方向に対して別々に調整され得る。人間の頭部(すなわち、ユーザの頭部)の垂直方向の角度範囲が水平方向の角度範囲より狭いことを補うために、垂直(y軸)方向における移動に対する置換因数fは、水平(x軸)方向における移動に対するfより大きい値に設定されてもよい。それにより、置換因数fおよびfは、水平方向の移動と垂直方向の移動を同期させるために使用され得る。
【0033】
上述したように、人間の頭部の位置は、自己中心座標系150の仮想x軸、y軸及びz軸上の変位量を指す。したがって、3次元の頭部姿勢は、特にその位置により指定されるが、ユーザ130および少なくとも1つの画像撮影装置160の相対的な位置、すなわちユーザ130と少なくとも1つの画像撮影装置160との間の距離に応じて変わることを理解されたい。一方、3次元から2次元へのマッピング関数を用いたカーソル位置の決定は、少なくとも1つの画像撮影装置160の位置に対するユーザ130の位置に関係なく、同じユーザ体験を提供するという利点を有する。実際、3次元から2次元へのマッピング関数は、カーソル位置を演算および決定するために、並進に基づく情報を利用せず、むしろ回転に基づく情報、すなわち、特にピッチ角およびヨー角に対する方向情報を利用する。これにより、3次元から2次元へのマッピング関数は、ユーザ130の位置の変化の影響を相殺することを可能とする。
【0034】
さらに、ディスプレイ画面170上のカーソル位置は、ユーザが自身の頭部で指し示す場所でないことを理解されたい。換言すれば、カーソル110の物理的な位置は、頭部の方向がコンピュータ装置120のディスプレイ画面170と交差する場所ではない。
【0035】
図4は、本開示に従い、複数のグラフィック要素/アイコン411-415を有するユーザインタフェース(UI)の一例を模式的に示す。頭部のジェスチャーまたは動き(すなわち、3次元の頭部姿勢の向きの変化につながるピッチに基づく回転および/またはヨーに基づく回転および/またはロールに基づく回転)に起因して、ユーザは、コンピュータ装置420(テレビセットとして図示)のディスプレイ画面430上のグラフィック要素411-415(ボタンとして図示)のうちの1つの上にカーソル410(矢印として図示)を遠隔で位置付けてもよく、その後、カーソル410を所定の位置に保持するか、すなわち所定の時間(例えば、500ミリ秒)停留させることにより、または特定のジェスチャーを行うことにより、選択操作を行ってもよい。選択されたグラフィック要素411-415は、よりよく視覚化するために、選択操作に応答してハイライト表示されてもよい。図4の例において、ユーザの頭部のジェスチャーは、カーソル410をグラフィック要素412に合わせ、カーソル410を所定の時間・所定の位置で保持することにより、音量を上げることを可能とするこの要素412を選択する。
【0036】
要約すると、本開示は、ヒューマン・コンピュータ・インタラクション手続きに関し、当該手続きは、ユーザが自身の頭部を用いてディスプレイ画面を有するコンピュータ装置を遠隔制御することを可能とするものである。コンピュータ装置のリモコンには、ユーザの顔画像を連続的に取得する1つ以上の画像撮影装置(例えば、1つ以上のカメラ)を採用する。取得された画像は、その後、コンピュータ装置に送られ、コンピュータビジョンアルゴリズムを用いてプロセッサまたは演算部により処理される。その後、ユーザの頭部の3次元の姿勢は、向き(3×3回転行列)および位置(3×1並進ベクトル)で指定され、自己中心座標系における推定される3次元の頭部姿勢とコンピュータ装置のディスプレイ画面の2次元平面の座標系におけるカーソルとの間でリアルタイムマッピングを構築することを目的として推定される。微細な頭部の動きまたはジェスチャー(特に、推定された3次元の頭部姿勢の向きの変化につながるピッチおよびヨーに基づく回転)を通して、ユーザは、ディスプレイ画面上の任意の位置に到達し得、推定された3次元の頭部姿勢とリアルタイムでマッピングされたカーソルを停留させることにより、ユーザインタフェースの任意のグラフィック要素を選択し得る。提案されたインタラクション手続きは、テレビセットおよびデジタルサイネージスクリーン等の多くの実生活への応用例において利用され得る。例えば、空港にいる乗客は、手を用いない非接触で較正不要な方法で自身の頭部の微細な動きまたはジェスチャーのみにより、ゲート番号またはフライトの搭乗時間を調べるために、デジタル情報画面とやり取りし得る。
【0037】
集積回路、プロセッサ、プロセシングシステムまたは回路と本明細書に記載されるものは、実際には、単一のチップまたは集積回路、あるいは、複数のチップまたは集積回路により提供されてもよく、任意で、チップセット、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル・シグナル・プロセッサ(DSP)、グラフィクス・プロセッシング・ユニット(GPUs)等として提供されてもよい。 このチップまたは複数のチップは、例示的な実施形態に従い動作するよう構成可能なデータプロセッサ、デジタル・シグナル・プロセッサ、ベースバンド回路および無線周波数回路の少なくとも1つを実装するための回路(ならびに場合によってファームウェア)を備えてもよい。 この点に関し、例示的な実施形態は、少なくとも部分的に(非一時的)メモリに記憶されプロセッサにより実行可能なコンピュータソフトウェア、ハードウェア、または有形に格納されたソフトウェアとハードウェア(および有形に格納されたファームウェア)との組み合わせにより実装されてもよい。
【0038】
図面を参照して本明細書に記載される実施形態の少なくともいくつかの側面では、処理システムまたはプロセッサにより実行されるコンピュータプロセスを含むものの、本発明の範囲は、本発明を実施可能なコンピュータプログラム、特に媒体上/内のコンピュータプログラムにも及ぶ。このプログラムは、非一時的なソースコード、オブジェクトコード、部分的に蓄積された形態等のコード中間ソースおよびオブジェクトコード、または、本発明に従ったプロセスの実施に使用されるのに適切な任意の他の非一時的形態であってもよい。キャリアは、プログラムを実行できる任意のエンティティまたはデバイスであってよい。例えば、このキャリアは、ソリッドステートドライブ(SSD)または他の半導体ベースのランダムアクセスメモリ(RAM)、コンパクトディスク(CD)-ROMまたは半導体ROM等の読み出し専用メモリ(ROM)、フロッピィディスクまたはハードディスク等の磁気記憶媒体、一般の光学記憶装置等の記憶媒体を含んでもよい。
【0039】
本明細書に記載される例は、本発明の実施形態を説明するための例として理解されるべきである。別の実施形態および例が想定される。任意の1つの例または実施形態に関連して記載される任意の特徴は、単独で、または他の特徴と組み合わせて使用可能である。加えて、任意の1つの例または実施形態に関連して記載される任意の特徴は、任意の他の例もしくは実施形態、または任意の他の例もしくは実施形態の任意の組み合わせの1つ以上の特徴と組み合わせて使用可能である。さらに、本明細書に記載されない均等物および変形例も、請求項に定義される本発明の範囲内で利用可能である。
図1
図2
図3
図4