IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイトダンス ネットワーク テクノロジー カンパニー リミテッドの特許一覧

<>
  • 特許-制御方法、装置、端末および記憶媒体 図1
  • 特許-制御方法、装置、端末および記憶媒体 図2
  • 特許-制御方法、装置、端末および記憶媒体 図3
  • 特許-制御方法、装置、端末および記憶媒体 図4
  • 特許-制御方法、装置、端末および記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-02
(45)【発行日】2024-07-10
(54)【発明の名称】制御方法、装置、端末および記憶媒体
(51)【国際特許分類】
   G06F 3/01 20060101AFI20240703BHJP
【FI】
G06F3/01 570
【請求項の数】 25
(21)【出願番号】P 2022574219
(86)(22)【出願日】2021-06-04
(65)【公表番号】
(43)【公表日】2023-06-30
(86)【国際出願番号】 CN2021098464
(87)【国際公開番号】W WO2021244650
(87)【国際公開日】2021-12-09
【審査請求日】2022-12-01
(31)【優先権主張番号】202010507222.8
(32)【優先日】2020-06-05
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520476341
【氏名又は名称】北京字節跳動網絡技術有限公司
【氏名又は名称原語表記】Beijing Bytedance Network Technology Co., Ltd.
【住所又は居所原語表記】Room B-0035, 2/F, No.3 Building, No.30, Shixing Road, Shijingshan District Beijing 100041 China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】方 ▲遅▼
(72)【発明者】
【氏名】王 笑
【審査官】菅原 浩二
(56)【参考文献】
【文献】特開2018-005663(JP,A)
【文献】国際公開第2020/049847(WO,A1)
【文献】国際公開第2011/142317(WO,A1)
【文献】特表2016-520946(JP,A)
【文献】特開2011-076255(JP,A)
【文献】特開2009-104297(JP,A)
【文献】米国特許出願公開第2018/0011543(US,A1)
【文献】米国特許出願公開第2015/0338651(US,A1)
【文献】特開2018-131110(JP,A)
【文献】特表2015-508539(JP,A)
【文献】特開2015-122124(JP,A)
【文献】特開2019-133395(JP,A)
【文献】米国特許出願公開第2019/0090786(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
第1の機械学習モデルによって、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することであり、前記第1の機械学習モデルは、人体の第1の部位の動的な位置変化を認識するよう訓練されている、前記移動軌跡を特定することと、
第2の機械学習モデルによって、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することであり、前記第2の機械学習モデルは、前記人体の第2の部位の静的な姿勢情報を認識するよう訓練されている、前記制御指令を特定することと、
を含むことを特徴とする制御方法。
【請求項2】
前記第1の部位と前記第2の部位とは、同一ユーザの異なる身体部位に属し、および/または、第1の部位と第2の部位は包含関係にないことを特徴とする請求項1に記載の制御方法。
【請求項3】
前記第1の部位の位置の変化は、前記第2の部位の位置の変化を反映し、および/または、前記第1の部位自体の位置および/または姿勢は、前記第2の部位の姿勢に影響を及ぼさないことを特徴とする請求項1に記載の制御方法。
【請求項4】
前記第1の部位が手首であり、前記第2の部位が手であることを特徴とする請求項1に記載の制御方法。
【請求項5】
前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することは、
第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得することと、
第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得することと、を含み、
前記第1の計算モジュールは、前記第1の機械学習モデルを実行するためのものであり、前記第2の計算モジュールは、前記第2の機械学習モデルを実行するためのものである、ことを特徴とする請求項1に記載の制御方法。
【請求項6】
前記した、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、
前記第2の部位の姿勢情報が所定の第1の姿勢に合致する場合、前記第2の部位の姿勢情報に応じて前記視覚要素を制御することを含む、または、
前記第2の部位の姿勢情報が所定の第1の姿勢に適合しない場合には、前記視覚要素の制御は行われないことを含む、ことを特徴とする請求項1に記載の制御方法。
【請求項7】
少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することをさらに含み、
前記少なくとも2つのフレームの対象画像を特定する方法には、
前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合、前記第2の部位の姿勢情報に対応する画像を対象画像とすることと、
連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択することと、を含む、
ことを特徴とする請求項1に記載の制御方法。
【請求項8】
少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することには、
前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定することと、
前記第1の部位の動き情報に基づいて前記視覚要素を制御することと、を含む、
ことを特徴とする請求項に記載の制御方法。
【請求項9】
前記第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む
とを特徴とする請求項に記載の制御方法。
【請求項10】
前記した、前記第1の部位の動き情報に基づいて前記視覚要素を制御することには、
前記第1の部位の動き情報が所定の動き条件を満たすか否かを判定することと、
満たす場合、前記第1の部位の動き情報に基づいて、前記視覚要素のスクロール方向およびスクロール距離を特定することと、
を含む、ことを特徴とする請求項8又は9に記載の制御方法。
【請求項11】
前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、
前記視覚要素をスクロールまたは移動することを含む
とを特徴とする請求項7乃至9のうちいずれか一項に記載の制御方法。
【請求項12】
前記第2の姿勢は、所定の数の指が開くことである、
ことを特徴とする請求項7乃至11のうちいずれか一項に記載の制御方法。
【請求項13】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
前記第2の部位の姿勢情報が所定の第3の姿勢に合致する場合には、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む
とを特徴とする請求項1に記載の制御方法。
【請求項14】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
隔離した画像から取得した第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む、
ことを特徴とする請求項1に記載の制御方法。
【請求項15】
前記した、画像を受信することには、撮像装置によって取得された画像を受信することを含み、
前記撮像装置は、単一のRGBカメラであり、
前記制御方法は、前記画像の色空間をHSV色空間に変換するために、前記画像をHSV色空間前処理することをさらに含む、
ことを特徴とする請求項1に記載の制御方法。
【請求項16】
前記制御方法は、さらに、前記画像に対して2値化前処理とホワイトバランス前処理とを行うことを含む、
ことを特徴とする請求項1に記載の制御方法。
【請求項17】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
前記第1の部位の位置情報に基づいてフィルタリングアルゴリズム及び手振れ防止アルゴリズムを用いて前記ナビゲーション識別子の最終的な移動軌跡を特定することを含む、ことを特徴とする請求項15に記載の制御方法。
【請求項18】
前記した、前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、
前記画像中のユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することを含む
とを特徴とする請求項1に記載の方法。
【請求項19】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
制御対象機器に対する前記第1の部位の位置情報に基づいて、前記制御対象機器上のナビゲーション識別子の移動軌跡を特定することを含み、
前記制御指令が前記ナビゲーション識別子が指す視覚要素を制御するために使用されることには、前記制御指令が、前記ナビゲーション識別子が指す、前記制御対象機器上に位置する視覚要素を制御するために使用されることを含む、
ことを特徴とする請求項1に記載の制御方法。
【請求項20】
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、を含む、
ことを特徴とする制御方法。
【請求項21】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することには、
制御対象装置に対する前記第1の部位の位置情報に基づいて、前記制御対象装置上のナビゲーション識別子の位置および/または移動軌跡を特定し、前記位置および/または移動軌跡に基づいて、前記ナビゲーション識別子が指す制御対象要素を特定することを含む、
とを特徴とする請求項20に記載の制御方法。
【請求項22】
前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することには、
少なくとも2つのフレームの対象画像によって取得された第1の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することを含む、
ことを特徴とする請求項20に記載の制御方法。
【請求項23】
前記ナビゲーション識別子が指す制御対象要素を制御することには、
制御対象装置上での制御対象要素の移動を制御すること、を含むことを特徴とする請求項21に記載の制御方法。
【請求項24】
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
第1の機械学習モデルによって、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部であり、前記第1の機械学習モデルは、人体の第1の部位の動的な位置変化を認識するよう訓練されている、前記移動軌跡部と、
第2の機械学習モデルによって、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部であり、前記第2の機械学習モデルは、前記人体の第2の部位の静的な姿勢情報を認識するよう訓練されている、前記制御指令部と、を含むことを特徴とする制御装置。
【請求項25】
制御装置であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続される少なくとも1つのメモリと、
を含み、
前記メモリに記憶されている指令が前記少なくとも1つのプロセッサにより実行されると、前記制御装置は、
画像を受信し、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得し、
第1の機械学習モデルによって、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第1の機械学習モデルは、人体の第1の部位の動的な位置変化を認識するよう訓練されており
第2の機械学習モデルによって、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定し、前記第2の機械学習モデルは、前記人体の第2の部位の静的な姿勢情報を認識するよう訓練されている、ことを特徴とする制御装置。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2020年06月05日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である中国特許出願第202010507222.8号の優先権を主張して2021年6月4日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である国際特許出願第PCT/CN2021/098464号に基づくものであり、両出願の全ての内容はここで参照により本出願に援用される。
【0002】
[技術分野]
本開示は、コンピュータ技術の分野に関するものであり、特に、制御方法、装置、端末および記憶媒体に関する。
【背景技術】
【0003】
スマートテレビは、多種多様な番組やアプリを搭載してユーザが選択し視聴できるようになり、従来のテレビに代わって広く使われている。従来のスマートテレビはリモコンで制御され、一般的に、上下左右の4つの方向キーしか選択方向を制御することができず、インタラクティブの効率が悪く、時間および工夫を要していた。
【発明の概要】
【0004】
簡単な形式で構想を説明するためにこの発明の概要を提供する。これらの構想は、後述の具体的な実施例の部分で詳細に説明される。当該発明の内容の部分は、特許請求する発明の重要な特徴又は必要な特徴を標識することを目的とするものではなく、特許請求する発明の範囲を制限することを目的とするものでもない。
【0005】
本開示の1つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することと、を含む制御方法が提供される。
【0006】
本開示の1つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、
を含む制御方法が提供される。
【0007】
本開示の1つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部と、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を含む
制御装置が提供される。
【0008】
本開示の1つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
第1の部位の位置情報に基づいてナビゲーション識別子の位置情報を特定する、及び/又は、前記第1の部位の位置情報及び/又は第2の部位の所定の姿勢に基づいて制御対象 要素を移動させる移動軌跡部と、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定する制御指令部と、を含む制御装置が提供される。
【0009】
本開示の1つまたは複数の実施例によれば、
端末が提供され、
該端末は、少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、
前記メモリがプログラムコードを格納するために使用され、前記プロセッサがメモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の1つまたは複数の実施例による制御方法を前記端末に実行させる。
【0010】
本開示の1つまたは複数の実施例によれば、コンピュータ記憶媒体が提供され、前記コンピュータ記憶媒体にはプログラムコードが記憶され、前記プログラムコードがコンピュータ装置により実行される場合、本開示の1つまたは複数の実施例に係る制御方法を前記コンピュータ装置に実行させることを特徴とする。
【0011】
本開示の1つまたは複数の実施例に係る制御方法によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別位置の特定とを分離させる。制御指令の特定は静的な姿勢情報に基づくものであり、ナビゲーション識別位置の特定は動的な位置変化に基づくものであるため、異なる特性のアルゴリズムを用いて上記2つのプロセスを個別に決定することにとって都合が良い。一方で、制御指令の特定とナビゲーション識別位置の特定とは、ユーザの異なる身体部位に基づくものであるため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができるため、ユーザ指令の認識精度を向上させることができる。
【図面の簡単な説明】
【0012】
図面と併せて以下の具体的な実施例を参照して、本開示の実施例の上記および他の特徴、利点、および態様がより明らかになる。以下の図面において、同一又は類似の符号は、同一又は類似の要素を表す。図面は模式的なものであり、部品及び要素は実際の縮尺通りに描かれているとは限らないことが理解されるべきである。
【0013】
図1】本開示の一実施例に係る制御方法のフローチャートを示す図である。
図2】本開示の一実施例に係る制御方法が遠視野表示装置を制御する場面を示す概略図である。
図3】本開示の他の実施例に係る制御方法のフローチャートを示す。
図4】本開示の1つまたは複数の実施例に係る制御装置の構成模式図である。
図5】本開示の実施例を実現するための端末装置の構成模式図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、本開示の実施例についてより詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示は様々な形態で実現可能であって、ここに記載される実施例に限定されるものとして解釈されるべきではなく、むしろ、本開示をより明瞭かつ完全に理解するためにこれらの実施例が提供されることが理解されるべきである。本開示の図面および実施例は、例示的なものだけであり、本開示の技術的範囲を制限するために使用されるものではないことが理解されるべきである。
【0015】
本開示の方法の実施形態に記載された各ステップは、異なる順序で実行され、および/または並行して実行されてもよいことが理解されるべきである。さらに、方法の実施形態は、追加のステップを含むことができ、および/または示されたステップの実行を省略することができる。本開示の範囲は、この点において限定されない。
【0016】
本明細書で使用される用語である「含む」およびその変形は、オープンな包含、すなわち「包含するが、限定されるものではない」ことを意味する。用語「基づく」は、「少なくとも部分的に基づく」ことを意味する。用語「1つの実施例」は、「少なくとも1つの実施例」を意味する。用語「別の実施例」は、「少なくとも1つの追加の実施例」を意味する。用語「いくつかの実施例」は、「少なくともいくつかの実施例」を意味する。他の用語の関連の定義は、以下の説明で与えられる。
【0017】
本開示で言及されている「第1の」、「第2の」などの概念は、異なるデバイス、モジュール、またはユニットを区別するためにのみ使用され、これらのデバイス、モジュール、またはユニットによって実行される機能の順序または相互依存関係を規定するものではないことに留意されたい。
【0018】
なお、本開示で言及されている「1つの」、「複数の」の言葉は、限定的ではなく概略的なものであり、文脈において別段の明示的な記載がない限り、「1つまたは複数の」と理解されるべきであることは、当業者に理解されることである。
【0019】
本開示の実施形態における複数のデバイス間でやりとりされるメッセージまたは情報の名称は、単に説明の目的のために使用されるものであり、これらのメッセージまたは情報の範囲を制限するために使用されるものではない。
【0020】
図1を参照する。図1は、本開示の一実施例に係る制御方法100のフローチャートを示す。該方法100は、遠隔視野表示装置を含んでもよいが、これに限定されない端末装置に使用することができ、遠隔視野表示装置とは、ユーザが身体の部位による直接の接触又はタッチペンなどの物理的制御装置による接触制御を行うことができない表示装置を指し、テレビ、会議用スクリーンのような電子装置を含むが、これに限定されない。具体的には、方法100は、ステップS101~ステップS104を含む。
【0021】
ステップS101:撮像装置によって取得された画像を受信する。
【0022】
ここで、撮像装置は、端末装置に内蔵または外付けされていてもよく、撮像された画像データをリアルタイムで端末装置に送信して処理することができる。有利なことには、撮像装置は、ユーザが端末装置に対して行った手足による指示を捕捉するように、ユーザに正対面するように配置されることができる。
【0023】
なお、他のいくつかの実施例では、他の方法で画像を受信してもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はここで限定されない。
【0024】
ステップS102:画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得する。
【0025】
ここで、第1の部位および第2の部位は、手、腕など、ユーザの身体部位である。第1の部位の位置情報とは、画像における第1の部位の位置、又は制御対象とする端末装置に対する第1の部位の位置情報をいう。第2の部位の姿勢情報とは、第2の部位が所在する形態、例えばジェスチャーなどである。
【0026】
例として、前記画像中のユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することができる。
【0027】
ステップS103:第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。
【0028】
ここで、ナビゲーション識別子は、表示インターフェース上の視覚要素を選択および制御するために使用される。ナビゲーション識別子は、Windows(登録商標)システムのマウスポインタなどのアイコンで表すことができる。ナビゲーション識別子を非表示にしたり、視覚要素をハイライトしたり、その他のアニメーション効果を生成したりすることで視覚要素が選択されていることを示すことができる。ナビゲーション識別子の移動軌跡は、ナビゲーション識別子の移動の変位および方向を反映する1つまたは1組の移動ベクトルを含む。ナビゲーション識別子の移動軌跡は、ユーザの第1の部位の位置情報によって決定される。
【0029】
例として、第1の部位の位置情報からナビゲーション識別子が指す制御対象要素を特定することができる。例えば、制御対象装置に対する第1の部位の位置情報に基づいて、制御対象装置上のナビゲーション識別子の位置および/または移動軌跡を特定し、前記位置および/または移動軌跡に基づいて、ナビゲーション識別子が指す制御対象要素を特定する。
【0030】
ステップS104:第2の部位の姿勢情報から、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。
【0031】
ここで、ナビゲーション識別子の制御指令はナビゲーション識別子で指される視覚要素に対する制御あるいは実行する操作であり、視覚要素に対するクリック、軽く触れること、長押し、拡大、縮小、回転などを含む。いくつかの実施例では、各第2の部位の姿勢情報と制御指令とのマッピング関係を予め設定しておき、該マッピング関係から、取得した第2の部位の姿勢情報に対応する制御指令を特定することができる。
【0032】
このように、本開示の実施例に係る制御方法によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性のアルゴリズムを用いて上記の2つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は動的に変化する位置情報に基づいて行われるため、上述の2種類の異なる計算特性に対して、対応する特性を持つ計算モジュールを用いてそれぞれ第1の部位の位置情報と第2の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置の特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがないため、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。
【0033】
いくつかの実施例では、第1の部位および前記第2の部位は、同じユーザの異なる身体部位である。第1の部位と第2の部位とは包含関係になく、例えば、第2の部位が手である場合、第1の部位は手首、肘であり、指ではない。本開示の実施例は、ユーザの異なる身体部位によって、ナビゲーション識別子の移動軌跡と制御指令とをそれぞれ特定することにより、ユーザが第1の部位の位置を変更した場合に制御指令の確認に影響を与えたり、ユーザが第2の部位の姿勢を変更した場合にナビゲーション識別子の移動軌跡の確認に影響を与えたりすることを防止することができる。
【0034】
いくつかの実施例では、前記第2の部位の位置は、前記第1の部位の位置の変化に追従して変化することができる。前記第1の部位自体の位置または姿勢は、前記第2の部位の姿勢に影響を及ぼさない。このようにして、第2の部位の位置は第1の部位の位置に追従して変化するため、第1の部位と第2の部位とが互いに関連する空間内で活動できるようにする。両者の空間距離が大きすぎることに起因して撮像装置が撮像範囲の制限によって第1の部位と第2の部位とを同時に撮像することが困難になることを回避し、第1の部位と第2の部位とを用いた制御対象要素の制御の成功率および操作性を向上させる。また、第1の部位の位置及び/又は姿勢の変化が第2の部位の姿勢に影響を与えることがないため、第2の部位の姿勢に基づく制御指令の生成の精度を向上させることができ、これにより、ナビゲーション識別子の位置制御及び制御指令の発行を正確かつ容易に行うことができる。
【0035】
いくつかの実施例では、第1の部位は手首であり、第2の部位はである。本開示の実施例では、手首はジェスチャーの変位を正確かつ安定して反映することができ、指や手のひらなどの部位よりもジェスチャーの変化の影響を受けにくく、ナビゲーション識別子の移動の正確な制御を実現することができる。また、手首の動きがジェスチャーに影響を与えないため、制御指令を容易かつ正確に行うことができる。
【0036】
いくつかの実施例では、ステップS102はさらに以下のことを含む:
ステップA1:第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得する。
【0037】
ステップA2:第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得する。
【0038】
制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は、動的な位置変化に基づいて行われるため、本実施例では、特性の異なる計算モジュールを用いて、第1の部位の位置情報と第2の部位の姿勢情報とをそれぞれ計算することにより、情報取得の適合性を高め、計算精度および計算リソースの利用率を向上させることができる。
【0039】
いくつかの実施例では、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。第1および第2の機械学習モデルは、ユーザの第1の部位および第2の部位を確実に識別するように訓練される。訓練した機械学習モデルを用いて第1の部位の位置情報と第2の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースおよびハードウェアのコストを削減することができる。
【0040】
いくつかの実施例では、ステップS104は、さらに以下のことを含む:
ステップB1:前記第2の部位の姿勢情報が所定の第1の姿勢に合致している場合、前記第2の部位の姿勢情報に基づいて前記制御要素を制御する。
【0041】
ここで、第1の姿勢は、1つまたは複数の所定の手形状を含むことができる。
【0042】
いくつかの実施例では、ステップS104は、さらに以下のことを含む:
ステップB2:前記第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、前記制御対象要素を制御しない。
【0043】
本発明の実施例では、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合には、第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。
【0044】
いくつかの実施例では、ステップS102は、さらに以下のことを含む:
ステップC1:前記画像における第1の部位のキーポイントを特定する。
【0045】
ステップC2:前記画像における第1の部位のキーポイントの位置から、前記第1の部位の位置情報を特定する。
【0046】
いくつかの実施例では、方法100はさらに以下のことを含む:
ステップS105:少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御する。例として、少なくとも2つのフレームの対象画像から取得する第1の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することができる。ここで、ナビゲーション識別子が指す制御対象要素を制御する方法は、例えばアプリケーションインターフェース、アイコン、または他のコントロールなどを移動またはスクロールすることなど、制御デバイス上での制御対象要素の移動を移動またはスクロールの方式で制御することを含むが、これらに限定されるものではない。
【0047】
ここで、少なくとも2つのフレームの対象画像を特定する方法は、以下のステップを含む:
ステップD1:前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合、前記第2の部位の姿勢情報に対応する画像を対象画像とする。
【0048】
ステップD2:連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択する。
【0049】
本開示の1つまたは複数の実施例によれば、対象画像は、姿勢情報が第2の姿勢に合致する画像であり、姿勢情報が第2の姿勢に合致するときに、第1の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることによって、ユーザがナビゲーション識別子を制御して視覚要素をスクロールできるようにして、インタラクティブ効率を向上させる。ここで、第2の姿勢は、1つまたは複数の予め設定された手形状を含むことができる。例として、第1の部位の位置情報および/または第2の部位の所定の姿勢に基づいて、制御対象要素を移動させて、ナビゲーション識別子が指す制御対象要素を特定することができる。
【0050】
いくつかの実施例では、ステップS105はさらに以下のことを含む:
ステップE1:前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定する。
【0051】
ステップE2:前記第1の部位の動き情報に基づいて前記視覚要素をスクロールする。
【0052】
第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む。本実施例では、位置情報から動き情報を特定することにより、視覚要素をスクロールするために必要な初期パラメータおよび条件を実現し、視覚要素の関連するスクロールパラメータを特定することができる。
【0053】
いくつかの実施例では、ステップE2はさらに以下のことを含む:
前記第1の部位の動き情報が所定の動き条件を満たすか否かを判定する。
【0054】
そうであれば、前記第1の部位の動き情報に基づいて視覚要素のスクロール方向およびスクロール距離を特定する。
【0055】
いくつかの実施例では、前記第2の姿勢は、所定の数の指の開きである。例として、第2の姿勢は、5本の指の開きである。スクロール操作では、通常、ジェスチャーの移動速度が速いことを要求するが、高速移動の場合には、所定の数の指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。
【0056】
いくつかの実施例において、ステップS103は、さらに、第2の部位の姿勢情報が所定の第3の姿勢と一致する場合に、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。なお、第3の姿勢は、予め設定された複数種類の手形状を含む。本実施例では、第2の部位の姿勢情報が所定の第3の姿勢に合致する場合にのみ、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第1の部位位置のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第1の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。
【0057】
いくつかの実施例において、ステップS103は、さらに、離隔した画像から取得された第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む。本開示の実施例では、ユーザが第1の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、離隔した画像から取得された第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することができ、隣接する2つのフレームから特定された第1の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。ここで、離隔した画像は、所定のフレーム数だけインターバルされた画像であってもよいし、インターバルされたフレーム数を動的に調整した画像であってもよい。例として、時系列的に前後に配列された複数のフレーム(例えば、連続する複数のフレーム)における第1の部位の位置情報の位置変化、または位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似合成して、その曲線からナビゲーション識別子の移動軌跡を特定することができる。
【0058】
いくつかの実施例では、撮像装置は単独のRGBカメラであり、方法100は、画像データの色空間をHSV色空間に変換するために、画像データにHSV色空間処理を施す色空間前処理ステップをさらに含む。RGBカメラは通常、3つの独立したCCDセンサによって3つの色信号を取得し、非常に正確なカラー画像を取得する。第2の部位の姿勢特徴および第1の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、RGBモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をHSV色空間に変換することによって、後続する第2の部位の姿勢特徴および第1の部位のキーポイント特徴の識別および抽出をより正確にすることができる。
【0059】
いくつかの実施例では、第1の機械学習モデルは、畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)である。方法100は、さらに、画像データを2値化処理して2値化画像データを得る2値化前処理ステップと、画像データをホワイトバランス処理するホワイトバランス前処理ステップとを含む。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、2次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第1の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の2値化により、画像データのデータ数を大幅に削減することができ、第2の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第2の部位姿勢特徴および第1の部位のキーポイント特徴の識別および抽出がより正確になる。
【0060】
いくつかの実施例では、ステップS103は、第1の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第1の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。
【0061】
図2は、本開示の実施例に係る制御方法が遠視野表示装置を制御する場面を示す模式図である。遠方視野表示装置100は、遠方視野表示装置100の前方の一定領域を撮像可能に構成された撮像素子110を有する。本開示の1つまたは複数の実施例に係る制御方法によれば、ユーザ(図示せず)は、この特定の領域内で手首210を振ることによって、該遠視野表示装置100に表示されるナビゲーション識別子120を移動させることができ、手220の姿勢を制御することによって、ナビゲーション識別子120が指す視覚要素130に対して特定の制御指令を発行することができる。
【0062】
図3を参照する。図3は、本開示の他の実施例に係る制御方法200のフローチャートを示す。方法200は、ステップS201~ステップS206を含む。
【0063】
ステップS201:RGBカメラで撮像された画像を受信する。
【0064】
ステップS202:該画像に対してHSV色空間前処理、2値化前処理およびホワイトバランス前処理を行う。
【0065】
ステップS203:畳み込みニューラルネットワークモデルに基づいて、前処理後の画像からユーザの手首の位置情報を取得する。
【0066】
ステップS204:ランダムフォレストモデルに基づいて、前処理後の画像からユーザの手の姿勢情報を取得する。ここで、ランダムフォレスト(Random forest)は、ノイズや異常値に対して良好な耐性を持ち、過度な適合が発生せず、第2の部位の様々な姿勢特徴の抽出および識別に対して高い精度を持つ機械学習アルゴリズムである。
【0067】
ステップS205:取得した手首の位置情報からナビゲーション識別子の移動軌跡を特定する。
【0068】
ステップS206:取得した手の姿勢情報と、それと制御指令とのマッピング関係とに基づいて、ナビゲーション識別子の制御指令を特定する。制御指令は、ナビゲーション識別子が指す視覚要素を制御するためのものである。
【0069】
以上のような制御方法について、図4は、本開示の一実施例に係る制御装置300の構成図を示している。装置300は、データ受信部301と、第1の機械学習部302と、第2の機械学習部303と、制御指令部304と、移動軌跡部305と、を備えて構成される。
【0070】
データ受信部301は、撮像装置により撮像された画像を受信する。
【0071】
取得部302は、前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する。
【0072】
移動軌跡部303は、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。
【0073】
制御指令部304は、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する。
【0074】
このように、本開示の実施例に係る制御装置によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。一方、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性アルゴリズムを用いて上記の2つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は動的に変化する位置情報に基づいて行われるため、上述の2種類の異なる計算特性に対して、対応の特性を持つ計算モジュールを用いてそれぞれ第1の部位の位置情報と第2の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。
【0075】
なお、他のいくつかの他実施例では、画像は、他の方法で受信されてもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はこれについて限定しない。
【0076】
装置の実施例については、基本的には方法の実施例に対応するため、関連点については、方法の実施例の部分を参照すればよい。上記で説明された装置の実施例は模式的なものにすぎず、分離モジュールとして説明されたモジュールは、分離されていてもよいし、分離されていなくてもよい。本実施例の目的を達成するために実際の必要に応じて、これらのモジュールの一部または全部を選択してもよい。当業者は、創造的な労力を払わなくてもそれを理解し、実施することができる。
【0077】
いくつかの実施例では、取得部302は、さらに、第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得し、第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得する。
【0078】
制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は、動的な位置変化に基づいて行われるため、本実施例では、特性の異なる計算モジュールを用いて、第1の部位の位置情報と第2の部位の姿勢情報とをそれぞれ計算することにより、情報取得の適合性を高め、計算精度および計算リソースの利用率を向上させることができる。
【0079】
いくつかの実施例では、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。第1および第2の機械学習モデルは、ユーザの第1の部位および第2の部位を確実に識別するように訓練されている。訓練された機械学習モデルを用いて第1の部位の位置情報と第2の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースとハードウェアのコストを削減することができる。
【0080】
いくつかの実施例において、制御指令部304は、さらに、前記第2の部位の姿勢情報が所定の第1の姿勢と合致する場合に、前記第2の部位の姿勢情報に基づいて制御対象要素を制御する。
【0081】
ここで、第1の姿勢は、1つまたは複数の所定の手形状を含んでもよい。
【0082】
いくつかの実施例では、制御指令部304は、さらに、前記第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、前記制御対象要素を制御しない。
【0083】
本開示の実施例では、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合には、第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。
【0084】
いくつかの実施例では、取得部302は、さらに
前記画像中の第1の部位のキーポイントを特定するためのキーポイント特定サブユニットと、
前記画像における第1の部位のキーポイントの位置に基づいて、第1の部位の位置情報を特定する位置特定サブユニットと、を含む。
【0085】
いくつかの実施例では、装置300は、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素をスクロールするスクロールユニットをさらに含む。
【0086】
ここで、スクロールユニットは、さらに、
前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合に、前記第2の部位の姿勢情報に対応する画像を対象画像とする対象画像特定サブユニットと、
連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択する対象画像選択サブユニットと、を含む。
【0087】
本開示の実施例では、対象画像は、姿勢情報が第2の姿勢に合致する画像であり、姿勢情報が第2の姿勢に合致するときに、第1の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることにより、ユーザがナビゲーション識別子を制御して視覚要素をスクロールさせることを可能になり、インタラクティブ効率を向上させることができる。ここで、第2の姿勢は、1つまたは複数の所定の手形状を含んでも良い。
【0088】
いくつかの実施例では、スクロールユニットは、さらに
前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定する動き情報サブユニットと、
前記第1の部位の動き情報に基づいて前記視覚要素をスクロールするスクロールサブユニットと、を含む。
【0089】
第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む。本実施例では、位置情報から動き情報を特定することにより、視覚要素をスクロールするために必要な初期パラメータおよび条件を実現し、視覚要素の関連するスクロールパラメータを特定することができる。
【0090】
いくつかの実施例では、スクロールサブユニットは、さらに、第1の部位の動き情報が所定の動き条件を満たすか否かを判定し、所定の動き条件を満たすと判定された場合、前記第1の部位の動き情報から前記視覚要素のスクロール方向およびスクロール距離を特定する。
【0091】
いくつかの実施例では、前記第2の姿勢は、5本の指の開きである。スクロール操作は一般的に、ジェスチャーの移動速度が速いことを要求するが、速い移動の場合には、5本指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。
【0092】
いくつかの実施例では、移動軌跡部303は、さらに、前記第2の部位の姿勢情報が所定の第3の姿勢と合致する場合に、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。第3の姿勢は、所定の複数種類の手形状を含んでもよい。本実施例では、第2の部位の姿勢情報が所定の第3の姿勢に合致する場合にのみ、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第1の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。
【0093】
いくつかの実施例では、移動軌跡部303は、さらに、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。ユーザが第1の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、ナビゲーション識別子について、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することができ、隣接する2つのフレームから特定された第1の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。一例として、連続する複数のフレームにおける第1の部位の位置情報の位置変化、または該位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似的に合成して、その曲線からナビゲーション識別の移動軌跡を特定することができる。
【0094】
いくつかの実施例では、撮像装置は単独のRGBカメラであり、装置300は、画像データの色空間をHSV色空間に変換するために、画像データをHSV色空間処理する色空間前処理部をさらに含む。RGBカメラは通常、3つの独立したCCDセンサによって3つの色信号を取得し、非常に正確なカラー画像を取得することができる。第2の部位の姿勢特徴および第1の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、RGBモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をHSV色空間に変換することによって、後続する第2の部位の姿勢特徴および第1の部位のキーポイント特徴の識別および抽出をより正確にすることができる。
【0095】
いくつかの実施例では、第1の機械学習モデルは、畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)である。装置300は、画像に対して2値化処理およびホワイトバランス処理を行う2値化およびホワイトバランス前処理部をさらに備える。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、2次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第1の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の2値化により、画像データのデータ数を大幅に削減することができ、第2の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第2の部位姿勢特徴および第1の部位のキーポイント特徴の識別および抽出がより正確になる。
【0096】
いくつかの実施例では、移動軌跡部303は、さらに、第1の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第1の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。
【0097】
同時に、本開示の1つまたは複数の実施例によれば、
少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、
メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の1つまたは複数の実施例に係る制御方法を端末に実行させる、
端末装置が提供される。
【0098】
同時に、本開示の1つまたは複数の実施例によれば、コンピュータ装置によって実行されたときに、本開示の1つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶する非一時的なコンピュータ記憶媒体が提供される。
【0099】
図5は、本開示の実施例を実現するのに適した端末装置800の概略構成図を示す。本開示の実施例における端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(Personal Digital Assistant)、PAD(タブレット)、PMP(Portable Multimedia Player)、車載端末(例えば、カーナビゲーション端末)等の携帯端末、及びスマートテレビ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されるものではない。図5に示す端末装置は一例にすぎず、本開示の実施例の機能および使用範囲を限定するものではない。
【0100】
図5に示すように、端末装置800は、読み取り専用メモリ(ROM)802に記憶されたプログラム、または記憶装置808からランダムアクセスメモリ(RAM)803にロードされたプログラムに従って、様々な適切な動作および処理を実行することができる処理装置(例えば、中央プロセッサ、グラフィックスプロセッサなど)801を含んでもよい。RAM803には、端末装置800の操作に必要な各種のプログラムやデータも記憶されている。処理装置801、ROM802、およびRAM803は、バス804を介して接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
【0101】
一般に、I/Oインターフェース805には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどの入力デバイス806、例えば液晶ディスプレイ(LCD)、スピーカ、バイブレータ等を含む出力装置807、例えば磁気テープ、ハードディスクなどを含む記憶装置808、通信デバイス809が接続される。通信デバイス809は、データを交換するために、端末装置800が他の装置と無線または有線で通信することを可能にする。図5は、様々なデバイスを有する端末装置800を示しているが、前記デバイスの全てを実装または備えることは必要ではないことが理解されるべきである。代わりに、より多くのまたはより少ないデバイスを実装し、または備えてもよい。
【0102】
特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータ・ソフトウェア・プログラムとして実現することができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含む、非一時的なコンピュータにより読み取り可能な媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含む。このような実施例では、該コンピュータプログラムは、通信デバイス809を介してネットワークからダウンロードされてインストールされてもよいし、記憶装置808からインストールされてもよいし、ROM802からインストールされてもよい。このコンピュータプログラムが処理装置801によって実行されると、本開示の実施例に係る方法で規定される上記の機能が実行される。
【0103】
なお、本開示で上述したコンピュータにより読み取り可能な媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはこれら2つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、限定されるわけではないが、電気、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例は、以下のものを含むことができるが、これらに限定されない:1つ以上のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学メモリデバイス、磁気メモリデバイス、または上記の任意の適切な組み合わせを有する。本開示では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用することができるプログラムを含むまたは格納する任意の有形媒体とすることができる。一方、本開示では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搬送するキャリアの一部として、ベースバンドに、または伝搬するデータ信号を含むことができる。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されないので、様々な形態をとることができる。コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用するためのプログラムを送信、伝播、または伝送することができるコンピュータ可読記憶媒体以外の任意のコンピュータにより読み取り可能な媒体であってもよい。コンピュータにより読み取り可能な媒体上に含まれるプログラムコードは、ワイヤ、光ケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体で伝送されてもよい。
【0104】
いくつかの実施例では、クライアントおよびサーバは、HTTP(Hyper Text Transfer Protocol)などの既知のまたは将来研究開発される任意のネットワークプロトコルを利用して通信することができ、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続することができる。通信ネットワークの例としては、ローカル・エリア・ネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、ネットワーク網(例えば、インターネット)、エンドツーエンドネットワーク(例えば、アドホックエンドツーエンドネットワーク)、および既知のネットワークまたは将来研究開発されるネットワークなどがある。
【0105】
前記コンピュータにより読み取り可能な媒体は、前記端末装置に含まれるものであってもよいし、この端末装置に組み込まれていない別個の存在であってもよい。
【0106】
前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する;画像からユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得する;第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する;そして、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。
【0107】
また、前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する;画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する;前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御要素特定する;前記第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す制御対象要素を制御するための制御指令を特定する。
【0108】
本開示の動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語を含むが、これらに限定されなく、「C」言語などの従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語、またはこれらの組み合わせで記述することができる。プログラムコードは、完全にユーザコンピュータ上で、部分的にユーザのコンピュータ上で、独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で、あるいは、完全にリモートコンピュータまたはサーバ上で実行することができる。リモートコンピュータが関与する場合、リモートコンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または外部コンピュータ(例えば、インターネットを介してインターネット・サービス・プロバイダを利用して接続することができる)に接続することができる。
【0109】
図面のフローチャートおよびブロック図は、本開示の様々な実施例に従って、システム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を図示している。この点で、フローチャートまたはブロック図中の各ブロックは、所定の論理機能を実装するための1つまたは複数の実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。代替としてのいくつかの実装では、ブロックに示された機能は、図面に示されたものとは異なる順序で発生することもあることにも留意されたい。例えば、連続的に表現された2つのブロックは、実際には実質的に並列に実行されてもよく、関係する機能に応じて逆の順序で実行されてもよい場合がある。ブロック図および/またはフローチャート中の各ブロック、ならびにブロック図および/またはフローチャート中のブロックの組み合わせは、所定の機能または動作を実行する専用ハードウェアベースのシステムで実現されてもよく、あるいは、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。
【0110】
本開示の実施例に関連して説明されたユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。なお、ユニットの名称がユニット自体を限定するものではない場合もあり、例えば、取得識別ユニットを「前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得するユニット」と記載することもできる。
【0111】
本明細書で説明された機能は、少なくとも部分的に、1つまたは複数のハードウェア論理コンポーネントによって実行されることができる。例えば、非限定的に、使用され得る例示的なタイプのハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑プログラマブルロジックデバイス(CPLD)などを含む。
【0112】
本開示の文脈では、機械読み取り可能な媒体は、指令実行システム、装置、またはデバイスが使用するために、あるいは、指令実行システム、装置、またはデバイスと共に使用するために、プログラムを含むかまたは格納することができる有形媒体とする。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体とすることができる。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、または半導体的なシステム、装置またはデバイス、あるいはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例としては、1つまたは複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、便利なコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、またはこれらの任意の適切な組み合わせがある。
【0113】
本開示の1つまたは複数の実施例によれば、撮像装置によって取得された画像を受信することと、画像からユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することと、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することと、を含む制御方法が提供される。
【0114】
本開示の1つまたは複数の実施例によれば、第1の部位および第2の部位は、同じユーザの異なる身体部位である。
【0115】
本開示の1つまたは複数の実施例によれば、前記第2の部位の位置は、前記第1の部位の位置の変化に追従して変化することができ、前記第1の部位自体の位置および/または姿勢は、前記第2の部位の姿勢に影響を及ぼさない。
【0116】
本開示の1つまたは複数の実施例によれば、第1の部位は手首であり、第2の部位はである。
【0117】
本開示の1つまたは複数の実施例によれば、画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、第1の計算モジュールに基づいて、画像からユーザの第1の部位の位置情報を取得することと、第2の計算モジュールに基づいて、画像からユーザの第2の部位の姿勢情報を取得することと、を含む。
【0118】
本開示の1つまたは複数の実施例によれば、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。
【0119】
本開示の1つまたは複数の実施例によれば、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、第2の部位の姿勢情報が所定の第1の姿勢に合致する場合に、第2の部位の姿勢情報に基づいて視覚要素を制御することを含む。
【0120】
本開示の1つまたは複数の実施例によれば、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することには、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、視覚要素を制御しないことを含む。
【0121】
本開示の1つまたは複数の実施例によれば、画像からユーザの第1の部位の位置情報を取得することには、画像中の第1の部位のキーポイントを特定することと、画像における第1の部位のキーポイントの位置に基づいて第1の部位の位置情報を特定することと、を含む。
【0122】
本開示の1つまたは複数の実施例に係る制御方法は、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素をスクロールすることをさらに含み、ここで、少なくとも2つのフレームの対象画像の特定方法は、第2の部位の姿勢情報が所定の第2の姿勢に合致する場合に、第2の部位の姿勢情報に対応する画像を対象画像とすることと、連続する複数のフレームの対象画像から少なくとも2つのフレームの対象画像を選択することと、を含む。
【0123】
本開示の1つまたは複数の実施例によれば、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御することには、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定することと、第1の部位の動き情報に従って視覚要素をスクロールすることと、を含む。
【0124】
本開示の1つまたは複数の実施例によれば、前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、前記ナビゲーション識別子が指す視覚要素をスクロールまたは移動することを含む。
【0125】
本開示の1つまたは複数の実施例によれば、第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つまたは複数の種類を含む。
【0126】
本開示の1つまたは複数の実施例によれば、第1の部位の動き情報に基づいて視覚要素を制御することには、第1の部位の動き情報が所定の動き条件を満たすか否かを判断することと、そうであれば、第1の部位の動き情報に基づいて視覚要素のスクロール方向及びスクロール距離を特定することと、を含む。
【0127】
本開示の1つまたは複数の実施例によれば、第2の姿勢は、所定の数の指の開きである。
【0128】
本開示の1つまたは複数の実施例によれば、第2の姿勢は、5本の指の開きである。
【0129】
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第2の部位の姿勢情報が所定の第3の姿勢と合致する場合に、第1の部位の位置情報に基づいて、ナビゲーション識別子の移動軌跡を特定することを含む。
【0130】
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。
【0131】
本開示の1つまたは複数の実施例によれば、撮像装置は、単独のRGBカメラであり、制御方法には、画像の色空間をHSV色空間に変換するために、画像にHSV色空間前処理を行うことも含まれる。
【0132】
本開示の1つまたは複数の実施例によれば、第1の機械学習モデルは畳み込みニューラルネットワークモデルであり、制御方法は、画像に対して2値化前処理とホワイトバランス前処理とを行うことをさらに含む。
【0133】
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第1の部位の位置情報に基づいてフィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用してナビゲーション識別子の最終的な移動軌跡を特定することを含む。
【0134】
本開示の1つまたは複数の実施例によれば、前記した、前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、前記画像におけるユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することを含む。
【0135】
本開示の1つまたは複数の実施例によれば、撮像装置によって取得された画像を受信するデータ受信部と、画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡又は位置情報を特定し、及び/又は前記第1の部位の位置情報及び/又は第2の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を備える制御装置が提供される。
【0136】
本開示の1つまたは複数の実施例によれば、少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用され、本開示の1つまたは複数の実施例に係る制御方法を端末に実行させる端末が提供される。
【0137】
本開示の1つまたは複数の実施例によれば、コンピュータ装置によって実行されると、本開示の1つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶するコンピュータ記憶媒体が提供される。
【0138】
以上の説明は、本開示の好ましい実施例および適用される技術原理の説明にすぎない。当業者は、本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されるものではなく、上記の開示の発想から逸脱することなく、上記の技術的特徴又はその均等な特徴の任意の組み合わせからなる他の技術的解決手段も対象とすべきであることを理解するであろう。上述の特徴と本開示で開示された(ただし、これらに限定されない)類似の機能を有する技術的特徴とを相互に置換して形成された発明が挙げられる。
【0139】
さらに、動作は特定の順序で示されているが、これらの動作が、示されている特定の順序で実行されるか、または順次実行されることを必要とするものとして理解されるべきではない。ある場合では、多重タスクや並列処理が有利になる場合がある。同様に、いくつかの具体的な実施の詳細が上記の論述に含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。個別の実施例で説明された、いくつかの特徴は、単一の実施例に組み合わせて実現されてもよい。対照的に、単一の実施例で説明された様々な特徴は、複数の実施例において個別に、または任意の適切なサブ組み合わせで実現されてもよい。
【0140】
本主題は、構造的特徴および/または方法的論理動作に固有の言語で説明されているが、特許請求の範囲において限定される主題は、上述した特定の特徴または動作に必ずしも限定されないことが理解されるべきである。対照的に、上記で説明された特定の特徴および動作は、特許請求の範囲を実現する例示的な形態にすぎない。
図1
図2
図3
図4
図5