特表2024-519940 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッドの特許一覧

特表2024-519940データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
4a
4b
5
6
7a
7b
7c
8
9a
9b
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-21

(54)【発明の名称】データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20240514BHJP

G06T 7/00 20170101ALI20240514BHJP

G06T 7/60 20170101ALI20240514BHJP

G06T 7/254 20170101ALI20240514BHJP

【ＦＩ】

G06T7/20 300Z

G06T7/00 660B

G06T7/60 150D

G06T7/254 A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023572039

(86)(22)【出願日】2022-10-24

(85)【翻訳文提出日】2023-11-20

(86)【国際出願番号】 CN2022126921

(87)【国際公開番号】W WO2023071964

(87)【国際公開日】2023-05-04

(31)【優先権主張番号】202111256971.9

(32)【優先日】2021-10-27

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】514187420

【氏名又は名称】テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ヤン，ツォチュン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA67

5L096FA69

5L096HA04

5L096HA05

(57)【要約】

本発明の実施例は、データ処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。該方法は、ターゲットオブジェクトのターゲットビデオを取得し、該ターゲットオブジェクトは少なくとも１つのフレーム画像を含み、各フレーム画像について、該フレーム画像に基づいて、該ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定し、該第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、該第２の関節点の変位オフセットを決定し、該変位オフセットが設定値以下である場合、該第２の関節点の該第１の３次元座標及び該履歴３次元座標に基づいて、該第１の関節点の第１の３次元座標を補正し、該第１の関節点のターゲット３次元座標を取得する。
【選択図】図１

【特許請求の範囲】

【請求項1】

電子機器が実行するデータ処理方法であって、
ターゲットオブジェクトのターゲットビデオを取得するステップであって、前記ターゲットオブジェクトは少なくとも１つのフレーム画像を含む、ステップと、
各フレーム画像について処理を実行し、前記ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得するステップと、を含み、
前記処理は、
該フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定するステップであって、前記第１の関節点及び前記第２の関節点は前記各ターゲット関節点のうちの指定関節点であり、前記第１の座標系は前記仮想オブジェクトに対応する座標系であり、前記第１の関節点は前記各ターゲット関節点のうちの根ノードである、ステップと、
前記第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、前記第２の関節点の変位オフセットを決定するステップと、
前記変位オフセットが設定値以下である場合、前記第２の関節点の前記第１の３次元座標及び前記履歴３次元座標に基づいて、前記第１の関節点の第１の３次元座標を補正し、前記第１の関節点のターゲット３次元座標を取得するステップと、
前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップと、を含む、方法。

【請求項2】

前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップは、
前記第１の関節点のターゲット３次元座標及び他の関節点の３次元姿勢角に基づいて、該フレーム画像における他の関節点の第１の座標系におけるターゲット３次元座標を決定するステップであって、前記他の関節点は、前記各ターゲット関節点のうちの前記第１の関節点及び前記第２の関節点以外の関節点である、ステップと、
前記各ターゲット関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップと、を含む、請求項１に記載の方法。

【請求項3】

前記第２の関節点の前記第１の３次元座標及び前記履歴３次元座標に基づいて、前記第１の関節点の第１の３次元座標を補正するステップは、
前記第１の座標系の各次元において、前記第２の関節点の前記第１の３次元座標と前記履歴３次元座標との差を決定するステップと、
各次元に対応する差に基づいて、前記第１の関節点の第１の３次元座標のうちの対応する次元の座標を補正し、前記第１の関節点のターゲット３次元座標を取得するステップと、を含む、請求項１に記載の方法。

【請求項4】

前記ターゲットビデオのフレームレートを取得するステップと、
前記ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定するステップと、
前記フィルタリングスライディングウィンドウ幅に基づいて、各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行い、フィルタリング処理後の姿勢角シーケンスを取得するステップであって、ターゲット関節点の次元における姿勢角シーケンスは、該ターゲット関節点の前記ターゲットビデオの各フレーム画像における該次元における２次元姿勢角を含む、ステップと、をさらに含み、
前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップは、
各次元におけるフィルタリング後の姿勢角シーケンスに基づいて、各ターゲット関節点の該フレーム画像におけるフィルタリング後の３次元姿勢角を取得するステップと、
前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像におけるフィルタリング後の３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップと、を含む、請求項１に記載の方法。

【請求項5】

前記ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定するステップは、
前記フレームレートに基づいて、スライディングウィンドウ幅の調整係数を決定するステップと、
前記フレームレートと前記調整係数との積に基づいて、初期スライディングウィンドウ幅を決定するステップと、
前記初期スライディングウィンドウ幅及び所定のスライディングウィンドウ幅のうちの大きい値を、前記フィルタリングスライディングウィンドウ幅として決定するステップと、を含む、請求項４に記載の方法。

【請求項6】

前記フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定するステップは、
該フレーム画像に基づいて、３次元姿勢推定モデルにより、前記各ターゲット関節点の該フレーム画像における３次元姿勢角を決定するステップと、
前記第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定するステップであって、前記第２の座標系は前記ターゲットビデオに対応する画像座標系である、ステップと、
前記第２の３次元座標及び座標変換関係に基づいて、前記第１の関節点の第１の３次元座標を決定するステップであって、前記座標変換関係は前記第１の座標系と前記第２の座標系との変換関係である、ステップと、
前記第１の関節点の第１の３次元座標、及び前記各ターゲット関節点の３次元姿勢角のうちの前記第２の関節点に関連する３次元姿勢角に基づいて、前記第２の関節点の第１の３次元座標を決定するステップと、を含む、請求項１に記載の方法。

【請求項7】

前記第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定するステップは、
前記第１の関節点の該フレーム画像における３次元姿勢角に基づいて、前記第１の関節点の第２の３次元座標を決定するステップ、を含む、請求項６に記載の方法。

【請求項8】

前記第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定するステップは、
前記第１の関節点の該フレーム画像における画像位置に基づいて、前記第１の関節点の前記第２の座標系における２次元座標を決定するステップと、
該フレーム画像及び該フレーム画像の相関画像に基づいて、前記第１の関節点の奥行き方向の座標を推定するステップと、
前記２次元座標及び前記奥行き方向の座標に基づいて、前記第１の関節点の第２の３次元座標を決定するステップと、を含み、
前記ターゲットビデオは、単眼画像取り込み機器により取り込まれたビデオであり、前記相関画像は、該フレーム画像の直前のフレーム画像であり、或いは、前記ターゲットビデオは、両眼画像取り込み機器により取り込まれた２つのビデオのうちの一方のビデオであり、前記相関画像は、２つのビデオのうちの他方のビデオにおける該フレーム画像に対応する画像である、請求項６に記載の方法。

【請求項9】

２つの関連関節点の第２の３次元座標に基づいて、２つの関連関節点の第１の距離を決定するステップであって、前記２つの関連関節点は、前記各ターゲット関節点のうちの親子関係を有する２つの指定関節点である、ステップと、
前記２つの関連関節点の前記第１の座標系における参照距離を取得するステップと、
前記第１の距離及び前記参照距離に基づいて、前記座標変換関係を決定するステップと、をさらに含む、請求項６に記載の方法。

【請求項10】

前記ターゲットオブジェクトのターゲットビデオを取得するステップは、
少なくとも２つの取り込み視野角を有する画像取り込み機器により取り込まれた少なくとも２つのビデオを取得するステップであって、前記少なくとも２つの取り込み視野角は、１つの第１の視野角及び少なくとも１つの第２の視野角を含み、前記ターゲットビデオは、前記第１の視野角に対応するビデオである、ステップ、を含み、
前記フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を決定するステップは、
該フレーム画像に基づいて、前記ターゲットオブジェクトの該フレーム画像における各初期関節点を検出するステップであって、前記各ターゲット関節点は前記各初期関節点を含む、ステップと、
該フレーム画像に基づいて、前記各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定するステップと、
前記初期関節点の数が前記各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、前記各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、前記各ターゲット関節点の該フレーム画像における３次元姿勢角として決定するステップと、
前記初期関節点の数が前記各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、前記欠落関節点の３次元姿勢角を決定し、決定した前記欠落関節点の３次元姿勢角及び前記各初期関節点の初期３次元姿勢角を、前記各ターゲット関節点の該フレーム画像における３次元姿勢角として決定するステップであって、前記非ターゲットビデオは、前記少なくとも２つのビデオのうちの前記ターゲットビデオ以外の少なくとも１つのビデオである、ステップと、を含む、請求項１に記載の方法。

【請求項11】

各フレーム画像について処理を実行し、前記ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する前に、
前記ターゲットビデオにおける各隣接フレームについて、前記隣接フレーム間の前記ターゲットオブジェクトのオプティカルフロー情報を決定するステップであって、前記オプティカルフロー情報は、前記ターゲットオブジェクトのオプティカルフロー軌跡及びオプティカルフロー方向を含む、ステップと、
前記オプティカルフロー情報に基づいて、前記隣接フレーム間においてフレーム補完処理を行い、前記隣接フレーム間の少なくとも１つのフレーム補完画像を取得するステップと、
前記ターゲットビデオ及び各フレーム補完画像に基づいて、フレーム補完後のターゲットビデオを取得するステップと、をさらに含み、
前記フレーム補完後のターゲットビデオの各フレーム画像について処理を実行し、前記仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する、請求項１に記載の方法。

【請求項12】

データ処理装置であって、
ターゲットオブジェクトのターゲットビデオを取得するビデオ取得モジュールであって、前記ターゲットオブジェクトは少なくとも１つのフレーム画像を含む、ビデオ取得モジュールと、
各フレーム画像について処理を実行し、前記ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する姿勢決定モジュールと、を含み、
前記姿勢決定モジュールは、前記処理を実行する際に、
該フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定し、前記第１の関節点及び前記第２の関節点は前記各ターゲット関節点のうちの指定関節点であり、前記第１の座標系は前記仮想オブジェクトに対応する座標系であり、前記第１の関節点は前記各ターゲット関節点のうちの根ノードであり、
前記第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、前記第２の関節点の変位オフセットを決定し、
前記変位オフセットが設定値以下である場合、前記第２の関節点の前記第１の３次元座標及び前記履歴３次元座標に基づいて、前記第１の関節点の第１の３次元座標を補正し、前記第１の関節点のターゲット３次元座標を取得し、
前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する、装置。

【請求項13】

画像取り込み装置と、データ処理装置と、端末装置と、を含むデータ処理システムであって、
前記画像取り込み装置は、ターゲットオブジェクトのターゲットビデオを取り込み、前記ターゲットビデオは少なくとも１つのフレーム画像を含み、
前記データ処理装置は、前記画像取り込み装置により取り込まれたターゲットビデオに基づいて、請求項１乃至１１の何れかに記載の方法を実行することによって、前記ターゲットオブジェクトに関連する仮想オブジェクトの前記ターゲットビデオの各フレーム画像に対応する３次元姿勢を取得し、取得した３次元姿勢を前記端末装置に送信し、
前記端末装置は、取得された３次元姿勢に基づいて、前記仮想オブジェクトが対応する動作を実行するように駆動する、データ処理システム。

【請求項14】

前記画像取り込み装置は、異なる取り込み視野角に対応する３つの画像取り込み機器を含み、３つの画像取り込み機器は、前記ターゲットオブジェクトを取り囲み、且つ前記ターゲットオブジェクトの周囲に均等に配置され、前記３つの画像取り込み機器は、第１の視野角に対応する１つの第１の機器及び第２の視野角に対応する２つの第２の機器を含み、前記ターゲットビデオは、前記第１の機器により取り込まれたビデオであり、
前記データ処理装置は、前記ターゲットビデオの各フレーム画像について、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を決定するように、
前記ターゲットビデオの該フレーム画像に基づいて、前記ターゲットオブジェクトの該フレーム画像における各初期関節点を検出し、前記各ターゲット関節点は前記各初期関節点を含み、
前記ターゲットビデオの該フレーム画像に基づいて、前記各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定し、
前記初期関節点の数が前記各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、前記各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、前記各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、
前記初期関節点の数が前記各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、前記欠落関節点の３次元姿勢角を決定し、決定した前記欠落関節点の３次元姿勢角及び前記各初期関節点の初期３次元姿勢角を、前記各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、前記非ターゲットビデオは、前記第１の機器及び前記第２の機器により取り込まれた少なくとも２つの視野角に対応する少なくとも２つのビデオのうちの前記ターゲットビデオ以外の少なくとも１つのビデオである、請求項１３に記載のデータ処理システム。

【請求項15】

コンピュータプログラムが記憶されたメモリと、プロセッサと、を含み、前記プロセッサは、請求項１乃至１１の何れかに記載の方法を実現するように前記コンピュータプログラムを実行する、電子機器。

【請求項16】

請求項１乃至１１の何れかに記載の方法をコンピュータに実行させるためのコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２１年１０月２７日に出願した出願番号が２０２１１１２５６９７１．９であり、発明の名称が「データ処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容を参照により本発明に援用する。

【0002】

本発明は、データ処理の技術分野に関し、具体的には、データ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品に関する。

【背景技術】

【0003】

科学技術の発展に伴い、どのように実際の人物の姿勢に基づいて仮想人物の姿勢を決定するかは、既に現代産業発展の重要な構成部分になっている。例えば、スマート工場、映画及びゲームの視覚効果の応用など、現実感、没入型仮想及び拡張現実、臨場感及び自由視点の３次元ビデオに対して、大きな価値がある。

【0004】

現在、主にウェアラブルセンサにより、赤外線光源の前で所定の動作を実行して、ウェアラブルセンサにおける反射標識点で反射された赤外線光に基づいて、各反射標識点の３次元空間座標を計算して、各反射標識点の３次元空間座標に基づいて仮想人物の姿勢を特定する。

【0005】

しかし、該方法は、ウェアラブルセンサに依存するため、該ウェアラブルセンサを装着した生体が不自由になり、動作の実行精度に影響を与えてしまう。

【発明の概要】

【0006】

本発明の実施例は、仮想オブジェクトの姿勢の正確性を効果的に向上させることができる、データ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。本発明の実施例に係る技術的手段は、以下の通りである。

【0007】

本発明の実施例の１つの態様では、電子機器が実行するデータ処理方法であって、ターゲットオブジェクトのターゲットビデオを取得するステップであって、前記ターゲットオブジェクトは少なくとも１つのフレーム画像を含む、ステップと、各フレーム画像について処理を実行し、前記ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得するステップと、を含み、前記処理は、該フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定するステップであって、前記第１の関節点及び前記第２の関節点は前記各ターゲット関節点のうちの指定関節点であり、前記第１の座標系は前記仮想オブジェクトに対応する座標系であり、前記第１の関節点は前記各ターゲット関節点のうちの根ノードである、ステップと、前記第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、前記第２の関節点の変位オフセットを決定するステップと、前記変位オフセットが設定値以下である場合、前記第２の関節点の前記第１の３次元座標及び前記履歴３次元座標に基づいて、前記第１の関節点の第１の３次元座標を補正し、前記第１の関節点のターゲット３次元座標を取得するステップと、前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップと、を含む、方法を提供する。

【0008】

本発明の実施例のもう１つの態様では、データ処理装置であって、ターゲットオブジェクトのターゲットビデオを取得するビデオ取得モジュールであって、前記ターゲットオブジェクトは少なくとも１つのフレーム画像を含む、ビデオ取得モジュールと、各フレーム画像について処理を実行し、前記ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する姿勢決定モジュールと、を含み、前記姿勢決定モジュールは、前記処理を実行する際に、該フレーム画像に基づいて、前記ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定し、前記第１の関節点及び前記第２の関節点は前記各ターゲット関節点のうちの指定関節点であり、前記第１の座標系は前記仮想オブジェクトに対応する座標系であり、前記第１の関節点は前記各ターゲット関節点のうちの根ノードであり、前記第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、前記第２の関節点の変位オフセットを決定し、前記変位オフセットが設定値以下である場合、前記第２の関節点の前記第１の３次元座標及び前記履歴３次元座標に基づいて、前記第１の関節点の第１の３次元座標を補正し、前記第１の関節点のターゲット３次元座標を取得し、前記第１の関節点のターゲット３次元座標及び前記各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、前記仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する、装置を提供する。

【0009】

本発明の実施例のもう１つの態様では、画像取り込み装置と、データ処理装置と、端末装置と、を含むデータ処理システムであって、前記画像取り込み装置は、ターゲットオブジェクトのターゲットビデオを取り込み、前記ターゲットビデオは少なくとも１つのフレーム画像を含み、前記データ処理装置は、前記画像取り込み装置により取り込まれたターゲットビデオに基づいて、上記の方法を実行することによって、前記ターゲットオブジェクトに関連する仮想オブジェクトの前記ターゲットビデオの各フレーム画像に対応する３次元姿勢を取得し、取得した３次元姿勢を前記端末装置に送信し、前記端末装置は、取得された３次元姿勢に基づいて、前記仮想オブジェクトが対応する動作を実行するように駆動する、データ処理システムを提供する。

【0010】

本発明の実施例のもう１つの態様では、コンピュータプログラムが記憶されたメモリと、プロセッサと、を含み、前記プロセッサは、上記のデータ処理方法を実現するように前記コンピュータプログラムを実行する、電子機器を提供する。

【0011】

本発明の実施例のもう１つの態様では、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサにより実行される際に、上記のデータ処理方法を実現する、記憶媒体を提供する。

【0012】

本発明の実施例のもう１つの態様では、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムは、プロセッサにより実行される際に、上記のデータ処理方法を実現する、コンピュータプログラム製品を提供する。

【図面の簡単な説明】

【0013】

本発明の実施例に係る技術的手段をより明確に説明するために、以下は、実施例の説明に必要な図面を簡単に紹介する。

【図1】本発明の実施例に係るデータ処理方法の一例のフローチャートである。

【図2】本発明の一例におけるターゲットビデオにおける１つのフレーム画像を示す概略図である。

【図3a】本発明の実施例に係るターゲットオブジェクトの姿勢を示す概略図である。

【図3b】本発明の実施例の仮想オブジェクトの姿勢を示す概略図である。

【図4a】本発明の実施例に係る第１の関節点の第１の３次元座標が第２の関節点の変位オフセットに基づいて補正されていない場合に決定された仮想オブジェクトの姿勢を示す概略図である。

【図4b】本発明の実施例に係る第１の関節点の第１の３次元座標が第２の関節点の変位オフセットに基づいて補正された場合に決定された仮想オブジェクトの姿勢を示す概略図である。

【図5】本発明の実施例に係る１つのフレーム画像についての３次元姿勢の推定を示す概略図である。

【図6】本発明の実施例に係る画像取り込み装置を示す概略図である。

【図7a】本発明の実施例に係る各ターゲット関節点の該フレーム画像における３次元姿勢角の決定を示す概略図である。

【図7b】本発明の実施例に係るシミュレーションされた欠落関節点が所在する領域を示す概略図である。

【図7c】本発明の実施例に係る姿勢校正後の３次元姿勢角を示す概略図である。

【図8】本発明の実施例に係る１つのターゲット関節点の１つの次元の姿勢角シーケンスのフィルタリング処理の前後の対比を示す概略図である。

【図9a】本発明の実施例に係るフィルタリング処理前の１つのフレーム画像におけるターゲットオブジェクトの３次元姿勢角を示す概略図である。

【図9b】本発明の実施例に係るフィルタリング処理後の１つのフレーム画像におけるターゲットオブジェクトの３次元姿勢角を示す概略図である。

【図10】本発明が適用されるデータ処理システムの構成の一例を示す概略図である。

【図11】本発明の１つのシナリオの実施例に係るデータ処理方法を示すフローチャートである。

【図12】本発明の実施例に係るデータ処理装置の構成の一例を示す概略図である。

【図13】本発明の実施例に係るデータ処理システムの構成の一例を示す概略図である。

【図14】本発明の実施例に係る電子機器の構成の一例を示す概略図である。

【発明を実施するための形態】

【0014】

以下は、本明細書における図面を参照しながら本発明の実施例を説明する。なお、以下の図面を参照しながら説明される実施形態は、本発明の実施例の技術的手段を説明するための例示的な説明であり、本発明の実施例の技術的手段を限定するものではない。

【0015】

なお、特に明記しない限り、本明細書で使用される単数形の「一」、「１つ」、「前記」及び「該」は、複数形を含んでもよい。また、本明細書で使用される用語「含む」及び「備える」は、対応する特徴が、提示された特徴、情報、データ、ステップ、動作、構成要素、及び／又はアセンブリとして実現されてもよいが、当該技術分野でサポートされる他の特徴、情報、データ、ステップ、動作、構成要素、アセンブリ及び／又はこれらの組み合わせなどとして実装されることを排除しない。なお、一方の要素が他方の要素に「連結」又は「接続」される場合、該一方の要素が他方の要素に直接連結又は結合されてもよいし、該一方の要素と他方の要素とが中間要素を介して接続関係を確立することを意味してもよい。また、本明細書で使用される「連結」又は「接続」は、無線連結又は無線接続を含んでもよい。本明細書で使用される用語「及び／又は」は、該用語により特定される事項のうちの少なくとも１つを示し、例えば、「Ａ及び／又はＢ」は、「Ａ」として実現されてもよいし、「Ｂ」として実現されてもよいし、「ＡとＢ」として実現されてもよい。

【0016】

本発明の目的、技術的手段及び利点をより明確にするために、以下は図面を参照しながら本発明の実施例を更に詳細に説明する。

【0017】

本発明の実施例に係るデータ処理方法は、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ＡＩ）技術に基づいて実現されてもよい。例えば、ターゲットビデオの各フレーム画像について、３次元姿勢推定モデルを呼び出すことによって、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を取得してもよい。ＡＩは、デジタルコンピュータ又はデジタルコンピュータにより制御される機器を用いて、人間の知能をシミュレーション、発展、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を得る理論、方法、技術及び応用システムである。

【0018】

ここで、上記３次元姿勢推定モデルは、コンピュータビジョン技術（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＣＶ）に基づくニューラルネットワークモデルであってもよい。コンピュータビジョンとは、人間の目の代わりにカメラとコンピュータを用いてターゲットに対して認識、追跡及び測定などを行い、さらにグラフィック処理を行い、コンピュータにより処理された画像を人間の目の観察により適し、或いは検出のために機器に送信することを意味する。

【0019】

好ましくは、本発明の実施例に係るデータ処理方法は、クラウド技術（Ｃｌｏｕｄｔｅｃｈｎｏｌｏｇｙ）に基づいて実現されてもよい。例えば、ニューラルネットワークモデルをトレーニングして上記の３次元姿勢推定モデルを取得する場合、クラウド技術を採用してもよく、トレーニングプロセスにおけるデータ計算は、クラウドコンピューティング（Ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ）方式を採用してもよい。

【0020】

クラウド技術とは、広域ネットワーク又はローカルエリアネットワーク内でハードウェア、ソフトウェア、ネットワークなどのリソースを統合し、データの計算、記憶、処理及び共有を実現するホスティング技術を意味する。クラウドコンピューティングとは、ＩＴインフラストラクチャの提供と使用のモデルであり、ネットワークを介して必要なリソースをオンデマンド、拡張可能な方式で取得することを意味する。

【0021】

本発明の実施例に係る解決手段をよりよく説明して理解させるために、まず本発明の実施例に関連する幾つかの技術的用語を説明する。

【0022】

モーションキャプチャ（Ｍｏｃａｐ）：動的キャプチャとも称され、「モーキャプ」と略称され、人物又は他の物体の動きを記録して処理する技術であり、主にアニメーション／映画制作、大型ゲーム又はバーチャルリアリティに応用される。モーションキャプチャ機器は、作動原理に応じて機械、音響学、光学、電磁、慣性などの複数の類別に分けられる。現在、光学モーションキャプチャの方式に基づいて、動作を実行する俳優が幾つかの標識点（ｍａｒｋｅｒ）を付けるウェアラブルセンサを着用し、密集するカメラアレイによりこれらのｍａｒｋｅｒの位置をキャプチャし、これらのｍａｒｋｅｒの位置を復元して仮想オブジェクトにレンダリングすることによって、本物の俳優の動作の演出から骨格アニメーションへのマッピングを実現する。

【0023】

３次元姿勢推定：深層ニューラルネットワークに基づいて、人体の姿勢を含む画像から、該人体の３次元空間における各関節点の座標を予測して、人体の実際の姿勢を復元する。

【0024】

ビデオフレーム補完：ビデオにおける連続する２つのフレーム間の遷移フレームを生成することによって、ビデオの総時間を変えずに、ビデオの総フレーム数を増加し、ビデオのフレームレートを向上させる技術である。

【0025】

単眼の奥行き推定：１枚の画像を利用して画像における各画素点のカメラに対する距離を予測する深層学習方法である。

【0026】

飛行機姿勢角：機体座標系と地理座標系との関係により決定され、ヨーイング角、ピッチング角及びローリング角の３つのオイラー角で表す。機体の異なる回転順序により、異なる座標変換行列を形成し、通常、ヨーイング角、ピッチング角及びローリング角の順序に従って地理座標系に対する機体座標系の空間回転を表す。３次元人体姿勢推定では、航空機姿勢角を使用して人体の各関節の回転姿勢を表し、以下は、関節点の３次元姿勢角とも称される。

【0027】

Ｓａｖｉｔｚｋｙ－Ｇｏｌａｙフィルタ：時間領域において局所の多項式最小二乗法に基づいて多項式データをフィッティングするフィルタを意味する。該フィルタは、ノイズを除去すると共に、信号の形状、幅を一定に保つことができる。

【0028】

ＳＭＰＬ－Ｘモデル（ＳｋｉｎｎｅｄＭｕｌｔｉ－ＰｅｒｓｏｎＬｉｎｅａｒｅＸｐｒｅｓｓｉｖｅｍｏｄｅｌ：スキンされた多人数線形表現モデル）又はＳＭＰＬモデル（ＳｋｉｎｎｅｄＭｕｌｔｉ－ＰｅｒｓｏｎＬｉｎｅａｒｍｏｄｅｌ：スキンされた多人数線形モデル）：単一のフレームのＲＧＢ画像から身体姿勢、手姿勢及び表情を計算する３Ｄモデルを意味し、通常、３つのパラメータを使用して、身体関節姿勢、体型及び表情を個別に制御する。

【0029】

モーションキャプチャでは、従来の方法は、出演者が指定のウェアラブルデバイス、例えば各種のセンサを着用する必要があり、出演者の行動が不便になり、出演者が所定の動作を実行する精度に影響し、取り込み場所に対する需要が比較的に高く、実現コストも比較的に高く、このようなモーションキャプチャシステムを使用するために技術者が専門の訓練を受ける必要があるため、モーションキャプチャシステムの使用条件が比較的に高い。また、この方法は、最終的なモーションキャプチャを実現し、演技者に対応する仮想オブジェクトの姿勢を特定するために、演技者が装着するウェアラブルセンサにおける複数のｍａｒｋｅｒの情報を取り込む必要がある。そのため、このモーションキャプチャ方式は、複雑度が高く、決定した仮想オブジェクトの姿勢の正確性も低く、実用上の要求を十分に満たすことができない。

【0030】

これに対し、本発明の実施例は、仮想オブジェクトの全体的な位置を制御可能な第１の関節点の第１の３次元座標を補正することによって、例えば、仮想オブジェクトの足が移動中に空中に浮いており、或いは滑っているような、ターゲットオブジェクトの誤移動による仮想オブジェクトの挙動の不自然さという問題を回避することができる、データ処理方法を提供する。また、第１の関節点のターゲット３次元座標、履歴３次元座標、及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢をより正確に決定し、仮想オブジェクトの動作をより正確にさせ、移動をより自然でスムーズにさせ、仮想オブジェクトの行為の真実感を向上させ、仮想オブジェクトがターゲットオブジェクトの真実の移動軌跡を復元するように効果的に駆動することができる。

【0031】

本発明の実施例に係る方法は、ターゲットオブジェクトの３次元姿勢（例えば、３次元姿勢角、３次元座標として表す）に基づいて仮想オブジェクトの３次元姿勢を制御する必要がある任意の応用シナリオに適用することができる。例えば、該方法は、様々なゲームにおいて、ゲームの人物の動きを駆動すること、現実の俳優が実行する動きに基づいてファンタジー映画／ドラマ／アニメーション、バーチャルリアリティなどを作成することに適用されてもよい。

【0032】

以下は、幾つかの例示的な実施形態を説明することによって、本発明の実施例に係る技術的手段及び本発明の技術的手段による技術的効果について説明する。なお、以下の実施形態は、互いに参考、参照又は結合されてもよく、異なる実施形態における同一の用語、類似の特徴及び類似の実施ステップ等についてその説明を省略する。

【0033】

図１は、本発明の実施例に係るデータ処理方法の一例のフローチャートである。該データ処理方法の実行主体は、電子機器であってもよい。１つの可能な態様では、電子機器は、端末装置又はサーバを含んでもよいが、これらに限定されず、好ましくは、サーバはクラウドサーバであってもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、モバイルデバイス、携帯電話、コードレス電話、携帯情報端末（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、又はウェアラブルデバイスなどであってもよい。ここで、該データ処理方法は、プロセッサがメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことによって実現されてもよい。好ましくは、該データ処理方法は、ユーザ端末により実行されてもよく、例えば、ユーザ端末は、携帯電話、コンピュータ、インテリジェント音声対話デバイス、スマート家電製品、車載端末、電子機器、ＡＲ／ＶＲデバイス、バーチャルロボットなどを含むが、これらに限定されない。

【0034】

図１に示すように、該データ処理方法は、ステップＳ１１～ステップＳ１２を含んでもよい。

【0035】

ステップＳ１１：ターゲットオブジェクトのターゲットビデオを取得する。ここで、ターゲットオブジェクトは少なくとも１つのフレーム画像を含む。

【0036】

好ましくは、ターゲットオブジェクトは、任意の動作可能なオブジェクト、例えば、自分で自律的に動作可能な人、動物などであってもよい。本発明では、自分で自律的に動作する人をターゲットオブジェクトとして、該データ処理方法を説明してもよい。

【0037】

本発明の実施例に係るターゲットビデオの取得方法は限定されず、例えば、ターゲットビデオは、画像取り込み機器により直接取得された初期ビデオであってもよいし、データ処理量を低減し、データ処理効率を向上させるために、予め設定されたフレーム抽出ルールに従って初期ビデオに対してフレーム抽出処理を行ったビデオであってもよい。ここで、画像取り込み機器は、監視カメラ、ビデオカメラ、カメラ、又は画像取り込み機能を有する他の機器（例えば携帯電話、タブレットコンピュータなどの機器）など含むが、これらに限定されない。ここで、画像取り込み機器は、単眼画像取り込み機器であってもよいし、両眼画像取り込み機器であってもよく、好ましくは、ＲＧＢ画像取り込み機器であってもよい。

【0038】

好ましくは、ターゲットビデオは、所定の時間間隔で初期ビデオに対してフレーム抽出処理を行って得られたビデオであってもよい。ここで、所定の時間間隔は、初期ビデオの総時間長又は初期ビデオに含まれる画像の数に応じて決定されてもよく、本発明はこれに限定されない。例えば、所定の時間間隔は、初期ビデオの総時間長又は初期ビデオに含まれる画像の数と正の相関関係を有してもよい。例えば、初期ビデオの総時間長が１時間である場合、所定の時間間隔を１分間に設定し、初期ビデオの総時間長が１５分である場合、所定の時間間隔を５秒間に設定してもよい。異なるターゲットビデオに対応する所定の時間間隔は同一であってもよく、異なる応用シーンに応じてフレーム抽出ルールは異なってもよい。

【0039】

実際の応用では、ターゲットオブジェクトのモーションキャプチャを完了するために、ターゲットオブジェクトが実際の応用ニーズに合わせて移動などの所定の動作を実行してもよい。ターゲットビデオは、画像取り込み機器により取り込まれた該ターゲットオブジェクトの所定の動作を実行するビデオであってもよい。ここで、本発明は所定の動作の具体的な態様に限定されず、実際の応用ニーズに基づいて決定される。

【0040】

ステップＳ１２：ターゲットビデオの各フレーム画像について、以下のステップＳ１２１～ステップＳ１２４をそれぞれ実行し、ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する。

【0041】

ステップＳ１２１：該フレーム画像に基づいて、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定する。

【0042】

ここで、第１の関節点及び第２の関節点は、複数のターゲット関節点のうちの指定関節点であり、第１の座標系は、仮想オブジェクトに対応する座標系であり、第１の関節点は、各ターゲット関節点のうちの根ノード（中央根ノードとも称されてもよい）である。

【0043】

ここで、各ターゲット関節点が他のターゲット関節点と親子関係にあり、各ターゲット関節点のうちの腰関節点と他のターゲット関節点との親子関係の複雑度が低いため、データ処理の処理量を低減させ、データ処理の効率を向上させるために、腰関節点を第１の関節点として選択してもよい。

【0044】

第２の関節点は、基準関節点と称されてもよく、基準平面との相対的な位置関係が固定されたターゲット関節点を意味し、第１の関節点と同一であってもよいし、第１の関節点と異なってもよい。例えば、第２の関節点は、該基準平面上の点であってもよく、該基準平面は地面であってもよい。例えば、実際の応用では、仮想オブジェクトの第２の関節点が第１の座標系における指定方向に相対的に固定されており、仮想オブジェクトの歩行中に１つの足が常に地面に接触する（地面に接触する該足は重力支持作用を果たす足と称されてもよく、重力支持足と略称される）ため、該第２の関節点は爪先関節点であってもよい。

【0045】

図２は、本発明の一例におけるターゲットビデオにおける１つのフレーム画像を示す概略図である。図２に示すように、第１の関節点Ａは、ターゲットオブジェクトの腰関節点であってもよく、第２の関節点Ｂは、ターゲットオブジェクトの爪先関節点であってもよい。

【0046】

この態様では、ターゲットオブジェクトの各ターゲット関節点は、ターゲットオブジェクトの全関節点であってもよし、応用の必要に応じて選択された一部の関節点であってもよい。例えば、ターゲットオブジェクトは人であり、ターゲット関節点は人の全ての関節点であってもよいし、人の全ての関節点から特定の一部の関節点を選択してもよい。選択される関節点の数及び具体的に選択されるターゲット関節点は、実際のニーズに応じて設定されてもよい。例えば、ターゲットオブジェクトが人である場合、３３個のターゲット関節点を設定してもよく、この３３個のターゲット関節点は、胴体上のターゲット関節点（胴体関節点と称されてもよい）、両手の手関節点、両足の足関節点を含む。

【0047】

通常、各手関節点の３次元姿勢角による動作は相対的に細かく、各足関節点の３次元姿勢角による動作は相対的に粗く、足関節点の位置関係が胴体関節点の位置関係よりも一定であるため、胴体関節点は両足の足関節点を含んでもよく、即ち、胴体関節点及び手関節点を特定した場合、ターゲット関節点を取得することができる。

【0048】

好ましくは、胴体関節点と手関節点とは部分的に重複する関節点（なお、重複しなくてもよい）を有してもよい。例えば、胴体関節点は、左手首の関節点及び右手首の関節点を含んでもよく、左手の関節点も、左手首の関節点を含み、右手の関節点は、右手首の関節点を含んでもよい。一例として、上記の３３個の関節点のうち、胴体上のターゲット関節点の数は２３個であり、左手の関節点の数は６個であり、右手の関節点の数は６個である。

【0049】

好ましくは、第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定するステップは、以下のステップにより実現されてもよい。

【0050】

該フレーム画像に基づいて、３次元姿勢推定モデルにより、各ターゲット関節点の該フレーム画像における３次元姿勢角を決定する。

【0051】

第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定する。第２の座標系は、ターゲットビデオに対応する画像座標系である。

【0052】

第１の関節点の第２の３次元座標及び座標変換関係に基づいて、第１の関節点の第１の３次元座標を決定する。ここで、座標変換関係は、第１の座標系と第２の座標系との変換関係である。

【0053】

第１の関節点の第１の３次元座標、及び各ターゲット関節点の３次元姿勢角のうちの第２の関節点に関連する３次元姿勢角に基づいて、第２の関節点の第１の３次元座標を決定する。

【0054】

好ましくは、第１の関節点の第１の３次元座標を、仮想オブジェクトの第１の関節点の３次元座標として決定してもよい。

【0055】

ここで、第２の関節点に関連する３次元姿勢角は、各ターゲット関節点の親子関係に基づいて、第１の関節点から第２の関節点に辿る過程において必要なターゲット関節点の３次元姿勢角であってもよい。

【0056】

ステップＳ１２２：第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、第２の関節点の変位オフセットを決定する。

【0057】

好ましくは、変位オフセットは、第２の関節点の該フレーム画像に対応する第１の３次元座標と履歴座標との間のユークリッド距離であってもよい。変位オフセットを決定することによって、該フレーム画像におけるターゲットオブジェクトの第２の関節点と該フレーム画像の直前のフレーム画像における第２の関節点との間の移動距離を決定することができる。

【0058】

ステップＳ１２３：該変位オフセットが設定値以下である場合、第２の関節点の第１の３次元座標及び履歴３次元座標に基づいて、第１の関節点の第１の３次元座標を補正し、第１の関節点のターゲット３次元座標を取得する。

【0059】

好ましくは、該方法は、変位オフセットが設定値よりも大きい場合、第１の関節点の第１の３次元座標を第１の関節点のターゲット３次元座標とするステップをさらに含んでもよい。

【0060】

好ましくは、設定値は、所定の固定値であってもよいし、ターゲットオブジェクトにより実行された所定の動作のうちの隣接する動作間の振幅に基づいて決定されてもよく、本発明はこれに限定されない。例えば、設定値を２～３ｃｍに設定してもよい。

【0061】

１つの可能な態様では、ステップＳ１２３において、以下のステップを含んでもよい。

【0062】

第２の関節点の第１の３次元座標と履歴３次元座標との各次元における差を決定する。

【0063】

各次元に対応する差に基づいて、第１の関節点の第１の３次元座標のうちの対応する次元の座標を補正し、第１の関節点のターゲット３次元座標を取得する。

【0064】

好ましくは、第１の関節点の第１の３次元座標のうちの各次元の座標から、対応する次元に対応する差を減算して、第１の関節点のターゲット３次元座標を取得してもよい。或いは、各次元に対応する差の間の関係に基づいて、各次元に対応する重みを決定し、各次元に対応する重みに基づいて、第１の関節点の第１の３次元座標のうちの対応する次元の座標に対して重み付け処理を行い、第１の関節点のターゲット３次元座標を取得してもよい。このように、次元に対応する差が大きいほど、第１の関節点の第１の３次元座標のうちの該次元での座標値が調整される幅が大きくなる。

【0065】

ステップＳ１２４：第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0066】

好ましくは、第１の関節点のターゲット３次元座標及び他の関節点の３次元姿勢角に基づいて、該フレーム画像における他の関節点の第１の座標系におけるターゲット３次元座標を決定する。ここで、他の関節点は、各ターゲット関節点のうちの第１の関節点及び第２の関節点以外の関節点である。

【0067】

各ターゲット関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0068】

ここで、上述したように、変位オフセットが設定値より大きい場合、第１の関節点のターゲット３次元座標が第１の関節点の第１の３次元座標として決定されると、第２の関節点のターゲット３次元座標は第２の関節点の履歴３次元座標となる。ステップＳ１２３において、該変位オフセットが設定値より小さく、第１の関節点の第１の３次元座標を補正して、第１の関節点のターゲット３次元座標を取得すると、第２の関節点のターゲット３次元座標は第２の関節点の第１の３次元座標となる。

【0069】

ターゲットオブジェクトの動作に基づいて該ターゲットオブジェクトに関連する仮想オブジェクトの３次元姿勢を決定する際に、画像取り込み機器により取り込まれたターゲットビデオに基づいて、仮想オブジェクトの３次元姿勢を決定してもよい。これによって、実現が簡単であり、ターゲットオブジェクトが複雑、重いウェアラブルデバイスを着用する必要がなく、システム全体の操作が簡単であり、コストが低く、且つターゲットオブジェクト（例えば俳優）に対する肢体制限が極めて小さく、従来のモーションキャプチャシステムの様々な制限を効果的に解決することができ、実際の応用需要をさらに満たすことができる。

【0070】

さらに、本発明の実施例では、各ターゲット関節点のうちの根ノードのターゲット３次元座標の決定において、第２の関節点の隣接する２つのフレーム画像に対応する変位オフセットの大きさを指定することによって、該変位オフセットに基づいて根ノードの現在のフレームに対応する第１の３次元座標を補正する必要があるか否かを判断してもよい。ここで、第２の関節点は、指定された第１の座標系における地面との相対的な位置関係が固定されたターゲット関節点、例えば爪先関節点であってもよい。これによって、ターゲットオブジェクトの誤移動による、仮想オブジェクトの足が移動中に空中に浮いており、或いは滑っていることなどの仮想オブジェクトの挙動の不自然さという問題を効果的に回避することができる。

【0071】

本発明の実施例によれば、ターゲットオブジェクトのビデオに基づいて、各ターゲット関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角を決定することによって、仮想オブジェクトの３次元姿勢をより正確に決定し、仮想オブジェクトの実行動作の真実感を向上させ、仮想オブジェクトが人体モデルの３次元空間における実際の移動軌跡を復元するように効果的に駆動し、仮想オブジェクトの動作をより正確にさせ、移動をより自然でスムーズにさせることができる。

【0072】

図３ａは、本発明の実施例に係るターゲットオブジェクトの姿勢を示す概略図である。図３ｂは、本発明の実施例の仮想オブジェクトの姿勢を示す概略図である。図３ａに示すように、図３ａは各ターゲット関節点の３次元姿勢角をＳＭＰＬ－Ｘモデルに入力することによって得られたターゲットオブジェクトの人体モデルであり、この人体モデルは様々な姿勢を示す。図３ｂに示すように、ターゲットオブジェクトの該フレーム画像における姿勢に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を正確に決定することができる。本発明の実施例に係るデータ処理方法によれば、仮想オブジェクトがターゲットオブジェクトの３次元姿勢を復元するように効果的に駆動することができる。

【0073】

図４ａは、本発明の実施例に係る第１の関節点の第１の３次元座標が第２の関節点の変位オフセットに基づいて補正されていない場合に決定された仮想オブジェクトの姿勢を示す概略図である。図４ｂは、本発明の実施例に係る第１の関節点の第１の３次元座標が第２の関節点の変位オフセットに基づいて補正された場合に決定された仮想オブジェクトの姿勢を示す概略図である。図４ａに示すように、変位オフセットが設定値よりも小さい場合、補正を行わずに、第１の関節点の第１の３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて仮想オブジェクトの姿勢を決定すると、仮想人物の足が地面に沈み込む現象が発生する。図４ｂに示すように、第１の関節点の第１の３次元座標を補正し、補正後の３次元座標を第１の関節点のターゲット３次元座標とし、該フレーム画像における第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定することによって、仮想人物の足を地面から離して地面から「引き抜く」ことができる。

【0074】

好ましくは、各ターゲット関節点の該フレーム画像における３次元姿勢角を決定する際に、まず、画像における胴体領域画像及び手領域（左手領域、右手領域）画像を決定し、３次元姿勢推定モデルを呼び出すことによって、胴体領域画像内の胴体関節点の３次元姿勢角、及び手領域画像内の手関節点の３次元姿勢角を決定してもよい。

【0075】

好ましくは、該フレーム画像における胴体領域画像及び手領域画像を特定する際に、２次元関節点検出モデルの検出結果に基づいて実現されてもよい。具体的には、２次元の関節点検出モデルにより該フレーム画像におけるターゲット関節点を検出することによって、該フレーム画像におけるターゲット関節点の位置に基づいて該フレーム画像を切り取り、胴体領域画像と手領域画像とを切り出してもよい。

【0076】

ここで、２次元関節点検出モデルは、大量の訓練サンプルを含む訓練データセットに基づいてニューラルネットワークモデルを訓練することによって取得されてもよい。ここで、本発明の実施例は、２次元関節点検出モデルの具体的なネットワーク構造に限定されず、実際の需要に応じて構成されてもよい。

【0077】

好ましくは、３次元姿勢推定モデルは、畳み込みニューラルネットワークに基づくモデルであってもよく、例えば、３次元姿勢推定モデルは、ＲｅｓＮｅｔ（残差ネットワーク）、ＩｎｃｅｐｔｉｏｎＮｅｔ（ディープラーニングニューラルネットワーク）、ＤｅｎｓｅＮｅｔ（高密度ニューラルネットワーク）、ＶｇｇＮｅｔ（深層畳み込みニューラルネットワーク）、ＳＥＮｅｔ（Ｓｑｕｅｅｚｅ－ａｎｄ－ＥｘｃｉｔａｔｉｏｎＮｅｔｗｏｒｋｓ：スクイーズ及び励起ネットワーク）などのモデル構造に基づくニューラルネットワークモデルを含んでもよいが、これらに限定されない。ここで、モデルの入力は１つのフレーム画像又は該フレーム画像をベクトル化処理した画像データであり、モデルの出力は該フレーム画像における関節点木又は複数の関節点のそれぞれの標識であり、ここで、モデルの出力は該フレーム画像における各関節点の２次元座標であってもよい。ここで、標識は数字、アルファベットなどであってもよく、本発明はこれに限定されない。

【0078】

好ましくは、２次元関節点検出モデルは、ＲｅｓＮｅｔに基づくニューラルネットワークモデルであってもよく、大量の人体関節点検出データセットを用いて該ニューラルネットワークモデルに対して訓練を行い、訓練終了条件（例えば、モデルの損失関数の収束、検出精度が需要を満たすことなど）を満たす２次元キーポイント検出モデルを取得してもよい。

【0079】

図５は、本発明の実施例に係る１つのフレーム画像についての３次元姿勢の推定を示す概略図である。図５に示すように、各ターゲット関節点により形成された最小外接矩形の第１の矩形領域（図５に示す破線枠５０１で示す領域）を特定し、該フレーム画像における該第１の矩形領域に対応する第１の画像を切り出し、第１の画像をターゲットオブジェクトの該フレーム画像における胴体領域の画像としてもよい。

【0080】

好ましくは、該フレーム画像におけるターゲットオブジェクトの両手の手首関節点を中心として、所定の倍数の最小外接矩形の少なくとも１つの第２の矩形領域（図５に示す実線枠５０２、５０３で示す領域）を特定し、該フレーム画像における該少なくとも１つの第２の矩形領域に対応する少なくとも１つの第２の画像を切り取り、少なくとも１つの第２の画像をターゲットオブジェクトの該フレーム画像における手領域の画像としてもよい。

【0081】

１つの可能な態様では、ターゲットビデオの各フレーム画像について、３次元姿勢推定モデルを呼び出すことによって、ターゲットオブジェクトの各対象関節点の該フレーム画像における３次元姿勢角を取得してもよい。

【0082】

好ましくは、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を取得した後、各ターゲット関節点の該フレーム画像における３次元姿勢角をＳＭＰＬモデルに入力し、該ターゲットオブジェクトの人体モデル、即ち、図３ａに示すターゲットオブジェクトの人体モデルを取得してもよい。

【0083】

ここで、３次元姿勢推定モデルは、多数のトレーニングサンプルを含むトレーニングデータセットに基づいてニューラルネットワークモデルをトレーニングして得られてもよい。ここで、本発明の実施例は、３次元姿勢推定モデルの具体的なネットワーク構造に限定されず、実際の需要に応じて構成されてもよい。好ましくは、３次元姿勢推定モデルは、畳み込みニューラルネットワークに基づくモデルであってもよく、例えば、３次元姿勢推定モデルは、ＲｅｓＮｅｔ、ＩｎｃｅｐｔｉｏｎＮｅｔ、ＤｅｎｓｅＮｅｔ、ＶｇｇＮｅｔ、ＳＥＮｅｔなどのモデル構造に基づくニューラルネットワークモデルを含んでもよいが、これらに限定されない。ここで、モデルの入力は１つのフレーム画像又は該フレームの画像をベクトル化処理した画像データであり、モデルの出力は該フレームの画像における関節点の３次元姿勢角又は３次元座標である。

【0084】

本発明の好ましい実施例では、３次元姿勢推定モデルは、Ｈｕｍａｎ３．６Ｍなどの複数の３次元姿勢データセットに基づいて、ＲｅｓＮｅｔに基づくニューラルネットワークに対してＦｒａｎｋｍｏｃａｐアルゴリズムを用いてトレーニングして得られてもよい。ここで、Ｈｕｍａｎ３．６Ｍ３次元姿勢データセットは、３Ｄ人体姿勢推定の最大データセットであり、３６０万個の姿勢及び対応するビデオフレームにより構成され、これらのビデオフレームは１１人の俳優が４つのカメラ視野角から１５個の日常活動を行うプロセスを含む。

【0085】

図５に示すように、該３次元姿勢推定モデルの入力がターゲットビデオにおける現在のフレーム画像であることを一例とすると、上記の決定された第１の画像及び少なくとも１つの第２の画像を３次元姿勢推定モデルに入力した後、第１の画像及び胴体３次元姿勢推定モデルにより胴体３次元姿勢推定５０４を実行し、ターゲットオブジェクトの胴体上のターゲット関節点の該フレーム画像における３次元姿勢角を決定してもよい。少なくとも１つの第２の画像及び手３次元姿勢推定モデルにより手３次元姿勢推定５０５を実行し、ターゲットオブジェクトの両手のターゲット関節点の該フレーム画像における３次元姿勢角を決定する。

【0086】

ターゲットオブジェクトの胴体上のターゲット関節点の該フレーム画像における３次元姿勢角及びターゲットオブジェクトの両手のターゲット関節点の該フレーム画像における３次元姿勢角を取得した後、部位統合モデル５０６により、胴体３次元姿勢推定モデルにより決定された両手の手首関節点（即ち、上記の左手の手首関節点及び右手の手首関節点）の３次元姿勢角と、ターゲットオブジェクトの胴体上のターゲット関節点の該フレーム画像における３次元姿勢角とに対して統合処理を行い、手３次元姿勢推定モデルにより決定された両手の手首関節点の３次元姿勢角と、両手のターゲット関節点の該フレーム画像における３次元姿勢角とに対して統合処理を行い、全身３次元姿勢５０７、即ち、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を取得してもよい。統合処理は、３次元姿勢角間の連結、平滑化などを含む。

【0087】

単一視点のターゲットビデオでは、ターゲットオブジェクトの一部の領域が遮蔽され、即ち、一部のターゲット関節点（即ち、欠落関節点）の３次元姿勢角又は３次元座標を正確に取得できないという問題が発生する可能性があるため、決定された仮想オブジェクトの姿勢の精度が低下してしまう。従って、該ターゲットビデオに関連する非ターゲットビデオに基づいて、欠落関節点の３次元姿勢角又は３次元座標を決定することによって、ターゲットビデオにより決定された各ターゲット関節点の初期３次元姿勢角を校正してもよい。

【0088】

１つの可能な態様では、少なくとも２つの取り込み視野角を有する画像取り込み機器により取り込まれた少なくとも２つのビデオを取得してもよい。ここで、少なくとも２つの取り込み視野角は、１つの第１の視野角及び少なくとも１つの第２の視野角を含み、ターゲットビデオは、第１の視野角に対応するビデオである。

【0089】

ここで、各画像取り込み機器がターゲットオブジェクトに対して画像取り込みを同時に行うように構成されてもよいし、各画像取り込み機器が異なる期間内にターゲットオブジェクトに対して画像取り込みを行うように構成されてもよいが、本発明はこれに限定されない。

【0090】

図６は、本発明の実施例に係る画像取り込み装置を示す概略図である。図６に示すように、３つの同一のタイプの画像取り込み機器６０１、６０２、６０３によりターゲットオブジェクト６０４に対して同時に画像取り込みを行ってもよい。ここで、各画像取り込み機器６０１、６０２、６０３の取り込み視野角は１２０°であり、各画像取り込み機器６０１、６０２、６０３はターゲットオブジェクトを囲んで設置され、各画像取り込み機器６０１、６０２、６０３はターゲットオブジェクト６０４からの距離は等しく、各画像取り込み機器６０１、６０２、６０３は地面からの距離も等しい。これによって、ターゲットオブジェクト６０４を全ての画像取り込み機器６０１、６０２、６０３の取り込み視野角内に保持する。

【0091】

具体的には、この態様では、上記のステップＳ１２１、即ち、該フレーム画像に基づいて、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定するステップは、以下の操作により実現されてもよい。

【0092】

該フレーム画像に基づいて、ターゲットオブジェクトの該フレーム画像における各初期関節点を検出する。ここで、各ターゲット関節点は、各初期関節点を含む。

【0093】

該フレーム画像に基づいて、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定する。

【0094】

初期関節点の数が各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定する。ここで、欠落関節点は、各ターゲット関節点のうちの各初期ノード以外の関節点である。

【0095】

初期関節点の数が該各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、欠落関節点の３次元姿勢角を決定し、決定した欠落関節点の３次元姿勢角及び各初期関節点の初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定する。ここで、非ターゲットビデオは、少なくとも２つのビデオのうちのターゲットビデオ以外の少なくとも１つのビデオである。

【0096】

ここで、ターゲットビデオの各フレーム画像について、初期関節点は、該フレーム画像に基づいて決定され得るターゲット関節点である。上記の２次元関節点検出モデルを呼び出すことによって、ターゲットビデオの各フレーム画像における初期関節点を決定した後に、初期関節点の数を決定してもよい。

【0097】

ここで、該欠落関節点は、該各ターゲット関節点のうちの該各初期関節点以外の関節点である。初期関節点の数と各ターゲット関節点の総数との関係に基づいて、欠落関節点が存在するか否かを決定してもよい。初期関節点の数が各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定する。初期関節点の数が各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定する。

【0098】

好ましくは、関連画像は、非ターゲットビデオにおけるフレーム画像に対応するタイムスタンプが同一の画像であってもよい。欠落関節点が存在すると決定された場合、上記の３次元姿勢推定モデルを呼び出すことによって、各ターゲット関節点の該フレーム画像における初期３次元姿勢角及び各ターゲット関節点の該関連画像における３次元姿勢角をそれぞれ決定してもよい。そして、各ターゲット関節点の該フレーム画像における初期３次元姿勢角に基づいて、初期関節点の３次元姿勢角を決定する。各ターゲット関節点の該関連画像における３次元姿勢角に基づいて、欠落関節点の３次元姿勢角を決定する。従って、初期関節点の３次元姿勢角及び欠落関節点の３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定する。

【0099】

図７ａは、本発明の実施例に係る各ターゲット関節点の該フレーム画像における３次元姿勢角の決定を示す概略図である。図７ｂは、本発明の実施例に係るシミュレーションされた欠落関節点が所在する領域を示す概略図である。図７ｃは、本発明の実施例に係る姿勢校正後の３次元姿勢角を示す概略図である。

【0100】

図７ａに示すように、実線枠７０１に示すように、ターゲットビデオの１つのフレーム画像では、ターゲットオブジェクトの左腕が身体の他の部分により遮蔽されているため、該フレーム画像により２次元関節点検出を行う際に、該ターゲットオブジェクトの左腕領域におけるターゲット関節点を検出することができない。なお、３次元姿勢推定モデルに基づいて予測を行い、全てのターゲット関節点の初期３次元姿勢角を取得し、ＳＭＰＬ－Ｘモデルによりターゲットオブジェクトの人体モデルを復元することができても、ターゲットオブジェクトの左腕領域のターゲット関節点の３次元姿勢角を正確に特定することができない。

【0101】

欠落関節点をより明確に示すために、本発明は、図７ａに基づいてシミュレーションを行い、図７ｂに示す画像を取得した。図７ｂから分かるように、該フレーム画像に基づいて、該ターゲットオブジェクトの遮蔽されている左腕の領域を完全に特定することができなく、即ち、該フレーム画像に基づいて該ターゲットオブジェクトの左腕の領域のターゲット関節点を検出することができない。例えば実線枠７０２に示すように、手首及び手が欠落している。

【0102】

関連画像に対して２次元関節点検出を行うことによって、欠落関節点の３次元姿勢角を正確に決定することができ、例えば実線枠７０３に示すように、手首と手の３次元姿勢角も正確に取得することができるため、ターゲットオブジェクトの各ターゲット関節点の３次元姿勢角を取得し、ＳＭＰＬ－Ｘモデルによりターゲットオブジェクトの人体モデル、即ち図７ｃを復元することができる。

【0103】

異なる視野角の画像取り込み装置によりターゲットオブジェクトのビデオを取り込み、ターゲットビデオに基づいて決定されたターゲット関節点の初期３次元姿勢角における欠落関節点の初期３次元姿勢角を、非ターゲットビデオに基づいて決定された欠落関節点の３次元姿勢角に置き換えることによって、ターゲットビデオにより決定された各ターゲット関節点の初期３次元姿勢角を校正することができ、さらに仮想オブジェクトの姿勢をより正確に制御することができる。本発明に係るデータ処理方法では、少なくとも２つの画像取り込み装置により実現することができ、ウェアラブルセンサに依存する必要がなく、操作が簡単であり、コストが低い。

【0104】

好ましくは、第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定するステップは、第１の関節点の該フレーム画像における３次元姿勢角に基づいて、第１の関節点の第２の３次元座標を決定するステップを含む。

【0105】

或いは、好ましくは、第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定するステップは、以下のステップを含む。

【0106】

第１の関節点の該フレーム画像における画像位置に基づいて、第１の関節点の第２の座標系における２次元座標を決定する。

【0107】

該フレーム画像及び該フレーム画像の相関画像に基づいて、第１の関節点の奥行き方向の座標を推定する。

【0108】

２次元座標及び奥行き方向の座標に基づいて、第１の関節点の第２の３次元座標を決定する。

【0109】

ここで、ターゲットビデオは、単眼画像取り込み機器により取り込まれたビデオであり、相関画像は、該フレーム画像の直前のフレーム画像であり、或いは、ターゲットビデオは、両眼画像取り込み機器により取り込まれた２つのビデオのうちの一方のビデオであり、相関画像は、２つのビデオのうちの他方のビデオにおける該フレーム画像に対応する画像である。

【0110】

ここで、第１の関節点の該フレーム画像における３次元姿勢角を上記のＳＭＰＬ－Ｘモデルに入力することによって、該第１の関節点の第２の３次元座標を決定してもよい。ここで、ＳＭＰＬ－Ｘモデルは、入力された各ターゲット関節点の３次元姿勢角に基づいて、各ターゲット関節点の３次元姿勢角に対応する動作の人体モデル及び各ターゲット関節点の第２の３次元座標を出力することができる。

【0111】

第１の関節点の第２の３次元座標をより正確に決定するために、第１の関節点の該フレーム画像における画像位置に基づいて、該第１の関節点の第２の座標系における２次元座標を決定してもよい。また、該フレーム画像におけるターゲットオブジェクトの第１の関節点の奥行き情報を推定することによって、該第１の関節点の奥行き方向の座標を取得して、該２次元座標及び該奥行き方向の座標に基づいて該フレーム画像における第１の関節点の第２の３次元座標を取得してもよい。

【0112】

好ましくは、上記の画像取り込み機器が単眼画像取り込み機器である場合、単眼奥行き推定アルゴリズムに基づいて、画像取り込み機器により取り込まれた現在の時刻に対応する画像（即ち、現在のフレーム画像）及び現在の時刻の直前の時刻に対応する画像（現在のフレーム画像の直前のフレーム画像）に基づいて、現在のフレーム画像におけるターゲットオブジェクトの奥行き情報を推定してもよい。ここで、単眼奥行き推定アルゴリズムは、コーデックに基づく単眼奥行き推定アルゴリズムであってもよく、即ち、訓練済みのニューラルネットワークモデルを用いて実現されてもよい。上記の画像取り込み機器が両眼画像取り込み機器である場合、両眼奥行き推定アルゴリズムに基づいて、画像取り込み機器により取り込まれた現在時刻の２枚の画像基づいて、現在のフレーム画像におけるターゲットオブジェクトの奥行き情報を決定してもよい。

【0113】

図２に示すように、上記の画像取り込み機器が単眼画像取り込み機器であると仮定すると、第１の関節点Ａの２次元座標（ｘ，ｙ）及び推定されたターゲットオブジェクトの上記の奥行き情報ｚに基づいて、第１の関節点の第２の３次元座標ｐａｔｈ_ｐｒｉ（ｘ，ｙ，ｚ）を決定してもよい。

【0114】

１つの可能な態様では、座標変換関係は、以下のステップにより取得されてもよい。

【0115】

２つの関連関節点の第２の３次元座標に基づいて、２つの関連関節点の第１の距離を決定する。ここで、２つの関連関節点は、各ターゲット関節点のうちの親子関係を有する２つの指定関節点である。

【0116】

該２つの関連関節点の第１の座標系における参照距離を取得する。

【0117】

第１の距離及び参照距離に基づいて、座標変換関係を決定する。

【0118】

好ましくは、各ターゲット関節点のうちの任意の２つの親子関係を有する関節点を上記の２つの関節点としてもよい。データ処理のデータ量を低減させ、データ処理の効率を向上させるために、２つの関連関節点は、直接的な親子関係を有する２つの関節点であってもよく、例えば、２つの関連関節点は、膝関節点及び足首関節点であってもよい。

【0119】

好ましくは、第１の関節点の第２の３次元座標を決定する上記の方法に従って、２つの関連関節点の第２の３次元座標をそれぞれ決定して、各関連関節点の第２の３次元座標に基づいて第１の距離ｈ_１を決定してもよい。

【0120】

好ましくは、任意のプログラミング可能な画像構築モデルにより仮想オブジェクトを構築し、例えば、仮想エンジンにより仮想オブジェクトを構築してもよい。仮想オブジェクトを構築した後、仮想オブジェクトの根ノードを該第１の座標系の原点に一致させ、２つの関連関節点の第２の座標系における参照距離ｈ_０を決定して、座標変換関係ｈ_１／ｈ_０を決定してもよい。

【0121】

このように、以下の式（１）に従って第１の関節点の第１の３次元座標を決定してもよい。

【0122】

【数1】

ここで、ｐａｔｈ_ｎｏｒｍ（ｘ，ｙ，ｚ）は第１の関節点の第１の３次元座標を表し、ｐａｔｈ_ｐｒｉ（ｘ，ｙ，ｚ）は第１の関節点の第２の３次元座標を表し、ｈ_１／ｈ_０は座標変換関係を表す。

【0123】

ターゲットビデオを取得する過程において、光学カメラの撮像誤差などにより、最終的に生成されたターゲットビデオに明らかなノイズがある。このノイズのあるターゲットビデオに基づいて仮想オブジェクトの姿勢を決定する際に、仮想オブジェクトに不自然又は異常な体の動作が出現し、仮想オブジェクトのターゲット関節点に揺れや異常な回転などが発生する可能性がある。

【0124】

これに対して、該方法は、具体的に、以下のステップに従って、各ターゲットゲート関節点の各次元における姿勢角シーケンスに対してフィルタリング処理をさらに実行してもよい。

【0125】

ターゲットビデオのフレームレートを取得する。

【0126】

ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定する。

【0127】

この態様では、前記ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定するステップは、以下のステップを含む。

【0128】

フレームレートに基づいて、スライディングウィンドウ幅の調整係数を決定する。

【0129】

フレームレートと調整係数との積に基づいて、初期スライディングウィンドウ幅を決定する。

【0130】

初期スライディングウィンドウ幅及び所定のスライディングウィンドウ幅のうちの大きい値を、フィルタリングスライディングウィンドウ幅として決定するステップ。

【0131】

ここで、スライド幅の調整係数は非線形係数であり、所定のスライディングウィンドウ幅は最小のスライディングウィンドウ幅である。

【0132】

例えば、以下の式（２）に従ってスライディングウィンドウ幅を計算してもよい。

【0133】

【数2】

ここで、ｗｉｎ_{ｗｉｄｔｈ}はターゲットビデオのフィルタリングスライディングウィンドウ幅を表し、ＦＰＳはターゲットビデオのフレームレートを表し、
（外１）

は非線形係数を表し、ｎは所定の最小のスライディングウィンドウ幅を表し、実際の要求に応じて構成されてもよく（例えば経験値又は実験値であってもよい）、本発明はこれに限定されない。例えば、ｎを３０に設定してもよい。

【0134】

フィルタリングスライディングウィンドウ幅に基づいて、各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行い、フィルタリング処理された姿勢角シーケンスを取得する。ここで、１つのターゲット関節点の１つの次元における姿勢角シーケンスは、該ターゲット関節点の該ターゲットビデオの各フレーム画像における該次元における２次元姿勢角を含む。

【0135】

図８は、本発明の実施例に係る１つのターゲット関節点の１つの次元の姿勢角シーケンスのフィルタリング処理の前後の対比を示す概略図である。図８に示すように、横軸は、フレームインデックス（ｆｒａｍｅ＿ｉｄｘ）、即ち、該ビデオに含まれるフレーム画像の総数を表し、縦軸は、２次元姿勢角（θ）を表し、その単位は角度である。破線部８０１は、該ターゲット関節点の１つの次元の姿勢角シーケンスのフィルタリング処理前の曲線を示し、実線部８０２は、該ターゲット関節点の１つの次元の姿勢角シーケンスのフィルタリング処理後の曲線を示す。図８における破線部８０１に示すように、該ノイズが存在することにより、各ターゲット関節点の各次元の姿勢角シーケンスにより形成された滑らかな曲線にバリが繰り返し発生し、一方、フィルタリング処理後の姿勢角シーケンスにより形成された曲線８０２は、バリがほとんど存在せず、バリを効率的に除去することができる。

【0136】

この態様では、第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定するステップは、以下のステップを含んでもよい。

【0137】

各次元におけるフィルタリング後の姿勢角シーケンスに基づいて、各ターゲット関節点の該フレーム画像におけるフィルタリング後の３次元姿勢角を取得する。

【0138】

第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像におけるフィルタリング後の３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0139】

図９ａは、本発明の実施例に係るフィルタリング処理前の１つのフレーム画像におけるターゲットオブジェクトの３次元姿勢角を示す概略図である。図９ｂは、本発明の実施例に係るフィルタリング処理後の１つのフレーム画像におけるターゲットオブジェクトの３次元姿勢角を示す概略図である。

【0140】

図９ａの枠９ａ１に示すように、右手首に異常な回転姿勢が発生し、即ち、左手首が反転していることが分かる。

【0141】

図９ｂの枠９ｂ１に示すように、各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行った結果、右手首が正常に回転するように復元し、人間工学的に正しい姿勢であることがわかる。

【0142】

各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行うことによって、各ターゲット関節点の３次元姿勢角を校正することができ、バリノイズを除去すると同時に各関節点の元の回転幅を保留することができ、さらにターゲット関節点に基づいて仮想オブジェクトの姿勢を制御することができる。

【0143】

カメラの性能が限られている場合、得られたビデオのフレームレートが低くなり、この際に得られた３次元姿勢シーケンスに明らかなタイムラグが発生するだけでなく、関節角の平滑化処理の際に、高周波数の回転量がノイズとして誤って平滑化され、姿勢精度が低下してしまう。

【0144】

そのため、１つの可能な態様では、該データ処理方法は、以下のステップをさらに含んでもよい。

【0145】

ターゲットビデオにおける各隣接フレームについて、隣接フレーム間のターゲットオブジェクトのオプティカルフロー情報を決定する。

【0146】

オプティカルフロー情報に基づいて、隣接フレーム間においてフレーム補完処理を行い、隣接フレーム間の少なくとも１つのフレーム補完画像を取得する。

【0147】

ターゲットビデオ及び各フレーム補完画像に基づいて、フレーム補完後のターゲットビデオを取得する。

【0148】

この態様では、ターゲットビデオの各画像フレームについてステップＳ１２１～Ｓ１２４をそれぞれ実行することは、フレーム補完後のターゲットビデオの各画像フレームについて上記のステップＳ１２１（即ち、該フレーム画像に基づいて、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定する）～ステップＳ１２４（第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する）を実行することを含んでもよい。

【0149】

好ましくは、ターゲットオブジェクトのオプティカルフロー情報は、ターゲットオブジェクトのオプティカルフロー軌跡及びオプティカルフロー方向を含んでもよい。オプティカルフローのビデオフレーム補完アルゴリズムに基づいて、ターゲットビデオにおけるターゲットオブジェクトの隣接する２つのフレーム画像間のオプティカルフローの軌跡と方向を計算して、ターゲットオブジェクトのこれら２つのフレーム画像間の中間オプティカルフローの軌跡と方向を予測して、これら２つのフレーム画像間の中間フレームを取得し、フレーム補完後のターゲットビデオを取得してもよい。即ち、ターゲットビデオの元の時間長を変更することなく、ターゲットビデオの総フレーム数を効果的に増加し、ターゲットビデオのフレームレートを向上させ、ターゲットオブジェクトの隣接する２つのフレーム画像間の姿勢の一貫性を向上させることができる。これによって、各ターゲット関節点の各次元の姿勢角シーケンスに現れる明らかなタイムラグ、ターゲットオブジェクトのターゲット関節点の高周波数回転によるターゲット関節点の３次元姿勢角の誤った平滑化問題を有効に解決することができる。

【0150】

好ましくは、欠落関節点が存在すると決定された場合、非ターゲットビデオに対して上記のフレーム補完処理を行い、フレーム補完後の非ターゲットビデオを取得することによって、フレーム補完後の非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、欠落関節点の３次元姿勢角を決定する必要がある。

【0151】

ターゲットビデオに対してフレーム補完を行い、フレーム補完後のターゲットビデオの各フレーム画像に基づいて、第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角を決定し、さらに仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定することによって、仮想オブジェクトの隣接フレーム画像間の一貫性を向上させることができる。

【0152】

本発明の実施例に係るスキームの実用性をよりよく説明するために、以下は、該データ処理方法の具体的な応用シナリオを参照しながら本発明の実施例を説明する。該応用シナリオは、各種のゲーム、ファンタジー映画／ドラマの制作過程などである。該シナリオでは、俳優（即ち、上記のターゲットオブジェクト）が演技を行う際に、３つのカメラで該俳優の動作ビデオを撮影し、俳優の演技動作に応じてゲーム中の仮想人物の動きを駆動することができる。図１０は、本発明が適用されるデータ処理システム１０００の構成の一例を示す概略図である。図１０に示すように、データ処理システム１０００は、画像取り込み装置１０、データ処理装置２０、端末装置３０及びネットワーク４０を含んでもよい。

【0153】

ここで、画像取り込み装置１０は、画像取り込みが可能な任意の電子機器のセットである。上記の図６に示される画像取り込み方式を参照すると、画像取り込み装置１０は、異なる取り込み視野角に対応する３つの画像取り込み機器６０１、６０２、６０３を含み、画像取り込み機器６０１、６０２、６０３は、ターゲットオブジェクト６０４を取り囲み、ターゲットオブジェクト６０４の周囲に均等に配置されている。ここで、３つの画像取り込み機器は、第１の視野角に対応する１つの第１の機器と、第２の視野角に対応する２つの第２の機器とを含み、該ターゲットビデオは、第１の機器により取り込まれたビデオであり、第２の装置により取り込まれたビデオは、非ターゲットビデオと称される。そして、画像取り込み装置１０は、取り込まれたターゲットビデオ及び非ターゲットビデオをデータ処理装置２０に送信する。

【0154】

データ処理装置２０は、本発明の実施例に係る方法に従って、ターゲットビデオの各フレーム画像に基づいて、ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する。ここで、データ処理装置２０は、ターゲットビデオの各フレーム画像について、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を決定するように、以下の処理を実行する。

【0155】

該ターゲットビデオの該フレーム画像に基づいて、該ターゲットオブジェクトの該フレーム画像における各初期関節点を検出する。該各ターゲット関節点は、該各初期関節点を含む。

【0156】

該ターゲットビデオの該フレーム画像に基づいて、該各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定する。

【0157】

該初期関節点の数が該各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、該各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、該各ターゲット関節点の該フレーム画像における３次元姿勢角として決定する。

【0158】

該初期関節点の数が該各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、該欠落関節点の３次元姿勢角を決定し、決定した該欠落関節点の３次元姿勢角及び該各初期関節点の初期３次元姿勢角を、該各ターゲット関節点の該フレーム画像における３次元姿勢角として決定する。該非ターゲットビデオは、該少なくとも２つのビデオのうちの該ターゲットビデオ以外の少なくとも１つのビデオである。

【0159】

そして、データ処理装置２０は、取得された仮想オブジェクトの各フレーム画像に対応する３次元姿勢を端末装置３０に送信する。

【0160】

端末装置３０には、仮想現実（ＶＲ）変換を実現可能なアプリケーションプログラムがインストールされており、取得された各フレーム画像における仮想オブジェクトの３次元姿勢に基づいて、仮想オブジェクトが対応する動作を実行するように駆動する。ユーザは、このアプリケーションプログラムを介して、仮想オブジェクトに対して制御命令を送信することができる。

【0161】

端末装置３０は、ネットワーク４０を介してデータ処理装置２０に接続されている。データ処理装置２０は、データベースを備えるサーバ又はサーバ群であってもよく、データベースには、多数のターゲット関節点の３次元姿勢角及び３次元座標が記憶されている。

【0162】

以下は、該システムを参照しながら本発明の好ましい実施例を説明する。図１１は、本発明の１つのシナリオの実施例に係るデータ処理方法を示すフローチャートである。該方法は、電子機器により実行され、例えば上記の図１０におけるデータ処理装置２０により実行される。図１１に示すように、該方法は、ステップＳ９０１～Ｓ９１５を含んでもよい。

【0163】

ステップＳ９０１：同一のタイプの３つの画像取り込み機器により、同時に俳優に対して画像取り込みを行い、各画像取り込み機器により取り込まれたビデオを取得する。ここで、少なくとも２つの取り込み視野角は、１つの第１の視野角及び少なくとも１つの第２の視野角を含み、第１の視野角を主視野角として決定し、第２の視野角を補助視野角として決定し、第１の視野角に対応するビデオをターゲットビデオとして決定し、第２の視野角に対応するビデオを非ターゲットビデオとして決定する。

【0164】

ステップＳ９０２：各ビデオに対してフレーム補完を行い、フレーム補完後のターゲットビデオ及びフレーム補完後の非ターゲットビデオを取得する。

【0165】

フレーム補完後のターゲットビデオの各フレームの画像について以下のステップＳ９０３～Ｓ９１５を実行する。

【0166】

ステップＳ９０３：該フレーム画像を２次元関節点検出モデルに入力し、２次元関節点検出を行い、該フレーム画像における初期関節点を取得する。ここで、各ターゲット関節点の総数は２４個とする。

【0167】

ステップＳ９０４：該フレーム画像を３次元姿勢推定モデルに入力し、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定する。

【0168】

ステップＳ９０５：初期関節点の数が２４に等しいか否かを決定する。

【0169】

ステップＳ９０６：初期関節点の数が２４に等しくない場合、即ち、２４よりも小さい場合、欠落関節点が存在すると決定し、フレーム補完後の非ターゲットビデオにおける該フレーム画像のタイムスタンプと同一の関連画像を３次元姿勢推定モデルに入力し、各対象関節点の該関連画像における３次元姿勢角を決定する。各ターゲット関節点の該関連画像における３次元姿勢角に基づいて欠落関節点の３次元姿勢角を決定し、さらに初期関節点の初期３次元姿勢角及び欠落関節点の３次元姿勢角を各ターゲット関節点の３次元姿勢角として決定する。

【0170】

ステップＳ９０７：初期関節点の数が２４に等しい場合、欠落関節点が存在しないと決定し、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を各ターゲット関節点の３次元姿勢角として決定する。

【0171】

ステップＳ９０８：上記の式（２）に従って、各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行い、フィルタリング処理後の姿勢角シーケンスを取得する。

【0172】

ステップＳ９０９：膝関節点及び足首関節点を２つの関連関節点として決定し、膝関節点の３次元姿勢角及び足首関節点の３次元姿勢角をＳＭＰＬ－Ｘモデルにそれぞれ入力し、膝関節点の該フレーム画像に対応する第２の座標系における第２の３次元座標、及び足首関節点の第２の座標系における第２の３次元座標を決定し、膝関節点の第２の３次元座標と足首関節点の第２の３次元座標との間の第１の距離ｈ_１を計算する。

【0173】

ステップＳ９１０：上記の仮想エンジンにより仮想オブジェクトを構築し、仮想オブジェクトの腰関節点を該仮想オブジェクトが所在する第１の座標系の原点に一致させ、該仮想オブジェクトにおける膝関節点と足首関節点との間の距離ｈ_０、即ち、上記の参照距離を決定し、座標変換関係ｈ_１／ｈ_０を決定する。

【0174】

ステップＳ９１１：根ノードの第２の座標系における第２の２次元座標（ｘ，ｙ）を計算し、単眼奥行き推定アルゴリズムに従って、ターゲットビデオを取り込むための画像取り込み機器と現実の俳優との間の距離ｚを計算し、根ノードの第２の２次元座標ｐａｔｈ_ｐｒｉ（ｘ，ｙ，ｚ）を決定し、式（１）に従って根ノードの第１の３次元座標ｐａｔｈ_ｎｏｒｍ（ｘ，ｙ，ｚ）を決定する。ここで、根ノードを上記の第１のノードとする。

【0175】

ステップＳ９１２：根ノードの第１の３次元座標及び各ターゲット関節点のフィルタリング後の３次元姿勢角を仮想エンジンに入力し、爪先関節点の該フレーム画像に対応する第１の３次元座標を決定する。ここで、爪先関節点を上記の第２の関節点とする。

【0176】

ここで、各関節点の各フレーム画像に対応する第１の３次元座標を仮想エンジンに記憶してもよいが、本発明は、具体的な記憶方法に限定されない。

【0177】

ステップＳ９１３：爪先関節点の該フレーム画像に対応する第１の３次元座標及び履歴３次元座標に基づいて、両者間のユークリッド距離（即ち、上記の変位オフセット）及び両者の各次元における差を決定し、両者間の距離が設定値、例えば２ｃｍ以下であるか否かを決定する。ここで、履歴３次元座標は、爪先関節点の該フレーム画像の直前のフレーム画像に対応する第１の３次元座標である。

【0178】

ステップＳ９１４：両者間の距離が設定値以下である場合、各次元に対応する差と根ノードの第１の３次元座標のうちの各次元の座標とを加算し、根ノードのターゲット３次元座標を取得し、根ノードのターゲット３次元座標を仮想オブジェクトの根ノードの３次元座標として決定し、仮想エンジンが他の関節点の３次元姿勢角に基づいて他の関節点のターゲット３次元座標を決定するように仮想エンジンを再度駆動し、さらに根ノードのターゲット３次元座標、第２の関節点の履歴３次元座標、他の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。ここで、他の関節点は、各ターゲット関節点のうちの根ノード及び爪先関節点以外の関節点である。

【0179】

ステップＳ９１５：両者間の距離が設定値よりも大きい場合、直接に根ノードの第１の３次元座標を仮想オブジェクトの根ノードのターゲット３次元座標として決定し、仮想エンジンが根ノードの第１の３次元座標及び他の関節点の３次元姿勢角に基づいて他の関節点のターゲット３次元座標を決定するように仮想エンジンを再度駆動し、さらに各ターゲット関節点のターゲット３次元座標、及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0180】

本発明の実施例は、本発明の実施例に係るデータ処理方法と同様な原理に基づいて、データ処理装置をさらに提供する。図１２は、本発明の実施例に係るデータ処理装置の構成の一例を示す概略図である。図１２に示すように、データ処理装置５０は、ビデオ取得モジュール５１０及び姿勢決定モジュール５２０を含む。

【0181】

ビデオ取得モジュール５１０は、ターゲットオブジェクトのターゲットビデオを取得する。ここで、ターゲットオブジェクトは、少なくとも１つのフレーム画像を含む。

【0182】

姿勢決定モジュール５２０は、各フレーム画像について処理を実行し、該ターゲットオブジェクトに関連する仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する。

【0183】

姿勢決定モジュール５２０は、該処理を実行する際に、該フレーム画像に基づいて、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定し、第１の関節点及び第２の関節点は各ターゲット関節点のうちの指定関節点であり、第１の座標系は仮想オブジェクトに対応する座標系であり、前記第１の関節点は前記各ターゲット関節点のうちの根ノードであり、第２の関節点の該フレーム画像に対応する第１の３次元座標及び該フレーム画像の直前のフレーム画像に対応する履歴３次元座標に基づいて、第２の関節点の変位オフセットを決定し、変位オフセットが設定値以下である場合、第２の関節点の第１の３次元座標及び履歴３次元座標に基づいて、第１の関節点の第１の３次元座標を補正し、第１の関節点のターゲット３次元座標を取得し、第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0184】

好ましくは、姿勢決定モジュール５２０は、変位オフセットが設定値よりも大きい場合、第１の関節点の第１の３次元座標をターゲット３次元座標とする。

【0185】

好ましくは、姿勢決定モジュール５２０は、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する際に、第１の関節点のターゲット３次元座標及び他の関節点の３次元姿勢角に基づいて、該フレーム画像における他の関節点の第１の座標系におけるターゲット３次元座標を決定し、他の関節点は、各ターゲット関節点のうちの第１の関節点及び第２の関節点以外の関節点であり、各ターゲット関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像における３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する。

【0186】

好ましくは、姿勢決定モジュール５２０は、第１の関節点の第１の３次元座標を補正する際に、第１の座標系の各次元において、第２の関節点の前記第１の３次元座標と履歴３次元座標との差を決定し、各次元に対応する差に基づいて、第１の関節点の第１の３次元座標のうちの対応する次元の座標を補正し、第１の関節点のターゲット３次元座標を取得してもよい。

【0187】

好ましくは、データ処理装置５０は、フィルタモジュールをさらに含む。フィルタモジュールは、ターゲットビデオのフレームレートを取得し、ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定し、フィルタリングスライディングウィンドウ幅に基づいて、各ターゲット関節点の各次元における姿勢角シーケンスに対してフィルタリング処理を行い、フィルタリング処理後の姿勢角シーケンスを取得する。ここで、ターゲット関節点の次元における姿勢角シーケンスは、該ターゲット関節点のターゲットビデオの各フレーム画像における該次元における２次元姿勢角を含む。

【0188】

この態様では、姿勢決定モジュール５２０は、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定する際に、第１の関節点のターゲット３次元座標及び各ターゲット関節点の該フレーム画像におけるフィルタリング後の３次元姿勢角に基づいて、仮想オブジェクトの該フレーム画像に対応する３次元姿勢を決定してもよい。

【0189】

好ましくは、フィルタモジュールは、ターゲットビデオのフレームレートに基づいて、関節点の２次元姿勢角のフィルタリングスライディングウィンドウ幅を決定する際に、フレームレートに基づいて、スライディングウィンドウ幅の調整係数を決定し、フレームレートと調整係数との積に基づいて、初期スライディングウィンドウ幅を決定し、初期スライディングウィンドウ幅及び所定のスライディングウィンドウ幅のうちの大きい値を、フィルタリングスライディングウィンドウ幅として決定してもよい。

【0190】

好ましくは、姿勢決定モジュール５２０は、該フレーム画像に基づいて、ターゲットオブジェクトのフレーム画像における各ターゲット関節点の３次元姿勢角、並びに第１の関節点及び第２の関節点のそれぞれの第１の座標系における該フレーム画像に対応する第１の３次元座標を決定する際に、該フレーム画像に基づいて、３次元姿勢推定モデルにより、各ターゲット関節点の該フレーム画像における３次元姿勢角を決定し、第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定し、第２の座標系はターゲットビデオに対応する画像座標系であり、第２の３次元座標及び座標変換関係に基づいて、第１の関節点の第１の３次元座標を決定し、座標変換関係は第１の座標系と第２の座標系との変換関係であり、第１の関節点の第１の３次元座標、及び各ターゲット関節点の３次元姿勢角のうちの第２の関節点に関連する３次元姿勢角に基づいて、第２の関節点の第１の３次元座標を決定してもよい。

【0191】

好ましくは、姿勢決定モジュール５２０は、第１の関節点の第２の座標系における該フレーム画像に対応する第２の３次元座標を決定する際に、第１の関節点の該フレーム画像における３次元姿勢角に基づいて、第１の関節点の第２の３次元座標を決定してもよい。

【0192】

或いは、姿勢決定モジュール５２０は、第１の関節点の該フレーム画像における画像位置に基づいて、第１の関節点の第２の座標系における２次元座標を決定し、該フレーム画像及び該フレーム画像の相関画像に基づいて、第１の関節点の奥行き方向の座標を推定し、２次元座標及び奥行き方向の座標に基づいて、第１の関節点の第２の３次元座標を決定してもよい。ここで、ターゲットビデオは、単眼画像取り込み機器により取り込まれたビデオであり、相関画像は、該フレーム画像の直前のフレーム画像であり、或いは、ターゲットビデオは、両眼画像取り込み機器により取り込まれた２つのビデオのうちの一方のビデオであり、相関画像は、２つのビデオのうちの他方のビデオにおける該フレーム画像に対応する画像である。

【0193】

好ましくは、姿勢決定モジュール５２０は、座標変換関係を決定する際に、２つの関連関節点の第２の３次元座標に基づいて、２つの関連関節点の第１の距離を決定し、２つの関連関節点は、各ターゲット関節点のうちの親子関係を有する２つの指定関節点であり、２つの関連関節点の第１の座標系における参照距離を取得し、第１の距離及び参照距離に基づいて、座標変換関係を決定してもよい。

【0194】

好ましくは、ビデオ取得モジュール５１０は、少なくとも２つの取り込み視野角を有する画像取り込み機器により取り込まれた少なくとも２つのビデオを取得してもよく、少なくとも２つの取り込み視野角は、１つの第１の視野角及び少なくとも１つの第２の視野角を含み、ターゲットビデオは、第１の視野角に対応するビデオである。

【0195】

この態様では、姿勢決定モジュール５２０は、フレーム画像に基づいて、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を決定する際に、該フレーム画像に基づいて、ターゲットオブジェクトの該フレーム画像における各初期関節点を検出し、各ターゲット関節点は各初期関節点を含み、該フレーム画像に基づいて、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定し、初期関節点の数が各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、初期関節点の数が各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、欠落関節点の３次元姿勢角を決定し、決定した欠落関節点の３次元姿勢角及び各初期関節点の初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、非ターゲットビデオは、少なくとも２つのビデオのうちのターゲットビデオ以外の少なくとも１つのビデオである。

【0196】

好ましくは、データ処理装置５０は、ビデオフレーム補完モジュールをさらに含んでもよい。ビデオフレーム補完モジュールは、ターゲットビデオにおける各隣接フレームについて、隣接フレーム間のターゲットオブジェクトのオプティカルフロー情報を決定し、オプティカルフロー情報は、ターゲットオブジェクトのオプティカルフロー軌跡及びオプティカルフロー方向を含み、オプティカルフロー情報に基づいて、隣接フレーム間においてフレーム補完処理を行い、隣接フレーム間の少なくとも１つのフレーム補完画像を取得し、ターゲットビデオ及び各フレーム補完画像に基づいて、フレーム補完後のターゲットビデオを取得する。ここで、姿勢決定モジュール５２０は、フレーム補完後のターゲットビデオの各フレーム画像について処理を実行し、仮想オブジェクトの各フレーム画像に対応する３次元姿勢を取得する。本発明の実施例の装置は、本発明の実施例に係る方法を実行することができ、その実現原理は同様であり、本発明の実施例の装置の各モジュールにより実行される動作は、本発明の実施例の方法のステップに対応するものであり、装置の各モジュールの詳細な機能の説明は、上記の対応する方法の説明を参照してもよく、ここでその説明を省略する。

【0197】

図１３は、本発明の実施例に係るデータ処理システムの構成の一例を示す概略図である。図１３に示すように、データ処理システム１３００は、画像取り込み装置１３１０、データ処理装置１３２０及び端末装置１３３０を含む。

【0198】

画像取り込み装置１３１０は、ターゲットオブジェクトのターゲットビデオを取り込み、ターゲットビデオは少なくとも１つのフレーム画像を含む。

【0199】

データ処理装置１３２０は、画像取り込み装置により取り込まれたターゲットビデオに基づいて、上記の実施例に係る方法を実行することによって、ターゲットオブジェクトに関連する仮想オブジェクトのターゲットビデオの各フレーム画像に対応する３次元姿勢を取得し、取得した３次元姿勢を端末装置に送信する。

【0200】

端末装置１３３０は、取得された３次元姿勢に基づいて、仮想オブジェクトが対応する動作を実行するように駆動する。好ましくは、画像取り込み装置１３１０は、異なる取り込み視野角に対応する３つの画像取り込み機器を含み、３つの画像取り込み機器は、ターゲットオブジェクトを取り囲み、且つターゲットオブジェクトの周囲に均等に配置されている。ここで、３つの画像取り込み機器は、第１の視野角に対応する１つの第１の機器及び第２の視野角に対応する２つの第２の機器を含み、ターゲットビデオは、第１の機器により取り込まれたビデオである。

【0201】

好ましくは、上述したように、１２０°の取り込み視野角を有する３つの同一の型式の画像取り込み機器を用いて同時にターゲットオブジェクトに対して画像取り込みを行ってもよい。各画像取り込み機器はターゲットオブジェクトを囲んで配置され、各画像取り込み機器のターゲットオブジェクトからの距離は等しく、各画像取り込み機器の地面からの距離も等しい。これによって、ターゲットオブジェクトを全ての画像取り込み機器の取り込み視野角内に保持し、３つの画像取り込み機器が対象物を取り囲み、ターゲットオブジェクトの周囲に均等に配置される。

【0202】

データ処理装置１３２０は、ターゲットビデオの各フレーム画像について、ターゲットオブジェクトの各ターゲット関節点の該フレーム画像における３次元姿勢角を決定する際に、ターゲットビデオの該フレーム画像に基づいて、ターゲットオブジェクトの該フレーム画像における各初期関節点を検出し、各ターゲット関節点は各初期関節点を含み、ターゲットビデオの該フレーム画像に基づいて、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を決定し、初期関節点の数が各ターゲット関節点の総数に等しい場合、欠落関節点が存在しないと決定し、各ターゲット関節点の該フレーム画像における初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、初期関節点の数が各ターゲット関節点の総数よりも小さい場合、欠落関節点が存在すると決定し、非ターゲットビデオにおける該フレーム画像に対応する関連画像に基づいて、欠落関節点の３次元姿勢角を決定し、決定した欠落関節点の３次元姿勢角及び各初期関節点の初期３次元姿勢角を、各ターゲット関節点の該フレーム画像における３次元姿勢角として決定し、非ターゲットビデオは、第１の機器及び第２の機器により取り込まれた少なくとも２つの視野角に対応する少なくとも２つのビデオのうちのターゲットビデオ以外の少なくとも１つのビデオである。

【0203】

本発明の実施例は、電子機器をさらに提供する。該電子機器は、コンピュータプログラムが記憶されたメモリと、プロセッサと、を含み、プロセッサは、上記のデータ処理方法を実現するようにコンピュータプログラムを実行する。

【0204】

図１４は、本発明の実施例に係る電子機器の構成の一例を示す概略図である。１つの好ましい実施例では、電子機器を提供する。図１４に示すように、電子機器４０００は、プロセッサ４００１及びメモリ４００３を含む。プロセッサ４００１は、例えばバス４００２を介してメモリ４００３に接続される。好ましくは、電子機器４０００は、データの送信及び／又はデータの受信など、電子機器と他の電子機器との間のデータ相互作用のために使用することができる送受信機４００４をさらに含んでもよい。なお、実際の応用では、送受信機４００４は、１つに限定されず、電子機器４０００の構成は、本発明の実施例を限定するものではない。

【0205】

プロセッサ４００１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）、汎用プロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：データ信号プロセッサ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：特定用途向け集積回路）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：フィールドプログラマブルゲートアレイ）、又は他のプログラマブル論理デバイス、トランジスタ論理デバイス、ハードウェア構成要素、又はそれらの任意の組合せとすることができる。本明細書を参照しながら説明される様々な例示的な論理ブロック、モジュール、及び回路を実装又は実行することができる。プロセッサ４００１は、例えば、１つ又は複数のマイクロプロセッサの組み合わせ、ＤＳＰ及びマイクロプロセッサの組み合わせなどを含む、計算機能を実現する組み合わせであってもよい。

【0206】

バス４００２は、上記のコンポーネント間で情報を通信する経路を含むことができる。バス４００２は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ：周辺機器コンポーネント相互接続規格）バス又はＥＩＳＡ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ：拡張工業標準構造）バスなどであってもよい。バス４００２は、アドレスバス、データバス、制御バスなどに分けることができる。図１４では、説明の便宜上、太線で示しているが、バスが１本だけであったり、バスの種類が１種類であったりするわけではない。

【0207】

メモリ４００３は、限定されるものではないが、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読み取り専用ストレージ）又は静的情報及び命令を記憶することができる他のタイプの静的記憶装置、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）又は情報及び命令を記憶することができる他のタイプの動的記憶装置であってもよく、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：電気的に消去可能なプログラマブル読み取り専用メモリ）、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読み取り専用ＣＤ）、又は他の光ディスク記憶装置、光ディスク記憶装置（圧縮ディスク、レーザーディスク、光ディスク、デジタル汎用ディスク、ブルーレイディスクなどを含む）、磁気ディスク記憶媒体、他の磁気記憶装置であってもよく、又はコンピュータプログラムを搬送又は記憶するために使用することができ、コンピュータによって読み取ることができる他の任意の媒体であってもよい。

【0208】

メモリ４００３は、本発明の実施例を実行するコンピュータプログラムを記憶するためのものであり、プロセッサ４００１によって実行が制御される。プロセッサ４００１は、メモリ４００３に記憶されたコンピュータプログラムを実行して、上記の方法の実施例に示されるステップを実施するように構成される。

【0209】

本発明の実施例は、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムは、プロセッサにより実行される際に、上記のデータ処理方法を実現する、記憶媒体を提供する。

【0210】

本発明の実施例は、コンピュータプログラムを含むコンピュータプログラム製品であって、コンピュータプログラムは、プロセッサにより実行される際に、上記のデータ処理方法を実現する、コンピュータプログラム製品をさらに提供する。

【0211】

本発明の実施例に係る方法と同様な原理に基づいて、本発明の実施例は、コンピュータ読み取り可能な記憶媒体に記憶されるコンピュータ命令を含む、コンピュータプログラム製品又はコンピュータプログラムをさら提供する。コンピュータ装置のプロセッサは、コンピュータ読み取り可能な記憶媒体からコンピュータ命令を読み取り、プロセッサは、コンピュータ装置が上記の本発明の任意の実施形態に提供される方法を実行するようにコンピュータ命令を実行する。

【0212】

なお、本発明の実施例のフローチャートでは、各操作ステップを矢印で示しているが、これらのステップの実行順序は、矢印で示す順序に限定されるものではない。本明細書に明示的に記載されていない限り、本発明の実施例の幾つかの実施シナリオにおいて、各フローチャートにおける実施ステップは、必要に応じて他の順序で実行されてもよい。さらに、各フローチャートのステップの一部又は全部は、実際の実施シナリオに基づいて、複数のサブステップ又は複数のステージを含むことができる。これらのサブステップ又はフェーズの一部又は全部は、同じ時点で実行されてもよく、これらのサブステップ又はフェーズの各サブステップ又はフェーズは、それぞれ異なる時点で実行されてもよい。実行時刻が異なるシナリオでは、これらのサブステップ又はフェーズの実行順序は、要求に応じて柔軟に構成することができ、本発明の実施例はこれに限定されない。

【0213】

なお、以上は本発明の一部の実施シナリオの好ましい実施形態に過ぎず、本発明の技術的思想から逸脱することなく、本発明の技術的思想に基づく他の同様の実施手段を採用するものは、本発明の実施例の範囲内である。

【図1】