特開2021-111380 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特開2021-111380入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法、コンピュータシステムおよび推論モデルを構築する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11a
11b
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2021-111380(P2021-111380A)

(43)【公開日】2021年8月2日

(54)【発明の名称】入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法、コンピュータシステムおよび推論モデルを構築する方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20210705BHJP

【ＦＩ】

G06T7/00 660B

【審査請求】有

【請求項の数】19

【出願形態】ＯＬ

【全頁数】34

(21)【出願番号】特願2020-212564(P2020-212564)

(22)【出願日】2020年12月22日

(31)【優先権主張番号】10-2020-0000699

(32)【優先日】2020年1月3日

(33)【優先権主張国】KR

(71)【出願人】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(71)【出願人】

【識別番号】501333021

【氏名又は名称】Ａホールディングス株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】キムソンテ

(72)【発明者】

【氏名】ファンドンヒョン

(72)【発明者】

【氏名】ニコラスモネ

(72)【発明者】

【氏名】ペスンミン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA08

5L096CA04

5L096DA02

5L096FA67

5L096FA69

5L096GA30

5L096KA04

5L096KA15

(57)【要約】

【課題】入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法と装置、および３次元ポーズを推定するための推論モデルを提供する。
【解決手段】入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法であって、客体を含む入力映像を取得し、客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して客体の複数の関節それぞれの位置情報を推定し、推定された位置情報を利用して客体の動きを示すアニメーションデータを生成する、３次元ポーズの推定のためのデータを生成する方法が提供される。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータシステムを利用して入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法であって、
少なくとも１つの動く客体を含む入力映像を取得する段階、
前記客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して前記入力映像に含まれた前記客体の複数の関節それぞれの位置情報を推定する段階、および
前記推定された位置情報を利用して前記客体の動きを示すアニメーションデータを生成する段階
を含む、３次元ポーズの推定のためのデータを生成する方法。

【請求項2】

前記推論モデルは、
所定の訓練用の映像から、前記訓練用の映像に含まれた客体の複数の関節の位置情報を推定するように予め訓練された教師モデルを利用して学習されたものであって、
前記推論モデルは、前記教師モデルに比べて軽量化されたモデルであり、
前記推論モデルが入力映像に含まれた客体の複数の関節の位置情報を学習するにあたり、前記教師モデルによる入力映像に含まれた客体の複数の関節の位置情報の推定結果が損失関数の計算に利用される、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項3】

前記アニメーションデータに基づいて前記複数の関節を仮想のキャラクタにマッピングすることにより、前記客体の動きを模倣する仮想のキャラクタを生成する段階
をさらに含む、請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項4】

前記位置情報を推定する段階は、
前記複数の関節それぞれに対するヒートマップおよび位置マップを生成する段階、および
前記ヒートマップおよび前記位置マップに基づき、前記それぞれの関節の３次元座標情報を前記位置情報として推定する段階
を含み、
前記ヒートマップは、前記それぞれの関節が前記ヒートマップ内の各ピクセル位置に存在する可能性を示し、
前記位置マップは、前記それぞれの関節に対してｘ軸方向の位置を示す位置マップ、ｙ軸方向の位置を示す位置マップ、およびｚ軸方向の位置を示す位置マップを含む、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項5】

前記推定された位置情報のうちで誤推定された位置情報を決定する段階、および
前記誤推定された位置情報を補正する段階
をさらに含む、請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項6】

前記それぞれの関節の３次元座標情報に対応する前記それぞれの関節に対するヒートマップ上の値が所定の閾値未満であるかを判定する段階、
前記３次元座標情報に対応する前記ヒートマップ上の値が前記所定の閾値未満であれば、前記３次元座標情報は誤推定されたものと判定する段階、および
前記誤推定と判定された３次元座標情報を補正する段階
をさらに含む、請求項４に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項7】

前記推定された位置情報は、前記複数の関節それぞれに対する３次元座標情報を含み、
前記アニメーションデータは、前記３次元座標情報に基づいた前記それぞれの関節の３次元位置情報、および前記それぞれの関節に対して連続的に推定される３次元座標情報に基づいた前記それぞれの関節の回転情報を含む、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項8】

前記それぞれの関節の回転情報のうちで非正常回転状態を示す回転情報があるかを判定する段階、および
前記非正常回転状態を示すと判定された回転情報を補正する段階
をさらに含む、請求項７に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項9】

前記判定する段階は、前記それぞれの関節の回転情報が前記客体の正常な動きに該当するものとして予め設定された角度の範囲内にない場合、非正常回転状態として判定する、
請求項８に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項10】

前記入力映像を撮影するために利用されたカメラの焦点距離、および前記複数の関節のうちの少なくとも１つに対して推定された位置情報に基づき、前記客体のグローバル位置を示すグローバル位置情報を計算する段階
をさらに含み、
前記グローバル位置情報に基づき、前記客体の前記入力映像内での位置移動が推定される、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項11】

前記入力映像は、複数の客体を含み、
前記複数の客体と関連するコンフィデンスマップを生成する段階
をさらに含み、
前記コンフィデンスマップは、前記複数の客体それぞれの複数の関節それぞれと関連するベクトル情報を含み、
前記位置情報を推定する段階は、前記コンフィデンスマップを利用して前記各客体の複数の関節それぞれの位置情報を前記複数の客体のうちの他の客体と区分して推定する、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項12】

前記仮想のキャラクタを生成する段階は、前記アニメーションデータに基づいて前記複数の関節を複数の仮想のキャラクタのそれぞれにマッピングすることにより、前記客体の動きを模倣する複数の仮想のキャラクタを生成し、
前記生成された複数の仮想のキャラクタのそれぞれは、ユーザ端末から出力される出力映像の異なる位置に配置される、
請求項３に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項13】

前記入力映像は、複数の客体を含み、
前記取得する段階は、前記入力映像から複数の客体のうちの１つの客体を含む部分映像を取得し、
前記複数の客体のうちの１つの客体を含む各部分映像に対して前記推定する段階と前記生成する段階は、並列的に実行されるか、又は前記各部分映像別に順に実行される、
請求項１に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項14】

前記入力映像は、複数の客体を含み、
前記仮想のキャラクタを生成する段階は、前記複数の客体のそれぞれの複数の関節を仮想のキャラクタにマッピングすることにより、前記複数の客体の動きを模倣する複数の仮想のキャラクタを生成し、
前記生成された複数の仮想のキャラクタのそれぞれは、ユーザ端末から出力される出力映像において、前記ユーザ端末のユーザによる前記ユーザ端末での操作によって決定された位置に配置される、
請求項３に記載の３次元ポーズの推定のためのデータを生成する方法。

【請求項15】

請求項１〜１４のうちのいずれか一項に記載の方法を実行するコンピュータ読み取り可能記録媒体に記録された、プログラム。

【請求項16】

入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成するコンピュータシステムであって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
少なくとも１つの動く客体を含む入力映像を取得し、前記客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して前記入力映像に含まれた前記客体の複数の関節それぞれの位置情報を推定し、前記推定された位置情報を利用して前記客体の動きを示すアニメーションデータを生成する、
コンピュータシステム。

【請求項17】

コンピュータシステムを利用して入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法であって、
訓練用の映像に含まれた客体の複数の関節の位置情報を推定するように教師モデルを訓練させる段階、
前記教師モデルによる前記訓練用の映像に含まれた客体の複数の関節の位置情報の推定結果に基づき、前記教師モデルよりも軽量化されたモデルである前記教師モデルの学生モデルに、前記訓練用の映像に含まれた客体の複数の関節の位置情報を学習させる段階、および
前記学習された学生モデルを、入力映像に含まれた客体の３次元ポーズを推定するための推論モデルとして構築する段階
を含む、推論モデルを構築する方法。

【請求項18】

前記学生モデルに、前記訓練用の映像に含まれた客体の複数の関節の位置情報を学習させる段階において、
前記学生モデルは、
前記学生モデルによって推定された前記複数の関節のそれぞれの関節に対する第１ヒートマップと前記それぞれの関節に対する正解に該当する第２ヒートマップとの差、および前記第１ヒートマップと前記教師モデルによって推定された前記それぞれの関節に対する第３ヒートマップとの差に基づいて計算される第１損失関数、および前記学生モデルによって推定された前記それぞれの関節に対する第１位置マップと前記それぞれの関節に対する正解に該当する第２位置マップとの差、および前記第１位置マップと前記教師モデルによって推定された前記それぞれの関節に対する第３位置マップとの差に基づいて計算される第２損失関数を利用して訓練される、
請求項１７に記載の推論モデルを構築する方法。

【請求項19】

前記第１ヒートマップと前記第２ヒートマップとの差、および前記第１ヒートマップと前記第３ヒートマップとの差は、所定の混合比で前記第１損失関数に含まれ、
前記第１位置マップと前記第２位置マップとの差、および前記第１位置マップと前記第３位置マップとの差は、前記所定の混合比で前記第２損失関数に含まれる、
請求項１８に記載の推論モデルを構築する方法。

【発明の詳細な説明】

【技術分野】

【0001】

実施形態は、入力映像に含まれた客体の３次元ポーズを推定（予測）する方法、装置、およびこのための推論モデル等に関し、より詳細には、深さカメラのようなセンシング装置ではなくＲＧＢカメラを利用して撮影された入力映像に対し、該当の入力映像に含まれた客体の３次元ポーズを推定するための軽量化された推論モデルを構築し、このような推論モデルを利用して客体の３次元ポーズをリアルタイムで推定するためのデータを生成する方法および装置に関する。

【背景技術】

【0002】

カメラで撮影された映像またはリアルタイムで撮影される映像に対し、映像に含まれた人物（人間）のような客体の３次元ポーズを推定し、推定された３次元ポーズを仮想のキャラクタにマッピングする技術に対する関心が高まっている。特に、機械学習、人工ニューラルネットワーク、またはディープラーニングのような人工知能技術を利用して映像から３次元ポーズを推定する技術に対する研究が活発に行われている。

【0003】

映像に含まれた客体の動きを示す３次元ポーズを推定するためには、２次元の入力映像（例えば、ＲＧＢカメラで撮影された映像）だけでなく、入力映像の深さ情報を含んだ多様なセンシングデータが求められるようになるが、センシングデータを取得するためには、慣性計測装置やマーカーのように、センサが探知することのできるセンサ装備を客体に直に取り付ける必要がある。すなわち、映像から客体の３次元ポーズを推定するためには、相対的に多くの費用がかかる上に、センサ装備の取り付けによって客体の動きが制限されるため、客体の自然な動きと、動きによる３次元ポーズの推定にも制限があった。

【0004】

したがって、高価なセンサ装備がなくても、ノート型ＰＣやスマートフォンのような多様な装置に取り付けられている一般的なＲＧＢカメラから取得可能な２次元の入力映像だけからでも映像に含まれた客体の３次元ポーズを推定することができるようにする必要がある。特に、ノート型ＰＣやスマートフォンなどの装置においてリアルタイムでポーズ推定を可能にするために、より軽量化された推論モデルの構築と、このような推論モデルを利用して客体の３次元ポーズの推定のためのデータを生成し、３次元ポーズを推定する方法が求められている。

【0005】

特許文献１（公告日２０１９年２月２６日）は、深さ映像を利用する動作推定方法であって、連続する２つのフレームの深さ映像を取得し、深さ映像に基づいて隣接するフレームの深さの流れと関連する第１パラメータを計算し、モーションフライヤと関連する第２パラメータを取得し、第１パラメータおよび第２パラメータに基づき、連続する少なくとも２つのフレームのポーズの変化量を推定する動作推定方法を記載している。

【0006】

上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含む可能性があり、従来技術は通常の技術者に提示されていない内容を含む可能性がある。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】韓国登録特許第１０−１９２５８７９号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

一実施形態は、客体を含む入力映像を取得し、客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して客体の複数の関節それぞれの位置情報を推定し、推定された位置情報を利用して客体の動きを示すアニメーションデータを生成する方法を提供することを目的とする。

【0009】

一実施形態は、訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報を推定するように教師モデルを訓練させ、教師モデルによる推定結果に基づき、教師モデルよりも軽量化されたモデルである学生モデルに該当の訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報を学習させ、学習された学生モデルを２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルとして構築する方法を提供することを目的とする。

【課題を解決するための手段】

【0010】

一側面によると、コンピュータシステムによって、入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法であって、少なくとも１つの動く客体を含む入力映像を取得する段階、前記客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して前記入力映像に含まれた前記客体の複数の関節それぞれの位置情報を推定する段階、および前記推定された位置情報を利用して前記客体の動きを示すアニメーションデータを生成する段階を含む、３次元ポーズの推定のためのデータを生成する方法を提供する。

【0011】

前記推論モデルは、所定の訓練用の映像から前記訓練用の映像に含まれた客体の複数の関節の位置情報を推定するように予め訓練された教師モデルを利用して学習されたものであって、前記推論モデルは、前記教師モデルに比べて軽量化されたモデルであり、前記推論モデルが入力映像に含まれた客体の複数の関節の位置情報を学習するにあたり、前記教師モデルによる入力映像に含まれた客体の複数の関節の位置情報の推定結果が損失関数の計算に利用されてよい。

【0012】

前記３次元ポーズの推定のためのデータを生成する方法は、前記アニメーションデータに基づき、前記複数の関節を仮想のキャラクタにマッピングすることによって前記客体の動きを模倣する仮想のキャラクタを生成する段階をさらに含んでよい。

【0013】

前記位置情報を推定する段階は、前記複数の関節のそれぞれに対するヒートマップおよび位置マップを生成する段階、および前記ヒートマップおよび前記位置マップに基づいて前記それぞれの関節の３次元座標情報を前記位置情報として推定する段階を含み、前記ヒートマップは、前記それぞれの関節が前記ヒートマップ内の各ピクセル位置に存在する可能性（ｌｉｋｅｌｉｈｏｏｄ）を示し、前記位置マップは、前記それぞれの関節に対してｘ軸方向の位置を示す位置マップ、ｙ軸方向の位置を示す位置マップ、およびｚ軸方向の位置を示す位置マップを含んでよい。

【0014】

前記３次元ポーズの推定のためのデータを生成する方法は、前記推定された位置情報のうちで誤推定された位置情報を決定する段階、および前記誤推定された位置情報を補正する段階をさらに含んでよい。

【0015】

前記３次元ポーズの推定のためのデータを生成する方法は、前記それぞれの関節の３次元座標情報に対応する前記それぞれの関節に対するヒートマップ上の値が所定の閾値未満であるかを判定する段階、前記３次元座標情報に対応する前記ヒートマップ上の値が前記所定の閾値未満であれば、前記３次元座標情報は誤推定されたものと判定する段階、および前記誤推定されたものと判定された３次元座標情報を補正する段階をさらに含んでよい。

【0016】

前記推定された位置情報は、前記複数の関節それぞれの３次元座標情報を含み、前記アニメーションデータは、前記３次元座標情報に基づく前記それぞれの関節の３次元位置情報、および前記それぞれの関節に対して連続的に推定される３次元座標情報に基づく前記それぞれの関節の回転情報を含んでよい。

【0017】

前記３次元ポーズの推定のためのデータを生成する方法は、前記それぞれの関節の回転情報のうちで非正常回転状態を示す回転情報があるかを判定する段階、および前記非正常回転状態を示す判定された回転情報を補正する段階をさらに含んでよい。

【0018】

前記判定する段階は、前記それぞれの関節の回転情報が前記客体の正常な動きに該当するとして予め設定された角度の範囲内にない場合、非正常回転状態として判定してよい。

【0019】

前記３次元ポーズの推定のためのデータを生成する方法は、前記入力映像を撮影するために利用されたカメラの焦点距離、および前記複数の関節のうちの少なくとも１つに対して推定された位置情報に基づいて前記客体のグローバル位置を示すグローバル位置情報を計算する段階をさらに含み、前記グローバル位置情報に基づいて前記客体の前記入力映像内での位置移動が推定されてよい。

【0020】

前記入力映像は、複数の客体を含み、前記３次元ポーズの推定のためのデータを生成する方法は、前記複数の客体と関連するコンフィデンスマップを生成する段階をさらに含み、前記コンフィデンスマップは、前記複数の客体の複数の関節それぞれと関連するベクトル情報を含み、前記位置情報を推定する段階は、前記コンフィデンスマップを利用して、前記各客体の複数の関節それぞれの位置情報を前記複数の客体の他の客体と区分して推定してよい。

【0021】

前記仮想のキャラクタを生成する段階は、前記アニメーションデータに基づき、前記複数の関節を複数の仮想のキャラクタのそれぞれにマッピングすることによって前記客体の動きを模倣する複数の仮想のキャラクタを生成し、前記生成された複数の仮想のキャラクタのそれぞれは、ユーザ端末から出力される出力映像の異なる位置に配置されてよい。

【0022】

前記入力映像は、複数の客体を含み、前記取得する段階は、前記入力映像から複数の客体のうちの１つの客体を含む部分映像を取得し、前記複数の客体のうちの１つの客体を含む各部分映像に対して前記推定する段階、および前記生成する段階は、並列に実行されるか、前記各部分映像別に順に実行されてよい。

【0023】

前記入力映像は、複数の客体を含み、前記仮想のキャラクタを生成する段階は、前記複数の客体のそれぞれの複数の関節を仮想のキャラクタにマッピングすることによって前記複数の客体の動きを模倣する複数の仮想のキャラクタを生成し、前記生成された複数の仮想のキャラクタのそれぞれは、ユーザ端末から出力される出力映像において、前記ユーザ端末のユーザによる前記ユーザ端末に対する操作によって決定された位置に配置されてよい。

【0024】

他の一側面によると、入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成するコンピュータシステムによって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、少なくとも１つの動く客体を含む入力映像を取得し、前記客体の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して前記入力映像に含まれた前記客体の複数の関節それぞれの位置情報を推定し、前記推定された位置情報を利用して前記客体の動きを示すアニメーションデータを生成する、コンピュータシステムを提供する。

【0025】

また他の一側面によると、コンピュータシステムによって、入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法であって、訓練用の映像に含まれた客体の複数の関節の位置情報を推定するように教師モデルを訓練させる段階、前記教師モデルによる前記訓練用の映像に含まれた客体の複数の関節の位置情報の推定結果に基づき、前記教師モデルよりも軽量化されたモデルである前記教師モデルの学生モデルに、前記訓練用の映像に含まれた客体の複数の関節の位置情報を学習させる段階、および前記学習された学生モデルを、入力映像に含まれた客体の３次元ポーズを推定するための推論モデルとして構築する段階を含む、推論モデルを構築する方法を提供する。

【0026】

前記学生モデルに、前記訓練用の映像に含まれた客体の複数の関節の位置情報を学習させる段階において、前記学生モデルは、前記学生モデルによって推定された前記複数の関節それぞれに対する第１ヒートマップと前記それぞれの関節の正解に該当する第２ヒートマップとの差、および前記第１ヒートマップと前記教師モデルによって推定された前記それぞれの関節に対する第３ヒートマップとの差に基づいて計算される第１損失関数、および前記学生モデルによって推定された前記それぞれの関節に対する第１位置マップと前記それぞれの関節の正解に該当する第２位置マップとの差、および前記第１位置マップと前記教師モデルによって推定された前記それぞれの関節に対する第３位置マップとの差に基づいて計算される第２損失関数を利用して訓練されてよい。

【0027】

前記第１ヒートマップと前記第２ヒートマップとの差および前記第１ヒートマップと前記第３ヒートマップとの差は、所定の混合比で前記第１損失関数に含まれ、前記第１位置マップと前記第２位置マップとの差および前記第１位置マップと前記第３位置マップとの差は、前記所定の混合比で前記第２損失関数に含まれてよい。

【発明の効果】

【0028】

高価のセンサ装備によって撮影された映像や深さ情報のようなセンシングデータがなくても、２次元の入力映像に含まれた客体の複数の関節それぞれの位置情報を推定することにより、該当の客体の動きを示す３次元ポーズをリアルタイムで推定することができる。推定された位置情報の後処理および客体の動きを示すアニメーションデータの後処理により、ポーズ推定の正確度を高めることができる。

【0029】

予め訓練された教師モデルの入力映像に含まれた客体の複数の関節の位置情報の推定結果を利用して訓練された学生モデルによって２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築することで、推定の正確度を高めながらも、モバイル端末に搭載可能な程度に推論モデルを軽量化することができる。

【図面の簡単な説明】

【0030】

【図1】一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定する方法を示した図である。

【図2】一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定するコンピュータシステムの構造を示した図である。

【図3】一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定するコンピュータシステムの構造を示した図である。

【図4】一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法を示したフローチャートである。

【図5】一例における、２次元の入力映像に含まれた客体の関節の位置情報を推定する方法を示したフローチャートである。

【図6】一例における、２次元の入力映像に含まれた客体のグローバル位置情報を計算する方法を示したフローチャートである。

【図7】一例における、２次元の入力映像に含まれた複数の客体の３次元ポーズの推定のためのデータを生成する方法を示したフローチャートである。

【図8】一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法を示したフローチャートである。

【図9】一例における、教師−学生モデルを利用して２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法を示した図である。

【図10】一例における、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを示した図である。

【図11a】一例における、２次元の入力映像に含まれた客体の３次元ポーズを推定する例を示した図である。

【図11b】一例における、２次元の入力映像に含まれた客体の３次元ポーズを推定する例を示した図である。

【図12】一例における、２次元の入力映像に含まれた複数の客体の３次元ポーズを推定する例を示した図である。

【発明を実施するための形態】

【0031】

以下、添付の図面を参照しながら、実施形態について詳しく説明する。各図面に提示された同じ参照符号は、同じ部材を示す。

【0032】

図１は、一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定する方法を示した図である。

【0033】

図１を参照しながら、カメラ１２０で撮影された客体１３０に対し、該当の客体１３０の動きを示す３次元ポーズを推定し、客体１３０の推定された３次元ポーズに対応する仮想のキャラクタ１５０（すなわち、３次元の動きを示す仮想のキャラクタ１５０）を生成する方法について説明する。仮想のキャラクタ１５０は、例えば、アバタであってよい。

【0034】

図に示したコンピュータシステム１００は、客体１３０を撮影した入力映像を取得してよい。取得される入力映像は、例えば、単眼のＲＧＢカメラによって撮影されたものであってよく、２次元の入力映像であってよい。２次元の入力映像は、客体１３０の深さ（ｄｅｐｔｈ）情報を含まない映像であってよい。

【0035】

客体１３０は、入力映像を撮影したカメラ１２０の被写体に対応するものであって、例えば、入力映像内で動く人物（人間）であってよい。

【0036】

客体１３０を撮影した入力映像は、図に示すように、コンピュータシステム１００が備えるカメラ１２０で撮影されたものであってよい。または、客体１３０を撮影した入力映像は、カメラ１２０ではなく他のカメラで撮影された映像としてコンピュータシステム１００に予め格納されたものであるか、他の装置またはサーバからコンピュータシステム１００に送信されてコンピュータシステム１００が取得したものであってよい。このとき、コンピュータシステム１００の入力映像の取得とは、入力映像に該当する入力映像ファイルをロードすることであってよい。

【0037】

コンピュータシステム１００は、取得した客体１３０を撮影した入力映像から客体１３０の動きを示す３次元ポーズを推定するための推論モデルを搭載しているコンピュータシステムであってよい。コンピュータシステム１００は、このような推論モデルを利用して客体１３０が含む１つ以上の関節の位置情報を推定することができ、このような位置情報に基づいて客体１３０の３次元ポーズに対応するアニメーションデータを生成することができる。コンピュータシステム１００は、生成されたアニメーションデータを仮想のキャラクタ１５０にマッピングすることにより、客体１３０の動きを模倣する３次元の仮想のキャラクタ１５０を生成してよい。

【0038】

一例として、コンピュータシステム１００は、カメラ１２０によって客体１３０を撮影してよく、撮影によってリアルタイムで取得した入力映像から客体１３０の３次元ポーズを推定してよく、これに対応する３次元の仮想のキャラクタ１５０を生成してよい。言い換えれば、コンピュータシステム１００は、カメラ１２０で撮影された客体１３０の動きを模倣する３次元の仮想のキャラクタ１５０をリアルタイムで生成することができる。

【0039】

コンピュータシステム１００は、入力映像に含まれた客体１３０と生成されたキャラクタ１５０とを重ねて（例えば、キャラクタ１５０が客体１３０の上位のレイヤとなるか、または客体１３０の前方に位置するように）表示してもよいし、客体１３０は表示せずにキャラクタ１５０だけを表示してもよい。または、コンピュータシステム１００は、客体１３０とキャラクタ１５０とを区分し、ディスプレイのそれぞれ異なる領域に同時に表示してもよい。

【0040】

実施形態では、コンピュータシステム１００に搭載された軽量化された推論モデルを利用して客体１３０を撮影した２次元の入力映像からリアルタイムで客体１３０の１つ以上の関節の位置情報を推定することによって客体１３０の３次元ポーズを推定することができ、したがって、コンピュータシステム１００は、客体１３０の動きを模倣する仮想のキャラクタ１５０を生成して表示することができる。

【0041】

２次元の入力映像から客体１３０の３次元ポーズを推定する具体的な方法と、客体１３０の１つ以上の関節の位置情報を推定するための推論モデルの構築方法については、図２〜１２を参照しながらさらに詳しく説明する。

【0042】

図２および図３は、一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定するコンピュータシステムの構造を示した図である。

【0043】

図に示したコンピュータシステム１００は、図１を参照しながら説明したコンピュータシステム１００に対応してよい。言い換えれば、コンピュータシステム１００は、軽量化された推論モデルを搭載している電子装置であって、客体１３０を撮影した２次元の入力映像を取得することができ、搭載された推論モデルを利用して客体１３０の１つ以上の関節の位置情報を推定することができ、客体１３０の３次元ポーズを推定して客体１３０の動きを模倣する仮想のキャラクタ１５０を生成することができる。

【0044】

コンピュータシステム１００は、例えば、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型パソコン（ｌａｐｔｏｐｃｏｍｐｕｔｅｒ）、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、タブレット（ｔａｂｌｅｔ）、ウェアラブルコンピュータ（ｗｅａｒａｂｌｅｃｏｍｐｕｔｅｒ）、モノのインターネット（ＩｎｔｅｒｎｅｔＯｆＴｈｉｎｇｓ）機器などを含んでよい。

【0045】

コンピュータシステム１００は、通信部２１０およびプロセッサ２００を含んでよい。また、コンピュータシステム１００は、ディスプレイ２２０をさらに含んでよい。また、コンピュータシステム１００は、上述したカメラ１２０をさらに含んでよい。

【0046】

通信部２１０は、コンピュータシステム１００が他のサーバや他の装置と通信するための装置であってよい。言い換えれば、通信部２１０は、他のサーバや他の装置とデータおよび／または情報を送受信する、コンピュータシステム１００のネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、またはネットワークデバイスドライバ（ｄｒｉｖｅｒ）またはネットワーキングプログラムのようなソフトウェアモジュールであってよい。一例として、通信部２１０は、客体１３０に対する入力映像を他のサーバや他の装置から受信してよい。

【0047】

プロセッサ２００は、コンピュータシステム１００の構成要素を管理してよく、コンピュータシステム１００が利用するプログラムまたはアプリケーションを実行してよい。例えば、プロセッサ２００は、客体１３０に対する入力映像を取得し、推論モデルを利用して入力映像から客体１３０の１つ以上の関節の位置情報を推定してよく、客体１３０の３次元ポーズを推定して客体１３０の動きを模倣する仮想のキャラクタ１５０を生成してよく、このような動作を実行するために求められるプログラムまたはアプリケーションの実行およびデータの処理などに必要となる演算を処理してよい。プロセッサ２００は、コンピュータシステム１００の少なくとも１つのプロセッサ、またはプロセッサ内の少なくとも１つのコア（ｃｏｒｅ）であってよい。

【0048】

コンピュータシステム１００は、メモリ（図示せず）を含んでよい。メモリは、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭと永続的大容量記録装置は、メモリとは区分される別の永久記録装置として含まれてもよい。また、メモリには、オペレーティングシステムと少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリとは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピドライブ、ディスク、テープ、ＤＶＤ／ＣＤ−ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信部２１０を通じてメモリにロードされてもよい。メモリには、入力映像から客体１３０の１つ以上の関節の位置情報を推定するための推論モデルを構成するデータが記録されていてよい。また、メモリには、客体１３０を含む入力映像が記録されていてよい。

【0049】

プロセッサ２００は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリまたは通信部２１０によって、プロセッサ２００に提供されてよい。例えば、プロセッサ２００は、メモリにロードされたプログラムコードにしたがって受信される命令を実行するように構成されてよい。このようなプロセッサ２００による動作により、コンピュータシステム１００は、上述した客体１３０の３次元ポーズ推定の動作および仮想のキャラクタ１５０の生成の動作を実行してよい。

【0050】

プロセッサ２００の構成については、図３を参照しながら詳しく説明する。後述するプロセッサ２００の構成それぞれは、プロセッサ２００の一部としてソフトウェアおよび／またはハードウェアモジュールで実現されてよく、プロセッサによって実現される機能（機能ブロック）に該当してよい。

【0051】

ディスプレイ２２０は、客体１３０を含む入力映像を表示するか、３次元ポーズの推定によって生成された仮想のキャラクタ１５０を表示する装置であってよい。また、ディスプレイ２２０は、タッチスクリーン（タッチパネル）を含んでよいが、このとき、ディスプレイ２２０は、タッチ入力を含むユーザのインタラクションの入力を受けるための入力部（図示せず）の機能を含むように構成されてよい。

【0052】

カメラ１２０は、被写体を撮影し、被写体に対する映像データを生成してよい。例えば、カメラ１２０は、客体１３０を撮影し、客体１３０に対する２次元の映像データを生成してよい。カメラ１２０は、ＲＧＢカメラであってよい。

【0053】

図３を参照しながら、プロセッサ２００の構成について詳しく説明する。

【0054】

図に示すように、プロセッサ２００は、入力部３１０、前処理部３２０、推論部３３０、後処理部３４０、アニメーション生成部３５０、および出力部３６０を含んでよい。

【0055】

入力部３１０は、少なくとも１つの動く客体１３０を含む２次元の入力映像を取得する構成であってよい。例えば、入力部３１０は、カメラ１２０によって撮影された客体１３０に対する入力映像を取得するか、コンピュータシステム１００に予め格納された客体１３０に対する入力映像を取得してよい。または、入力部３１０は、通信部２１０を通じて受信した客体１３０に対する入力映像を取得してもよい。

【0056】

前処理部３２０は、取得した客体１３０に対する入力映像を、推論モデルが利用するために適した形態に加工する構成であってよい。例えば、前処理部３２０は、推論モデルの入力に適したサイズになるように、取得した客体１３０に対する入力映像のサイズを（例えば、クロップによって）変更してよい。前処理部３２０は、取得した入力映像から、推論モデルが客体１３０の関節の位置情報を推定するのに必要ない部分を取り除く構成であってよい。

【0057】

推論部３３０は、前処理部３２０によって加工された入力映像を入力とし、推論モデルを利用して客体１３０の複数の関節それぞれの位置情報を推定するための構成であってよい。推論モデルは、モバイル端末に搭載可能なように軽量化されたモデルであって、例えば、ＭｏＶＮｅｃｔモデルと命名されるモデルであってよい。推論モデルは、入力映像から客体１３０の複数の関節それぞれの位置情報を推定するために予め訓練されたものであってよい。言い換えれば、推論部３３０は、客体１３０の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して（前処理部３２０によって加工された）入力映像に含まれた客体１３０の複数の関節それぞれの位置情報を推定してよい。推論モデルと推論モデルを構築する方法については、図８〜図１０を参照しながら詳しく説明する。

【0058】

推論部３３０によって推定された位置情報を利用して、客体１３０の動き（すなわち、３次元ポーズ）を示すアニメーションデータが生成されてよい。

【0059】

後処理部３４０は、推論部３３０による推論結果（すなわち、推定された位置情報）を補正するための構成であってよい。後処理部３４０による補正を経ることで、入力映像に含まれた客体１３０の３次元ポーズをより正確に表現するアニメーションデータを生成することができる。

【0060】

アニメーション生成部３５０は、推論部３３０によって推定された位置情報（および後処理部３４０によって補正された位置情報）を利用して、客体１３０の動き（すなわち、３次元ポーズ）を表現するアニメーションデータを生成する構成であってよい。アニメーション生成部３５０は、客体１３０から推定される連続的な位置情報を利用して客体１３０の各関節（すなわち、それぞれの関節）の回転情報を含むアニメーションデータを生成してよい。

【0061】

出力部（レンダリング部）３６０は、生成されたアニメーションデータを仮想のキャラクタ１５０に適用（リターゲティング）する構成であってよい。例えば、出力部３６０は、客体１３０の各関節のアニメーションデータを仮想のキャラクタ１５０の対応する関節にマッピングすることにより、客体の３次元ポーズを模倣する仮想のキャラクタ１５０を生成してよい。

【0062】

生成された仮想のキャラクタ１５０は、ディスプレイ２２０から出力されてよい。生成された仮想のキャラクタ１５０は、撮影された客体１３０の動き（３次元ポーズ）をリアルタイムで（または、ほぼリアルタイムで）模倣することができる。

【0063】

上述したプロセッサ２００の構成３１０〜３６０の機能および動作については、図４〜１２を参照しながら詳しく説明する。

【0064】

以上、図１を参照しながら説明した技術的特徴は、図２および図３にもそのまま適用可能であるため、重複する説明は省略する。

【0065】

後述する詳細な説明において、コンピュータシステム１００またはプロセッサ２００の構成によって実行される動作や、コンピュータシステム１００またはプロセッサ２００が実行するアプリケーション／プログラムによって実行される動作は、説明の便宜上、コンピュータシステム１００によって実行される動作として説明する。

【0066】

図４は、一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズの推定のためのデータを生成する方法を示したフローチャートである。

【0067】

段階４１０で、コンピュータシステム１００（または、入力部３１０）は、少なくとも１つの動く客体１３０を含む２次元の入力映像を取得してよい。上述したように、コンピュータシステム１００は、カメラ１２０によって撮影された客体１３０に対する入力映像を取得するか、予め格納された客体１３０に対する入力映像を取得してよい。または、コンピュータシステム１００は、通信部２１０を通じて受信した客体１３０に対する入力映像を取得してもよい。

【0068】

段階４２０で、コンピュータシステム１００（または、推論部３３０）は、客体１３０の複数の関節それぞれの位置情報を推定するために予め訓練された推論モデルを利用して、入力映像に含まれた客体１３０の複数の関節それぞれの位置情報を推定してよい。上述したように、段階４２０を実行するに先立ち、前処理部３２０により、客体１３０に対する入力映像は、推論モデルへの入力に適した形態に加工されてよい。

【0069】

客体１３０の複数の関節は、人物を構成する主な関節であって、例えば、人物が含む１５箇所の関節を含んでよい。例えば、関節は、頭（「Ｈｅａｄ」）、首（「Ｎｅｃｋ」）、右肩（「ＲｉｇｈｔＳｈｏｕｌｄｅｒ」）、右肘（「ＲｉｇｈｔＥｌｂｏｗ」）、右手首（「ＲｉｇｈｔＷｒｉｓｔ」）、左肩（「ＬｅｆｔＳｈｏｕｌｄｅｒ」）、左肘（「ＬｅｆｔＥｌｂｏｗ」）、左手首（「ＬｅｆｔＷｒｉｓｔ」）、右臀部（「ＲｉｇｈｔＨｉｐ」）、右膝（「ＲｉｇｈｔＫｎｅｅ」）、右足首（「ＲｉｇｈｔＡｎｋｌｅ」）、左臀部（「ＬｅｆｔＨｉｐ」）、左膝（「ＬｅｆｔＫｎｅｅ」）、左足首（「ＬｅｆｔＡｎｋｌｅ」）、骨盤（「Ｐｅｌｖｉｓ」）などを含んでよい。

【0070】

推論モデルは、ディープラーニングまたは人工ニューラルネットワーク（例えば、ＣＮＮおよび／またはＤＮＮ）に基づいて、映像からこのような関節の位置情報を推定するように予め訓練されたものであってよい。推論モデルと推論モデルを構築する方法については、図８〜図１０を参照しながらさらに詳しく説明する。

【0071】

段階４２０で推定された各関節の位置情報は、各関節の３次元座標情報を含んでよい。言い換えれば、各関節の位置情報は、３次元の空間内で該当の各関節が位置する座標（ｘ、ｙ、ｚ）を示してよい。

【0072】

段階４３０で、コンピュータシステム１００（または、後処理部３４０）は、段階４２０で推定された位置情報に対する後処理を実行してよい。例えば、段階４３２および４３４と同じように、コンピュータシステム１００は、推定された位置情報のうちで誤推定された位置情報を決定してよく、誤推定された位置情報を補正してよい。言い換えれば、コンピュータシステム１００は、誤推定と決定された関節の位置情報を適切な値に補正してもよいし、誤推定と決定された関節の位置情報を後述するアニメーションデータの生成に利用しなくてもよい。段階４３０の後処理部３４０による動作は、推論部３３０による動作として統合されてもよい。

【0073】

段階４３０により、客体１３０の関節のより正確な位置情報が推定される。

【0074】

段階４４０で、コンピュータシステム１００（アニメーション生成部３５０）は、推定された（または後処理された）位置情報を利用して客体１３０の動きを表現するアニメーションデータを生成してよい。

【0075】

生成されるアニメーションデータは、各関節に対して推定された（または後処理された）３次元座標情報に基づく各関節の３次元位置情報、および各関節に対して連続的に推定される（または、後処理された連続的な）３次元座標情報に基づく各関節の回転情報を含んでよい。各関節の３次元位置情報は、各関節に対して推定された３次元座標情報に対応してよい。各関節の回転情報は、各関節の回転角度を含んでよい。コンピュータシステム１００は、各関節に対して連続的に推定される３次元座標情報を比較することにより、該当の関節の回転角度を計算してよい。

【0076】

アニメーションデータは、各関節の動きを示す情報であってよい。アニメーションデータが含む各関節の３次元位置情報は、各関節のＲＳＴ（Ｒｏｔａｔｉｏｎ、Ｓｃａｌｅ、Ｔｒａｎｓｌａｔｉｏｎ）情報のうちのＴｒａｎｓｌａｔｉｏｎ情報に該当してよい。アニメーションデータが含む各関節の回転情報は、各関節のＲＳＴ情報のうちのＲｏｔａｔｉｏｎ情報に該当してよい。アニメーションデータは、各関節のＳｃａｌｅ（すなわち、拡大／縮小に関する）情報は含まなくてもよい。

【0077】

段階４５０で、コンピュータシステム１００（アニメーション生成部３５０）は、生成されたアニメーションデータを後処理してよい。例えば、段階４５２および４５４と同じように、コンピュータシステム１００は、各関節の回転情報に非正常回転状態を示す回転情報があるかを判定してよく、非正常回転状態を示すと判定された回転情報を適切に補正してよい。

【0078】

一例として、段階４５２で、コンピュータシステム１００は、各関節の回転角度が、人間が取ることのできる範囲内であるかをチェックしてよく、回転角度が、人間が取ることのできない範囲であれば、該当の回転角度に対応する回転情報は非正常回転状態を示すものと判定してよい。言い換えれば、コンピュータシステム１００は、各関節の回転情報が客体１３０の正常な動きに該当するものとして予め設定された角度の範囲内であるかを判定してよく、範囲内であると判定された場合は、該当の回転情報は正常回転状態を示すものと判定してよい。コンピュータシステム１００は、各関節の回転情報が客体１３０の正常な動きに該当するものとして予め設定された角度の範囲内にない場合には、非正常回転状態として判定してよい。

【0079】

各関節の回転角度が、人間が取ることのできない範囲であるかを判定するための基準範囲は、一般的に人間の関節が取ることのできる範囲内であるかを基準とするものであり、予め設定されてよい。基準範囲は各関節別に予め設定されてよく、各関節のｘ軸、ｙ軸、およびｚ軸に対してそれぞれ予め設定されてよい。一例として、頭の動きと関連する関節のｘ軸方向の最小〜最大の回転角度は−３７度〜２２度に設定されてよい（Ａｎｇｌｅ＝ＭＩＮ（ＭＡＸ（−３７、Ａｎｇｌｅ）、２２））。コンピュータシステム１００は、頭の動きと関連する関節の回転情報に含まれるｘ軸方向の回転角度が−３７度〜２２度の範囲でない場合、該当の回転情報は非正常回転状態を示す回転情報であると判定してよい。一般的に人間の関節が取ることのできる範囲は、各関節（すなわち、各関節と関連する部位（骨））別に、例えば、以下の表１のように設定されてよい。表１に示した各関節に対する値は、生成される人物のモーションキャプチャデータ（実施形態のアニメーションデータ）を含むファイル（一例として、ＢＨＶファイル）に適用される各関節の回転限界値であってよい。ただし、以下に示した各関節の値は例示的なものに過ぎず、ポーズ推定の対象となる人物によって（例えば、ポーズ推定の対象となる人物が体操選手などの場合）適切に変更可能である。

【0080】

【表1】

【0081】

各関節（骨）のスティフネス（ｓｔｉｆｆｎｅｓｓ）とは、特定の軸を中心として関節がどのくらい簡単に回転するかを示す値であってよい。スティフネス値が適切に設定された場合、逆運動学（ｉｎｖｅｒｓｅｋｉｎｅｍａｔｉｃｓ）を適用するときに骨と関節がリアルに動くようになる。スティフネス値が大きいほど、該当の軸における回転は最小化されてよい。臀部に該当する関節（例えば、骨盤）の場合、人間の骨階層（ｂｏｎｅｈｉｅｒａｒｃｈｙ）のルート（ｒｏｏｔ）になるため、該当の関節は全身を回転させることができる。したがって、臀部に該当する関節の場合、回転における制限やスティフネス値はないとして設定されてよい。段階４５４で、コンピュータシステム１００は、非正常回転状態を示す回転情報の回転角度を、正常回転状態を示す回転角度に補正するか、該当の非正常回転状態を示す回転情報の回転角度を仮想のキャラクタ１５０の生成に利用されないようにしてよい。コンピュータシステム１００は、補間法（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を利用して非正常回転状態を示す回転情報の回転角度を適切に補正してよい。

【0082】

段階４５０のアニメーション生成部３５０による動作は、後処理部３４０による動作に統合されてもよい。すなわち、各関節の回転角度の補正は、後処理部３４０によって実行されてもよい。

【0083】

段階４５０により、非正常的な回転を示す関節を含まない客体１３０の動きをより正確に模倣する仮想のキャラクタ１５０が生成される。

【0084】

段階４６０で、コンピュータシステム１００（出力部３６０）は、生成されたアニメーションデータに基づいて客体１３０の複数の関節を仮想のキャラクタ１５０にマッピングすることにより、客体１３０の動き（すなわち、３次元ポーズ）を模倣する仮想のキャラクタ１５０を生成してよい。言い換えれば、コンピュータシステム１００は、客体１３０の動きを模倣する仮想のキャラクタ１５０をレンダリングしてよい。レンダリングは、シェーダ（ｓｈａｄｅｒ）によって実行されてよい。生成された仮想のキャラクタ１５０は、ディスプレイ２２０から出力されてよい。コンピュータシステム１００は、カメラ１２０によって撮影される客体１３０の動きをリアルタイムで模倣する３次元の仮想のキャラクタ１５０を生成してよく、リアルタイムで仮想のキャラクタ１５０を表示してよい。仮想のキャラクタ１５０は出力映像に含まれ、ユーザ端末（すなわち、コンピュータシステム１００）で表示されてよい。

【0085】

コンピュータシステム１００は、客体１３０の関節の動きを推論することにより、客体１３０が正面を向いているか後ろを向いているかを識別することができ、これにより、生成される仮想のキャラクタ１５０の方向が決定されてよい。

【0086】

一方、ｚ軸の座標を含む各関節の３次元位置情報がアニメーションデータに含まれることにより、アニメーションデータが各関節のＳｃａｌｅ情報を含んでいなくても、客体１３０の動きを正確に模倣する３次元の仮想のキャラクタ１５０を生成することができる。

【0087】

これと関連して、図１１ａでは、２次元の入力映像に含まれた客体１１００の３次元ポーズを推定する例を示すことにする。

【0088】

図１１ａに示すように、２次元の入力映像に含まれた客体１１００の３次元ポーズが推定されることにより、３次元の仮想のキャラクタ１１１０が生成されてよい。図に示すように、客体１１００の１５箇所の関節に対して推定された位置情報（または、これによるアニメーションデータ１１２０）がキャラクタにマッピングされてよい。生成される仮想のキャラクタ１１１０は、客体１１００の動きをリアルタイムで模倣してよい。図に示したアニメーションデータ１１２０は、上述した推論モデルを利用して客体１１００の関節の位置情報を推定した結果を示してよい。

【0089】

以上、図１〜図３を参照しながら説明した技術的特徴は、図４および図１１ａにもそのまま適用可能であるため、重複する説明は省略する。

【0090】

図５は、一例における、２次元の入力映像に含まれた客体の関節の位置情報を推定する方法を示したフローチャートである。

【0091】

図５を参照しながら、コンピュータシステム１００（または、推論部３３０）による客体１３０の各関節の位置情報を推定する方法についてさらに詳しく説明する。

【0092】

段階５１０で、コンピュータシステム１００は、客体１３０の複数の関節それぞれに対するヒートマップ（ＨｅａｔＭａｐ）および位置マップを生成してよい。ヒートマップおよび位置マップはそれぞれ、２次元イメージであってよい。位置マップは、各関節に対してｘ軸方向の位置を示す位置マップ、ｙ軸方向の位置を示す位置マップ、およびｚ軸方向の位置を示す位置マップを含んでよい。ヒートマップは、各関節の各ピクセル位置に対する可能性を示してよい。言い換えれば、ヒートマップは、それぞれの関節がヒートマップ内の各ピクセル位置に存在する可能性を示してよい。

【0093】

段階５２０で、コンピュータシステム１００は、客体１３０の各関節に対するヒートマップおよび位置マップに基づき、各関節の３次元座標情報を各関節の位置情報として推定してよい。

【0094】

図４を参照しながら説明した段階４３０の、推定された位置情報に対する後処理を実行するにあたり、段階４３２で、コンピュータシステム１００（または、後処理部３４０）は、各関節の３次元座標情報に対応する各関節に対するヒートマップ上の値が所定の閾値未満であるかを判定してよい。このとき、コンピュータシステム１００は、３次元座標情報に対応するヒートマップ上の値が所定の閾値未満であれば、該当の３次元座標情報は誤推定されたものと判定してよい。段階４３４で、コンピュータシステム１００は、このように誤推定と判定された３次元座標情報を補正してよい。

【0095】

一例として、コンピュータシステム１００は、各関節に対して推定された３次元座標情報が誤推定であるかを、該当の関節に対するヒートマップの最大値に基づいて判定してよい。コンピュータシステム１００は、ヒートマップの最大値が所定の閾値（例えば、０．５）未満の場合、推定された３次元座標情報は不安定かつ誤推定された値として判定してよい。

【0096】

コンピュータシステム１００は、推定された位置情報に該当する３次元座標情報にフィルタ（例えば、１ＥｕｒｏＦｉｌｔｅｒおよび／またはＭｅｄｉａｎＦｉｌｔｅｒ）を適用することにより、該当の３次元座標情報を補正してよい。

【0097】

これにより、客体１３０の関節に対してより正確な３次元座標情報を推定することができる。

【0098】

以上、図１〜図４および図１１ａを参照しながら説明した技術的特徴は、図５にもそのまま適用可能であるため、重複する説明は省略する。

【0099】

以下では、各関節に対して推定された位置情報を後処理部３４０によって後処理することについて、さらに詳しく説明する。

【0100】

上述した推論モデルは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づいて客体１３０の３次元ポーズの推定を実行してよいが、これは、グラフィックアプリケーションにおいて許容できない小さなジッタ（ｊｉｔｔｅｒ）、すなわち、許容できないアーティファクトを発生させることがある。このようなジッタおよび許容できないアーティファクトに対応する位置情報の値は、後処理によって補正することができる。

【0101】

このような時系列的なジッタ（およびアーティファクト）を低減させるために、後処理部３４０は、推定された位置情報の２次元キーポイント（ｋｅｙｐｏｉｎｔ）に特定のフィルタ（例えば、１Ｅｕｒｏフィルタ）を適用してよく、このようなフィルタが適用されたキーポイント（Ｋ）を該当の位置マップの値を参照するように利用してよい。推定された３次元ポーズを示す位置情報にも、継続的な映像推定結果による時系列的なノイズを減らすためにフィルタが適用されてよい。

【0102】

一方、推定された３次元ポーズを示す位置情報は、各関節のルート相対３次元（ｒｏｏｔ−ｒｅｌａｔｉｖｅ３Ｄ）位置情報に該当するため、キャラクタアニメーションに直接適用することはできない。したがって、各関節位置の３次元の位置情報を方位（ｏｒｉｅｎｔａｔｉｏｎ）に変換するために逆運動学（ｉｎｖｅｒｓｅｋｉｎｅｍａｔｉｃｓ）が適用されてよい。このような方位値にも１Ｅｕｒｏフィルタが適用されてよい。

【0103】

図６は、一例における、２次元の入力映像に含まれた客体のグローバル位置情報を計算する方法を示したフローチャートである。

【0104】

図６を参照しながら、入力映像内で客体１３０が移動する場合の客体１３０の移動を推定し、推定された客体の移動を、対応する仮想のキャラクタ１５０の生成に反映する方法について説明する。

【0105】

段階６１０で、コンピュータシステム１００（出力部３６０）は、入力映像を撮影するために利用されたカメラ（例えば、カメラ１２０）の焦点距離、および客体１３０の複数の関節のうちの少なくとも１つに対して推定された位置情報（すなわち、関節の３次元座標情報）に基づき、客体１３０のグローバル位置を示すグローバル位置情報を計算してよい。客体１３０のグローバル位置は、入力映像内における客体１３０の絶対的な位置を示してよい。言い換えれば、グローバル位置は、客体１３０の各関節の動きに対応する客体１３０の動きとは区別される、客体１３０自体の映像内での移動を示してよい。一例として、入力映像が、客体１３０がダンスをする映像である場合において、その場所だけで客体１３０がダンスをする動きは、上述した段階４２０で推定される、各関節の位置情報によって推定されてよい。しかし、客体１３０が舞台上を移動しながらダンスをする場合、客体１３０の舞台上での移動は、客体１３０のグローバル位置を計算することによって推定されてよい。

【0106】

段階６２０で、コンピュータシステム１００は、計算されたグローバル位置情報に基づいて客体１３０の入力映像内における位置移動を推定してよい。

【0107】

段階６１０および段階６２０により、客体１３０の３次元ポーズおよび移動をより正確に反映した仮想のキャラクタ１５０を生成することができる。

【0108】

上述した段階６１０および段階６２０は、出力部３６０ではなく、後処理部３４０によって実行されてもよい。

【0109】

これと関連して、図１１ｂでは、一例における、２次元の入力映像に含まれた客体１１００の３次元ポーズを推定する例を示すことにする。

【0110】

図に示すように、入力映像において客体１００がその場所だけで動くのではなくグローバルに移動する場合、コンピュータシステム１００は、客体１３０のグローバル位置を示すグローバル位置情報を計算してよく、これにより、客体１３０の入力映像内におけるグローバルな位置移動を推定してよい。図に示すように、生成される仮想のキャラクタ１１１０は、客体１１００のグローバルな位置移動までも模倣することができる。

【0111】

以下では、コンピュータシステム１００が入力映像を撮影するために利用されるカメラ（例えば、カメラ１２０）の焦点距離、および客体１３０の関節に対して推定された位置情報（すなわち、関節の３次元座標情報）を利用して客体１３０のグローバル位置を示すグローバル位置情報を計算する方法についてさらに詳しく説明する。

【0112】

実施形態では、入力映像に対して境界ボックス（ｂｏｕｎｄｉｎｇｂｏｘ）を利用し、クロップされた入力映像から客体１３０の３次元ポーズが推定されることにより、推定によって得られるルート相対３次元ポーズは、客体１３０のグローバル位置情報を失うようになる。

【0113】

このような客体１３０のグローバル位置情報は、以下の数式（１）によって計算されることによって復元可能となる。以下の数式（１）において、Ｐ_Ｇ^３Ｄは、客体１３０のグローバル位置情報を示してよい。

【0114】

【数1】

【0115】

ここで、ＰバーとＫバー

【0116】

【数2】

は、客体１３０のすべての関節の３次元、２次元の平均（ｍｅａｎ）であってよく、特に、Ｋバーは、スクリーン座標系の値を有してよい。Ｐ_{［ｘ、ｙ］}は、Ｐ^３Ｄのｘ、ｙ部分であってよく、単一な下部記号は、特定の要素を示してよい。ｆは、客体１３０の撮影に利用されたカメラ（例えば、カメラ１２０）の焦点距離であってよい。言い換えれば、客体１３０のグローバル位置情報は、客体１３０の撮影に利用されたカメラの焦点距離、および推論モデルによる推定前後の各関節の２次元および３次元の位置情報を利用して計算されてよい。

【0117】

計算されたグローバル位置情報に基づき、客体１３０の３次元ポーズだけではなく、グローバルな移動を模倣する仮想のキャラクタ１５０を生成することができる。

【0118】

以上、図１〜図５、図１１ａおよび図１１ｂを参照しながら説明した技術的特徴は、図６にもそのまま適用可能であるため、重複する説明は省略する。

【0119】

図７は、一例における、２次元の入力映像に含まれた複数の客体の３次元ポーズの推定のためのデータを生成する方法を示したフローチャートである。

【0120】

図７を参照しながら、取得した入力映像が複数の客体を含む場合における、客体の３次元ポーズの推定のためのデータを生成する方法について説明する。

【0121】

段階７１０のように、コンピュータシステム１００（または、入力部３１０あるいは前処理部３２０）は、複数の客体を含む入力映像に対し、該当の複数の客体と関連するコンフィデンスマップを生成してよい。

【0122】

コンフィデンスマップは、入力映像に含まれた複数の客体それぞれの複数の関節それぞれと関連するベクトル情報を含んでよい。ベクトル情報は、各関節がどのような客体に含まれるものかを識別するための情報であってよい。

【0123】

コンピュータシステム１００は、上述した段階４２０で各関節の位置情報を推定するにあたり、段階７１０で生成されたコンフィデンスマップを利用して各客体の複数の関節それぞれの位置情報を複数の客体のうちの他の客体と区分して推定してよい。言い換えれば、コンフィデンスマップが含むベクトル情報に基づき、位置情報の推定の対象となる関節はどの客体の関節であるかが区分（特定）されるようになり、したがって、段階４２０〜４６０で、コンピュータシステム１００は、複数の客体それぞれの動きに該当する３次元ポーズを区分して推定することができる。説明した実施形態によると、複数の客体を含む入力映像に対しては、客体それぞれの３次元ポーズが同時に推定されてよい。

【0124】

または、入力映像が複数の客体を含む場合において、コンピュータシステム１００は、該当の入力映像から複数の客体のうちの１つの客体を含む部分映像だけを取得してもよい。１つの客体を含む部分映像は、入力映像が１つの客体だけを含むようにクロップされた映像や、入力映像から１つの客体を示す部分が削除されるかブロー処理（または、その他の処理）された映像であってよい。

【0125】

コンピュータシステム１００は、入力映像が含む複数の客体のうちの１つの客体を含む各部分映像に対し、段階４２０の推定する段階、および（段階４３０の後処理段階を含む）段階４４０の生成する段階を並列的に実行するか、それぞれの客体を含む部分映像別に該当の段階を順に実行してよい。

【0126】

段階４２０〜４４０が並列的に処理される場合には、複数の客体を含む入力映像に対して客体それぞれの３次元ポーズが同時に推定されてよい。または、段階４２０〜４４０が各部分映像別に順に処理される場合には、複数の客体を含む入力映像に対して客体それぞれの３次元ポーズが順に推定されてよい。

【0127】

一方、上述した段階４６０において、コンピュータシステム１００は、生成されたアニメーションデータに基づいて客体１３０の複数の関節を複数の仮想のキャラクタのそれぞれにマッピングすることにより、客体１３０の動きを模倣する複数の仮想のキャラクタを生成してよい。すなわち、コンピュータシステム１００は、１つの客体１３０を含む入力映像に対して該当の客体１３０の動きを模倣する複数のキャラクタを生成してよい。複数のキャラクタのそれぞれは、互いに異なるキャラクタであってよい。

【0128】

または、（上述したように）入力映像が複数の客体を含む場合において、コンピュータシステム１００は、複数の客体のそれぞれの複数の関節を仮想のキャラクタにマッピングすることにより、複数の客体の動きを模倣する複数の仮想のキャラクタを生成してよい。

【0129】

生成された複数の仮想のキャラクタのそれぞれは、ユーザ端末（すなわち、コンピュータシステム１００であるユーザ端末）から出力される出力映像の異なる位置に配置されてよい。例えば、生成された複数の仮想のキャラクタのそれぞれは、これらが出力される出力映像内において、ユーザ端末（すなわち、コンピュータシステム１００）のユーザによるユーザ端末の操作によって決定された位置に配置されてよい。言い換えれば、ユーザは、各客体に対応する仮想のキャラクタが出力映像で配置される位置を選択することができ、したがって、ユーザは、出力映像をカスタマイズすることができる。これにより、入力映像内での客体の配置は、ユーザの操作により、出力映像での仮想のキャラクタの配置とは異なるようになってよい。

【0130】

これと関連して、図１２は、一例における、２次元の入力映像に含まれた複数の客体の３次元ポーズを推定する例を示した図である。

【0131】

図に示すように、入力映像に含まれた互いに異なる客体１２１０〜１２３０のそれぞれは、３次元ポーズの推定によって互いに異なるキャラクタ１２４０〜１２６０に変換されてよい。キャラクタ１２４０〜１２６０それぞれの出力映像での位置は、客体１２１０〜１２３０の入力映像での位置とは異なってよい。例えば、ユーザは、出力映像が表示されるユーザ端末（すなわち、コンピュータシステム１００）を操作することによってキャラクタ１２４０〜１２６０それぞれの位置を変更してよい。

【0132】

一方、図に示すものとは異なり、キャラクタ１２４０〜１２６０のうちの少なくとも２つは、客体１２１０〜１２３０のうちのいずれか１つの客体の３次元ポーズを推定して生成されたものであってもよい。

【0133】

または、複数のキャラクタ１２４０〜１２６０を含む出力映像を生成するために、複数の入力映像が利用されてもよい。言い換えれば、図に示すものとは異なり、客体１２１０〜１２３０は、それぞれ異なる入力映像に含まれる客体であるか、複数のキャラクタ１２４０〜１２６０は、複数の入力映像から推定されたものであってよい。コンピュータシステム１００は、このような客体１２１０〜１２３０を含む複数の入力映像に対して３次元ポーズの推定を実行することにより、複数のキャラクタ１２４０〜１２６０を含む１つの出力映像を生成してよい。

【0134】

以上、図１〜６、図１１ａおよび図１１ｂを参照しながら説明した技術的特徴は、図７および図１２にもそのまま適用可能であるため、重複する説明は省略する。

【0135】

図８〜１０を参照しながら、推論モデルと推論モデルを構築する方法についてさらに詳しく説明する。

【0136】

以下の詳細な説明において、推論モデルおよび推論モデルの構築を説明するための「学習（ｌｅａｒｎｉｎｇ）」および「訓練（ｔｒａｉｎｉｎｇ）」という用語は混用されてよく、これらの用語は代替されてよい。

【0137】

図８は、一実施形態における、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法を示したフローチャートである。

【0138】

上述したコンピュータシステム１００が搭載している推論モデルは、客体１３０の複数の関節それぞれの位置情報を推定するために予め訓練されたものであってよい。推論モデルは、モバイル端末にも搭載できるように軽量化されたモデルであってよく、例えば、ＭｏＶＮｅｃｔモデルと命名されたモデルであってよい。

【0139】

このような推論モデルは、教師−学生学習（Ｔｅａｃｈｅｒ−ＳｔｕｄｅｎｔＬｅａｒｎｉｎｇ）モデルにおいて学生モデルに該当してよい。学生モデル（ＳｔｕｄｅｎｔＭｏｄｅｌ）は、推論モデルの予め訓練された教師モデル（ＴｅａｃｈｅｒＭｏｄｅｌ）に比べてより軽量化されたモデルであってよい。すなわち、学生モデルは、モデル軽量化（ｍｏｄｅｌｃｏｍｐｒｅｓｓｉｏｎ）により、教師モデルよりも軽量化されたニューラルネットワークを含んでよい。学生モデルは、教師モデルに比べて少ない数の層を含んでよい。または、学生モデルは、教師モデルよりも少ない数の隠れ層を含むか、または教師モデルよりも少ない数のフィルタまたはノードを含んでよい。このような学生モデルは、所定の訓練用の映像（すなわち、訓練用の２次元入力映像）に含まれた客体の複数の関節の位置情報を学習することにより、このような位置情報を推定するように訓練されたモデルであってよい。学生モデルは、訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報を学習するにあたり、教師モデルによる訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報の推定結果を利用してよい。例えば、推論モデルが入力映像に含まれた客体の複数の関節の位置情報を学習するにあたり、教師モデルによる該当の入力映像に含まれた客体の複数の関節の位置情報の推定結果が損失関数の計算に利用されてよい。これにより、構築された推論モデルは、軽量化された学生モデルの特性を維持しながら、教師モデルに準ずる推定正確度を維持することができる。

【0140】

以下では、推論モデルを構築する方法についてより詳しく説明する。以下で説明する段階８１０〜段階８３０は、推論モデルを構築するためのコンピュータシステムによって実行されてよい。該当のコンピュータシステムは、上述したコンピュータシステム１００に推論モデルを提供するための装置であって、サーバその他のコンピューティング装置であってよい。以下、推論モデルを構築するためのコンピュータシステムは、モデル構築装置と命名して説明する。

【0141】

段階８１０で、モデル構築装置は、所定の訓練用の映像（すなわち、訓練用２次元の入力映像）に含まれた客体の複数の関節の位置情報を推定するように教師モデルを訓練させてよい。言い換えれば、モデル構築装置は、訓練用の２次元入力映像を用いて教師モデルを訓練させてよい。教師モデルは、所定の訓練用の映像から、該当の訓練用の映像に含まれた客体の複数の関節の位置情報を推定するように予め訓練されたものであってよい。実施形態の推論モデルは、このような予め訓練された教師モデルを利用して学習（訓練）されてよい。

【0142】

訓練用の２次元入力映像は、複数の訓練用の２次元入力映像のセットであってよい。教師モデルは、例えば、正解が分かっている２次元の入力映像（すなわち、グラウンドトゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）入力映像）を用いて予め訓練されたものであってよい。

【0143】

段階８２０で、モデル構築装置は、教師モデルによる訓練用（２次元の入力）の映像に含まれた客体の複数の関節の位置情報の推定結果に基づき、教師モデルよりも軽量化されたモデルである学生モデルに、該当の訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報を学習させてよい。言い換えれば、モデル構築装置は、訓練用の２次元入力映像を用いて学生モデルを訓練させてよく、学生モデルは、教師モデルでの推定結果を用いて訓練されてよい。

【0144】

すなわち、教師−学生学習に基づく知識の蒸留（ｋｎｏｗｌｅｄｇｅ−ｄｉｓｔｉｌｌａｔｉｏｎ）によって訓練されてよい。学習しようとする訓練用の２次元入力映像に対し、該当の訓練用の２次元入力映像を教師モデルが先に学習し、教師モデルよりも軽量化された学生モデルは、このような教師モデルでの推定結果を活用して訓練用２次元入力映像を学習してよい。これにより、教師モデルは、訓練用の２次元入力映像に対する知識を凝縮して学生モデルに伝達することができ、学生モデルは、教師モデルを利用せずに訓練用の２次元入力映像を学習した場合に比べて最適解を容易に見つけ出すことができるため、正確度を高めることができる。

【0145】

段階８３０で、モデル構築装置は、段階８２０で学習された学生モデルを、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルとして構築してよい。モデル構築装置は、このような学習された学生モデルを、上述した推論モデルとしてコンピュータシステム１００に搭載してよい。

【0146】

学生モデルは、２次元の入力映像が含む各客体の位置情報を推定するために利用される損失関数を利用して訓練されてよい。学生モデルは、教師モデルによって推定（予測）された結果と正解（ｇｒｏｕｎｄｔｒｕｔｈ）に基づいて決定される損失関数を用いて訓練されてよい。学生モデルの訓練において用いられる損失関数は、ヒートマップに対する損失関数である第１損失関数、および位置マップに対する損失関数である第２損失関数を含んでよい。例えば、段階８２０で、学生モデルに対して訓練用の２次元入力映像に含まれた客体の複数の関節の位置情報を学習させるにあたり、学生モデルは、学生モデルによって推定された複数の関節の各関節に対する第１ヒートマップと該当の各関節に対する正解に該当する第２ヒートマップとの差、および第１ヒートマップと教師モデルによって推定された各関節に対する第３ヒートマップとの差に基づいて計算される第１損失関数と、学生モデルによって推定された各関節に対する第１位置マップと該当の各関節に対する正解に該当する第２位置マップとの差、および第１位置マップと教師モデルによって推定された各関節に対する第３位置マップとの差に基づいて計算される第２損失関数を用いて訓練されてよい。

【0147】

このとき、第１ヒートマップと第２ヒートマップとの差および第１ヒートマップと第３ヒートマップとの差は、所定の混合比で第１損失関数に含まれてよい。また、第１位置マップと第２位置マップとの差、および第１位置マップと第３位置マップとの差は、所定の混合比で第２損失関数に含まれてよい。所定の混合比は、例えば、０．５であってよい。第１損失関数と関連する混合比および第２損失関数と関連する混合比は、互いに異なるように設定されてもよい。

【0148】

上述したような所定の混合比により、教師モデルによる推定結果（すなわち、学習結果）が学生モデルの訓練において利用されてよい。したがって、実施形態の学生モデルによって構築された推論モデルは、軽量化されたモデルになれると同時に、推定において高い正確度をもつことができる。

【0149】

以上、図１〜図７、図１１および図１２を参照しながら説明した技術的特徴は、図８にもそのまま適用可能であるため、重複する説明は省略する。

【0150】

図９は、一例における、教師−学生モデルを利用して、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを構築する方法を示した図である。また、図１０は、一例における、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを示した図である。

【0151】

以下では、教師−学生学習を活用して軽量化された３次元ポーズの推定のための推論モデルを訓練させ、このような訓練モデルを構築する方法についてさらに詳しく説明する。

【0152】

実施形態で構築される推論モデルは、単一なＲＧＢカメラによって撮影された映像（入力映像）から３次元ポーズの推定を実行することができる、軽量化された深層ニューラルネットワーク基盤のモデルであってよい。推論モデルは、ＭｏＶＮｅｃｔモデルと命名されてよい。上述したように、推論モデルの推定性能を強化するために３次元ポーズを推定するための推論モデルを訓練させるにあたり、教師−学生学習に基づく知識の蒸留（Ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎ）方法が利用されてよい。

【0153】

推論モデルによって推定された、映像に含まれた客体の関節の位置情報は、後処理により、ＣＮＮ出力が時系列的に安定した３Ｄ骨格情報として生成されてよく、これは、（例えば、３次元のキャラクタまたはアバタを生成するための）アプリケーションで直接適用されてよい。

【0154】

推論モデルは、リアルタイムで撮影される映像に対してリアルタイムで客体の３次元ポーズを推定してよい。推定された客体の３次元ポーズは、ＡＲ（拡張現実）またはＶＲ（バーチャルリアリティ）環境において、運動競技力の分析、身体およびジェスチャモーションのキャプチャに活用されてよい。実施形態の推論モデルは、センサと数台のカメラが装着されたウェアラブルスーツに依存したり、客体（人体）の関節の位置情報を得るために深さカメラを要求したりしなくても、関節の位置情報を推定することができる。したがって、高価な特殊装備を必要としたり、構成段階を必要としたり、特定の光源を必要としたりしないため、室内および室外の環境において客体に対する３次元ポーズを制限なく推定することができる。

【0155】

深層ニューラルネットワークに基づいてＲＧＢ映像のポーズを推定するモデルを構築するためには、深層学習基盤のモデル性能の向上のために極めて深くて広い層が必要となり、これは高い配置費用に繋がる。これは、ＦＬＯＰＳ（ＦｌｏａｔｉｎｇＰｏｉｎｔＯｐｅｒａｔｉｏｎｓＰｅｒＳｅｃｏｎｄ：１秒あたりの浮動小数点演算回数）を増加させるようになり、したがって、構築されたモデルをスマートフォンまたは埋め込みシステムなどのようにコンピューティング資源が制限された装置への搭載には不適となる。ＦＬＯＰＳを減らすために、実施形態の推論モデルは、軽量化されたモデルによって構築されてよい。すなわち、実施形態の推論モデルは、一般的により少ない数のパラメータによって設計されてよく、深層畳み込みのような効率的な作業によって設計されてよい。

【0156】

実施形態の推論モデルは、軽量化によってパラメータを減らしながら、推定正確度の低下を最小化するように学習されてよい。上述したように、推論モデルは、教師−学生モデル学習方法に基づいて構築されてよく、このように構築された推論モデルは、教師学習を利用せずに訓練されたモデルよりも、高い推定正確度を達成することができる。

【0157】

図９では、教師−学生モデル学習方法に基づき、訓練用の２次元入力映像９１０によって訓練された学生モデルを実施形態の推論モデルとして構築する方法について説明している。先ず、教師モデル９２０は、訓練用の２次元入力映像９１０によって訓練されてよい。教師モデル９２０は、多数のニューラルネットワーク層を含んでよい。次に、教師モデル９２０に比べて軽量化された学生モデル９００が訓練用の２次元入力映像９１０によって訓練されてよい。学生モデル９００は、教師モデル９２０の追加学習（ｅｘｔｒａｓｕｐｅｒｖｉｓｉｏｎ）を用いて教師モデル９２０の３次元ポーズの知識を伝達するための模倣（ｍｉｍｉｃｒｙ）損失関数によって訓練されてよい。訓練された軽量化された学生モデル９００は、教師モデル９２０にこれ以上は依存せず、教師モデル９２０によって訓練されなかったモデルに比べて優れた推定正確度を達成することができる。推定された３次元ポーズ９５０は、構築された推論モデル（すなわち、学生モデル９００）によるポーズ推定結果を示してよい。学生モデル９００と教師モデル９２０の訓練のために用いられる正解は、予め分かっている値であってよい。正解ＧＴは、訓練用の２次元入力映像９１０（または、他の訓練用の入力映像のセット）に対する正解であって、例えば、複数のセンサ、多数のカメラ、これらが取り付けられたウェアラブルスーツ、深さカメラなどで客体を撮影することによって取得される訓練用の２次元入力映像９１０（または、他の訓練用の入力映像のセット）に対する正解データであってよい。このような正解データは、正解ヒートマップおよび正解位置マップを含んでよい。学生モデル９００を訓練させるための損失関数は、このような正解ヒートマップおよび正解位置マップと、教師モデル９２０によって推定されたヒートマップおよび位置マップと、学生モデル９００によって推定されたヒートマップおよび位置マップを利用して決定されてよい。詳しい損失関数の決定方法については、以下で説明することにする。

【0158】

上述した知識の蒸留は、区分されるキャパシティを有する、異なるネットワーク間に情報を伝達するものであってよい。知識の蒸留の主なアイディアは、クラス確率、フィーチャ表現、またはレイヤ間（ｉｎｔｅｒ−ｌａｙｅｒ）の流れにおいて教師モデルを用いて追加学習を適用することにある。これは、相対的に訓練させやすい大規模のネットワークを利用することで、訓練に困難のある小規模ネットワークの効率的な訓練のために利用されてよい。すなわち、知識の蒸留により、大型ネットワークの知識が小規模ネットワークに首尾良く移転されるようになる。また、オンライン基盤の蒸留により、オフライン基盤の方法よりも効果的な最適化が達成されるようになる。実施形態では、このような知識の蒸留を分類問題において（３次元）ポーズ推定に拡大した。すなわち、客体の関節に対応するヒートマップ（および位置マップ）の知識伝達により、効率的かつ軽量化されたポーズの推定モデルが訓練されるようになる。実施形態によって軽量化された推論モデルが構築されてよく、したがって、処理能力が低い装備であっても、入力映像に含まれる客体に対する３次元ポーズを推定することができる。

【0159】

実施形態によって構築された推論モデル９００は、教師モデル９２０あるいは同じ水準の推定正確度を維持する比較モデルに比べてパラメータの数が１／１４まで軽量化されるようになり、モデルのファイルのサイズも１／８〜１／１０未満となる。また、コンピュータシステム１００における実行において、３次元ポーズ推定の速度は、比較モデルに比べてＣＰＵで約６倍、ＧＰＵで約３倍、ＮＰＵで約２．８倍の向上を達成することができる。

【0160】

図１０は、一例における、２次元の入力映像に含まれた客体の３次元ポーズを推定するための推論モデルを示した図である。図１０に示されたモデルは、図９を参照しながら説明した学生モデル９００に対応してよい。

【0161】

推論モデル９００は、バックボーンネットワークを含んでよい。バックボーンネットワークは、入力映像としてＲＧＢ映像が入力されるベースネットワークであってよい。バックボーンネットワークは、映像において客体の関節の位置情報を推定するように予め訓練されたモデルであってよい。一例として、バックボーンネットワークは、ＭｏｂｉｌｅＮｅｔ（または、ＭｏｂｉｌｅＮｅｔＶ２）モデルであってよく、ブロック１２までが推論モデル９００のためのバックボーンネットワークとして利用されてよい。推論モデル９００は、効率的なフィーチャ（ｆｅａｔｕｒｅ）抽出のために、ｐｏｉｎｔｗｉｓｅおよびｄｅｐｔｈｗｉｓｅＣＮＮ基盤の構造に基づいて実現されてよい。また、推論モデル９００は、デコンポジション（ｄｅｃｏｍｐｏｓｉｔｉｏｎ）およびスキップコネクション（ｓｋｉｐｃｏｎｎｅｃｔｉｏｎ）のような軽量化のための構造を含んでよい。Ｊは関節を示してよく、ＢＬは骨の長さ（ＢｏｎｅＬｅｎｔｈ）を示してよい。中間フィーチャである△Ｘ、△Ｙ、および△Ｚは、ＢＬに該当するフィーチャのために利用されてよい。ＢＬに該当するフィーチャは、ルート相対３次元ポーズ（ｒｏｏｔ−ｒｅｌａｔｉｖｅ３Ｄｈｕｍａｎｐｏｓｅ）を推定するための補助的な手がかりとなってよい。本発明の一実施形態では、ルートとして骨盤を利用するが、この場合、ＢＬに該当するフィーチャは、骨盤を基準とする相対座標系上の３次元ポーズとなってよい。結果的に、推論モデル９００は、各関節に対するヒートマップ（Ｈ）と各座標軸に対する位置マップ（Ｘ、Ｙ、Ｚ）を生成（推定）してよい。

【0162】

以下では、３次元ポーズを推定するための推論モデル９００についてさらに詳しく説明する。

【0163】

客体の３次元ポーズの推定においては、与えられたＲＧＢ映像（入力映像）Ｉから３次元ポーズＰ^３Ｄが推定される。Ｐ^３Ｄ∈Ｒ^３×Ｊは、客体のＪ関節のルート相対３次元位置（ｒｏｏｔ−ｒｅｌａｔｉｖｅ３Ｄｐｏｓｉｔｉｏｎ）を示してよい。実施形態の推論モデル９００は、低電力装置（例えば、スマートフォンや埋め込みシステムなど）に搭載されて実行されてよい。このような推論モデル９００は、客体に対して３次元の完全体のモーションのために１５箇所の関節（Ｊ＝１５）を推定してよい。

【0164】

実施形態の推論モデル９００は、客体の各関節に対するヒートマップおよび位置マップに対して知識の蒸留によって訓練されてよい。ヒートマップおよび位置マップは２次元の空間情報を示すため、知識の蒸留を容易に適用することができる。推論モデル９００は、すべての関節ｊ∈１・・・Ｊに対してヒートマップと位置マップを生成してよい。図に示すように、推論モデル９００は、一例として、ＭｏｂｉｌｅＮｅｔＶ２モデルの１２ブロックまでをバックボーンネットワークとして利用してよく、追加で深層ＣＮＮ層を含んでよい。推論モデル９００は、骨の長さフィーチャを推論モデル９００に追加することにより、ルート相対位置マップを推定するための明確な手がかりを取得することができる。例えば、骨の長さフィーチャは、以下の数式（２）のように表現されてよい。

【0165】

【数3】

【0166】

△Ｘ_ｊ、△Ｙ_ｊ、△Ｚ_ｊは、推論モデル９００における中間フィーチャであってよい。効率的な計算のために、骨の長さフィーチャは、Ｌ２距離基盤の方程式（ｅｑｕａｔｉｏｎ）の代りに、Ｌ１距離を用いて計算されてよい。計算されたフィーチャは、他の中間フィーチャと結合して最終出力を計算するために活用されてよい。

【0167】

推論モデル９００は、訓練において客体の境界ボックス（ｂｏｕｎｄｉｎｇｂｏｘ）によってクロップされた映像を利用してよい。これは、ランタイムで映像の大きさに影響を受ける推論モデル９００の性能に影響を及ぼすことがある。推論モデル９００が搭載されたモバイルデバイスにおいて、リアルタイム処理を維持しながら性能の問題を解決するためには、例えば、バッファ面積０．２×垂直高さ０．４×水平幅に基づく２次元ヒートマップの初期のいくつかのフレームから発見されるキーポイント（Ｋ）に基づいて境界ボックスを取得してよく、０．７５のモメンタムを有する以前のフレームを利用してこれを持続的に追跡してよい。スケールを正常化するために、境界ボックスによってクロップされた映像は、２５６×２５６にその大きさが調整され、推論モデル９００に対する入力として利用されてよい。

【0168】

以下では、推論モデル９００を訓練するにあたり、教師−学生学習に基づく追加地図のための損失関数について説明する。

【0169】

推論モデル９００を訓練させるための損失関数は、ヒートマップ損失関数（Ｌ_ＨＭ）および位置マップ損失関数（Ｌ_ＬＭ）を含んでよい。ヒートマップ損失関数（Ｌ_ＨＭ）および位置マップ損失関数（Ｌ_ＬＭ）はそれぞれ、以下の数式（３）および（４）で表現されてよい。

【0170】

【数4】

【0171】

ここで、Ｈ_ｊとＨ_ｊ^ＧＴはそれぞれ、推論モデル９００（すなわち、学生モデル）によって推定されたｊ番目の関節のヒートマップと実測ヒートマップ（すなわち、正解）を示してよい。

【0172】

【数5】

はアダマール積（Ｈａｄａｍａｒｄｐｒｏｄｕｃｔ）を示し、Ｌ_ｊは推論モデル９００によって推定されたｊ番目の関節の位置マップを示す。Ｌ_ｊ^ＧＴは、ｊ番目の関節の実測位置マップ（すなわち、正解）を示す。ＧＴとＴはそれぞれ、正解と教師モデル９２０によって推定された結果を示す。すなわち、Ｈ_ｊＴおよびＬ_ｊ^Ｔはそれぞれ、教師モデル９２０によって推定されたｊ番目の関節のヒートマップおよび位置マップを示してよい。αは、正解と教師モデル損失条件との間の混合要素（すなわち、混合比）を示してよく、例えば、０．５に設定されてよい。教師−学生学習は、各ミニバッチ（ｍｉｎｉｂａｔｃｈ）によって全体の訓練過程にわたって実行されてよい。推論モデル９００への訓練が完了した後、教師モデル９２０の知識によって学習された学生モデルである推論モデル９００がモバイルデバイスのようなコンピュータシステム１００に搭載され、客体の３次元ポーズの推定のために利用されてよい。

【0173】

例えば、図８を参照しながら説明した段階８２０において、学生モデル９００に、訓練用の２次元入力映像９１０に含まれた客体の複数の関節の位置情報を学習させるにあたり、学生モデル９００は、学生モデル９００によって推定された複数の関節の各関節に対する第１ヒートマップ（Ｈ_ｊ）と該当の各関節に対する正解に該当する第２ヒートマップ（Ｈ_ｊ^ＧＴ）との差、および第１ヒートマップ（Ｈ_ｊ）と教師モデル９２０によって推定された各関節に対する第３ヒートマップ（Ｈ_ｊ^Ｔ）との差に基づいて計算される第１損失関数（Ｌ_ＨＭ）と、学生モデル９００によって推定された各関節に対する第１位置マップ（Ｌ_ｊ）と該当の各関節に対する正解に該当する第２位置マップ（Ｌ_ｊ^ＧＴ）との差、および第１位置マップ（Ｌ_ｊ）と教師モデル９２０によって推定された各関節に対する第３位置マップ（Ｌ_ｊ^Ｔ）との差に基づいて計算される第２損失関数（Ｌ_ＬＭ）によって訓練されてよい。このとき、第１ヒートマップ（Ｈ_ｊ）と第２ヒートマップ（Ｈ_ｊ^ＧＴ）との差および第１ヒートマップ（Ｈ_ｊ）と第３ヒートマップ（Ｈ_ｊ^Ｔ）との差は、所定の混合比（α：１−α）で第１損失関数（Ｌ_ＨＭ）に含まれてよい。また、第１位置マップ（Ｌ_ｊ）と第２位置マップ（Ｌ_ｊ^ＧＴ）との差および第１位置マップ（Ｌ_ｊ）と第３位置マップ（Ｌ_ｊ^Ｔ）との差は、同じ所定の混合比（α：１−α）で第２損失関数（Ｌ_ＬＭ）に含まれてよい。所定の混合比は、例えば、０．５であってよい。ただし、第１損失関数（Ｌ_ＨＭ）と関連する混合比および第２損失関数（Ｌ_ＬＭ）と関連する混合比は、互いに異なるように設定されてもよい。

【0174】

推論モデル９００によって推定された関節の位置情報は、上述した後処理方法によって後処理されてよい。これに関する重複する説明は省略する。

【0175】

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が利用されるとして説明される場合もあるが、当業者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成（ｐｒｏｃｅｓｓｉｎｇｃｏｎｆｉｇｕｒａｔｉｏｎ）も可能である。

【0176】

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に（ｃｏｌｌｅｃｔｉｖｅｌｙ）処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置（ｖｉｒｔｕａｌｅｑｕｉｐｍｅｎｔ）、コンピュータ記録媒体または装置、または送信される信号波（ｓｉｇｎａｌｗａｖｅ）に永久的または一時的に具現化（ｅｍｂｏｄｙ）されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された方法で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に格納されてもよい。

【0177】

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであっても、コンピュータソフトウェアの当業者に公知な利用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピディスク、磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を記録して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例は、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを利用してコンピュータによって実行される高級言語コードを含む。上述したハードウェア装置は、実施形態の動作を実行するために１つ以上のソフトウェアモジュールとして動作するように構成されてよく、その逆も同じである。

【0178】

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能である。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

【0179】

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

【符号の説明】

【0180】

２００：プロセッサ
３１０：入力部
３２０：前処理部
３３０：推論部
３４０：後処理部
３５０：アニメーション生成部
３６０：出力部（レンダリング部）

【図1】