(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-25
(45)【発行日】2023-11-02
(54)【発明の名称】ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置
(51)【国際特許分類】
G06T 7/70 20170101AFI20231026BHJP
G06T 7/00 20170101ALI20231026BHJP
【FI】
G06T7/70 Z
G06T7/00 350B
(21)【出願番号】P 2021568548
(86)(22)【出願日】2020-03-31
(86)【国際出願番号】 KR2020004390
(87)【国際公開番号】W WO2020235804
(87)【国際公開日】2020-11-26
【審査請求日】2021-11-16
(31)【優先権主張番号】10-2019-0058052
(32)【優先日】2019-05-17
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ウィ,ドンユン
(72)【発明者】
【氏名】カン,ミョング
(72)【発明者】
【氏名】オ,クァンジン
(72)【発明者】
【氏名】パク,ジンヨン
(72)【発明者】
【氏名】ペ,スンミン
【審査官】伊知地 和之
(56)【参考文献】
【文献】国際公開第2019/060632(WO,A1)
【文献】中国特許出願公開第109522850(CN,A)
【文献】特表2015-501115(JP,A)
【文献】特開2014-038566(JP,A)
【文献】特表2013-529801(JP,A)
【文献】米国特許出願公開第2014/0072175(US,A1)
【文献】米国特許出願公開第2015/0294143(US,A1)
【文献】米国特許出願公開第2018/0114055(US,A1)
【文献】韓国公開特許第10-2017-0053069(KR,A)
【文献】特開2013-120556(JP,A)
【文献】米国特許出願公開第2012/0051588(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 - 3/12
G06N 7/08 - 99/00
G06T 1/00
G06T 3/00 - 3/60
G06T 5/00 - 5/50
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
ポーズ類似度判別モデルを生成する装置によって実行される方法であって、
前記装置の前処理部が、収集した複数のサンプル映像を同期化させる段階;
前記装置のポーズイメージ生成部が、前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズに対応するポーズイメージを生成する段階;
前記装置の学習データセット生成部が、前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対の学習データセットを生成する段階;及び
前記装置のモデルトレーニング部が、前記学習データセットで機械学習を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含み、
前記学習データセットを生成する段階は、
前記サンプル映像のいずれか一つを選択映像として設定し、前記選択映像のT時点に対応するポーズイメージをアンカーとして設定する段階;
前記選択映像以外のサンプル映像のT時点に対応するポーズイメージを、前記アンカーに対する類似サンプルとして設定する段階;及び
前記選択映像のうち、前記T時点以外の時点に対応するポーズイメージを、前記アンカーに対する非類似サンプルとして設定する段階をさらに含み、
前記T時点以外の時点は、前記サンプル映像中の背景音楽に応じて選択する、ポーズ類似度判別モデル生成方法。
【請求項2】
前記同期化させる段階は、
基準映像と比較し、前記サンプル映像のFPSを調節するか、前記基準映像とのオフセットタイムを計算することを特徴とする、請求項1に記載のポーズ類似度判別モデル生成方法。
【請求項3】
前記ポーズイメージを生成する段階は、
前記フレームイメージに表された前記客体のポーズを、前記客体に含まれている特徴点及び前記特徴点間の連結関係で単純化して前記ポーズイメージを生成することを特徴とする、請求項1に記載のポーズ類似度判別モデル生成方法。
【請求項4】
前記学習データセットを生成する段階は、
前記T時点を前記選択映像の開始時点から終了時点まで順次に変更し、前記選択映像に含まれている全体ポーズイメージに対応する学習データセットを生成することを特徴とする、請求項1に記載のポーズ類似度判別モデル生成方法。
【請求項5】
前記学習データセットを生成する段階は、
前記複数のサンプル映像のうち少なくとも設定個数以上のサンプル映像を前記選択映像として選択して前記学習データセットを生成することを特徴とする、請求項1に記載のポーズ類似度判別モデル生成方法。
【請求項6】
ポーズ類似度判別モデルを生成する装置によって実行される方法であって、
前記装置の前処理部が、収集した複数のサンプル映像を同期化させる段階;
前記装置のポーズイメージ生成部が、前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズに対応するポーズイメージを生成する段階;
前記装置の学習データセット生成部が、前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対の学習データセットを生成する段階;及び
前記装置のモデルトレーニング部が、前記学習データセットで機械学習を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含み、
前記学習データセットを生成する段階は、
前記複数のサンプル映像のいずれか一つを選択映像として設定し、前記選択映像のポーズイメージに対応するそれぞれの3次元ポーズ座標を生成する段階;
前記選択映像のT時点に対応する3次元ポーズ座標を設定角度で投影して2次元イメージを生成し、生成した2次元イメージをアンカーとして設定する段階;
前記T時点における3次元ポーズ座標を前記設定角度以外の複数の角度で投影して2次元イメージを生成し、生成した2次元イメージを前記アンカーに対する類似サンプルとして設定する段階;及び
前記T時点以外の時点に対応する3次元ポーズ座標を前記設定角度で投影して2次元イメージを生成し、生成した2次元イメージを前記アンカーに対する非類似サンプルとして設定する段階をさらに含むことを特徴とする、
ポーズ類似度判別モデル生成方法。
【請求項7】
前記類似サンプルとして設定する段階は、
前記選択映像以外のサンプル映像のT時点に対応するポーズイメージを抽出し、前記抽出したポーズイメージに対する3次元ポーズ座標を生成する段階;及び
前記3次元ポーズ座標を複数の角度で投影して2次元イメージを生成し、前記生成した2次元イメージを前記類似サンプルとして追加する段階をさらに含むことを特徴とする、請求項
1に記載のポーズ類似度判別モデル生成方法。
【請求項8】
前記非類似サンプルとして設定する段階は、
前記選択映像のうち、前記T時点以外の時点に対応するポーズイメージを抽出し、前記ポーズイメージに対する3次元ポーズ座標を生成する段階;及び
前記3次元
ポーズ座標を複数の角度で投影して2次元イメージを生成し、前記生成した2次元イメージを前記非類似サンプルとして追加する段階をさらに含むことを特徴とする、請求項
1に記載のポーズ類似度判別モデル生成方法。
【請求項9】
前記ポーズ類似度判別モデルを生成する段階は、
前記学習データセットをメトリックラーニングモデルで機械学習して前記ポーズ類似度判別モデルを生成し、前記ポーズ類似度判別モデルは、前記ポーズイメージ間の類似度を特徴マップ上の距離を用いて示すことを特徴とする、請求項1に記載のポーズ類似度判別モデル生成方法。
【請求項10】
ハードウェアと結合し、請求項1~
9のいずれか一項に記載のポーズ類似度
判別モデル生成方法を実行させるために媒体に保存された
、コンピュータプログラム。
【請求項11】
収集した複数のサンプル映像を前処理し、前記サンプル映像を同期化させる前処理部;
前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズに対応するポーズイメージを生成するポーズイメージ生成部;
前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対の学習データセットを生成する学習データセット生成部;及び
前記学習データセットで機械学習を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成するモデルトレーニング部を含
み、
み、
前記学習データセット生成部
は、
前記サンプル映像のいずれか一つを選択映像として設定し、前記選択映像のT時点に対応するポーズイメージをアンカーとして設定するアンカー設定部;
前記選択映像以外のサンプル映像のT時点に対応するポーズイメージを、前記アンカーに対する類似サンプルとして設定する類似サンプル設定部;及び
前記選択映像のうち、前記T時点以外の時点に対応するポーズイメージを、前記アンカーに対する非類似サンプルとして設定する非類似サンプル設定部をさらに含み、
前記T時点以外の時点は、前記サンプル映像中の背景音楽に応じて選択する、ポーズ類似度判別モデル生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、異なる映像内に含まれているユーザのポーズ(pose)に対する類似度を演算することができるポーズ類似度判別モデルの生成方法及び生成装置に関する。
【背景技術】
【0002】
顔や手などの身体の一部を検出するために、特徴又はテンプレートや色相などの信号成分を用いてターゲット部位を検出する技術が映像認識分野において様々に開発され、用いられている。例えば、SIFT(Scale Invariant Feature Transform)ベースの特徴を用いた検出器やアダブーストなどの分類器を用いて顔を検出したり、マスクテンプレートなどを用いて顔を検出したりするなど、様々な身体のターゲット部位を検出する技術が開発され、用いられている。
【0003】
一方、近年、ディープラーニングモデル(Deep Learning Model)は、コンピュータビジョン(Vision)の様々な分野において目覚ましい性能向上を見せ、研究パラダイムを変えている。既存のコンピュータビジョン研究がSIFT、HOG(Histogram of Oriented Gradient)のように人の知識に基づいて有用な特徴を設計するのに集中したとすれば、ディープラーニングは、多層人工ニューラルネットワークを用いて有用な特徴をデータから直接学習する方法を取る。
【0004】
このような学習ベースの方法は、人がまだ気づかない有用な特徴をデータから直接探し出すことができるため、より大きい性能向上に特徴がある。そこで、映像内でユーザのポーズなどを認識するために、ディープラーニングなどの機械学習を活用する方案などが提示されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本出願は、ユーザの体型やカメラの角度の変化に堅牢なポーズ類似度判別モデルを生成することができる、ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置を提供しようとする。
【0006】
本出願は、少ない数のサンプル映像を用いて効率的に学習データセットを形成することができるポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置を提供しようとする。
【課題を解決するための手段】
【0007】
本発明の一実施例に係るポーズ類似度判別モデル生成方法は、収集した複数のサンプル映像を同期化させる段階;前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズ(pose)に対応するポーズイメージを生成する段階;前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対(triplet)の学習データセット(training dataset)を生成する段階;及び、前記学習データセットで機械学習(machine learning)を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成する段階を含むことができる。
【0008】
本発明の一実施例に係るポーズ類似度判別モデル生成装置は、収集した複数のサンプル映像を前処理して前記サンプル映像を同期化させる前処理部;前記サンプル映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表された客体のポーズ(pose)に対応するポーズイメージを生成するポーズイメージ生成部;前記ポーズイメージの類似又は非類似をそれぞれ設定し、三重対(triplet)の学習データセット(training dataset)を生成する学習データセット生成部;及び、前記学習データセットで機械学習(machine learning)を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成するモデルトレーニング部を含むことができる。
【0009】
本発明の一実施例に係るポーズ類似度判別方法は、ユーザの動作を撮影した対象映像を受信すると、前記対象映像を前処理して基準映像と同期化させる段階;前記対象映像からそれぞれのフレームイメージを抽出し、前記フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成する段階;及び、前記ユーザポーズイメージをポーズ類似度判別モデルに適用して前記ユーザポーズイメージと基準映像に対応する基準ポーズイメージを比較し、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算する段階を含むことができる。
【0010】
なお、上述の課題を解決するための手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれによる長所及び効果は、以下の具体的な実施形態を参照してより詳細に理解されるであろう。
【発明の効果】
【0011】
本発明の一実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置によれば、サンプル映像のフレームイメージの替わりにポーズイメージを生成して活用するので、ユーザの体型やカメラの角度の変化に堅牢なポーズ類似度判別モデルを生成することが可能である。
【0012】
本発明の一実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置によれば、少ない数のサンプル映像を用いて効率的に学習データセットを形成することが可能である。
【0013】
ただし、本発明の実施例に係るポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置が達成できる効果は、以上で言及したものに制限されず、言及していない別の効果は、以下の記載から、本発明の属する技術の分野における通常の知識を有する者に明確に理解されるであろう。
【図面の簡単な説明】
【0014】
【
図1】本発明の一実施例に係るポーズ類似度判別モデル生成装置を示すブロック図である。
【
図2】本発明の一実施例に係るポーズイメージ生成を示す概略図である。
【
図3】本発明の一実施例に係る学習データセット生成を示す概略図である。
【
図4】本発明の一実施例に係る学習データセット生成を示す概略図である。
【
図5】本発明の一実施例に係るメトリックラーニングを示す概略図である。
【
図6】本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。
【
図7】本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。
【
図8】本発明の一実施例に係るポーズ類似度判別装置を示す概略図である。
【
図9】本発明の一実施例に係るポーズ類似度判別方法を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、添付の図面を参照して、本明細書に開示の実施例を詳細に説明するが、図面に関係なく同一又は類似の構成要素には同一の参照番号を付し、それに関する重複説明は省略するものとする。以下の説明で使われる構成要素に対する接尾辞“モジュール”及び“部”は、明細書作成上の容易さだけを考慮して付与又は混用されるもので、それ自体で互いに区別される意味又は役割を有するものではない。すなわち、本発明で使われる‘部’という用語は、ソフトウェア、FPGA又はASICのようなハードウェア構成要素を意味し、‘部’はいずれかの役割を担う。しかし、‘部’がソフトウェア又はハードウェアに限定される意味ではない。‘部’は、アドレシングできる記憶媒体に含まれるように構成されてもよく、一つ又はそれ以上のプロセッサを再生させるように構成されてもよい。したがって、例えば、‘部’は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素と‘部’内で提供される機能は、より少ない数の構成要素及び‘部’に結合してもよく、追加の構成要素と‘部’に分離されてもよい。
【0016】
また、本明細書に開示の実施例を説明するに当たって、関連する公知技術に関する具体的な説明が本明細書に開示の実施例の要旨を曖昧にさせ得ると判断される場合、その詳細な説明を省略する。また、添付の図面は、単に、本明細書に開示の実施例を容易に理解させるためのものであり、添付の図面によって本明細書に開示の技術的思想は制限されず、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物又は代替物を含むものとして理解されるべきである。
【0017】
図1は、本発明の一実施例に係るポーズ類似度判別モデル生成装置を示すブロック図である。
【0018】
図1を参照すると、本発明の一実施例に係るポーズ類似度判別モデル生成装置は、前処理部110、ポーズイメージ生成部120、学習データセット生成部130及びモデルトレーニング部140を含むことができる。
【0019】
以下、
図1を参照して、本発明の一実施例に係るポーズ類似度判別モデル生成装置を説明する。
【0020】
前処理部110は、サンプル映像video_1,video_2,...,video_nに対する前処理(preprocessing)を行うことができる。複数のサンプル映像は、あらかじめ収集されていてよく、前処理部110は、サンプル映像を活用するための前処理を行うことができる。前処理部110は、本発明の実施例に係るポーズ類似度判別モデル生成装置の性能を高めるための様々な方法を含むことができる。本発明の実施例によれば、前処理部110は、サンプル映像が同一時点に同一又は類似のポーズを表すように同期化させる作業を行うことができる。
【0021】
具体的に、前処理部110は、サンプル映像のFPS(frame per second)を調節するか、或いは基準映像とのオフセットタイム(offset time)などを計算してサンプル映像を同期化させることができ、この時、あらかじめ設定された基準映像又は予め設定された規則に基づき、それぞれのサンプル映像に対する同期化を行うことができる。
【0022】
例えば、それぞれの人々が同一音楽に対して同一振りつけの踊りを踊る複数個の映像に対して、それらの映像は、同一の音楽部分で同一のポーズを取っていると仮定することができる。したがって、当該映像の音源を分析して基準映像とのオフセットを計算することにより、映像間の同一時点で同一ポーズを表すように同期化をさせることができる。具体的に、オーディオの波形を分析し、基準映像と対象映像とのオーディオ波形間の差が最も小さいオフセットを同期化オフセットとして設定できる。
【0023】
追加的に、人々の動作の拍子ずれによる誤差が発生することもあるので、設定区間内で映像間の動作類似性を比較して追加補正オフセットを計算してもよい。この場合、同期化の正確度をさらに高めることができる。
【0024】
また、映像内に一つ以上の客体が含まれている場合、客体検出及びトラッキングアルゴリズムを用いて複数個の客体に分離した後、それぞれに対する動作類似度を計算することができる。
【0025】
ここで、ポーズ類似度判別モデルは、ユーザが取るポーズ(pose)に類似するポーズを探したり、ユーザの取ったポーズが特定ポーズとどれくらい類似しているかを演算するためのものであり、複数のサンプル映像を学習させる方式で生成することができる。したがって、ポーズ類似度判別モデルを用いて判別しようとするユーザのポーズの種類によって、異なるサンプル映像を選択することができる。
【0026】
実施例によっては、人物が特定の踊りを踊るダンス映像などをサンプル映像として選択でき、このとき、それぞれのサンプル映像を撮影したカメラの角度又は踊っている人物の体型などは互いに異なってよい。すなわち、異なる体型やカメラ角度で撮影した様々なサンプル映像を用いるので、体型やカメラ角度の変化に堅牢なポーズ類似度判別モデルを生成することが可能である。
【0027】
また、サンプル映像は、ダンス映像の他にも、ゴルフスイング姿勢などのように運動種目における特定姿勢を撮影した映像などであってもよく、人体のポーズを含むものであれば、いずれもサンプル映像として活用できる。さらに、人体のポーズの他、動物や車両、ロボットなどの動作やポーズをサンプル映像として活用することも可能である。
【0028】
ポーズイメージ生成部120は、サンプル映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表された客体のポーズ(pose)に対応するポーズイメージを生成することができる。サンプル映像は複数のフレームイメージを含むことができ、
図2に示すように、それぞれのフレームイメージf1,f2には客体のポーズ(pose)が表されていてよい。
【0029】
ここで、ポーズイメージ生成部120は、フレームイメージから客体のポーズを認識でき、認識した客体のポーズをポーズイメージとして示すことができる。すなわち、
図2に示すように、フレームイメージf1,f2に表された客体のポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示し、ポーズイメージpose1,pose2を生成することができる。
【0030】
ポーズイメージpose1,pose2は、客体のポーズを、特徴点と、各特徴点間の連結関係で単純化して表示するので、体型の異なる客体であっても、特徴点の位置と連結関係などを用いて同一のポーズに当該するか否かが判別しやすくなる。ここで、フレームイメージからポーズイメージに変換する際には、公知のポーズ推定モデルなどを用いることができる。
【0031】
学習データセット生成部130は、ポーズイメージ間の類似又は非類似をそれぞれ設定し、三重対(triplet)の学習データセット(training dataset)を生成することができる。
【0032】
例えば、アンカー(anchor)として設定した任意のポーズイメージに対して、アンカーと類似するポーズイメージは類似サンプル(positive example)に、非類似するポーズイメージは非類似サンプル(negative example)にそれぞれ設定して学習データセットを生成することができる。ここで、一つのアンカーに対して類似サンプルと非類似サンプルがそれぞれ関連付けられるので、学習データセット生成部130は、三重対の形態で学習データセットを具現することができる。また、三重対形態の学習データセットでは、それぞれのアンカーイメージとそれに対する類似・非類似が設定されているので、以降の機械学習時に教師あり学習(supervised learning)を行うことが可能である。
【0033】
一方、学習データセット生成部130は、実施例によって様々な方式で学習データセットを生成することができる。
【0034】
まず、第1実施例によれば、学習データセット生成部130は、複数のサンプル映像の時点を用いて学習データセットを生成することができる。
【0035】
具体的に、
図3に示すように、前処理された複数のサンプル映像video_1,video_2,...,video_nが存在してよく、それぞれのサンプル映像は同期化されていてよい。ここで、サンプル映像は、同一音楽に対してそれぞれ異なるユーザが踊るダンス映像であってよく、それぞれのサンプル映像は同期化されているので、同一時点では、サンプル映像内に含まれている客体は同一又は類似のポーズを取っていると見なすことができる。すなわち、各サンプル映像ごとに客体の体型やカメラ角度などは互いに異なっても、いずれも同一又は類似のポーズに当該すると判別できる。一方、同一サンプル映像における異なる時点では踊りの動作が互いに異なるので、同一サンプル映像であっても異なる時点T+1,T+2,T+3では異なるポーズを取ると判別できる。
【0036】
したがって、
図3に示すように、学習データセット生成部130は、まず、複数のサンプル映像のうち、video_1を選択映像として設定でき、選択映像のT時点に対応するポーズイメージをアンカーaとして設定できる。その後、選択映像以外のサンプル映像video_2,video_3,...,video_nの同一時点(t=T)に対応するポーズイメージを、アンカーaに対する類似サンプルp1,p2,...,pnとして設定できる。一方、選択映像のうち、T時点以外の時点T+1,T+2,T+3に対応するポーズイメージは、アンカーと異なるポーズを含むものであるから、それぞれのポーズイメージをアンカーaに対する非類似サンプルn1,n2,n3として設定できる。この場合、アンカーに対する類似サンプルは、サンプル映像の個数であるn個分だけ生成でき、非類似サンプルは、選択映像内に含まれているフレームイメージの個数分だけ生成することができる。さらに、学習の効率性のために、非類似サンプルは、できるだけアンカーaと類似するポーズが選択されないようにすることが好ましい。そのために、アンカーaの時点Tから遠く離れたポーズイメージを選択するか、或いは背景音楽などの付加要素をさらに考慮して選択することができる。例えば、サンプル映像中の背景音楽の雰囲気やテンポが異なる部分を選択することができる。また、非類似サンプルn1,n2,n3間に多様性を保つために、それぞれの非類似サンプルを選択する時点間の時間間隔を一定期間以上に設定することが好ましい。
【0037】
その後、学習データセット生成部130は、時点を、選択映像video_1の開始時点から終了時点まで順次に又は任意に変更してアンカーaを設定することができ、設定されたアンカーaを用いて、選択映像video_1に含まれている全体又は一部のポーズイメージに対応する学習データセットを生成することができる。
【0038】
また、一つの選択映像に対する学習データセットの生成を完了した後には、選択映像を変更し、変更された選択映像に同一の方式を適用して学習データセットを生成することができる。この時、複数のサンプル映像全体を順次に選択映像として選択して学習データセットを生成するか、或いは、実施例によっては、設定個数分だけのサンプル映像を選択映像として選択して学習データセットを生成することができる。
【0039】
一方、第2実施例では、学習データセット生成部130が、客体のポーズに対する3次元ポーズ座標を用いて学習データセットを生成することができる。具体的に、
図4(a)に示すように、一つの選択映像video_1の各フレームイメージf1,f2,f3,f4に対して、当該フレームイメージ内の客体に対する3次元ポーズ座標を生成することができる。すなわち、
図4(b)に示すように、2次元のポーズイメージから3次元のポーズを生成することができる。この時、2次元から3次元ポーズ座標への変換は、公知の変換モデルなどを用いて容易に行うことができる。
【0040】
その後、
図4(c)に示すように、選択映像video_1のT時点に対応する3次元ポーズ座標を設定角度で投影(projection)して2次元イメージを生成でき、この時に生成した2次元イメージをアンカーaとして設定できる。また、
図4(c)に示すように、T時点に対応する3次元ポーズ座標を設定角度以外の複数の角度で投影して2次元イメージをさらに生成でき、この時に生成された2次元イメージをそれぞれ類似サンプルp1,p2,p3として設定できる。すなわち、同一の3次元ポーズ座標に対して投影する角度のみを変更させるので、それぞれの2次元イメージは実質的に同じポーズを表すものに当該する。したがって、3次元ポーズ座標を異なる複数の角度で投影した2次元イメージを、類似サンプルp1,p2,p3として設定できる。
【0041】
一方、T時点以外の時点T+1,T+2,T+3に対応するフレームイメージは、アンカーとは異なるポーズを表すものと判別できる。したがって、学習データセット生成部130は、それぞれのフレームイメージに対する3次元ポーズ座標を設定角度で投影して生成した2次元イメージに対しては、非類似サンプルとして設定できる。
【0042】
ここで、学習データセット生成部130は、時点を選択映像の開始時点から終了時点まで変更しながら学習データセットを生成することができる。また、一つの選択映像に対する学習データセットの生成が完了すると、複数のサンプル映像を順次に選択映像として選択し、それぞれの選択映像に対応する学習データを生成することができる。
【0043】
第3実施例によれば、学習データセット生成部130は、複数のサンプル映像の時点、及び3次元ポーズ座標を同時に用いて学習データセットを生成することができる。
【0044】
具体的に、学習データセット生成部130は、サンプル映像のいずれか一つを選択映像として設定し、選択映像の特定時点Tに対応するポーズイメージをアンカーとして設定できる。
【0045】
その後、選択映像以外のサンプル映像のT時点に対応するポーズイメージを、まず、アンカーに対する類似サンプルとして設定できる。また、T時点に対応するポーズイメージに対する3次元ポーズ座標を生成でき、3次元ポーズ座標を複数の角度で投影する方式により、類似サンプルをさらに追加することができる。
【0046】
一方、非類似サンプルは、選択映像のうち、T時点以外の時点に対応するポーズイメージを、アンカーに対する非類似サンプルとして設定でき、その後、それぞれのポーズイメージの3次元ポーズ座標を生成した後、それを複数の角度で投影する方式により、非類似サンプルを追加することができる。
【0047】
モデルトレーニング部140は、学習データセットで機械学習(Machine learning)を行い、映像間の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成することができる。具体的に、モデルトレーニング部140は、学習データセットを、メトリックラーニングモデル(metric learning model)で機械学習でき、学習データセットに含まれているそれぞれのポーズイメージの類似度を特徴マップ(feature map)上の距離を用いて示すことができる。
【0048】
このとき、モデルトレーニング部140は、三重対損失関数(triplet loss function)を用いることができる。具体的に、三重対損失関数は、
【0049】
【数1】
であり、ここで、f(*)は特徴マップ関数、δはマージン(margin)、xaiはアンカー、x+iは類似サンプル、x-iは非類似サンプルに当該する。
【0050】
三重対損失関数を用いて、特徴マップ上で類似サンプルとアンカー間の距離は近づき、非類似サンプルとアンカー間の距離は遠ざかるように学習させることができる。すなわち、
図5(a)に示すように、初期特徴マップ(feature map)上に位置するアンカーa、類似サンプルp及び非類似サンプルnは、以降、
図5(b)に示すように、類似サンプルpはアンカーaに近づくように移動し、非類似サンプルnはアンカーから遠ざかるように学習されてよい。これにより、それぞれのポーズイメージ間の距離からイメージの類似度を判別することが可能である。
【0051】
モデルトレーニング部140では、学習されたCNN(Convolutional Neural Network)を用いてポーズイメージを受信して特徴を抽出でき、それぞれのポーズイメージに対応するアンカー、類似サンプル、非類似サンプルを特徴マップ上に位置させることができる。
【0052】
図6及び
図7は、本発明の一実施例に係るポーズ類似度判別モデル生成方法を示すフローチャートである。
【0053】
図6及び
図7を参照すると、本発明の一実施例に係るポーズ類似度判別モデル生成方法は、前処理段階(S110)、ポーズイメージ生成段階(S120)、学習データセット生成段階(S130)、及びポーズ類似度判別モデル生成段階(S140)を含むことができる。ここで、各段階はポーズ類似度判別モデル生成装置によって行われてよい。
【0054】
以下、
図6及び
図7を参照して、本発明の一実施例に係るポーズ類似度判別モデル生成方法を説明する。
【0055】
ポーズ類似度判別モデルは、ユーザの取るポーズ(pose)と類似するポーズを探したり、或いはユーザの取るポーズが特定ポーズとどれくらい類似しているかを判別するためのものであり、サンプル映像には、特定客体が一定のポーズを取る場面が含まれていてよい。例えば、サンプル映像は、人物が特定の踊りを踊るダンス映像であるか、ゴルフのスイング姿勢などのように運動種目における特定姿勢を撮影した映像などであってよい。
【0056】
前処理段階(S110)では、収集した複数のサンプル映像を前処理することができる。前処理段階(S110)では、類似度判別モデル生成の効率を上げるための種々の方法を行うことができる。本発明の実施例によれば、前処理段階(S110)においてサンプル映像が同一時点に同一又は類似のポーズを表すように同期化させる作業を含むことができる。具体的に、基準映像と比較してサンプル映像のFPS(frame per second)を調節するか、基準映像とのオフセットタイム(offset time)などを計算する方式により、サンプル映像を同期化させることができる。実施例によっては、サンプル映像に共通に含まれる音楽や場面などを用いることができる。
【0057】
ポーズイメージ生成段階(S120)では、サンプル映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表された客体のポーズ(pose)に対応するポーズイメージを生成することができる。ここで、ポーズイメージは、フレームイメージに表された客体のポーズを、客体に含まれている特徴点、及び特徴点間の連結関係により単純化して生成したものであってよい。例えば、人の関節を示す部分が特徴点になってよく、ポーズイメージは、このような特徴点及び特徴点間の連結を1と、それ以外の部分を0と示したバイナリイメージ形態になってよい。又は、特徴点やその連結部分がどこであるかを確認するために、各連結部分によってラベリングされた値を使用するイメージであってもよい。
【0058】
ここで、フレームイメージそのままではなく、ポーズのみを示すポーズイメージを使用することによって、映像における照明やノイズなどの歪みに対して堅牢になり得る効果があり、イメージ形態のデータで学習を進行するので、体型が互いに異なる客体や角度などに対して堅牢な学習が可能である。
【0059】
一方、フレームイメージを用いてポーズイメージに変換する際には、公知のポーズ推定モデルなどを用いることができる。
【0060】
学習データセット生成段階(S130)では、ポーズイメージの類似又は非類似をそれぞれ設定し、三重対(triplet)の学習データセット(training dataset)を生成することができる。すなわち、任意のポーズイメージをアンカー(anchor)として設定した後、アンカーと類似するポーズイメージは類似サンプル(positive example)、非類似するポーズイメージは非類似サンプル(negative example)としてそれぞれ設定し、学習データセットを生成することができる。また、学習データセットは、それぞれのポーズイメージに対して、アンカーとの類似、非類似を決定し、類似サンプルと非類似サンプルとに区分されているので、学習データセットを用いて教師あり学習(supervised learning)を行うことが可能である。
【0061】
一方、学習データセットは、実施例によって種々の方法で生成可能である。
【0062】
図7(a)を参照すると、複数のサンプル映像のいずれか一つを選択映像として設定でき、選択映像のT時点に対応するポーズイメージをアンカーとして設定できる(S131a)。その後、選択映像以外のサンプル映像のT時点に対応するポーズイメージを、アンカーに対する類似サンプルとして設定できる(S132a)。一方、選択映像のうち、T時点以外の時点に対応するポーズイメージは、アンカーと異なるポーズを含むものであるから、それぞれのポーズイメージを非類似サンプルとして設定できる(S133a)。
【0063】
その後、T時点を選択映像の開始時点から終了時点まで順次に変更し、選択映像に含まれている全体ポーズイメージに対応する学習データセットを生成したり、或いは、予め定められた個数分だけ、任意に選択した時点に対する学習データセットを生成することができる。
【0064】
また、一つの選択映像に対する学習データセットの生成を完了した後には、選択映像を変更し、変更された選択映像に同じ方式を適用して学習データセットを生成することができる。この時、複数のサンプル映像全体を順次に選択映像として選択して学習データセットを生成するか、或いは、実施例によっては、設定個数分だけのサンプル映像を選択映像として選択して学習データセットを生成することができる。また、選択映像1個ずつ学習データセットを生成するのではなく、複数の選択映像から並列に学習データセットを生成することも可能である。
【0065】
図7(b)を参照すると、複数のサンプル映像のいずれか一つを選択映像として設定でき、選択映像のポーズイメージに対してそれぞれの3次元ポーズ座標を生成することができる(S131b)。すなわち、2次元のポーズイメージから3次元ポーズ座標を生成することが可能であり、この時、3次元ポーズ座標への変換は、公知の変換モデルを用いて容易に行うことができる。
【0066】
その後、選択映像のT時点に対応する3次元ポーズ座標を設定角度で投影(projection)して2次元イメージを生成でき、この時に生成した2次元イメージをアンカーとして設定できる(S132b)。また、T時点に対応する3次元ポーズ座標を設定角度以外の複数の角度で投影して2次元イメージをさらに生成でき、この時に生成された2次元イメージをそれぞれ類似サンプルとして設定できる(S133b)。
【0067】
一方、T時点以外の時点に対応する3次元ポーズ座標の場合、それぞれ異なるポーズを表すものと判別できる。したがって、それぞれの3次元ポーズ座標を設定角度で投影して生成した2次元イメージは非類似サンプルとして設定できる(S134b)。
【0068】
ここで、T時点を選択映像の開始時点から終了時点まで変更しながら学習データセットを生成することができる。また、一つの選択映像に対する学習データセットの生成が完了すると、複数のサンプル映像を順次に選択映像として選択し、それぞれの選択映像に対応する学習データを生成することができる。
【0069】
図示しないが、複数のサンプル映像のポーズイメージ出力時点と3次元ポーズ座標を同時に用いて学習データセットを生成することも可能である。
【0070】
この場合、まず、サンプル映像のいずれか一つを選択映像として設定し、選択映像のT時点に対応するポーズイメージをアンカーとして設定できる。
【0071】
その後、選択映像以外のサンプル映像のT時点に対応するポーズイメージを、アンカーに対する類似サンプルとして設定できる。また、T時点に対応するポーズイメージに対する3次元ポーズ座標を生成し、3次元ポーズ座標を複数の角度で投影する方式により類似サンプルをさらに追加することができる。
【0072】
非類似サンプルの場合、選択映像のうち、T時点以外の時点に対応するポーズイメージを、アンカーに対する非類似サンプルとして設定でき、その後、それぞれのポーズイメージの3次元ポーズ座標を生成し、これを複数の角度で投影する方式により非類似サンプルを追加することができる。
【0073】
ポーズ類似度判別モデル生成段階(S140)では、学習データセットで機械学習(machine learning)を行い、映像中の客体が取るポーズの類似度を判別するポーズ類似度判別モデルを生成することができる。すなわち、学習データセットをメトリックラーニングモデル(metric learning model)で機械学習でき、学習データセットに含まれているそれぞれのポーズイメージの類似度を、特徴マップ(feature map)上の距離を用いて示すことができる。
【0074】
このとき、三重対損失関数(triplet loss function)を用いて機械学習を行うことができる。具体的に、三重対損失関数は、
【0075】
【数2】
であり、ここで、f(*)は特徴マップ関数、δはマージン(margin)、xaiはアンカー、x+iは類似サンプル、x-iは非類似サンプルである。
【0076】
すなわち、三重対損失関数を用いて、特徴マップ上で類似サンプルとアンカー間の距離は近づき、非類似サンプルとアンカー間の距離は遠ざかるように学習させることができる。これにより、それぞれのポーズイメージ間の特徴マップにおける距離からイメージの類似度を判別することができる。
【0077】
図8は、本発明の一実施例に係るポーズ類似度判別装置を示すブロック図である。
【0078】
図8を参照すると、本発明の一実施例に係るポーズ類似度判別装置200は、前処理部210、ポーズイメージ生成部220及び演算部230を含むことができる。
【0079】
以下、
図8を参照して本発明の一実施例に係るポーズ類似度判別装置を説明する。
【0080】
前処理部210は、ユーザuの動作を撮影した対象映像を受信することができ、受信した対象映像を前処理して基準映像と同期化させることができる。実施例によっては、ポーズ類似度判別装置200にカメラなどの撮影装置cがさらに含まれてよく、撮影装置cを用いてユーザuの動作を撮影した対象映像を生成することができる。ここで、対象映像は、ユーザuのゴルフスイング姿勢を撮影した映像でよいが、これに限定されるものではなく、実施例によって、ユーザの様々なポーズを含むことができる。
【0081】
一方、対象映像がダンス映像である場合には、前処理部210が、ダンス映像に含まれている音楽の開始時点を基準にして同期化でき、対象映像がゴルフスイング姿勢である場合には、最初準備姿勢などを基準にして同期化させることができる。ただし、これに限定されず、様々な方式を用いて対象映像と基準映像を同期化させることができる。
【0082】
ポーズイメージ生成部220は、対象映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成することができる。対象映像は、複数のフレームイメージを含むことができ、それぞれのフレームイメージにはユーザuのポーズ(pose)が表されていてよい。
【0083】
ここで、ポーズイメージ生成部220は、フレームイメージからユーザuのポーズを認識してユーザポーズイメージを生成することができる。すなわち、フレームイメージに表されたユーザのポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示するユーザポーズイメージを生成することができる。
【0084】
さらに、実施例によっては、対象映像のフレームイメージ内に複数のユーザが存在する場合があり得る。この場合、ポーズイメージ生成部220は、それぞれのユーザを区別でき、それぞれのユーザに対応するユーザポーズイメージを個別に生成することができる。その後、外部の入力によって、複数のユーザのいずれか一つに対するポーズ類似度判別結果を提供することも可能である。
【0085】
また、実施例によっては、対象映像のフレームイメージ内に含まれているユーザの身体部位別に区別してユーザポーズイメージを生成することも可能である。例えば、ユーザの頭、腕、脚、胴などをそれぞれ分離し、それぞれに対するユーザポーズイメージを生成することができる。
【0086】
演算部230は、ユーザポーズイメージをポーズ類似度判別モデルに適用して、類似度を演算することができる。すなわち、ポーズ類似度判別モデルを用いて、ユーザポーズイメージと基準映像に対応する基準ポーズイメージを比較でき、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算することができる。
【0087】
ここで、基準映像は、ユーザが比較するために選択したものであってよい。例えば、対象映像がゴルフスイング姿勢を撮影したものであれば、ユーザが習おうとする有名ゴルファーのゴルフスイング姿勢などであってよい。ここで、ユーザは、複数の有名ゴルファーのうち、自身が所望するゴルファーのゴルフスイング姿勢を基準映像として選択できる。その後、自身のゴルフスイング姿勢と有名ゴルファーのゴルフスイング姿勢間の類似度を確認する方式により、自身の姿勢を矯正することができる。実施例によっては、それぞれのフレームイメージ別に類似度を提供したり、或いは、ユーザの身体部位別に類似度を提供することも可能である。ここで、ユーザの身体部位別類似度を提供する場合には、ユーザポーズイメージ生成時に、それぞれの身体部位別に区別して別途のポーズイメージを生成することができる。
【0088】
図9は、本発明の一実施例に係るポーズ類似度判別方法を示すフローチャートである。
【0089】
図9を参照すると、本発明の一実施例に係るポーズ類似度判別方法は、前処理段階(S210)、ポーズイメージ生成段階(S220)及び演算段階(S230)を含むことができる。
【0090】
以下、
図9を参照して本発明の一実施例に係るポーズ類似度判別方法を説明する。
【0091】
前処理段階(S210)では、ユーザの動作を撮影した対象映像を受信することができ、受信した対象映像を基準映像と同期化させることができる。例えば、対象映像は、ユーザのダンス又はゴルフスイング姿勢などを撮影した映像であってよい。
【0092】
ポーズイメージ生成段階(S220)では、対象映像からそれぞれのフレームイメージを抽出し、フレームイメージ内に表されたユーザのポーズに対応するユーザポーズイメージを生成することができる。対象映像は、複数のフレームイメージを含むことができ、それぞれのフレームイメージには、ユーザのポーズが表されていてよい。したがって、フレームイメージからユーザのポーズを認識してユーザポーズイメージを生成することが可能である。具体的に、フレームイメージに表されたユーザのポーズを、関節などの特徴点と、それぞれの特徴点間の連結関係で表示してユーザポーズイメージを生成することができる。
【0093】
さらに、実施例によっては、対象映像のフレームイメージ内に複数のユーザが存在する場合があり得る。この場合、それぞれのユーザを区別してユーザ別ユーザポーズイメージを生成することができる。その後、外部の入力によって、複数のユーザのいずれか一つに対するポーズ類似度判別結果を提供することができる。
【0094】
演算段階(S230)では、ユーザポーズイメージをポーズ類似度判別モデルに適用して類似度を演算することができる。すなわち、ポーズ類似度判別モデルを用いて、ユーザポーズイメージと基準映像に対応する基準ポーズイメージとを比較でき、それぞれのユーザポーズイメージと基準ポーズイメージ間の類似度を演算することができる。
【0095】
ここで、基準映像は、ユーザが自身の対象映像と比較するために選択したものであり、対象映像がゴルフスイング姿勢を撮影したものである場合、基準映像は、ユーザが習おうとする有名ゴルファーのゴルフスイング姿勢であってよい。ユーザは、有名ゴルファーのうち、自身が所望するゴルファーのゴルフスイング姿勢を基準映像として選択でき、自身のゴルフスイング姿勢と有名ゴルファーのゴルフスイング姿勢間の類似度を確認する方式で自身の姿勢を矯正することができる。また、本発明の一実施例によれば、現在の姿勢から、基準映像の姿勢とより類似となる方向にポーズの動きを提案してガイドするUI(User Interface)をさらに提供することができる。
【0096】
実施例によっては、対象映像のフレームイメージ別に基準映像との類似度を提供することができ、対象映像に含まれているユーザの身体部位別に類似度を提供することも可能である。
【0097】
前述した本発明は、プログラムの記録された媒体にコンピュータ可読コードとして具現することが可能である。コンピュータ可読媒体は、コンピュータで実行可能なプログラムを継続保存するか、実行又はダウンロードのために臨時保存するものであってよい。また、媒体は、単一又は数個のハードウェアが結合した形態の様々な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであってもよい。媒体の例示は、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD-ROM及びDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、及びROM、RAM、フラッシュメモリーなどを含め、プログラム命令語が保存されるように構成されたものであってよい。また、他の媒体の例示として、アプリケーションを流通するアプリケーションストアやその他様々なソフトウェアを供給又は流通するサイト、サーバーなどで管理する記録媒体又は保存媒体も挙げることができる。したがって、上述の詳細な説明はいずれの面においても制限的に解釈されてはならず、例示的なものとして考慮されるべきである。本発明の範囲は、添付する請求項の合理的解析によって決定されるべきであり、本発明の等価的範囲内における変更はいずれも本発明の範囲に含まれる。
【0098】
本発明は、前述の実施例及び添付の図面によって限定されるものではない。本発明の属する技術の分野における通常の知識を有する者にとって、本発明の技術的思想から逸脱しない範囲内で、本発明に係る構成要素を置換、変形及び変更できるということは明らかであろう。