(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-03
(45)【発行日】2024-10-11
(54)【発明の名称】仮想試着画像を提供するためのコンピュータ装置、及びその方法、及びプログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20241004BHJP
H04N 23/60 20230101ALI20241004BHJP
H04N 23/63 20230101ALI20241004BHJP
【FI】
G06T1/00 500A
H04N23/60 300
H04N23/63
(21)【出願番号】P 2023086482
(22)【出願日】2023-05-25
【審査請求日】2023-05-25
(31)【優先権主張番号】10-2022-0064688
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】313011434
【氏名又は名称】エヌエイチエヌ コーポレーション
【住所又は居所原語表記】(Sampyeong-dong),16,Daewangpangyo-ro 645 beon-gil,Bundang-gu,Seongnam-si,Gyeonggi-do Republic of Korea
(74)【代理人】
【識別番号】110000408
【氏名又は名称】弁理士法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】イ, ヒョク ジェ
(72)【発明者】
【氏名】ク, ビョム ヒョク
(72)【発明者】
【氏名】イ, ロク キュ
(72)【発明者】
【氏名】パク, ゴン ハン
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2013-190974(JP,A)
【文献】特開2018-073091(JP,A)
【文献】米国特許出願公開第2013/0246227(US,A1)
【文献】川口 侑希子,橋本 直己,バーチャル試着を手軽に実現するDress Capture,映像情報メディア学会技術報告,日本,映像情報メディア学会,2013年02月09日,Vol.37 No.7,p.47-p.50
【文献】Michael Snower; Asim Kadav; Farley Lai; Hans Peter Graf,15 Keypoints Is All You Need,2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2020年06月13日,p.6737-p.6747,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9157545
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
H04N 23/60
H04N 23/63
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
仮想試着画像を提供するためのコンピュータ装置であって、
カメラと連結されるカメラインターフェースと、
ディスプレイ装置と連結されるディスプレイインターフェースと、
前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、
前記プロセッサは、
前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、
前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、
前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、
前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、
前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記仮想試着画像を視覚化するように構成されることを
含み、
前記プロセッサは、
前記ユーザオブジェクトに前記服オブジェクトを合成することによって第1合成画像を生成し、
前記第1合成画像がオーバーラップする背景画像および前記第1合成画像を合成することによって第2合成画像を生成し、
前記第2合成画像を前記仮想試着画像として提供し、
前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行うことによって前記第1合成画像を生成し、
前記背景画像および前記背景画像とオーバーラップする前記第1合成画像に対する前記画像調和を行って前記第2合成画像を生成するように構成されることを特徴とするコンピュータ装置。
【請求項2】
前記ポーズ推定データは、前記ユーザオブジェクトの身体部分を表す第1キーポイントを含むことを特徴とする請求項1に記載のコンピュータ装置。
【請求項3】
前記基準ポーズに対応する第2キーポイントを格納するように構成される格納媒体をさらに含み、
前記プロセッサは、前記第1キーポイントが前記第2キーポイントにマッチするか否かを判別することによって前記ポーズ推定データが前記基準ポーズにマッチするか否かを判別するように構成され、
前記プロセッサは、第1ポーズに対応する第1グループのキーポイントと第2ポーズに対応する第2グループのキーポイントを受信すると、前記第1ポーズの前記キーポイントと前記第2ポーズの前記キーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを含み、
前記プロセッサは、前記第1キーポイントと前記第2キーポイントを前記ニューラルネットワークに入力して前記ニューラルネットワークから出力されるデータを受信し、前記受信されたデータに基づいて前記第1キーポイントが前記第2キーポイントにマッチするか否かを判別するように構成されることを特徴とする請求項2に記載のコンピュータ装置。
【請求項4】
前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和(image harmonization)を行って前記仮想試着画像を生成するように構成されることを特徴とする請求項1に記載のコンピュータ装置。
【請求項5】
仮想試着画像を提供するための方法であって、
カメラを利用してユーザを撮影して入力画像を生成し、
前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、
前記ポーズ推定データが基準ポーズにマッチするか否かを判別し、
前記判別の結果に応じて前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、
ディスプレイ装置を利用して前記仮想試着画像を視覚化
し、
前記仮想試着画像を生成することは、
前記ユーザオブジェクトに前記服オブジェクトを合成することによって第1合成画像を生成し、
前記第1合成画像がオーバーラップする背景画像および前記第1合成画像を合成することによって第2合成画像を生成すること、を含み、
前記第2合成画像は、前記仮想試着画像として提供されること、を含むことを特徴とする方法。
【請求項6】
複数の背景画像を視覚化してユーザエクスペリエンスを提供するためのコンピュータ装置であって、
カメラと連結されるカメラインターフェースと、
ディスプレイ装置と連結されるディスプレイインターフェースと、
前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、
前記プロセッサは、
前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、
前記入力画像の中から選択された入力画像に含まれるユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする服オブジェクトに対する画像調和を行って第1合成画像を生成し、
前記複数の背景画像のうちの1つの背景画像および前記背景画像とオーバーラップする前記第1合成画像に対する前記画像調和を行って第2合成画像を生成し、
前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記第2合成画像を表示するように構成されることを特徴とするコンピュータ装置。
【請求項7】
前記プロセッサは、前記ユーザオブジェクトおよび前記服オブジェクトを前記画像調和を行うように学習された第1畳み込みニューラルネットワーク(Convolutional Neural Network)を介して処理することによって前記服オブジェクトを前記ユーザオブジェクトと関連付けて変換するように構成され、
前記第1畳み込みニューラルネットワークは、少なくとも1つの第1畳み込みエンコーダ層および少なくとも1つの第1畳み込みデコーダ層を含み、
前記第1合成画像は、前記ユーザオブジェクトの少なくとも一部および前記ユーザオブジェクトとオーバーラップする前記変換された服オブジェクトを含むことを特徴とする請求項
6に記載のコンピュータ装置。
【請求項8】
前記プロセッサは、前記背景画像および前記第1合成画像を前記画像調和を行うように学習された第2畳み込みニューラルネットワークを介して処理することによって前記第1合成画像を前記背景画像と関連付けて変換するように構成され、
前記第2畳み込みニューラルネットワークは、少なくとも1つの第2畳み込みエンコーダ層および少なくとも1つの第2畳み込みデコーダ層を含み、
前記第2合成画像は、前記背景画像の少なくとも一部および前記背景画像とオーバーラップする前記変換された第1合成画像を含むことを特徴とする請求項
7に記載のコンピュータ装置。
【請求項9】
請求項
5に記載の方法を、プロセッサに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像を生成する装置およびシステムに関し、より具体的には、仮想試着画像を提供するためのコンピュータ装置、それを含むシステム、方法、及びプログラムに関する。
【背景技術】
【0002】
スマートフォン、タブレットPC、PDA(Personal Digital Assistant)、ノートパソコンなどのようなユーザ端末の利用が大衆化し、情報処理技術の発達につれて、ユーザ端末を利用して画像および/または動画を撮影し、撮影した画像および/または動画を編集する技術に対する研究が活発に進行している傾向である。このような画像編集技術は、オンラインショッピングモールなどで扱う服を仮想的に試着する機能を提供する仮想試着サービスにも有用に活用できる。このように、服を仮想的に試着するサービスは、販売者および消費者のニーズに非常に符合するサービスであり、したがって活発な使用が期待されている。
【0003】
ただし、上記の内容は、本発明の技術的思想に対する背景技術の理解を助けるためのものであり、したがってそれは本発明の技術分野の当業者に知られている先行技術に該当する内容として理解されてはならない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施形態は、自然な試着姿を表現する仮想試着画像を視覚化するための装置およびそれを含むシステムを提供する。例えば、本発明の実施形態による装置は、シミュレーションスポーツ(スクリーンスポーツともいう)を楽しむユーザを撮影し、撮影されたユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成し、生成された仮想試着画像をユーザが見ることができるように視覚化する。
【課題を解決するための手段】
【0005】
本発明の実施形態による仮想試着画像を提供するためのコンピュータ装置は、カメラと連結されるカメラインターフェースと、ディスプレイ装置と連結されるディスプレイインターフェースと、前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、前記プロセッサは、前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記仮想試着画像を視覚化するように構成される。
【0006】
前記ポーズ推定データは、前記ユーザオブジェクトの身体部分を表す第1キーポイントを含むことができる。
【0007】
前記コンピュータ装置は、前記基準ポーズに対応する第2キーポイントを格納するように構成される格納媒体をさらに含んでもよく、前記プロセッサは、前記第1キーポイントが前記第2キーポイントにマッチするか否かを判別することによって前記ポーズ推定データが前記基準ポーズにマッチするか否かを判別するように構成されることができる。
【0008】
前記プロセッサは、第1ポーズに対応する第1グループのキーポイントと第2ポーズに対応する第2グループのキーポイントを受信すると、前記第1ポーズの前記キーポイントと前記第2ポーズの前記キーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを含むことができる。前記プロセッサは、前記第1キーポイントと前記第2キーポイントを前記ニューラルネットワークに入力して前記ニューラルネットワークから出力されるデータを受信し、前記受信されたデータに基づいて前記第1キーポイントが前記第2キーポイントにマッチするか否かを判別するように構成されることができる。
【0009】
前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行って前記仮想試着画像を生成するように構成されることができる。
【0010】
前記プロセッサは、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第1合成画像を生成し、前記第1合成画像がオーバーラップする背景画像および前記第1合成画像を合成することによって第2合成画像を生成し、前記第2合成画像を前記仮想試着画像として提供するように構成されることができる。
【0011】
前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行うことによって前記第1合成画像を生成し、前記背景画像および前記背景画像とオーバーラップする前記第1合成画像に対する前記画像調和を行って前記第2合成画像を生成するように構成されることができる。
【0012】
前記コンピュータ装置は、ネットワークに連結される通信機をさらに含み、前記プロセッサは、前記通信機を介してクライアントサーバから前記服オブジェクトを受信するように構成されることができる。
【0013】
本発明の他の観点は、仮想試着画像提供システムに関する。本発明の実施形態による仮想試着画像提供システムは、ユーザを撮影するように設置されたカメラと、画像を視覚化するように構成されるディスプレイ装置と、前記カメラおよび前記ディスプレイ装置を制御するように構成されるコンピュータ装置と、を含み、前記コンピュータ装置は、前記カメラで撮影された入力画像を前記カメラから受信し、前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、前記ユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成し、前記ディスプレイ装置を介して前記仮想試着画像を視覚化するように構成される。
【0014】
前記コンピュータ装置は、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第1合成画像を生成し、前記第1合成画像がオーバーラップする背景画像および前記第1合成画像を合成することによって第2合成画像を生成し、前記第2合成画像を前記仮想試着画像として提供するように構成されることができる。
【0015】
本発明のさらに他の観点は、仮想試着画像を提供するための方法に関する。前記方法は、カメラを利用してユーザを撮影して入力画像を生成し、前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別し、前記判別の結果に応じて前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、ディスプレイ装置を利用して前記仮想試着画像を視覚化すること、を含む。
【0016】
前記仮想試着画像を生成することは、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第1合成画像を生成し、前記第1合成画像がオーバーラップする背景画像および前記第1合成画像を合成することによって第2合成画像を生成すること、を含むことができ、前記第2合成画像は、前記仮想試着画像として提供されることができる。
【0017】
本発明のさらに他の観点は、複数の背景画像を視覚化してユーザエクスペリエンスを提供するためのコンピュータ装置に関する。前記コンピュータ装置は、カメラと連結されるカメラインターフェースと、ディスプレイ装置と連結されるディスプレイインターフェースと、前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、前記プロセッサは、前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、前記入力画像の中から選択された入力画像に含まれるユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする服オブジェクトに対する画像調和を行って第1合成画像を生成し、前記複数の背景画像のうちの1つの背景画像および前記背景画像とオーバーラップする前記第1合成画像に対する前記画像調和を行って第2合成画像を生成し、前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記第2合成画像を表示するように構成される。
【0018】
前記プロセッサは、前記ユーザオブジェクトおよび前記服オブジェクトを、前記画像調和を行うように学習された第1畳み込みニューラルネットワークを介して処理することによって、前記服オブジェクトを前記ユーザオブジェクトと関連付けて変換するように構成されることができ、前記第1畳み込みニューラルネットワークは、少なくとも1つの第1畳み込みエンコーダ層および少なくとも1つの第1畳み込みデコーダ層を含むことができ、前記第1合成画像は、前記ユーザオブジェクトの少なくとも一部および前記ユーザオブジェクトとオーバーラップする前記変換された服オブジェクトを含むことができる。
【0019】
前記プロセッサは、前記背景画像および前記第1合成画像を前記画像調和を行うように学習された第2畳み込みニューラルネットワークを介して処理することによって、前記第1合成画像を前記背景画像と関連付けて変換するように構成されることができ、前記第2畳み込みニューラルネットワークは、少なくとも1つの第2畳み込みエンコーダ層および少なくとも1つの第2畳み込みデコーダ層を含むことができ、前記第2合成画像は、前記背景画像の少なくとも一部および前記背景画像とオーバーラップする前記変換された第1合成画像を含むことができる。
【0020】
前記プロセッサは、前記入力画像のうちの1つから得られるユーザオブジェクトを処理して前記得られたユーザオブジェクトと関連付けられたポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して、前記入力画像のうちの前記1つを前記選択された入力画像として決定するように構成されることができる。
【発明の効果】
【0021】
本発明の実施形態によれば、自然な試着姿を表現する仮想試着画像を視覚化するための装置およびそれを含むシステムが提供される。
【図面の簡単な説明】
【0022】
【
図1】シミュレーションスポーツ提供システムを示すブロック図である。
【
図2】
図1のシミュレーションスポーツ提供システムの実現例を示す図である。
【
図3】
図1の画像提供装置の実施形態を示すブロック図である。
【
図4】
図3の仮想試着画像生成器の実施形態を示すブロック図である。
【
図5】ユーザオブジェクトから生成されるポーズ推定データを概念的に示す図である。
【
図6】
図4のユーザオブジェクト選択部の実施形態を示すブロック図である。
【
図7】
図4のユーザオブジェクト選択部の他の実施形態を示すブロック図である。
【
図8】
図4の仮想試着画像生成部の実施形態を示すブロック図である。
【
図9】
図8の畳み込みニューラルネットワークの実施形態を示すブロック図である。
【
図10】
図4の仮想試着画像生成部の他の実施形態を示すブロック図である。
【
図11】
図10の仮想試着画像生成部によって生成される第1および第2合成画像を例示的に示す図である。
【
図12】本発明の実施形態による仮想試着画像を提供する方法を示すフローチャートである。
【
図13】
図12のステップS150の実施形態を示すフローチャートである。
【
図14】
図3の画像提供装置を実現するためのコンピュータ装置の実施形態を示すブロック図である。
【発明を実施するための形態】
【0023】
以下、本発明による好ましい実施形態を添付の図面を参照して詳細に説明する。以下の説明では、本発明による動作を理解するために必要な部分のみを説明し、それ以外の部分の説明は、本発明の要旨を不明瞭にしないために省略されることに留意されたい。また、本発明は、ここで説明する実施形態に限定されることなく他の形態で具体化されることもできる。ただし、ここで説明する実施形態は、本発明の属する技術分野において通常の知識を有する者に、本発明の技術的思想を容易に実施できるほど詳細に説明するために提供されるものである。
【0024】
本明細書の全体において、ある部分が他の部分と「連結」されているというとき、これは「直接的に連結」されている場合だけでなく、その中間に他の素子を挟んで「間接的に連結」されている場合も含む。本明細書で使用された用語は、特定の実施形態を説明するためのものであり、本発明を限定するためのものではない。本明細書の全体において、ある部分がある構成要素を「含む」というとき、これは特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含み得ることを意味する。「X、Y、およびZのうちの少なくともいずれか1つ」、そして「X、Y、およびZで構成されるグループから選択される少なくともいずれか1つ」は、Xが1つ、Yが1つ、Zが1つ、又はX、Y、およびZのうちの2つ或いはそれ以上のある組み合わせ(例えば、XYZ、XYY、YZ、ZZ)と解釈することができる。ここで、「および/または」は、該当構成のうちの1つ又はそれ以上のすべての組み合わせを含む。
【0025】
図1は、シミュレーションスポーツ提供システムを示すブロック図である。
【0026】
図1を参照すると、シミュレーションスポーツ提供システム100は、画像提供装置110、ディスプレイ装置120、および少なくとも1つのカメラ130を含むことができる。画像提供装置110は、複数の背景画像BIMGSを格納するように構成される格納媒体115を含み、複数の背景画像BIMGSに基づいてシミュレーションスポーツに対する仮想環境を提供するように構成されることができる。例えば、画像提供装置110は、複数の背景画像BIMGSを、ディスプレイ装置120を介して視覚化することによって、ユーザが仮想環境を体験できるようにする。複数の背景画像BIMGSは、2次元画像だけでなく3次元画像を含んでもよい。
【0027】
実施形態において、ディスプレイ装置120は、発光ダイオード(Light Emitting Diode)装置、有機発光ダイオード(Organic Light Emitting Diode)装置、液晶表示(Liquid Crystal Display)装置、ビームプロジェクタ及び映像プロジェクタのようなプロジェクタ(Projector)などを含むことができる。ディスプレイ装置120がプロジェクタで実現される場合、シミュレーションスポーツ提供システム100は、プロジェクタが投影(project)する画像が映し出されて視覚化するための表面を提供するプロジェクションスクリーン(projection screen)をさらに含んでもよい。
【0028】
画像提供装置110は、カメラ130に連結されることができる。画像提供装置110は、カメラ130で撮影されたユーザの画像を受信し、受信された画像をディスプレイ装置120に表示することができる。ここで、画像提供装置110は、画像だけでなく複数の画像を含む映像をディスプレイ装置120に表示することができるが、説明の便宜のために、以下では画像を表示するものとして説明する。しかしながら、これは例示的なものであり、本発明の実施形態は、映像をディスプレイ装置120に表示することを含む。
【0029】
実施形態において、画像提供装置110は、ネットワークを介して管理者サーバ20に連結されることができる。管理者サーバ20は、そのデータベースに複数の背景画像BIMGSを格納するように構成される。画像提供装置110は、ネットワーク10を介して管理者サーバ20にアクセスして複数の背景画像BIMGSを受信し、受信された複数の背景画像BIMGSを格納媒体115に格納することができる。画像提供装置110は、管理者サーバ20に定期的にアクセスして格納媒体115に格納された複数の背景画像BIMGSを更新することができる。
【0030】
図2は、
図1のシミュレーションスポーツ提供システムの実現例を示す図である。
【0031】
図2を参照すると、シミュレーションスポーツ提供システム200は、画像提供装置210、プロジェクタ220、プロジェクタ220に対応するプロジェクションスクリーン225、および1つまたはそれ以上のカメラ230_1、230_2を含むことができる。実施形態において、画像提供装置210は、有線および/または無線ネットワークを介してプロジェクタ220および1つまたはそれ以上のカメラ230_1、230_2と通信することができる。
【0032】
画像提供装置210は、
図2に示すように、複数の背景画像BIMGS(
図1参照)のうちの少なくとも一部をプロジェクタ220を介してプロジェクションスクリーン225に表示することができる。プロジェクタ220は、
図1のディスプレイ装置120として提供される。画像提供装置210は、追加のディスプレイ装置を含むキオスク(kiosk)装置として実現されてもよい。
【0033】
1つまたはそれ以上のカメラ230_1、230_2は、ユーザUSRの位置する空間を指向し、これによりユーザUSRおよび/またはユーザUSRの動きを撮影した画像を画像提供装置210に提供するように構成されることができる。例えば、第1カメラ230_1は、ユーザUSRの正面を撮影するように設置され、第2カメラ230_2は、ユーザUSRの側面を撮影するように設置されることができる。画像提供装置210は、撮影されたユーザUSRの画像および/または複数の背景画像BIMGSをプロジェクタ220を介してプロジェクションスクリーン225に視覚化することができる。
【0034】
実施形態において、シミュレーションスポーツ提供システム200は、ユーザUSRの打つ、投げるなどのプレーに応じたボール(例えば、ゴルフボール)の動きをセンシングするように構成される、モーションセンサをさらに含むことができる。画像提供装置210は、モーションセンサを介してボールの動きに対する情報を受信し、ボールの動きを複数の背景画像BIMGSと共にプロジェクタ220を介してプロジェクションスクリーン225に視覚化することができる。
【0035】
画像提供装置210は、1つまたはそれ以上のカメラ230_1、230_2で撮影された画像からユーザUSRのオブジェクト(以下、ユーザオブジェクト)を抽出し、ユーザオブジェクトにトップス、ボトムス、帽子などのような服オブジェクトを合成(synthesis)して仮想試着画像を生成し、生成された仮想試着画像をプロジェクタ220を介して視覚化することができる。服オブジェクトは、第3サーバ(例えば、ショッピングモールサーバ)から提供されることができ、該当第3サーバは、ユーザの性別、ユーザの年齢、月(month)、季節(season)など様々な要因に応じて異なる服オブジェクトを提供することができる。
【0036】
このように、画像提供装置210は、シミュレーションスポーツ提供システム200に既に備えられている装置、例えばプロジェクタ220、プロジェクションスクリーン225、1つまたはそれ以上のカメラ230_1、230_2などを利用して仮想試着画像を提供することができる。このような場合、ユーザUSRは、シミュレーションスポーツを楽しみながら仮想試着画像を通じて該当服が自分に似合うかどうかを確認することが可能であり、これによってユーザUSRの購買意欲を掻き立てることができる。このような画像提供装置210について、以下、
図3を参照してさらに詳細に説明する。
【0037】
図3は、
図1の画像提供装置の実施形態を示すブロック図である。
【0038】
図3を参照すると、画像提供装置300は、画像提供器310、ディスプレイインターフェース(InterFace;I/F)320、カメラインターフェース330、通信インターフェース340、通信機345、格納媒体インターフェース350、及び格納媒体355を含むことができる。
【0039】
画像提供器310は、画像提供装置300の諸動作を制御するように構成される。画像提供器310は、ディスプレイインターフェース320を介して
図1のディスプレイ装置120と通信し、カメラインターフェース330を介して
図1のカメラ130と通信することができる。画像提供器310は、格納媒体355に格納された複数の背景画像BIMGSを、ディスプレイ装置120を介して表示することができる。また、画像提供器310は、カメラ130で撮影されたユーザの画像を受信し、受信した画像のユーザオブジェクトを複数の背景画像BIMGSのうちの少なくとも一部と共にディスプレイ装置120に表示することができる。
【0040】
ディスプレイインターフェース320は、ディスプレイ装置120と画像提供器310との間をインターフェースすることができる。ディスプレイインターフェース320は、画像提供器310からのデータ(例えば、画像)に従ってディスプレイ装置120を制御して、ディスプレイ装置120が該当データを視覚化するようにする。
【0041】
カメラインターフェース330は、カメラ130と画像提供器310との間をインターフェースすることができる。カメラインターフェース330は、画像提供器310からの制御信号および/またはデータをカメラ130に伝達することができ、カメラ130からのデータ(例えば画像)を画像提供器310に伝達することができる。
【0042】
通信インターフェース340は、通信機345と画像提供器310との間をインターフェースすることができる。通信インターフェース340は、画像提供器310の制御に応じて、通信機345を介してネットワーク10(
図1参照)上の管理者サーバ20にアクセスすることができ、ネットワーク10上の管理者サーバ20からデータ(例えば、BIMGS)を受信して画像提供器310に伝達することができる。通信機345は、ネットワーク10に接続して外部の管理者サーバ20のようなネットワーク10上のサーバおよび/または装置と通信を行うように構成される。
【0043】
格納媒体インターフェース350は、格納媒体355と画像提供器310との間をインターフェースすることができる。格納媒体インターフェース350は、画像提供器310の制御に応じて格納媒体355にデータ(例えば、BIMGS)を書き込み、画像提供器310の制御に応じて格納媒体355に格納されたデータを読み込んで画像提供器310に提供することができる。格納媒体355は、データを格納するように構成され、不揮発性格納媒体のうちの少なくとも1つを含むことができる。
【0044】
本発明の実施形態によれば、画像提供器310は、ユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成する仮想試着画像生成器315を含むことができる。画像提供器310は、生成された仮想試着画像をディスプレイ装置120に表示して、ユーザにトップス、ボトムス、帽子など服に対する仮想試着体験を提供することができる。
【0045】
図4は、
図3の仮想試着画像生成器の実施形態を示すブロック図である。
図5は、ユーザオブジェクトから生成されるポーズ推定データを概念的に示す図である。
図6は、
図4のユーザオブジェクト選択部の実施形態を示すブロック図である。
【0046】
図3および
図4を参照すると、仮想試着画像生成器400は、ポーズ推定部410、ユーザオブジェクト選択部420、および仮想試着画像生成部430を含むことができる。
【0047】
ポーズ推定部410は、ユーザオブジェクトUOBJを受信する。ユーザオブジェクトUOBJは、カメラ130がユーザを撮影して生成される入力画像のうちの1つに含まれるユーザオブジェクトUOBJである。
図4では、説明の便宜のために、ポーズ推定部410がユーザオブジェクトUOBJを受信すると示されているが、ポーズ推定部410は、カメラ130によって生成された入力画像のうちのいずれか1つを受信し、受信された入力画像からユーザオブジェクトUOBJを抽出するように構成されてもよい。
【0048】
ポーズ推定部410は、ユーザオブジェクトUOBJを処理してユーザオブジェクトUOBJのポーズ(pose)を推定して、ポーズ推定データPEDを生成するように構成される。
【0049】
ポーズ推定データPEDは、ユーザオブジェクトUOBJのポーズを表す様々なタイプのデータを含むことができる。実施形態において、ポーズ推定データPEDは、ユーザオブジェクトUOBJの身体の主要なキーポイント(以下、ユーザキーポイント)の座標および/またはベクトルを含むことができる。
図5を参照すると、ポーズ推定部410は、ユーザオブジェクトUOBJの顔領域(例えば、目、鼻、耳および首領域など)、肩領域、肘領域、手首領域、ヒップ(hip)領域、膝領域、および足首領域などを表すユーザキーポイントUKPを感知し、感知されたユーザキーポイントUKPをポーズ推定データPEDとして出力することができる。ポーズ推定部410は、身体のキーポイントを感知するための、当該技術分野において知られている様々なアルゴリズムを採用することができる。
【0050】
実施形態において、ポーズ推定部410は、ディープラーニング(deep learning)に基づいて人オブジェクトのキーポイントを感知するように学習されたニューラルネットワーク(あるいは人工知能モデル)を含み、学習されたニューラルネットワークを利用してユーザオブジェクトUOBJからユーザキーポイントUKPを推定することができる。
【0051】
再び
図4を参照すると、ユーザオブジェクト選択部420は、ポーズ推定部410からポーズ推定データPEDを受信することができる。また、ユーザオブジェクト選択部420は、格納媒体355から基準ポーズデータRPDを読み込むことができる。ユーザオブジェクト選択部420は、ポーズ推定データPEDが基準ポーズデータRPDとマッチするか否かを判別して、イネーブル信号ESを生成するように構成されることができる。
【0052】
基準ポーズデータRPDは、ポーズ推定データPEDと比較され得るタイプのデータを含む。
図6を参照すると、基準ポーズデータRPDは、所望のポーズを有する基準オブジェクトROBJの身体の主要なキーポイント(以下、基準キーポイント)の座標および/またはベクトルを含むことができる。基準キーポイントRKPは、基準オブジェクトROBJの顔領域(例えば、目、鼻、耳および首領域など)、肩領域、肘領域、手首領域、ヒップ領域、膝領域、および足首領域などを表すことができ、基準キーポイントRKPは、基準ポーズデータRPDとして提供されることができる。
【0053】
実施形態において、基準オブジェクトROBJは、ポーズ推定部410によって処理されて基準キーポイントRKPを生成することができ、基準キーポイントRKPは、
図3の格納媒体355に格納されることができる。他の実施形態において、基準キーポイントRKPは、ネットワーク10(
図1参照)上の管理者サーバ20(
図1参照)あるいは第3サーバから提供されて格納媒体355に格納されることができる。
【0054】
実施形態において、基準ポーズデータRPDあるいは基準キーポイントRKPは、身体間のオーバーラップの少ないポーズ、複数の広告および/またはショッピングモールのモデルの写真で頻度高く現れるポーズ、あるいは服オブジェクトCOBJ(
図4参照)の形状にオーバーラップされるに適したポーズを表すことができる。
【0055】
ユーザオブジェクト選択部420は、ポーズ推定データPEDとしてユーザキーポイントUKPを受信し、基準ポーズデータRPDとして基準キーポイントRKPを受信することができる。ユーザオブジェクト選択部420は、ユーザキーポイントUKPが基準キーポイントRKPにマッチすると、イネーブル信号ESを生成する。実施形態において、ユーザキーポイントUKPのそれぞれと基準キーポイントRKPのそれぞれの距離の平均がしきい値以下であると、イネーブル信号ESが生成されることができる。
【0056】
再び
図4を参照すると、仮想試着画像生成部430は、ユーザオブジェクトUOBJおよび服オブジェクトCOBJを受信することができる。画像提供器310(
図3参照)は、通信機345を介してネットワーク10上の第3サーバ(例えば、ショッピングモールサーバ)から服オブジェクトCOBJを受信することができ、該当第3サーバは、ユーザの性別、ユーザの年齢、月、季節など様々な要因に応じて服オブジェクトCOBJを提供することができる。
【0057】
仮想試着画像生成部430は、イネーブル信号ESが生成されると、ユーザオブジェクトUOBJに服オブジェクトCOBJをオーバーラップおよび合成して仮想試着画像VTIMGを生成するように構成される。
【0058】
当該技術分野において知られている様々な方式によって、ユーザオブジェクトUOBJに服オブジェクトCOBJがオーバーラップする領域が決定されることができる。実施形態において、仮想試着画像生成部430は、ユーザオブジェクトUOBJを互いに異なるラベル値に対応する複数の領域に分類するように構成される領域分類マップ(Clothing Guide Map)生成器を含むことができる。このような場合、領域分類マップ生成器は、ユーザオブジェクトUOBJおよび服オブジェクトCOBJを入力すると、ユーザオブジェクトUOBJの複数の分類された領域のうち、服オブジェクトCOBJに対応する試着領域(例えば、上体)を表す情報、例えば該当ラベルをさらに出力することができる。これにより、ユーザオブジェクトUOBJ中の服オブジェクトCOBJのオーバーラップする領域が選択されることができる。
【0059】
実施形態において、仮想試着画像生成部430は、服オブジェクトCOBJにオーバーラップするユーザオブジェクトUOBJの幾何学的形態を分析し、分析された幾何学的形態に従って服オブジェクトCOBJの形態を変形するように構成されることができる。その後、仮想試着画像生成部430は、ユーザオブジェクトUOBJに、変形された服オブジェクトCOBJをオーバーラップすることができる。このように、服オブジェクトCOBJの幾何学的形態を変形してユーザオブジェクトUOBJに合成することは、本発明の実施形態に含まれる。
【0060】
実施形態において、仮想試着画像生成部430は、仮想試着の分野で知られている様々な合成アルゴリズムのうちの少なくとも1つを採用することができる。
【0061】
画像提供器310は、仮想試着画像VTIMGをディスプレイ装置120(
図3参照)に表示して、服オブジェクトCOBJに対する仮想試着のユーザエクスペリエンスをユーザに提供することができる。シミュレーションスポーツにおいて、ユーザは、動きに応じて様々なポーズを取れることを考慮すると、ポーズ推定データPEDが基準ポーズデータRPDにマッチするか否かを判別し、判別結果に応じて該当ユーザオブジェクトUOBJに服オブジェクトCOBJを合成することで、高品質の仮想試着画像VTIMGを提供することができる。例えば、仮想試着画像VTIMGは、自然な試着姿を表現することができる。
【0062】
図7は、
図4のユーザオブジェクト選択部の他の実施形態を示すブロック図である。
【0063】
図7を参照すると、ユーザオブジェクト選択部500は、ニューラルネットワーク510(又は、人工知能モデル)および人工知能プロセッサ520を含むことができる。ニューラルネットワーク510は、1つまたはそれ以上のニューラルネットワーク層L1、L2、...、L_m-1、L_mを含むことができ、ニューラルネットワーク層L1、L2、...、L_m-1、L_mは、ユーザキーポイントUKPおよび基準キーポイントRKPを入力すると、それらがマッチするか否かによってイネーブル信号ESを提供するように事前に学習されることができる。例えば、ニューラルネットワーク層L1、L2、...、L_m-1、L_mは、ユーザキーポイントUKPおよび基準キーポイントRKPから特徴を抽出するためのエンコード層、そして抽出された特徴が互いにマッチするか否かを判別してイネーブル信号ESを出力するためのデコード層を含むことができる。
【0064】
人工知能プロセッサ520は、ニューラルネットワーク510を制御するように構成される。人工知能プロセッサ520は、データ学習部521およびデータ処理部522を含むことができる。データ学習部521は、第1グループのキーポイント(例えば、第1ポーズのキーポイント)、第2グループのキーポイント(例えば、第2ポーズのキーポイント)、およびそれらに対応する結果値(すなわち、イネーブル信号)を含む学習データを利用して、第1グループのキーポイントと第2グループのキーポイントを入力すると、イネーブル信号ESを出力するようにニューラルネットワーク510を学習させることができる。このような学習データは、ネットワーク10(
図1参照)を介して任意のデータベースサーバから取得されることができる。データ処理部522は、学習されたニューラルネットワーク510にユーザキーポイントUKPおよび基準キーポイントRKPを入力し、それらがマッチすると結果値としてイネーブル信号ESを取得することができる。取得されたイネーブル信号ESは、仮想試着画像生成部430(
図4参照)に提供される。このように、ユーザオブジェクト選択部500は、学習されたニューラルネットワークを利用して、ユーザキーポイントUKPが基準キーポイントRKPにマッチするか否かを判別することができる。
【0065】
図8は、
図4の仮想試着画像生成部の実施形態を示すブロック図である。
【0066】
図4および
図8を参照すると、仮想試着画像生成部600は、人オブジェクトに、それに仮想試着されるオブジェクトを画像調和(image harmonization)によって合成するように学習された畳み込みニューラルネットワーク610を含むことができる。ユーザオブジェクト選択部420によってイネーブル信号ESが生成されると、仮想試着画像生成部600は、ユーザオブジェクトUOBJに服オブジェクトCOBJをオーバーラップし、畳み込みニューラルネットワーク610がユーザオブジェクトUOBJおよびユーザオブジェクトUOBJにオーバーラップする服オブジェクトCOBJを合成して仮想試着画像VTIMGを生成するように制御することができる。畳み込みニューラルネットワーク610は、服オブジェクトCOBJをユーザオブジェクトUOBJと関連付けて変換するように構成され、仮想試着画像VTIMGは、ユーザオブジェクトUOBJおよびユーザオブジェクトUOBJとオーバーラップする変換された服オブジェクトCOBJを含むことができる。
【0067】
ユーザオブジェクトUOBJの特徴は、カメラ130(
図3参照)がユーザを撮影する空間の照明、明るさなどの環境によって変わってもよく、さらに服オブジェクトCOBJと異なる場合がある。このような点を考慮すると、単にユーザオブジェクトUOBJに服オブジェクトCOBJをオーバーラップして仮想試着画像を提供する場合、該当仮想試着画像内で服オブジェクトCOBJはユーザオブジェクトUOBJとは異質的であってもよい。仮想試着画像生成部600は、ユーザオブジェクトUOBJおよびユーザオブジェクトUOBJにオーバーラップする服オブジェクトCOBJを、畳み込みニューラルネットワーク610を利用して合成することによって、ユーザオブジェクトUOBJの特徴に符合する変換された服オブジェクトCOBJを含む仮想試着画像VTIMGを生成することができる。
【0068】
その後、
図3の画像提供器310は、仮想試着画像VTIMGをディスプレイ装置120を介して表示することができる。例えば、画像提供器310は、複数の背景画像BIMGSのうちのいずれか1つに仮想試着画像VTIMGがオーバーラップする画面を、ディスプレイ装置120を介して視覚化することができる。
【0069】
図9は、
図8の畳み込みニューラルネットワークの実施形態を示すブロック図である。
【0070】
図9を参照すると、畳み込みニューラルネットワーク610は、画像調和によって基準画像RIMGおよびターゲット画像TIMGを合成するための畳み込みエンコーダ611、特徴スワップ部612、および畳み込みデコーダ613を含むことができる。
【0071】
畳み込みエンコーダ611は、第1~第3畳み込みエンコーダ層CV1~CV3のような複数の畳み込みエンコーダ層を含むことができる。
【0072】
第1~第3畳み込みエンコーダ層CV1~CV3のそれぞれは、当該技術分野においてよく知られているように、入力データと1つまたはそれ以上のフィルタに対する畳み込みを行って特徴マップを生成することができる。畳み込みのためのフィルタの数は、フィルタの深さ(depth)として理解することができる。入力データが2つ以上のフィルタと畳み込みされると、該当フィルタの深さに対応する特徴マップが生成されることができる。このとき、フィルタは、ディープラーニングによって決定および修正されるものであり得る。
図9に示すように、基準画像RIMG、そして基準画像RIMGにオーバーラップするターゲット画像TIMGのそれぞれが、畳み込みエンコーダ611の入力データとして提供されることができる。基準画像RIMGおよびターゲット画像TIMGは、それぞれ
図8のユーザオブジェクトUOBJおよび服オブジェクトCOBJであり得る。
【0073】
基準画像RIMGが第1~第3畳み込みエンコーダ層CV1~CV3を通過するにつれて、特徴マップFM11、特徴マップFM12、および特徴マップFM13が順次生成されることができる。例えば、基準画像RIMGは、第1畳み込みエンコーダ層CV1を通過して特徴マップFM11に変換され、特徴マップFM11は、第2畳み込みエンコーダ層CV2を通過して特徴マップFM12に変換され、特徴マップFM12は、第3畳み込みエンコーダ層CV3を通過して特徴マップFM13に変換されることができる。特徴マップFM11に対応するフィルタの深さは、基準画像RIMGよりも深く、特徴マップFM12に対応するフィルタの深さは、特徴マップFM11よりも深く、特徴マップFM13に対応するフィルタの深さは、特徴マップFM12よりも深くてもよい。これらは、
図9において、特徴マップFM11、特徴マップFM12、および特徴マップFM13を示す六面体の横方向の幅として図式化されている。
【0074】
同様に、ターゲット画像TIMGが第1~第3畳み込みエンコーダ層CV1~CV3を通過するにつれて、特徴マップFM21、特徴マップFM22、および特徴マップFM23が順次生成されることができる。特徴マップFM21に対応するフィルタの深さは、ターゲット画像TIMGよりも深く、特徴マップFM22に対応するフィルタの深さは、特徴マップFM21よりも深く、特徴マップFM23に対応するフィルタの深さは、特徴マップFM22よりも深くてもよい。これらは、
図9において、特徴マップFM21、特徴マップFM22、および特徴マップFM23を示す六面体の横方向の幅として図式化されている。
【0075】
実施形態において、畳み込みエンコーダ611は、第1~第3畳み込みエンコーダ層CV1~CV3にそれぞれ対応するサブサンプリング層をさらに含んでもよい。サブサンプリング層の各々は、入力される特徴マップをダウンサンプリングして特徴マップのサイズを減少させることによって、モデルの複雑度(complexity)を緩和することができる。サブサンプリングは、平均プーリング、マックスプーリング(max pooling)など様々な方式に従って行われることができる。このとき、畳み込みエンコーダ層および該当サブサンプリング層は、1つのグループをなし、各グループは、入力される画像および/または特徴マップを処理することができる。
【0076】
特徴スワップ部612は、特徴マップFM13および特徴マップFM23を受信し、特徴マップFM23の要素のうちの少なくとも一部を特徴マップFM13の要素にスワップすることができる。例えば、特徴スワップ部612は、特徴マップFM23の要素それぞれと最も類似した値を有する特徴マップFM13の要素を判別し、判別された要素を第1スワップマップSWM1の該当要素の値として決定することができる。このように、特徴マップFM13の要素が特徴マップFM23の要素に反映されて、第1スワップマップSWM1を決定することができる。
【0077】
畳み込みデコーダ613は、第1~第3畳み込みデコーダ層DCV1~DCV3のような複数の畳み込みデコーダ層を含むことができる。畳み込みデコーダ613に含まれる畳み込みデコーダ層DCV1~DCV3の数は、実施形態によって異なってもよい。
【0078】
第1~第3畳み込みデコーダ層DCV1~DCV3のそれぞれは、入力データに対する逆畳み込みを行うことができる。1つまたはそれ以上のフィルタを逆畳み込みに利用でき、該当フィルタは、第1~第3畳み込みエンコーダ層CV1~CV3で利用されるフィルタと関連付けられることができる。例えば、該当フィルタは、畳み込みエンコーダ層CV1~CV3で利用されるフィルタを転置(transpose)したものであり得る。
【0079】
実施形態において、畳み込みデコーダ613は、第1~第3畳み込みデコーダ層DCV1~DCV3に対応するアップサンプリング層を含むことができる。アップサンプリング層は、入力されるスワップマップに対して、ダウンサンプリングと反対のアップサンプリングを行って該当スワップマップのサイズを増加させることができる。アップサンプリング層および畳み込みデコーダ層は1つのグループをなし、各グループは、入力されるスワップマップを処理することができる。実施形態において、アップサンプリング層は、アンプーリング(un-pooling)層を含み、サブサンプリング層に対応するアンプーリングインデックスを有することができる。
【0080】
第1スワップマップSWM1は、第1~第3畳み込みデコーダ層DCV1~DCV3を通過して、第2スワップマップSWM2、第3スワップマップSWM3、および変換画像SIMGに順次生成されることができる。例えば、第1スワップマップSWM1は、第1畳み込みデコーダ層DCV1を通過して第2スワップマップSWM2に変換され、第2スワップマップSWM2は、第2畳み込みデコーダ層DCV2を通過して第3スワップマップSWM3に変換され、第3スワップマップSWM3は、第3畳み込みデコーダ層DCV3を通過して変換画像SIMGに変換されることができる。第2スワップマップSWM2に対応するフィルタの深さは、第1スワップマップSWM1よりも浅く、第3スワップマップSWM3に対応するフィルタの深さは、第2スワップマップSWM2よりも浅く、変換画像SIMGに対応するフィルタの深さは、第3スワップマップSWM3よりも浅くてもよい。これらは、
図9において、第1スワップマップSWM1、第2スワップマップSWM2、第3スワップマップSWM3、および変換画像SIMGを示す六面体の横方向の幅として図式化されている。実施形態において、変換画像SIMGは、
図8の仮想試着画像VTIMGであり得る。実施形態において、変換画像SIMGは、ユーザオブジェクトUOBJの特徴に合わせて変換された服オブジェクトCOBJであり得る。このような場合、変換された服オブジェクトCOBJがユーザオブジェクトUOBJにオーバーラップされて、仮想試着画像VTIMGが提供されることができる。
【0081】
このように、畳み込みニューラルネットワーク610は、基準画像RIMGのトーン(tone)、スタイル、彩度、明暗度などのような特徴をターゲット画像TIMGに反映して変換画像SIMGを生成することができる。この他に、当該分野で知られている様々な方式、構造、および/またはアルゴリズムを有する畳み込みニューラルネットワークを、
図8の畳み込みニューラルネットワーク610に採用することができる。
【0082】
図10は、
図4の仮想試着画像生成部の他の実施形態を示すブロック図である。
図11は、
図10の仮想試着画像生成部によって生成される第1および第2合成画像を例示的に示す図である。
【0083】
図10及び
図11を参照すると、仮想試着画像生成部700は、第1畳み込みニューラルネットワーク710および第2畳み込みニューラルネットワーク720を含むことができる。
【0084】
第1畳み込みニューラルネットワーク710は、
図8および
図9を参照して説明した畳み込みニューラルネットワーク610と同様に構成されることができる。第1畳み込みニューラルネットワーク710は、ユーザオブジェクトUOBJおよびユーザオブジェクトUOBJとオーバーラップする服オブジェクトCOBJを受信し、それらを画像調和によって合成して第1合成画像SYN1を出力するように構成される。これにより、元(original)の服オブジェクトCOBJは、ユーザオブジェクトUOBJのトーン、スタイル、彩度、明暗度などのような特徴を反映するように変換されて、第1合成画像SYN1内でユーザオブジェクトUOBJにオーバーラップする。
【0085】
第2畳み込みニューラルネットワーク720は、複数の背景画像BIMGS(
図3参照)のうちのいずれか1つ(BIMG)、そして該当背景画像BIMGにオーバーラップする第1合成画像SYN1を受信する。実施形態において、背景画像BIMGの予め定められた領域に第1合成画像SYN1がオーバーラップすることができる。背景画像BIMGおよび背景画像BIMGにオーバーラップする第1合成画像SYN1が、
図11に中間画像ITMとして図式化されている。第2畳み込みニューラルネットワーク720は、背景画像BIMGおよび背景画像BIMGとオーバーラップする第1合成画像SYN1を画像調和によって合成して、第2合成画像SYN2を出力するように構成される。これにより、第1合成画像SYN1は、背景画像BIMGのトーン、スタイル、彩度、明暗度などのような特徴を反映するように変換されて、第2合成画像SYN2内で背景画像BIMGにオーバーラップする。第2合成画像SYN2は、仮想試着画像VTIMGとして提供されることができる。
【0086】
第2畳み込みニューラルネットワーク720は、入出力データを除いて、
図9の畳み込みニューラルネットワーク610と同様に構成されることができる。このような場合、背景画像BIMGおよび第1合成画像SYN1が、それぞれ
図9の基準画像RIMGおよびターゲット画像TIMGとして提供され、
図9の変換画像SIMGは、第2合成画像SYN2として提供されることができる。
【0087】
その後、
図3の画像提供器310は、仮想試着画像VTIMGをディスプレイ装置120を介して表示することができる。例えば、画像提供器310は、
図10の背景画像BIMGの代わりに仮想試着画像VTIMGをディスプレイ装置120を介して視覚化することができる。
【0088】
このように、仮想試着画像生成部700は、ユーザオブジェクトUOBJと服オブジェクトCOBJに対して1次的に画像調和を行い、該当合成画像と背景画像BIMGに対して2次的に画像調和を行うことで、ユーザオブジェクトUOBJの特徴だけでなく、背景画像BIMGにも合う服オブジェクトCOBJを含む、高品質の仮想試着画像VTIMGを生成することができる。シミュレーションゴルフのようなシミュレーションスポーツを提供するシステムがこのような仮想試着画像生成部700を採用する場合、ユーザは、該当服が自分に似合うかどうかだけでなく、実際のゴルフ場とも似合うかどうかを確認することができ、これにより購買意欲を掻き立てることができる。
【0089】
図12は、本発明の実施形態による仮想試着画像を提供する方法を示すフローチャートである。
図12の仮想試着画像の提供方法は、
図3の画像提供装置300によって行われることができる。
【0090】
図12を参照すると、ステップS110において、カメラ(
図3の130参照)から入力画像が受信される。
【0091】
ステップS120において、入力画像のうちのいずれか1つが選択され、選択された入力画像から得られるユーザオブジェクトが処理されてユーザオブジェクトのポーズを表すポーズ推定データが生成される。
【0092】
実施形態において、ユーザオブジェクトからユーザキーポイントの座標および/またはベクトルが検出され、検出されたユーザキーポイントがポーズ推定データとして提供されることができる。実施形態において、ディープラーニングに基づいて人オブジェクトからユーザキーポイントを感知するように学習されたニューラルネットワークを利用することによって、ユーザオブジェクトからユーザキーポイントを推定することができる。
【0093】
ステップS130において、ポーズ推定データが基準ポーズにマッチするか否かが判別される。このため、基準ポーズに対応する基準ポーズデータが備えられ、ポーズ推定データが基準ポーズデータと比較されることができる。基準ポーズデータは、基準ポーズに対応する基準キーポイントの座標および/またはベクトルを含むことができる。
【0094】
実施形態において、ユーザキーポイントのそれぞれと基準キーポイントのそれぞれの距離の平均がしきい値以下であると、ポーズ推定データが基準ポーズにマッチすると判別することができる。実施形態において、第1グループのキーポイントと第2グループのキーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを利用することにより、ユーザキーポイントが基準キーポイントにマッチするか否かが判別されることができる。ポーズ推定データが基準ポーズにマッチしないと、ステップS140が行われる。ポーズ推定データが基準ポーズにマッチすると、ステップS150が行われる。
【0095】
ステップS140において、受信された入力画像の中から他の入力画像が選択される。その後、ステップS120とステップS130が再び行われる。
【0096】
ステップS150において、ユーザオブジェクトに服オブジェクトが合成されて仮想試着画像を生成し、生成された仮想試着画像を表示する。
【0097】
シミュレーションスポーツにおいて、ユーザは、動きに応じて様々なポーズを取れることを考慮すると、ポーズ推定データが基準ポーズにマッチするか否かを判別し、判別結果に応じて該当ユーザオブジェクトに服オブジェクトを合成することによって、高品質の仮想試着画像が提供されることができる。例えば、仮想試着画像は、自然な試着姿を実現することができる。なお、本発明は、特定のポーズでのみユーザオブジェクトと服オブジェクトを合成することに限定されない。例えば、ゴルフのスイングの動作において、服オブジェクトとユーザオブジェクトを合成することも可能である。
【0098】
図13は、
図12のステップS150の実施形態を示すフローチャートである。
【0099】
図11とともに
図13を参照すると、ステップS210において、ユーザオブジェクトUOBJに服オブジェクトCOBJが合成されて第1合成画像SYN1を生成する。実施形態において、人オブジェクトに任意の服オブジェクトを合成するように学習された第1畳み込みニューラルネットワーク(
図10の710参照)が備えられ、第1畳み込みニューラルネットワークにユーザオブジェクトUOBJおよびユーザオブジェクトUOBJにオーバーラップする服オブジェクトCOBJが入力されて、第1合成画像SYN1を生成することができる。
【0100】
ステップS220において、第1合成画像SYN1が背景画像BIMGにオーバーラップし(
図11のITM参照)、背景画像BIMGおよび背景画像BIMGにオーバーラップする第1合成画像SYN1が合成されて第2合成画像SYN2を生成する。実施形態において、背景画像に任意のオブジェクトを合成するように学習された第2畳み込みニューラルネットワーク(
図10の720参照)が備えられ、第2畳み込みニューラルネットワークに背景画像BIMGおよびそれにオーバーラップする第1合成画像SYN1が入力されて第2合成画像SYN2を生成することができる。
【0101】
ステップS230において、第2合成画像SYN2が仮想試着画像として提供される。
【0102】
このように、ユーザオブジェクトUOBJと服オブジェクトCOBJに対して1次的に画像調和を行い、該当合成画像と背景画像BIMGに対して2次的に画像調和を行うことによって、ユーザオブジェクトUOBJの特徴だけでなく、背景画像BIMGにも合う服オブジェクトCOBJを含む高品質の仮想試着画像VTIMGを生成することができる。
【0103】
図14は、
図3の画像提供装置を実現するためのコンピュータ装置の実施形態を示すブロック図である。
【0104】
図14を参照すると、コンピュータ装置1000は、バス1100、少なくとも1つのプロセッサ1200、システムメモリ1300、格納媒体インターフェース1400、通信インターフェース1500、格納媒体1600、通信機1700、カメラインターフェース1800、およびディスプレイインターフェース1900を含む。
【0105】
バス1100は、コンピュータ装置1000の様々な構成要素に連結されてデータ、信号、および情報を伝達する。プロセッサ1200は、汎用あるいは専用プロセッサのうちのいずれか1つであり、コンピュータ装置1000の諸動作を制御することができる。
【0106】
プロセッサ1200は、実行時に様々な機能を提供するプログラムコードおよび命令語をシステムメモリ1300にロードし、ロードされたプログラムコードおよび命令語を処理するように構成される。システムメモリ1300は、プロセッサ1200のワーキングメモリおよび/またはバッファメモリとして提供されることができる。実施形態として、システムメモリ1300は、RAM(Random Access Memory)、ROM(Read Only Memory)、および他のタイプのコンピュータによって読み取り可能な媒体のうちの少なくとも1つを含むことができる。
【0107】
プロセッサ1200は、プロセッサ1200によって実行される際に、
図3の画像提供器310の機能を提供する画像提供モジュール1310をシステムメモリ1300にロードすることができる。このようなプログラムコードおよび/または命令語は、プロセッサ1200によって実行されて、
図3を参照して説明した画像提供器310の機能および/または動作を行うことができる。プログラムコードおよび/または命令語は、別のコンピュータによって読み取り可能な記録媒体である格納媒体1600からシステムメモリ1300にロードされることができる。または、プログラムコードおよび/または命令語は、コンピュータ装置1000の外部から通信機1700を介してシステムメモリ1300にロードされてもよい。
【0108】
また、プロセッサ1200は、プロセッサ1200によって実行される際に、画像提供モジュール1310が実行されるに適した環境を提供するためのオペレーティングシステム1320をシステムメモリ1300にロードし、ロードされたオペレーティングシステム1320を実行することができる。オペレーティングシステム1320は、画像提供モジュール1310がコンピュータ装置1000の格納媒体インターフェース1400、通信インターフェース1500、カメラインターフェース1800、およびディスプレイインターフェース1900のような構成要素を利用できるように、それらと画像提供モジュール1310との間をインターフェースすることができる。実施形態において、格納媒体インターフェース1400、通信インターフェース1500、カメラインターフェース1800、およびディスプレイインターフェース1900の少なくとも一部の機能は、オペレーティングシステム1320によって行われることができる。
【0109】
図14において、システムメモリ1300は、プロセッサ1200と区分された構成で示されているが、システムメモリ1300の少なくとも一部はプロセッサ1200に含まれてもよい。実施形態によっては、システムメモリ1300は、物理的および/または論理的に互いに分離された複数のメモリとして提供されることができる。
【0110】
格納媒体インターフェース1400は、格納媒体1600に連結される。格納媒体インターフェース1400は、バス1100に連結されたプロセッサ1200およびシステムメモリ1300のような構成要素と格納媒体1600との間をインターフェースすることができる。通信インターフェース1500は、通信機1700に連結される。通信インターフェース1500は、バス1100に連結された構成要素と通信機1700との間をインターフェースすることができる。格納媒体インターフェース1400および通信インターフェース1500は、それぞれ
図3の格納媒体インターフェース350および通信インターフェース340として提供されることができる。
【0111】
格納媒体1600は、電源が遮断されても格納されたデータを保持する様々なタイプの不揮発性格納媒体、例えばフラッシュメモリ(flash memory)、ハードディスク(hard disk)などを含むことができる。格納媒体1600は、
図3の格納媒体355の少なくとも一部として提供されることができる。
【0112】
通信機1700(又はトランシーバ)は、コンピュータ装置1000とネットワーク上のサーバ(例えば、
図1の20)との間の信号を送受信することができる。通信機1700は、
図3の通信機345として提供されることができる。
【0113】
カメラインターフェース1800は、バス1100に連結されたプロセッサ1200及びシステムメモリ1300のような構成要素と外部のカメラとの間をインターフェースすることができる。カメラインターフェース1800は、
図3のカメラインターフェース330として提供されることができる。
【0114】
ディスプレイインターフェース1900は、バス1100に連結されたプロセッサ1200及びシステムメモリ1300のような構成要素と外部のディスプレイ装置との間をインターフェースすることができる。ディスプレイインターフェース1900は、
図3のディスプレイインターフェース320として提供されることができる。
【0115】
以上、特定の実施形態および適用例が説明されたが、これは本発明のより全般的な理解を助けるために提供されたものにすぎず、本発明は前記の実施形態に限定されるものではなく、本発明の属する分野で通常の知識を有する者であれば、このような記載から様々な修正および変形が可能である。
【0116】
したがって、本発明の思想は、説明した実施形態に限定されてはならず、後述する特許請求の範囲だけでなく、特許請求の範囲と均等または等価的な変形のある全てのものが本発明の思想の範囲に属すると言える。
【符号の説明】
【0117】
110、300 画像提供装置
120 ディスプレイ装置
130 カメラ
310 画像提供機
320 ディスプレイインターフェース
330 カメラインターフェース
345 通信機
355 格納媒体