特許7566075 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌエイチエヌ　エンターテインメント　コーポレーションの特許一覧

特許7566075仮想試着画像を提供するためのコンピュータ装置、及びその方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-03

(45)【発行日】2024-10-11

(54)【発明の名称】仮想試着画像を提供するためのコンピュータ装置、及びその方法、及びプログラム

(51)【国際特許分類】

G06T 1/00 20060101AFI20241004BHJP

H04N 23/60 20230101ALI20241004BHJP

H04N 23/63 20230101ALI20241004BHJP

【ＦＩ】

G06T1/00 500A

H04N23/60 300

H04N23/63

【請求項の数】 9

(21)【出願番号】P 2023086482

(22)【出願日】2023-05-25

(65)【公開番号】P2023174601

(43)【公開日】2023-12-07

【審査請求日】2023-05-25

(31)【優先権主張番号】10-2022-0064688

(32)【優先日】2022-05-26

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】313011434

【氏名又は名称】エヌエイチエヌコーポレーション

【住所又は居所原語表記】（Ｓａｍｐｙｅｏｎｇ－ｄｏｎｇ），１６，Ｄａｅｗａｎｇｐａｎｇｙｏ－ｒｏ６４５ｂｅｏｎ－ｇｉｌ，Ｂｕｎｄａｎｇ－ｇｕ，Ｓｅｏｎｇｎａｍ－ｓｉ，Ｇｙｅｏｎｇｇｉ－ｄｏＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110000408

【氏名又は名称】弁理士法人高橋・林アンドパートナーズ

(72)【発明者】

【氏名】イ，ヒョクジェ

(72)【発明者】

【氏名】ク，ビョムヒョク

(72)【発明者】

【氏名】イ，ロクキュ

(72)【発明者】

【氏名】パク，ゴンハン

【審査官】山田辰美

(56)【参考文献】

【文献】特開２０１３－１９０９７４（ＪＰ，Ａ）

【文献】特開２０１８－０７３０９１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１３／０２４６２２７（ＵＳ，Ａ１）

【文献】川口侑希子，橋本直己，バーチャル試着を手軽に実現するＤｒｅｓｓＣａｐｔｕｒｅ，映像情報メディア学会技術報告，日本，映像情報メディア学会，2013年02月09日，Ｖｏｌ．３７Ｎｏ．７，p.47－p.50

【文献】Michael Snower; Asim Kadav; Farley Lai; Hans Peter Graf，15 Keypoints Is All You Need，2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)，米国，IEEE，2020年06月13日，p.6737－p.6747，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9157545

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００

Ｈ０４Ｎ２３／６０

Ｈ０４Ｎ２３／６３

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

仮想試着画像を提供するためのコンピュータ装置であって、
カメラと連結されるカメラインターフェースと、
ディスプレイ装置と連結されるディスプレイインターフェースと、
前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、
前記プロセッサは、
前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、
前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、
前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、
前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、
前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記仮想試着画像を視覚化するように構成されることを含み、
前記プロセッサは、
前記ユーザオブジェクトに前記服オブジェクトを合成することによって第１合成画像を生成し、
前記第１合成画像がオーバーラップする背景画像および前記第１合成画像を合成することによって第２合成画像を生成し、
前記第２合成画像を前記仮想試着画像として提供し、
前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行うことによって前記第１合成画像を生成し、
前記背景画像および前記背景画像とオーバーラップする前記第１合成画像に対する前記画像調和を行って前記第２合成画像を生成するように構成されることを特徴とするコンピュータ装置。

【請求項2】

前記ポーズ推定データは、前記ユーザオブジェクトの身体部分を表す第１キーポイントを含むことを特徴とする請求項１に記載のコンピュータ装置。

【請求項3】

前記基準ポーズに対応する第２キーポイントを格納するように構成される格納媒体をさらに含み、
前記プロセッサは、前記第１キーポイントが前記第２キーポイントにマッチするか否かを判別することによって前記ポーズ推定データが前記基準ポーズにマッチするか否かを判別するように構成され、
前記プロセッサは、第１ポーズに対応する第１グループのキーポイントと第２ポーズに対応する第２グループのキーポイントを受信すると、前記第１ポーズの前記キーポイントと前記第２ポーズの前記キーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを含み、
前記プロセッサは、前記第１キーポイントと前記第２キーポイントを前記ニューラルネットワークに入力して前記ニューラルネットワークから出力されるデータを受信し、前記受信されたデータに基づいて前記第１キーポイントが前記第２キーポイントにマッチするか否かを判別するように構成されることを特徴とする請求項２に記載のコンピュータ装置。

【請求項4】

前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和（ｉｍａｇｅｈａｒｍｏｎｉｚａｔｉｏｎ）を行って前記仮想試着画像を生成するように構成されることを特徴とする請求項１に記載のコンピュータ装置。

【請求項5】

仮想試着画像を提供するための方法であって、
カメラを利用してユーザを撮影して入力画像を生成し、
前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、
前記ポーズ推定データが基準ポーズにマッチするか否かを判別し、
前記判別の結果に応じて前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、
ディスプレイ装置を利用して前記仮想試着画像を視覚化し、
前記仮想試着画像を生成することは、
前記ユーザオブジェクトに前記服オブジェクトを合成することによって第１合成画像を生成し、
前記第１合成画像がオーバーラップする背景画像および前記第１合成画像を合成することによって第２合成画像を生成すること、を含み、
前記第２合成画像は、前記仮想試着画像として提供されること、を含むことを特徴とする方法。

【請求項6】

複数の背景画像を視覚化してユーザエクスペリエンスを提供するためのコンピュータ装置であって、
カメラと連結されるカメラインターフェースと、
ディスプレイ装置と連結されるディスプレイインターフェースと、
前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、
前記プロセッサは、
前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、
前記入力画像の中から選択された入力画像に含まれるユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする服オブジェクトに対する画像調和を行って第１合成画像を生成し、
前記複数の背景画像のうちの１つの背景画像および前記背景画像とオーバーラップする前記第１合成画像に対する前記画像調和を行って第２合成画像を生成し、
前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記第２合成画像を表示するように構成されることを特徴とするコンピュータ装置。

【請求項7】

前記プロセッサは、前記ユーザオブジェクトおよび前記服オブジェクトを前記画像調和を行うように学習された第１畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を介して処理することによって前記服オブジェクトを前記ユーザオブジェクトと関連付けて変換するように構成され、
前記第１畳み込みニューラルネットワークは、少なくとも１つの第１畳み込みエンコーダ層および少なくとも１つの第１畳み込みデコーダ層を含み、
前記第１合成画像は、前記ユーザオブジェクトの少なくとも一部および前記ユーザオブジェクトとオーバーラップする前記変換された服オブジェクトを含むことを特徴とする請求項６に記載のコンピュータ装置。

【請求項8】

前記プロセッサは、前記背景画像および前記第１合成画像を前記画像調和を行うように学習された第２畳み込みニューラルネットワークを介して処理することによって前記第１合成画像を前記背景画像と関連付けて変換するように構成され、
前記第２畳み込みニューラルネットワークは、少なくとも１つの第２畳み込みエンコーダ層および少なくとも１つの第２畳み込みデコーダ層を含み、
前記第２合成画像は、前記背景画像の少なくとも一部および前記背景画像とオーバーラップする前記変換された第１合成画像を含むことを特徴とする請求項７に記載のコンピュータ装置。

【請求項9】

請求項５に記載の方法を、プロセッサに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像を生成する装置およびシステムに関し、より具体的には、仮想試着画像を提供するためのコンピュータ装置、それを含むシステム、方法、及びプログラムに関する。

【背景技術】

【0002】

スマートフォン、タブレットＰＣ、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ノートパソコンなどのようなユーザ端末の利用が大衆化し、情報処理技術の発達につれて、ユーザ端末を利用して画像および／または動画を撮影し、撮影した画像および／または動画を編集する技術に対する研究が活発に進行している傾向である。このような画像編集技術は、オンラインショッピングモールなどで扱う服を仮想的に試着する機能を提供する仮想試着サービスにも有用に活用できる。このように、服を仮想的に試着するサービスは、販売者および消費者のニーズに非常に符合するサービスであり、したがって活発な使用が期待されている。

【0003】

ただし、上記の内容は、本発明の技術的思想に対する背景技術の理解を助けるためのものであり、したがってそれは本発明の技術分野の当業者に知られている先行技術に該当する内容として理解されてはならない。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の実施形態は、自然な試着姿を表現する仮想試着画像を視覚化するための装置およびそれを含むシステムを提供する。例えば、本発明の実施形態による装置は、シミュレーションスポーツ（スクリーンスポーツともいう）を楽しむユーザを撮影し、撮影されたユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成し、生成された仮想試着画像をユーザが見ることができるように視覚化する。

【課題を解決するための手段】

【0005】

本発明の実施形態による仮想試着画像を提供するためのコンピュータ装置は、カメラと連結されるカメラインターフェースと、ディスプレイ装置と連結されるディスプレイインターフェースと、前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、前記プロセッサは、前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記仮想試着画像を視覚化するように構成される。

【0006】

前記ポーズ推定データは、前記ユーザオブジェクトの身体部分を表す第１キーポイントを含むことができる。

【0007】

前記コンピュータ装置は、前記基準ポーズに対応する第２キーポイントを格納するように構成される格納媒体をさらに含んでもよく、前記プロセッサは、前記第１キーポイントが前記第２キーポイントにマッチするか否かを判別することによって前記ポーズ推定データが前記基準ポーズにマッチするか否かを判別するように構成されることができる。

【0008】

前記プロセッサは、第１ポーズに対応する第１グループのキーポイントと第２ポーズに対応する第２グループのキーポイントを受信すると、前記第１ポーズの前記キーポイントと前記第２ポーズの前記キーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを含むことができる。前記プロセッサは、前記第１キーポイントと前記第２キーポイントを前記ニューラルネットワークに入力して前記ニューラルネットワークから出力されるデータを受信し、前記受信されたデータに基づいて前記第１キーポイントが前記第２キーポイントにマッチするか否かを判別するように構成されることができる。

【0009】

前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行って前記仮想試着画像を生成するように構成されることができる。

【0010】

前記プロセッサは、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第１合成画像を生成し、前記第１合成画像がオーバーラップする背景画像および前記第１合成画像を合成することによって第２合成画像を生成し、前記第２合成画像を前記仮想試着画像として提供するように構成されることができる。

【0011】

前記プロセッサは、前記ユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする前記服オブジェクトに対する画像調和を行うことによって前記第１合成画像を生成し、前記背景画像および前記背景画像とオーバーラップする前記第１合成画像に対する前記画像調和を行って前記第２合成画像を生成するように構成されることができる。

【0012】

前記コンピュータ装置は、ネットワークに連結される通信機をさらに含み、前記プロセッサは、前記通信機を介してクライアントサーバから前記服オブジェクトを受信するように構成されることができる。

【0013】

本発明の他の観点は、仮想試着画像提供システムに関する。本発明の実施形態による仮想試着画像提供システムは、ユーザを撮影するように設置されたカメラと、画像を視覚化するように構成されるディスプレイ装置と、前記カメラおよび前記ディスプレイ装置を制御するように構成されるコンピュータ装置と、を含み、前記コンピュータ装置は、前記カメラで撮影された入力画像を前記カメラから受信し、前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して前記ユーザオブジェクトを選択し、前記ユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成し、前記ディスプレイ装置を介して前記仮想試着画像を視覚化するように構成される。

【0014】

前記コンピュータ装置は、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第１合成画像を生成し、前記第１合成画像がオーバーラップする背景画像および前記第１合成画像を合成することによって第２合成画像を生成し、前記第２合成画像を前記仮想試着画像として提供するように構成されることができる。

【0015】

本発明のさらに他の観点は、仮想試着画像を提供するための方法に関する。前記方法は、カメラを利用してユーザを撮影して入力画像を生成し、前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記ユーザオブジェクトのポーズを表すポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別し、前記判別の結果に応じて前記ユーザオブジェクトに服オブジェクトを合成して前記仮想試着画像を生成し、ディスプレイ装置を利用して前記仮想試着画像を視覚化すること、を含む。

【0016】

前記仮想試着画像を生成することは、前記ユーザオブジェクトに前記服オブジェクトを合成することによって第１合成画像を生成し、前記第１合成画像がオーバーラップする背景画像および前記第１合成画像を合成することによって第２合成画像を生成すること、を含むことができ、前記第２合成画像は、前記仮想試着画像として提供されることができる。

【0017】

本発明のさらに他の観点は、複数の背景画像を視覚化してユーザエクスペリエンスを提供するためのコンピュータ装置に関する。前記コンピュータ装置は、カメラと連結されるカメラインターフェースと、ディスプレイ装置と連結されるディスプレイインターフェースと、前記カメラインターフェースを介して前記カメラと通信し、前記ディスプレイインターフェースを介して前記ディスプレイ装置と通信するように構成されるプロセッサと、を含み、前記プロセッサは、前記カメラがユーザを撮影して生成された入力画像を前記カメラインターフェースを介して受信し、前記入力画像の中から選択された入力画像に含まれるユーザオブジェクトおよび前記ユーザオブジェクトとオーバーラップする服オブジェクトに対する画像調和を行って第１合成画像を生成し、前記複数の背景画像のうちの１つの背景画像および前記背景画像とオーバーラップする前記第１合成画像に対する前記画像調和を行って第２合成画像を生成し、前記ディスプレイインターフェースを介して前記ディスプレイ装置を制御して前記第２合成画像を表示するように構成される。

【0018】

前記プロセッサは、前記ユーザオブジェクトおよび前記服オブジェクトを、前記画像調和を行うように学習された第１畳み込みニューラルネットワークを介して処理することによって、前記服オブジェクトを前記ユーザオブジェクトと関連付けて変換するように構成されることができ、前記第１畳み込みニューラルネットワークは、少なくとも１つの第１畳み込みエンコーダ層および少なくとも１つの第１畳み込みデコーダ層を含むことができ、前記第１合成画像は、前記ユーザオブジェクトの少なくとも一部および前記ユーザオブジェクトとオーバーラップする前記変換された服オブジェクトを含むことができる。

【0019】

前記プロセッサは、前記背景画像および前記第１合成画像を前記画像調和を行うように学習された第２畳み込みニューラルネットワークを介して処理することによって、前記第１合成画像を前記背景画像と関連付けて変換するように構成されることができ、前記第２畳み込みニューラルネットワークは、少なくとも１つの第２畳み込みエンコーダ層および少なくとも１つの第２畳み込みデコーダ層を含むことができ、前記第２合成画像は、前記背景画像の少なくとも一部および前記背景画像とオーバーラップする前記変換された第１合成画像を含むことができる。

【0020】

前記プロセッサは、前記入力画像のうちの１つから得られるユーザオブジェクトを処理して前記得られたユーザオブジェクトと関連付けられたポーズ推定データを生成し、前記ポーズ推定データが基準ポーズにマッチするか否かを判別して、前記入力画像のうちの前記１つを前記選択された入力画像として決定するように構成されることができる。

【発明の効果】

【0021】

本発明の実施形態によれば、自然な試着姿を表現する仮想試着画像を視覚化するための装置およびそれを含むシステムが提供される。

【図面の簡単な説明】

【0022】

【図1】シミュレーションスポーツ提供システムを示すブロック図である。

【図2】図１のシミュレーションスポーツ提供システムの実現例を示す図である。

【図3】図１の画像提供装置の実施形態を示すブロック図である。

【図4】図３の仮想試着画像生成器の実施形態を示すブロック図である。

【図5】ユーザオブジェクトから生成されるポーズ推定データを概念的に示す図である。

【図6】図４のユーザオブジェクト選択部の実施形態を示すブロック図である。

【図7】図４のユーザオブジェクト選択部の他の実施形態を示すブロック図である。

【図8】図４の仮想試着画像生成部の実施形態を示すブロック図である。

【図9】図８の畳み込みニューラルネットワークの実施形態を示すブロック図である。

【図10】図４の仮想試着画像生成部の他の実施形態を示すブロック図である。

【図11】図１０の仮想試着画像生成部によって生成される第１および第２合成画像を例示的に示す図である。

【図12】本発明の実施形態による仮想試着画像を提供する方法を示すフローチャートである。

【図13】図１２のステップＳ１５０の実施形態を示すフローチャートである。

【図14】図３の画像提供装置を実現するためのコンピュータ装置の実施形態を示すブロック図である。

【発明を実施するための形態】

【0023】

以下、本発明による好ましい実施形態を添付の図面を参照して詳細に説明する。以下の説明では、本発明による動作を理解するために必要な部分のみを説明し、それ以外の部分の説明は、本発明の要旨を不明瞭にしないために省略されることに留意されたい。また、本発明は、ここで説明する実施形態に限定されることなく他の形態で具体化されることもできる。ただし、ここで説明する実施形態は、本発明の属する技術分野において通常の知識を有する者に、本発明の技術的思想を容易に実施できるほど詳細に説明するために提供されるものである。

【0024】

本明細書の全体において、ある部分が他の部分と「連結」されているというとき、これは「直接的に連結」されている場合だけでなく、その中間に他の素子を挟んで「間接的に連結」されている場合も含む。本明細書で使用された用語は、特定の実施形態を説明するためのものであり、本発明を限定するためのものではない。本明細書の全体において、ある部分がある構成要素を「含む」というとき、これは特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含み得ることを意味する。「Ｘ、Ｙ、およびＺのうちの少なくともいずれか１つ」、そして「Ｘ、Ｙ、およびＺで構成されるグループから選択される少なくともいずれか１つ」は、Ｘが１つ、Ｙが１つ、Ｚが１つ、又はＸ、Ｙ、およびＺのうちの２つ或いはそれ以上のある組み合わせ（例えば、ＸＹＺ、ＸＹＹ、ＹＺ、ＺＺ)と解釈することができる。ここで、「および／または」は、該当構成のうちの１つ又はそれ以上のすべての組み合わせを含む。

【0025】

図１は、シミュレーションスポーツ提供システムを示すブロック図である。

【0026】

図１を参照すると、シミュレーションスポーツ提供システム１００は、画像提供装置１１０、ディスプレイ装置１２０、および少なくとも１つのカメラ１３０を含むことができる。画像提供装置１１０は、複数の背景画像ＢＩＭＧＳを格納するように構成される格納媒体１１５を含み、複数の背景画像ＢＩＭＧＳに基づいてシミュレーションスポーツに対する仮想環境を提供するように構成されることができる。例えば、画像提供装置１１０は、複数の背景画像ＢＩＭＧＳを、ディスプレイ装置１２０を介して視覚化することによって、ユーザが仮想環境を体験できるようにする。複数の背景画像ＢＩＭＧＳは、２次元画像だけでなく３次元画像を含んでもよい。

【0027】

実施形態において、ディスプレイ装置１２０は、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、液晶表示（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）装置、ビームプロジェクタ及び映像プロジェクタのようなプロジェクタ（Ｐｒｏｊｅｃｔｏｒ）などを含むことができる。ディスプレイ装置１２０がプロジェクタで実現される場合、シミュレーションスポーツ提供システム１００は、プロジェクタが投影（ｐｒｏｊｅｃｔ）する画像が映し出されて視覚化するための表面を提供するプロジェクションスクリーン（ｐｒｏｊｅｃｔｉｏｎｓｃｒｅｅｎ）をさらに含んでもよい。

【0028】

画像提供装置１１０は、カメラ１３０に連結されることができる。画像提供装置１１０は、カメラ１３０で撮影されたユーザの画像を受信し、受信された画像をディスプレイ装置１２０に表示することができる。ここで、画像提供装置１１０は、画像だけでなく複数の画像を含む映像をディスプレイ装置１２０に表示することができるが、説明の便宜のために、以下では画像を表示するものとして説明する。しかしながら、これは例示的なものであり、本発明の実施形態は、映像をディスプレイ装置１２０に表示することを含む。

【0029】

実施形態において、画像提供装置１１０は、ネットワークを介して管理者サーバ２０に連結されることができる。管理者サーバ２０は、そのデータベースに複数の背景画像ＢＩＭＧＳを格納するように構成される。画像提供装置１１０は、ネットワーク１０を介して管理者サーバ２０にアクセスして複数の背景画像ＢＩＭＧＳを受信し、受信された複数の背景画像ＢＩＭＧＳを格納媒体１１５に格納することができる。画像提供装置１１０は、管理者サーバ２０に定期的にアクセスして格納媒体１１５に格納された複数の背景画像ＢＩＭＧＳを更新することができる。

【0030】

図２は、図１のシミュレーションスポーツ提供システムの実現例を示す図である。

【0031】

図２を参照すると、シミュレーションスポーツ提供システム２００は、画像提供装置２１０、プロジェクタ２２０、プロジェクタ２２０に対応するプロジェクションスクリーン２２５、および１つまたはそれ以上のカメラ２３０＿１、２３０＿２を含むことができる。実施形態において、画像提供装置２１０は、有線および／または無線ネットワークを介してプロジェクタ２２０および１つまたはそれ以上のカメラ２３０＿１、２３０＿２と通信することができる。

【0032】

画像提供装置２１０は、図２に示すように、複数の背景画像ＢＩＭＧＳ（図１参照)のうちの少なくとも一部をプロジェクタ２２０を介してプロジェクションスクリーン２２５に表示することができる。プロジェクタ２２０は、図１のディスプレイ装置１２０として提供される。画像提供装置２１０は、追加のディスプレイ装置を含むキオスク（ｋｉｏｓｋ）装置として実現されてもよい。

【0033】

１つまたはそれ以上のカメラ２３０＿１、２３０＿２は、ユーザＵＳＲの位置する空間を指向し、これによりユーザＵＳＲおよび／またはユーザＵＳＲの動きを撮影した画像を画像提供装置２１０に提供するように構成されることができる。例えば、第１カメラ２３０＿１は、ユーザＵＳＲの正面を撮影するように設置され、第２カメラ２３０＿２は、ユーザＵＳＲの側面を撮影するように設置されることができる。画像提供装置２１０は、撮影されたユーザＵＳＲの画像および／または複数の背景画像ＢＩＭＧＳをプロジェクタ２２０を介してプロジェクションスクリーン２２５に視覚化することができる。

【0034】

実施形態において、シミュレーションスポーツ提供システム２００は、ユーザＵＳＲの打つ、投げるなどのプレーに応じたボール（例えば、ゴルフボール）の動きをセンシングするように構成される、モーションセンサをさらに含むことができる。画像提供装置２１０は、モーションセンサを介してボールの動きに対する情報を受信し、ボールの動きを複数の背景画像ＢＩＭＧＳと共にプロジェクタ２２０を介してプロジェクションスクリーン２２５に視覚化することができる。

【0035】

画像提供装置２１０は、１つまたはそれ以上のカメラ２３０＿１、２３０＿２で撮影された画像からユーザＵＳＲのオブジェクト（以下、ユーザオブジェクト）を抽出し、ユーザオブジェクトにトップス、ボトムス、帽子などのような服オブジェクトを合成（ｓｙｎｔｈｅｓｉｓ）して仮想試着画像を生成し、生成された仮想試着画像をプロジェクタ２２０を介して視覚化することができる。服オブジェクトは、第３サーバ（例えば、ショッピングモールサーバ)から提供されることができ、該当第３サーバは、ユーザの性別、ユーザの年齢、月（ｍｏｎｔｈ）、季節（ｓｅａｓｏｎ）など様々な要因に応じて異なる服オブジェクトを提供することができる。

【0036】

このように、画像提供装置２１０は、シミュレーションスポーツ提供システム２００に既に備えられている装置、例えばプロジェクタ２２０、プロジェクションスクリーン２２５、１つまたはそれ以上のカメラ２３０＿１、２３０＿２などを利用して仮想試着画像を提供することができる。このような場合、ユーザＵＳＲは、シミュレーションスポーツを楽しみながら仮想試着画像を通じて該当服が自分に似合うかどうかを確認することが可能であり、これによってユーザＵＳＲの購買意欲を掻き立てることができる。このような画像提供装置２１０について、以下、図３を参照してさらに詳細に説明する。

【0037】

図３は、図１の画像提供装置の実施形態を示すブロック図である。

【0038】

図３を参照すると、画像提供装置３００は、画像提供器３１０、ディスプレイインターフェース（ＩｎｔｅｒＦａｃｅ；Ｉ／Ｆ）３２０、カメラインターフェース３３０、通信インターフェース３４０、通信機３４５、格納媒体インターフェース３５０、及び格納媒体３５５を含むことができる。

【0039】

画像提供器３１０は、画像提供装置３００の諸動作を制御するように構成される。画像提供器３１０は、ディスプレイインターフェース３２０を介して図１のディスプレイ装置１２０と通信し、カメラインターフェース３３０を介して図１のカメラ１３０と通信することができる。画像提供器３１０は、格納媒体３５５に格納された複数の背景画像ＢＩＭＧＳを、ディスプレイ装置１２０を介して表示することができる。また、画像提供器３１０は、カメラ１３０で撮影されたユーザの画像を受信し、受信した画像のユーザオブジェクトを複数の背景画像ＢＩＭＧＳのうちの少なくとも一部と共にディスプレイ装置１２０に表示することができる。

【0040】

ディスプレイインターフェース３２０は、ディスプレイ装置１２０と画像提供器３１０との間をインターフェースすることができる。ディスプレイインターフェース３２０は、画像提供器３１０からのデータ（例えば、画像）に従ってディスプレイ装置１２０を制御して、ディスプレイ装置１２０が該当データを視覚化するようにする。

【0041】

カメラインターフェース３３０は、カメラ１３０と画像提供器３１０との間をインターフェースすることができる。カメラインターフェース３３０は、画像提供器３１０からの制御信号および／またはデータをカメラ１３０に伝達することができ、カメラ１３０からのデータ（例えば画像）を画像提供器３１０に伝達することができる。

【0042】

通信インターフェース３４０は、通信機３４５と画像提供器３１０との間をインターフェースすることができる。通信インターフェース３４０は、画像提供器３１０の制御に応じて、通信機３４５を介してネットワーク１０（図１参照）上の管理者サーバ２０にアクセスすることができ、ネットワーク１０上の管理者サーバ２０からデータ（例えば、ＢＩＭＧＳ）を受信して画像提供器３１０に伝達することができる。通信機３４５は、ネットワーク１０に接続して外部の管理者サーバ２０のようなネットワーク１０上のサーバおよび／または装置と通信を行うように構成される。

【0043】

格納媒体インターフェース３５０は、格納媒体３５５と画像提供器３１０との間をインターフェースすることができる。格納媒体インターフェース３５０は、画像提供器３１０の制御に応じて格納媒体３５５にデータ（例えば、ＢＩＭＧＳ）を書き込み、画像提供器３１０の制御に応じて格納媒体３５５に格納されたデータを読み込んで画像提供器３１０に提供することができる。格納媒体３５５は、データを格納するように構成され、不揮発性格納媒体のうちの少なくとも１つを含むことができる。

【0044】

本発明の実施形態によれば、画像提供器３１０は、ユーザオブジェクトに服オブジェクトを合成して仮想試着画像を生成する仮想試着画像生成器３１５を含むことができる。画像提供器３１０は、生成された仮想試着画像をディスプレイ装置１２０に表示して、ユーザにトップス、ボトムス、帽子など服に対する仮想試着体験を提供することができる。

【0045】

図４は、図３の仮想試着画像生成器の実施形態を示すブロック図である。図５は、ユーザオブジェクトから生成されるポーズ推定データを概念的に示す図である。図６は、図４のユーザオブジェクト選択部の実施形態を示すブロック図である。

【0046】

図３および図４を参照すると、仮想試着画像生成器４００は、ポーズ推定部４１０、ユーザオブジェクト選択部４２０、および仮想試着画像生成部４３０を含むことができる。

【0047】

ポーズ推定部４１０は、ユーザオブジェクトＵＯＢＪを受信する。ユーザオブジェクトＵＯＢＪは、カメラ１３０がユーザを撮影して生成される入力画像のうちの１つに含まれるユーザオブジェクトＵＯＢＪである。図４では、説明の便宜のために、ポーズ推定部４１０がユーザオブジェクトＵＯＢＪを受信すると示されているが、ポーズ推定部４１０は、カメラ１３０によって生成された入力画像のうちのいずれか１つを受信し、受信された入力画像からユーザオブジェクトＵＯＢＪを抽出するように構成されてもよい。

【0048】

ポーズ推定部４１０は、ユーザオブジェクトＵＯＢＪを処理してユーザオブジェクトＵＯＢＪのポーズ（ｐｏｓｅ）を推定して、ポーズ推定データＰＥＤを生成するように構成される。

【0049】

ポーズ推定データＰＥＤは、ユーザオブジェクトＵＯＢＪのポーズを表す様々なタイプのデータを含むことができる。実施形態において、ポーズ推定データＰＥＤは、ユーザオブジェクトＵＯＢＪの身体の主要なキーポイント（以下、ユーザキーポイント）の座標および／またはベクトルを含むことができる。図５を参照すると、ポーズ推定部４１０は、ユーザオブジェクトＵＯＢＪの顔領域（例えば、目、鼻、耳および首領域など)、肩領域、肘領域、手首領域、ヒップ（ｈｉｐ）領域、膝領域、および足首領域などを表すユーザキーポイントＵＫＰを感知し、感知されたユーザキーポイントＵＫＰをポーズ推定データＰＥＤとして出力することができる。ポーズ推定部４１０は、身体のキーポイントを感知するための、当該技術分野において知られている様々なアルゴリズムを採用することができる。

【0050】

実施形態において、ポーズ推定部４１０は、ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）に基づいて人オブジェクトのキーポイントを感知するように学習されたニューラルネットワーク（あるいは人工知能モデル）を含み、学習されたニューラルネットワークを利用してユーザオブジェクトＵＯＢＪからユーザキーポイントＵＫＰを推定することができる。

【0051】

再び図４を参照すると、ユーザオブジェクト選択部４２０は、ポーズ推定部４１０からポーズ推定データＰＥＤを受信することができる。また、ユーザオブジェクト選択部４２０は、格納媒体３５５から基準ポーズデータＲＰＤを読み込むことができる。ユーザオブジェクト選択部４２０は、ポーズ推定データＰＥＤが基準ポーズデータＲＰＤとマッチするか否かを判別して、イネーブル信号ＥＳを生成するように構成されることができる。

【0052】

基準ポーズデータＲＰＤは、ポーズ推定データＰＥＤと比較され得るタイプのデータを含む。図６を参照すると、基準ポーズデータＲＰＤは、所望のポーズを有する基準オブジェクトＲＯＢＪの身体の主要なキーポイント（以下、基準キーポイント）の座標および／またはベクトルを含むことができる。基準キーポイントＲＫＰは、基準オブジェクトＲＯＢＪの顔領域（例えば、目、鼻、耳および首領域など）、肩領域、肘領域、手首領域、ヒップ領域、膝領域、および足首領域などを表すことができ、基準キーポイントＲＫＰは、基準ポーズデータＲＰＤとして提供されることができる。

【0053】

実施形態において、基準オブジェクトＲＯＢＪは、ポーズ推定部４１０によって処理されて基準キーポイントＲＫＰを生成することができ、基準キーポイントＲＫＰは、図３の格納媒体３５５に格納されることができる。他の実施形態において、基準キーポイントＲＫＰは、ネットワーク１０（図１参照）上の管理者サーバ２０（図１参照）あるいは第３サーバから提供されて格納媒体３５５に格納されることができる。

【0054】

実施形態において、基準ポーズデータＲＰＤあるいは基準キーポイントＲＫＰは、身体間のオーバーラップの少ないポーズ、複数の広告および／またはショッピングモールのモデルの写真で頻度高く現れるポーズ、あるいは服オブジェクトＣＯＢＪ（図４参照）の形状にオーバーラップされるに適したポーズを表すことができる。

【0055】

ユーザオブジェクト選択部４２０は、ポーズ推定データＰＥＤとしてユーザキーポイントＵＫＰを受信し、基準ポーズデータＲＰＤとして基準キーポイントＲＫＰを受信することができる。ユーザオブジェクト選択部４２０は、ユーザキーポイントＵＫＰが基準キーポイントＲＫＰにマッチすると、イネーブル信号ＥＳを生成する。実施形態において、ユーザキーポイントＵＫＰのそれぞれと基準キーポイントＲＫＰのそれぞれの距離の平均がしきい値以下であると、イネーブル信号ＥＳが生成されることができる。

【0056】

再び図４を参照すると、仮想試着画像生成部４３０は、ユーザオブジェクトＵＯＢＪおよび服オブジェクトＣＯＢＪを受信することができる。画像提供器３１０（図３参照）は、通信機３４５を介してネットワーク１０上の第３サーバ（例えば、ショッピングモールサーバ）から服オブジェクトＣＯＢＪを受信することができ、該当第３サーバは、ユーザの性別、ユーザの年齢、月、季節など様々な要因に応じて服オブジェクトＣＯＢＪを提供することができる。

【0057】

仮想試着画像生成部４３０は、イネーブル信号ＥＳが生成されると、ユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪをオーバーラップおよび合成して仮想試着画像ＶＴＩＭＧを生成するように構成される。

【0058】

当該技術分野において知られている様々な方式によって、ユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪがオーバーラップする領域が決定されることができる。実施形態において、仮想試着画像生成部４３０は、ユーザオブジェクトＵＯＢＪを互いに異なるラベル値に対応する複数の領域に分類するように構成される領域分類マップ（ＣｌｏｔｈｉｎｇＧｕｉｄｅＭａｐ）生成器を含むことができる。このような場合、領域分類マップ生成器は、ユーザオブジェクトＵＯＢＪおよび服オブジェクトＣＯＢＪを入力すると、ユーザオブジェクトＵＯＢＪの複数の分類された領域のうち、服オブジェクトＣＯＢＪに対応する試着領域（例えば、上体）を表す情報、例えば該当ラベルをさらに出力することができる。これにより、ユーザオブジェクトＵＯＢＪ中の服オブジェクトＣＯＢＪのオーバーラップする領域が選択されることができる。

【0059】

実施形態において、仮想試着画像生成部４３０は、服オブジェクトＣＯＢＪにオーバーラップするユーザオブジェクトＵＯＢＪの幾何学的形態を分析し、分析された幾何学的形態に従って服オブジェクトＣＯＢＪの形態を変形するように構成されることができる。その後、仮想試着画像生成部４３０は、ユーザオブジェクトＵＯＢＪに、変形された服オブジェクトＣＯＢＪをオーバーラップすることができる。このように、服オブジェクトＣＯＢＪの幾何学的形態を変形してユーザオブジェクトＵＯＢＪに合成することは、本発明の実施形態に含まれる。

【0060】

実施形態において、仮想試着画像生成部４３０は、仮想試着の分野で知られている様々な合成アルゴリズムのうちの少なくとも１つを採用することができる。

【0061】

画像提供器３１０は、仮想試着画像ＶＴＩＭＧをディスプレイ装置１２０（図３参照）に表示して、服オブジェクトＣＯＢＪに対する仮想試着のユーザエクスペリエンスをユーザに提供することができる。シミュレーションスポーツにおいて、ユーザは、動きに応じて様々なポーズを取れることを考慮すると、ポーズ推定データＰＥＤが基準ポーズデータＲＰＤにマッチするか否かを判別し、判別結果に応じて該当ユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪを合成することで、高品質の仮想試着画像ＶＴＩＭＧを提供することができる。例えば、仮想試着画像ＶＴＩＭＧは、自然な試着姿を表現することができる。

【0062】

図７は、図４のユーザオブジェクト選択部の他の実施形態を示すブロック図である。

【0063】

図７を参照すると、ユーザオブジェクト選択部５００は、ニューラルネットワーク５１０（又は、人工知能モデル）および人工知能プロセッサ５２０を含むことができる。ニューラルネットワーク５１０は、１つまたはそれ以上のニューラルネットワーク層Ｌ１、Ｌ２、．．．、Ｌ＿ｍ－１、Ｌ＿ｍを含むことができ、ニューラルネットワーク層Ｌ１、Ｌ２、．．．、Ｌ＿ｍ－１、Ｌ＿ｍは、ユーザキーポイントＵＫＰおよび基準キーポイントＲＫＰを入力すると、それらがマッチするか否かによってイネーブル信号ＥＳを提供するように事前に学習されることができる。例えば、ニューラルネットワーク層Ｌ１、Ｌ２、．．．、Ｌ＿ｍ－１、Ｌ＿ｍは、ユーザキーポイントＵＫＰおよび基準キーポイントＲＫＰから特徴を抽出するためのエンコード層、そして抽出された特徴が互いにマッチするか否かを判別してイネーブル信号ＥＳを出力するためのデコード層を含むことができる。

【0064】

人工知能プロセッサ５２０は、ニューラルネットワーク５１０を制御するように構成される。人工知能プロセッサ５２０は、データ学習部５２１およびデータ処理部５２２を含むことができる。データ学習部５２１は、第１グループのキーポイント（例えば、第１ポーズのキーポイント）、第２グループのキーポイント（例えば、第２ポーズのキーポイント）、およびそれらに対応する結果値（すなわち、イネーブル信号）を含む学習データを利用して、第１グループのキーポイントと第２グループのキーポイントを入力すると、イネーブル信号ＥＳを出力するようにニューラルネットワーク５１０を学習させることができる。このような学習データは、ネットワーク１０（図１参照）を介して任意のデータベースサーバから取得されることができる。データ処理部５２２は、学習されたニューラルネットワーク５１０にユーザキーポイントＵＫＰおよび基準キーポイントＲＫＰを入力し、それらがマッチすると結果値としてイネーブル信号ＥＳを取得することができる。取得されたイネーブル信号ＥＳは、仮想試着画像生成部４３０（図４参照）に提供される。このように、ユーザオブジェクト選択部５００は、学習されたニューラルネットワークを利用して、ユーザキーポイントＵＫＰが基準キーポイントＲＫＰにマッチするか否かを判別することができる。

【0065】

図８は、図４の仮想試着画像生成部の実施形態を示すブロック図である。

【0066】

図４および図８を参照すると、仮想試着画像生成部６００は、人オブジェクトに、それに仮想試着されるオブジェクトを画像調和（ｉｍａｇｅｈａｒｍｏｎｉｚａｔｉｏｎ）によって合成するように学習された畳み込みニューラルネットワーク６１０を含むことができる。ユーザオブジェクト選択部４２０によってイネーブル信号ＥＳが生成されると、仮想試着画像生成部６００は、ユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪをオーバーラップし、畳み込みニューラルネットワーク６１０がユーザオブジェクトＵＯＢＪおよびユーザオブジェクトＵＯＢＪにオーバーラップする服オブジェクトＣＯＢＪを合成して仮想試着画像ＶＴＩＭＧを生成するように制御することができる。畳み込みニューラルネットワーク６１０は、服オブジェクトＣＯＢＪをユーザオブジェクトＵＯＢＪと関連付けて変換するように構成され、仮想試着画像ＶＴＩＭＧは、ユーザオブジェクトＵＯＢＪおよびユーザオブジェクトＵＯＢＪとオーバーラップする変換された服オブジェクトＣＯＢＪを含むことができる。

【0067】

ユーザオブジェクトＵＯＢＪの特徴は、カメラ１３０（図３参照）がユーザを撮影する空間の照明、明るさなどの環境によって変わってもよく、さらに服オブジェクトＣＯＢＪと異なる場合がある。このような点を考慮すると、単にユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪをオーバーラップして仮想試着画像を提供する場合、該当仮想試着画像内で服オブジェクトＣＯＢＪはユーザオブジェクトＵＯＢＪとは異質的であってもよい。仮想試着画像生成部６００は、ユーザオブジェクトＵＯＢＪおよびユーザオブジェクトＵＯＢＪにオーバーラップする服オブジェクトＣＯＢＪを、畳み込みニューラルネットワーク６１０を利用して合成することによって、ユーザオブジェクトＵＯＢＪの特徴に符合する変換された服オブジェクトＣＯＢＪを含む仮想試着画像ＶＴＩＭＧを生成することができる。

【0068】

その後、図３の画像提供器３１０は、仮想試着画像ＶＴＩＭＧをディスプレイ装置１２０を介して表示することができる。例えば、画像提供器３１０は、複数の背景画像ＢＩＭＧＳのうちのいずれか１つに仮想試着画像ＶＴＩＭＧがオーバーラップする画面を、ディスプレイ装置１２０を介して視覚化することができる。

【0069】

図９は、図８の畳み込みニューラルネットワークの実施形態を示すブロック図である。

【0070】

図９を参照すると、畳み込みニューラルネットワーク６１０は、画像調和によって基準画像ＲＩＭＧおよびターゲット画像ＴＩＭＧを合成するための畳み込みエンコーダ６１１、特徴スワップ部６１２、および畳み込みデコーダ６１３を含むことができる。

【0071】

畳み込みエンコーダ６１１は、第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３のような複数の畳み込みエンコーダ層を含むことができる。

【0072】

第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３のそれぞれは、当該技術分野においてよく知られているように、入力データと１つまたはそれ以上のフィルタに対する畳み込みを行って特徴マップを生成することができる。畳み込みのためのフィルタの数は、フィルタの深さ（ｄｅｐｔｈ）として理解することができる。入力データが２つ以上のフィルタと畳み込みされると、該当フィルタの深さに対応する特徴マップが生成されることができる。このとき、フィルタは、ディープラーニングによって決定および修正されるものであり得る。図９に示すように、基準画像ＲＩＭＧ、そして基準画像ＲＩＭＧにオーバーラップするターゲット画像ＴＩＭＧのそれぞれが、畳み込みエンコーダ６１１の入力データとして提供されることができる。基準画像ＲＩＭＧおよびターゲット画像ＴＩＭＧは、それぞれ図８のユーザオブジェクトＵＯＢＪおよび服オブジェクトＣＯＢＪであり得る。

【0073】

基準画像ＲＩＭＧが第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３を通過するにつれて、特徴マップＦＭ１１、特徴マップＦＭ１２、および特徴マップＦＭ１３が順次生成されることができる。例えば、基準画像ＲＩＭＧは、第１畳み込みエンコーダ層ＣＶ１を通過して特徴マップＦＭ１１に変換され、特徴マップＦＭ１１は、第２畳み込みエンコーダ層ＣＶ２を通過して特徴マップＦＭ１２に変換され、特徴マップＦＭ１２は、第３畳み込みエンコーダ層ＣＶ３を通過して特徴マップＦＭ１３に変換されることができる。特徴マップＦＭ１１に対応するフィルタの深さは、基準画像ＲＩＭＧよりも深く、特徴マップＦＭ１２に対応するフィルタの深さは、特徴マップＦＭ１１よりも深く、特徴マップＦＭ１３に対応するフィルタの深さは、特徴マップＦＭ１２よりも深くてもよい。これらは、図９において、特徴マップＦＭ１１、特徴マップＦＭ１２、および特徴マップＦＭ１３を示す六面体の横方向の幅として図式化されている。

【0074】

同様に、ターゲット画像ＴＩＭＧが第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３を通過するにつれて、特徴マップＦＭ２１、特徴マップＦＭ２２、および特徴マップＦＭ２３が順次生成されることができる。特徴マップＦＭ２１に対応するフィルタの深さは、ターゲット画像ＴＩＭＧよりも深く、特徴マップＦＭ２２に対応するフィルタの深さは、特徴マップＦＭ２１よりも深く、特徴マップＦＭ２３に対応するフィルタの深さは、特徴マップＦＭ２２よりも深くてもよい。これらは、図９において、特徴マップＦＭ２１、特徴マップＦＭ２２、および特徴マップＦＭ２３を示す六面体の横方向の幅として図式化されている。

【0075】

実施形態において、畳み込みエンコーダ６１１は、第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３にそれぞれ対応するサブサンプリング層をさらに含んでもよい。サブサンプリング層の各々は、入力される特徴マップをダウンサンプリングして特徴マップのサイズを減少させることによって、モデルの複雑度（ｃｏｍｐｌｅｘｉｔｙ）を緩和することができる。サブサンプリングは、平均プーリング、マックスプーリング（ｍａｘｐｏｏｌｉｎｇ）など様々な方式に従って行われることができる。このとき、畳み込みエンコーダ層および該当サブサンプリング層は、１つのグループをなし、各グループは、入力される画像および／または特徴マップを処理することができる。

【0076】

特徴スワップ部６１２は、特徴マップＦＭ１３および特徴マップＦＭ２３を受信し、特徴マップＦＭ２３の要素のうちの少なくとも一部を特徴マップＦＭ１３の要素にスワップすることができる。例えば、特徴スワップ部６１２は、特徴マップＦＭ２３の要素それぞれと最も類似した値を有する特徴マップＦＭ１３の要素を判別し、判別された要素を第１スワップマップＳＷＭ１の該当要素の値として決定することができる。このように、特徴マップＦＭ１３の要素が特徴マップＦＭ２３の要素に反映されて、第１スワップマップＳＷＭ１を決定することができる。

【0077】

畳み込みデコーダ６１３は、第１～第３畳み込みデコーダ層ＤＣＶ１～ＤＣＶ３のような複数の畳み込みデコーダ層を含むことができる。畳み込みデコーダ６１３に含まれる畳み込みデコーダ層ＤＣＶ１～ＤＣＶ３の数は、実施形態によって異なってもよい。

【0078】

第１～第３畳み込みデコーダ層ＤＣＶ１～ＤＣＶ３のそれぞれは、入力データに対する逆畳み込みを行うことができる。１つまたはそれ以上のフィルタを逆畳み込みに利用でき、該当フィルタは、第１～第３畳み込みエンコーダ層ＣＶ１～ＣＶ３で利用されるフィルタと関連付けられることができる。例えば、該当フィルタは、畳み込みエンコーダ層ＣＶ１～ＣＶ３で利用されるフィルタを転置（ｔｒａｎｓｐｏｓｅ）したものであり得る。

【0079】

実施形態において、畳み込みデコーダ６１３は、第１～第３畳み込みデコーダ層ＤＣＶ１～ＤＣＶ３に対応するアップサンプリング層を含むことができる。アップサンプリング層は、入力されるスワップマップに対して、ダウンサンプリングと反対のアップサンプリングを行って該当スワップマップのサイズを増加させることができる。アップサンプリング層および畳み込みデコーダ層は１つのグループをなし、各グループは、入力されるスワップマップを処理することができる。実施形態において、アップサンプリング層は、アンプーリング（ｕｎ－ｐｏｏｌｉｎｇ）層を含み、サブサンプリング層に対応するアンプーリングインデックスを有することができる。

【0080】

第１スワップマップＳＷＭ１は、第１～第３畳み込みデコーダ層ＤＣＶ１～ＤＣＶ３を通過して、第２スワップマップＳＷＭ２、第３スワップマップＳＷＭ３、および変換画像ＳＩＭＧに順次生成されることができる。例えば、第１スワップマップＳＷＭ１は、第１畳み込みデコーダ層ＤＣＶ１を通過して第２スワップマップＳＷＭ２に変換され、第２スワップマップＳＷＭ２は、第２畳み込みデコーダ層ＤＣＶ２を通過して第３スワップマップＳＷＭ３に変換され、第３スワップマップＳＷＭ３は、第３畳み込みデコーダ層ＤＣＶ３を通過して変換画像ＳＩＭＧに変換されることができる。第２スワップマップＳＷＭ２に対応するフィルタの深さは、第１スワップマップＳＷＭ１よりも浅く、第３スワップマップＳＷＭ３に対応するフィルタの深さは、第２スワップマップＳＷＭ２よりも浅く、変換画像ＳＩＭＧに対応するフィルタの深さは、第３スワップマップＳＷＭ３よりも浅くてもよい。これらは、図９において、第１スワップマップＳＷＭ１、第２スワップマップＳＷＭ２、第３スワップマップＳＷＭ３、および変換画像ＳＩＭＧを示す六面体の横方向の幅として図式化されている。実施形態において、変換画像ＳＩＭＧは、図８の仮想試着画像ＶＴＩＭＧであり得る。実施形態において、変換画像ＳＩＭＧは、ユーザオブジェクトＵＯＢＪの特徴に合わせて変換された服オブジェクトＣＯＢＪであり得る。このような場合、変換された服オブジェクトＣＯＢＪがユーザオブジェクトＵＯＢＪにオーバーラップされて、仮想試着画像ＶＴＩＭＧが提供されることができる。

【0081】

このように、畳み込みニューラルネットワーク６１０は、基準画像ＲＩＭＧのトーン（ｔｏｎｅ）、スタイル、彩度、明暗度などのような特徴をターゲット画像ＴＩＭＧに反映して変換画像ＳＩＭＧを生成することができる。この他に、当該分野で知られている様々な方式、構造、および／またはアルゴリズムを有する畳み込みニューラルネットワークを、図８の畳み込みニューラルネットワーク６１０に採用することができる。

【0082】

図１０は、図４の仮想試着画像生成部の他の実施形態を示すブロック図である。図１１は、図１０の仮想試着画像生成部によって生成される第１および第２合成画像を例示的に示す図である。

【0083】

図１０及び図１１を参照すると、仮想試着画像生成部７００は、第１畳み込みニューラルネットワーク７１０および第２畳み込みニューラルネットワーク７２０を含むことができる。

【0084】

第１畳み込みニューラルネットワーク７１０は、図８および図９を参照して説明した畳み込みニューラルネットワーク６１０と同様に構成されることができる。第１畳み込みニューラルネットワーク７１０は、ユーザオブジェクトＵＯＢＪおよびユーザオブジェクトＵＯＢＪとオーバーラップする服オブジェクトＣＯＢＪを受信し、それらを画像調和によって合成して第１合成画像ＳＹＮ１を出力するように構成される。これにより、元（ｏｒｉｇｉｎａｌ）の服オブジェクトＣＯＢＪは、ユーザオブジェクトＵＯＢＪのトーン、スタイル、彩度、明暗度などのような特徴を反映するように変換されて、第１合成画像ＳＹＮ１内でユーザオブジェクトＵＯＢＪにオーバーラップする。

【0085】

第２畳み込みニューラルネットワーク７２０は、複数の背景画像ＢＩＭＧＳ（図３参照）のうちのいずれか１つ（ＢＩＭＧ）、そして該当背景画像ＢＩＭＧにオーバーラップする第１合成画像ＳＹＮ１を受信する。実施形態において、背景画像ＢＩＭＧの予め定められた領域に第１合成画像ＳＹＮ１がオーバーラップすることができる。背景画像ＢＩＭＧおよび背景画像ＢＩＭＧにオーバーラップする第１合成画像ＳＹＮ１が、図１１に中間画像ＩＴＭとして図式化されている。第２畳み込みニューラルネットワーク７２０は、背景画像ＢＩＭＧおよび背景画像ＢＩＭＧとオーバーラップする第１合成画像ＳＹＮ１を画像調和によって合成して、第２合成画像ＳＹＮ２を出力するように構成される。これにより、第１合成画像ＳＹＮ１は、背景画像ＢＩＭＧのトーン、スタイル、彩度、明暗度などのような特徴を反映するように変換されて、第２合成画像ＳＹＮ２内で背景画像ＢＩＭＧにオーバーラップする。第２合成画像ＳＹＮ２は、仮想試着画像ＶＴＩＭＧとして提供されることができる。

【0086】

第２畳み込みニューラルネットワーク７２０は、入出力データを除いて、図９の畳み込みニューラルネットワーク６１０と同様に構成されることができる。このような場合、背景画像ＢＩＭＧおよび第１合成画像ＳＹＮ１が、それぞれ図９の基準画像ＲＩＭＧおよびターゲット画像ＴＩＭＧとして提供され、図９の変換画像ＳＩＭＧは、第２合成画像ＳＹＮ２として提供されることができる。

【0087】

その後、図３の画像提供器３１０は、仮想試着画像ＶＴＩＭＧをディスプレイ装置１２０を介して表示することができる。例えば、画像提供器３１０は、図１０の背景画像ＢＩＭＧの代わりに仮想試着画像ＶＴＩＭＧをディスプレイ装置１２０を介して視覚化することができる。

【0088】

このように、仮想試着画像生成部７００は、ユーザオブジェクトＵＯＢＪと服オブジェクトＣＯＢＪに対して１次的に画像調和を行い、該当合成画像と背景画像ＢＩＭＧに対して２次的に画像調和を行うことで、ユーザオブジェクトＵＯＢＪの特徴だけでなく、背景画像ＢＩＭＧにも合う服オブジェクトＣＯＢＪを含む、高品質の仮想試着画像ＶＴＩＭＧを生成することができる。シミュレーションゴルフのようなシミュレーションスポーツを提供するシステムがこのような仮想試着画像生成部７００を採用する場合、ユーザは、該当服が自分に似合うかどうかだけでなく、実際のゴルフ場とも似合うかどうかを確認することができ、これにより購買意欲を掻き立てることができる。

【0089】

図１２は、本発明の実施形態による仮想試着画像を提供する方法を示すフローチャートである。図１２の仮想試着画像の提供方法は、図３の画像提供装置３００によって行われることができる。

【0090】

図１２を参照すると、ステップＳ１１０において、カメラ（図３の１３０参照）から入力画像が受信される。

【0091】

ステップＳ１２０において、入力画像のうちのいずれか１つが選択され、選択された入力画像から得られるユーザオブジェクトが処理されてユーザオブジェクトのポーズを表すポーズ推定データが生成される。

【0092】

実施形態において、ユーザオブジェクトからユーザキーポイントの座標および／またはベクトルが検出され、検出されたユーザキーポイントがポーズ推定データとして提供されることができる。実施形態において、ディープラーニングに基づいて人オブジェクトからユーザキーポイントを感知するように学習されたニューラルネットワークを利用することによって、ユーザオブジェクトからユーザキーポイントを推定することができる。

【0093】

ステップＳ１３０において、ポーズ推定データが基準ポーズにマッチするか否かが判別される。このため、基準ポーズに対応する基準ポーズデータが備えられ、ポーズ推定データが基準ポーズデータと比較されることができる。基準ポーズデータは、基準ポーズに対応する基準キーポイントの座標および／またはベクトルを含むことができる。

【0094】

実施形態において、ユーザキーポイントのそれぞれと基準キーポイントのそれぞれの距離の平均がしきい値以下であると、ポーズ推定データが基準ポーズにマッチすると判別することができる。実施形態において、第１グループのキーポイントと第２グループのキーポイントが互いにマッチするか否かを判別するように学習されたニューラルネットワークを利用することにより、ユーザキーポイントが基準キーポイントにマッチするか否かが判別されることができる。ポーズ推定データが基準ポーズにマッチしないと、ステップＳ１４０が行われる。ポーズ推定データが基準ポーズにマッチすると、ステップＳ１５０が行われる。

【0095】

ステップＳ１４０において、受信された入力画像の中から他の入力画像が選択される。その後、ステップＳ１２０とステップＳ１３０が再び行われる。

【0096】

ステップＳ１５０において、ユーザオブジェクトに服オブジェクトが合成されて仮想試着画像を生成し、生成された仮想試着画像を表示する。

【0097】

シミュレーションスポーツにおいて、ユーザは、動きに応じて様々なポーズを取れることを考慮すると、ポーズ推定データが基準ポーズにマッチするか否かを判別し、判別結果に応じて該当ユーザオブジェクトに服オブジェクトを合成することによって、高品質の仮想試着画像が提供されることができる。例えば、仮想試着画像は、自然な試着姿を実現することができる。なお、本発明は、特定のポーズでのみユーザオブジェクトと服オブジェクトを合成することに限定されない。例えば、ゴルフのスイングの動作において、服オブジェクトとユーザオブジェクトを合成することも可能である。

【0098】

図１３は、図１２のステップＳ１５０の実施形態を示すフローチャートである。

【0099】

図１１とともに図１３を参照すると、ステップＳ２１０において、ユーザオブジェクトＵＯＢＪに服オブジェクトＣＯＢＪが合成されて第１合成画像ＳＹＮ１を生成する。実施形態において、人オブジェクトに任意の服オブジェクトを合成するように学習された第１畳み込みニューラルネットワーク（図１０の７１０参照）が備えられ、第１畳み込みニューラルネットワークにユーザオブジェクトＵＯＢＪおよびユーザオブジェクトＵＯＢＪにオーバーラップする服オブジェクトＣＯＢＪが入力されて、第１合成画像ＳＹＮ１を生成することができる。

【0100】

ステップＳ２２０において、第１合成画像ＳＹＮ１が背景画像ＢＩＭＧにオーバーラップし（図１１のＩＴＭ参照）、背景画像ＢＩＭＧおよび背景画像ＢＩＭＧにオーバーラップする第１合成画像ＳＹＮ１が合成されて第２合成画像ＳＹＮ２を生成する。実施形態において、背景画像に任意のオブジェクトを合成するように学習された第２畳み込みニューラルネットワーク（図１０の７２０参照）が備えられ、第２畳み込みニューラルネットワークに背景画像ＢＩＭＧおよびそれにオーバーラップする第１合成画像ＳＹＮ１が入力されて第２合成画像ＳＹＮ２を生成することができる。

【0101】

ステップＳ２３０において、第２合成画像ＳＹＮ２が仮想試着画像として提供される。

【0102】

このように、ユーザオブジェクトＵＯＢＪと服オブジェクトＣＯＢＪに対して１次的に画像調和を行い、該当合成画像と背景画像ＢＩＭＧに対して２次的に画像調和を行うことによって、ユーザオブジェクトＵＯＢＪの特徴だけでなく、背景画像ＢＩＭＧにも合う服オブジェクトＣＯＢＪを含む高品質の仮想試着画像ＶＴＩＭＧを生成することができる。

【0103】

図１４は、図３の画像提供装置を実現するためのコンピュータ装置の実施形態を示すブロック図である。

【0104】

図１４を参照すると、コンピュータ装置１０００は、バス１１００、少なくとも１つのプロセッサ１２００、システムメモリ１３００、格納媒体インターフェース１４００、通信インターフェース１５００、格納媒体１６００、通信機１７００、カメラインターフェース１８００、およびディスプレイインターフェース１９００を含む。

【0105】

バス１１００は、コンピュータ装置１０００の様々な構成要素に連結されてデータ、信号、および情報を伝達する。プロセッサ１２００は、汎用あるいは専用プロセッサのうちのいずれか１つであり、コンピュータ装置１０００の諸動作を制御することができる。

【0106】

プロセッサ１２００は、実行時に様々な機能を提供するプログラムコードおよび命令語をシステムメモリ１３００にロードし、ロードされたプログラムコードおよび命令語を処理するように構成される。システムメモリ１３００は、プロセッサ１２００のワーキングメモリおよび／またはバッファメモリとして提供されることができる。実施形態として、システムメモリ１３００は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、および他のタイプのコンピュータによって読み取り可能な媒体のうちの少なくとも１つを含むことができる。

【0107】

プロセッサ１２００は、プロセッサ１２００によって実行される際に、図３の画像提供器３１０の機能を提供する画像提供モジュール１３１０をシステムメモリ１３００にロードすることができる。このようなプログラムコードおよび／または命令語は、プロセッサ１２００によって実行されて、図３を参照して説明した画像提供器３１０の機能および／または動作を行うことができる。プログラムコードおよび／または命令語は、別のコンピュータによって読み取り可能な記録媒体である格納媒体１６００からシステムメモリ１３００にロードされることができる。または、プログラムコードおよび／または命令語は、コンピュータ装置１０００の外部から通信機１７００を介してシステムメモリ１３００にロードされてもよい。

【0108】

また、プロセッサ１２００は、プロセッサ１２００によって実行される際に、画像提供モジュール１３１０が実行されるに適した環境を提供するためのオペレーティングシステム１３２０をシステムメモリ１３００にロードし、ロードされたオペレーティングシステム１３２０を実行することができる。オペレーティングシステム１３２０は、画像提供モジュール１３１０がコンピュータ装置１０００の格納媒体インターフェース１４００、通信インターフェース１５００、カメラインターフェース１８００、およびディスプレイインターフェース１９００のような構成要素を利用できるように、それらと画像提供モジュール１３１０との間をインターフェースすることができる。実施形態において、格納媒体インターフェース１４００、通信インターフェース１５００、カメラインターフェース１８００、およびディスプレイインターフェース１９００の少なくとも一部の機能は、オペレーティングシステム１３２０によって行われることができる。

【0109】

図１４において、システムメモリ１３００は、プロセッサ１２００と区分された構成で示されているが、システムメモリ１３００の少なくとも一部はプロセッサ１２００に含まれてもよい。実施形態によっては、システムメモリ１３００は、物理的および／または論理的に互いに分離された複数のメモリとして提供されることができる。

【0110】

格納媒体インターフェース１４００は、格納媒体１６００に連結される。格納媒体インターフェース１４００は、バス１１００に連結されたプロセッサ１２００およびシステムメモリ１３００のような構成要素と格納媒体１６００との間をインターフェースすることができる。通信インターフェース１５００は、通信機１７００に連結される。通信インターフェース１５００は、バス１１００に連結された構成要素と通信機１７００との間をインターフェースすることができる。格納媒体インターフェース１４００および通信インターフェース１５００は、それぞれ図３の格納媒体インターフェース３５０および通信インターフェース３４０として提供されることができる。

【0111】

格納媒体１６００は、電源が遮断されても格納されたデータを保持する様々なタイプの不揮発性格納媒体、例えばフラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ｈａｒｄｄｉｓｋ）などを含むことができる。格納媒体１６００は、図３の格納媒体３５５の少なくとも一部として提供されることができる。

【0112】

通信機１７００（又はトランシーバ）は、コンピュータ装置１０００とネットワーク上のサーバ（例えば、図１の２０）との間の信号を送受信することができる。通信機１７００は、図３の通信機３４５として提供されることができる。

【0113】

カメラインターフェース１８００は、バス１１００に連結されたプロセッサ１２００及びシステムメモリ１３００のような構成要素と外部のカメラとの間をインターフェースすることができる。カメラインターフェース１８００は、図３のカメラインターフェース３３０として提供されることができる。

【0114】

ディスプレイインターフェース１９００は、バス１１００に連結されたプロセッサ１２００及びシステムメモリ１３００のような構成要素と外部のディスプレイ装置との間をインターフェースすることができる。ディスプレイインターフェース１９００は、図３のディスプレイインターフェース３２０として提供されることができる。

【0115】

以上、特定の実施形態および適用例が説明されたが、これは本発明のより全般的な理解を助けるために提供されたものにすぎず、本発明は前記の実施形態に限定されるものではなく、本発明の属する分野で通常の知識を有する者であれば、このような記載から様々な修正および変形が可能である。

【0116】

したがって、本発明の思想は、説明した実施形態に限定されてはならず、後述する特許請求の範囲だけでなく、特許請求の範囲と均等または等価的な変形のある全てのものが本発明の思想の範囲に属すると言える。

【符号の説明】

【0117】

１１０、３００画像提供装置
１２０ディスプレイ装置
１３０カメラ
３１０画像提供機
３２０ディスプレイインターフェース
３３０カメラインターフェース
３４５通信機
３５５格納媒体

【図1】