(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024093923
(43)【公開日】2024-07-09
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06T 19/00 20110101AFI20240702BHJP
G06T 15/04 20110101ALI20240702BHJP
G06T 15/50 20110101ALI20240702BHJP
【FI】
G06T19/00 A
G06T15/04
G06T15/50 600
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022210579
(22)【出願日】2022-12-27
(71)【出願人】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】バルソピア ヴィヴェク
(72)【発明者】
【氏名】ローハス メナンヅロ
【テーマコード(参考)】
5B050
5B080
【Fターム(参考)】
5B050AA03
5B050BA09
5B050BA12
5B050BA13
5B050CA07
5B050DA01
5B050EA04
5B050EA26
5B050FA02
5B050FA05
5B080AA13
5B080BA02
5B080CA00
5B080FA02
5B080GA22
(57)【要約】
【課題】画像変換の態様を拡張することができる情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】元画像取得手段(110)は、物体(O)を示す元画像(OI)を取得する。仮想画像生成手段(120)は、物体(O)を表す3Dモデル(M)と、照明データ(L)と、テクスチャデータ(T)と、に基づいて、仮想視点(VV)から見た、3Dモデル(M)が配置された仮想空間(VS)の様子を示す仮想画像(VI)を生成する。特徴抽出手段(130)は、元画像(OI)から元画像特徴量(OF)を抽出するとともに、仮想画像(VI)から仮想画像特徴量(VF)を抽出する。パラメータ調整手段(140)は、元画像特徴量(OF)と仮想画像特徴量(VF)との類似度が大きくなるように、照明データ(L)のパラメータ及びテクスチャデータ(T)のパラメータを調整する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
物体を示す元画像を取得する元画像取得手段と、
前記物体を表す3Dモデル、照明データ、及びテクスチャデータに基づいて、仮想視点から見た、前記3Dモデルが配置された仮想空間の様子を示す仮想画像を生成する仮想画像生成手段と、
前記元画像から元画像特徴量を抽出するとともに、前記仮想画像から仮想画像特徴量を抽出する特徴抽出手段と、
前記元画像特徴量と前記仮想画像特徴量との類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整するパラメータ調整手段と、
を有する、情報処理システム。
【請求項2】
前記元画像は、現実空間に配置された前記物体の撮影画像である、
請求項1に記載の情報処理システム。
【請求項3】
前記元画像特徴量は、前記元画像の各色の度数分布を示し、
前記仮想画像特徴量は、前記仮想画像の各色の度数分布を示し、
前記特徴抽出手段は、前記元画像から、前記元画像における前記物体の形状及び配置に関する情報を含む第1の中間特徴量を抽出し、前記第1の中間特徴量から前記元画像特徴量を抽出するとともに、前記仮想画像から、前記仮想画像における前記物体の形状及び配置に関する情報を含む第2の中間特徴量を抽出し、前記第2の中間特徴量から前記仮想画像特徴量を抽出する、
請求項1又は2に記載の情報処理システム。
【請求項4】
前記仮想画像生成手段は、互いに異なる複数の前記仮想視点のそれぞれにそれぞれが対応するとともに、当該仮想視点から見た前記仮想空間の様子を示す複数の前記仮想画像を生成し、
前記特徴抽出手段は、前記複数の仮想画像のそれぞれから、当該仮想画像に対応する仮想画像特徴量を抽出し、
前記パラメータ調整手段は、前記元画像特徴量と、前記複数の仮想画像のそれぞれに対応する仮想画像特徴量と、の類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整する、
請求項1又は2に記載の情報処理システム。
【請求項5】
前記3Dモデルと、前記パラメータ調整手段によりパラメータが調整された前記照明データ及び前記テクスチャデータと、に基づいて、前記元画像とは異なる、前記物体を示す画像である変換画像を生成する変換画像生成手段を更に有する、
請求項1又は2に記載の情報処理システム。
【請求項6】
物体を示す元画像を取得する元画像取得ステップと、
前記物体を表す3Dモデル、照明データ、及びテクスチャデータに基づいて、仮想視点から見た、前記3Dモデルが配置された仮想空間の様子を示す仮想画像を生成する仮想画像生成ステップと、
前記元画像から元画像特徴量を抽出するとともに、前記仮想画像から仮想画像特徴量を抽出する特徴抽出ステップと、
前記元画像特徴量と前記仮想画像特徴量との類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整するパラメータ調整ステップと、
を有する、情報処理方法。
【請求項7】
物体を示す元画像を取得する元画像取得手段、
前記物体を表す3Dモデル、照明データ、及びテクスチャデータに基づいて、仮想視点から見た、前記3Dモデルが配置された仮想空間の様子を示す仮想画像を生成する仮想画像生成手段、
前記元画像から元画像特徴量を抽出するとともに、前記仮想画像から仮想画像特徴量を抽出する特徴抽出手段、
前記元画像特徴量と前記仮想画像特徴量との類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整するパラメータ調整手段、
としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
物体を示す元画像に対して画像変換を行い、元画像と異なる、前記物体を示す画像を得る技術が知られている。例えば、元画像に対して、回転や拡大・縮小、明るさの変更、色調の変更等の操作を行うことにより、様々な画像を大量に得ることができる。このようにして得られた大量の画像は、例えば、画像認識用の機械学習モデルの学習データとして用いられる(下記特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記従来技術では、画像変換の態様は限られている。例えば、元画像が示す物体の向きやポーズ、形状、配置を変えることは、上記従来技術では困難である。
【0005】
本発明は、上記課題に鑑みてなされたものであって、その目的は、画像変換の態様を拡張する情報処理システム、情報処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示に係る情報処理システムは、物体を示す元画像を取得する元画像取得手段と、前記物体を表す3Dモデル、照明データ、及びテクスチャデータに基づいて、仮想視点から見た、前記3Dモデルが配置された仮想空間の様子を示す仮想画像を生成する仮想画像生成手段と、前記元画像から元画像特徴量を抽出するとともに、前記仮想画像から仮想画像特徴量を抽出する特徴抽出手段と、前記元画像特徴量と前記仮想画像特徴量との類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整するパラメータ調整手段と、を有する。
【図面の簡単な説明】
【0007】
【
図1】本実施形態の情報処理システムのハードウェア構成の一例を示す図である。
【
図2】本実施形態の情報処理システムの処理の概要を示す図である。
【
図3】本実施形態の情報処理システムで実現される機能の一例を示す機能ブロック図である。
【
図5】複数の仮想視点のそれぞれから見た仮想画像を生成する様子を示す図である。
【
図6】本実施形態の情報処理システムにおいて実行される処理の一例を示すフロー図である。
【
図7】本実施形態の情報処理システムにおいて実行される処理の一例を示すフロー図である。
【発明を実施するための形態】
【0008】
[1.本実施形態の情報処理システムのハードウェア構成]
以下、本開示に係る情報処理システムの実施形態の一例を説明する。
図1は、本実施形態の情報処理システム1のハードウェア構成の一例を示す図である。
図1に示すように、情報処理システム1は、例えば、サーバコンピュータやパーソナルコンピュータ等のコンピュータであり、制御部11、記憶部12、通信部13、操作部14及び表示部15を含む。なお、
図1には、情報処理システム1が1台のコンピュータにより構成される場合を示すが、情報処理システム1は、複数台のコンピュータにより構成されていてもよい。
【0009】
制御部11は、少なくとも1つのプロセッサを含む。記憶部12は、RAM等の揮発性メモリと、フラッシュメモリ等の不揮発性メモリと、を含む。通信部13は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。操作部14は、キーボード、マウス、又はタッチパネル等の入力デバイスである。表示部15は、液晶ディスプレイ又は有機ELディスプレイ等のディスプレイである。
【0010】
なお、記憶部12に記憶されるプログラムは、ネットワークNを介して供給されてもよい。また、コンピュータ読み取り可能な情報記憶媒体に記憶されたプログラムが、情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)、又は、外部機器とデータの入出力をするための入出力部(例えば、USBポート)を介して供給されてもよい。
【0011】
[2.本実施形態の情報処理システムの概要]
以下、本実施形態の情報処理システム1の概要を説明する。
図2は、本実施形態の情報処理システム1の処理の概要を示す図である。
【0012】
図2に示すように、本実施形態の情報処理システム1は、元画像OIが示す物体Oの外観と、物体Oを表す3DモデルM、照明データL及びテクスチャデータTに基づいて生成した仮想画像VIが示す物体Oの外観と、の類似度が大きくなるように、照明データL及びテクスチャデータTのパラメータを調整する。元画像OIが示す物体Oの外観と仮想画像VIが示す物体Oの外観との類似度の評価は、具体的には、元画像OIから抽出した元画像特徴量OFと仮想画像VIから抽出した仮想画像特徴量VFとの類似度を評価することにより行われる。なお、本明細書において、「物体Oの外観」は、物体Oの向きやポーズ、形状、配置以外の物体Oの見た目(例えば色や材質感等)を意味するものとする。
【0013】
本実施形態の情報処理システム1によれば、上記した照明データL及びテクスチャデータTのパラメータ調整により、元画像OIが示す物体Oの外観を反映した照明データL及びテクスチャデータTを得ることができる。そして、こうして得られた照明データL及びテクスチャデータTを用いて、3DモデルMを種々の条件下でレンダリングすることにより、元画像OIを様々な態様で変換した画像を得ることができる。なお、本明細書において、「変換」の語は広義に用いられる。すなわち、元画像OIを「変換」するとは、物体Oを示す元画像OIに基づいて、元画像OIとは異なる、物体Oを示す画像(以下、「変換画像」という。)を得ることを意味するものとし、元画像OIに対して何らかの操作を行い、元画像OIから直接的に変換画像を得ることのみを意味するものではない。以降、本実施形態の情報処理システム1の詳細について説明する。
【0014】
[3.本実施形態の情報処理システムにおいて実現される機能]
以下、
図2を参照しつつ、
図3に示す本実施形態の情報処理システム1で実現される機能について説明する。
【0015】
図3は、本実施形態の情報処理システム1で実現される機能の一例を示す機能ブロック図である。
図3に示すように、本実施形態では、元画像記憶部100、3Dモデル記憶部101、照明データ記憶部102、テクスチャデータ記憶部103、特徴抽出器記憶部104、元画像取得部110、仮想画像生成部120、特徴抽出部130、パラメータ調整部140、及び変換画像生成部150が、情報処理システム1で実現される。元画像記憶部100、3Dモデル記憶部101、照明データ記憶部102、テクスチャデータ記憶部103、及び特徴抽出器記憶部104は、記憶部12を主として実現される。元画像取得部110、仮想画像生成部120、特徴抽出部130、パラメータ調整部140、及び変換画像生成部150は、制御部11を主として実現される。
【0016】
[元画像記憶部]
元画像記憶部100は、元画像OIを記憶する。
【0017】
図2に示すように、元画像OIは、物体Oを示す画像である。
【0018】
物体Oは、一定の形状と大きさを有する物体である。本実施形態では、例として、物体Oは犬である。なお、物体Oは、人や動物、植物等の生物であってもよいし、石や山、建物等の無生物であってもよい。
【0019】
元画像OIは、物体Oの一部又は全部を示す。本実施形態では、元画像OIに物体Oの全部が示されるが、元画像OIは物体Oの一部のみが示されてもよい。また、本実施形態では、元画像OIが示す物体Oは1つであるが、元画像OIが示す物体Oは複数であってもよい。元画像OIが示す物体Oが複数である場合、各物体Oは互いに同じ種類のものであってもよいし、互いに異なる種類のものであってよい。本実施形態の例に即して説明すれば、元画像OIは、犬のほかにも、鳥や木、山等を示してもよい。
【0020】
本実施形態では、元画像OIは、現実空間に配置された物体Oの撮影画像である。これにより、現実空間に配置された物体Oの撮影画像から、現実には存在しない形態の物体Oを示す変換画像を得ることができる。一例として、本実施形態の情報処理システム1を用いて、現実空間に配置された新品のネジの撮影画像を変換することにより、現実に存在しない形態の当該ネジを示す変換画像(錆びたネジを示す画像や折れ曲がったネジを示す画像、駆動部が潰れたネジを示す画像等)を得ることができる。このようにして得られた多様な形態のネジを示す変換画像は、例えば不良品検出用の機械学習モデルの学習データとして用いることができる。なお、元画像OIは、現実空間に配置された物体Oの撮影画像に限られず、例えば、手描きの絵画や3Dモデルのレンダリング画像であってもよい。
【0021】
[元画像取得部]
元画像取得部110は、元画像OIを取得する。本実施形態では、元画像OIは、元画像記憶部100に記憶されているので、元画像取得部110は、元画像記憶部100から元画像OIを取得する。なお、元画像OIは、外部の情報記憶媒体又はコンピュータに記憶されていてもよい。この場合、元画像取得部110は、外部の情報記憶媒体又はコンピュータから元画像OIを取得してもよい。
【0022】
[3Dモデル記憶部]
3Dモデル記憶部101は、3DモデルMについてのデータを記憶する。
【0023】
図2に示すように、3DモデルMは、物体Oを表すモデルである。3DモデルMは、物体Oの立体形状を表す少なくとも1つのポリゴンによって構成される。本実施形態では、3DモデルMは、物体Oの立体形状を表すメッシュデータに相当し、後述のテクスチャデータTを含まないモデルデータに相当する。本実施形態では、3DモデルMはソリッドモデルとするが、3DモデルMはワイヤフレームモデルやサーフェスモデルであってもよい。本実施形態では、3DモデルMは、3D-CAD等の任意の3DCGソフトウェアにより予め作成されているものとする。3DモデルMについてのデータは、3DモデルMのポリゴンを定義する各頂点の3次元座標を示す。本実施形態では、3DモデルMについてのデータは3Dモデル記憶部101に記憶されるが、3DモデルMについてのデータは、外部の情報記憶媒体又はコンピュータに記憶されていてもよい。
【0024】
3DモデルMの数は、元画像OIが示す物体Oの数と同数である。本実施形態では、元画像OIが示す物体Oが1つであるため、3DモデルMの数も1つである。
【0025】
ところで、「物体Oを表す」とは、元画像OIが示す物体Oと同位概念の物体の立体形状を表すことを意味し、元画像OIが示す物体Oそのものの立体形状を表すことを必ずしも意味しない。例えば、元画像OIが示す物体Oが「ジョン」と名付けられた個体のビーグル犬である場合、3DモデルMは、元画像OIが示す物体Oと同位概念の物体であるビーグル犬の立体形状を表すものであれば足り、「ジョン」と名付けられた個体のビーグル犬そのものの立体形状を表すものである必要は無い。
【0026】
なお、3DモデルMは、元画像OIが示す物体Oそのものの立体形状を表すものであることが好ましい。これにより、元画像OIが示す物体Oの外観及び形状を高い精度で維持しつつ、元画像OIが示す物体Oの向き、ポーズ、又は位置を変化させた変換画像を得ることができる。
【0027】
[照明データ記憶部]
照明データ記憶部102は、照明データLを記憶する。
【0028】
照明データLは、3DモデルMに光を照射する光源についてのデータである。具体的には、照明データLは、例えば、光源から照射される光の強度及び色、並びに、後述する仮想空間VSにおける光源の位置及び向きをパラメータとして含む。なお、照明データLが含むパラメータはこれらに限られず、照明データLは、これら以外のパラメータを含んでもよいし、これらのパラメータを含まなくてもよい。光源としては、点光源、線光源、面光源、ボリューム光源等、任意の光源が利用可能である。また、イメージベースドライティングを利用する場合は、現実世界の全方向の光情報をキャプチャした画像が光源として利用されてもよい。
【0029】
[テクスチャデータ記憶部]
テクスチャデータ記憶部103は、テクスチャデータTを記憶する。
【0030】
テクスチャデータTは、3DモデルMの表面に設定されるテクスチャについてのデータである。テクスチャは、質感とも呼ばれ、例えば、物体Oの色、光沢感、透明度、金属感、凹凸等を含む。テクスチャデータTは、具体的には、3DモデルMの表面に設定されるテクスチャを示す画像データである。本実施形態では、テクスチャデータTは、例えば、物体O表面の拡散反射率(アルベド)、法線ベクトル(ノーマル)、鏡面反射率、メタリック、粗さ(ラフネス)、光沢、異方度、透明度等をパラメータとして含む。なお、テクスチャデータTが含むパラメータはこれらに限られず、テクスチャデータTは、これら以外のパラメータを含んでもよいし、これらのパラメータを含まなくてもよい。
【0031】
[仮想画像生成部]
以下、
図4を参照しつつ、仮想画像生成部120の処理を説明する。
図4は、仮想画像を生成する様子を示す図である。
【0032】
図2及び
図4に示すように、仮想画像生成部120は、3DモデルM、照明データL及びテクスチャデータTに基づいて、仮想視点VVから見た、3DモデルMが配置された仮想空間VSの様子を示す仮想画像VIを生成する。別の言い方をすれば、仮想画像生成部120は、照明データL、テクスチャデータT、及び仮想視点VVをレンダリング条件として、3DモデルMのレンダリング処理を行うということもできる。また、別の言い方をすれば、仮想画像生成部120は、3DモデルM、照明データL及びテクスチャデータTに基づいて、物理ベースレンダリングを行い、レンダリング画像を生成するということもできる。また、別の言い方をすれば、仮想画像生成部120は、元画像OIが示す物体Oに係る新視点画像を生成するということもできる、なお、レンダリング条件は、上記以外に、例えば仮想空間VSの背景画像や、生成する仮想画像VIの解像度・アスペクト比等を含んでもよい。仮想画像VIの生成には、フォワードレンダリング、ディファードレンダリング等の種々の公知のレンダリング手法(レンダリングパイプライン)が利用可能である。
【0033】
仮想空間VSは、仮想的な3次元空間である。仮想空間VSには、互いに直交する3つの座標軸が設定される。これら3つの座標軸は、ワールド座標系の座標軸である。原点は任意の位置であってよく、仮想空間VS内の位置は3次元座標で表される。なお、仮想画像生成部120では、仮想空間VSには背景画像が設定されてもよい。背景画像は、例えば、木や山、空等の風景を示す画像である。
【0034】
仮想視点VVは、仮想カメラとも呼ばれるものであり、ビュー座標系の座標軸を定義する。仮想画像生成部120では、仮想視点VVのパラメータ(位置・画角・拡大倍率等)が設定される。
【0035】
以下、
図5を用いて、仮想画像生成部120の詳細な処理を説明する。
図5は、複数の仮想視点のそれぞれから見た仮想画像を生成する様子を示す図である。
【0036】
すなわち、
図5に示すように、仮想画像生成部120は、より具体的には、互いに異なる複数の仮想視点VV1,VV2,VV3のそれぞれにそれぞれが対応するとともに、当該仮想視点から見た仮想空間VSの様子を示す複数の仮想画像VI1,VI2,VI3を生成する。なお、本実施形態では、仮想視点の数は3つであるが、仮想視点の数は、これより少なくてもよく、これより多くてもよい。
【0037】
本実施形態の情報処理システム1は、上記のように、複数の仮想視点VV1,VV2,VV3のそれぞれから見た仮想空間VSの様子を示す仮想画像VIを生成する。すなわち、本実施形態の情報処理システム1は、元画像OIが示す物体Oの外観を、複数の仮想視点VV1,VV2,VV3のそれぞれから見た物体Oの外観に反映させることができる。これにより、後述するように、元画像OIが示す物体Oの向きやポーズ、形状、配置を変えた変換画像において、元画像OIが示す物体Oの外観を好適に保つことができる。
【0038】
[特徴抽出器記憶部]
特徴抽出器記憶部104は、特徴抽出部130での処理に用いられる特徴抽出器を記憶する。具体的には、特徴抽出器記憶部104は、特徴抽出器のプログラム及びパラメータを記憶する。
【0039】
特徴抽出器は、画像の特徴を抽出する学習済みの機械学習モデルである。特徴抽出器は、後述する第1の中間特徴量及び第2の中間特徴量の抽出に用いられる。本実施形態では、特徴抽出器として、学習済みのCNN(Convolutional Neural Network)から全結合層を除いたものが用いられる。なお、特徴抽出器としては、CNNから全結合層を除いたもの以外にも、学習済みの公知の機械学習モデルが利用可能である。
【0040】
[特徴抽出部]
特徴抽出部130は、元画像OIから元画像特徴量OFを抽出するとともに、仮想画像VIから仮想画像特徴量VFを抽出する。本実施形態では、特徴抽出部130は、複数の仮想画像VI1,VI2,VI3のそれぞれから、当該仮想画像に対応する仮想画像特徴量VFを抽出する。
【0041】
具体的には、特徴抽出部130は、元画像OIから第1の中間特徴量を抽出し、第1の中間特徴量から元画像特徴量OFを抽出する。また、特徴抽出部130は、仮想画像VIから第2の中間特徴量を抽出し、第2の中間特徴量から仮想画像特徴量VFを抽出する。特徴抽出部130は、第1の中間特徴量及び第2の中間特徴量を、それぞれ先述の特徴抽出器を用いて抽出する。
【0042】
第1の中間特徴量は、元画像OIにおける物体Oの形状及び配置に関する情報を含む。また、第2の中間特徴量は、仮想画像VIにおける物体Oの形状及び配置に関する情報を含む。本実施形態では、学習済みのCNNから全結合層を除いたものを特徴抽出器として用いるので、具体的には、第1の中間特徴量及び第2の中間特徴量は、それぞれ、CNNの畳み込み層から出力される特徴マップである。ここで、特徴マップの数は、フィルタ(カーネル)の数と同数である。
【0043】
ここで、元画像特徴量OFは、元画像OIの各色の度数分布を示す特徴量である。また、仮想画像特徴量VFは、仮想画像VIの各色の度数分布を示す特徴量である。別の言い方をすれば、元画像特徴量OFは、元画像OIにおける物体Oの形状及び配置に関する情報を含まない特徴量である。また、仮想画像特徴量VFは、仮想画像VIにおける物体Oの形状及び配置に関する情報を含まない特徴量である。本実施形態では、元画像特徴量OF及び仮想画像特徴量VFは、それぞれ、CNN等の学習済みの特徴抽出器から出力可能な特徴量に相当するベクトル表現であってよい。本実施形態では、具体的には、元画像特徴量OF及び仮想画像特徴量VFは、それぞれ、CNNの畳み込み層から出力される特徴マップ同士の相関を計算することによって得られるグラム行列である。このグラム行列は、具体的には、CNNの畳み込み層から出力される特徴マップ同士の内積を計算することによって得られる。画像特徴量は、テクスチャパターンの度数分布をあわせて示す特徴量であってよい。
【0044】
[パラメータ調整部]
パラメータ調整部140は、元画像特徴量OFと仮想画像特徴量VFとの類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。すなわち、パラメータ調整部140は、元画像OIの各色の度数分布を示す特徴量と仮想画像VIの各色の度数分布を示す特徴量との類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。パラメータ調整部140は、元画像OIの配色と仮想画像VIの配色との類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整するということもできる。これにより、本実施形態の情報処理システム1は、元画像OIにおける物体Oの配置と、仮想画像VIにおける物体Oの配置と、が異なっていても、元画像OIが示す物体Oの外観を、変換画像が示す物体Oの外観に的確に反映させることができる。
【0045】
具体的には、パラメータ調整部140は、元画像特徴量OFと仮想画像特徴量VFとに基づいて、損失を計算し、当該損失が小さくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。損失の計算自体は、二乗誤差やクロスエントロピー等の公知の計算方法が利用可能である。また、照明データLのパラメータ及びテクスチャデータTのパラメータの調整自体は、勾配降下法や誤差逆伝播法等の公知のパラメータ調整方法が利用可能である。なお、パラメータ調整部140では、特徴抽出器に係るパラメータ(重み係数やバイアス等)は調整されず固定されたままである。
【0046】
本実施形態では、パラメータ調整部140は、元画像特徴量OFと、複数の仮想画像VI1,VI2,VI3のそれぞれに対応する仮想画像特徴量VFと、の類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。具体的には、まず、パラメータ調整部140は、元画像特徴量OFと仮想画像VI1に対応する仮想画像特徴量VFとの類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。次に、パラメータ調整部140は、元画像特徴量OFと仮想画像VI2に対応する仮想画像特徴量VFとの類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。最後に、パラメータ調整部140は、元画像特徴量OFと仮想画像VI3に対応する仮想画像特徴量VFとの類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する。
【0047】
ここで、元画像OIが示す物体Oの向きと、最初にパラメータ調整部140での処理に供される仮想画像特徴量VFに対応する仮想画像VI1が示す物体Oの向きと、は一致していることが好ましい。これにより、照明データLのパラメータ及びテクスチャデータTのパラメータの調整に係る処理負荷が軽減される。
【0048】
なお、パラメータ調整部140は、仮想空間VSに背景画像が設定される場合、照明データLのパラメータ及びテクスチャデータTのパラメータに加え、当該背景画像のパラメータを調整してもよい。
【0049】
なお、上記した特徴抽出部130及びパラメータ調整部140は、例えば、参考文献(Gatys, L.A., Ecker, A.S., Bethge, M.: Image style transfer using convolutional neural networks. In: CVPR. (2016))の記載に従って構成されてもよい。
【0050】
[変換画像生成部]
変換画像生成部150は、3DモデルMと、パラメータ調整部140によりパラメータが調整された照明データL及びテクスチャデータTと、に基づいて、変換画像を生成する。変換画像は、元画像OIのバリエーションであるということもできる。変換画像生成部150で実行される処理の内容は仮想画像生成部120と同様である。
【0051】
本実施形態の情報処理システム1は、上記のように、パラメータ調整した照明データL及びテクスチャデータTを用いて変換画像を生成する。この変換画像の生成の際に、種々の条件(3DモデルMの位置・ポーズ・形状・向き、仮想視点VVの位置・拡大倍率・画角等)を変化させることによって、様々な変換画像を生成することができる。また、変換画像の生成の際に、照明データLのパラメータやテクスチャデータTのパラメータを更に調整し、照明の位置・明るさや、物体O表面に設定されるテクスチャを変化させることによって、より様々な変換画像を生成することができる。
【0052】
また、本実施形態の情報処理システム1によれば、上記のような様々な変換画像を大量に生成することが容易となる。このようにして得られた大量の変換画像は、例えば、画像認識用の機械学習モデルの学習データとして利用することができる。
【0053】
なお、本実施形態の情報処理システム1の用途は、上記した変換画像の生成に限られない。例えば、本実施形態の情報処理システム1は、ビデオゲームに登場するゲームオブジェクトの作成に用いることもできる。すなわち、(1)物体Oとしてゲームキャラクターを示す元画像OIが作成される。(2)当該ゲームキャラクターを表す3DモデルM、照明データL、及びテクスチャデータTに基づいて、仮想画像VIが生成される。(3)上記のパラメータ調整を行うことによって、元画像OIの外観を反映させたゲームオブジェクトが得られる。
【0054】
[4.本実施形態の情報処理システムにおいて実行される処理]
最後に、
図6及び
図7を用い、本実施形態の情報処理システム1において実行される処理について説明する。
図6及び
図7は、本実施形態の情報処理システム1において実行される処理の一例を示すフロー図である。
図6及び
図7に示す処理は、制御部11が記憶部12に記憶されたプログラムに従って動作することによって実行される。下記に説明する処理は、
図3に示す機能ブロックにより実行される処理の一例である。
【0055】
図6に示すように、まず、制御部11は、記憶部12から元画像OIを取得する(S100)。制御部11は、取得した元画像OIから、第1の中間特徴量を抽出する(S101)。制御部11は、更に第1の中間特徴量から元画像特徴量OFを抽出し、抽出した元画像特徴量OFを記憶部12に格納する(S102)。
【0056】
図7に移り、制御部11は、仮想視点VVを設定する(S103)。具体的には、制御部11は、仮想視点VVの位置・画角・拡大倍率等のパラメータを設定する。次いで、制御部11は、記憶部12から、3DモデルM、照明データL、及びテクスチャデータTを取得し(S104)、これらに基づいて、仮想画像VIを生成する(S105)。
【0057】
制御部11は、生成した仮想画像VIから第2の中間特徴量を抽出する(S106)。記憶部12は、更に第2の中間特徴量から仮想画像特徴量VFを抽出し、抽出した仮想画像特徴量VFを記憶部12に格納する(S107)。制御部11は、記憶部12に格納された元画像特徴量OFと仮想画像特徴量VFとの類似度が大きくなるように、照明データLのパラメータ及びテクスチャデータTのパラメータを調整する(S108)。
【0058】
制御部11は、元画像特徴量OFと仮想画像特徴量VFとの類似度が所定の条件を満たしておらず、照明データLのパラメータ及びテクスチャデータTのパラメータの調整を再度繰り返すと判定した場合(S109;N)、S105からS108の処理を再度実行する。具体的には、制御部11は、元画像特徴量OFと仮想画像特徴量VFとに基づいて計算される損失が所定の閾値未満になるまで、照明データLのパラメータ及びテクスチャデータTのパラメータの調整を繰り返す。
【0059】
一方、制御部11は、元画像特徴量OFと仮想画像特徴量VFとの類似度が所定の条件を満たし、パラメータ調整を終了すると判定した場合(S109;Y)、次いで、仮想視点VVを変えて仮想画像VIを生成するか否かを判定する(S110)。制御部11は、仮想視点VVを変えて仮想画像VIを生成すると判定した場合(S110;N)、S103からS109の処理を再度実行する。具体的には、制御部11は、所定数の仮想視点VVのそれぞれについて、S103からS109の処理を繰り返す。一方、制御部11は、仮想視点VVを変えて仮想画像VIを生成しないと判定した場合(S110;Y)、本処理を終了する。
【0060】
[5.付記]
例えば、本開示に係る情報処理システムは、下記のような構成も可能である。
【0061】
(1)
物体を示す元画像を取得する元画像取得手段と、
前記物体を表す3Dモデル、照明データ、及びテクスチャデータに基づいて、仮想視点から見た、前記3Dモデルが配置された仮想空間の様子を示す仮想画像を生成する仮想画像生成手段と、
前記元画像から元画像特徴量を抽出するとともに、前記仮想画像から仮想画像特徴量を抽出する特徴抽出手段と、
前記元画像特徴量と前記仮想画像特徴量との類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整するパラメータ調整手段と、
を有する、情報処理システム。
【0062】
(2)
前記元画像は、現実空間に配置された前記物体の撮影画像である、
(1)に記載の情報処理システム。
【0063】
(3)
前記元画像特徴量は、前記元画像の各色の度数分布を示し、
前記仮想画像特徴量は、前記仮想画像の各色の度数分布を示し、
前記特徴抽出手段は、前記元画像から、前記元画像における前記物体の形状及び配置に関する情報を含む第1の中間特徴量を抽出し、前記第1の中間特徴量から前記元画像特徴量を抽出するとともに、前記仮想画像から、前記仮想画像における前記物体の形状及び配置に関する情報を含む第2の中間特徴量を抽出し、前記第2の中間特徴量から前記仮想画像特徴量を抽出する、
(1)又は(2)に記載の情報処理システム。
【0064】
(4)
前記仮想画像生成手段は、互いに異なる複数の前記仮想視点のそれぞれにそれぞれが対応するとともに、当該仮想視点から見た前記仮想空間の様子を示す複数の前記仮想画像を生成し、
前記特徴抽出手段は、前記複数の仮想画像のそれぞれから、当該仮想画像に対応する仮想画像特徴量を抽出し、
前記パラメータ調整手段は、前記元画像特徴量と、前記複数の仮想画像のそれぞれに対応する仮想画像特徴量と、の類似度が大きくなるように、前記照明データのパラメータ及び前記テクスチャデータのパラメータを調整する、
(1)から(3)のいずれかに記載の情報処理システム。
【0065】
(5)
前記3Dモデルと、前記パラメータ調整手段によりパラメータが調整された前記照明データ及び前記テクスチャデータと、に基づいて、前記元画像とは異なる、前記物体を示す画像である変換画像を生成する変換画像生成手段を更に有する、
(1)から(4)のいずれかに記載の情報処理システム。
【0066】
以上に説明した本実施形態の情報処理システム1によれば、画像変換の態様を拡張することができる。
【符号の説明】
【0067】
1 情報処理システム、N ネットワーク、11 制御部、12 記憶部、13 通信部、14 操作部、15 表示部、100 元画像記憶部、101 3Dモデル記憶部、102 照明データ記憶部、103 テクスチャデータ記憶部、104 特徴抽出器記憶部、110 元画像取得部、120 仮想画像生成部、130 特徴抽出部、140 パラメータ調整部、150 変換画像生成部、OI 元画像、O 物体、M 3Dモデル、L 照明データ、T テクスチャデータ、VI,VI1,VI2,VI3 仮想画像、OF 元画像特徴量、VF 仮想画像特徴量、VV,VV1,VV2,VV3 仮想視点、VS 仮想空間。