(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-01-19
(54)【発明の名称】教師あり学習のための非ペアデータを使用する画像から画像への変換
(51)【国際特許分類】
G06T 3/00 20060101AFI20230112BHJP
G06T 1/40 20060101ALI20230112BHJP
【FI】
G06T3/00 705
G06T1/40
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022528306
(86)(22)【出願日】2020-11-12
(85)【翻訳文提出日】2022-06-27
(86)【国際出願番号】 CA2020051532
(87)【国際公開番号】W WO2021092686
(87)【国際公開日】2021-05-20
(32)【優先日】2019-11-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】391023932
【氏名又は名称】ロレアル
【氏名又は名称原語表記】L’OREAL
【住所又は居所原語表記】14 Rue Royale,75008 PARIS,France
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】エルモズニーノ・エリック
(72)【発明者】
【氏名】ケゼル・イリーナ
(72)【発明者】
【氏名】アーラビ・パラム
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CE06
5B057CH20
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC36
5B057DC40
(57)【要約】
教師あり学習のために非ペアデータセットを適応させることで、効率的な画像から画像への変換を生成するコンピューティングシステム及び方法等の技法が提供される。第1モデルは、教師なし学習を使用して定義され、調整され、非ペアデータセットから合成されたペアデータセットを生成し、画像を第1領域から第2領域に変換し、画像を第2領域から第1領域に変換する。生成された合成データは、教師あり学習の正解データとして有用である。第1モデルは、ペアデータセットの品質を向上させるために、非ペアデータセットを過剰適合するように調整されても良い。ターゲットデバイスのためのランタイムモデルは、合成されたペアデータセット及び教師あり学習を使用して学習される。ランタイムモデルは、ターゲットデバイスの処理リソースを満たすためにコンパクトで高速である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像から画像への変換のためのモデルを学習する方法であって、
a.教師なし学習技法を使用して、第1領域空間内の画像の第1サブセットと第2領域空間内の画像の第2サブセットとを含む画像の非ペアデータセットを使用して、前記非ペアデータセットから合成された画像のペアデータセットを生成するように学習された強力な画像変換モデルを学習すること、
b.前記強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用して、画像を前記第1領域から前記第2領域に変換するように学習されたランタイムモデルであって、前記強力な画像変換モデルと比較してコンパクトで高速なモデルで構成されるランタイムモデルを学習すること、
を含む方法。
【請求項2】
前記強力な画像変換モデルを学習することは、前記強力な画像変換モデルを前記画像の非ペアデータセットに過剰適合させることを含む請求項1記載の方法。
【請求項3】
前記強力な画像変換モデルは、
前記画像に適用される効果に従って、前記画像を前記第1領域空間から前記第2領域空間に変換し、
前記第1領域空間で定義された前記画像の第1サブセットには効果を適用せず、前記第2領域空間で定義された前記画像の第2サブセットには効果を適用するものである請求項1又は2に記載の方法。
【請求項4】
前記複数の非ペアデータセット画像に関し、
a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、
b.第2領域空間における画像の第2サブセットの各々は、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである請求項1から3のいずれかに記載の方法。
【請求項5】
前記強力な画像変換モデルは、前記複数の非ペアデータセット画像の周辺分布を使用した前記複数の非ペアデータセット画像の同時分布を学習する機械学習モデルを含む請求項1から4のいずれかに記載の方法。
【請求項6】
前記強力な画像変換モデルは、前記複数の非ペアデータセット画像を使用して学習される敵対的生成ネットワークを含む請求項1から5のいずれかに記載の方法。
【請求項7】
前記敵対的生成ネットワークは、前記複数の非ペアデータセット画像を使用して学習する前の部分的に学習されたネットワークを含む請求項6記載の方法。
【請求項8】
前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである請求項1から7のいずれかに記載の方法。
【請求項9】
前記効果は、製品および/またはサービスに関連付けられ、前記方法は、前記ランタイムモデルを前記製品および/またはサービスを購入するためにeコマースサービスと対話するためのインターフェースを有するランタイムアプリケーションに組み込まれることを含む請求項1から8のいずれかに記載の方法。
【請求項10】
前記ランタイムモデルは、前記強力な画像変換モデルが学習される開発者コンピュータよりも少ない記憶および処理リソースを有するターゲットデバイスに記憶されて実行されるように構成される請求項1から9のいずれかに記載の方法。
【請求項11】
前記方法は、ランタイムデバイスに配信するための前記ランタイムモデルを通信することを含み、
前記ランタイムデバイスは、前記ランタイムモデルを実行するのに少なくとも十分な性能基準を満たす処理リソースおよび記憶リソースを含み、前記ランタイムデバイスにより強力な画像変換モデルを実行するのに不十分な性能基準を満たす処理リソース及び記憶リソースを含むものである請求項1から9のいずれかに記載の方法。
【請求項12】
前記ランタイムモデルは、前記ターゲットデバイスを介して、仮想現実、拡張現実または混合現実体験を提供するリアルタイムアプリケーションのコンポーネントとして、又は、リアルタイムアプリケーションによる実行のために構成されることを含む請求項1から11のいずれかに記載の方法。
【請求項13】
ランタイムモデルを学習するのに使用するために、品質尺度に応答して、合成された画像のペアデータセットから画像のペアを選択することを含む請求項1から12のいずれかに記載の方法。
【請求項14】
プロセッサ及び記憶ユニットを備えるコンピューティングデバイスであって、請求項1から13のいずれかに記載の方法を実行するための命令が前記記憶ユニットに記憶されるコンピューティングデバイス。
【請求項15】
処理ユニット及び記憶ユニットを備えるコンピューティングデバイスであって、
前記記憶ユニットには、命令と請求項1から13のいずれかに記載の方法により学習された前記ランタイムモデルとが記憶され、
前記命令が前記処理ユニットによって実行されたときに、前記ランタイムモデルを使用して、前記第1領域からの画像を変換して前記第2領域内に画像を生成するように構成されるコンピューティングデバイス。
【請求項16】
処理ユニット及び記憶ユニットを備え、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義するためのコンピューティングデバイスであって、
前記記憶ユニットには、
i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、
ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、以下のように構成される第1モデル、
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、
が記憶され、
前記処理ユニットは、
前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、
前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、
前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、
学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように構成されるコンピューティングデバイス。
【請求項17】
前記処理ユニットは、前記第1モデルを過剰学習して、前記複数非ペア画像に対する性能を最大化するように構成される請求項16記載のコンピューティングデバイス。
【請求項18】
前記複数の非ペア画像に関し、
a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、
b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである請求項16又は17に記載のコンピューティングデバイス。
【請求項19】
前記記憶デバイスは、品質尺度を使用して前記第1サブセットと第1偽画像と前記第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを記憶し、
前記処理ユニットは、前記ランタイムモデルを学習するための前記ペア画像を決定するために前記フィルタを使用するように構成される請求項16から18のいずれかに記載のコンピューティングデバイス。
【請求項20】
前記第1モデルは、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の同時分布を学習する機械学習モデルを含む請求項16から19のいずれかに記載のコンピューティングデバイス。
【請求項21】
前記第1モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含む請求項16から19のいずれかに記載のコンピューティングデバイス。
【請求項22】
前記敵対的生成ネットワークは、前記複数の非ペア画像を使用して学習する前の部分的に学習されたネットワークを備える請求項21記載のコンピューティングデバイス。
【請求項23】
前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを備える請求項21又は22に記載のコンピューティングデバイス。
【請求項24】
前記ランタイムモデルは、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデジタルアシスタンス(PDA)、タブレットの少なくとも1つに展開するためのパラメータの最小限のセットと最小限のメモリサイズとを含むように構成される請求項16から23のいずれかに記載のコンピューティングデバイス。
【請求項25】
前記ランタイムモデルは、最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ、または他のコンピューティングデバイスと比較して、記憶および処理リソースを削減したユーザコンピューティングデバイスに展開されるように構成される請求項16から23のいずれかに記載のコンピューティングデバイス。
【請求項26】
前記処理ユニットは、前記第1領域空間から前記第2領域空間へのリアルタイム変換を提供し、前記適用される効果のための仮想現実、拡張現実および混合現実体験のうちの1つを提供するために、ランタイムアプリケーションに組み込まれるランタイムモデルを提供するように構成される請求項16から25のいずれかに記載のコンピューティングデバイス。
【請求項27】
前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである請求項16から26のいずれかにコンピューティングデバイス。
【請求項28】
前記適用される効果が、3次元のメイクアップの効果である請求項27記載のコンピューティングデバイス。
【請求項29】
画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義する方法であって、
記憶ユニットを、
i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、
ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、以下のように構成されるその第1モデル、
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、
を記憶するものとして提供し、
処理ユニットを、
前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、
前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、
前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、
学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように動作させる方法。
【請求項30】
命令および/またはデータを記憶する非一時的な記憶ユニットを備え、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するために、学習されたランタイムモデルを定義するための方法を実行するように構成されるコンピュータプログラム製品であって、
前記記憶ユニットは、
i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、
ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、その第1モデルは、以下のように構成される、
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、
を記憶し、
前記命令は、前記コンピュータデバイスを、
前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、
前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、
前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、
学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように動作させるコンピュータプログラム製品。
【請求項31】
画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するコンピューティングデバイスであって、
a.前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶する記憶ユニットであって、
i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、
ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
b.前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによって変換された画像を提供するように構成された処理ユニットと、
を含むコンピューティングデバイス。
【請求項32】
前記第1モデルは、前記複数の非ペア画像に対する性能を最大化するように過剰学習されたモデルを含む請求項31記載のコンピューティングデバイス。
【請求項33】
前記複数の非ペア画像に関し、
a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、
b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである請求項31又は32に記載のコンピューティングデバイス。
【請求項34】
前記ランタイムモデルは、品質尺度を使用して前記第1サブセットと第1偽画像と前記第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを使用することにより決定されたペア画像を使用して調整されたものである請求項31から33のいずれかに記載のコンピューティングデバイス。
【請求項35】
前記第1モデルが、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の前記同時分布を学習する機械学習モデルを含む請求項31から34のいずれかに記載のコンピューティングデバイス。
【請求項36】
前記第1モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含む請求項31から34のいずれかに記載のコンピューティングデバイス。
【請求項37】
前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的生成ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを含む請求項36記載のコンピューティングデバイス。
【請求項38】
前記ランタイムモデルは、パラメータの最小限のセットと最小限のメモリサイズとを含み、前記コンピューティングデバイスは、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデータアシスタンス(PDA)及びタブレットのうちの1つを含む請求項31から37のいずれかに記載のコンピューティングデバイス。
【請求項39】
最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ又は他のコンピューティングデバイスと比較して、削減された記憶および処理リソースを含む請求項31から37のいずれかに記載のコンピューティングデバイス。
【請求項40】
前記ランタイムモデルが、前記適用される効果のための仮想または拡張現実体験を提供するために前記第1領域空間から前記第2領域空間へのリアルタイム変換を提供するためのランタイムアプリケーションに組み込まれる請求項31から39のいずれかに記載のコンピューティングデバイス。
【請求項41】
前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである請求項31から40のいずれかに記載のコンピューティングデバイス。
【請求項42】
前記適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換およびスケッチから写真への変換のうちの1つである請求項31から40のいずれかに記載のコンピューティングデバイス。
【請求項43】
変換される前記画像が、自撮りの画像または自撮りのビデオを含む請求項31から42のいずれかに記載のコンピューティングデバイス。
【請求項44】
前記適用される効果が、3次元の効果である請求項31から43のいずれかに記載のコンピューティングデバイス。
【請求項45】
前記処理ユニットが、受信するための前記画像を取り込むために、
a.前記コンピューティングデバイスはカメラを備える、
b.前記コンピューティングデバイスがカメラに結合される、
のうちの1つで構成される請求項31から44のいずれかに記載のコンピューティングデバイス。
【請求項46】
命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品であって、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換する方法を実行するように構成されるコンピュータプログラム製品であって、
a.前記記憶ユニットは、前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶し、
i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、
ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
b.前記処理ユニットは、前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによって変換された画像を提供するように構成されるものであるコンピュータプログラム製品。
【請求項47】
画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成するコンピューティングデバイスであって、
a.記憶ユニットであって、
i.前記適用される効果を有さない前記第1領域空間において定義された画像の第1サブセットと、効果が適用される前記第2領域空間において定義された画像の第2サブセットとを含む前記複数の非ペア画像、
ii.前記複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、
1.前記第1サブセットとペアになる第1偽画像を生成するために、画像の前記第1サブセットを前記第2領域空間に変換し、
2.前記第2サブセットとペアになる第2偽画像を生成するために、画像の前記第2サブセットを前記第1領域空間に変換する、
を記憶する記憶ユニットと、
b.処理ユニットであって、過剰適合された第1モデルを生成するために前記複数の非ペア画像で過剰適合し、前記第1偽画像および前記第2偽画像を生成するために、過剰適合された前記複数の非ペア画像を前記第1モデルに提供し、前記複数のペア画像を生成するために、前記第1偽画像および前記第2偽画像をそれぞれの前記第1画像サブセット及び前記第2画像サブセットとペアになるように構成される処理ユニットとから構成されるコンピューティングデバイス。
【請求項48】
前記複数の非ペア画像に関し、
a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、
b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである請求項47記載のコンピューティングデバイス。
【請求項49】
前記モデルは、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の同時分布を学習する機械学習モデルを含む請求項47又は48に記載のコンピューティングデバイス。
【請求項50】
前記モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含む請求項47から49のいずれかに記載のコンピューティングデバイス。
【請求項51】
前記敵対的生成ネットワークは、前記複数の非ペア画像を使用して学習する前の部分的に学習されたネットワークを含む請求項50記載のコンピューティングデバイス。
【請求項52】
前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを含む請求項49又は50に記載のコンピューティングデバイス。
【請求項53】
前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである請求項47から52のいずれかに記載のコンピューティングデバイス。
【請求項54】
前記適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換およびスケッチから写真への変換のうちの1つである請求項47から53のいずれかに記載のコンピューティングデバイス。
【請求項55】
ランタイムモデルを学習するために使用する品質尺度に応答して、前記複数のペア画像を定義することを含む請求項47から54のいずれかに記載の方法。
【請求項56】
命令および/またはデータを記憶する非一時的な記憶ユニットを備え、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成する方法を実行するように構成されるコンピュータプログラム製品であって、
a.前記記憶ユニットは、
i.前記適用される効果を有さない前記第1領域空間において定義された画像の第1サブセットと、効果が適用される前記第2領域空間において定義された画像の第2サブセットとを含む前記複数の非ペア画像、
ii.前記複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、
1.前記第1サブセットとペアになる第1偽画像を生成するために、画像の前記第1サブセットを前記第2領域空間に変換し、
2.前記第2サブセットとペアになる第2偽画像を生成するために、画像の前記第2サブセットを前記第1領域空間に変換する
を記憶するものであり、
b.前記処理ユニットは、過剰適合された第1モデルを生成するために前記複数の非ペア画像で過剰適合し、前記第1偽画像および前記第2偽画像を生成するために、過剰適合された前記複数の非ペア画像を前記第1モデルに提供し、前記複数のペア画像を生成するために、前記第1偽画像および前記第2偽画像をそれぞれの前記第1画像サブセット及び前記第2画像サブセットとペアになるように構成されるコンピューティングデバイス。
【発明の詳細な説明】
【相互参照】
【0001】
本出願は、その内容が参照により本明細書に組み込まれる、2019年11月15日に出願された米国仮出願第62/935,715号の米国および他の場所における優先権の国内利益を主張する。
【技術分野】
【0002】
本出願は、機械学習を用いた画像処理に関する。より詳細には、本出願が教師あり学習のための非ペアデータを使用する画像から画像への変換に関するものである。
【背景技術】
【0003】
小型で高速なモデルを利用し、適用される効果を用いて画像を1つの領域(domain)から別の領域に変換するように構成されたコンピューティングデバイスを提供することが望ましい。画像から画像への変換における否定できない進歩は、何年にも亘ってなされてきたが、それはいかなる種類の実際的な設定においても適用され得ない。研究と商業的応用との間のこのギャップの主な理由は、提案されたモデルの大きなサイズ及び/又は要求される処理リソースのためであった。画像から画像への変換の商用アプリケーションは、しばしば、ネイティブアプリケーション又はブラウザのいずれかにおいて消費者のスマートフォン又はデスクトップ上のようなデバイス上での推論(on-device inference)を必要とする。従って、資源利用および性能のいずれかが考慮される。更にリアルタイムなビデオの変換は、典型的には大量の処理速度を有する変換を生成するために、かなりのプロセッサ資源を必要とする。
【0004】
過去数年にわたって、画像から画像への変換は、コンピュータビジョンにおいて最も研究されている問題の1つになっている。本質的に、タスクは元のソース画像のアイデンティティを保つ方法で、異なる領域に属する画像間のマッピングを見つけること(例えば犬の画像を猫の画像に変換する一方で、ポーズ、毛の色および背景等の他の全ての特徴を保つこと)として説明することができる。
【0005】
コンピュータグラフィックスの分野は、これらの規則を明示的に指定することなく(例えば、より現実的な照明/シェーディング)、複雑な規則によって支配されるシーンを容易にレンダリングするための技術を利用することができる。同様に、アプリケーションは、様々な目的のために視覚世界を変換するのに役立つことができる、急速に成長する拡張現実の商業的応用に応用されている。画像から画像への変換は、消費者および専門家が異なるオブジェクト及びスタイルを組み合わせることを可能にするアプリケーションを介して、パーソナライズされた製品または芸術作品を設計する際に、同様に支援するために、スタイル転送のコンテキストにおいて使用されても良い。また、画像/ビデオ編集は、複雑で暗黙的に定義されたフィルタアプリケーション、着色および超解像度などの技法によっても非常に有益であり、これらの技法はすべて、画像から画像への変換モデルを使用して実現することができる。この技術の実際的な利点は膨大であり、これは決して網羅的なリストではない。
【0006】
画像から画像への変換を実行するモデルを定義することは通常、モデルを学習するためのペア画像データを有することから利益を得るものであり、この場合、適用される効果のない第1領域の画像は、効果が適用される第2領域の対応する画像とペアにされる。画像は、第1画像と第2画像との間の他の差が最小であるという点で対応する。しかしながら、このようなペア画像データを定義することにおいて、2つの領域内のこのような画像が自然に生じることはまれであり、このようなデータを手動で生成することは時間と資源の集約的なものであるため、困難である。
【発明の概要】
【0007】
多くの画像から画像への変換タスクにおいて、ディープラーニングを用いた教師あり学習に適した対のデータセットを得ることは非常に困難であるか、又は、実際には不可能である。このように、近年、非ペアデータ(unpaired data)を直接学習するために、いくつかの方法が開発されている。これらの方法はしばしば、印象的な結果を成し遂げているが、典型的にリアルタイムのデバイス上での推論に適していない、強力なモデルを必要とし、これはそれらの実用的な用途の範囲を大幅に制限する。本開示では、非ペアデータセット(unpaired dataset.)のみが与えられた場合に、小型で高速なモデルを学習するための技法が提供される。方法は、生成された結果が正解データ(ground truth)として役立つ合成されたペアデータセット(synthetic paired dataset)を生成するために、既存の教師なし学習技法を使用して、強力なモデルを最初に調整し、好ましくは、非ペアデータセットに過剰適合(overfitting)させることを含む。
【0008】
このペアデータセットを使用して、配備により適したコンパクトであるがより弱いモデルが、既存の監視された学習技法を使用して学習される。教師あり学習は、より容易なタスクであるので、弱いモデルは、元の非ペアデータセット上で教師なしの学習技法を使用して直接学習された場合よりも、はるかに良好なパフォーマンスを達成する傾向がある。利点は異なる困難性の2つの画像から画像への変換タスク、即ち、1)毛髪の着色、および、2)デジタルフィルタの適用について経験的に実証される。
【0009】
本開示によれば、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するシステムが提供される。
【0010】
システムは2つのモデル、即ちデータペアリングモデルを定義する第1モデルと、ランタイムモデルを定義する第2モデルとを生成するように構成される。第1モデルは、複数の非ペア画像(unpaired image)を用いた学習によって調整される。複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。
【0011】
第1モデルは、第1サブセットの画像を第2領域空間に変換して、第1サブセットとペアになる第1偽画像を生成し、第2サブセットの画像を第1領域空間に変換して、第2サブセットとペアになる第2偽画像を生成するように構成される。
【0012】
複数の非ペア画像を学習された第1モデルに提供することは、第1サブセットと第1偽画像と第2サブセットと第2偽画像とによってそれぞれ定義される複数のペア画像を生成する。
【0013】
一実施形態では、第1モデルが複数の非ペア画像に対する性能を最大化するように過剰学習(overfitted)される。
【0014】
ランタイムモデルは、複数のペア画像を使用する学習によって調整され、第1領域空間内の画像を第2領域空間内の画像に変換し、ターゲットデバイス上で実行されるように構成される。
【0015】
本明細書の教示および実施形態によれば、画像から画像への変換のためにモデルを学習する方法が提供される。この方法は教師なし学習技法を使用して、画像の非ペアデータセットを使用して、強力な画像変換モデルを学習するステップと、非ペアデータセットから画像の合成されたペアデータセットを生成するように学習され非ペアデータセットが第1領域空間内の画像の第1サブセットと第2領域空間内の画像の第2サブセットとを含むステップと、強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用して、ランタイムモデルを学習するステップとを含み、ランタイムモデルは強力な画像変換モデルと比較して、画像を第1領域から第2領域に変換するように学習され、ランタイムモデルはコンパクトで高速なモデルを含む。
【0016】
この方法ならびに本明細書の教示および実施形態によれば、プロセッサ及び記憶ユニットを備えるコンピューティングデバイスが提供され、記憶ユニットは、この方法を実行するためにコンピューティングデバイスによる実行のための命令を記憶する。この方法ならびに本明細書の教示および実施形態によれば、処理ユニット及び記憶ユニットを備えるコンピューティングデバイスが提供され、記憶ユニットは方法によって学習されたランタイムモデルを記憶し、命令を記憶し、命令は、処理ユニットによって実行されると、コンピューティングデバイスを構成して、ランタイムモデルを使用して、第1領域からの画像を変換して、第2領域内に画像を生成する。
【0017】
本明細書の教示および実施形態によれば、画像に適用される効果に従って画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義するコンピューティングデバイスが提供され、コンピューティングデバイスは、記憶ユニットであって、i.効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを備える複数の非ペア画像、ii.複数の非ペア画像を使用する学習によって調整される第1モデルであって、1.画像の第1サブセットを第2領域空間に変換して第1サブセットとペアになる第1偽画像を生成するように構成された第1モデルと、2.画像の第2サブセットを第1領域空間に変換して第2サブセットと対にして第2偽画像を生成する記憶ユニットとを備え、第1サブセットと第2偽画像と第2偽画像とは、それぞれ複数のペア画像を定義するものである、iii.第1の領域空間内の画像を第2領域空間内の画像に変換し、ターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数の非ペア画像を用いて学習することによって調整されるランタイムモデルとを記憶する記憶ユニットと、処理ユニットであって、複数の非ペア画像を用いて学習し、学習された通りに第1モデルを生成し、第1偽画像および第2偽画像を生成するように学習された通りに、第1モデルに複数の非ペア画像を提供し、第1偽画像および第2偽画像を、それらのそれぞれの画像の第1サブセット及び画像の第2サブセットと対にして複数のペア画像を生成し、学習されたランタイムモデルを生成するように複数のペア画像を用いて学習するように構成された処理ユニットとで構成される。また、そのように学習されたランタイムモデルで構成されたコンピュータプログラム製品およびコンピューティングデバイスを含む、関連する方法およびコンピュータプログラム製品の態様も提供される。
【0018】
本明細書の教示および実施形態によれば、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるとき、コンピューティングデバイスは、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する方法を実行するように構成されるコンピュータプログラム製品であって、a.記憶ユニットは、画像を第1領域空間から第2領域空間に変換するためのランタイムモデルであって、第1領域空間における第1画像と、第2領域空間における第2の画像とを含み複数の非ペア画像を第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶し、i.複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含むものであり、ii.第1モデルは、複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:1.第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換すること、2.第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換すること、ここで、第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、b.処理ユニットは、画像をランタイムモデルに提供し、提示のためにランタイムモデルによって変換された画像を提供するように構成される。
【0019】
本明細書の教示および実施形態によれば、画像に適用される効果に従って画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数の非ペア画像を生成するコンピューティングデバイスが提供され、コンピューティングデバイスは、a.記憶ユニットであって、i.効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを含む複数の非ペア画像、ii.複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、1.第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換し、2.第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換する、を記憶する記憶ユニットと、b.処理ユニットであって、過剰適合された(overfitted)第1モデルを生成するために複数の非ペア画像で過剰適合し、第1偽画像および第2偽画像を生成するために、過剰適合された複数の非ペア画像を第1モデルに提供し、複数のペア画像を生成するために、第1偽画像および第2偽画像をそれぞれの第1画像サブセット及び第2の画像サブセットとペアになるように構成される処理ユニットと、から構成される。
【図面の簡単な説明】
【0020】
【
図1】一実施形態による、データペアリングモデル及びランタイムモデルを調整するためのコンポーネントを含む開発者コンピューティング環境のブロック図である。
【
図2】A及びBは、一実施形態による、オリジナル画像と、そのオリジナル画像にデジタルフィルタ効果が適用された画像とを並べた一対の画像である。
【
図3】一実施形態による、毛髪の着色の効果のためにオンラインソースから得たサンプルを示す画像の配列である。
【
図4】A,B及び4Cは、それぞれの例による、毛髪の着色とデジタルフィルタ効果との性能測定基準のグラフである。
【
図5】Aは、i)一番上の行において、毛髪の着色の効果がそれぞれにランタイムモデルを使用して適用される複数の入力画像を示し、ii)中央の行において、毛髪の着色の効果が非ペア画像(例えば教師なし学習を使用したもの)を使用して学習されたランタイムモデルによって入力画像に適用された複数の出力画像を示し、iii)一番下の行において、本教示の一例に従って、ペア画像を使用して学習されたランタイムモデルを使用して、毛髪の着色の効果が入力画像に適用された複数の出力画像を示す、画像の配列であり、Bは、最初の2つの行において、ランタイムモデルがi)上の行において、複数の非ペア画像(教師なし学習)、およびii)中央の行において、本教示の一例による複数のペア画像、および下の行において、妥当性ソフトウェアを使用してデジタルフィルタを適用する正解データ画像との比較を用いて学習される場合のデジタルフィルタ効果の出力を示す画像の配列である。
【
図6】一実施形態による、コンピューティングデバイスのコンピュータネットワークのブロック図である。
【
図7】一実施形態による、一例による開発者コンピューティングデバイスのブロック図である。
【
図8】一実施形態による、ターゲットデバイスの動作を示すフローチャートである。
【
図9】本明細書の実施形態による動作を示すフローチャートである。
【
図10】本明細書の実施形態による動作を示すフローチャートである。
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【発明を実施するための形態】
【0030】
画像から画像への変換することは、モデルを使用して2つ以上の特徴的な領域の間で画像を変換(変換)するタスクを指す。理想的には、領域の間で変化する画像の特徴のみが変更され、他の全ての特徴は同一のままである必要がある。タスクは、特定の生成された画像の宛先スタイル(the destination style)を指定する参照画像が提供されない、スタイル転送(style-transfer)の特別なケースと考えることができる。その代わり、学習データは異なる領域に従って分離され、モデルは異なる領域の間のマッピング機能を学習する。
【0031】
画像から画像への変換およびスタイル転送は、コンピュータビジョンにおいて長年の問題であり、大量の研究から恩恵を受けてきた[3-8]。最近、敵対的生成ネットワーク(GAN)の出現により、知覚的に現実的な結果を達成することにおいて、著しい進歩がなされている[9]。特に、Isolaら[1]は、敵対的なものと共に単純に監視された損失を使用して、以前の手法よりも優れた主観的品質の画像を生成した。しかしながら、これらのアプローチは、ペアの入力-出力データセットを必要とし、これは、多くのタスクについて得ることが困難であるか、または実現不可能でさえあり得る。
【0032】
画像から画像への変換のための支配的な(leverage)教師なしデータが導入されるいくつかの手法が、従来から存在している[10-12]。この分野における画期的な研究はZhuらのCycleGANであり[2]、これは、ペアになるGANと画像の領域の間の新規なサイクル一貫性喪失(cycle-consistency loss)[13]とを使用することにより、非ペアデータセットから学習することであった。それらの方法では、それぞれの生成器(generator )/識別器(discriminator )の対が画像を一方向に(即ち領域AからBへ、またはその逆に)変換することに特化している。この変換は制約不足であり、オリジナル画像の特徴が保護されることを保証せず、該手法はまた、変換された画像をそれらのオリジナル領域に変換して戻し、識別性を損失する。この周期的な損失は、本質的に領域の間の1対1のマッピングを強制する。生成器は、意図された変換作業に関連する特徴のみを修正することによってこのマッピングを達成するが、これは他の特徴の修正がオリジナル画像の検索をより困難にする結果となるからである。
【0033】
GANベースの手法[14]を使用して良好な結果を達成するためには、通常、非常に大きな生成器ネットワークが必要とされ、モバイルデバイス上のリアルタイム性能のような多くの実用的な用途にはあまり適していないことが示されている。例えばフレームからフレームへの変換を行うモデルを使用するライブ映像(例えばリアルタイム又はオンザフライ)のアプリケーションでは、妥当なフレームレートでは不可能である。従って、GANモデルを使用する画像から画像への新たな変換手法を探索することに大きな関心が寄せられている。
【0034】
目的は、複数の非ペア画像のみが利用可能であるタスクについてモデルを学習することである。モデルは、所望のリソース利用および性能特性を与えるため、小型および/または高速なモデル(好ましくは両方)が望まれる消費者デバイスのようなターゲットデバイスのために学習されても良い。複数の非ペア画像を直接用いて学習した場合に、より弱いモデルは性能が劣る傾向があるという観測が与えられた場合、本開示は、複数の非ペア画像を用いて、より強力なモデルを学習することによって得られる合成された複数のペア画像を生成することを記載する。
<複数の非ペア画像を使用した強力なモデルの過剰適合>
【0035】
複数の非ペア画像を使用する現行の学習手法は、平均二乗誤差のようなタスクの性能に直接的に最適化を及ぼす信号を逆伝播することができず、その代わりに、敵対学習によって提供される信号のような間接的な信号に依存しなければならない。このように、複数の非ペア画像からの学習は、強力なモデルを必要とするより困難なタスクである。
【0036】
図1は、一実施形態による、データペアリングモデル104及びランタイムモデル112を調整するためのコンポーネントを含む、簡略化された開発者コンピューティング環境100のブロック図である。コンピューティング環境100は、1つ以上の記憶デバイスを有する1つ以上のコンピューティング装置を含んでも良い。
図7を参照して、より詳細な例を示し、説明する。コンピューティングデバイスの記憶デバイスは、グラフィックス処理ユニット又はサーバ等の処理ユニットのような処理ユニットに命令を提供するためのメモリ(RAM/ROM)等から構成することができる。処理ユニットは、2つ以上のプロセッサコアを備えても良いことが理解されるであろう。開発者コンピューティング環境は、複数のリンクされたデバイス等の2つ以上のコンピューティングデバイスを備えることができる。
【0037】
本実施形態では、第1モデル104を学習する複数の非ペア画像102を設けているが、これは有力なモデルである。複数の非ペア画像は、第1モデル104を過剰適合させるために使用され、非学習データに対するパワーパフォーマンスを犠牲にしても、学習データセットに対する改善された結果を達成することができる。このようにして結果は、改善されたペアデータを生成する。統計およびモデル構築の過剰適合とは、特徴に気付く方法をより広く学習するのを犠牲にして、例(ノイズを含む等)に関する詳細や細部を学習することを指す。過剰適合モデルは、それを定義するために使用される例に厳密に又は正確に対応し、そして、追加のデータに適合しないか、又は、将来の観察を十分に予測できないことがある。過剰適合は一般に、ある領域から別の領域へ(または両方向に)画像を広く変換するのに使用するために定義されるモデル学習には望ましくないと考えられるが、本タスクでは第2モデル(例えばランタイムモデル)を用いた第2の教師あり学習タスクで使用するために、2つの領域内の十分にペアになる画像を定義するので、有用である。
【0038】
複数の非ペア画像102は、効果が適用されない第1領域空間内の画像のサブセットと、効果が適用される第2領域空間内の画像の別のサブセットとを含む。
【0039】
第1モデルは、複数の非ペア画像で学習された2つのサブモデルを含む。第1サブモデルは、第1領域空間内の画像のサブセットを入力として使用し、第2領域空間内の画像のサブセットをターゲットとして使用して、第1領域空間から第2領域空間に画像を変換するように、学習を用いて調整される。第2サブモデルは、第2領域空間内の画像のサブセットを入力として使用し、第1領域空間内の画像のサブセットをターゲットとして使用して、第2領域空間から第1領域空間に画像を変換するように、学習を用いて調整される。
【0040】
第1モデルを学習した後(即ち各サブモデルが学習された後)、第1モデルは、第1の領域内の画像のサブセットを第2領域に変換するために使用され、逆もまた同様である。即ち第1サブモデルは、画像を第1領域から第2領域に変換し、第2サブモデルは、第2領域内の画像のサブセットを第1領域に変換するために使用され、従って、それぞれが領域内にペア画像を生成する。この結果、複数のペア画像106を含む画像の以下のセットが得られる:1)第1領域の実画像および第2領域108の偽画像、2)第2領域の実画像および第1領域110の偽画像。
【0041】
所望の課題が、画像を第1領域から第2領域に変換するモデルを学習することである場合、複数のペア画像は、第1領域の実画像と、第1領域の偽画像とを含み、それらペアがになる対応物は、正解データ(ground truths)とされる。
【0042】
一実施形態では、以前の研究において人気で、かつ平凡な(vanilla)非ペアの画像から画像へ変換する学習手法の地位にあるCycleGAN[2]を主に使用して、複数の非ペア画像を学習するが、原則として、任意の非ペアの学習手法を代用することができる。例えばデュアル敵対的生成ネットワーク(Dual Generative Adversarial Network)、サイクル敵対的一貫性ネットワーク(Cycle Consistent Adversarial Network)、及び、結合敵対的生成ネットワーク(Coupled Generative Adversarial Network)を含む敵対的生成ネットワーク等の複数の非ペア画像の同時分布(marginal distributions)を学習するために、複数の非ペア画像の周辺分布(joint distribution)を使用する機械学習モデルを使用することができる。
<複数のペア画像のフィルタと処理>
【0043】
フィルタ114は、ランタイムモデル112を調整するために使用するために生成される品質尺度(quality measure)を使用して、第1モデルの出力からペア画像をフィルタリングするよう構成された記憶デバイスに、任意選択で記憶される。フィルタは、ランタイムモデルを調整するために使用する前の任意のタイミング(例えばデータベース等にペア画像を記憶する前または後)に適用されても良い。
【0044】
一実施形態において、フィルタは、生成された複数のペア画像の品質を保証するために使用される。生成された結果のいずれも、あまりにも多くの望ましくない中間生成物(artifacts)を有する可能性があり、または、モデルは、正しい変換を適用する際に完全に失敗した可能性がある。そのような結果は、ペアデータセット内のノイズラベル(noisy labels)を構成し、従って、それらは、ランタイムモデルの学習をより安定させるために、自動または手動の手法によって除去される。
【0045】
更なる手法を使用して、生成された出力を処理し、それらの品質を改善するか、又は中間生成物を除去することができる。例えば特定の顔の属性を修正するように学習されたモデル(例えばメイクアップの効果、顔の皮膚の処置(facial skin treatment)の効果、美容外科の効果/身体の増強の効果(例えばインプラントの効果、瘢痕化(scarification)の効果、ピアスの効果、ストレッチの効果、タトゥーの効果、歯の効果(例えば着色の効果、成形の効果、位置合わせ(alignment)の効果または置換(replacement )の効果)、建設的/再建的または他の外科的処置の効果、眼の着色/コンタクトレンズの効果、アイウェアの効果等またはこれらの列挙された顔の効果のいずれか)は、生成された画像の背景の中間生成物が、顔の目印で定義された境界を使用してマスクアウトされた場合に有益である。一例として、列挙された顔の効果の反対は、瘢痕の除去、タトゥーの除去、メイクアップの除去、アイウェアの除去など、元の画像に存在する効果の除去である。開発者コンピューティング環境コンポーネントは、これらに応じて構成することができる。
<生成された複数のペア画像を用いたランタイムモデルの学習>
【0046】
第1領域空間から第2領域のステージに画像を変換するように構成されたランタイムモデル112は、コンピューティングデバイスの記憶デバイスに記憶される。ランタイムモデルは、第1モデルから生成された複数のペア画像を使用して、学習によって調整されるべきである。第1及び第2領域における偽画像(例えば第1モデルから画像変換された出力物)は完全に合成され、本教示に従った、より早いステップによって生成されるが、生成された複数のペア画像(教師あり学習)を用いて学習されたランタイムモデルは、複数のテスト画像上で性能が測定される場合に、複数の非ペア画像(教師なし学習)で学習されたモデルよりも優れている。
【0047】
次いで、学習されたランタイムモデルを使用して(例えば適合させて)、ターゲットデバイス上で実行するアプリケーションを定義し、例えばターゲットデバイスで提示するために、画像またはビデオを修正すること等によって、第1領域空間から第2領域空間へのリアルタイムの変換を提供し、拡張現実(augmented reality)、仮想現実(virtual reality)および/または混合現実体験(mixed reality experiences)を提供することができる。ターゲットデバイスは、携帯電話、タブレット端末等のパーソナルデバイス(例えば、ユーザデバイス)であっても良い。
【0048】
ここでのアプローチは、画像から画像へ変換するタスクが、第1領域と第2領域との間の1対1、または、多対1の対応からなる場合に特に有用である。この条件が満たされない場合、合成されたペアデータセットは、マルチモーダル分布(multimodal distribution)に従って生成され、監視対象タスクは未定義となる。
<実験>
<データセット>
【0049】
(強力な)データペアリングモデル及び(小型かつ高速である)ランタイムモデルを学習するように構成されたコンピューティングデバイスが、強力なモデルのみを学習するように構成されたコンピューティングデバイスよりも良好に機能するという仮説を厳密にテストするために、客観的な性能測定基準(performance metrics)を計算することができる、複数のペア画像を含むデータセットに対して実験を行った。MIT-Adobe FiveKデータセット[15]からの5,000個の画像を使用し、4,500個の画像の学習セット及び500個の画像のテストセットに分割した。これらから、対応物はデジタルフィルタ(例えば、Eboye Photoshop action[16](PhotoshopはAdobe Inc、San Jose、CAの登録商標)を適用することによって生成され、これはエッジ保存Instagram(登録商標)様フィルタ(edge-preserving Instagram like filter)を適用する。第1モデル104は、第1領域と第2領域との間で画像を変換するように調整される。
図2A及び2Bは、オリジナル画像202及び1つの画像204を含む画像のペア200を示し、ここで、デジタルフィルタは効果を適用するために使用された。
【0050】
モデルをさらに評価するために、画像をオンラインソースから得て、暗い毛髪の個体およびブロンドの個体の非ペアデータセットを作成し、ここでの変換タスクは、暗い毛髪の領域空間とブロンドの領域空間との間で変換することである。手動のフィルタ処理の努力にもかかわらず、このデータセットはとりわけ、ソース(例えばソーシャルメディア対広告)、人工のフィルタの存在、カメラの品質、ポーズ及びライティングを含むいくつかの要因により著しく異なる画像を含むという意味で、不明瞭であることは注視する価値がある。更に、データセットのサイズは制限されており、3,192個のブロンドの毛髪の画像と2,242個の暗い毛髪の画像とからなり、各セットの200個の画像が試験のために蓄積された。これらの注意にもかかわらず、モデルは、大多数の症例において正しい毛髪の着色の変換を適用する方法を学習することに成功した。
図3は、ソーシャルメディア(例えば302)からの低解像度の画像を配列状に含む、複数の非ペア画像300を示す。配列はブロンドの毛髪の画像304の一番上の行と、本明細書でプライバシーに適用されるプライバシーマスク(例えば、308)を含む暗毛髪画像306の2番目の行とを示すが、このようなマスクはいかなる学習または試験にも適用されない。
<評価プロセス>
【0051】
多数のモデルのアーキテクチャが、複数の非ペア画像および複数のペア画像の両方について学習され、同じテストセット上のフレシェ開始距離(Frechet Inception Distance、FIDスコア)[17]が比較される。仮説によれば、小型モデルのFIDスコアは、複数のペア画像を使用して学習される場合には、より小さくなるはずである。
【0052】
複数の非ペア画像の実際のシナリオをシミュレートするために、学習セットは効果が適用されていない第1領域空間内の画像の第1サブセットと、効果が適用されている第2領域空間内の画像の第2サブセットとを含み、第1領域空間内の画像の第1サブセットのそれぞれは、効果が適用される画像の第2サブセット内において等価物を有さず、第2領域空間内の画像の第2サブセットの各々は効果が適用されない画像の第1サブセット内において等価物を有さない。
【0053】
ペア画像がテストセットにおいて利用可能であるので、最小二乗誤差(MSE)もまた、FIDスコアよりも客観的な性能尺度として計算される。
<モデルの説明>
【0054】
最初のモデルとランタイムモデルは、256x256ピクセルの解像度のUNetモデル[18]である。UNetモデルは一般に、画像から画像へ変換するタスクに使用される。
【0055】
モデルのサイズと速度の機能としてのモデルの有効性を評価するために、各レイヤでフィルタの数が均一にスケーリングされるUNetの変動が学習される。標準的なUNetアーキテクチャは、第1ブロックの出力に64個のフィルタのベースを含むが、UNetアーキテクチャは8、16、24、32、48及び128個のフィルタのベースを使用して更に学習される。これらのモデルのそれぞれについてのパラメータ及びフロップの数を表1に示す。
【表1】
<結果>
【0056】
毛髪の着色およびデジタルフィルタ効果の両方のための複数のペア画像を生成するために、12個の残差ブロックと64個のフィルタのベースを有する残差ニューラルネットワーク(ResNet)とが過剰適合される(例えば、第1モデルはそのような学習が(例えば、他の画像の)テストセット上での不十分なパフォーマンスにつながる場合でも、複数の非ペア画像上でのそのパフォーマンスを最大化する)。より小さな容量の512ピクセルのスケールの画像は、偽画像のためのより細かい細部を作り出すことができるように、学習で使用される。複数の非ペア画像を学習された第1モデルに提供することで、複数のペア画像を生成する。その後、顔の画像については毛髪の外側の中間生成物が独自の毛髪セグメンテーションモデル[20]を使用してマスクされ、次いで、画像は悪い結果を除去するために手動でフィルタリングされる。これにより、全体で3,593個の暗い~ブロンドのペア画像をもたらす。デジタルフィルタ効果の場合、生成された画像は目視検査によって正解データと区別できないため、フィルタリングは行われない。
【0057】
図4A-
図4Cは、毛髪の着色の効果400とデジタルフィルタ効果402との両方、ならびにデジタルフィルタ効果404のMSE(
図4C)のための、より一層強力なUNetアーキテクチャのためのFID結果(
図4A及び
図4B)を提示する。これらの結果は、仮説が真であり、そして、より小さなモデルが、複数の非ペア画像を用いて学習されたより強力なモデルにより生成された複数のペア画像を用いて学習された場合に、より良い結果を達成することを示している。この傾向は、デジタルフィルタ効果402及び404の結果において最も明確に見られ、24ベースのフィルタモデルまで、複数のペア画像に対する結果は、複数の非ペア画像を使用して学習されたものよりも有意に良好である。あまり明白でない程度に、毛髪の着色の効果400について同じ結論に達することができ、ここで、ペアモデルを使用して学習された最小の8ベールのフィルタについてのFIDは、非ペアモデルを使用して学習されたはるかに大きい48ベースのフィルタのFIDに匹敵する。
【0058】
図5A及び5Bは、それぞれの配列500及び502における2つの8ベースのランタイムフィルタモデルについての結果(結果はそれぞれの出力画像である)を提示する。ここで、モデルは複数の非ペア画像を使用して学習され、別のモデルは複数のペア画像を使用して学習される。
図5Aの結果は、一番上の行における入力画像に対する毛髪の着色の効果500に対するものであり、中央の行における非ペア画像で学習されたモデル(即ち教師なし学習)に対する結果と、一番下の行におけるペア画像で学習されたモデル(即ち教師あり学習)に対する結果とを示し、ここで、ペア画像は、本明細書の教示を使用して生成される。デジタルフィルタ効果のための
図5Bの配列502における結果は、一番上の行における非ペア画像で学習されたモデルの結果と、中央の行におけるペア画像で学習されたモデルの結果とを示し、ここで、ペア画像は、本明細書の教示を使用して生成される。配列502の最下行は、比較のために生成された正解データ画像を示す。特に、このモデルは非ペア画像に対して学習された場合には色の変換を学習することさえできなかったが、ペア画像に対して学習された場合には一貫して適用され、多くの場合に説得力のある結果を生成する。
【0059】
図6は、ユーザ/開発者604によって操作される開発者コンピューティングデバイス602が通信ネットワーク606を介して通信している例示的なコンピュータネットワーク600のブロック図である。通信ネットワーク606を介して通信するように構成された第2ユーザ608及びターゲットコンピューティングデバイス610もまた、示されている。第2ユーザ610は、消費者であっても良い。サーバコンピューティングデバイス612,614及び616は、例えば、更に説明するように、1つ以上のデバイス602及び610と通信するために通信ネットワーク606と通信する。
【0060】
開発者コンピューティングデバイス602は、強力なモデルを学習するように構成され、ターゲットデバイスよりも高いストレージ、処理能力およびメモリを有することができる。開発者コンピューティングデバイス602の例は、グラフィックス又は他の処理性能を最大限にするために構築されたコンピューティングデバイスを含むことができるが、これらに限定されない。ラップトップとして描かれているが、コンピューティングデバイス602のための他のフォームファクタはタスクを満たすものが含まれている。いくつかの例では、開発者コンピューティングデバイスが複数のデバイスを含むことができることを理解されたい。一例では、第1のコンピューティングデバイスが学習タスク(又はそのコンポーネント)を実行するよう、より強力な第2のコンピューティングデバイスに命令する。場合によっては、複数のコンピューティングデバイスが協調してタスクを実行する。
【0061】
ターゲットコンピューティングデバイス610は、小型で高速なモデルを実行するように構成される。ターゲットコンピューティングデバイス610は、開発者デバイス602と比較して、記憶デバイス、処理能力およびメモリを削減することができる。ターゲットコンピューティングデバイス610の例は限定されるものではないが、開示された実施形態と整合して、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ノートブックコンピュータ、ハンドヘルドコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、並びに、データ及びソフトウェア命令を記憶し、操作を実行するためのソフトウェア命令を実行し及び/又はインターフェース・モジュール上に情報を提示するように構成することができる他の任意のタイプのコンピューティングデバイスを含むことができる。
【0062】
開発者コンピューティングデバイス602は、一例では画像を第1領域空間から第2領域空間に変換するために、第1モデルモジュール104及びランタイムモジュール112(
図1)をそれぞれ使用して、2つのモデル、即ち第1モデル602A及びランタイムモデル602Bを学習するように構成される。開発者コンピューティングデバイス602は、第1モデルを学習するために複数の非ペア画像102を使用する。次に、非ペア画像を第1モデルに供給して、複数のペア画像106を生成する。複数のペア画像は、ランタイムモデル602Bを学習するために使用される。開発者コンピューティングデバイス602は、サーバコンピューティングデバイス612から非ペア画像102を提供されても良いし、非ペア画像が記憶されて開発者コンピューティングデバイス602の基板上(on board)で利用されても良い。開発者コンピューティングデバイス602は、実行のためにターゲットデバイス610でフェッチされるべきランタイムモデル602Bをサーバ612(または図示しない別のサーバ)に記憶することができる。ターゲットデバイス610はまた、実行のためにランタイムモデル602Bを基板上に格納しても良い。
【0063】
第1モデル602A及びランタイムモデル602Bのそれぞれは、一例では互いに通信する異なる開発者コンピューティングデバイス(図示せず)で学習されても良く、複数のペア画像106(
図1)及びフィルタ114(
図1)は、開発者コンピューティングデバイスのうちの1つに、または別個のコンピューティングデバイスに格納されても良い。説明したように、非ペア画像はサーバコンピューティングデバイス612から取得することができ、又、非ペア画像は、開発者コンピューティングデバイスの一方または両方の基板上に記憶され、利用されることができる。
【0064】
開発者コンピューティングデバイス602は、画像に適用される効果に従って、画像を第1領域から第2領域に変換するために、第1モデル及びランタイムモデルを学習するように構成される。効果は、前述の顔の効果(メイクアップの効果を含む)、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果等のうちの1つであっても良い。この効果は、3次元の効果であっても良い。この効果はまた、絵画および建物スタイル(a painting and a building style)、画像の着色(a coloration of images)、フィルタアプリケーション、超解像アプリケーション(super-resolution application)、衛星画像から地図への変換およびスケッチから写真への変換等のうちの1つであっても良い。また、この効果は、例えば犬の画像を猫の画像に変換する一方で、ポーズ、毛、色、背景等の他の全ての特徴を保存する等、異なる物体(objects)と対象(subjects)との間の特徴の変換であっても良い。
【0065】
ターゲットコンピューティングデバイス610は、開発者コンピューティングデバイス602によって開発されたランタイムモデル602Bを受信するように構成される。ターゲットコンピューティングデバイス610は、通信ネットワーク606を介して開発者コンピューティングデバイス602への通信またはサーバ612からの通信または他の任意の手段によって、データをデジタル転送するランタイムモデル602Bを受信することができる(例えばアプリケーションストアからのダウンロード(サーバコンピューティングデバイス614が提供する電子商取引サービス等))。ランタイムモデル602Bは、典型的にはモデル602Bを実行するランタイムアプリケーション614A(例えばアプリケーションストアからダウンロードされる)に組み込まれる。ターゲットコンピューティングデバイス610のユーザ608は、ランタイムアプリケーション614Aに画像またはビデオを提供して、ランタイムモデル602Bを実行し、効果が適用された画像またはビデオを生成する。提供された画像又はビデオはサーバー又はその他のコンピューティングデバイス(例えばweb(例えばhttp)又はその他の通信(例えばテキストメッセージ、インスタントメッセージ、ショートメッセージサービス、独自のメッセージ、電子メール等))から取得された、ターゲットコンピューティングデバイス610の入力装置から取得された又はターゲットコンピューティングデバイス610に連結された(例えばカメラ)、又は画像又はビデオを提供できる他の方法によって保存されることができる。
【0066】
一例では、画像に適用される効果が製品およびサービス(例えば、製品および/またはサービス)の一方または両方に関連付けられる。一例では、効果が製品に関連するメイクアップの効果である。一例では、効果がサービス及び製品に関連する皮膚の処置の効果である。一例では、アプリケーションがメイクアップの効果のための製品または皮膚の処置の効果のためのサービス及び製品を購入するために、サーバコンピューティングデバイス616から利用可能なeコマースサービス(例えばアプリケーション616)へのインターフェースを提供する。支払いサービス及び支払いネットワークは
図6に図示されない。
【0067】
図7は、本開示の1又は複数の態様による、開発者コンピューティングデバイス602のブロック図である。開発者コンピューティングデバイス602は、1又は複数のプロセッサ702と、1又は複数の入力デバイス704と、ジェスチャベースのI/Oデバイス706と、1又は複数の通信ユニット708と、1又は複数の出力デバイス710とを備える。開発者コンピューティングデバイス602はまた、1つ以上のモジュール及び/又はデータを記憶する1つ以上の記憶デバイス712を含む。モジュールは、第1モデル104及びランタイムモデル112と、フィルタ114と、グラフィカルユーザインターフェース(GUI720)と、画像処理アプリケーション718とを含むことができる。画像処理アプリケーションを使用することで、学習された第1モデル等からデジタルフィルタを適用し、並びに/又は、出力画像および/もしくはペア画像を見ることができる。データは、1又は複数の非ペア画像102及び複数のペア画像106を含むことができる。
【0068】
記憶デバイス712は、通信モジュール、写真(画像/メディア)エディタ、メディアプレーヤおよび/またはストリーミングモジュール、ブラウザモジュールなどを含む、オペレーティングシステム716およびその他のモジュール(図示せず)などの追加モジュールを記憶することができる。記憶デバイスは、本明細書では記憶ユニットと呼ばれることがある。
【0069】
1つ以上のプロセッサ702は機能を実装し、及び/又は、コンピューティングデバイス602内で命令を実行することができる。例えば、プロセッサ702はとりわけ(例えばオペレーティングシステム、画像処理アプリケーション718等)、第1モデルモジュール104、ランタイムモジュール112及びフィルタ114の機能を実行するために、記憶デバイス712から命令および/またはデータを受信するように構成されても良く、開発者コンピューティングデバイス602は、記憶デバイス712にデータ/情報を記憶しても良い。動作はモジュール102,104,106,112,114,718及び716内に正確に含まれないことがあり、その結果、1つのモジュールが別のモジュールの機能を支援できることを理解されたい。
【0070】
1又は複数のプロセッサ702は効果に従って、基板上(on board)に記憶された又はカメラ704から取得された画像またはビデオを第1領域空間から第2領域空間に変換するための要求を送信する。処理ユニット702は、第1モデルを学習するために、複数の非ペア画像102を第1モデルモジュール104に提供する。次いで、ランタイムモジュール112を利用してランタイムモデルを学習するために、提供される複数のペア画像106を生成するために、学習された第1モデルに複数の非ペア画像102を提供する。処理ユニットは、ランタイムモデルを学習するために提供する前に、複数のペア画像をフィルタリングするように、オプションのフィルタ114を要求することができる。
【0071】
通信チャネル722は、コンポーネント702,704,706,710,712及びコンポーネント間通信のための任意のモジュール104,112,114,716,71及び720のそれぞれを、通信可能に、物理的に及び/又は動作可能に結合することができる。いくつかの例では、通信チャネル722がシステムバス、ネットワーク接続、プロセス間通信データ構造又はデータを通信するための他の任意の方法を含むことができる。
【0072】
動作を実行するためのコンピュータプログラムコードは、1つ以上のプログラミング言語、例えば、Java(登録商標)、Smalltalk、C++等のオブジェクト指向プログラミング言語、又は、Cプログラミング言語又は同様のプログラミング言語のような、従来の手続き型プログラミング言語の任意の組み合わせで書くことができる。
【0073】
開発者コンピューティングデバイス602は、ジェスチャベースのI/Oデバイス706の画面上に表示するための出力、または、いくつかの例ではプロジェクタ、モニタ若しくは他のディスプレイデバイスによる表示のための出力を生成することができる。ジェスチャベースのI/Oデバイス706は、様々な技術(例えば、抵抗膜方式タッチスクリーン(resistive touchscreen)、超音波表面弾性波方式タッチスクリーン(a surface acoustic wave touchscreen)、静電容量方式タッチスクリーン(a capacitive touchscreen)、投影型静電容量方式タッチスクリーン(a projective capacitance touchscreen)、感圧スクリーン(a pressure-sensitive screen)、音響パルス認識タッチスクリーン(an acoustic pulse recognition touchscreen)、または、別のプレゼンスセンシティブスクリーン技術などの入力能力に関連して、および出力能力に関連して、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、ドットマトリクスディスプレイ、eインク、又は同様のモノクロ又はカラーディスプレイ)を使用して構成され得ることが理解されるのであろう。
【0074】
本明細書で説明する例では、ジェスチャベースのI/Oデバイス706が、タッチスクリーンと対話するユーザからの触覚による対話、または、ジェスチャを入力として受信することができるタッチスクリーンデバイスを含む。そのようなジェスチャは、タップジェスチャ、ドラッグジェスチャ又はスワイプジェスチャ、フリックジェスチャ、ジェスチャの一時停止(例えばユーザが少なくとも閾値期間にわたって画面の同じ位置にタッチする場合)を含むことができ、ユーザは、ジェスチャベースのI/Oデバイス706の1又は複数の位置にタッチ又はポイントする。ジェスチャベースのI/Oデバイス706は、非タップジェスチャを含むこともできる。ジェスチャベースのI/Oデバイス706は、グラフィカルユーザインターフェース等の情報をユーザ/開発者に出力または表示することができる。ジェスチャベースのI/Oデバイス706は、例えば画像を閲覧し、画像を処理し、新しい画像を表示するための画像処理アプリケーション718、メッセージングアプリケーション及び他のアプリケーション又は機能等を含む、開発者コンピューティングデバイス602の様々なアプリケーション、機能および能力を提示することができる。
【0075】
1又は複数の通信ユニット708は、1又は複数のネットワーク上でネットワーク信号を送信および/または受信することによって、通信ネットワーク606を介するなど、説明した目的のため、及び/又は他の目的(例えば印刷)のため等に、外部デバイス(例えばサーバ612、ターゲットコンピューティングデバイス610)と通信することができる。通信ユニットは、無線および/または有線通信のための様々なアンテナ及び/又はネットワークインターフェースカード、チップ(例えば全地球測位衛星(GPS))等を含むことができる。
【0076】
入力デバイス704及び出力デバイス710は、1又は複数のボタン、スイッチ、ポインティングデバイス、カメラ、キーボード、マイクロフォン、1又は複数のセンサ(例えば身体特徴を記録したもの(biometric)等)、スピーカ、ベル、1又は複数のライト、触覚(振動)デバイス等のいずれかを含むことができる。1又は複数の同じものを、ユニバーサルシリアルバス(USB(登録商標))又はその他の通信チャネル(722等)を介して結合することができる。カメラ(入力デバイス704)は、ユーザがジェスチャベースのI/Oデバイス706を見ている際に、カメラを使用して画像をキャプチャすることで「自撮り」を行うことができるよう、正面に向けられても良い(即ち同じ側にある)。
【0077】
1つ以上の記憶デバイス712は、例えば、短期メモリ又は長期メモリとして、異なる形態および/または構成とすることができる。記憶デバイス712は、電源がオフされたときに記憶された内容を保持しない揮発性メモリとして情報を短期的に記憶するために構成されても良い。揮発性メモリの例としては、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)等がある。記憶デバイス712は、いくつかの例では例えば、揮発性メモリよりも大量の情報を記憶し、及び/又は電源がオフされたときに情報を保持しながら長期間そのような情報を記憶するために、1又は複数のコンピュータ可読記憶媒体も含むことができる。不揮発性メモリの例には、磁気ハードディスク、光ディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、又は、電気的にプログラム可能なメモリ(EPROM)、または、電気的に消去およびプログラム可能なメモリ(EEPROM)の形態が含まれる。
【0078】
ターゲットコンピューティングデバイス610は、一例ではモデルを開発するためのコンポーネントが少ないにもかかわらず、開発者コンピューティングデバイス602と同様に構成することができることを理解されたい。ターゲットコンピューティングデバイス610は、第1モデルモジュール104、フィルタ114、ペア画像106及び非ペア画像102等を有していなくても良い。一例では、ターゲットコンピューティングデバイスが、ランタイムアプリケーション614Aに組み込まれたランタイムモデル602Bを含み、第1領域空間から第2領域空間へのリアルタイム変換を提供し、適用される効果のための仮想または拡張現実体験を提供する。ターゲットデバイス610は、画像に適用される効果の画像を要求し、表示する等のGUIを有することができる。適用される効果の少なくともいくつかに関して、一例では、アプリケーション614Aが少なくともいくつかの効果のそれぞれにつき、関連する製品および/またはサービスを購入するためのインターフェースを提供する。
【0079】
図8は、一例による、ターゲットコンピューティングデバイス610のプロセッサによる実行のための動作800を示すフローチャートである。ステップ802において、ターゲットコンピューティングデバイス610は入力デバイス(例えば、カメラ)から画像またはビデオを取得するか、または基板上(on board)に記憶されている画像またはビデオを使用する。ターゲットコンピューティングデバイス610は、ランタイムモデル602Bで実行するために、ランタイムアプリケーション614に画像またはビデオを提供する(ステップ804)。ランタイムモデル602Bは、効果を適用するように学習されたものである。効果はシミュレートされた又は仮想的な効果であり、実際に効果を達成するための製品及び/又はサービスに関連付けられる。
【0080】
ステップ806において、ランタイムアプリケーション614は、ランタイムモデル602Bを実行して、画像またはビデオに効果を適用する。変換された画像またはビデオは、ステップ808において、GUIを介してユーザ602に提示される。810において、アプリケーション614の電子商取引インターフェースは、効果に関連付けられた製品および/またはサービスを購入するために(例えば、サーバ616及びそのアプリケーション618と共に)使用される。
【0081】
一例では、画像が、本明細書のモデルのいずれかを学習するために使用する前に処理ユニットにより前処理される。画像は、学習されたランタイムモデルを含む学習されたモデルのいずれかによって処理される前に前処理されることが可能である。前処理は、ヒストグラム均等化(histogram equalization)、正規化(normalization)等、任意の処理技法を含むことができる。
【0082】
図9は、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する学習されたランタイムモデルを定義するための動作900(例えば、例示的な方法)を示す。902において、動作は、記憶ユニットであって、i)複数の非ペア画像と、ii)複数の非ペア画像を使用する学習によって、複数のペア画像を生成するように調整される第1モデル及び複数のペア画像を使用する学習によって調整されるランタイムモデルと、を記憶する記憶ユニットを提供する。
【0083】
複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。学習を通して、第1モデルは、1)画像の第1サブセットを第2領域空間に変換して第1サブセットとペアになる第1偽画像を生成し、2)画像の第2サブセットを第1領域空間に変換して第2サブセットとペアになる第2偽画像を生成するように構成される。第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義する。
【0084】
ランタイムモデルは、第1領域空間内の画像を第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成される。
【0085】
904において、動作は、学習された第1モデルを生成するために、複数の非ペア画像を学習し、第1偽画像および第2偽画像を生成するために、学習された第1モデルに複数の非ペア画像を提供し、複数のペア画像を生成するために、第1偽画像および第2偽画像をそれらのそれぞれの画像の第1サブセット及び画像の第2サブセットとペアにし、学習されたランタイムモデルを生成するために、複数のペア画像を用いて学習するように構成された処理ユニットを動作させる。
【0086】
一例では、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるときに、コンピューティングデバイスは画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するために、学習されたランタイムモデルを定義する方法を実行するように構成される。
【0087】
一例では例えば、デバイス610は、画像に適用される効果に従って、第1領域空間から第2領域空間に画像を変換するコンピューティングデバイスを定義する。コンピューティングデバイスは、処理ユニットと記憶ユニットとを備える。記憶ユニットは、第1領域空間から第2領域空間に画像を変換するためのランタイムモデルを記憶し、ランタイムモデルは、複数のペア画像を使用する学習によって条件付けられ、ペア画像のそれぞれは第1領域空間における第1画像と、第2領域空間における第2画像とを含み、複数の非ペア画像を第1モデルを使用して変換することによって生成される。複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。第1モデルは、複数の非ペア画像を使用して学習によって調整されたモデルを含む。従って、第1モデルは画像の第1サブセットを第2領域空間に変換して、第1サブセットとペアになる第1偽画像を生成し、画像の第2サブセットを第1領域空間に変換して、第2サブセットとペアになる第2偽画像を生成するように構成される。第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義した。処理ユニットは、(例えば、適用される効果を受け取るために)ランタイムモデルに画像を提供し、提示するためにランタイムモデルによって変換された画像を提供するように構成される。
【0088】
一例では、第1モデルは、複数の非ペア画像に対する性能を最大化するように、過度に学習されたモデルを含む。
【0089】
一例では、ランタイムモデルが、品質尺度を使用して第1サブセットと第1偽画像と第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを使用することによって決定されたペア画像を使用することで、調整される。
【0090】
一例において、第1モデルは、複数の非ペア画像の周辺分布を使用して、複数の非ペア画像の同時分布を学習する機械学習モデルを含む。第1モデルは、複数の非ペア画像を使用して学習された敵対的生成ネットワークを備えることができ、敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちの任意の1つを備えることができる。一例では、ランタイムモデルが、第1モデルとは異なるモデルアーキテクチャを含む。一例では、ランタイムモデルが、パラメータの最小限のセットと、最小限のメモリサイズとを備える。一例では、コンピューティングデバイスが、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデータアシスタンス(PDA)及びタブレットのうちの1つを含む。
【0091】
一例において、コンピューティングデバイスは、最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ又は他のコンピューティングデバイスと比較して、削減された記憶および処理リソースを含む。
【0092】
一例では、ランタイムモデルがランタイムアプリケーションに組み込まれて、第1領域空間から第2領域空間へのリアルタイム変換を提供し、適用される効果のための仮想または拡張現実体験を提供する。
【0093】
一例では、適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。一例では、効果が(例えば、実際に効果を達成するために)製品および/またはサービスに関連付けられ、処理ユニットは、製品および/またはサービスを購入するためにeコマースサービスと対話するためのインターフェースを使用するように構成される。
【0094】
一例では、適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換、及びスケッチから写真への変換のうちの1つである。
【0095】
一例では、変換される画像が、自撮り画像または自撮りビデオを含む。一例では、適用される効果が、3次元の効果である。
【0096】
一例では、コンピューティングデバイスが、処理ユニットが受信するための画像を取り込むために、カメラを備えるか、又は、カメラに結合される。
【0097】
一例では、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるとき、コンピューティングデバイスは説明されるように、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する方法を実行するように構成される。
【0098】
一例では、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成するコンピューティングデバイスが提供される。コンピューティングデバイスは、処理ユニットと記憶ユニットとを備える。記憶ユニットは、効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを含む複数の非ペア画像と、複数の非ペア画像に対する性能を最大化するために過剰学習されるモデルとを記憶する。モデルは、第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換し、第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換するように構成される。処理ユニットは、過剰適合された第1モデルを生成するために複数の非ペア画像で過剰適合し、第1偽画像および第2偽画像を生成するために、過剰適合された複数の非ペア画像を第1モデルに提供し、複数のペア画像を生成するために第1偽画像および第2偽画像をそれぞれの画像の第1サブセット及び第2サブセット画像とペアになるように構成される。
【0099】
図10は、画像から画像への変換のためのモデルを学習する動作1000(例えば、例示的な方法)を示す。1002で、動作は、教師なし学習技法を使用して、強力な画像変換モデルを画像の非ペアデータセットに過剰適合させる。強力な画像変換モデルは、非ペアデータセットから画像の合成されたペアデータセットを生成するように学習され、非ペアデータセットは、第1領域空間における画像の第1サブセットと第2領域空間における画像の第2サブセットとを含む。1004の動作では、ランタイムモデルを、強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用することで学習する。ランタイムモデルは、画像を第1領域から第2領域に変換するように学習され、ランタイムモデルは、強力な画像変換モデルと比較してコンパクトで高速なモデルを含む。
【0100】
一例では、ランタイムモデルが、第1領域から第2領域に画像を変換するためにランタイムデバイスによって使用されるように提供される。ランタイムデバイスは、ランタイムモデルを実行するのに少なくとも十分な性能基準(performance standards)を満たす処理リソースおよび記憶リソースを備え、ランタイムデバイスにより強力な画像変換モデルを実行するのに不十分な性能基準を満たす処理リソース及び記憶リソースを備えている。即ちランタイムデバイスは、(より大きく、より資源に依存する)強力な画像変換モデルを実行する場合、同等の性能標準を提供するのに十分な資源を有していない。性能基準は、実行時間、実行能力およびユーザエクスペリエンス(サービス品質)のいずれかに関係し得る。
【0101】
開発者およびターゲットコンピューティングデバイスの態様に加えて、一般的な当業者は、コンピュータプログラム製品の態様が開示され、そこで命令が非一時的な記憶デバイス(例えば、メモリ、CD-ROM、DVD-ROM、ディスク等)に記憶され、ここに記憶された方法の態様のいずれかを実行するようにコンピューティングデバイスを構成することを理解されるであろう。
【0102】
実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、ならびに様々な組み合わせは、本明細書で説明される特徴を組み合わせる方法、装置、システム、機能を実行するための手段、プログラム製品として、および、他の方法で表現され得る。多数の実施形態が記載されている。それにもかかわらず、本明細書で説明されるプロセス及び技法の精神および範囲から逸脱することなく、様々な修正を行うことができることが理解されるであろう。加えて、記載されたプロセスから、他のステップが提供されても良く、又は、ステップが省略されても良く、記載されたシステムに他のコンポーネントが追加されても良く、又は、記載されたシステムから他の構成要素が除去されても良い。その結果の他の態様は、特許請求の範囲の範囲内にある。
【0103】
本明細書の説明および特許請求の範囲の全体にわたって、「備える」及び「含む」という語およびそれらの変形は、「含むがこれに限定されない」ことを意味し、他のコンポーネント、整数またはステップを省略することを意図しない(及び省略しない)。本明細書全体を通して、単数形は文脈がそわないことを要求しない限り、複数形を包含する。特に、不定冠詞が使用される場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0104】
本発明の特定の態様、実施形態、または例に関連して説明される特徴、整数、特性または、グループはそれと互換性がない限り、任意の他の態様、実施形態、または例に適用可能であると理解されるべきである。本明細書に開示される特徴(任意の添付の特許請求の範囲、要約書、および図面を含む)の全て、及び/又は、そのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書(任意の添付の特許請求の範囲、要約書、および図面を含む)に開示された特徴の任意の新規な1つ、または任意の新規な組み合わせ又は開示された任意の方法またはプロセスのステップの任意の新規な1つ、または任意の新規な組み合わせに及ぶ。
<参考文献>
1.P. Isola, J. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," CoRR, vol. abs/1611.07004, 2016. arXiv: 1611.07004 [Online]. Available: arxiv.org/abs/1611.07004.
2.J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
3.M. Brand and A. Hertzmann, "Style machines," in Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques, ser. SIGGRAPH '00, New York, NY, USA: ACM Press/Addison-Wesley Publishing Co., 2000, pp. 183-192, ISBN: 1-58113-208-5. DOI: 10.1145/ 344779.344865. [Online]. Available: dx. doi.org/10.1145/344779.344865.
4.W. T. Freeman and J. B. Tenenbaum, "Learning bilinear models for two-factor problems in vision.," in Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition (CVPR '97), ser. CVPR '97, Washington, DC, USA: IEEE Computer Society, 1997, pp. 554-, ISBN: 0-81867822-4. [Online]. Available: dl.acm.org/ citation.cfm?id=794189.794495.
5.E. Hsu, K. Pulli, and J. Popovie, "Style translation for human motion," ACM Trans. Graph., vol. 24, no. 3, pp. 1082-1089, Jul. 2005, ISSN: 0730-0301. DOI: 10. 1145/1073204. 1073315. [Online]. Available: doi.acm.org/10.1145/1073204. 1073315.
6.L. Gatys, A. Ecker, and M. Bethge, "Image style transfer using convolutional neural networks," Jun. 2016, pp. 2414-2423. DOI: 10.1109/CVPR.2016. 265.
7.A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin, "Image analogies," in Proceed-ings of the 28th Annual Conference on Computer Graphics and Interactive Techniques, ser. SIG-GRAPH '01, New York, NY, USA: ACM, 2001, pp. 327-340, ISBN: 1-58113-374-X. DOI: 10.1145/ 383259.383295. [Online]. Available: doi. acm.org/10.1145/383259.383295.
8.A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb, "Learning from simulated and unsupervised images through adversarial training," CoRR, vol. abs/1612.07828, 2016. arXiv: 1612.07828. [Online]. Available: arxiv. org/abs/1612.07828.
9.I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative Adversarial Networks," arXiv e-prints, arXiv:1406.2661, arXiv:1406.2661, Jun. 2014. arXiv: 1406.2661 [stat.ML].
10.T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim, "Learning to discover cross-domain relations with generative adversarial networks," CoRR, vol. abs/1703.05192, 2017. arXiv: 1703 . 05192. [Online]. Available: arxiv.org/abs/1703.05192.
11.Z. Yi, H. Zhang, P. Tan, and M. Gong, "Du-algan: Unsupervised dual learning for image-to-image translation," CoRR, vol. abs/1704.02510, 2017. arXiv: 1704 . 02510. [Online]. Available: arxiv.org/abs/1704.02510.
12.M. Liu, T. Breuel, and J. Kautz, "Unsupervised image-to-image translation networks," CoRR, vol. abs/1703.00848, 2017. arXiv: 1703 . 00848. [Online]. Available: arxiv.org/abs/1703.00848.
13.T. Zhou, P. Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros, "Learning dense correspondence via 3d-guided cycle consistency," CoRR, vol. abs/1604.05383, 2016. arXiv: 1604 . 05383. [Online]. Available: arxiv.org/abs/1604.05383.
14.A. Brock, J. Donahue, and K. Simonyan, "Large scale GAN training for high fidelity natural image synthesis," CoRR, vol. abs/1809.11096, 2018. arXiv: 1809.11096. [Online]. Available: arxiv.org/abs/1809.11096.
15.V. Bychkovsky, S. Paris, E. Chan, and F. Durand, "Learning photographic global tonal adjustment with a database of input / output image pairs," in The Twenty-Fourth IEEE Conference on Computer Vision and Pattern Recognition, 2011.
16.Eboye photoshop action. [Online]. Available: www.deviantart.com/eboye /art/Instagram-Photoshop-Action- 253436319.
17.M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, G. Klambauer, and S. Hochreiter, "Gans trained by a two time-scale update rule converge to a nash equilibrium," CoRR, vol. abs/1706.08500, 2017. arXiv: 1706 . 08500. [Online]. Available: arxiv.org/abs/1706.08500.
18.O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," CoRR, vol. abs/1505.04597, 2015. arXiv: 1505.04597. [Online]. Available: arxiv.org/abs/1505.04597.
19.K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," CoRR, vol. abs/1512.03385, 2015. arXiv: 1512 . 03385. [Online]. Available: arxiv.org/abs/1512.03385.
20.A. Levinshtein, C. Chang, E. Phung, I. Kezele, W. Guo, and P. Aarabi, "Real-time deep hair matting on mobile devices," CoRR, vol. abs/1712.07168, 2017. arXiv: 1712 . 07168. [Online]. Available: arxiv.org/abs/1712.07168.
【手続補正書】
【提出日】2022-07-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するコンピューティングデバイスであって、
a.前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによ
り生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶する記憶ユニットであって、
i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、
ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり
、以下のように構成される:
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
b.前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによ
り変換された画像を提供するように構成された処理ユニットと、
を含むコンピューティングデバイス。
【請求項2】
前記第1モデルは、前記複数の非ペア画像に対する性能を最大化するように過剰学習されたモデルを含む請求項
1記載のコンピューティングデバイス。
【請求項3】
前記第1モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含む請求項
1又は2に記載のコンピューティングデバイス。
【請求項4】
前記ランタイムモデルは、品質尺度を使用して前記第1サブセットと第1偽画像と前記第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを使用することにより決定されたペア画像を使用して調整されたものである請求項
1記載のコンピューティングデバイス。
【請求項5】
前記ランタイムモデルは、パラメータの最小限のセットと最小限のメモリサイズとを含み、前記コンピューティングデバイスは、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデータアシスタンス(PDA)及びタブレットのうちの1つを含む請求項
1,2又は4のいずれかに記載のコンピューティングデバイス。
【請求項6】
前記ランタイムモデルが、
適用される
前記効果のための仮想または拡張現実体験を提供するために前記第1領域空間から前記第2領域空間へのリアルタイム変換を提供するためのランタイムアプリケーションに組み込まれる請求項
1,2又は4のいずれかに記載のコンピューティングデバイス。
【請求項7】
適用される
前記効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである請求項
1記載のコンピューティングデバイス。
【請求項8】
適用される
前記効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換
、スケッチから写真への変換
および3次元の効果のうちの1つである請求項
1,2,4又は7に記載のコンピューティングデバイス。
【請求項9】
前記複数の非ペア画像に関し、
a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、
b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである請求項1,2,4又は7に記載のコンピューティングデバイス。
【請求項10】
命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品であって、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換する方法を実行するように構成される
ものであり、
a.前記記憶ユニットは、前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによ
り生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶し、
i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、
ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり
、以下のように構成される:
1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、
2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、
b.前記処理ユニットは、前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによ
り変換された画像を提供するように構成されるものであるコンピュータプログラム製品。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【相互参照】
【0001】
本出願は、その内容が参照により本明細書に組み込まれる、2019年11月15日に出願された米国仮出願第62/935,715号の米国および他の場所における優先権の国内利益を主張する。
【技術分野】
【0002】
本出願は、機械学習を用いた画像処理に関する。より詳細には、本出願が教師あり学習のための非ペアデータを使用する画像から画像への変換に関するものである。
【背景技術】
【0003】
小型で高速なモデルを利用し、適用される効果を用いて画像を1つの領域(domain)から別の領域に変換するように構成されたコンピューティングデバイスを提供することが望ましい。画像から画像への変換における否定できない進歩は、何年にも亘ってなされてきたが、それはいかなる種類の実際的な設定においても適用され得ない。研究と商業的応用との間のこのギャップの主な理由は、提案されたモデルの大きなサイズ及び/又は要求される処理リソースのためであった。画像から画像への変換の商用アプリケーションは、しばしば、ネイティブアプリケーション又はブラウザのいずれかにおいて消費者のスマートフォン又はデスクトップ上のようなデバイス上での推論(on-device inference)を必要とする。従って、資源利用および性能のいずれかが考慮される。更にリアルタイムなビデオの変換は、典型的には大量の処理速度を有する変換を生成するために、かなりのプロセッサ資源を必要とする。
【0004】
過去数年にわたって、画像から画像への変換は、コンピュータビジョンにおいて最も研究されている問題の1つになっている。本質的に、タスクは元のソース画像のアイデンティティを保つ方法で、異なる領域に属する画像間のマッピングを見つけること(例えば犬の画像を猫の画像に変換する一方で、ポーズ、毛の色および背景等の他の全ての特徴を保つこと)として説明することができる。
【0005】
コンピュータグラフィックスの分野は、これらの規則を明示的に指定することなく(例えば、より現実的な照明/シェーディング)、複雑な規則によって支配されるシーンを容易にレンダリングするための技術を利用することができる。同様に、アプリケーションは、様々な目的のために視覚世界を変換するのに役立つことができる、急速に成長する拡張現実の商業的応用に応用されている。画像から画像への変換は、消費者および専門家が異なるオブジェクト及びスタイルを組み合わせることを可能にするアプリケーションを介して、パーソナライズされた製品または芸術作品を設計する際に、同様に支援するために、スタイル転送のコンテキストにおいて使用されても良い。また、画像/ビデオ編集は、複雑で暗黙的に定義されたフィルタアプリケーション、着色および超解像度などの技法によっても非常に有益であり、これらの技法はすべて、画像から画像への変換モデルを使用して実現することができる。この技術の実際的な利点は膨大であり、これは決して網羅的なリストではない。
【0006】
画像から画像への変換を実行するモデルを定義することは通常、モデルを学習するためのペア画像データを有することから利益を得るものであり、この場合、適用される効果のない第1領域の画像は、効果が適用される第2領域の対応する画像とペアにされる。画像は、第1画像と第2画像との間の他の差が最小であるという点で対応する。しかしながら、このようなペア画像データを定義することにおいて、2つの領域内のこのような画像が自然に生じることはまれであり、このようなデータを手動で生成することは時間と資源の集約的なものであるため、困難である。
【発明の概要】
【0007】
多くの画像から画像への変換タスクにおいて、ディープラーニングを用いた教師あり学習に適した対のデータセットを得ることは非常に困難であるか、又は、実際には不可能である。このように、近年、非ペアデータ(unpaired data)を直接学習するために、いくつかの方法が開発されている。これらの方法はしばしば、印象的な結果を成し遂げているが、典型的にリアルタイムのデバイス上での推論に適していない、強力なモデルを必要とし、これはそれらの実用的な用途の範囲を大幅に制限する。本開示では、非ペアデータセット(unpaired dataset.)のみが与えられた場合に、小型で高速なモデルを学習するための技法が提供される。方法は、生成された結果が正解データ(ground truth)として役立つ合成されたペアデータセット(synthetic paired dataset)を生成するために、既存の教師なし学習技法を使用して、強力なモデルを最初に調整し、好ましくは、非ペアデータセットに過剰適合(overfitting)させることを含む。
【0008】
このペアデータセットを使用して、配備により適したコンパクトであるがより弱いモデルが、既存の監視された学習技法を使用して学習される。教師あり学習は、より容易なタスクであるので、弱いモデルは、元の非ペアデータセット上で教師なしの学習技法を使用して直接学習された場合よりも、はるかに良好なパフォーマンスを達成する傾向がある。利点は異なる困難性の2つの画像から画像への変換タスク、即ち、1)毛髪の着色、および、2)デジタルフィルタの適用について経験的に実証される。
【0009】
本開示によれば、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するシステムが提供される。
【0010】
システムは2つのモデル、即ちデータペアリングモデルを定義する第1モデルと、ランタイムモデルを定義する第2モデルとを生成するように構成される。第1モデルは、複数の非ペア画像(unpaired image)を用いた学習によって調整される。複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。
【0011】
第1モデルは、第1サブセットの画像を第2領域空間に変換して、第1サブセットとペアになる第1偽画像を生成し、第2サブセットの画像を第1領域空間に変換して、第2サブセットとペアになる第2偽画像を生成するように構成される。
【0012】
複数の非ペア画像を学習された第1モデルに提供することは、第1サブセットと第1偽画像と第2サブセットと第2偽画像とによってそれぞれ定義される複数のペア画像を生成する。
【0013】
一実施形態では、第1モデルが複数の非ペア画像に対する性能を最大化するように過剰学習(overfitted)される。
【0014】
ランタイムモデルは、複数のペア画像を使用する学習によって調整され、第1領域空間内の画像を第2領域空間内の画像に変換し、ターゲットデバイス上で実行されるように構成される。
【0015】
本明細書の教示および実施形態によれば、画像から画像への変換のためにモデルを学習する方法が提供される。この方法は教師なし学習技法を使用して、画像の非ペアデータセットを使用して、強力な画像変換モデルを学習するステップと、非ペアデータセットから画像の合成されたペアデータセットを生成するように学習され非ペアデータセットが第1領域空間内の画像の第1サブセットと第2領域空間内の画像の第2サブセットとを含むステップと、強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用して、ランタイムモデルを学習するステップとを含み、ランタイムモデルは強力な画像変換モデルと比較して、画像を第1領域から第2領域に変換するように学習され、ランタイムモデルはコンパクトで高速なモデルを含む。
【0016】
この方法ならびに本明細書の教示および実施形態によれば、プロセッサ及び記憶ユニットを備えるコンピューティングデバイスが提供され、記憶ユニットは、この方法を実行するためにコンピューティングデバイスによる実行のための命令を記憶する。この方法ならびに本明細書の教示および実施形態によれば、処理ユニット及び記憶ユニットを備えるコンピューティングデバイスが提供され、記憶ユニットは方法によって学習されたランタイムモデルを記憶し、命令を記憶し、命令は、処理ユニットによって実行されると、コンピューティングデバイスを構成して、ランタイムモデルを使用して、第1領域からの画像を変換して、第2領域内に画像を生成する。
【0017】
本明細書の教示および実施形態によれば、画像に適用される効果に従って画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義するコンピューティングデバイスが提供され、コンピューティングデバイスは、記憶ユニットであって、i.効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを備える複数の非ペア画像、ii.複数の非ペア画像を使用する学習によって調整される第1モデルであって、1.画像の第1サブセットを第2領域空間に変換して第1サブセットとペアになる第1偽画像を生成するように構成された第1モデルと、2.画像の第2サブセットを第1領域空間に変換して第2サブセットと対にして第2偽画像を生成する記憶ユニットとを備え、第1サブセットと第2偽画像と第2偽画像とは、それぞれ複数のペア画像を定義するものである、iii.第1の領域空間内の画像を第2領域空間内の画像に変換し、ターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数の非ペア画像を用いて学習することによって調整されるランタイムモデルとを記憶する記憶ユニットと、処理ユニットであって、複数の非ペア画像を用いて学習し、学習された通りに第1モデルを生成し、第1偽画像および第2偽画像を生成するように学習された通りに、第1モデルに複数の非ペア画像を提供し、第1偽画像および第2偽画像を、それらのそれぞれの画像の第1サブセット及び画像の第2サブセットと対にして複数のペア画像を生成し、学習されたランタイムモデルを生成するように複数のペア画像を用いて学習するように構成された処理ユニットとで構成される。また、そのように学習されたランタイムモデルで構成されたコンピュータプログラム製品およびコンピューティングデバイスを含む、関連する方法およびコンピュータプログラム製品の態様も提供される。
【0018】
本明細書の教示および実施形態によれば、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるとき、コンピューティングデバイスは、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する方法を実行するように構成されるコンピュータプログラム製品であって、a.記憶ユニットは、画像を第1領域空間から第2領域空間に変換するためのランタイムモデルであって、第1領域空間における第1画像と、第2領域空間における第2の画像とを含み複数の非ペア画像を第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶し、i.複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含むものであり、ii.第1モデルは、複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:1.第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換すること、2.第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換すること、ここで、第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、b.処理ユニットは、画像をランタイムモデルに提供し、提示のためにランタイムモデルによって変換された画像を提供するように構成される。
【0019】
本明細書の教示および実施形態によれば、画像に適用される効果に従って画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数の非ペア画像を生成するコンピューティングデバイスが提供され、コンピューティングデバイスは、a.記憶ユニットであって、i.効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを含む複数の非ペア画像、ii.複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、1.第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換し、2.第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換する、を記憶する記憶ユニットと、b.処理ユニットであって、過剰適合された(overfitted)第1モデルを生成するために複数の非ペア画像で過剰適合し、第1偽画像および第2偽画像を生成するために、過剰適合された複数の非ペア画像を第1モデルに提供し、複数のペア画像を生成するために、第1偽画像および第2偽画像をそれぞれの第1画像サブセット及び第2の画像サブセットとペアになるように構成される処理ユニットと、から構成される。
【図面の簡単な説明】
【0020】
【
図1】一実施形態による、データペアリングモデル及びランタイムモデルを調整するためのコンポーネントを含む開発者コンピューティング環境のブロック図である。
【
図2】A及びBは、一実施形態による、オリジナル画像と、そのオリジナル画像にデジタルフィルタ効果が適用された画像とを並べた一対の画像である。
【
図3】一実施形態による、毛髪の着色の効果のためにオンラインソースから得たサンプルを示す画像の配列である。
【
図4】A,B及び4Cは、それぞれの例による、毛髪の着色とデジタルフィルタ効果との性能測定基準のグラフである。
【
図5】Aは、i)一番上の行において、毛髪の着色の効果がそれぞれにランタイムモデルを使用して適用される複数の入力画像を示し、ii)中央の行において、毛髪の着色の効果が非ペア画像(例えば教師なし学習を使用したもの)を使用して学習されたランタイムモデルによって入力画像に適用された複数の出力画像を示し、iii)一番下の行において、本教示の一例に従って、ペア画像を使用して学習されたランタイムモデルを使用して、毛髪の着色の効果が入力画像に適用された複数の出力画像を示す、画像の配列であり、Bは、最初の2つの行において、ランタイムモデルがi)上の行において、複数の非ペア画像(教師なし学習)、およびii)中央の行において、本教示の一例による複数のペア画像、および下の行において、妥当性ソフトウェアを使用してデジタルフィルタを適用する正解データ画像との比較を用いて学習される場合のデジタルフィルタ効果の出力を示す画像の配列である。
【
図6】一実施形態による、コンピューティングデバイスのコンピュータネットワークのブロック図である。
【
図7】一実施形態による、一例による開発者コンピューティングデバイスのブロック図である。
【
図8】一実施形態による、ターゲットデバイスの動作を示すフローチャートである。
【
図9】本明細書の実施形態による動作を示すフローチャートである。
【
図10】本明細書の実施形態による動作を示すフローチャートである。
【0021】
【0022】
【0023】
【0024】
【0025】
【0026】
【0027】
【0028】
【0029】
【発明を実施するための形態】
【0030】
画像から画像への変換することは、モデルを使用して2つ以上の特徴的な領域の間で画像を変換(変換)するタスクを指す。理想的には、領域の間で変化する画像の特徴のみが変更され、他の全ての特徴は同一のままである必要がある。タスクは、特定の生成された画像の宛先スタイル(the destination style)を指定する参照画像が提供されない、スタイル転送(style-transfer)の特別なケースと考えることができる。その代わり、学習データは異なる領域に従って分離され、モデルは異なる領域の間のマッピング機能を学習する。
【0031】
画像から画像への変換およびスタイル転送は、コンピュータビジョンにおいて長年の問題であり、大量の研究から恩恵を受けてきた[3-8]。最近、敵対的生成ネットワーク(GAN)の出現により、知覚的に現実的な結果を達成することにおいて、著しい進歩がなされている[9]。特に、Isolaら[1]は、敵対的なものと共に単純に監視された損失を使用して、以前の手法よりも優れた主観的品質の画像を生成した。しかしながら、これらのアプローチは、ペアの入力-出力データセットを必要とし、これは、多くのタスクについて得ることが困難であるか、または実現不可能でさえあり得る。
【0032】
画像から画像への変換のための支配的な(leverage)教師なしデータが導入されるいくつかの手法が、従来から存在している[10-12]。この分野における画期的な研究はZhuらのCycleGANであり[2]、これは、ペアになるGANと画像の領域の間の新規なサイクル一貫性喪失(cycle-consistency loss)[13]とを使用することにより、非ペアデータセットから学習することであった。それらの方法では、それぞれの生成器(generator )/識別器(discriminator )の対が画像を一方向に(即ち領域AからBへ、またはその逆に)変換することに特化している。この変換は制約不足であり、オリジナル画像の特徴が保護されることを保証せず、該手法はまた、変換された画像をそれらのオリジナル領域に変換して戻し、識別性を損失する。この周期的な損失は、本質的に領域の間の1対1のマッピングを強制する。生成器は、意図された変換作業に関連する特徴のみを修正することによってこのマッピングを達成するが、これは他の特徴の修正がオリジナル画像の検索をより困難にする結果となるからである。
【0033】
GANベースの手法[14]を使用して良好な結果を達成するためには、通常、非常に大きな生成器ネットワークが必要とされ、モバイルデバイス上のリアルタイム性能のような多くの実用的な用途にはあまり適していないことが示されている。例えばフレームからフレームへの変換を行うモデルを使用するライブ映像(例えばリアルタイム又はオンザフライ)のアプリケーションでは、妥当なフレームレートでは不可能である。従って、GANモデルを使用する画像から画像への新たな変換手法を探索することに大きな関心が寄せられている。
【0034】
目的は、複数の非ペア画像のみが利用可能であるタスクについてモデルを学習することである。モデルは、所望のリソース利用および性能特性を与えるため、小型および/または高速なモデル(好ましくは両方)が望まれる消費者デバイスのようなターゲットデバイスのために学習されても良い。複数の非ペア画像を直接用いて学習した場合に、より弱いモデルは性能が劣る傾向があるという観測が与えられた場合、本開示は、複数の非ペア画像を用いて、より強力なモデルを学習することによって得られる合成された複数のペア画像を生成することを記載する。
<複数の非ペア画像を使用した強力なモデルの過剰適合>
【0035】
複数の非ペア画像を使用する現行の学習手法は、平均二乗誤差のようなタスクの性能に直接的に最適化を及ぼす信号を逆伝播することができず、その代わりに、敵対学習によって提供される信号のような間接的な信号に依存しなければならない。このように、複数の非ペア画像からの学習は、強力なモデルを必要とするより困難なタスクである。
【0036】
図1は、一実施形態による、データペアリングモデル104及びランタイムモデル112を調整するためのコンポーネントを含む、簡略化された開発者コンピューティング環境100のブロック図である。コンピューティング環境100は、1つ以上の記憶デバイスを有する1つ以上のコンピューティング装置を含んでも良い。
図7を参照して、より詳細な例を示し、説明する。コンピューティングデバイスの記憶デバイスは、グラフィックス処理ユニット又はサーバ等の処理ユニットのような処理ユニットに命令を提供するためのメモリ(RAM/ROM)等から構成することができる。処理ユニットは、2つ以上のプロセッサコアを備えても良いことが理解されるであろう。開発者コンピューティング環境は、複数のリンクされたデバイス等の2つ以上のコンピューティングデバイスを備えることができる。
【0037】
本実施形態では、第1モデル104を学習する複数の非ペア画像102を設けているが、これは有力なモデルである。複数の非ペア画像は、第1モデル104を過剰適合させるために使用され、非学習データに対するパワーパフォーマンスを犠牲にしても、学習データセットに対する改善された結果を達成することができる。このようにして結果は、改善されたペアデータを生成する。統計およびモデル構築の過剰適合とは、特徴に気付く方法をより広く学習するのを犠牲にして、例(ノイズを含む等)に関する詳細や細部を学習することを指す。過剰適合モデルは、それを定義するために使用される例に厳密に又は正確に対応し、そして、追加のデータに適合しないか、又は、将来の観察を十分に予測できないことがある。過剰適合は一般に、ある領域から別の領域へ(または両方向に)画像を広く変換するのに使用するために定義されるモデル学習には望ましくないと考えられるが、本タスクでは第2モデル(例えばランタイムモデル)を用いた第2の教師あり学習タスクで使用するために、2つの領域内の十分にペアになる画像を定義するので、有用である。
【0038】
複数の非ペア画像102は、効果が適用されない第1領域空間内の画像のサブセットと、効果が適用される第2領域空間内の画像の別のサブセットとを含む。
【0039】
第1モデルは、複数の非ペア画像で学習された2つのサブモデルを含む。第1サブモデルは、第1領域空間内の画像のサブセットを入力として使用し、第2領域空間内の画像のサブセットをターゲットとして使用して、第1領域空間から第2領域空間に画像を変換するように、学習を用いて調整される。第2サブモデルは、第2領域空間内の画像のサブセットを入力として使用し、第1領域空間内の画像のサブセットをターゲットとして使用して、第2領域空間から第1領域空間に画像を変換するように、学習を用いて調整される。
【0040】
第1モデルを学習した後(即ち各サブモデルが学習された後)、第1モデルは、第1の領域内の画像のサブセットを第2領域に変換するために使用され、逆もまた同様である。即ち第1サブモデルは、画像を第1領域から第2領域に変換し、第2サブモデルは、第2領域内の画像のサブセットを第1領域に変換するために使用され、従って、それぞれが領域内にペア画像を生成する。この結果、複数のペア画像106を含む画像の以下のセットが得られる:1)第1領域の実画像および第2領域108の偽画像、2)第2領域の実画像および第1領域110の偽画像。
【0041】
所望の課題が、画像を第1領域から第2領域に変換するモデルを学習することである場合、複数のペア画像は、第1領域の実画像と、第1領域の偽画像とを含み、それらペアがになる対応物は、正解データ(ground truths)とされる。
【0042】
一実施形態では、以前の研究において人気で、かつ平凡な(vanilla)非ペアの画像から画像へ変換する学習手法の地位にあるCycleGAN[2]を主に使用して、複数の非ペア画像を学習するが、原則として、任意の非ペアの学習手法を代用することができる。例えばデュアル敵対的生成ネットワーク(Dual Generative Adversarial Network)、サイクル敵対的一貫性ネットワーク(Cycle Consistent Adversarial Network)、及び、結合敵対的生成ネットワーク(Coupled Generative Adversarial Network)を含む敵対的生成ネットワーク等の複数の非ペア画像の同時分布(marginal distributions)を学習するために、複数の非ペア画像の周辺分布(joint distribution)を使用する機械学習モデルを使用することができる。
<複数のペア画像のフィルタと処理>
【0043】
フィルタ114は、ランタイムモデル112を調整するために使用するために生成される品質尺度(quality measure)を使用して、第1モデルの出力からペア画像をフィルタリングするよう構成された記憶デバイスに、任意選択で記憶される。フィルタは、ランタイムモデルを調整するために使用する前の任意のタイミング(例えばデータベース等にペア画像を記憶する前または後)に適用されても良い。
【0044】
一実施形態において、フィルタは、生成された複数のペア画像の品質を保証するために使用される。生成された結果のいずれも、あまりにも多くの望ましくない中間生成物(artifacts)を有する可能性があり、または、モデルは、正しい変換を適用する際に完全に失敗した可能性がある。そのような結果は、ペアデータセット内のノイズラベル(noisy labels)を構成し、従って、それらは、ランタイムモデルの学習をより安定させるために、自動または手動の手法によって除去される。
【0045】
更なる手法を使用して、生成された出力を処理し、それらの品質を改善するか、又は中間生成物を除去することができる。例えば特定の顔の属性を修正するように学習されたモデル(例えばメイクアップの効果、顔の皮膚の処置(facial skin treatment)の効果、美容外科の効果/身体の増強の効果(例えばインプラントの効果、瘢痕化(scarification)の効果、ピアスの効果、ストレッチの効果、タトゥーの効果、歯の効果(例えば着色の効果、成形の効果、位置合わせ(alignment)の効果または置換(replacement )の効果)、建設的/再建的または他の外科的処置の効果、眼の着色/コンタクトレンズの効果、アイウェアの効果等またはこれらの列挙された顔の効果のいずれか)は、生成された画像の背景の中間生成物が、顔の目印で定義された境界を使用してマスクアウトされた場合に有益である。一例として、列挙された顔の効果の反対は、瘢痕の除去、タトゥーの除去、メイクアップの除去、アイウェアの除去など、元の画像に存在する効果の除去である。開発者コンピューティング環境コンポーネントは、これらに応じて構成することができる。
<生成された複数のペア画像を用いたランタイムモデルの学習>
【0046】
第1領域空間から第2領域のステージに画像を変換するように構成されたランタイムモデル112は、コンピューティングデバイスの記憶デバイスに記憶される。ランタイムモデルは、第1モデルから生成された複数のペア画像を使用して、学習によって調整されるべきである。第1及び第2領域における偽画像(例えば第1モデルから画像変換された出力物)は完全に合成され、本教示に従った、より早いステップによって生成されるが、生成された複数のペア画像(教師あり学習)を用いて学習されたランタイムモデルは、複数のテスト画像上で性能が測定される場合に、複数の非ペア画像(教師なし学習)で学習されたモデルよりも優れている。
【0047】
次いで、学習されたランタイムモデルを使用して(例えば適合させて)、ターゲットデバイス上で実行するアプリケーションを定義し、例えばターゲットデバイスで提示するために、画像またはビデオを修正すること等によって、第1領域空間から第2領域空間へのリアルタイムの変換を提供し、拡張現実(augmented reality)、仮想現実(virtual reality)および/または混合現実体験(mixed reality experiences)を提供することができる。ターゲットデバイスは、携帯電話、タブレット端末等のパーソナルデバイス(例えば、ユーザデバイス)であっても良い。
【0048】
ここでのアプローチは、画像から画像へ変換するタスクが、第1領域と第2領域との間の1対1、または、多対1の対応からなる場合に特に有用である。この条件が満たされない場合、合成されたペアデータセットは、マルチモーダル分布(multimodal distribution)に従って生成され、監視対象タスクは未定義となる。
<実験>
<データセット>
【0049】
(強力な)データペアリングモデル及び(小型かつ高速である)ランタイムモデルを学習するように構成されたコンピューティングデバイスが、強力なモデルのみを学習するように構成されたコンピューティングデバイスよりも良好に機能するという仮説を厳密にテストするために、客観的な性能測定基準(performance metrics)を計算することができる、複数のペア画像を含むデータセットに対して実験を行った。MIT-Adobe FiveKデータセット[15]からの5,000個の画像を使用し、4,500個の画像の学習セット及び500個の画像のテストセットに分割した。これらから、対応物はデジタルフィルタ(例えば、Eboye Photoshop action[16](PhotoshopはAdobe Inc、San Jose、CAの登録商標)を適用することによって生成され、これはエッジ保存Instagram(登録商標)様フィルタ(edge-preserving Instagram like filter)を適用する。第1モデル104は、第1領域と第2領域との間で画像を変換するように調整される。
図2A及び2Bは、オリジナル画像202及び1つの画像204を含む画像のペア200を示し、ここで、デジタルフィルタは効果を適用するために使用された。
【0050】
モデルをさらに評価するために、画像をオンラインソースから得て、暗い毛髪の個体およびブロンドの個体の非ペアデータセットを作成し、ここでの変換タスクは、暗い毛髪の領域空間とブロンドの領域空間との間で変換することである。手動のフィルタ処理の努力にもかかわらず、このデータセットはとりわけ、ソース(例えばソーシャルメディア対広告)、人工のフィルタの存在、カメラの品質、ポーズ及びライティングを含むいくつかの要因により著しく異なる画像を含むという意味で、不明瞭であることは注視する価値がある。更に、データセットのサイズは制限されており、3,192個のブロンドの毛髪の画像と2,242個の暗い毛髪の画像とからなり、各セットの200個の画像が試験のために蓄積された。これらの注意にもかかわらず、モデルは、大多数の症例において正しい毛髪の着色の変換を適用する方法を学習することに成功した。
図3は、ソーシャルメディア(例えば302)からの低解像度の画像を配列状に含む、複数の非ペア画像300を示す。配列はブロンドの毛髪の画像304の一番上の行と、本明細書でプライバシーに適用されるプライバシーマスク(例えば、308)を含む暗毛髪画像306の2番目の行とを示すが、このようなマスクはいかなる学習または試験にも適用されない。
<評価プロセス>
【0051】
多数のモデルのアーキテクチャが、複数の非ペア画像および複数のペア画像の両方について学習され、同じテストセット上のフレシェ開始距離(Frechet Inception Distance、FIDスコア)[17]が比較される。仮説によれば、小型モデルのFIDスコアは、複数のペア画像を使用して学習される場合には、より小さくなるはずである。
【0052】
複数の非ペア画像の実際のシナリオをシミュレートするために、学習セットは効果が適用されていない第1領域空間内の画像の第1サブセットと、効果が適用されている第2領域空間内の画像の第2サブセットとを含み、第1領域空間内の画像の第1サブセットのそれぞれは、効果が適用される画像の第2サブセット内において等価物を有さず、第2領域空間内の画像の第2サブセットの各々は効果が適用されない画像の第1サブセット内において等価物を有さない。
【0053】
ペア画像がテストセットにおいて利用可能であるので、最小二乗誤差(MSE)もまた、FIDスコアよりも客観的な性能尺度として計算される。
<モデルの説明>
【0054】
最初のモデルとランタイムモデルは、256x256ピクセルの解像度のUNetモデル[18]である。UNetモデルは一般に、画像から画像へ変換するタスクに使用される。
【0055】
モデルのサイズと速度の機能としてのモデルの有効性を評価するために、各レイヤでフィルタの数が均一にスケーリングされるUNetの変動が学習される。標準的なUNetアーキテクチャは、第1ブロックの出力に64個のフィルタのベースを含むが、UNetアーキテクチャは8、16、24、32、48及び128個のフィルタのベースを使用して更に学習される。これらのモデルのそれぞれについてのパラメータ及びフロップの数を表1に示す。
【表1】
<結果>
【0056】
毛髪の着色およびデジタルフィルタ効果の両方のための複数のペア画像を生成するために、12個の残差ブロックと64個のフィルタのベースを有する残差ニューラルネットワーク(ResNet)とが過剰適合される(例えば、第1モデルはそのような学習が(例えば、他の画像の)テストセット上での不十分なパフォーマンスにつながる場合でも、複数の非ペア画像上でのそのパフォーマンスを最大化する)。より小さな容量の512ピクセルのスケールの画像は、偽画像のためのより細かい細部を作り出すことができるように、学習で使用される。複数の非ペア画像を学習された第1モデルに提供することで、複数のペア画像を生成する。その後、顔の画像については毛髪の外側の中間生成物が独自の毛髪セグメンテーションモデル[20]を使用してマスクされ、次いで、画像は悪い結果を除去するために手動でフィルタリングされる。これにより、全体で3,593個の暗い~ブロンドのペア画像をもたらす。デジタルフィルタ効果の場合、生成された画像は目視検査によって正解データと区別できないため、フィルタリングは行われない。
【0057】
図4A-
図4Cは、毛髪の着色の効果400とデジタルフィルタ効果402との両方、ならびにデジタルフィルタ効果404のMSE(
図4C)のための、より一層強力なUNetアーキテクチャのためのFID結果(
図4A及び
図4B)を提示する。これらの結果は、仮説が真であり、そして、より小さなモデルが、複数の非ペア画像を用いて学習されたより強力なモデルにより生成された複数のペア画像を用いて学習された場合に、より良い結果を達成することを示している。この傾向は、デジタルフィルタ効果402及び404の結果において最も明確に見られ、24ベースのフィルタモデルまで、複数のペア画像に対する結果は、複数の非ペア画像を使用して学習されたものよりも有意に良好である。あまり明白でない程度に、毛髪の着色の効果400について同じ結論に達することができ、ここで、ペアモデルを使用して学習された最小の8ベールのフィルタについてのFIDは、非ペアモデルを使用して学習されたはるかに大きい48ベースのフィルタのFIDに匹敵する。
【0058】
図5A及び5Bは、それぞれの配列500及び502における2つの8ベースのランタイムフィルタモデルについての結果(結果はそれぞれの出力画像である)を提示する。ここで、モデルは複数の非ペア画像を使用して学習され、別のモデルは複数のペア画像を使用して学習される。
図5Aの結果は、一番上の行における入力画像に対する毛髪の着色の効果500に対するものであり、中央の行における非ペア画像で学習されたモデル(即ち教師なし学習)に対する結果と、一番下の行におけるペア画像で学習されたモデル(即ち教師あり学習)に対する結果とを示し、ここで、ペア画像は、本明細書の教示を使用して生成される。デジタルフィルタ効果のための
図5Bの配列502における結果は、一番上の行における非ペア画像で学習されたモデルの結果と、中央の行におけるペア画像で学習されたモデルの結果とを示し、ここで、ペア画像は、本明細書の教示を使用して生成される。配列502の最下行は、比較のために生成された正解データ画像を示す。特に、このモデルは非ペア画像に対して学習された場合には色の変換を学習することさえできなかったが、ペア画像に対して学習された場合には一貫して適用され、多くの場合に説得力のある結果を生成する。
【0059】
図6は、ユーザ/開発者604によって操作される開発者コンピューティングデバイス602が通信ネットワーク606を介して通信している例示的なコンピュータネットワーク600のブロック図である。通信ネットワーク606を介して通信するように構成された第2ユーザ608及びターゲットコンピューティングデバイス610もまた、示されている。第2ユーザ610は、消費者であっても良い。サーバコンピューティングデバイス612,614及び616は、例えば、更に説明するように、1つ以上のデバイス602及び610と通信するために通信ネットワーク606と通信する。
【0060】
開発者コンピューティングデバイス602は、強力なモデルを学習するように構成され、ターゲットデバイスよりも高いストレージ、処理能力およびメモリを有することができる。開発者コンピューティングデバイス602の例は、グラフィックス又は他の処理性能を最大限にするために構築されたコンピューティングデバイスを含むことができるが、これらに限定されない。ラップトップとして描かれているが、コンピューティングデバイス602のための他のフォームファクタはタスクを満たすものが含まれている。いくつかの例では、開発者コンピューティングデバイスが複数のデバイスを含むことができることを理解されたい。一例では、第1のコンピューティングデバイスが学習タスク(又はそのコンポーネント)を実行するよう、より強力な第2のコンピューティングデバイスに命令する。場合によっては、複数のコンピューティングデバイスが協調してタスクを実行する。
【0061】
ターゲットコンピューティングデバイス610は、小型で高速なモデルを実行するように構成される。ターゲットコンピューティングデバイス610は、開発者デバイス602と比較して、記憶デバイス、処理能力およびメモリを削減することができる。ターゲットコンピューティングデバイス610の例は限定されるものではないが、開示された実施形態と整合して、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ノートブックコンピュータ、ハンドヘルドコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、スマートフォン、並びに、データ及びソフトウェア命令を記憶し、操作を実行するためのソフトウェア命令を実行し及び/又はインターフェース・モジュール上に情報を提示するように構成することができる他の任意のタイプのコンピューティングデバイスを含むことができる。
【0062】
開発者コンピューティングデバイス602は、一例では画像を第1領域空間から第2領域空間に変換するために、第1モデルモジュール104及びランタイムモジュール112(
図1)をそれぞれ使用して、2つのモデル、即ち第1モデル602A及びランタイムモデル602Bを学習するように構成される。開発者コンピューティングデバイス602は、第1モデルを学習するために複数の非ペア画像102を使用する。次に、非ペア画像を第1モデルに供給して、複数のペア画像106を生成する。複数のペア画像は、ランタイムモデル602Bを学習するために使用される。開発者コンピューティングデバイス602は、サーバコンピューティングデバイス612から非ペア画像102を提供されても良いし、非ペア画像が記憶されて開発者コンピューティングデバイス602の基板上(on board)で利用されても良い。開発者コンピューティングデバイス602は、実行のためにターゲットデバイス610でフェッチされるべきランタイムモデル602Bをサーバ612(または図示しない別のサーバ)に記憶することができる。ターゲットデバイス610はまた、実行のためにランタイムモデル602Bを基板上に格納しても良い。
【0063】
第1モデル602A及びランタイムモデル602Bのそれぞれは、一例では互いに通信する異なる開発者コンピューティングデバイス(図示せず)で学習されても良く、複数のペア画像106(
図1)及びフィルタ114(
図1)は、開発者コンピューティングデバイスのうちの1つに、または別個のコンピューティングデバイスに格納されても良い。説明したように、非ペア画像はサーバコンピューティングデバイス612から取得することができ、又、非ペア画像は、開発者コンピューティングデバイスの一方または両方の基板上に記憶され、利用されることができる。
【0064】
開発者コンピューティングデバイス602は、画像に適用される効果に従って、画像を第1領域から第2領域に変換するために、第1モデル及びランタイムモデルを学習するように構成される。効果は、前述の顔の効果(メイクアップの効果を含む)、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果等のうちの1つであっても良い。この効果は、3次元の効果であっても良い。この効果はまた、絵画および建物スタイル(a painting and a building style)、画像の着色(a coloration of images)、フィルタアプリケーション、超解像アプリケーション(super-resolution application)、衛星画像から地図への変換およびスケッチから写真への変換等のうちの1つであっても良い。また、この効果は、例えば犬の画像を猫の画像に変換する一方で、ポーズ、毛、色、背景等の他の全ての特徴を保存する等、異なる物体(objects)と対象(subjects)との間の特徴の変換であっても良い。
【0065】
ターゲットコンピューティングデバイス610は、開発者コンピューティングデバイス602によって開発されたランタイムモデル602Bを受信するように構成される。ターゲットコンピューティングデバイス610は、通信ネットワーク606を介して開発者コンピューティングデバイス602への通信またはサーバ612からの通信または他の任意の手段によって、データをデジタル転送するランタイムモデル602Bを受信することができる(例えばアプリケーションストアからのダウンロード(サーバコンピューティングデバイス614が提供する電子商取引サービス等))。ランタイムモデル602Bは、典型的にはモデル602Bを実行するランタイムアプリケーション614A(例えばアプリケーションストアからダウンロードされる)に組み込まれる。ターゲットコンピューティングデバイス610のユーザ608は、ランタイムアプリケーション614Aに画像またはビデオを提供して、ランタイムモデル602Bを実行し、効果が適用された画像またはビデオを生成する。提供された画像又はビデオはサーバー又はその他のコンピューティングデバイス(例えばweb(例えばhttp)又はその他の通信(例えばテキストメッセージ、インスタントメッセージ、ショートメッセージサービス、独自のメッセージ、電子メール等))から取得された、ターゲットコンピューティングデバイス610の入力装置から取得された又はターゲットコンピューティングデバイス610に連結された(例えばカメラ)、又は画像又はビデオを提供できる他の方法によって保存されることができる。
【0066】
一例では、画像に適用される効果が製品およびサービス(例えば、製品および/またはサービス)の一方または両方に関連付けられる。一例では、効果が製品に関連するメイクアップの効果である。一例では、効果がサービス及び製品に関連する皮膚の処置の効果である。一例では、アプリケーションがメイクアップの効果のための製品または皮膚の処置の効果のためのサービス及び製品を購入するために、サーバコンピューティングデバイス616から利用可能なeコマースサービス(例えばアプリケーション616)へのインターフェースを提供する。支払いサービス及び支払いネットワークは
図6に図示されない。
【0067】
図7は、本開示の1又は複数の態様による、開発者コンピューティングデバイス602のブロック図である。開発者コンピューティングデバイス602は、1又は複数のプロセッサ702と、1又は複数の入力デバイス704と、ジェスチャベースのI/Oデバイス706と、1又は複数の通信ユニット708と、1又は複数の出力デバイス710とを備える。開発者コンピューティングデバイス602はまた、1つ以上のモジュール及び/又はデータを記憶する1つ以上の記憶デバイス712を含む。モジュールは、第1モデル104及びランタイムモデル112と、フィルタ114と、グラフィカルユーザインターフェース(GUI720)と、画像処理アプリケーション718とを含むことができる。画像処理アプリケーションを使用することで、学習された第1モデル等からデジタルフィルタを適用し、並びに/又は、出力画像および/もしくはペア画像を見ることができる。データは、1又は複数の非ペア画像102及び複数のペア画像106を含むことができる。
【0068】
記憶デバイス712は、通信モジュール、写真(画像/メディア)エディタ、メディアプレーヤおよび/またはストリーミングモジュール、ブラウザモジュールなどを含む、オペレーティングシステム716およびその他のモジュール(図示せず)などの追加モジュールを記憶することができる。記憶デバイスは、本明細書では記憶ユニットと呼ばれることがある。
【0069】
1つ以上のプロセッサ702は機能を実装し、及び/又は、コンピューティングデバイス602内で命令を実行することができる。例えば、プロセッサ702はとりわけ(例えばオペレーティングシステム、画像処理アプリケーション718等)、第1モデルモジュール104、ランタイムモジュール112及びフィルタ114の機能を実行するために、記憶デバイス712から命令および/またはデータを受信するように構成されても良く、開発者コンピューティングデバイス602は、記憶デバイス712にデータ/情報を記憶しても良い。動作はモジュール102,104,106,112,114,718及び716内に正確に含まれないことがあり、その結果、1つのモジュールが別のモジュールの機能を支援できることを理解されたい。
【0070】
1又は複数のプロセッサ702は効果に従って、基板上(on board)に記憶された又はカメラ704から取得された画像またはビデオを第1領域空間から第2領域空間に変換するための要求を送信する。処理ユニット702は、第1モデルを学習するために、複数の非ペア画像102を第1モデルモジュール104に提供する。次いで、ランタイムモジュール112を利用してランタイムモデルを学習するために、提供される複数のペア画像106を生成するために、学習された第1モデルに複数の非ペア画像102を提供する。処理ユニットは、ランタイムモデルを学習するために提供する前に、複数のペア画像をフィルタリングするように、オプションのフィルタ114を要求することができる。
【0071】
通信チャネル722は、コンポーネント702,704,706,710,712及びコンポーネント間通信のための任意のモジュール104,112,114,716,71及び720のそれぞれを、通信可能に、物理的に及び/又は動作可能に結合することができる。いくつかの例では、通信チャネル722がシステムバス、ネットワーク接続、プロセス間通信データ構造又はデータを通信するための他の任意の方法を含むことができる。
【0072】
動作を実行するためのコンピュータプログラムコードは、1つ以上のプログラミング言語、例えば、Java(登録商標)、Smalltalk、C++等のオブジェクト指向プログラミング言語、又は、Cプログラミング言語又は同様のプログラミング言語のような、従来の手続き型プログラミング言語の任意の組み合わせで書くことができる。
【0073】
開発者コンピューティングデバイス602は、ジェスチャベースのI/Oデバイス706の画面上に表示するための出力、または、いくつかの例ではプロジェクタ、モニタ若しくは他のディスプレイデバイスによる表示のための出力を生成することができる。ジェスチャベースのI/Oデバイス706は、様々な技術(例えば、抵抗膜方式タッチスクリーン(resistive touchscreen)、超音波表面弾性波方式タッチスクリーン(a surface acoustic wave touchscreen)、静電容量方式タッチスクリーン(a capacitive touchscreen)、投影型静電容量方式タッチスクリーン(a projective capacitance touchscreen)、感圧スクリーン(a pressure-sensitive screen)、音響パルス認識タッチスクリーン(an acoustic pulse recognition touchscreen)、または、別のプレゼンスセンシティブスクリーン技術などの入力能力に関連して、および出力能力に関連して、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、ドットマトリクスディスプレイ、eインク、又は同様のモノクロ又はカラーディスプレイ)を使用して構成され得ることが理解されるのであろう。
【0074】
本明細書で説明する例では、ジェスチャベースのI/Oデバイス706が、タッチスクリーンと対話するユーザからの触覚による対話、または、ジェスチャを入力として受信することができるタッチスクリーンデバイスを含む。そのようなジェスチャは、タップジェスチャ、ドラッグジェスチャ又はスワイプジェスチャ、フリックジェスチャ、ジェスチャの一時停止(例えばユーザが少なくとも閾値期間にわたって画面の同じ位置にタッチする場合)を含むことができ、ユーザは、ジェスチャベースのI/Oデバイス706の1又は複数の位置にタッチ又はポイントする。ジェスチャベースのI/Oデバイス706は、非タップジェスチャを含むこともできる。ジェスチャベースのI/Oデバイス706は、グラフィカルユーザインターフェース等の情報をユーザ/開発者に出力または表示することができる。ジェスチャベースのI/Oデバイス706は、例えば画像を閲覧し、画像を処理し、新しい画像を表示するための画像処理アプリケーション718、メッセージングアプリケーション及び他のアプリケーション又は機能等を含む、開発者コンピューティングデバイス602の様々なアプリケーション、機能および能力を提示することができる。
【0075】
1又は複数の通信ユニット708は、1又は複数のネットワーク上でネットワーク信号を送信および/または受信することによって、通信ネットワーク606を介するなど、説明した目的のため、及び/又は他の目的(例えば印刷)のため等に、外部デバイス(例えばサーバ612、ターゲットコンピューティングデバイス610)と通信することができる。通信ユニットは、無線および/または有線通信のための様々なアンテナ及び/又はネットワークインターフェースカード、チップ(例えば全地球測位衛星(GPS))等を含むことができる。
【0076】
入力デバイス704及び出力デバイス710は、1又は複数のボタン、スイッチ、ポインティングデバイス、カメラ、キーボード、マイクロフォン、1又は複数のセンサ(例えば身体特徴を記録したもの(biometric)等)、スピーカ、ベル、1又は複数のライト、触覚(振動)デバイス等のいずれかを含むことができる。1又は複数の同じものを、ユニバーサルシリアルバス(USB(登録商標))又はその他の通信チャネル(722等)を介して結合することができる。カメラ(入力デバイス704)は、ユーザがジェスチャベースのI/Oデバイス706を見ている際に、カメラを使用して画像をキャプチャすることで「自撮り」を行うことができるよう、正面に向けられても良い(即ち同じ側にある)。
【0077】
1つ以上の記憶デバイス712は、例えば、短期メモリ又は長期メモリとして、異なる形態および/または構成とすることができる。記憶デバイス712は、電源がオフされたときに記憶された内容を保持しない揮発性メモリとして情報を短期的に記憶するために構成されても良い。揮発性メモリの例としては、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)等がある。記憶デバイス712は、いくつかの例では例えば、揮発性メモリよりも大量の情報を記憶し、及び/又は電源がオフされたときに情報を保持しながら長期間そのような情報を記憶するために、1又は複数のコンピュータ可読記憶媒体も含むことができる。不揮発性メモリの例には、磁気ハードディスク、光ディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、又は、電気的にプログラム可能なメモリ(EPROM)、または、電気的に消去およびプログラム可能なメモリ(EEPROM)の形態が含まれる。
【0078】
ターゲットコンピューティングデバイス610は、一例ではモデルを開発するためのコンポーネントが少ないにもかかわらず、開発者コンピューティングデバイス602と同様に構成することができることを理解されたい。ターゲットコンピューティングデバイス610は、第1モデルモジュール104、フィルタ114、ペア画像106及び非ペア画像102等を有していなくても良い。一例では、ターゲットコンピューティングデバイスが、ランタイムアプリケーション614Aに組み込まれたランタイムモデル602Bを含み、第1領域空間から第2領域空間へのリアルタイム変換を提供し、適用される効果のための仮想または拡張現実体験を提供する。ターゲットデバイス610は、画像に適用される効果の画像を要求し、表示する等のGUIを有することができる。適用される効果の少なくともいくつかに関して、一例では、アプリケーション614Aが少なくともいくつかの効果のそれぞれにつき、関連する製品および/またはサービスを購入するためのインターフェースを提供する。
【0079】
図8は、一例による、ターゲットコンピューティングデバイス610のプロセッサによる実行のための動作800を示すフローチャートである。ステップ802において、ターゲットコンピューティングデバイス610は入力デバイス(例えば、カメラ)から画像またはビデオを取得するか、または基板上(on board)に記憶されている画像またはビデオを使用する。ターゲットコンピューティングデバイス610は、ランタイムモデル602Bで実行するために、ランタイムアプリケーション614に画像またはビデオを提供する(ステップ804)。ランタイムモデル602Bは、効果を適用するように学習されたものである。効果はシミュレートされた又は仮想的な効果であり、実際に効果を達成するための製品及び/又はサービスに関連付けられる。
【0080】
ステップ806において、ランタイムアプリケーション614は、ランタイムモデル602Bを実行して、画像またはビデオに効果を適用する。変換された画像またはビデオは、ステップ808において、GUIを介してユーザ602に提示される。810において、アプリケーション614の電子商取引インターフェースは、効果に関連付けられた製品および/またはサービスを購入するために(例えば、サーバ616及びそのアプリケーション618と共に)使用される。
【0081】
一例では、画像が、本明細書のモデルのいずれかを学習するために使用する前に処理ユニットにより前処理される。画像は、学習されたランタイムモデルを含む学習されたモデルのいずれかによって処理される前に前処理されることが可能である。前処理は、ヒストグラム均等化(histogram equalization)、正規化(normalization)等、任意の処理技法を含むことができる。
【0082】
図9は、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する学習されたランタイムモデルを定義するための動作900(例えば、例示的な方法)を示す。902において、動作は、記憶ユニットであって、i)複数の非ペア画像と、ii)複数の非ペア画像を使用する学習によって、複数のペア画像を生成するように調整される第1モデル及び複数のペア画像を使用する学習によって調整されるランタイムモデルと、を記憶する記憶ユニットを提供する。
【0083】
複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。学習を通して、第1モデルは、1)画像の第1サブセットを第2領域空間に変換して第1サブセットとペアになる第1偽画像を生成し、2)画像の第2サブセットを第1領域空間に変換して第2サブセットとペアになる第2偽画像を生成するように構成される。第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義する。
【0084】
ランタイムモデルは、第1領域空間内の画像を第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成される。
【0085】
904において、動作は、学習された第1モデルを生成するために、複数の非ペア画像を学習し、第1偽画像および第2偽画像を生成するために、学習された第1モデルに複数の非ペア画像を提供し、複数のペア画像を生成するために、第1偽画像および第2偽画像をそれらのそれぞれの画像の第1サブセット及び画像の第2サブセットとペアにし、学習されたランタイムモデルを生成するために、複数のペア画像を用いて学習するように構成された処理ユニットを動作させる。
【0086】
一例では、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるときに、コンピューティングデバイスは画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するために、学習されたランタイムモデルを定義する方法を実行するように構成される。
【0087】
一例では例えば、デバイス610は、画像に適用される効果に従って、第1領域空間から第2領域空間に画像を変換するコンピューティングデバイスを定義する。コンピューティングデバイスは、処理ユニットと記憶ユニットとを備える。記憶ユニットは、第1領域空間から第2領域空間に画像を変換するためのランタイムモデルを記憶し、ランタイムモデルは、複数のペア画像を使用する学習によって条件付けられ、ペア画像のそれぞれは第1領域空間における第1画像と、第2領域空間における第2画像とを含み、複数の非ペア画像を第1モデルを使用して変換することによって生成される。複数の非ペア画像は、効果が適用されない第1領域空間で定義された画像の第1サブセットと、効果が適用される第2領域空間で定義された画像の第2サブセットとを含む。第1モデルは、複数の非ペア画像を使用して学習によって調整されたモデルを含む。従って、第1モデルは画像の第1サブセットを第2領域空間に変換して、第1サブセットとペアになる第1偽画像を生成し、画像の第2サブセットを第1領域空間に変換して、第2サブセットとペアになる第2偽画像を生成するように構成される。第1サブセットと第1偽画像と第2サブセットと第2偽画像とは、それぞれ、複数のペア画像を定義した。処理ユニットは、(例えば、適用される効果を受け取るために)ランタイムモデルに画像を提供し、提示するためにランタイムモデルによって変換された画像を提供するように構成される。
【0088】
一例では、第1モデルは、複数の非ペア画像に対する性能を最大化するように、過度に学習されたモデルを含む。
【0089】
一例では、ランタイムモデルが、品質尺度を使用して第1サブセットと第1偽画像と第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを使用することによって決定されたペア画像を使用することで、調整される。
【0090】
一例において、第1モデルは、複数の非ペア画像の周辺分布を使用して、複数の非ペア画像の同時分布を学習する機械学習モデルを含む。第1モデルは、複数の非ペア画像を使用して学習された敵対的生成ネットワークを備えることができ、敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちの任意の1つを備えることができる。一例では、ランタイムモデルが、第1モデルとは異なるモデルアーキテクチャを含む。一例では、ランタイムモデルが、パラメータの最小限のセットと、最小限のメモリサイズとを備える。一例では、コンピューティングデバイスが、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデータアシスタンス(PDA)及びタブレットのうちの1つを含む。
【0091】
一例において、コンピューティングデバイスは、最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ又は他のコンピューティングデバイスと比較して、削減された記憶および処理リソースを含む。
【0092】
一例では、ランタイムモデルがランタイムアプリケーションに組み込まれて、第1領域空間から第2領域空間へのリアルタイム変換を提供し、適用される効果のための仮想または拡張現実体験を提供する。
【0093】
一例では、適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。一例では、効果が(例えば、実際に効果を達成するために)製品および/またはサービスに関連付けられ、処理ユニットは、製品および/またはサービスを購入するためにeコマースサービスと対話するためのインターフェースを使用するように構成される。
【0094】
一例では、適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換、及びスケッチから写真への変換のうちの1つである。
【0095】
一例では、変換される画像が、自撮り画像または自撮りビデオを含む。一例では、適用される効果が、3次元の効果である。
【0096】
一例では、コンピューティングデバイスが、処理ユニットが受信するための画像を取り込むために、カメラを備えるか、又は、カメラに結合される。
【0097】
一例では、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるコンピュータプログラム製品が提供され、コンピュータプログラム製品は、命令がコンピューティングデバイスの処理ユニットによって実行されるとき、コンピューティングデバイスは説明されるように、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換する方法を実行するように構成される。
【0098】
一例では、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成するコンピューティングデバイスが提供される。コンピューティングデバイスは、処理ユニットと記憶ユニットとを備える。記憶ユニットは、効果が適用されない第1領域空間において定義された画像の第1サブセットと、効果が適用される第2領域空間において定義された画像の第2サブセットとを含む複数の非ペア画像と、複数の非ペア画像に対する性能を最大化するために過剰学習されるモデルとを記憶する。モデルは、第1サブセットとペアになる第1偽画像を生成するために、画像の第1サブセットを第2領域空間に変換し、第2サブセットとペアになる第2偽画像を生成するために、画像の第2サブセットを第1領域空間に変換するように構成される。処理ユニットは、過剰適合された第1モデルを生成するために複数の非ペア画像で過剰適合し、第1偽画像および第2偽画像を生成するために、過剰適合された複数の非ペア画像を第1モデルに提供し、複数のペア画像を生成するために第1偽画像および第2偽画像をそれぞれの画像の第1サブセット及び第2サブセット画像とペアになるように構成される。
【0099】
図10は、画像から画像への変換のためのモデルを学習する動作1000(例えば、例示的な方法)を示す。1002で、動作は、教師なし学習技法を使用して、強力な画像変換モデルを画像の非ペアデータセットに過剰適合させる。強力な画像変換モデルは、非ペアデータセットから画像の合成されたペアデータセットを生成するように学習され、非ペアデータセットは、第1領域空間における画像の第1サブセットと第2領域空間における画像の第2サブセットとを含む。1004の動作では、ランタイムモデルを、強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用することで学習する。ランタイムモデルは、画像を第1領域から第2領域に変換するように学習され、ランタイムモデルは、強力な画像変換モデルと比較してコンパクトで高速なモデルを含む。
【0100】
一例では、ランタイムモデルが、第1領域から第2領域に画像を変換するためにランタイムデバイスによって使用されるように提供される。ランタイムデバイスは、ランタイムモデルを実行するのに少なくとも十分な性能基準(performance standards)を満たす処理リソースおよび記憶リソースを備え、ランタイムデバイスにより強力な画像変換モデルを実行するのに不十分な性能基準を満たす処理リソース及び記憶リソースを備えている。即ちランタイムデバイスは、(より大きく、より資源に依存する)強力な画像変換モデルを実行する場合、同等の性能標準を提供するのに十分な資源を有していない。性能基準は、実行時間、実行能力およびユーザエクスペリエンス(サービス品質)のいずれかに関係し得る。
【0101】
開発者およびターゲットコンピューティングデバイスの態様に加えて、一般的な当業者は、コンピュータプログラム製品の態様が開示され、そこで命令が非一時的な記憶デバイス(例えば、メモリ、CD-ROM、DVD-ROM、ディスク等)に記憶され、ここに記憶された方法の態様のいずれかを実行するようにコンピューティングデバイスを構成することを理解されるであろう。
【0102】
実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、ならびに様々な組み合わせは、本明細書で説明される特徴を組み合わせる方法、装置、システム、機能を実行するための手段、プログラム製品として、および、他の方法で表現され得る。多数の実施形態が記載されている。それにもかかわらず、本明細書で説明されるプロセス及び技法の精神および範囲から逸脱することなく、様々な修正を行うことができることが理解されるであろう。加えて、記載されたプロセスから、他のステップが提供されても良く、又は、ステップが省略されても良く、記載されたシステムに他のコンポーネントが追加されても良く、又は、記載されたシステムから他の構成要素が除去されても良い。その結果の他の態様は、特許請求の範囲の範囲内にある。
【0103】
本明細書の説明および特許請求の範囲の全体にわたって、「備える」及び「含む」という語およびそれらの変形は、「含むがこれに限定されない」ことを意味し、他のコンポーネント、整数またはステップを省略することを意図しない(及び省略しない)。本明細書全体を通して、単数形は文脈がそわないことを要求しない限り、複数形を包含する。特に、不定冠詞が使用される場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0104】
本発明の特定の態様、実施形態、または例に関連して説明される特徴、整数、特性または、グループはそれと互換性がない限り、任意の他の態様、実施形態、または例に適用可能であると理解されるべきである。本明細書に開示される特徴(任意の添付の特許請求の範囲、要約書、および図面を含む)の全て、及び/又は、そのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書(任意の添付の特許請求の範囲、要約書、および図面を含む)に開示された特徴の任意の新規な1つ、または任意の新規な組み合わせ又は開示された任意の方法またはプロセスのステップの任意の新規な1つ、または任意の新規な組み合わせに及ぶ。
<参考文献>
1.P. Isola, J. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," CoRR, vol. abs/1611.07004, 2016. arXiv: 1611.07004 [Online]. Available: arxiv.org/abs/1611.07004.
2.J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
3.M. Brand and A. Hertzmann, "Style machines," in Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques, ser. SIGGRAPH '00, New York, NY, USA: ACM Press/Addison-Wesley Publishing Co., 2000, pp. 183-192, ISBN: 1-58113-208-5. DOI: 10.1145/ 344779.344865. [Online]. Available: dx. doi.org/10.1145/344779.344865.
4.W. T. Freeman and J. B. Tenenbaum, "Learning bilinear models for two-factor problems in vision.," in Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition (CVPR '97), ser. CVPR '97, Washington, DC, USA: IEEE Computer Society, 1997, pp. 554-, ISBN: 0-81867822-4. [Online]. Available: dl.acm.org/ citation.cfm?id=794189.794495.
5.E. Hsu, K. Pulli, and J. Popovie, "Style translation for human motion," ACM Trans. Graph., vol. 24, no. 3, pp. 1082-1089, Jul. 2005, ISSN: 0730-0301. DOI: 10. 1145/1073204. 1073315. [Online]. Available: doi.acm.org/10.1145/1073204. 1073315.
6.L. Gatys, A. Ecker, and M. Bethge, "Image style transfer using convolutional neural networks," Jun. 2016, pp. 2414-2423. DOI: 10.1109/CVPR.2016. 265.
7.A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin, "Image analogies," in Proceed-ings of the 28th Annual Conference on Computer Graphics and Interactive Techniques, ser. SIG-GRAPH '01, New York, NY, USA: ACM, 2001, pp. 327-340, ISBN: 1-58113-374-X. DOI: 10.1145/ 383259.383295. [Online]. Available: doi. acm.org/10.1145/383259.383295.
8.A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb, "Learning from simulated and unsupervised images through adversarial training," CoRR, vol. abs/1612.07828, 2016. arXiv: 1612.07828. [Online]. Available: arxiv. org/abs/1612.07828.
9.I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative Adversarial Networks," arXiv e-prints, arXiv:1406.2661, arXiv:1406.2661, Jun. 2014. arXiv: 1406.2661 [stat.ML].
10.T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim, "Learning to discover cross-domain relations with generative adversarial networks," CoRR, vol. abs/1703.05192, 2017. arXiv: 1703 . 05192. [Online]. Available: arxiv.org/abs/1703.05192.
11.Z. Yi, H. Zhang, P. Tan, and M. Gong, "Du-algan: Unsupervised dual learning for image-to-image translation," CoRR, vol. abs/1704.02510, 2017. arXiv: 1704 . 02510. [Online]. Available: arxiv.org/abs/1704.02510.
12.M. Liu, T. Breuel, and J. Kautz, "Unsupervised image-to-image translation networks," CoRR, vol. abs/1703.00848, 2017. arXiv: 1703 . 00848. [Online]. Available: arxiv.org/abs/1703.00848.
13.T. Zhou, P. Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros, "Learning dense correspondence via 3d-guided cycle consistency," CoRR, vol. abs/1604.05383, 2016. arXiv: 1604 . 05383. [Online]. Available: arxiv.org/abs/1604.05383.
14.A. Brock, J. Donahue, and K. Simonyan, "Large scale GAN training for high fidelity natural image synthesis," CoRR, vol. abs/1809.11096, 2018. arXiv: 1809.11096. [Online]. Available: arxiv.org/abs/1809.11096.
15.V. Bychkovsky, S. Paris, E. Chan, and F. Durand, "Learning photographic global tonal adjustment with a database of input / output image pairs," in The Twenty-Fourth IEEE Conference on Computer Vision and Pattern Recognition, 2011.
16.Eboye photoshop action. [Online]. Available: www.deviantart.com/eboye /art/Instagram-Photoshop-Action- 253436319.
17.M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, G. Klambauer, and S. Hochreiter, "Gans trained by a two time-scale update rule converge to a nash equilibrium," CoRR, vol. abs/1706.08500, 2017. arXiv: 1706 . 08500. [Online]. Available: arxiv.org/abs/1706.08500.
18.O. Ronneberger, P. Fischer, and T. Brox, "U-net: Convolutional networks for biomedical image segmentation," CoRR, vol. abs/1505.04597, 2015. arXiv: 1505.04597. [Online]. Available: arxiv.org/abs/1505.04597.
19.K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," CoRR, vol. abs/1512.03385, 2015. arXiv: 1512 . 03385. [Online]. Available: arxiv.org/abs/1512.03385.
20.A. Levinshtein, C. Chang, E. Phung, I. Kezele, W. Guo, and P. Aarabi, "Real-time deep hair matting on mobile devices," CoRR, vol. abs/1712.07168, 2017. arXiv: 1712 . 07168. [Online]. Available: arxiv.org/abs/1712.07168.
<その他>
<手段>
技術的思想1の方法は、画像から画像への変換のためのモデルを学習するものであり、a.教師なし学習技法を使用して、第1領域空間内の画像の第1サブセットと第2領域空間内の画像の第2サブセットとを含む画像の非ペアデータセットを使用して、前記非ペアデータセットから合成された画像のペアデータセットを生成するように学習された強力な画像変換モデルを学習すること、b.前記強力な画像変換モデルから生成された合成データが学習のための正解データとして提供される教師あり学習技法を使用して、画像を前記第1領域から前記第2領域に変換するように学習されたランタイムモデルであって、前記強力な画像変換モデルと比較してコンパクトで高速なモデルで構成されるランタイムモデルを学習すること、を含むものである。
技術的思想2の方法は、技術的思想1記載の方法において、前記強力な画像変換モデルを学習することは、前記強力な画像変換モデルを前記画像の非ペアデータセットに過剰適合させることを含むものである。
技術的思想3の方法は、技術的思想1又は2に記載の方法において、前記強力な画像変換モデルは、前記画像に適用される効果に従って、前記画像を前記第1領域空間から前記第2領域空間に変換し、前記第1領域空間で定義された前記画像の第1サブセットには効果を適用せず、前記第2領域空間で定義された前記画像の第2サブセットには効果を適用するものである。
技術的思想4の方法は、技術的思想1から3のいずれかに記載の方法において、前記複数の非ペアデータセット画像に関し、a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、b.第2領域空間における画像の第2サブセットの各々は、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである。
技術的思想5の方法は、技術的思想1から4のいずれかに記載の方法において、前記強力な画像変換モデルは、前記複数の非ペアデータセット画像の周辺分布を使用した前記複数の非ペアデータセット画像の同時分布を学習する機械学習モデルを含むものである。
技術的思想6の方法は、技術的思想1から5のいずれかに記載の方法において、前記強力な画像変換モデルは、前記複数の非ペアデータセット画像を使用して学習される敵対的生成ネットワークを含むものである。
技術的思想7の方法は、技術的思想6記載の方法において、前記敵対的生成ネットワークは、前記複数の非ペアデータセット画像を使用して学習する前の部分的に学習されたネットワークを含むものである。
技術的思想8の方法は、技術的思想1から7のいずれかに記載の方法において、前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。
技術的思想9の方法は、技術的思想1から8のいずれかに記載の方法において、前記効果は、製品および/またはサービスに関連付けられ、前記方法は、前記ランタイムモデルを前記製品および/またはサービスを購入するためにeコマースサービスと対話するためのインターフェースを有するランタイムアプリケーションに組み込まれるものである。
技術的思想10の方法は、技術的思想1から9のいずれかに記載の方法において、前記ランタイムモデルは、前記強力な画像変換モデルが学習される開発者コンピュータよりも少ない記憶および処理リソースを有するターゲットデバイスに記憶されて実行されるように構成される。
技術的思想11の方法は、技術的思想1から9のいずれかに記載の方法において、前記方法は、ランタイムデバイスに配信するための前記ランタイムモデルを通信することを含み、前記ランタイムデバイスは、前記ランタイムモデルを実行するのに少なくとも十分な性能基準を満たす処理リソースおよび記憶リソースを含み、前記ランタイムデバイスにより強力な画像変換モデルを実行するのに不十分な性能基準を満たす処理リソース及び記憶リソースを含むものである。
技術的思想12の方法は、技術的思想1から11のいずれかに記載の方法において、前記ランタイムモデルは、前記ターゲットデバイスを介して、仮想現実、拡張現実または混合現実体験を提供するリアルタイムアプリケーションのコンポーネントとして、又は、リアルタイムアプリケーションによる実行のために構成される。
技術的思想13の方法は、技術的思想1から12のいずれかに記載の方法において、ランタイムモデルを学習するのに使用するために、品質尺度に応答して、合成された画像のペアデータセットから画像のペアを選択するものである。
技術的思想14のコンピューティングデバイスは、プロセッサ及び記憶ユニットを備えるものであり、技術的思想1から13のいずれかに記載の方法を実行するための命令が前記記憶ユニットに記憶される。
技術的思想15のコンピューティングデバイスは、処理ユニット及び記憶ユニットを備えるものであり、前記記憶ユニットには、命令と技術的思想1から13のいずれかに記載の方法により学習された前記ランタイムモデルとが記憶され、前記命令が前記処理ユニットによって実行されたときに、前記ランタイムモデルを使用して、前記第1領域からの画像を変換して前記第2領域内に画像を生成するように構成される。
技術的思想16のコンピューティングデバイスは、処理ユニット及び記憶ユニットを備え、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義するためのものであり、前記記憶ユニットには、i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、以下のように構成される第1モデル、1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、が記憶され、前記処理ユニットは、前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように構成される。
技術的思想17のコンピューティングデバイスは、技術的思想16記載のコンピューティングデバイスにおいて、前記処理ユニットは、前記第1モデルを過剰学習して、前記複数非ペア画像に対する性能を最大化するように構成される。
技術的思想18のコンピューティングデバイスは、技術的思想16又は17に記載のコンピューティングデバイスにおいて、前記複数の非ペア画像に関し、a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである。
技術的思想19のコンピューティングデバイスは、技術的思想16から18のいずれかに記載のコンピューティングデバイスにおいて、前記記憶デバイスは、品質尺度を使用して前記第1サブセットと第1偽画像と前記第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを記憶し、前記処理ユニットは、前記ランタイムモデルを学習するための前記ペア画像を決定するために前記フィルタを使用するように構成される。
技術的思想20のコンピューティングデバイスは、技術的思想16から19のいずれかに記載のコンピューティングデバイスにおいて、前記第1モデルは、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の同時分布を学習する機械学習モデルを含むものである。
技術的思想21のコンピューティングデバイスは、技術的思想16から19のいずれかに記載のコンピューティングデバイスにおいて、前記第1モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含むものである。
技術的思想22のコンピューティングデバイスは、技術的思想21記載のコンピューティングデバイスにおいて、前記敵対的生成ネットワークは、前記複数の非ペア画像を使用して学習する前の部分的に学習されたネットワークを備えている。
技術的思想23のコンピューティングデバイスは、技術的思想21又は22に記載のコンピューティングデバイスにおいて、前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを備えている。
技術的思想24のコンピューティングデバイスは、技術的思想16から23のいずれかに記載のコンピューティングデバイスにおいて、前記ランタイムモデルは、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデジタルアシスタンス(PDA)、タブレットの少なくとも1つに展開するためのパラメータの最小限のセットと最小限のメモリサイズとを含むように構成される。
技術的思想25のコンピューティングデバイスは、技術的思想16から23のいずれかに記載のコンピューティングデバイスにおいて、前記ランタイムモデルは、最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ、または他のコンピューティングデバイスと比較して、記憶および処理リソースを削減したユーザコンピューティングデバイスに展開されるように構成される。
技術的思想26のコンピューティングデバイスは、技術的思想16から25のいずれかに記載のコンピューティングデバイスにおいて、前記処理ユニットは、前記第1領域空間から前記第2領域空間へのリアルタイム変換を提供し、前記適用される効果のための仮想現実、拡張現実および混合現実体験のうちの1つを提供するために、ランタイムアプリケーションに組み込まれるランタイムモデルを提供するように構成される。
技術的思想27のコンピューティングデバイスは、技術的思想16から26のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。
技術的思想28のコンピューティングデバイスは、技術的思想27記載のコンピューティングデバイスにおいて、前記適用される効果が、3次元のメイクアップの効果である。
技術的思想29の方法は、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換するための学習されたランタイムモデルを定義するものであり、記憶ユニットを、i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、以下のように構成されるその第1モデル、1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、を記憶するものとして提供し、処理ユニットを、前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように動作させるものである。
技術的思想30のコンピュータプログラム製品は、命令および/またはデータを記憶する非一時的な記憶ユニットを備え、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するために、学習されたランタイムモデルを定義するための方法を実行するように構成されるものであり、前記記憶ユニットは、i.効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含む複数の非ペア画像、ii.前記複数の非ペア画像を使用する学習によって調整される第1モデルであり、その第1モデルは、以下のように構成される、1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、iii.前記第1領域空間内の画像を前記第2領域空間内の画像に変換すると共に、学習されたときにターゲットデバイス上で実行するように構成されたランタイムモデルであって、複数のペア画像を使用する学習によって調整されるランタイムモデル、を記憶し、前記命令は、前記コンピュータデバイスを、前記複数の非ペア画像を用いて学習することで、学習された前記第1モデルを生成し、前記第1偽画像および前記第2偽画像を生成するために、学習された前記第1モデルに前記複数の非ペア画像を提供し、前記複数のペア画像を生成するために、前記画像の第1サブセット及び前記画像の第2サブセットをそれぞれ用いて前記第1偽画像および前記第2偽画像をペアにし、学習された前記ランタイムモデルを生成するために、前記複数のペア画像を用いて学習するように動作させるものである。
技術的思想31のコンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換するものであり、a.前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶する記憶ユニットであって、i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、b.前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによって変換された画像を提供するように構成された処理ユニットと、を含んでいる。
技術的思想32のコンピューティングデバイスは、技術的思想31記載のコンピューティングデバイスにおいて、前記第1モデルは、前記複数の非ペア画像に対する性能を最大化するように過剰学習されたモデルを含むものである。
技術的思想33のコンピューティングデバイスは、技術的思想31又は32に記載のコンピューティングデバイスにおいて、前記複数の非ペア画像に関し、a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである。
技術的思想34のコンピューティングデバイスは、技術的思想31から33のいずれかに記載のコンピューティングデバイスにおいて、前記ランタイムモデルは、品質尺度を使用して前記第1サブセットと第1偽画像と前記第2サブセットと第2偽画像とからペアを選択するように構成されたフィルタを使用することにより決定されたペア画像を使用して調整されたものである。
技術的思想35のコンピューティングデバイスは、技術的思想31から34のいずれかに記載のコンピューティングデバイスにおいて、前記第1モデルが、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の前記同時分布を学習する機械学習モデルを含むものである。
技術的思想36のコンピューティングデバイスは、技術的思想31から34のいずれかに記載のコンピューティングデバイスにおいて、前記第1モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含むものである。
技術的思想37のコンピューティングデバイスは、技術的思想36記載のコンピューティングデバイスにおいて、前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的生成ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを含むものである。
技術的思想38のコンピューティングデバイスは、技術的思想31から37のいずれかに記載のコンピューティングデバイスにおいて、前記ランタイムモデルは、パラメータの最小限のセットと最小限のメモリサイズとを含み、前記コンピューティングデバイスは、デスクトップコンピュータ、ラップトップ/ノートブックコンピュータ、モバイルデバイス、パーソナルデータアシスタンス(PDA)及びタブレットのうちの1つを含む。
技術的思想39のコンピューティングデバイスは、技術的思想31から37のいずれかに記載のコンピューティングデバイスにおいて、最大限のグラフィックス処理性能で構築されたゲーミングコンピュータ、サーバ又は他のコンピューティングデバイスと比較して、削減された記憶および処理リソースを含むものである。
技術的思想40のコンピューティングデバイスは、技術的思想31から39のいずれかに記載のコンピューティングデバイスにおいて、前記ランタイムモデルが、前記適用される効果のための仮想または拡張現実体験を提供するために前記第1領域空間から前記第2領域空間へのリアルタイム変換を提供するためのランタイムアプリケーションに組み込まれるものである。
技術的思想41のコンピューティングデバイスは、技術的思想31から40のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。
技術的思想42のコンピューティングデバイスは、技術的思想31から40のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換およびスケッチから写真への変換のうちの1つである。
技術的思想43のコンピューティングデバイスは、技術的思想31から42のいずれかに記載のコンピューティングデバイスにおいて、変換される前記画像が、自撮りの画像または自撮りのビデオを含むものである。
技術的思想44のコンピューティングデバイスは、技術的思想31から43のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、3次元の効果である。
技術的思想45のコンピューティングデバイスは、技術的思想31から44のいずれかに記載のコンピューティングデバイスにおいて、前記処理ユニットが、受信するための前記画像を取り込むために、a.前記コンピューティングデバイスはカメラを備える、b.前記コンピューティングデバイスがカメラに結合される、のうちの1つで構成される。
技術的思想46のコンピュータプログラム製品は、命令および/またはデータを記憶する非一時的な記憶ユニットを備えるものであり、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換する方法を実行するように構成されるものであって、a.前記記憶ユニットは、前記画像を前記第1領域空間から前記第2領域空間に変換するためのランタイムモデルであって、前記第1領域空間における第1画像と、前記第2領域空間における第2画像とを含む複数の非ペア画像を、第1モデルを使用して変換することによって生成される複数のペア画像を使用する学習によって条件付けられるランタイムモデルを記憶し、i.前記複数の非ペア画像は、効果が適用されない前記第1領域空間で定義された画像の第1サブセットと、効果が適用される前記第2領域空間で定義された画像の第2サブセットとを含むものであり、ii.前記第1モデルは、前記複数の非ペア画像を使用する学習によって調整されるものであり、その以下のように構成される:1.前記第1サブセットとペアになる第1偽画像を生成するために、前記画像の第1サブセットを前記第2領域空間に変換すること、2.前記第2サブセットとペアになる第2偽画像を生成するために、前記画像の第2サブセットを前記第1領域空間に変換すること、ここで、前記第1サブセットと前記第1偽画像と前記第2サブセットと前記第2偽画像とは、それぞれ、複数のペア画像を定義するものであり、b.前記処理ユニットは、前記画像を前記ランタイムモデルに提供し、提示のために前記ランタイムモデルによって変換された画像を提供するように構成される。
技術的思想47のコンピューティングデバイスは、画像に適用される効果に従って、画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成するものであり、a.記憶ユニットであって、i.前記適用される効果を有さない前記第1領域空間において定義された画像の第1サブセットと、効果が適用される前記第2領域空間において定義された画像の第2サブセットとを含む前記複数の非ペア画像、ii.前記複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、1.前記第1サブセットとペアになる第1偽画像を生成するために、画像の前記第1サブセットを前記第2領域空間に変換し、2.前記第2サブセットとペアになる第2偽画像を生成するために、画像の前記第2サブセットを前記第1領域空間に変換する、を記憶する記憶ユニットと、b.処理ユニットであって、過剰適合された第1モデルを生成するために前記複数の非ペア画像で過剰適合し、前記第1偽画像および前記第2偽画像を生成するために、過剰適合された前記複数の非ペア画像を前記第1モデルに提供し、前記複数のペア画像を生成するために、前記第1偽画像および前記第2偽画像をそれぞれの前記第1画像サブセット及び前記第2画像サブセットとペアになるように構成される処理ユニットとから構成される。
技術的思想48のコンピューティングデバイスは、技術的思想47記載のコンピューティングデバイスにおいて、前記複数の非ペア画像に関し、a.前記第1領域空間における前記画像の第1サブセットのそれぞれは、効果が適用される前記画像の第2サブセットにおいて等価物を有さないものであり、b.前記第2領域空間における前記画像の第2サブセットのそれぞれは、効果が適用されない画像の第1サブセットにおいて等価物を有さないものである。
技術的思想49のコンピューティングデバイスは、技術的思想47又は48に記載のコンピューティングデバイスにおいて、前記モデルは、前記複数の非ペア画像の周辺分布を使用した前記複数の非ペア画像の同時分布を学習する機械学習モデルを含むものである。
技術的思想50のコンピューティングデバイスは、技術的思想47から49のいずれかに記載のコンピューティングデバイスにおいて、前記モデルは、前記複数の非ペア画像を使用して学習された敵対的生成ネットワークを含むものである。
技術的思想51のコンピューティングデバイスは、技術的思想50記載のコンピューティングデバイスにおいて、前記敵対的生成ネットワークは、前記複数の非ペア画像を使用して学習する前の部分的に学習されたネットワークを含むものである。
技術的思想52のコンピューティングデバイスは、技術的思想49又は50に記載のコンピューティングデバイスにおいて、前記敵対的生成ネットワークは、サイクル敵対的生成ネットワーク、デュアル敵対的生成ネットワーク、サイクル敵対的一貫性ネットワーク及び結合敵対的生成ネットワークのうちのいずれか1つを含むものである。
技術的思想53のコンピューティングデバイスは、技術的思想47から52のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、顔の効果、毛髪の着色の効果、ヘアスタイルの効果、マニキュアの効果およびペディキュアの効果のうちの1つである。
技術的思想54のコンピューティングデバイスは、技術的思想47から53のいずれかに記載のコンピューティングデバイスにおいて、前記適用される効果が、絵画および建物スタイル、画像の着色、フィルタアプリケーション、超解像アプリケーション、異なる物体と対象との間の特徴の変換、衛星画像から地図への変換およびスケッチから写真への変換のうちの1つである。
技術的思想55の方法は、技術的思想47から54のいずれかに記載の方法において、ランタイムモデルを学習するために使用する品質尺度に応答して、前記複数のペア画像を定義することを含むものである。
技術的思想56のコンピュータプログラム製品は、命令および/またはデータを記憶する非一時的な記憶ユニットを備え、前記命令がコンピューティングデバイスの処理ユニットによって実行されるとき、前記コンピューティングデバイスは、画像に適用される効果に従って、前記画像を第1領域空間から第2領域空間に変換することによって、複数の非ペア画像から複数のペア画像を生成する方法を実行するように構成されるものであり、a.前記記憶ユニットは、i.前記適用される効果を有さない前記第1領域空間において定義された画像の第1サブセットと、効果が適用される前記第2領域空間において定義された画像の第2サブセットとを含む前記複数の非ペア画像、ii.前記複数の非ペア画像に対する性能を最大化するように過剰学習され、以下のように構成されるモデル、1.前記第1サブセットとペアになる第1偽画像を生成するために、画像の前記第1サブセットを前記第2領域空間に変換し、2.前記第2サブセットとペアになる第2偽画像を生成するために、画像の前記第2サブセットを前記第1領域空間に変換する、を記憶するものであり、b.前記処理ユニットは、過剰適合された第1モデルを生成するために前記複数の非ペア画像で過剰適合し、前記第1偽画像および前記第2偽画像を生成するために、過剰適合された前記複数の非ペア画像を前記第1モデルに提供し、前記複数のペア画像を生成するために、前記第1偽画像および前記第2偽画像をそれぞれの前記第1画像サブセット及び前記第2画像サブセットとペアになるように構成される。
【国際調査報告】