IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-8299画像生成装置、画像生成方法及びプログラム
<>
  • 特開-画像生成装置、画像生成方法及びプログラム 図1
  • 特開-画像生成装置、画像生成方法及びプログラム 図2
  • 特開-画像生成装置、画像生成方法及びプログラム 図3
  • 特開-画像生成装置、画像生成方法及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024008299
(43)【公開日】2024-01-19
(54)【発明の名称】画像生成装置、画像生成方法及びプログラム
(51)【国際特許分類】
   G06T 11/80 20060101AFI20240112BHJP
【FI】
G06T11/80 E
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022110051
(22)【出願日】2022-07-07
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】西田 光甫
(72)【発明者】
【氏名】西田 京介
(72)【発明者】
【氏名】西岡 秀一
(72)【発明者】
【氏名】馬場 毅
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050BA06
5B050CA07
5B050EA18
5B050GA08
(57)【要約】
【課題】編集前の状態を表すテキストを用いずに、与えられた画像と編集指示から編集後画像を生成できる技術を提供すること。
【解決手段】本開示の一態様による画像生成装置は、編集対象画像に対する編集指示を表すテキストを入力するように構成されている入力部と、与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成するように構成されている編集情報生成部と、を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
編集対象画像に対する編集指示を表すテキストを入力するように構成されている入力部と、
与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成するように構成されている編集情報生成部と、
を有する画像生成装置。
【請求項2】
前記参考画像情報は、参考画像で構成される画像集合であり、
前記編集情報生成部は、
前記画像集合に含まれる前記参考画像のうち、特徴空間において前記テキストの近傍となる参考画像を正例、前記テキストの近傍とならない参考画像を負例としたときに、前記参考画像情報と、前記テキストとの関係性に基づいて、前記編集情報を生成するように構成されている、請求項1に記載の画像生成装置。
【請求項3】
前記編集情報生成部は、
前記画像集合に含まれる前記参考画像を正例と負例に分離する超平面の法線ベクトルを前記編集情報として生成するように構成されている、請求項2に記載の画像生成装置。
【請求項4】
前記編集情報生成部は、
前記画像集合に含まれる前記参考画像のうち、前記特徴空間において前記テキストとの類似度が高い上位所定の第1の件数の参考画像又は前記テキストとの類似度が第1の閾値以上の参考画像を正例、前記テキストとの類似度が低い下位所定の第2の件数の参考画像又は前記テキストとの類似度が第2の閾値未満の参考画像を負例とするように構成されている、請求項2又は3に記載の画像生成装置。
【請求項5】
前記参考画像情報は、参考画像の特徴量を表す画像特徴量で構成される特徴量集合であり、
前記編集情報生成部は、
前記特徴量集合に含まれる前記画像特徴量のうち、特徴空間において前記テキストの近傍となる画像特徴量を持つ前記参考画像を正例、前記テキストの近傍とならない画像特徴量を持つ前記参考画像を負例としたときに、前記参考画像情報と、前記テキストとの関係性に基づいて、前記編集情報を生成するように構成されている、請求項1に記載の画像生成装置。
【請求項6】
前記編集情報生成部は、
正例とした前記参考画像の画像特徴量と負例とした前記参考画像の画像特徴量とを分離する超平面の法線ベクトルを前記編集情報として生成するように構成されている、請求項5に記載の画像生成装置。
【請求項7】
編集対象画像を編集するための参考画像情報を入力として、前記参考画像情報に基づいて、前記編集対象画像を編集した画像を生成するための編集情報を生成するように構成されている編集情報生成部、
を有する画像生成装置。
【請求項8】
前記編集対象画像と、前記編集対象画像に対する編集指示を表すテキストとを入力として、前記テキストに基づいて、所定の画像集合の中から、前記テキストの近傍となる第1の画像と前記テキストの近傍とならない第2の画像とを前記参考画像情報として取得するように構成されている取得部を有し、
前記編集情報生成部は、
前記取得部によって取得された前記参考画像情報を入力として、前記参考画像情報に基づいて、前記編集情報を生成するように構成されている、請求項7に記載の画像生成装置。
【請求項9】
編集対象画像に対する編集指示を表すテキストを入力する入力手順と、
与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成する編集情報生成手順と、
をコンピュータが実行する画像生成方法。
【請求項10】
編集対象画像に対する編集指示を表すテキストを入力する入力手順と、
与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成する編集情報生成手順と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像生成装置、画像生成方法及びプログラムに関する。
【背景技術】
【0002】
入力された画像を自然言語により編集することができるStyleCLIPと呼ばれる手法が知られている(例えば、非特許文献1)。StyleCLIPは、画像と自然言語を同じ埋め込み空間にエンコード可能なCLIPと呼ばれる手法と、敵対的生成ネットワーク(GAN:Generative Adversarial Network)の1つであるStyleGANと呼ばれる手法とを組み合わせたものである。
【0003】
StyleCLIPでは、編集指示を表すテキスト(これはターゲットテキストとも呼ばれる。)と編集前の状態を表すテキスト(これはニュートラルテキストとも呼ばれる。)から埋め込み空間における画像の編集方向を決定し、その編集方向を利用してStyleGANにより画像を編集している。また、編集方向を決定する際には、埋め込み空間内でニュートラルテキストからターゲットテキストへの方向を表すベクトルを編集方向と決定している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Or Patashnik et al. Styleclip: Text-driven manipulation of stylegan imagery. In CVPR, pages 2085-2094, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、StyleCLIPでは、編集方向を決定する際に、ターゲットテキストに加えて、ニュートラルテキストが必要である。一方で、StyleCLIPでは、ニュートラルテキストは一種のチューニングパラメータとなっており、編集指示を反映可能なテキストを適切に設定することは困難なことが多い。
【0006】
本開示は、上記の点に鑑みてなされたもので、編集前の状態を表すテキストを用いずに、与えられた画像と編集指示から編集後画像を生成できる技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様による画像生成装置は、編集対象画像に対する編集指示を表すテキストを入力するように構成されている入力部と、与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成するように構成されている編集情報生成部と、を有する。
【発明の効果】
【0008】
編集前の状態を表すテキストを用いずに、与えられた画像と編集指示から編集後画像を生成できる技術が提供される。
【図面の簡単な説明】
【0009】
図1】本実施形態に係る画像生成装置のハードウェア構成の一例を示す図である。
図2】本実施形態に係る画像生成装置の機能構成の一例を示す図である。
図3】本実施形態に係る画像生成処理の一例を示すフローチャートである。
図4】本実施形態に係る画像生成装置の機能構成の変形例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について説明する。以下の実施形態では、画像と編集指示(ターゲットテキスト)が与えられたときに、その編集指示に従って当該画像を編集した編集後画像を生成することができる画像生成装置10について説明する。なお、以下では、画像生成装置10に与えられる画像(編集前の画像)を「入力画像」、編集後画像を「出力画像」ともいう。
【0011】
<画像生成装置10のハードウェア構成例>
本実施形態に係る画像生成装置10のハードウェア構成例を図1に示す。図1に示すように、本実施形態に係る画像生成装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
【0012】
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、画像生成装置10は、入力装置101及び表示装置102の少なくとも一方を有していなくてもよい。
【0013】
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。画像生成装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
【0014】
通信I/F104は、画像生成装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。
【0015】
本実施形態に係る画像生成装置10は、図1に示すハードウェア構成を有することにより、後述する画像生成処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、画像生成装置10のハードウェア構成はこれに限られるものではない。例えば、画像生成装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
【0016】
<画像生成装置10の機能構成例>
本実施形態に係る画像生成装置10の機能構成例を図2に示す。図2に示すように、本実施形態に係る画像生成装置10は、入力部201と、言語符号化部202と、画像符号化部203と、画像検索部204と、編集方向決定部205と、画像生成部206と、出力部207とを有する。これら各部は、例えば、画像生成装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。また、本実施形態に係る画像生成装置10は、画像コーパス記憶部208を有する。画像コーパス記憶部208は、例えば、補助記憶装置107により実現される。なお、画像コーパス記憶部208は、例えば、画像生成装置10と通信ネットワークを介して接続されるデータベースサーバ等の記憶装置により実現されていてもよい。
【0017】
入力部201は、与えられた入力画像とターゲットテキストを入力する。ここで、ターゲットテキストとは、編集指示を自然言語で表したテキストのことである。また、入力画像は、ターゲットテキストが表す編集指示によって編集したい対象が含まれる画像(つまり、編集対象が写っている画像)のことである。なお、編集対象は特定の対象に限定されるものではないが、一例を挙げれば、人の顔、犬や猫等といった動物、車両や船舶等といった機械等を編集対象とすることが考えられる。以下では、ターゲットテキストをttargetで表し、入力画像をxで表すことにする。
【0018】
言語符号化部202は、ターゲットテキストttargetを入力として、ターゲットテキストttargetを符号化し、その特徴量を表すテキスト特徴量etextを生成及び出力する。言語符号化部202は、例えば、参考文献1に記載されているCLIP(Contrastive Language-Image Pre-training)のテキスト用エンコーダCLIPtextを用いて、etext=CLIPtext(ttarget)によりターゲットテキストttargetを符号化し、テキスト特徴量etextを生成及び出力すればよい。ただし、これは一例であって、言語符号化部202は、CLIPtext以外のエンコーダによりターゲットテキストttargetを符号化してもよい。
【0019】
画像符号化部203は、入力画像xを入力として、入力画像xを符号化し、その特徴量を表す画像特徴量sを生成及び出力する。画像符号化部203は、例えば、参考文献2に記載されているe4e(Encoder for Editing)エンコーダを用いて、e4eエンコーダにより入力画像xを符号化し、画像特徴量sを生成及び出力すればよい。ただし、これは一例であって、画像符号化部203は、e4eエンコーダ以外のエンコーダにより入力画像xを符号化してもよい。例えば、画像符号化部203は、参考文献1に記載されているCLIPの画像用エンコーダCLIPimageを用いて、s=CLIPimage(x)により入力画像xを符号化してもよい。画像用のエンコーダはCLIPimageやe4eエンコーダ等に限られるものではないが、CLIPimageやe4eエンコーダといったエンコーダを用いることで、より精度の高い出力画像の生成が期待できる。
【0020】
なお、CLIP及びe4eエンコーダはいずれも、或るテキストと或る画像が意味的に近い場合は、そのテキストのテキスト特徴量とその画像の画像特徴量との距離が近くなるように(又は、類似度が高くなるように)事前学習済みであるものとする。このような事前学習によって生成されるマルチモーダルな埋め込み空間(特徴空間)はCLIP空間とも呼ばれる。
【0021】
画像検索部204は、テキスト特徴量etextを入力として、画像コーパス記憶部208を検索し、正例画像の特徴量を表す正例画像特徴量の集合と負例画像の特徴量を表す負例画像特徴量の集合とで構成される情報を参考画像情報として出力する。
【0022】
ここで、正例画像とは、或る画像集合(以下、これを参考画像集合と呼ぶことにする。)に含まれる画像のうち、その特徴量がテキスト特徴量etextの近傍となる画像のことである。一方で、負例画像とは、参考画像集合に含まれる画像のうち、その特徴量がテキスト特徴量etextの近傍ではない画像のことである。例えば、参考画像集合をX={x|i=1,・・・,N}(ただし、Nは参考画像集合Xに含まれる画像数)とした場合、各i=1,・・・,Nに対して、CLIPimage(x)とテキスト特徴量etextとの類似度(例えば、コサイン類似度等)をそれぞれ求めたときに、その類似度が高い上位N(ただし、N<N)の画像が正例画像、下位N件(ただし、N<N、かつ、N+N≦N)の画像が負例画像である。ただし、これは一例であって、これに限られるものではなく、例えば、類似度が或る所定の閾値以上の画像を正例画像、類似度が或る所定の閾値未満の画像を負例画像としてもよい。より一般には、例えば、2つの閾値θ,θ(ただし、θ≧θ)を用いて、類似度が閾値θ以上の画像を正例画像、類似度がθ未満の画像を負例画像としてもよい。なお、類似度は一例であって、これに限られるものではなく、テキスト特徴量etextとの関係性を表す他の評価指標(例えば、距離等)を用いることも可能である。
【0023】
以下では、参考画像集合Xに含まれる各画像xの画像特徴量の集合をS={CLIPimage(x)|i=1,・・・,N}とする。また、正例画像の集合をX={x|xは正例画像}⊂X、負例画像の集合をX={x|xは負例画像}⊂Xとする。更に、正例画像の画像特徴量の集合をS={CLIPimage(x)|xは正例画像}⊂S、負例画像の画像特徴量の集合をS={CLIPimage(x)|xは負例画像}⊂Sとする。これにより、参考画像情報は、(S,S)と表される。
【0024】
編集方向決定部205は、参考画像情報(S,S)を入力として、編集ベクトルを生成及び出力する。編集ベクトルとは、画像生成部206によって生成される画像の編集方向を表すベクトルのことである。例えば、画像生成部206では、参考文献3に記載されているStyleGANのSynthesisネットワークによって画像が生成されるものとする。また、画像生成部206によって画像特徴量sから生成される画像をG(s)、この画像G(s)がターゲットテキストttargetに従って編集されたものをG(s+αΔs)とする。このとき、αΔsが編集ベクトルである。ここで、ΔsはStyleGANのStyle空間における変化方向、αはその変化強度を表すハイパーパラメータである。Style空間とは、例えば、年齢、性別、表情、目の色、髪の色等といった対象の多次元的な属性(これら多次元的な属性の各々は、チャネルやスタイルチャネル等と呼ばれる。)を表す空間のことである。以下では、Style空間のチャネル数をC、各チャネルをc(1≦c≦C)で表す。なお、StyleGANでは、sはスタイル又はスタイル情報等とも呼ばれ、Style空間内の値(つまり、C次元ベクトル)を表している。
【0025】
上記の変化方向Δsのチャネルc(1≦c≦C)における値(以下、これをΔs(c)と表す。)は、CLIP空間上のチャネル変化方向ΔiとCLIP空間上のテキスト変化方向Δtから計算される。Δs、Δi及びΔtの計算方法については後述する。なお、StyleCLIP(非特許文献1)ではターゲットテキストとニュートラルテキストからテキスト変化方向Δtを計算しているが、本実施形態ではニュートラルテキストが与えられないため、ニュートラルテキストを用いずに、参考画像情報からテキスト変化方向Δtを計算する。一方で、チャネル変化方向Δiについては、StyleCLIP(非特許文献1)と同様の方法で計算すればよい。
【0026】
画像生成部206は、画像特徴量sと編集ベクトルαΔsとを入力として、出力画像G(s+αΔs)を生成及び出力する。画像生成部206は、例えば、参考文献3に記載されているStyleGANのSynthesisネットワークにより出力画像G(s+αΔs)を生成すればよい。
【0027】
出力部207は、出力画像G(s+αΔs)を予め決められた所定の出力先に出力する。このような出力先としては、例えば、ディスプレイ等の表示装置102、補助記憶装置107、通信ネットワークを介して接続される他の装置又は機器等が挙げられる。
【0028】
画像コーパス記憶部208は、予め与えられた参考画像集合とその参考画像集合に含まれる各画像の特徴量(画像特徴量)を記憶する。すなわち、画像コーパス記憶部208には、例えば、参考画像集合X={x|i=1,・・・,N}と、その画像特徴量集合S={CLIPimage(x)|i=1,・・・,N}とが記憶されている。ただし、画像コーパス記憶部208には、必ずしも参考画像集合Xが記憶されている必要はなく、画像特徴量集合Sのみが記憶されていてもよい。参考画像集合X若しくは画像特徴量集合S又はその両方が「参考情報」等と呼ばれてもよい。なお、参考画像集合Xとその画像特徴量集合S(又は、参考画像集合X)は、自然言語処理等に利用されるコーパスに類するものであるため、「画像コーパス」等と呼ばれることもある。
【0029】
<画像生成処理>
以下、本実施形態に係る画像生成処理について、図3を参照しながら説明する。
【0030】
入力部201は、与えられた入力画像xとターゲットテキストttargetを入力する(ステップS101)。
【0031】
次に、言語符号化部202は、ターゲットテキストttargetを入力として、テキスト特徴量etextを生成及び出力する(ステップS102)。
【0032】
また、画像符号化部203は、入力画像xを入力として、画像特徴量sを生成及び出力する(ステップS103)。
【0033】
上記のステップS102に続いて、画像検索部204は、テキスト特徴量etextを入力として、画像コーパス記憶部208に記憶されている画像特徴量集合Sの中から正例画像の画像特徴量集合Sと負例画像の画像特徴量集合Sを検索し、参考画像情報(S,S)として出力する(ステップS104)。画像検索部204は、例えば、テキスト特徴量etextとの類似度(例えば、コサイン類似度等)が高い上位N件の画像特徴量を画像特徴量集合Sから検索し、正例画像の画像特徴量集合Sとすればよい。同様に、画像検索部204は、例えば、テキスト特徴量etextとの類似度が低い下位N件の画像特徴量を画像特徴量集合Sから検索し、負例画像の画像特徴量集合Sとすればよい。
【0034】
ただし、上記の検索方法は一例であって、画像検索部204は、他の検索方法により正例画像の画像特徴量集合Sと負例画像の画像特徴量集合Sを検索してもよい。例えば、画像検索部204は、一般的な画像検索手法により参考画像集合Xから画像を検索(例えば、ターゲットテキストttargetをクエリとして参考画像集合Xから画像を検索)し、その検索スコア順に画像をソートした上で、上位N件を正例画像、下位N件を負例画像として得た後、正例画像に対応する画像特徴量の集合をS、負例画像に対応する画像特徴量の集合をSとしてもよい。なお、検索スコアとは、クエリとの類似度を表すスコアのことである。
【0035】
次に、編集方向決定部205は、参考画像情報(S,S)を入力として、編集ベクトルαΔsを生成及び出力する(ステップS105)。ここで、変化方向Δsは、以下の手順1-1~手順1-2により計算される。
【0036】
手順1-1:編集方向決定部205は、各チャネルc(1≦c≦C)に対して、|Δi・Δt|≧βである場合はΔs(c)=Δi・Δt、そうでない場合はΔs(c)=0により各Δs(c)を計算する。ここで、βは、テキスト変化方向Δtと関係の弱いチャネルを無視するために導入するハイパーパラメータである。このハイパーパラメータにより編集したい属性(チャネル)のみを操作することが可能となる。また、Δi・Δtは、ΔiとΔtの内積を表す。なお、CLIP空間上のチャネル変化方向Δiの計算方法とCLIP空間上のテキスト変化方向Δtの計算方法については後述する。
【0037】
手順1-2:編集方向決定部205は、Δs(c)(1≦c≦C)の最大値が1となるように正規化する。すなわち、編集方向決定部205は、各チャネルc(1≦c≦C)に対して、Δs(c)←Δs(c)/max{Δs(c)|c=1,・・・,C}とする。これにより、Δs(c)をチャネルcの値として持つΔsが得られる。
【0038】
・CLIP空間上のチャネル変化方向Δiの計算方法
以下、CLIP空間上のチャネル変化方向Δiの計算方法について説明する。なお、この計算方法は、StyleCLIP(非特許文献1)と同様であるため、必要に応じて非特許文献1も参照されたい。以下では、Style空間の或るチャネルcのみを変化させた画像がCLIP空間において変化するチャネル変化方向Δiを計算する場合について説明する。これは、以下の手順2-1~手順2-3により計算される。
【0039】
手順2-1:画像生成部206は、画像G(s)に対してチャネルcにだけ摂動(チャネルcの1標準偏差)を与えた画像ペアx =G(s+αΔs)及びx =G(s-αΔs)を生成する。ここで、Δsはチャネルcのみそのチャネルcの1標準偏差の値を取り、それ以外は0を取るベクトルである。
【0040】
手順2-2:次に、画像符号化部203は、画像特徴量ペアe =CLIPimage(x )及びe =CLIPimage(x )を生成する。
【0041】
手順2-3:上記の手順2-1~手順2-2を或る所定の枚数(例えば、100枚)の画像G(s)に対して繰り返した後、編集方向決定部205は、e -e の平均をΔi、つまりΔi=Ave(e -e )とする。
【0042】
なお、上記の手順2-1~手順2-3は、すべてのチャネルc(1≦c≦C)に対して実行される。これにより、各チャネルc(1≦c≦C)に対して、CLIP空間上のチャネル変化方向Δiが得られる。
【0043】
・CLIP空間上のテキスト変化方向Δtの計算方法
以下、CLIP空間上のテキスト変化方向Δtの計算方法について説明する。本実施形態では、CLIP空間上で正例画像と負例画像を分離(つまり、SとSを分離)する境界面(分離超平面)に対する法線をテキスト変化方向Δtとして計算する。このようなテキスト変化方向Δtは以下の手順3-1~手順3-2により計算される。
【0044】
手順3-1:編集方向決定部205は、CLIP空間上で正例画像と負例画像を分離(SとSを分離)する境界面を線形SVM(Support Vector Machine)により計算する。ここで、このような境界面は、
【0045】
【数1】
と表すことができる。なお、
【0046】
【数2】
は転置を表す。以下、本明細書のテキスト中では、記号の真上に付与されたハット「^」はその記号の直前に記載するものとする。例えば、上記の数1に示す境界面において、ハットが付与されたwは「^w」と表す。
【0047】
手順3-2:そして、編集方向決定部205は、上記の数1に示す境界面に対する法線n=^wをΔtとする。すなわち、編集方向決定部205は、Δt=^wによりテキスト変化方向Δtを計算する。
【0048】
ここで、上記の数1に示す境界面及びその法線は以下の最適化問題の解として得られる。
【0049】
【数3】
ただし、yは、xが正例画像であれば1、xが負例画像であれば-1を取るラベルである。なお、^wは、上記の数3に示す最適化問題の解である。
【0050】
これにより、StyleCLIP(非特許文献1)と異なり、ニュートラルテキストを用いずに、テキスト変化方向Δtを得ることができる。
【0051】
上記のステップS103及びステップS105に続いて、画像生成部206は、画像特徴量sと編集ベクトルαΔsとを入力として、出力画像G(s+αΔs)を生成及び出力する(ステップS106)。
【0052】
そして、出力部207は、出力画像G(s+αΔs)を予め決められた所定の出力先に出力する(ステップS107)。これにより、入力画像xがターゲットテキストをttargetに従って編集された出力画像G(s+αΔs)が得られる。
【0053】
<変形例>
以下、本実施形態の変形例について説明する。上記の説明では、画像コーパス記憶部208には画像特徴量集合Sが少なくとも記憶されているものとしたが、例えば、画像特徴量集合Sは記憶されておらず、参考画像集合Xのみが記憶されている場合もあり得る。そこで、本変形例では、参考画像集合Xのみが画像コーパス記憶部208に記憶されている場合について説明する。
【0054】
本変形例における画像生成装置10の機能構成例を図4に示す。図4に示すように、本変形例における画像生成装置10の画像検索部204は、テキスト特徴量etextを入力として、画像コーパス記憶部208を検索し、正例画像集合Xと負例画像集合Xを得る。その後、画像符号化部203は、正例画像集合Xに含まれる各正例画像をそれぞれ符号化して画像特徴量集合Sを得ると共に、負例画像集合Xに含まれる各負例画像をそれぞれ符号化して画像特徴量集合Sを得る。そして、画像検索部204は、これらの画像特徴量集合S及びSを参考画像情報(S,S)として出力する。
【0055】
なお、上記の例では、画像コーパス記憶部208から正例画像集合Xと負例画像集合Xを取得したが、例えば、画像検索部204は、画像コーパス記憶部208から参考画像集合Xを取得すると共に、この参考画像集合Xに含まれる各画像xとテキスト特徴量etextとの間の何等かのスコア(例えば、距離又は類似度を表すスコア等)をそれぞれ計算してもよい。この場合、編集方向決定部205(又は、画像符号化部203でもよい。)が、参考画像集合Xに含まれる各画像xを、そのスコアから正例画像と負例画像に分類すればよい。
【0056】
<評価実験>
以下、本実施形態に係る画像生成装置10を評価するために行った実験とその結果について説明する。以下では、本実施形態に係る画像生成装置10によって実行される画像生成処理を「提案手法」と呼ぶ。
【0057】
≪実験設定≫
・データセット
提案手法では、参考画像集合Xとして、参考文献3に記載されているFlickrFaces-HQ(FFHQ)を用いた。FFHQは、StyleGANの訓練に用いられた7万枚の顔画像で構成されたデータセットである。FFHQは、高解像度かつ様々な年齢や民族の顔画像が含まれており、眼鏡や帽子等のアクセサリが充実していることが特徴である。
【0058】
本実験では、ハイパーパラメータを決定するための開発用データセット、提案手法及びそれと比較する比較手法を評価するためのテスト用データセットとして、参考文献4に記載されているMulti-Modal-CelebA-HQを用いた。Multi-Modal-CelebA-HQは、参考文献5に記載されているCelebA-HQの3万枚の高解像度顔画像に対して、顔属性のラベルに基づき確率文脈自由文法を用いて自動生成されたキャプションが1画像毎に10件付与されている。本実験では、Multi-Modal-CelebA-HQの訓練データセットから100枚の画像をランダムに選択し、それら100枚の画像で構成されるデータセットを開発用データセットとした。また、Multi-Modal-CelebA-HQのテストデータセットから50枚の画像をランダムに選択し、それら50枚の画像で構成されるデータセットをテスト用データセットとした。ターゲットテキストttargetは、10単語以上の制約を設けた上で、開発用データセットとテスト用データセットに対してそれぞれ10件ずつランダムに選択した。
【0059】
・ハイパーパラメータ
適切なα及びβを決定するため、開発用データセット中の画像とターゲットテキストttargetとを用いて、提案手法及び比較手法のそれぞれにより画像の編集を行った。このとき、αに関しては2.0から6.0の間を0.5刻み、βに関しては0.1から0.2の間を0.05刻みでそれぞれグリッドサーチを行い、CLIP空間における生成画像(出力画像)とttargetとのコサイン類似度が最大となる(α,β)を採用した。
【0060】
なお、提案手法及び比較手法のいずれの手法でも、α=6.0、β=0.1となった。その他のハイパーパラメータに関しては非特許文献1に準拠した。
【0061】
・比較手法
ベースラインモデルとしてStyleCLIPを用いて、これを比較手法とした。ニュートラルテキストtneutralには、(a)「face」、(b)入力画像中の顔が男性であれば「male face」、女性であれば「female face」、(c)入力画像を細かく描写したテキスト(detailed caption)、の3種類を用いた。なお、(c)入力画像を細かく描写したテキストは、Multi-Modal-CelebA-HQの各画像のキャプションからランダムに選択した。
【0062】
≪定性評価≫
・ニュートラルテキストの影響について
StyleCLIPでは、ニュートラルテキストtneutralの内容を変えることにより結果が大きく変化した。一方で、提案手法では、ニュートラルテキストtneutralを必要とせず、かつ、安定した画像生成が行われた。
【0063】
・ハイパーパラメータの影響について
StyleCLIPでは、αを大きくした場合やβを小さくした場合に過剰な編集が行われ、αやβによる生成結果のチューニングが難しい例が多く見られた。一方で、提案手法では、このような例は少なかった。
【0064】
≪主観評価≫
以下の表1に主観評価の結果を示す。
【0065】
【表1】
なお、Oursが提案手法を表す。
【0066】
主観評価では、ターゲットテキストttargetが表す編集指示と生成画像(出力画像)とで性別が一致しているか否かの2値分類、生成画像が自然な顔であるか否か(顔の形状や髪の毛が不自然でないか否か)の2値分類を2名のアノテータで評価した。なお、性別は、ターゲットテキストttargetが性別に言及している場合はその性別、言及していない場合は元の顔画像(入力画像)の性別を正解とした。2名の性別、自然さのアノテーションの一致度(コーエンのκ係数)はそれぞれ0.92、0.63であった。
【0067】
提案手法はStyleCLIPと比べて性別・自然さともに高い数値を示しており、ターゲットテキストttargetに従った編集能力と頑強に顔画像を生成する能力に優れているといえる。また、詳細に入力画像を説明したキャプションをニュートラルテキストtneutralに使用するStyleCLIPの評価結果が悪いことから、編集指示を反映するための適切なニュートラルテキストtneutralの選択が容易ではないことがわかる。
【0068】
<まとめ>
以上のように、本実施形態に係る画像生成装置10は、StyleCLIP等の従来手法で必要なニュートラルテキストtneutralを用いずに、ターゲットテキストttargetに従って入力画像を自然に編集することができる。なお、本実施形態に係る画像生成装置10では、事前学習済みのStyleGANとCLIPで構成されているため、教師データ(正解データ)を用いた学習が不要である。
【0069】
本実施形態に係る画像生成装置10は、例えば、StyleCLIP等の従来手法に対して特定の改善を提供するものであり、自然言語による画像編集技術が利用される様々な技術分野の向上を示すものである。
【0070】
また、本実施形態に係る画像生成装置10は、自然言語による画像編集技術が利用される様々な技術分野に応用することができる。例えば、コンピュータビジョン等といった技術分野において、仮想空間等におけるアバター作成、コミュニケーション支援等といった産業上重要なサービスに応用することができる。
【0071】
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
編集対象画像に対する編集指示を表すテキストを入力し、
与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成する、画像生成装置。
(付記2)
前記参考画像情報は、参考画像で構成される画像集合であり、
前記プロセッサは、
前記画像集合に含まれる前記参考画像のうち、特徴空間において前記テキストの近傍となる参考画像を正例、前記テキストの近傍とならない参考画像を負例としたときに、前記参考画像情報と、前記テキストとの関係性に基づいて、前記編集情報を生成する、付記1に記載の画像生成装置。
(付記3)
前記プロセッサは、
前記画像集合に含まれる前記参考画像を正例と負例に分離する超平面の法線ベクトルを前記編集情報として生成する、付記2に記載の画像生成装置。
(付記4)
前記プロセッサは、
前記画像集合に含まれる前記参考画像のうち、前記特徴空間において前記テキストとの類似度が高い上位所定の第1の件数の参考画像又は前記テキストとの類似度が第1の閾値以上の参考画像を正例、前記テキストとの類似度が低い下位所定の第2の件数の参考画像又は前記テキストとの類似度が第2の閾値未満の参考画像を負例とする、付記2又は3に記載の画像生成装置。
(付記5)
前記参考画像情報は、参考画像の特徴量を表す画像特徴量で構成される特徴量集合であり、
前記プロセッサは、
前記特徴量集合に含まれる前記画像特徴量のうち、特徴空間において前記テキストの近傍となる画像特徴量を持つ前記参考画像を正例、前記テキストの近傍とならない画像特徴量を持つ前記参考画像を負例としたときに、前記参考画像情報と、前記テキストとの関係性に基づいて、前記編集情報を生成する、付記1に記載の画像生成装置。
(付記6)
前記プロセッサは、
正例とした前記参考画像の画像特徴量と負例とした前記参考画像の画像特徴量とを分離する超平面の法線ベクトルを前記編集情報として生成する、付記5に記載の画像生成装置。
(付記7)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
編集対象画像を編集するための参考画像情報を入力として、前記参考画像情報に基づいて、前記編集対象画像を編集した画像を生成するための編集情報を生成する、画像生成装置。
(付記8)
前記プロセッサは、
前記編集対象画像と、前記編集対象画像に対する編集指示を表すテキストとを入力として、前記テキストに基づいて、所定の画像集合の中から、前記テキストの近傍となる第1の画像と前記テキストの近傍とならない第2の画像とを前記参考画像情報として取得し、
取得した前記参考画像情報を入力として、前記参考画像情報に基づいて、前記編集情報を生成する、付記7に記載の画像生成装置。
(付記9)
編集対象画像に対する編集指示を表すテキストを入力し、
与えられた参考画像情報と、前記テキストとの関係性に基づいて、前記編集対象画像を前記編集指示に従って編集した画像を生成するための編集情報を生成する、処理をコンピュータが実行する生成方法。
(付記10)
付記9に記載の生成方法をコンピュータに実行させるプログラムを記憶した非一時的記憶媒体。
【0072】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
【0073】
[参考文献]
参考文献1:Alec Radford et al. Learning transferable visual models from natural language supervision. In ICML, pages 8748-8763, 2021
参考文献2:Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, and Daniel Cohen-Or. Designing an encoder for stylegan image manipulation. arXiv:2102.02766 [cs.CV]
参考文献3:Tero Karras et al. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401-4410, 2019.
参考文献4:Weihao Xia et al. Tedigan: Text-guided diverse face image generation and manipulation. In CVPR, pages 2256-2265, 2021.
参考文献5:Tero Karras et al. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.
【符号の説明】
【0074】
10 画像生成装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 入力部
202 言語符号化部
203 画像符号化部
204 画像検索部
205 編集方向決定部
206 画像生成部
207 出力部
208 画像コーパス記憶部
209 編集情報生成部
図1
図2
図3
図4