IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アットホームラボ株式会社の特許一覧

特許7542898画像処理装置、画像処理方法及び画像処理プログラム
<>
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図1
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図2
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図3
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図4
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図5
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図6
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図7
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図8
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図9
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図10
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図11
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図12
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図13
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図14
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図15
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図16
  • 特許-画像処理装置、画像処理方法及び画像処理プログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-23
(45)【発行日】2024-09-02
(54)【発明の名称】画像処理装置、画像処理方法及び画像処理プログラム
(51)【国際特許分類】
   G06T 15/20 20110101AFI20240826BHJP
   G06T 11/80 20060101ALI20240826BHJP
【FI】
G06T15/20 500
G06T11/80 A
【請求項の数】 11
(21)【出願番号】P 2023211414
(22)【出願日】2023-12-14
【審査請求日】2023-12-14
【早期審査対象出願】
(73)【特許権者】
【識別番号】519187997
【氏名又は名称】アットホームラボ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】服部 翔
【審査官】岡本 俊威
(56)【参考文献】
【文献】国際公開第2020/054203(WO,A1)
【文献】特開2021-051660(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/00-19/20
(57)【特許請求の範囲】
【請求項1】
物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、2次元の平面に描画された画像であって、検出された線分を示す物体配置用の特徴検出画像を生成し、
前記物体配置用の特徴検出画像に基づいて、物体配置用の画像生成モデルを用いて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成する、
配置処理部を備え
前記物体配置用の画像生成モデルは、入力された物体を配置されていない領域を表す画像に基づいて物体を配置された領域を表す画像を出力する機械学習モデル、及び、前記物体配置用の特徴検出画像が入力されることにより、前記線分を保持した領域を表す画像が生成されやすくなる機械学習モデルが組み込まれてい画像処理装置。
【請求項2】
前記配置処理部は、前記物体配置用の特徴検出画像及びテキストデータに基づいて、前記物体配置画像を生成する、請求項1に記載の画像処理装置。
【請求項3】
前記配置処理部は、前記物体配置用の特徴検出画像及び物体を配置された領域を表す参考画像に基づいて、前記物体配置画像を生成する、請求項1に記載の画像処理装置。
【請求項4】
前記配置処理部は、
前記配置対象画像における物体検出に基づいて、前記配置対象画像において保持対象の物体を設定し、
前記物体配置用の特徴検出画像及び前記保持対象の物体の設定に基づいて、前記物体配置画像を生成し、
前記物体配置画像で表わされる領域は、前記保持対象の物体を配置された領域である、 請求項1に記載の画像処理装置。
【請求項5】
前記物体配置画像における物体検出に基づいて、前記物体配置画像において合成対象の物体を設定し、
前記配置対象画像及び前記合成対象の物体の設定に基づいて、前記配置対象画像に前記合成対象の物体を合成した合成画像を生成する、
合成処理部をさらに備える、請求項1に記載の画像処理装置。
【請求項6】
前記合成処理部は、
前記合成画像におけるエッジ検出に基づいて、エッジ検出画像を生成し、
前記合成画像において合成された物体の外縁を設定し、
前記エッジ検出画像及び前記外縁の設定に基づいて、前記合成画像において前記外縁を馴染ませた画像を生成する、
請求項5に記載の画像処理装置。
【請求項7】
物体を消去する対象の画像であって、物体を配置された領域を表す消去対象画像における物体検出に基づいて、前記消去対象画像において消去対象の物体を設定し、
前記消去対象画像及び前記消去対象の物体の設定に基づいて、前記消去対象画像から前記消去対象の物体を消去した物体消去画像を生成する、
消去処理部をさらに備え、
前記配置対象画像は、前記消去処理部により生成された物体消去画像である、
請求項1に記載の画像処理装置。
【請求項8】
前記消去処理部は、
生成された物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成し、
前記物体消去用の特徴検出画像及び前記物体消去用の特徴検出画像の生成元の物体消去画像に基づいて、新たな物体消去画像を生成する、
請求項に記載の画像処理装置。
【請求項9】
前記消去処理部は、物体を配置されていない領域を表す複数の画像を含む学習データを機械学習することにより生成されたファインチューニング用の機械学習モデルが組み込まれた物体消去用の画像生成モデルを用いて、前記物体消去画像を生成する、
請求項に記載の画像処理装置。
【請求項10】
画像処理装置が実行する画像処理方法であって、
物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、2次元の平面に描画された画像であって、検出された線分を示す物体配置用の特徴検出画像を生成することと、
前記物体配置用の特徴検出画像に基づいて、物体配置用の画像生成モデルを用いて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成することと、
を備え
前記物体配置用の画像生成モデルは、入力された物体を配置されていない領域を表す画像に基づいて物体を配置された領域を表す画像を出力する機械学習モデル、及び、前記物体配置用の特徴検出画像が入力されることにより、前記線分を保持した領域を表す画像が生成されやすくなる機械学習モデルが組み込まれてい画像処理方法。
【請求項11】
請求項1から請求項の何れか一項に記載の画像処理装置が備える各部の処理をコンピュータに実行させることが可能な画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像を処理する画像処理装置、画像処理方法及び画像処理プログラムに関する。
【背景技術】
【0002】
物件紹介サイトでは、不動産会社が撮影した部屋画像を公開している。部屋画像が以下のような画像である場合、部屋画像は集客に効果がある。部屋に不要な家具のない部屋画像は、間取りが分かるため、集客に効果がある。インテリアコーディネートされた部屋画像は、住むイメージができるため、集客に効果がある。
【0003】
居住中の物件の場合、部屋に不要な家具のない部屋画像を撮影するために家具を搬出することは、現実的ではない。インテリアコーディネートされた部屋画像を撮影するために実際の部屋に対してインテリアコーディネートを施すホームステージングを行うことは、家具を搬出した後に、掃除をしたり、家具を搬入したりする必要があるので、現実的ではない。
【0004】
居住していない物件の場合、不要な家具のない部屋画像を撮影することは可能であるものの、インテリアコーディネートされた部屋画像を撮影するためにホームステージングを行うことは、家具を搬入する必要があるので、現実的ではない。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2021-149679号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
不要な家具のない部屋画像については、上記のような事情から、家具を配置された画像に基づいて不要な家具のない部屋画像を取得することが効率的である。手作業での画像編集により不要な家具のない部屋画像を取得する場合、作業時間を要する。そのため、画像生成AIといわれる画像生成モデルを用いて不要な家具のない部屋画像を生成することが検討されている。
【0007】
画像生成モデルを用いて家具を配置された部屋画像に基づいて部屋に不要な家具のない部屋画像を生成する場合、部屋の間取りが保持されないといった課題がある。例えば、部屋の間取りは、幾何学的特徴で形成される領域の形状である。例えば、幾何学的特徴は、床、壁及び天井等をなす平面の画像内における境界線、並びに、扉及び窓等の画像内における図形である。
【0008】
インテリアコーディネートされた部屋画像については、上記のような事情から、部屋画像に対してインテリアコーディネートを施すバーチャルホームステージングにより、不要な家具のない部屋画像に基づいてインテリアコーディネートされた部屋画像を取得することが効率的である。手作業の画像編集でのバーチャルホームステージングよりインテリアコーディネートされた部屋画像を取得する場合、作業時間を要するだけでなく、インテリアコーディネートのセンスが求められる。そのため、画像生成モデルを用いてインテリアコーディネートされた部屋画像を生成することが検討されている。
【0009】
画像生成モデルを用いたバーチャルホームステージングにより不要な家具のない部屋画像に基づいてインテリアコーディネートされた部屋画像を生成する場合、部屋の間取りが保持されないといった課題がある。さらに、元の部屋画像における床、壁及び天井等の色及び模様、窓等の詳細な形状、並びに、その他消去すべきではない設備等が保持されないといった課題もある。
【0010】
特許文献1には、対象領域に対応する仮想的な領域における所定の位置に、家具や設備などのCGオブジェクトを配置させた画像を生成することが開示されている。しかしながら、特許文献1は、入力された画像に基づいて画像生成モデルにより画像を生成するものではない。
【0011】
一つの側面では、本発明の目的は、画像で表される領域の形状を保持しつつ、この画像に配置されている物体を消去した新たな画像を容易に生成することが可能な技術を提供しようとするものである。
【0012】
別の側面では、本発明の目的は、画像で表される領域の形状を保持しつつ、この領域に新たな物体を配置した新たな画像を生成することが可能な技術を提供しようとするものである。
【課題を解決するための手段】
【0013】
実施形態に係る画像処理装置は、物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、物体配置用の特徴検出画像を生成し、前記物体配置用の特徴検出画像に基づいて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成する、配置処理部を備える。
【発明の効果】
【0014】
実施形態の一態様によれば、画像で表される領域の形状を保持しつつ、この画像に配置されている物体を消去した新たな画像を容易に生成することができる。
【0015】
実施形態の別の態様によれば、画像で表される領域の形状を保持しつつ、この領域に新たな物体を配置した新たな画像を生成することができる。
【図面の簡単な説明】
【0016】
図1図1は、実施形態に係る画像処理システムの構成例を示すブロック図である。
図2図2は、実施形態に係るサーバによる処理の一例を示すフローチャートである。
図3図3は、実施形態に係るサーバによる消去処理の一例を示すフローチャートである。
図4図4は、実施形態に係るサーバによる配置処理の一例を示すフローチャートである。
図5図5は、実施形態に係るサーバによる合成処理の一例を示すフローチャートである。
図6図6は、実施形態に係る消去対象画像の一例を示す図である。
図7図7は、実施形態に係る消去対象設定画像の一例を示す図である。
図8図8は、実施形態に係る物体消去画像の一例を示す図である。
図9図9は、実施形態に係る物体配置用の特徴検出画像の一例を示す図である。
図10図10は、実施形態に係る参考画像の一例を示す図である。
図11図11は、実施形態に係る保持対象設定画像の一例を示す図である。
図12図12は、実施形態に係る物体配置画像の一例を示す図である。
図13図13は、実施形態に係る合成対象画像の一例を示す図である。
図14図14は、実施形態に係る合成画像の一例を示す図である。
図15図15は、実施形態に係るエッジ検出画像の一例を示す図である。
図16図16は、実施形態に係る外縁設定画像の一例を示す図である。
図17図17は、実施形態に係る馴染ませ画像の一例を示す図である。
【発明を実施するための形態】
【0017】
[実施形態]
以下、いくつかの実施形態について図面を用いて説明する。なお、以下の実施形態の説明に用いる各図面は、各部の縮尺を適宜変更している場合がある。また、以下の実施形態の説明に用いる各図面は、説明のため、構成を省略して示している場合がある。
【0018】
(構成例)
図1は、画像処理システムSの構成例を示すブロック図である。
画像処理システムSは、機械学習モデルを用いて画像を生成するシステムである。
【0019】
機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。機械学習モデルは、入力されたデータに基づいてデータを生成し、生成されたデータを出力する。
【0020】
画像は、x軸とy軸の座標系で表される2次元の平面に描画された像である。「画像」の表記は、表示デバイスに表示される画像であることを明示しない限り、画像を表す画像データの意味を含む。そのため、「画像」の表記は、画像を表す画像データと読替可能である。
【0021】
画像処理システムSは、サーバ1及び端末2を含む。サーバ1及び端末2は、ネットワークNWを介して互いに通信自在に接続する。ネットワークNWは、インターネット、携帯通信網及びLAN(Local Area Network)等の種々のネットワークのうちの1つ以上のネットワークで構成される。1つ以上のネットワークは、無線ネットワークを含んでもよいし、有線ネットワークを含んでもよい。図1では、1台の端末2が例示されているが、画像処理システムSは、複数台の端末2を含むことができる。
【0022】
サーバ1は、領域を表す画像を処理する機器である。領域は、3次元の空間である。空間は、壁等で閉じられた空間であるが、閉じられていない空間でもよい。ここでは、物件の中の領域を例にして説明する。物件は、マンション、アパート及び戸建等の種々の建物における居住用の物件でもよいし、オフィス等の非居住用の物件でもよい。居住用の物件は、賃貸用の物件でもよいし、売買用の物件でもよい。居住用の物件の場合、物件の中の領域は、部屋又はリビング等の領域であるが、これらに限定されない。サーバ1は、クラウド上のサーバでもよい。サーバ1の構成例については後述する。サーバ1は、画像を処理する画像処理装置の一例である。
【0023】
端末2は、入力機能、表示機能及び通信機能等を有する機器である。例えば、端末2は、PC(Personal Computer)、スマートフォン又はタブレット端末等であるが、これらに限定されない。例えば、端末2は、不動産会社のユーザの端末であるが、任意のユーザの端末でもよい。
【0024】
サーバ1の構成例について説明する。
サーバ1は、処理回路11、メインメモリ12、補助記憶デバイス13及び通信インタフェース14を備える。処理回路11、メインメモリ12、補助記憶デバイス13及び通信インタフェース14は、バス等を介して、互いに信号を入出力可能に接続されている。図1では、インタフェースは、「I/F」と記載されている。
【0025】
処理回路11は、サーバ1の中枢部分に相当する。処理回路11は、サーバ1のコンピュータを構成する。処理回路11は、複数の機能による複数の処理を実行する1つ以上の回路を含む。例えば、回路は、プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)であるが、これらに限定されない。例えば、プロセッサは、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)であるが、これらに限定されない。処理回路11は、メインメモリ12又は補助記憶デバイス13に予め記憶されている画像処理プログラムをメインメモリ12に展開する。画像処理プログラムは、後述する各部による処理を処理回路11に実行させることが可能なプログラムである。処理回路11は、メインメモリ12に展開される画像処理プログラムを実行することで、種々の処理を実行可能にする。
【0026】
メインメモリ12は、サーバ1の主記憶部分に相当する。メインメモリ12は、不揮発性のメモリ領域及び揮発性のメモリ領域を含む。メインメモリ12は、不揮発性のメモリ領域ではオペレーティングシステム又はプログラムを記憶する。メインメモリ12は、揮発性のメモリ領域を、処理回路11によってデータが適宜書き換えられるワークエリアとして使用する。例えば、メインメモリ12は、不揮発性のメモリ領域としてROM(Read Only Memory)を含む。例えば、メインメモリ12は、揮発性のメモリ領域としてRAM(Random Access Memory)を含む。メインメモリ12は、画像処理プログラムを記憶し得る。
【0027】
補助記憶デバイス13は、サーバ1の補助記憶部分に相当する。補助記憶デバイス13は、1つ以上の記憶デバイスを含む。記憶デバイスは、EEPROM(登録商標)(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)又はフラッシュメモリ等であるが、これらに限定されない。補助記憶デバイス13は、上述の画像処理プログラム、処理回路11が各種の処理を行う上で使用するデータ及び処理回路11での処理によって生成されるデータを記憶する。
【0028】
補助記憶デバイス13は、画像記憶領域131を含む。画像記憶領域131は、複数の画像を記憶する。画像記憶領域131は、画像を記憶する記憶部の一例である。
【0029】
画像記憶領域131は、消去対象画像を記憶することができる。消去対象画像は、物体を消去する対象の画像である。消去対象画像は、物体を配置された領域を表す画像である。消去対象画像は、物体を配置された領域を撮影した写真の画像である。例えば、物体を配置された領域は、居住中の物件の中の領域である。消去対象画像は、端末2からサーバ1へ送信された画像である。
【0030】
物体は、形を有するものである。例えば、物体は、領域から移動可能なものである。移動可能な物体は、領域を形成する壁等に固定されていないものだけでなく、領域を形成する壁等に固定されているが取り外すことのできるものを含む。この例では、物体は、家具、電化製品、照明器具、カーテン又は物品等であるが、これらに限定されない。物体は、領域を形成するものでもよい。この例では、物体は、窓又は床等であるが、これに限定されない。以下では、「物体を配置された領域」の表記は、家具等の移動可能な物体を配置された領域を意図するものとする。「物体を配置されていない領域」の表記は、家具等の移動可能な物体を配置されていない領域を意図するものとする。移動可能な物体は、領域を形成する物体とは異なる物体である。
【0031】
画像記憶領域131は、消去対象設定画像を記憶することができる。消去対象設定画像は、消去対象画像において1つ以上の消去対象の物体にマスクを描画した画像である。消去対象の物体は、消去対象画像において消去する対象の物体である。消去対象の物体は、消去対象画像において不要な物体である。物体を消去することは、物体を残さないこと、物体を見えなくすることの意味を含む。消去対象の物体の種類は、端末2を介して設定されてもよい。消去対象設定画像を生成することは、消去対象画像において1つ以上の消去対象の物体を設定することの一例である。消去対象設定画像は、消去対象の物体の設定の一例である。
【0032】
画像記憶領域131は、物体消去画像を記憶することができる。物体消去画像は、消去対象画像から消去対象の物体を消去した画像である。
【0033】
画像記憶領域131は、物体消去用の特徴検出画像を記憶することができる。物体消去用の特徴検出画像は、物体消去画像から検出された幾何学的特徴を示す画像である。幾何学的特徴は、画像から検出可能な幾何学的な特徴である。例えば、幾何学的特徴は、床、壁及び天井等をなす平面の画像内における境界線、並びに、扉及び窓等の画像内における図形の線分であるが、これに限定されない。線分は、直線を含んでもよいし、曲線を含んでもよい。物件の中の領域は、直線を多く含むので、幾何学的特徴は、直線を含むことが好ましい。ここでは、直線を幾何学的特徴の例にして説明する。物体消去用の特徴検出画像は、幾何学的特徴で形成される領域の形状を示すので、消去対象画像で表される領域の形状を保持しながら物体消去画像を生成するために用いられる。例えば、幾何学的特徴で形成される領域の形状は、部屋の間取りであるが、これに限定されない。
【0034】
画像記憶領域131は、配置対象画像を記憶することができる。配置対象画像は、物体を配置する対象の画像である。配置対象画像は、領域を表す画像である。例えば、配置対象画像は、物体消去画像である。
【0035】
なお、配置対象画像は、物体消去画像に限定されない。居住していない物件の場合、サーバ1は、消去対象画像に基づいて物体消去画像を生成することを必要としない。そのため、配置対象画像は、領域を撮影した写真の画像でもよい。例えば、領域は、居住していない物件の中の家具等が配置されていない領域である。この場合、配置対象画像は、端末2からサーバ1へ送信された画像である。
【0036】
画像記憶領域131は、物体配置用の特徴検出画像を記憶することができる。物体配置用の特徴検出画像は、配置対象画像から検出された幾何学的特徴を示す画像である。幾何学的特徴は、上述のとおりである。物体配置用の特徴検出画像は、幾何学的特徴で形成される領域の形状を示すので、配置対象画像で表される領域の形状を保持しながら物体配置画像を生成するために用いられる。
【0037】
画像記憶領域131は、参考画像を記憶することができる。参考画像は、物体を配置された領域を表す画像である。参考画像は、後述する物体配置画像の生成に参考として用いられる画像である。参考画像は、端末2からサーバ1へ送信された画像でもよい。端末2からサーバ1へ送信された画像は、撮影した写真の画像でもよいし、生成された画像でもよい。以下では、端末2からサーバ1へ送信された参考画像は、第1の参考画像ともいう。参考画像は、後述する参考画像用の画像生成モデルを用いて生成された画像でもよい。以下では、参考画像用の画像生成モデルを用いて生成された参考画像は、第2の参考画像ともいう。
【0038】
画像記憶領域131は、保持対象設定画像を記憶することができる。保持対象設定画像は、配置対象画像において1つ以上の保持対象の物体にマスクを描画した画像である。保持対象の物体は、配置対象画像において保持する対象の物体である。保持対象の物体は、配置対象画像において描き変えられたくない物体である。物体を保持することは、物体を残すこと、物体を描き変えないことの意味を含む。保持対象の物体の種類は、端末2を介して設定されてもよい。保持対象設定画像を生成することは、配置対象画像において1つ以上の保持対象の物体を設定することの一例である。保持対象設定画像は、保持対象の物体の設定の一例である。
【0039】
画像記憶領域131は、物体配置画像を記憶することができる。物体配置画像は、配置対象画像に配置されていない1つ以上の物体を配置された領域を表す画像である。物体配置画像は、配置対象画像で表わされる領域の形状を保持しつつ、この領域に適した物体を配置した画像である。
【0040】
画像記憶領域131は、合成対象設定画像を記憶することができる。合成対象設定画像は、物体配置画像において1つ以上の合成対象の物体にマスクを描画した画像である。合成対象の物体は、配置対象画像に合成する対象の物体である。合成対象の物体は、物体配置画像において新たに配置された物体である。つまり、合成対象の物体は、物体配置画像で表わされる領域に配置されている物体のうち、配置対象画像に配置されていない物体である。合成対象設定画像を生成することは、物体配置画像において1つ以上の合成対象の物体を設定することの一例である。合成対象設定画像は、合成対象の物体の設定の一例である。
【0041】
画像記憶領域131は、合成画像を記憶することができる。合成画像は、配置対象画像に物体を合成した画像である。合成画像は、配置対象画像に配置されていない1つ以上の物体を配置された領域を表す画像である。合成画像を生成するために配置対象画像に合成された物体は、配置対象画像に配置されていない物体である。合成された物体は、合成対象設定画像においてマスクを描画された合成対象の物体である。合成画像は、配置対象画像で表わされる領域の形状を保持しつつ、この領域に適した物体を配置した画像である。
【0042】
画像記憶領域131は、エッジ検出画像を記憶することができる。エッジ検出画像は、合成画像から検出されたエッジを示す画像である。エッジは、輪郭線の意味を含む。例えば、合成画像から検出されるエッジは、各物体のエッジである。エッジ検出画像は、エッジで物体の形状を示すので、合成画像で表される領域に配置されている各物体の形状を保持しながら馴染ませ画像を生成するために用いられる。
【0043】
画像記憶領域131は、外縁設定画像を記憶することができる。外縁設定画像は、合成画像を生成するために配置対象画像に合成された1つ以上の物体の外縁にマスクを描画した画像である。物体の外縁は、物体と、物体を合成された配置対象画像との境界である。外縁設定画像を生成することは、合成画像を生成するために配置対象画像に合成された1つ以上の物体の外縁を設定することの一例である。外縁設定画像は、外縁の設定の一例である。
【0044】
画像記憶領域131は、馴染ませ画像を記憶することができる。馴染ませ画像は、配置対象画像に配置されていない1つ以上の物体を配置された領域を表す画像である。馴染ませ画像は、合成画像において外縁を馴染ませた画像である。外縁を馴染ませることは、物体と、物体を合成された配置対象画像との境界の色を自然な状態に近づけることを含む。馴染ませ画像は、配置対象画像で表わされる領域の形状を保持しつつ、この領域に適した物体を配置した画像である。
【0045】
ここでは、画像記憶領域131が上述の各画像を記憶する例について説明したが、これに限定されない。各画像は、種類毎に異なる画像記憶領域に記憶されてもよい。この例では、補助記憶デバイス13に含まれる各画像記憶領域は、記憶部の一例である。各画像の一部は、補助記憶デバイス13に代えて、メインメモリ12に記憶されてもよい。この例では、メインメモリ12は、記憶部の一例である。
【0046】
補助記憶デバイス13は、機械学習モデル記憶領域132を含む。機械学習モデル記憶領域132は、複数の機械学習モデルを記憶する。機械学習モデル記憶領域132は、機械学習モデルを記憶する記憶部の一例である。
【0047】
機械学習モデル記憶領域132は、画像における物体を検出する物体検出モデルを記憶することができる。物体検出モデルは、学習データを機械学習することにより生成された機械学習モデルである。物体検出モデルは、入力された画像に基づいて、入力された画像において検出された物体の検出結果を生成し、検出結果を出力する。例えば、検出結果は、検出された物体の物体名を含む。物体検出モデルは、ゼロショット物体検出による手法でもよい。物体検出モデルは、インスタンスセグメンテーションによる手法でもよい。例えば、物体検出モデルは、Detic(Detector with Image Classes)であるが、これに限定されない。
【0048】
機械学習モデル記憶領域132は、画像における幾何学的特徴を検出する幾何学的特徴検出モデルを記憶することができる。幾何学的特徴検出モデルは、学習データを機械学習することにより生成された機械学習モデルである。幾何学的特徴検出モデルは、入力された画像に基づいて、入力された画像から検出された幾何学的特徴を示す画像を生成し、生成された画像を出力する。幾何学的特徴が直線である場合、例えば、幾何学的特徴検出モデルは、MLSD(Mobile Line Segment Detection)であるが、これに限定されない。
【0049】
機械学習モデル記憶領域132は、画像におけるエッジを検出するエッジ検出モデルを記憶することができる。エッジ徴検出モデルは、学習データを機械学習することにより生成された機械学習モデルである。エッジ徴検出モデルは、入力された画像に基づいて、入力された画像から検出されたエッジを示す画像を生成し、生成された画像を出力する。例えば、エッジ検出モデルは、Cannyであるが、これに限定されない。
【0050】
機械学習モデル記憶領域132は、物体消去画像を生成する物体消去用の画像生成モデルを記憶することができる。物体消去用の画像生成モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置されていない領域を表す複数の画像を含むことができる。つまり、物体消去用の画像生成モデルは、物体を配置されていない領域を表す画像のように、領域の形状が分かる画像を機械学習することにより生成される。拡散モデル(Stable Diffusion)を物体消去用の画像生成モデルの例にして説明するが、物体消去用の画像生成モデルは、拡散モデルに限定されない。例えば、拡散モデルは、Stable Diffusion v1.5_inpaintingである。物体消去用の画像生成モデルは、入力された画像に基づいてインペインティング機能を用いたi2i(image to image)により物体消去画像を生成し、物体消去画像を出力する。物体消去用の画像生成モデルには、以下で説明するように、拡張モデルとして、0個以上のファインチューニング用の機械学習モデルと、0個以上の制御用の機械学習モデルとの組み合わせを組み込むことができる。
【0051】
物体消去用の拡散モデルには、拡張モデルとして、拡散モデルをファインチューニングするためのファインチューニング用の機械学習モデルを組み込むことができる。ファインチューニング用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置されていない領域を表す複数の画像を含むことができる。つまり、ファインチューニング用の機械学習モデルは、物体を配置されていない領域を表す画像のように、領域の形状が分かる画像を機械学習することにより生成される。ファインチューニング用の機械学習モデルは、入力によらず、物体を配置されていない領域を描画しようとする。ファインチューニング用の機械学習モデルは、ただのノイズから物体を配置されていない領域を表す画像を生成しようとするので、t2iでも使用することができる。ファインチューニング用の機械学習モデルは、ただのノイズではなく、入力された画像で表される領域の上にかけたノイズから物体を配置されていない領域を表す画像を生成しようとするので、i2iでも使用することができる。そのため、ファインチューニング用の機械学習モデルは、入力されたテキストデータ及び物体を配置された領域を表す画像のうちの少なくとも何れか一方に基づいて、物体を配置されていない領域を表す画像を出力するモデルである。このように、物体消去用の拡散モデルには、物体消去がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、目的の領域を描画するために用いられる。例えば、ファインチューニング用の機械学習モデルは、LoRA(Low-Rank Adaptation)又はLoCon(LoRA for Convolution network)であるが、これらに限定されない。
【0052】
物体消去用の拡散モデルには、拡張モデルとして、拡散モデルによる画像の生成を制御するための制御用の機械学習モデルを組み込むことができる。例えば、制御用の機械学習モデルは、ControlNetであるが、これに限定されない。制御用の機械学習モデルは、MLSD等の幾何学的特徴検出の機能を有する。制御用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置されていない領域の幾何学的特徴を示す複数の画像及び物体を配置されていない領域を表す複数の画像を含むことができる。物体を配置されていない領域の幾何学的特徴を示す画像は、間取りといった領域の形状が分かるような幾何学的特徴を示していればよい。そのため、物体を配置されていない領域の幾何学的特徴を示す画像は、物体を配置されていない領域を表す画像に基づいてMLSDのような幾何学的特徴検出モデルで簡単に生成することができるが、これに限定されない。物体を配置されていない領域の幾何学的特徴を示す画像は、フリーハンドで幾何学的特徴を描いたものでもよい。例えば、学習データは、物体を配置されていない領域の幾何学的特徴を示す画像と物体を配置されていない領域を表す画像をペアにした100枚ずつの画像を含んでいてもよい。2種類の画像をペアで機械学習させることで、幾何学的特徴から領域を描く方法をニューラルネットワークを使って機械学習させる。制御用の機械学習モデルは、入力された幾何学的特徴を示す画像に基づいて、幾何学的特徴を保持した画像であって、物体を配置されていない領域を表す画像を出力するモデルである。このように、物体消去用の拡散モデルには、領域の形状の保持が得意な幾何学的特徴検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。このように、制御用の機械学習モデルとしての幾何学的特徴検出の機能を有するモデルに幾何学的特徴を示す画像が入力されることにより、幾何学的特徴を保持した領域を表す画像が生成されやすくなる。さらに、制御用の機械学習モデルとしての幾何学的特徴検出の機能を有するモデルに上述のファインチューニング用の機械学習モデルを組み合わせることで、物体の消去が生じやすくなる。
【0053】
機械学習モデル記憶領域132は、物体配置画像を生成する物体配置用の画像生成モデルを記憶することができる。物体配置用の画像生成モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。つまり、物体配置用の画像生成モデルは、物体を配置された領域を表す画像のように、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成される。拡散モデルを物体配置用の画像生成モデルの例にして説明するが、物体配置用の画像生成モデルは、拡散モデルに限定されない。例えば、拡散モデルは、Stable Diffusion v1.5である。物体配置用の画像生成モデルには、以下で説明するように、拡張モデルとして、0個以上のファインチューニング用の機械学習モデルと、0個以上の制御用の機械学習モデルとの組み合わせを組み込むことができる。
【0054】
第1の配置態様では、物体配置用の画像生成モデルは、入力された物体配置用の特徴検出画像を参照し、入力されたテキストデータに基づいてt2i(text to image)により物体配置画像を生成し、物体配置画像を出力する。例えば、テキストデータは、物体配置画像についての文章のデータを含む。第2の配置態様では、物体配置用の画像生成モデルは、入力された物体配置用の特徴検出画像を参照し、入力された参考画像に基づいてi2iにより物体配置画像を生成し、物体配置画像を出力する。第3の配置態様では、物体配置用の画像生成モデルは、入力された物体配置用の特徴検出画像を参照し、入力された保持対象設定画像に基づいてインペインティング機能を用いたi2iにより物体配置画像を生成し、物体配置画像を出力する。物体配置用の画像生成モデルは、保持対象設定画像のうち保持対象の物体以外の部分をインペインティングする。
【0055】
物体配置用の拡散モデルには、拡張モデルとして、拡散モデルをファインチューニングするためのファインチューニング用の機械学習モデルを組み込むことができる。ファインチューニング用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。つまり、ファインチューニング用の機械学習モデルは、物体を配置された領域を表す画像のように、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成される。ファインチューニング用の機械学習モデルは、入力によらず、物体を配置された領域を描画しようとする。ファインチューニング用の機械学習モデルは、ただのノイズから物体を配置された領域を表す画像を生成しようとするので、t2iでも使用することができる。ファインチューニング用の機械学習モデルは、ただのノイズではなく、入力された画像で表される領域の上にかけたノイズから物体を配置された領域を表す画像を生成しようとするので、i2iでも使用することができる。そのため、ファインチューニング用の機械学習モデルは、入力されたテキストデータ及び物体を配置されていない領域を表す画像のうちの少なくとも何れか一方に基づいて、物体を配置された領域を表す画像を出力するモデルである。このように、物体配置用の拡散モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、目的の領域を描画するために用いられる。例えば、ファインチューニング用の機械学習モデルは、LoRA又はLoConであるが、これらに限定されない。
【0056】
物体配置用の拡散モデルには、拡張モデルとして、拡散モデルによる画像の生成を制御するための制御用の機械学習モデルを組み込むことができる。例えば、制御用の機械学習モデルは、ControlNetであるが、これに限定されない。一例では、制御用の機械学習モデルは、MLSD等の幾何学的特徴検出の機能を有する。この例では、制御用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、上述の物体消去用の拡散モデルにおける制御用の機械学習モデルと同様に、物体を配置されていない領域の幾何学的特徴を示す複数の画像及び物体を配置されていない領域を表す複数の画像を含むことができる。制御用の機械学習モデルは、入力された幾何学的特徴を示す画像に基づいて、幾何学的特徴を保持した画像であって、物体を配置されていない領域を表す画像を出力するモデルである。このように、物体配置用の拡散モデルには、領域の形状の保持が得意な幾何学的特徴検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。このように、制御用の機械学習モデルとしての幾何学的特徴検出の機能を有するモデルに幾何学的特徴を示す画像が入力されることにより、幾何学的特徴を保持した領域を表す画像が生成されやすくなる。さらに、制御用の機械学習モデルとしての幾何学的特徴検出の機能を有するモデルに上述のファインチューニング用の機械学習モデルを組み合わせることで、物体の配置が生じやすくなる。別の例では、制御用の機械学習モデルは、物体を配置されていない領域から物体を配置された領域へ変換する機能を有する。この例では、制御用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。制御用の機械学習モデルは、入力された物体を配置されていない領域を表す画像に基づいて物体を配置された領域を表す画像を出力する。このように、物体配置用の拡散モデルには、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれている。
【0057】
機械学習モデル記憶領域132は、参考画像用の画像生成モデルを記憶することができる。参考画像用の画像生成モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。拡散モデルを参考画像用の画像生成モデルの例にして説明するが、参考画像用の画像生成モデルは、拡散モデルに限定されない。例えば、拡散モデルは、Stable Diffusion v1.5である。参考画像用の画像生成モデルは、入力されたテキストデータに基づいてt2iにより第2の参考画像を生成し、第2の参考画像を出力する。例えば、テキストデータは、参考画像についての文章のデータを含む。参考画像用の画像生成モデルには、以下で説明するように、拡張モデルとして、0個以上のファインチューニング用の機械学習モデルを組み込むことができる。
【0058】
参考画像用の拡散モデルには、拡張モデルとして、拡散モデルをファインチューニングするためのファインチューニング用の機械学習モデルを組み込むことができる。ファインチューニング用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。つまり、ファインチューニング用の機械学習モデルは、物体を配置された領域を表す画像のように、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成される。ファインチューニング用の機械学習モデルは、入力によらず、物体を配置された領域を描画しようとする。ファインチューニング用の機械学習モデルは、ただのノイズから物体を配置された領域を表す画像を生成しようとするので、t2iでも使用することができる。ファインチューニング用の機械学習モデルは、ただのノイズではなく、入力された画像で表される領域の上にかけたノイズから物体を配置された領域を表す画像を生成しようとするので、i2iでも使用することができる。そのため、ファインチューニング用の機械学習モデルは、入力されたテキストデータ及び物体を配置されていない領域を表す画像のうちの少なくとも何れか一方に基づいて、物体を配置された領域を表す画像を出力するモデルである。このように、参考画像用の拡散モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、目的の領域を描画するために用いられる。例えば、ファインチューニング用の機械学習モデルは、LoRA又はLoConであるが、これらに限定されない。
【0059】
機械学習モデル記憶領域132は、合成用の画像生成モデルを記憶することができる。合成用の画像生成モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。拡散モデルを合成用の画像生成モデルの例にして説明するが、合成用の画像生成モデルは、拡散モデルに限定されない。例えば、拡散モデルは、Stable Diffusion v1.5_inpaintingである。合成用の画像生成モデルは、入力されたエッジ検出画像を参照し、入力された外縁設定画像に基づいてインペインティング機能を用いたi2iにより馴染ませ画像を生成し、馴染ませ画像を出力する。合成用の画像生成モデルには、以下で説明するように、拡張モデルとして、0個以上のファインチューニング用の機械学習モデルと、0個以上の制御用の機械学習モデルとの組み合わせを組み込むことができる。
【0060】
合成用の拡散モデルには、拡張モデルとして、拡散モデルをファインチューニングするためのファインチューニング用の機械学習モデルを組み込むことができる。ファインチューニング用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。つまり、ファインチューニング用の機械学習モデルは、物体を配置された領域を表す画像のように、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成される。ファインチューニング用の機械学習モデルは、入力された物体を配置されていない領域を表す画像に基づいて、物体を配置された領域を表す画像を出力するモデルである。このように、合成用の拡散モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、目的の領域を描画するために用いられる。例えば、ファインチューニング用の機械学習モデルは、LoRA又はLoConであるが、これらに限定されない。
【0061】
合成用の拡散モデルには、拡張モデルとして、拡散モデルによる画像の生成を制御するための制御用の機械学習モデルを組み込むことができる。例えば、制御用の機械学習モデルは、ControlNetであるが、これに限定されない。一例では、制御用の機械学習モデルは、Canny等のエッジ検出の機能を有する。この例では、制御用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置されていない領域のエッジを示す複数の画像及び物体を配置されていない領域を表す複数の画像を含むことができる。物体を配置されていない領域のエッジを示す画像は、領域のエッジが分かるようなものであればよい。そのため、物体を配置されていない領域のエッジを示す画像は、物体を配置されていない領域を表す画像に基づいてCannyのようなエッジ検出モデルで簡単に生成することができるが、これに限定されない。物体を配置されていない領域のエッジを示す画像は、フリーハンドでエッジを描いたものでもよい。例えば、学習データは、物体を配置されていない領域のエッジを示す画像と物体を配置されていない領域を表す画像をペアにした100枚ずつの画像を含んでいてもよい。2種類の画像をペアで機械学習させることで、エッジから領域を描く方法をニューラルネットワークを使って機械学習させる。制御用の機械学習モデルは、入力されたエッジを示す画像に基づいて、エッジを保持した画像であって、物体を配置されていない領域を表す画像を出力するモデルである。このように、合成用の拡散モデルには、物体の保持が得意なエッジ検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。制御用の機械学習モデルとしてエッジ検出の機能を有するモデルを用いるのは、物体の輪郭と画像合成により生じる違和感の線とを区別するためである。画像合成により生じる違和感は、はっきりとした線として現れてこない。そのため、はっきりとした線である物体のエッジを制御用の機械学習モデルとして画像生成することで、画像合成により生じる違和感を消すことができる。例えば、ControlNetには強度というパラメータがあり、物体のエッジが出るくらいの閾値以上にすれば、違和感は考慮されず領域の背景として描画される。別の例では、制御用の機械学習モデルは、物体を配置されていない領域から物体を配置された領域へ変換する機能を有する。この例では、制御用の機械学習モデルは、学習データを機械学習することにより生成されたプログラムモジュールである。学習データは、物体を配置された領域を表す複数の画像を含むことができる。制御用の機械学習モデルは、入力された物体を配置されていない領域を表す画像に基づいて物体を配置された領域を表す画像を出力する。このように、合成用の拡散モデルには、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれている。
【0062】
ここでは、機械学習モデル記憶領域132が上述の各機械学習モデルを記憶する例について説明したが、これに限定されない。各機械学習モデルは、種類毎に異なる機械学習モデル記憶領域に記憶されてもよい。この例では、補助記憶デバイス13に含まれる各機械学習モデル記憶領域は、記憶部の一例である。
【0063】
通信インタフェース14は、ネットワークNWにより定義される通信プロトコルを使用してサーバ1を他の機器と通信可能に接続する種々のインタフェースを含む。
【0064】
なお、サーバ1のハードウェア構成は、上述の構成に限定されるものではない。サーバ1は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
【0065】
処理回路11よって実現される各部について説明する。
処理回路11は、消去処理部111、配置処理部112及び合成処理部113を実現する。処理回路11によって実現される各部は、各機能ということもできる。処理回路11によって実現される各部は、処理回路11及びメインメモリ12を含む制御部によって実現されるということもできる。
消去処理部111は、後述する消去処理を実行する。
配置処理部112は、後述する配置処理を実行する。
合成処理部113は、後述する合成処理を実行する。
【0066】
(動作例)
次に、以上のように構成されたサーバ1の動作例を説明する。
なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
【0067】
図2は、サーバ1による処理の一例を示すフローチャートである。
【0068】
消去処理部111は、消去処理を実行する(ステップS1)。消去処理は、消去対象画像に基づいて、物体消去用の画像生成モデルを用いて物体消去画像を生成することを含む。消去処理の典型的な処理例については後述する。
【0069】
配置処理部112は、配置処理を実行する(ステップS2)。配置処理は、配置対象画像に基づいて、物体配置用の画像生成モデルを用いて物体配置画像を生成することを含む。処理回路11が消去処理の実行後に配置処理を実行する場合、配置対象画像は、物体消去画像である。処理回路11は、消去処理を省略してもよい。この場合、配置対象画像は、物体消去画像ではなく、領域を撮影した写真の画像である。配置処理の典型的な処理例については後述する。
【0070】
合成処理部113は、合成処理を実行する(ステップS3)。合成処理は、配置対象画像及び物体配置画像に基づいて合成画像を生成することを含む。合成処理は、合成画像に基づいて、合成用の画像生成モデルを用いて馴染ませ画像を生成することを含む。合成処理の典型的な処理例については後述する。
【0071】
図2には、処理回路11が消去処理、配置処理及び合成処理を実行する例が示されているが、これに限定されない。処理回路11は、消去処理を実行するが、配置処理及び合成処理を実行しなくてもよい。処理回路11は、消去処理を実行することなく、配置処理及び合成処理を実行してもよい。処理回路11は、少なくとも配置処理を実行するが、合成処理を実行しなくてもよい。処理回路11は、合成処理において、合成画像の生成を実行するが、馴染ませ画像の生成を実行しなくてもよい。
【0072】
処理回路11は、通信インタフェースを介して、サーバ1で生成された出力画像を端末2に送信する。例えば、出力画像は、物体消去画像又は配置対象画像に配置されていない1つ以上の物体を配置された領域を表す画像であるが、これら以外のサーバ1で生成された画像でもよい。配置対象画像に配置されていない1つ以上の物体を配置された領域を表す画像は、物体配置画像、合成画像又は馴染ませ画像である。端末2は、出力画像をサーバ1から受信する。端末2は、サーバ1からの出力画像に基づいて表示デバイスに画像を表示させる。
【0073】
図3は、サーバ1による消去処理の一例を示すフローチャートである。
【0074】
消去処理部111は、消去対象画像を画像記憶領域131から取得する(ステップS101)。
【0075】
消去処理部111は、消去対象画像における物体を検出する(ステップS102)。ステップS102では、例えば、消去処理部111は、物体検出モデルを用いて消去対象画像における物体を検出する。ここでは、消去処理部111は、物体検出モデルに消去対象画像を入力する。物体検出モデルは、消去対象画像に基づいて、消去対象画像において検出された物体の検出結果を生成し、検出結果を出力する。消去処理部111は、物体検出モデルから出力された検出結果を取得する。消去処理部111が消去対象画像における物体を検出することは、消去処理部111が物体検出モデルに消去対象画像を入力することを含む。消去処理部111が消去対象画像における物体を検出することは、消去処理部111が物体検出モデルから出力された検出結果を取得することを含む。
【0076】
消去処理部111は、消去対象画像における物体検出に基づいて、消去対象設定画像を生成する(ステップS103)。ステップS103では、例えば、消去処理部111は、消去対象画像における検出結果に基づいて、消去対象画像において1つ以上の消去対象の物体にマスクを描画する。消去処理部111は、端末2を介して設定された消去対象の物体の種類に基づいて、消去対象画像において1つ以上の消去対象の物体にマスクを描画することができる。消去処理部111は、マスクの描画に基づいて、消去対象設定画像を生成する。
【0077】
消去処理部111は、消去対象画像及び消去対象設定画像に基づいて、物体消去画像を生成する(ステップS104)。ステップS104では、例えば、消去処理部111は、物体消去用の画像生成モデルを用いて物体消去画像を生成する。ここでは、消去処理部111は、物体消去用の画像生成モデルに消去対象画像及び消去対象設定画像を入力する。物体消去用の画像生成モデルは、消去対象設定画像を参照し、消去対象画像に基づいて物体消去画像を生成し、物体消去画像を出力する。例えば、物体消去用の画像生成モデルは、消去対象画像において、消去対象の物体の部分をインペインティングし、物体消去画像を生成する。上述のように、物体消去用の画像生成モデルには、物体消去がより得意なファインチューニング用の機械学習モデルが組み込まれている。物体消去用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域の形状を保持する効果を得ることができる。これは、ファインチューニング用の機械学習モデルが、領域の形状が分かる画像を機械学習することにより生成されているからである。物体消去用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域の形状がどういうものであるのかといった情報を使って物体消去画像を生成することができる。物体消去用の画像生成モデルは、画像全体を見て消去対象の物体の部分のみを描き変えるが、ファインチューニング用の機械学習モデルを用いることで、余計な物体で隠れているが本来は直線となっているはずとされる部分に対して、正しい直線を描くことができる。消去処理部111は、物体消去用の画像生成モデルから出力された物体消去画像を取得する。消去処理部111が物体消去画像を生成することは、消去処理部111が物体消去用の画像生成モデルに消去対象画像及び消去対象設定画像を入力することを含む。消去処理部111が物体消去画像を生成することは、消去処理部111が物体消去用の画像生成モデルから出力された物体消去画像を取得することを含む。消去処理部111は、物体消去画像を画像記憶領域131に保存する。
【0078】
消去処理部111は、物体消去画像を確定するか否かを判定する(ステップS105)。ステップS105では、例えば、消去処理部111は、物体消去画像において消去対象の物体が消去されていれば、物体消去画像を確定すると判定する。消去されている程度は、適宜設定可能である。
【0079】
消去処理部111が物体消去画像を確定すると判定する場合(ステップS105、YES)、処理は終了する。消去処理部111が物体消去画像を確定しないと判定する場合(ステップS105、NO)、処理は、ステップS105からステップS106へ遷移する。
【0080】
消去処理部111は、物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成する(ステップS106)。ステップS106では、例えば、消去処理部111は、幾何学的特徴検出モデルを用いて物体消去用の特徴検出画像を生成する。ここでは、消去処理部111は、幾何学的特徴検出モデルに物体消去画像を入力する。幾何学的特徴検出モデルは、物体消去画像に基づいて物体消去用の特徴検出画像を生成し、物体消去用の特徴検出画像を出力する。消去処理部111は、幾何学的特徴検出モデルから出力された物体消去用の特徴検出画像を取得する。消去処理部111が物体消去用の特徴検出画像を生成することは、消去処理部111が幾何学的特徴検出モデルに物体消去画像を入力することを含む。消去処理部111が物体消去用の特徴検出画像を生成することは、消去処理部111が幾何学的特徴検出モデルから出力された物体消去用の特徴検出画像を取得することを含む。
【0081】
消去処理部111は、物体消去用の特徴検出画像、物体消去用の特徴検出画像の生成元の物体消去画像及び消去対象設定画像に基づいて、新たに物体消去画像を生成する(ステップS107)。以下では、物体消去用の特徴検出画像の生成元の物体消去画像は、元の物体消去画像ともいう。新たに生成される物体消去画像は、新たな物体消去画像ともいう。ステップS107では、例えば、消去処理部111は、物体消去用の画像生成モデルを用いて物体消去画像を生成する。ここでは、消去処理部111は、物体消去用の画像生成モデルに物体消去用の特徴検出画像及び元の物体消去画像を入力する。物体消去用の画像生成モデルは、物体消去用の特徴検出画像及び消去対象設定画像を参照し、元の物体消去画像に基づいて新たな物体消去画像を生成し、新たな物体消去画像を出力する。例えば、物体消去用の画像生成モデルは、元の物体消去画像において、消去対象の物体の部分をインペインティングし、物体消去画像を生成する。上述のように、物体消去用の画像生成モデルには、物体消去がより得意なファインチューニング用の機械学習モデルが組み込まれている。上述のように、物体消去用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域の形状を保持する効果を得ることができる。上述のように、物体消去用の画像生成モデルには、幾何学的特徴検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。物体消去用の画像生成モデルは、この制御用の機械学習モデルを用いることで、物体消去用の特徴検出画像による幾何学的特徴を制御し、領域の形状を保持することができる。ファインチューニング用の機械学習モデルとこの制御用の機械学習モデルの組み合わせにより、物体消去用の画像生成モデルには、ファインチューニング用の機械学習モデルにより本来は直線となっているはずとされる部分、かつ、制御用の機械学習モデルにより直線であると制御されている部分に対して、正しい境界線を描くことができる。物体消去用の画像生成モデルは、消去対象設定画像も参照し、元の物体消去画像に基づいて新たな物体消去画像を生成してもよい。消去処理部111は、物体消去用の画像生成モデルから出力された新たな物体消去画像を取得する。消去処理部111が新たな物体消去画像を生成することは、消去処理部111が物体消去用の画像生成モデルに物体消去用の特徴検出画像及び元の物体消去画像を入力することを含む。消去処理部111が物体消去画像を生成することは、消去処理部111が物体消去用の画像生成モデルから出力された新たな物体消去画像を取得することを含む。消去処理部111は、新たに生成した物体消去画像を画像記憶領域131に保存する。なお、消去処理部111は、消去対象設定画像を用いることなく、物体消去用の特徴検出画像及び元の物体消去画像に基づいて、新たな物体消去画像を生成してもよい。この例では、物体消去用の画像生成モデルは、物体消去用の特徴検出画像を参照し、元の物体消去画像に基づいてi2iにより新たな物体配置画像を生成してもよい。
【0082】
上述のように、消去処理部111は、消去対象画像における物体検出に基づいて、消去対象設定画像を生成し、消去対象画像及び消去対象設定画像に基づいて、物体消去画像を生成することができる。
消去処理部111は、このような処理により、ユーザが消去対象画像において消去対象の物体を指定する作業を必要とすることなく、自動で物体消去画像を生成することができる。
【0083】
上述のように、消去処理部111は、物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成し、少なくとも物体消去用の特徴検出画像及び元の物体消去画像に基づいて、新たな物体消去画像を生成することができる。典型例では、消去処理部111は、物体消去用の特徴検出画像、元の物体消去画像及び消去対象設定画像に基づいて、新たな物体消去画像を生成することができる。
消去処理部111は、物体消去用の特徴検出画像を用いることで、消去対象画像で表される領域の形状を保持しつつ、必要な家具が消去されたり、不要な家具が残ったりしない物体消去画像を生成することができる。
【0084】
上述のように、消去処理部111は、ファインチューニング用の機械学習モデル及び制御用の機械学習モデルの一方又は両方が組み込まれた物体消去用の画像生成モデルを用いて、物体消去画像を生成することができる。
消去処理部111は、このような物体消去用の画像生成モデルを用いることで、消去対象画像で表される領域の形状を保持しつつ、必要な家具が消去されたり、不要な家具が残ったりしない物体消去画像を生成することができる。
【0085】
図4は、サーバ1による配置処理の一例を示すフローチャートである。
【0086】
配置処理部112は、配置対象画像を画像記憶領域131から取得する(ステップS201)。
【0087】
配置処理部112は、配置対象画像における幾何学的特徴検出に基づいて、物体配置用の特徴検出画像を生成する(ステップS202)。ステップS202では、例えば、配置処理部112は、幾何学的特徴検出モデルを用いて物体配置用の特徴検出画像を生成する。ここでは、配置処理部112は、幾何学的特徴検出モデルに配置対象画像を入力する。幾何学的特徴検出モデルは、配置対象画像に基づいて物体配置用の特徴検出画像を生成し、物体配置用の特徴検出画像を出力する。配置処理部112は、幾何学的特徴検出モデルから出力された物体配置用の特徴検出画像を取得する。配置処理部112が物体配置用の特徴検出画像を生成することは、配置処理部112が幾何学的特徴検出モデルに配置対象画像を入力することを含む。配置処理部112が物体配置用の特徴検出画像を生成することは、配置処理部112が幾何学的特徴検出モデルから出力された物体配置用の特徴検出画像を取得することを含む。
【0088】
配置処理部112は、保持対象の物体の種類が設定されているか否かを判定する(ステップS203)。保持対象の物体の種類が設定されている場合(ステップS203、YES)、処理は、ステップS203からステップS204へ遷移する。保持対象の物体の種類が設定されていない場合(ステップS203、NO)、処理は、ステップS203からステップS206へ遷移する。
【0089】
配置処理部112は、配置対象画像における物体を検出する(ステップS204)。ステップS204では、例えば、配置処理部112は、物体検出モデルを用いて配置対象画像における物体を検出する。ここでは、配置処理部112は、物体検出モデルに配置対象画像を入力する。物体検出モデルは、配置対象画像に基づいて、配置対象画像において検出された物体の検出結果を生成し、検出結果を出力する。配置処理部112は、物体検出モデルから出力された検出結果を取得する。配置処理部112が配置対象画像における物体を検出することは、配置処理部112が物体検出モデルに配置対象画像を入力することを含む。配置処理部112が配置対象画像における物体を検出することは、配置処理部112が物体検出モデルから出力された検出結果を取得することを含む。
【0090】
配置処理部112は、配置対象画像における物体検出に基づいて、保持対象設定画像を生成する(ステップS205)。ステップS205では、例えば、配置処理部112は、配置対象画像における検出結果に基づいて、配置対象画像において1つ以上の保持対象の物体にマスクを描画する。配置処理部112は、端末2を介して設定された保持対象の物体の種類に基づいて、配置対象画像において1つ以上の保持対象の物体にマスクを描画することができる。
【0091】
配置処理部112は、物体配置画像の生成に参考画像を使うか否かを判定する(ステップS206)。参考画像を使うか否かは、端末2を介して設定されてもよい。配置処理部112が参考画像を使うと判定する場合(ステップS206、YES)、処理は、ステップS206からステップS207へ遷移する。配置処理部112が参考画像を使わないと判定する場合(ステップS206、NO)、処理は、ステップS206からステップS209へ遷移する。
【0092】
配置処理部112は、第1の参考画像があるか否かを判定する(ステップS207)。第1の参考画像がある場合(ステップS207、YES)、処理は、ステップS207からステップS209へ遷移する。第1の参考画像がない場合(ステップS207、NO)、処理は、ステップS207からステップS208へ遷移する。
【0093】
配置処理部112は、第2の参考画像を生成する(ステップS208)。ステップS208では、例えば、配置処理部112は、参考画像用の画像生成モデルを用いて参考画像を生成する。ここでは、配置処理部112は、参考画像用の画像生成モデルにテキストデータを入力する。テキストデータは、端末2の入力操作に基づくデータでもよい。参考画像用の画像生成モデルは、テキストデータに基づいて第2の参考画像を生成し、第2の参考画像を出力する。例えば、参考画像用の画像生成モデルは、テキストデータに基づいてt2iにより第2の参考画像を生成する。上述のように、参考画像用の画像生成モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成されている。そのため、参考画像用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域に対して正しい比率の物体を配置された第2の参考画像を生成することができる。配置処理部112は、参考画像用の画像生成モデルから出力された第2の参考画像を取得する。配置処理部112が第2の参考画像を生成することは、配置処理部112が参考画像用の画像生成モデルにテキストデータを入力することを含む。配置処理部112が第2の参考画像を生成することは、配置処理部112が参考画像用の画像生成モデルから出力された第2の参考画像を取得することを含む。配置処理部112は、第2の参考画像を画像記憶領域131に保存する。
【0094】
配置処理部112は、物体配置用の特徴検出画像に基づいて、物体配置画像を生成する(ステップS209)。ステップS209では、例えば、配置処理部112は、物体配置用の画像生成モデルを用いて物体配置画像を生成する。ここでは、配置処理部112は、物体配置用の画像生成モデルに物体配置用の特徴検出画像を入力する。物体配置用の画像生成モデルは、物体配置用の特徴検出画像を参照して物体配置画像を生成し、物体配置画像を出力する。配置処理部112は、物体配置用の画像生成モデルから出力された物体配置画像を取得する。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルに物体配置用の特徴検出画像を入力することを含む。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルから出力された物体配置画像を取得することを含む。配置処理部112は、物体配置画像を画像記憶領域131に保存する。
【0095】
第1の配置態様は、保持対象設定画像及び参考画像を使わない態様である。配置処理部112は、物体配置用の特徴検出画像及びテキストデータに基づいて、物体配置画像を生成する。第1の配置態様では、配置処理部112は、物体配置用の画像生成モデルに物体配置用の特徴検出画像及びテキストデータを入力する。テキストデータは、端末2の入力操作に基づくデータでもよい。物体配置用の画像生成モデルは、物体配置用の特徴検出画像を参照し、テキストデータに基づいて物体配置画像を生成し、物体配置画像を出力する。例えば、物体配置用の画像生成モデルは、テキストデータに基づいてt2iにより物体配置画像を生成する。配置処理部112は、物体配置用の画像生成モデルから出力された物体配置画像を取得する。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルに物体配置用の特徴検出画像及びテキストデータを入力することを含む。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルから出力された物体配置画像を取得することを含む。
【0096】
第2の配置態様は、保持対象設定画像を使わないが、参考画像を使う態様である。配置処理部112は、物体配置用の特徴検出画像及び参考画像に基づいて、物体配置画像を生成する。第2の配置態様では、配置処理部112は、物体配置用の画像生成モデルに物体配置用の特徴検出画像及び参考画像を入力する。参考画像は、第1の参考画像でもよいし、第2の参考画像でもよい。物体配置用の画像生成モデルは、物体配置用の特徴検出画像を参照し、参考画像に基づいて物体配置画像を生成し、物体配置画像を出力する。例えば、物体配置用の画像生成モデルは、参考画像に基づいてi2iにより物体配置画像を生成する。配置処理部112は、物体配置用の画像生成モデルから出力された物体配置画像を取得する。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルに物体配置用の特徴検出画像及び参考画像を入力することを含む。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルから出力された物体配置画像を取得することを含む。なお、配置処理部112は、物体配置用の特徴検出画像及参考画像に加えてテキストデータに基づいて、物体配置画像を生成してもよい。
【0097】
第3の配置態様は、保持対象設定画像を使うが、参考画像を使わない態様である。配置処理部112は、物体配置用の特徴検出画像及び保持対象設定画像に基づいて、物体配置画像を生成する。第3の配置態様では、配置処理部112は、物体配置用の画像生成モデルに物体配置用の特徴検出画像及び保持対象設定画像を入力する。物体配置用の画像生成モデルは、物体配置用の特徴検出画像を参照し、保持対象設定画像に基づいて物体配置画像を生成し、物体配置画像を出力する。例えば、物体配置用の画像生成モデルは、保持対象設定画像において、保持対象の物体以外の部分をインペインティングし、物体配置画像を生成する。物体配置画像で表わされる領域は、保持対象の物体を配置された領域である。配置処理部112は、物体配置用の画像生成モデルから出力された物体配置画像を取得する。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルに物体配置用の特徴検出画像及び保持対象設定画像を入力することを含む。配置処理部112が物体配置画像を生成することは、配置処理部112が物体配置用の画像生成モデルから出力された物体配置画像を取得することを含む。なお、配置処理部112は、物体配置用の特徴検出画像及び保持対象設定画像に加えてテキストデータに基づいて、物体配置画像を生成してもよい。
【0098】
上述のように、物体配置用の画像生成モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成されている。そのため、物体配置用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域に対して正しい比率の物体を配置された物体配置画像を生成することができる。上述のように、物体配置用の画像生成モデルには、幾何学的特徴検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。物体配置用の画像生成モデルは、この制御用の機械学習モデルを用いることで、物体配置用の特徴検出画像による幾何学的特徴を制御し、領域の形状を保持することができる。上述のように、物体配置用の画像生成モデルには、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれている。物体配置用の画像生成モデルは、この制御用の機械学習モデルを用いることで、より物体を配置し易くなる。
【0099】
上述のように、配置処理部112は、物体配置用の特徴検出画像に基づいて、物体配置画像を生成することができる。
配置処理部112は、物体配置用の特徴検出画像を用いることで、配置対象画像で表される領域の形状を保持しつつ、配置対象領域に新たな物体を配置した物体配置画像を生成することができる。
【0100】
上述のように、配置処理部112は、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれた物体配置用の画像生成モデルを用いて、物体配置画像を生成することができる。
配置処理部112は、このような物体配置用の画像生成モデルを用いることで、領域に対して正しい比率の物体を配置された物体配置画像を生成することができる。例えば、配置処理部112は、領域に対して大きすぎる等の常識外の家具を配置した画像を生成することを防ぐことができる。
【0101】
上述のように、配置処理部112は、幾何学的特徴検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれた物体配置用の画像生成モデルを用いて、物体配置画像を生成することができる。
配置処理部112は、このような物体配置用の画像生成モデルを用いることで、物体配置用の特徴検出画像による幾何学的特徴を制御し、領域の形状を保持することができる。
【0102】
上述のように、配置処理部112は、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれた物体配置用の画像生成モデルを用いて、物体配置画像を生成することができる。
配置処理部112は、このような物体配置用の画像生成モデルを用いることで、より物体を配置し易くなる。
【0103】
上述のように、配置処理部112は、物体配置用の特徴検出画像及びテキストデータに基づいて、物体配置画像を生成することができる。
配置処理部112は、テキストデータを用いることで、自由度が高く、物体配置のバリエーションが多い物体配置画像を生成することができる。
【0104】
上述のように、配置処理部112は、物体配置用の特徴検出画像及び参考画像に基づいて、物体配置画像を生成することができる。
配置処理部112は、参考画像を用いることで、参考画像の好みが反映された物体を配置した物体配置画像を生成し易くすることができる。
【0105】
上述のように、配置処理部112は、物体配置用の特徴検出画像及び保持対象設定画像に基づいて、物体配置画像を生成することができる。
配置処理部112は、保持対象設定画像を用いることにより、配置対象画像において残したい物体を保持した物体配置画像を生成することができる。
【0106】
図5は、サーバ1による合成処理の一例を示すフローチャートである。
【0107】
合成処理部113は、物体配置画像を画像記憶領域131から取得する(ステップS301)。
【0108】
合成処理部113は、物体配置画像における物体を検出する(ステップS302)。ステップS302では、合成処理部113は、物体検出モデルを用いて物体配置画像における物体を検出する。ここでは、合成処理部113は、物体検出モデルに物体配置画像を入力する。物体検出モデルは、物体配置画像に基づいて、物体配置画像において検出された物体の検出結果を生成し、検出結果を出力する。合成処理部113は、物体検出モデルから出力された検出結果を取得する。合成処理部113が物体配置画像における物体を検出することは、合成処理部113が物体検出モデルに物体配置画像を入力することを含む。合成処理部113が物体配置画像における物体を検出することは、合成処理部113が物体検出モデルから出力された検出結果を取得することを含む。
【0109】
合成処理部113は、物体配置画像における物体検出に基づいて、合成対象設定画像を生成する(ステップS303)。ステップS303では、例えば、合成処理部113は、物体配置画像における検出結果に基づいて、物体配置画像において1つ以上の合成対象の物体にマスクを描画する。合成処理部113は、マスクの描画に基づいて、合成対象設定画像を生成する。
【0110】
合成処理部113は、配置対象画像及び合成対象設定画像に基づいて、合成画像を生成する(ステップS304)。ステップS304では、例えば、合成処理部113は、配置対象画像に、合成対象設定画像においてマスクを描画された合成対象の物体を合成する。合成処理部113は、合成に基づいて、合成画像を生成する。合成処理部113は、合成画像を画像記憶領域131に保存する。
【0111】
合成処理部113は、合成画像におけるエッジ検出に基づいて、エッジ検出画像を生成する(ステップS305)。ステップS305では、例えば、合成処理部113は、エッジ検出モデルを用いてエッジ検出画像を生成する。ここでは、合成処理部113は、エッジ検出モデルに合成画像を入力する。エッジ検出モデルは、合成画像に基づいてエッジ検出画像を生成し、エッジ検出画像を出力する。合成処理部113は、エッジ検出モデルから出力されたエッジ検出画像を取得する。合成処理部113がエッジ検出画像を生成することは、合成処理部113がエッジ検出モデルに合成画像を入力することを含む。合成処理部113がエッジ検出画像を生成することは、エッジ検出モデルから出力されたエッジ検出画像を取得することを含む。
【0112】
合成処理部113は、合成画像における物体を検出する(ステップS306)。ステップS306では、合成処理部113は、物体検出モデルを用いて合成画像における物体を検出する。ここでは、合成処理部113は、物体検出モデルに合成画像を入力する。物体検出モデルは、合成画像に基づいて、合成画像において検出された物体の検出結果を生成し、検出結果を出力する。合成処理部113は、物体検出モデルから出力された検出結果を取得する。合成処理部113が合成画像における物体を検出することは、合成処理部113が物体検出モデルに合成画像を入力することを含む。合成処理部113が合成画像における物体を検出することは、合成処理部113が物体検出モデルから出力された検出結果を取得することを含む
合成処理部113は、合成画像における物体検出に基づいて、外縁設定画像を生成する(ステップS307)。ステップS307では、例えば、合成処理部113は、合成画像における検出結果に基づいて、合成画像において合成された物体にマスクを描画する。合成処理部113は、マスクの描画に基づいて、外縁設定画像を生成する。
【0113】
合成処理部113は、エッジ検出画像及び外縁設定画像に基づいて、馴染ませ画像を生成する(ステップS308)。ステップS308では、例えば、合成処理部113は、合成用の画像生成モデルを用いて馴染ませ画像を生成する。ここでは、合成処理部113は、合成用の画像生成モデルにエッジ検出画像及び外縁設定画像を入力する。合成用の画像生成モデルは、エッジ検出画像を参照し、外縁設定画像に基づいて馴染ませ画像を生成し、馴染ませ画像を出力する。例えば、合成用の画像生成モデルは、外縁設定画像において、マスクを描画された物体の外縁の部分をインペインティングし、馴染ませ画像を生成する。上述のように、合成用の画像生成モデルには、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれている。ファインチューニング用の機械学習モデルは、領域に対して正しい大きさの物体を配置された画像を機械学習することにより生成されている。そのため、合成用の画像生成モデルは、ファインチューニング用の機械学習モデルを用いることで、領域に対して正しい比率の物体を配置された馴染ませ画像を生成することができる。上述のように、合成用の画像生成モデルには、エッジ検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれている。合成用の画像生成モデルは、この制御用の機械学習モデルを用いることで、エッジ検出画像によるエッジを制御し、物体の形状を保持することができる。上述のように、合成用の画像生成モデルには、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれている。合成用の画像生成モデルは、この制御用の機械学習モデルを用いることで、より物体を配置し易くなる。合成処理部113は、合成用の画像生成モデルから出力された馴染ませ画像を取得する。合成処理部113が馴染ませ画像を生成することは、合成処理部113が合成用の画像生成モデルにエッジ検出画像及び外縁設定画像を入力することを含む。合成処理部113が馴染ませ画像を生成することは、合成処理部113が合成用の画像生成モデルから出力された馴染ませ画像を取得することを含む。合成処理部113は、馴染ませ画像を画像記憶領域131に保存する。
【0114】
上述のように、合成処理部113は、配置対象画像及び合成対象設定画像に基づいて、合成画像を生成することができる。
合成処理部113は、このような処理により、配置対象画像に配置されていない物体を配置しつつ、配置対象画像に配置されている床、壁及び天井等の色及び模様、窓等の詳細な形状、並びに、その他消去すべきではない設備等を保持した合成画像を生成することができる。
【0115】
上述のように、合成処理部113は、エッジ検出画像及び外縁設定画像に基づいて、馴染ませ画像を生成することができる。
合成処理部113は、エッジ検出画像を用いることで、エッジ検出画像で表される物体の形状を保持しつつ、境界を馴染ませた馴染ませ画像を生成することができる。
【0116】
上述のように、合成処理部113は、物体配置がより得意なファインチューニング用の機械学習モデルが組み込まれた合成用の画像生成モデルを用いて、馴染ませ画像を生成することができる。
合成処理部113は、このような合成用の画像生成モデルを用いることで、領域に対して正しい比率の物体を配置された馴染ませ画像を生成することができる。
【0117】
上述のように、合成処理部113は、エッジ検出の機能を有するモデルが制御用の機械学習モデルとして組み込まれた合成用の画像生成モデルを用いて、馴染ませ画像を生成することができる。
合成処理部113は、このような合成用の画像生成モデルを用いることで、エッジ検出画像によるエッジを制御し、物体の形状を保持することができる。
【0118】
上述のように、合成処理部113は、物体を配置されていない領域から物体を配置された領域へ変換する機能を有するモデルが制御用の機械学習モデルとして組み込まれた合成用の画像生成モデルを用いて、馴染ませ画像を生成することができる。
合成処理部113は、このような合成用の画像生成モデルを用いることで、より物体を配置し易くなる。
【0119】
(画像例)
端末2の表示デバイスに表示される画像の例について説明する。
【0120】
図6は、消去対象画像の一例を示す図である。
消去対象画像は、家具等の物体を配置された領域を表す写真の画像である。
【0121】
図7は、消去対象設定画像の一例を示す図である。
消去対象設定画像では、1つ以上の消去対象の物体にマスクが描画されている。
【0122】
図8は、物体消去画像の一例を示す図である。
物体消去画像では、消去対象の物体は消去されている。
ここでは、物体消去画像は、配置対象画像に相当するものとする。
【0123】
図9は、物体配置用の特徴検出画像の一例を示す図である。
物体配置用の特徴検出画像では、配置対象画像から検出された直線が示されている。
【0124】
なお、物体消去用の特徴検出画像については図示していないが、物体消去用の特徴検出画像は、物体配置用の特徴検出画像と同様に、物体消去画像から検出された直線が示される画像である。
【0125】
図10は、参考画像の一例を示す図である。
参考画像は、消去対象画像とは異なる家具等の物体を配置された領域を表す画像である。
【0126】
図11は、保持対象設定画像の一例を示す図である。
保持対象設定画像では、1つ以上の保持対象の物体にマスクが描画されている。
【0127】
図12は、物体配置画像の一例を示す図である。
物体配置画像では、ソファ等の配置対象画像に配置されていない1つ以上の物体が配置されている。
【0128】
図13は、合成対象画像の一例を示す図である。
合成対象画像では、1つ以上の合成対象の物体にマスクが描画されている。マスクを描画された物体は、物体配置画像において新たに配置されたソファ等の物体である。
【0129】
図14は、合成画像の一例を示す図である。
合成対象は、配置対象画像に合成対象の物体を合成した画像である。そのため、合成画像では、合成対象の物体以外の照明器具、床及び窓等の物体は、配置対象画像と同じである。
【0130】
図15は、エッジ検出画像の一例を示す図である。
エッジ検出画像では、合成画像から検出されたエッジが示されている。
【0131】
図16は、外縁設定画像の一例を示す図である。
外縁設定画像では、合成画像を生成するために配置対象画像に合成されたソファ等の1つ以上の物体の外縁にマスクが描画されている。
【0132】
図17は、馴染ませ画像の一例を示す図である。
馴染ませ画像では、合成画像を生成するために配置対象画像に合成されたソファ等の1つ以上の物体と他の物体との境界の色は、自然な状態に馴染まされている。
【0133】
実施形態によれば、サーバ1は、物体消去画像のように、消去対象画像で表される領域の形状を保持しつつ、消去対象画像に配置されている物体を消去した新たな画像を容易に生成することができる。
実施形態によれば、サーバ1は、物体配置画像、合成画像又は馴染ませ画像のように、配置対象画像で表される領域の形状を保持しつつ、この領域に適した物体を配置した新たな画像を生成することができる。
【0134】
[他の実施形態]
上述の実施形態では、サーバ1の補助記憶デバイス13が各画像を記憶する例を説明したが、これに限定されない。サーバ1とは異なるサーバは、サーバ1に代えて各画像を記憶してもよい。サーバ1とは異なる複数のサーバは、サーバ1に代えて各画像を分散して記憶してもよい。
【0135】
上述の実施形態では、サーバ1の補助記憶デバイス13が各機械学習モデルを記憶する例を説明したが、これに限定されない。サーバ1とは異なるサーバは、サーバ1に代えて各機械学習モデルを記憶してもよい。サーバ1とは異なる複数のサーバは、サーバ1に代えて各機械学習モデルを分散して記憶してもよい。
【0136】
画像処理装置は、サーバ1を例にして説明したが、これに限定されない。画像処理装置は、サーバ1と同様の機能を備える機器で実現されてもよい。機器は、PC(Personal Computer)、スマートフォン又はタブレット端末等の端末でもよい。
【0137】
画像処理装置は、上述の実施形態で説明したサーバ1のような1つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。
【0138】
上述の実施形態は、装置だけでなく、装置が実行する方法に適用されてもよい。上述の実施形態は、装置のコンピュータに各機能を実行させることが可能なプログラムに適用されてもよい。装置のコンピュータに各機能を実行させることが可能なプログラムは、装置が備える各部の処理を装置のコンピュータに実行させることが可能なプログラムである。上述の実施形態は、プログラムを記憶する記録媒体に適用されてもよい。
【0139】
処理回路を構成する1つ以上の回路のそれぞれは、複数の処理のうちの1つ以上の処理を実行する。処理回路が単一の回路で構成される場合、単一の回路は、複数の処理の全部を実行する。処理回路が複数の回路で構成される場合、複数の回路のそれぞれは、複数の処理のうちの一部を実行する。複数の処理のうちの一部は、複数の処理のうちの1つでもよいし、複数の処理のうちの2つ以上でもよい。処理回路が複数の回路で構成される場合、複数の回路は、1つの装置に含まれていてもよいし、複数の装置に分散していてもよい。
【0140】
プログラムは、実施形態に係る装置に記憶された状態で譲渡されてよいし、装置に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、CD-ROM、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。
【0141】
要するにこの発明は、本実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、本実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、本実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合わせてもよい。
【0142】
上述のいくつかの実施形態は、以下のように表現されてもよい。
[1] 物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、物体配置用の特徴検出画像を生成し、
前記物体配置用の特徴検出画像に基づいて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成する、
配置処理部を備える画像処理装置。
[2] 前記配置処理部は、前記物体配置用の特徴検出画像及びテキストデータに基づいて、前記物体配置画像を生成する、[1]に記載の画像処理装置。
[3] 前記配置処理部は、前記物体配置用の特徴検出画像及び物体を配置された領域を表す参考画像に基づいて、前記物体配置画像を生成する、[1]に記載の画像処理装置。
[4] 前記配置処理部は、
前記配置対象画像における物体検出に基づいて、前記配置対象画像において保持対象の物体を設定し、
前記物体配置用の特徴検出画像及び前記保持対象の物体の設定に基づいて、前記物体配置画像を生成し、
前記物体配置画像で表わされる領域は、前記保持対象の物体を配置された領域である、
[1]に記載の画像処理装置。
[5] 前記物体配置画像における物体検出に基づいて、前記物体配置画像において合成対象の物体を設定し、
前記配置対象画像及び前記合成対象の物体の設定に基づいて、前記配置対象画像に前記合成対象の物体を合成した合成画像を生成する、
合成処理部をさらに備える、[1]に記載の画像処理装置。
[6] 前記合成処理部は、
前記合成画像におけるエッジ検出に基づいて、エッジ検出画像を生成し、
前記合成画像において合成された物体の外縁を設定し、
前記エッジ検出画像及び前記外縁の設定に基づいて、前記合成画像において前記外縁を馴染ませた画像を生成する、
[5]に記載の画像処理装置。
[7] 前記配置処理部は、物体を配置された領域を表す複数の画像を含む学習データを機械学習することにより生成されたファインチューニング用の機械学習モデルが組み込まれた物体配置用の画像生成モデルを用いて、前記物体配置画像を生成する、
[1]に記載の画像処理装置。
[8] 前記配置処理部は、入力された物体を配置されていない領域を表す画像に基づいて物体を配置された領域を表す画像を出力する制御用の機械学習モデルが組み込まれた物体配置用の画像生成モデルを用いて、前記物体配置画像を生成する、
[1]に記載の画像処理装置。
[9] 物体を消去する対象の画像であって、物体を配置された領域を表す消去対象画像における物体検出に基づいて、前記消去対象画像において消去対象の物体を設定し、
前記消去対象画像及び前記消去対象の物体の設定に基づいて、前記消去対象画像から前記消去対象の物体を消去した物体消去画像を生成する、
消去処理部をさらに備え、
前記配置対象画像は、前記消去処理部により生成された物体消去画像である、
[1]から[8]の何れかに記載の画像処理装置。
[10] 前記消去処理部は、
前記物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成し、
前記物体消去用の特徴検出画像及び前記物体消去用の特徴検出画像の生成元の物体消去画像に基づいて、新たな物体消去画像を生成する、
[9]に記載の画像処理装置。
[11] 前記消去処理部は、物体を配置されていない領域を表す複数の画像を含む学習データを機械学習することにより生成されたファインチューニング用の機械学習モデルが組み込まれた物体消去用の画像生成モデルを用いて、前記物体消去画像を生成する、
[9]に記載の画像処理装置。
[12] 物体を消去する対象の画像であって、物体を配置された領域を表す消去対象画像における物体検出に基づいて、前記消去対象画像において消去対象の物体を設定し、
前記消去対象画像及び前記消去対象の物体の設定に基づいて、前記消去対象画像から前記消去対象の物体を消去した物体消去画像を生成し、
生成された物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成し、
前記物体消去用の特徴検出画像及び前記物体消去用の特徴検出画像の生成元の物体消去画像に基づいて、新たな物体消去画像を生成する、
消去処理部を備える画像処理装置。
[13] 画像処理装置が実行する画像処理方法であって、
物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、物体配置用の特徴検出画像を生成することと、
前記物体配置用の特徴検出画像に基づいて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成することと、
を備える画像処理方法。
[14] 画像処理装置が実行する画像処理方法であって、
物体を消去する対象の画像であって、物体を配置された領域を表す消去対象画像における物体検出に基づいて、前記消去対象画像において消去対象の物体を設定することと、
前記消去対象画像及び前記消去対象の物体の設定に基づいて、前記消去対象画像から前記消去対象の物体を消去した物体消去画像を生成することと、
生成された物体消去画像における幾何学的特徴検出に基づいて、物体消去用の特徴検出画像を生成することと、
前記物体消去用の特徴検出画像及び前記物体消去用の特徴検出画像の生成元の物体消去画像に基づいて、新たな物体消去画像を生成することと、
を備える画像処理方法。
[15] [1]から[12]の何れかに記載の画像処理装置が備える各部の処理をコンピュータに実行させることが可能な画像処理プログラム。
【符号の説明】
【0143】
1…サーバ、2…端末、11…処理回路、12…メインメモリ、13…補助記憶デバイス、14…通信インタフェース、111…消去処理部、112…配置処理部、113…合成処理部、131…画像記憶領域、132…機械学習モデル記憶領域、S…画像処理システム。
【要約】
【課題】画像で表される領域の形状を保持しつつ、この領域に新たな物体を配置した新たな画像を生成する。
【解決手段】実施形態に係る画像処理装置は、物体を配置する対象の画像であって、領域を表す配置対象画像における幾何学的特徴検出に基づいて、物体配置用の特徴検出画像を生成し、前記物体配置用の特徴検出画像に基づいて、前記配置対象画像に配置されていない物体を配置された領域を表す物体配置画像を生成する、配置処理部を備える。
【選択図】図4
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17