特開2024-58372 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2024-58372プログラム、画像処理方法、及び画像処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024058372

(43)【公開日】2024-04-25

(54)【発明の名称】プログラム、画像処理方法、及び画像処理装置

(51)【国際特許分類】

G06T 7/194 20170101AFI20240418BHJP

G06T 7/00 20170101ALI20240418BHJP

H04N 23/60 20230101ALI20240418BHJP

【ＦＩ】

G06T7/194

G06T7/00 350B

H04N5/232 290

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022165685

(22)【出願日】2022-10-14

(71)【出願人】

【識別番号】000002897

【氏名又は名称】大日本印刷株式会社

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】宮内翼

(72)【発明者】

【氏名】倉持惇彩

(72)【発明者】

【氏名】西本卓也

(72)【発明者】

【氏名】清野創

【テーマコード（参考）】

5C122

5L096

【Ｆターム（参考）】

5C122EA61

5C122FH03

5C122FH09

5C122FH10

5C122FH19

5C122FK12

5C122FK28

5C122FK37

5C122FK40

5C122FK42

5C122FL08

5C122HA48

5C122HB01

5C122HB05

5L096DA01

5L096EA07

5L096FA19

5L096KA04

5L096KA15

5L096MA03

(57)【要約】

【課題】グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することが可能なプログラム等を提供する。
【解決手段】コンピュータは撮影画像を取得する。コンピュータは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した撮影画像を入力して、入力した撮影画像から背景領域が除去された背景除去画像を取得する。そして、コンピュータは、撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した撮影画像及び背景除去画像を入力して、入力した背景除去画像における背景領域が補正された補正後の背景除去画像を取得する。
【選択図】図１

【特許請求の範囲】

【請求項1】

撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータに実行させるプログラム。

【請求項2】

前記背景除去画像における背景領域又は前景領域に対する修正指示を受け付け、
背景除去画像と、前記背景除去画像における背景領域又は前景領域に対する修正指示とを入力した場合に、前記背景領域又は前景領域が修正された修正後の背景除去画像を出力するように学習された第３学習モデルに、取得した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像に対して受け付けた修正指示とを入力して、入力した前記背景除去画像における背景領域又は前景領域が修正された修正後の背景除去画像を取得する
処理を前記コンピュータに実行させる請求項１に記載のプログラム。

【請求項3】

前記撮影画像に含まれる被写体の少なくとも１つを選択し、
前記撮影画像から、選択した被写体を含む被写体領域を抽出し、
抽出した被写体領域を前記第１学習モデルに入力して、前記被写体領域から背景領域が除去された背景除去画像を取得する
処理を前記コンピュータに実行させる請求項１又は２に記載のプログラム。

【請求項4】

前記撮影画像中の被写体を検知し、
検知した被写体に基づいて、選択すべき被写体を特定する
処理を前記コンピュータに実行させる請求項３に記載のプログラム。

【請求項5】

前記撮影画像に含まれる被写体の少なくとも１つを選択し、
前記補正後の背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項１又は２に記載のプログラム。

【請求項6】

前記第１学習モデルは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各物体の領域を示す情報とを出力するように学習されており、
前記第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各被写体の領域を示す情報とを取得する
処理を前記コンピュータに実行させる請求項１又は２に記載のプログラム。

【請求項7】

取得した前記背景除去画像中の各被写体の領域を示す情報に基づいて、前記被写体の少なくとも１つを選択し、
前記背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項６に記載のプログラム。

【請求項8】

前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項１又は２に記載のプログラム。

【請求項9】

複数の合成用画像のいずれかを選択し、
選択した合成用画像に、前記撮影画像から抽出した前記被写体の撮影領域を合成する
処理を前記コンピュータに実行させる請求項８に記載のプログラム。

【請求項10】

前記撮影画像を複数取得し、
複数の前記撮影画像のそれぞれを前記第１学習モデルに入力して、前記撮影画像のそれぞれから背景領域が除去された背景除去画像を取得し、
複数の前記背景除去画像を前記第２学習モデルに入力して、前記背景除去画像のそれぞれにおける背景領域が補正された補正後の背景除去画像を取得し、
前記複数の撮影画像のそれぞれについて、前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出し、
前記複数の撮影画像からそれぞれ抽出された前記被写体の撮影領域を動画として合成用画像に合成する
処理を前記コンピュータに実行させる請求項９に記載のプログラム。

【請求項11】

前記合成用画像に前記被写体の撮影領域を合成する際に前記被写体の撮影領域に行う画像処理、及び前記合成用画像に対する合成位置の入力を受け付け、
前記被写体の撮影領域に対して、受け付けた画像処理を行い、画像処理後の前記被写体の撮影領域を、前記合成用画像中の受け付けた合成位置に合成する
処理を前記コンピュータに実行させる請求項９に記載のプログラム。

【請求項12】

【請求項13】

撮影画像を取得する画像取得部と、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得する背景除去部と、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する補正部と
を備える画像処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、プログラム、画像処理方法、及び画像処理装置に関する。

【背景技術】

【0002】

カメラで撮影した画像から前景となる領域を抽出して他の画像に合成する画像合成が行われている。画像から背景領域を除去する技術として、例えば特許文献１では、グリーンバックを背景にして被写体を撮影することにより、撮影画像から被写体の撮影領域を抽出するクロマキー処理が開示されている。また、事前に取得した画像と、新たに取得した画像との差分を算出することにより、事前に取得した画像には存在しない被写体を抽出する背景差分法による背景除去処理も行われている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－１２７１６５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

クロマキー処理による背景除去を行う場合、グリーンバックを設置する必要があるので、グリーンバックを設置できない場所ではクロマキー処理による背景除去は行えない。また、クロマキー処理による背景除去では、前景となる被写体がグリーンバックと同じ色である場合に、同じ色の領域が背景として除去されるという問題がある。背景差分法による背景除去でも、背景と同じ色の領域は前景領域であっても背景として除去される。また、背景差分法による背景除去では、明度（輝度）が異なる領域についても差分領域として抽出されるので、明るさ等の撮影条件が異なる場合、正確に前景領域を抽出することは難しい。更に、背景差分法による背景除去では、背景画像を事前に撮影する必要があり、撮影位置が変更される都度、背景画像を準備する必要があるという問題がある。

【0005】

本開示は、斯かる事情に鑑みてなされたものであり、その目的とするところは、グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することが可能なプログラム等を提供することにある。

【課題を解決するための手段】

【0006】

本発明の一態様に係るプログラムは、撮影画像を取得し、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する処理をコンピュータに実行させる。

【発明の効果】

【0007】

本発明の一態様では、グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することができる。

【図面の簡単な説明】

【0008】

【図1】画像処理装置の構成例を示すブロック図である。

【図2】学習モデルの構成例を示す説明図である。

【図3】合成画像の提供処理手順の一例を示すフローチャートである。

【図4】背景除去処理の説明図である。

【図5】画面例を示す説明図である。

【図6】画面例を示す説明図である。

【図7】画面例を示す説明図である。

【図8】第３学習モデルの構成例を示す説明図である。

【図9】実施形態２の合成画像の提供処理手順の一例を示すフローチャートである。

【図10】画面例を示す説明図である。

【図11】実施形態３の合成画像の提供処理手順の一例を示すフローチャートである。

【図12】画面例を示す説明図である。

【図13】実施形態３の背景除去処理の説明図である。

【図14】実施形態４の合成画像の提供処理手順の一例を示すフローチャートである。

【図15】画面例を示す説明図である。

【図16】実施形態４の合成画像の提供処理手順の他の例を示すフローチャートである。

【図17】第４学習モデルの構成例を示す説明図である。

【図18】実施形態５の合成画像の提供処理手順の一例を示すフローチャートである。

【図19】画面例を示す説明図である。

【図20】実施形態６の合成画像の提供処理手順の一例を示すフローチャートである。

【図21】画面例を示す説明図である。

【図22】画像処理システムの構成例を示す説明図である。

【発明を実施するための形態】

【0009】

以下に、本開示のプログラム、画像処理方法、及び画像処理装置について、その実施形態を示す図面に基づいて詳述する。

【0010】

（実施形態１）
図１は画像処理装置の構成例を示すブロック図である。本実施形態では、カメラを用いて撮影した撮影画像から被写体の撮影領域を抽出し、抽出した被写体の撮影領域を他の画像に合成する画像処理装置について説明する。画像処理装置１０は、種々の情報処理及び情報の送受信が可能な情報処理装置であり、例えばパーソナルコンピュータ、サーバコンピュータ等である。画像処理装置１０は、制御部１１、記憶部１２、通信部１３、入力部１４、表示部１５、読み取り部１６等を有し、これらの各部はバスを介して接続されている。制御部１１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）、又はＡＩチップ（ＡＩ用半導体）等の１又は複数のプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラム１２Ｐを適宜実行することにより、画像処理装置１０が行うべき情報処理及び制御処理を実行する。

【0011】

記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ハードディスク、ＳＳＤ（Solid State Drive）等を含む。記憶部１２は、制御部１１が実行するプログラム１２Ｐ（プログラム製品）及び各種のデータを記憶している。また記憶部１２は、制御部１１がプログラム１２Ｐを実行する際に発生するデータ等を一時的に記憶する。プログラム１２Ｐ及び各種のデータは、画像処理装置１０の製造段階において記憶部１２に書き込まれてもよく、制御部１１が通信部１３を介して他の装置からダウンロードして記憶部１２に記憶してもよい。また記憶部１２は、例えば機械学習によって訓練データを学習済みの第１学習モデルＭ１及び第２学習モデルＭ２を記憶している。学習モデルＭ１，Ｍ２は、人工知能ソフトウェアを構成するプログラムモジュールとしての利用が想定される。学習モデルＭ１，Ｍ２は、入力値に対して所定の演算を行い、演算結果を出力するものであり、記憶部１２には、この演算を規定する関数の係数や閾値等のデータが学習モデルＭ１，Ｍ２として記憶される。

【0012】

また記憶部１２は、撮影画像ＤＢ１２ａ及び合成用背景ＤＢ１２ｂを記憶している。撮影画像ＤＢ１２ａは、画像処理装置１０によって所定の画像処理が行われる処理対象の画像が蓄積されたデータベースである。撮影画像ＤＢ１２ａに記憶される撮影画像は、通信部１３を介してカメラ又は他の情報処理装置から受信した画像であってもよく、画像処理装置１０がカメラを備える場合、画像処理装置１０のカメラで撮影した画像であってもよい。合成用背景ＤＢ１２ｂは、撮影画像から抽出された被写体の撮影領域（以下では被写体画像という）を合成する合成用の背景画像（合成用画像）が蓄積されたデータベースである。合成用背景画像は、複数種類の画像であり、静止画であっても動画であってもよい。学習モデルＭ１，Ｍ２、撮影画像ＤＢ１２ａ、及び合成用背景ＤＢ１２ｂの一部又は全部は、画像処理装置１０に接続された他の記憶装置に記憶されてもよく、画像処理装置１０が通信可能な他の記憶装置に記憶されてもよい。

【0013】

通信部１３は、有線通信又は無線通信に関する処理を行うための通信モジュールであり、ネットワークＮを介して他の装置との間で情報の送受信を行う。ネットワークＮは、インターネット又は公衆電話回線網であってもよく、画像処理装置１０が設けられている施設内に構築されたＬＡＮ（Local Area Network）であってもよい。入力部１４は、ユーザによる操作入力を受け付け、操作内容に対応した制御信号を制御部１１へ送出する。表示部１５は、液晶ディスプレイ又は有機ＥＬディスプレイ等であり、制御部１１からの指示に従って各種の情報を表示する。入力部１４の一部及び表示部１５は一体として構成されたタッチパネルであってもよく、また、タッチパネルは画像処理装置１０に外付けされている構成でもよい。

【0014】

読み取り部１６は、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ、ＳＤカード、マイクロＳＤカード、コンパクトフラッシュ（登録商標）等の可搬型記憶媒体１０ａに記憶された情報を読み取る。記憶部１２に記憶されるプログラム１２Ｐ及び各種のデータは、制御部１１が読み取り部１６を介して可搬型記憶媒体１０ａから読み取って記憶部１２に記憶してもよい。

【0015】

本実施形態において、画像処理装置１０は、複数のコンピュータを含んで構成されるマルチコンピュータであってもよく、１台の装置内にソフトウェアによって仮想的に構築された仮想マシンであってもよく、クラウドサーバであってもよい。また、プログラム１２Ｐは、単一のコンピュータ上で、又は１つのサイトにおいて配置されて実行されてもよく、もしくは複数のサイトにわたって分散され、ネットワークＮを介して相互に接続された複数のコンピュータ上で実行されるように展開することができる。更に、画像処理装置１０は、入力部１４及び表示部１５は必須ではなく、接続されたコンピュータを通じて操作を受け付ける構成でもよく、表示すべき情報を外部の表示装置へ出力する構成でもよい。

【0016】

本実施形態の画像処理装置１０において、制御部１１は、記憶部１２に記憶されたプログラム１２Ｐを読み出して実行することにより、撮影画像に対して、背景領域を除去して前景領域（被写体領域）を抽出して被写体画像を生成する処理を実行する。また制御部１１は、撮影画像から生成した被写体画像を合成用背景画像に合成する処理を実行する。よって、本実施形態の画像処理装置１０は、撮影画像から生成された被写体画像を任意の合成用背景画像に合成した合成後の画像をユーザに提供することができる。なお、本実施形態の画像処理装置１０では、制御部１１は、撮影画像から被写体領域を抽出する背景除去処理を行う際に学習モデルＭ１，Ｍ２を用いる。

【0017】

図２は学習モデルＭ１，Ｍ２の構成例を示す説明図である。学習モデルＭ１，Ｍ２は、入力された画像に含まれる所定のオブジェクトを認識するモデルであり、例えばセマンティックセグメンテーションにより、画像中のオブジェクトを画素単位で分類することができる。学習モデルＭ１，Ｍ２は、例えばＵ－Ｎｅｔ、ＦＣＮ（Fully Convolutional Network ）、ＳｅｇＮｅｔ等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。

【0018】

第１学習モデルＭ１は、１枚の撮影画像を入力とし、入力された撮影画像に基づいて、撮影画像に含まれる背景領域及び前景領域（被写体領域）を認識する演算を行い、認識した結果を出力するモデルである。第１学習モデルＭ１には、例えばＢｙｔｅＤａｎｃｅＩｎｃ．によって開発された「ＲｏｂｕｓｔＶｉｄｅｏＭａｔｔｉｎｇ」を用いることができる。具体的には、第１学習モデルＭ１は、入力された撮影画像の各画素を背景領域と前景領域とに分類し、各画素に領域毎のラベルを対応付けた分類済みの撮影画像（以下ではラベル画像という）を出力する。図２Ａに示す例では、第１学習モデルＭ１は、背景領域に分類された画素を黒で示し、前景領域に分類された画素を白で示したラベル画像を出力する。これにより、第１学習モデルＭ１は、撮影画像から背景領域が除去された背景除去画像を出力する構成となる。

【0019】

第１学習モデルＭ１は、訓練用の撮影画像と、この撮影画像中の各画素に対して、判別すべきオブジェクト（ここでは背景領域及び前景領域）を示すデータがラベリングされた正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第１学習モデルＭ１は、訓練データに含まれる撮影画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第１学習モデルＭ１は、入力された撮影画像に基づいて演算を行い、撮影画像中の各オブジェクト（ここでは背景領域及び前景領域）を検出した検出結果を取得する。より具体的には、第１学習モデルＭ１は、撮影画像中の各画素に対して、分類されたオブジェクトの種類を示す値がラベリングされたラベル画像を出力として取得する。そして第１学習モデルＭ１は、取得した検出結果（ラベル画像）を、正解のラベル画像における各オブジェクトの範囲及び種類と比較し、両者が近似するように、ニューロン間の重み（結合係数）等のパラメータを最適化する。パラメータの最適化の方法は特に限定されないが、最急降下法、誤差逆伝播法等を用いることができる。これにより、撮影画像が入力された場合に、撮影画像中の背景領域及び前景領域を示すラベル画像を出力する第１学習モデルＭ１が得られる。

【0020】

第１学習モデルＭ１は、撮影画像中の各画素を背景領域又は前景領域に分類した正解のラベル画像を訓練データに用いて学習を行うが、学習済みの第１学習モデルＭ１を用いて撮影画像からラベル画像を取得した場合、背景領域及び前景領域の境界が明確に分類されない場合がある。図２Ａのラベル画像では、被写体の子供の足及び竹刀の一部が欠損している。そこで、本実施形態では、第１学習モデルＭ１で得られたラベル画像における背景領域及び前景領域の境界を、第２学習モデルＭ２を用いて明確にする補正処理が行われる。

【0021】

第２学習モデルＭ２は、１枚の撮影画像と、第１学習モデルＭ１を用いてこの撮影画像から生成されたラベル画像とを入力とし、入力された撮影画像及びラベル画像に基づいて、ラベル画像における背景領域及び前景領域（被写体領域）の境界を補正する演算を行い、補正した結果を出力するモデルである。第２学習モデルＭ２には、例えばＴｅｎｃｅｎｔＩｎｃ．によって開発された「ＣａｓｃａｄｅＰＳＰ」を用いることができる。具体的には、第２学習モデルＭ２は、入力されたラベル画像における背景領域及び前景領域の境界を、撮影画像及びラベル画像に基づいて補正し、補正後のラベル画像を出力する。補正後のラベル画像では、補正前のラベル画像における前景領域及び背景領域の過不足領域が調整され、前景領域の欠損箇所が前景領域に補正され、前景領域の過剰箇所が背景領域に補正される。

【0022】

第２学習モデルＭ２は、訓練用の撮影画像と、第１学習モデルＭ１を用いてこの撮影画像から生成されたラベル画像と、この撮影画像中の各画素に対して、判別すべきオブジェクト（ここでは背景領域及び前景領域）を示すデータがラベリングされた正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第２学習モデルＭ２は、訓練データに含まれる撮影画像及びラベル画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第２学習モデルＭ２は、入力された撮影画像及びラベル画像に基づいて演算を行い、入力されたラベル画像における背景領域及び前景領域の境界を補正した補正結果（補正後のラベル画像）を取得する。そして第２学習モデルＭ２は、取得した補正後のラベル画像を、訓練データが示す正解のラベル画像と比較し、両者が近似するように、最急降下法、誤差逆伝播法等を用いてパラメータを最適化する。これにより、撮影画像及びラベル画像が入力された場合に、ラベル画像中の背景領域及び前景領域の境界が補正されたラベル画像を出力する第２学習モデルＭ２が得られる。図２Ｂに示す例では、補正前のラベル画像は被写体の子供の足及び竹刀の一部が欠損しているが、補正後のラベル画像は欠損部分が補完されており、ラベル画像における背景領域及び前景領域の境界が明確となっている。

【0023】

学習モデルＭ１，Ｍ２の学習は、画像処理装置１０で行われてもよく、他の学習装置で行われてもよい。他の学習装置で学習が行われて生成された学習済みの学習モデルＭ１，Ｍ２は、例えばネットワークＮ経由又は可搬型記憶媒体１０ａ経由で学習装置から画像処理装置１０にダウンロードされて記憶部１２に記憶される。画像処理装置１０は、上述したような学習モデルＭ１，Ｍ２を予め用意しておき、カメラで撮影した撮影画像中の背景領域を除去して前景領域を抽出する背景除去処理に用いる。具体的には、画像処理装置１０は、第１学習モデルＭ１を用いて、撮影画像における背景領域及び前景領域が分類されたラベル画像を取得し、第２学習モデルＭ２を用いて、撮影画像及びラベル画像に基づいてラベル画像における背景領域及び前景領域の境界が補正された補正後のラベル画像を取得する。そして、画像処理装置１０は、補正後のラベル画像を、背景領域がマスクされたマスク画像として用い、撮影画像から、マスクされていない前景領域を抽出することにより、背景領域が除去された前景画像（被写体画像）を生成する。画像処理装置１０は、上述した処理を行うことにより、撮影画像から背景領域を除去する背景除去処理を実現し、撮影画像から背景領域が除去された前景画像を生成することができる。

【0024】

以下に、本実施形態の画像処理装置１０が撮影画像に対して背景除去処理を行って前景画像（被写体画像）を生成し、生成した前景画像を任意の合成用背景画像に合成して提供する処理について説明する。図３は合成画像の提供処理手順の一例を示すフローチャート、図４は背景除去処理の説明図、図５～７は画面例を示す説明図である。以下の処理は、画像処理装置１０の制御部１１が、記憶部１２に記憶してあるプログラム１２Ｐに従って行う。

【0025】

画像処理装置１０の制御部１１（画像取得部）は、処理対象の撮影画像を取得する（Ｓ１１）。撮影画像は例えば図４Ａに示すような画像であり、任意の撮影場所で撮影された画像、カメラマンが手に持ったカメラで撮影した画像、撮影位置が固定されたカメラで撮影された画像等、どのような撮影画像でもよい。処理対象の撮影画像は、撮影画像ＤＢ１２ａから読み出してもよく、通信部１３を介してカメラ又は他の情報処理装置から取得してもよい。制御部１１（背景除去部）は、取得した撮影画像に対して背景除去処理を実行する（Ｓ１２）。具体的には、制御部１１は、撮影画像を第１学習モデルＭ１に入力し、第１学習モデルＭ１から出力されるラベル画像を取得する。ここでは制御部１１は、図４Ｂに示すように、撮影画像における背景領域及び前景領域が分類されたラベル画像を取得する。図４Ｂに示すラベル画像では、３人の被写体の撮影領域を前景領域とし、これ以外の領域を背景領域とする。

【0026】

次に制御部１１（補正部）は、背景除去処理によって取得したラベル画像に対して、背景領域及び前景領域の境界を補正する補正処理を実行する（Ｓ１３）。具体的には、制御部１１は、撮影画像及びラベル画像を第２学習モデルＭ２に入力し、第２学習モデルＭ２から出力される補正後のラベル画像を取得する。ここでは制御部１１は、図４Ｃに示すような補正後のラベル画像を取得する。図４Ｃに示す補正後のラベル画像では、例えば図４Ｂに示すラベル画像において欠損していた、左側の被写体の両手、中央の被写体の両足、及び右側の被写体の両足の一部（欠損箇所）が補完されている。

【0027】

そして、制御部１１は、補正後のラベル画像をマスク画像として用いて、撮影画像から、マスク画像中の白領域に対応する領域を抽出することにより、撮影画像中の前景領域を抽出して前景画像を生成する（Ｓ１４）。ここでは制御部１１は、図４Ｄに示すように、３人の被写体を含む前景画像を生成する。これにより、撮影画像から背景領域が除去された前景画像（背景除去画像）が生成される。

【0028】

制御部１１は、生成した前景画像を表示部１５に表示する（Ｓ１５）。例えば制御部１１は、図５Ａに示すような画面を表示部１５に表示し、生成した前景画像をユーザに提示する。図５Ａに示す画面は、表示中の前景画像を介して、前景画像に含まれる任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図５Ａに示す画面において、入力部１４を介して任意の被写体を選択してＯＫボタンを操作することにより、任意の被写体に対する選択を行う。制御部１１は、任意の被写体に対する選択を受け付けたか否かを判断する（Ｓ１６）。図５Ａに示す例では、前景画像中に３人の被写体が写っており、中央の被写体に対する選択を受け付けた状態を示している。なお、複数の被写体が選択されてもよい。また、前景画像を表示する際に、制御部１１は、例えば前景画像に対して物体検知処理を行うことによって、前景画像中の各被写体を検出し、検出した各被写体をバウンディングボックスで提示するように構成されていてもよい。この場合、ユーザがいずれかのバウンディングボックスを選択することにより、任意の被写体を選択できるように構成することができる。

【0029】

制御部１１は、被写体に対する選択を受け付けていないと判断した場合（Ｓ１６：ＮＯ）、受け付けるまで待機する。制御部１１は、被写体に対する選択を受け付けたと判断した場合（Ｓ１６：ＹＥＳ）、前景画像から、選択された被写体の領域を抽出して被写体画像を生成する（Ｓ１７）。ここでは制御部１１は、図４Ｅに示すように、選択された被写体のみを含む被写体画像を生成する。なお、前景画像に含まれる任意の被写体に対する選択処理は必ずしも行う必要はなく、前景画像をそのまま被写体画像として用いてもよい。この場合、制御部１１は、ステップＳ１４の処理後、ステップＳ１５～Ｓ１７の処理をスキップし、ステップＳ１４で生成した前景画像を被写体画像としてステップＳ１８以降の処理を実行する構成としてもよい。

【0030】

次に制御部１１は、生成した被写体画像を合成する合成用背景画像に対する選択を受け付けるために、合成用背景画像の一覧を表示する（Ｓ１８）。ここでは、制御部１１は、合成用背景ＤＢ１２ｂに記憶してある合成用背景画像を読み出して、図５Ｂに示すような画面を表示部１５に表示し、合成用背景画像の一覧をユーザに提示する。図５Ｂに示す画面は、合成用背景画像として用意された静止画と動画のサムネイル画像（例えば最初の画像）とを表示しており、いずれかの合成用背景画像に対する選択を受け付けるように構成されている。また、図５Ｂに示す画面は、動画の合成用背景画像に対して、総再生時間と、総再生時間に対する再生位置を示すインジケータとを表示しており、インジケータを介して再生位置を移動させることにより、画面に表示される動画の再生位置を変更させることができる。ユーザは、図５Ｂに示す画面において、入力部１４を介していずれかの合成用背景画像を選択してＯＫボタンを操作することにより、いずれかの合成用背景画像に対する選択を行う。制御部１１は、いずれかの合成用背景画像に対する選択を受け付けたか否かを判断しており（Ｓ１９）、受け付けていないと判断した場合（Ｓ１９：ＮＯ）、受け付けるまで待機する。

【0031】

制御部１１は、いずれかの合成用背景画像に対する選択を受け付けたと判断した場合（Ｓ１９：ＹＥＳ）、選択された合成用背景画像に、ステップＳ１７で生成した被写体画像を合成する際に、被写体画像に対して行う画像処理の設定を受け付けるための設定画面を表示部１５に表示する（Ｓ２０）。例えば制御部１１は、図６Ａに示すように、合成用背景画像及び被写体画像を表示し、被写体画像に対して行う画像処理の処理内容を入力するための入力欄を有する設定画面を表示する。被写体画像に対して行う画像処理は、被写体画像を拡大又は縮小する変倍処理、及び被写体画像を回転させる回転処理を含む。よって、設定画面は、被写体画像の幅及び高さに対する変倍率の入力欄と、回転角度の入力欄とを有し、各入力欄は、任意の数値を入力できる構成でもよく、複数の選択肢の中から任意の１つを選択するためのプルダウンメニューが設けられていてもよい。なお、図６Ａに示す設定画面は、被写体画像に対して、例えばピンチアウト及びピンチイン操作によって拡大率又は縮小率を入力できる構成でもよい。更に、設定画面は、図６Ｂに示すようなドラッグ操作によって、被写体画像を合成用背景画像に合成する合成位置（合成用画像中の合成位置）を指定できるように構成されている。なお、被写体画像に実行可能な画像処理は、変倍処理及び回転処理に限定されない。

【0032】

ユーザは、図６Ａ，Ｂに示す画面において、入力部１４を介して、被写体画像の幅及び高さに対する変倍率と、回転角度と、合成用背景画像に対する被写体画像の合成位置とを入力して合成実行ボタンを操作することにより、合成用背景画像に対する被写体画像の合成処理の実行を指示する。制御部１１は、図６Ａ，Ｂに示す設定画面において、画像処理の処理内容の入力を受け付けたか否かを判断しており（Ｓ２１）、受け付けたと判断した場合（Ｓ２１：ＹＥＳ）、入力された処理内容（具体的には、変倍率及び回転角度）を各入力欄に表示する。そして制御部１１は、表示中の被写体画像に対して、入力された処理内容の画像処理を実行する（Ｓ２２）。ここでは、制御部１１は、変倍率が入力された場合、入力された変倍率での変倍処理（拡大処理又は縮小処理）を、表示中の被写体画像に対して実行し、回転角度が入力された場合、入力された回転角度での回転処理を表示中の被写体画像に対して実行する。そして、制御部１１は、表示中の被写体画像を、画像処理後の被写体画像に更新する。図６Ｂの画面では、図６Ａの画面中の被写体画像に対して縮小処理が行われた後の被写体画像が表示されている。被写体画像に対する画像処理は、必ずしも行う必要はなく、画像処理の処理内容の入力を受け付けていないと判断した場合（Ｓ２１：ＮＯ）、制御部１１は、ステップＳ２２の処理をスキップする。

【0033】

次に制御部１１は、図６Ａ，Ｂに示す設定画面において、合成用背景画像に対する被写体画像の合成位置の入力を受け付けたか否かを判断しており（Ｓ２３）、受け付けたと判断した場合（Ｓ２３：ＹＥＳ）、図６Ｂに示すように、被写体画像を、指定された合成位置に移動させる（Ｓ２４）。そして、制御部１１は、合成実行ボタンが操作されたか否かを判断し（Ｓ２５）、操作されていないと判断した場合（Ｓ２５：ＮＯ）、ステップＳ２１の処理に戻り、画像処理内容及び合成位置の入力受付を継続する。なお、制御部１１は、合成位置の入力を受け付けていないと判断した場合も（Ｓ２３：ＮＯ）、ステップＳ２１の処理に戻る。

【0034】

合成実行ボタンが操作されたと判断した場合（Ｓ２５：ＹＥＳ）、制御部１１は、選択された合成用背景画像に対して、選択された被写体画像を合成する合成処理を行う（Ｓ２６）。具体的には、制御部１１は、ステップＳ１９で選択された合成用背景画像において、ステップＳ２３～Ｓ２４で指定された合成位置に、ステップＳ２２で画像処理を行った被写体画像を合成して合成画像を生成する。制御部１１は、生成した合成画像を出力し（Ｓ２７）、一連の処理を終了する。例えば制御部１１は、図７に示すような画面を表示部１５に表示することにより、生成した合成画像を表示してユーザに提示する。

【0035】

図７に示す画面は、合成画像を表示し、合成画像の生成のやり直しを指示するためのやり直すボタン、合成画像の印刷を指示するための印刷ボタン、合成画像の送信を指示するための送信ボタンを有する。図７に示す画面において、やり直すボタンが操作された場合、画像処理装置１０の制御部１１は、例えば図３中のステップＳ２０の処理に戻り、画像処理及び合成処理を再度実行する。なお、制御部１１は、合成用背景画像の選択からやり直す場合、図３中のステップＳ１８の処理に戻ってもよく、被写体の選択からやり直す場合、図３中のステップＳ１５の処理に戻ってもよい。図７に示す画面において、印刷ボタンが操作された場合、画像処理装置１０の制御部１１は、ネットワークＮ経由又は直接接続されているプリンタに合成画像を送信して、合成画像を印刷する。また、送信ボタンが操作された場合、制御部１１は、ネットワークＮ経由又は近距離無線通信等によって、指定された端末に合成画像を送信する。なお、制御部１１は、図７に示す画面を表示することなく、生成した合成画像をプリンタによって印刷してもよく、所定の端末へ送信してもよい。

【0036】

上述した処理により、本実施形態の画像処理装置１０では、グリーンバック等を用いることなく、１枚の撮影画像から、前景となる被写体の領域を精度良く抽出できる背景除去処理を実現することができる。よって、グリーンバック等を設置できない施設、及びグリーンバックを設置した場合に景観を損なうような場所であっても、また、カメラが固定されていない場合であっても、自由な背景及び自由な撮影位置で被写体を撮影した撮影画像に基づいて、精度の高い背景除去処理によって被写体領域のみを抽出した被写体画像（前景画像）を生成することができる。また、被写体画像に対して変倍処理及び回転処理が可能であり、任意の合成用背景画像の選択が可能であるので、被写体画像に対して自由な加工を実現できる。更に、複数の被写体が撮影された場合に合成対象の被写体を選択できるので、例えば意図しない被写体が写り込んでしまった場合であっても、ユーザが選択した被写体のみを残した背景除去処理が可能であり、任意の被写体のみを含む被写体画像を生成できる。

【0037】

本実施形態では、撮影画像から背景領域を除去する際に用いるマスク画像を、２つの学習モデルＭ１，Ｍ２を用いて生成する。第１学習モデルＭ１は、入力された撮影画像における画像の特徴を自動抽出してラベル画像を出力するので、多くの訓練データを学習させることにより、撮影画像中の背景領域及び前景領域を精度良く分類したラベル画像の生成が可能となる。また、第１学習モデルＭ１を用いて撮影画像中の背景領域及び前景領域（被写体）の分類を行うので、背景と同じような色の被写体であっても適切に前景領域に分類することができ、適切な背景除去処理を実現できる。更に、撮影位置又は撮影環境が変更された場合であっても、背景除去処理用の画像を準備する必要がなく、適切な背景除去処理を実現できる。また、本実施形態では、第１学習モデルＭ１を用いて生成されたラベル画像における背景領域及び前景領域の境界を第２学習モデルＭ２を用いて補正することにより、より精度良く背景除去された補正後のラベル画像の取得が可能となる。このような高精度に背景除去された補正後のラベル画像を用いることにより、撮影画像から高精度の前景画像を生成することができる。

【0038】

本実施形態において、学習モデルＭ１，Ｍ２を用いた背景除去処理、又は、合成用背景画像に被写体画像を合成する処理等は、画像処理装置１０がローカルで行う構成に限定されない。例えば、学習モデルＭ１，Ｍ２を用いた背景除去処理を実行するサーバを設けてもよい。この場合、画像処理装置１０は、処理対象の撮影画像をサーバへ送信し、サーバで学習モデルＭ１，Ｍ２を用いて生成されたラベル画像（マスク画像）が画像処理装置１０へ送信されるように構成される。この場合にも、画像処理装置１０は、サーバで生成されたマスク画像を用いて、撮影画像から背景領域を除去する背景除去処理を実行できる。なお、第１学習モデルＭ１を用いた背景除去処理を実行するサーバと、第２学習モデルＭ２を用いたラベル画像の補正処理を実行するサーバとを各別に設けてもよい。また、合成用背景画像に被写体画像を合成する処理を実行するサーバを設けてもよい。この場合、画像処理装置１０は、合成処理対象の被写体画像及び合成用背景画像をサーバへ送信し、サーバで合成用背景画像に被写体画像が合成された合成画像が画像処理装置１０へ送信されるように構成される。この場合にも、画像処理装置１０は、サーバで生成された合成画像を印刷又は送信することにより、ユーザに提供できる。このような構成とする場合、画像処理装置１０は、スマートフォン、タブレット端末、通信機能を有するカメラ等で構成することができる。上述したような構成とした場合であっても、本実施形態と同様の処理が可能であり、同様の効果が得られる。

【0039】

本実施形態では、撮影画像から被写体画像を生成して合成用背景画像に合成して合成画像を生成する構成であるが、この構成に限定されない。例えば、撮影画像から背景除去処理を行って生成された被写体画像をそのままユーザに提供する構成でもよい。

【0040】

（実施形態２）
上述の実施形態１では、第１学習モデルＭ１を用いて撮影画像から背景除去を行ってラベル画像を生成した後に、第２学習モデルＭ２を用いてラベル画像における背景領域及び前景領域の境界を補正する構成であった。本実施形態２では、第１学習モデルＭ１を用いて生成したラベル画像に対して、背景領域及び前景領域の分類結果の修正を行い、修正後のラベル画像に対して第２学習モデルＭ２を用いた補正処理を行う画像処理装置について説明する。本実施形態の画像処理装置は、図１に示す実施形態１の画像処理装置１０の構成に加えて、記憶部１２に第３学習モデルＭ３を記憶している。

【0041】

図８は第３学習モデルＭ３の構成例を示す説明図である。第３学習モデルＭ３は、例えばＵ－Ｎｅｔ、ＦＣＮ、ＳｅｇＮｅｔ等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。第３学習モデルＭ３は、例えば第１学習モデルＭ１を用いて背景領域及び前景領域に分類された分類済みの撮影画像と、この撮影画像における分類結果に対する修正指示とを入力とし、入力された撮影画像及び修正指示に基づいて、分類済みの背景領域及び前景領域に対する修正を行い、修正後の分類結果を出力するモデルである。第３学習モデルＭ３には、例えばSamsung AI Center Moscowによって開発された「Reviving Iterative Training with Mask Guidance for Interactive Segmentation」を用いることができる。例えば図８Ａに示す例では、被写体の子供の撮影領域が前景領域に分類されており、この子供が保持している竹刀が背景領域に分類されている分類済みの撮影画像に対して、竹刀の領域に付けられたマークＰによって当該竹刀の領域に対する前景領域への修正指示が入力された状態を示している。この場合、第３学習モデルＭ３は、入力された撮影画像では背景領域に分類されていた竹刀の領域を前景領域に修正した修正後の分類結果（分類済みの撮影画像）を出力する。また、図８Ｂに示す例では、撮影場所の奥にいる被写体の人が前景領域に分類されている分類済みの撮影画像に対して、当該人の領域に付けられたマークＰによって当該人の領域に対する背景領域への修正指示が入力された状態を示している。この場合、第３学習モデルＭ３は、入力された撮影画像では前景領域に分類されていた人の領域を背景領域に修正した修正後の分類結果（分類済みの撮影画像）を出力する。このように第３学習モデルＭ３は、背景除去された画像と、画像中の背景領域又は前景領域に対する修正指示とに基づいて、修正指示された領域の分類結果を修正した後の背景除去画像を出力する構成となる。なお、修正指示は、図８Ａ中のマークＰのように、任意の領域に対して例えばドラッグ操作によって線を引くことにより行われてもよく、図８Ｂ中のマークＰのように、例えばクリック操作によって任意の箇所を指定することによって行われてもよい。

【0042】

第３学習モデルＭ３は、訓練用の分類済みの撮影画像と、この撮影画像中の任意の箇所又は領域に対する修正指示と、修正指示に従って分類結果を修正した後の撮影画像とを含む訓練データを用いて機械学習させることにより生成することができる。第３学習モデルＭ３は、訓練データに含まれる分類済みの撮影画像及び修正指示が入力された場合に、訓練データに含まれる修正後の撮影画像を出力するように学習する。具体的には、第３学習モデルＭ３は、入力された分類済みの撮影画像及び修正指示に基づいて演算を行い、入力された撮影画像の分類結果を修正指示に基づいて修正した結果（修正後の撮影画像）を取得する。そして第３学習モデルＭ３は、取得した修正後の撮影画像を、訓練データが示す正解の撮影画像と比較し、両者が近似するように、最急降下法、誤差逆伝播法等を用いてパラメータを最適化する。これにより、分類済みの撮影画像及び分類結果に対する修正指示が入力された場合に、撮影画像中の背景領域及び前景領域の分類結果が修正された分類済みの撮影画像を出力する第３学習モデルＭ３が得られる。第３学習モデルＭ３の学習も、画像処理装置１０で行われてもよく、他の学習装置で行われてもよい。

【0043】

図９は実施形態２の合成画像の提供処理手順の一例を示すフローチャート、図１０は画面例を示す説明図である。図９に示す処理は、図３に示す処理において、ステップＳ１２，Ｓ１３の間にステップＳ３１～Ｓ３８を追加したものである。図３と同じステップについては説明を省略する。なお、図９では図３中のステップＳ１６～Ｓ２７の図示を省略している。

【0044】

本実施形態の画像処理装置１０において、制御部１１は、図３中のステップＳ１１～Ｓ１２と同様の処理を実行する。そして、制御部１１は、ステップＳ１２の背景除去処理によって分類された背景領域及び前景領域の分類結果を表示部１５に表示する（Ｓ３１）。例えば制御部１１は、図１０Ａに示すような画面を表示し、撮影画像中の背景領域及び前景領域の分類結果をユーザに提示する。図１０Ａに示す画面は、撮影画像を表示し、撮影画像において前景領域に分類された領域にハッチング（図１０Ａでグレー領域）が付けてある。図１０Ａに示す画面は、背景領域に分類された領域に対して前景領域への修正指示と、前景領域に分類された領域に対して背景領域への修正指示とを受け付けるように構成されている。ユーザは、図１０Ａに示す画面において、入力部１４を介して、背景領域に分類されている任意の箇所に対して所定の操作を行うことにより、任意の箇所に対する前景領域への修正指示を行う。また、ユーザは、前景領域に分類されている任意の箇所に対して所定の操作を行うことにより、任意の箇所に対する背景領域への修正指示を行う。図１０Ａに示す例では、画像中央に写る３人の被写体のうちの右側の人の顔領域が背景領域に分類されており、この顔領域に対する前景への修正指示が行われている。また、図１０Ａに示す例では、３人の被写体の右側に写る、部屋の奥の人が前景領域に分類されており、この人の領域に対する背景への修正指示が行われている。図１０Ａに示す例では、背景領域に対する前景領域への修正指示は黒矩形で示されており、前景領域に対する背景領域への修正指示は白矩形で示されている。

【0045】

制御部１１は、画面中の撮影画像を介して、任意の箇所又は領域に対する分類結果の修正指示を受け付けたか否かを判断する（Ｓ３２）。制御部１１は、分類結果の修正指示を受け付けたと判断した場合（Ｓ３２：ＹＥＳ）、修正指示された箇所又は領域にマークを表示する（Ｓ３３）。例えば制御部１１は、任意の領域に対してドラッグ操作が行われた場合にドラッグされた箇所に線を表示し、任意の箇所に対してクリック操作が行われた場合にクリックされた箇所に丸印を表示する。なお、制御部１１は、図１０Ａに示すように、背景領域に対する修正指示を示すマークと、前景領域に対する修正指示を示すマークとを異なるマークで表示してもよい。制御部１１は、図１０Ａに示す画面において修正ボタンが操作されたか否かを判断する（Ｓ３４）。修正ボタンが操作されたと判断した場合（Ｓ３４：ＹＥＳ）、制御部１１は、ステップＳ１２の背景除去処理による分類結果の修正処理を実行する（Ｓ３５）。ここでは制御部１１は、ステップＳ３１で表示した分類済みの撮影画像と、ステップＳ３３で撮影画像中に表示されたマークによる修正指示とを第３学習モデルＭ３に入力し、第３学習モデルＭ３から出力される修正後の分類結果（分類済みの撮影画像）を取得する。そして、制御部１１は、表示中の撮影画像を修正後の分類済みの撮影画像に変更し、表示画面を更新する（Ｓ３６）。図１０Ｂに示す例では、画像中央に写る３人の被写体のうちの右側の人の顔領域が背景領域から前景領域に修正され、部屋の奥の人の領域が前景領域から背景領域に修正された修正後の分類結果（分類済みの撮影画像）が表示されている。

【0046】

制御部１１は、分類結果の修正指示を受け付けていないと判断した場合（Ｓ３２：ＮＯ）、又は、修正ボタンが操作されていないと判断した場合（Ｓ３４：ＮＯ）、ステップＳ３７の処理に移行する。制御部１１は、図１０Ｂに示す画面において終了ボタンが操作されたか否かを判断する（Ｓ３７）。終了ボタンが操作されていないと判断した場合（Ｓ３７：ＮＯ）、制御部１１は、ステップＳ３２の処理に戻り、分類結果に対する修正指示の受付を継続する。終了ボタンが操作されたと判断した場合（Ｓ３７：ＹＥＳ）、制御部１１は、修正処理によって修正された分類結果（分類済みの撮影画像）に基づいて、修正後のラベル画像を生成する（Ｓ３８）。ここでは制御部１１は、背景除去処理によって生成されたラベル画像における分類結果を、終了ボタンが操作された時点で表示されていた修正済の分類結果に基づいて修正し、修正後の分類結果において背景領域の画素を黒で示し、前景領域の画素を白で示したラベル画像を生成する。そして制御部１１は、生成した修正後のラベル画像を記憶部１２に記憶する。

【0047】

その後、制御部１１は、ステップＳ１３以降の処理を実行する。なお、ステップＳ１３で、制御部１１は、ステップＳ３８で生成した修正後のラベル画像に対して補正処理を実行する。具体的には、制御部１１は、ステップＳ１１で取得した撮影画像及び修正後のラベル画像を第２学習モデルＭ２に入力し、第２学習モデルＭ２から出力される補正後のラベル画像を取得する。そして、制御部１１は、補正後のラベル画像に基づいて、ステップＳ１４以降の処理を実行する。これにより、本実施形態においても、背景除去されたラベル画像に対する補正処理によって精度の高いラベル画像の生成が可能であり、このようなラベル画像を用いることによって精度の高い被写体画像の生成が可能であり、被写体画像を任意の合成用背景画像に合成した合成画像を提供することができる。

【0048】

本実施形態では、上述した実施形態１と同様の効果が得られる。また本実施形態では、第１学習モデルＭ１を用いて背景領域及び前景領域に分類された撮影画像に対して、分類結果の修正が可能であるので、背景領域及び前景領域が正確に分類された背景除去画像（ラベル画像）を取得できる。また、ユーザは、修正したい箇所又は領域の一部に対してドラッグ操作又はクリック操作を行って修正指示を行うので操作性がよい。本実施形態においても、上述した実施形態１で適宜説明した変形例の適用が可能である。

【0049】

（実施形態３）
上述の実施形態１では、撮影画像に対して背景除去処理を行って前景画像を生成し、得られた前景画像を介して合成対象の被写体の選択を受け付ける構成であった。本実施形態３では、背景除去処理を行う前に、撮影画像を介して合成対象の被写体の選択を受け付ける画像処理装置について説明する。本実施形態の画像処理装置は、図１に示す実施形態１の画像処理装置１０の構成と同様であるので、構成についての説明は省略する。

【0050】

図１１は実施形態３の合成画像の提供処理手順の一例を示すフローチャート、図１２は画面例を示す説明図、図１３は実施形態３の背景除去処理の説明図である。図１１に示す処理は、図３に示す処理において、ステップＳ１１，Ｓ１２の間にステップＳ４１～Ｓ４３を追加し、ステップＳ１４～Ｓ１６を削除したものである。図３と同じステップについては説明を省略する。なお、図１１では図３中のステップＳ１９～Ｓ２７の図示を省略している。

【0051】

本実施形態の画像処理装置１０において、制御部１１は、処理対象の撮影画像を取得し（Ｓ１１）、取得した撮影画像を表示部１５に表示する（Ｓ４１）。例えば制御部１１は、図１２に示すような画面を表示し、処理対象の撮影画像をユーザに提示する。図１２に示す画面は、表示中の撮影画像を介して、撮影画像に含まれる任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図１２に示す画面において、入力部１４を介して任意の被写体を選択してＯＫボタンを操作することにより、任意の被写体に対する選択を行う。制御部１１は、撮影画像を介して、任意の被写体に対する選択を受け付けたか否かを判断する（Ｓ４２）。図１２に示す例では、撮影画像中の３人の被写体のうちで中央の被写体に対する選択を受け付けた状態を示している。ここでも複数の被写体が選択されてもよい。また、制御部１１は、撮影画像を表示する際に、例えば撮影画像に対して物体検知処理を行うことによって、撮影画像中の各被写体を検出し、検出した各被写体をバウンディングボックスで提示するように構成されていてもよい。

【0052】

制御部１１は、被写体に対する選択を受け付けていないと判断した場合（Ｓ４２：ＮＯ）、受け付けるまで待機する。制御部１１は、被写体に対する選択を受け付けたと判断した場合（Ｓ４２：ＹＥＳ）、撮影画像から、選択された被写体の領域を抽出する（Ｓ４３）。ここでは制御部１１は、図１２中に矩形で示すように、選択された被写体を含む矩形領域（被写体領域）を抽出する。なお、複数の被写体が選択された場合、制御部１１は、選択された全ての被写体を含む１つの被写体領域を抽出してもよく、それぞれの被写体毎に被写体領域を抽出してもよい。被写体毎に被写体領域を抽出した場合は、制御部１１は、以降のステップＳ１２～Ｓ１３の処理を被写体領域毎に実行する。

【0053】

次に制御部１１は、抽出した被写体領域に対して背景除去処理を実行する（Ｓ１２）。ここでは、制御部１１は、図１３Ａに示すように、被写体領域を第１学習モデルＭ１に入力し、第１学習モデルＭ１から出力される被写体領域のラベル画像を取得する。そして制御部１１は、被写体領域のラベル画像に対して補正処理を実行する（Ｓ１３）。ここでは、制御部１１は、図１３Ｂに示すように、被写体領域及び被写体領域のラベル画像を第２学習モデルＭ２に入力し、第２学習モデルＭ２から出力される補正後のラベル画像を取得する。

【0054】

そして、制御部１１は、補正後のラベル画像をマスク画像として用いて、撮影画像又はステップＳ４３で抽出した被写体領域から、マスク画像中の白領域に対応する領域を抽出することにより、選択された被写体の領域のみを含む被写体画像を生成する（Ｓ１７）。ここでも制御部１１は、図４Ｅに示すような被写体画像を生成できる。その後、制御部１１は、ステップＳ１８以降の処理を実行する。これにより、本実施形態においても、任意の合成用背景画像の選択が可能であり、被写体画像を合成用背景画像に合成する際に被写体画像に行う画像処理内容及び合成位置の指定が可能である。よって、任意の変倍処理及び回転処理が行われた被写体画像を、合成用背景画像の任意の位置に合成した合成画像を生成することができる。

【0055】

上述した処理により、本実施形態では、任意の合成用背景画像に合成する被写体の選択を撮影画像を介して受け付けることができる。また、本実施形態では、撮影画像から抽出された被写体領域に対して、背景除去処理及び補正処理が行われるので、処理対象の画像のデータ量を削減することができる。本実施形態においても、上述した実施形態１～２で適宜説明した変形例の適用が可能である。

【0056】

本実施形態の構成は、上述した実施形態１～２の画像処理装置１０に適用可能であり、実施形態１～２の画像処理装置１０に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態２の画像処理装置１０に適用した場合、図１１に示す処理において、ステップＳ１２，Ｓ１３の間に、図９中のステップＳ３１～Ｓ３８の処理を行えばよい。この場合、被写体領域に対する背景除去処理によって得られた被写体領域のラベル画像に対して、修正指示に基づく修正処理が可能となり、より精度よく背景領域及び前景領域に分類されたラベル画像を取得できる。

【0057】

（実施形態４）
上述の実施形態１～３では、前景画像中又は撮影画像中の被写体から合成対象の被写体を選択する処理は、ユーザが手動で行う構成であった。本実施形態４では、前景画像又は撮影画像に対して物体検知処理を行うことによって、合成対象の被写体を自動で特定する画像処理装置について説明する。なお、本実施形態の画像処理装置では、前景画像又は撮影画像中の被写体を自動で検知し、検知した被写体が１つである場合に当該被写体を合成対象の被写体に選択する構成とし、検知した被写体が複数である場合にユーザが合成対象の被写体を選択する構成とする。本実施形態の画像処理装置は、図１に示す実施形態１の画像処理装置１０の構成と同様であるので、構成についての説明は省略する。

【0058】

図１４は実施形態４の合成画像の提供処理手順の一例を示すフローチャート、図１５は画面例を示す説明図である。図１４に示す処理は、図３に示す処理において、ステップＳ１４，Ｓ１５の間にステップＳ５１～Ｓ５２を追加し、ステップＳ１５，Ｓ１６の間にステップＳ５３を追加したものである。図３と同じステップについては説明を省略する。なお、図１４では図３中のステップＳ１９～Ｓ２７の図示を省略している。

【0059】

本実施形態の画像処理装置１０において、制御部１１は、図３中のステップＳ１１～Ｓ１４と同様の処理を実行する。これにより、図４Ｄに示すような前景画像が生成される。そして、制御部１１は、生成した前景画像に対して物体検知処理を実行する（Ｓ５１）。物体検知処理は、例えば画像が入力された場合に、画像中の被写体が、予め学習された被写体（物品又は人）のいずれであるかを判別するように機械学習された学習済みモデルを用いて行うことができる。よって、制御部１１は、このような学習済みモデルに前景画像を入力することにより、学習済みモデルからの出力情報に基づいて、前景画像中の被写体を検知することができる。

【0060】

制御部１１は、物体検知処理の結果、前景画像中の被写体が１つであるか否かを判断する（Ｓ５２）。被写体が１つでないと判断した場合（Ｓ５２：ＮＯ）、即ち複数の被写体を検知した場合、制御部１１は、ステップＳ１５の処理に移行し、ステップＳ１４で生成した前景画像を表示部１５に表示する（Ｓ１５）。また制御部１１は、表示した前景画像中に、物体検知処理で検知した各被写体を囲むバウンディングボックスを表示する（Ｓ５３）。例えば制御部１１は、図１５に示すような画面を表示部１５に表示し、前景画像と、前景画像中の被写体とをユーザに提示する。これにより、ユーザは、選択可能な被写体を容易に把握でき、また、バウンディングボックスを選択することにより、任意の被写体を容易に選択することができる。なお、図１５中の前景画像では３人の被写体がバウンディングボックスで示されており、実線のバウンディングボックスは選択された被写体を、破線のバウンディングボックスは選択されていない被写体をそれぞれ示している。

【0061】

その後、制御部１１は、ステップＳ１６以降の処理を実行する。これにより、図１５に示す画面を介して合成対象の被写体の選択を受け付け、選択された被写体の領域を抽出した被写体画像を生成できる。

【0062】

前景画像中の被写体が１つであると判断した場合（Ｓ５２：ＹＥＳ）、制御部１１は、ステップＳ１７の処理に移行し、前景画像から、物体検知処理によって検知した１つの被写体の領域を抽出して被写体画像を生成する（Ｓ１７）。ここでも図４Ｅに示すような被写体画像が生成される。その後、制御部１１は、ステップＳ１８以降の処理を実行する。これにより、本実施形態においても、任意の変倍処理及び回転処理が行われた被写体画像を、任意の合成用背景画像に合成した合成画像を生成することができる。

【0063】

上述した処理において、合成対象の被写体を人に限定する構成としてもよく、この場合、制御部１１は、ステップＳ５２で、物体検知処理の結果、前景画像中の被写体が１人の人であるか複数の人であるかを判断してもよい。このような構成では、前景画像に人以外の物品が写り込んでいた場合であっても、１人の人が写っている前景画像に対しては、検知された１人の被写体を合成対象に特定することができる。

【0064】

上述した処理により、本実施形態では、撮影画像に対して背景除去処理が行われて生成された前景画像に１つの被写体のみが写っている場合に、当該被写体を合成対象に特定（選択）することができる。よって、ユーザが合成対象の被写体を選択する操作が不要となり、処理の簡略化が可能となる。また、前景画像に複数の被写体が写っている場合には、複数の被写体をユーザに提示し、ユーザによって合成対象の被写体が選択されることにより、任意の被写体を合成対象とすることができる。本実施形態においても、上述した実施形態１～３で適宜説明した変形例の適用が可能である。

【0065】

本実施形態の構成は、上述した実施形態１～３の画像処理装置１０に適用可能であり、実施形態１～３の画像処理装置１０に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態２の画像処理装置１０に適用した場合、図１４に示す処理において、ステップＳ１２，Ｓ１３の間に、図９中のステップＳ３１～Ｓ３８の処理を行えばよい。

【0066】

本実施形態の構成を実施形態３の画像処理装置１０に適用した場合の処理について説明する。図１６は実施形態４の合成画像の提供処理手順の他の例を示すフローチャートである。図１６に示す処理は、図１１に示す処理において、ステップＳ１１，Ｓ４１の間にステップＳ５１～Ｓ５２を追加し、ステップＳ４１，Ｓ４２の間にステップＳ５３を追加したものである。図３、図１１及び図１４と同じステップについては説明を省略する。なお、図１６では図３中のステップＳ１９～Ｓ２７の図示を省略している。

【0067】

図１６に示す処理では、画像処理装置１０の制御部１１は、ステップＳ１１の処理後に、ステップＳ５１～Ｓ５２の処理を実行する。なお、ここでのステップＳ５１では、制御部１１は、撮影画像に対して物体検知処理を実行する。そして、制御部１１は、物体検知処理の結果、撮影画像中の被写体が１つでないと判断した場合（Ｓ５２：ＮＯ）、ステップＳ４１の処理に移行する。また制御部１１は、ステップＳ４１の処理後に、ステップＳ５３の処理を実行する。これにより、図１２に示す画面に表示された撮影画像中の各被写体を囲むバウンディングボックスを表示することができる。その後、制御部１１は、ステップＳ４２以降の処理を実行する。また制御部１１は、撮影画像中の被写体が１つであると判断した場合（Ｓ５２：ＹＥＳ）、ステップＳ４３の処理に移行する。

【0068】

上述した処理によっても、撮影画像中に１つの被写体のみが写っている場合に、当該被写体を合成対象に特定（選択）でき、ユーザが合成対象の被写体を選択する操作が不要となる。また、撮影画像に複数の被写体が写っている場合には、ユーザによって合成対象の被写体の選択が可能であり、任意の被写体を合成対象とすることができる。

【0069】

（実施形態５）
上述の実施形態１～４では、第１学習モデルＭ１を用いて撮影画像から背景除去を行ってラベル画像を生成する構成であった。本実施形態５では、撮影画像から背景除去処理を行う際に用いる学習モデルの構成が第１学習モデルＭ１とは異なる画像処理装置について説明する。本実施形態の画像処理装置は、図１に示す実施形態１の画像処理装置１０の構成において、第１学習モデルＭ１の代わりに第４学習モデルＭ４を記憶部１２に記憶している。

【0070】

図１７は第４学習モデルＭ４の構成例を示す説明図である。第４学習モデルＭ４は、例えばＵ－Ｎｅｔ、ＦＣＮ、ＳｅｇＮｅｔ等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。第４学習モデルＭ４は、１枚の撮影画像を入力とし、入力された撮影画像に基づいて、撮影画像に含まれる背景領域及び前景領域を認識する演算と、前景領域に分類された領域中の物体を検知する演算とを行い、認識結果及び検知結果を出力するモデルである。第４学習モデルＭ４には、例えばFacebook AI Researchによって開発された「Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation」を用いることができる。具体的には、第４学習モデルＭ４は、入力された撮影画像の各画素を背景領域と前景領域とに分類すると共に、前景領域に分類された領域内の物体を検知し、前景領域に分類された各画素にラベルを付けると共に、前景領域内の各物体にバウンディングボックスを付けた分類済みの撮影画像（ラベル画像）を出力する。図１７に示す例では、第４学習モデルＭ４は、入力された撮影画像に対して前景領域に分類された画素にハッチング（グレー領域）を付け、更に前景領域中の各物体にバウンディングボックスを付けたラベル画像を出力する。これにより、第４学習モデルＭ４は、撮影画像から背景領域が除去された背景除去画像と、背景除去画像中の各物体の領域を示す情報とを出力する構成となる。なお、第４学習モデルＭ４は、撮影画像から背景領域が除去された前景領域中の各物体にバウンディングボックスを付ける代わりに、各物体の領域に異なる色を付けたラベル画像を出力するように構成されていてもよい。

【0071】

第４学習モデルＭ４は、訓練用の撮影画像と、この撮影画像中の各画素に対して背景領域及び前景領域を示すデータをラベリングし、前景領域領域内の被写体に対してバウンディングボックスを付加した正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第４学習モデルＭ４は、訓練データに含まれる撮影画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第４学習モデルＭ４は、入力された撮影画像に基づいて演算を行い、演算結果を取得し、取得した演算結果を、正解のラベル画像と比較し、両者が近似するようにパラメータを最適化する。これにより、撮影画像が入力された場合に、撮影画像中の背景領域及び前景領域を示し、前景領域中の各物体を示すラベル画像を出力する第４学習モデルＭ４が得られる。第４学習モデルＭ４の学習も、画像処理装置１０で行われてもよく、他の学習装置で行われてもよい。

【0072】

図１８は実施形態５の合成画像の提供処理手順の一例を示すフローチャート、図１９は画面例を示す説明図である。図１８に示す処理は、図３に示す処理において、ステップＳ１２，Ｓ１３の間にステップＳ６１～Ｓ６３を追加し、ステップＳ１４～Ｓ１６を削除したものである。図３と同じステップについては説明を省略する。なお、図１８では図３中のステップＳ１９～Ｓ２７の図示を省略している。

【0073】

本実施形態の画像処理装置１０において、制御部１１は、図３中のステップＳ１１～Ｓ１２と同様の処理を実行する。なお、ステップＳ１２で制御部１１は、撮影画像を第４学習モデルＭ４に入力し、第４学習モデルＭ４から出力されるラベル画像を取得する。ここでは制御部１１は、撮影画像における背景領域及び前景領域が分類され、前景領域中の各物体がバウンディングボックスで示されたラベル画像を取得する。制御部１１は、取得したラベル画像を表示部１５に表示する（Ｓ６１）。例えば制御部１１は、図１９Ａに示すような画面を表示部１５に表示し、ラベル画像をユーザに提示する。図１９Ａに示す画面は、表示中のラベル画像を介して、前景領域に分類された任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図１９Ａに示す画面において、入力部１４を介してバウンディングボックスが付けられた被写体のうちの任意の被写体を選択してＯＫボタンを操作することにより、任意の被写体に対する選択を行う。なお、第４学習モデルＭ４が、前景領域中の各物体に異なる色が付けられたラベル画像を出力する構成の場合、ユーザは、表示されたラベル画像において、各色が付けられた物体の領域を選択することにより、任意の被写体を選択するように構成されていてもよい。

【0074】

制御部１１は、任意の被写体に対する選択を受け付けたか否かを判断し（Ｓ６２）、受け付けていないと判断した場合（Ｓ６２：ＮＯ）、受け付けるまで待機する。制御部１１は、被写体に対する選択を受け付けたと判断した場合（Ｓ６２：ＹＥＳ）、ステップＳ１２で生成したラベル画像に基づいて、選択された被写体を前景領域とするラベル画像を生成する（Ｓ６３）。図１９Ａに示す画面において、３人の被写体のうちの左側及び中央の２人の被写体が選択された場合、図１９Ｂに示すようなラベル画像が生成される。そして制御部１１は、生成したラベル画像に対して補正処理を実行し（Ｓ１３）、補正後のラベル画像をマスク画像として用いて、撮影画像から被写体画像を生成する（Ｓ１７）。その後、制御部１１は、ステップＳ１８以降の処理を実行する。

【0075】

上述した処理により、本実施形態では、第４学習モデルＭ４を用いて背景除去処理を行うことにより、画像中の各画素が背景領域及び前景領域に分類されると共に、前景領域に分類された各被写体がバウンディングボックスによって識別されたラベル画像を得ることができる。よって、背景除去と共に物体検知が行われるので、処理が簡略化される。またユーザはバウンディングボックスによって所望の被写体を選択すればよいので操作性がよい。本実施形態においても、上述した実施形態１～４で適宜説明した変形例の適用が可能である。

【0076】

本実施形態の構成は、上述した実施形態１～４の画像処理装置１０に適用可能であり、実施形態１～４の画像処理装置１０に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態２の画像処理装置１０に適用した場合、図１８に示す処理において、例えばステップＳ１２，Ｓ６１の間に、図９中のステップＳ３１～Ｓ３８の処理を行えばよい。この場合、第４学習モデルＭ４を用いて背景除去されたラベル画像に対して、修正指示に基づく修正処理が可能となる。

【0077】

（実施形態６）
上述の実施形態１～５では、合成用背景画像に合成する被写体画像は静止画であった。本実施形態６では、動画である被写体画像を合成用背景画像に合成する画像処理装置について説明する。本実施形態の画像処理装置では、動画に含まれる各静止画に対して背景除去処理を行うことにより、背景領域が除去された前景画像（被写体画像）が複数生成され、複数の被写体画像をつなぎ合わせることにより動画の被写体画像が生成される構成とする。本実施形態の画像処理装置は、図１に示す実施形態１の画像処理装置１０の構成と同様であるので、構成についての説明は省略する。

【0078】

図２０は実施形態６の合成画像の提供処理手順の一例を示すフローチャート、図２１は画面例を示す説明図である。図２０に示す処理は、図３に示す処理において、ステップＳ１１の代わりにステップＳ７１～Ｓ７２を追加し、ステップＳ１５の代わりにステップＳ７３～Ｓ７５を追加し、ステップＳ１７の代わりにステップＳ７６を追加したものである。図３と同じステップについては説明を省略する。なお、図２０では図３中のステップＳ１９～Ｓ２７の図示を省略している。

【0079】

本実施形態の画像処理装置１０において、制御部１１は、動画（複数の静止画を含む撮影画像）を取得する（Ｓ７１）。ここでも、処理対象の動画は、撮影画像ＤＢ１２ａから読み出してもよく、通信部１３を介してカメラ又は他の情報処理装置から取得してもよい。制御部１１は、処理対象の動画から１枚の静止画を抽出し（Ｓ７２）、抽出した静止画に対してステップＳ１２～Ｓ１４の処理を実行する。具体的には、制御部１１は、１枚の静止画に対して背景除去処理を実行してラベル画像を生成し、ラベル画像に対して補正処理を実行し、補正後のラベル画像をマスク画像として用いて、処理対象の静止画から前景領域を抽出して前景画像を生成する。

【0080】

制御部１１は、ステップＳ７１で取得した動画に含まれる全ての静止画に対して前景画像の生成処理を終了したか否かを判断し（Ｓ７３）、終了していないと判断した場合（Ｓ７３：ＮＯ）、ステップＳ７２の処理に戻る。そして制御部１１は、取得した動画から未処理の静止画を１枚抽出し（Ｓ７２）、抽出した静止画に対してステップＳ１２～Ｓ１４の処理を行い、各静止画から前景画像を生成する。

【0081】

全ての静止画に対して前景画像の生成処理を終了したと判断した場合（Ｓ７３：ＹＥＳ）、制御部１１は、動画に含まれる各静止画から生成した前景画像をつなぎ合わせることにより前景動画を生成する（Ｓ７４）。そして制御部１１は、生成した前景動画を表示部１５に表示する（Ｓ７５）。例えば制御部１１は、図２１Ａに示すような画面を表示して前景動画をユーザに提示する。図２１Ａに示す画面は、図５Ａに示す画面と同様の構成を有しており、更に、表示中の前景動画に対して、総再生時間に対する再生位置を示すインジケータ１５ａを表示している。インジケータ１５ａによって再生位置を移動させることにより、画面に表示される前景動画の再生位置の変更が可能となる。図２１Ａに示す画面も、表示中の前景動画を介して任意の被写体に対する選択を受け付けるように構成されている。

【0082】

制御部１１は、表示中の前景動画を介して任意の被写体に対する選択を受け付けたと判断した場合（Ｓ１６：ＹＥＳ）、前景動画から、選択された被写体の領域を抽出して被写体動画を生成する（Ｓ７６）。具体的には、制御部１１は、前景動画に含まれる各前景画像（静止画）から、選択された被写体の領域を抽出して被写体画像を生成し、生成した被写体画像をつなぎ合わせることにより被写体動画を生成する。

【0083】

その後、制御部１１は、ステップＳ１８以降の処理を実行する。なお、本実施形態では、ステップＳ２０で、制御部１１は、図２１Ｂに示すような設定画面を表示する。図２１Ｂに示す設定画面は、図６Ａ，Ｂに示す画面と同様の構成を有しており、更に、表示中の被写体動画に対して総再生時間及び総再生時間に対する再生位置を示すインジケータ１５ｂと、表示中の合成用背景画像に対して総再生時間及び総再生時間に対する再生位置を示すインジケータ１５ｃとを表示している。なお、図２１Ｂに示す設定画面では、合成用背景画像として動画が選択された場合の状態を示しているので、合成用背景画像にインジケータ１５ｃが表示されるが、合成用背景画像として静止画が選択された場合にはインジケータ１５ｃは表示されない。なお、合成対象の被写体画像が動画であっても、合成用背景画像は静止画であっても動画であってもよい。

【0084】

また、図２１Ｂに示す設定画面は、合成対象の被写体動画に対して、総再生時間の入力欄、繰り返して再生する再生回数の入力欄、再生速度の入力欄等を有する構成でもよい。この場合、被写体動画に対して変倍処理及び回転処理だけでなく、総再生時間、再生回数、再生速度の指定が可能であり、被写体動画に対して任意の編集処理が可能となる。よって、ステップＳ２２で制御部１１は、設定画面に表示中の被写体動画に対して、変倍処理及び回転処理に加えて、入力された内容に基づく動画編集処理を実行する。更に、図２１Ｂに示す設定画面は、インジケータ１５ｃを介して合成用背景画像の任意の再生位置を指定し、指定された再生位置の画像（静止画）に対して、図６Ｂに示すようなドラッグ操作によって被写体動画の合成位置を指定できる構成でもよい。この場合、動画である合成用背景画像の任意の再生位置から、任意の合成位置に被写体画像を合成することが可能となる。よって、ステップＳ２６で制御部１１は、合成用背景画像の任意の再生位置から、各画像（静止画）に対して指定された合成位置に、ステップＳ２２で画像処理及び動画編集処理を行った被写体動画を合成して合成画像の動画を生成することができる。上述した処理により、被写体動画が任意の合成用背景画像の動画に合成された合成動画が生成される。

【0085】

上述した処理により、本実施形態では、被写体を撮影した動画に含まれる各静止画に背景除去処理を行うことにより、背景領域が除去された被写体動画を生成できる。よって、被写体の静止画だけでなく動画を合成対象とすることができるので、より自由度の高い合成画像の生成が可能となる。本実施形態においても、上述した実施形態１～５で適宜説明した変形例の適用が可能である。

【0086】

本実施形態の構成は、上述した実施形態１～５の画像処理システムに適用可能であり、実施形態１～５の画像処理システムに適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態２の画像処理装置１０に適用した場合、図２０に示す処理においてステップＳ１２，Ｓ１３の間に、図９中のステップＳ３１～Ｓ３８の処理を行えばよい。この場合であっても、撮影画像中の背景領域及び前景領域が分類されたラベル画像に対して、分類結果の修正が可能であり、更に補正処理が可能であるので、より精度の高いラベル画像を生成できる。

【0087】

本実施形態の構成を実施形態３の画像処理装置１０に適用した場合、合成対象の被写体を選択する処理を、被写体を撮影した動画に含まれる各静止画に対する背景除去処理の実行前に行えばよい。また、本実施形態の構成を実施形態４の画像処理装置１０に適用した場合、被写体を撮影した動画に１つの被写体しか写っていない場合に、当該被写体を合成対象に特定することができる。更に、本実施形態の構成を実施形態５の画像処理装置１０に適用した場合、動画に含まれる各静止画に対して第４学習モデルＭ４を用いた背景除去処理を行えばよい。具体的には、図２０に示す処理において、ステップＳ１２で第４学習モデルＭ４を用いた背景除去処理を行った後に、図１８中のステップＳ６１～Ｓ６３の処理を行えばよく、ステップＳ１４，Ｓ７４～Ｓ７５，Ｓ１６の処理を省略することができる。この場合であっても、第４学習モデルＭ４を用いた背景除去処理によって識別された前景領域内の被写体を用いて、合成対象の被写体の選択を行うことができる。

【0088】

（実施形態７）
上述の実施形態１～６の画像処理装置１０を各種の施設に設置する場合のシステム構成について説明する。図２２は画像処理システムの構成例を示す説明図である。本実施形態の画像処理システムは、例えば遊園地、テーマパーク、水族館、動物園、植物園、展示会、観光地等の施設に設置され、記念撮影として撮影された画像に対して利用される。本実施形態の画像処理システムは、画像処理装置１０、カメラ２０（撮像装置）、タッチパネル３０及びプリンタ４０等を有し、各装置１０，２０，３０，４０はネットワークＮ経由で通信する構成でもよく、有線通信又は無線通信で直接通信する構成でもよい。カメラ２０は、１回の撮影指示に対応して１枚の画像データ（静止画）を取得する撮影処理と、例えば１秒間に３０枚又は１５枚の画像データ（動画）を取得する撮影処理とを行うように構成されている。なお、カメラ２０は、施設に設置され、施設のカメラマンが撮影を行うカメラであってもよく、施設を利用するユーザが使用するカメラであってもよい。なお、ユーザが使用するカメラは、スマートフォン、タブレット端末等に搭載されているカメラであってもよい。

【0089】

本実施形態の画像処理システムでは、上述の実施形態１～６で画像処理装置１０の表示部１５に表示されていた各種の画面がタッチパネル３０に表示され、入力部１４を介して入力されていた各種の情報がタッチパネル３０を介して入力される。このような構成でも、上述の実施形態１～６の画像処理システムと同様の処理が可能であり、同様の効果が得られる。

【0090】

以上の実施形態１～７を含む実施の形態に関し、更に以下の付記を開示する。

【0091】

（付記１）
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータに実行させるプログラム。

【0092】

（付記２）
前記背景除去画像における背景領域又は前景領域に対する修正指示を受け付け、
背景除去画像と、前記背景除去画像における背景領域又は前景領域に対する修正指示とを入力した場合に、前記背景領域又は前景領域が修正された修正後の背景除去画像を出力するように学習された第３学習モデルに、取得した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像に対して受け付けた修正指示とを入力して、入力した前記背景除去画像における背景領域又は前景領域が修正された修正後の背景除去画像を取得する
処理を前記コンピュータに実行させる付記１に記載のプログラム。

【0093】

（付記３）
前記撮影画像に含まれる被写体の少なくとも１つを選択し、
前記撮影画像から、選択した被写体を含む被写体領域を抽出し、
抽出した被写体領域を前記第１学習モデルに入力して、前記被写体領域から背景領域が除去された背景除去画像を取得する
処理を前記コンピュータに実行させる付記１又は２に記載のプログラム。

【0094】

（付記４）
前記撮影画像中の被写体を検知し、
検知した被写体に基づいて、選択すべき被写体を特定する
処理を前記コンピュータに実行させる付記３に記載のプログラム。

【0095】

（付記５）
前記撮影画像に含まれる被写体の少なくとも１つを選択し、
前記補正後の背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記１～４のいずれかひとつに記載のプログラム。

【0096】

（付記６）
前記第１学習モデルは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各物体の領域を示す情報とを出力するように学習されており、
前記第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各被写体の領域を示す情報とを取得する
処理を前記コンピュータに実行させる付記１～５のいずれかひとつに記載のプログラム。

【0097】

（付記７）
取得した前記背景除去画像中の各被写体の領域を示す情報に基づいて、前記被写体の少なくとも１つを選択し、
前記背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記６に記載のプログラム。

【0098】

（付記８）
前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記１～７のいずれかひとつに記載のプログラム。

【0099】

（付記９）
複数の合成用画像のいずれかを選択し、
選択した合成用画像に、前記撮影画像から抽出した前記被写体の撮影領域を合成する
処理を前記コンピュータに実行させる付記８に記載のプログラム。

【0100】

（付記１０）
前記撮影画像を複数取得し、
複数の前記撮影画像のそれぞれを前記第１学習モデルに入力して、前記撮影画像のそれぞれから背景領域が除去された背景除去画像を取得し、
複数の前記背景除去画像を前記第２学習モデルに入力して、前記背景除去画像のそれぞれにおける背景領域が補正された補正後の背景除去画像を取得し、
前記複数の撮影画像のそれぞれについて、前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出し、
前記複数の撮影画像からそれぞれ抽出された前記被写体の撮影領域を動画として合成用画像に合成する
処理を前記コンピュータに実行させる付記９に記載のプログラム。

【0101】

（付記１１）
前記合成用画像に前記被写体の撮影領域を合成する際に前記被写体の撮影領域に行う画像処理、及び前記合成用画像に対する合成位置の入力を受け付け、
前記被写体の撮影領域に対して、受け付けた画像処理を行い、画像処理後の前記被写体の撮影領域を、前記合成用画像中の受け付けた合成位置に合成する
処理を前記コンピュータに実行させる付記９に記載のプログラム。

【0102】

（付記１２）
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータが実行する画像処理方法。

【0103】

（付記１３）
撮影画像を取得する画像取得部と、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第１学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得する背景除去部と、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第２学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する補正部と
を備える画像処理装置。

【0104】

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0105】

１０画像処理装置
１１制御部
１２記憶部
１３通信部
１４入力部
１５表示部
Ｍ１第１学習モデル
Ｍ２第２学習モデル
Ｍ３第３学習モデル
Ｍ４第４学習モデル

【図1】