IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2024-58372プログラム、画像処理方法、及び画像処理装置
<>
  • 特開-プログラム、画像処理方法、及び画像処理装置 図1
  • 特開-プログラム、画像処理方法、及び画像処理装置 図2
  • 特開-プログラム、画像処理方法、及び画像処理装置 図3
  • 特開-プログラム、画像処理方法、及び画像処理装置 図4
  • 特開-プログラム、画像処理方法、及び画像処理装置 図5
  • 特開-プログラム、画像処理方法、及び画像処理装置 図6
  • 特開-プログラム、画像処理方法、及び画像処理装置 図7
  • 特開-プログラム、画像処理方法、及び画像処理装置 図8
  • 特開-プログラム、画像処理方法、及び画像処理装置 図9
  • 特開-プログラム、画像処理方法、及び画像処理装置 図10
  • 特開-プログラム、画像処理方法、及び画像処理装置 図11
  • 特開-プログラム、画像処理方法、及び画像処理装置 図12
  • 特開-プログラム、画像処理方法、及び画像処理装置 図13
  • 特開-プログラム、画像処理方法、及び画像処理装置 図14
  • 特開-プログラム、画像処理方法、及び画像処理装置 図15
  • 特開-プログラム、画像処理方法、及び画像処理装置 図16
  • 特開-プログラム、画像処理方法、及び画像処理装置 図17
  • 特開-プログラム、画像処理方法、及び画像処理装置 図18
  • 特開-プログラム、画像処理方法、及び画像処理装置 図19
  • 特開-プログラム、画像処理方法、及び画像処理装置 図20
  • 特開-プログラム、画像処理方法、及び画像処理装置 図21
  • 特開-プログラム、画像処理方法、及び画像処理装置 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024058372
(43)【公開日】2024-04-25
(54)【発明の名称】プログラム、画像処理方法、及び画像処理装置
(51)【国際特許分類】
   G06T 7/194 20170101AFI20240418BHJP
   G06T 7/00 20170101ALI20240418BHJP
   H04N 23/60 20230101ALI20240418BHJP
【FI】
G06T7/194
G06T7/00 350B
H04N5/232 290
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022165685
(22)【出願日】2022-10-14
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】宮内 翼
(72)【発明者】
【氏名】倉持 惇彩
(72)【発明者】
【氏名】西本 卓也
(72)【発明者】
【氏名】清野 創
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122EA61
5C122FH03
5C122FH09
5C122FH10
5C122FH19
5C122FK12
5C122FK28
5C122FK37
5C122FK40
5C122FK42
5C122FL08
5C122HA48
5C122HB01
5C122HB05
5L096DA01
5L096EA07
5L096FA19
5L096KA04
5L096KA15
5L096MA03
(57)【要約】
【課題】グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することが可能なプログラム等を提供する。
【解決手段】コンピュータは撮影画像を取得する。コンピュータは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した撮影画像を入力して、入力した撮影画像から背景領域が除去された背景除去画像を取得する。そして、コンピュータは、撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した撮影画像及び背景除去画像を入力して、入力した背景除去画像における背景領域が補正された補正後の背景除去画像を取得する。
【選択図】図1
【特許請求の範囲】
【請求項1】
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータに実行させるプログラム。
【請求項2】
前記背景除去画像における背景領域又は前景領域に対する修正指示を受け付け、
背景除去画像と、前記背景除去画像における背景領域又は前景領域に対する修正指示とを入力した場合に、前記背景領域又は前景領域が修正された修正後の背景除去画像を出力するように学習された第3学習モデルに、取得した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像に対して受け付けた修正指示とを入力して、入力した前記背景除去画像における背景領域又は前景領域が修正された修正後の背景除去画像を取得する
処理を前記コンピュータに実行させる請求項1に記載のプログラム。
【請求項3】
前記撮影画像に含まれる被写体の少なくとも1つを選択し、
前記撮影画像から、選択した被写体を含む被写体領域を抽出し、
抽出した被写体領域を前記第1学習モデルに入力して、前記被写体領域から背景領域が除去された背景除去画像を取得する
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。
【請求項4】
前記撮影画像中の被写体を検知し、
検知した被写体に基づいて、選択すべき被写体を特定する
処理を前記コンピュータに実行させる請求項3に記載のプログラム。
【請求項5】
前記撮影画像に含まれる被写体の少なくとも1つを選択し、
前記補正後の背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。
【請求項6】
前記第1学習モデルは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各物体の領域を示す情報とを出力するように学習されており、
前記第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各被写体の領域を示す情報とを取得する
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。
【請求項7】
取得した前記背景除去画像中の各被写体の領域を示す情報に基づいて、前記被写体の少なくとも1つを選択し、
前記背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項6に記載のプログラム。
【請求項8】
前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。
【請求項9】
複数の合成用画像のいずれかを選択し、
選択した合成用画像に、前記撮影画像から抽出した前記被写体の撮影領域を合成する
処理を前記コンピュータに実行させる請求項8に記載のプログラム。
【請求項10】
前記撮影画像を複数取得し、
複数の前記撮影画像のそれぞれを前記第1学習モデルに入力して、前記撮影画像のそれぞれから背景領域が除去された背景除去画像を取得し、
複数の前記背景除去画像を前記第2学習モデルに入力して、前記背景除去画像のそれぞれにおける背景領域が補正された補正後の背景除去画像を取得し、
前記複数の撮影画像のそれぞれについて、前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出し、
前記複数の撮影画像からそれぞれ抽出された前記被写体の撮影領域を動画として合成用画像に合成する
処理を前記コンピュータに実行させる請求項9に記載のプログラム。
【請求項11】
前記合成用画像に前記被写体の撮影領域を合成する際に前記被写体の撮影領域に行う画像処理、及び前記合成用画像に対する合成位置の入力を受け付け、
前記被写体の撮影領域に対して、受け付けた画像処理を行い、画像処理後の前記被写体の撮影領域を、前記合成用画像中の受け付けた合成位置に合成する
処理を前記コンピュータに実行させる請求項9に記載のプログラム。
【請求項12】
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータが実行する画像処理方法。
【請求項13】
撮影画像を取得する画像取得部と、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得する背景除去部と、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する補正部と
を備える画像処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、プログラム、画像処理方法、及び画像処理装置に関する。
【背景技術】
【0002】
カメラで撮影した画像から前景となる領域を抽出して他の画像に合成する画像合成が行われている。画像から背景領域を除去する技術として、例えば特許文献1では、グリーンバックを背景にして被写体を撮影することにより、撮影画像から被写体の撮影領域を抽出するクロマキー処理が開示されている。また、事前に取得した画像と、新たに取得した画像との差分を算出することにより、事前に取得した画像には存在しない被写体を抽出する背景差分法による背景除去処理も行われている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-127165号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
クロマキー処理による背景除去を行う場合、グリーンバックを設置する必要があるので、グリーンバックを設置できない場所ではクロマキー処理による背景除去は行えない。また、クロマキー処理による背景除去では、前景となる被写体がグリーンバックと同じ色である場合に、同じ色の領域が背景として除去されるという問題がある。背景差分法による背景除去でも、背景と同じ色の領域は前景領域であっても背景として除去される。また、背景差分法による背景除去では、明度(輝度)が異なる領域についても差分領域として抽出されるので、明るさ等の撮影条件が異なる場合、正確に前景領域を抽出することは難しい。更に、背景差分法による背景除去では、背景画像を事前に撮影する必要があり、撮影位置が変更される都度、背景画像を準備する必要があるという問題がある。
【0005】
本開示は、斯かる事情に鑑みてなされたものであり、その目的とするところは、グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することが可能なプログラム等を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一態様に係るプログラムは、撮影画像を取得し、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する処理をコンピュータに実行させる。
【発明の効果】
【0007】
本発明の一態様では、グリーンバック等を用いることなく、撮影画像から背景領域を精度良く除去することができる。
【図面の簡単な説明】
【0008】
図1】画像処理装置の構成例を示すブロック図である。
図2】学習モデルの構成例を示す説明図である。
図3】合成画像の提供処理手順の一例を示すフローチャートである。
図4】背景除去処理の説明図である。
図5】画面例を示す説明図である。
図6】画面例を示す説明図である。
図7】画面例を示す説明図である。
図8】第3学習モデルの構成例を示す説明図である。
図9】実施形態2の合成画像の提供処理手順の一例を示すフローチャートである。
図10】画面例を示す説明図である。
図11】実施形態3の合成画像の提供処理手順の一例を示すフローチャートである。
図12】画面例を示す説明図である。
図13】実施形態3の背景除去処理の説明図である。
図14】実施形態4の合成画像の提供処理手順の一例を示すフローチャートである。
図15】画面例を示す説明図である。
図16】実施形態4の合成画像の提供処理手順の他の例を示すフローチャートである。
図17】第4学習モデルの構成例を示す説明図である。
図18】実施形態5の合成画像の提供処理手順の一例を示すフローチャートである。
図19】画面例を示す説明図である。
図20】実施形態6の合成画像の提供処理手順の一例を示すフローチャートである。
図21】画面例を示す説明図である。
図22】画像処理システムの構成例を示す説明図である。
【発明を実施するための形態】
【0009】
以下に、本開示のプログラム、画像処理方法、及び画像処理装置について、その実施形態を示す図面に基づいて詳述する。
【0010】
(実施形態1)
図1は画像処理装置の構成例を示すブロック図である。本実施形態では、カメラを用いて撮影した撮影画像から被写体の撮影領域を抽出し、抽出した被写体の撮影領域を他の画像に合成する画像処理装置について説明する。画像処理装置10は、種々の情報処理及び情報の送受信が可能な情報処理装置であり、例えばパーソナルコンピュータ、サーバコンピュータ等である。画像処理装置10は、制御部11、記憶部12、通信部13、入力部14、表示部15、読み取り部16等を有し、これらの各部はバスを介して接続されている。制御部11は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)、又はAIチップ(AI用半導体)等の1又は複数のプロセッサを含む。制御部11は、記憶部12に記憶されたプログラム12Pを適宜実行することにより、画像処理装置10が行うべき情報処理及び制御処理を実行する。
【0011】
記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、ハードディスク、SSD(Solid State Drive)等を含む。記憶部12は、制御部11が実行するプログラム12P(プログラム製品)及び各種のデータを記憶している。また記憶部12は、制御部11がプログラム12Pを実行する際に発生するデータ等を一時的に記憶する。プログラム12P及び各種のデータは、画像処理装置10の製造段階において記憶部12に書き込まれてもよく、制御部11が通信部13を介して他の装置からダウンロードして記憶部12に記憶してもよい。また記憶部12は、例えば機械学習によって訓練データを学習済みの第1学習モデルM1及び第2学習モデルM2を記憶している。学習モデルM1,M2は、人工知能ソフトウェアを構成するプログラムモジュールとしての利用が想定される。学習モデルM1,M2は、入力値に対して所定の演算を行い、演算結果を出力するものであり、記憶部12には、この演算を規定する関数の係数や閾値等のデータが学習モデルM1,M2として記憶される。
【0012】
また記憶部12は、撮影画像DB12a及び合成用背景DB12bを記憶している。撮影画像DB12aは、画像処理装置10によって所定の画像処理が行われる処理対象の画像が蓄積されたデータベースである。撮影画像DB12aに記憶される撮影画像は、通信部13を介してカメラ又は他の情報処理装置から受信した画像であってもよく、画像処理装置10がカメラを備える場合、画像処理装置10のカメラで撮影した画像であってもよい。合成用背景DB12bは、撮影画像から抽出された被写体の撮影領域(以下では被写体画像という)を合成する合成用の背景画像(合成用画像)が蓄積されたデータベースである。合成用背景画像は、複数種類の画像であり、静止画であっても動画であってもよい。学習モデルM1,M2、撮影画像DB12a、及び合成用背景DB12bの一部又は全部は、画像処理装置10に接続された他の記憶装置に記憶されてもよく、画像処理装置10が通信可能な他の記憶装置に記憶されてもよい。
【0013】
通信部13は、有線通信又は無線通信に関する処理を行うための通信モジュールであり、ネットワークNを介して他の装置との間で情報の送受信を行う。ネットワークNは、インターネット又は公衆電話回線網であってもよく、画像処理装置10が設けられている施設内に構築されたLAN(Local Area Network)であってもよい。入力部14は、ユーザによる操作入力を受け付け、操作内容に対応した制御信号を制御部11へ送出する。表示部15は、液晶ディスプレイ又は有機ELディスプレイ等であり、制御部11からの指示に従って各種の情報を表示する。入力部14の一部及び表示部15は一体として構成されたタッチパネルであってもよく、また、タッチパネルは画像処理装置10に外付けされている構成でもよい。
【0014】
読み取り部16は、CD(Compact Disc)、DVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ、SDカード、マイクロSDカード、コンパクトフラッシュ(登録商標)等の可搬型記憶媒体10aに記憶された情報を読み取る。記憶部12に記憶されるプログラム12P及び各種のデータは、制御部11が読み取り部16を介して可搬型記憶媒体10aから読み取って記憶部12に記憶してもよい。
【0015】
本実施形態において、画像処理装置10は、複数のコンピュータを含んで構成されるマルチコンピュータであってもよく、1台の装置内にソフトウェアによって仮想的に構築された仮想マシンであってもよく、クラウドサーバであってもよい。また、プログラム12Pは、単一のコンピュータ上で、又は1つのサイトにおいて配置されて実行されてもよく、もしくは複数のサイトにわたって分散され、ネットワークNを介して相互に接続された複数のコンピュータ上で実行されるように展開することができる。更に、画像処理装置10は、入力部14及び表示部15は必須ではなく、接続されたコンピュータを通じて操作を受け付ける構成でもよく、表示すべき情報を外部の表示装置へ出力する構成でもよい。
【0016】
本実施形態の画像処理装置10において、制御部11は、記憶部12に記憶されたプログラム12Pを読み出して実行することにより、撮影画像に対して、背景領域を除去して前景領域(被写体領域)を抽出して被写体画像を生成する処理を実行する。また制御部11は、撮影画像から生成した被写体画像を合成用背景画像に合成する処理を実行する。よって、本実施形態の画像処理装置10は、撮影画像から生成された被写体画像を任意の合成用背景画像に合成した合成後の画像をユーザに提供することができる。なお、本実施形態の画像処理装置10では、制御部11は、撮影画像から被写体領域を抽出する背景除去処理を行う際に学習モデルM1,M2を用いる。
【0017】
図2は学習モデルM1,M2の構成例を示す説明図である。学習モデルM1,M2は、入力された画像に含まれる所定のオブジェクトを認識するモデルであり、例えばセマンティックセグメンテーションにより、画像中のオブジェクトを画素単位で分類することができる。学習モデルM1,M2は、例えばU-Net、FCN(Fully Convolutional Network )、SegNet等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。
【0018】
第1学習モデルM1は、1枚の撮影画像を入力とし、入力された撮影画像に基づいて、撮影画像に含まれる背景領域及び前景領域(被写体領域)を認識する演算を行い、認識した結果を出力するモデルである。第1学習モデルM1には、例えばByteDance Inc.によって開発された「Robust Video Matting」を用いることができる。具体的には、第1学習モデルM1は、入力された撮影画像の各画素を背景領域と前景領域とに分類し、各画素に領域毎のラベルを対応付けた分類済みの撮影画像(以下ではラベル画像という)を出力する。図2Aに示す例では、第1学習モデルM1は、背景領域に分類された画素を黒で示し、前景領域に分類された画素を白で示したラベル画像を出力する。これにより、第1学習モデルM1は、撮影画像から背景領域が除去された背景除去画像を出力する構成となる。
【0019】
第1学習モデルM1は、訓練用の撮影画像と、この撮影画像中の各画素に対して、判別すべきオブジェクト(ここでは背景領域及び前景領域)を示すデータがラベリングされた正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第1学習モデルM1は、訓練データに含まれる撮影画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第1学習モデルM1は、入力された撮影画像に基づいて演算を行い、撮影画像中の各オブジェクト(ここでは背景領域及び前景領域)を検出した検出結果を取得する。より具体的には、第1学習モデルM1は、撮影画像中の各画素に対して、分類されたオブジェクトの種類を示す値がラベリングされたラベル画像を出力として取得する。そして第1学習モデルM1は、取得した検出結果(ラベル画像)を、正解のラベル画像における各オブジェクトの範囲及び種類と比較し、両者が近似するように、ニューロン間の重み(結合係数)等のパラメータを最適化する。パラメータの最適化の方法は特に限定されないが、最急降下法、誤差逆伝播法等を用いることができる。これにより、撮影画像が入力された場合に、撮影画像中の背景領域及び前景領域を示すラベル画像を出力する第1学習モデルM1が得られる。
【0020】
第1学習モデルM1は、撮影画像中の各画素を背景領域又は前景領域に分類した正解のラベル画像を訓練データに用いて学習を行うが、学習済みの第1学習モデルM1を用いて撮影画像からラベル画像を取得した場合、背景領域及び前景領域の境界が明確に分類されない場合がある。図2Aのラベル画像では、被写体の子供の足及び竹刀の一部が欠損している。そこで、本実施形態では、第1学習モデルM1で得られたラベル画像における背景領域及び前景領域の境界を、第2学習モデルM2を用いて明確にする補正処理が行われる。
【0021】
第2学習モデルM2は、1枚の撮影画像と、第1学習モデルM1を用いてこの撮影画像から生成されたラベル画像とを入力とし、入力された撮影画像及びラベル画像に基づいて、ラベル画像における背景領域及び前景領域(被写体領域)の境界を補正する演算を行い、補正した結果を出力するモデルである。第2学習モデルM2には、例えばTencent Inc.によって開発された「Cascade PSP」を用いることができる。具体的には、第2学習モデルM2は、入力されたラベル画像における背景領域及び前景領域の境界を、撮影画像及びラベル画像に基づいて補正し、補正後のラベル画像を出力する。補正後のラベル画像では、補正前のラベル画像における前景領域及び背景領域の過不足領域が調整され、前景領域の欠損箇所が前景領域に補正され、前景領域の過剰箇所が背景領域に補正される。
【0022】
第2学習モデルM2は、訓練用の撮影画像と、第1学習モデルM1を用いてこの撮影画像から生成されたラベル画像と、この撮影画像中の各画素に対して、判別すべきオブジェクト(ここでは背景領域及び前景領域)を示すデータがラベリングされた正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第2学習モデルM2は、訓練データに含まれる撮影画像及びラベル画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第2学習モデルM2は、入力された撮影画像及びラベル画像に基づいて演算を行い、入力されたラベル画像における背景領域及び前景領域の境界を補正した補正結果(補正後のラベル画像)を取得する。そして第2学習モデルM2は、取得した補正後のラベル画像を、訓練データが示す正解のラベル画像と比較し、両者が近似するように、最急降下法、誤差逆伝播法等を用いてパラメータを最適化する。これにより、撮影画像及びラベル画像が入力された場合に、ラベル画像中の背景領域及び前景領域の境界が補正されたラベル画像を出力する第2学習モデルM2が得られる。図2Bに示す例では、補正前のラベル画像は被写体の子供の足及び竹刀の一部が欠損しているが、補正後のラベル画像は欠損部分が補完されており、ラベル画像における背景領域及び前景領域の境界が明確となっている。
【0023】
学習モデルM1,M2の学習は、画像処理装置10で行われてもよく、他の学習装置で行われてもよい。他の学習装置で学習が行われて生成された学習済みの学習モデルM1,M2は、例えばネットワークN経由又は可搬型記憶媒体10a経由で学習装置から画像処理装置10にダウンロードされて記憶部12に記憶される。画像処理装置10は、上述したような学習モデルM1,M2を予め用意しておき、カメラで撮影した撮影画像中の背景領域を除去して前景領域を抽出する背景除去処理に用いる。具体的には、画像処理装置10は、第1学習モデルM1を用いて、撮影画像における背景領域及び前景領域が分類されたラベル画像を取得し、第2学習モデルM2を用いて、撮影画像及びラベル画像に基づいてラベル画像における背景領域及び前景領域の境界が補正された補正後のラベル画像を取得する。そして、画像処理装置10は、補正後のラベル画像を、背景領域がマスクされたマスク画像として用い、撮影画像から、マスクされていない前景領域を抽出することにより、背景領域が除去された前景画像(被写体画像)を生成する。画像処理装置10は、上述した処理を行うことにより、撮影画像から背景領域を除去する背景除去処理を実現し、撮影画像から背景領域が除去された前景画像を生成することができる。
【0024】
以下に、本実施形態の画像処理装置10が撮影画像に対して背景除去処理を行って前景画像(被写体画像)を生成し、生成した前景画像を任意の合成用背景画像に合成して提供する処理について説明する。図3は合成画像の提供処理手順の一例を示すフローチャート、図4は背景除去処理の説明図、図5~7は画面例を示す説明図である。以下の処理は、画像処理装置10の制御部11が、記憶部12に記憶してあるプログラム12Pに従って行う。
【0025】
画像処理装置10の制御部11(画像取得部)は、処理対象の撮影画像を取得する(S11)。撮影画像は例えば図4Aに示すような画像であり、任意の撮影場所で撮影された画像、カメラマンが手に持ったカメラで撮影した画像、撮影位置が固定されたカメラで撮影された画像等、どのような撮影画像でもよい。処理対象の撮影画像は、撮影画像DB12aから読み出してもよく、通信部13を介してカメラ又は他の情報処理装置から取得してもよい。制御部11(背景除去部)は、取得した撮影画像に対して背景除去処理を実行する(S12)。具体的には、制御部11は、撮影画像を第1学習モデルM1に入力し、第1学習モデルM1から出力されるラベル画像を取得する。ここでは制御部11は、図4Bに示すように、撮影画像における背景領域及び前景領域が分類されたラベル画像を取得する。図4Bに示すラベル画像では、3人の被写体の撮影領域を前景領域とし、これ以外の領域を背景領域とする。
【0026】
次に制御部11(補正部)は、背景除去処理によって取得したラベル画像に対して、背景領域及び前景領域の境界を補正する補正処理を実行する(S13)。具体的には、制御部11は、撮影画像及びラベル画像を第2学習モデルM2に入力し、第2学習モデルM2から出力される補正後のラベル画像を取得する。ここでは制御部11は、図4Cに示すような補正後のラベル画像を取得する。図4Cに示す補正後のラベル画像では、例えば図4Bに示すラベル画像において欠損していた、左側の被写体の両手、中央の被写体の両足、及び右側の被写体の両足の一部(欠損箇所)が補完されている。
【0027】
そして、制御部11は、補正後のラベル画像をマスク画像として用いて、撮影画像から、マスク画像中の白領域に対応する領域を抽出することにより、撮影画像中の前景領域を抽出して前景画像を生成する(S14)。ここでは制御部11は、図4Dに示すように、3人の被写体を含む前景画像を生成する。これにより、撮影画像から背景領域が除去された前景画像(背景除去画像)が生成される。
【0028】
制御部11は、生成した前景画像を表示部15に表示する(S15)。例えば制御部11は、図5Aに示すような画面を表示部15に表示し、生成した前景画像をユーザに提示する。図5Aに示す画面は、表示中の前景画像を介して、前景画像に含まれる任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図5Aに示す画面において、入力部14を介して任意の被写体を選択してOKボタンを操作することにより、任意の被写体に対する選択を行う。制御部11は、任意の被写体に対する選択を受け付けたか否かを判断する(S16)。図5Aに示す例では、前景画像中に3人の被写体が写っており、中央の被写体に対する選択を受け付けた状態を示している。なお、複数の被写体が選択されてもよい。また、前景画像を表示する際に、制御部11は、例えば前景画像に対して物体検知処理を行うことによって、前景画像中の各被写体を検出し、検出した各被写体をバウンディングボックスで提示するように構成されていてもよい。この場合、ユーザがいずれかのバウンディングボックスを選択することにより、任意の被写体を選択できるように構成することができる。
【0029】
制御部11は、被写体に対する選択を受け付けていないと判断した場合(S16:NO)、受け付けるまで待機する。制御部11は、被写体に対する選択を受け付けたと判断した場合(S16:YES)、前景画像から、選択された被写体の領域を抽出して被写体画像を生成する(S17)。ここでは制御部11は、図4Eに示すように、選択された被写体のみを含む被写体画像を生成する。なお、前景画像に含まれる任意の被写体に対する選択処理は必ずしも行う必要はなく、前景画像をそのまま被写体画像として用いてもよい。この場合、制御部11は、ステップS14の処理後、ステップS15~S17の処理をスキップし、ステップS14で生成した前景画像を被写体画像としてステップS18以降の処理を実行する構成としてもよい。
【0030】
次に制御部11は、生成した被写体画像を合成する合成用背景画像に対する選択を受け付けるために、合成用背景画像の一覧を表示する(S18)。ここでは、制御部11は、合成用背景DB12bに記憶してある合成用背景画像を読み出して、図5Bに示すような画面を表示部15に表示し、合成用背景画像の一覧をユーザに提示する。図5Bに示す画面は、合成用背景画像として用意された静止画と動画のサムネイル画像(例えば最初の画像)とを表示しており、いずれかの合成用背景画像に対する選択を受け付けるように構成されている。また、図5Bに示す画面は、動画の合成用背景画像に対して、総再生時間と、総再生時間に対する再生位置を示すインジケータとを表示しており、インジケータを介して再生位置を移動させることにより、画面に表示される動画の再生位置を変更させることができる。ユーザは、図5Bに示す画面において、入力部14を介していずれかの合成用背景画像を選択してOKボタンを操作することにより、いずれかの合成用背景画像に対する選択を行う。制御部11は、いずれかの合成用背景画像に対する選択を受け付けたか否かを判断しており(S19)、受け付けていないと判断した場合(S19:NO)、受け付けるまで待機する。
【0031】
制御部11は、いずれかの合成用背景画像に対する選択を受け付けたと判断した場合(S19:YES)、選択された合成用背景画像に、ステップS17で生成した被写体画像を合成する際に、被写体画像に対して行う画像処理の設定を受け付けるための設定画面を表示部15に表示する(S20)。例えば制御部11は、図6Aに示すように、合成用背景画像及び被写体画像を表示し、被写体画像に対して行う画像処理の処理内容を入力するための入力欄を有する設定画面を表示する。被写体画像に対して行う画像処理は、被写体画像を拡大又は縮小する変倍処理、及び被写体画像を回転させる回転処理を含む。よって、設定画面は、被写体画像の幅及び高さに対する変倍率の入力欄と、回転角度の入力欄とを有し、各入力欄は、任意の数値を入力できる構成でもよく、複数の選択肢の中から任意の1つを選択するためのプルダウンメニューが設けられていてもよい。なお、図6Aに示す設定画面は、被写体画像に対して、例えばピンチアウト及びピンチイン操作によって拡大率又は縮小率を入力できる構成でもよい。更に、設定画面は、図6Bに示すようなドラッグ操作によって、被写体画像を合成用背景画像に合成する合成位置(合成用画像中の合成位置)を指定できるように構成されている。なお、被写体画像に実行可能な画像処理は、変倍処理及び回転処理に限定されない。
【0032】
ユーザは、図6A,Bに示す画面において、入力部14を介して、被写体画像の幅及び高さに対する変倍率と、回転角度と、合成用背景画像に対する被写体画像の合成位置とを入力して合成実行ボタンを操作することにより、合成用背景画像に対する被写体画像の合成処理の実行を指示する。制御部11は、図6A,Bに示す設定画面において、画像処理の処理内容の入力を受け付けたか否かを判断しており(S21)、受け付けたと判断した場合(S21:YES)、入力された処理内容(具体的には、変倍率及び回転角度)を各入力欄に表示する。そして制御部11は、表示中の被写体画像に対して、入力された処理内容の画像処理を実行する(S22)。ここでは、制御部11は、変倍率が入力された場合、入力された変倍率での変倍処理(拡大処理又は縮小処理)を、表示中の被写体画像に対して実行し、回転角度が入力された場合、入力された回転角度での回転処理を表示中の被写体画像に対して実行する。そして、制御部11は、表示中の被写体画像を、画像処理後の被写体画像に更新する。図6Bの画面では、図6Aの画面中の被写体画像に対して縮小処理が行われた後の被写体画像が表示されている。被写体画像に対する画像処理は、必ずしも行う必要はなく、画像処理の処理内容の入力を受け付けていないと判断した場合(S21:NO)、制御部11は、ステップS22の処理をスキップする。
【0033】
次に制御部11は、図6A,Bに示す設定画面において、合成用背景画像に対する被写体画像の合成位置の入力を受け付けたか否かを判断しており(S23)、受け付けたと判断した場合(S23:YES)、図6Bに示すように、被写体画像を、指定された合成位置に移動させる(S24)。そして、制御部11は、合成実行ボタンが操作されたか否かを判断し(S25)、操作されていないと判断した場合(S25:NO)、ステップS21の処理に戻り、画像処理内容及び合成位置の入力受付を継続する。なお、制御部11は、合成位置の入力を受け付けていないと判断した場合も(S23:NO)、ステップS21の処理に戻る。
【0034】
合成実行ボタンが操作されたと判断した場合(S25:YES)、制御部11は、選択された合成用背景画像に対して、選択された被写体画像を合成する合成処理を行う(S26)。具体的には、制御部11は、ステップS19で選択された合成用背景画像において、ステップS23~S24で指定された合成位置に、ステップS22で画像処理を行った被写体画像を合成して合成画像を生成する。制御部11は、生成した合成画像を出力し(S27)、一連の処理を終了する。例えば制御部11は、図7に示すような画面を表示部15に表示することにより、生成した合成画像を表示してユーザに提示する。
【0035】
図7に示す画面は、合成画像を表示し、合成画像の生成のやり直しを指示するためのやり直すボタン、合成画像の印刷を指示するための印刷ボタン、合成画像の送信を指示するための送信ボタンを有する。図7に示す画面において、やり直すボタンが操作された場合、画像処理装置10の制御部11は、例えば図3中のステップS20の処理に戻り、画像処理及び合成処理を再度実行する。なお、制御部11は、合成用背景画像の選択からやり直す場合、図3中のステップS18の処理に戻ってもよく、被写体の選択からやり直す場合、図3中のステップS15の処理に戻ってもよい。図7に示す画面において、印刷ボタンが操作された場合、画像処理装置10の制御部11は、ネットワークN経由又は直接接続されているプリンタに合成画像を送信して、合成画像を印刷する。また、送信ボタンが操作された場合、制御部11は、ネットワークN経由又は近距離無線通信等によって、指定された端末に合成画像を送信する。なお、制御部11は、図7に示す画面を表示することなく、生成した合成画像をプリンタによって印刷してもよく、所定の端末へ送信してもよい。
【0036】
上述した処理により、本実施形態の画像処理装置10では、グリーンバック等を用いることなく、1枚の撮影画像から、前景となる被写体の領域を精度良く抽出できる背景除去処理を実現することができる。よって、グリーンバック等を設置できない施設、及びグリーンバックを設置した場合に景観を損なうような場所であっても、また、カメラが固定されていない場合であっても、自由な背景及び自由な撮影位置で被写体を撮影した撮影画像に基づいて、精度の高い背景除去処理によって被写体領域のみを抽出した被写体画像(前景画像)を生成することができる。また、被写体画像に対して変倍処理及び回転処理が可能であり、任意の合成用背景画像の選択が可能であるので、被写体画像に対して自由な加工を実現できる。更に、複数の被写体が撮影された場合に合成対象の被写体を選択できるので、例えば意図しない被写体が写り込んでしまった場合であっても、ユーザが選択した被写体のみを残した背景除去処理が可能であり、任意の被写体のみを含む被写体画像を生成できる。
【0037】
本実施形態では、撮影画像から背景領域を除去する際に用いるマスク画像を、2つの学習モデルM1,M2を用いて生成する。第1学習モデルM1は、入力された撮影画像における画像の特徴を自動抽出してラベル画像を出力するので、多くの訓練データを学習させることにより、撮影画像中の背景領域及び前景領域を精度良く分類したラベル画像の生成が可能となる。また、第1学習モデルM1を用いて撮影画像中の背景領域及び前景領域(被写体)の分類を行うので、背景と同じような色の被写体であっても適切に前景領域に分類することができ、適切な背景除去処理を実現できる。更に、撮影位置又は撮影環境が変更された場合であっても、背景除去処理用の画像を準備する必要がなく、適切な背景除去処理を実現できる。また、本実施形態では、第1学習モデルM1を用いて生成されたラベル画像における背景領域及び前景領域の境界を第2学習モデルM2を用いて補正することにより、より精度良く背景除去された補正後のラベル画像の取得が可能となる。このような高精度に背景除去された補正後のラベル画像を用いることにより、撮影画像から高精度の前景画像を生成することができる。
【0038】
本実施形態において、学習モデルM1,M2を用いた背景除去処理、又は、合成用背景画像に被写体画像を合成する処理等は、画像処理装置10がローカルで行う構成に限定されない。例えば、学習モデルM1,M2を用いた背景除去処理を実行するサーバを設けてもよい。この場合、画像処理装置10は、処理対象の撮影画像をサーバへ送信し、サーバで学習モデルM1,M2を用いて生成されたラベル画像(マスク画像)が画像処理装置10へ送信されるように構成される。この場合にも、画像処理装置10は、サーバで生成されたマスク画像を用いて、撮影画像から背景領域を除去する背景除去処理を実行できる。なお、第1学習モデルM1を用いた背景除去処理を実行するサーバと、第2学習モデルM2を用いたラベル画像の補正処理を実行するサーバとを各別に設けてもよい。また、合成用背景画像に被写体画像を合成する処理を実行するサーバを設けてもよい。この場合、画像処理装置10は、合成処理対象の被写体画像及び合成用背景画像をサーバへ送信し、サーバで合成用背景画像に被写体画像が合成された合成画像が画像処理装置10へ送信されるように構成される。この場合にも、画像処理装置10は、サーバで生成された合成画像を印刷又は送信することにより、ユーザに提供できる。このような構成とする場合、画像処理装置10は、スマートフォン、タブレット端末、通信機能を有するカメラ等で構成することができる。上述したような構成とした場合であっても、本実施形態と同様の処理が可能であり、同様の効果が得られる。
【0039】
本実施形態では、撮影画像から被写体画像を生成して合成用背景画像に合成して合成画像を生成する構成であるが、この構成に限定されない。例えば、撮影画像から背景除去処理を行って生成された被写体画像をそのままユーザに提供する構成でもよい。
【0040】
(実施形態2)
上述の実施形態1では、第1学習モデルM1を用いて撮影画像から背景除去を行ってラベル画像を生成した後に、第2学習モデルM2を用いてラベル画像における背景領域及び前景領域の境界を補正する構成であった。本実施形態2では、第1学習モデルM1を用いて生成したラベル画像に対して、背景領域及び前景領域の分類結果の修正を行い、修正後のラベル画像に対して第2学習モデルM2を用いた補正処理を行う画像処理装置について説明する。本実施形態の画像処理装置は、図1に示す実施形態1の画像処理装置10の構成に加えて、記憶部12に第3学習モデルM3を記憶している。
【0041】
図8は第3学習モデルM3の構成例を示す説明図である。第3学習モデルM3は、例えばU-Net、FCN、SegNet等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。第3学習モデルM3は、例えば第1学習モデルM1を用いて背景領域及び前景領域に分類された分類済みの撮影画像と、この撮影画像における分類結果に対する修正指示とを入力とし、入力された撮影画像及び修正指示に基づいて、分類済みの背景領域及び前景領域に対する修正を行い、修正後の分類結果を出力するモデルである。第3学習モデルM3には、例えばSamsung AI Center Moscowによって開発された「Reviving Iterative Training with Mask Guidance for Interactive Segmentation」を用いることができる。例えば図8Aに示す例では、被写体の子供の撮影領域が前景領域に分類されており、この子供が保持している竹刀が背景領域に分類されている分類済みの撮影画像に対して、竹刀の領域に付けられたマークPによって当該竹刀の領域に対する前景領域への修正指示が入力された状態を示している。この場合、第3学習モデルM3は、入力された撮影画像では背景領域に分類されていた竹刀の領域を前景領域に修正した修正後の分類結果(分類済みの撮影画像)を出力する。また、図8Bに示す例では、撮影場所の奥にいる被写体の人が前景領域に分類されている分類済みの撮影画像に対して、当該人の領域に付けられたマークPによって当該人の領域に対する背景領域への修正指示が入力された状態を示している。この場合、第3学習モデルM3は、入力された撮影画像では前景領域に分類されていた人の領域を背景領域に修正した修正後の分類結果(分類済みの撮影画像)を出力する。このように第3学習モデルM3は、背景除去された画像と、画像中の背景領域又は前景領域に対する修正指示とに基づいて、修正指示された領域の分類結果を修正した後の背景除去画像を出力する構成となる。なお、修正指示は、図8A中のマークPのように、任意の領域に対して例えばドラッグ操作によって線を引くことにより行われてもよく、図8B中のマークPのように、例えばクリック操作によって任意の箇所を指定することによって行われてもよい。
【0042】
第3学習モデルM3は、訓練用の分類済みの撮影画像と、この撮影画像中の任意の箇所又は領域に対する修正指示と、修正指示に従って分類結果を修正した後の撮影画像とを含む訓練データを用いて機械学習させることにより生成することができる。第3学習モデルM3は、訓練データに含まれる分類済みの撮影画像及び修正指示が入力された場合に、訓練データに含まれる修正後の撮影画像を出力するように学習する。具体的には、第3学習モデルM3は、入力された分類済みの撮影画像及び修正指示に基づいて演算を行い、入力された撮影画像の分類結果を修正指示に基づいて修正した結果(修正後の撮影画像)を取得する。そして第3学習モデルM3は、取得した修正後の撮影画像を、訓練データが示す正解の撮影画像と比較し、両者が近似するように、最急降下法、誤差逆伝播法等を用いてパラメータを最適化する。これにより、分類済みの撮影画像及び分類結果に対する修正指示が入力された場合に、撮影画像中の背景領域及び前景領域の分類結果が修正された分類済みの撮影画像を出力する第3学習モデルM3が得られる。第3学習モデルM3の学習も、画像処理装置10で行われてもよく、他の学習装置で行われてもよい。
【0043】
図9は実施形態2の合成画像の提供処理手順の一例を示すフローチャート、図10は画面例を示す説明図である。図9に示す処理は、図3に示す処理において、ステップS12,S13の間にステップS31~S38を追加したものである。図3と同じステップについては説明を省略する。なお、図9では図3中のステップS16~S27の図示を省略している。
【0044】
本実施形態の画像処理装置10において、制御部11は、図3中のステップS11~S12と同様の処理を実行する。そして、制御部11は、ステップS12の背景除去処理によって分類された背景領域及び前景領域の分類結果を表示部15に表示する(S31)。例えば制御部11は、図10Aに示すような画面を表示し、撮影画像中の背景領域及び前景領域の分類結果をユーザに提示する。図10Aに示す画面は、撮影画像を表示し、撮影画像において前景領域に分類された領域にハッチング(図10Aでグレー領域)が付けてある。図10Aに示す画面は、背景領域に分類された領域に対して前景領域への修正指示と、前景領域に分類された領域に対して背景領域への修正指示とを受け付けるように構成されている。ユーザは、図10Aに示す画面において、入力部14を介して、背景領域に分類されている任意の箇所に対して所定の操作を行うことにより、任意の箇所に対する前景領域への修正指示を行う。また、ユーザは、前景領域に分類されている任意の箇所に対して所定の操作を行うことにより、任意の箇所に対する背景領域への修正指示を行う。図10Aに示す例では、画像中央に写る3人の被写体のうちの右側の人の顔領域が背景領域に分類されており、この顔領域に対する前景への修正指示が行われている。また、図10Aに示す例では、3人の被写体の右側に写る、部屋の奥の人が前景領域に分類されており、この人の領域に対する背景への修正指示が行われている。図10Aに示す例では、背景領域に対する前景領域への修正指示は黒矩形で示されており、前景領域に対する背景領域への修正指示は白矩形で示されている。
【0045】
制御部11は、画面中の撮影画像を介して、任意の箇所又は領域に対する分類結果の修正指示を受け付けたか否かを判断する(S32)。制御部11は、分類結果の修正指示を受け付けたと判断した場合(S32:YES)、修正指示された箇所又は領域にマークを表示する(S33)。例えば制御部11は、任意の領域に対してドラッグ操作が行われた場合にドラッグされた箇所に線を表示し、任意の箇所に対してクリック操作が行われた場合にクリックされた箇所に丸印を表示する。なお、制御部11は、図10Aに示すように、背景領域に対する修正指示を示すマークと、前景領域に対する修正指示を示すマークとを異なるマークで表示してもよい。制御部11は、図10Aに示す画面において修正ボタンが操作されたか否かを判断する(S34)。修正ボタンが操作されたと判断した場合(S34:YES)、制御部11は、ステップS12の背景除去処理による分類結果の修正処理を実行する(S35)。ここでは制御部11は、ステップS31で表示した分類済みの撮影画像と、ステップS33で撮影画像中に表示されたマークによる修正指示とを第3学習モデルM3に入力し、第3学習モデルM3から出力される修正後の分類結果(分類済みの撮影画像)を取得する。そして、制御部11は、表示中の撮影画像を修正後の分類済みの撮影画像に変更し、表示画面を更新する(S36)。図10Bに示す例では、画像中央に写る3人の被写体のうちの右側の人の顔領域が背景領域から前景領域に修正され、部屋の奥の人の領域が前景領域から背景領域に修正された修正後の分類結果(分類済みの撮影画像)が表示されている。
【0046】
制御部11は、分類結果の修正指示を受け付けていないと判断した場合(S32:NO)、又は、修正ボタンが操作されていないと判断した場合(S34:NO)、ステップS37の処理に移行する。制御部11は、図10Bに示す画面において終了ボタンが操作されたか否かを判断する(S37)。終了ボタンが操作されていないと判断した場合(S37:NO)、制御部11は、ステップS32の処理に戻り、分類結果に対する修正指示の受付を継続する。終了ボタンが操作されたと判断した場合(S37:YES)、制御部11は、修正処理によって修正された分類結果(分類済みの撮影画像)に基づいて、修正後のラベル画像を生成する(S38)。ここでは制御部11は、背景除去処理によって生成されたラベル画像における分類結果を、終了ボタンが操作された時点で表示されていた修正済の分類結果に基づいて修正し、修正後の分類結果において背景領域の画素を黒で示し、前景領域の画素を白で示したラベル画像を生成する。そして制御部11は、生成した修正後のラベル画像を記憶部12に記憶する。
【0047】
その後、制御部11は、ステップS13以降の処理を実行する。なお、ステップS13で、制御部11は、ステップS38で生成した修正後のラベル画像に対して補正処理を実行する。具体的には、制御部11は、ステップS11で取得した撮影画像及び修正後のラベル画像を第2学習モデルM2に入力し、第2学習モデルM2から出力される補正後のラベル画像を取得する。そして、制御部11は、補正後のラベル画像に基づいて、ステップS14以降の処理を実行する。これにより、本実施形態においても、背景除去されたラベル画像に対する補正処理によって精度の高いラベル画像の生成が可能であり、このようなラベル画像を用いることによって精度の高い被写体画像の生成が可能であり、被写体画像を任意の合成用背景画像に合成した合成画像を提供することができる。
【0048】
本実施形態では、上述した実施形態1と同様の効果が得られる。また本実施形態では、第1学習モデルM1を用いて背景領域及び前景領域に分類された撮影画像に対して、分類結果の修正が可能であるので、背景領域及び前景領域が正確に分類された背景除去画像(ラベル画像)を取得できる。また、ユーザは、修正したい箇所又は領域の一部に対してドラッグ操作又はクリック操作を行って修正指示を行うので操作性がよい。本実施形態においても、上述した実施形態1で適宜説明した変形例の適用が可能である。
【0049】
(実施形態3)
上述の実施形態1では、撮影画像に対して背景除去処理を行って前景画像を生成し、得られた前景画像を介して合成対象の被写体の選択を受け付ける構成であった。本実施形態3では、背景除去処理を行う前に、撮影画像を介して合成対象の被写体の選択を受け付ける画像処理装置について説明する。本実施形態の画像処理装置は、図1に示す実施形態1の画像処理装置10の構成と同様であるので、構成についての説明は省略する。
【0050】
図11は実施形態3の合成画像の提供処理手順の一例を示すフローチャート、図12は画面例を示す説明図、図13は実施形態3の背景除去処理の説明図である。図11に示す処理は、図3に示す処理において、ステップS11,S12の間にステップS41~S43を追加し、ステップS14~S16を削除したものである。図3と同じステップについては説明を省略する。なお、図11では図3中のステップS19~S27の図示を省略している。
【0051】
本実施形態の画像処理装置10において、制御部11は、処理対象の撮影画像を取得し(S11)、取得した撮影画像を表示部15に表示する(S41)。例えば制御部11は、図12に示すような画面を表示し、処理対象の撮影画像をユーザに提示する。図12に示す画面は、表示中の撮影画像を介して、撮影画像に含まれる任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図12に示す画面において、入力部14を介して任意の被写体を選択してOKボタンを操作することにより、任意の被写体に対する選択を行う。制御部11は、撮影画像を介して、任意の被写体に対する選択を受け付けたか否かを判断する(S42)。図12に示す例では、撮影画像中の3人の被写体のうちで中央の被写体に対する選択を受け付けた状態を示している。ここでも複数の被写体が選択されてもよい。また、制御部11は、撮影画像を表示する際に、例えば撮影画像に対して物体検知処理を行うことによって、撮影画像中の各被写体を検出し、検出した各被写体をバウンディングボックスで提示するように構成されていてもよい。
【0052】
制御部11は、被写体に対する選択を受け付けていないと判断した場合(S42:NO)、受け付けるまで待機する。制御部11は、被写体に対する選択を受け付けたと判断した場合(S42:YES)、撮影画像から、選択された被写体の領域を抽出する(S43)。ここでは制御部11は、図12中に矩形で示すように、選択された被写体を含む矩形領域(被写体領域)を抽出する。なお、複数の被写体が選択された場合、制御部11は、選択された全ての被写体を含む1つの被写体領域を抽出してもよく、それぞれの被写体毎に被写体領域を抽出してもよい。被写体毎に被写体領域を抽出した場合は、制御部11は、以降のステップS12~S13の処理を被写体領域毎に実行する。
【0053】
次に制御部11は、抽出した被写体領域に対して背景除去処理を実行する(S12)。ここでは、制御部11は、図13Aに示すように、被写体領域を第1学習モデルM1に入力し、第1学習モデルM1から出力される被写体領域のラベル画像を取得する。そして制御部11は、被写体領域のラベル画像に対して補正処理を実行する(S13)。ここでは、制御部11は、図13Bに示すように、被写体領域及び被写体領域のラベル画像を第2学習モデルM2に入力し、第2学習モデルM2から出力される補正後のラベル画像を取得する。
【0054】
そして、制御部11は、補正後のラベル画像をマスク画像として用いて、撮影画像又はステップS43で抽出した被写体領域から、マスク画像中の白領域に対応する領域を抽出することにより、選択された被写体の領域のみを含む被写体画像を生成する(S17)。ここでも制御部11は、図4Eに示すような被写体画像を生成できる。その後、制御部11は、ステップS18以降の処理を実行する。これにより、本実施形態においても、任意の合成用背景画像の選択が可能であり、被写体画像を合成用背景画像に合成する際に被写体画像に行う画像処理内容及び合成位置の指定が可能である。よって、任意の変倍処理及び回転処理が行われた被写体画像を、合成用背景画像の任意の位置に合成した合成画像を生成することができる。
【0055】
上述した処理により、本実施形態では、任意の合成用背景画像に合成する被写体の選択を撮影画像を介して受け付けることができる。また、本実施形態では、撮影画像から抽出された被写体領域に対して、背景除去処理及び補正処理が行われるので、処理対象の画像のデータ量を削減することができる。本実施形態においても、上述した実施形態1~2で適宜説明した変形例の適用が可能である。
【0056】
本実施形態の構成は、上述した実施形態1~2の画像処理装置10に適用可能であり、実施形態1~2の画像処理装置10に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態2の画像処理装置10に適用した場合、図11に示す処理において、ステップS12,S13の間に、図9中のステップS31~S38の処理を行えばよい。この場合、被写体領域に対する背景除去処理によって得られた被写体領域のラベル画像に対して、修正指示に基づく修正処理が可能となり、より精度よく背景領域及び前景領域に分類されたラベル画像を取得できる。
【0057】
(実施形態4)
上述の実施形態1~3では、前景画像中又は撮影画像中の被写体から合成対象の被写体を選択する処理は、ユーザが手動で行う構成であった。本実施形態4では、前景画像又は撮影画像に対して物体検知処理を行うことによって、合成対象の被写体を自動で特定する画像処理装置について説明する。なお、本実施形態の画像処理装置では、前景画像又は撮影画像中の被写体を自動で検知し、検知した被写体が1つである場合に当該被写体を合成対象の被写体に選択する構成とし、検知した被写体が複数である場合にユーザが合成対象の被写体を選択する構成とする。本実施形態の画像処理装置は、図1に示す実施形態1の画像処理装置10の構成と同様であるので、構成についての説明は省略する。
【0058】
図14は実施形態4の合成画像の提供処理手順の一例を示すフローチャート、図15は画面例を示す説明図である。図14に示す処理は、図3に示す処理において、ステップS14,S15の間にステップS51~S52を追加し、ステップS15,S16の間にステップS53を追加したものである。図3と同じステップについては説明を省略する。なお、図14では図3中のステップS19~S27の図示を省略している。
【0059】
本実施形態の画像処理装置10において、制御部11は、図3中のステップS11~S14と同様の処理を実行する。これにより、図4Dに示すような前景画像が生成される。そして、制御部11は、生成した前景画像に対して物体検知処理を実行する(S51)。物体検知処理は、例えば画像が入力された場合に、画像中の被写体が、予め学習された被写体(物品又は人)のいずれであるかを判別するように機械学習された学習済みモデルを用いて行うことができる。よって、制御部11は、このような学習済みモデルに前景画像を入力することにより、学習済みモデルからの出力情報に基づいて、前景画像中の被写体を検知することができる。
【0060】
制御部11は、物体検知処理の結果、前景画像中の被写体が1つであるか否かを判断する(S52)。被写体が1つでないと判断した場合(S52:NO)、即ち複数の被写体を検知した場合、制御部11は、ステップS15の処理に移行し、ステップS14で生成した前景画像を表示部15に表示する(S15)。また制御部11は、表示した前景画像中に、物体検知処理で検知した各被写体を囲むバウンディングボックスを表示する(S53)。例えば制御部11は、図15に示すような画面を表示部15に表示し、前景画像と、前景画像中の被写体とをユーザに提示する。これにより、ユーザは、選択可能な被写体を容易に把握でき、また、バウンディングボックスを選択することにより、任意の被写体を容易に選択することができる。なお、図15中の前景画像では3人の被写体がバウンディングボックスで示されており、実線のバウンディングボックスは選択された被写体を、破線のバウンディングボックスは選択されていない被写体をそれぞれ示している。
【0061】
その後、制御部11は、ステップS16以降の処理を実行する。これにより、図15に示す画面を介して合成対象の被写体の選択を受け付け、選択された被写体の領域を抽出した被写体画像を生成できる。
【0062】
前景画像中の被写体が1つであると判断した場合(S52:YES)、制御部11は、ステップS17の処理に移行し、前景画像から、物体検知処理によって検知した1つの被写体の領域を抽出して被写体画像を生成する(S17)。ここでも図4Eに示すような被写体画像が生成される。その後、制御部11は、ステップS18以降の処理を実行する。これにより、本実施形態においても、任意の変倍処理及び回転処理が行われた被写体画像を、任意の合成用背景画像に合成した合成画像を生成することができる。
【0063】
上述した処理において、合成対象の被写体を人に限定する構成としてもよく、この場合、制御部11は、ステップS52で、物体検知処理の結果、前景画像中の被写体が1人の人であるか複数の人であるかを判断してもよい。このような構成では、前景画像に人以外の物品が写り込んでいた場合であっても、1人の人が写っている前景画像に対しては、検知された1人の被写体を合成対象に特定することができる。
【0064】
上述した処理により、本実施形態では、撮影画像に対して背景除去処理が行われて生成された前景画像に1つの被写体のみが写っている場合に、当該被写体を合成対象に特定(選択)することができる。よって、ユーザが合成対象の被写体を選択する操作が不要となり、処理の簡略化が可能となる。また、前景画像に複数の被写体が写っている場合には、複数の被写体をユーザに提示し、ユーザによって合成対象の被写体が選択されることにより、任意の被写体を合成対象とすることができる。本実施形態においても、上述した実施形態1~3で適宜説明した変形例の適用が可能である。
【0065】
本実施形態の構成は、上述した実施形態1~3の画像処理装置10に適用可能であり、実施形態1~3の画像処理装置10に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態2の画像処理装置10に適用した場合、図14に示す処理において、ステップS12,S13の間に、図9中のステップS31~S38の処理を行えばよい。
【0066】
本実施形態の構成を実施形態3の画像処理装置10に適用した場合の処理について説明する。図16は実施形態4の合成画像の提供処理手順の他の例を示すフローチャートである。図16に示す処理は、図11に示す処理において、ステップS11,S41の間にステップS51~S52を追加し、ステップS41,S42の間にステップS53を追加したものである。図3図11及び図14と同じステップについては説明を省略する。なお、図16では図3中のステップS19~S27の図示を省略している。
【0067】
図16に示す処理では、画像処理装置10の制御部11は、ステップS11の処理後に、ステップS51~S52の処理を実行する。なお、ここでのステップS51では、制御部11は、撮影画像に対して物体検知処理を実行する。そして、制御部11は、物体検知処理の結果、撮影画像中の被写体が1つでないと判断した場合(S52:NO)、ステップS41の処理に移行する。また制御部11は、ステップS41の処理後に、ステップS53の処理を実行する。これにより、図12に示す画面に表示された撮影画像中の各被写体を囲むバウンディングボックスを表示することができる。その後、制御部11は、ステップS42以降の処理を実行する。また制御部11は、撮影画像中の被写体が1つであると判断した場合(S52:YES)、ステップS43の処理に移行する。
【0068】
上述した処理によっても、撮影画像中に1つの被写体のみが写っている場合に、当該被写体を合成対象に特定(選択)でき、ユーザが合成対象の被写体を選択する操作が不要となる。また、撮影画像に複数の被写体が写っている場合には、ユーザによって合成対象の被写体の選択が可能であり、任意の被写体を合成対象とすることができる。
【0069】
(実施形態5)
上述の実施形態1~4では、第1学習モデルM1を用いて撮影画像から背景除去を行ってラベル画像を生成する構成であった。本実施形態5では、撮影画像から背景除去処理を行う際に用いる学習モデルの構成が第1学習モデルM1とは異なる画像処理装置について説明する。本実施形態の画像処理装置は、図1に示す実施形態1の画像処理装置10の構成において、第1学習モデルM1の代わりに第4学習モデルM4を記憶部12に記憶している。
【0070】
図17は第4学習モデルM4の構成例を示す説明図である。第4学習モデルM4は、例えばU-Net、FCN、SegNet等のアルゴリズムを用いて構成することができ、複数のアルゴリズムを組み合わせて構成してもよい。第4学習モデルM4は、1枚の撮影画像を入力とし、入力された撮影画像に基づいて、撮影画像に含まれる背景領域及び前景領域を認識する演算と、前景領域に分類された領域中の物体を検知する演算とを行い、認識結果及び検知結果を出力するモデルである。第4学習モデルM4には、例えばFacebook AI Researchによって開発された「Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation」を用いることができる。具体的には、第4学習モデルM4は、入力された撮影画像の各画素を背景領域と前景領域とに分類すると共に、前景領域に分類された領域内の物体を検知し、前景領域に分類された各画素にラベルを付けると共に、前景領域内の各物体にバウンディングボックスを付けた分類済みの撮影画像(ラベル画像)を出力する。図17に示す例では、第4学習モデルM4は、入力された撮影画像に対して前景領域に分類された画素にハッチング(グレー領域)を付け、更に前景領域中の各物体にバウンディングボックスを付けたラベル画像を出力する。これにより、第4学習モデルM4は、撮影画像から背景領域が除去された背景除去画像と、背景除去画像中の各物体の領域を示す情報とを出力する構成となる。なお、第4学習モデルM4は、撮影画像から背景領域が除去された前景領域中の各物体にバウンディングボックスを付ける代わりに、各物体の領域に異なる色を付けたラベル画像を出力するように構成されていてもよい。
【0071】
第4学習モデルM4は、訓練用の撮影画像と、この撮影画像中の各画素に対して背景領域及び前景領域を示すデータをラベリングし、前景領域領域内の被写体に対してバウンディングボックスを付加した正解のラベル画像とを含む訓練データを用いて機械学習させることにより生成することができる。第4学習モデルM4は、訓練データに含まれる撮影画像が入力された場合に、訓練データに含まれる正解のラベル画像を出力するように学習する。具体的には、第4学習モデルM4は、入力された撮影画像に基づいて演算を行い、演算結果を取得し、取得した演算結果を、正解のラベル画像と比較し、両者が近似するようにパラメータを最適化する。これにより、撮影画像が入力された場合に、撮影画像中の背景領域及び前景領域を示し、前景領域中の各物体を示すラベル画像を出力する第4学習モデルM4が得られる。第4学習モデルM4の学習も、画像処理装置10で行われてもよく、他の学習装置で行われてもよい。
【0072】
図18は実施形態5の合成画像の提供処理手順の一例を示すフローチャート、図19は画面例を示す説明図である。図18に示す処理は、図3に示す処理において、ステップS12,S13の間にステップS61~S63を追加し、ステップS14~S16を削除したものである。図3と同じステップについては説明を省略する。なお、図18では図3中のステップS19~S27の図示を省略している。
【0073】
本実施形態の画像処理装置10において、制御部11は、図3中のステップS11~S12と同様の処理を実行する。なお、ステップS12で制御部11は、撮影画像を第4学習モデルM4に入力し、第4学習モデルM4から出力されるラベル画像を取得する。ここでは制御部11は、撮影画像における背景領域及び前景領域が分類され、前景領域中の各物体がバウンディングボックスで示されたラベル画像を取得する。制御部11は、取得したラベル画像を表示部15に表示する(S61)。例えば制御部11は、図19Aに示すような画面を表示部15に表示し、ラベル画像をユーザに提示する。図19Aに示す画面は、表示中のラベル画像を介して、前景領域に分類された任意の被写体に対する選択を受け付けるように構成されている。ユーザは、図19Aに示す画面において、入力部14を介してバウンディングボックスが付けられた被写体のうちの任意の被写体を選択してOKボタンを操作することにより、任意の被写体に対する選択を行う。なお、第4学習モデルM4が、前景領域中の各物体に異なる色が付けられたラベル画像を出力する構成の場合、ユーザは、表示されたラベル画像において、各色が付けられた物体の領域を選択することにより、任意の被写体を選択するように構成されていてもよい。
【0074】
制御部11は、任意の被写体に対する選択を受け付けたか否かを判断し(S62)、受け付けていないと判断した場合(S62:NO)、受け付けるまで待機する。制御部11は、被写体に対する選択を受け付けたと判断した場合(S62:YES)、ステップS12で生成したラベル画像に基づいて、選択された被写体を前景領域とするラベル画像を生成する(S63)。図19Aに示す画面において、3人の被写体のうちの左側及び中央の2人の被写体が選択された場合、図19Bに示すようなラベル画像が生成される。そして制御部11は、生成したラベル画像に対して補正処理を実行し(S13)、補正後のラベル画像をマスク画像として用いて、撮影画像から被写体画像を生成する(S17)。その後、制御部11は、ステップS18以降の処理を実行する。
【0075】
上述した処理により、本実施形態では、第4学習モデルM4を用いて背景除去処理を行うことにより、画像中の各画素が背景領域及び前景領域に分類されると共に、前景領域に分類された各被写体がバウンディングボックスによって識別されたラベル画像を得ることができる。よって、背景除去と共に物体検知が行われるので、処理が簡略化される。またユーザはバウンディングボックスによって所望の被写体を選択すればよいので操作性がよい。本実施形態においても、上述した実施形態1~4で適宜説明した変形例の適用が可能である。
【0076】
本実施形態の構成は、上述した実施形態1~4の画像処理装置10に適用可能であり、実施形態1~4の画像処理装置10に適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態2の画像処理装置10に適用した場合、図18に示す処理において、例えばステップS12,S61の間に、図9中のステップS31~S38の処理を行えばよい。この場合、第4学習モデルM4を用いて背景除去されたラベル画像に対して、修正指示に基づく修正処理が可能となる。
【0077】
(実施形態6)
上述の実施形態1~5では、合成用背景画像に合成する被写体画像は静止画であった。本実施形態6では、動画である被写体画像を合成用背景画像に合成する画像処理装置について説明する。本実施形態の画像処理装置では、動画に含まれる各静止画に対して背景除去処理を行うことにより、背景領域が除去された前景画像(被写体画像)が複数生成され、複数の被写体画像をつなぎ合わせることにより動画の被写体画像が生成される構成とする。本実施形態の画像処理装置は、図1に示す実施形態1の画像処理装置10の構成と同様であるので、構成についての説明は省略する。
【0078】
図20は実施形態6の合成画像の提供処理手順の一例を示すフローチャート、図21は画面例を示す説明図である。図20に示す処理は、図3に示す処理において、ステップS11の代わりにステップS71~S72を追加し、ステップS15の代わりにステップS73~S75を追加し、ステップS17の代わりにステップS76を追加したものである。図3と同じステップについては説明を省略する。なお、図20では図3中のステップS19~S27の図示を省略している。
【0079】
本実施形態の画像処理装置10において、制御部11は、動画(複数の静止画を含む撮影画像)を取得する(S71)。ここでも、処理対象の動画は、撮影画像DB12aから読み出してもよく、通信部13を介してカメラ又は他の情報処理装置から取得してもよい。制御部11は、処理対象の動画から1枚の静止画を抽出し(S72)、抽出した静止画に対してステップS12~S14の処理を実行する。具体的には、制御部11は、1枚の静止画に対して背景除去処理を実行してラベル画像を生成し、ラベル画像に対して補正処理を実行し、補正後のラベル画像をマスク画像として用いて、処理対象の静止画から前景領域を抽出して前景画像を生成する。
【0080】
制御部11は、ステップS71で取得した動画に含まれる全ての静止画に対して前景画像の生成処理を終了したか否かを判断し(S73)、終了していないと判断した場合(S73:NO)、ステップS72の処理に戻る。そして制御部11は、取得した動画から未処理の静止画を1枚抽出し(S72)、抽出した静止画に対してステップS12~S14の処理を行い、各静止画から前景画像を生成する。
【0081】
全ての静止画に対して前景画像の生成処理を終了したと判断した場合(S73:YES)、制御部11は、動画に含まれる各静止画から生成した前景画像をつなぎ合わせることにより前景動画を生成する(S74)。そして制御部11は、生成した前景動画を表示部15に表示する(S75)。例えば制御部11は、図21Aに示すような画面を表示して前景動画をユーザに提示する。図21Aに示す画面は、図5Aに示す画面と同様の構成を有しており、更に、表示中の前景動画に対して、総再生時間に対する再生位置を示すインジケータ15aを表示している。インジケータ15aによって再生位置を移動させることにより、画面に表示される前景動画の再生位置の変更が可能となる。図21Aに示す画面も、表示中の前景動画を介して任意の被写体に対する選択を受け付けるように構成されている。
【0082】
制御部11は、表示中の前景動画を介して任意の被写体に対する選択を受け付けたと判断した場合(S16:YES)、前景動画から、選択された被写体の領域を抽出して被写体動画を生成する(S76)。具体的には、制御部11は、前景動画に含まれる各前景画像(静止画)から、選択された被写体の領域を抽出して被写体画像を生成し、生成した被写体画像をつなぎ合わせることにより被写体動画を生成する。
【0083】
その後、制御部11は、ステップS18以降の処理を実行する。なお、本実施形態では、ステップS20で、制御部11は、図21Bに示すような設定画面を表示する。図21Bに示す設定画面は、図6A,Bに示す画面と同様の構成を有しており、更に、表示中の被写体動画に対して総再生時間及び総再生時間に対する再生位置を示すインジケータ15bと、表示中の合成用背景画像に対して総再生時間及び総再生時間に対する再生位置を示すインジケータ15cとを表示している。なお、図21Bに示す設定画面では、合成用背景画像として動画が選択された場合の状態を示しているので、合成用背景画像にインジケータ15cが表示されるが、合成用背景画像として静止画が選択された場合にはインジケータ15cは表示されない。なお、合成対象の被写体画像が動画であっても、合成用背景画像は静止画であっても動画であってもよい。
【0084】
また、図21Bに示す設定画面は、合成対象の被写体動画に対して、総再生時間の入力欄、繰り返して再生する再生回数の入力欄、再生速度の入力欄等を有する構成でもよい。この場合、被写体動画に対して変倍処理及び回転処理だけでなく、総再生時間、再生回数、再生速度の指定が可能であり、被写体動画に対して任意の編集処理が可能となる。よって、ステップS22で制御部11は、設定画面に表示中の被写体動画に対して、変倍処理及び回転処理に加えて、入力された内容に基づく動画編集処理を実行する。更に、図21Bに示す設定画面は、インジケータ15cを介して合成用背景画像の任意の再生位置を指定し、指定された再生位置の画像(静止画)に対して、図6Bに示すようなドラッグ操作によって被写体動画の合成位置を指定できる構成でもよい。この場合、動画である合成用背景画像の任意の再生位置から、任意の合成位置に被写体画像を合成することが可能となる。よって、ステップS26で制御部11は、合成用背景画像の任意の再生位置から、各画像(静止画)に対して指定された合成位置に、ステップS22で画像処理及び動画編集処理を行った被写体動画を合成して合成画像の動画を生成することができる。上述した処理により、被写体動画が任意の合成用背景画像の動画に合成された合成動画が生成される。
【0085】
上述した処理により、本実施形態では、被写体を撮影した動画に含まれる各静止画に背景除去処理を行うことにより、背景領域が除去された被写体動画を生成できる。よって、被写体の静止画だけでなく動画を合成対象とすることができるので、より自由度の高い合成画像の生成が可能となる。本実施形態においても、上述した実施形態1~5で適宜説明した変形例の適用が可能である。
【0086】
本実施形態の構成は、上述した実施形態1~5の画像処理システムに適用可能であり、実施形態1~5の画像処理システムに適用した場合であっても同様の効果が得られる。本実施形態の構成を実施形態2の画像処理装置10に適用した場合、図20に示す処理においてステップS12,S13の間に、図9中のステップS31~S38の処理を行えばよい。この場合であっても、撮影画像中の背景領域及び前景領域が分類されたラベル画像に対して、分類結果の修正が可能であり、更に補正処理が可能であるので、より精度の高いラベル画像を生成できる。
【0087】
本実施形態の構成を実施形態3の画像処理装置10に適用した場合、合成対象の被写体を選択する処理を、被写体を撮影した動画に含まれる各静止画に対する背景除去処理の実行前に行えばよい。また、本実施形態の構成を実施形態4の画像処理装置10に適用した場合、被写体を撮影した動画に1つの被写体しか写っていない場合に、当該被写体を合成対象に特定することができる。更に、本実施形態の構成を実施形態5の画像処理装置10に適用した場合、動画に含まれる各静止画に対して第4学習モデルM4を用いた背景除去処理を行えばよい。具体的には、図20に示す処理において、ステップS12で第4学習モデルM4を用いた背景除去処理を行った後に、図18中のステップS61~S63の処理を行えばよく、ステップS14,S74~S75,S16の処理を省略することができる。この場合であっても、第4学習モデルM4を用いた背景除去処理によって識別された前景領域内の被写体を用いて、合成対象の被写体の選択を行うことができる。
【0088】
(実施形態7)
上述の実施形態1~6の画像処理装置10を各種の施設に設置する場合のシステム構成について説明する。図22は画像処理システムの構成例を示す説明図である。本実施形態の画像処理システムは、例えば遊園地、テーマパーク、水族館、動物園、植物園、展示会、観光地等の施設に設置され、記念撮影として撮影された画像に対して利用される。本実施形態の画像処理システムは、画像処理装置10、カメラ20(撮像装置)、タッチパネル30及びプリンタ40等を有し、各装置10,20,30,40はネットワークN経由で通信する構成でもよく、有線通信又は無線通信で直接通信する構成でもよい。カメラ20は、1回の撮影指示に対応して1枚の画像データ(静止画)を取得する撮影処理と、例えば1秒間に30枚又は15枚の画像データ(動画)を取得する撮影処理とを行うように構成されている。なお、カメラ20は、施設に設置され、施設のカメラマンが撮影を行うカメラであってもよく、施設を利用するユーザが使用するカメラであってもよい。なお、ユーザが使用するカメラは、スマートフォン、タブレット端末等に搭載されているカメラであってもよい。
【0089】
本実施形態の画像処理システムでは、上述の実施形態1~6で画像処理装置10の表示部15に表示されていた各種の画面がタッチパネル30に表示され、入力部14を介して入力されていた各種の情報がタッチパネル30を介して入力される。このような構成でも、上述の実施形態1~6の画像処理システムと同様の処理が可能であり、同様の効果が得られる。
【0090】
以上の実施形態1~7を含む実施の形態に関し、更に以下の付記を開示する。
【0091】
(付記1)
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータに実行させるプログラム。
【0092】
(付記2)
前記背景除去画像における背景領域又は前景領域に対する修正指示を受け付け、
背景除去画像と、前記背景除去画像における背景領域又は前景領域に対する修正指示とを入力した場合に、前記背景領域又は前景領域が修正された修正後の背景除去画像を出力するように学習された第3学習モデルに、取得した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像に対して受け付けた修正指示とを入力して、入力した前記背景除去画像における背景領域又は前景領域が修正された修正後の背景除去画像を取得する
処理を前記コンピュータに実行させる付記1に記載のプログラム。
【0093】
(付記3)
前記撮影画像に含まれる被写体の少なくとも1つを選択し、
前記撮影画像から、選択した被写体を含む被写体領域を抽出し、
抽出した被写体領域を前記第1学習モデルに入力して、前記被写体領域から背景領域が除去された背景除去画像を取得する
処理を前記コンピュータに実行させる付記1又は2に記載のプログラム。
【0094】
(付記4)
前記撮影画像中の被写体を検知し、
検知した被写体に基づいて、選択すべき被写体を特定する
処理を前記コンピュータに実行させる付記3に記載のプログラム。
【0095】
(付記5)
前記撮影画像に含まれる被写体の少なくとも1つを選択し、
前記補正後の背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記1~4のいずれかひとつに記載のプログラム。
【0096】
(付記6)
前記第1学習モデルは、撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各物体の領域を示す情報とを出力するように学習されており、
前記第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像と、前記背景除去画像中の各被写体の領域を示す情報とを取得する
処理を前記コンピュータに実行させる付記1~5のいずれかひとつに記載のプログラム。
【0097】
(付記7)
取得した前記背景除去画像中の各被写体の領域を示す情報に基づいて、前記被写体の少なくとも1つを選択し、
前記背景除去画像から、選択した被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記6に記載のプログラム。
【0098】
(付記8)
前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出する
処理を前記コンピュータに実行させる付記1~7のいずれかひとつに記載のプログラム。
【0099】
(付記9)
複数の合成用画像のいずれかを選択し、
選択した合成用画像に、前記撮影画像から抽出した前記被写体の撮影領域を合成する
処理を前記コンピュータに実行させる付記8に記載のプログラム。
【0100】
(付記10)
前記撮影画像を複数取得し、
複数の前記撮影画像のそれぞれを前記第1学習モデルに入力して、前記撮影画像のそれぞれから背景領域が除去された背景除去画像を取得し、
複数の前記背景除去画像を前記第2学習モデルに入力して、前記背景除去画像のそれぞれにおける背景領域が補正された補正後の背景除去画像を取得し、
前記複数の撮影画像のそれぞれについて、前記撮影画像及び前記補正後の背景除去画像に基づいて、前記撮影画像中の被写体の撮影領域を抽出し、
前記複数の撮影画像からそれぞれ抽出された前記被写体の撮影領域を動画として合成用画像に合成する
処理を前記コンピュータに実行させる付記9に記載のプログラム。
【0101】
(付記11)
前記合成用画像に前記被写体の撮影領域を合成する際に前記被写体の撮影領域に行う画像処理、及び前記合成用画像に対する合成位置の入力を受け付け、
前記被写体の撮影領域に対して、受け付けた画像処理を行い、画像処理後の前記被写体の撮影領域を、前記合成用画像中の受け付けた合成位置に合成する
処理を前記コンピュータに実行させる付記9に記載のプログラム。
【0102】
(付記12)
撮影画像を取得し、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得し、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する
処理をコンピュータが実行する画像処理方法。
【0103】
(付記13)
撮影画像を取得する画像取得部と、
撮影画像を入力した場合に、前記撮影画像から背景領域が除去された背景除去画像を出力するように学習された第1学習モデルに、取得した前記撮影画像を入力して、入力した前記撮影画像から背景領域が除去された背景除去画像を取得する背景除去部と、
撮影画像及び前記撮影画像から背景領域が除去された背景除去画像を入力した場合に、前記背景除去画像における背景領域が補正された補正後の背景除去画像を出力するように学習された第2学習モデルに、取得した前記撮影画像及び前記背景除去画像を入力して、入力した前記背景除去画像における背景領域が補正された補正後の背景除去画像を取得する補正部と
を備える画像処理装置。
【0104】
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0105】
10 画像処理装置
11 制御部
12 記憶部
13 通信部
14 入力部
15 表示部
M1 第1学習モデル
M2 第2学習モデル
M3 第3学習モデル
M4 第4学習モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22