(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024037556
(43)【公開日】2024-03-19
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
G06T 7/90 20170101AFI20240312BHJP
G06T 7/00 20170101ALI20240312BHJP
【FI】
G06T7/90 D
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022142481
(22)【出願日】2022-09-07
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】100104880
【弁理士】
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100107216
【弁理士】
【氏名又は名称】伊與田 幸穂
(72)【発明者】
【氏名】森 達哉
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA21
5L096EA39
5L096FA16
5L096FA32
5L096FA64
5L096FA66
5L096FA69
5L096GA40
5L096GA41
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】特殊な装置や環境を用いなくても画像の透明領域の透過度を取得する。
【解決手段】プロセッサを備え、プロセッサは、画像から透明領域を含む対象物の領域である対象物領域53aを定め、画像及び対象物領域53aから、画像における対象物領域53a以外の領域である第1領域54aと、対象物領域53aのうち透明領域である第2領域54b及び第2領域54b以外の領域である第3領域54cと、を示す情報を取得し、画像及び情報を基に第2領域54bの透過度を定める情報処理装置である。
【選択図】
図8
【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
画像から透明領域を含む対象物の領域である対象物領域を定め、
前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得し、
前記画像及び前記情報を基に前記第2領域の透過度を定める、
情報処理装置。
【請求項2】
前記取得する情報は、前記第1領域、前記第2領域及び前記第3領域の各々を示す3つの値からなる画像の情報である、ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第2領域及び前記第3領域の各々を示す値は、前記第1領域の色情報と当該第2領域及び当該第3領域の色情報との差により定まる、ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記対象物領域は、機械学習モデルを用いて定められる、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記対象物領域は、前記画像に含まれる複数の対象物のいずれか一つである、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項6】
画面に表示した前記第2領域についてユーザによる修正指示を受け付ける、ことを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記修正指示は、前記第2領域を前記第3領域に対して変更する両者の境界変更を行うものである、ことを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記境界変更は、前記第2領域と前記第3領域のいずれか一方を選択し他方において指定された部分を当該一方に変更するものである、ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記修正指示は、前記透過度の変更を行うものである、ことを特徴とする請求項6に記載の情報処理装置。
【請求項10】
コンピュータに、
画像から透明領域を含む対象物の領域である対象物領域を定める機能と、
前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得する機能と、
前記画像及び前記情報を基に前記第2領域の透過度を定める機能と、
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関するものである。
【背景技術】
【0002】
web広告やポップ広告の作成など画像加工の分野において、画像中の物体を別の背景に合成する作業が行われているが、透明領域を含む物体の画像を別の背景に貼り付けたときに、透明領域に元の背景が写りこんでしまう。高精度に合成するために必要な透明領域の透過度を算出する先行特許として、例えば、特許文献1には、透明物体を、黒白パターンを有するボードを背景としてデジタルカメラによって撮影し、得られた画像データに対し、その画素毎に背景の属性を判定し、該属性毎の画素の色データに基づいて、透明物体の透明度データ及び色データを算出する技術が開示されている。また、特許文献2には、測定装置が撮像位置取得部と物理量算出部とを備え、撮像位置取得部は、背景との間に空間または空間および空間内に存在する透明物体が介在した状態での撮像画像について、背景の撮像位置に対応する撮像画像中の位置を取得し、物理量算出部は、背景の撮像位置に対応する撮像画像中の位置および背景の撮像位置に基づいて透明物体の物理量を算出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001-143085号公報
【特許文献2】特開2018-159671号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、画像の透明領域の透過度を特殊な装置や環境を用いて取得する場合、透過度を取得するユーザの負担軽減を図ることは難しい。
本発明の目的は、特殊な装置や環境を用いなくても画像の透明領域の透過度を取得することにある。
【課題を解決するための手段】
【0005】
請求項1に記載の発明は、プロセッサを備え、前記プロセッサは、画像から透明領域を含む対象物の領域である対象物領域を定め、前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得し、
前記画像及び前記情報を基に前記第2領域の透過度を定める、情報処理装置である。
請求項2に記載の発明は、前記取得する情報は、前記第1領域、前記第2領域及び前記第3領域の各々を示す3つの値からなる画像の情報である、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記第2領域及び前記第3領域の各々を示す値は、前記第1領域の色情報と当該第2領域及び当該第3領域の色情報との差により定まる、ことを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記対象物領域は、機械学習モデルを用いて定められる、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置である。
請求項5に記載の発明は、前記対象物領域は、前記画像に含まれる複数の対象物のいずれか一つである、ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置である。
請求項6に記載の発明は、画面に表示した前記第2領域についてユーザによる修正指示を受け付ける、ことを特徴とする請求項1に記載の情報処理装置である。
請求項7に記載の発明は、前記修正指示は、前記第2領域を前記第3領域に対して変更する両者の境界変更を行うものである、ことを特徴とする請求項6に記載の情報処理装置である。
請求項8に記載の発明は、前記境界変更は、前記第2領域と前記第3領域のいずれか一方を選択し他方において指定された部分を当該一方に変更するものである、ことを特徴とする請求項7に記載の情報処理装置である。
請求項9に記載の発明は、前記修正指示は、前記透過度の変更を行うものである、ことを特徴とする請求項6に記載の情報処理装置である。
請求項10に記載の発明は、コンピュータに、画像から透明領域を含む対象物の領域である対象物領域を定める機能と、前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得する機能と、前記画像及び前記情報を基に前記第2領域の透過度を定める機能と、を実現させるプログラムである。
【発明の効果】
【0006】
請求項1の発明によれば、特殊な装置や環境を用いなくても画像の透明領域の透過度を取得することができる。
請求項2の発明によれば、取得する情報が第1領域、第2領域及び第3領域の各々を示す3つの値からなる画像の情報でない場合に比べ、情報処理の負担軽減を図ることができる。
請求項3の発明によれば、第2領域及び第3領域の各々を示す値が第1領域の色情報と第2領域及び第3領域の色情報との差により定まる構成を採用しない場合に比べ、情報処理の負担軽減を図ることができる。
請求項4の発明によれば、対象物領域が機械学習モデルを用いて定められる構成を採用しない場合に比べ、情報処理の負担軽減を図ることができる。
請求項5の発明によれば、対象物領域が画像に含まれる複数の対象物のいずれか一つである構成を採用しない場合に比べ、透過度の精度向上を図ることができる。
請求項6の発明によれば、画面に表示した第2領域についてユーザによる修正指示を受け付ける構成を採用しない場合に比べ、使用感を向上させることができる。
請求項7の発明によれば、修正指示が第2領域を第3領域に対して変更する両者の境界変更を行うものである構成を採用しない場合に比べ、使用感を向上させることができる。
請求項8の発明によれば、境界変更が第2領域と第3領域のいずれか一方を選択し他方において指定された部分を一方に変更するものである構成を採用しない場合に比べ、操作性の向上を図ることができる。
請求項9の発明によれば、修正指示が透過度の変更を行うものである構成を採用しない場合に比べ、使用感を向上させることができる。
請求項10の発明によれば、特殊な装置や環境を用いなくても画像の透明領域の透過度を取得することができる。
【図面の簡単な説明】
【0007】
【
図1】本実施の形態が適用される画像処理システムの全体構成例を示した図である。
【
図2】本実施の形態における画像処理装置のハードウェア構成例を示した図である。
【
図3】本実施の形態における携帯端末のハードウェア構成例を示した図である。
【
図4】第1の実施の形態に係る画像処理装置の機能構成例を表すブロック図である。
【
図5】対象物領域推定部の処理を説明する図である。
【
図6】トライマップ生成部の処理を説明する図である。
【
図7】トライマップ生成部の処理を説明する図であり、(a)は、マスク画像及び画像の画素を説明する図であり、(b)は画素値の差の計算結果を示す表である。
【
図8】トライマップ生成部の処理を説明する図である。
【
図9】画像と新しい背景とを合成した場合の画像を説明する図であり、(a)は第1の実施の形態に係る画像処理装置の処理により合成した場合の合成画像を示し、(b)は、従来の処理により合成した場合の比較例としての合成画像を示す。
【
図10】第2の実施の形態に係る画像処理装置の機能構成例を表すブロック図である。
【
図11】ユーザ補正部を説明する図であり、(a)、(b)及び(c)は、透過度を変更する操作を説明する図である。
【
図12】第3の実施の形態に係る画像処理装置の機能構成例を表すブロック図である。
【
図13】ユーザ補正部の処理を説明する図であり、(a)はユーザ補正部の処理前を示し、(b)は処理後を示す。
【
図14】第4の実施の形態に係る画像処理装置の処理を説明する図である。
【発明を実施するための形態】
【0008】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0009】
[本実施の形態の概要]
本実施の形態は、画像から透明領域を含む対象物の領域である対象物領域を定め、画像及び対象物領域から、画像における対象物領域以外の領域である第1領域と、対象物領域のうち透明領域である第2領域及び第2領域以外の領域である第3領域と、を示す情報を取得し、画像及び情報を基に第2領域の透過度を定める、情報処理装置を提供する。
【0010】
ここで、透明領域とは、画像において対象物の背景が光を通す透明な部材を介して視認可能な領域をいう。かかる透明な部材は、平たんな面を有する場合のほか、一部又は全部に曲面ないし折れ曲がった面を有する場合や、かかる面が規則的又は不規則的であってもよい。また、背景は第1領域に対応するものであり、透明領域は第2領域に対応するものである。
透過度とは、第2領域を通る光の度合いをいう。
情報処理装置としては、画像処理を行う画像処理装置10(
図1参照)を例にとって説明するが、携帯端末20(同図参照)であってもよい。
【0011】
[画像処理システムの全体構成]
図1は、本実施の形態が適用される画像処理システム1の全体構成例を示した図である。図示するように、この画像処理システム1は、画像処理装置10及び携帯端末20を含む。画像処理装置10は、通信回線30に接続されている。携帯端末20は、無線通信によりアクセスポイント40を介して通信回線30と無線接続可能になっている。なお、図では、画像処理装置10及び携帯端末20は、1つずつしか示していないが、複数存在してもよい。また、通信回線30は、例えばLAN(Local Area Network)やインターネットとすればよい。
【0012】
画像処理装置10は、携帯端末20からの画像を処理する装置であり、画像を基に対象物領域を推定し、画像及び推定結果を用いて、対象物領域外、対象物領域内透明領域、対象物内非透明領域を表す画像(以下、トライマップ画像という)を生成し、画像及びトライマップ画像を基に透過度を推定する。なお、画像処理装置10は、例えばパーソナルコンピュータ(PC)によって実現するとよい。
【0013】
携帯端末20は、対象物を撮像し、画像処理装置10に送信する端末装置である。携帯端末20には、カメラアプリケーションがインストールされているとよい。このカメラアプリケーションは、例えば、携帯端末20の操作者の操作により、対象物を撮像し、撮像画像を画像処理装置10へ送信する。なお、携帯端末20は、例えば、スマートフォンによって実現するとよい。
【0014】
[画像処理装置のハードウェア構成]
図2は、本実施の形態における画像処理装置10のハードウェア構成例を示した図である。図示するように、画像処理装置10は、プロセッサ10aと、RAM(Random Access Memory)10bと、HDD(Hard Disk Drive)10cと、通信インターフェース(以下、「通信I/F」と表記する)10dと、表示デバイス10eと、入力デバイス10fとを備える。
【0015】
プロセッサ10aは、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、後述する各機能を実現する。
【0016】
RAM10bは、プロセッサ10aの作業用メモリ等として用いられるメモリである。HDD10cは、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する例えば磁気ディスク装置である。
【0017】
通信I/F10dは、通信回線30を介して携帯端末20との間で各種情報の送受信を行う。
表示デバイス10eは、各種情報を表示する例えばディスプレイである。入力デバイス10fは、ユーザが情報を入力するために用いる例えばキーボードやマウスである。
【0018】
[携帯端末のハードウェア構成]
図3は、本実施の形態における携帯端末20のハードウェア構成例を示した図である。図示するように、携帯端末20は、プロセッサ21と、RAM22と、ROM23と、入出力デバイス24と、音声入力機構25と、音声出力機構26と、撮像機構27と、無線回路28と、アンテナ29とを備える。
【0019】
プロセッサ21は、ROM23等に記憶された各種プログラムをRAM22にロードして実行することにより、携帯端末20の各機能を実現する。
【0020】
RAM22は、プロセッサ21の作業用メモリ等として用いられるメモリである。ROM23は、プロセッサ21が実行する各種プログラム等を記憶するメモリである。
【0021】
入出力デバイス24は、各種情報の表示やユーザからの操作入力の受付を行うデバイスであり、例えばタッチパネルである。音声入力機構25は、外部から音声を入力するデバイスであり、例えばマイクロフォンである。音声出力機構26は、音声を外部に出力するデバイスであり、例えばスピーカである。
【0022】
撮像機構27は、被写体を撮像するデバイスであり、例えばカメラである。
【0023】
無線回路28は、無線通信を制御する回路である。アンテナ29は、無線回路28が出力した無線通信の信号を送信したり、無線通信の信号を受信して無線回路28に出力したりするデバイスである。無線通信は、5G(5th Generation)、LTE(Long Term Evolution)、Wi-Fi(登録商標)、bluetooth(登録商標)、NFC(Near Field Communication)等の無線通信規格に準拠する通信を含む。
【0024】
本実施の形態に係る画像処理装置10では、従来のように特殊な装置や環境を用いることなく、1つの画像から透過度を推定し、これにより、高精度な合成の自動化を図ることができる。以下、種々の実施の形態について説明する。
【0025】
[第1の実施の形態]
図4は、第1の実施の形態に係る画像処理装置10の機能構成例を表すブロック図である。図示するように、第1の実施の形態に係る画像処理装置10は、対象物領域推定部11と、トライマップ生成部12と、透過度推定部13とを備えている。
【0026】
対象物領域推定部11は、画像から、透明領域を含む対象物の領域である対象物領域を推定する。これにより、対象物領域推定部11は、対象物領域を表す対象物領域マスク画像を算出する。
【0027】
トライマップ生成部12は、画像及び対象物領域推定部11による対象物領域から、対象物領域内を透明領域と非透明領域に区分する。これにより、トライマップ生成部12は、対象物領域外と、対象物領域内の非透明領域及び透明領域という3つの領域の位置を表すトライマップ画像を生成する。
【0028】
透過度推定部13は、画像とトライマップ生成部12によるトライマップ画像とを基に透過度を推定する。これにより、透過度推定部13は、透過度画像を用意する。
【0029】
まず、対象物領域推定部11について
図5を用いて説明する。
図5は、対象物領域推定部11の処理を説明する図である。
対象物領域推定部11は、境界で色差が小さい透明領域においても精度良く推測することを目的として、
図5に示すように、画像51から機械学習モデル52を利用した領域推定を行い、対象物領域53aを表すマスク画像53を算出する。
【0030】
画像51は、携帯端末20(
図1参照)で撮影され送信されたものである。また、画像51は、
図5に示すように、手提げ用に四角形状に抜いた四角形状穴G2を有する透明な袋G1に1個のりんごG3が入っている画像である。画像51における背景には、複数の縦線が現れている。透明な袋G1は例えばビニル等であるが、ペットボトル等の場合もある。
背景として現れている複数の縦線は、透明な袋G1から透けて見えている。すなわち、複数の縦線は、透明な袋G1の外縁G4の外側の部分及び袋G1の四角形状穴G2の部分に直接現れている他、透明な袋G1の外縁G4の内側でも、四角形状穴G2及びりんごG3以外の部分で視認可能である。
【0031】
透明な袋G1に入っているりんごG3は対象物の一例であり、対象物領域53aは、かかる対象物の領域の一例である。
【0032】
対象物領域推定部11で利用する機械学習モデル52は、透明領域を含む対象物領域53aを推定するように学習されたものである。さらに説明すると、機械学習モデル52は任意であり、エンコーダー・デコーダー構造を持つU-NetやDeepLab V3+などの深層学習モデルを活用してもよい。また、精度向上を目的とした二段階モデルの利用やモデル構造、損失関数を工夫するなどをしてもよい。
【0033】
マスク画像53は、機械学習モデル52により、対象物領域53aと対象物領域53a以外の領域53bとの間の境界が精度よく推測されている。なお、
図5の領域53bは、斜線で表している。
【0034】
次に、トライマップ生成部12について
図6、
図7及び
図8を用いて説明する。
図6~
図8は、トライマップ生成部12の処理を説明する図である。
図6には、左側にマスク画像53、右側にトライマップ画像54を示している。マスク画像53には、対象物領域53a及び領域53bがあり、トライマップ画像54には、対象物領域外54a、透明領域54b及び非透明領域54cがある。
【0035】
トライマップ生成部12は、対象物領域推定部11で推定したマスク画像53の対象物領域53aを透明領域54bと非透明領域54cに区分する。そして、トライマップ生成部12は、対象物領域外54a、透明領域54b及び非透明領域54cを表すトライマップ画像54を生成する。
トライマップ画像54の対象物領域外54aは、マスク画像53の領域53bとすることができる。
【0036】
透明領域54bと非透明領域54cの区分方法は任意であるが、例えば対象物領域外54aの画像の色情報を活用することで算出することが考えられる。すなわち、トライマップ生成部12は、対象物領域外54aの色情報と対象物領域内の色情報の差を基に透明領域54bと非透明領域54cに区分する。
対象物領域外54aは第1領域の一例であり、透明領域54bは第2領域の一例であり、非透明領域54cは第3領域の一例である。トライマップ画像54は、第1領域と第2領域と第3領域とを示す情報の一例である。
【0037】
ここで、
図7の(a)は、マスク画像53及び画像51の画素を説明する図であり、(b)は画素値の差の計算結果を示す表である。
図7(a)に示すように、マスク画像53の対象物領域53aに対応する画像51の領域51a内の画素値の集合をIinとし、領域53bに対応する画像51の領域51b内の画素値の集合をIoutとする。また、画像51の領域51a内のある画素の画素値をmとし、画像51の領域51b内のある画素の画素値をnと表すことにする。
【0038】
そして、
図7(b)に示すように、画像51の区分したい区分対象51aの対象511の画像における画素値(RGB)に対して、対象物領域外51bのすべての画素の画素値との差を計算し、その最小値を取得する。
図7(b)に示す例では、最小値は9である。
【0039】
【0040】
説明が重複するが、Iinは画像における対象物領域内の画素値の集合を表し、Ioutは画像における対象物領域外の画素値の集合を表す。mはIinの要素を表し、nはIoutの要素を表す。
上記式において、||・||1はL1ノルムを表しているが、RGB3値をある一つの値に変換する方法は任意であり、L2ノルムでもよく、各成分の平均値や2乗和、2乗平均などを計算しても良い。
【0041】
また、色差計算はRGB空間に限定されず、Lab空間やHSV空間に変換してから算出しても良く、計算する色空間は任意である。
【0042】
差の最小値が閾値以下であるならば、背景の画素に近いことから対象画素を透明領域54bとし、閾値より大きければ非透明領域54cとする。閾値は事前に設定しておいてもよいし、対象物領域内の平均画素値と対象物領域外の平均画素値の差を閾値とするなど、自動で設定するなどしてもよい。
【0043】
図8に示すように、トライマップ生成部12は、計算による区分結果(
図7(b)参照)を基に、トライマップ画像を作成する。例えば、Diffが閾値以下だと0.5、閾値よりも大きいと1とする。より詳細には、対象物領域外54aを0、透明領域54bを0.5、非透明領域54cを1という3つの値からなる画像を作成することでトライマップ画像を作成する。
図8の例ではトライマップ画像の各領域を示す3つの値が0、0.5、1.0であるが、これに限られない。
図8に括弧書きで示す0、0.5、1.0は、3つの値の一例である。
【0044】
また、トライマップ画像の作成方法は、上記の色情報による方法以外にも、画像と対象物領域を入力として受け取り、対象物領域内を領域分割する深層学習モデルを活用するなどの方法も考えられる。
【0045】
次に、透過度推定部13について説明する。
透過度推定部13は、画像とトライマップ画像を基に透明領域における透過度を算出する。ここで、透過度とは、以下式の合成方法で活用されるαマスクである。
【0046】
【0047】
ここで、Iは画像、Fは前景成分、Bは背景成分をそれぞれ表し、αは前景成分の透過度ないし不透過度を表すものとする。
【0048】
もしくは、透過度とは、Environment Mattingで活用されるρである。
【0049】
【0050】
ここで、mは、透明領域を表すマスク画像、Bは背景画像、Mは屈折を表す画像、ρは透過度を表す。上式において、透明領域における屈折の影響を考慮しない場合はMをBとすればよい。以上のように、透過度の定義は合成方法に準じるものとし、合成方法に関しても上記2つに限らない。
【0051】
透過度の算出方法は、画像とトライマップ画像、透過度画像のセットを大量に用意し、深層学習にその関係性を学習させることで、テスト画像に対する透過度を推測させる。もしくは、制約条件を設定し、最適化により算出する方法でもよい。
【0052】
このように、第1の実施の形態では、特殊な装置や環境を用いなくても、RGB画像から透過度を算出することを可能にしている。このため、画像と新しい背景とを合成する場合に、自然な合成画像を作成できる。以下、説明する。
【0053】
図9は、画像51と新しい背景55とを合成した場合の画像を説明する図であり、(a)は第1の実施の形態に係る画像処理装置10の処理により合成した場合の合成画像56を示し、(b)は、従来の処理により合成した場合の比較例としての合成画像156を示す。
図9(a)に示すように、画像51は、複数の縦線が現れた背景であり、透明な袋G1から複数の縦線が透けて見える。その一方で、新しい背景55は、複数の縦線がない。上述したように、第1の実施の形態では、1枚のRGB画像から透過度を算出していることから、合成画像56において、透明な袋G1が新しい背景55に置き換わっている。しかも、第1の実施の形態では、透過度の算出を特殊な装置や環境を用いずに行うことが可能である。
【0054】
これに対し、
図9(b)に示す合成画像156では、領域を切り出してそのまま貼り付けるだけでは、透明な袋G1に元の背景である複数の縦線が残る。このため、第1の実施の形態ではなく従来の処理による場合には、自然に合成することは難しい。
【0055】
このように、第1の実施の形態では、1つの画像から透過度を推定することで、高精度な合成の自動化を図ることが可能である。
さらに説明すると、高精度な合成の自動化をより推進するために、携帯端末20で画像51を撮影した後に新しい背景を撮影することで、背景を指定する手間を省略することができ、簡易な操作で高精度な合成を実現することが可能になる。
また、画面に表示した画像51における対象物の大きさや位置をユーザのタッチ操作やピンチ操作により変更可能にし、ユーザの意向を反映した合成画像56を作成できるようにしてもよい。例えば、新しい背景55のサイズが画像51と異なる場合でも、合成画像56を自然な感じにすることが可能になる。
【0056】
[第2の実施の形態]
図10は、第2の実施の形態に係る画像処理装置10の機能構成例を表すブロック図である。図示するように、第2の実施の形態に係る画像処理装置10は、第1の実施の形態の場合と同じく、対象物領域推定部11と、トライマップ生成部12と、透過度推定部13とを備える他、第1の実施の形態では備えていない画像合成部14及びユーザ補正部15を備えている。
このため、第2の実施の形態は、透過度を自動で決定していたためにユーザによる微調整ができない第1の実施の形態とは異なり、合成結果に対してユーザの指示により、透過度の変更を行うことができる。
【0057】
画像合成部14は、画像51と透過度画像を基に新しい背景である合成先画像に合成する処理(例えば
図9参照)を行う。また、画像合成部14は、画像51から切り出した領域と合成先画像との合成に関し、透明な領域に対しては透過度に応じた処理を行う。このようにして、画像合成部14は、合成画像を作成する。
【0058】
ユーザ補正部15は、ユーザによる修正指示に従って合成画像の透明領域における透過度を変更し、変更後の透過度に応じた補正後合成画像を作成する。
【0059】
図11は、ユーザ補正部15を説明する図であり、(a)、(b)及び(c)は、透過度を変更する操作を説明する図である。
図11(a)~(c)に示すように、ユーザ補正部15による補正は、画面に合成画像56が表示された状態で、透過度調整部61のスライダー62の操作により行われる。合成画像56には、透明領域54b及び非透明領域54cが表示されている。
【0060】
ユーザによりスライダー62のスライド操作が行われると、ユーザ補正部15は、透明領域54bについて透過度の修正指示を受け付ける。そして、ユーザ補正部15は、受け付けた修正指示に従って、合成画像56における透明領域54bの透過度をリアルタイムで変更する。なお、非透明領域54cは、スライド操作による修正が行われない。
【0061】
透過度調整部61においてスライダー62が左側に進むに従って透明領域54bの透過度が下がり、右側に進むに従って透過度は上がる。例えば
図11(a)では、透明領域54bと背景が区別可能であるが、同図(b)では、透明領域54bと背景との輪郭が視認可能であるものの両者の区別が(a)に比べて難しくなる。さらに、同図(c)では、完全に透過する状態であり、透明領域54bの輪郭が視認困難である。
ユーザによる確定操作がなされると、ユーザ補正部15は、補正後合成画像(
図10参照)を作成する。
【0062】
透過度の変更は、スライダー62のスライドという簡易な操作で行うものであり、透過度調整を容易に行うことができる。
なお、透過度の変更は、例えば透過度がαマスクであれば、0と1でないα値を全体的に弱める、もしくは強めることで変更できるが、変更方法は任意である。
透過度調整部61のスライダー62の操作は、ユーザによる修正指示の一例であり、透過度の変更を行うものの一例である。
【0063】
[第3の実施の形態]
図12は、第3の実施の形態に係る画像処理装置10の機能構成例を表すブロック図である。図示するように、第3の実施の形態に係る画像処理装置10は、対象物領域推定部11と、トライマップ生成部12と、透過度推定部13と、ユーザ補正部16とを備えている。
このため、第3の実施の形態は、透明領域及び非透明領域を自動で決定していたためにユーザによる微調整ができない第1の実施の形態とは異なり、ユーザの指示により、領域の修正を行うことができる。
なお、第3の実施の形態に係る画像処理装置10では、第2の実施の形態が備える画像合成部14を備えていないが、備えてもよい。
【0064】
ユーザ補正部16は、透明領域と非透明領域との境界についてユーザによる修正指示を受け付け、受け付けた修正指示に従って境界を変更し、変更後の境界に応じた補正後トライマップ画像を作成する。
その後、透過度推定部13は、画像と補正後トライマップ画像を基にして透過度画像を作成する。
【0065】
図13は、ユーザ補正部16の処理を説明する図であり、(a)はユーザ補正部16の処理前を示し、(b)は処理後を示す。(a)、(b)の各上段は画像に透明領域と非透明領域の境界を上書きした上書き画像56であり、各下段はトライマップ画像54である。
図13(a)に示すように、上書き画像56が画面に表示された場合、ユーザが透明領域54b及び非透明領域54cを確認したところ、りんごG3の画像と非透明領域54cとが一致していない。すなわち、非透明領域54cが透明領域54b側にはみ出た領域57が存在する。かかるはみ出た領域57は、同図(a)の下段に示すトライマップ画像54にも存在し、トライマップ生成部12の処理に起因するものである。
【0066】
そこで、ユーザは、
図13(a)の手順P1のように、上書き画像56の透明領域54bをマウスでタッチ操作した後、手順P2のように、はみ出た領域57に向かって動かすドラッグ操作を行う。かかるユーザ操作により、ユーザ補正部16は、はみ出た領域57が小さくなるようにトライマップ画像54を補正する。
【0067】
はみ出た領域57を小さくするユーザ操作が完了すると、
図13(b)に示す上書き画像56では、はみ出た領域57がなくなり、非透明領域54cがりんごG3の画像と一致している。これは、ユーザ補正部16が、同図(b)の下段に示すトライマップ画像54に対しユーザ操作によるはみ出た領域57の削除補正を行ったものである。
【0068】
なお、
図13では、はみ出た領域57に対する補正指示を、ドラッグ操作前に透明領域54bをタッチ操作する場合で説明したが、これに限られず、非透明領域54cをタッチ操作する場合でもよい。
また、はみ出た領域57をタッチ操作した後に、りんごG3の輪郭をなぞるようにマウス操作を行うことで補正指示するようにしてもよい。
【0069】
このように、ユーザ補正部16では、ユーザがタッチ操作やマウス操作でなぞることで、その領域を透明領域54bないし非透明領域54cに変更あるいは追加することができる。
【0070】
画面でのユーザ操作は、ユーザによる修正指示の一例であり、透明領域54bを非透明領域54cに対して変更する操作であって透明領域54bと非透明領域54cとの境界を変更する操作としての境界変更を行うものの一例である。
また、透明領域54bまたは非透明領域54cをマウスでタッチ操作する修正指示は、透明領域54bと非透明領域54cのいずれか一方を選択することの一例であり、ドラッグ操作する修正指示は、他方において指定された部分を一方に変更するものの一例である。
【0071】
[第4の実施の形態]
図14は、第4の実施の形態に係る画像処理装置10の処理を説明する図である。
同図に示す第4の実施の形態は、複数の対象物を含む画像58が画面に表示される場合に、必要な部分を切り取り、切り取った画像51について上述の処理を行う場合である。
より詳細には、画面に表示される左側の画像58には、透明な袋G1に入ったりんごG3と透明な袋G1に入ったレモンG5がある。
【0072】
ユーザが透明な袋G1に入ったりんごG3を利用しようとする場合、中央の画像58に示すように、トリミングする長方形の右下位置をポイント58aで指定し、画面においてトリミング枠58bの範囲を定める。
このようにしてトリミング枠58b外の領域が取り除かれ、トリミング枠58bで囲まれた領域が、画像51として切り出される。このため、透明な袋G1に入った対象物が複数ある場合にも対応することができ、また、透明領域54b(例えば
図6参照)の透過度の精度向上を図ることができる。
画像58に含まれる透明な袋G1に入ったりんごG3や透明な袋G1に入ったレモンG5は、画像に含まれる複数の対象物の一例である。なお、対象物領域53aないし透明領域54b及び非透明領域54c(例えば
図6参照)は、対象物の領域の一例である。
【0073】
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【0074】
<付記>
(((1)))
プロセッサを備え、前記プロセッサは、画像から透明領域を含む対象物の領域である対象物領域を定め、前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得し、
前記画像及び前記情報を基に前記第2領域の透過度を定める、
情報処理装置。
(((2)))
前記取得する情報は、前記第1領域、前記第2領域及び前記第3領域の各々を示す3つの値からなる画像の情報である、ことを特徴とする(((1)))に記載の情報処理装置。
(((3)))
前記第2領域及び前記第3領域の各々を示す値は、前記第1領域の色情報と当該第2領域及び当該第3領域の色情報との差により定まる、ことを特徴とする(((2)))に記載の情報処理装置。
(((4)))
前記対象物領域は、機械学習モデルを用いて定められる、ことを特徴とする(((1)))乃至(((3)))のいずれか1項に記載の情報処理装置。
(((5)))
前記対象物領域は、前記画像に含まれる複数の対象物のいずれか一つである、ことを特徴とする(((1)))乃至(((4)))のいずれか1項に記載の情報処理装置。
(((6)))
画面に表示した前記第2領域についてユーザによる修正指示を受け付ける、ことを特徴とする(((1)))に記載の情報処理装置。
(((7)))
前記修正指示は、前記第2領域を前記第3領域に対して変更する両者の境界変更を行うものである、ことを特徴とする(((6)))に記載の情報処理装置。
(((8)))
前記境界変更は、前記第2領域と前記第3領域のいずれか一方を選択し他方において指定された部分を当該一方に変更するものである、ことを特徴とする(((7)))に記載の情報処理装置。
(((9)))
前記修正指示は、前記透過度の変更を行うものである、ことを特徴とする(((6)))に記載の情報処理装置。
(((10)))
コンピュータに、
画像から透明領域を含む対象物の領域である対象物領域を定める機能と、
前記画像及び前記対象物領域から、当該画像における当該対象物領域以外の領域である第1領域と、当該対象物領域のうち前記透明領域である第2領域及び当該第2領域以外の領域である第3領域と、を示す情報を取得する機能と、
前記画像及び前記情報を基に前記第2領域の透過度を定める機能と、
を実現させるプログラム。
【0075】
(((1)))の発明によれば、特殊な装置や環境を用いなくても画像の透明領域の透過度を取得することができる。
(((2)))の発明によれば、取得する情報が第1領域、第2領域及び第3領域の各々を示す3つの値からなる画像の情報でない場合に比べ、情報処理の負担軽減を図ることができる。
(((3)))の発明によれば、第2領域及び第3領域の各々を示す値が第1領域の色情報と第2領域及び第3領域の色情報との差により定まる構成を採用しない場合に比べ、情報処理の負担軽減を図ることができる。
(((4)))の発明によれば、対象物領域が機械学習モデルを用いて定められる構成を採用しない場合に比べ、情報処理の負担軽減を図ることができる。
(((5)))の発明によれば、対象物領域が画像に含まれる複数の対象物のいずれか一つである構成を採用しない場合に比べ、透過度の精度向上を図ることができる。
(((6)))の発明によれば、画面に表示した第2領域についてユーザによる修正指示を受け付ける構成を採用しない場合に比べ、使用感を向上させることができる。
(((7)))の発明によれば、修正指示が第2領域を第3領域に対して変更する両者の境界変更を行うものである構成を採用しない場合に比べ、使用感を向上させることができる。
(((8)))の発明によれば、境界変更が第2領域と第3領域のいずれか一方を選択し他方において指定された部分を一方に変更するものである構成を採用しない場合に比べ、操作性の向上を図ることができる。
(((9)))の発明によれば、修正指示が透過度の変更を行うものである構成を採用しない場合に比べ、使用感を向上させることができる。
(((10)))の発明によれば、特殊な装置や環境を用いなくても画像の透明領域の透過度を取得することができる。
【符号の説明】
【0076】
10…画像処理装置、10a…プロセッサ、51…画像、53a…対象物領域、54…トライマップ画像、54a…対象物領域外、54b…透明領域、54c…非透明領域、G1…透明な袋、G3…りんご