特許7591937 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7591937画像処理装置および画像処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-21

(45)【発行日】2024-11-29

(54)【発明の名称】画像処理装置および画像処理方法

(51)【国際特許分類】

H04N 23/60 20230101AFI20241122BHJP

H04N 23/63 20230101ALI20241122BHJP

H04N 23/45 20230101ALI20241122BHJP

G03B 15/00 20210101ALI20241122BHJP

【ＦＩ】

H04N23/60 500

H04N23/63 110

H04N23/45

G03B15/00 Q

【請求項の数】 13

(21)【出願番号】P 2021017739

(22)【出願日】2021-02-05

(65)【公開番号】P2022120681

(43)【公開日】2022-08-18

【審査請求日】2024-01-29

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】中川浩一

【審査官】奥田雄介

(56)【参考文献】

【文献】特開２０１０－７４６９３（ＪＰ，Ａ）

【文献】国際公開第２０１８／２３４９２５（ＷＯ，Ａ１）

【文献】特開２００９－１６９７４０（ＪＰ，Ａ）

【文献】特開２０１２－４３１５１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２３／６０

Ｈ０４Ｎ２３／４５

Ｈ０４Ｎ２３／６３

Ｇ０３Ｂ１５／００

(57)【特許請求の範囲】

【請求項1】

被写体を撮像して得られた第１の画像データと、前記被写体を撮像した撮像者とその周囲を撮像して得られた第２の画像データと、前記被写体を撮像した撮像装置の外観を示す第３の画像データと、を取得する取得手段と、
前記第１の画像データ、前記第２の画像データ、および前記第３の画像データを入力データとする学習済み機械学習モデルを用いて、前記第１の画像データにおける写り込みを軽減した画像データを取得する画像処理手段と、
を有することを特徴とする画像処理装置。

【請求項2】

前記学習済み機械学習モデルを格納する記憶手段をさらに有することを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記画像処理手段は、前記学習済み機械学習モデルを外部装置からダウンロードして用いることを特徴とする請求項１に記載の画像処理装置。

【請求項4】

前記画像処理手段は、前記学習済み機械学習モデルを有する外部装置に前記第１の画像データ、前記第２の画像データ、および前記第３の画像データを送信し、前記外部装置から前記写り込みを軽減した画像データを取得することを特徴とする請求項１に記載の画像処理装置。

【請求項5】

前記学習済み機械学習モデルが、前記第１の画像データ、前記第２の画像データ、および前記第３の画像データを入力データ、前記第１の画像データに対応する、写り込みのない画像データを教師データとして学習を行った機械学習モデルであることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。

【請求項6】

前記第１の画像データと、前記第２の画像データとが、異なる撮像装置によって同じタイミングで撮像された画像データであることを特徴とする請求項１から５のいずれか１項に記載の画像処理装置。

【請求項7】

第１の撮像手段と、
前記第１の撮像手段とは撮像方向が異なる第２の撮像手段と、
前記第３の画像データを格納する記憶手段とをさらに有し、
前記第１の撮像手段で得られる画像データを前記第１の画像データ、前記第２の撮像手段で得られる画像データを前記第２の画像データとして用いる、
ことを特徴とする、請求項１から６のいずれか１項に記載の画像処理装置。

【請求項8】

前記画像処理手段は、前記第１の画像データに基づく動画像と、前記第２の画像データに基づく動画像とを表示装置に表示させることを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。

【請求項9】

前記画像処理手段は、前記第１の画像データが表す第１の画像に、前記第２の画像データが表す第２の画像と類似した領域が含まれていると判定される場合に、前記第１の画像データに写り込みが生じていると判定することを特徴とする請求項１から８のいずれか１項に記載の画像処理装置。

【請求項10】

前記画像処理手段は、前記第１の画像データが表す第１の画像に、前記第２の画像データが表す第２の画像と類似した領域が含まれ、前記類似した領域で顔領域が検出され、前記第２の画像で顔領域が検出されていない場合に、前記第２の撮像手段で顔が撮影されるように位置を変更するよう前記画像処理装置のユーザに促す指標を表示装置に表示することを特徴とする請求項７に記載の画像処理装置。

【請求項11】

前記指標が、前記第２の画像データに基づく動画像に重畳して表示装置に表示されることを特徴とする請求項１０に記載の画像処理装置。

【請求項12】

画像処理装置が実行する画像処理方法であって、
被写体を撮像して得られた第１の画像データと、前記被写体を撮像した撮像者とその周囲を撮像して得られた第２の画像データと、前記被写体を撮像した撮像装置の外観を示す第３の画像データと、を取得することと、
前記第１の画像データ、前記第２の画像データ、および前記第３の画像データを入力データとする学習済み機械学習モデルを用いて、前記第１の画像データにおける写り込みを軽減した画像データを取得することと、
を有することを特徴とする画像処理方法。

【請求項13】

コンピュータを、請求項１から１１のいずれか１項に記載の画像処理装置が有する取得手段および画像処理手段として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は画像処理装置および画像処理方法に関し、特には撮像画像における映り込みを除去する技術に関する。

【背景技術】

【0002】

ガラス越しに撮像した画像や、光沢のある被写体を撮像した画像に、撮像者や周囲の物体が写り込んでしまうことがある。このような写り込みは、意図した被写体を見えづらくするだけでなく、個人情報の流出などの原因にもなりうる。

【0003】

非特許文献１には、ガラス越しに撮像された画像への映り込みを、遠景と近景の視差などを利用して除去する技術について説明されている。

【先行技術文献】

【非特許文献】

【0004】

【文献】Tianfan Xue, Michael Rubinstein, Ce Liu, William T. Freeman, ”A Computational Approach for Obstruction-Free Photography”, ACM Transactions on Graphics, vol. 34, no. 4 (Proc. SIGGRAPH), August 2015

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、非特許文献１に記載された技術は、遠景と近景が存在するシーンを、複数の視点から撮像した画像を必要とするという制約がある。

【0006】

本発明は、撮像画像における写り込みを軽減する画像処理装置および画像処理方法において、撮像シーンや撮像方法に対する制約を軽減することを１つの目的とする。

【課題を解決するための手段】

【0007】

上述の目的は、被写体を撮像して得られた第１の画像データと、被写体を撮像した撮像者とその周囲を撮像して得られた第２の画像データと、被写体を撮像した撮像装置の外観を示す第３の画像データと、を取得する取得手段と、第１の画像データ、第２の画像データ、および第３の画像データを入力データとする学習済み機械学習モデルを用いて、第１の画像データにおける写り込みを軽減した画像データを取得する画像処理手段と、を有することを特徴とする画像処理装置によって達成される。

【発明の効果】

【0008】

本発明によれば、撮像画像における写り込みを軽減する画像処理装置および画像処理方法において、撮像シーンや撮像方法に対する制約を軽減することができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態に係る画像処理装置の一例としてスマートフォンの構成例を示すブロック図

【図2】図１のスマートフォンの外観例を示す図

【図3】本実施形態における学習済み機械学習モデル用いた映り込み軽減処理の概念図

【図4】（ａ）および（ｃ）～（ｆ）は、本発明の実施形態に係る映り込み軽減撮像アプリケーションの表示例を示す図、（ｂ）は被写体の外観例を示す図

【図5】本発明の実施形態に係る映り込み軽減撮像アプリケーションの表示例を示す図

【図6】本発明の実施形態に係るスマートフォンの写り込み軽減モードにおける動作に関するフローチャート

【発明を実施するための形態】

【0010】

以下、添付図面を参照して本発明をその例示的な実施形態に基づいて詳細に説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定しない。また、実施形態には複数の特徴が記載されているが、その全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0011】

なお、以下の実施形態では、本発明を内側（撮像者側）に向いたカメラ（インカメラ）と外側（被写体側）を向いたカメラ（アウトカメラ）を備えるスマートフォンで実施する場合に関して説明する。しかし、本発明は、タブレット端末やノートパソコンのようなインカメラとアウトカメラを備える他の電子機器でも実施可能である。また、インカメラとアウトカメラは着脱可能な外部機器であってもよい。

【0012】

さらに、本発明に撮像機能は必須ではなく、被写体の撮像画像と、撮像時の撮像者の画像のデータを何らかの方法によって取得可能な任意の電子機器もしくはシステムでも実施可能である。例えば、これらの画像データを通信可能に接続された外部機器から取得可能な電子機器においても本発明を実施可能である。

【0013】

なお、被写体の撮像画像と、撮像時の撮像者の画像とは同じタイミングで撮像されることが理想的であるが、短時間（例えば１秒以内、数秒以内、など）であれば撮像タイミングが異なってもよい。ここで、同じタイミングとは、個々の画像を撮像する撮像装置に対して撮像指示が実質的に同時に出力されること、もしくは撮像の露光期間が重複していることであってよい。

【0014】

図１は、本発明に係る画像処理装置の一例としてのをスマートフォン１００の構成例を、機能ブロックによって模式的に示した図である。
内部バス１３０は、データ信号線、制御信号線などを有し、接続された機能ブロック間でのデータや制御信号の通信を実現する。

【0015】

ＣＰＵ１０１は主制御部であり、例えば不揮発性メモリ１０３に格納されるプログラム（ＯＳ、アプリケーションなど）をメモリ１０２にロードして実行することによって各機能ブロックの動作を制御し、スマートフォン１００の様々な機能を実現する。

【0016】

メモリ１０２は例えばＲＡＭであり、主記憶装置、ワークメモリ、バッファメモリ、ビデオメモリなどとして用いられる。

【0017】

不揮発性メモリ１０３は例えば電気的に書き換え可能なＲＯＭである。不揮発性メモリ１０３には、ＣＰＵ１０１が実行するためのプログラム、各種の設定値、ＧＵＩデータなどのシステムデータと、ユーザが撮像した静止画や動画のデータ、アプリケーションなどのユーザデータとが記憶される。

【0018】

画像処理部１０４は、ＣＰＵ１０１の制御により、アウトカメラ１０７、標準インカメラ１０９、広角インカメラ１１０による撮像で得られた画像データ、または不揮発性メモリ１０３に格納された画像データに対して、様々な画像処理を適用する。画像処理部１０４は例えば特定の機能を実現するように設計されたＡＳＩＣのような専用のハードウェア回路であってよい。あるいは、画像処理部１０４は、ＤＳＰのようなプログラマブルプロセッサが不揮発性メモリ１０３に格納されたプログラムを実行することで特定の機能を実現する構成であってもよい。また、画像処理部１０４には、ディープラーニングなどの機械学習に必要な演算を高速に実行するための専用回路が含まれていてもよい。また、処理の内容によってはＣＰＵ１０１がプログラムを実行することによって画像処理部１０４の代わりに画像処理を適用してもよい。

【0019】

ここで、画像処理部１０４が適用する画像処理には、前処理、色補間処理、補正処理、検出処理、データ加工処理、評価値算出処理、特殊効果処理などが含まれる。
前処理には、ノイズ低減、欠陥画素補正、Ａ／Ｄ変換、Ｄ／Ａ変換などが含まれる。
色補間処理は、撮像時に得られない色成分の値を補間する処理であり、デモザイク処理や同時化処理とも呼ばれる。
補正処理には、ホワイトバランス調整、階調補正（ガンマ処理）、光学系の光学収差や周辺減光の影響を補正する処理、色を補正する処理などが含まれる。
検出処理には、特徴領域（たとえば顔領域や人体領域）やその動きの検出、人物の認識処理などが含まれる。
データ加工処理には、合成処理、スケーリング処理、符号化および復号処理、ヘッダ情報生成処理などが含まれる。
評価値算出処理には、自動焦点検出（ＡＦ）に用いる信号や評価値の生成、自動露出制御（ＡＥ）に用いる評価値の算出処理などが含まれる。
特殊効果処理には、ぼかしの付加、色調の変更、リライティング処理などが含まれる。なお、これらは画像処理部１０４が適用可能な画像処理の例示であり、画像処理部１０４が適用する画像処理を限定するものではない。

【0020】

ディスプレイ１０５は、例えばタッチ液晶ディスプレイである。ディスプレイ１０５はＣＰＵ１０１の制御により、ＯＳやアプリケーションのＧＵＩ(Graphical User Interface)画像（アイコン、ウィンドウ、ソフトウェアキーなど）や、カメラで撮像された画像などを表示する。

【0021】

ＣＰＵ１０１は、表示用データを生成し、メモリ１０２のビデオメモリ領域に格納する。ディスプレイ１０５は表示用データに基づいて映像信号を生成し、表示パネルに表示する。なお、映像信号を外部ディスプレイに供給してもよい。

【0022】

操作部１０６は、ボタン、スイッチ（ハードウェアもしくはソフトウェア）や、タッチパネルなど、ユーザが操作可能な構成の総称である。ＣＰＵ１０１は、操作部１０６を監視し、操作対象や操作内容に応じた動作を実行する。なお、ディスプレイ１０５へのタッチ操作についてＣＰＵ１０１は、タッチ位置の検出および予め定められたタッチ操作（タップ、ドラッグ、ピンチ、スワイプなど）の認識を行う。外部接続されたキーボードやマウスなどの入力デバイスへの操作についてもＣＰＵ１０１が検出する。

【0023】

スマートフォン１００は、１つのアウトカメラ１０７と、２つのインカメラ１０９および１１０を有している。２つのインカメラ１０９および１１０は画角の異なる単焦点レンズを有しており、インカメラ１１０のレンズはインカメラ１０９のレンズよりも画角が広い。そのため本明細書では標準インカメラ１０９、広角インカメラ１１０と呼ぶ。しかし、標準、広角は２つのインカメラの画角の関係を表すものであり、特定の画角を意図している訳ではない。

【0024】

アウトカメラ１０７は、例えばＣＣＤ／ＣＭＯＳイメージセンサである撮像素子、撮像光学系（レンズ）、シャッタ、絞り、焦点検出回路、Ａ/Ｄ変換器などを有するカメラユニットである。アウトカメラ１０７のレンズはズームレンズであっても単焦点レンズであってもよい。また、レンズはフォーカスレンズを含んでいる。アウトカメラ１０７は静止画および動画の撮像に対応している。撮像によって得られた画像データは画像処理部１０４に送信され、予め定められた形式のデータファイルに格納されて不揮発性メモリ１０３に記録される。アウトカメラ１０７は、ディスプレイ１０５の表示面をスマートフォン１００の表面とすると、スマートフォン１００の裏面に設けられる。

【0025】

発光部１０８は、例えば１つ以上の発光素子（例えばＬＥＤ）を有する補助光源である。撮像時にフラッシュまたはビデオライトとして用いられる。発光部１０８は光の色を調整可能であってもよい。

【0026】

標準インカメラ１０９および広角インカメラ１１０は、単焦点レンズを有するアウトカメラ１０７と同様の構成を有するカメラユニットである。標準インカメラ１０９および広角インカメラ１１０は、スマートフォン１００の表面に設けられる。したがって、アウトカメラ１０７と、２つのインカメラ１０９、１１０とは、撮像方向が１８０°異なる。

【0027】

通信Ｉ／Ｆ１１１は、有線もしくは無線により通信可能に接続された外部機器と通信するためのインタフェースである。通信Ｉ／Ｆ１１１は複数の通信規格をサポートすることができる。また、外部機器は通信Ｉ／Ｆ１１１に直接接続されてもよいし、ネットワーク１１２を通じて接続されてもよい。

【0028】

図２はスマートフォン１００の外観例を示す図であり、図２（ａ）は、ディスプレイ１０５の表示画面が存在する面（以降、表面またはディスプレイ面という）の平面図である。また、図２（ｂ）は、表面に平行な面（裏面）の平面図である。図２において、図１に示した構成は図１と同じ参照数字を付してある。

【0029】

本実施形態のスマートフォン１００は、アウトカメラ１０７を用いた撮像時に、写り込み軽減モードを設定可能である。写り込み軽減モードが設定されている場合、アウトカメラ１０７での撮像と並行してインカメラの１つ（例えば広角インカメラ１１０）でも撮像を行う。そして、広角インカメラ１１０で撮像した撮像者の画像を用いて、アウトカメラ１０７撮像した被写体の画像における写り込みを軽減する。

【0030】

写り込み軽減モードは、アウトカメラ１０７およびインカメラ１１０を用いた撮像が可能なアプリケーションの画面に含まれるＧＵＩの操作を通じてユーザが設定することができる。あるいは、特定のアプリケーションについて起動時に写り込み軽減モードがデフォルトで設定されるようになっていてもよい。また、撮像スタンバイ状態でＥＶＦ表示用に撮像される動画を画像処理部１０４で解析し、写り込みが検出された場合に自動的に写り込み軽減モードを設定するようにしてもよい。

【0031】

以下では一例として、写り込み軽減モードでの撮像用のアプリケーションによって写り込み軽減処理が実行されるものとして説明する。しかし、写り込み軽減処理は汎用カメラアプリケーションの１つの機能として実装されてもよいし、ＯＳが提供する機能であってもよい。

【0032】

アウトカメラ１０７で撮像された画像に対する映り込み軽減処理は、一例としてニューラルネットワークによって実装した学習済み機械学習モデルを用いる。図３は、学習済みの機械学習モデル３０２を用いた写り込み軽減処理の概念図である。

【0033】

機械学習モデル３０２は、
・アウトカメラ１０７で被写体を撮像して得られた第１の画像データ（被写体画像）、
・広角インカメラ１１０で被写体を撮像した撮像者とその周囲を撮像して得られた第２の画像データ（撮像者画像）、
・被写体を撮像した撮像装置（ここではスマートフォン１００）の外観を示す第３の画像データ（装置画像）、
を入力データとし、写り込みを軽減した被写体画像を出力する。なお、スマートフォン１００の外観画像は、スマートフォン１００の背面を撮像した画像であり、例えば不揮発性メモリ１０３に予め記憶しておくことができる。

【0034】

なお、機械学習モデル３０２は不揮発性メモリ１０３に記憶しておいてもよいし、スマートフォン１００が通信可能な外部装置が有していてもよい。機械学習モデル３０２が外部装置に存在する場合、通信Ｉ／Ｆ１１１を通じてスマートフォン１００にダウンロードして用いてもよい。また、ダウンロードする代わりに入力データ３０１を外部装置に送信し、機械学習モデル３０２の演算は外部装置が実施してもよい。機械学習モデル３０２の演算を外部装置が実施する場合、スマートフォン１００は、演算結果（写り込みが軽減された被写体画像）を外部装置から受信する。

【0035】

ここでは、学習モデル３０２が不揮発性メモリ１０３に格納されているか、外部装置からダウンロードされるかして、スマートフォン１００に存在するものとする。

【0036】

なお、機械学習モデル３０２の実装方法（ニューラルネットワークの構成および層数、活性化関数など）や学習方法（損失関数、最適化アルゴリズムなど）は公知の技術を用いることができる。また、本発明は機械学習モデル３０２の実装方法や学習方法に依存しない。したがって、ここでは、機械学習モデル３０２の学習方法の一例について簡単に説明するにとどめ、他の詳細については説明を省略する。

【0037】

機械学習モデル３０２は、教師あり学習を用いて学習することができる。具体的には、アウトカメラ１０７で撮像された、写り込みのある被写体画像と、広角インカメラ１１０で撮像された撮像者画像と、スマートフォン１００の装置画像とを入力データとして用いる。また、教師データとして、入力データの被写体画像に対応する、写り込みのない、あるいは写り込みを軽減した画像を用いる。教師データは、写り込みのある被写体画像に対して画像処理を適用して生成してもよいし、写り込みのある被写体画像と同じ視点から、写り込みがないように撮像した被写体画像を用いてもよい。例えば、ガラス越しの撮像では、通常に撮像することで写り込みのある画像を取得し、スマートフォン１００の周囲を遮光して撮像することにより写り込みのない画像を取得することができる。

【0038】

様々な被写体や撮像環境について入力データと学習データを用意し、機械学習モデルを学習することにより、学習済みの機械学習モデル３０２を得ることができる。

【0039】

ここで、広角インカメラ画像を機械学習モデルに与える理由について説明する。被写体画像に映り込むのは被写体からアウトカメラ１０７方向を撮像した画像の鏡像に相当する。被写体からアウトカメラ１０７方向を撮像した画像は、インカメラで撮像される画像と有意な類似性を有する。アウトカメラ１０７で撮像された被写体画像とインカメラで撮像された撮像者およびその周囲の画像の相似性に基づいて、教師データである映り込みを除去もしくは軽減した画像に出力結果が近づくように機械学習モデルの学習を収束させることができる。

【0040】

そして、標準インカメラ１０９よりも撮像者の周辺を広範囲に撮像できる広角インカメラ１１０で得られる画像の方が、標準インカメラ１０９で得られる画像よりも、写り込んだ画像との相似性を検出する上で有利である。

【0041】

また、スマートフォン１００の外観画像を機械学習モデルに与えるのは、被写体画像には、被写体を撮像したスマートフォン１００が写り込んでいる可能性が高いためである。スマートフォン１００の外観画像を入力データとして用いることにより、機械学習モデルは被写体画像に映り込んでいるスマートフォン１００を検出しやすくなるので、教師データに出力結果が近づくように学習を収束させる上で有利である。

【0042】

図４および図５は、映り込み軽減アプリケーションの表示例を示す図である。アプリケーションをＣＰＵ１０１が実行し、画像処理部１０４などを制御することによりこれらの表示が実施される。

【0043】

図４（ａ）は、アプリケーション起動時の表示状態を示している。アプリケーション画面の下部には撮像ボタン４０１のＧＵＩが表示されている。また、アプリケーションが起動されると撮像スタンバイ状態となり、アプリケーション画面にはアウトカメラ１０７で撮像された動画像４０２がリアルタイムに表示される。ＣＰＵ１０１は、アウトカメラ１０７による動画撮像処理、画像処理部１０４による表示用の動画データ生成処理、並びにディスプレイ１０５による動画データの表示処理とを継続して実行させる。

【0044】

ユーザは、動画像４０２によって撮像範囲や露出状態などを確認することができる。そして、撮像時には撮像ボタン４０１をタッチする。撮像ボタン４０１のタッチ操作が検出されると、ＣＰＵ１０１は映り込み軽減モードでの撮像処理を実行する。

【0045】

図４（ａ）は、テレビが主被写体として含まれるシーンにおいて、テレビの画面にユーザとその周囲が映り込んでいる状態を示している。図４（ｂ）は、写り込み低減処理によって写り込みが除去された画像を示している。このように映り込みを軽減することにより、主被写体の見やすい画像が得られる。また、仮に画像をインターネット上にアップロードしても、画像からユーザの個人情報が漏えいすることを抑制できる。

【0046】

また、写り込み軽減モードにおいてＣＰＵ１０１は、スタンバイ状態において広角インカメラ１１０でも動画像を撮像する。そして、画像処理部１０４に、インカメラ１１０で得られた画像とアウトカメラ１０７で得られた画像とから、ユーザが写り込んでいるか否かを検出させる。画像処理部１０４は、パターンマッチングなどの公知技術を用い、ユーザが写り込んでいるか否かを検出し、結果をＣＰＵ１０１に通知する。

【0047】

ＣＰＵ１０１は、ユーザが写り込んでいることが画像処理部１０４から通知された場合、広角インカメラ１１０で得られる動画像を例えばピクチャーインピクチャー表示するように画像処理部１０４に指示する。画像処理部１０４は、指示に応答して広角インカメラ１１０で得られる動画像のピクチャーインピクチャー表示を開始する（図４（ｃ））。

【0048】

さらに、画像処理部１０４は、ユーザに写り込みを知らせるために、アウトカメラ１０７で撮像されている動画像に指標を重畳させる。図４（ｄ）には一例として、ユーザの顔が写り込んでいる領域に枠状の指標を重畳した例を示している。画像処理部１０４は、広角インカメラ１１０で撮像されている動画像で検出された顔領域と類似した領域を、アウトカメラ１０７で撮像されている動画像内で検出し、その周囲に枠画像を重畳表示させる。

【0049】

また、画像処理部１０４は、広角インカメラ１１０で撮像されている動画像においても、アウトカメラ１０７で撮像されている動画像に写り込んでいる顔と類似する領域を示す指標を表示する（図４（ｅ））。

【0050】

これにより、広角インカメラ１１０で撮像される画像に映っている顔を利用することにより、アウトカメラ１０７で撮像される画像への顔の映り込みを軽減できる可能性が高いことをユーザに知らせることができる。

【0051】

一方、画像処理部１０４において、アウトカメラ１０７で撮影された画像に顔を含んだ映り込みがあるが、広角インカメラ１１０で撮像された画像には写り込んでいる人物の顔が写っていないと判定される場合がある。このような場合、画像処理部１０４は、ユーザに対し、ユーザの顔が広角インカメラ１１０で撮像されるようにすることを促す指標をディスプレイ１０５に表示する。

【0052】

画像処理部１０４は指標として、例えば図１０に示すように、広角インカメラ１１０で撮像された画像に枠と顔を模した図形を重畳表示する。なお、写り込んでいる画像に基づいて、ユーザの顔が広角インカメラ１１０の撮影範囲のどの位置にどのような大きさで写ることが好ましいかを判定し、判定結果に従った位置や大きさで指標を表示してもよい。なお、指標は具体的な指示を文書で示したメッセージであってもよい。このような指標を表示することで、アウトカメラ１０７で撮像されている画像に顔が写り込んでいる場合の写り込み軽減がより適切に実施できる可能性を高めることができる。

【0053】

なお、このような指標を表示したにもかかわらず、広角インカメラ１１０に顔が写らない状態で撮像ボタン４０１が操作されることもある。このような場合、ＣＰＵ１０１は画像処理部１０４に、顔の写り込みが軽減できないことをユーザに通知するメッセージをディスプレイ１０５に表示するよう指示する。図５（ａ）はメッセージの一例である。

【0054】

図５（ａ）の状態でユーザ操作、例えばディスプレイ１０５のタップ操作が検出されると、ＣＰＵ１０１は、ユーザに対して撮像を継続するか否かを確認するダイアログをディスプレイ１０５に表示させるよう、画像処理部１０４に指示する。図５（ｂ）は確認ダイアログの一例である。

【0055】

確認ダイアログは撮像を継続するか否かを指示する、「はい」ボタンおよび「いいえ」ボタンを含んでいる。ＣＰＵ１０１は、「はい」ボタンのタッチ操作を検出すると、静止画の撮像動作を開始する。また、ＣＰＵ１０１は、「いいえ」ボタンのタッチ操作を検出すると、確認ダイアログの消去を画像処理部１０４に通知する。この場合、写り込み軽減アプリケーションの表示は図４（ｆ）の状態に戻る。

【0056】

次に、図６に示すフローチャートを用い、写り込み軽減モードでの撮像に関するＣＰＵ１０１の動作について説明する。ここでは、図４に示した撮像環境を想定している。
Ｓ６０１で、ＣＰＵ１０１は、ユーザによる映り込み軽減撮像モードをＯＮにする操作が検出されたかどうかを判定する。ここでは、スマートフォン１００にインストールされている映り込み軽減撮像アプリケーションの起動操作を、映り込み軽減撮像モードをＯＮにする操作とする。なお、操作の検出ではなく、現在の撮影モードの設定が写り込み軽減モードであるか否かを判定してもよい。ＣＰＵ１０１は、ユーザによる映り込み軽減撮像モードをＯＮにする操作が検出されたと判定されればＳ６０２を実行し、判定されなければＳ６０１を繰り返し実行する。

【0057】

Ｓ６０２でＣＰＵ１０１は、撮影スタンバイ状態の動作を開始する。ＣＰＵ１０１は、アウトカメラ１０７による動画像の撮像を開始する。また、ＣＰＵ１０１は、画像処理部１０４に表示用の動画像の生成と、生成した動画像の表示を指示する。これにより、ディスプレイ１０５に、アウトカメラ１０７の撮像範囲を示す動画像がディスプレイ１０５に継続して表示される（図４（ａ））。

【0058】

また、ＣＰＵ１０１は、画像処理部１０４に、アウトカメラ１０７で撮像された動画像に対して顔検出処理を実行するように指示する。画像処理部１０４は、動画像のフレーム画像に対する顔検出処理を開始し、検出結果（検出された顔領域の数、大きさ、位置など）をＣＰＵ１０１に通知する。なお、顔検出処理を行う頻度はフレームレートや画像処理部１０４の性能などに応じて定めることができる。画像処理部１０４は、顔検出処理を継続的に実施してもよいし、ＣＰＵ１０１から指示があるごとに１フレームに対して実行してもよい。その後、ＣＰＵ１０１はＳ６０３を実行する。

【0059】

Ｓ６０３でＣＰＵ１０１は、インカメラの画角設定が広角になっているか否かを判定する。ＣＰＵ１０１は、例えばメモリ１０２から現在のインカメラの画角設定を読み出し、広角インカメラ１１０を使用する設定になっているか否かを判定する。あるいは、ＣＰＵ１０１は、標準インカメラ１０９と広角インカメラ１１０のうち、広角インカメラ１１０が有効であるか否かを判定してもよい。ＣＰＵ１０１は、インカメラの画角設定が広角になっていると判定されればＳ６０５を、判定されなければＳ６０４を実行する。

【0060】

Ｓ６０４でＣＰＵ１０１は、メモリ１０２に保持されているインカメラの画角設定を広角に変更する。その後、ＣＰＵ１０１はＳ６０５を実行する。

【0061】

Ｓ６０５でＣＰＵ１０１は、Ｓ６０２でアウトカメラ１０７による撮像を開始した動画像を解析する。例えば、ＣＰＵ１０１は、画像処理部１０４に、アウトカメラ１０７で撮像された動画像に対して顔検出処理を実行するように指示する。なお、Ｓ６０２で顔検出処理を継続して実行するように画像処理部１０４に指示している場合には、Ｓ６０５は省略してもよい。その後、ＣＰＵ１０１はＳ６０６を実行する。

【0062】

Ｓ６０６でＣＰＵ１０１は、アウトカメラ１０７で撮像された動画像に顔が映り込んでいるか否かを判定する。ＣＰＵ１０１は例えば画像処理部１０４による顔検出処理の結果を取得し、顔領域が検出されていれば顔が写り込んでいると判定してＳ６０７を実行し、顔領域が検出されていなければ顔が写り込んでいないと判定してＳ６２０を実行する。

【0063】

Ｓ６０７でＣＰＵ１０１は、広角インカメラ１１０での動画像の撮像を開始する（Ｓ６０５で開始してもよい）。また、ＣＰＵ１０１は、画像処理部１０４に、広角インカメラ１１０で撮像された動画像について、表示用の動画像の生成と、生成した動画像のピクチャーインピクチャー表示を指示する。これにより、ディスプレイ１０５に、アウトカメラ１０７の撮像範囲を示す動画像と、広角インカメラ１１０で撮像された動画像とがディスプレイ１０５に継続して表示される（図４（ｃ））。その後、ＣＰＵ１０１は、Ｓ６０８を実行する。

【0064】

Ｓ６０８でＣＰＵ１０１は、画像処理部１０４に対し、アウトカメラ１０７で撮像された動画像に、検出された顔領域を示す指標を重畳表示するように指示する。これにより、図４（ｄ）に示したように、アウトカメラ１０７で撮像された動画像に、検出された顔領域を示す指標が重畳表示される。なお、顔領域を示す指標の重畳表示は、顔領域の検出を指示する際に合わせて指示してもよい。その後、ＣＰＵ１０１は、Ｓ６０９を実行する。

【0065】

Ｓ６０９でＣＰＵ１０１は、広角インカメラ１１０で撮像された動画像に対して顔検出処理を適用するように画像処理部１０４に指示する。そして、ＣＰＵ１０１は、Ｓ６１０を実行する。なお、Ｓ６０９の処理はＳ６０７の処理に含めてもよい。

【0066】

Ｓ６１０でＣＰＵ１０１は、画像処理部１０４から通知された顔検出処理の結果に基づいて、広角インカメラ１１０で撮像された動画像に顔が含まれているか否かを判定する。ＣＰＵ１０１は、広角インカメラ１１０で撮像された動画像で顔が検出されていればＳ６１１を、検出されていなければＳ６１４を実行する。

【0067】

Ｓ６１１でＣＰＵ１０１は、画像処理部１０４に対して、アウトカメラ１０７で撮像された動画像で検出された顔と、広角インカメラ１１０で撮像された動画像で検出された顔とがどの程度一致しているかを示す一致度の算出を指示する。画像処理部１０４は、それぞれの動画像で検出された顔領域から、目、鼻、口等の位置、形、大きさ、顔の全体的な形、凹凸など、顔の特徴を数値化する。そして、画像処理部１０４は、顔の特徴に関する数値を比較して、顔の一致度を算出する。顔の一致度は、例えば、数値の差の合計であってよく、この場合には値が小さいほど顔の一致度が高くなる。画像処理部１０４は、算出した顔の一致度をＣＰＵ１０１に通知する。ＣＰＵ１０１は、顔の一致度が通知されると、Ｓ６１２を実行する。

【0068】

Ｓ６１２でＣＰＵ１０１は、顔の一致度に基づいて、アウトカメラ１０７で撮像された動画像で検出された顔と、広角インカメラ１１０で撮像された動画像で検出された顔とが同一人物の顔か否かを判定する。ＣＰＵ１０１は例えば顔の一致度が閾値未満であれば同一人物の顔であると判定してＳ６１３を実行し、閾値以上であれば他人の顔であると判定してＳ６１５を実行する。

【0069】

なお、Ｓ６１１およびＳ６１２の処理は、学習済みモデルを用いた推論処理によって実現されてもよい。この場合、学習済みモデルの入力データとして、アウトカメラ１０７で撮像された動画像で検出された顔部分の画像データと、広角インカメラ１１０で撮像された動画像で検出された顔部分の画像データとを用いる。そして、学習済みモデルは出力データとして一致度を出力する。また、そのような学習済みモデルは、例えばニューラルネットワークを用いた機械学習によって生成することができる。この場合、機械学習は、あらかじめアウトカメラ１０７で撮像した顔部分の画像データと、広角インカメラ１１０で撮像した顔部分の画像データとを入力データとし、所定の方法で求めた両者の一致度を教師データとする教師あり学習であってよい。

【0070】

Ｓ６１３でＣＰＵ１０１は、画像処理部１０４に、広角インカメラ１１０で撮像された動画像について、検出された顔検出を示す指標を重畳表示するように指示する。これにより、図４（ｅ）に示したように、広角インカメラ１１０で撮像された動画像に、検出された顔領域を示す指標が重畳表示される。なお、顔領域を示す指標の重畳表示は、顔領域の検出を指示する際に合わせて指示してもよい。その後、ＣＰＵ１０１は、Ｓ６２０を実行する。

【0071】

Ｓ６１４でＣＰＵ１０１は、ユーザの顔が広角インカメラ１１０で撮像されるようにユーザの位置を変えるように促す指標（顔位置ガイド）を表示するよう、画像処理部１０４に指示する。指示に応答して画像処理部１０４は、図４（ｆ）に示したように、広角インカメラ１１０で撮像された動画像の中央に枠と顔を模した図形を重畳表示したり、例えば図５（ａ）のような形態でメッセージを重畳表示したりする。その後、ＣＰＵ１０１は、Ｓ６１５を実行する。

【0072】

Ｓ６１５でＣＰＵ１０１は、ユーザによる撮像操作が行われたか否かを判定する。具体的には、ＣＰＵ１０１は撮像ボタン４０１に対するタッチ操作が行われたか否かを判定する。ＣＰＵ１０１は、撮像操作が行われたと判定されればＳ６１６を実行し、判定されなければＳ６０５を実行する。

【0073】

Ｓ６１６でＣＰＵ１０１は、画像処理部１０４に対して、顔の映り込みを軽減できないことを示すメッセージを重畳表示するように指示する。ここでは、画像処理部１０４は「被写体に撮像者が映り込んでいる可能性があります。インカメラに撮像者が認識されないため、映り込みを軽減できません。」というメッセージをディスプレイ１０５に表示する（図５（ａ））。その後、ＣＰＵ１０１は、Ｓ６１７を実行する。

【0074】

Ｓ６１７でＣＰＵ１０１は、メッセージに対する確認操作、例えばディスプレイ１０５に対するタップ操作を検出したか否かを判定する。ＣＰＵ１０１は、確認操作が行われたと判定されれば、画像処理部１０４に対して、ユーザに対して撮像を継続するか否かを確認するダイアログをディスプレイ１０５に表示するよう指示する。ここでは、画像処理部１０４は「このまま撮像を続けますか」というメッセージと、「はい」「いいえ」ボタンを含んだダイアログをディスプレイ１０５に表示する（図５（ｂ））。なお、確認操作を検出する代わりに、所定時間が経過したか否かを判定してもよい。その後、ＣＰＵ１０１は、Ｓ６１８を実行する。

【0075】

Ｓ６１８でＣＰＵ１０１は、撮像中止操作を検出したか否かを判定する。具体的には、ＣＰＵ１０１は、Ｓ６１７で表示した確認ダイアログの「いいえ」ボタンに対する操作が検出されたか否かを判定する。ＣＰＵ１０１は、撮像中止操作を検出したと判定されればＳ６０５を実行し、判定されなければＳ６１９を実行する。

【0076】

Ｓ６１９でＣＰＵ１０１は、撮像継続操作を検出したか否かを判定する。具体的には、ＣＰＵ１０１は、Ｓ６１７で表示した確認メッセージの「はい」ボタンに対する操作が検出されたか否かを判定する。ＣＰＵ１０１は、撮像継続操作を検出したと判定されればＳ６２１を実行し、判定されなければＳ６１８を実行する。

【0077】

Ｓ６２０でＣＰＵ１０１は、Ｓ６１５と同様に、ユーザによる撮像操作が行われたか否かを判定する。ＣＰＵ１０１は、撮像操作が行われたと判定されればＳ６２１を実行し、判定されなければＳ６０５を実行する。

【0078】

Ｓ６２１でＣＰＵ１０１は、アウトカメラ１０７、広角インカメラ１１０のそれぞれで静止画の撮像を実行する。静止画の撮像に用いる絞り、シャッタースピードなどのパラメータは、アウトカメラ１０７で撮像された動画像に基づいて画像処理部１０４が生成した評価値に基づいてＣＰＵ１０１が決定する。また、ＣＰＵ１０１は、光学系の自動焦点検出についても、アウトカメラ１０７で撮像された動画像に基づいて画像処理部１０４が生成した評価値に基づいて実行する。

【0079】

また、ＣＰＵ１０１は、画像処理部１０４に対し、アウトカメラ１０７で撮像された静止画データに基づく記録用の静止画データと、広角インカメラ１１０で得られた静止画データに基づく、写り込み軽減モードで用いる静止画データとを生成するように指示する。画像処理部１０４は、これら静止画データに対し、表示用の動画像データを生成するための画像処理よりも画質を優先した画像処理を適用する。その後、ＣＰＵ１０１は、Ｓ６２２を実行する。

【0080】

Ｓ６２２でＣＰＵ１０１は、Ｓ６２１でアウトカメラ１０７で撮像した静止画データに対して、映り込み軽減処理を適用するように画像処理部１０４に指示する。画像処理部１０４は、不揮発性メモリ１０３から学習済みの機械学習モデル３０２とスマートフォン１００の外観画像を読み出し、内部メモリもしくはメモリ１０２に読み出す。その後、画像処理部１０４は、記録用の静止画データと、広角インカメラ１１０で撮像した静止画データから生成した静止画データと、スマートフォン１００の外観画像とを入力データとして学習済みの機械学習モデル３０２に与える。画像処理部１０４は、学習済みの機械学習モデル３０２の演算を実施し、出力として得られる、映り込みを軽減した画像を不揮発性メモリ１０３へ保存する。

【0081】

このように、本実施形態に係る画像処理装置は、被写体の画像と、撮影者とその周囲の画像と、撮像装置の外観の画像とを入力データとして学習済み機械学習モデルに与えることにより、被写体画像における映り込みを軽減することができる。撮影者とその周囲の画像、ならびに撮像装置の外観の画像を用いることにより、視差を用いる構成とは異なり、同一シーンを複数視点で撮像する必要がなく、また遠景と近景が存在するシーン以外のシーンについても写り込みを軽減することができる。

【0082】

（その他の実施形態）
上述の実施形態では、画像処理装置が標準インカメラと広角インカメラを有する構成について説明した。しかし、インカメラは１つであってもよい。この場合、撮像された画像を電子的にクロップすることで画角を変更する構成としてもよい。

【0083】

なお、図６では説明および理解を容易にするために、主被写体には顔が含まれていないことが分かっている場合の動作について説明した。主被写体に顔が含まれているかどうか分からない場合には、例えば以下の様な動作になる。

【0084】

Ｓ６０２で画像処理部１０４は、アウトカメラ１０７で撮像された動画像に顔領域が含まれていれば、表示用の動画像に顔領域を示す指標を重畳表示させる（図４（ｄ））。

【0085】

Ｓ６０５でＣＰＵ１０１は、広角インカメラ１１０による動画像の撮像を開始する。また、ＣＰＵ１０１は、画像処理部１０４に、広角インカメラ１１０で撮像された動画像に対しても顔検出処理を実行するように指示する。ＣＰＵ１０１はさらに、画像処理部１０４に、アウトカメラ１０７で撮像した動画像に写り込みが生じているか否かを検出するように指示する。

【0086】

画像処理部１０４は、例えば、アウトカメラ１０７で撮像した動画像に、広角インカメラ１１０で撮像した動画像と類似した領域が含まれていれば、アウトカメラ１０７で撮像した動画像に写り込みが生じていると判定する。また、画像処理部１０４は、アウトカメラ１０７で撮像した動画像における、広角インカメラ１１０で撮影した動画像と類似した領域に、広角インカメラ１１０で撮影した動画像で検出された顔領域が含まれていれば、撮影者が写り込んでいると判定する。そして、画像処理部１０４は顔検出結果、写り込みの検出有無、および撮影者の写り込みの検出有無をＣＰＵ１０１に通知する。

【0087】

そして、Ｓ６０６でＣＰＵ１０１は、画像処理部１０４から、撮影者の写り込みがあるとの通知を受けていればＳ６０７を、通知を受けていなければＳ６２０を実行する。

【0088】

Ｓ６０７以降は上述したように動作すればよい。ただし、Ｓ６１０、Ｓ６１１、Ｓ６１２の動作は、Ｓ６０５で画像処理部１０４が通知した顔検出結果や、写り込みに関する判定結果を用いる。

【0089】

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0090】

本発明は上述した実施形態の内容に制限されず、発明の精神および範囲から離脱することなく様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0091】

１０１…ＣＰＵ、１０２…メモリ、１０３…不揮発性メモリ、１０４…画像処理部、１０５…ディスプレイ、１０６…操作部、１０７…アウトカメラ、１０９…標準インカメラ、１１０…広角インカメラ

【図1】