IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7595480電子機器、電子機器の制御方法およびプログラム
<>
  • 特許-電子機器、電子機器の制御方法およびプログラム 図1
  • 特許-電子機器、電子機器の制御方法およびプログラム 図2
  • 特許-電子機器、電子機器の制御方法およびプログラム 図3
  • 特許-電子機器、電子機器の制御方法およびプログラム 図4
  • 特許-電子機器、電子機器の制御方法およびプログラム 図5
  • 特許-電子機器、電子機器の制御方法およびプログラム 図6
  • 特許-電子機器、電子機器の制御方法およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-28
(45)【発行日】2024-12-06
(54)【発明の名称】電子機器、電子機器の制御方法およびプログラム
(51)【国際特許分類】
   G02B 7/34 20210101AFI20241129BHJP
   G02B 7/36 20210101ALI20241129BHJP
   G03B 13/36 20210101ALI20241129BHJP
   H04N 23/61 20230101ALI20241129BHJP
   H04N 23/67 20230101ALI20241129BHJP
【FI】
G02B7/34
G02B7/36
G03B13/36
H04N23/61
H04N23/67
【請求項の数】 14
(21)【出願番号】P 2021023506
(22)【出願日】2021-02-17
(65)【公開番号】P2022125743
(43)【公開日】2022-08-29
【審査請求日】2024-02-16
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100125254
【弁理士】
【氏名又は名称】別役 重尚
(72)【発明者】
【氏名】辻 良介
【審査官】門田 宏
(56)【参考文献】
【文献】特開2021-005063(JP,A)
【文献】特開2016-144183(JP,A)
【文献】特開2012-104872(JP,A)
【文献】特開2010-175966(JP,A)
【文献】国際公開第2017/022331(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G02B 7/28-7/40
G03B 13/36
H04N 23/60-23/61
H04N 23/67
G06N 3/0464
(57)【特許請求の範囲】
【請求項1】
瞳分割した光が入射する複数の光電変換部が配列された複数の画素を有する撮像素子を用いて撮像した画像を取得する手段と、
前記画像から被写体および当該被写体の遮蔽領域を検出する手段と、
前記瞳分割の方向と前記遮蔽領域の分布の方向とに応じて、位相差情報に基づく焦点調節の制御を行う手段と、を備える電子機器。
【請求項2】
前記瞳分割の方向と前記遮蔽領域の分布の方向とが異なる場合、前記遮蔽領域の位相差情報を除外して前記焦点調節の制御が行われる、請求項1に記載の電子機器。
【請求項3】
前記瞳分割の方向と前記遮蔽領域の分布の方向とが同じ場合、前記遮蔽領域の位相差情報を除外することなく前記焦点調節の制御が行われる、請求項1に記載の電子機器。
【請求項4】
前記瞳分割の方向は、複数の方向に切り替え可能であり、
前記遮蔽領域の分布の方向に応じた方向に前記瞳分割の方向が切り替えられて、前記焦点調節の制御が行われる、請求項1乃至3のうち何れか1項に記載の電子機器。
【請求項5】
切り替えられた前記瞳分割の方向と異なる方向の位相差情報は前記焦点調節の制御に用いられない、請求項4に記載の電子機器。
【請求項6】
前記瞳分割の方向は、水平方向と垂直方向とに切り替え可能である、請求項4または5に記載の電子機器。
【請求項7】
前記瞳分割の方向と前記遮蔽領域の分布の方向とに基づく前記焦点調節の制御よりも、前記遮蔽領域を除外した被写体領域のコントラストのある方向における位相差情報に基づく焦点調節の制御が優先的に行われる、請求項1乃至6のうち何れか1項に記載の電子機器。
【請求項8】
前記遮蔽領域のコントラストを示す値が所定の閾値より低い場合、前記瞳分割の方向と前記遮蔽領域の分布の方向とに基づく前記焦点調節の制御が行われない、請求項1乃至7のうち何れか1項に記載の電子機器。
【請求項9】
被写体領域の遮蔽領域を正例とし、当該遮蔽領域以外の領域を負例とした複数の教師画像を用いて機械学習された学習済みモデルに、撮像された前記画像を入力して得られる遮蔽領域の尤度に基づき、前記画像から遮蔽領域が検出される、請求項1乃至8のうち何れか1項に記載の電子機器。
【請求項10】
前記教師画像の遮蔽領域は、前記教師画像の被写体領域に存在する前景の領域である、請求項9に記載の電子機器。
【請求項11】
前記教師画像の遮蔽領域は、深度差が所定値以上の領域である、請求項10に記載の電子機器。
【請求項12】
被写体領域の遮蔽領域が水平方向に分布する複数の学習用の画像と垂直方向に分布する複数の学習用の画像とを用いて教師なし学習により機械学習された学習済みモデルに、撮像された前記画像を入力して、前記画像から遮蔽領域が検出される、請求項1乃至8のうち何れか1項に記載の電子機器。
【請求項13】
瞳分割した光が入射する複数の光電変換部が配列された複数の画素を有する撮像素子を用いて撮像した画像を取得する工程と、
前記画像から被写体および当該被写体の遮蔽領域を検出する工程と、
前記瞳分割の方向と前記遮蔽領域の分布の方向とに応じて、位相差情報に基づく焦点調節の制御を行う工程と、を備える電子機器の制御方法。
【請求項14】
請求項1乃至12のうち何れか1項に記載の電子機器の各手段をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子機器、電子機器の制御方法およびプログラムに関する。
【背景技術】
【0002】
カメラ等の撮像装置が撮像した画像から被写体のパターン(例えば、被写体としての人物の顔領域)を検出する技術が用いられている。関連する技術として、特許文献1の技術が提案されている。特許文献1の技術は、画像から人物の顔を検出する顔領域検出とAF/AE/WB評価値の検出とを同一フレームに対して行うことで、人物の顔の焦点調節と露出制御とを高精度に行うこと実現している。
【0003】
また、近年では、画像から被写体の検出に、深層学習されたニューラルネットワークが用いられている。画像認識等に好適なニューラルネットワークとしてCNN(畳み込みニューラルネットワーク)が用いられている。例えば、非特許文献1には、CNNを適用して画像中の物体を検出する技術(Single Shot Multibox Detector)が提案されている。また、非特許文献2には、画像中の領域を意味的に分割する技術(Semantic Image Segmentation)が提案されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2005-318554号公報
【非特許文献】
【0005】
【文献】“Liu,SSD:Single Shot Multibox Detector. In: ECCV2016”
【文献】“Chen et.al, DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, arXiv, 2016”
【発明の概要】
【発明が解決しようとする課題】
【0006】
近年では、瞳分割機能を用いて位相差検出を行い、検出した位相差情報を用いて焦点調節を行う方式が用いられている。撮影を行う際に、被写体が何らかの物体に遮蔽されると、画像中の被写体領域に遮蔽領域が生じることがある。被写体領域における遮蔽領域の分布方向によっては、遠近競合が生じることがある。遠近競合が生じると、焦点調節精度が低下するという問題がある。特許文献1の技術は、かかる問題を解決するものではない。
【0007】
そこで、本発明は、被写体領域に遮蔽領域が存在する場合に焦点調節精度の低下の発生を抑制することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明の電子機器は、瞳分割した光が入射する複数の光電変換部が配列された複数の画素を有する撮像素子を用いて撮像した画像を取得する手段と、前記画像から被写体および当該被写体の遮蔽領域を検出する手段と、前記瞳分割の方向と前記遮蔽領域の分布の方向とに応じて、位相差情報に基づく焦点調節の制御を行う手段と、を備える。
【発明の効果】
【0009】
本発明によれば、被写体領域に遮蔽領域が存在する場合に焦点調節精度の低下の発生を抑制することができる。
【図面の簡単な説明】
【0010】
図1】デジタルカメラの一例を示す図である。
図2】撮像素子の画素の配列および画素の瞳分割の方向の一例を示す図である。
図3】遮蔽領域の尤度を推論するCNNの一例を示す図である。
図4】第1実施形態における焦点調節の処理の流れの一例を示すフローチャートである。
図5】画像データ、被写体領域および遮蔽領域の分布の一例を示す図である。
図6】画素の瞳分割の方向がY方向である場合の一例を示す図である。
図7】第2実施形態における焦点調節の処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について図面を参照しながら詳細に説明する。しかしながら、以下の実施形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は実施形態に記載されている構成によって限定されることはない。
【0012】
<第1実施形態>
図1は、電子機器としてのデジタルカメラCの一例を示す図である。デジタルカメラCは、レンズ交換式一眼レフカメラである。デジタルカメラCは、レンズ交換式ではないカメラであってもよい。また、電子機器は、デジタルカメラには限定されず、例えば、スマートフォンやタブレット端末等の任意のデバイスであってもよい。
【0013】
デジタルカメラCは、撮像光学系であるレンズユニット100およびカメラ本体120を有する。レンズユニット100は、図1の中央に点線で示されるマウントM(レンズマウント)を介して、カメラ本体120に着脱可能に装着される。レンズユニット100は、光学系および駆動制御系を有する。光学系は、第1レンズ群101、絞り102、第2レンズ群103およびフォーカスレンズ104(フォーカスレンズ群)を含む。レンズユニット100は、被写体の光学像を形成する撮影レンズである。
【0014】
第1レンズ群101は、レンズユニット100の先端に配置され、光軸方向OAに移動可能に保持される。絞り102は、撮影時の光量を調節する機能として機能するとともに、静止画撮影時には露出時間を制御するメカニカルシャッタとしても機能する。絞り102および第2レンズ群103は、一体で光軸方向OAに移動可能であり、第1レンズ群101と連動して移動することによりズーム機能を実現する。フォーカスレンズ104も光軸方向OAに移動可能であり、位置に応じてレンズユニット100が合焦する被写体距離(合焦距離)が変化する。フォーカスレンズ104の光軸方向OAにおける位置を制御することにより、レンズユニット100の合焦距離を調節する焦点調節が実施される。
【0015】
駆動制御系は、ズームアクチュエータ111、絞りアクチュエータ112およびフォーカスアクチュエータ113を有する。また、駆動制御系は、ズーム駆動回路114、絞りシャッタ駆動回路115、フォーカス駆動回路116、レンズMPU(MPU:マイクロプロセッサ)117およびレンズメモリ118を有する。
【0016】
ズーム駆動回路114は、ズームアクチュエータ111を用いて第1レンズ群101や第2レンズ群103を光軸方向OAに駆動し、レンズユニット100の光学系の画角を制御する。絞りシャッタ駆動回路115は、絞りアクチュエータ112を用いて絞り102を駆動し、絞り102の開口径の制御や開閉動作の制御を行う。フォーカス駆動回路116は、フォーカスアクチュエータ113を用いてフォーカスレンズ104を光軸方向OAに駆動し、レンズユニット100の光学系の合焦距離を変化させる。また、フォーカス駆動回路116は、フォーカスアクチュエータ113を用いてフォーカスレンズ104の現在位置を検出する。
【0017】
レンズMPU117は、レンズユニット100に関する各種の演算や制御を行うことで、ズーム駆動回路114や絞りシャッタ駆動回路115、フォーカス駆動回路116を制御する。また、レンズMPU117は、マウントMを通じてカメラMPU125と接続され、カメラMPU125との間でコマンドやデータに関する通信を行う。例えば、レンズMPU117は、フォーカスレンズ104の位置を検出し、カメラMPU125からの要求に対してレンズ位置情報を通知する。レンズ位置情報は、フォーカスレンズ104の光軸方向OAにおける位置や、光学系が移動していない状態の射出瞳の光軸方向OAにおける位置および直径、射出瞳の光束を制限するレンズ枠の光軸方向OAにおける位置および直径等の情報を含む。また、レンズMPU117は、カメラMPU125からの要求に応じて、ズーム駆動回路114、絞りシャッタ駆動回路115およびフォーカス駆動回路116を制御する。レンズメモリ118は、自動焦点検出に必要な光学情報が予め記憶されている。カメラMPU125は、例えば、内蔵する不揮発性メモリやレンズメモリ118に記憶されているプログラムを実行することで、レンズユニット100の動作を制御する。
【0018】
カメラ本体120は、レンズユニット100と同様、光学系および駆動制御系を有する。光学系は、光学ローパスフィルタ121および撮像素子122を含む。レンズユニット100の第1レンズ群101、絞り102、第2レンズ群103およびフォーカスレンズ104と、カメラ本体120の光学ローパスフィルタ121とにより撮像光学系が構成される。光学ローパスフィルタ121は、撮影画像の偽色やモアレを軽減するフィルタである。
【0019】
撮像素子122は、CMOSイメージセンサと周辺回路とを含んで構成される。撮像素子122は、撮像光学系からの入射光を受光する。撮像素子122には、横方向にm画素、縦方向にn画素(n、mは2以上の整数)が配置される。撮像素子122は、瞳分割機能を有し、画像データを用いた位相差AF(オートフォーカス)を行うことが可能である。画像処理回路124は、撮像素子122が出力する画像データから、位相差AF用のデータと、表示用および記録用の画像データとを生成する。
【0020】
駆動制御系は、撮像素子駆動回路123、画像処理回路124、カメラMPU125、表示器126、操作スイッチ群127、メモリ128、撮像面位相差検出部129、認識部130および通信部131を有する。撮像素子駆動回路123は、撮像素子122の動作を制御するとともに、取得した画像信号をA/D変換してカメラMPU125に送信する。画像処理回路124は、撮像素子122が取得した画像データに対し、例えば、γ変換やホワイトバランス調整処理、色補間処理、圧縮符号化処理等のデジタルカメラで行われる一般的な画像処理を行う。また、画像処理回路124は、位相差AF用の信号も生成する。
【0021】
カメラMPU125は、カメラ本体120に関する各種の演算や制御等を行う。カメラMPU125は、撮像素子駆動回路123、画像処理回路124、表示器126、操作スイッチ群127、メモリ128、撮像面位相差検出部129、認識部130および通信部131を制御する。カメラMPU125は、マウントMの信号線を介してレンズMPU117と接続され、レンズMPU117との間でコマンドやデータに関する通信を行う。カメラMPU125は、レンズMPU117に対して、各種の要求を行う。例えば、カメラMPU125は、レンズMPU117に対して、レンズ位置の情報やレンズユニット100に固有の光学情報等を要求する。また、カメラMPU125は、レンズMPU117に対して、所定の駆動量での絞り、フォーカスレンズ、ズーム駆動等を要求する。
【0022】
カメラMPU125は、ROM125a、RAM125bおよびEEPROM125cを内蔵する。ROM(ROM:Read Only Memory)125aは、撮像動作を制御するプログラムを格納する。RAM(RAM:Random Access Memory)125bは、変数を一時的に記憶する。EEPROM(EEPROM:Electrically Erasable Programmable Read-Only Memory)125cは、各種のパラメータを記憶する。
【0023】
表示器126は、LCD(LCD: liquid crystal display)等から構成され、カメラの撮影モードに関する情報や撮影前のプレビュー画像、撮影後の確認用画像、焦点検出時の合焦状態表示画像等を表示する。操作スイッチ群127は、電源スイッチやレリーズ(撮影トリガ)スイッチ、ズーム操作スイッチ、撮影モード選択スイッチ等を含む。メモリ128は、着脱可能なフラッシュメモリであり、撮影済み画像を記録する。
【0024】
撮像面位相差検出部129は、画像処理回路124から取得した焦点検出用データを用いて位相差検出方式で焦点検出処理を行う。画像処理回路124は、二対の瞳領域を通過する光束で形成される各対の像データを焦点検出用データとして生成する。そして、撮像面位相差検出部129は、生成された各対の像データのずれ量に基づいて、焦点ずれ量を検出する。撮像面位相差検出部129は、専用のAFセンサを用いることなく、撮像素子122の出力に基づく位相差AF(撮像面位相差AF)を行う。撮像面位相差検出部129は、カメラMPU125の一部により実現されてもよいし、専用の回路やCPU等により実現されてもよい。
【0025】
認識部130は、画像処理回路124から取得した画像データに基づき被写体認識を行う。認識部130は、被写体認識として、目的とする被写体が画像データの何れの位置に存在するかを検出する被写体検出、および被写体領域と被写体が遮蔽された遮蔽領域とに分割する領域分割を行う。本実施形態では、認識部130は、遮蔽情報の分布方向と焦点ずれ量(像ずれ量)の検出方向とに基づき、焦点調節に利用する位相差情報の領域を決定する。以下、像ずれ量の検出方向を、位相差情報の瞳分割方向と称することがある。
【0026】
本実施形態の認識部130は、CNN(畳み込みニューラルネットワーク)を用いて、被写体検出および領域分割を行うものとする。本実施形態では、被写体検出には、被写体検出についての深層学習がされたCNNが用いられ、領域分割には、領域分割についての深層学習がされたCNNが用いられるものとする。ただし、認識部130は、被写体検出および領域分割の両者についての深層学習がされたCNNを用いてもよい。
【0027】
認識部130は、カメラMPU125から画像を取得し、被写体検出の深層学習がされたCNNに入力する。CNNの推論処理により、出力結果として被写体が検出される。また、認識部130は、認識された被写体の画像を、領域分割の深層学習がされたCNNに入力する。CNNの推論処理により、出力結果として、被写体の画像における遮蔽領域が検出される。認識部130は、カメラMPU125により実現されてもよいし、専用の回路やCPU等により実現されてもよい。また、認識部130は、CNNによる推論処理を行うため、推論処理の演算処理に用いられるGPUを内蔵していることが好ましい。
【0028】
CNNの深層学習について説明する。CNNの深層学習は、任意の手法で行われ得る。被写体検出についてのCNNの深層学習について説明する。例えば、CNNの深層学習は、正解としての被写体が写った画像を教師データとし、多くの学習用画像を入力データとして用いた教師あり学習により実現される。このとき、CNNの深層学習には、誤差逆伝搬法等の手法が適用される。
【0029】
CNNの深層学習は、例えば、サーバ等の所定のコンピュータにより行われてもよい。この場合、カメラ本体120の通信部131が所定のコンピュータと通信を行うことにより、深層学習されたCNNを、所定のコンピュータから取得してもよい。そして、カメラMPU125が、通信部131により取得されたCNNを、認識部130にセットする。これにより、認識部130は、深層学習されたCNNを用いて、被写体検出を行うことができる。デジタルカメラCが、深層学習に適した高性能なCPUやGPU、或いは深層学習に特化した専用プロセッサ等を内蔵している場合、デジタルカメラCがCNNの深層学習を行ってもよい。ただし、CNNの深層学習には豊富なハードウェア資源を要することから、外部装置(所定のコンピュータ)がCNNの深層学習を行い、デジタルカメラCが、深層学習されたCNNを取得して使用することが好ましい。
【0030】
被写体検出は、CNNではなく、任意の手法を用いて実現されてもよい。例えば、被写体検出は、ルールベースに基づく手法により実現されてもよい。また、被写体検出には、深層学習されたCNN以外にも、任意の手法により機械学習された学習済みモデルが用いられてもよい。例えば、サポートベクターマシンやロジスティクス回帰等の任意の機械学習アルゴリズムにより機械学習された学習済みモデルを用いて、被写体検出が実現されてもよい。
【0031】
次に、撮像面位相差検出部129の動作について説明する。図2は、撮像素子122の画素の配列および画素の瞳分割の方向の一例を示す図である。図2(A)は、2次元のC-MOSエリアセンサの垂直方向(Y方向)6行および水平方向(X方向)8列の範囲を、レンズユニット100側から観察した状態を示している。撮像素子122には、ベイヤー配列のカラーフィルタが設けられ、奇数行の画素には左から順に緑(G)と赤(R)とのカラーフィルタが交互に配置され、偶数行の画素には左から順に青(B)と緑(G)とのカラーフィルタが交互に配置される。画素211において、円で示されるオンチップマイクロレンズ(マイクロレンズ211i)の内側には、光電変換部が複数配列されている。図2(B)の例では、画素211のオンチップマイクロレンズの内側に、4つの光電変換部211a、211b、211cおよび211dが配置されている。
【0032】
画素211において、光電変換部211a、211b、211cおよび211dは、X方向およびY方向に2分割され、個々の光電変換部の光電変換信号の読み出しが可能であり、各光電変換部の光電変換信号の和を独立して読み出すことも可能である。個々の光電変換部における光電変換信号は、位相差AF用のデータとして用いられる。また、個々の光電変換部における光電変換信号は、3D(3-Dimensional)画像を構成する視差画像の生成に用いられることもある。光電変換信号の和は、通常の撮影画像データを生成する際に用いられる。
【0033】
位相差AFを行う場合の画素信号について説明する。本実施形態においては、図2(A)のマイクロレンズ211iを介して、光電変換部211a、211b、211cおよび211dで撮影光学系の射出光束が瞳分割される。図2(B)の2つの点線で示される領域はそれぞれ光電変換部212Aおよび光電変換部212Bを示す。光電変換部211Aは光電変換部211aおよび211cにより構成され、光電変換部211Bは光電変換部211aおよび211dにより構成される。像ずれ量(位相差)に基づく焦点検出を行うために、光電変換部211aと211cとが出力した信号を加算した加算信号と、光電変換部211aと211dとが出力した信号を加算したもの加算信号とが対として用いられる。これにより、X方向の像ずれ量(位相差)に基づく焦点検出を行うことできる。
【0034】
ここでは、X方向の像ずれ量に基づく焦点検出による位相差AFに着目して説明する。同一画素行に配置された所定範囲内の複数の画素211について、光電変換部212Aに属する光電変換部211aと211cとの加算信号をつなぎ合わせて編成した像をAF用A像とする。また、光電変換部212Bに属する光電変換部212bと211dとの加算信号をつなぎ合わせて編成した像をAF用B像とする。光電変換部212Aおよび212Bの出力は、カラーフィルタの単位配列に含まれる緑、赤、青、緑の出力を加算して算出した疑似的な輝度(Y)信号が用いられる。ただし、赤、青、緑の色ごとに、AF用A像、AF用B像が編成されてもよい。以上のようにして生成されたAF用A像とAF用B像との一対の像信号の相対的な像ずれ量を相関演算により検出することで、一対の像信号の相関度であるプレディクション[bit]を検出することができる。カメラMPU125は、プレディクションに変換係数を乗ずることで、所定領域のデフォーカス量[mm]を検出することができる。光電変換部212Aと212Bとの出力信号の和は、一般的には、出力画像の1画素(出力画素)を形成する。
【0035】
認識部130の被写体検出および遮蔽情報の領域分割について説明する。本実施形態では、認識部130は、画像から人物の顔を検出(認識)する。画像から人物の顔を検出する手法としては、任意の手法(例えば、非特許文献1の手法)を適用できる。ただし、認識部130は、人物の顔ではなく、人物の全身や動物、乗り物等の焦点調節の対象となり得る被写体を検出してもよい。
【0036】
認識部130は、検出された被写体領域に対して、遮蔽領域に関する領域分割を行う。領域分割の手法としては、任意の手法(例えば、非特許文献2の手法)を適用できる。認識部130は、深層学習されたCNNを用いて、各画素領域に遮蔽領域の確からしさ(尤度)を推論する。ただし、上述したように、認識部130は、任意の機械学習アルゴリズムにより機械学習された学習済みモデルを用いて、遮蔽領域の尤度を推論してもよいし、ルールベースに基づいて遮蔽領域の尤度を判定してもよい。遮蔽領域の尤度の推論にCNNが用いられる場合、CNNは、遮蔽領域を正例、遮蔽領域以外の領域を負例として深層学習が行われる。これにより、CNNから、各画素領域における遮蔽領域の尤度が推論結果として出力される。
【0037】
図3は、遮蔽領域の尤度を推論するCNNの一例を示す図である。図3(A)は、CNNに対して入力する入力画像の被写体領域の一例を示す。被写体領域301は、上述した被写体検出により画像から検出される。被写体領域301には、被写体検出の検出対象である顔領域302が含まれる。図3(A)の顔領域302には、2つの遮蔽領域(遮蔽領域303および304)が含まれている。遮蔽領域303は深度差のない領域であり、遮蔽領域304は深度差がある領域である。遮蔽領域はオクルージョン、遮蔽領域の分布はオクルージョン分布とも称される。
【0038】
図3(B)は、遮蔽情報の定義例を示す。図3(B)の1番から3番の各画像は、白領域と黒領域とに分割されており、白領域は正例を示し、黒領域は負例を示す。図3(B)において被写体領域の画像を画像分割した遮蔽情報は、何れもCNNの深層学習を行う際に用いられる教師データの候補を想定した画像である。以下、図3(B)の各遮蔽情報のうち、本実施形態において、何れの遮蔽情報が教師データに用いられるかについて説明する。
【0039】
図3(B)のうち1番の画像は、被写体領域(顔領域)と被写体以外の領域とに領域分割し、被写体領域を正例とし、被写体領域以外の領域を負例とした場合の遮蔽情報の一例を示す。図3(B)のうち2番は、被写体に対する前景の遮蔽領域とそれ以外の領域とに領域分割し、前景の遮蔽領域を正例とし、被写体に対する前景の遮蔽領域以外の領域を負例とした場合の遮蔽情報の一例を示す。図3(C)のうち3番は、被写体に対して遠近競合を招く遮蔽領域とそれ以外の領域とに領域分割し、遠近競合を招く遮蔽領域を正例とし、遠近競合を招く遮蔽領域以外の領域を負例とした場合の遮蔽情報の一例を示す。
【0040】
図2(B)の例では、光電変換部211a、211b、211cおよび211dは、X方向において2つに瞳分割される。この場合、画像中の遮蔽領域がY方向に向かって分布していると、遠近競合が生じやすい。従って、遠近競合が生じやすい遮蔽領域の教師データ(教師画像)は、画素中の複数の光電変換部の瞳分割方向に基づき、生成することができる。
【0041】
図3(B)の1番のように、画像中における人物の顔は、視認性のパターンが特徴的であり、パターンの分散が小さいため、高精度に領域を分割することが可能である。例えば、被写体としての人物を検出するCNNを生成する際の学習処理における教師データとしては、図3(B)の1番の遮蔽情報は好適である。検出精度という観点では、図3(B)の3番の遮蔽情報より図3(B)の1番の遮蔽情報の方が、好適である。ただし、遠近競合を招く遮蔽領域を検出するCNNを生成する際の学習処理における教師データとしては、図3(B)の3番のような画像が好適である。遠近競合を招く遮蔽領域を検出するCNNを生成する際の学習処理における教師データとしては、焦点検出で利用されるA像、B像の視差画像が用いられてもよい。また、遮蔽情報は、上記の例には限らず、遮蔽領域と遮蔽領域外の領域とに分割する任意の手法に基づいて生成されてもよい。
【0042】
図3(C)は、CNNの深層学習の流れを示している。本実施形態では、学習用の入力画像310としてRGB画像が用いられる。また、教師画像としては、図3(C)に示されるような教師画像314(遮蔽情報の教師画像)が用いられる。教師画像314は、図3(B)の遠近競合を招く遮蔽情報の画像である。
【0043】
学習用の入力画像310は、ニューラルネットワークシステム311(CNN)に入力される。ニューラルネットワークシステム311は、例えば、入力層と出力層との間に、畳み込み層とプーリング層とが交互に積層された層構造および当該層構造の後段に全結合層が接続された多層構造を採用することができる。図3(C)の出力層312からは、入力画像のうちの遮蔽領域の尤度を示すスコアマップが出力される。当該スコアマップは、出力結果313の形式で出力される。
【0044】
CNNの深層学習では、出力結果313と教師画像314との間の誤差が損失値315として算出される。損失値315は、例えば、交差エントロピーや二乗誤差等の手法を用いて算出される。そして、損失値315の値が漸減するように、ニューラルネットワークシステム311の各ノードの重みやバイアス等の係数パラメータが調整される。多くの学習用の入力画像310を用いて、CNNの深層学習が十分に行われることにより、ニューラルネットワークシステム311は、未知の入力画像が入力された際、より高い精度の出力結果313を出力するようになる。つまり、ニューラルネットワークシステム311(CNN)は、未知の入力画像が入力されたときに、遮蔽領域と遮蔽領域以外の領域とを領域分割した遮蔽情報を出力結果313として、高い精度で出力するようになる。なお、遮蔽領域(重なった物体の領域)を特定した教師データを作成するためには多くの作業を要する。このため、CGを利用して教師データを作成することや、物体画像を切り出して重畳する画像合成を用いて教師データを作成することも考えられる。
【0045】
上述したように、教師画像314としては、深度差がある領域(被写体の前景であり、深度差が所定値以上の領域)を遮蔽領域とした図3(B)の3番の画像を適用する例を説明した。ここで、教師画像314としては、深度差がない領域(被写体の前景であり、深度差が所定値未満の領域)を遮蔽領域とした図3(B)の2番のような画像が適用されてもよい。図3(B)の2番のような画像が教師画像314として用いられたとしても、CNNに未知の入力画像が入力されたときに、CNNは遠近競合を招く領域を推論することができる。ただし、図3(B)の3番のような深度差がある領域を遮蔽領域とした画像が教師画像314として用いられる方が、CNNにより遠近競合を招く遮蔽領域を推論する精度が向上する。
【0046】
遮蔽領域の検出にはCNNではなく、任意の手法を適用できる。例えば、遮蔽領域の検出は、ルールベースに基づく手法により実現されてもよい。また、遮蔽領域の検出には、深層学習されたCNN以外にも、任意の手法により機械学習された学習済みモデルが用いられてもよい。例えば、サポートベクターマシンやロジスティクス回帰等の任意の機械学習アルゴリズムにより機械学習された学習済みモデルを用いて、遮蔽領域が検出されてもよい。この点は、被写体検出と同様である。
【0047】
次に、焦点調節の処理について説明する。図4は、第1実施形態における焦点調節の処理の流れの一例を示すフローチャートである。焦点調節を行う際、カメラMPU125は、撮像面位相差検出部129における位相差の瞳分割方向と、認識部130による遮蔽領域の方向とに基づき、焦点調節のため参照領域を決定する。
【0048】
S401で、認識部130は、例えば、被写体検出を行うCNNを用いて、カメラMPU125を介して画像処理回路124から取得した画像から被写体を検出する。認識部130は、CNN以外の手法を用いて、画像から被写体を検出してもよい。S402で、認識部130は、画像から検出された被写体の領域内にある遮蔽領域を検出する。このとき、認識部130は、画像処理回路124から取得した画像を入力画像として、図3で説明したCNNに入力する。CNNが十分に訓練されている場合、CNNから出力される出力結果としての画像は、遮蔽領域と遮蔽領域以外の領域とを区別可能な画像になっている。認識部130は、CNNから出力された画像から、遮蔽領域を検出する。
【0049】
S403で、認識部130は、検出された遮蔽領域の分布方向を判定する。認識部130は、例えば、X方向のエッジ積分値とY方向のエッジ積分値とを比較して、積分値が小さい方向を遮蔽領域の分布方向と判定してもよい。図5は、画像データ、被写体領域および遮蔽領域の分布の一例を示す図である。
【0050】
図5(A)は、デジタルカメラCと被写体との間にX方向に延在する遮蔽物(例えば、棒等)が存在している場合の一例を示す図である。画像処理回路124から取得される画像500(画像データ)には、被写体501を遮蔽するように遮蔽物502が映り込んでいる。認識部130は、画像500から被写体領域510の画像を検出する。被写体領域510には、被写体511と遮蔽物512とが含まれる。遮蔽物512は、被写体511をX方向に遮蔽している。
【0051】
認識部130は、被写体領域510を含む画像500をCNNに入力すると、被写体領域510の推論結果として出力結果520を出力する。出力結果520には、遮蔽領域522と遮蔽領域以外の領域521とが含まれる。遮蔽領域522は、遮蔽物512に対応した分布を有している。図5(A)の例では、遮蔽領域522は、X方向に分布している。認識部130は、出力結果520におけるX方向のエッジ積分値とY方向のエッジ積分値とを比較して、積分値が小さいX方向を遮蔽領域の分布方向と判定する。
【0052】
図5(B)は、デジタルカメラCと被写体との間にY方向に延在する遮蔽物が存在している場合の一例を示す図である。画像処理回路124から取得される画像550には、被写体551を遮蔽するように遮蔽物552が映り込んでいる。認識部130は、画像550から被写体領域560を検出する。被写体領域560には、被写体561と遮蔽物562とが含まれる。遮蔽物562は、被写体511をY方向に遮蔽している。
【0053】
認識部130が、被写体領域560を含む画像550をCNNに入力すると、被写体領域560の推論結果として、出力結果570を出力する。出力結果570には、遮蔽領域572と遮蔽領域以外の領域571とが含まれる。認識部130は、図3(A)と同様の方法で、遮蔽領域の分布方向を判定する。図3(B)の例では、認識部130は、遮蔽領域の分布方向がY方向であると判定する。以上により、認識部130は、遮蔽領域の分布方向を判定できる。
【0054】
図4に戻り、S404以降の処理について説明する。S404で、カメラMPU125は、S403の判定結果に基づき、遮蔽領域の分布方向がX方向であるか、またはY方向であるかを判定する。カメラMPU125は、S404で、遮蔽領域の分布方向がX方向であると判定した場合、フローをS405に進める。一方、カメラMPU125は、S404で、遮蔽領域の分布方向がY方向であると判定した場合、フローをS406に進める。S404で、カメラMPU125は、遮蔽領域の分布方向が完全にX方向と一致していなくても、X方向を基準として所定の角度範囲内であれば、遮蔽領域の分布方向がX方向であると判定してもよい。同様に、S404で、カメラMPU125は、遮蔽領域の分布方向が完全にY方向と一致していなくても、Y方向を基準として所定の角度範囲内であれば、遮蔽領域の分布方向がY方向であると判定してもよい。
【0055】
S405で、カメラMPU125は、被写体が検出された領域(被写体領域)を対象にして像ずれ量に基づき焦点調節の制御を行う。遮蔽領域の分布方向がX方向である場合、X方向に像ずれ量(位相差)に遠近競合が生じる可能性が低い。この場合、撮像面位相差検出部129は、被写体領域の全体を参照して、X方向の像ずれ量(位相差)に基づく焦点検出を実施する。そして、カメラMPU125は、撮像面位相差検出部129が検出した像ずれ量に基づき焦点調節の制御を行う。なお、撮像面位相差検出部129は、被写体領域のうち遮蔽領域を除外して、X方向の像ずれ量(位相差)に基づく焦点検出を実施してもよい。S405の処理が行われた後、図4のフローチャートは終了する。
【0056】
S406で、カメラMPU125は、被写体領域から遮蔽領域を除外した領域を対象にして像ずれ量に基づき焦点調節の制御を行う。遮蔽領域の分布方向がY方向である場合、X方向に像ずれ量(位相差)に遠近競合が生じる可能性が高い。この場合、撮像面位相差検出部129は、被写体領域から遮蔽領域を除外した領域を参照して、X方向の像ずれ量(位相差)に基づく焦点検出を実施する。
【0057】
撮像面位相差検出部129は、被写体領域の中に、複数の相関演算ブロックがあり、且つ遮蔽領域を含まないブロックが存在する場合、その相関演算の像ずれ量に基づき焦点検出を実施する。一方、撮像面位相差検出部129は、被写体領域の中に、複数の相関演算ブロックがあり、且つ遮蔽領域を含まないブロックが存在しない場合、相関演算の算出位置が遮蔽領域を含まないようにずらして、像ずれ量の算出を行う。そして、撮像面位相差検出部129は、算出された像ずれ量に基づき焦点検出を実施する。S406の処理が行われた後、図5のフローチャートは終了する。
【0058】
以上、第1実施形態によれば、撮像された画像の被写体領域のうち遮蔽領域の分布方向を検出し、検出された遮蔽領域の分布方向と撮像素子の各画素の瞳分割の方向とに応じて、焦点検出に用いる領域が制御される。これにより、被写体領域に遮蔽領域が存在する場合であっても、遠近競合に起因した焦点調節精度の低下が生じることが抑制される。第1実施形態では、図2(B)のように、撮像素子122の各画素の瞳分割の方向が、X方向である例を示したが、Y方向である場合にも第1実施形態を適用できる。
【0059】
<第2実施形態>
次に、第2実施形態について説明する。第2実施形態では、デジタルカメラCは、水平方向(X方向)の像ずれ量と垂直方向(Y方向)の像ずれ量との両方を算出可能である。このため、デジタルカメラCは、瞳分割の方向をX方向とY方向とに切り替えることが可能である。第2実施形態の構成は、第1実施形態で説明した図1の構成と同様であるため、説明を省略する。
【0060】
X方向の像ずれ量の算出については、第1実施形態と同様である。Y方向の像ずれ量の算出について説明する。図6は、画素211の瞳分割の方向がY方向である場合の一例を示す図である。図2(B)と同様、画素211において、光電変換部211a、211b、211cおよび211dは、X方向およびY方向に2分割されている。光電変換部211a、211b、211cおよび211dのうち、光電変換部212Cは光電変換部211aおよび211bにより構成される。光電変換部211a、211b、211cおよび211dのうち、光電変換部212Dは光電変換部211cおよび211dにより構成される。
【0061】
第2実施形態では、光電変換部212Cに属する光電変換部211aと211bとの出力信号を加算した加算信号と、光電変換部212Dに属する光電変換部211cと211dとの出力信号を加算した加算信号とが、対として用いられる。これにより、Y方向の像ずれ量(位相差)に基づく焦点検出を行うことできる。相関演算については、対とする方向がX方向ではなくY方向であるという点だけで、第1実施形態と同様である。
【0062】
また、第2実施形態では、画素211の瞳分割の方向をX方向とY方向とで切り替えられる。例えば、カメラMPU125の制御により、撮像素子駆動回路123が、光電変換部212Aおよび212Bから出力信号を読み出すか、または第2実施形態の光電変換部212Cおよび212Dから出力信号を読み出すかを切り替えてもよい。これにより、画素211の瞳分割の方向をX方向とY方向とで切り替えることができる。
【0063】
図7は、第2実施形態における焦点調節の処理の流れの一例を示すフローチャートである。S701~S703までは、図4のS401~S403と同様であるため、説明を省略する。ただし、CNNに対する深層学習は、遮蔽領域がX方向に分布している教師画像および遮蔽領域がY方向に分布している教師画像の両者が用いられる。これにより、未知の入力画像を入力として、CNNを用いて、出力結果としてX方向およびY方向に分布する遮蔽領域の存在の尤度を推論できる。CNNの深層学習については、第1実施形態と同様である。
【0064】
S704で、カメラMPU125は、S803の判定結果に基づき、遮蔽領域の分布方向がX方向であるか、またはY方向であるかを判定する。カメラMPU125は、S704で、遮蔽領域の分布方向がX方向であると判定した場合、フローをS705に進める。一方、カメラMPU125は、S704で、遮蔽領域の分布方向がY方向であると判定した場合、フローをS706に進める。
【0065】
S705で、カメラMPU125は、瞳分割の方向を切り替えて、X方向の像ずれ量に基づき焦点調節の制御を行う。遮蔽領域の分布方向がX方向である場合、X方向において像ずれ量(位相差)に遠近競合が生じる可能性が低い。この場合、撮像面位相差検出部129は、X方向の像ずれ量(位相差)に基づく焦点検出を実施する。S705では、撮像面位相差検出部129は、Y方向の像ずれ量(位相差)に基づく焦点検出を実施しない。そして、カメラMPU125は、撮像面位相差検出部129が検出した像ずれ量に基づき焦点調節の制御を行う。S705の処理が行われた後、図5のフローチャートは終了する。
【0066】
S706で、カメラMPU125は、瞳分割の方向を切り替えて、Y方向の像ずれ量に基づき焦点調節の制御を行う。遮蔽領域の分布方向がY方向である場合、Y方向において像ずれ量(位相差)に遠近競合が生じる可能性が低い。この場合、撮像面位相差検出部129は、Y方向の像ずれ量(位相差)に基づく焦点検出を実施する。S706では、撮像面位相差検出部129は、X方向の像ずれ量(位相差)に基づく焦点検出を実施しない。そして、カメラMPU125は、撮像面位相差検出部129が検出した像ずれ量に基づき焦点調節の制御を行う。S406の処理が行われた後、図5のフローチャートは終了する。
【0067】
以上、第2実施形態によれば、画素211の瞳分割の方向をX方向とY方向とで切り替え可能な構成において、遮蔽領域の分布方向に応じて、瞳分割の方向を行い、位相差情報に基づく焦点調節の制御が行われる。これにより、遮蔽領域の分布方向がX方向とY方向との何れの方向であっても、被写体領域に遮蔽領域が存在する場合における遠近競合に起因した焦点調節精度の低下が生じることが抑制される。
【0068】
カメラMPU125は、遮蔽領域を除く被写体領域においてコントラストのある方向(コントラストの高い方向)に基づく方向を、焦点調節の制御を行うときの位相差情報の方向として優先的に選択してもよい。この場合、カメラMPU125は、瞳分割の方向および遮蔽領域の分布方向ではなく、遮蔽領域を除く被写体領域のコントラストがある方向の像ずれ量(位相差)に基づき、焦点調節を行う。被写体領域のコントラストがなければ、遠近競合を回避できたとしても、目的とする被写体を検出できず、焦点調節ができなくなる。このため、カメラMPU125は、遮蔽領域を除く被写体領域のコントラストがある方向の像ずれ量に基づき、焦点調節を行う。この点は、第1実施形態と同様である。
【0069】
また、カメラMPU125は、遮蔽領域のコントラストが低い場合(コントラストを示す値が所定の閾値より低い場合)には、S704の判定結果に応じたS705およびS706の処理を実行しなくてもよい。デジタルカメラCが撮像したときに、遮蔽物により被写体領域に遮蔽領域が生じたとしても、遮蔽物および遮蔽物と被写体との境界において、遠近競合による影響が低いためである。これにより、S704の判定結果に応じたS705、S706の処理を省略することができる。
【0070】
<変形例>
上述した各実施形態では、遮蔽領域を正例、遮蔽領域以外の領域を負例として教師画像を用いた教師あり学習により機械学習を行い、画像から遮蔽領域の分布方向を検出する例について説明した。この点、各実施形態において、教師なし学習により機械学習された学習済みモデルが用いられてもよい。この場合、例えば、被写体を遮蔽する遮蔽領域がX方向に分布する学習用の画像および被写体を遮蔽する遮蔽領域がY方向に分布する学習用の画像が、機械学習に用いられる。当該学習用の画像を用いて、教師なし学習の機械学習が行われることにより、各実施形態で用いられる学習済みモデルが生成されてもよい。そして、生成された学習済みモデルが、遮蔽領域の検出に用いられる。
【0071】
例えば、被写体領域の被写体を遮蔽する遮蔽領域がX方向に分布する画像が、上記の学習済みモデルに入力されると、画像からX方向に分布する遮蔽領域が特徴量として抽出され、入力された画像は遮蔽領域がX方向に分布する画像に分類される。同様に、被写体領域の被写体を遮蔽する遮蔽領域がY方向に分布する画像が、上記の学習済みモデルに入力されると、画像からY方向に分布する遮蔽領域が特徴量として抽出され、入力された画像は遮蔽領域がY方向に分布する画像に分類される。以上により、遮蔽領域の分布方向を判定できる。
【0072】
遮蔽領域を検出する学習済みモデルとして、教師なし学習により機械学習された学習済みモデルが用いられることで、教師データ(教師画像)を用意する必要がなくなる。教師なし学習の機械学習アルゴリズムとしては、例えば、クラスタリングや主成分分析等を適用できる。
【0073】
以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の1以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0074】
120 カメラ本体
122 撮像素子
125 カメラMPU
129 撮像面位相差検出部
130 認識部
211 画素
211a~d 光電変換部
311 ニューラルネットワークシステム
C デジタルカメラ
図1
図2
図3
図4
図5
図6
図7