IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

<>
  • 特許-画像処理装置及び方法、及び撮像装置 図1
  • 特許-画像処理装置及び方法、及び撮像装置 図2
  • 特許-画像処理装置及び方法、及び撮像装置 図3
  • 特許-画像処理装置及び方法、及び撮像装置 図4
  • 特許-画像処理装置及び方法、及び撮像装置 図5
  • 特許-画像処理装置及び方法、及び撮像装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-27
(45)【発行日】2024-03-06
(54)【発明の名称】画像処理装置及び方法、及び撮像装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240228BHJP
   H04N 23/67 20230101ALI20240228BHJP
   H04N 23/71 20230101ALI20240228BHJP
【FI】
G06T7/00 660B
H04N23/67 100
H04N23/71
【請求項の数】 13
(21)【出願番号】P 2019236967
(22)【出願日】2019-12-26
(65)【公開番号】P2021105850
(43)【公開日】2021-07-26
【審査請求日】2022-12-13
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】辻 良介
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2011-130203(JP,A)
【文献】特開2016-048863(JP,A)
【文献】米国特許出願公開第2007/0265732(US,A1)
【文献】越智洋司 外1名,Kinectを利用した動作解析支援システム,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年10月24日,Vol.115 No.285,pp.79~82
【文献】Wee Hong ONG et al.,“Unsupervised Human Activity Detection with Skeleton Data from RGB-D Sensor”,2013 Fifth International Conference on Computational Intelligence, Communication Systems and Networks,IEEE,2013年06月,p.30-35,https://ieeexplore.ieee.org/document/6571338
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
H04N 23/00
H04N 23/40 - 23/76
H04N 23/90 - 23/959
CSDB(日本国特許庁)
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
画像データを取得する取得手段と、
前記画像データから、予め決められた被写体を検出し、該検出した被写体の姿勢情報を推定する推定手段と、
前記推定手段により複数の被写体が検出された場合に、前記姿勢情報から得られる各被写体の特徴ベクトルを用いて、前記複数の被写体から主被写体を判定する判定手段と、を有し、
前記判定手段は、各被写体毎に、前記複数の被写体間の前記特徴ベクトル間の距離の総和を求め、当該距離の総和に基づいて主被写体を判定することを特徴とする画像処理装置。
【請求項2】
前記判定手段は、各被写体の位置および大きさに基づいて、前記複数の被写体のうち、前記主被写体の判定を行う候補の被写体を絞り込むことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記判定手段は、前記距離の総和に基づいて、前記複数の被写体の内、最も異なる姿勢を有する被写体を検出し、該検出した被写体を前記主被写体として判定することを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記判定手段は、前記距離の総和が最も大きい被写体を、前記主被写体として判定することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
【請求項5】
前記判定手段は、各候補の被写体毎に、前記候補の被写体間の前記特徴ベクトル間の距離の総和を求め、当該距離の総和が予め決められた閾値よりも大きい候補の被写体を、前記主被写体として判定することを特徴とする請求項2に記載の画像処理装置。
【請求項6】
前記被写体は人であって、前記姿勢情報は予め決められた関節の位置、前記特徴ベクトルは、予め決められた位置から前記関節までのベクトルであることを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。
【請求項7】
請求項1乃至のいずれか1項に記載の画像処理装置と、
前記画像データを出力する撮像手段と、
前記判定手段により判定された前記主被写体の領域の前記画像データに基づいて焦点調節を行う焦点調節手段と
を有することを特徴とする撮像装置。
【請求項8】
前記判定手段により判定された前記主被写体の領域の前記画像データに基づいて露出制御を行う露出制御手段を更に有することを特徴とする請求項に記載の撮像装置。
【請求項9】
前記判定手段により判定された前記主被写体の特徴ベクトルと、他の被写体の特徴ベクトルとの距離の総和、または、前記特徴ベクトルのクラスタ中心との距離が予め決められた閾値以上の場合に、前記画像データの記録を開始することを特徴とする請求項またはに記載の撮像装置。
【請求項10】
前記判定手段により判定された主被写体の特徴ベクトルと、他の被写体の特徴ベクトルとの距離の総和、または、前記特徴ベクトルのクラスタ中心との距離が大きいほど、より重要度の高い画像と判定することを特徴とする請求項乃至のいずれか1項に記載の撮像装置。
【請求項11】
取得手段が、画像データを取得する取得工程と、
推定手段が、前記画像データから、予め決められた被写体を検出し、該検出した被写体の姿勢情報を推定する推定工程と、
判定手段が、前記推定工程で複数の被写体が検出された場合に、前記姿勢情報から得られる各被写体の特徴ベクトルを用いて、前記複数の被写体から主被写体を判定する判定工程と、を有し、
前記判定工程では、各被写体毎に、前記複数の被写体間の前記特徴ベクトル間の距離の総和を求め、当該距離の総和に基づいて主被写体を判定することを特徴とする画像処理方法。
【請求項12】
コンピュータを、請求項1乃至のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
【請求項13】
請求項12に記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び方法、及び撮像装置に関し、特に、撮影画像からの被写体の検出技術に関するものである。
【背景技術】
【0002】
従来から、デジタルカメラ等の撮像装置において、画像から被写体を検出し、検出した被写体を利用して、オートフォーカス(以下、「AF」と呼ぶ。)等の撮像制御を行う様々な技術が提案されている。被写体検出を利用したAF機能は、焦点調節領域の選択を自動化することで、ユーザの撮影をサポートすることができる。特許文献1には、人物の顔をパターンマッチングにより検出し、焦点を合わせながら追尾する技術が開示されている。
【0003】
また、複数の人物を対象とした動作認識技術として、特許文献2において、連続する複数フレームの映像を用いて、移動距離等の人物軌跡の特徴量が特定の条件を満たす被写体を検出して追尾する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2012-70222号公報
【文献】特開2011-100175号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献2の手法では、人物が複数存在するシーンにおいて、複数のフレームの映像から得られる人物軌跡の特徴量に基づいた判定を行うため、少なくとも複数フレーム分の判定時間が必要であった。また、複数フレーム分の画像を処理する必要があるため、処理にかかる負荷が大きい、という課題があった。
【0006】
本発明は上述した課題を鑑みてなされたものであり、複数の被写体における主被写体の判定の効率化と判定精度の向上を目的する。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の画像処理装置は、画像データを取得する取得手段と、前記画像データから、予め決められた被写体を検出し、該検出した被写体の姿勢情報を推定する推定手段と、前記推定手段により複数の被写体が検出された場合に、前記姿勢情報から得られる各被写体の特徴ベクトルを用いて、前記複数の被写体から主被写体を判定する判定手段と、を有し、前記判定手段は、各被写体毎に、前記複数の被写体間の前記特徴ベクトル間の距離の総和を求め、当該距離の総和に基づいて主被写体を判定する。
【発明の効果】
【0008】
本発明によれば、複数の被写体における主被写体の判定を効率化し、判定精度を向上することができる。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態における撮像装置の構成例を示すブロック図。
図2】実施形態における画像処理部の構成例を示すブロック図。
図3】実施形態における姿勢推定部で推定する姿勢情報の説明図。
図4】実施形態における主被写体判定部における主被写体処理の概念図。
図5】実施形態における撮像装置の撮影動作を示すフローチャート。
図6】変形例における画像処理部の構成例を示すブロック図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0011】
本実施形態では、本発明を適用可能な装置として、撮像装置を例にとって説明するが、撮影された画像を処理することのできる機能を有する機器に適用可能である。
図1は、本実施形態における撮像装置100の構成例を示すブロック図である。なお、以下の説明では、被写体は人物を表すものとし、主被写体は、被写体のうち撮像制御の対象となる被写体を表すものとする。
【0012】
撮像装置100は、被写体を撮影し、撮影して得られた動画や静止画のデータをテープや固体メモリ、光ディスクや磁気ディスク等の各種メディアに記録するデジタルスチルカメラやビデオカメラ等であるが、これらに限定されるものではない。撮像装置100内の各構成は、バス160を介して接続され、主制御部151により制御される。
【0013】
レンズユニット101は、固定された第1レンズ群102、ズームレンズ111、絞り103、固定された第3レンズ群121、及び、フォーカスレンズ131を備えて構成される。絞り制御部105は、主制御部151の指令に従い、絞りモータ(AM)104を介して絞り103を駆動することにより、絞り103の開口径を調整して撮影時の光量調節を行う。ズーム制御部113は、ズームモータ(ZM)112を介してズームレンズ111を駆動することにより、焦点距離を変更する。
【0014】
フォーカス制御部133は、焦点ずれ量に基づいてレンズユニット101を光軸方向に駆動するためのフォーカスモータ(FM)132の駆動量を決定し、フォーカスモータ132を介してフォーカスレンズ131を駆動することにより、焦点調節状態を制御する。フォーカス制御部133及びフォーカスモータ132によるフォーカスレンズ131の移動制御により、AF制御が実現される。
フォーカスレンズ131は、焦点調節用レンズであり、図1には単レンズで簡略的に示されているが、通常複数のレンズで構成される。
【0015】
レンズユニット101を介して撮像素子141上に結像した被写体像は、撮像素子141において光電変換により電気信号に変換される。撮像素子141は、横方向にm画素、縦方向にn画素の受光素子が配置され、各画素は、被写体像(光学像)を電気信号に光電変換を行う光電変換素子を含む。撮像素子141により光電変換して得られた電気信号は、撮像信号処理部142により画像信号(画像データ)として整えられることで、画像を取得することができる。
【0016】
撮像信号処理部142から出力された画像データは、撮像制御部143に送られ、一時的にランダムアクセスメモリ(RAM)154に蓄積される。RAM154に蓄積された画像データは、画像圧縮解凍部153にて圧縮された後、画像記録媒体157に記録される。これと並行して、RAM154に蓄積された画像データは、画像処理部152に送られる。
【0017】
画像処理部152は、RAM154に蓄積された画像データに対して予め定められた画像処理を適用する。画像処理部152が適用する画像処理には、ホワイトバランス調整処理、色補間(デモザイク)処理、ガンマ補正処理といった所謂現像処理のほか、信号形式変換処理、スケーリング処理等があるが、これらに限定されない。さらに、画像処理部152は、公知の方法により予め決められた被写体を検出し、検出した被写体の姿勢情報をもとに主被写体を判定する。判定処理の結果は、他の画像処理(例えばホワイトバランス調整処理)に利用してもよい。画像処理部152は、処理した画像データ、及び、後述するように姿勢情報として主被写体の判定に用いる各被写体の関節位置、主被写体と判定した被写体の重心、顔や瞳の位置等の情報をRAM154に保存する。
【0018】
操作スイッチ156は、タッチパネルやボタン等を含む入力インターフェイスであり、表示部150に表示される種々の機能アイコンを選択操作すること等により、様々な操作を行うことができる。
【0019】
主制御部151は、例えばCPUやMPU等のプログラマブルプロセッサを1つ以上有し、例えばフラッシュメモリ155に記憶されたプログラムをRAM154に読み込んで実行することにより各部を制御し、撮像装置100の機能を実現する。主制御部151はまた、被写体輝度の情報に基づいて露出条件(シャッタースピードもしくは蓄積時間、絞り値、感度)を自動的に決定するAE処理を実行する。被写体輝度の情報は例えば画像処理部152から取得することができる。主制御部151は、例えば人物の顔等、特定の被写体の領域を基準として露出条件を決定することもできる。
【0020】
フラッシュメモリ155には、撮像装置100の動作に必要な制御プログラムや、各部の動作に用いるパラメータ等が記録されている。ユーザの操作により撮像装置100が起動すると(電源OFF状態から電源ON状態へ移行すると)、フラッシュメモリ155に格納された制御プログラム及びパラメータがRAM154の一部に読み込まれる。主制御部151は、RAM154にロードされた制御プログラム及びパラメータに従って撮像装置100の動作を制御する。
【0021】
フォーカス制御部133では、RAM154に保存された主被写体の位置に対するAF制御を行う。絞り制御部105は、特定の被写体領域の輝度値を用いた露出制御を行う。表示部150は、画像や主被写体の検出結果等を表示する。バッテリ159は、電源管理部158により適切に管理され、撮像装置100の全体に安定した電源供給を行う。
【0022】
(画像処理部の構成)
次に、図2から図5を参照して、本実施形態における主被写体判定について説明する。
例えば、サッカーのような集団スポーツにおいて、シュートする選手は主被写体(ユーザが撮影したい被写体)である可能性が高い。そして、シュート姿勢の選手は、他の選手や審判と異なる姿勢である高い。また、標準的な人物の姿勢と異なるほど、主被写体である可能性が高いと考えられる。そこで、本実施形態では、複数の被写体が検出された場合に、姿勢の違いを利用して主被写体を判定する。
【0023】
図2は、画像処理部152の一部の構成を示すブロック図であり、特に、主被写体判定に関する構成を示している。
画像取得部201は、撮像制御部143から画像を取得する。
【0024】
姿勢推定部202は、画像取得部201が取得した画像から被写体を検出し、検出した被写体の姿勢を推定する。図3は、姿勢推定部202で推定する姿勢情報の例を示す図であり、被写体300の各関節を301から314で表している。関節として、頭頂部、首、肩、肘、手首、腰、膝、足首の位置を取得する例を示しているが、関節位置はこれらの一部でもよく、別の位置を取得しても構わない。また、関節位置だけではなく、関節同士を結ぶ軸等の情報を用いてもよく、被写体の姿勢を表す量であれば、これらに限られない。なお、以下では、姿勢情報として、関節位置を取得する場合について説明する。また、姿勢推定の方法としては、如何なる方法を用いてもよく、一例として、Cao, Zhe, et al.による 「Realtime multi-person 2d pose estimation using part affinity fields. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017」に記載された方法を用いることができる。
【0025】
主被写体判定部203は、姿勢推定部202で推定された被写体毎の姿勢情報から抽出される特徴ベクトルの距離に基づき、主被写体を判定する。図4は、主被写体判定で用いる特徴ベクトルの概念図を示す。図4では、被写体がp,q,rの3人の場合を示している。まず、被写体pに関して、式(1)に示すように特徴ベクトルPを表現する。
【0026】
P = {p0,p1,p2,…,pn} …(1)
p0からpnは関節位置のベクトルであり、例えば頭頂部301を始点とし、各関節位置302から314を終点とした2次元ベクトルである。図3に示すように関節点が14点とすると、2次元のベクトルが13コのため、特徴ベクトルは26次元となる。なお、図4は特徴ベクトルの概念図であり、26次元の特徴ベクトルのうち、2つの軸(横軸i=0と縦軸i=1)を記載してあって、特徴ベクトルの次元数が軸の数となる。
【0027】
また、頭頂部301から首302までの距離で正規化しておくことで、被写体の画像上の大きさの影響を無くす。被写体q,rに関しても同様にして特徴ベクトルQ,Rを表現する。被写体pと被写体qの特徴ベクトルP,Q間の距離d(P,Q)は、例えば式(2)によりユークリッド距離として算出する。
【0028】
そして、式(3)に示すように、被写体毎に被写体間の特徴ベクトルの距離の総和を算出する。
d(P) = d(P,Q)+d(P,R) …(3)
そして、被写体間の特徴ベクトルの距離の総和が最も大きくなる被写体、すなわち、複数の被写体のうち最も姿勢が異なる被写体を主被写体と判定する。上述した説明は図4(a)の例に相当し、被写体pが主被写体として選定される。
【0029】
被写体間の特徴ベクトルの距離が大きくなる被写体を主とする方法に関して説明したが、図4(b)のように、例えばK-Means法等に基づいて特徴ベクトルから予め求めておいた所定のクラスタ中心との距離が最も大きくなる被写体を主として選定してもよい。所定のクラスタ中心をC = {c0,c1,c2,…,cn}とすると、下記の式(4)のように表現できる。
【0030】
例えば、クラスタ中心Cは、基準的な人体における各関節までのベクトルを示すこととなる。また、特徴ベクトルを主成分分析等によって次元圧縮して特徴ベクトルの距離を算出してもよい。
【0031】
なお、姿勢推定部202で推定された関節位置に欠損があった場合は、推定できた関節位置と標準的な人体の関節モデルから補間するか、または、前フレームの関節位置と標準的な人体の関節モデルから補間することで対応できる。
【0032】
(処理の流れ)
次に、図5のフローチャートを用いて、本実施形態のデジタルカメラ100による、主被写体判定を伴う撮像動作に関して説明する。
【0033】
S101で、主制御部151は、操作スイッチ156に含まれる撮影スイッチがONかどうか判定し、ONと判定されなければ処理を終了し、ONと判定されれば処理をS102に進める。S102で、主制御部151は各部を制御し、撮像処理を実行して処理をS103に進める。なお、S102での撮像処理は評価画像を生成するのが目的であって、焦点検出用の画像データと、1画面分の画像の画像データとが生成され、RAM154に格納される。
【0034】
S103で、主制御部151は、姿勢推定部202に上述した被写体の検出と、検出した被写体の姿勢情報を推定する処理を実行させる。S104で主制御部151は、主被写体判定203に上述した被写体の姿勢情報に基づき主被写体を判定する処理を実行させる。主被写体判定処理により、画像処理部152から主被写体領域の位置や大きさが主制御部151に通知される。主制御部151は通知された主被写体領域に基づいて焦点検出領域を設定する。
【0035】
S105で、主制御部151は、フォーカス制御部133にS102で得られた焦点検出用の画像データに基づいて、S104で判定された主被写体に焦点を合わせるように焦点検出処理を実行させ、フォーカスレンズ131の駆動量及び駆動方向を求める。
【0036】
S106で、フォーカス制御部133は、S105で求めた駆動量及び駆動方向に従ってフォーカスモータ132を駆動し、フォーカスレンズ131を移動させる。S107で、主制御部151は各部を制御し、撮像処理を行いう。得られた画像データは画像記録媒体157に記録される。以上が、本実施形態における撮像装置のオートフォーカス手順である。
【0037】
上記の通り本実施形態によれば、被写体の姿勢情報を用いることで、複数の被写体の中からの主被写体の自動判定精度を向上することができる。また、1フレームの画像から主被写体を検出することができるため、静止画撮影時にはレリーズタイムラグを短縮することができ、また、動画撮影時には主被写体検出のリアルタイム性を向上することができる。
【0038】
<変形例>
上述した実施形態では、姿勢推定部202で検出された全ての被写体に対して、主被写体判定部203において特徴ベクトルの距離に基づいて主被写体を判定したが、別の判定方法によりで予め主被写体の候補を絞り込んでもよい。この時の画像処理部152の主被写体判定に関する構成を図6に示す。
【0039】
主被写体候補判定部601では、姿勢推定部202で検出された被写体の中から、主被写体判定部203で主被写体と判定する候補を絞り込む。主被写体候補判定部601の絞り込みでは、被写体の位置とサイズに基づき判定する。位置は図3に示す例における頭部中心である301と302の中心位置、サイズは301と302の距離から算出できる。位置が画像中心に近く、大きさが所定サイズ以上の被写体を主被写体の候補とする。
【0040】
そして、主被写体候補判定部601により判定された主被写体の候補のうち、特徴ベクトルの距離の総和(式(3)または式(4)の最大値)が所定の閾値以上であれば、当該被写体を主被写体として選定する。所定の閾値未満であれば、前フレームの主被写体を現フレームの主被写体として選定するか、或いは、被写体の位置とサイズに基づき主被写体を選定する。
【0041】
以上の例では、単一フレームの姿勢情報を用いて主被写体を判定する場合について説明したが、連続するフレームや動画を読み込み、時系列の姿勢情報を用いて主被写体を判定しても構わない。時系列の姿勢情報を用いる場合は、各時刻における関節位置情報を用いてもよいし、ある時刻の関節位置情報と、関節や被写体の動きベクトルの情報を組み合わせて用いてもよい。そのほかにも、時系列情報を表すものであれば、これに限らない。
【0042】
また、上述した実施形態では、主被写体判定の結果をフォーカス制御に利用する場合に関して説明した。しかしながら、本発明はフォーカス制御に限られるものではなく、別の撮像制御に利用してもよい。例えば、露出制御に用いたり、主被写体判定部203で主被写体と判定された被写体の特徴ベクトルの距離の総和が所定の閾値以上であれば、撮像処理を開始するとしてもよい。これは、特徴ベクトルの距離の総和が所定の閾値以上であれば、被写体が特異な姿勢であって、決定的な瞬間である可能性が高いためである。また異なる実施形態として、特徴ベクトルの距離の総和が所定の閾値以上であれば、重要度の高い画像として判定し、この情報を、撮影画像に対して付与してもよい。これによって、重要度の高い画像の検索性が良くなることが期待できる。
【0043】
<他の実施形態>
また、本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0044】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0045】
100:撮像装置、141:撮像素子、151:主制御部、152:画像処理部、154:RAM、156:操作スイッチ、201:画像取得部、202:姿勢推定部、203:主被写体判定部、601:主被写体候補判定部
図1
図2
図3
図4
図5
図6