(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024161749
(43)【公開日】2024-11-20
(54)【発明の名称】画像処理装置、制御方法、およびプログラム
(51)【国際特許分類】
H04N 7/18 20060101AFI20241113BHJP
G06T 7/00 20170101ALI20241113BHJP
H04N 23/61 20230101ALI20241113BHJP
H04N 23/611 20230101ALI20241113BHJP
H04N 23/60 20230101ALI20241113BHJP
G06T 3/00 20240101ALI20241113BHJP
【FI】
H04N7/18 D
G06T7/00 660A
H04N23/61
H04N23/611
H04N23/60 500
G06T3/00 775
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023076735
(22)【出願日】2023-05-08
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【弁理士】
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【弁理士】
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【弁理士】
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【弁理士】
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【弁理士】
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】岩田 聡大
【テーマコード(参考)】
5B057
5C054
5C122
5L096
【Fターム(参考)】
5B057AA19
5B057BA23
5B057CE09
5B057DA08
5B057DC04
5C054CA04
5C054CC02
5C054FC12
5C054HA19
5C122EA61
5C122FH10
5C122FH11
5C122FH14
5C122HB01
5L096CA25
5L096DA01
5L096FA16
5L096FA52
5L096FA59
5L096GA51
(57)【要約】
【課題】 本発明は、画像を切り出す際に、注目物体と注目物体の周囲の物体が見切れることを抑制できる技術を提供することを目的とする。
【解決手段】 上記目的を達成するために、本発明の画像処理装置は、複数の物体を含む画像を取得する画像取得手段と、前記画像内の物体を検出する検出手段と、前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、前記検出手段が検出した物体の位置に基づいて、前記注目物体を含むように前記画像内における第1の領域を判定する判定手段と、前記判定手段によって判定された前記第1の領域に基づいて画像を生成する生成手段と、を有する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
複数の物体を含む画像を取得する画像取得手段と、
前記画像内の物体を検出する検出手段と、
前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、
前記検出手段が検出した物体の位置に基づいて、
前記注目物体を含むように前記画像内における第1の領域を判定する判定手段と、
前記判定手段によって判定された前記第1の領域に基づいて画像を生成する生成手段と、を有することを特徴とする画像処理装置。
【請求項2】
前記検出手段は前記画像内での前記物体の位置および前記物体の領域を示す第2の領域を判定する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記判定手段は、前記第1の領域を第2の領域に基づいて判定することを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記判定手段は、前記第1の領域の端の位置を前記第2の領域の端の位置に合うように決定する
ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記判定手段は、前記第1の領域に含まれる前記物体の数、前記第1の領域に対する前記注目物体の顔に対応する領域の割合、前記画像取得手段によって取得された前記画像に対する前記第1の領域の割合と、のいずれか1つに基づいて
前記第1の領域を判定する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記判定手段は、前記第1の領域を前記画像取得手段で取得された前記画像のアスペクト比を維持するように判定する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項7】
前記判定手段は、前記第1の領域に含まれる物体の数が閾値より多い場合に、前記第1の領域に含む物体の数が前記閾値より小さくなるように前記第1の領域を決定することを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記判定手段は、前記注目物体の顔に対応する領域の大きさが前記第1の領域の大きさに対して予め設定された割合より小さい場合、前記第1の領域に含む物体の数を減らして前記第1の領域を決定することを特徴とする請求項1に記載の画像処理装置。
【請求項9】
前記判定手段は、
前記第1の領域の面積が前記画像取得手段で得られた前記画像の面積に対して予め設定された割合より小さい場合、前記第1の領域に含む物体の数を増やして前記第1の領域を決定することを含む請求項1に記載の前記画像処理装置。
【請求項10】
前記検出手段によって検出する物体の属性はユーザによって指定できる、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項11】
前記検出手段によって検出する物体の属性は、人物、動物、不動体を含む
ことを特徴とする請求項1に記載の画像処理装置。
【請求項12】
前記判定手段が決定した前記第1の領域を前記画像から切り出す切り出し手段
を備えた請求項1に記載の画像処理装置。
【請求項13】
複数の物体を含む画像を取得する画像取得工程と、
前記画像内の物体を検出する検出工程と、
前記検出工程により検出した複数の前記物体から注目物体を設定する設定工程と、
前記検出工程において検出された物体の位置に基づいて、
前記注目物体を含むように前記画像内における第1の領域を判定する判定工程と、
前記判定工程によって判定された前記第1の領域に基づいて画像を生成する生成工程と、を有することを特徴とする画像処理装置の制御方法。
【請求項14】
コンピュータに、請求項13に記載された制御方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像に対して画像処理を行う画像処理装置、制御方法およびプログラムに関する。
【背景技術】
【0002】
従来より、カメラが取得した画像の一部を切り出すことで新たな画像を生成することが知られている。例えば特許文献1では、撮像画像に含まれる顔の向きと位置を検出し、指定された顔とその顔が向いている方向にある顔を一つのグループとして検出して画像切り出しを行う。また特許文献2では、シーンの種類に応じて領域の移動量を決定して切り出し位置を決定する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6447659号
【特許文献2】特開2018-151979
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1は、グループに含まれない顔については考慮されていない。よって、画像を切り出す際に、グループに含まれない顔が見切れてしまうおそれがある。
【0005】
また、特許文献2は、追尾対象の物体に合わせて領域の設定を行うため、追尾対象でない追尾対象の周囲の物体と設定された領域の関係については考慮されていない。よって、画像を切り出す際に、追尾対象でない追尾対象の周囲の物体が見切れてしまうおそれがある。
【0006】
そこで本発明の目的は、画像を切り出す際に、注目物体と、注目物体の周囲の物体が見切れることを抑制できる技術を提供することである。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明の画像処理装置は、複数の物体を含む画像を取得する画像取得手段と、前記画像内の物体を検出する検出手段と、前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、前記検出手段が検出した物体の位置に基づいて、前記注目物体を含むように前記画像内における第1の領域を判定する判定手段と、前記判定手段によって判定された前記第1の領域に基づいて画像を生成する生成手段と、を有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、画像を切り出す際に、注目物体と、注目物体の周囲の物体が見切れることを抑制できる技術を提供することができる。
【図面の簡単な説明】
【0009】
【
図1】第1の実施形態の画像処理システム100の構成の例
【
図2】(a)は第1の実施形態の画像処理装置120のハードウェア構成の例、(b)は第1の実施形態の画像処理装置120の機能構成の例
【
図3】(a)は人物認識データに使用する画像の例、(b)は人物認識データの例
【
図5】第1の実施形態の画像処理装置120の処理のフローチャートの例
【
図6】第1の実施形態の切り出し領域の判定処理のフローチャートの例
【
図7】(a)は第1の実施形態の切り出し領域の判定処理中の切り出し領域の例、(b)は第1の実施形態の切り出し領域の判定に使用する人物認識データの例
【
図8】第1の実施形態の画像切り出し処理の人体検出の処理結果から得られる切り出し領域の例
【
図9】第1の実施形態の画像切り出し処理のアスペクト比を考慮した切り出し領域の例
【
図10】第1の実施形態の画像処理システム100のユーザインターフェースの例
【
図11】第2の実施形態の画像処理システム1100の構成の例
【発明を実施するための形態】
【0010】
以下、添付図面を参照し、本発明の実施形態について説明する、なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。なお、各図において、同一の部材については同一の参照番号を付し、重複する説明は省略する。
【0011】
(第1の実施形態)
本実施形態では、画像内において物体の位置ならびに物体領域を検出し、検出した物体領域を考慮して注目物体を含む切り出し領域を判定する。そして、この判定結果に基づいて該画像を切り出し、注目物体を含む動画を生成する。
【0012】
先ず、本実施形態に係るシステムの構成例について、
図1を用いて説明する。
図1は、第1の実施形態の画像処理システム100の構成の例である。
図1に示すように、本実施例における画像処理システム100は主にネットワークカメラ110、画像処理装置120、ネットワーク130によって構成される。
【0013】
ネットワークカメラ110はシリアル通信およびIP通信による制御信号の伝送、またはアナログ/デジタル信号による映像伝送が可能なカメラで、外部の機器に映像を配信するとともに各種内部パラメータの設定やカメラの制御を行うことができる。また、SDカードなどの外部メモリに映像データを録画することができる。
【0014】
画像処理装置120は、ネットワークカメラ110と接続し、カメラの制御や配信される映像の受信をすることができる。また、Webブラウザなどのアプリケーションを持ち、ネットワークカメラ110から配信される映像や設定画面を後述する表示部に表示して、カメラの制御をすることができる。加えて、画像処理装置120内部に録画されている映像の閲覧、および画像処理装置120内で行われる映像生成の制御を操作することができる。画像処理装置120はネットワークカメラ110によって撮影された映像を保存し、撮影された映像を基に画像切り出し処理を施した映像を生成することができる。また、後述するネットワーク130を介してネットワークカメラ110からの映像を取得し、内部メモリに保存することができる。加えて、SDカードなどの外部メモリからデータを取得することができ、ネットワークカメラ110で録画した映像データを外部メモリから取得することもできる。
【0015】
ネットワーク130はネットワークカメラ110、画像処理装置120が通信するためのネットワークである。通信の形態は、有線でも無線であってもよく、シリアル通信およびIP通信など映像や制御信号の伝送が行えるものであれば形態は問わない。
【0016】
<画像処理装置の構成の説明>
本発明の実施形態にかかわる画像処理装置のハードウェア構成例を
図2(a)を用いて説明する。
図2(a)は、第1の実施形態の画像処理装置120のハードウェア構成の例である。画像処理装置120は、CPU201、ROM202、RAM203、通信部204、表示部205、入力部206及び、上記の構成要素を互いに通信可能に接続する内部バス207を有する。
【0017】
CPU201は後述するROM202に格納されている制御プログラムを実行し、画像処理装置120の各構成要素を制御することで本装置全体の制御を行う。また、後述する通信部204から画像データを取得することができる。
【0018】
ROM202はフラッシュメモリ、HDD(Hard DiSk Drive)、SSD(Solid State Drive)、SDカード等に代表される不揮発性を持った記憶装置である。ROM202は、OSや各種プログラム及び各種データの永続的な記憶領域として使用される他に、短期的な各種データの記憶領域としても使用される。
【0019】
RAM203はDRAM等に代表される揮発性を持った高速な記憶装置で、OSや各種プログラム及び各種データがロードされ、またOSや各種プログラムの作業領域としても使用される。また、プログラムを展開し、CPU201が実行可能な状態にする。
【0020】
通信部204はネットワークカメラ110と通信をおこない、動画像データを取得する。動画像データを受け付けるためのインタフェースとしては、例えばHDMI(登録商標)、SDI、DiSplayPortなどの汎用の入力インタフェースや、ネットワークに接続されたLANなどが想定される。また、図示を省略する外部装置に、後述する生成部226により生成した動画(出力動画像)を出力する。ここで外部装置は例えば、ディスプレイやTV放送やインターネット放送用の動画像送出機器あるいはUSBやDVDなどの記録装置を含む。
【0021】
表示部205はCRTや液晶画面などにより構成されており、通信部204が取得した画像や、画像処理装置120による処理結果を画像や文字などでもって表示することができる。
【0022】
入力部206はキーボードやマウス、タッチパネルなどのユーザインターフェースにより構成されており、ユーザが操作することで各種の指示を画像処理装置120に対して入力することができる。なお、
図1ではこれらの構成を一体化させて1つの装置としているが、このような構成に限らない。例えば、これらの装置を別個の装置としてもいいし、表示部205と入力部206とを一体化させても良いし、通信部204と表示部205とを一体化させても良い。
【0023】
次に、画像処理装置120の機能構成例について、
図2(b)のブロック図を用いて説明する。
図2(b)に示した各機能部はハードウェアとして実装しても良いし、ソフトウェア(コンピュータプログラム)として実装しても良い。後者の場合、このコンピュータプログラムはRAM203に保存される。CPU201はこのコンピュータプログラムを必要に応じてROM202にロードして実行することで、対応する機能部の機能を実現する。
【0024】
取得部221はユーザが入力装置を操作することで入力した各種の指示を取得する。さらに、動画像を外部装置から取得する(画像取得手段)。
【0025】
検出部222は、ディープラーニング等の機械学習手法を用いて作成された学習済みモデルを有し、取得部221が取得した動画像若しくは静止画像から物体の検出を行う。検出部222は入力データとして画像を受け、検出された物体のフレーム間での位置関係から同定した物体に固有のIDを付与し、出力データとして人物等の物体の属性、物体領域を示すスコアをフレーム番号と紐づけて人物認識データとして出力する。
図3は出力する人物認識データを示す。
図3(a)は入力データとして取得部221から取得した画像(全体画像)を指し、
図3(b)は検出した物体の固有ID、属性、物体領域を示す人物認識データを示している。この時、検出された各物体の少なくとも1つの座標が取得した全体画像の枠と一致している場合、この物体は切り出し領域の判定処理の対象から除外する。ここで枠とは画像の端を結ぶ線のことを示し、左線、右線、下線、上線から構成される。例えば、
図3(b)ではID5が全体画像枠の右線ならびに下線と一致している。この場合、ID5は物体領域は取得するが、後述する判定部224の切り出し領域には含まないようにする。物体の属性とは、人(男性、女性)、動物、不動体、その他、などを指す。それぞれ形状の特徴および行動特徴のパターンから属性を判定する。物体領域(第2の領域)とは、物体領域外に該検出物体がはみ出さないように設定(判定)される領域であり、該検出物体の左上、左下、右下、右上の座標で定義される。検出物体は、左上、左下、右下、右上の座標を順に結んだ物体領域の内側に位置していればよい。また、検出部222は検出した各物体の部位に分けて物体領域を判定することが可能である。例えば人物であった場合、
図4に示すように顔領域401、上半身領域402と全身領域403のように一つの物体に対して3つの部位に分けて物体の位置に関する情報を出力する。ここで挙げる物体検出手法は一例であり、撮影目的および環境に応じて必要な物体を検出できる手法であれば形態は問わない。また、物体の属性の判定方法は、上記に限定されるものではなく、エッジ特徴を用いた特定物体検出処理により属性を判定するなど、属性が判定できるものであればどのような方法であってもよい。
【0026】
設定部223(設定手段)は検出部222が出力した人物認識データから、注目物体を設定する。注目物体の設定手法は、注目物体の決定方法は表示部205に表示された各物体の一覧の中から、ユーザが検出物体を選択することで決定してもよい。
【0027】
判定部224は注目物体の物体領域と切り出し領域情報を基に画像の切り出し領域を設定する。具体的には、設定部223が設定した注目物体の物体領域と切り出し領域(第1の領域)に関する設定情報(切り出し領域情報)を基に切り出し領域の判定を繰り返すことで、画像の切り出し領域を決定する。切り出し領域情報はあらかじめ設定された、各種条件を含む。切り出し領域情報の各種条件は切り出し領域内に含む物体の数や属性、優先順位、切り出し領域に含める注目物体の物体領域、アスペクト比に関する情報である。切り出し領域情報の各種条件はROM202に記憶され、判定部224の処理に応じて参照する。ROM202には条件のみを記憶し、処理に利用するか否かは判定部224によって選択されてもよい。切り出し領域情報はユーザが入力部206から入力することで決定しても良いし、画像処理装置120内で決定してもよい。
【0028】
切り出し部225は判定部224が決定した切り出し領域に基づいて取得部221が取得した画像(全体画像)から切り出し処理を行う。
【0029】
生成部226は前記設定部223がラベル付けをしたフレーム番号と画像内の物体領域の情報と、切り出し部225が切り出した画像に基づいて動画を生成する。さらに、画像処理装置120は上記の構成要素を互いに通信可能に接続する内部バスを有する。
【0030】
<画像処理装置の基本的な処理の説明>
続いて、本発明の画像処理装置120における基本的な処理手順に関して
図5のフローチャートを用いて説明する。なお、本実施形態では人を検出対象としているが、車や動物など人以外を検出対象としてもよいし、人と動物など複数を検出対象に設定しても良い。また、特徴点検出などの手法を用いることにより物体を検出する手法を取ってもよい。
【0031】
本制御フローは入力部206より入力された動画像を生成する指示を取得部221が取得することで開始する。
【0032】
ステップS501で通信部204は画像処理対象となる動画像を取得する。ただし、画像データを取得できる方法であれば形態は問わない。例えば、SDカードなどの取り外し可能な外部メモリに画像データを記録しておき、通信部204へデータを送信するという方法であってもよい。
【0033】
ステップS502で検出部222は取得した動画の各フレーム上の物体の検出を行い、人物等の物体の属性、物体領域を示すスコアを人物認識データとしてROM202に格納する。これらの検出対象については、入力部206を使用してユーザが入力して設定をすることができる。
【0034】
ステップS503で、設定部223はステップS502で検出した物体の中から注目する物体を決定する。注目物体の決定方法は表示部205に表示された各物体の一覧の中から、ユーザが表示部205に表示された検出物体を選択することで決定してもよい。その場合、ステップS502で検出した各物体の検出情報を読み出し、表示部205に表示するデータとして変換する。さらに、ステップS502でROM202に格納した人物認識データに基づいて、検出部222は画像データの各フレームにおいて設定した注目物体に対してラベル付けを行う。また、人物であれば性別・年齢などの情報や事前に特定の人物の学習データを与えることにより人物認証を行うことができ、人物認証を利用して決定しても良い。設定部223が設定した注目物体がフレームから検出されない場合は、ステップS504ならびにステップS505のフローでは何もしなくてもよい。
【0035】
ステップS504で、判定部224はステップS503で設定部223が設定した注目物体の物体領域と切り出し領域情報を基に画像の切り出し領域を設定する。具体的には、切り出し領域の判定には、ステップS503で決定した注目物体の物体領域と切り出し領域に関する設定情報(切り出し領域情報)を使用することで行う。切り出し領域情報はあらかじめ設定された、各種条件を含む。切り出し領域情報の各種条件は切り出し領域内に含む物体の数や属性、優先順位、注目物体の領域、アスペクト比に関する情報、切り出し領域の面積に対して顔領域が占める割合、切り出し領域の面積の全体画像の面積に対する割合を含む。切り出し領域情報はユーザが表示部205から入力することで決定しても良いし、画像処理装置120内で決定してもよい。切り出し領域の決定方法の詳細に関しては後述する。
【0036】
ステップS505で、切り出し部225はステップS504で設定した切り出し領域を基に各フレームに対して画像切り出し処理を施し、ROM202に格納する。
【0037】
ステップS506で生成部226はステップS505で切り出した画像と、ステップS502で格納した人物認識データをもとにラベル付けされた複数のフレームを結合する。つまり、ラベル付けされた複数のフレームを含む1つの動画を生成することで本制御フローは終了する。動画生成時に使用するフレームは注目物体が画像内に位置するフレームであればよく、取得した動画のフレームすべてを使用しなくても良い。例えば、取得した動画において、注目人物が画像内に位置しないフレームがある場合、該フレームを生成する動画に含めなくても良いし、すべてのフレームからなる動画を生成しても良い。すべてのフレームからなる動画を生成する場合、切り出ししていないフレームを使用することで動画を生成することができる。
【0038】
<切り出し領域の設定方法>
続いて、本発明における各フレームに対する切り出し領域の決定方法の具体的な手順について
図6のフローチャートおよび
図7、
図8、
図9を用いて説明する。
【0039】
本実施形態において、
図6に示した本制御フローは、画像処理装置120内において、
図4に示したS503ならびにS504の制御フローの詳細である。本実施形態では
図7の入力画像701(全体画像)に対して切り出し領域の決定を行う場合について述べる。
【0040】
ステップS601で動画像の各フレームに対応した物体および注目物体のラベル(人物認識データ)をROM102より読み込み、検出物体の画像内の物体領域を取得する。
【0041】
ステップS602で
図7に示す701の画像(全体画像)から検出されたすべての物体の物体領域が切り出し領域に収まるようにステップS602における切り出し領域を設定する。切り出し領域の設定は、人物認識データに基づいて、全体画像内の上下左右の最も端に位置する物体領域の端の座標を使用する。例として、
図7(a)のように画像内に人物A~Eが存在した場合の処理を考える。
図7(b)の人物認識データは検出人物のID、属性、注目人物か否かのフラグ、物体領域の座標を示している。各物体領域の座標は左から順に左上、左下、右下、右上の座標を示している。すべての人物が収まるように切り出し領域を設定するため、上下左右の端の位置を決定する。上下左右の位置は、各物体の物体領域に合わせて決定される。
図7の場合、各物体領域の座標のY座標を比較し、最も上端に位置するのはBの人物の左上(a2,b2)と右上(A2,b2)の位置座標であるため、Bの人物の物体領域の上端の位置に合わせて切り出し領域の上端を設定する。同様に下端の場合、最も下端に位置するのはCの人物の左下(a3,c3)と右下(A3,c3)であるため、Cの人物の全身の物体領域の下端に合わせて切り出し領域の下端を設定する。左端については最も左端に位置するのはCの人物の左上(a3,b3)と左下(a3,c3)であるため、Cの人物の全身の物体領域の左端に合わせて切り出し領域の左端を設定する。右端についても同様に、最も右端に位置するのはBの人物の右上(A2,b2)と右下(A2,c2)であるため、Bの人物の全身の物体領域の右端に合わせて切り出し領域の右端を設定する。したがって、切り出し領域は
図8における切り出し領域801のような結果となる。最後に元の画像のアスペクト比に合わせる(維持)ため、切り出し領域801の縦と横のそれぞれに合わせた場合の切り出し領域を考慮して、
図9における切り出し領域901のように補正を行う。具体的にはROM202から切り出し領域情報を取得し、全体画像のアスペクト比を参照し、
図9で該アスペクト比に合わせるように選択領域を縦横方向に広げる。よって、
図7の入力画像701の場合はステップS602の処理により切り出し領域702のような結果が得られる。なお、本実施形態では、ステップS603以降の処理を行っているが、切り出し領域に関する設定情報(切り出し領域情報)に物体の数の情報が含まれていない場合、ステップS602で処理を終了してもよい。
【0042】
ステップS603で切り出し領域内に含まれる物体の数(ここでは、人数)をカウントする。さらに、ROM102から切り出し領域情報を読み出し、物体の数(人数)に関する判定を行う。切り出し領域内の物体の数(人数)がN人より多い場合はステップS604に進み、N人以下の場合はステップS606へ移行する。
【0043】
ステップS604では切り出し領域内の人物の数がN人以下になるように、ステップS602で設定した切り出し領域内の人物を切り出し領域内に収める対象から除外する。本実施形態における切り出し領域に収める人数の設定は事前にユーザが入力部106を用いて設定を行うものとするが、一例であり画像処理装置120内で自動設定されてもよい。また、除外する人物は、注目人物から最も遠くに位置する人物から順に除外する。例えば、設定画像702の状態において、あらかじめ設定した物体の数(人数)が3の場合は、注目人物Dから最も遠いCおよびCの次に遠いBを除外する。なお、本実施形態に示す人物の除外方法は一例であり、他の手法を取ってもよい。例えば、注目人物の顔の向きや前フレームからの動きベクトルの情報を基に、注目人物の進行方向とは逆の位置で最も遠い人物を除外するという手段でも構わない。また、検出した物体の中から優先的に除外する物体をユーザが設定することで除外する人物を決定しても構わない。
【0044】
ステップS605では、ステップS604で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定し、次に全体画像とアスペクト比を合わせる。切り出し領域の設定方法はステップS602と同様であり、ここでは説明を省略する。よって、設定画像702においてステップS604で決定した人物を除外して枠を設定することで設定画像703のような処理結果となる。なお、本実施形態では、ステップS606以降の処理を行っているが、切り出し領域に関する設定情報(切り出し領域情報)に切り出し領域の面積に対して顔領域の占める割合の情報が含まれていない場合、ステップS605で処理を終了してもよい。
【0045】
ステップS606では、注目物体の顔領域の面積がステップS605で決定した切り出し領域の面積に対して占める割合を算出する。次に、ROM102から切り出し領域情報を読み出し、顔領域の割合に関する判定を行う。X%(閾値)よりも小さい場合にステップS607へ進み、X%以上の場合はステップS609に移行する。
【0046】
ステップS607では、ステップS605で設定した切り出し領域内の人物を切り出し領域内に収める対象から除外する。具体的には、注目物体の顔領域の面積がX%を超えるまで切り出し領域の人物を切り出し領域内に収める対象から除外してからステップS608へ進む。本実施形態における該顔領域の割合の閾値設定は事前にユーザが入力部106を用いて設定をおこなうものとするが、一例であり画像処理装置120内で自動設定されてもよい。
【0047】
ステップS608では、ステップS607で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定し、次に全体画像とアスペクト比を合わせる。切り出し領域の設定方法はステップS602と同様であり、ここでは説明を省略する。よって、切り出し領域703においてステップS607で決定した人物を除外して切り出し領域を設定することで切り出し領域704のような処理結果となる。なお、本実施形態では、ステップS609以降の処理を行っているが、切り出し領域の面積の全体画像の面積に対する割合の情報が含まれていない場合、ステップS608で処理を終了してもよい。
【0048】
ステップS609では、ステップS608で設定した切り出し領域の面積の全体画像の面積に対する割合を算出する。次に、ROM102から切り出し領域情報を読み出し、ステップS609で算出した割合に関する判定を行う。P%(閾値)よりも小さい場合にステップS610へ進む。本実施例における全体画像の面積に対する切り出し領域の面積の割合の閾値設定は事前にユーザが入力部106を用いて設定を行うものとするが、一例であり画像処理装置内で自動設定されてもよい。例えば、全体画像の面積に対して出力する表示機器の解像度を入力することで視認性の落ちない割合を自動算出して設定してもよい。
【0049】
ステップS610では、ステップS609において切り出し領域内に収める対象となっていない物体を切り出し領域内に収める対象とし、ステップS611へ進む。対象とする人物は、注目人物から最も近くに位置する人物を対象とする。例えば、設定画像704の状態において、切り出し領域外にいるC,A,Bの中から注目人物Dに最も近いAを切り出し領域内に収める対象とする。なお、本実施形態に示す人物の追加方法は一例であり、他の手法を取ってもよい。例えば、注目人物の顔の向きや前フレームからの動きベクトルの情報を基に、注目人物の進行方向と同じ人物を追加するという手段でも構わない。また、検出した物体の中から優先的に追加する物体をユーザが設定することで追加する人物を決定しても構わない。
【0050】
ステップS611は、ステップS606で決定した切り出し領域の面積が全体画像の面積に対して切り出し領域情報で設定した閾値以上になるように切り出し領域を設定する。切り出し領域の設定方法はステップS602と同様であり、ステップS610で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定する。よって、ステップS610で決定した人物を追加して切り出し領域を設定することで切り出し領域705のような処理結果となる。
【0051】
ステップS612で切り出し領域として枠を決定し、処理を終了する。なお、本実施形態における枠設定の再設定手順の順序・回数・条件・手法は一例であり、実施する目的に合わせて変形することができる。
【0052】
以上のような構成により、本実施形態では、画像を切り出す際に、注目物体と注目物体の周囲の物体が見切れることを抑制できる技術を提供することができる。
【0053】
ここで、
図10を用いて画像処理システム100における画像処理装置120のユーザインターフェースについて説明する。
【0054】
まず、ユーザは入力部206から、画像処理装置120の生成部226へアクセスする。ユーザインターフェースからはボタン1001からメニューを選択することで、動画生成・録画動画像の閲覧・生成した動画の閲覧が可能である。動画を生成する場合、まずボタン1002で切り出し対象となる動画を選択する。この時、ユーザは画像処理装置120内に保存されている動画データから選択することができる。また、ネットワークを介して動画データをアップロードすることも可能である。
【0055】
次に、項目1003で注目人物の選択を行う。人物の選択は、表示された顔画像から選択することもできるが、登録ボタンからユーザが画像をアップロードすることで使用することも可能である。画像処理装置120はここで選択された画像を認識処理の事前データとして使用する。本実施例では、対象を人物として顔画像を用いた認識を行うが、一例であり注目する物体によって認識に用いる事前データは変化してもよい。また、画像ではなく数値などのパラメータをユーザインターフェースから入力する形態を取ってもよい。
【0056】
項目1004では、注目人物のどの部位を切り出し領域に含めるかを選択することができる。ここで選択された項目に応じて、切り出し領域の端の位置を決定する際の物体切り出し領域の端の位置のパラメータとして使用する。例えば、注目人物の全身を映す場合は、切り出し領域の端の位置を決定する際に、最も端に位置する物体の全身の切り出し領域の端の位置を利用する。最後にボタン1005を押すと、画像処理装置120が画像切り出し処理を開始し、処理完了後にユーザは生成動画一覧画面から生成された動画を確認することができる。本実施形態に示すユーザインターフェースは一例であり、撮影された動画像を基にユーザが操作することで動画生成を行うことができれば、形態は問わない。
【0057】
(第2の実施形態)
第1の実施形態においては画像処理装置120とネットワークカメラ110が画像処理システム100を構成した場合の画像処理について説明した。次に、
図11に示したようにネットワークカメラ1101と情報端末1102とサーバー1104が画像処理システム1100を構成した場合の画像処理について説明する。第2の実施形態では、サーバー機器1104が、
図5および
図6の画像処理を行う。
【0058】
本実施形態における画像処理システム1100は主にネットワークカメラ1101、情報端末1102、ネットワーク1103、サーバー機器1104によって構成される。
【0059】
ネットワークカメラ1101はシリアル通信およびIP通信による制御信号の伝送、またはアナログ/デジタル信号による映像伝送が可能なカメラで、外部の機器に映像を配信するとともに各種内部パラメータの設定やカメラの制御を行うことができる。また、SDカードなどの外部メモリに映像データを録画することができる。
【0060】
情報端末1102は、ネットワークカメラ1101と接続し、カメラの制御や配信される映像の受信をすることができる。また、Webブラウザなどのアプリケーションを持ち、ネットワークカメラ1101から配信される映像や設定画面を表示して、カメラの制御をすることができる。加えて、サーバー機器1104と接続することができ、サーバー機器1104に録画されている映像の閲覧、およびサーバー機器1104内で行われる映像生成の制御を遠隔で操作することができる。
【0061】
ネットワーク1103はネットワークカメラ1101、情報端末1102、サーバー機器1104が通信するためのネットワークである。通信の形態は、有線でも無線であってもよく、シリアル通信およびIP通信など映像や制御信号の伝送が行えるものであれば形態は問わない。
【0062】
サーバー機器1104はカメラによって撮影された映像を保存し、撮影された映像について画像切り出し処理を施し、映像を生成することができる。また、ネットワーク1103を介してネットワークカメラ1101からの映像を取得し、内部メモリに保存することができる。加えて、SDカードなどの外部メモリからデータを取得することができ、ネットワークカメラ1101で録画した映像データを外部メモリから取得することもできる。
【0063】
ここで、本実施形態の画像処理システム1100における画像処理手順に関して
図5のフローチャートを用いて説明する。まず、ステップS501でサーバー機器1103は画像切り出しの対象となる映像を取得する。本実施例における映像の取得方法は、ネットワーク1103を介してネットワークカメラ1101から配信された映像データを受信することで取得する。ただし、映像データを取得できる方法であれば形態は問わない。例えば、ネットワークカメラ1101が撮影時にSDカードなどの取り外し可能な外部メモリに映像データを録画しておき、外部メモリを使用してサーバー機器1103へデータを移すという方法であってもよい。
【0064】
次に、ステップS502でサーバー機器1103は映像データの各フレームに対して物体の検知処理を行う。検知する対象は、人物や背景の模様や看板など特徴的な物体を指す。これらの検知対象については、情報端末1102のWebブラウザを使用してユーザが入力して設定をすることができる。また、特徴点検出などの手法を用いることにより物体を検知する手法を取ってもよい。また、サーバー機器1103は検知した物体に対して、部分的に物体の位置を取得することができる。ステップS503で、サーバー機器1103は各フレームにおけるステップS502で検知した物体に対して注目する物体のけったいを行う。サーバー機器1103は映像データの各フレームにおいて検知した物体領域に対してラベル付けを行い、フレーム番号および画像内の物体領域とラベルを紐づけて記憶する。
【0065】
ステップS504で、検出された物体の位置を基に画像の切り出し領域を判定する。切り出し領域の判定には、ステップS503で記憶した物体領域の情報を使用する。切り出し領域の判定方法の詳細に関しては第1の実施形態と同様である。
【0066】
ステップS505で、判定した切り出し領域を基に各フレームに対して画像切り出し処理を施す。最後に、ステップS506ですべてのフレームを結合し、1つの映像を生成して処理を終了する。
【0067】
以上のような構成により、本実施形態では、画像を切り出す際に、注目物体と注目物体の周囲の物体が見切れることを抑制できる技術を提供することができる。
【0068】
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
【符号の説明】
【0069】
100 画像処理システム
110 ネットワークカメラ
120 画像処理装置
130 ネットワーク
1100 画像処理システム
1101 ネットワークカメラ
1102 情報端末
1103 ネットワーク
1104 サーバー