特開2024-161749 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ キヤノン株式会社の特許一覧

特開2024-161749画像処理装置、制御方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024161749

(43)【公開日】2024-11-20

(54)【発明の名称】画像処理装置、制御方法、およびプログラム

(51)【国際特許分類】

H04N 7/18 20060101AFI20241113BHJP

G06T 7/00 20170101ALI20241113BHJP

H04N 23/61 20230101ALI20241113BHJP

H04N 23/611 20230101ALI20241113BHJP

H04N 23/60 20230101ALI20241113BHJP

G06T 3/00 20240101ALI20241113BHJP

【ＦＩ】

H04N7/18 D

G06T7/00 660A

H04N23/61

H04N23/611

H04N23/60 500

G06T3/00 775

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023076735

(22)【出願日】2023-05-08

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100126240

【弁理士】

【氏名又は名称】阿部琢磨

(74)【代理人】

【識別番号】100223941

【弁理士】

【氏名又は名称】高橋佳子

(74)【代理人】

【識別番号】100159695

【弁理士】

【氏名又は名称】中辻七朗

(74)【代理人】

【識別番号】100172476

【弁理士】

【氏名又は名称】冨田一史

(74)【代理人】

【識別番号】100126974

【弁理士】

【氏名又は名称】大朋靖尚

(72)【発明者】

【氏名】岩田聡大

【テーマコード（参考）】

5B057

5C054

5C122

5L096

【Ｆターム（参考）】

5B057AA19

5B057BA23

5B057CE09

5B057DA08

5B057DC04

5C054CA04

5C054CC02

5C054FC12

5C054HA19

5C122EA61

5C122FH10

5C122FH11

5C122FH14

5C122HB01

5L096CA25

5L096DA01

5L096FA16

5L096FA52

5L096FA59

5L096GA51

(57)【要約】

【課題】本発明は、画像を切り出す際に、注目物体と注目物体の周囲の物体が見切れることを抑制できる技術を提供することを目的とする。
【解決手段】上記目的を達成するために、本発明の画像処理装置は、複数の物体を含む画像を取得する画像取得手段と、前記画像内の物体を検出する検出手段と、前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、前記検出手段が検出した物体の位置に基づいて、前記注目物体を含むように前記画像内における第１の領域を判定する判定手段と、前記判定手段によって判定された前記第１の領域に基づいて画像を生成する生成手段と、を有する。
【選択図】図６

【特許請求の範囲】

【請求項1】

複数の物体を含む画像を取得する画像取得手段と、
前記画像内の物体を検出する検出手段と、
前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、
前記検出手段が検出した物体の位置に基づいて、
前記注目物体を含むように前記画像内における第１の領域を判定する判定手段と、
前記判定手段によって判定された前記第１の領域に基づいて画像を生成する生成手段と、を有することを特徴とする画像処理装置。

【請求項2】

前記検出手段は前記画像内での前記物体の位置および前記物体の領域を示す第２の領域を判定する
ことを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記判定手段は、前記第１の領域を第２の領域に基づいて判定することを特徴とする請求項２に記載の画像処理装置。

【請求項4】

前記判定手段は、前記第１の領域の端の位置を前記第２の領域の端の位置に合うように決定する
ことを特徴とする請求項３に記載の画像処理装置。

【請求項5】

前記判定手段は、前記第１の領域に含まれる前記物体の数、前記第１の領域に対する前記注目物体の顔に対応する領域の割合、前記画像取得手段によって取得された前記画像に対する前記第１の領域の割合と、のいずれか１つに基づいて
前記第１の領域を判定する
ことを特徴とする請求項１に記載の画像処理装置。

【請求項6】

前記判定手段は、前記第１の領域を前記画像取得手段で取得された前記画像のアスペクト比を維持するように判定する
ことを特徴とする請求項１に記載の画像処理装置。

【請求項7】

前記判定手段は、前記第１の領域に含まれる物体の数が閾値より多い場合に、前記第１の領域に含む物体の数が前記閾値より小さくなるように前記第１の領域を決定することを特徴とする請求項１に記載の画像処理装置。

【請求項8】

前記判定手段は、前記注目物体の顔に対応する領域の大きさが前記第１の領域の大きさに対して予め設定された割合より小さい場合、前記第１の領域に含む物体の数を減らして前記第１の領域を決定することを特徴とする請求項１に記載の画像処理装置。

【請求項9】

前記判定手段は、
前記第１の領域の面積が前記画像取得手段で得られた前記画像の面積に対して予め設定された割合より小さい場合、前記第１の領域に含む物体の数を増やして前記第１の領域を決定することを含む請求項１に記載の前記画像処理装置。

【請求項10】

前記検出手段によって検出する物体の属性はユーザによって指定できる、
ことを特徴とする請求項１に記載の画像処理装置。

【請求項11】

前記検出手段によって検出する物体の属性は、人物、動物、不動体を含む
ことを特徴とする請求項１に記載の画像処理装置。

【請求項12】

前記判定手段が決定した前記第１の領域を前記画像から切り出す切り出し手段
を備えた請求項１に記載の画像処理装置。

【請求項13】

複数の物体を含む画像を取得する画像取得工程と、
前記画像内の物体を検出する検出工程と、
前記検出工程により検出した複数の前記物体から注目物体を設定する設定工程と、
前記検出工程において検出された物体の位置に基づいて、
前記注目物体を含むように前記画像内における第１の領域を判定する判定工程と、
前記判定工程によって判定された前記第１の領域に基づいて画像を生成する生成工程と、を有することを特徴とする画像処理装置の制御方法。

【請求項14】

コンピュータに、請求項１３に記載された制御方法を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は画像に対して画像処理を行う画像処理装置、制御方法およびプログラムに関する。

【背景技術】

【0002】

従来より、カメラが取得した画像の一部を切り出すことで新たな画像を生成することが知られている。例えば特許文献１では、撮像画像に含まれる顔の向きと位置を検出し、指定された顔とその顔が向いている方向にある顔を一つのグループとして検出して画像切り出しを行う。また特許文献２では、シーンの種類に応じて領域の移動量を決定して切り出し位置を決定する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６４４７６５９号

【特許文献2】特開２０１８－１５１９７９

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、特許文献１は、グループに含まれない顔については考慮されていない。よって、画像を切り出す際に、グループに含まれない顔が見切れてしまうおそれがある。

【0005】

また、特許文献２は、追尾対象の物体に合わせて領域の設定を行うため、追尾対象でない追尾対象の周囲の物体と設定された領域の関係については考慮されていない。よって、画像を切り出す際に、追尾対象でない追尾対象の周囲の物体が見切れてしまうおそれがある。

【0006】

そこで本発明の目的は、画像を切り出す際に、注目物体と、注目物体の周囲の物体が見切れることを抑制できる技術を提供することである。

【課題を解決するための手段】

【0007】

上記目的を達成するために、本発明の画像処理装置は、複数の物体を含む画像を取得する画像取得手段と、前記画像内の物体を検出する検出手段と、前記検出手段により検出した複数の前記物体から注目物体を設定する設定手段と、前記検出手段が検出した物体の位置に基づいて、前記注目物体を含むように前記画像内における第１の領域を判定する判定手段と、前記判定手段によって判定された前記第１の領域に基づいて画像を生成する生成手段と、を有することを特徴とする。

【発明の効果】

【0008】

本発明によれば、画像を切り出す際に、注目物体と、注目物体の周囲の物体が見切れることを抑制できる技術を提供することができる。

【図面の簡単な説明】

【0009】

【図1】第１の実施形態の画像処理システム１００の構成の例

【図2】（ａ）は第１の実施形態の画像処理装置１２０のハードウェア構成の例、（ｂ）は第１の実施形態の画像処理装置１２０の機能構成の例

【図3】（ａ）は人物認識データに使用する画像の例、（ｂ）は人物認識データの例

【図4】第１の実施形態の人物の分割領域の設定の例

【図5】第１の実施形態の画像処理装置１２０の処理のフローチャートの例

【図6】第１の実施形態の切り出し領域の判定処理のフローチャートの例

【図7】（ａ）は第１の実施形態の切り出し領域の判定処理中の切り出し領域の例、（ｂ）は第１の実施形態の切り出し領域の判定に使用する人物認識データの例

【図8】第１の実施形態の画像切り出し処理の人体検出の処理結果から得られる切り出し領域の例

【図9】第１の実施形態の画像切り出し処理のアスペクト比を考慮した切り出し領域の例

【図10】第１の実施形態の画像処理システム１００のユーザインターフェースの例

【図11】第２の実施形態の画像処理システム１１００の構成の例

【発明を実施するための形態】

【0010】

以下、添付図面を参照し、本発明の実施形態について説明する、なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の１つである。なお、各図において、同一の部材については同一の参照番号を付し、重複する説明は省略する。

【0011】

（第１の実施形態）
本実施形態では、画像内において物体の位置ならびに物体領域を検出し、検出した物体領域を考慮して注目物体を含む切り出し領域を判定する。そして、この判定結果に基づいて該画像を切り出し、注目物体を含む動画を生成する。

【0012】

先ず、本実施形態に係るシステムの構成例について、図１を用いて説明する。図１は、第１の実施形態の画像処理システム１００の構成の例である。図１に示すように、本実施例における画像処理システム１００は主にネットワークカメラ１１０、画像処理装置１２０、ネットワーク１３０によって構成される。

【0013】

ネットワークカメラ１１０はシリアル通信およびＩＰ通信による制御信号の伝送、またはアナログ／デジタル信号による映像伝送が可能なカメラで、外部の機器に映像を配信するとともに各種内部パラメータの設定やカメラの制御を行うことができる。また、ＳＤカードなどの外部メモリに映像データを録画することができる。

【0014】

画像処理装置１２０は、ネットワークカメラ１１０と接続し、カメラの制御や配信される映像の受信をすることができる。また、Ｗｅｂブラウザなどのアプリケーションを持ち、ネットワークカメラ１１０から配信される映像や設定画面を後述する表示部に表示して、カメラの制御をすることができる。加えて、画像処理装置１２０内部に録画されている映像の閲覧、および画像処理装置１２０内で行われる映像生成の制御を操作することができる。画像処理装置１２０はネットワークカメラ１１０によって撮影された映像を保存し、撮影された映像を基に画像切り出し処理を施した映像を生成することができる。また、後述するネットワーク１３０を介してネットワークカメラ１１０からの映像を取得し、内部メモリに保存することができる。加えて、ＳＤカードなどの外部メモリからデータを取得することができ、ネットワークカメラ１１０で録画した映像データを外部メモリから取得することもできる。

【0015】

ネットワーク１３０はネットワークカメラ１１０、画像処理装置１２０が通信するためのネットワークである。通信の形態は、有線でも無線であってもよく、シリアル通信およびＩＰ通信など映像や制御信号の伝送が行えるものであれば形態は問わない。

【0016】

＜画像処理装置の構成の説明＞
本発明の実施形態にかかわる画像処理装置のハードウェア構成例を図２（ａ）を用いて説明する。図２（ａ）は、第１の実施形態の画像処理装置１２０のハードウェア構成の例である。画像処理装置１２０は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、通信部２０４、表示部２０５、入力部２０６及び、上記の構成要素を互いに通信可能に接続する内部バス２０７を有する。

【0017】

ＣＰＵ２０１は後述するＲＯＭ２０２に格納されている制御プログラムを実行し、画像処理装置１２０の各構成要素を制御することで本装置全体の制御を行う。また、後述する通信部２０４から画像データを取得することができる。

【0018】

ＲＯＭ２０２はフラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉＳｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＳＤカード等に代表される不揮発性を持った記憶装置である。ＲＯＭ２０２は、ＯＳや各種プログラム及び各種データの永続的な記憶領域として使用される他に、短期的な各種データの記憶領域としても使用される。

【0019】

ＲＡＭ２０３はＤＲＡＭ等に代表される揮発性を持った高速な記憶装置で、ＯＳや各種プログラム及び各種データがロードされ、またＯＳや各種プログラムの作業領域としても使用される。また、プログラムを展開し、ＣＰＵ２０１が実行可能な状態にする。

【0020】

通信部２０４はネットワークカメラ１１０と通信をおこない、動画像データを取得する。動画像データを受け付けるためのインタフェースとしては、例えばＨＤＭＩ（登録商標）、ＳＤＩ、ＤｉＳｐｌａｙＰｏｒｔなどの汎用の入力インタフェースや、ネットワークに接続されたＬＡＮなどが想定される。また、図示を省略する外部装置に、後述する生成部２２６により生成した動画（出力動画像）を出力する。ここで外部装置は例えば、ディスプレイやＴＶ放送やインターネット放送用の動画像送出機器あるいはＵＳＢやＤＶＤなどの記録装置を含む。

【0021】

表示部２０５はＣＲＴや液晶画面などにより構成されており、通信部２０４が取得した画像や、画像処理装置１２０による処理結果を画像や文字などでもって表示することができる。

【0022】

入力部２０６はキーボードやマウス、タッチパネルなどのユーザインターフェースにより構成されており、ユーザが操作することで各種の指示を画像処理装置１２０に対して入力することができる。なお、図１ではこれらの構成を一体化させて１つの装置としているが、このような構成に限らない。例えば、これらの装置を別個の装置としてもいいし、表示部２０５と入力部２０６とを一体化させても良いし、通信部２０４と表示部２０５とを一体化させても良い。

【0023】

次に、画像処理装置１２０の機能構成例について、図２（ｂ）のブロック図を用いて説明する。図２（ｂ）に示した各機能部はハードウェアとして実装しても良いし、ソフトウェア（コンピュータプログラム）として実装しても良い。後者の場合、このコンピュータプログラムはＲＡＭ２０３に保存される。ＣＰＵ２０１はこのコンピュータプログラムを必要に応じてＲＯＭ２０２にロードして実行することで、対応する機能部の機能を実現する。

【0024】

取得部２２１はユーザが入力装置を操作することで入力した各種の指示を取得する。さらに、動画像を外部装置から取得する（画像取得手段）。

【0025】

検出部２２２は、ディープラーニング等の機械学習手法を用いて作成された学習済みモデルを有し、取得部２２１が取得した動画像若しくは静止画像から物体の検出を行う。検出部２２２は入力データとして画像を受け、検出された物体のフレーム間での位置関係から同定した物体に固有のＩＤを付与し、出力データとして人物等の物体の属性、物体領域を示すスコアをフレーム番号と紐づけて人物認識データとして出力する。図３は出力する人物認識データを示す。図３（ａ）は入力データとして取得部２２１から取得した画像（全体画像）を指し、図３（ｂ）は検出した物体の固有ＩＤ、属性、物体領域を示す人物認識データを示している。この時、検出された各物体の少なくとも１つの座標が取得した全体画像の枠と一致している場合、この物体は切り出し領域の判定処理の対象から除外する。ここで枠とは画像の端を結ぶ線のことを示し、左線、右線、下線、上線から構成される。例えば、図３（ｂ）ではＩＤ５が全体画像枠の右線ならびに下線と一致している。この場合、ＩＤ５は物体領域は取得するが、後述する判定部２２４の切り出し領域には含まないようにする。物体の属性とは、人（男性、女性）、動物、不動体、その他、などを指す。それぞれ形状の特徴および行動特徴のパターンから属性を判定する。物体領域（第２の領域）とは、物体領域外に該検出物体がはみ出さないように設定（判定）される領域であり、該検出物体の左上、左下、右下、右上の座標で定義される。検出物体は、左上、左下、右下、右上の座標を順に結んだ物体領域の内側に位置していればよい。また、検出部２２２は検出した各物体の部位に分けて物体領域を判定することが可能である。例えば人物であった場合、図４に示すように顔領域４０１、上半身領域４０２と全身領域４０３のように一つの物体に対して３つの部位に分けて物体の位置に関する情報を出力する。ここで挙げる物体検出手法は一例であり、撮影目的および環境に応じて必要な物体を検出できる手法であれば形態は問わない。また、物体の属性の判定方法は、上記に限定されるものではなく、エッジ特徴を用いた特定物体検出処理により属性を判定するなど、属性が判定できるものであればどのような方法であってもよい。

【0026】

設定部２２３（設定手段）は検出部２２２が出力した人物認識データから、注目物体を設定する。注目物体の設定手法は、注目物体の決定方法は表示部２０５に表示された各物体の一覧の中から、ユーザが検出物体を選択することで決定してもよい。

【0027】

判定部２２４は注目物体の物体領域と切り出し領域情報を基に画像の切り出し領域を設定する。具体的には、設定部２２３が設定した注目物体の物体領域と切り出し領域（第１の領域）に関する設定情報（切り出し領域情報）を基に切り出し領域の判定を繰り返すことで、画像の切り出し領域を決定する。切り出し領域情報はあらかじめ設定された、各種条件を含む。切り出し領域情報の各種条件は切り出し領域内に含む物体の数や属性、優先順位、切り出し領域に含める注目物体の物体領域、アスペクト比に関する情報である。切り出し領域情報の各種条件はＲＯＭ２０２に記憶され、判定部２２４の処理に応じて参照する。ＲＯＭ２０２には条件のみを記憶し、処理に利用するか否かは判定部２２４によって選択されてもよい。切り出し領域情報はユーザが入力部２０６から入力することで決定しても良いし、画像処理装置１２０内で決定してもよい。

【0028】

切り出し部２２５は判定部２２４が決定した切り出し領域に基づいて取得部２２１が取得した画像（全体画像）から切り出し処理を行う。

【0029】

生成部２２６は前記設定部２２３がラベル付けをしたフレーム番号と画像内の物体領域の情報と、切り出し部２２５が切り出した画像に基づいて動画を生成する。さらに、画像処理装置１２０は上記の構成要素を互いに通信可能に接続する内部バスを有する。

【0030】

＜画像処理装置の基本的な処理の説明＞
続いて、本発明の画像処理装置１２０における基本的な処理手順に関して図５のフローチャートを用いて説明する。なお、本実施形態では人を検出対象としているが、車や動物など人以外を検出対象としてもよいし、人と動物など複数を検出対象に設定しても良い。また、特徴点検出などの手法を用いることにより物体を検出する手法を取ってもよい。

【0031】

本制御フローは入力部２０６より入力された動画像を生成する指示を取得部２２１が取得することで開始する。

【0032】

ステップＳ５０１で通信部２０４は画像処理対象となる動画像を取得する。ただし、画像データを取得できる方法であれば形態は問わない。例えば、ＳＤカードなどの取り外し可能な外部メモリに画像データを記録しておき、通信部２０４へデータを送信するという方法であってもよい。

【0033】

ステップＳ５０２で検出部２２２は取得した動画の各フレーム上の物体の検出を行い、人物等の物体の属性、物体領域を示すスコアを人物認識データとしてＲＯＭ２０２に格納する。これらの検出対象については、入力部２０６を使用してユーザが入力して設定をすることができる。

【0034】

ステップＳ５０３で、設定部２２３はステップＳ５０２で検出した物体の中から注目する物体を決定する。注目物体の決定方法は表示部２０５に表示された各物体の一覧の中から、ユーザが表示部２０５に表示された検出物体を選択することで決定してもよい。その場合、ステップＳ５０２で検出した各物体の検出情報を読み出し、表示部２０５に表示するデータとして変換する。さらに、ステップＳ５０２でＲＯＭ２０２に格納した人物認識データに基づいて、検出部２２２は画像データの各フレームにおいて設定した注目物体に対してラベル付けを行う。また、人物であれば性別・年齢などの情報や事前に特定の人物の学習データを与えることにより人物認証を行うことができ、人物認証を利用して決定しても良い。設定部２２３が設定した注目物体がフレームから検出されない場合は、ステップＳ５０４ならびにステップＳ５０５のフローでは何もしなくてもよい。

【0035】

ステップＳ５０４で、判定部２２４はステップＳ５０３で設定部２２３が設定した注目物体の物体領域と切り出し領域情報を基に画像の切り出し領域を設定する。具体的には、切り出し領域の判定には、ステップＳ５０３で決定した注目物体の物体領域と切り出し領域に関する設定情報（切り出し領域情報）を使用することで行う。切り出し領域情報はあらかじめ設定された、各種条件を含む。切り出し領域情報の各種条件は切り出し領域内に含む物体の数や属性、優先順位、注目物体の領域、アスペクト比に関する情報、切り出し領域の面積に対して顔領域が占める割合、切り出し領域の面積の全体画像の面積に対する割合を含む。切り出し領域情報はユーザが表示部２０５から入力することで決定しても良いし、画像処理装置１２０内で決定してもよい。切り出し領域の決定方法の詳細に関しては後述する。

【0036】

ステップＳ５０５で、切り出し部２２５はステップＳ５０４で設定した切り出し領域を基に各フレームに対して画像切り出し処理を施し、ＲＯＭ２０２に格納する。

【0037】

ステップＳ５０６で生成部２２６はステップＳ５０５で切り出した画像と、ステップＳ５０２で格納した人物認識データをもとにラベル付けされた複数のフレームを結合する。つまり、ラベル付けされた複数のフレームを含む１つの動画を生成することで本制御フローは終了する。動画生成時に使用するフレームは注目物体が画像内に位置するフレームであればよく、取得した動画のフレームすべてを使用しなくても良い。例えば、取得した動画において、注目人物が画像内に位置しないフレームがある場合、該フレームを生成する動画に含めなくても良いし、すべてのフレームからなる動画を生成しても良い。すべてのフレームからなる動画を生成する場合、切り出ししていないフレームを使用することで動画を生成することができる。

【0038】

＜切り出し領域の設定方法＞
続いて、本発明における各フレームに対する切り出し領域の決定方法の具体的な手順について図６のフローチャートおよび図７、図８、図９を用いて説明する。

【0039】

本実施形態において、図６に示した本制御フローは、画像処理装置１２０内において、図４に示したＳ５０３ならびにＳ５０４の制御フローの詳細である。本実施形態では図７の入力画像７０１（全体画像）に対して切り出し領域の決定を行う場合について述べる。

【0040】

ステップＳ６０１で動画像の各フレームに対応した物体および注目物体のラベル（人物認識データ）をＲＯＭ１０２より読み込み、検出物体の画像内の物体領域を取得する。

【0041】

ステップＳ６０２で図７に示す７０１の画像（全体画像）から検出されたすべての物体の物体領域が切り出し領域に収まるようにステップＳ６０２における切り出し領域を設定する。切り出し領域の設定は、人物認識データに基づいて、全体画像内の上下左右の最も端に位置する物体領域の端の座標を使用する。例として、図７（ａ）のように画像内に人物Ａ～Ｅが存在した場合の処理を考える。図７（ｂ）の人物認識データは検出人物のＩＤ、属性、注目人物か否かのフラグ、物体領域の座標を示している。各物体領域の座標は左から順に左上、左下、右下、右上の座標を示している。すべての人物が収まるように切り出し領域を設定するため、上下左右の端の位置を決定する。上下左右の位置は、各物体の物体領域に合わせて決定される。図７の場合、各物体領域の座標のＹ座標を比較し、最も上端に位置するのはＢの人物の左上（ａ２，ｂ２）と右上（Ａ２，ｂ２）の位置座標であるため、Ｂの人物の物体領域の上端の位置に合わせて切り出し領域の上端を設定する。同様に下端の場合、最も下端に位置するのはＣの人物の左下（ａ３，ｃ３）と右下（Ａ３，ｃ３）であるため、Ｃの人物の全身の物体領域の下端に合わせて切り出し領域の下端を設定する。左端については最も左端に位置するのはＣの人物の左上（ａ３，ｂ３）と左下（ａ３，ｃ３）であるため、Ｃの人物の全身の物体領域の左端に合わせて切り出し領域の左端を設定する。右端についても同様に、最も右端に位置するのはＢの人物の右上（Ａ２，ｂ２）と右下（Ａ２，ｃ２）であるため、Ｂの人物の全身の物体領域の右端に合わせて切り出し領域の右端を設定する。したがって、切り出し領域は図８における切り出し領域８０１のような結果となる。最後に元の画像のアスペクト比に合わせる（維持）ため、切り出し領域８０１の縦と横のそれぞれに合わせた場合の切り出し領域を考慮して、図９における切り出し領域９０１のように補正を行う。具体的にはＲＯＭ２０２から切り出し領域情報を取得し、全体画像のアスペクト比を参照し、図９で該アスペクト比に合わせるように選択領域を縦横方向に広げる。よって、図７の入力画像７０１の場合はステップＳ６０２の処理により切り出し領域７０２のような結果が得られる。なお、本実施形態では、ステップＳ６０３以降の処理を行っているが、切り出し領域に関する設定情報（切り出し領域情報）に物体の数の情報が含まれていない場合、ステップＳ６０２で処理を終了してもよい。

【0042】

ステップＳ６０３で切り出し領域内に含まれる物体の数（ここでは、人数）をカウントする。さらに、ＲＯＭ１０２から切り出し領域情報を読み出し、物体の数（人数）に関する判定を行う。切り出し領域内の物体の数（人数）がＮ人より多い場合はステップＳ６０４に進み、Ｎ人以下の場合はステップＳ６０６へ移行する。

【0043】

ステップＳ６０４では切り出し領域内の人物の数がＮ人以下になるように、ステップＳ６０２で設定した切り出し領域内の人物を切り出し領域内に収める対象から除外する。本実施形態における切り出し領域に収める人数の設定は事前にユーザが入力部１０６を用いて設定を行うものとするが、一例であり画像処理装置１２０内で自動設定されてもよい。また、除外する人物は、注目人物から最も遠くに位置する人物から順に除外する。例えば、設定画像７０２の状態において、あらかじめ設定した物体の数（人数）が３の場合は、注目人物Ｄから最も遠いＣおよびＣの次に遠いＢを除外する。なお、本実施形態に示す人物の除外方法は一例であり、他の手法を取ってもよい。例えば、注目人物の顔の向きや前フレームからの動きベクトルの情報を基に、注目人物の進行方向とは逆の位置で最も遠い人物を除外するという手段でも構わない。また、検出した物体の中から優先的に除外する物体をユーザが設定することで除外する人物を決定しても構わない。

【0044】

ステップＳ６０５では、ステップＳ６０４で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定し、次に全体画像とアスペクト比を合わせる。切り出し領域の設定方法はステップＳ６０２と同様であり、ここでは説明を省略する。よって、設定画像７０２においてステップＳ６０４で決定した人物を除外して枠を設定することで設定画像７０３のような処理結果となる。なお、本実施形態では、ステップＳ６０６以降の処理を行っているが、切り出し領域に関する設定情報（切り出し領域情報）に切り出し領域の面積に対して顔領域の占める割合の情報が含まれていない場合、ステップＳ６０５で処理を終了してもよい。

【0045】

ステップＳ６０６では、注目物体の顔領域の面積がステップＳ６０５で決定した切り出し領域の面積に対して占める割合を算出する。次に、ＲＯＭ１０２から切り出し領域情報を読み出し、顔領域の割合に関する判定を行う。Ｘ％（閾値）よりも小さい場合にステップＳ６０７へ進み、Ｘ％以上の場合はステップＳ６０９に移行する。

【0046】

ステップＳ６０７では、ステップＳ６０５で設定した切り出し領域内の人物を切り出し領域内に収める対象から除外する。具体的には、注目物体の顔領域の面積がＸ％を超えるまで切り出し領域の人物を切り出し領域内に収める対象から除外してからステップＳ６０８へ進む。本実施形態における該顔領域の割合の閾値設定は事前にユーザが入力部１０６を用いて設定をおこなうものとするが、一例であり画像処理装置１２０内で自動設定されてもよい。

【0047】

ステップＳ６０８では、ステップＳ６０７で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定し、次に全体画像とアスペクト比を合わせる。切り出し領域の設定方法はステップＳ６０２と同様であり、ここでは説明を省略する。よって、切り出し領域７０３においてステップＳ６０７で決定した人物を除外して切り出し領域を設定することで切り出し領域７０４のような処理結果となる。なお、本実施形態では、ステップＳ６０９以降の処理を行っているが、切り出し領域の面積の全体画像の面積に対する割合の情報が含まれていない場合、ステップＳ６０８で処理を終了してもよい。

【0048】

ステップＳ６０９では、ステップＳ６０８で設定した切り出し領域の面積の全体画像の面積に対する割合を算出する。次に、ＲＯＭ１０２から切り出し領域情報を読み出し、ステップＳ６０９で算出した割合に関する判定を行う。Ｐ％（閾値）よりも小さい場合にステップＳ６１０へ進む。本実施例における全体画像の面積に対する切り出し領域の面積の割合の閾値設定は事前にユーザが入力部１０６を用いて設定を行うものとするが、一例であり画像処理装置内で自動設定されてもよい。例えば、全体画像の面積に対して出力する表示機器の解像度を入力することで視認性の落ちない割合を自動算出して設定してもよい。

【0049】

ステップＳ６１０では、ステップＳ６０９において切り出し領域内に収める対象となっていない物体を切り出し領域内に収める対象とし、ステップＳ６１１へ進む。対象とする人物は、注目人物から最も近くに位置する人物を対象とする。例えば、設定画像７０４の状態において、切り出し領域外にいるＣ，Ａ，Ｂの中から注目人物Ｄに最も近いＡを切り出し領域内に収める対象とする。なお、本実施形態に示す人物の追加方法は一例であり、他の手法を取ってもよい。例えば、注目人物の顔の向きや前フレームからの動きベクトルの情報を基に、注目人物の進行方向と同じ人物を追加するという手段でも構わない。また、検出した物体の中から優先的に追加する物体をユーザが設定することで追加する人物を決定しても構わない。

【0050】

ステップＳ６１１は、ステップＳ６０６で決定した切り出し領域の面積が全体画像の面積に対して切り出し領域情報で設定した閾値以上になるように切り出し領域を設定する。切り出し領域の設定方法はステップＳ６０２と同様であり、ステップＳ６１０で設定した切り出し領域内に収める人物すべての物体領域が切り出し領域に収まるように、切り出し領域を設定する。よって、ステップＳ６１０で決定した人物を追加して切り出し領域を設定することで切り出し領域７０５のような処理結果となる。

【0051】

ステップＳ６１２で切り出し領域として枠を決定し、処理を終了する。なお、本実施形態における枠設定の再設定手順の順序・回数・条件・手法は一例であり、実施する目的に合わせて変形することができる。

【0052】

以上のような構成により、本実施形態では、画像を切り出す際に、注目物体と注目物体の周囲の物体が見切れることを抑制できる技術を提供することができる。

【0053】

ここで、図１０を用いて画像処理システム１００における画像処理装置１２０のユーザインターフェースについて説明する。

【0054】

まず、ユーザは入力部２０６から、画像処理装置１２０の生成部２２６へアクセスする。ユーザインターフェースからはボタン１００１からメニューを選択することで、動画生成・録画動画像の閲覧・生成した動画の閲覧が可能である。動画を生成する場合、まずボタン１００２で切り出し対象となる動画を選択する。この時、ユーザは画像処理装置１２０内に保存されている動画データから選択することができる。また、ネットワークを介して動画データをアップロードすることも可能である。

【0055】

次に、項目１００３で注目人物の選択を行う。人物の選択は、表示された顔画像から選択することもできるが、登録ボタンからユーザが画像をアップロードすることで使用することも可能である。画像処理装置１２０はここで選択された画像を認識処理の事前データとして使用する。本実施例では、対象を人物として顔画像を用いた認識を行うが、一例であり注目する物体によって認識に用いる事前データは変化してもよい。また、画像ではなく数値などのパラメータをユーザインターフェースから入力する形態を取ってもよい。

【0056】

項目１００４では、注目人物のどの部位を切り出し領域に含めるかを選択することができる。ここで選択された項目に応じて、切り出し領域の端の位置を決定する際の物体切り出し領域の端の位置のパラメータとして使用する。例えば、注目人物の全身を映す場合は、切り出し領域の端の位置を決定する際に、最も端に位置する物体の全身の切り出し領域の端の位置を利用する。最後にボタン１００５を押すと、画像処理装置１２０が画像切り出し処理を開始し、処理完了後にユーザは生成動画一覧画面から生成された動画を確認することができる。本実施形態に示すユーザインターフェースは一例であり、撮影された動画像を基にユーザが操作することで動画生成を行うことができれば、形態は問わない。

【0057】

（第２の実施形態）
第１の実施形態においては画像処理装置１２０とネットワークカメラ１１０が画像処理システム１００を構成した場合の画像処理について説明した。次に、図１１に示したようにネットワークカメラ１１０１と情報端末１１０２とサーバー１１０４が画像処理システム１１００を構成した場合の画像処理について説明する。第２の実施形態では、サーバー機器１１０４が、図５および図６の画像処理を行う。

【0058】

本実施形態における画像処理システム１１００は主にネットワークカメラ１１０１、情報端末１１０２、ネットワーク１１０３、サーバー機器１１０４によって構成される。

【0059】

ネットワークカメラ１１０１はシリアル通信およびＩＰ通信による制御信号の伝送、またはアナログ／デジタル信号による映像伝送が可能なカメラで、外部の機器に映像を配信するとともに各種内部パラメータの設定やカメラの制御を行うことができる。また、ＳＤカードなどの外部メモリに映像データを録画することができる。

【0060】

情報端末１１０２は、ネットワークカメラ１１０１と接続し、カメラの制御や配信される映像の受信をすることができる。また、Ｗｅｂブラウザなどのアプリケーションを持ち、ネットワークカメラ１１０１から配信される映像や設定画面を表示して、カメラの制御をすることができる。加えて、サーバー機器１１０４と接続することができ、サーバー機器１１０４に録画されている映像の閲覧、およびサーバー機器１１０４内で行われる映像生成の制御を遠隔で操作することができる。

【0061】

ネットワーク１１０３はネットワークカメラ１１０１、情報端末１１０２、サーバー機器１１０４が通信するためのネットワークである。通信の形態は、有線でも無線であってもよく、シリアル通信およびＩＰ通信など映像や制御信号の伝送が行えるものであれば形態は問わない。

【0062】

サーバー機器１１０４はカメラによって撮影された映像を保存し、撮影された映像について画像切り出し処理を施し、映像を生成することができる。また、ネットワーク１１０３を介してネットワークカメラ１１０１からの映像を取得し、内部メモリに保存することができる。加えて、ＳＤカードなどの外部メモリからデータを取得することができ、ネットワークカメラ１１０１で録画した映像データを外部メモリから取得することもできる。

【0063】

ここで、本実施形態の画像処理システム１１００における画像処理手順に関して図５のフローチャートを用いて説明する。まず、ステップＳ５０１でサーバー機器１１０３は画像切り出しの対象となる映像を取得する。本実施例における映像の取得方法は、ネットワーク１１０３を介してネットワークカメラ１１０１から配信された映像データを受信することで取得する。ただし、映像データを取得できる方法であれば形態は問わない。例えば、ネットワークカメラ１１０１が撮影時にＳＤカードなどの取り外し可能な外部メモリに映像データを録画しておき、外部メモリを使用してサーバー機器１１０３へデータを移すという方法であってもよい。

【0064】

次に、ステップＳ５０２でサーバー機器１１０３は映像データの各フレームに対して物体の検知処理を行う。検知する対象は、人物や背景の模様や看板など特徴的な物体を指す。これらの検知対象については、情報端末１１０２のＷｅｂブラウザを使用してユーザが入力して設定をすることができる。また、特徴点検出などの手法を用いることにより物体を検知する手法を取ってもよい。また、サーバー機器１１０３は検知した物体に対して、部分的に物体の位置を取得することができる。ステップＳ５０３で、サーバー機器１１０３は各フレームにおけるステップＳ５０２で検知した物体に対して注目する物体のけったいを行う。サーバー機器１１０３は映像データの各フレームにおいて検知した物体領域に対してラベル付けを行い、フレーム番号および画像内の物体領域とラベルを紐づけて記憶する。

【0065】

ステップＳ５０４で、検出された物体の位置を基に画像の切り出し領域を判定する。切り出し領域の判定には、ステップＳ５０３で記憶した物体領域の情報を使用する。切り出し領域の判定方法の詳細に関しては第１の実施形態と同様である。

【0066】

ステップＳ５０５で、判定した切り出し領域を基に各フレームに対して画像切り出し処理を施す。最後に、ステップＳ５０６ですべてのフレームを結合し、１つの映像を生成して処理を終了する。

【0067】

【0068】

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

【符号の説明】

【0069】

１００画像処理システム
１１０ネットワークカメラ
１２０画像処理装置
１３０ネットワーク
１１００画像処理システム
１１０１ネットワークカメラ
１１０２情報端末
１１０３ネットワーク
１１０４サーバー

【図1】