IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7408358情報処理装置、プログラム、記憶媒体、および、情報処理方法
<>
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図1
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図2
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図3
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図4
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図5
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図6
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図7
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図8
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図9
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図10
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図11
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図12
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図13
  • 特許-情報処理装置、プログラム、記憶媒体、および、情報処理方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-22
(45)【発行日】2024-01-05
(54)【発明の名称】情報処理装置、プログラム、記憶媒体、および、情報処理方法
(51)【国際特許分類】
   G06T 3/00 20240101AFI20231225BHJP
   G06T 1/00 20060101ALI20231225BHJP
   G06T 7/00 20170101ALI20231225BHJP
   G10L 15/10 20060101ALI20231225BHJP
【FI】
G06T3/00 775
G06T1/00 340A
G06T7/00 660A
G10L15/10 200W
【請求項の数】 12
(21)【出願番号】P 2019207809
(22)【出願日】2019-11-18
(65)【公開番号】P2021081904
(43)【公開日】2021-05-27
【審査請求日】2022-11-11
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100208580
【弁理士】
【氏名又は名称】三好 玲奈
(72)【発明者】
【氏名】小暮 憲太朗
(72)【発明者】
【氏名】土橋 俊之
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2013-254302(JP,A)
【文献】特開2019-135810(JP,A)
【文献】特開2014-211855(JP,A)
【文献】中国特許出願公開第109005337(CN,A)
【文献】特開2019-079085(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/00
G06T 1/00
G06T 7/00
H04N 23/00
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
撮影画像を取得する画像取得手段と、
前記撮影画像内の視線を検出する視線検出手段と、
前記視線検出手段により検出された視線に基づいて、前記撮影画像内のオブジェクトを検出するオブジェクト検出手段と、
前記検出されたオブジェクトを含む所定の領域を切り取り領域として設定する領域設定手段と、
前記撮影画像に対して、前記所定の領域の切り取り処理を行う切り取り手段と、を有し、
前記領域設定手段は、1枚の撮影画像または連続する複数の撮影画像毎に、位置または大きさの異なる少なくとも1つの切り取り領域を設定し、連続する複数の切り取り領域を切り取りパターンとして設定可能であり、かつ、前記検出された視線に基づいて検出されたオブジェクトに応じて、前記切り取りパターンを設定する
ことを特徴とする情報処理装置。
【請求項2】
前記オブジェクト検出手段は、輝度情報、色情報、空間周波数、コントラスト、テンプレートマッチング、特徴量マッチング、および、機械学習による物体検出の内の少なくとも1つの情報または手法を用いて、前記オブジェクトを検出することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記撮影画像内の人物を検出する人物検出手段を備え、
前記視線検出手段で検出する視線は、前記検出された人物の顔の向きまたは視線を含むことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記オブジェクト検出手段は、前記人物検出手段によって検出された人物の前記視線の方向、または、顔が向く方向に位置するオブジェクトを検出することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記切り取りパターンは、ユーザーにより予め設定可能であることを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
前記切り取り手段は、前記切り取り処理を開始してからまたはオブジェクトの状態が変化してから、所定時間の経過、前記視線検出手段によって検出された視線の一定以上の変化、および、前記検出されたオブジェクトの前記撮影画像からの消失のいずれかが発生した場合に、前記切り取り処理を終了することを特徴する請求項1~のいずれか1項に記載の情報処理装置。
【請求項7】
言語情報または音声からキーワードを抽出するキーワード抽出手段を備え、
前記領域設定手段は、前記検出されたオブジェクトに、前記抽出されたキーワードと関連するオブジェクトが含まれる場合、前記検出されたオブジェクトのうち、前記抽出されたキーワードと関連するオブジェクトを含む所定の領域を切り取り領域として設定することを特徴とする請求項1~のいずれか1項に記載の情報処理装置。
【請求項8】
前記キーワード抽出手段で抽出されたキーワードと、前記検出されたオブジェクトの関連を判定する判定手段を備え、
前記判定手段は、前記検出されたオブジェクトと前記抽出されたキーワードの関連を機械学習によって学習済みのデータを用いて判定することを特徴とする請求項に記載の情報処理装置。
【請求項9】
前記領域設定手段は、同一種の複数のオブジェクトが検出された場合、前記抽出されたキーワードとの関連度がより高いオブジェクトを含む所定の領域を切り取り領域として設定することを特徴とする請求項またはに記載の情報処理装置。
【請求項10】
コンピュータを請求項1~のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【請求項11】
請求項10に記載のプログラムを記憶する、コンピュータで読み取り可能な記憶媒体。
【請求項12】
撮影画像を取得する画像取得工程と、
前記撮影画像内の視線を検出する視線検出工程と、
前記視線検出工程において検出された視線に基づいて、前記撮影画像内のオブジェクトを検出するオブジェクト検出工程と、
前記検出されたオブジェクトを含む所定の領域を切り取り領域として設定する領域設定工程と、
前記撮影画像に対して、前記所定の領域の切り取り処理を行う切り取り工程と、を有し、
前記領域設定工程では、1枚の撮影画像または連続する複数の撮影画像毎に、位置または大きさの異なる少なくとも1つの切り取り領域を設定し、連続する複数の切り取り領域を切り取りパターンとして設定可能であり、かつ、前記検出された視線に基づいて検出されたオブジェクトに応じて、前記切り取りパターンを設定する
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理装置、プログラム、記憶媒体、および、情報処理方法に関するものである。
【背景技術】
【0002】
従来、テレビ番組制作を目的とした放送業界では主にアナログのシステムを用いて運営してきた。近年では、IP(Internet Protocol)を用いた放送の普及に伴い、動画共有サービス上で独自に制作した動画を配信するクリエイターも増加してきており動画編集のニーズが高まっている。また、撮影動画のリアルタイム配信においては、撮影対象以外にカメラマンやスイッチャーをはじめとするオペレーターが複数人必要で台本や実際の映像を確認しながら手動で行っている。
【0003】
一方で、動画編集の際は編集者が自ら編集対象の動画を再生しながら編集を行っているため、非常に多くの時間を費やしている。例えば、動画の一部を切り出す場合、毎回類似の番組を制作する際には予め人物等の撮影対象の位置や大きさを登録することも可能だが、撮影対象の位置や大きさの変化に追従できないため都度調整が必要となっている。例えば、特許文献1に記載された撮像装置では、人物の顔の位置および向きを検出し、検出された顔位置および向きに応じて撮像素子上で光学像を移動させ、構図を調整する方法が開示されている。また、特許文献2に記載された撮像装置では複数の人物の目線の目標物が前記画像信号中に含まれる他の人物であるか否かを判定し画像切り出しを行う方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2009-218807号公報
【文献】特開2009-260630号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の特許文献1では、顔の向きに応じて構図を意識した切り出し位置を決める内容が開示されており、全体の構図に対して有効であるが、映像内に含まれる一部の注目被写体の切り出しには対応できないといった課題がある。上記の特許文献2では、人物か否かのみを判定しているので、人物以外の目標物を切り出したい要求に対して対応できない。また、目線の先に複数の人物が存在する場合に撮影者または編集者の意図する画像切り出し位置または大きさにならないといった課題がある。
【0006】
本発明は、上記事情に鑑みてなされたものであり、ユーザーの意図する画像切り取りを自動で行う手法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の情報処理装置は、撮影画像を取得する画像取得手段と、前記撮影画像内の視線を検出する視線検出手段と、前記視線検出手段により検出された視線に基づいて、前記撮影画像内のオブジェクトを検出するオブジェクト検出手段と、前記検出されたオブジェクトを含む所定の領域を切り取り領域として設定する領域設定手段と、前記撮影画像に対して、前記所定の領域の切り取り処理を行う切り取り手段と、を有し、前記領域設定手段は、1枚の撮影画像または連続する複数の撮影画像毎に、位置または大きさの異なる少なくとも1つの切り取り領域を設定し、連続する複数の切り取り領域を切り取りパターンとして設定可能であり、かつ、前記検出された視線に基づいて検出されたオブジェクトに応じて、前記切り取りパターンを設定することを特徴とする。
【発明の効果】
【0008】
本発明によれば、ユーザーの意図する画像切り取りを自動で行うことができる。
【図面の簡単な説明】
【0009】
図1】カメラのハードウェア構成の一例を示す図である。
図2】撮像部の一例を示す図である。
図3】実施形態1に係るカメラのソフトウェア構成の一例を示す図である。
図4】撮像画像の一例を示す図である。
図5】パターンAを説明する図である。
図6】パターンBを説明する図である。
図7】パターンCを説明する図である。
図8】パターンDを説明する図である。
図9】実施形態1に係る撮影画像の切り取り処理のフローチャートである。
図10】実施形態1に係るパターンの設定に用いる表の一例を示す図である。
図11】実施形態2に係るカメラのソフトウェア構成の一例を示す図である。
図12】実施形態2に係るパターンの設定に用いる表の一例を示す図である。
図13】実施形態2に係る撮影画像の切り取り処理のフローチャートである。
図14】視線の方向に複数のオブジェクトが検出された場合の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面に基づいて説明する。以下では、情報処理装置としてカメラを用いる場合について説明する。
【0011】
<実施形態1>
図1は、カメラ10のハードウェア構成の一例を示す図である。カメラ10は、ハードウェア構成として、撮像部11と、CPU12と、メモリ13と、入力部14と、表示部15と、通信部16と、を含む。撮像部11は、被写体像を撮像する。撮像部11の詳細は後述する図2に示す。CPU12は、カメラ10の全体を制御する。メモリ13は、プログラム、データセット、撮像部11で撮像された画像、設定値等を記憶する。入力部14は、ユーザーの選択操作等を入力し、CPU12に渡す。表示部15は、CPU12の制御に基づき画面等を表示する。通信部16は、カメラ10をネットワークに接続し、他の装置との通信等を制御する。CPU12がメモリ13に記憶されたプログラムに基づき処理を実行することによって後述する図3に示すカメラ10のソフトウェア構成、及び後述する図9のフローチャート等の処理が実現される。カメラ10は、情報処理装置の一例である。カメラ10からネットワークを介して取得した画像を蓄積する録画サーバ、又は画像を表示させるための端末装置に対しても以下の実施形態を適用することが可能である。
【0012】
図2は、撮像部11の一例を示す図である。撮像部11は、数枚のレンズ群からなるレンズ201、CCDやCMOS等の撮像素子202を備える。また、撮像部11は、雑音軽減を行う相関二重サンプリング(Correlated Double Sampling:CDS)回路203を備える。また、撮像部11は、カメラの利得制御を自動で行うゲインコントロールアンプ回路(Automatic Gain Control:AGC)204を備える。また、撮像部11は、アナログ信号をデジタル信号へと変換を行うA/D変換205を備える。
【0013】
撮像素子202は、撮像光学系としてのレンズ201を介して結像された被写体像を電気信号に変換する。CDS回路203は、撮像素子202から出力された電気信号に対して相関二重サンプリング処理等を実施する。AGCアンプ204は、CDS回路203から出力された電気信号に対して増幅処理等を行う。A/D変換205は、AGCアンプ204により増幅処理されたアナログ信号をデジタル信号へと変換する。
【0014】
図3は、実施形態1に係るカメラ10のソフトウェア構成の一例を示す図である。撮像制御部101は、撮像部11を制御し、撮像部11からの信号を画像生成部102に渡す。画像生成部102は、画像信号を取得し、受け取った信号に基づき撮像画像を生成する。即ち、画像生成部102は、画像取得手段として機能しうる。検出部103は、撮像画像から人物の顔、顔の向き、視線、所定のオブジェクトを検出する。判定部104は、複数の要素の関連性または関連度を判定する。パターン設定部105は、検出された所定のオブジェクトを含む所定の領域を切り取り領域として設定し、切り取りパターンを設定する。即ち、パターン設定部105は、領域設定手段として機能しうる。位置設定部106は、パターン設定部105により設定された切り取りパターンに応じて、撮像画像の切り取り位置を設定する。サイズ設定部107は、パターン設定部105により設定された切り取りパターンに応じて、撮影画像の切り取りサイズを設定する。画像切り取り部108は、パターン設定部105、位置設定部106、サイズ設定部107で設定された切り取り方法及び切り取り位置、切り取りサイズで画像を切り取る。出力部109は、画像切り取り部108によって切り取られた画像信号を出力する。
【0015】
撮像制御部101は、撮像部11から得られた輝度信号及び色信号を画像生成部102に渡す。画像生成部102は、得られた輝度信号及び色信号からRGB画像やYUV画像等の画像信号を生成する。
【0016】
検出部103は、画像生成部102で生成された画像から、人物の顔、顔の向き、視線、所定のオブジェクト等を検出する。即ち、検出部103は、視線検出手段、オブジェクト検出手段、および、人物検出手段として機能しうる。
【0017】
判定部104は、検出部103で検出された複数の要素を判定する。例えば、検出部103で検出された所定のオブジェクトが、検出部103で検出された視線の方向に位置するか否かを判定する。また、検出部103で検出された視線の方向と、検出部103で検出された所定のオブジェクトの位置が一致するかどうか判定してもよい。さらに、検出部103で検出された所定のオブジェクトおよび人物の属性や状態を判定してもよい。また、検出部103で検出された顔の口の動きから話しているかどうかを判定してもよい。
【0018】
パターン設定部105は、検出部103の検出結果、および判定部104の判定結果に応じて切り取るパターンを設定する。なお、検出部103の検出結果には、例えば、検出された画像内の人物の顔、顔の向き、視線、および、所定のオブジェクトが含まれうるが、これら全てに応じてパターンを設定する必要はなく、これらのうち一部に応じてパターンを設定しても良い。
【0019】
位置設定部106は、パターン設定部105で設定された切り取りパターンに応じて、切り取り位置を設定する。サイズ設定部107は、パターン設定部105で設定されたパターンに応じて切り取りサイズを設定する。画像切り取り部108は、位置設定部106およびサイズ設定部107で設定された切り取り位置および切り取りサイズを用いて画像生成部102で生成された画像を切り取る。出力部109は、画像切り取り部108で切り取られた画像を出力する。
【0020】
ここで図4図8を用いて、撮影画像に対してパターン設定部105で設定される切り取りパターンの例を説明する。図4は、撮像画像の一例を示す図である。図4の400は、撮影画像の画角全体を表している。図4中の401は、撮影画像内に含まれる人物を表している。図4中の402は、撮影画像に含まれる人物401の後ろに置かれている机を表している。
【0021】
図5は、パターンAを説明する図である。図5中の501、502、503、504、505の領域を切り取った場合に、出力画像としてはそれぞれ501a、502a、503a、504a、505aのようになる。連続する複数の撮影画像毎に501~505の領域を順次適用し切り取ることで人物400の顔に対して斜め方向からズームインする効果が得られる。この時、501~505それぞれの領域は、一定の割合で位置および大きさが変化している例であるが、各位置および大きさはこれに限定されるものではない。図5のような切り取りパターンをパターンAとする。このように、1枚の撮影画像または連続する複数の撮影画像毎に、位置または大きさの異なる少なくとも1以上の切り取り領域を設定し、連続する複数の切り取り領域を切り取りパターンとして設定可能である。これにより、様々なカメラワークと同様の効果を得ることができる。
【0022】
図6は、パターンBを説明する図である。図6中の601、602、603の領域を切り取った場合に、出力画像としてはそれぞれ601a、602a、603aのようになる。連続する複数の撮影画像毎に601~603の領域を順次適用し切り取ることで人物400の顔から斜め方向にズームアウトする効果が得られる。この時、601~603それぞれの領域は、大きさが固定かつ一定割合で位置が変化している例であるが、これに限定されるものではない。図6のような切り取りパターンをパターンBとする。
【0023】
図7は、パターンCを説明する図である。図7中の701、702、703の領域を切り取った場合に、出力画像としてはそれぞれ701a、702a、703aのようになる。連続する複数の撮影画像毎に701~703の領域を順次適用し切り取ることで人物400に対して下方からスライドインする効果が得られる。この時、701~703それぞれの領域は、大きさが固定かつ位置が左右方向は一定で上下方向に不規則に変化している例であるが、これに限定されるものではない。図7のような切り取りパターンをパターンCとする。
【0024】
図8は、パターンDを説明する図である。図8中の801、802、803の領域を切り取った場合に、出力画像としてはそれぞれ801a、802a、803aのようになる。連続する複数の撮影画像毎に801~803の領域を順次適用し切り取ることで人物400に対して放物線を描くような特殊な軌跡で切り取りができる。この時、801~803それぞれの領域は、大きさおよび位置が途中で非直線的に変化する例であるが、これに限定されるものではない。図8のような切り取りパターンをパターンDとする。更に、図示されていないが、検出部103により検出された所定のオブジェクトを含む所定の領域を即座に切り取るパターンをパターンEとする。また、パターンA~Eは、切り取りの対象を人物としていたが、人物以外のオブジェクトを対象としてもよい。
【0025】
ここで、図9のフローチャートを用いて、カメラ10が撮像画像の各検出手段の条件に応じて画像を出力するためのパターン、切り取り位置、切り取りサイズを設定する際の例を説明する。図9は、実施形態1に係る撮影画像の切り取り処理のフローチャートである。このフローチャートで示す各動作(ステップ)は、CPU12よって実行されうる。
【0026】
まず、画像生成部102で生成された画像から検出部103で視線を検出する(ステップS1001)。このとき、視線の元となる顔や人物を同時に検出してもよい。また、検出部103によって、視線が検出できない場合は、検出された顔の向きを視線の方向としても良い。さらに、検出部103で検出する視線の向きまたは顔の向きは、撮影画像上の予め決められた所定の方向のみ検出してもよい。ステップS1001で視線または顔の向きが検出された場合は、検出部103で視線の方向に存在するオブジェクトを検出する(ステップS1002)。検出対象となる所定のオブジェクトは、予めパターンマッチング(テンプレートマッチング)、特徴量マッチング等の判定に用いるリファレンスのデータとして登録してもよい。また、撮影画像上の輝度情報、色情報、空間周波数、コントラストなどの値から所定のオブジェクトが存在するかどうかを判定してもよい。さらに、CNN(Convolution Neural Network)等の既存のニューラルネットワークを用いてディープラーニング(機械学習)を行ったオブジェクト検出(物体検出)等の手法によりを行ってもよい。
【0027】
ステップS1003で、パターン設定部105は、検出部103で検出されたオブジェクトに応じて、所定領域を切り取るパターンを設定する。具体的には、パターン設定部105は、例えば、検出されたオブジェクトの種別、属性、および、状態の少なくとも1つによって、所定領域を切り取るパターンを設定する。検出されたオブジェクトの種別、属性、状態等は、判定部104によって判定されうる。
【0028】
図10は、実施形態1に係るパターンの設定に用いる表の一例を示す図である。本図は、ステップS1003で、検出されたオブジェクトの種別および、属性、状態に応じた切り取りパターンを設定するための条件の例を示している。図10の表中の属性情報および状態の「ANY」は、あらゆる属性および状態を含むこととする。これらの条件判別に用いるデータセットとして、予めメモリ13上にLUT(ルックアップテーブル)を記憶させておいてもよい。例えば、検出されたオブジェクトが、人物かつ30代の女性で静止していると判定部104によって判定された場合は、パターン設定部105は図10の表を参照して、切り取りパターンとしてパターンCを設定する。一方で、検出されたオブジェクトが、人物かつ40代の男性で歩行中の状態であると判定部104によって判定された場合は、パターン設定部105は図10の表を参照して切り取りパターンとしてパターンAを設定する。この時、動画像を切り取る場合は歩行の速さや方向に応じて切り取る位置を動画像のフレーム毎に補正してもよい。更に、検出されたオブジェクトが犬の場合は属性や状態に関わらず切り取りパターンを設定しないような例外処理を追加してもよい。そして、パターン設定部105で設定されたパターンに応じて、位置設定部106は切り取り位置を設定し、サイズ設定部107は切り取りサイズを設定する。
【0029】
図9に戻り、ステップS1004では、ステップS1003で設定された切り取りパターンに応じて、画像切り取り部108で画像を切り取る。即ち、位置設定部106で設定された切り取り位置、および、サイズ設定部107で設定された切り取りサイズに応じて画像切り取り部108で画像を切り取る。そして、画像切り取り部108によって切り取られた画像を出力部109から出力する。このとき、例えば、検出されていた視線および所定のオブジェクトが撮影画像上から消失した場合は、切り取り処理を終了してもよい。また、切り取り処理を開始してから、または、所定のオブジェクトの状態が変化してから所定時間が経過した場合にも切り取り処理を終了してもよい。さらに、検出部103によって検出された視線の一定以上の変化が発生した場合に、切り取り処理を終了してもよい。
【0030】
このような処理を行うことにより、ユーザーの意図する画像切り取りを自動で行うことが可能となり、例えば、動画編集などに費やす時間を短縮することができる。
【0031】
なお、本実施形態では、画像の切り取りパターンの一例として、パターンA~Eを用いたが、これに限定されるものではない。例えば、ユーザーの任意のパターンを予め登録することで設定することが可能であっても良い。また、判定部104において、顔認証機能を用いても良い。この場合、例えば、検出された人物に応じた切り取りパターンを自動で設定することが可能となる。
【0032】
<実施形態2>
図11は、実施形態2に係るカメラ20のソフトウェア構成の一例を示す図である。なお、カメラ20の撮像部含むハードウェア構成に関しては実施形態1のカメラ10および撮像部11と同様の構成のため説明を省略する。図11のカメラ20におけるソフトウェア構成の101~109に関しても同様の構成のため説明を省略する。言語情報記憶部301は、予め撮影画像上から検出し得るオブジェクトに関連するキーワードの抽出に用いるための言語に関する情報を記憶しておく。
【0033】
音声入力部302には、外部からの音声が入力される。抽出部303は、言語情報記憶部301から取得した言語情報、または、音声入力部302から取得した音声からキーワードを抽出する。即ち、抽出部303は、キーワード抽出手段として機能しうる。このとき、抽出するキーワードは、文章から所定のキーワードを抽出するための機械学習による学習済みのデータを用いても良い。例えば、「青い服を着た40代の男性が歩いています」という音声が入力された場合は、キーワードとして「青い服」、「40代」、「男性」「歩いて」というキーワードが抽出される。図12は、実施形態2に係るパターンの設定に用いる表の一例を示す図である。本図は、検出されたオブジェクト種別、関連するキーワード、属性、状態に応じた切り取りパターンを設定するための条件の例を示している。例えば、キーワードとして「青い服」、「40代」、「男性」「歩いて」というキーワードが抽出され、検出された視線の方向に女性の人物と男性の人物が検出されたとする。この場合、判定部104は、抽出されたキーワードは検出された複数の人物のうちの男性の方と関連すると判断する。そして、パターン設定部105は、撮像画像中の男性をパターンAで切り取るように切り取りパターンを設定する。
【0034】
ここで、図13のフローチャートを用いて、カメラ20が撮像画像の各検出手段の条件に応じて画像を出力するための切り取りパターン、切り取り位置、切り取りサイズを設定する際の例を説明する。本図では、検出されたオブジェクが同一種別である場合について説明する。図13は、実施形態2に係る撮影画像の切り取り処理のフローチャートである。図13のフローチャート中、ステップS2001、ステップS2002、ステップS2005、ステップS2007は、図9のフローチャート中のそれぞれステップS1001、ステップS1002、ステップS1003、ステップS1004と同様の処理を行う。このため説明を省略する。ステップS2001、ステップS2002を経て、ステップS2003では、判定部104は、ステップS2002で検出された所定のオブジェクトが視線方向に複数存在するかどうかを判定する。図14は、視線の方向に複数のオブジェクトが検出された場合の一例を示す図である。ここで、図14のように、話している人物(話者)901と無言の人物902が撮影画像上に存在し、複数の視線が検出される場合は、話している人物901の視線の先にあるオブジェクトを検出してもよい。この場合、判定部104は、話している人物を特定する手段(話者特定手段)としても機能する。そして、検出部103は、話している人物901の視線を優先してオブジェクトの検出に用いる。
【0035】
図14中の話している人物901の視線の先には、ボトル903とボトル904が存在する。ボトル903とボトル904は、同一種別のオブジェクトである。ここで、ボトル903は黒いラベルの貼られた赤ワインのボトルで、ボトル904は白いラベルが貼られた白ワインのボトルであるものとする。また、図14の905、906の領域を切り取ると、それぞれ905a、906aのように出力されることとする。ステップS2004では、抽出部303で抽出されたキーワードと、検出されたオブジェクトが関連するかどうかを判定する。例えば、抽出部303で抽出されたキーワードが「黒いラベル」の場合は、図14中のボトル904よりも、ボトル903との関連度の方が高い。よって、判定部104は、ボトル903と関連があると判定する。また、抽出部303で抽出されたキーワードが「白ワイン」の場合は、図14中のボトル903よりも、ボトル904との関連度の方が高いため、判定部104はボトル904と関連があると判定してもよい。
【0036】
なお、キーワード毎に、重み付けを行い、関連度を判定しても良い。例えば、視線の方向にボトル903とボトル904が位置する例において、キーワードとして「黒いラベル」、「白ワイン」が抽出されたとする。このとき、「黒いラベル」の重みの方が、「白ワイン」よりも高く設定されていれば、判定部104は、ボトル903との関連度の方が高いと判定し、ボトル903と関連があると判定する。
【0037】
ステップS2006では、抽出部303で抽出されたキーワードが「赤ワイン」または「黒いラベル」の場合は、パターン設定部105は図12の条件表を参照して、図14中のボトル903を含む所定領域を905としてパターンEを設定する。この時、ボトル903の状態が撮影画像に対して垂直に静止している場合はパターンEを設定し、ボトル903の状態が撮影画像に対して垂直静止状態から±20°以上傾いている場合はパターンBを設定してもよい。即ち、検出されたオブジェクトの状態に基づいて、切り取りパターンを設定してもよい。一方、抽出部303で抽出されたキーワードが「白ワイン」または「白いラベル」の場合は、図14中のボトル904を含む所定領域906とする。この時、パターン設定部105は図12の条件表を参照して、例えば、ボトル903の場合と同様に、ボトル904の状態が撮影画像に対して垂直に静止している場合はパターンEを設定する。そして、ボトル904の状態が撮影画像に対して垂直静止状態から±20°以上傾いている場合はパターンBを設定することとしてもよい。
【0038】
図13に戻り、ステップS2007では、ステップS2006またはステップS2005で設定された切り取りパターンに応じて画像切り取り部108で画像を切り取り、出力部109から出力する。キーワードを用いることにより、より多様なシーンに対してユーザーの意図する画像切り取りを自動で行うことが可能となる。
【0039】
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0040】
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。例えば、上述した実施形態では、撮像装置として説明したカメラには、デジタルスチルカメラやデジタルビデオカメラに適用することができる。 また、上述したソフトウェア構成の一部又は全てをハードウェア構成として装置に実装してもよい。また、ハードウェア構成としてCPUに替えてGPU(Graphics Processing Unit)を用いることとしてもよい。
【0041】
以上、上述した各実施形態によれば、撮像シーン等に応じてユーザーの意図する適切な切り取り処理を行った画像を出力することができる。
【符号の説明】
【0042】
10,20 カメラ
102 画像生成部
103 検出部
104 判定部
105 パターン設定部
108 画像切り取り部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14