【文献】
羽島一夫,三輪祥太郎,鹿毛裕史,橋本学,ジョーンズ マイケル,ソーントン ジェイ,高速ベストショット顔画像記録システム,電子情報通信学会2004年総合大会講演論文集,日本,電子情報通信学会,2004年 3月 8日,情報・システム2,pp.222
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0018】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0019】
<1.はじめに>
近年の技術進歩により、高画質な画像を取得することが比較的容易になってきている。しかし、画質が高いほど画像のファイル容量が巨大化するため、通信帯域や画像の蓄積容量に制限がある場合、画質とファイル容量とは、いわゆるトレードオフの関係となる。
【0020】
このため、画質は、画像の使用用途に応じて適宜調整されることが望ましい。例えば、人の監視を目的として設置される監視カメラでは、人物の特徴を捉えることが重要であり、背景映像は重要視されないことが多い。特に、監視カメラが定点撮影を行う場合、背景映像は固定されるため、背景映像を高画質で記録する需要は少ないといえる。
【0021】
上記のように、撮像した画像において、特定領域の情報が重視される場合、当該特定領域のみに多くの符号量を付与して圧縮することで、画像全体の符号量を抑える技術が知られている。上記の特定領域(以下、関心領域、とも呼ぶ)は、例えば、人間の顔領域であってもよい。
【0022】
しかし、上記の技術では、画像中に多くの関心領域が存在する場合、画像中の関心領域の範囲が広がるため、画像全体の符号量を抑えることが困難な場合がある。また、関心領域が人間の顔領域である場合、表情や顔の向きなどによっては、人物を特定するのに不十分な画像も存在するため、顔領域を常に高画質化することは、ファイル容量をいたずらに増大させかねない。
【0023】
本発明は、上記の点に着目して発想されたものであり、領域IDごとに代表的な関心領域を判定し、当該代表的な関心領域を他の関心領域よりも高品質で符号化すること、を特徴の一つとする。また、上記の代表的な関心領域は、関心領域ごとに算出された視認性スコアに基づいて決定されてよい。以降に説明される本実施形態では、本発明に係る符号化装置、符号化方法、プログラム、及び画像処理システムについて、構成上の特徴を挙げながら、当該構成が奏する効果について説明する。
【0024】
なお、以降に説明される本発明の実施形態では、符号化装置の一例として、人の監視を目的に設置される監視カメラを用いて説明するが、本発明に係る符号化装置は係る例に限定されない。本発明に係る符号化装置、符号化方法、プログラム、及び画像処理システムは、撮像した画像を符号化する機能を有する装置に広く適用可能である。
【0025】
<2.実施形態>
[2.1.本実施形態に係るシステム構成例]
まず、
図1を参照して、本実施形態に係る画像処理システムのシステム構成例について説明する。
図1を参照すると、本実施形態に係る画像処理システムは、監視カメラ10、及び監視端末30を備える。また、監視カメラ10及び監視端末30は、互いに通信が行えるようにネットワーク20を介して接続される。
【0026】
ここで、監視カメラ10は、撮像を行うための撮像装置であり、撮像した画像を符号化する符号化装置でもある。また、監視端末30は、監視カメラ10が符号化した画像を取得し、当該画像を複合する複合装置であり、複合した画像を表示してユーザに提示する機能を有する。
【0027】
ネットワーク20は、監視カメラ10が符号化した画像を監視端末30に伝送する、有線または無線による通信路であってよい。また、ネットワーク20は、インターネット、電話回線網、衛星通信網などの公衆回線網であってもよいし、IP−VPN(Internt Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
【0028】
本実施形態に係る画像処理システムによれば、領域IDごとに判定された代表領域を高品質で符号化することで、画像全体の符号量を効率的に抑えることが可能となる。本実施形態に係る画像処理システムが有する上記の機能については、後述する。
【0029】
[2.2.本実施形態に係る監視カメラ10]
次に、本実施形態に係る監視カメラ10について詳細に説明する。上述したとおり、本実施形態に係る監視カメラ10は、撮像した画像を符号化する機能を有する。この際、本実施形態に係る監視カメラ10は、領域IDごとの代表的な関心領域を同一の領域IDに関連付いた他の関心領域よりも高品質で符号化すること、を特徴の一つとする。
【0030】
このため、監視カメラ10は、撮像した画像に含まれる関心領域を検出し、領域IDを関連付ける機能を有してよい。また、監視カメラ10は、上記の領域IDに関連付いた関心領域の視認性スコアを算出する機能を有してよい。また、監視カメラ10は、上記の視認性スコアに基づいて領域IDごとの代表的な関心領域を判定する機能を有してよい。
【0031】
以下、
図2を参照して、上記の機能を実現する監視カメラ10の各構成について説明する。
図2を参照すると、本実施形態に係る監視カメラ10は、画像入力部110、顔検出部120、視認性スコア算出部130、代表顔判定部140、及び符号化部150を備える。
【0032】
(画像入力部110)
画像入力部110は、撮影した映像をデジタル信号に変換して出力する機能を有する。本実施形態に係る画像入力部110は、例えば、ビデオカメラであってよい。画像入力部110は、デジタル化した時系列の画像データを、後述する顔検出部120、視認性スコア算出部130、及び符号化部150に出力する。
【0033】
(顔検出部120)
顔検出部120は、画像に含まれる関心領域を検出し、当該関心領域と領域IDとを関連付ける機能を有する。すなわち、本実施形態に係る顔検出部120は、画像入力部110より取得した画像データに含まれる人間の顔領域を検出し、当該顔領域を識別するための顔IDを付与する。また、顔検出部120は、検出した顔領域の位置データ(以下、顔位置データ、とも呼ぶ)を算出する機能を有する。また、顔検出部120は、顔IDと関連付いた顔位置データを、後述する視認性スコア算出部130、及び符号化部150に出力する。なお、顔検出部120による顔位置データ算出の詳細については後述する。
【0034】
(視認性スコア算出部130)
視認性スコア算出部130は、顔IDと関連付いた顔領域の視認性スコアを算出する機能を有する。視認性スコア算出部130は、画像入力部110から取得した画像データと、顔検出部120から取得した顔IDと関連付いた顔位置データと、に基づいて、顔領域ごとの視認性スコアを算出することができる。また、視認性スコア算出部130は、算出した視認性スコアを後述する代表顔判定部140に出力する。なお、視認性スコア算出部130による視認性スコア算出の詳細については後述する。
【0035】
(代表顔判定部140)
代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアに基づいて、顔IDごとの代表顔を判定する機能を有する。この際、代表顔判定部140は、顔IDごとに最も視認性スコアが高い顔領域を上記の代表顔として決定してもよい。また、代表顔判定部140は、代表顔を判定(更新)した場合、代表顔判定データを符号化部150に出力する。なお、代表顔判定部140による代表顔判定の詳細については後述する。
【0036】
(符号化部150)
符号化部150は、顔IDごとの代表顔を同一の顔IDに関連付いた他の顔領域よりも高品質で符号化する機能を有する。すなわち、符号化部150は、顔検出部120から取得した顔IDに関連付いた顔位置データと、代表顔判定部140から代表顔判定データと、に基づいて、画像入力部110から取得した画像データの符号化を行う。また、符号化部150は、符号化した画像データ含むストリームデータを、ネットワーク20を介して、監視端末30に送信する。なお、符号化部150による符号化の詳細については後述する。
【0037】
[2.3.本実施形態に係る監視端末30]
次に、本実施形態に係る監視端末30について詳細に説明する。上述したとおり、本実施形態に係る監視端末30は、監視カメラ10が符号化した画像を取得し、当該画像を複合する機能を有する。また、監視端末30は、複合した画像を表示してユーザに提示する機能を有する。
【0038】
以下、
図3を参照して、監視端末30の備える各構成について説明する。
図3を参照すると、本実施形態に係る監視端末30は、複合部310、蓄積部320、及び表示部330を備える。
【0039】
(複合部310)
複合部310は、符号化されたストリームデータを複合し、後述する表示部330に出力する機能を有する。本実施形態に係る複合部310は、ネットワーク20を介して監視カメラ10から取得したストリームデータを複合してよい。また、複合部310は、後述する蓄積部320が蓄積するストリームデータを取得し、当該ストリームデータを複合してもよい。
【0040】
(蓄積部320)
蓄積部320は、ネットワーク20を介して監視カメラ10からストリームデータを取得し、当該ストリームデータを蓄積する機能を有する。また、本実施形態に係る蓄積部320は、複合部310に蓄積するストリームデータを出力する機能を有してよい。
【0041】
(表示部330)
表示部330は、複合部310により複合された画像データを表示する機能を有する。上記の機能は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置などにより実現されてもよい。
【0042】
[2.4.顔位置データの算出]
以上、本実施形態に係る監視カメラ10及び監視端末30の構成について説明した。続いて、本実施形態に係る顔検出部120による顔位置データの算出について、詳細に説明する。上記で述べたとおり、本実施形態に係る顔検出部120は、画像データに含まれる顔領域を検出し、当該顔領域の顔位置データを算出することができる。
【0043】
図4は、顔検出部120が、画像P1から顔領域F1を検出した場合の例を示している。
図4に示す一例では、顔領域F1が、幅方向の大きさw、及び縦方向の大きさhにより示されている。また、画像P1における顔領域F1の位置は、画像P1の起点OからのX軸上の距離xと、Y軸上の距離yにより示されている。このように、顔検出部120は、画像における顔領域の顔位置データとして、上記のx、y、w、及びhを算出することができる。
【0044】
また、本実施形態に係る顔検出部120は、検出した顔領域に対して顔IDを付与する機能を有する。この際、顔検出部120は、同一人物の顔領域と判定した顔領域に対しては同一の顔IDを付与してよい。顔検出部120は、検出した顔領域の顔位置データ(x、y、w、h)と、時系列に沿った直前時刻の画像データに含まれる顔領域の顔位置データ(x、y、w、h)と、を比較することで、同一人物の顔領域か否かを判定してよい。具体的には、顔検出部120は、比較する2つの顔位置データの差を算出し、当該差が所定の範囲内にある場合、2つの顔領域が同一人物の顔領域であると判定し、同一の顔IDを付与してよい。顔検出部120が上記のように顔IDを付加することで、同一人物の顔領域に同一の顔IDを付与することが可能となる。
【0045】
なお、顔検出部120が画像データから顔領域を検出する方法としては、広く知られている方法を適用することができる。例えば、顔検出部120は、Viola−Jones法を用いて、画像データ上を矩形形状の探索窓で走査し、人間の顔が含まれるか否かを判定してもよい。また、画像データに複数の顔領域が含まれる場合、顔検出部120は、顔領域の数だけ上記の処理を繰り返してよい。
【0046】
以上説明したように、本実施形態に係る顔検出部120は、顔領域を検出し、画像における当該顔領域の位置を算出することができる。また、本実施形態に係る顔検出部120は、顔領域に含まれる目、鼻、口、及びまばたきの有無を検出し、当該検出結果を顔位置データに含めることができる。
【0047】
図5は、顔検出部120により検出される上記のデータを説明するための図である。
図5の一例は、顔検出部120が、顔領域F1に含まれる右目A、左目B、鼻C、及び口Dの位置を検出していることを示している。本例が示すように、顔検出部120は、検出した右目A、左目B、鼻C、及び口Dの位置データを算出し、顔位置データに含めることができる。また、顔検出部120は、まばたきの有無を検出し、検出結果を顔位置データに含めることができる。
【0048】
なお、顔検出部120が、目、鼻、口、及びまばたきの有無を検出する方法としては、広く知られている方法が適用されてよい。例えば、目、鼻、及び口の検出には、上記で説明した顔領域の検出と同様の方法が用いられてよい。また、まばたきの検出については、目の領域データから得られる水平及び垂直の濃淡ヒストグラムの特徴に基づいて検出が行われてよい。
【0049】
以上説明したように、本実施形態に係る顔検出部120は、同一人物と判定した顔領域に同一のIDを付与することができる。また、顔検出部120は、検出した顔領域の顔位置データに、画像中における顔領域の位置の他、目、鼻、口の位置データ、及びまばたきの有無に係る情報を含めることができる。顔検出部120が上記のデータを含む顔位置データを算出することで、後述する視認性スコアの算出精度を向上させることが可能となる。なお、上記で示した顔領域の検出方法は一例であり、顔検出部120は、他の方法を用いて顔領域の検出や顔位置データの算出を実施してもよい。本実施形態に係る顔領域の検出、及び顔位置データの算出は、監視カメラ10の仕様や運用に応じて適宜変更され得る。
【0050】
[2.5.視認性スコアの算出]
次に、本実施形態に係る視認性スコアの算出について、詳細に説明する。上述したとおり、本実施形態に係る視認性スコア算出部130は、画像入力部110から取得した画像データと、顔検出部120から取得した顔IDと関連付いた顔位置データと、に基づいて、顔領域ごとの視認性スコアを算出することができる。この際、視認性スコア算出部130は、関心領域に係る顔の向き、大きさ、明るさ、及びまばたき等の特徴に基づいて、視認性スコアを算出してよい。
【0051】
本実施形態に係る視認性スコアは、ユーザが監視映像に含まれる顔領域を閲覧する際の視認性の度合いを定量化した指標であってよい。本実施形態に係る視認性スコアは、例えば下記の数式(1)により求められてよい。
【0053】
上記の数式(1)において、S(ID)は、顔領域の視認性スコアの評価値を示す値であってよい。また、S
1(ID)〜S
4(ID)は、それぞれ、顔の向き、顔の大きさ、顔の明るさ、及びまばたき対する評価値であってよい。なお、k
1〜k
4は、それぞれS
1〜S
4に対する重み係数を示しており、実験的に定められるものである。
【0054】
ここで、評価値S
1(ID)は、顔位置データに含まれる目、鼻、及び口の位置に基づいた計算式により算出されてよい。なお、当該計算式は、顔の向きが正面に近いほど高値となるように定義されてよい。
【0055】
また、評価値S
2(ID)は、顔位置データに含まれる顔領域の大きさ(
図4に示すw及びh)に基づいた計算式により算出されてよい。なお、当該計算式は、顔領域が大きいほど高値となるように定義されてよい。
【0056】
また、評価値S
3(ID)は、顔領域内の画像データに基づいた計算式により算出されてよい。なお、当該計算式は、顔領域の輝度に偏りが少ないほど高値となるように定義されてよい。例えば、視認性スコア算出部130は、顔領域の画像データについて輝度のヒストグラムを計算し、輝度が小さい領域や大きい領域への偏りを検出した場合、評価値S
3(ID)が小さくなるように算出できる。
【0057】
図6及び
図7は、評価値S
3(ID)の算出に用いられる画像データの輝度ヒストグラムの例を示している。
図6及び
図7では、横軸に輝度が、縦軸に度数がそれぞれ示されている。まず、
図6の輝度ヒストグラムを参照すると、輝度の小さい領域(48以下)の度数が大きく、すなわち、輝度が暗めに偏っていることがわかる。顔領域内の画像データが上記のような輝度ヒストグラムを示す場合、視認性スコア算出部130は、評価値S
3(ID)を小さく算出してよい。
【0058】
続いて、
図7の輝度ヒストグラムを参照すると、
図6の一例と比較して輝度の小さい領域(48以下)の度数は大きくなく、すなわち輝度が良好であることがわかる。顔領域内の画像データが上記のような輝度ヒストグラムを示す場合、視認性スコア算出部130は、評価値S
3(ID)を大きく算出してよい。
【0059】
続いて、評価値S
4(ID)について説明する。評価値S
4(ID)は、顔位置データに含まれる、まばたきの有無に基づいた計算式により算出されてよい。なお、当該計算式は、まばたきが無い場合に高くなるように定義されてよい。
【0060】
以上、本実施形態に係る視認性スコアの算出について説明した。上記で述べたとおり、本実施形態に係る視認性スコアは、顔の向きが正面に近いほど、顔領域が大きいほど、輝度の偏りが少ないほど、また、まばたきが無いほどに、高く算出される。すなわち、本実施形態に係る視認性スコアは、ユーザが顔領域の画像を閲覧する際の視認性に相当するものである。本実施形態に係る視認性スコア算出部130が上記のように視認性スコアを算出することで、代表顔判定部140による代表顔の判定精度を向上させることが可能となる。
【0061】
なお、上記では、顔の向き、顔の大きさ、顔画像の明るさ、及びまばたきの有無のすべてを用いて視認性スコアを算出する例について述べたが、本実施形態に係る視認性スコアは、上記の4種のデータをすべて用いて算出されなくてもよい。本実施形態に係る視認性スコアは、上記の4種のデータのうち少なくとも1つ以上のデータを用いて算出されてもよいし、上記の4種のデータとは別の情報を用いて算出されてもよい。また、本実施形態に係る視認性スコアは、単一のスカラ値でなくでもよく、例えば上記の4種のデータをそれぞれ視認性スコアとして用いるなど、複数のスカラ値によって示されてもよい。
【0062】
[2.6.本実施形態に係る代表顔の判定]
次に、本実施形態に係る代表顔の判定について詳細に説明する。本実施形態に係る代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアに基づいて、顔IDごとの代表顔を判定する機能を有する。すなわち、本実施形態に係る代表顔判定部140は、顔IDごとに視認性スコアが最も高い顔領域を代表顔として判定し記録する。
【0063】
具体的には、代表顔判定部140は、視認性スコア算出部130から顔IDと関連付いた視認性スコアを取得すると、同一の顔IDと関連付いた代表顔を検索する。ここで、該当する代表顔が存在しない場合、代表顔判定部140は、視認性スコア算出部130から取得した上記の視認性スコアを、該当する顔IDの代表顔として判定し記録する。また、この際、代表顔判定部140は、代表顔判定データを符号化部150に出力する。
【0064】
一方、同一の顔IDに関連付いた代表顔が存在する場合、代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアと、当該代表顔の視認性スコアと、を比較する。ここで、視認性スコア算出部130から取得した視認性スコアが上記の代表顔の視認性スコアを上回る場合、代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアを新たな代表顔と判定し記録する。また、この際、代表顔判定部140は、代表顔判定データを符号化部150に出力する。
【0065】
なお、代表顔判定部140は、新たな代表顔の判定を行った場合、所定の時間、代表顔の判定を行わないように動作してよい。代表顔が高頻度で判定(更新)される場合、符号化部150による符号化処理において、ストリームデータの符号量が連続して大きくなることから、通信帯域や蓄積容量への影響が懸念される。このため、本実施形態に係る代表顔判定部140が代表顔の更新後、所定の時間、判定を行わないことで、ストリームデータの符号量を低減することが可能となる。
【0066】
以上説明したように、本実施形態に係る代表顔判定部140は、代表顔の判定を繰り返すことで、より視認性スコアの高い顔領域を顔IDごとの代表顔として更新することができる。なお、代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアが所定のスコアを下回る場合、上記の判定を行わなくてもよい。このように、ユーザが視認することが困難であると予想される顔領域を予め代表顔から排除することで、ストリームデータの符号量を抑えることも可能である。
【0067】
[2.7.本実施形態に係る符号化特性の制御]
次に、本実施形態に係る符号化特性の制御について詳細に説明する。本実施形態に係る符号化部150は、画像データ中の領域を3種に分類し、それぞれ異なる符号化特性により符号化する。符号化部150は、顔検出部120から取得した顔位置データと、代表顔判定部140から取得した代表顔判定データに基づいて、上記の分類を行うことができる。
【0068】
すなわち、本実施形態に係る符号化部150は、代表顔と判定された顔領域を高品質で符号化し、代表顔以外の顔領域を中品質で符号化することができる。また、符号化部150は、顔領域を含まない背景などの画像領域を低品質で符号化する。
【0069】
なお、符号化部150による符号化や品質制御については、広く知られた方法が適用されてよい。例えば、符号化には、ITU−T勧告のH.264により定められる符号化方式が用いられてもよい。また、品質の制御には、量子化パラメータの制御による方法を適用してもよい。
【0070】
図8は、符号化部150による画質制御の例を示す図である。
図8では、顔領域R1及び背景領域R2のSNR(Sigal−to−Noise Ratio)が、それぞれ時間経過と共に示されている。また、
図8に示す一例は、時間区分B〜Fにおいて、同一人物の顔領域が検出された場合を示している。
【0071】
図8を参照すると、時間区分Bの開始時において、代表顔判定部140が代表顔の判定を行っており、当該判定に基づいて、符号化部150が顔領域R1を高品質で符号化している。このため、
図8では、時間区分Bの開始時における顔領域R1のSNRがH(High)として示されている。
【0072】
上述したとおり、代表顔判定部140は、代表顔を判定(更新)した後、所定の時間、代表顔の判定を実施しない。このため、符号化部150は、時間区分Bの開始時に代表顔が判定された後、顔領域R1を中品質で符号化する。
図8を参照すると、時間区分Bにおける顔領域R1のSNRは徐々に減少し、M(Middle)に到達していることがわかる。
【0073】
代表顔の判定から所定の時間が経過すると、代表顔判定部140は、代表顔の判定を再開する。
図8に示す一例では、時間区分Bの開始時における代表顔の判定から所定の時間(1秒)が経過した時間区分Cの開始時において、代表顔判定部140が代表顔を更新している。このため、符号化部150は顔領域R1を再び高品質で符号化している。
【0074】
なお、
図8は、時間区分Cの開始時に代表顔が判定された後、時間区分Dにおいては、代表顔が更新されない例を示している。その後、代表顔は、時間区分Eの開始時に更新され、時間区分Fにおいては更新されていない。また、符号化部150は、背景領域R2を低品質で符号化してよい。このため、背景領域R2のSNRは、
図8に示すようにL(Low)を維持する。
【0075】
以上説明したとおり、符号化部150は、代表顔判定部140による判定に基づいて、顔領域R1の符号化品質を制御することができる。このように、符号化部150が、視認性の高い顔領域のみを高品質で符号化することで、ストリームデータの符号量を抑えることが可能となる。
【0076】
なお、
図8では、代表顔の判定後、1秒が経過した際に代表顔の判定を再開する場合を例に説明したが、代表顔判定の停止時間は係る例に限定されない。当該停止時間は、通信帯域や蓄積容量の制限、監視サービスの運用条件などにより適宜変更され得る。
【0077】
[2.8.本実施形態に係るストリームデータの構成]
次に、本実施形態に係るストリームデータの構成について詳細に説明する。上述したとおり、本実施形態に係る符号化部150は、符号化した画像データを含むストリームデータを、ネットワーク20を介して監視端末30に送信する。
【0078】
図9は、本実施形態に係るストリームデータの構成例である。
図9を参照すると、ストリームデータは、ストリームヘッダ、複数のフレームデータ、及びインデックスデータを含んでいる。ここで、ストリームヘッダは、ストリーム全体の属性を示すものであってよい。ストリームヘッダには、例えば、符号化方式や画像解像度に係る情報が含まれてよい。
【0079】
また、フレームデータは、フレームヘッダとビデオデータとを含む画像情報である。フレームヘッダには、時刻情報や符号化パラメータの他、顔IDと関連付いた顔位置データ、代表顔判定データなどが含まれてよい。ビデオデータは、画像データの圧縮データであってよい。
【0080】
また、インデックスデータは、任意の画像データにアクセスするためのアドレス情報である。インデックスデータには、任意時刻の画像データにアクセスするためのアドレス情報が含まれてよい。また、インデックスデータには、顔IDと関連付いた顔領域や代表顔を含む画像データにアクセスするためのアドレス情報が含まれてよい。
【0081】
すなわち、本実施形態に係る符号化部150は、顔IDと関連付いた顔領域を含む画像を選択的に複合するための情報を、ストリームデータに付加することができる。これにより、監視端末30において、顔IDと関連付いた画像データや、顔IDごとの代表顔を容易に取得することが可能となる。
【0082】
[2.9.本実施形態に係る符号化の流れ]
以上、本実施形態に係る監視カメラ10の各構成の機能について詳細に説明した。続いて、監視カメラ10による画像データの符号化の流れについて説明する。
図10は、本実施形態に係る符号化の流れを示すフローチャートである。
【0083】
図10を参照すると、まず、監視カメラ10の画像入力部110が画像データを取得すし(S1101)、取得した画像データを顔検出部120に出力する。
【0084】
次に、顔検出部120は、画像入力部110から取得した画像データに含まれる顔領域を検出し、顔IDを設定する(S1102)。続いて、顔検出部120は、顔IDと関連付けた顔領域から顔位置データを算出し(S1103)、顔IDと関連付いた顔位置データを視認性スコア算出部130に出力する。
【0085】
次に、視認性スコア算出部130は、画像入力部110から取得した画像データと、顔検出部120から取得した顔IDと関連付いた顔位置データと、に基づいて、顔領域ごとの視認性スコアを算出し(S1104)、当該視認性スコアを代表顔判定部140に出力する。
【0086】
次に、代表顔判定部140は、視認性スコア算出部130から取得した視認性スコアに基づいて、顔IDごとの代表顔を判定し(S1105)、代表顔判定データを符号化部150に出力する。
【0087】
次に、符号化部150は、画像入力部110から取得した画像データと、代表顔判定部140から取得した代表顔判定データに基づいて、画像データ中の領域に応じた符号化を実施し(S1106)、ストリームデータを、ネットワーク20を介して監視端末30に出力する。
【0088】
ここで、ユーザによる監視カメラ10の終了操作が行われた場合(S1107:YES)、監視カメラ10は処理を終了する。一方、ユーザによる終了操作が行われない場合(S1107:NO)、監視カメラ10は、上記で説明したステップS1101〜S1106の処理を繰り返し実行する。
【0089】
以上、本実施形態に係る画像データの符号化の流れについて説明した。本実施形態に係る監視カメラ10が有する上記の機能によれば、視認性の高い顔領域のみを高品質で符号化することで、画像全体の符号量を抑えながらも、識別力の高い人物映像をユーザに提供することが可能となる。
【0090】
[2.10.監視端末30による実時間監視]
次に、本実施形態に係る監視端末30による実時間監視について説明する。本実施形態に係る監視端末30は、取得したストリームデータをリアルタイムに複合し、監視カメラ10により撮像された動画像をユーザに提示することができる。
【0091】
図11は、監視端末30の表示部330に表示される実時間の監視映像イメージである。
図11に示す一例では、複合部310が、ネットワーク20を介して取得したストリームデータを複合し、複合した画像データを表示部330に表示させている。すなわち、
図11は、監視カメラ10が撮影した動画像が監視端末30にリアルタイムに表示されている状況を示している。
【0092】
図11を参照すると、表示部330に表示される画面は、ウィンドウW1〜3を含んでいる。ここで、ウィンドウW1は、複合部310が複合した動画像を表示するエリアであってよい。すなわち、ウィンドウW1には、監視カメラ10のライブ映像が表示される。
図11の一例では、ライブ映像中に1名の人物が検出されており、顔検出部120が設定した顔ID(顔ID=123)と共に表示されている。このように、本実施形態に係る監視端末30は、顔検出部120が検出した顔領域F1の情報、及び顔検出部120が設定した顔IDの情報をライブ映像に付加して表示させることができる。
【0093】
また、ウィンドウW2は、ライブ映像から検出された検出済の人物リストを示すエリアであってよい。本実施形態に係る監視端末30は、ライブ映像から検出した人物ごとの代表顔を検出済の人物リストとしてウィンドウW2に表示させることができる。複合部310は、複合データから代表顔判定データを検出した場合、当該複合データに含まれる顔IDごとの代表顔がウィンドウW2に追加されるよう、表示部330を制御してよい。また、ウィンドウW2に表示される代表顔は、同一のIDに関連付いた新たな代表顔が検出された場合に更新されてよい。以上説明したように、本実施形態に係る監視端末30は、検出済の人物リストを視認性の高い画像で提示することが可能である。
【0094】
また、ウィンドウW3は、ライブ映像中に写る人物の代表顔を表示するエリアであってよい。本実施形態に係る監視端末30は、ウィンドウW1に表示される人物の顔IDと関連付いた代表顔をウィンドウW3に表示させることができる。また、ウィンドウW3に表示されるライブ映像中の人物に係る代表顔は、新たな代表顔が検出されたことに基づいて更新されてよい。すなわち、本実施形態に係る監視端末30は、ライブ映像中の人物に係る最も視認性の高い画像を提示し続けることが可能である。
【0095】
以上、本実施形態に係る監視端末30による実時間監視について説明した。続いて、
図12を参照して、監視端末30による実時間監視の制御の流れについて説明する。
【0096】
図12を参照すると、まず、監視端末30は、ネットワーク20を介して監視カメラ10からストリームデータを取得し、蓄積部320に蓄積する(S1201)。
【0097】
また、監視端末30の複合部310は、取得したストリームデータを複合し、表示部330にライブ映像を表示させる(S1202)。なお、監視端末30は、ステップS1201及びステップS1202を並行して処理してもよい。
【0098】
次に、複合部310は、複合データから検出した代表顔判定データに基づいて、表示部330に表示させる代表顔を更新する(S1203)。ここで、更新される代表顔は、
図11の例で示した検出済の人物リストや、ライブ映像中の人物に係る代表顔であってよい。
【0099】
監視端末30は、ユーザによる終了操作を検知しない場合(S1204:NO)、上記で説明したステップS1201〜S1203の処理を繰り返し実行する。一方、ユーザによる終了操作を検知した場合(S1204:YES)、監視端末30は、実時間監視に係る処理を終了する。
【0100】
[2.11.監視端末30による過去映像の監視]
次に、本実施形態に係る監視端末30による過去映像の監視について説明する。本実施形態に係る監視端末30は、ユーザに操作に基づいて、蓄積部320に蓄積されるストリームデータを複合し、監視カメラ10により撮像された過去の動画像をユーザに提示することができる。
【0101】
具体的には、複合部310は、ユーザによる顔IDの指定に基づいて、当該顔IDに関連付いた顔領域を含む画像データを蓄積部320から読み出し、動画像の複合を実施することができる。この際、複合部310は、ストリームデータに含まれるインデックスデータからアドレス情報を読み出すことで、指定された顔IDに関連付いた顔領域を含む画像データへアクセスすることができる。
【0102】
図13は、監視端末30の表示部330に表示される過去の監視映像イメージである。
図13に示す一例では、複合部310が、ユーザにより指定された顔ID(顔ID=123)に基づいて、蓄積部320から画像データを読み出し複合を行っている。すなわち、
図13には、ユーザにより指定された顔IDに関連付いた顔領域を含む情報が表示されている。
【0103】
図13を参照すると、表示部330に表示される画面は、実時間映像を表示する場合と同様に、ウィンドウW1〜3を含んでいる。ここで、ウィンドウW1は、複合部310が複合した過去の監視映像を表示するエリアであってよい。すなわち、ウィンドウW1には、指定された顔IDに関連付いた顔領域を含む過去の監視映像が表示される。なお、ライブ映像を表示させる場合と同様に、複合データに顔位置データの情報が含まれる場合、複合部310は、顔ID及び顔領域の位置を映像中に付加させることができる。
【0104】
また、ウィンドウW1には、指定された顔IDに関連付いた代表顔判定データを含む画像のみが表示されてもよい。すなわち、複合部310は、代表顔と判定された顔領域の履歴を選択的に複合し、表示部330に表示させることもできる。
【0105】
また、
図13に示すように、ウィンドウW1には、過去映像の操作を行うためのボタンが配置されてよい。
図13に示す一例では、一時停止、停止、巻き戻し、及び早送りに係るボタンb1〜b4が配置されている。なお、
図13に示すボタンb1〜b4は一例であり、ウィンドウW1には、例えば、再生ボタンなどの他のボタンが配置されてよい。
【0106】
ウィンドウW2は、複合部310が複合した過去の監視映像から検出された検出済の人物リストを示すエリアであってよい。また、ユーザは、検出済の人物リストから任意の人物を選択することで、複合部310に複合させる動画像の顔IDを指定することができてよい。ウィンドウW2においてユーザが任意の人物を指定した場合、複合部310は、当該指定に基づいて、蓄積部320から該当する顔IDの顔領域を含む画像を取得し、複合を行う。
【0107】
また、ウィンドウW3は、過去の監視映像中に写る人物の代表顔を表示するエリアであってよい。なお、実時間監視とは異なり、ウィンドウW3に表示される代表顔は、顔IDごとに関連付いた最終的な代表顔であってよい。すなわち、ウィンドウW3には、監視映像に写る人物に係る最も視認性の高い顔画像が表示され続けることとなる。
【0108】
なお、
図13では、過去の監視映像に2名の人物が表示されている例を示しているが、この場合、ウィンドウW3には、ユーザにより指定された顔IDに関連付いた代表顔の他、監視映像に写る別の人物の代表顔が表示されてもよい。
【0109】
以上、本実施形態に係る監視端末30による過去映像の監視について説明した。続いて、
図14を参照して、監視端末30による過去映像の監視に係る制御の流れについて説明する。
【0110】
図14を参照すると、監視端末30は、蓄積ストリームデータに含まれるすべての顔IDごとの代表顔を表示させる(S1301)。ここで、ユーザによる選択が行われない場合(1302:NO)、監視端末30は、過去映像の監視に係る処理を終了する。
【0111】
一方、ユーザが代表顔を選択した場合(S1302:YES)、監視端末30は、選択された代表顔に関連付いた顔IDに基づいて、当該顔IDに関連付いた顔領域を含むストリームデータを複合し表示させる(S1303)。
【0112】
なお、上記の例では、ユーザが、表示された代表顔を選択することで顔IDを指定する場合について述べたが、顔IDは別の方法によって指定されてもよい。例えば、顔IDは、ユーザによるキーボード入力に基づいて指定されてもよい。
【0113】
<3.ハードウェア構成例>
次に、本発明に係る監視カメラ10及び監視端末30に共通するハードウェア構成例について説明する。
図15は、本発明に係る監視カメラ10及び監視端末30のハードウェア構成例を示すブロック図である。
図15を参照すると、監視カメラ10及び監視端末30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力部878と、出力部879と、記憶部880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
【0114】
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、記憶部880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
【0115】
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
【0116】
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
【0117】
(入力部878)
入力部878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
【0118】
(出力部879)
出力部879には、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
【0119】
(記憶部880)
記憶部880は、各種のデータを格納するための装置である。記憶部880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
【0120】
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
【0121】
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
【0122】
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
【0123】
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
【0124】
(通信装置883)
通信装置883は、ネットワーク903に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
【0125】
<4.まとめ>
以上説明したように、本発明に係る監視カメラ10は、領域IDごとの代表的な関心領域を同一の領域IDに関連付いた他の関心領域よりも高品質で符号化すること、を特徴の一つとする。また、監視カメラ10は、撮像した画像に含まれる関心領域を検出し、領域IDを関連付ける機能を有する。また、監視カメラ10は、上記の領域IDに関連付いた関心領域の視認性スコアを算出する機能を有する。また、監視カメラ10は、上記の視認性スコアに基づいて領域IDごとの代表的な関心領域を判定する機能を有する。係る構成によれば、画像全体の符号量を抑えながら、より価値の高い画像情報をユーザに提供することが可能となる。
【0126】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0127】
例えば、上記実施形態では、関心領域の一例として人間の顔領域を用いて説明したが、本発明はかかる例に限定されない。例えば、関心領域の対象は、動物や乗り物などであってもよい。この場合、顔検出部120、視認性スコア算出部130、代表顔判定部140の構成を採用する関心領域に合わせて設計することで、人間の顔領域に係る上記の実施形態と同様の効果を得ることが可能である。
【0128】
また、本発明では、関心領域の他、取得した動画像から分析される対象物の行動(ジェスチャ)や対象物の所持する物体の判定に基づいて、符号化の品質を制御することもできる。この場合、監視カメラ10は、例えば、物体を振り回す行動を示す人物を認識したことに基づいて、当該人物に係る人物領域を高品質で符号化してもよい。また、監視カメラ10は、人物が所持する刃物を認識したことに基づいて、当該人物に係る人物領域や刃物の検出領域を高品質で符号化してもよい。上記で挙げた行動や物体の認識には、広く利用される画像認識の方法が用いられてよい。