(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024171487
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理装置、受信装置、制御方法、受信方法およびプログラム
(51)【国際特許分類】
H04N 21/236 20110101AFI20241205BHJP
H04N 21/235 20110101ALI20241205BHJP
H04N 5/92 20060101ALI20241205BHJP
H04N 7/18 20060101ALI20241205BHJP
【FI】
H04N21/236
H04N21/235
H04N5/92 010
H04N7/18 U
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2023088521
(22)【出願日】2023-05-30
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【弁理士】
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【弁理士】
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【弁理士】
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【弁理士】
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【弁理士】
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】梅澤 岳央
(72)【発明者】
【氏名】榎田 幸
【テーマコード(参考)】
5C054
5C164
【Fターム(参考)】
5C054CC02
5C054EA01
5C054EA03
5C054EA05
5C054EA07
5C054FC12
5C054FD07
5C054FE12
5C054GB01
5C054GB05
5C164FA07
5C164MA06S
5C164MB11S
5C164MC06S
5C164SA32S
5C164SB06P
5C164SB14P
(57)【要約】
【課題】 本発明の目的は、映像のリアルタイム性を保ちながら適切にメタデータを送信できるようにすることである。
【解決手段】 送信部は符号化部で符号化されたフレームの符号化データと当該フレームに関連付けられるメタデータとを送信する。送信部が第1のフレームの符号化データを送信するタイミングにおいて、オブジェクト検出部における第1のフレームに対するオブジェクトの検出が終了しない場合、メタデータ生成部は、第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータを生成する。送信部は、第1のフレームの符号化データと第2のメタデータとを関連付けて送信し、第1のフレームより後に送信される第2のフレームと第1のメタデータとを関連付けて送信する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
映像を取得する取得手段と、
前記取得手段が取得した映像からオブジェクトを検出するオブジェクト検出手段と、
前記映像に含まれるフレームを符号化する符号化手段と、
前記オブジェクト検出手段によるオブジェクトの検出結果に基づいて前記映像に含まれるフレーム内のオブジェクトを示す情報をメタデータとして生成するメタデータ生成手段と、
前記符号化手段で符号化されたフレームの符号化データと当該フレームに関連付けられるメタデータとを送信する送信手段と
を備え
前記送信手段が第1のフレームの符号化データを送信するタイミングにおいて、前記第1のフレームに対する前記オブジェクト検出手段における検出が終了しない場合、前記メタデータ生成手段は、前記第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータを生成し、
前記送信手段は、前記第1のフレームの符号化データと前記第2のメタデータとを関連付けて送信し、前記第1のフレームより後に送信される第2のフレームと前記第1のメタデータとを関連付けて送信する
ことを特徴とする情報処理装置。
【請求項2】
前記第1のメタデータは前記第1のフレーム内のオブジェクトを示す情報を含むメタデータである、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記第2のメタデータは前記第1のフレーム内のオブジェクトが未検出であるという情報を含むメタデータである、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記オブジェクト検出手段で前記第1のフレーム内のオブジェクトに対するオブジェクト検出処理を中止した場合、
前記メタデータ生成手段は前記第1のフレーム内のオブジェクト検出処理が中止したことを示す情報を含む第3のメタデータを生成する、
こと特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記送信手段が第1のフレームの符号化データを送信するタイミングにおいて、前記第1のフレームに対する前記オブジェクト検出手段における検出が終了しない場合、当該検出が終了する見込み時間を算出する算出手段と、
を有し、
前記第2のメタデータは前記算出手段の算出結果と前記第1のフレーム内のオブジェクトが未検出であるという情報を含むメタデータである
ことを特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記メタデータ生成手段が生成する前記メタデータはARSEIである
ことを特徴とする請求項1の情報処理装置。
【請求項7】
前記メタデータ生成手段が生成するメタデータに含まれる情報は、ARSEIのラベルの文字列によって表現される
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記メタデータ生成手段は、前記第2のメタデータと対応するオブジェクトに関して、前記第1のメタデータと対応できるように情報を追加してARSEIを生成する事を特徴とする請求項1に記載の情報処理装置。
【請求項9】
映像に含まれるフレームの符号化データとメタデータとを受信する受信手段と、
前記フレームの符号化データを復号する復号手段と、
前記復号手段によって復号された前記フレームに前記受信手段で受信したメタデータに基づく前記フレームの情報を表示させる制御を実行する表示制御手段と、
を有し、
前記受信手段が、前記映像に含まれる第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータであって、前記第1のフレームに関連付けられた前記第2のメタデータを受信した場合、前記表示制御手段は前記第2のメタデータに基づいて、前記第1のメタデータに基づく前記第1のフレームの情報を表示させる制御を実行する
ことを特徴とする受信装置。
【請求項10】
前記表示制御手段は、前記受信装置が所定の時間以内に前記第1のメタデータを受信した場合に前記第1のフレームと前記第1のメタデータに基づく前記第1のフレームの情報を重畳させ、
前記受信装置が所定の時間を超えて前記第1のメタデータを受信した場合に、前記フレームと対応するオブジェクトが未検出であることを示す情報を前記第1のフレームに重畳する、
ことを特徴とする請求項9に記載の受信装置。
【請求項11】
前記受信装置はさらに、前記受信手段で受信した画像とメタデータを記録する記録手段を有し、
前記記録手段は前記第2のメタデータを受信した後、前記第1のメタデータまたは前記第3のメタデータを受信した場合、前記2のメタデータを受信した第1のメタデータまたは前記第3のメタデータに置き換えることを特徴とする請求項9に記載の受信装置。
【請求項12】
前記記録手段は検出処理が間に合わない情報とその処理が終了する時間の情報を含むメタデータを受信した場合にFillerSEIを追加して記録することを特徴とする請求項9に記載の受信装置。
【請求項13】
前記第1のメタデータおよび前記第2のメタデータはARSEIであることを特徴とする請求項9に記載の受信装置。
【請求項14】
映像を取得する取得工程と、
前記取得工程において取得した映像からオブジェクトを検出するオブジェクト検出工程と、
前記映像に含まれるフレームを符号化する符号化工程と、
前記オブジェクト検出工程におけるオブジェクトの検出結果に基づいて前記映像に含まれるフレーム内のオブジェクトを示す情報をメタデータとして生成するメタデータ生成工程と、
前記符号化工程で符号化されたフレームの符号化データと当該フレームに関連付けられるメタデータとを送信する送信工程と、
を有し、
前記送信工程が第1のフレームの符号化データを送信するタイミングにおいて、前記第1のフレームに対する前記オブジェクト検出工程における検出が終了しない場合、
前記メタデータ生成工程は、
前記第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータを生成し、
前記送信工程において、前記第1のフレームの符号化データと前記第2のメタデータとを関連付けて送信し、前記第1のフレームより後に送信される第2のフレームと前記第1のメタデータとを関連付けて送信することを特徴とする制御方法。
【請求項15】
映像に含まれるフレームの符号化データとメタデータとを受信する受信工程と、
前記フレームの符号化データを復号する復号工程と、
前記復号工程によって復号された前記フレームに前記受信工程において受信したメタデータに基づく前記フレームの情報を表示させる制御を実行する表示制御工程と、
を有し、
前記受信工程が、前記映像に含まれる第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータであって、前記第1のフレームに関連付けられた前記第2のメタデータを受信した場合、前記表示制御工程は前記第2のメタデータに基づいて、前記第1のメタデータに基づく前記第1のフレームの情報を表示させる制御を実行する
ことを特徴とする受信方法。
【請求項16】
コンピュータに、請求項14に記載の制御方法を実行させるためのプログラム。
【請求項17】
コンピュータに、請求項15に記載の受信方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、メタデータのための情報処理装置に関するものである。
【背景技術】
【0002】
画像内のオブジェクト情報をメタデータとしてストリームに含める技術が出てきている。例えば、ITU-T H.274 Versatile supplemental enhancement information messages for coded video bitstreamsという規格がある。この規格においてARSEI(Annotated Regions Supplemental Enhancement Information)というメタデータがある。ARSEIでは、撮像装置側で認識したオブジェクトの種別や位置を示すデータをストリームに含めることが可能である。ARSEIによって、メタデータと映像のフレームが同期しているストリームを形成可能であるため、そのストリームを受信して映像とオブジェクトの情報を重畳して表示するリアルタイムシステムに関して有用である。
【0003】
一方、ネットワーク帯域の増大と共に、ネットワークカメラの高解像度化、高フレームレート化が進み、カメラ内の処理時間は増大している。また、カメラ内の処理時間は一定でない事などにより符号化した映像とオブジェクトの情報を適切に同期させる事が困難である。特許文献1によると、画像解析処理が次の撮像画像生成までに終了できなかった場合は最後に解析した結果を送信する。また、特許文献2によると複数のメタデータの集合に対してサマリメタデータを作成し、生成時間の違うメタデータに対して後段のシステムからアクセスを容易にすることにより、映像とメタデータの同期を取り易くしている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011-239221
【特許文献2】特開2009-027503
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1では、映像(フレーム)とメタデータからオブジェクトの情報を映像に重畳して表示する際に、フレームとメタデータが適切に関連付けられているか分からない。また、特許文献2においてもオブジェクトの情報を重畳して表示する際に、複雑な処理が必要になりリアルタイム性を保ちながら適切にメタデータを送信できない。
【0006】
そこで、本発明の目的は、映像のリアルタイム性を保ちながら適切にメタデータを送信できるようにすることである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の符号化装置は以下の構成を備える。すなわち、映像を取得する取得手段と、前記取得手段が取得した映像からオブジェクトを検出するオブジェクト検出手段と、前記映像に含まれるフレームを符号化する符号化手段と、前記オブジェクト検出手段によるオブジェクトの検出結果に基づいて前記映像に含まれるフレーム内のオブジェクトを示す情報をメタデータとして生成するメタデータ生成手段と、前記符号化手段で符号化されたフレームの符号化データと当該フレームに関連付けられるメタデータとを送信する送信手段とを備え、前記送信手段が第1のフレームの符号化データを送信するタイミングにおいて、前記第1のフレームに対する前記オブジェクト検出手段における検出が終了しない場合、前記メタデータ生成手段は、前記第1のフレーム内のオブジェクトを示す第1のメタデータを特定するための第2のメタデータを生成し、前記送信手段は、前記第1のフレームの符号化データと前記第2のメタデータとを関連付けて送信し、前記第1のフレームより後に送信される第2のフレームと前記第1のメタデータとを関連付けて送信する。
【発明の効果】
【0008】
本発明によれば、画像のリアルタイム性を保ちながら適切にメタデータを送信できる。
【図面の簡単な説明】
【0009】
【
図1】第1の実施形態に係るブロック図、ハードウェア構成図である。
【
図2】第1の実施形態に係る処理に関する概念図である。
【
図3】第1の実施形態に係るダミーラベルの例、遅延ラベルの例、キャンセルラベルの例を示す図である。
【
図4】第1の実施形態に係るデータ構造の説明図である。
【
図5】第1の実施形態に係るフローチャート図である。
【
図6】第1の実施形態に係る受信装置の表示例である。
【
図8】第2の実施形態に係る処理に関する概念図である。
【
図9】各実施形態に係るハードウェア構成を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面に基づいて説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
【0011】
<第1の実施形態>
本発明の第1の実施形態として
図1と
図2を参照しながら本実施形態に係わる情報処理装置の構成例を示す。
【0012】
本発明の第1実施形態に係る情報処理装置は画像(フレーム)からオブジェクトを検出し、該オブジェクトに関する情報をもとにメタデータを生成し、画像とメタデータを同期させるとともに、多重化してストリームを生成する。メタデータとは画像に付随する情報のことを指し、本実施形態ではメタデータとして例えば、Annotated Regions Supplemental Enhancement Information(以降ARSEIとする)を用いる事ができる。
【0013】
ARSEIをはじめとするメタデータの情報は後述するラベルを更新し、ラベルの文字列によって表現される。
【0014】
図1は本発明の第1実施形態に係る情報処理装置の構成の一例を示すブロック図である。また、
図2は各構成の処理に関する概念図である。
【0015】
情報処理装置100は、画像取得部101、符号化部102、オブジェクト検出部103、検出見込み時間算出部104(算出部)、メタデータ生成部105、ストリーム生成部106および送信部107を有する。
【0016】
画像取得部101(取得部)は動画を構成する複数の画像を外部の撮像装置(不図示)からある周期的な時間にてフレームを取得する。例えば、画像取得部101は201から205のタイミングでフレーム1からフレーム5を取得する。なお、撮像装置が情報処理装置100を含む構成としてもよい。また、画像取得部101が取得する画像は外部の撮像装置(不図示)から取得した画像に限らず、外部のサーバやUSBやDVD、SDカードなどの外部メモリに保存された画像であってもよい。また、画像取得部101は取得した画像を符号化部102およびオブジェクト検出部103へ出力する。
【0017】
符号化部102は、画像取得部101から入力された画像を例えばHEVCで符号化して、ストリーム生成部106へ出力する。HEVCを用いることは一例であり、VVCやAV1、AVC等、他の符号化方式を用いてもよい。本実施形態では、符号化順は画像取得部101から取得した順で符号化部102はフレーム1を期間206において符号化する。同様に、符号化部102はフレーム2を期間207、フレーム3を期間208、フレーム4を期間209、フレーム5を期間210において符号化する。
【0018】
オブジェクト検出部103は、画像取得部101から入力された画像においてフレーム内の動くオブジェクトまたは不動のオブジェクトを検出し、該オブジェクトを特定するID(オブジェクトID)を付与し、メタデータ生成部105に出力する。なお、オブジェクト検出部が処理する画像は、画像取得部101から入力された画像を基に拡大、縮小、フォーマット変換などの画像処理をさらに加えたものでも良い。本実施形態では、オブジェクトの検出順は画像取得部101から取得した順であり、オブジェクト検出部103はフレーム1を期間211においてオブジェクト検出処理をおこなう。同様に、オブジェクト検出部103はフレーム2を期間212、フレーム3を期間213、フレーム4を期間214においてオブジェクト検出処理をおこなう。ここで、オブジェクトIDの付与は、例えば連続した画像から検出されたオブジェクトに対してある範囲の数字(例えば1から255)の中のいずれかをそれぞれ一意に対応させる。
【0019】
また、オブジェクト検出部103は、過去フレームで検出されたオブジェクト群と前記検出されたオブジェクトに対して同一性を判断し、例えば後述の同一オブジェクトとして過去フレームで付与されたオブジェクトIDを使用してもよい。ここで、同一性の判断は以下のように行ってもよい。オブジェクト検出部103は、過去既に検出されたオブジェクト群から今回のオブジェクト種別と同じ、または複数のオブジェクト種別に対しての類似スコア分布が類似したオブジェクトのグループであるオブジェクトサブグループを作る。オブジェクト検出部103はそのサブグループに属する各オブジェクトの位置と現在検出したオブジェクトの位置と、サブグループに属する各オブジェクトの検出された時間と現在検出されたオブジェクトの時間から該オブジェクトの速度ベクトルを求める。オブジェクト検出部103はオブジェクトIDを付与されている各オブジェクトと現在検出したオブジェクトとの速度ベクトルの変化量が閾値以下になり、変化量が最も小さいものを同一オブジェクトと判断する。
【0020】
さらに、オブジェクト検出部103はオブジェクトの種別(オブジェクト種別)を特定する。また、オブジェクトの検出が終了した場合、オブジェクトの位置情報とオブジェクト種別を検出見込み時間算出部104(算出部)とメタデータ生成部105へ出力する。オブジェクト種別とは人(男性、女性)、車、動物、不動体、その他、などの物体の種別でよい。人や車を画像内で検出し、その位置を特定する技術は、例えばテンプレートマッチングなど既存の技術を用いて行う。テンプレートマッチング以外にもAIを利用して検出する方法を用いてもよい。
【0021】
本実施形態においてオブジェクトの検出とは、オブジェクトID、オブジェクの位置情報ならびにオブジェクト種別を特定することであるものとする。また、本実施形態においてオブジェクト検出の終了とは、フレーム毎に各オブジェクトの検出をおこない、オブジェクトごとに位置情報とオブジェクト種別を検出見込み時間算出部104とメタデータ生成部105へ出力することであるものとする。また、オブジェクト検出部103は検出処理中のフレームにおけるすべてのオブジェクトの検出処理が終了していない状態で、画像取得部101からオブジェクト検出部103が新たな画像を受信すると、新たな画像をバッファに格納する。例えば、フレーム2(212)の検出処理中に、画像取得部101からフレーム3(213)を受信すると、フレーム3をバッファに格納する。フレーム2のオブジェクト検出処理が終了すると、バッファに格納されたフレーム3のオブジェクト検出処理を開始する。画像取得部101から受信した新たな画像をオブジェクト検出部103が、バッファに格納できない場合は、現在オブジェクト検出処理を行っているフレームのオブジェクト検出を中止し、バッファに格納しているフレームのオブジェクト検出処理を開始する。例えば、バッファにフレーム4(214)が格納されており、フレーム3(213)のオブジェクト検出処理を行っているときに、フレーム5を受信した場合、フレーム3のオブジェクト検出処理を中止し、フレーム5(215)をバッファに格納する。オブジェクト検出を中止した場合、オブジェクト検出部103は、該フレームにおける検出の処理状況を検出見込み時間算出部104へ出力する。さらに、オブジェクト検出処理が中止したという情報(検出中止情報)をメタデータ生成部105に送信する。ここで、検出処理状況は該フレームの背景差分でテンプレートマッチングが完了している領域の面積とテンプレートマッチングが完了していない領域の面積から求める。
【0022】
検出見込み時間算出部104(算出部)はオブジェクト検出部103から出力されたオブジェクトに関する情報と情報処理装置100の状態からフレーム毎に検出処理が終了するまでにかかる時間である検出見込み時間を計算する。さらに検出見込み時間算出部104(算出部)は算出結果をメタデータ生成部105に出力する。例えば、オブジェクト検出部103の現在のCPU使用率と未検出の面積とをかけた値を該フレームで検出されたオブジェクトの単位面積当たりの検出時間の平均とオブジェクト検出部103の平均CPU使用率をかけた値で割る事によって求めてもよい。
【0023】
メタデータ生成部105は、オブジェクト検出部103から入力されたオブジェクトの位置情報とオブジェクト種別、オブジェクトID、検出見込み時間算出部104から取得した算出結果に基づいてメタデータを生成する。さらに、メタデータ生成部105は生成したメタデータをストリーム生成部106へ出力する。本実施形態においてメタデータの形式は例えばARSEIであるが、他の形式でもよい。さらに本実施形態のメタデータは基本的にはメタデータ生成部105がフレーム毎に生成するが、オブジェクトや後述のラベルを更新する必要がない場合、メタデータを生成しなくても良い。オブジェクトの登録は後述する手順で新規オブジェクトIDを新規ラベルIDのラベルで登録し、オブジェクトの情報と前述のラベルのIDを用いてオブジェクトの更新をすることで実現できる。ここで、送信部107がそのオブジェクトに関連付けられた符号化データを送信するタイミングにオブジェクトの検出処理が終了しない場合は、メタデータ生成部105は該オブジェクトの未検出情報(詳細は後述)とユニークIDからなるラベルを登録する。例えば、フレーム2とフレーム2に対応するメタデータを送信するタイミング220でオブジェクト検出(212)が終了しない場合について説明する。このとき、メタデータ生成部は
図3(a)のように、未検出であることを示す未検出識別子、検出見込みフレーム数、ユニークIDからなるラベルを登録することでメタデータ(第2のメタデータ)を生成する。フレーム2に対応するオブジェクトのオブジェクト種別が送信タイミング220で未検出なことから、このメタデータは未検出識別子を含んでおり、本実施形態ではこのような未検出識別子を含むラベルをダミーラベルと呼ぶ。さらにオブジェクトIDとそのオブジェクトの位置情報が判明していれば、ダミーラベルに該オブジェクトの位置をいれてオブジェクトを更新してもよい。また、送信タイミング220より後にフレーム2に対応するオブジェクトのオブジェクト検出が終了した場合について説明する。この時、
図3(b)のように、遅延して検出終了したことを示す遅延識別子と、ダミーラベルのユニークIDと検出したオブジェクト種別で構成したラベルを登録することでメタデータ生成部105はメタデータ(第1のメタデータ)を生成する。本実施形態では対象のフレームの送信タイミングより後に送信するラベルなので遅延ラベルと呼ぶ。また、オブジェクト検出部103から検出中止情報が入力された場合、対応するダミーラベルが分かるようにラベルを登録しメタデータを生成する。例えば、
図3(c)のように中止識別子とそのダミーラベルのユニークIDが含まれたラベル(検出中止ラベル)を登録することでメタデータ生成部105はメタデータ(第3のメタデータ)を生成する。または、メタデータ生成部105は、対応するフレームに関連付けられたダミーラベルをさがし、後述する手順でダミーラベルをキャンセルする(ラベル情報の消去)。
【0024】
ストリーム生成部106は、符号化部102とメタデータ生成部105から出力されたデータに基づいて送信データを生成し、送信部107へ送信する。このとき、符号化部102が出力した符号化データと、メタデータ生成部105が出力したメタデータは対応付けられており、対応付けられた符号化データとメタデータから送信データを生成することを“同期する”とする。例えば、219のタイミングでフレーム1に関する符号化データ(206)と、フレーム1内のオブジェクトを示すオブジェクト検出情報からなるメタデータ(211)は対応付けられているため同期されているという。一方、220のタイミングではフレーム2のオブジェクト検出は終了しておらず、220では未検出識別子からなるメタデータがストリーム生成部に出力されている。このとき、220では該メタデータとフレーム2の符号化データは“同期されていない“とする。ここで、送信データとはストリームであり、例えばフラグメントMP4(fMP4)などコンテナに入ったHEVCのNALユニット群である。
【0025】
送信部107は、ストリーム生成部106が出力した送信データを外部装置(不図示)へ送信する。
【0026】
ここで、メタデータを生成する処理についてフローチャート
図3および
図4を用いて説明する。
【0027】
ARSEIのデータ構造を表すデータ構造図である
図4で、ARSEIに係るフィールドとシンタックスを簡単に説明する。
【0028】
401はARSEIのデータ構造を疑似コードとして書かれているものである。灰色の列はデータ構造の制御に係る部分であり、白色の列は実際のデータが格納される部分であり、そのデータが存在する場合は灰色のデータ構造制御に従って復号される。ARSEIの特長として、255byteまでの情報を格納できるラベル(404)を特定するラベルID(403)、画像中のオブジェクトを識別するオブジェクトID(406)、および該オブジェクトの位置を示すバウンディングボックスの更新が可能である。ここで、ラベル ar_label(404)、ラベルID ar_label_Idx(403)である。オブジェクトID ar_object_Idx(406)である。さらにオブジェクトIDの更新にともない、オブジェクトIDに対応するラベルを決定できる。そしてラベルID ar_label_Idx(403)とオブジェクトID ar_object_Idx(406)は0から255までの数字を(最大256個)インデックスとして登録する事が可能である。
【0029】
新たにラベルを登録したい場合、ar_num_label_updates(402)を登録/更新したい数にセットし、ar_label_Idx(403)に更新したいラベルのラベルIDを入れて、ar_label(404)を更新する。ar_label(404)は255byte以下のゼロではないデータが格納できる。この一連の処理を“ラベルを登録する”と呼ぶ事にする。
【0030】
同様に新たにオブジェクトを登録したい場合、ar_num_object_updates(405)を登録/更新したい数にセットして、ar_object_Idx(406)に更新したいオブジェクトに対応するオブジェクトIDを入れる。さらにar_object_label_update_flag(407)を1にし、該ar_label(404)を特定するar_label_Idx(403)のインデックスを入力すると、オブジェクトと対応するラベルが更新される。以上のようにラベルを更新することで新たにオブジェクトが登録される。
【0031】
また、オブジェクトの位置を更新(登録)したい場合、ar_object_Idx(406)に更新したいオブジェクトIDを入れて、ar_boudeing_box_update_flag(409)を1にする。410に位置情報を入力することで、該オブジェクトの位置を更新できる。このようにオブジェクトの位置または対応するラベルの更新を“オブジェクトを更新する”と呼ぶ事にする。
【0032】
また、ar_label_cancel_flag(411)を1にすることで、対応するラベルIDのラベル情報の消去することが可能である。同様に、ar_object_cancel_flag(412)を1にすることで、対応するオブジェクトIDのオブジェクト情報を消去する事ができる。ここでいうオブジェクト情報とは対応するオブジェクトの位置情報や対応するラベル情報などである。
【0033】
図5は本発明の第1実施形態に係る情報処理装置100がメタデータを生成するまでのフローチャートである。
図5の処理は情報処理装置100の電源がONになり、しかるべき設定がなされ、設定されたフレームレートで定められるタイミング(配信フレームレート)で画像が周期的に生成される毎にメタデータ生成部105が処理をおこなうものである。メタデータ生成部105は符号化部102の出力と同期したメタデータを生成するため、以下の処理を行う。ここで、簡単の為、フレームMを処理するタイミングで動作しているとする。
【0034】
ステップS501にてARSEIのラベルを更新する必要があるか判断する。必要な場合はステップS502、必要でない場合はステップS509へ進む。ここでラベルを更新する必要がある場合とは以下の場合である。新しいオブジェクト種別が検出された、未検出のオブジェクトがあることを示す情報を受信した、フレームMより前にフレームMと同様のオブジェクトIDであって、ユニークIDが含まれたメタデータが生成されている場合である。新しいオブジェクト種別が検出された場合とは、オブジェクト検出部から受信したオブジェクト種別がar_label[](404)に含まれる既存のオブジェクト種別の中になかった場合である。未検出のオブジェクトがあることを示す情報を受信した場合とは、検出見込み時間計算部104より、フレームM内のオブジェクトのオブジェクト検出処理が送信部107の送信タイミングで終了しない情報を受信した場合である。また、フレームMより前に対応するオブジェクトIDのユニークIDからなるメタデータが生成されている場合とは、過去のフレームにおいてフレームM内のオブジェクトに対応するダミーラベルが生成されている場合である。本実施形態において、ダミーラベルが生成されている場合は、ダミーラベルが生成されているかつ対応するオブジェクトの検出処理が終了している場合と、ダミーラベルが生成されているかつ対応するオブジェクトの検出が中止された場合の2種類ある。
【0035】
ステップS502でオブジェクト検出部103の出力により、未検出のオブジェクトがあるかどうか判断する。未検出のオブジェクトがある場合はステップS503へ、ない場合はステップS504へ進む。
【0036】
ステップS503で更新対象のラベルに対して、検出結果が送信されるタイミングと、更新対象ラベルにユニークなIDがついて受信装置での検索がしやすいようにラベルを構成してステップS504へ進む。例えば、
図3(a)のような未検出識別子(未検出情報)と検出見込みフレーム数とユニークIDでラベルを構成(ダミーラベル)すればよい。
【0037】
ステップS504で同期していないラベルがあるか判断する。同期していないラベルがある場合は、ステップS505へ、ない場合はステップS506へ進む。ここで同期していないラベルとは、オブジェクト検出結果がある場合かつそのオブジェクトに対応するフレームがフレームMより前のフレームに関するものであった場合である。
【0038】
ステップS505でオブジェクト検出結果と対応するダミーラベルを特定するためのユニークIDと、検出したオブジェクト種別を含むようにラベルを構成してステップS505へ進む。例えば
図3(b)のような遅延識別子(遅延情報)、ユニークID、検出結果のオブジェクト種別でラベルを構成(遅延ラベル)すればよい。
【0039】
ステップS506でオブジェクト検出部103の検出結果に基づいて検出を中止したオブジェクトの情報があるか判断する。検出中止情報がある場合はステップS507へ進み、ない場合はステップS508へ進む。ここで、検出の中止とは、オブジェクト検出部103が検出結果をフレームMより前のフレームで全領域もしくは一部領域に関して検出結果を出力できない状態であり、本実施形態においては検出中止情報が出力された場合を示す。
【0040】
ステップS507で検出を中止した情報と対応するダミーラベルを特定するためのユニークIDでラベルを構成してステップS508へ進む。例えば
図3(c)のように中止識別子とユニークIDでラベルを構成(検出中止ラベル)すればよい。
【0041】
ステップS508で更新が必要なラベルの数を判断し、ar_num_label_update(403)に更新が必要なラベル数nを入れて、ステップS509へ進む。ステップS508で、ラベルと対応しているラベルIDの数をmとした場合に、n+m>255の場合はk=n+m-255個のラベルに対して既存のラベルID m個からk個更新するか判断する。例えば、既存のラベルm個のうちp個が
図3(a)で表すような未検出情報を含むラベルであった場合ラベルの内容を結合する事によって、1個まで圧縮する。ここで、ラベルの結合に“:”など結合子を定義してストリング合成してもよい。ここで、min(p-1,k)個のラベルを更新する。k>p-1の時、さらにk-p+1個のラベルの更新について以下のように判断すればよい。現在画面に存在するオブジェクトに紐づいたラベル数をrとした場合、q=m-p-r個のラベルが更新候補で、例えばオブジェクト更新で参照したされた最後フレームが古い順にラベルを更新すればよい。ここで、(n-r-254)個のラベルは更新する事ができないが、現在画面に存在するオブジェクトに紐づいたラベルq個と前記更新する事ができないラベル(n-r-254)個から優先順位を決定し、新たにq個更新すればよい。例えば、予め優先順位のリスト(人、車、…など)を作成しておいて、ラベルの内容がリストに入っていなければ優先順位のリストの最下位に追加し、リスト準に優先順位を決定してもよい。以上のようにステップS508では更新するラベルの数を新たにnとする。
【0042】
ステップS509でn個のラベルIDを決定し、更新が必要なラベルを更新して、ステップS510へ進む。
【0043】
ステップS510でオブジェクトの更新が必要か判断して、必要ならステップS511へ進み、必要がないのであれば、終了となる。ここで、オブジェクトの更新が必要な条件は例えばオブジェクト検出部の出力で新たなオブジェクトが検出された、種別が変化した、位置が変わった等でよい。
【0044】
ステップS511で更新が必要なオブジェクトを更新して終了する。
【0045】
以上の方法を用いてメタデータ生成部105はメタデータを生成し、ストリーム生成部106にメタデータを出力する。
【0046】
ストリーム生成部106は符号化部102から入力した符号化データとメタデータ生成部から入力したメタデータを結合して、例えばフラグメントMP4のコンテナを形成して送信部107へ出力する。
【0047】
送信部107は情報処理装置100の外の接続先へストリームを送信する。
【0048】
以上の構成を有することで、フレームを送信するタイミングでそのフレーム内のオブジェクトの検出処理が終了していない場合でも、そのメタデータを特定するためのメタデータを生成することで受信装置が第1のフレームと適切なメタデータを重畳しやすくなる。
【0049】
次に、情報処理装置100から送信されるストリームを受信し、ストリーミング中の画像と、メタデータを解析して得られたバウンディングボックスの位置とラベルから生成した解析画像を重畳して表示する受信装置1000の処理を
図1を用いて説明する。
【0050】
図1は本発明の第1実施形態に係る受信装置の構成の一例を示すブロック図である。
【0051】
受信装置1000は、受信部1001、情報分離部1002、復号部1003、画像表示バッファ1004、メタデータパース部1005、メタデータバッファ1006、重畳部1007および表示制御部1008からなる。
【0052】
受信部1001は受信装置1000の外からストリームを受信する。ストリームの送信元は例えば第1の実施形態に係る情報処理装置とする。受信部1001はさらに受信バッファを持っていてもよいが、情報分離部1002の後段に受信バッファがあってもよい。ここで、受信部1001は簡単の為、1フレーム分のストリームを受信したら、情報分離部1002へ出力するとする。
【0053】
情報分離部1002は受信部1001より1フレーム分のストリームを受け取り、コンテナから画像とメタデータを分離する。ここで、例えばコンテナがフラグメントMP4(fMP4)ならば、情報分離部1002はMDAT BOX中のバイナリデータからSEIを抽出してメタデータパース部1005に出力し、前記バイナリデータを1003復号部へ出力する。
【0054】
復号部1003は情報分離部1002から受信したストリームを受けて復号し、画像表示バッファ1004に出力する。
【0055】
画像表示バッファ1004は、復号部1003から出力された画像をバッファに格納し、画像が表示可能になった場合に、重畳部1007へ出力する。ここで、画像表示バッファは所謂HEVCにおけるDPB(復号ピクチャバッファ)と同じであると考えてもよい。HEVCのレベルに応じてその最大DPB数は規定される。ここで、画像が表示可能になった場合とは、画像表示バッファ1004内の画像と対応づけられたメタデータをメタデータバッファ1006が取得した場合である。
【0056】
メタデータパース部1005は情報分離部1002から抽出されたSEIをパースする。パース結果としてARSEIを抽出し、1フレーム内に表示すべきバウンディングボックスとそのラベル情報をメタデータバッファ1006に出力する。ここでARSEIのラベル情報として未検出情報、すなわち
図3(a)のようなダミーラベルを取得した場合に、検出見込みフレーム数とユニークIDを獲得する。このとき検出見込みフレーム数が所定の時間以内だった場合、ラベル情報を書き換えることができるように該ラベルに書き込む。所定の時間以上だった場合、オブジェクト種別が未検出である情報を、メタデータバッファ1006に出力する。ここで、所定の時間とは受信した検出見込みフレームが画像表示バッファ1004の大きさから算出される表示までにかかる時間をTとした場合として説明する。遅延ラベルをTより遅くに受信する場合はオブジェクト種別が未検出である情報をメタデータバッファ1006に出力する。Tの時間以内に遅延ラベルを受信する場合はメタデータバッファ1006に該遅延ラベルのオブジェクト種別検出結果を書き換える事ができるように書き込む。例えばラベルIDの最大数とラベルの最大バイトをかけた領域を予めメタデータバッファに確保し、書き込めばよい。また、画像表示バッファ1004以外に例えば受信バッファなどの受信が遅れる要因になるバッファがある場合は、それらを合算(追加)してTとしてもよい。
【0057】
メタデータバッファ1006はメタデータパース部よりバウンディングボックスとそのラベル情報を蓄積する。画像表示バッファ1004から画像が重畳部1007に出力するときに同期して同じフレームのメタデータを重畳部1007へ出力する。ここで、メタデータパース部1005から
図3(b)のような遅延ラベルが入力された場合、対応するダミーラベルをバッファ内から検索して該遅延ラベルに基づいたオブジェクト検出結果に書き換え、ラベルを更新する。本実施形態ではユニークID等を用いて遅延ラベルとダミーラベルとを対応させる。メタデータパース部1005から
図3(c)のような検出中止ラベルが入力された場合、対応するダミーラベルをバッファ内から検索し、オブジェクト種別が未検出という検出結果に書き換えるよう、ラベルを更新する。
【0058】
重畳部1007は画像表示バッファ1004とメタデータバッファ1006の出力から画像に検出した対象にバウンディングボックスとそのオブジェクト種別を重畳した画像を表示部に出力する。ここでメタデータに未検出情報が入っていた場合は、検出された情報と共に検出していない領域があるという情報を表示制御部は重畳するよう制御してもよい。
【0059】
表示制御部1008は重畳部1007から入力された画像を定められたタイミングで表示部(不図示)に表示する制御を実行する。ここで定められたタイミングとは、例えば符号化データの中に入ったデータやコンテナの情報を参照すればよい。また、オブジェクトの位置情報が格納されており、未検出情報を示すラベルが参照されていれば、未検出のオブジェクト位置情報、すなわちその領域のオブジェクトが未検出であることをラベル606にて表示する事が可能となる。例えば
図6のように表示した画像600に検出されたオブジェクトのバウンディングボックス601、603とそれぞれのオブジェクト種別を示すラベル602、604と共にバウンディングボックス605で未検出のオブジェクト位置情報が表示できる。すなわちその領域のオブジェクトが未検出であることをラベル606にて表示する事が可能となる。係る構成の画像表示システムは、受信装置が情報処理装置からストリームを受け取り、表示バッファ内で検出データが受信できた場合に正しく表示に検出結果を重畳する事ができ、また表示バッファを超えている場合には未検出の表示が可能になる。
【0060】
<第2の実施形態>
本発明の第2の実施形態として
図7から
図8を参照しながら本実施形態に係わる表示システムの構成例を示す。
【0061】
本発明の第2の実施形態に係る表示制御システムは本発明の第1の実施形態に係る情報処理装置と受信装置と、画像内のオブジェクトの位置にオブジェクト種別などの情報を重畳して表示、または録画(記録)する録画装置で構成されたシステムである。
【0062】
図7は表示制御システムの構成図で、表示制御システム700は情報処理装置701、受信装置702、録画装置703(記録部)から構成される。なお、情報処理装置701は第1の実施形態で説明した情報処理装置100、受信装置702は受信装置1000と同じ構成であり、重複する説明は割愛する。また、録画装置703(記録部)は説明の為に分離しているが、受信装置702の中にあっても構わない。
【0063】
情報処理装置701は取得した画像と画像内のオブジェクトに関する位置情報やオブジェクト種別などの情報をメタデータとして受信装置702へ出力する。ここで、前記メタデータをARSEIとして画像と同期して出力するものとする。ここで、第1の実施例で示したように、検出が間に合わなかった場合に第2のメタデータ(ダミーラベルからなるメタデータ)を生成し、受信装置側に伝達する。また、遅延して検出された情報は対応する第2のメタデータが分かるように構成して伝達する。
【0064】
受信装置702は前記701の出力を受信して、画像と共にオブジェクトの位置にバウンディングボックスとオブジェクト種別などの情報を重畳して表示する。また、録画装置703へ情報処理装置701から入力されたストリームを出力する。受信装置702は第2のメタデータを含むARSEIを画像が表示する時期まで保持し、表示される時点までに前記遅延情報を示すラベルを含んだARSEIを受信した場合、書き換える事で正確なオブジェクト情報の重畳が可能となる。ここで、情報処理装置701で符号化される符号化方法によって受信装置のDPB(復号ピクチャバッファ)の最小値は変化する。従って、予め検出時間が長くなる傾向が予想された場合はBピクチャ等を使用してDPBを大きくし、符号化効率を上げた符号化方式を採用してもよい。
図8はBピクチャを用いた場合の情報処理装置701と受信装置702の代表的な構成要素の処理を時間に沿って示した模式図である。横軸が時間を表していて、右に行くほど時間が進んだ状態を意味する。縦軸にそれぞれシステムの代表的な構成要素が並んでおり、矩形の横幅は前記構成要素が処理した時間を表す。情報処理装置701からは画像取得部101、符号化部102、メタデータ生成部105と送信部107、受信装置1702からは受信部501と表示部508を抽出している。
【0065】
画像取得部101はある周期的な時間にて撮像データ801、802,803などを取得する。ここで、簡単のため、801をフレーム1、802をフレーム2、803をフレーム3と呼ぶ。
【0066】
符号化部102は、各フレームを符号化するにあたり、例えばIBPIBPIといったようなGOP構成を持つように符号化するものとする。ここでIとは自フレームのみで復号が可能な符号化方法で構成されたフレームである。Bとは自フレームの他に複数のフレームを参照して復号が可能になる符号化方法で構成されたフレームである。Pとは自フレームの他に1枚のフレームを参照して復号が可能になる符号化方法で構成されたフレームである。ここでは、Pは前(過去)のIフレームを参照して符号化し、Bは1枚前(過去)のフレームと1枚先(未来)のフレームを参照するとする。フレーム1をIフレームで符号化し、フレーム2をBフレームで符号化して、フレーム3をPフレームで符号化した場合、符号化順は参照フレームの関係で1フレーム目804、3フレーム目805、2フレーム目806となる。
【0067】
同様にメタデータ生成部105も符号化データと同期したARSEIを生成する為、生成順は、1フレーム目のSEI(804)、3フレーム目のSEI(808)、2フレーム目のSEI(809)となる。ここで、例えば3フレーム目のSEI(808)がオブジェクト検出に時間がかかり、送信タイミングに間に合わなかったとした場合とすると、送信部107に
図3(a)で示すようなラベルを含むダミーラベルからなる第2のメタデータを出力する。送信タイミングに間に合わなかった検出情報は2フレーム目の検出情報が含まれるSEI(809)と共に
図3(b)のような遅延ラベルを含んだ第1のメタデータを構成してストリーム生成部106へ出力する。
【0068】
ストリーム生成部106は1フレーム目の符号化データ804とSEI(807)から送信データ810を生成してあるタイミングAに送信する。タイミングBにおいては、3フレーム目の符号化データ805と3フレーム目の検出情報と未検出情報が入った第2のメタデータから送信データ811を生成して送信する。同様にタイミングCでは2フレーム目の符号化データと3フレーム目の遅延した検出情報と2フレーム目の検出情報が入った第1のメタデータから送信データを生成し送信部107へ出力する。
【0069】
送信部107はストリーム生成部106が送信した送信データを受信装置702へ送信する。
【0070】
一方、受信装置702では受信部501は送信データ810、811、812を順番に受信する。
【0071】
表示部508は受信データを復号して1フレーム目813、2フレーム目814、3フレーム目815とそれぞれのフレームに付属したメタデータからオブジェクトの情報(オブジェクト情報)を重畳して表示する。ここで、1フレーム目の重畳データ816は810のメタデータから生成し、2フレーム目の重畳データ817は812のメタデータから生成できる。ここで、検出が間に合わなかった3フレーム目でおいても、表示タイミングにおいては811の第2のメタデータと812の第1のメタデータに含まれる情報から重畳データが作成可能である。このようにして正しく画像と検出されたオブジェクト情報を重畳して表示する事ができる。
【0072】
録画装置703(記録部)は、受信装置702から出力されたストリームをハードディスクなどのメディアに記録していく。ここで、入力されたストリームをパースして、前述のダミーラベルを受信した場合は、前述のダミーラベルと共に例えばHEVCの規格にあるFillerSEIを書き込んでおいてもよい。また入力されたストリームをパースして、前述の遅延ラベルを受信した場合は、対応するダミーラベルを記録したデータの中から探し、ダミーSEIを正常のARSEIに書き換える。ここで、FillerSEIの長さを調整して書き込む領域を確保してもよい。
【0073】
係る構成で構成された表示制御システムは情報処理装置から送信されるストリームを受信装置で受信して、表示バッファ内で検出データが受信できた場合に正しく表示に検出結果を重畳する事ができる。さらに表示バッファを超えている場合には未検出の表示が可能になり、検出情報が正しく画像に同期して録画(記録)をする事ができる。
【0074】
(その他の実施例)
次に、
図9を用いて、各実施形態の情報処理装置100、受信装置1000、録画装置703の各機能を実現するためのハードウェア構成を説明する。
【0075】
RAM(RAndom Access Memory)902は、CPU(CentrAl Processing Unit)901が実行するコンピュータプログラムを一時的に記憶する。また、RAM902は、通信インターフェイス904を介して外部から取得したデータ(符号化データ)などを一時的に記憶する。また、RAM902は、CPU9001が各種の処理を実行する際に用いるワークエリアを提供する。また、RAM902は、例えば、フレームメモリとして機能したり、バッファメモリとして機能したりする。
【0076】
CPU901は、RAM902に格納されるコンピュータプログラムを実行する。CPU以外にも、DSP(DigitAl SignAl Processor)等のプロセッサやASIC(ApplicAtion Specific IntegrAted Circuit)を用いてもよい。
【0077】
HDD(Hard Disk Drive)903は、オペレーティングシステムのプログラムや映像データを記憶する。また、HDD903は、コンピュータプログラムを記憶する。
【0078】
HDD903に保存されているコンピュータプログラムやデータは、CPU901による制御に従って、適宜、RAM902にロードされ、CPU901によって実行される。HDD以外にもフラッシュメモリ等の他の記憶媒体を用いてもよい。バス905は、各ハードウェアを接続する。バス905を介して各ハードウェアがデータをやり取りする。以上が各実施形態におけるハードウェア構成である。
【0079】
なお、本発明は、上述の実施形態の1以上の機能を実現するプログラムを1つ以上のプロセッサが読出して実行する処理でも実現可能である。プログラムは、ネットワーク又は記憶媒体を介して、プロセッサを有するシステム又は装置に供給するようにしてもよい。また、本発明は、上述の実施形態の1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0080】
また、各実施形態における情報処理装置、受信装置、録画装置は、
図9に示すハードウェアにより実現してもよいし、ソフトウェアにより実現することもできる。
【0081】
また、本発明は以上説明した各実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において種々変更が可能である。例えば、各実施形態や変形例を組み合わせたものも本明細書の開示内容に含まれる。
【符号の説明】
【0082】
100 情報処理装置
101 画像取得部
102 符号化部
103 オブジェクト検出部
105 メタデータ生成部
107 送信部
1000 受信装置
700 表示制御システム