IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

特許7474300ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム
<>
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図1
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図2
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図3
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図4
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図5
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図6
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図7
  • 特許-ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-16
(45)【発行日】2024-04-24
(54)【発明の名称】ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム
(51)【国際特許分類】
   H04N 19/167 20140101AFI20240417BHJP
   H04N 21/4728 20110101ALI20240417BHJP
   H04N 21/8352 20110101ALI20240417BHJP
   H04N 21/8405 20110101ALI20240417BHJP
   H04N 19/44 20140101ALI20240417BHJP
【FI】
H04N19/167
H04N21/4728
H04N21/8352
H04N21/8405
H04N19/44
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2022167409
(22)【出願日】2022-10-19
(65)【公開番号】P2023064072
(43)【公開日】2023-05-10
【審査請求日】2023-09-22
(31)【優先権主張番号】21204471
(32)【優先日】2021-10-25
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ダニエルソン ファン, シン
(72)【発明者】
【氏名】ダニエルソン, ニクラス
【審査官】間宮 嘉誉
(56)【参考文献】
【文献】特開2007-300657(JP,A)
【文献】特表2007-504746(JP,A)
【文献】特表2018-512913(JP,A)
【文献】国際公開第2010/033642(WO,A2)
【文献】米国特許出願公開第2018/0270287(US,A1)
【文献】特表2020-537262(JP,A)
【文献】特開2001-160062(JP,A)
【文献】THANG, Truong Cong et al.,Spatial Scalability of Multiple ROIs in Surveillance Video,JVT-O037,ITU,2015年04月14日,pp.1-13,[online],[retrieved on 2024-03-27],Retrieved from the Internet: <URL: https://www.itu.int/wftp3/av-arch/jvt-site/2005_04_Busan/JVT-O037.doc>
【文献】LIU, Qiyu et al.,RIDE: A System for Generalized Region of Interest Discovery and Exploration,Proc. IEEE 36th International Conference on Data Engineering 2020,米国,IEEE,2020年05月27日,pp.1738-1741,[online],[retrieved on 2024-03-27],Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/9101544>,https://doi.org/10.1109/ICDE48307.2020.00158
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/10- 7/173
H04N 7/20- 7/56
H04N 19/00-21/858
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ビデオデータ内の検索の実施に関連して前記ビデオデータを復号するための方法であって、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータを受信することであって、ビデオフレーム内の独立して復号可能な関心領域は、前記関心領域と空間的にオーバーラップする前記符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで復号可能である、符号化されたビデオデータを受信することと、
前記符号化されたビデオデータとは別のデータエンティティとして、符号化されたビデオフレームの識別子と、前記符号化されたビデオフレーム内の各関心領域の識別子と、前記符号化されたビデオフレーム内のどの関心領域が独立して復号可能であるかの識別情報とを含むデータユニットを各々が含むメタデータを受信することであって、
前記符号化されたビデオデータには、前記メタデータにおいて独立して復号可能であると識別された各関心領域の前記識別子を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報が埋め込まれている、メタデータを受信することと、
前記符号化されたビデオデータ内の関心領域間の検索に関する検索クエリを受信することと、
前記検索クエリの受信に応答して、独立して復号可能であると識別された1つ又は複数の関心領域の識別子、及びそれらが存在する前記符号化されたビデオフレームを発見して提供するために、前記メタデータ内で検索することと、
符号化されたビデオフレーム内に存在する発見された領域ごとに、
前記符号化されたビデオデータに埋め込まれた前記情報を使用して、前記関心領域の前記識別子に関連付けられたコーディングユニットのセットを識別し、
前記符号化されたビデオフレームの前記識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ前記符号化されたビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、前記関心領域に対応する復号されたビデオデータを生成することと
を含む、ビデオデータを復号するための方法。
【請求項2】
前記メタデータは、前記関心領域の属性をさらに示し、前記検索クエリは、特定の属性を有する前記符号化されたビデオ内の関心領域間の検索に関連し、
前記検索することは、独立して復号可能で、前記検索クエリの前記特定の属性と一致する属性を有すると識別された1つ又は複数の関心領域を発見するために、前記メタデータ内で検索することを含む、
請求項1に記載のビデオデータを復号するための方法。
【請求項3】
前記検索クエリは、特定の属性を有する前記符号化されたビデオデータ内の関心領域間の検索に関し、前記方法は、
前記関心領域に対応する前記復号されたビデオデータを分析して、それが前記検索クエリの前記特定の属性と一致するかどうかを判定すること
をさらに含む、請求項1に記載のビデオデータを復号するための方法。
【請求項4】
前記メタデータにおいて独立して復号可能であると識別された関心領域の識別子に関連付けられている前記符号化されたビデオデータ内のコーディングユニットがイントラ符号化される、請求項1に記載のビデオデータを復号するための方法。
【請求項5】
ビデオデータを符号化するための方法であって、
関心領域が存在するビデオフレームを含むビデオデータを受信することと、
前記関心領域の識別子及び前記関心領域が存在する前記ビデオフレームの識別子を含む第1のメタデータを受信することと、
前記受信した第1のメタデータを使用して、それらの各々のうちの1つ又は複数のビデオフレーム及び1つ又は複数の関心領域を選択することと、
符号化されたビデオデータを生成するために前記ビデオデータを符号化することであって、各選択されたビデオフレーム及びその中の各選択された関心領域の前記符号化は、
前記関心領域を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつ前記ビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、前記関心領域と空間的にオーバーラップする、前記コーディングユニットのセット内の前記ビデオフレームのビデオデータを符号化すること、
前記関心領域の識別子を前記関心領域と空間的にオーバーラップする前記コーディングユニットのセットに関連付ける情報を、前記符号化されたビデオデータに埋め込むこと、並びに
前記関心領域の前記識別子、前記ビデオフレームの識別子、及び前記関心領域が独立して復号可能であるとする識別情報を含む第2のメタデータを生成することであって、前記第2のメタデータは、前記符号化されたビデオデータとは別個のデータエンティティである、第2のメタデータを生成すること
を含む、ビデオデータを符号化することと
を含む、ビデオデータを符号化するための方法。
【請求項6】
前記選択された1つ又は複数のビデオフレームは、関心領域が存在する前記ビデオフレームの厳密なサブセットを含む、請求項5に記載のビデオデータを符号化するための方法。
【請求項7】
前記受信した第1のメタデータは、共通トラックに属するものとして後続のビデオフレーム内の複数の関心領域をさらに識別し、前記選択された1つ又は複数のビデオフレームは、すべての前記後続のビデオフレームよりも少ないビデオフレームを含む、請求項5に記載のビデオデータを符号化するための方法。
【請求項8】
前記選択された1つ又は複数のビデオフレーム及びそれらの各々における前記選択された1つ又は複数の関心領域は、目標画像特性に対する前記関心領域内の画像特性の近さに基づいてさらに識別される、請求項5に記載のビデオデータを符号化するための方法。
【請求項9】
前記選択された1つ又は複数のビデオフレーム内の前記選択された1つ又は複数の関心領域によってカバーされる前記ビデオデータ内の画素の量が、時間単位ごと又は識別されたビデオフレームごとの前記ビデオデータ内の画素の総量の所定の割合未満である、請求項5に記載のビデオデータを符号化するための方法。
【請求項10】
前記関心領域内のビデオデータを分析してそれらを属性に関連付けることと、前記関心領域の前記属性を前記第2のメタデータに含めることとをさらに含む、請求項5に記載のビデオデータを符号化するための方法。
【請求項11】
前記関心領域と空間的にオーバーラップする前記コーディングユニットのセット内の前記ビデオデータがイントラ符号化される、請求項5に記載のビデオデータを符号化するための方法。
【請求項12】
ビデオデータ内の検索の実施に関連して前記ビデオデータを復号するための復号システムであって、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータであって、ビデオフレーム内の独立して復号可能な関心領域は、前記関心領域と空間的にオーバーラップする前記符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで復号可能である、ビデオデータを受信するように、かつ前記符号化されたビデオデータとは別のデータエンティティとして、符号化されたビデオフレームの識別子と、前記符号化されたビデオフレーム内の各関心領域の識別子と、前記符号化されたビデオフレーム内のどの関心領域が独立して復号可能であるかの識別情報とを含むデータユニットを各々が含むメタデータを受信するように構成された受信機能であって、
前記符号化されたビデオデータには、前記メタデータにおいて独立して復号可能であると識別された各関心領域の前記識別子を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報が埋め込まれている、
受信機能と、
前記符号化されたビデオデータ内の関心領域間の検索に関する法医学検索クエリを受信するように、かつ前記法医学検索クエリの受信に応答して、独立して復号可能であると識別された1つ又は複数の関心領域の識別子、及びそれらが存在する前記符号化されたビデオフレームを発見して提供するために、前記メタデータ内で検索するように構成された検索機能と、
符号化されたビデオフレーム内に存在する発見された関心領域ごとに、
前記符号化されたビデオデータに埋め込まれた前記情報を使用して、前記関心領域の前記識別子に関連付けられたコーディングユニットのセットを識別し、
前記符号化されたビデオフレームの前記識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ前記符号化されたビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、前記関心領域に対応する復号されたビデオデータを生成する
ように構成された復号機能と
を実装するように構成された回路を備える、復号システム。
【請求項13】
ビデオデータを符号化するための符号化システムであって、
関心領域が存在するビデオフレームを含むビデオデータを受信するように、かつ前記関心領域の識別子及びそれらが存在する前記ビデオフレームの識別子を含む第1のメタデータを受信するように構成された受信機能と、
前記受信した第1のメタデータを使用して、それらの各々のうちの1つ又は複数のビデオフレーム及び1つ又は複数の関心領域を選択するように構成された関心領域選択機能と、
符号化されたビデオデータを生成するために前記ビデオデータを符号化するように構成された符号化機能であって、各選択されたビデオフレーム及びその中の各選択された関心領域の前記符号化は、
前記関心領域を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつ前記ビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、前記関心領域と空間的にオーバーラップする、前記コーディングユニットのセット内の前記ビデオフレームのビデオデータを符号化すること、
前記関心領域の識別子を前記関心領域と空間的にオーバーラップする前記コーディングユニットのセットに関連付ける情報を、前記符号化されたビデオデータに埋め込むこと、並びに
前記関心領域の前記識別子、前記ビデオフレームの識別子、及び前記関心領域が独立して復号可能であるとする識別情報を含む第2のメタデータを生成することであって、前記第2のメタデータは、前記符号化されたビデオデータとは別個のデータエンティティである、第2のメタデータを生成すること
を含む、符号化機能と
を実装するように構成された回路を備える、符号化システム。
【請求項14】
処理能力を有するデバイスによって実行されると、前記デバイスに請求項1から4のいずれか一項に記載の復号方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体。
【請求項15】
処理能力を有するデバイスによって実行されると、前記デバイスに請求項5から11のいずれか一項に記載の符号化方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、符号化されたビデオデータにおける検索の分野に関する。特に、本発明は、符号化されたビデオデータ内の検索を容易にするためのビデオデータの符号化、及び符号化されたビデオデータ内の検索の実施に関連した符号化されたビデオデータの復号に関する。
【背景技術】
【0002】
ビデオカメラは、監視目的でよく使用される。ビデオカメラは、後の検索のために符号化されたフォーマットで記憶されるビデオデータを生成する。例えば、事件が報告されたとき、衣服に特定の色を有する特定の1人又は複数の人を発見するなど、記憶されたビデオデータを検索してその中の特定のコンテンツを発見することができる。ビデオデータから特定のコンテンツを手動で探すことは非常に面倒であり、より大型のカメラ設備では実行できない可能性があり、したがって、ビデオデータを自動的に検索する検索手順が提案されている。
【0003】
これらの自動検索手順は、符号化されたビデオデータに関連付けられたメタデータによって駆動される。メタデータは、どのビデオフレームに関心領域(ROI)があるか、及び場合によってはさらに、それらのビデオフレームのどこにROIが位置するかを示すことができる。例えば、メタデータは、どのフレームにオブジェクトがあるか、及びフレーム内のそれらのオブジェクトのバウンディングボックスを示すことができる。メタデータ内で検索することにより、ビデオデータを復号する必要なく、さらに分析するために関連するビデオフレームを識別することができる。関連するビデオフレームを発見した後、自動検索手順は、次に、関連するフレームの復号、及びROI内の復号されたビデオデータが特定の検索基準と一致するかどうかの分析に進むことができる。
【0004】
これらの自動検索手順の欠点は、低速で処理が激しく、したがって、数台より多くのカメラを有するカメラ設備によって収集されたビデオ資料などのより大きなビデオ資料での検索には適していないことである。その理由の1つは、関連するビデオフレームの復号が非効率的であることである。この理由が該当することを確認するために、ビデオデータを符号化するとき、ビデオフレームの大部分は、典型的には、他のビデオフレームを参照することによってインター符号化されることに留意されたい。そのようなフレームは、Pフレーム又はBフレームとしても知られている。ビデオフレームがイントラ符号化、すなわち、他のビデオフレームと独立して符号化されることは、まれにしか生じない。イントラ符号化されたフレームは、Iフレームとしても知られている。これは、ビデオデータ内の特定のフレームを復号するために、最も近い先行するイントラ符号化されたフレームから復号を開始し、次いで特定のフレームに至るまでインター符号化されたフレームを復号しなければならないことを意味する。したがって、検索に関連するビデオフレームを復号するために、検索に関連しない多くのビデオフレームを復号する必要がある。さらに、ビデオフレームは、従来、ラスタ走査方向でマクロブロックごとに符号化及び復号されることに留意されたい。したがって、ビデオフレームの小さな領域のみが対象であっても、ビデオフレーム全体を復号することになる。例えば、監視シナリオでは、ビデオフレーム内の対象のオブジェクトが100×50画素のみ、又はそれ未満しかカバーしないことは珍しくなく、これはビデオの典型的なビデオフレームのごく小さな部分である。したがって、改善の余地がある。
【発明の概要】
【0005】
上記を鑑みて、本発明は、上記の問題点を解消し、符号化されたビデオデータ内の検索の効率化に寄与するビデオ符号化及びビデオ復号の方法を提供することを目的とする。
【0006】
本発明は、添付の独立請求項によって定義され、一方、本発明の実施形態は、従属請求項によって定義される。
【0007】
本発明の第1の態様によれば、ビデオデータ内の検索の実施に関連してビデオデータを復号するための方法及びシステムが提供される。
【0008】
復号方法は、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータを受信することであって、各独立して復号可能な関心領域を、独立して復号可能な関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付ける情報が、符号化されたビデオデータに埋め込まれている、受信することと、
独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを識別するメタデータを受信することと、
符号化されたビデオデータ内の関心領域間の検索に関する検索クエリを受信することと、
検索クエリの受信に応答して、1つ又は複数の独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを発見するためにメタデータ内で検索することと、
符号化されたビデオフレーム内に存在し、検索時に発見された独立して復号可能な領域ごとに、
符号化されたビデオデータに埋め込まれた情報を使用することによって、独立して復号可能な関心領域に関連付けられているコーディングユニットのセットを識別し、
符号化されたビデオフレームの識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ符号化されたビデオフレーム内のコーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、独立して復号可能な関心領域に対応する復号されたビデオデータを生成することと
を含む。
【0009】
この復号方法によれば、受信した符号化されたビデオデータ内のROIの少なくとも一部が独立して復号可能である。これは、ROI内のビデオデータが、先行するビデオフレーム又は同じビデオフレーム内の他の領域を最初に復号することなく復号され得るように符号化されることを意味する。実際にそのようなROIにおいてビデオデータの独立した復号を実装するために、デコーダは、ROIに対応するのがどのビデオフレーム内のどのコーディングユニットであるかを通知される必要がある。デコーダがこのことを知ると、デコーダは、同じ又は別のビデオフレームの他のコーディングユニットを最初に復号することなく、それらのコーディングユニットを選択的に復号することができる。
【0010】
検索クエリに応答してどのビデオフレーム内のどのコーディングユニットを復号するかに関してデコーダに通知するために、2段階手順が提案される。第1の段階は、独立して復号可能なROI及びそれらが存在する符号化されたビデオフレームを識別するメタデータに依存する。したがって、検索クエリが受信されると、1つ又は複数の独立して復号可能なROI及びそれらが存在する符号化されたビデオフレームを発見するために、メタデータが検索され得る。第2の段階は、メタデータによって識別された各独立して復号可能なROIを、ROIと空間的にオーバーラップするコーディングユニットのセットと関連付ける、符号化されたビデオデータに埋め込まれた情報に依存する。したがって、埋め込まれた情報は、検索中に発見された符号化されたビデオフレーム内の独立して復号可能なROIに関連付けられているコーディングユニットのセットの識別を可能にする。最後に、それらの符号化されたビデオフレーム内のコーディングユニットの識別されたセットを選択的に復号することができる。
【0011】
したがって、メタデータ、及びビデオデータに埋め込まれた情報は、検索クエリに応答して、選択されたROI以外のビデオデータを復号する必要なく、独立して復号可能なROIを選択的に復号することを可能にする。これにより、ビデオデータ内の検索がより効率的になる。
【0012】
ビデオフレーム内の関心領域は、ユーザにとって特に関心があり得るビデオフレーム内の画素領域を指す。関心領域は、例えば、ビデオフレーム内の検出されたオブジェクトの画素領域に対応し得る。
【0013】
ビデオデータ内の検索は、一般に、特定の検索クエリに一致するビデオデータ内のROIの検索に関連し得る。検索は、法医学目的のために行われてもよく、すなわち、検索の目的がビデオ資料内の証拠を発見することである法医学的検索であってもよい。例えば、青色のジャケットを着ているすべての人を発見したい場合もあれば、特定の人がビデオデータに描写されているかどうかを知りたい場合もある。
【0014】
コーディングユニットとは、符号化中に使用される基本処理ユニットを形成する画像フレーム内の画素のブロックを意味する。コーディング規格に応じて、コーディングユニットは、マクロブロック(H.264)又はコーディングツリーユニット(H.265)としても公知である。
【0015】
独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを識別するメタデータは、符号化されたビデオデータに関連付けられるが、典型的には、別個のメタデータストリームなどの別個のデータエンティティとして提供される。したがって、符号化されたビデオデータを解析する必要なく、メタデータ内で検索を行うことができる。また、ビデオデータにメタデータを埋め込むようにしてもよい。
【0016】
情報が符号化されたビデオデータに埋め込まれることは、情報が符号化されたビデオフレームの中に含まれることを意味する。しかしながら、情報は、ビデオデータ自体を最初に復号する必要なく、符号化されたビデオデータから読み取り可能である。例えば、情報は、符号化されたビデオフレームのピクチャパラメータセット(PPS)ヘッダなどのヘッダ、又は符号化されたビデオデータに挿入される専用補足強化情報(SEI)フレームに埋め込まれ得る。
【0017】
符号化されたビデオフレーム内のROIが独立して復号可能であることは、ROIと空間的にオーバーラップする符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで、符号化されたビデオフレーム内のROIが復号され得ることを意味する。異なる言い方をすれば、ROI内のビデオデータは、同じフレーム内のROIの外側のビデオデータ又は別のフレーム内のビデオデータを参照することなく符号化される。例えば、ROIと空間的にオーバーラップするコーディングユニットのセット内のビデオデータは、イントラ符号化され得る。イントラ符号化は、独立して復号可能な関心領域内に空間的に制約されてもよく、すなわち、イントラ符号化は、ROIの内部のビデオデータのみを参照する。
【0018】
検索クエリは、特定の属性又は属性の特定の組み合わせを有する符号化されたビデオデータ内のROIの検索に関する場合がある。ROIの属性とは、ROI内のビデオデータの属性又は特性を意味する。例えば、ROIがオブジェクトに対応する場合、ROIの属性は、オブジェクトクラス、オブジェクトの色、オブジェクトの識別情報、帽子又はバッグなどのオブジェクトが着用又は携行するアイテムなどのオブジェクトの属性又は特性であり得る。場合によっては、ROI内のビデオデータは、符号化される前に既に分析され、属性でタグ付けされている場合がある。その場合、メタデータは、独立して復号可能な関心領域の属性をさらに示すことができ、検索は、検索クエリの特定の属性と一致する属性を有する1つ又は複数の独立して復号可能なROIを発見するためにメタデータ内で検索することを含むことができる。これは、符号化側においてより多くの処理が実施されることを必要とするが、関心のある属性を有するROIのみを検索中に発見し、復号すればよいため、復号側における処理能力を節約する。
【0019】
他の場合には、メタデータがROIに属性をタグ付けしない場合、本方法は、独立して復号可能なROIに対応する復号されたビデオデータを分析して、それが検索クエリの特定の属性と一致するかどうかを判定することができる。これは、最終的に検索クエリと一致しないROIのビデオデータも復号する必要があるため、復号側でより多くの処理能力を必要とする。しかしながら、同時に、符号化側の処理負担が軽減される。
【0020】
メタデータは、符号化されたビデオフレーム内の各独立して復号可能なROIの識別子を含むことができ、符号化されたビデオデータに埋め込まれた情報は、各独立して復号可能なROIの識別子を、独立して復号可能なROIと空間的にオーバーラップするコーディングユニットと関連付けることができる。識別子の使用は、符号化されたビデオフレーム内のコーディングユニットとROIをリンクする効率的な方法である。
【0021】
本発明の第2の態様によれば、ビデオデータを符号化するための方法及びシステムが提供される。
【0022】
符号化方法は、
関心領域が存在するビデオフレームを含むビデオデータを受信することと、
関心領域、及びそれらがどのビデオフレームに存在するかを識別する第1のメタデータを受信することと、
受信した第1のメタデータを使用して、それらの各々のうちの1つ又は複数のビデオフレーム及び1つ又は複数の関心領域を選択することと、
符号化されたビデオデータを生成するためにビデオデータを符号化することであって、各選択されたビデオフレーム及びその中の各選択された関心領域の符号化は、
関心領域を、関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつビデオフレーム内のコーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、関心領域と空間的にオーバーラップする、コーディングユニットのセット内のビデオフレームのビデオデータを符号化すること、
関心領域を関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報を、符号化されたビデオデータに埋め込むこと、並びに
ビデオフレーム内の関心領域が独立して復号可能であると識別する第2のメタデータを生成すること
を含む、符号化することと
を含む。
【0023】
したがって、この符号化方法は、ビデオフレーム内のROIの少なくともいくつかを、他のビデオフレーム内のビデオデータとは独立して、かつROIの外側のコーディングユニット内のビデオデータとは独立して符号化する。したがって、これらのROIの符号化時に使用される他のビデオデータへのいかなる参照も、ROI内にあるように制約される。さらに、符号化方法は、独立して復号可能なROI及びそれらが存在するビデオフレームを識別するメタデータを生成し、各独立して復号可能なROIを関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報を、符号化されたビデオデータに埋め込む。したがって、上述したように、符号化方法は、選択されたROI以外のビデオデータを復号する必要なく、検索クエリに応答してデコーダ側で、独立して復号可能なROIを選択的に復号することを可能にする。これにより、ビデオデータ内の検索がより効率的になる。
【0024】
いくつかの実施形態では、選択された1つ又は複数のビデオフレームは、ROIが存在するすべてのビデオフレームに対応することができる。例えば、ROIが存在するすべてのビデオフレーム、及びそれらの中のすべてのROIが選択され得る。他の実施形態では、選択された1つ又は複数のビデオフレームは、関心領域が存在するビデオフレームの厳密なサブセットを含み得る。したがって、すべてのROIよりも少ないROIが独立した方式で符号化され得る。独立した符号化は、典型的には、ビットレートに関してより高価であるため、すべてのROIを独立して符号化しないことによってビットレートを節約することができる。この目的のために、ROIが存在するフレーム全体及び最後にイントラ符号化されたフレームから始まる任意の先行ビデオフレームを復号することを犠牲にしても、独立して符号化されないROIが依然として符号化され、デコーダ側で依然として復号され得ることに留意されたい。
【0025】
どのROIを独立して符号化するかを選択するために、様々な手法を使用することができる。第1の手法によれば、第1のメタデータは、共通トラックに属するものとして後続のビデオフレーム内の複数の関心領域をさらに識別し、選択された1つ又は複数のビデオフレームは、すべての前記後続のビデオフレームよりも少ないビデオフレームを含む。したがって、ビデオデータがオブジェクトの動きをキャプチャするときなど、後続のビデオフレーム間でROIが移動するとき、すべてではなく、1つ又は少数の後続のビデオフレーム内のROIを独立して符号化することを選択することができる。これにより、共通のトラックに属するROIに対して効率的な検索が可能になると同時にビットレートが節約される。これは、検索目的では、トラック全体を復号するのではなく、トラックの1フレーム又は数フレーム内でROIを復号することで十分であることが多いからである。
【0026】
第2の手法によれば、選択された1つ又は複数のビデオフレーム及びそれらの各々の中の選択された1つ又は複数の関心領域は、目標画像特性に対する関心領域内の画像特性の近さに基づいてさらに識別される。画像特性は、照明条件、描写されたオブジェクトのオクルージョン比、及び描写されたオブジェクトのポーズのうちの1つ又は複数を含むことができる。したがって、どのようなROIを独立して符号化するかを選択するとき、好ましい画像特性を有するROIを選択することができる。第2の手法は、第1の手法と組み合わせることができる。例えば、共通トラック内のどのROIを独立して符号化するかを選択するとき、最も好ましい画像特性を有するROIを選択してもよい。一例では、描写されたオブジェクトがカメラに面する、照明条件が最良である、及び/又は描写されたオブジェクトが最も遮られていない共通トラック内の1つ又は複数のROIを選択してもよい。
【0027】
符号化されたビデオデータ内に独立して符号化されたROIを有することは、符号化されたビデオのビットレートを増加させるが、ROIによってカバーされる領域はビデオフレームの領域に対して小さいため、追加のビットレートコストは、典型的な監視シナリオでは非常に低い。また、ほとんどの監視シナリオでは、フレーム内にROIが存在しない時間間隔は、フレーム内にROIが存在する時間間隔よりも長い。それでも、フレームごと又は経時的にビットレートを制御するために、時間単位ごと又はフレームごとに独立して符号化することができる画素の量に上限を導入することが可能である。特に、選択された1つ又は複数のビデオフレーム内の選択された1つ又は複数のROIによってカバーされる、ビデオデータ内の画素の量は、時間単位ごと又は選択されたビデオフレームごとのビデオデータ内の画素の総量の所定の割合未満であり得る。したがって、これにより、検索アプリケーションの検索時間を最適化するために許容され得る余分なビットレートの量に制限を設定することができる。
【0028】
符号化方法は、ROI内のビデオデータを分析してそれらを属性に関連付けることと、関心領域の属性を第2のメタデータに含めることとをさらに含むことができる。上述したように、これは、復号が行われる前に検索クエリと一致する属性を有するROIが識別されることを可能にするので、復号側における処理能力を節約する。
【0029】
本発明の第3の態様によれば、処理能力を有するデバイスによって実行されると、デバイスに第1の態様の復号方法又は第2の態様の符号化方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体が提供される。
【0030】
第3の態様は、一般に、第1の態様及び第2の態様と同じ特徴及び利点を有することができる。本発明は、特に明記しない限り、特徴のすべての可能な組み合わせに関することにさらに留意されたい。
【0031】
本発明の上記及び追加の目的、特徴及び利点は、添付の図面を参照して、本発明の実施形態の以下の例示的かつ非限定的な詳細な説明によってよりよく理解され、同様の要素には同じ参照番号が使用される。
【図面の簡単な説明】
【0032】
図1】実施形態による符号化システム及び復号システムを模式的に示す図である。
図2】実施形態による符号化システムを模式的に示す図である。
図3】実施形態による復号システムを模式的に示す図である。
図4】ビデオデータ及び関連する第1のメタデータを模式的に示す図である。
図5】符号化されたビデオデータ及び関連する第2のメタデータを模式的に示す図である。
図6】ビデオ復号システムの出力を概略的に示す図である。
図7】実施形態による符号化方法のフローチャートである。
図8】実施形態による復号方法のフローチャートである。
【発明を実施するための形態】
【0033】
次に、本発明の実施形態が示されている添付の図面を参照して、本発明を以下により完全に説明する。本明細書で開示されるシステム及びデバイスは、動作中で説明される。
【0034】
図1は、ビデオ符号化システム100及び対応するビデオ復号システム200を示す。ビデオ符号化システム100及びビデオ復号システム200は、ビデオデータの効率的な検索を容易にするように特に設計されている。ビデオ符号化システム100は、ビデオカメラに含まれてもよい。復号システム200は、ビデオ管理システムに含まれてもよい。
【0035】
図2及び図3は、符号化システム100及び復号システム200をより詳細に示している。一般に、符号化システム100は、受信機能101、ROI選択機能102、及び符号化機能103を実装するように構成された回路を備える。任意選択で、符号化システム200の回路はまた、分析機能106を実装するように構成されてもよい。同様に、復号システム200は、受信機能201、検索機能202、及び復号機能203を実装するように構成された回路を備える。任意選択で、復号システム200の回路はまた、分析機能206を実装するように構成されてもよい。
【0036】
ハードウェア実装では、機能101、102、103、106、201、202、203、206の各々は、専用であり、機能を実施するように特別に設計された回路に対応してもよい。回路は、1つ若しくは複数の特定用途向け集積回路又は1つ若しくは複数のフィールドプログラマブルゲートアレイなどの、1つ又は複数の集積回路の形態であってもよい。例として、符号化機能103は、使用時にビデオデータを符号化して符号化されたビデオデータを生成する回路を備えることができる。
【0037】
ソフトウェア実装形態では、回路は、代わりに、不揮発性メモリなどの(非一時的)コンピュータ可読媒体104、204に記憶されたコンピュータコード命令に関連して、符号化システム100及び復号システム200に本明細書に開示された任意の方法を実施させるマイクロプロセッサなどのプロセッサ105、205の形態であってもよい。不揮発性メモリの例には、読み出し専用メモリ、フラッシュメモリ、強誘電体RAM、磁気コンピュータ記憶デバイス、光ディスクなどが含まれる。したがって、ソフトウェアの場合、機能101、102、103、106、201、202、203、206はそれぞれ、プロセッサ104又は204によって実行されると、符号化システム100又は復号システム200にこれらの機能を実施させる、コンピュータ可読媒体に記憶されたコンピュータコード命令の一部に対応することができる。
【0038】
ハードウェアとソフトウェア実装との組み合わせを有することも可能であり、これは、コンポーネント101、102、103、106、201、202、203、206の一部の機能がハードウェアで実装され、他の機能がソフトウェアで実装されることを意味することを理解されたい。
【0039】
次に、図1図2図4図5、及び図7のフローチャートを参照して、ビデオデータを符号化するための方法S100を実施するときの符号化システム100の動作を説明する。
【0040】
ステップS102及びS104において、受信機能101は、ビデオデータ110及び第1のメタデータ120をそれぞれ受信する。図4にさらに示すように、ビデオデータ110は、ROI112が存在するビデオフレーム110-1、110-2、110-3、110-4、110-5、110-6を含む。図示の例では、ビデオフレーム110-1及び110-2の各々に2つのROIがあり、ビデオフレーム110-3及び110-6の各々に1つのROIがある。長期間の監視ビデオで一般的なように、ROIが存在しないビデオフレーム110-4及び110-5もある。ROIは、ビデオフレーム内で検出されたオブジェクトに対応することができる。この場合、ROIは人及び車に対応する。
【0041】
第1のメタデータ120は、ROI112及びそれらが存在するビデオフレームを識別する情報を含む。第1のメタデータ120は、典型的には、ビデオデータとは別個のデータエンティティとして提供されるが、例えば補足拡張情報(SEI)フレームを使用することによってビデオデータ110に埋め込むことも可能である。第1のメタデータ120は、例えばビデオデータ110内のオブジェクトの検出に関連して、ビデオ符号化システム100の上流で生成される。その目的のために、当技術分野で公知の任意のオブジェクト検出アルゴリズムを使用することができる。第1のメタデータ120は、各々がビデオデータ110内のビデオフレームを識別し、そのビデオフレーム内のROIに関する情報を含むデータユニット120-1、120-2、120-3、120-6を含むことができる。より詳細には、第1のメタデータ120は、ROIが存在するビデオフレーム110-1、110-2、110-3、110-6の識別子を含むことができる。第1のメタデータ120は、ビデオフレーム110-1、110-2、110-3、110-6内の各ROIの識別子をさらに含むことができる。これらの識別子は、フレーム番号、及びフレーム内の各ROIの番号に関して与えられてもよい。
【0042】
識別子に加えて、第1のメタデータ120はまた、ROIごとに、ビデオフレーム内のROIの空間座標を指定することができる。空間座標は、ビデオフレーム内のROIの空間的カバレッジ、すなわち、ROIに含まれるビデオフレーム内の画素を定義する。例えば、ROIの輪郭を定義するバウンディングボックスの空間座標を指定することができる。空間座標は、ビデオフレーム内の画素座標に関して与えられてもよい。
【0043】
任意選択で、第1のメタデータ120は、ROIに関連するオブジェクト識別子をさらに含んでもよく、同じ物理オブジェクトを描写するROIは同じオブジェクト識別子に関連付けられる。したがって、オブジェクト識別子は、同じオブジェクトを描写するROIを識別するために使用することができる。特別な例として、ビデオ符号化システム100の上流でトラッキングが実施された状況では、第1のメタデータ120は、ビデオフレーム内のROIが複数の後続ビデオフレームにまたがるトラックに属するかどうかを示し、そうである場合、ROIに関連付けられたトラックの識別子を含むことができる。図4に示す例では、ビデオフレーム110-1、110-2、110-3の人物に対応するROIがトラックを形成し、ビデオフレーム110-1、110-2の車に対応するROIが別のトラックを形成している。
【0044】
いくつかの実施形態では、ビデオデータ110及び第1のメタデータ120は、任意選択の分析機能106に入力され、分析機能106は、ステップS105においてROI内のビデオデータを分析してROIを属性と関連付ける。それ自体当技術分野で公知のそのような分析は、オブジェクト分類、オブジェクト認識、色認識などを含むことができる。第1のメタデータ120内の情報は、各ROIの属性をさらに指定するために更新されてもよい。属性の例は、人物又は車などのオブジェクトクラス、及び色情報である。説明されるように、これらの属性は、復号システム200における検索目的のために使用することができる。代替的な実施形態では、分析機能106は、代わりに符号化システム100の上流に位置してもよい。
【0045】
第1のメタデータ120はまた、ROI内の照明条件、描写されたオブジェクトのオクルージョン比、及び描写されたオブジェクトのポーズなどのROIの画像特性を含むことができる。ROIの画像特性は、一般に、オブジェクト認識目的などの特定の目的について、ROI内のビデオデータの品質を反映すると言われる場合がある。画像特性は、分析機能106によって判定されてもよく、又は符号化システム100の上流で判定されてもよい。
【0046】
ステップS106において、ROI選択機能102は、第1のメタデータ120の情報を使用して、1つ又は複数のビデオフレームと、それらの各々の中の1つ又は複数のROIとを選択する。ROI選択機能102は、選択されたROI及びそれらが存在するビデオフレームの指示122を符号化機能103に渡す。いくつかの実施形態では、ROI選択機能102は、ROIが存在するすべてのビデオフレーム、及びそれらの各々の中のすべてのROIを選択することができる。他の実施形態では、ROI選択機能102は、代わりに、例えばROIが存在するビデオフレームの厳密なサブセットを選択することによって、又はビデオフレーム内のROIの厳密なサブセットを選択することによって、ROIの厳密なサブセットが識別又は選択されてもよい。すなわち、ROI選択機能102は、ROIが存在するビデオフレームのすべてよりも少ないビデオフレーム、及び/又はすべてのROIよりも少ないROIを選択することができる。上述したように、すべてのフレーム及び/又はすべてのROIを選択しない理由は、後続の符号化中のビットレートを節約するためである。図4の例では、ROI選択機能102は、ROI112-1を選択しているものの、それらのROIの周りの太い境界によって示されるように、ROI112-2は選択されていない。選択されたROI112-1は、ビデオフレーム110-1のROI2(車)、ビデオフレーム110-2のROI1、及びビデオフレーム110-6のROI1(スポーツカー)を含む。
【0047】
異なるビデオフレーム内の複数のROIが、第1のメタデータ120内のオブジェクト識別子によって示されるものと同じオブジェクトを描写する場合、ROI選択機能102は、オブジェクトを描写するROIのすべてではなく、1つ又は少数のROIを選択することができる。特別な事例として、第1のメタデータ120内のトラック識別子によって示されるように、複数のROIが後続のビデオフレームにまたがるトラックを形成するとき、ROI選択機能102は、そのトラックに属するROIのうち、すべてではなく、1つ又は少数のROIを選択することができる。したがって、同じトラック識別子を有するROIの中で、ROI選択機能120は、対応する1つ又は少数のビデオフレーム内の1つ又は少数のROIを選択することができ、これらはその後、トラックの代表として機能する。図4の例では、ビデオフレーム110-1、110-2、110-3内の人物に対応するROIがトラックを形成しており、ROI選択機能102は、そのトラックの代表として、第2のビデオフレーム110-2内のROI112-1を選択する。同様に、ビデオフレーム110-1及び110-2内の車に対応するROIはトラックを形成し、ROI選択機能102は、そのトラックの代表として、第1のビデオフレーム110-1内のROI112-1を選択する。
【0048】
共通のトラックに属するROIの中など、同じオブジェクトを描写する複数のROIの中からどの1つ又は複数のROIを選択すべきかを識別するために、ROI選択機能102は、第1のメタデータ120内の情報によって指定されるROIの画像特性をさらに考慮してもよい。ROI選択機能102は、ROIの画像特性を目標画像特性と比較し、目標画像特性に最も近い画像特性を有する1つ又は複数のROIを選択することができる。目標画像特性は、オブジェクト認識目的などの特定の目的に望ましい画像特性を反映することができる。いくつかの例によれば、目標照明条件に最も近い照明条件を有する1つ若しくは複数のROIを選択することができ、描写されたオブジェクトのポーズが目標ポーズに最も良く一致する1つ若しくは複数のROIを選択することができ、又は最小のオクルージョン比を有する1つ若しくは複数のROIを選択することができる。図4の例では、例えば、第2のビデオフレーム110-2内の人物がカメラの方を向いているために選択されている一方で、ビデオフレーム110-1、110-3内の人物はカメラの方を向いておらず、したがって選択されていない場合があり得る。このようにして、ROI選択機能102は、所与の目的のために最良のビデオデータの特性を有するROIを選択することができる。これらの例は、場合によっては異なる優先順位を用いて、いくつかの画像特性が選択において考慮されるように組み合わせることができる。画像特性はまた、複数のROIからいくつのROIを選択するかを決定するときに考慮されてもよい。多くの場合、目標画像特性に最も良く一致するROIを選択すれば十分であり得る。しかしながら、他の手法では、所定の閾値よりも目標画像特性に近い画像特性を有するすべてのROIが選択されてもよい。
【0049】
ROI選択機能102はさらに、ビデオフレームごと及び/又は時間単位ごと、例えばピクチャグループ(GOP)ごとに選択されたROIによってカバーすることが可能な画素の総量の割合を制限する制約を受けてもよい。この割合は、予め決定されてもよく、符号化システム100の調整パラメータとみなされてもよい。この制限を満たすために、ROI選択コンポーネント102は、第1のメタデータ120内の情報によって指定されるように、選択されたROIに含まれるビデオデータ内の画素量を、フレームごと及び/又は時間単位ごとの画素総量と比較してもよい。割合が限界を超える場合、ROI選択機能102は、選択されるROIの数を減らす必要があり、割合を超えない場合、追加のROIを選択する余地があり得る。この手順は、制限を超えなくなるまで、又は制限を超えずにさらなるROIを追加することが不可能になるまで、ROI選択機能102によって繰り返すことができる。ビットレートを低減する別の選択肢は、符号化時にROIの内側のビデオデータよりもROIの外側のビデオデータにより高い圧縮を適用することである。
【0050】
選択されたROIによってカバーされることが可能であるフレーム又は時間単位ごとの画素の総量に関する割合を設定するのではなく、ビットレートの上限を設定することができる。この上限は、所与の解像度、フレームレート、及びビデオ構成で、所与のシーンにおけるビットレート測定値又は推定値に基づくことができる。ビットレートが上限を上回る場合、ROI選択コンポーネント102は、選択されたROIの数を減らし、ビットレートが上限を下回る場合、ROI選択コンポーネント102は、上限を超えない限り、追加のROIを選択することができる。
【0051】
符号化機能103は、ROI選択機能102によって選択されたROI及び関連するビデオフレームのビデオデータ110、第1のメタデータ120及び指示122を受信する。符号化機能103は、ステップS108において、ビデオデータ110を符号化し、符号化されたビデオデータ130及び第2のメタデータ140を生成する。
【0052】
符号化機能103は、一般に、図5に示すように、ビデオフレーム110-1~110-6内のビデオデータを、対応する符号化されたビデオフレーム130-1~130-6に符号化することができる。ビデオ符号化の技術分野で公知であるように、各ビデオフレーム110内のビデオデータは、8×8画素、16×16画素、又は32×32画素のブロックなどのビデオフレーム内の画素のブロックを各々が含むコーディングユニットCUに分割することができる。次いで、各CUは、フレーム内符号化(簡単にはイントラ符号化)され、これは、同じビデオフレーム内の既に符号化されたビデオデータからの空間予測を使用して予測的に符号化されることを意味し、又はフレーム間符号化(簡単にはインター符号化)され、これは、1つ又は複数の他のビデオフレーム内の既に符号化されたビデオデータからの時間予測を使用して予測的に符号化されることを意味する。イントラフレームと呼ばれるいくつかのフレームでは、すべてのCUがイントラ符号化される。インターフレームと呼ばれる他のフレームでは、いくつかのCUがイントラ符号化され、他のCUがインター符号化される。インターフレームにおけるCUのイントラ符号化とインター符号化との間の選択を、ビットレート及び歪みの考慮事項に基づいて行うことが標準的な慣行である。この標準的な慣行は、ビデオデータ120内のほとんどのCUを符号化する際の符号化機能103によっても採用される。しかしながら、符号化機能103は、ROI選択機能102によって選択されたROIと空間的にオーバーラップするCUを符号化するときにこの標準的な慣行を適用しない。代わりに、符号化機能103は、選択されたROIと空間的にオーバーラップするCUを常にイントラ符号化する。
【0053】
より詳細には、1つ又は複数の選択されたROIを含むビデオフレームを符号化するとき、符号化機能103は、ビデオフレーム内の選択されたROIごとにサブステップS108a、S108b、S108c、及びS108dを実施する。
【0054】
サブステップS108aにおいて、符号化機能103は、ビデオフレーム内の選択されたROIを、ROIと空間的にオーバーラップするCUのセットと関連付ける。ROIと空間的にオーバーラップするCUのセットを発見するために、符号化機能103は、ビデオフレーム内の各CUの空間カバレッジを、ビデオフレーム内のROIの空間カバレッジを定義する第1のメタデータ110内の空間座標と比較することができる。ROI内に位置する少なくとも1つの画素を有するCUは、CUのセットに含まれる。
【0055】
サブステップS108bにおいて、符号化機能130は、ROIと空間的にオーバーラップするCUのセット内のビデオデータを符号化する。CUのセット内のCUは、他のビデオフレーム内のビデオデータとは独立して符号化される。すなわち、それらはイントラ符号化される。さらに、それらは、同じビデオフレーム内のCUのセットの外側のCU内のビデオデータとは独立して符号化される。言い換えると、符号化機能130は、イントラ符号化で使用される空間予測の範囲がCUのセット内にあるように制約を課す。したがって、CUのセットに含まれるCUは、セット内のCU内のビデオデータのみを参照する。CUのセットをこのように符号化することにより、ROI内のビデオデータは、復号システム200によって独立して復号可能になる。
【0056】
図5の例では、ストライプパターンは、選択されたROI112-1に対応するCUのセットがこの独立した方式で符号化されることを示す。任意の識別されていないROI内のCUは、標準的な慣例に従って符号化される。
【0057】
サブステップS108cにおいて、符号化機能103は、ROIをROIと空間的にオーバーラップするCUのセットと関連付ける情報132を、符号化されたビデオデータ130に埋め込む。情報132は、ROIが存在する符号化されたビデオフレームのヘッダに含まれてもよく、又は符号化されたビデオフレーム130-1~130-6のシーケンスに挿入される専用補足強化情報(SEI)フレームに含まれてもよい。一例として、そのようなSEIフレームは、ROIが存在する符号化されたビデオフレームの前に挿入されてもよく、又はGOPごとにSEIフレームが1回挿入されてもよい。後者の場合、SEIフレームは、GOP内のすべての独立して符号化されたROIに関する情報132を搬送することができ、情報132は、ROIに関連付けられているCUのセットを指定するだけでなく、ROIがどのフレームに存在するかも示すべきである。図5の図示の例では、情報132は、識別されたROI112-1ごとに、識別されたROIと空間的にオーバーラップするCUのリストを含む。
【0058】
ステップS108dにおいて、符号化機能103は、ROI及びそれが存在する符号化されたビデオフレームを識別する第2のメタデータ140を生成する。第2のメタデータ140は、各々が符号化されたビデオデータ130内の符号化されたビデオフレームを識別し、その符号化されたビデオフレーム内の独立して復号可能なROIに関する情報を含むデータユニット140-1、140-2、140-3、140-6を含むことができる。したがって、図5に示すように、第2のメタデータは、符号化されたビデオフレーム130-1内のROI2、符号化されたビデオフレーム130-2内のROI1、及び符号化されたビデオフレーム130-6内のROI1を、独立して復号可能であると識別する。第2のメタデータ140は、独立して復号可能ではない未識別ROI112-2及びそれらが存在する符号化されたフレームをさらに識別することができる。第1のメタデータ120と同様に、第2のメタデータ140は、ROIの空間座標、ROIの属性、トラック識別子などのオブジェクト識別子、及び/又はROIの画像特性に関する情報を含むことができる。いくつかの実施形態では、符号化機能103は、第1のメタデータ120を更新することによって第2のメタデータ140を生成してもよく、更新は、どのROIが独立して復号可能であるかの識別を追加することに関する。
【0059】
符号化されたビデオデータ130及び第2のメタデータ140は、復号システム200に入力される。次に、図1図3図5図6、及び図8のフローチャートを参照して、ビデオデータ内の検索の実施に関連してビデオデータを復号するための方法S200を実施するときの復号システム200の動作を説明する。
【0060】
ステップS202において、受信機能201は、独立して復号可能なROI112-1が存在する符号化されたビデオフレーム130-1~130-6を含む符号化されたビデオデータ130を受信する。上述したように、符号化されたビデオデータ130は、独立して復号可能ではないROI112-2をさらに含んでもよい。
【0061】
ステップS204において、受信機能201は、独立して復号可能な関心領域112-1及びそれらが存在する符号化されたフレーム130-1、130-2、130-6を識別する第2のメタデータ140を受信する。上述したように、第2のメタデータ140はまた、独立して復号可能ではない他のROI112-2、及びそれらが存在する符号化されたビデオフレームを識別することができる。
【0062】
ステップS206において、検索機能202は、検索クエリ160を受信する。検索クエリ160は、符号化されたビデオデータ130内で検索を行いたいユーザによって入力されてもよい。検索は、符号化されたビデオデータ130内のROIの検索に関するものであってもよく、特に、特定の属性又は特定の属性セットと一致するROIの検索であってもよい。その属性又は属性のセットは、検索クエリによって指定することができる。一例として、検索は、符号化されたビデオデータ内のすべての車又は人物の検索など、符号化されたビデオデータ内の特定のオブジェクトクラスのすべてのオブジェクトの検索に関することができる。検索は、指定されたナンバープレート番号を有するすべての車、指定された色を有するすべての車、特定の色の服を着用しているすべての人、又は眼鏡を着用しているすべての人の検索など、特定のクラスであり、さらに別の特定の属性を有するすべてのオブジェクトの検索に関することができる。検索はまた、特定のオブジェクトの画像と一致するすべてのオブジェクトの検索に関する場合もある。例えば、ユーザは、ビデオデータ内の関心のあるオブジェクトの1つのインスタンスを発見し、関心のあるオブジェクトが符号化されたビデオデータ内の他の場所に描写されているかどうかを知りたい場合がある。図5及び図6に関連して説明される例では、検索クエリは、符号化されたビデオデータ内のすべてのスポーツカーの検索に関するものと仮定する。
【0063】
検索クエリ160の受信に応答して、検索機能202は、1つ又は複数の独立して復号可能なROI112-1及びそれらが存在する符号化されたビデオフレームを発見するために、第2のメタデータ140を検索する。この段階における検索機能103は、独立して復号可能ではない1つ又は複数のROI112-2をさらに発見し得ることに留意されたい。ステップS208において検索機能202がROI112-1、112-2のうちのどの1つ又は複数を検索して発見するかは、第2のメタデータ140がROIの属性を示すかどうかに依存する。
【0064】
第1のグループの実施形態において、メタデータ140はROI112-1、112-2の属性を示す。検索機能202は、ステップS208において、検索クエリの特定の属性又は属性のセットと一致する属性又は属性のセットを有する、1つ又は複数の独立して復号可能なROI112-1、及び場合によっては1つ又は複数の他のROI112-2を発見するために、メタデータ140内で検索する。例示すると、第2のメタデータ140がどのROIがスポーツカーに対応するかを示す場合、検索機能202は、スポーツカーを求める検索クエリに応答して、スポーツカーに対応するROI112-1、112-2を発見するために、第2のメタデータ140を解析する。図5に示されている例では、検索機能202は、その場合、符号化されたフレーム130-6内でROI1を発見するであろう。
【0065】
実施形態の第2のグループでは、メタデータ140は、ROI112-1、112-2のいかなるタイプの属性も示さず、又は検索クエリによって指定される一部のタイプであるがすべてではない属性を示す。その場合、検索機能202は、メタデータ140から、ROIのうちのどの1つ又は複数が検索クエリで指定された属性又は属性のセットと一致するかを直ちに推定することができない。代わりに、検索機能202は、検索クエリに一致する候補である、1つ又は複数の独立して復号可能なROI112-1、及び場合によっては独立して復号可能ではない1つ又は複数のROI112-2を発見する。場合によっては、これらの候補ROIは、例えば、第2のメタデータ140がいかなるタイプのROI属性も含まない場合、すべての独立して復号可能なROI112-1を含む。図5の例では、検索機能は、その後、すべての独立して復号可能なROI112-1を候補ROIとして識別する。他の場合には、例えば、検索クエリが異なるタイプの属性のセットを示す一方で、メタデータ140がこれらのタイプのサブセットの属性のみを含む場合、候補ROIは、独立して復号可能なROI112-1のサブセットを含むことができる。例示すると、第2のメタデータ140は、ROIが人又は車であるかなど、ROIのオブジェクトクラスを示すことができる。しかしながら、第2のメタデータ140は、人物が「男性」若しくは「女性」であるか、又は車が「クラシックモデル」若しくは「スポーツモデル」であるかなど、人物又は車のさらなる属性を指定しなくてもよい。スポーツカーの検索クエリを受信すると、検索機能103は、メタデータ140を解析して、車両である独立して復号可能なROI112-1を識別することができる。なぜなら、これらはスポーツカーの候補でもあるからである。
【0066】
次いで、検索機能202は、検索中に発見された、独立して復号可能なROI112-2、及び独立して復号可能ではない任意のROI112-2に関する指示142を復号機能203に転送する。指示142は、発見されたROIを復号するための復号機能203への命令とみなすことができる。この指示は、発見されたROIの識別子、及びそれらが存在する符号化されたビデオフレームに関するものとすることができる。例えば、指示142は、識別子のペアを含むことができ、各ペアは、(フレームID、ROI ID)など、符号化されたビデオフレームの識別子及びその中のROIの識別子を含む。
【0067】
検索中に発見された独立して復号可能なROIを復号するために、復号機能203は、発見された独立して復号可能なROIごとにステップS210a及びS210bを実施する。ステップS210aにおいて、復号機能203は、符号化されたビデオデータ130に埋め込まれた情報132を使用して、独立して復号可能なROIに関連付けられたCUのセットを識別する。例えば、復号機能203は、ROIが存在する符号化されたビデオフレームに関連したROI識別子を発見するために、ビデオデータに埋め込まれた情報132を解析することができる。このROI識別子が発見されると、復号機能203は、ROIに関連付けられた符号化されたビデオフレーム内のCUのリストを読み取ることができる。情報132が符号化されたビデオフレームのヘッダに埋め込まれるか、又は符号化されたビデオフレームの直前又は直後などに関連して挿入されるSEIフレームに含まれる場合、復号機能203は、符号化されたビデオフレームの識別子を使用して、その符号化されたビデオフレームに関連付けられたヘッダ又はSEIフレームに進み、次いで、ROIの識別子を使用して、ROIに関連付けられたCUを識別することができる。情報132がGOPごとに一度など、よりまれにしか発生しないSEIフレームに埋め込まれている場合、復号機能203は、ROI識別子及びフレーム識別子からなる識別子のペアを発見するためにSEIフレームを解析し、次いで、その識別子のペアに関連付けられたCUのリストを読み出すことができる。
【0068】
符号化されたビデオフレーム内の独立して復号可能なROIに関連付けられたCUのセットが識別されると、復号機能203は、ステップS210bにおいてこれらのCUを選択的に復号して、独立して復号可能なROIに対応する復号されたビデオデータを生成するように進む。そうするために、復号機能203は、識別されたCUに関連付けられた符号化されたビデオデータを発見するために符号化されたビデオデータ130を解析し、識別されたCUに関連付けられた符号化されたビデオデータを、他のビデオフレーム内の他のビデオデータ、又は現在のビデオフレームの他のCU内の他のビデオデータとは別個に復号することができる。これは、ROIが、エンコーダシステム100によって、他のフレームにおいて以前に復号されたビデオデータ、又は現在のフレームにおける内のCUの識別されたセットの外側のCUにおいて以前に復号されたビデオデータを参照することなく符号化されたために可能である。したがって、復号機能203は、他の符号化されたビデオフレーム内のビデオデータ又は同じ符号化されたビデオフレーム内のCUのセットの外側のCU内のビデオデータを最初に復号する必要なしに、識別されたCUのセット内のCUを復号することができる。
【0069】
復号機能203はまた、検索機能202によって発見されたが、独立して復号できないROI112-2のビデオデータを復号し得ることに留意されたい。これらのROI112-2内のビデオデータは、典型的には、他のビデオフレーム内の以前に復号されたビデオデータ又は同じビデオフレーム内のROIの外側のCUを参照して標準的な慣行に従って符号化されるので、これらのROI112-1は別々に復号することができず、先行するイントラ符号化されたフレームから復号を開始する必要がある。
【0070】
最終的に、復号システム200は、検索クエリによって与えられた属性と一致する復号されたビデオデータ150を出力する。実施形態の第1のグループでは、検索機能202によって発見されたROIが検索クエリによって指定された属性と一致することが既に知られており、復号機能203によって生成された復号されたビデオデータは、検索クエリの属性と一致する復号されたビデオ150としてユーザに出力することができる。このオプションは、図3の復号機能203から伸びる破線矢印150によって示されている。
【0071】
実施形態の第2のグループでは、検索機能202が代わりに発見したROIが検索クエリによって指定された属性と一致する候補であり、復号機能203は候補ROIの復号されたビデオデータ132を分析機能206に転送する。分析機能206は、各ROIに対応する復号されたビデオデータ132を分析して、それが検索クエリ160によって指定された特定の属性又は属性のセットと一致するかどうかを判定する。一致すると判明した場合、そのROIの復号されたビデオデータは、検索クエリに一致する復号されたビデオデータ150として出力される。分析機能206は、一般に、畳み込みニューラルネットワークによって実装される分析方法など、この目的のための任意の公知の分析方法を実装することができる。分析機能206によって実装される方法は、復号システム200によってサポートされるべき検索属性のタイプに依存し得る。例えば、特定の所定のオブジェクトクラスのオブジェクトの検索がサポートされるべきである場合、分析機能206は、ROIの復号されたビデオデータ132を入力として取得し、ビデオデータによって描写されたオブジェクトのオブジェクトクラスを判定するオブジェクト分類方法を実装することができる。判定したオブジェクトクラスが検索クエリのオブジェクトクラスと一致する場合、そのROIの復号されたビデオデータを、検索クエリ160と一致する復号されたビデオデータ150として出力することができる。検索クエリ160がスポーツカーに関するものである図5の例では、スポーツカーは、オブジェクト分類方法がサポートする所定のクラスの中にあるべきである。次に、復号システム100は、図6に示すようにスポーツカーを描写する復号されたビデオデータ150を出力する。別の例では、検索が画像によって描写された特定のオブジェクトに関するものである場合、分析機能206は、ROIのビデオデータに描写されたオブジェクトと特定のオブジェクトの画像との間の類似性を反映する類似性スコアを出力する再識別方法を実装することができる。スコアが閾値よりも高い場合、ROIの復号されたビデオデータを、検索クエリ160に一致する復号されたビデオデータ150として出力することができる。そのような分析方法は、色、ポーズ、オブジェクトが着用又は携行するアイテムなどを認識するための方法を含む、分析機能206に含めることができる分析方法のより多くの例があることが理解される。色を分類するように訓練された標準的な分類器、ポーズを認識するためのOpenPose(arXiv:1812.08008)、所与のカテゴリのオブジェクトを検出するためのMask-RCNN(arXiv:1703.06870)又はシングルショット検出器(SSD)(arXiv:1512.02325)を含み、それ自体当技術分野で公知であり、したがって本明細書ではさらに説明されない。
【0072】
当業者は、上記の実施形態を多くの方法で修正し、さらに上記の実施形態に示された本発明の利点を使用することができることが理解されよう。したがって、本発明は、示された実施形態に限定されるべきではなく、添付の特許請求の範囲によってのみ定義されるべきである。さらに、当業者が理解するように、図示の実施形態を組み合わせることができる。
図1
図2
図3
図4
図5
図6
図7
図8