特許7474300 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス　アーベーの特許一覧

特許7474300ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-16

(45)【発行日】2024-04-24

(54)【発明の名称】ビデオデータ内の検索の実施に関連してビデオデータを符号化及び復号するための方法及びシステム

(51)【国際特許分類】

H04N 19/167 20140101AFI20240417BHJP

H04N 21/4728 20110101ALI20240417BHJP

H04N 21/8352 20110101ALI20240417BHJP

H04N 21/8405 20110101ALI20240417BHJP

H04N 19/44 20140101ALI20240417BHJP

【ＦＩ】

H04N19/167

H04N21/4728

H04N21/8352

H04N21/8405

H04N19/44

【請求項の数】 15

【外国語出願】

(21)【出願番号】P 2022167409

(22)【出願日】2022-10-19

(65)【公開番号】P2023064072

(43)【公開日】2023-05-10

【審査請求日】2023-09-22

(31)【優先権主張番号】21204471

(32)【優先日】2021-10-25

(33)【優先権主張国・地域又は機関】EP

【早期審査対象出願】

(73)【特許権者】

【識別番号】502208205

【氏名又は名称】アクシスアーベー

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】ダニエルソンファン，シン

(72)【発明者】

【氏名】ダニエルソン，ニクラス

【審査官】間宮嘉誉

(56)【参考文献】

【文献】特開２００７－３００６５７（ＪＰ，Ａ）

【文献】特表２００７－５０４７４６（ＪＰ，Ａ）

【文献】特表２０１８－５１２９１３（ＪＰ，Ａ）

【文献】国際公開第２０１０／０３３６４２（ＷＯ，Ａ２）

【文献】米国特許出願公開第２０１８／０２７０２８７（ＵＳ，Ａ１）

【文献】特表２０２０－５３７２６２（ＪＰ，Ａ）

【文献】特開２００１－１６００６２（ＪＰ，Ａ）

【文献】THANG, Truong Cong et al.，Spatial Scalability of Multiple ROIs in Surveillance Video，JVT-O037，ITU，2015年04月14日，pp.1-13，[online]，[retrieved on 2024-03-27]，Retrieved from the Internet: <URL: https://www.itu.int/wftp3/av-arch/jvt-site/2005_04_Busan/JVT-O037.doc>

【文献】LIU, Qiyu et al.，RIDE: A System for Generalized Region of Interest Discovery and Exploration，Proc. IEEE 36th International Conference on Data Engineering 2020，米国，IEEE，2020年05月27日，pp.1738-1741，[online]，[retrieved on 2024-03-27]，Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/9101544>，https://doi.org/10.1109/ICDE48307.2020.00158

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１０－７／１７３

Ｈ０４Ｎ７／２０－７／５６

Ｈ０４Ｎ１９／００－２１／８５８

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

ビデオデータ内の検索の実施に関連して前記ビデオデータを復号するための方法であって、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータを受信することであって、ビデオフレーム内の独立して復号可能な関心領域は、前記関心領域と空間的にオーバーラップする前記符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで復号可能である、符号化されたビデオデータを受信することと、
前記符号化されたビデオデータとは別のデータエンティティとして、符号化されたビデオフレームの識別子と、前記符号化されたビデオフレーム内の各関心領域の識別子と、前記符号化されたビデオフレーム内のどの関心領域が独立して復号可能であるかの識別情報とを含むデータユニットを各々が含むメタデータを受信することであって、
前記符号化されたビデオデータには、前記メタデータにおいて独立して復号可能であると識別された各関心領域の前記識別子を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報が埋め込まれている、メタデータを受信することと、
前記符号化されたビデオデータ内の関心領域間の検索に関する検索クエリを受信することと、
前記検索クエリの受信に応答して、独立して復号可能であると識別された１つ又は複数の関心領域の識別子、及びそれらが存在する前記符号化されたビデオフレームを発見して提供するために、前記メタデータ内で検索することと、
符号化されたビデオフレーム内に存在する発見された領域ごとに、
前記符号化されたビデオデータに埋め込まれた前記情報を使用して、前記関心領域の前記識別子に関連付けられたコーディングユニットのセットを識別し、
前記符号化されたビデオフレームの前記識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ前記符号化されたビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、前記関心領域に対応する復号されたビデオデータを生成することと
を含む、ビデオデータを復号するための方法。

【請求項2】

前記メタデータは、前記関心領域の属性をさらに示し、前記検索クエリは、特定の属性を有する前記符号化されたビデオ内の関心領域間の検索に関連し、
前記検索することは、独立して復号可能で、前記検索クエリの前記特定の属性と一致する属性を有すると識別された１つ又は複数の関心領域を発見するために、前記メタデータ内で検索することを含む、
請求項１に記載のビデオデータを復号するための方法。

【請求項3】

前記検索クエリは、特定の属性を有する前記符号化されたビデオデータ内の関心領域間の検索に関し、前記方法は、
前記関心領域に対応する前記復号されたビデオデータを分析して、それが前記検索クエリの前記特定の属性と一致するかどうかを判定すること
をさらに含む、請求項１に記載のビデオデータを復号するための方法。

【請求項4】

前記メタデータにおいて独立して復号可能であると識別された関心領域の識別子に関連付けられている前記符号化されたビデオデータ内のコーディングユニットがイントラ符号化される、請求項１に記載のビデオデータを復号するための方法。

【請求項5】

ビデオデータを符号化するための方法であって、
関心領域が存在するビデオフレームを含むビデオデータを受信することと、
前記関心領域の識別子及び前記関心領域が存在する前記ビデオフレームの識別子を含む第１のメタデータを受信することと、
前記受信した第１のメタデータを使用して、それらの各々のうちの１つ又は複数のビデオフレーム及び１つ又は複数の関心領域を選択することと、
符号化されたビデオデータを生成するために前記ビデオデータを符号化することであって、各選択されたビデオフレーム及びその中の各選択された関心領域の前記符号化は、
前記関心領域を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつ前記ビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、前記関心領域と空間的にオーバーラップする、前記コーディングユニットのセット内の前記ビデオフレームのビデオデータを符号化すること、
前記関心領域の識別子を前記関心領域と空間的にオーバーラップする前記コーディングユニットのセットに関連付ける情報を、前記符号化されたビデオデータに埋め込むこと、並びに
前記関心領域の前記識別子、前記ビデオフレームの識別子、及び前記関心領域が独立して復号可能であるとする識別情報を含む第２のメタデータを生成することであって、前記第２のメタデータは、前記符号化されたビデオデータとは別個のデータエンティティである、第２のメタデータを生成すること
を含む、ビデオデータを符号化することと
を含む、ビデオデータを符号化するための方法。

【請求項6】

前記選択された１つ又は複数のビデオフレームは、関心領域が存在する前記ビデオフレームの厳密なサブセットを含む、請求項５に記載のビデオデータを符号化するための方法。

【請求項7】

前記受信した第１のメタデータは、共通トラックに属するものとして後続のビデオフレーム内の複数の関心領域をさらに識別し、前記選択された１つ又は複数のビデオフレームは、すべての前記後続のビデオフレームよりも少ないビデオフレームを含む、請求項５に記載のビデオデータを符号化するための方法。

【請求項8】

前記選択された１つ又は複数のビデオフレーム及びそれらの各々における前記選択された１つ又は複数の関心領域は、目標画像特性に対する前記関心領域内の画像特性の近さに基づいてさらに識別される、請求項５に記載のビデオデータを符号化するための方法。

【請求項9】

前記選択された１つ又は複数のビデオフレーム内の前記選択された１つ又は複数の関心領域によってカバーされる前記ビデオデータ内の画素の量が、時間単位ごと又は識別されたビデオフレームごとの前記ビデオデータ内の画素の総量の所定の割合未満である、請求項５に記載のビデオデータを符号化するための方法。

【請求項10】

前記関心領域内のビデオデータを分析してそれらを属性に関連付けることと、前記関心領域の前記属性を前記第２のメタデータに含めることとをさらに含む、請求項５に記載のビデオデータを符号化するための方法。

【請求項11】

前記関心領域と空間的にオーバーラップする前記コーディングユニットのセット内の前記ビデオデータがイントラ符号化される、請求項５に記載のビデオデータを符号化するための方法。

【請求項12】

ビデオデータ内の検索の実施に関連して前記ビデオデータを復号するための復号システムであって、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータであって、ビデオフレーム内の独立して復号可能な関心領域は、前記関心領域と空間的にオーバーラップする前記符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで復号可能である、ビデオデータを受信するように、かつ前記符号化されたビデオデータとは別のデータエンティティとして、符号化されたビデオフレームの識別子と、前記符号化されたビデオフレーム内の各関心領域の識別子と、前記符号化されたビデオフレーム内のどの関心領域が独立して復号可能であるかの識別情報とを含むデータユニットを各々が含むメタデータを受信するように構成された受信機能であって、
前記符号化されたビデオデータには、前記メタデータにおいて独立して復号可能であると識別された各関心領域の前記識別子を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報が埋め込まれている、
受信機能と、
前記符号化されたビデオデータ内の関心領域間の検索に関する法医学検索クエリを受信するように、かつ前記法医学検索クエリの受信に応答して、独立して復号可能であると識別された１つ又は複数の関心領域の識別子、及びそれらが存在する前記符号化されたビデオフレームを発見して提供するために、前記メタデータ内で検索するように構成された検索機能と、
符号化されたビデオフレーム内に存在する発見された関心領域ごとに、
前記符号化されたビデオデータに埋め込まれた前記情報を使用して、前記関心領域の前記識別子に関連付けられたコーディングユニットのセットを識別し、
前記符号化されたビデオフレームの前記識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ前記符号化されたビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、前記関心領域に対応する復号されたビデオデータを生成する
ように構成された復号機能と
を実装するように構成された回路を備える、復号システム。

【請求項13】

ビデオデータを符号化するための符号化システムであって、
関心領域が存在するビデオフレームを含むビデオデータを受信するように、かつ前記関心領域の識別子及びそれらが存在する前記ビデオフレームの識別子を含む第１のメタデータを受信するように構成された受信機能と、
前記受信した第１のメタデータを使用して、それらの各々のうちの１つ又は複数のビデオフレーム及び１つ又は複数の関心領域を選択するように構成された関心領域選択機能と、
符号化されたビデオデータを生成するために前記ビデオデータを符号化するように構成された符号化機能であって、各選択されたビデオフレーム及びその中の各選択された関心領域の前記符号化は、
前記関心領域を、前記関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつ前記ビデオフレーム内の前記コーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、前記関心領域と空間的にオーバーラップする、前記コーディングユニットのセット内の前記ビデオフレームのビデオデータを符号化すること、
前記関心領域の識別子を前記関心領域と空間的にオーバーラップする前記コーディングユニットのセットに関連付ける情報を、前記符号化されたビデオデータに埋め込むこと、並びに
前記関心領域の前記識別子、前記ビデオフレームの識別子、及び前記関心領域が独立して復号可能であるとする識別情報を含む第２のメタデータを生成することであって、前記第２のメタデータは、前記符号化されたビデオデータとは別個のデータエンティティである、第２のメタデータを生成すること
を含む、符号化機能と
を実装するように構成された回路を備える、符号化システム。

【請求項14】

処理能力を有するデバイスによって実行されると、前記デバイスに請求項１から４のいずれか一項に記載の復号方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体。

【請求項15】

処理能力を有するデバイスによって実行されると、前記デバイスに請求項５から１１のいずれか一項に記載の符号化方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、符号化されたビデオデータにおける検索の分野に関する。特に、本発明は、符号化されたビデオデータ内の検索を容易にするためのビデオデータの符号化、及び符号化されたビデオデータ内の検索の実施に関連した符号化されたビデオデータの復号に関する。

【背景技術】

【0002】

ビデオカメラは、監視目的でよく使用される。ビデオカメラは、後の検索のために符号化されたフォーマットで記憶されるビデオデータを生成する。例えば、事件が報告されたとき、衣服に特定の色を有する特定の１人又は複数の人を発見するなど、記憶されたビデオデータを検索してその中の特定のコンテンツを発見することができる。ビデオデータから特定のコンテンツを手動で探すことは非常に面倒であり、より大型のカメラ設備では実行できない可能性があり、したがって、ビデオデータを自動的に検索する検索手順が提案されている。

【0003】

これらの自動検索手順は、符号化されたビデオデータに関連付けられたメタデータによって駆動される。メタデータは、どのビデオフレームに関心領域（ＲＯＩ）があるか、及び場合によってはさらに、それらのビデオフレームのどこにＲＯＩが位置するかを示すことができる。例えば、メタデータは、どのフレームにオブジェクトがあるか、及びフレーム内のそれらのオブジェクトのバウンディングボックスを示すことができる。メタデータ内で検索することにより、ビデオデータを復号する必要なく、さらに分析するために関連するビデオフレームを識別することができる。関連するビデオフレームを発見した後、自動検索手順は、次に、関連するフレームの復号、及びＲＯＩ内の復号されたビデオデータが特定の検索基準と一致するかどうかの分析に進むことができる。

【0004】

これらの自動検索手順の欠点は、低速で処理が激しく、したがって、数台より多くのカメラを有するカメラ設備によって収集されたビデオ資料などのより大きなビデオ資料での検索には適していないことである。その理由の１つは、関連するビデオフレームの復号が非効率的であることである。この理由が該当することを確認するために、ビデオデータを符号化するとき、ビデオフレームの大部分は、典型的には、他のビデオフレームを参照することによってインター符号化されることに留意されたい。そのようなフレームは、Ｐフレーム又はＢフレームとしても知られている。ビデオフレームがイントラ符号化、すなわち、他のビデオフレームと独立して符号化されることは、まれにしか生じない。イントラ符号化されたフレームは、Ｉフレームとしても知られている。これは、ビデオデータ内の特定のフレームを復号するために、最も近い先行するイントラ符号化されたフレームから復号を開始し、次いで特定のフレームに至るまでインター符号化されたフレームを復号しなければならないことを意味する。したがって、検索に関連するビデオフレームを復号するために、検索に関連しない多くのビデオフレームを復号する必要がある。さらに、ビデオフレームは、従来、ラスタ走査方向でマクロブロックごとに符号化及び復号されることに留意されたい。したがって、ビデオフレームの小さな領域のみが対象であっても、ビデオフレーム全体を復号することになる。例えば、監視シナリオでは、ビデオフレーム内の対象のオブジェクトが１００×５０画素のみ、又はそれ未満しかカバーしないことは珍しくなく、これはビデオの典型的なビデオフレームのごく小さな部分である。したがって、改善の余地がある。

【発明の概要】

【0005】

上記を鑑みて、本発明は、上記の問題点を解消し、符号化されたビデオデータ内の検索の効率化に寄与するビデオ符号化及びビデオ復号の方法を提供することを目的とする。

【0006】

本発明は、添付の独立請求項によって定義され、一方、本発明の実施形態は、従属請求項によって定義される。

【0007】

本発明の第１の態様によれば、ビデオデータ内の検索の実施に関連してビデオデータを復号するための方法及びシステムが提供される。

【0008】

復号方法は、
独立して復号可能な関心領域が存在する符号化されたビデオフレームを含む符号化されたビデオデータを受信することであって、各独立して復号可能な関心領域を、独立して復号可能な関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付ける情報が、符号化されたビデオデータに埋め込まれている、受信することと、
独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを識別するメタデータを受信することと、
符号化されたビデオデータ内の関心領域間の検索に関する検索クエリを受信することと、
検索クエリの受信に応答して、１つ又は複数の独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを発見するためにメタデータ内で検索することと、
符号化されたビデオフレーム内に存在し、検索時に発見された独立して復号可能な領域ごとに、
符号化されたビデオデータに埋め込まれた情報を使用することによって、独立して復号可能な関心領域に関連付けられているコーディングユニットのセットを識別し、
符号化されたビデオフレームの識別されたコーディングユニットのセットを、他のビデオフレーム内のビデオデータとは独立して、かつ符号化されたビデオフレーム内のコーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して復号して、独立して復号可能な関心領域に対応する復号されたビデオデータを生成することと
を含む。

【0009】

この復号方法によれば、受信した符号化されたビデオデータ内のＲＯＩの少なくとも一部が独立して復号可能である。これは、ＲＯＩ内のビデオデータが、先行するビデオフレーム又は同じビデオフレーム内の他の領域を最初に復号することなく復号され得るように符号化されることを意味する。実際にそのようなＲＯＩにおいてビデオデータの独立した復号を実装するために、デコーダは、ＲＯＩに対応するのがどのビデオフレーム内のどのコーディングユニットであるかを通知される必要がある。デコーダがこのことを知ると、デコーダは、同じ又は別のビデオフレームの他のコーディングユニットを最初に復号することなく、それらのコーディングユニットを選択的に復号することができる。

【0010】

検索クエリに応答してどのビデオフレーム内のどのコーディングユニットを復号するかに関してデコーダに通知するために、２段階手順が提案される。第１の段階は、独立して復号可能なＲＯＩ及びそれらが存在する符号化されたビデオフレームを識別するメタデータに依存する。したがって、検索クエリが受信されると、１つ又は複数の独立して復号可能なＲＯＩ及びそれらが存在する符号化されたビデオフレームを発見するために、メタデータが検索され得る。第２の段階は、メタデータによって識別された各独立して復号可能なＲＯＩを、ＲＯＩと空間的にオーバーラップするコーディングユニットのセットと関連付ける、符号化されたビデオデータに埋め込まれた情報に依存する。したがって、埋め込まれた情報は、検索中に発見された符号化されたビデオフレーム内の独立して復号可能なＲＯＩに関連付けられているコーディングユニットのセットの識別を可能にする。最後に、それらの符号化されたビデオフレーム内のコーディングユニットの識別されたセットを選択的に復号することができる。

【0011】

したがって、メタデータ、及びビデオデータに埋め込まれた情報は、検索クエリに応答して、選択されたＲＯＩ以外のビデオデータを復号する必要なく、独立して復号可能なＲＯＩを選択的に復号することを可能にする。これにより、ビデオデータ内の検索がより効率的になる。

【0012】

ビデオフレーム内の関心領域は、ユーザにとって特に関心があり得るビデオフレーム内の画素領域を指す。関心領域は、例えば、ビデオフレーム内の検出されたオブジェクトの画素領域に対応し得る。

【0013】

ビデオデータ内の検索は、一般に、特定の検索クエリに一致するビデオデータ内のＲＯＩの検索に関連し得る。検索は、法医学目的のために行われてもよく、すなわち、検索の目的がビデオ資料内の証拠を発見することである法医学的検索であってもよい。例えば、青色のジャケットを着ているすべての人を発見したい場合もあれば、特定の人がビデオデータに描写されているかどうかを知りたい場合もある。

【0014】

コーディングユニットとは、符号化中に使用される基本処理ユニットを形成する画像フレーム内の画素のブロックを意味する。コーディング規格に応じて、コーディングユニットは、マクロブロック（Ｈ．２６４）又はコーディングツリーユニット（Ｈ．２６５）としても公知である。

【0015】

独立して復号可能な関心領域及びそれらが存在する符号化されたビデオフレームを識別するメタデータは、符号化されたビデオデータに関連付けられるが、典型的には、別個のメタデータストリームなどの別個のデータエンティティとして提供される。したがって、符号化されたビデオデータを解析する必要なく、メタデータ内で検索を行うことができる。また、ビデオデータにメタデータを埋め込むようにしてもよい。

【0016】

情報が符号化されたビデオデータに埋め込まれることは、情報が符号化されたビデオフレームの中に含まれることを意味する。しかしながら、情報は、ビデオデータ自体を最初に復号する必要なく、符号化されたビデオデータから読み取り可能である。例えば、情報は、符号化されたビデオフレームのピクチャパラメータセット（ＰＰＳ）ヘッダなどのヘッダ、又は符号化されたビデオデータに挿入される専用補足強化情報（ＳＥＩ）フレームに埋め込まれ得る。

【0017】

符号化されたビデオフレーム内のＲＯＩが独立して復号可能であることは、ＲＯＩと空間的にオーバーラップする符号化されたビデオフレームのコーディングユニット内の符号化されたビデオデータを使用又は参照するのみで、符号化されたビデオフレーム内のＲＯＩが復号され得ることを意味する。異なる言い方をすれば、ＲＯＩ内のビデオデータは、同じフレーム内のＲＯＩの外側のビデオデータ又は別のフレーム内のビデオデータを参照することなく符号化される。例えば、ＲＯＩと空間的にオーバーラップするコーディングユニットのセット内のビデオデータは、イントラ符号化され得る。イントラ符号化は、独立して復号可能な関心領域内に空間的に制約されてもよく、すなわち、イントラ符号化は、ＲＯＩの内部のビデオデータのみを参照する。

【0018】

検索クエリは、特定の属性又は属性の特定の組み合わせを有する符号化されたビデオデータ内のＲＯＩの検索に関する場合がある。ＲＯＩの属性とは、ＲＯＩ内のビデオデータの属性又は特性を意味する。例えば、ＲＯＩがオブジェクトに対応する場合、ＲＯＩの属性は、オブジェクトクラス、オブジェクトの色、オブジェクトの識別情報、帽子又はバッグなどのオブジェクトが着用又は携行するアイテムなどのオブジェクトの属性又は特性であり得る。場合によっては、ＲＯＩ内のビデオデータは、符号化される前に既に分析され、属性でタグ付けされている場合がある。その場合、メタデータは、独立して復号可能な関心領域の属性をさらに示すことができ、検索は、検索クエリの特定の属性と一致する属性を有する１つ又は複数の独立して復号可能なＲＯＩを発見するためにメタデータ内で検索することを含むことができる。これは、符号化側においてより多くの処理が実施されることを必要とするが、関心のある属性を有するＲＯＩのみを検索中に発見し、復号すればよいため、復号側における処理能力を節約する。

【0019】

他の場合には、メタデータがＲＯＩに属性をタグ付けしない場合、本方法は、独立して復号可能なＲＯＩに対応する復号されたビデオデータを分析して、それが検索クエリの特定の属性と一致するかどうかを判定することができる。これは、最終的に検索クエリと一致しないＲＯＩのビデオデータも復号する必要があるため、復号側でより多くの処理能力を必要とする。しかしながら、同時に、符号化側の処理負担が軽減される。

【0020】

メタデータは、符号化されたビデオフレーム内の各独立して復号可能なＲＯＩの識別子を含むことができ、符号化されたビデオデータに埋め込まれた情報は、各独立して復号可能なＲＯＩの識別子を、独立して復号可能なＲＯＩと空間的にオーバーラップするコーディングユニットと関連付けることができる。識別子の使用は、符号化されたビデオフレーム内のコーディングユニットとＲＯＩをリンクする効率的な方法である。

【0021】

本発明の第２の態様によれば、ビデオデータを符号化するための方法及びシステムが提供される。

【0022】

符号化方法は、
関心領域が存在するビデオフレームを含むビデオデータを受信することと、
関心領域、及びそれらがどのビデオフレームに存在するかを識別する第１のメタデータを受信することと、
受信した第１のメタデータを使用して、それらの各々のうちの１つ又は複数のビデオフレーム及び１つ又は複数の関心領域を選択することと、
符号化されたビデオデータを生成するためにビデオデータを符号化することであって、各選択されたビデオフレーム及びその中の各選択された関心領域の符号化は、
関心領域を、関心領域と空間的にオーバーラップするコーディングユニットのセットと関連付けること、
他のビデオフレーム内のビデオデータとは独立して、かつビデオフレーム内のコーディングユニットのセットの外側のコーディングユニット内のビデオデータとは独立して、関心領域と空間的にオーバーラップする、コーディングユニットのセット内のビデオフレームのビデオデータを符号化すること、
関心領域を関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報を、符号化されたビデオデータに埋め込むこと、並びに
ビデオフレーム内の関心領域が独立して復号可能であると識別する第２のメタデータを生成すること
を含む、符号化することと
を含む。

【0023】

したがって、この符号化方法は、ビデオフレーム内のＲＯＩの少なくともいくつかを、他のビデオフレーム内のビデオデータとは独立して、かつＲＯＩの外側のコーディングユニット内のビデオデータとは独立して符号化する。したがって、これらのＲＯＩの符号化時に使用される他のビデオデータへのいかなる参照も、ＲＯＩ内にあるように制約される。さらに、符号化方法は、独立して復号可能なＲＯＩ及びそれらが存在するビデオフレームを識別するメタデータを生成し、各独立して復号可能なＲＯＩを関心領域と空間的にオーバーラップするコーディングユニットのセットに関連付ける情報を、符号化されたビデオデータに埋め込む。したがって、上述したように、符号化方法は、選択されたＲＯＩ以外のビデオデータを復号する必要なく、検索クエリに応答してデコーダ側で、独立して復号可能なＲＯＩを選択的に復号することを可能にする。これにより、ビデオデータ内の検索がより効率的になる。

【0024】

いくつかの実施形態では、選択された１つ又は複数のビデオフレームは、ＲＯＩが存在するすべてのビデオフレームに対応することができる。例えば、ＲＯＩが存在するすべてのビデオフレーム、及びそれらの中のすべてのＲＯＩが選択され得る。他の実施形態では、選択された１つ又は複数のビデオフレームは、関心領域が存在するビデオフレームの厳密なサブセットを含み得る。したがって、すべてのＲＯＩよりも少ないＲＯＩが独立した方式で符号化され得る。独立した符号化は、典型的には、ビットレートに関してより高価であるため、すべてのＲＯＩを独立して符号化しないことによってビットレートを節約することができる。この目的のために、ＲＯＩが存在するフレーム全体及び最後にイントラ符号化されたフレームから始まる任意の先行ビデオフレームを復号することを犠牲にしても、独立して符号化されないＲＯＩが依然として符号化され、デコーダ側で依然として復号され得ることに留意されたい。

【0025】

どのＲＯＩを独立して符号化するかを選択するために、様々な手法を使用することができる。第１の手法によれば、第１のメタデータは、共通トラックに属するものとして後続のビデオフレーム内の複数の関心領域をさらに識別し、選択された１つ又は複数のビデオフレームは、すべての前記後続のビデオフレームよりも少ないビデオフレームを含む。したがって、ビデオデータがオブジェクトの動きをキャプチャするときなど、後続のビデオフレーム間でＲＯＩが移動するとき、すべてではなく、１つ又は少数の後続のビデオフレーム内のＲＯＩを独立して符号化することを選択することができる。これにより、共通のトラックに属するＲＯＩに対して効率的な検索が可能になると同時にビットレートが節約される。これは、検索目的では、トラック全体を復号するのではなく、トラックの１フレーム又は数フレーム内でＲＯＩを復号することで十分であることが多いからである。

【0026】

第２の手法によれば、選択された１つ又は複数のビデオフレーム及びそれらの各々の中の選択された１つ又は複数の関心領域は、目標画像特性に対する関心領域内の画像特性の近さに基づいてさらに識別される。画像特性は、照明条件、描写されたオブジェクトのオクルージョン比、及び描写されたオブジェクトのポーズのうちの１つ又は複数を含むことができる。したがって、どのようなＲＯＩを独立して符号化するかを選択するとき、好ましい画像特性を有するＲＯＩを選択することができる。第２の手法は、第１の手法と組み合わせることができる。例えば、共通トラック内のどのＲＯＩを独立して符号化するかを選択するとき、最も好ましい画像特性を有するＲＯＩを選択してもよい。一例では、描写されたオブジェクトがカメラに面する、照明条件が最良である、及び／又は描写されたオブジェクトが最も遮られていない共通トラック内の１つ又は複数のＲＯＩを選択してもよい。

【0027】

符号化されたビデオデータ内に独立して符号化されたＲＯＩを有することは、符号化されたビデオのビットレートを増加させるが、ＲＯＩによってカバーされる領域はビデオフレームの領域に対して小さいため、追加のビットレートコストは、典型的な監視シナリオでは非常に低い。また、ほとんどの監視シナリオでは、フレーム内にＲＯＩが存在しない時間間隔は、フレーム内にＲＯＩが存在する時間間隔よりも長い。それでも、フレームごと又は経時的にビットレートを制御するために、時間単位ごと又はフレームごとに独立して符号化することができる画素の量に上限を導入することが可能である。特に、選択された１つ又は複数のビデオフレーム内の選択された１つ又は複数のＲＯＩによってカバーされる、ビデオデータ内の画素の量は、時間単位ごと又は選択されたビデオフレームごとのビデオデータ内の画素の総量の所定の割合未満であり得る。したがって、これにより、検索アプリケーションの検索時間を最適化するために許容され得る余分なビットレートの量に制限を設定することができる。

【0028】

符号化方法は、ＲＯＩ内のビデオデータを分析してそれらを属性に関連付けることと、関心領域の属性を第２のメタデータに含めることとをさらに含むことができる。上述したように、これは、復号が行われる前に検索クエリと一致する属性を有するＲＯＩが識別されることを可能にするので、復号側における処理能力を節約する。

【0029】

本発明の第３の態様によれば、処理能力を有するデバイスによって実行されると、デバイスに第１の態様の復号方法又は第２の態様の符号化方法を実施させるコンピュータコード命令が記憶された非一時的コンピュータ可読媒体が提供される。

【0030】

第３の態様は、一般に、第１の態様及び第２の態様と同じ特徴及び利点を有することができる。本発明は、特に明記しない限り、特徴のすべての可能な組み合わせに関することにさらに留意されたい。

【0031】

本発明の上記及び追加の目的、特徴及び利点は、添付の図面を参照して、本発明の実施形態の以下の例示的かつ非限定的な詳細な説明によってよりよく理解され、同様の要素には同じ参照番号が使用される。

【図面の簡単な説明】

【0032】

【図1】実施形態による符号化システム及び復号システムを模式的に示す図である。

【図2】実施形態による符号化システムを模式的に示す図である。

【図3】実施形態による復号システムを模式的に示す図である。

【図4】ビデオデータ及び関連する第１のメタデータを模式的に示す図である。

【図5】符号化されたビデオデータ及び関連する第２のメタデータを模式的に示す図である。

【図6】ビデオ復号システムの出力を概略的に示す図である。

【図7】実施形態による符号化方法のフローチャートである。

【図8】実施形態による復号方法のフローチャートである。

【発明を実施するための形態】

【0033】

次に、本発明の実施形態が示されている添付の図面を参照して、本発明を以下により完全に説明する。本明細書で開示されるシステム及びデバイスは、動作中で説明される。

【0034】

図１は、ビデオ符号化システム１００及び対応するビデオ復号システム２００を示す。ビデオ符号化システム１００及びビデオ復号システム２００は、ビデオデータの効率的な検索を容易にするように特に設計されている。ビデオ符号化システム１００は、ビデオカメラに含まれてもよい。復号システム２００は、ビデオ管理システムに含まれてもよい。

【0035】

図２及び図３は、符号化システム１００及び復号システム２００をより詳細に示している。一般に、符号化システム１００は、受信機能１０１、ＲＯＩ選択機能１０２、及び符号化機能１０３を実装するように構成された回路を備える。任意選択で、符号化システム２００の回路はまた、分析機能１０６を実装するように構成されてもよい。同様に、復号システム２００は、受信機能２０１、検索機能２０２、及び復号機能２０３を実装するように構成された回路を備える。任意選択で、復号システム２００の回路はまた、分析機能２０６を実装するように構成されてもよい。

【0036】

ハードウェア実装では、機能１０１、１０２、１０３、１０６、２０１、２０２、２０３、２０６の各々は、専用であり、機能を実施するように特別に設計された回路に対応してもよい。回路は、１つ若しくは複数の特定用途向け集積回路又は１つ若しくは複数のフィールドプログラマブルゲートアレイなどの、１つ又は複数の集積回路の形態であってもよい。例として、符号化機能１０３は、使用時にビデオデータを符号化して符号化されたビデオデータを生成する回路を備えることができる。

【0037】

ソフトウェア実装形態では、回路は、代わりに、不揮発性メモリなどの（非一時的）コンピュータ可読媒体１０４、２０４に記憶されたコンピュータコード命令に関連して、符号化システム１００及び復号システム２００に本明細書に開示された任意の方法を実施させるマイクロプロセッサなどのプロセッサ１０５、２０５の形態であってもよい。不揮発性メモリの例には、読み出し専用メモリ、フラッシュメモリ、強誘電体ＲＡＭ、磁気コンピュータ記憶デバイス、光ディスクなどが含まれる。したがって、ソフトウェアの場合、機能１０１、１０２、１０３、１０６、２０１、２０２、２０３、２０６はそれぞれ、プロセッサ１０４又は２０４によって実行されると、符号化システム１００又は復号システム２００にこれらの機能を実施させる、コンピュータ可読媒体に記憶されたコンピュータコード命令の一部に対応することができる。

【0038】

ハードウェアとソフトウェア実装との組み合わせを有することも可能であり、これは、コンポーネント１０１、１０２、１０３、１０６、２０１、２０２、２０３、２０６の一部の機能がハードウェアで実装され、他の機能がソフトウェアで実装されることを意味することを理解されたい。

【0039】

次に、図１、図２、図４～図５、及び図７のフローチャートを参照して、ビデオデータを符号化するための方法Ｓ１００を実施するときの符号化システム１００の動作を説明する。

【0040】

ステップＳ１０２及びＳ１０４において、受信機能１０１は、ビデオデータ１１０及び第１のメタデータ１２０をそれぞれ受信する。図４にさらに示すように、ビデオデータ１１０は、ＲＯＩ１１２が存在するビデオフレーム１１０－１、１１０－２、１１０－３、１１０－４、１１０－５、１１０－６を含む。図示の例では、ビデオフレーム１１０－１及び１１０－２の各々に２つのＲＯＩがあり、ビデオフレーム１１０－３及び１１０－６の各々に１つのＲＯＩがある。長期間の監視ビデオで一般的なように、ＲＯＩが存在しないビデオフレーム１１０－４及び１１０－５もある。ＲＯＩは、ビデオフレーム内で検出されたオブジェクトに対応することができる。この場合、ＲＯＩは人及び車に対応する。

【0041】

第１のメタデータ１２０は、ＲＯＩ１１２及びそれらが存在するビデオフレームを識別する情報を含む。第１のメタデータ１２０は、典型的には、ビデオデータとは別個のデータエンティティとして提供されるが、例えば補足拡張情報（ＳＥＩ）フレームを使用することによってビデオデータ１１０に埋め込むことも可能である。第１のメタデータ１２０は、例えばビデオデータ１１０内のオブジェクトの検出に関連して、ビデオ符号化システム１００の上流で生成される。その目的のために、当技術分野で公知の任意のオブジェクト検出アルゴリズムを使用することができる。第１のメタデータ１２０は、各々がビデオデータ１１０内のビデオフレームを識別し、そのビデオフレーム内のＲＯＩに関する情報を含むデータユニット１２０－１、１２０－２、１２０－３、１２０－６を含むことができる。より詳細には、第１のメタデータ１２０は、ＲＯＩが存在するビデオフレーム１１０－１、１１０－２、１１０－３、１１０－６の識別子を含むことができる。第１のメタデータ１２０は、ビデオフレーム１１０－１、１１０－２、１１０－３、１１０－６内の各ＲＯＩの識別子をさらに含むことができる。これらの識別子は、フレーム番号、及びフレーム内の各ＲＯＩの番号に関して与えられてもよい。

【0042】

識別子に加えて、第１のメタデータ１２０はまた、ＲＯＩごとに、ビデオフレーム内のＲＯＩの空間座標を指定することができる。空間座標は、ビデオフレーム内のＲＯＩの空間的カバレッジ、すなわち、ＲＯＩに含まれるビデオフレーム内の画素を定義する。例えば、ＲＯＩの輪郭を定義するバウンディングボックスの空間座標を指定することができる。空間座標は、ビデオフレーム内の画素座標に関して与えられてもよい。

【0043】

任意選択で、第１のメタデータ１２０は、ＲＯＩに関連するオブジェクト識別子をさらに含んでもよく、同じ物理オブジェクトを描写するＲＯＩは同じオブジェクト識別子に関連付けられる。したがって、オブジェクト識別子は、同じオブジェクトを描写するＲＯＩを識別するために使用することができる。特別な例として、ビデオ符号化システム１００の上流でトラッキングが実施された状況では、第１のメタデータ１２０は、ビデオフレーム内のＲＯＩが複数の後続ビデオフレームにまたがるトラックに属するかどうかを示し、そうである場合、ＲＯＩに関連付けられたトラックの識別子を含むことができる。図４に示す例では、ビデオフレーム１１０－１、１１０－２、１１０－３の人物に対応するＲＯＩがトラックを形成し、ビデオフレーム１１０－１、１１０－２の車に対応するＲＯＩが別のトラックを形成している。

【0044】

いくつかの実施形態では、ビデオデータ１１０及び第１のメタデータ１２０は、任意選択の分析機能１０６に入力され、分析機能１０６は、ステップＳ１０５においてＲＯＩ内のビデオデータを分析してＲＯＩを属性と関連付ける。それ自体当技術分野で公知のそのような分析は、オブジェクト分類、オブジェクト認識、色認識などを含むことができる。第１のメタデータ１２０内の情報は、各ＲＯＩの属性をさらに指定するために更新されてもよい。属性の例は、人物又は車などのオブジェクトクラス、及び色情報である。説明されるように、これらの属性は、復号システム２００における検索目的のために使用することができる。代替的な実施形態では、分析機能１０６は、代わりに符号化システム１００の上流に位置してもよい。

【0045】

第１のメタデータ１２０はまた、ＲＯＩ内の照明条件、描写されたオブジェクトのオクルージョン比、及び描写されたオブジェクトのポーズなどのＲＯＩの画像特性を含むことができる。ＲＯＩの画像特性は、一般に、オブジェクト認識目的などの特定の目的について、ＲＯＩ内のビデオデータの品質を反映すると言われる場合がある。画像特性は、分析機能１０６によって判定されてもよく、又は符号化システム１００の上流で判定されてもよい。

【0046】

ステップＳ１０６において、ＲＯＩ選択機能１０２は、第１のメタデータ１２０の情報を使用して、１つ又は複数のビデオフレームと、それらの各々の中の１つ又は複数のＲＯＩとを選択する。ＲＯＩ選択機能１０２は、選択されたＲＯＩ及びそれらが存在するビデオフレームの指示１２２を符号化機能１０３に渡す。いくつかの実施形態では、ＲＯＩ選択機能１０２は、ＲＯＩが存在するすべてのビデオフレーム、及びそれらの各々の中のすべてのＲＯＩを選択することができる。他の実施形態では、ＲＯＩ選択機能１０２は、代わりに、例えばＲＯＩが存在するビデオフレームの厳密なサブセットを選択することによって、又はビデオフレーム内のＲＯＩの厳密なサブセットを選択することによって、ＲＯＩの厳密なサブセットが識別又は選択されてもよい。すなわち、ＲＯＩ選択機能１０２は、ＲＯＩが存在するビデオフレームのすべてよりも少ないビデオフレーム、及び／又はすべてのＲＯＩよりも少ないＲＯＩを選択することができる。上述したように、すべてのフレーム及び／又はすべてのＲＯＩを選択しない理由は、後続の符号化中のビットレートを節約するためである。図４の例では、ＲＯＩ選択機能１０２は、ＲＯＩ１１２－１を選択しているものの、それらのＲＯＩの周りの太い境界によって示されるように、ＲＯＩ１１２－２は選択されていない。選択されたＲＯＩ１１２－１は、ビデオフレーム１１０－１のＲＯＩ２（車）、ビデオフレーム１１０－２のＲＯＩ１、及びビデオフレーム１１０－６のＲＯＩ１（スポーツカー）を含む。

【0047】

異なるビデオフレーム内の複数のＲＯＩが、第１のメタデータ１２０内のオブジェクト識別子によって示されるものと同じオブジェクトを描写する場合、ＲＯＩ選択機能１０２は、オブジェクトを描写するＲＯＩのすべてではなく、１つ又は少数のＲＯＩを選択することができる。特別な事例として、第１のメタデータ１２０内のトラック識別子によって示されるように、複数のＲＯＩが後続のビデオフレームにまたがるトラックを形成するとき、ＲＯＩ選択機能１０２は、そのトラックに属するＲＯＩのうち、すべてではなく、１つ又は少数のＲＯＩを選択することができる。したがって、同じトラック識別子を有するＲＯＩの中で、ＲＯＩ選択機能１２０は、対応する１つ又は少数のビデオフレーム内の１つ又は少数のＲＯＩを選択することができ、これらはその後、トラックの代表として機能する。図４の例では、ビデオフレーム１１０－１、１１０－２、１１０－３内の人物に対応するＲＯＩがトラックを形成しており、ＲＯＩ選択機能１０２は、そのトラックの代表として、第２のビデオフレーム１１０－２内のＲＯＩ１１２－１を選択する。同様に、ビデオフレーム１１０－１及び１１０－２内の車に対応するＲＯＩはトラックを形成し、ＲＯＩ選択機能１０２は、そのトラックの代表として、第１のビデオフレーム１１０－１内のＲＯＩ１１２－１を選択する。

【0048】

共通のトラックに属するＲＯＩの中など、同じオブジェクトを描写する複数のＲＯＩの中からどの１つ又は複数のＲＯＩを選択すべきかを識別するために、ＲＯＩ選択機能１０２は、第１のメタデータ１２０内の情報によって指定されるＲＯＩの画像特性をさらに考慮してもよい。ＲＯＩ選択機能１０２は、ＲＯＩの画像特性を目標画像特性と比較し、目標画像特性に最も近い画像特性を有する１つ又は複数のＲＯＩを選択することができる。目標画像特性は、オブジェクト認識目的などの特定の目的に望ましい画像特性を反映することができる。いくつかの例によれば、目標照明条件に最も近い照明条件を有する１つ若しくは複数のＲＯＩを選択することができ、描写されたオブジェクトのポーズが目標ポーズに最も良く一致する１つ若しくは複数のＲＯＩを選択することができ、又は最小のオクルージョン比を有する１つ若しくは複数のＲＯＩを選択することができる。図４の例では、例えば、第２のビデオフレーム１１０－２内の人物がカメラの方を向いているために選択されている一方で、ビデオフレーム１１０－１、１１０－３内の人物はカメラの方を向いておらず、したがって選択されていない場合があり得る。このようにして、ＲＯＩ選択機能１０２は、所与の目的のために最良のビデオデータの特性を有するＲＯＩを選択することができる。これらの例は、場合によっては異なる優先順位を用いて、いくつかの画像特性が選択において考慮されるように組み合わせることができる。画像特性はまた、複数のＲＯＩからいくつのＲＯＩを選択するかを決定するときに考慮されてもよい。多くの場合、目標画像特性に最も良く一致するＲＯＩを選択すれば十分であり得る。しかしながら、他の手法では、所定の閾値よりも目標画像特性に近い画像特性を有するすべてのＲＯＩが選択されてもよい。

【0049】

ＲＯＩ選択機能１０２はさらに、ビデオフレームごと及び／又は時間単位ごと、例えばピクチャグループ（ＧＯＰ）ごとに選択されたＲＯＩによってカバーすることが可能な画素の総量の割合を制限する制約を受けてもよい。この割合は、予め決定されてもよく、符号化システム１００の調整パラメータとみなされてもよい。この制限を満たすために、ＲＯＩ選択コンポーネント１０２は、第１のメタデータ１２０内の情報によって指定されるように、選択されたＲＯＩに含まれるビデオデータ内の画素量を、フレームごと及び／又は時間単位ごとの画素総量と比較してもよい。割合が限界を超える場合、ＲＯＩ選択機能１０２は、選択されるＲＯＩの数を減らす必要があり、割合を超えない場合、追加のＲＯＩを選択する余地があり得る。この手順は、制限を超えなくなるまで、又は制限を超えずにさらなるＲＯＩを追加することが不可能になるまで、ＲＯＩ選択機能１０２によって繰り返すことができる。ビットレートを低減する別の選択肢は、符号化時にＲＯＩの内側のビデオデータよりもＲＯＩの外側のビデオデータにより高い圧縮を適用することである。

【0050】

選択されたＲＯＩによってカバーされることが可能であるフレーム又は時間単位ごとの画素の総量に関する割合を設定するのではなく、ビットレートの上限を設定することができる。この上限は、所与の解像度、フレームレート、及びビデオ構成で、所与のシーンにおけるビットレート測定値又は推定値に基づくことができる。ビットレートが上限を上回る場合、ＲＯＩ選択コンポーネント１０２は、選択されたＲＯＩの数を減らし、ビットレートが上限を下回る場合、ＲＯＩ選択コンポーネント１０２は、上限を超えない限り、追加のＲＯＩを選択することができる。

【0051】

符号化機能１０３は、ＲＯＩ選択機能１０２によって選択されたＲＯＩ及び関連するビデオフレームのビデオデータ１１０、第１のメタデータ１２０及び指示１２２を受信する。符号化機能１０３は、ステップＳ１０８において、ビデオデータ１１０を符号化し、符号化されたビデオデータ１３０及び第２のメタデータ１４０を生成する。

【0052】

符号化機能１０３は、一般に、図５に示すように、ビデオフレーム１１０－１～１１０－６内のビデオデータを、対応する符号化されたビデオフレーム１３０－１～１３０－６に符号化することができる。ビデオ符号化の技術分野で公知であるように、各ビデオフレーム１１０内のビデオデータは、８×８画素、１６×１６画素、又は３２×３２画素のブロックなどのビデオフレーム内の画素のブロックを各々が含むコーディングユニットＣＵに分割することができる。次いで、各ＣＵは、フレーム内符号化（簡単にはイントラ符号化）され、これは、同じビデオフレーム内の既に符号化されたビデオデータからの空間予測を使用して予測的に符号化されることを意味し、又はフレーム間符号化（簡単にはインター符号化）され、これは、１つ又は複数の他のビデオフレーム内の既に符号化されたビデオデータからの時間予測を使用して予測的に符号化されることを意味する。イントラフレームと呼ばれるいくつかのフレームでは、すべてのＣＵがイントラ符号化される。インターフレームと呼ばれる他のフレームでは、いくつかのＣＵがイントラ符号化され、他のＣＵがインター符号化される。インターフレームにおけるＣＵのイントラ符号化とインター符号化との間の選択を、ビットレート及び歪みの考慮事項に基づいて行うことが標準的な慣行である。この標準的な慣行は、ビデオデータ１２０内のほとんどのＣＵを符号化する際の符号化機能１０３によっても採用される。しかしながら、符号化機能１０３は、ＲＯＩ選択機能１０２によって選択されたＲＯＩと空間的にオーバーラップするＣＵを符号化するときにこの標準的な慣行を適用しない。代わりに、符号化機能１０３は、選択されたＲＯＩと空間的にオーバーラップするＣＵを常にイントラ符号化する。

【0053】

より詳細には、１つ又は複数の選択されたＲＯＩを含むビデオフレームを符号化するとき、符号化機能１０３は、ビデオフレーム内の選択されたＲＯＩごとにサブステップＳ１０８ａ、Ｓ１０８ｂ、Ｓ１０８ｃ、及びＳ１０８ｄを実施する。

【0054】

サブステップＳ１０８ａにおいて、符号化機能１０３は、ビデオフレーム内の選択されたＲＯＩを、ＲＯＩと空間的にオーバーラップするＣＵのセットと関連付ける。ＲＯＩと空間的にオーバーラップするＣＵのセットを発見するために、符号化機能１０３は、ビデオフレーム内の各ＣＵの空間カバレッジを、ビデオフレーム内のＲＯＩの空間カバレッジを定義する第１のメタデータ１１０内の空間座標と比較することができる。ＲＯＩ内に位置する少なくとも１つの画素を有するＣＵは、ＣＵのセットに含まれる。

【0055】

サブステップＳ１０８ｂにおいて、符号化機能１３０は、ＲＯＩと空間的にオーバーラップするＣＵのセット内のビデオデータを符号化する。ＣＵのセット内のＣＵは、他のビデオフレーム内のビデオデータとは独立して符号化される。すなわち、それらはイントラ符号化される。さらに、それらは、同じビデオフレーム内のＣＵのセットの外側のＣＵ内のビデオデータとは独立して符号化される。言い換えると、符号化機能１３０は、イントラ符号化で使用される空間予測の範囲がＣＵのセット内にあるように制約を課す。したがって、ＣＵのセットに含まれるＣＵは、セット内のＣＵ内のビデオデータのみを参照する。ＣＵのセットをこのように符号化することにより、ＲＯＩ内のビデオデータは、復号システム２００によって独立して復号可能になる。

【0056】

図５の例では、ストライプパターンは、選択されたＲＯＩ１１２－１に対応するＣＵのセットがこの独立した方式で符号化されることを示す。任意の識別されていないＲＯＩ内のＣＵは、標準的な慣例に従って符号化される。

【0057】

サブステップＳ１０８ｃにおいて、符号化機能１０３は、ＲＯＩをＲＯＩと空間的にオーバーラップするＣＵのセットと関連付ける情報１３２を、符号化されたビデオデータ１３０に埋め込む。情報１３２は、ＲＯＩが存在する符号化されたビデオフレームのヘッダに含まれてもよく、又は符号化されたビデオフレーム１３０－１～１３０－６のシーケンスに挿入される専用補足強化情報（ＳＥＩ）フレームに含まれてもよい。一例として、そのようなＳＥＩフレームは、ＲＯＩが存在する符号化されたビデオフレームの前に挿入されてもよく、又はＧＯＰごとにＳＥＩフレームが１回挿入されてもよい。後者の場合、ＳＥＩフレームは、ＧＯＰ内のすべての独立して符号化されたＲＯＩに関する情報１３２を搬送することができ、情報１３２は、ＲＯＩに関連付けられているＣＵのセットを指定するだけでなく、ＲＯＩがどのフレームに存在するかも示すべきである。図５の図示の例では、情報１３２は、識別されたＲＯＩ１１２－１ごとに、識別されたＲＯＩと空間的にオーバーラップするＣＵのリストを含む。

【0058】

ステップＳ１０８ｄにおいて、符号化機能１０３は、ＲＯＩ及びそれが存在する符号化されたビデオフレームを識別する第２のメタデータ１４０を生成する。第２のメタデータ１４０は、各々が符号化されたビデオデータ１３０内の符号化されたビデオフレームを識別し、その符号化されたビデオフレーム内の独立して復号可能なＲＯＩに関する情報を含むデータユニット１４０－１、１４０－２、１４０－３、１４０－６を含むことができる。したがって、図５に示すように、第２のメタデータは、符号化されたビデオフレーム１３０－１内のＲＯＩ２、符号化されたビデオフレーム１３０－２内のＲＯＩ１、及び符号化されたビデオフレーム１３０－６内のＲＯＩ１を、独立して復号可能であると識別する。第２のメタデータ１４０は、独立して復号可能ではない未識別ＲＯＩ１１２－２及びそれらが存在する符号化されたフレームをさらに識別することができる。第１のメタデータ１２０と同様に、第２のメタデータ１４０は、ＲＯＩの空間座標、ＲＯＩの属性、トラック識別子などのオブジェクト識別子、及び／又はＲＯＩの画像特性に関する情報を含むことができる。いくつかの実施形態では、符号化機能１０３は、第１のメタデータ１２０を更新することによって第２のメタデータ１４０を生成してもよく、更新は、どのＲＯＩが独立して復号可能であるかの識別を追加することに関する。

【0059】

符号化されたビデオデータ１３０及び第２のメタデータ１４０は、復号システム２００に入力される。次に、図１、図３、図５～図６、及び図８のフローチャートを参照して、ビデオデータ内の検索の実施に関連してビデオデータを復号するための方法Ｓ２００を実施するときの復号システム２００の動作を説明する。

【0060】

ステップＳ２０２において、受信機能２０１は、独立して復号可能なＲＯＩ１１２－１が存在する符号化されたビデオフレーム１３０－１～１３０－６を含む符号化されたビデオデータ１３０を受信する。上述したように、符号化されたビデオデータ１３０は、独立して復号可能ではないＲＯＩ１１２－２をさらに含んでもよい。

【0061】

ステップＳ２０４において、受信機能２０１は、独立して復号可能な関心領域１１２－１及びそれらが存在する符号化されたフレーム１３０－１、１３０－２、１３０－６を識別する第２のメタデータ１４０を受信する。上述したように、第２のメタデータ１４０はまた、独立して復号可能ではない他のＲＯＩ１１２－２、及びそれらが存在する符号化されたビデオフレームを識別することができる。

【0062】

ステップＳ２０６において、検索機能２０２は、検索クエリ１６０を受信する。検索クエリ１６０は、符号化されたビデオデータ１３０内で検索を行いたいユーザによって入力されてもよい。検索は、符号化されたビデオデータ１３０内のＲＯＩの検索に関するものであってもよく、特に、特定の属性又は特定の属性セットと一致するＲＯＩの検索であってもよい。その属性又は属性のセットは、検索クエリによって指定することができる。一例として、検索は、符号化されたビデオデータ内のすべての車又は人物の検索など、符号化されたビデオデータ内の特定のオブジェクトクラスのすべてのオブジェクトの検索に関することができる。検索は、指定されたナンバープレート番号を有するすべての車、指定された色を有するすべての車、特定の色の服を着用しているすべての人、又は眼鏡を着用しているすべての人の検索など、特定のクラスであり、さらに別の特定の属性を有するすべてのオブジェクトの検索に関することができる。検索はまた、特定のオブジェクトの画像と一致するすべてのオブジェクトの検索に関する場合もある。例えば、ユーザは、ビデオデータ内の関心のあるオブジェクトの１つのインスタンスを発見し、関心のあるオブジェクトが符号化されたビデオデータ内の他の場所に描写されているかどうかを知りたい場合がある。図５及び図６に関連して説明される例では、検索クエリは、符号化されたビデオデータ内のすべてのスポーツカーの検索に関するものと仮定する。

【0063】

検索クエリ１６０の受信に応答して、検索機能２０２は、１つ又は複数の独立して復号可能なＲＯＩ１１２－１及びそれらが存在する符号化されたビデオフレームを発見するために、第２のメタデータ１４０を検索する。この段階における検索機能１０３は、独立して復号可能ではない１つ又は複数のＲＯＩ１１２－２をさらに発見し得ることに留意されたい。ステップＳ２０８において検索機能２０２がＲＯＩ１１２－１、１１２－２のうちのどの１つ又は複数を検索して発見するかは、第２のメタデータ１４０がＲＯＩの属性を示すかどうかに依存する。

【0064】

第１のグループの実施形態において、メタデータ１４０はＲＯＩ１１２－１、１１２－２の属性を示す。検索機能２０２は、ステップＳ２０８において、検索クエリの特定の属性又は属性のセットと一致する属性又は属性のセットを有する、１つ又は複数の独立して復号可能なＲＯＩ１１２－１、及び場合によっては１つ又は複数の他のＲＯＩ１１２－２を発見するために、メタデータ１４０内で検索する。例示すると、第２のメタデータ１４０がどのＲＯＩがスポーツカーに対応するかを示す場合、検索機能２０２は、スポーツカーを求める検索クエリに応答して、スポーツカーに対応するＲＯＩ１１２－１、１１２－２を発見するために、第２のメタデータ１４０を解析する。図５に示されている例では、検索機能２０２は、その場合、符号化されたフレーム１３０－６内でＲＯＩ１を発見するであろう。

【0065】

実施形態の第２のグループでは、メタデータ１４０は、ＲＯＩ１１２－１、１１２－２のいかなるタイプの属性も示さず、又は検索クエリによって指定される一部のタイプであるがすべてではない属性を示す。その場合、検索機能２０２は、メタデータ１４０から、ＲＯＩのうちのどの１つ又は複数が検索クエリで指定された属性又は属性のセットと一致するかを直ちに推定することができない。代わりに、検索機能２０２は、検索クエリに一致する候補である、１つ又は複数の独立して復号可能なＲＯＩ１１２－１、及び場合によっては独立して復号可能ではない１つ又は複数のＲＯＩ１１２－２を発見する。場合によっては、これらの候補ＲＯＩは、例えば、第２のメタデータ１４０がいかなるタイプのＲＯＩ属性も含まない場合、すべての独立して復号可能なＲＯＩ１１２－１を含む。図５の例では、検索機能は、その後、すべての独立して復号可能なＲＯＩ１１２－１を候補ＲＯＩとして識別する。他の場合には、例えば、検索クエリが異なるタイプの属性のセットを示す一方で、メタデータ１４０がこれらのタイプのサブセットの属性のみを含む場合、候補ＲＯＩは、独立して復号可能なＲＯＩ１１２－１のサブセットを含むことができる。例示すると、第２のメタデータ１４０は、ＲＯＩが人又は車であるかなど、ＲＯＩのオブジェクトクラスを示すことができる。しかしながら、第２のメタデータ１４０は、人物が「男性」若しくは「女性」であるか、又は車が「クラシックモデル」若しくは「スポーツモデル」であるかなど、人物又は車のさらなる属性を指定しなくてもよい。スポーツカーの検索クエリを受信すると、検索機能１０３は、メタデータ１４０を解析して、車両である独立して復号可能なＲＯＩ１１２－１を識別することができる。なぜなら、これらはスポーツカーの候補でもあるからである。

【0066】

次いで、検索機能２０２は、検索中に発見された、独立して復号可能なＲＯＩ１１２－２、及び独立して復号可能ではない任意のＲＯＩ１１２－２に関する指示１４２を復号機能２０３に転送する。指示１４２は、発見されたＲＯＩを復号するための復号機能２０３への命令とみなすことができる。この指示は、発見されたＲＯＩの識別子、及びそれらが存在する符号化されたビデオフレームに関するものとすることができる。例えば、指示１４２は、識別子のペアを含むことができ、各ペアは、（フレームＩＤ、ＲＯＩＩＤ）など、符号化されたビデオフレームの識別子及びその中のＲＯＩの識別子を含む。

【0067】

検索中に発見された独立して復号可能なＲＯＩを復号するために、復号機能２０３は、発見された独立して復号可能なＲＯＩごとにステップＳ２１０ａ及びＳ２１０ｂを実施する。ステップＳ２１０ａにおいて、復号機能２０３は、符号化されたビデオデータ１３０に埋め込まれた情報１３２を使用して、独立して復号可能なＲＯＩに関連付けられたＣＵのセットを識別する。例えば、復号機能２０３は、ＲＯＩが存在する符号化されたビデオフレームに関連したＲＯＩ識別子を発見するために、ビデオデータに埋め込まれた情報１３２を解析することができる。このＲＯＩ識別子が発見されると、復号機能２０３は、ＲＯＩに関連付けられた符号化されたビデオフレーム内のＣＵのリストを読み取ることができる。情報１３２が符号化されたビデオフレームのヘッダに埋め込まれるか、又は符号化されたビデオフレームの直前又は直後などに関連して挿入されるＳＥＩフレームに含まれる場合、復号機能２０３は、符号化されたビデオフレームの識別子を使用して、その符号化されたビデオフレームに関連付けられたヘッダ又はＳＥＩフレームに進み、次いで、ＲＯＩの識別子を使用して、ＲＯＩに関連付けられたＣＵを識別することができる。情報１３２がＧＯＰごとに一度など、よりまれにしか発生しないＳＥＩフレームに埋め込まれている場合、復号機能２０３は、ＲＯＩ識別子及びフレーム識別子からなる識別子のペアを発見するためにＳＥＩフレームを解析し、次いで、その識別子のペアに関連付けられたＣＵのリストを読み出すことができる。

【0068】

符号化されたビデオフレーム内の独立して復号可能なＲＯＩに関連付けられたＣＵのセットが識別されると、復号機能２０３は、ステップＳ２１０ｂにおいてこれらのＣＵを選択的に復号して、独立して復号可能なＲＯＩに対応する復号されたビデオデータを生成するように進む。そうするために、復号機能２０３は、識別されたＣＵに関連付けられた符号化されたビデオデータを発見するために符号化されたビデオデータ１３０を解析し、識別されたＣＵに関連付けられた符号化されたビデオデータを、他のビデオフレーム内の他のビデオデータ、又は現在のビデオフレームの他のＣＵ内の他のビデオデータとは別個に復号することができる。これは、ＲＯＩが、エンコーダシステム１００によって、他のフレームにおいて以前に復号されたビデオデータ、又は現在のフレームにおける内のＣＵの識別されたセットの外側のＣＵにおいて以前に復号されたビデオデータを参照することなく符号化されたために可能である。したがって、復号機能２０３は、他の符号化されたビデオフレーム内のビデオデータ又は同じ符号化されたビデオフレーム内のＣＵのセットの外側のＣＵ内のビデオデータを最初に復号する必要なしに、識別されたＣＵのセット内のＣＵを復号することができる。

【0069】

復号機能２０３はまた、検索機能２０２によって発見されたが、独立して復号できないＲＯＩ１１２－２のビデオデータを復号し得ることに留意されたい。これらのＲＯＩ１１２－２内のビデオデータは、典型的には、他のビデオフレーム内の以前に復号されたビデオデータ又は同じビデオフレーム内のＲＯＩの外側のＣＵを参照して標準的な慣行に従って符号化されるので、これらのＲＯＩ１１２－１は別々に復号することができず、先行するイントラ符号化されたフレームから復号を開始する必要がある。

【0070】

最終的に、復号システム２００は、検索クエリによって与えられた属性と一致する復号されたビデオデータ１５０を出力する。実施形態の第１のグループでは、検索機能２０２によって発見されたＲＯＩが検索クエリによって指定された属性と一致することが既に知られており、復号機能２０３によって生成された復号されたビデオデータは、検索クエリの属性と一致する復号されたビデオ１５０としてユーザに出力することができる。このオプションは、図３の復号機能２０３から伸びる破線矢印１５０によって示されている。

【0071】

実施形態の第２のグループでは、検索機能２０２が代わりに発見したＲＯＩが検索クエリによって指定された属性と一致する候補であり、復号機能２０３は候補ＲＯＩの復号されたビデオデータ１３２を分析機能２０６に転送する。分析機能２０６は、各ＲＯＩに対応する復号されたビデオデータ１３２を分析して、それが検索クエリ１６０によって指定された特定の属性又は属性のセットと一致するかどうかを判定する。一致すると判明した場合、そのＲＯＩの復号されたビデオデータは、検索クエリに一致する復号されたビデオデータ１５０として出力される。分析機能２０６は、一般に、畳み込みニューラルネットワークによって実装される分析方法など、この目的のための任意の公知の分析方法を実装することができる。分析機能２０６によって実装される方法は、復号システム２００によってサポートされるべき検索属性のタイプに依存し得る。例えば、特定の所定のオブジェクトクラスのオブジェクトの検索がサポートされるべきである場合、分析機能２０６は、ＲＯＩの復号されたビデオデータ１３２を入力として取得し、ビデオデータによって描写されたオブジェクトのオブジェクトクラスを判定するオブジェクト分類方法を実装することができる。判定したオブジェクトクラスが検索クエリのオブジェクトクラスと一致する場合、そのＲＯＩの復号されたビデオデータを、検索クエリ１６０と一致する復号されたビデオデータ１５０として出力することができる。検索クエリ１６０がスポーツカーに関するものである図５の例では、スポーツカーは、オブジェクト分類方法がサポートする所定のクラスの中にあるべきである。次に、復号システム１００は、図６に示すようにスポーツカーを描写する復号されたビデオデータ１５０を出力する。別の例では、検索が画像によって描写された特定のオブジェクトに関するものである場合、分析機能２０６は、ＲＯＩのビデオデータに描写されたオブジェクトと特定のオブジェクトの画像との間の類似性を反映する類似性スコアを出力する再識別方法を実装することができる。スコアが閾値よりも高い場合、ＲＯＩの復号されたビデオデータを、検索クエリ１６０に一致する復号されたビデオデータ１５０として出力することができる。そのような分析方法は、色、ポーズ、オブジェクトが着用又は携行するアイテムなどを認識するための方法を含む、分析機能２０６に含めることができる分析方法のより多くの例があることが理解される。色を分類するように訓練された標準的な分類器、ポーズを認識するためのＯｐｅｎＰｏｓｅ（ａｒＸｉｖ：１８１２．０８００８）、所与のカテゴリのオブジェクトを検出するためのＭａｓｋ－ＲＣＮＮ（ａｒＸｉｖ：１７０３．０６８７０）又はシングルショット検出器（ＳＳＤ）（ａｒＸｉｖ：１５１２．０２３２５）を含み、それ自体当技術分野で公知であり、したがって本明細書ではさらに説明されない。

【0072】

当業者は、上記の実施形態を多くの方法で修正し、さらに上記の実施形態に示された本発明の利点を使用することができることが理解されよう。したがって、本発明は、示された実施形態に限定されるべきではなく、添付の特許請求の範囲によってのみ定義されるべきである。さらに、当業者が理解するように、図示の実施形態を組み合わせることができる。

【図1】