特開2024-147510 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス　アーベーの特許一覧

特開2024-147510カメラ視野を変更している間のビデオストリームの符号化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024147510

(43)【公開日】2024-10-16

(54)【発明の名称】カメラ視野を変更している間のビデオストリームの符号化

(51)【国際特許分類】

H04N 19/105 20140101AFI20241008BHJP

H04N 19/46 20140101ALI20241008BHJP

H04N 19/156 20140101ALI20241008BHJP

H04N 19/172 20140101ALI20241008BHJP

【ＦＩ】

H04N19/105

H04N19/46

H04N19/156

H04N19/172

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024043846

(22)【出願日】2024-03-19

(31)【優先権主張番号】23166331

(32)【優先日】2023-04-03

(33)【優先権主張国・地域又は機関】EP

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】502208205

【氏名又は名称】アクシスアーベー

(74)【代理人】

【識別番号】110002077

【氏名又は名称】園田・小林弁理士法人

(72)【発明者】

【氏名】エドパルム，ヴィクトル

(72)【発明者】

【氏名】ユアン，ソン

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA05

5C159MA31

5C159NN41

5C159PP04

5C159RB14

5C159RC16

5C159TA62

5C159TB04

5C159TC51

5C159UA02

5C159UA05

(57)【要約】（修正有）

【課題】カメラによって記録されるビデオストリームの符号化する方法、デバイス及びプログラムを提供する。
【解決手段】ビデオストリームを符号化する方法は、第１のＦＯＶをもつ第１の画像を取得することと、第１の符号化されたビデオフレームの部分として第１の画像を符号化することと、第１のＦＯＶとは異なる第２のＦＯＶをもつ第２の画像を取得することと、第１の画像の画像コンテンツを、第１のＦＯＶよりも第２のＦＯＶに近いＦＯＶに変換する、第１のＦＯＶと第２のＦＯＶとの間の差に基づいて形成される動きベクトルを含む、第１のビデオフレームを参照する第１の追加のビデオフレームを生成することと、第１の追加のビデオフレームを符号化されたビデオストリームに非表示フレームとして挿入することと、第１の追加のビデオフレームを参照する符号化されたビデオストリームの第２のビデオフレームの部分として第２の画像を符号化することと、を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

ビデオストリームを符号化する方法であって、
ａ）第１の時間においてビデオカメラによってキャプチャされたシーンの第１の画像を取得することと、
ｂ）符号化されたビデオストリームの第１のビデオフレームの部分として前記第１の画像を符号化することと、
ｃ）第２の時間において前記ビデオカメラによってキャプチャされた前記シーンの第２の画像を取得することと、
ｄ１）前記第２の時間におけるものと比較して、前記第１の時間における前記シーンに対する前記ビデオカメラの方向、ズームレベルおよび／または位置の第１の差を指示するデータを取得し、指示された前記第１の差に基づいて第１の動きベクトルを計算することと、
ｄ２）前記第１のビデオフレームを参照する第１の追加のビデオフレームを生成することであって、前記第１の追加のビデオフレームが、前記第１の画像の画像コンテンツを変換するための前記第１の動きベクトルを含む、第１の追加のビデオフレームを生成することと、
ｅ）前記第１の追加のビデオフレームを非表示フレームとしてマークすることを含む、前記第１の追加のビデオフレームを前記符号化されたビデオストリームに挿入することと、
ｆ）前記符号化されたビデオストリームの第２のビデオフレームの部分として前記第２の画像を符号化することであって、前記第２のビデオフレームが前記第１の追加のビデオフレームを参照する、前記第２の画像を符号化することと
を含む、方法。

【請求項2】

前記ビデオストリームを符号化することが、スケーラブルビデオコーディング（ＳＶＣ）など、コーディングのレイヤードタイプを使用することを含み、前記第１の追加のビデオフレームが、前記符号化されたビデオストリームのベースレイヤ中に挿入され、前記第２のビデオフレームが、前記符号化されたビデオストリームのエンハンスメントレイヤ中に挿入される、請求項１に記載の方法。

【請求項3】

前記第１の追加のビデオフレームが、予測フレーム（Ｐフレーム）と双方向予測フレーム（Ｂフレーム）とのうちの一方である、請求項１に記載の方法。

【請求項4】

ｇ）第３の時間において前記ビデオカメラによってキャプチャされた前記シーンの第３の画像を取得することと、
ｈ１）前記第２の時間と前記第３の時間とにおける前記ビデオカメラの方向、ズームレベルおよび／または位置の第２の差を指示するデータを取得し、前記第２の差に基づいて第２の動きベクトルを計算することと、
ｈ２）前記第１の追加のビデオフレームを参照する第２の追加のビデオフレームを生成することであって、前記第２の追加のビデオフレームが、前記第２の画像の画像コンテンツを変換するための前記第２の動きベクトルを含む、第２の追加のビデオフレームを生成することと、
ｉ）前記第２の追加のビデオフレームを非表示フレームとしてマークすることを含む、前記第２の追加のビデオフレームを前記符号化されたビデオストリームに挿入することと、
ｊ）前記符号化されたビデオストリームの第３のビデオフレームの部分として前記第３の画像を符号化することであって、前記第３のビデオフレームが前記第２の追加のビデオフレームを参照する、前記第３の画像を符号化することと
をさらに含む、請求項１に記載の方法。

【請求項5】

前記第１の差が、前記カメラによって実施されるズーミング動作に起因する、請求項１に記載の方法。

【請求項6】

前記ズーミング動作がズーミングイン動作である、請求項５に記載の方法。

【請求項7】

前記第１の画像と前記第２の画像とが、前記カメラによってキャプチャされたビデオストリームの連続画像である、請求項１に記載の方法。

【請求項8】

少なくとも前記第１の画像と前記第２の画像とをキャプチャするために使用される前記カメラにおいて実施される、請求項１に記載の方法。

【請求項9】

ビデオストリームを符号化するためのデバイスであって、
プロセッサと、
命令を記憶したメモリと
を備え、前記命令は、前記プロセッサによって実行されたとき、前記デバイスに
ａ）第１の時間においてビデオカメラによってキャプチャされたシーンの第１の画像を取得することと、
ｂ）符号化されたビデオストリームの第１のビデオフレームの部分として前記第１の画像を符号化することと、
ｃ）第２の時間において前記ビデオカメラによってキャプチャされた前記シーンの第２の画像を取得することと、
ｄ１）前記第２の時間におけるものと比較して、前記第１の時間における前記シーンに対する前記ビデオカメラの方向、ズームレベルおよび／または位置の第１の差を指示するデータを取得し、指示された前記第１の差に基づいて第１の動きベクトルを計算することと、
ｄ２）前記第１のビデオフレームを参照する第１の追加のビデオフレームを生成することであって、前記第１の追加のビデオフレームが、前記第１の画像の画像コンテンツを変換するための前記第１の動きベクトルを含む、第１の追加のビデオフレームを生成することと、
ｅ）前記第１の追加のビデオフレームを非表示フレームとしてマークすることを含む、前記第１の追加のビデオフレームを前記符号化されたビデオストリームに挿入することと、
ｆ）前記符号化されたビデオストリームの第２のビデオフレームの部分として前記第２の画像を符号化することであって、前記第２のビデオフレームが前記第１の追加のビデオフレームを参照する、前記第２の画像を符号化することと
を行わせる、デバイス。

【請求項10】

前記命令は、前記命令が、前記プロセッサによって実行されたとき、さらに前記デバイスに請求項２に記載の方法を実施させるようなものである、請求項９に記載のデバイス。

【請求項11】

前記デバイスが、前記第１の画像と前記第２の画像とをキャプチャするためのカメラである、請求項９に記載のデバイス。

【請求項12】

ビデオストリームを符号化するためのコンピュータプログラムであって、デバイスのプロセッサによって実行されたとき、前記デバイスに、
ａ）第１の時間においてビデオカメラによってキャプチャされたシーンの第１の画像を取得することと、
ｂ）符号化されたビデオストリームの第１のビデオフレームの部分として前記第１の画像を符号化することと、
ｃ）第２の時間において前記ビデオカメラによってキャプチャされた前記シーンの第２の画像を取得することと、
ｄ１）前記第２の時間におけるものと比較して、前記第１の時間における前記シーンに対する前記ビデオカメラの方向、ズームレベルおよび／または位置の第１の差を指示するデータを取得し、指示された前記第１の差に基づいて第１の動きベクトルを計算することと、
ｄ２）前記第１のビデオフレームを参照する第１の追加のビデオフレームを生成することであって、前記第１の追加のビデオフレームが、前記第１の画像の画像コンテンツを変換するための前記第１の動きベクトルを含む、第１の追加のビデオフレームを生成することと、
ｅ）前記第１の追加のビデオフレームを非表示フレームとしてマークすることを含む、前記第１の追加のビデオフレームを前記符号化されたビデオストリームに挿入することと、
ｆ）前記符号化されたビデオストリームの第２のビデオフレームの部分として前記第２の画像を符号化することであって、前記第２のビデオフレームが前記第１の追加のビデオフレームを参照する、前記第２の画像を符号化することと
を行わせるように構成されている、コンピュータプログラム。

【請求項13】

前記デバイスに、請求項２に記載の方法を実施させるようにさらに構成されている、請求項１２に記載のコンピュータプログラム。

【請求項14】

請求項１２に記載のコンピュータプログラムを記憶したコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、カメラによって記録されるビデオストリームの符号化に関する。特に、本開示は、カメラの視野が変化する時間中のビデオストリームの符号化に関する。

【背景技術】

【0002】

現代のビデオコーディングアルゴリズムでは、シーンの多くのディテールが１つの画像フレームと次の画像フレームとの間で静的なままであり得るという事実を利用するために、予測コーディングがしばしば使用される。さらに、オブジェクトを含んでいる現在の画像フレームを復号するときに１つまたは複数の他の画像フレームのどの領域においてオブジェクトに属する画像データを探すべきかをデコーダに命令するために、画像フレーム間で移動するオブジェクトを考慮するためにもいわゆる「動きベクトル」が使用され得る。

【0003】

しかしながら、たとえば、２つの画像フレームをキャプチャすることの間のカメラの視野（ＦＯＶ）を変更することによって引き起こされる、画像フレーム間のオブジェクトのいくつかの種類の移動およびスケーリングでは、ビデオストリームを効率的に符号化／復号するためにそのような動きベクトルを使用することは、困難であり得る。１つのそのような状況は、カメラがズーミング動作を実施し、時間が進むにつれて、動きベクトルが、より長くなることと、同じく画像フレームの異なる部分について変わることとを生じるときである。理想的な動きベクトルの長さが増加するにつれて、エンコーダが、そのような動きベクトルを見つけるために、たとえば、前の画像フレーム中の探索エリアを拡大することを強制されるであろう。これは、したがって、必要とされる算出時間の増加につながり得、その結果、しばしばまたしばしば、動きベクトルの使用が非現実的になり、時々扱いにくくなることもあり得る。

【0004】

結果として、したがって、カメラの変化するＦＯＶ中にキャプチャされた画像フレームを用いてビデオストリームを符号化する改善されたやり方の必要がある。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Ｈ．２６４／ＭＰＥＧ－４ＡＶＣビデオ圧縮規格のアネックスＧ拡張

【非特許文献2】Ｈ．２６５／ＭＰＥＧ－ＨＨＥＶＣビデオ圧縮規格のアネックスＨ拡張

【発明の概要】

【0006】

上記で識別された必要を少なくとも部分的に満たすために、本開示は、添付の独立請求項において定義されるように、および添付の独立請求項によって、ビデオストリームを符号化するための改善された方法、デバイス、コンピュータプログラムおよびコンピュータプログラム製品を提供する。方法、デバイス、コンピュータプログラムおよびコンピュータプログラム製品の様々な実施形態は、添付の従属請求項において、および添付の従属請求項によって定義される。

【0007】

本開示の第１の態様によれば、ビデオストリームを符号化する方法が提供される。本方法は、第１の視野（ＦＯＶ）を有するビデオカメラによってキャプチャされた第１の画像を取得することを（たとえば、ステップ「ａ」として）含む。本方法は、符号化されたビデオストリームの第１のビデオフレームの部分として第１の画像を符号化することを（たとえば、ステップ「ｂ」として）含む。本方法は、第１のＦＯＶとは異なるが（第２のＦＯＶが）少なくとも部分的に第１のＦＯＶと重複する第２のＦＯＶを有する（一方）ビデオカメラによってキャプチャされた第２の画像を取得することを（たとえば、ステップ「ｃ」として）含む。本方法は、第１のビデオフレームを参照し、第１の画像の画像コンテンツを、第１のＦＯＶ（がそうである）よりも第２のＦＯＶに近いＦＯＶに変換する第１の動きベクトルを含む第１の追加のビデオフレームを生成することであって、第１の動きベクトルが第２のＦＯＶと第１のＦＯＶとの間の差に基づいて形成される、第１の追加のビデオフレームを生成することを（たとえば、ステップ「ｄ」として）含む。本方法は、第１の追加のビデオフレームを符号化されたビデオストリームに挿入することを（たとえば、ステップ「ｅ」として）含み、第１の追加のビデオフレームを非表示（ｎｏ－ｄｉｓｐｌａｙ）フレームとしてマークすることを含む。本方法は、符号化されたビデオストリームの第２のビデオフレームの部分として第２の画像を符号化することであって、第２のビデオフレームが第１の追加のビデオフレームを参照する、第２の画像を符号化することを（たとえば、ステップ「ｆ」として）さらに含む。

【0008】

本明細書で使用されるように、画像のあるＦＯＶが、「別のＦＯＶにより近い」ように変換されることは、画像のそのＦＯＶが、その別のＦＯＶに正確に一致するように変換される状況をも含む。２つの画像フレームのＦＯＶが「少なくとも部分的に重複する」ことは、両方の画像フレーム中で可視である少なくとも１つのオブジェクトがあるか、またはオブジェクトの少なくとも部分があるものとして理解されるべきであり、したがって、動きベクトルが、一方の画像フレームを符号化するときに他方の画像フレーム中のそのオブジェクト（の部分）を見つけるためになど使用され得る。「非表示フレーム」は、そのフレームが、復号されたビデオストリームの部分としてレンダリングされるべきでないが、そのフレームが依然として利用可能であることをデコーダに命令するために、何らかのやり方でフラグを付けられたフレームとして理解されるべきであり、したがって、情報はそのフレームから取得され、表示されるべきである（すなわち、非表示フレームとしてマークされない）１つまたは複数の他の画像フレームの復号のために使用され得る。非表示フレームの上記の概念、動きベクトル、および符号化／復号するときにあるフレームが別の（前のまたは後の）フレームを参照する可能性をサポートする任意のビデオコーディング規格が、開示される方法を実現するために使用され得ることが想定される。そのような規格の例は、高効率ビデオコーディング（ＨＥＶＣ）Ｈ．２６５、アドバンストビデオコーディング（ＡＶＣ）Ｈ．２６４、ＶＰ８、ＶＰ９、ＡＶ１、および汎用ビデオコーディング（ＶＶＣ）Ｈ．２６６を含む（が、必ずしも限定されるとは限らない）。

【0009】

本明細書で想定されるように、第１の動きベクトルは、動きベクトル探索を実施することによって計算される必要がないが、カメラのそれぞれの第１および第２のＦＯＶに関する知識に基づいて導出／計算され得る。たとえば、そのような知識は、第１のＦＯＶが存在した時間と第２のＦＯＶが存在した時間の両方を含む時間において、たとえば、（たとえば、パン／チルト／ロール角によって定義される）方向、およびたとえば（たとえば、ズーミング動作中に変更される）カメラのレンズの焦点距離、または同様のものを指示するデータを含み得る。

【0010】

本明細書で後でより詳細に説明されるように、第１の態様の想定される方法は、その方法が、たとえば、ズーミング動作中になど、カメラの変化するＦＯＶ中にビデオストリームを符号化する、よりビットレート効率的なやり方を提供するという点で、現在利用可能なコーディング技術に改良を加える。特に、第１のＦＯＶから第２のＦＯＶへの（または第２のＦＯＶにより近い）変換を定義する必要がある（第１の）動きベクトルが、代わりに、たとえば、カメラ方向および焦点距離（すなわち、ズームレベル）に関する知識から、およびたとえば、算出量的に煩雑な動きベクトル探索が実施されることを必要とすることなしに計算され得るので、第２のビデオフレームを符号化することの部分として、長く、変わる動きベクトルを探索する必要は除去される。第２のビデオフレームが、（少なくとも復号の後に、たとえば、特定のズームインオンされた（ｚｏｏｍｅｄ－ｉｎ－ｏｎ）オブジェクトの変換されたビューが利用可能である）第１の追加のビデオフレームを参照するとき、そのような参照のための動きベクトルを見つけることは、より自明であり、探索の従来の方法を使用して実施され得る。たとえば、ズーミング動作の事例では、第１の追加のビデオフレームは、第１のビデオフレーム中の第１の画像のスケーリングされ、クロップされたバージョンを符号化することになり、したがって、動きベクトル探索が、第２のビデオフレームを符号化するために第１の追加のビデオフレーム中の一致を見つけることがより自明に可能になるにつれて、ビットレートは低減され得る。さらに、第１の追加のビデオフレームは、新しい画像データ自体を含んでいる必要がないが、ＦＯＶの差に基づいて計算され、スケーリングなどの変換を効率的に実施するために必要とされる動きベクトルのみを含んでいる必要がある。想定される方法はまた、カメラがパンし、チルトし、および／またはロールするときなど、スケーリングよりも他の変換のために適用され得る。パンニング動作またはチルティング動作は、追加のビデオフレームにおいて説明され得るパースペクティブ変換を必要とし得、ローリング動作は、追加のビデオフレームにおいても説明され得る回転変換を必要とし得る。

【0011】

本方法の１つまたは複数の実施形態では、ビデオストリームを符号化することは、たとえば「スケーラブルビデオコーディング」（ＳＶＣ）または「スケーラブル高効率ビデオコーディング」（ＳＨＶＣ）など、レイヤードタイプのコーディングを使用することを含み得る。第１の追加のビデオフレームは、符号化されたビデオストリームのベースレイヤ中に挿入され得、第２のビデオフレームは、符号化されたビデオストリームのエンハンスメントレイヤ中に挿入され得る。スケーラブルビデオコーディングの一例は、たとえば、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣビデオ圧縮規格のアネックスＧ拡張において定義されるようなものであり得る。スケーラブルビデオコーディングの別の例は、たとえば、Ｈ．２６５／ＭＰＥＧ－ＨＨＥＶＣビデオ圧縮規格のアネックスＨ拡張において定義されるようなものであり得る。一例として、ベースレイヤは、より低い解像度（たとえば、フルＨＤ解像度または同様のもの）を提供するために符号化され得るが、エンハンスメントレイヤは、より高い解像度（たとえば、４Ｋ解像度または同様のものなど）を提供するために符号化され得る。コーディングのレイヤードタイプでは、当然、１つまたは複数の追加のエンハンスメントレイヤもあり得、たとえば、第２のビデオフレームが任意のそのようなエンハンスメントレイヤの部分として符号化され得ることが想定され得る。ＳＶＣなどのレイヤードコーディングを使用することは、第１の追加のビデオフレームと第２のビデオフレームとが異なるレイヤ中に挿入され、したがって、（非表示の）第１の追加のビデオフレームが、たとえば、表示されるべきである２つのビデオフレームの中間に挿入されなければならなくなることを回避し得るので、たとえば、所望のフレーム毎秒（ＦＰＳ）レートを維持するのを助け得る。

【0012】

本方法の１つまたは複数の実施形態では、第１の追加のビデオフレームは、予測フレーム（「Ｐフレーム」）と双方向予測フレーム（「Ｂフレーム」）とのうちの一方であり得る。本明細書で使用されるように、これらの様々なタイプのビデオフレームは、現代のコーディング規格において通常行われるように定義される。Ｐフレームは、復号されるために、１つまたは複数の前のビデオフレームからのデータを使用／参照し得るが、Ｂフレームは、復号されるために、１つまたは複数の前のビデオフレームと１つまたは複数の将来の／未来のビデオフレームの両方からのデータを使用／参照し得る。そのようなビデオフレームは、たとえば、１つまたは複数の他のビデオフレームへの参照を含んでいない「イントラフレーム」または「イントラコード化フレーム」（「Ｉフレーム」）とは対照的に、１つまたは複数の他のビデオフレームへの参照を含むので、そのようなビデオフレームは、「インターフレーム」または「インターコード化フレーム」と呼ばれることもある。

【0013】

本方法の１つまたは複数の実施形態では、本方法は、カメラのＦＯＶが変化している間（すなわち、進行中のズーミング動作または同様の動作中に）、１つまたは複数の追加のビデオフレームを生成し、挿入することに進むことを含み得る。これは、第２のＦＯＶとは異なるが（第３のＦＯＶが）少なくとも部分的に第２のＦＯＶと重複する第３のＦＯＶを有するビデオカメラによってキャプチャされた第３の画像を取得することを（たとえば、追加のステップ「ｇ」として）さらに含む方法に対応し得る。本方法は、第２の画像の画像コンテンツを、第２のＦＯＶよりも第３のＦＯＶに近いＦＯＶに変換する第２の動きベクトルを含む、第２の追加のビデオフレームを生成することであって、第２の動きベクトルが第３のＦＯＶと第２のＦＯＶとの間の差に基づいて形成される、第２の追加のビデオフレームを生成することを（たとえば、追加のステップ「ｈ」として）さらに含み得る。本方法は、第２の追加のビデオフレームを非表示フレームとしてマークすることを含む、第２の追加のビデオフレームを符号化されたビデオストリームに挿入することを（たとえば、追加のステップ「ｉ」として）さらに含み得る。本方法は、符号化されたビデオストリームの第３のビデオフレームの部分として第３の画像を符号化することであって、第３のビデオフレームが第２の追加のビデオフレームを参照する、第３の画像を符号化することを（たとえば、追加のステップ「ｊ」として）さらに含み得る。別の言い方をすれば、より多くの追加のビデオフレームを符号化されたビデオストリーム中に挿入し続ける場合、本方法は、上記で説明されたステップｃ～ｆを繰り返すことを含み得るが、「第１および第２の」を「第２および第３の」と置き換えることなどを伴う。

【0014】

別の言い方をすれば、追加のビデオフレームは、したがって、たとえば、ズーミング動作が進行中である限り挿入され得る。前にキャプチャされたフレーム中の動きベクトルを探索することによって、進行中のズーミング動作中にキャプチャされた実際の画像（第２および第３の画像など）を符号化することを試みる代わりに、ＦＯＶ変化が始まった後にカメラによってキャプチャされた画像は、代わりに、それぞれの追加のビデオフレーム（第１および第２の追加のビデオフレームなど）を参照することによって（第２および第３のビデオフレームなどとして）符号化される。

【0015】

本方法の１つまたは複数の実施形態では、第１のＦＯＶと第２のＦＯＶとの間の差（またはたとえば、第２のＦＯＶと第３のＦＯＶとの間の差など）は、カメラによって実施されるズーミング動作に起因し得る。ズーミング動作は、たとえば、符号化されたビデオストリームがキャプチャされたシーンのライブストリームを表すときなど、本方法が実施される間、進行中であり得る。想定される方法はまた、トランスコーディング事例のために使用され得、本方法は、すでに記録されたビデオ材料に適用され、たとえば、そのようなビデオ材料をストレージに（たとえば、サーバ上に）記憶するために必要とされるサイズを最適化する（低減する）ために使用される。そのような事例では、たとえば、変換中にカメラの様々なＦＯＶに関係するデータ（たとえば、カメラ方向角度、各時間におけるカメラのズームレベルを定義する焦点距離、シーンに対するカメラの取付け位置など）が、記録されたビデオフレーム内のメタデータまたは同様のものとして、たとえば、ビデオフレームヘッダの部分として記憶されることが想定され得る。

【0016】

本方法の１つまたは複数の実施形態では、ズーミング動作は、第２のＦＯＶが第１のＦＯＶの拡大であるような（およびたとえば、第３のＦＯＶが第２のＦＯＶの拡大であり、以下同様であるような）ズーミングイン動作であり得る。ズーミングイン動作を実施しながら本方法を適用することは、たとえば、各画像のより大きい部分がビデオストリーム中の次の画像によって参照され得るという点で有利であり得る。想定される方法は、たとえば、第２のＦＯＶが代わりに第１のＦＯＶの低減／縮小であるなどのような、たとえば、ズーミングアウト動作中にも適用され得るが、各画像のより小さい部分のみがビデオストリーム中の次の画像によって参照され得るので、より少ない利益を伴うことに留意されたい。

【0017】

本方法の１つまたは複数の実施形態では、第１および第２の画像は、カメラ変換が進行中である間、追加の（非表示）ビデオフレームを追加することがビデオストリームの各画像について実施されるように、およびたとえば、各符号化された（表示されるべき）ビデオフレームが、対応する追加の（非表示）ビデオフレームを参照するように、たとえば、カメラによってキャプチャされたビデオストリームの連続画像であり得る。

【0018】

本方法の１つまたは複数の実施形態では、本方法は、少なくとも第１および第２の画像をキャプチャするために使用されるカメラにおいて実施され得る。これは、たとえば、符号化されたビデオストリームが、追加の中間ビデオ処理機器を必要とすることなしに「エッジ」において生成されることを可能にし得る。

【0019】

概して本明細書では、表示されるべきである（たとえば、非表示フレームとしてマークされない）符号化されたビデオストリームのビデオフレームが、少なくともそのビデオフレームの対応する追加の（非表示）ビデオフレームを参照することと、各追加の（非表示）ビデオフレームが、符号化されたビデオストリーム中の少なくとも前の（非表示）ビデオフレームを参照することとが仮定される。当然、たとえば、（表示されるべき）ビデオフレームも、たとえば、符号化されたビデオストリーム中の前の（表示されるべき）ビデオフレームを参照することも当てはまり得る。ＳＶＣなどのレイヤードコーディングを使用する場合、エンハンスメントレイヤ中の各ビデオフレームは、したがって、ベースレイヤ中の対応する追加のビデオフレームを参照するが、望ましい場合、たとえば、エンハンスメントレイヤ中の１つまたは複数の前の（またはさらに将来の／未来の）ビデオフレームをも参照し得る。

【0020】

本開示の第２の態様によれば、ビデオストリームを符号化するための対応するデバイスが提供される。デバイスは、プロセッサとメモリとを含む。メモリは、プロセッサによって実行されたとき、デバイスに、第１の態様による方法を実施させる命令を記憶する。これは、デバイスに、第１のＦＯＶを有するビデオカメラによってキャプチャされた第１の画像を取得することと、符号化されたビデオストリームの第１のビデオフレームの部分として第１の画像を符号化することと、第１のＦＯＶとは異なるが、少なくとも部分的に第１のＦＯＶと重複する第２のＦＯＶを有する、ビデオカメラによってキャプチャされた第２の画像を取得することと、第１のビデオフレームを参照し、第１の画像の画像コンテンツを、第１のＦＯＶよりも第２のＦＯＶに近いＦＯＶに変換する第１の動きベクトルを含む第１の追加のビデオフレームを生成することであって、第１の動きベクトルが第２のＦＯＶと第１のＦＯＶとの間の差に基づいて形成／計算される、第１の追加のビデオフレームを生成することと、第１の追加のビデオフレームを非表示フレームとしてマークすることを含む、第１の追加のビデオフレームを符号化されたビデオストリームに挿入することと、符号化されたビデオストリームの第２のビデオフレームの部分として第２の画像を符号化することであって、第２のビデオフレームが第１の追加のビデオフレームを参照する、第２の画像を符号化することとを行わせることを含む。

【0021】

本デバイスの１つまたは複数の実施形態では、デバイスのメモリに記憶された命令は、さらに、命令が、プロセッサによって実行されたとき、デバイスに、本明細書で開示され、検討されるように（第１の態様の）方法の任意の実施形態を実施させるようなものであり得る。

【0022】

本デバイスの１つまたは複数の実施形態では、本デバイスは、少なくとも第１の画像と第２の画像とをキャプチャするためのカメラであり得る。

【0023】

本開示の第３の態様によれば、ビデオストリームを符号化するための対応するコンピュータプログラムが提供される。本コンピュータプログラムは、（第２の態様のデバイスなどの）デバイスのプロセッサによって実行されたとき、デバイスに、第１の態様の方法を実施させるように構成される（すなわち、デバイスに、第１の態様の方法を実施させる命令／コンピュータコードを含む）。これは、デバイスに、第１のＦＯＶを有するビデオカメラによってキャプチャされた第１の画像を取得することと、符号化されたビデオストリームの第１のビデオフレームの部分として第１の画像を符号化することと、第１のＦＯＶとは異なるが、少なくとも部分的に第１のＦＯＶと重複する第２のＦＯＶを有する、ビデオカメラによってキャプチャされた第２の画像を取得することと、第１のビデオフレームを参照し、第１の画像の画像コンテンツを、第１のＦＯＶよりも第２のＦＯＶに近いＦＯＶに変換する第１の動きベクトルを含む第１の追加のビデオフレームを生成することであって、第１の動きベクトルが第２のＦＯＶと第１のＦＯＶとの間の差に基づいて形成／計算される、第１の追加のビデオフレームを生成することと、第１の追加のビデオフレームを非表示フレームとしてマークすることを含む、第１の追加のビデオフレームを符号化されたビデオストリームに挿入することと、符号化されたビデオストリームの第２のビデオフレームの部分として第２の画像を符号化することであって、第２のビデオフレームが第１の追加のビデオフレームを参照する、第２の画像を符号化することとを行わせることを含む。

【0024】

本コンピュータプログラムの１つまたは複数の実施形態では、本コンピュータプログラム（すなわち、コンピュータプログラムとともに提供される命令／コンピュータコード）は、さらに、プロセッサによって実行されたとき、デバイスに、本明細書で開示され、検討されるように（第１の態様の）方法の任意の実施形態を実施させるように構成され得る。

【0025】

本開示の第４の態様によれば、対応するコンピュータプログラム製品が提供される。本コンピュータプログラム製品は、第３の態様による（またはコンピュータプログラム製品の任意の本明細書で説明され、検討された実施形態による）コンピュータプログラムを記憶するコンピュータ可読記憶媒体を含む。本明細書で使用されるコンピュータ可読記憶媒体は、たとえば、非一時的であり、たとえば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＤＤ）、ＵＳＢフラッシュドライブ、ＳＤカード、ＣＤ／ＤＶＤとして、および／またはデータの非一時的記憶が可能な任意の他の記憶媒体として提供され得る。他の実施形態では、コンピュータ可読記憶媒体は一時的であり、たとえば、たとえば、通信リンク、ワイヤ、または信号転送の同様の手段上に存在する（電気、光学、機械、または同様の）信号に対応し得る。

【0026】

本開示の他の目的および利点は、以下の発明を実施するための形態、図面および特許請求の範囲から明らかになろう。本開示の範囲内で、たとえば、第１の態様の方法に関して説明されるすべての特徴および利点が、第２の態様のデバイス、第３の態様のコンピュータプログラム、および第４の態様のコンピュータプログラム製品にとって適切であり、それらに適用され、それらと組み合わせても使用され得、その逆も同様であることが想定される。

【0027】

次に、例示する実施形態が、添付の図面を参照しながら以下で説明される。

【図面の簡単な説明】

【0028】

【図1】カメラのＦＯＶが画像のキャプチャ中に変化するビデオストリームの一例を概略的に示す図である。

【図2】本開示の実施形態による、図１のビデオストリームに適用されるビデオストリームを符号化する改善された方法の一例を概略的に示す図である。

【図3】本開示の実施形態による、ビデオストリームを符号化する改善された方法のフローチャートを概略的に示す図である。

【図4】本開示の実施形態による、図１のビデオストリームに適用されるビデオストリームを符号化する改善された方法の別の例を概略的に示す図である。

【図5】本開示の改善された方法の実施形態による、カメラのＦＯＶがどのように変化したかに関する知識に基づいて動きベクトルをどのように取得すべきかの例を概略的に示す図である。

【図6】本開示の実施形態による、ビデオストリームを符号化するためのデバイスの一例を概略的に示す図である。

【発明を実施するための形態】

【0029】

図面において、同様の参照番号は、別段に記載されていない限り同様の要素のために使用される。反対のことが明示的に述べられない限り、図面は、例示的な実施形態を示すのに必要であるそのような要素のみを示すが、明快のために、他の要素は、省略されるか、または示唆されるにすぎないことがある。図に示されているように、要素および領域の（絶対的または相対的な）サイズは、説明の目的のためにそれらの真値に対して誇張されるかまたは控えめに述べられることがあり、したがって、実施形態の一般的な構造を示すために提供される。

【0030】

図１は、（ビデオ）カメラによってキャプチャされたビデオストリーム１００の１つの一般的な例を概略的に示し、カメラのＦＯＶはキャプチャしている間に変化する。この特定の例では、ＦＯＶの変化は、カメラが、ズーミング動作、より詳細には、関心のあるオブジェクトをカメラのＦＯＶの中心に移動させるためにカメラのわずかなパンニングおよびチルティングをも含むズーミングイン動作を実施することに起因する。

【0031】

この特定の例では、シーンは、関心のある単一のオブジェクト１１０を含むと仮定される。ここで、このオブジェクト１１０は、植木鉢中の花であると仮定されるが、当然、１つまたは複数の他のオブジェクトの任意の組合せであり得る。ビデオシーケンス１００は、第１のＦＯＶにおいてカメラによってキャプチャされた第１の画像１２０ａを含む。ここで、第１のＦＯＶは、オブジェクト１１０が第１の画像１２０ａの左下コーナーのみを占有するようなものである。時間が進むにつれて、カメラは、次いで、たとえば、カメラのレンズを調整することによって、および／またはそのような物理的ズーミングをエミュレートするデジタル処理を使用することによって、オブジェクト１１０に対してズーミングインを開始し、また、オブジェクト１１０をＦＯＶの中央にセンタリングするためにわずかに左にパンし、ならびにわずかに下にチルトする。

【0032】

次の第２の画像１２０ｂがカメラによってキャプチャされたとき、カメラは、したがって、第１のＦＯＶと比較してオブジェクト１１０の拡大を提供する第２のＦＯＶを有する。オブジェクト１１０は、第１の画像１２０ａにおいて示されたときに比較して、第２の画像１２０ｂにおいて示されたとき、サイズがややより大きく、また、カメラのパンニングおよびチルティングにより画像の中心のほうへ移動し始めしている。

【0033】

時間がさらに進むにつれて、カメラは、オブジェクト１１０が、たとえば、どんどん大きくなり、各画像の部分をどんどん大きく占有するように、シーンのより多くの画像をキャプチャしながらズームし続ける。図１に示されている特定の例では、これは、第３のＦＯＶを有するカメラを用いて第３の画像１２０ｃをキャプチャすることと、第４のＦＯＶを有するカメラを用いて第４の画像１２０ｄをキャプチャすることとを含む。第４の画像１２０ｄをキャプチャした後に、第４の画像１２０ｄにおいて、オブジェクト１１０は、次に、利用可能な画像空間のほぼすべてを占有し、大体ＦＯＶ内の中心に位置し、カメラは、ズーミング動作を停止する。第５の画像１２０ｅおよび第６の画像１２０ｆなどの連続フレームでは、カメラのＦＯＶは不変であり、第４の画像１２０ｄをキャプチャするために使用される第４のＦＯＶに等しいままである。

【0034】

ビデオストリーム１００を符号化するために、たとえば、ビットレート／帯域幅を節約するために、様々な符号化方式が適用され得る。従来のそのような方式は、たとえば、１つまたは複数の追加のビデオフレームへの参照がない、イントラ予測されたフレーム（Ｉフレーム）または同様のものとして第１の画像１２０ａを符号化することから開始することができる。第２の画像１２０ｂは、次いで、インター予測フレーム（Ｐフレーム）として符号化され、たとえば、動きベクトルの形態で第１の画像１２０ａを符号化するＩフレームへの参照を提供することができる。しかしながら、そのような動きベクトルを見つけるために、エンコーダは、最初に動きベクトル探索を実施しなければならなくなり、動きベクトル探索において、エンコーダは、第２の画像１２０ｂの各部分について、第２の画像１２０ｂを符号化するＰフレームを後で復号するために、第１の画像１２０ａのどの部分から画像データが取り出されるべきであるかを識別することを試みる。これは、しばしば、第２の画像１２０ｂの各部分の周りの限られた探索エリアを定義することと、次いで、好適な一致を探すために第１の画像１２０ａ中のこのエリアを通して探索することとによって達成される。カメラＦＯＶの変化が、ズーミング動作を含まなかったが、たとえば、（パンニングなど）カメラの遅い並進運動のみを含んだ場合、これは、必要とされる探索エリアが小さいままになり、動きベクトルが第２の画像１２０ｂのすべての部分についてほぼ同じになるので、Ｐフレームを（およびそれにより、第２の画像１２０ｂを）符号化する、最も可能性がある効率的なやり方であろう。

【0035】

しかしながら、図１に示されているようなズーミング動作の事例では、そのような動きベクトルのための探索は、おそらくより困難になり、探索エリアが拡大されることを必要とすることになろう。さらに、動きベクトルは、第２の画像１２０ｂの多くのまたはすべての部分についても異なることになり、これは、たとえば、植木鉢に属するピクセルの移動が、たとえば、花の上部に属するピクセルの移動よりも小さくなるようなものであり、たとえば、オブジェクト１１０の左部分に属するピクセルが、第１の画像１２０ａ中のものと比較して、第２の画像１２０ｂ中のほぼ上方にのみ移動したであろう一方で、たとえば、オブジェクト１１０の右部分に属するピクセルが代わりに上方と右の両方に移動したであろうようなものである。ズーミングが進み、オブジェクト１１０の異なる部分が、各新しくキャプチャされた画像について互いから離れてさらにより高速に移動し始めるとき（および各新しいＰフレームが、たとえば、前に符号化されたＰフレームを参照しなければならなくなるとき）、動きベクトルでは、どんどん長くなることと、また、第２の画像１２０ｂの異なる部分、および第２の画像１２０ｂを符号化するＰフレームについて（方向が）ますます変わることの両方が起こることになる。その結果、そのような動きベクトル探索を実施するのに必要とされる処理電力は、たとえば、符号化を担当するエンティティの能力を超える危険を冒すことになり、そのエンティティは、ライブ状況では、たとえば、カメラ自体であり得る。

【0036】

次に、本明細書で想定される方法がこの状況をどのように改善することができるかが、たとえば、図２および図４を参照しながらより詳細に説明される。また、そのような方法の様々なステップのフローチャート３００を概略的に示す図３への参照が行われる。

【0037】

図２は、方法２００の部分として実施される様々なビデオフレームの符号化を概略的に示す。本明細書で想定されるように、改善された方法２００は、第１のＦＯＶを有するビデオカメラによってキャプチャされた第１の画像（たとえば、第１の画像１２０ａ）を取得することを（ステップＳ３０１として）含む。方法２００は、符号化されたビデオストリーム２１０の第１のビデオフレーム２２０ａの部分として第１の画像１２０ａを符号化することを（ステップＳ３０２として）さらに含む。これは、従来行われるように、たとえば、第１のビデオフレーム２２０ａをＩフレームまたは同様のものとして符号化することによって実施され得、したがって、第１のビデオフレーム２２０ａは、デコーダ側（図示せず）において再び第１の画像１２０ａを復号するのに必要とされるすべての必要な画像データを含んでいる。符号化は、たとえば、第１のビデオフレーム２２０ａのそのような符号化のために使用される厳密な方法に応じて、第１のビデオフレーム２１０ａを復号するとき、無損失であるか、または画像品質の少なくとも何らかの損失を生成し得る。

【0038】

方法２００は、第２のＦＯＶを有するビデオカメラによってキャプチャされた第２の画像（たとえば、第２の画像１２０ｂ）を受信することを（ステップＳ３０３として）含む。たとえば、図１を参照しながら本明細書で前に説明されたように、第１のＦＯＶは第２のＦＯＶとは異なるが、第２のＦＯＶは、第２のＦＯＶが第１のＦＯＶと少なくとも部分的に重複するようなものである。別の言い方をすれば、方法２００が意図されるように機能するために、好ましくは、第１の画像１２０ａと第２の画像１２０ｂの両方において可視である、たとえば、オブジェクト１１０の少なくとも何らかの部分があるべきである。より好ましくは、第２の画像１２０ｂにおいて可視であるオブジェクト１１０のすべての部分が、第１の画像１２０ａにおいても可視であるべきである。

【0039】

従来の符号化方法とは対照的に、想定される改善された方法２００は、たとえば、第１の画像１２０ａにおける動きベクトル探索を使用する通常Ｐフレームとして、第２の画像１２０ｂを直接符号化することを試みることによって進まない。代わりに、ステップＳ３０４において、方法２００は、第１のビデオフレーム２２０ａを参照する第１の追加のビデオフレーム２３０ａを生成することによって進み、第１のビデオフレーム２２０ａは、第１の画像１２０ａの画像コンテンツを第１のＦＯＶよりも第２のＦＯＶに近いＦＯＶに変換する（この事例では、スケーリングし、並進させる）第１の動きベクトルを含む。これらの第１の動きベクトルは、算出集約的動きベクトル探索によって見つけられないが、代わりに、第２のＦＯＶと第１のＦＯＶとに関する知識、すなわち、第１の画像１２０ａをキャプチャすることと第２の画像１２０ｂをキャプチャすることとの間にカメラのＦＯＶがどのように変化したかに関する知識に基づいて計算／形成される。そのような情報は、たとえば、カメラ自体から、および／またはたとえば（パン／チルト／ロール角または同様のもの、ならびに／あるいはカメラおよびカメラのレンズの焦点距離など）カメラ方向を検出することが可能な任意の他の特定の（１つまたは複数の）センサーから受信され得る。たとえば、第１の画像１２０ａをキャプチャすることと第２の画像１２０ｂをキャプチャすることとの間で、たとえば、レンズの焦点距離を特定の量で増加させることによって、および（ズームしながらオブジェクト１１０を画像の中心のほうへ移動させるために）カメラをわずかに左にパンしながらカメラをわずかに下方にチルトすることによって、カメラのＦＯＶが変更されたことが知られ得る。この情報は、次いで、スケーリング／並進を実施するために必要とされる第１の動きベクトルを直接取得するために使用され得、スケーリング／並進は、第１の画像１２０ａのＦＯＶを、第２の画像１２０ｂをキャプチャするために使用される第２のＦＯＶにより近いか、または第２のＦＯＶに等しいＦＯＶに変換する。本明細書で使用されるように、「画像のＦＯＶが何らかの他のＦＯＶに変換される」ということは、計算されるとき、変換が、画像の画像コンテンツに適用された場合に得られた画像を、その画像がこの他のＦＯＶを有するカメラによってキャプチャされたのと（より）同様に見えるようにレンダリングすることになることを理解されるべきである。第１の動きベクトルが、２つの画像をキャプチャするために使用される様々なＦＯＶに関する知識に基づいてどのように形成／計算され得るかは、たとえば、図５を参照しながら、ここで後でより詳細に説明される。

【0040】

第１の動きベクトルが形成／計算された後に、本方法２００は、（ステップＳ３０５において）第１の追加のビデオフレーム２３０ａを符号化されたビデオストリーム２１０に挿入することによって進み、（図２に示されている取り消し線で消されたスクリーンシンボルによって指示されるように）第１の追加のビデオフレーム２３０ａを非表示フレームとしてマークすることを含む。第１の追加のビデオフレーム２３０ａは、したがって、符号化されたビデオストリーム２１０の後続の復号中に示されないことになるが、他のビデオフレームの復号／符号化のための情報の容器としてのみ働く。特に、本例では、第１の追加のビデオフレーム２３０ａは、実際の画像データを含まないが、（第１の追加のビデオフレーム２３０ａの後続の復号中に）第１の画像１２０ａのＦＯＶを、第２のＦＯＶにより近く似ているＦＯＶに変換すること、すなわち、必要に応じて第１の画像１２０ａの画像コンテンツをスケーリングすること、並進させること、および／または回転することによって、変換することを可能にする第１の動きベクトルのみを含む必要がある。

【0041】

本方法は、次いで、ステップＳ３０６において、符号化されたビデオストリーム２１０の第２のビデオフレーム２２０ｂの部分として第２の画像１２０ｂを符号化することを続け、第２のビデオフレーム２２０ｂは、第１の追加のビデオフレーム２３０ａを参照するようなものである。第２のビデオフレーム２２０ｂは、たとえば、（復号された）第１の追加のビデオフレーム２３０ａのどの部分が第２のビデオフレーム２２０ｂのどの部分を復号するために使用されるべきであるかを指示する動きベクトルをもつ、たとえば、Ｐフレームまたは同様のものであり得る。重要なことには、第１の追加のビデオフレーム２３０ａの（復号されるべき）画像のＦＯＶは、第２の画像１２０ｂのＦＯＶにより近く似ている（または等しくさえある）ので、動きベクトル探索を使用して第２のビデオフレーム２２０ｂの復号のためにそのような動きベクトルを見つけることは、たとえば、第１の画像１２０ａの画像コンテンツに基づいてそのような動きベクトルを直接見つけることを試みることよりも自明になる。第２のビデオフレーム２２０ｂのための動きベクトルは、たとえば、第２の画像１２０ｂの画像コンテンツを、第１の追加のビデオフレーム２３０ａ中に含まれる（または復号の後に第１の追加のビデオフレーム２３０ａから生成された）第１の画像１２０ａの並進させられた画像コンテンツの画像コンテンツと比較することによって見つけられ得る。想定される方法は、したがって、カメラのＦＯＶの変化中にキャプチャされたビデオストリームを符号化する改善されたやり方を提供する。

【0042】

図２において、１つの符号化されたビデオフレームから別の符号化されたビデオフレームへの参照が、実線矢印によって示される。たとえば、実線矢印２４０ａは、第１の追加のビデオフレーム２３０ａがどのように第１のビデオフレーム２２０ａを参照するかを示し、実線矢印２４０ｂは、第２のビデオフレーム２２０ｂがどのように第１の追加のビデオフレーム２３０ａを参照するかを示し、実線矢印２４０ｃは、（本明細書で後で検討されるように、含まれる場合）第２の追加のビデオフレーム２３０ｂが第１の追加のビデオフレーム２３０ａをどのように参照するかを示す、などである。本明細書で使用されるように、方向情報における矢印ポイントは、たとえば、第１のビデオフレーム２２０ａから第１の追加のビデオフレーム２３０ａに向いている矢印２４０ａが、第１の追加のビデオフレーム２３０ａが第１のビデオフレーム２２０ａを参照するビデオフレームであることを指示するように転送される。本明細書で想定されるように、本方法のいくつかの実施形態では、当然、様々なビデオフレームの間に含まれる他の参照もあり得る。そのような追加の参照の例が、図２において破線矢印によって指示され、たとえば、動きベクトルを必要としない部分、たとえば、一定の背景または同様のものなどについて、たとえば、第２のビデオフレーム２２０ａが第１のビデオフレーム２２０ａをも参照することを含み得る。他のそのような随意の参照は、たとえば、１つまたは複数の「将来の」ビデオフレームへの参照をも含む、１つまたは複数のフレームが双方向予測フレーム（Ｂフレーム）であることを含み得る。

【0043】

上記で説明されたことに加えて、想定される方法はまた、当然、いくつかの実施形態では、たとえば、進行中のズーミング動作の部分として、カメラのＦＯＶが変化している間にキャプチャされた１つまたは複数の追加の画像をも符号化するために同様の様式で続き得る。本明細書で想定され、フローチャート３００によって説明される方法は、したがって、カメラのＦＯＶが依然として変化しているかどうかが検査される随意のステップＳ３０７を含み得る。肯定の場合、本方法は、（破線矢印３１０によって指示されるように）後退し、再びステップＳ３０３～Ｓ３０６をやり直し、新しい画像を取得するたびに、前の追加のビデオフレームを参照する新しい、非表示の追加のビデオフレームを生成し、新しい追加のビデオフレームを参照する新しいビデオフレームの部分として新しい画像を符号化し得る。カメラＦＯＶの変化が依然として進行中であることが肯定的でない場合、本方法は、代わりに、たとえば、停止し、たとえば、破線矢印３１２によって示されるように、従来行われるようにフレームを符号化することに戻り得る。

【0044】

図２に示されているように、方法２００を続けることは、たとえば、第３のＦＯＶを有するカメラによってキャプチャされた第３の画像（たとえば、第３の画像１２０ｃ）を取得することを含み得、第３のＦＯＶは、第２のＦＯＶとは異なるが、また、第３のＦＯＶが第２のＦＯＶと少なくとも部分的に重複するようなものである。これは、たとえば、「第１および第２の」の代わりの「第２および第３の」などを除いて、上記のステップＳ３０３を繰り返すことに対応し得る。本方法は、たとえば、第１の追加のビデオフレーム２３０ａを参照し、第２の動きベクトルを含む第２の追加のビデオフレーム２３０ｂを生成することを含み得、第２の動きベクトルは、上記で説明された第１の動きベクトルと同様の様式で、第２の画像１２０ｂの画像コンテンツを、第２のＦＯＶよりも第３のＦＯＶに近いＦＯＶに変換するために使用される。ここで、第２の動きベクトルは、代わりに、第３のＦＯＶと第２のＦＯＶとの間の差に基づいて形成される。これは、たとえば、上記のステップＳ３０４を繰り返すことに対応し得るが、やはり「第１および第２の」の代わりに「第２および第３の」を用いる。本方法は、符号化されたビデオストリーム２１０に第２の追加のビデオフレーム２３０ｂを挿入することと、第２の追加のビデオフレーム２３０ｂを非表示フレームとしてマークすることとによって続き得る（これは、上記のステップＳ３０５を繰り返すことに対応し、「第１および第２の」の代わりに「第２および第３の」を用いることなどもある）。本方法は、第３のビデオフレーム２２０ｃの部分として第３の画像１２０ｃを符号化することによって続き得、第３の画像１２０ｃは、たとえば、第２の追加のビデオフレーム２３０ｂを参照し得る。本方法は、いくつかの実施形態では、カメラのＦＯＶの変化が終了するまで、同様の様式で続き得る。本例では、これは、第４の画像、たとえば、第４の画像１２０ｄを取得すること、第２の追加のビデオフレーム２３０ｂを参照する第３の追加のビデオフレーム２３０ｃを生成すること、第３の追加のビデオフレーム２３０ｄを参照する第４のビデオフレーム２３０ｄの部分として符号化されたビデオストリーム２１０中の第４の画像１２０ｄを符号化することなどを含み得る。たとえば、第４の画像１０４ｄをキャプチャするときのカメラの第４のＦＯＶが、第５の画像１０４ｅをキャプチャするときのカメラの第５のＦＯＶと同じであることに気づくことによって、たとえば、ズーミングが停止したことを検出したとき、本方法は、たとえば、いくつかの実施形態では、追加のビデオフレームを挿入することを停止し、代わりに、たとえば、ズーミングが現在続いていないときに行われるような、フレームを符号化することに戻り得る。たとえば、第５の画像１０４ｅは、第４の追加のビデオフレーム２３０ｄを参照する第５のビデオフレーム２２０ｅの部分として符号化され得、次の画像２３０ｆは、ビデオフレーム２３０ｅを参照するビデオフレーム２２０ｆとして符号化され得る、などである。特に、本明細書で想定される方法は、主に、カメラがカメラのＦＯＶを変更している間の時間、および動きベクトルを使用する従来のコーディングが、そのような動きベクトルが、カメラの変化するＦＯＶに起因して長いことと変わることの両方であることにより困難である間の時間に対応するビデオフレームの符号化に適用される。

【0045】

カメラによって実施されるズーミングイン動作（プラス追加のパンニング／チルティング動作）によりＦＯＶが変化することによってのみ例示されているが、想定される方法はまた、カメラのＦＯＶの１つまたは複数の追加の変化がある、および／またはカメラのＦＯＶの変化についての他の原因がある記録中にビデオストリームを符号化するために使用され得ることに留意されたい。そのような例は、たとえば、カメラの回転、あるいはパン、チルト、ロールおよび／もしくは焦点距離の変化、または同様のものに関係する可能な変化の他の組合せを含み得る。異なる画像を記録するとき使用される異なるＦＯＶに関する知識が知られている（または場合によっては何らかのやり方で派生され得る）限り、追加のビデオフレームを生成するために必要とされる動きベクトルは、カメラなどのデコーダによる動きベクトル探索を必要とすることなしに、この知識から直接取得され得ることは想定される。追加のビデオフレームのＦＯＶが、したがって、カメラによってキャプチャされた画像のＦＯＶにより良く、または正確に一致するように作られ得る限り、動きベクトル探索は、次いで、追加のビデオフレームにおいて探索することと、追加のビデオフレームを参照することとによって、キャプチャされた画像を符号化したときに、より効率的に実施され得る。

【0046】

次に、想定される方法の別の実施形態が、図４を参照しながら説明される。ここで、方法４００が、依然として、図１に示されているように、オブジェクト１１０に対するズーミングイン中にキャプチャされたビデオストリーム１００を符号化すると考えられるが、図２を参照しながら説明された方法２００とは対照的に、方法４００は、スケーラブルビデオコーディング（ＳＶＣ）など、レイヤードタイプのコーディングを代わりに使用すると仮定される。以下では、方法２００と方法４００との間の差のみがハイライトされる。

【0047】

符号化されたビデオストリーム４１０は、少なくともベースレイヤ４１２と少なくとも１つのエンハンスメントレイヤ４１４とを含む複数のレイヤを有する。方法４００は、そのようなレイヤードコーディング方式において従来行われているように、第１の画像１２０ａを取得することと、この画像を、ベースレイヤ４１２中の第１のビデオフレーム４２０ａの部分として（たとえば、より低い解像度を用いて）、ならびにエンハンスメントレイヤ４１４中の第１のビデオフレーム４４０ａの部分として（ベースレイヤ４１２の解像度よりも高い解像度を取得するためのディテールを用いて）符号化することとから開始する。

【0048】

第２の画像１２０ｂを取得した後に、第１の追加のビデオフレーム４３０ａは、本明細書で前に説明されたように生成され、ベースレイヤ４１２の第１のビデオフレーム４２０ａを参照する。第１の追加のビデオフレーム４３０ａはまた、ベースレイヤ４１２中で符号化され、非表示フレームとしてマークされる。

【0049】

しかしながら、第２の画像１２０ｂは、ベースレイヤ４１２の任意のビデオフレームの部分として直接符号化されないが、代わりに、エンハンスメントレイヤ４１４の第２のビデオフレーム４４０ｂの部分としてのみ符号化され、第２のビデオフレーム４４０ｂは、ベースレイヤ４１２中の第１の追加のビデオフレーム４３０ａを参照する。

【0050】

同様にして本明細書で前に説明されたように、方法４００はまた、いくつかの実施形態では、当然、カメラのＦＯＶが変化している限り、より多くのビデオフレームを生成および符号化し続け得る。第３の画像１２０ｃは取得され得、第３の画像１２０ｃをキャプチャするために使用される第３のＦＯＶは、第２の画像１２０ｂをキャプチャするために使用される第２のＦＯＶと比較され得、第２の動きベクトルは、計算され、ベースレイヤ４１２中で符号化される第２の追加のビデオフレーム４３０ｂを生成するために使用され得る。まさに前述のように、第３の画像１２０ｃは、ベースレイヤ４１２中で直接符号化されないが、代わりに、エンハンスメントレイヤ４１４中で第３のビデオフレーム４４０ｃとして符号化され、ベースレイヤ４１２中で第２の追加のビデオフレーム４３０ｂを参照するために作られる。同じプロシージャは、次いで、当然、たとえば、第４の画像１２０ｄ、第５の画像１２０ｅなどを取得するために繰り返され得、本明細書で説明されるように、対応するフレームは生成され、ベースレイヤ４１２およびエンハンスメントレイヤ４１４中に挿入され得る。本例では、これは、ベースレイヤ４１２中で（非表示としてマークされ、第２の追加のビデオフレーム４３０ｂを参照する）第３の追加のビデオフレーム４３０ｃを生成すること、エンハンスメントレイヤ４１４中で第４のビデオフレーム４４０ｄの部分として第４の画像１２０ｄを符号化すること（ただし、第４のビデオフレーム４４０ｄがベースレイヤ４１２中の第３の追加のビデオフレーム４３０ｃを参照する）などを含む。オブジェクト１１０に対するズーミングインが停止すると、方法４００は、追加のビデオフレームを生成および挿入することを停止し、代わりに、再びベースレイヤ４１２とエンハンスメントレイヤ４１４の両方中で第５の画像１２０ｅと第６の画像１２０ｆとを符号化することに戻り得る。たとえば、これは、第５の画像１２０ｅを、（より低い解像度を用いて）ベースレイヤ４１２中の第５のビデオフレーム４２０ｅ中で符号化することと、（ベースレイヤ４１２の解像度よりも高い解像度を取得するためのディテールを用いて）エンハンスメントレイヤ４１４中の第５のビデオフレーム４４０ｅ中で符号化することの両方を含み、第６の画像１２０を、ベースレイヤ４１２中の第６のビデオフレーム４２０ｆ中で符号化することと、エンハンスメントレイヤ４１４中の第６のビデオフレーム４４０ｆ中で符号化することの両方を含み得る。図４に見られ得るように、方法４００では、追加のビデオフレーム２３０ａ、２３０ｂおよび２３０ｃは、したがって、場合によってはベースレイヤ４１２中の第２、第３および第４の通常符号化されたビデオフレームになるものを置き換える。

【0051】

ベースレイヤ４１２中の第５のビデオフレーム４２０ｅは、たとえば、図４において提供される実線矢印によって示されるように、および図２を参照しながらすでに説明されたように、第３の追加のビデオフレーム４３０ｃなどを参照し得る。また本明細書で説明されるように、様々なビデオフレームの間に含まれる他の参照があり得る。たとえば、図５において破線矢印によって示されるように、エンハンスメントレイヤ４１４中の各ビデオフレームはまた、たとえば、エンハンスメントレイヤ４１４中の１つまたは複数の前のビデオフレームを参照し得、ベースレイヤ４１２中の各「通常」（すなわち、非追加のビデオフレーム）は、ベースレイヤ４１２中の１つまたは複数の前のビデオフレームを参照し得る。当然、考えられる場合、たとえば、将来のフレームまたは同様のものへの参照など、図示されない他の参照があり得る。

【0052】

図２を参照しながら説明された方法２００と比較すると、方法４００は、すべての追加のビデオフレーム（たとえば、フレーム４３０ａ～ｃ）がベースレイヤ４１２中に挿入されるとき、エンハンスメントレイヤ４１４が、依然として、カメラによってキャプチャされた画像ごとに１つの符号化されたビデオフレームのみを含むので、すべての追加のビデオフレームがＦＰＳレートに影響を及ぼさないという利点を有する。エンハンスメントレイヤ４１４が復号されるべきでない状況において、たとえば、エンコーダの処理能力が復号するために不十分であるとき、またはエンハンスメントレイヤ４１４が、符号化されたビデオストリーム４１０をたとえば、ネットワークにわたって送る前に（帯域幅を節約するために）符号化されたビデオストリーム４１０からも削除される場合、追加のフレーム中で見つけられるスケーリング、並進および／または回転のために動きベクトルを使用して生成される様々なキャプチャされた画像の「ＦＯＶ変換された」画像コンテンツが、依然として、画像コンテンツをレンダリングするために使用され得るように、依然として、ベースレイヤ４１２のみを取り出し、復号することにおいて何らかの使用があり得ることも想定され得る。

【0053】

図５は、必要とされる（第１の）動きベクトルの計算がどのように取得され得るかをより詳細に概略的に示す。ここで、一例として、第１のＦＯＶ（「ＦＯＶ１」）を有するカメラ５１０が、オブジェクト１１０の第１の画像１２０ａをキャプチャする。別の（たとえば、より遅い）時間において、同じカメラ５１０は、異なる第２のＦＯＶ（「ＦＯＶ２」）を有しながら、オブジェクト１１０の第２の画像１２０ｂをキャプチャする。説明の目的のみのために、図５において提供される例では、第１のＦＯＶと第２のＦＯＶとの間の差（およびそれにより、第１の画像１２０ａと第２の画像１２０ｂとの間の差）は、図５において、たとえば、図１および図２と比較し誇張されている。

【0054】

第１の画像１２０ａをキャプチャするとき、第１のＦＯＶ（ＦＯＶ１）は、たとえば、第１のパン角５２０ａ、第１のチルト角５２２ａ、および第１のロール角５２４ａ、ならびに第１の焦点距離５２６ａを有するカメラ５１０によって定義される。第２の画像１２０ｂをキャプチャするとき、第２のＦＯＶ（ＦＯＶ２）は、第２のパン角５２０ｂ、第２のチルト角５２２ｂ、第２のロール角５２４ｂ、ならびに第２の焦点距離５２６ｂを有するカメラ５１０によって定義される。この特定の例では、上記で検討されたように、（カメラが、第１のＦＯＶにおけるよりも第２のＦＯＶにおいてズームインされ、わずかに左／下にパン／チルトされるので）ロール角５２４ａ～ｂは同じであるが、第２のパン角５２０ｂは第１のパン角５２０ａよりもやや小さく、第２のチルト角５２２ｂは第１のチルト角５２２ａよりもやや大きく、第２の焦点距離５２６ｂは第１の焦点距離５２６ａよりも大きい。様々な角の厳密な定義は、その定義が、一方のＦＯＶと他方のＦＯＶとの間で角がどのように変化したかを測定／検出することを可能にする限り、重要であるものとして想定されない。

【0055】

カメラ５１０の第１および第２のＦＯＶに関する知識を有することによって（たとえば、角５２０ａ～ｂ、５２２ａ～ｂ、５２４ａ～ｂ、および焦点距離５２６ａ～ｂに関する知識を有することによって）、第１の動きベクトル（たとえば、５３０ａおよび５３０ｂなど）は、次いで、図５にも示されている、第１の画像１２０ａと第２の画像１２０ｂとのオーバーレイ５４０に示されているように計算され得る。オーバーレイ５４０に見られ得るように、第１のＦＯＶから第２のＦＯＶにより近くに進むために必要とされるスケーリングおよび並進が、オブジェクト１１０の異なる部分に異なる方向において異なる速度で移動させ得るので、第１の動きベクトル５３０ａおよび５３０ｂは、第２の画像１２０ｂの異なる部分（たとえば、５５０ａおよび５５０ｂ）について異なり得る。当然、たとえば、第２の画像１２０ｂの各部分について、図５に示されているものよりも他の、追加の第１の動きベクトルがあり得る。

【0056】

本明細書では、次にまた図６を参照しながらより詳細に説明されるように、ビデオストリームを符号化するためのデバイスを提供することも想定される。

【0057】

図６は、本明細書で前に検討されたようにビデオストリームを符号化するためのデバイス６００、すなわち、たとえば、図２を参照しながら説明された方法２００、および／または図４を参照しながら説明された方法４００を実施するように構成されたデバイスを概略的に示す。デバイス６００は、少なくともプロセッサ（または「処理回路」）６１０とメモリ６１２とを含む。本明細書で使用される「プロセッサ」または「処理回路」は、たとえば、メモリ６１２に記憶されたソフトウェア命令を実行することが可能な、好適な中央処理ユニット（ＣＰＵ）、マルチプロセッサ、マイクロコントローラ（μＣ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックス処理ユニット（ＧＰＵ）などのうちの１つまたは複数の任意の組合せであり得る。メモリ６１２は、プロセッサ６１０の外部にあり得るか、またはプロセッサ６１０の内部にあり得る。本明細書で使用される「メモリ」は、ランダムアクセスメモリ（ＲＡＭ）と読取り専用メモリ（ＲＯＭ）との任意の組合せ、または命令を記憶することが可能な任意の他の種類のメモリであり得る。メモリ６１２は、プロセッサ６１０によって実行されたとき、デバイス６００に、本明細書で説明される方法（すなわち、方法２００、４００、またはその方法の任意の実施形態）を実施させる命令を含んでいる（すなわち、記憶する）。デバイス６００は、いくつかの状況では、方法を実施するために有用であり得る１つまたは複数の追加のアイテム６１４をさらに含み得る。いくつかの例示的な実施形態では、デバイス６００は、たとえば、ビデオモニタリングカメラなどの（ビデオ）カメラであり得、（１つまたは複数の）追加のアイテム６１４は、次いで、モニタリングカメラが想定される方法を実施する部分としてシーンの画像をキャプチャし得るように、たとえば、画像センサー、およびたとえば、シーンからの光を画像センサー上に集束させるための１つまたは複数のレンズを含み得る。（１つまたは複数の）追加のアイテム６１４は、たとえば、要望に応じて画像センサーおよび／またはレンズを適切に動作させるために、ならびにたとえば、カメラおよび（１つまたは複数の）レンズの現在の方向および／または焦点距離に関係する情報を集めるために、たとえば、シーンをキャプチャするために必要とされる、様々な他のエレクトロニクス構成要素をも含み得、その情報は、たとえば、２つのＦＯＶ間の差に基づいて動きベクトルをどのように作成すべきかを計算するために使用され得る。モニタリングカメラにおいて本方法を実施することは、処理が「エッジ」に移動される、すなわち、（より集中型の処理サーバまたは同様のものにおいてなど）他のどこかで処理およびビデオ符号化を実施する場合と比較して、実際のシーンがキャプチャされるところにより近いという点で有用であり得る。デバイス６００は、たとえば、本方法を実施することから生じる符号化されたビデオストリームがユーザに送信され得るようなネットワークに接続され得る。この目的のために、デバイス６００は、たとえば、（たとえば、Ｗｉ－Ｆｉをサポートする、たとえば、ＩＥＥＥ８０２．１１または後続の規格のいずれかにおいて定義されている）ワイヤレスネットワークインターフェース、または（たとえば、イーサネットをサポートする、ＩＥＥＥ８０２．３または後続の規格のたとえば、いずれかにおいて定義されている）ワイヤードネットワークインターフェースであり得るネットワークインターフェース６１６を含み得る。ネットワークインターフェース６１６はまた、たとえば、符号化されたビデオを転送することが可能な、たとえば、Ｂｌｕｅｔｏｏｔｈまたは同様のものなど、任意の他のワイヤレス規格をサポートし得る。様々な構成要素６１０、６１２、６１４および６１６は、（存在する場合）、これらの構成要素が、互いに通信し、必要に応じてデータを交換し得るように１つまたは複数の通信バス６２０を介して接続され得る。

【0058】

デバイス６００は、たとえば、シーンのより広いパースペクティブを提供することが可能なＰＴＺカメラ、またはたとえば、魚眼カメラ、あるいは任意の他のタイプのモニタリング／監視カメラの形態で、たとえば、建築物上に取り付けられるかまたは取付け可能なモニタリングカメラであり得る。デバイス６００は、たとえば、人、動物および／または様々な車両、あるいは同様のものに対して取り付けることに好適な、ボディカメラ、アクションカメラ、ダッシュカム、または同様のものであり得る。デバイス６００は、たとえば、ユーザが携帯し、シーンを撮影することができるスマートフォンまたはタブレットであり得る。デバイス６００の任意のそのような例では、デバイス６００は、デバイス６００が、本明細書で想定されるように、方法２００、４００またはその方法の任意の実施形態を実施することが依然として可能である限り、（もしあれば）本明細書ですでに説明されたもの以外のすべての必要な構成要素を含み得ると想定される。

【0059】

図６に明示的に示されていないが、デバイス６００およびプロセッサ６１０は、たとえば、各々が、図３のフローチャート３００に示されているように、たとえば、方法２００および４００の特定のステップによる機能を実施することを担当する、１つまたは複数の算出ブロックに構造化され得る。たとえば、１つのそのような機能ブロックは、第１の画像１２０ａを取得するように（すなわち、ステップＳ３０１を実施するように）構成され得、別の機能ブロックは、第１の画像を符号化するように（すなわち、ステップＳ３０２を実施するように）構成され得、方法２００、４００のすべてのステップ、またはその方法の他の実施形態が、デバイス６００によって実行されるまで、以下同様である。

【0060】

本明細書で提示される様々な実施形態の概要では、本開示は、ビデオストリームの画像をキャプチャしている間に、カメラのＦＯＶが変化する状況では（たとえば、カメラによって実施されるズーミング動作中など）、ビデオストリームを符号化する改善されたやり方を提供する。ＦＯＶ変化がＦＯＶ変化の様々な段においてカメラのＦＯＶに一致し始める前に、キャプチャされた画像の画像コンテンツを連続的に変換する１つまたは複数の追加の非表示フレームを挿入することによって、およびそのような変換をＦＯＶに関する知識から直接見つけられる動きベクトルに基づかせることによって（および動きベクトル探索を必要とすることなしに）、より効率的で、より算出集約的でない符号化が実施され得る。ＦＯＶの変化中のビットストリームの様々な画像は、次いで、たとえば、長く、変わる動きベクトルを／から生じない動きベクトル探索を実施することによって、様々な追加のビデオフレームを参照する動きベクトルを用いて符号化され得る。想定される方法、ならびに対応するデバイス、コンピュータプログラムおよびコンピュータプログラム製品は、本明細書で説明されるように、したがって、動きベクトル探索のみに基づく符号化技法が、特にリアルタイムまたはリアルタイムに近い状況において、しばしば、算出量的に扱いやすくないことが判明するので、そのようなビデオストリームを符号化する明らかな必要を満たす。

【0061】

特徴および要素は、特定の組合せで上記で説明され得るが、各特徴または要素は、他の特徴および要素を用いずに単独で、あるいは他の特徴および要素を用いるまたは用いない様々な組合せで、使用され得る。追加として、開示される実施形態の変形形態が、図面、本開示、および添付の特許請求の範囲の研究から、請求される本発明を行う際に、当業者によって理解および実現され得る。

【0062】

特許請求の範囲では、「備える（ｃｏｍｐｒｉｓｉｎｇ）」および「含む（ｉｎｃｌｕｄｉｎｇ）」という単語は、他の要素を除外せず、不定冠詞「ａ」または「ａｎ」は複数を除外しない。いくつかの特徴が相互に異なる従属請求項に記載されているという単なる事実は、これらの特徴の組合せが有利に使用され得ないことを示すものではない。

【符号の説明】

【0063】

１００カメラによってキャプチャされたビデオストリーム
１１０カメラＦＯＶにおけるオブジェクト
１２０ａ～ｆ第１～６の画像
２００ビデオストリームを符号化する方法
２１０符号化されたビデオストリーム
２２０ａ～ｆ符号化されたビデオストリームのビデオフレーム
２３０ａ～ｃ追加の非表示ビデオフレーム
２４０ａ～ｃ参照矢印
３００想定される方法のフローチャート
３１０、３１２方法フローを指示する矢印
Ｓ３０１～Ｓ３０７方法ステップ
４００ビデオストリーム（レイヤード）を符号化する方法
４１０符号化されたビデオストリーム（レイヤード）
４１２ベースレイヤ
４１４エンハンスメントレイヤ
４２０ａ、ｅ～ｆベースレイヤ中のビデオフレーム
４３０ａ～ｃベースレイヤ中の追加の非表示ビデオフレーム
４４０ａ～ｆエンハンスメントレイヤ中のビデオフレーム
５１０（ビデオ）カメラ
５２０ａ～ｂカメラの第１および第２のパン角
５２２ａ～ｂカメラの第１および第２のチルト角
５２４ａ～ｂカメラの第１および第２のロール角
５２６ａ～ｂカメラの第１および第２の焦点距離
５３０ａ～ｂ第１の動きベクトル
５４０第１および第２の画像のオーバーレイ
６００デバイス
６１０プロセッサ
６１２メモリ
６１４（１つまたは複数の）追加のアイテム
６１４ネットワークインターフェース
６２０（１つまたは複数の）通信バス
ＦＯＶ１、ＦＯＶ２カメラの第１および第２のＦＯＶ

【図1】