(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-24
(45)【発行日】2022-04-01
(54)【発明の名称】独立符号化バックグラウンド更新に基づく映像伝送
(51)【国際特許分類】
H04N 19/23 20140101AFI20220325BHJP
H04N 19/597 20140101ALI20220325BHJP
H04N 21/4728 20110101ALI20220325BHJP
【FI】
H04N19/23
H04N19/597
H04N21/4728
(21)【出願番号】P 2017558347
(86)(22)【出願日】2016-01-22
(86)【国際出願番号】 US2016014584
(87)【国際公開番号】W WO2016118897
(87)【国際公開日】2016-07-28
【審査請求日】2019-01-18
(32)【優先日】2016-01-22
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2015-01-22
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】517256655
【氏名又は名称】ハドリー インコーポレイテッド
(74)【代理人】
【識別番号】230104019
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】100131451
【氏名又は名称】津田 理
(74)【代理人】
【識別番号】100167933
【氏名又は名称】松野 知紘
(74)【代理人】
【識別番号】100174137
【氏名又は名称】酒谷 誠一
(74)【代理人】
【識別番号】100184181
【氏名又は名称】野本 裕史
(72)【発明者】
【氏名】コーネリアセン,ヤン,トーレ
(72)【発明者】
【氏名】アイケネス,アンデシュ
(72)【発明者】
【氏名】アルスタッド,ホーバル,ペデルセン
(72)【発明者】
【氏名】エリクセン,シュタイン,オーヴ
(72)【発明者】
【氏名】ショー,イーモン
【審査官】鉢呂 健
(56)【参考文献】
【文献】特開2013-205983(JP,A)
【文献】特開2006-013754(JP,A)
【文献】特開2000-209569(JP,A)
【文献】特開2002-049920(JP,A)
【文献】特開2004-056335(JP,A)
【文献】特開2010-277594(JP,A)
【文献】Isabel Martins and Luis Corte-Real,A video coder using 3-D model based background for video surveillance applications,Proceedings 1998 International Conference on Image Processing,米国,IEEE,2002年08月06日,pp. 919-923
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
H04N 21/4728
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の視野からのシーンの映像を伝送してレンダリングする方法であって、
前記映像から前記シーンの静的バックグラウンドを決定することにより、バックグラウンドモデルを初期化するステップと、
前記シーンの特徴映像から独立して前記バックグラウンドモデルを符号化することにより、前記シーンの3次元バックグランドを前記特徴映像とは別個に前記バックグラウンドモデルとして伝送するステップであり、前記バックグラウンドモデルが漸進的に更新され、前記漸進的に更新されたバックグラウンドモデルが前記特徴映像から独立してさらに符号化されて映像復号化器の補助データチャネルで伝送される、ステップと、
前記映像復号化器の補助データチャネルから伝送され
漸進的に更新されたバックグラウンドを前記特徴映像と統合することにより、受信機で拡張映像をレンダリングするステップと、
を含む、方法。
【請求項2】
前記受信機が、VR/AR装置である、請求項1に記載の方法。
【請求項3】
シーンの映像を伝送するシステムであって、
i)外側符号化器および中心符号化器を備えた送信機であり、前記外側符号化器が、前記映像を受信するとともに、
特徴映像、バックグラウンド、および形状ビットストリームを前記中心符号化器へと別個に出力するように構成され、前記特徴映像が、前記映像のフォアグラウンドを含み、前記形状ビットストリームが、前記フォアグラウンドから前記バックグラウンドを定める形状マッピングデータを含み、前記バックグラウンドと前記形状ビットストリームが、前記中心符号化器の補助データチャネルを介して伝搬され、前記中心符号化器が、符号化ビットストリームを出力するように構成された、送信機と、
ii)中心復号化器および外側復号化器を備えた受信機であり、前記中心復号化器が、前記符号化ビットストリームを受信するとともに、前記特徴映像、前記バックグラウンド、および形状ビットストリームを前記外側復号化器へと別個に出力するように構成され、前記外側復号化器が、前記特徴映像、前記バックグラウンド、および形状ビットストリームを統合することにより、前記シーンのエンハンス映像を出力するように構成された、受信機と、
を備えた、システム。
【請求項4】
前記外側符号化器が、バックグラウンド推定ユニットを備え、
前記バックグラウンド推定ユニットが、前記映像から前記シーンの静的バックグラウンドを決定することにより、3次元バックグラウンドモデルを初期化するとともに、前記映像のビットレートよりも低いビットレートで前記バックグラウンドモデルを漸進的に更新するように構成された、請求項
3に記載のシステム。
【請求項5】
前記シーンを捕捉する映像源をさらに備えた、請求項4に記載のシステム。
【請求項6】
前記映像源が、視野が部分的に重なった1つまたは複数のカメラを備えた、請求項
5に記載のシステム。
【請求項7】
前記カメラが、移動カメラである、請求項
6に記載のシステム。
【請求項8】
前記シーンの移動部および静止部を推定するようにさらに構成され、
前記外側符号化器が、バックグラウンド推定ユニットを備え、前記バックグラウンド推定ユニットが、前記シーンの前記静止部に基づいて3次元バックグラウンドモデルを生成し、前記映像のビットレートよりも低いビットレートで前記バックグラウンドモデルを漸進的に更新するように構成された、請求項
7に記載のシステム。
【請求項9】
前記移動カメラが、パンチルトズーム(PTZ)カメラである、請求項
7に記載のシステム。
【請求項10】
前記バックグラウンドモデルが、前記特徴映像のビットレートよりも低いビットレートで漸進的に更新されて伝送される、請求項1に記載の方法。
【請求項11】
フレームごとに、前記バックグラウンドと前記特徴映像との形状マッピングデータを伝送するステップをさらに含む、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般的に、映像伝送に関する。具体的に、本開示は、映像伝送の帯域制限を緩和して受信機での映像の品質を向上させる装置および方法に関する。より具体的には、独立符号化バックグラウンドおよびバックグラウンド更新に基づいて、受信機で高解像度の映像を生成する改良された映像伝送システムおよび方法を提供する。
【背景技術】
【0002】
実時間映像通信システムおよびテレプレゼンスという新興分野では、遠隔のユーザに対して、別の物理的空間に存在する体験を模擬しようとすることから、本質的な課題に直面している。これは、現時点で最先端の解像度を有する市販の一眼レフカメラ(single-lens camera)と比較して、高解像度の窩を関心物体に固定可能であることから、人間の目がその視野全体で非常に優れているためである(http://www.clarkvision.com/imagedetail/eye-resolution.html参照(人間の目の解像度を120°にわたって576メガピクセルと推定))。また、テレプレゼンスシステムは実際のところ、ほとんどのユーザが利用可能なネットワーク帯域によって制限される。したがって、ほとんどのタブレット、電話、およびラップトップに備わる狭視野カメラを用いた1対1のビデオチャットの外側では、テレプレゼンスの採用が限られていることに驚きはない。
【0003】
商用のテレプレゼンスシステムにおける自動および手動パンチルトズーム(PTZ)カメラでは、シーンの選択関心部に視野を光学的および機械的に固定することによって、一眼レフカメラの解像度の限界を克服しようとしている。これにより、解像度の限界は部分的に緩和されるものの、いくつかの欠点がある。たとえば、所与の時間には、機械的固定が1つだけ可能である。その結果、関心の異なる複数の遠隔ユーザは、十分なサービスを受けられない可能性がある。また、ズームレンズおよび機械的パンチルト機構によって、カメラシステムのコストが跳ね上がり、システム全体の信頼性に新たな課題が生じる。すなわち、通常は寿命を通して移動サイクルがほとんど生じない手動システムと比較して、自動PTZシステムでは、機構の必要性が高くなる。固定カメラと比較して、高品質映像符号化に対する帯域要求も大幅に高くなる。同様に、既存のシステムにおける何らかのデジタルPTZには、上述のような多くの欠点があり、たとえば遠端の複数のユーザが制御できず、映像符号化に対してより高いビットレートが求められる。
【0004】
パノラマ式の超広角ビデオカメラは、テレプレゼンスシステムの解像度要求を満たして、ユーザの望ましい体験を提供可能である。これらのカメラは、現在の基準を超える十分なセンサ解像度およびピクセルレートの増大の可能性がある。これは、たとえば湾曲センサ表面および単心性レンズ設計によって可能となり得る(http://www.jacobsschool.ucsd.edu/news/news_releases/release.sfe?id-1418(少なくとも85メガピクセルまでの解像度が可能な120°FOV撮像装置を論じる)およびhttp://image-sensors-world.blogspot.co.il/2014/04/vlsi-symposia-sony-presents-curved.html(湾曲画像センサのプロトタイプを発表したセンサ製造業者)参照)。ただし、このような設計では、現在のネットワークの容量および映像符号化効率に対する大きな負担となるため、広範な実世界の展開は実現が困難である。たとえば、30フレーム/秒で85メガピクセルのビデオカメラの場合は、0.0002ビット/ピクセルまで圧縮して、10メガビット/秒のリンクに適合させる必要がある。これは、良好な条件において0.05ビット/ピクセルで動作するH.264等の現行の映像圧縮規格を考慮すると、現時点では大略不可能なことである。
【0005】
したがって、従来のカメラハードウェアに基づいて、映像伝送の帯域制限を緩和するとともに、高解像度の映像を生成する改良された方法およびシステムが求められている。さらに、これらの改良を利用して、最新の実時間通信システムおよび望ましいテレプレゼンス体験を可能にすることが求められている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本開示の目的は、従来のハードウェア機器を用いることにより、映像伝送の帯域制限を緩和して広角高解像度の映像を生成する方法およびシステムを提供することにある。
【課題を解決するための手段】
【0007】
特に、本開示によれば、一実施形態において、映像を伝送する方法であって、1)映像からシーンの静的バックグラウンドを決定することにより、バックグラウンドモデルを初期化するステップと、2)映像から独立してバックグラウンドモデルを符号化することにより、シーンのバックグランドをバックグラウンドモデルとして伝送するステップと、を含む、方法が提供される。バックグラウンドモデルは、漸進的に更新され、更新は、映像から独立してさらに符号化および伝送される。
【0008】
別の実施形態において、この方法は、バックグラウンドを映像と統合することにより、受信機でエンハンス映像を生成するステップをさらに含む。さらに別の実施形態において、バックグラウンドモデルは、映像のビットレートよりも低いビットレートで更新および伝送される。別の実施形態において、この方法は、フレームごとに、バックグラウンドと映像との間の形状マッピングを伝送するステップをさらに含む。
【0009】
別の実施形態において、この方法は、シーン解析によって、映像の視野を決定するステップをさらに含む。さらに別の実施形態において、バックグラウンドモデルは、映像のバックグラウンドにおけるノイズ変化の抑制に用いられる。
【0010】
一実施形態によれば、本開示のこの方法は、標準映像コーデックによって、映像を圧縮するステップをさらに含む。別の実施形態において、映像コーデックは、H.264、H.265、VP8、およびVP9のうちの1つである。さらに別の実施形態において、バックグラウンドは、H.264、H.265、VP8、およびVP9のうちの1つにより規定された補助データチャネルにて伝送される。
【0011】
別の実施形態によれば、バックグラウンドモデルは、パラメトリックモデルである。別の実施形態において、パラメトリックモデルは、混合ガウス(MOG)である。
【0012】
さらに別の実施形態によれば、バックグラウンドモデルは、非パラメトリックモデルである。別の実施形態において、非パラメトリックモデルは、視覚バックグラウンドエクストラクタ(ViB)である。
【0013】
本開示の別の実施形態によれば、シーンの映像上のパンチルトズーム動作を模擬する方法であって、1)映像からシーンの静的バックグラウンドを決定することにより、バックグラウンドモデルを初期化するステップと、2)映像から独立してバックグラウンドモデルを符号化することにより、シーンのバックグランドをバックグラウンドモデルとして伝送するステップであり、バックグラウンドモデルが漸進的に更新され、更新が映像から独立してさらに符号化および伝送され、フレームごとに、バックグラウンドと映像との間の形状マッピングが伝送される、ステップと、3)シーン解析によって、映像の1つまたは複数の視野を選択するステップと、バックグラウンドを映像と統合することにより、受信機でエンハンス映像を生成するステップと、を含む、方法が提供される。
【0014】
別の実施形態において、この方法は、模擬するパンチルトズーム動作を受信機で制御するステップをさらに含む。さらに別の実施形態において、この方法は、模擬するパンチルトズーム動作を映像の送信機で制御するステップをさらに含む。
【0015】
本開示のさらに別の実施形態によれば、シーンの映像を伝送するシステムであって、1)外側符号化器および中心符号化器を備えた送信機であり、外側符号化器が、映像を受信するとともに、特徴映像、バックグラウンド、および形状ビットストリームを中心符号化器へと別個に出力するように構成され、中心符号化器が、符号化ビットストリームを出力するように構成された、送信機と、2)中心復号化器を備えた受信機であり、中心復号化器が、符号化ビットストリームを受信するとともに、特徴映像を出力するように構成された、受信機と、を備えた、システムが提供される。
【0016】
本開示の別の実施形態によれば、シーンの映像を伝送するシステムであって、1)外側符号化器および中心符号化器を備えた送信機であり、外側符号化器が、映像を受信するとともに、特徴映像、バックグラウンド、および形状ビットストリームを中心符号化器へと別個に出力するように構成され、中心符号化器が、符号化ビットストリームを出力するように構成された、送信機と、2)中心復号化器および外側復号化器を備えた受信機であり、中心復号化器が、前記符号化ビットストリームを受信するとともに、特徴映像、バックグラウンド、および形状ビットストリームを外側復号化器へと別個に出力するように構成され、外側復号化器が、特徴映像、バックグラウンド、および形状ビットストリームを統合することにより、シーンのエンハンス映像を出力するように構成された、受信機と、を備えた、システムが提供される。
【0017】
別の実施形態において、外側符号化器は、バックグラウンド推定ユニットをさらに備え、バックグラウンド推定ユニットが、映像からシーンの静的バックグラウンドを決定することにより、バックグラウンドモデルを初期化するとともに、映像のビットレートよりも低いビットレートでバックグラウンドモデルを漸進的に更新するように構成されている。さらに別の実施形態において、外側符号化器は、バックグラウンド推定ユニットに接続されたバックグラウンド符号化器をさらに備える。バックグラウンド符号化器が、映像から独立してバックグラウンドモデルおよび更新を符号化するように構成されている。別の実施形態において、バックグラウンド符号化器は、エントロピ符号化器、エントロピ復号化器、更新予測ユニット、および更新格納ユニットを備える。
【0018】
別の実施形態によれば、バックグラウンド符号化器は、ビットストリームマルチプレクサの下流に接続されている。さらに別の実施形態において、外側符号化器は、形状ビットストリームをビットストリームマルチプレクサへと出力するように構成された特徴フレーミングユニットをさらに備える。ビットストリームマルチプレクサは、形状ビットストリームおよびバックグラウンドビットストリームを統合することにより、バックグラウンドおよび形状ビットストリームを出力するように構成されている。
【0019】
別の実施形態において、外側符号化器は、映像をスケーリングおよび切り取り可能なダウンスケールユニットをさらに備える。ダウンスケールユニットは、ノイズ除去ユニットの下流に接続されている。ノイズ除去ユニットは、バックグラウンドモデルに基づいて、特徴映像のノイズを抑制するように構成されている。
【0020】
別の実施形態によれば、外側復号化器は、i)中心符号化器からバックグラウンドおよび形状ビットストリームを受信するとともに、形状ビットストリームおよびバックグラウンドビットストリームを別個に出力するように構成されたビットストリームデマルチプレクサと、ii)ビットストリームデマルチプレクサに接続され、バックグラウンドビットストリームを受信するように構成されたバックグラウンド復号化器と、iii)ビットストリームデマルチプレクサおよびバックグラウンド復号化器の下流に接続されたバックグラウンド統合ユニットと、をさらに備える。バックグラウンド統合ユニットは、中心復号化器から特徴映像を受信し、形状ビットストリームおよびバックグラウンドビットストリームを特徴映像と統合することによって、シーンのエンハンス映像を生成するように構成されている。
【0021】
さらに別の実施形態において、バックグラウンド復号化器は、エントロピ復号化器、更新予測ユニット、および更新格納ユニットを備える。
【0022】
別の実施形態において、外側復号化器は、制御入力を受信することによって、エンハンス映像を生成可能な仮想パンチルトズームユニットをさらに備える。
【0023】
別の実施形態によれば、本開示のシステムの中心符号化器は、H.264/H.265映像符号化器であり、バックグラウンドおよび形状ビットストリームが、H.264/H.265映像符号化器のネットワーク抽象化層を介して伝搬される。さらに別の実施形態において、本開示のシステムの中心復号化器は、H.264/H.265映像復号化器であり、バックグラウンドおよび形状ビットストリームが、H.264/H.265映像復号化器のネットワーク抽象化層を介して伝搬される。
【0024】
別の実施形態において、中心符号化器は、マルチメディアコンテナフォーマットであり、バックグラウンドおよび形状ビットストリームが、中心符号化器の補助データチャネルを介して伝搬される。別の実施形態において、中心復号化器は、マルチメディアコンテナフォーマットであり、バックグラウンドおよび形状ビットストリームが、中心復号化器の補助データチャネルを介して伝搬される。
【0025】
さらに別の実施形態によれば、本開示のシステムの中心符号化器は、標準映像符号化器であり、バックグラウンドおよび形状ビットストリームが、中心符号化器の補助データチャネルを介して伝搬される。別の実施形態において、中心復号化器は、標準映像復号化器であり、バックグラウンドおよび形状ビットストリームが、中心復号化器の補助データチャネルを介して伝搬される。
【0026】
本開示の別の実施形態によれば、複数の視野からのシーンの映像を伝送してレンダリングする方法であって、(1)映像からシーンの静的バックグラウンドを決定することにより、3次元バックグラウンドモデルを初期化するステップと、(2)映像から独立してバックグラウンドモデルを符号化することにより、シーンのバックグランドをバックグラウンドモデルとして伝送するステップであり、バックグラウンドモデルが漸進的に更新され、更新が映像から独立してさらに符号化および伝送される、ステップと、(3)バックグラウンドを映像と統合することにより、受信機で拡張映像をレンダリングするステップと、を含む、方法が提供される。
【0027】
さらに別の実施形態において、受信機は、VR/AR装置である。別の実施形態において、この方法は、VR/AR受信機の視方向から関心領域を自己学習するステップと、関心領域の高解像度映像を伝送するステップであり、拡張映像が、関心領域の高解像度映像をバックグラウンドと統合することによって生成される、ステップと、をさらに含む。
【0028】
別の実施形態によれば、複数の視野からのシーンの映像を伝送してレンダリングするシステムであって、(1)外側符号化器および中心符号化器を備えた送信機であり、外側符号化器が、映像を受信するとともに、特徴映像、3次元バックグラウンド、および形状ビットストリームを中心符号化器へと別個に出力するように構成され、中心符号化器が、符号化ビットストリームを出力するように構成された、送信機と、(2)中心復号化器および外側復号化器を備えたVR/AR受信機であり、中心復号化器が、符号化ビットストリームを受信するとともに、特徴映像、バックグラウンド、および形状ビットストリームを外側復号化器へと別個に出力するように構成され、外側復号化器が、前記特徴映像、バックグラウンド、および形状ビットストリームを統合することにより、シーンの拡張映像をレンダリングするように構成された、VR/AR受信機と、を備えた、システムが提供される。別の実施形態において、3次元バックグラウンドモデルは、漸進的に更新される。
【0029】
さらに別の実施形態において、外側符号化器は、バックグラウンド推定ユニットを備え、バックグラウンド推定ユニットが、映像からシーンの静的バックグラウンドを決定することにより、3次元バックグラウンドモデルを初期化するとともに、映像のビットレートよりも低いビットレートでバックグラウンドモデルを漸進的に更新するように構成されている。
【0030】
別の実施形態において、このシステムは、シーンを捕捉する映像源をさらに備える。別の実施形態において、映像源は、視野が部分的に重なった1つまたは複数のカメラを備える。さらに別の実施形態において、カメラは、移動カメラである。別の実施形態において、このシステムは、シーンの移動および静止部を推定するように構成されている。さらに別の実施形態において、外側符号化器は、バックグラウンド推定ユニットを備え、バックグラウンド推定ユニットが、シーンの静止部に基づいて、3次元バックグラウンドモデルを生成するとともに、映像のビットレートよりも低いビットレートでバックグラウンドモデルを漸進的に更新するように構成されている。
【0031】
別の実施形態において、移動カメラは、PTZカメラである。別の実施形態において、VR/AR受信機は、その視方向から関心領域を自己学習するように構成され、1つまたは複数のPTZカメラは、関心領域の高解像度映像を捕捉するように構成されている。
【図面の簡単な説明】
【0032】
【
図1】本開示の一実施形態に係る映像伝送システムを示した図である。
【
図2】別の実施形態に係る映像伝送システムの外側符号化器を示した図である。
【
図3】別の実施形態に係る映像伝送システムの外側復号化器を示した図である。
【
図4】別の実施形態に係る映像伝送システムのH.264/H.265中心符号化器を示した図である。
【
図5】別の実施形態に係る映像伝送システムのH.264/H.265中心復号化器を示した図である。
【
図6】別の実施形態に係る映像伝送システムのマルチメディアコンテナフォーマット中心符号化器を示した図である。
【
図7】別の実施形態に係る映像伝送システムのマルチメディアコンテナフォーマット中心復号化器を示した図である。
【
図8】別の実施形態に係る映像伝送システムの中心符号化器としての補助データチャネルを備えた標準映像符号化器を示した図である。
【
図9】別の実施形態に係る映像伝送システムの中心復号化器としての補助データチャネルを備えた標準映像復号化器を示した図である。
【
図10】別の実施形態に係る映像伝送システムのバックグラウンド符号化器を示した図である。
【
図11】別の実施形態に係る映像伝送システムのバックグラウンド復号化器を示した図である。
【発明を実施するための形態】
【0033】
本開示の種々実施形態に係る方法およびシステムは、バックグラウンドモデルを採用しており、これに基づいて、映像のシーンのバックグラウンドが符号化され、漸進的に更新される。符号化されたバックグラウンドおよび更新は、映像とは独立して伝送される。受信機においては、バックグラウンドが映像と統合され、エンハンスされた高解像度映像が生成されるようになっていてもよい。
【0034】
方法概説
一実施形態においては、たとえば、フォアグラウンドおよびバックグラウンドの両者を含むシーンの映像が伝送される。これは、H.264等の標準映像コーデックによって圧縮される。シーンの静的バックグラウンドがバックグラウンドモデルとして伝送され、映像よりも低いビットレートで漸進的に更新される。バックグラウンドモデルは、確立された監視システム技術に基づいて、映像の静的バックグラウンドから生成されて初期化される。
【0035】
別の実施形態においては、視野が部分的に重なった複数のカメラが映像源として展開され、伝送およびレンダリングされる1つまたは複数の同期および協調映像ストリームを生成する。ある実施形態において、このような映像源としては、移動カメラが挙げられる。映像ストリームからシーンの移動部および静止部が推定されることで、画像の静止部に基づいて、3次元バックグラウンドモデルが生成される。
【0036】
別の実施形態においては、被験者に対する制限等のシーン解析によって、伝送映像の視野が自動的に制限され、映像フォーマットの解像度が良好に利用される。この実施形態によれば、フレームごとに、映像とバックグラウンドとの正確な空間的関係が伝送される。
【0037】
別の実施形態において、バックグラウンドモデルは、映像のバックグラウンドにおける疑似ノイズの抑制に用いられる。バックグラウンドモデルデータおよび他の関連情報は、H.264等の映像規格により規定された補助データチャネルにて伝送される。補助データチャネルを通って伝搬されたデータを解釈するように設定されていない復号化器は、このバックグラウンドおよび関連データを無視して回避するようにしてもよい。したがって、この実施形態に係るシステムには、古い既存のレガシーシステムと融合する柔軟性がある。
【0038】
ある実施形態において、受信機では、バックグラウンドモデルの出力が映像と統合されることによって、エンハンス映像が生成される。特定の一実施形態において、受信機では、エンハンス映像上でPTZ動作が模擬される。一実施形態によれば、この模擬PTZ動作は、送信機または受信機で制御される。別の実施形態によれば、この制御は、送信機または受信機において、ユーザまたは自動プロセスにより有効となる。
【0039】
バックグラウンドの取り扱い
いくつかの既存の映像符号化器は、フォアグラウンド/バックグラウンドセグメント化を適用するが、その場合、符号化前に映像からバックグラウンドが差し引かれ、バックグラウンドが別個に伝送される。本開示の一実施形態によれば、H.264またはH.265等の標準映像符号化器を用いて、フォアグラウンドおよびバックグラウンドの両者の映像が符号化される。この実施形態においては、バックグラウンドモデルの予測ピクセル状態に対して入力映像ピクセルを比較することにより、バックグラウンドの疑似ノイズが抑制される。したがって、この実施形態においては、バックグラウンド領域のほぼ静的な画像が映像符号化器に与えられる。バックグラウンドモデルは、標準コーデックの補助チャネルにて伝送され、漸進的に更新される。したがって、この実施形態に係るバックグラウンド伝送方法は、映像伝送の帯域要件を緩和するとともに、バックグラウンド更新を映像と統合することによって、受信機で高解像度映像をレンダリング可能である。
【0040】
一実施形態によれば、バックグラウンドモデルデータを把握せずに、標準復号化器によって映像が復号化される。標準復号化器は、未知の補助フィールドを無視するとともに、バックグラウンドモデルデータを回避する。この実施形態のシステムは、実装がより低コストの既存の中心映像コーデックを利用する。したがって、この実施形態のシステムには、古い既存のシステムとの後方互換性がある。
【0041】
別の実施形態において、本開示のシステムおよび方法では、フォアグラウンドに対するエンハンスされたレベルの表現でバックグラウンドを伝送する。特定の一実施形態において、バックグラウンドデータは、より高い解像度およびダイナミックレンジで伝送される。これは、多くの理由で都合が良い。たとえば、従来の混成映像コーデックの修正によって、高解像度イントラフレームの伝送および低解像度での予測フレームの伝送が可能であったとしても、イントラフレームでは、符号化に多くのビットを要するため、映像ストリームの途絶のない低遅延の実施態様での伝送は不可能である。この実施形態に係る外側層でのバックグラウンド伝送により、中心映像伝送は、バックグラウンド伝送が完了しているため、途絶なく正常に進行する。
【0042】
高解像度のイントラフレームと比較して、この実施形態によれば、バックグラウンド伝送を外側層とすることで、中心符号化器を簡素に保つことができる。これによりコストが抑えられ、広範なシステム互換性が得られる。
【0043】
模擬パンチルトズーム
別の実施形態によれば、上述の通り、本開示のシステムは、PTZ動作を模擬する。この実施形態においては、送信側で固定されるのと対照的に、受信側の模擬PTZプロセスによって、ビューが決定される。したがって、すべての受信ユーザは、他側の異なるビューにアクセス可能である。この模擬PTZが機構の制約を受けないため、別の実施形態においては、多くの付加的な遷移および変換に開放されている。特に、一実施形態においては、ビューとビューの回転との間の瞬時的な切り替えがもたらされる。
【0044】
本開示に係るこれら非機械的な模擬PTZシステムも同様に、既存のPTZテレプレゼンスソリューションと比較してコストが抑えられ、さらに、テレプレゼンスの信頼性が向上している。
【0045】
装置および構成要素
図1を参照して、本開示のシステムは、一実施形態において、映像源、送信機、および受信機を備える。特定の一実施形態において、映像源、送信機、および受信機はそれぞれ、パノラマ式である。
【0046】
一実施形態に係るパノラマ式の映像源は、広角またはパノラマのデジタル映像ストリームを提供する装置である。この実施形態においては、それは、別途処理に適した高ビットレートの非圧縮映像を供給する。一実施形態において、映像源は、単一のレンズおよび画像センサアセンブリであり、別の実施形態においては、単一のレンズおよびセンサの動作を模倣できる適当な画像ステッチソフトウェアまたはハードウェアと併せて、複数のレンズおよびセンサを具備する。さらに別の実施形態において、映像源は、表面への3次元(3D)シーンの形状投影を模擬するグラフィックレンダリング装置を含む。したがって、この実施形態のシステムは、コンピュータビデオゲームに展開可能であり、都合が良い。
【0047】
一実施形態におけるパノラマ式映像源の形状投影は、所望のレンダリング投影と異なっていてもよい。したがって、映像源装置の設計、製造、または設定中に、映像送信機への埋め込みまたはサイド情報としての映像送信機への転送に適した形態にて校正されるようになっていてもよい。一方、送信機がこの情報を受信機に提供すると、これを使用して、別の投影により映像をレンダリング可能である。したがって、この実施形態のシステムによれば、設計による組み込みまたはユーザ入力の所望の制御に基づく受信機での映像のレンダリングが大幅に柔軟化される。別の実施形態において、このような制御は、送信機または受信機により有効化されるようになっていてもよい。
【0048】
一実施形態に係るシステムの送信機は、外側符号化器を備える。
図2を参照して、外側符号化器は、一実施形態において、パノラマデジタル映像ストリームを取り込むとともに、特徴映像ストリーム、一連の符号化バックグラウンドモデル更新、および形状投影データを出力する。そして、外側符号化器からのこのデータは、一実施形態に係るシステムの中心符号化器に送られる。ある一実施形態において、映像ストリームは非圧縮形態であり、標準映像符号化器による圧縮に適している。別の実施形態に係る符号化バックグラウンドモデルデータおよび形状投影データは、多重化およびフレーム化によって、標準映像符号化器の補助データフレームでの伝送に適したフォーマットとなる。この実施形態のシステムの中心符号化器は、符号化ビットストリームを出力する。
【0049】
一実施形態において、中心符号化器は、
図4に示すように、H.264/H.265符号化器である。H.264/H.265中心符号化器は、標準のネットワーク抽象化層を用いることにより、ユーザデータとしてマークされたSEIヘッダにて補助データを送信する。ある一実施形態において、このようなSEIヘッダを受信するように設定されていない受信機は、このデータを無視する。上述の通り、このシステムは、後方互換性をもたらすため、既存のテレプレゼンスシステムへの組み込みが容易である。
【0050】
本開示の一実施形態に係るシステムに採用されたバックグラウンドモデルは、パラメトリックモデルである。このようなパラメトリックなバックグラウンドモデルにおいては、過去の映像フレームからのサンプルに基づいて、ピクセルごとに多くの統計値が決定される。別の実施形態によれば、バックグラウンドモデルは、非パラメトリックモデルである。このような非パラメトリックなバックグラウンドモデルにおいては、ピクセルごとに、過去の映像フレームからの多くのサンプルが格納または集約される。有限次元の空間においては、統計値もパラメータも決定されない。一実施形態によれば、非パラメトリックなバックグラウンドモデルは、視覚バックグラウンドエクストラクタ(ViBe)である。別の実施形態において、パラメトリックなバックグラウンドモデルは、混合ガウス(MOG)である。本開示のある実施形態において、システムのバックグラウンドモデルは、3次元モデルであり、VR/AR用途に対応する。本開示の種々実施形態の目的のため、用語「3次元」は、モデルが画像中の各点に深さを持つ単一視点からの画像であるシナリオを含み、「2.5次元」と称する場合がある。
【0051】
一実施形態に係るシステムのバックグラウンドモデルは、シーンの制御またはより簡単なバックグラウンドモデルを用いたブート処理によって、バックグラウンドとして既知の映像フレームのピクセルによって初期化される。別の実施形態において、システムは、バックグラウンドモデルの初期化において、すべてのピクセルがバックグラウンドの一部であるものと仮定する。
【0052】
初期化後、一実施形態においては、モデルによりバックグラウンドとして決定される新たなサンプルまたはバックグラウンドとなる可能性がある新たなサンプルによるバックグラウンドの変化に基づいて、バックグラウンドモデルが更新される。
【0053】
一実施形態によれば、過去の再構成更新による各更新の予測および予測更新と実際の更新との差分のみ(すなわち、残留分)の伝送によって、更新が符号化される。別の実施形態においては、量子化およびエントロピ符号化によって、残留分のビットレートがさらに抑えられる。
【0054】
図10および
図11を参照して、本開示のある実施形態によれば、バックグラウンド符号化器およびバックグラウンド復号化器の両者において、更新が同じプロセスにより再構成される。まず、エントロピ符号化および量子化の反転によって残留分が復号化された後、過去の更新から各更新または一連の更新が予測され、残留分および予測更新の加算によって実際の更新が再構成される。
【0055】
図1に示すように、一実施形態に係るシステムの送信機は、外側符号化器および中心符号化器を備える。この実施形態において、送信機およびその一部は、同じ物理装置に実装される。たとえば、一実施形態において、送信機は、モバイルのシステムオンチップ(SoC)である。ある実施形態において、外側符号化器は、GPUまたはCPUコアのソフトウェアに実装され、中心符号化器は、このようなSoCに備わる映像符号化用のハードウェアアクセラレータを用いて実装される。このSoC送信機の実装は、携帯電話またはタブレット装置に送信機が有用となるテレプレゼンスシステムに都合が良い。
【0056】
別の実施形態において、送信機は、カメラ用に調整されたSoCに実装される。映像符号化用のアクセラレータのほか、DSPコア上で動作するソフトウェアとして、別の機能が実装される。この特定の実施形態の送信機は、独立型のカメラを採用したテレプレゼンスシステムに都合が良い。
【0057】
上述の通り、本開示の映像受信機は、中心復号化器を備える。
図5、
図7、および
図9を参照して、ある実施形態の中心復号化器は、符号化ビットストリームを取り込むとともに、補助データに加えて非圧縮映像を出力する。これらの実施形態によれば、補助データには、バックグラウンドモデルデータおよび形状マッピングデータを含む。一実施形態によれば、
図3に示すように、このデータが外側復号化器に送られ、特徴映像およびバックグラウンド出力が統合されることにより、エンハンスされたパノラマ映像ストリームが生成される。別の実施形態において、外側復号化器は、映像の形状マッピングを変更することにより、光学的なPTZカメラの影響を模擬する。
【0058】
送信器と受信機との間の補助データチャネルでパケット喪失等の信頼性問題が生じている場合、本開示の別の実施形態に係るシステムは、喪失パケットの再送信の要求を送信機に送る実用性をもたらす。これらには、バックグラウンドモデルデータおよび他の伝送メタデータの一部を含んでいてもよい。
【0059】
一実施形態に係るシステムの映像受信機は、汎用データセンタまたはメディアプロセッサ上で動作するクラウドサーバに実装される。別の実施形態において、受信機は、スマートフォン、タブレット、またはパソコン等のエンドユーザ装置のウェブブラウザに実装される。ウェブブラウザにおいて、受信機機能は、特定の一実施形態において、ブラウザ拡張によりまたはWebRTC(中心復号化器用)およびWebGL(外側復号化器用)等の標準化されたウェブコンポーネントを使用して実装される。さらに別の実施形態において、受信機は、スマートフォン、タブレット、またはパソコン等のエンドユーザ装置のオペレーティングシステムにネイティブアプリケーションとして実装される。さらに別の実施形態において、受信機は、映像通信専用の電化製品に実装される。
【0060】
別の実施形態において、受信機は、没入型ゴーグルディスプレイ、ヘッドマウントトラッキング、または選択画像をユーザの網膜に投影する別の技術と併せて、仮想現実(VR)または拡張現実(AR)システムの一部として実装される。この実施形態によれば、本発明の装置および方法は、遠隔のライブ画像が近端ビューに投影されるVR/AR対応のテレビ会議システムの帯域制限を緩和し得る。
【0061】
別の実施形態において、VR/AR受信機の視線および視方向に関する情報は、本発明のカメラシステムに中継される。これに応じて、このような特定の視方向からの高解像度映像が伝送され、当該特定の視方向周りに一定の余裕が確保される。さらに別の実施形態において、本発明のシステムでは、自己学習を採用して、関心領域を精密にマッピングする。具体的に、VR/AR受信機は、経時的な視線方向を解析するが、ほとんどのビューまたは「ヒット」を受信する領域は、高解像度で符号化されて、伝送およびレンダリングされる。
【0062】
一実施形態によれば、本開示のシステムは、映像源を備える。ある実施形態において、映像源としては、1つまたは複数の移動PTZカメラが挙げられる。これらの移動PTZカメラにより、特定の関心領域(「ROI」)の高解像度映像が捕捉され、一実施形態に係るバックグラウンドと統合される。この実施形態において、バックグラウンドは静止画像であり、ROI映像よりも高い解像度でレンダリングされるため、VR/AR体験が向上する。
【0063】
一実施形態に係る移動カメラは、時間の同期および位置の協調によって、複数のカメラから集めたROI映像間の効率的な混合が可能となる。
【0064】
空間的移動カメラシステムが映像源として用いられる別の実施形態においては、視野(FOV)が部分的に重なった複数の固定高解像度カメラを用いて、バックグラウンドの3次元モデルが事前に生成される。一実施形態において、これらのカメラは、バックグラウンド/フォアグラウンドセグメント化フィルタをさらに備えることにより、シーンの移動部を非移動部から識別する。シーンのバックグラウンド(静止)部のみを用いて、シーンの3Dモデルが生成される。別の実施形態においては、3Dモデルの生成に先立って、超解像度撮像の技術の使用により、3Dモデルの解像度を高くする。
【0065】
別の実施形態においては、微調整用の視覚的情報と併せて、空間および角度位置決め用のジャイロおよび加速度計の組み合わが移動カメラ映像源に適用される。また、位置およびマッピング同時実行(SLAM)技術の採用により、本開示のシステムは、シーンの移動部および非移動部を推定して、シーンの3Dモデルを生成することができる。
【0066】
一例として、一実施形態のシステムは、カメラ映像源が移動している場合、以下のステップに従ってシーンの移動部を決定する。まず、連続する各映像フレームについて、ハリスコーナー特徴点(または、他の種類の特徴点)を推定し、各映像フレーム対(時間的隣接対および時間間隔がより大きな複数対)について、(6自由軸の)フレーム間のカメラの回転および並進を推定し、外れ値を取り除く。外れ値の一部はノイズに起因しており、他の一部は、フレーム間で移動した物体を反映している。次に、外れ値のハリスコーナーについて、外れ値を含むシーンの部分の3D運動ベクトルを導入し、これらの点の運動を推定し、一貫して一体的に移動している特徴点について、3D運動ベクトルを推定する。これにより、カメラの配向を考慮して、シーンの静止部に基づく3Dモデルが生成される。
【0067】
本開示のある実施形態に係るシステムの受信機および送信機は、双方向映像通信用の同じ装置に実装される。
【0068】
適用分野
種々実施形態によれば、本開示のシステムは、数ある用途および産業の中でも、実時間映像通信(テレビ会議およびテレプレゼンス)、ライブストリーミング(スポーツ、コンサート、イベント共有、およびコンピュータゲーム)、交通モニタリング(ダッシュボードカメラ、道路モニタリング、駐車場モニタリング、および料金収受)、仮想現実、監視、ホームモニタリング、ストーリーテリング、映画、ニュース、ソーシャル、および従来メディア、ならびに技術的装置に展開可能であり、都合が良い。
【0069】
一実施形態によれば、シーン全体の高解像度映像を伝送するのに帯域が十分ではないライブストリーミングおよび双方向通信VR/AR用途においては、視野全体の高解像度静止画が周期的に伝送される一方、選択関心領域の高解像度映像が一定頻度で伝送される。別の実施形態においては、VR/AR受信機で映像および静止画が局所的に混合されることにより、AR/VRの高速レンダリングおよび低遅延が実現される。この背景での通常の遅延は、20ms以下である。
【0070】
さまざまな図面および例を含めて、本開示に示した種々実施形態の説明は、例示に過ぎず、本発明およびその種々実施形態を制限するものではない。