IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

特許7282849プライバシーマスクを含む画像をエンコードする方法
<>
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図1
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図2A
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図2B
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図2C
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図3
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図4
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図5A
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図5B
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図6A
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図6B
  • 特許-プライバシーマスクを含む画像をエンコードする方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-19
(45)【発行日】2023-05-29
(54)【発明の名称】プライバシーマスクを含む画像をエンコードする方法
(51)【国際特許分類】
   H04N 19/132 20140101AFI20230522BHJP
   H04N 19/107 20140101ALI20230522BHJP
   H04N 19/139 20140101ALI20230522BHJP
   H04N 19/167 20140101ALI20230522BHJP
   H04N 19/176 20140101ALI20230522BHJP
   H04N 19/46 20140101ALI20230522BHJP
【FI】
H04N19/132
H04N19/107
H04N19/139
H04N19/167
H04N19/176
H04N19/46
【請求項の数】 11
【外国語出願】
(21)【出願番号】P 2021165282
(22)【出願日】2021-10-07
(65)【公開番号】P2022066158
(43)【公開日】2022-04-28
【審査請求日】2023-01-27
(31)【優先権主張番号】20202309
(32)【優先日】2020-10-16
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ニストレーム, ヨハン
(72)【発明者】
【氏名】フェルベルク, ヨハン
(72)【発明者】
【氏名】ユアン, ソン
【審査官】田中 純一
(56)【参考文献】
【文献】特開2018-137730(JP,A)
【文献】米国特許出願公開第2018/0176597(US,A1)
【文献】特開2013-066016(JP,A)
【文献】特開2009-027753(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/12
H04N 7/18
H04N 19/00 - 19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
画像センサによって取り込まれ、プライバシーマスクを含む画像のストリームをエンコードする方法において、画像の前記ストリーム内の現在画像は、画像の前記ストリーム内の事前にデコードされた画像である参照画像を参照してエンコードされる、方法であって、
前記現在画像のピクセルを示す前記画像センサからの情報を受信する(702)こと、
前記ピクセルを、近傍ピクセルの群のピクセルブロックにグループ化する(704)こと、
前記プライバシーマスクが前記現在画像に適用されるプライバシーマスクエリアの位置および範囲を指定する情報を受信する(706)こと、
前記プライバシーマスクエリアのピクセル化を実施する(708)ことであって、前記プライバシーマスクエリアのピクセル化を実施するステップは、
前記プライバシーマスクエリアのピクセルを、近傍ピクセルのピクセル化群にグループ化すること、および、
それぞれのピクセル化群の各ピクセルのピクセル値を前記それぞれのピクセル化群を示す共通ピクセル値に設定すること
を含む、ピクセル化を実施する(708)こと、
前記参照画像の取り込みと、前記現在画像の取り込みとの間の前記画像センサの運動を示す情報を受信する(710)ことであって、前記画像センサの運動を示す前記情報は、前記画像センサの運動を制御するパン、チルト、またはズームコントローラから、または、動きセンサから受信される、前記画像センサの運動を示す情報を受信する(710)こと、
前記画像センサの前記運動が閾値より大きい場合、ピクセル化済み前記プライバシーマスクエリア内の各ピクセルブロックを、前記参照画像内の参照ピクセルブロックを指す動きベクトルおよびピクセル化済み前記プライバシーマスクエリア内の前記参照ピクセルブロックと前記ピクセルブロックとの間のピクセル値差を示す残差を有するインターコード化済みブロックとしてエンコードする(716)ことであって、前記動きベクトルは、前記画像センサの前記運動に等しく設定され、前記残差はゼロに設定される、各ピクセルブロックをエンコードする(716)こと
を含む、方法。
【請求項2】
第1のエンコード済みピクセルブロックを生成するために、前記画像センサの前記運動と無関係に前記現在画像内のピクセルブロックの最初のエンコーディング(610)を実施すること、
前記画像センサの前記運動が前記閾値より大きい場合、前記最初のエンコーディングと並列に、前記プライバシーマスクエリア内のピクセルブロックの第2のインターコーディング(612、614)を実施することであって、それにより、前記画像センサの前記運動に等しく設定される動きベクトルを有し、ゼロに設定される残差を有する前記インターコード化済みブロックを生成する、第2のインターコーディングを実施する(612、614)こと、および、
前記プライバシーマスクエリア内の前記ピクセルブロックに対応する前記最初にエンコードされたピクセルブロックを、前記インターコード化済みブロックであって、前記画像センサの前記運動に基づいて決定される動きベクトルを有し、ゼロに設定される残差を有する、前記インターコード化済みブロックによって置換する(616)こと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記プライバシーマスクエリア内の各ピクセルブロックをインターコード化済みブロックとしてエンコードすることは、
非ゼロ残差を有するインターコード化済みブロックを生成するために、前記プライバシーマスクエリア内の各ピクセルブロックの最初のインターコーディング(602)を実施すること、および、
前記非ゼロ残差をゼロに設定する(604)ことを含む、請求項1に記載の方法。
【請求項4】
前記最初のインターコーディング(602)は、前記プライバシーマスクエリア内の各ピクセルブロックの動きベクトルを、前記画像センサの前記運動に等しく設定することを含む、請求項3に記載の方法。
【請求項5】
前記最初のインターコーディングは、前記画像センサの前記運動と無関係に前記プライバシーマスクエリア内の各ピクセルブロックについて第1の動きベクトルを決定することを含み、前記プライバシーマスク内の各ピクセルブロックのエンコーディングは、
最初のエンコーディングと並列に、前記プライバシーマスクエリア内の各ピクセルブロックの動きベクトルを前記画像センサの前記運動に等しく設定し、前記第1の動きベクトルを、前記画像センサの前記運動に等しく設定される前記動きベクトルによって置換することをさらに含む、請求項3に記載の方法。
【請求項6】
前記共通ピクセル値は、前記それぞれのピクセル化群内のピクセルのサブセットのピクセル値の平均である、請求項1に記載の方法。
【請求項7】
前記事前にデコードされる画像は、画像の前記ストリーム内の事前に取り込まれる画像である、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記事前にデコードされる画像は、画像の前記ストリーム内の後で取り込まれる画像であり、前記後で取り込まれる画像は、前記参照画像として使用するために、事前にエンコードされデコードされている、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記画像内の前記ピクセルを示す前記情報は、輝度、光強度、およびカラー値に関するデータからなる群からの少なくとも1つである、請求項1~8のいずれか一項に記載の方法。
【請求項10】
画像センサによって取り込まれ、プライバシーマスクを含む画像のストリームをエンコードするための画像エンコーディングシステム(400)において、画像の前記ストリーム内の現在画像は、画像の前記ストリーム内の事前にデコードされた画像である参照画像を参照してエンコードされる、画像エンコーディングシステムであって、
前記現在画像のピクセルを示す前記画像センサからの情報(402)を受信し、前記ピクセルを、近傍ピクセルの群のピクセルブロックにグループ化するために配置される受信モジュール(404)と、
前記プライバシーマスクが前記現在画像に適用されるプライバシーマスクエリアの位置および範囲を指定する情報(406)を受信し、前記プライバシーマスクエリアのピクセル化を実施するために配置されたプライバシーマスクモジュール(408)であって、前記プライバシーマスクエリアのピクセル化は、前記プライバシーマスクエリアのピクセルを、近傍ピクセルのピクセル化群にグループ化し、それぞれのピクセル化群の各ピクセルのピクセル値を前記それぞれのピクセル化群を示す共通ピクセル値に設定することを含む、プライバシーマスクモジュール(408)と、
前記参照画像の取り込みと、前記現在画像の取り込みとの間の前記画像センサの運動を示す情報(412)を受信するために配置された運動入力モジュール(410)であって、前記画像センサの運動を示す前記情報を、前記画像センサの運動を制御するパン、チルト、またはズームコントローラから、または、動きセンサから受信するために配置される、運動入力モジュール(410)と、
前記運動が閾値より大きい場合、ピクセル化済み前記プライバシーマスクエリア内の各ピクセルブロックを、前記参照画像内の参照ピクセルブロックを指す動きベクトルおよびピクセル化済み前記プライバシーマスクエリア内の前記参照ピクセルブロックと前記ピクセルブロックとの間のピクセル値差を示す残差を有するインターコード化済みブロックとしてエンコードするために配置されたエンコーダーモジュール(414)であって、前記動きベクトルは、前記画像センサの前記運動に等しく設定され、前記残差はゼロに設定される、エンコーダーモジュール(414)と
を備える、画像エンコーディングシステム(400)。
【請求項11】
請求項10に記載の画像エンコーディングシステム(400)を備えるカメラ(300)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プライバシーマスクを含むデジタル画像のエンコーディングに関する。
【背景技術】
【0002】
モニタリングカメラは、種々の環境をモニターするために、多くの異なる用途で、室内と室外の両方で使用される。取り込まれるシーンを描写する画像を、例えば、オペレータまたはガードマンがモニターすることができる。多くのカメラモニタリング用途において、より大きいエリアをカバーすることができるために、変更または移動することができる視野を有するカメラを使用することが有利である。そのようなカメラは、PTまたはPTZカメラを一般に表し、PTカメラはパニングおよびチルティングが可能であり、PTZカメラはさらにズームミングが可能である。
【0003】
一定の状況において、個人の完全性(personal integrity)のために画像の所定の部分をブロックまたはマスクする必要性が存在するとき等に、取り込まれる画像の1つの部分を別の部分と異なるように処理する必要性が存在する場合がある。これは、カメラが、建物の内部あるいはバスまたは列車の内部に配置され、外部の環境が、カメラによって行われるモニタリングから排除されるときに起こる場合がある。別の例は、窓を有する建物がモニターされ、窓を通して建物の内部をモニターすることを回避する必要性が存在するときである。
【0004】
プライバシーマスクは静的または動的であるとすることができる。静的プライバシーマスクは、グラフィカルユーザーインターフェースにおいて画像上でマスクされるエリアをオペレータがマーク付けすることによって通常作成される。静的プライバシーマスクは、その後、オペレータがそれを移動または除去しようと決心するまで、所定の場所に留まる。動的プライバシーマスクは経時的に変化することができる。静的プライバシーマスクと同様に、オペレータは、マシキングが所望される画像内のエリアをマーク付けすることができる、または、動的マスキングを、カメラ視野全体に適用することができる。オペレータはまた、プライバシーマスクが適用されるべきであるときに、設定決定に入る。例えば、オペレータは、顔が検出される場合、その顔がマスクによって除外されるように設定を追加するであろう。
【0005】
PTZカメラの場合、カメラモニタリングについて一定のエリアの視野を隠すことは、長距離にわたって詳細に関してズームインするそれらの能力およびそれらの広いエリアカバレジを考慮すると、特に重要である場合がある。可動視野を有するカメラにおいて、静的プライバシーマスクはカメラの座標系に固定され、パニング、チルティング、およびズーミングによってカメラの視野が変化しても、マスキングが、シーンの同じエリア内で維持されることを保証する。
【0006】
プライバシーマスクは、オーバーレイとして画像に適用することができる。一部のプライバシーマスクは、黒のまたは別様に着色された不透明エリアの形態をとる。他のプライバシーマスクは、画像データが、プライバシーマスクエリアにわたって「ぼやけさせられる(smeared)」ぼかし(blurring)の形態をとる。マスキングのさらに別の変形は、モザイクまたはピクセル化マスクであり、プライバシーマスクの内部の画像がピクセル化ブロックに分割され、ピクセル化ブロックの全てのピクセルが同じ値(しばしば、ピクセル化ブロック内の幾つかのまたは全てのピクセルの平均値)を与えられ、それにより、画像は、プライバシーマスクエリアの内部でブロック状に見える。適切に構成されたピクセル化済みマスクは、例えば、顔、歩き方等のような人の特性を識別することを隠蔽することによって、人の識別を依然として使用不能にしながら、マスク済みエリア内で移動する人が存在することをオペレータが理解することを可能にすることによって、マスク済みエリア内で何が進行しているかについての或る程度の洞察を可能にする魅力的な特性を有する。
【0007】
ピクセル化済みプライバシーマスクを適用するときに起こる問題であって、そのようなマスクが可動視野を有するカメラで使用されるときに特に一般的な、問題は、マスクが振動またはフリッカリングする場合があり、それが不快なユーザー体験を生じることである。例えば、O.Sarwar,A.Cavallaro,およびB.Rinner,「Temporally Smooth Privacy-Protected Airborne Videos」2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),Madrid,2018,pp.6728-6733に記載されるように、この問題を軽減するために、時間的平滑化が提案されてきた。しかしながら、この状況におけるさらなる改善が興味深い。
【発明の概要】
【0008】
カメラ運動中のピクセル化済みプライバシーマスクにおけるフリッカリングの形態の迷惑な視覚アーチファクトを低減する、プライバシーマスクを含む画像をエンコードする方法を提供することが本発明の目的である。
【0009】
第1の態様によれば、この目的および他の目的は、画像センサによって取り込まれ、プライバシーマスクを含む画像のストリームをエンコードする方法によって、完全にまたは少なくとも部分的に達成され、
画像のストリーム内の現在画像は、画像のストリーム内の事前にデコードされた画像である参照画像を参照してエンコードされ、
方法は、
現在画像のピクセルを示す画像センサからの情報を受信すること、
ピクセルを、近傍ピクセルの群のピクセルブロックにグループ化すること、
プライバシーマスクが現在画像に適用されるプライバシーマスクエリアを示す情報を受信すること、
プライバシーマスクエリアのピクセル化を実施すること、
参照画像の取り込みと現在画像の取り込みとの間に画像センサの運動を示す情報を受信すること、
画像センサの運動が閾値より大きい場合、プライバシーマスクエリア内の各ピクセルブロックを、参照画像内の参照ピクセルブロックを指す動きベクトルおよびプライバシーマスクエリア内の参照ピクセルブロックとピクセルブロックとの間のピクセル値差を示す残差を有するインターコード化済みブロックとしてエンコードすることであって、動きベクトルは、画像センサの運動に等しく設定され、残差はゼロに設定される、エンコードすること
を含む。
【0010】
動きベクトルをカメラの運動に等しく、また、残差をゼロに設定することは、プライバシーマスクエリア内の全てのピクセルブロックが、それらのそれぞれの参照ブロックのコピーとしてエンコードされるという効果を有する。これは、次に、ピクセルブロックの明るさ(brightness)またはカラーの変化として別様に現れることになる任意のノイズをエンコードすることを回避することが可能であることを意味する。こうして、カメラの運動中のプライベートマスクのブリンキングまたはフリッカリング等の迷惑な視覚アーチファクトは、簡単かつ効率的に防止される。
【0011】
用語「画像センサの運動に等しく設定する(set equal to movement of the image sensor)」は、現在画像の取り込みと参照画像の取り込みとの間の画像センサの運動に対応する、ピクセルでまたは画像に関連する他の単位で測定される、運動の量および方向に運動ベクトルが設定されることとして解釈することができる。画像センサの運動が、画像センサの視野の変化、すなわち、画像において描写されるのがシーンのどの部分かにおける変化を引き起こすことを留意することができる。そのため、同じ意味を有することになる言い回し(wording)は、例えば、「視野の運動に等しく設定する(set equal to the movement of the field of view)]または「画像センサ(または画像センサの視野)の運動に従って(に基づいて)設定する(set according to(or based on)the movement of the image sensor(or field of view of the image sensor))」である。これを表現するさらに別の方法は、動きベクトルが、描写されるシーンに対して画像センサの運動に等しく(または、に従って、または、に基づいて)設定されることである。
【0012】
発明の方法の変形によれば、現在画像内のピクセルブロックの最初のエンコーディングは、第1のエンコード済みピクセルブロックを生成するために、画像センサの運動と無関係に実施され、
画像センサの運動が閾値より大きい場合、最初のエンコーディングと並列に、
プライバシーマスクエリア内のピクセルブロックの第2のインターコーディングが実施されて、画像センサの運動に等しく設定される動きベクトルを有し、ゼロに設定される残差を有する動きベクトルを有する上記インターコード化済みブロックを生成し、
プライバシーマスクエリア内のピクセルブロックに対応する最初にエンコードされるピクセルブロックが、画像センサの運動に等しく設定される動きベクトルを有し、ゼロに設定される残差を有する、上記インターコード化済みブロックによって置換される。
【0013】
こうして、エンコーディングを実施するエンコーダーの最小限の修正が必要とされる。なぜならば、運動がある場合に実施されるエンコーディングの適合が、プライバシーマスクエリアを含む、画像全体の「標準的な(standard)」非適合型エンコーディングと並列に実施されるからである。プライバシーマスクエリア内のブロックの置換は、最終のエンコード済み画像を生成するために実施される。これは、例えば、エンコーディングを実施するエンコーダーがハードウェアで実装される場合に有利である場合があり、エンコーダーの適合は、そのハードウェアの変更を別様に必要とすることになる。並列エンコーディングステップを付加し、その後、プライバシーマスクエリア内のエンコード済みブロックを置換することによって、エンコーディングの適合は、エンコーダーに対する最小限の変更で行うことができる。プライバシーマスクエリア内のピクセルブロックの最初のエンコーディングが、エンコーディングを実施するエンコーダーにおいて行われる決定に応じて、インターコード化済みブロック(PブロックまたはBブロック)とイントラコード済みブロック(Iブロック)の両方を生成することができることを留意することができる。プライバシーマスクエリア内での最初のエンコーディングによって生成されるブロックのタイプによらず、これらのブロックは、第2のインターコーディングによって生成されるインターコード化済みブロックによって置換されることになる。
【0014】
「画像センサの運動と無関係に(independently of the movement of the image sensor)」によって、画像センサの運動を考慮することなく、動きベクトルが計算されることが理解される。換言すれば、動きベクトルは、現在画像内のそれぞれのピクセルブロックに類似する参照画像内のピクセルブロックの探索を実施することによって決定される。動きベクトル探索は、現在画像内のそれぞれのピクセルブロックの位置に対応する参照画像内の位置において通常開始する。典型的には、その位置を中心とする探索パターンは、その後、探索パターンの限界内で到達可能な、類似するまたは通常最も類似するピクセルブロックを探索するために使用される。類似の、によって、ピクセル値の差、すなわち、残差が低いことが意味される。類似するブロックが見出されない場合、例えば、一定残差閾値より低い絶対値を有する残差を有するブロックが見出されない場合、ブロックは、代わりに、イントラブロックとしてエンコードすることができる。
【0015】
別の変形によれば、プライバシーマスクエリア内の各ピクセルブロックをインターコード化済みブロックとしてエンコードすることは、
非ゼロ残差を有するインターコード化済みブロックを生成するために、プライバシーマスクエリア内の各ピクセルブロックの最初のインターコーディングを実施すること、および、
非ゼロ残差をゼロに設定すること
を含む。
【0016】
最初のインターコーディング後に残差をゼロにするこの設定と組み合わせて、この変形の第1のオプションとして、最初のインターコーディングは、プライバシーマスクエリア内の各ピクセルブロックの動きベクトルを、画像センサの運動に等しく設定することを含むことができる。第2のオプションとして、最初のインターコーディングは、代わりに、画像センサの運動と無関係に、プライバシーマスクエリア内の各ピクセルブロックについて第1の動きベクトルを決定することを含むことができ、
プライバシーマスク内の各ピクセルブロックのエンコーディングは、最初のエンコーディングと並列に、プライバシーマスクエリア内の各ピクセルブロックの動きベクトルを画像センサの運動に等しく設定し、第1の動きベクトルを、画像センサの運動に等しく設定される上記動きベクトルによって置換することをさらに含むことができる。
【0017】
そのため、第2の変形によれば、プライバシーマスク領域内のエンコード済みブロックの2つのセットは、第1の変形の場合にそうであったように生成されない。これは、少ない処理パワーおよび少ないメモリ使用を必要とするという明らかな利点を有する。しかしながら、それは、運動中にプライバシーマスクエリアにおいてエンコードする方法を制御することを可能にするために、エンコーダーの修正を必要とする場合がある。非ゼロ残差を、画像センサの運動に等しく既に設定されている動きベクトルに基づいて(第1のオプションの場合と同様に)決定することができる、または、画像センサの運動に等しく設定された動きベクトルによってその後置換される、エンコーダーによって決定された運動ベクトルに基づいて(第2のオプションの場合と同様に)決定することができる。
【0018】
プライバシーマスクエリアのピクセル化を実施するステップは、プライバシーマスクエリア内のピクセルを、近傍ピクセルのピクセル化群にグループ化すること、および、それぞれのピクセル化群の各ピクセルのピクセル値をそれぞれのピクセル化群を示す共通ピクセル値に設定することを含むことができる。共通値は、ピクセルブロック内のピクセル値の平均値であるとすることができ、より具体的には、共通値は、それぞれのピクセル化群内のピクセルのサブセットのピクセル値の平均であるとすることができる。共通値計算するときにピクセルの選択物またはサブセットのみを使用することは、計算時間を節約し、処理パワーの消費を低減する。
【0019】
画像センサの運動を示す情報は、画像センサの運動を制御するパン、チルト、またはズームコントローラから受信することができる。情報は、例えば、画像センサを移動させるモーターを制御するための制御信号または命令に基づくとすることができる。
【0020】
さらにまたは代替法として、画像の運動を示す情報は動きセンサから受信することができる。動きセンサは、画像センサの運動を検知するために配置することができ、ジャイロまたは加速度計の形態であるとすることができる。動きセンサは、画像センサを移動させるモーターの運動を検出し測定するために配置することもできる。モーターは、PTカメラまたはPTZカメラ等の、可動視野を有するカメラについての一般的な選択である、ステップモーターの形態であるとすることができ、その場合、モーターによって移動するステップ数は、画像センサの運動の指標として使用することができる。
【0021】
事前にデコードされる画像は、Pフレームインターコーディングが使用されるときにそうであるように、画像のストリーム内の事前に取り込まれる画像であるとすることができる。
【0022】
事前にデコードされる画像は、画像のストリーム内の後で取り込まれる画像であるとすることができ、後で取り込まれる画像は、参照画像として使用するために、事前にエンコードされデコードされている。これは、Bフレームインターコーディングが使用されるときにそうであることになる。
【0023】
画像内のピクセルを示す情報は、輝度(luminance)、光強度、およびカラー値に関するデータからなる群からの少なくとも1つである。これらの全ては、画像内のピクセル値を示す一般的に使用される方法を示す。
【0024】
第2の態様によれば、上記で論じた目的および他の目的は、画像センサによって取り込まれ、プライバシーマスクを含む画像のストリームをエンコードするための画像エンコーディングシステムによって、完全にまたは少なくとも部分的に達成され、
画像のストリーム内の現在画像は、画像のストリーム内の事前にデコードされた画像である参照画像を参照してエンコードされ、
システムは、
現在画像のピクセルを示す画像センサからの情報を受信し、ピクセルを、近傍ピクセルの群のピクセルブロックにグループ化するために配置される受信モジュールと、
プライバシーマスクが現在画像に適用されるプライバシーマスクエリアを示す情報を受信し、プライバシーマスクエリアのピクセル化を実施するために配置されたプライバシーマスクモジュールと、
参照画像の取り込みと、現在画像の取り込みとの間の画像センサの運動を示す情報を受信するために配置された運動入力モジュールと、
運動が閾値より大きい場合、プライバシーマスクエリア内の各ピクセルブロックを、参照画像内の参照ピクセルブロックを指す動きベクトルおよびプライバシーマスクエリア内の参照ピクセルブロックとピクセルブロックとの間のピクセル値差を示す残差を有するインターコード化済みブロックとしてエンコードするために配置されたエンコーダーモジュールと
を備える。
【0025】
第3の態様によれば、この目的および他の目的は、第2の態様によるエンコーディングシステムを備えるカメラによって、完全にまたは少なくとも部分的に達成される。
【0026】
本発明の適用性のさらなる範囲は、以下で示す詳細な説明から明らかになるであろう。しかしながら、本発明の範囲内の種々の変更および修正が、この詳細な説明から当業者に明らかになるため、詳細な説明および特定の例が、本発明の好ましい実施形態を示しながら、例証としてのみ示されることが理解されるべきである。
【0027】
したがって、本発明が、説明するデバイスの特定のコンポーネント部品または説明する方法の特定のステップに限定されず、なぜならば、そのようなデバイスおよび方法が変動する場合があるからであることが理解される。本明細書で使用される用語が特定の実施形態を説明するためのものに過ぎず、制限的であることを意図されないことも理解される。本明細書および添付特許請求の範囲で使用するとき、冠詞「1つの(a)」、「1つの(an)」、「その(the)」、および「上記(said)」が、別段に文脈が明確に指示しない限り、要素の1つまたは複数が存在することを意味することを意図されることが留意されなければならない。そのため、例えば、「1つのユニット(a unit)」または「そのユニット(the unit)」に対する参照は、幾つかのユニットおよび同様なものを含むことができる。さらに、語「備えている(comprising)」は、他の要素またはステップを排除しない。
【0028】
本発明は、ここで例としてまた添付の概略的な図面を参照してより詳細に説明される。
【図面の簡単な説明】
【0029】
図1】モニターされるシーンの2つの画像を示す図である。
図2A】画像および異なるピクセル化レベルを示す図である。
図2B】画像および異なるピクセル化レベルを示す図である。
図2C】画像および異なるピクセル化レベルを示す図である。
図3】カメラのブロックダイアグラムである。
図4】エンコーディングシステムのブロックダイアグラムである。
図5A】ピクセルを有する画像を示す図である。
図5B】ピクセルブロックを有する画像を示す図である。
図6A】エンコーディング方法の2つの変形のうちの1つを示すフローチャートである。
図6B】エンコーディング方法の2つの変形のうちの1つを示すフローチャートである。
図7】エンコーディング方法を示すフローチャートである。
【発明を実施するための形態】
【0030】
図1は、シーン104を描写する2つの画像100および102を示す。画像は、可動視野を有するカメラ300によって取り込まれる。カメラ300は、図3により詳細に示される。カメラ300は、画像102の取り込みと画像100の取り込みとの間でその視野をわずかに変化させており、したがって、画像100は、シーン104のわずかに異なる部分を示す。
【0031】
シーン104において、窓108を有する建物106が存在する。人110も画像内に存在する。人110は、カメラ300が、その視野を変化させることによってシーン104を通して人110の運動に追従することができることを示すために、画像102の取り込みと画像100の取り込みとの間で移動している。
【0032】
画像100、102において、建物106の窓108は、建物106内に存在するかまたは窓108を通して別様に見ることができる人または他のオブジェクト等のどんなセンシティブコンテンツ(sensitive content)も隠すために、プライバシーマスク112によって覆われる。プライバシーマスク112は、ピクセル化済みプライバシーマスクの形態で提供される。述べたように、ピクセル化済みプライバシーマスクは魅力的な選択である。なぜならば、ピクセル化済みプライバシーマスクが、シーンのマスク済み部分のプライバシーを維持しながら、マスクの背後のシーンのコンテンツにおける何らかの洞察を可能にするように構成することができるからである。
【0033】
図2A~2Cは、画像およびピクセル化プライバシーマスクを示す。図2Aにおいて、人間の顔の画像200が示される。図2Bにおいて、ピクセル化が画像200に適用されており、画像内のピクセルは、ピクセル化群202にグループ化されている。各ピクセル化群202について、ピクセル化群内の全てのピクセルは、そのピクセル化群内のピクセル値を示す、1つの共通値に設定される。例えば、群内の全てのピクセル値の平均を使用することができる。しかしながら、より一般的に、群内のピクセル値のサブセットの平均が、共通値として使用される。ピクセル化群は数百のピクセルを含むため、マスクされるエリア内の全てのピクセル化群について平均値を即座に計算する計算量(computing effort)は途方もないものになる。例えば、ピクセル化群内の最初の8ピクセルの平均が、代わりに1つの共通値として使用されると、計算量は劇的に減少し、したがって、これは、ピクセル化群についての共通値を提供する一般的に使用される方策である。
【0034】
図2Bを参照すると、ピクセル化の背後に顔が存在することを検出することが依然として可能であることを留意することができる。その人のアイデンティティを認識することがさらに可能である場合がある。図2Cは、より大きいサイズのピクセル化群204が使用された例を示す。図2Bの場合と同じように、共通値が、ピクセル化群204内の全てのピクセルについて設定されるが、ピクセル化群204が大きいため、少ない情報がマスク済みエリア内に残っており、それにより、顔を検出することをより難しくする。ピクセル化群のサイズは、画像のサイズ、マスクによって除外される必要があるオブジェクトまでの距離、および、マスクされるオブジェクトが識別できないようにされる程度等の要因に応じて選択することができる。
【0035】
図3はカメラ300を示す。カメラ300は、それ自体一般に知られているように、光学部品302および画像センサ304を備える。カメラ300はまた、図4でより詳細に示す画像エンコーディングシステム400、および、画像処理パイプラインIPP(:image processing pipeline)と呼ぶこともできる画像処理モジュール306を含む。IPPは、例えば、デモザイシング、ノイズフィルタリング、鮮鋭化、およびトーンマッピングを実施することができる。カメラ300は、それによってカメラ300がシーン104の異なる部分の画像を取り込むことができる、パニングまたはチルティング動作でカメラ300を移動させることができるPTユニット308上に取り付けられる。当業者が認識することになるように、カメラはさらなるコンポーネントを有することができるが、それらは、本発明を理解するために必要でないため、図に示されておらず、更に論じられないであろう。
【0036】
図4はエンコーディングシステム400を示す。エンコーディングシステム400は、画像100のピクセルを示す情報402を受信する。情報402は、IPP306を介して画像センサ304から受信モジュール404内に受信される。
【0037】
図5A~5Bは、画像100の主要構造を示す。カメラ300によって取り込まれる画像102および他の画像は、画像100と同じ主要構造を有する。画像100は、カメラ300の画像センサ304のピクセルに対応する多数のピクセル500で構成される。画像は、例えば、1280×720ピクセル、1920×1080ピクセル、または3840×2160ピクセルで構成される。
【0038】
受信モジュール404は、ピクセル500を近傍ピクセル500の群を含むピクセルブロック502に編成する。ピクセルブロック502は図5Bに示される。ピクセルブロック502は、画像をエンコードするために使用されるエンコーディング標準(encoding standard)に応じて、マクロブロック、コーディングツリーユニット、またはエンコーディングユニットを意味することもできる。ピクセルブロック502は、ほとんどの場合、例えば、8×8、16×16、または32×32ピクセルからなる正方形であるとすることができる。ピクセル502を他のサイズおよび形状のピクセツブロックにグループ化することも可能である。
【0039】
図4を参照すると、画像ピクセルを示す情報402を受信することに加えて、エンコーディングシステム400は、プライバシーマスクエリアであって、プライバシーマスク108等のプライバシーマスクが画像100に提供される、プライバシーマスクエリアを示す情報406を受信する。情報406は、プライバシーマスクモジュール408によって受信され、プライバシーマスクモジュール408は、その後、プライバシーマスクエリアのピクセル化を実施することによって、プライバシーマスクをプライバシーマスクエリアに適用する。
【0040】
エンコーディングシステム400は運動入力モジュール410をさらに備え、運動入力モジュール410は、現在画像、この場合、画像100の取り込みと、現在画像のエンコーディングにおいて参照画像として使用される画像の取り込みとの間の画像センサの運動に関する情報412を受信する。情報412は、典型的には、PTユニット308から受信され、カメラ300を移動させるために使用されるモーターに対する制御命令、または、カメラを移動させるモーターの運動を検知するために配置されるセンサからの出力に基づくとすることができる。代替法として、運動情報412は、カメラの運動を検出し測定するジャイロまたは加速度計等の動きセンサから受信することができる。
【0041】
画像センサがカメラ内に固定されるため、画像センサの運動が、通常、カメラの運動と同じであることを留意することができる。したがって、用語「カメラの運動(movement of the camera)」および「画像センサの運動(movement of the image sensor)」は、本テキストにおいて交換可能に使用される。画像センサがカメラに対して可動であることになるというありそうもない場合に、本発明は、画像センサそれ自身の運動に関する情報ならびにカメラの運動に関する情報を必要とすることになる。結合運動(joint movement)は、その後、関心の運動、すなわち、2つの画像の取り込みの間に視野がどれだけ移動したかを示すことになる。
【0042】
最後に、画像は、インター圧縮エンコ-ディング(inter-compression encoding)を使用してエンコーダーモジュール414においてエンコードされる。H.264、H.265(HEVC)、MPEG-4 Part 2、AV1、またはVP9コーデック等のブロックベースハイブリッドコーデックを、ピクチャー群、GOP(:groups of pictures)内のビデオストリームを編成するエンコーディング構造と共に、使用することができる。通常、各GOPは、イントラコード化済み画像(intra-coded image)、Iフレームと、それに続いて、幾つかのインターコード化済み画像、PまたはBフレームで開始する。イントラコード化済み画像において、画像情報は、画像ストリーム内の他の画像を参照することなくエンコードされ、インターコード化済み画像(inter-coded image)において、画像情報は、画像ストリーム内の他の画像を参照してエンコードされる。本明細書で説明するエンコーディング方法は、インターコード化済み画像のエンコーディングに主に対応する。したがって、プライバシーマスクエリア内のエンコード済みピクセルブロックが、新しいIフレームがエンコードされる新しいGOPの各開始時に、通常、更新されることになることを留意することができる。イントラフレームエンコーディングは、本明細書で説明した適合型エンコーディングによって影響を受けないため、さらに論じられない。
【0043】
そのため、イントラコード化画像の場合、エンコーダーモジュール414は、事前にデコードされた画像の形態の参照画像を参照して画像をエンコードするために配置される。図1に示す例の文脈で、画像100についての参照画像は、画像102、すなわち、事前に取り込まれる画像であって、参照画像として役立つために、エンコーダーモジュールによってエンコードされ、その後、デコードされている、事前に取り込まれる画像であるとすることができる。監視状況の場合等のリアルタイム用途の場合、事前に取り込まれる画像が参照画像として使用される(すなわち、Pフレームエンコーディング)が、遅延を許容することができる場合、後に取り込まれる画像を参照画像として使用する(すなわち、Bフレームエンコーディング)ことも可能であることになることが多い。遅延は、よく知られているように、取り込まれ、エンコードされ、その後、デコードされる、後の画像が、参照画像として使用するために利用可能にされるのを待つことによって引き起こされる。
【0044】
一般的には、エンコーダーモジュール414は、現在画像、すなわち、画像100内のそれぞれのピクセルブロックと類似の参照ピクセルブロックを探して、参照画像、すなわち、画像102内の動きベクトル探索を実施する。類似のブロックが参照画像内で見出される場合、参照ブロックに対する場所の差を示す動きベクトルおよび参照ブロックに対するピクセル値の差を示す残差を有する現在画像内のピクセルブロックがインターコード化される。類似の参照ブロックが見出されない場合、ピクセルブロックは、代わりに、イントラブロックとしてエンコードされる。出願人の過去の欧州特許出願公開第3370419号に記載されるように、ピクセルブロックのインターコーディングとイントラコーディングとの間での決定を改良するために、さらなるコスト分析を使用することができることを付加することができる。
【0045】
しかしながら、本発明のエンコーダーモジュール414は、可動視野を有するカメラからの画像内のピクセル化済みマスクに関連して現れる問題、すなわち、ピクセル化済みマスクが、カメラがその視野を移動させるときにフリッカリングまたはブリンクし、それにより、不快な観察体験を生じることによりよく対処するために修正される。本発明者等が認識しているように、この問題は、エンコードされる画像と参照画像との間にシーンのコンテンツの差が実際には存在しないときでも、ノイズが、ピクセル化群内の共通値を画像間で変動させることによることが多い。
【0046】
その効果は、各ピクセル化群ピクセル内のピクセルのほんの少数のピクセルのサブセットの平均を、ピクセル化群についての共通値として使用する方法が使用されるときに、特に顕著である。これは、ノイズを平準化するのに役立つ空間フィルタリング効果が、少数のピクセル値のみが平均されるときに低いからである。上記で説明したように、ピクセル化群全体についての平均を共通値として使用することは、処理パワー消費の理由で魅力的でないオプションである傾向がある。
【0047】
本発明によれば、フリッカリングは、カメラ運動中にプライバシーマスクエリア内のピクセルブロックのエンコーディングを適合させることによって軽減され、それにより、プライバシーマスクエリア内のいずれのピクセルブロックも、参照画像内の対応するブロックのコピーとしてエンコードされる。これは、参照画像内で正しい参照ブロックを指す動きベクトルを見出すために、カメラの運動に関する情報を使用し、その後、ゼロ残差およびカメラの運動による動きベクトルを有するインターコード化済みブロックとしてプライバシーマスクエリア内のピクセルブロックをエンコードすることによって達成される。このエンコーディング適合がアクティブであるべきであるときを決定するために、カメラの運動量は、ゼロまたはゼロより大きい値であるとすることができる閾値と比較されることになり、その値において、観察者によって迷惑な視覚アーチファクトとして知覚されることになる、ピクセル化済みエリア内で起こる実質的なフリッカリングが存在することになると判定されている。
【0048】
そのため、プライバシーマスクエリア内のピクセルブロックをエンコードするとき、エンコーダーモジュール414は、カメラが移動しているか否かを判定するために、運動入力モジュール410を介して受信されたカメラ運動に関する情報412を使用することになり、カメラが移動している場合、エンコーディングは、運動中にピクセル化済みマスクをフリッカリングさせる問題を回避するように適合されることになる。この適合型エンコーディングは、図6A及び図6Bを参照してここで説明されるように、(少なくとも)2つのわずかに異なる方法で達成することができる。
【0049】
図6Aでは、第1の変形600が示され、エンコーダーモジュールは、カメラの運動が閾値より大きいと、ステップ602にて、プライバシーマスクエリア内の全てのブロックのインターコーディングを実施する。このインターディングにおいて、プライバシーマスクエリア内の全てのピクセルブロックの動きベクトルは、残差が決定される前にまたはその後に、カメラの運動に等しく設定される。換言すれば、エンコーダーモジュールは、運動に等しく動きベクトルを設定し、それに基づいて残差を計算する場合がある、または、エンコーダーモジュールは、最初に、動きベクトル探索に従って動きベクトルを計算し、第2のステップとして、これらの動きベクトルを、画像センサの運動に等しく設定される動きベクトルと置換する場合がある。
【0050】
例えば、ノイズによって、計算される残差が非ゼロである場合があるため、次のステップ604にて、プライバシーマスクエリア内のインターコード化済みブロックの残差は、各ブロックを参照ブロックのコピーとしてエンコードするために、全てゼロに設定される。さらに、おそらくは並列に、残りの画像、すなわち、プライバシーマスクエリアの外の部分は、ステップ606にて、標準的なインター圧縮エンコーディングプロセスに従ってエンコードされ、画像内のピクセルブロックが、参照画像を参照するインターブロック(それが許容される場合、PブロックまたはおそらくはBブロック)として、または、参照ブロックを参照することなくエンコードされるイントラブロック(Iブロック)としてエンコードされることをもたらす。
【0051】
図6Bでは、第2の変形608が示され、エンコーダーモジュールは、カメラが移動していると、プライバシーマスクエリアのブロックを2回エンコードすることになる。最初のエンコーディングは、ステップ610にて、標準的なインター圧縮エンコーディングプロセスに従って、プライバシーマスクエリア内のピクセルブロックを含む、画像内の全てのピクセルブロックについて実施される。この最初のエンコーディングは、画像内のピクセルブロックが、エンコーダー内の非適合型プロシージャに従って計算された動きベクトルおよび残差を有する、参照画像を参照するインターブロック(それが許容される場合、PブロックまたはおそらくはBブロック)として、または、参照画像を参照することなくエンコードされるイントラブロック(Iブロック)としてエンコードされることをもたらす。
【0052】
この最初のエンコーディングに加えて(と並列に)、プライバシーマスクエリア内のブロックのインターコーディングが、ステップ612にて実施される。このステップにて、動きベクトルは、残差が計算される前にまたはその後に、カメラ運動に等しく設定される。これは、やはり残差が非ゼロであるとすることができるインターコード化済みブロックを生成し、またやはり、図6Aに示す変形の場合と全く同じように、これらの残差は、したがって、ステップ614にてゼロに設定される。
【0053】
次に、ステップ616にて、ステップ610にて実施されたエンコーディングによって生成されたプライバシーマスクエリア内のエンコード済みピクセルブロックは、ステップ612および614にてインターコーディングによって生成されたエンコード済みピクセルブロック、すなわち、カメラの運動に等しく設定された動きベクトルおよびゼロに設定された残差を有するエンコード済みピクセルブロックによって置換されることになる。
【0054】
図7では、エンコーディング方法700の概要がフローチャートで与えられる。ステップ702にて、ピクセル情報が(上記で述べたように、IPPを介して)画像センサから受信される。ステップ704にて、ピクセルは、エンコーディングに備えてピクセルブロックにグループ化される。ステップ706にて、ピクセル化済みプライバシーマスクによって覆われるプライバシーマスクエリアの位置および範囲を指定する情報が受信され、ステップ708にて、このエリアのピクセル化が実施される。ステップ710にて、カメラの運動に関する情報が受信され、ステップ712にて、この運動が閾値と比較される。運動が閾値より小さい場合、方法はステップ714に進み、カメラ運動に基づく本発明によるエンコーディングの適合は実施されない。エンコーディングは、通常通り進み、ステップ718にて、エンコード済み画像が出力される。
【0055】
換言すれば、運動が閾値より小さい場合、現在画像内のそれぞれのピクセルブロックに類似する参照ピクセルブロックを見出すために、エンコーディングは、参照画像内で動きベクトル探索を実施することによって上記で説明したように実施される。探索は、ピクセル値の最小差、すなわち、最小残差を有するピクセルブロックを見出すことを目指し、また、典型的には現在画像内のそれぞれのピクセルブロックの位置に対応する位置を中心とする、参照画像内の予め規定された探索パターンに従って行う場合がある。
【0056】
類似のピクセルブロックが参照画像内で見出される場合、参照ブロックに対する場所の差を示す動きベクトルおよび参照ブロックに対するピクセル値の差を示す残差を有する現在画像内のピクセルブロックがインターコード化される。類似の参照ブロックが見出されない場合、ピクセルブロックは、代わりに、イントラブロックとしてエンコードされる。
【0057】
上記で述べたように、動きベクトルのエンコーディングのコストを同様に考慮し、残差と動きベクトルの両方に基づいて最低のエンコーディングコストを有する参照ブロックを選択することによって等で、ピクセルブロックのインターコーディングとイントラコーディングとの間での決定を改良するさらなるエンコーディングコスト分析を実施することも可能であることになる。
【0058】
一方で、運動が閾値より大きい場合、プライバシーマスクエリア内のピクセルブロックのエンコーディングは、カメラの運動に従って、換言すれば、カメラの運動に等しく設定された動きベクトルを有し、ゼロ残差を有するプライバシーマスクエリア内のピクセルブロックを生成する、図6A~6Bに示す変形のうちの1つに従って適合される。残りの画像は、同様にエンコードされるが、この特定の適合によって影響を受けることなくエンコードされる。明らかに、カメラの運動中にエンコーディングを改善するために、他のステップおよび対策をとることができるが、それらは、本発明の範囲内になく、本明細書でさらに論じられないであろう。最後に、エンコード済み画像が、ステップ718にて出力される。
【0059】
要約すると、ピクセル化済みプライバシーマスクエリア内の画像エンコーディングは、カメラの運動中のフリッカリングを低減するために適合される。動きベクトルはカメラの運動に等しく設定され、残差はゼロに設定され、それにより、プライバシーマスクエリア内のピクセルブロックを、参照画像内の対応するピクセルブロックのコピーとしてエンコードする。
【0060】
方法は、コンピュータ可読記憶媒体上に記憶される命令を実行することによって実施することができる。命令は、任意の種類のプロセッサ、例えば、中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)、集積回路内に実装されるカスタムメイド処理デバイス、ASIC、FPGA、またはディスクリートコンポーネントを含む論理回路部によって実行することができる。
【0061】
エンコーディングシステムは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組み合わせとして具現化することができる。
【0062】
したがって、本発明は、示す実施形態に限定されるべきであるのではなく、添付特許請求の範囲によって規定されるべきであるだけである。
【符号の説明】
【0063】
100 画像
102 画像
104 シーン
106 建物
108 窓
110 人
112 プライバシーマスク
200 画像
202 ピクセル化群
204 ピクセル化群
300 カメラ
302 光学部品
304 画像センサ
306 画像処理モジュール、IPP
308 PTユニット
400 エンコーディングシステム
402 ピクセル情報
404 受信モジュール
406 プライバシーマスクエリア情報
408 プライバシーマスクモジュール
410 運動入力モジュール
412 運動情報
414 エンコーダーモジュール
500 ピクセル
502 ピクセルブロック
図1
図2A
図2B
図2C
図3
図4
図5A
図5B
図6A
図6B
図7