(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-10
(45)【発行日】2022-08-19
(54)【発明の名称】トランスコーディングをしないポストマスキング
(51)【国際特許分類】
H04N 19/503 20140101AFI20220812BHJP
H04N 19/85 20140101ALI20220812BHJP
H04N 19/109 20140101ALI20220812BHJP
H04N 19/174 20140101ALI20220812BHJP
【FI】
H04N19/503
H04N19/85
H04N19/109
H04N19/174
【外国語出願】
(21)【出願番号】P 2020154217
(22)【出願日】2020-09-15
【審査請求日】2021-10-28
(32)【優先日】2019-09-20
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】エドパルム, ヴィクトル
(72)【発明者】
【氏名】ユアン, ソン
【審査官】清山 昂平
(56)【参考文献】
【文献】特開2019-097157(JP,A)
【文献】特開2018-137730(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
プライバシマスクをビデオストリーム上に提供する方法であって、
ビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択することと、
前記少なくとも1つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム(302)として示すように、前記イメージフレームに対してフラグを設定することと、
前記非表示イメージフレーム(302)を参照する、前方予測されたイメージフレーム(303)を挿入することであって、前記少なくとも1つのイメージ領域を表すコーディングユニットは、前記少なくとも1つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも1つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも1つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム(302)を参照するスキップブロックとして設定されるようになっている
、前記前方予測されたイメージフレーム(303)を挿入することと、
前記非表示イメージフレーム(302)及び前記前方予測されたイメージフレーム(303)の双方を含むビデオストリームを出力することと、を含む、方法。
【請求項2】
前記少なくとも1つのイメージ領域を選択することは、ユーザにより行われる、請求項1に記載の方法。
【請求項3】
前記少なくとも1つのイメージ領域を選択することは、対象検出技術を使用して自動的に行われる、請求項1に記載の方法。
【請求項4】
前記前方予測されたイメージフレーム(303)において、前記少なくとも1つのイメージ領域を表す前記コーディングユニット
は、前記コーディングユニットについての人工的な動きベクトルを導入することにより曖昧さを提供し、これにより前記少なくとも1つのイメージ領域を不明瞭にさせる
ように配置される、請求項1から請求項3のいずれか一項に記載の方法。
【請求項5】
前記ビデオは、次のフォーマット、すなわち、高効率ビデオコーディング(High Efficiency Video Coding)、バーサタイルビデオコーディング(Versatile Video Coding)、エッセンシャルビデオコーディング(Essential Video Coding)、VP9、及びAV1、の内の1つにてエンコードされる、請求項1から請求項4のいずれか一項に記載の方法。
【請求項6】
プライバシマスクをビデオストリーム上に提供するエンコーダシステムであって、
ビデオを受信するよう構成されているドッキングステーションと、
エンコーダであって、
前記ビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択し、
前記少なくとも1つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム(302)として示すように、前記イメージフレームに対してフラグを設定し、
前記非表示イメージフレーム(302)を参照する、前方予測されたイメージフレーム(303)を挿入し、前記少なくとも1つのイメージ領域を表すコーディングユニットは、前記少なくとも1つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも1つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも1つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム(302)を参照するスキップブロックとして設定されるようになっており、
前記非表示イメージフレーム(302)及び前記前方予測されたイメージフレーム(303)の双方を含むビデオストリームを出力するよう構成されているエンコーダと、を含む、エンコーダシステム。
【請求項7】
プライバシマスクをビデオストリーム上に提供するコンピュータプログラムであって、
ビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択することと、
前記少なくとも1つのイメージ領域を含む前記ビデオにおけるイメージフレームに対して、
Iフレームを非表示イメージフレーム(302)として示すように、前記イメージフレームに対してフラグを設定することと、
前記非表示イメージフレーム(302)を参照する、前方予測されたイメージフレーム(303)を挿入することであって、前記少なくとも1つのイメージ領域を表すコーディングユニットは、前記少なくとも1つのイメージ領域外のエリアを表すコーディングユニットとは異なって処理され、前記少なくとも1つのイメージ領域を表す前記コーディングユニットが曖昧にされて、前記プライバシマスクをまとめて形成し、前記少なくとも1つのイメージ領域外のエリアを表す前記コーディングユニットが、前記非表示イメージフレーム(302)を参照するスキップブロックとして設定されるようになっている
、前記前方予測されたイメージフレーム(303)を挿入することと、
前記非表示イメージフレーム(302)及び前記前方予測されたイメージフレーム(303)の双方を含むビデオストリームを出力することと、に対応するプログラム命令を含む、プライバシマスクをビデオストリーム上に提供するコンピュータプログラム。
【請求項8】
請求項7に記載のコンピュータプログラムを含む、デジタル記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオエンコーディングの分野に関する。特に、本発明は、ビデオカメラにより撮像されたビデオストリーム上にプライバシマスキングを提供する方法及びシステムに関する。
【背景技術】
【0002】
ビデオカメラは、様々な環境をモニタリングするために、屋内及び屋外の双方での多くの異なるアプリケーションにて使用される。撮像されたシーンを描く画像は、オペレータ又はガードなどにより監視される場合がある。特定のシチュエーションにおいて、例えば、パーソナルインテグリティの利益のために、画像の一部を除外する必要がある場合など、撮像された画像の一部を、別の部分とは異なって扱わなければならない場合がある。例えば、警察官により装着されるものといった、身体装着式カメラ(body worn camera又はBWC)の場合では、BWCにより記録されたシーンにおいて、顔やライセンスプレートなどを隠すことが望ましい場合がある。
【0003】
そのような例では、1つ又はそれ以上のプライバシマスクが、画像のそれらのエリアに適用されてよい。典型的には、プライバシマスクはしばしば、オーバーレイとして画像に適用される。いくつかのプライバシマスクは、不透明なエリア(例えば、均一に黒いエリア)の形態をとる。一方、他のプライバシマスクは、ピクシレーションの形態をとる。ここでは、プライバシマスク内側の画像は、ピクシレーションブロックに分割され、ピクシレーションブロック内のピクセルのすべてには、同じ値、一般的には、ピクシレーションブロック内のピクセルのいくつか又はすべての平均値、が与えられる。これらのアプローチの双方では、しかし、画像の、プライバシマスクエリア内側が、「塊状」に見える。これは、美的な視点から、とても好適なものとは言えない。他のタイプのプライバシマスクもある。例えば、不明瞭化するプライバシマスクは、美的な視点から、より好適なものとなる。しかし、これらの技術は、現在、BWCなどの特定のデバイス上に実装する際に、過剰な電力を必要とする。したがって、プライバシマスキング技術を改善する必要がある。
【発明の概要】
【0004】
上記を鑑み、本発明の目的はしたがって、上記の問題を克服するか、又は少なくとも軽減することである。特に、本発明の目的は、ビデオストリームをトランスコーディングすることを必要とせずに、プライバシマスクをビデオストリーム上に提供する技術を提供することである。この目的及び他の目的は、請求項1に記載の方法と、請求項10に記載のエンコーダシステムと、請求項12に記載のコンピュータプログラム製品と、請求項14に記載のデジタル記憶媒体と、により達成される。
【0005】
第1の態様によると、この目的及び他の目的は、コンピュータシステムにおける、プライバシマスクをビデオストリーム上に提供する方法により、完全に、又は、少なくとも部分的に、達成される。この方法は、
モニタリングカメラから受信したビデオにおいて、そのビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択することと、
少なくとも1つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定することと、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することであって、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を曖昧にすることにより、少なくとも1つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することと、を含む。
【0006】
この方法は、ビデオをトランスコーディングすることを必要としないポストマスキングのための、非常に便利なソリューションを提供する。そのようなソリューションは、例えば、一般データ保護規則(General Data Protection Regulation又はGDPR)又は同様のものを理由として、顔(又は、ライセンスプレートなど)のすべてを不明瞭にすることが必要な場合があるBWCに特に有益である。
【0007】
加えて、この方法は、リバーシブルプロセスを提供し、画像のプライバシマスクが適用された部位の「アンマスキング(unmasking)」を、それが必要となる場合に、後に行うことができるようになっている。これは、例えば、法的なことを理由としてあり得る、又は、ある人々が、プライバシマスクが適用されたバージョンのビデオのみを見ることが許され、一方で他の人々が、マスクされていないバージョンのビデオにアクセスすべきシチュエーションの場合がある。
【0008】
別の利点としては、プライバシマスキングは、カメラ自体にではなく、メインユニットにて行うことができる、ということが挙げられる。これは、カメラが複雑なものとならないようにし、この技術を、BWCに対して、又は、各種の理由により、小型とする又は複雑でなくする必要があり得る他のカメラに対して、特に有益にする。
【0009】
この方法を使用することはまた、コストのかかるビデオのトランスコーディングをも回避する。トランスコーディングを回避することはまた、特定のカメラにてビデオが実際に撮像されてエンコードされたことを容易に証明できるという利点がある。これは、BWCなどの、カメラが容易に携帯可能であり、撮像されたビデオが続いて、法的なコンテキストにおける証拠の目的に使用され得るケースに、特に重要となる場合がある。
【0010】
1つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域外のエリアを表すコーディングユニットは、スキップブロックとして設定される。スキップブロックは、ピクセルの、インターモードにてエンコードされたブロックである。これは、参照フレームにおける、ピクセルの対応するブロックを参照する。この対応するブロックから、イメージコンテンツが完全にコピーされるべきである。スキップブロックを使用することはしたがって、いずれのマスクされていないエリアを、オリジナルの画像におけるそれらとまったく同じままにすることができる。加えて、スキップブロックをエンコーディングすることは、必要とするデータが非常に少なく、これは、画像を効率的にエンコードする方法を提供する。
【0011】
1つの実施形態によると、少なくとも1つのイメージ領域を選択することは、ユーザにより行われる。これは、どの対象がマスクされるべきであるかの正確かつ精密な選択を可能にする。例えば、数人の個人の顔のみがマスクされるべきであり、一方で他の個人の顔は視認可能であるべきシチュエーションがある。そのような選択を人がすることは、イメージアルゴリズムがそのようにすることと比較して、より効率的である。
【0012】
1つの実施形態によると、少なくとも1つのイメージ領域を選択することは、対象検出技術を使用して自動的に行われる。これは、画像における、駐車場内にあるたくさんの自動車のライセンスプレートのすべて、又は、赤い上着を着用しているいずれの個人など、特定が容易なたくさんの対象を選択する効率的な方法を提供し得る。特定の実施形態では、対象検出技術による自動選択が可能であり、これは続いて、上述するように、人であるオペレータにより検証される。これは、有益なシナジー効果を可能とし得る。
【0013】
1つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を表すコーディングユニットが配置され、コーディングユニットについての人工的な動きベクトルを導入することにより曖昧さを提供し、これにより、少なくとも1つのイメージ領域を不明瞭にさせる。動きベクトルを使用することは、実装がシンプルであり、構成される各種の動きのパターン及び程度のために可能であり、これにより、異なる程度に不明瞭化することを達成する。
【0014】
1つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を表すコーディングユニットが配置され、少なくとも1つのイメージ領域におけるコーディングユニットを取り換えることにより曖昧さを提供する。これは、マスクされている対象を、それを不明瞭化するのではなく、完全に「拭い去る」効果を有する。これは、その「拭い去る」効果が、「不明瞭化する」効果よりも、所望される特定の状況において有益となり得る。
【0015】
1つの実施形態によると、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を表すコーディングユニットが配置され、コーディングユニットを、非表示イメージフレームから取得されたイメージデータが選択的に不明瞭にされているイントラブロックと取り換えることにより曖昧さを提供し、これにより、少なくとも1つのイメージ領域を不明瞭にさせる。これは、不明瞭化することの、さらに別の代替案であり、マスクされた対象を、会社のロゴ、スマイリーフェイス、漫画のキャラクター、又は、眼前の特定の状況のセットに依存し得る何らかの場合などの他のものと完全に取り換えることが所望される場合に使用できる。
【0016】
1つの実施形態によると、モニタリングカメラは、身体装着式カメラ(body worn camera又はBWC)である。この方法を使用することは、有する演算能力が限られている、BWCなどの小型のカメラ、及び、法の執行を理由として、又は、記録したビデオの特定のエリアを「アンマスク(unmask)」する続いての必要性、のどちらかの、特別なプライバシの懸念があり得る場合に、特に有益である。
【0017】
1つの実施形態によると、ビデオは、次のフォーマット、すなわち、高効率ビデオコーディング(High Efficiency Video Coding)、バーサタイルビデオコーディング(Versatile Video Coding)、エッセンシャルビデオコーディング(Essential Video Coding)、VP9、及びAV1、の内の1つにてエンコードできる。つまり、本発明に係る本方法は、幅広い標準エンコーディングフォーマットに適用でき、したがって、デコーディングのためのいずれの特別なカスタム機器を必要としない。
【0018】
第2の態様によると、本発明は、プライバシマスクをビデオストリーム上に提供するエンコーダシステムに関する。エンコーダシステムは、ドッキングステーションと、エンコーダと、を含む。ドッキングステーションは、モニタリングカメラからビデオを受信するよう構成されている。エンコーダは、
ビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択し、
少なくとも1つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定し、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入し、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を曖昧にすることにより、少なくとも1つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、というように構成されている。
【0019】
第3の態様によると、本発明は、プライバシマスクをビデオストリーム上に提供するコンピュータプログラムに関する。コンピュータプログラムは、
モニタリングカメラから受信したビデオにおいて、そのビデオ内に、プライバシマスクを適用すべき、少なくとも1つのイメージ領域を選択することと、
少なくとも1つのイメージ領域を含むビデオにおけるいずれのイメージフレームに対して、
イメージフレームに対して、非表示イメージフレームを示すフラグを設定することと、
非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することであって、前方予測されたイメージフレームにおいて、少なくとも1つのイメージ領域を曖昧にすることにより、少なくとも1つのイメージ領域を表すコーディングユニットが、プライバシマスクをまとめて提供する、非表示イメージフレームを参照する、前方予測されたイメージフレームを挿入することと、に対応する命令を含む。
【0020】
第4の態様によると、本発明は、そのようなコンピュータプログラムを保存するデジタル記憶媒体に関する。
【0021】
第2、第3、及び第4の態様は一般的に、第1の態様と同じ特徴及び利点を有してよい。本発明は更に、特に明白に言及していない限り、すべての可能な特徴の組み合わせに関連することに留意されたい。
【0022】
本発明の、上記及び更なる目的、特徴、並びに利点は、添付図面を参照しての、本発明の好適な実施形態の、以下に記載する例示的且つ非限定の詳細説明を通して良好に理解される。ここでは、同様のコンポーネントには同じ参照番号が用いられる。
【図面の簡単な説明】
【0023】
【
図1】
図1は、1つの実施形態に係る、プライバシマスクをビデオストリーム上に提供する方法100のフローチャートを示す。
【
図2】
図2は、1つの実施形態に係る、
図1の方法100を適用する前の写真のグループ(group of pictures又はGOP)の概略図を示す。
【
図3】
図3は、1つの実施形態に係る、
図1の方法100を適用した後のGOPの概略図を示す。
【0024】
異なる図面内の同様の参照記号は、同様の要素を示す。
【発明を実施するための形態】
【0025】
本発明を、添付図面を参照して以下に更に詳細に説明する。ここでは、本発明の実施形態を示す。以下に開示するシステム及びデバイスは、作動中のものとして説明される。
【0026】
本発明の各種の実施形態は、プライバシマスクをビデオストリーム上に提供する技術に関連する。以下は、実際の実装の一例であり、本発明の一般的な要点を読み手がよく理解できるようにするために提供される。異なる実施形態のさらなる実装の詳細がこれに続く。
【0027】
この使用例では、BWCがビデオを撮像し、続いて、ドッキングステーションに置かれ、ドッキングステーションがBWCのビデオをメインユニットにダウンロードすることを想定する。メインユニットは、このビデオをデコードし、分析を行い、マスクされる必要がある対象に対応するイメージエリアを探す。どのようなタイプの対象がマスクされるべきであるかは、例えば、眼前の特定の使用ケースに基づいて判定されるが、典型的には、そのような対象は、顔、ライセンスプレート、及び、他の特定情報を含む場合がある。
【0028】
そのような対象を含むIフレームは、例えば、フレームを非表示としてタグ付けするために、フレームのヘッダを変更することや、フラグをフレームに対して設定することにより、非表示に変更される。続いて、非表示Iフレームを参照する新たなPフレームが挿入される。新たなPフレームは、マスクされるエリア(例えば、顔領域)を除き、スキップブロックを全体に有する。換言すると、ビデオを視聴する際に、そのような新たなPフレームは、マスクされるエリア内を除き、非表示の、参照されたIフレームが示すものと同一の画像を示す。
【0029】
マスクされるエリアについては、いくつかの異なるオプションが利用可能である。1つの代替案としては、動きベクトルを使用して顔を曖昧にすることが挙げられる。動きのパターン及び程度は、不明瞭化を異なるレベルにて達成するよう構成可能とできる。このアプローチの利点は、実装がシンプルであり、必要とするオーバーヘッドが非常に小さいということである。別の代替例としては、マスクされるエリアが選択的に不明瞭にされているIブロックを挿入することが挙げられる。さらに別の代替案では、ある種の完全に異なるイメージ情報を含むIブロックを挿入できる。したがって、使用できる多くのバリエーションがあり、それらはすべて、不透明な、又は、画素化されたプライバシマスクを通して現在利用可能なものと比較して、より美的に好適なものと言えるプライバシマスクを提供する。各種の実施形態を、さらに詳細に説明する。しかし、まず、従来のビデオコーディングの概要を説明する。ここでは、各種の実施形態の実装の一般的なコンテキストを提供し、Iフレーム及びPフレームのコンセプトを説明する。
【0030】
多くのデジタルビデオエンコーディングシステムでは、ビデオフレームのシーケンスの一時的な圧縮に、次の2つの主なモードが使用される:イントラモード及びインターモード。イントラモードでは、輝度チャネル及びクロミナンスチャネル(又は、いくつかの場合では、RGB又はバイエル(Bayer)データ)が、単一のフレームの所与のチャネルにおけるピクセルの空間的冗長性を、予測、転換、及び、エントロピー符号化を介して利用することにより、エンコードされる。エンコードされたフレームは、イントラフレームと呼ばれる(「Iフレーム」とも呼ばれる)。イントラフレームは基本的に、エンコードされるイメージフレームにおける情報のみを使用してエンコードされたイメージフレームである。Iフレーム内では、ピクセルのブロック、これらは、Iブロック、マクロブロック、コーディングユニット、又は、コーディングツリーユニットとも呼ばれる、は、イントラモードにてエンコードされる。つまり、それらは、同じイメージフレーム内の同様のブロックを参照してエンコードされる、又は、参照するものがまったくない状態で、そのままエンコードされる。エンコードされるイメージフレームに対して取得されたイメージデータのすべてから、イントラフレームが計算されると、それは時にフルフレームとも呼ばれる。
【0031】
反対に、インターモードは、個別のフレーム間の一時的な冗長性を利用し、動き補正予測技術に依存する。これは、ピクセルの選択されたブロックに対して、1つのフレームから別のフレームへと、ピクセルにおける動きをエンコーディングすることにより、1つ又はそれ以上前のフレームから、フレームの各部分を予測する。エンコードされたフレームは、インターフレーム、差分フレーム、Pフレーム(前方予測されたフレーム)と呼ばれ、これらは、前のフレームをデコーディング順に参照できる、又は、Bフレーム(双方向に予測されたフレーム)と呼ばれ、これらは、2つ又はそれ以上前にデコードされたフレームを参照でき、予測に使用するフレームの、いずれの任意の表示順関係を有することができる。Pフレーム内では、ピクセルのブロックは、インターモードにてエンコードされる、つまり、それらは、先にデコードされた画像における同様のブロックを参照してエンコードされることを意味する、又は、イントラモードにてエンコードされる、つまり、それらは、同じイメージフレーム内の同様のブロックを参照してエンコードされる、若しくは、参照するものがない状態で、そのままエンコードされることを意味する、のどちらかであってよい。別の言い方をすれば、インターフレームには、前の(及び、任意に、後の)イメージフレームにおける一時的な冗長情報の利点がある。
【0032】
このタイプのコーデック(圧縮標準)を実装するエンコーダは、典型的には、所定の数のインターフレームが続くイントラフレームを生成し、続いて、同じ数のインターフレームが続く新たなイントラフレームを生成する。1つのイントラフレームと多くのインターフレームのセットは、写真のグループ(group of pictures又はGOP)と呼ばれる。イメージフレームは、典型的には、それらが取得又は表示された順序と同じ順序にてエンコード及びデコードされるが、必ずしもそのようにされる必要はない。唯一の固有の制限としては、参照フレームの用に供するフレームは、それを参照として使用する他のフレームがエンコードされ得る前にデコードされなければならない、ということが挙げられる。監視又はモニタリングのアプリケーションでは、エンコーディングは一般的に、リアルタイムにて行われる。これは、多くの実際のアプローチは、イメージフレームを、それらが取得されて表示された順序と同じ順序にてエンコード及びデコードすることを意味する。なぜなら、それらはさもなければ、所望しないレイテンシーとなるからである。多くのインターフレームが続くイントラフレームのシーケンスの長さはしばしば、写真のグループの長さ(GOPの長さ)と呼ばれる。H.265などの、いくつかの圧縮標準について、GOPの長さは、エンコーディング中に調整できる。
【0033】
図1は、1つの実施形態に係る、プライバシマスクをビデオストリーム上に提供する方法100のフローチャートを示す。
図1に見ることができるように、方法100は、ステップ102にて、カメラにより撮像され、ある種のドッキングステーションなどを通して、メインユニットにダウンロードされたビデオにより開始する。これは、BWCなどの従来のカメラと、従来のダウンローディング技術と、を使用して行うことができる。これらは当業者によく知られており、したがって、ここではそれらを詳細に説明しない。
【0034】
次に、ステップ104にて、ダウンロードされたビデオストリームに対して画像分析が行われ、マスクされる対象を検出する。上述するように、そのような対象は、例えば、顔、ライセンスプレート、又は、プライバシ(若しくは、他の理由)を目的として隠すべき、他のタイプの特定情報を含んでよい。画像における対象検出のための多くの既知の技術があり、これらをこのコンテキストにおいて適用できる。いくつかは、輝度勾配ヒストグラム(Histogram of Oriented Gradients)、サポーティングベクトルマシン(Supporting Vector Machine)、ローカルバイナリパターン(Local Binary Patterns)などの古典的な方法を含む。モバイルネット(Mobilenet)などの、ニューラルネットワークに基づく方法もまた、利用可能である。他の方法として、差分時間での前景抽出(foreground extraction with differentiated time duration)が挙げられる。
【0035】
画像分析は、マスクされるエリアを判定する1つの方法にすぎないことに留意されたい。いくつかの実装では、エリアは、カメラ監視システムの、人であるオペレータにより判定されて(又は、調整されて)よいが、実際の使用シナリオにおいて、これはあまり一般的ではない。
【0036】
典型的には、マスクされるエリアは、Iフレームにおけるコーディングユニットのセットとして特定される。これらのコーディングユニットは、続いて、以下に説明するように、新たなPフレームを作成する際に使用される。上述するように、新たなPフレームを作成する際に、プライバシマスクを適用する多くの様々な方法がある。1つの実施形態では、動きベクトルが使用され、マスクされる対象を曖昧にする。動きのパターン及び程度は、不明瞭化を異なる程度にて達成するために、各種の実施形態にて構成可能とできる。動きベクトルは、ランダムに生成できる、イメージコンテンツに基づいて適応的に判定できる、又は、マスクされるエリア内にて、イメージデータのスクランブリングを合理的な程度にて与えることが証明されている、あらかじめ定められたパターンにしたがって生成できる。このアプローチでの利点は、その実装がシンプルであり、本質的にいずれのオーバーヘッドなく行うことができるということである。
【0037】
別の実施形態では、選択された量の不明瞭化を有するコーディングユニットを挿入できる。これは、マスクされている対象を、それを不明瞭化するのではなく、完全に「拭い去る」効果を有する。これらの動作は、典型的には、BWCからビデオがダウンロードされて保存される、ドッカーステーションなどのメインユニットにより行われる。
【0038】
さらに別の実施形態では、マスクを表すコーディングユニットは、完全に異なる画像情報と取り換えることができる。例えば、コーディングユニットは、前の段落にて説明したそれらと同様の技術を使用して、スマイリーフェイス、花、又は、いくつかの他のタイプの任意の画像により、取り換えることができる。実際面での視点から、動きベクトルを挿入することは、演算リソースの観点から、最もコスト効率のよいアプローチであり、典型的には、最も美的に好適な代替案でもある。なぜなら、ビデオは、特定のエリアが不明瞭となっている、「通常の」ビデオのように見えるからである。コードブロック及び任意の画像を挿入することを含む本実施形態は、典型的には、演算リソースの観点から、その実装が幾分、より割高であり、幾分、美的に好適なものとはあまり言えない画像を結果として提供する場合もあるため、実際の実装では、動きベクトルの実施形態が使用される可能性がより高い場合がある。
【0039】
次に、ステップ106にて、マスクされる対象を含むIフレームが、非表示フレームとなるよう設定される。当業者によく知られているように、H.265エンコーディング標準(及び、GoogleのVP10などの、他のより新しいエンコーディング標準)内では、例えば、フレームは、「非表示(no-display)」とタグ付けできる。これは、このフレームが、ユーザに対して表示されないことを意味する。H.265では、例えば、タグ付けは、スライスヘッダにおいてpic_output_flagをフォルス(false)に設定する、又は、SEIヘッダにおいてno_displayフラグをトゥルー(true)に設定することにより、行うことができる。
【0040】
次に、ステップ108にて、プライバシマスクを含む新たなPフレームがビデオストリームに挿入され、Iフレームを先に参照した、GOPにおけるいずれの既存のPフレームが、新たに挿入されたPフレームを参照するよう変更される。つまり、リバイスされたGOPでは、Pフレームのすべてが、したがって、マスクが適用された画像を含む。マスクを形成するコーディングユニット外のエリアは、典型的には、非表示Iフレームを参照して、スキップブロックとして符号化される。当業者によく知られているように、スキップブロックは、ピクセルの、インターモードにてエンコードされたブロックである。これは、参照フレームにおける、ピクセルの対応するブロックを参照する。この対応するブロックから、イメージコンテンツが完全にコピーされるべきである。つまり、マスクされたエリアを除き、新たなPフレームのコンテンツは、非表示Iフレームのそれと同一である。これにより、プロセス100が終了する。この技術を使用することの大きな利点は、エンコードされたビデオストリームを、エンコーダにより使用されるビデオコーディングフォーマットをサポートする標準ビデオストリームデコーダによりデコードできることである。なぜなら、上記の方法は、そのようなビデオコーディングフォーマットの標準に準拠しているからである。
【0041】
さらなる利点は、Iフレームのイメージデータは依然としてGOPに含まれているが、非表示フレームとしてタグ付けされているため、もとの取得されたイメージデータのすべてはエンコードされたビデオストリームに含まれており、それらは、必要であれば、カスタムデコーダにより後に取得できることである。いくつかの実施形態では、Iフレームに対するフラグを、非表示フレームに以後設定されないように、シンプルに変更することにより、マスクされたデータのすべてを取得できる。他の実施形態では、マスクされたデータのサブセットのみが取得されてよい。例えば、画像が10人の顔を含み、それらの内の1つのみがマスクされないようにすべきシチュエーションを想定する。そのようなシチュエーションでは、新たに挿入されたPフレームを、代わりに、1人の顔がマスクされておらず、他の9人の顔がマスクされたままとなっている別のPフレームと取り換えることができる。
【0042】
図2及び
図3は、本発明の各種の実施形態に係る本方法の概念図を提供する。
図2に見ることができるように、カメラにより撮像されたビデオシーケンスの一部であるGOPは、Iフレーム202を含み、これには、3つのPフレーム204から208が続き、これらの3つすべては、Iフレーム202に戻ってこれを参照する。Iフレームは、歩いている人を含む。イメージプロセッシングでは、この歩いている人が、プライバシを理由としてビデオにおいてマスクされるべきであることを判定する。
【0043】
図3は、
図1の方法100を適用することを通して生成された、結果として変更されたGOPを示す。変更されたGOPでは、Iフレーム302が、
図2のIフレーム202に対応するが、これは現在、非表示フレームとしてタグ付けされている。新たなPフレーム303が挿入されており、このPフレームでは、この歩いている人が、以後視認できないようにマスクされている。残りのPフレーム304から308は、
図2のPフレーム204から208に対応する。これらは現在、Iフレーム302の代わりに、新たなPフレーム303を参照する。したがって、この歩いている人はまた、これらのフレームにおいてもマスクされている。ここに見られるように、GOP(及び、したがってビデオストリーム)のサイズは、新たなPフレーム(単一又は複数)の追加により幾分大きくなるが、このサイズの増大は、どちらかといえばわずかであり、ビデオに対する保存要件には、いずれの大きな影響がない。
【0044】
ここに説明する本発明の各種の実施形態には、イントラフレームと、後続のインターフレームと、を有するGOP構造を使用する、いずれのエンコーディングスキームを使用できる。このスキームの例としては、高効率ビデオコーディング(HEVC/H.265)、バーサタイルビデオコーディング(VVC)、エッセンシャルビデオコーディング(EVC)、VP9、及びAV1が挙げられ、これらのすべては、当業者によく知られている。
【0045】
エンコーダは、したがって、上述するように、ビデオストリームをエンコードするよう適合されている。エンコーダは、ビデオ撮像デバイスに直接設けられてよい、又は、ビデオストリームのイメージデータを受信するよう、有線又は無線接続を通してビデオ撮像デバイスに接続されてよい。エンコーダは、あらかじめ計算された動きベクトルを取得するメモリを含むことができる、又は、これに接続することができる。エンコーダは、画像変換を計算する、及び/又は、画像変換からサンプルとしての動きベクトルを計算するプロセッシングユニットを含むことができる。代替的に又は追加的に、エンコーダは、そのような画像変換及び/又は動きベクトルを計算又は判定するよう適合された個別の計算ユニットからの画像変換及び/又は動きベクトルを受信するよう適合され得る。
【0046】
エンコーダは、典型的には、上述するように、受信したイメージデータをエンコーディングする、1つ又はいくつかのプロセッシングユニット(例えば、中央処理ユニット(central processing unit又はCPU))を含む。CPUは、例えば、コンピュータ可読記憶媒体からインストールされた、CPUにより実行されると、上記の実施形態のいずれのエンコーディング方法を実施するよう適合された命令を有するソフトウェアを走らせるよう適合され得る。エンコーダは、さらに、エンコードされたビデオストリームを、無線又は有線にて、エンコードされたビデオストリームをデコードするよう適合されたデコーダに、(例えば、インターネットを介して)送信するよう適合されてよい。
【0047】
ここに開示するシステム(例えば、エンコーダ)及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実装できる。ハードウェアの実装では、上記説明にて引用される機能ユニット間又はコンポーネント間でのタスクの分割は、物理ユニットへの分割に必ずしも対応しない。それどころか、1つの物理コンポーネントは、複数の機能を行うことができ、1つのタスクは、いくつかの物理コンポーネントにより共同で実施されてよい。
【0048】
特定のコンポーネント又はすべてのコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサにより実行されるソフトウェアとして実装されてよく、又は、ハードウェアとして実装されてよく、若しくは特定用途向け集積回路として実装されてよい。そのようなソフトウェアは、コンピュータ記憶媒体(又は、非一時的媒体)及び通信媒体(又は、一時的媒体)を含んでよい、コンピュータ可読媒体上に配布されてよい。当業者に知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報の保存のためのいずれの方法又は技術にて実装される揮発性及び不揮発性の双方の、リムーバブル及び非リムーバブルの双方の媒体を含む。コンピュータ記憶媒体は、ランダムアクセスメモリ(random access memory又はRAM)、読み出し専用メモリ(read-only memory又はROM)、電気的消去可能・プログラム可能ROM(electrically erasable programmable ROM又はEEPROM)、フラッシュメモリ、又は他のメモリ技術、コンパクトディスクROM(compact disc(CD)-ROM)、デジタルバーサタイルディスク(digital versatile disk又はDVD)、又は他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、又は、所望する情報の保存に使用でき、コンピュータによりアクセスできるいずれの他の媒体、を含むが、これらに限定しない。
【0049】
図中のフローチャート及びブロック図は、本発明の様々な実施形態に係る、システム、方法、及び、コンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び、作動を示す。これに関して、フローチャート又はブロック図内のそれぞれのブロックは、規定される論理的機能(単一又は複数)を実施する、1つ又はそれ以上の実行可能命令を含むモジュール、セグメント、又は、命令の部位を表してよい。いくつかの代替的実装では、ブロック内に記される機能は、図に記す順序を外れて実施されてよい。例えば、連続して示す2つのブロックは実際に、実質的に同時に実行されるか、又は、関連する機能によっては、これらのブロックが時に反対の順序にて実行されてよい。なお、ブロック図及び/又はフローチャートの図示のそれぞれのブロック、及び、ブロック図及び/又はフローチャートの図示内のブロックの組み合わせは、規定の機能又は作用を行う、又は、専用ハードウェア及びコンピュータ命令の組み合わせを実現する、専用のハードウェアに基づくシステムによっても実装できる。
【0050】
当業者であれば、上記の実施形態を多くの方法にて変更でき、上記の実施形態に示すような、本発明の利点を依然として使用できることが理解されるであろう。例えば、補助フレームと、補助フレームを補完するフレームと、をエンコーディングする順序は、いずれの適切な方法にて変更できる。例えば、GOP内の補助フレームのすべては、エンコードされたビデオストリームにおいて、エンコードされた補助フレームと組み合わされる補助フレームを参照するインターエンコードされたフレームを含む前に、はじめにエンコードされてよい。本発明は従って、ここに示す実施形態に限定されるべきではなく、特許請求の範囲によってのみ定義されるべきである。更に、当業者が理解するように、ここに示す実施形態は組み合わせることも可能である。