(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-02-04
(54)【発明の名称】メディア処理のシステム及び方法
(51)【国際特許分類】
G06T 1/00 20060101AFI20250128BHJP
H04N 23/611 20230101ALI20250128BHJP
H04N 23/60 20230101ALI20250128BHJP
G10L 25/51 20130101ALI20250128BHJP
H04N 5/262 20060101ALI20250128BHJP
G09G 5/00 20060101ALI20250128BHJP
G09G 5/37 20060101ALI20250128BHJP
【FI】
G06T1/00 340Z
H04N23/611
H04N23/60 500
H04N23/60 300
G10L25/51 400
H04N5/262 010
G09G5/00 550C
G09G5/37 320
G09G5/37 200
G09G5/37 600
G09G5/37 110
G09G5/00 530D
G09G5/00 520V
G09G5/00 510Q
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024539367
(86)(22)【出願日】2023-01-05
(85)【翻訳文提出日】2024-06-27
(86)【国際出願番号】 US2023060170
(87)【国際公開番号】W WO2023137239
(87)【国際公開日】2023-07-20
(32)【優先日】2022-01-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】595020643
【氏名又は名称】クゥアルコム・インコーポレイテッド
【氏名又は名称原語表記】QUALCOMM INCORPORATED
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】ベイス、スコット
(72)【発明者】
【氏名】デイン、ギョクチェ
(72)【発明者】
【氏名】ブース、サイモン・ピーター・ウィリアム
(72)【発明者】
【氏名】バンディ、ロヒト
【テーマコード(参考)】
5B057
5C023
5C122
5C182
【Fターム(参考)】
5B057CE04
5B057DA07
5C023AA06
5C023AA07
5C023AA08
5C023BA01
5C023CA01
5C122EA07
5C122EA61
5C122FA18
5C122FH09
5C122FH11
5C122FH14
5C122FH15
5C122FH21
5C122FH22
5C122FJ06
5C122FJ09
5C122FK24
5C122GC52
5C122HA29
5C122HB01
5C122HB05
5C182AB02
5C182AB08
5C182AB21
5C182AB25
5C182AB33
5C182AB37
5C182BA01
5C182BA14
5C182BA35
5C182BA46
5C182BA56
5C182BA66
5C182BC29
5C182BC41
5C182CB04
5C182CB14
5C182CB44
5C182CB47
5C182CB52
5C182DA66
5C182DA68
(57)【要約】
メディア処理システム及び技法が記載される。メディア処理システムは、画像センサによってキャプチャされた環境を表す画像データを受信する。メディア処理システムは、画像データに表された環境内のオブジェクトのインジケーションを受信する。メディア処理システムは、画像データを、第1の領域及び第2の領域を含む領域に分割する。オブジェクトは、複数の領域のうちの1つに表される。メディア処理システムは、複数の領域のうちの1つに表されているオブジェクトに基づいて、第2の領域を不明瞭にすることなく、第1の領域を不明瞭にするように画像データを修正する。メディア処理システムは、画像データを修正した後に画像データを出力する。いくつかの例では、オブジェクトは第1の領域に描写され、第2の領域には描写されない。いくつかの例では、オブジェクトは、第2の領域に描写され、第1の領域には描写されない。
【特許請求の範囲】
【請求項1】
メディア処理のための装置であって、前記装置が、
少なくとも1つのメモリと、
前記少なくとも1つのメモリに結合された1つ又は複数のプロセッサと、を備え、前記1つ又は複数のプロセッサが、
画像センサによってキャプチャされた、環境を表す画像データを受信し、
前記画像データ内に表される前記環境内のオブジェクトのインジケーションを受信し、
前記画像データを、第1の領域及び第2の領域を含む複数の領域であって、前記オブジェクトが前記複数の領域のうちの1つに表される、複数の領域に分割し、
前記オブジェクトが前記複数の領域のうちの前記1つに表されていることに基づいて、前記第2の領域を不明瞭にすることなしに前記第1の領域を不明瞭にするように前記画像データを修正し、
前記画像データを修正した後に前記画像データを出力する、ように構成されている、装置。
【請求項2】
前記画像データを前記複数の領域に分割するために、前記1つ又は複数のプロセッサが、前記オブジェクトの決定されたロケーションに基づいて前記画像データを前記複数の領域に分割するように構成されており、前記オブジェクトが、少なくとも1つの領域に位置し、少なくとも1つの他の領域に位置しない、請求項1に記載の装置。
【請求項3】
前記オブジェクトのロケーションが、前記画像データから決定される、請求項1に記載の装置。
【請求項4】
前記1つ又は複数のプロセッサが、
オーディオを検出するように構成されており、前記オブジェクトのロケーションが、前記オーディオの属性に基づいて決定され、前記属性が、前記オーディオのロケーション、前記オーディオの方向、前記オーディオの振幅、又は前記オーディオの周波数のうちの少なくとも1つを含む、請求項1に記載の装置。
【請求項5】
前記環境内の前記オブジェクトの前記インジケーションを受信するために、前記1つ又は複数のプロセッサが、前記画像データ内の前記オブジェクトを検出するように構成されている、請求項1に記載の装置。
【請求項6】
前記環境内の前記オブジェクトの前記インジケーションを受信するために、前記1つ又は複数のプロセッサが、ユーザインターフェースを介して入力を受信するように構成されており、前記入力が、前記オブジェクトを示す、請求項1に記載の装置。
【請求項7】
前記オブジェクトが、前記第1の領域内に表され、前記第2の領域内に表されず、前記第1の領域を不明瞭にするように前記画像データを修正することが、前記オブジェクトが前記第1の領域内に表されていることに基づく、請求項1に記載の装置。
【請求項8】
前記オブジェクトが、前記第2の領域内に表され、前記第1の領域内に表されず、前記第2の領域を不明瞭にすることなく前記第1の領域を不明瞭にするように前記画像データを修正することが、前記オブジェクトが前記第2の領域内に表され、前記第1の領域内に表されないことに基づく、請求項1に記載の装置。
【請求項9】
前記第1の領域を不明瞭にするように前記画像データを修正することが、固視点の周りの周辺エリアのフォービエイテッド圧縮を使用して前記画像データを修正することを含み、前記第2の領域が、前記固視点を含み、前記第1の領域が、前記周辺エリアを含む、請求項1に記載の装置。
【請求項10】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第1の領域の少なくとも一部分をぼかすように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項11】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第1の領域の少なくとも一部分を除去するように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項12】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第1の領域の少なくとも一部分を修復するように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項13】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第1の領域の少なくとも一部分を画素化するように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項14】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第2の領域を表す前記画像データの第2のサブセットと比較して、前記第1の領域を表す前記画像データの第1のサブセットの解像度を低減するように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項15】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第2の領域を表す前記画像データの第2のサブセットよりも前記第1の領域を表す前記画像データの第1のサブセットを圧縮するように前記画像データを修正することを含む、請求項1に記載の装置。
【請求項16】
前記オブジェクトが、人の身体の少なくとも一部分を含む、請求項1に記載の装置。
【請求項17】
前記オブジェクトが、人の顔の少なくとも一部分を含む、請求項1に記載の装置。
【請求項18】
前記オブジェクトが、文字列の少なくとも一部分を含む、請求項1に記載の装置。
【請求項19】
前記オブジェクトが、ディスプレイを使用して表示されるコンテンツの少なくとも一部分を含む、請求項1に記載の装置。
【請求項20】
ディスプレイを更に備え、前記画像データを出力するために、前記1つ又は複数のプロセッサが、前記ディスプレイを使用して前記画像データを表示するように構成されている、請求項1に記載の装置。
【請求項21】
通信トランシーバを更に備え、前記画像データを出力するために、前記1つ又は複数のプロセッサが、前記通信トランシーバを使用して前記画像データを受信者デバイスに送信するように構成されている、請求項1に記載の装置。
【請求項22】
前記1つ又は複数のプロセッサが、
前記環境からマイクロフォンによってキャプチャされた、前記画像データのキャプチャに対応する時間にキャプチャされたオーディオデータを受信し、
前記オーディオデータ内で、前記オブジェクトに対応するオーディオサンプルを検出し、
前記オブジェクトに対応する前記オーディオサンプルを減衰させるように前記オーディオデータを修正し、
前記オーディオデータを修正した後に前記オーディオデータを出力する、ように構成されている、請求項1に記載の装置。
【請求項23】
メディア処理のための方法であって、前記方法が、
画像センサによってキャプチャされた、環境を表す画像データを受信することと、
前記画像データ内に表される前記環境内のオブジェクトのインジケーションを受信することと、
前記画像データを複数の領域であって、前記複数の領域が、第1の領域及び第2の領域を含み、前記オブジェクトが、前記複数の領域のうちの1つに表される、複数の領域に分割することと、
前記オブジェクトが前記複数の領域のうちの前記1つに表されていることに基づいて、前記第2の領域を不明瞭にすることなしに前記第1の領域を不明瞭にするように前記画像データを修正することと、
前記画像データを修正した後に前記画像データを出力することと、を含む、方法。
【請求項24】
前記画像データを前記複数の領域に分割することが、前記オブジェクトの決定されたロケーションに基づいて前記画像データを前記複数の領域に分割することを含み、前記オブジェクトが、少なくとも1つの領域に位置し、少なくとも1つの他の領域に位置しない、請求項23に記載の方法。
【請求項25】
前記環境内の前記オブジェクトの前記インジケーションを受信することが、前記画像データ内の前記オブジェクトを検出することを含む、請求項23に記載の方法。
【請求項26】
前記環境内の前記オブジェクトの前記インジケーションを受信することが、ユーザインターフェースを介した入力を含み、前記入力が、前記オブジェクトを示す、請求項23に記載の方法。
【請求項27】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第1の領域の少なくとも一部分を圧縮、ぼかし、除去、修復、又は画素化するように前記画像データを修正することを含む、請求項23に記載の方法。
【請求項28】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第2の領域を表す前記画像データの第2のサブセットと比較して、前記第1の領域を表す前記画像データの第1のサブセットの解像度を低減するように前記画像データを修正することを含む、請求項23に記載の方法。
【請求項29】
前記第1の領域を不明瞭にするように前記画像データを修正することが、前記第2の領域を表す前記画像データの第2のサブセットよりも前記第1の領域を表す前記画像データの第1のサブセットを圧縮するように前記画像データを修正することを含む、請求項23に記載の方法。
【請求項30】
前記環境からマイクロフォンによってキャプチャされた、前記画像データのキャプチャに対応する時間にキャプチャされたオーディオデータを受信することと、
前記オーディオデータ内で、前記オブジェクトに対応するオーディオサンプルを検出することと、
前記オブジェクトに対応する前記オーディオサンプルを減衰させるように前記オーディオデータを修正することと、
前記オーディオデータを修正した後に前記オーディオデータを出力することと、を更に含む、請求項23に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
[0001] 本出願は、メディア処理に関する。より詳細には、本出願は、例えば、オブジェクト検出及び/又はセマンティックセグメント化に基づいて、環境の特定の領域に対応するメディアの様相を不明瞭にし、かつ/又は減衰させながら、メディアの他の様相を不明瞭にせず、かつ/又は減衰させないままにするシステム及び方法に関する。
【背景技術】
【0002】
[0002] ストリーミングメディアは、キャプチャデバイスによってキャプチャされ、ネットワーク(例えば、インターネット)を介してキャプチャデバイスから1つ又は複数の閲覧者デバイスに連続的に提供されるメディア(例えば、ビデオ及び/又はオーディオ)を指し、ネットワーク要素内に中間ストレージはほとんど又は全くない。ストリーミングメディアは、キャプチャデバイスがストリーミングメディアの後の部分として提供されるメディアを依然としてキャプチャしている間に、キャプチャデバイスから1つ又は複数の閲覧者デバイスに提供され得、これはライブストリーミングと称されることがある。ライブストリーミングは、キャプチャとストリーミングとの間にほとんど又は全く遅延がないため、場面の意図しない部分がキャプチャされた場合、手段を取ることがほとんどできない。
【0003】
[0003] エクステンデッドリアリティ(extended reality、XR)デバイスは、例えば、ヘッドマウントディスプレイ(head-mounted display、HMD)又はモバイルハンドセットを通して、環境をユーザに表示するデバイスである。環境は、ユーザがいる実世界環境とは少なくとも部分的に異なる。ユーザは、概して、例えば、HMD又は他のデバイスを傾けるか又は移動させることによって、自身の環境のビューを対話式に変更することができる。仮想現実(Virtual reality、VR)、拡張現実(augmented reality、AR)、及び複合現実(mixed reality、MR)は、XRの例である。XRデバイスは、環境から情報をキャプチャするセンサを含むことができる。XRデバイスは、しばしば、使用中にユーザの環境の一次ビューをユーザに提供するため、XRデバイスのセンサは、場面の意図されない部分を時々キャプチャすることがある。
【発明の概要】
【0004】
[0004] いくつかの例では、メディア処理のためのシステム及び技法が説明される。メディア処理システムは、画像センサによってキャプチャされた画像データを受信する。画像データは、環境を表す(例えば、描写する)。メディア処理システムは、例えばオブジェクト検出を使用してオブジェクトを検出することによって、画像データ内に描写される環境内のオブジェクトのインジケーションを受信する。メディア処理システムは、オブジェクトのインジケーションに基づいて、例えば、画像データ内のオブジェクトの位置に基づいて、画像データを領域に分割する。領域は、第1の領域及び第2の領域を含む。オブジェクトは、複数の領域のうちの1つに表される。メディア処理システムは、複数の領域のうちの1つに表されているオブジェクトに基づいて、第2の領域を不明瞭にすることなく、第1の領域を不明瞭にするように画像データを修正する。メディア処理システムは、画像データを修正した後に画像データを出力する。いくつかの例では、オブジェクトは、第1の領域に表され、第2の領域には表されず、メディア処理システムは、オブジェクトがその中にあるため、第1の領域を不明瞭にする。いくつかの例では、オブジェクトは、第2の領域に表され、第1の領域には表されず、メディア処理システムは、オブジェクトがその中にないため、第1の領域を不明瞭にする。いくつかの例では、オブジェクトは人物である。メディア処理システムは、プライバシーを改善するために、例えば、メディアに現れることを意図されなかった人々の顔を不明瞭にするために、領域を不明瞭にすることができる。メディア処理システムは、例えば、修正された領域における増大圧縮、修正された領域における解像度の低減などを使用して不明瞭にすることによって、帯域幅使用及び/又は電力消費を改善する方法で領域を不明瞭にすることができる。
【0005】
[0005] 一例では、メディア処理のための装置が提供される。装置は、メモリと、メモリに結合された1つ又は複数のプロセッサ(例えば、回路で実装される)とを含む。1つ又は複数のプロセッサは、画像センサによってキャプチャされた、環境を表す画像データを受信し、画像データ内に表される環境内のオブジェクトのインジケーションを受信し、画像データを、第1の領域及び第2の領域を含む複数の領域であって、オブジェクトが複数の領域のうちの1つに表される、複数の領域に分割し、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正し、画像データを修正した後に画像データを出力するように構成されており、それらを行うことができる。
【0006】
[0006] 別の例では、画像処理の方法が提供される。方法は、画像センサによってキャプチャされた、環境を表す画像データを受信することと、画像データ内に表される環境内のオブジェクトのインジケーションを受信することと、画像データを複数の領域であって、複数の領域が、第1の領域及び第2の領域を含み、オブジェクトが、複数の領域のうちの1つに表される、複数の領域に分割することと、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正することと、画像データを修正した後に画像データを出力することと、を含む。
【0007】
[0007] 別の例では、命令を記憶した非一時的コンピュータ可読媒体が提供され、命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、画像センサによってキャプチャされた、環境を表す画像データを受信させ、画像データ内に表される環境内のオブジェクトのインジケーションを受信させ、画像データを、第1の領域及び第2の領域を含む複数の領域であって、オブジェクトが、複数の領域のうちの1つに表される、複数の領域を分割させ、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正させ、画像データを修正した後に画像データを出力させる。
【0008】
[0008] 別の例では、画像処理のための装置が提供される。装置は、画像センサによってキャプチャされた画像データを受信するための手段であって、画像データが、環境を表す、手段と、画像データ内に表される環境内のオブジェクトのインジケーションを受信するための手段と、画像データを複数の領域に分割するための手段であって、複数の領域が、第1の領域及び第2の領域を含み、オブジェクトが、複数の領域のうちの1つに表される、手段と、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正するための手段と、画像データを修正した後に画像データを出力するための手段と、を含む。
【0009】
[0009] いくつかの態様では、画像データを複数の領域に分割することは、オブジェクトの決定されたロケーションに基づいて、画像データを複数の領域に分割することを含み、オブジェクトは、少なくとも1つの領域に位置し、少なくとも1つの他の領域に位置しない。いくつかの態様では、オブジェクトのロケーションは、画像データから決定される。いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体のうちの1つ又は複数は、オーディオを検出することを更に含み、オブジェクトのロケーションは、オーディオの属性に基づいて決定され、属性は、オーディオのロケーション、オーディオの方向、オーディオの振幅、又はオーディオの周波数のうちの少なくとも1つを含む。
【0010】
[0010] いくつかの態様では、環境内のオブジェクトのインジケーションを受信することは、画像データ内のオブジェクトを検出することを含む。いくつかの態様では、環境内のオブジェクトのインジケーションを受信することは、ユーザインターフェースを介した入力を含み、入力は、オブジェクトを示す。
【0011】
[0011] いくつかの態様では、オブジェクトは、第1の領域内に表され、第2の領域内に表されず、第1の領域を不明瞭にするように画像データを修正することが、オブジェクトが第1の領域内に表されていることに基づく。いくつかの態様では、オブジェクトは第2の領域内に表され、第1の領域内に表されず、第2の領域を不明瞭にすることなく第1の領域を不明瞭にするように画像データを修正することは、オブジェクトが第2の領域内に表され、第1の領域内に表されないことに基づく。
【0012】
[0012] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、固視点の周囲の周辺エリアのフォービエイテッド圧縮を使用して、画像データを修正することを含み、第2の領域は、固視点を含み、第1の領域は、周辺エリアを含む。
【0013】
[0013] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域の少なくとも一部分をぼかすように画像データを修正することを含む。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域の少なくとも一部分を除去するように画像データを修正することを含む。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域の少なくとも一部分を修復するように画像データを修正することを含む。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域の少なくとも一部分を画素化するように画像データを修正することを含む。
【0014】
[0014] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第2の領域を表す画像データの第2のサブセットと比較して、第1の領域を表す画像データの第1のサブセットの解像度を低減するように画像データを修正することを含む。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第2の領域を表す画像データの第2のサブセットよりも第1の領域を表す画像データの第1のサブセットを圧縮するように画像データを修正することを含む。
【0015】
[0015] いくつかの態様では、オブジェクトは、人物の身体の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、人物の顔の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、文字列の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、ディスプレイを使用して表示されるコンテンツの少なくとも一部分を含む。
【0016】
[0016] いくつかの態様では、画像データを出力することは、ディスプレイを使用して画像データを表示することを含む。いくつかの態様では、画像データを出力することは、通信トランシーバを使用して画像データを受信者デバイスに送信することを含む。
【0017】
[0017] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体のうちの1つ又は複数は、環境からマイクロフォンによってキャプチャされた、画像データのキャプチャに対応する時間にキャプチャされたオーディオデータを受信することと、オーディオデータ内で、オブジェクトに対応するオーディオサンプルを検出することと、オブジェクトに対応するオーディオサンプルを減衰させるようにオーディオデータを修正することと、オーディオデータを修正した後にオーディオデータを出力することと、を更に含む。
【0018】
[0018] いくつかの態様では、少なくとも1つの領域は、所定の形状を有する領域である。
【0019】
[0019] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体のうちの1つ又は複数は、第2の画像センサから二次画像データを受信することを更に含み、第2の画像センサは、第1の画像センサとは異なる視野を有し、第2の画像センサによってキャプチャされた二次画像データは、ユーザの二次画像を含み、画像データを分割することは、二次画像に更に基づく。いくつかの態様では、第2の画像センサは、ユーザの少なくとも一部分のジェスチャ又は位置をキャプチャし、画像データを分割することは、ユーザの少なくとも一部分のジェスチャの方向及び/又は位置に対応する領域を画定することを含む。いくつかの態様では、ユーザのジェスチャ又は位置は、ユーザの注視方向を含む。
【0020】
[0020] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域をコーディングするために使用されるデータの量を低減する。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域における圧縮を増大させること、第1の領域における量子化を増大させること、第1の領域における解像度を低減すること、第1の領域をクロップすること、及び/又は第1の領域を画素にすることのうちの少なくとも1つを含む。
【0021】
[0021] いくつかの態様では、上記で説明された方法、装置、及びコンピュータ可読媒体のうちの1つ又は複数は、オブジェクトを識別することと、オブジェクトを識別することに基づいて、オブジェクトが表示されるか、又は不明瞭にされるかを判定することと、オブジェクトが不明瞭にされると判定したことに応答して、オブジェクトを含むように第1の領域を定義することと、を更に含む。いくつかの態様では、オブジェクトが不明瞭にされると判定することは、オブジェクトが不明瞭にされるオブジェクトのブラックリストに含まれると判定すること、及び/又はオブジェクトが表示されるオブジェクトのホワイトリストに含まれないと判定することを含む。
【0022】
[0022] いくつかの態様では、装置は、ウェアラブルデバイス、エクステンデッドリアリティデバイス(例えば、仮想現実(VR)デバイス、拡張現実(AR)デバイス、又は複合現実(MR)デバイス)、ヘッドマウントディスプレイ(HMD)デバイス、ワイヤレス通信デバイス、モバイルデバイス(例えば、携帯電話及び/若しくは携帯ハンドセット並びに/又はいわゆる「スマートフォン」又は他のモバイルデバイス)、カメラ、パーソナルコンピュータ、ラップトップコンピュータ、サーバコンピュータ、乗り物若しくは乗り物のコンピューティングデバイス若しくは構成要素、別のデバイス、又はそれらの組み合わせの一部であり、かつ/又はそれらを含む。いくつかの態様では、装置は、1つ又は複数の画像をキャプチャする1つのカメラ又は複数のカメラを含む。いくつかの態様では、装置は、1つ又は複数の画像、通知、及び/又は他の表示可能なデータを表示するディスプレイを更に含む。いくつかの態様では、上記で説明された装置は、1つ又は複数のセンサ(例えば、1つ又は複数のジャイロスコープ、1つ又は複数のジャイロメータ、1つ又は複数の加速度計、それらの任意の組み合わせ、及び/又は他のセンサなどの、1つ又は複数の慣性測定ユニット(inertial measurement units、IMUs)を含み得る。
【0023】
[0023] 本概要では、特許請求される主題の主要な又は必須の特徴を特定することは意図されず、特許請求される主題の範囲を判定するために独立して使用されることも意図されない。本主題は、この特許の明細書全体、いずれか又は全ての図面、及び各請求項の適切な部分を参照することによって理解されるはずである。
【0024】
[0024] 上記のことは、他の特徴及び実施形態とともに、以下の明細書、特許請求の範囲、及び添付図面を参照すると、より明らかになろう。
【図面の簡単な説明】
【0025】
[0025] 本出願の例示的な実施形態について、以下の図面を参照して以下で詳細に説明する。
【
図1】[0026] いくつかの例による、画像キャプチャ及び処理システムの例示的なアーキテクチャを示すブロック図である。
【
図2】[0027] いくつかの例による、センサによってキャプチャされたメディアを受信し、メディアを修正するプロセスを実行するメディア処理システムの例示的なアーキテクチャを示すブロック図である。
【
図3A】[0028] いくつかの例による、エクステンデッドリアリティ(XR)システムとして使用されるヘッドマウントディスプレイ(HMD)を示す斜視図である。
【
図3B】[0029] いくつかの例による、ユーザによって装着されている
図3Aのヘッドマウントディスプレイ(HMD)を示す斜視図である。
【
図4A】[0030] いくつかの例による、前向きカメラを含み、エクステンデッドリアリティ(XR)システムとして使用することができるモバイルハンドセットの前面を示す斜視図である。
【
図4B】[0031] いくつかの例による、後ろ向きカメラを含み、エクステンデッドリアリティ(XR)システムとして使用することができるモバイルハンドセットの背面を示す斜視図である。
【
図5】[0032] いくつかの例による、イベントに基づく画像処理のためのプロセス500を示すブロック図である。
【
図6】[0033] いくつかの例による、画像データ中の人物の検出に基づく画像処理のためのプロセス600を示すブロック図である。
【
図7A】[0034] いくつかの例による、環境の画像と、破線を使用して示された環境の部分を不明瞭にするための画像への種々の修正との例を示す概念図である。
【
図7B】[0035] いくつかの例による、環境の画像と、シェーディングを使用して示された環境の部分を不明瞭にするための画像への種々の修正との例を示す概念図である。
【
図8】[0036] いくつかの例による、環境の音風景の例と、環境内の異なる要素に対応する音風景の様相を減衰させるための種々の修正とを示す概念図である。
【
図9】[0037] いくつかの例による、メディア処理動作のために使用され得るニューラルネットワークの一例を示すブロック図である。
【
図10】[0038] いくつかの例による、メディア処理のためのプロセスを示すフロー図である。
【
図11】[0039] 本明細書で説明する特定の態様を実装するためのコンピューティングシステムの一例を示す図である。
【発明を実施するための形態】
【0026】
[0040] 本開示の特定の態様及び実施形態が以下で提供される。当業者に明らかになるように、これらの態様及び実施形態のうちのいくつかが独立して適用されてもよく、それらのうちのいくつかは組み合わせて適用されてもよい。以下の説明では、説明のために、本出願の実施形態の完全な理解をもたらすために具体的な詳細が記載される。しかしながら、様々な実施形態がこれらの具体的な詳細なしに実践され得ることは明らかであろう。図及び説明は限定的であることが意図されていない。
【0027】
[0041] 以下の説明は、例示的な実施形態を提供するにすぎず、本開示の範囲、適用可能性、又は構成を限定することを意図しない。むしろ、例示的な実施形態の以下の説明は、例示的な実施形態を実装することを可能にする説明を当業者に提供する。添付の特許請求の範囲に記載されるような本出願の趣旨及び範囲から逸脱することなく、要素の機能及び構成において様々な変更が加えられてよいことを理解されたい。
【0028】
[0042] カメラは、画像センサを使用して、光を受け入れるとともに静止画像又はビデオフレームなどの画像フレームをキャプチャするデバイスである。「画像」、「画像フレーム」、及び「フレーム」という用語は、本明細書では互換的に使用される。カメラは、様々な画像キャプチャ及び画像処理設定を用いて構成され得る。異なる設定は、外観の異なる画像をもたらす。ISO、露光時間、開口サイズ、f/ストップ、シャッタ速度、焦点、及び利得などのいくつかのカメラ設定は、1つ又は複数の画像フレームのキャプチャの前又はその間に決定されて適用される。例えば、設定又はパラメータは、1つ又は複数の画像フレームをキャプチャするための画像センサに適用され得る。コントラスト、明るさ、飽和度、鮮明さ、レベル、曲線、又は色の変更などの他のカメラ設定は、1つ又は複数の画像フレームの後処理を構成し得る。例えば、設定又はパラメータは、画像センサによってキャプチャされた1つ又は複数の画像フレームを処理するためのプロセッサ(例えば、画像信号プロセッサ又はISP)に適用され得る。
【0029】
[0043] エクステンデッドリアリティ(XR)システム又はデバイスは、仮想コンテンツをユーザに提供することができ、かつ/又は物理環境(場面)の実世界ビューと(仮想コンテンツを含む)仮想環境とを組み合わせることができる。XRシステムは、そのような組み合わされたXR環境とのユーザ対話を容易にする。実世界ビューは、実世界オブジェクト(物理的オブジェクトとも呼ばれる)、例えば人、乗り物、建物、テーブル、椅子、及び/又は他の実世界オブジェクト若しくは物理的オブジェクトなどを含むことができる。XRシステム又はデバイスは、異なるタイプのXR環境との対話を容易にすることができる(例えば、ユーザは、XR環境と対話するためにXRシステム又はデバイスを使用することができる)。XRシステムは、仮想現実(VR)環境との対話を容易にするVRシステム、拡張現実(AR)環境との対話を容易にするARシステム、複合現実(MR)環境との対話を容易にするMRシステム、及び/又は他のXRシステムを含むことができる。XRシステム又はデバイスの例は、特に、ヘッドマウントディスプレイ(HMDs)、スマートグラスを含む。場合によっては、XRデバイスは、ユーザが仮想コンテンツのアイテムと対話することを可能にするために、ユーザの部分(例えば、ユーザの手及び/又は指先)を追跡することができる。
【0030】
[0044] メディア処理のためのシステム及び技法が本明細書に記載される。メディア処理システムは、画像センサによってキャプチャされた画像データを受信する。画像データは、環境を表す(例えば、描写する)。メディア処理システムは、例えば、オブジェクトを検出することによって、画像データ内に表される(例えば、描写される)環境内のオブジェクトのインジケーションを受信する。メディア処理システムは、例えば、オブジェクトのインジケーション、オブジェクトの検出、環境内のオブジェクトの位置、及び/又は画像データ内のオブジェクトの位置に基づいて、画像データを領域に分割する。領域は、第1の領域及び第2の領域を含む。オブジェクトは、複数の領域のうちの1つに表される(例えば、描写される)。メディア処理システムは、複数の領域のうちの1つに表されているオブジェクトに基づいて、第2の領域を不明瞭にすることなく、第1の領域を不明瞭にするように画像データを修正する。メディア処理システムは、画像データを修正した後に画像データを出力する。いくつかの例では、オブジェクトは、第1の領域に表され(例えば、描写され)、第2の領域には表されず、メディア処理システムは、オブジェクトがその中にあるため、第1の領域を不明瞭にする。いくつかの例では、オブジェクトは、第2の領域に表され(例えば、描写され)、第1の領域には表されず、メディア処理システムは、オブジェクトがその中にないため、第1の領域を不明瞭にする。いくつかの例では、オブジェクトは、人物、顔、乗り物、植物、動物、構造物、デバイス、デバイス上に表示されたコンテンツ、媒体上に書かれた又は描かれたコンテンツ、又はそれらの組み合わせである。
【0031】
[0045] 本明細書に記載されるメディア処理システム及び技法は、従来のメディアシステムに対して多くの技法的な改善を提供する。例えば、本明細書で説明されるメディア処理システム及び技法は、例えば、修正された領域における増大圧縮、修正された領域における解像度の低減などを使用して不明瞭にすることによって、帯域幅使用及び/又は電力消費を改善する方法で領域を不明瞭にすることができる。いくつかの例では、本明細書に記載のメディア処理システム及び技法は、例えば、メディア内に現れることを意図していなかった人々又はオブジェクトの顔を不明瞭にすることによって、プライバシー及びセキュリティを改善することができる。
【0032】
[0046] 適用例の様々な態様が、図に関して説明される。
図1は、画像キャプチャ及び処理システム100のアーキテクチャを示すブロック図である。画像キャプチャ及び処理システム100は、1つ又は複数の場面の画像(例えば、場面110の画像)をキャプチャして処理するために使用される様々な構成要素を含む。画像キャプチャ及び処理システム100は、スタンドアロン画像(又は写真)をキャプチャすることができ、かつ/又は特定のシーケンスで複数の画像(又はビデオフレーム)を含むビデオをキャプチャすることができる。システム100のレンズ115は、場面110に面し、場面110から光を受け入れる。レンズ115は、光を画像センサ130に向けて曲げる。レンズ115によって受け入れられた光は、1つ又は複数の制御機構120によって制御される開口を通過し、画像センサ130によって受け入れられる。いくつかの例では、場面110は、
図2の環境対面センサ210が面している環境などの環境内の場面である。いくつかの例では、場面110は、
図2のユーザ対面センサ205が面しているユーザなどのユーザの少なくとも一部分の場面である。例えば、場面110は、ユーザの眼の一方若しくは両方、及び/又はユーザの顔の少なくとも一部分の場面であり得る。
【0033】
[0047] 1つ又は複数の制御機構120は、画像センサ130からの情報に基づいて、かつ/又は画像プロセッサ150からの情報に基づいて、露光、焦点、及び/又はズームを制御することができる。1つ又は複数の制御機構120は、複数の機構及び構成要素を含み得る。例えば、制御機構120は、1つ又は複数の露光制御機構125A、1つ又は複数の焦点制御機構125B、及び/又は1つ又は複数のズーム制御機構125Cを含み得る。1つ又は複数の制御機構120はまた、アナログ利得、フラッシュ、HDR、被写界深度、及び/又は他の画像キャプチャ特性を制御する制御機構など、図示されているもの以外の追加の制御機構を含み得る。
【0034】
[0048] 制御機構120の焦点制御機構125Bは、焦点設定を取得することができる。いくつかの例では、焦点制御機構125Bは、メモリレジスタ内に焦点設定を記憶する。焦点設定に基づいて、焦点制御機構125Bは、画像センサ130の位置に対してレンズ115の位置を調整することができる。例えば、焦点設定に基づいて、焦点制御機構125Bは、モータ又はサーボを作動させることによって画像センサ130のより近く又は画像センサ130からより遠くにレンズ115を動かし、それによって、焦点を調整することができる。場合によっては、画像センサ130の各フォトダイオードの上方の1つ又は複数のマイクロレンズなどの追加のレンズがシステム100の中に含まれてよく、それらは各々、光がフォトダイオードに到達する前に、レンズ115から受けられる光を対応するフォトダイオードに向かって曲げる。焦点設定は、コントラスト検出自動焦点(contrast detection autofocus、CDAF)、位相検出自動焦点(phase detection autofocus、PDAF)、又はそれらの何らかの組み合わせを介して決定されてよい。焦点設定は、制御機構120、画像センサ130、及び/又は画像プロセッサ150を使用して決定され得る。焦点設定は、画像キャプチャ設定及び/又は画像処理設定と呼ばれることがある。
【0035】
[0049] 制御機構120の露光制御機構125Aは、露光設定を取得することができる。場合によっては、露光制御機構125Aは、メモリレジスタ内に露光設定を記憶する。この露光設定に基づいて、露光制御機構125Aは、開口のサイズ(例えば、開口サイズ若しくはf/ストップ)、開口が開放されている持続時間(例えば、露光時間若しくはシャッタ速度)、画像センサ130の感度(例えば、ISO速度若しくはフィルム速度)、画像センサ130によって適用されるアナログ利得、又はそれらの任意の組み合わせを制御することができる。露光設定は、画像キャプチャ設定及び/又は画像処理設定と呼ばれることがある。
【0036】
[0050] 制御機構120のズーム制御機構125Cは、ズーム設定を取得することができる。いくつかの例では、ズーム制御機構125Cは、メモリレジスタ内にズーム設定を記憶する。ズーム設定に基づいて、ズーム制御機構125Cは、レンズ115及び1つ又は複数の追加のレンズを含むレンズ要素の組立体(レンズ組立体)の焦点距離を制御することができる。例えば、ズーム制御機構125Cは、1つ又は複数のモータ又はサーボを作動させてレンズのうちの1つ又は複数を互いに対して移動させることによって、レンズ組立体の焦点距離を制御することができる。ズーム設定は、画像キャプチャ設定及び/又は画像処理設定と呼ばれることがある。いくつかの例では、レンズ組立体は、同焦点ズームレンズ又は可変焦点ズームレンズを含んでよい。いくつかの例では、レンズ組立体は、最初に場面110からの光を受け入れる集束レンズ(場合によってはレンズ115であり得る)を含み得、光は、次いで、光が画像センサ130に到達する前に、集束レンズ(例えば、レンズ115)と画像センサ130との間の無限焦点ズームシステムを通過する。場合によっては、無限焦点ズームシステムは、等しいか又は類似の焦点距離(例えば、閾値差内)の2つの正の(例えば、収束、凸)レンズを、それらの間の負の(例えば、発散、凹)レンズとともに含んでよい。場合によっては、ズーム制御機構125Cは、負のレンズ、及び正のレンズのうちの一方又は両方などの、無限焦点ズームシステムの中のレンズのうちの1つ又は複数を動かす。
【0037】
[0051] 画像センサ130は、フォトダイオード又は他の感光素子の1つ又は複数のアレイを含む。各フォトダイオードは、画像センサ130によって生成された画像内の特定の画素に最終的に対応する光の量を測定する。場合によっては、異なるフォトダイオードは、異なる色フィルタによって覆われてよく、したがって、フォトダイオードを覆うフィルタの色に整合する光を測定してよい。例えば、ベイヤー色フィルタは、赤色フィルタ、青色フィルタ、及び緑色フィルタを含み、画像の各画素は、赤色フィルタで覆われる少なくとも1つのフォトダイオードからの赤い光のデータ、青色フィルタで覆われる少なくとも1つのフォトダイオードからの青い光のデータ、及び緑色フィルタで覆われる少なくとも1つのフォトダイオードからの緑色の光のデータに基づいて生成される。他のタイプの色フィルタは、赤色、青色、及び/又は緑色フィルタの代わりに、又はそれらに加えて、黄色、マゼンダ、及び/又はシアン(「エメラルド」とも呼ばれる)色フィルタを使用してよい。いくつかの画像センサは、色フィルタが完全になくてよく、代わりに、画素アレイ全体にわたって(場合によっては、垂直方向に積層された)異なるフォトダイオードを使用してもよい。画素アレイ全体にわたる異なるフォトダイオードは、異なるスペクトル感度曲線を有することができ、したがって、光の異なる波長に応答する。モノクロ画像センサも色フィルタがなくてよく、したがって、色深度もなくてよい。
【0038】
[0052] 場合によっては、画像センサ130は、代替又は追加として、位相検出自動焦点(PDAF)のために使用され得る、光が特定の時間に及び/又は特定の角度から特定のフォトダイオードに、又は特定のフォトダイオードの部分に達するのをブロックする不透明マスク及び/又は反射マスクを含み得る。画像センサ130はまた、フォトダイオードによって出力されたアナログ信号を増幅するためのアナログゲイン増幅器、並びに/又は、フォトダイオードから出力された(及び/若しくはアナログゲイン増幅器によって増幅された)アナログ信号をデジタル信号に変換するためのアナログデジタル変換器(analog to digital converter、ADC)を含んでよい。場合によっては、その代わりに又は追加として、制御機構120のうちの1つ又は複数に関して論じる特定の構成要素又は機能が画像センサ130内に含まれてよい。画像センサ130は、電荷結合素子(charge-coupled device、CCD)センサ、電子増倍CCD(electron-multiplying CCD、EMCCD)センサ、アクティブ画素センサ(active-pixel sensor、APS)、相補型金属酸化膜半導体(complimentary metal-oxide semiconductor、CMOS)、N型金属酸化膜半導体(N-type metal-oxide-semiconductor、NMOS)、ハイブリッドCCD/CMOSセンサ(例えば、sCMOS)、又はそれらの何らかの他の組み合わせであってよい。
【0039】
[0053] 画像プロセッサ150は、1つ又は複数の画像信号プロセッサ(image signal processors、ISPs)(ISP154を含む)、1つ又は複数のホストプロセッサ(ホストプロセッサ152を含む)、及び/又はコンピューティングシステム1100に関して論じる任意の他のタイプのプロセッサ1110のうちの1つ又は複数などの、1つ又は複数のプロセッサを含んでよい。ホストプロセッサ152は、デジタル信号プロセッサ(digital signal processor、DSP)及び/又は他のタイプのプロセッサであり得る。いくつかの実装形態では、画像プロセッサ150は、ホストプロセッサ152及びISP154を含む単一の集積回路又はチップ(例えば、システムオンチップ又はSoCと呼ばれる)である。場合によっては、チップは、1つ又は複数の入力/出力ポート(例えば、入力/出力(input/output、I/O)ポート156)、中央処理ユニット(central processing units、CPUs)、グラフィックス処理ユニット(graphics processing units、GPUs)、ブロードバンドモデム(例えば、3G、4G又はLTE、5Gなど)、メモリ、接続性構成要素(例えば、Bluetooth(商標)、全地球測位システム(Global Positioning System、GPS)など)、それらの任意の組み合わせ、及び/又は他の構成要素を含んでもよい。I/Oポート156は、インターインテグレーテッドサーキット2(Inter-Integrated Circuit 2、I2C)インターフェース、インターインテグレーテッドサーキット3(Inter-Integrated Circuit 3、I3C)インターフェース、シリアル周辺インターフェース(Serial Peripheral Interface、SPI)インターフェース、シリアル汎用入力/出力(General Purpose Input/Output、GPIO)インターフェース、モバイルインダストリプロセッサインターフェース(Mobile Industry Processor Interface、MIPI)(例えば、MIPI CSI-2物理(physical、PHY)層ポート若しくはインターフェースなど)、高度高性能バス(Advanced High-performance Bus、AHB)バス、それらの任意の組み合わせ、及び/又は他の入力/出力ポートなどの、1つ又は複数のプロトコル又は仕様による、任意の好適な入力/出力ポート又はインターフェースを含み得る。1つの例示的な例では、ホストプロセッサ152は、I2Cポートを使用して画像センサ130と通信することができ、ISP154は、MIPIポートを使用して画像センサ130と通信することができる。
【0040】
[0054] 画像プロセッサ150は、デモザイク処理、色空間変換、画像フレームダウンサンプリング、画素補間、自動露光(automatic exposure、AE)制御、自動利得制御(automatic gain control、AGC)、CDAF、PDAF、自動ホワイトバランス、HDR画像を形成するための画像フレームの統合、画像認識、オブジェクト認識、特徴認識、入力の受け入れ、出力の管理、メモリの管理、又はそれらの何らかの組み合わせなどの、いくつかのタスクを実施してもよい。画像プロセッサ150は、画像フレーム及び/又は処理された画像を、ランダムアクセスメモリ(random access memory、RAM)140及び/若しくは1120、読取り専用メモリ(read-only memory、ROM)145及び/若しくは1125、キャッシュ、メモリユニット、別の記憶デバイス、又はそれらの何らかの組み合わせに記憶してもよい。
【0041】
[0055] 様々な入力/出力(I/O)デバイス160が、画像プロセッサ150に接続されてよい。I/Oデバイス160は、ディスプレイスクリーン、キーボード、キーパッド、タッチスクリーン、トラックパッド、タッチ感知面、プリンタ、任意の他の出力デバイス1135、任意の他の入力デバイス1145、又はそれらの何らかの組み合わせを含み得る。場合によっては、I/Oデバイス160の物理キーボード若しくはキーパッドを通じて、又はI/Oデバイス160のタッチスクリーンの仮想キーボード若しくはキーパッドを通じて、キャプションが画像処理デバイス105Bに入力されてもよい。I/O160は、システム100と1つ又は複数の周辺デバイスとの間の有線接続を可能にする、1つ又は複数のポート、ジャック、又は他のコネクタを含んでよく、システム100は、それを介して、1つ又は複数の周辺デバイスからデータを受信してよく、かつ/又は1つ又は複数の周辺デバイスへデータを送信してよい。I/O160は、システム100と1つ又は複数の周辺デバイスとの間のワイヤレス接続を可能にする、1つ又は複数のワイヤレストランシーバを含んでよく、システム100は、それを介して、1つ又は複数の周辺デバイスからデータを受信してよく、かつ/又は1つ又は複数の周辺デバイスへデータを送信してよい。周辺デバイスは、前に説明したタイプのI/Oデバイス160のうちのいずれかを含んでよく、ポート、ジャック、ワイヤレストランシーバ、又は他の有線及び/若しくはワイヤレスのコネクタに結合されると、それら自体がI/Oデバイス160とみなされてよい。
【0042】
[0056] 場合によっては、画像キャプチャ及び処理システム100は、単一のデバイスであってもよい。場合によっては、画像キャプチャ及び処理システム100は、画像キャプチャデバイス105A(例えば、カメラ)及び画像処理デバイス105B(例えば、カメラに結合されたコンピューティングデバイス)を含む、2つ以上の別々のデバイスであってもよい。いくつかの実装形態では、画像キャプチャデバイス105A及び画像処理デバイス105Bは、例えば、1つ又は複数のワイヤ、ケーブル、若しくは他の電気的なコネクタを介して、かつ/又は1つ又は複数のワイヤレストランシーバを介してワイヤレスに、結合されてよい。いくつかの実装形態では、画像キャプチャデバイス105A及び画像処理デバイス105Bは、互いから切り離されていてよい。
【0043】
[0057]
図1に示すように、垂直の破線は、
図1の画像キャプチャ及び処理システム100を、画像キャプチャデバイス105A及び画像処理デバイス105Bをそれぞれ表す2つの部分へと分割する。画像キャプチャデバイス105Aは、レンズ115と、制御機構120と、画像センサ130とを含む。画像処理デバイス105Bは、画像プロセッサ150(ISP154及びホストプロセッサ152を含む)と、RAM140と、ROM145と、I/O160とを含む。場合によっては、ISP154及び/又はホストプロセッサ152などの、画像キャプチャデバイス105Aに示すいくつかの構成要素は、画像キャプチャデバイス105Aの中に含まれてよい。
【0044】
[0058] 画像キャプチャ及び処理システム100は、モバイル若しくは固定の電話ハンドセット(例えば、スマートフォン、携帯電話など)、デスクトップコンピュータ、ラップトップ若しくはノートブックコンピュータ、タブレットコンピュータ、セットトップボックス、テレビ、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーミングコンソール、ビデオストリーミングデバイス、インターネットプロトコル(Internet Protocol、IP)カメラ、又は任意の他の好適な電子デバイスなどの、電子デバイスを含み得る。いくつかの例では、画像キャプチャ及び処理システム100は、セルラーネットワーク通信、802.11 wi-fi通信、ワイヤレスローカルエリアネットワーク(wireless local area network、WLAN)通信、又はそれらの何らかの組み合わせなどの、ワイヤレス通信のための1つ又は複数のワイヤレストランシーバを含み得る。いくつかの実装形態では、画像キャプチャデバイス105A及び画像処理デバイス105Bは、異なるデバイスであり得る。例えば、画像キャプチャデバイス105Aはカメラデバイスを含んでよく、画像処理デバイス105Bは、モバイルハンドセット、デスクトップコンピュータ、又は他のコンピューティングデバイスなどの、コンピューティングデバイスを含み得る。
【0045】
[0059] 画像キャプチャ及び処理システム100は特定の構成要素を含むものとして示されるが、画像キャプチャ及び処理システム100は
図1に示すものより多数の構成要素を含み得ることを、当業者は理解されよう。画像キャプチャ及び処理システム100の構成要素は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアの1つ又は複数の組み合わせを含み得る。例えば、いくつかの実装形態では、画像キャプチャ及び処理システム100の構成要素は、1つ又は複数のプログラマブル電子回路(例えば、マイクロプロセッサ、GPU、DSP、CPU、及び/又は他の好適な電子回路)を含み得る、電子回路若しくは他の電子ハードウェアを含んでよく、かつ/若しくはそれらを使用して実装されてよく、かつ/又は、本明細書において説明する様々な動作を実施するために、コンピュータソフトウェア、ファームウェア、又はそれらの任意の組み合わせを含んでよく、かつ/若しくはそれらを使用して実装されてよい。ソフトウェア及び/又はファームウェアは、コンピュータ可読記憶媒体上に記憶され、画像キャプチャ及び処理システム100を実装する電子デバイスの1つ又は複数のプロセッサによって実行可能である、1つ又は複数の命令を含み得る。
【0046】
[0060]
図2は、センサによってキャプチャされたメディアを受信し、メディアを修正するプロセスを実行するメディア処理システム200の例示的なアーキテクチャを示すブロック図である。いくつかの例では、メディア処理システム200は、少なくとも1つの画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、又はそれらの組み合わせ(単数又は複数)を含む。いくつかの例では、メディア処理システム200は、少なくとも1つのコンピューティングシステム1100を含む。いくつかの例では、メディア処理システム200は、少なくとも1つのニューラルネットワーク900を含む。
【0047】
[0061] いくつかの例では、メディア処理システム200は、1つ又は複数のユーザ対面センサ205を含む。ユーザ対面センサ205は、ユーザの身体の様相及び/又はユーザによる挙動に関する情報を測定及び/又は追跡するセンサデータをキャプチャする。いくつかの例では、ユーザ対面センサ205は、ユーザの少なくとも一部分に面した1つ又は複数のカメラを含む。1つ又は複数のカメラは、ユーザの少なくとも一部分の画像をキャプチャする1つ又は複数の画像センサを含むことができる。例えば、ユーザ対面センサ205は、ユーザの片眼又は両眼(及び/又は片瞼若しくは両瞼)に焦点を合わせられた1つ又は複数のカメラを含むことができ、カメラの画像センサは、ユーザの片眼又は両眼の画像をキャプチャする。1つ又は複数のカメラは、眼キャプチャ(eye capturing)センサ(単数又は複数)とも呼ばれ得る。いくつかの実装形態では、1つ又は複数のカメラは、経時的に一連の画像をキャプチャすることができ、それらの画像は、いくつかの例では、時間的順序で一緒に、例えばビデオにシーケンス化され得る。これらの一連の画像は、例えば、ユーザの眼(単数又は複数)の運動、瞳孔拡張、(瞼を使用した)瞬き、(瞼を使用して)眼を細めること、サッカード、固視、眼の水分レベル、視運動反射若しくは応答、前庭動眼反射若しくは応答、調節反射若しくは応答、本明細書で説明される眼及び/若しくは瞼に関連する他の属性、又はそれらの組み合わせを描写又は別様に示すことができる。
図2において、1つ又は複数の、ユーザ対面センサ205は、ユーザの眼に面しており、ユーザの眼の画像をキャプチャするカメラとして示されている。
【0048】
[0062] ユーザ対面センサ205は、ユーザの身体及び/又は挙動に関する情報を追跡する1つ又は複数のセンサ、例えば、1つ又は複数のカメラ、画像センサ、マイクロフォン、心拍数モニタ、オキシメータ、バイオメトリックセンサ、測位受信機、全地球航法衛星システム(Global Navigation Satellite System、GNSS)受信機、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、光検出及び測距(light detection and ranging、LIDAR)センサ、電波検出及び測距(radio detection and ranging、RADAR)センサ、音声検出及び測距(sound detection and ranging、SODAR)センサ、音航法及び測距(sound navigation and ranging、SONAR)センサ、飛行時間(time of flight、ToF)センサ、構造化光センサ、本明細書で論じる他のセンサ、又はそれらの組み合わせなどを含み得る。いくつかの例では、1つ又は複数のユーザ対面センサ205は、少なくとも1つの画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、又はそれらの組み合わせ(単数又は複数)を含む。いくつかの例では、1つ又は複数のユーザ対面センサ205は、コンピューティングシステム1100の少なくとも1つの入力デバイス1145を含む。いくつかの実装形態では、ユーザ対面センサ(単数又は複数)205のうちの1つ又は複数は、他のユーザ対面センサ(単数又は複数)205及び/又は環境対面センサ(単数又は複数)210からのセンサ読み取り値を補完又は精緻化してもよい。例えば、慣性測定ユニット(IMUs)、加速度計、ジャイロスコープ、又は他のセンサが、ユーザの注視の決定を精緻化するために注視追跡エンジン270によって使用され得る。
【0049】
[0063] メディア処理システム200の1つ又は複数の環境対面センサ210は、環境に向けられ、方向付けられ、及び/又は集中された1つ又は複数のセンサである。いくつかの例では、1つ又は複数の環境対面センサ210は、ユーザから離れる方に面する。ユーザ対面センサ(単数又は複数)205は、第1の方向に面し、環境対面センサ(単数又は複数)210は、第2の方向に面する。いくつかの例では、第2の方向は第1の方向に平行である。いくつかの例では、第1の方向及び第2の方向は、互いに対して反対方向、反対方向、及び/又は逆方向である。いくつかの例では、1つ又は複数の環境対面センサ210は、ユーザの顔が面している方向に向けられ、方向付けられ、及び/又は面することができる。いくつかの例では、1つ又は複数の環境対面センサ210は、メディア処理システム200(又はその側面)が面している方向に向けられ、方向付けられ、及び/又は面することができる。
【0050】
[0064] 環境対面センサ210は、メディア処理システム200及び/又はユーザの前方及び/又は周囲の実世界環境に関する情報を測定及び/又は追跡するセンサデータをキャプチャする。いくつかの例では、環境対面センサ210は、実世界環境の少なくとも一部分に面した1つ又は複数のカメラを含む。1つ又は複数のカメラは、実世界環境の少なくとも一部分の画像をキャプチャする1つ又は複数の画像センサを含むことができる。例えば、環境対面センサ210は、実世界環境(例えば、メディア処理システム200の周囲)に焦点を合わせた1つ又は複数のカメラを含むことができ、カメラの画像センサは、実世界環境(例えば、周囲)の画像をキャプチャする。そのようなカメラは、経時的に一連の画像をキャプチャすることができ、いくつかの例では、それらの画像は、時間的順序で一緒に、例えばビデオにシーケンス化され得る。これらの一連の画像は、例えば、床、地面、壁、天井、空、水、植物、ユーザ以外の他の人々、ユーザの身体の部分(例えば、腕若しくは脚)、構造物、乗り物、動物、デバイス、他のオブジェクト、又はそれらの組み合わせを描写又は別様に示すことができる。
図2では、1つ又は複数の環境対面センサ210は、家(例えば、構造物)及び人物に面するカメラとして示されている。いくつかの例では、1つ又は複数の環境対面センサ210は、少なくとも1つの画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、又はそれらの組み合わせ(単数又は複数)を含む。いくつかの例では、1つ又は複数の環境対面センサ210は、コンピューティングシステム1100の少なくとも1つの入力デバイス1145を含む。環境対面センサ210は、カメラ、画像センサ、測位受信機、GNSS受信機、IMU、加速度計、ジャイロスコープ、ジャイロメータ、気圧計、温度計、高度計、深度センサ、LIDARセンサ、RADARセンサ、SODARセンサ、SONARセンサ、ToFセンサ、構造化光センサ、本明細書で説明する他のセンサ、又はそれらの組み合わせを含むことができる。
【0051】
[0065] いくつかの実装形態では、環境対面センサ(単数又は複数)210のうちの1つ又は複数は、他のユーザ対面センサ(単数又は複数)205及び/又は環境対面センサ(単数又は複数)210からのセンサ読み取り値を補完又は精緻化してもよい。例えば、カメラ、画像センサ、深度センサ、LIDARセンサ、RADARセンサ、SODARセンサ、SONARセンサ、ToFセンサ、及び/又は構造化光センサからのセンサデータは、環境内のオブジェクトを検出するためにオブジェクト検出エンジン225によって、かつ/又は環境の表現をセグメント化するためにセマンティックセグメント化エンジン230によって、組み合わせられるか、又は別様に一緒に使用され得る。
【0052】
[0066] いくつかの例では、ユーザ入力を更に使用して、環境内のオブジェクトを検出することができる。例示的な例では、タッチスクリーンユーザインターフェースは、環境のプレビュー画像が表示されるタッチスクリーン上の位置におけるユーザタッチ入力を受信することができ、タッチ入力の位置は、プレビュー画像及び/又は他の画像データ及び/又は他のセンサデータ内の対応する位置を、オブジェクトを有する、又はオブジェクトを有する可能性が高い(例えば、オブジェクト認識のための低減された信頼度閾値を有する)ものとして識別するために、オブジェクト検出エンジン225によって使用され得る。別の例示的な例では、マウスユーザインターフェースは、環境のプレビュー画像が表示される画面上の位置でクリック入力を受信することができ、クリック入力の位置は、プレビュー画像及び/又は他の画像データ及び/又は他のセンサデータ内の対応する位置を、オブジェクトを有する、又はオブジェクトを有する可能性が高い(例えば、オブジェクト認識のための低減された信頼度閾値を有する)ものとして識別するために、オブジェクト検出エンジン225によって使用され得る。
【0053】
[0067] いくつかの例では、環境対面センサ(単数又は複数)210のうちの1つ又は複数は、環境からのオーディオを記録し得る1つ又は複数のマイクロフォンを含み得る。いくつかの例では、環境対面センサ(単数又は複数)210のうちの1つ又は複数は、環境内のオーディオの方向及び/又は位置が、異なるマイクロフォンにおいて記録されたオーディオの差から決定され得るように、複数のマイクロフォンを含み得る。いくつかの例では、オーディオを更に使用して、環境内のオブジェクトを検出することができる。例えば、環境対面センサ(単数又は複数)210のマイクロフォン(単数又は複数)が音声を検出した場合、オブジェクト検出エンジン225は、環境内及び/又は画像データ内の人物を検出する可能性を高めることができる。いくつかの例では、オーディオが来ている方向、オーディオ信号が進行している方向、オーディオのロケーション(例えば、三角法を介して決定される)、オーディオの振幅、及び/又はオーディオの周波数などのオーディオの属性は、オブジェクト検出エンジン225にオブジェクトのポジションを示唆することができ、これは、環境のその部分及び/又は環境のその部分を描写する画像データ(例えば、オブジェクト認識のための低減された信頼度閾値を有する)において人物を検出する可能性を増加させることができる。例えば、オーディオの方向及び/又はオーディオのロケーションは、オブジェクトがマイクロフォン(単数又は複数)(及び/又は環境対面センサ(単数又は複数)210又はメディア処理システム200の他の部分)に対して相対的である方向を識別することができる。オーディオのロケーション、オーディオの振幅、及び/又はオーディオの周波数は、オブジェクトがマイクロフォン(単数又は複数)(及び/又は環境対面センサ(単数又は複数)210又はメディア処理システム200の他の部分)に対してどれだけ離れているかを示すことができる。オーディオの周波数は、例えば、ドップラー効果に基づいて、オブジェクトがマイクロフォン(単数又は複数)(及び/又は環境対面センサ(単数又は複数)210若しくはメディア処理システム200の他の部分)に対して移動しているかどうかを示すことができる。かかるインジケーションは、オーディオに基づいて、オブジェクト検出エンジン225によって使用され、例えば、方向(例えば、画像内のどこでオブジェクトを探すか)、距離(例えば、前景又は背景内のオブジェクトを探すかどうか)、速度(例えば、オブジェクトがモーションブラーを含み得るかどうか)、又はそれらの組み合わせに基づいて、画像データ及び/又は他のセンサデータ内の対応する位置を、オブジェクトを有する、又はオブジェクトを有する可能性が高い(例えば、オブジェクト認識のための低減された信頼度閾値を有する)ものとして識別することができる。
【0054】
[0068] いくつかの例では、メディア処理システム200は、仮想コンテンツを生成する仮想コンテンツ生成器215を含む。仮想コンテンツは、二次元(two-dimensional、2D)形状、三次元(three-dimensional、3D)形状、2Dオブジェクト、3Dオブジェクト、2Dモデル、3Dモデル、2Dアニメーション、3Dアニメーション、2D画像、3D画像、テクスチャ、他の画像の一部、文字、文字列、又はそれらの組み合わせを含むことができる。
図2において、仮想コンテンツ生成器215によって生成された仮想コンテンツは、四面体として示されている。いくつかの例では、仮想コンテンツ生成器215は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのメディア処理システム200の1つ又は複数のプロセッサ上で実行される、1つ又は複数のプログラムに対応する1つ又は複数の命令セットなどの1つ又は複数のソフトウェア要素を含む。いくつかの例では、仮想コンテンツ生成器215は、1つ又は複数のハードウェア要素を含む。例えば、仮想コンテンツ生成器215は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、仮想コンテンツ生成器215は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0055】
[0069] いくつかの例では、メディア処理システム200は、メディアを出力するように構成されており、メディアを出力することができる1つ又は複数の出力デバイス240を含む。いくつかの例では、出力デバイス(単数又は複数)240は、画像及び/又はビデオなどの視覚媒体を表示するように構成されており、表示することができるディスプレイ(単数又は複数)を含む。いくつかの例では、出力デバイス(単数又は複数)240は、ラウドスピーカ若しくはヘッドホン、又はメディア処理システム200をラウドスピーカ若しくはヘッドホンに結合するように構成されたコネクタなどのオーディオ出力デバイス(単数又は複数)を含む。オーディオ出力デバイス(単数又は複数)は、音楽、効果音、ビデオに対応するオーディオトラック、(例えば、ユーザ対面センサ(単数又は複数)205、環境対面センサ(単数又は複数)210、及び/又はメディア処理システム200の追加のセンサ(単数又は複数)の)マイクロフォン(単数又は複数)によって記録された録音、又はそれらの組み合わせなどのオーディオメディアを再生するように構成されており、再生することができる。出力デバイス(単数又は複数)240は、環境の表現(例えば、環境対面センサ(単数又は複数)210によってキャプチャされるような)、仮想コンテンツ(例えば、仮想コンテンツ生成器215によって生成されるような)、環境の表現と仮想コンテンツとの組み合わせ(例えば、合成器220によって生成されるような)、環境の表現(単数又は複数)及び/若しくは仮想コンテンツ並びに/又は組み合わせに対する修正(単数又は複数)(例えば、メディア修正エンジン235によって生成されるような)、あるいはそれらの組み合わせを含むメディアを出力してもよい。いくつかの例では、出力デバイス(単数又は複数)240は、メディア処理システム200のユーザに面することができる。例えば、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、メディア処理システム200のユーザに面することができ、かつ/又はメディア処理システム200のユーザに対して(例えば、ユーザに向かって)視覚メディアを表示することができる。同様に、出力デバイス(単数又は複数)240のオーディオ出力デバイス(単数又は複数)は、メディア処理システム200のユーザに面することができ、かつ/又はメディア処理システム200のユーザに対して(例えば、向かって)オーディオメディアを再生することができる。いくつかの例では、出力デバイス(単数又は複数)240は出力デバイス1135を含む。いくつかの例では、出力デバイス1135は、出力デバイス(単数又は複数)240を含むことができる。
【0056】
[0070] メディア処理システム200は、合成器220を含む。合成器220は、仮想コンテンツ(例えば、仮想コンテンツ生成器215によって生成される)を環境の表現(単数又は複数)と構成し、合成し、かつ/又は組み合わせる。いくつかの例では、環境の表現(単数又は複数)は、環境対面センサ(単数又は複数)210によってキャプチャされる。いくつかの例では、環境の表現(単数又は複数)は、メディア処理システム200の一部を介して(例えば、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)の少なくとも一部分を介して)ユーザに到達する環境からの光に基づいてユーザに可視である。
【0057】
[0071] いくつかの例では、メディア処理システム200の出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、メディア処理システム200の周囲の実世界環境(場面)からの光が出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を横切って(例えば、通過して)ユーザの片眼又は両眼に到達することを可能にする光学「シースルー」ディスプレイ(単数又は複数)として機能する。例えば、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、少なくとも部分的に透明、半透明、光許容性、光透過性、又はそれらの組み合わせであり得る。例示的な例では、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、透明、半透明、及び/又は光透過性レンズと、プロジェクタと、を含む。出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、仮想コンテンツをレンズ上に投影するプロジェクタを含むことができる。レンズは、例えば、眼鏡のレンズ、ゴーグルのレンズ、コンタクトレンズ、ヘッドマウントディスプレイ(HMD)デバイスのレンズ、又はそれらの組み合わせであってもよい。実世界環境からの光は、レンズを通過し、ユーザの片眼又は両眼に到達する。投影器が仮想コンテンツをレンズ上に投影するので、仮想コンテンツは、ユーザの眼の一方又は両方の視点から、ユーザの環境のビューの上にオーバーレイされるように見える。合成器220は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)によってレンズ上に投影される仮想コンテンツの位置決めを制御する表示設定を決定及び/又は修正することができる。
【0058】
[0072] いくつかの例では、メディア処理システム200の出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、光学シースルーディスプレイに関して上述したレンズのないプロジェクタ(単数又は複数)を含む。かかる例では、出力デバイス(単数又は複数)240は、プロジェクタ(単数又は複数)を使用して、仮想コンテンツをユーザの片眼又は両眼に投影することができる。いくつかの例では、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)のプロジェクタは、ユーザの片眼又は両眼の網膜の一方又は両方に仮想コンテンツを投影することができる。かかる例では、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、光学シースルーディスプレイ、仮想網膜ディスプレイ(virtual retinal display、VRD)、網膜操作ディスプレイ(retinal scan display、RSD)、又は網膜プロジェクタ(retinal projector、RP)ディスプレイと称されることがある。かかる例では、実世界環境(場面)からの光は、依然としてユーザの片眼又は両眼に到達する。投影器が仮想コンテンツをユーザの片眼又は両眼に投影するので、仮想コンテンツは、ユーザの眼の一方又は両方の視点からの環境のユーザのビューの上にオーバーレイされるように見える。合成器220は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)によってユーザの眼(単数又は複数)上に投影される仮想コンテンツの位置決めを制御する、表示設定を決定及び/又は修正することができる。
【0059】
[0073] いくつかの例では、メディア処理システム200の出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)に環境のビューを表示することによって、メディア処理システム200のユーザが環境のビューを見ることを可能にするデジタル「パススルー」ディスプレイである。デジタルパススルーディスプレイ上に表示される環境のビューは、例えば、メディア処理システム200の1つ又は複数の環境対面センサ210によってキャプチャされたセンサデータ(例えば、画像、ビデオ、深度画像、ポイントクラウド、他の深度データ、又はそれらの組み合わせ)に基づく、メディア処理システム200の周囲の実世界環境のビューであり得る。いくつかの例では、デジタルパススルーディスプレイ上に表示される環境のビューは、環境のビューに組み込まれる仮想コンテンツ(例えば、仮想コンテンツ生成器215によって生成される)及び/又は修正(例えば、メディア修正エンジン235による)を含むことができる。
【0060】
[0074] パススルーディスプレイに表示される環境のビューは、実世界環境とは別個であるが実世界環境に基づく、仮想環境又は混合環境のビューであり得る。例えば、仮想環境又は混合環境は、仮想オブジェクト及び/又は背景を含むことができるが、ユーザ及びメディア処理システム200が存在する実世界環境内の空間のエリア及び/又は体積の寸法に基づく寸法を有する空間のエリア及び/又は体積にマッピングされてもよい。メディア処理システム200は、ユーザ及びメディア処理システム200が存在する実世界環境内の空間のエリア及び/又は体積の寸法を決定することができる。いくつかの実装形態では、メディア処理システム200の環境対面センサ(単数又は複数)210は、環境(例えば、メディア処理システム200の周囲)の画像をキャプチャするカメラ及び/又は画像センサ、及び/又は環境の深度データ(例えば、ポイントクラウド、深度画像)をキャプチャする深度センサ(例えば、LIDAR、RADAR、SONAR、SODAR、ToF、構造化光)を含むことができる。これは、ユーザが出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示された仮想環境又は混合環境を探索している間に、ユーザが誤って階段のセットを降りたり、壁又は障害物にぶつかったり、又は別様で、実世界環境との否定的な相互作用及び/又は潜在的に危険な相互作用を有したりしないことを確実にすることができる。
【0061】
[0075] メディア処理システム200は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)がデジタルパススルーディスプレイである例では、合成器220を使用して、仮想コンテンツ生成器215によって生成された仮想コンテンツを、環境対面センサ(単数又は複数)210を使用してキャプチャされた環境の少なくとも一部分の上にオーバーレイすることができる。いくつかの例では、合成器220は、仮想コンテンツが、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を見ているユーザの片眼又は両眼の視点から、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の残りの部分の完全に前にあるように見えるように、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の上に完全に仮想コンテンツをオーバーレイすることができる。いくつかの例では、合成器220は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を見ているユーザの片眼又は両眼の視点から、仮想コンテンツが、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の一部の部分の前にあるが、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の他の部分の後ろにあるように見えるように、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の部分の上に仮想コンテンツの少なくとも一部分をオーバーレイすることができる。したがって、合成器220は、仮想コンテンツにシミュレートされた深度を提供し、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)上に表示される環境の部分を仮想コンテンツの部分の上にオーバーレイすることができる。
【0062】
[0076] メディア処理システム200は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)が光学シースルーディスプレイである例では、合成器220を使用して、実世界環境の一部が仮想コンテンツ生成器215によって生成された仮想コンテンツによってオーバーレイされないようにすることができる。いくつかの例では、合成器220は、仮想コンテンツが、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を視認するユーザの片眼又は両眼の視点から、実世界環境の少なくとも一部分の背後にあるように見えるように、ディスプレイ上の実世界環境の上に部分的にのみ仮想コンテンツをオーバーレイすることができる。いくつかの例では、合成器220は、仮想コンテンツが、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を視認するユーザの片眼又は両眼の視点から、実世界環境の少なくとも一部分の背後かつ実世界環境の他の部分の前にあるように見えるように、ディスプレイ上の実世界環境の上に部分的にのみ仮想コンテンツをオーバーレイすることができる。したがって、合成器220は、仮想コンテンツにシミュレートされた深度を提供し、実世界環境の部分が仮想コンテンツによってオーバーレイされないようにすることができる。環境に対する仮想コンテンツの位置決めは、表示設定(例えば、第1の表示設定、第2の表示設定)によって識別及び/又は示されることができる。合成器220は、表示設定を決定及び/又は修正することができる。
【0063】
[0077] 出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)が光学シースルーディスプレイであるかデジタルパススルーディスプレイであるかにかかわらず、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)は、場合によっては、環境、仮想コンテンツ、及び/又は修正の3Dビューをユーザに提供することができる。例えば、メディア処理システム200は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)がユーザに3Dビューを提供するように、場合によっては仮想コンテンツ及び/又は修正が組み込まれた環境の立体視ビューを提供するために、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)に、ユーザの2つの眼の各々に対して2つのわずかに異なる視点を出力することができる。
【0064】
[0078] メディア処理システム200の合成器220は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)の表示設定(例えば、第1の表示設定)を決定することができる。出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)がデジタル「パススルー」ディスプレイであるメディア処理システム200において、合成器220は、(例えば、環境対面センサ210からのセンサデータに基づいて)環境のビューを、仮想コンテンツ生成器215によって生成された仮想コンテンツと構成し、合成し、かつ/又は組み合わせる画像を生成することができる。合成器220によって生成される表示設定は、仮想コンテンツの、並びに/又は仮想コンテンツの特定の要素若しくは部分の、位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、レイアウト、及び/若しくは仮想コンテンツの他の性質を示すことができる。出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)が光学「シースルー」ディスプレイであるメディア処理システム200では、合成器220は、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)によって表示されるような(例えば、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)のプロジェクタ(単数又は複数)によってレンズ(単数又は複数)及び/又は眼(単数又は複数)上に投影されるような)仮想コンテンツ及び/又は仮想コンテンツの特定の要素又は部分の位置、向き、深度、サイズ、色、フォントサイズ、フォント色、テキスト言語、及び/又は他の特性を示す表示設定を生成することができる。
図2において、合成器220は、(四面体によって表される)仮想コンテンツを(家及び人物によって表される)環境のビューに追加するものとして示されている。
図2において、出力デバイス(単数又は複数)240は、仮想コンテンツ(四面体によって表される)及び環境のビュー(家及び人物によって表される)の両方のビューを表示及び/又は提供するディスプレイ、並びにこれらの一方又は両方に対応するオーディオを出力するスピーカとして示されている。
【0065】
[0079] いくつかの例では、合成器220は、環境対面センサ(単数又は複数)210からのセンサデータ、仮想コンテンツ生成器215によって生成された仮想コンテンツ、及び/又は注視追跡エンジン270からの注視データを入力として受信するMLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)を含む。MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、環境対面センサ(単数又は複数)210からのセンサデータの少なくとも一部分及び仮想コンテンツの少なくとも一部分を含む結合メディアを出力する。場合によっては、MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、注視データに基づいて仮想コンテンツを位置決めすることができる。いくつかの例では、合成器220のMLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のニューラルネットワーク(neural network、NNs)(例えば、ニューラルネットワーク900)、1つ又は複数の畳み込みニューラルネットワーク(convolutional neural networks、CNNs)、1つ又は複数の訓練された時間遅延ニューラルネットワーク(time delay neural networks、TDNNs)、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のディープビリーフネット(deep belief nets、DBNs)、1つ又は複数の回帰型ニューラルネットワーク(recurrent neural networks、RNNs)、1つ又は複数の敵対的生成ネットワーク(generative adversarial networks、GANs)、1つ又は複数の他のタイプのニューラルネットワーク、1つ又は複数の訓練されたサポートベクターマシン(support vector machines、SVMs)、1つ又は複数の訓練されたランダムフォレスト(random forests、RFs)、1つ又は複数のコンピュータビジョンシステム、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含み得る。
【0066】
[0080] いくつかの例では、合成器220は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、合成器220は、1つ又は複数のハードウェア要素を含む。例えば、合成器220は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、合成器220は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0067】
[0081] メディア処理システム200は、オブジェクト検出エンジン225を含む。いくつかの例では、オブジェクト検出エンジン225は、環境対面センサ(単数又は複数)210、仮想コンテンツ生成器215、及び/又は合成器220から視覚メディアデータ(例えば、画像、ビデオ)を受信する。オブジェクト検出エンジン225は、1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を検出、認識、分類、及び/又は追跡する。オブジェクト検出エンジン225は、1つ又は複数の訓練された機械学習(ML)モデルを有する1つ又は複数のMLシステムを含むことができる。オブジェクト検出エンジン225は、特徴検出、特徴抽出、特徴認識、特徴追跡、オブジェクト検出、オブジェクト認識、オブジェクト追跡、顔検出、顔認識、顔追跡、人物検出、人物認識、人物追跡、動物検出、動物認識、動物追跡、デバイス検出、デバイス認識、デバイス追跡、乗り物検出、乗り物認識、乗り物追跡、分類、又はそれらの組み合わせを実行することができる。オブジェクト検出エンジン225は、視覚メディアデータを訓練されたMLモデル(単数又は複数)に入力し、訓練されたMLモデル(単数又は複数)の出力として、特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)の検出を受信することによって、これらの動作を実行することができる。この検出は、視覚メディアデータにおいて、特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)が位置するロケーション及び/又は領域を識別することができる。
【0068】
[0082] オブジェクト検出エンジン225のMLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のNN、1つ又は複数のCNN、1つ又は複数のTDNN、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のDBN、1つ又は複数のRNN、1つ又は複数のGAN、1つ又は複数の訓練されたSVM、1つ又は複数の訓練されたRF、1つ又は複数のコンピュータビジョンシステム、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含んでもよい。いくつかの例では、オブジェクト検出エンジン225は、視覚メディアデータ内の特徴単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)の各検出に関連付けられた信頼レベルを生成し、信頼レベルが所定の信頼レベル閾値を満たすか又は超える場合、検出を(例えば、セマンティックセグメント化エンジン230及び/又はメディア修正エンジン235に)報告する。
【0069】
[0083] いくつかの例では、オブジェクト検出エンジン225は、環境対面センサ(単数又は複数)210、仮想コンテンツ生成器215、及び/又は合成器220のマイクロフォン(単数又は複数)からオーディオメディアデータ(例えば、サウンドクリップ、音楽クリップ、オーディオサンプル、及び/又は録音)を受信する。オブジェクト検出エンジン225は、オーディオメディアデータ内の1つ又は複数のサウンドクリップ、音楽クリップ、オーディオサンプル、及び/又はオーディオ記録を検出、認識、分類、及び/又は追跡する。いくつかの例では、オブジェクト検出エンジン225は、特定のオブジェクト(例えば、人物、乗り物、デバイス、又は他のオブジェクト)に対応するオーディオを検出、認識、分類、及び/又は追跡する。オブジェクト検出エンジン225は、1つ又は複数の訓練された機械学習(ML)モデルを有する1つ又は複数のMLシステムを含むことができる。オブジェクト検出エンジン225は、オーディオ特徴検出、オーディオ特徴抽出、オーディオ特徴認識、オーディオ特徴追跡、音声検出、音声認識、音声追跡、デバイスサウンド検出、デバイスサウンド認識、デバイスサウンド追跡、動物サウンド検出、動物サウンド認識、動物サウンド追跡、動物検出、乗り物サウンド認識、乗り物サウンド追跡、乗り物サウンド検出、乗り物サウンド認識、乗り物サウンド追跡、オブジェクトサウンド検出、オブジェクトサウンド認識、オブジェクトサウンド追跡、分類、又はそれらの組み合わせを実行することができる。オブジェクト検出エンジン225は、オーディオメディアデータを訓練されたMLモデル(単数又は複数)に入力し、訓練されたMLモデル(単数又は複数)の出力として、オーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音の検出を受信することによって、これらの動作を実行することができる。この検出は、オーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音が発生する、オーディオメディアデータ内の音のオーディオ特性(例えば、周波数及び/又は振幅及び/又は音方向)及び/又は時間(単数又は複数)を識別することができる。
図2において、オブジェクト検出エンジン225は、メディア内の人物の周りのバウンディングボックスとして示されているが、家又は四面体の周りでは示されていない。
【0070】
[0084] MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のNN、1つ又は複数のCNN、1つ又は複数のTDNN、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のDBN、1つ又は複数のRNN、1つ又は複数のGAN、1つ又は複数の訓練されたSVM、1つ又は複数の訓練されたRF、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含み得る。いくつかの例では、オブジェクト検出エンジン225は、オーディオメディアデータ内のオーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音の各検出に関連付けられた信頼レベルを生成し、信頼レベルが所定の信頼レベル閾値を満たすか又は超える場合、検出を(例えば、セマンティックセグメント化エンジン230及び/又はメディア修正エンジン235に)報告する。
【0071】
[0085] いくつかの例では、オブジェクト検出エンジン225は、注視追跡エンジン270から注視データを受信し、オブジェクト検出エンジン225のMLシステム及び/又は訓練されたMLモデル(単数又は複数)への入力として注視データを使用する。注視データが、ユーザが環境の特定の領域を見ていることを示す場合、オブジェクト検出エンジン225は、環境のその領域に対するオブジェクト検出エンジン225の信頼度閾値を低減することができ、その結果、オブジェクト検出エンジン225は、信頼度が所定の低減された信頼度閾値を満たすか又は超える場合、たとえそれが標準信頼度閾値を満たさないか又は超えない場合であっても、領域内のオブジェクト(単数又は複数)の検出を示す。
【0072】
[0086] いくつかの例では、オブジェクト検出エンジン225は、ユーザの手及び/又は足のうちの1つ又は複数などのユーザの身体の部分(単数又は複数)を検出、認識、及び/又は追跡する。いくつかの例では、ユーザの手又は足は、オブジェクト検出エンジン225によってメディア内で検出されるオブジェクト(単数又は複数)のうちの1つであり得る。いくつかの例では、オブジェクト検出エンジン225は、ユーザの手(単数又は複数)によって保持及び/又はタッチされる1つ又は複数のオブジェクトを検出、認識、及び/又は追跡する。いくつかの例では、オブジェクト検出エンジン225は、ユーザの片足又は両足上に立った及び/又はユーザの片足又は両足によってタッチされた1つ又は複数のオブジェクトを検出、認識、及び/又は追跡する。いくつかの例では、オブジェクト検出エンジン225は、ユーザの1つ又は複数の手又は足を使用して、ユーザが指し示す1つ又は複数のオブジェクト及び/又はそれに向かうジェスチャを検出、認識、及び/又は追跡する。いくつかの例では、オブジェクト検出エンジン225は、ユーザの1つ又は複数の手又は足が保持している、触れている、指している、向かってジェスチャを行っている、又はそれらの組み合わせである環境の領域に対するオブジェクト検出エンジン225の信頼度閾値を低減することができる。したがって、オブジェクト検出エンジン225は、信頼度が所定の低減された信頼度閾値を満たすか又は超える場合、たとえ信頼度が標準信頼度閾値を満たさないか又は超えない場合であっても、領域内のオブジェクト(単数又は複数)の検出を示すことができる。
【0073】
[0087] いくつかの例では、オブジェクト検出エンジン225は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令のセットなどのソフトウェア要素を含む。いくつかの例では、オブジェクト検出エンジン225は、1つ又は複数のハードウェア要素を含む。例えば、オブジェクト検出エンジン225は、コンピューティングシステム1100のプロセッサ1110などのプロセッサ、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせを含むことができる。いくつかの例では、オブジェクト検出エンジン225は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0074】
[0088] メディア処理システム200は、セマンティックセグメント化エンジン230を含む。セマンティックセグメント化エンジン230は、メディア(例えば、環境対面センサ(単数又は複数)210によってキャプチャされたメディア、仮想コンテンツ生成器215によって生成された仮想コンテンツ、及び/又は合成器220によって生成された結合メディア)をセグメントに分割する。いくつかの例では、セマンティックセグメント化エンジン230は、オブジェクト検出エンジン225によって視覚メディアデータ内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)のロケーション(単数又は複数)に基づいて、メディアをセグメント又は領域に分割することができる。例えば、セマンティックセグメント化エンジン230は、1つ又は複数の画像を第1の領域及び第2の領域に分割することができる。第1の領域は、オブジェクト検出エンジン225によって視覚メディアデータ内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を含む。第2の領域は、オブジェクト検出エンジン225によって視覚メディアデータ内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を欠いている(含まない、かつ/又は欠落している)。
【0075】
[0089] いくつかの例では、セマンティックセグメント化エンジン230は、オブジェクト検出エンジン225によってオーディオメディアデータ内で検出されたオーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)(、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音(単数又は複数)のロケーション(単数又は複数)及び/又は方向(単数又は複数)に基づいて、メディアをセグメント又は領域に分割することができる。例えば、セマンティックセグメント化エンジン230は、1つ又は複数の画像を第1の領域及び第2の領域に分割することができる。第1の領域は、オブジェクト検出エンジン225によってオーディオメディアデータ内で検出されたオーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音(単数又は複数)のロケーション(単数又は複数)及び/又は方向(単数又は複数)を含む。第2の領域は、オブジェクト検出エンジン225によってオーディオメディアデータ内で検出されたオーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応する音(単数又は複数)のロケーション(単数又は複数)及び/又は方向(単数又は複数)を欠いている(含まない、かつ/又は欠落している)。
図2において、セマンティックセグメント化エンジン230は、人物、家、及び四面体(仮想コンテンツ)の周囲の別個の領域を定義する別個のボックスを含むものとして示されている。
【0076】
[0090] いくつかの例では、領域は二次元(2D)であり、例えば、メディアは二次元画像、ビデオ、又は他のメディアを含む。いくつかの例では、領域は、例えば、正方形、長方形、四辺形、三角形、五角形、六角形、又は別の多角形形状である、多角形形状を有する、又は含む。いくつかの例では、領域は、例えば、円形、楕円形、又は別の丸みを帯びた形状である、丸みを帯びた形状を有する、又は含む。いくつかの例では、領域は、例えば三次元(3D)であり、メディアは、三次元深度画像、ポイントクラウド、ビデオ深度データ、又は他のメディアを含む。いくつかの例では、領域は、例えば、立方体、長方形プリズム、四辺形プリズム、三角形プリズム、五角形プリズム、六角形プリズム、四面体、角錐、又は別の多面体形状を含む、多面体形状を有するか、又は含む。いくつかの例では、領域は、例えば、球体、楕円体、円筒、円錐、又は別の丸みを帯びた形状を含む、丸みを帯びた3D形状を有するか、又は含む。いくつかの例では、メディア内の領域の境界は、オブジェクト検出エンジン225によってメディア内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)のメディア内の境界であるか、又はそれに基づく。いくつかの例では、メディア内の領域の境界は、メディアの分数又は小数のセマンティックセグメント化、例えば、左半分及び右半分、又は上半分及び下半分、又は対角半分、又は象限、又は水平若しくは垂直3分の1、又は別の同様のセマンティックセグメント化に基づく。いくつかの例では、媒体内の領域の境界は、媒体の中心領域及び/又は中心領域の周りの周辺領域に基づく。いくつかの例では、メディア内の領域の境界は、注視追跡エンジン270からの注視データに基づき、注視追跡エンジン270に従ってユーザが見ている注視領域と、注視領域の周りの周辺領域とに基づく。周辺領域は、いくつかの例では、ユーザの周辺視野内にあり得る。周辺領域は、いくつかの例では、ユーザの視野の外側であり得る。
【0077】
[0091] いくつかの例では、セマンティックセグメント化エンジン230は、MLシステム及び/又は訓練されたMLモデルを含むことができる。いくつかの例では、セマンティックセグメント化エンジン230は、メディアデータ、オブジェクト検出エンジン225からのオブジェクト検出データ、及び/又は注視追跡エンジン270からの注視データを訓練されたMLモデル(単数又は複数)に入力し、訓練されたMLモデル(単数又は複数)の出力として、セマンティックセグメント化から生じる異なる領域、又は領域の位置及び/若しくは境界のインジケーションを受信することによって、これらのセマンティックセグメント化動作を実行することができる。MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のNN、1つ又は複数のCNN、1つ又は複数のTDNN、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のDBN、1つ又は複数のRNN、1つ又は複数のGAN、1つ又は複数の訓練されたSVM、1つ又は複数の訓練されたRF、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含み得る。いくつかの例では、セマンティックセグメント化エンジン230は、領域へのセマンティックセグメント化に関連付けられた信頼レベルを生成する。いくつかの例では、信頼レベルが所定の信頼レベル閾値を満たすか又は超える場合、セマンティックセグメント化エンジン230は、領域又はそのインジケーションを出力する。
【0078】
[0092] いくつかの例では、セマンティックセグメント化エンジン230は、注視追跡エンジン270から注視データを受信し、その注視データを、セマンティックセグメント化エンジン230のMLシステム及び/又は訓練されたMLモデル(単数又は複数)への入力として使用する。注視データが、ユーザが環境の特定の領域を見ていることを示す場合、セマンティックセグメント化エンジン230は、その領域が、セマンティックセグメント化エンジン230がメディアをセグメント化する領域のうちの1つであるか、それを含むか、又はそれによって含まれるように、メディアをセグメント化することができる。いくつかの例では、ユーザが環境の特定の領域を見ていることを注視データが示す場合、セマンティックセグメント化エンジン230は、環境のその領域に基づいて、セマンティックセグメント化のためのセマンティックセグメント化エンジン230の信頼度閾値を低減することができる。
【0079】
[0093] いくつかの例では、セマンティックセグメント化エンジン230は、オブジェクト検出エンジン225からデータを受信することができ、ユーザの1つ又は複数の手又は足が保持している、タッチしている、指している、ジェスチャしている、又はそれらの組み合わせである環境の領域(単数又は複数)の検出に基づいて、メディアをセグメントに分割することができる。例えば、セマンティックセグメント化エンジン230は、メディアを第1の領域及び第2の領域に分割することができる。第1の領域は、ユーザの1つ又は複数の手又は足が保持しているか、触れているか、指しているか、ジェスチャしているか、又はそれらの組み合わせである環境の領域(単数又は複数)を含む。第2の領域は、ユーザの1つ又は複数の手又は足が保持しているか、触れているか、指しているか、ジェスチャしているか、又はそれらの組み合わせである環境の領域(単数又は複数)を欠いている(含まない、かつ/又は欠落している)。
【0080】
[0094] いくつかの例では、セマンティックセグメント化エンジン230は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令のセットなどのソフトウェア要素を含む。いくつかの例では、セマンティックセグメント化エンジン230は、1つ又は複数のハードウェア要素を含む。例えば、セマンティックセグメント化エンジン230は、コンピューティングシステム1100のプロセッサ1110などのプロセッサ、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせを含むことができる。いくつかの例では、セマンティックセグメント化エンジン230は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0081】
[0095] メディア処理システム200は、メディア修正エンジン235を含む。メディア修正エンジン235は、メディア処理システム200の出力デバイス(単数又は複数)240及び/又はトランシーバ(単数又は複数)245を使用してメディアが出力される前にメディアを修正する。メディア修正エンジン235によって修正されたメディアは、環境対面センサ(単数又は複数)210によってキャプチャされたメディア、仮想コンテンツ生成器215によって生成された仮想コンテンツ、及び/又は合成器220によって生成された組み合わされたメディアを含み得る。メディア修正エンジン235は、場合によってはメディアの他の部分(単数又は複数)を不明瞭にし、かつ/又は減衰させることなく、メディアの部分(単数又は複数)を不明瞭にし、かつ/又は減衰させるようにメディアの部分(単数又は複数)を修正することができる。媒体の部分(単数又は複数)は、媒体の領域、サブセット、エリア、及び/又は様相と称されることがある。
【0082】
[0096] メディア修正エンジン235は、例えば、セマンティックセグメント化エンジン230、オブジェクト検出エンジン225、又は両方からの情報に基づいて、メディアの1つ又は複数の第2の領域(単数又は複数)を修正することなく、メディアの視覚メディアデータ(例えば、画像(単数又は複数)、ビデオ(単数又は複数))の1つ又は複数の第1の領域(単数又は複数)を修正することができる。例えば、メディア修正エンジン235は、視覚メディアデータの第2の領域(単数又は複数)を不明瞭にすることなく、視覚メディアデータの第1の領域(単数又は複数)を不明瞭にするように、視覚メディアデータの第1の領域(単数又は複数)を修正することができる。第1の領域(単数又は複数)及び第2の領域(単数又は複数)は、オブジェクト検出エンジン225及び/又はセマンティックセグメント化エンジン230を使用して識別することができる。1つの例示的な例では、第1の領域(単数又は複数)は、オブジェクト検出エンジン225によってメディア内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を含むが、第2の領域(単数又は複数)は、かかる検出(単数又は複数)を欠く(含まない)。別の例示的な例では、第2の領域(単数又は複数)は、オブジェクト検出エンジン225によってメディア内で検出された1つ又は複数の特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を含むが、第1の領域(単数又は複数)は、かかる検出(単数又は複数)を欠く(含まない)。したがって、いくつかの例では、メディア修正エンジン235は、検出された特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を含む領域を不明瞭にする一方で、他の領域を不明瞭にしないままにする。いくつかの例では、メディア修正エンジン235は、検出された特徴(単数又は複数)、オブジェクト(単数又は複数)、顔(単数又は複数)、人物(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)を含む領域を不明瞭にしないままにし、他の領域を不明瞭にする。
【0083】
[0097] メディア修正エンジン235は、種々の方法でメディアの視覚メディアデータの領域(単数又は複数)を不明瞭にすることができる。例えば、メディア修正エンジン235は、領域(単数又は複数)をぼかすこと、領域(単数又は複数)をスクランブルすること、領域(単数又は複数)を画素化すること、領域(単数又は複数)を画素にすること、領域(単数又は複数)をモザイク化すること、領域(単数又は複数)をクロップすること、画像圧縮及び/又はビデオ圧縮技法を使用して視覚メディアデータの他の領域(単数又は複数)よりも強く領域(単数又は複数)を圧縮すること、視覚メディアデータの他の領域(単数又は複数)の解像度と比較して領域(単数又は複数)の画像解像度を低下させること、画像圧縮及び/又はビデオ圧縮中に視覚メディアデータの他の領域(単数又は複数)よりも強く領域(単数又は複数)を量子化すること、領域(単数又は複数)を除去すること、領域(単数又は複数)を他のデータ(例えば、色、パターン、別の画像)で置き換えること、領域(単数又は複数)を修復すること(例えば、1つ又は複数の周囲の画素及び/又は領域に基づく補間を使用して)、又はそれらの組み合わせによって、視覚メディアデータの領域(単数又は複数)を不明瞭にすることができる。いくつかの例では、メディア修正エンジン235は、視覚メディアデータの領域(単数又は複数)を、不明瞭にされた領域と不明瞭にされていない領域との間の明確で鮮明な境界で不明瞭にすることができる。いくつかの例では、メディア修正エンジン235は、例えば
図7Bに示すように、不明瞭にされた領域と不明瞭にされていない領域との間の緩やかな勾配の境界を用いて、視覚メディアデータの領域(単数又は複数)を不明瞭にすることができる。いくつかの例では、メディア修正エンジン235は、フォービエイテッド圧縮、フォービエイテッドぼかし、フォービエイテッド解像度低減、フォービエイテッド画素化、フォービエイテッドシェーディング、他のフォービエイテッド画像処理、又はそれらの組み合わせを使用して、視覚メディアデータの領域(単数又は複数)を不明瞭にすることができる。例えば、メディア修正エンジン235が、視覚メディアデータの1つ又は複数の第2の領域(単数又は複数)を修正することなく、メディアの視覚メディアデータ(例えば、画像(単数又は複数)、ビデオ(単数又は複数))の1つ又は複数の第1の領域(単数又は複数)を修正することができる実施形態では、1つ又は複数の第2の領域(単数又は複数)は、固視点、例えば、以下で詳細に説明する注視追跡エンジン270によって決定されたユーザ205の眼(単数又は複数)による固視(単数又は複数)を含むことができ、1つ又は複数の第1の領域(単数又は複数)は、固視点の周りの周辺エリアを含むことができ、この場合、メディア修正エンジン235は、固視点の周りの周辺エリアのフォービエイテッド圧縮を使用して視覚メディアデータを修正することによって、1つ又は複数の第1の領域(単数又は複数)を不明瞭にするように視覚メディアデータを修正することができる。
図2において、セマンティックセグメント化エンジン230は、家及び四面体(仮想コンテンツ)を画素化し、かつ/又は画素にしているが、人物はそうでないものとして示されている。
【0084】
[0098] いくつかの例では、視覚メディアデータの領域(単数又は複数)を不明瞭にするために、メディアの領域(単数又は複数)の増大圧縮、増加した量子化、解像度低減、クロップ、及び/又は画素化を使用することは、帯域幅節約、記憶空間節約、及び/又は電力節約をもたらすことができる。例えば、修正されたメディアは、記憶及び/又は送信するためにより少ないデータ(例えば、より少ない数のビット)を必要とする場合があり、したがって、メディア処理システム200内で及び/又はメディア処理システム200から受信者デバイスへメディアを転送する際に帯域幅が節約され得る。修正されたメディアはまた、符号化及び/又は復号化するためにより少ないエネルギーを必要とし得、したがって、(例えば、修正されたメディアを記憶するために)符号化側と(例えば、修正されたメディアを表示及び/又は再生するために)復号化側の両方で電力が節約され得る。
【0085】
[0099] メディア修正エンジン235は、例えば、セマンティックセグメント化エンジン230、オブジェクト検出エンジン225、又は両方からの情報に基づいて、メディアのオーディオメディアデータの第1の部分を修正して、オーディオメディアデータの第2の部分を減衰、消音、及び/又は除去することなく、オーディオメディアデータの第1の部分を減衰、消音、及び/又は除去することができる。いくつかの例では、メディア修正エンジン235は、オブジェクト検出エンジン225によるオーディオメディアデータ内の特定の音(単数又は複数)の検出、及び/又はセマンティックセグメント化エンジン230によるオーディオメディアデータ内の他のオーディオからのそれらの音(単数又は複数)のセマンティックセグメント化に応答して、オーディオ特徴(単数又は複数)、オブジェクト(単数又は複数)、音声(単数又は複数)、動物(単数又は複数)、デバイス(単数又は複数)、及び/又は乗り物(単数又は複数)に対応するそれらの音(単数又は複数)をオーディオメディアデータから減衰、消音、及び/又は除去することができる。例えば、メディア修正エンジン235は、オブジェクト検出エンジン225によるオーディオメディアデータ内の特定の人物の音声の検出及び/又は認識、及び/又はセマンティックセグメント化エンジン230によるオーディオメディアデータ内の他のオーディオからのその人物の音声のセマンティックセグメント化に応答して、オーディオメディアデータからその特定の人物の音声を減衰、消音、及び/又は除去することができる。
【0086】
[0100] いくつかの例では、メディア修正エンジン235は、MLシステム及び/又は訓練されたMLモデルを含むことができる。いくつかの例では、メディア修正エンジン235は、メディアデータ、オブジェクト検出エンジン225からのオブジェクト検出データ、セマンティックセグメント化エンジン230からのセマンティックセグメント化データ、及び/又は注視追跡エンジン270からの注視データを訓練されたMLモデル(単数又は複数)に入力し、訓練されたMLモデル(単数又は複数)の出力として、メディアの部分(単数又は複数)に対する修正(単数又は複数)、及び/又は修正される部分(単数又は複数)における修正(単数又は複数)で修正されたメディアを受信することによって、これらの修正動作を実行することができる。MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のNN、1つ又は複数のCNN、1つ又は複数のTDNN、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のDBN、1つ又は複数のRNN、1つ又は複数のGAN、1つ又は複数の訓練されたSVM、1つ又は複数の訓練されたRF、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含み得る。いくつかの例では、メディア修正エンジン235は、修正(単数又は複数)に関連付けられた信頼レベルを生成する。いくつかの例では、メディア修正エンジン235は、信頼レベルが所定の信頼レベル閾値を満たすか又は超える場合に、メディアに対する修正(単数又は複数)を出力及び/又は実行する。
【0087】
[0101] いくつかの例では、メディア修正エンジン235は、注視追跡エンジン270から注視データを受信する。いくつかの例では、メディア修正エンジン235は、注視データを使用して、特定の領域を修正するか、又はその領域を未修正のままにするかを判定することができる。いくつかの例では、メディア修正エンジン235は、メディア修正エンジン235のMLシステム及び/又は訓練されたMLモデル(単数又は複数)への入力として注視データを使用する。
【0088】
[0102] いくつかの例では、メディア修正エンジン235は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令のセットなどのソフトウェア要素を含む。いくつかの例では、メディア修正エンジン235は、1つ又は複数のハードウェア要素を含む。例えば、メディア修正エンジン235は、コンピューティングシステム1100のプロセッサ1110などのプロセッサ、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせを含むことができる。いくつかの例では、メディア修正エンジン235は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0089】
[0103] 上述したように、メディア処理システム200は、例えば、出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)を使用してメディアの視覚メディアデータを表示することにより、かつ/又は出力デバイス(単数又は複数)240のオーディオ出力デバイス(単数又は複数)を使用してメディアのオーディオメディアデータを再生することにより、メディア修正エンジン235を使用してメディアを修正した後にメディア処理システム200がメディアを出力するのに使用できる出力デバイス(単数又は複数)240を備えている。メディア処理システム200はまた、メディア処理システム200が、メディア修正エンジン235を使用してメディアを修正した後に、例えば、メディアを受信者デバイスに送信することによって、メディアを出力するために使用することができる、1つ又は複数のトランシーバ245を含む。受信者デバイスは、例えば、出力デバイス(単数又は複数)のディスプレイ(単数又は複数)を使用してメディアの視覚メディアデータを表示することによって、かつ/又は出力デバイス(単数又は複数)のオーディオ出力デバイス(単数又は複数)を使用してメディアのオーディオメディアデータを再生することによって、それ自体の出力デバイス(単数又は複数)を使用してメディアを出力することができる。トランシーバ(単数又は複数)245は、ワイヤード又はワイヤレストランシーバ(単数又は複数)、通信インターフェース(単数又は複数)、アンテナ(単数又は複数)、接続、結合、結合システム、又はそれらの組み合わせを含み得る。いくつかの例では、トランシーバ(単数又は複数)245は、コンピューティングシステム1100の通信インターフェース1140を含むことができる。いくつかの例では、コンピューティングシステム1100の通信インターフェース1140は、トランシーバ(単数又は複数)245を含み得る。
図2において、トランシーバ(単数又は複数)245は、人物、家、及び四面体(仮想コンテンツ)の表現を含むものとして示されているメディアデータを送信するワイヤレストランシーバ(単数又は複数)245として示されている。
【0090】
[0104] いくつかの例では、メディア処理システム200は、注視追跡エンジン270を含む。注視追跡エンジン270は、ユーザ対面センサ(単数又は複数)205からセンサデータを受信することができ、センサデータに基づいて、ユーザの注視(例えば、ユーザがどこを見ているか、環境及び/又は媒体内でユーザが何を見ているか)、ユーザの表情(単数又は複数)、及び/又はユーザのジェスチャを検出、認識、及び/又は追跡する。いくつかの例では、注視追跡エンジン270がユーザ対面センサ(単数又は複数)205から受信するセンサデータは、ユーザの眼(単数又は複数)の画像(単数又は複数)及び/又はビデオ(単数又は複数)を含む。いくつかの例では、注視追跡エンジン270がユーザ対面センサ(単数又は複数)205から受信するセンサデータは、ユーザの眼(単数又は複数)の深度データ(例えば、ポイントクラウド、深度画像)を含む。注視追跡エンジン270は、ユーザ対面センサ(単数又は複数)205からのセンサデータにおいて検出されたユーザの眼(単数又は複数)及び/又は顔の1つ又は複数の属性に基づいて、ユーザの注視、ユーザの表情(単数又は複数)、及び/又はユーザのジェスチャを検出、認識、及び/又は追跡することができる。属性は、例えば、ユーザ205の眼(単数又は複数)の位置(単数又は複数)、ユーザ205の眼(単数又は複数)の動き(単数又は複数)、ユーザ205の瞼(単数又は複数)の位置(単数又は複数)、ユーザ205の瞼(単数又は複数)の動き(単数又は複数)、ユーザ205の眉(単数又は複数)の位置(単数又は複数)、ユーザ205の眉(単数又は複数)の動き(単数又は複数)、ユーザ205の眼(単数又は複数)の瞳孔拡張(単数又は複数)、ユーザ205の眼(単数又は複数)による固視(単数又は複数)、ユーザ205の眼(単数又は複数)の眼水分レベル(単数又は複数)、ユーザ205の瞼(単数又は複数)の瞬き、ユーザ205の瞼(単数又は複数)の斜視、ユーザ205の眼(単数又は複数)のサッカード(saccade)(単数又は複数)、ユーザ205の眼(単数又は複数)の視運動反射(単数又は複数)、ユーザ205の眼(単数又は複数)の前庭動眼反射(単数又は複数)、ユーザ205の眼(単数又は複数)の遠近調節反射(単数又は複数)、又はそれらの組み合わせを含むことができる。
図2において、注視追跡エンジン270は、ユーザの眼が見ている方向(黒い実線の矢印によって示される)と、その方向が経時的に変化した角度(黒い破線の湾曲した矢印によって示される)の両方を識別するものとして示されている。
【0091】
[0105] いくつかの例では、注視追跡エンジン270は、MLシステム及び/又は訓練されたMLモデルを含むことができる。いくつかの例では、注視追跡エンジン270は、例えば、ユーザ(単数又は複数)の眼(単数又は複数)の画像を含むユーザ対面センサ(単数又は複数)からのセンサデータ、及び/又は(例えば、ユーザの注視がメディアデータ内の何に向かっているかを判定するための)メディアデータを、訓練されたMLモデル(単数又は複数)に入力することによって、注視追跡動作を実行することができる。注視追跡エンジン270は、訓練されたMLモデル(単数又は複数)の出力として、ユーザがどこを見ているか、メディア内でユーザが何を見ているか、種々の眼の動き及び/若しくは他の眼の属性、又はそれらの組み合わせを示す注視データを受信することができる。MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)は、1つ又は複数のNN、1つ又は複数のCNN、1つ又は複数のTDNN、1つ又は複数のディープネットワーク、1つ又は複数のオートエンコーダ、1つ又は複数のDBN、1つ又は複数のRNN、1つ又は複数のGAN、1つ又は複数の訓練されたSVM、1つ又は複数の訓練されたRF、1つ又は複数のディープラーニングシステム、又はそれらの組み合わせを含み得る。いくつかの例では、注視追跡エンジン270は、注視追跡に関連付けられた信頼レベルを生成する。いくつかの例では、注視追跡エンジン270は、信頼レベルが所定の信頼レベル閾値を満たすか又は超える場合、注視データを出力する。
【0092】
[0106] いくつかの例では、注視追跡エンジン270は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令のセットなどのソフトウェア要素を含む。いくつかの例では、注視追跡エンジン270は、1つ又は複数のハードウェア要素を含む。例えば、注視追跡エンジン270は、コンピューティングシステム1100のプロセッサ1110などのプロセッサ、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせを含むことができる。いくつかの例では、注視追跡エンジン270は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0093】
[0107] いくつかの例では、メディア処理システム200は、プライバシーを改善するために、オブジェクト検出エンジン225によって検出されたオブジェクト(単数又は複数)、セマンティックセグメント化エンジン230によるメディアのセマンティックセグメント化、及び/又は注視追跡エンジン270によって検出された注視データに基づいて、メディア修正エンジン235を使用してメディアに対する修正を実行する。例えば、環境対面センサ(単数又は複数)210は、時には、メディアの意図された焦点ではない可能性がある人々又はオブジェクトを含む環境の部分をキャプチャすることができる。かかる人々は、場合によっては、メディアに現れることに同意していないことがある。これは、メディア処理システム200がXRデバイス及び/又はライブストリーミングデバイスである場合に特に懸念されることがあり、環境対面センサ(単数又は複数)210がかかる人々又はオブジェクトを含む環境の部分をキャプチャすることができる確率を高めることができる。これは、XRデバイスが、多くの場合、ユーザがそれらの環境を見る主要なレンズであり得、したがって、ユーザは、ユーザがXRデバイスを向けているものを認識することなく、それらのXRデバイスを誰か又は何かに向けてしまうことがあるからである。ライブストリーミングデバイスは、しばしば、それらのそれぞれのメディアのキャプチャと送信との間に遅延をほとんど又は全く有さず、それは、意図されない又は望まれない人々又はオブジェクトが、環境対面センサ(単数又は複数)210がキャプチャする環境に現れた場合に、ほとんど又は全く頼みの綱を残さない。メディア修正エンジン235による修正の使用は、メディア内に明確に現れる人々又はオブジェクトを、承認済みリスト(例えば、ホワイトリスト)上の人々又はオブジェクトのみ、及び/又はブロックリスト(例えば、ブラックリスト)上に現れない人々又はオブジェクトに限定することができる。メディア修正エンジン235による修正の使用は、ブロックリスト(例えば、ブラックリスト)上に現れる、又は承認済みリスト(例えば、ホワイトリスト)上に現れない人々又はオブジェクトに対応するメディアの視覚及び/又はオーディオ部分を不明瞭にする、かつ/又は減衰させる場合がある。したがって、メディア修正エンジン235によるメディアの修正は、ユーザがメディア編集を実行するのに十分な時間がない状況に有用な、強力でほぼ瞬間的なプライバシー強化を提供する。
【0094】
[0108] いくつかの例では、メディア処理システム200は、検出された特定の人々又はオブジェクトの識別情報に基づいて、例えば、それらの識別情報が承認済みリスト(例えば、ホワイトリスト)又はブロックリスト(例えば、ブラックリスト)に現れるかどうかに基づいて、メディア修正エンジン235を使用して修正を実行する。いくつかの例では、承認済みリスト及び/又はブロックリストは、メッセージ、電子メール、イベント招待、スケジュール、カレンダー、連絡先リスト、又はそれらの組み合わせからの情報に基づき得る。いくつかの例では、承認済みリストは、カレンダー、スケジュールに現れるイベントへの招待客を含むように、メディア処理システム200によって自動的に生成されてもよい。いくつかの例では、ブロックリストは、イベントに招待されていない誰かを含むように、メディア処理システム200によって自動的に生成されてもよい。いくつかの例では、イベント招待客がブロックリスト上にあり、かつ/又は非招待客が承認済みリスト上にあるため、逆も真である。いくつかの例では、承認済みリストは、電子メールの「to」フィールド、「cc」フィールド、及び/又は「bcc」フィールドに現れる人々などの、メッセージが送信された人々を含むように、メディア処理システム200によって自動的に生成されてもよい。いくつかの例では、ブロックリストは、メッセージが送信されなかった誰かを含むように、メディア処理システム200によって自動的に生成されてもよい。いくつかの例では、メッセージ受信者がブロックリスト上にあり、かつ/又は非受信者が承認済みリスト上にあるため、逆も真である。いくつかの例では、承認済みリストは、メッセージ若しくは電子メールの送信者、又はイベントのホストなどの単一の人物を含むように、メディア処理システム200によって自動的に生成されてもよく、及び/又は他の誰かがブロックリストに入れられる。いくつかの例では、単一の人がブロックリスト上にあり、かつ/又は他の人物が承認済みリスト上にあるため、反対が真である。
【0095】
[0109] いくつかの例では、メディア処理システム200は、そのオブジェクト検出エンジン225を2つのパスで使用することができる。例えば、オブジェクト検出エンジン225は、予備的な粗いパスを実行して、オブジェクトのタイプ、又はオブジェクトのタイプに関連付けられた音がメディア内にそもそも存在するかどうかを判定することができる。例えば、オブジェクト検出エンジン225は、任意の顔が視覚メディアデータ内に存在するかどうか、及び/又は任意の音声がオーディオメディアデータ内に存在するかどうかを判定することができる。オブジェクト検出エンジン225が、予備的な粗いパスにおいて、オブジェクトのタイプ、又はオブジェクトのタイプに関連付けられた音の存在を検出した場合、オブジェクト検出エンジン225は、より詳細なパスを実行することができる。例えば、オブジェクト検出エンジン225の第1のパスが、1つ又は複数の顔が視覚メディアデータ中に存在すると判断した場合、及び/又は1つ又は複数の顔がオーディオメディアデータ中に存在すると判断した場合、オブジェクト検出エンジン225は、より詳細なパスを実行して、オブジェクト検出エンジン225が検出された顔のいずれかを認識するかどうか、及び/又はオブジェクト検出エンジン225が検出された音声のいずれかを認識するかどうかを判断することができる。
【0096】
[0110] いくつかの例では、メディア処理システム200は、フィードバックエンジン260を含む。フィードバックエンジン260は、ユーザインターフェースから受信されたフィードバックを検出することができる。フィードバックエンジン260は、メディア処理システム200の別のエンジンから受信されたメディア処理システム200の1つのエンジンに関するフィードバック、例えば、1つのエンジンが他のエンジンからのデータを使用することを決定したか否かを検出することができる。フィードバックは、合成器220による合成、オブジェクト検出エンジン225によるオブジェクト検出、セマンティックセグメント化エンジン230によるセマンティックセグメント化、メディア修正エンジン235によるメディア修正、注視追跡エンジン270による注視追跡、又はそれらの組み合わせに関するフィードバックであり得る。フィードバックエンジン260によって受信されるフィードバックは、肯定的フィードバック又は否定的フィードバックであり得る。例えば、メディア処理システム200の1つのエンジンが、メディア処理システム200の別のエンジンからのデータを使用する場合、フィードバックエンジン260は、これを肯定的フィードバックとして解釈することができる。メディア処理システム200の1つのエンジンがメディア処理システム200の別のエンジンからのデータを拒否した場合、フィードバックエンジン260は、これを否定的フィードバックとして解釈することができる。肯定的フィードバックはまた、ユーザが微笑んでいる、笑っている、うなずきをしている、肯定的な発言(例えば、「はい」、「確認済み」、「OK」、「次へ」)を言っている、又は別様にメディアに肯定的に反応しているなど、ユーザ対面センサ(単数又は複数)205からのセンサデータの属性に基づき得る。否定的フィードバックはまた、ユーザが顔をしかめる、泣く、(例えば、「いいえ」の動きで)頭を振る、否定的な発言(例えば、「いいえ」、「違います」、「良くない」、「これではない」)を言う、又は別様に仮想コンテンツに否定的に反応するなど、ユーザ対面センサ(単数又は複数)205からのセンサデータの属性に基づき得る。
【0097】
[0111] いくつかの例では、フィードバックエンジン260は、メディア処理システム200の1つ又は複数のMLシステムを更新するための訓練データとして、メディア処理システム200の1つ又は複数のMLシステムにフィードバックを提供する。例えば、フィードバックエンジン260は、合成器220、オブジェクト検出エンジン225、セマンティックセグメント化エンジン230、メディア修正エンジン235、及び/又は注視追跡エンジン270のMLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)に、訓練データとしてフィードバックを提供することができる。肯定的フィードバックを使用して、MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)の出力に関連付けられた重みを強める及び/又は強化することができる。否定的フィードバックを使用して、MLシステム(単数又は複数)及び/又は訓練されたMLモデル(単数又は複数)の出力に関連付けられた重みを弱める及び/又は除去することができる。
【0098】
[0112] いくつかの例では、フィードバックエンジン260は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサ上で実行される、プログラムに対応する命令セットなどのソフトウェア要素を含む。いくつかの例では、フィードバックエンジン260は、1つ又は複数のハードウェア要素を含む。例えば、フィードバックエンジン260は、コンピューティングシステム1100のプロセッサ1110、画像プロセッサ150、ホストプロセッサ152、ISP154、又はそれらの組み合わせなどのプロセッサを含むことができる。いくつかの例では、フィードバックエンジン260は、1つ又は複数のソフトウェア要素と1つ又は複数のハードウェア要素との組み合わせを含む。
【0099】
[0113] いくつかの例では、メディア処理システム200は、(例えば、注視追跡エンジン270によって検出されるような)ユーザの注視に基づいて、(例えば、注視追跡エンジン270及び/又はオブジェクト検出エンジン225によって検出されるような)ユーザによるジェスチャに基づいて、ユーザによって話されるコマンド(単数又は複数)(例えば、「これをぼかす」、「これを不明瞭にする」、「それをぼかさない」、「それを不明瞭にしない」)に基づいて、又はそれらの組み合わせに基づいて、セマンティックセグメント化エンジン230による環境のセグメント化、及び/又はメディアがメディア修正エンジン235から不明瞭にし、かつ/又は減衰修正を受け取る部分(単数又は複数)を変更することができる。
【0100】
[0114]
図3Aは、エクステンデッドリアリティ(XR)システム200として使用されるヘッドマウントディスプレイ(HMD)310を示す斜視
図300である。HMD310は、例えば、拡張現実(AR)ヘッドセット、仮想現実(VR)ヘッドセット、複合現実(MR)ヘッドセット、エクステンデッドリアリティ(XR)ヘッドセット、又はそれらの何らかの組み合わせであってもよい。HMD310は、メディア処理システム200の一例であり得る。HMD310は、HMD310の前部に沿って第1のカメラ330A及び第2のカメラ330Bを含む。第1のカメラ330A及び第2のカメラ330Bは、メディア処理システム200の環境対面センサ210の例であり得る。HMD310は、ユーザの眼(単数又は複数)がディスプレイ(単数又は複数)340に面したときにユーザの眼(単数又は複数)に面する、第3のカメラ330Cと第4のカメラ330Dとを含む。第3のカメラ330C及び第4のカメラ330Dは、メディア処理システム200のユーザ対面センサ205の例であり得る。いくつかの例では、HMD310は、単一の画像センサを有する単一のカメラのみを有してもよい。いくつかの例では、HMD310は、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び第4のカメラ330Dに加えて、1つ又は複数の追加のカメラを含んでもよい。いくつかの例では、HMD310は、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び第4のカメラ330Dに加えて、1つ又は複数の追加のセンサを含んでもよく、1つ又は複数の追加のセンサは、メディア処理システム200のユーザ対面センサ205及び/又は環境対面センサ210の他のタイプも含んでよい。いくつかの例では、第1のカメラ330A、第2のカメラ330B、第3のカメラ330C、及び/又は第4のカメラ330Dは、画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、又はそれらの組み合わせの例であってもよい。
【0101】
[0115] HMD310は、ユーザ320の頭部にHMD310を装着しているユーザ320に見える1つ又は複数のディスプレイ340を含んでもよい。HMD310の1つ又は複数のディスプレイ340は、メディア処理システム200の出力デバイス(単数又は複数)240の1つ又は複数のディスプレイの例であり得る。いくつかの例では、HMD310は、1つのディスプレイ340と2つのビューファインダとを含むことができる。2つのビューファインダは、ユーザ320の左眼用の左ビューファインダと、ユーザ320の右眼用の右ビューファインダとを含むことができる。左ビューファインダは、ユーザ320の左眼がディスプレイの左側を見るように向けることができる。右ビューファインダは、ユーザ320の右眼がディスプレイの右側を見るように向けることができる。いくつかの例では、HMD310は、ユーザ320の左眼にコンテンツを表示する左ディスプレイと、ユーザ320の右眼にコンテンツを表示する右ディスプレイとを含む、2つのディスプレイ340を含んでもよい。HMD310の1つ又は複数のディスプレイ340は、デジタル「パススルー」ディスプレイ又は光学「シースルー」ディスプレイであり得る。
【0102】
[0116] HMD310は、HMD310のユーザの1つ又は複数の耳にオーディオを出力するスピーカ及び/又はヘッドホンとして機能することができる、1つ又は複数のイヤピース335を含んでもよい。
図3A及び
図3Bには1つのイヤピース335が示されているが、HMD310は、ユーザの各耳(左耳及び右耳)に1つのイヤピースを有する2つのイヤピースを含むことができることを理解されたい。いくつかの例では、HMD310はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、メディア処理システム200のユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、HMD310によって1つ又は複数のイヤピース335を通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
【0103】
[0117]
図3Bは、ユーザ320によって装着されている
図3Aのヘッドマウントディスプレイ(HMD)を示す斜視
図350である。ユーザ320は、ユーザ320の眼の上でユーザ320の頭部にHMD310を装着する。HMD310は、第1のカメラ330A及び第2のカメラ330Bを用いて画像をキャプチャすることができる。いくつかの例では、HMD310は、ディスプレイ(単数又は複数)340を使用して、1つ又は複数の出力画像をユーザ320の眼に向けて表示する。いくつかの例では、出力画像は、仮想コンテンツ生成器215によって生成され、合成器220を使用して合成され、及び/又は出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)によって表示される仮想コンテンツを含むことができる。出力画像は、例えば仮想コンテンツがオーバーレイされた状態で、第1のカメラ330A及び第2のカメラ330Bによってキャプチャされた画像に基づくことができる。出力画像は、場合によっては仮想コンテンツがオーバーレイされ、かつ/又は他の修正が加えられた状態で、環境の立体視ビューを提供してもよい。例えば、HMD310は、第1のカメラ330Aによってキャプチャされた画像に基づく第1の表示画像を、ユーザ320の右眼に表示することができる。HMD310は、第2のカメラ330Bによってキャプチャされた画像に基づく第2の表示画像を、ユーザ320の左眼に表示することができる。例えば、HMD310は、第1のカメラ330A及び第2のカメラ330Bによってキャプチャされた画像の上にオーバーレイされた表示画像内に、オーバーレイされた仮想コンテンツを提供することができる。第3のカメラ330C及び第4のカメラ330Dは、ユーザがディスプレイ(単数又は複数)340によって表示された表示画像を視認する前、視認中、及び/又は視認した後に、眼の画像をキャプチャすることができる。このようにして、第3のカメラ330C及び/又は第4のカメラ330Dからのセンサデータは、ユーザの眼(及び/又はユーザの他の部分)による仮想コンテンツに対する反応をキャプチャすることができる。HMD310のイヤピース335は、ユーザ320の耳内に示されている。HMD310は、イヤピース335を通して、及び/又はユーザ320の他方の耳(図示せず)内にあるHMD310の別のイヤピース(図示せず)を通して、オーディオをユーザ320に出力していてもよい。
【0104】
[0118]
図4Aは、前向きカメラを含み、エクステンデッドリアリティ(XR)システム200として使用することができるモバイルハンドセット410の前面を示す斜視
図400である。モバイルハンドセット410は、メディア処理システム200の一例であり得る。モバイルハンドセット410は、例えば、携帯電話、衛星電話、ポータブルゲームコンソール、音楽プレーヤ、健康追跡デバイス、ウェアラブルデバイス、無線通信デバイス、ラップトップ、モバイルデバイス、本明細書に記載する任意の他のタイプのコンピューティングデバイス若しくはコンピューティングシステム、又はそれらの組み合わせであってもよい。
【0105】
[0119] モバイルハンドセット410の前面420は、ディスプレイ440を含む。モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bを含む。第1のカメラ430A及び第2のカメラ430Bは、メディア処理システム200のユーザ対面センサ205の例であり得る。第1のカメラ430A及び第2のカメラ430Bは、コンテンツ(例えば、メディア修正エンジン235によって出力された修正されたメディア)がディスプレイ440上に表示されている間、ユーザの眼(単数又は複数)を含むユーザに面することができる。ディスプレイ440は、メディア処理システム200の出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)の一例であり得る。
【0106】
[0120] 第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420上のディスプレイ440の周りのベゼル内に示されている。いくつかの例では、第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420上のディスプレイ440から切り抜かれたノッチ又は切り欠きに配置することができる。いくつかの例では、第1のカメラ430A及び第2のカメラ430Bは、ディスプレイ440とモバイルハンドセット410の残りの部分との間に配置されたアンダーディスプレイカメラであってもよく、その結果、光は、第1のカメラ430A及び第2のカメラ430Bに到達する前にディスプレイ440の一部分を通過する。斜視
図400の第1のカメラ430A及び第2のカメラ430Bは、前向きカメラである。第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の前面420の平面に垂直な方向を向いている。第1のカメラ430A及び第2のカメラ430Bは、モバイルハンドセット410の1つ又は複数のカメラのうちの2つであってもよい。いくつかの例では、モバイルハンドセット410の前面420は、単一のカメラのみを有することができる。
【0107】
[0121] いくつかの例では、モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bに加えて、1つ又は複数の追加のカメラを含んでもよい。1つ又は複数の追加のカメラはまた、メディア処理システム200のユーザ対面センサ205の例であり得る。いくつかの例では、モバイルハンドセット410の前面420は、第1のカメラ430A及び第2のカメラ430Bに加えて、1つ又は複数の追加のセンサを含んでもよい。1つ又は複数の追加のセンサはまた、メディア処理システム200のユーザ対面センサ205の例であり得る。場合によっては、モバイルハンドセット410の前面420は、2つ以上のディスプレイ440を含む。モバイルハンドセット410の前面420の1つ又は複数のディスプレイ440は、メディア処理システム200の出力デバイス(単数又は複数)240のディスプレイ(単数又は複数)の例であり得る。例えば、1つ又は複数のディスプレイ440は、1つ又は複数のタッチスクリーンディスプレイを含むことができる。
【0108】
[0122] モバイルハンドセット410は、モバイルハンドセット410のユーザの1つ又は複数の耳にオーディオを出力することができる、1つ又は複数のスピーカ435A及び/又は他のオーディオ出力デバイス(例えば、イヤホン又はヘッドホン又はそれらへのコネクタ)を含んでもよい。1つのスピーカ435Aが
図4Aに示されているが、モバイルハンドセット410は、2つ以上のスピーカ及び/又は他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット410はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、メディア処理システム200のユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、モバイルハンドセット410は、モバイルハンドセット410の前面420に沿って及び/又は隣接して1つ又は複数のマイクロフォンを含むことができ、これらのマイクロフォンは、メディア処理システム200のユーザ対面センサ205の例である。いくつかの例では、モバイルハンドセット410によって1つ又は複数のスピーカ435A及び/又は他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
【0109】
[0123]
図4Bは、後ろ向きカメラを含み、エクステンデッドリアリティ(XR)システム200として使用することができるモバイルハンドセットの背面460を示す斜視
図450である。モバイルハンドセット410は、モバイルハンドセット410の背面460上に第3のカメラ430C及び第4のカメラ430Dを含む。斜視
図450の第3のカメラ430C及び第4のカメラ430Dは、後ろ向きである。第3のカメラ430C及び第4のカメラ430Dは、
図2のメディア処理システム200の環境対面センサ210の例であり得る。第3のカメラ430C及び第4のカメラ430Dは、モバイルハンドセット410の背面460の平面に垂直な方向を向いている。
【0110】
[0124] 第3のカメラ430C及び第4のカメラ430Dは、モバイルハンドセット410の1つ又は複数のカメラのうちの2つであってもよい。いくつかの例では、モバイルハンドセット410の背面460は、単一のカメラのみを有することができる。いくつかの例では、モバイルハンドセット410の背面460は、第3のカメラ430C及び第4のカメラ430Dに加えて、1つ又は複数の追加のカメラを含んでもよい。1つ又は複数の追加のカメラはまた、メディア処理システム200の環境対面センサ210の例であり得る。いくつかの例では、モバイルハンドセット410の背面460は、第3のカメラ430C及び第4のカメラ430Dに加えて、1つ又は複数の追加のセンサを含んでもよい。1つ又は複数の追加のセンサはまた、メディア処理システム200の環境対面センサ210の例であり得る。いくつかの例では、第1のカメラ430A、第2のカメラ430B、第3のカメラ430C、及び/又は第4のカメラ430Dは、画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、又はそれらの組み合わせの例であってもよい。
【0111】
[0125] モバイルハンドセット410は、モバイルハンドセット410のユーザの1つ又は複数の耳にオーディオを出力することができる、1つ又は複数のスピーカ435B及び/又は他のオーディオ出力デバイス(例えば、イヤホン又はヘッドホン又はそれらへのコネクタ)を含んでもよい。1つのスピーカ435Bが
図4Bに示されているが、モバイルハンドセット410は、2つ以上のスピーカ及び/又は他のオーディオデバイスを含むことができることを理解されたい。いくつかの例では、モバイルハンドセット410はまた、1つ又は複数のマイクロフォン(図示せず)を含むことができる。1つ又は複数のマイクロフォンは、メディア処理システム200のユーザ対面センサ205及び/又は環境対面センサ210の例であり得る。いくつかの例では、モバイルハンドセット410は、モバイルハンドセット410の背面460に沿って及び/又は隣接して1つ又は複数のマイクロフォンを含むことができ、これらのマイクロフォンは、メディア処理システム200の環境対面センサ210の例である。いくつかの例では、モバイルハンドセット410によって1つ又は複数のスピーカ435B及び/又は他のオーディオ出力デバイスを通してユーザに出力されるオーディオは、1つ又は複数のマイクロフォンを使用して記録されたオーディオを含む、又はそれに基づくことができる。
【0112】
[0126] モバイルハンドセット410は、前面420のディスプレイ440をパススルーディスプレイとして使用してもよい。例えば、ディスプレイ440は、出力画像を表示してもよい。出力画像は、第3のカメラ430C及び/又は第4のカメラ430Dによってキャプチャされた画像に基づくことができ、例えば、仮想コンテンツがオーバーレイされ、及び/又はメディア修正エンジン235による修正が適用される。第1のカメラ430A及び/又は第2のカメラ430Bは、仮想コンテンツを含む出力画像のディスプレイ440上への表示前、表示中、及び/又は表示後に、ユーザの眼(及び/又はユーザの他の部分)の画像をキャプチャすることができる。このようにして、第1のカメラ430A及び/又は第2のカメラ430Bからのセンサデータは、ユーザの眼(及び/又はユーザの他の部分)による仮想コンテンツに対する反応をキャプチャすることができる。
【0113】
[0127]
図5は、イベントに基づく画像処理のためのプロセス500を示すブロック図である。プロセス500は、メディア処理システム200、
図6のメディア処理システム、及び/又は
図10のメディア処理システムなどのメディア処理システムによって実行される。プロセス500は、環境505の画像データ502が(例えば、環境対面センサ(単数又は複数)210によって)キャプチャされ、及び/又はメディア処理システムによって受信されることで開始する。メディア処理システムは、(フォービエイテッド圧縮を使用して不明瞭にするメディア修正エンジン235の一部であり得る)フォービエイテッド圧縮エンジン515、(注視追跡エンジン270の一例であり得る)注視追跡エンジン520、(オブジェクト検出エンジン225又はその態様の一例であり得る)オブジェクト検出エンジン525、及び(オブジェクト検出エンジン225又はそのオーディオ態様の一例であり得る)オーディオ認識エンジン530など、複数のメディア処理エンジン510をアクティブ化する。
【0114】
[0128] メディア処理システムは、環境505の第1の領域540においてイベント検出535を実行してもよい。イベント検出535は、(注視追跡エンジン520を使用した)第1の領域540を見ているユーザの注視の注視検出545、(オブジェクト検出エンジン525を使用した)第1の領域540内のオブジェクト検出550、(オブジェクト検出エンジン525を使用した)第1の領域540内の又は第1の領域540を指しているユーザの手の手検出555、(オーディオ認識エンジン530を使用した)第1の領域540から来る及び/又は第1の領域540若しくは第1の領域540内のオブジェクトを参照するオーディオのオーディオ検出560、又はそれらの組み合わせを含み得る。イベント検出535に応答して、メディア処理システムは、(例えば、メディア修正エンジン235を使用して)画像データ502の修正565を実行することができる。修正565は、第1の領域540とは異なる第2の領域570を修正せずに第1の領域540を修正すること、第1の領域540を修正せずに第2の領域570を修正すること、第1の領域540と第2の領域570の両方を修正することなどができる。メディア処理システムは、例えば、修正された画像データ575を表示し、修正された画像データ575に対応するオーディオを再生し、かつ/又は通信トランシーバを使用して修正された画像データ575を受信者デバイスに送信することによって、環境505の修正された画像データ575を出力する。
【0115】
[0129]
図6は、画像データ中の人物の検出に基づく画像処理のためのプロセス600を示すブロック図である。プロセス600は、メディア処理システム200、
図5のメディア処理システム、及び/又は
図10のメディア処理システムなどのメディア処理システムによって実行される。プロセス500は、環境505の画像データ502が(例えば、環境対面センサ(単数又は複数)210によって)キャプチャされ、及び/又はメディア処理システムによって受信されることで開始する。メディア処理システムは、オブジェクト検出550を実行して、例えば、オブジェクト検出エンジン225及び/又はオブジェクト検出エンジン525を使用して、第1の領域540内のオブジェクトを検出する。いくつかの例では、オブジェクトは人物605である。
【0116】
[0130] メディア処理システムは、人物605(又は他のオブジェクト)の検出に基づいて画像処理610を実行する。画像処理610は、人物605の顔検出、認識、及び/又は追跡615を含むことができる。画像処理610は、人物605の顔625及び身体630のセマンティックセグメント化620を含むことができる。例えば、人物605の顔625及び身体630である。メディア処理システムは、画像修正635に基づいて修正された画像データ575を生成し、修正された画像データ575を出力する。メディア処理システムは、例えば、修正された画像データ575を表示し、修正された画像データ575に対応するオーディオを再生し、かつ/又は通信トランシーバを使用して修正された画像データ575を受信者デバイスに送信することによって、環境505の修正された画像データ575を出力する。
【0117】
[0131] メディア処理システムは、画像処理610に基づいて、例えば、顔625にぼかし640を適用すること、顔625に低減されたビットレート645を適用すること、顔625に増大圧縮650を適用すること、顔625に修復655を適用すること、顔625に画素化660を適用すること、又はそれらの組み合わせによって、画像修正635を実行する。
【0118】
[0132]
図7Aは、環境705の画像と、破線を使用して示される環境の部分を不明瞭にするための画像への種々の修正との例を示す概念
図700である。環境705の画像は、4人の人々とラップトップ735とを有する部屋を描写している。4人の人々は、人物730と、他の3人の人々とを含む。環境705の画像は、メディア処理システム200、
図5のメディア処理システム、及び/又は
図6のメディア処理システムなどのメディア処理システムによって処理される。環境705の画像は、メディア処理システムによって処理されて、環境710の修正された画像、環境715の修正された画像、及び/又は環境720の修正された画像を生成する。不明瞭にされた環境710の修正された画像、環境715の修正された画像、及び環境720の修正された画像の部分は、黒い破線で示されている。不明瞭にされていない環境710の修正された画像、環境715の修正された画像、及び環境720の修正された画像の部分は、黒い実線で示されている。
【0119】
[0133] 環境710の修正された画像では、部屋の中の人物730及びラップトップ735以外の全てがメディア修正エンジン235によって不明瞭にされている。いくつかの例では、人物730及びラップトップ735は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は室内の他の全ては、ブロック済みリスト(例えば、ブラックリスト)上に現れる。
【0120】
[0134] 環境715の修正された画像では、人物730は、メディア修正エンジン235によって不明瞭にされるが、部屋の中の他の全て(3人の他の人々及びラップトップを含む)は、不明瞭にされないままである。いくつかの例では、人物730は、ブロック済みリスト(例えば、ブラックリスト)上に現れ、及び/又は室内の他の全ては、承認済みリスト(例えば、ホワイトリスト)上に現れる。
【0121】
[0135] 環境720の修正された画像では、人物730以外の3人の人々は、メディア修正エンジン235によって不明瞭にされるが、部屋の中の他の全て(人物730及びラップトップ735を含む)は、不明瞭にされないままである。いくつかの例では、人物730は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は人物730以外の全ての他の人々は、ブロック済みリスト(例えば、ブラックリスト)上にある。
【0122】
[0136]
図7Bは、環境705の画像の例と、シェーディングを使用して示される環境の部分を不明瞭にするための画像への種々の修正とを示す概念
図750である。
図7Bにおいて、環境705の画像は、メディア処理システムによって処理されて、環境755の修正された画像、環境760の修正された画像、及び/又は環境765の修正された画像を生成する。環境755の修正された画像、環境760の修正された画像、及び/又は環境765の修正された画像では、領域は、漸進的、勾配、及び/又はフォービエイテッド不明瞭化技法を使用して不明瞭にされる。
図7Bのより暗いシェーディングパターンを使用してシェーディングされた領域は、よりひどく不明瞭にされ(例えば、よりひどくぼかされ、圧縮され、画素化され、画素にされ、モザイク化され、暗くされ、明るくされ、修復され、スクランブルされ、及び/又は解像度低減され)、一方、
図7Bのより明るいシェーディングパターンを使用してシェーディングされた領域は、それほど不明瞭にされず、又は不明瞭にされないままである。
【0123】
[0137] 環境755の修正された画像では、部屋の中の人物730及びラップトップ735以外の全てがメディア修正エンジン235によって不明瞭にされている。いくつかの例では、人物730及びラップトップ735は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は部屋の中の他の全ては、ブロック済みリスト(例えば、ブラックリスト)上に現れる。不明瞭化は漸進的であり、人物730及びラップトップ735の周囲の環境の部分は、不明瞭にされないままであるか、又は環境の他の部分よりも不明瞭にされないままである。
【0124】
[0138] 環境760の修正された画像では、人物730は、メディア修正エンジン235によって不明瞭にされるが、部屋の中の他の全て(3人の他の人々及びラップトップを含む)は、不明瞭にされないままである。いくつかの例では、人物730がブロック済みリスト(例えば、ブラックリスト)上に現れ、及び/又は部屋の中の他の全てがブロック済みリスト(例えば、ブラックリスト)上に現れる。不明瞭化は漸進的であり、人物730の周囲の環境の部分は、環境の他の部分よりも不明瞭にされる。
【0125】
[0139] 環境765の修正された画像では、人物730以外の3人の人々の顔は、メディア修正エンジン235によって不明瞭にされるが、部屋の中の他の全て(人物730及びラップトップ735を含む)は、不明瞭にされないままである。いくつかの例では、人物730は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は人物730以外の全ての他の人々は、ブロック済みリスト(例えば、ブラックリスト)上にある。不明瞭化は漸進的であり、人物730以外の3人の人々の顔の周りの環境の部分は、環境の他の部分よりも不明瞭にされる。
【0126】
[0140] 上述のように、
図7A~
図7Bにおける領域(単数又は複数)の不明瞭化は、領域(単数又は複数)をぼかすこと、領域(単数又は複数)を画素化すること、領域(単数又は複数)を画素にすること、領域(単数又は複数)をモザイク化すること、領域(単数又は複数)をクロップすること、画像圧縮及び/又はビデオ圧縮技法を使用して視覚メディアデータの他の領域(単数又は複数)よりも強く領域(単数又は複数)を圧縮すること、視覚メディアデータの他の領域(単数又は複数)の解像度に対して領域(単数又は複数)の画像解像度を低減すること、画像圧縮及び/又はビデオ圧縮中に視覚メディアデータの他の領域(単数又は複数)よりも強く領域(単数又は複数)を量子化すること、領域(単数又は複数)を除去すること、領域(単数又は複数)を他のデータ(例えば、色、パターン、別の画像)で置き換えること、領域(単数又は複数)を修復すること(例えば、1つ又は複数の周囲の画素及び/又は領域に基づく補間を使用して)、又はそれらの組み合わせを含むことができる。
【0127】
[0141]
図8は、環境805の音風景の例と、環境内の異なる要素に対応する音風景の様相を減衰させるための種々の修正とを示す概念
図800である。環境805の音風景は、
図7A~
図7Bの環境705の画像にも描写されている4人の人々とラップトップ735とを有する部屋の描写として
図8に示されている。環境805の音風景は、メディア処理システム200、
図5のメディア処理システム、及び/又は
図6のメディア処理システムなどのメディア処理システムによって処理される。環境805の音風景は、メディア処理システムによって処理されて、環境810の修正された音風景、環境815の修正された音風景、及び/又は環境820の修正された音風景を生成する。
【0128】
[0142] 環境805の音風景、環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景は、環境内の4人の人々の各々の上に、4人の人々の各々からの音(単数又は複数)(例えば音声)を示すスピーカアイコンを含む。環境805の音風景、環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景は、ラップトップ735からの音(単数又は複数)を示す、ラップトップ735の上のスピーカアイコンを含む。環境805の音風景、環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景は、環境の残りの部分からの音(単数又は複数)を示すスピーカアイコンを左上隅に含む。クロスアウトされたスピーカアイコンは、メディア修正エンジン235によって減衰、消音、及び/又は除去された音を表す。クロスアウトされていないスピーカアイコンは、メディア修正エンジン235によって減衰、消音、又は除去されないままである音を表す。
【0129】
[0143] 環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景のうち、対応する音(単数又は複数)が減衰、消音、及び/又は除去される部分は、黒色の破線で示され、その上に示されている。対応する音(単数又は複数)が減衰、消音、及び/又は除去されていない、環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景の部分は、黒い実線で示されている。
【0130】
[0144] 環境810の修正された音風景では、室内の人物730及びラップトップ735以外の環境内のあらゆるものからの音が、メディア修正エンジン235によって減衰、消音、及び/又は除去される。いくつかの例では、人物730及びラップトップ735は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は室内の他の全ては、ブロック済みリスト(例えば、ブラックリスト)上に現れる。
【0131】
[0145] 環境815の修正された音風景において、人物730からの音は、メディア修正エンジン235によって減衰、消音、及び/又は除去されるが、部屋の中の他の全て(3人の他の人々及びラップトップを含む)は、減衰、消音、又は除去されないままである。いくつかの例では、人物730は、ブロック済みリスト(例えば、ブラックリスト)上に現れ、及び/又は室内の他の全ては、承認済みリスト(例えば、ホワイトリスト)上に現れる。
【0132】
[0146] 環境820の修正された音風景では、人物730以外の3人からの音は、メディア修正エンジン235によって減衰、消音、及び/又は除去されるが、室内の他の全て(人物730及びラップトップ735を含む)は、減衰されず、消音されず、又は除去されないままである。いくつかの例では、人物730は、承認済みリスト(例えば、ホワイトリスト)上に現れ、及び/又は人物730以外の全ての他の人々は、ブロック済みリスト(例えば、ブラックリスト)上にある。
【0133】
[0147] いくつかの例では、メディアの視覚的様相は、
図7A又は
図7Bのように不明瞭にすることができ、メディアのオーディオ様相は、
図8のように減衰、消音、及び/又は除去することができる。
【0134】
[0148]
図9は、メディア処理動作のために使用され得るニューラルネットワーク(NN)900の一例を示すブロック図である。ニューラルネットワーク900は、畳み込みニューラルネットワーク(convolutional neural network、CNN)、オートエンコーダ、ディープビリーフネット(deep belief net、DBN)、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)、敵対的生成ネットワーク(Generative Adversarial Network、GAN)、及び/又は他のタイプのニューラルネットワークなど、任意のタイプのディープネットワークを含むことができる。ニューラルネットワーク900は、メディア処理システム200、合成器220、オブジェクト検出エンジン225、セマンティックセグメント化エンジン230、メディア修正エンジン235、及び/又は注視追跡エンジン270、フォービエイテッド圧縮エンジン515、注視追跡エンジン520、オブジェクト検出エンジン525、オーディオ認識エンジン530、顔追跡615、セマンティックセグメント化620、又はそれらの組み合わせの1つ又は複数の訓練されたニューラルネットワークのうちの1つの例であり得る。
【0135】
[0149] ニューラルネットワーク900の入力層910は入力データを含む。入力層910の入力データは、1つ又は複数の入力画像フレームの画素を表すデータを含むことができる。いくつかの例では、入力層910の入力データは、(例えば、ユーザ対面センサ205によってキャプチャされた画像、環境対面センサ210によってキャプチャされたメディア、仮想コンテンツ生成器215によって生成された仮想コンテンツ、及び/又は合成器220によって生成された合成画像の)画像データの画素を表すデータ、第3のカメラ330Cによってキャプチャされた画像(単数又は複数)、第4のカメラ330Dによってキャプチャされた画像(単数又は複数)、第1のカメラ430Aによってキャプチャされた画像(単数又は複数)、第2のカメラ430Bによってキャプチャされた画像(単数又は複数)、環境の画像データ502、及び/又は画像データに対応するメタデータを含む。いくつかの例では、入力層910の入力データは、注視追跡エンジン270からの注視データ、オブジェクト検出エンジン225からのオブジェクト検出データ、セマンティックセグメント化エンジン230からのセマンティックセグメント化データ、又はそれらの組み合わせを含む。
【0136】
[0150] 画像は、生の画素データ(例えば、ベイヤーフィルタに基づいて画素ごとに単一の色を含む)を含むイメージセンサからの画像データ、又は処理された画素値(例えば、RGB画像のRGB画素)を含み得る。ニューラルネットワーク900は、複数の隠れ層912A、912Bから912Nを含む。隠れ層912A、912Bから912Nは、「N」個の隠れ層を含み、ここで、「N」は、1よりも大きいか又はそれに等しい整数である。隠れ層の個数は、所与の適用例にとって必要とされるのと同数の層を含むようにされ得る。ニューラルネットワーク900は、隠れ層912A、912Bから912Nによって実施された処理から生じる出力を提供する出力層914を更に含む。
【0137】
[0151] いくつかの例では、出力層914は、合成器220によって生成された組み合わされた画像、メディア修正エンジン235によって出力された修正されたメディア、環境505の修正された画像データ575、又はそれらの組み合わせなどの出力された画像を提供することができる。いくつかの例では、出力層914は、注視追跡エンジン270からの注視データ、オブジェクト検出エンジン225からのオブジェクト検出データ、セマンティックセグメント化エンジン230からのセマンティックセグメント化データ、又はそれらの組み合わせを提供することができる。
【0138】
[0152] ニューラルネットワーク900は、相互接続されるフィルタの多層ニューラルネットワークである。各フィルタは、入力データを表す特徴を学習するようにトレーニングされ得る。フィルタに関連する情報は異なる層の間で共有され、情報が処理されるにつれて各層が情報を保持する。場合によっては、ニューラルネットワーク900はフィードフォワードネットワークを含むことができ、その場合、ネットワークの出力がそれ自体にフィードバックされるフィードバック接続はない。場合によっては、ネットワーク900は再帰ニューラルネットワークを含むことができ、これは、入力を読み取る間に、ノードにわたって情報が搬送されることを可能にするループを有することができる。
【0139】
[0153] 場合によっては、様々な層間のノードとノードの相互接続を通じて、情報を層間で交換することができる。場合によっては、ネットワークは畳み込みニューラルネットワークを含むことができ、これは、ある層の中のあらゆるノードを次の層の中のあらゆる他のノードにつながないことがある。情報が層間で交換されるネットワークでは、入力層910のノードは、第1の隠れ層912A中のノードのセットをアクティブ化することができる。例えば、図示のように、入力層910の入力ノードの各々が第1の隠れ層912Aのノードの各々に接続され得る。隠れ層のノードは、各入力ノードの情報を、この情報にアクティブ化関数(例えば、フィルタ)を適用することによって、変換することができる。変換から導出された情報は、次いで、次の隠れ層912Bのノードに渡され、それらのノードをアクティブ化することができ、それらのノードは、それら自体の指定された関数を実施することができる。例示的な機能には、畳み込み機能、ダウンサンプリング、アップスケーリング、データ変換、及び/又は任意の他の適切な機能がある。隠れ層912Bの出力は、次いで、次の隠れ層のノードをアクティブ化することができ、以下同様である。最後の隠れ層912Nの出力は、出力層914の1つ又は複数のノードをアクティブ化することができ、出力層914は、処理された出力画像を提供する。場合によっては、ニューラルネットワーク900中のノード(例えば、ノード916)は複数の出力ラインを有するものとして示されているが、ノードは単一の出力を有し、ノードから出力されるものとして示されている全てのラインは同じ出力値を表す。
【0140】
[0154] 場合によっては、各ノード又はノード間の相互接続は、ニューラルネットワーク900のトレーニングから導出されるパラメータのセットである、重みを有することができる。例えば、ノード間の相互接続部は、相互接続されたノードについて学習された情報を表すことができる。相互接続は、(例えば、トレーニングデータセットに基づいて)調整され得る調整可能な数値重みを有することができ、ニューラルネットワーク900が、入力に対して適応的であること、及びますます多くのデータが処理されるにつれて学習できることを可能にする。
【0141】
[0155] ニューラルネットワーク900は、出力層914を通して出力を提供するために、異なる隠れ層912A、912Bから912Nを使用して入力層910中のデータからの特徴を処理するように事前トレーニングされる。
【0142】
[0156]
図10は、メディア処理動作のためのプロセスを示すフロー図である。プロセス1000は、メディア処理システムによって実行されてもよい。いくつかの例では、メディア処理システムは、例えば、画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、メディア処理システム200、HMD310、モバイルハンドセット410、
図5のメディア処理システム、
図6のメディア処理システム、
図7Aのメディア処理システム、
図7Bのメディア処理システム、
図8のメディア処理システム、ニューラルネットワーク900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせを含むことができる。
【0143】
[0157] 動作1005において、メディア処理システムは、画像センサによってキャプチャされた画像データを受信するように構成されており、受信することができ、画像データは、環境を表す(例えば、描写する)。いくつかの例では、メディア処理システムは、画像センサをメディア処理システムの残りの部分(例えば、メディア処理システムのプロセッサ及び/又はメモリを含む)に結合及び/又は接続する画像センサコネクタを含む。いくつかの例では、メディア処理システムは、画像センサコネクタから、画像センサコネクタを介して、かつ/又は画像センサコネクタを使用して画像データを受信することによって、画像センサから画像データを受信する。
【0144】
[0158] 画像センサの例は、画像センサ130、ユーザ対面センサ(単数又は複数)205、環境対面センサ(単数又は複数)210、第1のカメラ330A、第2のカメラ330B、第1のカメラ430A、第2のカメラ430B、第3のカメラ430C、第4のカメラ430D、画像データ502をキャプチャする画像センサ、環境705の画像をキャプチャする画像センサ、NN900の入力層910のための入力データとして使用される画像をキャプチャするために使用される画像センサ、入力デバイス1145、本明細書で説明される別の画像センサ、本明細書で説明される別のセンサ、又はそれらの組み合わせを含む。
【0145】
[0159] 画像データの例は、画像キャプチャ及び処理システム100を使用してキャプチャされた画像データ、ユーザ対面センサ(単数又は複数)205の画像センサ(単数又は複数)を使用してキャプチャされた画像データ、環境対面センサ(単数又は複数)210の画像センサ(単数又は複数)を使用してキャプチャされた画像データ、第1のカメラ330Aを使用してキャプチャされた画像データ、第2のカメラ330Bを使用してキャプチャされた画像データ、第1のカメラ430Aを使用してキャプチャされた画像データ、第2のカメラ430Bを使用してキャプチャされた画像データ、第3のカメラ430Cを使用してキャプチャされた画像データ、第4のカメラ430Dを使用してキャプチャされた画像データ、画像データ502、環境705の画像、NN900の入力層910のための入力データとして使用される画像、本明細書で説明される別の画像、本明細書で説明される画像データの別のセット、又はそれらの組み合わせを含む。
【0146】
[0160] 環境の例は、場面110、ユーザ対面センサ(単数又は複数)205が面するユーザ、環境対面センサ(単数又は複数)210が面する環境、HMD310が存在する環境、第1のカメラ330A及び/又は第2のカメラ330Bが画像データをキャプチャする環境、モバイルハンドセット410が存在する環境、第1のカメラ430A及び/又は第2のカメラ430B及び/又は第3のカメラ430C及び/又は第4のカメラ430Dが、環境505、環境705の画像に描写される環境、環境805の音風景に表される環境、本明細書に記載される別の環境若しくは場面、又はそれらの組み合わせの画像データをキャプチャする環境を含む。
【0147】
[0161] 動作1010において、メディア処理システムは、画像データに表される環境内のオブジェクトのインジケーションを受信するように構成されており、受信することができる。いくつかの例では、画像データ中に表されているオブジェクトは、画像データ中に描写されているオブジェクトを含む。オブジェクトの例は、オブジェクト検出エンジン225を使用して検出されたオブジェクト、オブジェクト検出エンジン525を使用して検出されたオブジェクト、イベント検出535に対応するオブジェクト、オーディオ認識エンジン530によって検出されたオーディオを出力するオブジェクト、オブジェクト検出550を使用して検出されたオブジェクト、手検出555を使用して検出された手、オーディオ検出560によって検出されたオーディオを出力するオブジェクト、人物605、顔追跡615において追跡された顔、顔625、身体630、人物730、ラップトップ735、環境705の画像中の他の人々、本明細書で説明する他のオブジェクト、又はそれらの組み合わせを含む。いくつかの例では、オブジェクトは、人物、動物、乗り物、植物、構造物、デバイス、デバイス上に表示されたコンテンツ、媒体上に印刷された印刷コンテンツ、媒体上に書かれた筆記コンテンツ、媒体上に描かれた描画コンテンツ、又はそれらの組み合わせとすることができる。
【0148】
[0162] いくつかの態様では、環境内のオブジェクトのインジケーションを受信することは、例えば、オブジェクト検出エンジン225、イベント検出535、オーディオ認識エンジン530、オブジェクト検出550、手検出555、オーディオ検出560、顔追跡615、NN900、又はそれらの組み合わせを使用して、画像データ内のオブジェクトを検出することを含む。
【0149】
[0163] いくつかの態様では、環境内のオブジェクトのインジケーションを受信することは、ユーザインターフェースを介した入力を含み、入力は、オブジェクトを示す。いくつかの例では、ユーザインターフェースを通じた入力は、タッチスクリーンインターフェースを通じたタッチ入力、トラックパッドインターフェースを通じたタッチ入力、マウスインターフェースを通じたクリック入力、ボタンインターフェースを通じたボタン入力、キーボードインターフェースを通じたキーボード入力、キーパッドインターフェースを通じたキーパッド入力、ユーザ対面センサ(単数又は複数)205を通じた、注視追跡エンジン270を使用して解釈される注視入力、マイクロフォン及び/又はスピーチ認証制度を通じた音声コマンド入力、キーボードを使用したテキストコマンド入力であり得る。
【0150】
[0164] 動作1015において、メディア処理システムは、画像データを複数の領域に分割するように構成されており、分割することができる。複数の領域は、第1の領域及び第2の領域を含む。オブジェクトは、複数の領域のうちの1つに表される。いくつかの例では、画像データを複数の領域に分割することは、セマンティックセグメント化エンジン230及び/又はセマンティックセグメント化620によって実行される。いくつかの例では、オブジェクトが描写される複数の領域のうちの1つは、第1の領域である。いくつかの例では、オブジェクトが描写される複数の領域のうちの1つは、第2の領域である。複数の領域の例は、
図7A、
図7B、及び
図8の画像の領域を含む。例えば、複数の領域の例は、人物730、ラップトップ735、環境705の画像内の他の人々、環境705の画像内の他のオブジェクト、環境705の画像内の背景エリア、環境705の画像の領域、環境710の修正された画像の異なる輪郭の領域、環境715の修正された画像の異なる輪郭の領域、環境720の修正された画像の異なる輪郭の領域、環境755の修正された画像の異なる、シェーディングの領域、環境760の修正された画像の異なる、シェーディングの領域、環境765の修正された画像の異なる、シェーディングの領域、環境810の修正された音風景の異なる輪郭の領域、環境815の修正された音風景の異なる輪郭の領域、及び環境820の修正された音風景の異なる輪郭の領域に対応する領域を含む。
【0151】
[0165] いくつかの態様では、画像データを複数の領域に分割することは、オブジェクトの決定されたロケーションに基づいて、画像データを複数の領域に分割することを含む。オブジェクトは、少なくとも1つの領域に位置し、少なくとも1つの他の領域には位置しない。いくつかの態様では、オブジェクトのロケーションは、例えばオブジェクト検出に基づいて、画像データから決定される。いくつかの態様では、メディア処理システムは、オーディオを検出するように構成されており、オーディオを検出することができ、オブジェクトのロケーションは、オーディオの属性に基づいて決定され、属性は、オーディオのロケーション、オーディオの方向、オーディオの振幅、又はオーディオの周波数のうちの少なくとも1つを含む。
【0152】
[0166] いくつかの態様では、少なくとも1つの領域は、正方形、長方形、円、三角形、多角形、これらの形状のいずれかの一部、又はそれらの組み合わせなどの所定の形状を有する領域である。
【0153】
[0167] 動作1020において、メディア処理システムは、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなく第1の領域を不明瞭にするように画像データを修正するように構成されており、修正することができる。画像データを修正する例は、メディア修正エンジン235、修正565、画像修正635、ぼかし640、低減されたビットレート645、増大圧縮650、修復655、画素化660、修正された画像データ575、環境710の修正された画像、環境715の修正された画像、環境720の修正された画像、環境755の修正された画像、環境760の修正された画像、環境765の修正された画像、環境810の修正された音風景、環境815の修正された音風景、及び環境820の修正された音風景を含む。
【0154】
[0168] いくつかの態様では、オブジェクトは、第1の領域内に表され、第2の領域内に表されず、第1の領域を不明瞭にするように画像データを修正することは、オブジェクトが第1の領域内に表されていること、及び/又は第2の領域内に表されない(例えば、そこから欠落している)ことに基づく。
【0155】
[0169] いくつかの態様では、オブジェクトは第2の領域内に表され、第1の領域内に表されず、第2の領域を不明瞭にすることなく第1の領域を不明瞭にするように画像データを修正することは、オブジェクトが第2の領域内に表されていること、及び/又は第1の領域内に表されない(例えば、第1の領域から欠落している)ことに基づく。
【0156】
[0170] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、固視点の周囲の周辺エリアのフォービエイテッド圧縮を使用して、画像データを修正することを含む。いくつかの例では、例えば環境755の修正された画像の場合のように、第2の領域は固視点を含み、第1の領域は周辺エリアを含む。いくつかの例では、例えば、環境760の修正された画像及び環境765の修正された画像におけるように、第1の領域は、固視点を含む一方、第2の領域は、周辺エリアを含む。
【0157】
[0171] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域の少なくとも一部分をぼかすように、第1の領域の少なくとも一部分を除去するように、第1の領域の少なくとも一部分を修復するように、第1の領域の少なくとも一部分を画素化し、若しくは画素にするように、又はそれらの組み合わせを行うように、画像データを修正することを含む。
【0158】
[0172] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第2の領域を描写する画像データの第2のサブセットと比較して、第1の領域を描写する画像データの第1のサブセットの解像度を低減するように画像データを修正することを含む。いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第2の領域を描写する画像データの第2のサブセットよりも第1の領域を描写する画像データの第1のサブセットを圧縮するように画像データを修正することを含む。
【0159】
[0173] いくつかの態様では、第1の領域を不明瞭にするように画像データを修正することは、第1の領域をコーディングするために使用されるデータの量を低減する。いくつかの態様では、第1の領域を不明瞭にするために画像データを修正することは、第1の領域における圧縮を増大させること、第1の領域における量子化を増大させること、第1の領域における解像度を低減すること、第1の領域をクロップすること、及び/又は第1の領域を画素にすることのうちの少なくとも1つを含む。
【0160】
[0174] 動作1025において、メディア処理システムは、画像データを修正した後に画像データを出力するように構成されており、出力することができる。いくつかの態様では、画像データを出力することは、ディスプレイなどの出力デバイス(単数又は複数)240を使用して画像データを表示することを含む。いくつかの態様では、画像データを出力することは、トランシーバ(単数又は複数)245及び/又は通信インターフェース1140などの通信トランシーバを使用して、画像データを受信者デバイスに送信することを含む。
【0161】
[0175] いくつかの態様では、オブジェクトは、環境710の修正された画像、環境715の修正された画像、環境720の修正された画像、環境755の修正された画像、環境760の修正された画像、及び環境765の修正された画像のように、人物の身体の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、環境765の修正された画像の場合のように、人物の顔の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、例えばラップトップ735上に表示された文字列のように、文字列の少なくとも一部分を含む。いくつかの態様では、オブジェクトは、例えば、ラップトップ735のディスプレイを使用して表示されるコンテンツの場合のように、ディスプレイを使用して表示されるコンテンツの少なくとも一部分を含む。
【0162】
[0176] いくつかの態様では、メディア処理システムは、環境からマイクロフォンによってキャプチャされたオーディオデータを受信するように構成されており、受信することができる。オーディオデータは、画像データのキャプチャに対応する時間にキャプチャされる。メディア処理システムは、オーディオデータ内で、オブジェクトに対応するオーディオサンプルを検出する。メディア処理システムは、オブジェクトに対応するオーディオサンプルを減衰させるようにオーディオデータを修正し、オーディオデータを修正した後にオーディオデータを出力する。オーディオデータのかかる修正の例は、環境810の修正された音風景、環境815の修正された音風景及び環境820の修正された音風景を含む。いくつかの態様では、オーディオデータを出力することは、スピーカ及び/又はヘッドホンなどの出力デバイス(単数又は複数)240を使用して画像データを再生することを含む。いくつかの態様では、オーディオデータを出力することは、トランシーバ(単数又は複数)245及び/又は通信インターフェース1140などの通信トランシーバを使用して受信者デバイスにオーディオデータを送信することを含む。
【0163】
[0177] いくつかの態様では、メディア処理システムは、第2の画像センサから二次画像データを受信するように構成されており、受信することができる。二次画像データの例は、画像データについて上に列挙された例のいずれかを含む。第2の画像センサの例は、画像センサ並びに第3のカメラ330C及び/又は第4のカメラ330Dに関して上記に列挙される例のうちのいずれかを含む。第2の画像センサは、画像センサとは異なる視野を有する。第2の画像センサによってキャプチャされた二次画像データは、ユーザの二次画像を含む。動作1015における画像データの分割は、二次画像に更に基づく。いくつかの態様では、第2の画像センサは、ユーザの少なくとも一部分のジェスチャ又は位置をキャプチャし、画像データを分割することは、ユーザの少なくとも一部分のジェスチャの方向及び/又は位置に対応する領域を画定することを含む。いくつかの態様では、ユーザのジェスチャ又は位置は、例えば、二次画像センサがユーザ対面センサ(単数又は複数)205(例えば、第3のカメラ330C、第4のカメラ330D、第1のカメラ430A、第2のカメラ430B)のうちの1つである場合に注視追跡エンジン270によって決定されるような、ユーザの注視方向を含む。
【0164】
[0178] いくつかの態様では、メディア処理システムは、オブジェクトを識別するように構成されており、識別することができる。メディア処理システムは、オブジェクトを識別することに基づいて、オブジェクトが表示されるか又は不明瞭にされるかを判定することができる。いくつかの例では、メディア処理システムは、オブジェクトが不明瞭にされるか又は表示されるかを判定することに応じて、オブジェクトを含むように第1の領域を定義することができる。いくつかの態様では、オブジェクトが不明瞭にされると判定することは、オブジェクトが不明瞭にされるオブジェクトのブラックリストに含まれると判定すること、及び/又はオブジェクトが表示されるオブジェクトのホワイトリストに含まれないと判定することを含む。いくつかの態様では、オブジェクトが表示されると判定することは、オブジェクトが表示されるオブジェクトのホワイトリスト中に含まれると判定すること、及び/又はオブジェクトが不明瞭にされるオブジェクトのブラックリスト中に含まれないと判定することを含む。
【0165】
[0179] いくつかの例では、メディア処理システムは、画像センサによってキャプチャされた画像データを受信するための手段であって、画像データが環境を描写する、手段と、画像データ内に表される環境内のオブジェクトのインジケーションを受信するための手段と、画像データを複数の領域に分割するための手段であって、複数の領域が、第1の領域及び第2の領域を含み、オブジェクトが、複数の領域のうちの1つに表される、手段と、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正するための手段と、画像データを修正した後に画像データを出力するための手段と、を含むことができる。
【0166】
[0180] いくつかの例では、画像データを受信するための手段は、画像キャプチャ及び処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、画像センサ130、ユーザ対面センサ(単数又は複数)205、環境対面センサ(単数又は複数)210、第1のカメラ330A、第2のカメラ330B、第1のカメラ430A、第2のカメラ430B、第3のカメラ430C、第4のカメラ430D、画像データ502をキャプチャする画像センサ、環境705の画像をキャプチャする画像センサ、NN900の入力層910のための入力データとして使用される画像をキャプチャするために使用される画像センサ、入力デバイス1145、本明細書で説明する別の画像センサ、本明細書で説明する別のセンサ、又はそれらの組み合わせを含む。
【0167】
[0181] いくつかの例では、環境内のオブジェクトのインジケーションを受信するための手段は、画像プロセッサ150、ISP154、ホストプロセッサ152、オブジェクト検出エンジン225、オブジェクト検出エンジン525、イベント検出535、オーディオ認識エンジン530、オブジェクト検出550、手検出555、オーディオ検出560、顔追跡615、NN900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせを含む。
【0168】
[0182] いくつかの例では、画像データを複数の領域に分割するための手段は、画像プロセッサ150、ISP154、ホストプロセッサ152、セマンティックセグメント化エンジン230、セマンティックセグメント化620、NN900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせを含む。
【0169】
[0183] いくつかの例では、画像データを修正するための手段は、画像プロセッサ150、ISP154、ホストプロセッサ152、メディア修正エンジン235、修正565、画像修正635、ぼかし640、低減されたビットレート645、増大圧縮650、修復655、画素化660、NN900、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせを含む。
【0170】
[0184] いくつかの例では、画像データを出力するための手段は、画像プロセッサ150、ISP154、ホストプロセッサ152、出力デバイス(単数又は複数)240、トランシーバ(単数又は複数)245、コンピューティングシステム1100、出力デバイス1135、通信インターフェース1140、又はそれらの組み合わせを含む。
【0171】
[0185] いくつかの例では、本明細書で説明するプロセス(例えば、プロセス500、プロセス600、及びプロセス1000、並びに
図1、
図2、
図7A、
図7B、
図8、
図9、及び/若しくは
図11のプロセス、並びに/又は本明細書で説明する他のプロセス)は、コンピューティングデバイス又は装置によって実行され得る。いくつかの例では、本明細書に記載のプロセスは、処理システム100、画像キャプチャデバイス105A、画像処理デバイス105B、画像プロセッサ150、ISP154、ホストプロセッサ152、メディア処理システム200、HMD310、モバイルハンドセット410、
図5のメディア処理システム、
図6のメディア処理システム、
図7Aのメディア処理システム、
図7Bのメディア処理システム、
図8のメディア処理システム、ニューラルネットワーク900、
図11のメディア処理システム、コンピューティングシステム1100、プロセッサ1110、又はそれらの組み合わせによって実行することができる。
【0172】
[0186] コンピューティングデバイスは、モバイルデバイス(例えば、モバイルフォン)、デスクトップコンピューティングデバイス、タブレットコンピューティングデバイス、ウェアラブルデバイス(例えば、VRヘッドセット、ARヘッドセット、AR眼鏡、ネットワーク接続された時計若しくはスマートウォッチ、又は他のウェアラブルデバイス)、サーバコンピュータ、自律走行車若しくは自律走行車のコンピューティングデバイス、ロボットデバイス、テレビ、及び/又は本明細書で説明されるプロセスを実行するリソース能力を有する任意の他のコンピューティングデバイスなどの任意の適切なデバイスを含むことができる。場合によっては、コンピューティングデバイス又は装置は、1つ又は複数の入力デバイス、1つ又は複数の出力デバイス、1つ又は複数のプロセッサ、1つ又は複数のマイクロプロセッサ、1つ又は複数のマイクロコンピュータ、1つ又は複数のカメラ、1つ又は複数のセンサ、及び/又は本明細書で説明するプロセスのステップを実行するように構成されている他の構成要素(単数又は複数)などの、様々な構成要素を含み得る。いくつかの例では、コンピューティングデバイスは、ディスプレイ、データを通信及び/又は受信するように構成されているネットワークインターフェース、それらの任意の組み合わせ、及び/又は他の構成要素(単数又は複数)を含んでよい。ネットワークインターフェースは、インターネットプロトコル(Internet Protocol、IP)ベースのデータ又は他のタイプのデータを通信及び/又は受信するように構成され得る。
【0173】
[0187] コンピューティングデバイスの構成要素は、回路で実装され得る。例えば、構成要素は、1つ又は複数のプログラマブル電子回路(例えば、マイクロプロセッサ、グラフィックス処理ユニット(graphics processing units、GPUs)、デジタル信号プロセッサ(digital signal processors、DSPs)、中央処理ユニット(central processing units、CPUs)、及び/又は他の好適な電子回路)を含み得る、電子回路若しくは他の電子ハードウェアを含むことができる、及び/若しくはそれらを使用して実装されることが可能であり、並びに/又は本明細書で説明する様々な動作を実施するために、コンピュータソフトウェア、ファームウェア、若しくはそれらの任意の組み合わせを含むことができる、及び/若しくはそれらを使用して実装されることが可能である。
【0174】
[0188] 本明細書で説明されるプロセスは、論理フロー図、ブロック図、又は概念図として示され、その動作は、ハードウェア、コンピュータ命令、又はそれらの組み合わせで実装され得る動作のシーケンスを表す。コンピュータ命令の文脈で、動作は、1つ又は複数のプロセッサによって実行されたときに、記載された動作を実施する、1つ又は複数のコンピュータ可読記憶媒体上に記憶されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、特定の機能を実施するか又は特定のデータタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が説明される順序は、限定として解釈されることを意図せず、任意の数の説明される動作は、プロセスを実装するために任意の順序で、及び/又は並列に組み合わせることができる。
【0175】
[0189] 加えて、本明細書において説明されるプロセスは、実行可能命令を用いて構成された1つ又は複数のコンピュータシステムの制御下で実行されてもよく、1つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組み合わせで、まとめて実行するコード(例えば、実行可能命令、1つ若しくは複数のコンピュータプログラム、又は1つ又は複数のアプリケーション)として実装されてもよい。上述のように、コードは、例えば、1つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータプログラムの形態で、コンピュータ可読記憶媒体又は機械可読記憶媒体上に記憶されてもよい。コンピュータ可読記憶媒体又は機械可読記憶媒体は、非一時的であってもよい。
【0176】
[0190]
図11は、本技術の特定の態様を実装するためのシステムの一例を示す図である。特に、
図11は、例えば、内部コンピューティングシステムを構成する任意のコンピューティングデバイス、リモートコンピューティングシステム、カメラ、又はシステムの構成要素が接続1105を使用して互いに通信するその任意の構成要素とすることができる、コンピューティングシステム1100の例を示す。接続1105は、バスを使用した物理接続、又はチップセットアーキテクチャなどにおけるプロセッサ1110への直接接続であってよい。接続1105はまた、仮想接続、ネットワーク接続、又は論理接続であり得る。
【0177】
[0191] いくつかの実施形態では、コンピューティングシステム1100は、本開示で説明される機能が、データセンター、複数のデータセンター、ピアネットワークなど内に分散され得る、分散システムである。いくつかの実施形態では、説明されるシステム構成要素のうちの1つ又は複数は、それぞれ、その構成要素が説明される機能の一部又は全部を果たす、多くのかかる構成要素を表す。いくつかの実施形態では、構成要素は物理デバイス又は仮想デバイスとすることができる。
【0178】
[0192] 例示的なシステム1100は、少なくとも1つの処理ユニット1110(CPU又はプロセッサ)と、読取り専用メモリ(ROM)1120及びランダムアクセスメモリ(RAM)1125のようなシステムメモリ1115を含む種々のシステム構成要素をプロセッサ1110に結合する接続1105とを含む。コンピューティングシステム1100は、プロセッサ1110に直接接続された、近接した、又はその一部として統合された高速メモリのキャッシュ1112を含むことができる。
【0179】
[0193] プロセッサ1110は、任意の汎用プロセッサと、プロセッサ1110を制御するように構成された、記憶デバイス1130に記憶されたサービス1132、1134、及び1136などのハードウェアサービス又はソフトウェアサービスと、ソフトウェア命令が実際のプロセッサ設計に組み込まれた専用プロセッサとを含むことができる。プロセッサ1110は基本的に、複数のコア又はプロセッサ、バス、メモリコントローラ、キャッシュなどを含む、完全に自己完結型のコンピューティングシステムであってもよい。マルチコアプロセッサは、対称であってもよく又は非対称であってもよい。
【0180】
[0194] ユーザ対話を可能にするために、コンピューティングシステム1100は、スピーチのためのマイクロフォン、ジェスチャ又はグラフィカル入力のためのタッチセンシティブスクリーン、キーボード、マウス、動き入力、スピーチなど、任意の数の入力機構を表すことができる入力デバイス1145を含む。コンピューティングシステム1100はまた、一部の出力機構のうちの1つ又は複数であり得る出力デバイス1135を含むことができる。場合によっては、多モードのシステムは、コンピューティングシステム1100と通信するためにユーザが複数のタイプの入力/出力を提供することを可能にし得る。コンピューティングシステム1100は、通信インターフェース1140を含むことができ、これは、概して、ユーザ入力及びシステム出力を統制及び管理することができる。通信インターフェースは、オーディオジャック/プラグ、マイクロフォンジャック/プラグ、ユニバーサルシリアルバス(universal serial bus、USB)ポート/プラグ、Apple(登録商標)Lightning(登録商標)ポート/プラグ、Ethernetポート/プラグ、光ファイバーポート/プラグ、プロプライエタリ有線ポート/プラグ、BLUETOOTH(登録商標)ワイヤレス信号転送、BLUETOOTH(登録商標)低エネルギー(low energy、BLE)ワイヤレス信号転送、IBEACON(登録商標)ワイヤレス信号転送、無線周波識別(radio-frequency identification、RFID)ワイヤレス信号転送、近距離通信(near-field communications、NFC)ワイヤレス信号転送、専用短距離通信(dedicated short range communication、DSRC)ワイヤレス信号転送、802.11 Wi-Fiワイヤレス信号転送、ワイヤレスローカルエリアネットワーク(wireless local area network、WLAN)信号転送、可視光通信(Visible Light Communication、VLC)、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(Worldwide Interoperability for Microwave Access、WiMAX)、赤外線(infrared、IR)通信ワイヤレス信号転送、公衆交換電話網(Public Switched Telephone Network、PSTN)信号転送、統合サービスデジタルネットワーク(Integrated Services Digital Network、ISDN)信号転送、3G/4G/5G/LTEセルラーデータネットワークワイヤレス信号転送、アドホックネットワーク信号転送、電波信号転送、マイクロ波信号転送、赤外線信号転送、可視光信号転送、紫外光信号転送、電磁スペクトルに沿ったワイヤレス信号転送、又はそれらの何らかの組み合わせを利用するものを含む、有線及び/又はワイヤレストランシーバを使用する有線通信又はワイヤレス通信の受信及び/又は送信を実施し得るか、又は容易にし得る。通信インターフェース1140はまた、1つ又は複数の全地球航法衛星システム(Global Navigation Satellite System、GNSS)システムに関連付けられた1つ又は複数の衛星からの1つ又は複数の信号の受信に基づいて、コンピューティングシステム1100のロケーションを判定するために使用される、1つ又は複数のGNSS受信機又はトランシーバを含んでもよい。GNSSシステムは、限定はしないが、米国の全地球測位システム(GPS)、ロシアの全地球航法衛星システム(Global Navigation Satellite System、GLONASS)、中国の北斗航法衛星システム(BeiDou Navigation Satellite system、BDS)、及び欧州のGalileo GNSSを含む。任意の特定のハードウェア配列で動作することに対して制約がなく、したがって、ここでの基本的な特徴は、それらが開発されるにつれて、改善されたハードウェア配列又はファームウェア配列のために容易に置き換えられてよい。
【0181】
[0195] 記憶デバイス1130は、不揮発性のかつ/又は非一時的なかつ/又はコンピュータ可読のメモリデバイスであってもよく、磁気カセット、フラッシュメモリカード、固体メモリデバイス、デジタル多用途ディスク、カートリッジ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、磁気ストリップ/ストライプ、任意の他の磁気記憶媒体、フラッシュメモリ、メモリスタメモリ、任意の他の固体メモリ、コンパクトディスク読取り専用メモリ(compact disc read only memory、CD-ROM)光ディスク、再書き込み可能コンパクトディスク(compact disc、CD)光ディスク、デジタルビデオディスク(digital video disk、DVD)光ディスク、ブルーレイディスク(blu-ray disc、BDD)光ディスク、ホログラフィック光ディスク、別の光媒体、セキュアデジタル(secure digital、SD)カード、マイクロセキュアデジタル(micro secure digital、microSD)カード、メモリスティック(登録商標)カード、スマートカードチップ、EMVチップ、加入者識別モジュール(subscriber identity module、SIM)カード、ミニ/マイクロ/ナノ/ピコSIMカード、別の集積回路(integrated circuit、IC)チップ/カード、ランダムアクセスメモリ(RAM)、スタティックRAM(static RAM、SRAM)、ダイナミックRAM(dynamic RAM、DRAM)、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(programmable read-only memory、PROM)、消去可能プログラマブル読取り専用メモリ(erasable programmable read-only memory、EPROM)、電気的消去可能プログラマブル読取り専用メモリ(electrically erasable programmable read-only memory、EEPROM)、フラッシュEPROM(flash EPROM、FLASHEPROM)、キャッシュメモリ(L1/L2/L3/L4/L5/L#)、抵抗性ランダムアクセスメモリ(resistive random-access memory、RRAM/ReRAM)、位相変化メモリ(phase change memory、PCM)、スピン転送トルクRAM(spin transfer torque RAM、STT-RAM)、別のメモリチップ若しくはカートリッジ、及び/又はそれらの組み合わせなどの、コンピュータによってアクセス可能であるデータを記憶できるハードディスク又は他のタイプのコンピュータ可読媒体であってよい。
【0182】
[0196] 記憶デバイス1130は、そのようなソフトウェアを定義するコードがプロセッサ1110によって実行されたときに、システムに機能を実施させる、ソフトウェアサービス、サーバ、サービスなどを含み得る。いくつかの実施形態では、特定の機能を実施するハードウェアサービスは、機能を実行するために、プロセッサ1110、接続1105、出力デバイス1135などの必要なハードウェア構成要素に関してコンピュータ可読媒体内に記憶された、ソフトウェア構成要素を含み得る。
【0183】
[0197] 本明細書で使用する「コンピュータ可読媒体」という用語は、限定はしないが、携帯型又は非携帯型の記憶デバイス、光記憶デバイス、並びに命令(単数又は複数)及び/又はデータを記憶、格納、又は搬送することが可能な様々な他の媒体を含む。コンピュータ可読媒体は、データが記憶され得、かつワイヤレスで若しくは有線接続を介して伝搬する搬送波及び/又は一時的な電子信号を含まない、非一時的媒体を含んでもよい。非一時的媒体の例としては、限定はしないが、磁気ディスク若しくはテープ、コンパクトディスク(CD)若しくはデジタル多用途ディスク(DVD)などの光記憶媒体、フラッシュメモリ、メモリ、又はメモリデバイスが挙げられ得る。コンピュータ可読媒体は、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は命令、データ構造、若しくはプログラムステートメントの任意の組み合わせを表し得る、コンピュータ可読媒体上に記憶されたコード及び/又は機械実行可能命令を有してもよい。コードセグメントは、情報、データ、引数、パラメータ、又はメモリコンテンツを渡すこと及び/又は受けることによって、別のコードセグメント又はハードウェア回路に結合されてもよい。情報、引数、パラメータ、データなどは、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む、任意の好適な手段を使用して渡され、転送され、又は伝送されてもよい。
【0184】
[0198] いくつかの実施形態では、コンピュータ可読記憶デバイス、媒体、及びメモリは、ビットストリームなどを含むケーブル又はワイヤレス信号を含み得る。しかしながら、言及する場合、非一時的コンピュータ可読記憶媒体は、エネルギー、キャリア信号、電磁波、及び信号自体などの媒体を明確に除外する。
【0185】
[0199] 本明細書で提供する実施形態及び例の完全な理解を与えるために、上記の説明において具体的な詳細が提供されている。しかしながら、実施形態がこれらの具体的な詳細なしに実践され得ることが当業者によって理解されよう。説明を分かりやすくするために、いくつかの事例では、本技術は、デバイス、デバイス構成要素、ソフトウェアの中で具現される方法におけるステップ若しくはルーチン、又はハードウェアとソフトウェアとの組み合わせを備える機能ブロックを含む、個々の機能ブロックを含むものとして提示されることがある。図中に示され、及び/又は本明細書で説明される構成要素以外の追加の構成要素が使用されてもよい。例えば、不必要な詳細で実施形態を不明瞭にしないように、回路、システム、ネットワーク、プロセス、及び他の構成要素がブロック図の形態で構成要素として示されることがある。他の事例では、実施形態を不明瞭にすることを避けるために、よく知られている回路、プロセス、アルゴリズム、構造、及び技法は、不必要な詳細なしに示されることがある。
【0186】
[0200] 個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として示されるプロセス又は方法として上記で説明されることがある。フローチャートは、動作を逐次プロセスとして説明することがあるが、動作の多くは並列に又は同時に実施され得る。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了するときに終了するが、図に含まれていない追加のステップを有することができる。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するときに、その終了は、その関数が呼出し関数又はメイン関数に戻ることに対応することができる。
【0187】
[0201] 上記で説明した例によるプロセス及び方法は、コンピュータ可読媒体に記憶されているか、又はそうでなければコンピュータ可読媒体から入手可能なコンピュータ実行可能命令を使用して実装され得る。そのような命令は、例えば、汎用コンピュータ、専用コンピュータ、若しくは処理デバイスにいくつかの機能若しくは機能の群を実施させるか、又は場合によっては、いくつかの機能若しくは機能の群を実施するように汎用コンピュータ、専用コンピュータ、若しくは処理デバイスを構成する、命令及びデータを含み得る。使用されるコンピュータリソースの部分は、ネットワークを介してアクセス可能であり得る。コンピュータ実行可能命令は、例えば、アセンブリ言語、ファームウェア、ソースコードなどの、バイナリ、中間フォーマット命令であってもよい。命令、使用される情報、及び/又は説明する例による方法の間に作成される情報を記憶するために使用されることがあるコンピュータ可読媒体の例としては、磁気又は光ディスク、フラッシュメモリ、不揮発性メモリを備えたUSBデバイス、ネットワーク接続された記憶デバイスなどが挙げられる。
【0188】
[0202] これらの開示に従ってプロセス及び方法を実装するデバイスは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを含むことができ、様々なフォームファクタのうちのいずれかを取ることができる。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードで実装されるときに、必要なタスクを実行するプログラムコード又はコードセグメント(例えば、コンピュータプログラム製品)は、コンピュータ可読媒体又は機械可読媒体内に記憶されてもよい。プロセッサ(単数又は複数)は、必要なタスクを実行してもよい。フォームファクタの典型的な例としては、ラップトップ、スマートフォン、携帯電話、タブレットデバイス又は他の小スペース型パーソナルコンピュータ、携帯情報端末、ラックマウントデバイス、スタンドアロンデバイスなどが挙げられる。本明細書で説明した機能はまた、周辺装置又はアドインカードで具現化され得る。そのような機能はまた、更なる例として、異なるチップのうちの回路基板上、又は単一のデバイスにおいて実行する異なるプロセス上で実装され得る。
【0189】
[0203] 命令、そのような命令の伝搬用の媒体、命令の実行用のコンピューティングリソース、及びそのようなコンピューティングリソースをサポートする他の構造は、本開示で説明した機能を提供する例示的な手段である。
【0190】
[0204] 上記の説明では、本出願の態様はそれらの特定の実施形態を参照しながら説明されるが、本出願がそれらに限定されないことを当業者は認識されよう。したがって、本出願の例示的な実施形態が本明細書で詳細に説明されているが、本発明の概念が別のやり方で様々に具現及び採用され得ること、並びに従来技術によって限定される場合を除き、添付の特許請求の範囲がそのような変形を含むものと解釈されることが意図されることを理解されたい。上記で説明した本出願の様々な特徴及び態様は、個別に又は共同で使用され得る。更に、実施形態は、本明細書のより広い趣旨及び範囲から逸脱することなく、本明細書で説明するもの以外の任意の数の環境及び適用例において利用することができる。したがって、本明細書及び図面は、限定的ではなく例示的とみなされるべきである。例示のために、方法は特定の順序で説明された。代替実施形態では、方法は、説明された順序とは異なる順序で実行されてもよいことを理解されたい。
【0191】
[0205] 本明細書で使用される、よりも小さい(「<」)及びよりも大きい(「>」)のシンボル又は専門用語は、本明細書の範囲から逸脱することなく、それぞれ、よりも小さいか又はそれに等しい(「≦」)、及び、よりも大きいか又はそれに等しい(「≧」)のシンボルと置き換えられ得ることを、当業者は諒解されよう。
【0192】
[0206] 構成要素が一定の動作を実施する「ように構成されている」ものとして説明される場合、そのような構成は、例えば、動作を実施するように電子回路又は他のハードウェアを設計することによって、動作を実行するようにプログラマブル電子回路(例えば、マイクロプロセッサ、又は他の好適な電子回路)をプログラムすることによって、又はそれらの任意の組み合わせで達成され得る。
【0193】
[0207] 「に結合された」という句は、直接的若しくは間接的のいずれかで別の構成要素に物理的に接続されている任意の構成要素、及び/又は直接的若しくは間接的のいずれかで別の構成要素と通信している(例えば、有線若しくはワイヤレス接続及び/又は他の好適な通信インターフェースを介して他の構成要素に接続されている)任意の構成要素を指す。
【0194】
[0208] 集合「のうちの少なくとも1つ」及び/又は集合のうちの「1つ又は複数」と記載する請求項の文言又は他の文言は、集合の1つのメンバー又は集合の(任意の組み合わせでの)複数のメンバーが請求項を満たすことを示す。例えば、「A及びBのうちの少なくとも1つ」と記載する請求項の文言は、A、B、又はA及びBを意味する。別の例では、「A、B、及びCのうちの少なくとも1つ」と記載する請求項の文言は、A、B、C、又はA及びB、又はA及びC、又はB及びC、又はA及びB及びCを意味する。集合「のうちの少なくとも1つ」及び/又は集合のうちの「1つ又は複数」という文言は、集合の中で列挙される項目にその集合を限定しない。例えば、「A及びBのうちの少なくとも1つ」を記述する請求項の文言は、A、B、又はA及びBを意味することができ、加えて、A及びBの集合に列挙されていない項目を更に含むことができる。
【0195】
[0209] 本明細書で開示する実施形態に関して説明した様々な例解的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、ファームウェア、又はそれらの組み合わせとして実装され得る。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップについて、それらの機能に関して概略的に上記で説明した。そのような機能がハードウェアとして実装されるのか又はソフトウェアとして実装されるのかは、特定の適用例及びシステム全体に課される設計上の制約に依存する。当業者は、説明した機能を特定の適用例ごとに様々な方法で実装し得るが、そのような実装の判定は、本出願の範囲から逸脱する原因として解釈されるべきではない。
【0196】
[0210] 本明細書で説明する技法はまた、電子ハードウェア、コンピュータソフトウェア、ファームウェア、又はそれらの任意の組み合わせで実装され得る。そのような技法は、汎用コンピュータ、ワイヤレス通信デバイスハンドセット、又はワイヤレス通信デバイスハンドセット及び他のデバイスにおける適用例を含む複数の用途を有する集積回路デバイスなどの、様々なデバイスのうちのいずれかで実装されてもよい。モジュール又は構成要素として説明した任意の特徴は、集積ロジックデバイスの中で一緒に、又は個別であるが相互動作可能なロジックデバイスとして別々に実装され得る。ソフトウェアで実装される場合、技法は、実行されると、上記で説明した方法のうちの1つ又は複数を実施する命令を含むプログラムコードを備えるコンピュータ可読データ記憶媒体によって少なくとも部分的に実現されてよい。コンピュータ可読データ記憶媒体は、コンピュータプログラム製品の一部を形成してもよく、これはパッケージ材料を含んでもよい。コンピュータ可読媒体は、同期ダイナミックランダムアクセスメモリ(synchronous dynamic random access memory、SDRAM)などのランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(non-volatile random access memory、NVRAM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、FLASHメモリ、磁気又は光データ記憶媒体などの、メモリ又はデータ記憶媒体を備えてもよい。技法は、追加又は代替として、命令又はデータ構造の形態でのプログラムコードを搬送又は通信し、かつコンピュータによってアクセスされ、読み取られ、及び/又は実行され得る、伝搬される信号又は波などの、コンピュータ可読通信媒体によって少なくとも部分的に実現されてもよい。
【0197】
[0211] プログラムコードは、1つ又は複数のデジタル信号プロセッサ(DSPs)、汎用マイクロプロセッサ、特定用途向け集積回路(application specific integrated circuits、ASICs)、フィールドプログラマブルロジックアレイ(field programmable logic arrays、FPGAs)、又は他の同等の集積論理回路若しくは個別論理回路などの1つ又は複数のプロセッサを含み得る、プロセッサによって実行されてもよい。そのようなプロセッサは、本開示で説明した技法のいずれかを実施するように構成されてもよい。汎用プロセッサは、マイクロプロセッサであってもよい代わりに、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンでもあってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携した1つ又は複数のマイクロプロセッサ、又は任意の他のそのような構成として実装されてもよい。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、上記の構造の任意の組み合わせ、又は本明細書で説明した技法の実装に適した任意の他の構造若しくは装置のうちのいずれかを指すことがある。加えて、いくつかの態様では、本明細書で説明した機能性は、符号化及び復号化のために構成された専用のソフトウェアモジュール若しくはハードウェアモジュール内に設けられてよく、又は複合ビデオエンコーダデコーダ(combined video encoder-decoder、CODEC)内に組み込まれてよい。
【0198】
[0212] 本開示の例示的な態様は以下を含む。
【0199】
[0213] 態様1:メディア処理のための装置であって、装置が、メモリと、メモリに結合された1つ又は複数のプロセッサと、を備え、1つ又は複数のプロセッサが、画像センサによってキャプチャされた、環境を描写する画像データを受信し、画像データ内に表される環境内のオブジェクトのインジケーションを受信し、画像データを、第1の領域及び第2の領域を含む複数の領域であって、オブジェクトが複数の領域のうちの1つに表される、複数の領域に分割し、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正し、画像データを修正した後に画像データを出力する、ように構成されている、装置。
【0200】
[0214] 態様2.画像データを複数の領域に分割するために、1つ又は複数のプロセッサが、オブジェクトの決定されたロケーションに基づいて画像データを複数の領域に分割するように構成されており、オブジェクトが、少なくとも1つの領域に位置し、少なくとも1つの他の領域に位置しない、態様1に記載の装置。
【0201】
[0215] 態様3.オブジェクトのロケーションが、画像データから決定される、態様1又は2に記載の装置。
【0202】
[0216] 態様4.1つ又は複数のプロセッサが、オーディオを検出するように構成されており、オブジェクトのロケーションが、オーディオの属性に基づいて決定され、属性が、オーディオのロケーション、オーディオの方向、オーディオの振幅、又はオーディオの周波数のうちの少なくとも1つを含む、態様1~3のいずれかに記載の装置。
【0203】
[0217] 態様5.環境内のオブジェクトのインジケーションを受信するために、1つ又は複数のプロセッサが、画像データ内のオブジェクトを検出するように構成されている、態様1~4のいずれかに記載の装置。
【0204】
[0218] 態様6.環境内のオブジェクトのインジケーションを受信するために、1つ又は複数のプロセッサが、ユーザインターフェースを介して入力を受信するように構成されており、入力が、オブジェクトを示す、態様1~5のいずれかに記載の装置。
【0205】
[0219] 態様7.オブジェクトが、第1の領域内に表され、第2の領域内に表されず、第1の領域を不明瞭にするように画像データを修正することが、オブジェクトが第1の領域内に描写されていることに基づく、態様1~6のいずれかに記載の装置。
【0206】
[0220] 態様8.オブジェクトが、第2の領域内に表され、第1の領域内に表されず、第2の領域を不明瞭にすることなく第1の領域を不明瞭にするように画像データを修正することが、オブジェクトが第2の領域内に描写され、第1の領域内に表されないことに基づく、態様1~7のいずれかに記載の装置。
【0207】
[0221] 態様9.第1の領域を不明瞭にするように画像データを修正することが、固視点の周りの周辺エリアのフォービエイテッド圧縮を使用して画像データを修正することを含み、第2の領域が、固視点を含み、第1の領域が、周辺エリアを含む、態様1~8のいずれかに記載の装置。
【0208】
[0222] 態様10.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分をぼかすように画像データを修正することを含む、態様1~9のいずれかに記載の装置。
【0209】
[0223] 態様11.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を除去するように画像データを修正することを含む、態様1~10のいずれかに記載の装置。
【0210】
[0224] 態様12.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を修復するように画像データを修正することを含む、態様1~11のいずれかに記載の装置。
【0211】
[0225] 態様13.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を画素化するように画像データを修正することを含む、態様1~12のいずれかに記載の装置。
【0212】
[0226] 態様14.第1の領域を不明瞭にするように画像データを修正することが、第2の領域を描写する画像データの第2のサブセットと比較して、第1の領域を描写する画像データの第1のサブセットの解像度を低減するように画像データを修正することを含む、態様1~13のいずれかに記載の装置。
【0213】
[0227] 態様15.第1の領域を不明瞭にするように画像データを修正することが、第2の領域を描写する画像データの第2のサブセットよりも第1の領域を描写する画像データの第1のサブセットを圧縮するように画像データを修正することを含む、態様1~14のいずれかに記載の装置。
【0214】
[0228] 態様16.オブジェクトが、人物の少なくとも一部分を含む、態様1~15のいずれかに記載の装置。
【0215】
[0229] 態様17.オブジェクトが、人物の顔の少なくとも一部分を含む、態様1~16のいずれかに記載の装置。
【0216】
[0230] 態様18.オブジェクトが、文字列の少なくとも一部分を含む、態様1~17のいずれかに記載の装置。
【0217】
[0231] 態様19.オブジェクトが、ディスプレイを使用して表示されるコンテンツの少なくとも一部分を含む、態様1~18のいずれかに記載の装置。
【0218】
[0232] 態様20.ディスプレイを更に備え、画像データを出力するために、1つ又は複数のプロセッサが、ディスプレイを使用して画像データを表示するように構成されている、態様1~19のいずれかに記載の装置。
【0219】
[0233] 態様21.通信トランシーバを更に備え、画像データを出力するために、1つ又は複数のプロセッサが、通信トランシーバを使用して画像データを受信者デバイスに送信するように構成されている、態様1~20のいずれかに記載の装置。
【0220】
[0234] 態様22.1つ又は複数のプロセッサが、環境からマイクロフォンによってキャプチャされた、画像データのキャプチャに対応する時間にキャプチャされたオーディオデータを受信し、オーディオデータ内で、オブジェクトに対応するオーディオサンプルを検出し、オブジェクトに対応するオーディオサンプルを減衰させるようにオーディオデータを修正し、オーディオデータを修正した後にオーディオデータを出力する、ように構成されている、態様1~21のいずれかに記載の装置。
【0221】
[0235] 態様23.少なくとも1つの領域が、所定の形状を有する領域である、態様1~22のいずれかに記載の装置。
【0222】
[0236] 態様24.1つ又は複数のプロセッサが、第2の画像センサから二次画像データを受信するように構成されており、第2の画像センサが、第1の画像センサと異なる視野を有し、第2の画像センサによってキャプチャされた二次画像データが、ユーザの二次画像を含み、画像データの分割が、二次画像に更に基づく、態様1~23のいずれかに記載の装置。
【0223】
[0237] 態様25.第2の画像センサが、ユーザの少なくとも一部分のジェスチャ又は位置をキャプチャし、画像データを分割することが、ユーザの少なくとも一部分のジェスチャの方向及び/又は位置に対応する領域を画定することを含む、態様24に記載の装置。
【0224】
[0238] 態様26.ユーザのジェスチャ又は位置が、ユーザの注視方向を含む、態様25に記載の装置。
【0225】
[0239] 態様27.第1の領域を不明瞭にするように画像データを修正することが、第1の領域をコーディングするために使用されるデータの量を低減する、態様1~26のいずれかに記載の装置。
【0226】
[0240] 態様28.第1の領域を不明瞭にするように画像データを修正することが、第1の領域における圧縮を増大させること、第1の領域における量子化を増大させること、第1の領域における解像度を低減すること、第1の領域をクロップすること、及び/又は第1の領域を画素にすることのうちの少なくとも1つを含む、態様27に記載の装置。
【0227】
[0241] 態様29.オブジェクトを識別することと、検出されたオブジェクトが表示されるか、又は不明瞭にされるかを判定することと、オブジェクトが不明瞭にされると判定されたときに、オブジェクトを含むように第1の領域を定義することと、を更に含む、態様1~28のいずれかに記載の装置。
【0228】
[0242] 態様30.オブジェクトが不明瞭にされると判定することが、オブジェクトが不明瞭にされるオブジェクトのブラックリストに含まれると判定すること、及び/又はオブジェクトが表示されるオブジェクトのホワイトリストに含まれないと判定することを含む、態様29に記載の装置。
【0229】
[0243] 態様31.メディア処理のための方法であって、方法が、画像センサによってキャプチャされた、環境を描写する画像データを受信することと、画像データ内に表される環境内のオブジェクトのインジケーションを受信することと、画像データを複数の領域であって、複数の領域が、第1の領域及び第2の領域を含み、オブジェクトが、複数の領域のうちの1つに表される、複数の領域に分割することと、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正することと、画像データを修正した後に画像データを出力することと、を含む、方法。
【0230】
[0244] 態様32.画像データを複数の領域に分割することが、オブジェクトの決定されたロケーションに基づいて画像データを複数の領域に分割することを含み、オブジェクトが、少なくとも1つの領域に位置し、少なくとも1つの他の領域に位置しない、態様31に記載の方法。
【0231】
[0245] 態様33.オブジェクトのロケーションが、画像データから決定される、態様31又は32に記載の方法。
【0232】
[0246] 態様34.オーディオを検出することを更に含み、オブジェクトのロケーションが、オーディオの属性に基づいて決定され、属性が、オーディオのロケーション、オーディオの方向、オーディオの振幅、又はオーディオの周波数のうちの少なくとも1つを含む、態様31~33のいずれかに記載の方法。
【0233】
[0247] 態様35.環境内のオブジェクトのインジケーションを受信することが、画像データ内のオブジェクトを検出することを含む、態様31~34のいずれかに記載の方法。
【0234】
[0248] 態様36.環境内のオブジェクトのインジケーションを受信することが、ユーザインターフェースを介した入力を含み、入力が、オブジェクトを示す、態様31~35のいずれかに記載の方法。
【0235】
[0249] 態様37.オブジェクトが、第1の領域内に表され、第2の領域内に表されず、第1の領域を不明瞭にするように画像データを修正することが、オブジェクトが第1の領域内に描写されていることに基づく、態様31~36のいずれかに記載の方法。
【0236】
[0250] 態様38.オブジェクトが、第2の領域内に表され、第1の領域内に表されず、第2の領域を不明瞭にすることなく第1の領域を不明瞭にするように画像データを修正することが、オブジェクトが第2の領域内に描写され、第1の領域内に表されないことに基づく、態様31~37のいずれかに記載の方法。
【0237】
[0251] 態様39.第1の領域を不明瞭にするように画像データを修正することが、固視点の周りの周辺エリアのフォービエイテッド圧縮を使用して画像データを修正することを含み、第2の領域が、固視点を含み、第1の領域が、周辺エリアを含む、態様31~38のいずれかに記載の方法。
【0238】
[0252] 態様40.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分をぼかすように画像データを修正することを含む、態様31~39のいずれかに記載の方法。
【0239】
[0253] 態様41.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を除去するように画像データを修正することを含む、態様31~40のいずれかに記載の方法。
【0240】
[0254] 態様42.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を修復するように画像データを修正することを含む、態様31~41のいずれかに記載の方法。
【0241】
[0255] 態様43.第1の領域を不明瞭にするように画像データを修正することが、第1の領域の少なくとも一部分を画素化するように画像データを修正することを含む、態様31~42のいずれかに記載の方法。
【0242】
[0256] 態様44.第1の領域を不明瞭にするように画像データを修正することが、第2の領域を描写する画像データの第2のサブセットと比較して、第1の領域を描写する画像データの第1のサブセットの解像度を低減するように画像データを修正することを含む、態様31~43のいずれかに記載の方法。
【0243】
[0257] 態様45.第1の領域を不明瞭にするように画像データを修正することが、第2の領域を描写する画像データの第2のサブセットよりも第1の領域を描写する画像データの第1のサブセットを圧縮するように画像データを修正することを含む、態様31~44のいずれかに記載の方法。
【0244】
[0258] 態様46.オブジェクトが、人物の少なくとも一部分を含む、態様31~45のいずれかに記載の方法。
【0245】
[0259] 態様47.オブジェクトが、人物の顔の少なくとも一部分を含む、態様31~46のいずれかに記載の方法。
【0246】
[0260] 態様48.オブジェクトが、文字列の少なくとも一部分を含む、態様31~47のいずれかに記載の方法。
【0247】
[0261] 態様49.オブジェクトが、ディスプレイを使用して表示されるコンテンツの少なくとも一部分を含む、態様31~48のいずれかに記載の方法。
【0248】
[0262] 態様50.画像データを出力することが、ディスプレイを使用して画像データを表示することを含む、態様31~49のいずれかに記載の方法。
【0249】
[0263] 態様51.画像データを出力することが、通信トランシーバを使用して受信者デバイスに画像データを送信することを含む、態様31~50のいずれかに記載の方法。
【0250】
[0264] 態様52.環境からマイクロフォンによってキャプチャされた、画像データのキャプチャに対応する時間にキャプチャされたオーディオデータを受信することと、オーディオデータ内で、オブジェクトに対応するオーディオサンプルを検出することと、オブジェクトに対応するオーディオサンプルを減衰させるようにオーディオデータを修正することと、オーディオデータを修正した後にオーディオデータを出力することと、を更に含む、態様31~51のいずれかに記載の方法。
【0251】
[0265] 態様53.少なくとも1つの領域が、所定の形状を有する領域である、態様31~52のいずれかに記載の方法。
【0252】
[0266] 態様54.第2の画像センサから二次画像データを受信することを更に含み、第2の画像センサが、第1の画像センサと異なる視野を有し、第2の画像センサによってキャプチャされた二次画像データが、ユーザの二次画像を含み、画像データの分割が、二次画像に更に基づく、態様31~53のいずれかに記載の方法。
【0253】
[0267] 態様55.第2の画像センサが、ユーザの少なくとも一部分のジェスチャ又は位置をキャプチャし、画像データを分割することが、ユーザの少なくとも一部分のジェスチャの方向及び/又は位置に対応する領域を画定することを含む、態様54に記載の方法。
【0254】
[0268] 態様56.ユーザのジェスチャ又は位置が、ユーザの注視方向を含む、態様31~55のいずれかに記載の方法。
【0255】
[0269] 態様57.第1の領域を不明瞭にするように画像データを修正することが、第1の領域をコーディングするために使用されるデータの量を低減する、態様31~56のいずれかに記載の方法。
【0256】
[0270] 態様58.第1の領域を不明瞭にするように画像データを修正することが、第1の領域における圧縮を増大させること、第1の領域における量子化を増大させること、第1の領域における解像度を低減すること、第1の領域をクロップすること、及び/又は第1の領域を画素にすることのうちの少なくとも1つを含む、態様57に記載の方法。
【0257】
[0271] 態様59.オブジェクトを識別することと、オブジェクトを識別することに基づいて、オブジェクトが表示されるか、又は不明瞭にされるかを判定することと、オブジェクトが不明瞭にされると判定したことに応答して、オブジェクトを含むように第1の領域を定義することと、を更に含む、態様31~58のいずれかに記載の方法。
【0258】
[0272] 態様60.オブジェクトが不明瞭にされると判定することが、オブジェクトが不明瞭にされるオブジェクトのブラックリストに含まれると判定すること、及び/又はオブジェクトが表示されるオブジェクトのホワイトリストに含まれないと判定することを含む、態様59に記載の方法。
【0259】
[0273] 態様61:命令を記憶した非一時的コンピュータ可読媒体であって、命令が、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、画像センサによってキャプチャされた、環境を描写する画像データを受信させ、画像データ内に表される環境内のオブジェクトのインジケーションを受信させ、画像データを、第1の領域及び第2の領域を含む複数の領域であって、オブジェクトが複数の領域のうちの1つに表される、複数の領域に分割させ、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正させ、画像データを修正した後に画像データを出力させる、非一時的コンピュータ可読媒体。
【0260】
[0274] 態様62:態様2~30のいずれか、及び/又は態様32~60のいずれかによる動作を更に含む、態様61に記載の非一時的コンピュータ可読媒体。
【0261】
[0275] 態様63:画像処理のための装置であって、装置が、画像センサによってキャプチャされた画像データを受信するための手段であって、画像データが、環境を描写する、手段と、画像データ内に表される環境内のオブジェクトのインジケーションを受信するための手段と、画像データを複数の領域に分割するための手段であって、複数の領域が、第1の領域及び第2の領域を含み、オブジェクトが、複数の領域のうちの1つに表される、手段と、オブジェクトが複数の領域のうちの1つに表されていることに基づいて、第2の領域を不明瞭にすることなしに第1の領域を不明瞭にするように画像データを修正するための手段と、画像データを修正した後に画像データを出力するための手段と、を備える、装置。
【0262】
[0276] 態様64:態様2~30のいずれか、及び/又は態様32~60のいずれかによる動作を実行するための手段を更に備える、態様63に記載の装置。
【国際調査報告】