(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-12
(54)【発明の名称】異なるアスペクト比を有するディスプレイ上で提示するためのビデオ画像の製作と適応
(51)【国際特許分類】
H04N 5/222 20060101AFI20230705BHJP
H04N 5/262 20060101ALI20230705BHJP
【FI】
H04N5/222
H04N5/262 080
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022575886
(86)(22)【出願日】2021-06-09
(85)【翻訳文提出日】2023-02-09
(86)【国際出願番号】 US2021036698
(87)【国際公開番号】W WO2021252697
(87)【国際公開日】2021-12-16
(32)【優先日】2020-06-11
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2020-06-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-08-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】アトキンス,ロビン
(72)【発明者】
【氏名】ファレル,スザンヌ
(72)【発明者】
【氏名】クリットマーク,パー ヨナス アンドレアス
【テーマコード(参考)】
5C023
5C122
【Fターム(参考)】
5C023AA02
5C023AA38
5C023CA02
5C122DA42
5C122EA47
5C122EA61
5C122EA70
5C122FA06
5C122FH01
5C122FH07
5C122FH10
5C122FK23
5C122GA01
5C122HA02
5C122HA13
5C122HA86
5C122HB01
5C122HB09
5C122HB10
(57)【要約】
記載する実施形態は、ビデオ画像などの画像を製作し、4:3、16:9、9:16などの様々な異なるアスペクト比を有する再生デバイス上で提示するために画像を適応させる、システムおよび方法を含む。一実施形態においてビデオ画像などのコンテンツを製作する方法は、元のアスペクト比を選択し、コンテンツ内の少なくとも第1のシーン内で、第1のシーン内での被写体の位置を決定することにより開始し得る。一実施形態において、元のアスペクト比は実質的に正方形(例えば1:1)であり得る。その後第1のシーン内での被写体の位置に基づいてメタデータを作成し得、それによりメタデータは、その位置に対してコンテンツを非対称にクロッピングするように再生デバイスをガイドして、元のアスペクト比とは異なるアスペクト比を有する表示デバイス上でコンテンツを表示するようにする。他の方法およびシステムも記載される。
【選択図】
図2A
【特許請求の範囲】
【請求項1】
マシン実装された方法であって、
少なくとも第1のシーン用の画像データを含むコンテンツを受け取り、且つ前記第1のシーンに関連付けられた第1のメタデータを受け取ることであって、前記第1のメタデータは、前記第1のシーン内の第1の被写体の第1の位置に対して、元のアスペクト比(AR)とは異なるアスペクト比を有する表示デバイス上での再生をいかにして適応させるかを特定し、前記第1のシーンは前記元のアスペクト比を有する画像キャンバス上で作成されている、ことと、
前記第1のメタデータに基づいて前記表示デバイスの前記アスペクト比に出力を適応させることと、
を含み、
前記表示デバイスに対する閲覧者の位置に関連する距離パラメータと位置パラメータとを受け取ることと、
前記距離パラメータおよび前記位置パラメータに基づいて、前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることと、
をさらに含む方法。
【請求項2】
前記元のARは実質的に正方形である、請求項1に記載の方法。
【請求項3】
前記実質的な正方形は、AR16:9よりも正方形に近い、すなわち前記元のARの高さに対する長さの比が16:9の比(16/9)より小さくなっており、前記元のARは前記コンテンツ中に変化する、請求項2に記載の方法。
【請求項4】
前記コンテンツは、前記第1のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるARに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ各シーンまたは各フレーム内の前記第1の被写体を含む関心領域に基づいて行われ、各シーンは1以上のフレームを含む、請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記第1のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるARに合わせて前記第1のシーン内の前記第1の被写体から拡大するようにガイドする、請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記閲覧者と前記表示デバイスとの間の閲覧距離が長くなるときに前記第1の被写体の前記出力をアップスケーリングし、前記閲覧者と前記表示デバイスとの間の前記閲覧距離が短くなるときに前記第1の被写体の前記出力をダウンスケーリングすることを含む、請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記表示デバイスが前記閲覧者に対して右に移動するときに前記第1の被写体の前記出力を左にシフトさせ、前記表示デバイスが前記閲覧者に対して左に移動するときに前記第1の被写体の前記出力を右にシフトさせることを含む、請求項1から6のいずれか1項に記載の方法。
【請求項8】
グラフィクスデータを受け取ることと、
前記グラフィクスデータと前記適応させた出力とを合成したものを含むビデオ出力を生成することと、
をさらに含む請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記第1のメタデータは、閲覧者の意図する動きの経路を規定して再生中にケンバーンズ関連効果をガイドする構文要素をさらに含む、請求項1から8のいずれか1項に記載の方法。
【請求項10】
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムに請求項1から9のいずれか1項に記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
【請求項11】
処理システムおよびメモリを有するデータ処理システムであって、請求項1から9のいずれか1項に記載の方法を実行するように構成されたデータ処理システム。
【請求項12】
マシン実装された方法であって、
コンテンツ作成に用いる画像キャンバス用に元のアスペクト比(AR)を選択することと、
前記画像キャンバス上のコンテンツ内の少なくとも第1のシーン内で、前記少なくとも第1のシーン内の第1の被写体の第1の位置を決定することと、
前記第1の被写体の決定された位置に基づき且つ閲覧者と表示デバイスとの間の距離に基づいて、前記第1の部分に対して、前記元のARとは異なるARを有する前記表示デバイス上での再生をいかにして適応させるかを特定する第1のメタデータを決定することと、
前記第1のメタデータおよび前記コンテンツが再生中に用いられるか又は用いるために送信される場合に、前記第1のメタデータを保存することと、
を含む方法。
【請求項13】
前記閲覧者と前記表示デバイスとの間の異なる距離に対して、前記第1の被写体を表示する異なるズーム比を提供する、請求項12に記載の方法。
【請求項14】
前記元のARは実質的に正方形である、請求項12または13に記載の方法。
【請求項15】
前記実質的な正方形は、(1)AR16:9よりも正方形に近い、すなわち前記元のARの高さに対する長さの比が16:9の比(16/9)よりも小さいが1:1以上であるか、(2)縦長モードが好ましい場合に9:16の比より大きいが1:1より小さいか、のいずれかであり、前記元のARはコンテンツ中に変化する、請求項14に記載の方法。
【請求項16】
前記第1のシーンを含む複数のシーンに対して、前記第1の被写体を含む複数の被写体を決定することと、
前記複数のシーン内の前記被写体の各々に対して、対応するシーン内での対応する位置を決定することと、
をさらに含む、請求項12から15のいずれか1項に記載の方法。
【請求項17】
被写体が前記複数のシーン内でのシーン毎に決定され、前記方法は、
異なるアスペクト比でのクロッピングがいかにして前記メタデータに基づいて行われるかを示すプレビューを表示することをさらに含む、請求項16に記載の方法。
【請求項18】
前記第1のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるARに合わせて前記第1のシーン内の前記第1の被写体から拡大するようにガイドする、請求項12から17のいずれか1項に記載の方法。
【請求項19】
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムに請求項12から18のいずれか1項に記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
【請求項20】
処理システムおよびメモリを有するデータ処理システムであって、請求項12から18のいずれか1項に記載の方法を実行するように構成されたデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本出願は2020年8月20日に出願された米国仮特許出願第63/068,201号、2020年6月11日に出願された米国仮特許出願第62/705,115号、および2020年6月11日に出願された欧州特許出願第20179451.8号に基づく優先権を主張しており、その全体を参考のため本明細書中に援用する。
【背景技術】
【0002】
映画またはTVのショーまたはアニメーションの作成などのコンテンツの作成、およびライブスポーツイベントまたはニュースの録画などのコンテンツのキャプチャは、画像キャンバスと呼ばれ得るものに対するアスペクト比の選択を必要とする。この選択は、熟慮したもの(例えばコンテンツ作成者が画像キャンバスのアスペクト比について可能性のあるいくつかの選択肢を考え、1つを選ぶ)であってもよいし、偶然なされたもの(例えばレコーディングスタジオのカメラオペレータが、キャプチャ用のアスペクト比を考えることなく所定のアスペクト比を有する特定のカメラを手に取る)であってもよい。画像キャンバスのアスペクト比が選択されると、コンテンツが作成またはキャプチャされ、その後コンテンツは多くの異なるアスペクト比を有し得るデバイス類で再生するために配布される。多くの場合、コンテンツ作成者は第1のアスペクト比を有する画像キャンバス内でコンテンツをキャプチャまたは作成し、その後第1のアスペクト比とは異なる予想される再生アスペクト比に合わせてコンテンツをクロッピングまたはパンする。予想される再生アスペクト比とは、再生デバイスで用いられる最も一般的なアスペクト比であるとコンテンツ作成者が信じるアスペクト比であってもよい。その後コンテンツは、元の(最初の)キャンバスのアスペクト比とも予想された再生アスペクト比とも異なる多くの異なるアスペクト比を有する再生デバイス類にリリースされて配布される。その後これらの再生デバイスは、コンテンツをクロッピングまたはパディングすることによってコンテンツの表示を適応させ、その再生デバイスに接続された表示デバイスに合致するようにしなければならない。この例では、コンテンツは少なくとも2度クロッピングおよび/またはパディングされる。パディングおよびクロッピングを少なくとも2度行うこのプロセスは、画像に不要なクロッピングまたはパディングを行っている可能性があり、そのため、コンテンツを異なるアスペクト比に合わせて複数回適応させるプロセスを通じてコンテンツ作成者の意図の保持を妨げている可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示で述べる局面および実施形態は、元の画像キャンバス用の実質的に正方形のアスペクト比を用い得、且つこれに関連付けられたメタデータであって、元の画像キャンバスまたは元の画像キャンバスのセットを用いる元のコンテンツから多様なエンドポイントアスペクト比が派生することを可能にするメタデータを用い得る、システムおよび方法を提供し得る。
【課題を解決するための手段】
【0004】
一実施形態では、ビデオ画像などのコンテンツを製作する方法は、画像キャンバス用に元のアスペクト比を選択すること、および画像キャンバス上のコンテンツ内の少なくとも第1のシーン内で、第1のシーン内での被写体の位置を決定することにより開始し得る。一実施形態では、元のアスペクト比は実質的に正方形(例えば1:1)であり得る。被写体は、コンテンツ内の関心領域であり得、たとえばシーン内の演技者またはその他の焦点の当たっているものであり得る。その後、第1のシーン内での被写体の位置に基づいてメタデータを作成することにより再生デバイスをガイドして、上記位置に対してコンテンツを非対称にクロッピングし、元のアスペクト比とは異なるアスペクト比を有する表示デバイス上にコンテンツを表示するようにし得る。メタデータは、再生デバイスがいかにしてキャンバス上での被写体の位置と再生デバイスのアスペクト比とに基づいてビューを被写体周りに非対称に拡大し得るかをガイドし得る。一実施形態では、メタデータは他の要素、たとえばある種の画像エレメントが部分的に含まれること、一例として人の顔が部分的に含まれること、を避けたいという望みなどの他の要素に基づいても非対称の拡大をガイドしてもよく、メタデータはこのようなエレメントが部分的に含まれることを防ぐ(このことは、このようなエレメントを完全に排除し得るか、またはクロッピングされたビューに完全に含めることを意味し得る)ために用いるデータを提供し得る。このような画像エレメントを関心領域に追加することにより、画像エレメントがビュー内に完全に含まれること又はビューから完全に排除されることを確実にし得る。例えばこのようなエレメントは、それを含めるべき関心領域のサイズを規定することにより追加し得る。コンテンツおよびメタデータを保存し得、その後異なるアスペクト比を有する再生デバイスに配布し得る。メタデータは再生デバイスに用いられて、必要であればクロッピングまたはパディングによりコンテンツを、再生デバイスによって用いられるディスプレイに適応させ得る。メタデータは一実施形態ではシーン毎に作成し得、シーンはビデオコンテンツの1フレームほどに短かいことがあり得、その場合メタデータはフレーム毎であり得る。このときフレームは再生デバイス上で単一のリフレッシュインターバル中に提示される1画像である。このように一実施形態では、時間の経過とともにフレーム毎の変化をキャプチャするために、本明細書に記載のメタデータをフレーム毎に作成し得る。さらに元のアスペクト比はコンテンツ中に一定でなくてもよく、そのためコンテンツ中、さらにはコンテンツの少なくとも一部ではシーン毎(さらにはフレーム毎)に変化してもよい。元のアスペクト比の変化は、コンテンツ中に変化する可変アスペクト比と呼ばれ得る。
【0005】
一実施形態では、元のアスペクト比は実質的に正方形となるように、例えば1:1、またはアスペクト比16:9よりも正方形に近い、すなわち元のアスペクト比の高さに対する長さの比が16:9の比(16/9=1.7778)より小さく1:1以上となるように選択し得る。元のアスペクト比が実質的に正方形であれば、多くの再生デバイスの殆どのアスペクト比にコンテンツを適応させるオプションの範囲が最大となることを確実にし得る。他の実施形態では元のアスペクト比は、垂直の再生の向き、たとえば縦長の向きにおける画質を優先するように選択し得る。この場合、元のアスペクト比は実質的に正方形(1:1)で、1:1から1:1未満、さらには9:16までの範囲であり得る。コンテンツ作成に大幅なフレキシビリティを提供するために、キャンバスはフレーム毎、シーン毎、またはショット毎に異なっていてもよい。本明細書で留意すべきは、元のアスペクト比はコンテンツの時間の経過とともに変化し得、そのためコンテンツは可変アスペクト比を含み得るということである。
【0006】
メタデータは、現在のシーン内での被写体(例えば関心領域)に対する方向を特定するベクトルであり得る。再生デバイスはメタデータを用いて、画像のクロッピングおよび/またはパディングを構築することによりメタデータに基づいてシーンをレンダリングし得る。実際、メタデータは再生デバイスをガイドして、クロッピングして又は被写体から離れる方向に拡大してキャンバス全体に広げるようにしながら、クロッピングしたシーンの焦点に被写体を維持し得る。再生デバイスはさらに、適応済みアスペクト比のために特別に用意されたトーンマッピングおよびカラーボリュームマッピングを用いて、シーン用の元の画像キャンバス内のコンテンツ全体に基づいてではなく、適応済みアスペクト比内の実際のコンテンツ(例えば関心領域)に基づいてトーンマッピングおよびカラーボリュームマッピングを行うようにし得る。
【0007】
一実施形態では、被写体および被写体の位置を決定する方法を、同一または異なる被写体をカバーする複数の異なるシーンに対して実行し得る。一実施形態ではこの方法は、コンテンツ内の各シーン、各フレーム、フレームセットまたは少なくともコンテンツ内のシーンのサブセットに対して行い得る。その結果、少なくともシーンのあるサブセットに対しては、コンテンツ作成中に作成したメタデータに基づいて、再生時に各シーンまたはフレームを異なるアスペクト比に合うように適応させ得る。一実施形態では、シーン(例えば1以上のフレームのセット)はカメラのショットであってもよく、映画製作またはその他のコンテンツ製作内のテイクであってもよい。異なるシーンが異なる被写体、背景またはカメラアングルなどを有していてもよい。
【0008】
コンテンツ作成プロセス中、生成したメタデータに基づいて、異なるアスペクト比でのコンテンツ表示の1以上のプレビューを生成し得る。コンテンツ作成者は、プレビューを見た後、メタデータを直接編集してもよいし、被写体の位置を修正すること又は異なる被写体を選択することなどにより編集してもよい。その後コンテンツ作成者は、1以上のプレビューを表示して、修正により異なるプレビュー中のコンテンツの見栄えが良くなるか否かをチェックし得る。一実施形態では、1以上のプレビューは元のキャンバス上の1以上の矩形オーバーレイであり得、その場合シーンのコンテンツがオーバーレイに表示される。
【0009】
一実施形態では、ユーザは再生デバイスのユーザインターフェースによって、クロッピング(本明細書に記載のメタデータに基づいて行うクロッピング)とパディングとの間で再生動作を切り替えることが可能となる。これにより、実質的に正方形のキャンバス周りの画素(通常、黒画素)をパディングしてディスプレイのアスペクト比全体を満たすという一般的な習慣に戻る。ユーザはこの切替によって、本明細書に記載のメタデータに基づくクロッピングを用いて提供され得る焦点の合ったビューではなく、一実施形態の元のキャンバスの半分より多い部分を見ることが可能となる。一実施形態では、再生デバイスのアスペクト比に合致させるのに必要なレベルを超えたレベルで画像をズームすることにより、被写体領域のより向上した(より近い)ビューを提供し得る。一実施形態では、クロッピング閲覧状態、パディング閲覧状態および/またはズーミング閲覧状態間の移行は円滑に表示し得、再生デバイスのユーザ/閲覧者に閲覧状態間の円滑またはシームレスな移行を見せる。
【0010】
一実施形態では、ユーザに見せるべき最終的な合成画像は、スクリーンの複数のウィンドウまたは領域内で複数の入力を重ね合わせたものに対応し得る。例えば主要な入力をディスプレイ上の大ウィンドウ内で示し、二次的入力を大ウィンドウよりも小さいか又は大幅に小さい小ウィンドウ(テレビのピクチャーインピクチャに似た特徴)内で示してもよい。例えば主要入力ウィンドウがメタデータから生成したビューを表示することにより、主要入力ウィンドウまたは表示デバイス上での被写体の位置およびアスペクト比に基づいて元のキャンバス又はキャンバス全体をクロッピングしたビューを提供し、二次的ウィンドウがクロッピングもパディングもしていないキャンバス全体または元のキャンバスを示すようにしてもよい。一実施形態では、これらウィンドウの一方または両方に完全にまたは部分的にズームし得る。さらに本明細書に記載の方法およびシステムを用いて、各ウィンドウの任意のサイズおよびアスペクト比に合わせてコンテンツの再生を最適化し得る。ウィンドウの1つがリサイズされると、上記方法およびシステムを用いて、メタデータおよびシーン内での被写体の位置を用いて出力を(リサイズ済みウィンドウの)リサイズ済みアスペクト比に適応させ得る。さらに本明細書に記載の方法およびシステムを単一のウィンドウ(二次的ウィンドウがない状態)に用いて、ウィンドウのアスペクト比に基づいてウィンドウ内でコンテンツをクロッピングするようにし得る。上記方法およびシステムは、本明細書に記載のメタデータを用いて再生を最適化し得る。
【0011】
別の実施形態では、本明細書に記載の方法およびシステムを用いて、関心のある被写体(関心被写体)に焦点を当てることによりフォトストリーム内でのフォト再生間の移行を向上しながら、僅かなズームおよびパンを適用して面白い効果を作成し、さらにこれと並行して選択した領域へのトーンマッピングを最適化し得る。これは、「意図する動きの経路」と考えられ得るメタデータによってガイドされ得る。一実施形態では、「ガイドされたケンバーンズ効果(Ken Burns effect)」を提供するために閲覧者位置を追跡する代りに「意図する動きの経路」を用いる。メタデータは、特定の時間に亘って閲覧者用の意図した動きの経路を記載するスクリーンに対する、一連の位置ベクトル(X,Y,Z)座標である。本明細書では、用語「ケンバーンズ効果」は、フィルムおよびビデオ製作中に静止画を見せるときに用いる一種のパンおよびズーム効果を意味する。
【0012】
一実施形態では、元のキャンバスまたはキャンバス全体はすでに、画像をキャンバスのアスペクト比に適合させるパディングをいくらか含み得る。この場合、実施形態は追加のメタデータを用いて、キャンバス内のアクティブ領域の位置を示し得る。このメタデータが存在する場合、クライアントデバイスまたは再生デバイスはこの追加のメタデータを用いて、キャンバスのアクティブ領域のみに基づいて(パディングした領域を含まずに)再生を適応させ得る。
【0013】
本明細書に記載の局面および実施形態は、実行されると、1以上のデータ処理システムに本明細書に記載の方法を実行させる実行可能なコンピュータプログラム命令を保存し得る非一時的なマシン読み取り可能媒体を含み得る。命令は、不揮発性メモリなどの非一時的なマシン読み取り可能媒体、例えばフラッシュメモリ、または揮発性のダイナミックランダムアクセスメモリ(DRAM)、またはその他の形態のメモリに保存し得る。
【0014】
上記の概要は本開示の全ての実施形態および局面を完全に網羅しているわけではない。全てのシステム、媒体および方法は、上記に要約した様々な局面および実施形態の全ての適切な組み合わせ、ならびに以下の詳細な説明に開示する様々な局面および実施形態の全ての適切な組み合わせから実施し得る。
【0015】
本発明を添付の図面を参照して実施例により説明する。添付の図面において、同様の参照符号は同様の構成要件を示す。
【図面の簡単な説明】
【0016】
【
図1A】
図1Aは、本明細書に記載する1以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。
【
図1B】
図1Bは、本明細書に記載する1以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。
【
図1C】
図1Cは、本明細書に記載する1以上の実施形態で用い得る表示デバイスの異なるアスペクト比の例を示す。
【0017】
【
図2A】
図2Aは、異なるアスペクト比に出力を適応させるメタデータで、コンテンツを作成するために用い得る、一実施形態による方法を示すフローチャートである。
【0018】
【
図2B】
図2Bは、再生デバイスのアスペクト比に基づき且つコンテンツに関連付けられたメタデータに基づいて再生デバイスでの再生を適応させるために用い得る、一実施形態による方法を示すフローチャートである。
【0019】
【
図3A】
図3Aは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。
【
図3B】
図3Bは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。
【
図3C】
図3Cは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。
【
図3D】
図3Dは、被写体の位置およびこれらの位置に基づいて被写体に関連付けられたメタデータの例を示す。
【0020】
【
図4A】
図4Aは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4B】
図4Bは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4C】
図4Cは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4D】
図4Dは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4E】
図4Eは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4F】
図4Fは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4G】
図4Gは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4H】
図4Hは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4I】
図4Iは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4J】
図4Jは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4K】
図4Kは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【
図4L】
図4Lは、再生デバイスがいかにしてメタデータおよび再生デバイスのアスペクト比を用いて、メタデータとアスペクト比とに基づいて元のキャンバス上の画像を非対称にクロップし得るかの例を示す。
【0021】
【
図5】
図5は、一実施形態によるコンテンツを作成する方法を示すフローチャートである。
【0022】
【
図6A】
図6Aは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6B】
図6Bは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6C】
図6Cは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6D】
図6Dは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6E】
図6Eは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6F】
図6Fは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【
図6G】
図6Gは、再生デバイスがいかにして、画像メタデータと観察者に対するディスプレイの相対的位置とに基づいて画像を表示し得るかの例を示す。
【0023】
【
図7】
図7は、画像適応処理の一実施形態によって画像を表示する例を示す。
【0024】
【
図8】
図8は、本明細書に記載するコンテンツおよびメタデータを作成するために用い得るデータ処理システムの例を示し、さらにメタデータを用いて再生を適応させる再生デバイスであって、メタデータと再生デバイスのアスペクト比とに基づいて適応を行う再生デバイスであり得るデータ処理システムの例を示す。
【発明を実施するための形態】
【0025】
以下に述べる詳細により様々な実施形態および局面を記載する。添付の図面はこれら様々な実施形態を示す。以下の記載および図面は本発明の例を説明するものであって、本発明を限定するものと解釈すべきではない。様々な実施形態の徹底的な理解のために多くの具体的な詳細を述べる。しかし場合によっては、実施形態を簡潔に述べるために周知または従来の詳細を記載しないことがある。
【0026】
本明細書において「一実施形態」または「実施形態」という場合、その実施形態に関連して述べる特定の特徴、構成または特性が少なくとも1つの実施形態に含まれ得ることを意味する。本明細書の様々な箇所で「一実施形態では」というフレーズが登場するが、必ずしも同じ実施形態を指すわけではない。以下に述べる図面に示すプロセスは、ハードウェア(例えば回路、専用ロジックなど)、ソフトウェアまたはこれらの組み合わせを含むロジックを処理することにより実行される。これらのプロセスは以下ではいくつかの連続した動作として記載するが、記載する動作の一部は異なる順序で行ってもよいことを理解されたい。さらにいくつかの動作は連続的にではなく並行して行ってもよい。
【0027】
この記載は、コンピュータプログラムソフトウェアなど、著作権により保護されているマテリアルを含む。本発明の譲受人を含む著作権者はこれらのマテリアルに対する、著作権を含む権利をここに留保する。著作権者は米国特許商標庁のファイルまたは記録に現れる状態で特許書類または特許開示を何人が複製することにも異存はないが、それ以外についてはあらゆる著作権を留保する。著作権者はドルビー・ラボラトリーズ・インクである。
【0028】
本明細書に記載の実施形態は、元のキャンバスまたはキャンバス全体のコンテンツを、異なるアスペクト比を有する異なる表示デバイス上に出力するために適応させるメタデータを作成し得、用い得る。これらの表示デバイスは、タブレットコンピュータ、スマートフォン、ラップトップコンピューターまたはテレビなどの再生デバイスの一部である従来のLCDまたはLEDディスプレイであってもよいし、ディスプレイに出力することによってディスプレイを駆動する再生デバイスとは一体ではないがこの再生デバイスに接続されている従来のディスプレイであってもよい。
図1A、
図1Bおよび
図1Cは、3つの異なるアスペクト比の3つの例を示す。具体的に述べると、
図1Aはアスペクト比4:3を有するディスプレイの例を示す(アスペクト比とは表示パネルの閲覧可能領域の高さに対する長さの比である)。従ってアスペクト比4:3を有するディスプレイの場合、ディスプレイの表示領域の長さが8インチであれば、ディスプレイの表示領域の高さは6インチである。ほとんどのブラウン管テレビはこのアスペクト比を有していた。
図1Bは、アスペクト比16:9の表示領域を有する表示パネルの例を示す。ラップトップコンピューターおよびテレビ用の表示パネルはこのアスペクト比を用いることが多い。
図1Cは、アスペクト比1:1の表示パネルまたは画像キャンバスの例を示す。画像キャンバスは正方形(閲覧可能領域の長さと高さとが等しい)である。以下に述べるように一実施形態では、コンテンツ作成プロセスにおいてアスペクト比1:1を有する元の画像キャンパス、または正方形の画像キャンバスに実質的に近い元の画像キャンバスが用いられる。以下に、コンテンツ作成プロセスの例を
図2Aを参照して述べる。
【0029】
図2Aに示すように、一実施形態による方法は動作51で開始し得る。動作51では、画像キャンバス用の元のアスペクト比を選択する。元のアスペクト比が選択されると、画像キャンバスを用いてコンテンツを作成する。コンテンツ作成とは、画像(コンピュータ生成グラフィクスまたはアニメーションなど)を作成することであってもよいし、カメラ(実演する演技者に用いるムービーカメラなど)、コンテンツ作成に用いる当該分野で公知の他の技術またはこれらの技術の組み合わせを用いてコンテンツをキャプチャすることであってもよい。コンテンツ作成プロセスでは同じ画像キャンバスを用いてもよいし、異なる画像キャンバスを用いてもよい。コンテンツ作成において最良のフレキシビリティを提供するために、キャンバス領域はフレーム毎に異なっていてもよいし、フレームセット毎に異なっていてもよいし、シーン毎に異なっていてもよい。一実施形態では、元の画像キャンバスは正方形のキャンバス(アスペクト比が1:1)であってもよいし、実質的に正方形のキャンバスであってもよい。一実施形態では、画像キャンバスがアスペクト比16:9のキャンバスよりも正方形に近い、すなわち画像キャンバスの高さに対する長さの比が16:9(すなわち約1.778)より小さく1:1以上である場合、画像キャンバスは実質的に正方形であるとする。元のアスペクト比が実質的に正方形であれば、多くの再生デバイスに亘って用いられる殆どのアスペクト比にコンテンツを適応させるオプションの範囲が最大となることを確実にし得る。他の実施形態では実質的に正方形でない画像キャンバスを用いてもよいが、これは異なるアスペクト比を有する異なるディスプレイにシーンがどれぐらい上手く適応するかに影響を与え得る。
【0030】
図2Aに示す動作53で、コンテンツ内のシーン内での被写体の位置を決定する。動作53はコンテンツ作成中に行ってもよいし、コンテンツ作成後(作成したコンテンツを編集する編集プロセス中)に行ってもよいし、コンテンツ作成中および作成後の両方に行ってもよい。動作53は、特定のシーンにおける関心被写体または関心領域を識別または決定することにより開始し得る。この関心被写体または関心領域の決定または識別は、コンテンツ内の全シーンに対してシーン毎に行ってもよいし、コンテンツ内の全シーンのうち少なくとも1つのサブセットに対して行ってもよい。例えば、第1のシーンが第1の識別済み被写体を有し、第2のシーンが第1の識別済み被写体とは異なる第2の識別済み被写体を有してもよい。さらに、異なるシーンがこれら異なるシーンで識別された同一の被写体を含んでもよいが、この被写体の位置は異なるシーン間で異なってもよい。一実施形態では、関心被写体または関心領域の識別または決定はコンテンツ作成者が手動で行ってもよいし、データ処理システムによって自動で行ってもよい。例えばデータ処理システムは、周知の顔検出アルゴリズム、画像サリエンス分析アルゴリズム、またはその他の周知のアルゴリズムを用いてシーン内の1以上の顔を自動で検出し得る。一実施形態では、被写体の自動検出をコンテンツ作成者が手動で上書きし得る。一実施形態では、コンテンツ作成者がコンテンツ作成プロセスで用いるデータ処理システムに命令を出して、シーンのあるサブセットに対しては被写体を自動で決定し、別のサブセットに対してはコンテンツ作成者が手動で決定できるようにしておいてもよい。被写体が決定されると、動作53で被写体の位置を被写体の重心に基づいて手動または自動で決定し得る。例えば被写体の顔が関心被写体または関心領域と識別されていれば、動作53で顔の重心を画像キャンバス上での被写体の位置として用い得る。一実施形態では、この位置がデータ処理システムによって自動で決定された場合、コンテンツ作成者はこの位置を手動で編集し得る。一実施形態では、この位置が手動で決定されたか自動で決定されたかにかかわらず、ユーザはコンテンツ作成ツールまたはコンテンツ編集ツールを用いて、被写体の中心画素(例えばSx,Sy)および必要に応じて被写体の幅および高さ(例えばSw、Wh)を選択することができる。被写体の中心画素および被写体の幅および高さは、特定の表示デバイスのアスペクト比での再生に画像を適応させる際に用いられる。動作53を行った後、
図2Aに示すように処理は動作55に進む。
【0031】
動作55では、データ処理システムが特定のシーン内での被写体の位置に基づいてメタデータを自動で決定し得る。メタデータは、元の画像キャンバスの元のアスペクト比とは異なるアスペクト比を有する表示デバイス上で再生をいかにして適応させるかを特定し得る。例えばメタデータは、元のアスペクト比の画像をクロッピングしてその画像を再生デバイスによって制御される表示デバイスの特定のアスペクト比での再生に適応させるために、被写体の位置から元のアスペクト比内での1以上の方向にいかにして拡大して元のアスペクト比にするかを特定し得る。一実施形態ではメタデータは、決定済み被写体からの方向を特定するベクトルとして表現し得る。
図3A、
図3B、
図3Cおよび
図3Dは、ベクトルという形態にあり得るメタデータの例を示す。
図3Aは、元の画像キャンバス101内のシーン103の中心近傍にある被写体105の例を示す。
図3Bは、元の画像キャンバス101内のシーン109の左側にある被写体111の例を示す。
図3Bに示すように、被写体111はシーン109の左辺から垂直方向に中心に向かっている。
図3Cは、シーン115内の元の画像キャンバス101の右上隅にある被写体117の例を示す。
図3Dは、元の画像キャンバス101内のシーン121の右下隅にある被写体123の例を示す。
図3Aに示す例では、メタデータの例を表すベクトルは被写体から全方向に等しいと考えられ、従ってこの場合、値0,0を有すると考えられ得る。
図3Aの例では被写体からの拡大は、再生デバイスのアスペクト比と表示デバイスの向き(例えば横長または縦長)とに基づいて元の画像キャンバスをクロッピングすることにより起こる。
図4Aから
図4Dは、被写体が元の画像キャンバスの中心にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を4つ示す。これらの例をさらに以下に述べる。
図3Bに示す例ではベクトル112は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体111に焦点を当てるために元の画像キャンバス101にクロッピングする方向を特定するメタデータの例である。
図4E、
図4F、
図4Gおよび
図4Hは、被写体が
図3Bに示す位置にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を4つ示す。
図3Cに示す例ではベクトル119は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体117に焦点を当てるために元の画像キャンバス101をクロッピングする方向を特定するメタデータの例である。
図4I、
図4J、
図4Kおよび
図4Lは、被写体が
図3Cに示す位置にあるとき、いかにしてコンテンツを異なるアスペクト比での再生に適応させるかの例を4つ示す。
図3Dに示す例ではベクトル125は、表示デバイスのアスペクト比および表示デバイスの向きにかかわらず、被写体123に焦点を当てるために元の画像キャンバス101をクロッピングする方向を特定するメタデータであり得る。
【0032】
メタデータを表すベクトルは、メタデータと被写体の位置とに基づいて元の画像キャンバスをいかにしてクロッピングするかについて再生デバイスをガイドし得る。一実施形態では、ベクトル(ベクトル112、119および125など)は被写体の周りに対称的にクロッピングするのではなく、以下にさらに述べるように被写体に対する非対称なクロッピングをガイドする。このような非対称なクロッピングは少なくとも2つの利点を提供し得る。(a)シーンの美的フレーミングがより良く保持され、右上隅に被写体を有する画像(例えば
図3Cを参照のこと)を中間レベルでズームした後でも被写体は画像の右上部分にあり、対称的なクロッピングに比べてフレーミングの制作意図がより良く保持できる。(b)非対称なクロッピングは、ズームの方向またはズーム率を突然変更することなく被写体にズームインすることができる。一実施形態では、ベクトルはx成分(x軸用)とy成分(y軸用)とを含み得、ベクトルは2つの値、PxとPyとによって表し得る。ここでPxはベクトルのx成分であり、Pyはベクトルのy成分である。一実施形態では、PxはPx=2(0.5-Sx)と定義し得、PyはPy=2(0.5-Sy)と定義し得る。ここでSxおよびSyは元の画像キャンバスに対する被写体の中心であり、座標0,0は元の画像キャンバスの左上隅であり、キャンバスの右下隅の座標は1,1であり、元の画像キャンバスの中心の座標は0.5,0.5である。
図3Bに示す例の場合、Px=1およびPy=0であり、従ってこのベクトルは水平方向に正と考えられ得る。
図3Cに示す例の場合、Px=1およびPy=1であり、このベクトルは水平方向に負であり垂直方向に正であると考えられる。このメタデータのさらなる詳細と例、および再生でこのメタデータをどのように用いるかを以下に述べる。
【0033】
図2Aに示すように、特定のシーンについて動作55を完了した後、処理は動作57に進む。動作57では、再生時に用いるためにコンテンツおよびメタデータを保存する。その後動作59で、コンテンツ作成中または編集プロセス中に用いられているデータ処理システムが、処理すべきコンテンツがさらにあるか否かを決定する。例えば
図2Aに示す方法によって処理すべきシーンがさらにある場合、処理は動作51に戻る。動作51では、画像キャンバス用に新しい元のアスペクト比を選択してもよいし、前回画像キャンバス用に用いた元のアスペクト比を引き続きコンテンツの作成および/または編集に用いてもよい。一実施形態では、動作59での決定はデータ処理システムを操作する人間のオペレータが制御する手動での決定であり得る。処理すべきコンテンツがない場合、動作61で、保存したコンテンツおよびメタデータを1以上のコンテンツ配布システムに供給し得る。例えばコンテンツおよびメタデータをケーブルネットワークに供給してセットトップボックスに配布してもよいし、コンテンツプロバイダ、例えばインターネットなどを介してコンテンツを配信するコンテンツプロバイダなどに配布してもよい。コンテンツおよびメタデータはストリーミングメディアで用いるように配布してもよいし、コンテンツおよびメタデータ全体をダウンロードして用いるように配布してもよい。
【0034】
図2Aに示す方法は、映画スタジオまたはコンテンツを作成する他の施設で実行し得るコンテンツ作成方法である。この方法は典型的には再生デバイスでの再生とは別に行う。再生デバイスで行う方法の例を
図2Bに示す。但し一実施形態では、
図2Aに示す方法を
図2Bに示す方法と共に同じデバイスで実行してもよい。この場合、このデバイスはコンテンツを作成し、さらにその後、元の画像キャンバスのアスペクト比とは異なるアスペクト比を有する1以上の表示デバイス上にコンテンツを表示する。
【0035】
図2Bに示す再生方法は動作71から開始し得る。動作71では、再生デバイスが画像データを含むコンテンツを受け取り得、さらにこれに関連付けられたメタデータも受け取り得る。例えばメタデータは第1のシーンに関連付けられ得、メタデータはシーン内での被写体の位置に対して、シーンが作成された元のアスペクト比とは異なるアスペクト比を有する表示デバイスにいかにして再生を適応させるかを特定し得る。一実施形態では、メタデータは例えば
図3B、
図3Cおよび
図3Dに示すベクトル112、119および125などのベクトルという形態を取り得る。これらのベクトルはPx値およびPy値で表し得、これらの値にはこのメタデータに関連付けられたシーン用のコンテンツが与えられている。再生デバイスは動作71でメタデータを受け取ると、動作73を行い得る。動作73では再生デバイスはシーン内のコンテンツを、再生デバイスに接続された表示デバイスのアスペクト比に適応させる。例えば表示デバイスは、テレビ、スマートフォンまたはタブレットコンピュータの表示パネルであり得る。再生デバイスはシーン内のコンテンツをクロッピングすることによりコンテンツを適応させ、そのコンテンツを表示デバイスのアスペクト比に適応させる。この適応またはクロッピングは本明細書に記載のメタデータを用いて、被写体の位置とメタデータとに基づいて、一実施形態では非対称にコンテンツをクロッピングする。このメタデータは本明細書に記載のベクトルであり得る。この適応またはクロッピングはさらにこのために特別に用意されたトーンマッピングおよびカラーボリュームマッピングを含み得る。このトーンマッピングおよびカラーボリュームマッピングは、表示デバイスのアスペクト比内で表示されたクロッピング済みコンテンツ(例えば関心領域のみを含む)に基づいており、元の画像キャンバス内の画像全体に基づくトーンマッピングおよびカラーボリュームマッピングとは異なる。
【0036】
動作73の実行についての詳細な例は以下に述べるが、
図4Aから
図4Lを参照して適応プロセスを大まかに説明することは役に立つ。
図4A、
図4B、
図4Cおよび
図4Dに示す例では、動作73で、表示デバイスのアスペクト比と表示デバイスの向きとに応じて、元の画像キャンバス51内の被写体105に対して対称的にコンテンツをクロッピングする。
図4Aは動作73によって作成したアスペクト比153を示す。動作73では、元の画像キャンバス151内のコンテンツを被写体105周りに対称的に横長モードでクロッピングした。
図4Bは動作73でのクロッピングの結果得られたアスペクト比155を示す。動作73では、コンテンツを横長モードでクロッピングしてアスペクト比155を得る。
図4Cは動作73でのクロッピングの結果得られたアスペクト比157を示す。動作73では、コンテンツを縦長モードでクロッピングしてアスペクト比157を得る。
図4Dは動作73でのクロッピングの結果得られたアスペクト比159を示す。動作73では、コンテンツを縦長モードでクロッピングしてアスペクト比159を得る。
図4A、
図4B、
図4Cおよび
図4Dに示すこれらの例の各々において、ベクトルメタデータはPx=0、Py=0というベクトル値であり得る。ここでベクトルメタデータは、コンテンツの表示に用いられる表示デバイスのアスペクト比に基づいて、元の画像キャンバス151のクロッピングを被写体105周りに対称的に行う。
図4A、
図4B、
図4Cおよび
図4Dに示す例では、表示デバイスのアスペクト比および表示の向き(例えば縦長または横長)にかかわらず、全ての場合において表示出力の焦点は被写体105に合ったままである。
【0037】
図4E、
図4F、
図4Gおよび
図4Hに示す例では、動作73で、ベクトル112に基づいて、元の画像キャンバス内のコンテンツを被写体111に対して非対称にクロッピングする。ベクトル112は、この例で非対称にクロッピングする方法を特定する。
図4Eは動作73でのクロッピングの結果得られたアスペクト比161を示す。動作73では、ベクトル112に基づいてコンテンツを横長モードでクロッピングしてアスペクト比161を得る。
図4Fは動作73でのクロッピングの結果得られたアスペクト比163を示す。動作73では、ベクトル112に基づいてコンテンツを横長モードでクロッピングしてアスペクト比163を得る。
図4Gは動作73でのクロッピングの結果得られたアスペクト比165を示す。動作73では、ベクトル112に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比165を得る。
図4Hは動作73でのクロッピングの結果得られたアスペクト比167を示す。動作73では、ベクトル112に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比167を得る。
図4E、
図4F、
図4Gおよび
図4Hに示す例では、横長か縦長か、および表示デバイスのアスペクト比にかかわらず、クロッピングすることにより、元の画像キャンバス151をクロッピングしたビューの左部分に被写体111が維持されることがわかる。
【0038】
図4I、
図4J、
図4Kおよび
図4Lに示す例では、動作73で、ベクトル119に基づいて、元の画像キャンバス内のコンテンツを被写体117に対して非対称にクロッピングする。ベクトル119は、この例で非対称にクロッピングする方法を特定する。
図4Iは動作73でのクロッピングの結果得られたアスペクト比171を示す。動作73では、ベクトル119に基づいてコンテンツを横長モードでクロッピングしてアスペクト比171を得る。
図4Jは動作73でのクロッピングの結果得られたアスペクト比173を示す。動作73では、ベクトル119に基づいてコンテンツを横長モードでクロッピングしてアスペクト比173を得る。
図4Kは動作73でのクロッピングの結果得られたアスペクト比175を示す。動作73では、ベクトル119に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比175を得る。
図4Lは動作73でのクロッピングの結果得られたアスペクト比177を示す。動作73では、ベクトル119に基づいてコンテンツを縦長モードでクロッピングしてアスペクト比177を得る。
図4I、
図4J、
図4Kおよび
図4Lに示す例では、表示デバイスの向きおよび表示デバイスのアスペクト比にかかわらず、被写体117が各クロッピング済み出力の右上隅に維持されることがわかる。
【0039】
図2Bに戻って、この方法では動作73の後に動作75で、処理すべきコンテンツがさらにあるか否かを決定する。処理すべきコンテンツがさらにある場合、処理は動作71に戻る。動作71では引き続きコンテンツおよびメタデータを受け取り、上記のようにコンテンツを表示デバイスに適応させる。処理すべきコンテンツがない場合、処理は動作77に進み、この方法は終了する。
【0040】
図5は、コンテンツ作成中または作成して保存し編集の準備ができたコンテンツの編集中に実行し得る方法の別の例を示す。
図5に示す動作201では、コンテンツ作成者はアスペクト比1:1などの元のキャンバスアスペクト比を選択し得、現在のシーン内でコンテンツを作成し得る。その後動作203で、コンテンツ作成者またはデータ処理システムが現在のシーン用の現在の被写体の位置を決定し得る。位置の決定はコンテンツ作成者が手動で行ってもよいし、データ処理システムが自動で行い、現在のシーンを手動で調整または上書きする可能性を残してもよい。コンテンツ作成者またはデータ処理システムは、必要に応じて編集ツールまたはコンテンツ作成ツールを用いて、被写体の中心点、例えば本明細書に記載の座標Sx,Syの点などのみならず被写体のサイズをも設定することができる。その後動作205で、データ処理システムは上記位置に基づいて、コンテンツを他のアスペクト比に適応させるために用い得るメタデータを計算し得る。このメタデータは追加のメタデータ、例えば画像周りのパディングを記述するメタデータなどを(必要に応じて)さらに含み得る。その後コンテンツ作成者は、1以上の他のアスペクト比に合わせたプレビューを表示し得る。これは現在のシーン内のコンテンツを上記他のアスペクト比に適応させることにより行い得る。換言すると、コンテンツ作成者はデータ処理システムにコンテンツのプレビューを表示させて、コンテンツ作成者が異なるアスペクト比での各プレビューを見て適応またはクロッピングが望ましい又は十分満足のいくものであるか否かを決定できるようにし得る。一実施形態では、プレビューは元の画像キャンバス内の画像にオーバーレイした矩形、例えば
図4Aから
図4Lに示す様々なアスペクト比(例えば161)を示す矩形であり得る。これらのプレビューは、再生デバイスのエンドユーザにコンテンツがどのように見えるかを示す。矩形の位置は、メタデータを用いるクロッピング動作、例えば
図2Bのクロッピング動作73に基づいて得られる。メタデータは、規定された再生処理挙動という利点を提供し、この規定された再生処理挙動とは、異なるアスペクト比の異なる表示デバイスを有する様々な異なる再生デバイス上でコンテンツがどのようにレンダリングされるかについての非常に正確なプレビューを示すものである。コンテンツ製作者はこのようにして再生挙動を知ることにより、正確な最終結果をプレビューし、望ましい又は必要なあらゆる調整をすることが可能となる。コンテンツ作成者はこのようにして動作209で、1以上のアスペクト比に対する適応を調整するか否かを決定し得る。適応を調整することが望ましい場合、処理は動作203に戻り得る。動作203では、コンテンツ作成者は現在の被写体の位置を修正してもよいし、異なる位置または異なる被写体を選択するコンテンツ作成ツールまたはコンテンツ編集ツールを用いて異なる被写体を選択することもおそらくできる。動作209で調整が不要であると考えられた場合、コンテンツ作成者は次のシーンに進み、動作211で次のシーンを処理するか否かを決定し得る。処理することが望まれる全シーンが処理されている場合、
図5に示すように処理は完了し得、終了し得る。他方、処理すべき追加のシーンがある場合、
図5に示すように処理は動作201に戻る。
【0041】
以下では、メタデータの詳細な例、およびメタデータを用いて異なるアスペクト比で再生するためにコンテンツをクロッピングする方法の詳細な例を述べる。一実施形態では、メタデータは以下のように準拠ビットストリーム内で特定し得る。1以上の矩形領域が被写体領域を規定する。
矩形は(Top)<=(1-Bottom)および(Left)<=(1-右)のように定義すべきである。これに従ってTopOffset、BottomOffset、LeftOffsetおよびRightOffsetの値を設定すべきである。
再生デバイスは、この挙動を実施し、準拠しないメタデータを許容すべきである。
0オフセットの場合、画像全体が関心領域であると示される。
幅および高さがゼロ画素の場合、矩形の左上隅が関心領域であると示され、これは被写体の中心に対応する。
【0042】
以下に述べるように用いる追加のメタデータは以下を含み得る。
【表1】
【0043】
座標はフレーム毎またはショット毎に異なってもよいし、コンテンツ全体で同じでもよい。いかなる変更も画像とそれに対応するメタデータとの間に対して完全にフレーム同期であり得る。
【0044】
例えば適応ストリーミング環境において配布前にキャンバスがリサイズされた場合、オフセット座標もそれに従って更新する。
【0045】
以下では、再生デバイス内のコンテンツを適応させること、およびカラーボリュームマッピングを再生デバイス内の適応済みコンテンツにとって最適にすることを述べる。ここでは、再生デバイスがその再生デバイス上で局所的にこれらの動作を全て行うと仮定するが、別の実施形態では、集中処理システムがそれに接続された1以上の再生デバイスの代りにこれらの動作の一部を行ってもよい。
【0046】
再生時において再生デバイスは、キャンバスおよびそれに関連付けられたメタデータを、取り付けられたパネルの特定のアスペクト比に適応させる役割を担う。これは以下に述べる3つの動作を含む。例えば一実施形態では、3つの動作は以下の通りである。
【0047】
1.関心領域を計算し、マッピング曲線を更新する。
キャンバスの関心領域またはパネル上に表示すべき領域の座標は、左上および右下の画素であるTLx、TLy、BRxおよびBRy、ならびにキャンバスの幅および高さ(CW、CH)を演算することにより計算する。例えば方法は、すぐ下に示す式に基づいて計算してもよいし、または後に示すソフトウェアの実装に基づいて計算してもよい。
1)TLx=(Sx-Px)*CW
2)TLy=(Sy-Py)*CH
3)BRx=(Sx+Px)*CW
4)BRy=(Sy+Py)*CH
【0048】
関心領域に応じた画像の適応型リサイズに加えて、トーンマッピングアルゴリズムをも調整することにより、クロッピングした領域(元の画像キャンバス内の元の画像全体ではなく)にとって最適のトーンマッピングを達成し得る。これは、関心領域に対応する追加のメタデータを計算し、これを用いてトーンマッピング曲線を調整することにより達成し得る。このことは例えば米国特許第10,600,166号(当該分野で公知の表示管理プロセスを記載している)に記載されている。トーンマッピング曲線は、ソースコンテンツの明るさの平均を表す「smid」(平均輝度)パラメータを1入力とする。調整はこの新しいROI輝度オフセットメタデータ(例えばL12MidOffsetと示される)を用いて以下のように計算する。
SMid=(L1.Mid+L3MidOffset)//フレーム全体の中間輝度を演算する。
SMid’=SMid*(1-ZF)+(SMid+L12MidOffset)*ZF//ROIに合わせて調整する。ここでZFはズーム比であり、例えばZF=0はフルスクリーンに対応し、ZF=1は被写体に完全にズームインした状態に対応する。
備考:L3MidOffsetはL1.Mid値を超えたオフセットを意味し、L3.Midとも呼ばれ得る。
【0049】
類似の様式で調整される別のパラメータは、必要に応じて行われるグローバルディミングアルゴリズムであり、マッピングをグローバルディミング表示にとって最適にするために用いる。グローバルディミングアルゴリズムは2つの入力値であるL4MeanとL4Powerとを取る。グローバルディミング背景を計算する前に、L4Mean値を以下のようにズーム比によって調整する。
L4Mean’=L4Mean*(1-ZF)+(L4Mean+L12MidOffset)*ZF
【0050】
2.関心領域のクロッピングと処理とを行う。
好ましい実施形態では、メモリを効率的に用いるため且つ再生デバイスの一貫したタイミングを確実にするために、再生デバイスは以下の動作を行うべきである。
1)関心領域(ROI)メタデータ(例えばPx,Pyで表されるベクトル)でエンコードされたビットストリームをデコードし、デコードしたピクチャバッファに個々のフレームを挿入する。
2)現在のフレームを表示すべき時がくると、ROIが必要とする画像の一部のみをメモリから読み出す。このとき左上の画素(TLx,y)から始める。この画素はパネル上に提示されるt時間(「遅延時間」)前に読み出す。この遅延時間tは、第1の画素を撮像パイプラインによって処理するのに要する時間によって決定され、撮像パイプラインが行ういずれの空間アップサンプリングをも含む。
3)関心領域全体がメモリから読み出されると、デコード済みピクチャバッファを次のデコード済みピクチャによって上書きする。
【0051】
画像のクロッピング済み領域がメモリから読み出されると、それをパネルのダイナミックレンジにマッピングする。この方法は、上記の動作1で得た調整済みマッピングパラメータを用いて米国特許第10,600,166号に記載の公知の技術によって行い得る。
【0052】
3.出力解像度にリサイズする。
最後の動作は、画像をパネルの解像度にリサイズすることである。最終的な画像の解像度またはサイズがパネルの解像度に合致しないであろうことは明らかである。所望の解像度を達成するためには画像をリサイズする方法を適用しなければならず、このことは当該分野で周知である。例としての方法はバイリニアまたはランチョスリサンプリング、または超解像技術またはニューラルネットワークを含む多くの方法を含み得る。
【0053】
一実施形態では、ROIおよびこれに関連するパラメータに信号を送るために用いられるメタデータはレベル12(L12)メタデータとして表され得るがこれに限られない。このメタデータを以下に要約する。
1)ROIの座標を特定する矩形
a.この矩形は画像のエッジから相対的にオフセットした状態で特定され、そのためデフォルト値ゼロが画像全体に対応する。
b.オフセットは、16ビットの精度で画像の幅と高さの割合で特定される。この方法は、画像がリサイズされてもメタデータが一定に保たれることを確実にする。
c.オフセットの結果としてROIの幅および/または高さがゼロになった場合、左上隅の単一の画素がROIと考えられる。
2)ROIの平均輝度
a.この値はカラーボリュームメタデータ用のオフセットとして作用し、ROIの提示を最適化する。ROIはスクリーン全体に広がるように拡大されるため、カラーボリュームマッピングはROIのコントラストの過半数を保持する。
b.L1.Midと同じように計算されるが、ROIを含む画素のみを用いる。メタデータに保存された値はフルスクリーン値からのオフセットであり、値ゼロがL1.Mid値の使用に戻ることを確実にする。
i.L12.MidOffset=ROI.Mid-L1.Mid-L3.Mid
備考:L1.Midは画像のPQエンコードされたmaxRGB値の平均として演算してもよいし、平均輝度として演算してもよい。maxRGBは画素の色成分値{R,G,B}の最大値である。L3.MidはL1メタデータ(L1.Mid)内に存在する「Mid」PQ値に対するオフセットを意味する。
c.再生デバイスは表示されているROIの相対的サイズに基づいて、このオフセットを円滑に補間する。表示デバイスが用いる値は
L1.Mid+L3.Mid+f(L12.MidOffset)
として生成し得る。ここでfは補間関数を示す。
3)必要に応じてマスタリング視距離を特定し得る。
a.マスタリング視距離は参考視距離の関数として特定する。これは、画像が同じマスタリング視距離から見られるときにスケーリングされないことを確実にするために用いる。
b.デフォルトの視距離は視野角17.7613度(フルHDコンテンツ用のITU-R参考視野角である2*atan(0.5/3.2)から計算したもの)に対するものである。より近い距離(例えば0.5)は視野角17.7613/0.5=35.5226に対応する。但し、簡潔化のため、および異なるアスペクト比も同等に計算されることを確実にするために、三角関数は省いている。
c.範囲は3/32から2であり、インクリメントは1/128である。メタデータは11から255の範囲の8ビットの整数であり、これを
マスタリング視距離=(L12.MVD+1)/128
によってピクチャの高さを計算するために用いる。
d.特定されない場合または0から10の範囲内である場合、デフォルトは127であるか、参考視距離に等しいマスタリング視距離である。新しいコンテンツに対しては、マスタリング距離が参考視距離に等しいことを示すために、この値は例えば63などのより小さい値であってもよい。
4)必要に応じてカメラからの被写体の距離(ROIの半分を超える)を特定し得る。
a.これを用いると、見る位置の変化に呼応した正しい速度で画像をパンおよびズームすることにより「見回す」特徴を高め得る。遠くのオブジェクトは近くのオブジェクトよりも遅い速度でパンおよびスケーリングされる。
5)必要に応じて「閲覧者の意図する動きの経路」を特定し得る。
a.これを用いると、閲覧者追跡が使用不可能またはイネーブルできない場合でも、再生中に「ケンバーンズ」効果をガイドし得る。例としてはフォトフレームが挙げられる。この特徴は、パンおよびスケーリング用にケンバーンズ方向をガイドすることにより、被写体へのズームインであるか被写体からのズームアウトであるかにかかわらずアーティストが所望の効果を特定することを可能し、主要な被写体がクロッピングにより誤って画像から切り取られる可能性もない。
6)必要に応じてグラフィクスまたはオーバーレイ用の別の層を特定し得る。
a.これにより、画像スケーリングとは無関係にグラフィクスをスケーリングしたり画像と合成したりすることが可能になる。画像をクロッピングまたはスケーリングするときに、重要なオーバーレイまたはグラフィクスがクロッピングされたりスケーリングされたりすることを防ぐ。グラフィクスおよびオーバーレイの「制作意図」を保持する。
【0054】
ビットストリーム内で単一のレベル12フィールドのみを特定するのが好ましい。複数のフィールドが特定された場合、最後のもののみが有効であると考えられる。メタデータの値はフレーム毎に変化し得るが、このことはビデオシーケンス内でROIを追跡するために必要である。フィールドは拡張可能であり、将来のバージョンのために追加のフィールドを追加することを可能とする。
【0055】
実施形態を実行し得るソフトウェア(疑似コード)の例を以下に示す。
【0056】
【0057】
再生挙動の別の実施形態は補遺にも記載する。
【0058】
ディスプレイに対する観察者の相対的位置に基づく表示の適応
ウィンドウを通してシーンを見たとき、シーンはウィンドウに対する観察者の相対的位置によって異なって見える。例えば観察者がウィンドウに近い場合は、遠い場合に比べて外側のシーンの見える部分が大きい。同様に、閲覧者が横方向に動くにつれて画像の一部がウィンドウの一方側に現れ、ウィンドウの他方側では画像の他の部分が隠れる。
【0059】
レンズ(拡大レンズまたは縮小レンズ)をウインドウに置き換えた場合、外側のシーンは、実際のシーンよりも大きく見える(ズームイン)か小さく見える(ズームアウト)。しかしそれでも観察者はウィンドウに対して動いたときと同じ経験をする。
【0060】
対照的に、観察者が従来のディスプレイ上で再生されたデジタル画像を見ると、画像はディスプレイに対する閲覧者の相対的位置に応じて変化しない。一実施形態では、ウィンドウを通して見た場合の経験と従来のディスプレイを見た場合の経験との差異に対処するために、ディスプレイに対する観察者の相対的位置に応じてディスプレイ上の画像を適応させ、それにより、観察者にはレンダリングされたシーンをまるでウィンドウを通して観察しているかのように見えるようにする。このような実施形態では、コンテンツ作成者(例えばフォトグラファー、モバイルのユーザまたは映画の撮影者)は実際のシーン内にいるという経験を聴衆により良く伝えることができるか、聴衆とより良く共有することができる。
【0061】
一実施形態では、ディスプレイに対する観察者の相対的位置に応じて画像表示を適応させるプロセスの例は以下のステップを含み得る。
・カメラなどのキャプチャデバイスで画像を得るか、ディスクからロードする。
・キャプチャした画像上で関心領域(ROI)を特定する。
・画像およびROIを受信デバイスに送信する。
・受信デバイスにおいてディスプレイに対する閲覧者の位置を決定する。
・ROIメタデータ、スクリーンのアスペクト比、およびスクリーンに対する閲覧者の相対的位置に応じてディスプレイ上に画像を表示する。
【0062】
これらのステップの各々を以下により詳細に述べる。例えば画像はカメラを用いて、またはディスクまたはメモリからロードすることにより、またはデコード済みビデオからキャプチャすることにより得られ得るが、これらに限られない。このプロセスは単一のピクチャまたはフレーム、またはピクチャまたはフレームのシーケンスに適用し得る。
【0063】
関心領域とは、画像内の領域であり、典型的には画像の最も重要な部分であって、広範囲の表示および閲覧構造全体に亘って保持すべき部分に対応する。関心領域、例えば画像の矩形の領域は手動またはインタラクティブに、例えばユーザが画像上で指、マウス、ポインタ、または何らかの他のユーザインターフェースを用いて矩形を描くことを可能にすることにより規定し得る。いくつかの実施形態では、ROIは画像内の特定のオブジェクト(例えば顔、車、ライセンスプレートなど)を識別することにより自動で生成し得る。ROIはまた、ビデオシーケンス内の複数のフレームに亘って自動で追跡し得る。
【0064】
スクリーンに対する閲覧者の距離および相対的位置を推定するには多くの方法がある。以下の方法は例としてのみ挙げるものであり、これらに限定されない。一実施形態では、ディスプレイのベゼル近傍の撮像デバイス、またはベゼルに組み込まれた撮像デバイス、例えば内側カメラまたは外部のウェブカムを用いて閲覧者の位置を確定し得る。カメラからの画像を分析して画像内の人の頭部の位置を見つけ得る。これは、「顔検出」、カメラオートフォーカス、自動露出または画像アノテーションなどに一般に用いられる従来の画像処理技術を用いて行う。当業者ユーザのために顔検出を実行して画像内の観察者の頭部の位置を分離することに関しては十分な文献と技術がある。顔検出プロセスの戻り値は閲覧者の頭部の矩形の境界ボックスまたはその境界ボックスの中心に対応する単一の点である。一実施形態では、閲覧者の位置の発見は以下の技術のいずれかによって更に向上し得る。
【0065】
a)一時的フィルタリング。このタイプのフィルタリングは頭部の推定位置の測定ノイズを低減し得、従ってより円滑でより連続的な経験を提供する。IIRフィルタはノイズを低減し得るが、フィルタリングされた位置は実際の位置より後ろに遅れる。カルマンフィルタリングは、ノイズを低減することと、以前に何回か行った測定に基づいて実際の位置を予測することとの両方を目指している。これらの技術は共に当該分野で周知である。
【0066】
b)目の位置の追跡。頭部の位置が識別されれば、閲覧者の目の位置を見つけることにより閲覧者の推定位置を向上させることが可能となる。これはさらなる画像処理を含み得、頭部を見つけるステップ全体をスキップし得る。その後閲覧者の位置を更新して2つの目のちょうど真ん中の位置または単一の目の位置を示し得る。
【0067】
c)より迅速な更新の測定。閲覧者の最も正確な現在位置を得るためには、より迅速な(より頻繁な)測定が望ましい。
【0068】
d)深度カメラ。カメラから閲覧者までの距離の推定を向上させるために、距離を直接測定する特別なカメラを用い得る。いくつかの例はtime-of-flight(飛行時間)カメラ、立体視カメラまたはストラクチャードライト(structured light)である。これらの各々は当該分野で公知であり、カメラに対するシーン内のオブジェクトの距離を推定するために一般的に用いられる。
【0069】
e)赤外線カメラ。広範囲の環境光(例えば暗室)に亘って性能を上げるために赤外線カメラを用い得る。これらは顔の熱を直接測定してもよいし、赤外線送信機からの反射した赤外光を測定してもよい。このようなデバイスはセキュリティ分野で一般的に用いられる。
【0070】
f)距離の較正。閲覧者とカメラとの間の距離は画像処理アルゴリズムにより推定し得る。その後カメラとスクリーンとの間の既知の変位を用いて、この距離をスクリーンから閲覧者への距離に較正し得る。これにより、表示された画像が、推定した閲覧者位置に対して正しいことが確実にされる。
【0071】
g)ジャイロスコープ。これはモバイルデバイスで広く使用可能であり、ディスプレイの向き(例えば縦長モードか横長モードか)または観察者に対するハンドヘルドディスプレイの相対移動に関する情報を容易に提供し得る。
【0072】
ROIメタデータおよびスクリーンの特性(アスペクト比)を考慮して、レンダリングされた画像をいかにして関心領域および閲覧者の仮定位置に適応させ得るかを本明細書ですでに述べた。一実施形態では、観察者の仮定位置が上記のいずれかの技術によって演算した推定位置に置き換えられた場合、表示のレンダリングは以下の技術の1以上を用いて調整し得る。例を
図6Aから
図6Gに示す。
【0073】
一例として
図6Aは、ROIメタデータを考慮せずにキャプチャしてディスプレイ605(例えば縦長のモバイルフォンまたはタブレット)に表示した元画像610を示す。一例として矩形615(「Hi」)は関心領域(例えばピクチャフレーム、バナーおよび顔など)を表し得る。
【0074】
図6Bは、参考閲覧位置(例えばピクチャの高さが3.2で、スクリーン上で水平方向および垂直方向の中心にある)を考慮することによって画像610をレンダリングする例を示す。ここでは適切なスケーリングにより元のアスペクト比を維持しながらROI(615)を拡大する。
【0075】
一実施形態では
図6Cに示すように、閲覧者がスクリーンから遠ざかるにつれて、またはディスプレイが閲覧者から離れる方向に移動するにつれて、画像はよりズームインする。これは、閲覧者がウィンドウから離れたために外側のシーンが制限されて見える場合と同じ効果を表す。同様に
図6Dに示すように、閲覧者がスクリーンに近づくにつれて、またはディスプレイが閲覧者に近づく方向に移動するにつれて、画像はよりズームアウトする。これは、閲覧者がウィンドウに近づいたために外側のシーンが大きく見える場合と同じ効果を表す。
【0076】
一実施形態では
図6Eに示すように、閲覧者がディスプレイの右側に移動するにつれて、またはディスプレイが閲覧者の左側に移動するにつれて、画像が右側にシフトする。これは、閲覧者がウィンドウを通して左側を見た場合と同じ効果を表す。同様に
図6Fに示すように、閲覧者がディスプレイの左側に移動するにつれて、またはディスプレイが閲覧者の右側に移動するにつれて、画像が左側にシフトする。これは、閲覧者がウィンドウを通して右側を見た場合と同じ効果を表す。
【0077】
閲覧者(またはディスプレイ)が上下動した場合、またはこれら様々な動きを組み合わせた動きをした場合も、同様の調整をし得る。概して画像は、画像内のシーンの仮定深度または推定深度に基づいた量だけ移動する。深度が非常に浅い場合、移動は閲覧者の実際の移動よりも小さい。深さが非常に深い場合、移動は閲覧者の移動に等しいことがあり得る。
【0078】
一実施形態では、上記動作の全てをディスプレイのアスペクト比に応じて調整し得る。例えば横長モードでは
図6Gに示すように、元の画像(610)をスケーリングしてクロッピングし、ROI615が観察者の視野の中心にくるようにする。その後上記したように、表示された画像(610-ROI-B)を、スクリーンに対する観察者の相対的位置に応じてさらに調整し得る。
【0079】
一実施形態では、ROIが画像のエッジに近づくにつれてROIの移動量をどんどん小さくし得る。これによりROIが突然エッジに到達してそれ以上動かなくなることを防止する。そのため参考位置(例えば610-ROI-A)の近傍からは、画像はウインドウを通して見るように自然に調整し得るが、キャプチャした画像のエッジに近づくと移動速度は減少し得る。自然に移動する状態と全く動かない状態との境界が急に現れるのを防止することが望ましい。閲覧者が最大限可能な量に向けて移動している間、移動の割合を円滑にスケーリングすることが好ましい。
【0080】
必要に応じて、画像を時間の経過とともに再度ゆっくりと中心に寄せて閲覧者の実際の閲覧位置に移動させてもよい。これにより実際の閲覧位置からの移動および動きの範囲が広がる可能性がある。例えば閲覧者が参考位置から閲覧を開始して、その後スクリーンの左下隅に向かって移動した場合、画像を調整して上方向および右方向にパンし得る。閲覧者は、この新しい閲覧位置から左下隅に向けた更なる移動を許可されることはない。必要に応じて設けられるこの特徴があるため、ビューは時間の経過とともに中心位置に戻り得、それによって閲覧者の移動範囲が全方向において回復する。必要に応じて、閲覧者の位置に基づく画像のシフトおよび/またはスケーリングの量を、部分的に追加の距離メタデータによって決定し得る。追加の距離メタデータは、ROIを含む主要な被写体から閲覧者までの距離(深度)を記述している。ウィンドウを通して見るという経験をエミュレートするために、画像の適応は遠い距離よりも近い距離に対して少なくすべきである。
【0081】
別の実施形態では上記のように必要に応じて、調整済み画像を用いてオーバーレイ画像を作成し得る。この場合、オーバーレイ画像の位置は固定したままである。これにより、オーバーレイ画像内の重要な情報が常に且つ全ての閲覧位置から見える状態にあることが防止される。さらに、ウィンドウ上に印刷された半透明のオーバーレイとして、経験の没入感とリアリズムとを高める。
【0082】
別の実施形態では上記のように必要に応じて、カラーボリュームマッピングを、表示された画像の実際の領域に応じて調整し得る。例えば閲覧者がシーン内の明るいオブジェクトを見るために右に移動した場合、画像のダイナミックレンジを記述したメタデータを調整して、その明るい画像を反映するようにし得る。従ってレンダリングされた画像はトーンマッピングによって僅かに暗くマッピングされ、それによりトーンマッピングは、人間の観察者がウィンドウを通してシーンを見たときに経験する適応効果を模倣する。
【0083】
「インテリジェントズーム」(観察者とスクリーンとの間の固定距離に関する)について上記した疑似コードを参照する。一実施形態では閲覧者位置の適応によるインテリジェントズームを許可するには以下の変更が必要である。
a)仮説的参照視距離を用いることに代えて、閲覧者からスクリーンまでの実際の距離(いずれかの公知の技術により測定される)を用いて上記の「viewerDistance」および「zoomFactor」というパラメータを演算し、スケーリング済み画像を生成する。
b)スクリーン上の閲覧者位置に応じて(x、y)座標に亘ってスケーリング済み画像をシフトする。一例として閲覧者位置は、その目の(x,y)座標を参照して演算し得るが、これに限られない。これは疑似コードでは以下のように表し得る。
【表3】
【0084】
図7は、一実施形態による表示適応プロセスを用いて画像を表示するプロセスフローの一例を示す。ステップ705において、デバイスが入力画像と画像内の関心領域に関連するパラメータとを受け取る。画像適応(例えば本明細書に記載する「インテリジェントズーム」)がイネーブルされなかった場合、デバイスはステップ715でROIメタデータを考慮せずに出力画像を生成する。しかし画像適応がイネーブルされた場合は、デバイスはステップ710でROIメタデータと表示パラメータ(例えばアスペクト比)とを用いて入力画像の出力バージョンを生成し得、それによって入力画像のROIを目立たせ得る。さらにいくつかの実施形態では、デバイスはディスプレイに対する閲覧者の相対的位置および閲覧者からディスプレイまでの距離に応じて出力画像をさらに調整し得る。出力画像はステップ720で表示される。
【0085】
図8は、データ処理システム800の一例を示す。データ処理システム800は一実施形態で用い得る。例えばシステム800は、
図2Aまたは
図5の方法を実行するコンテンツ作成システムまたはコンテンツ編集システムを提供するために実装してもよいし、
図2Bの方法を実行する再生デバイスを提供するために実装してもよい。留意すべきは、
図8はデバイスの様々なコンポーネントを示しているが、コンポーネントを相互接続する特定の構造または様式を表すことを意図しているわけではない。なぜならこのような詳細は本開示に無関係だからである。より少数のコンポーネントまたはおそらくより多数のコンポーネントを有するネットワークコンピュータおよびその他のデータ処理システムまたはその他の消費者用電子機器を本開示の実施形態で用い得ることも理解すべきである。
【0086】
図8に示すようにデバイス800はデータ処理システムという形態にあり、バス803を含む。バス803はマイクロプロセッサ(単数または複数)805とROM(リードオンリーメモリ)807と揮発性RAM809と不揮発性メモリ811とに接続されている。マイクロプロセッサ(単数または複数)805はメモリ807、809および811から命令を引き出し、命令を実行することにより上記の動作を行い得る。マイクロプロセッサ(単数または複数)805は1以上の処理コアを含む。バス803はこれら様々なコンポーネントを相互接続し、さらにこれらのコンポーネント805、807、809および811と表示コントローラ兼表示デバイス813および周辺デバイスとを相互接続している。周辺デバイスは例えば入力/出力(I/O)デバイス815などであり、入力/出力デバイス815はタッチスクリーン、マウス、キーボード、モデム、ネットワークインターフェース、プリンタおよび当該分野で周知のその他のデバイスであり得る。典型的には入力/出力デバイス815は入力/出力コントローラ810を介してシステムに接続されている。揮発性RAM(ランダムアクセスメモリ)809は典型的にはダイナミックRAM(DRAM)として実装される。ダイナミックRAMはメモリ内のデータをリフレッシュまたは維持するために継続的にパワーを必要とする。
【0087】
不揮発性メモリ811は典型的には磁気ハードドライブ、光磁気ドライブ、光学ドライブ、DVD RAM、フラッシュメモリまたは他のタイプのメモリシステムであり、システムからパワーが除去された後もデータ(例えば大量のデータ)を保持する。典型的には不揮発性メモリ811はランダムアクセスメモリでもあるが、このことは必要ではない。
図8は不揮発性メモリ811がデータ処理システム内の他のコンポーネントに直接接続したローカルデバイスであることを示している。しかし本開示の実施形態は、システムに対してリモートの不揮発性メモリ、例えばモデム、イーサネットインターフェースまたは無線ネットワークなどのネットワークインターフェースを介してデータ処理システムに接続されたネットワークストレージシステムなどの不揮発性メモリを利用し得ることが理解される。バス803は、当該分野で周知のように様々なブリッジ、コントローラおよび/またはアダプタを介して互いに接続された1以上のバスを含み得る。
【0088】
上記に記載したものの一部は、専用ロジック回路などのロジック回路によって、またはマイクロコントローラまたはプログラムコード命令を実行する他の形態の処理コアによって実装し得る。従って上記に教示したプロセスは、マシン実行可能命令などのプログラムコードで実行し得る。マシン実行可能命令は、これらの命令を実行するマシンに特定の機能を実行させる。ここで「マシン」とは中間形態の(または抽象的な)命令をプロセッサ特定命令(例えば「仮想マシン」(例:Java仮想マシン)、インタプリタ、共通言語ランタイム、高度言語仮想マシンなどの抽象的実行環境)に変換するマシンであってもよいし、および/または命令を実行するように設計された半導体チップ(例えば「トランジスタで実装する「ロジック回路」)上に設けられた電子回路、例えば汎用プロセッサおよび/または専用プロセッサなどであってもよい。上記に教示したプロセスは、このプロセス(またはその一部)を実行するように設計された電子回路(マシンに対する代替物としての電子回路、またはマシンと組み合わせた電子回路)によって実行されてもよく、その場合、プログラムコードは実行しない。
【0089】
本開示はさらに、本明細書に記載の動作を実行する装置に関する。この装置は、必要な目的のために特別に構築されたものであってもよいし、汎用デバイスであって、そのデバイスに保存されたコンピュータプログラムによって選択的に作動または再構成された汎用デバイスを含んでもよい。このようなコンピュータプログラムは、非一時的なコンピュータ読み取り可能記憶媒体に保存し得る。非一時的なコンピュータ読み取り可能記憶媒体とは、フロッピーディスク、光ディスク、CD-ROMおよび光磁気ディスクを含むあらゆるタイプのディスク、DRAM(揮発性)、フラッシュメモリ、リードオンリーメモリ(ROM)、RAM、EPROM、EEPROM、磁気または光カード、または電子命令を保存するのに適したあらゆるタイプの媒体であるがこれらに限られず、各々がデバイスのバスに接続されている。
【0090】
マシン読み取り可能媒体は、マシン(例えばコンピュータ)が読み取り可能な形態で情報を保存するあらゆる機構を含む。例えば非一時的なマシン読み取り可能媒体は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイスなどを含む。
【0091】
プログラムコードを保存するために製造品を用い得る。プログラムコートを保存する製造品は、1以上の非一時的なメモリ(例えば1以上のフラッシュメモリ、ランダムアクセスメモリ(スタティック、ダイナミックまたはその他)、光ディスク、CD-ROM、DVD ROM、EPROM、EEPROM、磁気または光カード、または電子命令を保存するのに適したその他のタイプのマシン読み取り可能媒体)として具現化され得るが、これらに限られない。プログラムコードはさらにリモートコンピュータ(例えばサーバ)からリクエストする側のコンピュータ(例えばクライアント)に、伝搬媒体内で具現化されたデータ信号によって(例えば通信リンク(例:ネットワーク接続)を介して)ダウンロードし得、その後クライアントコンピュータ内の非一時的なメモリ(例えばDRAM、フラッシュメモリ、またはその両方)に保存し得る。
【0092】
上記の詳細な説明はデバイスメモリ内のデータビット上での動作のアルゴリズムおよびシンボルによる動作の表現として提示される。これらのアルゴリズム記述および表現は、データ処理分野の当業者が自分たちの仕事の本質を他の当業者に最も効率的に伝えるために用いるツールである。アルゴリズムがここにあり、アルゴリズムは概して、所望の結果につながる首尾一貫した動作のシーケンスと考えられる。上記動作は物理量に対する物理的操作を必要とするものである。これらの量は必ずしもではないが通常、保存、移送、組み合わせ、比較およびその他の操作が可能な電気信号または磁気信号という形態を取る。これらの信号をビット、値、エレメント、シンボル、特性、ターム、数などと呼ぶことは、主に一般的な使用上の理由で時に都合がよいことが証明されている。
【0093】
しかし、これら全ておよび類似の用語は適切な物理量と関連付けられ、これらの量に適用された好都合なラベルにすぎないということを覚えておくべきである。上記の記載から明らかなように特に明記しない限り、本記載全体を通じて、「受け取る」、「決定する」、「送る」、「終了する」、「待機する」および「変更する」などの用語を用いて行っている記載は、デバイスまたは同様の電子演算デバイスの作用およびプロセスを意味することが理解される。これらのデバイスまたは同様の電子演算デバイスは、そのデバイスのレジスタおよびメモリ内の物理(電子)量として表されるデータを操作し、そのデータを、そのデバイスのメモリまたはレジスタ、または同様の他の情報保存デバイス、送信デバイスまたは表示デバイス内で同様に物理量として表される他のデータに変換する。
【0094】
本明細書で提示したプロセスおよびディスプレイは、元々何か特定のデバイスまたはその他の装置に関連しているわけではない。本明細書の教示に応じたプログラムと共に様々な汎用システムが用いられてもよいし、ここに記載の動作を実行するためにより特化した装置を構築することが好都合であると証明されてもよい。これら様々なシステムに必要な構成は以下の記載により明らかとなる。さらに本開示は特定のプログラミング言語を参照して記載するものではない。本明細書に記載の開示の教示を実行するために様々なプログラミング言語を用い得ることが理解される。
【0095】
本明細書ではこれまで、特定の例としての実施形態を記載してきた。以下の請求の範囲に記載のより広い精神および範囲から逸脱することなく、これらの実施形態に様々な改変を行い得ることは明らかである。従って本明細書および図面は開示を限定するのではなく、例を示すものとして考えられるべきである。
【0096】
本発明の様々な局面は以下に列挙した例としての実施形態(EEE)から理解し得る。
EEE1.
マシン実装された方法であって、
コンテンツ作成に用いる画像キャンバス用に元のアスペクト比(AR)を選択することと、
前記画像キャンバス上のコンテンツ内の少なくとも第1のシーン内で、前記少なくとも第1のシーン内の第1の被写体の第1の位置を決定することと、
前記第1の被写体の決定された位置に基づいて、前記第1の部分に対して、前記元のARとは異なるARを有する前記表示デバイス上での再生をいかにして適応させるかを特定する第1のメタデータを決定することと、
前記第1のメタデータおよび前記コンテンツが再生中に用いられるか又は用いるために送信される場合に、前記第1のメタデータを保存することと、
を含む方法。
EEE2.
前記元のARは実質的に正方形である、EEE1に記載の方法。
EEE3.
前記実質的な正方形は、(1)AR16:9よりも正方形に近い、すなわち前記元のARの高さに対する長さの比が16:9の比(16/9)よりも小さいが1:1以上であるか、(2)縦長モードが好ましい場合に9:16の比より大きいが1:1より小さいか、のいずれかであり、前記元のARはコンテンツ中に変化する、EEE2に記載の方法。
EEE4.
前記第1のシーンを含む複数のシーンに対して、前記第1の被写体を含む複数の被写体を決定することと、
前記複数のシーン内の前記被写体の各々に対して、対応するシーン内での対応する位置を決定することと、
をさらに含む、EEE1から3のいずれか1つに記載の方法。
EEE5.
被写体が前記複数のシーン内でのシーン毎に決定され、前記方法は、
異なるアスペクト比でのクロッピングがいかにして前記メタデータに基づいて行われるかを示すプレビューを表示することをさらに含む、EEE4に記載の方法。
EEE6.
前記第1のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるARに合わせて前記第1のシーン内の前記第1の被写体から拡大するようにガイドする、EEE1から5のいずれか1つに記載の方法。
EEE7.
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムにEEE1から6のいずれか1つに記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
EEE8.
処理システムおよびメモリを有するデータ処理システムであって、EEE1から6のいずれか1つに記載の方法を実行するように構成されたデータ処理システム。
EEE9.
マシン実装された方法であって、
少なくとも第1のシーン用の画像データを含むコンテンツを受け取り、且つ前記第1のシーンに関連付けられた第1のメタデータを受け取ることであって、前記第1のメタデータは、前記第1のシーン内の第1の被写体の第1の位置に対して、元のアスペクト比(AR)とは異なるアスペクト比を有する表示デバイス上での再生をいかにして適応させるかを特定し、前記第1のシーンは前記元のアスペクト比を有する画像キャンバス上で作成されている、ことと、
前記第1のメタデータに基づいて前記表示デバイスの前記アスペクト比に出力を適応させることと、
を含む方法。
EEE10.
前記元のARは実質的に正方形である、EEE9に記載の方法。
EEE11.
前記実質的な正方形は、AR16:9よりも正方形に近い、すなわち前記元のARの高さに対する長さの比が16:9の比(16/9)より小さくなっており、前記元のARは前記コンテンツ中に変化する、EEE10に記載の方法。
EEE12a.
前記コンテンツは、前記第1のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるARに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ各シーンまたは各フレーム内の関心領域に基づいて行われ、各シーンは1以上のフレームを含む、EEE9から11のいずれか1つに記載の方法。
EEE12b.
前記コンテンツは、前記第1のシーンを含む複数のシーンを含み、前記複数のシーンのうちの各々のシーンはそのシーンの被写体用の決定された位置を有し、被写体はシーン毎に決定され、異なるARに対する適応はシーン毎に行われ、トーンマッピングは前記表示デバイスに対してシーン毎またはフレーム毎に、且つ適応した画像のうちのどの相対的部分が関心領域として呼ばれるかに基づいて行われ、各シーンは1以上のフレームを含む、EEE9から11のいずれか1つに記載の方法。
EEE13.
前記第1のメタデータは、再生デバイス上での非対称なクロッピングを、再生用に適応させる際の異なるARに合わせて前記第1のシーン内の前記第1の被写体から拡大するようにガイドする、請求項9から12のいずれか1つに記載の方法。
EEE14.
前記表示デバイスに対する閲覧者の位置に関連する距離パラメータと位置パラメータとを受け取ることと、
前記距離パラメータおよび前記位置パラメータに基づいて、前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることと、
をさらに含む、EEE9に記載の方法。
EEE15.
前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記閲覧者と前記表示デバイスとの間の閲覧距離が長くなるときに前記第1の被写体の前記出力をアップスケーリングし、前記閲覧者と前記表示デバイスとの間の前記閲覧距離が短くなるときに前記第1の被写体の前記出力をダウンスケーリングすることを含む、EEE14に記載の方法。
EEE16.
前記第1の被写体の前記出力を前記表示デバイスにさらに適応させることは、前記表示デバイスが前記閲覧者に対して右に移動するときに前記第1の被写体の前記出力を左にシフトさせ、前記表示デバイスが前記閲覧者に対して左に移動するときに前記第1の被写体の前記出力を右にシフトさせることを含む、EEE14に記載の方法。
EEE17.
グラフィクスデータを受け取ることと、
前記グラフィクスデータと前記適応させた出力とを合成したものを含むビデオ出力を生成することと、
をさらに含むEEE9から16のいずれか1つに記載の方法。
EEE18.
前記第1のメタデータは、閲覧者の意図する動きの経路を規定して再生中にケンバーンズ関連効果をガイドする構文要素をさらに含む、EEE9から17のいずれか1つに記載の方法。
EEE19.
実行可能なプログラム命令を保存する非一時的なマシン読み取り可能媒体であって、データ処理システムによって実行されると、前記データ処理システムにEEE9から18のいずれか1つに記載の方法を実行させる、非一時的なマシン読み取り可能媒体。
EEE20.
処理システムおよびメモリを有するデータ処理システムであって、EEE9から18のいずれか1つに記載の方法を実行するように構成されたデータ処理システム。
付録
再生挙動例
【0097】
再生デバイスは、画像メタデータ、ディスプレイの構成およびオプションとしてのユーザ構成に応じて特定のリフレーミングを適用する役目を担う。一例としての実施形態では、ステップは以下の通りである。
1)「デフォルトの視距離」の関数としてrelative viewing distance(相対的視距離)を特定する。実装の複雑さ又はバージョンに応じて、オプションは以下を含む。
・RelativeViewingDistance=1.0のデフォルト値を用いる。
・それを次の2つの方法のうち1つでダイナミックに調整する:
-ウィンドウをリサイズする際またはピクチャをピクチャモードにする際に自動で調整する。
RelativeViewingDistance=sqrt(WindowWidth
2+WindowHeight
2)/sqrt(DisplayWidth
2+DisplayHeight
2)
-ユーザインタラクション(ピンチングする、スクロールする、およびバーをスライドさせるなど)により手動で調整する。
・カメラまたはその他のセンサを用いて視距離を測定し、閲覧者の測定済み距離(典型的にはメートルで)を設定ファイルで特定されたデフォルト視距離に分割する。
RelativeViewingDistance=ViewerDistance/DefaultViewingDistance
備考:いくつかの実施形態では、相対的視距離の値を特定の範囲(例えば0.5と2.0との間)でバウンディングしなければならなくなる可能性がある。例として2つのバウンディングスキームを後にこのセクション内で示す。
2)ソースの相対的視距離を相対的角度に変換する。
【数1】
上記式において、(W,H)
srcはソース画像の画素での幅および高さであり、MasteringViewingDistanceはL12メタデータまたはその他のメタデータによって提供される値である。デフォルト値は0.5である。
3)ターゲットの相対的視距離を相対的角度に変換する。
【数2】
上記式において、(W,H)
tgtはターゲット画像の画素での幅および高さであり、RelativeViewingDistanceはステップ(1)から計算される。
4)関心領域(U,V)
roiの視野角を計算する。
【数3】
上記式において、(W,H)
roiはROIの画素での幅および高さであり、L12メタデータまたはその他のメタデータによって提供される。デフォルト値は(W,H)
srcである。(W,H)
srcはソース画像の画素での幅および高さである。
5)ROI全体が表示されることを確実にするためにターゲットの視野角を再スケーリングする。
【数4】
6)パディングが1方向にのみ適用されることを確実にするためにターゲットの視野角を再スケーリングする。
【数5】
7)ROI(U,V)
0の左上画素の角座標を見つける。
【数6】
上記式において、(X,Y)
0はのROIの左上位置であり、0から(W,H)
srcまでである。L12メタデータまたはその他のメタデータによって提供され、デフォルト値は(0,0)である。(W,H)
srcはソース画像の幅および高さである。
8)エッジまでの距離に基づいてROIの左上の角度位置をスケーリングし、ターゲットの視野角がソースの視野角より大きい場合にレターボックス領域を中心に位置づける。
【数7】
9)角座標を画素座標に変換する。
【数8】
10)前のステップで計算したROI(X,Y,W,H)を出力画像の解像度に再スケーリングする。備考:これはトーンマッピングを適用する前にしてもよいし後にしてもよい。
11)ソース画像に対するROIの相対的サイズに基づいてトーンマッピングに対する調整を計算する。
【数9】
上記式において、S
midはトーンマッピング用のトーン曲線の中間点として用いられる値である。
L1
midおよびL3
midoffsetはL1メタデータおよびL3メタデータによって提供される。
L12
midoffsetはL12メタデータによって提供される。デフォルト値は0.0である。
RelativeViewingDistanceの範囲を制限する。
いくつかの実施形態では、RelativeViewingDistanceを潜在的に無限の範囲から有効な範囲に(例えば0.5から2.0に)制限するために2つのオプションが提供される。
ハードバウンド。視距離が最短視距離と最長視距離との間でハードバウンディング(クリッピング)される。ROIのサイズは範囲全体に保存される。この方法は、あらゆる視距離で最適なマッピングを確実にするが、最短および最長の視距離で挙動が突然変化する。
ソフトバウンド。最短および最長の視距離で挙動が突然変化することを防ぎながら視距離の範囲を拡大するために、視距離にシグモイド関数を適用する。この関数はいくつかのキー特性を有する。
a)デフォルトの視距離での1:1マッピング。リアリティおよび没入感のある応答を提供するため。
b)最短および最長視距離での0のスロープ。挙動の突然の変化を防止するため。
一例として、以下に示す関数曲線は0.25xから2.5x(デフォルトの視距離)までの僅かに長い測定視距離をマッピングして、0.5xから2x(デフォルトの視距離)までの範囲のマッピング済み視距離にする。
【数10】
【国際調査報告】