特許第5792064号(P5792064)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

<>
  • 特許5792064-字幕の三次元表示処理 図000004
  • 特許5792064-字幕の三次元表示処理 図000005
  • 特許5792064-字幕の三次元表示処理 図000006
  • 特許5792064-字幕の三次元表示処理 図000007
  • 特許5792064-字幕の三次元表示処理 図000008
  • 特許5792064-字幕の三次元表示処理 図000009
  • 特許5792064-字幕の三次元表示処理 図000010
  • 特許5792064-字幕の三次元表示処理 図000011
  • 特許5792064-字幕の三次元表示処理 図000012
  • 特許5792064-字幕の三次元表示処理 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5792064
(24)【登録日】2015年8月14日
(45)【発行日】2015年10月7日
(54)【発明の名称】字幕の三次元表示処理
(51)【国際特許分類】
   H04N 13/00 20060101AFI20150917BHJP
【FI】
   H04N13/00 660
   H04N13/00 700
   H04N13/00 220
【請求項の数】15
【全頁数】20
(21)【出願番号】特願2011-519268(P2011-519268)
(86)(22)【出願日】2009年7月17日
(65)【公表番号】特表2011-529286(P2011-529286A)
(43)【公表日】2011年12月1日
(86)【国際出願番号】IB2009053116
(87)【国際公開番号】WO2010010499
(87)【国際公開日】20100128
【審査請求日】2012年7月11日
(31)【優先権主張番号】08161152.7
(32)【優先日】2008年7月25日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
(74)【代理人】
【識別番号】100087789
【弁理士】
【氏名又は名称】津軽 進
(74)【代理人】
【識別番号】100122769
【弁理士】
【氏名又は名称】笛田 秀仙
(74)【代理人】
【識別番号】100145654
【弁理士】
【氏名又は名称】矢ヶ部 喜行
(72)【発明者】
【氏名】ニュートン フィリップス エス
(72)【発明者】
【氏名】ボリオ デニス ディ アール ジェイ
(72)【発明者】
【氏名】スカロリ フランチェスコ
(72)【発明者】
【氏名】ファンデルヘイデン ヒェラルドゥス ダブリュ ティ
(72)【発明者】
【氏名】ファン ドフェレン ヘンリクス エフ ピー エム
(72)【発明者】
【氏名】デ ハーン ヴィーベ
(72)【発明者】
【氏名】モール ヘンドリク エフ
【審査官】 佐野 潤一
(56)【参考文献】
【文献】 特開2004−274125(JP,A)
【文献】 特開2008−103820(JP,A)
【文献】 特開2004−201004(JP,A)
【文献】 特開2005−124200(JP,A)
【文献】 国際公開第2009/090868(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 13/00
(57)【特許請求の範囲】
【請求項1】
三次元画像信号を生成する方法であって、
第1画像成分を受信し、
前記第1画像成分と組み合わせて三次元画像を生成するための第2成分を受信し、
前記三次元画像に含めるための、テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像を有するテキスト成分を受信し、
前記三次元画像内の前記テキスト・ベースの字幕及び前記プレゼンテーション・グラフィックス・ベースのビットマップ画像の両方により共有されるZ位置を記述するZ位置情報を含む共有されたZ位置成分を受信し、
前記第1画像成分、前記第2成分、前記テキスト成分及び前記共有されたZ位置成分を含む三次元画像信号を生成する、方法。
【請求項2】
前記Z位置情報が、一緒にタイトルのプレゼンテーションを形成するオーディオ・ビジュアル・コンテンツ・アイテムのシーケンスを示すリストの拡張データとして定められるテーブルにおいて前記三次元画像信号に含まれる、請求項1に記載の方法。
【請求項3】
前記テーブルが、さまざまな言語ストリームのための字幕の異なるZ位置を含むオフセット・メタデータ・テーブルである、請求項2に記載の方法。
【請求項4】
前記リストが、立体視マルチ・アングル・ビデオ・クリップを有する立体視マルチ・アングル・ビデオ・データの再生を可能にするアイテムを含み、それぞれのZ位置情報が、立体視マルチ・アングル・ビデオ・クリップごとに前記テーブルに記憶される、請求項2に記載の方法。
【請求項5】
前記テーブルが、立体視マルチ・アングル・ビデオ・クリップごとに字幕のオーバレイのための異なるZ位置を含むオフセット・メタデータ・テーブルである、請求項4に記載の方法。
【請求項6】
前記Z位置情報は、フレーム・アキュレート(frame accurate)であり、オーディオ・ビジュアル・コンテンツのエレメンタリ・ストリームに埋め込まれるパケットである符号メッセージ(SEI)において前記三次元画像信号に含まれ、前記パケットは、前記コンテンツを復号するための復号器により用いられることができるパラメータを伝達する、請求項1に記載の方法。
【請求項7】
前記Z位置情報が、前記テキスト成分に含まれるデータ・ストリームのための列挙されたZ値を含む、請求項6に記載の方法。
【請求項8】
前記Z位置情報が、
- 一緒にタイトルのプレゼンテーションを形成する三次元オーディオ・ビジュアル・コンテンツ・アイテムのシーケンスを示すリストとして定められるテーブル、
- 一緒にタイトルのプレゼンテーションを形成するオーディオ・ビジュアル・コンテンツ・アイテムのシーケンスを示すリスト中のテーブルであって、それぞれのオーディオ・ビジュアル・コンテンツ・アイテムに関連付けられたビデオ及びグラフィックス・ストリームを記載するテーブル、
のうちの1つにおいて前記三次元画像信号に含まれる、
請求項1に記載の方法。
【請求項9】
前記Z位置情報が、
- 字幕ストリーム及びオーディオ・ビジュアル・コンテンツを含むトランスポート・ストリームに関連するメタデータを記載するファイル、
- ファイル中のプログラム情報テーブルであって、一緒にオーディオ・ビジュアル・コンテンツのプレゼンテーションを形成するエレメンタリ・ストリームのリストを提供するプログラム情報テーブル、
- トリック・プレイのためのオーディオ・ビジュアル・コンテンツへのエントリー・ポイントを記載する特徴点情報(CPI)テーブル、
のうちの1つにおいて前記三次元画像信号に含まれる、
請求項1に記載の方法。
【請求項10】
三次元画像信号をレンダリングする方法であって、
第1画像成分、前記第1画像成分と組み合わせて三次元画像を生成するための第2成分、前記三次元画像に含めるための、テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像を有するテキスト成分、並びに、前記三次元画像内の前記テキスト・ベースの字幕及び前記プレゼンテーション・グラフィックス・ベースのビットマップ画像の両方により共有されるZ位置を記述するZ位置情報を含む共有されたZ位置成分を含む三次元画像信号を受信し、
三次元画像を提供するために前記第1画像成分及び前記第2成分をレンダリングし、
前記レンダリングは、前記三次元画像中に前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像をレンダリングすることを含み、前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のレンダリングは、前記共有されたZ位置成分に基づいて前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のZ位置を調整することを含む、方法。
【請求項11】
三次元画像信号を生成するための装置であって、
第1画像成分、前記第1画像成分と組み合わせて三次元画像を生成するための第2成分、前記三次元画像に含めるための、テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像を有するテキスト成分、並びに、前記三次元画像内の前記テキスト・ベースの字幕及び前記プレゼンテーション・グラフィックス・ベースのビットマップ画像の両方により共有されるZ位置を記述するZ位置情報を含む共有されたZ位置成分を受信するための受信機、
前記第1画像成分、前記第2成分、前記テキスト成分及び前記共有されたZ位置成分を含む三次元画像信号を生成する多重化装置を有する、装置。
【請求項12】
三次元画像信号をレンダリングするための装置であって、
第1画像成分、前記第1画像成分と組み合わせて三次元画像を生成するための第2成分、前記三次元画像に含めるための、テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像を有するテキスト成分、並びに、前記三次元画像内の前記テキスト・ベースの字幕及び前記プレゼンテーション・グラフィックス・ベースのビットマップ画像の両方により共有されるZ位置を記述するZ位置情報を含む共有されたZ位置成分を含む三次元画像信号を受信するための受信機、
三次元画像を提供するために前記第1画像成分及び前記第2成分をレンダリングするレンダリング装置、
を有し、
前記レンダリングは、前記三次元画像中に前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像をレンダリングすることを含み、前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のレンダリングは、前記共有されたZ位置成分に基づいて前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のZ位置を調整することを含む、装置。
【請求項13】
三次元再生システムのためのディスクであって、
第1画像成分、前記第1画像成分と組み合わせて三次元画像を生成するための第2成分、前記三次元画像に含めるための、テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像を有するテキスト成分、並びに、前記三次元画像内の前記テキスト・ベースの字幕及び前記プレゼンテーション・グラフィックス・ベースのビットマップ画像の両方により共有されるZ位置を記述するZ位置情報を含む共有されたZ位置成分を含む三次元画像信号を有し、三次元再生システムにおいて三次元画像を提供するために前記第1画像成分及び前記第2成分をレンダリングさせ、前記レンダリングは、前記三次元画像中に前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像をレンダリングすることを含み、前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のレンダリングは、前記共有されたZ位置成分に基づいて前記テキスト・ベースの字幕及びプレゼンテーション・グラフィックス・ベースのビットマップ画像のZ位置を調整することを含む、ディスク。
【請求項14】
前記Z位置情報は、フレーム・アキュレートであり、オーディオ・ビジュアル・コンテンツのエレメンタリ・ストリームに埋め込まれるパケットである符号メッセージ(SEI)において前記三次元画像信号に含まれ、前記パケットは、前記コンテンツを復号するための復号器により用いられることができるパラメータを伝達する、請求項13に記載のディスク。
【請求項15】
コンピュータで実行されたときに請求項1から請求項10のいずれか一項に記載の方法のステップを実行するための命令を有するコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は三次元(3D)画像信号の生成及びレンダリングに関する。一実施例において、本発明は、観察者の疲労を軽減する三次元表示上の字幕の自動的な最適位置決めを提供する。
【背景技術】
【0002】
現在、三次元テレビへの関心が復活し、これは、複数の観察者に対する三次元ビデオの良好な再生を可能にするディスプレイ技術における最近の進歩に関連している。これらのうちの1つは、自動立体視三次元レンチキュラ・ディスプレイであるが、自動立体視バリア・ベース・ディスプレイ及び背面投射技術に基づく時間多重ステレオ・ディスプレイのような、他のタイプのディスプレイも存在する。一般的に、これらのタイプのディスプレイは、観察者に三次元印象を生成するために、入力として2つの基本的なビデオ・フォーマットのうちの1つを用いる。ステレオに基づくディスプレイは、各々の目のために1つの2つの別々のビューを表示するために、時間シーケンシャル・インタリーブ及び眼鏡を用い、したがって、入力としてステレオ・ビデオを期待する。これらの例は時間多重背面投射ベースのステレオ・ディスプレイであり、この種類のシステムは、三次元シネマにも用いられる。これに対する主な変形例は、マルチ・ビュー自動立体視ディスプレイであり、これは眼鏡を必要とせず、しばしば、三次元印象を生成するための入力として、画像+深さとして知られる入力フォーマットを用いる。三次元ディスプレイ技術に関する更なる情報は、"3D video communication - Algorithms, concepts and real time systems in human centered communication" by Oliver Shreer et al. (Wiley 2005)の第13章中に見つけることができる。
【0003】
ステレオ・ビデオ・フォーマットは、各々の目のために1つの2つの画像を提供するので、単純である。一般的に、これらの2つの画像は、空間的に又は時間シーケンシャルでインタリーブされ、そしてディスプレイに供給される。「画像+深さ」と呼ばれる他のフォーマットは、それがいわゆる「深さ」又は視差マップと二次元画像との組み合わせであるという点で異なる。これは、一般的にグレー・スケール画像であり、ピクセルのグレー・スケール値は、関連する二次元画像中の対応するピクセルの視差(又は、深さマップの場合には深さ)の量を示す。ディスプレイは、三次元画像をレンダリングするときに、二次元画像を入力として利用して追加のビューを計算するために視差又は深さマップを用いる。これは、様々な態様で行われることができ、最も単純な形態では、ピクセルに関連づけられた視差値に依存して左又は右にピクセルをシフトすればよい。論文"Depth image based rendering, compression and transmission for a new approach on 3D TV" by Christoph Fenは、この技術の概要を与える。
【0004】
自動立体視及び(時間シーケンシャル・ベースの)ステレオ三次元ディスプレイに関する問題は、適応-収束不整合(accommodation-convergence mismatch)と呼ばれるものである。これは、観察者の目が表示されている物体の仮想的な位置に集中するが、同時に、目が(鮮明な画像を見るために)ディスプレイ自体の表面に順応するという問題である。この不整合は、頭痛及び乗り物酔いに似た他の症状を引き起こす場合がある。加えて、任意の幾何学的(特に任意の垂直視差)、並びに、左及び右目に対するビュー間の電気的な(輝度、コントラストなどの)差が、さらに視覚的疲労を引き起こす可能性がある。しかしながら、視差の量が小さく、つまり1°より小さく維持される場合、これらの問題はそれほどひどくはなく、ユーザは、いかなる重大な問題をも伴わずにコンテンツを見ることができる。詳細は"Two factors in visual fatigue caused by stereoscopic HDTV images", Sumio Yano et al. Displays 2004 pages 141 to 150 Elsevierを参照。
【0005】
上記の問題と同様に、レンダリング装置がテキスト(例えば字幕又はクローズド・キャプション(closed captioning))を表示するときに、問題が発生する可能性がある。テキストがスクリーン上で適切に配置されない場合(これはディスプレイのタイプ及び設定に依存する)、例えば左目ビューと右目ビューとの間のクロストークのために、テキストがぼやけて見える場合があり、観察者は疲労を感じる可能性がある。ぼやけ(blurring)は、テキストの読みやすさに影響を与える可能性がある場合もある。E. Legge ("Psychophysics of Reading: I. Normal Vision", Gordon E. Legge et. al. Vision Research, Vol 25, No.2, pages 239 to 252, 1985参照)によれば、テキストの帯域幅が文字あたり2サイクル未満である場合、読み取りが損なわれる。一般的に、複数のビューを生成するために解像度が犠牲にされるので、ぼやけは自動立体視ディスプレイに関する問題であり、ステレオ・ディスプレイでは、一般に、2つのビュー間の最適状態に及ばない間隔に関する問題があり、それが、画像をぼやけさせることに加わる可能性がある。さらに、(上記で参照された)Yanoによると、深さの動きは、視覚的疲労を増加させる。
【0006】
予見される更なる問題は、観察者が、(例えば彼らのリモコンのいくつかのボタンによって)三次元テレビの視差の量及び深さ面の相対的な位置を調整する可能性があることである。これらの調整は、テキストが、深さ中立位置から離れるのでぼやける可能性があること、又は、視覚的疲労を引き起こすように「深さ」を増加させることを意味する。
【0007】
米国特許出願公開番号US2005/0140676は、三次元マップ中にマルチレベル・テキスト・データを表示する方法を開示する。この公開公報に記載されるシステムでは、三次元マップがスクリーン上に表示され、表示された三次元マップのビュー・ポイントからテキスト・データが表示されるノードまでの距離に従って、異なるレベルの密度を有するテキスト・データが表示され、それによって、テキスト・データの読みやすさを改善する。スクリーン上のテキスト・データの密度を局所的に調整することによってテキスト・データを表示することも可能である。三次元マップは、投射図法により二次元座標を有するマップ・データを三次元座標を有するそれらに変換することによって、ディスプレイパネルのスクリーンに表示される。三次元マップと共に表示されるべきテキスト・データは、三次元マップのビュー・ポイントによって定められる原点を有する三次元座標系のそれらに変換される。変換されたテキスト・データは、スクリーン座標を有するそれらに変換される二次元面に投射される。その場合、表示された三次元マップのビュー・ポイントからテキスト・データが表示されるノードまでの距離が分類される。分類された距離は、スクリーン座標を有する変換されたテキスト・データに対して決定される。決定された距離に対応するレベルのテキスト・データは、三次元マップが表示されるディスプレイパネルのスクリーンに表示される。
【発明の概要】
【発明が解決しようとする課題】
【0008】
二次元ディスプレイ装置上の三次元マップの表現に関連して、この刊行物に従うテキスト・データの処理は、ユーザにとって意味があるように配置されてスケーリングされるが、三次元ディスプレイ装置におけるテキストの表示に関する上で特定された問題のいずれにも対処しない。
【課題を解決するための手段】
【0009】
したがって、既知の技術を改善することが本発明の目的である。本発明の第1の態様によると、三次元画像信号を生成する方法が提供され、当該方法は、第1画像成分を受信し、第1画像成分と組み合わせて三次元画像を生成するための第二成分を受信し、三次元画像中に含めるためのテキスト成分を受信し、三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を受信し、第1画像成分、第2成分、テキスト成分及びデータ成分を含む三次元画像信号を生成する。
【0010】
本発明の第2の態様によれば、三次元画像信号を生成するための装置が提供され、当該装置は、第1画像成分、第1画像成分と組み合わせて三次元画像を生成するための第二成分、三次元画像中に含めるためのテキスト成分、及び、三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を受信するように配置される受信機、並びに、第1画像成分、第2成分、テキスト成分及びデータ成分を含む三次元画像信号を生成するように配置される多重化装置を有する。
【0011】
本発明の第3の態様によれば、三次元画像信号をレンダリングする方法が提供され、当該方法は、第1画像成分、第1画像成分と組み合わせて三次元画像を生成するための第2成分、三次元画像中に含めるためのテキスト成分及び三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を含む三次元画像信号を受信し、第1画像成分及び第2成分から三次元画像をレンダリングし、前記レンダリングは、三次元画像中にテキスト成分をレンダリングすることを含み、テキスト成分のレンダリングは、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整することを含む。
【0012】
本発明の第4の態様によれば、三次元画像信号をレンダリングするための装置が提供され、当該装置は、第1画像成分、第1画像成分と組み合わせて三次元画像を生成するための第2成分、三次元画像中に含めるためのテキスト成分及び三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を含む三次元画像信号を受信するように配置される受信機、第1画像成分及び第2成分から三次元画像をレンダリングするように配置されるディスプレイを有し、前記レンダリングは、三次元画像中にテキスト成分をレンダリングすることを含み、テキスト成分のレンダリングは、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整することを含む。
【0013】
本発明の第5の態様によれば、三次元画像信号が提供され、当該信号は、第1画像成分、第1画像成分と組み合わせて三次元画像を生成するための第二成分、三次元画像中に含めるためのテキスト成分及び三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を有する。
【0014】
本発明の第6の態様によれば、三次元画像信号を生成するための計算機可読媒体上のコンピュータプログラム製品が提供され、当該製品は、第1画像成分を受信し、第1画像成分と組み合わせて三次元画像を生成するための第二成分を受信し、三次元画像中に含めるためのテキスト成分を受信し、三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を受信し、第1画像成分、第2成分、テキスト成分及びデータ成分を含む三次元画像信号を生成するための命令を含む。
【0015】
本発明の第7の態様によれば、三次元画像信号をレンダリングするための計算機可読媒体上のコンピュータプログラム製品が提供され、当該製品は、第1画像成分、第1画像成分と組み合わせて三次元画像を生成するための第2成分、三次元画像中に含めるためのテキスト成分及び三次元画像内のテキスト成分の位置を記述する位置情報を含むデータ成分を含む三次元画像信号を受信し、第1画像成分及び第2成分から三次元画像をレンダリングするための命令を含み、前記レンダリングは、三次元画像中にテキスト成分をレンダリングすることを含み、テキスト成分のレンダリングは、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整することを含む。
【0016】
本発明により、三次元ディスプレイ上の字幕のようなテキストの読みやすさを改善することが可能である。改善された読みやすさは、ディスプレイが字幕を含む画像の部分を残りの画像とは異なって処理することができるように、追加のパラメータが三次元ディスプレイに送信されることに基づく。そしてディスプレイは、字幕がテキストの深さ、シャープネス及び一般的な読みやすさに関して最良の態様で自動的に配置されることを保証することができる。本発明のアプリケーションは、ブルーレイ・ディスク・プレーヤーや、三次元ディスプレイに接続されて三次元コンテンツ及び関連する字幕を示すDVD又はHD-DVDプレーヤーのようなシステムに適用可能である。画像信号が、インターネット又はイントラネットのようなデジタル通信網を通じて部分的に又は完全に取得されることもできることは、当業者にとって明らかである。
【0017】
テキスト(特に字幕)は、スクリーンから制限された深さの範囲内に示されるべきであり、それらは表示全体の間、深さが変化してはならない。テキストの深さが一定のままでなければならない場合、これは、ビデオの深さが変化する場合があって、したがって特定のシーンの間にテキストの一部を遮蔽する可能性があるので、位置決めに対する問題も引き起こす。要約すると、三次元立体視ディスプレイに字幕又はクローズド・キャプションを表示するときに、以下の要因が考慮されなければならず、視差の量は1°より小さいべきであり、テキストの帯域幅は文字あたり2サイクルを超えているべきであり、テキストはスクリーンに対して一定の深さにとどまらなければならず、そしてテキストはビデオ物体によって遮蔽されるべきでない。
【0018】
これらの条件は、本発明による改善されたシステムによって満たされることができる。視差の量を制御することは、字幕又はクローズド・キャプションの位置に関する「深さ」マップのその部分を調整することによって実行されることができる。いくつかのディスプレイはステレオ入力を必要とし、それらの場合には、プレーヤーにおいて視差の量を制御するのはより難しいが、それは依然として可能である。
【0019】
帯域幅制約を満たすために、プレーヤーは、テキストの解像度が十分に高く、ゴーストが最低限に維持されて、動くテキストの速度が大き過ぎないことを保証しなければならない。これらの要因を満たすために、再生装置は、ディスプレイにとって十分である解像度で字幕又はクローズド・キャプションを送信しなければならず、ゴーストが最小化されるように深さを調整しなければならない。これは一般的に、テキストの深さが、中間に(可能な限りスクリーンの近くにあるように)維持されるべきであることを意味する。しかしながら、これは、ビデオの深さが動的に変化するためにビデオ部分がテキスト部分を遮蔽する場合があるという問題を生じさせる可能性がある。これは、テキストが前面にとどまることを保証するためにテキストの深さを動的に調整することによって解決される。しかしながら、これは、テキストの深さが変化することを意味し、Yanoによれば、それは視覚的疲労を引き起こす可能性がある。テキストの位置に関する情報を送信して、テキストの位置における三次元画像の三次元パラメータを調整することによって、これらの問題は克服される。
【0020】
好ましくはテキストの深さはより長い期間の間一定であるべきであるが、例えば特定の三次元効果を達成するために、変動が許容される場合がある。
【0021】
長所として、三次元画像信号を生成するステップは、第1画像成分中にテキスト成分を含めることを含む。テキスト成分(例えば字幕)は、第1画像成分中に直接含まれることができ、別の成分として転送されることを必要としない。三次元画像をレンダリングすることになる受信装置は、その字幕が信号の第1画像成分中に埋め込まれている場合であっても、字幕の領域における三次元表示パラメータをやはり制御することができる。
【0022】
好ましくは、三次元画像信号を生成するステップは、第1画像成分、第2成分、テキスト成分及びデータ成分を含む1つの画像フレームを生成することを含む。信号中の全ての成分は、単一の画像フレーム中に組み込まれることができ、信号のうちの異なる成分は、その画像フレームの異なる部分を占有する。これは信号を占める要素を結合するための便利な方法であり、比較的高いフレーム解像度をサポートする既存の規格(例えばHDTV)を利用するために用いられることができる。最終的な信号内のテキスト成分の位置を定めるデータ成分のような成分は、フレームの実際の画像データ内ではなく、画像フレームのヘッダ中に含まれることができる。
【0023】
理想的には、三次元画像信号を生成するステップは、第1画像成分及び第2成分の各々のための背景情報を含めることを含む。レンダリング装置の出力がさらに背景情報を含む場合、最終結果の品質は改善されることができる。これは、比較的関心が低い三次元ディスプレイ領域の部分に字幕を配置するように、背景情報中のデータに基づいて、字幕の位置決めが調整されることを可能にする。好ましくは、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整するステップは、レンダリングされるテキストの位置における三次元画像の知覚される深さを低減することを含む。レンダリング装置は、例えば深さマップに規定されている要求された深さを無効にすることによって、字幕の位置における三次元画像の知覚される深さを調整することができる。実際に字幕を含む三次元ディスプレイ装置の特定の領域において、観察者の目に対するいかなる負荷も減衰させるために、表示されるコンテンツの知覚される深さが低減されることができる。
【0024】
長所として、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整するステップは、レンダリングされるテキストの位置における三次元画像のビューの数を低減することを含む。三次元ディスプレイ装置によって示されるビューの数を低減することによって、ゴースト又はテキストのぼやけが低減されることができる。さらに、局所的に切り替え可能なレンズ構成を有するレンチキュラ・ディスプレイにおいて、レンズは、字幕が配置されるディスプレイの部分においてオフに切り替えられることができる。これは、字幕を含む三次元画像のその部分に表示されるより明確な画像をもたらすことができ、観察者の目にかかる負担は応じて低減される。
【0025】
理想的には、レンダリングされるテキスト成分の位置における三次元画像の三次元パラメータを調整するステップは、レンダリングされるテキストの位置において予め定められた閾値未満に三次元画像の視差を維持することを含む。特定の閾値(例えば1°)が、字幕を含む三次元画像の領域において許容される視差の量に対する制限として設定されることができる。これは、視差の低減が三次元ディスプレイ装置の観察者にとって視聴をより快適にするので、観察者が不必要に彼らの目に負担をかけることなく字幕を知覚することを援助する。
【0026】
本発明の実施の形態は、以下において、単に一例として、添付の図面を参照して説明され、同様の符号は同様の要素又は機能を示すために用いられる。
【図面の簡単な説明】
【0027】
図1】三次元画像の作成を示す概略図。
図2】三次元再生システムの概略図。
図3】コンテンツ及び三次元再生システムにおけるデータフローを示す概略図。
図4】三次元再生システムの再生装置の概略図。
図5】出力を生成する際のプレーンの使用を示す概略図。
図6】三次元画像信号の概略図。
図7】改善された三次元画像信号の概略図。
図8】さらに改善された三次元画像信号の概略図。
図9】再生装置の第2の実施の形態の(図4と同様の)概略図。
図10】三次元画像中に配置されるテキストの概略図。
【発明を実施するための形態】
【0028】
三次元画像の生成が図1に概略的に示される。基本的には、最終的なレンダリング・ディスプレイ装置が、自動立体視であるか、又は(ユーザが特別な眼鏡を着用することを必要とする)ステレオ対で動作するかどうかにかかわらず、処理は同じである。第1画像成分10及び第2成分12が、三次元画像14を生成するために提供される。第1画像成分10と組み合わせた第2成分12は、最終的な出力14を作成するために、一緒に処理される。全てのシステムにおいて、第1画像成分10は、適切な任意の規格の通常の二次元画像フレームである。ステレオ対システムでは、第2成分12も画像であり、自動立体視システムでは、第2成分12は、深さマップ又は視差マップである。
【0029】
最終的な出力14が、必ずしも単一のフレームであるというわけではないことを理解することが重要である。例えば、(画像10が左目用であり、画像12が右目用である)ステレオ対システムでは、これらの2つの成分10及び12は、シーケンシャルに示される場合がある。非時間シーケンシャルな自動立体視システムでは、画像10及び深さマップ12は、画像10から複数の類似のビューを生成するために用いられ、深さマップは、個々のビューを作成するために必要な画像10に対する変化を生成するために用いられる。そしてこれらのビューは、単一のフレーム14に統合される。例えば、最終的なレンダリング・ディスプレイ装置は、すべて同じ画像10から生成される4つの個々のビューを示すように制御されることができる。そしてこれらのビューは、各々がディスプレイ装置の解像度の4分の1の解像度を持つストリップ中に一緒に接合される。
【0030】
第1画像成分10は、例えば、ステレオ・ビュー・コンテンツ、マルチ・ビュー・コンテンツ又は画像+深さコンテンツの場合のように、シーンのビューを表す例えばRGB又はYUV情報を含むピクセル要素の二次元アレイ/画像から成ることができる。上で述べたように、第2成分12は、ピクセル要素の二次元アレイ/画像であることができる。ステレオ・ビュー・コンテンツ又はマルチ・ビュー・コンテンツの場合、これは同じシーンの更なるビューであることができ、一方、画像+深さコンテンツの場合、これは、視差又は深さ情報を含むいわゆる視差/深さマップであることができる。画像出力14は、例えば時間にわたる一つ以上のシーンを表す複数のフレームを用いたビデオ画像信号を有することができる。
【0031】
図2は、三次元再生システムを示し、例えば、三次元フィルムのための第1及び第2成分10及び12を担持するディスク16が用意される。例えば、ディスク16は、Blu-Ray規格DVDであることができる。ディスク16は、Blu-Ray DVDプレーヤーのような再生装置18によって再生される。ビデオインタフェイス20は、三次元テレビ22に成分10及び12を伝達するために用いられる。テレビ22は、(上述の図1のように)三次元出力14を生成するためにリアルタイムで成分10及び12を処理するレンダリング・ステージ24を含む。ユーザ26は、レンダリング・ディスプレイ装置22を見ていて、適切なユーザインタフェース及びリモート制御装置(図示せず)を介して、装置22にユーザ設定28を供給することができる。
【0032】
そのようなシステムにおいて、字幕(又は実際にはメニューのような任意のテキスト)の使用が再生装置18によってサポートされる。例えば、ディスク16に記憶される情報のデータ・セクション内に外国語字幕のような字幕をディスク16が含むことが通常である。これらは、ディスク16上の実際のフィルム・コンテンツの再生が開始される前に、スクリーン上のメニューを介してユーザによって選択されることができる。そしてこれらの字幕は、ディスプレイ装置22によって表示され、レンダリングされている三次元コンテンツを覆う。上述したように、従来の技術の再考では、多くの状況において、三次元ディスプレイシステムにおける字幕の表示は、観察者の眼精疲労及び疲労を引き起こす可能性がある。本発明のシステムは、従来技術の問題が改善されるように、字幕(又は実際には任意のテキスト)を示す方法を提供する。
【0033】
提供されるソリューションは、ディスプレイ22が、入力ビデオ・ストリーム中のテキスト(例えば字幕)を識別して、そして残りのビデオ信号とは異なる仕方でテキストを処理することを可能にすることである。例えば、ディスプレイ22は、テキストがビデオの前にとどまることを保証することができ、又は、テキストが突出しないことを保証するために、ビデオ信号の深さを圧縮して押し戻すことができる(国際特許出願公開公報WO2008/038205に記載される)。加えて、ディスプレイ22は、例えば、切り替え可能とすることによって、(レンチキュラ・ディスプレイの場合に)異なるレンズ構成を持つことにより、より少ないビューをサポートすることによって、テキストを示すことを特に目的としているスクリーンのセクションを提供することができる。三次元自動立体視ディスプレイ上のテキストの読みやすさが自動立体視ディスプレイ技術にとってほぼ固有の問題であるので、入力ビデオ信号中の字幕を識別することができることから利益を得ることができる更なる現在は予期しないディスプレイにおける改善の期待が存在する。
【0034】
別途ディスプレイに字幕のためのテキストを送信する1つの態様は、NTSCのアナログ・ビデオのライン21中に含められるクローズド・キャプション情報としてテキストを送信することであり、ヨーロッパ(PAL)ではCeefax又はTeletextのために使用される。しかしながら、クローズド・キャプション情報は、HDMIで高解像度ビデオを送信する場合、現在サポートされていない。現在これを解決するために、DVD又はBlu-Rayディスク・プレーヤーのような再生装置は、MPEGストリーム中に設置されるクローズド・キャプション情報を復号して、ディスプレイに送信する前にこれをビデオの最上部の上にオーバーレイする。そしてこのソリューションを使用することは、クローズド・キャプション情報の送信を含めるために、HDMI規格を拡張することを必要とする。上記が他のデジタル・ディスプレイ・インタフェースにも当てはまる場合があることは当業者にとって明らかである。
【0035】
他のソリューションは、ユーザがディスプレイ22において深さ設定を調整するときに、再生装置18がこの変更を通知されるように、再生装置18とディスプレイ22との間の双方向通信リンクを提供することである。結果として、再生装置18は、字幕の位置決めを調整することができる。好ましい実施の形態は、再生装置18がビデオ上への字幕の位置決め及びオーバレイを取り扱うこと、及び、字幕が存在し、その字幕がどこに設置されるかをディスプレイ22に指示することを可能にすることである。その場合、ディスプレイ22は、字幕に関連する「深さ」値が、その特定のディスプレイ22及び関連するユーザ設定28に対して最適である深さにマップされていることを確認することができる。これは、ディスプレイ22が、レンダリング・ステージ中に字幕又はクローズド・キャプション復号器を必要としないという更なる利点を持つ。
【0036】
一実施例において、システムの改善が達成され、それによって、図2に示されるようなプレーヤー装置18が、視差の量を1°未満に維持しつつ、テキストがビデオの前にあるように、字幕の位置決めを調整する。好ましくは、プレーヤー装置18は、字幕が設置されているか、及びディスプレイの投射ボリューム中のx, y及びz(「深さ」)位置に関してどこに設置されるかをディスプレイ装置22に特定するメタ情報を出力ストリームに挿入する。この場合には、ディスプレイ装置22におけるレンダリング・ステージ24は、ゴーストが最小限に維持され、視差の量が1°未満にとどまるように位置決めを維持しつつ、(視差の量及び相対的な位置に関して)前述のメタデータ情報及びユーザに好まれる設定28に依存して、ディスプレイの投射ボリューム中の字幕の位置決めを調整する。加えて、ディスプレイ22は、そのような能力を備える場合、二次元と三次元との間で切り替え可能であるか又は(例えば、より少ないビュー又は制限された視差の量をサポートすることによって)より少ないゴースト及びより高い光学解像度をサポートするディスプレイ面の特別な部分へ字幕を配置する。
【0037】
一実施例において、テキスト成分30は実質的に平らであり、及び/又は、深さ範囲がテキスト30に関連づけられる場合、それぞれのビュー間の視差が予め定められた範囲(例えば1〜2ピクセル)である特定の範囲に限定されるように、その深さ範囲は閾値によって限定される。テキスト成分30が実質的に平らである好ましい実施の形態において、テキスト成分は、ビットマップ・ベースのテキスト成分ではなくテキスト・ベースのテキスト成分であり、それによって、テキスト成分30の特にコンパクトな表現を可能にする。
【0038】
図2のシステムにおけるコンテンツ及びデータフローが図3に示される。ディスク16は、字幕であるテキスト成分30に加えて、第1画像成分10及び第2成分12を含む。見ようとしている三次元映像とともに字幕30が表示されることをユーザが望むことを示すユーザ指示32が、再生装置18によって受信される。再生装置18は、字幕30及び最終的な三次元画像14内のテキスト成分30の位置を記述する位置情報を含むデータ成分34と共に、成分10及び12をレンダリング装置24に提供する。再生装置は、それぞれのソースからさまざまな成分を受信するための受信機及びこれらの4つの成分10, 12, 30及び34を三次元画像信号36に結合するための多重化装置を含み、三次元画像信号36はレンダリング装置24によって受信される。
【0039】
字幕情報34は、画像データ10及び12とは別に、すなわちアクティブ画像領域中ではなく、ヘッダ中、データ・アイランド中、又は画像データを含まないフレームの部分中で、レンダリング装置24に送信されることができる。例えば、通常の2倍のフレームレートでビデオ・ストリームが送信され、一方のフレームが画像データ10及び12を含み、他のフレームは、深さ(オプションとして非遮蔽も含む)情報を含み、更に字幕30及び位置情報34のための特別な領域を含むかもしれない。
【0040】
レンダリング装置24は、その場合、第1画像成分10及び第2成分12から三次元画像14をレンダリングするように配置され、レンダリング(三次元画像14中にテキスト成分30をレンダリングすることを含む)、テキスト成分30のレンダリングは、レンダリングされるテキスト成分30の位置における三次元画像14の1つ以上の三次元パラメータを調整することを含む。テキスト成分30自体は、レンダリング装置24によって行われる調整によって、全く不変でありえる。重要な要因は、レンダリング装置が、テキスト30の位置に表示されている画像14の部分のパラメータを調整することである。これは、画像14のこの領域における三次元画像の知覚される深さを低減することを含むことができ、若しくは(自動立体視ディスプレイ装置における)ビューの数を低減することを含むことができ、又は二つ以上の調整の組み合わせである。レンダリング装置が、字幕30が表示されるべき領域の深さを変更するだけでなく、深さ範囲全体を前後に動かすためのオフセットを含めることも可能である。このオフセットは、字幕30に対して残りの画像データ14とは別に制御されることができる。
【0041】
自動立体視ディスプレイを用いる実施の形態において、第2成分12は深さマップを含み、三次元画像14をレンダリングする方法は、データ成分34によって指定される位置へのテキスト成分30の配置を可能にするために、三次元画像14をレンダリングする前に第2成分12をスケーリングすることをさらに含むことができる。この場合には、レンダリング装置は、位置情報が複数の連続する画像に対して同じままでありえるように、第2成分12の推奨されるスケーリングを含む推奨成分をさらに受信することができる。この推奨成分の使用の結果として、字幕/グラフィックスがオフに切り替えられた場合にシーンの深さを最大化し、そして字幕/グラフィックスがオンに切り替えられた場合に、字幕/グラフィックスを含むコンテンツをレンダリングするために、画像信号に対して調整された予め定められたスケーリング成分を用いることが可能になる。
【0042】
再生装置18の例が図4に示され、これは、復号及び表示プレーンの使用を示すBlu-Rayディスク復号器18である。ROMドライブ38は、ディスク16を受け入れて、コンポーネント40によって復調されて復号されるコンテンツを読み出す。一セットの並列バッファ42は、復号された信号のそれぞれの成分を記憶し、これらは、標準的なビデオ46並びに(字幕及びメニューその他である)オーバレイ・コンテンツ48であるディスプレイ22によって表示されるべき出力を提供するために一セットの並列の復号器44を通過する。
【0043】
Blu-Rayシステムにおいて、ディスク字幕は、ビットマップ・ベースであるか又はテキスト及び関連するフォントに基づくこともでき、加えて、プレーヤー18は、クローズド・キャプション情報のためのサポートを提供する。技術的には、クローズド・キャプションがしばしば更なる情報を提供し、特に聴覚障害者のために提供されるが、両方のシステムは幾分類似である。ビットマップ・ベースのクローズド・キャプションと同様にテキスト・ベースの字幕は、Blu-Rayディスクにおける表示プレーンのうちの1つに復号されて示される。図4は復号器18及びプレーンを示し、ビデオと組み合わせられるテキストの例を示す。テキストは常に表示グラフィックス(PG)プレーン上に示され、このプレーンは、ビデオ(プレーン)上へと再生装置18においてオーバレイされて出力上で一つの組み合わせられた表示として示される。図5は、組み合わせられた表示50の例を示す。この出力50は、主要な動画プレーン52、表示プレーン54及びインタラクティブ・プレーン56から構成される。図5に示される出力50は、(図2に示されるような)ビデオインタフェイス20上でディスプレイ22に送信される。好ましい実施の形態において、再生装置18は、出力50に加えて、ディスプレイ22へ三次元データ34を含む追加の情報を送信することが可能である。これは、再生装置18の組み合わせられたビデオ、テキスト及びグラフィックス出力の三次元表現を三次元ディスプレイ22が示すことを可能にする。
【0044】
図6は、三次元ディスプレイ22に送信するためのそのような組み合わせられた出力の例を示す。用いられている三次元システムは、画像及び深さ出力の例である。第1画像成分10及び(深さマップである)第2成分12は、ディスプレイ装置22によって三次元画像を生成するために組み合わせられる。テキスト成分30は第1成分10内に含まれ、実際、コンテンツ全体(3つの成分10, 12及び30)は、単一の高解像度フレームとして構成されることができる。
【0045】
図7は、字幕30の位置を示すヘッダの追加を示す。ヘッダは、ここでx及びy座標として示される三次元画像内のテキスト成分の位置を記述する位置情報58を含むデータ成分34を含むが、z成分はさらに深さマップ12のコンテンツによって存在する。ヘッダは、字幕30の存在を考慮するために最終的なレンダリング装置が三次元出力に対する調整を行うことを可能にする。
【0046】
送信される追加のパラメータは、国際特許出願公開番号WO 2006/137000A1に沿った"3D interface Specifications- white paper", Philips 3D solutions, http://www.business-sites.philips.com/assets/Downloadablefile/Philips-3D-Interface-White-Paper-13725.pdfに記載されるように画像データ上のヘッダ中に、又は例えばHDMI規格のデータ・アイランド中に含まれることができる。これらのパラメータは、字幕が存在するかどうか及び図7に示されるような入力ビデオ中のそれらの位置に関する指標から成る。そして、ディスプレイ装置22は、ユーザが入力コマンドによってディスプレイ装置22により示される視差の量を増加させても、この位置に配置される画像部分の視差が1°を超過せず一定にとどまることを保証することができる。
【0047】
プレーヤー18の出力がさらに遮蔽又は背景情報を含む場合、最終結果の品質が改善されることができる。これは、図8に示される。アーチファクトを回避するために、字幕30は、画像の最もアクティブな部分の外側に(例えば最上部又は最下部に)配置されるべきである。図8は、画像、深さ及び背景出力フォーマットを示す。背景成分60及び62が、それぞれ、第1画像成分10及び第2成分12に提供される。
【0048】
最終画像14内の字幕30の位置は、字幕のZ位置に対するリファレンスを含むことができる。例えば、オリジナルのコンテンツ作成者が、三次元ディスプレイのZ方向投射空間中のどこに字幕が配置されるべきであるかを示すことができるように、Z位置に関して、Blu-Rayディスク・テキスト字幕復号器モデル及び関連する構成情報(特にダイアログ・スタイル・セット、セクション9.15.4.2.2)を拡張することが可能である。Blu-Rayディスク規格において、テキスト字幕復号器及び関連したストリームが定められる。テキスト字幕復号器は、セクション8.9において定められ、さまざまな処理素子及びバッファから成る。
【0049】
図9は、関連するテキスト成分(例えば字幕30)を有する三次元画像を取り扱うために拡張された復号器モデルの単純化された図を示す。図9は、三次元テキスト字幕復号器モデルを示す。左から右に、テキスト字幕セグメントは復号器18に入り、それらはそこでテキスト・ストリーム・プロセッサ64によって処理されて復号される。復号されたテキスト・データは、ダイアログ・バッファ66中に配置され、一方、復号されたテキスト字幕構成情報は、構成バッファ72中に配置される。コントローラ74は構成情報を解釈し、テキストが(フォント・ファイル80を用いて)テキスト・レンダリング装置68によってレンダリングされた後で、これをテキストに適用し、そして結果をビットマップ・バッファ70中に配置する。最終的なステップにおいて、ビットマップ画像は、適切なグラフィックス・プレーン上へプレーヤー18によって合成される。ユーザ入力78もコントローラ78によって受信され、それは、例えば、ディスプレイの深さパラメータに影響を及ぼすことができる。
【0050】
テキスト・ベースの字幕に加えて、Blu-rayディスク(BD)はさらに、ビットマップ画像(いわゆるプレゼンテーション・グラフィックス(PG))に基づく字幕をサポートする。同様に、PG字幕のZ位置は、好ましくは既に定められているX,Y位置情報の近くで、ディスク上で特定されることを必要とする。後者がcomposition_object()構造に格納されているので、例えば、オフセット・ビット26で始まる予約ビットを用いることにより、字幕のZ位置によってこれを拡張することが論理的である。本出願の全体にわたって用いられる用語「テキスト成分」は、テキスト・ベースの字幕及び/又はそのようなビットマップ画像を指すために用いられる。
【0051】
復号器18は、Z方向のどこにテキスト字幕30が配置されるべきであるかを示す深さ又は視差マップを保持する追加のビットマップ・バッファ76によって拡張された。深さ又は視差情報は、Blu-Ray規格において定義されるダイアログ・スタイル・セット中に含まれることができる。これを達成するための1つの方法は、ダイアログ・スタイル・セットがregion_depth_positionによって拡張されることである。region_depth_positionは0と255との間の値を有する8ビットのフィールドであるが、将来的にこれは拡張される可能性がある。コントローラ74は、region_depth_positionフィールドの値に基づいて正確な深さ又は視差マップ・ピクセル値を決定する。この値の深さ又は視差マップのためのカラー値への変換は、プレイリスト中の3D_metadataフィールドに担持される、又は、MPEG-2 Program Mapテーブル(ISO/IEC 13818-1)に担持される三次元メタデータに依存している。この情報の構文は、ISO/IEC23002-3におけるMPEGによって定められる。
【0052】
そして字幕30のZ位置がレンダリング装置24に提供され、レンダリング装置24は、三次元ディスプレイ装置22による表示のために三次元画像14をレンダリングするときに、字幕30のZ位置を考慮することができる。図10は、region_depth_positionフィールドを用いることによる深さの位置決めに関する三次元空間の例を示す。画像14は、プレーン82に配置される字幕30を含む。プレーン82はゼロ深さにおける空間中の位置を示し、他のラインは三次元空間中の3つの方向x, y及びzを示す。
【0053】
字幕が配置されるべきである空間中の領域を示すために深さ領域を含めたことに加えて、さらに、テキスト30自体のための別の深さを加えること、及びプレーンとしてではなく空間中の立方体として領域を特定することも可能である。これは、例えば、region_depth position及びregion_depth_lengthによってダイアログ・スタイル・セット中の領域位置フィールドを拡張することによって実行されることができる。同じことが、領域内のテキストの正確な位置を示すテキスト・ボックス位置に対して実行されることができる。
【0054】
フォント・ファイル80は、エンボス処理されたフォント・スタイルを含むために用いられることができ、これは三次元中の結果として生じるテキストの読みやすさを改善することが示されている。フォント・スタイルは、Blu-Ray規格のテーブル9-75に記述され、あるいは、フォント輪郭厚さフィールドがこのために用いられ、これはBlu-Ray規格のテーブル9-76である。これらの両方のテーブルは、最後にこの目的のために用いられることができる予約フィールドを持つ。エンボス処理されたフォント・スタイルはテーブル9-75中の値0x08であり、エンボス処理されたフォント輪郭厚さに対しては、これは、テーブル9-76中の値0x04である。
【0055】
長所として、テキスト・ベース及びPGベースの両方の字幕のためのZ位置は同じものであり、ストリームごとに(すなわち字幕言語ごとに)一度記憶されることを必要とするだけである。字幕のこの共有されたZ位置を記憶するための多くの代わりの場所がBDディスク上に存在することは、当業者にとって明らかである。そのような代わりの場所の例が以下で説明される。
インターネット・リソース、http://www.bluraydisc.com/Assets/Downloadablefile/2b_bdrom_audiovisualapplication_0305-12955-15269.pdf(本願明細書に参照として組み込まれる)は、BDフォーマット及び以下で参照されるフォーマットにおける構造上の更なる背景的事項を含む。
【0056】
共有された字幕のZ位置は、PlayListの拡張データとして定められる新たなテーブル中に例えば記憶されることができる。BD規格におけるPlayListは、一緒にタイトルのプレゼンテーション(例えばMovie)を形成するAudioVisualコンテンツ・アイテムのシーケンスを示すリストである。このPlaylist構造は、その拡張データによって将来の拡張のためのメカニズムを提供する。さまざまな言語ストリームのための字幕プレーン(PGプレーン)の「Z」位置は、offset_metadataテーブルと呼ばれる新たなテーブル中に含まれることができる。テーブル1は、このテーブルの詳細を示す。
【0057】
さらに、PlayListが立体視マルチ・アングル・ビデオ・データの再生を可能にするPlayItemsを含む場合、字幕のようなグラフィックスのオーバレイのための「Z」位置は、立体視マルチ・アングル・ビデオ・クリップごとに異なる場合がある。したがって、offset_metadataは、さらに、PlayItem中で参照される立体視マルチ・アングル・ビデオ・クリップごとに、異なる「Z」位置を可能にするべきである。そのような場合、offset_metadateテーブルは、立体視マルチ・アングル・ビデオ・クリップごとに字幕のオーバレイのための異なる「Z」位置を含む。これらの異なる「Z」位置は、その場合、字幕のオーバレイのための異なる「Z」位置を必要とするマルチ・アングル・ビデオ・クリップごとに、識別子によって参照されることができる。テーブル2は、テーブル1が異なる立体視マルチ・アングル・ビデオ・クリップの異なる「Z」位置をサポートするためにどのように拡張されることができるかという例を示す。テーブル1及び2中のStreamID及びAngleIDリファレンスは、それぞれ、(字幕コンテンツを含む)ディスク上の基本ストリーム及び(マルチ)アングル立体視ビデオ・クリップの固有の識別子として役に立つ。
【0058】
拡張データを用いる代わりに、特に三次元ストリームの再生のための新たなPlayListテーブル構造を定めて、「Z」位置パラメータをそこに含めることも可能である。レガシー・プレーヤー上での再生に関する問題は、ディスク上に新たなインデックス・テーブル(ユーザが選択可能なタイトルのリスト)を提供すること、又は三次元可能プレーヤーだけによって再生可能なタイトルを記載するインデックス・テーブルの拡張データを用いることによって、回避されることができる。
【0059】
あるいは、情報がPlayListの既存のテーブル中に提供されるべき場合、それはSTN_Table_SS()中に含まれることができる。これは、PlayItemに関連づけられたビデオ及びグラフィックス・ストリームを記載するテーブルである。PlayItemごとに、それは、テキスト及びビットマップ字幕ストリームごとにストリーム符号化情報(属性)を有するループを含む。我々は、ストリーム属性情報と同じループ中に「Z」位置情報を含む提案する。
【0060】
字幕ストリームごとに「Z」パラメータを記憶するためにPlayListを用いることに関する問題は、データの重複である。複数のPlayListsが同じ字幕ストリームを参照する場合がある。この制限は、Clip情報ファイル中に「Z」位置メタデータを含むことによって克服されることができる。Clip情報ファイルは、A/Vコンテンツ及び字幕ストリームを含むMPEG Transport Streamに関連したメタデータを記載する。Clip情報ファイルは、PlayList拡張データのために提案されるものと類似のテーブルによって拡張されることができる。しかしながらClip情報ファイルがMPEG Transport Streamに関連づけられるので、それはパケット識別子(Packet Identifier:PID)によって字幕Elementary Streamsを記載する。したがって、我々は、「Z」位置メタデータが字幕ストリームのPIDを示すPIDリストごとに提供されることを提案する。
【0061】
あるいは、拡張データ中に新たなテーブルを定める代わりに、Z位置は、クリップ情報ファイル中のProgramInfoテーブルに記憶される。ProgramInfoテーブルは、一緒にA/Vコンテンツのプレゼンテーションを形成するElementary Streamsのリストを提供する。それは、MPEGシステムISO/IEC13818-1中に定められるPMTテーブルと同様の情報を含む。字幕情報を含むElementary Streamごとに「Z」位置メタデータを提供することを提案する。メタデータは、ProgramInfo自体中に、又はProgramInfoテーブルのサブ・テーブル、StreamCodingInfoテーブル中に含まれることができる。それは、符号化及び言語コードに関する詳細をTransport Stream中に存在する字幕ストリームに提供する。StreamCodingInfoテーブルはさらにいくつかの予約フィールドを持ち、我々は、特定の言語コードのための字幕ストリームに関連づけられるZ位置パラメータを伝達するためにこれらの予約フィールドを用いることを提案する。
【0062】
Z位置が数秒ごとに変化することが必要とされる場合、クリップ情報ファイル中のCPI()テーブルが用いられるべきである。CPI情報は、トリック・プレイのためのビデオ・ストリームへのエントリー・ポイントを記載するテーブルである。エントリー・ポイントのリストは、任意のグラフィックス(例えば字幕)をどこにオーバレイするべきかの「深さ」の位置をエントリー・ポイントごとに示す「Z」位置パラメータによって拡張されることができる。
【0063】
あるいは、「Z」位置情報がフレーム・アキュレート(frame accurate)である場合、それは、従属するビデオ・ストリームのSEIメッセージ中に含まれるべきである。SEI(符号メッセージ)は、コンテンツの復号を助けるために復号器によって用いられることができるパラメータを伝達するMPEG Elementary Stream中に埋め込まれるパケットである。MPEGはさらに、プライベートなユーザーデータSEIメッセージを埋め込むことを可能にし、これらは、標準的な復号器によっては無視されるが、改良された復号器によって用いられることができる。ユーザーデータSEIメッセージは、ビデオの上にオーバレイされるべきである任意のオーバレイ(例えば字幕)の「Z」位置を伝達するように定められることができる。(言語)ストリームごとに「Z」情報を提供するために、我々は、ディスクに提供される全ての字幕ストリームのための「Z」値を列挙することを提案する。
【表1】
【0064】
三次元画像のレンダリングのような処理ステップ又は多重化ステップは、様々な処理プラットフォーム上で実施されることができることは、当業者にとって明らかである。これらの処理プラットフォームは、専用の回路及び/又は半導体装置、プログラム可能論理装置、デジタルシグナルプロセッサ、さらには汎用プロセッサに及ぶ。同様に、組み合わされたソフトウェア及びハードウェア実装が、さらに有効に用いられることができる。
【0065】
本発明が、図面及び上記の詳細な説明において詳細に図示されて説明されたが、そのような図示及び説明は、解説又は例示であって、制限的なものではないと考えられるべきである。本発明は、開示された実施の形態に限定されない。
【表2】
【0066】
開示された実施の形態に対する他のバリエーションは、図面、開示及び添付の特許請求の範囲の研究から、請求された発明を実施する際に、当業者によって理解され、遂行されることができる。請求の範囲において、「有する」「含む」などの用語は他の要素又はステップを除外せず、単数表現は複数を除外しない。単一のプロセッサ又は他のユニットが、特許請求の範囲に列挙されるいくつかのアイテムの機能を成し遂げることができる。ある手段が相互に異なる従属請求項に記載されているからといって、これらの手段の組み合わせが有利に用いられることができないことは意味しない。コンピュータプログラムは、例えば、他のハードウェアと共に又はその一部として供給される光学記憶媒体又は固体素子媒体のような適切な媒体上で記憶/配信されることができるが、インターネット又は有線若しくは無線通信システムを介するような他の形態で配信されることもできる。請求の範囲中の任意の参照符号は、その範囲を制限するものとして解釈されてはならない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10