特許第6391629号(P6391629)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トムソン ライセンシングの特許一覧

特許63916293Dテキストを3Dコンテンツと合成するシステムおよび方法
<>
  • 特許6391629-3Dテキストを3Dコンテンツと合成するシステムおよび方法 図000002
  • 特許6391629-3Dテキストを3Dコンテンツと合成するシステムおよび方法 図000003
  • 特許6391629-3Dテキストを3Dコンテンツと合成するシステムおよび方法 図000004
  • 特許6391629-3Dテキストを3Dコンテンツと合成するシステムおよび方法 図000005
  • 特許6391629-3Dテキストを3Dコンテンツと合成するシステムおよび方法 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6391629
(24)【登録日】2018年8月31日
(45)【発行日】2018年9月19日
(54)【発明の名称】3Dテキストを3Dコンテンツと合成するシステムおよび方法
(51)【国際特許分類】
   H04N 13/183 20180101AFI20180910BHJP
   H04N 13/128 20180101ALI20180910BHJP
   H04N 13/361 20180101ALI20180910BHJP
【FI】
   H04N13/183
   H04N13/128
   H04N13/361
【請求項の数】1
【外国語出願】
【全頁数】21
(21)【出願番号】特願2016-126357(P2016-126357)
(22)【出願日】2016年6月27日
(62)【分割の表示】特願2012-548923(P2012-548923)の分割
【原出願日】2010年1月13日
(65)【公開番号】特開2017-5719(P2017-5719A)
(43)【公開日】2017年1月5日
【審査請求日】2016年6月29日
(73)【特許権者】
【識別番号】501263810
【氏名又は名称】トムソン ライセンシング
【氏名又は名称原語表記】Thomson Licensing
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ザン,タオ
【審査官】 益戸 宏
(56)【参考文献】
【文献】 国際公開第2008/115222(WO,A1)
【文献】 特開平11−113028(JP,A)
【文献】 国際公開第2009/145749(WO,A1)
【文献】 特開平11−289555(JP,A)
【文献】 特開2001−045523(JP,A)
【文献】 特開2004−104331(JP,A)
【文献】 特表2011−524120(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 13/00
(57)【特許請求の範囲】
【請求項1】
テキストを三次元(3D)画像コンテンツと合成する方法であって、結果として生じる画像は3D表示装置により表示可能であり、
前記方法は、
少なくとも一つの3D画像を含む前記3D画像コンテンツおよび前記少なくとも一つの3D画像と関連付けられたテキストの双方を受け取ることであって、前記少なくとも一つの3D画像は、第1の表示および第2の表示を含む、前記受け取ることと、
前記少なくとも一つの3D画像から抽出された視差情報と前記少なくとも一つの3D画像に先行する1つ以上の画像から抽出された視差情報の合成に基づく視差情報決定することと、
前記少なくとも一つの3D画像の前記第1の表示における所望の位置に前記テキストを挿入することと、
前記第2の表示におけるテキストのための位置を決定することであって、前記第2の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する3D画像の第1の表示における位置に対してオフセットされる、前記決定することと、
を含み、
前記方法は、
前記3D画像コンテンツに対する前記テキストの所望の配置を特定するための少なくとも一つの視差要件を受け取ることを更に含み、
前記第2の表示における前記テキストの前記位置のためのオフセット量は、少なくとも部分的には、前記視差要件にも基づいている、方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本発明は、同一の譲受人に共通して譲渡された、米国特許出願(代理人整理番号PU090183、発明の名称「3D画像を2D画像と識別し、特徴点対応付けの決定により、3D画像形式の存在を特定する方法)に関する。上記出願の内容は参照により、全体として本明細書に明示的に包含されている。
【0002】
本発明は、画像処理および表示システムに関し、より詳細には三次元(3D)手法によるテキストを関連する3Dコンテンツと合成するシステムおよび方法に関する。
【背景技術】
【0003】
近年、映画などの3Dコンテンツの制作数は益々増大している。この傾向は、近い将来も続くと予測される。3Dコンテンツの2Dに相当するものと同様に、3Dコンテンツは一般的に、サブタイトルやクローズドキャプション等の2Dテキスト情報を伴う。しかし、同一の深度で2Dコンテンツを表示する、3Dコンテンツの2Dコンテンツに相当するものと異なり、3Dコンテンツは一般に、3D視聴環境を生成するために、異なる深度で表示される。3Dコンテンツは種々の深度で表示されるため、何らかの付随テキスト情報をいつ、どこに、どのように配置するかを決定するかが問題になる。
【0004】
二次元(2D)テキスト情報は、その関連する3Dコンテンツと関連付けて利用されることが提案されてきた。かかる技術は、テキストおよびコンテンツの単純な追加のように思われるが、一方でこれは、3Dコンテンツに関する所定の、あるいは既知の深度において、テキスト情報の配置についてのいかなる正確な制御ももたらすものではない。
【0005】
他の既知の技術は、全てのフレームについてTV面などに、視聴のための固定した深度で3Dテキストを配置することを可能にする。この技術から複数の問題が生じる。たとえば、3Dコンテンツが平行カメラにより捉えられたこと考えると、結果として生じるTV面は無限遠になる。そしてこれにより、全てのフレームについて、いかなる3Dテキストも常にコンテンツシーンの後ろに現れることになる。適切に視聴できるように、3Dコンテンツ中のテキストの深度を調整するためには、コンテンツの全てのフレームを検証して、テキストの深度が意図した通りに視聴可能であるかを判断する必要があることは明らかである。かかる検証技術は長時間を要し、主観的であり、かつ非効率的である。
【0006】
参照により全体として本明細書に包含されている、PCT/US2007/025947号として特定される、出願人が同一である同時係属の特許出願においては、明らかな眼精疲労を生じさせることなく、コンテンツ内の3D効果を妨げることを回避するように、3Dテキストが3Dコンテンツに加えられた。この引用された出願においては、各画像に関する深度情報は、関連する深度マップを介して入手可能であることを前提としている。引用された出願において提案された方法は、与えられた深度マップについての最大深度値に一致するように、いずれの挿入されたテキストについての深度値も調整している。
【0007】
当該方法はいくつかの欠点を生じる場合がある。第一に、深度情報は、関連する深度マップに含まれているか、他の何らかの形態によるかを問わず、コンテンツ制作者から入手できない。3Dコンテンツがどのように生成されようとも、深度情報の入手可能性は、最初に情報が捉えられた否か、そしてこれが完全に利用可能である場合は、制作者が当該情報を包含させ、かつ共有することを意図するか否かに左右される。また、深度が取得と同時に把握できないのであれば、深度情報は、3Dコンテンツの左側および右側の表示(view)から算定することは一般的に困難である。左側および右側の表示は通常、2つのカメラを使用して捉えられたメインストリーム3Dコンテンツから入手される。
【0008】
上記方法に関連する他の問題は、関連する深度マップは一般的に、各フレームごとに固定した範囲に拡大縮小されるという点である。かかる拡大縮小は、3Dテキスト情報を、全てのフレームについて同一の深度値で正確に配置する性能を妨げる。
【0009】
上記のような先行技術の手法に関する問題に加え、いずれの補助的画像情報にも依存することなく、コンテンツのみに基づき、制作後の期間中(例えば、一般的にリアルタイム以外に実行されるオフライン操作)、あるいはコンテンツ視聴期間中(たとえば一般的にリアルタイムで実行されるオンライン操作)等3Dコンテンツおよび付随テキスト情報が生成され、あるいはパッケージ化された後の時間帯に、3Dコンテンツおよびテキストの制作者、ましてや最終視聴者の選択によるものであっても、3Dテキスト情報をある位置に配置させるためのいかなる手法の存在も、現在のところ知られていない。
【発明の概要】
【0010】
先行技術の上記かつ他の欠点は、3Dコンテンツから得られる視差情報を決定し、3D手法によるテキストの関連する3Dコンテンツにおける最良の位置決定についてのユーザ、あるいは制作者により提供された1つ又は複数の要件と共に、かかる視差情報を利用することにより、本発明の種々の実施形態により対処されている。テキストの位置の決定は、オンライン操作として、着信画像コンテンツのストリームについてリアルタイムで実行され、あるいはオフライン操作として画像コンテンツの全体について非リアルタイムモードで実行できる。視差情報は、3D画像中に検出された全ての対応する特徴点にわたる視差値の集合および視差範囲、処理された全ての画像コンテンツについての視差範囲の交わり、および視差範囲の合併を含み、全ての処理されたフレームについての共通の視差範囲を示している。要件の具体例は、フレーム全体についての所定の視差値におけるテキスト配置、フレーム全体のうち選択された範囲についての所定の視差値におけるテキスト配置、コンテンツ遮断を回避し、複数の画像にわたる視差変化量を制限するテキスト配置を含むがこれに限定されず、快適な視聴体験等を維持している。
【0011】
本発明の一つの実施形態においては、テキストを三次元(3D)画像コンテンツと合成する方法であって、結果として生じる画像は3D表示装置により表示可能であり、少なくとも一つの3D画像を含む3D画像コンテンツおよび少なくとも一つの3D画像と関連付けられたテキストの双方を受け取るステップを含み、少なくとも一つの3D画像は、第1の表示および第2の表示を含み、前記方法は更に少なくとも一つの3D画像から得られた視差情報を抽出するステップと、第1の表示におけるテキストについて位置を決定するステップと、第2の表示におけるテキストについて位置を決定するステップを含み、第2の表示における位置は、少なくとも一部は視差情報に基づいた量だけ、対応する3D画像の第1の表示における位置に対してオフセットされる。
【図面の簡単な説明】
【0012】
本発明の原理の教示は、以下の添付図面と共に、以下の詳細な説明を考慮することにより直ちに理解できる。
図1】本発明の実施形態に従い、3Dコンテンツと関連するテキストを合成するシステムを示している。
図2】本発明の実施形態に従い、複数の画像の幾つかの種々の実施例についてのスクリーン視差と認識された深度の関係を示している。
図3】本発明の実施形態に従い、3Dコンテンツと共にテキストを表示する際に使用される最良の視差値を、オフラインで決定する方法の流れ図を示している。
図4】本発明の実施形態に従い、3Dコンテンツと共にテキストを表示する際に使用される最良の視差値を、オンラインで決定する方法の流れ図を示している。
図5図3および図4の方法で使用するための特徴点対応付けおよび視差値決定のための簡略化されたプロセスを示している。
【0013】
図面は、本発明の概念を記述するためのものであって、必ずしも本発明を記述するために考え得る構成のみに限られないことが理解されるべきである。理解を促進するために、複数の図面に共通する同一の構成要素を指定するために、可能な場合は同一の参照番号が使用されている。
【発明を実施するための形態】
【0014】
本発明の実施形態は、3Dコンテンツから抽出された視差情報を利用して、テキストを三次元(3D)コンテンツと合成するシステムおよび方法を好適に提供する。本発明の実施形態は主として、ビデオプロセッサおよびディスプレイ環境との関連で記載されているが、本発明の特定の実施形態は、発明の範囲を限定するものとして扱われるべきではない。本発明の概念は、テレビ、トランスコーダ、ビデオプレイヤー、画像ビューア、セットトップボックス、あるいはテキストを3Dコンテンツと合成するのに有用ないかなるソフトウエアベースおよび/またはハードウエアベースの実装を含むが、これに限定されず、実質的にいかなるビデオベースの処理環境にも好適に適用できることが、当業者により理解され、かつ本発明の教示により伝達される。
【0015】
図面に示された構成要素は、様々な形態のハードウェア、ソフトウェアまたはこれらの組合せにより実施できることが理解されるべきである。好ましくは、これらの構成要素は、プロセッサ、メモリ、入力出力(I/O)インターフェースを含んでいても良い1つまたは複数の適切にプログラム化された汎用デバイス上のハードウェアとソフトウェアの組合せにおいて実装される。
【0016】
図面に示された種々の構成要素の機能は、専用ハードウェアならびに適切なソフトエアと関連してソフトウェアを実行できるハードウェアの使用を介して提供できる。プロセッサにより提供される場合、機能は単一の専用プロセッサにより提供されてもよいし、単一の共有プロセッサにより提供されてもよいし、一部を共有できる複数の個別のプロセッサにより提供されてもよい。また、「プロセッサ」または「コントローラ」の文言の明示的使用は、ソフトウェアを実行することができるハードウェアのみを言及するように解釈されるべきではなく、黙示的にデジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶する読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、不揮発性記憶装置を含むが、これに限定されない。
【0017】
発明の実現には、従来型および/またはカスタムの他のハードウェアが含まれてもよい。例えば、図示されたいずれのスイッチも概念的に過ぎない。その機能は、プログラムロジックの動作を介して、専用のロジックを介して、プログラム制御および専用のロジックの相互作用を介して、あるいは手動でも実行でき、特定の技術は、コンテキストからより詳細に理解されるように、実施者により選択可能である。
【0018】
本明細書で提示されたブロック図は、本発明の原理を具体化する例示的システム構成要素および/または回路の概念図を表現していることが、当業者により理解されるであろう。同様に、いずれのフローチャート、流れ図、状態遷移図、擬似コード等も、コンピュータまたはプロセッサが本明細書に明示的に示されているか否かにかかわらず、コンピュータ読み取り可能媒体に十分に表現することができ、コンピュータまたはプロセッサによりそのように実行される種々のプロセスを表現することが理解されるであろう。
【0019】
最後に、本明細書に列挙された全ての具体例および条件付文言は、技術の進歩させるために発明者(ら)が提供する本発明の原理および概念を理解する際に、読み手を助けるという目的を有している。よって、本発明の原理は、特に列挙されたかかる具体例および条件に制限あるいは限定することがないものとして解釈されるべきである。
【0020】
二次元(2D)映像におけるテキストの利用は、当業者に知られている。三次元(3D)映像およびフィルムに対する現在の関心は、テキストを3Dコンテンツに付加するための技術に対する必要性を生じさせた。よって、付加されたテキストが3Dコンテンツ内の3D効果を妨げないように、そして3Dコンテンツを視聴する際に、視聴者を視覚的に満足させるように、テキストの3Dに対する挿入を最適化する技術に対する必要性が存在する。
【0021】
本明細書に開示された本発明の種々の実施形態の原理によると、テキスト情報と3Dコンテンツの合成は、オフラインまたはオンラインで実行することができる。「オフライン」の用語は、制作後の操作等、リアルタイム視聴イベント以外の時間に実行される処理を含むことが意図される。「オンライン」の用語は、コンテンツがユーザ等に表示されている際は、テレビまたはコンテンツプレイヤー上のリアルタイム視聴イベントを包むことが意図される。
【0022】
制作後段階におけるようなオフライン処理では、フレームが通常、スタジオで事後に処理されている際に、テキスト自体を含む3Dテキスト情報、その意図された位置、3Dコンテンツについての画像歪覚あるいは視差情報は合体され、および/または決定されることができる。一般的にオフライン処理に適切なコンテンツの具体例としては、テレビ・ゲーム番組、映画のビデオテープ又はDVD、研修用ビデを含む企業向ビデオテープ、ケーブル、衛星やインターネット・プロバイダを介して供給される映画等がある。テキスト情報は、コンテンツをユーザに表示する等、後の使用のために、コンテンツに関連付けられたクローズドキャプション、メタデータ等のファイルに格納することができる。
【0023】
テレビ等によるリアルタイム視聴イベントの時間中などオンライン処理においては、3Dテキスト情報は、関連するコンテンツを表示する前に生成することができる。リアルタイム視聴イベントには、例えばテレビ・ニュース番組、ライブのセミナーやスポーツイベントがある。テキストは、例えば関連するキャプションやサブタイトルファイルから入手可能であり、あるいはスクリプトを介して提供されてもよい。あるいは。テキストはリアルタイムで生成されてもよい。深度または視差情報はいずれのファイルからも入手できないため、一つの実施形態では、これを生成することにより、視聴者にリアルタイムで表示するために、テキストと3Dコンテンツの適切な合成を実現する必要がある。
【0024】
サブタイトルやキャプションを付する実施例では、サブタイトルやキャプションのテキストは通常、コンピュータ上で生成され、次にタイムコードを使用してビデオコンテンツと同期化される。そしてテキストおよびビデオコンテンツは、イベントが放送され、または配信される前に1つ以上のファイルに転送される。
【0025】
テキスト情報は、当業者に知られた従来の方法により生成され、配信されてもよい。たとえば一つの従来の方法は、テキストファイルをスクリプトから生成することを伴う。テキストファイルは、3つの値、すなわち開始フレーム、終了フレームおよびフレームが開始フレームから終了フレームに至る複数のフレームに及ぶテキストを含んでいる。そしてこの実施例に関しては、テキストは開始フレームから終了フレームまでの全てのフレームにおいて繰り返される。本発明の実施形態は、関連するビデオフレームについて認識された適切な深度値において、テキストの配置を決定するための他のいずれかの要件と共に、視差パラメータを決定することを対象としている。
【0026】
本明細書の記載では、3Dコンテンツと合成可能な簡易なテキストのテキスト情報が照会される。これらの用語は、一般性および意味を何ら意図的に限定せず、失わせることなく、他の特定された改変された用語と交換可能に使用できる。本発明の実施形態により、コンテンツ映像に追加できる少なくとも2つのタイプのテキスト、すなわちサブタイトルおよびキャプションが存在することが理解されるべきである。サブタイトルは一般に、聴覚障害のない聴衆を対象としており、キャプションは通常、聴覚障害のある聴衆を対象としている。サブタイトルは、対話をコンテンツから別の言語に翻訳し得るが、サブタイトルは、音声情報の全てを表すことはほとんどない。キャプションは、コンテンツの音声部分からの全ての情報を含む傾向にある。例えばキャプションは、「電話の呼出音」、「足音」等のコンテンツ中の音響効果を表し、一方でサブタイトルは音声から得られた当該情報を含むことも表示することもない。
【0027】
クローズドキャプションは、特殊なデコーダなしでは見ることができない、ビデオ信号内に隠されたキャプションである。クローズドキャプションは、例えば、ビデオ信号の垂直帰線消去区間(VBI)の行21内に隠されている。オープン・キャプションは、復号化されているキャプションであるため、これは映画におけるサブタイトルのような、テレビ画像の不可欠の部分になっている。換言すれば、オープン・キャプションはオフにすることはできない。「オープン・キャプション」の用語は、文字生成手段で生成されたサブタイトルを指すためにも使用される。
【0028】
図1は、本発明の実施形態に従い、3Dコンテンツおよび関連するテキストを合成するシステム10を示している。図1においては、走査装置12が、カメラで感光したフィルムネガ等のフィルムプリント14を、シネオン形式または全米映画テレビジョン技術者協会(SMPTE:Society of Motion Picture and Television Engineers)のデジタル・ピクチャ・エクスチェンジ(DPX)ファイル等のデジタル形式にスキャニングするために設けられている。走査装置12は、例えばビデオ出力を備えたArri LocPro(商標)等のフィルムからビデオ出力を生成するテレシネ装置等を備えていてもよい。あるいは、制作後の処理から得られたファイル、又は既にコンピュータ可読形式になっているファイル等デジタルシネマ16を直接、使用してもよい。コンピュータ可読ファイルの可能性として考えられるソースは、AVID(商標)エディタ、DPXファイル、D5テープ等である。更に、例えば立体コンテンツ、2D画像および関連深度マップの形式の3Dコンテンツは、キャプチャ装置18により提供されてもよい。サブタイトルおよびキャプションファイル等のテキストファイル20は、スクリプトから生成し、サブタイトル監督者によってシステムに提供されてもよい。
【0029】
走査されたフィルムプリント、デジタル・フィルム画像及び/又は3Dコンテンツ、並びにテキストファイルは、例えばコンピュータ等の後処理装置22に入力することができる。本発明の一つの実施形態においては、後処理装置22は、1つ又は複数の中央処理装置(CPU)、ランダムアクセスメモリ(RAM)および/または読み出し専用メモリ(ROM)等のメモリ24,キーボード、カーソル制御装置(例えば、マウス、ジョイスティック)等の入力/出力(I/O)ユーザインターフェース26、ディスプレイ装置等のハードウェアを備えた様々な既知のコンピュータ・プラットフォームのいずれかに実装することができる。コンピュータ・プラットフォームは更に、オペレーティング・システムおよびマイクロインストラクションコードを備えている。本発明の他の実施形態によると、本明細書に記載された様々なプロセスおよび機能は、マイクロインストラクションコードの一部、あるいはオペレーティング・システムを介して実行されるソフトウエア・アプリケーション・プログラムの一部(又はこれらの組合せ)であってもよい。更に他の種々の周辺装置を、パラレルポート、シリアルポート、ユニバーサル・シリアル・バス(USB)等の様々なインターフェース、バス構造により、コンピュータ・プラットフォームに接続することができる。かかる他の周辺装置の具体例には、追加の記憶装置28およびプリンタ30を含んでいてもよい。プリンタ30は、フィルムの立体映像版等のフィルム32の修正版であって、更に以下に記載したテキスト挿入技術を利用して、一つのシーンまたは複数のシーンにテキストが挿入されたものを印刷するのに使用することができる。更に、修正されたフィルムまたはビデオのデジタルファイル34が生成され、3Dディスプレイ装置に提供できるため、3Dコンテンツおよび挿入されたテキストは、視聴者によって視聴可能である。あるいはデジタルファイル34は、記憶装置28に記憶することができる。
【0030】
図1の実施形態においては、以下に更に詳細に考察するように、ソフトウェア・プログラムはテキストを3Dコンテンツと合成するために、メモリ24に記憶されたテキスト処理モジュール38を含んでいる。
【0031】
3Dコンテンツを処理し、かつ表示するための複数のコンテンツ形式および表示方式が存在する。これらには特に、立体、ホログラフィック、自動立体がある。最も一般的なのは、アクティブまたはパッシブ眼鏡を必要とする立体ディスプレイである。例えばレンティキュラーを使用した自動立体ディスプレイは、眼鏡を必要とせず、家庭および娯楽業の双方において益々、使用可能になっている。これらのディスプレイの多くは、2D+深度形式で動作する。この形式では、2D映像および深度情報は合成されて、3D効果を生じさせる。
【0032】
三次元(3D)画像は今日、多くの種々のデジタル形式で存在する。3Dコンテンツは一般的に、別個の立体画像(または表示(view))として最初に生成された一対の画像または表示(view)を含んでいる。「立体画像」および「立体表示」の用語と、「画像」および「表示」の用語は、意味を失わせることなく、何ら意図的に限定することなく、各々、交換可能に使用できることが理解される。これらの画像の各々は符号化できる。3D画像を記憶、配信、表示するためには、各々が画像固有のフレームまたはファイルにある2つの別個の立体画像を利用する代わりに、各フレームは3D画像全体を表すように、左画像、右画像等2つの立体画像のコンテンツは単一の画像フレームに合成される。
【0033】
深度が容易に算定できる場合は、3Dサブタイトルの挿入は容易になると上述した。しかし、十分な密度の正確な深度マップを算定するのは困難であり、時間がかかるだけであるため、ユーザは、テキスト情報の3Dコンテンツにおける配置を決定する他の方法を見つけることを試みざるを得ない。本発明の原理によると、スクリーン視差情報は有用であり、テキストの3Dコンテンツにおける配置を決定するための深度の直接的使用に対する適切な代替手段であることがわかった。
【0034】
図2は、本発明の実施形態に従い、画像の複数の種々の実施例についてのスクリーン視差および認識された深度の関係を示している。図2においては、Xlは、左表示Lにおけるポイントの位置であり、Xは、右表示Rにおける対応するポイントの位置であり、Xは、視聴者に見える認識された画像の位置である。そしてスクリーン視差はdにより表され、認識された深度はZにより表される。
【0035】
図2の左側では、画像Xは、負の視差に一致する認識された深度Zで示されている。図2の右側では、画像Xは、正の視差に一致する認識された深度Zで示されている。
【0036】
図2に示すように、Xlが左表示Lにあるポイントの投影画像として定義され、Xが右表示Rにある同一ポイントの対応する投影画像として定義される場合、スクリーン視差dは、式(1)により以下のように画定される。

d=Xの水平位置−Xlの水平位置 (1)

式(1)の構成においては、左表示Lおよび左表示Rを生成する2つのカメラは、その間に若干の水平距離を有し、サイドバイサイド構成に配置されていると仮定する。このサイドバイサイド構成は、一つのカメラが他のカメラの上方に位置する状態のカメラの垂直配置により、カメラが垂直分離を呈する状態をカバーすることも意図している。カメラが垂直または上下構成で配置されている場合は、式はそれに応じて変更され、スクリーン視差が以下のような式(2)に従って画定されることとなる。

d=Xの垂直位置−Xlの垂直位置 (2)

上記式(2)においては、dが正(>0)の場合は、認識された画像はスクリーンの後ろ側(すなわち、テレビ面の後ろ側)に配置され、当該状態は正の視差の一つであり、dがゼロ(=0)の場合は、認識された画像はスクリーン上に配置され、当該状態は無視差の一つであり、dが負(<0)の場合は、認識された画像はスクリーンの前に配置され、当該状態は負の視差の一つである。
【0037】
実験の実施から、スクリーン視差dは、認識された深度と関係していると結論付けることが適切であると考えられる。認識された深度は、図2に示されたような3Dコンテンツを視聴する際に、視聴者が認識する深度である。認識された深度は、実際の深度と関係し、これとは明らかに異なる。認識された深度は一般的に、実際の深度のこのような順位と実質的に類似の深度順位序列を有している。しかし、例えばカメラの射影変換の結果として、深度の量が変化の対象となる。この点を理解するために、以下の、
実際の深度(A)>実際の深度(B)>実際の深度(C)
のように、一つのフレーム内のポイントA,B,Cが実際の深度について順位序列を呈する場合は、
認識された深度の順位序列は以下のようになることが予測されるものとする。
認識された深度(A)>認識された深度(B)>認識された深度(C)

上記で説明したように、これらのポイント間の実際の距離は、実際の深度から認識された深度に移行する際には、一般的には維持されない。これらの関係は、同一フレーム内で維持されることが意図される。異なるフレームにわたって、これらの関係が同一ポイントA,B,Cについて残存するとは必ずしも予測されない。
【0038】
スクリーン視差と実際の深度の厳密な関係は複雑であり、容易には決定できない。左および右表示が、表示軸が平行である装置により捉えられる場合、スクリーン視差と実際の深度の関係は、実質的には直線状であることがわかる。あるいは左および右表示が、表示軸が交差関係にあるなど平行でない関係にある装置により捉えられる場合、スクリーン視差と実際の深度の関係は、実質的には非直線状であることがわかる。本明細書中の実験の実施から、スクリーン視差と認識された深度の関係は、左および右キャプチャ装置の方向に関わらず、常に直線状であることがわかる。この実験の実施に基づき、スクリーン視差の絶対値が大きいほど(すなわちスクリーン視差の大きさが大きいほど)、認識された深度の絶対値は大きくなる(スクリーンからより離れる)ことがわかった。
【0039】
認識された深度は、視聴者が体験した深度である。実際の深度は、視聴者が実際に体験する。この認識に基づき、本発明の実施形態に従い、3Dコンテンツにおけるテキストの配置に適切な深度値を決定する効果的な方法として、スクリーン視差、およびそれゆえに認識された深度を利用することが可能であり、好適でさえあることが、本明細書中で判明した。
【0040】
図3は、本発明の実施形態に従い、3Dコンテンツと共にテキストを表示する際に使用される最良の視差値を、オフラインで決定する方法の流れ図を示している。上述のように、オフライン方法は、例えば制作後段階で利用するのに適切である。図3のオフライン方法は、2つのパスを有するものとして示されている。第1のパスは各フレームを処理して、各フレームについての特定の視差情報を決定する。この視差情報は、視差値の可能性として考えられる集合および視差値の範囲および視差値の共通の範囲を含んでいる。第2のパスは、制作者またはユーザから得られた1つ以上の所望の要件の集合と合成された、収集された視差情報を使用して、3Dコンテンツにおける3Dテキストの最終的な配置の制作者/ユーザによる要件に適合する最良の視差値を選択する。
【0041】
要件は一般的に、テキスト配置のために達成されるべき状態を提示する。要件は、制作者あるいはユーザあるいはコンテンツに関連した他の者のいずれかにより提供される。例えば、スクリーンの前の認識された深度が、全てのフレーム内に実質的に外観上固定されているように、テキスト情報が所定の視差値で配置されることが必要な場合がある。要件の他の具体例は、フレーム全体についての所定の視差値でのテキスト配置、フレーム全体のうち選択された範囲についての所定の視差値でのテキスト配置、コンテンツ遮断を回避し、複数の画像にわたる視差変化量を制限するテキスト配置を含むがこれに限定されず、快適な視聴体験等を維持している。
【0042】
最大の認識された深度等、所定の値でテキストを配置する例示的要件を達成するために、視聴されている画像および画像群の範囲内でこの要件に適合する最良の視差値は、以下の式でより更に詳細に示され、かつ記載されているように、d=UDminとなる。もちろん、種々の要件により、選択されている種々の視差値が得られる。1つ以上のデフォルト要件は、オフライン処理における使用のために、製造者が設定できるし、ユーザであっても設定できることが考えられる。本発明の他の実施形態では、上記の要件は、オンライン処理に等しく適用可能である。
【0043】
図3で示された方法では、最初のパスは、ステップS31、S32、S33を含んでおり、一方で第2のパスは、ステップS34、S35、S36、S37、S38を含んでいる。図3で言及したように、最初のパスは、視差範囲を決定するために、複数のフレームについて処理を行う。第2のパスは、第1のパスから得られた視差情報について処理を行い、各フレームについて最良の視差値を決定する。
【0044】
図3の方法は、ステップS31で開始し、ここでは画像情報の双眼写真を受け取る。通常、当該ステップに読み込まれる双眼写真は、上記のように左表示と右表示を含んでいる。ステレオ写真は、当該方法においてはペア(L,R)として画定される。そして当該方法はステップS32に進む。
【0045】
ステップS32では、現フレームについての値P,DX,IntD,UDの値を含む視差情報を算定し、更新し、保持するために必要な処理が実行される。変数およびその関連する算定は、以下に図5を参照してより詳細に記載される。Pは、(複数の)フレームの範囲についての各フレームにおける各検出点に関する視差情報を保持する視差の集合である。一般に、(複数の)フレームの範囲は、以下にさらに詳細に考察するように、現フレームに加えて、1つ以上の先行するフレームを含むことが考えられる。しかし、(複数の)フレームの範囲は、現フレームに加えて、1つ以上の先行するフレームおよび1つ以上の後続のフレームも含む場合があることも考えられる。DXは、画像フレーム中の全ての特徴点についての最小の視差値から最大の視差値までの視差値Pの範囲を保持する視差範囲の集合である。IntDは、処理された(複数の)フレームについての視差範囲を含む交わり集合である。UDは、全ての処理された(複数の)フレームについて共通の視差値を保持している。変数P,DX,IntD,UDの処理が終了すると、当該方法はステップS33に進む。
【0046】
少なくとも算定された変数の集合は、メモリ、あるいは1つまたは複数の画像ファイルに関連付けられたファイル、画像と同じファイルに記憶されることが考えられる。もちろん後者の場合は、視差情報が、画像と分離された態様で補助画像データと共に記憶されることが必要である。
【0047】
オフライン処理では一つの実施形態において、第1のパスにおいて、算定された全ての視差情報をPに保存することが好ましい。視差情報が本明細書中の方法の第2のパスで決定される場合は、要件に従い、最良の視差を決定するために、視差集合PのうちPiの小範囲のみを利用することが好ましい場合もある。例えば第2のパスでフレームiを処理する場合、最良の視差値を決定するために、m個のフレームについての視差値の集合は、i番目のフレームの一方の側、すなわちフレームi―mからフレームi+mで使用してもよい。mの値は、所望されるように小さくても良いし、大きくてもよい。実験の実施から得られる一つの実施例では、mは、m=5のように小さい正の整数であることが選択され、それにより視差情報の集合の格納に対する影響を少なくする。現フレームより多いフレームにある視差情報を算定する性能は、視差集合Pに影響を与えるのみならず、視差範囲の集合DX等他の視差情報にも影響を与えることに着目すべきである。
【0048】
ステップS33では、全ての双眼写真(L,R)が処理されたか否かが判断される。当該決定が「NO」であると判断されると、次に図3の方法はステップS31に戻り、ここで他の双眼写真が処理のために受け取られる。当該決定が「YES」であると判断されると、次に図3の方法はステップS34に進み、処理の第2パスが開始される。
【0049】
ステップS34では、双眼写真が再び処理される。各双眼写真は、ステップS31で受け取られたように受け取られる。ペアが受け取られて読み込まれると、次に図3の方法はステップS35に進む。
【0050】
ステップS35では、最良の視差値は、視差情報およびユーザまたは制作者等から受け取った1つまたは複数の要件から決定される。最良の視差値は、視差情報を相互に充たすテキスト配置のための視差値を選択するための視差情報(すなわち、これはP,DX,IntD,UDの視差情報により表される視差値に含まれている)、および要件を可能な限り厳密に解析することにより決定される。この着想は、以下でより詳細に説明する。
【0051】
本発明の一つの実施形態では、上記の実施例に記載したような要件は、一般関数fとして公式化することができ、それにより関連する3D画像と併せたテキスト配置のための最良の視差値dが、以下の式(3)により求められる。
d=f(P,DX,IntD,UD) (3)

すなわち、最良の視差値dは、P,DX,IntD,UDの視差パラメータ値から得られた一部または全部の視差情報に依存する要件f(・)から算定される。以下に示した視差情報のより詳細な説明から、要件の関数のための基礎となるパラメータはPであることが理解される。なぜなら、残りのパラメータDX,IntD,UDは、Pから直接的あるいは間接的に算定できるからである。全ての視差パラメータのPに対する最終的な依存関係に関するこの知見に基づき、最良の視差値dの公式化は、以下のような式(4)により簡略化してもよい。
d=f(P) (4)

もちろん、簡略化されたdの公式化は、特定の要件が必要とする数と同数のPから導かれたパラメータを含むより厳密な表現を網羅することが理解される。
【0052】
要件に適合した関連する3D画像と併せてテキスト配置されるように、最良の視差値dが決定される態様をより良く理解できるように、要件についての多くの実施例が以下に記載されている。実験の実施から得られた一つの実施例では、フレーム全体について最大の負の視差でテキストを配置するために要件が画定される。この実施例については、要件を充たす最良の視差値は、現フレームについてd=f(P)=UDminであると決定される。
【0053】
実験の実施から得られた他の実施例では、現フレームにおける画像全体の選択された領域について、最大の負の視差でテキストを配置するための要件が画定される。この実施例については、この新たな要件を充たす最良の視差値は、画像の画定された領域Rにおいて、d=f(P,R)=最大の負の視差として決定される。当該要件と共に、追加のパラメータとしてRを設けることが必要となる点に着目すべきである。決定された最良の視差値は、画像全体の最大の負の視差値であってはならないことが理解されるべきである。
【0054】
実験の実施から得られた更に他の実施例では、コンテンツを遮断せず、テキストについての視差変化を小さく保つ、画像コンテンツに対する位置にテキストを配置するための要件が画定される。視差変化を小さく保つことにより、視聴者が一つの画像から次の画像へテキストを読みこむための適度な無理のないレベルを保つことができる。要件f(・)を実装する際に、最良の視差値におけるテキスト配置のためのフレームからフレームへの移行が、(複数の)フレームにわたって円滑に行われ、かつ視聴者を満足させるように、多くのフレームからの視差情報を利用する必要がある。(複数の)フレームは連続するフレームであることが好ましい。更に本発明の一つの実施形態では、(複数の)フレームは、現フレームと併せて先行するフレーム、あるいは現フレームと併せて後続のフレーム、あるいは現フレームと併せて先行するフレーム及び後続のフレームの双方の一群として選択することができる。本実施例については、本要件のうち結果として生じる最良の視差値は、必ずしも最大の負の視差に対応しない。実際、テキストの配置に関して、一つのフレームから次のフレームへの移行を円滑に保つために、各フレームについての最良の視差値は、現フレーム中の最大の負の視差値より小さい(すなわち、最大負の視差値の絶対値より大きい)可能性がある。決定された最良の視差値は、画像全体の最大の負の視差値であってはならないことに注意すべきである。
【0055】
ステップS35の終了時に、図3の方法はステップS36に進む。
【0056】
ステップS36では、ステップS35から得られた視差値は、3Dテキストを生成するために、直ちに記憶され、および/または使用される。視差値dは、画像と共に、あるいは他の実施形態では、画像に添付の別個のファイルに記憶される。画像に関連付けられたテキストファイルに記憶することもできる。いずれの場合でも、ステップS35で算定された視差値は、最終的には3Dテキストの生成および配置に使用される。ステップS35から得られた最良の視差値dは記憶され、テレビ等の表示装置に渡され、そこで3Dテキストを生成するために使用されることが考えられてもよい。
【0057】
実験の実施から得られた一つの実施例では、例えばサブタイトルまたはキャプション中のテキストの位置が、左(右)表示について確定されると、上記で与えられた視差方程式を利用して、他の表示において3Dテキストを配置し、生成するために、ステップS35から得られた最良の視差値、および左(右)表示におけるテキストの位置を利用することは容易である。本発明の種々の実施形態では、上記で考察した位置は、当該表示における絶対位置、あるいは特定の表示における既知の基準点に対して決定される相対的位置であってもよい。例えば、相対位置は、表示の左上隅等、特定の隅部として選択することができる。ステップS36の終了時には、図3の方法はステップS37に進む。
【0058】
ステップS37では、全ての双眼写真(L,R)は、第2のパスで処理されたか否かが判断される。決定が「NO」であると判断されると、次に図3の方法はステップS34に戻り、ここで他の双眼写真ペアが第2のパス処理のために受け取られる。決定が「YES」であると判断されると、次に図3の方法はステップS38に進み、ここで処理は終了する。
【0059】
図4では、オンライン処理を利用して、3Dテキストの位置決定を行う例示的方法が示されている。図3を参照して上記に記載されたオフライン処理方法では、画像から得られた全てのデータが利用可能であると仮定する。この仮定により、直ちに、全てのフレーム上を別個に当該方法のパスを送る機会が提供される。オンライン処理については、新たな画像フレームが処理のために受け取られ、使用可能である場合のみ、決定をすることができる。図3に示したオフライン処理方法とは対照的に、図4の方法は、収集され、かつ決定された全ての情報を記憶し、そして既存の情報および要件に基づいて、視差の決定を行う。
【0060】
図4の方法は、オフライン画像処理および3Dテキスト位置決定に適用可能であることは、当業者により理解される。ただし、図3の方法は、当該オフライン処理について図3に記載されたプロセスのように効率的ではないことが予測される。
【0061】
図4は、本発明の実施形態に従い、3Dコンテンツと共にテキストを表示する際に使用される最良の視差値を、オンラインで決定する方法の流れ図を示している。すなわち、図4の方法は、各画像についての単一パス手法として示されている。図4の方法は、ステップS41で開始し、そこで画像情報の双眼写真(L,R)が処理のために受け取られ、あるいは読み込まれる。上記のように、当該ステップに読みこまれる双眼写真は通常、上記のように、左表示および右表示を含んでいる。そして図4の方法はステップS42に進む。
【0062】
ステップS42では、P,DX,IntD,UDの値を含む現フレームについての視差情報を算定し、更新し、保持するために必要な処理が実行される。ステップS42は、上述のステップS32と同様の手法で実行する。変数およびその関連する算定を図5に参照して以下により詳細に記載する。変数P,DX,IntD,UDを算定し、更新し、保持するための処理が終了すると、図4の方法はステップS43に進む。上述のように、少なくとも算定された変数の集合は、メモリ、あるいは1つまたは複数の画像ファイルに関連付けられたファイル、画像と同じファイルに記憶されることが考えられる。
【0063】
オンライン処理では、可能性として生じる記憶領域の制限、および潜在的な処理時間の制限により、テキストについての最良の視差値を決定する際に、より少数のフレームを使用することが好ましい場合がある。先行するフレームおよび後続のフレームが全て、一般的に利用可能であるオフライン処理と異なり、現フレームに続く(複数の)フレームは未だ受け取られていないため、現フレームのオンライン処理のための先行するフレームにのみ通常、アクセス可能である。
【0064】
DX,IntD,UDは全てPおよびPi成分から直接的または間接的に導かれるため、視差値Pの集合に関するいかなる限定も、残りの視差情報に影響を与えることに着目すべきである。
【0065】
ステップS43では、最良の視差値は、視差情報およびユーザまたは制作者等から受け取った1つまたは複数の要件から決定される。ステップS43は、上述のステップS35と同様の手法で実行する。最良の視差値を決定するための例示的手法は、図3のステップS35を参照して上記に記載した通りである。次に図4の方法はステップS44に進む。
【0066】
次にステップS44では、ステップS43で決定された視差値を使用して3D画像コンテンツと共に表示するために、サブタイトルやキャプション等の3Dテキストが生成され、位置決定される。そして図4の方法はステップS45に進む。
【0067】
次にステップS45では、全ての双眼写真(L,R)が処理されたか否かが判断される。決定が「NO」であると判断されると、図4の方法はステップS41に戻り、そこで他の双眼写真が処理のために受け取られる。決定が「YES」であると判断されると、図4の方法はステップS46に進み、そこで処理は終了する。
【0068】
図5は、図3および図4の方法で使用される特徴点対応付け、および視差値決定の簡略化されたプロセスを示している。すなわち、図5は、受け取った画像それ自体から導かれた視差情報と共に、1つ以上の提供された要件に基づいて、最良の視差値を決定するための(L,R)ペアの処理に使用される例示的視差算定手法を示している。図5の手法は、図3および図4で示された方法を参照して上記のステップで使用されている。
【0069】
図5で示された手法は、上記で表示した関連出願、すなわち米国特許出願代理人整理番号PUT090183号(発明の名称「3D画像を2D画像から区別し、特徴点対応決定により、3D画像形式の存在を特定するための方法」)に詳細に説明されている。
【0070】
図5の方法は、ステップS51で開始し、ここでは画像情報の双眼写真(L,R)が受け取られる。受け取られる双眼写真は通常、上記のように、左表示および右表示を含んでいる。更に、視差情報DX,IntD,UDが画像情報(コンテンツ)と共に受け取られる。本発明の種々の実施形態においては、図5の方法が、全ての視差情報変数がゼロ等の初期値に設定されるように初期化されてもよい。DXは視差集合である。交わり集合はIntDであり、和集合はUDである。DXは、少なくとも現フレームについての視差範囲、および1つ以上の先行して処理されたフレームについての視差範囲さえ含む。IntDは、全ての処理されたフレームについての視差範囲を含む。UDは、全ての処理されたフレームについての共通の視差を含む。ステップS51が完了すると、図5の方法は、ステップS52およびS53に進む。
【0071】
ステップS52およびS53では、特徴点検出は、画像対(L,R)の個々の表示において実行される。ステップS52の画像Lから検出された特徴点は、F1={F1|i=1… n}として特定され、ステップS53の画像Rから検出された結果として現れた特徴点は、F2={F2|i=1… n}として特定される。ここで、nおよびnは、各画像で検出された特徴点の数である。ステップS52およびステップS53の各々の実行後、図5の方法はステップS54に戻る。
【0072】
特徴点対応付けに基づく方法は、特徴点を検出し、検出された特徴点の間の1対1の対応関係を確定する。上記および下記のステップにおける特徴点検出および特徴点対応付けの代わりに、特徴点追跡を利用してもよいことも、本発明の種々の実施形態から考えられる。実験の実施から得られたある実施例では、KLT特徴点追跡法が、ステップS52およびS53の実行において使用されてきた。これらの手法は、当該技術分野で周知であり、本明細書中の以下に引用した文献に十分に記載されている。
【0073】
ステップS54では、特徴点対応付け(マッチング)は、表示LにおけるステップS52から結果として得られた特徴点F1と、表示RにおけるステップS53から得られた特徴点F2との間に検出される。本ステップにおける特徴点対応付けまたはマッチング処理は一般に、他の画像中の特徴点と対応関係がない、一つの画像中の特徴点を取り除く。特徴点が各特徴点の集合F1およびF2から取り除かれると、Lにおける新たな特徴点または残りの特徴点は、以下のような式(5)により特徴付けられ、
NF1={NF1|i=1… N} (5)

Rにおける新たな特徴点または残りの特徴点は、以下のような式(6)により特徴付けられる。
NF2={NF2|i=1… N} (6)

ここでNは、対応関係を有する特徴点の総数である。(NF1,NF2)として指定されたペアは、L表示およびR表示の双方の中に検出される、一対のマッチングした特徴点のペアを特定する。特徴点対応付けおよびマッチングは、当該技術分野で周知であると考えられ、本明細書には詳細に記載されていない。本明細書に参照により包含され、本明細書中の以下に列記されたて複数の文献は、画像の特徴点に適用される多くの対応付けおよび選択手法を開示している。ステップS54が終了すると、図5の方法はステップS55に進む。
【0074】
上記のように、特徴点対応付けは、特徴点追跡を利用して実行できることが考えられる。本発明の種々の実施形態では、ステップS52,S53,S54で示すように、マッチングした特徴点を検出するために、特徴点検出および特徴点対応付けの算定が利用されてきた。しかし、特徴点のマッチングまたは対応付けは、以下に示すように、代わりに特徴点追跡として実施することができる。最初にLにおける特徴点が算出される。次に、Lにおいて算出された特徴点は、Rにおける特徴点を追跡するために、Rにおける最初の特徴点の位置として利用される。最後に、追跡されたRにおける特徴点は、Lにおける特徴点に対応するように決定される。Rにおける追跡中に失われた特徴点は、取り除かれるべきである。
【0075】
KLT追跡法が本発明の方法の実験の実施において用いられたが、多くの特徴点マッチングアルゴリズムが本発明の方法により使用されることが考えられているため、本明細書中の方法は、特定の特徴点マッチングまたは対応付けアルゴリズムを好適な手法として採択していない。KLT追跡法等の複数の特徴点追跡方法は、人工知能国際合同会議において提出された「反復画像記録技術および立体画像への応用」というタイトルのBruce D.LucasおよびTakeo Kanade(金出武雄)による技術論文(1981)、第674〜679頁、および「特徴点の検出および追跡」というタイトルのCarlo TomasiおよびTakeo Kanade(金出武雄)による報告書(カーネギーメロン大学技術報告書CMU―CS−91−132,1991年4月発行)の双方に教示されている。SIFT法として知られる特徴点検出法は、1999年コンピュータビジョン国際会議の論文集、第1150〜1157頁で発表された「局部的スケール不変の特徴からの物体認識」というタイトルのDavid Loweによる論文で開示されている。特徴点対応付けを実行するのに有用な複数の種々の特徴点検出およびマッチング方法は、「医療用、リモートセンシング用、産業用の2Dおよび3D画像記録」というタイトルのA.Ardeshir Goshtasbyによる論文(ワイリー・インターサイエンス社発行、2005年)、特に特徴選択についての第3章の42〜63頁のおよび特徴点対応付けに関する第4章の63〜106頁に記載されている。これら4つの文献の教示は、全体として本明細書に参照により明示的に包含されている。
【0076】
ステップS55では、(L.R)表示において特定される各ペアiについて対応する特徴点のペア(NF1,NF2)の間の位置偏差が算定される。画像についての視差集合Pおよび視差範囲DXを決定するために、この算定が実行される。この算定においては、特徴点NF1の位置は、(xi,yi)として画定され、特徴点NF2の位置は、(xi2,yi2)として画定される。この実施例においては、これらの位置は、双方の画像における共通ポイントに対して選択される。一つの実施例では、双方の画像における共通ポイントは、基点として表示される左上隅として選択することができる。本発明の種々の実施形態では、相対位置よりも絶対位置が利用できることに着目すべきである。更に本発明の種々の実施形態では、画像中の他の配置を共通基準ポイントまたは基点として利用することができる。
【0077】
そして、i番目のフレームについてのスクリーン視差の集合Piは、P={P=x2j−x1j|j=1…N}として決定することができる。各々、PmaxおよびPminとして算定されたスクリーン視差の最大値および最小値は、Pmax=max(P)およびPmin=min(P)となるように、各Pの算定により反復して更新することができる。画像ペアにおける全ての特徴点についてこの算定が終了すると、図5の方法はステップS56に進む。
【0078】
スクリーン視差の集合Pは、現フレームのみについて決定してもよい。スクリーン視差の集合Pは、複数のフレームiについて決定できることも考えられる(ここでiは、所望の数の先行するフレーム、あるいは所望の数の先行するフレームおよび後続のフレームの双方を含んでいてもよい)。後者のケースは、一般的にフレームの全てが使用可能であるという理由で、通常、オフライン処理について起こりうる。オンライン処理では、現フレームが処理されている時点で後続するフレームが通常受け取られておらず、受け取ることができないため、後続のフレーム情報を利用を可能にすることができない。
【0079】
視差集合Pの算定に含まれ、あるいは含めることができるフレームの数は、各々の実施に左右される。オフライン処理では、記憶領域は一般的に制限事項ではない。よって、可能な限り多くのフレームにわたって、たとえばオフラインの場合について使用可能な全てのフレームにわたって、Pを決定することが好ましい場合がある。オンライン処理では、記憶領域はより制限されている場合があり、利用可能な処理時間は限定されている場合があり、これにより適切なオンラインまたはリアルタイム視聴環境を維持している。よって、オンライン処理では、より少数のフレームにわたって視差情報集合Pを決定し、かつ維持するのが好ましい場合がある。
【0080】
ステップS56のこの時点で、視差情報DX,IntD,UDの算定は、以下のように更新され、終了することができる。更新された視差範囲DXは、DX=(Pmin,Pmax)のように決定される。
【0081】
変数DXおよびPは全く異なっている。視差範囲の集合であるDXは通常、一次元配列として表される。各フレームiについては、値の集合〔minP,maxP〕として表される視差範囲DXがある(ここでPは、フレームiにおける視差値である)。
【0082】
視差値の集合であるPは通常、二次元配列として表される。Pは、フレームiに関する各特徴点についての視差値の配列である。Pijは、フレームiにおける特徴点jに関する特徴点jについての視差値である。このようにPが記憶される場合、各フレームについての左(あるいは右)画像における特徴点の位置を、その対応する視差値と共に維持することも好ましい場合がある。
【0083】
最小DX、IntDminの交わり、および最大DX、IntDmaxの交わりは、以下の式(7)および式(8)により特徴付けることができる。
IntDmin=max(IntDmin,Pmin) (7)
IntDmax=min(intDmax,Pmax) (8)
【0084】
上記で画定した算定により、交わりIntDminの値は、IntDminの前値またはPminの現在値のいずれかのうち最大のものにより置き換えることができる。同様に、IntDmaxについて上記で画定した算定により、交わりIntDmaxの値は、IntDmaxの前値またはPmaxの現在値のいずれかのうち最小のものにより置き換えることができる。このように、IntDの値は、IntD=(IntDmin,IntDmax)として画定することができる。
【0085】
同様のタイプの算定では、UDは、以下の式のうち、(UDmin,UDmax)として画定される。
UDmin=min(UDmin,Pmin)および
UDmax=max(UDmax,Pmax)

上記で画定した算定により、合併UDminの値は、UDminの前値またはPminの現在値のいずれかのうち最小のものにより置き換えることができる。同様に、UDmaxについて上記で画定した算定により、合併UDmaxの値は、UDmaxの前値またはPmaxの現在値のいずれかのうち最大のものにより置き換えることができる。
【0086】
ステップS54〜S56における算定の終了時に、P,DX,IntD,UDの値は後の使用のために記憶される。本発明の種々の実施形態により、これらの値はプロセッサの一次記憶装置に記憶することができ、あるいは記憶媒体または画像フレームと関連付けられたファイル等、より永久的な形式で記憶することもできる。かかる視差情報の利用のための規格が発展するにつれ、視差情報は、画像ファイル自体に記憶されることさえ考えられる。
【0087】
そして図5の方法はステップS57に進み、その過程で図5の方法は終了する。
【0088】
上記の記載では、DX,IntD,UDの値は、上記で示したように、画像フレーム全体の視差集合Pから直接的または間接的に算定されることに着目すべきである。本発明の種々の実施形態では、フレームの3D画像にテキストを配置するための最良の視差値についての算定は一般的に、パラメータP,DX,IntD,UDの全てではないが、これらのほとんどを用いることが意図される。例えば、要件が実質的に完全な画像に基づいている場合は、各フレームにおけるテキストについての最良の視差値を算定するために、DX,IntD,UDを含む視差情報の部分集合を使えば十分であるため、これが好ましい場合がある。他方、要件が画像フレームの一部のみに基づいている場合は、P,DX,IntD,UDについて、パラメータ値を含む視差情報の全集合を使うことが好ましい。本発明の種々の実施形態では、他のタイプの要件は、3D画像に対して適切にテキストを配置するのに必要な視差パラメータの集合を決定することが考えられる。例えば、テキストおよび画像の視認性を保証することにより、これらの閉塞を回避するために、視差情報(P,DX,IntD,UD)の完全集合は、関連する3D画像と併せたテキスト配置を決定するのに使用される必要があることが予測される。全ての実施および要件について、テキスト配置のための視差情報の完全集合を使うことが可能であっても、テキスト配置の各々の決定のために必要とされる視差情報パラメータの数およびタイプは、少なくとも部分的には、本発明の種々の実施形態に従った実施および要件となるように調整されもよい。
【0089】
LおよびRの表示が画定され、使用される順序は、特徴点検出および特徴点対応付けのステップでは重要でないと本明細書で判断されてきた。しかし、視差算定ステップが実行される際に、画像のLおよびRの表示の特定および順序を維持することは重要である。
【0090】
(実例となることを意図するが、限定はしない)3D画像形式を特定する方法およびシステムの種々の実施形態を記載したが、当業者は、上記教示に照らして、改変および変更ができることに留意すべきである。よって、開示された本発明の特定の実施形態において、本発明の範囲および趣旨の範囲内で変更がされてもよいことが理解されるべきである。前記は、本発明の種々の実施形態を対象とするが、一方でその基本的範囲から逸脱しない限り、本発明の他の実施形態および更なる実施形態を案出することもできる。
ここで例としていくつかの付記を記載する。
(付記1)
テキストを三次元(3D)画像コンテンツと合成する方法であって、結果として生じる画像は3D表示装置により表示可能であり、
前記方法は、
少なくとも一つの3D画像を含む前記3D画像コンテンツおよび前記少なくとも一つの3D画像と関連付けられたテキストの双方を受け取るステップであって、前記少なくとも一つの3D画像は、第1の表示および第2の表示を含む、前記ステップと、
前記少なくとも一つの3D画像から視差情報を抽出するステップと、
前記第1の表示におけるテキストのための位置を決定するステップと、
前記第2の表示におけるテキストのための位置を決定するステップと、を含み、
前記第2の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する3D画像の第1の表示における位置に対してオフセットされる、前記方法。
(付記2)
前記3D画像コンテンツに対するテキストの所望の配置を特定するための少なくとも一つの要件を受け取るステップを更に含み、
前記第2の表示におけるテキストの前記位置のための前記オフセット量は、少なくとも部分的には、前記視差情報および前記少なくとも一つの要件の双方にも基づいている、付記1に記載の方法。
(付記3)
各表示について、配置されたテキストを有する前記少なくとも一つの3D画像コンテンツの前記第1および第2の表示を処理するステップを更に含み、テキスト及び関連する3D画像コンテンツの合成を前記3D表示装置に表示する、付記1に記載の方法。
(付記4)
前記視差情報が抽出されたもととなる前記3D画像コンテンツに関連付けて、前記視差情報、および前記3D画像コンテンツに関連したテキストを記憶するステップを更に含む、付記2に記載の方法。
(付記5)
各表示について、配置されたテキストを有する前記少なくとも一つの3D画像コンテンツの前記第1および第2の表示を処理するステップを更に含み、テキスト及び関連する3D画像コンテンツの合成を前記3D表示装置に表示する、付記4に記載の方法。
(付記6)
前記オフセット量が抽出されたもととなる前記3D画像コンテンツに関連付けて、前記オフセット量、および前記3D画像コンテンツに関連したテキストを記憶するステップを更に含む、付記2に記載の方法。
(付記7)
各表示について、配置されたテキストを有する前記少なくとも一つの3D画像コンテンツの前記第1および第2の表示を処理するステップを更に含み、テキスト及び関連する3D画像コンテンツの合成を前記3D表示装置に表示する、付記6に記載の方法。
(付記8)
前記視差情報は、視差値の集合(P)、視差範囲の集合(DX),視差値の交わり集合(IntD),視差値の和集合(UD)を備えた、付記2に記載の方法。
(付記9)
前記抽出するステップは更に、
前記3D画像コンテンツの第1および第2の表示における少なくとも一対の対応する特徴点を検出するステップと、
前記少なくとも一対の対応する特徴点に関する前記視差情報を抽出するステップと、
前記一対の対応する特徴点に関する前記抽出された視差情報を、先行する一対の対応する特徴点の抽出後に生じる既存の視差情報と比較し、前記既存の視差情報を更新するか否かを判断するステップと、 前記既存の視差情報を、現に抽出された視差情報の少なくとも一部により更新するステップを含み、更新が必要であると判断された場合、更新された視差情報は、前記既存の視差情報に置き換わる、付記8に記載の方法。
(付記10)
前記抽出するステップは更に、
前記少なくとも一つの3D画像コンテンツから得られた視差情報を既存の視差情報として保持するステップと、
少なくとも第2の3D画像コンテンツから視差情報を抽出するステップと、
前記少なくとも一つの3D画像コンテンツから得られた前記既存の視差情報を、前記少なくとも第2の3D画像コンテンツに関する前記抽出された視差情報の少なくとも一部により更新するステップを含み、更新が必要であると判断された場合、更新された視差情報は、前記既存の視差情報に置き換わる、付記2に記載の方法。
(付記11)
前記第1の表示におけるテキストの前記位置と、テキストが抽出されたもととなる前記3D画像コンテンツに関連付けられた前記第2の表示におけるテキストの位置と、前記3D画像コンテンツに関連したテキストを記憶するステップを更に含む、付記2に記載の方法。
(付記12)
前記抽出するステップは、現画像から抽出された視差情報と1つ以上の先行する画像から抽出された視差情報の合成に基づいて、前記視差情報を決定するステップを更に含む、付記8に記載の方法。
(付記13)
前記抽出するステップは、現画像から抽出された視差情報、1つ以上の先行する画像から抽出された視差情報、1つ以上の後続の画像から抽出された視差情報、および1つ以上の後続の画像から抽出された視差情報の合成に基づいて、前記視差情報を決定するステップを更に含む、付記8に記載の方法。
(付記14)
前記少なくとも一つの要件は、画像全体についての所定の視差値で前記テキストを配置するステップ、画像の選択された領域についての所定の視差値で前記テキストを配置するステップ、前記コンテンツを遮断することを回避し、連続する視差値についての変化量を少量に限定するために、前記テキストを配置するステップから成る群から選択される、付記2に記載の方法。
(付記15)
テキストを三次元(3D)画像コンテンツと合成する装置であって、結果として生じる画像は3D表示装置により表示可能であり、
前記装置は、
少なくとも一つの3D画像を含む前記3D画像コンテンツおよび前記少なくとも一つの3D画像と関連付けられたテキストの双方を受け取る手段であって、前記少なくとも一つの3D画像は、第1の表示および第2の表示を含む前記手段と、
前記少なくとも一つの3D画像から視差情報を抽出する手段と、
前記第1の表示におけるテキストのための位置を決定する手段と、
前記第2の表示におけるテキストのための位置を決定する手段と、を備え、
前記第2の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する3D画像の第1の表示における位置に対してオフセットされる、前記装置。
(付記16)
1つ以上の実行可能命令を記憶した機械可読媒体であって、該1つ以上の実行可能命令は、デジタル処理システムにより実行される場合は、前記デジタル処理システムに、テキストを三次元(3D)画像コンテンツと合成する方法を実行させ、結果として生じる画像は、3D表示装置により表示可能である、前記機械可読媒体において、前記方法は、
少なくとも一つの3D画像を含む前記3D画像コンテンツおよび前記少なくとも一つの3D画像と関連付けられたテキストの双方を受け取るステップであって、前記少なくとも一つの3D画像は、第1の表示および第2の表示を含む、前記ステップと、
前記少なくとも一つの3D画像から視差情報を抽出するステップと、
前記第1の表示におけるテキストのための位置を決定するステップと、
前記第2の表示におけるテキストのための位置を決定するステップと、を含み、
前記第2の表示における位置は、少なくとも部分的には、前記視差情報に基づいた量だけ、対応する3D画像の第1の表示における位置に対してオフセットされる、前記機械可読媒体。
図1
図2
図3
図4
図5