(58)【調査した分野】(Int.Cl.,DB名)
前記第一のナビゲーション命令を受け取る段階と第二のナビゲーション命令を受け取る段階の間の時間期間内にフレームが通過される際に前記ビデオ・コンテンツの少なくとも一つのフレームに動的にタグ付けする段階をさらに含む、請求項1記載の方法。
前記ビデオ・プロセッサは、前記ビデオ・コンテンツの前記少なくとも一つのタグ付けされたフレームに、前記ビデオ・コンテンツを記憶装置に記憶する前にタグ付けする、請求項11記載の装置。
前記ビデオ・プロセッサは、前記第一のナビゲーション命令と前記第二のナビゲーション命令の受け取りの間の時間期間内にフレームが通過される際に前記ビデオ・コンテンツの前記少なくとも一つのフレームに動的にタグ付けする、請求項11記載の装置。
前記コントローラがさらに、前記第一のナビゲーション命令を受け取る時刻から所定の時間、前方または後方に動かすことによって検索開始位置を決定し、前記検索開始位置の近傍内で少なくとも一つのタグ付けされたフレームを検索するよう構成されている、請求項19記載の装置。
【発明を実施するための形態】
【0010】
図面に示される要素はさまざまな形のハードウェア、ソフトウェアまたはそれらの組み合わせにおいて実装されうることを理解しておくべきである。好ましくは、これらの要素は、プロセッサ、メモリおよび入出力インターフェースを含みうる、一つまたは複数の適切にプログラムされた汎用デバイス上でのハードウェアおよびソフトウェアの組み合わせにおいて実装される。本稿において、「結合される」という表現は、直接接続されるまたは一つまたは複数の中間コンポーネントを通じて間接的に接続されることを意味するものと定義される。そのような中間コンポーネントはハードウェアおよびソフトウェア・ベースのコンポーネントを両方含んでいてもよい。
【0011】
本稿は本開示の原理を例解する。よって、当業者は、本稿に明示的に記載されたり示されたりしていなくても、本開示の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案できるであろうことは理解されるであろう。
【0012】
本稿に記載されるあらゆる例および条件付きの言辞は、読者が、本開示の原理および当該技術を進歩させる発明者によって寄与される概念を理解するのを支援するという教育目的のために意図されているのであって、そのような個別的に記載されている例および条件に限定することなく解釈されるものである。
【0013】
さらに、本開示の原理、側面および実施形態ならびにその個別的な例を記載する本稿におけるあらゆる陳述は、その構造的および機能的な等価物の両方を包含することが意図されている。さらに、そのような等価物は、現在知られている等価物および将来開発される等価物、すなわち構造にかかわりなく同じ機能を実行する任意の開発された要素の両方を含むことが意図されている。
【0014】
よって、たとえば、当業者は、本稿に呈示されるブロック図が本開示の原理を具現する例示的な回路の概念図を表すものであることを理解するであろう。同様に、フローチャート、流れ図、状態遷移図、擬似コードなどがあったとすると、それらはいずれも、コンピュータ可読媒体において実質的に表現され、コンピュータまたはプロセッサによって実行されうるさまざまなプロセスを表すことが理解されるであろう。これはそのようなコンピュータまたはプロセッサが明示的に示されているかどうかにはよらない。
【0015】
図面に示されるさまざまな要素の機能は、専用ハードウェアの使用を通じて提供されても、適切なソフトウェアとの関連でソフトウェアを実行することのできるハードウェアの使用を通じて提供されてもよい。プロセッサによって提供されるとき、機能は単一の専用プロセッサによって、単一の共有されるプロセッサによって、あるいは一部が共有されていてもよい複数の個別プロセッサによって提供されうる。さらに、用語「プロセッサ」または「コントローラ」の明示的な使用は、ソフトウェアを実行することのできるハードウェアのみを指すものと解釈されるべきではなく、暗黙的に、限定なしに、デジタル信号プロセッサ(「DSP」)ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ(「ROM」)、ランダム・アクセス・メモリ(「RAM」)および不揮発性記憶装置を含みうる。
【0016】
従来のものおよび/またはカスタムのものを含め他のハードウェアも含まれてもよい。同様に、図面に示されるスイッチがあったとしても、それは単に概念的なものである。その機能はプログラム論理の動作を通じて、専用論理を通じて、プログラム制御と専用論理の相互作用を通じて、あるいはさらに手動で実行されてもよい。特定の技法は、コンテキストからより個別に理解されるように実装者によって選択可能である。
【0017】
本願の請求項では、特定の機能を実行する手段として表現されたいかなる要素も、その機能を実行するいかなる仕方をも、たとえばa)その機能を実行する回路素子の組み合わせまたはb)任意の形の、したがってファームウェア、マイクロコードなどを含むソフトウェアを、当該機能を実行するためにそのソフトウェアを実行するための適切な回路と組み合わせたものを包含することが意図されている。そのような請求項によって定義される本開示は、前記さまざまな記載される手段によって提供される機能性が請求項が記載する仕方で組み合わされ、一緒にされるという事実にある。よって、これらの機能性を提供できる任意の手段が本願で示されている手段と等価であると見なされる。
【0018】
デジタル・ビデオ・コンテンツにおける最適な再生位置についての方法および装置が提供される。本開示は、優先順位付けされた仕方でコンテンツ中のシーンまたは有意な点にタグ付けする機構に関し、たとえば前方または後方の別のシーンにジャンプするようシーン・スキップ・ボタンを押すとき、あるいは早送り(FF)または巻き戻し(Rew)命令の入力後に再生を押すときに、コンテンツに関連付けられたこのタグ付けを利用して、再生のために適切な点における停止または開始を容易にする機構を定義する。
【0019】
ここで
図1に目を転じると、家庭またはエンドユーザーにビデオ・コンテンツを送達するシステム100のある実施形態のブロック図が示されている。コンテンツは、映画スタジオまたは制作会社のようなコンテンツ源102に由来する。コンテンツは二つの形のうちの少なくとも一つで供給されうる。一つの形はコンテンツの放送される形であってもよい。放送されるコンテンツは、放送アフィリエート・マネージャ104に提供される。放送アフィリエート・マネージャは典型的には、ABC(アメリカン・ブロードキャスティング・カンパニー)、NBC、CBSなどといった全国的な放送サービスである。放送アフィリエート・マネージャは、コンテンツを収集および記憶してもよく、送達ネットワーク1(106)として図示される送達ネットワークを通じたコンテンツの送達をスケジューリングしてもよい。送達ネットワーク1(106)は、全国的なセンターから一つまたは複数の地域またはローカルのセンターへの衛星リンク送信を含んでいてもよい。送達ネットワーク1(106)はまた、空中(over the air)放送、衛星放送またはケーブル放送といったローカルな送達システムを使ったローカルなコンテンツ送達を含んでいてもよい。ローカルに送達されるコンテンツは、ユーザーの家庭にあるユーザーのセットトップボックス/デジタル・ビデオ・レコーダー(DVR)108に与えられる。
【0020】
第二の形のコンテンツは、特殊コンテンツと称される。特殊コンテンツは、プレミアム試聴、ペイパービューまたは普通なら放送アフィリエート・マネージャに提供されない他のコンテンツとして送達されるコンテンツを含んでいてもよい。多くの場合、特殊コンテンツは、ユーザーによって要求されたコンテンツであってもよい。特殊コンテンツはコンテンツ・マネージャ110に送達されてもよい。コンテンツ・マネージャ110は、コンテンツ・プロバイダー、放送サービスまたは送達ネットワーク・サービスなどと提携した、インターネット・ウェブサイトのようなサービス・プロバイダーであってもよい。コンテンツ・マネージャ110は、インターネット・コンテンツを送達システム中に組み込んでもよい。コンテンツ・マネージャ110はコンテンツを、別個の送達ネットワークである送達ネットワーク2(112)を通じてユーザーのセットトップボックス/デジタル・ビデオ・レコーダー108に送達してもよい。送達ネットワーク2(112)は高速ブロードバンド・インターネット型の通信システムを含んでいてもよい。放送アフィリエート・マネージャ104からのコンテンツが送達ネットワーク2(112)の全部または一部を使って送達されてもよく、コンテンツ・マネージャ110からのコンテンツが送達ネットワーク1(106)の全部または一部を使って送達されてもよいことを注意しておくことが重要である。さらに、ユーザーは、必ずしもコンテンツをコンテンツ・マネージャ110によって管理してもらうことなく、送達ネットワーク2(112)を介してインターネットから直接コンテンツを取得してもよい。
【0021】
セットトップボックス/デジタル・ビデオ・レコーダー108は、送達ネットワーク1および送達ネットワーク2の一方または両方から種々の型のコンテンツを受信してもよい。セットトップボックス/デジタル・ビデオ・レコーダー108はコンテンツを処理し、ユーザー選好およびコマンドに基づいて該コンテンツの分離を提供する。セットトップボックス/デジタル・ビデオ・レコーダーはまた、オーディオおよびビデオ・コンテンツを記録および再生するためのハードドライブまたは光ディスクドライブのような記憶装置を含んでいてもよい。セットトップボックス/デジタル・ビデオ・レコーダー108の動作のさらなる詳細および記憶されたコンテンツの再生に関する機能は下記で
図2との関連で述べる。処理されたコンテンツは表示装置114に提供される。表示装置114は通常の2D型のディスプレイであってもよいし、あるいはまた、高度な3Dディスプレイであってもよい。
【0022】
ここで
図2に目を転じると、セットトップボックス/デジタル・ビデオ・レコーダー200のある実施形態のブロック図が示されている。示された装置200は、表示装置114自身を含め他のシステム中に組み込まれてもよい。いずれの場合でも、システムの完全な動作に必要ないくつかのコンポーネントは、当業者にはよく知られているので、簡潔のため図示していない。
【0023】
図2に示した装置200では、コンテンツは入力信号受信器202において受信される。入力信号受信器202は、空中、ケーブル、衛星、イーサネット(登録商標)、ファイバーおよび電話線ネットワークを含むいくつかの可能なネットワークの一つを通じて与えられる信号を受信し、復調し、復号するために使われるいくつかの既知の受信器回路の一つであってもよい。入力信号受信器202において、制御インターフェース(図示せず)を通じて与えられるユーザー入力に基づいて所望される入力信号が選択され、取得される。復号された出力信号は入力ストリーム・プロセッサ204に与えられる。入力ストリーム・プロセッサ204は、最終的な信号選択および処理を実行し、当該コンテンツ・ストリームについてのオーディオ・コンテンツからのビデオ・コンテンツの分離を含む。オーディオ・コンテンツは、圧縮デジタル信号のような受信されたフォーマットからアナログ波形信号への変換のためにオーディオ・プロセッサ206に与えられる。アナログ波形信号はオーディオ・インターフェース208に、さらに表示装置114またはオーディオ増幅器(図示せず)に与えられる。あるいはまた、オーディオ・インターフェース208は、HDMI(High-Definition Multimedia Interface[高精細度マルチメディア・インターフェース])ケーブルまたはSPDIF(Sony/Philips Digital Interconnect Format[ソニー/フィリップス・デジタル相互接続フォーマット])のような代替的なオーディオ・インターフェースを使ってデジタル信号をオーディオ出力装置または表示装置に与えてもよい。オーディオ・プロセッサ206は、オーディオ信号の記憶のための必要な変換があれば実行する。
【0024】
入力ストリーム・プロセッサ204からのビデオ出力は、ビデオ・プロセッサ210に与えられる。ビデオ信号はいくつかのフォーマットのうちの一つであってもよい。ビデオ・プロセッサ210は、入力信号フォーマットに基づいて、必要に応じて、ビデオ・コンテンツの変換を提供する。ビデオ・プロセッサ210はビデオ信号の記憶のために必要な変換があれば実行する。
【0025】
記憶装置212は入力において受信されるオーディオおよびビデオ・コンテンツを記憶する。記憶装置212は、コントローラ214の制御のもとで、かつユーザー・インターフェース216から受領されるコマンド、たとえば早送り(FF)および巻き戻し(Rew)のようなナビゲーション命令に基づいて、コンテンツののちの取得および再生を許容する。記憶装置212はハードディスクドライブ、静的ランダム・アクセス・メモリまたはダイナミック・ランダム・アクセス・メモリのような一つまたは複数の大容量集積(integrated)電子メモリであってもよいし、あるいはコンパクト・ディスク・ドライブまたはデジタル・ビデオ・ディスク・ドライブのような交換可能な光ディスク記憶システムであってもよい。
【0026】
入力が起源であるにせよ記憶装置212が起源であるにせよビデオ・プロセッサ210からの変換されたビデオ信号はディスプレイ・インターフェース218に与えられる。ディスプレイ・インターフェース218はさらに、上記の型の表示装置に表示信号を与える。ディスプレイ・インターフェース218は、赤緑青(RGB)のようなアナログ信号インターフェースであってもよいし、あるいは高精細度マルチメディア・インターフェース(HDMI)のようなデジタル・インターフェースであってもよい。
【0027】
コントローラ214は、入力ストリーム・プロセッサ202、オーディオ・プロセッサ206、ビデオ・プロセッサ210、記憶装置212およびユーザー・インターフェース216を含む装置200のコンポーネントのいくつかにバスを介して相互接続される。コントローラ214は、入力ストリーム信号を記憶装置上での記憶のためまたは表示のための信号に変換するための変換プロセスを管理する。コントローラ214はまた、記憶されたコンテンツの取得および再生をも管理する。コントローラ214はさらに、コントローラ214のための情報および命令コードを記憶するための制御メモリ220(たとえば、ランダム・アクセス・メモリ、静的RAM、ダイナミックRAM、読み出し専用メモリ、プログラム可能型ROM、フラッシュメモリ、EPROM、EEPROMなどを含む揮発性または不揮発性メモリ)に結合されている。さらに、メモリの実装は、単一メモリ・デバイスまたは一緒に接続されて、共有されるもしくは共通のメモリをなす二つ以上のメモリ回路のようないくつかの可能な実施形態を含んでいてもよい。さらに、メモリは、より大きな回路内で、バス通信回路の諸部分のような他の回路と一緒に含められてもよい。
【0028】
ビデオ記録装置における早送り(FF)および巻き戻し(Rew)機能を制御する方法について以下で述べる。アルゴリズムまたは関数の物理的な実装は、ビデオ・プロセッサ210に関係する離散回路のようなハードウェアまたは制御メモリ220に存在し、コントローラ214によって読まれ実行されるソフトウェアのようなソフトウェアにおいて行われてもよい。本方法は、コンテンツを解析して、シーンの開始または他の重要な参照点を表しうるコンテンツ内の重要な点を認識し、タグ付けすることを含む。次いで、いくつかの状況のもとでは、装置200は、いくつかの基準に基づいてジャンプすべき正しい位置を自動的に決定することができる。解析は、放送に先立って、装置への摂取に際して、または再生時に行われてもよい。ただし、好ましい実施形態は、装置への摂取時またはコンテンツがディスクに書き込まれるときであろう。
【0029】
本開示の一つの実際的な例は、ユーザーにとって、コマーシャル(または広告)休みを通じて早送りしたあと再生を押すときに正しい点で簡単に始めること、あるいは前のコマーシャル休みの終わりまで簡単に巻き戻すことを簡単にするというものである。この場合、正しい開始点または再生位置は、FFまたはRewの速度を見ることによって決定される。再生ボタンが押されたとき、コントローラ214は最近通過された「タグ付けされた」諸位置を調べ、何らかのシーン・タグが最近通過されたかどうかやその優先度について判定し、事実上、再生を開始する有効な点を表す以前にまたは動的に認識されたシーン遷移点への近接を判定する。「黒参照フレーム(Black Reference Frame)」の場合、これは有意なマーカーを表していることができ(コマーシャル休みの始まりと終わりに通常、黒参照フレームが使われるので)、FFまたはREWにおいて黒参照フレームが最近通過されたとしたら、それが開始点として使われる。あるいはまた、規則的な間隔から外れた参照フレームも、シーンの始まりを表すことがありうるので、それほど有意ではないトリガー点としてタグ付けされることもできる。
【0030】
タグを求めてコンテンツを検索する領域を決定するために、FF/Rew機能のスピードは、ユーザー反応時間と一緒に考慮される必要がある。FF/Rewスピードが速いと、ユーザーは、再生を開始したいところを見る間にいくつかの参照点を通過してしまったことがあり、再生はそのうちの適切な参照点から始まる必要がある。より遅いスピードでは、通過した最後の参照点が適切な開始点である可能性が高い。
【0031】
本開示の方法および装置は、コンテンツにタグを関連付けさせ、コンテンツが再生されるとき、判断のもとになる情報が利用可能になるようにすることに基づく。このタグ情報は、三つの主要な動作モードの一つで得ることができる。第一に、コンテンツは放送アフィリエート・マネージャ104またはコンテンツ・マネージャ110のヘッドエンドにおいて事前解析され、メタデータが一緒に放送されることができる。これは、タグ付けデータを、トランスポート・ストリーム中のSIデータの一部として入れ、タグ付けデータをコンテンツと一緒に送り、DVRまたは装置200の作業がないようにすることによって実現できる。第二に、コンテンツは装置200に流れ込む際に、またはディスクに書き込まれるときに解析され、タグ付けされることができる。第三に、コンテンツは、再生に際しておよび/またはトリック・モード動作中に動的に解析され、参照点が動的に生成されることができる。たとえば、ユーザーが早送りまたは巻き戻しする際、装置は実際にはいずれかの方向にコンテンツが通過していく際に何らかのフレーム解析を行っているのである。各タグ付けモードについて、これからさらに述べる。
【0032】
ビデオ・コンテンツのフレームにタグ付けする第一のモードでは、タグ付けは、コンテンツが送達ネットワークを通じて送信される前にヘッドエンドにおいて実行される。放送局は、歳入喪失の可能性のため(特に、コマーシャルをスキップする可能性に関するので)、コンテンツのタグ付けを支持する可能性が低い。しかしながら、この機能を実際にエンコーダ自身において備えるという概念は、シーン検出ができることには他の可能性も含意されるので、他の機会を呈する。ストリーム自身にシーン・タグ付けが存在していた場合、いくつかの可能性が出てくる。たとえば、優先されるコマーシャルに、スキップできないことを示すタグ付けをするといったことが含まれる。典型的な実施形態では、ヘッドエンドは重要ではないことがある。装置200はデジタル地上波チューナーをもつ可能性が高く、他の任意のDVRと同様に、装置200は、オンザフライで該装置が処理しているコンテンツを供給される。しかしながら、ある代替的な実施形態では、ヘッドエンドは、ストリーミングされた前もって準備されたコンテンツを受信するために使われてもよい。この場合、同様の解決策を使って、フィルム内の何らかの高度なシーン検出をもつことが有利でありうる。たとえば、放送局は、大きな最大Iフレーム間隔をもつ非常に長いGOP(group of pictures[ピクチャー・グループ])をもつコンテンツをもつことを望むことがある。この場合、ヘッドエンドでタグ付けを済ませておくことは貴重である場合があり、コンテンツを通じた再生および検索を容易にすることがある。
【0033】
ビデオ・コンテンツのフレームにタグ付けする第二のモードでは、タグ付けは、ビデオ・プロセッサ210によるセットトップボックス200への摂取の間に、すなわちコンテンツが受信されるおよび/またはディスク、ハードドライブまたは他のメモリ・デバイスに書き込まれるところで、行われる。コンテンツが装置中に摂取されつつあるおよび/または処理されディスクに書き込まれつつあるある点は、コンテンツを解析し、タグ付けを提供する最適な点である可能性が高い。処理のレベルは要件に依存して変わり、単に間隔が規則的でないIフレームおよび「黒」Iフレームにタグ付けするという単純なものであってもよいし、より洗練されたシーン検出を含んでいてもよい。どのくらいの追加的ディスク・スペースを使用できるか、またどのくらいの追加情報が記憶されるべきかについての考察がある。ある実施形態では、諸シーンが検出されるとき、コンテンツのグラフィック・ベースのブラウズを許容するために、シーンを開始するフレームの諸サムネイルも取り込まれてもよい。
【0034】
フレームにタグ付けする第三のモードは、リアルタイムでコンテンツにタグ付けすることを含む。コンテンツがあらかじめタグ付けされていない場合、ビデオ・プロセッサ210はシーン解析を実行できる。ここで、シーン解析は、早送りまたは巻き戻しイベントの間にオンザフライで行われることができる。ユーザーが早送りまたは巻き戻しを行う場合、ビデオ・プロセッサ210は本質的にはオンザフライでタグ付けを行い、どこに適切なシーン点があるかについてのカウンタを維持する。ユーザーが再生を押すとき、下記で記載されるアルゴリズムまたは機能が適用されて、適切なタグ位置にジャンプする。
【0035】
すべての場合において、コンテンツのタグ付けは、ユーザーにとって完全に不可視な自動化された解決策として実装される。ただし、どのくらいの情報がタグ付けされるか、そうしたタグを決定するために何が使われるか、それらのタグがどのように使われるかにおいては、かなりの変動がある可能性がある。ある実施形態では、タグは、ファイル中のキーとなる遷移点を定義する非常に少量のデータをなしていてもよい。たとえば、6回のコマーシャル休みがあった二時間番組について、それらのコマーシャル休みの始まりと終わりが、黒参照フレームがあるシーン変化を解析することによって定義されることができる。
【0036】
ビデオ・コンテンツにおいてタグ点を検出するプロセスについてこれから述べる。ビデオを圧縮するプロセスにおいて、Iフレームは典型的には0.5秒または1秒毎に挿入され、シーン変化を表す若干数の散発的なIフレームがある。シーン変化に加えてIフレームは典型的には規則的な間隔で離間しているので、一つの困難は、規則的な間隔のIフレームでシーンが変わることもあり、それは新たなシーンとして識別するのが難しくなるということである。コンテンツの実際の最大Iフレーム間隔を計算するのは比較的簡単である。短い履歴を通して見ていけば少なくともNフレーム毎のIフレームが明らかになる。たとえばコンテンツの最大GOPサイズが0.5秒だとすると、50秒毎に最低でも100個のIフレームがあることになる。しかしながら、シーン変化についての追加的なIフレームのため、50秒の期間当たりにたとえば110個のIフレームがあることがある。これから、間隔はほぼXであるまたはほぼ0.5秒であると推定することができるが、さらに、シーン変化を表す追加的なIフレームがある。
【0037】
タグ付けするための適切なフレームを検出する実際の方法論は当業者には比較的よく知られている。たとえば、ある既知の手法では、動画ビデオ・コンテンツ・データは一般に一連のスチール画像として取り込まれ、記憶され、伝送され、処理され、出力される。その出力が十分短い時間間隔で視聴者に向けられるとき、フレーム毎のデータ内容の小さな変化が動きとして知覚される。二つの隣接するフレーム間の大きなデータ内容の変化は、シーン変化(たとえば屋内から屋外のシーンへの変化、カメラ・アングルの変化、画像内での照度の急激な変化など)として知覚される。
【0038】
エンコードおよび圧縮プロセスは、ビデオ・データ・コンテンツを記憶し、伝送し、処理するために必要なデータの量を減らすために、フレーム毎のビデオ・コンテンツ・データの小さな変化を利用する。変化を記述するために必要とされるデータ量は、もとのスチール画像を記述するために必要とされるデータ量より少ない。たとえば動画像専門家グループ(MPEG: Moving Pictures Experts Group)によって開発された諸規格のもとでは、フレームのグループは、イントラ符号化されたフレーム(Iフレーム)で始まる。Iフレームでは、エンコードされたビデオ・コンテンツ・データは、もとのスチール画像の視覚的属性(たとえばルミナンス、クロミナンス)に対応する。予測符号化されたフレーム(Pフレーム)および双方向符号化されたフレーム(Bフレーム)のような該フレームのグループ内のその後のフレームは、グループ内のより早いフレームからの変化に基づいてエンコードされる。新しいフレーム・グループ、よって新しいIフレームが規則的な時間間隔で始められ、たとえば誤ったビデオ・コンテンツ・データ変化を誘導することからのノイズを防止する。新しいフレーム・グループ、よって新しいIフレームは、ビデオ・コンテンツ・データ変化が大きいときのシーン変化でも始められる。これは、隣り合うスチール画像の間の大きな変化を記述するよりも、新しいスチール画像を記述するほうが必要とされるデータが少ないからである。換言すれば、異なるシーンからの二つの画像は、両者の間にほとんど相関がない。新しいピクチャをIフレームに圧縮するほうが、一方のピクチャを使って他方のピクチャを予測するより効率的である。したがって、コンテンツ・データ・エンコードの際には、隣り合うビデオ・コンテンツ・データ・フレーム間でシーン変化を識別することが重要である。
【0039】
本開示の方法および装置は、絶対ヒストグラム差分和(SAHD: Sum of Absolute Histogram Difference)および絶対ディスプレイ・フレーム差分和(SADFD: Sum of Absolute Display Frame Difference)を使ってシーン変化を検出しうる。そのような方法は、同じシーン内の時間的情報を使って変動をならし、シーン変化を正確に検出する。これらの方法は、リアルタイム(たとえばリアルタイム・ビデオ圧縮)および非リアルタイム(たとえば映画のポストプロダクション)両方の用途のために使用できる。
【0040】
本開示のもう一つの実施形態では、タグのいくつかのレベルがある。すなわち、タグは重みまたは優先度を割り当てられる。この実施形態では、コンテンツ内の検索ゾーンが影響のより多くの部分をもつ。レベルはたとえば次のようなものであってもよい。
黒参照フレーム(最高優先度)
1)規則的でない参照フレーム(二次的な優先度だがシーン変化を表す)
2)その他(任意的)。
【0041】
典型的には、記憶されたコンテンツを再生するとき、再生は参照フレームから始まる。ただし、タグ付けは、ユーザーがどのフレームから開始することを望んでいる可能性が最も高いかのよりよい推定を許容する。優先度1のフレームが一次または二次検索ゾーン内に見出される場合、再生はここで始まる。優先度1のフレームが一次ゾーン内に見出される場合、それ以上の検索は行われない。優先度1のタグ付けされたフレームが一次ゾーンまたは二次ゾーンにない場合には、中心に最も近い第二の優先度のタグが開始位置として選択される。優先度2のタグと同様の三次優先度のような考慮する必要のある「その他」タグがあることもある。ただし、これらがいずれもない場合には、一次検索ゾーンの中心に最も近い参照フレームが開始位置として選択されることになる。
【0042】
タグまたはタグ付けされたフレームを使ってビデオ・コンテンツを再生するプロセスについてこれから述べる。ある実施形態では、あらかじめタグ付けされたコンテンツでのビデオ再生の場合、タグ付けされている、ディスクまたは記憶装置212上のコンテンツ・ファイル、またはタグ付け情報を含むコンテンツ・ファイルに関連付けられた別個のファイルがあるとする。タグ付け情報は、ビデオ・コンテンツ・ファイル内で概括的にシーン点を示し、特に、それらのマーカーが参照点としてどのくらい重要かについて重み付けされたタグをもつ。定義された「ルックアップ点」、規則的な間隔のIフレーム(参照フレーム)、間隔から外れたIフレーム(新しいシーンを表す)およびブランクのIフレームといったいくつかの可能なタグ種別がある。ブランク(黒)Iフレームはほとんどデータを含まないので非常に低いデータレートをもち、一般にたとえば、コマーシャル休みとコマーシャル休みの間に、コマーシャルからシーンの先頭への遷移を示して、またはシーンとシーンの間に挿入される。
【0043】
図3に示されるフローチャートは、コンテンツの放送に先立って、またはコンテンツがDVR装置200に摂取されるかディスクに書き込まれるかしたときに、コンテンツがあらかじめタグ付けされるときの環境においてコンテンツを再生するプロセスの流れを表す。その情報が、ハードドライブディスクのようなディスクから読み取られる場合(ステップ302)、通常の再生が試聴のための速度で行われる(304)通常の再生の間、ユーザーはユーザー・インターフェース216を介してナビゲーション命令、たとえばコンテンツを早送りまたは巻き戻しする命令を入力してもよい(ステップ306)。ナビゲーション命令、たとえば早送り(FF)、巻き戻し(Rew)、シーン・スキップなどがユーザーに、試聴のための通常の再生速度より速い速度でビデオ・コンテンツをナビゲートさせることを理解しておくべきである。
【0044】
ユーザーが早送りまたは巻き戻しを入力すると、ユーザーが再び再生を押すまで、すなわちその後のナビゲーション命令まで、追加的な処理は行われない。早送りまたは巻き戻し後にひとたびユーザーが再生を押すと(ステップ308)、コントローラ214はタグ付けされた情報を調べ、ユーザーが再生を押した位置の適切な範囲内でどんなタグが生起したかを判別する(ステップ310)。次いで、コントローラ214は、タグ重みおよびFF/Rew速度に基づいて、再生を開始するためにどこにジャンプすべきかの決定を行う(ステップ312)。ひとたび再生位置が決定されたら、ビデオ・プロセッサ210はその点まで再生ヘッドをシークし、選択されたタグ付けされたフレームからビデオ再生を開始する(ステップ314)。
【0045】
図4に示される代替的な実施形態では、再生プロセス自身がコンテンツに効果的に動的にタグ付けするために使われることができる。上記のように、最初に、ステップ402において、コンテンツがディスクから読まれ、通常の再生が行われる(ステップ404)。ユーザーがFF/Rewを実行するとき、すなわちナビゲーション命令を入力するとき(ステップ406)、ビデオ・プロセッサ210は動的なまたは「オンザフライの」フレーム・タグ付けを適用する(ステップ408)。すなわち、装置は、FF/Rewプロセスの間に通過したブランクのシーン、参照フレームなどを検出する。これらのタグは、のちの使用のためにコンテンツと一緒に記憶されてもされなくてもよい。
【0046】
早送りまたは巻き戻し後にひとたびユーザーが再生を押すと(ステップ410)、装置200は上記のように進行する。コントローラ214は、タグ重みおよびFF/Rew速度に基づいて、再生を開始するためにどこにジャンプすべきかの決定を行う(ステップ412)。ひとたび再生位置が決定されたら、ビデオ・プロセッサ210はその点まで再生ヘッドをシークし、選択されたタグ付けされたフレームからビデオ再生を開始する(ステップ414)。
【0047】
コンテンツを通じた早送りまたは巻き戻しのプロセスをサポートすることに加えて、タグ付けは、ユーザーがボタン一押しで「シーンからシーンへ」スキップしたり、あるいは(あらかじめ定義された基本時間期間をもつ)より大量のコンテンツをスキップしたりできる、よりよいまたは異なる体験を提供するためにも使用できる。それでも、再生は、タグにおいて定義されているシーン境界で始まる。このプロセスは
図5に示されている。
【0048】
図5を参照するに、ビデオがディスクから読まれ(ステップ502)、試聴のための速度で通常の再生が行われる(ステップ504)。ステップ506でユーザーが「シーン・スキップ」機能を要求すると、すなわちナビゲーション命令を入力すると、コントローラ214はあらかじめ定義された「シーン定義」設定に従って「シーン検索」位置を設定する(ステップ508)、すなわち、シーン検索を開始するために固定量の時間だけ前方または後方にジャンプする。次に、ステップ510において、コントローラ214は「シーン検索」開始点の近傍内でタグ付けされたフレームのためのタグ情報を調べる。次いで、コントローラ214は、選択領域内のタグ重みに基づいて、再生を開始するためにどこにジャンプすべきかの決定を行う(ステップ512)。ひとたび再生位置が決定されたら、ビデオ・プロセッサ210はその点まで再生ヘッドをシークし、選択されたタグ付けされたフレームからビデオ再生を開始する(ステップ514)。
【0049】
タグ付けされたコンテンツに関してシーン・スキップを実行できることに加えて、装置200は、
図6に示されるように、あらかじめタグ付けされていないコンテンツに関して動的にシーン・スキップを実行することもできる。上記のように、ビデオがディスクから読まれ(ステップ602)、試聴のための速度で通常の再生が行われる(ステップ604)。ステップ606でユーザーが「シーン・スキップ」機能を要求すると、コントローラ214はあらかじめ定義された「シーン定義」設定に従って「シーン検索」位置を設定する(ステップ608)、すなわち、シーン検索を開始するために固定量の時間だけ前方または後方にジャンプする。次に、ステップ510において、コントローラ214は「シーン検索」開始点の近傍内でタグ付けされたフレームのためのタグ情報を調べる。ビデオ・プロセッサ210は、動的なまたは「オンザフライの」フレーム・タグ付けを適用する(ステップ610)。すなわち、ビデオ・プロセッサ210は、シーン・スキップ・プロセスの間に通過したブランクのシーン、参照フレームなどを検出する。これらの検出フレームまたは参照点がタグ付けされる。これらのタグは、のちの使用のためにコンテンツと一緒に記憶されてもされなくてもよい。次いで、コントローラ214は、選択領域内のタグ重みに基づいて、再生を開始するためにどこにジャンプすべきかの決定を行う(ステップ612)。ひとたび再生位置が決定されたら、ビデオ・プロセッサ210はその点まで再生ヘッドをシークし、選択されたタグ付けされたフレームからビデオ再生を開始する(ステップ614)。
【0050】
ユーザーが再生を押したあとにいかにして適切な再生位置を決定するかの機能についてここで述べる。再生を開始するべき適切な位置を決定するために、コントローラ214はいくつかの因子の一つに基づいて開始点を設定し、次いでその参照点からいずれかの方向に検索する期間またはゾーンを指定する。コントローラ214は、どんなタグがその範囲内にはいっているかを調べるために探索し、アルゴリズムまたは関数を適用して、再生のための最も適切な開始点を決定する。
【0051】
開始点位置は何らかの形の参照フレームである可能性が高いが、代替的なあらかじめ定義されたタイムスタンプをキーにして出発することも可能である。これは参照フレーム以外であってもよい。実際、タグ付け機構の一部として、これがIフレーム以外、たとえばBフレームであると言うのは易しいが、最後の四つのフレームから簡単に構築可能なのはBフレームである。再生のための開始位置がここであれば、タグは、デバイスが数フレーム戻って、この非参照フレームを構築し、そう扱うために必要とされる全ビデオ・データを取得できるようにするデータ(または該データへの参照)を含むことができる。この場合、タグは、必要とされるデータをゼロからオンザフライで計算しなければならないのではなく、必要とされるデータを得るのをより迅速かつ簡単にするために必要とされるオフセット情報を含むであろう。
【0052】
もう一つの実施形態では、ビデオ圧縮の結果としてたとえば10秒の非常に長いGOPを生じた場合、本開示は、本装置および方法がそのようなビデオで実際に早送りおよび巻き戻しをサポートできるようどこかほかのところから参照フレームを取得する機構を提供する。それは、そのようなビデオを外部データで増強し、追加的なフレームをインターネットまたは他の何らかの媒体および/または源から動的に取得することによる。この例では、ストリームは最小限の参照フレームをもち、完全な諸フレームを構築するために必要とされるIフレームの残りおよび介在するデータの別の源がある。
【0053】
DVRは典型的には、トリック・モード再生の際にDVRがIフレームからIフレームにジャンプするまたはどの参照フレームが表示されるべきかを決定するアルゴリズムまたは関数を用いる。本開示は、この基本的な発想に基づいて拡張し、単にIフレームを参照するのではなく、DVRが停止しうる複数の可能な点がある。それらの点は名目上、シーンと定義される。タグは再生を開始する可能な点を定義するが、これらのタグを検索すべきコンテンツ内の時間区間を決定し、どのタグがそのコンテンツ内の最適な開始点を表すかを決定するためにアルゴリズムまたは関数が適用される。
【0054】
この実装では、何らかの再生位置検索のための開始位置および終了位置は、ユーザーが早送り/巻き戻しを開始した、すなわち第一のナビゲーション命令を入力したコンテンツ・ファイル内の位置と、ユーザーが再生を押した、すなわち第二のナビゲーション命令を入力したところとが境界となる。これらの境界の外側では検索は行われない。タグ検索の開始位置を決定するために、コントローラ214は、
図7に示されるように、(検索エリアの中心における)「検索位置」と、タグを検索すべきエリア(またはゾーン)のサイズとの両方を計算する。
【0055】
ユーザーがFFまたはRew実行中に再生ボタンを押すとき、検索開始位置は次の基準に基づいてファイル内で定義される:1)ユーザーがFF/Rewを行っている速度および2)ユーザーに割り当てられた名目反応時間。ユーザーの反応時間は初期に2〜5秒に設定されてもよく、実際のありそうな反応時間に関してはユーザー入力および/または装置200の経験に従って修正されることができる。これについて下記で詳述する。
【0056】
例を挙げると、ユーザーはリアル・スピードの30倍でFFし、ファイル中で43分10秒(43:10)のところで再生を押す。ユーザーが4秒の反応時間を割り当てられているとする。これは、検索のための中心位置702が、ユーザーが再生を押した位置より4×30秒(すなわち2分)前であるということを意味する(すなわち41:10)。したがって、タグ付けされたフレームの検索は、この位置から始まり、一次検索ゾーン704は中心点702の各側にこの距離の固定割合である。この割合が50%であるとすると、タグ検索ゾーンは中心点の各側1分、すなわちファイル中の40:10から42:10までの間となる。この範囲内に何らかの優先度タグ付けされたフレームが見つかったら、ヒットが登録され、ビデオ再生は、最高優先度をもつタグ付けされたフレームから始まる。二つ以上の一致がみつかり、タグ優先度の重みが同じ場合には、再生は、中心位置702に最も近い点から始まる。何らかの一致がなされた場合、ユーザーの反応時間が測定されてもよく、可能性として、将来の検索のための期待される応答時間を変更するために使われてもよい。
【0057】
一致がみつからない場合、二次ゾーン706も検索される。これはたとえば、ユーザーが再生を押した位置から中心点702までの距離の100%であってもよい。この検索においてキーとなるタグがみつかった場合、これはユーザーの反応が異常であったことを示すことがありえ、キーとなるフレームがこのエリアに存在する場合、そのフレームはやはり開始位置として選択されることができる。
【0058】
最後の学習検索ゾーン708は中心点702から再生位置まで延び、中心点から200%戻る。これは、最初の二つのゾーンのいずれにおいてもキーとなるフレームがみつからなかった場合にのみ検索される。キーとなるタグ付けされたフレームがここでみつかった場合には、遅延が記録されることができ、これが恒常的な振る舞いである場合には、ユーザーの反応時間が調整されてもよい。キーとなるフレームが一次ゾーンにはいることがもっと多くなることを保証するためである。中心点からの距離の割合は単に例示的なものであり、ユーザー・プロファイリングを通じて決定するほうがよいことを注意しておく。さらに、割合に関わらず、検索は、先述したように、検索の端の境界内で行われる。
ある実施形態では、前記第一の検索領域(704)および前記第二の検索領域(706)内にタグ付けされたフレームがない場合:
前記第二の検索領域(706)より大きな第三の検索領域(708)を選択する段階と;
前記第三の検索領域(708)内に前記少なくとも一つのタグ付けされたフレームを判別する際、前記ユーザーに割り当てられた前記反応時間を調整する段階と;
前記第一の検索領域の長さを増大させる段階とが実行されてもよい。
【0059】
ユーザーの反応時間を決定するために、装置200は自動化された機構と手動機構の両方を用いる。これは、ユーザーに自分の反応時間を定義および/または試験させるユーザー選好を含んでいてもよい。典型的な反応時間はたとえば2秒であり、よってユーザーがコンテンツを通じて早送りする際、ユーザーが再生を開始したい点を見るときから、ユーザーが再生ボタンを押すまでにある時間がかかる。ユーザーの反応時間が2秒であり、通常再生の30倍で早送りしている例では、ユーザーが再生を押す契機となったものからユーザーが実際に再生を押すまでの間に、1分ぶんのビデオが通過する。FFレートがたとえば通常再生のたった2倍だとすると、この時間内に通過するビデオはたった4秒である。ユーザーの反応時間はきわめて変動しやすく、遅い反応時間は約5秒、速い反応時間はおそらく0.5秒である。
【0060】
装置200は、ユーザーの反応時間が速いか否かを判定する。おおまかな規則として、試験に基づいて平均ユーザー応答を設定するためにデフォルト値が使われる。さらに、装置200は、ユーザーが自分の反応時間を構成設定するおよび/または動的に計算させるためのユーザー・インターフェースを提供してもよい。装置が平均的なユーザーのデフォルト時間、たとえば2秒を定義するとすると、その後装置は、ユーザーが実際にどのように反応するかの記録を時間とともに蓄積することができる。これはたとえば、ユーザーが再生を押すときから通例長い距離内に一貫して見出される高優先度の「ブランク・フレーム」タグがあるかどうかの試験に基づく。応答時間は、装置200上のユーザー・ベースのシステムに接続されていてもよく、それによりシステムの複数のユーザーについて別個のプロファイリングが実施されてもよい。
【0061】
手動反応時間は、表示装置114上に表示される伝統的なスライダーを使って設定されてもよい。別のオプションは、たとえば、ランダムな順序で一連の画像を見せて、ユーザーに特定の画像(たとえば犬の写真など)を見たときにボタンを押すよう求め、画像が表示されたときからユーザーが再生を押したときまでの間の時間を測定することによってユーザーの反応速度を決定する機構である。よりよい精度を得るために試験は複数回繰り返されてもよいし、ユーザー固有であってもよい(すなわち、システムは、試験の観点からと装置使用のための両方で、ユーザーが個々に自分を識別することを許容してもよい)。
【0062】
本開示の教示を組み込む諸実施形態が本稿で詳細に示され、説明されてきたが、当業者は、これらの教示を組み込んでいるままで他の多くの変形した実施形態を容易に考案することができる。デジタル・コンテンツにおける最適な再生位置決めのための方法および装置の好ましい実施形態(これらは限定するものではなく例解するものであることが意図されている)を記載してきたが、上記の教示に照らして当業者は修正や変更をなすことができることを注意しておく。したがって、付属の請求項に記載される開示の範囲内で開示された開示の特定の実施形態に変更をなしうることを理解しておくべきである。
【0063】
いくつかの付記を記載しておく。
〔付記1〕
複数のフレームを含むビデオ・コンテンツにおける最適な再生位置を決定する方法であって:
試聴のための再生速度でビデオ・コンテンツを表示する段階と;
前記ビデオ・コンテンツを前記試聴のための再生速度より速い速度でナビゲートする第一のナビゲーション命令を受け取る段階と;
前記試聴のための再生速度での前記ビデオ・コンテンツの再生を再開する第二のナビゲーション命令を受け取る段階と;
前記ビデオ・コンテンツの少なくとも一つのタグ付けされたフレームに基づいて、前記第二のナビゲーション命令に応答して前記ビデオ・コンテンツの再生位置を決定する段階とを含む、
方法。
〔付記2〕
前記ビデオ・コンテンツの前記少なくとも一つのタグ付けされたフレームが、前記表示する段階より前にタグ付けされる、付記1記載の方法。
〔付記3〕
前記第一のナビゲーション命令を受け取る段階と第二のナビゲーション命令を受け取る段階の間の時間期間内にフレームが通過される際に前記ビデオ・コンテンツの少なくとも一つのフレームに動的にタグ付けする段階をさらに含む、付記1記載の方法。
〔付記4〕
前記決定する段階がさらに:
前記第一のナビゲーション命令を受け取る段階と第二のナビゲーション命令を受け取る段階の間の時間期間内に通過されるフレームのうちに検索開始位置を決定する段階と;
決定された検索開始位置の両側に前記ビデオ・コンテンツの所定の時間を含む、タグ付けされたフレームを検索するための第一の検索領域を選択する段階とを含む、
付記1記載の方法。
〔付記5〕
前記検索開始位置が前記第一のナビゲーション命令の速度に基づく、付記4記載の方法。
〔付記6〕
前記検索開始位置がユーザーに割り当てられた反応時間にさらに基づく、付記5記載の方法。
〔付記7〕
前記第一の検索領域内に少なくとも二つのタグ付けされたフレームがある場合、優先度が最も高いタグ付けされたフレームを前記再生位置として選択することをさらに含む、付記6記載の方法。
〔付記8〕
前記第一の検索領域内にタグ付けされたフレームがない場合、前記第一の検索領域より大きな第二の検索領域を選択する段階をさらに含む、付記7記載の方法。
〔付記9〕
前記第一の領域および前記第二の検索領域内にタグ付けされたフレームがない場合:
前記第二の検索領域より大きな第三の検索領域を選択する段階と;
前記第三の検索領域内に前記少なくとも一つのタグ付けされたフレームを判別する際、前記ユーザーに割り当てられた前記反応時間を調整する段階と;
前記第一の検索領域の前記所定の時間の数を増大させる段階とをさらに含む、
付記8記載の方法。
〔付記10〕
前記第一のナビゲーション命令が早送り機能または巻き戻し機能である、付記1記載の方法。
〔付記11〕
前記第二のナビゲーション命令が再生機能である、付記10記載の方法。
〔付記12〕
前記第一のナビゲーション命令がシーン・スキップ機能である、付記1記載の方法。
〔付記13〕
前記決定する段階がさらに:
前記第一のナビゲーション命令を受け取る時刻から所定の時間、前方または後方に動かすことによって検索開始位置を決定する段階と;
前記検索開始位置の近傍内で少なくとも一つのタグ付けされたフレームを検索する段階とを含む、
付記12記載の方法。
〔付記14〕
前記第一の検索領域内に少なくとも二つのタグ付けされたフレームがある場合、優先度が最も高いタグ付けされたフレームを前記再生位置として選択することをさらに含む、付記13記載の方法。
〔付記15〕
複数のフレームを含むビデオ・コンテンツを再生する装置であって:
試聴のための再生速度でビデオ・コンテンツを再生装置に提供するビデオ・プロセッサと;
前記ビデオ・コンテンツを前記試聴のための再生速度より速い速度でナビゲートする第一のナビゲーション命令を受け取り、前記試聴のための再生速度での前記ビデオ・コンテンツの再生を再開する第二のナビゲーション命令を受け取るユーザー・インターフェースと;
前記第二のナビゲーション命令を受け取り、前記ビデオ・コンテンツの少なくとも一つのタグ付けされたフレームに基づいて前記ビデオ・コンテンツの再生位置を決定し、決定された再生位置を前記ビデオ・プロセッサに提供する、前記ユーザー・インターフェースに結合されたコントローラとを有する、
装置。
〔付記16〕
前記ビデオ・プロセッサは、前記ビデオ・コンテンツの前記少なくとも一つのタグ付けされたフレームに、前記ビデオ・コンテンツを記憶装置に記憶する前にタグ付けしている、付記15記載の装置。
〔付記17〕
前記ビデオ・プロセッサは、前記第一のナビゲーション命令と前記第二のナビゲーション命令の受け取りの間の時間期間内にフレームが通過される際に前記ビデオ・コンテンツの前記少なくとも一つのフレームに動的にタグ付けする、付記15記載の装置。
〔付記18〕
前記コントローラがさらに、前記第一のナビゲーション命令と前記第二のナビゲーション命令の受け取りの間の時間期間内に通過されるフレームのうちに検索開始位置を決定し、決定された検索開始位置の両側にビデオ・コンテンツの所定の時間を含む、タグ付けされたフレームを検索するための第一の検索領域を選択するよう構成されている、付記15記載の装置。
〔付記19〕
前記検索開始位置が前記第一のナビゲーション命令の速度に基づく、付記18記載の装置。
〔付記20〕
前記検索開始位置がユーザーに割り当てられた反応時間にさらに基づく、付記19記載の装置。
〔付記21〕
前記第一の検索領域内に少なくとも二つのタグ付けされたフレームがある場合、前記コントローラは、優先度が最も高いタグ付けされたフレームを前記再生位置として選択する、付記20記載の装置。
〔付記22〕
前記第一の検索領域内にタグ付けされたフレームがない場合、前記コントローラは、前記第一の検索領域より大きな第二の検索領域を選択する、付記21記載の装置。
〔付記23〕
前記第一の領域および前記第二の検索領域内にタグ付けされたフレームがない場合、前記コントローラは、前記第二の検索領域より大きな第三の検索領域を選択し、
前記第三の検索領域内に前記少なくとも一つのタグ付けされたフレームを判別する際、前記コントローラは、前記ユーザーに割り当てられた前記反応時間を調整し、前記第一の検索領域の前記所定の時間の数を増大させる、付記22記載の装置。
〔付記24〕
前記第一のナビゲーション命令が早送り機能または巻き戻し機能である、付記15記載の装置。
〔付記25〕
前記第二のナビゲーション命令が再生機能である、付記24記載の装置。
〔付記26〕
前記第一のナビゲーション命令がシーン・スキップ機能である、付記15記載の装置。
〔付記27〕
前記コントローラがさらに、前記第一のナビゲーション命令を受け取る時刻から所定の時間、前方または後方に動かすことによって検索開始位置を決定し、前記検索開始位置の近傍内で少なくとも一つのタグ付けされたフレームを検索するよう構成されている、付記26記載の装置。
〔付記28〕
前記第一の検索領域内に少なくとも二つのタグ付けされたフレームがある場合、前記コントローラは、優先度が最も高いタグ付けされたフレームを前記再生位置として選択する、付記27記載の装置。