特許第6241519号(P6241519)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許6241519-ビデオ再生方法及びシステム 図000002
  • 特許6241519-ビデオ再生方法及びシステム 図000003
  • 特許6241519-ビデオ再生方法及びシステム 図000004
  • 特許6241519-ビデオ再生方法及びシステム 図000005
  • 特許6241519-ビデオ再生方法及びシステム 図000006
  • 特許6241519-ビデオ再生方法及びシステム 図000007
  • 特許6241519-ビデオ再生方法及びシステム 図000008
  • 特許6241519-ビデオ再生方法及びシステム 図000009
  • 特許6241519-ビデオ再生方法及びシステム 図000010
  • 特許6241519-ビデオ再生方法及びシステム 図000011
  • 特許6241519-ビデオ再生方法及びシステム 図000012
  • 特許6241519-ビデオ再生方法及びシステム 図000013
  • 特許6241519-ビデオ再生方法及びシステム 図000014
  • 特許6241519-ビデオ再生方法及びシステム 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6241519
(24)【登録日】2017年11月17日
(45)【発行日】2017年12月6日
(54)【発明の名称】ビデオ再生方法及びシステム
(51)【国際特許分類】
   H04N 5/76 20060101AFI20171127BHJP
   H04N 5/93 20060101ALI20171127BHJP
   G06F 17/30 20060101ALI20171127BHJP
【FI】
   H04N5/76
   H04N5/93
   G06F17/30 170D
   G06F17/30 210D
   G06F17/30 320A
【請求項の数】5
【全頁数】23
(21)【出願番号】特願2016-164787(P2016-164787)
(22)【出願日】2016年8月25日
(62)【分割の表示】特願2013-168827(P2013-168827)の分割
【原出願日】2013年8月15日
(65)【公開番号】特開2017-22733(P2017-22733A)
(43)【公開日】2017年1月26日
【審査請求日】2016年8月25日
(31)【優先権主張番号】13/775,116
(32)【優先日】2013年2月22日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士ゼロックス株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】マシュー クーパー
(72)【発明者】
【氏名】ジョン アドコック
(72)【発明者】
【氏名】スコット カーター
(72)【発明者】
【氏名】ステイシー ブランハム
【審査官】 松元 伸次
(56)【参考文献】
【文献】 特開2006−345270(JP,A)
【文献】 特開2008−252296(JP,A)
【文献】 特開2012−249156(JP,A)
【文献】 特開2005−197883(JP,A)
【文献】 特開2001−268479(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F17/30
G11B27/10−27/34
H04N5/222−5/257
5/76
5/765
5/80−5/91
5/915
5/92
5/922
5/928−5/93
5/937−5/94
5/95−5/956
(57)【特許請求の範囲】
【請求項1】
計算処理システムのプロセッサが、
a.媒体に追加されるビデオのコンテンツを少なくとも1つのコンテンツクラスタにクラスタ化し、
b.前記ビデオを少なくとも1つのビデオセグメントにセグメント化し、
c.前記少なくとも1つのコンテンツクラスタを前記少なくとも1つのビデオセグメントにマッピングし、
d.クラスタ化された前記コンテンツを備えるオーバービュー画像の少なくとも部分を表示するグラフィカル・ユーザ・インタフェースを前記計算処理システムの表示装置上に生成し、
e.ユーザが前記オーバービュー画像上の前記少なくとも1つのコンテンツクラスタを選択するイベントの検出に応答して、選択された前記コンテンツクラスタに関連する前記ビデオセグメントを再生する、
ビデオ再生方法であって、
前記プロセッサが、さらに、
前記ビデオを使用して、少なくとも1つの媒体スクロールイベントを検出し、
検出された前記少なくとも1つの媒体スクロールイベントを前記ビデオの少なくとも1つの時点と関連づける、
ビデオ再生方法。
【請求項2】
前記オーバービュー画像の表示された部分が、対応する媒体スクロールイベントに対応する、請求項に記載のビデオ再生方法。
【請求項3】
前記プロセッサが、さらに、
前記ユーザによる前記オーバービュー画像の表示された部分を選択するイベントの検出に応答して、前記対応する媒体スクロールイベントに関連する前記時点から前記ビデオを再生する、請求項に記載のビデオ再生方法。
【請求項4】
前記オーバービュー画像が、検出された前記少なくとも1つの媒体スクロールイベントに関連する少なくとも1つのスクロール量に基づき前記ビデオの複数のフレームから作成される、請求項1〜3のいずれか1項に記載のビデオ再生方法。
【請求項5】
計算処理システムのプロセッサが、
a.媒体に追加されるビデオのコンテンツを少なくとも1つのコンテンツクラスタにクラスタ化し、
b.前記ビデオを少なくとも1つのビデオセグメントにセグメント化し、
c.前記少なくとも1つのコンテンツクラスタを前記少なくとも1つのビデオセグメントにマッピングし、
d.クラスタ化された前記コンテンツを備えるオーバービュー画像の少なくとも部分を表示するグラフィカル・ユーザ・インタフェースを前記計算処理システムの表示装置上に生成し、
e.ユーザが前記オーバービュー画像上の前記少なくとも1つのコンテンツクラスタを選択するイベントの検出に応答して、選択された前記コンテンツクラスタに関連する前記ビデオセグメントを再生する、
ビデオ再生方法であって、
aが、追加される前記コンテンツの部分を含む前記媒体上の空間領域を取り囲むバウンディングボックスの場所に基づき実施される、ビデオ再生方法。
【発明の詳細な説明】
【技術分野】
【0001】
開示される実施形態は、一般にビデオコンテンツをナビゲートするための方法及びシステムに関し、より具体的にはビデオ用のナビゲーション可能な空間的オーバービューを作成及び使用するための方法及びシステムに関する。
【背景技術】
【0002】
ビデオはナビゲートすることが困難であることが広く知られている。タイムラインが標準的なビデオナビゲーション制御手段であり、スライダ内のカーソルの場所をビデオ内の時間的位置にリンクする。前述のナビゲーション制御手段が提供する抽象化は、ユーザが、ビデオ内部の異なる時点に即座にジャンプし、かつビデオの中で自分が現在どの時点にいるかという認識を維持することが可能であることを含む、多くの理由のために有用である。しかしながら、多くの入門ビデオ及び教育用ビデオでは、ユーザがどこにいるかを知ることがまったく同じように重要であり得る。ユーザがビデオ内で対象を直接ナビゲートすることが可能になるある一定のインタフェースが存在するが、ユーザがタイムラインビデオ制御手段を使用して時間的にナビゲートすることができるのと同じ方法で、ユーザがビデオを空間的にナビゲートすることができるようになる抽象化に的を絞る解決策が存在しない。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第8,261,200号明細書
【特許文献2】米国特許第8,280,158号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、従来のビデオナビゲーション技法は、多くの入門ビデオ及び教育用ビデオと同様に、空間ナビゲーションの解決策がないために不十分であり、ユーザが時間的抽象化(すなわち、標準的なタイムラインインタフェース)ではなく、空間的抽象化を使用してビデオコンテンツをナビゲートすることがより望ましい。
【課題を解決するための手段】
【0005】
本発明の第1の態様はビデオ再生方法であって、計算処理システムのプロセッサが、a.媒体に追加されるビデオのコンテンツを少なくとも1つのコンテンツクラスタにクラスタ化し、b.前記ビデオを少なくとも1つのビデオセグメントにセグメント化し、c.前記少なくとも1つのコンテンツクラスタを前記少なくとも1つのビデオセグメントにマッピングし、d.クラスタ化された前記コンテンツを備えるオーバービュー画像の少なくとも部分を表示するグラフィカル・ユーザ・インタフェースを前記計算処理システムの表示装置上に生成し、e.ユーザが前記オーバービュー画像上の前記少なくとも1つのコンテンツクラスタを選択するイベントの検出に応答して、選択された前記コンテンツクラスタに関連する前記ビデオセグメントを再生する。
【0006】
本発明の第2の態様は、第1の態様のビデオ再生方法であって、前記プロセッサが、さらに、前記ビデオを使用して、少なくとも1つの媒体スクロールイベントを検出し、検出された前記少なくとも1つの媒体スクロールイベントを前記ビデオの少なくとも1つの時点と関連づける。
【0007】
本発明の第3の態様は、第2の態様のビデオ再生方法であって、前記オーバービュー画像の表示された部分が、対応する媒体スクロールイベントに対応する。
【0008】
本発明の第4の態様は、第3の態様のビデオ再生方法であって、前記プロセッサが、さらに、前記ユーザによる前記オーバービュー画像の表示された部分を選択するイベントの検出に応答して、前記対応する媒体スクロールイベントに関連する前記時点から前記ビデオを再生する。
【0009】
本発明の第5の態様は、第2〜第4のいずれか態様のビデオ再生方法であって、前記オーバービュー画像が、検出された前記少なくとも1つの媒体スクロールイベントに関連する少なくとも1つのスクロール量に基づき前記ビデオの複数のフレームから作成される。
【0010】
本発明の第6の態様は、第1〜第5のいずれか態様のビデオ再生方法であって、aが、追加される前記コンテンツの部分を含む前記媒体上の空間領域を取り囲むバウンディングボックスの場所に基づき実施される。
【0011】
本発明の第7の態様はビデオ再生方法であって、計算処理システムのプロセッサが、a.物品のビデオを前記物品の3次元モデルに登録し、b.前記ビデオを複数のビデオセグメントにセグメント化し、c.前記複数のビデオセグメントの各々を前記物品の前記3次元モデルに連携し、d.前記物品の前記3次元モデルのビューを表示するグラフィカル・ユーザ・インタフェースを前記計算処理システムの表示装置上に生成し、e.ユーザによる前記物品の前記3次元モデルの表示されたビュー上の場所を選択するイベントの検出に応答して、選択された前記場所に関連する前記ビデオセグメントを再生する。
【0012】
本発明の第8の態様は、第7の態様のビデオ再生方法であって、aにおいて、前記ビデオが、前記ユーザにより指定された登録ポイントを使用して、前記物品の前記3次元モデルに登録される。
【0013】
本発明の第9の態様は、第7の態様のビデオ再生方法であって、aにおいて、前記ビデオが、前記ビデオと前記3次元モデルとが適合することにより、前記物品の前記3次元モデルに登録される。
【0014】
本発明の第10の態様は、第7〜第9のいずれかの態様のビデオ再生方法であって、bにおいて、前記ビデオが、時間及びカメラ向きメタデータに少なくとも基づきセグメント化される。
【0015】
本発明の第11の態様は、第7〜第9のいずれかの態様のビデオ再生方法であって、bにおいて、前記ビデオが、時間及び前記ビデオのコンテンツに少なくとも基づきセグメント化される。
【0016】
本発明の第12の態様は計算処理システムであって、プロセッサと、表示装置と、物品のビデオに関連して実行可能な命令セットを記憶するメモリと、を備え、前記命令セットが、a.前記ビデオを前記物品の3次元モデルに登録するための命令と、b.前記ビデオを複数のビデオセグメントにセグメント化するための命令と、c.前記複数のビデオセグメントの各々を前記物品の前記3次元モデルと連携させるための命令と、d.前記物品の前記3次元モデルのビューを表示するグラフィカル・ユーザ・インタフェースを前記表示装置に生成するための命令と、e.ユーザによる前記物品の前記3次元モデルの表示されたビュー上の場所を選択するイベントの検出に応答して、選択された前記場所に関連する前記ビデオセグメントを再生するための命令と、を含む。
【0017】
本発明に関連する追加の態様が、以下の説明で一部示され、説明から一部明らかになるであろう、または本発明の実施により習得されてもよい。本発明の態様が、要素及びさまざまな要素の組合せ及び態様を用いて実現及び達成されてもよく、態様が、特に以下の詳細な説明及び添付の特許請求の範囲で指摘されてもよい。
【0018】
前述の説明及び以下の説明の両方が、単なる例示及び説明のためであり、特許請求される本発明または本発明の用途を制限することが決して意図されていないことを理解されたい。
【0019】
本明細書に組み入れられ、かつ本明細書の一部を構成する添付図面は、本発明の実施形態を具体的に示し、本説明と共に本発明の技法の原理を説明し、例示するのに役立つ。
【発明の効果】
【0020】
空間的抽象化を使用してビデオコンテンツをナビゲートすることができる。
【図面の簡単な説明】
【0021】
図1】ビデオ取得を実施し、かつビデオに対する空間的オーバービューを作成し、かつ作成された空間的オーバービューを使用してユーザがビデオ再生中にビデオをナビゲートすることを可能にするための、コンピュータ化されたシステムの例示的一実施形態を示した図である。
図2】ビデオに対する空間的オーバービューを作成し、かつ作成された空間的オーバービューを使用してユーザがビデオ再生中にビデオをナビゲートすることを可能にするための、コンピュータ化されたデスクトップシステムの例示的一実施形態を示した図である。
図3】いくつかの2次元コンテンツに対するオーバービューを生成するための計算処理方法の例示的一実施形態を示した図である。
図4】オーバービュー画像を使用してビデオ内部をナビゲートするためのユーザインタフェースの例示的一実施形態を示した図である。
図5】ビデオ取得アプリケーションのグラフィカル・ユーザ・インタフェースの例示的一実施形態を示した図である。
図6】物品のビデオを取り込んで処理し、かつビデオナビゲーションのために使用可能なビデオオーバービューを生成するための方法の例示的一実施形態を示した図である。
図7】物品の各側面に対応するビデオフレームを選択するための方法の例示的一実施形態を示した図である。
図8】作成されたビデオオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェースの例示的一実施形態を示した図である。
図9】作成されたビデオオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェースの別の例示的実施形態を示した図である。
図10】作成されたビデオオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェースのさらに別の例示的実施形態を示した図である。
図11】オーバービュー画像が3次元立方体に貼り付けられたグラフィカル・ユーザ・インタフェースの例示的一実施形態を示した図である。
図12】対応する3次元モデルが利用可能であるときに物品のビデオを処理するための方法の例示的一実施形態を示した図である。
図13】ビデオ内に描かれた物品の3次元モデルに基づくオーバービューを使用して、ビデオをナビゲートするためのグラフィカル・ユーザ・インタフェースの例示的一実施形態を示した図である。
図14】ビデオ内に描かれた物品の3次元モデルに基づくオーバービューを使用して、ビデオをナビゲートするためのグラフィカル・ユーザ・インタフェースの別の例示的実施形態を示した図である。
【発明を実施するための形態】
【0022】
以下の詳細な説明では、1つまたは複数の添付図面が参照され、添付図面では、同様の機能要素が同様の番号で指定される。前述の添付図面は、限定としてではなく例示として、本発明の原理に整合する特定の実施形態及び実装形態を示す。これらの実装形態は、当業者が本発明を実施することが可能になるように十分詳細に説明され、他の実装形態が利用されてもよいこと、及び本発明の範囲及び思想を逸脱することなくさまざまな要素の構造的変更及び/または置換が行われてもよいことを理解されたい。したがって、以下の詳細な説明は、限定される意味で解釈されるべきではない。追加で、説明されるような本発明のさまざまな実施形態が、汎用コンピュータ上で動作するソフトウェアの形態で、専用ハードウェアの形態で、またはソフトウェアとハードウェアとの組合せで実装されてもよい。
【0023】
本発明の概念の一態様によれば、基になるコンテンツの表現を再構成し、かつオーバービュー内のポイントからビデオ内の特定のポイントにリンクすることにより、特定のタイプのビデオに対するオーバービューを生成するシステム及び方法が提供される。一実施形態では、コンテンツが電子ホワイトボードに関する教育用ビデオなど、2次元であるときに、2次元オーバービューが生成される。別の実施形態では、コンテンツが特定の3次元物品の使用法を例示する入門ビデオなど、3次元であるときに、3次元オーバービューが生成される。
【0024】
1つまたは複数の実施形態では、異なるタイプの入門ビデオ及び教育用ビデオ用に3つの異なるタイプのナビゲーション可能オーバービューを作成する機構が提供される。2次元オーバービューは、スクリーンキャスト、ホワイトボードを使った講義、及び他の平坦なコンテンツで有用であるが、3次元オーバービューは、触知できる物品の実演に、より適合している。物品の3次元モデルが利用可能であるとき、及び利用可能ではないときに、2つの異なる手法が使用される。第1の手法では、モデルが利用可能であるとき、ビデオセグメントが3次元モデル上のビデオセグメントの対応するポイントに直接リンクされる。しかしながら、モデルが利用可能ではないとき、取り込まれたビデオからおおよそのオーバービューが特定のメタデータと共にまず作成される。
【0025】
図1は、ビデオ取得を実施し、かつビデオの空間的オーバービューを作成し、かつ作成された空間的オーバービューを使用してユーザがビデオ再生中にビデオをナビゲートすることが可能になるための、計算処理システム100の例示的一実施形態を示す。1つまたは複数の実施形態では、計算処理システム100は、移動用計算処理装置、たとえばスマートフォン、携帯情報端末(PDA)、またはタブレットコンピュータのフォームファクタの範囲内で実装されてもよく、これらの移動用計算処理装置のすべてが市販され、当業者によく知られている。代替の一実施形態では、計算処理システム100は、ラップトップコンピュータまたはノートブックコンピュータに基づき実装されてもよい。さらに、代替の一実施形態では、計算処理システム100は、電子書籍(またはe−book)リーダなどのある一定の専用機能を備える電子デバイスの中に組み入れられた組込システムであってもよい。さらに代替の一実施形態では、計算処理システム100は、同じく当業者によく知られている拡張現実感ヘッド・マウント・ディスプレイ(HMD)・システムの一部として実装されてもよい。
【0026】
計算処理システム100は、計算処理システム100のさまざまなハードウェア構成要素経由でまたはこれらの構成要素間で情報を伝達するためのデータバス104または相互接続機構もしくは通信機構と、情報を処理し他の計算及び制御のタスクを実施するための、データバス104と結合した中央処理装置(CPUまたは単にプロセッサ)101とを含んでもよい。計算処理システム100はまた、さまざまな情報だけでなくプロセッサ101により実行される命令も記憶するための、データバス104に結合されたメモリ112、たとえばランダム・アクセス・メモリ(RAM)または他のダイナミック記憶装置を含む。メモリ112はまた、永続的記憶装置、たとえば磁気ディスク、光ディスク、半導体フラッシュ・メモリ・デバイス、または他の不揮発性半導体記憶デバイスを含んでもよい。
【0027】
1つまたは複数の実施形態では、メモリ112はまた、プロセッサ101による命令実行中、一時的変数、または他の中間情報を記憶するために使用されてもよい。任意選択で、計算処理システム100は、プロセッサ101のための静的情報及び命令、たとえば計算処理システム100の動作に必要なファームウェア、基本入出力システム(BIOS)だけでなく計算処理システム100のさまざまな構成パラメータを記憶するために、データバス104に結合された読出専用メモリ(ROMまたはEPROM)102または他の静的記憶装置をさらに含んでもよい。
【0028】
1つまたは複数の実施形態では、計算処理システム100は、計算処理システム100のユーザにさまざまな情報を表示するための、同じくデータバス104に結合されてもよい表示装置109を組み入れてもよい。代替の一実施形態では、表示装置109は、グラフィックコントローラ及び/またはグラフィックプロセッサ(図示せず)に関連づけられてもよい。表示装置109は、たとえば両方とも当業者によく知られている薄膜トランジスタ(TFT)技術または有機発光ダイオード(OLED)技術を使用して製造された液晶表示装置(LCD)として実装されてもよい。さまざまな実施形態では、表示装置109は、計算処理システム100の残りの構成要素と共に同一の一般的な筐体の中に組み入れられてもよい。代替の一実施形態では、表示装置109はこのような筐体の外側に置かれてもよい。
【0029】
1つまたは複数の実施形態では、表示装置109は、さまざまな対象上に情報を投影するように構成されたプロジェクタまたは小型プロジェクタ、たとえばユーザが装着する眼鏡の形態で実装されてもよい。1つまたは複数の実施形態では、表示装置109は、ユーザの頭部に搭載可能であるように構成されてもよい。この目的のために、表示装置109は適切な取付けハードウェア(図示せず)を備えてもよい。
【0030】
1つまたは複数の実施形態では、計算処理システム100は、データバス104に接続され、かつ当業者によく知られている、MPEG−3ファイルなどのさまざまな音声ファイル、またはMPEG−4などのさまざまなビデオファイルの音声トラックを再生するように構成された音声再生装置125をさらに組み入れてもよい。この目的のために、計算処理システム100はまた、波形プロセッサもしくはサウンドプロセッサまたは類似のデバイス(図示せず)を組み入れてもよい。
【0031】
1つまたは複数の実施形態では、計算処理システム100は、1つまたは複数の入力デバイス、たとえばユーザの触覚コマンドを受け取るためのタッチスクリーンインタフェース110、さまざまな対象の静止画及びビデオを取り込むためのカメラ111、キーボード106、を組み入れてもよい。タッチスクリーンインタフェース110、カメラ111、キーボード106のすべては、情報をプロセッサ101に伝達するために、データバス104に結合されてもよい。情報は、画像及びビデオだけでなくユーザコマンド選択を含むがこれらに限定されない。代替の一実施形態では、入力デバイスは、ユーザにより行われたコマンド選択を計算処理システム100に示すために使用されてもよい、ユーザの目の動きを追跡するためのシステム(図示せず)を含んでもよい。
【0032】
1つまたは複数の実施形態では、計算処理システム100は、計算処理システム100の現在の地理的位置及び空間的向きに関するデータを、データバス104を介してプロセッサ101に供給するように構成された位置/向きモジュール103を追加で含んでもよい。地理的位置情報は、たとえば全地球測位システム(GPS)技術ならびに/または近傍のセル電話基地局及び/もしくはWi−Fiホットスポットにより提供される情報を使用することなどによる他の測位技法を使用して、位置/向きモジュール103により得られてもよい。向き情報は、重力を含む、3軸すべてでの加速度測定値を使用して得られてもよい。1つまたは複数の実施形態では、位置/向きモジュール103により提供される向きメタデータが連続的に記録され、データストレージ122に記憶される。
【0033】
1つまたは複数の実施形態では、計算処理システム100は、データバス104に結合されたネットワークインタフェース105などの通信インタフェースを追加で含んでもよい。ネットワークインタフェース105は、Wi−Fiインタフェース107及びセルラ・ネットワーク(GSM(登録商標)またはCDMA)・アダプタ108のうちの少なくとも1つを使用して、計算処理システム100とインターネット124との間の接続を確立するように構成されてもよい。ネットワークインタフェース105は、計算処理システム100とインターネット124との間の双方向データ通信を提供するように構成されてもよい。Wi−Fiインタフェース107は、当業者によく知られている、802.11a、802.11b、802.11g、及び/または802.11nのプロトコルだけでなくブルートゥースプロコトルに準拠して動作してもよい。例示的一実装形態では、Wi−Fiインタフェース107及びセルラ・ネットワーク(GSM(登録商標)またはCDMA)・アダプタ108は、さまざまなタイプの情報を表すデジタル・データ・ストリームを搬送する電気信号または電磁信号を送信及び受信する。
【0034】
1つまたは複数の実施形態では、インターネット124は、一般的には1つまたは複数のサブネットワークを通して他のネットワーク資源へのデータ通信を提供する。したがって、計算処理システム100は、インターネット124上のどこかに位置するさまざまなネットワーク資源に、たとえば遠隔メディアサーバ、ウェブサーバ、他のコンテンツサーバだけでなく、他のネットワークデータ記憶資源にもアクセスすることができる。1つまたは複数の実施形態では、計算処理システム100は、ネットワークインタフェース105を用いて、インターネット124を含むさまざまな1つまたは複数のネットワークを通して、メッセージ、メディア、及びアプリケーション・プログラム・コードを含む他のデータを送信及び受信するように構成される。インターネットの例では、計算処理システム100がネットワーククライアントの役割を果たすとき、計算処理システム100上で実行されるアプリケーションプログラムのためのコードまたはデータを要求してもよい。同様に、計算処理システム100は、さまざまなデータまたはコンピュータコードを他のネットワーク資源に送信してもよい。
【0035】
1つまたは複数の実施形態では、本明細書で説明される機能は、メモリ112内に含まれる1つまたは複数の命令の1つまたは複数のシーケンスをプロセッサ101が実行することに応答して、計算処理システム100により実装される。このような命令は、他のコンピュータ可読媒体からメモリ112の中に読み込まれてもよい。メモリ112内に含まれる命令のシーケンスを実行することにより、本明細書で説明されるさまざまな処理ステップをプロセッサ101が実施する。代替実施形態では、本発明の実施形態を実装するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、配線により接続された回路が使用されてもよい。したがって、本発明の実施形態は、ハードウェア回路とソフトウェアとの任意の特定の組合せに限定されない。
【0036】
「コンピュータ可読媒体」という用語は、本明細書で使用されるとき、実行するためにプロセッサ101に命令を提供することに関与する任意の媒体を指す。コンピュータ可読媒体は、本明細書で説明される方法及び/または技法のいずれかを実装するための命令を担持することができる機械可読媒体のほんの一例である。このような媒体は、不揮発性媒体及び揮発性媒体を含むがこれらに限定されない、多くの形態をとってもよい。
【0037】
非一時的なコンピュータ可読媒体の一般的な形態が、たとえばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは他の何らかの磁気媒体、CD−ROM、他の何らかの光学媒体、パンチカード、紙テープ、孔のパターンを有する他の何らかの物理的媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリカード、他の何らかのメモリチップもしくはカートリッジ、またはコンピュータが読み取ることができる他の何らかの媒体を含む。さまざまな形のコンピュータ可読媒体が、実行するために、プロセッサ101に1つまたは複数の命令の1つまたは複数のシーケンスを搬送することを伴ってもよい。たとえば、命令は、最初に遠隔コンピュータから磁気ディスクで搬送されてもよい。あるいは、遠隔コンピュータが命令を自分のダイナミックメモリの中にロードし、インターネット124上で命令を送信することができる。具体的には、コンピュータ命令が、当技術分野でよく知られているさまざまなネットワークデータ通信プロトコルを使用して、インターネット124を介して前述の遠隔コンピュータから、計算処理システム100のメモリ112の中にダウンロードされてもよい。
【0038】
1つまたは複数の実施形態では、計算処理システム100のメモリ112は、以下のソフトウェアプログラム、アプリケーション、またはモジュールのいずれかを記憶してもよい。
【0039】
1.オペレーティング・システム(OS)113。オペレーティング・システム(OS)113は、基本システムサービスを実装し、かつ計算処理システム100のさまざまなハードウェア構成要素を管理するための携帯用オペレーティング・システムであってもよい。オペレーティング・システム113の例示的実施形態は当業者にはよく知られており、任意の現在既知の、または今後開発される携帯用オペレーティング・システムを含んでもよい。
【0040】
2.アプリケーション114。アプリケーション114は、たとえば計算処理システム100のプロセッサ101により実行されるソフトウェアアプリケーションのセットを含んでもよく、計算処理システム100に、ある一定の所定の機能を実施させる、たとえばカメラ111を使用してデジタル画像を取り込ませる、または表示装置109及び/もしくは音声再生デバイス(図示せず)を使用してメディアファイルを再生させる。1つまたは複数の実施形態では、アプリケーション114は、以下で説明される、本発明のビデオ取得アプリケーション115及び本発明のビデオ再生アプリケーション119を含んでもよい。
【0041】
3.データストレージ122。データストレージ122は、たとえば、本発明のビデオ取得アプリケーション115により生成されたビデオファイル(たとえば、ビデオ及びメタデータ記憶装置123に記憶される。)だけでなく、インターネット124上で計算処理システム100により受信された他のデータも記憶するために使用されてもよい。
【0042】
1つまたは複数の実施形態では、本発明のビデオ取得アプリケーション115は、計算処理システム100の表示装置109上に本発明のグラフィカル・ユーザ・インタフェースを生成するように構成されたグラフィカル・ユーザ・インタフェース生成モジュール116を組み入れる。本発明のビデオ取得アプリケーション115は、ビデオコンテンツを記録するためのビデオ取得モジュール117と、基になるコンテンツの表現を再構成し、かつオーバービュー内のポイントからビデオ内の特定のポイントにリンクすることにより、取り込まれたビデオに対するオーバービューを生成するビデオ処理モジュール118とをさらに含んでもよい。
【0043】
1つまたは複数の実施形態では、本発明のビデオ再生アプリケーション119は、計算処理システム100の表示装置109上に、新規のビデオナビゲーション機能をユーザに提供する本発明のグラフィカル・ユーザ・インタフェースを生成するように構成されたグラフィカル・ユーザ・インタフェース生成モジュール120を含んでもよい。追加で提供されてもよいのが、グラフィカル・ユーザ・インタフェース生成モジュール120により生成されたグラフィカル・ユーザ・インタフェースとユーザとの対話に応答して、ビデオ再生を実施するように構成されたビデオ・ナビゲーション・モジュール121である。本発明のビデオ取得アプリケーション115及びビデオ再生アプリケーション119の前述のモジュールの動作が、以下で詳細に説明される。
【0044】
1つまたは複数の実施形態では、本発明のビデオ取得アプリケーション115を使用して記憶されたビデオが、計算処理システム100のビデオ処理モジュール118内でローカルに処理される。しかしながら、当業者には理解されるように、ローカルのビデオ処理は、計算処理システム100で利用可能ではない場合がある、かなりのビデオ処理能力を要求することがある。したがって、代替の一実施形態では、取り込まれたビデオコンテンツが、解析のために遠隔コンピュータシステムに、たとえば、例示的一実施形態が図2に示されているデスクトップ計算処理システム200に送信されてもよい。
【0045】
1つまたは複数の実施形態では、デスクトップ計算処理システム200はデータバス204を組み入れてもよく、データバス204は、図1に示される計算処理システム100のデータバス104と実質的に同様であってもよく、データバス104と実質的に同様の機能を実施してもよい。さまざまな実施形態では、データバス204は、データバス104と同一のまたは異なる相互接続及び/または通信のプロトコルを使用してもよい。デスクトップ計算処理システム200の構成要素がデスクトッププラットフォーム構成で導入されることを除き、デスクトップ計算処理システム200の1つまたは複数のプロセッサ(CPU)201、ネットワークインタフェース205、EPROM/ファームウェア記憶装置202、表示装置209、及びキーボード206が、同様に、計算処理システム100のそれぞれのプロセッサ101、ネットワークインタフェース105、EPROM/ファームウェア記憶装置102、表示装置109、及びキーボード106と実質的に同様であってもよい。さまざまな実装形態では、1つまたは複数のプロセッサ201は、プロセッサ101と比較して実質的に高い処理能力を有してもよい。
【0046】
入力デバイス206(キーボード)に加えて、デスクトップ計算処理システム200は、方向情報及びコマンド選択をプロセッサ201に伝達し、かつ表示装置209上でのカーソルの動きを制御するためのポインティングデバイス(カーソル制御デバイス)210、たとえばマウス、トラックボール、またはカーソル方向キーを追加で含んでもよい。この入力デバイスは、一般的にはデバイスが平面内の位置を指定することができるようになる、2つの軸、すなわち第1の軸(たとえばx)及び第2の軸(たとえばy)での2つの自由度を有する。
【0047】
デスクトップ計算処理システム200のLAN/ISDNアダプタ207が、たとえば、サービス統合デジタル網(ISDN)カードまたはモデムを使用して、インターネット・サービス・プロバイダのハードウェア(図示せず)を使用してインターネット124とインタフェースで接続される対応するタイプの電話回線にデータ通信接続を提供するように実装されてもよい。別の例として、LAN/ISDNアダプタ207は、データ通信接続を互換性のあるLAN及びインターネット124に提供するローカル・エリア・ネットワーク・インタフェース・カード(LAN NIC)であってもよい。さまざまなメディアファイルを記憶するために、デスクトップ計算処理システム200は、記憶装置制御手段203を用いてデータバス204に接続されたメディア記憶装置208を備えてもよい。
【0048】
1つまたは複数の実施形態では、デスクトップ計算処理システム200のメモリ212は、以下のソフトウェアプログラム、アプリケーション、またはモジュールのいずれかを記憶してもよい。
【0049】
1.デスクトップ・オペレーティング・システム(OS)213。デスクトップ・オペレーティング・システム(OS)213は、基本システムサービスを実装し、かつデスクトップ計算処理システム200のさまざまなハードウェア構成要素を管理するためのオペレーティング・システムであってもよい。デスクトップ・オペレーティング・システム213の例示的実施形態はすべて当業者によく知られており、任意の現在既知の、または今後開発されるオペレーティング・システムを含んでもよい。
【0050】
2.ネットワーク通信モジュール214。ネットワーク通信モジュール214は、たとえば、LAN/ISDNアダプタ207と協力して動作するネットワークインタフェース205を使用して、デスクトップ計算処理システム200と、計算処理システム100などの、インターネット124のさまざまなネットワークエンティティとの間でネットワーキング接続を確立するために使用される1つまたは複数のネットワーク・プロトコル・スタックを組み入れてもよい。
【0051】
3.デスクトップアプリケーション215。デスクトップアプリケーション215は、たとえば、デスクトップ計算処理システム200にある一定の所定の機能またはタスクを実施させる、デスクトップ計算処理システム200の1つまたは複数のプロセッサ201により実行される1組のソフトウェアアプリケーションを含んでもよい。1つまたは複数の実施形態では、デスクトップアプリケーション215は、基になるコンテンツの表現を再構成し、かつオーバービュー内のポイントからビデオ内の特定のポイントにリンクすることにより、取り込まれたビデオに対するオーバービューを生成するためのビデオ処理モジュール217を組み入れる本発明のビデオ処理アプリケーション216を含んでもよく、ビデオ処理モジュール217は、計算処理システム100の前述のビデオ処理モジュール118と実質的に同様に動作してもよい。さらに、システム100の前述のビデオ再生アプリケーション119と実質的に同様なビデオ再生アプリケーション218が、同じくメモリ212内に導入されてもよい。
【0052】
1つまたは複数の実施形態では、本発明のビデオ再生アプリケーション218は、ユーザに新規なビデオナビゲーション機能を提供する、本発明のグラフィカル・ユーザ・インタフェースを、デスクトップ計算処理システム200の表示装置209上に生成するように構成されたグラフィカル・ユーザ・インタフェース生成モジュール219を含んでもよい。追加で提供されてもよいのが、グラフィカル・ユーザ・インタフェース生成モジュール219により生成されたグラフィカル・ユーザ・インタフェースとユーザとの対話に応答して、ビデオ再生を実施するように構成されたビデオ・ナビゲーション・モジュール220である。ユーザは、前述のユーザインタフェースを使用して、キーボード206及びポインティングデバイス210を用いてビデオをナビゲートしてもよい。本発明のビデオ処理アプリケーション216及びビデオ再生アプリケーション218の前述のモジュールの動作は、ビデオ取得アプリケーション115及びビデオ再生アプリケーション119のそれぞれのモジュールの動作と実質的に同様であり、以下で詳細に説明される。
【0053】
4.データストレージ221。データストレージ221は、たとえば取り込まれたビデオコンテンツ(ビデオ及びメタデータストレージ222)だけでなく、ユーザ及び/またはアプリケーションの他のデータも記憶するために使用されてもよい。
【0054】
1つまたは複数の実施形態では、本発明のビデオ処理アプリケーション216は、ネットワークインタフェース205を用いて、インターネット124を介して、図1に示される計算処理システム100により取り込まれたビデオを受信するように構成されてもよい。受信されたビデオは、ビデオ処理モジュール217を使用して処理され、表示装置209を使用してユーザに示されてもよく、グラフィカル・ユーザ・インタフェースがユーザインタフェース生成モジュール219により生成される。
【0055】
次に、計算処理システム100及びデスクトップ計算処理システム200に導入されたさまざまなソフトウェアモジュールの動作が、詳細に説明される。当業者に理解されているように、ビデオがコンテンツの漸進的蓄積を取り込むシナリオがいくつかある。卓越した例が、当業者によく知られているKhan Academyシリーズからのビデオである。これらの教育ビデオでは、講演者が電子インクを使ってコンテンツを追加したとき、カメラが電子ホワイトボードに焦点を合わせる。ビデオのコース全体にわたって、ボードが埋められるまで、注釈が追加される。その後、講演者は任意選択でボードの、マークをつけられていない領域までスクロールして、注釈付きコンテンツを追加し続ける。
【0056】
この種類のコンテンツには、コンテンツの時間の長さと空間的大きさとの間に固有の関係が存在することに留意されたい。ビデオの自然時間のセグメント化が、注釈が追加されたときにこれらの注釈を識別する。これは、各注釈(及びビデオフレーム内の各注釈の空間的場所)が、ビデオの時間セグメントと関連づけられることを意味する。このようなコンテンツについては、ユーザが、注釈に基づく空間インデックスを使用して、ビデオを時間的にナビゲートできるようになるのが自然である。したがって、1つまたは複数の実施形態では、完全な1組の注釈を表示し、かつ関連するビデオコンテンツをナビゲートするために使用可能なオーバービュー画像を生成するためのシステム及び方法が提供される。
【0057】
ある一定の2次元コンテンツに対するオーバービューを生成する計算処理方法300の例示的一実施形態が図3に示されている。まず、ステップ301で、スライド変化イベントが検出される。1つまたは複数の実施形態では、注釈が完了したときなど、大きな変化の時点として、スライド変化が検出される。1つまたは複数の実施形態では、スライド変化は、たとえば特許文献1及び特許文献2で説明されている、よく知られている方法を使用して検出される。
【0058】
1つまたは複数の実施形態では、注釈が追加されていることを示す、ビデオフレーム内の変化を検出するために、単純な画素ごとの差分がまず適用される。第2のステップは、変動のないコンテンツに対して時間的閾値を適用することである。当業者により理解されるように、ビデオフレームが所定の時間、変動のないままであるとき、注釈が完了した可能性が高い。したがって、アルゴリズムが、変化の期間と、それに続くビデオフレーム安定の最小(少なくとも数秒の長さの)期間をまず検出することにより、ビデオ内のセグメントを識別する。
【0059】
1つまたは複数の実施形態では、新しい注釈イベントの検出後、方法は、最後の変動のないビデオフレーム(新しい注釈前)と現在の安定したフレーム(注釈後)の画素ごとの閾値処理により作成された差分画像に関連した構成要素を使用して、空間解析を適用する。これにより、アルゴリズムが、新しい注釈を含む空間領域の輪郭を描くバウンディングボックスを識別することが可能になる。
【0060】
ステップ301で検出された各スライド変化イベントに対して、ステップ302で、本発明の方法300は、コンテンツ・スクロール・イベント回数及びこれらのスクロールの個々のスクロールオフセットを検出する。ステップ301で識別されたバウンディングボックスの幅が、スクロール検出のための頼りになるキューである。バウンディングボックスの幅がビデオの幅に近づくとき(すなわち、フレーム幅に依存する閾値を超える)、方法はスクロールイベントを記録する。スクロールイベントの前後のフレームを位置合わせさせることにより、スクロールの量が検出される。1つまたは複数の実施形態では、この検出は、高い画素強度エントロピを有する列のサブセットをまず選択することにより効果的に行われる。このような列は、ある範囲の色を有し、連携のために、より頼りになる。その後、ビデオ・スクロール・イベントの前後で、ビデオフレームの対応する列の間の1次元(1D)相関が計算され、それぞれの列に対して最大相関を生み出す移動が記録される。個々の列の推定された移動量のセットの多数決としてスクロール量が報告される。代替的に、この処理は、スクロール量推定の際にさまざまな信頼基準を生み出して、半自動処理または手動補正を支援することができる。
【0061】
ステップ306を参照すると、方法300は、次いで、スライド更新を単一画像にスティッチする。スクロールの量に対する推定値を考慮すれば、ステップ306で、処理は、(表示される注釈付きコンテンツを最大にするために)検出されたスクロールイベントの直前に収集されたフレームを組み合わせて、完全なオーバービュー画像を作成する。一般に、オーバービュー画像の高さはビデオフレームの高さより高いが、オーバービュー画像の幅はビデオフレームの幅と同一であることに留意されたい。ステップ303を参照すると、方法300では、別個の処理が、スクロールイベント間で行われたコンテンツ更新をクラスタ化する。一実施形態では、ステップ302で検出されたスクロール回数が、ビデオの粗いナビゲーション制御手段を提供するが、図4に関連して以下で説明されるように、ステップ303で検出されたコンテンツクラスタが、よりきめ細かいナビゲーション制御手段を提供する。
【0062】
1つまたは複数の実施形態では、スクロールイベントの間に追加されたテキストのバウンディングボックスが、オーバービュー画像のナビゲーションを拡張するように処理される。一例では、検出された変化のバウンディングボックスのセットの階層的クラスタ化が、ユーザがビデオの中にジャンプすることができる時点の数(細分性)を柔軟に調節するために使用される。時間によりグループ化することが最も自然な手法である。しかしながら、クラスタ化の中に空間情報(バウンディングボックスの場所)を組み入れることは可能な拡張である。これは、コンテンツが「左から右へ」または「上から下へ」など、一貫した手法で追加されるときに役立つ。一実施形態では、図4に示されるように、ユーザが本発明のユーザインタフェース内に示される注釈をタップするとき、注釈バウンディングボックスのクラスタに対応するビデオセグメントが再生される。
【0063】
クラスタがこのように識別された後、ステップ304で、クラスタの場所がビデオのシーク時間にマッピングされ、その結果、ユーザが選択した特定のクラスタが、特定の時間的ビデオセグメントに変換される。最後に、ステップ305を参照すると、ステップ306で生成されたオーバービュー画像も、ステップ304で生成されたマッピングも、ビデオ内部をナビゲートするためのユーザインタフェースを提供する際に使用される。
【0064】
図4は、前述のオーバービュー画像401を使用してビデオ内部をナビゲートするためのユーザインタフェース400の例示的動作を示す。上述のように、オーバービュー画像401は、標準的ビデオフレームの高さより高い。1つまたは複数の実施形態では、生成されたユーザインタフェース400により、ユーザが、図4に示されるスクロール位置402及び403に対応する、ステップ302で検出されたスクロールイベントの間でオーバービュー画像401をスクロールすることが可能になる。一実施形態では、本発明のユーザインタフェース400により、ユーザが、タッチスクリーンインタフェース110またはポインティングデバイス210をそれぞれ用いて、本発明のグラフィカル・ユーザ・インタフェース生成モジュール120または219により検出されてもよい一般的な垂直スワイプ対話を使用して、オーバービュー画像401をナビゲート(スクロール)することが可能になってもよい。
【0065】
ユーザのスクロール選択に基づき、ユーザインタフェース400は、スクロールイベント前のビデオフレーム404、またはスクロールイベント後の、より後のビデオフレーム405及びその後の注釈追加を示す。図4から理解することができるように、示されるビデオフレーム404は、オーバービュー画像401の上の方の(時間的により前の)部分402に対応するが、ビデオフレーム405は、オーバービュー画像401の下の方の(時間的により後の)部分403に対応する。1つまたは複数の実施形態では、本発明のビデオ・ナビゲーション・モジュール121は、ユーザがフレーム404内部のクラスタ408などの特定のビデオフレーム内部のクラスタを選択したときにイベントを検出するように構成される。ユーザによるこのようなクラスタ選択を検出すると、ビデオ・ナビゲーション・モジュール121は、選択されたクラスタ内部に注釈が追加されたビデオセグメント406を再生するように構成される。前述のセグメントの開始時間が、図3の処理ステップ304で生成されたマッピングに基づき決定される。一実施形態では、セグメントはスクロールイベント間のビデオの部分を含んでもよい。
【0066】
1つまたは複数の実施形態では、ユーザが1本の指でスクリーンをタップしたとき、システムが、選択されたスクロールイベント時間にビデオをナビゲートし、スクリーン404または405をオーバービュー画像401の部分で隠し、407で参照されるように、ビデオを再生し始める。ユーザは、スクリーンを2本の指で同時にタップすることにより、オーバービュー画像に戻ることができる。
【0067】
図3に示される方法300の実施形態はまた、スライドストリームを電子インクでオーバーレイするビデオに適用することができることに留意されたい。この場合、図3に示されるスライド変化検出ステップ301が、新しいスライドを識別する。このデータは、たとえば前述の特許文献1で説明されるプロジェクタベースのビデオストリームと類似し、この場合も、検出された画素レベルの変化に主に依存して、関連するキーフレーム選択技法を使用することができる。当業者により理解されるように、スクロールは、このクラスのビデオでは珍しい。しかしながら、より拡張された期間に対して単一スライドを示すことができる。このような場合、本明細書で説明されるインクストロークのクラスタ化及びバウンディングボックス検出の追加が、前述のように役立つ可能性がある。
【0068】
したがって、グラフィカル・ユーザ・インタフェース生成モジュール120及び219により生成される本発明のグラフィカル・ユーザ・インタフェースの一実施形態が、すべての別個のスライドをユーザに表示してもよく、スライドは、すべて注釈付きで示される。このようなインタフェースは、ビデオの個々のセグメントへの階層的な非線形アクセスをユーザに提供してもよい。1つまたは複数の実施形態によれば、ユーザは、本発明のユーザインタフェースにより検出された、関心のあるスライドセグメントをまず指し示すことができる。このスライドセグメントに対するオーバービューサムネイル上に示された注釈を再度選択することにより、ユーザは、注釈が追加されたサブセグメントにナビゲートし、かつ対応するビデオセグメントを再生させることが可能になる。
【0069】
上述の技法は、電子インクを使用して、電子ホワイトボードまたは他の何らかの特定のタイプのコンテンツもしくは媒体に追加された注釈または他のコンテンツのビデオ用のナビゲーション可能なオーバービューを作成することに限定されないことに同じく留意されたい。任意の媒体に追加される任意のコンテンツに対しても、実質的に同一技法が使用されてもよい。
【0070】
1つまたは複数の実施形態では、前述のオーバービュー画像が、3次元物品のビデオ用に同じく生成される。しかしながら、この場合、上述の実施形態のように、物品の平坦なマップを単に作ることでは十分ではない。したがって、1つまたは複数の実施形態では、3次元物品に対して、物品の異なる側面を表すビデオフレームを後で選択するために、カメラ111により記録されるビデオと同時に、位置/向きモジュール103によりカメラ向き情報が取り込まれる。「向き」という用語は、本明細書で使用されるとき、全地球的コンパス方位だけでなくカメラの傾きも意味する。これらの2つの向きパラメータは、ビデオ記録中に同時に記録され、データストレージ122に記憶され、その後、物品の所与の側面に対応するビデオフレームの位置を特定するために使用される。
【0071】
追加で、物品自体が任意の方向に向けられてもよいので、1つまたは複数の実施形態では、ユーザは、記録された向きを傾きなしの物品の前面にマッピングする向き登録ポイントを提供するよう要求される(たとえば、物品が鉛直の状態で撮影された真向いからの(straight−on)写真)。図5は、計算処理システム100の表示装置109上に表示されたビデオ取得アプリケーション115のグラフィカル・ユーザ・インタフェース500の例示的一実施形態を示す。インタフェース500は、前述のカメラ111のファインダとして機能する、カメラ111からのリアル・タイム・ビデオ502を示すライブビデオ部分501を備える。追加で提供されるのが、ユーザがアクティブ化して、物品の前面の真向いからの写真にマークをつけることができる前面マークボタン503である。アプリケーション115のビデオ取得モジュール117は、ビデオだけでなく、カメラの向き、及び物品の前面の真向いからの写真のユーザ指定を含む関連するメタデータも同時に記録するように構成される。記録された情報は、データストレージ122のビデオ及びメタデータストレージ123に記憶される。
【0072】
図6は、物品のビデオを取り込んで処理し、かつビデオナビゲーションに使用可能なビデオオーバービューを生成するための方法600の例示的一実施形態を示す。まず、ステップ601で、ビデオ、及び向き情報を含む関係するメタデータが取り込まれる。ステップ602で、たとえばユーザインタフェース500の前述のボタン503を使用して、物品の前面ビューのユーザ指定が検出される。任意選択で、ステップ603で、取り込まれたビデオ及び関連するメタデータが、処理するために、計算処理システム100からデスクトップ計算処理システム200に転送されてもよい。
【0073】
ステップ604で、カメラ111の向きが物品の6つの側面の各々の1つの上におおよそ存在する時間範囲が選択される。ステップ609で、ビデオ処理モジュール118または217が、記録されたビデオから物品の側面近傍の6つのビデオフレームを選択する。選択されたビデオフレームは、傾きなしの調節されたカメラコンパス方位0°、90°、180°、及び270°、ならびに傾き90°での1つのビデオフレーム及び傾き270°での1つのビデオフレームに対応してもよい。1つまたは複数の実施形態では、取り込まれたビデオの中で前述のコンパス方位に対応するフレームが利用できない場合、ビデオ処理モジュール118または217は、この物品側面を単にスキップするように構成される。1つまたは複数の実施形態では、ビデオ処理モジュール118または217は、単純なシャープネス尺度を利用して、特定の物品側面と適合する向きでフレームをフィルタ処理する。複数のフレームが特定の側面と適合し、かつ十分シャープである場合、ユーザが記録するビデオが、クローズアップを撮る前にオーバービュー写真をまず撮る可能性が高いという仮定で、最も前のフレームが選択される。
【0074】
その後、ステップ605を参照すると、方法600は、時間及び向きに関して近い、取り込まれたビデオのフレームをクラスタ化し、それに従ってビデオをセグメント化する。1つまたは複数の実施形態では、カメラの向きと前述の向き登録ポイントとの差の絶対値を閾値処理することにより、ビデオがセグメント化される。追加でまたは代わりに、ステップ610を参照すると、当業者によく知られているコンテンツマッチング技法を使用して、ビデオがコンテンツに基づきセグメント化されてもよい。1つまたは複数の実施形態では、コンテンツに基づくビデオのセグメント化が、画像解析または画像マッチング技法を使用して実施される。たとえば、一実施形態では、画像処理モジュール118及び217が、ビデオ内の各ビデオフレームに対する画像特徴を、たとえば当業者によく知られているスケール不変特徴変換(SIFT:scale−invariant feature transform)の画像特徴を抽出するように構成される。抽出された画像特徴は、その後、ステップ609で選択されたビデオフレームの画像特徴と比較される。適合する画像特徴の数により決定される、類似するビデオフレームが、セグメント化ステップ中に同一セグメントに含まれる。代替の一実施形態では、類似するコンテンツを有するフレームのセグメントを見つけ出すために、ステップ609で選択されたフレームを使用せずに、ビデオフレームが互いに比較されてもよい。得られたビデオセグメントは、ステップ606で得られたビデオフレームにマッピングされ、フレームだけでなくマッピングされたビデオセグメントも、ビデオナビゲーションのためにユーザインタフェースに送信される。1つまたは複数の実施形態では、ステップ608を参照すると、選択されたフレーム内部の特定の場所にビデオのサブセグメントをマッピングするために、画像またはコンテンツ・マッチング・アルゴリズムが追加で使用される。よりきめ細かいビデオナビゲーションのために、選択されたフレーム内部をユーザがクリックすることができるようになるように、これらのビデオフレームサブ領域ならびにリンクされたビデオサブセグメントに関する情報が、ステップ607で生成されたユーザインタフェースに同じく送信される。
【0075】
ステップ609で実施される、物品の各側面に対するフレームを選択する方法が、図7に関連して示される。グラフ701を参照すると、カメラのコンパス方位が、時間703及び角度702の関数としてビデオと一緒に記録される。グラフ704を参照すると、ユーザが物品の前面ビューを指定した後、コンパス角度が物品中心の角度に変換される。次いで、ビデオがこれらの角度に基づき、物品のそれぞれ示された側面に対応して垂直の角度軸705上に0°、90°、及び180°のマークをつけてセグメント化される。各セグメント内部では、「真向い」方向からの向きの偏差が、角度708及び時間703の関数としてグラフ707により示される。選択されたフレーム(キーフレーム)位置713、714、及び715が、画質711の尺度710(シャープネス尺度など)を一緒に最大化し、かつ同時に、各カメラ111の向きに対する「真向い」からの偏差707を最小にすることにより見つけ出される。これは、この向きに対する代表的な画像となるように、特定向きに対応する画質が最もよい画像(たとえば、最も鮮明なビデオフレーム)を選択するように実施される。1つまたは複数の実施形態では、キーフレーム713、714、及び715が、当業者によく知られている2変数(画質及び「真向い」からの偏差)の関数に対する最適化技法を使用して決定される。たとえば、臨界点でのこのような関数の局所的最大値及び局所的最小値を見つけ出すことにより、最適化が実施されてもよい。1つまたは複数の実施形態では、キーフレーム位置713、714、及び715が、反復技法を使用して決定されてもよい。
【0076】
図7に示される例が、物品の右側からのビューを除外し、かつ生成されたオーバービューに右側のビューが含まれないことに留意されたい。明確にするために、この図は、最上部及び底部からのビューの選択を示さないが、これらのビューは、コンパス方位角の代わりに垂直傾斜角を使用して同様に選択される。
【0077】
図8は、作成されたビデオオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェース800の例示的一実施形態を示す。ユーザインタフェース800の示される実施形態は、ビデオ再生部分801、時間ナビゲーション部分802、及びオーバービュー部分803を含む。オーバービュー部分803は、図6に示される方法600のステップ609で選択された、物品の側面の1つに対応する代表的ビデオフレーム804を表示する。オーバービュー部分803はまた、他の物品側面に対応するフレームを選択するための制御手段805、806、及び807を組み入れる。オーバービュー部分803内に現在表示されている、物品側面804に対応するビデオのセグメントが、着色されたセグメント811を使用して、時間ナビゲーション部分802のビデオタイムライン812内にマークをつけられる。これらのビデオセグメントは、ビデオ制御手段808及び809を使用して、ビデオ再生部分801内で自動的にまたはユーザにより手動で再生されてもよい。具体的には、一実施形態では、ユーザにより特定の物品側面に対応するフレームが選択されると、適切なビデオセグメントが自動的に再生されてもよい。物品の他の側面に対応するビデオセグメントが、異なる色のセグメント810を使用して、タイムライン812上にマークをつけられる。
【0078】
図9は、作成されたビデオオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェース900の別の例示的実施形態を示す。この図では、オーバービュー部分803が、物品の異なる側面に対応するフレーム904を表示する。表示された物品側面にリンクされたビデオセグメントが、着色されたセグメント910を使って、ビデオタイムライン812上にマークをつけられる。同様に、図10に示される実施形態1000では、物品の上側に対応するビデオフレームが、オーバービュー部分803に示される。表示された物品側面にリンクされたビデオセグメントが、着色されたセグメント1010を使って、ビデオタイムライン812上にマークをつけられる。オーバービュー部分803内に表示された、物品の側面の画像が、物品のビデオから得られたビデオフレームである必要は必ずしもないことに留意されたい。適切なビデオセグメントにマッピングされることができる、物品の他の何らかの画像が、ビデオナビゲーションのために同様に使用されてもよい。
【0079】
図11は、タッチスクリーンインタフェース110またはポインティングデバイス210を使用して、ユーザが直接操作することができる3次元立方体の中にオーバービュー画像1104が張り付けられたグラフィカル・ユーザ・インタフェース1100の例示的一実施形態を示す。現在の視野角を使用して決定されてもよい、立方体の1つの特定の側面を主に示すために、立方体がユーザによりオーバービュー部分803内に位置決めされたとき、示された側面に対応する1つまたは複数のビデオセグメントが、ビデオタイムライン812内に適切にマークをつけられる。
【0080】
上記の説明は、オーバービューがソースビデオ自体から生成された場合と関係があった。しかしながら、いくつかの事例では、記録された物品の3次元(3D)モデルが利用可能であることがある。たとえば、このようなモデルは、サードパーティのデータベースから利用可能であってもよい。また、さまざまな実施形態では、物品の3次元モデルが、複数の整理されていない部分的3次元物品モデルを組み合わせることにより生成されてもよい。したがって、本明細書で説明される本発明の技法は、利用される3次元物品モデルの任意の特定のタイプ、またはこのようなモデルが作成された手法に限定されない。
【0081】
図12は、対応する3次元モデル1205が利用可能であるときに物品のビデオを処理する方法の例示的一実施形態1200を示す。まず、ステップ1201で、物品のビデオ、及び任意選択でカメラ向きメタデータが取り込まれる。任意選択で、ステップ1202で、取り込まれたビデオ及びメタデータが、処理するために、計算処理システム100からデスクトップ計算処理システム200に送信されてもよい。その後、ステップ1203で、ビデオが、対応する物品の3次元モデルに登録(リンク)される。一実施形態では、提供された3次元モデルにビデオをリンクするために、上記で説明されるように、ビデオ処理モジュール118及び217が向きメタデータを使用する。この実施形態では、ユーザは、登録ポイントを提供するために、たとえば図5に示される前面マーク(mark front)ボタン503を使用して、ビデオ記録中に物品の前面にマークをつけるように求められる。次いで、画像処理モジュール118及び217が、物品の、マークされた前面側写真と一緒にカメラ向き情報を使用して、ビデオを3次元モデルと連携させる。代替の一実施形態では、ビデオ処理モジュール118及び217は、当業者によく知られている画像マッチング技法を利用して、取り込まれたビデオ内のポイントに3次元モデル上の単一ポイントをリンクし、カメラ向き情報を使用して、ビデオからモデルへの連携を達成する。さらなる代替実施形態では、画像処理モジュール118及び217は、画像(コンテンツ)マッチングだけを使用して、どんなカメラ向きメタデータも使用せずに、ビデオと3次元モデルをリンクしてもよい。
【0082】
上述の実施形態では、ステップ1204を参照すると、その後、時間及び向きメタデータを使用して、上述のようにビデオがセグメント化される。ステップ1206で、得られたビデオセグメントがモデルと連携される。次いで、これらのビデオセグメントを、ステップ1207で生成されたユーザインタフェースに向き/時間の対として直接送信することができる。1つまたは複数の実施形態では、グラフィカル・ユーザ・インタフェースが対話型オーバービューモデルの現在の視野角に基づき見ることができるビューをフィルタ処理し、図8図11に示される実施形態で使用される手法に類似する手法で、対応するビデオセグメントにマークをつける。
【0083】
1つまたは複数の実施形態では、ステップ1208及び1209を参照すると、ビデオセグメントをモデル上によりきめ細かく配置するために、画像処理モジュール118及び217が、代わりにセグメントに対する画像(コンテンツ)マッチング、及びモデルへのセグメントのリンクに依存してもよい。たとえば、画像処理モジュール118及び217は、当業者によく知られている方法を使用して、利用可能な3次元モデルに対してビデオ全体をマッチングさせようと試みることができる。あるいは、画像処理モジュール118及び217は、外観または動きの特徴に基づき、ビデオを非常に類似するセグメントにセグメント化し、次いで、実質的に上述のように、各セグメントからの代表的な画像を3次元モデルと連携させることができる。いずれの場合も、図13に関連して示されるように、グラフィカル・ユーザ・インタフェースがセグメント全体のポーズをモデル上にポイントとして直接描くことができるので、セグメント化が可視化を固定する方法を提供する。たとえば、1つまたは複数の実施形態では、適合した画像の中心、または適合した画像の平均中心が、3次元オーバービューモデル上に提示され、適切なセグメントにリンクされる。
【0084】
図13は、ビデオ内に描かれた物品の3次元モデルに基づくオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェース1300の例示的一実施形態を示す。グラフィカル・ユーザ・インタフェース1300は、ビデオ再生部分1301、制御手段1309及び1310を備える時間ナビゲーション部分1302、ならびにオーバービュー部分1303を組み入れる。オーバービュー部分1303は、ビデオ再生部分1301内に描かれた物品の3次元モデル1304に関するビューを表示する。個々のビデオセグメントにリンクされた、3次元モデル1304上の特定の場所が、着色された、ユーザ選択可能なドット1305、1306、及び1307でマークをつけられる。ユーザが、マークされたドットを選択したとき、対応するビデオセグメントがビデオ再生部分1301内で再生される。再生部分1301内で現在再生されているビデオに対応するユーザ選択可能なドットが(図13ではドット1305がユーザにより選択され、対応するビデオセグメントが再生されている)、残りのドット(1306、1307)と異なる色でマークをつけられてもよい。
【0085】
図14は、ビデオ内に描かれた物品の3次元モデルに基づくオーバービューを使用してビデオをナビゲートするためのグラフィカル・ユーザ・インタフェース1400の別の例示的実施形態を示す。インタフェース1400のオーバービュー部分1303が、ユーザにより回転させられた3次元モデル1404を描く。モデルがこのように回転させられたとき、ユーザ選択可能な着色されたドット1405、1406、及び1407でモデル上にマークをつけられた、他の利用可能なマッピングされたビデオセグメントのビューが見えてくる。再生部分1301内で現在再生されているビデオに対応するユーザ選択可能なドット(図14ではドット1405がユーザにより選択され、対応するビデオセグメントが再生されている)が、残りのドット(1406及び1407)と異なる色でマークをつけられてもよい。
【0086】
当業者により理解されるように、本明細書で説明される技法は、任意の2次元または3次元の物品及び/または物品モデルに関連して使用されてもよい。2次元物品の場合、物品の2つの側面(前面及び背面)だけに対応するビデオフレーム及び関連するマッピングされたビデオセグメントが、ビデオナビゲーションのために使用されてもよい。
【0087】
最後に、本明細書で説明される処理及び技法が、任意の特定の装置に固有に関連づけられているのではなく、構成要素の任意の適切な組合せにより実装されてもよいことを理解されたい。さらに、本明細書で説明される教示に従って、さまざまなタイプの汎用デバイスが使用されてもよい。また、専用装置を構築して、本明細書で説明される方法ステップを実施することが有利となることがある。制限するのではなく例示することをすべての点で意図した特定の例に関連して本発明が説明された。当業者は、ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組合せが、本発明を実施するのに適していることを理解されよう。たとえば、説明されるソフトウェアが多種多様なプログラミング言語またはスクリプト言語で、たとえばアセンブラ、C/C++、Objective−C、perl、シェル、PHP、Java(登録商標)だけでなく任意の現在よく知られている、または今後開発されるプログラミング言語またはスクリプト言語で実装されてもよい。
【0088】
さらに、本明細書で説明される本発明の明細及び実践の考察から、本発明の他の実装形態が当業者には明らかであろう。説明される実施形態のさまざまな態様及び/または構成要素が、ビデオ用のナビゲーション可能な空間的オーバービューを生成及び使用するためのシステム及び方法で、単独でまたは任意の組合せで使用されてもよい。実施例は、例示としてだけ考慮されることを意図しており、本発明の真の範囲及び思想は、特許請求の範囲により示される。
【符号の説明】
【0089】
101、201 CPU
110 タッチスクリーンインタフェース
111 カメラ
206 キーボード
109、209 表示装置
210 ポインティングデバイス
112、212 メモリ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14