(58)【調査した分野】(Int.Cl.,DB名)
前記第1および第2のデジタルファイルの少なくとも一方が、少なくとも1つのスライドを含むプレゼンテーション・デジタルファイルに分類された場合、セグメントに分割するための前記プロセスは、分類された当該デジタルファイルを、各々がプレゼンテーション・スライドを含む複数のセグメントに分割することを含む、請求項1に記載の方法。
前記第1および第2のデジタルファイルの少なくとも一方が、少なくとも1つのスライドを含むプレゼンテーション・デジタルファイル以外に分類された場合、セグメントに分割するための前記プロセスは、分類された当該デジタルファイルを時系列に複数のセグメントに分割することを含む、請求項1に記載の方法。
前記第1のデジタルファイルの第1のデジタルファイルセグメントの再生中に、前記第1のデジタルファイルセグメントの少なくとも1つのコンテンツ特徴を検出することは、
少なくとも1つのコンピューティング・デバイスが、前記第1のデジタルファイルの再生中にユーザによって選択されたコンテンツ特徴を受け取ること、
を含み、さらに、
前記第1のデジタルファイルの再生中にユーザによって選択されたコンテンツ特徴を受け取ることは、
前記コンピューティング・デバイスが、
前記ユーザが前記第1のデジタルファイルの前記再生を一時停止している間に前記第1のデジタルファイルの前記第1のデジタルファイルセグメントに対して認識プロセスを適用すること、および、
前記第1のデジタルファイルの前記第1のデジタルファイルセグメントのうち前記ユーザがユーザ・インターフェイスを用いて選択した領域に対して前記認識プロセスを適用すること、
の少なくとも一方を含む、請求項1〜3の何れか一項に記載の方法。
【発明を実施するための形態】
【0016】
(関連技術について)
自由に情報検索作業を行う中でコンテンツの材料を見つけようとする場合、ユーザは、さまざまな材料にわたって見つけ出されたアイデアやコンセプトを集め、そして合成しなければならない場合が多い。テキスト材料の文脈において、ブラウジングは、複数の文書に対する素早い流し読みと集中的な読み込みの組み合わせによって実現される。実践的には、ユーザには、複数のドキュメントを同時に検索し、調査できることが求められる。
【0017】
関連技術であるビデオ・インターフェイスは、安全監視などのビデオストリームの同期が必要となる特定の状況を除き、ユーザが一度に一つのビデオを見るという前提で開発されてきた。関連技術であるそのようなビデオ・インターフェイスでは、現在見ているビデオ全体との関連性に基づき、追加のビデオをユーザに提案することもある。例えば、ビデオは類似のタイトルや、ビデオに対応付けられているその他の類似のテキスト、例えば著者や要約に基づいて提案されることもある。
【0018】
代わりに、その関連技術では、ビデオは、そのビデオに対して共に好意を表している(あるいは共に単にそれを見た)閲覧者と他の閲覧者との間での特徴の類似性に基づいて提案されることもある。加えて、その関連技術では、ビデオは、そのビデオに関連付けられたメタデータの類似性に基づいて提案されることもある。しかしながら、そのような提案は、ビデオ全体に基づいており、そのような関連技術のシステムは、そのビデオの内部やセグメントに対するアクセスをサポートしていない。さらに、提案を行うために使われるコンテンツの特徴は、最近あるいは現在、ユーザによって見られたということに限られている。
【0019】
関連技術であるビデオサーチ・サイトは、単一のビデオ全体に対応付けられたメタデータに基づき、関連するビデオを提案する。さらに、関連技術であるそれらのサーチサイトは、製作者によって予め定義されたウェブ・リンクや、製作者および/または閲覧者の行動情報に基づいている。
【0020】
関連技術として、あるシステムは、ビデオのコンテンツ、特に、そのビデオに現れる人物の名前を反映した関連ビデオ(あるいは他のメディア)へのリンクを提供する。しかしながら、リンクはあるビデオ全体から他のビデオ全体へのものであり、あるビデオの1つのセグメントから他のビデオの他のセグメントへのものではない。さらに、リンクは、手作業によって(即ち、製作者や閲覧者によって)定義されたテキストのメタデータに基づいて行われる。
【0021】
関連技術として、あるシステムは、ある軸に基づいてビデオセグメントを表示する。この表示において、一つの軸(例えば水平軸)は時間(即ち時系列)を表し、別の軸(例えば垂直軸)はコンテンツに基づく類似性を表す。このシステムにおいて、ユーザは、現時点を起点として、任意の選択された次元(たとえば、時間次元あるいはコンテンツに基づく次元のいずれでも)をもナビゲートすることができる。しかしながら、この関連技術のシステムは、セグメントに基づく解析に極めて限定的であって、フレームが線形にだけ並べられる「スレッド・モデル」に依存している。ここで使われるように、「スレッド・モデル」とは、ユーザが任意の次元において、隣接するオブジェクトだけをナビゲートできるということを意味する(すなわち、ユーザが時間的に次の/前の場面に行くこともできるし、現在の検索に関連して、見かけが似ている、字幕が似ている、あるいは、自動的に判断されたコンセプトが似ている、次の/前の場面に行くこともできる)。この関連技術のシステムにおいて、ビデオの中の重要な領域をユーザに選択させるという機能は無い。さらに一般的には、この関連技術のシステムにおいて、クエリに対する明示的なフィードバックを動的に加える手段は無い。例えば、文字列としての単語を加えることによって推薦文を更新しようとするために、クエリセッションの全体が再実行される必要があり、そのことによって、インターフェイスに現れる全てのランキング(例えばスレッドあたりの)を変更してしまう。関連技術のシステムは、ユーザが結果を見ながら興味の側面を蓄積することによって探索するような、漸進的なアプローチを行わせることはできない。
【0022】
関連技術である、コンテンツベースのビデオ処理システムは、フレームの中で、再生されるビデオの他の場所で出現するかもしれないオブジェクトを指定させる。しかしながら、このシステムは、単にひとつの元のビデオの中でオブジェクトが出現することに基づいて、特別のタイムラインを作成するだけであって、さらには、そのアイデアに対して単なるオフラインの証明しかできておらず、インタラクティブではない。例えば、オブジェクトは、ビデオ全体にわたって複数のシーンで複数回出現してもよい。この関連技術のシステムは、映像中でそのオブジェクトが現れる別の場所をユーザに「再生」させ、提示することができる。しかしながら、この関連技術のシステムは、異なるビデオ間でのリンクを提供することはできず、そして、オブジェクトの出現だけに基づくのであって、その他のコンテンツの特徴には基づかない。実際のインタラクティブなシステムは提供されておらず、フレームやサブフレーム全体に基づいて視覚的特徴(SIFT)に基づくリンクだけが提案されている。
【0023】
その関連技術であるシステムは、デジタル写真を順序付けて、そして、写真の類似性の決定や写真のランク付けをメタデータだけに基づき決定する。しかし、ビデオの順序付けや、写真間の直接のナビゲーションを提供していない。
【0024】
さらに別の関連技術のシステムは、ビデオの中のオブジェクトをユーザに選択させ、そして、そのオブジェクトのリンクを付ける。さらに具体的には、そのオブジェクトは、ビデオ全体にわたって追跡され、そして、そのリンクは、そのオブジェクトがビデオに出現している限り存続する。しかしながら、そのリンクは、ユーザによって手作業で指定されなければならず、さらには、自動的に決定されることもない。
【0025】
別の関連技術のシステムとして、ハイパービデオの再生のためのユーザ・インターフェイスが提供されている(ハイパーリンクビデオ「埋め込みのクリック可能なアンカーを含むビデオストリームの表示」)。再生中に、インターフェイス中に事前に作りこまれたビデオハイパーリンクが現れる。そして、ユーザは、その静的なハイパーリンクを辿ることができる。しかしながら、ハイパーリンクは、動的に生成されるものではない。
【0026】
(実施例)
次に説明する詳細な説明において、同じ機能の要素には同様の番号が指定されることによって、図面への参照が行われる。上記の添付図面は、説明のためであって、限定のためではなく、実施例の思想と整合した具体的な実装を示す。これらの実装は、当業者であれば実施例を実践できる程度に十分詳細に述べられている。他の実装が利用されてもよく、そして/または、この実施例の精神および範囲から逸脱することなく、さまざまな要素の置き換えができることが理解されよう。加えて、この発明のそのようなさまざまな実施例は、説明されるように、汎用コンピュータ上で実行されるソフトウェアとして、専用ハードウェアとして、あるいは、ソフトウェアおよびハードウェアの組み合わせとして実装されてよい。
【0027】
この特許出願の実施例は、ある共通のトピックに関する複数のビデオをブラウズすることを包含する。複数の関連するビデオは、例えば、これに限定されないが、情報検索に関するプレゼンテーションのビデオの集合であってよい(例えば、プレゼンテーション・スライドを含むスライド・プレゼンテーション)し、壁の穴開けに関するハウツービデオの集合であってよいし、誕生パーティーを撮影したホームビデオの集合であってよい。そのような実施例において、ユーザは、その集合からビデオを再生してもよいし、それ以外の異なる関連情報が必要な場合には、そのビデオを一時停止してもよい。例えば、ユーザは情報検索に関するプレゼンテーション・ビデオの集合を所有していてもよい(例えば、1つまたは複数のプレゼンテーション・スライドを含むプレゼンテーション)。ユーザがそのビデオを、例えば、不変特徴量(SIFT: Scale-Invariant Feature Transform)を説明するスライド上で一時停止したならば、SIFT特徴について議論する他のビデオが提案される。
【0028】
これに代えて、ユーザが壁にどのように穴を開けるかについてのビデオをサーチし、ジョイント・ナイフの使い方を説明するフレームで一時停止したら、類似のジョイント・ナイフの動作を示している他のビデオ中の位置(例えば、具体的な時間、フレーム、フレーム中の部分)が提案される。
【0029】
これに代えて、ホームビデオの例で、ユーザは、あるパーティーで撮影されたいくつかのビデオの内の一つを見ており、そして、そのビデオを特定の人物のクローズアップの場面で一時停止してよい。その状況においては、その同じ人物を示す別のビデオが提案されてよい。
【0030】
これに加えて、ユーザは、推奨される関連ビデオの内の一つを選択してよく、そして、そのビデオはリンクされた位置の最初から再生されてもよい(例えば、具体的な時間、フレーム、あるいは、そのフレーム中の位置)。別の実施例において、ユーザは、ハウツービデオの中の興味あるオブジェクトを選択してよい。別の実施例において、ユーザはホームビデオの中である顔を選択してもよい。これらの実施例において、その選択されたものに基づいてリンクが提案されてよい。
【0031】
別の実施例として、ユーザはビデオを一時停止して、そして、フレーム中のコンテンツを選択し、より正確な提案をさせるためにどの特徴が比較の対象とされるべきかを指定してもよい。例えば、プレゼンテーション・ビデオにおいて、ユーザは、単語やフレーズを現在のスライド上で選択してもよい。
【0032】
選択の例としては、カーソルを、表示されているものに合わせる(例えば、マウスを操作して)ことであってよいし、表示されているものにタッチ動作をすることであってよいし、表示されているものの周りを囲うボックスを生成してもよい。別の実施例としては、フレーム中のコンテンツを選択するためにビデオを一時停止することが不要であってもよい(即ち、オンザフライであってよい)。
【0033】
ユーザがビデオの中の単語を提案するような例において、光学文字認識(OCR)が実行され、そして、関連ビデオへのリンクがその提案されたキーワードに基づいて提案されてよい。オブジェクトが選択されるような例において、リンクはSIFT特徴に基づいて提案されてよい。人物が選択される例において、リンクは類似の特徴(例えば、顔)に基づいてよい。ある例において、リンクの種類は、ビデオの集合に基づいて選択されてよい。例えば、プレゼンテーション・ビデオは文字列のリンクを用いてよいし、ハウツービデオは、SIFT特徴に基づくリンクを用いてよいし、ホームビデオは、顔認識の特徴に基づいたリンクを用いてよい。これに代えて、ユーザは、選択したコンテンツがマッチする場合に、リンクの種類をさらに指定してもよい。
【0034】
リアルタイムのインタラクションをサポートするためにビデオの集合が指定されると、インデックスが生成されてもよい。たとえば、プレゼンテーション・ビデオの集合において、スライドが抽出されてよく、光学文字認識がされてよく、インデックス付けされてよい。これに代わる例として、ホームビデオの集合(例えば誕生パーティ)において、各ホームビデオの各フレームに対して顔認識が実行され、顔特徴が格納されてもよい。この例において、複数のフレーム(例えば連続)にわたる類似の顔は融合され、そして、各顔に対してインデックスが作られてよい。ハウツービデオの集合の例において、SIFT特徴は、ビデオセグメントの各顔について計算され、または、各ビデオセグメントのある選択されたフレームについて計算される。
【0035】
(ユーザ・インターフェイス)
図1は、ビデオを閲覧し、ブラウズするためのユーザ・インターフェイス100を示す。ユーザ・インターフェイス100は、タイムライン120を備えたメインビデオプレイヤ・ウィンドウ105を有する。タイムライン120は、ビデオの製作者によって生成されたブックマーク170、175を有してよい。ビデオプレイヤ・ウィンドウ105の周りの複数の領域(160、180、190、195)は、キーフレーム140(例えば、ビデオから選択されたフレーム)として示される他のビデオへのアクセスを提供する。ユーザがキーフレーム140を選択した場合、そのキーフレームに対応するビデオ130は、メインビデオプレイヤ・ウィンドウ105に現れ、そして、その前のビデオ135は、既に見たビデオのコレクションに含まれる、即ち、既に見られたリストにのる。
【0036】
そのビデオプレイヤ・ウィンドウ105の周りのある領域は、ユーザのコレクション190である(例えば、
図1の「Your Videos」)。ユーザのコレクション190は、ビデオセグメント130のリスト、および、以前に見られたビデオセグメント135の履歴の双方を示してよい。この実施例において、ビデオセグメントは、ユーザからの要求のみによって、ユーザのコレクション190に入る。ビデオの提案は動的に行われるので、ユーザは、メインビデオプレイヤ・ウィンドウ105の中のビデオの再生が完了する前に、提案されたビデオを選択してよい。そのような場合、メインビデオプレイヤ・ウィンドウ105で再生されるビデオは、ビデオセグメント135の履歴に移される。その後、ユーザは、ビデオセグメント135の履歴の中から以前に見たビデオを選択することができる。さらに、ビデオセグメント135の履歴は、ユーザのコレクションのディスプレイ190に現れている、ユーザが以前に停止あるいは一時停止したポイント155から、ビデオを再生させることもできる。
【0037】
ビデオプレイヤ・ウィンドウ105の周りの第2の領域195は、関連するビデオが提案される、提案ビデオ領域である。他のビデオ140に対するこれらの提案は、メインビデオプレイヤ・ウィンドウ105の中で現在見られているビデオに関連し、そして、以前に見られたビデオ135に関連している。ある実施例において、ユーザは、提案されたビデオをすぐに選択してもよい。これに代えて、チェックボックス145によって、ユーザは、その提案されたビデオを、これから見る順番待ちのビデオセグメントのリストに追加してもよい。
【0038】
第3の領域160は、タイムライン120と、メイン・ビデオ・プレイヤ105で再生される現在の再生位置におけるコンテンツ115、125に基づいて抽出された情報165、200(例えば顔やテキストフレーズなどの)と、によって構成される。1つの実施例において、ユーザは、画像165、200を選択することによってその抽出されたコンテンツ情報を選択する、即ち、タイムライン120の下の領域から表示されたテキスト205を選択することができる。これに代えて、ユーザは、メイン・ビデオ・プレイヤ・ウィンドウ105の中の囲いの箱110のようなオブジェクトを生成してもよい。その囲いの箱110の中から抽出された項目は、参照符号165によって示されるように、選択されたものとしてマークされ、そして、タイムラインの下に示されてよい。ユーザは、また、関連を示すために、製作者が生成したブックマーク170のタイトルを選択してもよい。
【0039】
図1の第4の領域180は、「グローバルビデオコンテキスト」領域180であり、ビデオ全体に対し顔やオブジェクト210や、テキストフレーム215を含んでいてよい。たとえば、第4の領域180は、このビデオに付随する要約文から抽出されたタイトルやテキストフレーズなどの情報を含んでよい。これらの大域的な項目(顔/オブジェクト210およびテキストフレーズ215)はそれら自体では提案を提示しなくてよい一方で、再生中のビデオセグメントから抽出された局所的な項目(例えば、画像/顔165、200およびテキスト205)との組み合わせに用いられてよい。たとえば、「Bike(自転車)」という大域的な単語は、「Wheel(車輪)」という局所的な単語との組み合わせで用いられ、「BikeのWheel(自転車の車輪)」というビデオセグメントを見つけるために用いられてよい。ある実施例においては、大域的な項目を非選択にするオプションがユーザに与えられてもよい。
【0040】
ビデオセグメントの表現には、いくつかの形があってよい。サンプルのキーフレーム140は、ビデオからの画像であってよいが、それは、再生位置から取得されたものであっても、ビデオセグメントを表すものであっても、どちらでもよい。これに代えて、ある実施例においては、ビデオセグメントから取得したいくつかのキーフレームを組み合わせたキーフレームコラージュが、そのビデオセグメントの表現として使われてもよい。そのようなキーフレームコラージュの例は、4つのコラージュの形式であってもよいし、小さな漫画風コラージュであってもよいし、ステンドグラス風コラージュであってもよいし、その他当業者に知られた形の画像の組み合わせであってよい。
【0041】
これに代えて、ある実施例においては、そのビデオのいくつかのキーフレームが、常に、あるいは、ユーザのカーソル移動やマウス移動、あるいは、スタイラスの移動に応じて、順番にアクティブになって表示されてもよい。
【0042】
これに代えて、ある実施例において、ビデオプレイヤは、提案されたビデオセグメント140を、(例えば、ミニ・プレイヤ(メイン・プレイヤ・ウィンドウ105よりも小さいもの)として)ある定まった位置にて、その提案されたビデオセグメントをメイン・ビデオ・プレイヤに移動させること無く再生することをサポートしてもよい。ミニ・プレイヤのためのタイムラインなどの制御部は、ユーザがそのミニ・プレイヤとやり取りをするまでは表示されなくてよい。同時に、ユーザに、定位置の再生がサポートされていることが知らされてよい。例えば、再生をサポートするミニ・ビデオ・プレイヤは、1つまたは複数のキーフレームを表示するように設定されてよく、しかしながら、カーソル移動、マウス移動(デスクトップ上での)あるいはスタイラス移動(タブレット上での)がキーフレーム140に対して実行されると、そのキーフレームがミニ・プレイヤに形を変えてよい。これに代えて、ある実施例において、タブレットに対する長押し(ボタンやオブジェクトを長い期間押し続けること。当業者には知られている。)が再生を開始させてもよいし、再生ボタンがキーフレームの角に提供されてもよい。そのような実施例において、ミニ・プレイヤのタイムラインはビデオを再生するという要求があるまでは不可視であってよい。
【0043】
これに代えて、ある実施例においては、ミニ・ビデオ・プレイヤを直接提供するのに代えて、階層的なキーフレームのブラウズがビデオの再生開始点を見つけるために使われてもよい。即ち、ユーザにビデオの再生開始位置を選択させるため、複数のキーフレームを提供してよい。ブラウザは、ビデオをブラウズできるよう、少なくとも3つか4つの画像の広さを有してよい。あるプロセスは、キーフレームの大きさを変えさせて、単一のキーフレームから異なるスペースを使ってもよい。これに代えて、キーフレームは、ウィジェットなどのポップアップを、ユーザのジェスチャに応じて起動させてもよい。これに代えて、提案ビデオ140がそれぞれの提案ビデオ140について信頼できる再生開始位置150を有している場合には、キーフレーム・ブラウザは必須でなくてよい。
【0044】
関連するコンテンツを探すことについて、ある実施例は、ユーザによる操作を考慮に入れてもよい。例えば、ビデオを一時停止することは、ユーザによる興味を示すと解釈することができ、そして、あるセグメントを複数回再生することは、非常に大きな興味と解釈されてもよい。これに代えて、抽出された項目を選択することは、既に議論したとおり、さらに強い興味を示しているかもしれない。そのような興味についてのさまざまな表現が、ユーザがどのようにビデオとやり取りするかに基づいて関連する素材を強調するために使われてよい。
【0045】
(関連ビデオ提案プロセス−概要)
実施例によれば、関連するコンテンツ間のリンクの動的な生成により、ユーザがビデオの再生を見るに当たり、閲覧の提案を実現することができる。このような動的な生成は、ある同一の元ビデオの中の複数のビデオセグメントの関係を特定するという自動解析の目的で行われてよいし、さらに、異なる元ビデオのビデオセグメント間の関係を解析するという目的で行われてもよい。これは、ビデオを複数のユニット(セグメント)にセグメント分けすることによって実現される。セグメント分けのあと、コンテンツについて利用可能な特徴(例えば、テキストまたはオーディオの特徴、顔の特徴、あるいは、ビデオから抽出可能なオブジェクトの情報)だけでなく、そのビデオに関連付けられた利用可能なメタデータが収集され、インデックスの中で対応するセグメントに関連付けられてよい。関連セグメントは、コンテンツの特徴やメタデータのその対応する集合やインデックスを解析することによって特定され、そして、ユーザに対し再生中に提案される。
【0046】
図2は、少なくとも1つの実施例において、セグメントを提案するプロセスS200 の例を示す。S210において、ビデオが1つまたは複数のセグメントに分割される。セグメント分けのプロセスの例は、下記で詳しく議論される。ビデオが1つまたは複数のセグメントに分割されると、各セグメントは、S215において、1つまたは複数のコンテンツ特徴を抽出するために解析される。セグメント解析のプロセスの例は下記で詳しく議論される。1つまたは複数のセグメントが、1つまたは複数のコンテンツ特徴を抽出するために解析された後に、1つまたは複数のセグメントのコンテンツ特徴のインデックスが、S220において生成される。S225において、ビデオの再生中に、現在再生中のセグメントが解析され、コンテンツ特徴が抽出される。S230において、S220において生成されたコンテンツ特徴のインデックスを使って、現在再生中のセグメントについて抽出された特徴に類似するコンテンツ特徴を有するセグメントが、再生のために提案される。この例示プロセスの複数のステップは下記にて詳しく議論される。
【0047】
(セグメント分け、コンテンツ特徴抽出、および、インデックスの生成 - ビデオ中のテキスト)
図3は、上記S210において行われたビデオを複数のユニットにセグメント分けすると共に、上記S215にて行われた、セグメントのそれぞれからコンテンツの特徴(例えば、テキストやオーディオの特徴、顔の特徴、興味ある部分領域の選択、あるいは、ビデオから抽出可能なオブジェクトの情報など)を抽出するアプローチのフローチャートを示す。ビデオのセグメント分けに関するこの実施例で、S300において、初期のジャンルによるクラス分けがビデオに対して行われる。たとえば、ある実施例において、ビデオはプレゼンテーション・ビデオと非プレゼンテーションのビデオにクラス分けされてよい。このジャンルによるクラス分けによって、プレゼンテーション・ビデオを見ている間に動的にリンクを生成させることができる。インターネット上に分散しているプレゼンテーション・ビデオのための公知のサーチエンジン(特許文献1)は、あるビデオがプレゼンテーション・スライドを含んでいる可能性が高いかどうかを判断する自動分類機能を含む。そのような分類機能は、このプロセスの第1の段階(S300)で使われてよい。
【0048】
ビデオが分類された後に、S305において、ビデオが予め指定された指標に合致するか(例えば、ビデオがプレゼンテーション・ビデオか)が判断され、そのS305における判断に基づいてS305に続いて、2つの内一方の処理経路が選択される。
【0049】
S305における判断でビデオがプレゼンテーション・スライドを含むプレゼンテーション・ビデオであると判断されると(例えば、S305において「YES」)、スライドに基づくセグメント分けプロセスがS310において適用され、そして、そのプレゼンテーションを複数のセグメントに分割するために使われる。例えば、プレゼンテーションは、それぞれが1つのスライドを含む複数のセグメントに分割されてよい。ある実施例において、スライドの移行、すなわち、複数のスライドを分割するためのスライドの変更を判断するための公知の技術を用いて、ビデオの中の動きが自動的に検出されてもよい。しかしながら、当業者にとって明らかなように、それに代えて、1つまたは複数の代替のセグメント分けプロセスが用いられてもよい。
【0050】
プレゼンテーションが複数のセグメントに分割されると、各セグメントは、S315において、コンテンツの特徴を抽出するために解析される。
【0051】
ある実施例は、ビデオレベルのメタデータだけでなく、さらに、セグメント・レベルのコンテンツ特徴を使って、関連ビデオの提案を行ってよい。インターネット上に分散されたビデオを説明するビデオレベルのメタデータの情報源としてよく使われるのは、ビデオのウェブ・ページに現れるテキストである。たとえば、多くのビデオは説明(例えば、タイトルや製作者)や要約を伴い、それらは、有用ではあるが限られたテキストをビデオレベルのインデックス付けのために提供する。提供され、または、類似するビデオは、そのビデオレベルのメタデータおよびユーザーログに基づいて利用可能になってもよい。ウェブ・ページ上で検出されたテキストは、ビデオ全体に対して大雑把な類似性を示すことができるが、個別セグメントやスライドの解析によって、単一ビデオ内の、あるいは、複数の互いに異なるビデオにわたる、ビデオセグメントの間のより確かな類似性が提供される。ビデオレベルのメタデータの例は、これに限定されないが、ビデオタイトル、ビデオの製作者、テキストによる要約文、あるいは、製作者によって提供されたキーワードを含んでよく、さらには、ビデオが地理的にどこで撮影されたかについての情報(全地球測位システム(GPS)など)をさらに含んでよい。ユーザによって提供されたタグや分類(すなわち、YouTube(登録商標)などのウェブサイトから得られたもの)や、閲覧可能なコメントがさらに用いられてよい。ウェブ・ビデオに対しては、その他の、リンクに基づく情報がさらに用いられてよく、ビデオURLにおける任意のその他の情報が用いられてもよい。
【0052】
ある実施例においては、各セグメントについて、スライドに現れるテキストを収集するために、S320において、OCR技術を用いてもよい。これに加えて、ある実施例では、声の情報を抽出するために、S320において、自動音声認識技術(ASR)が採用されてもよい。さらに、スライドに現れるURLテキストが、光学文字認識技術を用いて、S320においてさらに検出されてよい。
【0053】
これに加えて、ある実施例では、テキスト以外のコンテンツのため、例えば、興味の対象がオブジェクトである場合のために、下記に議論されるように、オブジェクト認識技術や顔認識技術を用いて、スライドの画像を検出し、そして、各スライドセグメントを処理してよい。
【0054】
上述のセグメント分けおよび解析により、各プレゼンテーション・ビデオを自動的に検出したスライドに基づき時系列にセグメント分けすることができる。スライドに基づく各セグメントは、スライドテキストに対応付けられてもよいし、話されるテキストに対応付けられてもよいし、利用可能ならばURLのテキストに対応付けられてもよいし、さらに、検出された任意のスライド画像と対応付けられてもよく、これによって、リンクを生成し、そして関連ビデオを提案するために用いられる検索インデックスを作ることができる。光学文字認識、自動音声認識、あるいは、オブジェクト/顔認識技術といった当業者に知られた技術が採用されてよく、それらは、ここで述べられた具体的な技術に限定されるものではない。
【0055】
他の実施例において、ユーザは、興味あるテキストを指し示すために、興味あるテキストの周りに囲いの箱を作ってもよいし、タッチパッドにおいて選択のためのタッチを実行してもよいし、あるいは、スライドの領域の上にカーソルを重ねてもよい。OCR技術がその検出された囲い箱の中に適用されてもよく、それにより、あるキーフレームの空間的な領域に、そのOCRによって抽出された具体的なテキストを関連付けることができる。この情報を用いて、検索インデックスに対する語句のクエリ(複数のビデオにわたるものであっても、単一のビデオ内に対するものであっても)が自動的に表示されてよい。
【0056】
S305において、ビデオがプレゼンテーション・ビデオではないと判断されると(例えば、S305における「No」)、ビデオは、非プレゼンテーションのビデオに分類される。非プレゼンテーションのビデオは、スライドを含んでいなくてよく、そのため、一般の、場面セグメント分けプロセス、あるいは、一般の、場面セグメント分けアルゴリズムが、S325において適用される。例えば、特許文献2が、適用可能な場面セグメント分けアルゴリズムを説明する。これに代えて、当業者に知られている場面セグメント分けアルゴリズムが使われてもよい。
【0057】
ビデオがセグメント分けされると、コンテンツ特徴がS330において各セグメントから抽出される。そのようなビデオに対して、セグメント・レベルのメタデータの元として、上述したように、S335において自動音声認識技術を用いて抽出された話し言葉のテキストが用いられてよい。さらに、ある状況においては、ビデオが放送のコンテンツを含む場合などのように、話し言葉のテキストとして、字幕の情報が、セグメント・レベルのメタデータの元としてさらに使われてもよい。
【0058】
ユーザによって生成されたコンテンツのため、各セグメントをインデックス付けするため、他にも利用可能なものがある。たとえば、ある実施例においては、生物学的データ(例えば、顔の特徴)が、ユーザによって生成されたコンテンツにおいて検出されてよく、そして、そのような検出された顔は、S335 において、コンテンツを組織化するのに使われる。検出されたオブジェクトに関してセグメントを組織化するアプローチとしては、同様の他の技術をもちいることもできる。さらに、上述のように、ユーザは、カーソルを手作業で移動させ、または、タッチスクリーンにおいてタッチによる選択を実行し、あるいは、囲いの箱を生成することで興味のあるオブジェクトを特定してよく、そして、その後、類似の処理が採用されてよい。
【0059】
全てのビデオに対するメタデータの元として、さらに、ユーザが提供したブックマークを用いることもできる。例えば、ブックマークは、ユーザによってさまざまな箇所に作られることができる。これらのブックマークは、テキストによる注釈や、識別された顔やオブジェクトにリンク付けされてよく、このように、この情報は、ビデオセグメントをリンクでつなぐためのメタデータとしてたやすく組み込むことができる。さらに、ブックマークはそれ自体が他のビデオセグメントに対して直接にリンクすることができ、これによって、このシステムの性能がさらに影響を受けるかもしれない。
【0060】
非プレゼンテーションのビデオについて、テキストが出現する限りにおいて、一般の場面分けの結果に対してOCRが再度適用されてもよい。例えば、放送されるニュースの映像に重ねて表示されるテキストを解析して、具体的な話題に関するセグメントを識別してもよい。これに加えて、フレームの下部に沿って表示されるバナーやティッカー(一行でニュースを表示するもの)はテキストであるかもしれないので、それらが解析されてもよい。しかしながら、非プレゼンテーションのビデオにおいて、信頼できるテキストが見つからないことがしばしばであって、したがって、ビデオの提案を行うためには各セグメントをOCRで処理することは有用でないかもしれない。セグメント・レベルでのテキストの利用可能性は限られているが、この問題を緩和するためのいくつかの選択肢が存在する。テキストの存在可能性の低さを克服する1つの方法として提案されているのが、特許文献1である。これは、時系列的に長い期間(たとえば、複数のセグメントをカバーする期間)における全てのテキストを用いて、ある個別のセグメントからのテキストを、時系列的に近いセグメントからのテキストで補完する。代替の方法として、ビデオ(あるいはトピック)のレベル、および、セグメントのレベルの双方を組み合わせて、複数のレベルのインデックスを用いてもよい(特許文献1において議論されている。)。この代替策によって、階層的セグメント分けが可能になり、コンテンツに基づく類似性(即ちトピックセグメンテーション)に基づく不均一な時系列ウィンドウに対しテキストを加えてもよい。
【0061】
これらのいずれのアプローチも、現在のセグメント内の、あるいは、現在のセグメントと時間的に近くにおいて検出されるテキストを強調する重み付けの手段をさらに用いてもよい。さらに、これらを組み合わせたアプローチも、現在興味のあるセグメントを強調するような第2の重みを用いた、ビデオレベルの手動で作られたメタデータ(例えばビデオのURLから)を、そのビデオ自体から自動的に抽出されたテキストと重み付けをして組み合わせた手段を用いてよい。非プレゼンテーションのビデオのためには、当業者には明らかであるが、自動音声認識技術(ASR)(あるいは、利用可能ならば字幕を用いてよい)から抽出されたテキストに、一般的なビデオ場面セグメント分け技術を組み合わせることによって、類似の処理が実現されてもよい。
【0062】
(セグメント分け、コンテンツ特徴の抽出、および、インデックス生成 - ビデオ内のオブジェクト)
テキストに基づいた特徴抽出に加えて、ある実施例においては、関連するビデオが、コンテンツにおける類似するオブジェクトの特徴に基づいて特定されてもよい。例えば、コピー機の修理のビデオは、同じコピー機を何度も表示する。この実施例において、関連するビデオへのリンクは、現在のビデオの中で選択されたオブジェクトに基づいて生成されてよく、それは、2次元の局所的な特徴(たとえば、選択したオブジェクトのSIFTのような)に基づいて決定されてよい。
【0063】
この実施例において、コレクション中の各ビデオは、上述のように、場面分けアルゴリズムを用いてセグメント分けされてよい。各セグメントの各フレーム中のオブジェクトは、前景/背景のセグメント分けを用いて検出され、セグメント全体にわたって追跡される。セグメント中の各オブジェクトへのインデックスは、その後、そのビデオセグメント中のオブジェクトの近傍における2次元の局所的特徴を計算することによって作られる。あるビデオセグメントに現れるオブジェクトの出現回数に基づいて、異なる特徴には異なる重み付けが与えられてもよい。さらに、局所的な特徴が類似する隣接したセグメント内のオブジェクトは統合されてもよい。インデックスが作られると、局所的な記述子が生成され、そして、ANN(Approximate nearest neighbor)ツリーあるいはハッシュ表に挿入される。
【0064】
ある実施例において、ユーザが再生中のあるビデオのあるオブジェクトに興味がある場合、そのユーザは、そのフレームにおけるそのオブジェクトの領域を指し示してよい(一時停止がある実施例においては実行されてよいが、それは必須ではない)。その選択されたオブジェクトに対する2次元の局所的特徴量が、そのビデオシーケンスの中におけるそのオブジェクトの近傍においてその後計算されて、ANNツリーやハッシュ表の中で検索される。マッチすると、マッチした特徴についての幾何学的な検証が行われてもよい。それには、たとえば、局所的特徴の見かけとその幾何学的特徴に基づいたマッチを実現する、ランダムサンプルコンセンサス(RANSAC)アルゴリズムが用いられてよい。しかしながら、見かけのマッチングは、RANSACアルゴリズムを用いたものに限定されず、したがって、見かけマッチングを得るためには、RANSACアルゴリズムと組み合わせて、あるいは、これに代えた、代替の方法をとることもできることが、当業者に明らかである。
【0065】
(コンテンツの特徴抽出- ビデオ内の顔)
ある実施例において、ビデオ内に現れる人物の見かけは、当業者に明らかなように、豊富な情報を含んでいる。生物的情報の検出および診断は、オブジェクト検出の特別な領域と考えられている。生物学的情報の検出技術の一つの例は、顔認識および顔検出であってよい。
図4は、ある実施例において、顔の特徴を検出し、そして顔の特徴に基づいてビデオのセグメントのインデックスを生成する処理の例を示す。顔認識と顔検出を組み合わせることで、ビデオに現れる顔は関連する(類似の)顔を含む他のメディアに対するリンクを作るために用いることができる。
【0066】
これを実現するため、ビデオにおける顔の見かけがビデオの中で特定されなければならない。これには、少なくとも1つのフレームの中で、(顔検出方法によって)顔の見かけを検出し、その後に、S410において、そのビデオの中で検出された顔の見かけおよび動きを追跡することで、顔の見かけの時系列的な様子を判断することが必要である。例えば、ビデオの全てのフレームにおいて顔検出機能が実行されてもよいし、そして、後続のフレームの同じ領域において検出された顔は、1つの見かけにグループ化されてもよい。ある実施例において、あるビデオの中の空間的時間的な顔の追跡には、ビデオの中の一般のオブジェクト追跡を設計する当業者にとって知られたアルゴリズムが用いられてもよい。
【0067】
ある実施例において、顔の追跡解析の結果は、個別の顔の見かけについての、時間および空間のリストになるであろう(S415)。この情報は、顔の見かけについての時間およびフレームの座標における完全な記述を含み(S420)、あるいは、ビデオの場面境界によるセグメント分けのような、その他のいくつかのセグメント分けと関連付けられてもよい。区別された見かけは、顔認識やその他の視覚的類似判断方法を用いてリンクされてもよい(S425)。このリンクは、特定の人物を明確に認識することと、認識された人物の名前を手続きにおけるビデオセグメントと関連付けることとを含む(S430)。この場合、顔に割り当てられた名前は、カテゴリとなり、そして、その名前は、類似のカテゴリに分類された他のメディアとリンクされてもよい。
【0068】
これに代えて、メディアの間のリンクは、同一人物についての個別の複数回の見かけを認識することによって作られてもよい(S435)。これは、つまり、問題となっている各顔を名前によって明示的にラベル付けすることなく、複数回の顔の出現の間で類似性を見積もるという、顔類似性の指標を用いて行われてもよい(S440)。これによって、似ているがラベル付けされていない顔をリンクすることができる。この種の類似性指標は、あるビデオにおけるさまざまな顔の出現を、同じ人物による出現を統合するクラスタ分けのために使われてもよい(S445)。これにより、ビデオは、顔の出現のリストが完全にクラスタ分けされずにおかれるのではなく、出演者のリストによってリンクされることになる。
【0069】
顔抽出、顔追跡、顔認識、そして、顔のクラスタリングについての、当業者にとって知られた技術が使われてよく、そして、さまざまな代替が当業者にとって明らかである。
【0070】
(再生中のコンテンツ特徴の分析およびセグメントの提案)
各セグメントから全てのコンテンツ特徴が抽出されると、検索インデックスが、その抽出されたコンテンツ特徴だけでなく、各セグメントについての利用可能なデータにも基づいて生成される。
【0071】
再生中に、その抽出されたコンテキスト特徴および再生中のセグメントのメタデータは、さまざまなテキストのカテゴリ分けおよび検出の技術を用いて、類似性を判断するために用いられてよい。例えば、現在再生中のセグメントに対応付けられたコンテンツについて抽出された特徴は、他のセグメントを含む検索インデックスへのクエリとして用いられてよい。クエリに基づいて、利用可能なセグメントは、インターフェイスに表示されるテキストに基づく類似性(例えばTF/IDF(Term Frequency/Inverse Document Frequency))に基づいてランク付けられてよい。線形の単純な重み付けが、さまざまな属性、例えば、顔の出現/非出現、場所、および、イベントなどを組み合わせてセグメントをインタラクティブに並べるために用いられてよい。
【0072】
(コンピューティング・デバイスおよび環境の例)
図5は、発明を実施するための形態を実装するのに適したコンピューティング・デバイス(計算処理装置)の例を示す。コンピューティング環境(計算処理環境)500の中のコンピューティング・デバイス505は、1つまたは複数の処理ユニット、処理コア、もしくは、プロセッサ510と、メモリ515(例えば、RAMやROMのようなもの)と、内部ストレージ520(例えば、磁気的、光学的、ソリッドステートのストレージ、および/または有機的なストレージ)と、I/Oインターフェイス525とを備え、それらの全ては通信メカニズム、例えばバス530に接続されて情報の通信を行う。
【0073】
コンピューティング・デバイス505は、入力/ユーザ・インターフェイス535および出力・デバイス/インターフェイス540に通信可能に接続されてもよい。入力/ユーザ・インターフェイス535および出力・デバイス/インターフェイス540の少なくとも一方は、有線あるいは無線のインターフェイスによって接続されてもよいし、取り外し可能であってもよい。入力/ユーザ・インターフェイス535は、入力機能を提供する如何なるデバイス、コンポーネント、センサー、あるいは、インターフェイスであってよく、それは、物理的なものでも仮想的なものでもよい(例えば、キーボード、ポインティング/カーソル装置(例えばマウス)、マイク、カメラ、点字キーボード、モーションセンサ、および/または、光学読み取り機のようなもの)。出力・デバイス/インターフェイス540は、ディスプレイ、モニタ、プリンタ、スピーカ、または点字プリンタのようなものであってよい。ある実施例では、入力/ユーザ・インターフェイス535および出力・デバイス/インターフェイス540は、コンピューティング・デバイス505に埋め込まれ、あるいは、物理的に接続されてよい(例えば、ボタンやタッチスクリーンの入力/ユーザ・インターフェイスを備えたモバイルデバイス、ディスプレイやプリンタ、テレビなど)。
【0074】
コンピューティング・デバイス505は、外部ストレージ545およびネットワーク550に接続され、同一または異なる設定を有する1つまたは複数のコンピューティング・デバイスを含む、如何なるネットワークコンポーネンツ、デバイス、および、システムと通信してもよい。コンピューティング・デバイス505や接続しているその他のデバイスは、サーバ、クライアント、シン・サーバ、汎用機、専用機、その他として機能し、それらのサービスを提供し、あるいは、それらとして参照されてよい。
【0075】
I/Oインターフェイス525は、有線または無線の、如何なる通信あるいはI/Oのプロトコルまたは規格(例えば、イーサネット(登録商標)、802.11x、ユニバーサル・シリアル・バス(USB)、WiMAX、モデム、携帯電話ネットワークプロトコルなど)を用いて、コンピューティング環境500に接続された全てのコンポーネント、デバイス、そして、ネットワークと相互に通信してよいが、これらに限定されない。ネットワーク550は、如何なるネットワークであってもよく、あるいは、ネットワークの組み合わせであってよい(たとえば、インターネット、局所ネットワーク、大域ネットワーク、電話のネットワーク、携帯電話のネットワーク、衛星通信のネットワークなど)。
【0076】
コンピューティング・デバイス505は、状態遷移が可能(一時的)あるいは不能(非一時的)なものを含む、コンピュータによって利用可能あるいは読み出し可能なメディアを用いてよく、または、これらを用いて通信してよい。状態遷移可能なメディアは、伝送媒体(例えば、金属ケーブルや光ファイバー)、信号、伝送波などであってよい。状態遷移が不能なメディアは、磁気メディア(例えばディスクやテープ)、光学メディア(例えばCD ROM、デジタルビデオディスク、ブルーレイ・ディスク)、ソリッド・ステートメディア(例えば、RAM、ROM、フラッシュメモリ、ソリッドステート・ストレージ)、および、その他の不揮発性のストレージやメモリであってよい。
【0077】
コンピューティング・デバイス505は、少なくとも1つの実施例、例えばここで説明された実施例を実装するための、技術、方法、アプリケーション、プロセス、あるいは、コンピュータにより実行可能な命令列を実装するために用いられてよい。コンピュータにより実行可能な命令列は、状態遷移が可能なメディアから読み出され、状態遷移が不能なメディアに格納され、そして、状態遷移が不能なメディアからさらに読み出されてよい。実行可能な命令列は、如何なるプログラム言語、スクリプト言語、機械語(例えば、C、C++、C♯、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)、およびその他)から生成されてよい。
【0078】
プロセッサ510は、現実の、あるいは仮想的な環境において、如何なるオペレーティングシステム(OS)(不図示)の下で実行されてもよい。ここで説明した実施例を実装するために、ロジック・ユニット560、アプリケーション・プログラミング・インターフェイス(API)・ユニット565、入力部570、出力部575、セグメント分け部580、コンテンツ抽出部585、インデックス部590、提案部599および、異なる構成要素が相互に、あるいは、OSと、あるいは、さらに別のアプリケーション(不図示)と通信するための相互通信メカニズムを含む、1つまたは複数のアプリケーションが配置されてよい。例えば、セグメント分け部580、コンテンツ抽出部585、インデックス部590、および、提案部599は、
図2、3および4にて示した1つまたは複数のプロセスを実装してよい。説明した部材や要素は、設計、機能、設定、あるいは、実装の上で異なってもよく、ここで説明したものには限定されない。
【0079】
本発明のある実施例は例えばコンピュータ上で動作するソフトウェアとして実装されてよいが、これに限定されるものではない。
図6は、ある実施例のハードウェアによる実装の一例を示している。
【0080】
図6には、コンテンツ・リンクを生成するコンテンツ・リンク生成装置600が示されている。コンテンツ・リンク生成装置600は、コンテンツ特徴検出部605、インデックス検索部610、動的リンク生成部615、表示部620、および、表示制御部625を備え、これら全ては通信可能に接続されている。コンテンツ特徴検出部605は、上述のように、
図2、3、および4の中で示された1つまたは複数のプロセッサを用いて、第1のデジタルファイル中のデジタルセグメントの再生中に、デジタルファイルの第1のデジタルファイルセグメントのコンテンツ特徴を検出するように制御されてよい。同様に、インデックス検索部610は、上述のように、
図2、3、および4の中で示された1つまたは複数のプロセスを用いて、1つまたは複数のデジタルファイルの複数のセグメントのコンテンツ特徴を検索してよいし、動的リンク生成部615は、ファイルセグメントのコンテンツ特徴が相互に関連している場合に、デジタルファイルに基づくセグメント間にリンクを生成してよい。これに加えて、表示制御部625は、動的リンク生成部615によって生成されたリンクに基づいて1つまたは複数のビデオセグメントを表すキーフレームを表示部620に表示させるよう、制御してもよい。表示部620は、特に何かに限定されているわけではなく、LCDディスプレイ、LEDディスプレイ、プラズマディスプレイ、そして、陰極線管(CRT)ディスプレイなどを含んでよいが、これらに限定されるわけではないことが当業者にとって明らかであろう。
【0081】
これに加えて、コンテンツ・リンク生成装置600は、ファイルセグメント分け部630を有してもよく、これにより、上述したように、
図2〜4に示した1つまたは複数のプロセスを用いて、デジタルファイルを1つまたは複数のセグメントに分割することができる。コンテンツ・リンク生成装置600は、他の実施例として、上述のように、デジタルファイルの複数のセグメントの内の1つから少なくとも1つのコンテンツ特徴を判断する(あるいは抽出する)、コンテンツ特徴判断部635をさらに含んでよい。さらに、コンテンツ・リンク生成装置600は、他の例として、上述のプロセスを用いて、デジタルファイルの複数のセグメントから判断(あるいは抽出)されたコンテンツ特徴のインデックスを生成するインデックス生成部640をさらに含んでよい。さらに、他の実施例として、コンテンツ特徴判断部635は、上述のプロセスの内の1つを用いて、ユーザ660によって選択されたコンテンツ特徴665を受け取るコンテンツ特徴受け取り部655をさらに含んでよい。
【0082】
コンテンツ・リンク生成装置600は、ある実施例においては、上述の
図2〜4にて示した様に、既に議論したプロセスを用いてデジタルファイルを分類するデジタルファイル分類部645を含んでよいし、そのデジタルファイルの分類に基づいてデジタルファイルを複数のセグメントに分割するために用いられるセグメント分けプロセス(
図2〜4にて示され、かつ上述されたプロセス)を選択する、セグメント分けプロセス選択部650を有してよい。
【0083】
いくつかの実施例が示され、説明されたが、これらの実施例は、ここで述べられた主題をこの分野に詳しい方々に説明するために提供されるものである。ここで説明された主題は、ここで説明された実施例に限定されること無くさまざまな形で実施化されうることが理解されるべきである。ここで述べられた主題は、これら具体的に定義された、あるいは、説明された事柄を伴わなくても実施化でき、あるいは、ここで述べられなかった他のあるいは異なる要素や事柄を伴って実施化されうる。この分野に詳しい方々には、そのような変更が、ここに添付されたクレームやその均等範囲によって定義され、ここで述べられた主題から逸脱することなく、この実施例の中で可能であることを理解しよう。
【0084】
この実施例に関連する複数の側面について、部分的には上述の説明の中で説明されてきており、部分的には上述の説明から明らかなはずであり、また、本発明の実施化から理解されうる。本実施例の複数の側面は、さまざまな要素や詳細な説明および添付のクレームにおいて特に指摘した側面の組み合わせから実現あるいは達成されてよく、さらに、さまざまな要素からなる方法によって、実現あるいは達成されてもよい。
【0085】
上述の説明は、例示あるいは説明のためだけであって、限定を意図したものではないことが理解されよう。