【文献】
河原 達也,スライド情報を用いた言語モデル適応による講義音声認識,情報処理学会論文誌 論文誌ジャーナル Vol.50 No.2 [CD−ROM]l,社団法人情報処理学会,2009年 2月15日,第50巻,P.469−476
【文献】
入部 百合絵,講義情報を用いた自主学習支援システムの構築,第1回音声ドキュメント処理ワークショップ講演論文集,豊橋技術科学大学メディア科学リサーチセンター 情報処理学会音声言語情報処理研究会,2007年 2月26日,P.25−32
【文献】
藤本 雅清,音声情報と画像情報の併用による商品紹介映像のセグメンテーション,電子情報通信学会論文誌 (J89−D) 第2号,社団法人電子情報通信学会,2006年 2月 1日,第J89−D巻,P.292−304
(58)【調査した分野】(Int.Cl.,DB名)
前記第1外部テキストを取得することは、前記第1ビデオの選択された部分で表示されるテキストから前記第1外部テキストを抽出する、ことを含む、請求項1に記載の方法。
前記マルチモーダル言語モデルを生成することは、複数の前記ビデオのすべてから発話ワードのすべてを抽出すること、及び、複数の前記ビデオに表示されている前記外部テキストを抽出すること、抽出した前記発話ワードの各々と抽出した前記外部テキストの各々との共起性の複数の確率を算出すること、を含む、請求項1〜5のいずれか1項に記載の方法。
複数の前記発話ワードは、前記第1ビデオに関連するクローズドキャプション情報を用いて、前記第1ビデオの選択された前記部分から抽出される、請求項1〜7のいずれか1項に記載の方法。
前記第1ビデオの選択された部分に関連する第1外部テキストを取得することは、前記第1ビデオの選択された部分のスライドを検出し、光学文字認識を用いて、検出された前記スライドから前記第1外部テキストを抽出すること、を含む、請求項1〜9のいずれか1項に記載の方法。
【発明の概要】
【発明が解決しようとする課題】
【0007】
新しく改良されるシステム及び方法は、マルチモーダルビデオへのインデックス付加を強化するために、オーディオトラックの音声及びビデオフレームのスライドから取得されるテキストを統合することを必要とする。
【課題を解決するための手段】
【0008】
本発明の第1の態様は、方法であって、(a)複数のビデオの発話ワード及び複数の前記ビデオに関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、(b)第1ビデオの少なくとも部分を選択し、(c)前記第1ビデオの選択された部分から複数の発話ワードを抽出し、(d)前記第1ビデオの選択された部分と関連する第1外部テキストを取得し、(e)生成された前記マルチモーダル言語モデルを用いて、取得された前記第1外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする。
【0009】
本発明の第2の態様は、第1の態様の方法であって、前記第1外部テキストを取得することは、前記第1ビデオの選択された部分で表示されるテキストから前記第1外部テキストを抽出する、ことを含む。
【0010】
本発明の第3の態様は、第1の態様の方法であって、前記外部テキストは複数の前記ビデオの少なくとも1つで表示される。
【0011】
本発明の第4の態様は、第1の態様の方法であって、前記外部テキストは複数の前記ビデオの少なくとも1つに関連するコンテンツに含まれている。
【0012】
本発明の第5の態様は、第1〜第4のいずれかの態様の方法であって、複数の前記ビデオの各々は、前記外部テキストを含む複数のプレゼンテーションスライドを含む。
【0013】
本発明の第6の態様は、第1〜第5のいずれかの態様の方法であって、前記マルチモーダル言語モデルを生成することは、複数の前記ビデオのすべてから発話ワードのすべてを抽出すること、及び、複数の前記ビデオに表示されている前記外部テキストを抽出すること、抽出した前記発話ワードの各々と抽出した前記外部テキストの各々との共起性の複数の確率を算出すること、を含む。
【0014】
本発明の第7の態様は、第1〜第6のいずれかの態様の方法であって、前記マルチモーダル言語モデルはマトリックスフォームで保存される。
【0015】
本発明の第8の態様は、第1〜第7のいずれかの態様の方法であって、複数の前記発話ワードは、自動音声認識を用いて、前記第1ビデオの選択された部分から抽出される。
【0016】
本発明の第9の態様は、第1〜第7のいずれかの態様の方法であって、複数の前記発話ワードは、前記第1ビデオに関連するクローズドキャプション情報を用いて、前記第1ビデオの選択された前記部分から抽出される。
【0017】
本発明の第10の態様は、第1〜第9のいずれかの態様の方法であって、前記第1ビデオの選択された部分に関連する第1外部テキストを取得することは、前記第1ビデオの選択された部分のスライドを検出し、光学文字認識を用いて、検出された前記スライドから前記第1外部テキストを抽出すること、を含む。
【0018】
本発明の第11の態様は、第1〜第10のいずれかの態様の方法であって、前記プロセッサは、さらに、ユーザに対してランク付けされた複数の前記発話ワードを提示し、提示された複数の前記発話ワードの少なくとも1つの選択をユーザから受信し、前記第1ビデオの注釈として、提示された複数の前記発話ワードの少なくとも1つの受信した前記選択を用いる。
【0019】
本発明の第12の態様は、第11の態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するために前記注釈を使用する。
【0020】
本発明の第13の態様は、第1〜第12のいずれかの態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードを用いる。
【0021】
本発明の第14の態様は、第1〜第12のいずれかの態様の方法であって、前記プロセッサは、さらに、複数の前記ビデオの少なくともいくつかにインデックスを付加するためにランク付けされ抽出された複数の前記発話ワードから上位にランク付けされたワードを使用する。
【0022】
本発明の第15の態様は、第1〜第14のいずれかの態様の方法であって、抽出された複数の前記発話ワードはフレーズを含む。
【0023】
本発明の第16の態様は、第1〜第14のいずれかの態様の方法であって、抽出された複数の前記発話ワードはセンテンスを含む。
【0024】
本発明の第17の態様は、第1〜第16のいずれかの態様の方法であって、前記第1ビデオの選択された部分は、前記第1ビデオのコンテクストについて意味を有するセグメントを含む。
【0025】
本発明の第18の態様は、プログラムであって、複数のビデオの発話ワード及び複数の前記ビデオと関連する外部テキストの共起性についてマルチモーダル言語モデルを生成し、第1ビデオの少なくとも部分を選択し、前記第1ビデオの選択された部分から複数の発話ワードを抽出し、前記第1ビデオの選択された部分と関連する第1外部テキストを取得し、生成した前記マルチモーダル言語モデルを使用して、取得した前記第1外部テキストを条件とする発生確率に基づいて抽出された複数の前記発話ワードをランク付けする、ことをコンピュータに実行させる。
【0026】
本発明の第19の態様は、計算処理システムであって、プロセッサと、命令セットを記憶しているメモリと、を備え、前記命令セットが前記プロセッサによって実行されることにより、前記プロセッサが、複数のビデオの発話ワードと複数の前記ビデオに関連する外部テキストとの共起性についてマルチモーダル言語モデルを生成し、第1ビデオの少なくとも部分を選択し、前記第1ビデオの選択された部分から複数の発話ワードを抽出し、前記第1ビデオの選択された部分に関連する第1外部テキストを取得し、生成した前記マルチモーダル言語モデルを用いて、取得した前記第1外部テキストを条件とする発生確率に基づいて、抽出した複数の前記発話ワードをランク付けする。
【発明の効果】
【0027】
開示の技術によれば、オーディオトラックの音声及びビデオフレームのスライドから取得されるテキストを適切に統合することが可能となる。
【発明を実施するための形態】
【0029】
以下の詳細な説明において、添付の図面を参照する。図面において、同様の機能を有する構成要素は同様の参照符号で示される。上記添付の図面は例示のために示され、限定のために示されるのではない。特定の実施形態及び実装は本発明の原理と矛盾しない。これらの実装は、当業者が本発明を実施することが可能な程度に十分詳細に説明される。他の実装が利用可能であり、本発明の範囲及び思想から逸脱することなく、構成の変更及び/もしくは様々な構成要素の置換が可能である。したがって、以下の詳細な説明は、限定的な意味で解釈されるべきものではない。さらに、本発明の様々な実施形態は、説明されるように、汎用目的コンピュータで稼動するソフトウェアの形態、特定用途ハードウェアの形態、もしくは、ソフトウェア及びハードウェアの組み合わせで実装されてもよい。
【0030】
実施形態の1態様によれば、マルチモーダルレクチャービデオインデックス付加を強化するために、ビデオレクチャープレゼンテーションのオーディオトラックの音声及びビデオフレームのスライドから導出されるテキストを統合する計算処理システム及びコンピュータ実装方法が提供される。実施形態の1つもしくは複数において、テキストドキュメントインデックス付加のための確立されている潜在変数モデル化アプローチが、プレゼンターのスライド及びスピーチのワードの共起性をモデル化するために採用される。実施形態の1つにおいて、上記マルチモーダルアプローチがレクチャービデオ検索に適用される。
【0031】
1.潜在変数モデル
実施形態の1つもしくは複数において、外部情報ソースは、利用可能な発話テキスト(CCもしくはASRトランスクリプト)と組み合わせられる。外部ソースの役割はどの発話用語がビデオコンテンツをより適切に説明する確率が高いかについての情報を与えることである。すなわち、より適切に説明する用語を残して、発話トランスクリプトに現れる一般的な用語の検索への負の影響を低減することが目的である。説明するモデル化アプローチは外部ソースの用語と発話用語との共起性を分析する。1つもしくは複数の実施形態において、潜在変数モデル化は各モーダルのワード間のもっとも重要な共起性を識別するために使用され、その後、ビデオの関連テキスト及びテキストクエリに基づいてビデオをランク付けするためにモデルを使用することが可能である。
【0032】
実施形態の1つにおいて、スライドテキスト(スライド自身からOCRを用いて抽出された、もしくは、プレゼンテーションファイルから取得された)が、上記外部情報ソースとして使用される。結果は、スライド及び発話トランスクリプトにおける用語の共起性のモデルである。代替的な実施形態では、スライドなしのレクチャーのために外部テキストを利用することが可能である。教育的な設定において、このテキストソースは記録されたレクチャーに関連するテキストブックであってもよい。外部テキストに関する主な制限は、コーパス内にテキスト(例えば、チャプター)から特定のビデオへのマッピング(例えば、シラバス)があることである。実施形態の1つにおいて、ビデオはスライドセット及びオーディオトランスクリプトに直接的に関係する。
【0033】
1.1 単一モーダルコーパスモデル化
情報検索のためのベクトル空間モデル(VSM)は、テキストの「袋」としてドキュメントを扱い、当業者にはよく知られているルシーン(Lucene)などの最先端テキストサーチシステムを駆動する。ベクトル空間モデルの詳細は、非特許文献2に記載されている。テキストベクトルとしてドキュメントを表現することは、マトリックスとしてドキュメントコーパスを見ることにつながる。ドキュメントコーパスをモデル化する線形代数法の歴史は長い。
図1(a)はマトリックスを示し、マトリックスの行にワード(w)によるインデックスが付加され、マトリックスの列にドキュメント(doc)によるインデックスが付加されている。
【0034】
1つもしくは複数の実施形態において、潜在意味解析(LSA)を含む方法及び確率的潜在意味解析(PLSA)がテキストドキュメント検索のマトリックスを処理するために使用される。潜在意味解析の詳細は非特許文献3に、確率的潜在意味解析の詳細は非特許文献4に記載されている。用語間の意味関係はドキュメント内の用語の共起性によって暗示される。コーパスはワードの共起性の観察セットを示す。ワードドキュメントマトリックスへの低ランク近似は、擬似的な共起性を廃棄し、基本意味的ワード間関係を維持する。モデルトレーニングは潜在変数もしくは態様のセットを用いてこれらの関係を符号化する(すなわち、ドキュメントで現実には共起することのない2つのワードが1つもしくは複数の隠れたトピックによってつながる可能性がある。)。
【0035】
図1(a)はPLSA及びLDAを用いてモデル化されている従来のワードドキュメントマトリックスを示す。
図1(b)は非特許文献5に記載されているワードトピックモデル化で処理されるマトリックスを示す。
図1(c)は、ドキュメントの代わりに、観察関数Oが使用される開示の技術の実施形態によるマルチモーダル変形を示す。
【0036】
このアイディアをより局在的にしたアイディアが
図1(b)に示されている(詳細は、非特許文献5参照)。
図1(a)のように、ドキュメントによってマトリックスの列にインデックスを付加するのではなく、列はワードw∈W(語彙)のローカル(サブドキュメント)近傍O(w)を示す。処理は変更されないが、意味はより局在的な用語の共起性から導出される。このマトリックスの要素はワード対各々の確率P(w
i,O(w
j))を取得する。マトリックスは|W|×|W|次元の正方行列である。
図1(a)のドキュメントと同様に、マトリックスの対応する列に基づいて、モデルM
wとワードの各々とを関連付ける。PLSAは条件付確率を生成する。
【数1】
【0037】
1.2 マルチモーダルモデル化
1.2.1 関連ワーク
研究者は、トピックモデル化をマルチモーダル領域にも拡張することを試みている。画像及び対応する注釈は、PLSAの変形及び非特許文献6に記載されているマルチモーダルLDA及び非特許文献7に記載されている対応LDA(Corr-LDA: correspondence LDA)などの潜在的ディリクレ配分法(LDA)を用いてモデル化されている。マルチモーダルLDAにおいて、画像領域デスクリプター及び注釈ワード(すなわち、タグ)は、共通の基礎となるトピック分布を用いて、ジョイントモデル化されている。一方、Corr−LDAは、まず、領域デスクリプターを生成し、次に、ワードを生成する処理をモデル化する。(ワードの各々は領域の1つにリンクされている。)これらの方法とは異なり、開示の技術の1つもしくは複数の実施形態において、コーパスの生成モデルは生成されていない。むしろ、生成モデルは、モーダルの各々及びそれらの共起性において観察されるワードのために構築される。実施形態のいくつかは、LDAではなく、PLSAを使用するので、モデルトレーニングのために必要とされる複雑で多様な推定及びサンプリング方法を用いないで済ませることが可能である。
【0038】
クロスメディアリファレンスモデルが画像及びタグのジョイントモデル化のために提案されている(非特許文献8)。潜在変数モデルとは異なり、この技術は、任意の潜在変数への依存を強いたり、領域とタグとの間の一対一対応を仮定したりすることなく、画像領域をジョイントモデル化する。ジョイントモデル化は本質的にシンプルであり、著者は普及している潜在トピックベースジョイントモデル化アプローチとこれらの技術とを直接比較しない。非特許文献9に記載のマルチレイヤーPLSAアプローチがビジュアルワード及びタグをモデル化するために提案されている。マルチモーダルLDAモデルと基本的に同様であるが、マルチレイヤーモデリングは(2つのモーダル間に共通な)潜在変数の2つのレイヤーをジョイントモデリングに導入する。著者らは、マルチモーダルLDAモデルをジョイントするのとは異なり、マルチレイヤーPLSAが、画像と関連するタグがビジュアルコンテンツを必ず記述することを必要としない、ことに言及する。開示の技術の実施形態のいくつかはPLSAも使用するが、非特許文献4に記載されるアプローチと異なり、検索のためのプロシージャに複雑なフォールディングもしくは非特許文献9に記載されているようなモデルトレーニングを加速するための初期化のためのスキームを必要としない。非特許文献10は、2つのモーダル(ワード及びピクチャ)にわたってサイズの低減を共に実行することによって、マルチモーダルデータをモデル化するために正準相関分析(CCA)を使用する。CCAは2つのモーダルの間の相関が最大化されるジョイント空間へのマルチモーダルデータのマッピングを検出することを試みる。上記方法はマルチモーダル情報をモデル化するために設計されているが、上記実施形態とは異なるポイントがある。CCAはモーダル間の相関が高いサブスペースを検出することを試みる。一方、開示の技術の1つもしくは複数の実施形態は相関を最適化せず、条件付き確率として明示的なモデル依存を最適化する。CCAは、異なるモーダルの表現間で自然な対応がない場合のシナリオに適しており、中間サブスペースのサーチを必要とする。
【0039】
開示の技術における1つもしくは複数の実施形態によれば、複数モーダルの用語の共起性のより直接的(かつシンプルな)モデルが提供される。すなわち、上記実施形態の1つもしくは複数は、非特許文献9及び10で使用されている中間サブスペースを利用する必要なしで済ませることが可能である。代替的に、確立されている確率的潜在変数法が、スライドの語彙全体及びコーパスの発話トランスクリプトにわたって共起性情報を示すために適用される。このアプローチは、ビデオに関連付けられている利用可能なテキストを条件とする1つのモーダルにおいて(クエリ)テキストを生成する確率を探求するフレキシビリティを提供する。検索時に、このアプローチは、特定のビデオと関連付けられているマルチモーダルデータの共起性を条件とするいずれかのモーダルにおいて現れるクエリテキストの確率を結合する。以下で詳細に説明する。
【0040】
1.2.2 モデリング詳細
非特許文献5で記述されているワードトピックモデルは行及び列の双方についてワードによってインデックスが付加されるので、マルチモーダルテキストデータに直接的に拡張される。 詳細には、ASRによって供給される発話ワードを潜在的にフィルタリングするかもしくは重み付けするために対象モデルを検討する。
【数2】
【0041】
αは、T
slにおけるw
slの頻度の重みである。T
slはビデオの利用可能なスライド、w
spはビデオの利用可能な発話テキストを示す。この条件付確率は個々のスライドワードw
sl∈T
slから構築されるので、ワードがトレーニングデータに現れる限り、まだ見ていないスライドテキストについても構築される。モデルの効果は、クエリとして、構成用語によってドキュメントが表現されることである。これは、非特許文献4に記載されているドキュメント検索のためのPLSAを使用するために要求される「フォールディングイン(folding-in)」プロシージャを不要とする。
【0042】
無視されていた問題は、
図1(c)のマトリックスにおいてスライドと発話テキストをどのように関連付けるかである。単一モーダルデータについて、我々は固定ウィンドウを使用した。スライドワードの各々について、類似ドキュメントとして処理する発話ワードセットQを識別する必要がある。いくつかの共起性がある。
【0043】
1.大域的共起性:この場合、発話ワードw及びスライドワードw
slが各々、特定のビデオのスライド及び発話トランスクリプトに現れるならば、ビデオvについて、
Q
wsl={w:w∈T
sp(v)∧w∈T
sl(v)}
である。
【0044】
2.固定ウィンドウ共起性:ビデオ分析を用いて、スライドの各々と特定の時間セグメントとを関連付けることが可能であり、CCもしくはASRのタイプスタンプを使用することが可能である。固定時間間隔内のビデオにスライドワード及び発話が現れる場合、発話用語を含めることが可能である。
【0045】
3.セグメント共起性:上記と同様であるが、発話テキストトランスクリプトを分割するために検出されたスライドから導出される一時的なセグメンテーションを使用する。同一のセグメントに現れるスライドワード及び発話ワードが関連付けられる。
【0046】
これまで、経験的に、大域的アプローチがもっとも適切に働いてきた。
図1(c)のマトリックスを構築するための規則を定義すると仮定すると、このモデルのEM推定を繰り返すことが可能である。
【0049】
図2は、潜在変数モデルトレーニング処理のオペレーティングシーケンス200の例示的な実施形態を示す。ステップ201で、レクチャービデオなどのビデオのコーパスが取得される。ステップ202で、コーパスのビデオの各々について、発話ワードが、ASRを用いて抽出されるか、もしくは、代替的に、ビデオの各々に関連するクローズドキャプション(CC)情報から抽出される。ステップ203で、スライドは当業者によく知られている技術を用いてコーパスビデオの各々のビデオフレームで検出される。ステップ204で、検出されたスライドの各々について、スライドに現れるワードは、例えば、前記OCR技術を用いて検出される。代替的な実施形態において、スライドを含む対応するプレゼンテーションファイルが利用可能であれば、スライドテキストは当該プレゼンテーションファイルから直接的に抽出されてもよい。ステップ205で、上記技術に従って、抽出された発話ワード及びスライドテキストがスライドのワード及び発話ワードの共起性について潜在変数モデルを生成するために使用される。最後に、ステップ206で、生成された潜在変数モデルが、例えば、マトリックスフォームで、保存される。
【0050】
1.3 ランク付けスコア
トレーニングの結果は、コーパス内でのスライド及び発話ワードの出現についての生成的なモデルである。これは、検索に使用される3つの要素を含む。モデルはトピックに関する条件を有するモーダルの各々の用語についての分布p
sl(w|z)及びp
sp(w|z)を提供する。モデルの3番目の要素はビデオ特定トピック分布である。
【数5】
【0051】
これは、式(3)の完全尤度から計算される。αは特定の用語(w
sl,w
sp)及び(T
sl,T
sp)によって代表されるビデオとの間の関係を示すファクターである。これは、単純に、組み合わされたビデオトランスクリプトの用語対の頻度である。
【0052】
このモデルを直接的に適用する際の最終的な困難さは、記述したモデルがスライドワードから発話ワードを生成する場合もあるし、発話ワードからスライドワードを生成する場合もあることである。残念ながら、ユーザの言語モデルはこれらのモデルのいずれにも直接的に対応しない。クエリT
qを与えるビデオをランク付けするために最終的なスコアを推定するため、ランク付けスコアは2つの量を結合する。
【数6】
【0053】
顕著な実装の詳細は、式(7)及び式(8)のワードw
sp及びw
slをわたる合計が(T
sl,T
sp)によって代表されるビデオ毎に1度推定されることが可能であり、クエリが行われたときに、その後の参照のために保存されることが可能である。これらは、条件付のビデオ毎の潜在変数分布である。式(9)への寄与はクエリに依存しない。
【0054】
図3は、もっとも関係のある発話ワードを識別し、誤認識されるワードもしくは他の無関係な用語を抑制するために、スライドテキストを用いるための方法のオペレーティングシーケンス300の例示的な実施形態を示す。ステップ301で、例えば、モバイルコンピューティングデバイスにインストールされているビデオ再生アプリケーションを用いて、ビデオがユーザに対して再生される。ステップ302で、ユーザのリクエストに応じて、ビデオは一旦停止され、再生ビデオの部分が選択される。実施形態の1つにおいて、ビデオの選択された部分は、ビデオが一旦停止されたときの、現在時点に関連する時間のビデオセグメントである。実施形態の1つもしくは複数において、ビデオの選択された部分は関連するオーディオトラックと共に1つのもしくは複数のビデオフレームを含んでもよい。様々な実施形態において、ビデオの選択された部分は、特定のプレゼンテーションスライドが示され、及び/もしくは検討されるビデオセグメントなどのビデオのコンテクストについて意味を有する時間のセグメントに対応してもよい。様々な実施形態において、ビデオのコンテクストについて意味を有する時間的なセグメントは単一のスライド、プレゼンテーションチャプター、トピック、セクションもしくはプレゼンテーション全体に対応してもよい。ステップ303で、発話ワードは、例えば、上記ASR技術を用いてビデオの選択された部分から抽出される。他の実施形態において、発話ワードは上記CC情報を用いて抽出されてもよい。ステップ304で、ビデオの選択された部分のビデオフレームのスライドが検出される。ステップ305で、スライドテキストは、例えば、OCR技術を用いて、検出されたスライドから抽出される。代替的な実施形態において、スライドを含む対応するプレゼンテーションファイルが利用可能であれば、スライドテキストは当該プレゼンテーションファイルから直接的に抽出されてもよい。
【0055】
ステップ306で、検出されたスライドテキストを条件とする選択されたビデオ部分での出現確率に従って、予めトレーニングされた潜在変数モデルが抽出された発話ワード(もしくはセンテンス)をランク付けするために使用される。ステップ307で、ワード、フレーズもしくはセンテンスのランク付けされたリストがユーザに提供される。ステップ308で、ランク付けされたリストからのアイテムのユーザ選択が受信され、ビデオもしくはビデオの特定のポイントへの注釈として使用されることで、モバイルデバイスについて一般的に困難である注釈などのタイピングの必要性を不要にする。目的は、キーとなる発話ワードを識別し、誤認識されたワードもしくは他の無関係な用語を抑制するためにスライドテキストを使用することである。
図2に示されるトレーニングアルゴリズムとの主な違いは、単一のビデオ内の1つの時点に関連する限定されたテキストだけが処理されることである。一方、トレーニングの間は、全てのビデオからの全てのテキストが使用される。
【0056】
図4は、記述されたマルチモーダル言語モデルを用いて、ビデオの注釈を生成するためのアプリケーションのユーザインターフェイスの例示的な実施形態を示す。ユーザインターフェイスの実施形態において、ビデオがユーザインターフェイスウィンドウ401を用いてユーザに対して再生される。従来の時間的なビデオナビゲーションツール402(スライダー)が時間的なビデオナビゲーションを可能にするためにユーザに提供される。さらに、ビデオに注釈を付加するためにボタン403が提供される。
【0057】
ユーザが注釈生成ボタン403をクリック(もしくはタッチ)すると、アプリケーションは再生ビデオを一時停止し、ビデオへの注釈として含めるための候補発話ワードの1つもしくは複数の選択示唆406を含む注釈推奨ウィンドウ405をユーザに対して表示するように構成されている。様々な実施形態において、用語「発話ワード」は単一のワード(例えば、「constant」)であってもよいし、フレーズ(例えば、「Ag prime prime」)であってもよいし、センテンス全体(例えば、「We could factor out that c1 is a constant and we get c1 times Ag prime prime plus Bg prime plus Cg(定数であるc1を括り出すことができ、c1×(Ag’’+Bg’+Cg)が導かれる」)であってもよい。
【0058】
ユーザは提供されるワード、フレーズもしくはセンテンスをクリックすることが可能であり、ユーザが選択したアイテムは自動的に注釈としてビデオに関連付けられる。代替的な実施形態において、候補ワード、フレーズ、もしくはセンテンス406はユーザによってクリックされることが可能なランク付けされたリストの形態で提供されてもよい。ユーザ選択注釈は次に将来のサーチ及び検索を容易にするためにビデオもしくはビデオの部分にインデックスを付加するために使用される。
【0059】
代替的な実施形態において、上記方法を用いて識別される上位にランク付けされた(例えば、所定の閾値を越えるランクの)ワード、フレーズもしくはセンテンスは、注釈のマニュアル選択をユーザが実行する必要なく、ビデオのインデックスを付加するために自動的に選択されてもよい。
【0060】
2.実験
2.1 データセット
非特許文献1で使用されているデータを利用する制御された実験のためにコーパスが生成される。詳細には、カンファレンスウェブサイトをクローリングすることにより、209個のレクチャービデオが収集された。レクチャービデオは、
1.ビデオ
2.PPT、PDF、HTML5のスライド
3.クローズドキャプショントランスクリプト
4.ASRトランスクリプト
5.OCRで抽出されたスライドテキスト
を含む。
【0061】
例えば、非特許文献11に記載されるように、トークが提供されているウェブページにあるトークの説明を用いて、技術的な用語がまず抽出され、より記述的ではない質のクエリを取り除くためにフィルタリングされる。マニュアルでグラウンドトゥルース関連判定が、209個全てのビデオにわたる275個の残りのクエリ全てについてまとめられた。例えば、非特許文献2に記載される平均適合率平均を全体にわたる評価測度として使用した。
【0062】
2.2 スライドテキストを用いた発話ドキュメント検索の改良
第1の実験は、当業者にはよく知られている最先端フルテキストサーチシステムルシーンを用いて、ビデオ検索のASRトランスクリプトと比較する。性能を表1のVSMコラムに示す。ビデオのスライド及び発話テキストについてのジョイントモデルを与えられる発話テキストを生成する確率に従ってビデオをランク付けする一面的な手法で、説明されたモデルは展開された。まず、200潜在変数モデル(a 200 latent variable model)がビデオコーパス全体からのASR及びOCRテキストを用いてトレーニングされた。詳細には、ビデオ全体にわたるASR用語及びOCR用語の共起性(大域的共起性)の表を作成した。続いて、スライドから取得された発話テキスト及びOCRテキストのASRトランスクリプトを使用して、セクション1.2のEMの繰り返しが行われた。次に、上記式(7)がクエリの各々のビデオランク付け基準として使用された。
【0063】
表1は、ASRトランスクリプトにインデックスを直接付加するためにルシーンを用いた発話ドキュメント検索(VSM)及びコーパスを用いたマルチモーダル言語モデリング(中央及び右コラム)の結果である。当該アプローチのランク付けは式(7)に対応する。表1は結果の2つのバージョンを含む。中央のコラムにおいて、ビデオの各々は、学習したモデルと矛盾しない、自動的に抽出されたACR及びOCRテキスト(T
ASR,T
OCR)によって示されている。この手法で自動的に抽出されたスライドテキストを用いることは、より適切にビデオを説明する発話用語を強調することをスライドが支援することを示唆するASRベースラインにわたる改善を示す。また、(雑音の多いテキストによってトレーニングされた)同一のモデルが使用されたが、ビデオの各々はグラウンドトゥルーススライド及び発話テキスト(T
PPT,T
CC)によって表現された。もっとも右のコラムは、さらなる改善を示すこれらの結果を示す。これは、抽出されたテキストの品質が改善されると、ここで記述されたモデルの実施形態の検索性能を改善することが可能であることを示す。
【表1】
2.3 マルチモーダルビデオ検索
【0064】
209個のビデオを含む同一のコーパス及び275個のクエリセットを用いたマルチモーダル検索実験も行われた。ルシーンはベースラインを示し、単一モーダル構成及びマルチモーダル構成を評価する。マルチモーダルのケースでは、前期及び後期のフュージョン戦略の双方が検討された。前期のフュージョンについては、インデックスを付加する前に、ビデオの各々を示すために、利用可能なスライド及び発話テキストが連結される。後期のフュージョンについては、2つの単一モーダルのインデックスからスライド及び発話検索スコアを連結するために、凸状の重み(convex weighting)を最適化するために、クロス確認(cross validation)が使用された。
【表2】
【0065】
説明したランク付けスキームによる実験について、式(9)がテキストクエリT
qの各々のビデオをランク付けするために使用された。コンセプトの証明として、200潜在変数モデルが、発話テキスト及びスライドテキストについて、マニュアルテキストトランスクリプト、CC及びPPTを用いて、トレーニングされた。表2は、クローズドキャプション(CC)及びスライドファイル(PPT)トランスクリプトにインデックスを直接的に付加するためのルシーン(VSM)を用いたレクチャービデオ検索の結果及び2010年〜2012年のグーグルI/Oコーパスを用いたマルチモーダルモデリング(右コラム)の結果を示す。表2は、同一のCC及びPPTテキストを用いてベースラインシステムの結果を示す。右コラムは、開示の技術のシステムの2セットの結果を示す。コラム(T
ASR,T
OCR)は、自動トランスクリプト、ASR及びOCRから雑音の多いテキストによってビデオの各々を示す場合に、説明されたランク付けを用いた結果を示す。これらの結果は、マルチモーダルVSM/フュージョンベースラインと比較して性能が劣ることを示す。トレーニング時のビデオ表現とテスト時のビデオ表現との間のミスマッチは、モデルの検索性能を明らかに低下させる。コラム(T
CC,T
PPT)はマニュアルトランスクリプト、CC及びPPTからのテキストによってビデオの各々を表現する場合の上記ランク付けを用いた結果を示す。このケースでは、上記アプローチはVSM/フュージョンベースラインよりもよい性能を示す。
【0066】
これらの実験は、ビデオの各々を表現するためにASR及びOCRから自動的に抽出されたテキストを用いてトレーニングされた200潜在変数モデルを用いて、繰り返された。結果を表3に示す。表3は、ASR及びOCRトランスクリプトに直接インデックスを付加するためにルシーンを用いたレクチャービデオ検索の結果(VSM)及び2010年〜2012年グーグルI/Oコーパスを用いたマルチモーダルモデリング(右コラム)を示す。開示の技術のアプローチのランク付けは式(9)に対応する。このケースでは、自動単一モーダルランク付けの後期フュージョンはビデオを表現するための自動テキスト(T
ASR,T
OCR)を用いた上記マルチモーダルアプローチとほぼ同様のレベルの性能を示す。マニュアルテキストトランスクリプトがビデオを表現するために使用された場合、結果は著しい改善を示す。結果は、雑音が多いテキストデータでトレーニングされた場合であっても、上記モデルがより高品質のテキストトランスクリプトを用いたテスト時によりよい性能を示すことを示唆している。
【表3】
【0067】
表4は、さらに、上記モデルの性能と自動トランスクリプトの正確さとの間の関係を示す。表4は、ASR及びOCRトランスクリプトに直接インデックスを付加するためにルシーンを用いたレクチャービデオ検索の結果(VSM)及び2011年グーグルI/Oコーパスを用いたマルチモーダルモデリング(右コラム)を示す。開示の技術のアプローチのランク付けは式(9)に対応する。この結果は、2011年グーグルI/Oカンファレンスからの74個のビデオセットに注目する。これらのビデオについて、ルシーンを用いたASR/VSM検索性能(map@5の0.687)は、より高品質であるASRトランスクリプトを示唆する2010年〜2012年を連結した結果(map@5の0.633)と比較して実質的に高い。OCR/VSMの結果も2011年はよりよいが、改善のマージンはより小さい(2011年は0.805、2010年〜2012年は0.777)。ASR及びOCRから自動的に抽出したテキストを用いたトレーニング及びテスト時に開示の技術のモデルを適用した結果は、すべてのVSMベースラインを越えて改善している。
【0068】
これらの実験からの結論は、低品質自動テキストトランスクリプトによってトレーニング及びテストされる場合、上記モデルはベースラインのいずれより悪くない、ということである。品質がいくらかよい場合、検索のための上記モデルの追加される価値がより大きくなることを予想することが可能である。
【表4】
【0069】
3.システムハードウェアの例示的実施形態
図5は、マルチモーダルレクチャービデオのインデックス付加を強化するために、ビデオフレームのオーディオトラック及びスライドのスピーチから導出されるテキストを統合するための計算処理システム500の例示的実施形態を示す。1つもしくは複数の実施形態において、計算処理システム500はよく知られているサーバコンピュータシステムもしくはデスクトップコンピュータのフォームファクター内で実装されてもよい。代替的な実施形態において、計算処理システム500は、ラップトップコンピュータ、ノートブックコンピュータもしくはスマートフォンまたはタブレットコンピュータなどのモバイル計算処理デバイスに基づいて実装されてもよい。
【0070】
計算処理システム500は、計算処理システム500の様々なハードウェア構成要素をわたって、もしくは、様々なハードウェア構成要素間で情報を伝達するためのデータバス504もしくは他の相互接続もしくは通信機構、情報を処理し、他の計算タスク及び制御タスクを実行するためにデータバス504に電気的に接続されている中央処理ユニット(CPUもしくはシンプルにプロセッサ)501を含んでいてもよい。計算処理システム500は、様々な情報及びプロセッサ501によって実行される命令を保存するために、データバス504に接続されている、ランダムアクセスメモリ(RAM)もしくは他のダイナミックストレージデバイスなどのメモリ512も含む。メモリ512は、磁気ディスク、光ディスク、ソリッドステートフラッシュメモリデバイスもしくは他の不揮発性ソリッドステートストレージデバイスなどの永続的ストレージデバイスを含む。
【0071】
1つもしくは複数の実施形態において、プロセッサ501によって命令が実行されている間、メモリ512は一時的な変数もしくは他の中間情報を保存するために使用されてもよい。オプションで、計算処理システム500は、さらに、計算処理システム500のオペレーションに必要とされるファームウェア、基本入出力システム(BIOS)、計算処理システム500の様々な構成パラメータなどのスタティック情報及びプロセッサ501で実行される命令を保存するためにデータバス504に接続されているリードオンリーメモリ(ROMもしくはEPROM)502もしくは他のスタティックストレージデバイスを含んでいてもよい。
【0072】
1つもしくは複数の実施形態において、計算処理システム500はディスプレイデバイス526を含んでいてもよい。計算処理システム500のユーザに対して、その実施形態が
図4に示されているユーザインターフェイスなどの様々な情報を表示するために、ディスプレイデバイス526は、データバス504にも電気的に接続されていてよい。代替的な実施形態において、ディスプレイデバイス526はグラフィックコントローラ及び/もしくはグラフィックプロセッサ(図示せず)と関連付けられていてもよい。ディスプレイデバイス526は、例えば、よく知られているTFT(Thin-Film Transistor)技術もしくはOLED(Organic Light Emitting Diode)技術を用いて製造されたLCD(Liquid Crystal Display)として実装されてもよい。様々な実施形態において、ディスプレイデバイス526は計算処理システム500の残りの構成要素と同一の汎用的な筺体に組み込まれていてもよい。代替的な実施形態において、ディスプレイデバイス526はこのような筺体の外部、テーブルもしくはデスクの面上などに位置してもよい。1つもしくは複数の実施形態において、計算処理システム500は、さらに、ディスプレイ面上に、上記ユーザインターフェイスなどの情報を投影するように構成されているプロジェクタもしくはミニプロジェクタ(図示せず)を含んでいてもよい。
【0073】
1つもしくは複数の実施形態において、計算処理システム500は、さらに、データバス504に電気的に接続され、よく知られているMPEG−3ファイルなどの様々なオーディオファイルもしくはMPEG−4ファイルなどの様々なビデオファイルのオーディオトラックを再生するように構成されているオーディオ再生デバイス525を含んでいてもよい。計算処理システム500は波形もしくはサウンドプロセッサもしくは同様のデバイス(図示せず)も含んでいてよい。計算処理システム500は、さらに、データバス504に電気的に接続され、よく知られているMPEG−3ファイルなどの様々なオーディオファイルもしくはMPEG−4ファイルなどの様々なビデオファイルのオーディオトラックを録音するように構成されているオーディオ録音デバイス503を含んでいてもよい。
【0074】
1つもしくは複数の実施形態において、計算処理システム500は、方向情報及びコマンド選択をプロセッサ501に伝達するため、及びディスプレイデバイス526上のカーソルの移動を制御するためのマウス、トラックボール、タッチパッドもしくはカーソル方向キーなどのマウス/ポインティングデバイス510などの1つもしくは複数の入力デバイスを含んでいてもよい。この入力デバイスは、一般的に、第1の軸(例えば、x)及び第2の軸(例えば、y)の2軸の2つの自由度を有する。これにより、デバイスは平面上の位置を特定することが可能となる。
【0075】
計算処理システム500は、静止画像及びプレゼンテーションのビデオを含む様々なオブジェクトのビデオを取得するためのカメラ511及びキーボード506をさらに含んでいてもよい。カメラ511及びキーボード506は、情報を伝達するために、データバス504に接続されていてもよい。情報は、画像、ビデオ及びプロセッサ501への(ジェスチャを含む)ユーザコマンドを含むが、これらに限定されるものではない。
【0076】
1つもしくは複数の実施形態において、計算処理システム500はさらにデータバス504に接続されているネットワークインターフェイス505などの通信インターフェイスを含んでいてもよい。ネットワークインターフェイス505は、WiFiインターフェイス(アダプタ)507、携帯電話ネットワーク(GSM(登録商標)もしくはCDMA)アダプタ508及び/もしくはローカルエリアネットワーク(LAN)アダプタ509の少なくとも1つを用いて、計算処理システム500及びインターネット527の間の接続を確立するように構成されていてもよい。ネットワークインターフェイス505は、計算処理システム500及びインターネット527の間の2方向データ通信を可能にするように構成されていてもよい。WiFiアダプタ507は、よく知られている802.11a、802.11b、802.11g及び/もしくは802.11nプロトコル、及び、Bluetooth(登録商標)プロトコルに準拠して動作してもよい。計算処理システム500のLANアダプタ509は、例えば、ISDN(Integrated Services Digital Network)カードもしくは対応するタイプの電話回線にデータ通信接続を提供するためのモデムを用いて、実装されてもよい。当該モデムは、インターネットサービスプロバイダーのハードウェア(図示せず)を用いてインターネット527と接続されている。他の例として、LANアダプタ509は、互換性のあるLAN及びインターネット527へのデータ通信接続を提供するためにローカルエリアネットワークインターフェイスカード(LAN NIC)であってもよい。例示的な実装において、WiFiアダプタ507、携帯電話ネットワーク(GSM(登録商標)もしくはCDMA)アダプタ508及び/もしくはLANアダプタ509は電気信号もしくは電磁信号を送受信する。電気信号もしくは電磁信号は様々なタイプの情報を示すデジタルデータストリームを搬送する。
【0077】
1つもしくは複数の実施形態において、インターネット527は、一般的に、他のネットワークリソースに1つもしくは複数のサブネットワークを介してデータ通信を提供する。すなわち、計算処理システム500は、リモートメディアサーバ、ウェブサーバ、他のコンテンツサーバ、及び他のネットワークデータストレージリソースなどの、インターネット527のどこかにある様々なネットワークリソースにアクセスすることが可能である。1つもしくは複数の実施形態において、計算処理システム500はメッセージ、メディア及びビデオファイル及びアプリケーションコードを含む他のデータを、ネットワークインターフェイス505によってインターネット527を含む様々なネットワークを介して送受信するように構成されている。インターネットの例において、計算処理システム500がネットワーククライアントとして動作する場合、計算処理システム500で実行されるアプリケーションプログラムのためにコードもしくはデータが要求される場合がある。同様に、サーバとして、他のネットワークリソースに様々なデータもしくはコンピュータコードが送信される可能性がある。
【0078】
1つもしくは複数の実施形態において、ここで説明された機能は、メモリ512に含まれている1つもしくは複数の命令の1つもしくは複数のシーケンスを実行するプロセッサ501に応じて、計算処理システム500によって実装される。このような命令は、他のコンピュータ可読媒体からメモリ512に読み込まれてもよい。メモリ512に含まれている命令シーケンスを実行すると、ここで説明された様々な処理ステップをプロセッサ501が実行する。代替的な実施形態において、ハードウェア回路がソフトウェア命令の代わりに、もしくはソフトウェア命令と共に、本発明の実施形態を実装するために使用されてもよい。説明した本発明の実施形態は、特定のハードウェア回路及び/もしくはソフトウェアのいずれかに限定されるものではない。
【0079】
用語「コンピュータ可読媒体」はプロセッサ501で実行される命令をプロセッサ501に提供する任意の媒体であってよい。コンピュータ可読媒体は、機械可読媒体の単なる一例であり、機械可読媒体は、開示の技術の方法及び/もしく技術のいずれかを実装するための命令を搬送することが可能である。このような媒体は多くの形態を採ることができ、不揮発性媒体及び揮発性媒体を含んでもよいが、これらに限定されるものではない。
【0080】
非一時的コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは他の任意の磁気媒体、CD−ROM、他の任意の光媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリカード、他の任意のメモリチップもしくはカートリッジ、もしくはコンピュータが読むことが可能な他の任意の媒体を含む。コンピュータ可読媒体の様々な形態は、プロセッサ501で実行する1つもしくは複数の命令の1つもしくは複数のシーケンスをプロセッサ501に搬送するために使用されてもよい。例えば、命令は、リモートコンピュータから磁気ディスクにまず搬送されてもよい。代替的に、リモートコンピュータは動的メモリに命令をロードし、インターネット527を介して命令を送信することが可能である。詳細には、コンピュータ命令は、よく知られている様々なネットワークデータ通信プロトコルを用いてインターネット527を介してリモートコンピュータから計算処理システム500のメモリ512にダウンロードされてもよい。
【0081】
1つもしくは複数の実施形態において、計算処理システム500のメモリ512は以下のソフトウェアプログラム、アプリケーションもしくはモジュールのいずれかを記憶していてもよい。
【0082】
1.オペレーティングシステム(OS)513
基本サービスシステムを実装し、計算処理システム500の様々なハードウェア構成要素を制御する。オペレーティングシステム513の例示的な実施形態はよく知られており、現在知られているもしくは今後開発されるオペレーティングシステムを含むことが可能である。
【0083】
2.アプリケーション514
例えば、計算処理システム500のプロセッサ501によって実行されるソフトウェアアプリケーションセットを含むことが可能であり、ディスプレイデバイス526にユーザインターフェイスを表示する、ビデオ及びスライドテキストから抽出された発話ワードを用いてビデオファイルのインデックス付加を実行する、などの所定の機能を計算処理システム500に実行させる。1つもしくは複数の実施形態において、アプリケーション514は、開示の技術のビデオインデックス付加アプリケーション515を含んでいてもよい。
【0084】
3.データストレージ521
例えば、プレゼンテーションのビデオファイルを含む様々なビデオファイルを保存するためのビデオファイルストレージ522及び、例えば、OCR技術を用いてプレゼンテーションスライドから抽出されるテキストを保存するストレージ523を含むことが可能である。代替的に、ストレージ523はオリジナルのプレゼンテーションスライドから抽出されるテキストを保存してもよい。さらに、データストレージ521は、例えば、ASR技術を用いてビデオファイルのオーディオトラックから抽出されるテキストを保存するストレージ524を含んでいてもよい。代替的に、このテキストはビデオ媒体の各々に付随するクローズドキャプション情報から抽出されてもよい。
【0085】
1つもしくは複数の実施形態において、開示の技術のビデオインデックス付加アプリケーション515は、計算処理システム500のディスプレイデバイス526を用いて、
図4に例示するユーザインターフェイスを生成するように構成されているユーザインターフェイス生成モジュール516を含む。開示の技術のビデオインデックス付加アプリケーション515は、プレゼンテーションビデオに示されているスライドから、もしくはスライドからテキストを抽出するOCR/抽出モジュール517をさらに含んでいてもよい。開示の技術のビデオインデックス付加アプリケーション515は、ビデオファイルのオーディオトラックに適用される自動音声認識を用いて発話ワードを取得するASRモジュール518をさらに含んでいてもよい。代替的に、モジュール518は、ビデオファイルに関連するクローズドキャプション情報を用いて発話ワードを抽出するように構成されていてもよい。代替的に、抽出されたスライドテキストに基づいて検出された発話ワードのランク付けオペレーション及び上記技術によってビデオファイルへのインデックス付加オペレーションを実行するランク付け/インデックス付加モジュール519が提供されてもよい。最後に、上記技術によって動作されるように構成されている潜在変数モデルのトレーニングを実行するトレーニングモジュール520が提供されてもよい。
【0086】
最後に、説明した処理及び技術は任意の特定の装置に固有に関連するものではなく、任意の適切な構成要素の組み合わせによって実装されてもよい。さらに、様々なタイプの汎用目的デバイスが説明した開示によって使用されてもよい。説明した方法ステップを実行するために特定用途装置を構築することは効果的である。本発明は、特定の例に関連して説明されたが、当該説明は、制限することではなく、例示することを意図している。ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが、本発明を実施するために適している。例えば、説明したソフトウェアは、アセンブラ、C/C++、オブジェクティブC、perl、shell、PHP、Java(登録商標)及び任意の現在知られているもしくは今後開発されるプログラミング言語もしくは記述言語などの様々な広い範囲にわたるプログラミング言語もしくは記述言語で実装されてもよい。
【0087】
さらに、詳細の検討及び開示された発明の実施から、本発明の様々な実装が可能であることは明らかである。説明した実施形態の様々な態様及び/もしくは構成要素はマルチモーダルビデオインデックス付加のためのシステム及び方法において、単体でもしくは任意の組み合わせで使用されてもよい。詳細及び例は、例示だけを目的としており、本発明の範囲及び思想は特許請求の範囲に示されている。