特許第5844887号(P5844887)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルカテル−ルーセントの特許一覧

特許5844887通信ネットワークを通じたビデオ・コンテンツ検索のための支援
<>
  • 特許5844887-通信ネットワークを通じたビデオ・コンテンツ検索のための支援 図000002
  • 特許5844887-通信ネットワークを通じたビデオ・コンテンツ検索のための支援 図000003
  • 特許5844887-通信ネットワークを通じたビデオ・コンテンツ検索のための支援 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5844887
(24)【登録日】2015年11月27日
(45)【発行日】2016年1月20日
(54)【発明の名称】通信ネットワークを通じたビデオ・コンテンツ検索のための支援
(51)【国際特許分類】
   G06F 17/30 20060101AFI20151224BHJP
【FI】
   G06F17/30 170D
   G06F17/30 330C
   G06F17/30 210A
【請求項の数】8
【全頁数】12
(21)【出願番号】特願2014-510716(P2014-510716)
(86)(22)【出願日】2012年4月27日
(65)【公表番号】特表2014-517390(P2014-517390A)
(43)【公表日】2014年7月17日
(86)【国際出願番号】EP2012057720
(87)【国際公開番号】WO2012156193
(87)【国際公開日】20121122
【審査請求日】2014年1月9日
(31)【優先権主張番号】1154263
(32)【優先日】2011年5月17日
(33)【優先権主張国】FR
【前置審査】
(73)【特許権者】
【識別番号】391030332
【氏名又は名称】アルカテル−ルーセント
(74)【代理人】
【識別番号】100094112
【弁理士】
【氏名又は名称】岡部 讓
(74)【代理人】
【識別番号】100106183
【弁理士】
【氏名又は名称】吉澤 弘司
(72)【発明者】
【氏名】セクダン,シルヴァン
(72)【発明者】
【氏名】ファンベル,アレクサンドレ
【審査官】 早川 学
(56)【参考文献】
【文献】 特開2009−295054(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
ユーザによる通信ネットワークを通じたビデオ・コンテンツ検索を支援する方法であって、
− 前記ユーザによって第1のコンテンツ・アイテムを決定するステップと、
− 前記第1のコンテンツ・アイテムから意味論的なデータを自動的に抽出するステップと、
− 前記意味論的なデータに応じて、少なくとも1つのサービスのクエリーを自動的に生成して、前記少なくとも1つサービスでビデオのセットを取り出すことを可能にするステップであって、前記少なくとも1つのサービスは、前記意味論的なデータに基づいて決定される、ステップと、
− 前記ユーザに前記ビデオのセットを提示するステップと
を含む方法。
【請求項2】
前記第1のコンテンツ・アイテムと、前記セット内のビデオに関連する記述との間の意味論的な近接性の基準に基づいて、前記セットの中からビデオのサブセットを選択するステップをまた含む請求項1に記載の方法。
【請求項3】
前記ステップは、マンマシン・インタフェースの第1のコンテンツ・アイテムの選択によって、および前記マンマシン・インタフェースを通じてアクセス可能なソフトウェア機能の選択によってトリガーすることができる請求項1または2に記載の方法。
【請求項4】
意味論的なデータを自動的に抽出する前記ステップは、「主語−動詞−目的語」関係を抽出するステップからなる請求項1乃至のいずれか1項に記載の方法。
【請求項5】
生成されたクエリーは、前記関係に基づいて構成される請求項に記載の方法。
【請求項6】
請求項1乃至のいずれか1項に記載の方法を実施するための処理手段を備えた通信端末。
【請求項7】
請求項1乃至のいずれか1項に記載の方法をコンピュータに実施させるコンピュータ・プログラム。
【請求項8】
ユーザが第1のコンテンツ・アイテムを選択することを可能にする手段、および
− 前記第1のコンテンツ・アイテムから意味論的なデータを自動的に抽出するステップと、
− 前記意味論的なデータに応じて、少なくとも1つのサービスのクエリーを自動的に生成して、前記少なくとも1つのサービスでビデオのセットを取り出すことを可能にするステップであって、前記少なくとも1つのサービスは、前記意味論的なデータに基づいて決定される、ステップと、
− 前記ユーザに前記ビデオのセットを提示するステップと
をトリガーすることを可能にする手段を備えたマンマシン・インタフェースを含む通信端末。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットを通じたビデオ・コンテンツ提供サービスへのアクセスに関する。これらのサービスは、「YouTube」、「Vimeo」、および「DailyMotion」などの一般的なプラットフォーム、またはより専門的なプラットフォーム(教育セクタ、医療セクタなど)である。
【背景技術】
【0002】
これらの2種類のサービスは、ユーザがプラットフォームに自分のコンテンツをアップロードすることを可能にするという共通の特性を共有している。その結果、これらのサービスのすべてを通じて非常に大量のビデオ・コンテンツを入手可能である。現在、「YouTube」サービスでは毎分約355時間のビデオがアップロードされている。
【0003】
利用可能なコンテンツのこのような爆発的増加に対して、大多数のコンテンツは、十分な可視性を得ていない。したがって、利用可能なビデオ・コンテンツの40%だけが、300回を超えて視聴される。
【0004】
このような低い割合は主に、そのように膨大な量のコンテンツからユーザにとって興味深いビデオを識別することが非常に困難になっているという事実に起因する。
【0005】
ビデオ・コンテンツには記述が関連づけられていて、多くの場合はテキスト形式であり、これは自由なテキスト・フィールドまたはラベルのセットを通じて、キーワードに基づいた検索を可能にする。したがって、新しいビデオをアップロードすることを希望する各ユーザは、サービスに組み込まれている検索エンジンまたは外部の検索エンジン(「Google」、「Bing」、または「Yahoo!」など)を使用して、そのユーザのビデオを他のユーザが見つけることを可能にする記述を提供するように求められる。
【0006】
しかし、記述はユーザによって提供されるので完全に主観的なものであるため、この解決法は十分ではない。特に、それらは個別のユーザの興味を示すものであり、様々な言語の場合があり、所与の言語においては、複数の可能な同意語を含むキーワードの選択が含まれる場合がある。したがって、ビデオを見つけるために、それらを決定するツールなしで、ユーザは適切なキーワードを選択しなければならない。ビデオをアップロードしたユーザによって選択されたラベルおよび用語をいかにして知ることができるであろうか。
【0007】
結果として生じる問題は以下の2通りある。
− 検索によって、必ずしも最も関連性が高いビデオ・コンテンツが提供されるわけではない。
− 検索を行うユーザにビデオが十分に見えない場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、この状況を改善することである。
【課題を解決するための手段】
【0009】
そうするために、その第1の目的は、ユーザによる通信ネットワークを通じたビデオ・コンテンツ検索を支援するための方法であって、
− 前記ユーザにより第1のコンテンツ・アイテムを決定するステップと、
− この第1のコンテンツ・アイテムから意味論的なデータを自動的に抽出するステップと、
− 前記意味論的なデータに応じて、少なくとも1つのサービスのクエリーを自動的に生成して、前記少なくとも1つのサービスでビデオのセットを取り出すことを可能にするステップと、
− 前記ユーザに前記ビデオのセットを提示するステップと
を含む。
【0010】
本発明の一実施形態によると、この方法は、第1のコンテンツ・アイテムと、このセット内のビデオ・コンテンツに関連する記述との間の意味論的な近接性の基準に応じて、前記セットからビデオのサブセットを選択するステップを含むこともできる。
【0011】
少なくとも1つのサービスは、意味論的なデータに応じて決定することができる。
【0012】
これらのステップは、マンマシン・インタフェース(WB)の第1のコンテンツ・アイテム(CZ)の選択によって、および前記マンマシン・インタフェースを通じてアクセス可能なソフトウェア機能の選択によってトリガーすることができる。
【0013】
意味論的なデータを自動的に抽出するステップは、「主語−動詞−目的語」関係を抽出することからなり得る。生成されたクエリーは、前記関係に基づいて構成することができる。
【0014】
本発明は、上に記述した方法を実施するための処理手段を備えた通信端末、ならびにこの方法を実施するための符号化手段を備えたコンピュータ・プログラムをも目的とする。
【0015】
本発明は、ユーザが第1のコンテンツ・アイテムを選択することを可能にする手段、および
− 前記第1のコンテンツ・アイテムから意味論的なデータを自動的に抽出するステップと、
− これらの意味論的なデータに応じて、少なくとも1つのサービスのクエリーを自動的に生成して、前記少なくとも1つサービスでビデオのセットを取り出すことを可能にするステップと、
− ユーザにそのビデオのセット・コンテンツを提示するステップと
をトリガーすることを可能にする手段を備えた、通信端末のためのマンマシン・インタフェースをも目的とする。
【0016】
このようにして、一般的にテキスト形式である、第1のコンテンツ・アイテムに基づいて、本発明は、ビデオ・コンテンツの可視性および検索の関連性を改善するために、ユーザの主観を取り除き、または少なくとも減らすことを可能にする。本発明は、ビデオ・コンテンツと検索対象と間の意味上のギャップを減らすことを可能にする。
【0017】
本発明およびその利点は、添付の図面に関して、以下の記述からより明白になるだろう。
【図面の簡単な説明】
【0018】
図1】本発明を実施するマンマシン・インタフェースを示す図である。
図2】本発明による方法のステップの可能な連鎖を概略的に示す流れ図である。
図3】テキスト・コンテンツの例、および抽出された意味論的なデータを示す図である。
【発明を実施するための形態】
【0019】
図1は、ユーザがURL(ユニファイド・リソース・ロケータ:Unified Resource Locator)からウェブ・ページにアクセスすることを可能にするウェブ・ブラウザを示している。このブラウザは、マンマシン・インタフェースまたは「ウィンドウ」WBをユーザに提示する。このウィンドウには、(ビデオ・コンテンツを含む)ページが表示されるブラウザ空間WPおよびメニュー領域MZを含む複数の部分が表示される。
【0020】
このメニュー領域はそれ自体、ドロップダウン・メニューSMおよびアイコンIMを含むことができる。このメニュー領域MZを通じて、ブラウザは、ユーザにその各種機能へのアクセスを提供する。所与の機能は、また、ドロップダウン・メニュー、アイコン、または両方を通じてアクセス可能な場合がある。これはブラウザの開発者によって行われる人間工学的な選択である。
【0021】
さらに、これらの機能および/または他の機能には、ユーザはコンテキスト・メニューCMを通じてもアクセス可能な場合がある。典型的には、マイクロソフト社のWindows(TM)オペレーティング・システムでは、そのようなコンテキスト・メニューは、マウスの右メニュー・ボタンで開かれ、その要素は、マウス・ポインターの位置およびブラウザの状態に依存している。
【0022】
図1の例では、ブラウザ空間WPにテキスト・コンテンツが表示されている。マンマシン・インタフェースWBは、このテキスト・コンテンツのすべてまたは一部を選択することを可能にする。この選択は、マウスもしくは他の任意のポインティング・デバイス、またはキーボードなどを使用し、既知の方法によって行うことができる。描写した例では、CZ領域だけが選択されている。
【0023】
この第1のコンテンツCZが選択されると、ユーザは、マンマシン・インタフェースWBのメニューから本発明に対応する機能を選択することができる。この機能は、ドロップダウン・メニューSM、アイコンIM、またはコンテキスト・メニューCMから選択することができる。この選択は、アイコンIMをクリックする、またはドロップダウン・メニューSMもしくはコンテキスト・メニューCMから要素を選択することからなり得る。
【0024】
本発明は、また、ブラウザ以外のソフトウェア・アプリケーションに適用することができる。特に、本発明は、ファイル表示アプリケーションに適用することができる。アドビ社の「PDF」形式の電子ブック(または「eブック」)またはファイルを読むユーザは、上記のように、コンテンツ領域を選択し、選択されたコンテンツに基づいて該当するソフトウェア・アプリケーションでメニューから機能をトリガーすることができる。
【0025】
ソフトウェア・アプリケーションは、また、マイクロソフト社の「Word」ソフトウェアなどワード・プロセッサでもよい。
【0026】
同様に、本発明は、テキスト・コンテンツ以外のコンテンツに適用することができる。したがって、画像、音声、またはビデオを選択することが可能である。
【0027】
最初のコンテンツを決定するためにユーザによる選択以外のメカニズムも可能な場合がある。たとえば、決定は、表示されたウェブ・ページ、再生されているビデオ、読まれている電子メールのコンテンツなどに応じて自動的でもよい。
【0028】
この第1のコンテンツ・アイテムCZを決定するステップは、図2のステップE1に示されている。
【0029】
第1のコンテンツ・アイテムCZおよび適切な機能を選択することで、この第1のコンテンツ・アイテムから意味論的なデータを自動的に抽出する第1のアルゴリズムのステップがトリガーされる。
【0030】
このステップは、ステップE2として示されている。
【0031】
このステップは、いくつかのサブステップに細分化することができる。
【0032】
第1のサブステップE2aは、コンテンツのタイプを決定することからなる。すなわち、コンテンツがテキスト、ビデオ、画像、オーディオなどのどれかということである。
【0033】
コンテンツ・タイプに応じて、次に、意味論的なデータを抽出するために様々なアルゴリズム使用することができる。これらのアルゴリズムは、別個のソフトウェア・モジュールによって実装することができる。
【0034】
抽出ステップE2の次のサブステップは、コンテンツ・タイプに依存することができる。
【0035】
テキスト・コンテンツの場合には、第2のサブステップE2bは、コンテンツ・アイテムCZから意味論的な生のデータを抽出することからなり得る。
【0036】
これらの意味論的な生のデータは、文ごとまたは文のブロックごとに抽出することができる。
【0037】
文のブロックの抽出は、以前に識別されたエンティティを参照する人称代名詞の存在によって調整される。各文の主語は同じであると言えるため、同じ話題で一貫した文のブロックを識別できる場合がある。
【0038】
すべての言葉が抽出されなくてもよい。テキストを理解するのに役立たないなら、一部の言葉は省略することができる。
【0039】
抽出は、以下に示す複数のステップで実行することができる。
− いわゆる「ストップ・ワード」の削除:等位接続詞など。
− 残りの情報を分析し、判別的な意味を持つキーワードのセットを抽出するために、統計および自然言語アルゴリズムを使用。たとえば、人の記述において、「目」という言葉は判別的ではない。誰もが「目」を持っているからである。他方では、「片目」という単語は判別的である。このために、文書のセットにおける単語の頻度についての情報を得られるコーパスを使用することができる。つまり、頻度が低いほど、単語の推測的な重要性が高い。
【0040】
これらの意味論的な生のデータに基づいて、第3のサブステップE2cで、洗練された意味論的なデータを決定することができる。これらの洗練された意味論的なデータは、「概念」;人、企業、場所(都市、国、地域など)の名前;日付などでもよい。
【0041】
「概念」は、意味論的な生のデータのセットからの主要な意味論的なデータと見なすことができる。それらは、様々な方法で決定することができる。たとえば、各意味論的な生のデータは、テキスト・コンテンツCZ全体に渡る発生カウンターに関連づけることができる。概念は、次に、最も発生回数が多いものに対応する意味論的なデータである。
【0042】
また、同意語および様々な意味レベルからの生のデータ、特に上位語(つまり、1つまたは複数のより具体的な意味論的なデータ・アイテムを包含する、より一般的な意味論的な生のデータ)を考慮する存在論を使用することが可能である。
【0043】
次に、概念は、同義語および上位語に基づいて集約された意味論的な生のデータの発生回数によって決定することができる。たとえば、生のデータ「オレンジ」、「ブドウ」、「バナナ」などの発生を含むテキスト・コンテンツから、「果物」という概念を導き出すことができる。
【0044】
テキスト・コンテンツCZが属するカテゴリを決定するために、たとえば、最も発生回数が多いものに関連するものなど、最も重要な概念を導き出すことが可能である。このカテゴリは、以前に決定された概念の一連の上位語を考慮して検索することができる。
【0045】
人、企業、場所などの名前は辞書から決定することができる。この辞書は、本発明のソフトウェア手段の内部的なものでもよく、またはウェブ・サービスまたは他の技術的なデバイス(データベースなど)の形でインターネット上にリモートにあってもよい。
【0046】
図3は、テキスト・コンテンツCZの例と、抽出された意味論的なデータとの間の対応を示している。この例では、テキスト・コンテンツCZは、ブラウザ空間WPに表示されたウェブ・ページでユーザによって選択された領域である。図では灰色の背景で示されている。
【0047】
本発明の機能をトリガーした後、「ポップ・アップ」ウィンドウPWが表示され、最も関連するビデオ・コンテンツVCおよび他の関連するビデオ・コンテンツRVCが表示される。このウィンドウPWには、また、「カテゴリ」、概念、人および場所(「州または国」)の名前、ならびに意味論的な生のデータ(「タグ」)が表示される。ユーザにとってたいした意味を持たず、内部的により有益な場合、この情報は表示されなくてもよい。しかし、説明を明確にするためにここに表示される。
【0048】
「ビジネス」(取引、貿易)というカテゴリは、この例では、抽出された概念に基づいて決定される。したがって、「広告」および「セール」という概念には「ビジネス」という上位語がある。この推論は、「安値」、「市場」、「手形仲買業」、「シリング」などの生のデータの存在によってさらに強化される。
【0049】
この意味論的な分野に複数の概念が発生することから、本発明の方法は、テキスト・コンテンツCZがビジネスに関係していると、ここで自動的に決定することができる。
【0050】
サブステップE2dは、意味論的なデータを重み付けすることからなる。各意味論的なデータならびにその同意語および上位語の発生回数に応じて、意味論的なデータの重要性を識別し、テキスト・コンテンツCZを表すために重みを割り当てることができる。
【0051】
より高い重みを割り当てることもできる。
【0052】
実際には、このサブステップは、サブステップE2cと同時に実行することができる。
【0053】
また、後のステップで使用するために、これらの重みに基づくランキングにより、その重みが特定のしきい値または制限数を超えるものだけを保存するために意味論的なデータのフィルタリングを含むことができる。
【0054】
本発明の一実施形態では、意味論的なデータの文法的な機能を決定し、それらの間に論理的なリンクを構成するために、テキスト・コンテンツCZの文法解析を実行することが可能である。
【0055】
このリンクは「主語−動詞−目的語」関係によって形式化することができる。
【0056】
本発明の方法は、文または言葉の群内に「主語」、「動詞」、および「目的語」機能を識別し、意味解析によって、3つの抽出された要素の間にそのようなリンクを確立することを試みる。当然、様々な手法が可能である。
【0057】
可能な1つの手法は、以下からなり得る。
− 文または言葉の群から主語を抽出するステップ。この主語、行動する人は、個人、既知の組織、実際の場所などとして識別することができる。そのような識別に辞書を使用することができる。
− 抽出された主語の近くにある動詞の検出。ここでも、動詞の形式を識別するために辞書を使用することができる。また、所与の動詞の活用および様々な形式を考慮しようとすることもできる。この形式に応じて、これが行動(動作動詞)または状態(受動態、過去分詞)に関係があるかを知るために補足の意味論的な情報を抽出することができる。
− 行動の「目的」を識別するための、動詞の近くにあるキーワードおよび概念の抽出。
【0058】
このプロセスの効率を改善するために、他動詞だけを考慮するように計画することができる。これらにより、より直接的な「主語−動詞−目的語」関係を構成することができる。そうするために、動詞の形式を抽出するために使用される辞書は他動詞だけを含んでいてもよい。
【0059】
また、辞書に属するコーパスにも属する目的語の決定に対する「主語−動詞−目的語」関係の作成を従属させるように計画することができる。「主語」の例に続き、この「目的語」は、個人、既知の組織、実際の場所などでもよい。
【0060】
次に、ステップE3は、意味論的なデータに基づいて少なくとも1つのサービスを決定することからなり得る。
【0061】
実際、一部のビデオ・コンテンツ提供サービスは1つのテーマに専門化されており(スポーツ、ニュース、芸術的な短編映画、教育など)、テキスト・コンテンツCZから抽出された意味論的なデータに依存して、最も関連するサービスを対象とすることが妥当な場合がある。
【0062】
追加として系統的に、または抽出された話題に専門化されたサービスがない場合、またはそれらが不十分な場合はときどき、DailyMotionまたはYouTubeなどの一般的な(generalist)サービスも検索することができる。
【0063】
あるいは、サービスは、構成によって静的に識別することができる。
【0064】
ステップE4は、意味論的なデータに基づいて、識別されたサービス(複数可)のクエリーを自動的に生成するステップからなる。
【0065】
典型的には、これは、パラメータとして抽出された意味論的なデータのすべてまたは一部を含むHTTP(ハイパーテキスト転送プロトコル)のクエリーを構成するステップを含むことができる。
【0066】
これらのデータは、単一のクエリーまたは複数のクエリーを構成するために使用することができる。したがって、特定のしきい値を超える重みを持つ意味論的なデータと同数のクエリーを構成することが可能である。
【0067】
また、「主語−動詞−目的語」関係を抽出することから構成された実装形態では、各関係に対して異なるクエリーを構成することが可能な場合がある。
【0068】
テキスト・コンテンツCZのすべては、文ごとまたは単語ブロックごとに通覧することができる。各文または単語ブロックについて、「主語−動詞−目的」関係がある場合、それらはクエリーを構成するために使用することができる。そうでなければ、クエリーは意味論的な生のデータから構成することができる。
【0069】
これらのクエリーにより、識別されたサービス(複数可)で利用可能なビデオのセットを取り出すことが可能になる。
【0070】
次に、これらのビデオはマンマシン・インタフェースWBで、より具体的にはブラウザ空間WPでユーザに提示される。
【0071】
本発明の一実施形態では、テキスト・コンテンツCZと、取り出されたビデオとの間の意味論的な近接性の基準を実施することが可能である。
【0072】
意味論的な近接性は、以前のステップでテキスト・コンテンツCZから抽出された意味論的なデータおよび取り出されたビデオに関連する意味内容に基づいて計算することができる。これらのデータは、「タグ」、「タイトル」フィールド、「説明」フィールドなど、ユーザによって保存された生のデータでもよい。
【0073】
また、取り出されたビデオの分析を実施することも可能である。
【0074】
したがって、質感(海、砂、氷など)および/または色をかなり容易に決定することが可能である。
【0075】
また、形状認識アルゴリズムを実装することも可能である。これらは、固定情報(すなわち、視角によって変わらない形状の部分)から既知の形式を決定することを試みることができる。
【0076】
相乗効果を得るために、様々な手法をともに使用することができる。
− たとえば、形状解析によってアザラシを決定することで、検出された質感が実際に氷であることを確認することを可能にすることができる。次に、エラーを減らし、結果の信頼性を高めることができる。
− 別の例では、色の決定が形状の決定と相関することにより、意味の追加が可能になり得る。したがって、単なる馬の決定より判別的な概念である、「黒い馬」の存在を決定することができる。
【0077】
ビデオ(または連続する画像)から画像の網羅的解析を実行することが可能である。したがって、周囲光のレベルを分析し、そこから意味論的な情報を取り出すことができる。たとえば、場面が屋外であることが検出されている場合、日中か夜かを決定することができる。
【0078】
この情報を比較することによって、特に存在論を使用することによって、距離を決定することが可能である。
【0079】
また、そのような距離を定めるために様々な方法が可能である。
【0080】
具体的には、
− グラフで扱われる距離に基づいて、所与の存在論の概念間の発見的な測定基準。この距離は、ノードがキーワードまたは概念であるグラフ上のノードの数でもよい。特定のペアは、リンクによって直接的に接続されている。リンクは、方向があってもよく、または対称でもよい。2つ単語の間のリンクが対称の場合、2つの単語の関係はより強力である。この距離により、たとえば、2つの概念の類似性を定量化することを可能にすることができる。また、これは曖昧さをなくす目的に役立つことができる。
− TF−IDF(単語の出現頻度−逆文書頻度)方法は、情報検索、特にテキスト比較においてよく使用される重み付け方法である。この統計的測定により、集合またはコーパスに対して、文書に含まれている語の重要性を評価することが可能になる。重みは、文書内での単語の出現回数に比例して増加する。また、コーパス内での単語の頻度に基づき変化する。ユーザの検索基準に関して文書の関連性を評価するために、検索エンジンでは、多くの場合、オリジナルの式の代替案が使用される。
【0081】
たとえば、IDFコーパスにおいて「恐竜」という単語の発生率が低い場合、これは、より一般的な単語より判別的なのでより重要であることを意味する可能性があり、この単語が、抽出された言葉の各「TF」リスト(文脈から抽出されたコーパスにリンクされたリストおよびビデオの記述から抽出されたコーパスにリンクされたリスト)に出現する場合、その発生回数に基づいて、この単語により高いまたはより低い重みを与えることができる。両方のリストに単語が見つかるという事実により、IDF値に基づいて、より強いまたはより弱いリンクを規定することが可能になる。
【0082】
また、2つの手法を組み合わせることもできる。たとえば、文脈から抽出された言葉の第1のリストに、IDFコーパスにおいて比較的高い重みを持っている、「恐竜」という単語が見つかる。ビデオの記述から抽出された第2のリストに、「ティラノサウルス」という単語が見つかる。グラフは、2つのホップ(グラフのノードの数)に対称的なリンクがあることを示している。したがって、このビデオの文脈は、IDF値/ホップの数との類似点を示していると考えることができる。
【0083】
したがって、このアルゴリズムを各単語に適用することによって、全体的な類似性を計算することができる。
【0084】
取り出されたビデオのそれぞれの距離に基づいて、最も妥当な方法でユーザにそれらを提示するように、それらを順位付けすることが可能である。したがって、取り出された他の関連するビデオの前に、テキスト・コンテンツCZに最も近い近接性を持つビデオが提示される。
【0085】
また、近接性の基準に基づいて、取り出されたビデオのサブセットを選択することも可能である。
【0086】
これは、テキスト・コンテンツCZからのそれらの意味的距離に基づいたランキングに応じて、所定の数のビデオだけを選択することを含むことができる。
【0087】
また、それは所定のしきい値より小さい意味的距離に対応するビデオのみを選択することを含むことができる。したがって、取り出されたビデオのいずれもが十分に近くない場合、この実施形態は、ユーザにビデオ・コンテンツを示さない場合がある。
【0088】
当業者は、他の代替案および実施形態も可能であり、また利用可能である。したがって、本発明は上に記述した実装形態に限定するものと理解することはできない。
図1
図2
図3