【課題を解決するための手段】
【0018】
本発明によれば、
上記課題は、請求項1に記載の
:
ビューの画像の少なくとも1つの特徴に注釈付けするためのコンピュータ化された方法において、
ポータブル・デバイスの画像センサによって前記画像を得るステップと、
前記ポータブル・デバイスのパラメータから少なくとも1つの条件を取り出すステップと、
前記少なくとも1つの条件に基づいて、利用可能な複数の特徴識別方法から1つの特徴識別方法を自動的に選択するステップと、
前記画像の複数の特徴を識別するために前記特徴識別方法を適用するステップと、
当該識別された複数の特徴のうちのどの特徴が注釈付けされるべきかを決定するステップと、
当該識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けして、重ねられた注釈を有する注釈付き画像を生成するステップとから成り、
前記複数の特徴識別方法は、
前記画像と1つ又は複数の2Dモデルとの間の合致に基づく第1の特徴識別方法と、
前記画像と1つ又は複数の3Dモデルとの間の合致に基づく第2の特徴識別方法とのうちの少なくとも1つの方法から成るか、又はこれらの方法の任意に組み合わせたものから成る当該方法によって解決される。
さらに、本発明は、請求項11に記載のビューの画像の少なくとも1つの特徴に注釈付けするためのシステムと、請求項13に記載のコンピュータ読み取り可能な記録媒体とによって解決される。
【0019】
このコンテキストにおける名詞「特徴」は、ビューの画像の任意の要素又は特性を示す。特徴は、限定ではないが例えば、山、絵画、彫像、人物、天候、新聞記事、ポスター、レストラン、道路上の他の任意の要素などとすることができる。特徴は、静的な、すなわち時間において固定位置を有する特徴であることもあり、又は動的な、すなわち時間の経過につれて位置又はその概観が変化する特徴であることもある。後者の場合、この種の特徴は、識別されるだけでなく追跡もされることになる。特徴の概観が時間の経過につれて動的に変化し得る一実施形態、例えばディジタル標識の表示装置上に表示される広告クリップの場合では、特徴の識別及び追跡は、ビデオ・ストリームの場合には時間的なフレーム間関係を使用することができ、又は、ある時間帯にわたり静的なままである静的な画像部分を使用することができる。
【0020】
名詞「注釈」は、画像中の特定の特徴を識別するか又は特徴付ける1つ又は複数の単語、記号、顔文字、描画、線、矢印、画像などを示す。注釈は、画像を通常観察する間に目に見える。例えば、注釈は、注釈付き画像の上に重なる。
【0021】
特徴が認識されない場合、その注釈はクエスチョン・マークとすることができる。
【0022】
名詞「注釈」はまた、音及び/又は言語表現を含む音声メッセージを示すことができる。名詞「注釈」はさらに、音声画像のシーケンス又はビデオ・クリップ、すなわち、視覚と音声の両方のメッセージを示すことができる。一実施形態では、注釈は対話式とすることもでき、例えば、ユーザが注釈をクリックしてアクションをトリガすることができる。このようなアクションの結果は、ユーザ入力を求めるメニュー、又は、ユーザに対する種々の情報の表示とすることができる。別の実施形態では、ユーザの対話の必要なしに、対応する特徴が認識されればすぐにメニューがユーザに対して提示される。
【0023】
別の実施形態では、注釈が表示される前にユーザがアクションを実行する必要がある。例えば、注釈付けすべき特徴は、16個の点で構成される正方形を含むプラカードであり、このプラカードは、16個の点の全てを接続する少数の直線を引くようユーザに求める。ユーザがこれらの線を正しく引くと、例えば拍手を含む音声注釈が特徴に付けられることになる。
【0024】
表現「ポータブル・デバイス」は、カメラ、ビデオカメラ、携帯電話機、ラップトップ、コンピュータ、パーソナル・ディジタル・アシスタント(PDA)、スマートフォン、ゲーム・コンソールを指すことができるが、これらに限定されない。ビデオカメラの場合、このビデオカメラによって得られる画像は、ビデオ・ストリームの少なくとも1つのフレームを含み、ビデオ・ストリームはリアルタイム・ビデオ・ストリームとすることができる。
【0025】
このコンテキストにおける名詞「条件」は、パラメータ間の関係を示し、この関係を使用して、複数の利用可能な方法から1つの特徴識別方法を選択することができる。条件は、ポータブル・デバイスの画像センサから得られる画像、又は以下のような他のソースに依存することがある。
・1つ又は複数の位置特定センサ
・1つ又は複数のネットワークベースのセンサ
・1つ又は複数のポータブル・デバイス・パラメータ
・1つ又は複数のリモート・サーバ
【0026】
画像から取り出される条件の例として、画像の幾つかの特徴のアプリオリな認識を、注釈付け方法の選択に使用することができる。例えば、方法は、マッターホルン(セルヴァン(Cervin))などの山の景色、ピサの斜塔などの建物、円盤投げなどの彫像、又はモナリザなどの絵画が画像中に存在すること等、画像中で識別される特徴を分類することができる。識別される特徴のカテゴリの例には、例えば、風景要素、都市要素、交通要素、クローズアップ要素などが含まれる。
【0027】
条件が、GPSのような位置特定センサ、及び/又はネットワークベースの位置特定センサから例えば検出された、ポータブル・デバイスの場所に依存する場合、選択される識別方法は、例えば、適切な注釈付け方法を選択するための場所のカテゴリに依存することができる。カテゴリの例としては、風景と都市景色、屋内場所と屋外場所、ハイウェイと美術館、などが含まれる。
【0028】
屋内と屋外の分類はまた、測定された輝度、又は追加のフラッシュ光の使用に依存することができる。
【0029】
他の条件を、ポータブル・デバイスのパラメータから取り出すことができる。一例では、ズーム倍率、開口、又は集束距離など、レンズのパラメータを使用することができる。また、例えば、オート、ポートレート、パーティ/屋内、浜辺/雪、風景、クローズアップ、美術館、夕暮れ/夜明けなどを区別するための、ユーザによって選択されたか又は自動的に選択された場面モードを、最も適合された特徴識別方法を決定するための条件として使用することもできる。
【0030】
これらのデバイス・パラメータは、自動的であってもよく、又はユーザによって手動で選択されてもよい。例として、例えば場面モード「オート」で光が十分でないと考えられる場合には、又は場面モード「パーティ/屋内」では、フラッシュの使用がポータブル・デバイスによって自動的に設定されてよい。又は、フラッシュの使用は、ユーザがポータブル・デバイスの触覚手段を選択することによって、又は外部フラッシュ・デバイスをポータブル・デバイスに追加することによって、手動で設定することができる。
【0031】
条件はまた、画像モデルを含む1つ又は複数のリモート・サーバのデータベースから取り出すこともできる。
【0032】
このコンテキストにおける表現「特徴識別方法」は、取り込まれた画像中の1つ又は幾つかの特徴を識別するために選択される方法を示す。方法の選択は、述べた条件の少なくとも1つに依存し、したがって、異なる条件において、異なる特徴識別方法が使用される。特徴識別方法の例は、取り込まれた画像中の特徴を、既知の特徴のローカル又はリモート・データベースに記憶された基準2D画像と照合することを含む。異なる条件下で使用できる別の特徴識別方法は、取り込まれた画像中の特徴を、ローカル又はリモート・データベースに記憶された1つ又は幾つかの3Dモデルの投影と照合することを含んだ。さらに別の特徴識別方法は、取り込まれた要素に関連する、RFID要素などの無線ビーコンから発せられてユーザのデバイスによって受信される無線信号を使用することを含む。
【0033】
特定の特徴識別方法が選択された後は、選択された方法によって使用されるそれぞれの基準2D及び3D要素の特定データベースの選択もまた、条件に依存することができる。
【0034】
一例では、集束距離が、例えば「円盤投げ」など、前景のオブジェクトに適合する場合は、選択される特徴識別方法は3Dマッチング認識又は識別方法とすることができ、「円盤投げ」の取込み画像が、データベース中の候補3D基準要素の投影と照合される。集束距離が、例えば山脈など、背景のオブジェクトに適合する場合は、選択される特徴識別方法は2Dマッチング認識又は識別方法とすることができ、山脈の輪郭が、データベース中の2D基準画像と照合される。
【0035】
有利にも、本発明による方法は、ポータブル・デバイスの現在の集束距離に依存して、2D又は3D特徴識別方法を自動的に選択する。
【0036】
有利にも、この方法は、最良の特徴識別方法を決定するために、2つ以上の条件を使用し組み合わせることができる。上記の例では、画像が「円盤投げ」を含む場合、ポータブル・デバイスが「美術館」モードに設定されている可能性が高い。この異なる条件により、この例では、3Dマッチング・アルゴリズムが適することが確定し、したがって、次いでこれらの条件に基づいて、3D画像、例えば古代ギリシャの彫像を表す画像を含む特定のデータベースを選択することができ、「円盤投げ」を素早く効率的に識別することができる。
【0037】
山脈を含む画像に関する上記の他方の例では、ポータブル・デバイスが「風景」モードに設定されており、したがってフラッシュを使用しない可能性が高く、また、ポータブル・デバイスは、デバイスの画像センサにリンクされた位置センサ(例えばGPSセンサ)、又は、GSM(登録商標)又はUMTSネットワーク中でデバイスの位置を例えば特定するためのネットワークベースのセンサを使用して、デバイスの地理的位置を取り出すことができる可能性が高い。これらの条件が満たされるとき、特徴識別方法が選択され、これらの条件に基づいて、2D画像、例えばこの特定の場所の風景輪郭を表す画像を含む特定のデータベースが選択され、山脈を素早く効率的に識別することができる。
【0038】
本発明の独立態様によれば、「注釈候補」のセット、すなわち複数の注釈からの注釈のセットを、自動的に選択することが可能である。この候補選択は、特徴識別方法の自動選択と同様、少なくとも1つの条件に基づく。好ましい一実施形態では、この少なくとも1つの条件は、ポータブル・デバイスの位置センサ、例えばGPSセンサから取り出された、デバイス位置に依存する。
【0039】
注釈候補は、セルラー・ネットワーク(例えばUMTS)又はWifiを介して、リモート・サーバからポータブル・デバイスにワイヤレスにダウンロードすることができる。このようにすれば、どんな外部サーバの必要もなしに、ポータブル・デバイス自体の上でビューの画像の注釈付けを行うことができる。また、注釈付けデバイスは、フラッシュ・メモリやDVDなどの媒体に記憶された大きい不揮発性の注釈セット付きで出荷されてもよい。この場合、注釈付けデバイスは、このセットのサブセットのみを使用することになる。実際、コンパクト・ディジタル・カメラのような注釈付けデバイスに、いくらかの注釈セットが組み込まれてよく、カメラは、ユーザが現在見ているビューを認識して、ユーザが撮影しているビューの画像に、認識された注釈で自動的に「タグ付け」することができる。特徴識別方法は、一実施形態では上で論じたように少なくとも1つの条件に依存することができ、次いでこの特徴識別方法が、ビューの画像の少なくとも1つの特徴を識別するために適用される。一実施形態では、非特許文献2で説明されている方法が、非特許文献3で説明されている方法との組合せでこの目的に使用されるが、他の方法を使用することもできる。識別された特徴のうちのどれに注釈付けするかが決定された後、これらの識別された特徴と注釈候補との対応が検証される。
【0040】
対応又は合致が見つかった場合は、識別された特徴についてどこでどのように注釈を記述及び/又は再生するか、いくつの注釈が画像に重ねられるか、書き込まれる注釈のフォント・タイプ及び寸法、ビデオ注釈の音量及び/又は言語などが決定される。次いで、識別された複数の特徴のうちの幾つかの特徴が注釈付けされる。
【0041】
対応又は合致が見つからない場合は、同じ又は別のサーバから、別の候補セットがダウンロードされ、識別された特徴と新しい候補との対応が検証される。新しいセットは一般に、前のセットよりも広い。すなわち、共通する特徴の数がより少ない候補を含む。対応又は合致が見つかった場合は、前述の考察がやはり当てはまる。見つからない場合は、対応又は合致が見つかるまで、ダウンロード及び検証のステップが反復的に継続される。見つからない場合は、例えばポータブル・デバイス上に表示される書き込まれたメッセージによって、注釈付け失敗メッセージがポータブル・デバイスのユーザに通信される。一実施形態では、ユーザは、例えば幾つかの検索基準をポータブル・デバイス上で導入することによって、所望の注釈をデバイスが見つけるのを補助するよう求められる。
【0042】
本発明の独立態様によれば、ビューの画像の少なくとも1つの特徴に注釈付けするための本発明の方法は、
・ポータブル・デバイスの画像センサによって前記画像を得るステップと、
・少なくとも1つの条件を取り出すステップと、
・前記少なくとも1つの条件に基づいて、リモート・サーバ上で複数の特徴識別データ及び/又は注釈から特徴識別データのセット及び/又は注釈候補のセットを自動的に選択するステップと、
・前記セット(1つ又は複数)を前記ポータブル・デバイスにダウンロードするステップと、
・前記画像の特徴が特徴識別データと合致するかどうか検証するステップと、
・対応が見つかった場合に、識別された複数の特徴のうちの少なくとも幾つかの特徴に注釈付けするステップと、
・対応が見つからない場合に、対応が見つかるまで特徴識別データ及び/もしくは注釈候補のセットを変更及び/もしくは拡張し、かつ/又は、ポータブル・デバイスのユーザに通知してユーザにいくらかの特徴識別データ及び/もしくは注釈候補の挿入を求めるステップとを含む。
【0043】
対応が見つからない場合、ユーザ自身が、注釈デバイスにもリモート・サーバにも知られていない新しい特徴識別データを追加することができる。新しい特徴識別データは、例えば、画像上で利用可能であってユーザが注釈付けしたいと思う特徴のモデル又はテンプレートであり、このモデル又はテンプレートは、この特徴を他の類似の画像上で認識するのに使用することができる。新しい特徴識別データは、例えば、ユーザが新しい注釈を付けたいと思う取り込まれた画像の一部に対応するものとすることができる。新しい注釈は、注釈セットをダウンロードするのに使用されたのと同じ通信リンクを使用して、リモート・サーバに送られる。次いで、将来のユーザは、ビューの画像のオブジェクトに注釈付けされるようにすることができる。このように、注釈は、ユーザによって生成し、ユーザ間で共有することができる。
【0044】
この独立態様により考慮することができる条件の例は、以下に依存することができる。
・位置センサ(例えばカメラの画像センサにリンクされたGPSセンサ)から、又はGSMやUMTSネットワークなどのセルラー・ネットワークから取り出された、カメラの地理的位置
・ユーザ設定
・注釈付けすべき特徴(1つ又は複数)上の、データグラム、及び/又はバーコード、及び/又はRFID、及び/又は他の任意の認識可能な特徴、例えばロゴ、OCR検出
・現在のデータ及び/又は時間
・サーバとポータブル・デバイスとの間の通信リンクの品質
・ポータブル・デバイスの計算力
・その他
【0045】
上記の独立態様によれば、デバイスの画像センサによって生成されたリアルタイム・ビデオ・ストリームに即座に注釈付けすることが可能である。
【0046】
ライブ・ビデオ・ストリームに対する注釈付けをリアルタイムで実行するためには、特徴識別方法をポータブル・デバイス内で実施しなければならない。通常、この特徴識別方法は、識別目標に到達するために、選択された方法に応じて何らかの特徴識別データを使用することを伴う。例えば、コンピュータ・ビジョン方法を使用すると、特徴識別方法は、識別しなければならない各特徴の「モデル」を必要とする。ポータブル・デバイスは、このモデルを使用して、ビューの画像中の特徴を識別してそれに注釈付けする。こうすることにより、ポータブル・デバイスは、表示可能デバイスであるだけでなく注釈付けデバイスでもあり、どんな外部サーバの必要もなしに、必要とされる全ての画像処理及びセンサ処理がポータブル・デバイス自体の上で行われる。
【0047】
一実施形態では、リモート・サーバと注釈付けデバイスとの間の通信コストを削減するために、かつ/又は注釈付けデバイスの計算の必要性を低減するために、特徴識別データは、リモート・サーバによって最適化される。
【0048】
本発明の他の独立態様によれば、リモート・サーバからポータブル・デバイスにダウンロードされる特徴識別データの選択は、論じた少なくとも1つの条件に依存する。本発明の別の独立態様によれば、この選択は、サーバとポータブル・デバイスとの間の通信リンクの品質に依存する。本発明の別の独立態様によれば、この選択は、ポータブル・デバイスの計算力、及び/又は利用可能なメモリ空間に依存する。
【0049】
本発明は、例として提供し図で示す実施形態の記述の助けを借りることによって、よりよく理解することができるであろう。