【課題】本開示の実施形態は、シーンのより良好な解釈を助けるラベルを最適に配置することによって、対象物/対象シーンの遮蔽の制限を克服するための拡張現実(AR)アプリケーションのためのコンテキスト情報を最適に配置するためのシステムおよび方法を提供する。
【解決手段】入力ビデオの各フレームについて計算された顕著性マップを、ラベルの初期オーバーレイ位置に基づく各フレームの現在位置と以前の全体位置との間のユークリッド距離と組み合わせて、ビデオ内のラベル配置の更新されたオーバーレイ位置を計算することによって達成される。オーバーレイの配置は、対象物の周りの視覚的顕著性を最小限に抑え、時間ジッタを最小にする目的関数として定式化され、リアルタイムARアプリケーションにおけるコヒーレンスを促進する。
前記ラベルの前記更新されたオーバーレイ位置は、前記複数の顕著性マップと前記複数のユークリッド距離とを組み合わせることによって計算される、請求項1に記載のプロセッサ実施方法。
前記複数のフレームの各々の前記ユークリッド距離は、前記入力ビデオ内に配置される前記ラベルの位置における時間ジッタをリアルタイムで制御するために計算される、請求項1に記載のプロセッサ実施方法。
前記対象物の観察が遮られるのを最小限に抑えるために、前記ラベルを前記初期オーバーレイ位置から前記更新されたオーバーレイ位置にシフトすること(210)をさらに含む、請求項1に記載のプロセッサ実施方法。
前記現在のオーバーレイ位置と前記以前のオーバーレイ位置との間の、所定の閾値範囲内にあるユークリッド距離に対応する複数のピクセルが、前記初期オーバーレイ位置から前記更新されたオーバーレイ位置へラベルをシフトするために選択される、請求項1に記載のプロセッサ実施方法。
前記ラベルの前記更新されたオーバーレイ位置は、前記複数の顕著性マップと前記複数のユークリッド距離とを組み合わせることによって計算される、請求項6に記載のシステム。
前記複数のフレームの各々の前記ユークリッド距離は、前記入力ビデオ内に配置される前記ラベルの位置における時間ジッタをリアルタイムで制御するために計算される、請求項6に記載のシステム。
前記1つまたは複数のハードウェアプロセッサは、前記対象物の観察が遮られるのを最小限に抑えるために、前記ラベルを前記初期オーバーレイ位置から前記更新されたオーバーレイ位置にシフトするようにさらに構成されている、請求項6に記載のシステム。
前記現在のオーバーレイ位置と前記以前のオーバーレイ位置との間の、所定の閾値範囲内にあるユークリッド距離に対応する複数のピクセルが、前記初期オーバーレイ位置から前記更新されたオーバーレイ位置へラベルをシフトするために選択される、請求項6に記載のシステム。
前記ラベルの前記更新されたオーバーレイ位置は、前記複数の顕著性マップと前記複数のユークリッド距離とを組み合わせることによって計算される、請求項11に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
前記複数のフレームの各々の前記ユークリッド距離は、前記入力ビデオ内に配置される前記ラベルの位置における時間ジッタをリアルタイムで制御するために計算される、請求項11に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
前記命令は、前記1つまたは複数のハードウェアプロセッサによって実行されると、前記対象物の観察が遮られるのを最小限に抑えるために、前記ラベルを前記初期オーバーレイ位置から前記更新されたオーバーレイ位置にシフトすることをさらにもたらす、請求項11に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
前記現在のオーバーレイ位置と前記以前のオーバーレイ位置との間の、所定の閾値範囲内にあるユークリッド距離に対応する複数のピクセルが、前記初期オーバーレイ位置から前記更新されたオーバーレイ位置へラベルをシフトするために選択される、請求項11に記載の1つまたは複数の非一時的機械可読情報記憶媒体。
【発明の概要】
【0004】
本開示の実施形態は、従来のシステムにおいて本発明者らによって認識された1つまたは複数の上述の技術的問題に対する解決策として技術的改善を提示する。例えば、一態様では、拡張現実アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置のためのプロセッサ実施方法が提供される。この方法は、(i)複数のフレームと複数のフレーム内の対象物とを含む入力ビデオ、および(ii)入力ビデオの中央フレーム上の配置について初期オーバーレイ位置が予め計算されているラベルをリアルタイムで受信することと、複数の顕著性マップを取得するために、複数のフレームの各々について顕著性マップをリアルタイムで計算することと、複数のユークリッド距離を取得するために、複数のフレームの各々について、ラベルの初期オーバーレイ位置に基づいて現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離をリアルタイムで計算することと、複数の顕著性マップおよび複数のユークリッド距離に基づいて、入力ビデオ内に配置するためのラベルの更新されたオーバーレイ位置をリアルタイムで算出することとを含む。
【0005】
一実施形態では、ラベルの更新されたオーバーレイ位置は、複数の顕著性マップと複数のユークリッド距離とを組み合わせることによって計算することができる。
【0006】
一実施形態では、複数のフレームの各々のユークリッド距離は、入力ビデオ内に配置されるラベルの位置における時間ジッタをリアルタイムで制御するために計算される。一実施形態では、方法は、対象物の観察が遮られるのを最小限に抑えるために、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトすることをさらに含むことができる。
【0007】
一実施形態では、所定の閾値範囲内にある、現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離に対応する複数のピクセルが、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトするために選択される。
【0008】
例えば、一態様では、拡張現実アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置のためのシステムが提供される。システムは、命令を記憶するメモリと、1つまたは複数の通信インターフェースと、1つまたは複数の通信インターフェースを介してメモリに結合されている1つまたは複数のハードウェアプロセッサとを備え、1つまたは複数のハードウェアプロセッサは、命令によって、(i)複数のフレームと複数のフレーム内の対象物とを含む入力ビデオ、および(ii)入力ビデオの中央フレーム上の配置について初期オーバーレイ位置が予め計算されているラベルをリアルタイムで受信することと、複数の顕著性マップを取得するために、複数のフレームの各々について顕著性マップをリアルタイムで計算することと、複数のユークリッド距離を取得するために、複数のフレームの各々について、ラベルの初期オーバーレイ位置に基づいて現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離をリアルタイムで計算することと、複数の顕著性マップおよび複数のユークリッド距離に基づいて、入力ビデオ内に配置するためのラベルの更新されたオーバーレイ位置をリアルタイムで算出することとを行うように構成される。
【0009】
一実施形態では、ラベルの更新されたオーバーレイ位置は、複数の顕著性マップと複数のユークリッド距離とを組み合わせることによって計算される。一実施形態では、複数のフレームの各々のユークリッド距離は、入力ビデオ内に配置されるラベルの位置における時間ジッタをリアルタイムで制御するために計算される。
【0010】
一実施形態では、1つまたは複数のハードウェアプロセッサは、対象物の観察が遮られるのを最小限に抑えるために、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトするようにさらに構成される。一実施形態では、所定の閾値範囲内にある、現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離に対応する複数のピクセルが、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトするために選択される。
【0011】
さらに別の態様では、1つまたは複数のハードウェアプロセッサによって実行されると、拡張現実アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置のための方法をもたらす1つまたは複数の命令を含む1つまたは複数の非一時的機械可読情報記憶媒体が提供される。命令は、(i)複数のフレームと複数のフレーム内の対象物とを含む入力ビデオ、および(ii)入力ビデオの中央フレーム上の配置について初期オーバーレイ位置が予め計算されているラベルをリアルタイムで受信することと、複数の顕著性マップを取得するために、複数のフレームの各々について顕著性マップをリアルタイムで計算することと、複数のユークリッド距離を取得するために、複数のフレームの各々について、ラベルの初期オーバーレイ位置に基づいて現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離をリアルタイムで計算することと、複数の顕著性マップおよび複数のユークリッド距離に基づいて、入力ビデオ内に配置するためのラベルの更新されたオーバーレイ位置をリアルタイムで算出することとをもたらす。
【0012】
一実施形態では、ラベルの更新されたオーバーレイ位置は、複数の顕著性マップと複数のユークリッド距離とを組み合わせることによって計算することができる。
【0013】
一実施形態では、複数のフレームの各々のユークリッド距離は、入力ビデオ内に配置されるラベルの位置における時間ジッタをリアルタイムで制御するために計算される。一実施形態では、命令は、1つまたは複数のハードウェアプロセッサによって実行されると、対象物の観察が遮られるのを最小限に抑えるために、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトすることをさらにもたらす。
【0014】
一実施形態では、所定の閾値範囲内にある、現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離に対応する複数のピクセルが、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトするために選択される。
【0015】
前述の一般的な説明および以下の詳細な説明は両方とも例示的かつ説明的なものにすぎず、特許請求されるような本発明を限定するものではないことを理解されたい。
【0016】
本開示に組み込まれてその一部を構成する添付の図面は、例示的な実施形態を例示し、本明細書と共に、開示される原理を説明するのに役立つ。
【発明を実施するための形態】
【0018】
例示的な実施形態が、添付の図面を参照して説明される。図において、参照符号の左端の数字(複数可)は、その参照符号が最初に現れる図を識別する。都合のよい場合にはいつでも、同じまたは同様の部分を指すために図面全体を通して同じ参照符号を使用する。本明細書では開示される原理の例および特徴が説明されているが、開示される実施形態の精神および範囲から逸脱することなく修正、適合、および他の実施態様が可能である。以下の詳細な説明は例示としてのみ考慮されるべきであり、その真の範囲および精神は添付の特許請求の範囲によって示されることが意図される。
【0019】
上述のように、仮想現実(VR)による拡張現実(AR)は、PC、インターネット、およびモバイルに続く技術の第4の波と考えられる。現実世界のシーンに仮想情報を重ねることは、より良好な状況認識を可能にし、人間の認知および知覚を増強させるために非常に重要であると考えられる。そのようなコンテキスト情報の配置は、人工知能における主要な問題であるシーン理解にとって重要な貢献である。
【0020】
テキストラベルの最適配置に関連する用途のいくつかは、以下の通りである。(i)屋内/屋外シーンおよびビデオにおける広告の最適配置が、見る者の視覚的注意を引くための極めて重要な広告戦略である。(ii)近傍の記念物および建造物の名称を識別するラベルが、旅行者のより良好な状況認識に役立つ。(iii)様々な従来のアプリケーションが、そのカメラを使用することによって様々なオペレーティングシステム(例えば、アンドロイド(登録商標)デバイス)上でリアルタイム翻訳を可能にする。携帯電話上のARアプリケーションは、より高速で、正確に、効率的にかつ低い認知負荷でタスクを実行するのを助けることに留意されたい。最適なオーバーレイ配置が有用であり得る別の例は、兵士が頭部装着型デバイス(HMD)を使用する状況である。HMDに表示される戦場マップ内の隊員のGPS座標のオーバーレイは、重要なときにシーンの現実の視野を遮るべきではない。さらに、ビデオ内の字幕の最適な配置は、視点が逸れるのを回避するのに役立つ。スマートラベル配置は、コミックスタイルのオーバーレイ配置を使用することによってビデオを面白くするのに役立つ。
【0021】
オーバーレイが対象の物体/シーンを遮らないような方法でコンテキスト情報がオーバーレイされ、それによってより適切な解釈を補助するように配置されるとき、これらの2Dテキストラベルの配置は困難である。配置がリアルタイムで機能する必要があるときにARアプリケーションのラベル配置が単純ではないことを発見した研究はほとんどない。静止画像上にラベルを配置するという単純なタスクの場合、可能なラベル位置の数はラベル付けされるべき項目の数と共に指数関数的に増加する。その他の課題は、ARアプリケーションのラベル配置に関する認知上および知覚上の問題の理解不足を含む。
【0022】
上記すべてを述べたが、対象の物体/シーンの周りのオーバーレイ配置は、物体検出およびセグメンテーションと比較して、視覚映像界隈においてほとんど注目を集めていない。最近、テキストラベルをリアルタイムでオーバーレイするARアプリケーションの需要が高まるにつれて、ラベル配置が大きな注目を集めています。ラベルをレンダリングするための幾何学ベースのレイアウトおよび画像ベースのレイアウト、審美的な規則、ならびに適応的オーバーレイに基づく最適なテキストラベルの配置についての関連研究が為されている。
【0023】
幾何学ベースのレイアウト手法では、点特徴ラベル配置がNP困難問題であることが実証されており、焼きなまし法および勾配降下法が解決策として提案されている。画像の美観ベースの(または画像ベースのレイアウト)手法は、ユーザの満足度の強い決定要因としてコンピュータインターフェースの視覚的美観を考慮するために開発された。それらは、空間レイアウト規則、対称性、要素間のバランス、ならびに、色彩設計、およびフォトブック生成の使用事例との調和など、一般的な設計原則を利用する。しかしながら、前述の手法は画像に作用し、リアルタイムカメラストリーム(またはリアルタイムビデオストリーム)には適していない。
【0024】
他のいくつかの研究は、顕著性マップとエッジマップとの組み合わせを使用する、ビデオストリーム上のラベルの配置のためのARブラウザに対する画像駆動型ビュー管理に焦点を当てている。そのような研究において、モバイルデバイス上のビデオストリームにこの手法を適用するときに大きな制限に直面することがあり、そのいくつかとして、第1に、そのような技法は、カメラのわずかな動きがあるときに大きく適用されることが観察されている。大規模な動きの場合、それらの技法はラベルに静的なレイアウトを使用する。ARベースのアプリケーションについて、この方法は明らかに不可能である。第2に、視覚的顕著性アルゴリズムを実行することは、計算費用がかかる行列操作を含む。この問題は、計算リソースおよびメモリが限られているモバイル機器において特に顕著になる。さらに、上記のようなこれらの研究および他の従来知られているテキストオーバーレイの手法は計算量が多く、大部分はデスクトップコンピュータ上の画像に作用し、リアルタイム性能を欠き、さらにビデオのオーバーレイには適していない。さらに、遮蔽、照明に乏しいシナリオ、ライブ視野内のシーン変化により、オーバーレイには独自の課題がある。
【0025】
本開示の実施形態は、ARアプリケーションのためのコンテキストラベルの戦略的配置のためのシステムおよび方法を提供する。本開示のシステムおよび方法は、スマートフォンおよびタブレットなどのローエンドのアンドロイドデバイスにおいてさえもリアルタイムで機能するラベル配置技術を提供する。本開示では、ラベル配置は、画像顕著性および時間ジッタによってパラメータ化された目的関数として定式化される。本開示は、オーバーレイ配置の有効性を測定するために、顕著性に対するラベル遮蔽対顕著性(LOS)スコアの計算を実施する。
【0026】
ここで、図を通して一貫して同様の参照符号は対応する特徴を示している図面、より詳細には
図1〜4を参照すると、好ましい実施形態が示されており、これらの実施形態は以下の例示的なシステムおよび/または方法の文脈において説明される。
【0027】
図1は、本開示の一実施形態による、拡張現実アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置のためのシステム100の例示的なブロック図を示す。システム100は、「オーバーレイ配置システム」とも呼ばれ、以後互換的に使用される。一実施形態では、システム100は、1つまたは複数のプロセッサ104、通信インターフェースデバイス(複数可)または入出力(I/O)インターフェース(複数可)106、および1つまたは複数のプロセッサ104に動作可能に結合された1つまたは複数のデータ記憶デバイスまたはメモリ102を含む。1つまたは複数のプロセッサ104は、1つまたは複数のソフトウェア処理モジュールおよび/またはハードウェアプロセッサとすることができる。一実施形態では、ハードウェアプロセッサは、1つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、状態機械、論理回路、および/または動作命令に基づいて信号を操作する任意のデバイスとして実装することができる。他の機能の中でも、プロセッサ(複数可)は、メモリに記憶されているコンピュータ可読命令を取り出して実行するように構成されている。一実施形態では、デバイス100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどのような様々なコンピューティングシステムにおいて実装することができる。
【0028】
I/Oインターフェースデバイス(複数可)106は、例えばウェブインターフェース、グラフィカルユーザインターフェースなどの様々なソフトウェアおよびハードウェアインターフェースを含むことができ、例えば、LAN、ケーブルなどの有線ネットワーク、WLAN、セルラ、衛星などの無線ネットワークを含む、多種多様なネットワークN/Wおよびプロトコルタイプ内の複数の通信を容易にすることができる。一実施形態では、I/Oインターフェースデバイス(複数可)は、いくつかのデバイスを互いにまたは別のサーバに接続するための1つまたは複数のポートを含むことができる。
【0029】
メモリ102は、例えばスタティックランダムアクセスメモリ(SRAM)およびダイナミックランダムアクセスメモリ(DRAM)などの揮発性メモリ、ならびに/または、読み出し専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、および磁気テープなどの不揮発性メモリを含む、当技術分野で知られている任意のコンピュータ可読媒体を含むことができる。一実施形態では、データベース108をメモリ102に記憶することができ、データベース108は、限定ではないが、情報入力ビデオ、フレーム、対象物、ラベル、ラベルの初期オーバーレイ位置、ラベル幅および高さ、顕著性マップ出力、ユークリッド距離出力(複数可)、ビデオにおける配置のための更新されたオーバーレイ位置を含むことができる。より具体的には、ピクセル情報、各フレームの現在および以前のオーバーレイ位置、時間ジッタ、所定の閾値範囲などを含む、入力ビデオに関する情報を含む。一実施形態では、メモリ102は、1つまたは複数のハードウェアプロセッサ104によって実行されるときに本明細書に記載されている方法論を実行するための1つまたは複数の技法(複数可)(例えば、顕著性マップ計算技法(複数可)、ユークリッド距離計算技法(複数可))を記憶することができる。メモリ102は、本開示のシステムおよび方法によって実行される各ステップの入力(複数可)/出力(複数可)に関する情報をさらに含むことができる。
【0030】
図2は、
図1を参照して、本開示の一実施形態による、
図1のシステム100を使用した拡張現実(AR)アプリケーションのためのビデオにおけるリアルタイムオーバーレイ配置のための方法の例示的な流れ図を示す。一実施形態では、システム(複数可)100は、1つまたは複数のハードウェアプロセッサ104に動作可能に結合されており、1つまたは複数のプロセッサ104によって方法のステップを実行するための命令を記憶するように構成されている1つまたは複数のデータ記憶デバイスまたはメモリ102を備える。ここで、本開示の方法のステップを、
図1に示されるようなシステム100の構成要素、および
図2に示されるような流れ図を参照して説明する。入力ビデオをリアルタイム(real time)(「リアルタイム(real−time)」とも呼ばれ、以後互換的に使用されることがある)で受信する前に、システム100および関連する方法は、ユーザ(複数可)によって指定されるいくつかのパラメータ、すなわちk、λ、Σ、O
h、およびO
wを入力として受け取る。式中、
1)kは、処理をスキップするフレームの数である。本開示の技法/方法は、kフレームごとに実行される。k=1の場合、本開示の方法はすべてのフレームにおいて実行される。同様に、k=2の場合、本方法は1つおきのフレームにおいて実行される。
2)λは後続のオーバーレイの時間的コヒーレンスを制御する。λの値が小さいことは、オーバーレイがそれほど顕著でない領域に配置される可能性が高いが、それはまた多くのジッタの影響を受けることになることを意味する。λの値が高くなると、ジッタは低減するが、オーバーレイの動きも制限される。
3)Σは、探索空間サンプリングパラメータである。これは、2次元画像空間内のピクセルを均一にサンプリングする。例えば、u
wおよびu
hがそれぞれフレームの幅および高さであると考える。これらは、本発明のコンテキストでは探索空間の寸法である。このとき、u
h/Σおよびu
w/Σ個のピクセルが、それぞれの画像寸法においてスキップされる。
4)O
h、O
wは、それぞれオーバーレイ高さおよびオーバーレイ幅である。
【0031】
本開示の技法または方法が、最良のオーバーレイ位置を計算するためにすべてのピクセル値を探索することは実行可能でない場合がある。顕著性マップは離散値を有し、そのため、確率的勾配降下法などの最適化技法を使用することは不可能であり得る。すべてのピクセルを通じた線形探索は法外に費用がかかる。本開示では、均一サンプリング手法がとられる。本開示の方法およびシステム100によって計算されるいくつかの他の中間変数は以下の通りである。
a)X
P;Y
Pは、前回の反復におけるオーバーレイの最適位置である。これはフレームの中央に初期化される。
b)X;Yは、現在の反復において計算されるオーバーレイの最適位置である。
c)SMは、従来の計算技法(複数可)(例えば、Achanta他としても参照されるRadhakrishna Achanta、Sheila Hemami、Francisco Estrada、およびSabine Susstrunk「Frequency−tuned salient region detection」(Computer vision and pattern recognition,2009.cvpr 2009.ieee conference on.IEEE,2009,pp.1597−1604)、または、従来の視覚的顕著性技法を参照されたい。これらは本明細書では互換的に使用され得る)を用いて計算される顕著性マップである。
d)Pは、探索空間からサンプリングされるピクセルの集合である。
e)F
w,F
hは、それぞれビデオフレームの幅および高さである。
【0032】
上記の説明は、
図2に記載された以下のステップによってより良好に理解される。本開示の一実施形態では、ステップ202において、1つまたは複数のハードウェアプロセッサ104は、(i)複数のフレームと複数のフレーム内の対象物とを含む入力ビデオ、および(ii)入力ビデオの中央フレーム上に配置するための初期オーバーレイ位置が事前計算されているラベルをリアルタイムで受信する。一実施形態では、ラベルはラベル高さおよびラベル幅を含む。本開示の一実施形態では、入力ビデオが
図3に示されている。初期オーバーレイ位置を有するラベル(例えば、ラベルは、入力ビデオの中央フレーム上にあるかまたはそこに配置されることになる)も入力として受信される(
図2および
図3には示されていない)。入力ビデオおよびラベルを受信すると、ステップ204において、1つまたは複数のハードウェアプロセッサは、複数の顕著性マップを取得するために、複数のフレームの各々について顕著性マップをリアルタイムで計算する。例示的な顕著性マップを
図3に示す。本開示では、システム100が、入力ビデオ内に存在する各フレームについて顕著性マップを計算する。言い換えれば、入力ビデオの対応する各フレームに対して1つの顕著性マップが存在することになる。そのため、顕著性マップの計算は、複数の顕著性マップを得るために、入力ビデオの最後のフレームまで反復して実行される。
【0033】
ステップ206において、1つまたは複数のハードウェアプロセッサ104は、複数のユークリッド距離を得るために、ラベルの初期オーバーレイ位置に基づいて現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離をリアルタイムで計算する。ユークリッド距離の計算は、複数のユークリッド距離を得るために、入力ビデオの最後のフレームまで反復して実行される。言い換えれば、ユークリッド距離は、複数のフレームの各々について計算される。言い換えれば、顕著性マップの計算の場合のように、入力ビデオの対応する各フレームに対して1つのユークリッド距離が存在することになる。例示的なユークリッド距離計算を
図3に示す。本開示では、ユークリッド距離は、入力ビデオ内に配置されることになるラベルの位置における時間ジッタを制御するために各フレームについて計算される。時間ジッタの制御は、入力ビデオがリアルタイムで受信され処理されるときにリアルタイムで行われる。
【0034】
複数の顕著性マップおよび複数のユークリッド距離が計算されると、ステップ208において、1つまたは複数のハードウェアプロセッサ104は、複数の顕著性マップおよび複数のユークリッド距離に基づいて入力ビデオ内に配置するためのラベルの更新されたオーバーレイ位置をリアルタイムで算出する。言い換えれば、ラベルの更新されたオーバーレイ位置は、
図3に示すように、複数の顕著性マップと複数のユークリッド距離とを組み合わせることによって計算される。ステップ204および206は連続して実行されるが、(i)複数のフレームの各々について顕著性マップを計算するステップと、(ii)複数のフレームの各々について現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離を計算するステップとは、同時に実行することができる。これにより、より短い時間での計算をさらに確実にすることができ、その結果、リソースの利用がより良好または最適になり得る。さらに、更新されたオーバーレイ位置が計算されると、システム100(または1つもしくは複数のハードウェアプロセッサ104)は、ステップ210において、対象物の観察が遮られるのを最小限に抑える(または低減する)ために、ラベルを初期オーバーレイ位置から更新されたオーバーレイ位置にシフトする。代替的に、この観察は、ラベルが初期オーバーレイ位置から更新されたオーバーレイ位置にシフトしたときに観察に遮蔽がないことも保証する。本開示では、現在のオーバーレイ位置と以前のオーバーレイ位置との間の、所定の閾値範囲内にあるユークリッド距離に対応する複数のピクセルが、初期オーバーレイ位置から更新されたオーバーレイ位置へラベルをシフトするために選択される。言い換えれば、現在のオーバーレイ位置と以前のオーバーレイ位置との間のユークリッド距離が所定の閾値範囲(「所定の閾値」とも呼ばれ、以下で互換的に使用され得る)内にある1つまたは複数のピクセルが、ラベルを、その初期オーバーレイ位置からシステム100によってリアルタイムで計算される更新されたオーバーレイ位置までシフトするために選択される。更新されたオーバーレイ位置は、ラベル高さおよびラベル幅を有するラベルに関する情報を含む(例えば、この場合、幅および高さは、初期オーバーレイ位置に関連する初期幅および高さと同じであり得るか、または複数のピクセルの選択に応じて変化し得る)。例示的な重ね合わせフレームを
図3に示す。より具体的には、
図3は、
図1〜
図2を参照して、本開示の一実施形態による、顕著性マップおよびユークリッド距離を計算することによる入力ビデオにおけるリアルタイムオーバーレイ配置のためのブロック図を示す。
【0035】
一言で言えば、ステップ202から208までは、よりよく理解するために以下のように説明される。
【0036】
本開示の方法は、例えば、kフレームごとに実行される。所与のフレームについて、擬似コード(例えば、SaliencyMapComputation(顕著性マップ計算))を使用する視覚的顕著性マップ(顕著性マップとも呼ばれ、以後互換的に使用されることがある)が計算される。次に、システム100は、探索空間内に提供されたピクセル値(例えば、Σ探索空間サンプリングパラメータを参照)を通じて反復し、サイズO
h、O
wの仮想ボックス内でマップによって与えられた顕著性値を合計する。本開示では、最も低い合計を有するピクセル値が、最も低い顕著性を示唆する理想的な候補として選択される。以前の位置と現在の位置との間の、λ(所定の閾値範囲または所定の閾値として参照される)によってスケーリングされたユークリッド距離dが可能な限り小さい場合、オーバーレイはシフトされる。低い顕著性と時間ジッタの両方によって課される制約を組み合わせるために、本開示は以下のように最適化問題を定式化する。
【数1】
【0037】
以下は、本開示の技法/方法の例示的な擬似コードである。
1.(X
P;Y
P)=(フレーム幅/2,フレーム高さ/2)
2.kフレームごとに
3.SM=顕著性マップ計算(フレーム)
4.for(x,y)∈P
5. L={(a,b)|x≦a≦x+O
w,y≦b≦y+O
h}
6. s
x,y=Σ
(a,b)∈LSM(a,b)
7. d
x,y=λ×距離((X,Y),(X
P,Y
P))
8.s
min=min(s
x,y+d
x,y)
9.(X,Y):=arg_min(s
x,y)
10.(X
P,Y
P):=(X,Y)//遷移全体に線形補間を使用する
【0038】
上記の擬似コードにおいて、行(またはコマンドもしくはプログラムコード)「SM=顕著性マップ計算(フレーム)」を実行するためには、従来の顕著性マップ計算の技法を参照することができる(例えば、Radhakrishna Achanta,Sheila Hemami,Francisco Estrada,およびSabine Susstrunk「Frequency−tuned salient region detection」(Computer vision and pattern recognition,2009.cvpr 2009.IEEE conference on.IEEE,2009,pp.1597−1604.’−also referred as Achanta et al.which can be found at−https://infoscience.epfl.ch/record/135217/files/1708.pdf)を参照されたい)。より具体的には、一実施形態では、顕著性マップ計算のよりよい理解のために、式(1)、(2)、(3)および(4)を含むAchanta他の上記参考文献のセクション3.2を参照することができる。
【0039】
実験および結果
実験には、タブレットを通じた3Dプリンタによる検査中の対象物を観察するために被験者(例えば、方法/擬似コードを試験するために、25〜34歳の年齢層の25人の研究者、10人の女性および15人の男性)が関与した。主観的および客観的な一連の測定基準を取得して、(a)ユーザ体験、および(b)オーバーレイの配置を評価した。すべての実験で、寸法50×50のラベルを使用した。これはユーザのニーズに従ってカスタマイズすることができる。実験は、Nexus(登録商標)6アンドロイドフォンおよびNexus(登録商標)9タブレット上で行った。ユーザには、以下のパラメータを1〜5の尺度でレーティングすることを課した。その後、平均意見スコアを得た。使用された測定基準は、(i)オーバーレイの位置、(ii)オーバーレイ内の低ジッタ、(iii)オーバーレイボックスおよびテキストの色、ならびに(iv)オーバーレイ応答性である。
【0040】
本開示は、本開示の方法を評価するために、DIEMデータセットを使用した(例えば、Parag K Mital, Tim J Smith, Robin L Hill,およびJohn M Henderson「Clustering of gaze during dynamic scene viewing is predicted by motion」(Cognitive Computation,vol.3,no.1,pp.5−24,2011.)−http://pkmital.com/home/wp−content/uploads/2010/03/Mital_Clustering_of_Gaze_During_Dynamic_Scene_Viewing_is_Predicted.pdfを参照されたい)。本開示による実験を行うために、解像度1280×720のビデオがデータセットから取られた。このデータセットは、種々のジャンルの広告、予告編、およびテレビシリーズの様々なビデオで構成されていた。また、眼球運動を用いて、このデータセットは詳細な眼球固定顕著性注釈を提供した。
【0041】
実験中、パラメータλおよびΣの値が、DIEMデータセット上で、グリッド検索(当技術分野で公知)から経験的に見出され、ビデオ全体にわたるオーバーレイの平均ラベル遮蔽対顕著性(LOS)スコア(下記に定義し、論じる)に対するその効果が比較された。
図4は、
図1〜
図3を参照して、本開示の一実施形態による、等高線プロットとしてのλおよびΣの変化による平均ラベル遮蔽対顕著性(LOS)スコアの変動を示すグラフ図を示す。より具体的には、
図4は、λおよびΣに関する平均LOSスコアの等高線プロットを示す。実験の間、LOSスコアはλとは無関係であり、Σとλとの最適な組み合わせは(5、0.021)であり、Σが小さいことが好ましいことが観察された(402によって示される、
図4の等高線の間にある逆Yのような記号を有する線表現を参照)。
【0042】
結果
主観的測定基準
下記の例示的な表(表1)は、主観的測定基準スコアを示す。
【表1】
【0043】
上記の表1から、オーバーレイの位置は、オーバーレイがシーン内の顕著な領域を覆うのを防ぐために極めて重要である4.5と非常に高くレーティングされたことが、本開示によって推測される。およそ20フレーム毎秒(fps)で実行される本開示の方法の上記擬似コードのリアルタイム実施は、場合によって4.7のオーバーレイ応答性の高いスコアをもたらした。単純な色彩設計−黒いフォントの白いボックスおよびその逆が選ばれ、ボックスの色は透明度がα=0.5に設定されていた。オーバーレイボックスの色は、下記の例示的な方程式(または式)2によって与えられるピクセル強度(輝度チャネルY)に適用される単純な適応閾値に依存した。
【数2】
【0044】
データ駆動閾値Threshは、所与のシーンの最大輝度値と最小輝度値との間の差の平均である。この値がThresh以上の場合、オーバーレイボックスは黒色の背景を使用し、逆も同様である(テキストラベルがどのようにオーバーレイされるかの設定全体が記されていますが、これは実験を通して実証されたことに留意されたい)。実験中に検討中のサンプルオーバーレイは、シーン全体に関するコンテキスト情報のみを示した。デモンストレーションから、オーバーレイはリアルタイムで機能し、同時にジッタが少ないことも分かった。
【0045】
客観的測定基準
本開示の方法/擬似コードによって実行されたオーバーレイ配置の有効性が比較された。この比較のための評価基準は、ビデオの顕著性グラウンドトゥルースを有するラベルによって遮蔽される平均LOSスコアに基づいていた。スコアが小さいほど、遮蔽の少ない効果的なオーバーレイ配置を示す。ラベル遮蔽対顕著性(LOS)スコアSは、以下の式として定義され、表される。
【数3】
式中、Lは、オーバーレイによって遮蔽されているピクセル(x,y)のセットであり、Gは、グラウンドトゥルース顕著性マップである。本開示の方法に関する上記の擬似コードは、0.042の平均LOSスコアを有し、オーバーレイ位置を計算するのに0.021秒の時間がかかることが分かった。
【0046】
本開示の実施形態は、ARアプリケーションのためのビデオにおけるリアルタイムオーバーレイ(コンテキスト情報)配置のためのシステムおよび方法を提供する。上記の実験および結果に基づいて、本開示は、シーンのより良好な解釈を助けるラベルを最適に配置することによって、対象物/対象シーンとの遮蔽の制限を克服することが観察される。オーバーレイの配置は、(i)対象物の周りの視覚的顕著性、および(ii)時間ジッタを最小にする目的関数として定式化され、リアルタイムARアプリケーション(特に(ローエンドまたはハイエンド)スマートフォン、タブレット(複数可)、ARベースのブラウザなどで実行される)におけるコヒーレンスを促進する。ARアプリケーションの例は、ナビゲーションマップ、ゲームアプリケーションにおいて視覚化することができるような仮想環境体験などを含むことができるが、これらに限定されない。ARベースのアプリケーションの他の例は、博物館探査作業、産業検査および修理作業、広告およびメディア、ならびに観光産業におけるライブ状況認識を含むが、これらに限定されない。
【0047】
本明細書は、当業者が実施形態を作成および使用することを可能にするために本明細書中の主題を説明する。主題の実施形態の範囲は特許請求の範囲によって定義され、当業者に想起される他の修正を含み得る。そのような他の変更は、それらが請求項の文言と異ならない類似の要素を有する場合、またはそれらが請求項の文言とのわずかな相違を有する同等の要素を含む場合、請求項の範囲内にあることが意図される。
【0048】
保護の範囲は、そのようなプログラム、および、加えて、メッセージをその中に有するコンピュータ可読手段に拡張されることを理解されたい。そのようなコンピュータ可読記憶手段は、プログラムがサーバまたはモバイルデバイスまたは任意の適切なプログラム可能デバイス上で実行されるときに、本方法の1つまたは複数のステップを実施するためのプログラムコード手段を含む。ハードウェアデバイスは、例えば、サーバもしくはパーソナルコンピュータなどのような任意の種類のコンピュータなど、またはそれらの任意の組み合わせを含む、プログラム可能な任意の種類のデバイスとすることができる。デバイスはまた、例えば、例として特定アプリケーション向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)のようなハードウェア手段、または、例えば、ASICおよびFPGAなどのハードウェア手段とソフトウェア手段との組み合わせ、または、少なくとも1つのマイクロプロセッサおよびソフトウェアモジュールが中に配置されている少なくとも1つのメモリであってもよい。したがって、手段はハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書に記載の方法実施形態は、ハードウェアおよびソフトウェアにおいて実施することができる。デバイスはソフトウェア手段も含み得る。代替的に、実施形態は、例えば、複数のCPUを使用して、異なるハードウェアデバイス上で実施されてもよい。
【0049】
本明細書の実施形態は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアで実施される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されない。本明細書で説明されている様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組み合わせにおいて実施されてもよい。本明細書の目的のために、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを含む、記憶する、通信する、伝播する、または移送することができる任意の装置とすることができる。
【0050】
例示されているステップは示された例示的な実施形態を説明するために記載されており、進行中の技術開発は特定の機能が実行される方法を変えることが予期されるはずである。これらの例は例示の目的で本明細書に提示されており、限定ではない。さらに、機能的構成ブロックの境界は、説明の便宜上、本明細書において任意に定義されている。特定の機能およびそれらの関係が適切に実行される限り、代替の境界を定義することができる。代替形態(本明細書に記載されたものの等価物、拡張形態、変形形態、逸脱形態などを含む)が、当業者には本明細書に含まれる教示に基づいて明らかになるであろう。そのような代替形態は、開示される実施形態の範囲および精神の範囲内に入る。また、「備える」、「有する」、「含有する」、および「含む」という単語、および他の同様の形態は、意味において同等であり、これらの単語のうちのいずれか1つに続く1つまたは複数の項目が、そのような1つまたは複数の項目の網羅的なリストであるようには意図されておらず、または、リストされた1つまたは複数の項目のみに限定されるようにも意図されていないという意味において、制限がないように意図されている。本明細書および添付の特許請求の範囲において使用されるとき、単数形「a」、「an」、および「the」は、文脈が明らかにそうでないことを指示しない限り、複数の参照を含むことにも留意されたい。
【0051】
さらに、本開示と一致する実施形態を実施する際に、1つまたは複数のコンピュータ可読記憶媒体を利用することができる。コンピュータ可読記憶媒体は、プロセッサによって読み取り可能な情報またはデータが記憶され得る任意の種類の物理メモリを指す。したがって、コンピュータ可読記憶媒体は、本明細書で説明される実施形態と一致するステップまたは段階をプロセッサ(複数可)に実行させるための命令を含む、1つまたは複数のプロセッサによる実行のための命令を記憶することができる。「コンピュータ可読媒体」という用語は、有形の項目を含み、搬送波および過渡信号、すなわち非一時的なものを除外すると理解されるべきである。例としては、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD−ROM、DVD、フラッシュドライブ、ディスク、および他の任意の既知の物理的記憶媒体が挙げられる。
【0052】
本開示および例は例示としてのみ考慮されることを意図しており、開示される実施形態の真の範囲および精神は特許請求の範囲によって示される。