(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023172783
(43)【公開日】2023-12-06
(54)【発明の名称】画像処理システム
(51)【国際特許分類】
G06T 1/00 20060101AFI20231129BHJP
G06T 7/33 20170101ALI20231129BHJP
【FI】
G06T1/00 200E
G06T7/33
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022084849
(22)【出願日】2022-05-24
(71)【出願人】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100216677
【弁理士】
【氏名又は名称】坂次 哲也
(72)【発明者】
【氏名】中村 博之
(72)【発明者】
【氏名】新井 朗
(72)【発明者】
【氏名】守岡 太郎
【テーマコード(参考)】
5B050
5L096
【Fターム(参考)】
5B050BA10
5B050CA08
5B050GA08
5L096CA04
5L096HA02
(57)【要約】
【課題】VR/ARにより現在動画に過去動画を重ね合わせて表示する際に、重ね合わせるのに適切な過去動画の選択を効果的・効率的に行うとともに、重ね合わせの際の負荷を低減する。
【解決手段】撮影装置20により撮影された現在動画に対して、画像処理装置10により、対応する過去動画を重ね合わせて表示装置30に表示する画像処理システム1であって、画像処理装置10は、複数の過去動画についてそれぞれ1つ以上のキーフレームを抽出して、抽出元の過去動画と関連付けて前処理後過去動画群15として記録する前処理部11と、前処理後過去動画群15から現在動画と類似する第1のキーフレームを画像検索により特定し、第1のキーフレームに対応する第1の過去動画を特定する画像検索部12と、現在動画に対して、第1の過去動画をそれぞれの動画像中の特徴点のずれが最小となるように変換して重ね合わせて表示装置30に表示する画像合成部13と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
撮影装置により撮影された現在の情景に係る現在動画に対して、画像処理装置により、対応する過去の情景が撮影された過去動画を重ね合わせて表示装置に表示する画像処理システムであって、
前記画像処理装置は、
複数の過去動画についてそれぞれ1つ以上のキーフレームを抽出して、抽出元の過去動画と関連付けて前処理後過去動画として記録する前処理部と、
前記前処理後過去動画から前記現在動画と類似する第1のキーフレームを画像検索により特定し、前記第1のキーフレームに対応する第1の過去動画を特定する画像検索部と、
前記現在動画に対して、前記第1の過去動画をそれぞれの動画像中の特徴点のずれが最小となるように変換して重ね合わせて前記表示装置に表示する画像合成部と、
を有する、画像処理システム。
【請求項2】
請求項1に記載の画像処理システムにおいて、
前記前処理部は、複数の過去動画についてそれぞれ前景と背景を分離して前景動画と背景動画として元の過去動画と関連付けて前記前処理後過去動画として記録し、前記各背景動画におけるシーンを分割して、各シーンを代表するフレーム画像を前記キーフレームとして抽出する、画像処理システム。
【請求項3】
請求項1に記載の画像処理システムにおいて、
前記画像合成部は、前記現在動画に対して前記第1の過去動画を重ね合わせて前記表示装置に表示する際に、前記第1の過去動画における前記第1のキーフレームに対応する箇所から再生して表示する、画像処理システム。
【請求項4】
請求項2に記載の画像処理システムにおいて、
前記前処理部は、前記各背景動画の各フレーム画像における並進3自由度と回転3自由度からなる6自由度の値を取得し、当該6自由度の値のフレーム画像間の変化量が所定の閾値を超えた場合に、当該フレーム画像間でシーンを分割する、画像処理システム。
【請求項5】
請求項4に記載の画像処理システムにおいて、
前記処理部は、前記背景動画の各フレーム画像間の前記6自由度の変化量を、前記6自由度のうち回転3自由度におけるヨーの変化量に他の自由度より大きい重み付けをして算出する、画像処理システム。
【請求項6】
請求項2に記載の画像処理システムにおいて、
前記画像合成部は、前記現在動画に対して、前記第1の過去動画に代えて、前記第1の過去動画に係る前記前景動画を重ね合わせて前記表示装置に表示する、画像処理システム。
【請求項7】
請求項1に記載の画像処理システムにおいて、
前記画像合成部は、前記現在動画と、前記第1のキーフレームのそれぞれの画像中の特徴点を一致させる2次元のアフィン変換行列を生成し、前記第1の過去動画に対して前記アフィン変換行列を適用して変換する、画像処理システム。
【請求項8】
請求項1に記載の画像処理システムにおいて、
前記画像検索部は、前記前処理後過去動画として記録された複数の前記キーフレームのうち、前記現在動画に係る位置情報に基づいて前記キーフレームを絞り込んだものの中から前記第1のキーフレームを画像検索により特定する、画像処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、VR(Virtual Reality:仮想現実)/AR(Augmented Reality : 拡張現実)の技術に関し、特に、画像・映像ベースでのVR/ARを実現する画像処理システムに適用して有効な技術技術に関するものである。
【背景技術】
【0002】
VR/AR技術を利用することにより、ユーザが別の空間・時間にいるかのような疑似体験をすることができる仕組みが検討・開発されている。例えば、自宅に居ながらにして遠方(別の空間)に旅行に行く体験をしたり、旅先で現に見ている情景の昔(別の時間)の様子をその場で臨場感を持って体験したりする技術が検討・開発されている。
【0003】
後者に関連する技術として、例えば、米国特許第10127730号明細書(特許文献1)には、ユーザ端末の現在位置の情報に基づいて、当該位置において過去に存在したアトラクションをシミュレーションするコンテンツをVR/AR技術によってユーザ端末に表示する仕組みが記載されている。この技術によれば、現在見ている情景に、その場所における過去の映像を重ね合わせて見ることが可能となる。
【0004】
なお、現在の情景に他のコンテンツを重ね合わせて表示する技術として、例えば、特許第6420605号公報(特許文献2)には、画像認識型のAR技術において、任意形状の認識対象物に対する追跡、特に、撮影角度や距離等の視点変化が大きい場合でも、小さなDBサイズおよび処理負荷で頑健な追跡を可能とする画像処理装置が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許第10127730号明細書
【特許文献2】特許第6420605号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載されたような従来技術を用いれば、例えば、現在の情景の映像に対してその場所における過去の情景を重ね合わせて表示するようなVR/ARシステムを実現することができる。
【0007】
しかしながら、特許文献1に記載された技術のように、位置情報のみからその場所における過去の情景に係るコンテンツを取得する仕組みの場合、位置情報を取得する手段によっては、例えば、屋内や地下などで正確な位置情報が取得できない場合や、数十センチ~数メートルの誤差が生じる場合、同じ位置でもユーザが向いている方向の相違によって情景が全く異なる場合など、現在の情景と対応する適切な過去の情景を選択・決定できない場合が生じ易くなるという課題がある。
【0008】
また、VR/ARシステムにおいて現在の情景の映像に他の画像を重ね合わせて表示する際、特許文献2に記載された従来技術のように、ユーザの移動や向いている方向の変化などに追従するために、重ね合わせる画像のオブジェクトを3次元モデルとして取り扱うことがよく行われるが、3次元モデルとした場合、オブジェクトがCGによってデフォルメして表現されるため現実感の薄い情景となってしまう上に、データ処理の負荷が重くなってしまうという課題がある。
【0009】
そこで本発明の目的は、VR/ARにより現在の情景の映像に過去の情景を重ね合わせて表示する際に、重ね合わせるのに適切な過去の情景の選択を効果的・効率的に行うとともに、重ね合わせの際の負荷を低減する画像処理システムを提供することにある。
【0010】
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。
【課題を解決するための手段】
【0011】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
【0012】
本発明の代表的な実施の形態である画像処理システムは、撮影装置により撮影された現在の情景に係る現在動画に対して、画像処理装置により、対応する過去の情景が撮影された過去動画を重ね合わせて表示装置に表示する画像処理システムであって、前記画像処理装置は、複数の過去動画についてそれぞれ1つ以上のキーフレームを抽出して、抽出元の過去動画と関連付けて前処理後過去動画として記録する前処理部と、前記前処理後過去動画から前記現在動画と類似する第1のキーフレームを画像検索により特定し、前記第1のキーフレームに対応する第1の過去動画を特定する画像検索部と、前記現在動画に対して、前記第1の過去動画をそれぞれの動画像中の特徴点のずれが最小となるように変換して重ね合わせて前記表示装置に表示する画像合成部と、を有する。
【発明の効果】
【0013】
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。
【0014】
すなわち、本発明の代表的な実施の形態によれば、VR/ARにより現在の情景の映像に過去の情景を重ね合わせて表示する際に、重ね合わせるのに適切な過去の情景の選択を効果的・効率的に行うことが可能となる。また、重ね合わせの際の負荷を低減することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施の形態である画像処理システムの構成例について概要を示した図である。
【
図2】本発明の一実施の形態における画像処理の例について概要を示した図である。
【
図3】本発明の一実施の形態におけるデータ構造の例について概要を示した図である。
【
図4】本発明の一実施の形態における前処理の流れの例について概要を示したフローチャートである。
【
図5】本発明の一実施の形態における画像検索・合成処理の流れの例について概要を示したフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。
【0017】
<概要>
VR/AR技術を利用して自宅に居ながらにして擬似的に旅行を体験可能とするような仕組みは、新型コロナウィルス蔓延による外出自粛等への対応もあり、検討・開発が進んだ。一方で、ウィズコロナ/アフターコロナ時代における地域支援や、デジタル化による地方創生の観点からは、現地への移動の促進にフォーカスしたVR/ARの仕組みを志向する必要がある。
【0018】
すなわち、例えば、旅行に行く前の体験として、ユーザが自宅に居ながらにしてリアルタイムで現地の情景を見たり、イベントに参加したりできるようにすることで、次は現地に実際に行こうという気持ちを醸成させることができる。また、旅行前もしくはユーザが実際に旅行に行っている間での体験として、例えば、その時点ではリアルタイムで直接見ることができない現地の過去の情景(動画)を、現地の現在の情景の映像に重ね合わせて臨場感を持って見せることで、別の機会にまた来たいという気持ちを醸成させることができる。
【0019】
ここで重ね合わせる過去の情景(動画)としては、例えば、すでに廃止された鉄道や取り壊された建築物など現在ではなくなっている情景や、伝説のライブイベントやスポーツの名試合など過去の特定の日時に開催されたイベント、現地におけるレポーターやガイド、著名解説者等による解説など、過去のある時点では存在したり起きたりしたが現在の情景には映っていないというような各種のものが考えられる。また、満開の桜並木や晴天時の風景、夕暮れ時や満潮・干潮時にしか見られない独特な風景などのように、観光によい季節や天候、時間帯でのベストな情景など、現在も存在はするが現在とは異なる状態であったというようなものも考えられる。
【0020】
以下に説明する本発明の一実施の形態である画像処理システムは、撮影した現在の情景の映像に対して、VR/ARにより、その場所における過去の情景を重ね合わせて(合成して)表示することで、ユーザが上述したような体験をすることを可能とするものである。
【0021】
<システム構成>
図1は、本発明の一実施の形態である画像処理システムの構成例について概要を示した図である。画像処理システム1は、例えば、VR/ARに関する画像処理を行う画像処理装置10と、ユーザの指示により情景を撮影してその動画像を取得する撮影装置20、および撮影装置20により撮影された動画像等を表示してユーザに提示する機能を有する表示装置30などの各装置を有する。撮影装置20や表示装置30は、図示しない有線もしくは無線での通信手段や接続手段により画像処理装置10に接続される構成を有する。
【0022】
撮影装置20は、例えば、デジタルビデオカメラやウェブカメラ、アクションカメラ、ドライブレコーダーその他の動画撮影機能を備える装置により構成することができる。後述する表示装置30がカメラ機能を備えている場合は、これを用いる形として表示装置30と一体に構成されていてもよい。表示装置30は、例えば、モニターやPC(Personal Computer)のディスプレイなど動画像の表示機能を備える装置により構成することができる。スマートフォンやタブレット端末、VR/ARゴーグルなど、表示機能に加えて撮影装置20として機能することができるカメラ機能を備える装置であってもよい。
【0023】
画像処理装置10は、例えば、サーバ機器やクラウドコンピューティングサービス上に構築された仮想サーバ、PC等により構成され、図示しないCPU(Central Processing Unit)により、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の記録装置からメモリ上に展開したOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行することで、VR/ARの画像処理に係る各種機能を実現する。
【0024】
この画像処理装置10は、例えば、ソフトウェアとして実装された前処理部11、画像検索部12および画像合成部13などの各部を有する。また、データベースやファイル等として記録・保持された過去動画群14および前処理後過去動画群15などの画像データを有する。
【0025】
前処理部11は、過去動画群14に記録されている各地の過去の情景を撮影した過去動画について、VR/ARの処理に供するために、後述するような前景/背景の分離やシーンの分割などの前処理を事前に行って、生成された画像データを前処理後過去動画群15として記録する機能を有する。画像検索部12は、撮影装置20により撮影された現在の情景の動画像に基づいて、前処理後過去動画群15から類似する過去動画を画像検索により取得する機能を有する。画像合成部13は、撮影装置20により撮影された現在の情景の動画像に、画像検索部12により得られた過去動画を重ね合わせて(合成して)表示装置30に表示する機能を有する。
【0026】
画像検索部12や画像合成部13の全部もしくは一部を画像処理装置10上ではなくスマートフォンやVR/ARゴーグル等により構成された表示装置30上に実装する構成としてもよい。なお、前処理の内容や前処理後過去動画群15の構成、過去動画の検索や現在の動画像との重ね合わせ(合成)処理の内容については後述する。
【0027】
<画像処理の例>
図2は、本発明の一実施の形態における画像処理の例について概要を示した図である。
図2の左上の図は、ある現地の現在の情景を撮影装置20により撮影した動画像(以下「現在動画」と記載する場合がある)の例を示しており、
図2の右上の図は、同じ場所の過去の情景を撮影した動画像(以下「過去動画」と記載する場合がある)の例を示している(いずれも便宜上、動画像中の連続した静止画(フレーム)の一つにより示している)。過去動画には、現在動画と同じ「城」が写っているものの、現在動画に写っている「桜の枝」については写っておらず、一方で、現在動画にはない過去に存在した「2頭の馬」が写っている状況を示している。
【0028】
本実施の形態では、
図2の左下の図に示すように、現在動画に対して過去動画を変換して重ね合わせて合成した上で再生する。重ね合わせる過去動画として、CGではなく実写撮影された2次元の動画像を用いることで、重ね合わせる過去動画の選択や重ね合わせの処理負荷を低減し、処理を高速化するとともに現実感のある画像とすることができる。なお、重ね合わせの際には、例えば、現在動画とこれに重ね合わせる過去動画について、それぞれ対応する特徴点(例えば、画像中のオブジェクト(
図2の例では「城」の頂点等)を抽出し、画像の回転、移動により対応する特徴点同士を一致させる2次元の変換行列(アフィン変換行列)を算出する。この変換行列を過去動画に適用することで過去動画を変換(変形)して、現在動画に対して対応する特徴点を重ね合わせて合成する。なお、アフィン変換行列の算出や演算の処理には、変換元と変換先を行列表現し、最小二乗法で解く公知の手法(例えば、OpenCVなどのライブラリも存在)を適宜用いることができる。
【0029】
現在動画に対して過去動画の全体を重ね合わせるのではなく、
図2の右下の図に示すように、過去動画中に前景として写っているオブジェクトのみを切り出して合成するようにしてもよい、同図では、過去動画に写っている「2頭の馬」の部分のみを切り出して合成した状況の例を示している。過去動画全体を重ね合わせる手法と、過去動画中の前景オブジェクトのみを重ね合わせる手法を切り替えられるようにしてもよい。例えば、ユーザの指示により切り替えるようにしてもよいし、ユーザが使用する表示装置30の種類(例えば、スマートフォンかVR/ARゴーグルか)によって切り替えるようにしてもよい。
【0030】
<データ構造>
図3は、本発明の一実施の形態におけるデータ構造の例について概要を示した図である。本実施の形態では、現在の情景の動画像(現在動画21)に過去の情景の動画像(過去動画14a)を重ね合わせて合成するに際して、現在動画21と同じ対象を撮影した過去動画14aを特定する必要があるが、その際、現在動画21に対する類似画像検索により過去動画14aを特定する。これにより、現在動画21を撮影した場所もしくは撮影対象の場所の位置情報が十分に取得できない場合でも、重ね合わせる過去動画14aを特定できる場合を増やすことができる。
【0031】
そして本実施の形態では、類似画像検索の際、検索の対象として過去動画14a自体ではなく、その中で過去動画14aを代表する1つ以上の特徴的な静止画(フレーム)であるキーフレーム15cを対象とする。これにより、効率的な類似画像検索が可能となる。キーフレーム15cは、前処理部11により過去動画14aから抽出され、前処理後過去動画群15の中の1データとして過去動画14aに関連付けて記録・保持される。
【0032】
キーフレーム15cを抽出するため、前処理部11では、まず過去動画14aについて前景のオブジェクトと背景を分離し、前景オブジェクトのみを抽出した前景動画15bと、背景のみの背景動画15aを取得する。これらも前処理後過去動画群15の中の1データとして過去動画14aに関連付けて記録・保持される。過去動画14aにおける前景オブジェクトは、典型的には、過去に存在したが現在動画21には映っていないオブジェクトであることから、これを分離した上で現在動画21との類似画像検索を行うことでより効率的・効果的に過去動画14aを特定することができる。
【0033】
そして、前景オブジェクトが分離された背景動画15aについて、特徴的なフレーム(重ね合わせたいフレーム)をキーフレーム15cとして抽出する。本実施の形態では、背景動画15aのシーンが大きく切り替わった時点でシーンを分割し、各シーンの先頭フレームをキーフレーム15cとして抽出するものとしているが、これに限られない。各シーンを代表する特徴的なフレームとして取り扱うことができるものであれば、シーンの末尾や途中のフレームをキーフレーム15cとしてもよい。
【0034】
シーン分割の判断は、例えば、フレーム画像間の6自由度(six degrees of freedom:6DoF、3次元直交座標系の軸に沿った移動の並進3自由度と、軸まわりの回転3自由度からなる)の変化量が所定の閾値を超えた時点で分割するが、これに限られるものではない。
【0035】
現在動画21による類似画像検索では、過去動画群14に記録された複数の過去動画14aからそれぞれ抽出されたキーフレーム15cを対象に検索を行い、マッチしたキーフレーム15cに対応する過去動画14aを特定する。そして、特定された過去動画14aもしくは当該過去動画14aから分離抽出された前景動画15bを、上述した2次元のアフィン変換行列により変換して現在動画21に重ね合わせて合成する。
【0036】
<処理の流れ>
図4は、本発明の一実施の形態における前処理の流れの例について概要を示したフローチャートである。この前処理では、前処理部11により、事前に過去動画群14に保持されている各過去動画14aから類似画像検索用のキーフレーム15cを抽出して前処理後過去動画群15の中の1データとして記録する処理を行う。
【0037】
まず、処理対象の過去動画14aにつき、前処理部11により前景と背景を分離する(S01)。すなわち、過去動画14aから前景オブジェクト(物体)を切り抜いて前景動画15bとして抽出するとともに、これを過去動画14aから分離して背景動画15aを取得する処理(Image Matting)を行う。この処理には、例えば、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)などのAIによる画像処理技術など、実用化されている既存技術や手法、ライブラリ等が多数存在し、これらを適宜利用して実装することができる。分離した背景動画15aと前景動画15bは、過去動画14aと関連付けて前処理後過去動画群15として記録する。なお、以降の処理は分離した背景動画15aを対象として実行する。
【0038】
背景動画15aを取得すると、次にその動画の種類を判別し(S02)、動画の種類に応じて各フレームにおける6自由度の情報を取得してそのフレーム間の変化量を取得する。背景動画15aが6自由度の情報付きの動画である場合は、そのままフレーム間の6自由度の変化量を取得する(S05)。背景動画15aがステレオカメラで撮影したステレオ動画である場合は、例えば、公知の三角測量の手法で6自由度を推定し(S03)、フレーム間の変化量を取得する(S05)。また、背景動画15aが単眼カメラで撮影した単眼動画である場合は、例えば、公知のV-SLAM(Visual Simultaneous Localization and Mapping)手法により、動画内の特徴点の追跡から6自由度を推定し(S04)、フレーム間の変化量を取得する(S05)。
【0039】
そして、ステップS05で取得したフレーム間の6自由度の変化量が所定の閾値を超えたときに、当該フレーム間でシーンを分割する(S06)。6自由度の変化量としては、6つの自由度それぞれの変化量の単純な合計を用いてもよいし、1つ以上の特定の自由度の変化量に重み付けして合計してもよい。例えば、VR/ARによる画像を視聴している一般的なユーザの挙動としては、6自由度(前後、左右、上下に移動する、前後に傾く(ピッチ)、左右に首を旋回させる(ヨー)、左右に首を傾ける(ロール))のうち、ヨーが中心的な動きとなることが多いことから、ヨーの変化量に大きい重みをつけるようにしてもよい。動画の内容によって重み付けする自由度や重み付けの値を変更するようにしてもよい。6自由度の変化量の合計に代えて、1つ以上の特定の自由度の変化量が所定の閾値を超えたときにシーン分割するようにしてもよい。
【0040】
より簡易的な手法として、フレーム間の6自由度の変化量に代えて、例えば、フレーム間の画像データ同士の単純な変化量(差分)を取得して、当該変化量が所定の閾値を超えたときに、当該フレーム間でシーンを分割するようにしてもよい。
【0041】
背景動画15aについてシーン分割がされると、シーンごとに先頭のフレームをキーフレーム15cとして抽出する(S07)。そして、抽出された1つ以上のキーフレーム15cからなるキーフレーム群のデータを、抽出元である処理対象の過去動画14aの情報と関連付けて前処理後過去動画群15として記録する(S08)。上記の一連の処理を、全ての処理対象の過去動画14aに対して実行することで前処理を終了する。
【0042】
図5は、本発明の一実施の形態における画像検索・合成処理の流れの例について概要を示したフローチャートである。この画像検索・合成処理では、画像検索部12および画像合成部13により、撮影装置20により撮影した現在の情景の動画像に対して対応する過去動画14を重ね合わせて合成して表示装置30に表示する処理を行う。
【0043】
まず、画像検索部12が、現地の位置情報を取得する(S11)。ここで現地とは、現在動画21を撮影している撮影装置20が所在する場所、もしくは現在動画21に係る撮影対象が所在する場所、およびこれらの付近の場所である。撮影装置20がカメラ機能とともにGPS(Global Positioning System)機能を備えるスマートフォン等の情報処理端末である場合は、撮影装置20がGPS機能により緯度・経度情報として位置情報を取得して、これを図示しない通信手段を介して画像処理装置10に送信し、画像検索部12がこれを取得する。現地に所在する撮影装置20とは別のGPS機能を備えた情報処理端末等から位置情報を取得する構成としてもよいし、撮影者やユーザ等が現地の施設やランドマークの名称等を入力し、対応する位置情報をインターネット等を介して取得する構成としてもよい。
【0044】
次に、取得した現地の位置情報に基づいて画像検索部12が前処理後過去動画群15から1つ以上の過去動画14aの候補を取得する(S12)。例えば、現地の位置情報から所定の距離の範囲内で撮影された過去動画14aを候補として取得する。そして、取得した各過去動画14aに係るキーフレーム15cを前処理後過去動画群15からそれぞれ取得する(S13)。これにより、後述する類似画像検索の対象となるキーフレーム15cを予め絞り込む。この絞り込みを行えるようにするため、各過去動画14aには撮影場所もしくは撮影対象の位置情報が関連付けられて記録されているものとする。なお、現在の位置情報に対応する過去動画14aの候補が存在しない場合は、処理を終了して、撮影装置20により撮影されている現在動画21の画像を表示装置30にそのまま表示する。
【0045】
絞り込まれたキーフレーム15cを取得すると、その中から撮影装置20により撮影されている現在動画21に類似するキーフレーム15cを類似画像検索により特定し(S14)、特定されたキーフレーム15cに対応する過去動画14aをステップS12で取得した候補の中から選択する(S15)。なお、類似画像検索の手法は特に限定されず、AI技術を用いた公知のライブラリ等を適宜用いることができる。
【0046】
過去動画14aが選択されると、次に、画像合成部13により、ステップS14で特定されたキーフレーム15cと、現在動画21の画像とで、それぞれ対応する特徴点を抽出し、対応する各特徴点を回転、移動によりマッチングさせる画像合成用の2次元の変換行列(アフィン変換行列)を算出する(S16)。そして、ステップS15で選択した過去動画14aに対してステップS16で算出したアフィン変換行列を適用して変換(変形)し、これを現在動画21の動画に重ね合わせて合成し、再生する(S17)。現在動画21の動画像に過去動画14aが重ね合わされた状態で再生された画像は、表示装置30に表示される。
【0047】
なお、過去動画14aの再生に際しては、当該過去動画14a全体を先頭から再生するようにしてもよいし、当該過去動画14a中においてステップS14で特定されたキーフレーム15cに対応する箇所から再生するようにしてもよい。キーフレーム15cに対応する箇所としては、例えば、当該キーフレーム15cが含まれるシーンの先頭や、当該キーフレーム15c自身などが考えられる。
【0048】
その後、ステップS17で現在動画21の動画と過去動画14aを重ね合わせて合成したときの合成のずれ(アフィン変換行列適用後の各特徴点のずれ)の量が所定の閾値を超えているか否かを判定する(S18)。閾値と比較するずれの量は、各特徴点での値を合計したものとしてもよいし、いずれか1つの特徴点についてのものとしてもよい。これら両方を用いて判断するものであってもよい。ずれの量が閾値以下である場合(ステップS18でNo)は、現在動画21と過去動画14aの内容がまだマッチしているということで、ステップS17に戻って、現在動画21の動画に過去動画14aを合成しての再生を継続する。一方、ずれの量が閾値を超える場合(ステップS18でYes)は、もはや現在動画21と過去動画14aがマッチしないということで、過去動画14aを合成する処理を終了する。
【0049】
その後は、現在動画21をそのまま表示装置30に表示するとともに、ステップS11からの一連の処理を繰り返して、現在動画21に対応する過去動画14aを選択し直す。上述した一連の処理により、現在動画21の表示を継続しながら、適切な過去動画14aを適宜選択して重ね合わせて表示することができる。
【0050】
以上に説明したように、本発明の一実施の形態である画像処理システム1によれば、撮影した現在の情景の映像に対して、VR/ARにより、その場所における過去の情景を重ね合わせて(合成して)表示する仕組みにおいて、重ね合わせるのに適切な過去の情景の選択を効果的・効率的に行うとともに、重ね合わせの際の負荷を低減することができる。
【0051】
すなわち、本発明の一実施の形態である画像処理システム1では、現在動画21に重ね合わせる過去の情景としてCGではなく実写撮影された2次元の過去動画14aを用いる。各過去動画14aには、予め3次元の位置・方向(6自由度)の変化量に基づいてキーフレーム15cを抽出し、関連付けておく。そして、現在動画21に係る位置情報により過去動画群14から候補となる過去動画14aを絞り込んだ上で、絞り込まれた各過去動画14aに係るキーフレーム15cから現在動画21に類似するものを2次元画像間の類似画像検索により抽出し、これに対応する過去動画14aを特定する。そして、抽出されたキーフレーム15cと現在動画21の各特徴点が一致する(すなわち、ずれが最小となる)ように2次元のアフィン変換行列を生成し、特定した過去動画14aを同変換行列によって変換(変形)して現在動画21に重ね合わせる。
【0052】
これらの手法により、現在動画21に重ね合わせる過去動画14aの選択や重ね合わせの処理負荷を低減し、処理を高速化するとともに現実感のあるVR/AR映像とすることができる。
【0053】
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。また、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記の実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0054】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。
【0055】
また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
【産業上の利用可能性】
【0056】
本発明は、画像・映像ベースでのVR/ARを実現する画像処理システムに利用可能である。
【符号の説明】
【0057】
1…画像処理システム、
10…画像処理装置、11…前処理部、12…画像検索部、13…画像合成部、14…過去動画群、14a…過去動画、15…前処理後過去動画群、15a…背景動画、15b…前景動画、15c…キーフレーム、
20…撮影装置、21…現在動画、
30…表示装置