(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-22
(45)【発行日】2022-03-03
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06T 7/73 20170101AFI20220224BHJP
【FI】
G06T7/73
(21)【出願番号】P 2020071064
(22)【出願日】2020-04-10
【審査請求日】2020-04-10
【審判番号】
【審判請求日】2021-02-26
【早期審査対象出願】
(73)【特許権者】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】松下 伸行
【合議体】
【審判長】五十嵐 努
【審判官】樫本 剛
【審判官】新井 寛
(56)【参考文献】
【文献】特開2012-159957(JP,A)
【文献】特開2009-33351(JP,A)
【文献】特開2017-69748(JP,A)
【文献】特開2019-149006(JP,A)
【文献】特開2019-160001(JP,A)
【文献】特開2020-13290(JP,A)
【文献】特開2017-163510(JP,A)
【文献】特開2019-93152(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/73
(57)【特許請求の範囲】
【請求項1】
対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、
前記取得部が取得した画像と前記対象領域に関する3次元モデルとを参照することによって、前記取得部が取得した前記画像に含まれる被写体の前記3次元モデル中の位置を特定する位置特定部とを備え、
前記位置特定部は、前記画像から、前記被写体の顔情報を抽出する第1の抽出部を備え、
前記位置特定部は、
前記第1の抽出部が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第1の関連付け部
と、
前記位置特定部が特定した前記3次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第2の関連付け部と、
前記画像から、前記被写体の骨格情報を抽出する第2の抽出部と、
前記第2の抽出部が抽出した前記被写体の骨格情報を、前記画像に関連付ける第3の関連付け部と、
を更に備え、
ユーザからの検索指示に含まれる位置情報
、骨格情報、及び前記被写体識別情報を特定し、特定した位置情報
、骨格情報、及び前記被写体識別情報が共に関連付けられた画像を検索する検索部を、
更に備えていることを特徴とする情報処理装置。
【請求項2】
前記位置特定部は、前記3次元モデルにおける前記画像の撮像位置及び撮影方向を特定したうえで、前記被写体の前記3次元モデル中の位置を特定する
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記位置特定部が特定した前記3次元モデル中の前記被写体の位置に、前記被写体の代替画像を重畳することによって重畳画像を生成する画像生成部を更に備えている
ことを特徴とする請求項
1又は2に記載の情報処理装置。
【請求項4】
対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得工程と、
前記取得工程にて取得した画像と前記対象領域に関する3次元モデルとを参照することによって、前記取得工程にて取得した前記画像に含まれる被写体の前記3次元モデル中の位置を特定する位置特定工程とを含み、
前記位置特定工程は、前記画像から、前記被写体の顔情報を抽出する第1の抽出工程を含み、
前記位置特定工程は、
前記第1の抽出工程が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第1の関連付け工程
と、
前記位置特定工程が特定した前記3次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第2の関連付け工程と、
前記画像から、前記被写体の骨格情報を抽出する第2の抽出工程と、
前記第2の抽出工程が抽出した前記被写体の骨格情報を、前記画像に関連付ける第3の関連付け工程と、
を更に含み、
ユーザからの検索指示に含まれる位置情報
、骨格情報、及び前記被写体識別情報を特定し、特定した位置情報
、骨格情報、及び前記被写体識別情報が共に関連付けられた画像を検索する検索工程を、
更に含んでいることを特徴とする情報処理方法。
【請求項5】
請求項1に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、前記取得部、前記位置特定部、前記第1の抽出部、前記第1の関連付け部、
前記第2の関連付け部、前記第2の抽出部、前記第3の関連付け部、及び前記検索部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
動画のためのタグ付けを自動的に行うことが可能なタグ付け装置が従来技術として知られている。特許文献1には、動画ファイルを音声認識して、テキスト情報に変換し、テキスト情報から予め定められた規則に従ってタグを自動的に付与する動画のためのタグ付け装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特願2018-212076号公報(2020年3月18日公開)
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、画像内に含まれる被写体の位置情報を抽出し、タグ付けに利用したいというニーズも存在する。このようなニーズに対して、上述のような従来技術を適用しても、音声情報が存在しない場合には位置情報を決定することができない。また、音声によって表現される情報に基づくため、位置情報を精度よく決定することが難しいという問題がある。
【0005】
本発明の一態様は、上述した課題を解決するためになされたものであり、画像内の被写体の位置を好適に特定することのできる技術を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、前記取得部が取得した画像と前記対象領域に関する3次元モデルとを参照することによって、前記取得部が取得した前記画像に含まれる被写体の前記3次元モデル中の位置を特定する位置特定部とを備える。
【発明の効果】
【0007】
本発明の一態様によれば、画像内の被写体の位置を好適に特定することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る情報処理システムの機能的な構成を示すブロック図である。
【
図2】本発明の一実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。
【
図3】本発明の一実施形態に係る情報処理装置が実行する情報処理の流れを説明するに際し、前提の一例となる現実の空間を示す模式図である。
【
図4】本発明の一実施形態に係る情報処理装置における3次元モデル生成部が生成した3次元モデルの一例を示す図である。
【
図5】本発明の一実施形態に係る情報処理システムが取得した画像の一例を示す図である。
【
図6】本発明の一実施形態に係る情報処理装置による被写体検出処理を示す図である
【
図7】本発明の一実施形態に係る情報処理装置が特定した撮像位置を示す図である。
【
図8】本発明の一実施形態に係る情報処理装置が特定した被写体の位置を示す図である。
【
図9】本発明の一実施形態に係る情報処理装置によって各フレームに関連付けられた各情報を示すテーブルである。
【
図10】本発明の一実施形態に係る情報処理装置が生成した重畳画像の一例を示す図である。
【
図11】
図10に示した重畳画像を異なる視点から見た図である。
【
図12】情報処理装置及び端末装置として用いられるコンピュータの物理的構成を例示したブロック図である。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態に係る情報処理システム1について説明する。
【0010】
<情報処理システム1の概要>
図1は、本発明の一実施形態に係る情報処理システム1の機能的な構成を示すブロック図である。
図1に示すように、情報処理システム1は、情報処理装置10及びユーザが操作する端末装置20を含んでいる。ここで、
図1に示す例では、情報処理システム1が、端末装置20を1つ含んでいるが、これは本実施形態を限定するものではない。情報処理システム1は、端末装置20を複数含む構成としてもよい。
【0011】
情報処理装置10及び端末装置20は、ネットワークN1を介して通信可能に接続される。情報処理装置10及び端末装置20を接続するネットワークN1は、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせである。
【0012】
情報処理システム1は、一例として、画像及び動画を編集する編集者、又は画像及び動画を閲覧する閲覧者により使用されることを想定している。ここで、編集者及び閲覧者は、本実施形態における「ユーザ」の一例である。
【0013】
情報処理装置10は、対象領域の少なくとも一部を撮像範囲に含む画像を取得し、取得した画像と対象領域に関する3次元モデルとを参照することによって、当該画像中の対象領域に含まれる被写体の3次元モデル中の位置を特定する。
【0014】
ここで、対象領域とは、3次元モデルが構築された領域のことを指す。対象領域の一例として、店舗、スポーツ施設、介護施設、飲食店、テーマパーク、市街地、公道、公共施設等が挙げられるが、これは本実施形態を限定するものではない。
【0015】
また、3次元モデルとは、現実の空間の対象領域内に含まれる複数の対象物等を、相対的な位置関係が保たれるように仮想的に再現したモデルである。3次元モデルは、現実の空間中に設定された1又は複数の対象領域の各々に対応して個別に作成しておくことができる。また、3次元モデルには、現実の空間における位置情報が関連付けられていることが好ましい。
【0016】
また、被写体とは、撮像範囲内に含まれる人、動物、又は物(乗り物でもよい)であるが、これらに限定されるものではない。
【0017】
(端末装置20の構成)
情報処理装置10の構成の説明に先立ち、
図1を参照して端末装置20の構成について説明する。
図1に示すように、端末装置20は、通信部21と、撮像部22と、表示部23と、操作部24と、制御部25とを含む。端末装置20は、デジタルカメラ、PC(Personal Computer)、タブレット端末、及びスマートフォン等として実現できるが、これらの具体的態様は本実施形態を限定するものではない。
【0018】
通信部21は、ネットワークN1を介して情報処理装置10と通信を行うことによって、情報処理装置10からデータを取得したり、情報処理装置10にデータを提供したりする。
【0019】
撮像部22は、撮像機能を備え、画像を撮像する。一例として撮像部22は、CCDカメラである。撮像部22によって撮像される画像は、静止画像であってもよいし、動画像であってもよい。
【0020】
表示部23は、制御部25による制御に従って画面表示を行う。操作部24は、端末装置20の使用者からの入力を受け付け、受け付けた入力を示す操作情報を制御部25に供給する。制御部25は、端末装置20の各部を制御する。
【0021】
(情報処理装置10の構成)
続いて、
図1を参照して情報処理装置10の構成について説明する。
図1に示すように、情報処理装置10は、通信部11と、制御部13と、記憶部15とを含む。制御部13は、取得部131と、位置特定部132と、第1の関連付け部133と、第1の抽出部134と、第2の関連付け部135と、第2の抽出部136と、第3の関連付け部137と、画像生成部138と、検索部139と、3次元モデル生成部140とを含む。
【0022】
通信部11は、ネットワークN1を介して端末装置20と通信を行うことによって、端末装置20からデータを取得したり、端末装置20にデータを提供したりする。
【0023】
記憶部15には、一例として、以下の各種のデータが格納される。
・端末装置20によって撮像された画像、及び、それらの画像に対して後述する処理を行うことによって得られた画像
・1又は複数の対象領域の各々に関する3次元モデル
・撮像画像の現実の空間中の位置情報、及び、撮像画像に含まれる被写体の3次元モデル中の位置情報
・被写体に関する骨格情報、顔情報、及び被写体識別情報
【0024】
3次元モデル生成部140は、1又は複数の対象領域の各々に関する3次元モデルを生成する。3次元モデル生成部140による3次元モデル生成処理の例については後述する。
【0025】
取得部131は、端末装置20が撮像した対象画像を、通信部11又は記憶部15から取得する。ここで、当該対象画像が示す撮像範囲には、1又は複数の対象領域の何れかの少なくとも一部が含まれる。
【0026】
位置特定部132は、取得部131が取得した対象画像と、記憶部15に格納されている3次元モデルであって、当該対象画像が示す撮像範囲に含まれる対象領域に関する3次元モデルとを参照することによって、当該対象画像に含まれる被写体の3次元モデル中の位置を特定する。
【0027】
ここで、取得部131が取得した対象画像が動画像である場合、位置特定部132による被写体の位置特定処理は、当該動画像に含まれる複数のフレームの各々に対して行う構成としてもよいし、複数のフレームにつき1枚のフレームに対して行う構成としてもよい。
【0028】
第1の関連付け部133は、位置特定部132が特定した3次元モデル中の被写体の位置を示す位置情報を、対象画像に関連付けて、記憶部15に格納する。
【0029】
ここで、取得部131が取得した対象画像が動画像である場合には、位置特定部132による被写体の位置特定処理を行ったフレームに対して位置情報を関連付ける構成とすればよい。ただし、これは本実施形態を限定するものではなく、位置特定処理を行ったフレームの時間的に近傍のフレームに位置情報を関連付ける構成としてもよい。
【0030】
第1の抽出部134は、対象画像から被写体の骨格情報を抽出する。第2の関連付け部135は、第1の抽出部134が抽出した被写体の骨格情報を、対象画像に関連付けて記憶部15に格納する。
【0031】
第2の抽出部136は、対象画像から被写体の顔情報を抽出する。第3の関連付け部137は、第1の抽出部134が抽出した被写体の顔情報を参照して、当該被写体の識別情報である被写体識別情報を特定する。一例として、第2の抽出部136は、顔情報と被写体識別情報とが対応付けられた対応情報を参照して、被写体識別情報を特定する。そして、第2の抽出部136は、特定した被写体識別情報を、対象画像に関連付けて記憶部15に格納する。なお、取得部131が取得した対象画像が動画像である場合には、骨格情報抽出処理、及び顔情報抽出処理を行ったフレームに対して、それぞれ、骨格情報及び被写体識別情報を関連付ける構成とすればよい。ただし、これは本実施形態を限定するものではなく、骨格情報抽出処理、及び顔情報抽出処理を行ったフレームの時間的に近傍のフレームに、それぞれ、骨格情報及び被写体識別情報を関連付ける構成としてもよい。
【0032】
また、第2の抽出部136は、被写体の顔情報を対象画像に関連付ける構成としてもよい。
【0033】
画像生成部138は、位置特定部132が特定した3次元モデル中の被写体の位置に、被写体の代替画像を重畳することによって重畳画像を生成し、生成した重畳画像を記憶部15に格納する。
【0034】
検索部139は、記憶部15に格納された複数の画像の各々に関連付けられた位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを参照して、検索のターゲットとなる画像を検索する。一例として、検索部139は、端末装置20の操作部24を介して入力されたユーザからの検索指示に含まれる位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを特定し、特定した情報が関連付けられた画像を、記憶部15に格納された複数の画像から検索する。
【0035】
なお、検索部139による検索処理は、
図1に示す端末装置20からの指示に基づくものに限定されるものではない、端末装置20以外の端末装置や他の情報処理装置から、位置情報、骨格情報、及び被写体識別情報の少なくとも何れかを含む検索指示を取得し、取得した検索指示に基づいて画像の検索を行う構成としてもよい。
【0036】
<情報処理システム1による処理の流れ>
以下では、本発明の一実施形態に係る情報処理システム1による処理の流れについて、詳細に説明する。
【0037】
図2は、情報処理システム1が実行する情報処理の流れを示すフローチャートである。
図3は、情報処理システム1が実行する情報処理の流れを説明するに際し、前提の一例となる現実の空間を示す模式図である。
図3に示す例では、建物や道路等が配置された現実の空間中を移動する被写体obを、当該被写体obと共に移動する端末装置20によって動画撮影する状況が示されている。なお、
図3において時刻t1における被写体及び端末装置20(撮像装置)を、それぞれ、符号ob(t1)、20(t1)で示し、時刻t2における被写体及び端末装置20を、それぞれ、符号ob(t2)、20(t2)で示し、時刻t3における被写体及び端末装置20を、それぞれ、符号ob(t3)、20(t3)で示している。ここで、t1<t2<t3である。
【0038】
(ステップS101)
まず、ステップS101において、情報処理装置10の3次元モデル生成部140は、対象領域の3次元モデルを生成する。一例として、3次元モデル生成部140は、予め深度カメラ、及びステレオカメラなどで撮影した画像を合成することによって3次元モデルを生成する。また、3次元モデル生成部140は、ソリッドモデル、サーフェスモデル、ワイヤーフレームモデル、メッシュモデル等の3次元モデルを生成する構成としてもよい。3次元モデル生成部140による3次元モデルの生成方法は本実施形態を限定するものではなく、一例として既知の手法を用いてもよい。生成された対象領域の3次元モデルは、記憶部15に保存される。
【0039】
また、3次元モデル生成部140は、一例として、生成した3次元モデルに、現実空間中の位置情報(緯度経度高度、住所、地名、施設名)を関連付ける構成とすることが好ましい。
【0040】
図4は、3次元モデル生成部140が生成した3次元モデルの一例を示す図である。
図4に示すように、一例として、3次元モデルは、現実の空間の対象領域内に含まれる複数の対象物等を、相対的な位置関係が保たれるように仮想的に再現したものであり、仮想空間上において実際の建物の構造、表面の色及びテクスチャ等を表現するデータを含んでいる。
【0041】
(ステップS102)
続いて、ステップS102において、情報処理装置10の取得部131は、端末装置20から、対象領域において撮影された画像を取得する。
【0042】
図5は、本ステップにおいて取得した画像の一例を示す図である。より具体的には、時刻t1において端末装置20が撮像したフレームf1、時刻t2において端末装置20が撮像したフレームf2、及び時刻t3において端末装置20が撮像したフレームf3を示している。
【0043】
(ステップS103)
続いて、ステップS103において、情報処理装置10の位置特定部132は、ステップS102において取得した画像から被写体を検出する。
【0044】
図6は、位置特定部132による被写体検出処理を示す図である。
図6に示すように、本ステップにおいて、位置特定部132は、フレームf1~f3から被写体を検出し、当該被写体に被写体情報H1を付与する。ここで、位置特定部132は、検出した被写体を連続するフレームにおいてトラッキングすることによって同一の被写体には同一の被写体情報を付与するよう構成されている。また、被写体情報H1は、
図6に示す例では被写体を囲むバウンディングボックスと共に示されているが、これは本実施形態を限定するものではない。
【0045】
なお、被写体の検出アルゴリズムは本実施形態を限定するものではないが、一例として、機械学習を用いた物体検出アルゴリズムを適用することができる。また、
図6に示す例では、1つの被写体を検出する様子を示しているがこれは本実施形態を限定するものではなく、本ステップにおいて複数の被写体を検出する構成としてもよい。更に言えば、本ステップにおいて。同一カテゴリの複数の被写体(複数の人等)を検出する構成としても良いし、互いに異なるカテゴリの複数の被写体(人、自動車、動物等)を検出する構成としてもよい。
【0046】
また、本ステップにおいて、位置特定部132が備える第1の抽出部134が被写体の骨格情報を抽出する構成としてもよい。ここで、骨格情報とは被写体の各骨格の位置を示す情報である。
【0047】
図6には、本ステップにおいて第1の抽出部134が抽出した骨格情報B1~B3が示されている。
図6に示すように、第1の抽出部134は、フレームf1から被写体の骨格情報B1を抽出し、フレームf2から被写体の骨格情報B2を抽出し、フレームf3から被写体の骨格情報B3を抽出する。
【0048】
ここで、一例として、第1の抽出部134は、被写体の骨格情報として、画像中の座標を抽出する。本ステップにおいて抽出された被写体の骨格情報には、一例として後述するステップS105において、3次元モデル中の座標を示す情報が追加される。
【0049】
なお、被写体の骨格情報は、本ステップでは行わず、後述するステップS105において行う構成としてもよい。
【0050】
また、本ステップにおいて、位置特定部132が備える第2の関連付け部135が、本ステップにて抽出された被写体の骨格情報を、各フレームに関連付ける構成としてもよい。より具体的には、第2の関連付け部135は、フレームf1~f3からそれぞれ抽出された骨格情報B1~B3を、それぞれ、フレームf1~f3に関連付ける構成としてもよい。
【0051】
また、本ステップにおいて、位置特定部132が備える第2の抽出部136が被写体の顔情報を抽出する構成としてもよい。
【0052】
また、本ステップにおいて、位置特定部132が備える第3の関連付け部137が、本ステップにて抽出された顔情報を参照して得られる被写体識別情報を、各フレームに関連付ける構成としてもよい。
【0053】
ここで、第3の関連付け部137は、予め複数の顔情報と複数の被写体識別情報とが関連付けられて格納されている顔データベースを参照することによって、顔情報から被写体識別情報を特定する構成としてもよい。
【0054】
(ステップS104)
続いて、ステップS104において、位置特定部132は、ステップS102において取得した画像と3次元モデルとを比較し、3次元モデルにおける撮像位置を特定する。ここで、位置特定部132は、通信部11を介して、端末装置20の撮像部22から撮像条件に関する撮像条件情報を取得し、取得した撮像条件情報を参照して、前記撮像位置を特定する構成とすることができる。ここで、「撮影条件情報」は、一例として、撮像部22の画角及びズーム倍率の少なくとも何れかが含まれる。
【0055】
ここで、位置特定部132による撮像位置の特定処理は、一例として3次元モデルと、ステップS102において取得した画像とのマッチング処理を行うことによって行うことができるが、これは本実施形態を限定するものではなく、任意の手法を用いることができる。
【0056】
また、本ステップにおいて位置特定部132が特定する撮像位置は、3次元モデル中の3次元位置であることが好ましい。
【0057】
図7は、位置特定部132が特定した撮像位置を示す図である。
図7には、フレームf1と3次元モデルとを比較することによって特定された撮影位置pcf1、フレームf2と3次元モデルとを比較することによって特定された撮影位置pcf2、及び、フレームf3と3次元モデルとを比較することによって特定された撮影位置pcf3が示されている。
【0058】
なお、本ステップにおいて位置特定部132は、撮像位置に加え、撮像方向を特定する構成とすることが好ましい。ここで撮像方向の特定は、3次元モデルとステップS102において取得した画像とのマッチング処理によって特定する構成としてもよいし、端末装置20から撮像方向に関する撮像方向情報をフレーム毎に取得しておく構成としてもよい。
【0059】
また、現実空間中の位置情報が特定されている3次元モデルを用いる場合、本ステップの処理により、位置特定部132は、3次元モデルにおける撮像位置と、現実空間中の3次元モデルの位置情報とを参照して、現実空間中の撮像位置を特定することもできる。
【0060】
(ステップS105)
続いて、ステップS105において、位置特定部132は、ステップS104にて特定した撮像位置及び撮影方向を参照して、3次元モデルにおける被写体の位置を特定する。
【0061】
ここで、位置特定部132は、一例として、各フレーム中の被写体の大きさを参照して、端末装置20から被写体までの距離を推定し、推定した距離と、ステップS105において特定した撮影位置及び撮影方向とを用いて、3次元モデルにおける被写体の位置と特定する構成とすることができる。ただし、これは本実施形態を限定するものではなく、他のアルゴリズムを採用してもよい。
【0062】
また、本ステップにおいて位置特定部132が特定する被写体の位置は、3次元モデル中の3次元位置であることが好ましい。また、位置特定部132が特定する被写体の位置は、一例として、被写体に対応するバウンディングボックスの四隅を3次元モデル内の座標系で表現したものとすることができる。
【0063】
図8は、本ステップにおいて、位置特定部132が特定した被写体の位置を示す図である。
図8には、3次元モデルにおけるフレームf1の撮像位置及び撮像方向を参照して特定された被写体の位置pof1、3次元モデルにおけるフレームf2の撮像位置及び撮像方向を参照して特定された被写体の位置pof2、及び、3次元モデルにおけるフレームf3の撮像位置及び撮像方向を参照して特定された被写体の位置pof3が示されている。
【0064】
なお、現実空間中の位置情報が特定されている3次元モデルを用いる場合、本ステップの処理により、位置特定部132は、3次元モデルにおける被写体の位置情報と、現実空間中の3現モデルの位置情報とを参照して、現実空間中の被写体の位置を特定することもできる。
【0065】
また、本ステップでは、位置特定部132がステップS103において抽出した骨格情報に、被写体の骨格の3次元モデル中の座標を示す情報を追加する構成としてもよい。
【0066】
また、上述したように、ステップS103において骨格情報を抽出しない構成の場合、本ステップにて、位置特定部132が、被写体の骨格の画像中の座標、及び被写体の骨格の3次元モデル中の座標を示す情報を骨格情報として抽出する構成としてもよい。
【0067】
(ステップS106)
続いて、ステップS106において、第1の関連付け部133は、ステップS105において特定した3次元モデルにおける被写体の位置情報を、ステップS102において取得した画像に関連付ける。
【0068】
図9は、位置特定部132によって各フレームに関連付けられた各情報を示すテーブルである。
図9に示すように、本ステップにおいて、第1の関連付け部133は、フレームf1に被写体の位置情報pof1を関連付け、フレームf2に被写体の位置情報pof2を関連付ける。より一般には、インデックスxで特定されるフレームfxに対して、被写体の位置情報pofxを関連付ける。
【0069】
また、本ステップにおいて、位置特定部132は、ステップS104において特定した撮像位置を、各フレームに関連付ける。より具体的には、
図9に示すように、フレームf1に撮像位置pcf1を関連付け、フレームf2に撮像位置pcf2を関連付ける。より一般には、フレームfxに対して、撮像位置pcfxを関連付ける。
【0070】
なお、
図9に示す例では、各フレーム(f1、f2、・・・fx)には、ステップS103又はステップS105にて抽出した骨格情報(B1、B2、・・・Bx)も関連付けられている。
【0071】
また、
図9に示す例では、各フレームにおける被写体の位置情報及び骨格情報が、被写体情報H1に含まれるデータ構造を採用している。
【0072】
なお、
図9に示す例では、S102において取得した全ての画像(全てのフレーム)に対して、被写体の位置情報を関連付ける例を示ししているが、これは本実施形態を限定するものではない。
【0073】
例えば、ステップS105による被写体の位置情報特定処理を、所定枚数のフレーム毎(例えば、5フレーム毎)に実行する構成とし、更に本ステップにおいて、被写体の位置情報の関連付け処理も所定枚数のフレーム毎(例えば、5フレーム毎)に行う構成としてもよい。
【0074】
また、本ステップにおいて関連付けられる被写体の位置情報には、
図6に示した各フレームにおけるバウンティングボックスの大きさを示す情報を含める構成としてもよい。
【0075】
また、各フレームには当該フレームが撮像された時刻を示す時刻情報を更に関連付ける構成としてもよい。
【0076】
(ステップS107)
続いて、ステップS107において、情報処理装置10の画像生成部138は、3次元モデル上に被写体を示す代替画像を重畳することによって、3次元モデルと代替画像とを含む重畳画像を生成する。
【0077】
ここで、画像生成部138が生成する重畳画像は静止画像であってもよいし、動画像であってもよい。また、画像生成部138が生成した重畳画像は、一例として端末装置20に供給され、表示部23に表示される。
【0078】
また、画像生成部138は被写体を示す代替画像としてアイコン等の予め定められた画像を用いる構成としてもよいし、被写体の骨格情報が示す骨格を表現する画像を代替画像として用いる構成としてもよい。
【0079】
図10は、画像生成部138が生成した重畳画像の一例を示す図であり、表示部23に表示される重畳画像を示す図である。
図10に示すように、
図3に示した現実の被写体obの現実空間中の各位置に対応する3次元モデル中の各位置に、当該被写体obの代替画像sobが表示される。
図10では時刻t1、t2、t3に対応する代替画像sobを、それぞれsob(t1)、sob(t2)、sob(t3)と表記した。
【0080】
図11は、
図10に示した重畳画像を異なる視点から見た図であり、
図10と同じく表示部23に表示される重畳画像を示す図である。
【0081】
画像生成部138は、一例として端末装置20の操作部24を介して、3次元モデルの回転、拡大、縮小等のユーザ操作を示す操作情報を取得する。そして、取得した操作情報に応じて、3次元モデルに対して回転、拡大、縮小等の処理を適用すると共に、当該処理適用後の3次元モデルに対して代替画像を重畳する。
【0082】
上述のように、情報処理装置10では、撮像画像に含まれる被写体に関し、3次元モデル中の当該被写体の位置を特定するので、被写体の代替画像を、3次元モデル中に好適に配置することができる。
【0083】
<情報処理システム1による効果>
情報処理システム1によれば、上述したように、画像中の被写体に対して自動的に、被写体の位置情報及び撮像位置を付与することができる。これにより、一例として複数の静止画像又は動画像から、特定の位置に被写体が存在する画像、及び特定の位置から撮像した画像を検索することができる。
【0084】
例えば、情報処理装置10が備える検索部139は、ユーザから入力された検索指示に含まれる被写体の位置情報を有する画像を、複数の画像から検索することによって、当該位置情報が示す位置に被写体を含む画像を検索することができる。
【0085】
より具体的な例を挙げると、ユーザが「横断歩道」を被写体の位置情報として指定した場合、検索部139は、「横断歩道」に対応する位置情報を有する画像を検索することによって、横断歩道を被写体が渡っている画像を検索することができる。
【0086】
また、動画像ファイルが複数存在する場合、それらの動画像ファイルに含まれる各フレームに対して被写体の位置情報、及び撮像位置を関連付けておくことによって、これら複数の動画像ファイルから、被写体が特定の位置に存在するフレームを含む動画像ファイル、及び、特定の位置から撮像したフレームを含む動画像ファイルを検索することができる。
【0087】
〔ソフトウェアによる実現例〕
情報処理装置10の制御ブロック(特に取得部131、位置特定部132、画像生成部138および検索部139)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
【0088】
後者の場合、情報処理装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0089】
(情報処理装置10の物理的構成)
図12は、情報処理装置10および端末装置20として用いられるコンピュータの物理的構成を例示したブロック図である。情報処理装置10は、
図12に示すように、バス110と、プロセッサ101と、主メモリ102と、補助メモリ103と、通信インタフェース104とを備えたコンピュータによって構成可能である。プロセッサ101、主メモリ102、補助メモリ103、および通信インタフェース104は、バス110を介して互いに接続されている。
【0090】
プロセッサ101としては、例えば、CPU(Central Processing Unit)、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。
【0091】
主メモリ102としては、例えば、半導体RAM(random access memory)等が用いられる。
【0092】
補助メモリ103としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはこれらの組み合わせ等が用いられる。補助メモリ103には、上述した情報処理装置10の動作をプロセッサ101に実行させるためのプログラムが格納されている。プロセッサ101は、補助メモリ103に格納されたプログラムを主メモリ102上に展開し、展開したプログラムに含まれる各命令を実行する。
【0093】
通信インタフェース104は、ネットワークN1に接続するインタフェースである。
【0094】
この例で、プロセッサ101および通信インタフェース104は、制御部13および通信部11を実現するハードウェア要素の一例である。また、主メモリ102および補助メモリ103は、記憶部15を実現するハードウェア要素の一例である。
【0095】
(端末装置20の物理的構成)
端末装置20は、
図12に示すように、バス210と、プロセッサ201と、主メモリ202と、補助メモリ203と、通信インタフェース204と、入出力インタフェース205とを備えたコンピュータによって構成可能である。プロセッサ201、主メモリ202、補助メモリ203、通信インタフェース204、および入出力インタフェース205は、バス210を介して互いに接続されている。入出力インタフェース205には、カメラ206およびタッチパネル207が接続されている。
【0096】
入出力インタフェース205としては、例えば、USBインタフェース、赤外線やBluetooth(登録商標)等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。
【0097】
この例で、プロセッサ201および通信インタフェース204は、制御部25を実現するハードウェア要素の一例である。また、カメラ206は、撮像部22を実現するハードウェア要素の一例である。また、タッチパネル207は、表示部23及び操作部24を実現するハードウェア要素の一例である。
【0098】
〔まとめ〕
各実施形態の一態様に係る情報処理装置は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得部と、前記取得部が取得した画像と前記対象領域に関する3次元モデルとを参照することによって、前記対象画像に含まれる被写体の前記3次元モデル中の位置を特定する位置特定部とを備えている。
【0099】
上記構成によれば、被写体の3次元モデル中の位置を好適に特定することができる。
【0100】
各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記位置特定部が特定した前記3次元モデル中の前記被写体の位置を示す位置情報を、前記画像に関連付ける第1の関連付け部を更に備えていることが好ましい。
【0101】
上記構成によれば、被写体の位置情報を画像に関連付けるので、被写体の位置情報を参照した検索処理等を好適に行うことができる。
【0102】
各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記3次元モデルにおける前記画像の撮像位置及び撮影方向を特定したうえで、前記被写体の前記3次元モデル中の位置を特定することが好ましい。
【0103】
上記の構成によれば、被写体の3次元モデル中の位置を好適に特定することができる。
【0104】
各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記画像から、前記被写体の骨格情報を抽出する第1の抽出部を更に備え、前記位置特定部は、前記第1の抽出部が抽出した前記被写体の骨格情報を、前記画像に関連付ける第2の関連付け部を更に備えていることが好ましい。
【0105】
上記の構成によれば、被写体の骨格情報を抽出し、画像に関連付けるので、骨格情報に基づいて推定可能な被写体の姿勢(座位等)や動作(歩行等)を検索条件とした検索を好適に行うことができる。
【0106】
各実施形態の一態様に係る情報処理装置において、前記位置特定部は、前記画像から、前記被写体の顔情報を抽出する第2の抽出部を更に備え、前記位置特定部は、前記第1の抽出部が抽出した前記被写体の顔情報を参照して得られる被写体識別情報を、前記画像に関連付ける第3の関連付け部を更に備えていることが好ましい。
【0107】
上記の構成によれば、被写体の顔情報を抽出し、当該顔情報によって特定される被写体識別情報を画像に関連付けるので、被写体識別情報を検索条件とした検索を好適に行うことができる。
【0108】
各実施形態の一態様に係る情報処理装置において、前記位置特定部が特定した前記3次元モデル中の前記被写体の位置に、前記被写体の代替画像を重畳することによって重畳画像を生成する画像生成部を更に備えていることが好ましい。
【0109】
上記の構成によれば、被写体の代替画像と3次元モデルとを含む重畳画像を生成するので、ユーザに対して視覚的に被写体の位置を示すことができる。また、被写体の骨格情報が画像に関連づけられている場合には、骨格情報を有する代替画像を含む重畳画像を生成できる(
図10及び
図11参照)。これにより、ユーザに対して視覚的に被写体の動作を示すことができる。
【0110】
各実施形態の一態様に係る情報処理方法は、対象領域の少なくとも一部を撮像範囲に含む画像を取得する取得工程と、前記取得工程にて取得した画像と前記対象領域に関する3次元モデルとを参照することによって、前記取得工程にて取得した前記画像に含まれる被写体の前記3次元モデル中の位置を特定する位置特定工程とを含んでいる。
【0111】
上記のように構成された情報処理方法によれば、上記情報処理装置と同様の効果を奏する。
【0112】
各実施形態の一態様に係るプログラムは、上述した情報処理装置としてコンピュータを機能させるためのプログラムであって、上記各部としてコンピュータを機能させる。
【0113】
上記の構成によれば、上述した情報処理装置と同様の効果を奏する。
【0114】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0115】
1 情報処理システム
10 情報処理装置
11、21 通信部
13、25 制御部
15 記憶部
20 端末装置
131 取得部
132 位置特定部
134 第1の抽出部
136 第2の抽出部
138 画像生成部
139 検索部
140 3次元モデル生成部