(58)【調査した分野】(Int.Cl.,DB名)
前記物体認識部により物体の位置が認識された場合には、当該物体に応じた合成画像を、前記撮像画像において認識された当該物体の位置に応じて合成するよう、前記ユーザの操作に応じて撮像を行い且つ撮像画像を表示する撮像表示装置に指示し、前記カテゴリ認識部によりカテゴリが認識された場合には、前記撮像画像において前記カテゴリに応じた合成画像を合成するよう前記撮像表示装置に指示する画像合成指示部を備える
ことを特徴とする請求項1又は2に記載の情報処理装置。
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して、本発明の一実施形態について説明する。
[構成]
図1は、本発明の一実施形態に係る情報処理システム1の構成を例示する図である。情報処理システム1は、画像の認識を行う情報処理装置10と、画像の撮像及び表示を行う撮像表示装置20と、これら情報処理装置10及び撮像表示装置20を通信可能に接続するネットワーク90とを備えている。ネットワーク90は、例えばLAN(Local Area Network)又はWAN(Wide Area Network)、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいてもよい。なお、
図1には、情報処理装置10及び撮像表示装置20を1つずつ示しているが、これらはそれぞれ複数であってもよい。
【0017】
図1のような構成の情報処理システム1の概要について説明する。情報処理装置10は、撮像表示装置20による撮像画像を取得し、その撮像画像に対して画像認識を行う。そして、情報処理装置10は、撮像表示装置20に対して、画像認識結果に応じて異なる合成画像(第1合成画像という)を上記撮像画像に合成し、さらにその第1合成画像に対する所定の位置に、第1合成画像とは異なる合成画像(第2合成画像という)を合成するよう指示する。例えば、撮像表示装置20により風景が撮像された場合(後述する
図8(A))、その風景に応じた第1合成画像G1として、人間が走る姿を模した動画のキャラクタ画像が合成される(
図8(B))。この第1合成画像G1における所定の位置、ここでは第1合成画像G1が表す人間の頭部に相当する領域G2は、ブランクになっている。ユーザが撮像表示装置20を用いて自身の顔を撮像すると(
図8(C))、第1合成画像G1の領域G2に対して、撮像された顔の画像が第2合成画像G3として合成される(
図8(D))。このようにすると、撮像表示装置20に表示されている風景画像に対し、ユーザ自身の顔を持つ人間のキャラクタ画像が走っている様子が動画として合成されることになり、ユーザはこれらの画像の組み合わせや動きの面白さを見て楽しむことができる。
【0018】
情報処理装置10の画像認識機能には、物体認識機能というものと、カテゴリ認識機能というものがある。さらに、カテゴリ認識機能は、第1カテゴリ認識機能及び第2カテゴリ認識機能という2種類の機能を含む。物体認識機能は、制約の無い実世界シーンの画像に対する画像認識分野において、物体検出又は特定物体認識とも呼ばれており、画像中の物体のカテゴリ又は固有名詞を特定するほか、その物体の画像中の位置(さらにはその物体の輪郭)を特定するものである。物体認識機能は、例えば画像の局所的な特徴抽出を行い、その抽出結果に対して統計学習手法を用いることで実現される。本実施形態において物体認識は、どのような物体が画像中のどこにあるかを認識してその画像認識結果に応じた位置に、物体に応じた合成画像を表示するために用いられる。
【0019】
カテゴリ認識機能は、制約の無い実世界シーンの画像に対する画像認識分野において、カテゴリ分類又は一般物体認識とも呼ばれており、画像中の物体が属するカテゴリ又は固有名詞を認識する(以下では単に、カテゴリを認識する、と表現する)に留まり、その物体が画像中のどこにあるかまでは特定しないというものである。カテゴリ認識機能は、例えば画像の特徴抽出を行ってベクトル量子化ヒストグラムを算出し、その算出結果を予め用意されたカテゴリ別のヒストグラムに当てはめることで実現される。本実施形態において第1カテゴリ認識機能は、画像中の物体が属するカテゴリを認識してその画像認識結果に応じた合成画像を表示するために用いられるものであり、予め決められた第1カテゴリグループに属する物体についてカテゴリ認識を行う。第2カテゴリ認識機能は、画像中の物体が属するカテゴリを認識するための認識アルゴリズムが第1カテゴリ認識機能と共通であるが、第1カテゴリグループとは異なる、予め決められた第2カテゴリグループに属する物体についてカテゴリ認識を行う。つまり、第1カテゴリ認識機能がカバーするカテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとは異なっている。
【0020】
第1カテゴリグループは、カテゴリ認識がなされることを目的とした物体の集合であり、どの物体が第1カテゴリグループに属するかについては任意に決めることができるが、本実施形態では例えば車両や人などの物体の集合である。第2カテゴリグループは、カテゴリ認識を経て最終的に物体認識がなされることを目的とした物体の集合であり、どの物体が第2カテゴリグループに属するかについては任意に決めることができるが、本実施形態では例えば企業が消費者に対して発行するポイントカードや企業のロゴなどの物体である。
【0021】
情報処理装置10は、撮像表示装置20から取得した撮像画像が物体認識機能により認識された場合には、その画像認識結果に応じた位置にその画像認識結果に応じた合成画像を表示するよう、撮像表示装置20に指示する。また、情報処理装置10は、撮像表示装置20から取得した撮像画像が物体認識機能により認識されず第1カテゴリ認識機能により認識された場合には、その画像認識結果に応じた合成画像を表示するよう撮像表示装置20に指示する。そして、情報処理装置10は、撮像表示装置20から取得した撮像画像が物体認識機能及び第1カテゴリ認識機能により認識されず、第2カテゴリ認識機能により認識された場合には、ユーザに対して、物体認識が可能なような撮像方法を案内し、その案内に従って撮像された撮像画像に対して再度、物体認識機能に認識を試みさせる。この結果、撮像画像が物体認識機能により認識された場合には、情報処理装置10は、その画像認識結果に応じた位置にその画像認識結果に応じた合成画像を表示するよう、撮像表示装置20に指示する。
【0022】
上記のように、第1カテゴリ認識機能がカバーする第1カテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとを分けている理由は、第1カテゴリグループがカテゴリ認識さえ実現すれば足りるのに対し、第2カテゴリグループは最終的に物体認識まで実現したいというように、各グループについての画像認識の目的が異なるからである。つまり、第2カテゴリグループに属する物体は、本来は物体認識を目的としたものであるが、撮像画像において物体の位置又は姿勢が不定であったり物体が変形したりするなどの理由から、物体認識機能によって正しく認識できない場合がある。このような場合において、案内された撮像方法に従ってユーザが撮像画像における物体の位置又は姿勢や形状を整えることで、物体認識を可能とする。つまり換言すれば、物体認識機能がカバーする物体群と、第2カテゴリ認識機能がカバーする物体群とは、少なくとも一部が重複していると言える。
【0023】
また、第1カテゴリ認識機能がカバーする第1カテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとを統合して1つのカテゴリグループとして構成してしまうと、カテゴリ認識の精度が悪化するため、これら両グループを分けているという理由もある。
【0024】
次に、情報処理システム1の構成について詳細に説明する。
図2は、撮像表示装置20のハードウェア構成を例示する図である。撮像表示装置20は、ユーザの操作に応じて撮像を行い且つ撮像画像を表示する装置であり、例えばスマートホン又はタブレット或いはウェアラブル端末などの通信可能なコンピュータである。撮像表示装置20は、CPU201(Central Processing Unit)、ROM(Read Only Memory)202、RAM(Random Access Memory)203、補助記憶装置204、通信IF205、カメラ206、UI装置207を有する。CPU201は、各種の演算を行うプロセッサである。ROM202は、例えば撮像表示装置20の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。RAM203は、CPU201がプログラムを実行する際のワークエリアとして機能する揮発性メモリである。補助記憶装置204は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶装置であり、撮像表示装置20において用いられるプログラム及びデータを記憶する。CPU201がこのプログラムを実行することにより撮像表示装置20はコンピュータ装置として機能し、後述する
図5に示される機能が実現される。通信IF205は、所定の通信規格に従ってネットワーク90を介した通信を行うためのインターフェースである。この通信規格は、無線通信の規格であってもよいし、有線通信の規格であってもよい。無線の場合、通信IF205は、例えばLTE(Long Term Evolution)又はWi−Fi(登録商標)等の通信規格で動作するアンテナ及び通信回路を備えている。カメラ206はレンズ及び光学素子を含み、撮像した画像を示す画像データを生成する。カメラ206は、撮像表示装置20の表側に設けられたインカメラと、撮像表示装置20の裏側に設けられたアウトカメラとを含む。インカメラは主にユーザ自身を撮像するときに用いられ、アウトカメラは主にユーザ自身以外の風景等を撮像するときに用いられる。UI装置207は、例えばキー及びタッチセンサなどの操作子が設けられた操作部と、例えば液晶パネル及び液晶駆動回路などの表示部と、例えばスピーカ又はイヤホン用端子などの音声出力部とを含む。なお、撮像表示装置20は、
図2に例示した構成以外に、例えばGPS(Global Positioning System)ユニット又はジャイロセンサ或いは加速度センサなどの他の構成を含んでいてもよい。
【0025】
図3は、情報処理装置10のハードウェア構成を例示する図である。情報処理装置10は、CPU101、ROM102、RAM103、補助記憶装置104、及び通信IF105を有するコンピュータ装置である。CPU101は、各種の演算を行うプロセッサである。ROM102は、例えば情報処理装置10の起動に用いられるプログラム及びデータを記憶した不揮発性メモリである。RAM103は、CPU101がプログラムを実行する際のワークエリアとして機能する揮発性メモリある。補助記憶装置104は、例えばHDD又はSSDなどの不揮発性の記憶装置であり、情報処理装置10において用いられるプログラム及びデータを記憶する。CPU101がこのプログラムを実行することにより、後述する
図5に示される機能が実現される。通信IF105は、所定の通信規格に従ってネットワーク90を介した通信を行うためのインターフェースである。情報処理装置10は、
図3に例示した構成以外に、例えばUI装置などの他の構成を含んでいてもよい。
【0026】
補助記憶装置104には、画像認識を行う画像認識アルゴリズム及び、前述した第1合成画像を撮像表示装置20において表示するための第1合成画像データ群のほか、撮像表示装置20においてどの第1合成画像を表示するかを決定するための合成画像決定テーブルが記憶されている。
【0027】
図4は合成画像決定テーブルを例示する図である。合成画像決定テーブルには、画像認識機能の種別と、画像認識結果と、第1合成画像を識別するための第1合成画像IDと、第1合成画像の表示位置とが対応付けられている。
図4では、情報処理装置10の画像認識の結果、画像中の物体について例えば「橋」というカテゴリ認識できた場合に、分類したカテゴリに応じた第1合成画像ID「C001」の第1合成画像がその画像中の絶対座標X1,Y1に表示されるように規定されている。ここでいう絶対座標とは、撮像表示装置20の表示領域において予め規定されたXY座標軸に従う座標である。つまり、この例の場合、第1合成画像は、画像中の「橋」という物体の位置に関係なく、撮像表示装置20の表示領域において絶対座標で指定された位置(例えば表示領域の中心部分)に合成される。
【0028】
また、情報処理装置10の画像認識の結果、画像中の物体について例えば「建物」というカテゴリ及び「時計台」と固有名詞とその画像中の位置について物体認識ができた場合には、その物体(カテゴリ又は固有名詞)に応じた第1合成画像ID「C020」の第1合成画像が相対座標x1,y1に表示されるように規定されている。ここでいう相対座標とは、検出された「時計台」という物体を基準として規定されたxy座標軸(例えば物体の重心を原点としてその物体のサイズに応じた単位の目盛を持つxy座標軸)に従う座標である。この例の場合、第1合成画像は、画像中の「時計台」という物体の位置に対して相対座標で指定された位置に合成されるから、画像中の「時計台」という物体の位置に応じて第1合成画像の表示位置は異なることになる。例えば、
図8(B)に示すように、第1合成画像G1は「時計台」という物体に対して、その屋根部分の重力方向上方の位置に常に表示される。
【0029】
なお、補助記憶装置104に記憶されている各第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。例えば第1合成画像G1として、人間が走る姿を模した動画のキャラクタ画像が合成される場合(
図8(B))、この第1合成画像G1において人間の頭部に相当する領域G2の位置を所定の位置として指定するデータが、この第1合成画像データに含まれている。
【0030】
図5は、情報処理システム1の機能構成を示すブロック図である。
図5に示すように、撮像表示装置20においては、画像を撮像する撮像部21と、第2合成画像を取得する第2合成画像取得部22と、撮像部21により撮像された画像に対して第1合成画像及び第2合成画像を合成した画像データを生成する画像データ生成部23と、画像データ生成部23により生成された画像データに応じた画像を表示する表示部24とが実現される。
【0031】
情報処理装置10においては、撮像部21により撮像された画像を認識する画像認識部11と、画像認識部11による認識結果に応じて異なる第1合成画像を決定する第1合成画像決定部12と、第1合成画像決定部12により決定された第1合成画像を撮像部21により撮像された画像に合成し、当該画像に合成された第1合成画像に対する所定の位置に第2合成画像を合成するよう撮像表示装置20に指示する画像合成指示部13とが実現される。
【0032】
画像認識部11は、物体認識部111と、第1カテゴリ認識部1121及び第2カテゴリ認識部1122を含むカテゴリ認識部112と、認識制御部113とを含む。物体認識部111は前述した物体認識機能を実現し、第1カテゴリ認識部1121は前述した第1カテゴリ認識機能を実現し、第2カテゴリ認識部1122は前述した第2カテゴリ認識機能を実現する。
【0033】
認識制御部113は、物体認識部111及び第1カテゴリ認識部1121による認識がされず第2カテゴリ認識部1122による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について物体認識部111に認識させる。この撮像案内を行う場合、認識制御部113は、撮像表示装置20に対して、カテゴリ認識した物体の位置を指定する画像を撮像画像中に表示するよう指示することで、ユーザに対して撮像の方法を案内する。さらに具体的には、認識制御部113は、カテゴリ認識した物体を模した画像を撮像画像に重畳して表示するよう撮像表示装置に指示することで、ユーザに対して撮像の方法を案内する。
【0034】
画像合成指示部13は、物体認識部111により認識がされた場合には、当該物体に応じた合成画像を、撮像画像において認識された当該物体の位置に応じて合成するよう、撮像表示装置20に指示する。また、画像合成指示部13は、物体認識部111により認識されず第1カテゴリ認識部1121により認識がされた場合には、撮像画像においてカテゴリに応じた合成画像を合成するよう撮像表示装置20に指示する。
【0035】
撮像部21及び第2合成画像取得部22は撮像表示装置20のカメラ206によって実現され、画像データ生成部23は撮像表示装置20のCPU201によって実現され、表示部24は撮像表示装置20のUI装置207によって実現される。画像認識部11は情報処理装置10のCPU101によって実現され、第1合成画像決定部12は情報処理装置10のCPU101及び補助記憶装置104によって実現され、画像合成指示部13は情報処理装置10のCPU101及び通信IF105によって実現される。画像データ生成部23と画像合成指示部13とによって、本発明に係る情報処理システム1が備える画像合成部30が実現される。この画像合成部30は、画像認識部11による認識結果に応じて異なる第1合成画像を、撮像部21により撮像された画像に合成する。
【0036】
[動作]
図6〜
図9を参照して、情報処理システム1の表示制御の例について説明する。
図6において、ユーザは撮像表示装置20の撮像部21(アウトカメラ)を起動して、自身が所望する物体の撮像を開始する(ステップS11)。撮像部21による撮像結果は、撮像表示装置20の表示領域にリアルタイムに表示され、撮像部21の撮像方向が変わるとこの表示領域上の画像も変更される。例えばユーザが時計台の風景が撮像されるような向きに撮像表示装置20を構えてユーザが所定の操作を行うと、
図8(A)に示すように、その撮像画像が撮像表示装置20の表示領域に表示される。この撮像画像を示す撮像画像データは、通信IF205から情報処理装置10に送信される(ステップS12)。この撮像画像データの送信は、例えば、ユーザの操作があったときに開始されてもよいし、ユーザの操作を待たず自動的に開始されてもよい。また、撮像画像データの送信はその開始時点から連続的に成されてもよいし、又はその開始時点から定期的になされてもよい。なお、撮像表示装置20は撮像画像データを適宜圧縮してデータサイズを小さくすることが望ましい。
【0037】
情報処理装置10の画像認識部11は、撮像画像データに対して画像認識を試みる(ステップS13)。この画像認識処理の詳細については、後述する
図7にて説明する。
【0038】
画像認識に成功すると、第1合成画像決定部12は、その認識結果に基づいて、撮像表示装置20において撮像画像に合成する第1合成画像を決定する(ステップS14)。ここで、画像認識部11がカテゴリ認識(ここでは第1カテゴリ認識部1121による認識)に成功した場合には、第1合成画像決定部12は、
図4に例示したテーブルにおいてその物体のカテゴリに対応する第1合成画像IDを特定し、その第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。画像合成指示部13は、読み出された第1合成画像データを、
図4に例示したテーブルにおいてそのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置20に送信する(ステップS15)。このとき、前述したように、第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。
【0039】
また、物体認識(ここでは物体認識部111による認識)に成功した場合には、第1合成画像決定部12は、
図4に例示したテーブルにおいてその物体に対応する第1合成画像IDを特定し、その第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。画像合成指示部13は、読み出された第1合成画像データを、撮像表示装置20の表示領域における物体の座標、及び
図4に例示したテーブルにおいてその物体に対応する相対座標とともに、画像合成指示として撮像表示装置20に送信する(ステップS15)。このときも前述したように、第1合成画像データにおいては、第1合成画像に対する第2合成画像の表示位置を指定するデータが含まれている。
【0040】
撮像表示装置20の画像データ生成部23は、上記の第1合成画像データ等を取得すると(ステップS16)、表示部24の撮像画像において座標(絶対座標又は相対座標)により指定された位置に第1合成画像を表示する。例えばユーザが時計台の風景を撮像した場合には、
図8(B)に示すように、時計台の屋根部分の上方に人間が走る姿を模した動画の第1合成画像G1が表示される。
【0041】
そして、画像データ生成部23は、ユーザに対して第2合成画像の撮像を案内する(ステップS17)。この案内は、例えば「自分の顔を撮ってください」というメッセージを表示し、撮像表示装置20の表示領域上で顔の撮像位置を指定する、というような方法で実現すればよい。
【0042】
この案内に従い、ユーザが撮像部21(インカメラ)で自分の顔を撮像する。この場合、例えば
図8(C)に示すように、ユーザの顔を含む上半身が撮像表示装置20の表示領域に表示される。画像データ生成部23は、この画像からユーザの頭部に相当する部分画像を画像認識技術等により抽出し、これを第2合成画像として取得する(ステップS18)。そして、画像データ生成部23は、第1合成画像及び第2合成画像を撮像画像に合成した画像データを生成し(ステップS19)、この画像データに応じた画像を表示する(ステップS20)。これにより例えば
図8(D)に示すように、人間が走る姿を模した第1合成画像における頭部の位置にユーザの顔を示す第2合成画像が配置され、これらが時計台の屋根部分の上方に表示されることになる。
【0043】
ここで、
図7を参照して情報処理装置10の画像認識処理(
図6のステップS13)について説明する。
図7において、画像認識部11の物体認識部111は、撮像画像データに対して物体認識を試みる。この物体認識に成功すると(ステップS111;YES)、前述したように、第1合成画像決定部12が、その物体に対応する第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。そして、画像合成指示部13は、読み出された第1合成画像データを、撮像表示装置20の表示領域における物体の座標、及びその物体に対応する相対座標とともに、画像合成指示として撮像表示装置20に送信する(
図6:ステップS14〜S15)。
【0044】
一方、物体認識部111による物体認識に失敗すると(ステップS111;NO)、画像認識部11の第1カテゴリ認識部1121は、撮像画像データに対してカテゴリ認識を試みる。このカテゴリ認識に成功すると(ステップS112;YES)、前述したように、第1合成画像決定部12は、その物体のカテゴリに対応する第1合成画像IDの第1合成画像データを補助記憶装置104から読み出す。そして、画像合成指示部13は、読み出された第1合成画像データを、そのカテゴリに対応する絶対座標とともに、画像合成指示として撮像表示装置20に送信する(
図6:ステップS14〜S15)。
【0045】
第1カテゴリ認識部1121による物体認識に失敗すると(ステップS112;NO)、画像認識部11の第2カテゴリ認識部1122は、撮像画像データに対してカテゴリ認識を試みる。このカテゴリ認識に成功すると(ステップS113;YES)、画像認識部11の認識制御部113は、ユーザに対して撮像の方法を案内する(ステップS115)。
【0046】
例えば、撮像表示装置20により、A社からユーザに特典を与えるためのポイントカードが物体として撮像されたとき(
図9(A))、そのポイントカードが物体認識し得る位置又は姿勢或いは形状で撮像されていない場合がある。このような場合であっても、このポイントカードが第2カテゴリ認識部1122によって認識可能な第2カテゴリグループに含まれていれば、第2カテゴリ認識部1122によるカテゴリ認識ができることがある。この場合、画像認識部11の認識制御部113は、カテゴリ認識されたポイントカードという物体を模した画像データを撮像表示装置20に送信して、その画像データに応じた画像を撮像画像に重畳して表示するよう指示する。このとき撮像表示装置20に送信される画像データは、ポイントカードを物体認識し得るような位置、姿勢及び形状となるように、そのポイントカードを模した半透明の画像が撮像表示装置20において表示されるようなデータである。これにより、ポイントカードを模した半透明の画像G4が撮像表示装置20の撮像画像中に表示される(
図9(B))。さらに、「画像に合わせて撮ってください」というようなメッセージを併せて表示される。ユーザがこの撮像案内に従って、ポイントカードを模した半透明の画像G4にポイントカードが重なるように、撮像表示装置20の位置及び向きを調整して撮像を行うと(
図9(C))、その撮像画像データが撮像表示装置20から情報処理装置10に送信される。
【0047】
画像認識部11の物体認識部111は、撮像画像データを取得すると(
図7のステップS116;YES)、その撮像画像データに対して物体認識を試みる。ここで、撮像画像中のポイントカードは物体認識し得るような位置、姿勢及び形状で撮像されているから、物体認識に成功する可能性が高い。物体認識に成功すると(ステップS111;YES)、前述したように、第1合成画像決定部12が、その物体に対応する第1合成画像IDの第1合成画像データを補助記憶装置104から読み出し、画像合成指示部13は、読み出された第1合成画像データを、撮像表示装置20の表示領域における物体の座標、及びその物体に対応する相対座標とともに、画像合成指示として撮像表示装置20に送信する(
図6:ステップS14〜S15)。
【0048】
この結果、ポイントカードという物体に応じた第1合成画像G5として、人間が躍る姿を模した動画のキャラクタ画像(
図4における第1合成画像ID:C022)が合成され、さらに別の第1合成画像G7として、その人間と一緒に踊るアニメのキャラクタ画像(
図4における第1合成画像ID:C023)が合成される(
図9(D))。第1合成画像G5において、人間の頭部に相当する領域G6はブランクになっている。ユーザが撮像表示装置20を用いて自身の顔を撮像すると(
図9(E))、第1合成画像G5の領域G6に対して、ユーザの顔の画像が第2合成画像G8として合成される(
図9(F))。このようにすると、撮像表示装置20に表示されているポイントカードの中で、ユーザ自身の顔を持つ人間のキャラクタ画像がアニメのキャラクタ画像とともに躍っている姿が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て楽しむことができる。
【0049】
なお、
図7において、画像認識部11の第2カテゴリ認識部1122によるカテゴリ認識が失敗すると(
図7のステップS113;NO)、画像認識部11の認識制御部113は、画像認識ができない旨を撮像表示装置20に通知するなどの、所定のエラー処理を行う(ステップS114)。
【0050】
以上説明した実施形態によれば、以下のような効果を奏する。
例えば撮像画像において物体の位置又は姿勢が不定であるとか物体が変形するなどの理由から、物体認識機能によって正しく認識できない場合があるが、このような場合であっても、案内された撮像方法に従ってユーザが撮像画像における物体の位置又は姿勢或いは形状を調整することで物体認識が可能となる。この撮像方法の案内は、例えば物体を模した半透明の画像と、「画像に合わせて撮ってください」というようなメッセージとを表示するような形態で実現されるから、ユーザにとって分かりやすい。また、第1カテゴリ認識機能がカバーする第1カテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとを分けているので、それぞれのカテゴリグループに属する物体についてのカテゴリ認識の精度が低下することがない。
【0051】
さらに、撮像表示装置20に表示されている撮像画像に対し、例えばユーザ自身の顔(第2合成画像)を持つ人間のキャラクタ画像(第1合成画像)が走っている動画が合成されることになり、ユーザはこれらの画像の組み合わせ、配置或いは動きなどを見て、従来にはない面白味を感じることができる。この第1合成画像は、撮像表示装置20に表示されている撮像画像の認識結果に応じて異なるから、ユーザは様々な物体を撮像することで、どのような第1合成画像が合成されるかという期待感を感じ、また、その期待に対する結果を楽しむことができる。また、第2合成画像としてユーザ自身の顔の画像を用いているから、ユーザ自身が撮像画像の仮想空間にあたかも存在しているかのような感覚を楽しむことが可能となる。また、ユーザは、撮像画像に対して第1合成画像が合成されている様子を見てから、第2合成画像として自身の顔を撮像するから、合成される自身の顔の向き又は表情を撮像画像及び第1合成画像の雰囲気に合うように、例えば横を向いたりコミカルな表情又は必死な表情にしたりすることが可能となる。これもまたユーザにとっての面白味の1つとなる。
【0052】
[変形例]
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
[変形例1]
第1カテゴリ認識機能がカバーする第1カテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとを分けずに、第1カテゴリ認識部1121及び第2カテゴリ認識部1122を統合して単一の機能としてもよい。つまり、本発明を、撮像画像に含まれる物体の位置を認識する物体認識部と、撮像画像に含まれる物体が属するカテゴリを認識するカテゴリ認識部と、前記物体認識部による認識がされず前記カテゴリ認識部による認識がされた場合には、ユーザに対して撮像の方法を案内し、当該案内に従って撮像された撮像画像について前記物体認識部に認識させる認識制御部とを備える情報処理装置として構成してもよい。このようにすれば、第1カテゴリ認識機能がカバーする第1カテゴリグループと、第2カテゴリ認識機能がカバーする第2カテゴリグループとを分けて設計するためのコストを省くことができる。
【0053】
[変形例2]
実施形態において認識制御部113は、物体を模した半透明の画像を撮像画像に重畳して表示するよう撮像表示装置20に指示していたが、この撮像方法の案内は実施形態の例に限定されない。要するに、認識制御部113は、撮像表示装置20に対して、撮像画像における物体の位置を指定する画像を当該撮像画像中に表示するよう指示して、撮像方法を案内すればよい。
【0054】
[変形例3]
画像合成部30は、画像認識部11による認識結果に応じて外観が異なる第1合成画像を合成することに限らず、例えば大きさ、位置、動き又は数の少なくともいずれかが異なる第1合成画像を合成するようにしてもよい。また、第1合成画像は動画に限らず静止画であってもよい。
また、画像合成部30は、画像認識部11による認識結果に加え、ユーザの属性又は撮像表示装置20の位置又は姿勢に応じて異なる第1合成画像を合成するようにしてもよい。
また、画像合成部30は、画像認識部11による認識結果に応じて異なる第1合成画像を合成すればよく、例えば建物を撮像したときに、その建物が設置された地面の平面を認識し、その平面上に第1合成画像を合成してもよい。また、画像合成部30は、物体の部分(例えば物体が時計台であれば、その時計台の屋根、ドア、時計などが部分に相当する)が画像認識部11により認識される場合には、その部分に対する所定の位置に第1合成画像を合成してもよい。例えば、画像合成部30は、時計台の屋根に対して第1合成画像であるキャラクタ画像が飛行して着地するとか、第1合成画像であるキャラクタ画像が時計台のドアを開けるとか、第1合成画像であるキャラクタ画像が時計台の時計の針を巻き戻すというような動画のAR(Augmented Reality)画像を合成するようにしてもよい。
このように第1合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。
【0055】
[変形例4]
実施形態では、画像合成部30は、画像認識部11による認識結果に関わらず、ユーザによって撮像された顔の画像を常に第2合成画像としていたが、画像認識部11による認識結果に応じて異なる第2合成画像を合成するようにしてもよい。例えば事前にユーザが、様々に異なる表情又は向きの顔を自分で撮像して撮像表示装置20の補助記憶装置204に記憶させておき、さらに、その顔の表情又は向きから連想するユーザの様子(例えば楽しい、悲しい、笑い顔、泣き顔、知らんぷり、無表情など)を意味するタグを付与しておく。このタグの付与は、ユーザ自身が行ってもよいし、画像認識技術を用いて撮像表示装置20又は情報処理装置10が行ってもよい。画像合成部30は、画像認識部11による認識結果に対応するタグが付与された顔の画像を第2合成画像とする。この場合、画像認識部11による認識結果とユーザの様子を類型化したものとが対応付けられて補助記憶装置204に記憶されており、画像合成部30は、画像認識部11による認識結果に対応するタグを特定し、そのタグが付与された顔の画像データを補助記憶装置204から読み出す 。さらに、このような顔の表情の異同に限らず、画像合成部30は、画像認識部11による認識結果に応じて外観、大きさ、位置、動き又は数の少なくともいずれかが異なる第2合成画像を合成してもよい。なお、第2合成画像は撮像画像に限らず、例えばアバター又はアニメの画像など、どのような画像であってもよい。このように第2合成画像の様々な要素が画像認識結果に応じて異なるほうが、ユーザにとっての面白味が増す。
【0056】
[変形例5]
画像合成部30は、第1合成画像に応じて異なる第2合成画像を合成するようにしてもよい。例えば、撮像表示装置20により風景が撮像された場合、その風景に応じた第1合成画像G1が合成される。画像合成部30は、この第1合成画像G1に応じて例えば複数の第2合成画像の候補をユーザに提示し、ユーザがそのうちのいずれかを選択すると、その第2合成画像を合成する。
また、複数の第2合成画像を選択的に第1合成画像に組み合わせる例として、例えば撮像された建築物を徐々に登っていく動きと位置変化をするような、人間の体を模した動画の第1合成画像に対し、その建築物の低層においては楽しそうな表情の顔の第2合成画像を組み合わせ、高層に進むにつれて苦しそうな表情の顔の第2合成画像を組み合わせるようにしてもよい。つまり、第1合成画像の動き又は位置の変化に応じて、第2合成画像を変化させてもよい。
このように第2合成画像の様々な要素が第1合成画像に応じて異なるほうが、ユーザにとっての面白味が増す。
【0057】
[変形例6]
第1合成画像データを情報処理装置10が記憶するのではなく、撮像表示装置20が記憶しておき、情報処理装置10はどの第1合成画像データを用いるかを第1合成画像IDで撮像表示装置20に指示するだけでもよい。このようにすれば情報処理装置10及び撮像表示装置20間の通信データ量を削減することができる。
【0058】
[変形例7]
第1合成画像及び第2合成画像が合成される画像は、撮像部21によってリアルタイムに撮像された画像に限らず、例えば過去に撮像部21によって撮像された画像が補助記憶装置204に記憶されており、その中から選ばれたものであってもよいし、撮像表示装置20が他の装置から取得したものであってもよい。このようにすれば、ユーザにとって、第1合成画像及び第2合成画像が合成される対象となる画像の選択の余地が広がる。
【0059】
[変形例8]
第1合成画像又は第2合成画像を広告として利用してもよい。
例えば第1合成画像として、或るキャラクタがそのメーカのペットボトル(広告宣伝対象物)を持っている画像とか、そのキャラクタの服の真ん中にそのペットボトル(広告宣伝対象物)の絵が記載されている画像というような例が考えられる。
また、撮像表示装置20を或る飲料メーカのペットボトル(広告宣伝対象物)にかざすと、そのペットボトルの或る位置において第1合成画像として飲料メーカのキャラクタ画像が表示され、さらにそのキャラクタ画像に対して第2合成画像としてユーザの顔が配置されてもよい。
また、例えば或る街の大規模交差点に撮像表示装置20をかざすと、その交差点に設置されたスクリーンパネルの領域に或る第1合成画像を合成し、その第1合成画像上に広告宣伝対象物の動画の第2合成画像として再生するようにしてもよい。このようにすれば、あたかも、その街で広告が再生されているように見える。
これら第1合成画像及び第2合成画像の組み合わせは、ユーザの属性又は撮像表示装置20の位置によって変更してもよいし、広告主の支払う単価などにより変更してもよい。
このようにすれば、本発明を広告に利用することが可能となる。
【0060】
[その他の変形例]
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
【0061】
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
【0062】
本明細書で説明した実施形態の処理手順は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。本明細書で説明した実施形態又は変形例は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0063】
本明細書で利用する「システム」及び「ネットワーク」という用語は、互換的に利用される。
【0064】
本明細書で利用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
【0065】
本明細書で利用する「に基づいて」「に応じて」という記載は、別段に明記されていない限り、「のみに基づいて」「のみに応じて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。「応じて」も同様である。また、「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書或いは特許請求の範囲で利用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において利用されている用語「又は(or)」は、排他的論理和ではないことが意図される。また、本開示の全体において、例えば、英語でのa, an, 及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。
【0066】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を利用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0067】
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。本明細書で利用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及び/又はプリント電気接続を利用することにより、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどの電磁エネルギーを利用することにより、互いに「接続」又は「結合」されると考えることができる。
【0068】
本発明に係る情報処理装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。
【0069】
本発明は、情報処理装置10が行う情報処理方法、或いは、情報処理装置10としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。このプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか又は他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、物体、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。