【文献】
阿久津 佳佑、岩下 志乃,“拡張現実を用いたGUIによる実世界へのアクセスに関する検証実験”,映像情報メディア学会技術報告,日本,(社)映像情報メディア学会,2010年 3月 1日,Vol.34, No.11,pp.55-58
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0019】
(第1の実施の形態)
図1は、本発明の実施の形態に係る画像認識装置を用いたシステムの一例として、通信販売システム1の構成例を示すブロック図である。
本実施形態の通信販売システム1は、ユーザが利用する携帯端末であるスマートフォン10と、スマートフォン10とネットワーク3を介して通信可能なサーバ装置60と、サーバ装置60に接続されるデータベース50(図中、「DB」と示す)と、を備える。
【0020】
本発明の画像認識装置は、撮影対象内に含まれる画像認識対象の各要素を認識し、認識された各要素に対応した処理を行う。本発明の実施の形態に係る通信販売システム1の例では、
図2に示すように、ユーザがスマートフォン10等の携帯端末をカタログ7にかざして撮影し、カタログ7(撮影対象)内の商品(画像認識対象の各要素)が認識されたとき、認識された商品に対応した処理として、スマートフォン10は画面上にマーカを表示したり、商品に関連する情報を閲覧できるウェブサイトを開いたり、商品の注文処理を受け付けたりする処理を行うことができる。ユーザは、スマートフォン10を用いてリアルタイムに表示される映像のプレビュー画面9上で商品の情報を閲覧したり、注文したりすることができる。
【0021】
後で構成要素毎に詳細に説明するように、本発明の実施の形態に係る画像認識装置は、携帯端末(スマートフォン10)、または、携帯端末(スマートフォン10)と通信可能なサーバ装置60、あるいは、それらの組み合わせにより実現することができる。
【0022】
図3は、本発明の実施の形態に係る画像認識装置100の構成を示す機能ブロック図である。
本発明の実施の形態に係る画像認識装置100は、撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定するオブジェクト特定部102と、撮影対象内の検出対象オブジェクトの位置情報と、撮影対象に応じて所定の配置で設定され、かつ、撮影対象に応じた特徴を有する処理対象オブジェクトとを関連付けるブジェクト位置データに基づいて、オブジェクト特定部102により特定された検出対象オブジェクトの撮影画像内での位置から、関連する撮影画像内の処理対象オブジェクトを特定し、特定された処理対象オブジェクトに割り当てられた処理を実行する処理部104と、を備える。
【0023】
本発明における各用語について、以下に定義するが、これらに限定されるものではない。
撮影対象とは、ユーザ等が、スマートフォン10等の端末を用いて撮影しようとする対象である。上述したように撮影対象は、たとえば、通販カタログ等の冊子の紙面等である。撮影対象には、ユーザが撮影対象を見て認知する対象が含まれていて、たとえば、カタログに掲載されている商品等が認知対象にあたる。
【0024】
本発明において、撮影対象には、何らかの処理が割り当てられる処理対象オブジェクトと、画像認識装置100が画像認識により検出するための検出対象オブジェクトとが含まれる。詳細については後述するが、処理対象オブジェクトは、典型的な例では、たとえば、カタログの商品画像等のような、ユーザが見て認知できるオブジェクトであるが、これに限定されない。たとえば、背景画像のみの紙面全体を処理対象オブジェクトとすることもできる。また、検出対象オブジェクトは、人間が認知できるか否かに関わらず、画像認識装置100が画像認識により検知できる特徴量を有していればよい。
【0025】
なお、検出対象オブジェクトと処理対象オブジェクトは、少なくとも一部が同じでもよいし、まったく別のオブジェクトでもよい。ただし、ユーザは、処理対象オブジェクトの画像を認知して、その認知した画像を撮影することを考慮すると、検出対象オブジェクトは、処理対象オブジェクトを撮影する時のユーザの撮像部による撮影範囲内に含まれている必要がある。すなわち、同じ撮影範囲内に、処理対象オブジェクトと、処理対象オブジェクトに対応付けられる検出対象オブジェクトの少なくとも一部が含まれるように、検出対象オブジェクトは設定される。しかしながら、検出対象オブジェクトには、複数の処理対象オブジェクトを対応付けることも可能であるので、特定された検出対象オブジェクトに対応する処理対象オブジェクトとして、撮影範囲に含まれていない処理対象オブジェクトも特定されてもよい。
【0026】
撮影対象は、本発明の画像認識装置の適用分野に応じて、様々考えられる。たとえば、カタログ、チラシ、飲食店のメニュー、旅行ガイド、タウンガイド、イベントお知らせのチラシ、新聞の紙面、折り込み広告、雑誌広告、雑誌記事、マンガ雑誌、書籍、クーポンマガジン、製品やサービスのカタログ、取扱説明書、地図、商品のパッケージ、ポスター、中吊り広告等の紙媒体のもの以外にも、ショーウインドウや陳列棚に陳列展示された商品や模型、ポップ、パソコン等の端末のディスプレイ上にデジタルカタログやネットショッピングウェブサイト等を表示させた画面、あるいは、街頭や店舗に設置された看板、街頭や店舗に設置されるデジタルサイネージに表示された画面、ショッピング番組が表示されたTV画面、ビルやショッピングモールや駅などのフロア案内図、特定の地点から見える風景(景色、建物)、絵画などの美術品などの少なくともいずれかを撮影対象とすることができる。
【0027】
通信販売以外の例では、たとえば、レストランのメニューを認識し、認識したメニューに関連する情報、たとえば、アレルギー情報を表示したり、クーポン情報やおすすめメニューを表示したり、メニューの注文を受け付けたりする処理を行うことができる。フロア案内図を認識する例では、建物に関連する情報、たとえば、電話番号を表示したり、ウェブサイトを開いたり、建物へのナビゲーションを提示したり、各店舗のセール情報を表示したりする処理を行うことができる。
【0028】
処理対象オブジェクトとは、撮影対象に含まれ、なんらかの処理が割り当てられる、ユーザが認知するオブジェクト(撮影対象に提示されている物体、画像、または文字列等)であり、典型例として、たとえば、カタログ紙面に印刷されている個々の商品画像等である。すなわち、処理対象オブジェクトとは、ユーザが撮影対象であるカタログを見たときに認知し、情報を得たり、購入手続きをしようとする対象(たとえば、商品の画像)である。システム側から言えば、処理対象オブジェクトとは、ユーザに認知させて、撮影させ、対応付けられた処理を行う対象となるものである。しかしながら、撮影された撮影画像からでは、処理対象オブジェクトが、画像認識により一定の認識精度で認識できない場合がある。そこで、本実施形態の画像認識装置は、撮影画像からは、後述する検出対象オブジェクトを検出し、検出した検出対象オブジェクトから処理対象オブジェクトを特定することで、特定された処理対象オブジェクトに対応付けられた処理を行うことができる構成を有するものとする。
【0029】
処理対象オブジェクトは、本発明の画像認識装置の適用分野により様々なものが考えられる。たとえば、処理対象オブジェクトは、商品となる品物以外に、展示品、試作品等の非売品も含むことができる。さらに、処理対象オブジェクトは、品物のオプション、たとえば、タイプ、色、柄、サイズ、名入れ等の指定、および品物を構成する選択部品、たとえば、自動車のエアロパーツ等と、その組み合わせ等、を示すロゴマーク、シンボルマーク、アイコン、文字列、写真、図柄等も含むことができる。さらに、品物の販売オプション、たとえば、商品お届け日時選択、商品組み立てサービス指定、贈り物用包装紙やのし紙指定等、を示すロゴマーク、シンボルマーク、アイコン、文字列、写真、図柄等も含むことができる。また、品物以外にも、各種業種が提供するサービス、そのサービスのオプション、またはサービスを受ける日時指定や担当者指名等、を示すロゴマーク、シンボルマーク、アイコン、文字列、写真、図柄等も含むことができる。さらに、処理対象オブジェクトは、ユーザに複数の選択肢を提示し、1つ以上の任意の選択肢をユーザが指定する、たとえば、アンケートやクイズの回答の選択肢等を選択する場合の各選択肢、を示すロゴマーク、シンボルマーク、アイコン、文字列、写真、図柄等でもよい。
【0030】
図19(a)に示すように、処理対象オブジェクト情報110は、処理対象オブジェクトを識別するID、画像データ(ファイル名、画像データの格納場所等)、および撮影対象内の処理対象オブジェクトの位置を含み、処理対象オブジェクト情報110を
図1のデータベース50に保持することができる。オブジェクトIDおよび画像データは、必ずしも両方が必要なのではなく、いずれか一方でもよいし、あるいは、これらに代えて、処理対象オブジェクトの画像が示す他の情報、たとえば、商品の情報(商品ID、商品名、型番、価格、仕様、商品説明等、または商品情報が掲載されるウェブページのURL等)であってもよい。なお、後述するように、本実施形態の画像認識装置100では、処理対象オブジェクト情報110は必ずしも必要ではない。少なくとも、処理対象オブジェクトの、検出対象オブジェクトの位置との相対位置を示すオブジェクト位置データとして、処理対象オブジェクトの情報を保持していればよい。
【0031】
本発明は、撮影対象内に含まれる少なくとも一部の処理対象オブジェクトと検出対象オブジェクトの位置関係が固定的であれば、特に有効である。しかし、デジタルサイネージ等のように、撮影対象が映像であり、撮影対象内に含まれる処理対象オブジェクトまたは検出対象オブジェクトの相対位置関係が変化する場合を、本発明は排除するものではない。そのような場合には、画像認識装置は、映像における少なくとも一部の処理対象オブジェクトと検出対象オブジェクトの相対位置関係の再生時間毎の変化が分かる情報を準備しておけばよい。そのようにすれば、画像認識装置は、撮影時点の映像の再生時間から撮影対象内に含まれる少なくとも一部の処理対象オブジェクトと検出対象オブジェクトの相対位置関係を取得することができる。
【0032】
検出対象オブジェクトとは、撮影対象に含まれる、撮影対象を撮影することにより得られる撮影画像から、画像認識により検出させようとしている対象である。検出対象オブジェクトは、処理対象オブジェクトに応じて所定の配置で設定され、かつ、処理対象オブジェクトに応じた特徴を有する。たとえば、処理対象オブジェクトが含まれている撮影対象をユーザが撮影した時に、画像認識により一定の認識精度を得られるような十分な特徴情報を抽出可能な撮影対象内の領域が、検出対象オブジェクトとして好ましい。また、検出対象オブジェクトは、処理対象オブジェクトの少なくとも一部を含んでもよいし、含まなくてもよい。しかし、上述したように、処理対象オブジェクトをユーザは狙って撮影するので、処理対象オブジェクトを撮影した時の撮影範囲内に、処理対象オブジェクトに対応付けられる検出対象オブジェクトの少なくとも一部が含まれるように、検出対象オブジェクトは撮影対象内に設定される。あるいは、後述するように、撮影対象に処理対象オブジェクトと所定の関係を保つように配置され、かつ、処理対象オブジェクトの視認性を損なわないように、検出対象オブジェクトを撮影対象内に予め埋め込んでおいてもよい。
【0033】
たとえば、撮影対象(カタログの紙面)内の処理対象オブジェクト(商品)の画像が、小さかったり、ほとんど模様のない真っ白なものだったりした場合に、撮影画像から処理対象オブジェクトの特徴情報を抽出しても、予め登録されている商品画像との照合による認識精度を保つのに十分な情報量を得ることができない。そのため、そのような処理対象オブジェクトを撮影画像から認識することが困難であるため、本発明では、撮影画像から一定の認識精度を保てる特徴情報が得られるような検出対象オブジェクトを撮影対象内に設定する。本発明の検出対象オブジェクトは、一般的な、撮影対象の位置検出のために設けられるマーカ(たとえば、対象枠の四隅に設けられるマーカ)とは異なり、撮影対象に含まれる処理対象オブジェクトに応じて、配置、範囲、特徴情報量等を変えることができ、ユーザには、その存在を認知させないようにすることもできる。検出対象オブジェクトの設定の仕方は、後述する実施形態で詳細に説明するように、様々考えられる。
【0034】
また、検出対象オブジェクトは、撮影対象に含まれる少なくとも一部の画像領域の特徴情報で示すことができる。対応する領域の画像データそのものであってもよいし、画像領域を基に画像認識のために抽出または生成された特徴情報であってもよい。特徴情報は、画像領域の特徴量であり、たとえば、画像領域に含まれる赤色成分の比率、画像領域の平均輝度であってもよい。あるいは、画像領域内で、所定の条件で抽出された特徴点の分布(位置、数)等とすることができ、さらに、抽出された各特徴点が抽出された条件等を示す情報を含んでもよい。特徴情報は、画像認識の手法によって様々な態様が考えられので、使用される手法に応じて適正な情報を採用するものとする。
【0035】
図19(b)に示すように、本実施形態では、たとえば、検出対象オブジェクト情報112は、検出対象オブジェクトを識別するID、検出対象オブジェクトの特徴情報(または検出対象オブジェクトに含まれる複数の特徴点の情報)、および撮影対象内の検出対象オブジェクトの位置(または撮影対象内の検出対象オブジェクトに含まれる複数の特徴点の位置)を含み、検出対象オブジェクト情報112を
図1のデータベース50に保持することができる。
【0036】
ここで、撮影画像とは、上記撮影対象を撮影した結果得られた画像である。撮影対象を撮影して得られる撮影画像は、ユーザが認知している処理対象オブジェクトの一部を少なくとも含み、さらに背景を含むことができる。そして、撮影画像には、一定の画像認識精度を有する範囲で、検出対象オブジェクトの少なくとも一部が含まれるのが好ましい。
【0037】
オブジェクト位置データとは、撮影対象、または撮影画像内の検出対象オブジェクトと、処理対象オブジェクトとの相対位置(配置、および範囲でもよい)を示す。すなわち、オブジェクト位置データは、撮影対象を撮影して得られる撮影画像内における検出対象オブジェクトの位置から、撮影画像内で相対位置にある処理対象オブジェクトを特定するためのデータである。具体的な例については、後述する。
ここで、撮影対象の一部分を撮影した撮影画像の場合、検出対象オブジェクトの撮影画像内の位置から特定できる処理対象オブジェクトのうち、撮影対象に含まれるが、撮影画像には含まれない処理対象オブジェクトも特定できてもよい。なお、オブジェクト位置データは、検出対象オブジェクトと処理対象オブジェクトとの対応関係を示す紐付け情報を少なくとも含んでいればよい。検出対象オブジェクトと処理対象オブジェクトとの対応関係は、1対1、1対複数、複数対1、および複数対複数の少なくとも一つの関係を有する。
【0038】
処理対象オブジェクトに割り当てられた処理とは、マーカ、メニュー、アイコン、操作ボタン(操作受付)等の各種アイテムの表示、ユーザインタフェース機能の実現、検出結果のサーバへの送信、ウインドウ操作等の少なくともいずれかを含むことができる。ここで、マーカとは、たとえば、処理対象オブジェクトである商品画像が認識されたようにユーザに示すために、商品画像を線で囲んだり、商品名等の情報を反転表示させたり、画像や情報をブリンク表示や強調表示させる処理により、画像に重畳して表示させるものである。さらに、マーカを吹き出しの形状で表示し、処理対象オブジェクトに関する情報をその中に表示したり、購入等の処理の受け付けをする操作ボタンを含んでもよい。メニュー、アイコン、操作ボタン等は、処理対象オブジェクトに割り当てられた所定の処理の実行指示をユーザから受け付けるためのものであり、処理条件等の指定をともに受け付けてもよい。
【0039】
さらに、処理対象オブジェクトが認識された結果を受けて、処理対象オブジェクトに割り当てられている所定のURLアドレスに自動的、またはユーザの操作を受け付けて飛び、ウェブサイトをブラウジングさせたり、所定のアプリケーションを起動または終了させたり、他のウインドウを開いたり、切り替えたり、閉じたりする等の処理を含むこともできる。
【0040】
本実施形態では、
図19(c)に示すように、処理対象オブジェクトに割り当てられる処理の処理情報114は、処理を識別するためのID、撮影画像内で処理を実行する位置(または、検出対象オブジェクトとの相対位置)、および処理内容を含み、処理情報114を
図1のデータベース50に保持することができる。そして、
図19(d)に示すように、処理割り当て情報116は、各処理対象オブジェクトに割り当てられる処理を関連付ける情報として、処理対象オブジェクトの処理対象オブジェクトID毎に、処理対象オブジェクトに割り当てられる処理の処理IDが対応付けられて、
図1のデータベース50に保持される。なお、処理対象オブジェクトと処理は、必ずしも1対1で割り当てられる必要はなく、複数対1、1対複数、複数対複数で割り当てられてもよいし、それらの組み合わせでもよい。
【0041】
また、本実施形態では、ユーザが利用する携帯端末として、スマートフォン10を例として説明するが、これに限定されるものではない。たとえば、スマートフォン以外に、携帯電話機、PDA(Personal Digital Assistants)、タブレット端末、ゲーム機、またはその他の電子機器等の携帯移動型の無線通信端末とすることができる。また、本発明の携帯端末は、ユーザが携帯する携帯端末以外にも、店舗または商品展示場等に配備された携帯端末であってもよく、その場に来店または来場したユーザが共通で使用できるような端末であってもよい。
【0042】
以下、本実施形態では、スマートフォン10を用いてカタログ7から商品を注文する例について説明する。
本発明の実施の形態の画像認識装置は、特に、複数の処理対象オブジェクトが並んで配置されているような撮影対象を、少なくとも一部分ずつカメラの向きや位置を変えながら撮影する。そして、スマートフォン10のような携帯サイズの画面をユーザが順次閲覧しながら、処理対象オブジェクトを画像認識のために撮影する。本発明では、ユーザが認知して撮影しているのは、処理対象オブジェクトであるが、画像認識装置100が画像認識により認識するのは検出対象オブジェクトとなる。そして、画像認識装置100は、検出対象オブジェクトが認識できたとき、あたかも、処理対象オブジェクトが認識できたかのように、たとえば、処理対象オブジェクトにマーカを付けて表示する等して、ユーザに通知する。そして、画像認識装置100により特定された処理対象オブジェクトに対応する情報を処理対象オブジェクトと関連付けてスマートフォン10のタッチパネル上に表示したり、スマートフォン10のタッチパネル上で注文等の操作を受け付けたりできる。
【0043】
図4は、本発明の実施の形態に係る画像認識装置100を構成する携帯端末の例として、スマートフォン10のハードウェア構成を示すブロック図である。
図4に示すように、本実施形態のスマートフォン10は、CPU(Central Processing Unit)12と、ROM(Read Only Memory)14と、RAM(Random Access Memory)16と、携帯電話網通信部18と、無線LAN(Local Area Network)通信部20と、操作部22と、操作受付部24と、表示部26と、表示制御部28と、撮像部30と、スピーカ32と、マイク34と、音声制御部36と、を備える。
【0044】
CPU12は、スマートフォン10の各要素とバス40を介して接続され、各要素とともにスマートフォン10全体を制御する。ROM14は、スマートフォン10を動作させるためのプログラムや各種アプリケーションプログラム、それらのプログラムが動作する際に使用する各種設定データなどを記憶するとともに、アドレスデータ、各種コンテンツデータを含むユーザデータを記憶する。RAM16は、プログラムが動作するための作業領域など一時的にデータを記憶する領域を有する。
【0045】
スマートフォン10の各構成要素は、上述したCPU12、RAM16、RAM16にロードされた
図3の構成要素を実現するプログラム、そのプログラムを格納するROM14、ネットワーク接続用インタフェース(携帯電話網通信部18、無線LAN通信部20)を有する任意のコンピュータのハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下に説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
【0046】
なお、前述のROM14およびRAM16は、フラッシュメモリやディスクドライブなど、アプリケーションプログラムおよびプログラムが動作するための設定データや一時保存データ、ユーザデータなどを記憶するための機能を有する他のデバイスであってもよい。
【0047】
操作部22は、操作キー、操作ボタン、スイッチ、ジョグダイヤル、タッチパッド、表示部26と一体になったタッチパネルなどを含む。操作受付部24は、ユーザによる操作部22の操作を受け付け、CPU12に通知する。表示部26は、LED(Light Emitting Diode)表示器や、液晶ディスプレイ、有機EL(ElectroLuminescence)ディスプレイなどを含む。表示制御部28は、CPU12からの指示に従い、表示部26に各種画面表示を行う。音声制御部36は、CPU12からの指示に従い、スピーカ32から音声出力、およびマイク34から音声入力を行う。
【0048】
携帯電話網通信部18は、携帯電話網用アンテナ19を介して、たとえば、3G(3rd Generation:第3世代携帯電話)方式で、携帯通信網(不図示)に基地局(不図示)を介して接続して通信する。スマートフォン10は、携帯通信網からインターネット等のネットワーク3(
図1)に接続し、サーバ装置60(
図1)と通信できる。
【0049】
無線LAN通信部20は、無線LAN用アンテナ21を介して、たとえば、IEEE 802.11規格に準拠した方式で、中継装置(不図示)と無線LAN通信を行う。本実施形態では、スマートフォン10は、無線LAN通信部20で室内に設置された中継装置(不図示)と無線LAN通信を行い宅内ネットワーク(不図示)に接続し、宅内ネットワークを介してインターネット等のネットワーク3(
図1)に接続し、サーバ装置60(
図1)と通信できる。
【0050】
スマートフォン10は、本発明の実施の形態に係る画像認識装置100を実現するためのアプリケーションプログラムを予めインストールし実行することで、画像認識装置100の少なくとも一部の機能を実現させることができる。あるいは、ウェブサーバ(不図示)上にウェブページを設け、ユーザがスマートフォン10を用いてアクセスすることで、画像認識装置100の機能をスマートフォン10が利用することができる。
【0051】
図5は、本発明の実施の形態に係る画像認識装置100を構成するサーバ装置60のハードウェア構成を示すブロック図である。
本実施形態のサーバ装置60は、データベース50(
図1)に接続されるサーバコンピュータやパーソナルコンピュータ、またはそれらに相当する装置により実現することができる。また、仮想サーバなどにより構成されてもよい。
【0052】
本実施形態の通信販売システム1のサーバ装置60の各構成要素は、CPU62、RAM66、RAM66にロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するROM64、ネットワーク接続用インタフェースを含むI/O(Input/Output)68を有する任意のコンピュータのハードウェアとソフトウェアの任意の組合せによって実現される。CPU62は、サーバ装置60の各要素とバス69を介して接続され、各要素とともにサーバ装置60全体を制御する。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下に説明する各図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。なお、サーバ装置60は、I/O68を介して図示されない入出力装置と接続することもできる。
【0053】
本実施形態において、スマートフォン10は、複数の商品の画像を提示する撮影対象(
図2のカタログ7)の少なくとも一部が撮像部30(
図4)により撮像された映像データを逐次取得する。たとえば、ユーザは、カタログ7にスマートフォン10をかざし、カタログ7等に提示されている複数の商品の画像の少なくとも一部をスマートフォン10の表示部26(
図4)にリアルタイム映像としてプレビュー画面9(
図2)上にライブビュー表示させる。
たとえば、本実施形態のスマートフォン10の場合、映像データのサイズは、スマートフォン10の携帯端末サイズの画面に表示されるサイズとなる。
【0054】
上記実施形態のスマートフォン10は、内蔵または接続されたカメラにより撮像部を実現する構成としたが、これには限定されない。他の実施形態において、撮像部は、サーバ装置60により実現することもできる。サーバ装置60の撮像部が取得した映像データを、ユーザのスマートフォン10にストリーミング配信し、スマートフォン10の表示部26(
図4)に表示させてもよい。また、スマートフォン10側からサーバ装置60を遠隔操作して映像を操作しながら、サーバ装置60側で撮影した映像データをスマートフォン10にストリーミング配信して表示させてもよい。あるいは、店舗のショーウインドウをライブカメラで、スマートフォン10から遠隔操作して撮影した映像をサーバ装置60経由でスマートフォン10にストリーミング配信して表示させてもよい。
【0055】
本発明の実施の形態に係る画像認識装置100において、上述したオブジェクト位置データも、データベース50にさらに保持することができる。
図20(a)に示すように、オブジェクト位置データ118は、一例として、撮影対象内の検出対象オブジェクトIDと、その位置情報(または検出対象オブジェクトに含まれる複数の特徴点の位置)と、検出対象オブジェクトに対応付けられた処理対象オブジェクトIDと、検出対象オブジェクトと処理対象オブジェクトの相対位置(または、検出対象オブジェクトに含まれる複数の特徴点の位置と処理対象オブジェクトとの相対位置)とを対応付けて保持することができる。
【0056】
ここで、検出対象オブジェクトの位置情報は、以下の情報の少なくともいずれか、または、これらの組み合わせで示すことができる。
(a1)撮影対象内の少なくとも一つの検出対象オブジェクトに対応する画像領域の絶対位置(たとえば、画像領域の所定の位置(重心、中心、端点等)座標等で)を示す情報
(a2)撮影対象内の検出対象オブジェクトに対応する画像領域内に含まれる複数の特徴点の、撮影対象内の絶対位置を(たとえば、座標等で)示す情報
(a3)撮影対象内の複数の検出対象オブジェクトに対応する画像領域同士の相対位置を(たとえば、特徴量と位置関係を示すベクトル量等で)示す情報
【0057】
たとえば、雑誌の紙面が撮影対象であった場合に、雑誌の紙面の左下角を座標軸の基準点(0,0)と定め、(a1)では、紙面上に配置される検出対象オブジェクトに対応する2つの画像領域R1およびR2の重心を、座標(x1,y1)および(x2,y2)でそれぞれ示すことができる。(a2)では、たとえば、上記検出対象オブジェクトに対応する画像領域R1およびR2にそれぞれ含まれる複数の特徴点f11、f12、f13およびf21、f22の位置を、座標(x11,y11)、(x12,y12)、(x13,y13)および(x21,y21)、(x22,y22)でそれぞれ示すことができる。なお、検出対象オブジェクトに対応する画像領域の数や特徴点の数はこれに限定されるものではない。
(a3)では、たとえば、上記検出対象オブジェクトに対応する画像領域R1およびR2の重心の座標(x1,y1)および(x2,y2)を結ぶ直線の向きと長さを示すベクトルで、画像領域R1およびR2の重心の相対位置を互いに示してもよい。さらに、画像領域R1およびR2の特徴量をそれぞれベクトルに含めてもよい。
【0058】
また、処理対象オブジェクトの位置を示す情報は、以下の情報の少なくともいずれか、または、これらの組み合わせで示すことができる。
(b1)撮影対象内の処理対象オブジェクトの画像領域の絶対位置を(たとえば、画像領域の所定の位置(重心、中心、端点等)座標等で)示す情報
(b2)処理対応オブジェクトに割り当てられた処理を実行する、撮影対象内または撮影画像内の位置を(たとえば、座標等で)示す情報
(b3)撮影対象内の複数の処理対象オブジェクトの画像領域同士の相対位置を(たとえば、特徴量と位置関係を示すベクトル量等で)示す情報
【0059】
また、
図20(a)の例では、オブジェクト位置データ118において位置データを保持する対象となる検出対象オブジェクトを示す情報は、検出対象オブジェクトIDであるが、これに限定されない。たとえば、検出対象オブジェクトの画像領域の画像データそのもの、別途保持されるその画像データの格納場所とファイル名(パス)、検出対象オブジェクトの画像領域の特徴情報、およびその画像領域に含まれる複数の特徴点の情報の少なくともいずれか、またはこれらの組み合わせとしてもよい。
【0060】
さらに、オブジェクト位置データ118に含まれる処理対象オブジェクトを示す情報は、
図20(a)の例では、処理対象オブジェクトIDであるが、これに限定されない。たとえば、カタログ7に提示されている(撮影対象内の)商品の画像データそのもの、および別途保持されるその画像データの格納場所とファイル名(パス)、の少なくともいずれか、またはこれらの組み合わせとしてもよい。
【0061】
たとえば、
図20(b)に示すように、検出対象オブジェクトの画像領域の位置を示す情報と、処理対象オブジェクトの画像データの画像領域の位置を示す情報とに基づき、検出対象オブジェクトと処理対象オブジェクトの相対位置を示す情報としてオブジェクト位置データ118は保持することができる。
【0062】
あるいは、
図20(c)に示すように、オブジェクトの位置情報は含まず、オブジェクト対応データ122として、検出対象オブジェクトIDと処理対象オブジェクトIDの対応を示す情報を、データベース50に保持してもよい。そして、
図19(a)の処理対象オブジェクト情報110および
図19(b)の検出対象オブジェクト情報112とオブジェクト対応データ122とを組み合わせて、オブジェクト位置データ118を構成してもよい。
【0063】
さらに、
図20(d)に示すように、オブジェクト対応データ122として、検出対象オブジェクトIDと処理IDの対応を示す情報を、データベース50に保持してもよい。そして、
図19(a)の処理対象オブジェクト情報110および
図19(c)の処理情報114とオブジェクト対応データ122(
図20(d))とを組み合わせて、オブジェクト位置データ118を構成してもよい。
【0064】
上述したように、オブジェクト位置データ118は、撮影対象、または撮影画像内の検出対象オブジェクトと、処理対象オブジェクトとの相対位置(配置、および範囲でもよい)を示すが、さらに、オブジェクト位置データ118には、処理対象オブジェクトに対応付けられる、撮影対象内の検出対象オブジェクトの画像領域に含まれる特徴点同士の相対位置の情報として保持されてもよい(
図20(a))。検出対象オブジェクトの画像領域に含まれる複数の特徴点は、検出対象オブジェクトの画像領域の中心等の所定の場所を基準として、互いの相対位置を示すことができる。さらに、オブジェクト位置データ118には、処理対象オブジェクトに割り当てられる処理、たとえば、マーカ表示処理の表示位置(この例では、処理対象オブジェクトである商品画像を囲む枠の位置となる)が、検出対象オブジェクト(または、その画像領域に含まれる複数の特徴点)との相対位置として保持されてもよい(
図20(b))。
【0065】
以下、処理対象オブジェクトに割り当てられる処理が、カタログに掲載された処理対象オブジェクトである商品画像にマーカを表示する処理である場合を例に説明するが、上述したように、これに限定されるものではない。
なお、検出対象オブジェクト(または、その画像領域に含まれる複数の特徴点)に一つまたは複数のマーカ(の表示位置)が対応付けられる場合、上述した検出対象オブジェクトの位置を示すいずれかの位置情報と、対応するマーカの表示位置との相対位置をオブジェクト位置データ118に含むことができる。
なお、検出対象オブジェクトまたはマーカ表示位置(処理を実行する位置)は、互いの相対位置以外に、撮影範囲が予め特定可能な場合には、所定の撮影範囲内における配置として保持してもよい。
【0066】
ここで、マーカとは、たとえば、スマートフォン10がカタログ7上の商品画像を認識したことをユーザに通知するためのマーク、枠、吹き出し、アイコンまたは画像処理等である。マーカの種類や形状により、処理対象オブジェクトに対し、どの位置に表示するか等は、適宜指定できる。さらに、表示位置とともに、マーカのサイズや属性等をオブジェクト位置データに含んでもよい。たとえば、マーカが、処理対象オブジェクトを囲む矩形の枠の場合、枠の左上角の位置と縦、横のサイズ、または枠の中心の位置と対角線の傾きと中心からの長さ等をマーカ表示位置の情報とすることができる。
【0067】
図6に示すように、処理対象オブジェクトがカタログ7等の商品画像の場合、その商品画像(処理対象オブジェクト)に対応する商品の情報を商品テーブル120としてデータベース50に保持することができる。商品テーブル120は、たとえば、商品の識別情報として商品ID、商品の名称、商品(処理対象オブジェクト)の画像情報を示す画像ID、処理対象オブジェクトに対応付けて撮影画面上に表示されるマーカを識別するマーカID(または、処理対象オブジェクトに対応付けられた処理を種別する処理ID)、商品の単価、販売税込み価格、商品の割引情報、商品に関連するクーポン情報等を含むことができる。なお、マーカIDは、商品毎に設定するのではなく、カタログ7毎、ページ毎や、商品のシリーズ毎等としてもよい。また、画像IDも必ずしも商品毎に設定する必要はなく、異なる商品を有する同シリーズの商品、同じページ内、または所定の領域内に含まれる異なる商品に、同じ画像ID(処理対象オブジェクト)が割り当てられてもよい。すなわち、本実施形態の画像認識装置100は、画像IDに対応する複数の商品(処理対象オブジェクト)、さらに、各商品(処理対象オブジェクト)に割り当てられるマーカID(処理)を対応付けたテーブル(不図示)を備えてもよい。
【0068】
本実施形態において、データベース50は、マーカIDに対応付けられたマーカの情報をさらに保持することができる。なお、本実施形態では、処理対象オブジェクトに対応する処理がマーカ表示であるため、マーカの情報を保持しているが、他の処理が対応付けられている場合は、対応する処理に関連する各種情報を保持することができる。
マーカの情報として、マーカの種類(マーク、テキスト、枠、吹き出し、アイコン、ポップアップウインドウ、操作メニュー、置き換え画像、画像処理等)、表示形式(点滅、3D、ズーム、色替え、アニメーション等)、形状、サイズ、色、柄等のマーカの属性に関する情報をマーカIDまたは画像IDに対応付けてデータベース50に保持することができる。あるいは、特定された処理対象オブジェクトのみをクローズアップするように、特定された処理対象オブジェクト以外をマスクして、特定された処理対象オブジェクトのみをユーザが注視できるようにしてもよい。
さらに、処理対象オブジェクトに対応する処理の付加情報として、マーカである吹き出しや操作メニューに表示されるコンテンツや操作などの情報を、処理対象オブジェクト(商品ID、または画像ID等)、または、処理(マーカID等)に対応付けてデータベース50に保持してもよい。
【0069】
図3に戻り、本実施形態の画像認識装置100において、オブジェクト特定部102は、画像の少なくとも一部を撮像部30(
図4)により撮像して得られた撮像データから、パターン認識等により、撮影画像内の一定の認識精度が得られる特徴量を有する領域を少なくとも一つ抽出する。そして、オブジェクト特定部102は、データベース50を検索し、抽出された領域の特徴量と一定の精度範囲内で、少なくとも一部が一致する特徴量を有する検出対象オブジェクトを特定する。このとき、オブジェクト特定部102は、抽出された領域に含まれる複数の特徴点を抽出し、抽出された各特徴点の位置情報を含むパラメータ情報に基づいて、検出対象オブジェクトを特定してもよい。認識精度は、画像認識処理精度や撮影対象物により適宜最適値を用いるのが望ましい。
【0070】
本実施形態において、オブジェクト特定部102は、撮像データから複数の検出対象オブジェクトを同時に識別できることが望ましい。
【0071】
なお、撮影対象(撮影画像)内から画像認識により得られる所定の閾値以上の特徴量を有する領域は、処理対象オブジェクト、検出対象オブジェクト、およびその他の領域の少なくともいずれかの画像領域が含まれる。オブジェクト特定部102は、画像認識により得られる領域の特徴情報を、データベース50内の検出対象オブジェクトの特徴情報と照合することで、検出対象オブジェクトを認識できる。
【0072】
オブジェクト特定部102は、スマートフォン10またはサーバ装置60のいずれかで実現することができる。本実施形態では、オブジェクト位置データ、商品テーブル120(処理対象オブジェクトの情報)、またはマーカ(処理内容)の情報等は、データベース50に保持される構成としているが、これに限定されない。たとえば、これらの情報の少なくとも一部は、スマートフォン10のROM14またはスマートフォン10に装着されるスマートフォン10が読み取り可能な記録媒体(以下、両者を略して「スマートフォン10のメモリ」とも呼ぶ)に保持することができる。
【0073】
また、通信販売システム1では、スマートフォン10に、これらの情報の更新情報をサーバ装置60から送信し、スマートフォン10にて更新できる構成としてもよい。あるいは、通信販売システム1では、ユーザがスマートフォン10を用いて必要な情報、たとえば、カタログ番号や商品分野や種別等を指定し、指定したカタログの情報を選択的にサーバ装置60からスマートフォン10にダウンロードして格納する構成としてもよい。
【0074】
そして、処理部104は、オブジェクト位置データを参照し、認識された検出対象オブジェクトの位置に対応付けられた位置にある処理対象オブジェクトを特定し、特定された処理対象オブジェクトに対応するマーカの表示位置を取得する。なお、本実施形態では、オブジェクト特定部102が、撮影画像から検出対象オブジェクトを特定し、処理部104が、検出対象オブジェクトに対応する処理オブジェクトを特定するが、オブジェクト特定部102または処理部104は、必ずしも「処理対象オブジェクト」を特定する必要はない。処理部104が、オブジェクト位置データに基づき、検出対象オブジェクトに対応する処理対象オブジェクトに割り当てられた処理を特定できればよい。
【0075】
本実施形態では、処理対象オブジェクトに割り当てられる処理は、処理対象オブジェクトへのマーカ表示であり、処理部104は、取得した表示位置で、処理対象オブジェクトに対応するマーカを表示する。
本実施形態において、処理部104は、撮影画像から複数の処理対象オブジェクトを特定し、複数の処理対象オブジェクトに対応する複数のマーカを同時にスマートフォン10の画面上に表示できることが望ましい。
【0076】
ここで、処理対象オブジェクトの周囲も含めた領域を、検出対象オブジェクトとして、処理対象オブジェクトに対応付けてオブジェクト位置データに保持する例について説明する。この構成例は、処理対象オブジェクトの特徴情報量が少なく画像認識精度が低くなる、または処理対象オブジェクトのサイズが小さく認識が困難になるような場合に、特に有効である。
【0077】
本実施形態において、データベース50には、撮影対象内の処理対象オブジェクトの周囲も含めた領域内の特徴情報(画像領域の特徴量等)が、検索対象オブジェクトの情報として保持される。あるいは、データベース50は、検出対象オブジェクトの特徴情報として、撮影対象内の当該領域内に含まれる特徴点の情報を保持してもよい。
画像認識装置100の処理部104が、画像認識により撮影対象から抽出された所定の特徴量を有する領域に基づいて、データベース50を検索する。そして、データベース50に検出対象オブジェクトとして保持される処理対象オブジェクトの周囲も含めた領域内に含まれる特徴量と、少なくとも一部が一致する特徴量を有する撮影画像内の検出対象オブジェクトがあった場合、処理部104が、オブジェクト位置データに基づき、撮影画像内の検出対象オブジェクトの特徴量を有する画像領域の位置から、相対位置にある、処理対象オブジェクトを特定する。そして、処理部104が、特定された処理対象オブジェクトに割り当てられた処理、たとえば、マーカ表示処理を行うためのマーカの表示位置を取得することができる。そして、処理部104は、取得した表示位置に、処理対象オブジェクトに対応するマーカを表示する。
【0078】
図7は、本発明の実施の形態に係る画像認識装置100における処理対象オブジェクトと検出対象オブジェクト(の特徴点)とマーカの関係を説明するための図である。なお、以下の説明において、図中、特徴点を「点(丸)」で示しているが、説明を簡略化するための便宜上の記述であり、特徴点の形状を限定するものではない。
たとえば、処理対象オブジェクトの特徴量が少ない場合について説明する。
図7(a)に示すように、処理対象オブジェクト130において、所定の特徴量を有する特徴点がa1のみの場合、処理対象オブジェクト130の認識精度が低下することが考えられる。また、処理対象オブジェクト130のサイズが小さい場合にも、特徴量が少ない、または特徴点がない等の理由で、認識が困難になることが考えられる。そこで、本実施形態では、処理対象オブジェクト130の周囲も含めた領域132まで、処理対象オブジェクト130に対応付ける検出対象オブジェクトの領域の範囲を広げる。検出対象オブジェクトとしての領域132は、認識精度が所定以上となる特徴量を有するように決めるのが望ましい。
【0079】
すなわち、
図7(a)に示すように、処理対象オブジェクト130に対して、複数の特徴点a1〜a7が、検出対象オブジェクトとされて、それらの特徴点の情報がオブジェクト位置データに保持されることになる。特徴点a1〜a7の各々の特徴量とともに、特徴点同士の相対位置が、検出対象オブジェクトとして、処理対象オブジェクト130(の相対位置)に対応付けられてオブジェクト位置データに保持されることとなる。さらに、本実施形態では、処理対象オブジェクト130に関連付けて、マーカ136の表示位置もオブジェクト位置データに保持される。
本実施形態において、データベース50は、処理対象オブジェクトの周囲も含めた領域内に含まれる特徴点、およびその相対位置(撮影対象(撮影画像)内の検出対象オブジェクトの情報)と、処理対象オブジェクトに対応するマーカの表示位置を予めオブジェクト位置データに保持する。
【0080】
ここで、複数の処理対象オブジェクトが隣接して存在する場合には、異なる処理対象オブジェクトに同じ検出対象オブジェクトが重複して対応付けられることもありうる。その場合、処理部104により、撮影画像から検出された検出対象オブジェクトに対応する複数の処理対象オブジェクトが特定される。
【0081】
また、オブジェクト特定部102は、処理対象オブジェクト130の周囲も含めた領域132内の少なくとも一部に対する特徴点、およびその相対位置を抽出する。たとえば、
図7(b)に示すように、スマートフォン10をかざして、処理対象オブジェクト130を含む撮影対象の少なくとも一部を撮影すると、たとえば、撮影画像の撮影範囲134に含まれる特徴点a1、a4、a5、a6、a7が抽出され、それらの相対位置が求められる。このとき、検出対象オブジェクトに対応する領域132のうち、撮影された少なくとも一部の領域の特徴量も抽出される。
【0082】
画像認識装置100において、オブジェクト特定部102は、画像認識により抽出された特徴点a1、a4、a5、a6、a7、およびその相対位置と、データベース50(オブジェクト位置データ)の検出対象オブジェクトの特徴情報を照合し、少なくとも一部が一致したとき、撮影画像内の検出対象オブジェクトの位置を認識する。そして、処理部104は、オブジェクト位置データに基づき、認識された検出対象オブジェクトの位置から、相対位置にある処理対象オブジェクト130を特定する。そして、処理部104が、特定された処理対象オブジェクト130に割り当てられた処理としてマーカ表示を行うための情報であるマーカ136の表示位置を取得する。
【0083】
このように、特徴点a1、a4、a5、a6、a7、およびその相対位置に基づいて、処理対象オブジェクト130の周囲を含む領域132に含まれる複数の特徴点a1〜a7の少なくとも一部の特徴点a1、a4、a5、a6、a7が検出されたことで、オブジェクト特定部102は、領域132(検出対象オブジェクト)の少なくとも一部が撮影されたことを認識し、処理部104は、認識された領域132(検出対象オブジェクト)に対応する処理対象オブジェクト130を特定することができる。そして、処理部104は、検出された特徴点a1、a4、a5、a6、a7の相対位置(撮影対象(撮影画像)内の検出対象オブジェクトの情報)に基づいて特定された処理対象オブジェクト130に割り当てられた処理、ここではマーカ表示処理を行うために、マーカ136の表示位置138を取得する。
処理部104は、
図7(c)に示すように、取得した表示位置138を基準として、処理対象オブジェクト130に対応するマーカ136を撮影範囲134内に表示する。
【0084】
また、本実施形態の画像認識装置100は、構成要素を、任意の組み合わせで、スマートフォン10と、サーバ装置60に分担させて配置する構成であってもよい。
【0085】
具体的には、画像認識装置100は、以下の機能を実現する。
(a)撮影画像から一定の認識精度が得られる特徴量を有する領域を画像認識により抽出する機能
(b)撮像画像から抽出された領域の特徴情報を、データベース50の検出対象オブジェクトの特徴情報と照合する。そして、閾値以上、一致する検出対象オブジェクトがあったとき、撮影画像に検出対象オブジェクトが含まれることを認識する機能
(c)オブジェクト位置データに基づき、撮影画像に含まれると認識された検出対象オブジェクトの位置から、相対位置にある処理対象オブジェクトを特定する機能
(d)特定された処理対象オブジェクトに割り当てられた処理として、マーカ表示処理のためのマーカの表示位置を取得する機能
(e)取得した表示位置に、処理対象オブジェクトに対応するマーカを表示する機能
なお、上記(c)、(d)の代わりに、(b)で認識された検出対象オブジェクトの位置から、処理対象オブジェクトに割り当てられた処理を特定する機能としてもよい。すなわち、処理対象オブジェクトを特定せずに、処理だけ行ってもよい。
【0086】
この場合に、たとえば、以下の10通りの機能分担の組み合わせ方法が考えられる。
(1)全ての機能をスマートフォン10で実現する。
(2)機能(a)をスマートフォン10で実現し、結果をサーバ装置60に送信し、機能(b)〜(e)をサーバ装置60で実現する。
(3)機能(a)〜(b)をスマートフォン10で実現し、結果をサーバ装置60に送信し、機能(c)〜(e)をサーバ装置60で実現する。
(4)機能(a)〜(c)をスマートフォン10で実現し、結果をサーバ装置60に送信し、機能(d)〜(e)をサーバ装置60で実現する。
(5)機能(a)〜(d)をスマートフォン10で実現し、結果をサーバ装置60に送信し、機能(e)をサーバ装置60で実現する。
(6)全ての機能をサーバ装置60で実現する。
(7)機能(a)をサーバ装置60で実現し、抽出された領域をサーバ装置60から受信し、機能(b)〜(e)をスマートフォン10で実現する。
(8)少なくとも機能(b)をサーバ装置60で実現し、特定された検出対象オブジェクトをサーバ装置60から受信し、機能(c)と(e)をスマートフォン10で実現する。
(9)少なくとも機能(b)および(c)をサーバ装置60で実現し、特定された処理対象オブジェクトをサーバ装置60から受信し、機能(d)と(e)をスマートフォン10で実現する。
(10)少なくとも機能(d)をサーバ装置60で実現し、マーカ表示位置をサーバ装置60から受信し、機能(e)をスマートフォン10で実現する。
【0087】
また、サーバ装置60側で撮影した映像データをスマートフォン10にストリーミング配信して表示させるなどのパターンの場合に、上記具体例のスマートフォン10とサーバ装置60を入れ替えた場合の構成なども考えられる。
【0088】
また、画像認識装置100に、たとえば、カメラなどで撮影された現実環境に、コンピュータを用いて情報を付加提示することができる拡張現実感(Augmented Reality:AR)という技術を適用することもできる。ARを用いれば、スマートフォン10等のカメラで撮影した映像の上で処理対象オブジェクトが特定された領域をXY平面とする三次元座標系を認識し、対応するマーカをたとえば、3Dのオブジェクトとして表示部26上に表示させることも可能である。
【0089】
本実施形態の画像認識装置100において、処理対象オブジェクトに対応するマーカは、処理対象オブジェクトに対するユーザの操作を受け付けるユーザインタフェース機能を有してもよい。
画像認識装置100は、処理部104が表示した処理対象オブジェクトに対応するマーカのユーザインタフェース機能を用いたユーザの操作を受け付ける受付部をさらに備えてもよい。
【0090】
画像認識装置100において、受付部が受け付けた操作に呼応して、所定の処理、たとえば、選択操作された商品購入処理等を行う指示として出力してもよい。
【0091】
本実施の形態の画像認識装置100では、コンピュータプログラムに対応する各種の処理動作をスマートフォン10またはサーバ装置60のCPUが実行することにより、前述のような各種ユニットが各種機能として実現される。
本実施形態のコンピュータプログラムは、画像認識装置100を実現させるためのコンピュータに、撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定する手順、撮影対象内の検出対象オブジェクトと、撮影対象に応じて所定の配置で設定され、かつ、撮影対象に応じた特徴を有する処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づいて、特定された検出対象オブジェクトの撮影画像内での位置から、その相対位置にある、撮影画像内の処理対象オブジェクトを特定し、特定された処理対象オブジェクトに割り当てられた処理を実行する手順、を実行させるように記述されている。
【0092】
なお、上記コンピュータプログラムでは、処理を実行する手順は、特定された検出対象オブジェクトの撮影画像内での位置から、その相対位置にある、撮影画像内の処理対象オブジェクトを特定し、特定された処理対象オブジェクトに割り当てられた処理を実行している。しかし、処理対象オブジェクトの位置の特定は必ずしも必要なく、少なくとも処理対象オブジェクトが特定できればよい。
したがって、上記処理を実行する手順に替えて、たとえば、本発明のコンピュータプログラムは、コンピュータに、撮影対象内の検出対象オブジェクトの位置情報と、撮影対象に応じて所定の配置で設定され、かつ、撮影対象に応じた特徴を有する処理対象オブジェクトとを関連付けるオブジェクト位置データに基づいて、特定された検出対象オブジェクトの撮影画像内での位置から、関連する撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行するように記述されてもよい。
【0093】
本実施形態のコンピュータプログラムは、コンピュータで読み取り可能な記録媒体に記録されてもよい。記録媒体は特に限定されず、様々な形態のものが考えられる。また、プログラムは、記録媒体からコンピュータのメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
【0094】
上述のような構成において、本実施の形態の画像認識装置100の処理方法を以下に説明する。
図8は、本実施形態の画像認識装置100の動作の一例を示すフローチャートである。
本発明の実施の形態に係る画像認識装置100の処理方法は、画像認識装置100が、撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定し(ステップS11)、撮影対象内の検出対象オブジェクトと、撮影対象に応じて所定の配置で設定され、かつ、撮影対象に応じた特徴を有する処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づいて、特定された検出対象オブジェクトの撮影画像内での位置から、その相対位置にある、撮影画像内の処理対象オブジェクトを特定し(ステップS13)、特定された処理対象オブジェクトに割り当てられた処理を実行する(ステップS15)。
【0095】
より具体的には、
図9に示すように、画像認識装置100において、画像の少なくとも一部を、撮像部30(
図4)により撮像して(ステップS101)得られた撮像データから、オブジェクト特定部102が、画像認識により、一定の認識精度が得られる特徴量を有する領域を抽出する(ステップS103)。そして、オブジェクト特定部102が、撮像データから画像認識により抽出された領域の特徴情報に基づいて、データベース50内を検索する(ステップS105)。そして、オブジェクト特定部102が、抽出された領域の特徴情報が閾値以上一致する検出対象オブジェクトをデータベース50内に見つけたとき(ステップS107のYES)、検出対象オブジェクトを特定する(ステップS109)。そして、処理部104が、オブジェクト位置データに基づき、その検出対象オブジェクトの位置から、相対位置にある処理対象オブジェクトを特定する(ステップS111)。そして、処理部104が、特定された処理対象オブジェクトに割り当てられたマーカ表示処理のためのマーカの表示位置を取得し(ステップS113)、取得した表示位置に、処理対象オブジェクトに対応するマーカを表示する(ステップS115)。
【0096】
以上説明したように、本発明の実施の形態の画像認識装置100によれば、処理対象オブジェクトの特徴量が少ない、または、サイズが小さい場合にも、認識精度の低下を防ぐことができる。その理由は、処理対象オブジェクトの周囲を含めた領域を処理対象オブジェクトに対応付けて検出対象オブジェクトとして保持し、処理対象オブジェクトを検出するのではなく、検出対象オブジェクトを検出して、処理対象オブジェクトを特定することができるからである。言い換えれば、処理対象オブジェクト自体の画像認識処理において良好な結果が得られない画像であっても、本実施形態の画像認識装置100によれば、処理対象オブジェクトに応じて設定される検出対象オブジェクトを画像認識により特定した後、処理対象オブジェクトを特定するので、処理対象オブジェクトを正確に特定し、さらに、マーカを適切な位置に表示する等、処理対象オブジェクトに割り当てられた処理を適切に行うことができる。
【0097】
また、本発明の実施の形態において、処理対象オブジェクトの画像の全体に関する情報をデータベース50に保持するのではなく、処理対象オブジェクトに対応する検出対象オブジェクトとして撮影対象の少なくとも一部の領域をデータベース50に保持する構成としたことで、保持に必要な記憶容量を大幅に削減することができる。また、本発明の実施の形態の画像認識装置100は、処理対象オブジェクトの画像の全体に関する情報を用いてデータベース50の画像との照合処理を行う場合と比較して、一部の領域に相当する検出対象オブジェクトの照合処理を行うだけでよいので、認識処理速度が格段に向上する。
【0098】
(第2の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、撮影対象内において、認識しやすい領域を検出対象オブジェクトとして用いる点で相違する。本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
【0099】
図10は、本発明の実施の形態に係る画像認識装置100における処理対象オブジェクトと検出対象オブジェクトとマーカ(処理位置)の関係を説明するための図である。
処理対象オブジェクトとしてたとえば、4つの画像が隣接しているとする。各画像の特徴点は複数存在する。たとえば、
図10(a)に示すように、マーカ136Aで示される処理対象オブジェクトに対応する特徴点は、a11〜a13である。マーカ136Bで示される処理対象オブジェクトに対応する特徴点は、b1〜b3である。マーカ136Cで示される処理対象オブジェクトに対応する特徴点は、c1〜c4である。マーカ136Dで示される処理対象オブジェクトに対応する特徴点は、d1〜d3である。
【0100】
複数の画像毎に、これらの特徴点の情報を検出対象オブジェクトとして、それぞれ複数の処理対象オブジェクトに対応付けてデータベース50に保持してもよいが、本実施形態では、これら4つの処理対象オブジェクトの共通の特徴点、たとえば、特徴点が密集している領域142の特徴情報を、検出対象オブジェクトとして、複数の処理対象オブジェクトに対応付けてデータベース50に保持する。
【0101】
本実施形態では、たとえば、領域142に含まれる特徴点a11、a12、b1、b2、c1、c2、d1の特徴量と、これらの相対位置を、検出対象オブジェクトとして、複数の処理対象オブジェクトにそれぞれ対応付けてデータベース50に保持する。さらに、各処理対象オブジェクトに割り当てられたマーカ表示処理のためのマーカの表示位置138A〜138Dの相対位置が、処理対象オブジェクトに対応付けてデータベース50に保持される。
ここで、領域142は、特徴量が閾値以上、または尤度が閾値以上の特徴点を含む領域である。
【0102】
本実施形態において、検出対象オブジェクトは、処理対象オブジェクトに応じて、撮影対象内の、予め定められた検出しやすい領域(位置やサイズ)を含む。
本実施形態の画像認識装置100において、オブジェクト特定部102が、認識用の領域142内の少なくとも一部の特徴情報を、画像認識により抽出する。そして、オブジェクト特定部102が、画像認識により抽出された特徴情報に基づいて、データベース50を検索する。そして、オブジェクト特定部102が、撮影画像内の特徴情報が閾値以上一致する特徴情報を有する検出対象オブジェクトをデータベース50内に見つけたとき、その検出対象オブジェクトを特定する。そして、処理部104が、オブジェクト位置データに基づき、その検出対象オブジェクトの位置から、相対位置にある、処理対象オブジェクトを特定する。そして、処理部104が、特定された処理対象オブジェクトに割り当てられたマーカ表示処理のための表示位置を取得する。そして、処理部104、取得した表示位置に、処理対象オブジェクトに対応するマーカを表示する。
【0103】
図10(b)に示すように、スマートフォン10を画像にかざして撮影した場合、オブジェクト特定部102は、たとえば、撮影範囲134内に含まれる特徴点と、その相対位置を抽出する。そして、オブジェクト特定部102が、データベース50を検索し、撮影画像から抽出された特徴点a11、a12、b1、b2、c1、c2、d1の少なくとも一部と一致する検出対象オブジェクトを見つける。そして、処理部104が、オブジェクト位置データに基づき、見つかった検出対象オブジェクト(領域142)の位置から、相対位置にある処理対象オブジェクトを特定する。本実施形態では、4つの処理対象オブジェクトが特定され、処理部104により、4つの処理対象オブジェクトにそれぞれ割り当てられている4つのマーカ136A〜136Dの表示位置138A〜138Dが取得される。
【0104】
画像認識装置100は、4つのマーカを表示位置に基づいて表示してもよいが、
図10(c)に示すように、撮影範囲134の中央にある処理対象オブジェクトについてのみ、マーカ136Aおよび136Bを表示するようにしてもよい。
【0105】
たとえば、
図11に示すように、スマートフォン10をかざして撮影したカタログ7のプレビュー画面9上には、複数の処理対象オブジェクト140A〜140Dにそれぞれ対応する複数のマーカ136A〜136Dが表示されている。このとき、スマートフォン10内部では、撮像データから領域142の少なくとも一部を抽出し、対応する検出対象オブジェクトを特定する。そして、検出対象オブジェクトと対応付けられた、4つの処理対象オブジェクト140A〜140Dが特定される。そして、検出対象オブジェクトの位置に対するマーカの表示位置の相対位置が取得されて、処理対象オブジェクト140A〜140Dにそれぞれ対応する複数のマーカ136A〜136Dが表示される。
【0106】
このように、画像内で認識しやすい部分の特徴情報を、検出対象オブジェクトとして、複数の処理対象オブジェクトに対応付けることで、個々の処理対象オブジェクトの特徴量が少ない場合でも、本発明の画像認識装置は、認識精度の低下を防ぐことができる。
【0107】
なお、
図10では、認識用の領域142は、すべての処理対象オブジェクトを含んでいるが、これに限定されない。認識用の領域142は、処理対象オブジェクト以外の画像内の領域でもよい。あるいは、処理対象オブジェクトの少なくとも一部を含む領域でもよい。
【0108】
たとえば、
図12に示すように、処理対象オブジェクト130A〜130Dの画像の領域以外の認識用の領域142に含まれる特徴点e1〜e5、およびその相対位置を、検出対象オブジェクトとして、データベース50に保持してもよい。そして、処理対象オブジェクト130A〜130Dのマーカ136A〜136Dの表示位置138A〜138Dを、特徴点e1〜e5の相対位置に対応付けてデータベース50に保持してもよい。
【0109】
以上説明したように、本発明の実施の形態の画像認識装置100によれば、上記実施形態と同様な効果を奏する。その理由は、複数の処理対象オブジェクトを含む画像の中から、認識しやすい特徴量を有する画像領域を、処理対象オブジェクトに対応付けられる検出対象オブジェクトとして保持し、処理対象オブジェクトの特定に用いることができるからである。
複数の処理対象オブジェクトに対応する検出対象オブジェクトとして、共通の領域の特徴情報を用いることができるので、処理対象オブジェクト毎に画像の特徴情報をデータベース50に保持する場合に比較して、必要な記憶容量をさらに削減することができる。
【0110】
(第3の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、画像内で隣接する複数の処理対象オブジェクトを含む領域を、検出対象オブジェクトとして用いる点で相違する。本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
【0111】
本発明の実施の形態に係る画像認識装置において、検出対象オブジェクトは、処理対象オブジェクトの周囲を含む領域を、少なくとも一部含む。
さらに、本発明の実施の形態に係る画像認識装置において、検出対象オブジェクトは、複数の処理対象オブジェクト(の相対位置)に紐付けられる。
【0112】
図13は、本発明の実施の形態に係る画像認識装置100における画像認識方法を説明するための図である。
本実施形態の画像認識装置100において、オブジェクト特定部102が、データベース50を検索し、撮影画像から画像認識により抽出された、一定の認識精度が得られる特徴量を有する領域の特徴情報と少なくとも一部が一致する検出対象オブジェクトを見つける。そして、処理部104が、撮影対象内で隣接する複数の処理対象オブジェクト(図では、ソファ、コーヒーテーブル、チェアの3点)を含む隣接対象物領域242内に含まれる検出対象オブジェクト(たとえば、複数の特徴点、およびその相対位置)と、処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づき、見つかった検出対象オブジェクトの位置から、相対位置にある、処理対象オブジェクトを特定する。そして、処理部104が、特定された処理対象オブジェクトに割り当てられたマーカ表示処理のためのマーカの表示位置を取得する。そして、処理部104が、取得した表示位置に、処理対象オブジェクトに対応するマーカ230A〜230Cを表示する。
【0113】
ここで、撮影対象内で「隣接する」処理対象オブジェクトとは、必ずしも互いに接している必要はない。同一認識対象画面上に個別に認識したい処理対象オブジェクト(アイテム)が複数含まれており、認識対象画面上では、個別に認識しづらいような画像、たとえば、処理対象オブジェクト(アイテム)同士や処理対象オブジェクト(アイテム)と背景が紛れて認識が困難な画像等を含む。あるいは、「隣接する」処理対象オブジェクトは、一処理対象オブジェクト(アイテム)が他の処理対象オブジェクト(アイテム)の少なくとも一部を包含している、または重なっているような撮影対象も含む。
【0114】
本実施形態によれば、上記実施形態と同様な効果を奏するとともに、さらに、個別に認識したい処理対象オブジェクト(アイテム)が同一認識対象画面上に混在し、認識しづらいような場合にも個々の処理対象オブジェクト(アイテム)を特定し、対応するマーカを表示することができる。
【0115】
(第4の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、撮影対象内に認識用に埋め込まれた検出対象オブジェクトを用いる点で相違する。本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
【0116】
本発明の実施の形態に係る画像認識装置において、検出対象オブジェクトは、少なくとも検出のための情報を含む。
本実施形態の画像認識装置100において、オブジェクト特定部102が、データベース50を検索し、画像認識により抽出された、一定の認識精度が得られる特徴量を有する領域と少なくとも一部が一致する検出対象オブジェクトを見つける。そして、処理部104が、撮像部による撮影画面内に、少なくとも一部が含まれるように、撮影対象内に予め埋め込まれた認識用の検出対象オブジェクトと、処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づき、見つかった検出対象オブジェクトの位置から、相対位置にある処理対象オブジェクトを特定する。そして、処理部104が、特定された処理対象オブジェクトに割り当てられたマーカ表示処理のためのマーカの表示位置を取得する。そして、処理部104が、取得した表示位置に、処理対象オブジェクトに対応するマーカを表示する。
【0117】
本実施形態において、認識用の検出対象オブジェクトとは、予め故意に撮影対象に埋め込まれた所定の特徴量を有する画像領域である。認識用の検出対象オブジェクトは、たとえば、電子透かし、またはQRコード(登録商標)等の2次元コードでもよい。本実施形態では、撮影対象に応じて、検出対象オブジェクトの位置や、対応する処理対象オブジェクトの位置を、個別に設定することができる。また、撮影対象毎に、一定要件を満たす任意の領域、たとえば、検出対象オブジェクトを埋め込んだ撮影対象を、ユーザが撮影した時に、画像認識により一定の認識精度を得られるような十分な特徴情報を抽出可能な撮影対象内の領域、を検出対象オブジェクトとして設定することができる。
【0118】
この構成によれば、上記実施形態と同様な効果を奏するとともに、検出対象オブジェクトの設定が困難な撮影対象画像の場合(たとえば、一面一色の画像など)にも、故意に認識用の検出対象オブジェクトを埋め込むことで、処理対象オブジェクトを特定でき、マーカを表示できる。また、電子透かしを用いた場合、ユーザには検出対象オブジェクトが見えないので、画像の閲覧の妨げにならない。
【0119】
(第5の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、撮影対象内に複数の検出対象オブジェクトをある程度万遍なく配置されるように複数設定し、それらの検出対象オブジェクトとの相対位置によって撮影対象内に含まれる全ての処理対象オブジェクトを特定可能にする点で相違する。本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
【0120】
本実施形態の画像認識装置100において、検出対象オブジェクトは、撮影画像内に少なくとも1つ含まれるように、撮影対象に配置される。
【0121】
図17および
図18は、本発明の実施の形態に係る画像認識装置100における検出対象オブジェクトが万遍なく配置された状態を説明するための図である。
本実施形態の画像認識装置100において、オブジェクト特定部102が、画像の少なくとも一部分を撮像部により撮影した撮影画面内に、一定の認識精度が得られる特徴量を有する領域が少なくとも一部含まれるように選択された領域を検出対象オブジェクトとして設定して保持するデータベース50を検索する。
図17に示すように、撮影対象(カタログ7)内に複数の処理対象オブジェクト140A、140B、140C、140D、260A、260B、260C、420A、420B、420Cが含まれている時、撮影対象内に複数の検出対象オブジェクト410A、410B、410C、410D、410E、410Fが配置される。このように、撮影対象の中に、検出対象オブジェクトは万遍なく配置される。
【0122】
このとき、検出対象オブジェクト410A、410B、410C、410D、410E、410Fは、想定される撮影画面のサイズを考慮し、撮影画面に少なくともその一部の領域が含まれるように、撮影対象内に万遍なく配置される。
図18の点線で示される撮影範囲430A内に、検出対象オブジェクト410Aが含まれ、撮影範囲をずらして、撮影範囲430Bとなった場合には、検出対象オブジェクト410Bが撮影範囲430B内に含まれる。さらに、撮影範囲を下にずらして、撮影範囲430Cとなった場合には、検出対象オブジェクト410Cが撮影範囲430Cに含まれる。
【0123】
検出対象オブジェクトの配置の決定においては、一定の認識精度を保てるような十分な特徴量が抽出できる領域を選択することに加えて、撮影カメラの視野角と、撮影対象のサイズ、撮影対象とカメラの距離等を考慮するのが好ましい。たとえば、撮影対象とカメラをどのくらい離して撮影するかを示す撮影対象と顔と端末の距離関係では、カタログやメニューの場合、撮影対象〜顔の位置は、せいぜい数10cm程度まで、対象〜スマートフォンの距離は数cm程度と想定できる。これらから、カメラの視野角も考慮して、検出対象オブジェクト間の距離は、適切に設定できる。
【0124】
検出対象オブジェクトは、撮影対象内における、特徴量の分布の情報としてもよい。特徴量の分布とは、撮影対象内における特徴量が大きい領域だけでなく、特徴量が少ない領域、特徴量が中間の領域等の分布を示す。これらの中から、検出対象オブジェクトとして、少なくとも一部の情報が、撮影画像内に含まれるように選択する。そして、このように検出対象オブジェクトが設定された場合には、撮影画像から特徴量の分布を画像認識により取得し、取得した特徴量の分布と少なくとも一部が一致する特徴量の分布を、データベース50から検索して、検索対象オブジェクトを特定してもよい。
また、上記実施形態で説明した認識用の検出対象オブジェクトを、同様に、撮影対象内に万遍なく配置することができる。
【0125】
本実施形態の画像認識装置によれば、上記実施形態と同様な効果を奏するとともに、さらに、撮影対象内に複数の検出対象オブジェクトをある程度万遍なく配置されるように複数設定し、それらの検出対象オブジェクトとの相対位置によって撮影対象内に含まれる全ての処理対象オブジェクトを特定可能にするので、認識精度の低下を防ぎつつ、予め準備する検出対象オブジェクトを必要最低限な数に抑え、効率よく設定することができる。
【0126】
(第6の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、認識対象内のゆがみやすい部分など認識条件が悪化しやすい個所に検出対象オブジェクトを設定しない点で相違する。たとえば、撮影対象が冊子の場合に、綴じ部周辺の湾曲部分(ノド部領域)を除外した領域に検出対象オブジェクトを設定する。
本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
図14は、本発明の実施の形態に係る画像認識装置100における検出対象オブジェクトの分布範囲を説明するための図である。
【0127】
本実施形態において、撮影対象が冊子250の場合、少なくとも一つの検出対象オブジェクトが含まれているとする。
図14では、ある一定の検出精度を有する特徴量を持つ領域(図中、丸で示される)が撮影対象に複数存在している場合を例示している。図示されるように、撮影により検出可能な領域は、実際には冊子250の全面にわたり、万遍なく複数存在している可能性がある。
【0128】
しかし、冊子250の場合、図からも分かるように、綴じ部252の周辺のノド部領域254は、綴じ部252と反対側に当たる見開き側の小口256と比較して、紙面が湾曲している。このため、ノド部領域254では、歪みや光の反射等が起こりやすく、撮影画像の認識精度が低下してしまう可能性が高い。
そこで、本実施形態では、冊子250の紙面全体に存在している複数の領域のうち、綴じ部252の周辺のノド部領域254は除外して少なくとも一つの検出対象オブジェクトを設定する。
【0129】
以上説明したように、本実施形態の画像認識装置によれば、上記実施形態と同様な効果を奏するとともに、さらに、撮影対象が冊子の場合に、綴じ部周辺のノド部領域を除く範囲に検出対象オブジェクトが含まれるように設定するので、認識精度の低下を防ぐことができる。
【0130】
(第7の実施の形態)
本発明の実施の形態に係る画像認識装置は、上記実施形態の画像認識装置100とは、複数の処理対象オブジェクトをリスト形式で示した画像の処理対象オブジェクトを個別に特定する点で相違する。
本実施形態の画像認識装置は、
図3の上記実施形態の画像認識装置100と同様な構成を有するので、以下、
図3を用いて説明する。本実施形態は、上記実施形態とは、データベース50に保持される検出対象オブジェクトが異なる。
【0131】
図15は、本発明の実施の形態に係る画像認識装置による認識処理を説明するための図である。
図15に示すように、本実施形態の画像認識装置において、画像310が、リスト形式で提示される複数の処理対象オブジェクト(複数の文字列を含む画像)320a、320b、および320cを含んでもよい。本実施形態では、検出対象オブジェクトは、たとえば、複数の処理対象オブジェクト320a、320b、および320cを含むリストの少なくとも一部を含む領域内の特徴情報(たとえば、特徴点と、その位置)とすることができる。あるいは、リスト以外の撮影対象内の領域の特徴情報を検出対象オブジェクトとしてもよい。
【0132】
オブジェクト特定部102が、データベース50を検索し、画像認識により抽出された領域の特徴情報と少なくとも一部が一致する検出対象オブジェクトをデータベース50内から見つける。そして、処理部104が、複数の処理対象オブジェクト320a、320b、および320cを含むリストを含む画像310内に含まれる検出対象オブジェクト(特徴点、およびその相対位置)と、リスト形式の各処理対象オブジェクト320a、320b、および320cとの相対位置を示すオブジェクト位置データに基づいて、見つかった検出対象オブジェクトの位置から、相対位置にある各処理対象オブジェクト320a、320b、および320cを特定する。そして、処理部104が、特定された各処理対象オブジェクト320a、320b、および320cに割り当てられたマーカ表示処理のためのマーカの表示位置を取得する。そして、処理部104は、取得した表示位置に、処理対象オブジェクトの各文字列320a、320b、および320cに対応するマーカをそれぞれ表示する。
【0133】
ここで、各処理対象オブジェクトの特定は、
図12を用いて説明した上記実施形態と同様にして行うことができる。
【0134】
さらに、本実施形態の画像認識装置において、リスト形式の各処理対象オブジェクトに対応するマーカは、各処理対象オブジェクトに対するユーザの所定の操作を受け付けるユーザインタフェース機能を有する。
処理部104は、上述したように、複数の処理対象オブジェクト320a、320b、および320cを含むリストを含む撮影画像から、各処理対象オブジェクト320a、320b、および320cを特定し、特定した各処理対象オブジェクト320a、320b、および320cに対応する情報をデータベース50から取得する。
処理部104は、取得した各処理対象オブジェクト320a、320b、および320cに対応する情報に基づいて、各処理対象オブジェクト320a、320b、および320cに対する所定の操作を受け付けるためのユーザインタフェースをマーカの表示位置に表示する。
【0135】
図16は、本実施形態の画像認識装置のグラフィカルユーザインタフェースの例を示す図である。
図16(a)は、ドラム型のユーザインタフェース330の例を示す。
処理部104が、複数の処理対象オブジェクト320a、320b、および320cを含む画像から、各文字列320a、320b、および320cを特定し、特定した各処理対象オブジェクト320a、320b、および320cに対応する情報をデータベース50から取得する。たとえば、各処理対象オブジェクトに対応する文字列の情報を取得し、処理部104が、取得した文字列を選択するためのユーザインタフェース330を、リストを含む画像310に重畳して表示する。
【0136】
文字列の情報は、予めデータベース50に各文字列に対応付けて保持してもよい。あるいは、処理部104が、各処理対象オブジェクトに対応する情報として各処理対象オブジェクトの表示領域を取得し、画像から各処理対象オブジェクトの表示領域を切り取り、OCR(Optical Character Reader)機能を用いて、各処理対象オブジェクトに対応するテキストを抽出して取得してもよい。
【0137】
図16(b)は、ジョグダイヤル型のユーザインタフェース340の例を示す。この例でも、処理部104が取得した文字列を選択するためのユーザインタフェース340を、リストを含む画像310に重畳して表示する。
このように、本実施形態の画像認識装置によれば、一般的に認識が困難な、処理対象オブジェクトに含まれる複数の文字列などの各要素を、画像から抽出した一定の認識精度が得られる特徴量を有する領域の特徴情報に基づいて、それぞれ特定することが可能になる。
そして、画像認識装置では、たとえば、商品名のリストが提示されたチラシなどを撮影して、リスト中の商品名をユーザインタフェースで提示させることができる。これにより、一般的に操作が困難なリスト中の特定の商品の選択操作が容易になる。
【0138】
なお、本発明の画像認識装置は、上記実施形態のいずれかの構成を、矛盾を生じない範囲で組み合わせた構成とすることもできる。たとえば、あるカタログを撮影対象とする場合、カタログの各紙面上の処理対象オブジェクトである各画像の状態、たとえば、画像が小さい、画像の色が薄い(特徴情報量が少ない)、商品画像が背景に埋もれている(識別しづらい)等の個々の状態に応じて、それぞれ上記実施形態のいずれかの構成の中から適切なものを採用し、組み合わせることができる。
【0139】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
たとえば、
図16(a)のユーザインタフェース330において、各要素の選択は、タッチパネル上で、ドラムのスライダをタッチする操作を受け付けることで行ってもよい。または、スマートフォン10の本体を、ドラムの回転方向に前後に倒すことで、ドラムを回転させる操作を受け付けてもよい。
【0140】
また、
図16(b)のユーザインタフェース340において、各要素の選択は、タッチパネル上で、ジョグダイヤルをタッチして回転させる操作を受け付けることで行ってもよい。または、スマートフォン10の本体を、ジョグダイヤルの回転方向に左右に動かすことで、ジョグダイヤルを回転させる操作を受け付けてもよい。
【0141】
また、他の実施形態の画像認識装置において、処理部104は、オブジェクト特定部102により特定される検出対象オブジェクトと、当該検出対象オブジェクトから特定される処理対象オブジェクトとのスケールの差異に応じて、処理対象オブジェクトに割り当てられる処理を制御することができる。
たとえば、撮影対象からスマートフォン10の撮像部30が遠ければ、検出対象オブジェクトは、撮影画像内に小さく写り込み、撮像部30が近ければ大きく写り込む。ここで、撮影画像内に写り込んだ検出対象オブジェクトとは、上述した電子透かしのように、ユーザには見えなくてもよい。その撮影距離に応じて、撮影画像内に写り込んだ検出対象オブジェクトも大きくなり、つまり、検出対象オブジェクトが写り込んだ大きさに応じて、処理対象オブジェクトに対する表示処理の位置とサイズが変化する。さらに、相対位置、またはサイズも変化する。
【0142】
したがって、検出対象オブジェクトに対する処理対象オブジェクトの相対位置は、たとえば、検出対象オブジェクトのある頂点から同じ検出対象オブジェクトの他の1つの頂点を結んだ辺をベクトルとして、このベクトルを基準とした相対的な長さで示されるベクトルデータとして表される。そして、検出された検出対象オブジェクトの基準となる一辺の長さを元に、上記ベクトルデータを用いて、処理対象オブジェクトに対する表示処理の位置とサイズを特定することができる。
【0143】
ここで、処理対象オブジェクトを求めるときの基準となる検出対象オブジェクトの頂点は、画像認識により撮影画像から得られた閾値以上の特徴を有する特徴点を用いてもよいし、あるいは、画像認識により得られた特徴情報とデータベース50との照合により得られた検出対象オブジェクトの特徴点を用いてもよい。
【0144】
また、上記例では、処理対象オブジェクトに対する表示処理のサイズや位置を、検出対象オブジェクトに応じて、適切に変更する例を示したが、他の例として、たとえば、表示される内容を変更することもできる。
たとえば、検出対象オブジェクトが撮影画像内で小さく撮影されている場合、対応する処理対象オブジェクトが複数特定される可能性がある。一方、検出対象オブジェクトが撮影画像内で大きくクローズアップされて撮影されている場合は、特定の処理対象オブジェクトのみが特定される可能性がある。そこで、画像認識装置では、撮影画像内の検出対象オブジェクトが小さい場合は、特定された複数の処理対象オブジェクトのグループ毎の大まかな情報を表示する処理等、複数の処理対象オブジェクトをグループとして紐付けられた処理を行い、撮影画像内の検出対象オブジェクトが大きい場合は、特定の処理対象オブジェクトの詳細な情報を表示する処理を行う等、特定される処理対象オブジェクトのグループ属性等に基づいて、処理を変えて実行させてもよい。
【0145】
より具体的な例では、レストランのメニューを撮影し、撮影されたメニュー画像の上に、あらかじめユーザが登録したアレルギー物質が含まれている際に警告表示を行うアプリケーションの場合に、検出対象オブジェクトが小さく複数の処理対象オブジェクトが映っている場合、つまり遠くから撮影し画面内に複数のメニューが含まれている際には、そのアレルギー物質を含むメニューの領域に赤く塗りつぶした枠を表示する。逆に検出対象オブジェクトが大きい場合(撮影距離が近く、撮影画像内には特定の1つのメニューのみが映っている場合)には、赤く塗りつぶした枠に加えて、「小麦使用」など具体的なアレルギー物質名を表示するように、表示処理を変更することができる。
【0146】
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
なお、本発明においてユーザに関する情報を取得、利用する場合は、これを適法に行うものとする。
【0147】
以下、参考形態の例を付記する。
1. 画像認識装置が、
撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定し、
前記撮影対象内の前記検出対象オブジェクトと、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記撮影画像内での前記位置から、その前記相対位置にある、前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する画像認識装置の処理方法。
2. 画像認識装置が、
撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定し、
前記撮影対象内の前記検出対象オブジェクトの位置情報と、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとを関連付けるオブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記撮影画像内での位置から、関連する前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する画像認識装置の処理方法。
3. 1.または2.に記載の画像認識装置の処理方法において、
前記検出対象オブジェクトは、前記処理対象オブジェクトに応じて、前記撮影対象内の、予め定められた検出しやすい領域を含む画像認識装置の処理方法。
4. 1.乃至3.いずれかに記載の画像認識装置の処理方法において、
前記検出対象オブジェクトは、前記処理対象オブジェクトの周囲を含む領域を、少なくとも一部含む画像認識装置の処理方法。
5. 1.乃至4.いずれかに記載の画像認識装置の処理方法において、
前記検出対象オブジェクトは、複数の前記処理対象オブジェクトに紐付けられる画像認識装置の処理方法。
6. 1.乃至5.いずれかに記載の画像認識装置の処理方法において、
前記検出対象オブジェクトは、少なくとも検出のための情報を含む画像認識装置の処理方法。
7. 1.乃至6.いずれかに記載の画像認識装置の処理方法において、
前記撮影対象が冊子であり、前記検出対象オブジェクトは、前記冊子の綴じ部周辺のノド部領域を除外した領域に含まれる画像認識装置の処理方法。
8. 1.乃至7.いずれかに記載の画像認識装置の処理方法において、
前記処理は、マーカ、吹き出し、メニューの表示、ユーザインタフェース機能の実現、および検出結果のサーバへの送信の少なくとも1つを含む画像認識装置の処理方法。
9. 8.に記載の画像認識装置の処理方法において、
前記処理は、複数の処理対象オブジェクトを選択的に処理可能にするユーザインタフェース機能を実現する処理を含む画像認識装置の処理方法。
10. 1.乃至9.いずれかに記載の画像認識装置の処理方法において、
前記画像認識装置が、
特定される前記検出対象オブジェクトと、当該検出対象オブジェクトから特定される前記処理対象オブジェクトとのスケールの差異に応じて、前記処理対象オブジェクトに割り当てられる処理を制御する画像認識装置の処理方法。
11. 1.乃至10.いずれかに記載の画像認識装置の処理方法において、
前記検出対象オブジェクトは、前記撮影画像内に少なくとも1つ含まれるように、前記撮影対象に配置される画像認識装置の処理方法。
12. 1.乃至11.いずれかに記載の画像認識装置の処理方法において、
前記オブジェクト位置データは、前記検出対象オブジェクトが有する複数の特徴点の前記撮影画像内での位置情報を、前記検出対象オブジェクトの位置を示す情報とし、
前記画像認識装置が、前記オブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記複数の特徴点の前記撮影対象内の位置から、前記撮影対象内の前記処理対象オブジェクトを特定する画像認識装置の処理方法。
13. 1.乃至12.いずれかに記載の画像認識装置の処理方法において、
当該画像認識装置は、携帯端末、または、携帯端末と通信可能なサーバ装置、あるいは、それらの組み合わせである画像認識装置の処理方法。
【0148】
14. 撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定する手順、
前記撮影対象内の前記検出対象オブジェクトと、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記撮影画像内での前記位置から、その前記相対位置にある、前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する手順、をコンピュータに実行させるためのプログラム。
15. 撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定する手順、
前記撮影対象内の前記検出対象オブジェクトの位置情報と、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとを関連付けるオブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記撮影画像内での位置から、関連する前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する手順、をコンピュータに実行させるためのプログラム。
16. 14.または15.に記載のプログラムにおいて、
前記検出対象オブジェクトは、前記処理対象オブジェクトに応じて、前記撮影対象内の、予め定められた検出しやすい領域を含むプログラム。
17. 14.乃至16.いずれかに記載のプログラムにおいて、
前記検出対象オブジェクトは、前記処理対象オブジェクトの周囲を含む領域を、少なくとも一部含むプログラム。
18. 14.乃至17.いずれかに記載のプログラムにおいて、
前記検出対象オブジェクトは、複数の前記処理対象オブジェクトに紐付けられるプログラム。
19. 14.乃至18.いずれかに記載のプログラムにおいて、
前記検出対象オブジェクトは、少なくとも検出のための情報を含むプログラム。
20. 14.乃至19.いずれかに記載のプログラムにおいて、
前記撮影対象が冊子であり、前記検出対象オブジェクトは、前記冊子の綴じ部周辺のノド部領域を除外した領域に含まれるプログラム。
21. 14.乃至20.いずれかに記載のプログラムにおいて、
前記処理は、マーカ、吹き出し、メニューの表示、ユーザインタフェース機能の実現、および検出結果のサーバへの送信の少なくとも1つを含むプログラム。
22. 21.に記載のプログラムにおいて、
前記処理は、複数の処理対象オブジェクトを選択的に処理可能にするユーザインタフェース機能を実現する処理を含むプログラム。
23. 14.乃至22.いずれかに記載のプログラムにおいて、
前記割り当てられた処理を実行する手順において、前記オブジェクト特定手段により特定される前記検出対象オブジェクトと、当該検出対象オブジェクトから特定される前記処理対象オブジェクトとのスケールの差異に応じて、前記処理対象オブジェクトに割り当てられる処理を制御する手順をさらにコンピュータに実行させるためのプログラム。
24. 14.乃至23.いずれかに記載のプログラムにおいて、
前記検出対象オブジェクトは、前記撮影画像内に少なくとも1つ含まれるように、前記撮影対象に配置されるプログラム。
25. 14.乃至24.いずれかに記載のプログラムにおいて、
前記オブジェクト位置データは、前記検出対象オブジェクトが有する複数の特徴点の前記撮影画像内での位置情報を、前記検出対象オブジェクトの位置を示す情報とし、
前記割り当てられた処理を実行する手順において、前記オブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記複数の特徴点の前記撮影対象内の位置から、前記撮影対象内の前記処理対象オブジェクトを特定する手順をさらにコンピュータに実行させるためのプログラム。
26. 14.乃至25.いずれかに記載のプログラムにおいて、
前記コンピュータが当該プログラムを実行することにより実現される画像認識装置は、携帯端末、または、携帯端末と通信可能なサーバ装置、あるいは、それらの組み合わせであるプログラム。
27. 撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定するオブジェクト特定手段と、
前記撮影対象内の前記検出対象オブジェクトと、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとの相対位置を示すオブジェクト位置データに基づいて、前記オブジェクト特定手段により特定された前記検出対象オブジェクトの前記撮影画像内での前記位置から、その前記相対位置にある、前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する処理手段と、
を備える画像認識装置。
28. 撮影対象内に、処理対象オブジェクトに応じて所定の配置で設定され、かつ、前記処理対象オブジェクトに応じた特徴を有する検出対象オブジェクトの、撮影画像内での位置を、画像認識により、特定するオブジェクト特定手段と、
前記撮影対象内の前記検出対象オブジェクトの位置情報と、前記撮影対象に応じて所定の配置で設定され、かつ、前記撮影対象に応じた特徴を有する処理対象オブジェクトとを関連付けるオブジェクト位置データに基づいて、前記オブジェクト特定手段により特定された前記検出対象オブジェクトの前記撮影画像内での位置から、関連する前記撮影画像内の前記処理対象オブジェクトを特定し、特定された前記処理対象オブジェクトに割り当てられた処理を実行する処理手段と、
を備える画像認識装置。
29. 27.または28.に記載の画像認識装置において、
前記検出対象オブジェクトは、前記処理対象オブジェクトに応じて、前記撮影対象内の、予め定められた検出しやすい領域を含む画像認識装置。
30. 27.乃至29.いずれかに記載の画像認識装置において、
前記検出対象オブジェクトは、前記処理対象オブジェクトの周囲を含む領域を、少なくとも一部含む画像認識装置。
31. 27.乃至30.いずれかに記載の画像認識装置において、
前記検出対象オブジェクトは、複数の前記処理対象オブジェクトに紐付けられる画像認識装置。
32. 27.乃至31.いずれかに記載の画像認識装置において、
前記検出対象オブジェクトは、少なくとも検出のための情報を含む画像認識装置。
33. 27.乃至32.いずれかに記載の画像認識装置において、
前記撮影対象が冊子であり、前記検出対象オブジェクトは、前記冊子の綴じ部周辺のノド部領域を除外した領域に含まれる画像認識装置。
34. 27.乃至33.いずれかに記載の画像認識装置において、
前記処理は、マーカ、吹き出し、メニューの表示、ユーザインタフェース機能の実現、および検出結果のサーバへの送信の少なくとも1つを含む画像認識装置。
35. 34.に記載の画像認識装置において、
前記処理は、複数の処理対象オブジェクトを選択的に処理可能にするユーザインタフェース機能を実現する処理を含む画像認識装置。
36. 27.乃至35.いずれかに記載の画像認識装置において、
前記処理手段は、前記オブジェクト特定手段により特定される前記検出対象オブジェクトと、当該検出対象オブジェクトから特定される前記処理対象オブジェクトとのスケールの差異に応じて、前記処理対象オブジェクトに割り当てられる処理を制御する画像認識装置。
37. 27.乃至36.いずれかに記載の画像認識装置において、
前記検出対象オブジェクトは、前記撮影画像内に少なくとも1つ含まれるように、前記撮影対象に配置される画像認識装置。
38. 27.乃至37.いずれかに記載の画像認識装置において、
前記オブジェクト位置データは、前記検出対象オブジェクトが有する複数の特徴点の前記撮影画像内での位置情報を、前記検出対象オブジェクトの位置を示す情報とし、
前記処理手段は、前記オブジェクト位置データに基づいて、特定された前記検出対象オブジェクトの前記複数の特徴点の前記撮影対象内の位置から、前記撮影対象内の前記処理対象オブジェクトを特定する画像認識装置。
39. 27.乃至38.いずれかに記載の画像認識装置において、
当該画像認識装置は、携帯端末、または、携帯端末と通信可能なサーバ装置、あるいは、それらの組み合わせである画像認識装置。
【0149】
この出願は、2013年5月31日に出願された日本出願特願2013−115029号を基礎とする優先権を主張し、その開示の全てをここに取り込む。