【文献】
松本 祥,距離画像におけるVisual Wordsの局所空間配置を用いた形状マッチングによる机下に収納された椅子の認識,SSII2014 第20回画像センシングシンポジウム 講演論文集 [CD−ROM],日本,画像センシング技術研究会,2014年 6月12日,pp.102-1〜102-8
【文献】
大町 真一郎,品質を考慮した印刷文字認識手法,情報処理学会論文誌 ,日本,社団法人情報処理学会,1997年12月15日,第38巻 第12号,第2490頁−第2498頁
(58)【調査した分野】(Int.Cl.,DB名)
前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、自身と類似する他の認識対象を列挙した類似対象列挙情報が記憶されており、
前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得たうえでさらに、
当該候補情報に列挙された各認識対象について、その類似対象列挙情報を参照し、当該候補情報に含まれない認識対象としての逸脱認識対象が存在している場合には、当該逸脱認識対象を、当該候補情報に対して追加することを特徴とする請求項1ないし6のいずれかに記載の情報端末装置。
前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、自身と類似する他の認識対象を列挙した類似対象列挙情報が記憶されており、
前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得るに際して、
前記類似性を評価する対象を、前記データベースにおいて類似対象列挙情報によって互いに類似するものとされる一連の認識対象のうち、一部分のみに限定したうえで、当該一部分の認識対象のうち少なくとも1つに関して、前記類似していると判定された場合には、当該類似対象列挙情報によって互いに類似するものとされる一連の認識対象を列挙したものとして前記候補情報を得ることを特徴とする請求項1ないし6のいずれかに記載の情報端末装置。
前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、当該認識対象に関するテキスト情報が記憶されており、
前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得たうえでさらに、
当該候補情報に列挙された各認識対象について、そのテキスト情報を用いて前記データベースを検索することにより、当該候補情報に含まれない認識対象としての逸脱認識対象であって、当該テキスト情報が類似していると判定される逸脱認識対象を前記データベースより発見した場合には、当該逸脱認識対象を、当該候補情報に対して追加することを特徴とする請求項1ないし6のいずれかに記載の情報端末装置。
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、以上のような従来技術には、複数の類似対象が存在する場合に、当該類似対象同士を区別して認識できない、あるいは認識できたとしても何らかの困難を伴うという課題があった。ここで、類似対象とは例えば、
図1に模式的に例示するように、上巻と下巻とに分けて刊行された書籍における、上巻の表紙G1と下巻の表紙G2とであり、当該両表紙G1,G2は、そのごく一部分に過ぎない「上巻」の文字部分P1と「下巻」の文字部分P2とのみが異なっており、残りの大部分であるタイトル「小説甲乙丙」(例示のための架空例である)や表紙装丁の模様等は共通している。
【0009】
すなわち、非特許文献1では、
図1に例示したような複数の類似対象が存在する場合に、類似対象の各々から抽出される局所画像特徴量が類似対象同士においてはほとんど同じものとなってしまうため、類似対象同士を互いに区別して認識できない、あるいは区別して認識できたとしても精度が悪いという問題がある。
【0010】
特許文献2では、後天的な顔のほくろやシミ、そばかすなどを含む部分画像の双方向テンプレートマッチングにより、双子などの類似画像を区別できると主張している。しかし、テンプレートマッチングの前処理として必要な正規化(位置調整、回転、拡大縮小等)は目や鼻、耳などの大域的な位置関係を基準としているため、処理対象が同一形状のものに限定されるという問題がある。
【0011】
特許文献1では、位置情報や方位情報を併用することで、複数の類似画像となりうる例としての複数のランドマークを識別することはできるが、位置情報や方位情報に依存しない対象には適用できないという問題がある。
【0012】
非特許文献2では、差異領域のテンプレートマッチングを用いるため、上記問題(特に非特許文献1における問題)を一部解決できる。しかしながら、差異領域を予め指定しておく必要があるため、認識対象が多い場合に手間がかかりすぎて実質的に対処できないという問題がある。
【0013】
さらに、特許文献2および非特許文献2では共に、僅かな位置ズレによってテンプレートマッチングの値は大きく変化するため、認識精度が十分ではないという問題がある。
図2及び
図3にそれぞれ、テンプレートマッチングの値を大きく変化させてしまう僅かな位置ズレが発生する類似対象の例を示す。
【0014】
図2は類似対象の例として、メーカー及びブランド等が共通の同一種類の液体洗剤が封入されているソフトパッケージG3,G4を示す図であり、「洗剤α」といった洗剤名(例示のための架空例である)やパッケージ模様等の大部分は互いに共通であるが、香料についての記載部分「花の香り配合」の記載部分P3及び「香料無配合」の記載部分P4のみ、互いに異なっている。
【0015】
当該互いに類似対象であるソフトパッケージG3,G4は、柔軟性を有し容易に変形するプラスチックフィルム等で形成されているため、置く向き(
図2に示す縦置きか、これとは別の横置きか、等の向き)に従って封入している洗剤が位置エネルギーが小さくなるように流動し、当該流動に従って容易に変形する。また、置く向きが同一で例えば商品棚に縦向きで置いてあったとしても、洗剤を封入することで表面が円筒状の形状をなしているので、商品棚に対して常に正面から撮像するようにしたとしても、設置する向きによって見え方が容易に変わる。例えば、商品棚正面に対して右向きに傾いて設置されているか、商品棚正面に対して左向きに傾いて設置されているかで、見え方が変わる。当該容易に変形し、及び/又は、当該容易に見え方が変わることにより、撮像した画像上における位置ズレが容易に発生するため、テンプレートマッチングの値も大きく変動してしまう。
【0016】
図3は類似対象の例として、同一ゲームベンダーによって提供される同一ゲームパッケージであって、異なるゲーム機(ゲームを実行するためのハードウェア機器)向けに提供されたもののパッケージG5,G6を示す。パッケージG5,G6は全体的には互いに類似することで類似対象となっているが、次のような僅かな相違が存在している。すなわち、対象とするゲーム機が「ゲーム機X」である旨の記載部分P51及び「ゲーム機Y」である旨の記載部分P61が互いに異なっている。また、ゲームで遊ぶ対象年齢について例えば「成人」である旨を表す等の所定規格ロゴが、「ゲーム機X」のベンダの提供する所定形状のロゴP52と「ゲーム機Y」のベンダの提供する別の所定形状のロゴP62とである点で、互いに異なっている。
【0017】
さらに、ゲームのタイトル「冒険ゲーム」及びパッケージイラスト(例示のための架空例である)の部分P53,P63が、「絵」としては互いに同一であるがその大きさ(及び/又はアスペクト比)のみが少し異なる点で、僅かに異なっている。(なお、
図3では理解の促進のため、部分P53,P63に関して大きさ等の違いをやや強調して描いている。)
【0018】
このように、絵として同一であってもその大きさ(及び/又はアスペクト比)が異なるような部分P53,P63については、互いに僅かな位置ズレが発生している例であり、その片方によくマッチするようなテンプレートを用いてもう一方にマッチングを行ったとしても、ほとんどマッチしなくなってしまう。
【0019】
本発明は、上記従来技術の課題に鑑み、認識対象として類似対象が存在する場合であっても、高精度に認識を可能とする情報端末装置、プログラム及びデータ構造を提供することを目的とする。
【課題を解決するための手段】
【0020】
前記目的を達成するため、本発明は、以下(1)〜(12)を特徴とする。
【0021】
(1)撮像対象を撮像して撮像画像を得る撮像部と、前記撮像画像より特徴点及び当該特徴点近傍の局所画像特徴量を算出して特徴情報として出力する算出部と、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報を記憶しているデータベースにアクセスして得た各認識対象の特徴情報と、前記撮像画像より算出された特徴情報と、の類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得る第一照合部と、前記候補情報に列挙された各認識対象同士の間で、その特徴情報同士の一致を判定し、当該一致の判定がなされなかった特徴情報を、前記候補情報に列挙された各認識対象における部分特徴情報として求め、当該求めた各認識対象の部分特徴情報と前記撮像画像より算出された特徴情報との類似性を評価し、類似していると判定された部分特徴情報に対応する認識対象を、前記撮像画像における撮像対象に該当するものとして決定する第二照合部と、を備える情報端末装置であることを特徴とする。
【0022】
(2)前記第二照合部は、前記候補情報に列挙された各認識対象同士の間で、その特徴情報同士の一致を判定するに際して、各特徴情報が、所定数以上の他の認識対象における特徴情報と類似していると判定される場合に、当該特徴情報に関して一致を判定することを特徴とする。
【0023】
(3)前記第二照合部は、前記求めた各認識対象の部分特徴情報と前記撮像画像より算出された特徴情報との類似性を評価するに際して、当該部分特徴情報と当該特徴情報との距離、及び/又は、該部分特徴情報の特徴点の近傍の部分領域と当該特徴情報の特徴点の近傍の部分領域との一致性、に基づいて評価することを特徴とする。
【0024】
(4)前記第二照合部は、前記部分特徴情報を求める対象としての前記候補情報に列挙された認識対象に関して、当該候補情報内における各認識対象同士の特徴情報の類似性を評価することにより、互いに類似する他の認識対象とは非類似であると判定された認識対象が存在する場合には、当該非類似であると判定された認識対象を、前記部分特徴情報を求める対象から除外することを特徴とする。
【0025】
(5)前記第二照合部は、前記候補情報に列挙された各認識対象同士の間で、その特徴情報同士の一致を判定するに際して、予め、各認識対象の特徴情報の解像度を正規化したうえで、当該一致を判定することを特徴とする。
【0026】
(6)前記第二照合部は、前記解像度を正規化するに際して、各認識対象の特徴情報における特徴点の座標を、前記撮像画像の特徴情報における特徴点の座標へと変換する関係を求め、当該変換する関係に基づいて正規化することを特徴とする。
【0027】
(7)前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、自身と類似する他の認識対象を列挙した類似対象列挙情報が記憶されており、前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得たうえでさらに、当該候補情報に列挙された各認識対象について、その類似対象列挙情報を参照し、当該候補情報に含まれない認識対象としての逸脱認識対象が存在している場合には、当該逸脱認識対象を、当該候補情報に対して追加することを特徴とする。
【0028】
(8)前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、自身と類似する他の認識対象を列挙した類似対象列挙情報が記憶されており、前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得るに際して、前記類似性を評価する対象を、前記データベースにおいて類似対象列挙情報によって互いに類似するものとされる一連の認識対象のうち、一部分のみに限定したうえで、当該一部分の認識対象のうち少なくとも1つに関して、前記類似していると判定された場合には、当該類似対象列挙情報によって互いに類似するものとされる一連の認識対象を列挙したものとして前記候補情報を得ることを特徴とする。
【0029】
(9)前記データベースにおいては、複数の認識対象につきそれぞれ、その画像より前記算出部が算出するのと同種の特徴情報に加えてさらに、当該認識対象に関するテキスト情報が記憶されており、前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得たうえでさらに、当該候補情報に列挙された各認識対象について、そのテキスト情報を用いて前記データベースを検索することにより、当該候補情報に含まれない認識対象としての逸脱認識対象であって、当該テキスト情報が類似していると判定される逸脱認識対象を前記データベースより発見した場合には、当該逸脱認識対象を、当該候補情報に対して追加することを特徴とする。
【0030】
(10)前記算出部は、予め指定された特定の色チャネルのみを用いて前記特徴情報を算出し、前記第一照合部は、前記特定の色チャネルのみを用いて前記類似性を評価し、前記第二照合部では、前記特定の色チャネルのみを用いて前記一致を判定し、前記類似性を評価することを特徴とする。
【0031】
(11)プログラムであって、コンピュータを前記情報端末装置として機能させることを特徴とする。
【0032】
(12)複数の認識対象につきそれぞれ、その画像より算出される特徴情報と、自身と類似する他の認識対象を列挙した類似対象列挙情報と、を紐付けたデータ構造であって、撮像対象を撮像して撮像画像を得る撮像部と、前記撮像画像より特徴点及び当該特徴点近傍の局所画像特徴量を算出して特徴情報として出力する算出部と、複数の認識対象につきそれぞれ前記データ構造に即したデータを記憶しているデータベースにアクセスして得た各認識対象の特徴情報と、前記撮像画像より算出された特徴情報と、の類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得る第一照合部と、前記候補情報に列挙された各認識対象同士の間で、その特徴情報同士の一致を判定し、当該一致の判定がなされなかった特徴情報を、前記候補情報に列挙された各認識対象における部分特徴情報として求め、当該求めた各認識対象の部分特徴情報と前記撮像画像より算出された特徴情報との類似性を評価し、類似していると判定された部分特徴情報に対応する認識対象を、前記撮像画像における撮像対象に該当するものとして決定する第二照合部と、を備えることを特徴とする情報端末装置において、前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得たうえでさらに、当該候補情報に列挙された各認識対象について、その類似対象列挙情報を参照し、当該候補情報に含まれない認識対象としての逸脱認識対象が存在している場合には、当該逸脱認識対象を、当該候補情報に対して追加する、または、前記第一照合部は、前記類似性を評価し、類似していると判定された認識対象を列挙したものとして候補情報を得るに際して、前記類似性を評価する対象を、前記データベースにおいて類似対象列挙情報によって互いに類似するものとされる一連の認識対象のうち、一部分のみに限定したうえで、当該一部分の認識対象のうち少なくとも1つに関して、前記類似していると判定された場合には、当該類似対象列挙情報によって互いに類似するものとされる一連の認識対象を列挙したものとして前記候補情報を得る、ことを特徴とする。
【発明の効果】
【0033】
前記(1)又は(11)の特徴によれば、認識対象の中に互いに類似している類似対象があっても、第一照合部において候補情報として類似対象を列挙したうえで、第二照合部において部分特徴情報として類似対象同士の間の相違の部分についての情報を自動で抽出し、撮像画像における撮像対象の認識を当該部分特徴情報に基づいて行うので、撮像対象を高精度に認識することができる。
【0034】
前記(2)の特徴によれば、所定数以上の類似判定が得られるものを一致判定とすることで、偶発的に他の特徴情報と類似してしまったような特徴情報を当該一致判定からは排除することにより、適切な部分特徴情報を選別することができる。
【0035】
前記(3)の特徴によれば、撮像対象及び認識対象の画像上の特徴に応じたものとして、特徴情報間の距離及び/又は特徴点の近傍の部分領域の一致性に基づいて、撮像対象の特徴情報と認識対象の部分特徴情報との類似性を評価することができる。
【0036】
前記(4)の特徴によれば、候補情報内に偶発的にその他の認識対象とは非類似の認識対象が存在してしまっている場合に、当該非類似な認識対象を候補情報から除外することにより、類似対象のみで構成された候補情報によって適切な部分特徴情報を選別することができるようになる。
【0037】
前記(5)の特徴によれば、事前の解像度の正規化による統一により、適切に部分特徴情報を選別することができるようになる。前記(6)の特徴によれば、当該正規化を座標間の変換関係を施すものとして実施することで、適切な正規化を行うことができる。
【0038】
前記(7)(または(12))の特徴によれば、データベース(またはデータ構造)に予め与えられている認識対象ごとの類似対象列挙情報を利用することで、その他の類似対象が撮像画像と類似すると判定されたにもかかわらず、偶発的に撮像画像とは非類似と判定されてしまった逸脱認識対象を、候補情報へと自動で追加することが可能となるので、複数の類似対象がある場合であっても高精度な認識が可能となる。
【0039】
前記(8)(または(12))の特徴によれば、データベース(またはデータ構造)に予め与えられている認識対象ごとの類似対象列挙情報を利用することで、認識対象としての類似対象が多数存在する場合であっても、高速且つ高精度な認識が可能となる。また、データベースと第一照合部との間のデータ通信量を抑制することも可能となる。
【0040】
前記(9)の特徴によれば、前記(7)の特徴におけるようにデータベースに予め類似対象列挙情報を与えておかなくとも、テキスト情報の類似性に基づいて動的に類似対象列挙情報に相当するものを生成することで、前記(7)の特徴における場合と同様なことが可能となる。すなわち、その他の類似対象が撮像画像と類似すると判定されたにもかかわらず、偶発的に撮像画像とは非類似と判定されてしまった逸脱認識対象を、候補情報へと自動で追加することが可能となるので、複数の類似対象がある場合であっても高精度な認識が可能となる。
【0041】
前記(10)の特徴によれば、認識対象において色のみが異なっているような類似対象がある場合に、区別して認識することが可能となる。
【発明を実施するための形態】
【0043】
図4は、一実施形態に係る情報端末装置の機能ブロック図である。情報端末装置1は、撮像部2、算出部3、記憶部4、第一照合部5及び第二照合部6を備える。
【0044】
当該各部2〜6を実現する情報端末装置1のハードウェア構成としては、スマートフォンやタブレット端末といったような携帯端末の他、デスクトップ型、ラップトップ型その他の一般的なコンピュータの構成を採用することができる。すなわち、CPU(中央演算装置)と、CPUにワークエリアを提供する一時記憶装置と、プログラム等のデータを格納する二次記憶装置と、各種の入出力装置と、これらの間でのデータ通信を担うバスと、を備える一般的なコンピュータのハードウェア構成を採用できる。CPUが二次記憶装置に格納されたプログラムを読み込んで実行することで、各部2〜6が実現される。なお、各種の入出力装置としては、画像取得するカメラ、表示を行うディスプレイ、ユーザ入力を受け取るタッチパネルやキーボード、音声を入出力するマイク・スピーカ、外部と有線・無線にて通信を行う通信インタフェース、といったものの中から必要機能に応じたものを利用することができる。
【0045】
また、
図4では情報端末装置1が各部2〜6の全てを備えるものとしたが、このうちの任意の一部分を情報端末装置1とは別途のサーバ等の外部装置(1台以上の外部装置)において実現してもよい。例えば、記憶部4は外部装置としてのサーバにおいて実現されるようにしてもよい。この場合、情報端末装置1と当該外部装置との間(外部装置が2台以上の場合、外部装置間も含む)において、ネットワーク等を経由して必要な情報の送受を行うようにすればよい。当該外部装置のハードウェア構成も、情報端末装置1と同様に一般的なコンピュータの構成を採用することができる。
【0046】
以下、
図4の各部2〜6の処理内容を説明する。なお、
図5及び
図6は、各部2〜6の処理内容を示す模式的な一連の例を示す図であり、以下の説明において適宜、参照する。
【0047】
撮像部2は、撮像対象を撮像して、その撮像画像を算出部3へ出力する。ここで、撮像画像には予め既知の撮像対象(後述の記憶部4に記憶されているいずれかの認識対象に合致する対象)が含まれるよう、ユーザ等の操作のもとで撮像部2が撮像を行うものとする。撮像対象は例えば、特徴等が既知の模様を持つマーカーや印刷物、立体物等であってよい。撮像部2の撮像処理を担うハードウェア構成としては例えば、昨今の一般的な携帯端末に標準装備されるデジタルカメラを用いることができる。
【0048】
算出部3は、まず撮像部2で撮像された撮像画像から撮像対象の特徴点を検出する。当該検出する特徴点には、認識対象におけるコーナーなどの特徴的な点を利用できる。検出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な点を検出する既存手法が利用できる。
【0049】
算出部3は次に、検出された特徴点座標を中心として、撮像部2で撮像された撮像画像から局所画像特徴量を算出する。算出部3で算出された複数の特徴点および局所画像特徴量は、特徴情報として第一照合部5へ出力する。局所画像特徴量の算出手法としては、SIFT (Scale-Invariant Feature Transform)やSURF (Speeded Up Robust Features)などの特徴的な量を算出する既存手法が利用できる。
【0050】
図5の例では、[1]に撮像部2で得た撮像画像P1が、[2]に当該撮像画像P1より算出部3において算出された特徴情報F1が、それぞれ示されている。特徴情報F1は、複数(当該例では9個)の特徴点においてそれぞれ局所画像特徴量を算出した複数の特徴情報f1〜f9として構成されている。
【0051】
記憶部4は、所定の複数の認識対象につきそれぞれ、当該認識対象の画像より算出部3と同一処理で算出した特徴情報を記憶しておく。当該所定の複数の認識対象には、
図1〜
図3で例示したような相互に類似した2以上の類似対象を含むことができる。当該認識対象ごとに特徴情報を記憶させる処理は、管理者等がマニュアル等で事前に実施しておけばよい。ここで、次に説明する第一照合部5及び第二照合部6での処理の高速化のため、特徴情報をベクトル量子化やハッシュ関数等で要約したうえで記憶しておいてもよい。
【0052】
第一照合部5は、算出部3から入力される撮像対象の特徴情報と、記憶部4に記憶された各認識対象の特徴情報と、の類似性を評価し、予め設定された閾値より類似度が高い認識対象があれば当該認識対象ごとにその特徴情報を紐付けたうえで、当該閾値を超えた認識対象を列挙した情報としての候補情報を、第二照合部6へと出力する。
【0053】
ここで、類似性の評価には、特徴情報同士の間のハミング距離やユークリッド距離、マハラノビス距離などを用いる既存の手法を利用できる。また、認識対象と撮像画像との間の個別の特徴情報同士で当該距離等に基づき、最も類似する特徴情報同士の対応関係を定めたうえで、当該定まった対応関係における類似度の総和を求めるようにしてもよいし、周知のRANSAC(Random Sample Consensus)により認識対象と撮像画像との間の特徴情報同士の全体的な対応関係及び類似度を求めるようにしてもよい。
【0054】
図5の例では、[2]の撮像画像P1の特徴情報F1に閾値判定で類似すると判定された特徴情報が[3-1],[3-2],[3-3]に特徴情報F31,F32,F33として示されている。ここで、特徴情報F31,F32,F33はそれぞれ、記憶部4に記憶された認識対象R1,R2,R3(不図示)の特徴情報であるものとすると、当該撮像画像P1の撮像対象に類似していると判定された3つの認識対象を列挙した{R1,R2,R3}が候補情報となる。ここで、候補情報を構成している各認識対象R1,R2,R3にはその特徴情報F31,F32,F33がそれぞれ紐付けられたうえで、候補情報が構成されている。
【0055】
なお、図示するように、認識対象R1の特徴情報F31はその画像(模式例は不図示、以下同様)の各特徴点から算出される複数(合計9個)の特徴情報f11〜f19から構成され、認識対象R2の特徴情報F32はその画像の各特徴点から算出される複数(合計9個)の特徴情報f21〜f29から構成され、認識対象R3の特徴情報F33はその画像の各特徴点から算出される複数(合計7個)の特徴情報f30,f32,f33,f35,f36,f38,f39から構成されている。
【0056】
第二照合部6は、第一照合部5から候補情報を入力し、候補情報から選別した認識対象を、撮像画像における撮像対象が記憶部4に記憶されたいずれの認識対象に該当するかを照合した結果を表す照合情報として出力する。ここで、第一照合部5から出力された候補情報に1つの認識対象しか含まれていない場合は、第二照合部6では当該選別を行う必要はなく、当該1つの認識対象をそのまま、照合情報として出力する。
【0057】
一方、候補情報に複数(2つ以上)の認識対象が含まれている場合、第二照合部6では次の第一処理及び第二処理によって、照合情報を出力する。
【0058】
第一処理として、候補情報に列挙されている各認識対象における特徴情報同士の間のうち、異なる認識対象に属するもの同士の間において一致すると判断されるものがいずれであるかを特定する照合を実施し、当該照合によっては一致しなかったと判断される特徴情報を、各認識対象に関する部分特徴情報として選別する。
【0059】
第二処理として、当該認識対象ごとの部分特徴情報と、撮像対象の特徴情報と、の類似性を評価し、予め設定された閾値より類似度が高い部分特徴情報があれば、当該部分特徴情報に対応する認識対象を照合情報として出力する。
【0060】
ここで、第一処理における一致判断及び第二処理における類似性の評価には共に、第一照合部5における場合と同様に、特徴情報同士の間のハミング距離やユークリッド距離、マハラノビス距離など既存の手法を利用できる。また、個別の特徴情報同士で当該距離等に基づき、最も類似する特徴情報同士の対応関係を定めたうえで、当該定まった対応関係における類似度の総和を求めるようにしてもよいし、周知のRANSACにより特徴情報同士の全体的な対応関係及び類似度を求めるようにしてもよい。第一処理においても特徴情報同士の間の類似度の閾値判定により、特徴情報同士が一致しているか否かを判断すればよい。
【0061】
図5の例では、
図5の[4-1]〜[4-3]が第一処理における特徴情報同士の照合の例を示したものであり、[3-1]〜[3-3]に示したのと同様の候補情報を構成している各認識対象R1〜R3の特徴情報F31〜F33同士のうち、照合することで一致したと判断された特徴情報同士の間に線が描かれている。
【0062】
すなわち、線L1に示すように認識対象R1,R2間において特徴情報f11,f21は互いに一致すると判定されており、線L21,L22に示すように認識対象R1,R2,R3間において特徴情報f12,f22,f32は互いに一致すると判定されており、線L31,L32に示すように認識対象R1,R2,R3間において特徴情報f13,f23,f33は互いに一致すると判定されており、線L4に示すように認識対象R1,R2間において特徴情報f14,f24は互いに一致すると判定されており、線L51,L52に示すように認識対象R1,R2,R3間において特徴情報f15,f25,f35は互いに一致すると判定されており、線L61,L62に示すように認識対象R1,R2,R3間において特徴情報f16,f26,f36は互いに一致すると判定されており、線L7に示すように認識対象R1,R2間において特徴情報f17,f27は互いに一致すると判定されている。
【0063】
次いで、
図6の例では、[5-1]〜[5-3]に、以上の
図5の[4-1]〜[4-3]の特徴情報同士の照合によっては一致するとは判定されなかった特徴情報として第一処理において得られる、各認識対象R1〜R3における部分特徴情報PF31〜PF33が示されている。
【0064】
すなわち、[5-1]に示すように認識対象R1の部分特徴情報PF31は特徴情報f18,f19で構成されており、[5-2]に示すように認識対象R2の部分特徴情報PF32は特徴情報f28,f29で構成されており、[5-3]に示すように認識対象R3の部分特徴情報PF33は特徴情報f30,f38,f39で構成されている。当該部分特徴情報PF31〜PF33は、
図5の[4-1]〜[4-3]間に線で示した特徴情報同士の照合において、他の認識対象の特徴情報と一致するものがなかったことから、部分特徴情報として選別されている。
【0065】
さらに、
図6の例では、[6-1]〜[6-3]と[7]に、第二処理によって照合情報を出力する例が示されている。すなわち、[6-1]〜[6-3]は、[5-1]〜[5-3]に示したのと同様の各認識対象R1〜R3における部分特徴情報PF31〜PF33を、第二処理における類似性評価の対象として再掲したものであり、[7]は、
図5の[2]に示したのと同様の撮像画像P1における特徴情報F1を、第二処理における類似性評価の対象として再掲したものである。
【0066】
図6にて[6-1]〜[6-3]と[7]との間に線L8,L9として示すように、認識対象R1〜R3における部分特徴情報PF31〜PF33と、撮像画像P1の撮像対象の特徴情報F1と、の類似性評価の結果、次のようにして最終的な結果(照合情報としての認識対象R1)が得られる。
【0067】
すなわち、まず、撮像対象の特徴情報F1のうちf8,f9がそれぞれ部分特徴情報PF31の特徴情報f18,f19と類似していると判断され、その他の部分特徴情報において特に類似していると判断されるものはなかったことから、特徴情報F1と類似しているものは部分特徴情報PF31である、という判断が得られる。従って、第二処理における照合情報として、候補情報{R1,R2,R3}のうち、類似していると判断された部分特徴情報PF31に対応する認識対象R1が、撮像画像P1の撮像対象に該当するものである、という最終的な結果が得られる。
【0068】
以上、第二照合部6の処理を
図5及び
図6の模式例と共に説明し、
図1の各部2〜6を説明した。次に、以上のような本発明が奏する効果について説明する。
【0069】
まず、以上の説明よりも明らかではあるが、第二照合部6において自動算出している部分特徴情報の意義については次の通りである。すなわち、部分特徴情報とは具体的には、第一照合部5の出力した候補情報が、記憶部4に記憶されている複数の認識対象のうちの互いに類似している複数の認識対象で構成されていた場合に、当該互いに類似している認識対象のうち、互いに相違している箇所のみから算出される特徴情報に相当する(ことが期待される)ものである。
【0070】
例えば、前述した
図1の類似対象G1,G2が共に記憶部4に認識対象として記憶されており、撮像部2で撮像した撮像画像がG1,G2のいずれかを撮像したものであった場合に、第一照合部5ではこれらが類似しているため区別できずに、候補情報{G1,G2}を出力したとする。この場合、部分特徴情報として、認識対象G1に関してはその類似対象G2との微差をなしている部分P1から算出される特徴情報(PF(P1)とする)が得られ、認識対象G2に関してはその類似対象G1との微差をなしている部分P2から算出される特徴情報(PF(P2)とする)が得られることとなる。
【0071】
こうして、本発明においては、当該類似対象G1,G2同士を比較した際に微差をなしている部分のみから算出された部分特徴情報PF(P1),PF(P2)のみを照合対象(リファレンス)として、第二照合部6において再度、撮像画像の特徴情報をクエリとした照合を行うことで、撮像画像が互いに類似している類似対象G1,G2のいずれに該当するかを、高精度に判断することができる。
【0072】
特に、部分特徴情報PF(P1),PF(P2)は、第一照合部5においては類似の認識対象G1,G2同士の区別不能の原因であったことが想定される「微差」に相当するものであるが、第二照合部6において再度、当該「微差」部分のみを自動抽出することで、単独の照合対象として用いる際は互いに「顕著な差」をなすものとなる(部分特徴情報PF(P1)とPF(P2)とは顕著に異なる)ことが期待される。従って、本発明においては類似対象が複数存在する場合であってもこれらを区別可能であり、高精度な認識を実現することができる。
【0073】
なお、第一照合部5は、類似対象同士の微差を区別して撮像画像がそのいずれに該当するかを特定することは困難であったとしても、前処理として、類似対象のグループ毎に区別したうえで、撮像画像がいずれのグループに該当するかを特定する役割を担うものである。例えば、前述した
図1の第一類似対象グループ{G1,G2}と、
図2の第二類似対象グループ{G3,G4}と、
図3の第三類似対象グループ{G5,G6}と、が記憶部4に記憶されている場合に、撮像画像の撮像対象が当該3つのグループのいずれに該当するか(あるいはいずれにも該当しないか)を第一照合部5が候補情報として特定することができる。従って、記憶部4に記憶される認識対象として、類似対象を構成するグループが多数存在し、且つ、各グループ内の類似対象も多数存在している場合であっても、本発明における第一照合部5及び第二照合部6によって、高精度な認識が可能となる。
【0074】
以下、(補足1)〜(補足7)として、本発明のその他の各実施形態などの、補足事項を説明する。当該各補足事項は、任意に組み合わせて実施することも可能である。ここで、以上説明してきた実施形態を第一実施形態と呼ぶこととする。
【0075】
(補足1)
第二照合部6における、候補情報に属する各認識対象の部分特徴情報と、撮像画像の特徴情報と、の類似性を評価することで照合情報を得る処理(前述の第二処理)に関して、第一実施形態では当該特徴情報同士をその距離等で評価して類似度を算出していた。これに代えて、あるいはこれに加えて、以下のように画素情報で評価される領域類似性を考慮するようにしてもよい。
【0076】
すなわち、候補情報内の認識対象の部分特徴情報における特徴点の所定近傍領域として形成される部分領域と、撮像画像の特徴情報における特徴点の所定近傍領域として形成される部分領域と、の領域類似度を、対応する各画素値同士の差分二乗和などによって評価し、第一実施形態における特徴情報に基づく類似度と重みづけ和等として総合スコアの形で類似度を求めるようにしてもよいし、第一実施形態における特徴情報に基づく類似度に代えて用いるようにしてもよい。
【0077】
なお、上記のように領域類似度を算出する場合は、記憶部4には各認識対象につき、その特徴点及び局所画像特徴量に加えて、特徴点の所定近傍領域の画素情報も記憶させておくものとする。第二照合部6では、当該記憶されている認識対象の各特徴点の近傍の画素情報と、撮像部2より取得した撮像画像の画素情報を参照することで得られる、撮像画像の各特徴点の近傍の画素情報と、を用いて、上記のような領域類似性を評価することができる。
【0078】
なお、上記のように部分領域を定めるための特徴点に関しての所定近傍領域については、当該特徴点を中心とした所定サイズの矩形領域とするなど、その形状等を予め設定しておけばよい。
【0079】
(補足2)
第一照合部5では、互いに類似している認識対象が列挙されたものが得られるという想定で、候補情報を求めている。しかしながら、当該候補情報を求めた際に、ノイズ等の影響により、撮像画像とは似ていると判定されたものの、他の認識対象とは非類似となっているような認識対象(非類似認識対象とする)が含まれてしまっている恐れもある。
【0080】
例えば、前述した
図1における互いに類似した認識対象G1,G2と、これらとは非類似な
図2における認識対象G3とが候補情報{G1,G2,G3}として得られてしまう恐れがある。このような場合、候補情報{G1,G2,G3}に含まれた非類似認識対象G3をそのまま利用して、第一実施形態により第二照合部6において部分特徴情報を選別すると、本発明において意図されている適切な照合結果が得られなくなる恐れがある。
【0081】
従って、第一照合部5ではまず、第一実施形態と同様にして候補情報(第一候補情報とする)を求めたうえで、さらに追加処理として、当該第一候補情報内において、非類似認識対象と考えられるものを特定し、当該特定された非類似認識対象を排除したものとしての第二候補情報を、第二照合部6へと出力するようにしてもよい。具体的には例えば、以下の(手法1)〜(手法3)のいずれかのようにして非類似認識対象を特定すればよい。
【0082】
(手法1)第一候補情報に含まれている各認識対象について、他の認識対象との間で特徴情報が一致している個数をカウントし、当該個数が少ないと判定された場合(所定閾値以下であると判定された場合)、当該認識対象は非類似認識対象であるものとして特定する。
【0083】
当該カウントするに際しては、認識対象の各特徴情報に注目し、(1)当該特徴情報と一致すると判定される他の認識対象における特徴情報が1つでも存在する場合に、当該注目した特徴情報が個数として「1」を追加でカウントするようにしてもよいし、あるいは、(2)当該特徴情報と一致すると判定される他の認識対象における特徴情報が所定数以上存在する場合に、当該注目した特徴情報が個数として「1」を追加でカウントするようにしてもよい。
【0084】
(手法2)第一照合部5において第一候補情報を求める際に算出した撮像画像の特徴情報と認識対象の特徴情報との類似度と同種の類似度を、第一候補情報に含まれる認識対象の全ペア間において算出し、各認識対象について、他の認識対象との間で算出された類似度の総和が閾値以下であるようなものを、非類似認識対象として特定する。
【0085】
(手法3)第一候補情報に含まれる各認識対象を、その特徴情報に基づいてクラスタリングし、閾値判定で構成要素数が少ないと判定されるクラスタに属する認識対象を、非類似認識対象として特定する。また、当該少ないとは判定されなかった同一クラスタに属する認識対象同士を、第二候補情報とする。クラスタリングには、k-means(k平均法)等の周知手法を用いることができる。
【0086】
(補足3)
第二照合部6において部分特徴情報を選別するに際して、より確実に、候補情報の認識対象間における微差部分に相当する、適切な特徴情報のみを選別したものとして部分特徴情報を得るようにし、その他の不要な特徴情報が誤って部分特徴情報を構成するものとして選別されないようにすべく、第一実施形態において次の追加処理を行うようにしてもよい。
【0087】
すなわち、第二照合部6では、候補情報に属する認識対象同士の間において、予め追加処理として「解像度の正規化」を実施したうえで、第一実施形態にて説明したのと同様に特徴情報同士の一致判定を実施し、一致しなかった特徴情報を各認識対象の部分特徴情報として選別する。
【0088】
当該解像度の正規化は例えば、次のようにすればよい。まず、第一照合部5において候補情報を求めた際に既に得られている対応関係として、撮像画像の特徴点座標(群)と認識対象の特徴点座標(群)との対応関係があるので、当該座標群同士の対応関係(座標間の写像関係)を表現するホモグラフィー行列を認識対象ごとに求める。次に、当該ホモグラフィー行列を用いて当該認識対象の特徴点座標を撮像画像における座標系へと変換すればよい。こうして、候補情報の各認識対象の特徴点座標が、全て撮像画像における座標系で表現されたものに統一されることで、解像度の正規化が完了する。
【0089】
なお、上記求めるホモグラフィー行列については、第一照合部5において候補情報を求める際にRANSACを用いて類似度を評価した場合であれば、この際に既に求まっているホモグラフィー行列を利用するようにすればよい。
【0090】
図5の例であれば、候補情報を構成している認識対象R1,R2,R3の特徴情報F31,F32,F33における特徴点の座標系をそれぞれ、撮像画像の特徴情報F1における特徴点の座標系へと変換するホモグラフィー行列をH31,H32,H33として求め、当該変換した座標系での特徴情報H31(F31),H32(F32),H33(F33)を、
図5の[4-1],[4-2],[4-3]に例示した一致判定の際に用いるようにすればよい。
【0091】
また、記憶部4に記憶する際に、互いに類似している認識対象同士の間においては上記の解像度の正規化に相当するものを実施したうえで、特徴情報を記憶しておいてもよい。この場合、第二照合部6において解像度の正規化を行うことは不要となる。記憶部4で記憶させる際に正規化しておく手法としては、次の第一手法又は第二手法が利用できる。
【0092】
第一手法では、互いに類似している認識対象のうち1つを座標系を統一するための基準認識対象として選び、当該基準認識対象の画像を上記の撮像画像に該当するものとみなして、上記と全く同様の処理(認識対象同士の特徴点座標同士の対応関係を求め、当該対応関係を表すホモグラフィー行列を求め、当該行列で写像する処理)によって正規化し、記憶部4に記憶させることできる。なお、いずれの認識対象同士が互いに類似しているかについては、管理者等が事前知識として与えておけばよい。
【0093】
第二手法では、例えば前述した
図1の同一書籍の上巻及び下巻の表紙として類似対象G1,G2が認識対象として存在する場合に、当該両表紙が同一サイズであるものとして、当該互いに類似する認識対象としての両表紙の特徴情報を求める際の画像は、当該両表紙を同一カメラ同一配置で撮像した画像を用いるようにすればよい。
【0094】
なお、第二照合部6において解像度の正規化を実施する場合、上記の第一手法や第二手法のようにして、記憶部4に記憶させておく認識対象の特徴情報を、いわば「整ったデータ」として用意しておく手間が省略されるという効果がある。
【0095】
(補足4)
第一実施形態において、第二照合部6において部分特徴情報を求める際に、候補情報内の各認識対象について、特徴情報が他の認識対象の特徴情報と一致しているかを判断することで、一致判断が得られた特徴情報以外を部分特徴情報として選別した。当該一致判断に関しては、(1)少なくとも1つの他の認識対象の特徴情報と一致している場合に一致判断を下すようにしてもよいし、(2)所定数以上の他の認識対象の特徴情報と一致している場合に一致判断を下すようにしてもよい。なお、前述の
図5及び
図6の例は、当該前者(1)による一致判断を下した例となっている。
【0096】
(補足5)
第一実施形態では、第一照合部5において候補情報を求めることで、記憶部4に記憶されている複数の認識対象の中から撮像画像の認識対象に類似している複数の認識対象を、いわば「動的」に、選別するという処理を実施していた。これに代えて、いわば「静的」に、予め記憶部4に記憶させる際に、データ構造として、複数の認識対象のうちいずれのもの同士が類似対象であるかという情報も各認識対象に紐付けて記憶させておくようにしてもよい。
【0097】
具体的には、第一実施形態に対する追加処理として、記憶部4に記憶させる各認識対象につき、データ構造として、類似している他の認識対象を列挙した情報(類似対象列挙情報とする)を紐付けておけばよい。第一照合部5においては、当該データ構造により与えられる類似対象列挙情報を利用することで、以下の(処理1)又は(処理2)によって効率的に候補情報を求めることができる。
【0098】
(処理1)第一実施形態と同様にして候補情報を求めたうえでさらに、候補情報内の各認識対象についての類似対象列挙情報を参照し、候補情報内の認識対象に含まれていない認識対象(逸脱認識対象とする)があった場合には、当該逸脱認識対象を候補情報に追加したうえで、第二照合部6へと出力する。
【0099】
例えば、類似した認識対象が書籍の全集の各巻の表紙(百科事典の各巻の表紙など)である場合、少なくともいずれか1つの巻だけが候補情報として得られていれば、全巻を自動で候補情報とすることができる。
【0100】
(処理2)上記とは逆に、まず、第一実施形態に次の限定を加えたうえで、候補情報を求める。すなわち、クエリである撮像画像の特徴情報に対するレファレンスとして記憶部4から読み出す認識対象の特徴情報を、類似対象列挙情報で挙げられているうちの所定の一部分のみの認識対象に限定したうえで、候補情報を求める。次に、当該求めた候補情報に対して、(処理1)と同様の追加処理を行い、第二照合部6へと出力する。
【0101】
例えば、類似した認識対象が書籍の全巻の各巻の表紙である場合に、記憶部4から読み出すのはそのうちのいずれか1巻のみとし、当該読み出した1巻が撮像画像と類似していることで候補情報として得られていれば、全巻を自動で候補情報とすることができる。
【0102】
なお、互いに類似している認識対象のうちのいずれを記憶部4から第一照合部5が読み出すかは、予め設定しておけばよい。例えば、記憶部4の各認識対象に、読み出し対象であるか否かの情報を紐付けておき、第一照合部5では読み出し対象として設定されている認識対象のみを読み出すようにすればよい。
【0103】
上記(処理1)によれば、本来は一連の類似対象が全て候補情報として得られるべきであるが、撮像画像におけるノイズ等の影響で類似判定されず候補情報から誤って逸脱した逸脱認識対象を、自動で候補情報に追加することができる。また、上記(処理2)によれば、記憶部4に互いに類似する多数の認識対象が記憶されている場合であっても、その一部分のみについて類似性を評価すればよいので、第一照合部5における計算量を削減することができる。さらに、計算量削減と同様に、例えば記憶部4が情報端末装置1とは別途のサーバに構築されている等の事情で、記憶部4と第一照合部5との間にネットワーク経由の通信が行われる場合において、その伝送量を抑えることができる。
【0104】
(補足6)
上記の(補足5)では記憶部4において各認識対象に類似対象列挙情報を予め、いわば「静的」に記憶させておくものとした。これに代えて、記憶部4では類似対象列挙情報は記憶させておかずに、第一照合部5においていわば「動的」に、類似認識対象情報に相当するものとしての逸脱認識対象を求めたうえで、上記の(補足5)の(処理1)又は(処理2)と同様の候補情報の追加等を行うようにしてもよい。
【0105】
このため、記憶部4では、各認識対象について類似対象列挙情報の代わりに、各認識対象に関するテキスト情報を記憶しておくものとする。例えば認識対象が商品であれば、当該商品を説明する文章や当該商品に関する1以上のキーワード(タグ)をテキスト情報とすることができる。そして、第一照合部5では以下のようにして、類似対象列挙情報に相当するものを自身で動的に生成することができる。
【0106】
すなわち、第一実施形態と同様にして候補情報を求めたうで、候補情報に列挙された各認識対象につき、そのテキスト情報を検索キーとして用いることにより、記憶部4に記憶された認識対象のうちそのテキスト情報が類似していると判定されるものを検索する。そして、候補情報の認識対象につき、当該検索により発見された記憶部4に記憶された認識情報であって、候補情報内には含まれていないものがあれば、これを、(補足5)における「逸脱認識対象」とみなす。さらに、当該みなされた「逸脱認識対象」に関して、(補足5)の(処理1)を実施すればよい。
【0107】
なお、上記検索するに際して、テキスト情報同士が類似しているか否かの判断には、自然言語処理分野等における既存技術を用いればよい。
【0108】
(補足7)
算出部3において特徴点及び局所画像特徴量として特徴情報を算出するための画像の色チャネルに関しては、画像がRGB等の所定の複数の色チャネルで構成されている場合に、その一部分のみを用いるようにしてもよい。この場合、第一照合部5及び第二照合部6で特徴情報同士の類似性を評価するに際しても、算出部3で用いたのと同様の一部分の色チャネルを用いるようにする。
【0109】
すなわち、第一実施形態の全体を、画像がRGB等の所定の複数の色チャネルで構成されている場合に、その一部分のみ(例えばRチャネルのみ)を用いて実施するようにしてもよい。これにより、類似対象における微差部分として、形状などは同じであるが色のみが異なっているような箇所も区別して扱うことが可能となる。所定の色チャネルのうちいずれのチャネルに限定するかについては、ユーザ等が指定すればよい。