(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】類似画像抽出装置、方法及びプログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20240604BHJP
G06T 7/00 20170101ALI20240604BHJP
G06F 16/53 20190101ALI20240604BHJP
【FI】
G06T1/00 200E
G06T7/00 350C
G06T7/00 300Z
G06F16/53
(21)【出願番号】P 2021051082
(22)【出願日】2021-03-25
【審査請求日】2023-03-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】スワンウィモンクン スウィーチャヤ
(72)【発明者】
【氏名】小森田 賢史
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2010-061285(JP,A)
【文献】特開2019-160000(JP,A)
【文献】特開2020-008984(JP,A)
【文献】特開2009-277155(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00
G06F 16/53
(57)【特許請求の範囲】
【請求項1】
クエリ画像に類似する画像を景観画像群から抽出する類似画像抽出装置において、
クエリ画像を加工して加工クエリ画像を生成する手段と、
景観画像とクエリ画像および加工クエリ画像との各類似度を計算する手段と、
クエリ画像と景観画像との類似度を当該景観画像と加工クエリ画像との類似度に基づいて補正する手段とを具備し
、
前記補正する手段は、加工クエリ画像との類似度が相対的に低い景観画像ほど抽出されるように、当該景観画像とクエリ画像との類似度を補正することを特徴とする類似画像抽出装置。
【請求項2】
前記補正する手段は、景観画像と加工クエリ画像との類似度が高いほど当該景観画像とクエリ画像との類似度を減補正することを特徴とする請求項1に記載の類似画像抽出装置。
【請求項3】
前記補正する手段は、景観画像と加工クエリ画像との類似度が低いほど当該景観画像とクエリ画像との類似度を増補正することを特徴とする請求項1に記載の類似画像抽出装置。
【請求項4】
前記各類似度を計算する手段は、深層学習ベースで類似度を計算することを特徴とする請求項1ないし3のいずれかに記載の類似画像抽出装置。
【請求項5】
前記各類似度を計算する手段は、クエリ画像との類似度が上位N個の景観画像を抽出し、当該N個の景観画像と加工クエリ画像との類似度を計算することを特徴とする請求項1ないし4のいずれかに記載の類似画像抽出装置。
【請求項6】
前記景観画像群が、VPS地図に用いられる画像群であることを特徴とする請求項1ないし5のいずれかに記載の類似画像抽出装置。
【請求項7】
前記加工クエリ画像を生成する手段は、クエリ画像を反転させて反転クエリ画像を生成することを特徴とする請求項1ないし6のいずれかに記載の類似画像抽出装置。
【請求項8】
クエリ画像に類似する画像をコンピュータが景観画像群から抽出する類似画像抽出方法において、
クエリ画像を加工して加工クエリ画像を生成し、
景観画像とクエリ画像および加工クエリ画像との各類似度を計算し、
クエリ画像と景観画像との類似度を当該景観画像と加工クエリ画像との類似度に基づいて補正
し、
前記補正では、加工クエリ画像との類似度が相対的に低い景観画像ほど抽出されるように、当該景観画像とクエリ画像との類似度を補正することを特徴とする類似画像抽出方法。
【請求項9】
景観画像と加工クエリ画像との類似度が高いほど当該景観画像とクエリ画像との類似度を減補正することを特徴とする請求項8に記載の類似画像抽出方法。
【請求項10】
景観画像と加工クエリ画像との類似度が低いほど当該景観画像とクエリ画像との類似度を増補正することを特徴とする請求項8に記載の類似画像抽出方法。
【請求項11】
前記各類似度を深層学習ベースで計算することを特徴とする請求項8ないし10のいずれかに記載の類似画像抽出方法。
【請求項12】
クエリ画像に類似する画像を景観画像群から抽出する類似画像抽出プログラムにおいて、
クエリ画像を加工して加工クエリ画像を生成する手順と、
景観画像とクエリ画像および加工クエリ画像との各類似度を計算する手順と、
クエリ画像と景観画像との類似度を当該景観画像と加工クエリ画像との類似度に基づいて補正する手順と、をコンピュータに実行させ
、
前記補正する手順では、加工クエリ画像との類似度が相対的に低い景観画像ほど抽出されるように、当該景観画像とクエリ画像との類似度を補正することを特徴とする類似画像抽出プログラム。
【請求項13】
前記補正する手順は、景観画像と加工クエリ画像との類似度が高いほど当該景観画像とクエリ画像との類似度を減補正することを特徴とする請求項12に記載の類似画像抽出プログラム。
【請求項14】
前記補正する手順は、景観画像と加工クエリ画像との類似度が低いほど当該景観画像とクエリ画像との類似度を増補正することを特徴とする請求項12に記載の類似画像抽出プログラム。
【請求項15】
前記各類似度を計算する手順は、深層学習ベースで類似度を計算することを特徴とする請求項12ないし14のいずれかに記載の類似画像抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、類似画像抽出装置、方法及びプログラムに係り、特に、深層学習を用いた類似画像抽出に好適な類似画像抽出装置、方法及びプログラムに関する。
【背景技術】
【0002】
景観画像の特徴的な点(画像特徴点)の三次元位置を予めデータベース化しておき、ユーザがモバイル端末で撮影したカメラ画像をクエリ画像として、データベース上の景観画像と比較して類似度を計算し、類似度が高い景観画像の位置や向きに基づいてモバイル端末の位置を推定する技術が、例えばVPS(Visual Positioning Service/System)として知られている。
【0003】
また、画像間の類似度をロバストに計算する技術が特許文献1,2に開示されている。非特許文献1には、深層学習を利用して画像の大局特徴量の類似度を計算する技術が開示されている。非特許文献2には、局所特徴を束ねた平均ベクトに基づいて類似度を推定する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2008-186150号公報
【文献】特開2013-054529号公報
【非特許文献】
【0005】
【文献】Fine-tuning CNN Image Retrieval with No Human Annotation
【文献】Revisiting the VLAD image representation
【発明の概要】
【発明が解決しようとする課題】
【0006】
画像間の類似度、特にVPSのように景観画像間の類似度を正確に評価するためには、方向や回転に対してロバストな類似評価手法を採用することが望ましい。この点、深層学習を用いると画像全体の代表的な大局特徴量に基づいて類似度が評価されるために局所的な特徴量に差異があっても正確な類似度評価が可能になる。
【0007】
その反面、深層学習は反転などのジオメトリに関する重みが弱い傾向にある。そのため、例えば
図7に示したように、歩道橋を左側から撮影した左側視点の画像をクエリ画像とした類似度評価において、対象となる画像群に左側視点の画像のみならず、同様の角度、配置、オブジェクトを含む右側視点の画像も含まれていると、左側視点の画像よりも右側視点の画像の方が類似度を高く評価されることがあった。
【0008】
本発明の目的は、類似度評価の対象となる画像群に、クエリ画像とは視点が異なるものの、例えばその反転画像のように大局特徴量が類似するために類似度が高く評価されがちな画像が含まれていても、クエリ画像と視点が同じ画像の類似度を高く評価できる類似画像抽出装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記の目的を達成するために、本発明は、クエリ画像に類似する画像を抽出する類似画像抽出装置において、以下の構成を具備した点に特徴がある。
【0010】
(1) クエリ画像に加工を施し、例えば反転加工して反転クエリ画像を生成する手段と、景観画像とクエリ画像および反転クエリ画像との各類似度を計算する手段と、クエリ画像と景観画像との類似度を当該景観画像と反転クエリ画像との類似度に基づいて補正する手段とを具備した。
【0011】
(2) 前記補正する手段は、景観画像と反転クエリ画像との類似度が高いほど当該景観画像とクエリ画像との類似度を減補正するようにした。
【0012】
(3) 前記補正する手段は、景観画像と反転クエリ画像との類似度が低いほど当該景観画像とクエリ画像との類似度を増補正するようにした。
【0013】
(4)前記各類似度を計算する手段は、深層学習ベースで類似度を計算するようにした。
【発明の効果】
【0014】
本発明によれば、以下のような効果が達成される。
【0015】
(1) クエリ画像および反転クエリ画像のいずれにも類似する景観画像は、例えばクエリ画像とは被写体に対する視点が左右の関係にある景観画像のように、クエリ画像とジオメトリが相違するにもかかわらず大局特徴量が類似するために高く評価されている可能性がある。したがって、このような景観画像の類似度評価を補正することで、真にクエリ画像に類似する景観画像を抽出できるようになる。
【0016】
(2) クエリ画像および反転クエリ画像のいずれにも類似するが特に反転クエリ画像との類似度が高い景観画像は反転クエリ画像の視点で撮影されている可能性が高い。したがって、反転クエリ画像との類似度が高い景観画像については、そのクエリ画像との類似度を低く補正することで、クエリ画像の視点で撮影されている景観画像の類似度を相対的に高められるようになる。
【0017】
(3) クエリ画像および反転クエリ画像のいずれにも類似するが特に反転クエリ画像との類似度が低い景観画像はクエリ画像の視点で撮影されている可能性が高い。したがって、反転クエリ画像との類似度が低い景観画像については、そのクエリ画像との類似度を高く補正することで、クエリ画像の視点で撮影されている景観画像の類似度を相対的に高められるようになる。
【0018】
(4) 深層学習ベースで類似度を計算すれば、ジオメトリに関する重みが弱いという深層学習の弱点を補いながらロバストな類似画像抽出を実現できるようになる。
【図面の簡単な説明】
【0019】
【
図1】本発明を適用した位置推定システムの主要部の構成を示した機能ブロック図である。
【
図2】位置推定装置の構成を示した機能ブロック図である。
【
図3】クエリ画像および反転クエリ画像の例を示した図である。
【
図4】類似画像の抽出手順を示したフローチャートである。
【
図5】類似度スコアの補正例を示した図(その1)である。
【
図6】類似度スコアの補正例を示した図(その2)である。
【
図7】類似画像抽出の課題を説明するための図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1は、本発明を適用した位置推定システムの主要部の構成を示した機能ブロック図であり、VPS(Visual Positioning Service/System)ベースの位置推定装置1および画像データベース(DB)2を主要な構成としている。
【0021】
位置推定装置1は、本発明の一実施形態に係る類似画像抽出部を具備する。画像DB2は、VPS地図の生成に利用した多数の景観画像Iを、その位置情報や向き情報と共に管理する。前記位置推定装置1および画像DB2の一部若しくは全部はモバイル端末3に搭載されていてもよい。
【0022】
このような構成において、本実施形態では自身の位置推定を所望するユーザが、スマートフォンなどのモバイル端末3が備えるカメラ機能で周囲の景観を撮影し、このカメラ画像をクエリ画像Iqとして添付した位置要求をネットワーク経由で位置推定装置1へ送信する。本実施形態では、歩道橋の階段部分を正面左側から撮影したカメラ画像がクエリ画像Iqとして添付されたものとして説明を続ける。
【0023】
位置推定装置1は、位置要求に添付されたクエリ画像Iqに類似する景観画像Iを画像DB2から抽出し、当該景観画像Iに対応付けられた位置情報や向き情報に基づいてモバイル端末3の位置を推定する。位置推定の結果はネットワーク経由でモバイル端末3へ応答される。
【0024】
図2は、前記位置推定装置1の構成を示した機能ブロック図であり、ここでは本発明の説明に不要な構成は図示を省略している。このような位置推定装置1は、CPU,ROM,RAM,バス,インタフェース等を備えた少なくとも一台の汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
【0025】
クエリ画像取得部10は、モバイル端末3から受信した位置要求に添付されたクエリ画像Iqを取得する。このクエリ画像Iqは類似画像抽出部11および位置推定部12へ提供される。類似画像抽出部11は、画像加工部111,第1類似度計算部112、第2類似度計算部113、類似度補正部114および類似画像決定部115を主要な構成としている。
【0026】
前記画像加工部111は、取得したクエリ画像Iqを加工して加工クエリ画像を生成する。本実施形態ではクエリ画像Iqの左右を反転させた反転クエリ画像Ifqを生成する。例えば、
図3(a)に示すように歩道橋の階段部分を斜め左側から撮影したクエリ画像Iqが取得されると、これを左右反転加工することで、同図(b)に示すように階段部分を斜め右側から撮影したような反転クエリ画像Ifqが生成される。
【0027】
第1類似度計算部112は、取得したクエリ画像Iqと画像DB2が管理する多数の景観画像Ii(iは景観画像識別子)との類似度スコアをそれぞれ計算する。第2類似度計算部113は、前記反転クエリ画像Ifqと各景観画像Iiとの類似度スコアをそれぞれ計算する。本実施形態では、第1類似度計算部112が計算したクエリ画像Iqとの類似度スコアが高い上位N個の景観画像Ij(0≦j<N)を対象に、第2類似度計算部113が反転クエリ画像Ifqとの類似度スコアを更に計算する。
【0028】
類似度補正部114は、クエリ画像Iqと前記N個の景観画像Ijとの類似度スコアの計算結果を、当該景観画像Ijと反転クエリ画像Ifqとの類似度スコアの計算結果に基づいて補正する。本実施形態では、反転クエリ画像Ifqとの類似度が高い景観画像Ijほどクエリ画像Iqとの類似度スコアが減補正される。あるいは反転クエリ画像Ifqとの類似度が低い景観画像Ijほどクエリ画像Iqとの類似度スコアが増補正される。類似画像決定部115は、補正後の類似度スコアが高い上位M個(M<N)の景観画像Iを位置推定に用いる景観画像に決定する。
【0029】
図4は、前記類似画像抽出部11における類似画像抽出の手順を示したフローチャートであり、ステップS1では、位置要求に添付されたクエリ画像Iq[
図3 (a)]が前記クエリ画像取得部10により取得される。ステップS2では、前記画像加工部111によりクエリ画像Iqを反転させた反転クエリ画像Ifq[
図3 (b)]が生成される。
【0030】
ステップS3では、クエリ画像IqとVPS地図の生成に利用した多数の景観画像Iiとの類似度スコアSCoriginaliが前記第1類似度計算部112により計算される。ステップS4では、類似度スコアSCoriginaliが高い上位N個の景観画像Ij(0≦j<N)が抽出される。
【0031】
ステップS5では、反転クエリ画像Ifqと前記上位N個の景観画像Ijとの類似度スコアSCflipjが前記第2類似度計算部112により計算される。ステップS6では、クエリ画像Iqと景観画像Ijとの類似度スコアSCoriginaljが、前記類似度補正部114により反転クエリ画像Ifqと景観画像Ijとの類似度スコアSCflipjに基づいて補正される。
【0032】
本実施形態では、
図5に一例を示したように、反転クエリ画像Ifqとの類似度スコアSCflip
jが所定の補正閾値(例えば、0.9)を下回っている景観画像Ijについてはクエリ画像Iqとの類似度スコアSCoriginal
jを維持する。これに対して、反転クエリ画像Ifqとの類似度スコアSCflip
jが補正閾値以上の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginal
jを一律に、または類似度スコアSCflip
jの大きさに応じて減補正する。あるいは、SCoriginalj<SCflipjの場合に当該SCoriginaljを減補正するようにしてもよい。
【0033】
図示の例では、反転クエリ画像Ifqとの類似度スコアSCflipjが0.83の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginaljが0.9のまま維持される一方、反転クエリ画像Ifqとの類似度スコアSCflipjが0.92の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginaljが0.6に減補正されている。
【0034】
あるいは
図6に示したように、反転クエリ画像Ifqとの類似度スコアSCflip
jが所定の補正閾値(例えば、0.9)を下回っている景観画像Ijについては、クエリ画像Iqとの類似度スコアSCoriginal
jを一律に、または類似度スコアSCflip
jの大きさに応じて増補正する一方、類似度スコアSCflip
jが補正閾値以上の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginal
jを維持するようにしても良い。あるいは、SCoriginalj>SCflipjの場合に、当該SCoriginaljを増補正するようにしてもよい。
【0035】
図示の例では、反転クエリ画像Ifqとの類似度スコアSCflipjが0.73の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginaljが0.8から0.9に増補正される一方、反転クエリ画像Ifqとの類似度スコアSCflipjが0.92の景観画像Ijについては、そのクエリ画像Iqとの類似度スコアSCoriginaljが0.82のまま維持される。
【0036】
なお、各景観画像Ijのクエリ画像Iqとの類似度スコアSCoriginaljを反転クエリ画像Ifqとの類似度スコアSCflipjに基づいて補正する方法は上記に限定されるものではなく、各景観画像Ijのクエリ画像Iqとの類似度スコアSCoriginaljの値を、反転クエリ画像Ifqとの類似度スコアSCflipjが大きいほど低くできる補正方法であれば、どのような補正方法を適用しても良い。
【0037】
図4へ戻り、ステップS7では、補正後の類似度スコアSCoriginal
iが高いM個(M<N)の景観画像Ii(0≦i<M)が、前記類似画像決定部115により位置推定用の景観画像Iに決定される。
【0038】
図2へ戻り、位置推定部12は、クエリ画像Iqと前記M個の景観画像Iiに基づいて、PnP問題あるいはバンドル調整などの最小化問題の解法手順によりクエリ画像Iqの撮影位置を推定する。位置応答部13は、位置推定の結果をモバイル端末3へ応答する。
【0039】
本実施形態によれば、クエリ画像と景観画像との類似度が当該景観画像と反転クエリ画像との類似度に基づいて補正されるので、左右反転に対してロバストな特性を備えた深層学習ベースでの類似画像抽出において、反転クエリ画像には非類似で特にクエリ画像に類似する景観画像を抽出できるようになる。そして、このような類似画像検索装置をVPSに適用することで、より正確な位置推定が可能になる。
【0040】
本実施形態によれば、被写体に対する視点がクエリ画像Iqとは左右の関係にあるために、クエリ画像Iqとジオメトリが相違するにもかかわらず大局特徴量が類似し、クエリ画像Iqのみならず反転クエリ画像Ifqにも類似する景観画像は、反転クエリ画像Ifqとの類似度に応じてクエリ画像Iqとの類似度が補正されるので、真にクエリ画像に類似する景観画像を抽出できるようになる。
【0041】
なお、上記の実施形態では前記画像加工部111が加工クエリ画像として、クエリ画像Iqの左右を反転させた反転クエリ画像を生成するものとして説明した。しかしながら、本発明はこれのみに限定されるものではなく、手ぶれ等が原因でぶれた景観画像がデータベースに含まれ得ることを考慮して、クエリ画像Iqに「ぶれ」を模擬する加工を加え、ぶれたクエリ画像との類似度の方が高い場合に景観画像との類似度スコアSCoriginaljに補正を加えることで、望ましくない画像が選択されることを防ぐようにしても良い。
【0042】
そして、上記の実施形態によれば高精度な位置推定を通信インフラ経由で安価に提供することが可能となるので、地理的あるいは経済的な格差を超えて多くの人々に多様なサービスを提供できるようになる。その結果、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。
【符号の説明】
【0043】
1…位置推定装置,2…画像データベース(DB),3…モバイル端末,10…クエリ画像取得部,11…類似画像抽出部,12…位置推定部,13…位置応答部,111…画像加工部,112…第1類似度計算部,113…第2類似度計算部,114…類似度補正部,115…類似画像決定部