(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-23
(45)【発行日】2025-07-01
(54)【発明の名称】画像処理装置、画像処理方法及び画像処理プログラム
(51)【国際特許分類】
G06T 3/20 20060101AFI20250624BHJP
G06V 30/166 20220101ALI20250624BHJP
【FI】
G06T3/20
G06V30/166
(21)【出願番号】P 2024534761
(86)(22)【出願日】2023-07-27
(86)【国際出願番号】 JP2023027609
(87)【国際公開番号】W WO2025022665
(87)【国際公開日】2025-01-30
【審査請求日】2024-06-13
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100145838
【氏名又は名称】畑添 隆人
(74)【代理人】
【識別番号】100103137
【氏名又は名称】稲葉 滋
(74)【代理人】
【識別番号】100216367
【氏名又は名称】水谷 梨絵
(72)【発明者】
【氏名】バルソピヤ ヴィヴェク
(72)【発明者】
【氏名】ローハス メナンヅロ
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2018-198030(JP,A)
【文献】特開2017-168077(JP,A)
【文献】特開2002-207963(JP,A)
【文献】特開2008-077489(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 3/14-30/20
G06V 30/14-30/168
(57)【特許請求の範囲】
【請求項1】
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得手段と、
前記オブジェクトの正面形状に係る形状データを取得する形状データ取得手段と、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、
前記形状データに従って特定される前記オブジェクトの正面形状と前記クエリ画像中のオブジェクト画像との比較結果に従って、該オブジェクトの正面方向を示す法線方向を推定する法線推定手段と、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定手段と、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換手段と、
を備える画像処理装置。
【請求項2】
前記形状データは、同一の種類又は属性に係るオブジェクトについての、範囲を有する形状データであり、
前記法線推定手段は、前記複数のオブジェクトの夫々について、前記形状データの前記範囲におけ
る最小値に係る前記法線方向及
び最大値に係る前記法線方向を算出し、
前記代表法線決定手段は、前記複数のオブジェクトについて推定された、前記形状データの範囲における前記最小値に係る前記複数の法線方向と、前記複数のオブジェクトの夫々について推定された、前記形状データの範囲における前記最大値に係る前記複数の法線方向と、を代表する法線方向を、前記代表法線方向として決定する、
請求項1に記載の画像処理装置。
【請求項3】
前記複数のオブジェクトの夫々について、前記形状データに従って特定される前記オブジェクトの正面形状と前記クエリ画像中のオブジェクト画像との間のホモグラフィ行列を算出するホモグラフィ行列算出手段を更に備え、
前記法線推定手段は、前記複数のオブジェクトの夫々について、前記ホモグラフィ行列算出手段によって算出されたホモグラフィ行列に基づいて、該オブジェクトの法線方向を推定する、
請求項1に記載の画像処理装置。
【請求項4】
前記形状データは、同一の種類又は属性に係るオブジェクトについての、範囲を有する形状データであり、
前記ホモグラフィ行列算出手段は、前記複数のオブジェクトの夫々について、前記形状データの前記範囲における最小値に係る前記ホモグラフィ行列及び最大値に係る前記ホモグラフィ行列を算出し、
前記法線推定手段は、前記複数のオブジェクトの夫々について、前記形状データの前記範囲における前記最小値に係る前記法線方向及び前記最大値に係る前記法線方向を算出し、
前記代表法線決定手段は、前記複数のオブジェクトについて推定された、前記形状データの範囲における前記最小値に係る前記複数の法線方向と、前記複数のオブジェクトの夫々について推定された、前記形状データの範囲における前記最大値に係る前記複数の法線方向と、を代表する法線方向を、前記代表法線方向として決定する、
請求項3に記載の画像処理装置。
【請求項5】
前記形状データは、予め保持された前記オブジェクトのアスペクト比を含み、
前記範囲は、アスペクト比の範囲である、
請求項2又は4に記載の画像処理装置。
【請求項6】
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得手段と、
文字認識の対象としたいオブジェクトの種類又は属性の入力に対して、該種類又は該属性に係るオブジェクトが撮像されている前記クエリ画像中の位置又は範囲を出力する機械学習モデルを用いて、該クエリ画像中に撮像されている複数のオブジェクトを検出するオブジェクト検出手段と、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、該オブジェクトの正面方向を示す法線方向を推定する法線推定手段と、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定手段と、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換手段と、
前記補正済クエリ画像に対して文字認識処理を施すことで、文字認識の対象としたい前記オブジェクトに記載された文字を認識する、文字認識手段と、
を備える画像処理装置。
【請求項7】
前記法線推定手段は、クエリ画像中に撮像されている複数のオブジェクトの夫々について、該オブジェクトの正面方向を示す法線ベクトルを推定し、
前記代表法線決定手段は、前記複数のオブジェクトについて推定された前記複数の法線ベクトルの平均を、前記代表法線方向として決定する、
請求項1又は6に記載の画像処理装置。
【請求項8】
前記変換手段は、前記代表法線方向が変換後の画像の正面方向となるように前記クエリ画像を射影変換する、
請求項1又は6に記載の画像処理装置。
【請求項9】
コンピュータが、
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得ステップと、
前記オブジェクトの正面形状に係る形状データを取得する形状データ取得ステップと、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、
前記形状データに従って特定される前記オブジェクトの正面形状と前記クエリ画像中のオブジェクト画像との比較結果に従って、該オブジェクトの正面方向を示す法線方向を推定する法線推定ステップと、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定ステップと、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換ステップと、
を実行する画像処理方法。
【請求項10】
コンピュータが、
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得ステップと、
文字認識の対象としたいオブジェクトの種類又は属性の入力に対して、該種類又は該属性に係るオブジェクトが撮像されている前記クエリ画像中の位置又は範囲を出力する機械学習モデルを用いて、該クエリ画像中に撮像されている複数のオブジェクトを検出するオブジェクト検出ステップと、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、該オブジェクトの正面方向を示す法線方向を推定する法線推定ステップと、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定ステップと、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換ステップと、
前記補正済クエリ画像に対して文字認識処理を施すことで、文字認識の対象としたい前記オブジェクトに記載された文字を認識する、文字認識ステップと、
を実行する画像処理方法。
【請求項11】
コンピュータを、
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得手段と、
前記オブジェクトの正面形状に係る形状データを取得する形状データ取得手段と、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、
前記形状データに従って特定される前記オブジェクトの正面形状と前記クエリ画像中のオブジェクト画像との比較結果に従って、該オブジェクトの正面方向を示す法線方向を推定する法線推定手段と、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定手段と、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換手段と、
として機能させる画像処理プログラム。
【請求項12】
コンピュータを、
複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得手段と、
文字認識の対象としたいオブジェクトの種類又は属性の入力に対して、該種類又は該属性に係るオブジェクトが撮像されている前記クエリ画像中の位置又は範囲を出力する機械学習モデルを用いて、該クエリ画像中に撮像されている複数のオブジェクトを検出するオブジェクト検出手段と、
前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、該オブジェクトの正面方向を示す法線方向を推定する法線推定手段と、
前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定手段と、
前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換手段と、
前記補正済クエリ画像に対して文字認識処理を施すことで、文字認識の対象としたい前記オブジェクトに記載された文字を認識する、文字認識手段と、
として機能させる画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理技術に関する。
【背景技術】
【0002】
従来、撮像装置より取得した画像からナンバープレートの周辺画像を切り出す車両検出部と、ナンバープレートの周辺画像からナンバープレートの正面画像を抽出するナンバープレート検出部と、ナンバープレートの正面画像から自動車登録番号を認識する文字認識部と、文字認識部の認識難易度に基づいてナンバープレート検出部の正面画像を抽出する能力を判定する信頼度判定部と、信頼度判定部の判定結果によりナンバープレート検出部の正面画像を抽出する能力を変更するモデル変更部と、を備える認識装置が提案されている(特許文献1を参照)。
【0003】
また、従来、ホモグラフィ行列を分解することで、平面物体の2つの画像間のカメラの変位を推定する技術が知られている(非特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】Ezio Malis,Manuel Vargas,“Deeper understanding of the homography decomposition for vision-based control”,INSTITUT NATIONAL DE RECHERCHE EN INFORMATIQUE ET EN AUTOMATIQUE,2007年9月25日,RR-6303
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来、画像に含まれる所定の対象(撮像されたオブジェクトや文字等)を認識するための技術が種々提案されているが、画像中の対象の認識精度について改善の余地がある。本開示は、上記した問題に鑑み、画像に含まれる所定の対象の認識精度を向上させることを課題とする。
【課題を解決するための手段】
【0007】
本開示の一例は、複数のオブジェクトが撮像されたクエリ画像を取得するクエリ画像取得手段と、前記クエリ画像中に撮像されている前記複数のオブジェクトの夫々について、該オブジェクトの正面方向を示す法線方向を推定する法線推定手段と、前記複数のオブジェクトについて推定された複数の法線方向に基づいて、前記クエリ画像全体を代表する代表法線方向を決定する代表法線決定手段と、前記代表法線方向に基づいて前記クエリ画像を幾何学変形することで補正済クエリ画像を生成する変換手段と、を備える画像処理装置である。
【0008】
本開示は、画像処理装置、システム、コンピュータによって実行される方法又はコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
【発明の効果】
【0009】
本開示によれば、画像に含まれる所定の対象の認識精度を向上させることが可能となる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係るシステムの構成を示す概略図である。
【
図2】実施形態に係る画像処理装置の機能構成の概略を示す図である。
【
図3】実施形態におけるクエリ画像の例を示す図である。
【
図4】実施形態におけるクエリ画像に、従来の手法に従った幾何学変換を施した例を示す図である。
【
図5】実施形態に係る画像変換及び文字認識処理の流れを示すフローチャートである。
【
図6】実施形態における、異なる向きに係る2つのオブジェクトの夫々について推定される法線ベクトルの例を示す図である。
【
図7】実施形態におけるクエリ画像において、複数のオブジェクトの夫々について推定された最小比法線ベクトル及び最大比法線ベクトルの例を示す図である。
【
図8】実施形態において、異なる向きに係る2つのオブジェクトの夫々について推定された、複数の最小比法線ベクトルと、複数の最大比法線ベクトルと、に基づいて代表法線ベクトルが算出される概念を示す図である。
【
図9】実施形態におけるクエリ画像に、代表法線ベクトルに基づく幾何学変換を施した例を示す図である。
【発明を実施するための形態】
【0011】
以下、本開示に係る画像処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る画像処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
【0012】
従来、撮像等によって取得された画像に含まれる、文字認識の対象としたい領域を正面に向ける幾何学変換を行ってから文字認識を行うことが行われている。しかし、文字認識の対象としたい領域が画像中に複数含まれており、これらの複数の領域における認識対象文字の記載面(正面)が互いに異なる方向を向いていたり、撮像に用いたカメラとの位置関係によって射影が互いに異なっていたりする場合には、いずれかの領域を正面に向ける幾何学変換を行ったとしても、正面に向けられた領域について文字認識のために好適な状態となるが、その他の領域については文字認識において好適な状態とならない。即ち、従来の技術には、文字認識の対象となる複数の領域が同一画像内で離間して所在するケースで認識精度を向上させるという点で改善の余地がある。本開示は、上記した問題に鑑み、複数の領域が撮像されたクエリ画像について文字認識のために好適な画像変換を行うことを課題とする。
【0013】
本実施形態では、本開示に係る技術を、複数のオブジェクトが撮像されたクエリ画像について、文字認識のために好適な画像変換を行った後、変換後の画像に対して文字認識処理を行う実施の形態について説明する。但し、本開示に係る技術は、複数の領域が撮像されたクエリ画像について文字認識のために好適な画像変換を行うために広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。例えば、オブジェクトは有体物でなく、仮想空間に描画されるオブジェクトや描画ソフトウェアを用いて描画されたオブジェクトであってもよい。また例えば、画像は、現実世界が撮像された画像でなく、仮想世界が描画された画像や描画ソフトウェアを用いて描画された画像であってもよい。
【0014】
<システムの構成>
図1は、本実施形態に係るシステムの構成を示す概略図である。本実施形態に係るシステムは、ネットワークに接続されることで互いに通信可能な画像処理装置1と、撮像装置81と、ユーザ端末9とを備える。
【0015】
画像処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、等を備えるコンピュータである。但し、画像処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、画像処理装置1は、単一の筐体からなる装置に限定されない。画像処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0016】
撮像装置81は、対象の撮像を行うことで、後述するクエリ画像を得る。撮像装置81には、一般的なデジタルカメラその他の、対象から入射する光を記録可能な装置が用いられればよく、その具体的な構成は限定されない。
【0017】
ユーザ端末9は、ユーザによって使用される端末装置である。ユーザ端末9は、CPU、ROM、RAM、記憶装置、通信ユニット、入力装置、出力装置等(図示は省略する)を備えるコンピュータである。但し、ユーザ端末9の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、ユーザ端末9は、単一の筐体からなる装置に限定されない。ユーザ端末9は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。ユーザは、これらのユーザ端末9を介して、本実施形態に係るシステムによって提供される各種サービスを利用する。
【0018】
図2は、本実施形態に係る画像処理装置1の機能構成の概略を示す図である。画像処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、画像処理装置1に備えられた各ハードウェアが制御されることで、クエリ画像取得部21、オブジェクト検出部22、形状データ取得部23、ホモグラフィ行列算出部24、法線推定部25、代表法線決定部26、変換部27、及び文字認識部28を備える画像処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、画像処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0019】
クエリ画像取得部21は、画像処理及び/又は文字認識の対象である複数のオブジェクトが同時に撮像された、クエリ画像を取得する。クエリ画像の取得方法は限定されないが、本実施形態では、撮像装置81を用いて撮像されたクエリ画像を、ユーザ端末9を介して取得する例について説明する。
【0020】
図3は、本実施形態におけるクエリ画像の例を示す図である。本図には、店舗内のテーブルに設置されて当該スマートフォンのタッチパネル付ディスプレイに商品案内が表示されている状態の複数のスマートフォンと、複数のスマートフォンの夫々についての説明や価格等の情報が記載されて当該スマートフォンの近傍に設置される説明用の媒体(以下、単に「商品情報カード」と称する)と、が撮像されているクエリ画像が示されている。担当者は、本実施形態における画像処理及び文字認識の対象であるオブジェクトとしてのスマートフォン及び商品情報カードが複数存在するロケーションにおいて、これらのオブジェクトが同一の画像に含まれるように写真を撮像し、これをクエリ画像とする。
【0021】
図4は、本実施形態におけるクエリ画像に、従来の手法に従った幾何学変換を施した例を示す図である。本図によれば、例えば、クエリ画像中央の商品情報カードがカメラに正対するように画像変換を施した場合、変換によってカメラに正対した中央の商品情報カードについては文字認識に好適な状態となるが、その他のオブジェクト、特に中央の商品情報カードと正面方向(本実施形態においてオブジェクトは文字認識の対象であるため、以下、オブジェクトに表示された認識対象文字の記載面の法線方向を正面方向とする。)が大きく異なる画面端のスマートフォンについては歪みが増し、文字認識の精度が下がるであろうことがわかる。また、画像変換前においてスマートフォンと当該スマートフォンに対応する商品情報カードとの位置は縦に並ぶ位置関係を有しているが(
図3を参照)、画像変換後においてはスマートフォンと当該スマートフォンに対応する商品情報カードとの位置が縦の並びにおいてずれており、スマートフォンと商品情報カードとの関連付けも困難となっていることがわかる。
【0022】
上記のような問題を解決したい場合、クエリ画像に含まれる複数のオブジェクトの夫々について当該オブジェクトを正面に向ける画像変換を行い、当該オブジェクトについて文字認識を行うことも考えられるが、そのような手法を採用した場合には、クエリ画像内のオブジェクトの数と同じ回数の画像変換及び文字認識処理が必要となる。このため、本実施形態に係るシステムでは、1のクエリ画像に対する画像変換及び文字認識処理の回数を抑制しつつ、文字認識の精度を高めることとしている。
【0023】
オブジェクト検出部22は、クエリ画像から、複数のオブジェクト画像を検出する。本実施形態において、オブジェクト検出部22は、文字認識の対象としたいオブジェクトの種類又は属性の入力に対して、当該種類又は当該属性に係るオブジェクトが撮像されているクエリ画像中の位置又は範囲を出力する機械学習モデルを用いて、当該クエリ画像中に撮像されている複数のオブジェクトを検出する。但し、画像からのオブジェクト検出に際して用いられるオブジェクト検出技術の種類は限定されず、現在知られているオブジェクト検出技術の他、将来開発されるいずれのオブジェクト検出技術が用いられてもよい。
【0024】
形状データ取得部23は、オブジェクトの正面形状に係る形状データを取得する。例えば、形状データは、RAM13又は記憶装置14等に予め保持された当該オブジェクトのアスペクト比、サイズ、設計データ、正面画像等であってよい。また、形状データは、同一の種類又は属性に係るオブジェクトの少なくとも正面の形状を一意に決定するデータであってよい。
【0025】
但し、同一の種類又は属性に係るオブジェクトであっても、指定される種類又は属性によっては、当該種類又は属性に係るオブジェクトの正面形状は一意に定まらない場合がある。例えば、オブジェクトが「〇〇社製スマートフォン、機種番号XX-XX」又は「B8判カード」のように特定される場合、その形状は一意に決定可能であるが、オブジェクトが単に「スマートフォン」、「〇〇社製スマートフォン」、又は「商品情報カード」とのみ指定される場合には、その形状には幅がある。このため、本実施形態において、形状データは、同一の種類又は属性に係るオブジェクトについての、範囲を有する形状データであってもよい。範囲を有する形状データは、例えば、当該オブジェクトのアスペクト比の範囲、サイズの範囲、複数の正面画像等であってよい。本実施形態では、形状データとしてオブジェクトのアスペクト比の範囲が用いられる場合を例に挙げて説明する。
【0026】
ホモグラフィ行列算出部24は、複数のオブジェクトの夫々について、形状データに従って特定されるオブジェクトの正面形状とクエリ画像中の当該オブジェクトに係るオブジェクト画像との間のホモグラフィ行列を算出する。ここで、上記のように形状データが範囲を有する場合、ホモグラフィ行列算出部24は、複数のオブジェクトの夫々について、形状データの範囲における最小値に係るホモグラフィ行列及び最大値に係るホモグラフィ行列を算出する。
【0027】
法線推定部25は、クエリ画像中に撮像されている複数のオブジェクトの夫々について、当該オブジェクトの正面方向を示す法線方向を推定する。本実施形態において、法線推定部25は、複数のオブジェクトの夫々について、ホモグラフィ行列算出部24によって算出されたホモグラフィ行列に基づいて当該オブジェクトの法線方向(法線ベクトル)を推定することで、形状データに従って特定されるオブジェクトの正面形状とクエリ画像中のオブジェクト画像との比較結果に従った当該オブジェクトの法線方向を推定する。
【0028】
但し、オブジェクトの法線方向を推定するための具体的な方法は、ホモグラフィ行列からの法線ベクトル算出に限定されない。また、上記のように形状データが範囲を有する場合、法線推定部25は、複数のオブジェクトの夫々について、形状データの範囲における最小値に係る法線方向及び最大値に係る法線方向を算出する。
【0029】
代表法線決定部26は、複数のオブジェクトについて推定された複数の法線方向に基づいて、クエリ画像全体を代表する代表法線方向を決定する。本実施形態において、代表法線決定部26は、複数のオブジェクトについて推定された複数の法線ベクトルの平均値を、代表法線ベクトルとし、当該代表法線ベクトルの向きを、代表法線方向として決定する。但し、代表法線方向は、統計的手法を用いて代表となる方向を得る方法で取得されればよく、法線ベクトルの平均値を算出する以外の方法で算出されてもよい。また、上記のように形状データが範囲を有する場合、代表法線決定部26は、複数のオブジェクトについて推定された、形状データの範囲における最小値に係る複数の法線方向と、複数のオブジェクトの夫々について推定された、形状データの範囲における最大値に係る複数の法線方向と、を代表する法線方向を、代表法線方向として決定する。
【0030】
変換部27は、代表法線方向に基づいてクエリ画像を幾何学変形することで、補正済クエリ画像を生成する。本実施形態では、変換部27は、代表法線方向が変換後の画像の正面方向となるようにクエリ画像を射影変換することで、補正済クエリ画像を生成する。
【0031】
文字認識部28は、補正済クエリ画像に対して文字認識処理を施すことで、文字認識の対象としたいオブジェクトに記載された文字を認識する。本開示に係る技術は、文字認識に適した画像変換を提供することを目的としており、文字認識に採用される具体的なアルゴリズムは限定されない。文字認識には、従来用いられている又は将来開発される文字認識技術が採用されてよい。
【0032】
<処理の流れ>
次に、本実施形態に係る画像処理装置によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
【0033】
図5は、本実施形態に係る画像変換及び文字認識処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによる処理開始の指示が受け付けられたことを契機として実行される。
【0034】
ステップS101では、クエリ画像が取得される。作業者は、撮像装置81を用いて対象を撮像し、得られたクエリ画像の画像データを画像処理装置1に入力する。本実施形態において、撮像対象は、所定のオブジェクトとしてのスマートフォン及び商品情報カードが設置された店舗内のテーブルである。撮像方法及び画像データの画像処理装置1への入力方法は限定されないが、本実施形態では、撮像装置81を用いて対象が撮像され、撮像装置81からユーザ端末9に通信または記録媒体を介して転送された画像データが更にネットワークを介して画像処理装置1に転送されることで、クエリ画像の画像データが画像処理装置1に入力される。クエリ画像取得部21によってクエリ画像が取得されると、処理はステップS102へ進む。
【0035】
ステップS102では、文字認識の対象としたいオブジェクトが指定される。オブジェクト検出部22は、作業者によって入力された、クエリ画像に撮像されているオブジェクトのうち文字認識の対象としたいオブジェクトの種類又は属性を示すオブジェクト指定情報を取得する。本実施形態では、店舗内のテーブルが撮像されたクエリ画像に撮像されているオブジェクトのうち、商品として展示されたスマートフォン及び当該スマートフォンの商品情報カードを文字認識の対象とする例を説明する。このため、本実施形態では、オブジェクト識別情報として例えば「smartphone」及び「tag」が入力される。なお、本実施形態では、オブジェクト指定情報を、UIのプロンプトからユーザによって入力されたテキストデータとして取得する例を説明するが、オブジェクト識別情報の取得方法は、本実施形態における例示に限定されない。例えば、オブジェクト識別情報はテキストデータ以外のフォーマット(例えば、オブジェクトの種類又は属性を示すコード)で取得されてもよいし、オブジェクト識別情報は、クエリ画像の取得前に予めシステムに設定されていることで取得されてもよい。その後、処理はステップS103へ進む。
【0036】
ステップS103及びステップS104では、クエリ画像からオブジェクトが検出され、クエリ画像中のオブジェクトが撮像されている範囲がオブジェクト画像として切り出される。オブジェクト検出部22は、ステップS101で取得されたクエリ画像から、ステップS102で取得されたオブジェクト指定情報で指定された種類又は属性のオブジェクトを複数検出する(ステップS103)。ここでは、クエリ画像に撮像されているオブジェクトのうち、オブジェクト指定情報で指定された種類又は属性のオブジェクトが全て検出されることが好ましい。本実施形態において、クエリ画像からのオブジェクト検出には、例えば、畳み込みニューラルネットワーク(CNN)を用いたゼロショットオブジェクト検知器が用いられてよい。但し、画像からのオブジェクト検出に際して用いられるアルゴリズムの種類は限定されず、現在知られているアルゴリズムの他、将来開発されるいずれのアルゴリズムが用いられてもよい。
【0037】
クエリ画像から複数のオブジェクトが検出されると、オブジェクト検出部22は、検出された複数のオブジェクトについて、クエリ画像から、オブジェクトが撮像されている範囲を、オブジェクト画像として切り出す(ステップS104)。但し、オブジェクト画像の画像データは新たに生成されなくてもよく、オブジェクト画像は、クエリ画像中における範囲が特定されていればよい。その後、処理はステップS105へ進む。
【0038】
ステップS105では、オブジェクトのアスペクト比(縦横比)が設定される。形状データ取得部23は、ステップS103で検出された複数のオブジェクトの夫々について、当該オブジェクトの種類又は属性に応じたアスペクト比を設定する。具体的には、形状データ取得部23は、オブジェクトの種類又は属性毎に予め保持されている、当該オブジェクトを正面から見た場合(平面視した場合)の当該オブジェクトの構成の一部又は全体に係るアスペクト比を、検出されたオブジェクトの種類又は属性に基づいて選択し、当該オブジェクトのアスペクト比として設定する。ここで、オブジェクトの種類又は属性は、ステップS102で入力されたオブジェクト指定情報又はステップS103でオブジェクト検出器から得られた出力に基づいて識別可能である。本実施形態では、クエリ画像から検出されたオブジェクト「スマートフォン」について、スマートフォンのアスペクト比として予め保持されているアスペクト比を設定し、オブジェクト「商品情報カード」について、商品情報カードのアスペクト比として予め保持されているアスペクト比を設定する。
【0039】
なお、ここで設定されるアスペクト比は、範囲を有していてもよい。例えば、スマートフォンは機種によってアスペクト比が異なる。このため、本実施形態では、スマートフォンのアスペクト比は、「0.479から0.486の間」のように、最小値から最大値までの範囲で設定される。オブジェクトのアスペクト比(縦横比)が設定されると、処理はステップS106へ進む。
【0040】
ステップS106及びステップS107では、オブジェクトのホモグラフィ行列及び法線ベクトルが算出される。ホモグラフィ行列算出部24は、ステップS103で検出された複数のオブジェクトの夫々について、ステップS105で設定されたアスペクト比の範囲を用いて、ホモグラフィ行列を計算する。はじめに、ホモグラフィ行列算出部24は、オブジェクトの夫々について、オブジェクト画像からオブジェクトの所定の構成要素を検出し、設定されたアスペクト比に係る所定の構成要素とマッチさせる。本実施形態において、オブジェクトはスマートフォン及び商品情報カードであり、いずれも一般的には略矩形の形状を有している。このため、ホモグラフィ行列算出部24は、オブジェクトに係る矩形の頂点(角)を検出し、検出された頂点を、設定されたアスペクト比に係る矩形の頂点とマッチさせる。
【0041】
ここで、オブジェクト画像からオブジェクトの所定の構成要素(本実施形態では、矩形の頂点)を検出するための手段には、例えば画像中の特徴点を検出する画像解析技術が用いられてよい。但し、オブジェクト画像からの所定の構成要素の検出に際して用いられる画像解析技術の種類は限定されず、現在知られている画像解析技術の他、将来開発されるいずれの画像解析技術が用いられてもよい。
【0042】
オブジェクトから検出された所定の構成要素と設定されたアスペクト比に係る所定の構成要素とのマッチが完了すると、ホモグラフィ行列算出部24は、マッチさせたオブジェクト画像中のオブジェクトの矩形と、設定されたアスペクト比とを比較することで、オブジェクトのホモグラフィ行列を算出する(ステップS106)。
【0043】
ホモグラフィ行列が算出されると、法線推定部25は、ステップS103で検出された複数のオブジェクト画像の夫々について、ステップS106で得られたホモグラフィ行列を分解することで、当該オブジェクトの法線ベクトルを得る(ステップS107。なお、ホモグラフィ行列を分解することによって2つの平面オブジェクトの法線ベクトルを推定する方法の詳細については、非特許文献1を参照。)。
【0044】
図6は、本実施形態における、異なる向きに係る2つのオブジェクトA及びBの夫々について推定される法線ベクトルN
A及びN
Bの例を示す図である。本実施形態において算出される法線ベクトルは、ホモグラフィ行列を算出する際に用いられたアスペクト比が当該オブジェクトを正面から見た場合のアスペクト比であるため、当該オブジェクトの正面方向を示す法線ベクトルである。また、本実施形態において算出される法線ベクトルは、範囲を有するアスペクト比に基づいて算出されているため、最小アスペクト比に基づいて算出された法線ベクトル(以下、「最小比法線ベクトル」と称する。)から最大アスペクト比に基づいて算出された法線ベクトル(以下、「最大比法線ベクトル」と称する。)までの範囲を有する法線ベクトルである。
【0045】
図7は、本実施形態におけるクエリ画像において、複数のオブジェクトの夫々について推定された最小比法線ベクトル(破線で示す。)及び最大比法線ベクトル(実線で示す。)の例を示す図である。検出された複数のオブジェクトについて法線ベクトルが算出されると、処理はステップS108へ進む。
【0046】
ステップS108では、代表法線ベクトルが決定される。代表法線決定部26は、複数のオブジェクトについてステップS107で算出された複数の法線ベクトルに基づいて、これらのオブジェクトを含むクエリ画像を代表する代表法線ベクトルを決定する。本実施形態では、代表法線決定部26は、複数のオブジェクトの夫々について算出された法線ベクトルの平均を、代表法線ベクトルとして決定する。但し、代表法線ベクトルの決定方法は平均値の算出に限定されず、統計的手法を用いて代表となるベクトルを得る方法が採用されてもよい。
【0047】
図8は、本実施形態において、異なる向きに係る2つのオブジェクトA及びBの夫々について推定された、複数の最小比法線ベクトルN
A1及びN
B1と、複数の最大比法線ベクトルN
A2及びN
B2と、に基づいて代表法線ベクトルNが算出される概念を示す図である。上述の通り、ステップS107で算出された複数の法線ベクトルは、夫々、最小比法線ベクトルから最大比法線ベクトルまでの範囲(図中のオブジェクトAについては、最小比法線ベクトルN
A1から最大比法線ベクトルN
A2までの範囲。図中のオブジェクトBについては、最小比法線ベクトルN
B1から最大比法線ベクトルN
B2までの範囲。)を有する法線ベクトルである。このため、代表法線決定部26は、複数の最小比法線ベクトルの代表値(図中のN1。以下、「最小比代表法線ベクトル」と称する。)と複数の最大比法線ベクトルの代表値(図中のN2。以下、「最大比代表法線ベクトル」と称する。)と、を算出し、最小比代表法線ベクトルと最大比代表法線ベクトルとの代表値(図中のN。例えば、平均値)を算出することで、代表法線ベクトルを決定する。代表法線ベクトルが決定されると、処理はステップS109へ進む。
【0048】
ステップS109では、代表法線ベクトルに基づいてクエリ画像が射影変換される。変換部27は、ステップS108で決定された代表法線ベクトルが正面を向くように、クエリ画像を射影変換(本実施形態では、ホモグラフィ変換によるパースペクティブ補正)することで、補正済クエリ画像を得る。換言すれば、変換部27は、代表法線ベクトルに基づいて、射影変換後の補正済クエリ画像をXY平面とする場合の補正済クエリ画像において代表法線ベクトルのXY軸成分がゼロとなるような(Z軸成分のみとなるような)ホモグラフィ行列を算出し、当該ホモグラフィ行列を用いてクエリ画像をホモグラフィ変換する。
【0049】
図9は、本実施形態におけるクエリ画像に、代表法線ベクトルに基づく幾何学変換を施した例を示す図である。本図によれば、クエリ画像中の複数のオブジェクトを代表する代表法線ベクトルに基づく幾何学変換が行われることで、複数のオブジェクトを含むクエリ画像全体として文字認識に好適な状態となっており、クエリ画像全体として文字認識の精度が向上するであろうことがわかる。また、画像変換後においてもスマートフォンと当該スマートフォンに対応する商品情報カードとの位置が縦に並ぶ位置関係が概ね維持されていることがわかる。代表法線ベクトルに基づくクエリ画像の射影変換が完了すると、処理はステップS110へ進む。
【0050】
ステップS110では、補正済クエリ画像に撮像された文字が認識される。文字認識部28は、ステップS109で得られた補正済クエリ画像に対して光学文字認識(OCR)処理を施すことで、補正済クエリ画像に撮像された文字を認識する。その後、文字認識部28は文字認識結果を出力し、本フローチャートに示された処理は終了する。本フローチャートに示された処理によれば、上記のような処理の流れを有することで、クエリ画像に対する1回の画像変換、及び1回の文字認識処理での、クエリ画像に撮像された複数のオブジェクトに記載された文字の認識精度を、向上させることが出来る。
【0051】
<効果>
本実施形態に係る画像処理装置、方法及びプログラムによれば、複数の領域が撮像されたクエリ画像について文字認識のために好適な画像変換を行うことが可能となり、ひいては、複数の領域が撮像されたクエリ画像についての文字認識の精度を向上させることが可能となる。
【0052】
<バリエーション>
なお、上記説明した実施形態では、形状データが範囲を有する場合の処理を例に挙げて説明したが、上述の通り、形状データは、同一の種類又は属性に係るオブジェクトの少なくとも正面の形状を一意に決定するデータであってよい。このような形状データが用いられる場合、各オブジェクトについての最小比法線ベクトル及び最大比法線ベクトルの算出は省略され、複数のオブジェクトの夫々について1つずつ得られた法線ベクトルに基づいて、代表法線ベクトルが決定される。
【符号の説明】
【0053】
1 画像処理装置