IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

特許7564392画像認識装置、プログラム、及び画像認識方法
<>
  • 特許-画像認識装置、プログラム、及び画像認識方法 図1
  • 特許-画像認識装置、プログラム、及び画像認識方法 図2
  • 特許-画像認識装置、プログラム、及び画像認識方法 図3
  • 特許-画像認識装置、プログラム、及び画像認識方法 図4
  • 特許-画像認識装置、プログラム、及び画像認識方法 図5
  • 特許-画像認識装置、プログラム、及び画像認識方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】画像認識装置、プログラム、及び画像認識方法
(51)【国際特許分類】
   G06T 7/70 20170101AFI20241001BHJP
   G06T 7/00 20170101ALI20241001BHJP
   G06F 16/532 20190101ALI20241001BHJP
   G06F 16/58 20190101ALI20241001BHJP
【FI】
G06T7/70 A
G06T7/00 300F
G06F16/532
G06F16/58
【請求項の数】 12
(21)【出願番号】P 2024023167
(22)【出願日】2024-02-19
(62)【分割の表示】P 2022180500の分割
【原出願日】2022-11-10
(65)【公開番号】P2024070271
(43)【公開日】2024-05-22
【審査請求日】2024-02-19
【早期審査対象出願】
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】岡澤 淳郎
(72)【発明者】
【氏名】加藤 和夫
【審査官】菊池 伸郎
(56)【参考文献】
【文献】特許第7447221(JP,B1)
【文献】Nanqing Dong et al.,Few-Shot Semantic Segmentation with Prototype Learning,[online],2018年,[retrieved on 2023-12-14],<URL: http://bmvc2018.org/contents/papers/0255.pdf>
【文献】Hongsheng Wang et al.,Few-Shot Segmentation via Rich Prototype Generation and Recurrent Prediction Enhancement,[online],2022年10月03日,[retrieved on 2024-02-05], <URL: https://arxiv.org/abs/2210.00765>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/70
G06V 10/74
G06F 16/532
G06F 16/58
(57)【特許請求の範囲】
【請求項1】
クエリ画像を取得するクエリ画像取得部と、
認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、
前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
を備え、
前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から、複数の前記サポート画像を選択する、画像認識装置。
【請求項2】
クエリ画像を取得するクエリ画像取得部と、
認識対象が撮影された複数の画像を含むデータセットから、複数の候補画像を抽出する候補抽出部と、
前記候補抽出部によって抽出された前記複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、
前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
を備え、
前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、複数の前記サポート画像を選択する、
画像認識装置。
【請求項3】
前記サポート画像選択部は、
前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、
前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との前記類似度を判定する比較計算部と
を有する、請求項1又はに記載の画像認識装置。
【請求項4】
前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、HSV変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換する、請求項に記載の画像認識装置。
【請求項5】
前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、SSIM(Structual SIMilarity)、PSNR(Peak Signal to Noise Ratio)、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する、請求項に記載の画像認識装置。
【請求項6】
前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項1に記載の画像認識装置。
【請求項7】
前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出する、請求項2に記載の画像認識装置。
【請求項8】
前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項に記載の画像認識装置。
【請求項9】
前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択する、請求項に記載の画像認識装置。
【請求項10】
コンピュータを、請求項1又は2に記載の画像認識装置として機能させるためのプログラム。
【請求項11】
コンピュータによって実行される画像認識方法であって、
クエリ画像を取得するクエリ画像取得段階と、
認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階と、
前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記サポート画像選択段階は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から、複数の前記サポート画像を選択する、画像認識方法。
【請求項12】
コンピュータによって実行される画像認識方法であって、
クエリ画像を取得するクエリ画像取得段階と、
認識対象が撮影された複数の画像を含むデータセットから、複数の候補画像を抽出する候補抽出段階と、
前記候補抽出段階において抽出された前記複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階と、
前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記サポート画像選択段階は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、複数の前記サポート画像を選択する、
画像認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置、プログラム、及び画像認識方法に関する。
【背景技術】
【0002】
特許文献1には、Few-shot learningを用いて画像をセグメンテーションするFSS(Few-shot segmentation)について記載されている。
[先行技術文献]
[非特許文献]
[非特許文献1]Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao: Mining Latent Classes for Few-shot Segmentation (2021), The IEEE International Conference on ComputerVision(ICCV)
【発明の概要】
【課題を解決するための手段】
【0003】
本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、クエリ画像を取得するクエリ画像取得部を備えてよい。前記画像認識装置は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部を備えてよい。前記画像認識装置は、前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。
【0004】
前記画像認識装置において、前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記プロトタイプ算出処理部によって算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部を有してよい。前記サポート画像選択部は、前記複数の候補画像から複数の前記サポート画像を選択してよく、前記照合推論処理部は、前記サポート画像選択部によって選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定してよい。前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数のサポート画像を選択してよい。前記サポート画像選択部は、前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する比較計算部とを有してよい。前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、HSV変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換してよい。前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、SSIM(Structual SIMilarity)、PSNR(Peak Signal to Noise Ratio)、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定してよい。
【0005】
前記いずれかの画像認識装置において、前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。
【0006】
前記いずれかの画像認識装置は、認識対象が撮影された複数の画像を含むデータセットから、前記複数の候補画像を抽出する候補抽出部を更に備えてよく、前記サポート画像選択部は、前記候補抽出部によって抽出された前記複数の画像のそれぞれと前記クエリ画像とを比較してよい。前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出してよい。前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択してよい。
【0007】
本発明の一実施形態によれば、コンピュータを、前記画像認識装置として機能させるためのプログラムが提供される。
【0008】
本発明の一実施形態によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、クエリ画像を取得するクエリ画像取得段階を備えてよい。前記画像認識方法は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階を備えてよい。前記画像認識方法は、前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。
【0009】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0010】
図1】画像認識装置100の機能構成の一例を概略的に示す。
図2】画像認識装置100による処理の流れの一例を概略的に示す。
図3】画像認識装置100による処理内容の一例について説明するための説明図である。
図4】画像認識装置100による処理内容の一例について説明するための説明図である。
図5】画像認識装置100による処理内容の一例について説明するための説明図である。
図6】画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。
【発明を実施するための形態】
【0011】
従来のFSSでは、選ばれたサポート画像によって、クエリ画像から被写体が検出できたり、できなかったりする。これは、クエリ画像とサポート画像との間の画像の変化度合(色見、画角等)に依存すると考えられる。使用するサポート画像の数を増やすことによってこの問題は軽減するが、メモリ/処理負荷が増大してしまう。本実施形態に画像認識装置100では、クエリ画像の照合推論処理に有効な、クエリ画像に近しいサポート画像を適応的に選択することによって、このような問題の軽減を実現する。
【0012】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0013】
図1は、画像認識装置100の機能構成の一例を概略的に示す。画像認識装置100は、データ記憶部110、クエリ画像取得部112、候補抽出部114、サポート画像選択部120、及び照合推論処理部130を備える。なお、画像認識装置100がこれらの全てを備えることは必須とは限らない。
【0014】
データ記憶部110は、被写体が撮影された複数の画像を含むデータセットを記憶する。データセットは、複数の画像と、複数の画像のそれぞれのアノテーションデータとを含んでよい。
【0015】
アノテーションデータは、画像における被写体の位置を示すデータであってよい。例えば、被写体として飛行機が撮影された画像に対応するアノテーションデータは、当該画像における飛行機の位置を示す。アノテーションデータは、被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、画像における飛行機の位置に対応付けて「飛行機」を示すデータを含む。
【0016】
データ記憶部110は、少なくとも1つの種類の被写体のデータセットを記憶する。データ記憶部110は、複数の種類の被写体のそれぞれのデータセットを記憶してもよい。
【0017】
データ記憶部110は、画像認識装置100の外部に位置してもよい。例えば、データ記憶部110は、他の装置内に配置され、画像認識装置100は、ネットワークを介してデータ記憶部110にアクセスする。
【0018】
クエリ画像取得部112は、クエリ画像を取得する。クエリ画像は、認識対象の位置を推定する対象となる画像である。クエリ画像取得部112は、画像認識装置100に対して入力されたクエリ画像を取得してよい。
【0019】
候補抽出部114は、データ記憶部110に記憶されているデータセットから、サポート画像として用いる候補画像を抽出する。例えば、認識対象が飛行機である場合、候補抽出部114は、データ記憶部110に記憶されている飛行機のデータセットから、複数の候補画像を抽出する。
【0020】
候補抽出部114は、例えば、データセットからランダムに複数の候補画像を抽出する。候補抽出部114は、データセットから、予め定められた数の候補画像をランダムに抽出してよい。候補抽出部114は、使用するサポート画像の数に対して予め定められた値を乗じた数の候補画像を、データセットからランダムに抽出してよい。
【0021】
サポート画像選択部120は、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、例えば、データ記憶部110に記憶されている、認識対象のデータセットに含まれる全ての画像を、複数の候補画像とし、当該複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、複数の候補画像のそれぞれと、クエリ画像取得部112が取得したクエリ画像とを比較することによって、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、複数の候補画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。サポート画像選択部120は、例えば、複数の候補画像から、類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。認識対象のデータセットに含まれる全ての画像を候補画像とすることによって、クエリ画像における認識対象の位置を推定するうえで最も適している画像をサポート画像とすることができ、推定精度を向上させることができる。サポート画像選択部120は、複数の候補画像の全てについて、クエリ画像との類似度が予め定められた類似度閾値より低い場合、低類似と判定し、判定結果を出力してもよい。
【0022】
サポート画像選択部120は、候補抽出部114によって抽出された複数の候補画像の一部をサポート画像として選択してもよい。データセットに多数の画像が含まれている場合、データセット内の多数の画像のそれぞれとクエリ画像との類似度を判定する処理負荷が非常に高まってしまうおそれがある。それに対して、データセットから抽出した一部の画像を候補画像とすることによって、処理負荷を抑えることができる。
【0023】
サポート画像選択部120は、候補抽出部114によって抽出された複数の画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。例えば、サポート画像選択部120は、複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも多い場合、当該複数の候補画像から、当該予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。サポート画像選択部120は、当該複数の候補画像から、クエリ画像との類似度が高い順に予め定められた数の候補画像を特定してよい。
【0024】
複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも少ない場合、まず、サポート画像選択部120は、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の一部として選択する。そして、候補抽出部114が、データセットから抽出した複数の候補画像以外の新たな複数の候補画像をデータセットから改めて抽出し、サポート画像選択部120が、候補抽出部114が改めて抽出した複数の候補画像のそれぞれとクエリ画像との類似度を判定して、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の他の一部として選択する。候補抽出部114及びサポート画像選択部120は、クエリ画像との類似度が類似度閾値より高い候補画像が予め定められた数になるまで、これらの処理を繰り返す。
【0025】
サポート画像選択部120は、画像変換処理部122及び比較計算部124を備えてよい。画像変換処理部122は、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。
【0026】
画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してHSV(Hue、Saturation、Value)変換を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してヒストグラム算出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してフィルタ処理を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。フィルタ処理の例として、エッジ検出フィルタが挙げられるが、これに限らず、画像の特徴をわかりやすくできるフィルタであれば、任意のフィルタを用いてよい。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対して特徴点抽出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、これら以外の手法を用いて、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換してもよい。
【0027】
比較計算部124は、画像変換処理部122によって変換された、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報との比較演算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、SSIM(Structual SIMilarity)を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、PSNR(Peak Signal to Noise Ratio)を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、データ間距離計算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。データ間距離の例として、コサイン類似度及びユークリッド距離が挙げられるが、これらに限られない。比較計算部124は、これら以外の手法を用いて、複数の候補画像のそれぞれとクエリ画像との類似度を判定してもよい。
【0028】
サポート画像選択部120は、選択したサポート画像と、当該サポート画像のアノテーションデータとを含むサポートデータを照合推論処理部130に送信する。
【0029】
照合推論処理部130は、サポート画像選択部120から受信したサポートデータを用いて、クエリ画像取得部112が取得したクエリ画像に含まれる認識対象の位置を推定する。照合推論処理部130は、特徴抽出処理部132、プロトタイプ算出処理部134、及びプロトタイプ照合処理部136を有してよい。
【0030】
特徴抽出処理部132は、サポートデータに含まれる複数のサポート画像のそれぞれの特徴量を抽出する。特徴抽出処理部132は、サポート画像の複数の領域毎の特徴量を示すサポートフィーチャを生成してよい。
【0031】
特徴抽出処理部132は、クエリ画像取得部112が取得したクエリ画像の特徴量を抽出する。特徴抽出処理部132は、クエリ画像の複数の領域毎の特徴量を示すクエリフィーチャを生成してよい。
【0032】
プロトタイプ算出処理部134は、サポートデータに含まれるサポート画像及びアノテーションデータに基づいて、サポート画像の被写体の特徴を表すプロトタイプを算出する。 プロトタイプ算出処理部134は、特徴抽出処理部132によって生成されたサポートフィーチャと、アノテーションデータに基づいて、プロトタイプを算出してよい。
【0033】
プロトタイプ算出処理部134は、認識対象の被写体のプロトタイプを算出する。例えば、プロトタイプ算出処理部134は、アノテーションデータを用いて、サポートフィーチャから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部134は、複数のサポートフィーチャのそれぞれから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部134は、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、認識対象の被写体のプロトタイプとして算出してよい。このように、プロトタイプは、特徴空間における特徴ベクトルであってよい。
【0034】
プロトタイプ照合処理部136は、クエリ画像の複数の領域のそれぞれについて、プロトタイプ算出処理部134によって算出されたプロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。プロトタイプ照合処理部136は、例えば、クエリフィーチャを用いて、クエリ画像の複数の領域のそれぞれについて、領域の特徴量と認識対象のプロトタイプとの類似度を算出する。プロトタイプ照合処理部136は、例えば、領域の特徴量と認識対象のプロトタイプとのコサイン類似度を算出する。そして、プロトタイプ照合処理部136は、クエリ画像の複数の領域のうち、算出した類似度が閾値より高い領域を、認識対象が位置する領域と推定する。これにより、クエリ画像に含まれる認識対象の位置を推定できる。
【0035】
なお、本実施形態に係るアノテーションデータは、サポート画像における認識対象である被写体以外の被写体の位置を更に示してもよい。例えば、サポート画像に、飛行機に加えて滑走路及び管制塔が含まれている場合に、アノテーションデータは、滑走路及び管制塔の位置を示してよい。この場合、アノテーションデータは、認識対象である被写体以外の被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における飛行機の位置に対応付けて「飛行機」を示すデータを含み、サポート画像における滑走路の位置に対応付けて「滑走路」を示すデータを含み、管制塔の位置に対応付けて「管制塔」を示すデータを含む。
【0036】
本実施形態に係るプロトタイプ算出処理部134は、さらに、認識対象の被写体以外の被写体のプロトタイプを算出してよい。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、アノテーションデータを用いて、サポートフィーチャから、被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、被写体のプロトタイプとして算出してよい。
【0037】
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離を算出してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士のユークリッド距離を算出する。プロトタイプ算出処理部134は、複数のプロトタイプ同士のユークリッド距離を総当たりで算出してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士のコサイン類似度を算出する。プロトタイプ算出処理部134は、複数のプロトタイプ同士のコサイン類似度を総当たりで算出してよい。
【0038】
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離に基づいて、プロトタイプを変換してよい。プロトタイプ算出処理部134は、認識対象のプロトタイプを変換してよい。
【0039】
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離に対して統計計算を行うことによって、プロトタイプを正規化してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部134は、複数のプロトタイプについて、平均0、標準偏差1の正規分布となるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
【0040】
例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部134は、複数のプロトタイプについて、0.0-1.0のレンジとなるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
【0041】
例えば、プロトタイプ算出処理部134は、事前に機械学習によって決定したパラメータを用いて、複数のプロトタイプを正規化する。例えば、プロトタイプ算出処理部134は、機械学習によって決定したa、bを用いた変換式aX+bを用いて、複数のプロトタイプを変換する。複数のプロトタイプ間の距離が遠くなるように変換可能であれば、任意の機械学習手法を用いてよい。
【0042】
プロトタイプ算出処理部134は、同様に、クエリフィーチャを変換してもよい。
【0043】
プロトタイプ照合処理部136は、複数のプロトタイプ同士の距離を用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。プロトタイプ照合処理部136は、変換したプロトタイプを用いて、クエリ画像に含まれる認識対象の位置を推定してよい。プロトタイプ照合処理部136は、変換したプロトタイプと、変換したクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。
【0044】
図2は、画像認識装置100による処理の流れの一例を概略的に示す。ここでは、認識対象が飛行機であり、照合推論処理に用いるサポート画像の数が4つであるものとし、画像認識装置100が、クエリ画像に含まれる飛行機の位置を推定するために、4つのサポート画像を選択するまでの処理の流れを示す。
【0045】
ステップ(ステップをSと省略して記載する場合がある。)102では、クエリ画像取得部112が、クエリ画像を取得する。S104では、候補抽出部114が、データ記憶部110に記憶されている飛行機のデータセットから、必要とするサポート画像の数である4に対して、予め登録された数値である3を乗じた12個の候補画像をランダムに抽出する。なお、本例では予め登録された数値が3である場合について説明するが、当該数値は3に限らず、任意に登録されてよく、変更可能であってよい。
【0046】
S106では、画像変換処理部122が、S102においてクエリ画像取得部112が取得したクエリ画像と、S104において候補抽出部114が抽出した12個の候補画像のそれぞれとを統計情報に変換する。S108では、比較計算部124が、12個の候補画像の統計情報のそれぞれと、クエリ画像の統計情報との比較演算を実行することによって、12個の候補画像のそれぞれとクエリ画像との類似度を判定する。
【0047】
クエリ画像との類似度が予め定められた類似度閾値以上の候補画像の数が、必要数である4よりも少ない場合(S110でYES)、S112に進み、4以上である場合(S110でNO)、S122に進む。
【0048】
S112では、サポート画像選択部120が、類似度閾値以上の候補画像を保持する。例えば、類似度閾値以上の候補画像が2つである場合、サポート画像選択部120は、当該2つの候補画像を保持する。S114では、候補抽出部114が、飛行機のデータセットから12個の候補画像を改めて抽出する。候補抽出部114は、S104において抽出した12個の候補画像以外の、12個の候補画像をデータセットから抽出する。
【0049】
S116では、画像変換処理部122が、S114において候補抽出部114が改めて抽出した12個の候補画像のそれぞれとを統計情報に変換する。S118では、比較計算部124が、S116において変換された12個の候補画像の統計情報のそれぞれと、S106において変換されたクエリ画像の統計情報との比較演算を実行することによって、12個の候補画像のそれぞれとクエリ画像との類似度を判定する。
【0050】
クエリ画像との類似度が類似度閾値以上の候補画像の数と、サポート画像選択部120が保持している候補画像との合計が、必要数である4よりも少ない場合(S120でYES)、S112に戻り、4以上である場合(S120でNO)、S122に進む。クエリ画像との類似度が類似度閾値以上の候補画像の数が4以上になるまで、S112からS120が繰り返される。
【0051】
S122では、サポート画像選択部120が、4つ以上の候補画像から、4つのサポート画像を選択する。候補画像の数が4つである場合、サポート画像選択部120は、当該4つの候補画像をサポート画像として選択する。候補画像の数が5つ以上である場合、サポート画像選択部120は、5つ以上の候補画像から選択した4つの候補画像を、4つのサポート画像とする。サポート画像選択部120は、例えば、5つ以上の候補画像から、クエリ画像との類似度が高い順に4つの候補画像を特定し、特定した4つの候補画像を4つのサポート画像とする。
【0052】
図3図4及び図5は、画像認識装置100による処理内容の一例について説明するための説明図である。ここでは、4-Shot、すなわち、サポートデータ20に4組のサポート画像22及びアノテーションデータ24が含まれており、認識対象が飛行機である場合を例示している。
【0053】
4つのサポート画像22のそれぞれは、飛行機を含む。4つのアノテーションデータ24のそれぞれは、対応するサポート画像22における飛行機の位置を示す。
【0054】
特徴抽出処理部132は、4つのサポート画像22のそれぞれについて、サポート画像22の複数の領域201毎の特徴量を示すサポートフィーチャ200を生成する。領域201のサイズは、任意のサイズであってよく、設定によって変更可能であってよい。
【0055】
プロトタイプ算出処理部134は、アノテーションデータ24及びサポートフィーチャ200を用いて、飛行機のプロトタイプを生成する。本例において、プロトタイプ算出処理部134は、1つ目のサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。同様に、プロトタイプ算出処理部134は、他の3つのサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。プロトタイプ算出処理部134は、抽出した複数の特徴量を特徴空間212に配置して、複数の特徴量の重心を、飛行機プロトタイプ222として算出する。
【0056】
特徴抽出処理部132は、図5に例示するように、クエリ画像30の複数の領域301毎の特徴量を示すクエリフィーチャ300を生成する。プロトタイプ照合処理部136は、複数の領域301のそれぞれについて、飛行機プロトタイプ222との類似度を算出することによって、類似度マップ310を生成する。そして、プロトタイプ照合処理部136は、クエリ画像30の複数の領域のうち、算出した類似度が閾値より高い領域を、飛行機が位置する領域と推定する。
【0057】
図6は、画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
【0058】
本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ1226、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブ1226は、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
【0059】
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
【0060】
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブ1226は、プログラム又はデータをDVD-ROM1227等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
【0061】
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
【0062】
プログラムは、DVD-ROM1227又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
【0063】
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM1227、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
【0064】
また、CPU1212は、記憶装置1224、DVDドライブ1226(DVD-ROM1227)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
【0065】
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
【0066】
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
【0067】
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
【0068】
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
【0069】
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
【0070】
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
【0071】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0072】
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0073】
20 サポートデータ、22 サポート画像、24 アノテーションデータ、30 クエリ画像、100 画像認識装置、110 データ記憶部、112 クエリ画像取得部、114 候補抽出部、120 サポート画像選択部、122 画像変換処理部、124 比較計算部、130 照合推論処理部、132 特徴抽出処理部、134 プロトタイプ算出処理部、136 プロトタイプ照合処理部、200 サポートフィーチャ、201 領域、202 飛行機領域、212 特徴空間、222 飛行機プロトタイプ、300 クエリフィーチャ、301 領域、310 類似度マップ、1200 コンピュータ、1210 ホストコントローラ、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1226 DVDドライブ、1227 DVD-ROM、1230 ROM、1240 入出力チップ
図1
図2
図3
図4
図5
図6