(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-26
(45)【発行日】2024-04-03
(54)【発明の名称】カテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240327BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2020042133
(22)【出願日】2020-03-11
【審査請求日】2022-12-26
(73)【特許権者】
【識別番号】506301140
【氏名又は名称】公立大学法人会津大学
(74)【代理人】
【識別番号】100094525
【氏名又は名称】土井 健二
(74)【代理人】
【識別番号】100094514
【氏名又は名称】林 恒徳
(72)【発明者】
【氏名】岡 嶐一
(72)【発明者】
【氏名】畠 圭佑
(72)【発明者】
【氏名】橋本 康弘
(72)【発明者】
【氏名】奥山 祐市
【審査官】堀井 啓明
(56)【参考文献】
【文献】特開2009-212605(JP,A)
【文献】特開2017-45331(JP,A)
【文献】国際公開第2008/001889(WO,A1)
【文献】特開2005-222138(JP,A)
【文献】特開2000-306191(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、
前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、
前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定し、
特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別プログラム。
【請求項2】
請求項1において、
前記複数のピクセルを分布する処理では、
前記複数のピクセルごとに、各ピクセルを含むk(kは1以上の整数)×kのサイズのピクセル群を、前記複数の画像データのうちの各ピクセルを含む画像データから抽出し、
前記複数のピクセルのそれぞれに対応する前記ピクセル群に含まれるk×k個の近傍ピクセルごとに、各近傍ピクセルの色情報を示すRGB値に含まれるR値、G値及びB値に対応する点を、各次元が前記ピクセル群に含まれる前記近傍ピクセルごとの前記R値、前記G値及び前記B値に対応する3×k×k次元空間に分布する、
ことを特徴とするカテゴリ識別プログラム。
【請求項3】
請求項2において、
前記複数のクラスタに分割する処理では、前記複数のピクセルのそれぞれをk-means法を用いることによって前記複数のクラスタに分割する、
ことを特徴とするカテゴリ識別プログラム。
【請求項4】
請求項3において、
前記第1クラスタを特定する処理では、
前記複数のクラスタのうち、前記第1ピクセルの前記RGB値との関係が以下の式(1)を満たすクラスタのうち、以下の式(2)の値が最小になるクラスタを前記第1クラスタとして特定し、
【数1】
【数2】
前記式(1)及び前記式(2)において、rは、前記第1ピクセルの前記R値であって、gは、前記第1ピクセルの前記G値であって、bは、前記第1ピクセルの前記B値であり、r
iは、前記複数のクラスタのうちのi番目のクラスタにおけるセントロイドに対応する前記R値であり、g
iは、前記セントロイドに対応する前記G値であり、b
iは、前記セントロイドに対応する前記B値であり、εは、所定の閾値である、
ことを特徴とするカテゴリ識別プログラム。
【請求項5】
請求項4において、
前記平均値及び標準偏差を算出する処理では、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差の算出を、前記複数のカテゴリのそれぞれに対応するピクセルごとに行い、
前記カテゴリを特定する処理では、
前記複数のカテゴリのうち、以下の式(3)の値が最小になるカテゴリを、前記第1ピクセルに対応するカテゴリとして特定し、
【数3】
前記式(3)において、dは、前記第1距離値であり、μ
jは、前記i番目のクラスタと前記複数のカテゴリのうちのj番目のカテゴリとに対応する前記平均値であり、σ
jは、前記i番目のクラスタと前記j番目のカテゴリとに対応する前記標準偏差である、
ことを特徴とするカテゴリ識別プログラム。
【請求項6】
請求項5において、
前記カテゴリを特定する処理では、
前記複数のカテゴリのうち、前記第1クラスタに対応する前記平均値との関係が以下の式(4)とを満たすカテゴリを、前記第1ピクセルに対応するカテゴリとして特定し、
【数4】
前記式(4)において、hは、所定の閾値である、
ことを特徴とするカテゴリ識別プログラム。
【請求項7】
請求項1において、
前記複数のピクセルを分布する処理では、前記複数のピクセルごとに、各ピクセルのSIFT(Scale Invariant Feature Transform)特徴量に対応する点を、各次元が前記SIFT特徴量における各特徴に対応する128次元空間または256次元空間に分布する、
ことを特徴とするカテゴリ識別プログラム。
【請求項8】
請求項1において、
前記平均値及び標準偏差を算出する処理では、
前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、
前記カテゴリを特定する処理では、前記第1クラスタに対応する前記最多カテゴリが以下の式(5)を満たす場合、前記第1クラスタに対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定し、
【数5】
前記式(5)において、dは、前記第1距離値であり、m
cは、前記第1クラスタと前記最多カテゴリであるc番目のカテゴリとに対応する前記平均値であり、σ
c
2は、前記第1クラスタと前記c番目のカテゴリとに対応する前記標準偏差の2乗であり、hは、所定の閾値である、
ことを特徴とするカテゴリ識別プログラム。
【請求項9】
請求項1において、
前記第1クラスタを特定する処理と前記カテゴリを特定する処理は、前記新たな画像データのうちの部分画像データに含まれる複数のピクセルのそれぞれについて行われ、さらに、
前記部分画像データに含まれる複数のピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多いカテゴリを、前記部分画像データに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別プログラム。
【請求項10】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、
前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、
前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定し、
前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定し、
特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別プログラム。
【請求項11】
請求項10において、さらに、
各格子点に対応する前記多胞体に含まれるピクセルについての前記距離値の平均値及び標準偏差を、前記複数のカテゴリのそれぞれに対応するピクセルごとに行う処理をコンピュータに実行させ、
前記多次元空間に含まれる格子点ごとに、各格子点の前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、
前記カテゴリを特定する処理では、前記第1格子点に対応する前記最多カテゴリが以下の式(5)を満たす場合、前記第1格子点に対応する前記最多カテゴリを前記第1ピクセルに対応するカテゴリとして特定し、
【数6】
前記式(5)において、dは、前記第1ピクセルに対応する第1距離値であり、m
cは、前記第1格子点と前記最多カテゴリであるc番目のカテゴリとに対応する前記平均値であり、σ
c
2は、前記第1格子点と前記c番目のカテゴリとに対応する前記標準偏差の2乗であり、hは、所定の閾値である、
ことを特徴とするカテゴリ識別プログラム。
【請求項12】
請求項10において、
前記第1格子点を特定する処理と前記カテゴリを特定する処理は、前記新たな画像データのうちの部分画像データに含まれる複数のピクセルのそれぞれについて行われ、さらに、
前記部分画像データに含まれる複数のピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの割合が最も大きいカテゴリを、前記部分画像データに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別プログラム。
【請求項13】
撮像装置から対象物までの距離値または各ピクセルの色情報を示すRGB値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、
学習用の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに含まれるピクセルの前記距離値または前記RGB値の相関値を算出し、
前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、
前記複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第1相関値群を特定し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データを構成する複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに対応する前記相関値を算出し、
前記新たな画像データを構成する複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第2相関値群を特定し、
前記学習用の画像データと前記新たな画像データとの間において、前記第1相関値群と前記第2相関値群との差異が所定以下であるピクセルの組合せを特定し、
特定した前記組合せごとに、各組合せに含まれるピクセルのうち、前記学習用の画像データに含まれるピクセルに対応するカテゴリを、各組合せに含まれるピクセルのうち、前記新たな画像データに含まれるピクセルに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別プログラム。
【請求項14】
請求項13において、さらに、
前記新たな画像データを構成する前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記新たな画像データを構成する複数のピクセルのそれぞれを複数のクラスタに分割し、
前記新たな画像データを構成する複数のピクセルのそれぞれを分割した複数のクラスタごとに、各クラスタに含まれるピクセルのうち、前記差異が所定以下である組合せに含まれるピクセルを特定する処理をコンピュータに実行させ、
前記カテゴリを特定する処理では、前記新たな画像データを構成する複数のピクセルのそれぞれを分割した複数のクラスタごとに、特定した前記ピクセルのそれぞれに対応するカテゴリのうちの最も多くのピクセルに対応するカテゴリを、各クラスタに対応するカテゴリとして特定する、
ことを特徴とするカテゴリ識別プログラム。
【請求項15】
請求項13において、
前記複数のクラスタに分割する処理では、前記複数のピクセルのそれぞれをk-means法を用いることによって前記複数のクラスタに分割する、
ことを特徴とするカテゴリ識別プログラム。
【請求項16】
請求項13において、
前記複数のクラスタに分割する処理では、前記複数のピクセルのそれぞれをスペクトラムクラスタリング方とk-means法とを用いることによって前記複数のクラスタに分割する、
ことを特徴とするカテゴリ識別プログラム。
【請求項17】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別装置であって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付けるカテゴリ受付部と、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布するピクセル分布部と、
前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割するクラスタ分割部と、
前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出する指標算出部と、
新たな画像データの入力を受け付ける画像受付部と、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定するクラスタ特定部と、
特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定するカテゴリ特定部と、を有する、
ことを特徴とするカテゴリ識別装置。
【請求項18】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別装置であって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付けるカテゴリ受付部と、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布するピクセル分布部と、
前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定するピクセル特定部と、
前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定する最多カテゴリ特定部と、
新たな画像データの入力を受け付ける画像受付部と、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定する格子点特定部と、
特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定するカテゴリ特定部と、を有する、
ことを特徴とするカテゴリ識別装置。
【請求項19】
撮像装置から対象物までの距離値または各ピクセルの色情報を示すRGB値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別装置であって、
学習用の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付けるカテゴリ受付部と、
前記カテゴリの入力を受け付けた前記複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに含まれるピクセルの前記距離値または前記RGB値の相関値を算出する相関値算出部と、
前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割するクラスタ分割部と、
前記複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第1相関値群を特定する相関値群特定部と、
新たな画像データの入力を受け付ける画像受付部と、を有し、
前記相関値算出部は、入力を受け付けた前記新たな画像データを構成する複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに対応する前記相関値を算出し、
前記相関値群特定部は、前記新たな画像データを構成する複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第2相関値群を特定し、さらに、
前記学習用の画像データと前記新たな画像データとの間において、前記第1相関値群と前記第2相関値群との差異が所定以下であるピクセルの組合せを特定する組合せ特定部と、
特定した前記組合せごとに、各組合せに含まれるピクセルのうち、前記学習用の画像データに含まれるピクセルに対応するカテゴリを、各組合せに含まれるピクセルのうち、前記新たな画像データに含まれるピクセルに対応するカテゴリとして特定するカテゴリ特定部と、を有する、
ことを特徴とするカテゴリ識別装置。
【請求項20】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別方法であって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、
前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、
前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定し、
特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別方法。
【請求項21】
撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別方法であって、
複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、
前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、
前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定し、
前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定し、
特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別方法。
【請求項22】
撮像装置から対象物までの距離値または各ピクセルの色情報を示すRGB値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、
学習用の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、
前記カテゴリの入力を受け付けた前記複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに含まれるピクセルの前記距離値または前記RGB値の相関値を算出し、
前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、
前記複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第1相関値群を特定し、
新たな画像データの入力を受け付け、
入力を受け付けた前記新たな画像データを構成する複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに対応する前記相関値を算出し、
前記新たな画像データを構成する複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第2相関値群を特定し、
前記学習用の画像データと前記新たな画像データとの間において、前記第1相関値群と前記第2相関値群との差異が所定以下であるピクセルの組合せを特定し、
特定した前記組合せごとに、各組合せに含まれるピクセルのうち、前記学習用の画像データに含まれるピクセルに対応するカテゴリを、各組合せに含まれるピクセルのうち、前記新たな画像データに含まれるピクセルに対応するカテゴリとして特定する、
処理をコンピュータに実行させることを特徴とするカテゴリ識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データに含まれる対象物のカテゴリを識別するカテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法に関し、より詳細には、カメラ等の撮像装置(以下、単にカメラとも呼ぶ)から対象物までの距離値を各ピクセルに対応付けて有する画像データを用いることにより、対象物のカテゴリを識別するカテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法に関する。
【背景技術】
【0002】
近年、車両やドローン等(以下、単に車両等とも呼ぶ)の移動物体に、外界を撮影するカメラが搭載される場合がある。そして、このようなカメラによって撮像された動画データから距離情報の取得を行う方法が既に提案されている。
【0003】
具体的に、特許文献1には、任意の方向に移動するカメラ(例えば、1台のカメラ)によって撮影された動画データを用いることによって、対象物からカメラまでの距離を算出する方法が記載されている。
【0004】
また、上記のような対象物のカテゴリの識別についても、既にいくつかの方法が提案されている。例えば、ディープラーニング(Deep Learning)による画像識別が典型である。
【0005】
具体的に、このような方法では、例えば、RGBの画像データからなる学習データを入力層に入力し、その画像データに対応するカテゴリ(例えば、人手によって予め指定されたカテゴリ)の情報を出力層に入力させることにより、誤差逆伝番播法(Back-Propagation)という方法で階層間のノードの結合係数値を変化させて学習モデルの生成を行う。そして、未知の画像データに対応するカテゴリの識別を行う場合、未知の画像データを入力層から入力することによって出力層から出力される最大値に対応するカテゴリを、その未知の画像データに対応するカテゴリとして識別する。
【0006】
さらに、ディープラーニングでは、例えば、画像データにおいて部分的に存在する部分画像データを識別する方法であるセマンティックセグメンテーション(Semantic Srgmentation)が既に提案されている。この方法は、例えば、画像データの一部に映る対象物を背景から切り離して識別を行う方法である。
【0007】
ただし、上記のようなセマンティックセグメンテーションでは、学習段階において小さな領域の画像データ(学習データ)を拡大して学習させるため、学習段階と識別段階とで大きさが異なる対象物については、十分な精度の識別を行うことが難しいという問題がある。
【0008】
また、非特許文献1及び非特許文献2に記載されているように、例えば、ディープラーニング以外の識別方法であるBoF(Bag of Features)についても既に提案されている。この方法では、学習段階において、SIFT(Scale-Invatiant Feature Transform)と呼ばれる画像データのエッジ特徴に基づく特徴(局所特徴)をベクトルで表現して128次元または256次元の空間に分布し、これをk-means法等によって複数のクラスタに分割し、さらに、各クラスタの中心のベクトル(Visual Word)に対応するヒストグラムを学習することによってサポートベクトルマシン(Support Vecter Machine)等の分類器を生成する。その後、識別段階において、未知の画像データから生成したヒストグラムと上記の分類器とを用いることによって、その未知の画像データのカテゴリを識別する。
【先行技術文献】
【特許文献】
【0009】
【非特許文献】
【0010】
【文献】黄瀬浩一、“Bag of featuresに基づく物体認識”、コンピュータビジョン、最先端ガイド、Volume 3,pp.63-110,アドコム・メディア社(2010)
【文献】藤吉弘恒、山下隆義、“Scale-Invatiant Feature Transform (SIFT)”、コンピュータビジョン、最先端ガイド、Volume 1,pp.5-28,アドコム・メディア社(2010)
【文献】Spectral Learning,“Sepandar Kamvar, Dan Klein, and Chris Manning, In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI) 2003
【文献】http://vda.univie.ac.at/Teaching/IPA/18w/LectureNotes/06_graph_based_segementation_2.pdf
【文献】Sergios Theodoridis and Konstantinous Koutroumbas, Pattern Recognition, Second Edition, Academic Press, 2003.
【発明の概要】
【発明が解決しようとする課題】
【0011】
ここで、例えば、車両等の自動運転の分野では、カメラによって撮影した動画データに道路における信号が含まれている場合、車両等の進行や停止についての判断が行われ、動画データに先行車が含まれている場合、自車が進行することができない状態にあるという判断が行われ、さらに、動画データに歩行者が含まれている場合、車両等の走行を注意して行うべきであるという判断が行われることが求められる。
【0012】
そのため、車両等の自動運転の分野では、対象物のカテゴリの識別精度をより高める必要性から、周囲の対象物までの距離情報や色情報であるRGB値を用いて各対象物の画像データに含まれる1以上のピクセル(以下、ピクセル群とも呼ぶ)のカテゴリを識別する方法が求められている。
【0013】
そこで、本発明の目的は、対象物までの距離情報及びRGB値のうちの少なくともいずれかを用いることによってピクセル群のカテゴリを識別することを可能とするカテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法を提供することにある。
【課題を解決するための手段】
【0014】
上記目的を達成するための本発明におけるカテゴリ識別プログラムは、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出し、新たな画像データの入力を受け付け、入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定し、特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定する、処理をコンピュータに実行させることを特徴とする。
【0015】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のピクセルごとに、各ピクセルを含むk(kは1以上の整数)×kのサイズのピクセル群を、前記複数の画像データのうちの各ピクセルを含む画像データから抽出し、前記複数のピクセルのそれぞれに対応する前記ピクセル群に含まれるk×k個の近傍ピクセルごとに、各近傍ピクセルの色情報を示すRGB値に含まれるR値、G値及びB値に対応する点を、各次元が前記ピクセル群に含まれる前記近傍ピクセルごとの前記R値、前記G値及び前記B値に対応する3×k×k次元空間に分布する、ことを特徴とする。
【0016】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のピクセルのそれぞれをk-means法を用いることによって前記複数のクラスタに分割する、ことを特徴とする。
【0017】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のクラスタのうち、前記第1ピクセルの前記RGB値との関係が以下の式(1)を満たすクラスタのうち、以下の式(2)の値が最小になるクラスタを前記第1クラスタとして特定し、
【0018】
【0019】
【0020】
前記式(1)及び前記式(2)において、rは、前記第1ピクセルの前記R値であって、gは、前記第1ピクセルの前記G値であって、bは、前記第1ピクセルの前記B値であり、riは、前記複数のクラスタのうちのi番目のクラスタにおけるセントロイドに対応する前記R値であり、giは、前記セントロイドに対応する前記G値であり、biは、前記セントロイドに対応する前記B値であり、εは、所定の閾値である、ことを特徴とする。
【0021】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差の算出を、前記複数のカテゴリのそれぞれに対応するピクセルごとに行い、前記複数のカテゴリのうち、以下の式(3)の値が最小になるカテゴリを、前記第1ピクセルに対応するカテゴリとして特定し、
【0022】
【0023】
前記式(3)において、dは、前記第1距離値であり、μjは、前記i番目のクラスタと前記複数のカテゴリのうちのj番目のカテゴリとに対応する前記平均値であり、σjは、前記i番目のクラスタと前記j番目のカテゴリとに対応する前記標準偏差である、ことを特徴とする。
【0024】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のカテゴリのうち、前記第1クラスタに対応する前記平均値との関係が以下の式(4)とを満たすカテゴリを、前記第1ピクセルに対応するカテゴリとして特定し、
【0025】
【0026】
前記式(4)において、hは、所定の閾値である、ことを特徴とする。
【0027】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のピクセルごとに、各ピクセルのSIFT(Scale Invariant Feature Transform)特徴量に対応する点を、各次元が前記SIFT特徴量における各特徴に対応する128次元空間または256次元空間に分布する、ことを特徴とする。
【0028】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、前記第1クラスタに対応する前記最多カテゴリが以下の式(5)を満たす場合、前記第1クラスタに対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリを特定し、
【0029】
【0030】
前記式(5)において、dは、前記第1距離値であり、mcは、前記第1クラスタと前記最多カテゴリであるc番目のカテゴリとに対応する前記平均値であり、σc
2は、前記第1クラスタと前記c番目のカテゴリとに対応する前記標準偏差の2乗であり、hは、所定の閾値である、ことを特徴とする。
【0031】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記新たな画像データのうちの部分画像データに含まれる複数のピクセルのそれぞれについて行われ、さらに、前記カテゴリを特定する処理において特定した前記複数のピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多いカテゴリを、前記部分画像データに対応するカテゴリとして特定する、処理をコンピュータに実行させることを特徴とする。
【0032】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定し、前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、新たな画像データの入力を受け付け、入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定し、特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定する、処理をコンピュータに実行させることを特徴とする。
【0033】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、各格子点に対応する前記多胞体に含まれるピクセルについての前記距離値の平均値及び標準偏差を、前記複数のカテゴリのそれぞれに対応するピクセルごとに行う処理をコンピュータに実行させ、前記多次元空間に含まれる格子点ごとに、各格子点の前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、前記第1格子点に対応する前記最多カテゴリが以下の式(5)を満たす場合、前記第1格子点に対応する前記最多カテゴリを前記第1ピクセルに対応するカテゴリとして特定し、
【0034】
【0035】
前記式(5)において、dは、前記第1ピクセルに対応する第1距離値であり、mcは、前記第1格子点と前記最多カテゴリであるc番目のカテゴリとに対応する前記平均値であり、σc
2は、前記第1格子点と前記c番目のカテゴリとに対応する前記標準偏差の2乗であり、hは、所定の閾値である、ことを特徴とする。
【0036】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記新たな画像データのうちの部分画像データに含まれる複数のピクセルのそれぞれについて行われ、さらに、前記部分画像データに含まれる複数のピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの割合が最も大きいカテゴリを、前記部分画像データに対応するカテゴリとして特定する、処理をコンピュータに実行させることを特徴とする。
【0037】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、撮像装置から対象物までの距離値または各ピクセルの色情報を示すRGB値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別する処理をコンピュータに実行させるカテゴリ識別プログラムであって、学習用の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、前記カテゴリの入力を受け付けた前記複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに含まれるピクセルの前記距離値または前記RGB値の相関値を算出し、前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、前記複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第1相関値群を特定し、新たな画像データの入力を受け付け、入力を受け付けた前記新たな画像データを構成する複数のピクセルに含まれる2つのピクセルの組合せごとに、各組合せに対応する前記相関値を算出し、前記新たな画像データを構成する複数のピクセルごとに、各ピクセルを含む組合せのそれぞれに対応する前記相関値からなる第2相関値群を特定し、前記学習用の画像データと前記新たな画像データとの間において、前記第1相関値群と前記第2相関値群との差異が所定以下であるピクセルの組合せを特定し、特定した前記組合せごとに、各組合せに含まれるピクセルのうち、前記学習用の画像データに含まれるピクセルに対応するカテゴリを、各組合せに含まれるピクセルのうち、前記新たな画像データに含まれるピクセルに対応するカテゴリとして特定する、処理をコンピュータに実行させることを特徴とする。
【0038】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記新たな画像データを構成する前記複数のピクセルに含まれる2つのピクセルの組合せごとの前記相関値に基づいて、前記新たな画像データを構成する複数のピクセルのそれぞれを複数のクラスタに分割し、前記新たな画像データを構成する複数のピクセルのそれぞれを分割した複数のクラスタごとに、各クラスタに含まれるピクセルのうち、前記差異が所定以下である組合せに含まれるピクセルを特定し、前記新たな画像データを構成する複数のピクセルのそれぞれを分割した複数のクラスタごとに、特定した前記ピクセルのそれぞれに対応するカテゴリのうちの最も多くのピクセルに対応するカテゴリを、各クラスタに対応するカテゴリとして特定する、ことを特徴とする。
【0039】
また、上記目的を達成するための本発明におけるカテゴリ識別プログラムは、一つの態様では、前記複数のピクセルのそれぞれをスペクトラムクラスタリング法とk-means法とを用いることによって前記複数のクラスタに分割する、ことを特徴とする。
【0040】
また、上記目的を達成するための本発明におけるカテゴリ識別装置は、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別装置であって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付けるカテゴリ受付部と、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布するピクセル分布部と、前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割するクラスタ分割部と、前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出する指標算出部と、新たな画像データの入力を受け付ける画像受付部と、入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定するクラスタ特定部と、特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定するカテゴリ特定部と、を有する、ことを特徴とする。
【0041】
また、上記目的を達成するための本発明におけるカテゴリ識別装置は、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別装置であって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付けるカテゴリ受付部と、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布するピクセル分布部と、前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定するピクセル特定部と、前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定する最多カテゴリ特定部と、新たな画像データの入力を受け付ける画像受付部と、入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定する格子点特定部と、特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定するカテゴリ特定部と、を有する、ことを特徴とする。
【0042】
また、上記目的を達成するための本発明におけるカテゴリ識別方法は、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別方法であって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、前記多次元空間における前記複数のピクセルの位置に基づいて、前記複数のピクセルのそれぞれを複数のクラスタに分割し、前記複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する前記距離値の平均値及び標準偏差を算出し、新たな画像データの入力を受け付け、入力を受け付けた前記新たな画像データに含まれる第1ピクセルの特徴に基づいて、前記第1ピクセルに対応する第1クラスタを前記複数のクラスタから特定し、特定した前記第1クラスタに対応する前記平均値及び前記標準偏差と、前記第1ピクセルに対応する第1距離値とに基づいて、前記第1ピクセルに対応するカテゴリを特定する、処理をコンピュータに実行させることを特徴とする。
【0043】
また、上記目的を達成するための本発明におけるカテゴリ識別方法は、撮像装置から対象物までの距離値を各ピクセルに対応付けて有する画像データに基づいて、前記対象物のカテゴリを複数のカテゴリから識別するカテゴリ識別方法であって、複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付け、前記カテゴリの入力を受け付けた前記複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布し、前記多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を前記多次元空間において特定し、前記多次元空間に含まれる格子点ごとに、前記複数のピクセルのうち、各格子点に対応する前記多胞体に含まれるピクセルを特定し、前記多次元空間に含まれる格子点ごとに、特定した前記多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定し、新たな画像データの入力を受け付け、入力を受け付けた前記新たな画像データに含まれる第1ピクセルが有する特徴に基づいて、前記第1ピクセルに対応する第1格子点を前記多次元空間に含まれる格子点から特定し、特定した前記第1格子点に対応する前記最多カテゴリを、前記第1ピクセルに対応するカテゴリとして特定する、処理をコンピュータに実行させることを特徴とする。
【発明の効果】
【0044】
本発明におけるカテゴリ識別プログラム、カテゴリ識別装置及びカテゴリ識別方法によれば、対象物までの距離情報を用いることによって各ピクセルのカテゴリを識別することが可能になる。
【図面の簡単な説明】
【0045】
【
図1】
図1は、情報処理装置1の構成を説明する図である。
【
図2】
図2は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図3】
図3は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図4】
図4は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図5】
図5は、学習データとして用いられる画像データDTの具体例を説明する図である。
【
図6】
図6は、学習データとして用いられる画像データDTの具体例を説明する図である。
【
図7】
図7は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図8】
図8は、S14の処理の詳細について説明する図である。
【
図9】
図9は、S22及びS23の処理の詳細について説明する図である。
【
図10】
図10は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図11】
図11は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図12】
図12は、第2の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図13】
図13は、第2の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図14】
図14は、第2の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図15】
図15は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図16】
図16は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図17】
図17は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図18】
図18は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。
【
図19】
図19は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。
【発明を実施するための形態】
【0046】
以下、図面を参照して本発明の実施の形態について説明する。しかしながら、かかる実施の形態例が、本発明の技術的範囲を限定するものではない。
【0047】
[カテゴリ識別装置の構成]
初めに、カテゴリ識別装置(以下、情報処理装置とも呼ぶ)1のハードウエア構成について説明を行う。
図1は、情報処理装置1の構成を説明する図である。
【0048】
情報処理装置1は、汎用的なコンピュータ装置のハードウエア構成を有し、例えば、
図1に示すように、プロセッサであるCPU101と、メモリ102と、ネットワークインタフェーズ103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
【0049】
記憶媒体104は、例えば、画像データに含まれる対象物のカテゴリを識別する処理(以下、カテゴリ識別処理とも呼ぶ)を行うためのプログラム(図示しない)を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、カテゴリ識別処理を行う際に用いられる情報を記憶する記憶領域110を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)であってよい。
【0050】
CPU101は、記憶媒体104(記憶領域110)からメモリ102にロードされたプログラムを実行してカテゴリ識別処理を行う。
【0051】
また、ネットワークインタフェーズ103は、例えば、操作端末5と通信を行う。
【0052】
[第1の実施の形態におけるカテゴリ識別処理]
次に、第1の実施の形態におけるカテゴリ識別処理について説明を行う。
図2から
図11は、第1の実施の形態におけるカテゴリ識別処理について説明する図である。
【0053】
情報処理装置1のCPU101は、
図2に示すように、プログラムと協働することにより、カテゴリ受付部11、ピクセル分布部12、クラスタ分割部13、指標算出部14、画像受付部21、クラスタ特定部22、カテゴリ特定部23及びカテゴリ出力部24として機能する。
【0054】
[学習用の画像データとして用いられる画像データの具体例]
初めに、学習用の画像データとして用いられる画像データDT(例えば、車両等に搭載されたカメラによって撮影された画像データ)の具体例について説明を行う。
図5及び
図6は、学習用の画像データとして用いられる画像データDTの具体例を説明する図である。
【0055】
具体的に、
図5は、車両等に搭載されたカメラ(図示しない)によって撮影された動画データに含まれる画像データDT(1つのフレーム画像データ)である。そして、
図5に示す画像データDTに含まれる各ピクセルには、例えば、特許文献1に記載された方法を用いることによって算出された距離値(カメラと対象物との間の距離値)が対応付けられている。すなわち、例えば、
図5に示す画像データDTのうち、信号機OB1に対応するピクセルのそれぞれには、カメラと信号機OB1との間における距離値が対応付けられており、
図5に示す画像データDTのうち、対向車両OB2に対応するピクセルのそれぞれには、カメラと対向車両OB2との間における距離値が対応付けられている。
【0056】
そのため、
図5に示す画像データDTを用いることによって、例えば、
図6に示すように、カメラと各対象物との間の距離値に応じて明るさ(白さ)を変化させた明暗表示画像データDTaを出力することが可能になる。
図6に示す例では、明るい対象物(白い対象物)ほど、カメラからの距離値が近い対象物であることを示している。なお、
図6のうちの左上部分の図は、カメラの撮影方向を示している。
【0057】
[学習段階における処理]
次に、カテゴリ識別処理における学習段階における処理について説明を行う。
【0058】
情報処理装置1のカテゴリ受付部11は、
図3に示すように、学習データとして用いられる複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付ける(S11)。
【0059】
具体的に、学習データの学習を行う作業者(以下、単に作業者とも呼ぶ)は、例えば、操作端末5を介して学習データとして用いる複数の画像データ(例えば、
図5で説明した画像データDTを含む複数の画像データ)を情報処理装置1の記憶媒体104に記憶させた後、各画像データに含まれる複数のピクセルのそれぞれに対応するカテゴリを情報処理装置1に入力する。そして、カテゴリ受付部11は、作業者が入力した複数のピクセルごとのカテゴリの入力を受け付ける。
【0060】
そして、情報処理装置1のピクセル分布部12は、S11の処理でカテゴリの入力を受け付けた複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布する(S12)。
【0061】
具体的に、ピクセル分布部12は、
図7に示すように、例えば、各ピクセルの色情報を示すRGB値に含まれるR値、G値及びB値に対応する点を、各次元がR値、G値及びB値のそれぞれに対応する3次元空間に分布するものであってよい。なお、
図7に示すように、3次元空間に分布された各点には、各ピクセルに対応するカテゴリ(S11の処理で入力を受け付けたカテゴリ)と距離値とが対応付けられている。
【0062】
また、ピクセル分布部12は、例えば、学習データとして用いる複数の画像データに含まれる複数のピクセルごとに、各ピクセルを含むk(kは1以上の整数)×kのサイズのピクセル群を抽出するものであってもよい。そして、ピクセル分布部12は、複数のピクセルのそれぞれに対応するピクセル群に含まれるk×k個のピクセル(以下、近傍ピクセルとも呼ぶ)ごとに、各近傍ピクセルのR値、G値及びB値に対応する点を、各次元がピクセル群に含まれる近傍ピクセルごとのR値、G値及びB値に対応する3×k×k次元空間に分布するものであってもよい。
【0063】
すなわち、ピクセル分布部12は、各ピクセルの特徴に対応する点を特定する際に、近傍ピクセルの特徴についても反映させた点の特定を行うものであってもよい。そして、ピクセル分布部12は、特定した点を多次元空間に分布するものであってもよい。これにより、情報処理装置1は、各対象物のカテゴリの識別をより精度高く行うことを可能とする学習を行うことが可能になる。
【0064】
なお、以下、多次元空間が3次元空間として行うカテゴリ識別処理の方法、すなわち、近傍ピクセルの情報を加味せずに行うカテゴリ識別処理を一様クラスタリング法とも呼び、多次元空間が3×k×k次元空間として行うカテゴリ識別処理の方法、すなわち、近傍ピクセルの情報を加味して行うカテゴリ識別処理を拡張一様クラスタリング法とも呼ぶ。
【0065】
続いて、情報処理装置1のクラスタ分割部13は、S11の処理でカテゴリの入力を受け付けた複数のピクセルの多次元空間における位置に基づいて、複数のピクセルのそれぞれを複数のクラスタに分割する(S13)。
【0066】
具体的に、クラスタ分割部13は、例えば、多次元空間に分布した複数のピクセルの位置に基づき、各ピクセルをk-means法を用いることによって複数のクラスタに分割する。
【0067】
さらに具体的に、クラスタ分割部13は、例えば、
図7で説明した3次元空間に分布された各ピクセルを参照し、予め定められた数であるK個のセントロイドを特定する。そして、クラスタ分割部13は、3次元空間に分布されたピクセルのそれぞれについて、最も近いセントロイドを特定することにより、3次元空間分布されたピクセルのそれぞれをK個のクラスタに分割する。
【0068】
その後、情報処理装置1の指標算出部14は、S13の処理で分割した複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応する距離値の平均値及び標準偏差を算出する(S14)。
【0069】
具体的に、指標算出部14は、例えば、S13の処理で分割した複数のクラスタごとであってS11の処理で入力される複数のカテゴリごとに、各クラスタに含まれるピクセルのそれぞれに対応する距離値の平均値及び標準偏差を算出する。以下、S14の処理の詳細について説明を行う。
【0070】
[S14の処理の詳細]
図8は、S14の処理の詳細について説明する図である。以下、セントロイドの総数がK個であり、S11の処理で入力されるカテゴリの総数がJであるものとして説明を行う。
【0071】
初めに、i番目のクラスタに含まれるQ個のピクセルのそれぞれは、
図10に示すように、例えば、以下の式(6)のように定義される。
【0072】
【0073】
上記の式(6)において、ri,qは、i番目のクラスタに含まれるq番目のピクセルのR値を示し、gi,qは、i番目のクラスタに含まれるq番目のピクセルのG値を示し、bi,qは、i番目のクラスタに含まれるq番目のピクセルのB値を示し、ci,qは、i番目のクラスタに含まれるq番目のピクセルのカテゴリの番号を示し、di,qは、i番目のクラスタに含まれるq番目のピクセルが有する距離値を示している。
【0074】
そして、指標算出部14は、
図8に示すように、K個のクラスタごとであってJ個のカテゴリごとに、各ピクセルに対応する距離値の平均値及び標準偏差を算出する。
【0075】
具体的に、指標算出部14は、例えば、i番目のクラスタに含まれるQ個のピクセルのうち、ci,qが同一のカテゴリを示すピクセルごとに、各ピクセルに対応する距離値の平均値及び標準偏差を算出する。なお、S14の処理において算出される平均値及び標準偏差を含む各ピクセルの情報は、例えば、以下の式(7)のように表現される。
【0076】
【0077】
上記の式(7)において、riは、i番目のクラスタに含まれるセントロイドに対応するピクセルのR値を示し、giは、i番目のクラスタに含まれるセントロイドに対応するピクセルのG値を示し、biは、i番目のクラスタに含まれるセントロイドに対応するピクセルのB値を示し、μjは、i番目のクラスタに含まれるピクセルのうち、j番目のカテゴリに対応するピクセルの距離値の平均値を示し、σjは、i番目のクラスタに含まれるピクセルのうち、j番目のカテゴリに対応するピクセルの距離値の標準偏差を示している。
【0078】
なお、上記の式(7)に含まれるμjやσjは、後述するマハラノビス距離(時間の変動に伴う距離値の変動を吸収する距離)の算出に用いられる。
【0079】
[識別段階における処理]
次に、カテゴリ識別処理における識別段階における処理について説明を行う。
【0080】
情報処理装置1の画像受付部21は、
図4に示すように、識別対象の新たな画像データ(以下、単に新たな画像データとも呼ぶ)の入力を受け付ける(S21)。
【0081】
具体的に、作業者は、例えば、操作端末5を介してカテゴリが未知である新たな画像データを入力する。そして、画像受付部21は、作業者によって入力された新たな画像データを受け付ける。
【0082】
続いて、情報処理装置1のクラスタ特定部22は、S21の処理で入力を受け付けた新たな画像データに含まれるピクセル(以下、第1ピクセルとも呼ぶ)の特徴に基づいて、第1ピクセルに対応する第1クラスタを複数のクラスタから特定する(S22)。その後、情報処理装置1のカテゴリ特定部23は、S22の処理で特定した第1クラスタに対応する平均値及び標準偏差と、第1ピクセルに対応する距離値(以下、第1距離値とも呼ぶ)とに基づいて、第1ピクセルに対応するカテゴリを特定する(S23)。
【0083】
[S22及び23の処理の詳細]
図9は、S22及びS23の処理の詳細について説明する図である。
【0084】
例えば、S12の処理においてピクセルの分布が行われた多次元空間が3次元空間であった場合、クラスタ特定部22は、第1ピクセルの特徴として、R値、G値及びB値をそれぞれ特定する。
【0085】
そして、クラスタ特定部22は、例えば、K個のクラスタのうち、第1ピクセルに対応するR値、G値及びB値のそれぞれの関係が以下の式(1)を満たすクラスタのうち、以下の式(2)の値が最小になるクラスタを第1クラスタとして特定する。
【0086】
【0087】
【0088】
上記の式(1)及び式(2)において、rは、第1ピクセルのR値を示し、gは、第1ピクセルのG値を示し、bは、第1ピクセルのB値を示し、riは、i番目のクラスタにおけるセントロイドに対応するピクセルのR値を示し、giは、i番目のクラスタにおけるセントロイドに対応するピクセルのG値を示し、biは、i番目のクラスタにおけるセントロイドに対応するピクセルのB値を示し、εは、所定の閾値(例えば、十分に小さい数)を示している。
【0089】
なお、上記の式(1)を満たすクラスタが存在しない場合、クラスタ特定部22は、例えば、第1ピクセルに対応するカテゴリが存在しないものと判定するものであってよい。
【0090】
また、例えば、S12の処理においてピクセルの分布が行われた多次元空間が3×k×k次元空間であった場合、クラスタ特定部22は、第1ピクセルの特徴として、第1ピクセルを含むk×k個のピクセル(近傍ピクセル)ごとのR値、G値及びB値をそれぞれ特定する。
【0091】
次に、カテゴリ特定部23は、例えば、以下の式(3)の値(マハラノビス距離)が最小になるカテゴリを、第1ピクセルに対応するカテゴリとして特定する。
【0092】
【0093】
式(3)において、dは、第1距離値を示し、μjは、i番目のクラスタに含まれるピクセルのうち、j番目のカテゴリに対応するピクセルの距離値の平均値を示し、σjは、i番目のクラスタに含まれるピクセルのうち、j番目のカテゴリに対応するピクセルの距離値の標準偏差を示している。
【0094】
なお、例えば、第1クラスタに対応する平均値との関係が以下の式(4)を満たすカテゴリが存在しない場合、カテゴリ特定部23は、例えば、第1ピクセルに対応するカテゴリが存在しないものと判定するものであってよい。
【0095】
【0096】
式(4)において、hは、所定の閾値を示している。
【0097】
これにより、情報処理装置1は、
図11に示すように、新たな画像データに含まれるピクセル(第1ピクセル)のカテゴリを特定することが可能にある。すなわち、情報処理装置1は、カメラから対象物までの距離値を用いることによって各ピクセルのカテゴリを識別することが可能になる。
【0098】
その後、情報処理装置1のカテゴリ出力部24は、例えば、S23の処理で特定した第1ピクセルのカテゴリを操作端末5に出力する(S24)。
【0099】
なお、S13の処理(学習段階)において異なるクラスタに分類された複数のピクセルであっても、例えば、各ピクセルに対応するカテゴリが同一であって、かつ、各ピクセルに対応する距離値の差が小さい場合、S23の処理(識別段階)においてそれぞれ同一のカテゴリが特定される可能性がある。また、S13の処理(学習段階)において同一のクラスタに分類された複数のピクセルであっても、例えば、各ピクセルに対応するカテゴリが異なっており、かつ、各ピクセルに対応する距離値の差が大きい場合、S23の処理(識別段階)においてそれぞれ異なるカテゴリが特定される可能性がある。
【0100】
さらに、S22の処理(識別段階)において異なるクラスタが特定された複数のピクセルであっても、例えば、各ピクセルに対応するカテゴリが同一であって、かつ、各ピクセルに対応する距離値の差が小さい場合、S23の処理(識別段階の後続処理)においてそれぞれ同一のカテゴリが特定される可能性がある。また、S22の処理(識別段階)において同一のクラスタが特定された複数のピクセルであっても、例えば、各ピクセルに対応するカテゴリが異なっており、かつ、各ピクセルに対応する距離値の差が大きい場合、S23の処理(識別段階の後続処理)においてそれぞれ異なるカテゴリが特定される可能性がある。
【0101】
また、上記の例では、多次元空間がRGB値に対応する3次元空間に各ピクセルを分布する場合、または、k×k個のピクセルごとのRGB値に対応する3×k×k次元空間に各ピクセルを分布する場合について説明を行ったが、情報処理装置1は、例えば、各ピクセルのSIFT(Scale Invariant Feature Transform)特徴量に対応する点を、各次元がSIFT特徴量における各特徴に対応する128次元空間または256次元空間に分布するものであってもよい。そして、情報処理装置1は、各ピクセルに対応する点を分布した128次元空間または256次元空間を用いることによって、カテゴリ識別処理における後続処理を行うものであってもよい。
【0102】
また、上記の例では、学習段階において、複数のカテゴリに対応するピクセルのそれぞれを同一の3次元空間に分布させてからk-means法によるクラスタリングを行う場合(S12及びS13)について説明を行った。これに対し、情報処理装置1は、カテゴリに対応するピクセルをそれぞれ異なる3次元空間に分布させ、各カテゴリに対応する3次元空間ごとにクラスタリングを行うものであってもよい。そして、情報処理装置1は、この場合、S14の処理を各カテゴリに対応する3次元空間ごとに行うものであってもよい。
【0103】
[第1の実施の形態におけるカテゴリ識別処理の変形例(1)]
次に、第1の実施の形態におけるカテゴリ識別処理の第1変形例について説明を行う。
【0104】
指標算出部14は、S14の処理において、S13の処理で分割した複数のクラスタごとに、各クラスタに含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定するものであってもよい。
【0105】
そして、カテゴリ特定部23は、S23の処理において、S22の処理で特定した第1クラスタに対応する最多カテゴリが以下の式(5)を満たす場合、S22の処理で特定した第1クラスタに対応する最多カテゴリを、第1ピクセルに対応するカテゴリを特定するものであってもよい。
【0106】
【0107】
上記の式(5)において、dは、第1距離値を示し、mcは、第1クラスタと最多カテゴリであるc番目のカテゴリとに対応する距離値の平均値を示し、σc
2は、第1クラスタとc番目のカテゴリとに対応する距離値の標準偏差の2乗を示し、hは、所定の閾値を示す。
【0108】
これにより、情報処理装置1は、識別対象の新たな画像データに含まれる各ピクセルのカテゴリの識別をより高速に行うことが可能になる。
【0109】
[第1の実施の形態におけるカテゴリ識別処理の変形例(2)]
次に、第1の実施の形態におけるカテゴリ識別処理の第2変形例について説明を行う。
【0110】
クラスタ特定部22及びカテゴリ特定部23は、S22及びS23の処理を、S21の処理において入力を受け付けた新たな画像データの一部(以下、部分画像データとも呼ぶ)について行うものであってよい。部分画像データは、例えば、mean-shift等の従来の方法を用いることによって新たな画像データから分割された画像データである。
【0111】
そして、カテゴリ特定部23は、S23の処理において、さらに、部分画像データに含まれる複数のピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多いカテゴリを、部分画像データに対応するカテゴリとして特定するものであってよい。さらに、カテゴリ出力部24は、S24の処理において、例えば、部分画像データに対応するカテゴリを操作端末5に出力するものであってよい。
【0112】
これにより、情報処理装置1は、例えば、新たな画像データに含まれる部分画像データごとに、各部分画像データに対応するカテゴリの出力を行うことが可能になる。
【0113】
[第1の実施の形態におけるカテゴリ識別処理の変形例(3)]
次に、第1の実施の形態におけるカテゴリ識別処理の第3変形例について説明を行う。
【0114】
カテゴリ受付部11は、例えば、作業者によって同一のカテゴリに対応すると判断されたピクセル群からなる画像データの一部、すなわち、同一のアノテーション(annotation)カテゴリに対応する画像データの一部(以下、カテゴリ画像データとも呼ぶ)からさらに分割された複数の部分画像データごとに、S11の処理を行うものであってもよい。部分画像データは、例えば、mean-shift等の従来の方法を用いることによって分割されたカテゴリ画像データの一部である。
【0115】
そして、クラスタ特定部22及びカテゴリ特定部23は、S22及びS23の処理を、複数の部分画像データごとに行うものであってもよい。
【0116】
その後、情報処理装置1は、カテゴリ画像データに対応する正解のアノテーションカテゴリと、S23の処理で特定された部分画像データに対応するカテゴリ(サブカテゴリ)のそれぞれとが全て一致した場合、または、一致した割合が所定の割合(例えば、50(%))を上回った場合に、カテゴリ画像データに対応するアノテーションカテゴリが正しく識別されたものと判断するものであってもよい。
【0117】
なお、カテゴリ画像データに対応する正解のアノテーションカテゴリは、例えば、作業者によって予め用意された正解のデータ(Ground Truth Data)であってよい。また、カテゴリ出力部24は、カテゴリ画像データに対応するアノテーションカテゴリが正しく識別されたか否かを示す情報を操作端末5に出力するものであってもよい。
【0118】
[第2の実施の形態におけるカテゴリ識別処理]
次に、第2の実施の形態におけるカテゴリ識別処理について説明を行う。
図12から
図14は、第2の実施の形態におけるカテゴリ識別処理について説明する図である。なお、以下、第1の実施の形態と重複する部分については説明を省略する。
【0119】
情報処理装置1のCPU101は、
図12に示すように、プログラムと協働することにより、カテゴリ受付部31、ピクセル分布部32、ピクセル特定部33、最多カテゴリ特定部34、画像受付部41、格子点特定部42、カテゴリ特定部43及びカテゴリ出力部44として機能する。
【0120】
[学習段階における処理]
初めに、カテゴリ識別処理における学習段階における処理について説明を行う。
【0121】
情報処理装置1のカテゴリ受付部31は、
図12に示すように、学習データとして用いられる複数の画像データに含まれる複数のピクセルごとに、各ピクセルに対応するカテゴリの入力を受け付ける(S31)。
【0122】
そして、情報処理装置1のピクセル分布部32は、S31の処理でカテゴリの入力を受け付けた複数のピクセルのそれぞれを、各ピクセルの特徴に基づいて多次元空間に分布する(S32)。
【0123】
続いて、情報処理装置1のピクセル特定部33は、多次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を多次元空間において特定する(S33)。
【0124】
具体的に、ピクセル特定部33は、例えば、多次元空間が3次元空間である場合(一様クラスタリング法を用いる場合)、各ピクセルの3次元空間に含まれる格子点ごとに、各格子点を中心とした立方体を3次元空間に特定する。
【0125】
さらに具体的に、例えば、S32の処理において多次元空間が3次元空間であり、かつ、各ピクセルの特徴が各ピクセルのR値、G値及びB値である場合、例えば、3次元空間におけるX軸上、Y軸上及びZ軸上のそれぞれには、256個の格子点が存在し、3次元空間には、256×256×256個の格子点が存在する。
【0126】
そして、例えば、座標が(5,5,5)である格子点を中心とする3×3×3の立方体に含まれる格子点には、座標が(4,4,4)、(4,4,5)、(4,4,6)、(4,5,4)、(4,5,5)、(4,5,6)、(4,6,4)、(4,6,5)、(4,6,6)、(5,4,4)、(5,4,5)、(5,4,6)、(5,5,4)、(5,5,5)、(5,5,6)、(5,6,4)、(5,6,5)、(5,6,6)、(6,4,4)、(6,4,5)、(6,4,6)、(6,5,4)、(6,5,5)、(6,5,6)、(6,6,4)、(6,6,5)及び(6,6,6)である27個の格子点が含まれる。
【0127】
そのため、ピクセル特定部33は、S33の処理において、例えば、3次元空間に含まれる格子点のうち、座標が(5,5,5)である格子点を中心とする立方体を特定する場合、上記の27個の格子点を含む立法体の特定を行う。
【0128】
なお、ピクセル特定部33は、例えば、多次元空間が3×k×k次元空間である場合(拡張クラスタリング法を用いる場合)についても同様に、3×k×k次元空間に含まれる格子点ごとに、各格子点を中心とした多胞体を3×k×k次元空間において特定する。
【0129】
さらに、ピクセル特定部33は、多次元空間に含まれる格子点ごとに、S32の処理で多次元空間に分布した複数のピクセルのうち、各格子点に対応する多胞体に含まれるピクセルを特定する(S34)。
【0130】
具体的に、ピクセル特定部33は、例えば、3次元空間に含まれる格子点のうちの座標が(5,5,5)である格子点に対応する多胞体に含まれるピクセルとして、S32の処理で多次元空間に分布した複数のピクセルのうち、上記の27個の格子点に分布されたピクセルの数をそれぞれ特定する。
【0131】
その後、情報処理装置1の最多カテゴリ特定部34は、多次元空間に含まれる格子点ごとに、S34の処理で特定した多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定する(S35)。
【0132】
具体的に、最多カテゴリ特定部34は、例えば、上記の27個の格子点に分布されたピクセルの数をカテゴリごとに集計する。そして、ピクセル特定部33は、例えば、集計したピクセルの数が最大であるカテゴリを、座標が(5,5,5)である格子点に対応する最多カテゴリとして特定する。
【0133】
すなわち、第2の実施の形態では、各格子点に対応する最多ピクセルを学習段階において特定する。これにより、情報処理装置1は、後述するように、識別段階において格子点ごとの最多ピクセルを参照することで、識別対象の新たな画像データに含まれる各ピクセルのカテゴリの識別を高速に行うことが可能になる。
【0134】
なお、以下、多次元空間に含まれる格子点のそれぞれに各格子点に対応する最多カテゴリを対応付けたものをlabeling mask spaceとも呼ぶ。
【0135】
[識別段階における処理]
次に、カテゴリ識別処理における識別段階における処理について説明を行う。
【0136】
情報処理装置1の画像受付部41は、
図14に示すように、識別対象の新たな画像データの入力を受け付ける(S41)。
【0137】
そして、情報処理装置1の格子点特定部42は、S41の処理で入力を受け付けた新たな画像データに含まれる第1ピクセルの特徴に基づいて、第1ピクセルに対応する格子点(以下、第1格子点とも呼ぶ)を多次元空間に含まれる格子点から特定する(S42)。
【0138】
具体的に、例えば、第1ピクセルのR値、G値及びB値のそれぞれが「10」である場合、格子点特定部42は、例えば、3次元空間に含まれる格子点のうち、座標が(10,10,10)である格子点を特定する。
【0139】
その後、情報処理装置1のカテゴリ特定部43は、S42の処理で特定した第1格子点に対応する最多カテゴリを、第1ピクセルに対応するカテゴリとして特定する(S43)。
【0140】
具体的に、例えば、labeling mask spaceにおいて、学習段階(S35の処理)で特定した最多カテゴリのうちの座標が(10,10,10)である格子点に対応する最多カテゴリがカテゴリAであった場合、カテゴリ特定部43は、第1ピクセルに対応するカテゴリとしてカテゴリAを特定する。
【0141】
これにより、情報処理装置1は、識別対象の新たな画像データに含まれる各ピクセルのカテゴリの識別を高速に行うことが可能になる。具体的に、情報処理装置1は、例えば、k-NN(k-nearest neighbor)等の従来の方法よりもカテゴリの識別を高速に行うことが可能になる。
【0142】
[第2の実施の形態におけるカテゴリ識別処理の変形例]
次に、第2の実施の形態におけるカテゴリ識別処理の変形例について説明を行う。
【0143】
情報処理装置1は、学習段階において、さらに、各格子点に対応する多胞体に含まれるピクセルについての距離値の平均値及び標準偏差を、S31の処理で入力を受け付けた複数のカテゴリのそれぞれに対応するピクセルごとに行うものであってよい。また、最多カテゴリ特定部34は、多次元空間に含まれる格子点ごとに、各格子点の多胞体に含まれるピクセルのそれぞれに対応するカテゴリのうち、対応するピクセルの数が最も多い最多カテゴリを特定するものであってよい。
【0144】
そして、カテゴリ特定部43は、S43の処理において、S42の処理で特定した第1格子点に対応する最多カテゴリが以下の式(5)を満たす場合、S42の処理で特定した第1格子点に対応する最多カテゴリを第1ピクセルに対応するカテゴリとして特定するものであってよい。
【0145】
【0146】
上記の式(5)において、dは、第1距離値を示し、mcは、第1格子点と最多カテゴリであるc番目のカテゴリとに対応する平均値を示し、σc
2は、第1格子点とc番目のカテゴリとに対応する標準偏差の2乗を示し、hは、所定の閾値を示す。
【0147】
これにより、情報処理装置1は、識別対象の新たな画像データに含まれる各ピクセルのカテゴリの識別をより高速に行うことが可能になる。
【0148】
なお、第1の実施の形態におけるカテゴリ識別処理の第2変形例及び第3変形例は、第2の実施の形態におけるカテゴリ識別処理においても適用可能である。
【0149】
[第3の実施の形態におけるカテゴリ識別処理]
次に、第3の実施の形態におけるカテゴリ識別処理について説明を行う。
図15から
図19は、第3の実施の形態におけるカテゴリ識別処理について説明する図である。なお、以下、第1の実施の形態または第2の実施の形態と重複する部分については説明を省略する。
【0150】
情報処理装置1のCPU101は、
図15に示すように、プログラムと協働することにより、カテゴリ受付部51、相関値算出部52、クラスタ分割部53、相関値群特定部54、画像受付部61、組合せ特定部62、ピクセル特定部63及びカテゴリ特定部64として機能する。
【0151】
[学習段階における処理]
初めに、カテゴリ識別処理における学習段階における処理について説明を行う。
【0152】
情報処理装置1のカテゴリ受付部31は、
図16に示すように、学習用の画像データに含まれる複数のピクセル群ごとに、各ピクセル群に対応するカテゴリの入力を受け付ける(S51)。
【0153】
ここでのピクセル群は、学習用の画像データにおけるk(kは1以上の整数)×kの大きさの領域を示している。そのため、例えば、学習用の画像データに含まれるピクセルのサイズがM(Mは1以上の整数)×N(Nは1以上の整数)である場合、学習用の画像データには、(M/k)×(N/k)個のピクセル群が含まれていることになる。
【0154】
そして、情報処理装置1の相関値算出部52は、S51の処理で入力を受け付けた複数のピクセル群に含まれる2つのピクセル群の組合せごとに、各組合せに含まれるピクセル群に対応する特徴の相関値を算出する(S52)。
【0155】
ここでのピクセル群に対応する特徴は、例えば、ピクセル群に対応する距離値、ピクセル群に対応するRGB値、または、ピクセル群に対応する距離値及びRGB値の両方である。
【0156】
なお、以下、学習用の画像データにおけるi番目のピクセル群に対応する特徴をF(i)と表す。すなわち、ピクセル群に対応する特徴がピクセル群に対応する距離値である場合、F(i)は、k×k次元のベクトルになり、ピクセル群に対応する特徴がピクセル群に対応するRGB値である場合、F(i)は、k×k×3次元のベクトルになり、ピクセル群に対応する特徴がピクセル群に対応する距離値及びRGB値の両方である場合、F(i)は、k×k×4次元のベクトルになる。
【0157】
そして、相関値算出部52は、S52の処理において、例えば、以下の式(8)から式(11)を用いることによってF(i)とF(j)との相関値φ(i,j)を算出する。
【0158】
【0159】
【0160】
【0161】
【0162】
上記の式(8)から式(11)において、ρ(F(i),f(j))は、F(i)とF(j)との間のコサイン相関を示し、<F(i),F(j))>は、F(i)とF(j)との内積を示し、||F(i)||は、F(i)のノルムを示している。また、上記の式(8)から式(11)において、g(i,j)は、(x(i),y(i))と(x(j)とy(j))との距離がs以下である場合が1であり、(x(i),y(i))と(x(j)とy(j))との距離がs以上である場合が||(x(i),y(i))-(x(j)とy(j))||になる関数を示している。
【0163】
図16に戻り、クラスタ分割部53は、S51の処理で入力を受け付けた複数のピクセル群の組合せごとの相関値に基づいて、S51の処理で入力を受け付けた複数におけるピクセル群のそれぞれを複数のクラスタに分割する(S53)。
【0164】
具体的に、クラスタ分割部53は、ピクセル群のそれぞれをノードとし、かつ、各ノード間の結合係数を相関値φ(i,j)とするネットワークについてのスペクトラムクラスタリングを行うことにより、次元数が固有ベクトルの数に対応する多次元空間に各ノードを配置する(非特許文献3及び非特許文献4)。
【0165】
なお、
図19に示すように、例えば、各ノードの連結関係を行列によって表現した場合、スペクトラムクラスタリングは、ノードの番号付けの順序に影響されることなく行われる。この点、スペクトラムクラスタリングにおいて学習用の画像データに含まれるピクセル群をノードとする場合、ノードに対する番号付けは一定にならない。そのため、学習用の画像データに含まれるピクセル群のノードとする場合、上記のような不変性が必須となる。
【0166】
また、この場合、例えば、q個の固有ベクトルに対応するq次元空間におけるi番目のピクセル群の配置座標は、以下の式(12)のように表現され、q個の固有ベクトルに対応するq次元空間におけるj番目のピクセル群の配置座標は、以下の式(13)のように表現される。さらに、クラスタ分割部53は、例えば、以下の式(14)を用いることによって、i番目のピクセル群の配置座標とj番目のピクセル群の配置座標との距離を算出する。
【0167】
【0168】
【0169】
【0170】
その後、クラスタ分割部53は、例えば、算出した距離を用いたk-means法を従うことによって、各ノード(各ピクセル群)を複数のクラスタに分割する(非特許文献5)。
【0171】
図16に戻り、相関値群特定部54は、S51の処理で入力を受け付けた複数のピクセル群ごとに、各ピクセル群を含む組合せに対応する相関値からなる第1相関値群を特定する(S54)。
【0172】
具体的に、例えば、学習用の画像データ(以下、画像データAとも呼ぶ)に対応する相関値φAの行列φA(i,j)のうちのi=ipである行ベクトルV(ip)Aを、i番目のピクセル群の第1相関値群として特定する。
【0173】
なお、クラスタ分割部53は、S53の処理において、k-means法のみを用いることによって各ピクセル群を複数のクラスタに分割するものであってもよい。この場合、クラスタ分割部53は、相関値φが0よりも大きく1よりも小さい値になることを利用して、例えば、以下の式(15)を用いることによって2つのピクセル群の間の距離を算出する。
【0174】
【0175】
上記の式(15)において、d(i,j)は、i番目のピクセル群とj番目のピクセル群との距離を示している。
【0176】
[識別段階における処理]
次に、カテゴリ識別処理における識別段階における処理について説明を行う。
【0177】
情報処理装置1の画像受付部61は、
図17に示すように、識別対象の新たな画像データの入力を受け付ける(S61)。
【0178】
そして、相関値算出部52は、S52の処理と同様に、S61の処理で入力を受け付けた複数のピクセル群に含まれる2つのピクセル群の組合せごとに、各組合せに含まれるピクセル群に対応する特徴の相関値を算出する(S62)。
【0179】
続いて、クラスタ分割部53は、S53の処理と同様に、S62の処理で算出したピクセル群の組合せごとの相関値に基づいて、S61の処理で入力を受け付けた新たな画像データにおける複数のピクセル群のそれぞれを複数のクラスタに分割する(S63)。
【0180】
次に、相関値群特定部54は、
図18に示すように、S54の処理と同様に、S61の処理で入力を受け付けた新たな画像データにおける複数のピクセル群ごとに、各ピクセル群を含む組合せのそれぞれに対応する相関値からなる第2相関値群を特定する(S71)。
【0181】
具体的に、例えば、S61の処理で入力を受け付けた新たな画像データ(以下、画像データBとも呼ぶ)に対応する相関値φBの行列φB(i,j)のうちのi=jqである行ベクトルV(jq)Bを、j番目のピクセル群の第2相関値群として特定する。
【0182】
その後、情報処理装置1の組合せ特定部62は、S31の処理でカテゴリの入力を受け付けた学習用の画像データとS61の処理で入力を受け付けた新たな画像データとの間において、S54の処理で特定した第1相関値群とS71の処理で特定した第2相関値群との差異が所定以下であるピクセル群の組合せを特定する(S72)。
【0183】
具体的に、例えば、画像データAに含まれるクラスタCに含まれるノードの集合を以下の式(16)のように表現し、画像データBに含まれるクラスタEに含まれるノードの集合を以下の式(17)のように表現する場合、組合せ特定部62は、以下の式(18)を用いることによって、S54の処理で特定した第1相関値群とS71の処理で特定した第2相関値群との差異を算出する。
【0184】
【0185】
【0186】
【0187】
上記の式(16)から(18)において、cpは、クラスタCに属するp番目のノード(ピクセル群)を示し、eqは、クラスタEに属するq番目のノード(ピクセル群)を示し、d(cp,eq)は、V(ip)AとV(jq)Bとの距離を示している。
【0188】
そして、組合せ特定部62は、S72の処理において、例えば、d(cp,eq)が所定以下である場合、クラスタCに属するp番目のノード(ピクセル群)とクラスタEに属するq番目のノード(ピクセル群)との組み合わせを特定する。
【0189】
図18に戻り、情報処理装置1のピクセル特定部63は、S61の処理で入力を受け付けた新たな画像データにおける複数のピクセル群のそれぞれを分割した複数のクラスタごとに、各クラスタに含まれるピクセル群のうち、S72の処理で特定した組合せに含まれるピクセル群を特定する(S73)。
【0190】
そして、情報処理装置1のカテゴリ特定部64は、S63の処理で分割した複数のクラスタごとに、S73の処理で特定したピクセル群のそれぞれに対応するカテゴリのうちの最も多くのピクセル群に対応するカテゴリを、各クラスタに対応するカテゴリとして特定する(S74)。
【0191】
具体的に、カテゴリ特定部64は、S74の処理において、S72の処理で特定した組合せごとに、各組合せに含まれるピクセルであってS31の処理でカテゴリの入力を受け付けた学習用の画像データに含まれるピクセルに対応するカテゴリを、各組合せに含まれるピクセルであってS61の処理で入力を受け付けた新たな画像データに含まれるピクセルに対応するカテゴリとして特定する。
【0192】
これにより、情報処理装置1は、識別対象の新たな画像データに含まれるピクセル群のうち、学習用の画像データに含まれるピクセル群と対応付けができたピクセル群について、各ピクセル群に対応するカテゴリを特定することが可能になる。
【0193】
さらに、カテゴリ特定部64は、S74の処理において、S63の処理で分割した複数のクラスタごとに、最も多く特定されたカテゴリを各クラスタに対応するカテゴリとして特定する。
【0194】
これにより、情報処理装置1は、識別対象の新たな画像データに含まれる各クラスタに対応するカテゴリを特定することが可能になる。
【0195】
なお、上記の例では、S61の処理で入力を受け付けた新たな画像データにおける複数のピクセル群のそれぞれを分割した複数のクラスタごとに、各クラスタに含まれるピクセル群のうち、S72の処理で特定した組合せに含まれるピクセル群を特定する処理(S73)と、複数のクラスタごとに、S73の処理で特定したピクセル群のそれぞれに対応するカテゴリのうちの最も多くのピクセル群に対応するカテゴリを、各クラスタに対応するカテゴリとして特定する処理(S74)とを行う場合について説明を行った。これに対し、情報処理装置1は、例えば、S61の処理で入力を受け付けた新たな画像データに含まれる部分画像データ(例えば、mean-shift等の従来の方法を用いることによって新たな画像データから分割された画像データ)ごとに、各部分画像データに含まれるピクセル群のうち、S72の処理で特定した組合せに含まれるピクセル群を特定し、さらに、部分画像データごとに、S73の処理で特定したピクセル群のそれぞれに対応するカテゴリのうちの最も多くのピクセル群に対応するカテゴリを、各部分画像データに対応するカテゴリとして特定するものであってもよい。
【符号の説明】
【0196】
1:情報処理装置
3:操作端末
11:カテゴリ受付部
12:ピクセル分布部
13:クラスタ分割部
14:指標算出部
21:画像受付部
22:クラスタ特定部
23:カテゴリ特定部
24:カテゴリ出力部
31:カテゴリ受付部
32:ピクセル分布部
33:ピクセル特定部
34:最多カテゴリ特定部
41:画像受付部
42:格子点特定部
43:カテゴリ特定部
44:カテゴリ出力部
101:CPU
102:メモリ
103:ネットワークインタフェーズ
104:記憶媒体
105:バス