【文献】
岡部 孝弘、外3名,“カテゴリーの共起を考慮した回帰による複数物体認識”,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2009年 8月 1日,Vol.J92-D, No.8,pp.1115-1124
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
以下、実施形態の分類ラベル付与装置、分類ラベル付与方法、およびプログラムを、図面を参照して説明する。
【0011】
(第1の実施形態)
図1は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号1は分類ラベル付与装置である。図示するように、分類ラベル付与装置1は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部106と、説明規則記憶部107と、説明情報生成部108と、出力部109と、を持つ。これら各部は、電子回路を用いて構成され、回路内の電気的状態(例えば電圧値)を情報に対応付けて処理することによって所望の機能を実現する。なお、後述するようにコンピューター(パーソナルコンピューター等)を用いて各部の機能を実現するようにしてもよい。また、分類情報記憶部103と知識記憶部105と説明規則記憶部107は、磁気ディスク装置や半導体メモリ等を用いて、情報を記憶できるようにする。このような構成により、分類ラベル付与装置1は、精度よく、自動的に、画像の分類ラベルを付与する。なお、分類ラベルは、処理対象の画像が何を示しているかを表す情報である。分類ラベルは、「タグ」あるいは「タグ情報」と呼ばれる場合もある。例えば、画像が太陽を表すものである場合には、その画像には「太陽」という分類ラベルが付与される。また、例えば、画像が本を著すものである場合には、その画像には「本」という分類ラベルが付与される。
【0012】
分類ラベル付与装置1は、例えば、大量の画像を効率よく且つ精度よく登録するための画像登録システムの一部として利用される。なお、この画像登録システムは、画像に関連付けて、その画像が何を表しているかを示す分類ラベルをも登録するものである。また、画像登録システムの利用目的の一つは、機械学習のための教師データを大量に生成するための処理である。画像を入力して分類ラベルを自動的に付与する処理において、その処理におけるパラメーターを最適化するために、教師データが正解例として利用される。
なお、分類ラベル付与装置1の利用目的は、ここで例示したものには限定されず、他にも様々な利用方法が可能である。
以下において、分類ラベル付与装置1を構成する各部の処理の詳細について説明する。
【0013】
入力部101は、外部から画像のデータを取得し、取得した画像データを分割部102に渡す。入力部101が取得する画像は、分類ラベルを付与するための画像である。基本的に、1件の画像データファイルが、分類ラベル付与の対象となる1件の画像を含んでいる。ただし、データファイルと画像との対応関係は、必ずしも1対1でなくてもよい。
なお、入力部101が、イメージスキャナ等の機能により、例えば印刷されている画像をスキャンして読み込むようにしてもよい。また、入力部101が、既に電子データとして存在している画像データファイルを、分類ラベル付与装置1内の記憶手段から、あるいは外部から取得するようにしてもよい。また、入力部101が、カメラで撮影された画像のファイルを読み込むようにしてもよい。
【0014】
分割部102は、入力部101が取得した画像のそれぞれについて、領域分割処理を行う。分割された各領域は、元の画像に対する、部分画像の領域である。具体的には、ある画像に複数の物が含まれているときに、分割部102は、その画像を物ごとの部分画像に分割する。分割部102は、元の1件の画像から分割処理によって得られた部分画像を1セットとして、認識部104に渡す。
なお、分割部102による部分画像の分割の処理自体は、既存技術を用いて行うことが可能である。一例として、領域成長法を用いて画像を分割することができる。領域成長法では、画像内の画素の特徴とその近傍の特徴とに基づいて、ある画素と他の画素とが同じ領域に属するかどうかを判断する。特徴が互いに似ていれば、それらの画素を併合してより大きな領域とする。この操作を繰り返して起用していくことによって、画像全体を、複数の部分画像の領域に分割する。参考文献["Seeded region growing." Pattern Analysis and Machine Intelligence, IEEE Transactions on 16.6 (1994): pp. 641-647.]にも、この領域成長法について記載されている。
また、分割部102は、他の、例えば分割統合法を用いたり、色などの特徴量によるクラスタリングを行ったりして、画像を分割するようにしてもよい。
【0015】
分類情報記憶部103は、画像中の物を認識するための情報(識別器として機能するために必要な分類情報)と、認識結果に関連付けられた分類ラベルの情報とを保持する。
【0016】
認識部104は、分類情報記憶部103に保持されている分類情報を用いて、分割部102から渡される各部分画像の認識処理を行う。そして、認識部104は、認識結果に対応する分類ラベルの複数の候補と各候補についての認識スコアを、更新部106に渡す。認識部104における処理では、最高の(第1位の)認識スコアに対応する分類ラベルを暫定的に部分画像に付与するが、ここで付与された分類ラベルは、後述する処理によって更新される場合がある。なお、認識部104が、第1位の認識スコアを有する分類ラベルに限らず、比較的上位(例えば、第2位、第3位等)の認識スコアに対応する分類ラベルを画像に付与するようにしてもよい。
なお、本実施形態における認識スコアは、0以上且つ1以下の実数値である。認識スコアは、その画像に対する分類ラベルの正しさの度合いを表す。認識スコアが0のとき、その画像に対してその分類ラベルが付与されることはあり得ない。認識スコアが1のとき、その画像に対してその分類ラベルを付与することは確定的に正しい。
なお、認識スコアの値を、0以上且つ1以下の範囲に限定しない形で実施してもよい。
【0017】
知識記憶部105は、認識部104によって付与された分類ラベルを更新するための知識をデータとして保持する。言い換えれば、知識記憶部105は、画像と分類ラベルとの関係についての知識の情報を記憶する。ここで、知識とは、具体的には、分類ラベルの出現に関する統計的な数値データである。
本実施形態による知識記憶部105は、共起情報記憶部111を持つ。共起情報記憶部111は、ある分類ラベルと他の分類ラベルとの共起しやすさの度合い(「共起尤度」とも呼ぶ)を表す数値データを保持するものである。共起情報記憶部111におけるデータ構成については、後で別の図を参照して詳しく説明する。
【0018】
更新部106は、認識部104から得られた分類ラベルの候補ごとの認識スコアと、知識記憶部105から読み出した知識とに基づいて、それら分類ラベルの候補の更新スコアを算出する。そして、更新部106は、更新スコアの高い順に、部分画像の分類レベル候補を並べる。即ち、更新部106は、更新スコアが高い分類ラベルを優先的に扱う。更新部106は、算出された更新スコアに基づいて、必要な場合には分類ラベルを更新する。つまり、認識部104によって付与された分類ラベルは、更新部106によって別の分類ラベルに置き換えられる。そして、更新部106は、部分画像と、その部分画像に対応する更新前の分類ラベルおよび更新後の分類ラベルとを、説明情報生成部108に渡す。つまり、更新部106は、知識記憶部105から読み出した知識に基づいて、画像に付与された分類ラベルを別の分類ラベルに更新する。
【0019】
説明規則記憶部107は、分類ラベルを付与した根拠を説明する説明情報を生成するための説明規則のデータを保持する。特に、説明規則記憶部107は、更新部106による分類ラベルの更新処理に対応した説明規則のデータを記憶するものである。一例として、説明規則は、説明文のテンプレートとして表される。説明文のテンプレートは、文のテキストデータであり、その内部に変数(variable)を含むことができる。変数は、具体的なデータ(ここで、データとは、例えば分類ラベル)にマッチさせることができるものである。
【0020】
説明規則の例は、「<根拠となった分類ラベル>があるので、この部分は<付与された分類ラベル>です。」といった説明文のテンプレートである。このテンプレートにおける<根拠となった分類ラベル>および<付与された分類ラベル>は、それぞれ、変数である。例えば、<付与された分類ラベル>は、更新部106によって付与された分類ラベルにマッチする。また、<根拠となった分類ラベル>は、更新部106が<付与された分類ラベル>を付与する際に、その根拠となった分類ラベルにマッチする。共起情報記憶部111に記憶されている共起情報を用いて更新部106が分類ラベルを付与する場合、付与された分類ラベルと共起した相手方の分類ラベルが、上記の<根拠となった分類ラベル>である。
なお、上記の説明規則は一例であり、説明規則記憶部107が他の様々な説明規則を保持するようにしてもよい。説明規則の他の具体例については、後でも説明する。
【0021】
説明情報生成部108は、説明規則記憶部107から読み出した説明規則と、更新部106による分類ラベルの更新処理の内容とに基づいて説明情報を生成する。具体的には、説明情報生成部108は、更新部106から出力された部分画像および分類ラベルの情報に基づいて、説明規則記憶部107から、説明規則を読み出す。そして、分類ラベルの情報にマッチする適用規則を特定し、その説明規則に基づく説明情報を生成する。このとき、説明情報生成部108は、説明規則に含まれている変数に実データ(例えば、変数にマッチする分類ラベル)を適用することによって、説明情報の文を完成させる。そして、説明情報生成部108は、それらの部分画像と、分類ラベルと、生成された説明情報とを、出力部109に渡す。
なお、説明情報の生成処理の具体例等については、後でも説明する。
【0022】
出力部109は、説明情報生成部108から渡された部分画像と、画像に付与された分類ラベルと、説明情報とを出力する。具体的には、出力部109は、これら部分画像と分類ラベルと説明情報とを画面等に表示する。
【0023】
図2は、知識記憶部105内の共起情報記憶部111が保持するデータの構成とデータ例を示す概略図である。図示するように、共起情報記憶部が保持するデータは、2次元の表の構造を有する。同図において、行方向および列方向のそれぞれは、分類ラベルに対応する。図中における、「本」、「新聞」、「地図」、「棒」、「ペン」、「針」、「人」、「月」、「太陽」は、それぞれ、分類ラベルの例である。分類ラベルの部分を除くと、この2次元の表は、N行N列の行列と等価である。ここで、Nは、正整数であり、分類ラベルの総数である。この行列は、ある分類ラベルともう一つの分類ラベル(これら両者が同じ分類ラベルであってもよい)とが共起する尤度の値を保持する。行方向における特定の分類ラベルと列方向における特定の分類ラベルとが共起する尤度は、当該行且つ当該列における行列要素の数値である。なお、尤度は、0以上且つ1以下の実数である。分類ラベルが画像の属するクラスであると見なすと、画像がクラスC
j(1≦j≦N)に属するときにその画像がクラスC
i(1≦i≦N)に属する尤度は、p(C
i|C
j)と表される。このp(C
i|C
j)は、上記行列の第i行第j列に格納されている値である。つまり、p(C
i|C
j)は、第j番目の分類ラベルに該当する部分画像が元の全体画像に含まれているときに、第j番目の分類ラベルに該当する部分画像もまた元の全体画像に含まれている場合の尤度である。なお、i=jの場合は、第i番目の分類ラベルに該当する部分画像が元の全体画像に含まれているときに、第j番目(i=jである)の分類ラベルに該当する部分画像がさらにもう1つ以上、当該元の全体画像に含まれている場合の尤度である。なお、同図では、p(C
i|C
j)=p(C
j|C
i)である場合のデータを例示しているが、必ずしもp(C
i|C
j)=p(C
j|C
i)でなくてもよい。
【0024】
なお、上述した尤度のデータは、正しく分類ラベルが付与されている大量の画像データを用いて統計的な計算を行うことによって、予め共起情報記憶部111に格納しておくようにする。
同図に示す具体的なデータの例は、下記の通りである。即ち、例えば、分類ラベル「本」を前提として分類ラベル「ペン」が共起する尤度は、0.5である。また、分類ラベル「太陽」を前提として分類ラベル「月」が共起する尤度は、0.8である。また、分類ラベル「地図」を前提として分類ラベル「棒」が共起する尤度は、0.08である。その他の場合についても、図示されている通りであるが、ここでは説明を省略する。
【0025】
図3は、分類ラベル付与装置1の全体の処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理全体の概略を説明する。
まずステップS11において、入力部101は、画像を取得する。具体的には、例えば、入力部101は、ユーザーが指定したパス名にしたがって、画像データファイルを記憶装置(例えば、磁気ハードディスク装置)から読み込む。なお、パス名は、コンピューターで管理されるファイルシステムにおいて、データファイルをユニークに特定できる名称であり、ディレクトリ名とファイル名から成るものである。そして、入力部101は、読み取った画像のデータを分割部102に渡す。
【0026】
次にステップS12において、分割部102は、入力部101から渡された画像を分割し、その結果として部分画像を得る。分割部102が画像を分割する手法については既に述べたとおりである。そして、分割部102は、分割によって得られた領域ごとの部分画像を、認識部104に渡す。
【0027】
次にステップS13において、認識部104は、分割部102から渡された部分画像の各々について、分類情報記憶部103に格納されている分類情報を用いた認識処理を行う。その結果、認識部104は、各部分画像について、分類ラベルの複数の候補と、それぞれの候補についての認識スコアを出力する。つまり、元の入力画像が複数の部分画像に分割された場合には、認識部104は、各部分画像について、分類ラベルの候補とそれら候補に対応する認識スコアとを更新部106に渡す。
なお、認識処理の詳細については、後で述べる。
【0028】
次にステップS14において、更新部106は、知識記憶部105内の共起情報記憶部111から読み出した共起情報を用いて、認識部104から渡された、各部分画像の、各分類ラベル候補の認識スコアを更新する。更新部106によって更新されたスコアを、更新スコアと呼ぶ。
なお、更新処理の詳細については、後で述べる。
【0029】
次にステップS15において、説明情報生成部108は、更新部106から渡された画像と分類ラベルと更新スコアの情報、および説明規則記憶部107から読み出した説明規則を用いて、説明情報を生成する。
なお、説明情報生成の処理の詳細については、後で実例を参照しながら説明する。
【0030】
次にステップS16において、説明情報生成部108は、生成した説明情報と、その説明情報に関係する部分画像とをグループ化する。具体的には、説明情報生成部108は、生成した説明情報に説明ラベルIDを付与する。また、その説明情報に関係する部分画像のそれぞれにも、その説明ラベルIDを付与する。これにより、その説明ラベルIDを鍵として、関係する説明情報と部分画像とが関連付けられる。即ち、出力する情報のうち、関係しあうもの(説明情報と部分画像)とがグループ化される。説明情報生成部108は、これら生成された情報を、出力部109に渡す。
なお、グループ化の具体例について、後で説明する。
【0031】
そして、ステップS17において、出力部109は、説明情報生成部108から渡された情報を出力する。具体的には、出力部109は、情報を画面等に表示する。なお、出力部109は、上で述べた説明ラベルIDが付与されている情報(説明情報および部分画像)を、互いに近い位置に表示する。また、出力部109は、根拠となった部分画像よりも、根拠を必要とする部分画像の近くに、説明情報を表示する。
【0032】
なお、認識部104における画像の認識処理自体(上記のステップS13における処理)については、既存の技術を用いることができる。ここでは、認識処理の例について説明する。
分類ラベルの総数がN(N≧1)で、画像の特徴量x(xは、ベクトルである)が与えられた時の分類ラベルC
iの事後確率p(C
i|x;θ
i)は、下の式(1)で計算できる。
【0034】
ここで、θ
iは、分類ラベルC
iに対応するパラメーターである。θ
iは、特徴量xの要素数と同じ要素数を有するベクトルである。このパラメーターθ
iの最適値は予め機械学習等によって求められており、分類情報記憶部103に格納されている。また、θ
ixは、これら両ベクトルの内積である。また、θ
ijは、ベクトルθ
iの第j番目の要素である。また、x
jは、ベクトルxの第j番目の要素である。
【0035】
特徴量xとしては、例えば、認識処理の対象である部分画像全体の色ヒストグラムを用いる。各分類ラベル候補の認識スコアq
iは、上の式(1)で算出される事後確率である。認識部104は、認識スコアq
iの高い順にC
iを並べる。認識部104は、ロジスティック回帰を用いた識別器による認識処理を行い、上位3位までの分類ラベル候補を取得する。なお、ここで得る上位の分類ラベル候補の個数は3でなくてもよく、適宜変更してもよい。
また、ロジスティック回帰で用いる特徴量xには、上述した色ヒストグラム以外に、画像全体の特徴量や、HOG特徴量(Histogram of Oriented Gradient)等、局所的特徴量を用いても良い。例えば、HOG特徴量に関しては、文献["Histograms of oriented gradients for human detection." CVPR 2005. IEEE Computer Society Conference on (Vol. 1, pp. 886-893).]にも記載されている。
【0036】
上ではロジスティック回帰について説明したが、認識処理の手法は、これに限らず、例えば、サポートベクターマシーン(SVM)やニューラルネットワークなどを用いてもよい。
【0037】
次に、更新部106による更新処理(上記のステップS14における処理)の詳細について説明する。
更新部106は、分類ラベルC
jを前提としたときの、分類ラベルC
iの更新スコアq
i´を、下の式(2)によって算出する。
【0039】
ここで、q
iは、既に述べたとおり認識部104によって算出された、分類ラベルC
iに対応する認識スコアである。そして、p(C
i|C
j)は、共起情報記憶部111から読み出された共起情報の値である。つまり、p(C
i|C
j)は、既に述べたとおり、分類ラベルC
jを前提としたときの、分類ラベルC
iが共起する尤度である。
【0040】
次に、具体例により、さらに詳細に、分類ラベル付与装置1の処理を説明する。
図4は、分類ラベル付与装置1による処理の流れを、具体例(画像およびスコア数値)により説明するための概略図である。以下、同図に沿って順を追って説明する。
同図(a)は、入力部101が取得した画像を示す。符号801が取得された画像であり、この画像は本とペンを含んでいる。
同図(b)は、分割部102による領域分割の処理の結果として抽出された複数の部分画像を示す。符号802および803は、それぞれ、部分画像である。部分画像802は、本を含む。また、部分画像803は、ペンを含む。
同図(c)は、認識部104が部分画像802について認識処理を行った結果を示す。ここで、分類ラベル候補の上位3位までは、「本」、「新聞」、「地図」であり、それぞれの分類ラベル候補の認識スコアは、0.5、0.3、0.1である。
同図(d)は、認識部104が部分画像803について認識処理を行った結果を示す。ここで、分類ラベル候補の上位3位までは、「棒」、「ペン」、「針」であり、それぞれの分類ラベル候補の認識スコアは、0.2、0.18、0.16である。
【0041】
同図(e)は、部分画像802に関して、前記分類ラベル候補のそれぞれの更新スコアを更新部106が算出した結果を示す。分類ラベル候補「本」、「地図」、「新聞」の更新スコアは、それぞれ、0.25、0.04、0.015である。部分画像802に関しては、分類ラベル候補「新聞」と「地図」の、認識スコアにおける順位と更新スコアにおける順位とが逆転している。この逆転は共起情報(知識)の作用によるものである。分類ラベル候補「本」は、認識スコアにおいても更新スコアにおいても第1位で変わらない。
同図(f)は、部分画像803に関して、前記分類ラベル候補のそれぞれの更新スコアを更新部106が算出した結果を示す。分類ラベル候補「ペン」、「棒」、「針」の更新スコアは、それぞれ、0.09、0.02、0.008である。部分画像803に関しては、分類ラベル候補「ペン」と「棒」の、認識スコアにおける順位と更新スコアにおける順位とが逆転している。この逆転は共起情報(知識)の作用によるものである。分類ラベル候補「針」は、認識スコアにおいても更新スコアにおいても第3位で変わらない。
【0042】
同図(g)は、更新部106までの処理の結果に基づいて説明情報生成部108が生成した説明情報を付加した表示例である。出力部109が表示を行う。この表示例では、入力された画像(同図(a)で示した画像)の中の、部分画像802と部分画像803とがそれぞれ四角形で囲われている。また、部分画像802には、更新部106での処理の結果として第1位になった分類ラベル「本」が、矢印線とともに付加されている。また、部分画像803には、更新部106での処理の結果として第1位になった分類ラベル「ペン」が、矢印線とともに付加されている。また、この表示には、説明情報の文「『本』があるので、この部分は『ペン』です」が付加されている。前述のように、出力部109は、説明情報を、根拠を必要とする部分画像の近くに表示する。ここでは、説明情報は、分類ラベル「ペン」の根拠を示すものであるため、部分画像803の近くに表示されている。また、部分画像802および803と、この説明情報とは相互に関係するものであるので、グループ化された状態で表示されている。
【0043】
次に、更新部106による更新スコアの算出について、さらに詳細に説明する。
図5は、更新部106が更新スコアを算出する過程を説明するための概略図である。同図において、(1)から(3)までは、第1の部分画像(
図4において符号802で示した部分画像)について、各分類ラベル候補の更新スコアの算出過程を示す。また、(4)から(6)までは、第2の部分画像(
図4において符号803で示した部分画像)について、各分類ラベル候補の更新スコアの算出過程を示す。
【0044】
更新部106は、(1)から(3)までのそれぞれの分類ラベル候補の認識スコアに、共起する画像に関する分類ラベル候補を前提としたときの尤度を掛ける処理を行う。また、更新部106は、(4)から(6)までのそれぞれの分類ラベル候補の認識スコアに、共起する画像に関する分類ラベル候補を前提としたときの尤度を掛ける処理を行う。
【0045】
図示するように、更新部106は、(1)の「本」に対応する尤度を、共起情報記憶部111から読み出す。ここで、共起する画像の分類ラベル候補は「棒」、「ペン」、「針」であるので、「棒」、「ペン」、「針」のそれぞれを前提とした「本」の尤度を、共起情報記憶部から読み出す。「棒」を前提とした「本」の尤度は0.1である。「ペン」を前提とした「本」の尤度は0.5である。「針」を前提とした「本」の尤度は0.05である。
更新部106は、これらの尤度をそれぞれ「本」の認識スコアである0.5に掛ける処理を行う。その結果、「棒」を前提とした場合の「本」の認識スコア×尤度の値は0.05である。「ペン」を前提とした場合の「本」の認識スコア×尤度の値は0.25である。「針」を前提とした場合の「本」の認識スコア×尤度の値は0.025である。
【0046】
そして、更新部106は、(2)の「新聞」と、(3)の「地図」についても、共起する部分画像の分類ラベル候補「棒」、「ペン」、「針」を用いた同様の計算を行い、認識スコア×尤度の値を算出する。
また、更新部106は、第2の部分画像の分類ラベル候補についても同様の処理を行う。即ち、(4)の「棒」と、(5)の「ペン」と、(6)の「針」について、共起する部分画像の分類ラベル候補「本」、「新聞」、「地図」を用いた同様の計算を行い、認識スコア×尤度の値を算出する。
【0047】
上記の計算の結果、第1の部分画像に関しては、第2の部分画像に関する分類ラベル候補のうちの「ペン」を前提としたときの、「本」のスコア×尤度の値が最も高い。また、第2の部分画像に関しては、第1の部分画像に関する分類ラベル候補のうちの「本」を前提としたときの、「ペン」のスコア×尤度の値が最も高い。
「ペン」を前提としたときの、第1の部分画像に関する各分類ラベル候補の更新スコアは、次の通りである。即ち、「本」の更新スコアは0.25、「新聞」の更新スコアは0.09、「地図」の更新スコアは0.04である。また、「本」を前提としたときの、第2の部分画像に関する各分類ラベル候補の更新スコアは、次の通りである。即ち、「棒」の更新スコアは0.02、「ペン」の更新スコアは0.09、「針」の更新スコアは0.008である。
したがって、更新部106による処理の結果、第1の部分画像の分類ラベルとして、更新スコアが第1位である「本」が選ばれる。また、第2の部分画像の分類ラベルとして、更新スコアが第1位である「ペン」が選ばれる。
【0048】
次に、説明規則に基づいて説明情報を生成する処理の具体例について説明する。
図6は、説明規則の一つを基に生成される説明情報を示す概略図である。図示する説明規則は、「<分類ラベルの更新前と更新後のどちらでも第1位であった分類ラベル>があるので、この部分は<分類ラベルの更新前は第2位以下であったが、更新後に第1位になった分類ラベル>です。」という規則である。説明情報生成部108は、認識スコア(更新前のスコア)による分類ラベル候補の順位と、更新スコアによる分類ラベル候補の順位を確認する。ここで、<分類ラベルの更新前と更新後のどちらでも第1位であった分類ラベル>と<分類ラベルの更新前は第2位以下であったが、更新後に第1位になった分類ラベル>は変数である。
図4,
図5で説明した具体例では、<分類ラベルの更新前と更新後のどちらでも第1位であった分類ラベル>に該当するのは、分類ラベル「本」である。また、<分類ラベルの更新前は第2位以下であったが、更新後に第1位になった分類ラベル>に該当するのは、分類ラベル「ペン」である。よって、説明情報生成部108は、これらの変数に、それぞれ、具体的な分類ラベルを適用し、説明情報を生成する。その結果、「『本』があるので、この部分は『ペン』です。」という説明情報が得られる。
【0049】
つまり、分類ラベル「ペン」は分類ラベル「本」との共起情報を考慮した結果、第2の部分画像に付与された分類ラベルである、言い換えれば、入力画像中に分類ラベル「本」が存在したことが、第2の部分画像の分類ラベルを「ペン」であると決定した根拠である。説明情報生成部は、このように、分類ラベルの付与の根拠を説明する情報を生成し、出力する。
【0050】
以上、説明したように、本実施形態によれば、更新部106は、共起情報記憶部111から読み出す共起情報に基づいて、部分画像に付与された分類ラベルを更新する。つまり、予め知識として蓄えていた共起尤度に基づいて、分類ラベルを付与する際の精度を上げることができる。
【0051】
(第2の実施形態)
次に、第2の実施形態について説明する。なお、既に説明した実施形態と共通の事項については、説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図7は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号2は分類ラベル付与装置である。図示するように、分類ラベル付与装置2は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部126と、説明規則記憶部107と、説明情報生成部108と、出力部109と、を持つ。つまり、分類ラベル付与装置2は、前実施形態の分類ラベル付与装置1における更新部106に代えて、更新部126を持つ。また、本実施形態における知識記憶部105は、集合分類情報記憶部112を持つ。
本実施形態の特徴は、更新部126が、集合分類情報記憶部112に記憶されている集合分類情報に基づいて、複数の部分画像から成る画像に集合分類ラベルを付与する点である。
【0052】
更新部126は、知識記憶部105内の集合分類情報記憶部112から、集合分類情報を読み出し、認識部104から出力される情報(部分画像と、各部分画像に対する分類ラベル候補と、その認識スコア)に、この集合分類情報を適用する。その結果、更新部126は、画像に集合分類ラベルを付与する。集合分類ラベルは、複数の物を含む画像に付与される分類ラベルである。つまり、更新部126は、認識部104で得られた複数の分類ラベルをまとめて、集合分類情報に基づいて複数の部分画像をまとめた画像に、集合分類ラベルを付与する。言い換えれば、更新部126は、画像が含む複数の部分画像にそれぞれ付与された分類ラベルと、集合分類情報記憶部112から読み出した集合分類情報とに基づいて、複数の部分画像に対応する集合分類ラベルを用いて画像に付与されていた分類ラベルを更新する。
この集合分類ラベルの付与の処理については、後でも説明する。
【0053】
集合分類情報記憶部112は、集合分類情報を保持する。集合分類情報は、集合分類ラベルと、複数の分類ラベルとの対応関係を表す情報である。ここで、複数の分類ラベルとは、個々の部分画像に付与された分類ラベル(またはその候補)である。
【0054】
図8は、集合分類情報記憶部112が保持する集合分類情報の構造とデータ例を示す概略図である。同図に示すように、集合分類情報は、表形式のデータとして表される。集合分類情報は、集合分類ラベルと、個別の複数の分類ラベルの組み合わせとを対応付ける情報である。図示する表は、集合分類ラベルという項目と、分類ラベル1、分類ラベル2、分類ラベル3、分類ラベル4、分類ラベル5という項目とを有している。なお、同図に示す集合分離情報は、分類ラベル1から分類ラベル5までを格納できるようになっているが、分類ラベルを格納するための列の数は5に限らない。分類ラベルを格納するための列の数は、2以上の整数であればよい。図示する表の先頭行は、項目名を示した行である。また、データの各行には、行番号を付して示している。
【0055】
図示するデータ例では、第1行目は、「カップル」という集合分類ラベルに関するデータである。そして、この集合分類ラベル「カップル」に対応する分類ラベルの個数は2個であり、それらの分類ラベルは「女性」および「男性」である。つまり、分類ラベル「女性」が付与された部分画像と、分類ラベル「男性」が付与された部分画像とから成る画像には、集合分類ラベル「カップル」が付与されることを表す。
第2行目は、「月と太陽」という集合分類ラベルに関するデータである。そして、この集合分類ラベル「月と太陽」に対応する分類ラベルの個数は2個であり、それらの分類ラベルは「月」および「太陽」である。
第3行目は、「二人の人」という集合分類ラベルに関するデータである。そして、この集合分類ラベル「二人の人」に対応する分類ラベルの個数は2個であり、それらの分類ラベルはいずれも「人」である。つまり、分類ラベル「人」が付与された部分画像を2個含む画像には、集合分類ラベル「二人の人」が付与されることを表す。
第4行目は、「三人の人」という集合分類ラベルに関するデータである。そして、この集合分類ラベル「三人の人」に対応する分類ラベルの個数は3個であり、それらの分類ラベルはいずれも「人」である。つまり、分類ラベル「人」が付与された部分画像を3個含む画像には、集合分類ラベル「三人の人」が付与されることを表す。
第5行目は、「二人の男性」という集合分類ラベルに関するデータである。そして、この集合分類ラベル「二人の男性」に対応する分類ラベルの個数は2個であり、それらの分類ラベルはいずれも「男性」である。つまり、分類ラベル「男性」が付与された部分画像を2個含む画像には、集合分類ラベル「二人の男性」が付与されることを表す。
なお、集合分類情報記憶部112には、任意の数の集合分類ラベルの情報を格納することができる。
【0056】
図9は、分類ラベル付与装置2の全体の処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理全体の概略を説明する。
ステップS31からS33までの処理は、それぞれ、
図3に示したステップS11からS13までの処理と同様である。つまり、ステップS33までの処理で、部分画像の分類ラベル候補が得られている。
次にステップS34で、更新部126は、知識記憶部105内の集合分類情報記憶部112を検索する。具体的には、更新部126は、認識部104によるステップS33の処理で得られた、部分画像の分類ラベル候補の上位(例えば、第1位)の組み合わせを検索鍵として、集合分類情報記憶部112を検索する。つまり例えば、第1の部分画像の分類ラベル候補の第1位が「太陽」であり、第2の分類ラベル候補の第1位が「月」であるとき、更新部126は、これらの分類ラベル候補「太陽」および「月」の組み合わせを検索鍵として集合分類情報記憶部112を検索する。すると、
図8に例示した集合分類情報の場合、第2行目の集合分類情報「月」と「太陽」がヒットすることとなる。このとき、複数の分類ラベル情報の順序は問われない。
なお、認識部104において1つの部分画像に対して複数の分類ラベルの候補が得られている場合には、更新部126は、それら複数の分類ラベル候補から1つを選んで使用する。具体的には、例えば、1つの部分画像に対して複数の分類ラベルの候補が得られている場合、更新部126は、認識スコアが最も高い(第1位)分類ラベルの候補をその部分画像の分類ラベルとして採用する。そして、更新部126は、第1位の分類ラベルによって集合分類情報記憶部112を検索する。
【0057】
次にステップS35で、更新部126は、上のステップS34での検索の結果、ヒットした集合分類ラベルがあったか否かを判定する。ヒットした集合分類ラベルがあった場合(ステップS35:YES)、次のステップS36に進む。ヒットした集合分類ラベルがなかった場合(ステップS35:NO)、次に、ステップS37に飛ぶ。
次にステップS36に進んだ場合、同ステップにおいて、更新部126は、得られた集合分類ラベルの基となった部分画像をグループ化して、そのグループ化された画像に、得られた集合分類ラベルを付与する。即ち、更新部126は、要素である部分画像の分類ラベルを、集合分類情報記憶部112から得られた集合分類ラベルで更新する。例えば、分類ラベル「太陽」に該当する部分画像と、分類ラベル「月」に該当する部分画像がある場合、更新部126は、それらの部分画像をグループ化(統合)し、その画像に「月と太陽」という集合分類ラベルを付与する。
【0058】
次にステップS37で、説明情報生成部108は、更新部126から渡された画像と分類ラベル(集合分類ラベルを含む)、および説明規則記憶部107から読み出した説明規則を用いて、説明情報を生成する。
次にステップS38で、出力部109は、説明情報生成部108から渡された情報を出力する。具体的には、出力部109は、情報を画面等に表示する。
ここまでの処理が終了すると、分類ラベル付与装置2は、本フローチャート全体の処理を終了する。
【0059】
次に、具体例により、さらに詳細に、分類ラベル付与装置2の処理を説明する。
図10は、分類ラベル付与装置2による処理の流れを、具体例により説明するための概略図である。以下、同図に沿って順を追って説明する。
同図(a)は、入力部101が取得した画像を示す。符号821が、取得された画像であり、この画像は複数の人を含んでいる。
同図(b)は、分割部102による領域分割の処理の結果として抽出された複数の部分画像を示す。符号822および823は、それぞれ、部分画像である。部分画像822および部分画像823は、それぞれ、人を含んでいる。
【0060】
同図(c)は、認識部104が部分画像822と部分画像823のそれぞれについて認識処理を行った結果を示す。部分画像822に関して分類ラベル「人」が付与されている。部分画像823に関してもまた分類ラベル「人」が付与されている。
同図(d)は、更新部126が集合分類ラベルを付与した結果を示す。同図(b)において、2つの部分画像にそれぞれ「人」という分類ラベルが付与されていた。したがって、更新部126は、分類ラベル「人」と分類ラベル「人」の組み合わせを検索鍵として、集合分類情報記憶部112を検索した。その結果、分類ラベル「人」が2個存在するパターンを有する集合分類情報がヒットしたため、更新部126は集合分類ラベル「二人の人」を得た。更新部126は、2つの部分画像(822および823)を統合するとともに、統合された画像に集合分類ラベル「二人の人」を付与した。つまり、更新部126は、分類ラベルを更新した。更新部126は、画像(821,822,823)と、各部分画像(822,823)に対応する分類ラベル「人」と、集合分類ラベル「二人の人」と、グループIDとを説明情報生成部108に渡す。ここで、グループIDは、2つの部分画像(822,823)と集合分類ラベル「二人の人」から成るグループに付与された識別情報である。
【0061】
同図(e)は、更新部126までの処理の結果に基づいて説明情報生成部108が生成した説明情報を付加した表示例である。出力部109がこの表示を行う。ここで表示されている説明情報は、「『人』が2つあるので『二人の人』です」という文である。出力部109は、この説明情報を、集合分類ラベル「二人の人」の近くに表示する。
【0062】
図11は、本実施形態における、集合分類ラベルに関する説明情報を生成する具体例を説明するための概略図である。同図に示すように、集合分類ラベルのための説明規則「<部分画像に付与した分類ラベル>が<同一の分類ラベルの個数>あるので、この部分は<集合分類ラベル>です。」が存在する。この説明規則は、説明規則記憶部107に格納されている。ここで、<部分画像に付与した分類ラベル>と、<同一の分類ラベルの個数>と、<集合分類ラベル>とは、それぞれ変数である。
図10に示した例では、<部分画像に付与した分類ラベル>に対応するものは、分類ラベル「人」である。また、<同一の分類ラベルの個数>に対応するものは、「2つ」である。また、<集合分類ラベル>に対応するものは、「二人の人」である。
図10の例では、分類ラベル「人」を持つ部分画像が2つ存在するためである。説明情報生成部108は、集合分類ラベルに関する上記の説明規則と、変数に対応する具体的な値とから、「『人』が2つあるので、この部分は『二人の人』です。」という説明情報を生成する。
【0063】
以上、説明したように、本実施形態によれば、更新部126は、集合分類情報記憶部112から読み出す集合分類情報に基づいて、部分画像に付与された分類ラベルを基に、集合分類情報を付与することができる。
【0064】
(第3の実施形態)
次に、第3の実施形態について説明する。なお、既に説明した実施形態と共通の事項については、説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図12は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号3は分類ラベル付与装置である。図示するように、分類ラベル付与装置3は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部146と、説明規則記憶部107と、説明情報生成部108と、出力部109と、を持つ。つまり、分類ラベル付与装置3は、第1の実施形態の分類ラベル付与装置1における更新部106に代えて、更新部146を持つ。また、本実施形態における知識記憶部105は、共起情報記憶部111と集合分類情報記憶部112とを持つ。
本実施形態の特徴は、更新部146が、共起情報記憶部111に記憶されている共起情報に基づいて分類ラベルを更新するとともに、集合分類情報記憶部112に記憶されている集合分類情報に基づいて、集合分類ラベルを付与することである。
【0065】
更新部146は、第1の実施形態における更新部106と同様に、共起情報記憶部111に記憶されている共起情報に基づいて、画像に付与された分類ラベルを更新する。また、更新部146は、第2の実施形態における更新部126と同様に、集合分類情報記憶部112に記憶されている集合分類情報に基づいて、画像に集合分類ラベルを付与する。更新部106および126のそれぞれの処理については、既に各実施形態において説明したため、ここでは詳細な説明を省略する。
また、更新部146は、複数の部分画像それぞれに対応する分類ラベルの組み合わせが、集合分類情報記憶部112に記憶されている集合分類情報が含む複数の分類ラベルの組み合わせである場合に、次の処理を行う。即ち、そのような場合、更新部146は、当該複数の分類ラベルに関して共起情報記憶部111に記憶されている共起尤度のデータよりも高い共起尤度として当該複数の分類ラベルを扱う。この、集合分類情報が含む複数の分類ラベルの組み合わせの場合に関して、そうでない場合よりも共起尤度が相対的に高い部分を「加点要素」と呼ぶ場合がある。この加点要素は、共起尤度において、集合分類情報が含む複数の分類ラベルの組み合わせを強調するためのものである。
【0066】
図13は、分類ラベル付与装置3の全体の処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理全体の概略を説明する。
同図におけるステップS51からS54までの処理は、それぞれ、
図3に示したステップS11からS14までの処理と同様である。つまり、ステップS54までの処理で、部分画像の分類ラベル候補が付与され、また共起情報に基づいて分類ラベルが更新されている。
【0067】
次にステップS55で、更新部146は、知識記憶部105内の集合分類情報記憶部112を検索する。本ステップの処理は、
図9におけるステップS34の処理と同様であるため、ここでは詳細な説明を省略する。
次にステップS56で、更新部146は、上のステップS55での検索の結果、ヒットした集合分類ラベルがあったか否かを判定する。ヒットした集合分類ラベルがあった場合(ステップS56:YES)、次のステップS57に進む。ヒットした集合分類ラベルがなかった場合(ステップS56:NO)、次に、ステップS58に飛ぶ。
【0068】
次にステップS57に進んだ場合、同ステップにおいて、更新部146は、得られた集合分類ラベルの基となった部分画像をグループ化して、そのグループ化された画像に、得られた集合分類ラベルを付与する。本ステップの処理は、
図9におけるステップS36の処理と同様である。
ただし、更新部146は、共起情報記憶部111に記憶されている共起情報と集合分類情報記憶部112に記憶されている集合分類情報の両方に基づいて分類ラベルの更新を行う。ここで、更新部146は、複数の部分画像の分類ラベル候補の組み合わせが集合分類情報に含まれているものである場合には、それらの分類ラベル候補の組み合わせに対して加点要素を含んだスコアを与える。具体的には、加点要素を含んだスコアを与えるために、1より大きい係数を使用する。そして、更新部146は、複数の部分画像の分類ラベル候補の組み合わせが集合分類情報に含まれているものである場合には、それらの分類ラベル候補の更新スコアに、上記の係数(1より大きい係数)を乗算して、更新スコアを計算し直す。この加点要素を作用させる例については、後の
図14で説明する。
【0069】
次にステップS58において、説明情報生成部108は、更新部146から渡された画像(部分画像を含む)と分類ラベル(更新部146によって更新された画像を含む)、および説明規則記憶部107から読み出した説明規則を用いて、説明情報を生成する。説明情報の生成の処理は、既に第1の実施形態および第2の実施形態で述べたとおりである。
次にステップS59において、出力部109は、説明情報生成部108から渡された情報を出力する。具体的には、出力部109は、情報を画面等に表示する。
ここまでの処理が終了すると、分類ラベル付与装置3は、本フローチャート全体の処理を終了する。
【0070】
次に、具体例により、さらに詳細に、分類ラベル付与装置3の処理を説明する。
図14は、分類ラベル付与装置3による処理の流れを、具体例により説明するための概略図である。以下、同図に沿って順を追って説明する。
同図(a)は、入力部101が取得した画像を示す。符号841が、取得された画像であり、この画像は月と太陽を含んでいる。
同図(b)は、分割部102による領域分割の処理の結果として抽出された複数の部分画像を示す。符号842および843は、それぞれ、部分画像である。部分画像842および部分画像843は、それぞれ、月および太陽を含んでいる。
【0071】
同図(c)は、認識部104が部分画像842について認識処理を行った結果を示す。部分画像822に関して、分類ラベル候補は、「地球」、「クッキー」、「月」であり、その認識スコアは、それぞれ、0.5、0.3、0.1である。
同図(d)は、認識部104が部分画像843について認識処理を行った結果を示す。部分画像822に関して、分類ラベル候補は、「太陽」、「花」、「電球」であり、その認識スコアは、それぞれ、0.2、0.18、0.16である。
【0072】
その後、更新部146は、共起情報に基づいて分類ラベル候補のスコアを更新する。即ち、更新部146は、共起情報に基づく更新スコアを求める。
さらに、更新部146は、集合分類情報を検索する。このとき、更新部146は、部分画像822に関する分類ラベル候補(「地球」、「クッキー」、「月」)と、部分画像823に関する分類ラベル候補(「太陽」、「花」、「電球」)との組み合わせを検索鍵として、集合分類情報を検索する。その結果、更新部146は、分類ラベル「月」と分類ラベル「太陽」とで成る集合分類ラベル「月と太陽」を集合分類情報から取得する。また、この集合分類ラベル「月と太陽」が存在し、その分類ラベルは「月」および「太陽」であるため、更新部146は、既に計算した更新スコアに、さらに加点要素を得るための係数を乗算することによって更新スコアを再計算する。
【0073】
同図(e)は、更新部146によるスコアの再計算の結果を示す。即ち、部分画像842について、分類スコア候補「月」、「地球」、「クッキー」の、再計算された更新スコアは、それぞれ、0.6、0.2、0.01である。
同図(f)もまた、更新部146によるスコアの再計算の結果を示す。即ち、部分画像843について、分類スコア候補「太陽」、「花」、「電球」の、再計算された更新スコアは、それぞれ、0.5、0.08、0.01である。
この結果、部分画像842および843に関して、それぞれ、最高のスコアを有する分類ラベル「月」および分類ラベル「太陽」が決定される。
同図(g)は、決定された分類ラベル「月」および「太陽」に対応する集合分類ラベル「月と太陽」が入力画像に付与されている状態を示す。
【0074】
同図(h)は、さらに、分類ラベルが付与された根拠を示す説明情報が付加された表示を示す。部分画像842については、「『太陽』があるので、この部分は『月』です」という説明情報が付されている。認識部104による認識処理の段階では、「地球」が第1位の分類ラベル候補であったが、更新部146の処理によって逆転し、「月」が第1位の分類ラベル候補となったため、この説明情報が生成されている。この説明情報は、部分画像の分類ラベル「太陽」と「月」とが共起する状況に基づいて、説明情報生成部108が生成したものである。また、画像全体については、「『月』と『太陽』があるので、『月と太陽』です」という説明情報が付されている。更新部146が集合分類情報に基づいて集合分類ラベルを付与したことの根拠を説明するために、説明情報生成部108が、この説明規則に基づいて、この説明情報をしたものである。
【0075】
なお、本実施形態では、集合分類ラベルを構成する分類ラベルの組み合わせについて、スコアに加点要素を付加するための係数を乗算することとした。これにより、集合分類ラベルを構成する分類ラベルの認識スコアが相対的に低い場合にも、その分類ラベルの見落としを防止することができる。
また、代わりに、集合分類ラベルを構成する分類ラベルの組み合わせについて、共起情報記憶部111に記憶されている尤度を予め高く設定しておいてもよい。具体的には、集合分類ラベルを構成するiとjに関して、更新部146が更新スコアq
i´を計算する(式(2)による)際の、尤度p(C
i|C
j)の値を、集合分類ラベルを構成しない分類ラベルの組み合わせによる尤度よりも高く設定しておくようにする。これにより、集合分類ラベルを構成する分類ラベルの更新スコアq
i´が相対的に高くなりやすい。
【0076】
また、さらに、代わりに、集合分類ラベルを構成する分類ラベルの認識スコアが、それ以外の分類ラベルの認識スコアよりも高くなるように設定しておくようにしてもよい。具体的には、式(1)で得られた分類ラベルC
iの事後確率p(C
i|x;θ
i)と、事前確率p(C
i)との積を、認識スコアq
iとする。何らかの集合分類ラベルを構成し得る分類ラベルをC
aとし、集合分類ラベルを全く構成し得ない分類ラベルをC
bとする。このとき、p(C
a)>p(C
b)の関係が成立するように、事前確率を決めておくことにより、分類ラベルC
aの認識スコアq
aが、分類ラベルC
bの認識スコアq
bよりも高くなりやすくなり、集合分類ラベルの見落としを防ぐことができる。
【0077】
以上、説明したように、本実施形態によれば、更新部146は、共起情報記憶部111から読み出す共起情報と集合分類情報記憶部112から読み出す集合分類情報の両方に基づいて、分類ラベルを更新することができる。また、集合分類ラベルを構成する分類ラベルの組み合わせについて、共起尤度の値を高める処理を行うことができる。これにより、集合分類ラベルが付与されるような画像を処理する場合において、その確実性が増す。加点要素の付加は1以上の係数を乗じるに限らず、0以上の加算値を加算することで実現しても良い。
【0078】
(第4の実施形態)
次に、第4の実施形態について説明する。なお、既に説明した実施形態と共通の事項については、説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図15は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号4は分類ラベル付与装置である。図示するように、分類ラベル付与装置4は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部166と、説明規則記憶部107と、説明情報生成部108と、出力部109と、操作入力部161と、操作反映部162と、認識情報記憶部163とを持つ。つまり、分類ラベル付与装置4は、第1の実施形態の分類ラベル付与装置1における更新部106に代えて、更新部166を持つ。また、分類ラベル付与装置4は、操作入力部161と、操作反映部162と、認識情報記憶部163とを持つことが特徴である。また、本実施形態における知識記憶部105は、共起情報記憶部111を持つ。
【0079】
本実施形態の特徴は、ユーザーによる操作情報を取得し、その操作情報に基づいて、付与されている分類ラベルを更新することのできる構成である。また、ユーザーの操作に基づく分類ラベルの更新の結果に応じて、知識記憶部105に記憶されている知識に基づいて、さらに、更新部166が分類ラベルを更新する場合もある。
【0080】
操作入力部161は、外部からの、ユーザーによる操作の情報を取得する。ユーザーによる操作は、マウスやキーボード等のデバイスを用いて行われる。操作入力部161は、マウスにおいてクリックされたボタンの種類(例えば、左ボタンあるいは右ボタン)や、クリックの種類(例えば、シングルクリックあるいはダブルクリック)や、クリック時のマウスカーソルの座標情報を取得する。また、操作入力部161は、キーボードで押下された文字の種類や文字の列を取得する。
【0081】
操作反映部162は、その時点で画像(部分画像を含む)に付与されている分類ラベル(分類ラベル候補を含む)を画面に表示するとともに、その表示に対応する操作入力の情報を操作入力部161から受け取る。なお、ユーザーによる操作は、その時点で付与されている分類ラベル(分類ラベル候補を含む)を、強制的に変更するための操作である。そして、操作反映部162は、ユーザーによる操作の情報に応じて、画像(部分画像を含む)に付与されている分類ラベルを変更するよう、更新部166に指示する。つまり、操作反映部162は、操作入力部161からの操作情報にしたがって、画像に付与されている分類ラベルを更新するよう更新部166に指示する。
【0082】
認識情報記憶部163は、各画像に付与された分類ラベルの情報を保持する。認識情報記憶部163が記憶する分類ラベルの情報は、認識部104による認識処理の結果の分類ラベルの情報や、更新部166が共起情報記憶部111に基づいて更新した分類ラベルの情報や、操作反映部162からの指示による分類ラベルの情報である。認識情報記憶部163は、付与された分類ラベルが変更される都度、適宜更新される。
なお、認識情報記憶部163のデータ例については、後で説明する。
【0083】
更新部166は、操作反映部162から更新の指示を受けると、その指示にしたがって、既に付与されていた分類ラベルを更新する。また、更新部166は、ユーザーの操作に基づく分類ラベルの更新の結果、共起情報に基づいて、他の分類ラベルをさらに更新する場合がある。
【0084】
図16は、分類ラベル付与装置4による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理の概略を説明する。なお、このフローチャートの処理が開始される前に、認識部104による認識処理が既に完了している。また、更新部166による、共起情報に基づく更新処理が、既に完了していてもよい。
【0085】
ステップS71において、操作入力部161は、ユーザーによる操作の情報を取得する。
次にステップS72において、操作反映部162は、上記の操作の情報に基づいて、画像に付与された分類ラベルを強制的に修正するよう、更新部166に指示する。
次にステップS73において、更新部166は、操作反映部162からの指示にしたがって、画像に付与された分類ラベルを更新する。また、更新部166は、操作反映部162からの指示に基づく分類ラベルの更新の結果、更新後の分類ラベルとの共起の尤度に基づいて、共起する画像の分類ラベルをも更新する。このとき、更新部166は、知識記憶部105の中の共起情報記憶部111を参照することにより、更新スコアを計算し直す。
次にステップS74において、説明情報生成部108は、前ステップにおける更新部166の処理の結果に応じて、説明規則記憶部107から読み出す説明規則に基づいて、説明情報を生成する。
次にステップS75において、出力部109は、画像と、その分類ラベルと、説明情報とを出力する。具体的には、出力部109は、これらの情報を画面等に表示する。
【0086】
次に、具体例により、さらに詳細に、分類ラベル付与装置4の処理を説明する。
図17は、分類ラベル付与装置4による処理の流れを、具体例により説明するための概略図である。以下、同図に沿って順を追って説明する。
同図(a)は、入力部101が取得した画像を示す。符号861が、取得された画像であり、この画像は本とペンを含んでいる。
同図(b)は、分割部102による領域分割の処理の結果として抽出された複数の部分画像を示す。符号862および863は、それぞれ、部分画像である。部分画像862および部分画像863は、それぞれ、月および太陽を含んでいる。
【0087】
同図(c)は、認識部104および更新部166によって推定された各部分画像の、最尤分類ラベルが付与された状態を示す。つまり、認識部104は、各部分画像(862および863)の認識処理を行った。また、更新部166は、共起情報記憶部111に基づいて、各部分画像の分類ラベルを更新した。なお、共起情報記憶部111が持つ共起情報に基づいて、結果的に、分類ラベルが更新されていない場合もある。ここでは、部分画像862に分類ラベル「新聞」が付与され、部分画像863に分類ラベル「棒」が付与されている。
【0088】
同図(d)は、ユーザーの操作入力に基づいて、更新部166が、部分画像862に付与された分類ラベル候補のスコアを強制的に更新した状態を示す。ここでは、ユーザーの操作は、分類ラベルを「本」に更新する操作であった。したがって、同図(c)までの推定結果にかかわらず、分類ラベルは「本」に決定される。即ち、分類ラベル「本」のスコアは1.0に更新されている。また、その他の分類ラベル(つまり、「地図」と「新聞」)のスコアは、0.0に更新されている。
【0089】
同図(e)は、部分画像862の分類ラベルの更新(上記の(d))に伴って再計算された、部分画像863のスコア(更新スコア)を示す。図示するように、分類ラベル「ペン」、「棒」、「針」のスコアは、それぞれ、0.5、0.1、0.05である。これらのスコアは、部分画像862の分類ラベル「本」のスコア(即ち、1.0)に、分類ラベル「本」を前提としたときのそれぞれの分類ラベルの尤度(共起情報。
図2を参照。)を乗ずることによって算出されたものである。
なお、ここでは、ユーザーの操作に基づいて選択された分類ラベルのスコアを1.0に更新したが、このような分類ラベルのスコアを必ずしも1.0まで引き上げなくてもよい。スコアを、従来値よりも所定量だけ引き上げる処理を行ってもよい。逆に、ユーザーの操作に基づいて選択された分類ラベルのスコアを必ずしも0.0まで引き下げなくてもよい。スコアを、従来値よりも所定量だけ引き下げる処理を行ってもよい。
このようにして、部分画像862の分類ラベルは、最高スコアを有する「本」に更新される。また、部分画像863の分類ラベルは、最高スコアを有する「ペン」に更新される。
【0090】
同図(f)は、2つの部分画像と、各部分画像に対応した分類ラベルと、説明情報生成部108が生成した説明情報とを示す。ユーザーの操作によって部分画像862の分類ラベルが「本」に決定された後、共起情報に基づいて、部分画像863の分類ラベルが「ペン」に更新されたため、説明情報はその根拠を示すものである。即ち、説明規則記憶部107から読み出された規則に基づいて、説明情報生成部108は、「『本』があるので、この部分は『ペン』です」という説明情報を生成する。
同図(g)は、各部分画像と、それぞれの分類ラベルと、説明情報とを、出力部109が表示している状態を示す。
【0091】
図18は、上で説明した認識情報記憶部163のデータ構造およびデータ例を示す概略図である。図示するように、認識情報記憶部163は、表形式のデータを記憶する。そして、その表におけるデータ項目は、分類ラベルIDと、部分画像と、分類ラベル(または分類ラベル候補)である。分類ラベルIDは、画像(部分画像)に付与される分類ラベル(複数の分類ラベル候補を含んでもよい)を識別する情報である。部分画像は、その分類ラベルIDに関連付けられる画像の情報である。そして、分類ラベル(または分類ラベル候補)は、その分類ラベルIDに対応する分類ラベルの情報である。ここで、分類ラベルとして、複数の候補を含んでいてもよい。図示している例では、2行分のデータを示す。第1行目の分類ラベルIDは「A01」である。この分類ラベルID「A01」に関連付けられた部分画像は、本の部分画像である。そして、分類ラベルとしては、「新聞」と「本」と「地図」が候補として含まれている。また、第2行目の分類ラベルIDは「A02」である。この分類ラベルID「A02」に関連付けられた部分画像は、ペンの部分画像である。そして、分類ラベルとしては、「棒」と「ペン」と「針」が候補として含まれている。
【0092】
図19は、操作入力部161および操作反映部162の機能に関するグラフィカルユーザーインタフェース(画面表示)を示す概略図である。そして、同図では、ユーザーの操作に伴う表示の遷移を示している。図示するように、同図(a)では、本の画像(部分画像862)と、その画像にその時点で付与されている分類画像の候補とが示されている。ここで表示される情報は、操作反映部162が認識情報記憶部163から読み出した情報に基づくものである。ここで、ユーザーは、「新聞」という文字の右側にある逆三角形のアイコンをクリックするといった操作により、ドロップダウンリストを表示することができる。同図(b)は、ドロップダウンリストが表示された状態を示す。ドロップダウンリストの各項目には、分類ラベルの工法が記載されている。具体的には、「新聞」、「本」、「地図」という分類ラベル候補が表示されている。ここで、ユーザーがマウス操作等により、1つの項目を選択することができる。同図(c)は、元の「新聞」に代わって、ユーザーの操作によって選択された分類ラベル「本」が表示されている状態を示す。
【0093】
なお、上では、ドロップダウンリストによって、分類ラベル候補から分類ラベルをユーザーが選択できるようにする方法を説明した。その方法以外にも、例えば、ラジオボタンのユーザーインタフェースを用いて分類ラベルをユーザーが選択できるようにしてもよい。また、ユーザーがキーボードからテキストを入力することによって分類ラベルの候補を検索できるようなユーザーインタフェースを採用してもよい。
【0094】
また、上述した具体例では、修正対象となる分類ラベルが2つで、そのうちの1つをユーザーの操作情報に基づいて更新し、その他の1つを共起情報に基づいて更新するものであった。他に、修正対象となる部分画像の分類ラベルが1つだけで、その分類ラベルをユーザーの操作情報に基づいて更新できるようにしてもよい。また、分類ラベルが複数存在しており、そのうちの1つの分類ラベルをユーザーの操作情報に基づいて更新し、その他の分類ラベルに関しては共起情報に基づく修正を行わない場合があってもよい。
【0095】
分類ラベルが複数存在しており、そのうちの1つの分類ラベルをユーザーの操作情報に基づいて更新し、その他の分類ラベルに関しては共起情報に基づく修正を行わない場合、共起情報記憶部111に記憶されている共起情報のほうを更新するようにしてもよい。つまり、ユーザー操作によって変更された分類ラベルに基づいて、更新部166が共起情報を更新する。
具体例として、次の処理の通りである。即ち、ユーザーの操作によって、更新部166は、部分画像862の分類ラベルを「新聞」から「本」に変更する。更新部166は、部分画像863については、共起情報に基づく分類ラベルの更新を行わない。つまり、その時点では、分類ラベル「本」と「ペン」との共起の尤度がそれほど高くない。そして、ユーザーの操作によって、部分画像863の分類ラベルを「棒」から「ペン」に変更する。つまり、ユーザーの操作によって、分類ラベル「本」と分類ラベル「ペン」とが共起する例が入力された。このユーザーからの入力に基づいて、更新部166は、分類ラベル「本」と分類ラベル「ペン」とが共起する尤度の値を引き上げるよう、共起情報記憶部111を更新する。このように共起情報記憶部111を更新することにより、次回以降に同様の例が発生した場合に、共起情報は、分類ラベル「本」と分類ラベル「ペン」とが共起する尤度が高くなるように作用を及ぼす。即ち、ユーザーの操作による入力を基に、分類ラベル付与装置4が徐々に学習していく効果がある。この学習の処理は、事例によって共起情報記憶部111を最適化していく過程である。
【0096】
以上、説明したように、本実施形態によれば、付与された分類ラベル(更新部166によって更新された分類ラベルを含む)を、ユーザーの操作により更新することができる。また、ユーザーの操作により更新した結果を、さらに、更新部166は、共起情報記憶部111から読み出す共起情報によって更新することができる。
【0097】
(第5の実施形態)
次に、第5の実施形態について説明する。なお、既に説明した実施形態と共通の事項については、説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図20は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号5は分類ラベル付与装置である。図示するように、分類ラベル付与装置5は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部186と、説明規則記憶部107と、説明情報生成部108と、出力部109と、操作入力部161と、操作反映部162と、認識情報記憶部163とを持つ。つまり、分類ラベル付与装置5は、第4の実施形態の分類ラベル付与装置4における更新部166に代えて、更新部186を持つ。そして、本実施形態における知識記憶部105は、集合分類情報を保持するための集合分類情報記憶部112を持つ。
【0098】
更新部186は、操作反映部162から更新の指示を受けると、その指示にしたがって、既に付与されていた分類ラベルを更新する。また、更新部186は、ユーザーの操作に基づく分類ラベルの更新の結果、集合分類情報に基づいて、既に付与されていた集合分類ラベルを更新し直す場合がある。
【0099】
図21は、分類ラベル付与装置5による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理の概略を説明する。なお、このフローチャートの処理が開始される前に、認識部104による認識処理が既に完了している。また、更新部186による、集合分類ラベルの付与の処理が、既に完了していてもよい。
【0100】
ステップS91において、操作入力部161は、ユーザーによる操作の情報を取得する。
次にステップS92において、操作反映部162は、上記の操作の情報に基づいて、画像に付与された分類ラベルを強制的に修正するよう、更新部186に指示する。そして、更新部186は、操作反映部162からの指示にしたがって、画像に付与された分類ラベルを更新する。
次にステップS93において、更新部186は、更新後の分類ラベルと、集合分類情報記憶部112から読み出す集合分類情報とに基づいて、集合分類ラベルを更新する。
次にステップS94において、説明情報生成部108は、前ステップにおける更新部186の処理の結果に応じて、説明規則記憶部107から読み出す説明規則に基づいて、説明情報を生成する。
次にステップS95において、出力部109は、画像と、その分類ラベルと、説明情報とを出力する。具体的には、出力部109は、これらの情報を画面等に表示する。
【0101】
次に、具体例により、さらに詳細に、分類ラベル付与装置5の処理を説明する。
図22は、分類ラベル付与装置5による処理の流れを、具体例により説明するための概略図である。以下、同図に沿って順を追って説明する。
同図(a)は、入力部101が取得した画像を示す。符号881が、取得された画像であり、この画像は二人の人を含んでいる。
同図(b)は、分割部102による領域分割の処理の結果として抽出された複数の部分画像を示す。符号882および883は、それぞれ、部分画像である。部分画像882および部分画像883のそれぞれは、人を含んでいる。
同図(c)は、更新部186によって付与された集合分類ラベル「二人の人」と、説明情報生成部108によって生成された説明情報が付与された状態を示す。ここでの説明情報は、「『人』が2つあるので、『二人の人』です」である。
【0102】
同図(d)は、ユーザーからの操作入力に基づいて、更新部186が、部分画像882および883に付与された分類ラベル候補のスコアを強制的に更新した状態を示す。つまり、操作入力部161が取得した操作情報に基づいて、操作反映部162は部分画像の分類ラベルを更新するように更新部186に指示した。そして、更新部186は、部分画像882の分類ラベルと部分画像883の分類ラベルとを、ともに、「男性」に更新した。
【0103】
同図(e)は、変更後の分類ラベル(2個の「男性」)と、集合分類情報記憶部112から読み出された集合分類情報とに基づいて、更新部186が集合分類ラベルを更新した状態を示す。即ち、更新部186は、2個の分類ラベル「男性」に基づいて、集合分類ラベル「二人の男性」を画像に付与した。ここで用いられた集合分類情報は、
図8に示したデータ例における第5行目のデータである。
同図(f)は、説明情報生成部108から出力された情報を出力部109が表示している状態を示す。即ち、出力部109は、画像と、その画像に付与された集合分類ラベルと、説明情報とを表示する。説明情報生成部108が生成した説明情報は、「『男性』が2つあるので、『二人の男性』です」というものである。
【0104】
次に、本実施形態における認識情報記憶部163の内容について説明する。
図23は、認識情報記憶部163内の一部を示す概略図である。同図は、部分画像と、その分類画像に付与された分類ラベルとの関係を表すデータを示している。同図に示すデータは、表形式のデータであり、項目として、分類ラベルID、部分画像、分類ラベル(または分類ラベル候補)を持つ。このデータは2行分のレコードを保持している。第1行目のレコードの分類ラベルIDは「A01」であり、第2行目のレコードの分類ラベルIDは「A02」である。分類ラベルID「A01」で識別される行は、部分画像として男性の画像(
図22における部分画像882)を格納している。また、この部分画像に付与されている分類ラベルは「男性」である。分類ラベルID「A02」で識別される行は、部分画像として男性の画像(
図22における部分画像883)を格納している。また、この部分画像に付与されている分類ラベルもまた「男性」である。
【0105】
図24は、認識情報記憶部163内の一部を示す概略図である。同図は、入力された画像の全体と、その画像に付与された分類ラベルとの関係を表すデータを示している。同図に示すデータは、表形式のデータであり、項目として、集合分類ラベルID、分類ラベルID、画像、集合分類ラベルを持つ。このデータは1行分のレコードを保持している。そのレコードにおいて、集合分類ラベルIDは「G01」である。また、集合分類ラベルID「G01」に対応付けられる分類ラベルIDは、「A01」および「A02」である。この分類ラベルIDにより、
図24のデータは、
図23のデータと関連付けられている。また、集合分類ラベルID「G01」に対応付けられる画像は、元の入力画像(
図22における画像881)である。また、集合分類ラベルID「G01」に対応付けられる集合分類ラベルは「二人の男性」である。
【0106】
つまり、
図23および
図24は、ユーザーからの操作によって分類ラベルが変更された後であって、さらに集合分類情報に基づいて更新部186が集合分類ラベル「二人の男性」を付与したときの、認識情報記憶部163の状態を示しているものである。
【0107】
ここで、
図23および
図24のデータを用いて更新部186が集合分類ラベルを更新する手順について、さらに詳細に説明する。
更新部186は、ユーザーからの操作情報に基づいてある部分画像の分類ラベルを更新したとき、認識情報記憶部163に記憶されている分類ラベル(
図23のデータ)と、更新後の分類ラベルとを比較する。そして、いずれかの部分画像について、分類ラベルに不一致がある場合、不一致の分類ラベルが関連付けられている集合分類ラベルのレコードを削除する。つまり、例えば、
図23における分類ラベルID「A01」のレコードが有する分類ラベルと更新後の分類ラベルとが異なる場合、分類ラベルID「A01」を含んでいる集合分類ラベルのレコード、即ち、
図24の集合分類ラベル「G01」のレコードを削除する。その後、更新後の分類ラベルの組み合わせ(例えば、「男性」と「男性」)を検索鍵として、更新部186は、知識記憶部105内の集合分類情報記憶部112を検索する。その結果、分類ラベルの組み合わせ(「男性」と「男性」)に対応する集合分類ラベル「二人の男性」が得られると、更新部186は、その新たな集合分類ラベルを、画像に付与する。そして、更新部186は、認識情報記憶部163にも、更新後の分類ラベルの情報および集合分類ラベルの情報を書き込む。
【0108】
以上、説明したように、本実施形態によれば、ユーザーの操作により、分類ラベルを更新することができる。また、ユーザーの操作によって更新された分類ラベルに基づいて、さらに、更新部186は、集合分類情報記憶部112から読み出す集合分類情報による新たな集合分類ラベルの付与を行うことができる。
【0109】
(第6の実施形態)
次に、第6の実施形態について説明する。なお、既に説明した実施形態と共通の事項については、説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図25は、本実施形態による分類ラベル付与装置の概略機能構成を示すブロック図である。同図において、符号6は分類ラベル付与装置である。図示するように、分類ラベル付与装置6は、入力部101と、分割部102と、分類情報記憶部103と、認識部104と、知識記憶部105と、更新部206と、説明規則記憶部107と、説明情報生成部108と、出力部109と、操作入力部161と、操作反映部162と、認識情報記憶部163とを持つ。つまり、分類ラベル付与装置6は、第4の実施形態の分類ラベル付与装置4における更新部166に代えて、更新部206を持つ。そして、本実施形態における知識記憶部105は、共起情報を保持するための共起情報記憶部111と、集合分類情報を保持するための集合分類情報記憶部112とを持つ。
【0110】
更新部206は、操作反映部162から更新の指示を受けると、その指示にしたがって、既に付与されていた分類ラベルを更新する。また、更新部206は、ユーザーの操作に基づく分類ラベルの更新の結果に対して、共起情報に基づく分類ラベルの更新を行ったり、集合分類情報に基づく集合分類ラベルの更新を行ったりする。共起情報および集合分類情報の両方に基づいて分類ラベルの更新を行う点は、第3の実施形態において述べた事項と同様である。
【0111】
図26は、分類ラベル付与装置6による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理の概略を説明する。なお、このフローチャートの処理が開始される前に、認識部104による認識処理が既に完了している。また、更新部206による、分類ラベルの更新や集合分類ラベルの付与の処理が、既に完了していてもよい。
【0112】
ステップS111において、操作入力部161は、ユーザーによる操作の情報を取得する。
次にステップS112において、操作反映部162は、上記の操作の情報に基づいて、画像に付与された分類ラベルを修正するよう、更新部206に指示する。そして、更新部206は、操作反映部162からの指示にしたがって、画像に付与された分類ラベルを更新する。
次にステップS113において、更新部206は、更新後の分類ラベルと、共起情報記憶部111から読み出す共起情報とに基づいて、分類ラベルを更新する。また、更新部206は、更新後の分類ラベルと、集合分類情報記憶部112から読み出す集合分類情報とに基づいて、集合分類ラベルを更新する。このとき、第3の実施形態と同様に、更新部206が、集合分類ラベルを構成する要素である分類ラベルの組み合わせについて、共起する尤度を高める調整を行うようにしてもよい。
次にステップS114において、説明情報生成部108は、前ステップにおける更新部206の処理の結果に応じて、説明規則記憶部107から読み出す説明規則に基づいて、説明情報を生成する。
次にステップS115において、出力部109は、画像と、得られた分類ラベルと、説明情報とを出力する。具体的には、出力部109は、これらの情報を画面等に表示する。
【0113】
以上、説明したように、本実施形態によれば、更新部206は、ユーザーの操作に基づいて分類ラベルを更新することができる。さらに、更新部206は、共起情報記憶部111から読み出す共起情報と集合分類情報記憶部112から読み出す集合分類情報の両方に基づいて、分類ラベルを更新することができる。また、集合分類ラベルを構成する分類ラベルの組み合わせについて、共起尤度の値を高める処理を行うことができる。これにより、集合分類ラベルが付与されるような画像を処理する場合において、その確実性が増す。
【0114】
以上説明した少なくともひとつの実施形態によれば、認識部は、分類情報記憶部に保持されている分類情報を用いて、分割部から渡される各部分画像の認識処理を行う。知識記憶部は、認識部によって付与された分類ラベルを更新するための知識をデータとして保持する。更新部は、認識部から得られた分類ラベルの候補ごとの認識スコアと、知識記憶部から読み出した知識とに基づいて、それら分類ラベルの候補の更新スコアを算出し、分類ラベルを更新する。これらの機能を持つことにより、たとえ認識処理の結果に誤りがあっても、知識に基づく修正を行うことができる。
【0115】
また、以上説明した少なくともひとつの実施形態によれば、説明情報生成部は、説明規則記憶部に記憶された説明規則を用いて、説明情報を生成することができる。この説明情報生成部を持つことにより、ユーザーに、分類ラベル(集合分類ラベルを含む)が付与された理由等を、根拠として示すことができる。これは、分類ラベル付与装置によって付与された分類ラベルが正しいものであるか否かを、ユーザーが判断しやすくする効果を有する。つまり、ユーザーにとっては、分類ラベルが付与された理由を理解しやすくする。これによって、付与された分類ラベルの正誤の判断をしやすくし、ユーザーの主観による付与される分類ラベルのぶれを低減することが可能となる。
【0116】
なお、上述した実施形態における分類ラベル付与装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0117】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。