特開2023-136262 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グローリー株式会社の特許一覧 ▶ 学校法人中部大学の特許一覧

特開2023-136262情報処理装置および情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023136262

(43)【公開日】2023-09-29

(54)【発明の名称】情報処理装置および情報処理方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20230922BHJP

G06N 20/00 20190101ALI20230922BHJP

【ＦＩ】

G06T7/00 350B

G06N20/00

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022041786

(22)【出願日】2022-03-16

(71)【出願人】

【識別番号】000001432

【氏名又は名称】グローリー株式会社

(71)【出願人】

【識別番号】500433225

【氏名又は名称】学校法人中部大学

(74)【代理人】

【識別番号】100117673

【弁理士】

【氏名又は名称】中島了

(72)【発明者】

【氏名】鵜飼祐生

(72)【発明者】

【氏名】藤吉弘亘

(72)【発明者】

【氏名】山下隆義

(72)【発明者】

【氏名】平川翼

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096HA07

5L096HA11

5L096JA03

5L096JA11

5L096JA13

5L096KA04

5L096MA07

(57)【要約】

【課題】画像の類似性の根拠をコンセプトベースで説明することが可能な技術を提供する。
【解決手段】情報処理装置において、機械学習された学習モデルへの複数の入力画像の入力に対して学習モデルから出力される（特徴空間における）複数の特徴ベクトルが取得される（ステップＳ２１）。また、複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより、階層化された複数のクラスタが生成される（ステップＳ２２）。そして、複数のクラスタのうちの特定クラスタに対応する部分空間あるいはベクトルが、特定クラスタのコンセプト（コンセプト表現）として抽出される（ステップＳ２３）。
【選択図】図４

【特許請求の範囲】

【請求項1】

機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得し、前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成し、前記複数のクラスタのうちの特定クラスタに対応する部分空間あるいはベクトルを、前記特定クラスタのコンセプトとして抽出する制御部、
を備えることを特徴とする情報処理装置。

【請求項2】

前記制御部は、前記特定クラスタに関する代表ベクトルを、前記特定クラスタのコンセプトとして抽出することを特徴とする、請求項１に記載の情報処理装置。

【請求項3】

前記制御部は、前記代表ベクトルに対応する仮想的な入力画像であり且つ前記特定クラスタのコンセプトを可視化した画像であるコンセプト可視化画像を、前記代表ベクトルと前記学習モデルとに基づいて生成し、当該コンセプト可視化画像を表示部に表示させることを特徴とする、請求項２に記載の情報処理装置。

【請求項4】

前記特定クラスタの属性情報の入力を受け付ける受付部、
をさらに備えることを特徴とする、請求項１から請求項３のいずれかに記載の情報処理装置。

【請求項5】

前記制御部は、前記学習モデルに対する第１画像の入力に対して前記学習モデルから出力される第１特徴ベクトルと前記学習モデルに対する第２画像の入力に対して前記学習モデルから出力される第２特徴ベクトルとに基づき前記第１画像と前記第２画像との類似性を判断する場合において、前記複数のクラスタにそれぞれ対応する複数のコンセプトのうちの少なくとも１つのコンセプトについて、前記第１画像と前記第２画像との類似性に対する寄与度を算出することを特徴とする、請求項１から請求項４のいずれかに記載の情報処理装置。

【請求項6】

前記制御部は、前記学習モデルに対する第１画像の入力に対して前記学習モデルから出力される第１特徴ベクトルと前記学習モデルに対する第２画像の入力に対して前記学習モデルから出力される第２特徴ベクトルとに基づき、前記第１画像と前記第２画像との類似性を判断する場合において、前記複数のクラスタにそれぞれ対応する複数の部分空間のうち、その直交補空間への前記第１および第２特徴ベクトルの射影ベクトルの相互間の距離を相対的に小さくする部分空間、または当該部分空間を張るベクトルを、前記第１画像と前記第２画像とが互いに似ていないと判断される根拠となるコンセプトとして抽出することを特徴とする、請求項１から請求項４のいずれかに記載の情報処理装置。

【請求項7】

機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得し、前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成し、前記複数のクラスタのうちの特定クラスタに対応する２以上の入力画像を、前記特定クラスタのコンセプトを表す画像群として決定する制御部、
を備えることを特徴とする情報処理装置。

【請求項8】

ａ）機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得するステップと、
ｂ）前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成するステップと、
ｃ）前記複数のクラスタのうちの特定クラスタに対応する部分空間あるいはベクトルを、前記特定クラスタのコンセプトとして抽出するステップと、
を備えることを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習に関する情報処理装置（特に、機械学習に関する説明性を向上させるための情報処理装置）、およびそれに関連する技術に関する。

【背景技術】

【0002】

近年、深層学習（ディープラーニング）などの機械学習を用いた推論処理技術が急速に進化を遂げている。

【0003】

しかしながら、機械学習における学習モデルが非常に複雑であること等に起因して、学習モデルによる推論結果がどのような判断根拠に基づいて得られているのかが必ずしも明確ではない（説明が容易ではない）、という問題が存在する。

【0004】

特に、推論結果が重要な影響を与える場面では、判断根拠の説明性を向上させることが要求されている。たとえば、特許文献１に記載の技術は、このような要求に応える技術の一つである。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００１－３３３７６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

上述の特許文献１においては、画像領域内における注目領域（学習モデルによる推論処理での注目領域）が可視化され、当該注目領域が推論に利用された領域として把握される。すなわち、画像内のいずれの領域に注目して類似性が判断されたかを把握できる。

【0007】

しかしながら、特許文献１の技術では、推論処理において、画像内の注目領域（注目位置）を把握できるとしても、どのようなコンセプト（概念）の類似性が推論結果に影響を与えているかを把握することは困難である。換言すれば、推論処理における判断根拠をコンセプトベースで説明することは困難である。

【0008】

そこで、この発明は、画像の類似性の根拠をコンセプトベースで説明することが可能な技術を提供することを課題とする。

【課題を解決するための手段】

【0009】

上記課題を解決すべく、本発明に係る情報処理装置は、機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得し、前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成し、前記複数のクラスタのうちの特定クラスタに対応する部分空間あるいはベクトルを、前記特定クラスタのコンセプトとして抽出する制御部、を備えることを特徴とする。

【0010】

前記制御部は、前記特定クラスタに関する代表ベクトルを、前記特定クラスタのコンセプトとして抽出してもよい。

【0011】

前記制御部は、前記代表ベクトルに対応する仮想的な入力画像であり且つ前記特定クラスタのコンセプトを可視化した画像であるコンセプト可視化画像を、前記代表ベクトルと前記学習モデルとに基づいて生成し、当該コンセプト可視化画像を表示部に表示させてもよい。

【0012】

前記情報処理装置は、前記特定クラスタの属性情報の入力を受け付ける受付部、をさらに備えてもよい。

【0013】

【0014】

【0015】

また、本発明に係る情報処理装置は、機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得し、前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成し、前記複数のクラスタのうちの特定クラスタに対応する２以上の入力画像を、前記特定クラスタのコンセプトを表す画像群として決定する制御部、を備えることを特徴とする。

【0016】

また、本発明に係る情報処理方法は、ａ）機械学習された学習モデルへの複数の入力画像の入力に対して前記学習モデルから出力される特徴空間における複数の特徴ベクトルを取得するステップと、ｂ）前記複数の特徴ベクトルに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタを生成するステップと、ｃ）前記複数のクラスタのうちの特定クラスタに対応する部分空間あるいはベクトルを、前記特定クラスタのコンセプトとして抽出するステップと、を備えることを特徴とする。

【発明の効果】

【0017】

本発明によれば、画像の類似性の根拠をコンセプトベースで説明することが可能である。

【図面の簡単な説明】

【0018】

【図1】画像処理システムを示す概略図である。

【図2】画像処理装置における処理の概要を示す概念図である。

【図3】画像処理装置における処理を示すフローチャートである。

【図4】コンセプト解析処理を示すフローチャートである。

【図5】類似判断の根拠を説明する処理を示すフローチャートである。

【図6】非類似判断の根拠を説明する処理を示すフローチャートである。

【図7】第１フェーズにおける学習処理を示す概念図である。

【図8】学習が進展した状態における特徴空間等を示す図である。

【図9】第２フェーズにおける推論処理について説明する図である。

【図10】推論処理結果の一例を示す図である。

【図11】階層化クラスタリング処理結果に係るデンドロイド（樹形図）等を示す図である。

【図12】特定クラスタ周辺の階層関係を示す図である。

【図13】クラスタを構成する入力画像等を示す図である。

【図14】特徴ベクトルが超球面上にマッピングされた状態を示している。

【図15】特徴空間に関する２次元的表現と３次元的表現との対応関係を示す図である。

【図16】詳細な学習結果（超球面上での分布）を示す図である。

【図17】線形分離器によって生成された分離平面等を示す図である。

【図18】各クラスタのコンセプトベクトルを示す図である。

【図19】各クラスタのコンセプトベクトルを示す図である。

【図20】各クラスタのコンセプトベクトルを示す図である。

【図21】２つの入力画像の類似度について説明するための概念図である。

【図22】特徴ベクトルが特定平面（部分空間）に射影される様子を示す図である。

【図23】特徴ベクトルが特定直線（部分空間）に射影される様子を示す図である。

【図24】特徴ベクトルが特定直線に射影される様子（コンセプトベクトルがｘ軸と同じ向きを向いている場合）を示す図である。

【図25】第３フェーズにおける解析処理結果等を示す図である。

【図26】或るコンセプトの詳細説明画面を示す図である。

【図27】別のコンセプトの詳細説明画面を示す図である。

【図28】コンセプト可視化画像の生成処理の概略を示す図である。

【図29】２つの画像が互いに類似していない旨の判断の根拠（非類似判断の根拠）を求める処理を示す概念図である。

【発明を実施するための形態】

【0019】

以下、本発明の実施形態を図面に基づいて説明する。

【0020】

＜１．第１実施形態＞
＜１－１．システム概要＞
図１は、画像処理システム１を示す概略図である。図１に示されるように、画像処理システム１は、撮影画像を撮像する複数（多数）の撮影装置（監視カメラ等）２０と、撮影画像を処理する画像処理装置３０とを備えている。画像処理装置３０は、撮影画像の対象（ここでは対象人物）を識別ないし分類するための各種の処理を実行する装置である。画像処理装置３０は、各種の情報を処理する情報処理装置であるとも表現される。

【0021】

各撮影装置２０で撮影された撮影画像は、通信ネットワーク（ＬＡＮおよび／またはインターネット等）を介して画像処理装置３０に入力される。そして、画像処理装置３０による画像処理等によって、撮影画像内の対象人物等を識別ないし分類する処理等が行われる。詳細には、複数の撮影画像に撮影された複数の人物の中から、特定人物を識別（認識）する処理等が行われる。

【0022】

たとえば、所定エリア内に配置された複数の撮影装置２０による複数の撮影画像の中から、特定人物が写っている撮影画像（被写体として特定人物を含む画像）を探し出す処理が行われる。複数の撮影装置２０は、互いに異なる複数の場所（道路沿いの互いに異なる箇所、互いに異なる複数の店舗（内の各箇所）、および／または同一店舗（特に大型店舗）内の互いに異なる複数の箇所等）に分散して配置される。そして、画像処理装置３０は、検索対象の特定人物を複数の撮影画像の中から検索し、検索した１又は複数の撮影画像に対応する各撮影装置を特定することによって、所定エリア内における当該特定人物の行動（移動経路等）を特定する。端的に言えば、画像処理装置３０は、特定人物を追跡することが可能である。特定人物としては、迷子追跡処理における迷子（子供等）、あるいは、犯人追跡処理における犯人（被疑者）等が例示される。たとえば、或る撮影装置２０Ａの撮影画像と別の撮影装置２０Ｂの撮影画像と更に別の撮影装置２０Ｃの撮影画像との合計３枚の撮影画像に当該特定人物（検索対象人物）が含まれている（写っている）場合を想定する。この場合、画像処理装置３０は、当該特定人物が当該撮影装置２０Ａ，２０Ｂ，２０Ｃに対応する３カ所に存在していたことを知得できる。また、画像処理装置３０は、各撮影画像の撮影時刻（詳細には、当該３カ所の撮影画像に関する撮影時刻順序）に基づいて、当該３カ所の移動順序を知得することもできる。

【0023】

このような推論処理、複数の撮影装置２０で撮影された複数の撮影画像に基づき同一人物を識別する処理は、人物再識別（再同定ないし再認識）（Person Re-Identification）処理とも称される。なお、人物再識別に関する特定人物の追跡処理は、犯人を追跡する犯人追跡処理、および迷子を探す（追跡する）迷子追跡処理等に限定されず、たとえば、マーケティング等に利用するために各個人の行動を追跡する追跡処理等であってもよい。

【0024】

図２は、画像処理装置３０における処理の概要を示す概念図であり、図３は、画像処理装置３０における処理を示すフローチャートである。

【0025】

この実施形態では、図２および図３に示されるように、最初に、画像処理装置３０は、上記のような推論処理を行うための機械学習処理（学習モデル４００を機械学習する処理）を第１フェーズＰＨ１（図２）にて実行する（ステップＳ１１（図３））。詳細には、このような機械学習処理として、メトリックラーニング（距離学習とも称される）が実行される。より詳細には、ディープニューラルネットワーク（特に畳み込みニューラルネットワーク（Convolutional Neural Network））を用いたディープメトリックラーニング（Deep Metric Learning）が利用される。当該メトリックラーニングでは、入力画像２１０（２１１）の入力に対して特徴空間（特徴量空間）における特徴ベクトル２５０（２５１）（図７参照）を出力する学習モデル４００が用いられる。このような学習モデル４００は、入力画像（入力）から特徴ベクトル（出力）への変換（写像）を示すモデルである、とも表現される。第１フェーズＰＨ１における処理によって、機械学習された学習モデル４００（学習済みの学習モデル）（４２０）が生成される。

【0026】

次に、画像処理装置３０は、第２フェーズＰＨ２（図２）の処理として推論処理を実行する（ステップＳ１２）。具体的には、第１フェーズＰＨ１にて学習された学習モデル（学習済みモデル）４００（４２０）を利用することによって、推論処理が行われる。詳細には、所定エリア内で撮影された複数の撮影画像２１３（ギャラリー画像とも称する）の中から、特定人物を含む画像を探し出す処理等が、推論処理として実行される。より詳細には、特定人物の画像である検索元の画像２１５（クエリ画像とも称する）との類似度合いが所定程度以上（換言すれば、特徴空間における特徴ベクトル間の距離が所定距離以下）の画像を、特定人物と同一の人物の画像として探し出す処理等が、推論処理として実行される。あるいは、クエリ画像２１５に類似した画像をその類似順に探し出す処理等が推論処理（人物再識別処理）として実行されてもよい。なお、複数のギャラリー画像２１３は、探索範囲を構成する画像群（探索範囲画像群）とも称される。

【0027】

さらに、画像処理装置３０は、クエリ画像２１５と上記推論処理にて探し出された画像２１３との２つの画像（入力画像）の相互間の類似性に関する判断根拠をコンセプトベースで説明する処理（説明情報の生成処理等）を、第３フェーズＰＨ３（図２）の処理として実行する（ステップＳ１３）。

【0028】

具体的には、まず、画像処理装置３０は、当該２つの画像の類似性に関する判断根拠の導出に先立って、機械学習された学習モデル４００（学習済みモデル４２０とも称する）にて、どのようなコンセプトが獲得（学習）されたかを解析する（図４参照）。なお、図４は、このような処理（コンセプト解析処理）を示すフローチャートである。

【0029】

次に、画像処理装置３０は、当該２つの画像の類似性に関する判断根拠を導出する。詳細には、当該２つの画像の相互間の類似性に関する判断根拠（互いに類似している旨の判断の根拠）をコンセプトベースで説明するための情報（説明情報）を生成する処理等が実行される（図５参照）。なお、図５は、このような処理（類似判断の根拠を説明する処理）を示すフローチャートである。

【0030】

より詳細には、学習モデル４００にて獲得された各種のコンセプトのうち、当該２つの画像の類似性に特に大きな影響を及ぼすコンセプト（寄与度が大きなコンセプト）が主要コンセプトとして抽出される。たとえば、複数のコンセプトのうち、（寄与度の高い順序等で）上位数個のコンセプトが主要コンセプトとして抽出される。そして、当該コンセプトが、２つの画像の類似性に関する判断根拠として決定されるとともに、当該コンセプトを表現するための各種画像が表示部３５ｂに表示される（ユーザに提示される）。

【0031】

このような処理（図４および図５等の処理）については後に詳述する。

【0032】

＜１－２．画像処理装置３０＞
図１を再び参照する。図１に示されるように、画像処理装置３０は、コントローラ３１（制御部とも称される）と記憶部３２と通信部３４と操作部３５とを備える。

【0033】

コントローラ３１は、画像処理装置３０に内蔵され、画像処理装置３０の動作を制御する制御装置である。

【0034】

コントローラ３１は、１又は複数のハードウェアプロセッサ（例えば、ＣＰＵ（Central Processing Unit）およびＧＰＵ（Graphics Processing Unit））等を備えるコンピュータシステムとして構成される。コントローラ３１は、ＣＰＵ等において、記憶部（ＲＯＭおよび／またはハードディスクなどの不揮発性記憶部）３２内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）は、ＵＳＢメモリなどの可搬性の記録媒体に記録され、当該記録媒体から読み出されて画像処理装置３０にインストールされるようにしてもよい。あるいは、当該プログラムは、通信ネットワーク等を経由してダウンロードされて画像処理装置３０にインストールされるようにしてもよい。

【0035】

具体的には、コントローラ３１は、上述の第１フェーズＰＨ１における学習処理、第２フェーズＰＨ２における推論処理、および第３フェーズＰＨ３における説明処理（説明情報生成処理等）を実行する。

【0036】

記憶部３２は、ハードディスクドライブ（ＨＤＤ）および／またはソリッドステートドライブ（ＳＳＤ）等の記憶装置で構成される。記憶部３２は、学習モデル４００（学習モデルに関する学習パラメータおよびプログラムを含む）（ひいては学習済みモデル４２０）等を記憶する。

【0037】

通信部３４は、ネットワークを介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、画像処理装置３０は、所望の相手先（たとえば、撮影装置２０あるいは不図示の情報格納装置等）との間で各種のデータ（撮影画像データおよび正解データ等）を授受することが可能である。

【0038】

操作部３５は、画像処理装置３０に対する操作入力を受け付ける操作入力部３５ａと、各種情報の表示出力を行う表示部３５ｂとを備えている。操作入力部３５ａとしてはマウスおよびキーボード等が用いられ、表示部３５ｂとしてはディスプレイ（液晶ディスプレイ等）が用いられる。また、操作入力部３５ａの一部としても機能し且つ表示部３５ｂの一部としても機能するタッチパネルが設けられてもよい。

【0039】

なお、画像処理装置３０は、教師データを用いて学習モデル４００を機械学習する機能を備えているので、学習モデル生成装置とも称される。また、画像処理装置３０は、学習モデル４００（４２０）を用いて対象の識別および／また分類に関する推論を実行する装置でもあるので、推論装置とも称される。さらに、画像処理装置３０は、類似性に関する説明情報を生成する装置でもあるので、説明情報生成装置とも称される。また、画像処理装置３０は、学習モデル４００（４２０）により獲得されたコンセプトを抽出する装置でもあるのでコンセプト抽出装置とも称され、２つの画像の類似性の根拠を当該コンセプトに基づいて説明（解析）する装置でもあるので（類似性）解析装置とも称される。

【0040】

また、ここでは、様々な処理（機能）が１つの画像処理装置３０によって実現されているが、これに限定されない。たとえば、様々な処理が複数の装置で分担されて実現されてもよい。たとえば、上述の第１フェーズＰＨ１における学習処理と、第２フェーズＰＨ２における推論処理と、第３フェーズＰＨ３における説明処理（説明情報生成処理等）とが、それぞれ別個の装置で実行されてもよい。

【0041】

＜１－３．学習段階（第１フェーズＰＨ１）の処理＞
図３に示されるように、この実施形態では、第１フェーズＰＨ１における学習処理（ステップＳ１１）と、第２フェーズＰＨ２における推論処理（ステップＳ１２）と、第３フェーズＰＨ３における説明処理（ステップＳ１３）とがこの順序で実行される。

【0042】

以下では、まず、第１フェーズＰＨ１における学習処理（ステップＳ１１）（図２および図３参照）について説明する。

【0043】

図７は、第１フェーズＰＨ１における学習処理を示す概念図である。

【0044】

図７に示されるように、第１フェーズＰＨ１（ステップＳ１１）においては、メトリックラーニング（距離学習）によって、学習モデル４００（詳細には学習前の学習モデル４１０（図２））に対する機械学習処理が実行される。詳細には、正解ラベル付き複数の教師データ（教師データ群）における複数の入力画像２１０（２１１）が学習モデル４００に対して順次に入力され、学習モデル４００からの出力群（複数の特徴ベクトル２５０（２５１））が取得される（図７参照）。そして、入力画像２１０（入力）と特徴空間における特徴ベクトル２５０（出力）との写像関係が学習される。より具体的には、特徴空間での距離（特徴ベクトル間の距離）が入力空間での入力画像の類似度を反映するように、学習モデル４００（写像関係）が学習される。たとえば、トリプレットロスなどの評価関数を最小化（最適化）するような学習処理等が行われる。このような学習処理によって、学習前の学習モデル４００（４１０）が学習され、学習済みモデル４２０が生成される（ステップＳ１１）。

【0045】

より詳細には、まず、画像処理装置３０は、機械学習用の人物画像２１０（２１１とも称する）を生成する。たとえば、画像処理装置３０は、撮影装置２０から取得した複数の撮影画像のそれぞれに対して人物抽出処理およびサイズ調整処理（リサイズ処理）を施して複数の人物画像２１０（２１１）を生成する。当該複数の人物画像２１０は、学習モデル４００に対する入力画像群として準備される。換言すれば、学習モデル４００に対する入力画像２１０（２１１）として、各人物画像２１０（２１１）が準備される。たとえば、幅（横）Ｗ０画素および高さ（縦）Ｈ０画素の画素配列（矩形形状の画素配列）を有するカラー画像（３チャンネル）が各入力画像２１０として準備される。換言すれば、入力画像２１０は、Ｗ０×Ｈ０×ＣＨ０のボクセルデータ（ただし、ＣＨ０＝３）として生成される。

【0046】

また、複数の入力画像２１０の人物が同じ人物であるか異なる人物かに関する正解情報（正解ラベル）が、当該複数の入力画像２１０のそれぞれに付与される。たとえば、各入力画像２１０（２１１）に対して人物ＩＤ（人物を識別する識別子）等が付与される。詳細には、同一人物の画像には同じ人物ＩＤが付与され、異なる人物の画像には異なる人物ＩＤが付与される。このようにして、正解ラベルと入力画像２１０（２１１）との組み合わせが、正解ラベル付き教師データとして付与される。

【0047】

つぎに、当該複数の入力画像２１０（入力画像群）が順次に学習モデル４００に入力され、学習モデル４００からの複数の出力、すなわち特徴空間における複数の特徴ベクトル２５０（特徴ベクトル群）が順次に出力される（図７参照）。

【0048】

ここにおいて、学習モデル４００は、複数の層（階層）が階層的に接続される階層構造を有している。具体的には、学習モデル４００は、入力層と複数の中間層と出力層とを備えている。複数の中間層は、特徴抽出層等を備えて構成される。特徴抽出層は、１又は複数の畳み込み層と１のプーリング層とが繰り返し配置されること等によって構成される。各畳み込み層では、畳み込み処理を実行するフィルタにより画像内の特徴が抽出される。また、各プーリング層では、微小画素範囲（たとえば、２×２の画素範囲）毎の平均画素値あるいは最大画素値等を抽出するプーリング処理（平均プーリング処理あるいは最大プーリング処理等）が行われ、画素サイズが低減（たとえば、縦横の各方向に１／２）される（情報量が凝縮される）。入力画像２１０に対して複数の特徴抽出処理が施されることによって、特徴マップ２３０（不図示）が生成される。また、当該特徴マップ２３０の各チャンネル画像に対してプーリング処理（たとえば、最大プーリング処理）が施されることによって、所定のチャンネル数（次元数）ＣＨ１を有する特徴ベクトル２５０が生成され、当該特徴ベクトル２５０が学習モデル４００から出力される。

【0049】

なお、このような学習モデル４００（ニューラルネットワーク）としては、たとえば、ＶＧＧ１６あるいはＲｅｓＮｅｔ（Residual Network）（残差ネットワーク）等が用いられればよい。ＶＧＧ１６は、３層の畳み込み層と５層のプーリング層と３層の全結合層とを有する畳み込みニューラルネットワークモデルである。また、ＲｅｓＮｅｔ（Residual Network）（残差ネットワーク）は、層間で残差を足し合わせることを含む畳み込みニューラルネットワークである。ＲｅｓＮｅｔにおける特徴抽出層は、畳み込み層と活性化関数とスキップコネクション（ショートカットコネクション）との組合せ等で構成される複数の残差ブロック等で構成される。

【0050】

入力画像２１０における画像の各種の特徴は、特徴マップ２３０におけるチャンネルごと（換言すれば、特徴ベクトル２５０のチャンネル（要素）ごとに）に抽出される。なお、入力画像２１０における画像の特徴は、特徴マップ２３０における各チャンネルの２次元画像内において、その大まかな位置が保持された状態で抽出される。

【0051】

たとえば、特徴マップ２３０は、それぞれ幅Ｗ１画素および高さＨ１画素の画素配列（矩形形状の画素配列）の２次元配列データで構成されるチャンネルをＣＨ１個備える３次元配列データ（Ｗ１×Ｈ１×ＣＨ１のボクセルデータ）である。特徴マップ２３０の各チャンネルのサイズ（Ｗ１×Ｈ１）は、たとえば、１４×１４である。特徴ベクトル２５０の各要素（の数値）は、各チャンネルで抽出された特徴を表している。特徴ベクトル２５０の次元数ＣＨ１は、特徴マップ２３０のチャンネル数ＣＨ１であり、たとえば、１０２４である。ただし、これに限定されず、各チャンネルのサイズ（Ｗ１×Ｈ１）およびチャンネル数ＣＨ１は、他の値であってもよい。たとえば、チャンネル数ＣＨ１（特徴ベクトル２５０の次元数）は、５１２、あるいは２０４８などであってもよい。

【0052】

理想的には、特徴空間（学習モデル４００の出力空間）において、同一人物を被写体とする複数の入力画像２１０（２１１）に対応する複数の特徴ベクトル２５０（２５１）は互いに近い位置に配置され、異なる人物に関する複数の入力画像に対応する複数の特徴ベクトル２５０は互いに遠い位置に配置される。ただし、学習前の学習モデル４００からの出力に基づく特徴ベクトル群の分布（図７の最右欄参照）は、このような理想的な分布状態からずれている。

【0053】

つぎに、メトリックラーニングにおいて、トリプレットロス（Triplet Loss）などの評価関数を最適化（最小化）するように、学習モデル４００が学習される。これによって、入力空間での入力画像の類似度が特徴空間での距離（特徴ベクトル間の距離）に対応するように、学習モデル４００（写像関係）が学習される。換言すれば、特徴空間における特徴ベクトルの分布位置が学習の進行に応じて徐々に変更される。非常に良好な機械学習が実行されれば、特徴空間における特徴ベクトルの分布は、上述の理想的な分布状態に徐々に近づいていく（図８の最右欄参照）。具体的には、最終的な特徴空間において、同じ人物（および似た服装の人物）の画像の対応特徴ベクトルは比較的近くに分布し、異なる人物（および大きく異なる服装の人物）の画像の対応特徴ベクトルは比較的離れて分布する。このような機械学習の結果、学習前の学習モデル４００（４１０とも称する）は、学習済みの学習モデル４００（４２０とも称する）に変化する。学習済みモデル４２０は、入力画像に応じた特徴量（特徴ベクトル）を抽出する特徴抽出器である、とも表現される。

【0054】

なお、図７および図８内の各最右欄においては、複数の特徴ベクトル２５０（２５１）を特徴空間にマッピングした様子が示されている。当該最右欄では、各特徴ベクトル２５１は、１つの点（詳細には点状の図形）として表現されている。詳細には、多数の入力画像２１１に対応する多数の特徴ベクトル２５１のうちの一部が、それぞれ点状の図形（白丸、黒丸、ハッチング付き白丸、ハッチング付き黒丸、白四角、黒四角等）で示されている。また、図７および図８のそれぞれにおいて、最右欄（特徴空間を示す大きな四角形部分）と当該最右欄の左側の部分（複数の特徴ベクトル２５１（細長い帯状の矩形で示されている）が配列された部分）とは同じ状況を示している。また、便宜上、ここでは本来同じ人物（および非常に似た服装の人物）に対応する複数の点を同じ図形（点状図形）で示している。ただし、画像処理装置３０は、何れの点（特徴ベクトル（換言すれば、入力画像））が同じ人物に本来対応するか（正解ラベル）を知らない。

【0055】

＜１－４．推論段階（第２フェーズＰＨ２）の処理＞
つぎに、第２フェーズＰＨ２（ステップＳ１２）（図２および図３参照）における推論処理について図９および図１０を参照しつつ説明する。図９は、特徴ベクトル２５０（２５３）を用いた推論処理について説明する図である。図１０は、推論処理結果の一例を示す図である。

【0056】

第２フェーズＰＨ２（ステップＳ１２）においては、画像処理装置３０は、探索範囲の複数の人物画像（具体的には、新たな複数の入力画像２１０（２１３））内の対象（ここでは対象人物）を識別（ないし分類）する推論処理を実行する。具体的には、ターゲットエリアにて（ターゲットエリアに配置された撮影装置２０により）撮影された新たな複数の入力画像２１０（２１３）の中から、探索対象（探索元）の入力画像２１５（新たな入力画像）内の人物と同一の人物が探索される。換言すれば、画像処理装置３０は、当該複数の入力画像２１３の人物の中から、探索対象の入力画像２１５（クエリ画像）内の人物と同一の人物を識別（認識）する。

【0057】

そのため、まず、画像処理装置３０は、探索範囲の複数の人物画像（具体的には、新たな複数の入力画像２１０（ギャラリー画像２１３））を学習モデル４２０にそれぞれ入力し、当該学習モデル４２０からの出力をそれぞれ取得する。具体的には、図９に示されるように、各入力画像２１３に対する出力として、特徴ベクトル２５０（２５３）が取得される。また、各特徴ベクトル２５０（２５３）は、たとえば、１０２４次元のベクトルとして生成される。このような特徴ベクトル２５３が、各入力画像２１３の特徴を表すベクトルとして、複数の入力画像２１３のそれぞれに関して求められる（図９左側参照）。

【0058】

同様に、画像処理装置３０は、探索対象の入力画像（クエリ画像）２１５を学習モデル４２０に入力し、当該学習モデル４２０から出力された特徴ベクトル２５０（２５５）を取得する（図９右側参照）。なお、クエリ画像２１５は、たとえば、複数の入力画像２１３（ギャラリー画像）とは別の画像（探索用に新たに付与された画像等）である。ただし、これに限定されず、クエリ画像２１５は、複数の入力画像２１３（ギャラリー画像）の中から何らかの契機等によって発見（特定）された探索対象人物に関する画像等であってもよい。

【0059】

つぎに、画像処理装置３０は、クエリ画像２１５の特徴ベクトル２５５と複数の入力画像２１３に関する複数の特徴ベクトル２５３のそれぞれとの類似度合い（たとえば、ユークリッド距離、あるいはベクトル間の内積（コサイン類似度）等）を算出する。また、当該類似度合いの高い順（類似度合いの降順）に当該複数の特徴ベクトル２５３が並べ替えられる。より詳細には、ユークリッド距離の昇順に（あるいは、コサイン類似度の降順に）複数の特徴ベクトル２５３が並べ替えられる。

【0060】

たとえば、画像処理装置３０は、特徴空間における特徴ベクトル２５５との距離が所定の距離以下（すなわち、類似度合いが所定程度以上）の１又は２以上の特徴ベクトル２５３を、クエリ画像２１５内の人物と同一の人物の特徴ベクトル２５５として特定する。換言すれば、画像処理装置３０は、特定された当該１又は２以上の特徴ベクトル２５５に対応する１又は２以上の入力画像２１３内の人物を、クエリ画像２１５内の人物と同一の人物であると認識する。

【0061】

図１０は、複数の入力画像２１３にそれぞれ対応する複数の特徴ベクトル２５３（図１０にて砂地ハッチングを付した白丸でそれぞれ示される）が特徴空間にて分布する様子を示している。図１０では、クエリ画像２１５の特徴ベクトル２５５（白星印参照）から所定の距離範囲内に、３つの特徴ベクトル２５３（Ｖ３０１，Ｖ３０２，Ｖ３０３）が存在している。この場合、たとえば、当該３つの特徴ベクトル２５３（Ｖ３０１，Ｖ３０２，Ｖ３０３）に対応する３つの画像２１３が同一人物の画像として抽出される。また、当該３つの特徴ベクトル２５３は、特徴ベクトル２５５との類似度の降順に（距離の昇順に）並べられている。ここでは、上位３つの特徴ベクトル２５３に対応する３つの人物画像２１３が、クエリ画像２１５の人物と同一の人物（あるいは非常に類似する人物）の画像である、と認識されている。

【0062】

なお、これに限定されず、当該距離の昇順に並べ替えられた上位所定数の特徴ベクトル２５０（２５３）に対応する入力画像２１３内の人物が、クエリ画像２１５内の人物と同一の人物であると認識されてもよい。あるいは、複数の入力画像２１３が、クエリ画像２１５との（特徴ベクトル２５５に関する）距離の昇順（類似度の降順）に並べ替えられるだけでもよい。この場合でも、画像処理装置３０は、実質的にクエリ画像内の人物と同一の人物である可能性が高い人物をその可能性順に探し出す処理（同一人物の認識処理）を実行しており、当該処理は、クエリ画像内の対象人物を認識する推論処理の一つである。

【0063】

また、ここでは、複数の特徴ベクトル２５０（２５１，２５３，２５５）は、それぞれ正規化（詳細にはＬ２正規化）されているものとする。また、当該複数の特徴ベクトル２５０のうちのいずれか２つの特徴ベクトルの類似性を示す指標として、２つの特徴ベクトル２５０（Ｆとも表記する）間の内積（換言すれば、コサイン類似度）を採用する。具体的には、２つの入力画像Ｘ（クエリ画像Ｘｑおよびギャラリー画像Ｘｇ）にそれぞれ対応する２つの特徴ベクトルＦ（Ｆ^ｑ，Ｆ^ｇ）の内積（＝Ｆ^ｑ・Ｆ^ｇ＝ｑ・ｇ）が、２つの入力画像の類似度として用いられる。特徴ベクトルＦ^ｑは、入力画像（クエリ画像）Ｘ^ｑに対する学習モデル４００からの出力ベクトル（特徴空間（出力空間）における特徴ベクトル）Ｆであり、特徴ベクトルＦ^ｇは、入力画像（或るギャラリー画像）Ｘ^ｇに対する学習モデル４００からの出力ベクトルＦである。なお、記号「・」は、内積を表す。また、特徴ベクトルＦ^ｑを単に特徴ベクトルｑとも表現し、特徴ベクトルＦ^ｇを単に特徴ベクトルｇとも表現する。このような類似度Ｓｔは、次の式（１）のように表現される。

【0064】

【数1】

【0065】

なお、各特徴ベクトルＦ（２５０）は、正規化されている（各ベクトルＦの大きさは１である）ため、２つの特徴ベクトル間の内積は、２つの特徴ベクトル間のコサイン類似度に等しい。また、コサイン類似度（および内積）が大きい（「１」に近い）ということは、２つの特徴ベクトルＦのなす角度θが小さいこと（２つの特徴ベクトルＦが類似していること）、ひいては、当該２つの特徴ベクトルＦに対応する２つの入力画像が類似していることを意味する。すなわち、２つの特徴ベクトルＦの類似度Ｓｔ（２つの特徴ベクトルＦの内積）が大きいほど、２つの特徴ベクトルＦに対応する２つの入力画像は類似する。

【0066】

＜１－５．特徴ベクトルＦの分布について＞
ここにおいて、図７および図８（の各最右欄）においては、特徴ベクトルＦの分布は平面（超平面）上の点群として２次元的に表現されている。

【0067】

一方、図１４等に示されるように、特徴ベクトルＦの分布は球面（超球面）上の点群として３次元的にも表現することも可能である。以下では、後者の表現（超球面を用いた３次元的な表現）を主に用いて説明する。

【0068】

図１４は、学習済みモデル４２０から出力された複数（ここでは３つ）の特徴ベクトルＦ（２５０）が超球面上にマッピングされた状態を示している。ここでは、各特徴ベクトルＦ（２５０）は、正規化されている（各ベクトルＦのノルム（大きさ）は１である）。それ故、図１４に示されるように、特徴ベクトルＦは、原点を始点とし超球面上の点を終点とするベクトルで表現され得る。

【0069】

また、上述したように、２つの特徴ベクトルＦのなす角度θが小さいこと（当該２つの特徴ベクトルＦの内積が大きいこと）は、当該２つの特徴ベクトルＦに対応する２つの入力画像が類似していることを意味する。

【0070】

図１５は、特徴空間に関する２次元的表現と３次元的表現との対応関係を示す図である。図１５において、左右上下に大別される４つの図形群のうち、図１５の上側の２つの図形群は、各特徴ベクトルＦ（２５０）が超平面に分布する様子を示す図である。これに対して、図１５の下側の２つの図形群は、各特徴ベクトルＦ（２５０）が超球面に分布する様子を示す図である。

【0071】

詳細には、図１５の左下の図形群（球体およびその表面の点状図形等）は、図７の最右欄と同様、特徴空間における「未学習の学習モデル４００」による出力ベクトル（特徴ベクトルＦ）の分布を示している。当該左下の図形群は、特徴空間を３次元的に図示するものであり、図１５の左上側の図形群（大きな矩形およびその内部の図形）と同様の状況を（ただし、２次元的にではなく３次元的に）示している。

【0072】

また、図１５の右下の図形群（球体およびその表面の点状図形等）は、図８の最右欄と同様、特徴空間における「学習済みの学習モデル４００（４２０）」による出力ベクトル（特徴ベクトルＦ）の分布を示している。当該右下の図形群は、特徴空間を３次元的に図示するものであり、図１５の右上側の図形群（大きな矩形およびその内部の図形）と同様
の状況を（ただし、２次元的にではなく３次元的に）示している。

【0073】

なお、図１５の上側および図８等は、便宜上、特徴ベクトルＦの分布を２次元的に表現する概念図であり、図１５の下側および図１４等は、便宜上、特徴ベクトルＦの分布を３次元的に表現する概念図である。実際の特徴ベクトルＦは、通常、２次元ないし３次元ベクトルではなく、非常に高次（更に高次の）多次元ベクトル（たとえば１０２４次元ベクトル）である。４次元以上のベクトルは、３次元空間において可視的に図示することは困難であり、特徴ベクトルＦに関するこれらの図示表現（図８、図１４、図１５等参照）は、いずれも、簡略化した仮想的なものである。

【0074】

＜１－６．第１および第２フェーズの処理の詳細等＞
本実施形態（特に上述の第１フェーズＰＨ１および第２フェーズＰＨ２）では、より詳細には次のような人物再識別（再同定）処理等が実行される。

【0075】

まず、第１フェーズＰＨ１（ステップＳ１１）において、多数の人物（たとえば、数百人～数万人）のそれぞれを個々に含む多数の画像（たとえば、数千枚～数十万枚）に基づき学習モデル４００が機械学習される。なお、当該多数の画像に係る多数の人物は、互いに異なる服を着ており、完全に同じ服装の別人はいない、との前提である。同じような服装の人物画像に対応する特徴ベクトル同士は、特徴空間（学習モデル４００の出力空間）において相対的に（異なる服装の人物画像に対応する特徴ベクトルよりも）近くに配置されるように、学習が行われる。

【0076】

詳細には、同じ人物（同じ服を着用している同じ人物）の画像に対応する特徴ベクトルは、特徴空間において非常に近接して配置されるように、学習される。換言すれば、特徴空間において、或る服装特徴を有する同一人物に係る複数の画像は、非常に近くに配置されるように学習される。すなわち、同じ人物の画像同士（詳細にはその特徴ベクトル同士）は、特徴空間において非常に近接して配置される。また、似た服装の異なる人物（類似する服装特徴を有する互いに異なる人物）の画像同士（詳細にはその特徴ベクトル同士）も、特徴空間において近接して配置される。一方、大きく異なる服装の異なる人物の画像同士（詳細にはその特徴ベクトル同士）は、特徴空間において比較的離れて配置される。

【0077】

図８の最右欄には、このような学習結果の一例が示されている。詳細には、学習済みモデル４２０による各出力ベクトル（特徴ベクトルＦ）が点状の図形でそれぞれ表現され、複数の特徴ベクトルＦを表す複数の点状図形が、特徴空間（を表す大きな矩形）内にプロット（配置）されて示されている。

【0078】

また、図１１および図１６は、（図８の最右欄よりも）詳細な学習結果の一例を示す図である。図１１の中央部分から下半部分に亘る大きな矩形内には、学習済みの学習モデル４００（学習済みモデル４２０）による出力ベクトル（特徴ベクトルＦ）の分布が２次元的に示されている。また、図１６は、同様の状況を３次元的に表現した図である。

【0079】

上述のように、特徴空間においては、同一人物の複数（たとえば２つの）の画像にそれぞれ対応する複数（たとえば２つ）の特徴ベクトルＦは、非常に近接して（比較的近接して）配置される。たとえば、図１１および図１６において、２つの点状図形（たとえば、クロスハッチング付きの白丸図形のペア）が互いに非常に近接して配置されている。これは、同一人物の２つの画像（同じ衣服を着用した両人物画像）にそれぞれ対応する２つの特徴ベクトルＦが非常に近接して配置されていることを表している。換言すれば、点状図形のペアは、同じ服装の同一人物の画像ペアに対応する。

【0080】

また、似た服装の異なる人物の画像同士（詳細にはその特徴ベクトルＦ同士）も、（同一人物の画像同士ほどの近接度合いではないものの）特徴空間において互いに近接して配置される。たとえば、図１１および図１６において、９つの白丸図形ペア（合計１８個の白丸図形）が比較的近くに配置されている。また、当該９つの白丸図形ペア（ハッチング有無の双方）のうち、特に６つの白丸図形ペア（ハッチング付き）が比較的近くに配置されている。

【0081】

一方、大きく異なる人物の画像同士（詳細にはその特徴ベクトルＦ同士）は、特徴空間において比較的離れて配置される。たとえば、黒丸図形ペアと白丸図形ペア（ハッチング無し）とは大きく離れて配置されている。

【0082】

このように、同一人物に関する特徴ベクトルＦは比較的狭い範囲に密集して存在し、似た服装の異なる人物に関する特徴ベクトルＦは若干広い範囲に密集して存在する。一方、大きく異なる人物（大きく異なる服装を着用した異なる人物）に関する特徴ベクトルＦは、比較的遠く離れて（比較的大きく分散して）存在する。

【0083】

なお、各図においては、図示の都合上、複数の特徴ベクトルＦのうち一部の特徴ベクトルＦのみが示されている。特に、図８、図１５および図１７以降では、図１１および図１６等よりも更に少数の特徴ベクトルＦのみが示されている。

【0084】

次に、第２フェーズＰＨ２（ステップＳ１２）において、画像処理装置３０は、学習済みの学習モデル４００（４２０）を用いて２人の人物（クエリ画像２１５の人物とギャラリー画像２１３の人物）が同じ人物か否か（両人物の類似度合い）を判定する。なお、同一人物は同じ服を着用しているとの前提で、同じような服装の人物が同一人物（詳細には、同一人物である可能性が高い人物）であるとして探索される。同じような服装の人物の画像ペア間の類似度は相対的に高くなる。

【0085】

具体的には、たとえば、式（１）で示される類似度Ｓｔを最大にする特徴ベクトルＦの組み合わせ（ひいては対応する画像ペア）が、求められる。詳細には、クエリ画像の特徴ベクトルＦとの類似度Ｓｔを最大化する特徴ベクトルＦに対応するギャラリー画像が抽出される。すなわち、その特徴ベクトルが互いに類似する２つの画像が、同一人物の画像として抽出される。たとえば、図２１（あるいは図１４）等に示されるように、同じ服装（あるいは似た服装）の人物が、同一人物であると推定されて抽出される。

【0086】

さらに、次の第３フェーズＰＨ３（ステップＳ１３）では、同一の人物（ないし類似する人物）であると画像処理装置３０が判断した根拠を説明する処理等が、画像処理装置３０によって実行される。たとえば、類似していると判断した根拠が、白いショートパンツを着用している点なのか、および／または、パターン付き（チェック柄等）のシャツを着用している点なのか等が解析される。また、その前準備として、学習済みモデル４２０は、学習データに基づき、どのようなコンセプトを学習したのかに関する解析処理等が実行される。これらについては次述する。

【0087】

＜１－７．説明段階（第３フェーズＰＨ３）の処理（概要）＞
この実施形態においては、画像処理装置３０は更に第３フェーズＰＨ３（図２）の処理を実行する。第３フェーズＰＨ３の処理は、２つの画像（入力画像）の相互間の類似性に関する判断根拠をコンセプトベースで説明する処理（説明情報の生成処理等）である。ここでは、２つの画像の類似性として、クエリ画像２１５と上記推論処理にて探し出された画像２１３との類似性が判断される場合について主に説明する。

【0088】

この第３フェーズＰＨ３の処理は、サブフェーズＰＨ３ａ（ステップＳ２０（図４））の処理と、サブフェーズＰＨ３ｂ（ステップＳ３０（図５））の処理とに大別される。

【0089】

前者のサブフェーズＰＨ３ａ（ステップＳ２０（図４））では、機械学習された学習モデル４２０にて如何なるコンセプトが獲得（学習）されたかを解析する解析処理が行われる。前者のサブフェーズＰＨ３ａは、後者のサブフェーズＰＨ３ｂの処理の前処理である。

【0090】

具体的には、サブフェーズＰＨ３ａにおいては、当該学習モデル４００への複数の入力画像（たとえば、機械学習に用いられた複数の入力画像２１１）の入力に対して当該学習モデル４００から出力される特徴空間における複数の特徴ベクトルＦが取得される。そして、当該複数の特徴ベクトルＦに対する階層化クラスタリング処理を実行することにより、階層化された複数のクラスタＧが生成される。さらに、当該複数のクラスタのうちの特定クラスタに対応するベクトル（当該特定クラスタに関する代表ベクトル）が、当該特定クラスタのコンセプト（詳細には、当該コンセプトを表すベクトル等）として抽出される。当該特定クラスタに関する代表ベクトルとしては、たとえば、当該特定クラスタに関するコンセプト活性化ベクトルＣＡＶ（後述）が利用される。なお、後述するように、特定クラスタに対応する部分空間（代表ベクトルで張られる部分空間等）が、当該特定クラスタのコンセプトとして抽出されてもよい。

【0091】

一方、後者のサブフェーズＰＨ３ｂ（ステップＳ３０（図５））では、２つの画像の類似性に関する判断根拠を導出する処理等が行われる。具体的には、２つの画像の類似性に対する各種コンセプト（サブフェーズＰＨ３ａ（図４）で得られたコンセプト）による影響が評価される。より具体的には、学習モデル４００が機械学習により獲得した各種コンセプト（当該学習モデル４００から抽出された複数のコンセプト）について、２つの画像の類似性に対する寄与度がそれぞれ算出される。そして、当該寄与度等に基づき、これらのコンセプトのうち主要コンセプトが特定される。さらに、当該主要コンセプトを説明する画面表示等が行われる。

【0092】

以下、サブフェーズＰＨ３ａ，ＰＨ３ｂについてこの順序で説明する。

【0093】

＜１－８．サブフェーズＰＨ３ａ（ステップＳ２０）の処理＞
まず、サブフェーズＰＨ３ａの処理について図４を参照しつつ説明する。

【0094】

＜ステップＳ２１＞
図４に示されるように、まずステップＳ２１において、コントローラ３１（画像処理装置３０）は、機械学習された学習モデル４２０への複数の入力画像２１０（２１１）の入力に対して学習モデル４２０から出力された（特徴空間における）複数の特徴ベクトル２５１を取得する。ここでは、学習済みモデル４２０への入力画像２１０として、学習済みモデル４２０の機械学習に用いた教師データ（詳細には、当該教師データを構成する入力画像２１１）を用いる。また、複数の特徴ベクトル２５１は、学習モデル４００に関する学習処理の最終段階にて（多数回の繰り返しを伴う学習処理の後に）最終的に出力される特徴ベクトルである、とも表現される。

【0095】

各特徴ベクトル２５１は、学習済みモデル４２０への各入力画像２１１の入力に対して当該学習済みモデル４２０から出力される各ベクトル（次元数ＣＨ１のベクトル、たとえば、１０２４次元のベクトル）である。上述のように、このようにして得られた複数の特徴ベクトル２５１は、学習後の学習モデル４２０によって特徴空間内の適切な位置に分布する。学習モデル４００に関する距離学習（メトリックラーニング）の結果、特徴空間内での複数の特徴ベクトル２５１の相互間の距離は、入力空間での対応入力画像の類似度を反映している（図１１の下段および図１６等参照）。特徴空間内における当該複数の特徴ベクトル２５１の分布は、学習によって獲得されたコンセプトに基づく分布であるとも考えられる。具体的には、同一コンセプトに対応する特徴ベクトル群、および互いに類似するコンセプトに対応する特徴ベクトル群は、特徴空間において比較的近くに分布している、と考えられる。

【0096】

＜ステップＳ２２：階層化クラスタリング処理＞
次に、ステップＳ２２において、コントローラ３１は、特徴空間内での位置関係等に基づき複数の特徴ベクトル２５１に対する階層化クラスタリング処理を実行することにより、階層化された複数のクラスタを生成する。なお、階層化クラスタリング処理は、階層型クラスタリング処理あるいは階層的クラスタリング処理などとも称される。

【0097】

階層化クラスタリング処理は、複数の要素（集合の要素）（ここでは特徴ベクトルＦ（２５１））を順次にグルーピングして、階層化されたクラスタ（グループ）を形成する処理である。

【0098】

具体的には、階層化クラスタリング処理においては、最も類似する（相互間の類似度が最も高い）暫定クラスタ（次述）同士を１つずつ順次に結合してクラスタを生成することが（全体が１つのクラスタになるまで）繰り返される。これによって、階層化されたクラスタが形成される。暫定クラスタ（暫定的なクラスタ）は、最初は、単一の特徴ベクトルＦで構成され、その後は、単一の特徴ベクトルＦ、又は２以上の特徴ベクトルＦで構成される。当該２以上の特徴ベクトルＦで構成される暫定クラスタは、階層化クラスタリング処理にて生成された（新たな）クラスタを意味する。

【0099】

なお、階層化クラスタリング処理において２つの暫定クラスタが相互に類似するか否かは、当該２つの暫定クラスタの距離等（たとえば、ユークリッド距離、あるいはコサイン類似度）に基づいて判定される。階層化クラスタリング処理としては、重心法、最短距離法、最長距離法、群平均法、あるいはウォード法（Ward's method）などの各種の手法が用いられればよい。これらの手法は、当該２つの暫定クラスタの距離等（類似度）を具体的にどのような量として算出するか等に応じて分類される。たとえば、重心法は、２つの暫定クラスタの重心間の距離を当該２つの暫定クラスタの距離（類似度）とする手法である。また、最短距離法は、一方の暫定クラスタのいずれかの要素と他方の暫定クラスタのいずれかの要素との距離のうち、最も短い要素間距離を当該２つの暫定クラスタの距離とする手法である。なお、各手法において類似度を表す指標値は、距離に限定されず、コサイン類似度等が用いられてもよい。以下では、主にコサイン類似度（式（１）参照）を用いる場合について例示する。

【0100】

より詳細には、階層化クラスタリング処理において、まず、全ての暫定クラスタ（最初は個々の特徴ベクトルＦ）同士の組み合わせについて評価値（具体的には、類似度Ｓｔ（式（１）参照）等）が求められる。そして、最も高い評価値（類似度Ｓｔ）を有する暫定クラスタ同士（要素ペア）を結合したグループが新たなクラスタとして形成される。そして、同様の処理が繰り返されることによって、順次に新たなクラスタ（同位クラスタあるいは上位クラスタ）が形成されていき、最終的には、大きな１つのクラスタが形成される。形成された複数のクラスタの包含関係（換言すれば、上下関係）は、１つの樹形図（デンドロイドとも称する）（図１１の上段参照）で表現される。

【0101】

図１１の下段（および図１６）には、図８等と同様に、複数の特徴ベクトルＦ（２５１）が特徴空間（学習済みモデル４２０の出力空間）内に分布する様子が示されている。そして、このような分布を有する複数の特徴ベクトル２５１が、複数階層に階層化された複数のクラスタを形成している。なお、図１１の上段には、当該複数の特徴ベクトルＦに関する樹形図（デンドロイド）が併せて示されている。

【0102】

たとえば、上述のような階層化クラスタリング処理の途中段階において、クラスタＧ３１０（図１１の中央左側付近参照）が形成される。クラスタＧ３１０は、互いに近接する複数（図１１では６個）の特徴ベクトル２５１（点状黒丸図形）によって構成される。また、その次以降の或る段階では、クラスタＧ３１０を包含するようなクラスタＧ３００が形成される。クラスタＧ３００は、クラスタＧ３１０内の特徴ベクトル２５１と、クラスタＧ３１０に近接する他の特徴ベクトル２５１（ハッチング付きの点状黒丸図形）とで構成される。クラスタＧ３００は、クラスタＧ３１０の上位クラスタ（親クラスタとも称する）とも表現される。

【0103】

同様に、階層化クラスタリング処理の或る途中段階において、クラスタＧ１１１とクラスタＧ１１２とクラスタＧ１２０とが形成される（図１１の下側中央付近参照）。クラスタＧ１１１は、互いに近接する複数（図１１では６個）の特徴ベクトル２５１（縦横クロス（格子状）ハッチング付きの点状白丸図形）によって構成される。クラスタＧ１１２は、互いに近接する複数（図１１では６個）の特徴ベクトル２５１（斜めクロスハッチング付きの点状白丸図形）によって構成される。また、クラスタＧ１２０は、互いに近接する複数（図１１では６個）の特徴ベクトル２５１（ハッチング無しの点状白丸図形）によって構成される。その次以降の或る段階では、２つのクラスタＧ１１１，Ｇ１１２の双方を包含するようなクラスタＧ１１０（２つのクラスタＧ１１１，Ｇ１１２の上位クラスタ）が構成される。その後の或る段階では、２つのクラスタＧ１１０，Ｇ１２０の双方を包含するようなクラスタＧ１００（２つのクラスタＧ１１０，Ｇ１２０の上位クラスタ）が構成される。さらに後の或る段階では、２つのクラスタＧ１００，Ｇ２００の双方を包含するようなクラスタＧ１０（２つのクラスタＧ１００，Ｇ２００の上位クラスタ）が構成される。

【0104】

また、他のクラスタＧ４００，Ｇ５１０，Ｇ５００なども、階層化クラスタリング処理の進展に伴って形成されていく。

【0105】

＜階層化クラスタリング処理の処理結果＞
このような階層化クラスタリング処理によって、例えば図１１のような複数のクラスタ（Ｇ１１１，Ｇ１１２，Ｇ１１０，Ｇ１２０，Ｇ１００，Ｇ２００，Ｇ１０，Ｇ３１０，Ｇ３００，Ｇ４００，Ｇ５１０，Ｇ５００等）が形成される。なお、図１１においては、図示の都合上、多数の特徴ベクトル２５１のうちの一部の特徴ベクトル２５１のみが図示されており、且つ、多数のクラスタのうちの一部のクラスタのみが図示されている。

【0106】

また、各特徴ベクトルＦ（２５１）は、それぞれ、各入力画像Ｘ（２１１）に対応している。それ故、階層化クラスタリング処理は、複数の特徴ベクトルＦ（２５１）をクラスタリングする処理であるとともに、複数の入力画像Ｘ（２１１）をクラスタリングする処理でもある（図１３参照）。図１３は、図１１に示される複数のクラスタのうちの一部のクラスタを示す図である。図１３においては、当該一部のクラスタに対応する入力画像２１０（２１１）が示されている。なお、入力画像２１０は実際には撮影画像であるものの、図１３（以後の図（図１４、図２１、図２５、図２６等）でも同様）では図示の都合上、入力画像２１０（２１１、２１３，２１５）がＣＧ（コンピュータグラフィックス）画像で表現されている。

【0107】

たとえば、クラスタＧ１１１には、縦横クロス（格子状）ハッチング付きの複数の点状白丸図形（図１１参照）にそれぞれ対応する複数の入力画像が含まれている、とも表現できる（図１３も参照）。同様に、クラスタＧ１１２には、斜めクロスハッチング付きの複数の点状白丸図形（図１１参照）にそれぞれ対応する複数の入力画像が含まれている。また、上位クラスタＧ１１０には、下位クラスタＧ１１１に含まれる複数の入力画像と、下位クラスタＧ１１２に含まれる複数の入力画像との双方が含まれている。

【0108】

より詳細には、図１３に示されるように、クラスタＧ１１１は、「模様多めの白（白地）シャツ（且つその模様が直線的なもの）」を着用している少なくとも１人（ここでは３人以上）の人物に関する複数の画像２１１で構成されている。クラスタＧ１１２は、「模様多めの白シャツ（且つその模様が曲線的なもの）」を着用している少なくとも１人の人物に関する複数の画像２１１で構成されている。上位クラスタＧ１１０は、下位クラスタＧ１１１に含まれる人物画像２１１と、下位クラスタＧ１１２に含まれる人物画像２１１との双方を備えて構成されている。より具体的には、上位クラスタＧ１１０は、「模様多めの白シャツ」（その模様は直線的な模様であってもよく曲線的な模様であってもよい）を着用している少なくとも１人の人物に関する複数の画像２１１で構成されている。

【0109】

また、クラスタＧ１１０（「模様多めの白シャツ」の人物画像に対応するクラスタ）に対して同位関係を有するクラスタＧ１２０は、「模様少なめの白シャツ」を着用している少なくとも１人の人物に関する複数の画像２１１で構成されている。

【0110】

さらに、上位クラスタＧ１００は、下位クラスタＧ１１０に含まれる人物画像２１１と、下位クラスタＧ１２０に含まれる人物画像２１１との双方を備えて構成されている。より具体的には、上位クラスタＧ１００は、「模様有りの白シャツ」（その模様は多めであってもよく少なめであってもよい）を着用している少なくとも１人の人物に関する複数の画像２１１で構成されている。

【0111】

また、クラスタＧ１００（「模様有りの白シャツ」の人物画像に対応するクラスタ）に対して同位関係を有するクラスタＧ２００は、「薄いピンク色のシャツ」を着用している少なくとも１人の人物に関する複数の画像２１１で構成されている。

【0112】

その他のクラスタも同様に、特定の概念で互いに類似した服装の人物の画像で構成される。

【0113】

このように、各入力画像２１０（２１１）に対応する複数の特徴ベクトル２５０（２５１）をクラスタリングすることは、複数の入力画像２１０をクラスタリングすることと等価である。

【0114】

換言すれば、（階層化クラスタリング処理で生成された）特定クラスタに所属する複数の入力画像には共通の特徴が存在し、当該特定クラスタは、固有のコンセプトを有していると解釈される。

【0115】

また、上位クラスタのコンセプトは、その下位クラスタのコンセプトを包括（包含）するコンセプト（包括的コンセプト）である。逆に、下位クラスタのコンセプトは、その上位クラスタのコンセプトを細分化したコンセプトである。端的に言えば、上位コンセプトは粒度の粗いコンセプトであり、下位コンセプトは粒度の細かいコンセプトである。また、上位コンセプトは、比較的多くの人物間で共有されるコンセプトであり、下位コンセプトは、比較的少ないの人物間で共有されるコンセプトである、とも表現される。

【0116】

なお、図１１の樹形図（デンドロイド）は一例であり、学習データ等に依拠して異なる樹形図が生成される。

【0117】

また、このような階層化クラスタリング処理においては、非常に多数のクラスタが生成される。階層化クラスタリング処理で生成された全てのクラスタが以後の処理（特にステップＳ３１（後述）以降の処理）に利用されてもよいが、これに限定されない。たとえば、このような多数のクラスタのうち、所定人数（たとえば３人）以上を含むクラスタが、類似性の説明根拠を示すクラスタ（当該説明根拠のコンセプトを形成するクラスタ）として利用されることが好ましい。これによれば、（学習データの人物に固有の特徴への依存を抑制し）コンセプトのロバスト性を向上させることが可能である。換言すれば、単一の人物のみで構成されるクラスタは、類似性の説明根拠を示すクラスタからは除外されてもよい。

【0118】

また、特に、階層化クラスタリング処理にて生成された全てのクラスタのうち、そのコンセプトベクトルＵ（後述）が互いに１次独立（線形独立）となるような複数のクラスタのみが、用いられることが好ましい。

【0119】

＜ステップＳ２３：コンセプトベクトルＵの抽出処理＞
次のステップＳ２３では、コントローラ３１は、各クラスタに対応する部分空間あるいはベクトルを、当該各クラスタのコンセプトとして抽出する（ステップＳ２３）。ここでは、各クラスタに対応するベクトル（「コンセプトベクトル」（次述））が、当該各クラスタのコンセプトとして抽出される。

【0120】

より詳細には、まず、コントローラ３１は、全クラスタのうち、以後の処理での検討対象となり得るクラスタを選択する。具体的には、階層化クラスタリング処理にて生成された全クラスタの中から、所定の基準を充足する一部のクラスタが選択される。選択されたクラスタは、検討対象候補クラスタとも称される。当該所定の基準は、たとえば、（上述のような）所定数（たとえば３人）以上の人物を含むクラスタであること等である。あるいは、全てのクラスタが検討対象候補クラスタとして選択されてもよい。

【0121】

そして、コントローラ３１は、選択された一部のクラスタ（複数の特定クラスタ）のそれぞれに対応する各ベクトルＵを、当該各クラスタ（各特定クラスタ）のコンセプトとして抽出する（ステップＳ２３）。特定クラスタに対応するベクトルＵは、具体的には、当該特定クラスタに関する代表ベクトルである。なお、「代表ベクトル」は、特定クラスタに属する複数の特徴ベクトルのいずれかであることを要さず、当該複数の特徴ベクトルで構成された１つのまとまりを代表的に示すベクトル（当該特定クラスタに属する複数の特徴ベクトルを象徴するような代表的なベクトル）であればよい。また、ベクトルＵは、当該特定クラスタのコンセプトを表現するベクトル（当該コンセプトのベクトル表現）であることから、「コンセプトベクトル」とも表現される。当該コンセプトベクトルＵも、特徴ベクトルＦと同様に、正規化されていることが好ましい。

【0122】

特定クラスタのコンセプトベクトルＵは、たとえば、当該特定クラスタに属する（当該特定クラスタを構成する）複数の特徴ベクトルＦ（２５１）の平均ベクトルとして求められる。当該平均ベクトルは、特徴空間の超平面（超球面）上における当該複数の特徴ベクトルＦの重心位置（平均位置）を示すベクトルであることから、重心ベクトルとも称される。

【0123】

あるいは、特定クラスタのコンセプトベクトルＵは、特定クラスタの「コンセプト活性化ベクトル」（ＣＡＶ：Concept Activation Vector）であってもよい。特定クラスタのコンセプト活性化ベクトルは、特定クラスタに属する要素とそれ以外の要素とを分離する分離平面５０１の法線ベクトルである（図１７参照）。図１７においては、特徴空間（ここでは、超球面）における分離平面５０１が示されている。分離平面５０１は、特定クラスタＧａに属する要素（点状白丸図形（で表される特徴ベクトルＦａ）参照）と特定クラスタＧａに属しない要素（他の点状図形（で表される特徴ベクトルＦｂ）参照）とを分離する平面である。このような分離平面５０１は、２クラス分類の線形分離器（線形識別器）（サポートベクトルマシン等）によって求めることができる。この分離平面５０１に垂直な（且つ外向きの）ベクトルが、特定クラスタＧａのコンセプト活性化ベクトル（ＣＡＶ）である。

【0124】

図１８～図２０は、各クラスタのコンセプトベクトルＵ（ＣＡＶ等）を示す図である。各図において、その左側には或るクラスタＧが示されており、その右側には当該或るクラスタＧのコンセプトベクトルＵ（超球面上の点へ向かうベクトルで表現されたコンセプトベクトル）が示されている。

【0125】

たとえば、図１８の上段にはクラスタＧ１１０のコンセプトベクトルＵ（Ｕ１１０）が示されており、図１８の中段にはクラスタＧ１２０のコンセプトベクトルＵ（Ｕ１２０）が示されている。また、図１８の下段にはクラスタＧ１００のコンセプトベクトルＵ（Ｕ１００）が示されている。

【0126】

また、図１９の上段にはクラスタＧ２００のコンセプトベクトルＵ（Ｕ２００）が示されており、図１９の中段にはクラスタＧ３１０のコンセプトベクトルＵ（Ｕ３１０）が示されている。また、図１９の下段にはクラスタＧ３００のコンセプトベクトルＵ（Ｕ３００）が示されている。

【0127】

同様に、図２０の上段にはクラスタＧ４００のコンセプトベクトルＵ（Ｕ４００）が示されており、図２０の中段にはクラスタＧ５１０のコンセプトベクトルＵ（Ｕ５１０）が示されている。また、図２０の下段にはクラスタＧ５００のコンセプトベクトルＵ（Ｕ５００）が示されている。

【0128】

なお、ここでは、図示されていないが、他のコンセプトベクトルＵ、たとえば、コンセプトベクトルＵ１１１，Ｕ１１２，Ｕ１０等も同様に求められる。

【0129】

これらの図に示されるように、デンドロイド（図１１上段参照）にて互いに近くに存在するクラスタ同士のコンセプトベクトルＵ同士は、比較的類似する。たとえば、クラスタＧ１１０のコンセプトベクトルＵ１１０（図１８上段参照）とクラスタＧ１２０のコンセプトベクトルＵ１２０（図１８中段参照）とは、互いに比較的近い（比較的近い向きを有している）。逆に、デンドロイド（図１１上段参照）にて互いに遠く離れたクラスタ同士のコンセプトベクトルＵ同士は、大きく異なる。たとえば、クラスタＧ１００のコンセプトベクトルＵ１００（図１８下段参照）とクラスタＧ５００のコンセプトベクトルＵ５００（図２０下段参照）とは、互いに大きく異なる（大きく異なる向きを有している）。

【0130】

このように、コンセプトベクトルＵの類似性は、各クラスタの特徴（換言すれば、各クラスタのコンセプト）の類似性を反映している。

【0131】

また、上述したように、（階層化クラスタリング処理で生成された）特定クラスタに所属する複数の入力画像には共通の特徴が存在し、当該特定クラスタは、固有のコンセプトを有していると解釈される。

【0132】

そこで、コントローラ３１は、各クラスタのコンセプトベクトルＵを当該各クラスタのコンセプト（ないしコンセプト表現）として抽出する。各クラスタのコンセプトベクトルＵは、当該各クラスタのコンセプトを表現するベクトルである。換言すれば、各クラスタのコンセプトベクトルＵは、各クラスタの「ベクトルによるコンセプト表現」でもある。

【0133】

以上のように、学習済みモデル４２０は、（階層化クラスタリング処理にて生成された）各クラスタのコンセプトを学習したモデルであると解釈される。そして、各クラスタのコンセプトベクトルＵが、当該各クラスタのコンセプトとして抽出される。

【0134】

なお、上述したように、図１６および図１８～２０等においては、各コンセプトベクトルＵが３次元的に表現されている。ただし、実際には、各コンセプトベクトルＵは、非常に高い次元（β次元（たとえば１０２４次元））のベクトル（多次元ベクトル）である。したがって、互いに異なるクラスタ（コンセプト）に対応する非常に多数（γmax個）（たとえば３００個）（ただし、γmax＜β））のコンセプトベクトルＵが、１次独立（線形独立）のベクトルとして存在する。

【0135】

また、このような多次元の（たとえば１０２４次元）コンセプトベクトルＵの図示（３次元表現）には限界がある。各コンセプトベクトルＵは、図示可能な３つの次元以外の他の次元（４次元目以降の第ｉ次元等）に実質的な特徴成分を有していることが多い。たとえば、図１６、図１８～図２０等においては、互いに大きく異なる複数のコンセプトベクトルＵは３次元内にて異なる向きを有している。ただし、実際には、互いに大きく異なる複数のコンセプトベクトルＵは４次元目以降の第ｉ次元等において相違する向きを有していることが多い。

【0136】

＜１－９．２つの画像の類似度（コンセプト群ごとの類似度Ｓｃ等）＞
サブフェーズＰＨ３ｂ（図５）の処理について説明する前に、２つの画像（画像ペア）の類似度について説明する。２つの画像（第１画像および第２画像）としては、クエリ画像とステップＳ１２で抽出されたギャラリー画像とが例示される。ただし、これに限定されず、任意の２つの画像の類似性についても同様である。

【0137】

まず、上述のように、２つの入力画像の相互間における類似度Ｓｔ（画像ペア相互間における全体的な類似度Ｓｔ）は、上式（１）で表される。すなわち、２つの入力画像Ｘの類似度Ｓｔは、当該２つの入力画像Ｘに対する学習モデル４００からの出力ベクトルｑ，ｇ（特徴ベクトルＦ）の内積（ｑ・ｇ）（ここでは、ｃｏｓθ）として算出（表現）される。たとえば、図２１に示すような２つの入力画像（クエリ画像およびギャラリー画像）の類似度Ｓｔは、それぞれの特徴ベクトルｑ，ｇの内積（図２１では、Ｓｔ＝０．７７８）として算出される。

【0138】

ここで、当該類似度Ｓｔ（全体的な類似度）とは異なる別の指標（具体的には、類似度Ｓｃ）を導入する。この類似度Ｓｃは、複数のコンセプトのうち、類似性に関する寄与度合いを考慮する対象として選択されたコンセプト（考慮対象コンセプトないし被選択コンセプトとも称する）で説明される、（両画像の）類似度合いを示す指標値である。端的に言えば、類似度Ｓｃは、２つの入力画像の相互間における全体的な類似性ではなく、一部の被選択コンセプトに起因する部分的な類似性を表す。換言すれば、類似度Ｓｃは、２つの入力画像の相互間における全体的な類似度Ｓｔのうち、一部の被選択コンセプト（考慮対象コンセプト）が寄与する成分を表す。謂わば、類似度Ｓｃは、両画像の類似性に対して被選択コンセプトが寄与する程度（寄与度）を示す指標である。類似度Ｓｃは、コンセプトごと（コンセプトベクトルごと、或いはクラスタごと）の類似度（寄与度）である、とも表現される。なお、類似度Ｓｃは、類似度Ｓｔと同様に、スカラー（値）である。

【0139】

この被選択コンセプトに関する類似度Ｓｃは、被選択コンセプトに対応したコンセプトベクトルＵにより張られる部分空間（特定部分空間とも称する）上での画像特徴量（特徴ベクトルＦｑ（＝ｑ）およびＦｇ（＝ｇ））間の類似度合いで表現される。具体的には、当該類似度Ｓｃは、第１特徴ベクトルｑを当該特定部分空間に射影（直交射影）したベクトル（Ｐｑ）と、第２特徴ベクトルｇを当該特定部分空間に射影（直交射影）したベクトル（Ｐｇ）との内積で表現される。ベクトル（Ｐｑ）は、射影行列Ｐ（次述）を特徴ベクトルｑに対して（左から）作用させたベクトル（正射影ベクトル）であり、ベクトルＰｇは、射影行列Ｐを特徴ベクトルｇに対して（左から）作用させたベクトル（正射影ベクトル）である。

【0140】

すなわち、当該類似度Ｓｃは、次の式（２）で表現される。

【0141】

【数2】

【0142】

ただし、行列Ｐは、各特徴ベクトルＦを、上記特定部分空間（被選択コンセプトに対応したコンセプトベクトルＵにより張られる部分空間）に射影する特定の射影行列（詳細には直交射影行列）である。具体的には、射影行列（直交射影行列）Ｐは、行列Ｂを用いて次の式（３）で算出される。行列Ｐは、β×βのサイズを有している。値βは、ベクトルＦ（ｑあるいはｇ）の次元数（たとえば１０２４）である。

【0143】

【数3】

【0144】

ここで、行列Ｂは、所定数（被選択コンセプトの個数（γ個））のコンセプトベクトルＵ（縦ベクトル（列ベクトル））を横方向に並べた行列である。行列Ｂは、β×γ（たとえば、１０２４×２）サイズを有している。また、γは、選択するコンセプトの個数（たとえば、２（１あるいは３などでもよい））である。また、行列の右上の添え字「Ｔ」は転置（行列）であることを示す。

【0145】

γ個のコンセプトベクトルＵは、互いに１次独立（線形独立）となるように選択される。また、被選択コンセプトの個数γの最大値は、βである。

【0146】

なお、式（３）は、１又は２以上のベクトルｂで張られる部分空間（２以上のベクトルｂを基底とする部分空間）への直交射影を表す行列（直交射影行列）を求める一般的な式でもある。ただし、ベクトルｂとしてコンセプトベクトルＵを用いている。

【0147】

行列Ｂ（ひいては行列Ｐ）は、被選択コンセプト（詳細には当該被選択コンセプトに対応するコンセプトベクトル）に依拠して、異なる行列になる。詳細には、いずれのコンセプト（およびいくつのコンセプト）を選択するかに依拠して、行列Ｂ（および行列Ｐ）は変動する。

【0148】

なお、逆行列を算出する際の便宜上、式（３）の代わりに次の式（４）を用いて射影行列Ｐが算出されてもよい。+εＥの項は、無限大への発散等を防止するための調整項である。行列Ｅは次元数βの単位行列（β×β（サイズ）の単位行列）であり、値εは微少な定数である。

【0149】

【数4】

【0150】

再び式（２）を参照し、当該式（２）について説明する。

【0151】

式（２）においては、上述のように、２つの入力画像Ｘ（Ｘｑ，Ｘｇ）に対応する２つの特徴ベクトルＦ（具体的には、ベクトルｑ，ｇ）が、特定の射影行列Ｐを用いて２つの射影ベクトル（ＰＦ）に変換される。射影ベクトル（ＰＦ）は、射影行列Ｐを特徴ベクトルＦに対して（左から）作用させたベクトルである。上述のように、当該特定の射影行列Ｐは、特徴空間内における各特徴ベクトルを、特定の部分空間（特定コンセプトに対応する部分空間）に射影（直交射影）する射影行列（直交射影行列）である。

【0152】

この特定の射影行列Ｐ（式（３）等参照）は、評価対象のｎ個の被選択コンセプト（１又は２以上のコンセプト）で構成されるコンセプト群ごとに規定される。

【0153】

たとえば、評価対象のコンセプトが単一のコンセプトである場合、特定の射影行列Ｐは、特徴空間内における各特徴ベクトルＦを、特定の直線（特定の部分空間）に射影する射影行列である。より詳細には、単一のコンセプトベクトルＵで規定される単一のコンセプトに関する特定の射影行列Ｐは、特徴空間内における各特徴ベクトルを、特定の直線（当該単一のコンセプトベクトルＵを含む直線）に射影する射影行列である。

【0154】

図２３は、このような射影行列Ｐ（ただし、単一のコンセプトベクトルＵ１で張られる部分空間（すなわち直線）への直交射影行列）により各特徴ベクトルｑ，ｇがそれぞれ特定の直線（単一のコンセプトベクトルＵ１を含む直線）に射影（正射影）される様子を示している。

【0155】

図２３に示されるように、この直交射影行列Ｐによって、ベクトルｑはベクトルｑ１に変換され且つベクトルｇはベクトルｇ１に変換される。図２３では、変換後のベクトルｑ１，ｇ１は太い破線で示されている。このように、ベクトルｑ１，ｇ１は、特定クラスタ（特定コンセプトベクトル）に対応する部分空間（詳細には直線）に対して、２つの特徴ベクトルｑ，ｇをそれぞれ射影した射影ベクトルである。

【0156】

それ故、式（２）は、次の式（５）のように変形される。具体的には、２つの射影ベクトルｑ１，ｇ１間の内積（ｑ１・ｇ１＝ｑｓ＊ｇｓ）が、当該各クラスタ（コンセプト）に関する類似度Ｓｃとして求められる。

【0157】

【数5】

【0158】

ここで、値ｑｓは、ベクトルｑ１の大きさ（コンセプトベクトルＵの向きの直線へと射影したベクトルｑの射影成分）であり、値ｇｓは、ベクトルｇ１の大きさ（コンセプトベクトルＵの向きの直線へと射影したベクトルｇの射影成分）である。ただし、ベクトルｑ１（，ｇ１）とコンセプトベクトルＵとのなす角度が９０度～２７０度（degree）である場合には、値ｑｓ（，ｇｓ）は負の値である。式（２）で示される類似度Ｓｃは、式（５）で示されるように、値ｑｓと値ｇｓとの積として算出される。

【0159】

なお、図２４は、図２３と同様の図である。ただし、図２４は、仮にコンセプトベクトルＵがｘ軸と同じ向きを向いている場合を示している。この場合には、図２４に示されるように、値ｑｓはベクトルｑ１のｘ方向成分（第１成分）に等しく、値ｇｓはベクトルｇ１のｘ方向成分（第１成分）に等しい。図２４は、説明の単純化のために示したが、一般的には、図２３のような射影変換が想定される。

【0160】

式（２）（特に式（５））によれば、単一のコンセプトベクトルＵに関する寄与度（換言すれば、両画像の類似性に対する単一の被選択コンセプトの寄与度）が、類似度Ｓｃとして算出される。換言すれば、コンセプトごとの類似度Ｓｃが算出される。

【0161】

また、評価対象のコンセプトが２つのコンセプトである場合、特定の射影行列Ｐは、特徴空間内における各特徴ベクトルＦを、特定の平面（特定の部分空間）に射影する射影行列である。より詳細には、２つのコンセプトに関する特定の射影行列Ｐは、特徴空間内における各特徴ベクトルＦを、特定の平面（２つのコンセプトに対応する２つのコンセプトベクトルＵ１，Ｕ２で張られる平面）に射影する射影行列である。そして、式（２）に従って、２つの特徴ベクトルＦを当該射影行列Ｐによって射影変換した後の２つの射影ベクトルの内積（Ｐｑ）・（Ｐｇ）が、２つの画像の類似性への評価対象コンセプトによる寄与度Ｓｃとして算出される。

【0162】

図２２は、このような射影行列Ｐ（２つのコンセプトベクトルＵ１，Ｕ２で張られる部分空間（平面）への直交射影行列）により各特徴ベクトルｑ，ｇがそれぞれ当該平面（２つのコンセプトベクトルＵ１，Ｕ２で張られる平面）に射影される様子を示している。図２２では、図示の簡単化のため、コンセプトベクトルＵ１，Ｕ２が平面ｚ＝０（ｘｙ平面）に平行である場合が示されている。換言すれば、２つのコンセプトベクトルＵ１，Ｕ２で張られる平面が、ｚ＝０で表される平面である場合が示されている。

【0163】

図２２に示されるように、２つのコンセプトベクトルＵ１，Ｕ２を用いて算出された当該直交射影行列Ｐによって、ベクトルｑはベクトルｑ１２に変換され且つベクトルｇはベクトルｇ１２に変換される。なお、変換後のベクトルｑ１２，ｇ１２は太い破線で示されている。

【0164】

この場合、直交射影行列Ｐによる変換後の両ベクトルｑ１２，ｇ１２の内積（換言すれば、特定部分空間（平面ｚ＝０）での両ベクトルｑ１２，ｇ１２の類似度）が、類似度Ｓｃとして算出される。すなわち、２つのコンセプトを考慮対象（評価対象）とする場合、対応する２つのコンセプトベクトルＵ１，Ｕ２で張られる平面に対して２つの特徴ベクトルＦを射影変換した後の２つのベクトルの内積（ｑ１２・ｇ１２）が、類似度Ｓｃとして算出される。

【0165】

このようにして、２つのコンセプトベクトルＵ１，Ｕ２に関する寄与度（換言すれば、両画像の類似性に対する２つの被選択コンセプトの寄与度）が、式（２）に基づき類似度Ｓｃとして算出され得る。

【0166】

同様にして、任意の個数（所定数）のコンセプトベクトルＵに関する寄与度（換言すれば、両画像の類似性に対する当該所定数の被選択コンセプトの寄与度）（類似度）Ｓｃが、式（２）に基づき算出され得る。なお、３つ以上のコンセプトベクトルＵに関する寄与度Ｓｃは、４次元以上の変換前空間からそれよりも低い次元（コンセプトベクトルの個数に等しい次元）の変換後空間へと射影変換された２つのベクトルの内積として考えればよい（ただし、図示は困難である）。

【0167】

＜１－１０．サブフェーズＰＨ３ｂ（ステップＳ３０）の処理＞
＜サブフェーズＰＨ３ｂの概要＞
つぎに、サブフェーズＰＨ３ｂ（ステップＳ３０）の処理について図５を参照しつつ説明する。サブフェーズＰＨ３ｂの処理は、２つの画像の類似性に関する判断根拠を導出する処理等である。

【0168】

サブフェーズＰＨ３ｂでは、同一の人物（ないし類似する人物）であると画像処理装置３０が判断した根拠を説明する処理等が、画像処理装置３０によって実行される。ここでは、ステップＳ１２で同一人物の画像（所定程度以上に類似している画像）と判定された２つの画像（クエリ画像Ｘｑおよびギャラリー画像Ｘｇ）の類似性に関する判断根拠を導出する処理について主に説明する。ただし、本発明は、これに限定されず、任意の２つの画像の類似性についての判断処理およびその判断根拠の導出処理等が実行されてもよい。

【0169】

このサブフェーズＰＨ３ｂの処理によれば、類似していると判断した根拠が、たとえば、特定の特徴を有するシャツを着用している点なのか、特定の特徴を有するボトムスを着用している点なのか等が解析され得る。また、シャツの模様に特徴を見いだしたのか等もが解析され得る。

【0170】

このサブフェーズＰＨ３ｂでは、上述したコンセプトベクトルＵ（ステップＳ２３（図４）参照）を利用して、類似性に関する判断根拠が解析される。

【0171】

＜ステップＳ３１：主要コンセプトの抽出＞
具体的には、まず、ステップＳ３１（図５）において、学習モデル４００にて獲得された各種のコンセプトのうち、２つの画像の類似性に特に大きな影響を及ぼすコンセプト（寄与度が大きなコンセプト）が主要コンセプトとして抽出される。詳細には、複数のコンセプトのうち、所定の基準による上位数個のコンセプトが主要コンセプトとして抽出される。たとえば、次述する２つの手法のいずれか、具体的には、第１手法と第２手法とのいずれかが実行されて、主要コンセプトが抽出される。

【0172】

以下では、２つの手法（第１手法および第２手法）について例示する。

【0173】

まず、第１手法について説明する。

【0174】

第１手法は、画像ペアの類似度に対するコンセプト毎の寄与度Ｓｃ（式（５）参照）を全コンセプトについて求め、当該寄与度Ｓｃの大きな上位数個のコンセプトを主要コンセプトとして抽出する手法である。

【0175】

具体的には、第１手法においては、まず、コントローラ３１は、単一のコンセプトベクトルＵの寄与度Ｓｃ（上述の式（５）に基づく類似度Ｓｃ）を、複数の候補コンセプトベクトルＵ（後述）（たとえば全てのコンセプトベクトルＵ）のそれぞれについて求める。すなわち、コントローラ３１は、或るクラスタに対応する単一のコンセプトベクトルＵで表現される一のコンセプトが全体の類似度にどの程度寄与しているか、を求める処理（コンセプトごとの寄与度Ｓｃを求める処理）を、全てのコンセプトについて実行する。次に、コントローラ３１は、全てのコンセプトをその寄与度の大きい順に（寄与度の降順に）並べ替える。そして、コントローラ３１は、上位数個のコンセプトを、２つの画像の類似度に大きく寄与する主要なコンセプト（主要コンセプト）として決定する。

【0176】

なお、第１手法においては（第２手法も同様）、上記ステップＳ２０で抽出された複数のコンセプト（複数のコンセプトベクトルＵ）の全てが、類似性の根拠となるコンセプトの候補（候補コンセプトとも称する）として特定されてもよい。ただし、これに限定されず、候補コンセプトは、上記ステップＳ２０で抽出された全てのコンセプトのうちの一部のコンセプトであってもよい。換言すれば、類似性の根拠となるコンセプトベクトルの候補（候補コンセプトベクトルＵとも称する）は、上記ステップＳ２０で抽出された全てのコンセプトベクトルのうちの一部のコンセプトベクトルであってもよい。このように、一部の候補コンセプト（候補コンセプトベクトル）の中から、主要コンセプト（主要コンセプトベクトル）が決定されてもよい。

【0177】

次に、第２手法について説明する。

【0178】

第２手法は、寄与度（類似度）について検討する点においては第１手法に類似する。

【0179】

ただし、第２手法では、或る時点（ｉ回目の繰り返し処理時点）で既に選択（考慮）されたコンセプト（選択済みコンセプト）以外のコンセプト（未選択コンセプト）の中から、次順位コンセプトを探索する探索処理が繰り返し実行される。ここで、次順位コンセプトは、未選択コンセプトのうち、考慮される類似度成分（そのコンセプトによって追加的に説明される類似度成分）を最も大きく増大させるようなコンセプトである。具体的には、或る時点における未選択（未考慮）コンセプトのコンセプトベクトルＵ（未選択コンセプトベクトルＵ）のうち、考慮される類似度成分を最大化するようなコンセプトベクトルＵを探索する探索処理が繰り返し実行される。換言すれば、選択済みコンセプトでは未だ説明されていない類似度成分のうち、新たに（追加的に）説明できる成分を最も大きくする未選択コンセプト（次順位コンセプト）が順次に探索される。

【0180】

詳細には、或る時点で既に選択されたコンセプトベクトルＵにより張られる部分空間の「直交補空間」上で類似度に最も寄与するコンセプトベクトルＵが探索される（後述する式（６）等参照）。そして、当該探索処理が繰り返されることによって、主要コンセプトが決定される。このような点において、第２手法は、コンセプト毎の寄与度を主に用いて主要コンセプトを決定する第１手法と相違する。

【0181】

第２手法によれば、高い独立性を有するコンセプトを主要コンセプトとして抽出することが可能である。換言すれば、コンセプト間の重複を少なくした主要コンセプトを抽出することが可能である。

【0182】

以下、第２手法について詳細に説明する。

【0183】

第２手法では、各特徴ベクトルＦ（詳細には、特徴ベクトルｑ，ｇ）が、特定の射影行列Ｒ（次述）による射影変換後の射影ベクトルに変換される。

【0184】

特定の射影行列Ｒは、特定の射影行列Ｐを用いて（１－Ｐ）で表現される行列（Ｒ＝１－Ｐ）である。

【0185】

特定の射影行列Ｐ（詳細には、Ｐｎとも表記する）は、或る時点で既に考慮されたｎ個（γ個）のコンセプトベクトルＵに基づく射影行列（詳細には、直交射影行列）である。射影行列Ｐ（詳細にはＰｎ）は、ｎ個のコンセプトベクトルＵを横方向に並べた行列Ｂに基づいて、式（３）または式（４）を用いて求められる行列である。なお、値ｎは、上記探索処理が繰り返されるごとに１つずつ増加していく値である。

【0186】

一方、射影行列Ｒ（詳細には、Ｒｎとも表記する）は、射影行列Ｐｎによる射影空間（部分空間）に直交する部分空間（直交補空間）へと各特徴ベクトルＦを射影する行列であり、（１－Ｐｎ）に相当する行列である。換言すれば、射影行列Ｐｎによる射影空間（部分空間）の直交補空間が、射影行列Ｒｎによる射影空間（部分空間）である。なお、射影行列Ｒｎは、直交射影行列でもある。

【0187】

なお、特徴ベクトルＦは、特定の部分空間へ射影する射影行列Ｐ（＝Ｐｎ）を特徴ベクトルＦに作用させたベクトル（ＰＦ）と、当該特定の部分空間の直交補空間へと射影する射影行列Ｒ（＝Ｒｎ＝１－Ｐｎ）を特徴ベクトルＦに作用させたベクトル（ＲＦ）とに分離される。ベクトル（ＰＦ）は、射影行列Ｐ（詳細には行列Ｂ）を構成するｎ個のコンセプトベクトルＵで考慮される成分である、とも表現される。また、ベクトル（ＲＦ）は、射影行列Ｐ（行列Ｂ）を構成するｎ個のコンセプトベクトルＵでは未だ考慮されていない成分である、とも表現される。

【0188】

また、射影行列Ｐが、たとえば単一のコンセプトベクトルＵで張られる部分空間（特定直線）への射影行列である場合、射影行列Ｒは、当該部分空間（特定直線）に直交する部分空間（残りの部分空間）への射影行列である。簡単化のためコンセプトベクトルＵが３次元ベクトルであるとすると、射影行列Ｒは、当該部分空間（特定直線）に直交する部分空間（「平面（当該特定直線に垂直な平面）」）への射影行列である。

【0189】

この第２手法では、次の式（６）で表現される指標値Ｑｎを最大化する新たなコンセプト（詳細には、当該新たなコンセプトに対応する新たなコンセプトベクトルＵｒ）が探索される。具体的には、第（ｎ＋１）順位の新たなコンセプトベクトルＵが探索される。すなわち、次順位コンセプトベクトルＵ（ひいては次順位コンセプト）が探索される。

【0190】

詳細には、未だ選択されていない（残余の）コンセプトベクトルＵｒ（新たな選択対象コンセプトの候補）のそれぞれについて、式（６）に基づいて、指標値Ｑｎが算出される。ここで、「既に選択（考慮）されたコンセプトベクトル」は、行列Ｐｎ（行列Ｒｎに対応する行列）を構成するために利用されたｎ個（１又は２以上）のコンセプトベクトルＵを意味する。また、「未だ選択（考慮）されていないコンセプトベクトル」は、当該行列Ｐｎを構成するために利用されたｎ個のコンセプトベクトルＵ以外のコンセプトベクトルＵ（残余のコンセプトベクトルＵ）を意味する。

【0191】

【数6】

【0192】

式（６）のベクトルＵｒは、新たな選択対象コンセプトの候補に対応する未選択の一のコンセプトベクトルＵ（一の候補コンセプトベクトルＵ）である。

【0193】

ベクトル（Ｒｑ）は、射影行列Ｒを特徴ベクトルｑに対して（左から）作用させたベクトルであり、ベクトルＲｇは、射影行列Ｒを特徴ベクトルｇに対して（左から）作用させたベクトルである。

【0194】

換言すれば、ベクトル（Ｒｑ）は、射影行列Ｐによる射影空間に対する直交補空間へと特徴ベクトルｑを射影したベクトルであり、ベクトル（Ｒｇ）は、射影行列Ｐによる射影空間に対する直交補空間へと特徴ベクトルｇを射影したベクトルである。

【0195】

これらのベクトル（Ｒｑ）およびベクトル（Ｒｇ）は、それぞれ、未だ考慮されていない部分空間への射影ベクトルである。また、ベクトル（Ｒｑ）とベクトルＵｒ（未だ考慮されていない新たなコンセプトベクトル）との内積（Ｒｑ・Ｕｒ）は、まだ考慮されていない部分空間への射影ベクトルのうち、当該ベクトルＵｒによる寄与成分（ベクトルＵｒへの射影成分）を表している。ベクトル（Ｒｑ）とベクトルＵｒ（未だ考慮されていない新たなコンセプトベクトル）との内積（Ｒｇ・ｂ）も同様である。

【0196】

そして、式（６）では、これらの２つの内積同士の積（スカラー（値））が指標値Ｑｎとして求められる。具体的には、ベクトル（Ｒｑ）とベクトルＵｒとの内積（（Ｒｑ）・Ｕｒ）が算出されるとともに、ベクトル（Ｒｇ）とベクトルＵｒとの内積（（Ｒｇ）・Ｕｒ）が算出され、これらの内積同士の積（スカラー積）（式（６）の右辺）が算出される。

【0197】

この指標値Ｑｎは、既に考慮したコンセプトでは未だ考慮されていない部分空間（既に考慮したコンセプトベクトルＵで張られる部分空間に対する「直交補空間」）への射影ベクトル（当該直交補空間へと特徴ベクトルＦを射影したベクトル（ＲＦ））と新たなコンセプトベクトルＵｒとの内積（（ＲＦ）・Ｕｒ）同士の積である。

【0198】

これまでに考慮したコンセプト（１以上のコンセプトベクトルＵ）では未だ考慮できていない部分空間（直交補空間）に各特徴ベクトルＦを射影した各射影ベクトル（ＲＦ）は、各特徴ベクトルＦのうちの未考慮成分（既考慮コンセプトでは未だ考慮できていない成分）を表している。また、当該未考慮成分と新たなコンセプトベクトルＵとの内積は、当該未考慮成分と（当該新たなコンセプトベクトルＵに対応する）新たなコンセプトとの類似性を表している。それ故、指標値Ｑｎは、２つの特徴ベクトルｑ，ｇのうちの未考慮成分と新たなコンセプトとの類似性を表している。すなわち、指標値Ｑｎは、当該未考慮成分のうち、類似性に関する判断根拠について、当該新たなコンセプトで説明できる成分の大きさを示している。換言すれば、指標値Ｑｎは、新たなコンセプト（コンセプトベクトルＵ）が未考慮成分に寄与する度合いを表している。

【0199】

それ故、指標値Ｑｎを最大化するコンセプトベクトルＵは、２つの特徴ベクトルＦに関する未考慮成分との類似度を最大化するコンセプトであり、未考慮成分を最も説明できるコンセプトである。

【0200】

そして、探索処理の結果、未選択のコンセプトベクトルＵｒのうち、当該指標値Ｑｎを最大化するコンセプトベクトルＵｒが、新たなコンセプトベクトルＵ（次順位コンセプトベクトル）として求められる。すなわち、指標値Ｑｎを最大化するコンセプトベクトルＵに対応するコンセプトが、新たな主要コンセプト（次順位（第（ｎ＋１）順位）の主要コンセプト）として選択される。換言すれば、指標値Ｑｎを最大化するクラスタが次順位クラスタとして決定される。

【0201】

さらに、当該新たなコンセプトベクトル（次順位コンセプトベクトル）をも用いた新たな行列Ｐ，Ｒが求められる。具体的には、次順位コンセプトベクトルの追加に伴って、コンセプトベクトルＵの選択数が１つ増大（インクリメント）し、値ｎも１つ増大する。また、コンセプトベクトルＵの選択数等のインクリメントに応じて、射影行列Ｐのランク（階数）は１つ増大し且つ射影行列Ｒのランク（階数）は１つ減少する。換言すれば、射影行列Ｐによる射影空間の次元数は１つ増大し、射影行列Ｒによる射影空間の次元数は１つ減少する。

【0202】

以後、同様にして、所定数（たとえば５個）の主要コンセプトが選択されるまで当該探索処理が繰り返される。これによって、第２手法において、上位数個（上位所定数）の主要コンセプト（詳細には、当該主要コンセプトに対応するコンセプトベクトルＵ）が決定される。

【0203】

より具体的には、第１順位のコンセプトベクトルＵの決定の際には、ゼロ個のコンセプトベクトルＵが選択された状態から開始されればよい。この場合、式（６）において、ベクトル（Ｒｑ）は特徴ベクトルｑ自体であり且つベクトル（Ｒｇ）は特徴ベクトルｇ自体であるとして、ベクトル（Ｒｑ）と候補コンセプトベクトルＵとの内積等が求められればよい。

【0204】

あるいは、第１手法と同様にして、式（５）に基づいて複数のコンセプトベクトルＵについての各類似度Ｓｃが算出され、算出された複数の類似度Ｓｃのうちの最大値に対応するコンセプトベクトルＵが第１順位のコンセプトベクトルＵとして求められてもよい。なお、第１順位のコンセプトを求めるにあたっては、式（６）と式（５）とは等価である（Ｒｑ・Ｕｒ＝ｑ・Ｕｒ＝ｑｓ＝Ｐｑ）。

【0205】

また、たとえば、第１順位のコンセプトベクトルＵがコンセプトベクトルＵ１１０に決定された後、第２順位のコンセプトベクトルＵが決定される際には、行列Ｂは、単一のコンセプトベクトルＵ１１０（縦ベクトル）になる。そして、行列Ｂ（当該縦ベクトル）に基づき行列Ｐ（階数＝１）が求められ（式（３）あるいは式（４）参照）、行列Ｐに基づき行列Ｒが求められる（Ｒ＝１－Ｐ）。そして、式（６）の指標値Ｑｎを最大化する次順位（第２順位）コンセプトベクトルＵ（たとえばコンセプトベクトルＵ４００）が求められる。

【0206】

さらに、その後、第３順位のコンセプトベクトルＵが決定される際には、行列Ｂは、２つのコンセプトベクトルＵ１１０，Ｕ４００が横方向に並べられた行列である。そして、行列Ｂに基づき行列Ｐ（階数＝２）が求められ（式（３）あるいは式（４）参照）、行列Ｐに基づき行列Ｒが求められる（Ｒ＝１－Ｐ）。そして、式（６）の指標値Ｑｎを最大化する次順位（第３順位）コンセプトベクトルＵ（たとえばコンセプトベクトルＵ５１０）が求められる。

【0207】

以降、同様の処理が繰り返され、上位数個（たとえば５個）のコンセプトベクトルＵが決定される。

【0208】

＜別の終了条件＞
なお、ここでは、所定数の主要コンセプトが得られるまで上記探索処理が繰り返されている（換言すれば、所定数の主要コンセプトが得られることが終了条件として設定されている）が、これに限定されず、別の終了条件（終了判定条件）の下で上記探索処理が繰り返されてもよい。

【0209】

たとえば、式（７）の条件を満たすことが終了条件として設定されてもよい。詳細には、値ｎのインクリメント後に式（７）の終了条件が判定されればよい。

【0210】

【数7】

【0211】

式（７）の左辺（（Ｐｑ）・（Ｐｇ））は、上述の類似度Ｓｃと同じである（式（２）参照）。行列Ｐは、被選択コンセプト（選択済みコンセプト）を示すｎ個の被選択コンセプトベクトルＵで張られる部分空間への射影行列である。すなわち、式（７）の左辺は、ベクトルｑ，ｇをそれぞれ当該部分空間へ射影した射影ベクトルの内積（すなわち、ｎ個の被選択コンセプトベクトルＵによる寄与度）を表す。

【0212】

一方、式（７）の右辺は、変換前の両ベクトルｑ，ｇの内積に一定の割合（１－δ）を乗じた値である。ここで、値δは、割合を示す定数（０＜δ＜１）であり、値（１－δ）も、全体に対する割合を示している。

【0213】

たとえば、値δが０．４の場合、値（１－δ）は０．６である。この場合、式（７）の終了条件は、変換後の両ベクトル（Ｐｑ），（Ｐｇ）の内積が、変換前の両ベクトルｑ，ｇの内積の６０％の値よりも大きくなることを意味する。換言すれば、式（７）は、値ｎの増大に伴って徐々に増大する値Ｓｃ（ｎ個のコンセプトベクトルＵに対応する射影行列Ｐを用いて算出される類似度Ｓｃ）が、全体の類似度Ｓｔに対する一定割合（１－δ）の値よりも大きくなった時点で探索処理が終了することを意味する。

【0214】

たとえば、第５順位までのコンセプトベクトルＵが決定された後、第（ｎ＋１）順位（具体的には、第６順位）の新たなコンセプトベクトルＵｒを探索する際に、式（７）の終了条件が成立すると、探索処理の繰り返しが終了する。そして、第５順位までのコンセプトベクトルＵが主要コンセプトベクトルとして決定される。

【0215】

このようにして、コンセプトベクトルＵの個数ｎを予め決定する代わりに、値δ（ひいては、ｎ個のコンセプトベクトルＵで考慮すべき寄与度の割合）を予め決定してもよい。

【0216】

＜コンセプト決定例＞
上述のような第２手法によれば、たとえば、最上位（第１順位）コンセプトＣ１、第２順位コンセプトＣ２、第３順位コンセプトＣ３、第４順位コンセプトＣ４、および第５順位コンセプトＣ５が、この順序で探索されて求められる。

【0217】

より具体的には、コンセプトベクトルＵ１１０（図１８最上段参照）が最上位コンセプトＣ１として特定される（図１１および図１３等も参照）。この場合、２つの画像の類似性に関する最大の判断根拠（学習済みモデル４２０による判断根拠）は、コンセプトベクトルＵ１１０で表現される特徴であることが判る。換言すれば、コンセプトベクトルＵ１１０に対応するクラスタＧ１１０の特徴が、（類似している旨の判断に関する）最大の判断根拠であることが判る。当該クラスタＧ１１０は、「模様多めの白シャツ」を着用している人物の画像群で構成されている（図１１および図１３参照）ことから、当該コンセプトＣ１は、「模様多めの白シャツ」、とも表現できる。

【0218】

また、コンセプトベクトルＵ４００（図２０最上段参照）が第２順位コンセプトＣ２として特定される。換言すれば、コンセプトベクトルＵ４００に対応するクラスタＧ４００の特徴が、第１順位コンセプトＣ１とは別観点の比較的大きな判断根拠であることが判る。当該クラスタＧ４００は、「白い短めのボトムス」を着用している人物の画像群で構成されている（図１１等参照）ことから、当該コンセプトＣ２は、「白い短めのボトムス」、とも表現できる。

【0219】

同様に、コンセプトベクトルＵ５１０（図２０中段参照）が第３順位コンセプトＣ３（「薄い青色のボトムス」）として特定される。また、コンセプトベクトルＵ２００（図１９最上段参照）が第４順位コンセプトＣ４（「薄いピンク色のシャツ」）として特定され、コンセプトベクトルＵ３１０（図１９中段参照）が第５順位コンセプトＣ５（「無地のワインレッド色のシャツ」）として特定される。

【0220】

＜ステップＳ３２：主要コンセプトの説明処理等＞
つぎに、ステップＳ３２（図５）において、ステップＳ３１での解析結果等を表示する処理が実行される。換言すれば、２つの画像が互いに類似する旨の判断に関する判断根拠（説明情報）を提示する処理が実行される。

【0221】

図２５は、上述のような探索処理結果（解析処理結果）の一例（画面表示例）を示す図である。なお、図２５の表示画面６００およびその他の各種の画面６１０，６２０（後述）等は、たとえば表示部３５ｂに表示される。

【0222】

図２５の表示画面６００においては、第２手法に基づく５つの主要コンセプトＣ１～Ｃ５が提示されている。

【0223】

具体的には、表示画面６００のグラフ表示領域６０９において、式（２）（より詳細には式（５））に基づき算出された類似度Ｓｃが、グラフ化されて示されている。上位数個（ここでは５個）のコンセプトについて、画像ペア相互間における類似性（ここではクエリ画像とギャラリー画像との類似性）に対する寄与度が算出され、当該寄与度が表示されている。なお、寄与度は、数値（０．１８等）で表示されてもよく、図２５に示されるようにグラフ化して（数値を棒グラフの長さへと変換した状態で）表示されてもよい。

【0224】

ここでは第２手法に基づき、第１順位から第５順位の５つの主要コンセプトＣ１～Ｃ５が求められている。また、これら５つの主要コンセプトＣ１～Ｃ５のそれぞれについて類似度（寄与度）Ｓｃが示されている。さらに、５つの主要コンセプトＣ１～Ｃ５以外のコンセプトによる寄与度（残りの寄与度）も（「その他」欄）にて示されている。当該残りの寄与度は、たとえば、５つのコンセプトＣ１～Ｃ５を被選択コンセプトとして算出した類似度Ｓｃ（式（２）参照）を、全体の寄与度Ｓｔ（式（１）参照）から差し引くことによって算出される。

【0225】

特に、当該５つのコンセプトＣ１～Ｃ５は、この順序で高い順位から低い順位へと（降順に）並ぶように、主要コンセプトとして抽出されている。この順序Ｃ１～Ｃ５は、第２手法に基づく順序であり、式（５）で算出された類似度Ｓｃに基づく順位（第１手法に基づく順位）とは異なる順序である。

【0226】

仮に第１手法が用いられる場合には、この５つのコンセプトの中では、式（５）で算出された類似度Ｓｃに基づき、コンセプトＣ１，Ｃ２，Ｃ４，Ｃ３，Ｃ５の順序（コンセプトごとの類似度の降順）で抽出される。これに対して、第２手法では、コンセプトＣ１，Ｃ２，Ｃ３，Ｃ４，Ｃ５の順序で抽出されている。すなわち、コンセプトＣ３に関する式（５）による類似度Ｓｃは、コンセプトＣ４に関する式（５）による類似度Ｓｃよりも小さいにもかかわらず、コンセプトＣ３はコンセプトＣ４よりも上位のコンセプトとして抽出されている。

【0227】

また、第１手法では、式（５）で算出された類似度Ｓｃに基づき、たとえば第１順位のコンセプトＣ１（クラスタＧ１１０に対応するコンセプトベクトルＵ１１０）の下位コンセプト（下位コンセプトベクトル）等も比較的上位のコンセプトとして抽出され得る。詳細には、（クラスタＧ１１０を代表する）コンセプトベクトルＵ１１０のみならず、その下位の（クラスタＧ１１１，Ｇ１１２（図１１参照）を代表する）コンセプトベクトルＵ１１１，Ｕ１１２もが、主要なコンセプトベクトル（コンセプト）として抽出され得る。コンセプトベクトルＵ１１１がコンセプトベクトルＵ１１０に類似する場合、コンセプトベクトルＵ１１１に関する類似度Ｓｃも、コンセプトベクトルＵ１１０と同様に高い値になる可能性があるからである。なお、コンセプトベクトルＵ１１１は、クラスタＧ１１０の下位クラスタＧ１１１を代表するコンセプトベクトルであり、コンセプトベクトルＵ１１２は、クラスタＧ１１０の下位クラスタＧ１１２を代表するコンセプトベクトルである。

【0228】

一方、第２手法では、上述のように、或る時点で既に選択（考慮）されたコンセプトベクトル（たとえば、コンセプトベクトルＵ１１０）以外のコンセプトベクトルのうち、考慮される類似度成分を最も大きく増大させるようなコンセプトベクトルが探索される。その結果、コンセプトベクトルＵ１１０とは比較的大きく異なる（高い独立性を有する）他のコンセプトベクトルＵが、主要なコンセプトベクトル（主要コンセプト）として抽出され易くなる。逆に言えば、クラスタＧ１１０の下位クラスタＧ１１１，Ｇ１１２をそれぞれ代表するコンセプトベクトルＵ１１１，Ｕ１１２は、主要なコンセプトベクトル（主要コンセプト）としては抽出され難くなる。図２５の例では、コンセプトベクトルＵ１１１，Ｕ１１２は、上位５つの主要コンセプトベクトル（主要コンセプト）としては抽出されていない。

【0229】

このように、第２手法によれば、高い独立性を有するコンセプトを主要コンセプトとして抽出することが可能である。換言すれば、コンセプト間の重複を少なくした主要コンセプトを抽出することが可能である。

【0230】

また、図２５の表示画面６００は、グラフ表示領域６０９に加えて、ボタン６０１～６０５等を有している。各ボタン６０１～６０５には、対応するクラスタＧの識別子（「Ｇ１１０」等）が表示されている。画像処理装置３０およびユーザは、当該識別子（識別ＩＤ）によって、各コンセプトＣ１～Ｃ５等の各対応クラスタを一意に特定（識別）することが可能である。

【0231】

また、各コンセプトの詳細情報は次のようにして表示等される。

【0232】

表示画面６００のグラフ表示領域６０９内の各コンセプトＣ１～Ｃ５の文字部分、あるいは当該各文字部分の直下に設けられたボタン６０１～６０５がマウス操作等によって押下されると、対応するコンセプトに関する詳細情報画面が表示される。

【0233】

たとえば、コンセプトＣ１の直下のボタン６０１が押下されると、詳細情報画面６１０（図２６参照）が表示される。また、コンセプトＣ１の直下のボタン６０２が押下されると、詳細情報画面６２０（図２７参照）が表示される。その他のボタンについても同様である。

【0234】

図２６は、コンセプトＣ１に関する詳細情報の表示画面６１０を示す図である。また、図２７は、コンセプトＣ２に関する詳細情報の表示画面６２０を示す図である。他のコンセプトＣ３～Ｃ５等についても同様に、詳細情報の表示画面（詳細情報画面とも称する）が存在する。以下では、コンセプトＣ１に関する詳細情報の表示画面６１０を中心に説明する。

【0235】

表示画面６１０は、領域６１１～６１４およびボタン６１５を有している。

【0236】

領域６１１（上側領域とも称する）は、当該コンセプトＣ１の対応クラスタＧ１１０を構成する複数の画像（コンセプト構成画像）の表示領域である。

【0237】

領域６１２（下側領域とも称する）は、領域６１１に表示された複数の画像のそれぞれについて、学習済みモデル４２０によって特徴的な領域であると判定された領域（発火領域）を示すヒートマップ画像を示す図である。領域６１２においては、上側の領域６１１の各画像の直下に、当該各画像に対応するヒートマップ画像がそれぞれ表示されている。下側領域６１２のヒートマップによって各人物のシャツ部分に学習済みモデル４２０が着目していることが知得される。

【0238】

領域６１３は、「コンセプト可視化画像」（後述）の表示領域である。コンセプト可視化画像は、クラスタＧ１１０のコンセプト（コンセプトベクトル）を可視化した画像である。コンセプト可視化画像は、クラスタＧ１１０の代表ベクトル（コンセプトベクトル）に対応する仮想的な入力画像であり、Feature Visualization法（後述）等を用いて生成される。コンセプト可視化画像は、クラスタＧ１１０の抽象的概念（抽象的コンセプト）を表現した画像である、とも表現できる。

【0239】

領域６１４は、クラスタＧ１１０の属性情報（コンセプト名称等）の表示領域である。後述するように、画像処理装置３０は、ユーザからの操作入力（クラスタの属性情報の入力（文字入力等））を受け付けると、当該属性情報を記憶部３２に格納するとともに、当該属性情報（コンセプト名称等）を領域６１４に表示する。なお、図２６では、当該操作入力後の表示状態（文字列「コンセプトＣ１：模様多めの白シャツ」）が示されている。当該操作入力前（文字列「模様多めの白シャツ」の入力前）においては、たとえば文字列「コンセプトＣ１」のみが領域６１４に表示される。

【0240】

ボタン６１５は、関連クラスタの情報を表示する旨の指示を受け付けるボタンである。ボタン６１５が押下されると、図１１上段のようなデンドログラム（特にコンセプトＣ１付近）、および／または図１１下段（あるいは図１３）のようなベン図が表示される。これにより、コンセプトＣ１に対応するクラスタＧ１１０に対する関連クラスタ（詳細には、同位クラスタＧ１２０，Ｇ２００、上位クラスタＧ１００、下位クラスタＧ１１１，Ｇ１１２等）の存在および包含関係等が表示される。さらに、デンドログラムあるいはベン図における各関連クラスタの対応位置をマウスでクリックすることによって、当該関連クラスタ（たとえば同位クラスタＧ１２０）に関する詳細情報表示画面が表示される。なお、これに限定されず、当該マウスクリックに応じて、図１３のような表示画面が表示されても良い。詳細には、当該表示画面において、クラスタＧ１１０の関連クラスタ（Ｇ１１０，Ｇ１２０，Ｇ１００，Ｇ２００等）をそれぞれ構成する各画像群が、クラスタＧ１１０付近のベン図（関連クラスタの上下関係（包含関係）等を示す図）とともに表示されてもよい。

【0241】

ユーザは、図２６の表示画面６１０から、コンセプトＣ１の詳細情報を知得することができる。

【0242】

具体的には、下側領域６１２のヒートマップによって各人物のシャツ部分に学習済みモデル４２０が着目していることが知得される。

【0243】

また、上側領域６１１の複数の画像によって、コンセプトＣ１（詳細には、その対応クラスタ）がどのような画像で構成されているのかを視覚的に知得することが可能である。

【0244】

さらに、領域６１３のコンセプト可視化画像によって、コンセプトＣ１を抽象的に可視化した画像を知得することが可能である。

【0245】

また、領域６１４の属性情報（詳細には、コンセプト名称およびユーザ備考情報等）によって、言語的表現によってコンセプトの内容を知得することが可能である。

【0246】

ここにおいて、クラスタＧ１１０のコンセプト名称は、次のようにしてユーザによって把握されて入力等されればよい。なお、他のクラスタのコンセプト名称についても同様である。

【0247】

具体的には、まず、ユーザは、クラスタＧ１１０に関する詳細情報画面６１０（図２６）を視認する。詳細情報画面６１０（詳細には、その上側領域６１１）には、クラスタＧ１１０を構成する画像群（図１３も参照）が表示される。

【0248】

その後、ユーザは、ボタン６１５を押下して、図１１下段のようなベン図を表示させる。そして、ユーザは、当該ベン図を参照しつつ、当該ベン図内のクラスタＧ１２０の位置を押下すること等によって、クラスタＧ１１０の同位クラスタＧ１２０に関する詳細情報画面（図２６と同様の詳細情報画面）を表示させる。クラスタＧ１２０に関する詳細情報画面には、クラスタＧ１２０を構成する画像群（図１３参照）が表示される。

【0249】

また、必要に応じて、同様の操作によって、クラスタＧ１１０の上位クラスタＧ１００に関する詳細情報画面をも表示させる。

【0250】

ユーザは、これらの詳細情報画面に含まれる画像群を相互に比較検討することによって、各クラスタの特徴を把握することが可能である。

【0251】

たとえば、クラスタＧ１１０を同位クラスタＧ１２０と比較すること等によって、両クラスタＧ１１０，Ｇ１２０の特徴が把握される。具体的には、クラスタＧ１２０は、「模様少なめの白シャツ」を着用した人物の画像で構成されており、クラスタＧ１１０は、「模様多めの白シャツ」を着用した人物の画像で構成されていることが判る。

【0252】

また、上位クラスタＧ１００は、両クラスタＧ１１０，Ｇ１２０を包含するクラスタであることから、「模様有りの白シャツ」であることが判る。

【0253】

さらに、上位クラスタＧ１００とその同位クラスタＧ２００とを比較すること等によって、両クラスタＧ１００，Ｇ２００の特徴が把握される。具体的には、クラスタＧ１００は、「模様有り白シャツ」を着用した人物の画像で構成されており、クラスタＧ２００は、「薄いピンク色のシャツ」を着用した人物の画像で構成されていることが判る。換言すれば、クラスタＧ１００は「薄いピンク色以外のシャツ」であることが判る。

【0254】

これらの検討によって、ユーザは、クラスタＧ１１０のコンセプト名称として「模様多めの白シャツ」を決定することができる。そして、ユーザは、詳細情報画面６１０の領域６１４に「模様多めの白シャツ」の文字列を入力する。これに応じて、画像処理装置３０は、このような入力操作を受け付け、クラスタＧ１１０のコンセプト名称として「模様多めの白シャツ」を記憶部３２に登録する。また、その後に詳細情報画面６１０が表示される際には、領域６１４に当該コンセプト名称「模様多めの白シャツ」が表示される。

【0255】

なお、これに限定されず、ユーザは、図１３のような表示画面を視認することによって、これらの情報を纏めて取得して、クラスタＧ１１のコンセプト名称を把握等してもよい。

【0256】

また、このようなコンセプト名称の把握および入力等は、ユーザの所望のクラスタおよびその関連クラスタのみ（すなわち比較的少数のクラスタのみ）について、この時点（ステップＳ３２）等に実行されればよい。ただし、これに限定されず、ステップＳ２３の直後等において、全てのクラスタについて当該処理が実行されてもよい。

【0257】

＜コンセプト可視化画像＞
ここで、Feature Visualization法を用いたコンセプト可視化画像の生成処理について説明する。

【0258】

図２８は、Feature Visualization法を用いたコンセプト可視化画像の生成処理の概略を示す図である。Feature Visualization法は、ニューラルネットワークの或る中間層における特定の発火（特定の中間出力）がどのような入力に応じて発生するのかを調べる手法である。ここでは、中間層からの中間出力に代えて、出力層からの最終出力（すなわち特徴ベクトルＦ）が採用される。すなわち、学習済みモデル４２０からの出力ベクトル（特徴ベクトルＦ）がどのような入力画像に応じて発生するのか、が調べられる。

【0259】

具体的には、図２８に示されるように、学習済みモデル４２０から出力された出力ベクトル（すなわち特徴ベクトルＦ）とターゲットベクトル（ここでは、或るコンセプトベクトルＵ）との間の距離ｄ（Ｆ，Ｕ）を最小化する入力画像が、コンセプト可視化画像として求められる。特徴ベクトルＦは、入力画像の画像ベクトルＩの関数（Ｆ（Ｉ））である。なお、ここでは、入力画像を画像ベクトルＩ（入力画像にて２次元に配列されていた画素値を１次元に配列し直したベクトル）で表している。また、距離ｄ（Ｆ，Ｕ）等を単に距離ｄ等とも略記する。

【0260】

より具体的には、この距離ｄの増分δｄを最小化する増分δＩを（機械学習で獲得された）学習済みモデル４２０の内部パラメータ等を使って求める処理が繰り返されることによって、入力画像ベクトルＩ（コンセプトベクトルＵの特徴を反映したコンセプト可視化画像）が求められる。

【0261】

距離ｄの増分δｄは、次の式（８)で表現される。ここで、ベクトルＨは、ニューラルネットワークの各中間層の重みと活性化関数とにより計算される定数ベクトル（各成分が定数のベクトル）である。なお、式（８）は、画像ベクトルＩの第ｋ成分である値Ｉｋ（スカラー）の増分δＩｋと距離ｄ（Ｆ（Ｉｋ），Ｕ）の増分δｄとの関係（学習済みモデル４２０の勾配情報等で表現される）を全成分ｋについて総和をとること等によって導出される。この距離ｄ（Ｆ（Ｉｋ），Ｕ）は、当該第ｋ成分Ｉｋを有する画像に対応する特徴ベクトルＦ（Ｉｋ）と、コンセプトベクトルＵとの距離である。

【0262】

【数8】

【0263】

式（８）に示されるように、増分δｄは、ベクトルＨとベクトルδＩ（ベクトルＩの増分ベクトル）との内積で表現される。

【0264】

また、距離ｄを最小化する処理は、増分δｄを最も小さな値（そのノルムが最も大きな負の値（最大負値とも称する））にすることを繰り返すことで実現される。より詳細には、同じノルム（大きさ）を有するδＩのうち増分δｄを最小化するδＩを、繰り返し求めることで、当該処理が実現される。このような処理は、どのような向きのδＩが距離ｄを最小化できる（増分δｄを最小化できる）か、を繰り返し求めることと等価である。

【0265】

増分δｄを最小化するδＩの向きは、ベクトルＨとの内積を最小化する（すなわち、最大ノルムの負の値にする）する向きである。したがって、増分δｄを最小化する（最大ノルムの負の値にする）δＩは、所定ノルム（大きさ）を有するδＩのうち、定数ベクトルＨの向きとは逆の向きのベクトル（cosθ＝－１のときのδＩ）として求められる。ここで、角度θは、両ベクトルＨ，δＩのなす角度である。

【0266】

そして、そのようなベクトルδＩをベクトルＩに加算する操作（次式（９）参照）が多数回（たとえば何千回）に亘って繰り返される。なお、ベクトルＩの初期値（初期ベクトル）としては、ランダムノイズ画像（あるいは適宜の入力画像（コンセプトベクトルＵに対応するクラスタに属する入力画像等））に相当するベクトル等が用いられればよい。また、εは、所定の定数である。

【0267】

【数9】

【0268】

このような処理によって、特徴ベクトルＦとターゲットベクトル（コンセプトベクトルＵ）との間の距離ｄを最小化する入力画像ベクトルＩ（すなわち、入力画像ベクトルＩを２次元配列に並べ替えた入力画像）が求められる。

【0269】

たとえば、コンセプトＣ２の「コンセプト可視化画像」（図２７の領域６２３参照）は、クラスタＧ４００（「白い短めのボトムス」）のコンセプトベクトルＵ４００（図２０の最上段参照）に基づいて、Feature Visualization法を用いて生成された画像である。このコンセプト可視化画像は、当該画像内の中央付近（太い破線の円で示した領域付近）に、「白い短めのボトムス（白い短パン）」のような部分を有している。このような画像によって、コンセプトベクトルＵ４００が、「白い短めのボトムス」という特徴を反映していることが示される。

【0270】

また、コンセプトＣ１の「コンセプト可視化画像」（図２６の領域６１３参照）は、クラスタＧ１１０（「模様多めの白シャツ」）のコンセプトベクトルＵ１１０（図１８の最上段参照）に基づいて、Feature Visualization法を用いて生成された画像である。このコンセプト可視化画像は、画像内の中央やや上寄りの箇所に、「模様が付されたシャツ」のような部分を有している。このような画像によって、コンセプトベクトルＵ４００が、「模様有り（模様多め）のシャツ」という特徴を反映していることが示される。

【0271】

なお、各コンセプトの「コンセプト可視化画像」のみから、ユーザが当該各コンセプトの内容を完全に把握することは必ずしも容易ではない。コンセプト可視化画像は、補助的に用いられることが好ましい。

【0272】

＜１－１１．実施形態の効果等＞
上記実施形態によれば、複数の特徴ベクトルＦに対する階層化クラスタリング処理を実行することにより階層化された複数のクラスタが生成される（ステップＳ２２（図４））。そして、複数のクラスタのうちの特定クラスタに対応するベクトル（詳細にはコンセプトベクトルＵ）が、特定クラスタのコンセプトとして抽出される（ステップＳ２３）。

【0273】

したがって、階層化された特定クラスタに対応するコンセプトを、その代表ベクトル（コンセプトベクトルＵ）によって、管理および把握することが可能である。また、当該コンセプトベクトルＵを用いた解析処理等を実行することによって、画像の類似性の根拠をコンセプトベースで説明すること等が可能になる。

【0274】

また、上記実施形態によれば、階層化クラスタリング処理により生成された複数のクラスタのうちの特定クラスタ（Ｇ１１０等）に対応する２以上の入力画像が、特定クラスタのコンセプト（特定コンセプト）を表す画像群として決定され表示されている（図１３、図２６等参照）。換言すれば、当該特定クラスタを構成する２以上の入力画像が、特定クラスタのコンセプトに対応する画像群として表示されている。たとえば、クラスタＧ１１０に対応する複数の入力画像（図２６の領域６１１参照）が、クラスタＧ１１０のコンセプトに対応する画像群として表示されている。当該画像群は、相互に類似する画像群（類似画像群）であり、特定クラスタのコンセプトを表現する画像群であることから、コンセプト表現用類似画像群とも称される。これによれば、当該特定クラスタがどのようなコンセプトを有するのかを視覚的にユーザに提示することが可能である。

【0275】

また、上記実施形態によれば、特定クラスタの類似画像群がそれぞれのヒートマップ（領域６１２（図２６）等参照）とともに表示されている。したがって、特定クラスタに関する画像内での発火領域（特徴領域）をヒートマップで特定した上で、さらに当該特定クラスタの特徴を概念的に捉えることが可能である。

【0276】

さらに、特定クラスタの類似画像群がコンセプト可視化画像（領域６１３（図２６）等参照）とともに表示されている。したがって、特定クラスタの特徴を当該類似画像群によって概念的（特に論理的）に捉えつつ、特定クラスタの特徴をコンセプト可視化画像によって視覚的に把握することが可能である。

【0277】

また、上記実施形態においては、特に階層化された複数のクラスタに対応する複数のコンセプト（詳細には、複数のコンセプトベクトルＵ）が抽出される。したがって、複数のコンセプトの相互間での上位下位関係（親子関係）および（包含関係）等を把握することが可能である。

【0278】

また、上記実施形態によれば、ステップＳ３１（図５）において２つの画像（第１画像および第２画像）の類似性を判断するにあたり、複数の候補コンセプトについて、第１画像と第２画像との類似性に対する寄与度が算出される。したがって、画像ペアの類似度に対する各コンセプトの寄与度（重要度）を把握することが可能である。

【0279】

なお、上記実施形態においては、多数のコンセプト（候補コンセプト）のそれぞれについて寄与度が算出され、当該寄与度に基づき並べ替え等を伴って上位数個の主要コンセプトが決定されている。しかしながら、これに限定されず、たとえば、ユーザが（その関心事項等に基づき）指定した少なくとも１つのコンセプト（指定コンセプト）についてのみ、２つの画像の類似性に対する寄与度が算出されてもよい。詳細には、当該指定コンセプトに対応するコンセプトベクトルＵ（指定コンセプトベクトル）についてのみ、２つの画像の類似性に対する寄与度が算出されてもよい。これによれば、任意に指定された指定コンセプトがどの程度、２つの画像の類似性に寄与しているか（影響しているか）をユーザが知得することが可能である。

【0280】

また、上記実施形態においては、図２５に示されるように、２つの画像（第１画像および第２画像）の類似性の根拠が、上位所定数（１個から数個）の各コンセプトの寄与度（数値）によって表示されている。したがって、判断根拠に関する客観的な評価基準を提供することが可能である。

【0281】

特に、２つの画像に対応する２つの特徴ベクトルＦを、各コンセプトの固有のコンセプトベクトルＵで張られる部分空間（直線）へと射影した２つの射影ベクトル同士の内積が、当該各コンセプトの寄与度Ｓｃ（式（５）参照）として算出されている。したがって、各コンセプトの類似性に関する寄与度が客観的に提示され得る。

【0282】

また、図２５においては、階層化された複数のコンセプトの中で、コンセプトＣ１の寄与度ＳｃがコンセプトＣ２の寄与度Ｓｃよりも高いことが提示されている。これによれば、画像処理装置３０による類似性の判断において、コンセプトＣ１の特徴（「模様多めの白シャツ」）が、コンセプトＣ２の特徴（「白い短めのボトムス」）よりも大きく寄与していることが判る。

【0283】

換言すれば、特定の特徴を有する「ボトムス」を着用している点よりも、特定の特徴を有する「シャツ」を着用している点が重視されて「類似判断」（２つの画像が互いに類似する旨の判断）がなされていることが把握される。

【0284】

また、図２５においては、コンセプトＣ１（クラスタＧ１１０）が最も高い寄与度Ｓｃを有するコンセプトとして判定されている。このことは、クラスタＧ１１０の寄与度Ｓｃがその同位クラスタＧ１２０（図１１参照）の寄与度Ｓｃよりも大きいことをも示している（図１２の左向き矢印参照）。すなわち、クラスタＧ１１０の特徴（「模様多めの白シャツ」）が、クラスタＧ１２０の特徴（「模様少なめの白シャツ」）よりも大きく寄与している。換言すれば、「模様少なめ（の白シャツ）」の特徴ではなく「模様多め（の白シャツ）」の特徴によって類似性が判断されていることが判る。謂わば、シャツの模様（柄）が多い点に特に特徴を見い出して、「類似判断」がなされていることが把握される。

【0285】

また、コンセプトＣ１（クラスタＧ１１０）が最大寄与度を有することは、クラスタＧ１１０の寄与度Ｓｃがその上位クラスタＧ１００（図１１参照）の寄与度Ｓｃよりも大きいことを示している（図１２の下向き矢印参照）。すなわち、クラスタＧ１００の特徴（「模様有りの白シャツ」）よりも詳細な特徴（下位の特徴）であるクラスタＧ１１０の特徴（「模様多めの白シャツ」）が、大きく寄与していることが示されている。換言すれば、単に「模様有りの白シャツ」ではなく「模様多め」であることにも基づいて類似性が判断されていることが判る。

【0286】

また、コンセプトＣ１（クラスタＧ１１０）が最大寄与度を有することは、クラスタＧ１１０の寄与度Ｓｃがその下位クラスタＧ１１１，Ｇ１１２（図１１参照）の各寄与度Ｓｃよりも大きいことをも示している（図１２の上向き矢印参照）。すなわち、クラスタＧ１１０の特徴（「模様多めの白シャツ」）が、クラスタＧ１１１の特徴（「模様多めの白シャツ（且つその模様が直線的なもの）」）よりも大きく寄与していることが示されている（図１３も参照）。また、クラスタＧ１１０の特徴（「模様多めの白シャツ」）がクラスタＧ１１２の特徴（「模様多めの白シャツ（且つその模様が曲線的なもの）」）よりも大きく寄与していることも示されている。すなわち、模様の種類（直線的か曲線的か）までは考慮されずに、類似性が判断されていることが判る。

【0287】

＜１－１２．第１実施形態の変形例＞
なお、上記実施形態では、特定クラスタに対応するベクトル（コンセプトベクトルＵ）が当該クラスタのコンセプトとして抽出されているが、これに限定されない。

【0288】

たとえば、第１実施形態において、特定クラスタに対応する「部分空間」が当該特定クラスタのコンセプト（当該コンセプトを表す特定部分空間）として抽出されてもよい。換言すれば、特定クラスタに対応する「部分空間」が当該特定クラスタのコンセプト表現（部分空間によるコンセプト表現）として抽出されてもよい。

【0289】

詳細には、当該特定クラスタ自体のコンセプトベクトルＵで張られる部分空間（具体的には、コンセプトベクトルＵに対応する射影行列Ｐによる射影後の直線（コンセプトベクトルＵを含む直線））が、当該特定クラスタのコンセプトとして抽出されてもよい。たとえば、クラスタＧ１００（図１１下段参照）自体のコンセプトベクトルＵ１００（図１８最下段参照）で張られる部分空間（すなわち、コンセプトベクトルＵ１００を含む直線）が、クラスタＧ１００のコンセプトとして抽出されてもよい。

【0290】

あるいは、特定クラスタに包含される所定数（たとえば２つ）の下位クラスタにそれぞれ対応する所定数のコンセプトベクトルＵで張られる部分空間が、当該特定クラスタのコンセプト（コンセプト表現）として抽出されてもよい。たとえば、クラスタＧ１００（図１１下段参照）の２つの下位クラスタＧ１１０，Ｇ１２０にそれぞれ対応する２つのコンセプトベクトルＵ１１０，Ｕ１２０（図１８参照）で張られる部分空間（平面）が、クラスタＧ１００のコンセプトとして抽出されてもよい。

【0291】

特に、第１実施形態では、２つの画像の類似性判断において、２つの画像が互いに類似する旨の判断（「類似判断」）の根拠コンセプトとして、特定のコンセプトベクトルＵが抽出されているが、これに限定されない。たとえば、当該特定のコンセプトベクトルＵで張られる部分空間（直線）等が類似判断の根拠コンセプトとして抽出されてもよい。

【0292】

また、次述する第２実施形態においても同様である。特に、第２実施形態では、２つの画像が互いに類似していない旨の判断（「非類似判断」）の根拠コンセプトとして、特定のコンセプトベクトルＵが抽出される（次述）が、これに限定されない。たとえば、当該特定のコンセプトベクトルＵで張られる部分空間（直線）等が「非類似判断」の根拠コンセプトとして抽出されてもよい。

【0293】

＜２．第２実施形態＞
上記第１実施形態では、推論結果に関する説明情報の生成処理として、２つの画像が互いに類似する旨の判断（「類似判断」）の根拠を説明する処理等（図５）について例示した。しかしながら、これに限定されず、たとえば、推論結果に関する説明情報の生成処理として、２つの画像が互いに類似していない旨の判断（「非類似判断」）の根拠を説明する処理等（図６参照）が行われてもよい。換言すれば、「類似性」の根拠として、類似判断の根拠ではなく、非類似判断の根拠が説明されてもよい。第２実施形態では、このような態様について説明する。以下では、第１実施形態との相違点を中心に説明する。第２実施形態では、ステップＳ３０（図５）に代えてステップＳ４０（図６）が実行される。

【0294】

図２９は、「非類似判断」の根拠を求める処理（ステップＳ４１）を示す概念図である。図２９においては、図示の都合上、全空間が３次元空間で捨象されて表現されている。コンセプトベクトルＵはｚ軸と同じ向きを有しており、ｚ方向に伸びる直線は、コンセプトベクトルＵで張られる部分空間を示している。また、ｘｙ平面（ｚ＝０の平面）は、コンセプトベクトルＵで張られる部分空間の直交補空間を示している。また、ここでは、２つの特徴ベクトルｑ，ｇは、互いに類似していない２つの画像に対応する特徴ベクトルＦである。図２９では、２つの特徴ベクトルＦの向きが大きく互いに異なること、すなわち、２つの画像が互いに類似していないことが示されている。

【0295】

図２９に示されるように、特定コンセプト（特定クラスタ）に対応する特定コンセプトベクトルＵで示される部分空間（直線）の直交補空間（ここではコンセプトベクトルＵに垂直な平面）を想定する。

【0296】

特徴ベクトルＦを当該直交補空間へ射影した射影ベクトル（ＲＦ）（具体的には、Ｒｑ，Ｒｇ）は、特徴ベクトルＦのうち、コンセプトベクトルＵで説明された成分を除いた成分（コンセプトベクトルＵでは未だ説明されていない成分（残留成分））を有している。このような２つの射影ベクトル（ＲＦ）が互いに近いということは、未だ説明されていない成分（残留成分）が類似すること（ひいては、当該残留成分は、２つの特徴ベクトルＦの類似性判断（非類似判断）には大きな影響を及ぼさないこと）を意味する。逆に言えば、コンセプトベクトルＵで既に説明された成分が２つの特徴ベクトルＦの非類似判断に大きな影響を及ぼすことを意味する。

【0297】

このような特性を利用し、第２実施形態では、２つの特徴ベクトルｑ，ｇを当該直交補空間に対して射影した射影ベクトルＲｑ，Ｒｇ同士の距離が小さい（特に非常に近い）場合、当該特定コンセプト（に対応する特定コンセプトベクトルＵ）が、「非類似判断の根拠コンセプト」として抽出される。より詳細には、その部分空間（特定コンセプトベクトルＵで張られる部分空間（直線））の直交補空間（平面等）への射影ベクトルＲｑ，Ｒｇ同士の距離が相対的に（他のコンセプトベクトルＵよりも）小さな特定コンセプトベクトルＵが、「非類似判断の根拠コンセプト」として抽出される。以下、より具体的に説明する。

【0298】

特定コンセプト（特定クラスタ）に対応する特定コンセプトベクトルＵで示される部分空間への射影行列が行列Ｐ（式（３）等参照）で表されるとき、当該部分空間の直交補空間への射影行列Ｒは（１－Ｐ）で表される。したがって、特徴ベクトルｑを当該直交補空間に射影した射影ベクトルはベクトル（（１－Ｐ）ｑ）であり、特徴ベクトルｇを当該直交補空間に射影した射影ベクトルはベクトル（（１－Ｐ）ｇ）である（図２９参照）。

【0299】

これらの射影ベクトル同士の距離は、｜（（１－Ｐ）ｑ）－（（１－Ｐ）ｇ）｜であり、当該距離の２乗を評価値Ｓｄ１として定義する（式（１０）参照）。

【0300】

【数10】

【0301】

上述したように、行列Ｐ（式（３）等参照）は、行列ＢひいてはコンセプトベクトルＵに応じて相違する行列である。したがって、評価値Ｓｄ１を最小化する行列Ｐを求めることは、評価値Ｓｄ１を最小化するコンセプトベクトルＵを求めることと等価である。それ故、この評価値Ｓｄ１を最小化するコンセプトベクトルＵが、「非類似判断の根拠コンセプト」として抽出される。

【0302】

また、評価値Ｓｄ１を最小化することは、式（１１）の評価値Ｓｄ２を「最大化」することと等価である。より簡易な評価値Ｓｄ２が用いられてもよい。

【0303】

【数11】

【0304】

このようにして、評価値Ｓｄ２（あるいはＳｄ１）が用いられて、「非類似判断の根拠コンセプト」として主要コンセプトベクトルＵが求められる。

【0305】

また、その際には、上述の第１手法に類似する手法（第３手法とも称する）、あるいは第２手法に類似する手法（第４手法とも称する）が用いられればよい。

【0306】

具体的には、第３手法においては、まず、コントローラ３１は、単一のコンセプトベクトルＵに関する評価値Ｓｄ２（上述の式（１１））を、複数の候補コンセプトベクトルＵのそれぞれについて求める。次に、コントローラ３１は、複数の候補コンセプトベクトルＵに対応する複数のコンセプトをその評価値Ｓｄ２の大きい順に並べ替える。そして、コントローラ３１は、上位数個のコンセプトを、２つの画像の「非類似判断の根拠コンセプト」（特にその主要なコンセプト）として決定する。

【0307】

一方、第４手法においては、或る時点（ｉ回目の繰り返し処理時点）で既に選択（考慮）されたコンセプト以外のコンセプト（未選択コンセプト）のうち、評価値Ｓｄ２を最大化（あるいは評価値Ｓｄ１を最小化）するコンセプトを探索する探索処理が繰り返し実行される。当該探索処理は、所定の終了条件が成立するまで（たとえば所定数の主要コンセプトが決定されるまで）繰り返し実行される。なお、繰り返しに伴ってコンセプトベクトルＵの選択数が１つずつ増加していき、これに応じて、射影行列Ｐのランク（階数）が１つずつ増大していく。

【0308】

また、各手法において、式（１２）で示される評価値Ｄも算出され得る。この評価値Ｄは、「似ていない」判断に関して或る時点までに選択されたｎ個のコンセプト（コンセプトベクトルＵ）によっては未だ考慮されていない成分（類似性評価に関する残留成分）を意味する。評価値Ｄは、具体的には、「似ていない」判断（非類似判断）の度合い（１－ｑ・ｇ）から、ｎ個のコンセプトで説明される「似ていない」判断の度合い（Ｓｄ２／２）を差し引いた値（残差とも称する）として算出される。ただし、Ｐが単位行列（フルランク）（β×βの単位行列）になる場合（すなわち全体空間に対応するコンセプト（コンセプトベクトルＵ）が考慮された場合）に評価値Ｄがゼロになるように、係数１／２が評価値Ｓｄ２に乗じられて調整されている。

【0309】

【数12】

【0310】

なお、第４手法においては、この評価値Ｄが（評価値Ｓｄ２等に代えて）用いられてもよい。すなわち、或る時点で既に選択（考慮）されたコンセプト以外のコンセプト（未選択コンセプト）のうち、評価値Ｄを最小化するコンセプトを探索する探索処理が実行されてもよい。当該探索処理は、所定の終了条件が成立するまで（たとえば所定数の主要コンセプトが決定されるまで）繰り返し実行される。なお、繰り返しに伴ってコンセプトベクトルＵの選択数が１つずつ増加していき、これに応じて、射影行列Ｐのランク（階数）が１つずつ増大していくとともに、評価値Ｄは徐々に減少していく。

【0311】

以上のような第３手法あるいは第４手法等によって、複数のクラスタにそれぞれ対応する複数のコンセプトベクトルＵのうちの特定のコンセプトベクトルＵが、「非類似判断の根拠コンセプト」として抽出される。当該特定のコンセプトベクトルＵは、それ（その特定のコンセプトベクトルＵ）に対応する部分空間の直交補空間への各特徴ベクトルｑ，ｇの射影ベクトル（Ｒｑ），（Ｒｇ）の相互間の距離を最小化するコンセプトベクトルである。

【0312】

換言すれば、複数のクラスタにそれぞれ対応する複数の部分空間のうち、その直交補空間への２つの特徴ベクトルｑ，ｇの射影ベクトル（（１－Ｐ）ｑ），（（１－Ｐ）ｇ）の相互間の距離を相対的に（他の部分空間よりも）小さくする部分空間を張るコンセプトベクトルＵが、「非類似判断の根拠コンセプト」として抽出される。

【0313】

謂わば、複数のクラスタにそれぞれ対応する複数のコンセプトのうち、そのコンセプトを取り除けば両画像が互いに類似していると判定されるようなコンセプトが、「非類似判断の根拠コンセプト」として抽出される。

【0314】

以上のような処理の結果、次のような「非類似判断の根拠コンセプト」が抽出され得る。

【0315】

たとえば、薄いピンク色シャツを着用した人物画像と無地のワインレッド色のシャツを着用した人物画像とが非類似であると判断される場合、コンセプトベクトルＵ２００およびコンセプトベクトルＵ３１０等が、「非類似判断の根拠コンセプト」として抽出され得る（図１１等参照）。

【0316】

あるいは、（図１１等には図示されていないが、）仮に「青色のシャツ」の上位クラスタと「青色且つチェック柄のシャツ」の下位クラスタとが存在する場合において、青色シャツを着用した人物画像と青色且つチェック柄シャツを着用した人物画像とが非類似と判断されることもある。その非類似判断の根拠コンセプトとしては、「青色のシャツ」クラスタのコンセプトベクトルおよび「青色且つチェック柄のシャツ」クラスタのコンセプトベクトル等が抽出され得る。

【0317】

このように、比較対象の両画像のそれぞれの特徴を最も良く反映したコンセプトＣ（コンセプトベクトルＵ）が主要コンセプトして抽出され得る。

【0318】

また、ステップＳ４２においては、図２５および図２６等と同様の表示が行われる。ただし、「類似判断」の根拠コンセプトではなく、「非類似判断」の根拠コンセプトを説明するための表示が行われる。

【0319】

具体的には、たとえば、図２５と同様に、上位数個（たとえば２個～５個）の主要コンセプトの評価値Ｓｄ２（あるいはＳｄ１）がグラフ化されて表示される。評価値Ｄ（残差）もが表示されてもよい。また、図２６等と同様に、各主要コンセプトの詳細情報（対応クラスタの構成画像群、ヒートマップ画像群、コンセプト可視化画像等）が表示される。

【0320】

また、図２６等と同様に、上位数個の主要コンセプト（「非類似判断」の根拠コンセプト）のそれぞれについての詳細情報が表示される。

【0321】

以上のような処理によれば、画像ペアが似ていない場合に、似ていないと判断される根拠（非類似判断の根拠）を把握することが可能である。

【0322】

なお、この第２実施形態では、特定のコンセプトベクトルＵが「非類似判断の根拠コンセプト」として抽出されている。ただし、上述したように、これに限定されず、たとえば、当該特定のコンセプトベクトルＵで張られる部分空間（直線）が「非類似判断の根拠コンセプト」として抽出されてもよい。

【0323】

＜３．変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

【0324】

たとえば、サブフェーズＰＨ３ａ（ステップＳ２０）の処理は、必ずしも第２フェーズＰＨ２（ステップＳ１２）の後に行われなくてもよく、たとえば、第１フェーズＰＨ１（ステップＳ１１）の直後に行われてもよい。

【0325】

また、上記各実施形態では、サブフェーズＰＨ３ａにおいて、学習済みモデル４２０に対する入力画像２１０として、機械学習に用いられた複数の入力画像２１１が用いられているが、これに限定されず、当該複数の入力画像２１１とは別の複数の入力画像（たとえば、入力画像２１３）が用いられてもよい。ただし、学習済みモデル４２０に対する入力画像２１０としては、当該別の複数の入力画像（入力画像２１３等）を用いるよりも、学習済みモデル４２０の学習に利用された複数の入力画像２１１を用いる方が好ましい。当該複数の入力画像２１０に対する特徴ベクトル２５０の分布（学習済みモデル４２０からの出力分布）として、比較的正確な分布が得られていると考えられるためである。

【0326】

また、上記各実施形態においては、本発明が人物認識に適用される態様が例示されているが、これに限定されない。たとえば、本発明は、商品認識に適用されてもよい。あるいは、病変認識（病変検出）等に適用されてもよい。

【0327】

また、上記各実施形態においては、本発明がメトリックラーニング（距離学習）に適用される態様が例示されているが、これに限定されず、本発明は、クラス分類学習等に適用されてもよい。

【0328】

たとえば、画像特徴を抽出する特徴抽出層（ＣＮＮ等として構成される）と当該特徴抽出層にて抽出された特徴に基づき分類処理等を実行する全結合層とを備える学習済みモデル４２０を用いたクラス分類学習に適用されてもよい。詳細には、当該学習済みモデル４２０からの中間的な出力ベクトル（特徴抽出層から出力され、当該特徴抽出層の次の全結合層に入力されるベクトル）が、特徴空間における特徴ベクトルＦとして取得されればよい。換言すれば、学習モデル４２０から出力される特徴ベクトルＦは、学習済みモデル４２０から最終的に出力されるベクトル（最終出力）に限定されず、学習済みモデル４２０から中間的に出力されるベクトル等（中間出力）であってもよい。そして、当該特徴ベクトルＦに対する階層化クラスタリング処理、およびコンセプトベクトル抽出処理等が実行されればよい。

【符号の説明】

【0329】

１画像処理システム
３０画像処理装置（情報処理装置）
３１コントローラ
２１０，２１１，２１３，２１５人物画像（入力画像）
２５０，２５１，２５３，２５５，Ｆ特徴ベクトル
４００，４１０，４２０学習モデル
５０１分離平面
６００，６１０，６２０表示画面
Ｃコンセプト
Ｇクラスタ
Ｕコンセプトベクトル

【図1】