特開2023-183956 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-183956学習プログラム、推論プログラム、学習方法および推論方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023183956

(43)【公開日】2023-12-28

(54)【発明の名称】学習プログラム、推論プログラム、学習方法および推論方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20231221BHJP

G06V 10/143 20220101ALI20231221BHJP

H04N 7/18 20060101ALI20231221BHJP

【ＦＩ】

G06T7/00 350B

G06V10/143

H04N7/18 D

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022097784

(22)【出願日】2022-06-17

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】白石壮大

【テーマコード（参考）】

5C054

5L096

【Ｆターム（参考）】

5C054CA04

5C054CA05

5C054CC02

5C054EA01

5C054EA07

5C054FC01

5C054FC03

5C054FC07

5C054FC12

5C054FC14

5C054GB15

5C054HA31

5L096AA02

5L096AA06

5L096BA02

5L096FA66

5L096GA40

5L096GA53

5L096HA11

5L096JA05

5L096JA11

5L096KA04

5L096MA07

(57)【要約】

【課題】ＮＩＲ画像を正しくグレースケール画像に変換すること。
【解決手段】情報処理装置は、素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得する。情報処理装置は、同一の素材の物体に対する第一の画像の特徴量と第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、複数のサンプルを、複数のクラスタに分類する。情報処理装置は、複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する。
【選択図】図４

【特許請求の範囲】

【請求項1】

素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得し、
同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、前記複数のサンプルを、複数のクラスタに分類し、
前記複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する
処理をコンピュータに実行させることを特徴とする学習プログラム。

【請求項2】

前記分類する処理は、前記複数のサンプルの分布を基にして、各サンプル間の距離に基づくクラスタリングを実行することで、前記複数のサンプルを、複数のクラスタに分類することを特徴とする請求項１に記載の学習プログラム。

【請求項3】

前記訓練する処理は、前記複数のクラスタから一つのクラスタを選択し、選択したクラスタに含まれる複数のサンプルを基にして、前記複数の機械学習モデルのうち、一つの機械学習モデルを訓練することを特徴とする請求項１に記載の学習プログラム。

【請求項4】

素材の異なる複数の物体を第一の波長域で撮影した第一の画像、および、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像であって、同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして分類された複数のクラスタに含まれるサンプルを基にして訓練された機械学習モデルを取得し、
前記第一の波長域で撮影された第三の画像を前記機械学習モデルに入力することで、前記第二の波長域で撮影された第四の画像を推論する
処理をコンピュータに実行させることを特徴とする推論プログラム。

【請求項5】

前記取得する処理は、前記複数のクラスタに含まれるサンプルを基にして訓練された複数の機械学習モデルを取得し、
前記推論する処理は、前記第三の画像を、前記複数の機械学習モデルに入力することで、複数の第四の画像を推論し、
前記複数の第四の画像を複数のＲＧＢ画像に変換し、前記複数のＲＧＢ画像と、所定のＲＧＢ画像との一致度を基にして、最大の一致度となるＲＧＢ画像に対応する前記第四の画像を推論した機械学習モデルを、前記複数の機械学習モデルから選択する処理を更にコンピュータに実行させることを特徴とする請求項４に記載の推論プログラム。

【請求項6】

前記推論する処理は、前記第三の画像に含まれる物体の領域を複数の領域に分割し、分割した領域の画像を前記複数の機械学習モデルに入力し、前記複数の機械学習モデルから出力される各領域の画像を統合することで、前記第四の画像を推論することを特徴とする請求項５に記載の推論プログラム。

【請求項7】

前記選択する処理よって選択された回数を、前記機械学習モデル毎にテーブルに登録する処理を更に実行し、前記選択する処理は、前記所定のＲＧＢ画像が存在しない場合に、前記テーブルに登録された前記回数を基にして、前記機械学習モデルを選択することを特徴とする請求項５に記載の推論プログラム。

【請求項8】

素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得し、
同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、前記複数のサンプルを、複数のクラスタに分類し、
前記複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する
処理をコンピュータが実行することを特徴とする学習方法。

【請求項9】

素材の異なる複数の物体を第一の波長域で撮影した第一の画像、および、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像であって、同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして分類された複数のクラスタに含まれるサンプルを基にして訓練された機械学習モデルを取得し、
前記第一の波長域で撮影された第三の画像を前記機械学習モデルに入力することで、前記第二の波長域で撮影された第四の画像を推論する
処理をコンピュータが実行することを特徴とする推論方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習プログラム等に関する。

【背景技術】

【0002】

駅や街中などにおいて、複数の防犯カメラが設置されており、防犯カメラに撮影された画像（映像）は、犯人検挙等を目的として利用される。ここで、防犯カメラの画像を目視で確認する場合、ユーザに係る負担が大きいため、自動で特定の人物を探索する従来技術が利用されている。なお、犯罪の多くが夜間に行われるため、従来技術では、防犯カメラの画像として、ＲＧＢ（Red Green Blue）カメラのＲＧＢ画像の他に、ＮＩＲ（Near-Infrared）カメラのＮＩＲ画像を用いて、人物を探索する。

【0003】

ここで、従来技術は、ＲＧＢ画像を前提とした技術であるため、ＮＩＲ画像を利用する場合には、ＮＩＲ画像をＲＧＢ画像に変換した後に、探索する処理を行う。

【0004】

図１５は、ＮＩＲ画像をＲＧＢ画像に変換する従来技術を説明する図である。従来技術では、２段階の処理で、ＮＩＲ画像を、ＲＧＢ画像に変換する。図１５に示すように、従来技術では、学習モデルＭ１と、学習モデルＭ２とを用いる。学習モデルＭ１は、ＮＩＲ画像を入力とし、グレースケール画像を出力とする訓練済みの学習モデルである。学習モデルＭ２は、クレースケール画像を入力とし、ＲＧＢ画像を出力とする訓練済みの学習モデルである。

【0005】

グレースケール画像では、対象に対して、可視光の反射率が高い部分が白色（輝度値：２５５）に近づき、反射率が低くなるにつれて、黒色（輝度値：０）に近づく。ＮＩＲ画像は、対象に対して、赤外線の反射率が高い部分が白色（輝度値：２５５）に近づき、反射率が低くなるにつれて、黒色（輝度値：０）に近づく。

【0006】

図１６は、可視光と赤外線との関係を示す図である。図１６に示すように、可視光は、波長が３８０ｎｍ～７８０ｎｍまでの光である。赤外線は、波長が７８０ｎｍより大きい光である。

【0007】

従来技術では、ＮＩＲ画像５ａを、学習モデルＭ１に入力することで、グレースケール画像５ｂを生成する。従来技術では、グレースケール画像５ｂを、学習モデルＭ２に入力することで、ＲＧＢ画像５ｃを生成する。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２００６－１４８６９０号公報

【特許文献2】国際公開第２０１５／０１１８２４号

【特許文献3】米国特許出願公開第２００４／０００１１４２号明細書

【特許文献4】米国特許出願公開第２０２０／０２４２３５５号明細書

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかしながら、従来技術では、可視光で同一の反射特性を持つ対象であっても、ＮＩＲの反射特性は対象の素材によって大きく異なるため、ＮＩＲ画像からグレースケール画像に正しく変換できない場合がある。

【0010】

図１７は、ＲＧＢ画像、グレースケール画像、ＮＩＲ画像の一例を示す図である。図１７において、ＲＧＢ画像（可視光画像）１０と、グレースケール画像１１と、ＮＩＲ画像１２とを示す。ＲＧＢ画像１０のフリースの領域を領域１０ａとし、革靴の領域を領域１０ｂとする。グレースケール画像１１のフリースの領域を領域１１ａとし、革靴の領域を領域１１ｂとする。ＮＩＲ画像１２のフリースの領域を領域１２ａとし、革靴の領域を領域１２ｂとする。

【0011】

フリースの色は黒色であるため、領域１０ａおよび領域１１ｂは黒色となる。なお、フリースの素材が、ポリエステル等の化学繊維の場合には、赤外線に対して高い反射率を持つため、領域１２ａは白色となる。

【0012】

革靴の色は黒であるため、領域１０ａおよび領域１１ｂは黒色となる。革素材は、ポリエステル等のように、赤外線に対して高い反射率を持たないため、領域１２ａは黒色となる。

【0013】

上記の結果をまとめると、テーブル１３に示すものとなる。すなわち、革靴の領域については、ＲＧＢ画像１０、グレースケール画像１１、ＮＩＲ画像１２ともに黒色となる。一方、フリースの領域については、ＲＧＢ画像１０、グレースケール画像１１では黒色となるものの、ＮＩＲ画像１２については、白色となる。

【0014】

このように、ＲＧＢ画像のある色に対して、グレースケール画像の色と、ＮＩＲ画像の色とが一致しないと、図１５に示した学習モデルＭ１を訓練するための適切な訓練データを生成できない。たとえば、ＮＩＲ画像において「白色」の対象が、グレースケール画像において「白色」であるのか、「黒色」であるのかを設定することが難しい。そうすると、学習モデルＭ１を用いて、ＮＩＲ画像をグレースケール画像に変換した際に、グレースケール画像を正しく生成できない場合がある。

【0015】

１つの側面では、本発明は、ＮＩＲ画像を正しくグレースケール画像に変換することができる学習プログラム、推論プログラム、学習方法および推論方法を提供することを目的とする。

【課題を解決するための手段】

【0016】

第１の案では、コンピュータに、次の処理を実行させる。コンピュータは、素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得する。コンピュータは、同一の素材の物体に対する第一の画像の特徴量と第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、複数のサンプルを、複数のクラスタに分類する。コンピュータは、複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する。

【発明の効果】

【0017】

ＮＩＲ画像を正しくグレースケール画像に変換することができる。

【図面の簡単な説明】

【0018】

【図1】図１は、本実施例に係るシステムの一例を示す図である。

【図2】図２は、情報処理装置の学習フェーズの処理を説明するための図（１）である。

【図3】図３は、情報処理装置の学習フェーズの処理を説明するための図（２）である。

【図4】図４は、情報処理装置の学習フェーズの処理を説明するための図（３）である。

【図5】図５は、素材の反射特性の一例を示す図である。

【図6】図６は、情報処理装置の推論フェーズの処理を説明するための図（１）である。

【図7】図７は、情報処理装置の推論フェーズの処理を説明するための図（２）である。

【図8】図８は、情報処理装置の推論フェーズの処理を説明するための図（３）である。

【図9】図９は、使用頻度テーブルに登録されるデータの一例を示す図である。

【図10】図１０は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図11】図１１は、画像データテーブルのデータ構造の一例を示す図である。

【図12】図１２は、本実施例に係る情報処理装置の学習フェーズの処理手順を示すフローチャートである。

【図13】図１３は、本実施例に係る情報処理装置の推論フェーズの処理手順を示すフローチャートである。

【図14】図１４は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図15】図１５は、ＮＩＲ画像をＲＧＢ画像に変換する従来技術を説明する図である。

【図16】図１６は、可視光と赤外線との関係を示す図である。

【図17】図１７は、ＲＧＢ画像、グレースケール画像、ＮＩＲ画像の一例を示す図である。

【発明を実施するための形態】

【0019】

以下に、本願の開示する学習プログラム、推論プログラム、学習方法および推論方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0020】

本実施例に係るシステムの一例について説明する。図１は、本実施例に係るシステムの一例を示す図である。図１に示すように、このシステムは、ＮＩＲカメラ３０ａ，３０ｂと、ＲＧＢカメラ４０ａ，４０ｂ，４０ｃと、情報処理装置１００とを有する。

【0021】

ＮＩＲカメラ３０ａ，３０ｂおよびＲＧＢカメラ４０ａ～４０ｃと、情報処理装置１００とは、有線または無線によって相互に接続される。

【0022】

ＮＩＲカメラ３０ａ，３０ｂは、赤外線によって対象物のＮＩＲ画像を撮影するカメラである。ＮＩＲカメラ２０ａ，３０ｂは、撮影したＮＩＲ画像のデータを、情報処理装置１００に送信する。以下の説明では、ＮＩＲ画像のデータを、「ＮＩＲ画像データ」と表記する。また、ＮＩＲカメラ３０ａ，３０ｂをまとめて、「ＮＩＲカメラ３０」と表記する。たとえば、ＮＩＲカメラ３０は、時系列のＮＩＲ画像データを、情報処理装置１００に送信し、各ＮＩＲ画像データには、フレーム番号、撮影時刻の情報が付与される。

【0023】

ＲＧＢカメラ４０ａ～４０ｃは、可視光によって対象物のＲＧＢ画像を撮影するカメラである。ＲＧＢカメラ４０ａ～４０ｃは、撮影したＲＧＢ画像のデータを、情報処理装置１００に送信する。以下の説明では、ＲＧＢ画像のデータを、「ＲＧＢ画像データ」と表記する。また、ＲＧＢカメラ４０ａ～４０ｃをまとめて、「ＲＧＢカメラ４０」と表記する。

【0024】

情報処理装置１００は、ＮＩＲカメラ３０からＮＩＲ画像データを取得し、ＲＧＢカメラ４０からＲＧＢ画像データを取得し、学習フェーズの処理および推論フェーズの処理を実行する。以下において、情報処理装置１００の学習フェーズの処理および推論フェーズの処理について順に説明する。

【0025】

情報処理装置１００が実行する学習フェーズの処理の処理について説明する。図２、図３、図４は、情報処理装置の学習フェーズの処理を説明するための図である。学習フェーズにおいて、情報処理装置１００は、複数のＮＩＲ画像データ、複数のＲＧＢ画像データを基にして、ＮＩＲ輝度値と、グレースケール輝度値とを関係を示す訓練データを生成する。情報処理装置は、訓練データの特徴量に応じて、訓練データをクラスタリングし、クラスタ毎の訓練データを基にして、複数の学習モデルのパラメータを訓練する。後述するように、各学習モデルは、それぞれ異なる素材の反射特性に応じた学習モデルとなる。

【0026】

図２について説明する。情報処理装置１００は、複数のＮＩＲ画像データ、複数のＲＧＢ画像データから、所定の所持品を有する人物を検出し、検出した人物を含むＮＩＲ画像データ、ＲＧＢ画像データを抽出する。

【0027】

図２では、情報処理装置１００が、所持品（リュック）６を有する人物のＲＧＢ画像データ１５ａ，１５ｂと、ＮＩＲ画像データ１６とを抽出した例を示す。ＲＧＢ画像データ１５ａは、ＲＧＢカメラ４０ｂで撮影されたＲＧＢ画像データである。ＲＧＢ画像データ１５ｂは、カメラ４０ｃで撮影されたＲＧＢ画像データである。ＮＩＲ画像データ１６は、ＮＩＲカメラ３０ｂに撮影されたＮＩＲ画像データである。

【0028】

たとえば、情報処理装置１００は、ＲＧＢ画像データ１５ａを、グレースケール画像データに変換し、変換したグレースケール画像データの人物の上半身の輝度値と、ＮＩＲ画像データ１６の人物の上半身の輝度値との関係を特定し、輝度値テーブルに登録する。また、情報処理装置１００は、グレースケール画像データの人物の下半身の輝度値と、ＮＩＲ画像データ１６の人物の下半身の輝度値との関係を特定し、輝度値テーブルに登録する。

【0029】

情報処理装置１００は、ＲＧＢ画像データ１５ｂを、グレースケール画像データに変換し、変換したグレースケール画像データの人物の上半身の輝度値と、ＮＩＲ画像データ１６の人物の上半身の輝度値との関係を特定し、輝度値テーブルに登録する。また、情報処理装置１００は、グレースケール画像データの人物の下半身の輝度値と、ＮＩＲ画像データ１６の人物の下半身の輝度値との関係を特定し、輝度値テーブルに登録する。

【0030】

図３の説明に移行する。情報処理装置１００は、複数のＮＩＲ画像データ、複数のＲＧＢ画像データに付与された撮影時刻の情報を基にして、追跡可能な人物を追跡し、追跡した人物を含むＮＩＲ画像データ、ＲＧＢ画像データを抽出する。たとえば、情報処理装置１００は、人物の服装、髪型、身長、形状等の人物特徴を基にして、人物を追跡する。

【0031】

図３では、情報処理装置１００が、追跡可能な人物７を有するＲＧＢ画像データ１７ａ、ＮＩＲ画像データ１８、ＲＧＢ画像データ１７ｂを抽出した例を示す。たとえば、ＲＧＢ画像データ１７ａは、時刻ｔ１において、カメラ４０ａで撮影されたＲＧＢ画像データである。ＮＩＲ画像データ１８は、時刻ｔ２において、ＮＩＲカメラ３０ａに撮影されたＮＩＲ画像データである。ＲＧＢ画像データ１７ｂは、時刻ｔ３において、カメラ４０ｄで撮影されたＲＧＢ画像データである。すなわち、人物７は、図１において、カメラ４０ａの位置、ＮＩＲカメラ３０ａの位置、カメラ４０ｄの位置の順に移動したことを意味する。

【0032】

情報処理装置１００は、ＲＧＢ画像データ１７ａを、グレースケール画像データに変換し、変換したグレースケール画像データの人物の上半身の輝度値と、ＮＩＲ画像データ１８の人物の上半身の輝度値との関係を特定し、輝度値テーブルに登録する。情報処理装置１００は、グレースケール画像データの人物の下半身の輝度値と、ＮＩＲ画像データ１８の人物の下半身の輝度値との関係を特定し、輝度値テーブルに登録する。

【0033】

情報処理装置１００は、ＲＧＢ画像データ１７ｂを、グレースケール画像データに変換し、変換したグレースケール画像データの人物の上半身の輝度値と、ＮＩＲ画像データ１８の人物の上半身の輝度値との関係を特定し、輝度値テーブルに登録する。情報処理装置１００は、グレースケール画像データの人物の下半身の輝度値と、ＮＩＲ画像データ１８の人物の下半身の輝度値との関係を特定し、輝度値テーブルに登録する。

【0034】

図４の説明に移行する。グラフＧ１は、上記の図２、図３の処理によって輝度値テーブルに登録されたＮＩＲ輝度値と、グレースケール輝度値との関係を示す図である。グラフＧ１の縦軸はＮＩＲ輝度値に対応し、横軸はグレースケール輝度値に対応する。グラフＧ１には複数のサンプルが示される。たとえば、サンプルＳａは、ＮＩＲ輝度値「Ｎｂｒ１」に対応するグレースケール輝度値が「Ｇｂｒ１」である旨が示される。

【0035】

情報処理装置１００は、グラフＧ１に含まれる複数のサンプルに対して、クラスタリング処理を実行することで、複数のサンプルを、複数のクラスタに分類する。図４に示す例では、複数のサンプルが、クラスタＣｒ１，Ｃｒ２，Ｃｒ３に分類されている。たとえば、情報処理装置１００は、クラスタリングとして、DBSCAN（Density-based spatial clustering of applications with noise）を実行する。

【0036】

情報処理装置１００は、クラスタＣｒ１に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第１学習モデル」を訓練する。かかる第１学習モデルに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。第１学習モデルは、ＮＮ（neural network）等である。クラスタＣｒ１の複数のサンプルは、第１学習モデルを訓練するための訓練データに相当する。

【0037】

情報処理装置１００は、クラスタＣｒ２に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第２学習モデル」を訓練する。かかる第２学習モデルに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。第２学習モデルは、ＮＮ等である。クラスタＣｒ２の複数のサンプルは、第２学習モデルを訓練するための訓練データに相当する。

【0038】

情報処理装置１００は、クラスタＣｒ３に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第３学習モデル」を訓練する。かかる第３学習モデルに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。第３学習モデルは、ＮＮ等である。クラスタＣｒ３の複数のサンプルは、第３学習モデルを訓練するための訓練データに相当する。

【0039】

ここで、素材の反射特性の一例について説明する。図５は、素材の反射特性の一例を示す図である。図５に示す例では、素材の一例として、綿、麻、ＰＥｓ（Polyethersulfone）、ＰＥＴ（Polyethyleneterephthalate）、キュプラ、アセテート、ＰＰ（polypropylene）、レーヨン、絹、ビニロン、ウールの反射特性を示す。グラフＧ２の縦軸は吸光度（absorbance）に対応し、横軸は周波数に対応する。

【0040】

線ｌ１は、綿の反射特性である。線ｌ２は、麻の反射特性である。線ｌ３は、ＰＥｓの反射特性を示す。線ｌ４は、ＰＥＴの反射特性を示す。線ｌ５は、キュプラの反射特性を示す。線ｌ６は、アセテートの反射特性を示す。線ｌ７は、ＰＰの反射特性を示す。線ｌ８は、レーヨンの反射特性を示す。線ｌ９は、絹の反射特性を示す。線ｌ１０は、ビニロンの反射特性を示す。線ｌ１１は、ウールの反射特性を示す。

【0041】

図５に示すように、綿、麻は、反射特性が類似している。ＰＥｓ、ＰＥＴは、反射特性が類似している。キュプラ、アセテート、ＰＰ、レーヨン、絹、ビニロン、ウールは、反射特性が類似している。これによって、素材の反射特性は、３つのカテゴリに大別できるといえる。

【0042】

情報処理装置１００は、図４に示すように、複数のサンプルを、クラスタＣｒ１，Ｃｒ２，Ｃｒ３に分類し、クラスタＣｒ１，Ｃｒ２，Ｃｒ３のサンプルを用いて、第１学習モデル、第２学習モデル、第３学習モデルをそれぞれ訓練する。すなわち、第１学習モデル、第２学習モデル、第３学習モデルは、それぞれ、異なる素材の反射特性を反映した、学習モデルとなる。

【0043】

たとえば、第１学習モデルは、綿、麻の反射特性を反映した訓練データで訓練された学習モデルである。第２学習モデルは、ＰＥｓ、ＰＥＴの反射特性を反映した訓練データで訓練された学習モデルである。第３学習モデルは、キュプラ、アセテート、ＰＰ、レーヨン、絹、ビニロン、ウールの反射特性を反映した訓練データで訓練された学習モデルである。

【0044】

続いて、情報処理装置１００が実行する推論フェーズの処理の処理について説明する。図６、図７、図８は、情報処理装置の推論フェーズの処理を説明するための図である。推論フェーズにおいて、情報処理装置１００は、ＮＩＲカメラ３０が撮影したＮＩＲ画像データを、第１学習モデル、第２学習モデル、第３学習モデルを用いて、グレースケール画像データに変換し、グレースケール画像を、ＲＧＢ画像データに変換する。

【0045】

図６について説明する。情報処理装置１００は、ＮＩＲ画像データ２０に含まれる人物の各領域を推定する。本実施例では、人物の各領域を、上半身の服の領域、下半身の服の領域とする。たとえば、情報処理装置１００は、SOLOv2（Segmenting Objects by Locations v2）等の着衣領域の検出を行う学習モデルＭ３を利用する。

【0046】

図６に示す例では、情報処理装置１００が、ＮＩＲ画像データ２０を、学習モデルＭ３に入力することで、ＮＩＲ画像データ２０から、着衣のタイプの確率、セグメンテーションを推定し、上半身の服の領域２１ａと、下半身の服の領域２１ｂとを検出する。

【0047】

図７について説明する。情報処理装置１００は、図６で検出した上半身の服の領域２１ａと、下半身の服の領域２１ｂを、第１学習モデル、第２学習モデル、第３学習モデルでそれぞれグレースケールに変換する。情報処理装置１００は、上半身および下半身の各グレースケールを統合することで、複数パターンの統合画像データを生成する。

【0048】

情報処理装置１００は、上半身の服の領域２１ａを、第１学習モデル、第２学習モデル、第３学習モデルにそれぞれ入力することで、３パターンの上半身のグレースケールを生成する。情報処理装置１００は、下半身の服の領域２１ｂを、第１学習モデル、第２学習モデル、第３学習モデルにそれぞれ入力することで、３パターンの下半身のグレースケールを生成する。３パターンの上半身のグレースケールと、３パターンの下半身のグレースケールとの組み合わせにより、合計９パターンの統合データが生成される。

【0049】

図７に示す例では、情報処理装置１００は、上半身の服の領域２１ａを、第１学習モデルに入力することで、上半身の服のグレースケールデータ２２ａを生成する。情報処理装置１００は、下半身の服の領域２１ｂを、第１学習モデルに入力することで、下半身の服のグレースケールデータ２２ｂを生成する。情報処理装置１００は、上半身の服のグレースケールデータ２２ａと、下半身の服のグレースケールデータ２２ｂとを統合することで、統合データ５０－１を生成する。また、情報処理装置１００は、統合データ５０－１をＲＧＢ変換することで、ＲＧＢ画像データ６０－１を生成する。

【0050】

情報処理装置１００は、上半身の服の領域２１ａを、第１学習モデルに入力することで、上半身の服のグレースケールデータ２２ａを生成する。情報処理装置１００は、下半身の服の領域２１ｂを、第２学習モデルに入力することで、下半身の服のグレースケールデータ２２ｃを生成する。情報処理装置１００は、上半身の服のグレースケールデータ２２ａと、下半身の服のグレースケールデータ２２ｃとを統合することで、統合データ５０－２を生成する。また、情報処理装置１００は、統合データ５０－２をＲＧＢ変換することで、ＲＧＢ画像データ６０－２を生成する。

【0051】

情報処理装置１００は、異なる組み合わせについて、上記処理を繰り返し実行することで、９パターンのＲＧＢ画像データを生成する。たとえば、９パターンのＲＧＢ画像データを、ＲＧＢ画像データ６０－１～６０－９とする。

【0052】

図８について説明する。情報処理装置１００は、ＲＧＢ画像データ６０－１～６０－９と、照合対象のＲＧＢ画像データ７０との一致度をそれぞれ算出する。ＲＧＢ画像データ７０は、ＮＩＲ画像データ２０の人物と同一の人物を含むＲＧＢ画像データであって、ＲＧＢカメラ４０によって撮影された画像である。たとえば、一致度は、コサイン類似度である。

【0053】

情報処理装置１００は、複数のＮＩＲ画像データ、複数のＲＧＢ画像データに付与された撮影時刻の情報を基にして、追跡可能な人物を追跡し、事前に、ＮＩＲ画像データ２０の人物と同一の人物を撮影したＲＧＢ画像データを特定しておき、特定したＲＧＢ画像データを、ＲＧＢ画像データ７０として使用する。

【0054】

情報処理装置１００は、ＲＧＢ画像データ６０－１～６０－９と、照合対象のＲＧＢ画像データ７０との一致度をそれぞれ算出した結果、ＲＧＢ画像データ６０－２と、照合対象のＲＧＢ画像データ７０との一致度が最大になるものとする。図７で説明したように、ＲＧＢ画像データ６０－２を生成する過程において、上半身の服のＮＩＲ輝度値を、グレースケール輝度値に変換する場合に用いた学習モデルは、第１学習モデルである。ＲＧＢ画像データ６０－２を生成する過程において、下半身の服のＮＩＲ輝度値を、グレースケール輝度値に変換する場合に用いた学習モデルは、第２学習モデルである。

【0055】

このため、情報処理装置１００は、人物の上半身の服のＮＩＲ画像を変換する学習モデルとして、第１学習モデルを選択し、人物の下半身の服のＮＩＲ画像を変換する学習モデルとして、第２学習モデルを選択する。情報処理装置１００は、選択した学習モデルを用いて、ＮＩＲ画像データを、グレースケール画像データに変換する。

【0056】

情報処理装置１００は、推論フェーズにおいて、追跡中の異なる人物毎に上記処理を繰り返し実行する。たとえば、情報処理装置１００は、人物毎に、ＮＩＲ画像データを、グレースケール画像データに変換する学習モデルの組を選択する。

【0057】

更に、情報処理装置１００は、学習モデルの組のパターンごとの選択した回数を使用頻度テーブルに登録しておく。図９は、使用頻度テーブルに登録されるデータの一例を示す図である。横軸には、学習モデルの組み合わせのパターン１～９が設定される。縦軸は、選択された回数に相当する。たとえば、パターン１～９の学習モデルの組み合わせは、下記である。ただし、上半身の服の輝度変換に利用する学習モデル、下半身の服の輝度変換に利用する学習モデルとする。

【0058】

パターン１：第１学習モデル、第１学習モデル
パターン２：第１学習モデル、第２学習モデル
パターン３：第１学習モデル、第３学習モデル
パターン４：第２学習モデル、第１学習モデル
パターン５：第２学習モデル、第２学習モデル
パターン６：第２学習モデル、第３学習モデル
パターン７：第３学習モデル、第１学習モデル
パターン８：第３学習モデル、第２学習モデル
パターン９：第３学習モデル、第３学習モデル

【0059】

図８で説明した情報処理装置１００の処理では、照合対象のＲＧＢ画像データ７０を特定していることが前提となっていたが、照合対象のＲＧＢ画像データ７０を特定できない場合には、使用頻度テーブルを利用して、学習モデルの組を選択する。たとえば、情報処理装置１００は、パターン１～９のうち、選択回数が最大となるパターンに対応する学習モデルの組を選択する。図９に示す例では、パターン２の選択回数が最大となるため、情報処理装置１００は、上半身の服の輝度変換に利用する学習モデルとして、第１学習モデルを選択する。情報処理装置１００は、下半身の服の輝度変換に利用する学習モデルとして、第２学習モデルを選択する。

【0060】

上記のように、情報処理装置１００は、学習フェーズにおいて、複数のＮＩＲ画像データ、複数のＲＧＢ画像データを基にして、ＮＩＲ輝度値と、グレースケール輝度値とを関係を示す訓練データを生成する。情報処理装置１００は、訓練データの特徴量に応じて、訓練データをクラスタリングし、クラスタ毎の訓練データを基にして、複数の学習モデルのパラメータを訓練する。これによって、異なる素材の反射特性に応じた学習モデルを生成することができる。

【0061】

情報処理装置１００は、推論フェーズにおいて、ＮＩＲカメラ３０が撮影したＮＩＲ画像データから人物の上半身の服の領域と、人物の下半身の服の領域とを検出し、各領域をグレースケール画像に変換する際の最適な学習モデルの組を選択する。情報処理装置１００は、選択した学習モデルの組を用いて、ＮＩＲ画像データを、グレースケール画像データに変換し、グレースケール画像データを、ＲＧＢ画像データに変換する。これによって、対象となる人物の服の素材の反射特性に応じた学習モデルを選択でき、ＮＩＲ画像データから、適切なグレースケール画像データ、ＲＧＢ画像データを生成することができる。

【0062】

次に、本実施例に係る情報処理装置の構成例について説明する。図１０は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図１０に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0063】

通信部１１０は、無線又は有線によって、ＮＩＲカメラ３０、ＲＧＢカメラ４０等に接続され、各種のデータを受信する。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ＮＩＲカメラ３０から、ＮＩＲ画像データを受信する。通信部１１０は、ＲＧＢカメラ４０から、ＲＧＢ画像データを受信する。

【0064】

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0065】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。

【0066】

記憶部１４０は、画像データテーブル１４１、輝度値テーブル１４２、第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃ、使用頻度テーブル１４４を有する。記憶部１４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0067】

画像データテーブル１４１は、ＮＩＲカメラ３０によって撮影されたＮＩＲ画像データ、ＲＧＢカメラ４０によって撮影されたＲＧＢ画像データを保持するテーブルである。図１１は、画像データテーブルのデータ構造の一例を示す図である。図１１に示すように、画像データテーブル１４１は、カメラ識別情報、画像データ、位置情報を対応付ける。

【0068】

カメラ識別情報は、ＮＩＲカメラ３０、ＲＧＢカメラ４０を一意に識別する情報である。たとえば、カメラ識別情報ＣＡ３０ａは、ＮＩＲカメラ３０ａの識別情報である。カメラ識別情報ＣＡ３０ｂは、ＮＩＲカメラ３０ｂの識別情報である。カメラ識別情報ＣＡ４０ａは、ＲＧＢカメラ３０ａの識別情報である。カメラ識別情報ＣＡ４０ｂは、ＲＧＢカメラ３０ｂの識別情報である。カメラ識別情報ＣＡ４０ｃは、ＲＧＢカメラ３０ｃの識別情報である。

【0069】

画像データは、該当するカメラに撮影された時系列の画像データである。ＮＩＲカメラ３０に撮影された時系列の画像データは、時系列のＮＩＲ画像データとなる。ＲＧＢカメラ４０に撮影された時系列の画像データは、時系列のＲＧＢ画像データとなる。ＮＩＲ画像データ、ＲＧＢ画像データには、フレーム番号、撮影時刻の情報が付与される。

【0070】

位置情報は、該当するカメラの位置情報であり、緯度、経度等の情報が設定される。

【0071】

図１０の説明に戻る。輝度値テーブル１４２は、図４で説明したＮＩＲ輝度値と、グレースケール輝度値との関係を示す複数のサンプルの情報を保持するテーブルである。

【0072】

第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃは、クラスタリングされた複数のサンプルによって、訓練される学習モデルである。第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃは、ＮＮ等である。

【0073】

使用頻度テーブル１４４は、学習モデルの組のパターンごとの選択された回数を保持するテーブルである。使用頻度テーブル１４４のデータは、図９で説明したように、学習モデルの組み合わせのパターンと、選択回数とが対応付けられる。

【0074】

制御部１５０は、取得部１５１、検出部１５２、学習部１５３、推論部１５４を有する。制御部１５０は、たとえば、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実行されてもよい。

【0075】

取得部１５１は、通信部１１０を介して、ＮＩＲカメラ３０から時系列のＮＩＲ画像データを取得する。取得部１５１は、時系列のＮＩＲ画像データを、カメラ識別情報と対応付けて、画像データテーブル１４１に登録する。

【0076】

取得部１５１は、通信部１１０を介して、ＲＧＢカメラ４０からＲＧＢ画像データを取得する取得部１５１は、時系列のＲＧＢ画像データを、カメラ識別情報と対応付けて、画像データテーブル１４１に登録する。

【0077】

検出部１５２は、画像データテーブル１４１に格納された複数のＮＩＲ画像データ、ＲＧＢ画像データを基にして、同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データとを検出する。検出部１５２は、検出した同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データのグレースケール画像データとを基にして、ＮＩＲ輝度値と、グレースケール輝度値との関係を特定する。検出部１５２は、特定したＮＩＲ輝度値と、グレースケール輝度値との関係を示すサンプルのデータを、輝度値テーブル１４２に登録する。

【0078】

たとえば、検出部１５２は、図２で説明した処理を実行することで、同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データとを検出する。検出部１５２は、複数のＮＩＲ画像データ、複数のＲＧＢ画像データから、所定の所持品を有する人物を検出し、検出した人物を含むＮＩＲ画像データ、ＲＧＢ画像データを抽出する。

【0079】

図２で説明した例では、検出部１５２（情報処理装置１００）が、所持品（リュック）６を有する人物のＲＧＢ画像データ１５ａ，１５ｂと、ＮＩＲ画像データ１６とを抽出した例を示した。検出部１５２は、図２で説明した処理を実行して、ＮＩＲ輝度値と、グレースケール輝度値との関係を示すサンプルのデータを、輝度値テーブル１４２に登録する。

【0080】

更に、検出部１５２は、図３で説明した処理を実行することで、同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データとを検出する。検出部１５２は、画像データテーブル１４１に登録された、複数のＮＩＲ画像データ、複数のＲＧＢ画像データに付与された撮影時刻の情報を基にして、追跡可能な人物を追跡する。検出部１５２は、追跡した人物を含むＮＩＲ画像データ、ＲＧＢ画像データを抽出する。たとえば、検出部１５２は、人物の服装、髪型、身長、形状等の人物特徴を基にして、人物を追跡する。

【0081】

図３で説明した例では、検出部１５２（情報処理装置１００）が、追跡可能な人物７を有するＲＧＢ画像データ１７ａ、ＮＩＲ画像データ１８、ＲＧＢ画像データ１７ｂを抽出した例を示した。検出部１５２は、図３で説明した処理を実行して、ＮＩＲ輝度値と、グレースケール輝度値との関係を示すサンプルのデータを、輝度値テーブル１４２に登録する。

【0082】

続いて、検出部１５２は、輝度値テーブル１４２に登録された複数のサンプルに対して、クラスタリングを実行し、複数のサンプルを複数のクラスタに分類する。図４で説明した例では、検出部１５２は、複数のサンプルに対して、クラスタリングを実行し、複数のサンプルを、クラスタＣｒ１，Ｃｒ２，Ｃｒ３に分類する。検出部１５２は、分類結果となるクラスタＣｒ１，Ｃｒ２，Ｃｒ３のデータを、学習部１５３に出力する。

【0083】

学習部１５３は、クラスタＣｒ１，Ｃｒ２，Ｃｒ３のデータを基にして、第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃを訓練する。たとえば、学習部１５３は、訓練を実行する場合に、誤差逆伝播法等を用いる。

【0084】

学習部１５３は、クラスタＣｒ１に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第１学習モデル１４３ａ」を訓練する。第１学習モデル１４３ａに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。

【0085】

学習部１５３は、クラスタＣｒ２に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第２学習モデル１４３ｂ」を訓練する。第２学習モデル１４３ｂに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。

【0086】

学習部１５３は、クラスタＣｒ３に含まれる複数のサンプルを基にして、ＮＩＲ輝度値を入力とし、グレースケール輝度値を出力とする「第３学習モデル１４３ｃ」を訓練する。第３学習モデル１４３ｃに、ＮＩＲ画像データを入力すると、ＮＩＲ画像データの各画素のＮＩＲ輝度値が、グレースケール輝度値にそれぞれ変換され、グレースケール画像データが生成される。

【0087】

推論部１５４は、図６～図８で説明した推論フェーズの処理を実行する。推論部１５４は、推論フェーズにおいて、ＮＩＲカメラ３０から、ＮＩＲ画像データ（ＮＩＲ画像データ２０）を取得し、ＮＩＲ画像データ２０に含まれる人物の各領域を推定する。推論部１５４は、図６で説明したように、学習モデルＭ３を用いて、ＮＩＲ画像データ２０から、上半身の服の領域２１ａと、下半身の服の領域２１ｂとを検出する。

【0088】

推論部１５４は、図７で説明したように、上半身の服の領域２１ａと、下半身の服の領域２１ｂとを、第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃにそれぞれ入力して、それぞれグレースケールに変換する。推論部１５４は、上半身および下半身の各グレースケールを統合することで、９パターンの統合画像データを生成する。また、推論部１５４は、９パターンの統合画像データを基にして、９パターンのＲＧＢ画像データ６０－１～６０－９を生成する。たとえば、推論部１５４は、学習モデルＭ２に、統合画像データを入力することで、ＲＧＢ画像データを生成する。

【0089】

推論部１５４は、ＮＩＲカメラ３０から取得する複数のＮＩＲ画像データ、ＲＧＢカメラ４０から取得する複数のＲＧＢ画像データに付与された撮影時刻の情報を基にして、追跡可能な人物を追跡する。推論部１５４は、事前に、ＮＩＲ画像データ２０の人物と同一の人物を撮影したＲＧＢ画像データを特定しておき、特定したＲＧＢ画像データを、ＲＧＢ画像データ７０として使用する。たとえば、推論部１５４は、撮影時刻を遡って、追跡を実行し、過去に撮影された複数のＲＧＢ画像データから、ＮＩＲ画像データ２０の人物と同一の人物を撮影したＲＧＢ画像データを特定する。

【0090】

推論部１５４は、ＲＧＢ画像データ６０－１～６０－９と、照合対象のＲＧＢ画像データ７０との一致度をそれぞれ算出する。ＲＧＢ画像データ７０は、ＮＩＲ画像データ２０の人物と同一の人物を含むＲＧＢ画像データであって、ＲＧＢカメラ４０によって撮影された画像である。たとえば、一致度は、コサイン類似度である。

【0091】

推論部１５４は、ＲＧＢ画像データ６０－１～６０－９と、照合対象のＲＧＢ画像データ７０との一致度をそれぞれ算出した結果、ＲＧＢ画像データ６０－２と、照合対象のＲＧＢ画像データ７０との一致度が最大になるものとする。図７で説明したように、ＲＧＢ画像データ６０－２を生成する過程において、上半身の服のＮＩＲ輝度値を、グレースケール輝度値に変換する場合に用いた学習モデルは、第１学習モデルである。ＲＧＢ画像データ６０－２を生成する過程において、下半身の服のＮＩＲ輝度値を、グレースケール輝度値に変換する場合に用いた学習モデルは、第２学習モデルである。

【0092】

このため、推論部１５４は、ＮＩＲ画像データ２０に含まれる人物と同一の人物の上半身の服のＮＩＲ画像を変換する学習モデルとして、第１学習モデル１４３ａを選択する。推論部１５４は、ＮＩＲ画像データ２０に含まれる人物と同一の人物の下半身の服のＮＩＲ画像を変換する学習モデルとして、第２学習モデル１４３ｂを選択する。推論部１５４は、選択した学習モデルを用いて、ＮＩＲ画像データを、グレースケール画像データに変換する。

【0093】

推論部１５４は、推論フェーズにおいて、追跡中の異なる人物毎に上記処理を繰り返し実行する。たとえば、推論部１５４は、人物毎に、ＮＩＲ画像データを、グレースケール画像データに変換する学習モデルの組を選択する。

【0094】

たとえば、推論部１５４は、ＮＩＲ画像データ２０に含まれる人物と同一の人物を追跡し、他のＮＩＲ画像データに、追跡中の人物が含まれる場合には、選択した学習モデルの組を用いてＲＧＢ画像データを推論する。ここで、上半身の服のＮＩＲ画像を変換する学習モデルとして、第１学習モデル１４３ａを選択し、下半身の服のＮＩＲ画像を変換する学習モデルとして、第２学習モデル１４３ｂを選択しているものとする。この場合、推論部１５４は、他のＮＩＲ画像データの人物の上半身の服の領域を、第１学習モデル１４３ａに入力して上半身のグレースケールを生成する。推論部１５４は、他のＮＩＲ画像データの人物の下半身の服の領域を、第２学習モデル１４３ｂに入力して下半身のグレースケールを生成する。推論部１５４は、生成した各グレースケールを統合したグレースケール画像データを、ＲＧＢ画像データに変換する（ＲＧＢ画像データを推論する）。

【0095】

更に、推論部１５４は、学習モデルの組のパターンごとの選択した回数を使用頻度テーブル１４４に登録する。

【0096】

推論部１５４は、照合対象のＲＧＢ画像データ７０を特定できない場合には、使用頻度テーブルを利用して、学習モデルの組を選択する。たとえば、推論部１５４は、パターン１～９のうち、選択回数が最大となるパターンに対応する学習モデルの組を選択する。図９に示す例では、パターン２の選択回数が最大となるため、推論部１５４は、上半身の服の輝度変換に利用する学習モデルとして、第１学習モデルを選択する。推論部１５４は、下半身の服の輝度変換に利用する学習モデルとして、第２学習モデルを選択する。

【0097】

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１２は、本実施例に係る情報処理装置の学習フェーズの処理手順を示すフローチャートである。図１２に示すように、情報処理装置１００の取得部１５１は、ＮＩＲカメラ３０から、時系列のＮＩＲ画像データを取得し、画像データテーブル１４１に登録する（ステップＳ１０１）。取得部１５１は、ＲＧＢカメラ４０から、時系列のＲＧＢ画像データを取得し、画像データテーブル１４１に登録する（ステップＳ１０２）。

【0098】

情報処理装置１００の検出部１５２は、画像データテーブル１４１に登録された複数のＮＩＲ画像データ、ＲＧＢ画像データを基にして、同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データとを検出する（ステップＳ１０３）。

【0099】

検出部１５２は、検出した同一の人物の領域を撮影したＮＩＲ画像データと、ＲＧＢ画像データのグレースケール画像データとを基にして、ＮＩＲ輝度値と、グレースケール輝度値との関係を特定し、輝度値テーブル１４２に登録する（ステップＳ１０４）。

【0100】

検出部１５２は、輝度値テーブル１４２に登録された複数のサンプルに対して、クラスタリングを実行し、複数のサンプルを複数のクラスタＣｒ１，Ｃｒ２，Ｃｒ３に分類する（ステップＳ１０５）。

【0101】

情報処理装置１００の学習部１５３は、クラスタＣｒ１，Ｃｒ２，Ｃｒ３のデータを基にして、第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃを訓練する（ステップＳ１０６）。

【0102】

図１３は、本実施例に係る情報処理装置の推論フェーズの処理手順を示すフローチャートである。情報処理装置１００の取得部１５１は、ＮＩＲカメラ３０から推論対象のＮＩＲ画像データを取得する（ステップＳ２０１）。

【0103】

情報処理装置１００の推論部１５４は、ＮＩＲ画像データの上半身の服の領域と、下半身の服の領域とを、第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃにそれぞれ入力して、それぞれグレースケールに変換する（ステップＳ２０２）。

【0104】

推論部１５４は、上半身の服の領域のグレースケールおよび下半身の服の領域のグレースケールをそれぞれ統合することで、９パターンの統合画像データを生成する（ステップＳ２０３）。推論部１５４は、９パターンの統合画像データを基にして、９パターンのＲＧＢ画像データを生成する（ステップＳ２０４）。

【0105】

推論部１５４は、推論対象のＮＩＲ画像データの人物と同一の人物を有する照合対象のＲＧＢ画像データを検索する（ステップＳ２０５）。推論部１５４は、照合対象のＲＧＢ画像データが存在する場合には（ステップＳ２０６，Ｙｅｓ）、ステップＳ２０７に移行する。

【0106】

推論部１５４は、９パターンのＲＧＢ画像データと、照合対象のＲＧＢ画像データとの一致度を基にして、学習モデルの組を選択する（ステップＳ２０７）。推論部１５４は、選択結果を基にして、使用頻度テーブル１４４の選択回数を更新する（ステップＳ２０８）。

【0107】

推論部１５４は、選択した学習モデルの組を用いて、ＮＩＲ画像データをグレースケール画像データに変換し、グレースケール画像データを、ＲＧＢ画像データに変換する（ステップＳ２０９）。

【0108】

一方、推論部１５４は、照合対象のＲＧＢ画像データが存在しない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２１０に移行する。推論部１５４は、使用頻度テーブル１４４の使用回数が最大となるパターンの学習モデルの組を選択し（ステップＳ２１０）、ステップＳ２０９に移行する。

【0109】

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、学習フェーズにおいて、複数のＮＩＲ画像データ、複数のＲＧＢ画像データを基にして、ＮＩＲ輝度値と、グレースケール輝度値とを関係を輝度値テーブル１４２に登録する。情報処理装置１００は、輝度値テーブル１４２のサンプルの特徴量に応じて、複数のサンプルをクラスタリングし、クラスタ毎のサンプルを基にして、複数の学習モデルのパラメータを訓練する。これによって、異なる素材の反射特性に応じた複数の第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃを生成することができる。

【0110】

情報処理装置１００は、輝度値テーブル１４２のサンプルの特徴量に応じて、複数のサンプルをクラスタリングする。これによって、異なる素材の反射特性に応じた複数の第１学習モデル１４３ａ、第２学習モデル１４３ｂ、第３学習モデル１４３ｃを訓練するための訓練データを生成することができる。

【0111】

【0112】

情報処理装置１００は、ＲＧＢ画像データ６０－１～６０－９と、照合対象のＲＧＢ画像データ７０との一致度をそれぞれ算出し、一致度が最大となるＲＧＢ画像データ６０－１に対応する学習モデルの組を選択する。これによって、ＮＩＲ画像データから、グレースケール画像データに変換する際の複数の学習モデルの組から、物体の素材に適した学習モデルの組を選択することができる。

【0113】

たとえば、情報処理装置１００は、上半身の服のＮＩＲ画像を変換する学習モデルとして、第１学習モデル１４３ａを選択し、下半身の服のＮＩＲ画像を変換する学習モデルとして、第２学習モデル１４３ｂを選択しているものとする。この場合、情報処理装置１００は、他のＮＩＲ画像データの人物の上半身の服の領域を、第１学習モデル１４３ａに入力して上半身のグレースケールを生成する。情報処理装置１００は、他のＮＩＲ画像データの人物の下半身の服の領域を、第２学習モデル１４３ｂに入力して下半身のグレースケールを生成する。情報処理装置１００は、生成した各グレースケールを統合したグレースケール画像データを、ＲＧＢ画像データに変換する。これによって、複数の学習モデルを用いて、ＮＩＲ画像データから、ＲＧＢ画像データを適切に推論することができる。

【0114】

情報処理装置１００は、輝度値テーブル１４２の複数のサンプルをクラスタリングし、クラスタ毎のサンプルを基にして、複数の学習モデルのパラメータを訓練することで、各素材の反射特性に対応した複数の学習モデルを訓練する。すなわち、ＮＩＲ画像データに含まれる各素材の反射特性を解析する代わりに、クラスタリングのみで、素材に対応した訓練データを準備でき、情報処理装置１００の処理負荷を軽減できる。

【0115】

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１４は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0116】

図７に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

【0117】

ハードディスク装置２０７は、取得プログラム２０７ａ、検出プログラム２０７ｂ、学習プログラム２０７ｃ、推論プログラム２０７ｄを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｄを読み出してＲＡＭ２０６に展開する。

【0118】

取得プログラム２０７ａは、取得プロセス２０６ａとして機能する。検出プログラム２０７ｂは、検出プロセス２０６ｂとして機能する。学習プログラム２０７ｃは、学習プロセス２０６ｃとして機能する。推論プログラム２０７ｄは、推論プロセス２０６ｄとして機能する。

【0119】

取得プロセス２０６ａの処理は、取得部１５１の処理に対応する。検出プロセス２０６ｂの処理は、検出部１５２の処理に対応する。学習プロセス２０６ｃの処理は、学習部１５３の処理に対応する。推論プロセス２０６ｄの処理は、推論部１５４の処理に対応する。

【0120】

なお、各プログラム２０７ａ～２０７ｄについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｄを読み出して実行するようにしてもよい。

【0121】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0122】

（付記１）素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得し、
同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、前記複数のサンプルを、複数のクラスタに分類し、
前記複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する
処理をコンピュータに実行させることを特徴とする学習プログラム。

【0123】

（付記２）前記分類する処理は、前記複数のサンプルの分布を基にして、各サンプル間の距離に基づくクラスタリングを実行することで、前記複数のサンプルを、複数のクラスタに分類することを特徴とする付記１に記載の学習プログラム。

【0124】

（付記３）前記訓練する処理は、前記複数のクラスタから一つのクラスタを選択し、選択したクラスタに含まれる複数のサンプルを基にして、前記複数の機械学習モデルのうち、一つの機械学習モデルを訓練することを特徴とする付記１に記載の学習プログラム。

【0125】

（付記４）素材の異なる複数の物体を第一の波長域で撮影した第一の画像、および、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像であって、同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして分類された複数のクラスタに含まれるサンプルを基にして訓練された機械学習モデルを取得し、
前記第一の波長域で撮影された第三の画像を前記機械学習モデルに入力することで、前記第二の波長域で撮影された第四の画像を推論する
処理をコンピュータに実行させることを特徴とする推論プログラム。

【0126】

（付記５）前記取得する処理は、前記複数のクラスタに含まれるサンプルを基にして訓練された複数の機械学習モデルを取得し、
前記推論する処理は、前記第三の画像を、前記複数の機械学習モデルに入力することで、複数の第四の画像を推論し、
前記複数の第四の画像を複数のＲＧＢ画像に変換し、前記複数のＲＧＢ画像と、所定のＲＧＢ画像との一致度を基にして、最大の一致度となるＲＧＢ画像に対応する前記第四の画像を推論した機械学習モデルを、前記複数の機械学習モデルから選択する処理を更にコンピュータに実行させることを特徴とする付記４に記載の推論プログラム。

【0127】

（付記６）前記推論する処理は、前記第三の画像に含まれる物体の領域を複数の領域に分割し、分割した領域の画像を前記複数の機械学習モデルに入力し、前記複数の機械学習モデルから出力される各領域の画像を統合することで、前記第四の画像を推論することを特徴とする付記５に記載の推論プログラム。

【0128】

（付記７）前記選択する処理よって選択された回数を、前記機械学習モデル毎にテーブルに登録する処理を更に実行し、前記選択する処理は、前記所定のＲＧＢ画像が存在しない場合に、前記テーブルに登録された前記回数を基にして、前記機械学習モデルを選択することを特徴とする付記５に記載の推論プログラム。

【0129】

（付記８）素材の異なる複数の物体を第一の波長域で撮影した第一の画像と、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像とを取得し、
同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして、前記複数のサンプルを、複数のクラスタに分類し、
前記複数のクラスタに含まれるサンプルを基にして、複数の機械学習モデルを訓練する
処理をコンピュータが実行することを特徴とする学習方法。

【0130】

（付記９）前記分類する処理は、前記複数のサンプルの分布を基にして、各サンプル間の距離に基づくクラスタリングを実行することで、前記複数のサンプルを、複数のクラスタに分類することを特徴とする付記８に記載の学習方法。

【0131】

（付記１０）前記訓練する処理は、前記複数のクラスタから一つのクラスタを選択し、選択したクラスタに含まれる複数のサンプルを基にして、前記複数の機械学習モデルのうち、一つの機械学習モデルを訓練することを特徴とする付記８に記載の学習方法。

【0132】

（付記１１）素材の異なる複数の物体を第一の波長域で撮影した第一の画像、および、前記素材の異なる複数の物体を第二の波長域で撮影した画像をグレースケールに変換した第二の画像であって、同一の素材の物体に対する前記第一の画像の特徴量と前記第二の画像の特徴量との関係を示すサンプルを、異なる素材の物体毎に特定することで生成される複数のサンプルの分布を基にして分類された複数のクラスタに含まれるサンプルを基にして訓練された機械学習モデルを取得し、
前記第一の波長域で撮影された第三の画像を前記機械学習モデルに入力することで、前記第二の波長域で撮影された第四の画像を推論する
処理をコンピュータが実行することを特徴とする推論方法。

【0133】

（付記１２）前記取得する処理は、前記複数のクラスタに含まれるサンプルを基にして訓練された複数の機械学習モデルを取得し、
前記推論する処理は、前記第三の画像を、前記複数の機械学習モデルに入力することで、複数の第四の画像を推論し、
前記複数の第四の画像を複数のＲＧＢ画像に変換し、前記複数のＲＧＢ画像と、所定のＲＧＢ画像との一致度を基にして、最大の一致度となるＲＧＢ画像に対応する前記第四の画像を推論した機械学習モデルを、前記複数の機械学習モデルから選択する処理を更にコンピュータに実行させることを特徴とする付記１１に記載の推論方法。

【0134】

（付記１３）前記推論する処理は、前記第三の画像に含まれる物体の領域を複数の領域に分割し、分割した領域の画像を前記複数の機械学習モデルに入力し、前記複数の機械学習モデルから出力される各領域の画像を統合することで、前記第四の画像を推論することを特徴とする付記１２に記載の推論方法。

【0135】

（付記１４）前記選択する処理よって選択された回数を、前記機械学習モデル毎にテーブルに登録する処理を更に実行し、前記選択する処理は、前記所定のＲＧＢ画像が存在しない場合に、前記テーブルに登録された前記回数を基にして、前記機械学習モデルを選択することを特徴とする付記１２に記載の推論方法。

【符号の説明】

【0136】

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１画像データテーブル
１４２輝度値テーブル
１４３ａ第１学習モデル
１４３ｂ第２学習モデル
１４３ｃ第３学習モデル
１４４使用頻度テーブル
１５０制御部
１５１取得部
１５２検出部
１５３学習部
１５４推論部

【図1】