特開2024-20924 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-20924特定プログラム、特定方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024020924

(43)【公開日】2024-02-15

(54)【発明の名称】特定プログラム、特定方法および情報処理装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20240207BHJP

G06V 10/764 20220101ALI20240207BHJP

G06V 10/422 20220101ALI20240207BHJP

【ＦＩ】

G06T7/00 660Z

G06T7/00 350B

G06V10/764

G06V10/422

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022123482

(22)【出願日】2022-08-02

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】木幡駿

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA02

5L096CA04

5L096CA05

5L096FA16

5L096FA66

5L096FA69

5L096GA34

5L096GA51

5L096HA05

5L096HA11

5L096JA03

5L096KA04

5L096MA07

(57)【要約】

【課題】人物の誤同定を抑制することを課題とする。
【解決手段】情報処理装置は、複数のカメラのそれぞれが撮影した画像の重なる領域から得られる同一人物の複数のペア画像を取得する。情報処理装置は、取得をした複数のペア画像に含まれる複数の人物画像のそれぞれから得られる人物特徴量に対応するノードを有する有向グラフを生成する。情報処理装置は、ノード間で人物特徴量が類似する人物画像の数に基づいて、生成された有向グラフのリンクの重みを算出する。情報処理装置は、算出されたリンクの重みに基づいて、複数のペア画像の全体で人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する。
【選択図】図１０

【特許請求の範囲】

【請求項1】

コンピュータに、
複数のカメラのそれぞれが撮影した画像の重なる領域から得られる同一人物の複数のペア画像を取得し、
取得をした複数のペア画像に含まれる複数の人物画像のそれぞれから得られる人物特徴量に対応するノードを有する有向グラフを生成し、
前記ノード間で人物特徴量が類似する人物画像の数に基づいて、生成された有向グラフのリンクの重みを算出し、
算出されたリンクの重みに基づいて、前記複数のペア画像の全体で前記人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する、
処理を実行させることを特徴とする特定プログラム。

【請求項2】

前記生成する処理は、
前記複数のペア画像ごとに前記ペア画像に含まれる２つの人物画像の人物特徴量の各々に対応する２つのノードを始点から終点への向きへ順に並べ、前記複数のペア画像のうち第１のペア画像の２つの親ノードのそれぞれおよび第２のペア画像の２つの子ノードのそれぞれをリンクで接続した有向グラフを生成する、ことを特徴とする請求項１に記載の特定プログラム。

【請求項3】

前記特定する処理は、
前記有向グラフの始点から終点までの経路で前記リンクの重みの総和が最大となるノードの組合せパターンをダイクストラ法にしたがって探索することにより、前記複数のペア画像の全体で前記人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する、ことを特徴とする請求項１に記載の特定プログラム。

【請求項4】

前記複数のペア画像ごとに２つの人物画像の人物特徴量のうち前記組合せパターンに含まれない方の人物特徴量を前記組合せパターンに含まれる方の人物特徴量に補正し、
前記人物画像の組合せごとに補正後の人物特徴量を用いて人物画像間の人物特徴量の距離を算出することにより距離行列を算出し、
算出された距離行列に基づいて前記複数のペア画像のデータセットに含まれる人物画像をクラスタリングし、
クラスタリングの結果として得られたクラスタごとに疑似ラベルを生成し、
前記人物画像を前記疑似ラベルのクラスに分類する機械学習モデルの機械学習に用いる学習データとして、前記複数のペア画像のデータセットに含まれる人物画像を説明変数とし、正解の疑似ラベルを目的変数とする前記学習データを生成する、
処理を前記コンピュータに実行させることを特徴とする請求項１～３のいずれか１つに記載の特定プログラム。

【請求項5】

コンピュータが、
複数のカメラのそれぞれが撮影した画像の重なる領域から得られる同一人物の複数のペア画像を取得し、
取得をした複数のペア画像に含まれる複数の人物画像のそれぞれから得られる人物特徴量に対応するノードを有する有向グラフを生成し、
前記ノード間で人物特徴量が類似する人物画像の数に基づいて、生成された有向グラフのリンクの重みを算出し、
算出されたリンクの重みに基づいて、前記複数のペア画像の全体で前記人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する、
処理を実行することを特徴とする特定方法。

【請求項6】

複数のカメラのそれぞれが撮影した画像の重なる領域から得られる同一人物の複数のペア画像を取得し、
取得をした複数のペア画像に含まれる複数の人物画像のそれぞれから得られる人物特徴量に対応するノードを有する有向グラフを生成し、
前記ノード間で人物特徴量が類似する人物画像の数に基づいて、生成された有向グラフのリンクの重みを算出し、
算出されたリンクの重みに基づいて、前記複数のペア画像の全体で前記人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する、
制御部を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、特定プログラム、特定方法および情報処理装置に関する。

【背景技術】

【0002】

生活様式の変化や労働力の不足に伴い、店舗運営の自動化や効率化を目的として、店舗内の監視カメラを用いた購買行動分析が利用されている。購買行動分析の例としては、店舗内の買い回り状況から行動分析により消費者の購買特性を推定したり、セルフレジの店舗にて不審行動を検知したりすることで、新規顧客開拓や店舗運営効率化を実現することが挙げられる。なお、買い回り状況からの行動分析とは、対象とする消費者が店舗内のどの商品を購入していくかを分析することをいい、不審行動検知とは、買い物かごに入れた商品をスキャンせずに退店していくかをいう。

【0003】

近年では、様々な店舗内の購買行動を分析するために、店舗内に設置された複数の監視カメラによる人物追跡技術が利用されている。この人物追跡技術としては、人物検出モデルと人物同定モデルとを組み合わせた同一人物の追跡技術が知られている。例えば、同一人物の追跡技術では、人物検出モデルにより、各監視カメラの画像からバウンディングボックスを検出し、人物同定モデルにより、各監視カメラの各フレームの人物のバウンディングが同一人物か否かを同定することが行われる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－２９０２１号公報

【特許文献2】特開２０１８－６１１１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記技術では、人物追跡技術で使用する各モデルの学習データの画像特性と、人物追跡技術を実際に適用する店舗で撮像した画像データの画像特性とが異なることが多く、人物同定モデルの推論精度が低下し、人物の誤同定が発生する。

【0006】

例えば、適用対象である店舗ごとに、監視カメラの画角や輝度が異なり、さらには、季節、流行に伴う服装の変化、年齢、人種などの客層が異なり、商品棚、床や柱の色や模様などの背景も異なる。このような画像特性の組合せは膨大であり、すべての組合せを訓練させることは現実的ではない。

【0007】

また、各モデルの訓練に使用する学習データのデータセットは、店舗ごとに用意することは実用上、非現実的であることから、一般的に公開されている公開データセットを使用することが多い。

【0008】

例えば、人物検出モデルは、画像データを入力し、画像データ内の人物の存在位置を推定し、そのエリア（バウンディングボックス）を出力するように深層学習などにより構築される。また、人物同定モデルは、２つの人物のバウンディングボックスが指定された画像データを入力し、それらの人物の特徴量（特徴ベクトル）を出力するように深層学習などにより構築される。なお、以降では、バウンディングボックスが指定された画像データを「バウンディングボックス画像」と記載することがある。

【0009】

このように、各モデルの学習データとしては、同一人物を様々な角度から撮像したバウンディングボックス画像を、大量の人数分取得することが好ましいが、実環境で学習データセットを取得することは膨大なコストがかかる。また、公開データセットで、様々な店舗の画像特性を網羅することは困難である。

【0010】

一つの側面では、人物の誤同定を抑制することができる特定プログラム、特定方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0011】

第１の案では、特定プログラムは、コンピュータに、複数のカメラのそれぞれが撮影した画像の重なる領域から得られる同一人物の複数のペア画像を取得し、取得をした複数のペア画像に含まれる複数の人物画像のそれぞれから得られる人物特徴量に対応するノードを有する有向グラフを生成し、前記ノード間で人物特徴量が類似する人物画像の数に基づいて、生成された有向グラフのリンクの重みを算出し、算出されたリンクの重みに基づいて、前記複数のペア画像の全体で前記人物特徴量が類似する人物画像の総数が最大となる人物特徴量の組合せパターンを特定する、処理を実行させる。

【発明の効果】

【0012】

一実施形態によれば、人物の誤同定を抑制することができる。

【図面の簡単な説明】

【0013】

【図1】図１は、実施例１にかかるシステムの全体構成例を示す図である。

【図2】図２は、人物追跡技術の参考技術１を説明する図である。

【図3】図３は、店舗の実映像を用いた学習データの生成を説明する図である。

【図4】図４は、人物追跡技術の参考技術２を説明する図である。

【図5】図５は、人物追跡技術の参考技術３を説明する図である。

【図6】図６は、疑似ラベルの生成事例を説明する図である。

【図7】図７は、疑似ラベルの生成事例を説明する図である。

【図8】図８は、人物特徴量の選択事例を説明する図である。

【図9】図９は、人物特徴量の選択事例を説明する図である。

【図10】図１０は、実施例１にかかる人物追跡技術に用いる人物同定モデルの生成を説明する図である。

【図11】図１１は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。

【図12】図１２は、人物検出モデルの生成を説明する図である。

【図13】図１３は、射影変換係数の算出を説明する図である。

【図14】図１４は、人物バウンディングボックスの検出を説明する図である。

【図15】図１５は、座標変換を説明する図である。

【図16】図１６は、同一人物ペアの抽出を説明する図である。

【図17】図１７は、有向グラフの生成を説明する図である。

【図18】図１８は、リンクの重みの算出を説明する図である。

【図19】図１９は、組合せ最適化問題の定式化を説明する図である。

【図20】図２０は、人物特徴量の組合せパターンの特定を説明する図である。

【図21】図２１は、推論処理を説明する図である。

【図22】図２２は、事前処理の流れを示すフローチャートである。

【図23】図２３は、同一人物ペアの抽出処理の流れを示すフローチャートである。

【図24】図２４は、学習データ生成処理の流れを示すフローチャートである。

【図25】図２５は、人物同定モデルの機械学習処理の流れを示すフローチャートである。

【図26】図２６は、推論処理の流れを示すフローチャートである。

【図27】図２７は、実施例１による効果を説明する図である。

【図28】図２８は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0014】

以下に、本願の開示する特定プログラム、特定方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例0015】

［全体構成］
図１は、実施例１にかかるシステムの全体構成例を示す図である。図１に示すように、このシステムは、空間の一例である店舗１と、店舗１の異なる場所に設置された複数のカメラ２と、情報処理装置１０とを有する。

【0016】

複数のカメラ２それぞれは、店舗１内の所定領域を撮像する監視カメラの一例であり、撮像した映像のデータを、情報処理装置１０に送信する。以下の説明では、映像のデータを「映像データ」と表記する場合がある。また、映像データには、時系列の複数の画像フレームが含まれる。各画像フレームには、時系列の昇順に、フレーム番号が付与される。１つの画像フレームは、カメラ２があるタイミングで撮影した静止画像の画像データである。

【0017】

情報処理装置１０は、複数のカメラ２それぞれにより撮像された各画像データを解析するコンピュータの一例である。なお、複数のカメラ２それぞれと情報処理装置１０とは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを用いて接続される。また、店舗１内には、通常のレジ、セルフレジなどが設置されており、店員は、スマートフォンなどの端末を保持している。

【0018】

近年では、各種店舗（特にセルフレジなどを導入する店舗）では、店舗内の購買行動を分析するために、店舗内に設置された複数の監視カメラによる人物追跡技術が利用されている。図２は、人物追跡技術の参考技術１を説明する図である。図２に示すように、人物追跡技術は、人物検出モデル５０と人物同定モデル６０とを組み合わせた同一人物の追跡技術である。

【0019】

人物検出モデル５０は、各カメラ２の画像データの入力に応じて、人物の存在位置を示す人物バウンディングボックス（Bounding Box：Bbox）を検出し、出力結果として出力する。人物同定モデル６０は、各カメラの画像データから検出された２つの人物バウンディングボックスの入力に応じて、それらの人物の特徴量（特徴ベクトル）の類似度評価、あるいは距離評価により、人物が同一人物であるか否かの判定結果を出力する。

【0020】

ところが、実運用において、人物同定モデルの機械学習（訓練）に利用される学習データ（訓練データ）の画像特性と、各カメラ２が撮像する実際の画像データの画像特性とが異なる場合、人物同定モデル６０の精度が低下する。また、各カメラ２の設置位置が異なることから、カメラの画角、輝度、背景なども異なるので、学習データの環境と実運用の環境とが一致しない状況では人物同定モデル６０の精度が低下する。

【0021】

すなわち、人物同定の学習データと推論対象の実店舗で、画像特性に不一致が生じる場合、人物特徴分布が変動するので、人物特徴量の推論精度が低下し、人物を誤同定する。このような誤同定により、カメラ２により撮像される画像データを用いて同一人物を追跡することが難しくなり、正確な購買行動の分析ができない。

【0022】

そこで、人物追跡技術の参考技術２では、店舗１のフロアマップとカメラ配置は取得可能であることから、複数カメラの撮影領域の重なり部分を利用し、同時刻において各カメラ２に映る同一位置の人物バウンディングボックスは同一人物である特性に着目し、推論対象店舗の人物同定の学習データを取得する。このようにして取得された学習データを用いて、人物同定モデルの機械学習を実行することにより、画像特性の影響を小さくし、人物の誤同定を抑制する。

【0023】

図３は、店舗１の実映像を用いた学習データの生成を説明する図である。図３に示すように、店舗１内に設置された各カメラ２は、異なる位置から異なる方向を撮像するが、撮像対象の領域が一部共通している（重複している）。例えば、カメラＡで撮像された画像データには、人物Ａと人物Ｂが写っており、カメラＢで撮像された画像データには、人物Ａと人物Ｂと人物Ｄが写っており、各カメラには人物Ａと人物Ｂとが共通して撮像されている。したがって、人物Ａと人物Ｂが「人物がだれか」までは特定できないものの、同一人物であることは特定できる。また、人物Ａと人物Ｂは、異なる方向から撮像されており、同じ画像データではない。

【0024】

すなわち、店舗内のカメラ２の映像データを用いることで、同一人物の画像データであって、異なる方向から撮像された複数の画像データを収集することができる。上記の参考技術２は、このような異なる方向から撮像された同一人物の各画像データを学習データに用いて、人物同定モデルの機械学習を実行する。

【0025】

図４は、人物追跡技術の参考技術２を説明する図である。図４に示すように、参考技術２では、一般に利用される公開データセットなどから、画像データと正解データ（人物ラベル）が対応付けられた学習データを取得する。そして、参考技術２では、例えば畳み込みニューラルネットワークで構成される第１の機械学習モデルに画像データを入力して出力結果を取得し、出力結果と正解データとが一致するように、第１の機械学習モデルの訓練を実行する。すなわち、参考技術２では、複数の人物に関連する学習データを用いた多クラス分類問題の機械学習により、第１の機械学習モデルを生成する。

【0026】

その後、参考技術２では、学習済みの第１の機械学習モデルの入力層および中間層と、新たな出力層とを用いて第２の機械学習モデルを生成する。また、参考技術２では、店舗の画像データから生成された同一人物の画像データである第１画像データと第２画像データとを用いて、同一人物ラベル（正解データ）が付与された学習データを生成する。そして、参考技術２では、店舗の画像データから生成された学習データの第１画像データと第２画像データとを第２の機械学習モデルに入力して同一性の判定結果を含む出力結果を取得し、出力結果と正解データとが一致するように、第２の機械学習モデルの訓練を実行する。すなわち、参考技術２では、所定の人物に関する学習データを用いた２クラス分類問題の機械学習により、第２の機械学習モデルを生成する。なお、以降では、店舗の画像データから生成された同一人物の画像データである第１画像データおよび第２画像データを「同一人物のペア画像」または「ペア画像」と記載することがある。さらに、以降では、同一人物のペア画像に含まれる要素となる第１画像データおよび第２画像データの各々を指して「サンプル」と記載することがある。

【0027】

参考技術２によれば、このように生成された第２の機械学習モデルを用いて人物同定を実行することで、推論対象の店舗に適した人物特徴量が学習され、人物追跡精度が向上し、精度良く購買行動分析を実現できる。

【0028】

このような参考技術２の応用例として、下記に説明する参考技術３がある。図５は、人物追跡技術の参考技術３を説明する図である。図５に示すように、参考技術３は、一般に利用される公開データセットなどから取得される学習データを用いて、多クラス分類問題の訓練により、第１の機械学習モデルを生成する点では図４を用いて説明した参考技術２と共通する。その一方で、参考技術３では、学習済みの第１の機械学習モデルの入力層および中間層と、新たな出力層とを用いて第２の機械学習モデルとは異なる第３の機械学習モデルが生成される点が参考技術２とは異なる。

【0029】

この点を説明すると、参考技術３では、店舗１の複数のカメラ２の撮影領域の重なり部分に基づいて抽出された同一人物のバウンディングボックス画像のペアを含む、Ｎ個のペア画像のデータセットを用いて、人物特徴量の距離行列Ｍ１が生成される。

【0030】

例えば、Ｎ個のペア画像の各々に含まれるサンプルの各々が訓練済みの第１の機械学習モデルの入力層および中間層が転用された畳み込みＮＮ（Neural Network）へ入力される。このようにサンプルが入力された畳み込みＮＮは、サンプルを特徴空間へ埋め込むことにより得られた人物特徴量（特徴ベクトル）を出力する。これにより、Ｎ個のペア画像のデータセットに含まれる２Ｎ個のサンプルの各々の人物特徴量が得られる。

【0031】

そして、参考技術３では、２Ｎ個のサンプルの組合せごとにサンプル間の人物特徴量の距離（コサイン距離など）を算出することにより、距離行列Ｍ１が生成される。このとき、参考技術３では、ペア画像のデータセットに基づいて、同一のペア画像に含まれるサンプルのペアのうち一方のサンプルの人物特徴量を選択し、選択されなかった他方のサンプルの人物特徴量を選択されたサンプルの人物特徴量に置換する。このようにペア画像のサンプル間で人物特徴量を統一する人物特徴量の補正が実行された上で、２Ｎ個のサンプルの組合せごとにサンプル間の人物特徴量の距離を算出することにより、距離行列Ｍ１が生成される。なお、ここでは、距離が算出される例を挙げるが、距離の代わりに、サンプル間の類似度が算出されることとしてもよい。

【0032】

その後、参考技術３では、距離行列Ｍ１に基づいてＮ個のペア画像のデータセットに含まれる２Ｎ個のサンプルをクラスタリングする。

【0033】

例えば、図５には、ｉ＝１～ｉ＝５の５つのサンプルが抜粋して示された５行×５列の距離行列Ｍ１を用いてクラスタリングが実行される場合が例示されている。このとき、２つのクラスタ間の距離が閾値Ｔｈ１（０．２）以下である場合、２つのクラスタが併合される例を挙げる。

【0034】

この場合、ｉ＝１のサンプルには、距離が閾値Ｔｈ１である他のサンプルが存在しないので、他のクラスタとは併合されず、ｉ＝１のサンプルが１つのクラスタとしてそのまま残る。一方、ｉ＝２～ｉ＝５の４つのサンプルの各々は、ハッチングで示された通り、全ての組合せで距離が閾値Ｔｈ１であるので、１つのクラスタに併合される。

【0035】

そして、参考技術３では、クラスタリングの結果として得られた２つのクラスタのうち、ｉ＝１のサンプルが属するクラスタには、疑似ラベルＡが生成されると共に、ｉ＝２～ｉ＝５の４つのサンプルが属するクラスタには、疑似ラベルＢが生成される。このように生成される疑似ラベルに基づいて、Ｎ個のペア画像のデータセットに含まれる２Ｎ個のサンプルの人物特徴量と、疑似ラベルとが対応付けられた学習データが生成される。

【0036】

その上で、参考技術３では、２Ｎ個のサンプルの人物特徴量を説明変数とし、疑似ラベルを目的変数とし、訓練済みの第１の機械学習モデルの入力層および中間層が転用された畳み込みＮＮと、新たな出力層とを含む第３の機械学習モデルが訓練される。

【0037】

具体的には、サンプルの人物特徴量を第３の機械学習モデルに入力して疑似ラベルのカテゴリに対応するクラスのラベルを含む出力結果を取得し、出力結果と正解の疑似ラベルとが一致するように、第３の機械学習モデルの訓練が実行される。すなわち、第３の機械学習モデルの出力結果と正解の疑似ラベルとに基づいて目的関数を最適化することにより、第３の機械学習モデルのパラメータが更新される。例えば、第３の機械学習モデルのパラメータは、出力結果と正解の疑似ラベルとから得られる損失を最小化する損失関数に基づいて更新できる。

【0038】

しかしながら、上記の参考技術３では、ペア画像のサンプル間で人物特徴量を統一する人物特徴量の補正で、２つのサンプルのうち不適切な方のサンプルの人物特徴量に補正される場合があるので、疑似ラベルの精度が悪化し、人物を誤同定する一面がある。

【0039】

図６及び図７は、疑似ラベルの生成事例を説明する図である。図６及び図７には、同一人物のペア画像の例として、図５に示すｉ＝２のサンプルおよびｉ＝５のサンプルのペアを含むペア画像が例示されている。さらに、図６には、ペア画像の２つのサンプルのうち補正に用いるサンプルの選択が成功して疑似ラベルの生成が成功するＯＫ例が示されている。一方で、図７には、ペア画像の２つのサンプルのうち補正に用いるサンプルの選択が失敗して疑似ラベルの生成が失敗するＮＧ例が示されている。

【0040】

ここで、以下では、図５～図７に示すｉ＝１～ｉ＝５の５つのサンプルのうち、ｉ＝２～ｉ＝５の４つのサンプルが同一人物のバウンディングボックス画像であることとして説明を続ける。

【0041】

例えば、図６に示す例で言えば、ペア画像の２つのサンプルのうち補正に用いるサンプルとして、ｉ＝２のサンプルが選択される。この場合、補正に用いるサンプルとして選択されなかったｉ＝５のサンプルの人物特徴量は、補正に用いるサンプルとして選択されたｉ＝２のサンプルの人物特徴量に補正される。

【0042】

このような補正が実行された上で、ｉ＝１～ｉ＝５の５つのサンプルの組合せごとにサンプル間の人物特徴量の距離を算出することにより、距離行列Ｍ１が生成される。この距離行列Ｍ１に基づいてｉ＝１～ｉ＝５の５つのサンプルのクラスタリングが実行される場合、図５に示す例と同様、疑似ラベルの生成に成功する。すなわち、ｉ＝１のサンプルが属するクラスタには、疑似ラベルＡが生成されると共に、ｉ＝２～ｉ＝５の４つのサンプルが属するクラスタには、疑似ラベルＢが生成される。

【0043】

このようにｉ＝２のサンプルの人物特徴量が補正に用いるサンプルとして選択された場合、ｉ＝２～ｉ＝５の４つのサンプルに同一の疑似ラベルＢを付与できるので、疑似ラベルの生成が成功する。

【0044】

一方、図７に示す例で言えば、ペア画像の２つのサンプルのうち補正に用いるサンプルとして、ｉ＝５のサンプルが選択される。この場合、補正に用いるサンプルとして選択されなかったｉ＝２のサンプルの人物特徴量は、補正に用いるサンプルとして選択されたｉ＝５のサンプルの人物特徴量に補正される。

【0045】

このような補正が実行された上で、ｉ＝１～ｉ＝５の５つのサンプルの組合せごとにサンプル間の人物特徴量の距離を算出することにより、距離行列Ｍ２が生成される。この距離行列Ｍ２に基づいてｉ＝１～ｉ＝５の５つのサンプルのクラスタリングが実行される場合、次の通りとなる。

【0046】

すなわち、ｉ＝１のサンプルには、距離が閾値Ｔｈ１である他のサンプルが存在しないので、他のクラスタとは併合されず、ｉ＝１のサンプルが１つのクラスタとしてそのまま残る。また、ｉ＝２のサンプルの人物特徴量は、ｉ＝５のサンプルの人物特徴量に置換されているので、ｉ＝２のサンプルの人物特徴量およびｉ＝５のサンプルの人物特徴量の間の距離はゼロとなる。このようなｉ＝５のサンプル以外、ｉ＝２のサンプルには、距離が閾値Ｔｈ１である他のサンプルが存在しない。よって、ｉ＝２のサンプルおよびｉ＝５のサンプルが同一のクラスタとして分類される。また、ｉ＝３のサンプルには、距離が閾値Ｔｈ１であるｉ＝４のサンプルが存在する。このため、ｉ＝３のサンプルおよびｉ＝４のサンプルが同一のクラスタとして分類される。

【0047】

このようなクラスタリングの結果として得られた３つのクラスタのうち、ｉ＝１のサンプルが属するクラスタには、疑似ラベルＡが生成される。さらに、ｉ＝２のサンプルおよびｉ＝５のサンプルが属するクラスタには、疑似ラベルＢが生成される。さらに、ｉ＝３のサンプルおよびｉ＝４のサンプルが属するクラスタには、疑似ラベルＣが生成される。

【0048】

このようにペア画像のうちｉ＝５のサンプルの人物特徴量が補正に用いるサンプルとして選択された場合、ｉ＝２～ｉ＝５の４つのサンプルに同一の疑似ラベルを付与できないので、疑似ラベルの生成が失敗する。

【0049】

図７に示す事例を避ける側面から、補正に用いるサンプルをランダムに選択したり、あるいは一方を固定で選択したりするのでは、Ｎ個のペア画像の各々で補正に用いるサンプルが選択される中で選択の失敗が避けられず、不適切な人物特徴量の混入も避け得ない。

【0050】

そこで、実施例１では、同一人物のペア画像から２つのサンプルを代表する人物特徴量を選択する際、サンプル間の人物特徴量の距離が閾値以下となる類似サンプルの数の特性に着目する。

【0051】

ここで言う「特性」とは、１つの側面として、同一のカテゴリの疑似ラベルに属さないサンプル、すなわちバウンディングボックス画像は、類似サンプルが少ない傾向を持つという知見を指す。つまり、類似サンプルの数が多い方の人物特徴量を選択すると、同一のカテゴリの疑似ラベルへの組み込みが促進される側面がある。

【0052】

図８及び図９は、人物特徴量の選択事例を説明する図である。図８には、ペア画像の２つのサンプルのうち補正に用いるサンプルの選択が成功するＯＫ例の類似サンプル数が示される一方で、図９には、ペア画像の２つのサンプルのうち補正に用いるサンプルの選択が失敗するＮＧ例の類似サンプル数が示されている。

【0053】

図８に示すように、補正に用いるサンプルの選択が成功するＯＫ例では、同一人物のペア画像のうちｉ＝２のサンプルが選択される。この場合、ｉ＝２のサンプルは、ｉ＝３のサンプルおよびｉ＝４のサンプルと類似するので、類似サンプル数は「２」となる。一方、図９に示すように、補正に用いるサンプルの選択が失敗するＮＧ例では、同一人物のペア画像のうちｉ＝５のサンプルが選択される。この場合、ｉ＝５のサンプルには、類似するサンプルが存在しないので、類似サンプル数は「０」となる。

【0054】

これら図８及び図９に示す事例からも、同一のカテゴリの疑似ラベルに属するサンプルは、類似サンプルが多い傾向を持つと共に、同一のカテゴリの疑似ラベルに属さないサンプルは、類似サンプルが少ない傾向を持つことが明らかである。このことから、類似サンプルの数が多い方の人物特徴量を選択すると、同一のカテゴリの疑似ラベルへの組み込みが促進されることも自明となる。

【0055】

このような着想の下、実施例１では、Ｎ個のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンを特定する。このようにして特定された人物特徴量の組合せパターンに基づいて算出される距離行列を用いてサンプルをクラスタリングし、その結果に基づいて各サンプルに疑似ラベルを付与して、人物同定モデルの機械学習を実行する。

【0056】

これにより、ペア画像のサンプル間で人物特徴量を統一する人物特徴量の補正で、適切な方のサンプルの人物特徴量を補正に用い、疑似ラベルの精度悪化を抑制し、人物の誤同定を抑制する。

【0057】

図１０は、実施例１にかかる人物追跡技術に用いる人物同定モデルの生成を説明する図である。図１０に示すように、実施例１にかかる人物追跡技術は、一般に利用される公開データセットなどから取得される学習データを用いて、多クラス分類問題の訓練により、第１の機械学習モデルを生成する点では図５を用いて説明した参考技術３と共通する。その一方で、実施例１では、ペア画像ごとに補正に用いるサンプルが選択されたサンプルの組合せパターンを決定する際、Ｎ個のペア画像の全体で類似サンプルの総数が最大となるサンプルの組合せパターンを特定する点が異なる。

【0058】

ここで、類似サンプルの総数の算出時には、他の同一人物ペアの選択結果の影響を受けるので、個々の同一人物ペアで数を比較するのではなく、全体の数が最大となる組み合わせを算出する必要がある。

【0059】

例えば、同一人物のペア画像ごとに補正に用いるサンプルが選択される全ての組合せパターンについて類似サンプルの総数を計算する場合、同一人物のペア画像の数が増加するに連れて計算量が増大する。すなわち、同一人物のペア画像の数をＮ個としたとき、１つのペア画像につき２通りのサンプルの選択肢が存在するので、計算量は２^Ｎとなる。このような側面から、実施例１では、全ての組合せパターンについて類似サンプルの総数を計算する場合と同等の精度の疑似ラベルの生成および計算量の削減を実現する近似解法を人物特徴量の組合せパターンの特定に適用する。

【0060】

より詳細には、実施例１では、ペア画像ごとに当該ペア画像に含まれる２つのサンプルの人物特徴量に対応する２つのノードを始点から終点への向きへ順に並べた有向グラフを定義する。この有向グラフでは、あるペア画像の２つのノードの各々の子ノードが別のペア画像の２つのノードとされると共に、２つの親ノードのそれぞれおよび２つの子ノードのそれぞれがリンクで接続される。このように定義される有向グラフは、始点から各ペア画像の一方のサンプルを採用して終点に至る経路を意味する。

【0061】

このような有向グラフの下、実施例１では、直前ノードの人物特徴量の選択結果が反映された類似サンプル数を算出し、その値を各リンクの重みとする。例えば、リンクの始点側に接続される直前ノードまでの経路に含まれるノードと、リンクの終点側に接続される直後ノードとの間における類似サンプル数がリンクの重みとして算出される。

【0062】

その上で、実施例１では、ダイクストラ法などのアルゴリズムにしたがって有向グラフ上のリンクの重みの総和が最大となるノードの組合せパターン、つまり人物特徴量の組合せパターンを特定する組合せ最適化問題として定式化する。これは有向グラフで取り得る経路の重み総和の組合せの中から、最適な組み合わせを求める組合せ最適化問題と等価である。このように定式化された最適化問題の計算を実行することにより、Ｎ個のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンの特定が実現される。さらに、ダイクストラ法が適用される場合、人物特徴量の組合せパターンを特定する計算量がＮ^２まで削減され得る。

【0063】

このように特定された人物特徴量の組合せパターンにしたがってＮ個のペア画像の各々で２つのサンプルの人物特徴量のうち補正に用いる人物特徴量が選択される。

【0064】

このため、図８に示す事例の通り、補正に用いる人物特徴量の選択に成功した状態で算出された距離行列Ｍ１に基づいてクラスタリングが実行される。それ故、図６に示す事例の通り、ｉ＝１のサンプルに疑似ラベルＡを付与すると共に、ｉ＝２～ｉ＝５の４つのサンプルに同一の疑似ラベルＢを付与できるので、疑似ラベルの生成が成功する。

【0065】

このように生成に成功した疑似ラベルがサンプルに付与された学習データに基づいて、訓練済みの第１の機械学習モデルの入力層および中間層が転用された畳み込みＮＮと、新たな出力層とを含む第３の機械学習モデルが訓練される。

【0066】

情報処理装置１０は、このように訓練された第３の機械学習モデルを用いて人物同定を実行することで、疑似ラベルの精度悪化が抑制され、人物追跡精度が向上し、精度良く購買行動分析を実現できる。

【0067】

［機能構成］
図１１は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図１１に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

【0068】

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１１は、カメラ２から映像データを受信し、制御部２０による処理結果を店員の端末などに送信する。

【0069】

記憶部１２は、各種データや制御部２０が実行するプログラムなどを記憶する処理部であり、メモリやハードディスクなどにより実現される。記憶部１２は、映像データＤＢ１３、公開データセット１４、店舗データセット１５、人物検出モデル１６、人物同定モデル１７を記憶する。

【0070】

映像データＤＢ１３は、店舗１に設置される複数のカメラ２それぞれにより撮像された映像データを記憶するデータベースである。例えば、映像データＤＢ１３は、カメラ２ごと、または、撮像された時間帯ごとに、映像データを記憶する。

【0071】

公開データセット１４は、予め収集された学習データを記憶する。具体的には、公開データセット１４は、人物検出モデル１６の機械学習に用いる学習データと、人物同定モデル１７の多クラス分類問題の機械学習に用いる学習データとを記憶する。

【0072】

例えば、人物検出モデル１６の機械学習に用いる学習データは、人物が写っている画像データと、写っている人物の存在位置を示す人物バウンディングボックスとが対応付けられたデータである。すなわち、画像データが説明変数、人物バウンディングボックスが目的変数（正解データ）となる。

【0073】

また、多クラス分類問題用の学習データは、人物バウンディングボックスと、その人物がだれであるか否かを示す人物ラベルとが対応付けられたデータである。すなわち、人物バウンディングボックスが説明変数、人物ラベルが目的変数（正解データ）となる。

【0074】

店舗データセット１５は、人物同定モデル１７の機械学習に用いる学習データを記憶する。具体的には、店舗データセット１５は、後述する制御部２０により、店舗１のカメラ２の映像データを用いて生成された学習データを記憶する。ここで記憶される学習データは、人物バウンディングボックス画像と、疑似ラベルとが対応付けられたデータである。すなわち、人物バウンディングボックス画像が説明変数、同一人物ラベルが目的変数（正解データ）となる。

【0075】

人物検出モデル１６は、画像データの入力に応じて、画像データの人物バウンディングボックスを検出する、入力層と中間層と出力層を有する機械学習モデルである。例えば、人物検出モデル１６には、畳み込みニューラルネットワークを採用することができる。

【0076】

人物同定モデル１７は、人物バウンディングボックスの入力に応じて、その人物バウンディングボックスがどの人物であるかを識別する、入力層と中間層と出力層を有する機械学習モデルである。例えば、人物同定モデル１７には、畳み込みニューラルネットワークを採用することができる。

【0077】

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどによる実現される。この制御部２０は、検出モデル生成部２１、事前処理部２２、学習データ生成部２３、同定モデル生成部２４、推論実行部２５を有する。なお、検出モデル生成部２１、事前処理部２２、学習データ生成部２３、同定モデル生成部２４、推論実行部２５は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

【0078】

検出モデル生成部２１は、機械学習により、人物検出モデル１６を生成する処理部である。具体的には、検出モデル生成部２１は、入力された学習データから人物バウンディングボックスを検出するように、人物検出モデル１６が有する重みなどの各種パラメータの更新を実行することで、人物検出モデル１６を生成する。

【0079】

図１２は、人物検出モデル１６の生成を説明する図である。図１２に示すように、検出モデル生成部２１は、入力となる画像データと人物バウンディングボックスが指定される正解データとが対応付けられた学習データを、公開データセット１４から取得する。そして、検出モデル生成部２１は、画像データを人物検出モデル１６に入力して、人物検出モデル１６の出力結果を取得する。その後、検出モデル生成部２１は、出力結果と正解データとの誤差が小さくなるように、誤差逆伝播などにより人物検出モデル１６の機械学習を実行する。

【0080】

事前処理部２２は、映像取得部２２ａと変換処理部２２ｂとを有し、店舗１で撮像された画像データから人物同定モデル１７の学習データを生成するための事前処理を実行する処理部である。すなわち、事前処理部２２は、推論対象である店舗１のフロアマップに対する各カメラ２の撮影領域の射影変換係数を推定する。

【0081】

映像取得部２２ａは、各カメラ２から映像データを取得して映像データＤＢ１３に格納する処理部である。例えば、映像取得部２２ａは、各カメラ２から随時取得してもよく、定期的に取得してもよい。

【0082】

変換処理部２２ｂは、カメラ２ごとに異なる、各カメラ２で撮像される画像データの座標である画像座標を、各カメラで共通する、店舗１のフロアマップの座標であるフロアマップ座標に変換するための射影変換係数を推定する処理部である。なお、カメラおよびフロア構成は一般的に固定であることから、射影変換（ホモグラフィ）係数の推定は一回実施したらよい。

【0083】

図１３は、射影変換係数の算出を説明する図である。図１３に示すように、変換処理部２２ｂは、カメラ画像（画像座標系）とフロアマップ（フロアマップ座標系）との間で対応する任意の点（対応点）を指定する。例えば、変換処理部２２ｂは、画像座標系から、点（ｘ_１，ｙ_１）、点（ｘ_２，ｙ_２）、点（ｘ_３，ｙ_３）、点（ｘ_４，ｙ_４）を特定する。同様に、変換処理部２２ｂは、フロアマップ座標系から、点（Ｘ_１，Ｙ_１）、点（Ｘ_２，Ｙ_２）、点（Ｘ_３，Ｙ_３）、点（Ｘ_４，Ｙ_４）を特定する。その後、変換処理部２２ｂは、画像座標系（ｘ，ｙ）からフロアマップ座標系（Ｘ，Ｙ）への射影変換係数ａ_ｉ（ｉ＝１－８）を、図１３の式（１）に示した連立方程式を解くことにより算出する。なお、対応点は、ユーザが指定してもよく、画像解析により同じ場所の点を特定してもよい。

【0084】

学習データ生成部２３は、検出部２３ａと抽出部２３ｂと生成部２３ｃと算出部２３ｄと特定部２３ｅを有し、人物検出および座標算出を実行して、カメラ２の画像データから人物同定モデル１７の学習データを生成する処理部である。

【0085】

検出部２３ａは、各カメラ２により撮像された画像データから、学習済みである人物検出モデル１６を用いて、人物バウンディングボックスを検出する処理部である。図１４は、人物バウンディングボックスの検出を説明する図である。図１４に示すように、検出部２３ａは、カメラ２で撮像された画像データを人物検出モデル１６に入力し、ＩＤ＝ａの人物バウンディングボックス、ＩＤ＝ｂの人物バウンディングボックス、ＩＤ＝ｃの人物バウンディングボックス、ＩＤ＝ｄの人物バウンディングボックスが検出された出力結果を取得する。

【0086】

このようにして、検出部２３ａは、設置位置が異なる各カメラ２により、異なる方向で撮像された様々な画像データに対して人物検出を行い、検出された人物バウンディングボックスを含む出力結果を取得して、記憶部１２等に格納する。

【0087】

抽出部２３ｂは、検出部２３ａにより検出された人物バウンディングボックスのフロアマップ座標を算出し、同一人物のペア画像を抽出する処理部である。

【0088】

まず、抽出部２３ｂは、事前処理部２２により算出された射影変換係数を用いて、検出部２３ａにより検出された画像座標系の人物バウンディングボックスをフロアマップ座標系に変換する。図１５は、座標変換を説明する図である。図１５に示すように、抽出部２３ｂは、各人物バウンディングボックスの下端中央の画像座標（ｘ，ｙ）を人物位置とし、フロアマップ座標（Ｘ，Ｙ）での人物位置を算出する。

【0089】

例えば、抽出部２３ｂは、画像座標系で検出された人物位置を示す点（ｘ_１，ｙ_１）、点（ｘ_２，ｙ_２）、点（ｘ_３，ｙ_３）、点（ｘ_４，ｙ_４）それぞれについて、図１５の式（２）に示す変換式を用いて、フロアマップ座標系の人物位置を示す点（Ｘ_１，Ｙ_１）、点（Ｘ_２，Ｙ_２）、点（Ｘ_３，Ｙ_３）、点（Ｘ_４，Ｙ_４）に変換する。このようにして、抽出部２３ｂは、各カメラ２の画像データに写っている、カメラ固有の画像座標系の人物バウンディングボックスを、各カメラ共通のフロアマップ座標系で表現する。

【0090】

次に、抽出部２３ｂは、２つのカメラ間で同等のフロアマップ座標に位置する、ペアの人物バウンディングボックス画像のデータセットを取得する。すなわち、抽出部２３ｂは、各カメラ２の画像データのうち同時刻に撮像された複数の画像データの人物バウンディングボックスを用いて、同一人物である（対となる）人物バウンディングボックスのペアを抽出する。

【0091】

図１６は、同一人物ペアの抽出を説明する図である。図１６に示すように、抽出部２３ｂは、時刻ｔにカメラＡで撮像された画像データＡと、同時刻の時刻ｔにカメラＢで撮像された画像データＢとを取得する。そして、抽出部２３ｂは、カメラＡの画像データＡから検出された画像座標系の人物バウンディングボックスを、図１５の式（２）を用いて、フロアマップ座標系の人物バウンディングボックスに変換する。同様に、抽出部２３ｂは、カメラＢの画像データＢから検出された画像座標系の人物バウンディングボックスを、図１５の式（２）を用いて、フロアマップ座標系の人物バウンディングボックスに変換する。

【0092】

そして、抽出部２３ｂは、各カメラの撮像範囲が重なるフロアマップ座標の範囲を算出する。例えば、図１６に示すように、カメラＡの撮像範囲は、Ｘ軸がＸ^Ａ _ｉｎかＸ^Ａ _ｏｕｔの範囲かつＹ軸がＹ^Ａ _ｉｎかＹ^Ａ _ｏｕｔの範囲であり、その範囲内に、人物位置として（Ｘ^Ａ _ａ，Ｙ^Ａ _ａ）と（Ｘ^Ａ _ｂ，Ｙ^Ａ _ｂ）が検出されている。また、カメラＢの撮像範囲は、Ｘ軸がＸ^Ｂ _ｉｎかＸ^Ｂ _ｏｕｔの範囲かつＹ軸がＹ^Ｂ _ｉｎかＹ^Ｂ _ｏｕｔの範囲であり、その範囲内に、人物位置として（Ｘ^Ｂ _ａ，Ｙ^Ｂ _ａ）、（Ｘ^Ｂ _ｂ，Ｙ^Ｂ _ｂ）、（Ｘ^Ｂ _ｃ，Ｙ^Ｂ _ｃ）、（Ｘ^Ｂ _ｄ，Ｙ^Ｂ _ｄ）が検出されている。なお、各人物位置は、上述したように、検出された人物バウンディングボックスの下端中央の画像座標である。

【0093】

ここで、抽出部２３ｂは、カメラＡのフロアマップ座標の範囲（Ｘ^Ａ，Ｙ^Ａ）とカメラＢのフロアマップ座標の範囲（Ｘ^Ｂ，Ｙ^Ｂ）の重なる範囲（Ｘ^ＡＢ，Ｙ^ＡＢ）を算出する。なお、図１６の式３に示すように、Ｘ^ＡＢの範囲は、「Ｘ^Ａ _ｉｎまたはＸ^Ｂ _ｉｎ」のうちの最大値以上かつ「Ｘ^Ａ _ｏｕｔもしくはＸ^Ｂ _ｏｕｔ」のうちの最小値以下であり、Ｙ^ＡＢの範囲は、「Ｙ^Ａ _ｉｎまたはＹ^Ｂ _ｉｎ」のうちの最大値以上かつ「Ｙ^Ａ _ｏｕｔもしくはＹ^Ｂ _ｏｕｔ」のうちの最小値以下である。

【0094】

続いて、抽出部２３ｂは、重なり範囲（Ｘ^ＡＢ，Ｙ^ＡＢ）にいる各カメラの人物群について、同等位置の人物ペアを抽出する。具体的には、抽出部２３ｂは、ユークリッド距離による最小重み付きマッチング等の手法を用いて、近傍ペアの組合せを抽出し、近傍ペアのうち、ユークリッド距離が既定閾値より小さいペアを同一人物ペアとする。このとき、抽出部２３ｂは、毎フレーム分抽出するとほぼ同じペアデータを大量に取得することになるので、サンプリングで間引くこともできる。

【0095】

図１６の例では、抽出部２３ｂは、カメラＡとカメラＢの重なり範囲に、カメラＡ側の撮影範囲には人物Ａａ（Ｘ^Ａ _ａ，Ｙ^Ａ _ａ）と人物Ａｂ（Ｘ^Ａ _ｂ，Ｙ^Ａ _ｂ）の人物が検出され、カメラＢ側の撮影範囲には人物Ｂａ（Ｘ^Ｂ _ａ，Ｙ^Ｂ _ａ）と人物Ｂｄ（Ｘ^Ｂ _ｄ，Ｙ^Ｂ _ｄ）の人物が検出されていることを特定する。続いて、抽出部２３ｂは、人物Ａａ（Ｘ^Ａ _ａ，Ｙ^Ａ _ａ）と人物Ｂａ（Ｘ^Ｂ _ａ，Ｙ^Ｂ _ａ）のユークリッド距離および人物Ａａ（Ｘ^Ａ _ａ，Ｙ^Ａ _ａ）と人物Ｂｄ（Ｘ^Ｂ _ｄ，Ｙ^Ｂ _ｄ）のユークリッド距離を算出する。同様に抽出部２３ｂは、人物Ａｂ（Ｘ^Ａ _ｂ，Ｙ^Ａ _ｂ）と人物Ｂａ（Ｘ^Ｂ _ａ，Ｙ^Ｂ _ａ）のユークリッド距離および人物Ａｂ（Ｘ^Ａ _ｂ，Ｙ^Ａ _ｂ）と人物Ｂｄ（Ｘ^Ｂ _ｄ，Ｙ^Ｂ _ｄ）のユークリッド距離を算出する。

【0096】

その後、抽出部２３ｂは、ユークリッド距離が既定閾値より小さい人物ペアとして、人物Ａａ（Ｘ^Ａ _ａ，Ｙ^Ａ _ａ）と人物Ｂａ（Ｘ^Ｂ _ａ，Ｙ^Ｂ _ａ）、人物Ａｂ（Ｘ^Ａ _ｂ，Ｙ^Ａ _ｂ）と人物Ｂｄ（Ｘ^Ｂ _ｄ，Ｙ^Ｂ _ｄ）の各ペアを抽出する。

【0097】

このようにして、抽出部２３ｂは、同時刻で撮像された各カメラの画像データに含まれる人物（人物バウンディングボックス）について、同一人物となるペアを抽出する。これにより、Ｎ個の同一人物のペア画像のセットが得られる。

【0098】

生成部２３ｃは、同一人物のペア画像に含まれる複数のサンプルの人物特徴量に対応するノードを有する有向グラフを生成する処理部である。

【0099】

図１７は、有向グラフの生成を説明する図である。図１７に示すように、まず、生成部２３ｃは、Ｎ個のペア画像の各々に含まれるサンプルの各々を訓練済みの第１の機械学習モデルの入力層および中間層が転用された畳み込みニューラルネットワークへ入力する。これにより、Ｎ個のペア画像のデータセットに含まれる２Ｎ個のサンプルの各々の人物特徴量が得られる。

【0100】

そして、生成部２３ｃは、Ｎ個の同一人物のペア画像ごとに当該ペア画像に含まれる２つサンプルの人物特徴量に対応する２つのノードを始点から終点への向きへ順に並べる。このとき、あるペア画像の２つのノードの各々の子ノードが別のペア画像の２つのノードとされると共に、２つの親ノードの各々および２つの子ノードの各々をリンクで接続する。

【0101】

例えば、有向グラフの始点ノードｖ_Ｓの次に、１つ目のペアの人物特徴量ｆ^１ _ｉに対応するノードおよび人物特徴量ｆ^１ _ｊに対応するノードが並べられる。これに続いて、２つ目のペアの人物特徴量ｆ^２ _ｉに対応するノードおよび人物特徴量ｆ^２ _ｊに対応するノード、・・・、Ｎ個目のペアの人物特徴量ｆ^Ｎ _ｉに対応するノードおよび人物特徴量ｆ^Ｎ _ｊに対応するノードが順に並べられる。これらＮ個目のペアのノードの次には、終点ノードｖ_Ｔが並べられる。

【0102】

このような有向グラフでは、あるペア画像の２つのノードの各々の子ノードが別のペア画像の２つのノードとされると共に、２つの親ノードのそれぞれおよび２つの子ノードのそれぞれがリンクで接続される。

【0103】

例えば、１つ目のペアと２つ目のペアの間のリンクを例に言えば、次に挙げる４つのリンクが定義される。すなわち、人物特徴量ｆ^１ _ｉおよび人物特徴量ｆ^２ _ｉを接続するリンク、人物特徴量ｆ^１ _ｉおよび人物特徴量ｆ^２ _ｊを接続するリンク、人物特徴量ｆ^１ _ｊおよび人物特徴量ｆ^２ _ｉを接続するリンク、人物特徴量ｆ^１ _ｊおよび人物特徴量ｆ^２ _ｊを接続するリンクが定義される。

【0104】

このように定義される有向グラフは、始点から各ペア画像の一方のサンプルを採用して終点に至る経路を意味する。

【0105】

算出部２３ｄは、有向グラフに含まれるリンクの重みを算出する処理部である。例えば、算出部２３ｄは、有向グラフに含まれるリンクごとに、直前ノードの人物特徴量の選択結果が反映された類似サンプル数を算出し、その値を当該リンクの重みに設定する。

【0106】

図１８は、リンクの重みの算出を説明する図である。図１８には、太線の実線で示されたリンクにおける類似サンプル数と、太線の破線で示されたリンクにおける類似サンプル数とが例示されている。

【0107】

例えば、太線の実線で示されたリンクの場合、当該リンクの終点側に接続される直後ノードであるｉ＝２のサンプルの人物特徴量と、当該リンクの始点側に接続される直前ノードまでの経路に含まれるノード、例えばｉ＝１、ｉ＝３およびｉ＝４のサンプルの人物特徴量との間で類似サンプル数が算出される。この場合、ｉ＝２のサンプルの人物特徴量と、ｉ＝３およびｉ＝４のサンプルの人物特徴量との距離が閾値Ｔｈ１以下となるので、類似サンプル数は「２」と算出される。このように算出された類似サンプル数「２」が太線の実線で示されたリンクの重みとして設定される。

【0108】

また、太線の破線で示されたリンクの場合、当該リンクの終点側に接続される直後ノードであるｉ＝５のサンプルの人物特徴量と、当該リンクの始点側に接続される直前ノードまでの経路に含まれるノード、例えばｉ＝１、ｉ＝３およびｉ＝４のサンプルの人物特徴量との間で類似サンプル数が算出される。この場合、ｉ＝５のサンプルの人物特徴量に対する距離が閾値Ｔｈ１以下となる人物特徴量は存在しないので、類似サンプル数は「０」と算出される。このように算出された類似サンプル数「０」が太線の破線で示されたリンクの重みとして設定される。

【0109】

なお、図１８には、直前ノードまでの経路に含まれるノードの例として、２つのリンクの間で共通するｉ＝１、ｉ＝３およびｉ＝４のサンプルの人物特徴量を抜粋して挙げたが、直前ペアのノードごとに異なる人物特徴量が含まれ得る。

【0110】

特定部２３ｅは、同一人物のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンを特定する処理部である。例えば、特定部２３ｅは、ダイクストラ法にしたがって有向グラフ上のリンクの重みの総和が最大となるノードの組合せパターン、つまり人物特徴量の組合せパターンを特定する組合せ最適化問題として定式化する。

【0111】

図１９は、組合せ最適化問題の定式化を説明する図である。例えば、図１９に示す有向グラフＧ＝（Ｖ，Ｅ）に関連する要素を次の通りに表すこととする。すなわち、エッジをｅ_ｉｊ＝（ｖ_ｉ，ｖ_ｊ）∈Ｅ、ノードをｖ_ｉ∈Ｖ、さらに、エッジｅ_ｉｊの重みをａ_ｉｊ、類似サンプル数を｜Ｒ（ｉ，Ｊ）｜と表す。ノードｖ_ｉは、サンプルｉの人物特徴量に対応する。類似サンプル数｜Ｒ（ｉ，Ｊ）｜は、直前ノードｉの人物特徴量を考慮したノードｊの類似サンプル数に対応する。

【0112】

ここで、図１９に示す有向グラフＧの始点ノードｖ_Ｓから終点ノードｖ_Ｔまでの経路ｚで類似サンプルの総数が最大となる経路を探索する最適化問題は、ダイクストラ法にしたがってアルゴリズムＡｇに定式化できる。このアルゴリズムＡｇは、有向グラフＧで取り得る経路ｚの重み総和の組合せの中から、最適な組み合わせを求める組合せ最適化問題を意味する。このようにダイクストラ法が適用される場合、人物特徴量の組合せパターンを特定する計算量をＮ^２まで削減できる。

【0113】

特定部２３ｅは、このようにアルゴリズムＡｇに定式化された最適化問題の計算を実行することにより、Ｎ個のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンを特定する。

【0114】

図２０は、人物特徴量の組合せパターンの特定を説明する図である。図２０に示すように、図１９に示すアルゴリズムＡｇに定式化された最適化問題の計算が実行されることにより、太線で示されたリンクが連なる経路がＮ個のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンとして特定される。このように特定される人物特徴量の組合せパターンによれば、補正に用いる人物特徴量の選択を成功させることができる。例えば、最適化問題の計算で得られた経路で２つ目のペア画像に含まれる人物特徴量ｉおよび人物特徴量ｊのうち同一の疑似ラベルへの組み込みが促進される人物特徴量ｊを選択できる。

【0115】

このように人物特徴量の組合せパターンが特定された後、学習データ生成部２３は、Ｎ個の同一人物のペア画像ごとに２つのサンプルの人物特徴量のうち特定部２３ｅにより特定された人物特徴量の組合せパターンに対応する人物特徴量に統一する補正を実行する。このような補正により、Ｎ個の同一人物のペア画像ごとに人物特徴量の組合せパターンで選択されなかった人物特徴量が人物特徴量の組合せパターンで選択された人物特徴量に置換される。

【0116】

その後、学習データ生成部２３は、図１０に示された通り、２Ｎ個のサンプルの組合せごとに補正後の人物特徴量を用いてサンプル間の人物特徴量の距離を算出することにより距離行列Ｍ１を算出する。そして、学習データ生成部２３は、距離行列Ｍ１に基づいてＮ個のペア画像のデータセットに含まれる２Ｎ個のサンプルをクラスタリングし、クラスタリングの結果として得られたクラスタごとに疑似ラベルを生成する。その上で、学習データ生成部２３は、Ｎ個のペア画像のデータセットに含まれる２Ｎ個のサンプルの人物特徴量を説明変数、疑似ラベルを目的変数とする学習データを生成して、店舗データセット１５に格納する。

【0117】

図１１に戻り、同定モデル生成部２４は、第１機械学習部２４ａと第２機械学習部２４ｂとを有し、人物同定モデル１７の機械学習を実行する処理部である。

【0118】

第１機械学習部２４ａは、公開データセット１４を用いた多クラス分類問題による機械学習を実行し、第一の機械学習モデルを生成する。図１０を用いて説明した通り、第１機械学習部２４ａは、同一人物が異なる写り方をした各学習データの入力に応じて、入力された各学習データに写っている人物を識別する多クラス分類問題の機械学習により、第一の機械学習モデルを生成する。なお、第一の機械学習モデルは、入力層および中間層を含む畳み込みニューラルネットワークと、出力層とを含んでよい。

【0119】

例えば、第１機械学習部２４ａは、公開データセット１４に含まれる人物Ａの様々な人物バウンディングボックスを、畳み込みニューラルネットワークに入力して、出力層から各識別結果（出力結果）を取得する。そして、第１機械学習部２４ａは、各識別結果と人物ラベル（人物Ａ）との誤差が小さくなるように、言い換えると人物Ａと識別されるように、畳み込みニューラルネットおよび出力層のパラメータ更新を実行する。

【0120】

同様に、第１機械学習部２４ａは、公開データセット１４に含まれる人物Ｂの様々な人物バウンディングボックスを、畳み込みニューラルネットワークに入力して、出力層から各識別結果を取得する。そして、第１機械学習部２４ａは、各識別結果と人物ラベル（人物Ｂ）との誤差が小さくなるように、畳み込みニューラルネットおよび出力層のパラメータ更新を実行する。

【0121】

公開データセットを用いた機械学習が終了すると、第２機械学習部２４ｂは、店舗データセット１５を用いた機械学習を実行することにより、第３の機械学習モデルの一例である人物同定モデル１７を生成する。

【0122】

具体的には、第２機械学習部２４ｂは、学習済みである第１の機械学習モデルの入力層および中間層を含む畳み込みニューラルネットワークと、未学習である新たな出力層とを用いて、人物同定モデル１７の層構造のパラメータを設定する。そして、第２機械学習部２４ｂは、店舗データセット１５に記憶される学習データを用いて、人物バウンディングボックス画像を疑似ラベルのクラス分類を行う機械学習により、人物同定モデル１７を生成する。

【0123】

例えば、図１０に示すように、第２機械学習部２４ｂは、２Ｎ個のサンプルの人物特徴量を説明変数とし、疑似ラベルを目的変数とし、訓練済みの第１の機械学習モデルの入力層および中間層が転用された畳み込みＮＮと、新たな出力層とを含む第３の機械学習モデルを訓練する。

【0124】

【0125】

図１１に戻り、推論実行部２５は、同定モデル生成部２４により生成された人物同定モデル１７を用いて、実店舗のカメラ２で撮像された各画像データに写っている人物の同定を実行する処理部である。すなわち、推論実行部２５は、人物同定モデル１７を用いて、各カメラ２で撮像された画像データ内の人物の紐づけを実行する。

【0126】

図２１は、推論処理を説明する図である。図２１に示すように、推論実行部２５は、店舗の各カメラ２で撮像された各画像データを、学習済みの人物検出モデル１６に入力して、検出された人物バウンディングボックスを含む出力結果を取得する。例えば、推論実行部２５は、異なる出力結果に含まれる「ＩＤ＝ｘｘ」の人物バウンディングボックスと「ＩＤ＝ｙｙ」の人物バウンディングボックスとを取得する。

【0127】

そして、推論実行部２５は、「ＩＤ＝ｘｘ」の人物バウンディングボックスを人物同定モデル１７に入力し、人物同定モデル１７の出力層の直前の層から人物特徴量を取得する。同様に、推論実行部２５は、「ＩＤ＝ｙｙ」の人物バウンディングボックスを人物同定モデル１７に入力し、人物同定モデル１７の出力層の直前の層から人物特徴量を取得する。

【0128】

その後、推論実行部２５は、各特徴量の類似度を算出し、類似度が高い場合に、「ＩＤ＝ｘｘ」の人物バウンディングボックスと「ＩＤ＝ｙｙ」の人物バウンディングボックスとは同一人物であると推論する。一方、推論実行部２５は、各特徴量の類似度が低い場合に、「ＩＤ＝ｘｘ」の人物バウンディングボックスと「ＩＤ＝ｙｙ」の人物バウンディングボックスとは非同一人物であると推論する。

【0129】

例えば、推論実行部２５は、各特徴量の類似度として、各特徴量のユークリッド距離やコサイン類似度、各特徴量の要素の二乗誤差などを算出し、算出した類似度が閾値以上である場合に、同一人物と推論する。

【0130】

このようにして同一人物として推論された各人物バウンディングボックスを追跡することで、その人物の店内における行動分析や購入商品の分析に利用することができる。

【0131】

［処理の流れ］
次に、上述した各処理部が実行する処理について説明する。ここでは、事前処理、同一人物ペアの抽出処理、学習データ生成処理、機械学習処理、推論処理について説明する。

【0132】

（事前処理）
図２２は、事前処理の流れを示すフローチャートである。図２２に示すように、事前処理部２２は、各カメラ２の映像データを取得し（Ｓ１０１）、予め設計された店舗のフロアマップを取得する（Ｓ１０２）。

【0133】

そして、事前処理部２２は、カメラ２の画像データとフロアマップとにおいて、対応する任意の点である対応点を特定し（Ｓ１０３）、図１３の式（１）を用いて、射影変換係数を推定する（Ｓ１０４）。

【0134】

（同一人物ペアの抽出処理）
図２３は、同一人物ペアの抽出処理の流れを示すフローチャートである。図２３に示すように、学習データ生成部２３は、映像データＤＢ１３から各カメラ２の映像データを取得し（Ｓ２０１）、事前処理部２２により推定された射影変換係数を取得する（Ｓ２０２）。

【0135】

続いて、学習データ生成部２３は、各カメラ２の映像データ内の各画像データを、人物検出モデル１６に入力した人物検知を実行し（Ｓ２０３）、人物バウンディングボックスを検出する（Ｓ２０４）。

【0136】

そして、学習データ生成部２３は、射影変換係数を用いて、各人物の人物バウンディングボックスのフロアマップ座標を算出する（Ｓ２０５）。すなわち、学習データ生成部２３は、各人物の人物バウンディングボックスの画像座標系をフロアマップ座標に変換する。

【0137】

その後、学習データ生成部２３は、２つのカメラの画像データについて、フロアマップ座標系の重なり領域を算出する（Ｓ２０６）。そして、学習データ生成部２３は、２つのカメラで撮像された同時刻の画像データのうち、同等位置の人物ペアを抽出する（Ｓ２０７）。

【0138】

（学習データ生成処理）
図２４は、学習データ生成処理の流れを示すフローチャートである。図２４に示すように、学習データ生成部２３は、同一人物のペア画像ごとに当該ペア画像に含まれる２つサンプルの人物特徴量に対応する２つのノードを始点から終点への向きへ順に並べた有向グラフＧを生成する（Ｓ２１１）。

【0139】

上記のステップＳ２１１では、あるペア画像の２つのノードの各々の子ノードが別のペア画像の２つのノードとされると共に、２つの親ノードのそれぞれおよび２つの子ノードのそれぞれを接続するリンクが有向グラフＧに設定される。

【0140】

そして、学習データ生成部２３は、ステップＳ２１１で生成された有向グラフＧに含まれるリンクの個数Ｋに対応する回数の分、下記のステップＳ２１２から下記のステップＳ２１３までの処理を反復するループ処理１を実行する。

【0141】

すなわち、学習データ生成部２３は、リンクｋの直前ノードまでの経路に含まれるノードと、リンクｋの直後ノードとの間で類似サンプル数を算出する（Ｓ２１２）。その上で、学習データ生成部２３は、ステップＳ２１２で算出された類似サンプル数をリンクｋの重みに設定する（Ｓ２１３）。

【0142】

このようなループ処理１が反復されることにより、有向グラフＧに含まれるＫ個のリンクごとに当該リンクの重みが算出される。

【0143】

そして、学習データ生成部２３は、有向グラフＧで取り得る経路ｚの重み総和の組合せの中から、最適な組合せを求める最適化問題を計算することにより、Ｎ個のペア画像の全体で類似サンプルの総数が最大となるノードの組合せパターン、つまり人物特徴量の組合せパターンを特定する（Ｓ２１４）。

【0144】

続いて、学習データ生成部２３は、Ｎ個の同一人物のペア画像ごとに２つのサンプルの人物特徴量のうちステップＳ２１４で特定された人物特徴量の組合せパターンに対応する人物特徴量に統一する補正を実行する（Ｓ２１５）。

【0145】

その後、学習データ生成部２３は、２Ｎ個のサンプルの組合せごとに補正後の人物特徴量を用いてサンプル間の人物特徴量の距離を算出することにより距離行列を算出する（Ｓ２１６）。

【0146】

そして、学習データ生成部２３は、距離行列に基づいてＮ個のペア画像のデータセットに含まれる２Ｎ個のサンプルをクラスタリングし、クラスタリングの結果として得られたクラスタごとに疑似ラベルを生成する（Ｓ２１７及びＳ２１８）。

【0147】

その上で、学習データ生成部２３は、Ｎ個のペア画像のデータセットに含まれる２Ｎ個のサンプルの人物特徴量を説明変数、疑似ラベルを目的変数とする学習データを生成して、店舗データセット１５に格納する（Ｓ２１９）。

【0148】

（機械学習処理）
図２５は、人物同定モデルの機械学習処理の流れを示すフローチャートである。図２５に示すように、同定モデル生成部２４は、公開データセット１４に予め記憶された既存の学習データを取得し（Ｓ３０１）、既存の学習データを用いて、多クラス分類問題として第１の機械学習モデルの機械学習を実行する（Ｓ３０２）。

【0149】

続いて、同定モデル生成部２４は、店舗データセット１５に格納される店舗の画像データを用いて生成された対象店舗用の学習データを取得し（Ｓ３０３）、対象店舗用の学習データを用いて、人物同定モデル１７の機械学習を実行する（Ｓ３０４）。

【0150】

（推論処理）
図２６は、推論処理の流れを示すフローチャートである。図２６に示すように、推論実行部２５は、各カメラ２の各画像データを取得し（Ｓ４０１）、各画像データを人物検出モデル１６に入力して、人物バウンディングボックスを検出する（Ｓ４０２）。

【0151】

そして、推論実行部２５は、２つの人物バウンディングボックスを人物同定モデル１７に入力し（Ｓ４０３）、人物同定モデル１７の出力層の直前（１つ前）の層から、各人物バウンディングボックスの特徴量を取得する（Ｓ４０４）。その後、推論実行部２５は、各人物バウンディングボックスの特徴量の類似度を算出し、人物同定を実行する（Ｓ４０５）。

【0152】

［効果］
上述したように、情報処理装置１０は、同一人物のペア画像から２つのサンプルを代表する人物特徴量を選択する際、サンプル間の人物特徴量の距離が閾値以下となる類似サンプルの数の特性に着目し、Ｎ個のペア画像の全体で類似サンプルの総数が最大となる人物特徴量の組合せパターンを特定する。このように特定された人物特徴量の組合せパターンにしたがって生成に成功した疑似ラベルがサンプルに付与された学習データに基づいて、人物同定モデル１７が生成される。したがって、情報処理装置１０は、このように生成された人物同定モデル１７を用いて人物同定を実行することで、疑似ラベルの精度悪化が抑制され、人物追跡精度が向上し、精度良く購買行動分析を実現できる。さらに、推論対象店舗の人物同定の学習データを取得することができるので、分析対象の学習データを自動で取得可能であり、人物同定の精度を継続的に向上することもできる。

【0153】

図２７は、実施例１による効果を説明する図である。図２７では、参考技術３と実施例１による技術（提案技術）の人物同定の推論精度の比較を示している。ここでは、人物画像特性（季節、背景等）の異なるデータセットＡ、データセットＢおよびデータセットＣが例示する。さらに、データセットＡで学習、データセットＢで推論を行うパターンＰ１、データセットＢで学習、データセットＡで推論を行うパターンＰ２、データセットＢで学習、データセットＣで推論を行うパターンＰ３、並びに、データセットＡで学習、データセットＣで推論を行うパターンＰ４の計４パターンで参考技術３と実施例１による提案技術の人物同定の推論精度を比較する。

【0154】

図２７に示すように、大量の人物データの中で特定順位以内に同一人物として同定される割合である累積照合特性による推論精度で比較する。例えば、参考技術３の場合、ペア画像のサンプル間で人物特徴量を統一する人物特徴量の補正で、２つのサンプルのうち不適切な方のサンプルの人物特徴量に補正される場合があるので、十分な推論精度が得られない。一方、実施例１による手法では、ペア画像のサンプル間で人物特徴量を統一する人物特徴量の補正で、適切な方のサンプルの人物特徴量を補正に用いることができるので、推論精度が向上している。例えば、適合率１位を比較すると、パターンＰ１では、参考技術３の推論精度が「９３．２」であるのに対して、実施例１の推論精度が「９４．０」に改善している。さらに、パターンＰ２では、参考技術３の推論精度が「８１．９」であるのに対して、実施例１の推論精度が「８２．３」に改善している。さらに、パターンＰ３では、参考技術３の推論精度が「６０．６」であるのに対して、実施例１の推論精度が「６５．１」に改善している。さらに、パターンＰ４では、参考技術３の推論精度が「６４．０」であるのに対して、実施例１の推論精度が「６６．９」に改善している。このようにパターンＰ１～Ｐ４の計４パターンの全てで実施例１の推論精度が参考技術３の推論精度よりも優れていることから、実施例１の推論精度の改善が明らかである。

【0155】

このように、情報処理装置１０は、推論対象店舗に適した人物特徴量が学習され、人物追跡精度が向上し、精度良く購買行動分析を実現できる。情報処理装置１０は、店舗内の複数監視カメラから人物を精度よく同定することで、買い回り行動や不審行動などを追跡できる。情報処理装置１０は、複数カメラの撮影領域の重なり情報から、推論対象店舗の人物同定データを取得して学習することができる。

【実施例0156】

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

【0157】

［数値等］
上記実施例で用いたカメラの台数、数値例、学習データ例、機械学習モデル、座標例等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。また、各モデルは、ニューラルネットワークなどの様々なアルゴリズムにより生成されたモデルを採用することができる。また、上記実施例では、第２機械学習部２４ｂが、学習済みである第１の機械学習モデルの入力層および中間層を含む畳み込みニューラルネットワークと、未学習である新たな出力層とを用いて、人物同定モデル１７を構成する例で説明したが、これに限定されるものではなく、第１の機械学習モデルの一部の層を用いて人物同定モデル１７を構成することもできる。このとき、第１の機械学習モデルの出力層を除くことが好ましい。また、座標変換は、画像データ単位で変換することもでき、人物バウンディングボックス単位で変換することもできる。

【0158】

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更されてもよい。

【0159】

また、各装置の構成要素の分散や統合の具体的形態は図示のものに限られない。例えば、事前処理部２２と学習データ生成部２３とが統合されてもよい。つまり、その構成要素の全部または一部は、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合されてもよい。さらに、各装置の各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0160】

［ハードウェア］
図２８は、ハードウェア構成例を説明する図である。図２８に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１９に示した各部は、バス等で相互に接続される。

【0161】

通信装置１０ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１０ｂは、図１１に示した機能を動作させるプログラムやＤＢを記憶する。

【0162】

プロセッサ１０ｄは、図１１に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図１１等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、検出モデル生成部２１、事前処理部２２、学習データ生成部２３、同定モデル生成部２４、推論実行部２５等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、検出モデル生成部２１、事前処理部２２、学習データ生成部２３、同定モデル生成部２４、推論実行部２５等と同様の処理を実行するプロセスを実行する。

【0163】

このように、情報処理装置１０は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

【0164】

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版