特開2024-31602 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＡＷＬ株式会社の特許一覧

特開2024-31602データセット生成システム、サーバ、及びデータセット生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024031602

(43)【公開日】2024-03-07

(54)【発明の名称】データセット生成システム、サーバ、及びデータセット生成プログラム

(51)【国際特許分類】

G06V 10/72 20220101AFI20240229BHJP

G06V 10/82 20220101ALI20240229BHJP

G06T 7/00 20170101ALI20240229BHJP

【ＦＩ】

G06V10/72

G06V10/82

G06T7/00 350C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022135256

(22)【出願日】2022-08-26

(71)【出願人】

【識別番号】516249414

【氏名又は名称】ＡＷＬ株式会社

(74)【代理人】

【識別番号】100084375

【弁理士】

【氏名又は名称】板谷康夫

(74)【代理人】

【識別番号】100125221

【弁理士】

【氏名又は名称】水田愼一

(74)【代理人】

【識別番号】100142077

【弁理士】

【氏名又は名称】板谷真之

(72)【発明者】

【氏名】ファドワゴーラビ

(72)【発明者】

【氏名】土田安紘

(72)【発明者】

【氏名】司嘯天

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA05

5L096CA25

5L096GA51

5L096HA11

5L096KA04

(57)【要約】

【課題】データセット生成システム、サーバ、及びデータセット生成プログラムにおいて、できるだけ少ない撮影画像を用いて、多数の施設のカメラの撮影画像を対象にした、推論処理用のＤＮＮモデルの機械学習を行う。
【解決手段】各グループの代表カメラから、ユーザが設定した選択基準に合致したフレーム画像を収集し（Ｓ１５）、収集したフレーム画像の各々に対して、評価用の推論処理（擬似ラベリング処理）を行い（Ｓ１７）、これらの推論処理の結果に基づき、収集したフレーム画像から構成されるデータセットが、所定の推論処理用の学習済ＤＮＮモデルの学習用データセットに適しているか評価する（Ｓ１８）。これにより、データセットの評価値が目標値以上になったときに（Ｓ１９でＮＯ）、フレーム画像の収集を終了し、その時点のデータセットを学習用データセットにすることができるので、学習用データセットに含まれるフレーム画像の数を少なくできる。
【選択図】図６

【特許請求の範囲】

【請求項1】

複数のカメラのグループ分けを行うカメラ分類手段と、
撮影画像の選択基準の設定操作を行うための設定操作手段と、
前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、
前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段とを備えるデータセット生成システム。

【請求項2】

前記カメラ分類手段によりグループ分けをした各グループにおける代表カメラを選択する代表カメラ選択手段をさらに備え、
前記撮影画像収集手段は、前記代表カメラ選択手段により選択された代表カメラの各々から、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集することを特徴とする請求項１に記載のデータセット生成システム。

【請求項3】

前記撮影画像収集手段は、一つ前の撮影画像から見て、認識対象物の数の増加又は減少、認識対象物の位置の移動、又は認識対象物の姿勢の変化があった撮影画像を収集することを特徴とする請求項１又は請求項２に記載のデータセット生成システム。

【請求項4】

前記データセット評価手段は、前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、前記所定の推論処理用の学習済ニューラルネットワークモデルのファインチューニング用又は転移学習用の学習用データセットに適しているか否かを評価し、
前記データセット評価手段による前記データセットの評価値が、目標値以上になったときに、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットを学習用データセットとして用いて、前記所定の推論処理用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習（以下、「再学習」という）を行う再学習手段と、
前記再学習手段による再学習後の前記学習済ニューラルネットワークモデルによる推論処理の精度が、前記再学習前の前記学習済ニューラルネットワークモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価する精度向上評価手段とをさらに備えることを特徴とする請求項１又は請求項２に記載のデータセット生成システム。

【請求項5】

前記撮影画像収集手段により収集した撮影画像の各々に対して、擬似ラベリング処理を行う擬似ラベリング手段をさらに備え、
前記再学習手段は、前記撮影画像収集手段により収集した撮影画像と、前記擬似ラベリング手段により前記収集した撮影画像に付与された正解ラベルとに基づいて、前記所定の推論処理用の学習済ニューラルネットワークモデルの再学習を行うことを特徴とする請求項４に記載のデータセット生成システム。

【請求項6】

前記複数のカメラの各々から、認識対象物が映っていない撮影画像を収集する第２の撮影画像収集手段と、
前記第２の撮影画像収集手段により収集した、前記認識対象物が映っていない撮影画像の各々から特徴を抽出する画像特徴抽出手段と、
前記第２の撮影画像収集手段により収集した、前記認識対象物が映っていない撮影画像を、前記画像特徴抽出手段により抽出した特徴に基づいて、グループ分けする画像クラスタリング手段とをさらに備え、
前記カメラ分類手段は、前記画像クラスタリング手段による前記認識対象物が映っていない撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影したカメラのグループ分けを行うことにより、前記複数のカメラのグループ分けを行うことを特徴とする請求項１又は請求項２に記載のデータセット生成システム。

【請求項7】

前記データセット評価手段による前記データセットの評価値が、目標値以上になったときに、その時点において前記撮影画像収集手段により収集済の撮影画像から構成されるデータセットを、前記所定の推論処理用の学習済ニューラルネットワークモデルの学習用データセットとして用いることを特徴とする請求項１又は請求項２に記載のデータセット生成システム。

【請求項8】

複数のカメラとネットワークを介して接続されて、
前記複数のカメラのグループ分けを行うカメラ分類手段と、
撮影画像の選択基準の設定操作を行うための設定操作手段と、
前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、
前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段とを備えるサーバ。

【請求項9】

コンピュータを、
複数のカメラのグループ分けを行うカメラ分類手段と、
撮影画像の選択基準の設定操作を行うための設定操作手段と、
前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、
前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段として機能させるためのデータセット生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データセット生成システム、サーバ、及びデータセット生成プログラムに関する。

【背景技術】

【0002】

従来から、コンビニの店舗等の施設に設置されたカメラによる撮影画像を、上記のカメラが設置された施設側に配置された装置（いわゆるエッジ側デバイス）で、画像解析（物体検出や物体認識）するシステムが知られている（例えば、特許文献１参照）。このようなエッジ側デバイスで、物体検出や物体認識等の画像解析用の推論処理を行う場合には、エッジ側デバイスに、処理負荷の小さい（いわゆる「軽い」）学習済ディープニューラルネットワークモデル（ＤＮＮモデル）を実装して、この学習済ＤＮＮモデルを用いて、エッジ側デバイスに接続されたカメラの撮影画像に対する推論処理を行う。ここで、エッジ側デバイスにおけるコンピュータリソースの脆弱さから、上記のエッジ側デバイスに実装する学習済ＤＮＮモデルは、極端に軽い（非常に処理負荷が小さい）ＤＮＮモデルであることが望ましい。上記のようなエッジ側デバイスに実装するためのＤＮＮモデルは、一般に、エッジ側デバイスに接続されたサーバが、上記の施設に設置されたカメラからの撮影画像に基づいて機械学習を行うことにより、生成される（例えば、特許文献１の段落（００３７）（００３８）等参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１８－８８１５７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところが、上記のような極端に軽い（非常に処理負荷が小さい）学習済ＤＮＮモデルを、多数の店舗等の施設に配されたエッジ側デバイスに実装して、多数の施設のカメラの撮影画像に対する推論処理を行う場合には、以下のような問題がある。すなわち、上記のような極端に軽い学習済ＤＮＮモデルを使用する場合、精度を確保するために、該当の施設のカメラの撮影画像を用いて、元の学習済ＤＮＮモデル（汎用的な物体検出用、物体認識用等の推論処理用の学習済ＤＮＮモデル）のファインチューニングを行うことが望ましい。しかしながら、大手のチェーン店（コンビニエンスストア等）の場合、店舗数が数千店舗になるので、数千店舗に配された全てのカメラの撮影画像を用いて、元の学習済ＤＮＮモデルのファインチューニングを行ったのでは、処理時間もかかるし、エッジ側デバイスからサーバにカメラの撮影画像を転送するのに必要なコスト（通信費用や電気代等）や、サーバがエッジ側デバイスから受信したカメラの撮影画像を保存しておくのに必要なコスト（サーバにおける記憶領域の確保に必要なコスト）が大きくなる。上記の問題は、上記のように、多数の店舗等の施設のカメラの撮影画像を用いて、元の学習済ＤＮＮモデルのファインチューニングを行う場合だけではなく、多数の店舗等の施設のカメラの撮影画像を対象にした、推論処理用のＤＮＮモデル（例えば、物体検出用又は物体認識用のＤＮＮモデル）の機械学習を行う場合に、共通の問題である。

【0005】

本発明は、上記課題を解決するものであり、できるだけ少ない撮影画像を用いて、多数の店舗等の施設のカメラの撮影画像を対象にした、推論処理用のニューラルネットワークモデルの機械学習を行うことを可能にするデータセット生成システム、サーバ、及びデータセット生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、本発明の第1の態様によるデータセット生成システムは、複数のカメラのグループ分けを行うカメラ分類手段と、撮影画像の選択基準の設定操作を行うための設定操作手段と、前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段とを備える。

【0007】

このデータセット生成システムにおいて、前記カメラ分類手段によりグループ分けをした各グループにおける代表カメラを選択する代表カメラ選択手段をさらに備え、前記撮影画像収集手段は、前記代表カメラ選択手段により選択された代表カメラの各々から、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集するようにしてもよい。

【0008】

このデータセット生成システムにおいて、前記撮影画像収集手段は、一つ前の撮影画像から見て、認識対象物の数の増加又は減少、認識対象物の位置の移動、又は認識対象物の姿勢の変化があった撮影画像を収集することが望ましい。

【0009】

このデータセット生成システムにおいて、前記データセット評価手段は、前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、前記所定の推論処理用の学習済ニューラルネットワークモデルのファインチューニング用又は転移学習用の学習用データセットに適しているか否かを評価し、前記データセット評価手段による前記データセットの評価値が、目標値以上になったときに、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットを学習用データセットとして用いて、前記所定の推論処理用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習（以下、「再学習」という）を行う再学習手段と、前記再学習手段による再学習後の前記学習済ニューラルネットワークモデルによる推論処理の精度が、前記再学習前の前記学習済ニューラルネットワークモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価する精度向上評価手段とをさらに備えることが望ましい。

【0010】

このデータセット生成システムにおいて、前記撮影画像収集手段により収集した撮影画像の各々に対して、擬似ラベリング処理を行う擬似ラベリング手段をさらに備え、前記再学習手段は、前記撮影画像収集手段により収集した撮影画像と、前記擬似ラベリング手段により前記収集した撮影画像に付与された正解ラベルとに基づいて、前記所定の推論処理用の学習済ニューラルネットワークモデルの再学習を行うことが望ましい。

【0011】

このデータセット生成システムにおいて、前記複数のカメラの各々から、認識対象物が映っていない撮影画像を収集する第２の撮影画像収集手段と、前記第２の撮影画像収集手段により収集した、前記認識対象物が映っていない撮影画像の各々から特徴を抽出する画像特徴抽出手段と、前記第２の撮影画像収集手段により収集した、前記認識対象物が映っていない撮影画像を、前記画像特徴抽出手段により抽出した特徴に基づいて、グループ分けする画像クラスタリング手段とをさらに備え、前記カメラ分類手段は、前記画像クラスタリング手段による前記認識対象物が映っていない撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影したカメラのグループ分けを行うことにより、前記複数のカメラのグループ分けを行うようにしてもよい。

【0012】

このデータセット生成システムにおいて、前記データセット評価手段による前記データセットの評価値が、目標値以上になったときに、その時点において前記撮影画像収集手段により収集済の撮影画像から構成されるデータセットを、前記所定の推論処理用の学習済ニューラルネットワークモデルの学習用データセットとして用いるようにしてもよい。

【0013】

本発明の第２の態様によるサーバは、複数のカメラとネットワークを介して接続されて、前記複数のカメラのグループ分けを行うカメラ分類手段と、撮影画像の選択基準の設定操作を行うための設定操作手段と、前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段とを備える。

【0014】

本発明の第３の態様によるデータセット生成プログラムは、コンピュータを、複数のカメラのグループ分けを行うカメラ分類手段と、撮影画像の選択基準の設定操作を行うための設定操作手段と、前記カメラ分類手段によりグループ分けをした各グループにおける少なくとも一つ以上のカメラから、前記設定操作手段を用いてユーザが設定した選択基準に合致した撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した撮影画像の各々に対して、評価用の推論処理を行う評価用推論手段と、前記評価用推論手段による推論処理の結果に基づいて、前記撮影画像収集手段により収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価するデータセット評価手段として機能させる。

【発明の効果】

【0015】

本発明の第１の態様によるデータセット生成システム、第２の態様によるサーバ、及び第３の態様によるデータセット生成プログラムによれば、各グループにおける少なくとも一つ以上のカメラから、ユーザが設定した選択基準に合致した撮影画像を収集して、その時点において収集した撮影画像から構成されるデータセットが、所定の推論処理用のニューラルネットワークモデルの学習用データセットに適しているか否かを評価することができる。これにより、その時点において収集した撮影画像から構成されるデータセットの評価値が、目標値以上になったときに、撮影画像の収集を終了して、その時点において収集済の撮影画像から構成されるデータセットを、上記所定の推論処理用のニューラルネットワークモデルの学習用データセットにすることができるので、上記所定の推論処理用のニューラルネットワークモデルの学習用データセットに含まれる撮影画像の数を、できるだけ少なくすることができる。従って、できるだけ少ない撮影画像を用いて、多数の店舗等の施設のカメラの撮影画像を対象にした、上記所定の推論処理用のニューラルネットワークモデル（例えば、物体検出用又は物体認識用のニューラルネットワークモデル）の機械学習を行うことができる。従って、上記所定の推論処理用のニューラルネットワークモデルの学習用データセットの生成に要する処理時間や、この学習用データセットを用いた上記ニューラルネットワークモデルの機械学習に要する処理時間を短縮することができると共に、カメラ側（エッジ側）からサーバにカメラの撮影画像を転送するのに必要なコスト（通信費用や電気代等）や、サーバがエッジ側から受信したカメラの撮影画像を保存しておくのに必要なコスト（サーバにおける記憶領域の確保に必要なコスト）を削減することができる。

【図面の簡単な説明】

【0016】

【図1】本発明の一実施形態のデータセット生成システムの概略の構成を示すブロック構成図。

【図2】図１中のサイネージの概略のハードウェア構成を示すブロック図。

【図3】図１中の分析ボックスのハードウェア構成を示すブロック図。

【図4】図１中の学習サーバのハードウェア構成を示すブロック図。

【図5】上記学習サーバの機能ブロック構成図。

【図6】上記データセット生成システムにおける学習用データセット生成処理のフローチャート。

【図7】図６中のＳ１１～Ｓ１３の処理（クラスタリング処理）の詳細を示すフローチャート。

【図8】上記クラスタリング処理のサブシステム設計時に用いるユーザインタフェース用画面を示す図。

【図9】代表カメラからのフレーム画像の選択と収集のサブシステム設計時に用いるユーザインタフェース用画面を示す図。

【図10】図６中のＳ１４で設定された選択基準に応じた、フレーム画像の選択アルゴリズムの例を示す図。

【図11】上記代表カメラより収集したフレーム画像から構成されるデータセットの品質評価のサブシステム設計時に用いるユーザインタフェース用画面を示す図。

【図12】図６中のＳ１９で品質の総合評価値がＫＰＩに達していると判定されたデータセットのファインチューニングを介した評価のサブシステム設計時に用いるユーザインタフェース用画面を示す図。

【図13】上記データセット生成システムにおけるフレーム画像データ収集の流れを示すシーケンス図。

【発明を実施するための形態】

【0017】

以下、本発明を具体化した実施形態によるデータセット生成システム、サーバ、及びデータセット生成プログラムについて、図面を参照して説明する。図１は、本実施形態によるデータセット生成システム１０の概略の構成を示すブロック構成図である。図１に示すように、本実施形態では、所定の撮影エリアを撮影する監視用のネットワークカメラである複数の固定カメラ３と、各固定カメラ３からの映像の分析を行う分析ボックス２とが、チェーン店等の店舗Ｓｃ等に配置され、内蔵カメラ５を備えた、ディジタルサイネージ用のタブレット端末であるサイネージ４（サイネージ４ａ、４ｂ等の総称）が、チェーン店等の店舗Ｓａ、Ｓｂ等に配される場合の例について説明する。

【0018】

上記のデータセット生成システム１０は、主に、各店舗Ｓ（店舗Ｓａ、Ｓｂ、Ｓｃ等の総称）に設置された、上記の複数の固定カメラ３と、分析ボックス２と、サイネージ４と、これらの分析ボックス２及びサイネージ４とインターネットを介して接続された、クラウドＣ上の学習サーバ１（請求項における「サーバ」、及び「コンピュータ」に相当）とから構成される。

【0019】

上記のデータセット生成システム１０は、図１に示すように、上記の固定カメラ３及び分析ボックス２が配される店舗Ｓｃに、ハブ７と、ルータ８とを備えている。また、データセット生成システム１０は、サイネージ４が配される店舗Ｓａ、Ｓｂ等には、無線ＬＡＮルータ６を備えている。なお、サイネージ４側のカメラは、サイネージ４の筐体内に配設された内蔵カメラ５である場合と、サイネージ４に取り付けられたＷｅｂカメラの場合があるが、以下の説明では、サイネージ４側のカメラが、内蔵カメラ５である場合の例を中心に説明する。請求項における「複数のカメラ」には、各サイネージ４の内蔵カメラ５と、各分析ボックス２に接続された各固定カメラ３とが、含まれる。

【0020】

上記の固定カメラ３は、ＩＰアドレスを持ち、ネットワークに直接接続することが可能である。図１に示すように、分析ボックス２は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）とハブ７とを介して、複数の固定カメラ３と接続され、これらの固定カメラ３の各々から入力された画像を分析する。具体的には、分析ボックス２は、固定カメラ３の各々から入力された画像に対する物体検出処理（顧客や、顧客の頭／顔の検出処理）や、この物体検出処理で検出された物体の画像に対する物体認識処理（顧客の属性（性別及び年齢（年代））推定や、姿勢推定等の認識処理）等を行う。

【0021】

サイネージ５は、主に店舗Ｓ内の商品棚に設置されて、そのタッチパネルディスプレイ１４（図２参照）上に、店舗Ｓに来店した顧客に対する広告等のコンテンツを表示すると共に、その内蔵カメラ４からのフレーム画像に対する物体検出処理（顧客や、顧客の頭／顔の検出処理）や、この物体検出処理で検出された物体の画像に対する物体認識処理等を行う。

【0022】

上記の学習サーバ１は、店舗Ｓの管理部門（本社等）に設置されたサーバである。詳細については後述するが、学習サーバ１は、所定の推論処理用のＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）モデルの学習用データセット（に適したデータセット）を生成し、生成した学習用データセットを用いて、元の推論処理用の学習済ＤＮＮモデルのファインチューニングを行い、ファインチューニング後の学習済ＤＮＮモデルを、各分析ボックス２や各サイネージ４に送信してインストールさせる。

【0023】

次に、図２を参照して、上記のサイネージ４のハードウェア構成について説明する。サイネージ４は、上記の内蔵カメラ５に加えて、ＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）１１と、タッチパネルディスプレイ１４と、スピーカ１５と、各種のデータやプログラムを記憶するメモリ１６と、通信部１７と、二次電池１８と、充電端子１９とを備えている。ＳｏＣ１１は、装置全体の制御及び各種演算を行うＣＰＵ１２と、各種の推論処理用学習済ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）モデル２０の推論処理等に用いられるＧＰＵ１３とを備えている。

【0024】

上記のメモリ１６には、推論処理用学習済ＤＮＮモデル２０が格納されている。この推論処理用学習済ＤＮＮモデル２０には、複数の種類の推論処理用学習済ＤＮＮモデルが含まれており、例えば、顧客（人）の検出用の学習済ＤＮＮモデル（顧客の顔又は頭の検出用の学習済ＤＮＮモデルを含む）や、この検出処理で検出された顧客（人）や、顧客の頭／顔の画像に対する物体認識処理（顧客の属性（性別及び年齢（年代））推定や、姿勢推定等の認識処理）用の学習済ＤＮＮモデルを含んでいる。なお、メモリ１６に格納されるプログラムには、図７中の「エッジ側コアエンジン」に相当するプログラムであるサイネージ制御プログラム２９が含まれている。

【0025】

上記の通信部１７は、通信ＩＣとアンテナを備えている。サイネージ４は、通信部１７とインターネットとを介して、クラウドＣ上の学習サーバ１と接続されている。また、二次電池１８は、リチウムイオン電池等の、充電により繰り返し使用することが可能な電池であり、ＡＣ／ＤＣコンバータにより直流電力に変換した後の商用電源からの電力を、蓄電して、サイネージ４の各部に供給する。

【0026】

次に、図３を参照して、分析ボックス２のハードウェア構成について説明する。分析ボックス２は、装置全体の制御及び各種演算を行うＣＰＵ２１と、各種のデータやプログラムを格納するハードディスク２２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２３と、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）推論用プロセッサである推論チップ（以下、「チップ」と略す）２４ａ～２４ｈと、通信制御ＩＣ２５とを備えている。ＣＰＵ２１は、一般的な汎用ＣＰＵ、又は多数の映像ストリームを同時処理するため並列処理性能を高めるように設計されたＣＰＵである。また、ハードディスク２２に格納されるデータには、固定カメラ２の各々から入力された映像ストリーム（のデータ）をデコードした後の映像データが含まれている。また、ハードディスク２２に格納されるプログラムには、人検出処理、顔検出処理、属性認識処理、姿勢推定処理等の推論処理用の学習済ＤＮＮモデル（各種推論処理用学習済ＤＮＮモデル）と、分析ボックス制御プログラムとが含まれている。なお、上記の分析ボックス制御プログラムには、図７中の「エッジ側コアエンジン」に相当するプログラムが含まれている。

【0027】

次に、図４を参照して、学習サーバ１のハードウェア構成について説明する。学習サーバ１は、装置全体の制御及び各種演算を行うＣＰＵ３１と、各種のデータやプログラムを格納するハードディスク３２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３３と、ディスプレイ３４と、操作部３５（請求項における「設定操作手段」に相当）と、通信部３６とを備えている。上記のハードディスク３２に格納されるプログラムには、データセット生成プログラム３７が含まれている。

【0028】

図５は、主に、上記の学習サーバ１の機能ブロックを示す。下記の図５の説明では、図中の各機能ブロックと請求項における各構成要件（各手段）との対応関係と、これらの各機能ブロックの機能の概要を説明する。学習サーバ１は、機能ブロックとして、レイアウト・フレーム画像収集部４０と、画像特徴抽出部４１と、画像クラスタリング部４２と、カメラ分類部４３と、代表カメラ選択部４４と、フレーム画像収集部４５と、評価用推論部４６と、データセット評価部４７と、擬似ラベリング部４８と、再学習部４９と、精度向上評価部５０とを備えている。上記のレイアウト・フレーム画像収集部４０、画像特徴抽出部４１、画像クラスタリング部４２、カメラ分類部４３、代表カメラ選択部４４、フレーム画像収集部４５、評価用推論部４６、データセット評価部４７、擬似ラベリング部４８、再学習部４９、精度向上評価部５０は、それぞれ、請求項における第２の撮影画像収集手段、画像特徴抽出手段、画像クラスタリング手段、カメラ分類手段、代表カメラ選択手段、撮影画像収集手段、評価用推論手段、データセット評価手段、擬似ラベリング手段、再学習手段、及び精度向上評価手段に相当する。また、上記のレイアウト・フレーム画像収集部４０とフレーム画像収集部４５とは、主に、図４中の通信部３６とＣＰＵ３１とデータセット生成プログラム３７とにより実現される。また、上記の画像特徴抽出部４１と、画像クラスタリング部４２と、カメラ分類部４３と、代表カメラ選択部４４と、評価用推論部４６と、データセット評価部４７と、擬似ラベリング部４８と、再学習部４９と、精度向上評価部５０とは、図４中のＣＰＵ３１とデータセット生成プログラム３７により実現される。

【0029】

上記のレイアウト・フレーム画像収集部４０は、デバイスＤＢ（図７参照）をチェックした結果、新しいデータソース（新しい顧客の店舗に設置されたカメラ（サイネージ４の内蔵カメラ５と、分析ボックス２に接続された固定カメラ３の両方を含む）、又は既存客の店舗に新たに設置されたカメラ）を見つけると、新しい（複数の）カメラの各々から、人が映っていない撮影画像（フレーム画像）を収集する。この人が映っていない、店舗の背景のみが映ったフレーム画像を、以下の説明では、レイアウト・フレーム画像と呼ぶ。画像特徴抽出部４１は、レイアウト・フレーム画像収集部４０により収集した、レイアウト・フレーム画像（人が映っていない撮影画像）の各々から特徴を抽出する。画像クラスタリング部４２は、レイアウト・フレーム画像収集部４０により収集したレイアウト・フレーム画像を、画像特徴抽出部４１により抽出した特徴に基づいて、グループ分けする。カメラ分類部４３は、画像クラスタリング部４２によるレイアウト・フレーム画像のグループ分け結果に基づいて、これらのレイアウト・フレーム画像を撮影したカメラ（内蔵カメラ５及び固定カメラ３）のグループ分けを行うことにより、上記の新しい複数のカメラのグループ分けを行う。代表カメラ選択部４４は、上記カメラ分類部４３によりグループ分けをした各グループにおける代表カメラを選択する。

【0030】

フレーム画像収集部４５は、代表カメラ選択部４４により選択された代表カメラの各々から、マウス等の操作部３５を用いてシステム管理者が設定した選択基準に合致した、人が映ったフレーム画像を収集する。この際、フレーム画像収集部４５は、一つ前のフレーム画像から見て、人数の増加、所定の割合以上の人の位置移動、又は所定の割合以上の人の姿勢変化があったフレーム画像を収集する事が望ましい。なお、本実施形態では、ターゲットとなる所定の推論処理用ＤＮＮモデルが行う推論処理（エッジ側デバイスの推論処理用学習済ＤＮＮモデルが行う推論処理と同じ種類の推論処理）が、人に関する推論処理であるので（認識対象物が人（正確に言うと、人、顔、又は頭）なので）、フレーム画像収集部４５が収集するフレーム画像が、人が映ったフレーム画像である場合を例に説明するが、フレーム画像収集部４５が収集するフレーム画像は、人が映ったフレーム画像である必要はなく、動物、車両、商品等の、人以外の認識対象物が映ったフレーム画像であってもよい。なお、認識対象物が人以外である場合には、フレーム画像収集部４５は、一つ前のフレーム画像から見て、認識対象物の数の増加、所定の割合以上の認識対象物の位置移動、又は所定の割合以上の認識対象物の姿勢変化があったフレーム画像を収集する事が望ましい。評価用推論部４６は、フレーム画像収集部４５により収集したフレーム画像の各々に対して、評価用の推論処理を行う。

【0031】

データセット評価部４７は、評価用推論部４６による推論処理の結果に基づいて、フレーム画像収集部４５により収集したフレーム画像から構成されるデータセットが、所定の推論処理用のＤＮＮモデルの学習用データセットに適しているか否かを評価する。より詳細に言うと、データセット評価部４７は、評価用推論部４６による推論処理の結果に基づいて、フレーム画像収集部４５により収集したフレーム画像から構成されるデータセットが、上記の所定の推論処理用の学習済ＤＮＮモデルのファインチューニング用の学習用データセットに適しているか否かを評価する。上記のデータセット評価部４７によるデータセットの評価値が、目標値以上になっていなければ（Ｓ１でＮＯ）、学習サーバ１のＣＰＵ３１は、上記の評価値が目標値以上になるまで、フレーム画像収集部４５による人が映ったフレーム画像の収集を繰り返す。システム管理者は、上記の繰り返しの途中において、必要だと判断した場合には、操作部３５を用いて、フレーム画像の選択基準の追加・変更を行った後、学習サーバ１のＣＰＵ３１に対して、フレーム画像収集部４５による人が映ったフレーム画像の収集を繰り返すように指示する。なお、学習サーバ１のＣＰＵ３１は、上記Ｓ１の判定で、データセット評価部４７によるデータセットの評価値が、目標値以上になっていないと判定した場合に、データセット内の各フレーム画像のクラスにバイアスがある（クラスの不均衡がある）と判定したときは、多数派のクラスに属するフレーム画像の一部を、データセットから除去（削除）する処理を行う。

【0032】

上記のデータセット評価部４７によるデータセットの評価値が、目標値以上になっていれば（Ｓ１でＹＥＳ）、再学習部４９が、フレーム画像収集部４５により収集したフレーム画像から構成されるデータセットを学習用データセットとして用いて、上記所定の推論処理用の学習済ＤＮＮモデルのファインチューニング（一種の再学習）を行う。より詳細に言うと、データセットの評価値が、目標値以上になっていれば（Ｓ１でＹＥＳ）、擬似ラベリング部４８は、フレーム画像収集部４５により収集したフレーム画像の各々に対して、擬似ラベリング処理を行う。そして、再学習部４９は、フレーム画像収集部４５により収集したフレーム画像と、擬似ラベリング部４８により各フレーム画像に付与された正解ラベルとに基づいて、上記所定の推論処理用の学習済ＤＮＮモデルのファインチューニングを行う。

【0033】

精度向上評価部５０は、上記の再学習部４９によるファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価する。上記のファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、所定の値以上向上していなければ（Ｓ２でＮＯ）、学習サーバ１のＣＰＵ３１は、上記の推論処理の精度が所定の値以上向上するまで、フレーム画像収集部４５による人が映ったフレーム画像の収集と、擬似ラベリング部４８による擬似ラベリング処理と、再学習部４９による推論処理用学習済ＤＮＮモデルのファインチューニング処理と、精度向上評価部５０による精度の評価処理とを繰り返す。システム管理者は、上記の繰り返しの途中において、必要だと判断した場合には、操作部３５を用いて、フレーム画像の選択基準の追加・変更を行った後、学習サーバ１のＣＰＵ３１に対して、上記のフレーム画像収集部４５と、擬似ラベリング部４８と、再学習部４９と、精度向上評価部５０による処理を繰り返すように指示する。

【0034】

なお、学習用データセット（のフレーム画像）における、クラスの均衡（バランス化）を図る観点からは、上記のファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、所定の値以上向上していなかったときに（Ｓ２でＮＯ）、学習サーバ１のＣＰＵ３１は、上記の推論処理の精度が所定の値以上向上するまで、フレーム画像収集部４５による人が映ったフレーム画像の収集（、又はデータセット内の各フレーム画像が属するクラスのバランスを図るためのフレーム画像の削除）と、評価用推論部４６による推論処理と、データセット評価部４７によるデータセットの評価処理と、上記Ｓ１のデータセットの評価値が目標値以上になっているか否かの判定処理と、擬似ラベリング部４８による擬似ラベリング処理と、再学習部４９による推論処理用学習済ＤＮＮモデルのファインチューニング処理とを繰り返すことが望ましい。

【0035】

上記の精度向上評価部５０による評価値が、所定の値以上向上していれば（Ｓ２でＹＥＳ）、学習サーバ１のＣＰＵ３１は、通信部３６を用いて、上記の再学習部４９によるファインチューニング後の学習済ＤＮＮモデルを、上記の新しいデータソースに含まれるカメラに対応するエッジ側デバイス（新しい内蔵カメラ５に対応するサイネージ４と、新しい固定カメラ３に接続された分析ボックス２）に送信して格納させる。より詳細に説明すると、学習サーバ１のＣＰＵ３１は、上記の再学習部４９によるファインチューニング後の学習済ＤＮＮモデルを、推論処理用学習済ＤＮＮモデル２０として、新しい内蔵カメラ５に対応するサイネージ４のメモリ１６に格納させると共に、各種推論処理用学習済ＤＮＮモデル２８として、新しい固定カメラ３に接続された分析ボックス２のハードディスク２２に格納させる。

【0036】

次に、図６乃至図１３を参照して、本データセット生成システム１０における全体の処理の流れと、学習サーバ１側においてシステム管理者が用いるユーザインタフェース（ＵI）用の画面について、説明する。図６のフローチャートにおいて、学習サーバ１のＣＰＵ３１が、図７に示すデバイスＤＢ５０をチェックした結果、新しいデータソース（新しい顧客の店舗に設置されたカメラ（サイネージ４の内蔵カメラ５と、分析ボックス２に接続された固定カメラ３の両方を含む）、又は既存客の店舗に新たに設置されたカメラ）を見つけると（Ｓ１１でＹＥＳ）、新しいカメラの各々から、上記のレイアウト・フレーム画像（人が映っていない撮影画像）を収集して、収集したレイアウト・フレーム画像の各々の特徴に基づいて、上記の収集したレイアウト・フレーム画像を撮影したカメラ（内蔵カメラ５及び固定カメラ３）のグループ分け（クラスタリング）を行う（Ｓ１２）。そして、学習サーバ１のＣＰＵ３１（の代表カメラ選択部４４）は、上記のグループ分けをした各グループにおける代表カメラを選択する（Ｓ１３）。

【0037】

上記図６のフローチャートにおけるＳ１１～Ｓ１３の処理（クラスタリング処理）の詳細について、図７のフローチャートを参照して説明する。上記図６のＳ１１で述べたように、学習サーバ１のＣＰＵ３１が、決められた日時に、デバイスＤＢ５０にアクセスして、新しい顧客とカメラ（新しい顧客の店舗に設置されたカメラ（内蔵カメラ５と固定カメラ３の両方を含む）、又は既存客の店舗に新たに設置されたカメラ）をチェックする（Ｓ３１）。そして、新しい顧客とカメラ（要するに、新しいカメラ）があれば、学習サーバ１のＣＰＵ３１が、上記の新しいカメラの情報（正確に言うと、内蔵カメラ５を有するサイネージ４の情報と、固定カメラ３に接続された分析ボックス２の情報を含む）を、デバイスＤＢ５０から収集する（Ｓ３２）。そして、学習サーバ１のＣＰＵ３１は、上記の新しいカメラに対応するエッジ側のデバイス（要するに、新しい内蔵カメラ５に対応するサイネージ４と、新しい固定カメラ３に接続された分析ボックス２）に対する、レイアウト・フレーム画像収集要求（のコマンド）をコンパイルして（Ｓ３３）、コンパイル後のレイアウト・フレーム画像収集要求を、通信部３６を用いて、上記の新しいカメラに対応するエッジ側のデバイスに送信する（Ｓ３４）。

【0038】

上記の新しいカメラに対応するエッジ側のデバイス（サイネージ４及び分析ボックス２）は、学習サーバ１から、上記のレイアウト・フレーム画像収集要求（のファイル）を受信すると（Ｓ３５）、このレイアウト・フレーム画像収集要求で指定された日時に自デバイスに接続された各カメラ（固定カメラ３又はサイネージ４）で撮影した撮影画像からフレーム画像を抽出して、抽出した各カメラのフレーム画像の中に、レイアウト・フレーム画像があれば（Ｓ３７でＹＥＳ）、各カメラのレイアウト・フレーム画像を、学習サーバ１に送信する（Ｓ３８）。ここで、上記のレイアウト・フレーム画像収集要求で指定された日時（各カメラのフレーム画像の撮影日時）は、開店前、（開店後の）午前中、お昼、夜等の複数の時間帯の日時であることが望ましい。このように、複数の時間帯に撮影したフレーム画像から見つけたレイアウト・フレーム画像を収集する事により、収集したレイアウト・フレーム画像から、時間的なバイアス（偏り）を除去することができる。

【0039】

学習サーバ１は、上記の新しいカメラに対応するエッジ側のデバイス（サイネージ４及び分析ボックス２）から、各カメラのレイアウト・フレーム画像を受信すると（Ｓ３９）、これらのレイアウト・フレーム画像を、データＤＢ５１に格納する（Ｓ４０）。

【0040】

全ての新しいカメラのレイアウト・フレーム画像がデータＤＢ５１に格納されると、学習サーバ１のＣＰＵ３１は、基準モデルＤＢ５２に格納された最先端の画像特徴抽出用のＡIモデル（例えば、ｐｒｅｔｒａｉｎｅｄＲｅｓＮｅｔ５０）を用いて、データＤＢ５１に格納された上記の新しいカメラのレイアウト・フレーム画像の各々から特徴ベクトル（例えば、２０４８次元の特徴ベクトル）を抽出する（Ｓ４１）。例えば、新しいカメラの数が２００個であるとすれば、これらのカメラのレイアウト・フレーム画像（合計２００枚）の各々から抽出された２００の特徴ベクトルが抽出される。

【0041】

次に、学習サーバ１のＣＰＵ３１は、基準モデルＤＢ５２に格納された最先端のクラスタリング用の機械学習アルゴリズムを用いて、上記の抽出された各レイアウト・フレーム画像の特徴ベクトルに基づき、データＤＢ５１に格納された上記の新しいカメラのレイアウト・フレーム画像のクラスタリング（グループ分け）を行う（Ｓ４２）。このクラスタリングに用いられる機械学習アルゴリズムとしては、例えば、ｔ－ＳＮＥ（ｔ－ｄｉｓｔｒｉｂｕｔｅｄＳｔｏｃｈａｓｔｉｃＮｅｉｇｈｂｏｒＥｍｂｅｄｄｉｎｇ）、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）、ＫＮＮ（Ｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＡｌｇｏｒｉｔｈｍ（Ｋ近傍法））、ＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ（主成分分析））等が挙げられる。

【0042】

次に、学習サーバ１のＣＰＵ３１は、基準モデルＤＢ５２に格納された最先端の代表フレーム画像選択用のアルゴリズムを用いて、上記Ｓ４２でグループ分けをされた各クラスタ（各グループ）に属するレイアウト・フレーム画像の中から、各クラスタのレイアウト・フレーム画像を代表するフレーム画像（以下、「代表フレーム画像」という）を選択する（Ｓ４３）。ここで、上記Ｓ４２におけるレイアウト・フレーム画像のクラスタ化（グループ分け）は、これらのレイアウト・フレーム画像を撮影したカメラ（内蔵カメラ５及び固定カメラ３）のグループ分けを行うことと同じである。従って、上記Ｓ４３における、各グループに属するレイアウト・フレーム画像の中から、代表フレーム画像を選択する処理は、グループ分けをした各カメラグループにおける代表カメラを選択する処理と、実質的に同じである。上記の代表フレーム画像選択用のアルゴリズムとしては、例えば、各クラスタの中心に位置するレイアウト・フレーム画像を、各クラスタの代表フレーム画像として選択するという方法や、各クラスタにおいて、近隣のレイアウト・フレーム画像の数（類似したレイアウト・フレーム画像の数）が一番多いレイアウト・フレーム画像を、各クラスタの代表フレーム画像として選択するという方法が挙げられる。

【0043】

図８は、学習サーバ１側においてシステム管理者が、上記の新しいデータソース（新しいカメラ）のクラスタリング処理のサブシステムの設計時に用いるユーザインタフェース（ＵI）用の画面（データソースクラスタリングＵI５５）を示す。なお、以下の説明において、「サブシステム」は、学習サーバ１のデータセット生成プログラム３７に含まれるソフトウェア・モジュール群を意味する。上記のデータソースクラスタリングＵI５５は、ツールボックス欄５６と、システム編集欄５７と、結果欄５８とを有している。ツールボックス欄５６には、上記図７のＳ４２で説明したレイアウト・フレーム画像のクラスタリング処理に用いる機械学習アルゴリズム（クラスタリング・アルゴリズム）の選択ボタンと、図７のＳ３９で受信したレイアウト・フレーム画像の評価基準の選択ボタンが表示される。図８に示す例では、クラスタリング・アルゴリズムとして、ＧＭＭ、ＫＮＮ、ＰＣＡ、及びｔ－ＳＮＥを選択することが可能であり、評価基準として、「検出」、「姿勢推定」、「顔認識」を選択することが可能である。ただし、データソースクラスタリングＵI５５では、システム編集欄５７における評価の機能ブロック（評価ブロック）６５において、人がいないことの評価しか行わないので、上記の評価基準のうち、（人の）「検出」しか使用しない。

【0044】

図８におけるシステム編集欄５７では、システム管理者がシステム設計時に使用することができる機能ブロックのうち、初期化ブロック５９、選択基準定義ブロック６０、フィルタ設定６１、画像データ収集要求ブロック６２、収集要求送信ブロック６３、応答受信ブロック６４，評価ブロック６５、クラスタリングブロック６６、及びビジュアライザブロック６７が用いられている。

【0045】

上記の５９～６６の機能ブロックにより実現されるクラスタリング処理については、図７等で説明した通りであるが、このデータソースクラスタリングＵI５５を用いた設定処理（設計）で重要な点は、以下の２つである。第１に、画像データ（フレーム画像）の選択基準の設定方法（画像データ収集フィルタの設定方法）を、どのように設定するかである。例えば、システム管理者が、操作部３５でフィルタ設定６１をクリックすることにより、Ｃｏｎｆｉｇ欄６８に示される画像データ収集フィルタの設定（フレーム画像の選択基準の設定）を行うことができる。クラスタリングのためのレイアウト・フレーム画像の収集時には、フレーム画像の選択基準は、例えば、図８のＣｏｎｆｉｇ欄６８に示すように、（撮影）開始時間＝２０２２年５月１７日の午前８時（開店前）、期間＝１０秒、人の数＝０名である。このようなフレーム画像の選択基準を採用することにより、学習サーバ１は、新しい（複数の）カメラの各々から、２０２２年５月１７日の午前８時ジャストから午前８時０分１０秒の間の人が映っていない撮影画像（フレーム画像）を、少なくとも１枚収集する。なお、実際には、上記のように、複数の時間帯に撮影した各カメラのフレーム画像から、少なくとも１枚のレイアウト・フレーム画像を収集することが望ましい。

【0046】

また、このデータソースクラスタリングＵI５５を用いた設定処理（設計）で重要な２つ目の点は、ツールボックス欄５６に表示されたクラスタリング・アルゴリズムの選択処理である。図８の結果欄５８の左側には、システム管理者が、操作部３５を用いて、ツールボックス欄５６に表示されたクラスタリング・アルゴリズムの中からＫＮＮを選択した場合におけるクラスタリング結果を示す。ただし、図７のＳ４１で説明したように、新しいカメラのレイアウト・フレーム画像の各々から２０４８次元の特徴ベクトルを抽出した場合には、図８の結果欄５８の左側に示すような２次元のクラスタリング結果を得るためには、上記の２０４８次元の特徴ベクトルを２次元に次元削減した上で、ＫＮＮでクラスタリングする必要がある。

【0047】

データソースクラスタリングＵI５５の右側のＣｏｎｆｉｇ欄６９は、エッジ側のデバイス（サイネージ４及び分析ボックス２）から受信したフレーム画像（レイアウト・フレーム画像）の評価の基準を示し、結果欄５８の右側は、エッジ側のデバイスから受信したフレーム画像の評価の結果を示す。クラスタリング処理で使用するフレーム画像は、人が映っていないレイアウト・フレーム画像なので、Ｃｏｎｆｉｇ欄６９に示される評価の基準においても、結果欄５８の右側に示される評価の結果においても、フレーム画像に映っている人の数（“ｎｂｒｏｆｐ”）は、０人であり、各フレーム画像毎の（検出した人、顔、又は頭に対応する）バウンドボックスの数（“ｂｂｘ／ｆｒａｍｅ”）は、０になる。

【0048】

上記のクラスタリング処理が完了すると、学習サーバ１のＣＰＵ３１は、ターゲットとなる所定の推論処理用ＤＮＮモデルの学習用データセットの生成に必要なフレーム画像の収集を開始する。具体的には、学習サーバ１のＣＰＵ３１は、まず、図９に示すデータ収集選択ＵＩ７２で編集した仕組みに基づいて、上記の学習用データセットに必要な最小限度の数の、人が映ったフレーム画像を集める処理を行う。

【0049】

上記の必要な最小限度の数のフレーム画像を集める処理は、以下のようにして行われる。まず、図９に示すデータ収集選択ＵＩ７２で、システム管理者が、例えば、操作部３５でフィルタ設定８０をクリックすることにより、Ｃｏｎｆｉｇ欄８７に示される画像データ収集フィルタの設定（フレーム画像の選択基準の設定）を行うことができる。この図９に示すＣｏｎｆｉｇ欄８７の例では、フレーム画像の選択基準が数式で表されている。システム管理者は、Ｃｏｎｆｉｇ欄８７に数式を書き込むことに加えて、Ｃｏｎｆｉｇ欄８８に記載された画像データ収集要求のプログラムを編集する事により、フレーム画像の選択基準の設定（画像データ収集フィルタの設定）を行うことができる。このフレーム画像の選択基準の設定操作が完了すると（図６のＳ１４）、学習サーバ１のＣＰＵ３１は、図９に示すデータ収集選択ＵＩ７２で編集した処理を実行して、必要な最小限度の数のフレーム画像の収集が完了するまで、上記Ｓ１３で選択した（各カメラグループにおける）代表カメラから、上記Ｓ１４で設定した選択基準に合致した、多様性のある、人が映ったフレーム画像を収集する（Ｓ１５及びＳ１６）。図９に示される例では、代表カメラから多様性のあるフレーム画像を収集するために、Ｃｏｎｆｉｇ欄８７に示す数式は、一つ前のフレーム画像から見て、人数が増えたフレーム画像、又は動きがあった（人の位置の移動又は人の姿勢の変化があった）フレーム画像を選択するという内容になっている。また、図９に示される例では、Ｃｏｎｆｉｇ欄８８に記載された画像データ収集要求のプログラムは、検出された人の数が５人以上で、頭は検出され、顔は検出されないという内容になっている。

【0050】

次に、図１０を参照して、上記図６のS１４で設定された選択基準に応じた、フレーム画像の選択アルゴリズムの例について、説明する。学習サーバ１のＣＰＵ３１は、上記の代表カメラが撮影したフレーム画像で検出した人毎に、トラッキングＩＤを付与する。より詳細に言うと、学習サーバ１のＣＰＵ３１は、例えば、同じ代表カメラで撮影した各フレーム画像の撮影時刻と、これらのフレーム画像について人検出用学習済ＤＮＮモデルが検出した人９２の座標位置（又は人の座標位置及びサイズ）とに基づいて、フレームを越えて同じ顧客に同じＩＤを付与することで、同じ代表カメラで撮影した顧客（人９２）の追跡処理（トラッキング処理）を行う。そして、学習サーバ１のＣＰＵ３１は、上記のトラッキングＩＤを用いて（トラッキング処理を利用して）、ある代表カメラで撮影したフレーム画像のうち、上記のデータ収集選択ＵＩ７２で設定した選択基準における「最少人数」の基準（図９及び図１０の例では、５人）を満たす最初のフレーム画像（図１０の例では、撮影時刻ｔ＿０のフレーム画像）を、（収集対処のフレーム画像として）選択する。図１０の例では、各代表カメラから送られるフレーム画像のフレームレートが１ｆｐｓであると想定して、下記の説明を行う。

【0051】

学習サーバ１のＣＰＵ３１は、上記の撮影時刻ｔ＿０のフレーム画像の選択処理を完了すると、次の撮影時刻ｔ＿１（＝ｔ＿０＋１ｓ）のフレーム画像が、データ収集選択ＵＩ７２で設定した選択基準を満たしているか否かをチェックする。この場合（その前のフレーム画像が「最少人数」の基準を満たすフレーム画像である場合）のフレーム画像の選択基準は、上記の「最少人数」の基準（５人）に加えて、一つ前のフレーム画像から見て、（１）人数が増加したか、（２）人の位置が移動したか（正確に言うと、２０％以上の人が、一つ前のフレーム画像における位置から移動したか）、（３）人の姿勢が変化したか（正確に言うと、２０％以上の人が、一つ前のフレーム画像から見て、体／頭／顔の姿勢が変化したか）のいずれかの条件を充たすことである。撮影時刻ｔ＿１のフレーム画像は、上記（１）～（３）のいずれの条件も満たさないので、学習サーバ１のＣＰＵ３１は、この撮影時刻ｔ＿１のフレーム画像を選択しない。これに対して、撮影時刻ｔ＿１の次の撮影時刻ｔ＿２（＝ｔ＿１＋１ｓ）のフレーム画像は、上記（１）の条件を満たさないが、（２）の条件を満たすので、学習サーバ１のＣＰＵ３１は、この撮影時刻ｔ＿２のフレーム画像を選択する。また、撮影時刻ｔ＿２の次の撮影時刻ｔ＿３（＝ｔ＿２＋１ｓ）のフレーム画像は、上記（１）の条件を満たすので、学習サーバ１のＣＰＵ３１は、この撮影時刻ｔ＿３のフレーム画像を選択する。そして、撮影時刻ｔ＿ｉ（＝ｔ＿（ｉ－１）＋１ｓ）のフレーム画像は、上記（１）及び（２）の条件を満たさないが、（３）の条件を満たすので、学習サーバ１のＣＰＵ３１は、この撮影時刻ｔ＿ｉのフレーム画像を選択する。

【0052】

上記図１０に示すフレーム画像の選択処理をまとめると、その前のフレーム画像が「最少人数」の基準を満たすフレーム画像であったときには、一つ前のフレーム画像から見て変化がない（上記（１）～（３）のいずれの条件も満たさない）フレーム画像については選択せず、一つ前のフレーム画像から見て変化がある（上記（１）～（３）のうちのいずれかの条件を満たす）フレーム画像のみを選択することにより、代表カメラから、多様性のある、人が映ったフレーム画像を効率的に収集することを実現している。

【0053】

次に、図９に示すデータ収集選択ＵＩ７２の詳細について、説明する。このデータ収集選択ＵＩ７２は、学習サーバ１側においてシステム管理者が、上記の代表カメラからのフレーム画像の選択と収集のサブシステム（ソフトウェア・モジュール群）の設計時に用いるユーザインタフェース（ＵI）用の画面である。上記のデータ収集選択ＵＩ７２は、ＡＩツールボックス欄７３と、システムツールボックス欄７４と、システム編集欄７５と、結果欄７６とを有している。また、上記のシステム編集欄７５は、上部の収集エリア７５ａと、下部の評価エリア７５ｂとに分けられている。システム管理者は、収集エリア７５ａに、フレーム画像の選択と収集に関連する機能ブロックを配置し、評価エリア７５ｂに、収集したフレーム画像の評価に関連する機能ブロックを配置すると共に、上記のＣｏｎｆｉｇ欄８７とＣｏｎｆｉｇ欄８８への選択基準の設定操作を行うことにより、上記の代表カメラからのフレーム画像の選択と収集のサブシステムの設計を行う。

【0054】

データ収集選択ＵＩ７２におけるシステム編集欄７５では、システム管理者がシステムツールボックス欄７４から選択することができる機能ブロックのうち、初期化ブロック７８、選択基準定義ブロック７９、フィルタ設定８０、画像データ収集要求ブロック８１、収集要求送信ブロック８２、応答／データ受信ブロック８３、評価ブロック８４、処理結果ブロック８５、及びビジュアライザ８６が用いられている。

【0055】

上記の機能ブロックのうち、収集エリア７５ａに配置された７８～８２の機能ブロックと、評価エリア７５ｂに配置された応答／データ受信ブロック８３は、上記図６のＳ１４のシステム管理者によるフレーム画像選択基準の設定操作と、Ｓ１５の各代表カメラからのフレーム画像収集処理に用いられる。また、評価エリア７５ｂに配置された評価ブロック８４は、応答／データ受信ブロック８３により各代表カメラから受信したフレーム画像の評価に必要な推論処理を行う。このデータ収集選択ＵＩ７２では（すなわち、必要な最小限度の数のフレーム画像を収集するステージでは）、評価ブロック８４が行う推論処理は、各フレーム画像における人の検出処理と、ターゲットとなる所定の推論処理用ＤＮＮモデルが行う推論処理と同じ種類の推論処理（エッジ側デバイスの推論処理用学習済ＤＮＮモデルが行う推論処理と同じ種類の推論処理）である。ただし、評価ブロック８４が行う推論処理では、エッジ側デバイスの推論処理用学習済ＤＮＮモデルよりも重くて、精度の高い推論処理用学習済ＤＮＮモデルが用いられる。また、この評価ブロック８４は、各代表カメラから収集したフレーム画像の評価基準の設定に用いられる。例えば、システム管理者が操作部３５で評価ブロック８４をクリックすることにより、Ｃｏｎｆｉｇ欄８９に示されるフレーム画像の評価基準の設定入力を行うことができる。Ｃｏｎｆｉｇ欄８９では、（評価の）基準と、その範囲（正常値とみなされる最小値と最大値）の設定入力を行うことができる。

【0056】

また、処理結果ブロック８５は、上記の評価ブロック８４で行った評価のための推論処理の結果を、Ｓ５１の評価値の判定ブロックと、結果欄７６の右側の評価表９１に出力する。

【0057】

図９のＳ５１の判定ブロックでは、学習サーバ１のＣＰＵ３１が、応答／データ受信ブロック８３により各代表カメラから受信したフレーム画像に対する評価値が、ＫＰＩ（目標）に達したか否かを判定する。具体的には、このデータ収集選択ＵＩ７２で設計されたシステムでは、学習用データセットに必要な最小限度の数の、人が映ったフレーム画像を集めることが目的なので、Ｓ５１におけるＫＰＩは、以下の３つになる。

【0058】

一つ目のＫＰＩ（目標）は、所定の数以上の（必要な最小限度の数の）フレーム画像を集めることである。例えば、各代表カメラから１０００枚のフレーム画像を集めることである。また、二つ目のＫＰＩ（目標）は、各フレーム画像が人を含んでいることである。例えば、処理結果ブロック８５が、応答／データ受信ブロック８３により各代表カメラから受信したフレーム画像の全てに対して、人の検出処理を行って、その結果、全てのフレーム画像に人が検出されることである。三つ目のＫＰＩ（目標）は、応答／データ受信ブロック８３により各代表カメラから受信したフレーム画像に対して、評価ブロック８４がエッジ側デバイスの推論処理用学習済ＤＮＮモデルと同じ種類の推論処理を行った結果、上記の各代表カメラから受信した全てのフレーム画像が、いずれかのクラスに含まれる内容を持つことである。具体的に言うと、例えば、エッジ側デバイスの推論処理用学習済ＤＮＮモデル（ターゲットとなる所定の推論処理用ＤＮＮモデル）が、頭／顔検出用の学習済ＤＮＮモデルであった場合に、各代表カメラから受信した全てのフレーム画像に対して、評価ブロック８４が頭／顔検出処理を行った結果、上記の各代表カメラから受信した全てのフレーム画像において、頭／顔検出用の学習済ＤＮＮモデルにより付与可能ないずれかのクラスに含まれるもの（すなわち、「頭」又は「顔」）が、一つ以上検出されることが、三つ目のＫＰＩである。この三つ目のＫＰＩを設ける目的は、学習用データセット内のフレーム画像に含まれる物体（正確に言うと、人）のクラスのアンバランスさを削減するためである。このようなクラスのアンバランスさは、少数派のクラスについての推論精度を低下させてしまう。

【0059】

上記Ｓ５１の判定において、学習サーバ１のＣＰＵ３１が、応答／データ受信ブロック８３により各代表カメラから受信したフレーム画像に対する評価値が、ＫＰＩ（目標）に達していないと判定した場合（上記の３つのＫＰＩのうち、達成されていないＫＰＩがあると判定した場合）には（Ｓ５１でＮＯ）、システム管理者は、必要な場合は、操作部３５を用いて、Ｃｏｎｆｉｇ欄８７とＣｏｎｆｉｇ欄８８における、フレーム画像の選択基準の追加・変更を行う。そして、システム管理者は、操作部３５により、学習サーバ１のＣＰＵ３１に対して、上記評価値がＫＰＩ（目標）に達するまで（上記の３つのＫＰＩの全てが達成されるまで）、選択基準定義ブロック７９、画像データ収集要求ブロック８１、収集要求送信ブロック８２、応答／データ受信ブロック８３、評価ブロック８４、及び処理結果ブロック８５の処理を繰り返すように指示する。

【0060】

上記データ収集選択ＵＩ７２における結果欄７６の右側には、Ｃｏｎｆｉｇ欄８９に入力されたフレーム画像の評価基準に対して、各代表カメラから受信したフレーム画像に対する評価結果が、どうであったかを示す評価表９１が表示される。評価表９１に表示される評価結果は、各代表カメラから受信したフレーム画像の数（”ｎｂｒｏｆｆｒａｍｅｓ”）以外は、評価ブロック８４により実行された推論処理の結果から得られた評価結果である。

【0061】

上記データ収集選択ＵＩ７２における結果欄７６の左側には、ビジュアライザ８６により得られた複数のサンプル画像９０が表示される。これらのサンプル画像９０は、各代表カメラから受信したフレーム画像からサンプリングされたフレーム画像であり、これらのサンプル画像９０には、評価ブロック８４により実行された推論処理の結果（例えば、人や頭のバウンディングボックス）が、処理結果の視覚化のために、オーバーラップされる。すなわち、ビジュアライザ８６は、正解ラベル付きのフレーム画像９０をサンプル表示するための視覚化ツールであり、特に、各代表カメラから受信したフレーム画像に対する評価値が、ＫＰＩ（目標）に達しない場合等に、システム管理者が、今何が起こっているのかを確認するために用いられるツールである。

【0062】

上記図９のＳ５１の判定において、代表カメラから受信したフレーム画像に対する評価値が、ＫＰＩ（目標）に達した場合、すなわち、図６のフローチャートのＳ１６において、必要な最小限度の数のフレーム画像の収集が完了した場合には（Ｓ１６でＹＥＳ）、学習サーバ１のＣＰＵ３１は、各代表カメラから収集済のフレーム画像の各々に対して、評価用の擬似ラベリング処理（請求項における「評価用の推論処理」）を行う（Ｓ１７）。そして、これらのフレーム画像に対する擬似ラベリング処理の結果に基づいて、上記の各代表カメラより収集したフレーム画像から構成されるデータセットの品質の評価を行う（Ｓ１８）。より具体的に言うと、各代表カメラより収集したフレーム画像に対する擬似ラベリング処理の結果に基づいて、上記の各代表カメラより収集したフレーム画像から構成されるデータセットが、ターゲットとなる所定の推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適しているか否かを評価する。

【0063】

上記の擬似ラベリング処理の結果に基づく、データセットの品質の評価は、以下のようなものである。すなわち、データセットに含まれるフレーム画像に対する擬似ラベリング処理の結果は、このデータセットが、何らかのバイアスを持つか否かを教示してくれる。例えば、ターゲットとなる所定の推論処理用ＤＮＮモデルが、顔の検出用のＤＮＮモデルや、顔の検出用のＤＮＮモデルで検出された顔の画像に対する推論処理用のＤＮＮモデル（例えば、性別及び年齢の推定処理、顔ベクトル抽出処理、人の同定処理等の推論処理用のＤＮＮモデル）である場合に、データセットに含まれるフレーム画像のうち、８０％以上が、映った顔のサイズが所定のサイズより小さいフレーム画像である場合には、このデータセットは、フレーム画像に映った顔のサイズが小さいというバイアスを持つので、ターゲットとなる推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適していない。上記のようなデータセットの質の評価を行うために、学習サーバ１のＣＰＵ３１は、各代表カメラより収集したフレーム画像の各々に対して、擬似ラベリング処理として、顔検出用の学習済ＤＮＮモデルによる顔検出処理を行って、顔のバウンディングボックスのサイズを得る。そして、各フレーム画像に対する顔検出処理（擬似ラベリング処理）により得た顔のバウンディングボックスのサイズが、図１１のＣｏｎｆｉｇ欄１１１に示される顔のサイズ（ｆａｃｅｓｉｚｅ）の正常値の範囲（最小値～最大値の範囲）に入っているか否かを判定する。この判定の結果、データセットに含まれるフレーム画像のうち、顔のサイズが正常値の範囲に入っているフレーム画像が多ければ、図１１のＳ５３の判定における（データセットの品質の）「総合評価値」は、高くなり、逆に、顔のサイズが正常値の範囲に入っているフレーム画像が少なければ、上記の「総合評価値」は、低くなる。

【0064】

また、ターゲットとなる所定の推論処理用ＤＮＮモデルの現行バージョンの学習済ＤＮＮモデルを用いて、データセットに含まれるフレーム画像に対する擬似ラベリング処理を行って、この現行バージョンの学習済ＤＮＮモデルによる擬似ラベリング処理の結果と、この現行バージョンの学習済ＤＮＮモデルよりも重くて、精度の高い推論処理用学習済ＤＮＮモデルによる推論処理の結果とを突き合わせて、下記のＦａｌｓｅＰｏｓｉｔｉｖｅ（偽陽性）と判定される確率が高ければ、このデータセットは、ＦａｌｓｅＰｏｓｉｔｉｖｅと判定される可能性が高いフレーム画像を多く含むというバイアスを持つので、ターゲットとなる推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適していない。なお、現行バージョンの学習済ＤＮＮモデルによる擬似ラベリング処理（推論処理）の結果が、正（Ｐｏｓｉｔｉｖｅ）であったにも拘らず、上記の精度の高い推論処理用学習済ＤＮＮモデルによる推論処理の結果が、負（Ｎｅｇａｔｉｖｅ）であった場合に、上記のＦａｌｓｅＰｏｓｉｔｉｖｅ（偽陽性）という判定が行われる。例えば、ターゲットとなる推論処理用ＤＮＮモデルが、顔の検出用のＤＮＮモデルである場合に、あるフレーム画像について、現行バージョンの顔検出用の学習済ＤＮＮモデルによる擬似ラベリング処理（推論処理）の結果、顔の正解ラベルが付されたが、この現行バージョンの顔検出用学習済ＤＮＮモデルよりも重くて、精度の高い顔検出用学習済ＤＮＮモデルによる推論処理の結果、（上記のフレーム画像に）顔が検出されなければ、ＦａｌｓｅＰｏｓｉｔｉｖｅという判定が行われる。データセットに含まれる各フレーム画像について、上記の判定を行って、この結果、ＦａｌｓｅＰｏｓｉｔｉｖｅ（偽陽性）と判定される確率が高ければ、図１１のＳ５３の判定における（データセットの質の）「総合評価値」は、低くなり、逆に、ＦａｌｓｅＰｏｓｉｔｉｖｅと判定される確率が低ければ、上記の「総合評価値」は、高くなる。

【0065】

さらにまた、ターゲットとなる所定の推論処理用ＤＮＮモデルが、人の性別推定用のＤＮＮモデルである場合に、データセットに含まれるフレーム画像のうち、８０％以上が、女性だけが映ったフレーム画像である場合には、このデータセットは、フレーム画像に映った人に女性が多いというバイアスを持つので、ターゲットとなる人の性別推定用のＤＮＮモデルのファインチューニング用の学習用データセットに適していない。上記のようなデータセットの質の評価を行うために、学習サーバ１のＣＰＵ３１は、各代表カメラより収集したフレーム画像の各々に対して、擬似ラベリング処理として、人の性別推定用の学習済ＤＮＮモデルによる性別推定処理を行って、各フレーム画像に、「男性」又は「女性」の正解ラベルを付与する。そして、これらの正解ラベル全体に占める「男性」の比率、又は「女性」の比率が、正常値の範囲に入っているか否かを判定する。この判定の結果、「男性」の比率又は「女性」の比率が、正常値の範囲に入っていれば、図１１のＳ５３の判定における（データセットの質の）「総合評価値」は、高くなり、逆に、上記の比率が、正常値の範囲に入っていなければ、上記の「総合評価値」は、低くなる。なお、上記の擬似ラベリング処理に用いられる性別推定用の学習済ＤＮＮモデルは、エッジ側のデバイスで用いられる性別推定用の学習済ＤＮＮモデルよりも重くて、精度の高い推論処理用学習済ＤＮＮモデルであることが望ましい。

【0066】

上記の擬似ラベリング処理の結果に基づく、データセットの品質の評価のうち、最も簡単なものには、以下の例がある。ターゲットとなる所定の推論処理用ＤＮＮモデルが、人、顔又は頭の検出用のＤＮＮモデルや、人又は顔についての物体認識用のＤＮＮモデルである場合には、図１１のＣｏｎｆｉｇ欄１１１に示すように、フレーム画像に映っている人の数（”ｎｂｒｏｆｐ”）は、ある程度の範囲内（例えば、２人から１０人）に収まっていることが好ましい。このような場合に、学習サーバ１のＣＰＵ３１は、各代表カメラより収集したフレーム画像の各々に対して、擬似ラベリング処理として、人検出用の学習済ＤＮＮモデルによる人検出処理を行って、各フレーム画像に映っている人の数を求める。そして、データセットに含まれるフレーム画像のうち、フレーム画像に映っている人の数が、図１１のＣｏｎｆｉｇ欄１１１に示される人数の範囲内に入っているフレーム画像の比率を求める。この結果、データセットに含まれるフレーム画像のうち、フレーム画像に映っている人の数が、図１１のＣｏｎｆｉｇ欄１１１に示される人数の範囲内に入っているフレーム画像の比率が高ければ、図１１のＳ５３の判定における（データセットの質の）「総合評価値」は、高くなり、逆に、上記の人数の範囲内に入っているフレーム画像の比率が低ければ、上記の「総合評価値」は、低くなる。

【0067】

上記のように、データセットに含まれるフレーム画像に対する擬似ラベリング処理の結果は、このデータセットが、何らかのバイアスを持つか否かを教示してくれるので、上記のように、データセットに含まれるフレーム画像に対して、人検出用、顔検出用、頭検出用、姿勢推定用等の何らかの疑似ラベリングモデルを用いて、正解ラベルを付与することにより、現在のデータセットが、図１１のＣｏｎｆｉｇ欄１１１に示される各評価基準の正常値の範囲（最小値～最大値の範囲）内に入っているか否かを判定して、これらの判定結果から、（データセットの品質の）「総合評価値」を求めることができる。

【0068】

上記Ｓ１８におけるデータセットの品質の評価の結果、上記の（データセットの品質の）「総合評価値」が、ＫＰＩ（目標）に達していないと判定された場合（Ｓ１９でＮＯ）、システム管理者は、必要な場合は、操作部３５を用いて、図１１のＣｏｎｆｉｇ欄１０９とＣｏｎｆｉｇ欄１１０における、フレーム画像の選択基準の追加・変更を行った上で、操作部３５により、学習サーバ１のＣＰＵ３１に対して、上記のデータセットの品質の評価結果に応じて、データセットの改善（フレーム画像の補充・削除）を行うように指示する。これにより、学習サーバ１のＣＰＵ３１は、上記総合評価値がＫＰＩ（目標）に達するまで、上記Ｓ１７乃至Ｓ２０の処理を繰り返して、各代表カメラからの人が映ったフレーム画像の補充や、余分なフレーム画像の削除（Ｓ２０）を行い、データセットの品質を改善する。例えば、各代表カメラから受信したフレーム画像の数（”ｎｂｒｏｆｆｒａｍｅｓ”）が、所定の枚数に達しない場合には、学習サーバ１のＣＰＵ３１は、各代表カメラから人が映ったフレーム画像を収集して、これらのフレーム画像をデータセットに補充する。また、Ｓ１７の擬似ラベリング処理の結果、データセット内の各フレーム画像に付与されたラベル（クラス）にバイアスがある（クラスの不均衡がある）場合には、学習サーバ１のＣＰＵ３１は、多数派のクラスに属するフレーム画像の一部を、データセットから除去（削除）することにより、データセット（のフレーム画像）における、クラスの均衡（バランス化）を図る。

【0069】

次に、図１１に示すデータ品質評価ＵＩ９３の詳細について、説明する。このデータ品質評価ＵＩ９３は、学習サーバ１側においてシステム管理者が、各代表カメラより収集したフレーム画像から構成されるデータセットの品質の評価と、このデータセットへのフレーム画像データの補充（追加）を行うためのサブシステムの設計時に用いるユーザインタフェース（ＵI）用の画面である。このデータ品質評価ＵＩ９３は、ＡＩツールボックス欄９４と、システムツールボックス欄９６と、システム編集欄９５と、結果欄９７とを有している。また、上記のシステム編集欄９５は、上部の収集エリア９５ａと、下部の疑似ラベリング評価エリア９５ｂとに分けられている。システム管理者は、収集エリア９５ａに、フレーム画像の選択と収集に関連する機能ブロックを配置し、疑似ラベリング評価エリア９５ｂに、収集したフレーム画像から構成されるデータセットの品質の（擬似ラベリングを介した）評価に関連する機能ブロックを配置すると共に、上記のＣｏｎｆｉｇ欄１１０とＣｏｎｆｉｇ欄１１１への選択基準の追加・変更の設定操作を行うことにより、上記のデータセットの品質の評価と、データセットへのフレーム画像データの補充を行うためのサブシステムの設計を行う。

【0070】

データ品質評価ＵＩ９３におけるシステム編集欄９５では、システム管理者がシステムツールボックス欄９６から選択することができる機能ブロックのうち、初期化ブロック１００、選択基準定義ブロック１０１、フィルタ設定１０２、画像データ収集要求ブロック１０３、収集要求送信ブロック１０４、補充データ受信ブロック１０５、疑似ラベリングブロック１０６、処理結果ブロック１０７、及びビジュアライザ１０８が用いられている。

【0071】

上記の機能ブロックのうち、収集エリア９５ａに配置された１００～１０４の機能ブロックと、疑似ラベリング評価エリア９５ｂに配置された補充データ受信ブロック１０５は、上記図６のＳ２０の説明で述べた、システム管理者によるフレーム画像選択基準の追加・変更操作と、各代表カメラからのフレーム画像収集（補充）処理に用いられる。また、疑似ラベリング評価エリア９５ｂに配置された疑似ラベリングブロック１０６は、図５における評価用推論部４６に相当し、各代表カメラから受信したフレーム画像の各々に対して、評価用の擬似ラベリング処理（請求項における「評価用の推論処理」）を行う（すなわち、図６中のＳ１７の処理を行う）。また、この疑似ラベリングブロック１０６は、各代表カメラから収集したフレーム画像の評価基準の設定に用いられる。例えば、システム管理者が操作部３５で疑似ラベリングブロック１０６をクリックすることにより、Ｃｏｎｆｉｇ欄１１１に示されるフレーム画像（データセット）の品質の評価基準の設定入力を行うことができる。Ｃｏｎｆｉｇ欄１１１では、フレーム画像（データセット）の品質の各評価基準と、その正常範囲（正常値とみなされる最小値と最大値）の設定入力を行うことができる。

【0072】

また、処理結果ブロック１０７は、上記の疑似ラベリングブロック１０６で行った評価用の擬似ラベリング処理の結果を出力する。この評価用の擬似ラベリング処理の結果は、Ｓ５３の総合評価値の判定ブロックにおける判定処理と、結果欄９７の右側の評価表１１３における各基準に対応する値の出力に用いられる。

【0073】

図１１のＳ５３の判定ブロックでは、学習サーバ１のＣＰＵ３１が、擬似ラベリング処理を介した、データセットの品質の総合評価値が、ＫＰＩ（目標）に達したか否かを判定する。

【0074】

上記Ｓ５３の判定において、学習サーバ１のＣＰＵ３１が、データセットの品質の総合評価値が、ＫＰＩ（目標）に達していないと判定した場合には（Ｓ５３でＮＯ）、システム管理者は、必要な場合は、操作部３５を用いて、Ｃｏｎｆｉｇ欄１０９とＣｏｎｆｉｇ欄１１０における、フレーム画像の選択基準の追加・変更を行う。そして、システム管理者は、上記のデータセットの品質の評価の結果、各代表カメラから受信したフレーム画像の数（”ｎｂｒｏｆｆｒａｍｅｓ”）が、所定の枚数に達しない場合には、操作部３５により、学習サーバ１のＣＰＵ３１に対して、上記総合評価値がＫＰＩ（目標）に達するまで、画像データ収集要求ブロック１０３、収集要求送信ブロック１０４、補充データ受信ブロック１０５、疑似ラベリングブロック１０６、処理結果ブロック１０７、及びＳ５３の総合評価値の判定ブロックの処理を繰り返すように指示する。ただし、擬似ラベリング処理の結果、データセット内の各フレーム画像に付与されたラベル（クラス）にバイアスがある（クラスの不均衡がある）場合には、学習サーバ１のＣＰＵ３１は、多数派のクラスに属するフレーム画像の一部を、データセットから除去（削除）することにより、データセット（のフレーム画像）における、クラスの均衡（バランス化）を図る。この場合には、学習サーバ１のＣＰＵ３１は、上記の多数派のクラスに属するフレーム画像の一部を削除する処理を行った後、再度、上記Ｓ５３の判定処理を繰り返す。

【0075】

なお、図６で説明した処理の流れから分かるように、データ収集選択ＵＩ７２で定義した必要な最小限度の数のフレーム画像の収集が完了した直後に行われるデータ品質評価ＵＩ９３側の処理は、疑似ラベリングブロック１０６及び処理結果ブロック１０７の処理と、判定ブロックＳ５３による総合評価値の判定処理である。そして、第１回目のＳ５３の判定において、学習サーバ１のＣＰＵ３１が、データセットの品質の総合評価値が、ＫＰＩに達していると判定した場合には、上記１０１～１０５のブロックの処理は、一度も行われない。

【0076】

上記データ品質評価ＵＩ９３における結果欄９７の右側には、Ｃｏｎｆｉｇ欄１１１に入力されたデータセットの評価基準に対して、各代表カメラから受信したフレーム画像から構成されるデータセットに対する評価結果が、どうであったかを示す評価表１１３が表示される。評価表１１３に表示される評価結果は、疑似ラベリングブロック１０６により実行された評価用の擬似ラベリング処理の結果から得られた評価結果である。

【0077】

上記データ品質評価ＵＩ９３における結果欄９７の左側には、ビジュアライザ１０８により得られた複数のサンプル画像１１２が表示される。これらのサンプル画像１１２は、各代表カメラから受信したフレーム画像からサンプリングされたフレーム画像であり、これらのサンプル画像１１２には、疑似ラベリングブロック１０６により実行された評価用の擬似ラベリング処理の結果（例えば、人や頭のバウンディングボックス）が、処理結果の視覚化のために、オーバーラップされる。すなわち、ビジュアライザ１０８は、疑似ラベリング処理により得られた、正解ラベル付きのフレーム画像１１２をサンプル表示するための視覚化ツールであり、特に、データセットの品質の総合評価値が、ＫＰＩ（目標）に達しない場合等に、システム管理者が、今何が起こっているのかを確認するために用いられるツールである。

【0078】

上記図１１のＳ５３の判定（図６のＳ１９の判定に対応）において、データセットの品質の総合評価値が、ＫＰＩ（目標）に達した場合、すなわち、ターゲットとなる推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適していると思われるデータセットの生成が完了した場合には、学習サーバ１のＣＰＵ３１は、このデータセット（代表カメラから収集したフレーム画像から構成されるデータセット）を学習用データセットとして用いて、元の推論処理用の学習済ＤＮＮモデルのファインチューニングを行う（図６のＳ２１）。ここで、元の推論処理用の学習済ＤＮＮモデルとは、エッジ側デバイスの推論処理用学習済ＤＮＮモデル（ターゲットとなる所定の推論処理用ＤＮＮモデル）の現行バージョンの学習済ＤＮＮモデルであっても良いし、公開されている（一般の人が使用可能な）学習用データセットで機械学習を行った汎用的な学習済ＤＮＮモデルであってもよい。

【0079】

上記Ｓ２１の学習済ＤＮＮモデルのファインチューニングが完了すると、学習サーバ１のＣＰＵ３１は、上記ファインチューニング後の学習済ＤＮＮモデルの評価をする（Ｓ２２）。具体的には、学習サーバ１のＣＰＵ３１は、上記データ品質評価ＵＩ９３に示す手順と同様な手順で別途収集した未知のテスト用データセットに含まれるフレーム画像について、上記ファインチューニング前の学習済ＤＮＮモデルと、ファインチューニング後の学習済ＤＮＮモデルの両方で推論処理を行って、ファインチューニング前と後の学習済ＤＮＮモデルによる推論処理の精度を比較する。その結果、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上している場合（例えば、ファインチューニング後の学習済ＤＮＮモデルのＦ１スコアが、ファインチューニング前の学習済ＤＮＮモデルのＦ１スコアよりも、５％以上向上している場合）には、学習サーバ１のＣＰＵ３１は、ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値（Ｆ１スコア）が、ＫＰＩ以上（目標に達している）と判定する。この場合には（Ｓ２３でＮＯ）、学習サーバ１のＣＰＵ３１は、ターゲットとなる推論処理用ＤＮＮモデルの一般化が完了したと見做して（Ｓ２５）、上記のファインチューニング後の学習済ＤＮＮモデルを、エッジ側デバイスに配布する。

【0080】

上記のテスト用データセットは、上記データ品質評価ＵＩ９３に示す手順と同様な手順で収集されたデータセットであり、データ品質評価ＵＩ９３のＳ５３の判定において、データセットの品質の総合評価値が、ＫＰＩ（目標）に達するまで、画像データ収集要求ブロック１０３、収集要求送信ブロック１０４、補充データ受信ブロック１０５、疑似ラベリングブロック１０６、処理結果ブロック１０７、及びＳ５３の総合評価値の判定ブロックの処理を繰り返すことにより、得られたデータセットである。なお、テスト用データセットの生成時には、図１１のＣｏｎｆｉｇ欄１１１に示されるデータセットの評価基準の項目自体は、上記の学習用データセットの生成時と同じであるが、評価基準の各項目の値は異なる。例えば、データセットの評価基準のうち、フレーム画像の数（”ｎｂｒｏｆｆｒａｍｅｓ”）は、学習用データセットの生成時には、各カメラにつき、１０００枚以上であるが、テスト用データセットの生成時には、各カメラにつき、１００枚以上で充分である。

【0081】

また、上記のテスト用データセットを構成するフレーム画像は、学習用データセットの生成時のように、各代表カメラから取得したフレーム画像である必要はなく、各カメラグループにおける代表カメラ以外のカメラから取得したフレーム画像であってもよい。上記の代表カメラ以外のカメラから取得したフレーム画像から構成されるデータセットを、テスト用データセットとして用いることにより、ファインチューニング後の学習済ＤＮＮモデルが、空間的に一般化されているか否かをチェックすることができる。ここで、学習済ＤＮＮモデルの「一般化」とは、学習済ＤＮＮモデルが、未知の入力データ（この場合は、未知のフレーム画像）に対して、正しい結果を出力することができることを意味する。また、この場合の「学習済ＤＮＮモデルが、空間的に一般化されている」とは、学習済ＤＮＮモデルに、学習用データセットに含まれない、代表カメラとは異なるカメラから取得したフレーム画像が入力された場合であっても、学習済ＤＮＮモデルが、代表カメラから取得したフレーム画像が入力された場合と同様に、正しい結果を出力することができることを意味する。

【0082】

また、上記のテスト用データセットを構成するフレーム画像は、上記の学習用データセット用のフレーム画像取得時とは異なる日時に上記の各代表カメラで撮影されたフレーム画像であってもよい。上記の学習用データセット用のフレーム画像撮影時とは異なる日時に代表カメラで撮影されたフレーム画像から構成されるデータセットを、テスト用データセットとして用いることにより、ファインチューニング後の学習済ＤＮＮモデルが、時間的に一般化されているか否かをチェックすることができる。この場合の「学習済ＤＮＮモデルが、時間的に一般化されている」とは、学習済ＤＮＮモデルに、学習用データセット用のフレーム画像撮影時とは異なる日時に撮影されたフレーム画像が入力された場合であっても、学習済ＤＮＮモデルが、学習用データセット用のフレーム画像が入力された場合と同様に、正しい結果を出力することができることを意味する。

【0083】

これに対して、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度（Ｆ１スコア）が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度（Ｆ１スコア）よりも、所定の値以上向上していない場合には、学習サーバ１のＣＰＵ３１は、ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値が、ＫＰＩ（目標）に達していないと判定する（Ｓ２３でＹＥＳ）。このように、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上していない場合（特に、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、低下している場合）は、ファインチューニング後の学習済ＤＮＮモデルが、学習用データセットのバイアスに過適合した状態（過学習の状態）であって、一般化（汎化）されていないことを意味する。要するに、ファインチューニング後の学習済ＤＮＮモデルが、学習用データセットのデータについては学習しているが、未知のテスト用データセットに含まれるデータについては適合できていないことを意味する。

【0084】

上記Ｓ２３でＹＥＳの場合（ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値（Ｆ１スコア）が、ＫＰＩ（目標）に達していない場合）には、システム管理者は、必要な場合は、操作部３５を用いて、図１２のＣｏｎｆｉｇ欄１３７とＣｏｎｆｉｇ欄１３８における、フレーム画像の選択基準の追加・変更を行った上で、操作部３５により、学習サーバ１のＣＰＵ３１に対して、各代表カメラから人が映ったフレーム画像の収集（補充）を行うように指示する。これにより、上記評価値（Ｆ１スコア）がＫＰＩ（目標）に達するまで、上記Ｓ２１乃至Ｓ２４の処理が繰り返されて、各代表カメラからの人が映ったフレーム画像の補充（Ｓ２４）が繰り返される。この理由は、ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値（精度）がＫＰＩ（目標）に達しないという事は、このファインチューニングに用いた学習用データセットのサイズが充分に大きくないということであり、学習用データセットに、さらに多くのフレーム画像を補充する必要があるからである。なお、上記Ｓ２４に示すフレーム画像の補充処理が終了すると、学習サーバ１のＣＰＵ３１は、再度、上記Ｓ１７の処理に戻って、Ｓ２４で補充したフレーム画像に対する擬似ラベリング処理（Ｓ１７）や、擬似ラベリング処理の結果に基づいたデータセットの品質の評価処理（Ｓ１８）を行う。そして、上記Ｓ２４に示す学習用データセットへのフレーム画像の補充処理の結果、データセット内の各フレーム画像に付与されたラベル（クラス）にバイアスが生じた（クラスの不均衡が生じた）場合には、学習サーバ１のＣＰＵ３１は、上記Ｓ２０の処理で、多数派のクラスに属するフレーム画像の一部を、データセットから除去（削除）することにより、データセット（のフレーム画像）における、クラスの均衡（バランス化）を図る。ただし、余り好ましくはないが、上記Ｓ２４に示すフレーム画像の補充処理が終了すると、学習サーバ１のＣＰＵ３１は、Ｓ１７の処理ではなく、Ｓ２１の処理に戻ってもよい。

【0085】

次に、図１２に示すデータバイアス評価ＵＩ１２０について、説明する。このデータバイアス評価ＵＩ１２０は、上記Ｓ１９で品質の総合評価値がＫＰＩに達していると判定されたデータセットのファインチューニングを介した評価と、このデータセットへのフレーム画像データの補充（追加）を行うためのサブシステムの設計時に用いるユーザインタフェース（ＵI）用の画面である。図１１に示すデータ品質評価ＵＩ９３を用いて設計したサブシステムを用いて、ターゲットとなる所定の推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適していると思われるデータセットを生成することができるが、このデータセットを用いて、元の推論処理用の学習済ＤＮＮモデルのファインチューニングを行ったところ、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の（元の）学習済ＤＮＮモデルによる推論処理の精度よりも下がってしまったり、殆ど精度が向上しなかったということが、実際には起こり得る。図１２に示すデータバイアス評価ＵＩ１２０は、このような場合でも、このデータセットに、必要なフレーム画像データを補充して、ターゲットとなる所定の推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットの生成を完了させるためのサブシステムの設計時に用いるユーザインタフェース用の画面である。

【0086】

このデータバイアス評価ＵＩ１２０は、ＡＩツールボックス欄１２１と、システムツールボックス欄１２２と、システム編集欄１２３と、結果欄１２４とを有している。また、上記のシステム編集欄１２３は、上部の収集エリア１２３ａと、下部のファインチューニング評価エリア１２３ｂとに分けられている。システム管理者は、収集エリア１２３ａに、フレーム画像の選択と収集に関連する機能ブロックを配置し、ファインチューニング評価エリア１２３ｂに、収集したフレーム画像から構成されるデータセットの、ファインチューニングを介した評価に関連する機能ブロックを配置すると共に、上記のＣｏｎｆｉｇ欄１３７とＣｏｎｆｉｇ欄１３８への選択基準の追加・変更の設定操作を行うことにより、上記のファインチューニングを介したデータセットの評価と、データセットへのフレーム画像データ補充を行うためのサブシステムの設計を行う。

【0087】

データバイアス評価ＵＩ１２０におけるシステム編集欄１２３では、システム管理者がシステムツールボックス欄１２２から選択することができる機能ブロックのうち、初期化ブロック１２８、選択基準定義ブロック１２９、フィルタ設定１３０、画像データ収集要求ブロック１３１、収集要求送信ブロック１３２、補充データ受信ブロック１３３、ファインチューニングブロック１３４、処理結果ブロック１３５、及びビジュアライザ１３６が用いられている。

【0088】

上記の機能ブロックのうち、収集エリア１２３ａに配置された１２８～１３２の機能ブロックと、ファインチューニング評価エリア１２３ｂに配置された補充データ受信ブロック１３３は、上記図６のＳ２４の説明で述べた、システム管理者によるフレーム画像選択基準の追加・変更操作と、各代表カメラからのフレーム画像収集（補充）処理に用いられる。また、ファインチューニング評価エリア１２３ｂに配置されたファインチューニングブロック１３４は、各代表カメラから収集したフレーム画像から構成されるデータセットを学習用データセットとして用いて、元の推論処理用の学習済ＤＮＮモデルのファインチューニング処理（すなわち、図６中のＳ２１の処理）を行う。このファインチューニングブロック１３４は、図５における再学習部４９に相当する。

【0089】

また、処理結果ブロック１３５は、上記のファインチューニングブロック１３４で行ったファインチューニング後の学習済ＤＮＮモデルによる推論処理の結果を出力する。このファインチューニング後の学習済ＤＮＮモデルによる推論処理の結果は、Ｓ７１のＦ１スコアの判定ブロックにおける判定処理と、結果欄１２４の右側の表１４１におけるＦ１スコアの出力に用いられる。

【0090】

図１２のＳ７１の判定ブロックでは、学習サーバ１のＣＰＵ３１が、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ＫＰＩ（目標）に達しているか否か（具体的には、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度（Ｆ１スコア）が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否か）を判定する。

【0091】

上記Ｓ７１の判定において、学習サーバ１のＣＰＵ３１が、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ＫＰＩ（目標）に達していないと判定した場合には（Ｓ７１でＮＯ）、システム管理者は、必要な場合は、操作部３５を用いて、Ｃｏｎｆｉｇ欄１３７とＣｏｎｆｉｇ欄１３８における、フレーム画像の選択基準の追加・変更を行う。そして、システム管理者は、操作部３５により、学習サーバ１のＣＰＵ３１に対して、上記ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度がＫＰＩ（目標）に達するまで、画像データ収集要求ブロック１３１、収集要求送信ブロック１３２、補充データ受信ブロック１３３、ファインチューニングブロック１３４、処理結果ブロック１３５、及びＳ７１のＦ１スコア（精度）の判定ブロックの処理を繰り返すように指示する。

【0092】

なお、図６で説明した処理の流れから分かるように、データ品質評価ＵＩ９３で設計（定義）したサブシステムで、ターゲットとなる所定の推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適していると思われるデータセットの生成が完了した（データセットの品質の総合評価値が、ＫＰＩに達した）直後に行われるデータバイアス評価ＵＩ１２０側の処理は、ファインチューニングブロック１３４及び処理結果ブロック１３５の処理と、判定ブロックＳ７１によるＦ１スコア（精度）の判定処理である。そして、第１回目のＳ７１の判定において、学習サーバ１のＣＰＵ３１が、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度がＫＰＩ（目標）に達していると判定した場合には、上記１２９～１３３のブロックの処理は、一度も行われない。

【0093】

上記データバイアス評価ＵＩ１２０における結果欄１２４の右側には、ファインチューニングブロック１３４で行ったファインチューニング後の学習済ＤＮＮモデルによる推論処理の結果（Ｆ１スコアを含む）が、どうであったかを示す表１４１が表示される。

【0094】

上記データバイアス評価ＵＩ１２０における結果欄１２４の左側には、ビジュアライザ１３６により得られた複数のサンプル画像１４０が表示される。これらのサンプル画像１４０は、ファインチューニング後の学習済ＤＮＮモデルによる推論処理のテストに用いられる、上記の未知のテスト用データセットに含まれるフレーム画像をサンプリングして得たフレーム画像であり、これらのサンプル画像１４０には、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の結果（例えば、人や頭のバウンディングボックス）が、処理結果の視覚化のために、オーバーラップされる。すなわち、ビジュアライザ１３４は、ファインチューニング後の学習済ＤＮＮモデルによる推論処理により得られた、正解ラベル付きのフレーム画像１４０をサンプル表示するための視覚化ツールであり、特に、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ＫＰＩ（目標）に達しない場合等に、システム管理者が、今何が起こっているのかを確認するために用いられるツールである。

【0095】

ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度（Ｆ１スコア）が、ＫＰＩ（目標）に達しているか否かの判定は、例えば、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の結果を、この推論処理用ＤＮＮモデルよりも重くて精度の高い、同種の推論処理用学習済ＤＮＮモデルによる推論処理の結果と比較することにより、行うことができる。上記のように、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度（Ｆ１スコア）が、ＫＰＩ（目標）に達しているか否かの判定は、学習サーバ１のＣＰＵ３１が自動的に行うのが、基本であるが、システム管理者が、上記のビジュアライザ１３４を用いて、複数のサンプル画像１４０を、次々に表示させて、目視で判定してもよい。

【0096】

上記図１２に示すデータバイアス評価ＵＩ１２０を用いて設計したサブシステムは、データソース（エッジ側デバイス）から収集したフレーム画像から構成される学習用データセットのデータが、ターゲットとなる推論処理用ＤＮＮモデルの一般化をサポートするか否かを判定する。すなわち、現時点で収集済のフレーム画像から構成される学習用データセットを用いてファインチューニングした推論処理用の学習済ＤＮＮモデルが、時間的、空間的に一般化されたものになっているか否かを判定する。例えば、店舗Ａ（のエッジ側デバイス）から収集されたデータ（学習用データセット）に基づいて学習（訓練）された推論処理用の学習済ＤＮＮモデルは、例え、店舗Ａと店舗Ｂが同じグループ（同じフランチャイズチェーン等）に属する店舗であっても、店舗Ｂにまで一般化されたものではない（店舗Ａのフレーム画像が入力された場合と同様に、店舗Ｂのフレーム画像が入力された場合にも、正しい結果を出力することができるものではない）かもしれない。或いは、夏に収集されたデータ（学習用データセット）に基づいて学習（訓練）された推論処理用の学習済ＤＮＮモデルは、雪の影響による顧客環境の変化のために、雪の多い北海道の冬には、正確さが低下するかもしれない。また、店舗を訪問する顧客の属性は、かなり変化し、例えば、学習用データセットのデータの収集時と比べて、人口における年齢構成は変化し得る。我々は、「空間／時間（の属性）を隔てたバイアス」の概念を導入する。この空間／時間を隔てたバイアスは、上記の未知のテスト用データセットに含まれるフレーム画像に対して、現在の学習用データセットで訓練した推論処理用ＤＮＮモデルで推論処理した結果の精度に基づいて、自動的に見つけられる。

【0097】

次に、図１３を参照して、このデータセット生成システム１０における（フレーム画像）データの収集の流れについて、説明する。図１３におけるデータソース・コレクタモジュール１５０及びデータ・コレクタモジュール１５１は、図４に示すデータセット生成プログラム３７に含まれるプログラムである。上記図６のＳ１２で説明したカメラのクラスタリング（グループ化）が完了すると（図１３のＳ６１でＹＥＳ）、学習サーバ１のデータソース・コレクタモジュール１５０が、グループ分けした各グループにおける代表カメラを選択して、これらの代表カメラのリスト（デバイスリスト）を、データ・コレクタモジュール１５１側に送信する。この後、学習サーバ１側のシステム管理者が、操作部３５と、上記図９のデータ収集選択ＵＩ７２を用いて、上記の代表カメラからのフレーム画像の選択と収集のサブシステム（以下、「選択収集サブシステム」と略す）の定義（設計）を行うか、既に定義済の既存の選択収集サブシステムをロードするように、操作部３５を用いて、学習サーバ１のＣＰＵ３１に指示する（Ｓ６２）。そして、システム管理者は、操作部３５を用いて、上記の選択収集サブシステムを起動する（Ｓ６３）。

【0098】

上記Ｓ６３における選択収集サブシステムの起動が完了すると、この（学習サーバ１側の）選択収集サブシステムは、データソース（エッジ側デバイス（固定カメラ３及びサイネージ４））１５２に、図９の画像データ収集要求ブロック８１によるデータ収集要求ファイルの送信を行う。データソース（エッジ側デバイス）１５２は、学習サーバ１側の選択収集サブシステムから、上記のデータ収集要求ファイルを受信すると、各代表カメラからのデータ（フレーム画像と情報ファイル）を、学習サーバ１側に送信して、学習サーバ１のＤＢ１５３に格納させる。学習サーバ１（のデータソース・コレクタモジュール１５０）は、データソース（エッジ側デバイス）１５２より、各代表カメラからのデータの収集が完了すると（Ｓ６５でＹＥＳ）、上記Ｓ６１のクラスタリング（グループ化）完了時と同様に、グループ分けした各グループにおける代表カメラのリスト（デバイスリスト）を、データ・コレクタモジュール１５１側に送信する。

【0099】

データ・コレクタモジュール１５１は、受信した代表カメラのリスト（デバイスリスト）に基づいて、学習サーバ１のＤＢ１５３に格納したデータにアクセスして、上記図１１の疑似ラベリングブロック１０６による処理（Ｓ６６）、処理結果ブロック１０７による処理（Ｓ６７）、及びビジュアライザ１０８による結果の視覚化の処理（Ｓ６８）（要するに、擬似ラベリングを介したデータセットの品質の評価）を行って、データセットの品質の総合評価値がＫＰＩ（目標）に達するか否かを判定する。この判定の結果、データセットの品質の総合評価値がＫＰＩ（目標）に達しておらず、かつ、繰り返し回数が所定の限界値に達していない場合には（Ｓ６９でＹＥＳ）、学習サーバ１のＣＰＵ３１は、データソース（エッジ側デバイス）１５２からの収集データの補充（学習サーバ１のＤＢ１５３へのデータの追加格納）の処理、又は多数派のクラスに属するフレーム画像の一部をデータセットから除去（削除）する処理を行った上で、Ｓ６９の判定において、データセットの品質の総合評価値がＫＰＩ（目標）に達するか、繰り返し回数が所定の限界値に達するまで、上記の疑似ラベリングブロック１０６による処理、処理結果ブロック１０７による処理、及びビジュアライザ１０８による結果の視覚化の処理（図１３のＳ６６～Ｓ６８の処理）を繰り返す。

【0100】

そして、Ｓ６９の判定において、データセットの品質の総合評価値がＫＰＩ（目標）に達すると、データ・コレクタモジュール１５１は、受信した代表カメラのリスト（デバイスリスト）に基づいて、学習サーバ１のＤＢ１５３に格納したデータにアクセスして、上記図１２のファインチューニングブロック１３４による処理（Ｓ６６）、処理結果ブロック１３５による処理（Ｓ６７）、及びビジュアライザ１３６による結果の視覚化の処理（Ｓ６８）（要するに、ファインチューニングを介したデータセットの品質の評価）を行って、評価値（ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度）がＫＰＩ（目標）に達するか否かを判定する。この判定の結果、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度がＫＰＩ（目標）に達しておらず、かつ、繰り返し回数が所定の限界値に達していない場合には（Ｓ６９でＹＥＳ）、学習サーバ１のＣＰＵ３１は、データソース（エッジ側デバイス）１５２からの収集データの補充（学習サーバ１のＤＢ１５３へのデータの追加格納）を行った上で、Ｓ６９の判定において、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度がＫＰＩ（目標）に達するか、繰り返し回数が所定の限界値に達するまで、上記のファインチューニングブロック１３４による処理、処理結果ブロック１３５による処理、及びビジュアライザ１３６による結果の視覚化の処理（図１３のＳ６６～Ｓ６８の処理）を繰り返す。

【0101】

上記Ｓ６９の判定において、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度がＫＰＩ（目標）に達すると、本データセット生成システム１０による学習用データセットの生成が完了したとみなして、このファインチューニングに使用されたデータセットを、ターゲットとなる所定の推論処理用ＤＮＮモデルの最終的な学習用データセットとする。これに対して、Ｓ６９の判定において、評価値（データセットの品質の総合評価値、又はファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度）がＫＰＩ（目標）に達する前に、繰り返し回数が所定の限界値に達した場合には、システム管理者は、図８のデータソースクラスタリングＵI５５、図９のデータ収集選択ＵＩ７２、図１１のデータ品質評価ＵＩ９３、及び図１２のデータバイアス評価ＵＩ１２０を用いた各サブシステムの設計を見直す。

【0102】

上記図６及び図１３のフローから、本データセット生成システム１０によれば、できるだけ少ない数のフレーム画像から構成される学習用データセットを用いて、数千、数万の店舗で使用する推論処理用学習済ＤＮＮモデルのファインチューニングを行うことができる。この理由は、以下の通りである。

【0103】

（１）先ず、クラスタリング（カメラのグループ化）を利用して、各カメラグループの代表カメラのみからフレーム画像を収集することにより、各カメラグループから収集するフレーム画像の数を絞る。これにより、例えば、あるカメラグループに属するカメラが多い場合でも、各カメラグループのフレーム画像は、似たようなフレーム画像であることが多いので、各カメラグループの代表カメラ（各代表カメラ）のみからフレーム画像を集めて、学習用データセットを生成すれば、この学習用データセットを用いてファインチューニングした推論処理用学習済ＤＮＮモデルは、どのカメラグループのフレーム画像に対しても、同様な精度の推論をすることができる。なお、上記のクラスタリング時に使用するフレーム画像は、各カメラからの１枚のレイアウト・フレーム画像（人が映っていないフレーム画像）で良いので、クラスタリング時に使用するフレーム画像の数は、少なくて済む。

【0104】

（２）また、データ収集選択ＵＩ７２で編集したサブシステムを用いて、一つ前のフレーム画像から見て変化がある（人数が増加したか、人の位置が移動したか、人の姿勢が変化したかのいずれかの条件を充たす）フレーム画像のみを選択することにより、収集するフレーム画像の数は少なくても、代表カメラから、多様性のある、人が映ったフレーム画像を効率的に収集することができる。実際問題、録画された撮影画像から切り出したフレーム画像は、反復的（同様なフレーム画像の繰り返し）であり、連続したフレーム画像を収集しても、殆ど役に立たない。データ収集選択ＵＩ７２で編集したサブシステムにおいて、推論処理用学習済ＤＮＮモデルを用いて、一つ前のフレーム画像から見て、人数が増加したか、人の位置が移動したか、又は人の姿勢が変化したかを判定して、これらのいずれかの条件を充たすフレーム画像のみを選択することにより、学習用データセットに含まれるデータ（フレーム画像）の数を少なくしつつ、データの質を向上させて、データにおける多様性を高めることができる。

【0105】

（３）また、図６及び図１３のフローに示すように、必要な最小限度の数のフレーム画像の収集が完了した後は（図６のＳ１６でＹＥＳ、又は図１３のＳ６５でＹＥＳ）、図６のＳ１９の判定において、データセットの品質の「総合評価値」がＫＰＩ（目標）に達し、Ｓ２３の判定において、ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値（Ｆ１スコア）がＫＰＩ（目標）に達するまで、各代表カメラから人が映ったフレーム画像の補充を繰り返す（Ｓ２０及びＳ２４）（Ｓ２０では、データセット内の各フレーム画像に付与されたラベル（クラス）にバイアスがある場合には、多数派のクラスに属するフレーム画像の一部を、データセットから除去（削除）する処理も行う）。上記のフレーム画像の補充処理では、各代表カメラからのフレーム画像を、少しずつ学習用データセットに補充するので、学習用データセットに含まれるデータ（フレーム画像）をインクリメンタルに、少しずつ増やすことができる。そして、Ｓ１９の判定において、データセットの品質の「総合評価値」がＫＰＩ（目標）に達した後、Ｓ２３の判定において、ファインチューニング後の学習済ＤＮＮモデルによる処理結果の評価値（Ｆ１スコア）がＫＰＩ（目標）に達すると、その時点で、各代表カメラからのフレーム画像の収集を止めることができるので、学習用データセットに含まれるフレーム画像の数を、できるだけ少なく抑えることができる。

【0106】

（４）また、上記のように、図６のＳ２０の処理では、擬似ラベリング処理の結果、データセット内の各フレーム画像に付与されたラベル（クラス）にバイアスがある（クラスの不均衡がある）場合には、学習サーバ１のＣＰＵ３１は、多数派のクラスに属するフレーム画像の一部を、データセットから削除するようにしたので、学習用データセットから、冗長な学習データ（削除対象のフレーム画像と、これらのフレーム画像の擬似ラベル）を除去することができる。

【0107】

従って、上記（１）～（４）の工夫が無ければ、例えば、１０万枚のフレーム画像を集めなければいけない所を、千枚のフレーム画像を集めれば良いようにすることが可能である。

【0108】

上記のように、本実施形態のデータセット生成システム１０、学習サーバ１、及びデータセット生成プログラム３７によれば、各カメラグループにおける少なくとも一つ以上のカメラ（固定カメラ３又は内蔵カメラ５）から、操作部３５を用いてユーザが（Ｃｏｎｆｉｇ欄８７、８８、１０９、１１０、１３７、及び１３８で）設定した選択基準に合致したフレーム画像を収集して、その時点において収集したフレーム画像から構成されるデータセットが、ターゲットとなる推論処理用ＤＮＮモデル（エッジ側デバイスの推論処理用学習済ＤＮＮモデル）の学習用データセットに適しているか否かを評価することができる。これにより、その時点において収集したフレーム画像から構成されるデータセットの評価値（総合評価値）が、目標値以上になったとき（ＫＰＩ（目標）に達したとき）に、フレーム画像の収集を終了して、その時点において収集済のフレーム画像から構成されるデータセットを、上記ターゲットとなる推論処理用ＤＮＮモデルの学習用データセットにすることができるので、ターゲットとなる推論処理用ＤＮＮモデルの学習用データセットに含まれるフレーム画像の数を、できるだけ少なくすることができる。従って、できるだけ少ないフレーム画像を用いて、多数の店舗等の施設のカメラのフレーム画像を対象にした、ターゲットとなる推論処理用ＤＮＮモデルの機械学習を行うことができる。従って、ターゲットとなる推論処理用ＤＮＮモデルの学習用データセットの生成に要する処理時間や、この学習用データセットを用いた上記推論処理用ＤＮＮモデルの機械学習に要する処理時間を短縮することができると共に、カメラ側（エッジデバイス側）から学習サーバ１にカメラのフレーム画像を転送するのに必要なコスト（通信費用や電気代等）や、学習サーバ１がエッジデバイス側から受信したフレーム画像を保存しておくのに必要なコスト（学習サーバ１における記憶領域の確保に必要なコスト）を削減することができる。

【0109】

また、本実施形態のデータセット生成システム１０によれば、グループ分けをした各カメラグループにおける代表カメラを選択して、選択した代表カメラの各々から、ユーザが設定した選択基準に合致したフレーム画像を収集するようにした。これにより、各カメラグループにおける代表カメラのみから、選択基準に合致したフレーム画像を収集することができるので、ターゲットとなる推論処理用ＤＮＮモデルの学習用データセットに含まれるフレーム画像の数を、確実に少なくすることができる。

【0110】

また、本実施形態のデータセット生成システム１０によれば、一つ前のフレーム画像から見て、人数の増加、人の位置の移動、又は人の姿勢の変化があったフレーム画像を収集するようにした。このように、一つ前のフレーム画像から見て変化があるフレーム画像のみを選択することにより、収集するフレーム画像の数は少なくても、カメラ（固定カメラ３又は内蔵カメラ５）から、多様性のあるフレーム画像を効率的に収集することができる。

【0111】

また、本実施形態のデータセット生成システム１０によれば、データセットの品質の「総合評価値」が、ＫＰＩ（目標）に達したときに、この時点で収集済みのフレーム画像から構成されるデータセットを学習用データセットとして用いて、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを行って、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価するようにした。上記のように、評価用の推論処理（例えば、擬似ラベリング処理）の結果に基づいて、各カメラより収集したフレーム画像から構成されるデータセットが、ターゲットとなる推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適しているか否かを評価することができるのであるが、上記ファインチューニング用の学習用データセットに適していると評価されたデータセットを学習用データセットとして用いて、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを行うと、実際には、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、思ったように向上しないという事が起こり得る。従って、上記のように、品質の「総合評価値」がＫＰＩ（目標）に達した（ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニング用の学習用データセットに適していると評価された）データセットを学習用データセットとして用いて、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを行って、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを確認しないと、品質の「総合評価値」がＫＰＩ（目標）に達したデータセットを、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニング用の学習用データセットとして採用して良いか否かの最終的な判断を下すことができない。

【0112】

また、本実施形態のデータセット生成システム１０によれば、各カメラより収集したフレーム画像の各々に対して、擬似ラベリング処理を行って、各カメラより収集したフレーム画像と、上記の擬似ラベリング処理によりフレーム画像に付与された正解ラベルとに基づいて、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを行うようにした。上記のように、擬似ラベリング処理を用いて、収集したフレーム画像に正解ラベルを付与するようにしたことにより、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを、自動的に行うことができる。

【0113】

また、本実施形態のデータセット生成システム１０によれば、複数のカメラの各々から、人が映っていないフレーム画像（レイアウト・フレーム画像）を収集して、収集したフレーム画像の各々から特徴を抽出し、抽出した特徴に基づいて、上記の収集したフレーム画像をグループ分けする。そして、上記の収集したフレーム画像のグループ分け結果に基づいて、これらのフレーム画像を撮影したカメラのグループ分けを行う。これにより、収集したフレーム画像をグループ分けする際に、フレーム画像に映りこんだ人の影響を除去することができるので、各カメラが撮影した店舗等の施設のフレーム画像の特徴に基づいて、フレーム画像を撮影したカメラのグループ分けを行うことができる。

【0114】

変形例：
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。

【0115】

変形例１：
上記の実施形態では、データセットの品質の「総合評価値」がＫＰＩに達したときに（データセットの品質の評価値が目標値以上になったときに）、この時点で収集済みのフレーム画像から構成されるデータセットを学習用データセットとして用いて、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニングを行って、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価するようにした。けれども、本発明では、必ずしも、ファインチューニング後の学習済ＤＮＮモデルによる推論処理の精度が、ファインチューニング前の学習済ＤＮＮモデルによる推論処理の精度よりも、所定の値以上向上しているか否かを評価する必要はなく、データセットの品質の評価値が、目標値以上になったときに、この時点で収集済みのフレーム画像から構成されるデータセットを、ターゲットとなる推論処理用の学習済ＤＮＮモデルのファインチューニング用の学習用データセットとして採用しても良い。

【0116】

変形例２：
上記の実施形態では、各カメラより収集したフレーム画像に対する擬似ラベリング処理の結果に基づいて、上記の各カメラより収集したフレーム画像から構成されるデータセットが、ターゲットとなる所定の推論処理用ＤＮＮモデルのファインチューニング用の学習用データセットに適しているか否かを評価するようにした。けれども、本発明は、これに限られず、各カメラより収集したフレーム画像の各々に対して、評価用の推論処理を行って、これらの推論処理の結果に基づいて、各カメラより収集したフレーム画像から構成されるデータセットが、ターゲットとなる推論処理用ＤＮＮモデルの学習用データセットに適しているか否かを評価するものであれば良い。

【0117】

変形例３：
上記の実施形態では、グループ分けをした各（カメラ）グループにおける代表カメラを選択して、選択した代表カメラの各々から、操作部３５を用いて設定した選択基準に合致したフレーム画像を収集するようにした。けれども、本発明は、これに限られず、グループ分けをした各（カメラ）グループにおける複数のカメラから、操作部を用いて設定した選択基準に合致したフレーム画像を収集するようにしても良い。

【0118】

変形例４：
上記の実施形態では、一つ前のフレーム画像から見て、人数の増加、所定の割合以上の人の位置移動、又は所定の割合以上の人の姿勢変化があったフレーム画像を収集するようにしたが、本発明は、これに限られず、例えば、一つ前のフレーム画像から見て、人数の増加又は減少、人の位置の移動、又は人の姿勢の変化があったフレーム画像を収集するようにしても良いし、一つ前のフレーム画像から見て、人数の増加、又は所定の割合以上の人の位置移動があったフレーム画像を収集するようにしても良い。

【0119】

変形例５：
上記の実施形態では、請求項における「再学習」が、ファインチューニングである場合の例を示したが、本発明における「再学習」は、これに限られず、例えば、転移学習であっても良い。ここで、転移学習とは、元の（既存の）学習済ＤＮＮモデルにおける重みを固定したままで、新たに追加した層の重みのみを学習することを意味する。

【0120】

変形例６：
上記の実施形態では、カメラが接続されたエッジ側のデバイスが、サイネージ４及び分析ボックス２である場合の例を示したが、エッジ側のデバイスは、これに限られず、例えば、いわゆるＡIカメラであっても良い。

【符号の説明】

【0121】

１学習サーバ（サーバ、コンピュータ）
３固定カメラ（カメラ）
５内蔵カメラ（カメラ）
１０データセット生成システム
２０推論処理用学習済ＤＮＮモデル（所定の推論処理用のニューラルネットワークモデル）
２８各種推論処理用学習済ＤＮＮモデル（所定の推論処理用のニューラルネットワークモデル）
３５操作部（設定操作手段）
４０レイアウト・フレーム画像収集部（第２の撮影画像収集手段）
４１画像特徴抽出部（画像特徴抽出手段）
４２画像クラスタリング部（画像クラスタリング手段）
４３カメラ分類部（カメラ分類手段）
４４代表カメラ選択部（代表カメラ選択手段）
４５フレーム画像収集部（撮影画像収集手段）
４６評価用推論部（評価用推論手段）
４７データセット評価部（データセット評価手段）
４８擬似ラベリング部（擬似ラベリング手段）
４９再学習部（再学習手段）
５０精度向上評価部（精度向上評価手段）
１０６疑似ラベリングブロック（評価用推論手段）
１３４ファインチューニングブロック（再学習手段）

【図1】