特許7762410 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＡＷＬ株式会社の特許一覧

特許7762410グループ別モデル生成システム、サーバ、及びグループ別モデル生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-10-22

(45)【発行日】2025-10-30

(54)【発明の名称】グループ別モデル生成システム、サーバ、及びグループ別モデル生成プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20251023BHJP

【ＦＩ】

G06T7/00 350C

【請求項の数】 9

(21)【出願番号】P 2021175859

(22)【出願日】2021-10-27

(65)【公開番号】P2023065196

(43)【公開日】2023-05-12

【審査請求日】2024-08-28

(73)【特許権者】

【識別番号】516249414

【氏名又は名称】ＡＷＬ株式会社

(74)【代理人】

【識別番号】100084375

【弁理士】

【氏名又は名称】板谷康夫

(74)【代理人】

【識別番号】100125221

【弁理士】

【氏名又は名称】水田愼一

(74)【代理人】

【識別番号】100142077

【弁理士】

【氏名又は名称】板谷真之

(72)【発明者】

【氏名】司嘯天

【審査官】吉川康男

(56)【参考文献】

【文献】特開２０２０－１９７９９５（ＪＰ，Ａ）

【文献】特開２０１９－０１２４２６（ＪＰ，Ａ）

【文献】特開２０２２－０２９１２５（ＪＰ，Ａ）

【文献】国際公開第２０２１／０７９７９２（ＷＯ，Ａ１）

【文献】国際公開第２０１７／１５１７５９（ＷＯ，Ａ１）

【文献】特開２０２０－１８１４８８（ＪＰ，Ａ）

【文献】特表２０２２－５３４７１２（ＪＰ，Ａ）

【文献】国際公開第２０２１／１３５３３０（ＷＯ，Ａ１）

【文献】土田安紘，小売・流通業界を支える自動認識技術，月刊自動認識，2021年02月10日，第３４巻第２号，P6～13

【文献】Yuki Murata 等，Person Re-Identification for Mobile Robot using Online Transfer Learning，2018 Joint 10th International Conference on Soft Computing and Intelligent Systems (SCIS) and 19th International Symposium on Advanced Intelligent Systems (ISIS)，2018年12月05日，P977-981，https://ieeexplore.ieee.org/document/8716091

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

複数の施設に設置された撮影手段の各々から撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、
前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、
前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、
前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、
前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段とを備えるグループ別モデル生成システムにおいて、
前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段をさらに備え、
前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うグループ別モデル生成システム。

【請求項2】

前記グループ別モデル生成手段により生成された、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを、前記各グループの撮影手段が設置された施設に配されたエッジ側の装置に送信して格納させ、このエッジ側の装置により、前記各グループの撮影手段が撮影した撮影画像に対する人検出又は人認識を行うことを特徴とする請求項１に記載のグループ別モデル生成システム。

【請求項3】

前記元の人検出用又は人認識用の学習済ニューラルネットワークモデルよりも精度の高い推論を行うことが可能な、人検出用又は人認識用の学習済高精度ニューラルネットワークモデルによって、前記各グループの撮影手段による撮影画像に対する推論を行って、この推論結果に基づく擬似ラベルを、正解ラベルとして、前記各グループの撮影手段による撮影画像に付与する擬似ラベリング手段をさらに備え、
前記グループ別モデル生成手段は、前記各グループの撮影手段による撮影画像と、前記擬似ラベリング手段により前記各グループの撮影手段による撮影画像に付与された正解ラベルとに基づいて、前記元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことを特徴とする請求項１又は請求項２に記載のグループ別モデル生成システム。

【請求項4】

前記画像クラスタリング手段は、前記撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときの情報量基準の値を求めて、求めた各クラスタ数に対応する情報量基準の値に基づいて、前記画像特徴抽出手段により抽出した前記撮影画像の特徴の分布に適したクラスタ数を求めることを特徴とする請求項１乃至請求項３のいずれか一項に記載のグループ別モデル生成システム。

【請求項5】

前記画像特徴抽出手段は、学習済ニューラルネットワークモデルを用いて、前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴ベクトルを抽出し、
前記画像クラスタリング手段は、前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴ベクトルに基づいて、混合ガウスモデルによりグループ分けすることを特徴とする請求項１乃至請求項４のいずれか一項に記載のグループ別モデル生成システム。

【請求項6】

前記画像クラスタリング手段は、前記撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときのベイズ情報量基準の値を、前記混合ガウスモデルにより求めて、求めた各クラスタ数に対応するベイズ情報量基準の値に基づいて、前記画像特徴抽出手段により抽出した前記施設の撮影画像の特徴ベクトルの分布に適したクラスタ数を求めることを特徴とする請求項５に記載のグループ別モデル生成システム。

【請求項7】

撮影手段が設置された複数の施設の各々に配されたエッジ側の装置とネットワークを介して接続されて、
前記撮影手段の各々から撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、
前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、
前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、
前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、
前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段とを備えるサーバにおいて、
前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段をさらに備え、
前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うサーバ。

【請求項8】

前記グループ別モデル生成手段により生成された、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを、前記各グループの撮影手段が設置された施設に配されたエッジ側の装置に送信して格納させることを特徴とする請求項７に記載のサーバ。

【請求項9】

コンピュータを、
複数の施設に設置された撮影手段の各々から撮影画像を収集する撮影画像収集手段と、
前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、
前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、
前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、
前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、
前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段として機能させるためのグループ別モデル生成プログラムにおいて、
前記コンピュータを、前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段として、さらに機能させ、
前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うグループ別モデル生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、グループ別モデル生成システム、サーバ、及びグループ別モデル生成プログラムに関する。

【背景技術】

【0002】

従来から、店舗等の施設に設置されたカメラによる撮影画像を、上記のカメラが設置された施設側に配置された装置（いわゆるエッジ側デバイス）で、画像解析（物体検出や物体認識）するシステムが知られている（例えば、特許文献１参照）。このようなエッジ側デバイスで、物体検出や物体認識を行う場合には、エッジ側デバイスに、処理負荷の小さい（いわゆる「軽い」）学習済ディープニューラルネットワークモデル（ＤＮＮモデル）を実装して、この学習済ＤＮＮモデルを用いて、エッジ側デバイスに接続されたカメラの撮影画像に対する、物体検出処理や物体認識処理を行う。ここで、エッジ側デバイスにおけるコンピュータリソースの脆弱さから、上記のエッジ側デバイスに実装する学習済ＤＮＮモデルは、極端に軽い（非常に処理負荷が小さい）ＤＮＮモデルであることが望ましい。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第６１７８９４２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところが、上記のような極端に軽い（非常に処理負荷が小さい）学習済ＤＮＮモデルを、多数の施設に配されたエッジ側デバイスに実装して、多数の施設のカメラの撮影画像に対する物体検出処理や物体認識処理を行う場合には、以下のような問題がある。まず、極端に軽い学習済ＤＮＮモデルでは、高精度な物体検出処理や物体認識処理を行うことが難しい。

【0005】

また、上記のような極端に軽い学習済ＤＮＮモデルを使用する場合、精度を確保するために、各施設の各カメラ毎に、該当のカメラの撮影画像を用いて、元の学習済ＤＮＮモデルのファインチューニング又は転移学習を行うことが望ましいが、大手のチェーン店（コンビニエンスストア等）の場合、店舗数が数千店舗になるので、数千店舗に配された各カメラ毎に、該当のカメラの撮影画像を用いて、学習済ＤＮＮモデルのファインチューニング又は転移学習を行うと、膨大な時間がかかる。従って、上記のように、各施設の各カメラ毎に、該当のカメラの撮影画像を用いて、学習済ＤＮＮモデルのファインチューニング又は転移学習を行うことは、現実的ではない。とは言え、数千店舗に配された全てのカメラの撮影画像を用いて、極端に軽い学習済ＤＮＮモデルのファインチューニング又は転移学習を行ったとしても、数千店舗のカメラから取得（収集）した撮影画像の多様性（各店舗における、レイアウト、光の条件、人の有無、内装等）から、極端に軽いＤＮＮモデルでは、学習しきれないことが多い。

【0006】

本発明は、上記課題を解決するものであり、エッジ側の装置（エッジ側デバイス）全体の物体検出処理や物体認識処理の対象となる撮影画像が、数千店舗等の多数の施設の撮影手段の撮影画像であり、しかも、用いる学習済ニューラルネットワークモデルが、極端に軽い学習済ニューラルネットワークモデルであっても、高精度な物体検出処理や物体認識処理を行うことを可能にするグループ別モデル生成システム、サーバ、及びグループ別モデル生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本発明の第1の態様によるグループ別モデル生成システムは、複数の施設に設置された撮影手段の各々から撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段とを備えるグループ別モデル生成システムにおいて、前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段をさらに備え、前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行う。

【0008】

このグループ別モデル生成システムにおいて、前記グループ別モデル生成手段により生成された、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを、前記各グループの撮影手段が設置された施設に配されたエッジ側の装置に送信して格納させ、このエッジ側の装置により、前記各グループの撮影手段が撮影した撮影画像に対する人検出又は人認識を行うようにしてもよい。

【0009】

このグループ別モデル生成システムにおいて、前記元の人検出用又は人認識用の学習済ニューラルネットワークモデルよりも精度の高い推論を行うことが可能な、人検出用又は人認識用の学習済高精度ニューラルネットワークモデルによって、前記各グループの撮影手段による撮影画像に対する推論を行って、この推論結果に基づく擬似ラベルを、正解ラベルとして、前記各グループの撮影手段による撮影画像に付与する擬似ラベリング手段をさらに備え、前記グループ別モデル生成手段は、前記各グループの撮影手段による撮影画像と、前記擬似ラベリング手段により前記各グループの撮影手段による撮影画像に付与された正解ラベルとに基づいて、前記元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことが望ましい。

【0010】

このグループ別モデル生成システムにおいて、前記画像クラスタリング手段は、前記撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときの情報量基準の値を求めて、求めた各クラスタ数に対応する情報量基準の値に基づいて、前記画像特徴抽出手段により抽出した前記撮影画像の特徴の分布に適したクラスタ数を求めるようにしてもよい。

【0011】

このグループ別モデル生成システムにおいて、前記画像特徴抽出手段は、学習済ニューラルネットワークモデルを用いて、前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴ベクトルを抽出し、前記画像クラスタリング手段は、前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴ベクトルに基づいて、混合ガウスモデルによりグループ分けするようにしてもよい。

【0012】

このグループ別モデル生成システムにおいて、前記画像クラスタリング手段は、前記撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときのベイズ情報量基準の値を、前記混合ガウスモデルにより求めて、求めた各クラスタ数に対応するベイズ情報量基準の値に基づいて、前記画像特徴抽出手段により抽出した前記施設の撮影画像の特徴ベクトルの分布に適したクラスタ数を求めるようにしてもよい。

【0015】

本発明の第２の態様によるサーバは、撮影手段が設置された複数の施設の各々に配されたエッジ側の装置とネットワークを介して接続されて、前記撮影手段の各々から撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段とを備えるサーバにおいて、前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段をさらに備え、前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行う。

【0016】

このサーバにおいて、前記グループ別モデル生成手段により生成された、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを、前記各グループの撮影手段が設置された施設に配されたエッジ側の装置に送信して格納させるようにしてもよい。

【0017】

本発明の第３の態様によるグループ別モデル生成プログラムは、コンピュータを、複数の施設に設置された撮影手段の各々から撮影画像を収集する撮影画像収集手段と、前記撮影画像収集手段により収集した前記撮影画像から、人の映り込んだ撮影画像を除去する人画像除去手段と、前記人画像除去手段によって前記人の映り込んだ撮影画像を除去した後に残った前記施設の撮影画像の各々から特徴を抽出する画像特徴抽出手段と、前記施設の撮影画像を、前記画像特徴抽出手段により抽出した前記施設の撮影画像の各々の特徴に基づいて、グループ分けする画像クラスタリング手段と、前記画像クラスタリング手段による前記施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行う撮影手段分類手段と、前記撮影手段分類手段によりグループ分けをした各グループの撮影手段による撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことにより、前記各グループの撮影手段の撮影画像に適したグループ別学習済ニューラルネットワークモデルを生成するグループ別モデル生成手段として機能させるためのグループ別モデル生成プログラムにおいて、前記コンピュータを、前記撮影手段分類手段によるグループ分け後の各グループの撮影手段による撮影画像から、人の映り込んだ撮影画像を抽出する人画像抽出手段として、さらに機能させ、前記グループ別モデル生成手段は、前記人画像抽出手段によって抽出された、人の映り込んだ撮影画像を用いて、前記人の検出用又は認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行う。

【発明の効果】

【0018】

本発明の第１の態様によるグループ別モデル生成システム、第２の態様によるサーバ、及び第３の態様によるグループ別モデル生成プログラムによれば、複数の施設に設置された撮影手段の各々から収集した撮影画像から、人の映り込んだ撮影画像を除去して、除去した後に残った施設の撮影画像の各々から特徴を抽出する。そして、抽出した施設の撮影画像の各々の特徴に基づいて、上記の施設の撮影画像をグループ分けして、この施設の撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した撮影手段のグループ分けを行い、グループ分けをした各グループの撮影手段による撮影画像のうち、人の映り込んだ撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うようにした。これにより、各グループの撮影手段の撮影画像に適した（各グループの撮影手段の撮影画像に特化した）、グループ別の人検出用又は人認識用の学習済ニューラルネットワークモデルを生成することができるので、各グループ別の人検出用又は人認識用の学習済ニューラルネットワークモデルが、極端に軽い学習済ニューラルネットワークモデルであっても、各グループの撮影手段の撮影画像に対する高精度な人検出処理や人認識処理を行うことが可能になる。また、エッジ側の装置全体の人検出処理や人認識処理の対象となる撮影画像が、数千店舗等の多数の施設の撮影手段の撮影画像である場合でも、これらの撮影手段をグループ分けして、グループ分け後の限られた数の撮影手段（例えば、数百台のカメラ）の撮影画像を用いて、元の人検出用又は人認識用の学習済ニューラルネットワークモデルのファインチューニング又は転移学習を行うことができるので、元の人検出用又は人認識用の学習済ニューラルネットワークモデルが、極端に軽い学習済ニューラルネットワークモデルであっても、適切な機械学習を遂行することができる可能性を高めることができる（学習しきれない可能性を低くすることができる）。従って、エッジ側の装置全体の人検出処理や人認識処理の対象となる撮影画像が、数千店舗等の多数の施設の撮影手段の撮影画像であり、しかも、元の人検出用又は人認識用の学習済ニューラルネットワークモデル、及び上記の生成した各グループ別の人検出用又は人認識用の学習済ニューラルネットワークモデルが、極端に軽い学習済ニューラルネットワークモデルであっても、上記の生成した各グループ別の人検出用又は人認識用の学習済ニューラルネットワークモデルを用いて、各グループの撮影手段の撮影画像に対する高精度な人検出処理や人認識処理を行うことが可能になる。

【図面の簡単な説明】

【0019】

【図1】本発明の一実施形態のグループ別モデル生成システムの概略の構成を示すブロック構成図。

【図2】図１中のサイネージの概略のハードウェア構成を示すブロック図。

【図3】図１中のサイネージ学習管理サーバのハードウェア構成を示すブロック図。

【図4】上記サイネージ学習管理サーバの機能ブロック構成図。

【図5】図４中の各機能ブロック間のデータフローの説明図。

【図6】上記グループ別モデル生成システムにおけるグループ別学習済ＤＮＮモデル生成処理のフローチャート。

【図7】図６中のＳ９に示す内蔵カメラのグループ分け処理の説明図。

【図8】図６中のＳ５に示す混合ガウスモデルを用いた適切なクラスタ数の推定処理の説明図。

【図9】図６中のＳ７に示す「人が映っていない撮影画像群」に含まれる撮影画像のグループ分け処理の結果、各グループに含まれる撮影画像の例を示す図。

【図10】上記グループ別モデル生成システムで生成した、あるグループ別学習済ＤＮＮモデルのファインチューニング前後の推論精度評価指標等を示す図。

【発明を実施するための形態】

【0020】

以下、本発明を具体化した実施形態によるグループ別モデル生成システム、サーバ、及びグループ別モデル生成プログラムについて、図面を参照して説明する。図１は、本実施形態によるグループ別モデル生成システム１０の概略の構成を示すブロック構成図である。図１に示すように、グループ別モデル生成システム１０は、主に、チェーン店の各店舗（請求項における「施設」）Ｓａ、Ｓｂ等に設置された、ディジタルサイネージ用のタブレット端末であるサイネージ２ａ、２ｂ（請求項における「エッジ側の装置」）等と、これらのサイネージ２ａ、２ｂ等とインターネットを介して接続されたサイネージ学習管理サーバ１（請求項における「サーバ」、及び「コンピュータ」に相当）とから構成される。以下の説明において、サイネージ２は、サイネージ２ａ、２ｂ等の総称であり、店舗Ｓは、店舗Ｓａ、Ｓｂ等の総称である。グループ別モデル生成システム１０は、各店舗Ｓ内に、１台以上のサイネージ２と、無線ＬＡＮルータ４とを備えている。各サイネージ２は、内蔵カメラ３（請求項における「撮影手段」）を備えている。

【0021】

サイネージ２は、そのタッチパネルディスプレイ１４（図２参照）上に、店舗Ｓに来店した（サイネージ２の前にいる）顧客に広告等のコンテンツを表示すると共に、その内蔵カメラ３からのフレーム画像に基づいて、フレーム画像に映りこんだ顧客を検出して、検出した顧客の属性推定等の画像分析処理を行う。

【0022】

上記のサイネージ学習管理サーバ１は、店舗Ｓの管理部門（本社等）に設置されたサーバである。詳細については後述するが、サイネージ学習管理サーバ１は、各サイネージ２の内蔵カメラ３の撮影画像に適したグループ別学習済ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）モデルを生成して、生成したグループ別学習済ＤＮＮモデルを、各サイネージ２に送信してインストールさせる。

【0023】

次に、図２を参照して、上記のタブレットタイプのサイネージ２のハードウェア構成について説明する。サイネージ２は、上記の内蔵カメラ３に加えて、ＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）１１と、タッチパネルディスプレイ１４と、スピーカ１５と、各種のデータやプログラムを記憶するメモリ１６と、通信部１７と、二次電池１８と、充電端子１９とを備えている。ＳｏＣ１１は、装置全体の制御及び各種演算を行うＣＰＵ１２と、各種の学習済ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ）モデルの推論処理等に用いられるＧＰＵ１３とを備えている。

【0024】

上記のメモリ１６には、当該サイネージ２の内蔵カメラ３の撮影画像に適したグループ別学習済ＤＮＮモデル２０（請求項における「グループ別学習済ニューラルネットワークモデル」）が格納されている。このグループ別学習済ＤＮＮモデル２０には、複数の種類の学習済ＤＮＮモデルが含まれており、例えば、顧客（人）の検出用の学習済ＤＮＮモデル（顧客の顔又は頭の検出用の学習済ＤＮＮモデルを含む）や、顧客の属性推定等の顧客（人物）認識用の学習済ＤＮＮモデルを含んでいる。通信部１７は、通信ＩＣとアンテナを備えている。サイネージ２は、通信部１７とインターネットとを介して、クラウド上のサイネージ学習管理サーバ１と接続されている。また、二次電池１８は、リチウムイオン電池等の、充電により繰り返し使用することが可能な電池であり、ＡＣ／ＤＣコンバータにより直流電力に変換した後の商用電源からの電力を、蓄電して、サイネージ２の各部に供給する。

【0025】

次に、図３を参照して、サイネージ学習管理サーバ１のハードウェア構成について説明する。サイネージ学習管理サーバ１は、装置全体の制御及び各種演算を行うＣＰＵ２１と、各種のデータやプログラムを格納するハードディスク２２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２３と、ディスプレイ２４と、操作部２５と、通信部２６とを備えている。上記のハードディスク２２に格納されるプログラムには、グループ別モデル生成プログラム２７が含まれている。

【0026】

図４は、主に、上記のサイネージ学習管理サーバ１の機能ブロックを示す。下記の図４の説明では、図中の各機能ブロックと請求項における各構成要件（各手段）との対応関係と、これらの各機能ブロックの機能の概要を説明する。サイネージ学習管理サーバ１は、機能ブロックとして、撮影画像収集部３１と、フレーム画像抽出部３２と、人画像除去部３３と、画像特徴ベクトル抽出部３４と、画像クラスタリング部３５と、カメラ分類部３６と、自動ファインチューニング部３７とを備えている。また、自動ファインチューニング部３７は、人画像抽出部３８と、擬似ラベリング部３９と、グループ別モデル生成部４１とを備えている。上記の撮影画像収集部３１、人画像除去部３３、画像特徴ベクトル抽出部３４、画像クラスタリング部３５、カメラ分類部３６、人画像抽出部３８、擬似ラベリング部３９、及びグループ別モデル生成部４１は、それぞれ、請求項における撮影画像収集手段、人画像除去手段、画像特徴抽出手段、画像クラスタリング手段、撮影手段分類手段、人画像抽出手段、擬似ラベリング手段、及びグループ別モデル生成手段に相当する。また、上記の撮影画像収集部３１は、主に、図３中の通信部２６とＣＰＵ２１とグループ別モデル生成プログラム２７とにより実現される。また、上記のフレーム画像抽出部３２、人画像除去部３３、画像特徴ベクトル抽出部３４、画像クラスタリング部３５、カメラ分類部３６、自動ファインチューニング部３７、人画像抽出部３８、擬似ラベリング部３９、及びグループ別モデル生成部４１は、図３中のＣＰＵ２１とグループ別モデル生成プログラム２７により実現される。

【0027】

上記の撮影画像収集部３１は、複数の店舗Ｓに設置されたサイネージ２の内蔵カメラ３の各々から撮影画像（本実施形態では、各内蔵カメラ３が撮影した映像（撮影映像））を収集する。フレーム画像抽出部３２は、各内蔵カメラ３による撮影映像から、フレーム画像を抽出する。人画像除去部３３は、フレーム画像抽出部３２が抽出したフレーム画像（全撮影画像群）から、人の映り込んだ撮影画像を除去することにより、「人が映っていない撮影画像群」（すなわち、店舗の撮影画像群）を抽出する。画像特徴ベクトル抽出部３４は、ベクトル抽出用の学習済ＤＮＮモデルを用いて、上記の店舗の撮影画像群（請求項における「施設の撮影画像」）の各々から特徴ベクトルを抽出する。そして、画像クラスタリング部３５は、上記の店舗の撮影画像群を、画像特徴ベクトル抽出部３４により抽出した各撮影画像の特徴ベクトルに基づいて、混合ガウスモデル（ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ））によりグループ分けする。

【0028】

また、詳細については後述するが、上記のカメラ分類部３６は、上記の画像クラスタリング部３５による店舗の撮影画像群のグループ分け結果に基づいて、これらの撮影画像を撮影した内蔵カメラ３のグループ分けを行う。人画像抽出部３８は、カメラ分類部３６によるグループ分け後の各グループの内蔵カメラ３による撮影画像から、人の映り込んだ撮影画像を抽出する。より正確に言うと、人画像抽出部３８は、フレーム画像抽出部３２が抽出した全てのフレーム画像（人の映り込んだ撮影画像と人が映っていない撮影画像とを含む全撮影画像群）を対象にして、カメラ分類部３６によるグループ分け後の各グループの内蔵カメラ３による撮影画像（人の映り込んだ撮影画像と人が映っていない撮影画像）から、人の映り込んだ撮影画像を抽出する。

【0029】

また、上記の擬似ラベリング部３９は、サイネージ２のメモリ１６に格納されるグループ別学習済ＤＮＮモデル２０の元になる顧客（人又は人の顔や頭）の検出用又は認識用の学習済ＤＮＮモデル（以下、「元の学習済ＤＮＮモデル」という）よりも精度の高い推論を行うことが可能な、顧客の検出用又は認識用の学習済高精度ＤＮＮモデル４０（請求項における「学習済高精度ニューラルネットワークモデル」に相当）によって、上記の各グループの内蔵カメラ３による撮影画像のうち、人画像抽出部３８が抽出した撮影画像（人の映り込んだ撮影画像）に対する推論を行って、この推論結果に基づく擬似ラベルを、正解ラベルとして、人画像抽出部３８が抽出した撮影画像に付与する。グループ別モデル生成部４１は、上記の各グループの内蔵カメラ３による撮影画像と、擬似ラベリング部３９によってこれらの撮影画像に付与された正解ラベルとに基づいて、元の学習済ＤＮＮモデルのファインチューニングを行うことにより、上記の各グループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０（請求項における「グループ別学習済ニューラルネットワークモデル」に相当）を生成する。サイネージ学習管理サーバ１のＣＰＵ２１は、通信部２６を用いて、上記の各グループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０を、各グループ別学習済ＤＮＮモデル２０に対応するグループの内蔵カメラ３を有するサイネージ２に送信して格納させる。なお、上記のグループ別学習済ＤＮＮモデル２０の元になる顧客の検出用又は認識用の学習済ＤＮＮモデルは、請求項における「元の物体検出用又は物体認識用の学習済ニューラルネットワークモデル」に相当する。

【0030】

次に、図５と図６のフローチャートとを参照して、本グループ別モデル生成システム１０におけるデータフローについて説明する。図５は、上記図４で説明したサイネージ学習管理サーバ１の各機能ブロックの入出力データを示す。図６は、本グループ別モデル生成システム１０におけるグループ別学習済ＤＮＮモデル生成処理のフローチャートである。まず、サイネージ学習管理サーバ１の撮影画像収集部３１が、各サイネージ２に対して、内蔵カメラ３で撮影した映像の中から選択した映像（指定した時間帯の撮影映像）を、サイネージ学習管理サーバ１に転送するように促す。これに応えて、各サイネージ２は、自機の内蔵カメラ３が撮影した映像（撮影映像）のうち、上記のサイネージ学習管理サーバ１の撮影画像収集部３１が指定した時間帯の撮影映像を、サイネージ学習管理サーバ１に転送する（図６のＳ１）。次に、サイネージ学習管理サーバ１のフレーム画像抽出部３２が、各内蔵カメラ３による撮影映像から、フレーム画像を抽出する（図６のＳ２）。図５に示すように、このフレーム画像抽出部３２による抽出処理により、全ての内蔵カメラ３による撮影映像から抽出したフレーム画像（全撮影画像群（「人の映り込んだ撮影画像群」と「人が映っていない撮影画像群」の集合））が作られる。

【0031】

次に、サイネージ学習管理サーバ１の人画像除去部３３が、図６のS３に示すように、上記のフレーム画像抽出部３２が抽出した全てのフレーム画像（全撮影画像群（「人の映り込んだ撮影画像群」と「人が映っていない撮影画像群」の集合））の各々に対して、人の頭検出を行って、この頭検出の結果を用いて、全撮影画像群から、「人の映り込んだ撮影画像」を除去することにより、「人が映っていない撮影画像群」（すなわち、店舗のみが映っている撮影画像群（以下、「店舗の撮影画像群」という）を抽出する。より詳細に言うと、サイネージ学習管理サーバ１の人画像除去部３３は、フレーム画像抽出部３２が抽出した全てのフレーム画像（全撮影画像群）の各々に対して、（人の）頭検出用の学習済ＤＮＮモデルを用いて、「人の映り込んだ撮影画像」を検出して、上記の全撮影画像群から、検出した全ての「人の映り込んだ撮影画像」（「人の映り込んだ撮影画像群」）を除去することにより、「人が映っていない撮影画像群」を抽出する。上記の人画像除去部３３による「人が映っていない撮影画像群」の抽出処理により、例えば、内蔵カメラ３毎の「人が映っていない撮影画像」を、１００枚ずつ抽出する。従って、例えば、グループ別モデル生成システム１０内の内蔵カメラ３の数（要するに、サイネージ学習管理サーバ１に接続されているサイネージ２の数）が５００のときは、上記の人画像除去部３３による抽出処理により、（１００×５００）枚の「人が映っていない撮影画像」（「店舗の撮影画像」）が収集される。これらの撮影画像の集合（「人が映っていない撮影画像群」（「店舗の撮影画像群」））は、後述する内蔵カメラ３のグループ分け（分類）に使用される。

【0032】

次に、サイネージ学習管理サーバ１の画像特徴ベクトル抽出部３４が、図５及び図６のＳ４に示すように、「人が映っていない撮影画像群」（「店舗の撮影画像群」）に含まれる各撮影画像に対する特徴ベクトル抽出を、ｐｒｅｔｒａｉｎｅｄＲｅｓＮｅｔ５０で行う。これにより、図５に示すように、「人が映っていない撮影画像群」に含まれる各撮影画像の特徴ベクトル（２０４８次元の特徴ベクトル）を得ることができる。例えば、上記のように、人画像除去部３３による抽出処理により、（１００×５００）枚の「人が映っていない撮影画像」（「店舗の撮影画像」）が収集された場合には、２０４８次元の特徴ベクトルを、（１００×５００）個得ることができる。

【0033】

次に、サイネージ学習管理サーバ１の画像クラスタリング部３５が、「人が映っていない撮影画像群」に含まれる撮影画像を、上記の各撮影画像の特徴ベクトル（２０４８次元の特徴ベクトル）に基づいて、混合ガウスモデルにより、グループ分けする。具体的には、画像クラスタリング部３５は、まず、画像特徴ベクトル抽出部３４が抽出した各撮影画像の特徴ベクトル（２０４８次元の特徴ベクトル）に基づいて、混合ガウスモデルにより、自動的に、適切なクラスタ数ｋを推定する（Ｓ５）。この混合ガウスモデルを用いた適切なクラスタ数ｋの推定方法については、後で詳述する。

【0034】

次に、サイネージ学習管理サーバ１の画像クラスタリング部３５は、上記の推定したクラスタ数ｋが、予定の（想定した上限の）クラスタ数ｊ以下であるか否かを確認する（Ｓ６）。この結果、推定したクラスタ数ｋが、予定のクラスタ数ｊ以下である場合には（Ｓ６でＹＥＳ）、画像クラスタリング部３５は、上記の人画像除去部３３により抽出された「人が映っていない撮影画像群」に含まれる撮影画像を、ｋ個の「人が映っていない撮影画像群Ａ_１～Ａ_ｋ」にグループ分けする（Ｓ７）。Ｓ６の判定において、混合ガウスモデルを用いて推定したクラスタ数ｋが、予定の（想定した上限の）クラスタ数ｊを超える数である場合には（Ｓ６でＮＯ）、画像クラスタリング部３５は、人画像除去部３３により抽出された「人が映っていない撮影画像群」に含まれる撮影画像を、予定の（想定した上限の）クラスタ数であるｊ個の「人が映っていない撮影画像群Ａ_１～Ａ_ｊ」にグループ分けする（Ｓ８）。なお、図５では、画像クラスタリング部３５が、人画像除去部３３により抽出された「人が映っていない撮影画像群」に含まれる撮影画像を、ｋ個の「人が映っていない撮影画像群Ａ_１～Ａ_ｋ」にグループ分けする場合の例を示している。

【0035】

次に、サイネージ学習管理サーバ１のカメラ分類部３６が、上記の画像クラスタリング部３５による撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した内蔵カメラ３のグループ分けを行う（Ｓ９）。

【0036】

上記の内蔵カメラ３のグループ分けについて、図７を参照して説明する。上記の画像クラスタリング部３５がグループ分けをしたｋ個の「人が映っていない撮影画像群Ａ_１～Ａ_ｋ」の各画像には、内蔵カメラ３のカメラＩＤが付与されている。このカメラＩＤは、「人が映っていない撮影画像群Ａ_１～Ａ_ｋ」の各撮影画像が、上記のフレーム画像抽出部３２が抽出した各撮影画像（全撮影画像群の各撮影画像）から引き継いだ情報である。上記の「人が映っていない撮影画像群Ａ_１～Ａ_ｋ」の各画像に付与されたカメラＩＤを参照することにより、画像クラスタリング部３５によってグループ分けされた各グループの「店舗の撮影画像」（「人が映っていない撮影画像」）が、どのカメラＩＤの内蔵カメラ３で撮影されたものであるのか（各カメラＩＤと各グループとの対応関係）を、容易に判別することができる。

【0037】

例えば、説明を簡単にするために、画像クラスタリング部３５が推定したクラスタ数ｋが２であり、画像クラスタリング部３５が、人画像除去部３３により抽出された「人が映っていない撮影画像群」に含まれる撮影画像を、図７に示すように、グループ１とグループ２に分けたとする。図７を見ると、グループ１に含まれる撮影画像（「店舗の撮影画像」）のうち、殆どが、カメラＩＤ１～２１の内蔵カメラ３による撮影画像である。例えば、グループ１には、カメラＩＤ０の撮影画像が４５枚、カメラＩＤ１の撮影画像が１００枚弱含まれているが、グループ２には、カメラＩＤ０及びカメラＩＤ１の撮影画像は、含まれていない。このことから、カメラＩＤ０及びカメラＩＤ１は、グループ２ではなく、グループ１に対応することが分かる。これと同様に、カメラＩＤ２～２１の撮影画像は、グループ１にのみ含まれており、グループ２には含まれていないので、カメラＩＤ２～２１は、グループ２ではなく、グループ１に対応する。

【0038】

また、図７において、カメラＩＤ３１の撮影画像は、グループ１とグループ２の両方に含まれてはいるが、グループ２に８０枚弱含まれているのに対して、グループ１には、数枚しか含まれていない。従って、多数決により、カメラＩＤ３１は、グループ１ではなく、グループ２に対応する。このように、各カメラＩＤの撮影画像が、複数のグループに含まれている場合には、該当のカメラＩＤは、そのカメラＩＤの撮影画像が最も多く含まれているグループに対応する。なお、画像クラスタリング部３５によるクラスタリングが成功した場合には、各カメラＩＤの撮影画像が、複数のグループに含まれることは稀であるし、各カメラＩＤの撮影画像が、複数のグループに含まれている場合でも、各グループに属する撮影画像の枚数（画像数）には、大差がつく。

【0039】

上記のようにして、各カメラＩＤと各グループとの対応関係が分かるので、図５に示すカメラ分類部３６は、この対応関係に従って、上記Ｓ９に示した内蔵カメラ３のグループ分けを行い、内蔵カメラ３をｋ個（又はｊ個）のグループに分類する。図４に示す自動ファインチューニング部３７は、上記のカメラ分類部３６によりグループ分けをした各グループの内蔵カメラ３の撮影画像を用いて、上記の元の学習済ＤＮＮモデル（上記のグループ別学習済ＤＮＮモデル２０の元になる顧客（人）の検出用又は認識用の学習済ＤＮＮモデル）の自動ファインチューニングを行う（図６のＳ１０）。なお、上記の顧客（人）の検出用の学習済ＤＮＮモデルには、顧客の顔や頭の検出用の学習済ＤＮＮモデルが含まれる。

【0040】

上記の自動ファインチューニング部３７による自動ファインチューニングの詳細は、下記の通りである。すなわち、まず、自動ファインチューニング部３７は、フレーム画像抽出部３２が抽出した、全てのフレーム画像（人の映り込んだ撮影画像と人が映っていない撮影画像とを含む全撮影画像群）を、これらの各フレーム画像に付与されたカメラＩＤを参照して、カメラ分類部３６によりグループ分けをしたｋ個のグループの内蔵カメラ３の撮影画像群Ｃ_１～Ｃ_ｋ（以下、「ｋ個のカメラグループの撮影画像群Ｃ_１～Ｃ_ｋ」という）に分ける。ここで、上記の「カメラグループ」とは、カメラ分類部３６によりグループ分けをした内蔵カメラ３のグループを意味する。そして、自動ファインチューニング部３７は、図５に示すように、人画像抽出部３８を用いて、上記のｋ個のカメラグループの撮影画像群Ｃ_１～Ｃ_ｋ（人の映り込んだ撮影画像と人が映っていない撮影画像とを含む）から、人の映り込んだ撮影画像を抽出して、ｋ個の（カメラグループの）「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」を作成する。上記の人画像抽出部３８による「人の映り込んだ撮影画像」の抽出にも、人画像除去部３３による「人の映り込んだ撮影画像」の検出に用いられたものと同様な、人の頭検出用の学習済ＤＮＮモデルが用いられる。

【0041】

上記の人画像抽出部３８によるｋ個の「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」の作成処理が完了すると、自動ファインチューニング部３７は、図５に示すように、擬似ラベリング部３９を用いて、上記の元の学習済ＤＮＮモデルよりも精度の高い推論を行うことが可能な（顧客の検出用又は認識用の）学習済高精度ＤＮＮモデル４０によって、ｋ個の「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」に対する推論を行って、この推論結果に基づく擬似ラベルを、正解ラベルとして、「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」に含まれる各撮影画像に付与する。

【0042】

そして、自動ファインチューニング部３７は、図５に示すように、グループ別モデル生成部４１により、上記の擬似ラベルが付与された「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」に含まれる各撮影画像群Ｂ_１～Ｂ_ｋを用いて、上記の元の学習済ＤＮＮモデルのファインチューニングを行うことにより、上記のｋ個の各グループの内蔵カメラ３による撮影画像に適した、ｋ個のグループ別学習済ＤＮＮモデル２０を生成する。すなわち、例えば、撮影画像群Ｂ_１に含まれる各撮影画像と、これらの撮影画像に付与された正解ラベルとに基づいて、元の学習済ＤＮＮモデルのファインチューニングを行うことにより、撮影画像群Ｂ_１に対応する（１つ目の）カメラグループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０を生成し、撮影画像群Ｂ_２に含まれる各撮影画像と、これらの撮影画像に付与された正解ラベルとに基づいて、元の学習済ＤＮＮモデルのファインチューニングを行うことにより、撮影画像群Ｂ_２に対応する（２つ目の）カメラグループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０を生成する。ここで、ファインチューニングとは、元の（既存の）学習済ＤＮＮモデルの重みを初期値として、新たに生成する学習済ＤＮＮモデル全体の重みを再学習することを意味する。

【0043】

次に、サイネージ学習管理サーバ１のＣＰＵ２１は、上記のグループ別モデル生成部４１によるファインチューニング後の各グループ別学習済ＤＮＮモデル２０の推論精度を評価する（Ｓ１１）。上記のファインチューニング後の各グループ別学習済ＤＮＮモデル２０の推論精度の評価については、後述する図１０の説明で詳細に説明するが、上記のファインチューニング後の各グループ別学習済ＤＮＮモデル２０の推論精度（Ｆ１値等）が、ファインチューニング前の元の学習済ＤＮＮモデルと比べて顕著に上昇した場合には、上記の画像クラスタリング部３５によるグループ分けの結果が適切であると評価することができる。画像クラスタリング部３５によるグループ分けの結果が適切な場合には、上記のファインチューニング後の各グループ別学習済ＤＮＮモデル２０を、それぞれのファインチューニングに用いられた撮影画像群Ｂ_１～Ｂ_ｋに対応する各カメラグループに属する内蔵カメラ３を有するサイネージ２に送信して格納させる。

【0044】

必要に応じて、図６のＳ１乃至Ｓ１１の処理を、定期的に繰り返すことで、例え、各店舗Ｓのレイアウトや環境（光の条件や内装等）が変化した場合でも、このグループ別モデル生成システム１０により生成された各グループ別学習済ＤＮＮモデル２０の充分な精度を維持することができる。

【0045】

次に、図８を参照して、上記Ｓ５で述べた混合ガウスモデルを用いた適切なクラスタ数ｋの推定方法について、詳述する。図８における左側の図は、画像特徴ベクトル抽出部３４が、全店舗のサイネージ２の内蔵カメラ３が撮影した「人が映っていない撮影画像群」に含まれる各撮影画像から、ｐｒｅｔｒａｉｎｅｄＲｅｓＮｅｔ５０により抽出した、各撮影画像の２０４８次元の特徴ベクトルを、ｔＳＮＥ（ｔ－ｄｉｓｔｒｉｂｕｔｅｄＳｔｏｃｈａｓｔｉｃＮｅｉｇｈｂｏｒＥｍｂｅｄｄｉｎｇ）のアルゴリズムにより２次元に次元削減することにより可視化した、各撮影画像の２次元の特徴ベクトルの分布図である。画像特徴ベクトル抽出部３４が抽出した２０４８次元の特徴ベクトル自体（の分布）は、可視化できないため、上記の分布図では、ｔＳＮＥにより２次元に次元削減した特徴ベクトルの分布を示した。ただし、上記の画像クラスタリング部３５における混合ガウスモデルによるクラスタリング処理では、画像特徴ベクトル抽出部３４が抽出した各撮影画像の２０４８次元の特徴ベクトルが用いられる。

【0046】

すなわち、画像クラスタリング部３５は、撮影画像のグループの数であるクラスタ数を変化させながら（すなわち、混合ガウスモデルに含まれるガウス分布の数）を変化させながら）、各クラスタ数であるときのＢＩＣ（Ｂａｙｅｓｉａｎｉｎｆｏｒｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ：ベイズ情報量基準）の値を、画像特徴ベクトル抽出部３４が抽出した各撮影画像の（２０４８次元の）特徴ベクトル（の分布）に基づいて、混合ガウスモデルにより求めて、求めた各クラスタ数に対応するＢＩＣの値に基づいて、画像特徴ベクトル抽出部３４が抽出した撮影画像の特徴ベクトルの分布に適したクラスタ数を求める。すなわち、まず、画像クラスタリング部３５は、例えば、１～９のクラスタ数（混合ガウスモデルに含まれるガウス分布の数）を順番に指定して、各クラスタ数であるときのＢＩＣの値を、画像特徴ベクトル抽出部３４が抽出した各撮影画像の（２０４８次元の）特徴ベクトル（の分布）に基づいて、混合ガウスモデルにより求める。図８における真ん中（中央）の図は、上記のようにして求めたクラスタ数ｋとＢＩＣの値の関係を示す折れ線グラフであり、この図中における１ｅ７は、１×１０^７を表す。

【0047】

そして、画像クラスタリング部３５は、上記の折れ線グラフにおいて、勾配が落ち着いた時点におけるクラスタ数（この図の例では、５）を、画像特徴ベクトル抽出部３４が抽出した撮影画像の特徴ベクトルの分布に適したクラスタ数とする。上記の勾配が落ち着いた時点におけるクラスタ数には、前の区間におけるＢＩＣの値の変化量（例えば、上記の折れ線グラフにおける、クラスタ数４とクラスタ数５の間のＢＩＣの値の変化量）と、次の区間におけるＢＩＣの値の変化量（例えば、クラスタ数５とクラスタ数６の間のＢＩＣの値の変化量）とを比較して、ＢＩＣの値の変化量（下降量）が小さくなる直前のクラスタ数を採用する。これは、クラスタ数が多すぎると、上記図６のＳ１０で述べた、元の学習済ＤＮＮモデルのファインチューニングの処理回数が多くなってしまうので、クラスタ数ｋを増やしても、最適なモデルの指標であるＢＩＣの値が余り変わらなければ、なるべく少ないクラスタ数ｋを採用することが望ましいという理由による。ここで、一般に、上記のＢＩＣの値は、小さい方が好ましい。

【0048】

図８における真ん中の図に示す折れ線グラフでは、上記の勾配が落ち着いた時点におけるクラスタ数が５であるので、混合ガウスモデルのＢＩＣの値から求めた、上記の撮影画像の特徴ベクトルの分布に適したクラスタ数は、５である。図８における右側の図は、上記の適切なクラスタ数（＝５）に合わせて、図８の左側の分布図における、各撮影画像の（次元削減後の）２次元の特徴ベクトルを、グループ１～５に、色でグループ分けして示した分布図である。なお、一般に、特許出願では、カラーの図面を使用することができないので、図８における右側の図では、グレースケールで、各特徴ベクトルのグループを示している。また、図８における左側の図と右側の図は、混合ガウスモデルを用いた適切なクラスタ数ｋの推定方法を説明するために記載した図であり、実際の画像クラスタリング部３５によるクラスタリング処理では、これらの２次元に次元削減した特徴ベクトルの分布図は、使用されない。ただし、図８における左側の図については、全店舗のサイネージ２の内蔵カメラ３が撮影した「人が映っていない撮影画像群」に含まれる撮影画像を、いくつのグループに分けるのが適切かを確認するために使用される場合がある。

【0049】

図９は、上記図６のＳ７の処理において、「人が映っていない撮影画像群」（「店舗の撮影画像群」））に含まれる撮影画像を、５個の「人が映っていない撮影画像群Ａ_１～Ａ_５」にグループ分けした（グループ１～５の撮影画像群に分けた）場合における、各グループに含まれる撮影画像の例を示した図である。上記Ｓ７の撮影画像のグループ分けを行うことにより、グループ１～５の撮影画像群Ａ_１～Ａ_５の各々に対応するフォルダが自動生成され、それらのフォルダの各々に、当該フォルダに対応するグループの撮影画像が格納される。

【0050】

図９に示す例では、グループ１の撮影画像群（撮影画像群Ａ_１）の撮影画像は、真ん中が通路で、通路の左右に商品棚と壁があるというようなレイアウトの、店舗内のエリアの撮影画像であり、グループ２の撮影画像群（撮影画像群Ａ_２）の撮影画像は、通路が少し狭く、通路の左右に商品棚があるというようなレイアウトの、店舗内のエリアの撮影画像である。グループ３の撮影画像群（撮影画像群Ａ_３）の撮影画像は、通路の左右の片方が壁で、もう片方が商品棚であり、通路の奥側が商品棚で塞がれているようなレイアウトの、店舗内のエリアの撮影画像である。グループ４の撮影画像群（撮影画像群Ａ_４）の撮影画像は、店舗の隅のコーナーに設置したサイネージ２の内蔵カメラ３で、通路に対して斜め上の方向から撮影した店舗内のエリアの撮影画像である。グループ５の撮影画像群（撮影画像群Ａ_５）の撮影画像は、サイネージ２の内蔵カメラ３で、通路に対して斜め上の方向から撮影した店舗内のエリアの撮影画像であり、フレアが生じている撮影画像である。ただし、図９に示す各グループ１～５の撮影画像は、あくまでも例示に過ぎない。

【0051】

図９に示すように、各グループの撮影画像群Ａ_１～Ａ_５は、各店舗におけるレイアウト、光の条件、内装等を反映した、各撮影画像の特徴が類似した撮影画像同士を集めたものになっている。

【0052】

次に、上記図６のＳ１１で説明した、ファインチューニング後の各グループ別学習済ＤＮＮモデル２０の推論精度の評価について、図１０を参照して、説明する。図１０は、５つ目の（人の映り込んだ）撮影画像群Ｂ_５に含まれる各撮影画像とその正解ラベル（疑似ラベル）とに基づいて、元の学習済ＤＮＮモデルのファインチューニングを行うことにより生成した、５つ目のカメラグループに対応するグループ別学習済ＤＮＮモデル２０のＦ_１値（「Ｆ値」とも言う）等の推論精度評価指標等を、ファインチューニング前の元の学習済ＤＮＮモデルの推論精度評価指標等と対比して示す。図１０において、ＴＰ（ＴｒｕｅＰｏｓｉｔｉｖｅ）は、「真と予測して、実際に真であったもの」（例えば、人の頭と予測して、実際に人の頭であったもの）を表し、ＦＰ（ＦａｌｓｅＰｏｓｉｔｉｖｅ）は、「真と予測して、実際は、偽であったもの」（例えば、人の頭と予測して、実際には人の頭でなかったもの）を表し、ＦＮ（ＦａｌｓｅＮｅｇａｔｉｖｅ）は、「偽と予測したが、実際は、真であったもの」（例えば、人の頭ではないと予測して、実際には人の頭であったもの）を表す。

【0053】

また、図１０中のＰｒｅｃｉｓｉｏｎは、いわゆる適合率であり、正と予測したデータのうち、実際に正であるものの割合を示す。式で表すと、Ｐｒｅｃｉｓｉｏｎ＝ＴＰ／（ＴＰ＋ＦＰ）である。Ｒｅｃａｌｌは、いわゆる再現率であり、実際に正であるもののうち、正であると予測されたものの割合を示す。式で表すと、Ｒｅｃａｌｌ＝ＴＰ／（ＴＰ＋ＦＮ）である。また、Ｆ_１値（Ｆ値）は、Ｒｅｃａｌｌ（再現率）と、Ｐｒｅｃｉｓｉｏｎ（適合率）の調和平均であり、式で表すと、Ｆ_１値＝（２×Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ）／（Ｐｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ）である。

【0054】

図１０に示す表から、ファインチューニング前の元の学習済ＤＮＮモデルと比べて、ファインチューニング後のグループ別学習済ＤＮＮモデル２０では、検知率に寄与する指標であるＴＰの値が大幅に向上すると共に、未検知の指標であるＦＮの値が大幅に減少することが分かる。このため、ファインチューニング前の元の学習済ＤＮＮモデルと比べて、ファインチューニング後のグループ別学習済ＤＮＮモデル２０では、Ｐｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、及びＦ_１値といった推論精度評価指標が、いずれも、大幅に向上することが分かる。なお、図１０に示す表では、ファインチューニング後に、誤検知の指標であるＦＰの値が僅かに上昇しているが、Ｐｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、及びＦ_１値といった評価指標が大幅に向上している以上、実運用の観点からは、特に問題はない。また、図１０に示す表では、５つ目のカメラグループに対応するグループ別学習済ＤＮＮモデル２０の、ファインチューニング後におけるＦ_１値等の評価指標の向上について示したが、上記の５つ目のカメラグループに対応するグループ別学習済ＤＮＮモデル２０と共に生成した、１つ目～４つ目のカメラグループに対応するグループ別学習済ＤＮＮモデル２０についても、ファインチューニング後におけるＦ_１値等の評価指標は、大幅に向上した。

【0055】

上記図８の説明では、クラスタ数（（カメラ）グループ数）が多すぎると、元の学習済ＤＮＮモデルのファインチューニングの処理回数が多くなってしまうので、クラスタ数ｋを増やしても、最適なモデルの指標であるＢＩＣの値が余り変わらなければ、なるべく少ないクラスタ数ｋを採用することが望ましいと述べたが、これは、上記のＰｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、及びＦ_１値といった推論精度評価指標についても、同じである。すなわち、画像クラスタリング部３５は、クラスタ数（グループ数）を増やしていって、クラスタ数を（ｋ－１）からｋに増やした時には、（混合ガウスモデルにより求めた）ＢＩＣの値や、Ｆ_１値等の推論精度評価指標の値が、大幅に向上（改善）するが、クラスタ数をｋから（ｋ＋１）以上に増やしても、ＢＩＣの値や、Ｆ_１値等の推論精度評価指標が、余り変わらなければ、クラスタ数（グループ数）として、ｋを採用する。この理由は、クラスタ数（（カメラ）グループ数）が多すぎると、元の学習済ＤＮＮモデルのファインチューニングの処理回数が多くなってしまうからである。すなわち、画像クラスタリング部３５は、クラスタ数（グループ数）を増やしていった時の評価指標の値の上り幅（ＢＩＣの場合は、下り幅）と、クラスタ数（グループ数）の（少なさの）バランスのとれた所のクラスタ数ｋの値を採用する。なお、上記のクラスタ数（グループ数）を決定する指標としては、図８の説明で述べた最適なモデルの指標であるＢＩＣの値のみを用いても良いし、Ｐｒｅｃｉｓｉｏｎ、Ｒｅｃａｌｌ、及びＦ_１値といった推論精度評価指標のみを用いても良いし、ＢＩＣの値と、Ｆ_１値等の推論精度評価指標とを、組み合わせて用いても良い。

【0056】

上記のように、本実施形態のグループ別モデル生成システム１０、サイネージ学習管理サーバ１、及びグループ別モデル生成プログラム２７によれば、複数の店舗に設置されたサイネージ２の内蔵カメラ３の各々から収集した撮影画像を、これらの撮影画像の各々の特徴ベクトルに基づいて、混合ガウスモデルによりグループ分けして、これらの撮影画像のグループ分け結果に基づいて、これらの撮影画像を撮影した内蔵カメラ３のグループ分けを行い、グループ分けをした各グループの内蔵カメラ３による撮影画像を用いて、元の（顧客の検出用又は認識用の）学習済ＤＮＮモデルのファインチューニングを行うようにした。これにより、各グループの内蔵カメラ３の撮影画像に適した（各グループの内蔵カメラ３の撮影画像に特化した）グループ別学習済ＤＮＮモデル２０を生成することができるので、各グループ別学習済ＤＮＮモデル２０が、極端に軽い学習済ＤＮＮモデルであっても、各グループの内蔵カメラ３の撮影画像に対する高精度な顧客検出処理や顧客認識処理を行うことが可能になる。また、グループ別モデル生成システム１０内の全サイネージ２による顧客検出処理や顧客認識処理の対象となる撮影画像が、数千店舗等の多数の店舗に設置されたサイネージ２の内蔵カメラ３の撮影画像である場合でも、これらの内蔵カメラ３をグループ分けして、グループ分け後の限られた数の内蔵カメラ３（例えば、数百台の内蔵カメラ３）の撮影画像を用いて、元の学習済ＤＮＮモデルのファインチューニングを行うことができるので、元の学習済ＤＮＮモデルが、極端に軽い学習済ＤＮＮモデルであっても、適切な機械学習を遂行することができる可能性を高めることができる（学習しきれない可能性を低くすることができる）。従って、グループ別モデル生成システム１０内の全サイネージ２による顧客検出処理や顧客認識処理の対象となる撮影画像が、数千店舗等の多数の店舗に設置されたサイネージ２の内蔵カメラ３の撮影画像であり、しかも、元の学習済ＤＮＮモデル、及び上記の生成した各グループ別学習済ＤＮＮモデル２０が、極端に軽い学習済ＤＮＮモデルであっても、上記の生成した各グループ別学習済ＤＮＮモデル２０を用いて、各グループの内蔵カメラ３の撮影画像に対する高精度な顧客検出処理や顧客認識処理を行うことが可能になる。

【0057】

また、本実施形態のグループ別モデル生成システム１０によれば、グループ別モデル生成部４１により生成された、各グループの内蔵カメラ３の撮影画像に適したグループ別学習済ＤＮＮモデル２０を、各グループの内蔵カメラ３が設置された店舗に配されたエッジ側の装置、すなわち、該当の内蔵カメラ３を有するサイネージ２に送信して格納させ、このサイネージ２により、各グループの内蔵カメラ３が撮影した撮影画像に対する顧客検出処理又は顧客認識処理を行うようにした。これにより、各グループの内蔵カメラ３を有するサイネージ２が、自機の内蔵カメラ３の撮影画像に対する高精度な顧客検出処理や顧客認識処理を行うことができる。

【0058】

また、本実施形態のグループ別モデル生成システム１０によれば、元の顧客の検出用又は認識用の学習済ＤＮＮモデルよりも精度の高い推論を行うことが可能な、顧客の検出用又は認識用の学習済高精度ＤＮＮモデル４０によって、各グループの内蔵カメラ３による撮影画像に対する推論を行い、この推論結果に基づく擬似ラベルを、正解ラベルとして、各グループの内蔵カメラ３による撮影画像に付与して、各グループの内蔵カメラ３による撮影画像と、上記の各グループの内蔵カメラ３による撮影画像に付与された正解ラベル（擬似ラベル）とに基づいて、上記元の顧客の検出用又は認識用の学習済ＤＮＮモデルのファインチューニングを行うようにした。これにより、各グループの内蔵カメラ３による撮影画像の各々に、自動的に正解ラベルを付与して、上記の学習済ＤＮＮモデルのファインチューニングを、自動的に行うことができる。すなわち、人がアノテーション（各撮影画像の正解ラベルの作成）をすることなく、上記の元の学習済ＤＮＮモデルのファインチューニングを行うことができる。

【0059】

また、本実施形態のグループ別モデル生成システム１０によれば、撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときのＢＩＣ（ベイズ情報量基準）の値を、混合ガウスモデルにより求めて、求めた各クラスタ数に対応するＢＩＣの値に基づいて、画像特徴ベクトル抽出部３４により抽出した撮影画像の特徴ベクトルの分布に適したクラスタ数を求めるようにした。これにより、撮影画像の特徴ベクトルの分布に適したクラスタ数を、自動的に求めることができる。

【0060】

また、本実施形態のグループ別モデル生成システム１０によれば、複数の店舗に設置されたサイネージ２の内蔵カメラ３の各々から収集した撮影画像から、人の映り込んだ撮影画像を除去した後に残った店舗の撮影画像の各々から特徴ベクトルを抽出して、これらの特徴ベクトルに基づいて、上記の店舗の撮影画像を、教師なし学習である混合ガウスモデルによりグループ分けするようにした。上記のように、内蔵カメラ３のグループ分けの元になる撮影画像のグループ分けを、店舗の撮影画像の特徴ベクトルに基づいて行うようにしたことにより、撮影画像に映り込んだ人の影響を受けずに、内蔵カメラ３の撮影画像のグループ分けを行うことができる。

【0061】

変形例：
なお、本発明は、上記の各実施形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。次に、本発明の変形例について説明する。

【0062】

変形例１：
上記の実施形態では、画像クラスタリング部３５が、店舗の撮影画像群を、画像特徴ベクトル抽出部３４により抽出した各撮影画像の特徴ベクトルに基づいて、混合ガウスモデルによりグループ分けする場合の例を示した。けれども、撮影画像群のグループ分けに使用するクラスタリング用のモデルは、混合ガウスモデルに限られず、例えば、ｋ－ｍｅａｎｓ法（ｋ平均法）、ＥＭ（ｅｘｐｅｃｔａｔｉｏｎ－ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズム等の教師なし学習であればよい。また、店舗の撮影画像群のグループ分けを、必ずしも、上記のように各撮影画像の特徴ベクトルに基づいて行う必要はなく、各撮影画像の種々の特徴に基づいて、撮影画像群のグループ分けを行えばよい。

【0063】

変形例２：
上記の実施形態では、各グループの内蔵カメラ３による撮影画像と、擬似ラベリング部３９によってこれらの撮影画像に付与された擬似ラベルとを用いて、元の学習済ＤＮＮモデルのファインチューニングを行うことにより、上記の各グループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０を生成する場合の例を示したが、各グループの内蔵カメラ３による撮影画像と、これらの撮影画像に付与された擬似ラベルとを用いて、元の学習済ＤＮＮモデルの転移学習を行うことにより、各グループの内蔵カメラによる撮影画像に適したグループ別学習済ＤＮＮモデルを生成するようにしてもよい。ここで、転移学習とは、元の（既存の）学習済ＤＮＮモデルにおける重みを固定したままで、新たに追加した層の重みのみを学習することを意味する。

【0064】

変形例３：
上記の実施形態では、各グループの内蔵カメラ３の撮影画像に適したグループ別学習済ＤＮＮモデル２０を、上記の各グループの内蔵カメラ３を有するサイネージ２に送信して格納させる場合の例を示したが、グループ別学習済ＤＮＮモデルを送信して格納させる（インストールする）装置は、サイネージに限られず、何らかのカメラが設置された店舗等の施設に配されたエッジ側の装置であればよい。このエッジ側の装置の例としては、監視カメラによる撮影画像に対する物体検出又は物体認識を行う画像分析装置や、いわゆるＡIカメラが挙げられる。

【0065】

変形例４：
上記の実施形態では、撮影画像のグループの数であるクラスタ数を変化させながら、各クラスタ数であるときのＢＩＣ（ベイズ情報量基準）の値を、混合ガウスモデルにより求めて、求めた各クラスタ数に対応するＢＩＣの値に基づいて、撮影画像の特徴ベクトルの分布に適したクラスタ数を求める場合の例を示したが、例えば、各クラスタ数であるときのＡＩＣ（赤池情報量基準）の値を、混合ガウスモデル等の教師なし学習により求めて、求めた各クラスタ数に対応するＡＩＣの値に基づいて、撮影画像の特徴ベクトルの分布に適したクラスタ数を求めてもよい。

【0066】

変形例５：
上記の実施形態では、グループ別モデル生成部４１により生成するグループ別学習済ＤＮＮモデル２０が、顧客の検出用又は認識用の学習済ＤＮＮモデルであったため、人画像抽出部３８を用いて、人の映り込んだ撮影画像を抽出して、抽出した人の映り込んだ撮影画像（「人の映り込んだ撮影画像群Ｂ_１～Ｂ_ｋ」の各撮影画像群Ｂ_１～Ｂ_ｋ）を用いて、上記の元の学習済ＤＮＮモデルのファインチューニングを行うことにより、上記の各グループの内蔵カメラ３による撮影画像に適したグループ別学習済ＤＮＮモデル２０を生成した。けれども、例えば、グループ別モデル生成部により生成するグループ別学習済ＤＮＮモデルが、商品の検出用又は認識用の学習済ＤＮＮモデルである場合や、商品棚の検出用又は認識用の学習済ＤＮＮモデルである場合には、ｋ個の各グループの内蔵カメラで撮影した「人が映っていない撮影画像群」を用いて、元の（既存の）学習済ＤＮＮモデルのファインチューニングを行うことにより、上記の各グループの内蔵カメラによる撮影画像に適したグループ別学習済ＤＮＮモデルを生成することができる。

【0067】

変形例６：
また、上記の実施形態では、サイネージ学習管理サーバ１が、フレーム画像抽出部３２と人画像除去部３３を備える場合の例を示したが、各サイネージが、フレーム画像抽出部と人画像除去部に相当する機能を備え、人が映っていない撮影画像（フレーム画像）のみを、サイネージ学習管理サーバ１に送信するようにしてもよい。この場合は、サイネージ学習管理サーバ側の撮影画像収集部は、複数の店舗に設置されたサイネージの内蔵カメラの各々から、上記の人が映っていない撮影画像（フレーム画像）を収集する。

【符号の説明】

【0068】

１サイネージ学習管理サーバ（サーバ、コンピュータ）
２、２ａ、２ｂサイネージ（エッジ側の装置）
３内蔵カメラ（撮影手段）
１０グループ別モデル生成システム
２０グループ別学習済ＤＮＮモデル（グループ別学習済ニューラルネットワークモデル）
２７グループ別モデル生成プログラム
３１撮影画像収集部（撮影画像収集手段）
３３人画像除去部（人画像除去手段）
３４画像特徴ベクトル抽出部（画像特徴抽出手段）
３５画像クラスタリング部（画像クラスタリング手段）
３６カメラ分類部（撮影手段分類手段）
３８人画像抽出部（人画像抽出手段）
３９擬似ラベリング部（擬似ラベリング手段）
４０学習済高精度ＤＮＮモデル（学習済高精度ニューラルネットワークモデル）
４１グループ別モデル生成部（グループ別モデル生成手段）
Ｓ、Ｓａ、Ｓｂ店舗（施設）

【図1】