IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝ソリューション株式会社の特許一覧 ▶ トリノ・ガーデン株式会社の特許一覧

特開2022-145822映像処理装置、映像処理方法およびプログラム
<>
  • 特開-映像処理装置、映像処理方法およびプログラム 図1
  • 特開-映像処理装置、映像処理方法およびプログラム 図2
  • 特開-映像処理装置、映像処理方法およびプログラム 図3
  • 特開-映像処理装置、映像処理方法およびプログラム 図4
  • 特開-映像処理装置、映像処理方法およびプログラム 図5
  • 特開-映像処理装置、映像処理方法およびプログラム 図6
  • 特開-映像処理装置、映像処理方法およびプログラム 図7
  • 特開-映像処理装置、映像処理方法およびプログラム 図8
  • 特開-映像処理装置、映像処理方法およびプログラム 図9
  • 特開-映像処理装置、映像処理方法およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022145822
(43)【公開日】2022-10-04
(54)【発明の名称】映像処理装置、映像処理方法およびプログラム
(51)【国際特許分類】
   G06Q 50/12 20120101AFI20220926BHJP
   G06Q 30/02 20120101ALI20220926BHJP
【FI】
G06Q50/12
G06Q30/02 300
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022126537
(22)【出願日】2022-08-08
(62)【分割の表示】P 2017196383の分割
【原出願日】2017-10-06
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(71)【出願人】
【識別番号】510143664
【氏名又は名称】トリノ・ガーデン株式会社
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100075672
【弁理士】
【氏名又は名称】峰 隆司
(72)【発明者】
【氏名】佐藤 有
(72)【発明者】
【氏名】樫本 晋一
(72)【発明者】
【氏名】香川 弘一
(72)【発明者】
【氏名】岡本 利夫
(72)【発明者】
【氏名】田中 孝
(72)【発明者】
【氏名】中谷 一郎
(57)【要約】
【課題】 煩雑な設計作業を要さずに接客回数をカウントできるようにすること。
【解決手段】 実施形態によれば、映像処理装置は、解析部と、カウント部と、記憶部とを具備する。解析部は、店舗の営業シーンの映像データを解析して、映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する。カウント部は、解析部により接客行動を含むと判別された回数を接客回数としてカウントする。記憶部は、接客回数を記憶する。解析部は、特徴量抽出部と、行動判定部とを備える、特徴量抽出部は、映像データから画像フレーム単位で特徴量を抽出する。行動判定部は、抽出された特徴量に基づいて、各テーブルにて従業員の接客行動が発生しているか否かを判定する。
【選択図】 図5
【特許請求の範囲】
【請求項1】
店舗の営業シーンの映像データを解析して、前記映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する解析部と、
前記解析部により前記接客行動を含むと判別された回数を接客回数としてカウントするカウント部と、
前記接客回数を記憶する記憶部とを具備し、
前記解析部は、
前記映像データから画像フレーム単位で特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて、前記各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定部とを備える、映像処理装置。
【請求項2】
前記行動判定部は、前記特徴量により示される尤度を用いた閾値判定により、対象とする前記画像フレームが前記従業員の接客行動を含むか否かを判定する、請求項1に記載の映像処理装置。
【請求項3】
前記特徴量抽出部は、
前記映像データに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークを備える、請求項2に記載の映像処理装置。
【請求項4】
前記解析部は、
前記映像データを前処理して、前記画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理部をさらに具備する、請求項3に記載の映像処理装置。
【請求項5】
前記前処理部は、前記映像データを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項4に記載の映像処理装置。
【請求項6】
前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークを含む、請求項3乃至5のいずれか1項に記載の映像処理装置。
【請求項7】
コンピュータが、店舗の営業シーンの映像データを解析して、前記映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する解析過程と、
前記コンピュータが、前記解析過程において前記接客行動を含むと判別された回数を接客回数としてカウントする過程と、
前記コンピュータが、前記接客回数を記憶する過程とを具備し、
前記解析過程は、
前記コンピュータが、前記映像データから画像フレーム単位で特徴量を抽出する特徴量抽出過程と、
前記コンピュータが、抽出された前記特徴量に基づいて、前記各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定過程とを備える、映像処理方法。
【請求項8】
前記コンピュータが、前記行動判定過程において、前記特徴量により示される尤度を用いた閾値判定により、対象とする前記画像フレームが前記従業員の接客行動を含むか否かを判定する、請求項7に記載の映像処理方法。
【請求項9】
前記コンピュータが、前記特徴量抽出過程において、前記映像データに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークにより前記特徴量を抽出する、請求項8に記載の映像処理方法。
【請求項10】
前記解析過程は、
前記コンピュータが、前記映像データを前処理して、前記画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理過程をさらに具備する、請求項9に記載の映像処理方法。
【請求項11】
前記コンピュータは、前記前処理過程において、前記映像データを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項10に記載の映像処理方法。
【請求項12】
前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークを含む、請求項9乃至11のいずれか1項に記載の映像処理方法。
【請求項13】
コンピュータを、
店舗の営業シーンの映像データを解析して、前記映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する解析部として機能させるための命令と、
前記解析部により前記接客行動を含むと判別された回数を接客回数としてカウントするカウント部として機能させるための命令と、
前記接客回数を記憶する記憶部として機能させるための命令と、
前記映像データから画像フレーム単位で特徴量を抽出する特徴量抽出部として機能させるための命令と、
抽出された前記特徴量に基づいて、前記各テーブルにて前記従業員の接客行動が発生しているか否かを判定する行動判定部として機能させるための命令とを含む、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、映像処理装置、映像処理方法およびプログラムに関する。
【背景技術】
【0002】
飲食業に代表されるサービス業において再訪率は、重要な経営指標であり、顧客の店舗への再訪率を高めるために様々なコンサルティング手法がある。なかでも、顧客のテーブルを従業員が訪れ応対した回数(接客回数)を評価することは、再訪率を高めるための基礎的な事項である。そこで、店舗における接客回数を客観的に計測したいというニーズがあり、それに応えようとするサービス(ビジネス)が近年、展開されている。
【0003】
例えば、客に扮したコンサルタントが店舗を訪れ、一定時間内の接客回数を目視でカウントするという手法がある。よりスマートには、店舗内を撮影したデータ(映像データ)を分析者(アナリスト)が見て、シーンにタグ付けし、“接客”としてタグ付けされた場面の数をカウントする手法もある。さらに、映像に含まれる人物の行動を判定する、人物行動判定装置が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第5285575号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
人物行動判定装置を応用すれば、店舗における接客行動を自動で検出できる可能性がある。しかしながら既存の技術では、接客行動に対応する特徴量や、行動条件に対応する辞書等を人手で設計する必要があった。このため専門家による膨大な作業を必要とし、コストも嵩む。システムを導入することは容易ではなく、大規模な異業種展開(横展開)も難しい。
【0006】
そこで、目的は、設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
実施形態によれば、映像処理装置は、解析部と、カウント部と、記憶部とを具備する。解析部は、店舗の営業シーンの映像データを解析して、映像データの各画像フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判別する。カウント部は、解析部により接客行動を含むと判別された回数を接客回数としてカウントする。記憶部は、接客回数を記憶する。解析部は、特徴量抽出部と、行動判定部とを備える、特徴量抽出部は、映像データから画像フレーム単位で特徴量を抽出する。行動判定部は、抽出された特徴量に基づいて、各テーブルにて従業員の接客行動が発生しているか否かを判定する。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係わる映像処理装置の一例を示すブロック図である。
図2図2は、図1の映像処理装置1に備わる機能の一例を示す機能ブロック図である。
図3図3は、記憶部6に記憶されるデータテーブルの一例を示す図である。
図4図4は、解析部11の機能の一例を示す機能ブロック図である。
図5図5は、特徴量抽出部113のニューラルネットワークの一例を示す図である。
図6図6は、映像処理装置1の処理を表すフローチャートである。
図7図7は、解析部11の処理を表すフローチャートである。
図8図8は、映像データから切り出された画像フレームの一例を示す図である。
図9図9は、映像データから切り出された画像フレームの他の例を示す図である。
図10図10は、接客回数に着目したコンサルティングシステムの概念図である。
【発明を実施するための形態】
【0009】
以下に、実施形態について図面を参照して説明する。参照される図面は模式的なものである。以下の説明において、同じ機能及び構成を有する要素に、共通する参照符号を付して示す。
【0010】
図1は、実施形態に係わる映像処理装置の一例を示すブロック図である。映像処理装置1は、プロセッサ2、ランダムアクセスメモリ(RAM)3、読み出し専用メモリ(ROM)4、記憶部6を備えるコンピュータである。さらに映像処理装置1は、ディスプレイ5、I/O部7、およびインタフェース(I/F)部8を備える。
【0011】
プロセッサ2は、映像処理装置1全体の動作を制御する。例えばプロセッサ2は、ユーザによる操作やホスト機器(図示せず)からの命令に応答して、映像処理プログラムを実行する。またプロセッサ2は、RAM3や記憶部6のメモリ空間を管理する。
【0012】
プロセッサ2は、記憶部6に記憶されたプログラムをロードし、実行することで、実施形態において説明する各種の機能を実現する。プロセッサ2は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、或いは、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC))、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等のハードウェア資源である。また、CPUにGPU(Graphics Processing Unit)を組み合わせることも可能である。
【0013】
RAM3は、記憶部6からロードされたプログラムやデータを記憶する。また、RAM3は、プロセッサ2の作業領域として使用される。RAM3としては、例えばDRAM等の半導体メモリが使用される。
【0014】
ROM4は、制御用のプログラムや制御データ等が予め記憶された不揮発性メモリである。ROM4は、例えばBIOS(Basic Input/Output System)を保持する。
【0015】
記憶部6は、ユーザが解析に使用する映像ファイルや、映像処理によって生成されたデータを記憶する。また記憶部6は、映像処理に用いる種々のプログラム6aや、プログラムに関連するデータを保持する。記憶部6に保持されたプログラム6aは、映像処理装置1が当該プログラムを実行する際に読み出され、RAM3に展開される。記憶部6としては、例えばSSD(Solid State Drive)や、ハードディスクドライブが使用される。尚、記憶部6はデータを記憶することが可能であれば良く、記憶部6としてその他の記録媒体を使用しても良い。
【0016】
ディスプレイ5は、プロセッサ2の制御もとで、例えば種々のプログラムに対応するGUI(Graphical User Interface)等を表示する。例えばディスプレイ5は、映像処理の結果を再生するために使用される。
【0017】
I/O部7は、主にユーザの操作を受け付けるヒューマンマシンインタフェースであり、マウス9やキーボードなどが接続される。
I/F部8は、例えばLAN(Local Area Network)とのインタフェースであり、ハブ(HUB)などを経由して、映像処理装置1を外部ネットワーク(インターネット等)やクラウドコンピューティングシステム等に接続可能とする。
【0018】
なお、図1に示される構成は一例であり、映像処理装置1はこれとは異なる構成をとることもできる。例えば、映像処理装置1が記憶部6及びディスプレイ5を備えていなくても良い。この場合、映像処理装置1には、記憶部6及びディスプレイ5がそれぞれ外部接続される。
【0019】
図2は、図1の映像処理装置1に備わる機能の一例を示す機能ブロック図である。映像処理装置1は、実施形態に係わる処理機能として解析部11、カウント部12、および集計部13を備える。解析部11、カウント部12、および集計部13は、記憶部6のプログラム6aの実行に際して生成されるプロセスとして、理解され得る。つまりプログラム6aは、コンピュータとしての映像処理装置1を、解析部11、カウント部12、集計部13、および記憶部6として機能させるための命令を含む。
【0020】
解析部11は、店舗の営業シーンを撮影した映像データを取得し、解析して、従業員の接客行動を含むシーンを判別する。すなわち解析部11は、映像データの各フレームごとに、各テーブルで従業員の接客行動が発生しているかどうかを判定する。判定の結果は、例えば0~1の数値で示される推論確率(尤度)として出力される。
【0021】
なお、例えば、客席に向けて定点カメラを店舗内に取り付ければ、従業員の接客行為を捕えた映像データを取得することができる。映像データはリアルタイムストリーミングで取得しても良いし、ネットワークサーバに蓄積されたのちダウンロードされても良い。あるいは、DVD(Digital Versatile Disk)などの記録媒体に記録して事後的に解析部11に与えても良い。
【0022】
カウント部12は、解析部11により算出された行動判定結果に基づいて演算処理を行い、尤度を接客回数に変換する。例えば演算処理とは、解析部11の出力の移動平均をとり、尤度が閾値以上の状態が既定長さ期間以上にわたって継続すれば、接客1回としてカウントする処理である。つまりカウント部12は、解析部11により接客行動を含むと判別された回数をカウントする。そしてカウント部12は、顧客ごとの接客回数を、映像データに付随する補助的情報(メタデータ)と対応付けて記憶部6に保存する。
集計部13は、カウント部12の出力を集計し、平均接客回数などを算出する。
【0023】
記憶部6は、実施形態に係わる画像処理機能を実現するためのプログラム6aを、プロセッサ2が読み取り、実行することの可能な形式で記憶する。また記憶部6は、カウント部12によりカウントされた接客回数、および接客回数に関連する補助的情報などを、例えばデータテーブルの形式で記憶する。
【0024】
図3は、記憶部6に記憶されるデータテーブルの一例を示す図である。データテーブルは、映像データに、店舗種別(ブランド名)、どの店舗で撮影されたかを示す店舗名、日付、時間帯などの補助的情報(メタデータ)を対応付けたテーブル形式のデータである。さらに、各映像データ(映像データ1、2、…)ごとに、集計部13により集計された平均接客回数が対応付けて記録される。
【0025】
図4は、解析部11の機能の一例を示す機能ブロック図である。解析部11は、実施形態に係わる処理機能として、フレーム取得部111、前処理部112、特徴量抽出部113、行動判定部114、フレーム記憶部115、およびモデル記憶部116を備える。
【0026】
フレーム取得部111、前処理部112、特徴量抽出部113、行動判定部114は、記憶部6のプログラム6aが実行される際にクラウドコンピューティングシステムのリソースを利用する、例えばWeb API(Application Programming Interface)の形式で実現されることができる。
【0027】
プログラム6aからWeb APIを利用する際に、HTTP(HyperText aTransfer Protocol)リクエストをクラウドに送信すると、これに応じてHTTPレスポンスが、例えばXML(Extensible Markup Language)、HTML(HyperText Markup Language)、JSON(JavaScript(登録商標) Object Notation)、各種の画像ファイル形式等のデータ形式で返送される。プログラム6aは、このリクエスト-レスポンスに係わる一連の手順を実行するための命令を含む。つまり記憶部6のプログラム6aは、コンピュータとしての映像処理装置1をフレーム取得部111として機能させるための命令と、前処理部112として機能させるための命令と、特徴量抽出部113として機能させるための命令と、行動判定部114として機能させるための命令とを含む。
【0028】
フレーム取得部111は、入力された映像データの画像フレームを切り出し、フレーム記憶部115に画像フレーム115aとして蓄積する。フレーム記憶部115は、フレーム取得部111が取得した画像フレーム115aを記憶する。
前処理部112は、フレーム記憶部115に蓄積された過去の画像フレーム115aと、フレーム取得部111により処理された画像フレームを用いて前処理を行う。すなわち前処理部112は、映像データを前処理して、フレーム間のオプティカルフローと勾配(Gradient)を算出し、特徴量抽出部113への入力に対応したデータとして整形する。
【0029】
実施形態では、特徴量抽出部113において、ニューラルネットワークを用いて画像の特徴量を抽出することを考える。そこで前処理部112は、計算したオプティカルフローおよび勾配と、映像データの画像フレームとを含む複数次元のベクトルデータを生成し、特徴量抽出部113に渡す。例えば入力画像フレームとして(RGB)の3次元データを与えるとすれば、フレーム間のオプティカルフロー(XY軸方向)の2次元、勾配(XY軸方向)の2次元の、合わせて7次元×画素数のベクトルデータが、ニューラルネットワークの入力層に入力される。
【0030】
特徴量抽出部113は、入力層、中間層および出力層を有するニューラルネットワークを備える。このニューラルネットワークは、モデル記憶部116に保存された機械学習モデル116aを反映する。機械学習モデル116aは、画像フレームの特徴量の計算に際して特徴量抽出部113に読み込まれ、GT(Grand Truth)が与えられると、機械学習アルゴリズムに従って更新される。特徴量抽出部113は、前処理部112から取得したベクトルデータに対し、機械学習モデル116aに基づく畳み込み演算により、画像フレームの特徴量を得る。つまり入力画像フレームの現在時刻に対応した特徴量が、出力層から出力される。
【0031】
行動判定部114は、特徴量抽出部113から出力される特徴量から、現在時刻において、各テーブルにて従業員の接客行動が発生しているか否かを判別する。例えば、特徴量により示される尤度を用いた閾値判定により、対象とする画像フレームが従業員の接客行動を含むか否かを判別することができる。
【0032】
図5は、特徴量抽出部113のニューラルネットワークの一例を示す図である。図5において、入力画像フレーム(RGB、フレーム間のオプティカルフロー(XY軸方向)、および勾配(XY軸方向)を含む7次元の前処理済み画像フレームが、入力層41に入力される。さらに、現在フレームだけでなく、時刻を過去に遡った方向の次元も持つ画像フレーム(1フレーム前画像、2フレーム前画像、…)を、入力層41に入力しても良い。
【0033】
中間層を含む畳み込み特徴量抽出層42は、1つあるいは複数のニューラルネットワークによって構成され、空間的(XY画素方向)あるいは空間的かつ時間的(3次元方向:XY画素方向+時刻方向)に画像を畳み込む。空間的な畳み込みと時間的な畳み込みは別々のニューラルネットワークで構成されていてもよい。さらに、複数のニューラルネットワークの出力に演算処理を施す構造をしていてもよい。
【0034】
出力層を含む時系列情報保存層43は、再帰型ニューラルネットワークによって構成され、その内部変数は、前時刻の内部状態ベクトルを保持する。畳み込み特徴量抽出層42が出力した特徴量ベクトルと、保持されている内部状態ベクトルとを用いた演算により、行動判定結果を与えるベクトル(行動判定出力)が出力される。同時に、現在時刻に対応した内部状態ベクトルが算出され、この内部状態ベクトルは、次時刻の演算まで保持される。
次に、上記構成を基礎として、複数の実施の形態について説明する。
【0035】
(第1の実施形態)
図6は、映像処理装置1の処理を表すフローチャートである。図6において、映像処理装置1は、解析部11に映像データを入力する(ステップS21)。解析部11は、入力された映像データを解析し、フレーム毎の行動判定結果を数値化して出力する(ステップS22)。つまり解析部11は、従業員の接客行動を含むシーン(またはフレーム)を判別し、その結果を出力する(ステップS22)。
【0036】
次に、カウント部12は、解析部11からの出力に基づいて、接客行動を含むと判別された回数(接客回数)をカウントする(ステップS23)。接客回数は、顧客ごとの平均値として出力されてもよい。カウント部12が出力した接客回数は、映像データの補助的情報と対応付けられて、記憶部6に保存される(ステップS24)。
【0037】
ステップS21~ステップS24の手順は、全ての映像データについて繰り返され(ステップS25)、最後の映像データまでの処理が完了すると、集計部13は、記憶部6に保存された映像データの補助的情報と接客回数とを集計する(ステップS26)。
【0038】
図7は、解析部11の処理を表すフローチャートである。図7に示される処理手順は、図6のステップS22に主に対応する。
図7において、特徴量抽出部113は、機械学習モデル116aをモデル記憶部116からRAM3の記憶領域に読み込む(ステップS31)。また、フレーム取得部111は、画像フレーム115aから1つのフレームを切り出し(ステップS32)、時系列の画像フレームの履歴を時刻情報(タイムスタンプ)とともにフレーム記憶部115に記憶する(ステップS33)。
【0039】
次に、前処理部112は、予め設定された数の画像フレームをフレーム記憶部115から取得し、フレーム間のオプティカルフローと勾配とを計算する。そして、計算したオプティカルフロー、勾配、および画像フレームをまとめて、特徴量抽出部113のニューラルネットワークに入力可能な形式に変換して、ベクトルデータを生成する(ステップS34)。
【0040】
次に、特徴量抽出部113は、前処理部112から与えられたベクトルデータをニューラルネットワークに入力し、接客行動に係わる特徴量を抽出する(ステップS35)。行動判定部114は、特徴量抽出部113から出力された特徴量に対して演算処理を行い、テーブルごとに従業員の接客行動が発生しているかの判定結果を出力する(ステップS36)。
【0041】
次に、解析部11は、入力された画像フレームに(または画像フレームに対応する時刻に)接客行動学習タグ情報が付与されているか否かを判定する(ステップS37)。接客行動学習タグ情報は、いわゆるGT(Grand Truth)であり、第1の実施形態においては、映像データを参照しながら人間により与えられるタグ情報である。
【0042】
当該画像フレームに接客行動学習タグ情報が付与されていると(ステップS37でYES)、解析部11は機械学習モデルを更新する(ステップS38)。例えば、ニューラルネットワークからされた予測結果(尤度)と接客行動学習タグ情報との差分から損失関数を求め、逆誤差伝搬法により機械学習モデルを更新することができる。更新された機械学習モデルは、モデル記憶部116に保存される(ステップS38)。そして、ステップS31~ステップS38の手順が、映像データの終点に到達するまで繰り返される(ステップS39)。
【0043】
図8は、映像データから切り出された画像フレームの一例を示す図である。図8(a)に示されるフレームが現れたところで、人間(アナリスト)が「このフレームは(接客)を示している」と判断すると、例えばマウス9(図1)のクリック操作により、接客行動学習タグ情報(GT)が与えられる。そうすると機械学習モデルが更新され、例えば図8(b)の画像フレームが現れると、このフレームの尤度として、例えば0.8といった高いスコアが与えられる。例えば0.5を閾値とすれば、図9(a)のフレームは「接客」としてカウントされることとなる。
【0044】
一方、図9(a)のようなシーンの尤度は0.1、図9(b)のようなシーンの尤度は0.2とする結果が得られるかもしれない。この場合、いずれのフレームも接客とはカウントされないことになる。そして、GTを与える回数を増やしたり、時間の経過とともに機械学習モデルが更新され、「接客」行動の判定確率が高まってゆく。
【0045】
重要な点は、以上の過程において、接客行動に対応する特徴量や行動条件に対応する辞書等を、人手で設計する必要が無かったという点である。つまり第1の実施形態に係わる映像処理装置1によれば、与えられたGTに基づくマシン側の演算処理により、店舗における接客行動が判定され、その精度が高まってゆくこととなる。
【0046】
以上説明したように、第1の実施形態に係わる映像処理装置1では、画像フレーム、フレーム間のオプティカルフロー、勾配の7次元画像、あるいはさらにその時系列データを入力ベクトルとし、畳み込みニューラルネットワークと再帰型ニューラルネットワークを用いたディープラーニングにより、映像データから接客回数をカウントする認識手法を実現することができる。
【0047】
すなわち、7次元の入力により従業員を識別する服の色、接客の動きという時系列要素を考慮した学習を実現できる。また、既存技術のデメリットである、接客の特徴量を抽出し、また辞書の作成に専門家の手間とコストがかかる点を払拭することが可能になる。つまり、従業員の様態や時系列的動作を考慮した3次元的な動作推定を行い、ディープラーニングの学習データに接客行動が発生しているか否かを示すタグ情報を付与するだけで、接客行動の特徴量や辞書を人手で設計をすることなしに、接客回数を集計することが可能となる。ひいては、店舗再訪率向上のためのコンサルティングに活かすことができる。
【0048】
これらのことから、第1の実施形態によれば、煩雑な設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することができる。
【0049】
(第2の実施形態)
第2の実施形態では、自動カウントされた接客回数を、店舗再訪率向上のためのコンサルティングに活かすための技術について説明する。
【0050】
図10は、接客回数に着目したコンサルティングシステムの概念図である、図10において、例えばチェーン展開された店舗ごとの映像データを映像処理装置1に投入し、店舗ごとの接客回数のカウントデータ、および集計データなどを算出する。チェーン店を展開する会社の規模によって店舗数は数百にもおよび、各店舗に設置された画像センサから取得された映像データは膨大な量になる。このようなデータは、いわゆるビッグデータとして映像処理装置1に与えられる。映像処理装置1のビッグデータ解析により得られた結果は、例えばコンサルティング会社の有するサーバに渡され、店舗経営に係わる多様なデータの分析に利用される。
【0051】
第2の実施形態では、KPI(Key Performance Indicator)と称される指標に着目する。KPIは、統計学の分野では古くから知られている指標であり、この実施形態では、カウントされた接客回数を統計的に処理して得られたKPIにより、店舗経営のうえで有益な知見を得ることを考える。
【0052】
サーバ100は、大量の映像データから得られた店舗ごとの接客回数、集計データなどを統計的に処理し、接客回数、再訪率などの指標をKPIとして数値化する。そして、接客回数と、例えば店舗ごとの売り上げなどの指標との関連性を分析する。このようなビッグデータ解析により、例えば、「接客回数の低下が、再訪率の低下を招き、数か月後の売り上げ低迷の予兆として現れる」といった知見を得られる可能性がある。
【0053】
従来の技術では、例えば「店舗ごとの売り上げ」といった、POSレジから得られる売上・客数・商品の出数など、容易に入手可能な会計に係るデータだけが注目され、お客様に対しての接客が行き届いているかなどの「接客回数」や、再来訪率などお客様の行動の変化といった、客観的に評価するのが困難な指標を組み込んだコンサルティングが難しかった。このため、いわゆる現場の感覚的な報告をベースに経営判断を行う、現場主義による短期的な経営分析や、過去の経験則に基づく主観的な判断となり、経営努力が必ずしも成果に結びつくとは言い難い面があった。
【0054】
これに対し第2の実施形態では、「接客回数」をKPIとして数値化し、ビッグデータ解析により、他の指標(売り上げなど)との関連性を見いだすようにした。従って第2の実施形態によれば、従来の感覚に頼った報告に基づく店舗経営ではなく、客観的な指標に基づいて店舗経営のコンサルティングを行うことが可能になり、ひいては、店舗オペレーションの改善に役立てることが可能になる。
【0055】
なお、この発明は上記実施形態に限定されるものではない。
例えば図2において、映像処理に用いるプログラム6aが記憶部6に記憶されているとしたが、これに限定される必要はない。例えば、映像処理装置1が実行するプログラムを、ネットワーク上のサーバ(図示せず)に保持しても良い。この場合、映像処理装置1が映像処理を実行する際に、種々のプログラムがネットワーク上のサーバから映像処理装置1に配信される。そして種々のプログラムを受信した映像処理装置1は、これらのプログラムをRAM3(図1)に展開して、映像処理を実行する。
【0056】
また、実施形態では、ニューラルネットワークにより、画像フレームごとに接客行動の尤度を算出し、閾値判定により接客行動の有無を判別した。これに代えて、閾値以上の尤度を示すフレームに直接、「接客行動」を意味するタグ(フラグデータ)を付加し、タグの数をカウントすることによっても上記と同様の効果を得ることができる。これを実現するためには、解析部11に、店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する機能を持たせ、カウント部12に、タグ付き映像ファイルのタグの数をカウントする機能を持たせ、記憶部6に、カウントされたタグの数を記憶させるようにすればよい。
【0057】
このような構成によれば、「接客行動」タグを付与された映像データ(タグ付き映像ファイル)を自動で生成することが可能になり、コンサルティングの際に顧客に配布できるなどのメリットを得られる。
【0058】
また、図5の説明において、畳み込み特徴量抽出層42に、現在フレームと、それ以前のフレームとを入力する形態を示したが、これに限らず、現在フレームと、それ以前のフレームと、それ以後のフレームとを入力することも、もちろん可能である。なお現在フレームとは、「接客行動」含むか否かの判定の対象とするフレームであって、時間的に現時点でのフレームを意味するものではない。
【0059】
映像データとして記録映像を入力とする場合、例えば、”…、2フレーム前、1フレーム前、現在フレーム、1フレーム後、2フレーム後、…”のように、現在フレームを含む前後期間の時系列データをニューラルネットワークに入力することができる。この場合、時系列情報保存層43は、前時刻と次時刻両方の内部状態ベクトルを保持し、かつ、前と後ろの時刻に現在時刻の内部状態ベクトルを伝えることになる。つまり、“これまでどう動いていて、かつ、これからどう動くと接客なのかを考える”という、計算処理を実現できる。
【0060】
すなわち、メディアデータとして記録された映像データを用いる場合、入力層41から畳み込み特徴量抽出層42に至る計算は、原理的は、全ての時刻について同時に計算することができる。そして、時系列情報保存層43においては、過去と未来から順番に内部状態ベクトルの変化を別々に計算していき、現在時刻に合流したところでそれぞれを演算するという処理手順を実行しても良い。
【0061】
さらに、実施形態では、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークについて説明したが、回帰結合型ニューラルネットワーク、ディープビリーフネットワーク、ディープボルツマンマシン、積層自己符号化器などのニューラルネットワークを適用することも可能である。
【0062】
上記に説明した各装置及びシステムを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、実行処理を行ってもよい。なお「コンピュータシステム」とは、OSや周辺機器等のハードウェアだけに限らず、通信ネットワークおよびクラウドコンピューティングシステムを含むものであってもよい。
【0063】
本発明の実施形態を説明したが、この実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0064】
上記の実施形態の一部または全部は、例えば(付記1)、(付記2)のようにも記載されることができる。しかし、(付記1)、(付記2)の内容に限定されるものではない。 (付記1)
映像データを解析可能なプロセッサと、メモリとを具備し、
前記プロセッサは、
店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別し、 前記接客行動を含むと判別された回数をカウントし、
前記回数を前記メモリに記憶させる、映像処理装置。
【0065】
(付記2)
店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する解析部と、
前記タグ付き映像ファイルの前記タグの数をカウントするカウント部と、
前記カウントされたタグの数を記憶する記憶部とを具備する、映像処理装置。
【符号の説明】
【0066】
1…映像処理装置、2…プロセッサ、3…RAM、4…ROM、5…ディスプレイ、6…記憶部、6a…プログラム、7…I/O部、8…I/F部、9…マウス、11…解析部、12…カウント部、13…集計部、41…入力層、42…畳み込み特徴量抽出層、43…時系列情報保存層、111…フレーム取得部、112…前処理部、113…特徴量抽出部、114…行動判定部、115…フレーム記憶部、115a…画像フレーム、116…モデル記憶部、116a…機械学習モデル、100…サーバ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10