(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027310
(43)【公開日】2024-03-01
(54)【発明の名称】カメラ選択装置、カメラ選択方法、及びカメラ選択プログラム
(51)【国際特許分類】
H04N 23/60 20230101AFI20240222BHJP
【FI】
H04N5/232 220
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022130007
(22)【出願日】2022-08-17
(71)【出願人】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100118049
【弁理士】
【氏名又は名称】西谷 浩治
(72)【発明者】
【氏名】若井 信彦
(72)【発明者】
【氏名】谷 敦史
(72)【発明者】
【氏名】前川 肇
(72)【発明者】
【氏名】森光 有紀
【テーマコード(参考)】
5C122
【Fターム(参考)】
5C122DA21
5C122EA48
5C122FA12
5C122FA18
5C122FH11
5C122GE27
5C122HA48
5C122HA65
5C122HA86
5C122HB01
5C122HB09
5C122HB10
(57)【要約】
【課題】対象ユーザの行動認識に適したカメラを決定する。
【解決手段】カメラ選択装置は、対象ユーザの行動の基となるイベントを示すイベント情報を取得し、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、取得された前記イベント情報に紐づけられ、イベント情報が示すイベントの撮影に適したカメラ特性である基礎カメラ特性を記憶部から取得し、取得した基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを複数のカメラの中から決定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象ユーザの行動の基となるイベントを示すイベント情報を取得するイベント情報取得部と、
特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得するカメラ特性取得部と、
前記イベント情報が紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶する記憶部と、
前記イベント情報取得部により取得された前記イベント情報に紐づけられた基礎カメラ特性を前記記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する決定部と、を備える、
カメラ選択装置。
【請求項2】
前記決定部により決定された前記カメラを示すカメラ情報を出力する出力部をさらに備える、
請求項1記載のカメラ選択装置。
【請求項3】
画像を取得する画像取得部をさらに備え、
前記カメラ特性取得部は、前記画像取得部により取得された前記画像に基づき、前記カメラ特性を推定する、
請求項1又は2記載のカメラ選択装置。
【請求項4】
前記カメラ特性は、前記カメラの光学特性を表すカメラパラメータと、前記カメラの制御に関する性能を示す性能パラメータとを含む、
請求項1又は2記載のカメラ選択装置。
【請求項5】
前記イベント情報取得部は、前記画像取得部により取得された前記画像に基づいて前記対象ユーザの行動を推定し、推定した前記行動を示す行動情報を前記イベント情報として取得する、
請求項3記載のカメラ選択装置。
【請求項6】
前記決定部により決定された前記カメラを起動するカメラ起動部をさらに備える、
請求項1又は2に記載のカメラ選択装置。
【請求項7】
前記イベント情報取得部により推定される前記対象ユーザの前記行動に基づき、前記対象ユーザの前記行動の変化を検出する行動変化検出部をさらに備え、
前記決定部は、前記行動変化検出部により前記行動の変化が検出された場合、前記カメラを決定する処理を実行する、
請求項5記載のカメラ選択装置。
【請求項8】
前記複数のカメラのそれぞれについて、前記対象ユーザの全部又は一部が遮蔽された状態で撮影しているか否かを判定する遮蔽判定部をさらに備え、
前記決定部は、前記遮蔽判定部により前記対象ユーザの全部又は一部が遮蔽されていない状態で撮影すると判定された前記カメラから前記対象ユーザの前記イベントを撮影するためのカメラを決定する、
請求項1又は2記載のカメラ選択装置。
【請求項9】
前記記憶部は、複数のイベント情報のそれぞれに対応する複数の基礎カメラ特性を記憶する、
請求項1又は2記載のカメラ選択装置。
【請求項10】
前記基礎カメラ特性は、優先度が紐づけられた複数のパラメータを含み、
前記カメラ特性取得部が取得する前記複数のカメラ特性は、それぞれ前記複数のパラメータを含み、
前記決定部は、前記優先度が高いパラメータから順番に、1のカメラが決定されるまで、前記基礎カメラ特性と、前記カメラ特性取得部により取得された前記複数のカメラ特性とを比較する処理を実行する、
請求項9記載のカメラ選択装置。
【請求項11】
前記カメラ特性取得部は、
前記画像取得部により取得された前記画像からカメラ座標系における前記対象ユーザの長さを特定し、
前記カメラ座標系における前記対象ユーザの長さに対する前記カメラの世界座標系における前記対象ユーザの長さの比と前記カメラの焦点距離とに基づき、前記世界座標系における前記カメラから前記対象ユーザまでの距離を推定し、
推定した前記距離を前記カメラ特性として取得する、
請求項3記載のカメラ選択装置。
【請求項12】
前記画像からユーザの前記行動を推定する学習済みモデルに前記画像取得部が取得した前記画像を入力することで前記対象ユーザの前記行動を推定する、
請求項5記載のカメラ選択装置。
【請求項13】
カメラ選択装置におけるカメラ選択方法であって、
対象ユーザの行動の基となるイベントを示すイベント情報を取得し、
特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、
取得された前記イベント情報に紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する、
カメラ選択方法。
【請求項14】
カメラ選択装置におけるカメラ選択方法をコンピュータに実行させるカメラ選択プログラムであって、
対象ユーザの行動の基となるイベントを示すイベント情報を取得し、
特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、
取得された前記イベント情報に紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する、処理をコンピュータに実行させる、
カメラ選択プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はユーザの行動認識に適するカメラを選択する技術に関するものである。
【背景技術】
【0002】
近年、インターネットを通じて遠隔地同士を結び、画面を通じて、互いの状況を伝え合うシーンが増大している。このようなシーンとして、例えば、オンライン会議又は講義会場にいなくても自宅若しくは遠隔地などで講義を受講できるオンラインスクールが挙げられる。
【0003】
このようなオンライン環境下では、カメラなどを使って、対象ユーザの動きを適切に遠隔地の人へ伝えることが重要になる。
【0004】
例えば、ダンスのオンラインスクールのイベントにおいて対象ユーザの行動を適切に把握するには対象ユーザの体全体の動きを撮影することが要求される。ピアノ又は習字のオンラインスクールのイベントにおいて対象ユーザの行動を適切に把握するには対象ユーザの手元の動きを撮影することが要求される。このように、対象ユーザの行動を適切に把握するために要求されるカメラのカメラ特性はイベントに応じて異なる。
【0005】
特許文献1は、教師の授業又は学生の学習に対する異常を教師又は学生の画像から特定し、教師の授業又は学生の学習に対する異常が特定された場合、注意メッセージを教師又は学生に提示するオンライン教育のリアルタイム監視方法を開示する。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1では、対象ユーザの行動の基となるイベントが考慮されていないので、対象ユーザの指の動きや体の動きのような行動認識に適したカメラを決定するためには、さらなる改善が要求される。
【0008】
本開示は、このような課題を解決するためになされたものであり、対象ユーザの行動認識に適したカメラを決定する技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本開示の一態様におけるカメラ選択装置は、対象ユーザの行動の基となるイベントを示すイベント情報を取得するイベント情報取得部と、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得するカメラ特性取得部と、前記イベント情報が紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶する記憶部と、前記イベント情報取得部により取得された前記イベント情報に紐づけられた基礎カメラ特性を前記記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する決定部と、を備える。
【発明の効果】
【0010】
本開示によれば、特定エリアに設置されたカメラから、対象ユーザの行動の基となるイベントに応じて対象ユーザの行動認識に適したカメラを決定することができる。
【図面の簡単な説明】
【0011】
【
図1】本開示の実施の形態1におけるカメラ選択システムの全体構成の一例を示すブロック図である。
【
図2】カメラ選択装置の処理の一例を示すフローチャートである。
【
図3】本開示の実施の形態2におけるカメラ選択システムの全体構成の一例を示すブロック図である。
【
図4】カメラが選択されるシーンの一例を示す図である。
【
図5】動作情報データベースのデータ構成の一例を示す図である。
【
図6】本開示の実施の形態2におけるカメラ選択装置の処理の一例を示すフローチャートである。
【
図7】カメラ決定処理の詳細を示すフローチャートである。
【
図8】本開示の実施の形態3におけるカメラ選択システムの構成の一例を示すブロック図である。
【
図9】カメラが起動されるシーンの一例を示す図である。
【
図10】本開示の実施の形態4におけるカメラ選択システムの構成の一例を示すブロック図である。
【
図11】本開示の実施の形態5におけるカメラ選択システムの構成の一例を示すブロック図である。
【
図12】遮蔽判定部が推定する骨格点を含む骨格情報の一例を示す図である。
【発明を実施するための形態】
【0012】
(本開示の基礎となる知見)
近年、スマートフォン、タブレット型コンピュータ、ノートパソコン、カメラ付きスマートスピーカー、及び宅内ペットカメラ等、様々な宅内の機器にカメラが取り付けられている。これらのカメラは宅内の行動認識に利用できるが、これらのカメラの視野角及び設置位置は多様であり、目的に応じてユーザがカメラの起動及び終了を操作する。上述の宅内のカメラは、ネットワーク接続を利用した複数台の監視カメラと異なり、目的に応じて適切に選択し、起動していない場合、ユーザにカメラの起動を指示する必要がある。
【0013】
従来のカメラ選択手法は、監視などの単一用途を前提としたカメラ選択方法であり、目的とする人が撮影されているカメラを選択する処理が一般的である。したがって、従来のカメラ選択手法は、複数のカメラで一人又は単一グループを撮影可能な状況下において、ユーザの行動に応じて最適なカメラを選択することができないという課題がある。
【0014】
一方、通信容量の増大を避けるため、複数のカメラの全ての情報を転送することは実用的ではない。特に、住宅内において、設置位置又は性能等のカメラ特性が異なる複数のカメラが設置されている場合、複数のカメラの全ての情報を転送するのではなく、ユーザの行動の撮影に適したカメラ特性を有するカメラの情報を転送すれば十分である。したがって、従来のカメラ選択手法はユーザの行動を認識する用途においては不十分である。
【0015】
そこで、本発明者は、ユーザの行動の基となるイベントを把握し、そのイベントに応じてユーザの撮影に適したカメラを選択すればユーザの行動を適切に認識できるとの知見を得て、以下に示す本開示の各態様を想到するに至った。
【0016】
(1)本開示の一態様におけるカメラ選択装置は、対象ユーザの行動の基となるイベントを示すイベント情報を取得するイベント情報取得部と、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得するカメラ特性取得部と、前記イベント情報が紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶する記憶部と、前記イベント情報取得部により取得された前記イベント情報に紐づけられた基礎カメラ特性を前記記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する決定部と、を備える。
【0017】
この構成によれば、特定エリアに存在する複数のカメラの中から、ユーザの行動の基となるイベントの撮影に適した基礎カメラ特性と同一又は類似するカメラ特性を有するカメラが決定される。そのため、特定エリアに設置された複数のカメラの中から対象ユーザの行動認識に適したカメラを決定することができる。また、行動認識に適したカメラが決定されるので、全てのカメラの画像を転送する場合に比べて、効率よくカメラの画像を転送できる。
【0018】
(2)上記(1)記載のカメラ選択装置において、前記決定部により決定された前記カメラを示すカメラ情報を出力する出力部をさらに備えてもよい。
【0019】
この構成によれば、複数のカメラの中から決定されたカメラを示すカメラ情報が出力されるので、決定されたカメラに対象ユーザを撮影させることを容易に実現できる。
【0020】
(3)上記(1)又は(2)記載のカメラ選択装置において、画像を取得する画像取得部をさらに備え、前記カメラ特性取得部は、前記画像取得部により取得された前記画像に基づき、前記カメラ特性を推定してもよい。
【0021】
この構成によれば、取得された画像を画像処理することによりカメラ特性を推定できる。
【0022】
(4)上記(1)~(3)のいずれか1つに記載のカメラ選択装置において、前記カメラ特性は、前記カメラの光学特性を表すカメラパラメータと、前記カメラの制御に関する性能を示す性能パラメータとを含んでもよい。
【0023】
この構成によれば、カメラ特性は、カメラの光学特性を表すカメラパラメータと、カメラの性能を示す性能パラメータとを含むので、イベントの撮影に適したカメラ特性を有するカメラをより正確に決定できる。
【0024】
(5)上記(1)~(4)のいずれか1つに記載のカメラ選択装置において、前記イベント情報取得部は、前記画像取得部により取得された前記画像に基づいて前記対象ユーザの行動を推定し、推定した前記行動を示す行動情報を前記イベント情報として取得してもよい。
【0025】
この構成によれば、取得された画像を画像処理することによりイベント情報を取得することができる。
【0026】
(6)上記(1)~(5)のいずれか1つに記載のカメラ選択装置において、前記決定部により決定された前記カメラを起動するカメラ起動部をさらに備えてもよい。
【0027】
この構成によれば、決定されたカメラが起動していなくても当該カメラを起動させて、当該カメラにユーザのイベントを撮影させることができる。
【0028】
(7)上記(1)~(6)のいずれか1つに記載のカメラ選択装置において、前記イベント情報取得部により推定される前記対象ユーザの前記行動に基づき、前記対象ユーザの前記行動の変化を検出する行動変化検出部をさらに備え、前記決定部は、前記行動変化検出部により前記行動の変化が検出された場合、前記カメラを決定する処理を実行してもよい。
【0029】
この構成によれば、行動の変化が検出された場合にカメラを決定する処理が実行されるので、カメラを決定する処理を効率良く実施できる。
【0030】
(8)上記(1)~(7)のいずれか1つに記載のカメラ選択装置において、前記複数のカメラのそれぞれについて、前記対象ユーザの全部又は一部が遮蔽された状態で撮影しているか否かを判定する遮蔽判定部をさらに備え、前記決定部は、前記遮蔽判定部により前記対象ユーザの全部又は一部が遮蔽されていない状態で撮影すると判定された前記カメラから前記対象ユーザの前記イベントを撮影するためのカメラを決定してもよい。
【0031】
この構成によれば、対象ユーザの全部又は一部を非遮蔽状態で撮影するカメラの中から対象ユーザのイベントを撮影するカメラが決定されるので、対象ユーザのイベントを正確に撮影できるカメラを決定できる。
【0032】
(9)上記(1)~(8)のいずれか1つに記載のカメラ選択装置において、前記記憶部は、複数のイベント情報のそれぞれに対応する複数の基礎カメラ特性を記憶してもよい。
【0033】
この構成によれば、様々なイベントに応じて撮影に適したカメラを決定できる。
【0034】
(10)上記(1)~(9)のいずれか1つに記載のカメラ選択装置において、前記基礎カメラ特性は、優先度が紐づけられた複数のパラメータを含み、前記カメラ特性取得部が取得する前記複数のカメラ特性は、それぞれ前記複数のパラメータを含み、前記決定部は、前記優先度が高いパラメータから順番に、1のカメラが決定されるまで、前記基礎カメラ特性と、前記カメラ特性取得部により取得された前記複数のカメラ特性とを比較する処理を実行してもよい。
【0035】
この構成によれば、複数のカメラ特性と基礎カメラ特性とにおいて、優先度が高い順にパラメータ同士が比較されているので、複数のパラメータを一度に処理対象とする場合に比べて複数のカメラから1のカメラを決定する処理を効率よく実行できる。
【0036】
(11)上記(1)~(10)のいずれか1つに記載のカメラ選択装置において、前記カメラ特性取得部は、前記画像取得部により取得された前記画像からカメラ座標系における前記対象ユーザの長さを特定し、前記カメラ座標系における前記対象ユーザの長さに対する前記カメラの世界座標系における前記対象ユーザの長さの比と前記カメラの焦点距離とに基づき、前記世界座標系における前記カメラから前記対象ユーザまでの距離を推定し、推定した前記距離を前記カメラ特性として取得してもよい。
【0037】
この構成によれば、画像からカメラ座標系における対象ユーザの長さと、世界座標系における対象ユーザの長さの比とカメラの焦点距離とに基づき、カメラから対象ユーザまでの世界座標系における距離が推定され、推定された距離がカメラ特性として取得される。そのため、カメラから対象ユーザまでの距離を考慮に入れてイベントの撮影に適したカメラを決定できる。
【0038】
(12)上記(1)~(11)のいずれか1つに記載のカメラ選択装置において、前記画像からユーザの前記行動を推定する学習済みモデルに前記画像取得部が取得した前記画像を入力することで前記対象ユーザの前記行動を推定してもよい。
【0039】
この構成によれば、画像からユーザの行動を推定する学習済みモデルに画像を入力することで対象ユーザの行動が推定されているので、対象ユーザの行動を精度よく推定できる。
【0040】
(13)本開示の別の一態様におけるカメラ選択方法は、カメラ選択装置におけるカメラ選択方法であって、対象ユーザの行動の基となるイベントを示すイベント情報を取得し、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、取得された前記イベント情報に紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラから決定する。
【0041】
この構成によれば、上記カメラ選択装置と同様の作用効果が得られるカメラ選択方法を提供できる。
【0042】
(14)本開示のさらに別の一態様におけるカメラ選択プログラムは、カメラ選択装置におけるカメラ選択方法をコンピュータに実行させるカメラ選択プログラムであって、対象ユーザの行動の基となるイベントを示すイベント情報を取得し、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、取得された前記イベント情報に紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する、処理をコンピュータに実行させる。
【0043】
この構成によれば、上記カメラ選択装置と同様の作用効果が得られるカメラ選択プログラムを提供できる。
【0044】
(15)本開示のさらに別の一態様における記録媒体は、カメラ選択装置におけるカメラ選択方法をコンピュータに実行させるカメラ選択プログラムを記録するコンピュータ読み取り可能な非一時的な記録媒体であって、対象ユーザの行動の基となるイベントを示すイベント情報を取得し、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得し、前記イベント情報取得部により取得された前記イベント情報に紐づけられ、前記イベント情報が示す前記イベントの撮影に適した前記カメラ特性である基礎カメラ特性を記憶部から取得し、取得した前記基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを前記複数のカメラの中から決定する、処理をコンピュータに実行させる。
【0045】
本開示は、このようなカメラ選択プログラムによって動作するカメラ選択システムとして実現することもできる。また、このようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【0046】
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
【0047】
(実施の形態1)
図1は、本開示の実施の形態1におけるカメラ選択システム10の全体構成の一例を示すブロック図である。カメラ選択システム10は、カメラ選択装置1、第1カメラ2、及び第2カメラ3を含む。第1カメラ2及び第2カメラ3は、行動の認識対象となる対象ユーザの行動を撮影するための撮影装置である。第1カメラ2及び第2カメラ3は、対象ユーザが居住する宅内に設置された固定カメラが該当するが、その態様は特に限定されない。第1カメラ2及び第2カメラ3は、所定のフレームレートで対象ユーザを撮影し、撮影した画像を所定のフレームレートでカメラ選択装置1に入力する。なお、
図1では、説明を簡単にするために、カメラ選択システム10は第1カメラ2及び第2カメラ3の2台のカメラを備えているものとして説明するが、カメラ選択システム10が備えるカメラの台数は3台以上であっても良い。
【0048】
このように、第1カメラ2及び第2カメラ3は、それぞれ、対象ユーザを連続的に撮影し、撮影した画像をカメラ選択装置1に連続的に入力する。対象ユーザを連続的に撮影すると、例えば、対象ユーザがオンラインで習字を習う場合において、経時的に変化する筆の運び等の対象ユーザの動作を追跡しながら、習字をする対象ユーザの撮影に適したカメラを決定することができる。ただし、画像の通信容量を減らすために、第1カメラ2及び第2カメラ3は、対象ユーザを連続的に撮影せず、撮影しない時間を含むように対象ユーザを撮影してもよい。
【0049】
カメラ選択装置1は、対象ユーザの行動の基となるイベントに応じて適切なカメラを決定するための装置である。カメラ選択装置1は、プロセッサ11、メモリ12(記憶部)、及びインターフェイス回路(図略)を含むコンピュータで構成されている。
【0050】
プロセッサ11は、ユーザが行うイベントの撮影に適切なカメラを決定する処理を実行するハードウェアであり、例えば中央演算処理装置である。プロセッサ11は、イベント情報取得部111、カメラ特性取得部112、決定部113、及び出力部114を含む。イベント情報取得部111~出力部114は中央演算処理装置がカメラ選択プログラムを実行することで実現されてもよいし、ASIC等の専用のハードウェア回路で構成されてもよい。
【0051】
図1では、カメラ選択装置1のプロセッサ11がイベント情報取得部111~出力部114を備えているが、本開示はこれに限定されず、イベント情報取得部111~出力部114の一部はカメラ選択装置1とは異なる装置に実装されていてもよい。また、動作情報データベース121は、カメラ選択装置1が備えているが、カメラ選択装置1とは異なる装置に実装されていてもよい。カメラ選択装置1は、対象ユーザの宅内に設置されたエッジコンピュータで構成されていてもよいし、クラウドサーバで構成されていてもよい。
【0052】
イベント情報取得部111は、対象ユーザの行動の基となるイベントを示すイベント情報を取得する。対象ユーザの行動の基となるイベントとは、対象ユーザの行動が引き起こされる要因(基)となるイベントを示す。イベントは、例えば対象ユーザがオンライン環境下で行う習い事及びオンライン会議である。習い事は、例えば、ダンス、習字、楽器演奏、フラワーアレンジメント、茶道、そろばん、塾等である。楽器演奏は例えばバイオリンの演奏、ピアノの演奏等である。
【0053】
イベント情報取得部111は、例えば入力装置(図略)を用いて対象ユーザにイベント情報を入力させることでイベント情報を取得してもよい。或いは、イベント情報取得部111は、対象ユーザのイベントの予定を記憶するカレンダー情報から、対象ユーザがこれから開始するイベントを特定し、特定したイベントを示すイベント情報をカレンダー情報から読み出すことで、イベント情報を取得してもよい。或いは、イベント情報取得部111は、後述の実施の形態2で説明するように、第1カメラ2又は第2カメラ3が撮影した画像から対象ユーザの行動を推定し、推定した行動を示す行動情報をイベント情報として取得してもよい。
【0054】
カメラ特性取得部112は、特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得する。特定エリアは、対象ユーザがイベントを実行するエリアを示し、例えば対象ユーザが住む宅内の区画(例えば部屋)が該当する。例えば、カメラ特性取得部112は、第1カメラ2又は第2カメラ3が撮影した画像に対象ユーザが含まれていることを検出した場合、第1カメラ2又は第2カメラ3が設置されている宅内の区画を特定エリアとして決定し、決定した特定エリアに設置された全てのカメラのカメラ特性を取得する。
【0055】
例えば、メモリ12は、第1カメラ2及び第2カメラ3のそれぞれについて、カメラIDと設置された特定エリアを示すエリアIDとが予め対応付けられたカメラ設置情報(図略)を記憶する。
【0056】
カメラ特性取得部112は、このカメラ設置情報を参照することで、対象ユーザが写る画像を撮影したカメラが設置された特定エリアを決定すると共に、決定した区画に設置された複数のカメラを特定すればよい。ここでは、特定エリアに第1カメラ2及び第2カメラ3が設置されているものとする。この場合、カメラ特性取得部112は、特定エリアに設置された複数のカメラである第1カメラ2及び第2カメラ3のそれぞれのカメラ特性を取得する。カメラ特性は、例えばカメラのスペックが該当する。例えば、カメラ特性取得部112は、第1カメラ2及び第2カメラ3のそれぞれが撮影した画像に付随するメタ情報からカメラスペックを推定すればよい。なお、特定エリアにおいて、第1カメラ2及び第2カメラ3以外にもカメラが設置されている場合は、このカメラについてもカメラ特性を取得すればよい。すなわち、カメラ特性取得部112は、特定エリアに設置された出来るだけ多くのカメラのカメラ特性を取得することが好ましい。これにより、カメラの選択肢が増える結果、イベントを基に行動する対象ユーザを撮影する上でより適切なカメラを決定することができる。
【0057】
決定部113は、イベント情報取得部111により取得されたイベント情報に紐づけられた基礎カメラ特性を動作情報データベース121から取得し、取得した基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを第1カメラ2及び第2カメラ3の中から決定する。
【0058】
メモリ12は、例えばフラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブ等の不揮発性の書き換え可能な記憶装置である。インターフェイス回路とは、データの入出力機構のことであり、例えば、通信回路である。
【0059】
メモリ12は、動作情報データベース121を記憶する。動作情報データベース121は、イベント情報と、イベント情報が示すイベントの撮影に適したカメラ特性である基礎カメラ特性とが対応付けられた基礎カメラ特性情報を記憶する。動作情報データベース121は、1又は複数の基礎カメラ特性情報を記憶する。
【0060】
出力部114は、決定部113により決定されたカメラを示すカメラ情報を出力する。カメラ情報は、カメラの識別子であってもよいし、カメラの制御情報であってもよいし、対象ユーザにカメラの切り替えを促す通知であってもよい。カメラの識別子は、対象ユーザがカメラを区別できる情報であればよく、例えば、ユーザが付けた宅内におけるカメラの番号であってもよいし、カメラの機器名称、型番、製品シリアル番号であってもよい。
【0061】
カメラの制御情報は例えば、動作していないカメラを起動するための起動コマンドであってもよいし、カメラの向きを調整するための調整コマンドであってもよい。また、カメラの制御情報は、対象ユーザを撮影するカメラを決定されたカメラに自動的に切り替える切替コマンドであってもよい。
【0062】
カメラ情報がカメラの識別子の場合、カメラ情報の出力先は、例えば対象ユーザの端末である。カメラ情報がカメラの制御情報の場合、カメラ情報の出力先は、例えばカメラである。対象ユーザの端末は、スマートフォン及びタブレット型コンピュータ等の携帯情報端末であってもよいし、デスクトップ型コンピュータであってもよい。
【0063】
以上がカメラ選択システム10の構成である。引き続いて、カメラ選択装置1の動作について説明する。
図2は、カメラ選択装置1の処理の一例を示すフローチャートである。
【0064】
(ステップS11)
イベント情報取得部111は、上述の手法を用いてイベント情報を取得する。
【0065】
(ステップS12)
カメラ特性取得部112は、対象ユーザが存在する特定エリアを検出する。例えば、カメラ特性取得部112は、第1カメラ2又は第2カメラ3の画像に対象ユーザが含まれていることを検出した場合、メモリ12に記憶されたカメラ設置情報を参照することで第1カメラ2又は第2カメラ3が設置された宅内の区画を特定エリアとして検出する。
【0066】
(ステップS13)
カメラ特性取得部112は、ステップS12で検出された特定エリアに設置された複数のカメラのそれぞれのカメラ特性を取得する。ここでは、特定エリアには第1カメラ2及び第2カメラ3が設置されているので、カメラ特性取得部112は、第1カメラ2及び第2カメラ3のそれぞれのカメラ特性を取得する。
【0067】
(ステップS14)
決定部113は、ステップS11で取得されたイベント情報に紐づけられた基礎カメラ特性を動作情報データベース121から取得し、取得した基礎カメラ特性と同一又は類似するカメラ特性を有するカメラを決定する。ここでは、第1カメラ2及び第2カメラ3の中から基礎カメラ特性と同一又は類似するカメラ特性を有するカメラが決定される。
【0068】
(ステップS15)
出力部114は、決定部113により決定されたカメラのカメラ情報を決定されたカメラ又は対象ユーザの端末に出力する。これにより、決定されたカメラにより対象ユーザが撮影される。
【0069】
このように実施の形態1によれば、特定エリアに存在する複数のカメラの中から、ユーザの行動の基となるイベントの撮影に適した基礎カメラ特性と同一又は類似するカメラ特性を有するカメラが決定され、そのカメラを用いて対象ユーザが撮影される。そのため、特定エリアに設置された複数のカメラの中から対象ユーザの行動認識に適したカメラを決定できる。
【0070】
(実施の形態2)
実施の形態2は、画像に基づきカメラ特性を推定すると共に画像に基づきイベント情報を推定するものである。
図3は、本開示の実施の形態2におけるカメラ選択システム10Aの全体構成の一例を示すブロック図である。
【0071】
なお、実施の形態2において実施の形態1と同一の構成要素については同一の符号を付し、説明を省略する。
【0072】
カメラ選択装置1Aのプロセッサ11Aは、画像取得部115、イベント情報取得部111A、及びカメラ特性取得部112Aを更に備え、カメラ選択装置1Aのメモリ12はフレームメモリ122を更に備える。
【0073】
画像取得部115は、第1カメラ2及び第2カメラ3のそれぞれが撮影した画像を取得し、取得した画像をフレームメモリ122に入力する。ここで、画像取得部115は、第1カメラ2及び第2カメラ3のそれぞれが撮影した画像を所定のフレームレートで取得する。
【0074】
フレームメモリ122は、画像取得部115が第1カメラ2及び第2カメラ3から取得した画像を記憶する。
【0075】
カメラ特性取得部112Aは、カメラ特性推定部117を含む。カメラ特性推定部117は、フレームメモリ122から読み出した画像に基づき、カメラ特性を推定する。ここでは、特定エリアに設置された第1カメラ2及び第2カメラ3のそれぞれのカメラ特性が推定される。
【0076】
カメラ特性は、カメラパラメータと性能パラメータとを含む。カメラパラメータは、カメラの光学特性を表すパラメータである。性能パラメータは、カメラの制御に関する性能を示すパラメータである。
【0077】
カメラ特性推定部117は、画像に付随するメタ情報(例えば、Exchangeable image file format)に基づいてカメラパラメータを推定すればよい。メタ情報には、焦点距離、画像解像度、視野角、及びレンズの性能等が記載されているので、カメラ特性推定部117は、これらの焦点距離、画像解像度、視野角、及びレンズ性能の少なくとも1つをカメラパラメータとして推定すればよい。視野角はカメラに有効に光が入る範囲を示す。レンズ性能はカメラの内部パラメータである。
【0078】
性能パラメータは、例えばカメラのフレームレートを含む。カメラ特性推定部117は、カメラ特性推定部117に入力される1秒あたりの画像枚数からフレームレートを算出すればよい。
【0079】
カメラパラメータは世界座標系を画像座標系に投影する投影パラメータを含んでもよい。
【0080】
【0081】
式(1)は投影パラメータを示す。投影パラメータはカメラの外部パラメータとカメラの内部パラメータとを含む。行列内のγは関数Γで表される。関数Γは、レンズ歪を表す投影関数であり、例えば、ηに関する5次の多項式である。dxは画像の水平方向の画素のピッチを示し、dyは画像の垂直方向の画素のピッチを示す。(X、Y、Z)は世界座標系の任意の位置を示し、(x、y)は画像座標系の任意の位置を示す。(Cx、Cy)はカメラの主点画像座標(例えば画像の中心座標)である。3行3列で表されるr11~r33の9つの行列成分は世界座標系におけるカメラの回転を表す。Tx、Ty、Tzの行列成分は、世界座標系におけるカメラの並進を表す。式(1)において、(dx、dy)、(Cx、Cy)、及び関数Γの係数はカメラの内部パラメータであり、予めメモリ12に記憶されている。式(1)において、r11~r33、Tx~Tzはカメラの外部パラメータである。r11~r33は、カメラが撮影した画像から推定されるカメラの回転角(ロール角、チルト角、及びパン角)から算出できる。ロール角、チルト角、及びパン角の推定方法は後述する。Tx~Tyは予めメモリ12に記憶されている。
【0082】
カメラパラメータは、さらにカメラから対象ユーザまでの距離Zを含んでもよい。カメラから対象ユーザまでの距離Zは、対象ユーザのイメージセンサ(画像座標系)における大きさから推定できる。例えば、歪みのないレンズの場合、対象ユーザのイメージセンサ上での長さrは、距離Zの逆数(1/Z)と、焦点距離fとに比例する。そのため、三次元空間中(世界座標系)における対象ユーザの長さをL(例えば、対象ユーザの身長:1700mm)と、イメージセンサのピッチd(1画素あたりの長さ)が既知の場合、カメラ特性推定部117は、距離Zを算出できる。
【0083】
ここでは、対象ユーザの三次元空間での長さLについて、イメージセンサ上での長さrは透視投影により式(2)で表される。
【0084】
r=fL/Z (2)
また、イメージセンサを正方形と見なし、イメージセンサにおける長さrの画素数をaとすると、式(3)が成り立つ。
【0085】
a=r/d (3)
式(2)に式(3)を代入すると式(4)が得られる。
【0086】
Z=fL/ad (4)
ここで、焦点距離f、ピッチd、長さLは既知である。したがって、カメラ特性推定部117は、画像から検出した長さrに基づいて、距離Zを算出できる。
【0087】
具体的には、カメラ特性推定部117は、人物検出処理により画像から対象ユーザを検出し、検出した対象ユーザのイメージセンサにおける長さrを特定し、長さrを既知のピッチdで割ることで画素数aを算出する(式(3))。そして、カメラ特性推定部117は、算出した画素数aとピッチdと焦点距離fと長さLとを式(4)に代入し距離Zを算出すればよい。
【0088】
カメラパラメータは、世界座標系におけるカメラの回転角を含んでもよい。カメラの回転角は、光軸回りのカメラの回転角であるロール角と、上下方向のカメラの回転角であるチルト角と、水平方向のカメラの回転角であるパン角とを更に含んでもよい。
【0089】
対象ユーザの上半身の向きが地面に対して垂直であると仮定すると、カメラ特性推定部117は、カメラが撮影した画像から対象ユーザの骨格点を推定し、推定した骨格点から画像上における対象ユーザの上半身の方向ベクトルを算出する。そして、カメラ特性推定部117は、算出した方向ベクトルと画像のx軸(水平軸)とのなす角度をロール角として推定すればよい。
【0090】
チルト角は画像中に現れる水平線(例えば床と壁の境界線)から推定可能である。宅内等を撮影した画像においては床と壁との境界線が明に現れない場合がある。この場合、カメラ特性推定部117は、画像から予め定められた目印となる水平線を有する物体を検出することで、チルト角を推定すればよい。目印となる物体は例えば窓枠である。チルト角が上向きに増大するにつれて、カメラは上向きになるので、水平線は画像下部(y座標の下側)にずれる。一方、チルト角が下向きに増大するにつれて、カメラは下向きになるので、水平線は画像上部(y座標の上側)にずれる。したがって、カメラ特性推定部117は、検出した水平線のy座標(垂直軸)の値からチルト角を推定できる。例えば、チルト角にずれがない場合の水平線の画像中のy座標の値y0が既知とすると、カメラ特性推定部117は、画像から検出した水平線のy座標の値y1と値y0との差からチルト角を推定すればよい。
【0091】
パン角は画像中に現れる垂直線(例えば、正面の壁と側面の壁との境界線)から推定可能である。パン角が右向きに増大するにつれて、カメラは右向きになるので、垂直線は画像左側にずれる。一方、パン角が左向きに増大するにつれて、カメラは左向きになるので、垂直線は画像右側にずれる。したがって、カメラ特性推定部117は、画像から検出した垂直線のx座標の値からパン角を推定できる。例えば、パン角の基準となるx座標の値をx0とすると、カメラ特性推定部117は、画像から検出した垂直線のx座標の値x1と値x0との差からパン角を推定すればよい。
【0092】
なお、カメラ特性推定部117は、ディープニューラルネットワーク等の機械学習手法を用いて事前に学習された学習済みモデルを用いて1枚の画像からチルト角とロール角とを推定してもよい。この学習済みモデルは、例えば、チルト角及びロール角が既知の画像を学習データとして用いて、画像からチルト角及びロール角を推論する機械学習を行うことで作成されたものである。また、カメラ特性推定部117は、焦点距離等のカメラパラメータについても、ディープニューラルネットワーク等の機械学習手法を用いて事前に学習された学習済みモデルを用いて推定しても良い。
【0093】
上記より、カメラ特性推定部117は、レンズ性能、画像解像度、フレームレート、距離Z、カメラの回転角を推定する。なお、世界座標系の定義、カメラの回転角の取り方(回転角の正の方向)はカメラ選択システム10内において統一されていれば良く、特定の定義に限定されない。また、上記の計算方法は一例であり、世界座標系と画像座標系との位置関係が対応付けられた長さが0でない対応点を検出することで、距離Zを算出してもよい。これにより、スケールの不定性が消失し、対象ユーザとカメラとの絶対距離が算出できる。
【0094】
イベント情報取得部111Aは、行動推定部116を含む。行動推定部116は、画像取得部115により取得された画像をフレームメモリ122から取得し、取得した画像に基づいて対象ユーザの行動を推定する。具体的には、行動推定部116は、画像取得部115により取得された対象ユーザを含む画像をフレームメモリ122から取得し、取得した画像を学習済みモデルに入力することで対象ユーザの行動を推定する。学習済みモデルは、行動中の人物を含む画像とその人物の行動を示す行動ラベルとを含む多数のデータセットを機械学習することにより作成された機械学習モデルである。機械学習の手法は、例えばディープラーニングである。なお、行動推定部116は、画像から対象ユーザの骨格座標を推定し、推定した骨格座標を学習済みモデルに入力することで、対象ユーザの行動を推定してもよい。
【0095】
決定部113は、カメラ特性推定部117が推定したカメラ特性と、行動推定部116が推定した行動と、動作情報データベース121に記憶されている基礎カメラ特性情報とに基づき、特定エリアに設置された複数のカメラの中から行動認識に適するカメラを1以上選択する。以降、説明を簡単にするため、決定部113は、行動認識に適する1台のカメラを選択する場合を例にして説明するが、2台以上のカメラを選択しても良い。例えば、対象ユーザが大容量の通信を許容する場合、決定部113は、1台目のカメラを決定後、1台目を除き再度カメラ選択することで、2台目のカメラを決定すればよい。また、対象ユーザがさらに大容量の通信を許容する場合、決定部113は、3台目以降のカメラも2代目のカメラと同様に決定すればよい。すなわち、決定部113は、同時に2台以上のカメラを決定する機能を有していなくても、最適な1台のカメラを決定できる機能を有していれば良い。なお、決定部113は、特定エリアに設置された複数のカメラのそれぞれについて認識に適するか否かを示す数値である適合度を算出し、適合度の降順に複数のカメラをソートし、上位から所定順位までのカメラを選択しても良い。適合度については後述する。
【0096】
フレームごとにカメラを選択して切り替える必要はない。そのため、決定部113は、対象ユーザが撮影された直後(例えば、1分間)、又は一定時間ごと(例えば、5分間ごと)にカメラを選択する処理を実行すれば良い。また、決定部113は、フレームごとにカメラを選択する処理を実行し、一定区間(例えば、1分間)の選択結果を一時的にメモリ12に記憶し、一定区間における選択結果が最頻値を有するカメラを行動認識に適したカメラとして決定してもよい。このように最頻値に基づいてカメラを決定することにより、少数の誤判定結果に影響されなくなり、行動認識に適したカメラの判定精度が向上する。
【0097】
以下、決定部113がカメラを選択するシーンについて説明する。
図4は、カメラが選択されるシーンの一例を示す図である。
図4の例では、第1カメラ2、第2カメラ3、及びカメラ選択装置1Aは対象ユーザの宅内に設置されている。なお、第1カメラ2及び第2カメラ3とカメラ選択装置1Aとは有線で接続されていてもよいし、無線で接続されていてもよい。第1カメラ2及び第2カメラ3の電源はONされている。
【0098】
カメラ選択装置1Aは第1カメラ2又は第2カメラ3からの画像と動作情報データベース121に記憶された基礎カメラ特性情報とに基づき、行動認識に適するカメラを決定し、ユーザ端末400に決定したカメラの識別子を含むカメラ情報を送信する。カメラ情報を受信したユーザ端末400は、カメラ情報に含まれるカメラの識別子を表示する。これにより、カメラ選択装置1Aは、どのカメラに切り替えるべきかを対象ユーザに通知できる。
【0099】
図5は、動作情報データベース121のデータ構成の一例を示す図である。動作情報データベース121はイベント情報と、イベント情報が示すイベントにおける対象ユーザの行動認識に要求される基礎カメラ特性とを関連付けた1以上の基礎カメラ特性情報を記憶する。基礎カメラ特性は、カメラパラメータ及び性能パラメータを含む。カメラパラメータは、カメラパラメータに含まれる複数の項目のそれぞれについて、条件と優先度とを含む。性能パラメータは性能パラメータの項目に対する条件と優先度とを含む。優先度は1が最も高い。カメラパラメータは、例えば、視野角、チルト角、画像解像度、距離等の項目を含む。性能パラメータは、例えばフレームレートのパラメータ要素の項目を含む。視野角は決定部113がカメラから取得される。
【0100】
カメラパラメータの項目に対する条件はイベント情報に応じて異なる。例えば、イベント情報「料理」については、カメラパラメータの項目に対する条件は「視野角:100°以上」、「チルト角:-50°~-10°」、「画像解像度:1280×960以上」、「距離:1m以上」であり、性能パラメータの項目に対する条件は「フレームレート:10fps」である。距離は対象ユーザからカメラまでの上述の距離Zである。
【0101】
カメラパラメータの項目に対する条件の優先度はイベント情報に応じて異なる。例えば、「視野角」の優先度は、イベント情報「料理」では「1」であるが、イベント情報「ギター演奏」では「3」である。
【0102】
カメラパラメータ及び性能パラメータの項目に対する条件は連続値の範囲で指定されてもよいし、機能の有無を示す二値又は多値であってもよい。機能の有無は、例えば、オートフォーカスの有無であってもよい。
【0103】
なお、カメラ特性推定部117により推定されたカメラ特性が視野角のみの場合、決定部113は、チルト角等の他の項目に関する条件を判定できない。この場合、決定部113は、視野角のみ用いてカメラを選択すればよい。また、カメラ特性推定部117により推定されたカメラ特性の項目が0の場合、決定部113は、無作為にカメラを選択してもよいし、デフォルトで設定されるカメラが予め定められている場合はデフォルトのカメラを選択すればよい。
【0104】
イベント情報が料理とギター演奏(弦を押さえる指の動きを捉える)との場合を例として動作情報データベース121について説明する。料理の場合、キッチン全体を広く撮影するために視野角を大きくとることが要求されるので、視野角の優先度は「1」が設定されている。一方、ギター演奏の場合、弦を抑える速い指の動きを捉えるためにはフレームレートが重要であるので、フレームレートの優先度は「1」が設定されている。また、料理の場合、まな板等を撮影するためにチルト角を下向きにとることが要求されるので、チルト角は-50°~-10°に設定されている。なお、チルト角は水平が0°、上方が正、下方が負である。一方、ギター演奏の場合、チルト角は水平方向かやや下向きが弦を抑える指を捉えることが要求されるので、チルト角は-30°~0°に設定されている。さらに、料理の場合、対象ユーザの行動範囲が広いので視野角を広くすることが要求され、詳細な食材等を撮影するために画像解像度を高く設定することが要求されるので、視野角は100°以上に設定され、画像解像度は1280×960以上に設定されている。一方、ギター演奏の場合、部屋全体を広く撮影する必要がなく料理に比べると高い画像解像度は要求されないので、視野角は60°以上に設定され、画像解像度は720×480に設定されている。このように、行動認識に必要なカメラ特性は行動の基となるイベントごとに異なる。なお、カメラ特性の値はユーザが入力してもよいし、システム管理側が入力してもよい。
【0105】
次に、カメラ選択システム10Aの動作について説明する。
図6は、本開示の実施の形態2におけるカメラ選択装置1Aの処理の一例を示すフローチャートである。
【0106】
(ステップS1)
画像取得部115は、第1カメラ2及び第2カメラ3が撮影した画像を取得する。なお、以降の処理において、各画像がどのカメラで撮影された画像に該当するかは、画像に付随するカメラの識別子で区別可能である。
【0107】
(ステップS2)
画像取得部115は、取得した画像に対象ユーザが含まれるか否かを判定する。この場合、画像取得部115は、宅内の住人等の特定の人物を対象ユーザとして認識してもよいし、不特定の人物を対象ユーザとして認識してもよい。画像取得部115は、ディープニューラルネットワーク等の機械学習手法を用いて機械学習された学習済みモデルに画像を入力することで対象ユーザを認識してもよいし、背景差分法に基づく動き判定処理を画像に適用することで対象ユーザを認識してもよい。画像に対象ユーザが含まれる場合(ステップS2でYES)、処理はステップS3に進み、画像に対象ユーザが含まれていない場合(ステップS2でNO)、終了は終了する。
【0108】
(ステップS3)
カメラ特性推定部117は、ステップS2で取得された画像からカメラ特性を推定する。ここでは、第1カメラ2及び第2カメラ3のそれぞれのカメラ特性が推定される。この処理の詳細は上述の通りである。
【0109】
(ステップS4)
行動推定部116は、ステップS1で取得された画像から対象ユーザの行動を推定する。この処理の詳細は上述の通りである。
【0110】
(ステップS5)
決定部113は、動作情報データベース121を参照する。
【0111】
(ステップS6)
決定部113は、ステップS4で推定された行動の基となるイベントを示すイベント情報が動作情報データベース121に登録されているか否かを判定する。
図5の例において、ステップS4で推定された行動が料理であれば、決定部113は、当該行動の基となるイベントを示すイベント情報が動作情報データベース121に登録されていると判定する。一方、ステップS4で推定された行動が食事である場合、決定部113は、当該行動の基となるイベントを示すイベント情報は動作情報データベース121に登録されていないと判定する。
【0112】
ステップS4で推定された行動の基となるイベントを示すイベント情報が動作情報データベース121に登録されている場合(ステップS6でYES)、処理はステップS7に進み、ステップS4で推定された行動の基となるイベントを示すイベント情報が動作情報データベース121に登録されていない場合(ステップS6でNO)、処理は終了する。
【0113】
(ステップS7)
決定部113は、ステップS4で推定された行動の認識に適したカメラを決定するカメラ決定処理を実行する。この処理の詳細は、
図7で後述する。
【0114】
(ステップS8)
出力部114は、ステップS7で決定されたカメラを示すカメラ情報を出力する。
【0115】
図7は、カメラ決定処理の詳細を示すフローチャートである。
【0116】
(ステップS21)
決定部113は、ステップS3で推定されたカメラ特性をカメラ特性推定部117から取得する。
【0117】
(ステップS22)
決定部113は、ステップS6で動作情報データベース121に登録されていると判定されたイベント情報に対応する基礎カメラ特性を動作情報データベース121から取得する。
【0118】
(ステップS23)
決定部113は、ステップS22で取得した基礎カメラ特性の条件を満たすカメラを第1カメラ2及び第2カメラ3の中から決定する。以下の説明では、特定エリアに少なくとも3台のカメラがあるものとして説明する。ここで、カメラ特性が基礎カメラ特性の条件を満たすカメラは、基礎カメラ特性に同一又は類似するカメラ特性を有するカメラの一例である。
【0119】
具体的には、決定部113は、優先度が高い項目から順番に、1台のカメラが決定されるまで、基礎カメラ特性と、ステップS3で推定した各カメラのカメラ特性とを比較する処理を実行する。
【0120】
例えば、決定部113は、まず、優先度が「1」の項目について各カメラのカメラ特性が条件を満たしているか否かを判定する。1台のカメラのみが条件を満たしている場合、決定部113は、当該1台のカメラを行動認識に適したカメラとして決定する。条件を満たすカメラが2台以上の場合、決定部113は、条件を満たしていないカメラを候補から除外し、優先度が「2」の項目について残りのカメラが条件を満たしているか否かを判定する。以後、決定部113は、1台のカメラが最終的に特定されるまで、優先度を1つずつ下げながらカメラを決定する処理を実行する。
【0121】
なお、決定部113は、最終的に1台のカメラを決定できなかった場合、最終的に候補として残った複数のカメラの中から無作為にカメラを決定すればよい。また、これらのカメラの中にデフォルトのカメラが含まれている場合、決定部113は、デフォルトのカメラを行動認識に適したカメラとして決定すればよい。また、決定部113は、条件を満たすカメラが0台の場合、無作為に1台のカメラを決定してもよいし、デフォルトのカメラを決定してもよい。さらに、決定部113は、条件を満たすカメラが0台の場合、カメラを決定できなかったことを示す通知をユーザ端末に送信してもよい。この通知は、ユーザに新たなカメラの接続を指示するメッセージを含んでいても良い。また、最良となるカメラが2台以上存在する場合、すなわち、同率1位のカメラが2台以上存在する場合、決定部113は、より性能の高いカメラ特性を有するカメラを決定すれば良い。例えば、フレームレートが30fps以上という条件の場合、30fpsと60fpsとはどちらも条件を満たすが、60fpsの方がより性能が高いので、決定部113は、60fpsのカメラを決定すればよい。なお、fpsは値が高いほど高性能であることを示す。ステップS23が終了すると処理は
図6のステップS8に進む。
【0122】
また、決定部113は、複数のカメラのそれぞれについてカメラ特性が基礎カメラ特性の条件を満たす個数をカウントし、カウントした個数を上述の適合度として算出し、算出した適合度が1位又は所定順位までのカメラを行動認識に適したカメラとして決定してもよい。この場合、決定部113は、基礎カメラ特性の条件を満たす場合のカウント値を優先度に応じて重み付けし、重み付けしたカウント値の和を適合度として算出してもよい。この重み付けは優先度が高いほど値が大きくなる。
【0123】
このように、実施の形態2によれば、画像からカメラ特性及び対象ユーザの行動を推定することができる。
【0124】
(実施の形態3)
実施の形態3は、決定部113により決定されたカメラを起動させる起動信号を出力するものである。
図8は、本開示の実施の形態3におけるカメラ選択システム10Bの構成の一例を示すブロック図である。なお、本実施の形態において実施の形態1、2と同一の構成要素については同一の符号を付し、説明を省略する。カメラ選択装置1Bのプロセッサ11Bは、さらにカメラ起動部118を含む。カメラ起動部118は、起動していないカメラを起動させるための起動信号を該当するカメラに出力する。
【0125】
カメラ特性推定部117は、最後に推定した各カメラのカメラ特性をメモリ12に記憶する。決定部113は、現在起動されていないカメラのカメラ特性をメモリ120から取得する。そして、決定部113は、メモリ120から取得したカメラ特性と、カメラ特性推定部117により推定された現在起動されているカメラのカメラ特性と、動作情報データベース121に記憶された基礎カメラ特性とを比較することで、行動認識に適したカメラを決定する。この場合、決定部113は、現在起動していない第2カメラ3を行動認識に適したカメラとして決定することがある。これにより、起動していないカメラを含めて行動認識に最適なカメラを決定でき、行動認識の精度が向上する。カメラ起動部118は、決定部113により起動されていないカメラの起動要求が入力されると、該当するカメラに対して、インターフェイス回路を用いて、起動信号を出力する。なお、カメラ起動部118は、起動されていないカメラの起動要求が入力された場合、インターフェイス回路を用いて、該当するカメラを起動する必要がある旨のメッセージを対象ユーザの端末に出力してもよい。
【0126】
図9は、カメラが起動されるシーンの一例を示す図である。
図9の例では、第1カメラ2は起動されているが、第2カメラ3は起動されていない。カメラ選択装置1Bは、第2カメラ3を行動認識に適したカメラとして決定した場合、第2カメラ3に起動信号を出力する。或いは、カメラ選択装置1Bは、対象ユーザ208のユーザ端末400に第2カメラ3を起動させる必要がある旨のメッセージを出力する。これにより、第2カメラ3を用いてユーザを撮影することができる。
【0127】
このように、実施の形態3によれば、起動していないカメラを含む複数のカメラから行動認識に適したカメラを決定できる。
【0128】
(実施の形態4)
実施の形態4は、行動の変化を検出した場合に行動認識に適したカメラを決定する処理を実行するものである。
図10は、本開示の実施の形態4におけるカメラ選択システム10Cの構成の一例を示すブロック図である。なお、実施の形態4において、実施の形態1~3と同一の構成要素には同一の符号を付し、説明を省略する。カメラ選択装置1Cのプロセッサ11Cは、行動変化検出部119をさらに含む。行動変化検出部119は、行動推定部116により推定された行動が変化したことを検出した場合、決定部113にカメラの決定処理の開始要求を入力する。行動の変化とは、例えば、対象ユーザの行動がギター演奏から料理に変わること等である。行動変化検出部119は、行動推定部116が推定した行動を示す行動ラベルの内容が変化したか否かにより対象ユーザの行動の変化の有無を判定すればよい。例えば、ギター演奏中において、行動推定部116は行動ラベルとして「ギター演奏」を行動変化検出部119に入力する。ユーザの動作が料理に変化すると、行動推定部116が行動変化検出部119に入力する行動ラベルは「料理」に変化する。
【0129】
或いは、行動推定部116は、定期的(例えば10秒間隔)で行動ラベルを行動変化検出部119に入力してもよい。したがって、行動変化検出部119は直前(例えば、10秒前)に入力された行動ラベルと現在の行動ラベルとが異なる場合に、対象ユーザの行動が変化したと判定すればよい。なお、行動変化の検出を頑健にするために、行動変化検出部119は、一定時間(例えば、1分)において行動推定部116から出力された行動ラベルの最頻値を行動ラベルの代表ラベルとして算出し、最新の代表ラベルと直前の代表ラベルとを比較することで行動の変化を検出してもよい。
【0130】
このように、実施の形態4によれば、ユーザの行動が変化したときにカメラを決定する処理が実行されるので、カメラを決定する処理を効率よく行うことができ、プロセッサ11Cの処理負担を軽減できる。
【0131】
(実施の形態5)
対象ユーザが行動する空間内には、当該行動に応じて様々な死角が発生するので、基礎カメラ特性が規定する条件を満たすカメラ特性を有するカメラであっても対象ユーザの行動をうまく撮影できない可能性がある。そこで、実施の形態5では、対象ユーザを遮蔽していない状態で撮影するカメラの中から行動認識に適したカメラを決定する。
【0132】
図11は、本開示の実施の形態5におけるカメラ選択システム10Dの構成の一例を示すブロック図である。なお、実施の形態5において、実施の形態1~4と同一の構成要素には同一の符号を付し説明を省略する。カメラ選択装置1Dのプロセッサ11Dは、さらに遮蔽判定部120を含む。
【0133】
遮蔽判定部120は、第1カメラ2及び第2カメラ3のそれぞれについて、対象ユーザが遮蔽された状態で撮影するか否かを判定し、判定結果を決定部113に入力する。
【0134】
決定部113は、遮蔽判定部120により対象ユーザを遮蔽された状態で撮影すると判定されたカメラをカメラの選択肢から除外する。すなわち、決定部113は、遮蔽判定部120により対象ユーザが遮蔽されていない状態で撮影すると判定されたカメラの中から行動認識に適したカメラを決定する。以下、ユーザが遮蔽されているか否かの判定方法について説明する。
【0135】
遮蔽判定部120は、フレームメモリ122から読み出した画像に基づき、ユーザの複数の骨格点及び各骨格点の信頼度を推定する。本開示において、骨格点の信頼度とは、遮蔽判定部120が推定した各骨格点Pに対する信頼度であり、推定された骨格点Pの確からしさを確率で表現したものである。骨格点の信頼度は、値が大きくなるにつれて確からしさが高くなる。信頼度は、例えば0以上1以下の値を採る。
【0136】
遮蔽判定部120は、画像と骨格点との関係を機械学習することで得られた学習済みモデルに画像を入力することで複数の骨格点及び複数の骨格点のそれぞれの信頼度を推定する。学習済みモデルの一例は、ディープニューラルネットワークである。ディープニューラルネットワークの一例は畳み込み層及びプーリング層等を含む畳み込みニューラルネットワークである。なお、遮蔽判定部120は、ディープニューラルネットワーク以外の学習モデルで構成されてもよい。
【0137】
図12は、遮蔽判定部120が推定する骨格点Pを含む骨格情報301の一例を示す図である。
図12において、破線は、顔の輪郭と首の位置とを示す補助線である。
【0138】
骨格情報301は、対象ユーザ一人分の骨格点Pを示す情報である。骨格情報301は、例えば、左目、右目、左耳、右耳、鼻、左肩、右肩、左腰、右腰、左肘、右肘、左手首、右手首、左膝、右膝、左足首、及び右足首からなる17の骨格点Pを含む。遮蔽判定部120は、これらの骨格点Pを推定するように構成されている。
図12の例では、骨格情報301は、17の骨格点Pで構成されているが、これは一例に過ぎず、骨格点Pの数は、16以下であってもよいし、18以上であってもよい。この場合、学習済みモデルを16以下又は18以上の所定数の骨格点Pを推定するように構成すればよい。また、骨格情報301は、
図12で示す骨格点P以外の骨格点(例えば、指及び口等の骨格点)を含んでもよい。
【0139】
遮蔽判定部120は、第1カメラ2及び第2カメラ3のそれぞれが撮影した画像に対して骨格点と信頼度とを推定する。ここで、対象ユーザを遮蔽した状態で撮影するカメラの画像において、遮蔽された骨格点Pの信頼度は低下する。したがって、遮蔽判定部120は、骨格点Pの信頼度が閾値(例えば、0.1)より小さい場合、その骨格点Pは遮蔽されていると判定する。ここで、ユーザのある骨格点P(例えば、右手首)に着目すると、この骨格点Pが遮蔽されたカメラとこの骨格点Pが遮蔽されていないカメラとの両方が存在する場合があり得る。このように遮蔽されたカメラと遮蔽されていないカメラとが存在する場合、決定部113は、遮蔽されていると判定されたカメラを選択肢から除外し、遮蔽されていないと判定されたカメラの中からイベントに応じた基礎カメラ特性の条件を満たすカメラを決定する。
【0140】
このように、実施の形態5によれば、対象ユーザが遮蔽されていないカメラを用いて行動認識がされるため、認識精度を高めることができる。なお、遮蔽判定部120は、対象ユーザの全部が遮蔽されていない状態で撮影するカメラを遮蔽されていないカメラとして判定してもよいし、対象ユーザの一部が遮蔽されていない状態で撮影するカメラを遮蔽されていないカメラとして判定してもよい。対象ユーザの一部は、例えば、対象ユーザの手元等の予め定められた特定部位である。この場合、遮蔽判定部120は、特定部位に含まれる全ての骨格点Pの信頼度が閾値以上の場合、対象ユーザは遮蔽されていないと判定すればよい。また、対象ユーザの全部が遮蔽されていない状態とは、対象ユーザの全ての骨格点Pの信頼度が閾値以上の場合が該当する。或いは、遮蔽判定部120は、全ての骨格点Pの信頼度の平均値を算出し、算出した平均値が閾値以上の場合、該当するカメラは対象ユーザを遮蔽していないと判定してもよい。
【0141】
(変形例)
(1)以上、本開示の一つまたは複数の態様に係るカメラ選択装置について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つまたは複数の態様の範囲内に含まれてもよい。
【0142】
(2)本開示は、上記の実施の形態1~5を任意に組み合わせて構成されてもよい。本開示は、実施の形態1又は実施の形態2に実施の形態3~5の少なくとも1つを組み合わせてもよい。
【0143】
(3)
図5の例では、基礎カメラ特性としてチルト角が含まれているが、チルト角以外のロール角、パン角が含まれていてもよい。
【0144】
(4)基礎カメラ特性がカメラ特性と同一であるとは、
図5の各イベント情報の例において、基礎カメラ特性のパラメータとして規定された5つ項目の全ての条件を満たすカメラ特性が該当する。また、基礎カメラ特性がカメラ特性と類似するとは、
図5の各イベント情報の例において、基礎カメラ特性のパラメータとして規定された5つの項目について条件を満たす項目の個数が所定個数(例えば3個)以上のカメラ特性が該当する。
【産業上の利用可能性】
【0145】
本開示のカメラ選択装置は、行動認識に利用するカメラを選択するうえで有用である。
【符号の説明】
【0146】
1 :カメラ選択装置
10 :カメラ選択システム
11 :プロセッサ
12 :メモリ
111 :イベント情報取得部
112 :カメラ特性取得部
113 :決定部
114 :出力部
115 :画像取得部
116 :行動推定部
117 :カメラ特性推定部
118 :カメラ起動部
119 :行動変化検出部
120 :遮蔽判定部
121 :動作情報データベース
122 :フレームメモリ