特許7636276 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立システムズの特許一覧

特許7636276画像処理装置、画像処理方法及び画像処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-02-17

(45)【発行日】2025-02-26

(54)【発明の名称】画像処理装置、画像処理方法及び画像処理システム

(51)【国際特許分類】

G06T 7/20 20170101AFI20250218BHJP

G06T 7/00 20170101ALI20250218BHJP

【ＦＩ】

G06T7/20 300A

G06T7/00 350C

【請求項の数】 13

(21)【出願番号】P 2021106786

(22)【出願日】2021-06-28

(65)【公開番号】P2023005088

(43)【公開日】2023-01-18

【審査請求日】2024-01-31

(73)【特許権者】

【識別番号】000233491

【氏名又は名称】株式会社日立システムズ

(74)【代理人】

【識別番号】110000062

【氏名又は名称】弁理士法人第一国際特許事務所

(72)【発明者】

【氏名】シンハサプタルシ

(72)【発明者】

【氏名】中村克行

(72)【発明者】

【氏名】秋山高行

【審査官】菊池伸郎

(56)【参考文献】

【文献】特表２０２１－５１０２２５（ＪＰ，Ａ）

【文献】特開２０１６－１１５１２５（ＪＰ，Ａ）

【文献】国際公開第２０１６／１９９５０４（ＷＯ，Ａ１）

【文献】特開２０１１－０８５７１２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００－７／９０

Ｇ０６Ｖ１０／００－４０／７０

(57)【特許請求の範囲】

【請求項1】

画像処理装置であって、
ユーザの手を含む広角映像を入力映像として受け付ける入力部と、
前記入力映像における前記手を含む対象領域を判定する判定部と、
前記対象領域に対応する部分的画像を前記入力映像から抽出する抽出部と、
前記部分的画像を、所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成する検出部とを含み、
前記入力映像は、
複数のフレームから構成されており、
前記判定部は、
前記入力映像における第１のフレームを、広角でない標準画角の画像において手の位置を特定するように訓練された第１のニューラルネットワークによって処理することにより、前記第１のフレームにおける第１の手を含む第１の手の領域及び前記第１のフレームにおける第２の手を含む第２の手の領域の少なくとも一方を推定し、
前記第１のフレームの次のフレームである第２のフレームから、前記第１の手の領域に対応する第１の画像及び前記第２の手の領域に対応する第２の画像の少なくとも一方を抽出し、
所定の画像処理手法を前記第１の画像及び前記第２の画像の少なくとも一方に対して実行することにより、前記第１の画像を広角の画像から広角でない標準画角の画像に変換した第１の疑似標準画像及び前記第２の画像を広角の画像から広角でない標準画角の画像に変換した第２の疑似標準画像の少なくとも一方を生成し、
前記第１の疑似標準画像及び前記第２の疑似標準画像の少なくとも一方を、前記第１のニューラルネットワークによって処理することにより、前記第２のフレームにおける第１の手を含む第１の手の領域及び前記第２のフレームにおける第２の手を含む第２の手の領域の少なくとも一方を推定する、
ことを特徴とする画像処理装置。

【請求項2】

画像処理装置であって、
ユーザの手を含む広角映像を入力映像として受け付ける入力部と、
前記入力映像における前記手を含む対象領域を判定する判定部と、
前記対象領域に対応する部分的画像を前記入力映像から抽出する抽出部と、
前記部分的画像を、所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成する検出部とを含み、
前記入力映像は、
複数のフレームから構成されており、
前記判定部は、
所定の画像処理手法を、広角でない標準画角の画像に対して実行することにより、前記標準画角の画像を広角画像に変換した疑似広角画像を生成し、
前記疑似広角画像と、前記疑似広角画像における正しい手の位置を示す教師画像とを対応付けた学習データを用いてニューラルネットワークを訓練することにより、広角映像において手の位置を特定するように訓練された第２のニューラルネットワークを構築し、
前記入力映像を、前記第２のニューラルネットワークによって処理することにより、前記入力映像を構成する各フレームにおける第１の手を含む第１の手の領域及び第２の手を含む第２の手の領域の少なくとも一方を推定する、
ことを特徴とする画像処理装置。

【請求項3】

前記判定部は、
前記入力映像を構成する各フレームにおいて、前記第１の手の領域を規定する第１の座標と、前記入力映像における前記第２の手の領域を規定する第２の座標とに基づいて、前記対象領域を判定する、
ことを特徴とする、請求項１又は２に記載の画像処理装置。

【請求項4】

前記抽出部は、
前記入力映像を構成する各フレームにおいて、前記第１の手の領域の中心点を示す第１の中心座標と、前記第２の手の領域の中心点を示す第２の中心座標とを計算し、
前記第１の中心座標と、前記第２の中心座標との距離を計算し、
前記距離が所定の閾値以下の場合、
前記第１の手の領域及び前記第２の手の領域を含む第１の部分的画像を抽出し、
前記距離が所定の閾値を超える場合、
前記第１の手の領域に対応する第１の部分的画像と、前記第２の手の領域に対応する第２の部分的画像とを抽出する、
ことを特徴とする、請求項３に記載の画像処理装置。

【請求項5】

前記入力部は、
前記第１の手が前記ユーザの利き手であることを示す利き手情報を受け付けた場合、
前記抽出部は、
前記距離が所定の閾値を超える場合、
前記第１の手の領域に対応する第１の部分的画像を抽出する、
ことを特徴とする、請求項４に記載の画像処理装置。

【請求項6】

前記判定部は、
前記入力映像における第１のフレームにおいて、前記第１の手の領域が前記第２の手の領域より左側に位置している場合、前記第１の手の領域を左手に対応する領域とし、前記第２の手の領域を右手に対応する領域とし、
前記第１のフレームの次のフレームである第２のフレームにおける第３の手の領域と、前記第１のフレームにおける前記第１の手の領域とが重なる割合を示す第１の重なり量を計算し、
前記第２のフレームにおける第３の手の領域と、前記第１のフレームにおける前記第２の手の領域とが重なる割合を示す第２の重なり量を計算し、
前記第１の重なり量が前記第２の重なり量より大きい場合、前記第３の手の領域を左手に対応する領域とし、
前記第２の重なり量が前記第１の重なり量より大きい場合、前記第３の手の領域を右手に対応する領域とする、
ことを特徴とする、請求項４に記載の画像処理装置。

【請求項7】

画像処理方法であって、
ユーザの手を含む広角映像を入力映像として受け付ける工程と、
所定の画像処理手法を、広角でない標準画角の画像に対して実行することにより、前記標準画角の画像を広角画像に変換した疑似広角画像を生成する工程と、
前記疑似広角画像と、前記疑似広角画像における正しい手の位置を示す教師画像とを対応付けた学習データを用いてニューラルネットワークを訓練することにより、広角映像において手の位置を特定するように訓練されたニューラルネットワークを構築する工程と、
前記入力映像を、前記ニューラルネットワークによって処理することにより、前記入力映像を構成する各フレームにおける第１の手を含む第１の手の領域及び第２の手を含む第２の手の領域の少なくとも一方を推定する工程と、
前記入力映像を構成する各フレームにおいて、前記第１の手の領域を規定する第１の座標と、前記入力映像における前記第２の手の領域を規定する第２の座標とに基づいて、対象領域を判定する工程と、
前記入力映像を構成する各フレームにおいて、前記第１の手の領域の中心点を示す第１の中心座標と、前記第２の手の領域の中心点を示す第２の中心座標とを計算する工程と、
前記第１の中心座標と、前記第２の中心座標との距離を計算する工程と、
前記距離が所定の閾値以下の場合、前記第１の手の領域及び前記第２の手の領域を含む第１の部分的画像を抽出する工程と、
前記距離が所定の閾値を超える場合、前記第１の手の領域に対応する第１の部分的画像と、前記第２の手の領域に対応する第２の部分的画像とを抽出する工程と、
前記第１の部分的画像及び前記第２の部分的画像の少なくとも一方を所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成し、出力する工程と、
を含むことを特徴とする画像処理方法。

【請求項8】

画像処理システムであって、
ユーザの手を含む広角映像を取得する撮影装置と、
広角映像を解析することにより、前記ユーザによって行われているアクティビティを検出する画像処理装置と、
前記画像処理装置によるアクティビティ検出の結果を確認するクライアント端末とが通信ネットワークを介して接続されており、
前記画像処理装置は、
前記撮影装置から、前記広角映像を入力映像として受け付ける入力部と、
前記入力映像における前記ユーザの手を含む対象領域を判定する判定部と、
前記対象領域に対応する部分的画像を前記入力映像から抽出する抽出部と、
前記部分的画像を、所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成する検出部と、
前記アクティビティ検出結果を前記クライアント端末に出力する出力部とを含み、
前記入力映像は、
複数のフレームから構成されており、
前記判定部は、
前記入力映像における第１のフレームを、広角でない標準画角の画像において手の位置を特定するように訓練された第１のニューラルネットワークによって処理することにより、前記第１のフレームにおける第１の手を含む第１の手の領域及び前記第１のフレームにおける第２の手を含む第２の手の領域の少なくとも一方を推定し、
前記第１のフレームの次のフレームである第２のフレームから、前記第１の手の領域に対応する第１の画像及び前記第２の手の領域に対応する第２の画像の少なくとも一方を抽出し、
所定の画像処理手法を前記第１の画像及び前記第２の画像の少なくとも一方に対して実行することにより、前記第１の画像を広角の画像から広角でない標準画角の画像に変換した第１の疑似標準画像及び前記第２の画像を広角の画像から広角でない標準画角の画像に変換した第２の疑似標準画像の少なくとも一方を生成し、
前記第１の疑似標準画像及び前記第２の疑似標準画像の少なくとも一方を、前記第１のニューラルネットワークによって処理することにより、前記第２のフレームにおける第１の手を含む第１の手の領域及び前記第２のフレームにおける第２の手を含む第２の手の領域の少なくとも一方を推定する、
ことを特徴とする画像処理システム。

【請求項9】

画像処理システムであって、
ユーザの手を含む広角映像を取得する撮影装置と、
広角映像を解析することにより、前記ユーザによって行われているアクティビティを検出する画像処理装置と、
前記画像処理装置によるアクティビティ検出の結果を確認するクライアント端末とが通信ネットワークを介して接続されており、
前記画像処理装置は、
前記撮影装置から、前記広角映像を入力映像として受け付ける入力部と、
前記入力映像における前記ユーザの手を含む対象領域を判定する判定部と、
前記対象領域に対応する部分的画像を前記入力映像から抽出する抽出部と、
前記部分的画像を、所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成する検出部と、
前記アクティビティ検出結果を前記クライアント端末に出力する出力部とを含み、
前記入力映像は、
複数のフレームから構成されており、
前記判定部は、
所定の画像処理手法を、広角でない標準画角の画像に対して実行することにより、前記標準画角の画像を広角画像に変換した疑似広角画像を生成し、
前記疑似広角画像と、前記疑似広角画像における正しい手の位置を示す教師画像とを対応付けた学習データを用いてニューラルネットワークを訓練することにより、広角映像において手の位置を特定するように訓練された第２のニューラルネットワークを構築し、
前記入力映像を、前記第２のニューラルネットワークによって処理することにより、前記入力映像を構成する各フレームにおける第１の手を含む第１の手の領域及び第２の手を含む第２の手の領域の少なくとも一方を推定する、
ことを特徴とする画像処理システム。

【請求項10】

前記判定部は、
前記入力映像を構成する各フレームにおいて、前記第１の手の領域を規定する第１の座標と、前記入力映像における前記第２の手の領域を規定する第２の座標とに基づいて、前記対象領域を判定する、
ことを特徴とする、請求項８又は９に記載の画像処理システム。

【請求項11】

【請求項12】

前記入力部は、
前記第１の手が前記ユーザの利き手であることを示す利き手情報を受け付けた場合、
前記抽出部は、
前記距離が所定の閾値を超える場合、
前記第１の手の領域に対応する第１の部分的画像を抽出する、
ことを特徴とする、請求項１１に記載の画像処理システム。

【請求項13】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、画像処理装置、画像処理方法及び画像処理システムに関する。

【背景技術】

【0002】

近年、写真、動画、画像等の映像コンテンツが急増する中、ＩｏＴを活用した社会イノベーションを推進するために、保全業務に画像処理技術を適用して業務の正確性を高めるための技術に関する需要が高まっている。
特に、映像コンテンツを活用して、作業員等のユーザが行なう作業を正確に判定する技術への需要が増している。映像解析の技術分野においては、所定のオブジェクトに関する行動や状況を検知することは「アクティビティ検出」（ＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）と呼ばれている。

【0003】

こうしたアクティビティ検出については、いくつかの提案がなされている。
例えば、米国特許出願公開第２０１７／０２２０８５４号明細書（特許文献１）には、「マルチモーダルセンシングシステムには、アクションを自動的に分類するために連携する様々なデバイスが含まれている。ビデオカメラは一連のデジタル映像を撮影する。少なくとも１つの他のセンサーデバイスは、他のセンサデータ（例えば、運動データ）を取得する。システムは、デジタル映像からビデオ特徴を抽出し、抽出した各画像特徴を期間に関連付ける。また、システムは、他のセンサデータから他の特徴を抽出し、抽出した他の各特徴を期間に関連付ける。システムは、抽出したビデオ特徴のグループと、抽出した他の特徴のグループを結合して、所定の期間に対応する、結合した特徴表現を作成する。次に、結合した特徴表現を分析してクラスを識別し、クラス及びアクションのデータストアにアクセスし、クラスに関連付けられているアクションを識別し、識別したアクションをメモリデバイスに保存する」技術が記載されている。

【0004】

また、Ｌｅｎｊａｎｉｅｔａｌ．、「ＡｕｔｏｍａｔｅｄＢｕｉｌｄｉｎｇＩｍａｇｅＥｘｔｒａｃｔｉｏｎｆｒｏｍ３６０ＰａｎｏｒａｍａｓｆｏｒＰｏｓｔ－Ｄｉｓａｓｔｅｒｅｖａｌｕａｔｉｏｎ」（非特許文献１）には、「災害後、構造エンジニアのチームは、被害を受けた建物から大量の画像を収集して、新しい知識を取得し、災害から教訓を得る。ただし、多くの場合、収集された画像は十分な空間コンテキストなしで撮影される。被害が甚大な場合、建物の見分けがつきにくい場合がある。建物の欠陥または実際の損失の原因を正確に特定するために、これらの建物の災害前の状態の画像をアクセスすることが必要である。ここでは、この問題に対処するために、360°パノラマ画像（パノラマ）から災害前の建物の画像を自動的に抽出する方法を提案する。対象の建物の近くで収集されたジオタグ付き画像を入力として提供することにより、入力画像の場所に近いパノラマがストリートビューサービス（米国のGoogleやBingなど）を介して自動的にダウンロードされる。パノラマと対象の建物の幾何学的関係を計算することにより、各パノラマに最適な投影方向を特定し、建物の高品質の２Ｄ画像を生成する。領域ベースの畳み込みニューラルネットワークを利用して、これらの２Ｄ画像内の建物を認識する。検出された建物の画像が建物の様々な視点を表示するために、いくつかのパノラマが使用される」技術が記載されている。

【先行技術文献】

【特許文献】

【0005】

【文献】米国特許出願公開第２０１７／０２２０８５４号明細書

【非特許文献】

【0006】

【文献】Ｌｅｎｊａｎｉｅｔａｌ．、「ＡｕｔｏｍａｔｅｄＢｕｉｌｄｉｎｇＩｍａｇｅＥｘｔｒａｃｔｉｏｎｆｒｏｍ３６０ＰａｎｏｒａｍａｓｆｏｒＰｏｓｔ－Ｄｉｓａｓｔｅｒｅｖａｌｕａｔｉｏｎ」

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１には、ウェアラブルカメラによって取得した一人称視点の映像から抽出した特徴と、加速度センサ等の他のセンサによって取得したセンサデータから抽出した特徴とを結合し、ニューラルネットワークを用いて結合した特徴を処理することで、映像において行われているアクティビティを検出する手段が記載されている。
しかし、特許文献１の手段では、ウェアラブルカメラによって取得される一人称視点の映像は標準画角の映像であるため、アクティビティ検出処理の範囲が、映像の狭い視野に限られてしまい、検出の対象となるアクティビティがウェアラブルカメラの撮影範囲に含まれないことがある。この場合、このように取得した映像を、アクティビティを検出するように訓練したニューラルネットワークによって処理しても、アクティビティ検出の精度が低くなってしまう。

【0008】

非特許文献１には、建物の災害前の状態を示す３６０度パノラマ映像と、建物の災害後の状態を示す映像とを対応付けて解析することにより、災害による被害の規模等を評価する手段が記載されている。
しかし、非特許文献１の手段では、ＧＰＳ等の他のセンサのデータに基づいて、３６０度パノラマ映像から関心の領域を抽出しており、ＧＰＳ等の他のセンサのデータが利用できない場合や、ＧＰＳのデータで特定できない小さなオブジェクトに関するアクティビティを検出したい場合等が想定されていない。そのため、非特許文献１の手段は、例えば保全業務において作業員が行なっている作業（ネジを閉めたり、ハンマーで釘を打ったり等）を検出する場合等には適していない。

【0009】

そこで、本開示は、ユーザが装着している広角ウェアラブルカメラによって取得された一人称視点の広角映像において、ユーザの手を検知し、検知したユーザの手の位置に基づいた対象領域の画像を抽出する。そして、抽出した画像に対してアクティビティ検出を行うことにより、一人称視点の広角映像に対する高精度のアクティビティ検出を可能とする画像処理手段を提供することを目的とする。

【課題を解決するための手段】

【0010】

上記の課題を解決するために、代表的な本開示の画像処理装置の一つは、ユーザの手を含む広角映像を入力映像として受け付ける入力部と、前記入力映像における前記手を含む対象領域を判定する判定部と、前記対象領域に対応する部分的画像を前記入力映像から抽出する抽出部と、前記部分的画像を、所定の機械学習手法を用いて解析することで、前記ユーザによって行われているアクティビティを検出し、検出した前記アクティビティに関するアクティビティ検出結果を生成する検出部とを含む。

【発明の効果】

【0011】

本開示によれば、ユーザが装着している広角ウェアラブルカメラによって取得された一人称視点の広角映像において、ユーザの手を検知し、検知したユーザの手の位置に基づいた対象領域の画像を抽出し、抽出した画像に対してアクティビティ検出を行うことにより、一人称視点の広角映像に対する高精度のアクティビティ検出を可能とする画像処理手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。

【図面の簡単な説明】

【0012】

【図1】図１は、本開示の実施例を実施するためのコンピュータシステムを示す図である。

【図2】図２は、本開示の実施例１に係る画像処理システムの構成の一例を示す図である。

【図3】図３は、本開示の実施例１に係る画像処理装置における全体のデータの流れを示すブロック図である。

【図4】図４は、本開示の実施例１に係る部分的画像を抽出する処理の流れを示すブロック図である。

【図5】図５は、本開示の実施例１に係る対象領域判定処理の流れの一例を示すブロック図である。

【図6】図６は、本開示の実施例１に係る手の検知処理の流れの一例を示すフローチャートである。

【図7】図７は、本開示の実施例１に係る広角映像において手の位置を特定するように訓練されたニューラルネットワークの訓練処理を示すブロック図である。

【図8】図８は、本開示の実施例１に係る手の検知処理の流れの一例を示すフローチャートである。

【図9】図９は、本開示の実施例１に係るニューラルネットワークに訓練処理に用いられる学習データを格納する学習データテーブルの一例を示す図である。

【図10】図１０は、本開示の実施例１に係るニューラルネットワークによる予測結果の情報を格納するための予測結果テーブルの一例を示す図である。

【図11】図１１は、本開示の実施例１に係る手の検知処理によって生成される手の位置の情報を格納する手の位置情報テーブルの一例を示す図である。

【図12】図１２は、本開示の実施例１に係る手の追跡処理によって生成される追跡結果の情報を格納する追跡結果テーブルの一例を示す図である。

【図13】図１３は、本開示の実施例１に係る対象領域判定処理の流れの一例を示すフローチャートである。

【図14】図１４は、本開示の実施例１に係る対象領域判定処理によって判定される対象領域の情報を格納する対象領域情報テーブルの一例を示す図である。

【図15】図１５は、本開示の実施例１に係る部分的画像抽出処理の流れを示すフローチャートである。

【図16】図１６は、本開示の実施例１に係る部分的画像抽出処理によって抽出される部分的画像の情報を格納する部分的画像管理テーブルの一例を示す図である。

【図17】図１７は、本開示の実施例２に係る対象領域判定処理の流れを示すブロック図である。

【図18】図１８は、本開示の実施例２に係る右手・左手識別処理の流れを示すフローチャートである。

【図19】図１９は、本開示の実施例２に係る右手・左手識別処理によって生成されるユーザの右手・左手の位置情報を格納する右手・左手位置情報テーブルの一例を示す図である。

【図20】図２０は、本開示の実施例２に係る部分的画像抽出処理の流れの一例を示すフローチャートである。

【図21】図２１は、本開示の実施例２に係る部分的画像抽出処理によって抽出される部分的画像の情報を格納する部分的画像管理テーブルの一例を示す図である。

【図22】図２２は、本開示の実施例２に係るユーザインタフェースの構成を示す図である。

【発明を実施するための形態】

【0013】

上述したように、本開示の実施例は、一人称視点の広角映像に対する高精度のアクティビティ検出を可能とする画像処理手段に関する。
本開示では、一人称視点の広角映像が入力映像として取得される。この入力映像は、例えばユーザが装着している広角ウェアラブルカメラによって取得されてもよい。また、この入力映像は、複数の画像フレーム（以下、「フレーム」という）から構成される。入力映像の各フレームにおいて、ユーザの手（片手又は両手）を検知し、検知したユーザの手の位置に基づいた対象領域を判定する。その後、この対象領域に対応する部分的画像が各フレームから抽出され、アクティビティ検出用に訓練されたニューラルネットワークによって解析される。
また、本開示のある実施例では、ユーザの右手及び左手がそれぞれ個別に識別される。これにより、対象のアクティビティが右手によって行われているか、左手によって行われているか、両手によって行われているかを判定することが可能になる。
更に、ユーザの利き手を示す利き手情報を取得することで、各フレームにおけるユーザの利き手を特定することができる。これにより、ユーザの利き手を中心としてアクティビティ検出が可能となる。

【0014】

本開示の実施例では、一人称視点の広角映像を入力映像とすることにより、検出の対象となるアクティビティがウェアラブルカメラの撮影範囲に含まれないという課題を回避することができる。また、本開示の実施例では、ユーザの手を検知し、検知したユーザの手を含む対象領域の部分的画像に対してアクティビティ検出を行う。これにより、ＧＰＳ等の他のセンサのデータが利用できない場合や、ＧＰＳのデータで特定できない小さなオブジェクトに関するアクティビティを検出したい場合においても、高精度のアクティビティ検出が可能となる。

【0015】

以下、図面を参照して、本発明の実施例について説明する。なお、この実施例により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

【0016】

まず、図１を参照して、本開示の実施例を実施するためのコンピュータシステム１００について説明する。本明細書で開示される様々な実施例の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム１００の主要コンポーネントは、１つ以上のプロセッサ１０２、メモリ１０４、端末インターフェース１１２、ストレージインタフェース１１３、Ｉ／Ｏ（入出力）デバイスインタフェース１１４、及びネットワークインターフェース１１５を含む。これらのコンポーネントは、メモリバス１０６、Ｉ／Ｏバス１０８、バスインターフェースユニット１０９、及びＩ／Ｏバスインターフェースユニット１１０を介して、相互的に接続されてもよい。

【0017】

コンピュータシステム１００は、プロセッサ１０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）１０２Ａ及び１０２Ｂを含んでもよい。ある実施例では、コンピュータシステム１００は複数のプロセッサを備えてもよく、また別の実施例では、コンピュータシステム１００は単一のＣＰＵシステムであってもよい。各プロセッサ１０２は、メモリ１０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

【0018】

ある実施例では、メモリ１０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ１０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ１０４は、画像処理アプリケーション１５０を格納していてもよい。ある実施例では、画像処理アプリケーション１５０は、後述する機能をプロセッサ１０２上で実行する命令又は記述を含んでもよい。

【0019】

ある実施例では、画像処理アプリケーション１５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施例では、画像処理アプリケーション１５０は、命令又は記述以外のデータを含んでもよい。ある実施例では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット１０９、プロセッサ１０２、またはコンピュータシステム１００の他のハードウェアと直接通信するように提供されてもよい。

【0020】

コンピュータシステム１００は、プロセッサ１０２、メモリ１０４、表示システム１２４、及びＩ／Ｏバスインターフェースユニット１１０間の通信を行うバスインターフェースユニット１０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット１１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス１０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット１１０は、Ｉ／Ｏバス１０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット１１２，１１３，１１４、及び１１５と通信してもよい。

【0021】

表示システム１２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置１２６に提供することができる。また、コンピュータシステム１００は、データを収集し、プロセッサ１０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

【0022】

例えば、コンピュータシステム１００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム１２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置１２６に接続されてもよい。

【0023】

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット１１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス１１６の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス１１６及びコンピュータシステム１００に対して入力データや指示を入力し、コンピュータシステム１００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス１１６を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

【0024】

ストレージインタフェース１１３は、１つ又は複数のディスクドライブや直接アクセスストレージ装置１１７（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施例では、ストレージ装置１１７は、任意の二次記憶装置として実装されてもよい。メモリ１０４の内容は、ストレージ装置１１７に記憶され、必要に応じてストレージ装置１１７から読み出されてもよい。Ｉ／Ｏデバイスインタフェース１１４は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース１１５は、コンピュータシステム１００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク１３０であってもよい。

【0025】

ある実施例では、コンピュータシステム１００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施例では、コンピュータシステム１００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

【0026】

＜実施例１＞
次に、図２～図１６を参照して、本開示の実施例１について説明する。

【0027】

図２は、本開示の実施例１に係る画像処理システム２００の構成の一例を示す図である。画像処理システム２００は、一人称視点の広角映像におけるアクティビティを検出するためのシステムである。
図２に示すように、本開示の実施例１に係る画像処理システム２００は、クライアント端末２１０、ユーザ２３０に装着されている撮影装置２２０、通信ネットワーク２４０、及び画像処理装置２５０を含む。クライアント端末２１０、撮影装置２２０、及び画像処理装置２５０は、通信ネットワーク２４０を介して相互的に接続される。ここでの通信ネットワーク２４０は、例えばインターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ(ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ)、ＷＡＮ(ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ)等を含んでもよい。

【0028】

クライアント端末２１０は、アクティビティ検出の依頼者に利用される端末である。クライアント端末２１０は、例えば後述するユーザインタフェース（図２２参照）を用いて、入力となる広角映像、処理対象となるフレーム、出力となる情報等を選択した上で、アクティビティ検出の処理を要求するアクティビティ検出要求を通信ネットワーク２４０を介して画像処理装置２５０に送信してもよい。
クライアント端末２１０は、スマートフォンやタブレット等の携帯型端末であってもよく、デスクトップパソコン等の固定型の端末であってもよい。また、クライアント端末２１０は、ユーザからの入力を受け付けるためのタッチ画面、キーボード、マウス、音声認識機能等の入力機能を備えてもよい。

【0029】

ユーザ２３０は、アクティビティ検出の対象となるアクティビティを行うユーザであり、例えば保全業務を行う作業員等であってもよい。ここでの「アクティビティ」とは、ユーザ２３０が行っているアクション（ボールを投げること、ネジを閉めること等）であってもよく、ユーザ２３０に対して行われているアクション（犬に噛まれていること等）であってもよく、ユーザ２３０と同じ時空間的領域において起きている任意の事象であってもよい。
図２に示すように、ユーザ２３０は、撮影装置２２０を装着してもよい。更に、ある実施例では、ユーザ２３０は、例えば加速度センサやジャイロスコープ等、他のセンサを装着してもよい。

【0030】

撮影装置２２０は、アクティビティ検出の対象となる入力映像を取得するための装置である。撮影装置２２０は、例えばユーザ２３０に装着される広角カメラ（例えば、ＧｏＰｒｏＭａｘ等）であり、ユーザ２３０が移動しながら一人称視点の広角映像（例えば、３６０度の映像）を継続的に撮影するように構成されてもよい。ここでの広角映像は、例えば焦点距離が３５ｍｍ以下のレンズによって撮影される映像を意味する。
撮影装置２２０は、ユーザ２３０の頭部や胸部等、ユーザの手の周囲を容易に撮影可能な位置に装着されてもよい。撮影装置２２０によって取得される一人称視点の広角映像は、通信ネットワーク２４０を介して画像処理装置２５０に送信される。

【0031】

画像処理装置２５０は、一人称視点の広角映像におけるアクティビティを検出するための装置である。画像処理装置２５０は、例えばユーザ２３０及びクライアント端末２１０から地理的に離れている遠隔サーバであってもよく、通信ネットワーク２４０を介して撮影装置２２０から取得された広角映像に対するアクティビティ検出結果をサービスとしてクライアント端末２１０に送信するように構成されてもよい。ただし、本発明はこれに限定されない。例えば、画像処理装置２５０の各機能部は、クライアント端末２１０上に実行されるソフトウエアアプリケーションとして実施されてもよい。
図２に示すように、画像処理装置２５０は、入力部２５２、判定部２５４、抽出部２５６、検出部２５８、出力部２６０及び記憶部２６２を含む。ただし、画像処理装置２５０はこの構成に限定されず、後述するように、他の機能部を備えてもよい。

【0032】

入力部２５２は、撮影装置２２０によって取得される広角映像を入力映像として受け付ける機能部である。この広角映像は、例えばユーザ２３０の手（片手又は両手）を含む、一人称視点の広角映像であってもよい。入力部２５２は、広角映像をリアルタイムで継続的に撮影装置２２０から受け付けてもよく、定期的に受け付けてもよい。また、入力部２５２は、加速度センサやジャイロスコープ等、他のセンサによって取得されたセンサデータを受け付けてもよい。
判定部２５４は、入力部２５２によって取得された入力映像におけるユーザ２３０の手を含む対象領域を判定する機能部である。判定部２５４は、例えば映像において手の位置を特定するように訓練されたニューラルネットワークであってもよい。
抽出部２５６は、判定部２５４によって判定された対象領域に対応する部分的画像を入力映像から抽出する機能部である。
検出部２５８は、抽出部２５６によって抽出される部分的画像を、所定の機械学習手法を用いて解析することで、ユーザ２３０によって行われているアクティビティを検出し、検出したアクティビティに関するアクティビティ検出結果を生成する機能部である。
出力部２６０は、検出部２５８によって生成されるアクティビティ検出結果をクライアント端末２１０及び記憶部２６２に出力する機能部である。
記憶部２６２は、出力部２６０によって出力されるアクティビティ検出結果を格納するための機能部である。記憶部２６２は、例えばフラッシュメモリ、ハードディスクドライブ等、任意の記憶媒体であってもよい。

【0033】

以上説明した画像処理システム２００によれば、一人称視点の広角映像に対する高精度のアクティビティ検出が可能となる。

【0034】

次に、図３を参照して、本開示の実施例１に係る画像処理装置における全体のデータの流れについて説明する。
図３は、本開示の実施例１に係る画像処理装置２５０における全体のデータの流れを示すブロック図である。

【0035】

まず、入力部２５２は、上述した撮影装置によって取得される広角映像３０２を入力映像として受け付ける。上述したように、この広角映像３０２は、例えばユーザの手（片手又は両手）を含む、一人称視点の広角映像である。この入力映像は、判定部２５４に入力される。
本開示では、検出の対象となるアクティビティが、ユーザの手の周囲において行われていることを前提としている。そのため、判定部２５４は、入力部２５２からの入力映像におけるユーザの手を含む対象領域を判定する。このユーザの手を含む対象領域において、検出の対象となるアクティビティが含まれているはずである。
次に、抽出部２５６は、判定部２５４によって判定された対象領域に対応する部分的画像３１０を抽出する。この部分的画像３１０は、特徴抽出部３２０に入力される。ここでの特徴抽出部３２０は、例えばＳＩＦＴ（ＳｐａｃｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）のようなハンドクラフト特徴抽出手法（ｈａｎｄ－ｃｒａｆｔｅｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄ）であってもよく、オープンソースの学習データ（Ｉｍａｇｅｎｅｔ，Ｋｉｎｅｔｉｃｓ）又はカスタムの学習データによって予め訓練されたＲｅｓＮｅｔやＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ）のようなニューラルネットワークであってもよい。特徴抽出部３２０は、部分的画像３１０の特徴３２４を抽出する。

【0036】

上述したように、本開示の実施例に係る画像処理装置２５０は、広角映像３０２に加えて、例えば加速度センサやジャイロスコープ等、他のセンサによって取得されたセンサデータをアクティビティ検出に用いてもよい。この場合、入力部２５２は、例えば加速度センサやジャイロスコープ等、他のセンサによって取得されたセンサデータ３０４を受け付けた後、受け付けたセンサデータ３０４を特徴抽出部３２０に入力する。
その後、特徴抽出部３２０は、センサデータ３０４の特徴３２２を抽出する。

【0037】

次に、特徴結合部３２５は、部分的画像の特徴３２４と、センサデータの特徴３２２とを時系列に対応付けて結合する。ここでは、特徴結合部３２５は、特徴を結合する手段として、特徴連結手法（ｆｅａｔｕｒｅｃｏｎｃａｔｅｎａｔｉｏｎｍｅｔｈｏｄ）を用いてもよい。この特徴連結手法では、部分的画像の特徴３２４は、センサデータの特徴３２２の中から、タイムスタンプが最も近い特徴と対応付けられ、結合される。
なお、センサデータ３０４がない場合、特徴結合部３２５は、部分的画像の特徴３２４を直接に機械学習部３４０に入力する。

【0038】

特徴結合部３２５によって結合される特徴は、機械学習部３４０に入力される。この機械学習部３４０は、オープンソース又はカスタムの学習データに基づいて、映像におけるアクティビティを検出するように訓練されたニューラルネットワーク（ＲｅｓＮｅｔやＶＧＧ）又は深層学習アルゴリズム（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ）等を含んでもよい。ここでのカスタムの学習データとは、学習の目的に応じて特別に作成したデータを意味する。
機械学習部３４０の処理の結果、広角映像３０２におけるアクティビティ（すなわち、ユーザの手の動作によって行われるアクティビティ）が検出され、当該アクティビティを示すアクティビティ検出結果３５０が出力される。このアクティビティ検出結果３５０は、例えばアクティビティの種類を示すラベルや、当該アクティビティが広角映像において行われている時刻（開始時刻及び終了時刻）を含んでもよい。また、このアクティビティ検出結果３５０は、画像処理装置の記憶部に保存されてもよく、クライアント端末に送信されてもよい。

【0039】

以上説明した画像処理装置２５０によれば、一人称視点の広角映像に対する高精度のアクティビティ検出が可能となる。

【0040】

次に、図４を参照して、本開示の実施例１に係る部分的画像を抽出する処理の流れについて説明する。

【0041】

図４は、本開示の実施例１に係る部分的画像を抽出する処理の流れを示すブロック図である。

【0042】

まず、入力部２５２は、上述した撮影装置によって取得される広角映像３０２を入力映像４０５として受け付ける。上述したように、この広角映像３０２は、例えばユーザの手（片手又は両手）を含む、一人称視点の広角映像である。この入力映像４０５は、広角映像であるため、ユーザの手以外にも、ユーザの周辺環境に関する視覚的情報を多く含む。仮にこの入力映像４０５を直接に検出部に入力し、アクティビティ検出を実行した場合、検出部は、対象のアクティビティと無関係の視覚的情報に惑わされ、検出の精度が限られてしまう。一方、ユーザの手の周囲等、アクティビティ検出に有用な視覚的情報を中心とした対象領域を判定し、当該対象領域に基づいて抽出した部分的画像に対してアクティビティ検出を行うことにより、高精度のアクティビティ検出が可能となる。

【0043】

次に、判定部２５４は、入力映像４０５を入力し、入力映像４０５におけるユーザの手を含む対象領域を判定する。ここでの対象領域とは、入力映像４０５において、検出の対象となるアクティビティを含む空間的領域を意味する。一般に、検出の対象となるアクティビティは、ユーザの手の周囲に行われているため、この手を含む対象領域においては、検出の対象となるアクティビティが含まれているはずである。
判定部２５４は、判定した対象領域を規定する座標を抽出部２５６に入力する。
なお、この判定部２５４による対象領域の判定の詳細については後述する（図１３参照）ため、ここではその説明を省略する。

【0044】

次に、抽出部２５６は、判定部２５４から入力された対象領域の座標に基づいて、当該対象領域に対応する部分的画像３１０を入力映像４０５から抽出する。後述するように、ここでは、抽出部２５６は、ユーザの手の空間的な位置や、ユーザの利き手に関する利き手情報等に基づいて、１つの部分的画像３１０を入力映像４０５から抽出してもよく、複数の部分的画像３１０を入力映像４０５から抽出してもよい。
なお、この抽出部２５６による部分的画像３１０の抽出の詳細については後述する（図１５参照）ため、ここではその説明を省略する。

【0045】

以上図４を参照して説明した処理によれば、ユーザの手の周囲等の、アクティビティ検出に有用な視覚的情報を中心とした対象領域を判定し、当該対象領域に対応する部分的画像３１０を入力映像４０５から抽出することができる。このように抽出した部分的画像３１０に対してアクティビティ検出を行うことにより、高精度のアクティビティ検出が可能となる。

【0046】

次に、図５を参照して、本開示の実施例１に係る対象領域を判定する処理の流れについて説明する。

【0047】

図５は、本開示の実施例１に係る対象領域を判定する処理の流れの一例を示すブロック図である。
上述したように、本開示では、検出の対象となるアクティビティが、ユーザの手の周囲において行われていることを前提としている。そのため、ユーザの手を含む対象領域においては、検出の対象となるアクティビティが含まれているはずである。

【0048】

まず、判定部は、入力映像４０５を入力した後、当該入力映像４０５における特定のフレーム（例えば、最初のフレーム）に対して、手を検知する処理を実行する（５０５）。ここでは、判定部は、入力映像４０５におけるユーザの手を検知するために、Ｅｇｏｈａｎｄｓのようなオープンソースの学習データ又はカスタムの学習データに基づいて、手を検知するように訓練されたニューラルネットワーク（例えば、ＶＧＧ１６－ＳＳＤやＹＯＬＯｖ３）を用いてもよい。このニューラルネットワークは、素手のみならず、工具等のオブジェクトを保持している手や、手袋を着けた手を検知するように訓練されていてもよい。
このニューラルネットワークは、入力映像４０５における手毎に当該手を含む領域５１０を推定して、出力する。ここでは、ニューラルネットワークは、手を含む領域５１０として、バウンディングボックスを定め、バウンディングボックスの位置を規定する座標を出力してもよい。

【0049】

次に、判定部は、手を追跡する処理を実行する（５１５）。ここでは、判定部は、特定のフレームについて推定した手を含む領域５１０に基づいて、入力映像４０５を構成する各フレームにおいて手を特定する。ここでは、判定部は、手を追跡する処理を実行することで、入力映像４０５を構成する各フレームについて、ユーザの手を含む領域（例えば、バウンディングボックス）を判定することができる。
ここでは、手を追跡する処理として、判定部は、いわゆるカルマンフィルタや、オープンソースの学習データ又はカスタムの学習データに基づいて、手を追跡するように訓練されたニューラルネットワークを用いてもよい。この手を追跡する処理を用いることにより、例えば撮影装置を装着したユーザの手以外に、他の人の手が入力映像４０５に写った場合に、撮影装置を装着したユーザの手と他の人の手を区別することが可能となる。また、画像処理システムは、手の追跡を容易にするため、撮影装置による広角映像の撮影開始時に、撮影装置の前に手を真っ直ぐにかざす指示をユーザに与える。これにより、撮影装置を装着したユーザの手と他の人の手がより区別しやすくなる。
また、手の追跡処理により、撮影装置を装着したユーザの手が撮影装置の撮影範囲内に含まれなくなったと判定された場合、判定部は、手を撮影装置の撮影範囲内に戻す通知を、例えば後述するユーザインタフェース（図２２参照）を介してユーザに提供してもよい。

【0050】

次に、判定部は、手を追跡する処理により、入力映像４０５を構成する各フレームにおいてユーザの手を特定した後、特定した手を含む領域の位置（つまり、バウンディングボックスの座標）に基づいて、対象領域５２５を判定する（５２０）。上述したように、この対象領域５２５は、検出の対象となるアクティビティを含むはずである。

【0051】

以上図５を参照して説明した処理によれば、入力映像４０５において、検出の対象となるアクティビティを含む対象領域を判定することができる。

【0052】

次に、図６を参照して、本開示の実施例１に係る手の検知処理の流れの一例について説明する。

【0053】

上述したように、本開示の実施例では、３６０度映像のような広角映像に対して、手の位置を推定する手の検知処理６００が行われる。ただし、広角映像は、カメラのレンズによって、半径方向への歪曲が存在し、明確な縁がないため、標準画角の映像に比べて、物体検出が困難になるという課題がある。従って、本開示の実施例に係る手の検知処理６００は、この課題に鑑みてなされたものであり、歪曲が存在する３６０度映像のような広角映像に対しても、ユーザの手のような物体を高精度で検知することができる。
図６は、本開示の実施例１に係る手の検知処理６００の流れの一例を示すフローチャートである。手の検知処理６００は、広角でない標準映像において手の位置を特定するように訓練されたニューラルネットワークを用いて、広角映像である入力映像における手を検知するための処理であり、判定部によって実行される。

【0054】

まず、ステップＳ６１０では、判定部は、時系列に並ぶ、Ｎ個のフレームＦからなる広角映像（Ｆ_１、Ｆ_２、．．．Ｆ_Ｎ）を入力映像として受け付ける。上述したように、この入力映像は、例えば上述した撮影装置によって取得され、画像処理装置の入力部によって受け付けられる一人称視点の広角映像であってもよい。

【0055】

次に、ステップＳ６２０では、判定部は、標準画角の画像によって訓練されたニューラルネットワークＤ（第１のニューラルネットワーク）を構築する。ここでは、判定部は標準画角の画像を学習データとして、ＶＧＧ１６－ＳＳＤやＹＯＬＯｖ３のようなニューラルネットワークを訓練することでニューラルネットワークＤを構築してもよい。
なお、ここでの標準画角の画像は、例えば焦点距離が４０ｍｍ以上のレンズによって撮影される映像を意味する。

【0056】

次に、ステップＳ６３０では、判定部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0057】

次に、ステップＳ６４０では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが１（つまり、入力映像の最初のフレーム）であるか否かを判定する。処理対象のフレームＦ_ｎのフレームインデックスｎが１の場合、本処理はステップＳ６５０へ進み、処理対象のフレームのフレームインデックスｎが１でない場合、本処理はステップＳ６６０へ進む。

【0058】

上述したように、本開示では、画像処理システムは、撮影装置による広角映像の撮影開始時に、撮影装置の前に手を真っ直ぐにかざす指示をユーザに与える。これにより、ユーザの手が入力映像の最初のフレームであるフレームＦ_１に鮮明に写る。このため、処理対象のフレームＦ_ｎが入力映像の最初のフレームであるフレームＦ_１の場合（つまり、フレームインデックスｎが１の場合）、広角映像でない、標準画角の画像によって訓練されたニューラルネットワークＤを用いても、ユーザの手を高精度で検知することができる。

【0059】

一方、処理対象のフレームＦ_ｎがＦ_１以外の場合（つまり、フレームインデックスｎが１でない場合）は、ユーザの手が鮮明に写っているとは限らず、フレームの全体を標準画角の画像によって訓練されたニューラルネットワークＤによって処理しても、ユーザの手を高精度で特定できない場合がある。そのため、本開示の実施例では、処理対象のフレームＦ_ｎがＦ_１以外のフレームの場合、直前のフレームＦ_ｎ－１について推定した手の領域に対応する領域の画像を処理対象のフレームＦ_ｎから抽出する。これは、２つの連続するフレーム間で、ユーザの手の変位（すなわち、移動）が比較的に小さいため、処理対象のフレームＦ_ｎにおける手の位置と、その直前のフレームＦ_ｎ－１における手の位置とが近いからである。

【0060】

その後、抽出した画像をＯｐｅｎＣＶ等の画像処理手法によって加工することにより、歪曲を排除し、当該画像を標準画角の画像に変換することができる。このように標準画角の画像に変換した疑似標準画像（第１の疑似標準画像、第２の疑似標準画像等）を標準画角の画像によって訓練されたニューラルネットワークＤによって処理することにより、ユーザの手を含む領域（例えば、バウンディングボックス）の座標を高精度で推定することができる。

【0061】

次に、ステップＳ６５０では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが１（つまり、入力映像の最初のフレーム）の場合、当該フレームＦ_１の全体をニューラルネットワークＤに入力することで、フレームＦ_１における手の位置を推定し、当該手を含む領域（例えば、バウンディングボックス）の座標を推定する。その後、本処理はステップＳ６８０へ進む。

【0062】

次に、ステップＳ６６０では、判定部は、処理対象のフレームＦ_ｎの直前のフレームであるフレームＦ_ｎ－１において検出した手の領域に対応する領域の画像を処理対象のフレームＦ_ｎから抽出する。
なお、ここでは、判定部は、フレームＦ_ｎ－１における手毎に、当該手の領域に対応する領域の画像を処理対象のフレームＦ_ｎから抽出してもよい。このように、ユーザの両手に対応する２つの画像（例えば、第１の画像、第２の画像）を抽出することができる。

【0063】

次に、ステップＳ６７０では、判定部は、処理対象のフレームＦ_ｎから抽出した画像（例えば、第１の画像、第２の画像）を、ＯｐｅｎＣＶ等の画像処理手法によって加工することにより、歪曲を排除し、当該画像を標準画角の画像に変換した疑似標準画像（例えば、第１の疑似標準画像、第２の疑似標準画像）を生成する。その後、判定部は、二次標準画像を、標準画角の画像によって訓練されたニューラルネットワークＤによって処理することにより、ユーザの手を含む領域（例えば、バウンディングボックス）の座標を推定する。

【0064】

次に、ステップＳ６８０では、判定部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0065】

次に、ステップＳ６９０では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きいか否かを判定する。処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きい場合、本処理はステップＳ６９５へ進む。一方、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下の場合、本処理はステップＳ６４０へ戻り、それ以降のステップを次のフレームで繰り返す。

【0066】

次に、ステップＳ６９５では、入力映像を構成する全てのフレームが処理された後、判定部は、各フレームＦ毎に、当該フレームにおける手を含む領域（例えば、バウンディングボックス{Ｈ_１，Ｈ_２．．．Ｈ_Ｎ}）の座標を出力する。

【0067】

以上説明した手の検知処理６００によれば、広角映像である入力映像を構成する各フレーム毎に、当該フレームにおける手の位置を高精度で推定し、フレームにおける手を含む領域（例えば、バウンディングボックス）の座標を出力することが可能となる。

【0068】

次に、図７及び図８を参照して、本開示の実施例に係る手の検知処理の変形例について説明する。
上述した図６を参照して説明した手の検知処理６００では、広角でない標準画角の画像において手の位置を特定するように訓練されたニューラルネットワークを用いて、広角映像である入力映像における手を検知するための処理を検出したが、本開示はこれに限定されない。例えば、広角映像において手の位置を特定するように訓練されたニューラルネットワークを用いてもよい。
以下、図７及び図８を参照して、広角映像において手の位置を特定するように訓練されたニューラルネットワークを用いて手の検知処理を行う場合について説明する。

【0069】

図７は、本開示の実施例１に係る広角映像において手の位置を特定するように訓練されたニューラルネットワークの訓練処理７００を示すブロック図である。

【0070】

まず、学習データ７０５として、標準画角の画像が学習データ７０５として取得される。この学習データ７０５となる標準画角の画像は、例えばオープンソースの学習データセットであってもよく、カスタムの学習データであってもよい。また、これらの学習データ７０５における手等のオブジェクトの正しい位置を示すアノテーションデータとして、グラウンドトゥルースバウンディングボックス７１０が取得される。

【0071】

画像変換部７１５は、学習データ７０５を入力し、ＯｐｅｎＣＶ等の画像処理手法によって加工することにより、歪曲を加え、広角画像に似せた疑似広角画像に変換する。また、グラウンドトゥルースバウンディングボックス７１０は、この学習データ７０５の画像の変換に合わせて、必要に応じて補正される。

【0072】

次に、画像変換部７１５によって生成された疑似広角画像は、オブジェクト検出部７２０に入力される。このオブジェクト検出部７２０は、オブジェクト検出部のパラメータ７１７に基づいて、疑似広角画像における手の位置を予測する。より具体的には、オブジェクト検出部７２０は、各疑似広角画像における手毎に、当該手を含む領域を規定する予測バウンディングボックス７３０の座標を出力する。
なお、ここでのオブジェクト検出部のパラメータ７１７は、ランダムな値に初期化されてもよく、事前に訓練されたニューラルネットワークのパラメータに初期化されてもよい。

【0073】

次に、誤差計算部７４０は、グラウンドトゥルースバウンディングボックス７１０（つまり、疑似広角画像に合わせて補正されたグラウンドトゥルースバウンディングボックス）と、予測バウンディングボックス７３０とを比較することで、オブジェクト検出部７２０の予測における誤差を計算する。

【0074】

次に、更新部７５０は、誤差計算部７４０によって計算されたオブジェクト検出部７２０の予測における誤差に基づいて、オブジェクト検出部のパラメータ７１７を更新する。ここで、更新部７５０は、いわゆる誤差逆伝播法を用いて、オブジェクト検出部７２０の予測における誤差を最小化するようにオブジェクト検出部のパラメータ７１７を調整してもよい。

【0075】

上述した訓練処理７００は、オブジェクト検出部７２０の誤差が所定の誤差基準を満たすまで繰り返されてもよい。これにより、広角画像において手の位置を特定するように訓練したニューラルネットワークを得ることができる。

【0076】

図８は、本開示の実施例１に係る手の検知処理８００の流れの一例を示すフローチャートである。手の検知処理８００は、広角画像において手の位置を特定するように訓練したニューラルネットワーク（つまり、図７を参照して説明した訓練処理７００によって得られたニューラルネットワーク）を用いて、広角映像である入力映像における手を検知するための処理であり、判定部によって実行される。

【0077】

まず、ステップＳ８１０では、判定部は、時系列に並ぶ、Ｎ個のフレームＦからなる広角映像（Ｆ_１、Ｆ_２、．．．Ｆ_Ｎ）を入力映像として受け付ける。上述したように、この入力映像は、例えば上述した撮影装置によって取得され、画像処理装置の入力部によって受け付けられる一人称視点の広角映像であってもよい。

【0078】

次に、ステップＳ８２０では、判定部は、広角画像によって訓練されたニューラルネットワークＤ１（第２のニューラルネットワーク）を構築する。ここでは、判定部は、例えば図７を参照して説明した訓練処理７００を実行することで、広角画像において手の位置を特定するように訓練したニューラルネットワークＤ１を構築してもよい。

【0079】

次に、ステップＳ８３０では、判定部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0080】

次に、ステップＳ８４０では、判定部は、処理対象のフレームＦ_ｎをステップＳ８２０で構築したニューラルネットワークＤ１に入力することで、当該フレームＦ_ｎにおける手の位置を推定し、当該手を含む領域（例えば、バウンディングボックス）の座標を推定する。

【0081】

次に、ステップＳ８５０では、判定部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0082】

次に、ステップＳ８６０では、判定部は、処理対象のフレームＦ_ｎをのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎに等しいか否かを判定する。処理対象のフレームＦ_ｎをのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎに等しい場合、本処理はステップＳ８７０へ進む。一方、処理対象のフレームのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎに等しくない場合（例えば、ｎがＮより小さい場合等）、本処理はステップＳ８４０へ戻り、それ以降のステップを次のフレームで繰り返す。

【0083】

次に、ステップＳ８７０では、入力映像を構成する全てのフレームが処理された後、判定部は、各フレームＦ_ｎ毎に、当該フレームにおける手を含む領域（例えば、バウンディングボックス｛Ｈ_１，Ｈ_２，．．．Ｈ_Ｎ}）の座標を出力する。

【0084】

以上説明した手の検知処理８００によれば、広角映像である入力映像を構成する各フレーム毎に、当該フレームにおける手の位置を高精度で推定し、フレームにおける手を含む領域（例えば、バウンディングボックス）の座標を出力することが可能となる。
また、手の検知処理８００では、全てのフレームの全体がニューラルネットワークに入力されるため、図７を参照して説明した手の検知処理６００に比較して、手を含む領域の判定、抽出及び画像加工が不要となり、処理負荷・処理時間を抑えることができる。

【0085】

次に、図９を参照して、本開示の実施例１に係るニューラルネットワーク訓練処理に用いられる学習データを格納する学習データテーブルのデータ構成について説明する。

【0086】

図９は、本開示の実施例１に係るニューラルネットワーク訓練処理に用いられる学習データを格納する学習データテーブル９００の一例を示す図である。学習データテーブル９００に格納される学習データは、例えば図７を参照して説明した訓練処理７００に用いられるデータである。

【0087】

図９に示すように、学習データテーブル９００は、学習画像９０１と、グラウンドトゥルースバウンディングボックス９０２とを含む。
学習画像９０１の列では、広角画像における手の領域を推定するニューラルネットワークの訓練に用いられる広角の学習画像のそれぞれを識別する識別子Ｔ_１～Ｔ_Ｍの情報が格納される。例えば、学習画像がＭ個ある場合、最初の学習画像がＴ_１であり、最後の学習画像がＴ_Ｍである。

【0088】

また、グラウンドトゥルースバウンディングボックス９０２の列では、各学習画像における手の正しい領域を規定するグラウンドトゥルースバウンディングボックスの情報が格納される。各グラウンドトゥルースバウンディングボックスは、学習画像における異なる手に対応する（つまり、学習画像に手が２つ写る場合、当該学習画像について二つのグラウンドトゥルースバウンディングボックスが存在する）。

【0089】

各グラウンドトゥルースバウンディングボックスは、Ｂ_ｍ、ｋとの形式の識別子に対応付けられている。ここでは、ｍは、学習画像の番号を示し、ｋは、グラウンドトゥルースバウンディングボックスの番号を示す（つまり、Ｂ_３、１は、３番目の学習画像Ｔ_３における１番目のグラウンドトゥルースバウンディングボックスである）。

【0090】

各グラウンドトゥルースバウンディングボックスは、（（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），ｃ）との形式の情報に規定される。ここでは、（ｘ_１，ｙ_１）は、バウンディングボックスの左上の隅の座標を示し、（ｘ_２，ｙ_２）は、バウンディングボックスの右下の隅の座標を示し、ｃは、オブジェクトのクラス（例えば、「手」）を示す。

【0091】

以上説明した学習データテーブル９００に示すように、広角の学習画像と、各学習画像における手の正しい領域を示すグラウンドトゥルースバウンディングボックスとを対応付けた学習データを用いてニューラルネットワークを訓練することにより、広角画像における手の領域を高精度で検出することが可能となる。

【0092】

次に、図１０を参照して、本開示の実施例１に係るニューラルネットワークによる予測結果の情報を格納するための予測結果テーブルのデータ構成について説明する。

【0093】

図１０は、本開示の実施例１に係るニューラルネットワークによる予測結果の情報を格納するための予測結果テーブル１０００の一例を示す図である。予測結果テーブル１０００に格納される予測結果の情報は、例えば図７を参照して説明した訓練処理において、オブジェクト検出部によって生成される情報である。

【0094】

図１０に示すように、予測結果テーブル１０００は、学習画像１００１と、予測バウンディングボックス１００２とを含む。
学習画像１００１の列では、オブジェクト検出部に入力される学習画像（例えば、広角画像へ変換した学習画像）のそれぞれを識別する識別子Ｔ_１～Ｔ_Ｍの情報が格納される。例えば、学習画像がＭ個ある場合、最初の学習画像がＴ_１であり、最後の学習画像がＴ_Ｍである。
また、予測バウンディングボックス１００２の列では、オブジェクト検出部によって予測された手の領域を規定する予測バウンディングボックスの情報が格納される。各予測バウンディングボックスは、学習画像における異なる手に対応する（つまり、学習画像に手が２つ写る場合、当該学習画像について二つの予測バウンディングボックスが存在する）。

【0095】

各予測バウンディングボックスは、Ｐ_ｍ、ｋとの形式の識別子に対応付けられている。ここでは、ｍは、学習画像の番号を示し、ｋは、予測バウンディングボックスの番号を示す（つまり、Ｐ_２、２は、２番目の学習画像Ｔ_２における２番目の予測バウンディングボックスである）。

【0096】

各予測バウンディングボックスは、（（ｘ_１’，ｙ_１’），（ｘ_２’，ｙ_２’），ｃ’，ｐ）との形式の情報に規定される。ここでは、（ｘ_１’，ｙ_１’）は、バウンディングボックスの左上の隅の座標を示し、（ｘ_２’，ｙ_２’）は、バウンディングボックスの右下の隅の座標を示し、ｃ’は、オブジェクトのクラス（例えば、「手」）を示し、ｐは、バウンディングボックスの信用度（ｃｏｎｆｉｄｅｎｃｅ）を示す。

【0097】

以上説明した予測結果テーブル１０００に示すように、特定の学習画像（例えば、標準画角の画像から変換した疑似広角画像）における手毎に、当該手を含む領域を規定する予測バウンディングボックスの情報を管理することができる。

【0098】

次に、図１１を参照して、本開示の実施例１に係る手の検知処理によって生成される手の位置の情報を格納する手の位置情報テーブルのデータ構成について説明する。

【0099】

図１１は、本開示の実施例１に係る手の検知処理によって生成される手の位置の情報を格納する手の位置情報テーブル１１００の一例を示す図である。手の位置情報テーブル１１００に格納される手の位置情報は、例えば図６を参照して説明した手の検知処理６００又は図８を参照して説明した手の検知処理８００において、手の位置を特定するように訓練されたニューラルネットワークによって生成されてもよい。

【0100】

図１１に示すように、手の位置情報テーブル１１００は、フレーム１１０１と、手の位置情報１１０２とを含む。
フレーム１１０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Ｍである。
また、手の位置情報１１０２の列では、各フレームにおいて検知された手の位置情報を規定するバウンディングボックスの情報が格納される。各バウンディングボックスは、フレームにおける異なる手に対応する（つまり、フレームに手が２つ写る場合、当該フレームについて二つのバウンディングボックスが存在する）。

【0101】

手の位置を規定するバウンディングボックスは、Ｈ_ｍ、ｋとの形式の識別子に対応付けられている。ここでは、ｍは、フレームの番号（つまり、フレームインデックス）を示し、ｋは、バウンディングボックスの番号を示す（つまり、Ｈ_１、２は、１番目のフレームＦ_１における２番目のバウンディングボックスである）。

【0102】

各予測バウンディングボックスは、（（ｘ_１’’，ｙ_１’’），（ｘ_２’’，ｙ_２’’））との形式の情報に規定される。ここでは、（ｘ_１’’，ｙ_１’’）は、バウンディングボックスの左上の隅の座標を示し、（ｘ_２’’，ｙ_２’’）は、バウンディングボックスの右下の隅の座標を示す。

【0103】

以上説明した手の位置情報テーブル１１００に示すように、入力映像を構成するフレーム毎に、当該フレームにおいて検知された手の位置を規定するバウンディングボックスの情報を管理することができる。

【0104】

次に、図１２を参照して、本開示の実施例１に係る手の追跡処理によって生成される追跡結果の情報を格納する追跡結果テーブルのデータ構成について説明する。

【0105】

上述したように、入力映像において、撮影装置を装着したユーザの手以外の人の手が写る場合がある。従って、本開示では、撮影装置を装着したユーザの手を、同じフレームに写っている他の人の手から区別するために、手を追跡する処理を行う。図１２は、本開示の実施例１に係る手の追跡処理によって生成される追跡結果の情報を格納する追跡結果テーブル１２００の一例を示す図である。

【0106】

図１２に示すように、追跡結果テーブル１２００は、フレーム１２０１と、ユーザの手の位置情報１２０２とを格納する。
フレーム１２０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Ｍである。
また、ユーザの手の位置情報１２０２の列では、各フレームにおいて検知されたユーザの手の位置情報を規定するバウンディングボックスの情報が格納される。各バウンディングボックスは、フレームにおける異なる手に対応する（つまり、フレームに手が２つ写る場合、当該フレームについて二つのバウンディングボックスが存在する）。
なお、追跡結果テーブル１２００は、手の追跡処理により、撮影装置を装着したユーザの手として特定された手の位置情報のみを含む点において、フレームにおける全ての手の位置情報（つまり、ユーザの手以外の人の手）を含む手の位置情報１１０２と異なる。

【0107】

ユーザの手の位置を規定するバウンディングボックスは、ＷＨ_ｍ、ｋとの形式の識別子に対応付けられている。ここでは、ｍは、フレームの番号（つまり、フレームインデックス）を示し、ｋは、バウンディングボックスの番号を示す（つまり、ＷＨ_１、２は、１番目のフレームＦ_１における２番目のバウンディングボックスである）。

【0108】

【0109】

以上説明した追跡結果テーブル１２００に示すように、入力映像を構成するフレーム毎に、当該フレームにおいてユーザの手として特定された手の位置を規定するバウンディングボックスの情報を管理することができる。

【0110】

次に、図１３を参照して、本開示の実施例１に係る対象領域判定処理の詳細について説明する。

【0111】

図１３は、本開示の実施例１に係る対象領域判定処理１３００の流れの一例を示すフローチャートである。図１３に示す対象領域判定処理１３００は、入力映像におけるユーザの手を含む対象領域を判定するための処理であり、上述した判定部によって行われる。
上述したように、本開示では、検出の対象となるアクティビティが、ユーザの手の周囲に行われているはずであることを前提としている。そのため、ユーザの手を含む対象領域においては、検出の対象となるアクティビティが含まれているはずである。

【0112】

まず、ステップＳ１３１０では、判定部は、各フレームにおける手のバウンディングボックスの座標（ＷＨ_１，１，ＷＨ_１，２，ＷＨ_２，１，．．．，ＷＨ_Ｎ，１，ＷＨ_Ｎ，２）を入力する。ここで入力される手のバウンディングボックスの座標は、例えば上述した手の追跡処理によって特定された、ユーザの手の位置を規定するバウンディングボックスの情報であり、図１２に示す追跡結果テーブル１２００に格納されている。

【0113】

次に、ステップＳ１３２０では、判定部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0114】

次に、ステップＳ１３３０では、判定部は、処理対象のフレームＦ_ｎにおけるユーザの両手のバウンディングボックスＷＨ_ｎ，１、ＷＨ_ｎ，２の座標を選択する。

【0115】

次に、ステップＳ１３４０では、判定部は、処理対象のフレームＦ_ｎにおける対象領域の座標を計算する。上述したように、各バウンディングボックスＷＨ_ｍ、ｋは、バウンディングボックスの左上の隅の座標（ｘ_ｔ，ｙ_ｔ）と、バウンディングボックスの右下の隅の座標（ｘ_ｂ，ｙ_ｂ）に規定される。
従って、フレームＦ_ｎにおいて、ユーザの第１の手（例えば、左手）のバウンディングボックスＷＨ_ｎ，１は、(ｘ_{ｎ，１，１}，ｙ_{ｎ，１，１}，ｘ_{ｎ，１，２}，ｙ_{ｎ，１，２})の座標に規定され、ユーザの第２の手（例えば、右手）のバウンディングボックスＷＨ_ｎ，２は、(ｘ_{ｎ，２，１}，ｙ_{ｎ，２，１}，ｘ_{ｎ，２，２}，ｙ_{ｎ，２，２})の座標に規定される。
この場合、判定部は、フレームＦ_ｎにおける対象領域ＰＡ_ｎの座標を、以下の数式１のように定義する。

【数1】

また、ここで、判定部は、（ｘ_ｎ，ｔ）、（ｙ_ｎ，ｔ）、（ｘ_ｎ，ｂ）及び（ｙ_ｎ，ｂ）のそれぞれを以下の数式２～５に従って計算する。

【数2】

【数3】

【数4】

【数5】

このように、判定部は、フレームＦ_ｎにおける対象領域ＰＡ_ｎの座標を、当該フレームにおける手のバウンディングボックスに基づいて計算することができる。

【0116】

次に、ステップＳ１３５０では、判定部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0117】

次に、ステップＳ１３６０では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下か否かを判定する。処理対象のフレームのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きい場合、本処理はステップＳ１３７０へ進む。一方、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下の場合、本処理はステップＳ１３３０へ戻り、それ以降のステップを次のフレームで繰り返す。

【0118】

次に、ステップＳ１３７０では、入力映像を構成する全てのフレームが処理された後、判定部は、各フレームＦ_ｎ毎に、当該フレームについて判定した対象領域のバウンディングボックスの座標（ＰＡ_１，ＰＡ_２，．．．，ＰＡ_Ｎ）を出力する。

【0119】

以上説明した対象領域判定処理１３００によれば、入力映像を構成する各フレームにおいて、検出の対象となるアクティビティを含む対象領域を判定することができる。

【0120】

次に、図１４を参照して、本開示の実施例１に係る対象領域判定処理によって判定される対象領域の情報を格納する対象領域情報テーブルのデータ構成について説明する。
図１４は、本開示の実施例１に係る対象領域判定処理によって判定される対象領域の情報を格納する対象領域情報テーブル１４００の一例を示す図である。

【0121】

図１４に示すように、対象領域情報テーブル１４００は、フレーム１４０１と、対象領域１４０２の情報を格納する。
フレーム１４０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Nである。
また、対象領域１４０２の列では、各フレームにおいて判定された対象領域のバウンディングボックスの情報が格納される。各対象領域のバウンディングボックスは、ＰＡ_ｎとの形式の識別子に対応付けられている。ここでは、ｎは、フレームの番号（つまり、フレームインデックス）を示す。

【0122】

以上説明した対象領域情報テーブル１４００に示すように、入力映像を構成するフレーム毎に、当該フレームにおいて、検出の対象となるアクティビティを含む対象領域のバウンディングボックスの座標を管理することができる。

【0123】

次に、図１５を参照して、本開示の実施例１に係る部分的画像抽出処理の詳細について説明する。

【0124】

図１５は、本開示の実施例１に係る部分的画像抽出処理１５００の流れを示すフローチャートである。図１５に示す部分的画像抽出処理１５００は、入力映像から、ユーザの手を含む対象領域に対応する部分的画像を抽出するための処理であり、抽出部によって実行される。

【0125】

まず、ステップＳ１５１０では、抽出部は、Ｎ個のフレームＦからなる広角映像（Ｆ_１、Ｆ_２、．．．Ｆ_Ｎ）である入力映像と、各フレームにおける手のバウンディングボックスの座標（ＷＨ_１，１，ＷＨ_１，２，ＷＨ_２，１，．．．，ＷＨ_Ｎ，１，ＷＨ_Ｎ，２）と、各フレームについて判定した対象領域のバウンディングボックスの座標（ＰＡ_１，ＰＡ_２，．．．，ＰＡ_Ｎ）とを入力する。
入力映像は、例えば上述した撮影装置によって取得され、画像処理装置の入力部によって受け付けられる一人称視点の広角映像であってもよい。

【0126】

各フレームにおける手のバウンディングボックスの座標は、例えば上述した手の追跡処理によって特定され、図１２に示す追跡結果テーブル１２００に格納されている座標の情報である。
各フレームについて判定した対象領域のバウンディングボックスの座標は、例えば上述した対象領域判定処理によって判定され、図１４に示す対象領域情報テーブル１４００に格納されている座標の情報である。

【0127】

次に、ステップＳ１５２０では、抽出部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0128】

次に、ステップＳ１５３０では、抽出部は、処理対象のフレームＦ_ｎにおけるユーザの２つの手のバウンディングボックスＷＨ_ｎ，１，ＷＨ_ｎ，２のそれぞれの中心点ｃ_１、ｃ_２を計算した後、バウンディングボックスＷＨ_ｎ，１，ＷＨ_ｎ，２のそれぞれの中心点間の距離（すなわち、ユーザの両手間の距離）ｄを計算する。
上述したように、各バウンディングボックスＷＨ_ｍ、ｋは、左上の隅の座標（ｘ_ｔ，ｙ_ｔ）と、右下の隅の座標（ｘ_ｂ，ｙ_ｂ）に規定される。
また、バウンディングボックスＷＨ_ｎ，１の中心点ｃ_１は（ｘ_１，ｙ_１）によって規定され、バウンディングボックスＷＨ_ｎ，２の中心点ｃ_２は（ｘ_２，ｙ_２）によって規定される。
フレームＦ_ｎにおけるバウンディングボックスＷＨ_ｎ，kの中心点ｃ_ｎは、以下の数式によって求められる。

【数6】

抽出部は、バウンディングボックスＷＨ_ｎ，１，ＷＨ_ｎ，２のそれぞれの中心点ｃ_１、ｃ_２を計算した後、バウンディングボックスＷＨ_ｎ，１，ＷＨ_ｎ，２のそれぞれの中心点間の距離ｄを計算する。この中心点間の距離ｄは、以下の数式によって求められる。

【数7】

【0129】

次に、ステップＳ１５４０では、抽出部は、ステップＳ１５３０で計算した距離ｄを、予め設定された所定の閾値Ｔに比較する。ユーザの両手間の距離ｄが所定の閾値Ｔ以下の場合、本処理はステップＳ１５６０へ進む。
一方、ユーザの両手間の距離ｄが、所定の閾値Ｔを超える場合、本処理はステップＳ１５５０へ進む。

【0130】

本開示では、ユーザの両手間の距離ｄが、所定の閾値Ｔ以下の場合、ユーザの両手がいずれも同一のアクティビティに係っていると仮定され、両手を含む１つの部分的画像を抽出する。従って、ステップＳ１５５０では、抽出部は、処理対象のフレームＦ_ｎから、当該フレームにおける対象領域ＰＡ_ｎのバウンディングボックスに対応する部分的画像を抽出する。抽出部は、対象領域ＰＡ_ｎのバウンディングボックスの縦横比を維持しつつ、対象領域ＰＡ_ｎを自然数に乗じた領域に対応する部分的画像を抽出してもよい。
なお、ここで抽出される部分的画像の大きさは、適宜に拡大されたり、縮小されたりしてもよい。

【0131】

一方、ユーザの両手間の距離ｄが、所定の閾値Ｔを超える場合、両手がそれぞれ別々のアクティビティに係っていると仮定され、両手それぞれについて別々の部分的画像が抽出される。従って、ステップＳ１５６０では、抽出部は、処理対象のフレームＦ_ｎから、当該フレームにおける第１のユーザの手（例えば、左手）のバウンディングボックスＷＨ_ｎ，１に対応する部分的画像（例えば、第１の部分的画像）と、第２のユーザの手（例えば、右手）のバウンディングボックスＷＨ_ｎ，１に対応する部分的画像（例えば、第２の部分的画像）とをそれぞれ抽出する。
なお、ここで抽出される部分的画像の大きさは、適宜に拡大されたり、縮小されたりしてもよい。

【0132】

次に、ステップＳ１５７０では、抽出部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0133】

次に、ステップＳ１５８０では、抽出部は、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下か否かを判定する。処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きい場合、本処理はステップＳ１５９０へ進む。一方、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下の場合、本処理はステップＳ１５３０へ戻り、それ以降のステップを次のフレームで繰り返す。

【0134】

次に、ステップＳ１５９０では、抽出部は、各フレームから抽出した部分的画像（I_1,1, I_1,2，．．．，I_N,1）を出力する。

【0135】

以上説明した部分的画像抽出処理１５００によれば、ユーザの手の周囲等の、アクティビティ検出に有用な視覚的情報を中心とした対象領域を判定し、当該対象領域に対応する部分的画像を入力映像から抽出することができる。このように抽出した部分的画像に対してアクティビティ検出を行うことにより、高精度のアクティビティ検出が可能となる。

【0136】

次に、図１６を参照して、本開示の実施例１に係る部分的画像抽出処理によって抽出される部分的画像の情報を格納する部分的画像管理テーブルのデータ構成について説明する。

【0137】

図１６は、本開示の実施例１に係る部分的画像抽出処理によって抽出される部分的画像の情報を格納する部分的画像管理テーブル１６００の一例を示す図である。

【0138】

図１６に示すように、部分的画像管理テーブル１６００は、フレーム１６０１と、部分的画像１６０２の情報を格納する。
フレーム１６０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Nである。
また、部分的画像１６０２の列では、各フレームから抽出された部分的画像の情報が格納される。各部分的画像は、I_ｎ、ｋとの形式の識別子に対応付けられている。ｎは、フレームの番号（つまり、フレームインデックス）を示し、ｋは、部分的画像の番号を示す（つまり、I_３、１は、３番目のフレームＦ_３における１番目の部分的画像である）。
上述したように、両手間の距離が所定の閾値以下の場合、１つのフレームから両手を含む１つの部分的画像が抽出され、両手間の距離が所定の閾値を超える場合、両手のそれぞれについて部分的画像が抽出される。従って、部分的画像管理テーブル１６００において、各フレームは、１つ又は２つの部分的画像に対応付けられる。

【0139】

以上説明した部分的画像管理テーブル１６００に示すように、入力映像を構成するフレーム毎に、当該フレームから抽出された部分的画像の情報を管理することができる。

【0140】

＜実施例２＞
次に、図１７～図２２をを参照して、本開示の実施例２について説明する。
本開示の実施例１に係る部分画像抽出処理では、ユーザの両手間の距離ｄが、所定の閾値Ｔを超える場合、両手がそれぞれ別々のアクティビティに係っていると仮定され、両手それぞれについて別々の部分的画像を抽出する構成について説明した。しかし、作業によっては、ユーザは利き手のみを使用して作業を行い、もう片手を作業に使用しない場合がある。この場合、ユーザの両手それぞれについて別々の部分的画像を抽出することが不要となる。

【0141】

従って、本開示の実施例２では、ユーザの利き手を指定する利き手情報を取得し、入力映像を構成する各フレームにおいてユーザの右手及び左手をそれぞれ識別することで、各フレームにおけるユーザの利き手を特定することができる。その後、ユーザの利き手のみについて部分的画像を抽出する。これにより、ユーザの利き手を中心としてアクティビティ検出が可能となる。
なお、以下では、本開示の実施例２の実施例１に対する相違点を中心に説明し、共通している構成についての説明は省略する。

【0142】

図１７は、本開示の実施例２に係る対象領域判定処理１７００の流れを示すブロック図である。図１７に示す対象領域判定処理１７００は、ユーザの右手及び左手をそれぞれ識別し、入力映像におけるユーザの右手及び左手を含む対象領域を判定するための処理であり、上述した判定部によって行われる。
上述したように、本開示では、検出の対象となるアクティビティが、ユーザの利き手の周囲に行われていることを前提としている。そのため、ユーザの利き手を含む対象領域においては、検出の対象となるアクティビティが含まれているはずである。

【0143】

まず、判定部は、入力映像１７０１を入力した後、当該入力映像１７０１における特定のフレーム（例えば、最初のフレーム）に対して、手（片手又は両手）を検知する処理を実行する（１７０５）。ここでは、判定部は、入力映像１７０１におけるユーザの手を検知するために、Ｅｇｏｈａｎｄｓのようなオープンソースの学習データ又はカスタムの学習データに基づいて、手を検知するように訓練されたニューラルネットワーク（例えば、ＶＧＧ１６－ＳＳＤやＹＯＬＯｖ３）を用いてもよい。このニューラルネットワークは、素手のみならず、工具等のオブジェクトを保持している手や、手袋を着けた手を検知するように訓練されてもよい。

【0144】

このニューラルネットワークは、入力映像１７０５における手毎に当該手を含む領域１７１０を推定して、出力する。ここでは、ニューラルネットワークは、手を含む領域１７１０として、バウンディングボックスを定め、バウンディングボックスの位置を規定する座標を出力してもよい。

【0145】

次に、判定部は、手を追跡する処理を実行する（１７１５）。ここでは、判定部は、特定のフレームについて推定した手を含む領域１７１０に基づいて、入力映像１７０１を構成する各フレームにおいて手を特定する。ここでは、判定部は、手を追跡する処理を実行することで、入力映像１７０１を構成する各フレームについて、ユーザの手を含む領域（例えば、バウンディングボックス）を判定することができる。

【0146】

ここでは、手を追跡する処理として、判定部は、いわゆるカルマンフィルタや、オープンソースの学習データ又はカスタムの学習データに基づいて、手を追跡するように訓練されたニューラルネットワークを用いてもよい。この手を追跡する処理を用いることにより、例えば撮影装置を装着したユーザの手以外に、他の人の手が入力映像１７０１に写った場合に、撮影装置を装着したユーザの手と他の人の手を区別することが可能となる。ある実施例では、画像処理システムは、手の追跡を容易にするため、撮影装置による広角映像の撮影開始時に、撮影装置の前に手を真っ直ぐにかざすようにユーザを指示してもよい。これにより、撮影装置を装着したユーザの手と他の人の手がより区別しやすくなる。

【0147】

次に、判定部は、手を追跡する処理により、入力映像１７０１を構成する各フレームにおいてユーザの手を特定した後、それぞれの手を左手又は右手として識別する（１７１８）。ここで、手を左手又は右手として識別するために、例えばオープンソース又はカスタムの学習データに基づいて訓練されたニューラルネットワークや機械学習手段を用いてもよい。
これにより、入力映像１７０１を構成する各フレームにおいて、ユーザの両手が右手又は左手として識別される。
なお、手を左手又は右手として識別する処理の詳細は後述する（図１８参照）ため、ここではその説明を省略する。

【0148】

次に、入力映像１７０１を構成する各フレームにおいてユーザの両手を右手又は左手として識別した後、識別した両手を含む領域の位置（つまり、バウンディングボックスの座標）に基づいて、対象領域１７２５を判定する（１７２０）。上述したように、この対象領域１７２５は、検出の対象となるアクティビティを含むはずである。

【0149】

以上説明した対象領域判定処理１７００によれば、入力映像１７０５において、ユーザの両手を右手又は左手として識別し、検出の対象となるアクティビティを含む対象領域を判定することができる。

【0150】

図１８は、本開示の実施例２に係る右手・左手識別処理１８００の流れを示すフローチャートである。右手・左手識別処理１８００は、ユーザの両手を右手又は左手として識別するための処理であり、上述した判定部によって行われる。

【0151】

まず、ステップＳ１８０５では、判定部は、各フレームにおける手のバウンディングボックスの座標（ＷＨ_１，１，ＷＨ_１，２，ＷＨ_２，１，．．．，ＷＨ_Ｎ，１，ＷＨ_Ｎ，２）を入力する。ここで入力される手のバウンディングボックスの座標は、例えば上述した手の追跡処理によって特定された、ユーザの手の位置を規定するバウンディングボックスの情報であり、図１２に示す追跡結果テーブル１２００に格納されている。

【0152】

次に、ステップＳ１８１０では、判定部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0153】

次に、ステップＳ１８１５では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが１（つまり、入力映像の最初のフレーム）であるか否かを判定する。処理対象のフレームのフレームインデックスｎが１の場合、本処理はステップＳ１８２０へ進み、処理対象のフレームＦ_ｎのフレームインデックスｎが１でない場合、本処理はステップＳ１８３５へ進む。

【0154】

次に、ステップＳ１８２０では、判定部は、処理対象のフレームであるＦ_１において、第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置しているか否かを判定する。ここでは、判定部は、第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置しているか否かを判定するために、それぞれのバウンディングボックスＷＨ_１，１及びＷＨ_１，２の中心点を計算した後、それぞれの中心点のフレームＦ_１の左の縁までの距離を計算する。

【0155】

その後、判定部は、第１の手のバウンディングボックスＷＨ_１，１の中心点からフレームＦ_１の左の縁までの距離が、第２の手のバウンディングボックスＷＨ_１，２の中心点からフレームＦ_１の左の縁までの距離より短いか否かを判定する。第１の手のバウンディングボックスＷＨ_１，１の中心点からフレームＦ_１の左の縁までの距離が、第２の手のバウンディングボックスＷＨ_１，２の中心点からフレームＦ_１の左の縁までの距離より短い場合、第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置していると判定する。

【0156】

第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置している場合、本処理はステップＳ１８３０へ進む。一方、第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置していない場合、本処理はステップＳ１８２５へ進む。

【0157】

第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置していない場合、ステップＳ１８２５では、判定部は、第１の手のバウンディングボックスＷＨ_１，１がユーザの右手に対応し、第２の手のバウンディングボックスＷＨ_１，２がユーザの左手に対応すると判定する。
一方、第１の手のバウンディングボックスＷＨ_１，１が第２の手のバウンディングボックスＷＨ_１，２より左側に位置している場合、ステップＳ１８３０では、判定部は、第１の手のバウンディングボックスＷＨ_１，１がユーザの左手に対応し、第２の手のバウンディングボックスＷＨ_１，２がユーザの右手に対応すると判定する。

【0158】

上述したように、本開示では、画像処理システムは、撮影装置による広角映像の撮影開始時に、撮影装置の前に手を真っ直ぐにかざす指示をユーザに与える。このため、ユーザの両手が入力映像の最初のフレームであるフレームＦ_１に鮮明に写り、ユーザの左手が右手の左側に位置することとなる。従って、フレームの左側に位置する手のバウンディングボックスが左手に対応し、右側に位置する手のバウンディングボックスが右手に対応すると推定することができる。
ステップＳ１８２５及びＳ１８３０の判定の後、本処理はステップＳ１８５０へ進む。

【0159】

ステップＳ１８１５において処理対象のフレームＦ_ｎのフレームインデックスｎが１でないと判定された場合、本処理はステップＳ１８３５へ進む。ステップＳ１８３５では、判定部は、処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において左手に対応すると推定されたバウンディングボックスＬＨ_ｎ－１とのＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を計算する。また、判定部は、処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において右手に対応すると推定されたバウンディングボックスＲＨ_ｎ－１とのＩｏＵを計算する。

【0160】

ＩｏＵとは、二つの物体がどれぐらい重なっているかを示す指標である。ここでは、ＩｏＵは、連続するフレームにおいて、手の領域が重なる割合（重なり量）を示す。
処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において左手に対応すると推定されたバウンディングボックスＬＨ_ｎ－１とのＩｏＵ（ＩＯＵ(ＷＨ_ｎ，１、ＬＨ_ｎ－１)）が、処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において右手に対応すると推定されたバウンディングボックスＲＨ_ｎ－１とのＩｏＵ（ＩＯＵ(ＷＨ_ｎ，１、ＲＨ_ｎ－１)）より大きい場合、本処理はステップＳ１８４５へ進む。

【0161】

一方、処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において左手に対応すると推定されたバウンディングボックスＬＨ_ｎ－１とのＩｏＵ（ＩＯＵ(ＷＨ_ｎ，１、ＬＨ_ｎ－１)）が、処理対象のフレームＦ_ｎの第１の手のバウンディングボックスＷＨ_ｎ，１と、処理対象のフレームＦ_ｎの直前のフレームであるＦ_ｎ―１において右手に対応すると推定されたバウンディングボックスＲＨ_ｎ－１とのＩｏＵ（ＩＯＵ(ＷＨ_ｎ，１、ＲＨ_ｎ－１)）以下の場合、本処理はステップＳ１８４０へ進む。

【0162】

上述したように、２つの連続するフレーム間で、ユーザの手の変位（すなわち、移動）が比較的に小さいため、処理対象のフレームＦ_ｎにおける両手の領域が、その直前のフレームＦ_ｎ－１における両手の領域に重なる。
従って、ＩＯＵ(ＷＨ_ｎ，１、ＬＨ_ｎ－１)がＩＯＵ(ＷＨ_ｎ，１、ＲＨ_ｎ－１)以下の場合、ステップＳ１８４０では、判定部は、第１の手のバウンディングボックスＷＨ_ｎ，１がユーザの右手に対応し、第２の手のバウンディングボックスＷＨ_ｎ，２がユーザの左手に対応すると推定する。

【0163】

一方、ＩＯＵ(ＷＨ_ｎ，１、ＬＨ_ｎ－１)がＩＯＵ(ＷＨ_ｎ，１、ＲＨ_ｎ－１)より大きい場合、ステップＳ１８４５では、判定部は、第１の手のバウンディングボックスＷＨ_ｎ，１がユーザの左手に対応し、第２の手のバウンディングボックスＷＨ_ｎ，２がユーザの右手に対応すると推定する。
ステップＳ１８４０及びＳ１８４５の判定の後、本処理はステップＳ１８５０へ進む。

【0164】

次に、ステップＳ１８５０では、判定部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0165】

次に、ステップＳ１８５５では、判定部は、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下か否かを判定する。処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きい場合、本処理はステップＳ１８６０へ進む。一方、処理対象のフレームのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下の場合、本処理はステップＳ１８１５へ戻り、それ以降のステップを次のフレームで繰り返す。

【0166】

次に、ステップＳ１８６０では、判定部は、入力映像を構成するフレーム毎に、識別したユーザの左手及び右手のそれぞれの領域を規定するバウンディングボックスの情報を出力する。

【0167】

以上説明した右手・左手識別処理１８００によれば、入力映像１７０５を構成する各フレームにおいて、ユーザの両手を右手又は左手として識別し、左手及び右手のそれぞれの領域を規定するバウンディングボックスを推定することができる。

【0168】

図１９は、本開示の実施例２に係る右手・左手識別処理によって生成されるユーザの右手・左手の位置情報を格納する右手・左手位置情報テーブル１９００の一例を示す図である。

【0169】

図１９に示すように、右手・左手位置情報テーブル１９００は、フレーム１９０１と、右手・左手の位置情報１９０２とを格納する。
フレーム１９０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Ｍである。

【0170】

また、右手・左手の位置情報１９０２の列では、各フレームにおいて識別されたユーザの右手及び左手の位置を規定するバウンディングボックス（ＬＨ_ｎ、ＲＨ_ｎ）の情報が格納される。上述したように、ユーザの右手及び左手の位置を規定するバウンディングボックスは、（（ｘ_１，ｙ_１），（ｘ_２，ｙ_２））との形式の情報に規定される。ここでは、（ｘ_１，ｙ_１）は、バウンディングボックスの左上の隅の座標を示し、（ｘ_２，ｙ_２）は、バウンディングボックスの右下の隅の座標を示す。

【0171】

以上説明した右手・左手位置情報テーブル１９００に示すように、入力映像を構成するフレーム毎に、当該フレームにおいて識別されたユーザの左手及び右手の位置を規定するバウンディングボックスの情報を管理することができる。

【0172】

図２０は、本開示の実施例２に係る部分的画像抽出処理２０００の流れの一例を示すフローチャートである。図２０に示す部分的画像抽出処理２０００は、入力映像から、ユーザの利き手を示す利き手情報に基づいて、ユーザの手を含む対象領域に対応する部分的画像を抽出するための処理であり、抽出部によって実行される。

【0173】

まず、ステップＳ２０１０では、抽出部は、Ｎ個のフレームＦからなる広角映像（Ｆ_１、Ｆ_２、．．．Ｆ_Ｎ）である入力映像と、各フレームにおけるユーザの左手及び右手の手のバウンディングボックスの座標（ＬＨ_１，ＲＨ_１，ＬＨ_２，．．．，ＬＨ_Ｎ、ＲＨ_Ｎ）と、各フレームについて判定した対象領域のバウンディングボックスの座標（ＰＡ_１，ＰＡ_２，．．．，ＰＡ_Ｎ）と、ユーザの利き手を示す利き手情報とを入力する。
入力映像は、例えば上述した撮影装置によって取得され、画像処理装置の入力部によって受け付けられる一人称視点の広角映像であってもよい。

【0174】

各フレームにおけるユーザの右手及び左手のバウンディングボックスの座標は、例えば上述した右手・左手識別処理によって特定され、図１９に示す右手・左手位置情報テーブル１９００に格納されている座標の情報である。
各フレームについて判定した対象領域のバウンディングボックスの座標は、例えば上述した対象領域判定処理によって判定され、図１４に示す対象領域情報テーブル１４００に格納されている座標の情報である。
利き手情報は、ユーザの利き手が右手か左手かを示す情報であり、例えば後述するユーザインタフェースを介してユーザから入力されてもよい。

【0175】

次に、ステップＳ２０２０では、抽出部は、入力映像におけるフレームのフレームインデックスとして、変数「ｎ」を宣言し、ｎを１とする。このフレームインデックスｎは、入力映像に含まれる複数のフレームの内、何番目のフレームを処理するかを指定する変数である。

【0176】

次に、ステップＳ２０３０では、抽出部は、処理対象のフレームＦ_ｎにおけるユーザの右手及び左手のバウンディングボックスＬＨ_ｎ，ＲＨ_ｎのそれぞれの中心点ｃ_L、ｃ_Rを計算した後、ＬＨ_ｎ，ＲＨ_ｎのそれぞれの中心点間の距離（すなわち、ユーザの両手間の距離）ｄを計算する。
ここで、バウンディングボックスＬＨ_ｎ，ＲＨ_ｎのそれぞれの中心点ｃ_L、ｃ_R及び中心点間の距離ｄは、上述した数式６及び数式７によって求められるため、ここでは、繰り返しとなる説明を省略する。

【0177】

次に、ステップＳ２０４０では、抽出部は、ステップＳ２０３０で計算した距離ｄを、予め設定された所定の閾値Ｔに比較する。ユーザの両手間の距離ｄが所定の閾値Ｔ以下の場合、本処理はステップＳ２０５０へ進む。
一方、ユーザの両手間の距離ｄが、所定の閾値Ｔを超える場合、本処理はステップＳ２０６０へ進む。

【0178】

本開示では、ユーザの両手間の距離ｄが、所定の閾値Ｔ以下の場合、ユーザの両手ともが同一のアクティビティに係っていると仮定され、両手を含む１つの部分的画像を抽出する。従って、ステップＳ２０５０では、抽出部は、処理対象のフレームＦ_ｎから、当該フレームにおける対象領域のバウンディングボックスＰＡ_ｎに対応する部分的画像を抽出する。また、抽出部は、バウンディングボックスＰＡ_ｎの縦横比を維持しつつ、バウンディングボックスＰＡ_ｎを自然数に乗じた領域に対応する部分的画像を抽出してもよい。
なお、ここで抽出される部分的画像の大きさは、適宜に拡大されたり、縮小されたりしてもよい。

【0179】

一方、ユーザの両手間の距離ｄが、所定の閾値Ｔを超える場合、両手がそれぞれ別々のアクティビティに係っていると仮定される。そこで、ステップＳ２０６０では、抽出部は、ステップＳ２０１０で入力された利き手情報によって示されているユーザの利き手のみについて部分的画像を抽出する。
例えば、利き手情報によって示されているユーザの利き手が右手の場合、抽出部は、上述した右手・左手位置情報テーブル１９００に基づいて、ユーザの右手のバウンディングボックスＲＨ_ｎに対応する部分的画像をフレームＦ_ｎから抽出する。

【0180】

一方、利き手情報によって示されているユーザの利き手が左手の場合、抽出部は、上述した右手・左手位置情報テーブル１９００に基づいて、ユーザの左手のバウンディングボックスＬＨ_ｎに対応する部分的画像をフレームＦ_ｎから抽出する。
なお、ここで抽出される部分的画像の大きさは、適宜に拡大されたり、縮小されたりしてもよい。

【0181】

次に、ステップＳ２０７０では、抽出部は、フレームインデックスｎを１で加算する（つまり、ｎをn+1とする）。

【0182】

次に、ステップＳ２０８０では、抽出部は、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下か否かを判定する。処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎより大きい場合、本処理はステップＳ２０９０へ進む。一方、処理対象のフレームＦ_ｎのフレームインデックスｎが、入力映像に含まれるフレームの数Ｎ以下の場合、本処理はステップＳ２０３０へ戻り、それ以降のステップを次のフレームで繰り返す。

【0183】

次に、ステップＳ２０９０では、抽出部は、各フレームから抽出した部分的画像（I₁, I₁，．．．，I_N）を出力する。

【0184】

以上説明した部分的画像抽出処理２０００によれば、ユーザの利き手を示す利き手情報に基づいた部分的画像を抽出することができる。これにより、ユーザの利き手ではない手に対応する部分的画像の抽出処理を省くことができ、処理負荷・処理時間を抑えることができると共に、ユーザの利き手を中心としてアクティビティ検出が可能となる。

【0185】

図２１は、本開示の実施例２に係る部分的画像抽出処理によって抽出される部分的画像の情報を格納する部分的画像管理テーブル２１００の一例を示す図である。

【0186】

図２１に示すように、部分的画像管理テーブル２１００は、フレーム２１０１と、部分的画像２１０２の情報を格納する。
フレーム２１０１の列では、入力映像における各フレームを識別する識別子F_１～F_Nの情報が格納される。例えば、入力映像がＮ個ある場合、最初のフレームがＦ_１であり、最後のフレームがＦ_Nである。
また、部分的画像２１０２の列では、各フレームから抽出された部分的画像の情報が格納される。各部分的画像は、I_ｎとの形式の識別子に対応付けられている。ｎは、フレームの番号（つまり、フレームインデックス）を示す。
上述したように、本開示の実施例２では、各フレームから、１つの部分的画像（ユーザの両手を含む部分的画像又はユーザの利き手を含む部分的画像）のみが抽出されるため、部分的画像管理テーブル２１００において、各フレームは、１つの部分的画像に対応付けられる。

【0187】

以上説明した部分的画像管理テーブル２１００に示すように、入力映像を構成するフレーム毎に、当該フレームから抽出された部分的画像の情報を管理することができる。

【0188】

図２２は、本開示の実施例２に係るユーザインタフェース２２００の構成を示す図である。図２２に示すユーザインタフェース２２００は、例えば上述したクライアント端末（例えば、図２に示すクライアント端末２１０）の画面に表示されて、撮影装置を装着したユーザ又はアクティビティ検出の依頼者によって利用されてもよい。

【0189】

図２２に示すように、ユーザインタフェース２２００は、入力ウインドウ２２０１、対象フレームウインドウ２２０２、利き手情報ウインドウ２２０３、出力ウインドウ２２０４、２２０５及びユーザフィードバックウインドウ２２０６、２２０７を含む。

【0190】

入力ウインドウ２２０１では、ユーザインタフェースのユーザは、入力映像となる広角映像を選択することができる。ここで、ユーザインタフェースのユーザは、入力映像となる広角映像をクライアント端末のローカルストレージ、画像処理装置の記憶部、又はクラウドストレージ等から選択してもよい。

【0191】

対象フレームウインドウ２２０２では、ユーザインタフェースのユーザは、入力映像におけるフレームを画像処理装置の処理対象として選択してもよい。ここでは、ユーザインタフェースのユーザは、特定のフレームのフレームインデックスを入力してもよく、複数のフレームを含むフレームインデックスの範囲を入力してもよく、処理対象のフレームを含む時刻の範囲（開始時刻及び終了事時刻）を入力してもよい。

【0192】

利き手情報ウインドウ２２０３では、ユーザインタフェースのユーザは、撮影装置を装着したユーザの利き手を示す利き手情報を入力することができる。例えば、ここで、ユーザインタフェースのユーザは、撮影装置を装着したユーザの利き手が右手か左手かを入力してもよい。

【0193】

出力ウインドウ２２０４では、ユーザインタフェースのユーザは、対象フレームウインドウ２２０２で指定した処理対象フレームに対して、上述した対象領域判定処理を実行させ、判定した対象領域を画面に表示させることができる。これにより、ユーザインタフェースのユーザは、各フレーム毎に、判定した対象領域を画面上で確認することができる。
出力ウインドウ２２０５では、ユーザインタフェースのユーザは、対象フレームウインドウ２２０２で指定した処理対象フレームに対して、上述した部分的画像抽出処理を実行させ、抽出した部分的画像を画面に表示させることができる。これにより、ユーザインタフェースのユーザは、各フレーム毎に、抽出した部分的画像を画面上で確認することができる。

【0194】

ユーザフィードバックウインドウ２２０６では、ユーザインタフェースのユーザは、抽出した部分的画像の保存先を指定し、部分的画像を保存することができる。
ユーザフィードバックウインドウ２２０６では、ユーザインタフェースのユーザは、抽出した部分的画像を加工することができる。ここで、ユーザは、抽出された部分的画像が検出対象のアクティビティを含まない場合等には、部分的画像を削除し、新たな部分的画像を抽出する指示を入力したり、検出対象のアクティビティを含む部分的画像の座標を手動で指定したりしてもよい。

【0195】

以上説明した画像処理手段によれば、一人称視点の広角映像に対する高精度のアクティビティ検出が可能となる。より具体的には、本開示の実施例では、一人称視点の広角映像を入力映像とすることにより、検出の対象となるアクティビティがウェアラブルカメラの撮影範囲に含まれないという従来の課題を回避することができる。また、本開示の実施例では、ユーザの手を検知し、検知したユーザの手を含む対象領域の部分的画像に対してアクティビティ検出を行うことにより、ＧＰＳ等の他のセンサのデータが利用できない場合や、ＧＰＳのデータで特定できない小さなオブジェクトに関するアクティビティを検出したい場合においても、高精度のアクティビティ検出が可能となる。

【0196】

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

【符号の説明】

【0197】

２００画像処理システム
２１０クライアント端末
２２０撮影装置
２３０ユーザ
２４０通信ネットワーク
２５０画像処理装置
２５２入力部
２５４判定部
２５６抽出部
２５８検出部
２６０出力部
２６２記憶部

【図1】