6158446 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

6158446表示の区分およびビデオフレームのクラスタ化のためのオブジェクトの選択およびトラッキング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27A
27B
27C
27D
27E
28A
28B
28C
28D
29
30
31
32A
32B
33A
33B
33C
33D
34
35
36A
36B
36C
36D
36E
36F
37A
37B
37C
38A
38B
39A
39B
39C
39D
39E
40A
40B
40C
40D
41A
41B
42
43A
43B
43C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6158446

(24)【登録日】2017年6月16日

(45)【発行日】2017年7月5日

(54)【発明の名称】表示の区分およびビデオフレームのクラスタ化のためのオブジェクトの選択およびトラッキング

(51)【国際特許分類】

G06F 3/0484 20130101AFI20170626BHJP

G06F 3/14 20060101ALI20170626BHJP

H04N 5/66 20060101ALI20170626BHJP

H04N 5/232 20060101ALI20170626BHJP

H04N 5/225 20060101ALI20170626BHJP

H04N 21/431 20110101ALI20170626BHJP

H04N 21/4545 20110101ALI20170626BHJP

H04N 21/4728 20110101ALI20170626BHJP

G09G 5/36 20060101ALI20170626BHJP

G09G 5/00 20060101ALI20170626BHJP

G09G 5/02 20060101ALI20170626BHJP

G09G 5/10 20060101ALI20170626BHJP

G09G 5/14 20060101ALI20170626BHJP

G06F 3/048 20130101ALI20170626BHJP

【ＦＩ】

G06F3/0484 120

G06F3/14 350B

H04N5/66 D

H04N5/66 A

H04N5/232 C

H04N5/225 B

H04N5/225 A

H04N5/232 Z

H04N21/431

H04N21/4545

H04N21/4728

G09G5/36 520P

G09G5/00 530T

G09G5/36 520K

G09G5/36 520E

G09G5/00 530H

G09G5/02 B

G09G5/10 B

G09G5/14 A

G06F3/048

【請求項の数】30

【全頁数】97

(21)【出願番号】特願2016-541214(P2016-541214)

(86)(22)【出願日】2014年12月19日

(65)【公表番号】特表2017-508192(P2017-508192A)

(43)【公表日】2017年3月23日

(86)【国際出願番号】US2014071567

(87)【国際公開番号】WO2015095743

(87)【国際公開日】20150625

【審査請求日】2017年4月10日

(31)【優先権主張番号】61/919,627

(32)【優先日】2013年12月20日

(33)【優先権主張国】US

(31)【優先権主張番号】14/575,945

(32)【優先日】2014年12月18日

(33)【優先権主張国】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】595020643

【氏名又は名称】クゥアルコム・インコーポレイテッド

【氏名又は名称原語表記】ＱＵＡＬＣＯＭＭＩＮＣＯＲＰＯＲＡＴＥＤ

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100109830

【弁理士】

【氏名又は名称】福原淑弘

(74)【代理人】

【識別番号】100158805

【弁理士】

【氏名又は名称】井関守三

(74)【代理人】

【識別番号】100112807

【弁理士】

【氏名又は名称】岡田貴志

(72)【発明者】

【氏名】ガオ、ダシャン

(72)【発明者】

【氏名】ジョン、シン

(72)【発明者】

【氏名】カンドハダイ、アナンサパドマナブハン・アラサニパライ

(72)【発明者】

【氏名】ベイス、スコット

(72)【発明者】

【氏名】レイバー、スティーブン・ダグラス

【審査官】塩屋雅弘

(56)【参考文献】

【文献】特開２０１０−１３６０９９（ＪＰ，Ａ）

【文献】特表２０１４−５２７３５９（ＪＰ，Ａ）

【文献】特開２００８−２７１５２２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ３／０４８４

Ｇ０６Ｆ３／０４８

Ｇ０６Ｆ３／１４

Ｇ０９Ｇ５／００

Ｇ０９Ｇ５／０２

Ｇ０９Ｇ５／１０

Ｇ０９Ｇ５／１４

Ｇ０９Ｇ５／３６

Ｈ０４Ｎ５／２２５

Ｈ０４Ｎ５／２３２

Ｈ０４Ｎ５／６６

Ｈ０４Ｎ２１／４３１

Ｈ０４Ｎ２１／４５４５

Ｈ０４Ｎ２１／４７２８

(57)【特許請求の範囲】

【請求項1】

ビデオ処理の方法であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内に表された第１のオブジェクトの第１の選択を受信することと、
前記第１の選択を受信したことに応答して、前記第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成することと、
前記プライマリビデオストリーム内に表された第２のオブジェクトの第２の選択を受信することと、
前記第２の選択を受信したことに応答して、前記第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成することと、
を備え、
前記第１のビデオストリームは、前記第２の選択を受信するよりも前に生成され、前記第２のビデオストリームに対応するビデオは、前記第１のビデオストリームに対応するビデオが画面に表示される間に前記画面に表示され、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、ビデオ処理の方法。

【請求項2】

前記プライマリビデオストリームの第１の複数のフレームまたは前記第１のビデオストリームの第２の複数のフレームの少なくとも一方の中で、前記第１のオブジェクトの動きを検出することと、
前記動きを検出したことに応答して、ビューの前記第１のフィールドの方向を変更することと、
をさらに備える、請求項１に記載のビデオ処理の方法。

【請求項3】

ビューの前記第１のフィールドの前記方向を変更することは、前記第１のオブジェクトの前記動きに従うように前記方向を変更することを備える、請求項２に記載のビデオ処理の方法。

【請求項4】

前記第１のビデオストリームを生成することは、前記プライマリビデオストリームの少なくとも１つの対応するフレームの一部分から前記第１のビデオストリームの各フレームを生成することを備える、請求項１に記載のビデオ処理の方法。

【請求項5】

前記第１のビデオストリームの各フレームについて、前記フレーム内の前記第１のオブジェクトの第１の表現の重心の第１の座標位置と前記フレームの中心座標との間の第１の距離は、前記プライマリビデオストリームの対応するフレーム内の前記第１のオブジェクトの第２の表現の重心の第２の座標位置と前記対応するフレームの中心座標との間の第２の距離よりも小さい、請求項１に記載のビデオ処理の方法。

【請求項6】

前記第１のビデオストリームを生成することは、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトの表現のサイズを正規化することを備える、請求項１に記載のビデオ処理の方法。

【請求項7】

前記第１のビデオストリームを生成することは、前記第１のビデオストリームの第１の複数のフレームの各々の中での明るさ、コントラスト、またはホワイトバランスのうちの少なくとも１つを正規化することを備える、請求項１に記載のビデオ処理の方法。

【請求項8】

第１のウィンドウ内に前記第１のビデオストリームを前記画面に表示することと、
第２のウィンドウ内に前記第２のビデオストリームを前記画面に表示することと、
をさらに備える、請求項１に記載のビデオ処理の方法。

【請求項9】

前記第１のオブジェクトと前記第２のオブジェクトとの幾何学的配置の関係の指示を前記画面に表示することをさらに備える、請求項１に記載のビデオ処理の方法。

【請求項10】

前記プライマリビデオストリームの第１のフレームにおいて、前記第１のオブジェクトは、前記第１のフレームの第１のフレーム端部に対して、前記第２のオブジェクトが前記第１のフレーム端部に対するよりも近いと決定することと、
前記第１のオブジェクトが前記第１のフレーム端部により近いと決定した後に、前記プライマリビデオストリームの第２のフレームにおいて、前記第２のオブジェクトは、前記第２のフレームの第２のフレーム端部に対して、前記第１のオブジェクトが前記第２のフレーム端部に対するよりも近いと決定することと、前記第２のフレーム端部は、前記第１のフレーム端部に対応する、
前記第２のオブジェクトが前記第２のフレーム端部により近いと決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示することと、
をさらに備える、請求項８に記載のビデオ処理の方法。

【請求項11】

前記第１のウィンドウ内に前記第１のビデオストリームを表示した後に、前記プライマリビデオストリームのフレーム、前記第１のビデオストリームのフレーム、または前記第２のビデオストリームのフレームのうちの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定することと、
前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示することと、
をさらに備える、請求項８に記載のビデオ処理の方法。

【請求項12】

前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成することと、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示することと、
前記第１のオブジェクトまたは前記第２のオブジェクトのうちの少なくとも１つが前記表示ビデオストリームのフレームの端部に近いことを検出したことに応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更することと、
をさらに備え、
ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広角を有する、請求項８に記載のビデオ処理の方法。

【請求項13】

前記第１のオブジェクトはロボットオブジェクトであり、前記方法は、前記ロボットオブジェクトの動きを制御することをさらに備える、請求項１に記載のビデオ処理の方法。

【請求項14】

命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
ビューのプライマリフィールドを有するプライマリビデオストリーム内に表された第１のオブジェクトの第１の選択を受信させ、
前記第１の選択を受信したことに応答して、前記第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成させ、
前記プライマリビデオストリーム内に表された第２のオブジェクトの第２の選択を受信させ、
前記第２の選択を受信したことに応答して、前記第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成させ、
前記第１のビデオストリームは、前記第２の選択を受信するよりも前に生成され、前記第２のビデオストリームに対応するビデオは、前記第１のビデオストリームに対応するビデオが画面に表示される間に前記画面に表示され、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、非一時的コンピュータ可読媒体。

【請求項15】

前記プロセッサによって実行されると、前記プロセッサに、
前記プライマリビデオストリームの第１の複数のフレームまたは前記第１のビデオストリームの第２の複数のフレームの少なくとも一方に基づいて、前記第１のオブジェクトの動きを検出させ、
前記第１のオブジェクトの前記動きを前記検出したことに応答して、前記第１のオブジェクトの前記動きに従うようにビューの前記第１のフィールドの方向を変更させる、
命令を記憶している、請求項１４に記載の非一時的コンピュータ可読媒体。

【請求項16】

前記第１のビデオストリームを生成するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトの表現のサイズを正規化させる命令を備える、請求項１４に記載の非一時的コンピュータ可読媒体。

【請求項17】

前記プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示させ、
前記プライマリビデオストリームの第１のフレームにおいて、前記第１のオブジェクトは、前記第１のフレームの第１のフレーム端部に対して、前記第２のオブジェクトが前記第１のフレーム端部に対するよりも近いと決定させ、
前記第１のオブジェクトが前記第１のフレーム端部により近いと決定した後に、前記プライマリビデオストリームの第２のフレームにおいて、前記第２のオブジェクトは、前記第２のフレームの第２のフレーム端部に対して、前記第１のオブジェクトが前記第２のフレーム端部に対するよりも近いと決定させ、前記第２のフレーム端部は、前記第１のフレーム端部に対応する、
前記第２のオブジェクトが前記第２のフレーム端部により近いと決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示させ、前記第２のウィンドウ内に前記第１のビデオストリームを表示させる、
命令を記憶している、請求項１４に記載の非一時的コンピュータ可読媒体。

【請求項18】

プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示させ、
前記第１のウィンドウ内に前記第１のビデオストリームを表示した後に、前記プライマリビデオストリームのフレーム、前記第１のビデオストリームのフレーム、または前記第２のビデオストリームのフレームのうちの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定させ、
前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示させる、
命令を記憶している、請求項１４に記載の非一時的コンピュータ可読媒体。

【請求項19】

前記プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示させ、
前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成させ、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示させ、
前記第１のオブジェクトまたは前記第２のオブジェクトのうちの少なくとも１つが前記表示ビデオストリームのフレームの端部に近いことを検出したことに応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更させる、
命令を記憶しており、
ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広角を有する、
請求項１４に記載の非一時的コンピュータ可読媒体。

【請求項20】

ビデオ処理のための装置であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内に表された第１のオブジェクトの第１の選択を受信するための手段と、
前記第１の選択を受信したことに応答して、前記第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成するための手段と、
前記プライマリビデオストリーム内に表された第２のオブジェクトの第２の選択を受信するための手段と、
前記第２の選択を受信したことに応答して、前記第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成するための手段と、
を備え、
前記第１のビデオストリームは、前記第２の選択を受信するよりも前に生成され、前記第２のビデオストリームに対応するビデオは、前記第１のビデオストリームに対応するビデオが画面に表示される間に前記画面に表示され、前記第１のビデオストリームを生成しおよび前記第２のビデオストリームを生成した後、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、装置。

【請求項21】

前記第１のビデオストリームを生成するための前記手段は、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトの表現のサイズを正規化するように構成される、請求項２０に記載の装置。

【請求項22】

第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示するための手段と、
前記プライマリビデオストリームの第１のフレームにおいて、前記第１のオブジェクトは、前記第１のフレームの第１のフレーム端部に対して、前記第２のオブジェクトが前記第１のフレーム端部に対するよりも近いと決定するための手段と、
前記第１のオブジェクトが前記第１のフレーム端部により近いと決定した後に、前記プライマリビデオストリームの第２のフレームにおいて、前記第２のオブジェクトは、前記第２のフレームの第２のフレーム端部に対して、前記第１のオブジェクトが前記第２のフレーム端部に対するよりも近いと決定するための手段と、前記第２のフレーム端部は、前記第１のフレーム端部に対応し、
前記第２のオブジェクトが前記第２のフレーム端部により近いと決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するための手段と、
をさらに備える、請求項２０に記載の装置。

【請求項23】

第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示するための手段と、
前記第１のウィンドウ内に前記第１のビデオストリームを表示した後に、前記プライマリビデオストリームのフレーム、前記第１のビデオストリームのフレーム、または前記第２のビデオストリームのフレームのうちの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定するための手段と、
前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するための手段と、
をさらに備える、請求項２０に記載の装置。

【請求項24】

第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示するための手段と、
前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成するための手段と、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示するための手段と、
前記第１のオブジェクトまたは前記第２のオブジェクトのうちの少なくとも１つが前記表示ビデオストリームのフレームの端部に近いことを検出したことに応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更するための手段と、
をさらに備え、
ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広角を有する、請求項２０に記載の装置。

【請求項25】

ビデオ処理のための装置であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内に表された第１のオブジェクトの第１の選択を受信し、前記プライマリビデオストリーム内に表された第２のオブジェクトの第２の選択を受信するように構成される判別器と、
前記第１の選択を受信したことに応答して、前記第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成し、前記第２の選択を受信したことに応答して、前記第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成するように構成されるビデオストリーム生成器と、
を備え、
前記第１のビデオストリームは、前記第２の選択を受信するよりも前に生成され、前記第２のビデオストリームに対応するビデオは、前記第１のビデオストリームに対応するビデオが画面に表示される間に前記画面に表示され、前記第１のビデオストリームを生成しおよび前記第２のビデオストリームを生成した後、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、装置。

【請求項26】

前記プライマリビデオストリームの第１の複数のフレームまたは前記第１のビデオストリームの第２の複数のフレームの少なくとも一方に基づいて、前記第１のオブジェクトの動きを検出するように構成されるオブジェクトトラッカーをさらに備え、
前記ビデオストリーム生成器は、前記第１のオブジェクトの前記動きを検出したことに応答して、前記第１のオブジェクトの前記動きに従うようにビューの前記第１のフィールドの方向を変更するように構成される、請求項２５に記載の装置。

【請求項27】

前記ビデオストリーム生成器は、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトの表現のサイズを正規化するように構成される、請求項２５に記載の装置。

【請求項28】

第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、前記画面に表示するように構成される表示信号生成器と、
前記プライマリビデオストリームの第１のフレームにおいて、前記第１のオブジェクトは、前記第１のフレームの第１のフレーム端部に対して、前記第２のオブジェクトが前記第１のフレーム端部に対するよりも近いと決定し、
前記第１のオブジェクトが前記第１のフレーム端部により近いと前記決定した後に、前記プライマリビデオストリームの第２のフレームにおいて、前記第２のオブジェクトは、前記第２のフレームの第２のフレーム端部に対して、前記第１のオブジェクトが前記第２のフレーム端部に対するよりも近いと決定する
ように構成されるオブジェクトトラッカーと、
をさらに備え、
前記第２のフレーム端部は、前記第１のフレーム端部に対応し、前記表示信号生成器は、前記第１のウィンドウ内に前記第１のビデオストリームを表示した後に、前記第２のオブジェクトが前記第２のフレーム端部により近いと決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するように構成される、請求項２５に記載の装置。

【請求項29】

第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、画面に表示するように構成される表示信号生成器と、
前記プライマリビデオストリームのフレーム、前記第１のビデオストリームのフレーム、または前記第２のビデオストリームのフレームのうちの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定するように構成されるオブジェクトトラッカーと、
をさらに備え、
前記表示信号生成器は、前記第１のウィンドウ内に前記第１のビデオストリームを表示した後に、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するように構成される、
請求項２５に記載の装置。

【請求項30】

前記ビデオストリーム生成器は、前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成するように構成され、
前記装置は、
第１のウィンドウ内に前記第１のビデオストリーム、第２のウィンドウ内に前記第２のビデオストリーム、および第３のウィンドウ内に前記表示ビデオストリームを、画面に表示するように構成される表示信号生成器と、
前記表示ビデオストリームのフレームにおいて、前記第１のオブジェクトまたは前記第２のオブジェクトのうちの少なくとも１つが前記フレームの端部に近いことを検出するように構成されるオブジェクトトラッカーと
をさらに備え、
前記ビデオストリーム生成器は、前記オブジェクトトラッカーが前記第１のオブジェクトまたは前記第２のオブジェクトが前記端部に近いことを検出したことに応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更するように構成され、ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広角を有する、請求項２５に記載の装置。

【発明の詳細な説明】

【優先権の主張】

【0001】

関連出願の相互参照
本出願は、その内容全体が参照により本明細書に明確に組み込まれる、同一出願人により所有される２０１３年１２月２０日に出願された米国仮特許出願第６１／９１９，６２７号および２０１４年１２月１８日に出願された米国非仮特許出願第１４／５７５，９４５号の優先権を主張する。

【技術分野】

【0002】

本開示は全般に、オブジェクトトラッキングに関する。

【背景技術】

【0003】

[0003]技術の進歩は、より小さく、より強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で、軽量で、ユーザによって容易に持ち運ばれるポータブルワイヤレス電話、携帯情報端末（ＰＤＡ）、およびページングデバイスなどのワイヤレスコンピューティングデバイスを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。より具体的には、携帯電話およびインターネットプロトコル（ＩＰ）電話などのポータブルワイヤレス電話機は、ワイヤレスネットワークを通じて音声パケットとデータパケットとを通信することができる。さらに、多くのそのようなワイヤレス電話は、内蔵されている他のタイプのデバイスを含む。たとえば、ワイヤレス電話はまた、デジタルスチルカメラと、デジタルビデオカメラと、デジタルレコーダと、オーディオファイルプレーヤとを含み得る。また、そのようなワイヤレス電話は、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのワイヤレス電話は、かなりのコンピューティング能力を含み得る。

【発明の概要】

【0004】

[0004]特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面（screen）上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、少なくとも第１のウィンドウおよび第２のウィンドウへと画面を区分することを含む。方法はさらに、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示することを含む。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。方法はまた、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示することを含む。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。

【0005】

[0005]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはさらに、少なくとも第１のウィンドウおよび第２のウィンドウへと画面を区分するように構成される。プロセッサはまた、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示するように構成される。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。プロセッサはさらに、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示するように構成される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。

【0006】

[0006]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、第１のウィンドウおよび第２のウィンドウへと画面を区分することを含む。方法はさらに、最初に、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示することを含む。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。方法はまた、最初に、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示することを含む。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。方法はまた、第１のオブジェクトの一部分が第２のオブジェクトの一部分と閾値の量だけいつ重複（オーバラップ）するかに基づいて、どのウィンドウに第１のオブジェクトおよび第２のオブジェクトが表示されるかを制御することを含む。

【0007】

[0007]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはまた、第１のウィンドウおよび第２のウィンドウへと画面を区分するように構成される。プロセッサはさらに、最初に、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示するように構成される。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。プロセッサはまた、最初は、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示するように構成される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。プロセッサはまた、第１のオブジェクトの一部分が第２のオブジェクトの一部分と閾値の量だけいつ重複（オーバラップ）するかに基づいて、どのウィンドウに第１のオブジェクトおよび第２のオブジェクトが表示されるかを制御するように構成される。

【0008】

[0008]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、第１のウィンドウおよび第２のウィンドウへと画面を区分することを含む。第１のオブジェクトが第２のオブジェクトの選択よりも前に選択された場合、方法は、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示することと、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示することとを含む。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。第２のオブジェクトが第１のオブジェクトの選択よりも前に選択された場合、方法は、第２のウィンドウにシーンの第１の部分を表示することと、第１のウィンドウにシーンの第２の部分を表示することとを含む。

【0009】

[0009]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはまた、第１のウィンドウおよび第２のウィンドウへと画面を区分するように構成される。第１のオブジェクトが第２のオブジェクトの選択よりも前に選択された場合、プロセッサは、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示し、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示するように構成される。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。第２のオブジェクトが第１のオブジェクトの選択よりも前に選択された場合、プロセッサは、第２のウィンドウにシーンの第１の部分を表示し、第１のウィンドウにシーンの第２の部分を表示するように構成される。

【0010】

[0010]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の複数のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、各オブジェクトの間の幾何学的配置（geometry）をトラッキングすることを含む。方法はさらに、画面上に幾何学的配置の指示を表示することを含む。

【0011】

[0011]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の複数のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはまた、各オブジェクトの間の幾何学的配置をトラッキングするように構成される。プロセッサはまた、画面上に幾何学的配置の指示を表示するように構成される。

【0012】

[0012]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の複数のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、各オブジェクトの間の幾何学的配置をトラッキングすることを含む。方法はさらに、幾何学的配置と関連付けられる少なくとも１つのパラメータに基づいて、ビデオストリームのフレームをクラスタ化することを含む。

【0013】

[0013]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の複数のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはまた、各オブジェクトの間の幾何学的配置をトラッキングするように構成される。プロセッサはさらに、幾何学的配置と関連付けられる少なくとも１つのパラメータに基づいて、ビデオストリームのフレームをクラスタ化するように構成される。

【0014】

[0014]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。画面のサイズに対する第１のオブジェクトのサイズが、画面のサイズに対する第２のオブジェクトのサイズよりも大きい場合、方法は、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示することと、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示することとを含む。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。第１のウィンドウは第２のウィンドウより大きい。画面のサイズに対する第１のオブジェクトのサイズが、画面のサイズに対する第２のオブジェクトのサイズよりも大きくない場合、方法は、第２のウィンドウにシーンの第１の部分を表示することと、第１のウィンドウにシーンの第２の部分を表示することとを含む。

【0015】

[0015]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の第１のオブジェクトおよびそのシーン中の第２のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。画面のサイズに対する第１のオブジェクトのサイズが、画面のサイズに対する第２のオブジェクトのサイズよりも大きい場合、プロセッサは、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示し、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示するように構成される。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。第１のウィンドウは第２のウィンドウより大きい。画面のサイズに対する第１のオブジェクトのサイズが、画面のサイズに対する第２のオブジェクトのサイズよりも大きくない場合、プロセッサは、第２のウィンドウにシーンの第１の部分を表示し、第１のウィンドウにシーンの第２の部分を表示するように構成される。

【0016】

[0016]別の特定の実施形態では、方法は、ロボットにおいて、複数のオブジェクトの間の幾何学的配置（geometry）をトラッキングすることを含む。方法はまた、幾何学的配置に基づいて処理機能を実行することを含む。

【0017】

[0017]別の特定の実施形態では、方法は、モバイルデバイスにおいて、あるシーン中の第１のオブジェクト、そのシーン中の第２のオブジェクト、およびそのシーン中の第３のオブジェクトの選択を受け取ることを含む。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。方法はまた、第１のウィンドウ、第２のウィンドウ、第３のウィンドウ、および第４のウィンドウへと画面を区分することを含む。方法はさらに、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示することを含む。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。方法はまた、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示することを含む。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。方法はさらに、第３のウィンドウに、第３のオブジェクトを含むシーンの第３の部分を表示することを含む。シーンの第３の部分は、第３のオブジェクトの位置に基づいて決定される。方法はまた、第４のウィンドウに、各オブジェクトの間の幾何学的配置の指示を表示することを含む。

【0018】

[0018]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、あるシーン中の第１のオブジェクト、そのシーン中の第２のオブジェクト、およびそのシーン中の第３のオブジェクトの選択を受け取るように構成される。このシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応する。プロセッサはまた、第１のウィンドウ、第２のウィンドウ、第３のウィンドウ、および第４のウィンドウへと画面を区分するように構成される。プロセッサはさらに、第１のウィンドウに、第１のオブジェクトを含むシーンの第１の部分を表示するように構成される。シーンの第１の部分は、第１のオブジェクトの位置に基づいて決定される。プロセッサはまた、第２のウィンドウに、第２のオブジェクトを含むシーンの第２の部分を表示するように構成される。シーンの第２の部分は、第２のオブジェクトの位置に基づいて決定される。プロセッサはさらに、第３のウィンドウに、第３のオブジェクトを含むシーンの第３の部分を表示するように構成される。シーンの第３の部分は、第３のオブジェクトの位置に基づいて決定される。プロセッサはまた、第４のウィンドウに、各オブジェクトの間の幾何学的配置の指示を表示するように構成される。

【0019】

[0019]別の特定の実施形態では、方法は、モバイルデバイスにおいて、ビデオストリーム中の選択されたオブジェクトの特定の幾何学的配置の指示を受信することを含む。方法はまた、特定の幾何学的配置に基づいてビデオストリームのフレームを検索することを含む。方法はさらに、モバイルデバイスの画面上に検索されたフレームを表示することを含む。

【0020】

[0020]別の特定の実施形態では、モバイルデバイスは、メモリと、メモリに結合されたプロセッサとを含む。プロセッサは、ビデオストリーム中の選択されたオブジェクトの特定の幾何学的配置の指示を受信するように構成される。プロセッサはまた、特定の幾何学的配置に基づいてビデオストリームのフレームを検索するように構成される。プロセッサまた、モバイルデバイスの画面上に検索されたフレームを表示するように構成される。

【0021】

[0021]一般的な構成に従ったビデオ処理の方法は、ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択することと、前記選択に応答して、プライマリビデオストリームから、選択されたオブジェクトのうちの第１のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを生成することと、前記選択の後に、プライマリビデオストリームから、選択されたオブジェクトのうちの第２のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを生成することとを含む。この方法では、第１のビデオストリームを前記生成することおよび第２のビデオストリームを前記生成することが開始した後、ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。命令を実行する機械にそのような方法を実行させる命令を有する、コンピュータ可読記憶媒体（たとえば、非一時的媒体）も開示される。

【0022】

[0022]一般的な構成に従ったビデオ処理のための装置は、ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択するための手段と、前記選択に応答して、プライマリビデオストリームから、選択されたオブジェクトのうちの第１のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを生成するための手段と、前記選択の後に、プライマリビデオストリームから、選択されたオブジェクトのうちの第２のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを生成するための手段とを含む。この装置では、第１のビデオストリームを前記生成することおよび第２のビデオストリームを前記生成することが開始した後、ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。

【0023】

[0023]別の一般的な構成に従ったビデオ処理のための装置は、ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択するように構成される判別器と、前記選択に応答して、プライマリビデオストリームから、選択されたオブジェクトのうちの第１のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを生成し、前記選択の後に、プライマリビデオストリームから、選択されたオブジェクトのうちの第２のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを生成するように構成されるビデオストリーム生成器とを含む。この装置では、第１のビデオストリームを前記生成することおよび第２のビデオストリームを前記生成することが開始した後、ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。

【0024】

[0024]開示される実施形態の少なくとも１つによってもたらされる１つの具体的な利点は、モバイルデバイス上での画像トラッキングの視覚的表示の改善である。本開示の他の態様、利点、および特徴は、「図面の簡単な説明」と、「発明を実施するための形態」と、「特許請求の範囲」とを含めて本出願全体を検討した後に明白になる。

【図面の簡単な説明】

【0025】

【図1】電子デバイスを示すブロック図。

【図2A】オブジェクトおよび検出モジュールの特定の例示的な実施形態を示すブロック図。

【図2B】図２のオブジェクトおよび検出モジュール内のプロセッサ実装コンポーネントの特定の例示的な実施形態を示すブロック図。

【図3】動きに基づくトラッキングとオブジェクト検出とを実行するための方法の特定の例示的な実施形態のフローチャート。

【図4】動きに基づくトラッキングを実行するための方法の特定の例示的な実施形態のフローチャート。

【図5】前方後方誤差に基づいて動きに基づくトラッキングにおけるトラッキング誤差を推定するための方法の特定の例示的な実施形態のフローチャート。

【図6】オブジェクト検出を実行するための方法の特定の例示的な実施形態のフローチャート。

【図7】異なるウィンドウサイズを有する画像ウィンドウの特定の例示的な実施形態の図。

【図8】オブジェクトトラッキングおよび検出モジュールの特定の例示的な実施形態を示すブロック図。

【図9】平滑化モジュールの特定の例示的な実施形態を示すブロック図。

【図10】動きトラッキングにおける平滑化ジッタのための方法の特定の例示的な実施形態のフローチャート。

【図11】オブジェクトトラッキングを使用したビデオ処理を示す特定の実施形態の図。

【図12】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態のフローチャート。

【図13】オブジェクトトラッキングを使用したビデオ処理を示す別の特定の実施形態の図。

【図14】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図15】オブジェクトトラッキングを使用したビデオ処理を示す別の特定の実施形態の図。

【図16】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図17】オブジェクトトラッキングを使用したビデオ処理を示す別の特定の実施形態の図。

【図18】クラスタ化に基づいてフレームを検索するために使用されるモバイルデバイスの画面の特定の実施形態を示す図。

【図19】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図20】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態のフローチャートを示す図。

【図21】オブジェクトトラッキングを使用したビデオ処理を示す別の特定の実施形態の図。

【図22】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図23】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図24】オブジェクトトラッキングを使用したビデオ処理を示す別の特定の実施形態の図。

【図25】オブジェクトトラッキングを使用したビデオ処理方法の特定の例示的な実施形態の別のフローチャート。

【図26】ビデオ処理技法を実行するように動作可能なコンポーネントを含むワイヤレスデバイスのブロック図。

【図27A】ビューＦＶ１０のフィールドとそのフィールド上でのある動作の結果とを示す図。

【図27B】ビューＦＶ１０のフィールドとそのフィールド上でのある動作の結果とを示す図。

【図27C】ビューＦＶ１０のフィールドとそのフィールド上でのある動作の結果とを示す図。

【図27D】ビューＦＶ１０のフィールドとそのフィールド上でのある動作の結果とを示す図。

【図27E】ビューＦＶ１０のフィールドとそのフィールド上でのある動作の結果とを示す図。

【図28A】一般的な構成によるビデオ処理の方法Ｍ１００のフローチャート。

【図28B】ビューＰＦＶ１０のプライマリフィールドの例とビューＦＶ１００の第１のフィールドの例とを示す図。

【図28C】ビューＦＶ２００の第１のフィールドの例を示す図。

【図28D】ビューＦＶ２００の第２のフィールドの例を示す図。

【図29】３つのオブジェクトを選択するための一連のユーザの動作の例を示す図。

【図30】３つのオブジェクトを選択するための一連のユーザの動作の別の例を示す図。

【図31】フレーム内のオブジェクトとオブジェクトの増強された表示の例を示す図。

【図32A】９個の抽出ウィンドウの例示的なセットを示す図。

【図32B】プライマリビデオストリームのフレームの領域と９個のウィンドウの各々との対応付けを示す図。

【図33A】方法Ｍ１００の実装形態Ｍ１１０のフローチャート。

【図33B】方法Ｍ１００およびＭ１１０の実装形態Ｍ１２０のフローチャート。

【図33C】方法Ｍ１００の実装形態Ｍ２００のフローチャート。

【図33D】方法Ｍ１００の実装形態Ｍ３００のフローチャート。

【図34】図３４Ａ−Ｃは、方法Ｍ３００の適用形態を示す図。

【図35】方法Ｍ１００の適用形態の例を示す図。

【図36A】表示ウィンドウのデフォルトの構成の例を示す図。

【図36B】表示ウィンドウのデフォルトの構成の例を示す図。

【図36C】表示ウィンドウのデフォルトの構成の例を示す図。

【図36D】表示ウィンドウのデフォルトの構成の例を示す図。

【図36E】表示ウィンドウのデフォルトの構成の例を示す図。

【図36F】表示ウィンドウのデフォルトの構成の例を示す図。

【図37A】方法Ｍ２００およびＭ３００の実装形態Ｍ４００のフローチャート。

【図37B】一般的な構成による装置Ａ１００のブロック図。

【図37C】装置Ａ１００の実装形態Ａ１１０のブロック図。

【図38A】装置Ａ１００の実装形態Ａ２００のブロック図。

【図38B】装置Ａ１００の実装形態Ａ３００のブロック図。

【図39A】装置Ａ２００およびＡ３００の実装形態Ａ４００のブロック図。

【図39B】装置Ａ１００の適用形態のブロック図。

【図39C】装置Ａ１００の適用形態のブロック図。

【図39D】装置Ａ３００の適用形態のブロック図。

【図39E】一般的な構成による装置ＭＦ１００のブロック図。

【図40A】装置ＭＦ１００の実装形態ＭＦ１１０のブロック図。

【図40B】装置ＭＦ１００の実装形態ＭＦ２００のブロック図。

【図40C】装置ＭＦ１００の実装形態ＭＦ３００のブロック図。

【図40D】装置ＭＦ２００およびＭＦ３００の実装形態ＭＦ４００のブロック図。

【図41A】選択されたオブジェクトを含むプライマリビデオストリームのビューのフィールドの一部分の表示のある例を示す図。

【図41B】選択されたオブジェクトを含むプライマリビデオストリームのビューのフィールドの一部分の表示のある例を示す図。

【図42】表示ビデオストリームのフレームの例を示す図。

【図43A】プライマリビデオストリームのフレームを表示するウィンドウを示す図。

【図43B】選択されたオブジェクトの複合的な幾何学的配置を示すグラフィックの例を示す図。

【図43C】プライマリビデオストリームのフレームを表示するウィンドウを示す図。

【発明を実施するための形態】

【0026】

[0082]ワイヤレス電話または他のモバイルデバイスは、カメラによってビデオストリームをキャプチャし、および／または、別のデバイスから、および／またはネットワークを介して、ビデオストリームを受信することができる。ビデオストリーム内のオブジェクトをトラッキングするための、新しい特徴および／または改善された特徴が望まれ得る。

【0027】

[0083]文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上で表されるメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すために使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、算出（computing）または別様の生成（producing）のような、その通常の意味のいずれをも示すために使用される。文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値からの算出（computing）、評価、推定、および／または選択のような、その通常の意味のいずれをも示すために使用される。文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、計算（calculating）、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索のような、その通常の意味のいずれをも示すために使用される。文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットの少なくとも１つ、およびすべてよりも少数の識別、指示、適用、および／または使用のような、その通常の意味のいずれをも示すために使用される。「備える（comprising）」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡの前の形である」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適切な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」）という場合を含む、その通常の意味のいずれをも示すために使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すために使用される。

【0028】

[0084]別段規定されていない限り、特定の特徴を有する装置の動作のいずれの開示も、類似の特徴を有する方法を開示する（その逆も同様）ことが明確に意図され、特定の構成による装置の動作のいずれの開示も、類似の構成による方法を開示する（その逆も同様）ことが明確に意図される。「構成」という用語は、その具体的な文脈によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「処理」、「手順」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「装置」および「デバイス」という用語も、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きな構成の一部分を示すために使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すために使用される。

【0029】

[0085]別段に規定されていない限り、「一連」という用語は、２つ以上の項目の順列を示すために使用される。定冠詞によって最初に導入されない限り、請求要素を修飾するのに使用される順序を示す用語（たとえば、「第１の」、「第２の」、「第３の」など）は、それ自体、別のものに対する請求要素の優先順位または順序を示しておらず、請求要素を、（順序を示す用語の使用を別にすれば）同じ名前を有する別の請求要素から区別しているだけである。文脈によって明確に限定されない限り、「複数」および「セット」という用語の各々は、本明細書では、１よりも大きい整数量を示すために使用される。

【0030】

[0086]図１を参照すると、電子デバイス１０２を示すブロック図が示される。電子デバイス１０２はまた、ワイヤレス通信デバイス、モバイルデバイス、移動局、加入者局、クライアント、クライアント局、ユーザ機器（ＵＥ）、遠隔局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどとも呼ばれ得る。電子デバイスの例は、ラップトップまたはデスクトップコンピュータ、携帯電話、スマートフォン、ワイヤレスモデム、電子リーダー、タブレットデバイス、ゲームシステムなどを含む。これらのデバイスのいくつかは、１つまたは複数の業界規格に従って動作し得る。

【0031】

[0087]スマートフォンまたはタブレットコンピュータのような電子デバイス１０２は、カメラを含み得る。カメラは、画像センサ１１４と、光学系１１８の視野内に位置するオブジェクトの画像を画像センサ１１４上に合焦させる光学系１１８（たとえば、レンズ）とを含み得る。電子デバイス１０２はまた、カメラソフトウェアアプリケーションと表示画面とを含み得る。カメラアプリケーションが動作しているとき、光学系１１８の視野内に位置するオブジェクトの画像は画像センサ１１４によって記録され得る。画像センサ１１４によって記録されている画像は、表示画面上に表示され得る。これらの画像は、任意の所与の瞬間において、光学系１１８の視野内に位置するオブジェクトが表示画面上に表示されるように、比較的高いフレームレートで高速に連続して表示され得る。実施形態はキャプチャされたフレーム（たとえば、ビデオフレーム）に関して説明されるが、本明細書で論じられる技法は、任意のデジタル画像に対して使用され得る。したがって、「フレーム」および「デジタル画像」という用語は、本明細書において互換的に使用され得る。

【0032】

[0088]カメラアプリケーションのユーザインターフェース１２０は、表示画面上に表示されている１つまたは複数のオブジェクトがトラッキングされることを可能にし得る。電子デバイス１０２のユーザは、トラッキングされるべきである（１つまたは複数の）オブジェクトを選択することを許可され得る。さらに、（１つまたは複数の）選択されたオブジェクトは、オブジェクトを後で検出するための基準として使用され得る。

【0033】

[0089]一構成では、表示画面は、たとえば、指、スタイラスまたは他のツールによる、物理的なタッチからの入力を受け取るタッチスクリーン１１６である。タッチスクリーン１１６は、トラッキングされるべきターゲットオブジェクトを定義するタッチ入力を受け取り得る。たとえば、電子デバイス１０２が、対象の動物を含む自然のシーンをキャプチャしている場合、ユーザは、必要な場合、その動物がトラッキングまたは検出されるべきであるという希望を示すバウンディングボックス（bounding box）をその動物の周りに描き得る。ターゲットオブジェクトは、任意の好適な方法で選択され得る。たとえば、トラッキング、検出、または両方が行われるべきであるターゲットオブジェクトを選択するために、顔認識、歩行者認識などが使用され得る。一構成では、複数のオブジェクトがトラッキングされ得る。ユーザインターフェース１２０は、たとえば、１つまたは複数のターゲットオブジェクトを選択する（すなわち、定義する）ために、ユーザがオブジェクトトラッキングおよび検出モジュール１０４と対話することを可能にし得る。タッチスクリーン１１６は、ビューファインダ１３１を含み得る。ビューファインダ１３１は、ビデオストリームまたはライブフィードを表示するタッチスクリーン１１６の部分を指し得る。たとえば、ビューファインダ１３１は、電子デバイス１０２上のカメラによって取得されたビューを表示することができる。

【0034】

[0090]電子デバイス１０２は、ビデオフレーム中の選択されたオブジェクトをトラッキングし、および／またはそのオブジェクトを検出するための、オブジェクトトラッキングおよび検出モジュール１０４を含み得る。オブジェクトトラッキングおよび検出モジュール１０４は、１つまたは複数のオブジェクトをトラッキングするための動きトラッカー１０６を含み得る。動きトラッカー１０６は、前のビデオフレームと現在のビデオフレームとの間でのターゲットオブジェクトの位置および／または位置の変化を推定するために、フレームごとに画像（たとえば、ビデオフレーム）上の点の動きをトラッキングするために、動きに基づき得る。

【0035】

[0091]オブジェクトトラッキングおよび検出モジュールはまた、ビデオフレーム中のオブジェクトを検出するためのオブジェクト検出器１０８を含み得る。オブジェクト検出器１０８は、現在のビデオフレームのすべてまたは一部分を、（たとえば、ビデオフレームのシーケンス中の）キャプチャされた前のビデオフレーム１１２の選択されたオブジェクトまたは部分と比較することによって、オブジェクトを検出するために、動きに基づくモデルではなく、オブジェクトモデルを使用し得る。オブジェクト検出器１０８は、ビデオフレーム内の複数のオブジェクトを検出するために使用され得る。

【0036】

[0092]オブジェクトトラッキングおよび検出モジュール１０４は、メモリバッファ１１０も含み得る。メモリバッファ１１０は、１つまたは複数のキャプチャされたフレームと、キャプチャされたビデオフレームと関連付けられるデータとを記憶し得る。一例では、メモリバッファ１１０は、前のキャプチャされたビデオフレーム１１２を記憶し得る。オブジェクトトラッキングおよび検出モジュール１０４は、動きに基づくトラッキングおよび／またはオブジェクト検出を実行する際に、キャプチャされた前のビデオフレーム１１２についての、メモリバッファ１１０から与えられたデータを使用し得る。ターゲットオブジェクトをより正確にトラッキングおよび／または検出するように動きに基づくトラッキングとオブジェクト検出とを調整するために、メモリバッファ１１０からのフィードバックを介して、データが動きトラッカー１０６またはオブジェクト検出器１０８に与えられ得る。たとえば、メモリバッファ１１０は、オブジェクトをトラッキングまたは検出するときにオブジェクトの位置とサイズとをより正確に特定するために使用され得る１つまたは複数のパラメータを動きトラッカー１０６およびオブジェクト検出器１０８に与えるために、位置とウィンドウサイズのデータを動きトラッカー１０６およびオブジェクト検出器１０８に与え得る。

【0037】

[0093]上で述べられたように、電子デバイス１０２は動きに基づくトラッキングを実行し得る。動きに基づくトラッキングは、様々な方法を使用して実行され得る。一例では、トラッキングはメジアンフロー方法によって実行され、その方法では、動きトラッカー１０６は、画像のペアＩ_t、Ｉ_t+1（たとえば、ビデオフレーム）とバウンディングボックスβ_tとを受け入れ、バウンディングボックスβ_t+1を出力する。点のセットがバウンディングボックスβ_t内の矩形格子上で初期設定されてよく、Ｉ_tとＩ_t+1との間の希薄な動きフローを生成するためにそれらの点がトラッキングされてよい。点予測の品質が推定されてよく、各点が誤差を割り当てられてよい。最悪の予測の一部分（たとえば、５０％）はフィルタで除去されてよく、残りの予測は、バウンディングボックス全体の変位を推定するために使用される。動きトラッカー１０６は、電子デバイス１０２によってキャプチャされた各ビデオフレームに対する動きに基づくトラッキングを実行し得る。同様の方法において、動きに基づくトラッキングは、１つまたは複数の勾配（たとえば、ｘ勾配およびｙ勾配）を計算すること、および時間勾配を計算するためにフレームのペア間の差を使用すること、および現在のビデオフレーム内のターゲットオブジェクトを正確にトラッキングするために複数の勾配値を使用することによって実行され得る。動きに基づくトラッキングに関するさらなる詳細が、以下で与えられる。

【0038】

[0094]動きに基づくトラッキングを実行するとき、動きトラッカー１０６は、動きトラッキング方法の計算または推定された精度に基づいてトラッキング信頼性値を決定し得る。いくつかの構成では、トラッキング信頼性値は、ターゲットオブジェクトが現在のビデオフレームまたはそのビデオフレームの定義されたウィンドウ内に入る可能性または確率に対応する、０から１の間の実数であり得る。トラッキング信頼性値は、トラッキング閾値と比較され得る。トラッキング信頼性値がトラッキング閾値よりも大きい場合、ターゲットオブジェクトが現在のビデオフレーム内で見出される可能性は高いことがある。代替的に、トラッキング信頼性値がトラッキング閾値以下である場合、ターゲットオブジェクトが現在のビデオフレーム内で見出される可能性は低いかまたは不確実であることがある。トラッキング信頼性値を決定するための様々な方法が使用され得る。一構成では、トラッキング信頼性値は、現在のビデオフレーム中のトラッキングされたウィンドウ（たとえば、トラッキングパッチウィンドウ）と、前にキャプチャされたビデオフレームからの前に記憶された画像パッチとの間の正規化相互相関（ＮＣＣ：normalized cross correlation）を計算することによって決定される。トラッキング信頼性値を決定することに関するさらなる詳細が、以下で与えられる。

【0039】

[0095]電子デバイス１０２は、オブジェクト検出も実行し得る。オブジェクト検出は、様々な方法を使用して実行され得る。一構成では、オブジェクト検出はスライディングウィンドウ方法を使用して実行され、その方法では、ターゲットオブジェクトが現在のビデオフレーム中で、または現在のビデオフレームの特定のウィンドウもしくはウィンドウのサブセット内で見出されるかどうかを決定するために、ビデオフレーム内のウィンドウの複数のサブセットのコンテンツが調査される。すべての可能なウィンドウ位置およびサイズのすべてまたはサブセットが、ビデオフレーム中で探索され得る。たとえば、各ウィンドウはデータのピクセルに対応してよく、オブジェクト検出器１０８は、ターゲットオブジェクトが特定のウィンドウまたはサブウィンドウ内にある信頼性のレベル（たとえば、バイナリインジケータ）を決定するために、データのピクセルを使用して１つまたは複数の計算を実行することができる。１つまたは複数のウィンドウと関連付けられる信頼性のレベルに基づいて、検出器の信頼性値が現在のビデオフレームのために取得され得る。さらに、オブジェクト検出の精度または効率を増加させるために、追加の技法が使用され得る。これらの技法のいくつかが、以下で説明される。

【0040】

[0096]いくつかの構成では、動きトラッカー１０６およびオブジェクト検出器１０８は、並列にではなく順次的に動作し得る。たとえば、電子デバイス１０２は、選択されたオブジェクト（たとえば、ターゲットオブジェクト）の動きに基づくトラッキングを実行し、続いて、トラッキングされたパラメータに基づいて、選択されたオブジェクトのオブジェクト検出を実行し得る。一構成では、電子デバイス１０２は、現在のビデオフレームに対する動きに基づくトラッキングを実行し得る。電子デバイス１０２は次いで、トラッキングされたパラメータに基づいて、現在のフレームに対するオブジェクト検出を実行し得る。一構成では、トラッキングされたパラメータは、信頼性値と閾値との比較に基づき得る。たとえば、トラッキング信頼性値がトラッキング閾値を下回る場合、電子デバイス１０２はオブジェクト検出を実行し得る。代替的に、トラッキング信頼性値がトラッキング閾値を上回る場合、電子デバイス１０２は、現在のビデオフレームのためのオブジェクト検出をスキップし、現在のビデオフレームの動きトラッキング結果に基づいて次のビデオフレームに対する動きに基づくトラッキングを実行し続け得る。言い換えれば、オブジェクト検出は、動きに基づくトラッキングがあまり良好でなく、たとえば、トラッキング信頼性値がトラッキング閾値を下回るときのみ、実行され得る。オブジェクト検出が実行されるかどうかおよび／またはどのように実行されるかを考慮するとき、他のトラッキングされたパラメータが使用され得る。トラッキングされたパラメータの例は、ターゲットオブジェクトの領域、ウィンドウ位置、ウィンドウサイズ、スケールレベル、ターゲットサイズ、トラッキングおよび／もしくは検出信頼性値、または、ターゲットオブジェクトの効率的なトラッキングおよび／または検出を支援するために使用され得る他のパラメータを含み得る。

【0041】

[0097]トラッキングされたパラメータに基づいて動きに基づくトラッキングとオブジェクト検出とを順次的に実行することは、電子デバイス１０２が、大量の計算を実行することなくビデオフレーム内のターゲットオブジェクトをトラッキングおよび／または検出することを可能にし得る。具体的には、動きに基づくトラッキングはオブジェクト検出よりも計算集約的でないことがあるので、電子デバイス１０２はオブジェクト検出の実行をスキップすることができ、ここで、現在のビデオフレーム内のターゲットオブジェクトを正確にトラッキングするために動きに基づくトラッキングが使用され得る。たとえば、トラッキング信頼性値が特定の目標閾値を超えると電子デバイス１０２が決定する場合、電子デバイス１０２は、現在のビデオフレーム内のターゲットオブジェクトの位置または存在を正確に決定するために、現在のビデオフレームに対してオブジェクト検出が必要とされないことを決定し得る。さらに、オブジェクト検出は多くの場合有益であり得るので、電子デバイス１０２は、トラッキング閾値との比較に基づく、動きに基づくトラッキングが不十分である場合、ターゲットオブジェクトをより正確に検出するために、またはオブジェクト検出を実行するために、オブジェクト検出が使用され得る場合を決定し得る。

【0042】

[0098]いくつかの構成では、現在のビデオフレームに対するオブジェクト検出をスキップするのではなく、メモリバッファ１１０によって与えられる動きに基づくトラッキングの結果および／または追加の情報が、オブジェクト検出を実行するプロセスを限定または調整するために使用され得る。たとえば、ターゲットオブジェクトが、動きに基づくトラッキング方法を使用して正確にトラッキングされ得ない場合、電子デバイス１０２は、依然として、動きに基づくトラッキングを介して与えられたパラメータがない場合よりも少ない計算能力を使用してオブジェクトをより正確に検出するためにオブジェクト検出中に使用され得る、ターゲットオブジェクトと関連付けられる位置、ウィンドウスケールまたは他のトラッキングされたパラメータについての情報を推定または取得し得る。したがって、動きに基づくトラッキングが、トラッキング閾値を超えるトラッキング信頼性値を与えない場合でも、動きに基づくトラッキングの結果は、その後にオブジェクト検出を実行するときに使用され得る。

【0043】

[0099]電子デバイス１０２上のビューファインダ１３１は、第１のトラッキングエリア１３３と第２のトラッキングエリア１３５とを含み得る。第１のトラッキングエリア１３３と第２のトラッキングエリア１３５の両方が、タッチスクリーン１１６を使用してユーザによって指定され得る。たとえば、ユーザは、第１のトラッキングエリア１３３および第２のトラッキングエリア１３５の所望の位置へと、タッチスクリーン１１６上の焦点リングをドラッグすることができる。必要とはされないが、トラッキングエリアの１つは静止していてよい。たとえば、第１のトラッキングエリア１３３はオブジェクト（たとえば、歩いている人）をトラッキングすることができ、第２のトラッキングエリア１３５は静止している木をカバーすることができる。一構成では、第２のトラッキングエリア１３５は、電子デバイス１０２上のタッチスクリーン１１６全体をカバーすることができる。

【0044】

[00100]電子デバイス１０２は、ビデオ処理モジュール１３７を含み得る。ピクチャ処理モジュール１３７は、重複（オーバラップ）１４３を含み得る。重複１４３は、第１のトラッキングエリア１３３と第２のトラッキングエリア１３５の重複（オーバラップ）の量を反映し得る。たとえば、第１のトラッキングエリア１３３および第２のトラッキングエリア１３５が互いにまったく重複しない場合、重複１４３は０％であり得る。同様に、第１のトラッキングエリア１３３が第２のトラッキングエリア１３５と完全に重複する場合（または、どちらのトラッキングエリアがより大きいかによっては、第２のトラッキングエリア１３５が第１のトラッキングエリア１３３と完全に重複する場合）、重複１４３は１００％であり得る。ビデオ処理モジュール１３７は、閾値１４５を含み得る。図１３に関して説明されるように、重複１４３は、ビデオ処理が実行されるべきかどうかを決定するために、閾値１４５と比較され得る。

【0045】

[00101]ビデオ処理モジュール１３７はまた、画面区分１４７の機能を含み得る。たとえば、画面区分１４７は、図１１、図１３、図１５、および図２１に関して説明されるように、第１のトラッキングエリア１３３および第２のトラッキングエリア１３５と関連付けられる個々のビデオストリームを表示するために、ビューファインダ１３２を複数のウィンドウへと区分することができる。ビデオ処理モジュール１３７はまた、幾何学的配置トラッキング１４９の機能を含み得る。たとえば、幾何学的配置トラッキング１４９の機能は、図１７および図１８に関して説明されるように、第１のトラッキングエリア１３３と第２のトラッキングエリア１３５との間の幾何学的配置をトラッキングすることができる。幾何学的配置は、ビューファインダ１３１上に表示され得る。ビデオ処理モジュール１３７はまた、クラスタ形成１５１の機能を含み得る。クラスタ形成１５１の機能は、幾何学的配置と関連付けられる少なくとも１つのパラメータ（たとえば、重心）に基づいてクラスタを生成することができる。たとえば、各クラスタは、図１７および図１８に関して説明されるように、第１のトラッキングエリア１３３と第２のトラッキングエリア１３５との間で実質的に同様の幾何学的配置を有するビデオフレームを含み得る。

【0046】

[00102]図２Ａを参照すると、オブジェクトトラッキングおよび検出モジュール２０４を示すブロック図が示されている。オブジェクトトラッキングおよび検出モジュール２０４は、電子デバイスまたはワイヤレスデバイス内に実装され得る。オブジェクトトラッキングおよび検出モジュール２０４は、オプティカルフローモジュール２２６とトラッキング信頼性値２２８とを有する動きトラッカー２０６を含み得る。オブジェクトトラッキングおよび検出モジュール２０４は、スキャナロケータ２３０と、スキャナスケーラ２３６と、分類器２３８と、検出信頼性値２４０とを有するオブジェクト検出器２０８も含み得る。メモリバッファ２１０は、動きトラッカー２０６とオブジェクト検出器２０８とに与えられ得るキャプチャされた前のビデオフレーム２１２と関連付けられるデータを記憶し得る。オブジェクトトラッキングおよび検出モジュール２０４、動きトラッカー２０６、オブジェクト検出器２０８、ならびにメモリバッファ２１０は、図１に関して上記で説明されたオブジェクトトラッキングおよび検出モジュール１０４、動きトラッカー１０６、オブジェクト検出器１０８、ならびにメモリバッファ１１０の構成であり得る。

【0047】

[00103]動きトラッカー２０６は、現在のビデオフレーム（Ｎ）２２４に対する動きに基づくトラッキングを実行するために使用され得る。たとえば、前のビデオフレーム（Ｎ−１）２２２および現在のビデオフレーム（Ｎ）２２４が（たとえば、電子デバイス１０２によって）受信され得る。前のビデオフレーム（Ｎ−１）２２２は、ビデオフレームのシーケンス中の現在のビデオフレーム（Ｎ）２２４の直前にあり得る。追加のビデオフレームが、オブジェクトトラッキングおよび検出モジュール２０４によって取得され処理され得る。前のビデオフレーム（Ｎ−１）２２２は、動きトラッカー２０６に与えられ得る。さらに、メモリバッファ２１０は、本明細書ではキャプチャされた前のビデオフレーム２１２と呼ばれる、前のビデオフレーム（Ｎ−１）２２２と関連付けられるデータを記憶し得る。いくつかの構成では、メモリバッファ２１０は、電子デバイス１０２から（たとえば、カメラから）前のビデオフレーム（Ｎ−１）２２２についての情報を直接取得し得る。メモリバッファ２１０はまた、融合モジュール２６０から前のビデオフレーム（Ｎ−１）２２２についてのトラッキング結果を取得することができ、トラッキング結果は、オブジェクトが前のビデオフレーム（Ｎ−１）２２２の中のどこでトラッキングおよび／または検出されたかを指定し得る。前のビデオフレーム（Ｎ−１）２２２または他の前にキャプチャされたビデオフレームについてのこの情報は、メモリバッファ２１０に記憶され得る。

【0048】

[00104]動きトラッカー２０６はその後、ビデオフレームのシーケンス中の現在のビデオフレーム（Ｎ）２２４を受信し得る。動きトラッカー２０６は、（たとえば、メモリバッファ２１０から与えられた情報を使用して）現在のビデオフレーム（Ｎ）２２４を前のビデオフレーム（Ｎ−１）２２２と比較し得る。動きトラッカー２０６は、オプティカルフローモジュール２２６を使用して、現在のビデオフレーム（Ｎ）２２４上のオブジェクトの動きをトラッキングし得る。オプティカルフローモジュール２２６は、現在のビデオフレーム（Ｎ）２２４上のオブジェクトの動きに基づくトラッキングを実行するためのハードウェアおよび／またはソフトウェアを含み得る。前のビデオフレーム（Ｎ−１）２２２と現在のビデオフレーム（Ｎ）２２４とを比較することによって、動きトラッカー２０６は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４中にある可能性と関連付けられるトラッキング信頼性値２２８を決定し得る。一例では、トラッキング信頼性値２２８は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４内に、または現在のビデオフレーム（Ｎ）２２４内のウィンドウ内にある確実性の百分率に基づく（たとえば、０から１の間の）実数である。

【0049】

[00105]オブジェクト検出器２０８は、現在のビデオフレーム（Ｎ）２２４上のオブジェクトを検出するために使用され得る。たとえば、オブジェクト検出器２０８は、ビデオフレームのシーケンス中の現在のビデオフレーム（Ｎ）２２４を受信し得る。オブジェクト検出器２０８は、トラッキングされたパラメータに基づいて現在のビデオフレーム（Ｎ）２２４に対するオブジェクト検出を実行し得る。トラッキングされたパラメータは、ターゲットオブジェクトが正確にトラッキングされている可能性に対応するトラッキング信頼性値２２８を含み得る。より具体的には、トラッキングされたパラメータは、トラッキング信頼性値２２８とトラッキング閾値２５０との比較を含み得る。トラッキングされたパラメータは、メモリバッファ２１０から与えられた情報も含み得る。オブジェクトを検出するときに使用され得るトラッキングされたパラメータのいくつかの例は、領域、ウィンドウ位置、ウィンドウサイズ、またはオブジェクト検出を実行するときにパラメータとしてオブジェクト検出器２０８によって使用され得る他の情報を含む。

【0050】

[00106]オブジェクト検出器２０８は、スキャナロケータ２３０を含み得る。スキャナロケータ２３０は、ウィンドウ位置選択器２３２とランダマイザ２３４とを含み得る。ウィンドウ位置選択器２３２は、ビデオフレーム内の複数のウィンドウを選択し得る。たとえば、ビデオフレームは、関連する位置とサイズとを各々が有する、複数のウィンドウを含み得る。一構成では、各ビデオフレームは、ビデオフレーム中の総ピクセルの一部分を各々が含む、複数の（たとえば、約１０，０００個の）重複するウィンドウに分割される。代替的に、任意の好適な数のウィンドウがあってよく、それらは重複しないことがある。スキャナロケータ２３０内のウィンドウ位置選択器２３２は、ターゲットオブジェクトを識別することをその中で試みる、ウィンドウの位置を選択し得る。ランダマイザ２３４は、オブジェクトを検出するために異なるサイズおよび位置のウィンドウをランダムに選択し得る。いくつかの構成では、ランダマイザ２３４は、ビデオフレーム内のウィンドウをランダムに選択する。代替的に、ランダマイザ２３４は、１つまたは複数の要因に基づいてウィンドウをより正確に選択し得る。たとえば、ランダマイザ２３４は、オブジェクトが大抵位置する領域、サイズまたは概略的な位置に基づいて、ウィンドウの選択を限定し得る。この情報は、メモリバッファ２１０を介して取得されてよく、または、完全に依拠するのに十分正確ではないが、オブジェクト検出を実行するときに役立つ情報を与え得る、動きに基づくトラッキングを介して取得され得る。したがって、ランダマイザ２３４は、探索すべき複数のウィンドウをランダムに選択し得るが、ウィンドウの選択は、オブジェクト検出器２０８に与えられた情報に基づいて限定され、したがって完全にランダムではないことがある。

【0051】

[00107]オブジェクト検出器２０８は、あるサイズのウィンドウを引き出すかまたは選択するために使用され得る、スキャナスケーラ２３６も含み得る。ウィンドウサイズは、オブジェクトを検出するとき、または画像が特定のウィンドウ内にあるかどうかを検出するためにウィンドウの選択を元の画像と比較するとき、ウィンドウのサイズを狭くするためにスキャナロケータ２３０によって使用され得る。スキャナスケーラ２３６は、オブジェクトを定義するときに初めにあるサイズまたはスケールレベルの１つまたは複数のウィンドウを選択し、または代替的に、メモリバッファ２１０から与えられた情報に基づいて、あるサイズまたはスケールレベルの１つまたは複数のウィンドウを引き出し得る。

【0052】

[00108]分類器２３８は、ターゲットオブジェクトの一部またはすべてが特定のウィンドウ中で見出されるどうかを決定するために使用され得る。いくつかの構成では、分類器２３８は、ターゲットオブジェクトが特定のウィンドウまたはサブウィンドウ内で検出されるかどうかを示すために、各ウィンドウについてバイナリ値を生成し得る。この分類（たとえば、バイナリ分類）は、オブジェクト検出器２０８によって探索された各ウィンドウに対して実行され得る。具体的には、分類器２３８は、オブジェクトが検出される各ウィンドウに対してバイナリ１を生成し、オブジェクトが検出されない各ウィンドウに対してバイナリ０を生成し得る。１と０の数または組合せに基づいて、オブジェクト検出器２０８は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４内に存在する可能性を示す検出信頼性値２４０を決定し得る。いくつかの構成では、検出信頼性値２４０は、オブジェクトが正確に検出された百分率または確率を示す０から１の間の実数である。

【0053】

[00109]オブジェクト検出器２０８は、領域、ターゲットサイズ、ウィンドウサイズ、スケールレベル、ウィンドウ位置、および１つまたは複数の信頼性値を含む、様々なトラッキングされたパラメータに従ってオブジェクト検出を実行し得る。ビデオフレームのウィンドウまたはウィンドウのサブセットが探索され、オブジェクト検出器２０８が、各々の探索されたウィンドウに対するバイナリ値を取得すると、オブジェクト検出器２０８は、最高の信頼性を有する現在のビデオフレーム上のウィンドウサイズならびに位置または領域を決定し得る。この位置およびウィンドウサイズは、ターゲットオブジェクトをより正確にトラッキングおよび／または検出するために後のトラッキングおよび検出において使用され得る。

【0054】

[00110]様々な技法が、ターゲットオブジェクトを検出する際にオブジェクト検出器２０８によって使用され得る。一構成では、ターゲットオブジェクトを検出することは、あらゆる可能なウィンドウ位置およびあらゆる可能なウィンドウサイズにおいてウィンドウのためにバイナリ分類を実行することを含み得る。しかしながら、あらゆる可能なウィンドウを探索することはリソース集約的である。したがって、別の構成では、オブジェクト検出器は、ビデオフレーム中のすべての可能なウィンドウではなく、ウィンドウ位置およびサイズのサブセットを探索し得る。たとえば、オブジェクト検出器２０８は、すべての可能なウィンドウの１％を探索し得る。次いで、検出が不成功である（たとえば、検出信頼性値２４０が検出閾値２５２よりも小さい）場合、後のキャプチャされたフレームにおいて、より高い割合のウィンドウ位置、たとえば２％が探索され得る。探索されるウィンドウ位置の百分率の刻みは、均一であってよく、不均一であってよく、低速または高速であってよく、すなわち、連続するフレームが、１％、２％、３％、４％または１％、２％、４％、８％を有し得る。一構成では、探索されるフレームの百分率は、高い検出信頼性値に応答して極めて高く（たとえば、８０％、９０％、１００％）、すなわち、ターゲットオブジェクトが次のビデオフレーム中にあることを保証するために、設定され得る。たとえば、探索されるフレームの百分率は、検出およびトラッキング閾値２５６を超える検出およびトラッキング信頼性値に応答して、少なくとも８０％に飛び得る。代替的に、百分率は、６０％、７０％、９０％などに飛び得る。加えて、検出およびトラッキング閾値の任意の好適な値、たとえば、０．６、０．６５、０．７、０．７５、０．８、０．８５などが使用され得る。さらに、探索されるウィンドウの百分率は、ランダマイザ２３４（乱数発生器）に基づいてランダムに決定されてよく、たとえば、１％から１５％の間のランダムな百分率のウィンドウが、キャプチャされたフレーム中で探索され得る。すべてのウィンドウ位置のサブセットを探索することによって、オブジェクト検出は、電子デバイス１０２よりも少数のリソースを使用し得る。

【0055】

[00111]本明細書で説明される技法は、各位置（location）に対してウィンドウサイズのサブセットを探索し得る。各ウィンドウサイズは、本明細書ではスケールレベルと呼ばれることがあり、各スケールレベルは特定のウィンドウサイズに対応する。たとえば、２０個の可能なスケールレベルがあり得る。すべての２０個のスケールレベルを探索するのではなく、スケールレベルまたはウィンドウサイズのサブセットが各ウィンドウ位置において探索され得る。

【0056】

[00112]本明細書で説明される技法は、探索されるウィンドウ位置およびサイズを調整するためにメモリバッファ２１０からのフィードバックも使用し得る。言い換えれば、その中でターゲットオブジェクトが正常に検出および／またはトラッキングされた、最後のキャプチャされたビデオフレームの位置およびサイズが、現在のビデオフレーム（Ｎ）２２４を探索するための開始点として使用され得る。たとえば、ターゲットオブジェクトが最近のビデオフレーム中で検出され、トラッキングされた（すなわち、最近のキャプチャされたビデオフレームのための検出およびトラッキング信頼性値２５６が検出およびトラッキング閾値を上回る）場合、スキャナロケータは、最近のフレームと関連付けられる位置およびサイズにおいて、現在のキャプチャされたフレームを探索し始め得る。たとえば、ターゲットオブジェクトが、光学系の視野（view）外に移動する場合、またはある距離において消える場合、ターゲットオブジェクトは、ターゲットオブジェクトが光学系の視野から出たとき、またはある距離において消えたときと同じサイズで再び現れる可能性が高いことがある。したがって、あるサイズまたはある範囲のサイズが、オブジェクト検出を実行するときに後のビデオフレーム中のターゲットオブジェクトを検出するために予測され得る。

【0057】

[00113]キャプチャされたビデオフレーム（Ｎ）２２４中で探索されるウィンドウ位置およびウィンドウサイズの探索範囲が、最近のビデオフレーム（たとえば、前のビデオフレーム（Ｎ−１）２２２）中のターゲットオブジェクトと関連付けられるウィンドウ位置およびウィンドウサイズと同様のものに限定され得る。本明細書で使用される「探索範囲」という用語は、ビデオフレーム中のターゲットオブジェクトを検出および／またはトラッキングするときに利用され得る候補ウィンドウ位置または候補ウィンドウサイズ（または両方）のセットを指す。たとえば、探索されるウィンドウ位置のサブセットは、ターゲットオブジェクトが最近のビデオフレーム中のどこで見出されたかに基づいて現在のビデオフレーム（Ｎ）２２４の一部分、たとえば、現在のビデオフレーム（Ｎ）２２４の４分の１または半分のうちの１つの中から選択され得る。言い換えれば、探索空間は、ターゲットオブジェクトが最後にトラッキングまたは検出されたところの近くに限定され得る。同様に、各ウィンドウ位置のために探索されるフレームのサイズは、ターゲットにされたオブジェクトが見出された、最近のビデオフレーム中のウィンドウのサイズに基づいて限定され得る。たとえば、オブジェクトが、８というスケールレベルを有するウィンドウを使用して最近のフレーム中で検出された場合、スキャナスケーラ２３６は、８プラスまたはマイナス３という、現在のビデオフレーム（Ｎ）２２４のためのウィンドウスケールレベル、すなわち、スケールレベル５〜１１のみを選択し得る。これはさらに、低い確率の探索をなくし、オブジェクト検出の効率を増加させ得る。代替的に、最近の（非現在の）ビデオフレームがターゲットオブジェクトを検出しなかった（すなわち、最近のビデオフレームのための検出およびトラッキング信頼性値２５６が検出およびトラッキング閾値を下回る）場合、オブジェクト検出器２０８は、探索される探索空間（ウィンドウ位置）を拡大することができ、たとえば、画像のより広い範囲または画像全体が探索の対象になり得る。

【0058】

[00114]オブジェクトトラッキングおよび検出モジュール２０４は、複数のウィンドウを統合して単一のウィンドウを形成するための融合モジュール２６０を含み得る。初めに２つの信頼性値、すなわち、オブジェクト検出器２０８からの検出信頼性値２４０および動きトラッカー２０６からのトラッキング信頼性値２２５がある。融合モジュール２６０は、２つの信頼性値を組み合わせて（たとえば、より大きい信頼性値を選んで）、検出およびトラッキング信頼性値２５６にすることができる。検出およびトラッキング信頼性値２５６は、ターゲットオブジェクトがビデオフレーム上で識別されたかどうかを示し得る。一構成では、検出およびトラッキング信頼性値２５６は０から１の間の実数であってよく、ただし、０は、ターゲットオブジェクトが特定のビデオフレーム中で識別されたことの、最低のあり得る信頼性を示し、１は、ターゲットオブジェクトが特定のビデオフレーム中で識別されたことの、最高のあり得る信頼性を示す。言い換えれば、検出およびトラッキング信頼性値２５６は、ターゲットオブジェクトが見つけられた可能性の全体的な指示として働き得る。さらに、検出およびトラッキング信頼性値２５６は、次のビデオフレーム中で探索すべきウィンドウ位置、ウィンドウサイズ、またはウィンドウの百分率を決定するために使用されるパラメータであり得る。融合モジュール２６０は、現在のビデオフレーム（Ｎ）２２４についての情報をメモリバッファ２１０に与えるために使用され得る。一例では、融合モジュール２６０は、トラッキングされたウィンドウ２４２についての情報（たとえば、ウィンドウ位置２４４、ウィンドウサイズ２４６など）と検出およびトラッキング信頼性値２５６とをメモリバッファ２１０に与え得る。融合モジュール２６０は、組み合わされたトラッキング結果（たとえば、バウンディングボックス）を形成して検出およびトラッキング信頼性値２５６を計算するために、動きトラッカー２０６およびオブジェクト検出器２０８からのトラッキング結果（たとえば、バウンディングボックス）を使用し得る。

【0059】

[00115]メモリバッファ２１０は、前のビデオフレーム（Ｎ−１）２２２、現在のビデオフレーム（Ｎ）２２４、または他のキャプチャされたビデオフレームと関連付けられる１つまたは複数の値を記憶し得る。一構成では、メモリバッファ２１０は、前のビデオフレーム（Ｎ−１）２２２に対応する情報を含み得る、キャプチャされた前のビデオフレーム２１２を記憶する。キャプチャされた前のビデオフレーム２１２は、各ウィンドウ２４２について位置２４４と、ウィンドウサイズ２４６と、（たとえば、分類器２３８からの）バイナリ決定２４８とを含む、１つまたは複数のウィンドウ２４２についての情報を含み得る。キャプチャされた前のビデオフレーム２１２はまた、トラッキング閾値２５０と、検出閾値２５２と、検出およびトラッキング閾値２５４とを含み得る。トラッキング閾値２５０は、トラッキング信頼性レベルがトラッキング閾値２５０よりも大きいかどうかを決定する（２５８）ために、動きトラッカー２０６またはオブジェクトトラッキングおよび検出モジュール２０４上の回路（たとえば、信頼性レベル比較器）に与えられ得る。検出閾値２５２は、検出信頼性値２４０が検出閾値２５２よりも大きいかどうかを決定するために、オブジェクト検出器２０８またはオブジェクトトラッキングおよび検出モジュール２０４上の他の回路に与えられ得る。検出およびトラッキング閾値２５４は、トラッキング閾値２５０および検出閾値２５２に基づく組み合わされた値であり得る。検出およびトラッキング閾値２５４は、動きに基づくトラッキングおよびオブジェクト検出のための組み合わされた信頼性値を決定するために、検出およびトラッキング信頼性値２５６と比較され得る。閾値の各々は、ターゲットオブジェクトがビデオフレーム内に位置する可能性に基づき得る。オブジェクトトラッキングおよび検出モジュール２０４は、特定の検出およびトラッキング信頼性値２５６が取得されるまで、現在のビデオフレーム（Ｎ）２２４に対する動きに基づくトラッキングおよび／または検出を実行し得る。さらに、動きに基づくトラッキングおよびオブジェクト検出は、複数のビデオフレームのシーケンス中の各ビデオフレームに対して実行され得る。

【0060】

[00116]動きに基づくトラッキングおよびオブジェクト検出を実行することは、動きに基づくトラッキングの後に、トラッキングされたパラメータに基づくオブジェクト検出を順次的に実行することを含み得る。特に、本システムおよび方法は、２ステップのトラッキングおよび検出手法を実施し得る。動きに基づくトラッキングが、使用されるオブジェクト検出としての実際のオブジェクト識別ではなく、シーンの相対的な動きに基づくので、動きに基づくトラッキングは、電子デバイスにおいて、オブジェクト検出を実行することほどリソース集約的でないことがある。したがって、オブジェクト検出器２０８の代わりに動きトラッカー２０６を使用することがより効率的であることがあり、ここで、ターゲットオブジェクトは、オブジェクト検出を実行することもなく、正確にトラッキングされ得る。

【0061】

[00117]したがって、オブジェクト検出器２０８と並列に動きトラッカー２０６を使用するのではなく、オブジェクトトラッキングおよび検出モジュール２０４は、動きトラッカー２０６が不十分である場合にオブジェクト検出器２０８を使用するにすぎず、すなわち、動きトラッキングおよびオブジェクト検出は（実行されるとしても）並列にではなく順次的に実行される。トラッキングが実行される各ビデオフレームに対して、動きトラッカー２０６は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４中にある可能性を示す０から１の間の実数であり得る、トラッキング信頼性値２２８を生成し得る。

【0062】

[00118]２ステップのトラッキングおよび検出手法の一構成では、動きトラッカー２０６は、最初に現在のビデオフレーム（Ｎ）２２４に対する動きに基づくトラッキングを実行し得る。動きトラッカー２０６は、動きに基づくトラッキングのプロセスに基づいてトラッキング信頼性値２２８を決定し得る。トラッキング信頼性値２２８とメモリバッファ２１０によって与えられたトラッキング閾値２５０とを使用して、オブジェクトトラッキングおよび検出モジュール２０４内の回路（たとえば、信頼性レベル比較器）は、トラッキング信頼性値２２８がトラッキング閾値２５０を超えるかどうかを決定し得る（２５８）。トラッキング信頼性値２２８がトラッキング閾値２５０よりも大きい場合、オブジェクトトラッキングおよび検出モジュール２０４は、オブジェクト検出の実行をスキップし、出力２６２を生成するために融合モジュール２６０にトラッキング結果を与え得る。出力２６２は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４内にあるという指示を含み得る。さらに、出力２６２は、ターゲットオブジェクトについての追加の情報を含み得る。

【0063】

[00119]トラッキング信頼性値２２８がトラッキング閾値２５０を超えない場合、オブジェクト検出器２０８はその後、現在のビデオフレーム（Ｎ）２２４に対するオブジェクト検出を実行し得る。オブジェクト検出は、現在のビデオフレーム（Ｎ）２２４内のウィンドウのすべてまたはサブセットに対して実行され得る。オブジェクト検出器２０８はまた、動きに基づくトラッキングの結果および／またはメモリバッファ２１０から与えられた情報に基づいて、ウィンドウのサブセット、ウィンドウサイズ、または他の検出基準を選択し得る。オブジェクト検出は、オブジェクト検出器２０８に与えられた１つまたは複数のトラッキングされたパラメータに基づいて、幾分ロバストなプロセスを使用して実行され得る。オブジェクト検出器２０８は、検出信頼性値２４０を決定し、検出信頼性値２４０を検出閾値２５２と比較し得る。検出信頼性値２４０が検出閾値２５２を上回る場合、オブジェクト検出器２０８は、出力２６２を生成するために融合モジュール２６０に検出結果を与え得る。出力２６２は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４内にあるという指示を含み、および／または検出されたオブジェクトについての追加の情報を含み得る。

【0064】

[00120]代替的に、検出信頼性値２４０が検出閾値２５２以下である場合、オブジェクト検出器２０８は、現在のビデオフレーム（Ｎ）２２４内のより多数のウィンドウを探索することのような、よりロバストな方法を使用してオブジェクト検出を再び実行し得る。オブジェクト検出器２０８は、満足な検出信頼性値２４０が取得されるまで、オブジェクト検出のプロセスを繰り返し得る。満足な検出信頼性値２４０が取得され、その結果、現在のビデオフレーム内のターゲットオブジェクトが識別されると、オブジェクトトラッキングおよび検出モジュール２０４が、次のビデオフレームに対するトラッキングおよび検出を実行するために使用され得る。

【0065】

[00121]図２Ｂを参照すると、オブジェクトトラッキングおよび検出モジュール２０４内のコンポーネントを実装するプロセッサ２６４の特定の例示的な実施形態が示されている。図２Ａに示されるように、オブジェクトトラッキングおよび検出モジュール２０４は、プロセッサ２６４によって実装され得る。異なるプロセッサが、異なるコンポーネントを実装するために使用され得る（たとえば、あるプロセッサは動きトラッカー２０６を実装することができ、別のプロセッサはオブジェクト検出器２０８を実装するために使用されてよく、また別のプロセッサはメモリバッファ２１０を実装するために使用されてよい）。

【0066】

[00122]図３を参照すると、動きに基づくトラッキングとオブジェクト検出とを実行するための方法３００の特定の例示的な実施形態のフローチャートが示されている。方法３００は、電子デバイス１０２、たとえば、オブジェクトトラッキングおよび検出モジュール１０４によって実装され得る。電子デバイス１０２は、前のビデオフレーム（Ｎ−１）２２２と現在のビデオフレーム（Ｎ）２２４とを比較することによって、現在のビデオフレーム（Ｎ）２２４のための動きに基づくトラッキングを実行することができる（３０２）。オブジェクトをトラッキングすることは、画像のペア間で点をトラッキングすることによってメジアンフロー方法を使用して実行され得る。動きに基づくトラッキングの他の方法も使用され得る。加えて、動きに基づくトラッキングは、メモリバッファ１１０を介して与えられたキャプチャされた前のビデオフレーム１１２についての情報を使用して現在のビデオフレーム（Ｎ）２２４のために実行され得る。

【0067】

[00123]電子デバイス１０２は、トラッキング信頼性値２２８を決定することができる（３０４）。トラッキング信頼性値２２８は、ターゲットオブジェクトが正確にトラッキングされた可能性または確実性を示し得る。電子デバイス１０２は、トラッキング信頼性値２２８がトラッキング閾値２５０よりも大きいかどうかを決定することができる（３０６）。トラッキング信頼性値２２８がトラッキング閾値２５０よりも大きい場合、電子デバイス１０２は、次のビデオフレームのための動きに基づくトラッキングを実行することができる（３０８）。さらに、電子デバイス１０２は、動きに基づくトラッキングの結果に基づいて、現在のビデオフレーム（Ｎ）２２４に対するオブジェクト検出を実行することをスキップし得る。言い換えれば、オブジェクト検出は、動きトラッキングがあまり良好でないときのみ、すなわち、トラッキング信頼性値２２８がトラッキング閾値２５０よりも大きくない場合に、現在のビデオフレーム（Ｎ）２２４のために実行され得る。しかしながら、トラッキング信頼性値２２８がトラッキング閾値２５０よりも大きくない場合、電子デバイス１０２は、現在のビデオフレーム（Ｎ）２２４のためのオブジェクト検出を実行することができる（３１０）。電子デバイス１０２は、動きに基づくトラッキングに続いてオブジェクト検出を実行し得る。いくつかの構成では、オブジェクト検出は、より高い検出信頼性値２４０を取得するために、異なるロバスト性とともに複数回実行され得る。

【0068】

[00124]図４を参照すると、動きに基づくトラッキングを実行するための方法４００の特定の例示的な実施形態のフローチャートが示されている。方法４００は、電子デバイス１０２、たとえば、オブジェクトトラッキングおよび検出モジュール１０４によって実装され得る。電子デバイス１０２は、バウンディングボックスを使用してターゲットオブジェクトを識別することができる（４０２）。オブジェクトを識別すること（４０２）は、タッチスクリーン１１６、または対象のオブジェクトがそれにより選択される他の入力方法を使用して、手動で実行され得る。複数のオブジェクトが、同様の方法で識別され得る。さらに、トラッキングされるべきオブジェクトを識別するために、他の入力方法が使用され得る。一例では、オブジェクトは、ターゲットオブジェクトの周りにバウンディングボックスを手動で描くことによって識別される。

【0069】

[00125]電子デバイス１０２は、バウンディングボックス内の格子（grid）上に点を初期設定することができる（４０４）。格子上の点は、バウンディングボックス全体にわたって一様に離隔され得る。さらに、２つの画像（たとえば、前のビデオフレーム（Ｎ−１）２２２と現在のビデオフレーム（Ｎ）２２４）間の格子上の点がトラッキングされ得る（４０６）。一例では、それらの点は、画像間の希薄な動きフローを生成するＬｕｃａｓ−Ｋａｎａｄｅトラッカーによってトラッキングされる。電子デバイス１０２は、２つの画像（たとえば、前のビデオフレーム（Ｎ−１）２２２と現在のビデオフレーム（Ｎ）２２４）間のトラッキング誤差を推定することができる（４０８）。トラッキング誤差を推定すること（４０８）は、トラッキングされた点の各点に誤差値を割り当てることを含み得る。さらに、トラッキング誤差を推定すること（４０８）は、たとえば、前方後方誤差と、正規化相互相関（ＮＣＣ）と、２乗差分和とを含む、様々な方法を使用して実行され得る。推定されたトラッキング誤差は、トラッキング信頼性値２２８を取得し、最終的に、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４中にある可能性を決定するために、使用され得る。一構成では、トラッキング信頼性値２２８は、現在のビデオフレーム（Ｎ）２２４中のトラッキングされたウィンドウと前のビデオフレーム（Ｎ−１）２２２中のトラッキングされたウィンドウとの間の正規化相互相関（ＮＣＣ）を計算することによって取得され得る。トラッキング誤差はまた、図５に関して以下でより詳細に説明される前方後方誤差推定を含む、追加の技法を使用して推定され得る。さらに、電子デバイス１０２は、範囲外の点の予測をフィルタで除去することができる（４１０）。たとえば、電子デバイスは、最悪の予測の５０％をフィルタで除去し得る。残りの予測は、バウンディングボックスの変位を推定するために使用され得る。

【0070】

[00126]電子デバイス１０２は、バウンディングボックスを更新することができる（４１２）。バウンディングボックスを更新すること（４１２）は、更新されたバウンディングボックスが次のビデオフレームのための新しいバウンディングボックスになるように、実行され得る。動きに基づくトラッキングのプロセスは次いで、次のビデオフレームのために繰り返されてよく、または、トラッキング信頼性値２２８がトラッキング閾値２５０以下である場合、動きに基づくトラッキングのプロセスは、ターゲットオブジェクトが正確にトラッキングされ得るまで、次のビデオフレームに対しては中止され得る。いくつかの構成では、現在のビデオフレーム（Ｎ）２２４のための動きに基づくトラッキングが満足な結果を与えない場合、電子デバイス１０２は、ターゲットオブジェクトを位置特定する際に信頼性のより高いレベルを取得するために現在のビデオフレーム（Ｎ）２２４に対するオブジェクト検出を実行し得る。いくつかの構成では、動きに基づくトラッキングが満足な結果を生成することができない場合（たとえば、ターゲットオブジェクトがビデオフレームの範囲外に移動したとき）、オブジェクト検出は、ターゲットオブジェクトが検出されるまで、任意の後のビデオフレームに対して実行され得る。

【0071】

[00127]図５を参照すると、前方後方(forward-backward)誤差に基づいて動きに基づくトラッキングにおけるトラッキング誤差を推定するための方法５００の特定の例示的な実施形態のフローチャートが示されている。方法５００は、電子デバイス１０２（たとえば、オブジェクトトラッキングおよび検出モジュール１０４）によって実施され得る。いくつかの構成では、電子デバイス１０２は、トラッキングされたウィンドウ間の正規化相互相関（ＮＣＣ）を計算し得る。正規化相互相関（ＮＣＣ）は、トラッキング信頼性値２２８を決定するために使用され得る。電子デバイス１０２はまた、正規化相互相関（ＮＣＣ）を補足する様々なトラッキング誤差推定技法（たとえば、前方後方誤差、２乗差分和）を使用し得る。前方後方誤差推定を使用する例では、電子デバイス１０２は、前方軌道を決定するために前のビデオフレーム（Ｎ−１）２２２と現在のビデオフレーム（Ｎ）２２４との間で前方トラッキングを実行することができる（５０２）。前方トラッキングは、ｋ個のステップ前方の画像をトラッキングすることを含み得る。得られた前方軌道（forward trajectory）は（ｘ_t，ｘ_t+1，．．．，ｘ_t+k）に等しくてよく、ただし、ｘ_tは時間的な点位置であり、ｋは画像のシーケンスの長さを示す。電子デバイス１０２は、後方軌道(backward trajectory)を決定するために現在のビデオフレーム（Ｎ）２２４と前のビデオフレーム（Ｎ−１）２２２との間で後方トラッキングを実行することができる（５０４）。得られる後方軌道は、

【0072】

【数1】

【0073】

に等しくてよく、ここで

【0074】

【数2】

である。

【0075】

[00128]電子デバイス１０２は、前方軌道と後方軌道との間の前方後方誤差を決定することができる（５０６）。前方後方誤差は、前方軌道と後方軌道との間の距離として定義され得る。さらに、様々な距離が軌道比較のために定義され得る。一構成では、検証軌道の始点と終点との間のユークリッド距離が、前方後方誤差を決定するときに使用され得る。一構成では、前方後方誤差は、トラッキング信頼性値２２８を決定するために使用され得る、トラッキング誤差として使用され得る。

【0076】

[00129]図６を参照すると、オブジェクト検出を実行するための方法６００の特定の例示的な実施形態のフローチャートが示されている。方法６００は、電子デバイス１０２（たとえば、オブジェクトトラッキングおよび検出モジュール１０４）によって実施され得る。電子デバイス１０２は、現在のビデオフレーム（Ｎ）２２４中のウィンドウ位置およびサイズのサブセットを探索することによって、現在のビデオフレーム（Ｎ）２２４に対するオブジェクト検出と動きに基づくトラッキングとを実行することができる（６０２）。

【0077】

[00130]電子デバイス１０２は、検出およびトラッキング信頼性値２５６を決定することができる（６０４）。検出およびトラッキング信頼性値２５６は、ターゲットオブジェクトが現在のビデオフレーム（Ｎ）２２４の中で、または特定のウィンドウ内で見出されるかどうかの、信頼性のレベルを与え得る。電子デバイス１０２は、検出および信頼性値２５６が検出およびトラッキング閾値２５４よりも大きいかどうかも決定することができる（６０６）。検出および信頼性値２５６が検出およびトラッキング閾値２５４よりも大きい場合、電子デバイス１０２は、次のビデオフレームにおけるウィンドウとサイズのサブセット（たとえば、同じサブセット）を使用して、次のビデオフレームに対するオブジェクト検出を実行することができる（６０８）。代替的に、検出および信頼性値２５６が検出およびトラッキング閾値２５４よりも小さい場合、電子デバイス１０２は、次のビデオフレームにおけるウィンドウ位置およびサイズのより大きいサブセットを使用して、次のビデオフレームに対するオブジェクト検出を実行することができる（６１０）。いくつかの構成では、信頼性値２５６が検出およびトラッキング閾値２５４よりも小さい場合、電子デバイス１０２は、次のビデオフレームの探索空間全体および／またはすべてのウィンドウを使用して、次のビデオフレームに対するオブジェクト検出を実行することができる（６１０）。

【0078】

[00131]図７を参照すると、異なるウィンドウサイズ７６６を有する画像ウィンドウ７００の特定の実施形態が示されている。具体的には、図７は、１０個の可能なウィンドウサイズ７６６ａ〜ｊのセットを示している。各ウィンドウサイズ７６６は、スケールレベル（たとえば、１〜１０）に対応し得る。本明細書では矩形として示されているが、探索されるウィンドウは、任意の形状、たとえば、正方形、矩形、円形、楕円、ユーザ定義されたものなどであり得る。さらに、任意の数、たとえば、５個、１５個、２０個、３０個などのウィンドウサイズ７６６またはスケールレベルが利用可能であり得る。

【0079】

[00132]探索範囲は、特定の位置に対して使用されるウィンドウサイズのサブセットによって示されてよく、たとえば、現在のビデオフレーム（Ｎ）２２４中で探索されるウィンドウサイズは、最近のフレーム中のターゲットオブジェクトと関連付けられるウィンドウ位置およびウィンドウサイズと同様のものに限定され得る。たとえば、フィードバックを伴わずに、オブジェクト検出器２０８は、各々の選択されたウィンドウ位置についてすべての１０個のウィンドウサイズ７６６ａ〜ｊを探索し得る。しかしながら、オブジェクトが、第５のウィンドウサイズ７６６ｅを有するウィンドウを使用して最近の（非現在の）ビデオフレーム中で検出された場合、スキャナスケーラ２３６は、５プラスまたはマイナス３という現在のキャプチャされたフレームのためのウィンドウサイズ、すなわち、ウィンドウサイズ２〜８だけを選択し得る。言い換えれば、第１のウィンドウサイズ７６６ａ、第９のウィンドウサイズ７６６ｉ、および第１０のウィンドウサイズ７６６ｊを有するウィンドウは、最近または前のビデオフレーム（Ｎ−１）２２２からのフィードバックに基づいて探索されないことがある。これはさらに、低い確率の探索をなくし、オブジェクト検出の効率を増加させ得る。言い換えれば、最近のビデオフレームからのフィードバックを使用することは、実行される計算を減らすのに役立ち得る。代替的に、最近のビデオフレームがターゲットオブジェクトを検出しなかった（すなわち、最近のキャプチャされたフレームのための検出およびトラッキング信頼性値２５６が検出およびトラッキング閾値２５４よりも小さい）場合、オブジェクト検出器２０８は、サイズレベルのサブセットを使用することによって探索範囲を限定しないことがある。

【0080】

[00133]図８を参照すると、オブジェクトトラッキングおよび検出モジュール８０４の特定の例示的な実施形態が示されている。図８に示されたオブジェクトトラッキングおよび検出モジュール８０４は、図２に示されたオブジェクトトラッキングおよび検出モジュール２０４と同様のモジュールを含み、同様の機能を実行し得る。具体的には、図８に示されたオブジェクト検出器８０８、動きトラッカー８０６、スキャナロケータ８３０、ウィンドウ位置選択器８３２、ランダマイザ８３４、スキャナスケーラ８３６、分類器８３８、融合モジュール８６０、メモリバッファ８１０、キャプチャされた前のビデオフレーム８１２、ウィンドウ８４２、位置８４４、サイズ８４６、バイナリ決定８４８、トラッキング閾値８５０、検出閾値８５２、検出およびトラッキング閾値８５４、検出信頼性値８４０、トラッキング信頼性値８２８、ならびに検出およびトラッキング信頼性値８５６は、図２に示されたオブジェクト検出器２０８、動きトラッカー２０６、スキャナロケータ２３０、ウィンドウ位置選択器２３２、ランダマイザ２３４、スキャナスケーラ２３６、分類器２３８、融合モジュール２６０、メモリバッファ２１０、キャプチャされた前のビデオフレーム２１２、ウィンドウ２４２、位置２４４、サイズ２４６、バイナリ決定２４８、トラッキング閾値２５０、検出閾値２５２、検出およびトラッキング閾値２５４、検出信頼性値２４０、トラッキング信頼性値２２８、ならびに検出およびトラッキング信頼性値２５６に対応し、それらと同様の機能を有し得る。

【0081】

[00134]オブジェクトトラッキングおよび検出モジュール８０４は、ターゲットの動きおよびトラッキングエラーによるジッタの影響を低減するために使用される平滑化モジュール８６１を含み得る。言い換えれば、平滑化モジュール８６１は、トラッキング結果を平滑化し、探索ウィンドウが、位置（ｘ，ｙ）８４４とサイズ（幅、高さ）８４６の両方においてより滑らかな軌道を有するようにする。平滑化モジュール８６１は、単純な移動平均（ＭＡ）フィルタまたは自動回帰（ＡＲ）フィルタであり得る。位置８４４に対する平滑化の程度およびサイズ８４６に対する平滑化の程度は異なり得る。カルマンフィルタのような予測フィルタも、位置８４４の平滑化に好適であり得る。したがって、平滑化モジュール８６１は、平滑化されていない位置８６３と平滑化されていないサイズ８６５とを入力として受け取り、平滑化された位置８６７と平滑化されたサイズ８６９とを出力し得る。

【0082】

[00135]図９を参照すると、平滑化モジュール９６１の特定の例示的な実施形態が示されている。平滑化モジュール９６１は、ターゲットの動きおよびトラッキングエラーによるジッタの影響を低減するために使用されてよく、すなわち、したがって、トラッキング結果（バウンディングボックス）は、位置（ｘ，ｙ）とサイズ（幅、高さ）の両方においてより滑らかな軌道を有する。一構成では、位置平滑化フィルタ９７１およびサイズ平滑化フィルタ９７３は、平滑化されていない位置９６３と平滑化されていないサイズ９６５とを入力として受け取り、平滑化された位置９６７と平滑化されたサイズ９６９とを出力するために、自動回帰（ＡＲ）モデルを使用して実装される。

【0083】

[00136]自動回帰（ＡＲ）モデルでは、Ｘは、平滑化されるべき変数であり、位置またはサイズのいずれかであると仮定する。さらに、Ｘ’をオブジェクトトラッカーによるＸの出力とする。この構成では、時間ｔにおけるＸの平滑化されたフィルタリングＸ_tが、式（１）に従って表され得る。
Ｘ_t＝Ｗ*Ｘ’_t＋(１−Ｗ)*Ｘ_t-1 （１）
ここで、Ｘ’_tは、時間ｔにおけるＸのトラッカー出力であり、Ｘ_t-1は、時間ｔ−１におけるＸの平滑化された結果であり、Ｗ（０≦Ｗ≦１）は、平滑化の効果を制御する平滑化重みである。たとえば、Ｘ’_tは、現在のビデオフレーム（Ｎ）２２４のために選択されたウィンドウ位置またはウィンドウサイズであってよく、Ｘ_t-1は、前のビデオフレーム（Ｎ−１）２２２のために使用されたウィンドウ位置またはウィンドウサイズであってよい。

【0084】

[00137]異なる平滑化重みＷが、位置平滑化フィルタ９７１およびサイズ平滑化フィルタ９７３のために使用され得る。たとえば、一実装形態では、ウィンドウ位置に対しては平滑化効果がより少ないが、ウィンドウサイズに対して平滑化効果がより強いように、Ｗ_location＝０．８およびＷ_size＝０．４である。平滑化重みのこの選択は、より少ないトラッキング遅延とより少ないジッタの両方もたらす。

【0085】

[00138]平滑化重みのその選択はまた、検出およびトラッキング信頼性値８５６がある閾値（たとえば、検出およびトラッキング閾値８５４）を下回るときに低減され得る。これは、潜在的トラッキングまたは検出誤差が高いとき、より強いフィルタリングを引き起こし得る。たとえば、低いトラッキングの信頼性に応答して（たとえば、検出およびトラッキング信頼性値８５６が検出およびトラッキング閾値８５４を下回る）、位置のための平滑化重みおよびサイズのための平滑化重みは、それぞれＷ_location＝０．６５およびＷ_size＝０．２に設定され得る。言い換えれば、重みの一方または両方が下げられてよく、これにより、ウィンドウ位置およびサイズ選択は、現在のビデオフレームのウィンドウ位置およびサイズよりも、前のビデオフレームのウィンドウ位置およびサイズにより大きく依存するようになり得る。

【0086】

[00139]重み付けは、検出およびトラッキング信頼性値８５６ではなく、トラッキング信頼性値８２８または検出信頼性値８４０に基づき得る。たとえば、平滑化重みＷ_locationおよびＷ_sizeは、トラッキング信頼性値８２８がトラッキング閾値８５０を下回ったことに応答して下げられてよく、すなわち、より強いフィルタリングが、不十分な動きトラッキングに応答して使用されてよい。代替的に、平滑化重みは、検出信頼性値８４０が検出閾値８５２を下回ったことに応答して下げられてよく、すなわち、より強いフィルタリングが、不十分なオブジェクト検出に応答して使用されてよい。

【0087】

[00140]別の構成では、カルマンフィルタリングが、ウィンドウ位置を平滑化するために使用され得る。そのような構成では、フィルタリングは式（２）〜（７）に従って定義され得る。
ｘ_k＝Ｆ_kｘ_k-1＋ｗ_k （２）
ｚ_k＝Ｈｘ_k-1＋ｖ_k （３）
ここで、ｘ_k-1は時間ｋ−１における前の状態であり、ｘ_kは

【0088】

【数3】

【0089】

によって定義される現在の状態であり、（ｘ，ｙ）はバウンディングボックスの中心の位置であり、

【0090】

【数4】

【0091】

は、各方向における速度である。さらに、状態遷移モデルＦ_k、および観測モデルＨは、それぞれ式（４）〜（５）によって定義され得る。

【0092】

【数5】

【0093】

ここで、Δｔは調節可能なパラメータである。加えて、ｗ_kは、以下の式（６）に従った共分散Ｑを有するゼロ平均多変量正規分布（zero mean multivariate normal distribution）から導出されると考えられるプロセス雑音である（すなわち、ｗ_k〜Ｎ（０，Ｑ））。

【0094】

【数6】

【0095】

ここで、σ₁は調節可能なパラメータである。同様に、ｖ_kは、以下の式（７）に従った共分散Ｒを有するゼロ平均ガウスホワイトノイズ（zero mean Gaussian white noise）であると考えられる観測雑音である（すなわち、ｖ_k〜Ｎ（０，Ｒ））。

【0096】

【数7】

【0097】

ここで、σ₂は調節可能なパラメータである。

【0098】

[00141]図１０を参照すると、動きトラッキングの結果のジッタを平滑化するための方法１０００の特定の例示的な実施形態のフローチャートが示されている。方法１０００は、電子デバイス１０２、たとえば、電子デバイス１０２中のオブジェクトトラッキングおよび検出モジュール８０４によって実行され得る。電子デバイス１０２は、現在のビデオフレーム２２４と関連付けられる１つまたは複数のウィンドウ位置と１つまたは複数のウィンドウサイズとを決定し、たとえば、平滑化されていない位置８６３と平滑化されていないサイズ８６５とを決定することができる（１００２）。電子デバイス１０２はまた、１つまたは複数の平滑化されたウィンドウ位置８６７と１つまたは複数の平滑化されたウィンドウサイズ８６９とを生成するために、１つまたは複数のウィンドウ位置と１つまたは複数のウィンドウサイズとをフィルタリングすることができる（１００４）。たとえば、これは、移動平均フィルタ、自動回帰フィルタ、またはカルマンフィルタを使用することを含み得る。一構成では、低いトラッキング信頼性（たとえば、検出およびトラッキング信頼性値８５６が検出およびトラッキング閾値８５４を下回る）に応答して、位置のための平滑化重みおよびサイズのための平滑化重みは低減され得る。代替的に、平滑化重みは、検出信頼性値８４０またはトラッキング信頼性値８２８に基づいて低減され得る。電子デバイスはまた、１つまたは複数の平滑化されたウィンドウ位置８６７および１つまたは複数の平滑化されたサイズ８６９によって定義された１つまたは複数のウィンドウを使用して、現在のビデオフレーム２２４内のターゲットオブジェクトを検出することができる（１００６）。

【0099】

[00142]撮影されたシーンの文脈では、「オブジェクト」という用語は、シーン内の物理的な物体を指す。ビデオストリームの文脈では、「オブジェクト」という用語は、ビデオストリーム内での物体の表現（たとえば、ビデオストリームのフレーム中の物体の画像）を指す。本明細書で使用される「モバイルデバイス」という用語は、次のフォームファクタ、すなわち、携帯可能（たとえば、スマートフォン）、運転可能（たとえば、車両またはロボット）、装着可能（たとえば、衣服またはアクセサリ）、および飛行可能（たとえば、ドローン）のいずれかのデバイスを含む。モバイルデバイスは、１つもしくは複数の画面（たとえば、タッチスクリーン）および／または１つもしくは複数の画像キャプチャデバイス（たとえば、カメラ）を含み得る。

【0100】

[00143]ビューの単一の光学的なフィールドから、ビューの複数の異なるフィールドを取得するのが望ましいことがある。そのような能力は、１つのカメラによってマルチカメラ効果を得るために使用され得る。たとえば、そのような能力は、１つだけのカメラによる、シーンの２つの異なる部分への（場合によっては異なるそれぞれのズーム率での）同時のズームをサポートするために適用され得る。そのような能力はまた、ビューのより大きなプライマリフィールド内で互いに独立に動く（たとえば、変化する）ビューの二次的フィールドをサポートするために適用され得る。

【0101】

[00144]本明細書で説明されるようなシステム、方法、および装置は、「プライマリビデオストリーム」とも呼ばれる、入力ビデオストリームストリームに対して動作するように実装され得る。プライマリビデオストリームは一連のフレームを表し、ここで各フレームはピクセル座標空間中の画像を表す。プライマリビデオストリームは通常、ストリームからフレームを復元するために使用され得る他の情報（たとえば、各フレームに対する、対応するフレーム開始コードまたはパケットおよびフレーム終了コードまたはパケット）を含む。ビデオストリームはまた、特定のフレームと関連付けられ得る埋め込まれたデータ（たとえば、メタデータ）を含み得る。ビデオストリームは、（可視の波長および／または他の波長を感知し得る）カメラまたは他の撮像デバイスによって生成されてよく、別のデバイスからストリーミングされてよく、またはデコーダによって（たとえば、磁気媒体または光学媒体に記憶されている情報から）生成されてよく、圧縮された形式または圧縮されていない形式であってよい。プライマリビデオストリームは、構築された光イメージャ（light imager）または他のデプスカメラ（たとえば、ＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔ）によってキャプチャされた画像に基づくビデオストリームのような、深度情報を含み得る。そのようなビデオストリームは、たとえば、各ピクセルの深度値を対応する色と対応付けることによって、タッチスクリーン上に表示され得る。ストリームは、生であることがあり、遅延していることがあり、または記憶装置から検索される（たとえば、事前に記録されている）ことがある。

【0102】

[00145]プライマリビデオストリームは、ビューのある点（たとえば、カメラまたは他の画像キャプチャデバイスのレンズ）に対するある角度（アングルangle）のビューとして表され得る、ビューのフィールドを有する。ビューのフィールドの角度幅（angle width）は、光学ズームおよび／またはデジタルズーム動作の結果として、経時的に変化し得る。図２７Ａは、撮影されたシーンの文脈での、ビューのフィールドＦＶ１０の例を示す。この図では、ビューのフィールドＦＶ１０は点線によって示され、ビューの当該点は小さな円によって示され、撮影されるシーンの部分は実線の長方形によって示される。図２７Ｂは、図２７Ａに示されるようなビューのフィールドＦＶ１０に対するズームアウト動作を実行した結果を示し、この動作によりフィールドが広がる。図２７Ｃは、図２７Ａに示されるようなビューのフィールドＦＶ１０に対するズームイン動作を実行した結果を示し、この動作によりフィールドが狭まる。図２７Ｂおよび図２７Ｃにおいて、破線の長方形および実線の長方形はそれぞれ、ズーム動作の前と後の、撮影されるシーンの部分を示す。図２７Ａ、図２７Ｂ、および図２７Ｃのすべてにおいて、ビューのフィールドＦＯＶ１０はビューの同じ点に対するものである。

【0103】

[00146]ビデオストリームは、１つまたは複数のオブジェクトを含み得るシーンを示す。通常、オブジェクトは物理的な有形の物体（たとえば、人々）である。図２７Ａでは、たとえば、シーン中のオブジェクトは、３人の人物と、星と、木とを含む。しかしながら、描画されたおよび／またはコンピュータにより生成されたコンテンツ（たとえば、アバター）のストリームの場合のように、オブジェクトが仮想的であり得ること、または別様に人工的であり得ることが企図される。

【0104】

[00147]ビューのフィールドの方向は、ビューのフィールドの中心線の方向（たとえば、ビュー円錐の中心軸の方向）として定義され得る。この方向は、たとえば、画像キャプチャデバイスの移動および／またはより大きなキャプチャされた画像内の選択されたウィンドウのデジタル変換動作の結果として、経時的に変化し得る。図２７Ｅは、図２７ＤのビューのフィールドＦＶ１０の方向に対する、ビューのフィールドＦＶ１０の方向を（点線によって示されるように）変化させた結果を示す。そのような変化は、たとえば、ビューの上記の点において画像キャプチャデバイスを回転させることによって、および／または、キャプチャされた画像内の選択されたウィンドウに対してデジタル変換動作を適用することによって、達成され得る。図２７Ｄと図２７Ｅの両方において、ビューのフィールドＦＯＶ１０はビューの同じ点に対するものである。

【0105】

[00148]図２８Ａは、タスクＴ２００と、Ｔ３００と、Ｔ３５０とを含む構成による、ビデオ処理の方法Ｍ１００のフローチャートを示す。タスクＴ２００は、ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択する。タスクＴ２００における選択に応答して、タスクＴ３００は、選択されたオブジェクトのうちの第１のオブジェクトを含むプライマリビデオストリームから第１のビデオストリームを生成する。第１のビデオストリームは、ビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する。

【0106】

[00149]タスクＴ２００における選択の後、タスクＴ３５０は、選択されたオブジェクトのうちの第２のオブジェクトを含むプライマリビデオストリームから第２のビデオストリームを生成する。第２のビデオストリームは、同様にビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する。ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。タスクＴ２００、Ｔ３００、およびＴ３５０は、たとえば、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0107】

[00150]タスクＴ２００は、プライマリビデオストリーム内の少なくとも２つのオブジェクトを選択する。この選択は、ユーザによる直接の動作に応答して実行され得る。そのような場合、プライマリビデオストリームをユーザに表示するために画面が使用されてよく、ユーザは、表示に現れているオブジェクトの中から特定の所望のオブジェクトを選択するために指示を入力することができる。表示がタッチスクリーン上で実行される場合、ユーザは、画面をタッチして所望のオブジェクト内のある点を選択することによって、選択を示すことができる。

【0108】

[00151]図２９は、３つのオブジェクトを選択するための一連のユーザの動作の例を示す図である。パネルＡは、デバイスのタッチスクリーン上に表示されるようなシーンを示す。デバイスは、選択モードを開始するようにユーザによって操作され得る。たとえば、タッチスクリーンは、ユーザが適切なアイコンをタッチするときに、選択モードに入るように構成され得る。パネルＡは、フレームの右上の角にある選択ツールアイコンの例を示す。パネルＢにおいて、ユーザは、選択モードを開始するために選択ツールアイコンをタッチする。パネルＣにおいて、デバイスが選択モードにあることを示すために、タッチ動作に応答してツールアイコンがハイライトされており、ユーザは第１のオブジェクトをタッチして第１のオブジェクトを選択する。パネルＤにおいて、オブジェクトが選択されていることを示すために、タッチ動作に応答して第１のオブジェクトがハイライトされており（たとえば、示されるようにシルエットが付けられている、または輪郭が付けられている）、ユーザは第２のオブジェクトをタッチして第２のオブジェクトを選択する。パネルＥにおいて、オブジェクトが選択されていることを示すために、タッチ動作に応答して第２のオブジェクトがハイライトされており、ユーザは第３のオブジェクトをタッチして第３のオブジェクトを選択する。パネルＦにおいて、オブジェクトが選択されていることを示すために、タッチ動作に応答して第３のオブジェクトがハイライトされており、ユーザは選択ツールアイコンを再びタッチして選択モードを終了する。デバイスは、ユーザが選択モードにおいて再び選択されたオブジェクトをタッチすると、選択されたオブジェクトの選択を解除するように構成され得る。

【0109】

[00152]図３０は、３つのオブジェクトを選択するための一連のユーザの動作の別の例を示す図である。この場合、デバイスは、図２９に示されるような選択モードとは異なるように動作する。パネルＡにおいて、ユーザは、選択モードを開始するために選択ツールアイコンをタッチする。パネルＢにおいて、デバイスが選択モードにあることを示すために、タッチ動作に応答してツールアイコンがハイライトされており、ユーザは第１のオブジェクトをタッチして第１のオブジェクトを選択する。パネルＣにおいて、オブジェクトが選択されていることを示すために、タッチ動作に応答して第１のオブジェクトがハイライトされており、選択に応答して、選択モードが終了され、ハイライトがツールアイコンから除去される。ユーザは選択ツールアイコンを再びタッチして選択モードを開始し、パネルＤにおいて、デバイスが選択モードにあることを示すために、タッチ動作に応答してツールアイコンがハイライトされており、ユーザは第２のオブジェクトをタッチして第２のオブジェクトを選択する。パネルＥにおいて、オブジェクトが選択されていることを示すために、タッチ動作に応答して第２のオブジェクトがハイライトされており、選択に応答して、選択モードが終了され、ハイライトがツールアイコンから除去される。ユーザは選択ツールアイコンを再びタッチして選択モードを開始し、パネルＦにおいて、デバイスが選択モードにあることを示すために、タッチ動作に応答してツールアイコンがハイライトされており、ユーザは第３のオブジェクトをタッチして第３のオブジェクトを選択する。

【0110】

[00153]別の例では、タッチスクリーンは、２動作の選択に応答して選択モードに入るように構成されてよく、第１の動作はメニューモードを選択し（たとえば、ユーザは画面の指定された領域をタッチしてメニューを表示させる）、第２の動作はメニューから選択モードを選択する。さらなる例では、選択ツールアイコンをタッチアンドホールドし、アイコンを画面上の所望の点へとドラッグし、次いでアイコンを離してその点を選択することによって、ユーザがオブジェクトを選択するように、タッチスクリーンが構成され得る。代替的に、ユーザは、所望のオブジェクトの少なくとも一部分（たとえば、バウンディングボックスまたは楕円またはなげなわ）を含む画像のエリアを選択することによって選択を示すために、タッチスクリーンを操作することができる。そのような場合、ユーザは、所望のオブジェクトを個々に、および／またはグループとして選択することができる。

【0111】

[00154]ユーザが選択モードの間に表示されるビューのフィールドを操作できるようにすること（たとえば、ビューのフィールドを狭めるためのピンチ動作、およびビューのフィールドを広げるためのズーム動作を行うこと）が、望ましいことがある。タッチスクリーンの操作以外に、直接のユーザによる選択のための他の可能な方式は、１つまたは複数のボタンもしくは他のスイッチを作動させること、および／またはジェスチャ認識を含む。ユーザによるそのような直接の動作に対する代替形態として、タスクＴ２００は、１つまたは複数の所定の基準をプライマリビデオストリームからの情報に適用することによって、自動的に選択を実行することができる。そのような基準は、たとえば、選手のジャージの番号の認識、顔認識、および／または（たとえば、スポーツイベントにおけるボールのような高速に移動するオブジェクトを識別するための）速度の検出を含み得る。

【0112】

[00155]方法Ｍ１００は、タスクＴ２００における選択に応答して、オブジェクトをトラッキングするように実施され得る。図３３Ｃは、（たとえば、オブジェクトトラッキングおよび検出モジュール２０４ならびに／またはオブジェクトトラッキングおよび検出モジュール８０４に関して上で説明されたように）選択されたオブジェクトをトラッキングするＴ２５０を含む、方法Ｍ１００の実施Ｍ２００のフローチャートを示す。代替的に、オブジェクトトラッキングはタスクＴ２００よりも前に開始してよい。そのような場合、タスクＴ２００は、トラッキングされるオブジェクトのセットの中から選択するために実施され得る。たとえば、ユーザは、トラッキングされたオブジェクトの表示の中から選択することができる。そのようなオブジェクトトラッキング（たとえば、タスクＴ２５０による）のために使用され得るアルゴリズムの例は、Ｌｕｃａｓ−Ｋａｎａｄｅ法（およびＫａｎａｄｅ−Ｌｕｃａｓ−Ｔｏｍａｓｉトラッカーのような変形）と、ミーンシフトトラッキングとを含む。オブジェクトのトラッキングは、プライマリビデオストリームのフレームの他の部分からオブジェクトを区画することを含み得るが、オブジェクトトラッキングは、そのような区画化がなくても実行され得る。

【0113】

[00156]プライマリビデオストリームのフレームの他の部分からのオブジェクトの区画化は、フレームの他の部分に対するオブジェクトの強調された表示（たとえば、シルエット付与または輪郭付与）をサポートするために使用され得る。区画化は、タスクＴ２００におけるオブジェクトの選択に応答して（たとえば、以下で説明されるような方法Ｍ３００のタスクＴ２５０またはタスクＴ４００によって）実行され得る。そのような区画化は、オブジェクトの選択を確認することによって、ユーザに視覚的なフィードバックを提供するために使用され得る。区画化は、選択が開始する前にも実行され得る。そのような場合、タスクＴ２００における選択は、すでに区画されているオブジェクトのセット（たとえば、区画されたオブジェクトが強調されている表示）の中から行われ得る。

【0114】

[00157]図３１の左側のパネルは、オブジェクトを含むシーンを示すビデオストリームからのフレームの２つの例を示す。オブジェクトの強調された表示は、タスクＴ２００における選択の前に、または、（たとえば、以下で説明されるような、方法Ｍ３００のタスクＴ２５０による、またはタスクＴ４００による）そのような選択に応答して、実行され得る。強調された表示の一例はオブジェクトのシルエットであり、これは、背景とは対照的な色（たとえば、図３１の中央のパネルにおいて示されるように、黒または黄）で表示され得る。この対照的な色は、すべてのオブジェクトに対して同じであってよく、または、（たとえば、各オブジェクトの局所的な背景と対照的となるように）オブジェクトによって異なっていてよい。強調された表示の他の例（対照的な色と同様に行われ得る）は、オブジェクトに輪郭を付与すること、およびオブジェクトにおいて、オブジェクト内に、またはオブジェクトの周囲にグラフィカル要素を表示すること（たとえば、オブジェクトの頂点または重心における三角形、図３１の右側のパネルに示されるようなオブジェクトの周囲の楕円など）を含む。

【0115】

[00158]プライマリビデオストリームの表示をユーザによるオブジェクトの直接の選択の状況において使用することは、低速で動いているオブジェクトに対しては適切であり得る。しかしながら、所望のオブジェクトのいずれかが表示の中で高速に動いている場合、そのような構成はユーザにとって不愉快であり得る。そのような高速な移動の場合、代わりに、ユーザによるオブジェクトの直接の選択の状況において、プライマリビデオストリームの単一のフレームを表示することが望ましいことがある。上で説明されたように、選択は、フレーム中のオブジェクトが区画され強調されている表示から行われ得る。ストリーム表示の選択とフレーム表示の選択の両方がサポートされる場合、これらの表示モードからの選択は、ユーザによって、および／または自動的に実行され得る。自動的な選択の場合、ストリームにおける動きの程度が、たとえばオプティカルフロー、動きベクトル、フレーム間のピクセル差分などのような尺度を使用して、定量化され得る。そのような場合、フレーム表示モードは、尺度の値が閾値を上回るときに選択されてよく、ストリーム表示モードは、尺度の値が閾値を下回るときに選択されてよい。

【0116】

[00159]タスクＴ２００における選択に応答して、タスクＴ３００は、選択されたオブジェクトのうちの第１のオブジェクトを含むプライマリビデオストリームから第１のビデオストリームを生成する。第１のビデオストリームは、ビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する。タスクＴ２００における選択の後、タスクＴ３５０は、選択されたオブジェクトのうちの第２のオブジェクトを含むプライマリビデオストリームから第２のビデオストリームを生成する。第２のビデオストリームは、同様にビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する。

【0117】

[00160]ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。図２８Ｂは、ビューのプライマリフィールドＰＦＶ１０の例を示し、図２８Ｂおよび図２８Ｃはそれぞれ、ビューの第１のフィールドＦＶ１００およびビューの第２のフィールドＦＶ２００の例を示し、これらはビューのプライマリフィールドＰＦＶ１０よりも狭く、これらの各々がビューの他のフィールド内にはないビューのプライマリフィールドＰＦＶ１０の一部分を含む。ビューのプライマリフィールド内のビューの第１のフィールドの幅および／または方向は、経時的に変化し得る。同様に、ビューのプライマリフィールド内のビューの第２のフィールドの幅および／または方向は、経時的に変化し得る。

【0118】

[00161]ビデオストリームは、デジタル画像（「フレーム」）の時間シーケンスである。一例では、画像のシーケンスは、特定のフレームレートで（たとえば、同じフレームレートでの提示のために）キャプチャされる。ビデオストリームは、各フレームの開始と終了とを示す情報を含み得る。一例では、ビデオストリームは、各フレームの最初のピクセルの前のフレーム開始コードと、各フレームの最後のピクセルの後のフレーム終了コードとを含む。別の例では、ビデオストリームは、ビデオストリームのフレームのピクセル情報を搬送する１つまたは複数のデータ信号と、ビデオストリームの各フレームの開始と終了とを示す１つまたは複数の同期信号とを含む。プライマリビデオストリームの特定のフォーマットに応じて、プライマリビデオストリームは追加の情報（たとえば、ヘッダ、メタデータ）を含み得る。プライマリビデオストリームが、フレーム開始コードとフレーム終了コードの間にフレームデータ（すなわち、ピクセル値）以外のデータを含むことも可能である。そのような他のデータは、たとえば、センサ構成の詳細および／または画像の統計値を含み得る。

【0119】

[00162]ビデオストリームの解析は、（たとえば、フレーム開始情報とフレーム終了情報とを使用して）ビデオストリームのフレームを抽出することと、フレームを処理のために利用可能にすることとを含む。たとえば、解析することは、バッファのような対応する指定された位置に各フレームを記憶することを含み得る。図３３Ａは、プライマリビデオストリームを解析してプライマリビデオストリームの一連のフレームを生成するタスクＴ１００を含む、方法Ｍ１００の実施Ｍ１１０のフローチャートを示す。代替的に、プライマリビデオストリームの１つまたは複数のフレームが任意の時間において方法Ｍ１００に対して（たとえば、メモリ中のバッファにおいて）利用可能であるように、別のプロセスが（たとえば、表示のために）プライマリビデオストリームを解析するために実行され得る。

【0120】

[00163]そのようなバッファ（たとえば、メモリバッファ１１０）は通常、ある時間において少なくとも１つの完全なフレームを記憶することが可能である。プライマリビデオストリームの解析は、複数のフレームバッファを交互にするように構成され得る。たとえば、１つのそのようなフレームバッファは処理のために完全なフレームを記憶することができるが、シーケンス中の後続のフレームが抽出されて別のフレームバッファに記憶される。代替的に、タスクＴ１００または解析プロセスは、新たなフレームが抽出されるにつれてバッファが更新される（および古いフレームが上書きされる）ように、解析されたフレームを循環バッファに記憶するように構成され得る。

【0121】

[00164]プライマリビデオストリームを解析することは、１つまたは複数の関連するオーディオストリームおよび／またはメタデータストリームからプライマリビデオストリームを分離するための、逆多重化動作を含み得る。代替的に、そのような動作は、タスクＴ１００または解析プロセスの上流で実行され得る（たとえば、プライマリビデオストリームはデマルチプレクサによって提供され得る）。

【0122】

[00165]タスクＴ３００およびＴ３５０の各々は、プライマリビデオストリームから対応する二次的ビデオストリームを生成する。そのようなタスクは、二次的ビデオストリームの各フレームに対して、プライマリビデオストリームの１つまたは複数の対応するフレームの所望の部分を抽出することによって、二次的ビデオストリームのフレームを生成するために実装され得る。所望のフレーム部分は、ストリームから（たとえば、ストリームバッファから）直接、または、（たとえば、上で説明されたようなフレームバッファまたは循環バッファに記憶されているような）解析されたフレームから抽出され得る。第１のオブジェクトの選択に応答して、および第２のオブジェクトの選択の前に、タスクＴ３００が対応する二次的ビデオストリームを生成するように、方法Ｍ１００を実施することが可能である。図３３Ｂは、方法Ｍ１１０のそのような実施Ｍ１２０のフローチャートを示し、これは、タスクＴ３００およびＴ３５０がタスクＴ２００の２つの選択Ｔ２００ＡおよびＴ２００Ｂに独立に応答し得ることを示す。

【0123】

[00166]所望のフレーム部分は、たとえば、対応するオブジェクトの場所（たとえば、オブジェクトの重心）、またはそのようなオブジェクトのバウンディングボックスの場所、およびビューの対応するフィールドの所望の幅およびアスペクト比のような、パラメータによって決定され得る。そのようなパラメータの値は、たとえば、プライマリビデオストリームのピクセル座標空間内のピクセル座標として所望のフレーム部分の境界（たとえば、所望のフレーム部分の左上のピクセルおよび右下のピクセルの座標）を決定するために使用され得る。

【0124】

[00167]所望のフレーム部分の幅および／またはアスペクト比の値は、デフォルトの値であってよく、ユーザもしくはプロセスによって示されてよく、および／または、オブジェクトのサイズ（たとえば、オブジェクトのバウンディングボックスのサイズ）に基づいてよい。たとえば、所望のフレーム部分の幅および／またはアスペクト比は、二次的ビデオストリームを含む表示におけるウィンドウの所望の数によって示され得る。二次的ビデオストリームはプライマリビデオストリームと同じアスペクト比を有することがあるが、そうである必要はないこと、および、各二次的ビデオストリームは固有のアスペクト比を有することがあるが、そうである必要はないことに、明確に留意されたい。

【0125】

[00168]ピクセル座標空間において並べられるようなプライマリビデオストリームのフレームに関して、所望のフレーム部分は抽出ウィンドウであると見なされ得る。一例では、タスクＴ３００および／またはＴ３５０は、１つまたは複数の選択されるオブジェクトの現在の場所に基づいて、抽出ウィンドウの所定のセットの１つを選択して適用することによって、所望のフレーム部分を抽出するように実施される。図３２Ａは、プライマリビデオストリームのフレームに関する、各々が固定されたサイズ（すなわち、１つの４分の１フレーム）とフレーム内での固定された場所とを有する９個のそのようなウィンドウの例示的なセットを示す。この例において示されるように、ウィンドウは重複し得るので、（図３２Ｂのフレーム分割においてウィンドウの対応付けの表記によって示されるように）オブジェクトの場所は、ウィンドウの２つ以上に含まれるフレームの一部分に存在し得る。そのような場合、（たとえば、直近に選択されたウィンドウが現在も選択のために示されている場合、そのウィンドウを使用し続けるために）履歴に基づいて、および／または（たとえば、フレーム内のオブジェクトの現在の場所および１つまたは複数の以前の場所によって示されるように、ならびに／または、キャプチャデバイスの移動および／もしくはビューのプライマリフィールドの移動によって示されるように、次の予想されるオブジェクトの場所と中心がよく一致するウィンドウを選択するために）動きに基づいて、示されるウィンドウの１つを選択するように、タスクが実施され得る。

【0126】

[00169]別の例では、タスクＴ３００および／またはＴ３５０は、（たとえば、オブジェクトのバウンディングボックスのサイズのような、オブジェクトサイズに基づいて）抽出ウィンドウサイズの所定のセットの１つを選択するように実施される。そのような場合、タスクは、選択されたサイズの抽出ウィンドウを（たとえば、１つまたは複数のオブジェクトの重心と中心が揃っている）フレーム内の所望の抽出場所において適用するように実施され得る。さらなる例では、タスクＴ３００および／またはＴ３５０は、１つまたは複数の選択されたオブジェクトのサイズから（たとえば、対応する選択されたオブジェクトのサイズから）抽出ウィンドウのサイズを計算し、オブジェクトの場所（たとえば、重心）においてそのウィンドウを適用するように実施される。別のさらなる例では、タスクＴ３００および／またはＴ３５０は、抽出ウィンドウとして、現在の平滑化されたまたは平滑化されていない探索ウィンドウ（たとえば、図７〜図１０に関して本明細書で説明されたような）を適用するように実施される。いずれの場合でも、対応する二次的ビデオストリームの複数のフレームの各々の中で選択されたオブジェクトのサイズを正規化するのが望ましいことがある。たとえば、プライマリビデオストリーム内のトラッキングされたオブジェクトのサイズの変化に応答して（たとえば、オブジェクトがキャプチャデバイスに近づく、もしくはそれから離れるにつれて、および／または、ビューのプライマリフィールドの幅の変化の結果として）、（たとえば、抽出ウィンドウの）抽出されたフレーム部分のサイズを変化させるのが望ましいことがある。

【0127】

[00170]１つまたは複数の表示の制約により、抽出ウィンドウのサイズおよび／または場所を選択または計算するのが望ましいことがある。たとえば、オブジェクトと所望のフレーム部分の任意の端部との間の距離が最小の数のピクセル（たとえば、５ピクセル、１０ピクセル、または２０ピクセル）未満であることを検出したことに応答して、ウィンドウサイズを大きくし、および／またはウィンドウの場所を変更するのが望ましいことがある。加えて、または代替的に、オブジェクトのサイズと所望のフレーム部分との所望の関係を維持するために（たとえば、上で説明されたようなウィンドウ内のオブジェクトのサイズを正規化するために）、ウィンドウサイズを変更するのが望ましいことがある。たとえば、高さおよび／または幅のようなオブジェクトの寸法の、所望のフレーム部分の対応する寸法に対する比率を、所定の最小値（たとえば、５０％、６０％、７０％、または８０％）以上に維持すること、および／または、所定の最大値（たとえば、８０％、９０％、または９５％）未満に維持するのが望ましいことがある。そのような端部を利用する検出および／または正規化はまた、（たとえば、選択されたオブジェクトと接するボックスの寸法と、プライマリビデオストリームのフレームが表示される表示ウィンドウの対応する寸法との間の、上で言及された比率のいずれかのような、所望の関係を維持するために）プライマリビデオストリーム上で実行され得る。

【0128】

[00171]対応する抽出された所望のフレーム部分に対する１つまたは複数の処理動作を実行することによって、二次的ビデオストリームの１つまたは複数のフレームを生成するようにタスクＴ３００および／またはタスクＴ３５０を実施するのが望ましいことがある。サイズ変更、補間、正規化、および／または表示に関する調整を含み得るそのような処理は、所望のフレーム部分が抽出されるにつれて、および／またはフレーム部分の抽出が完了した後に、実行され得る。たとえば、二次的ビデオストリームのフレームを生成することは、明るさ、コントラスト、およびホワイトバランスの１つまたは複数のような、フレームの１つまたは複数の色特性および／または輝度特性を正規化することを含み得る。加えて、または代替的に、タスクＴ３００および／またはＴ３５０は、第２のビデオストリームを生成するために、プライマリビデオストリームからのピクセル情報に対して１つまたは複数の表示関連の調整を実行することを含み得る。そのような調整の例は、異なる色空間へピクセル情報を変換すること（たとえば、ＹＵＶからＲＧＢ）と、ガンマ補正を実行することとを含む。

【0129】

[00172]タスクＴ３００および／またはＴ３５０は、プライマリビデオストリームとのフレームごとの対応付けを有するように二次的ビデオストリームを生成するように実施され得る。そのような場合、タスクは、プライマリビデオストリームの対応するフレームから二次的ビデオストリームの各フレームを生成することができる。タスクＴ３００および／またはＴ３５０は代替的に、プライマリビデオストリームとは異なるフレームレートを有するように二次的ビデオストリームを生成するように実施され得る。１つのそのような例では、タスクは、（たとえば、プライマリビデオストリームの対応するｎ番目のフレームから第１のビデオストリームの各フレームを生成することによって、ここでｎは１よりも大きな整数である、および／または、プライマリビデオストリームのフレームレートの非整数部分を得るためにプライマリビデオストリームの２つ以上のフレームを補間することによって）プライマリビデオストリームよりも低いフレームレートを有するように、二次的ビデオストリームを生成するように実施される。別の例では、タスクは、（たとえば、二次的ビデオストリームのフレームを生成するためにプライマリビデオストリームの２つ以上のフレームを補間することによって）プライマリビデオストリームよりも高いフレームレートを有するように、二次的ビデオストリームを生成するように実施される。

【0130】

[00173]タスクＴ３００および／またはＴ３５０は、送信および／または記憶のために、対応する二次的ビデオストリームを生成するように実施され得る。たとえば、そのようなタスクが、フレーム開始／終了コードを生成されたフレームに追加すること、および／または、フレーム間のそのような分割を示す１つまたは複数の同期信号を生成することが、望ましいことがある。他の情報および／またはフォーマット化が、特定のストリームフォーマットと適合するように実行され得る（たとえば、そのようなタスクは、ヘッダプラスペイロードフォーマットへとピクセルデータをパケット化するように実施され得る）。タスクＴ３００および／またはＴ３５０は、二次的ビデオストリームを、動きベクトルおよび／または予測フレームのような構造物を生成することによってストリームを符号化するように構成され得る圧縮器または他のエンコーダに、提供するように実施され得る。使用され得る記憶ファイルフォーマットの例は、次のビデオコンテナフォーマット、すなわち、ＡＶＩ、ＷＭＶ、ＭＯＶ、ＭＫＶ、ＭＰＧ、およびＭＰ４のいずれかを含む。

【0131】

[00174]タスクＴ３００および／またはＴ３５０は、メタデータを二次的ビデオストリームと関連付けるように実施され得る。そのようなメタデータは、オブジェクトの場所、選択されたオブジェクトのラベル（たとえば、人の名前）、選択されたオブジェクトの間の幾何学的構成の識別などのような、トラッキングされるオブジェクトに関する情報に基づき得る。加えて、または代替的に、メタデータは、デバイスの他の要素から、および／またはプライマリビデオストリーム中のメタデータから取得され得る情報（たとえば、カメラの設定、カメラの向き、センサの特性、キャプチャの時間および／または位置）を含み得る。

【0132】

[00175]タスクＴ３００および／またはＴ３５０のそのような実施は、ＸＭＬ（拡張マークアップ言語）、ＫＬＶ（Ｋｅｙ−Ｌｅｎｇｔｈ−Ｖａｌｕｅ）、＊．ｓｒｔ（ＳｕｂＲｉｐファイルフォーマット）、および＊．ｖｔｔ（ウェブビデオテキストトラックフォーマット）の中のいずれかのような、所望のフォーマットへとメタデータを符号化することができる。いくつかのフォーマットでは、メタデータの少なくともいくつかは、二次的ビデオストリーム内に（たとえば、埋め込まれたデータのために確保されているフレームデータの一部分の中に）含まれ得る。代替的に、ストリーム生成タスクは、二次的データストリームと同期されるメタデータストリームとしてメタデータをパッケージ化するように実施され得る。たとえば、そのようなストリーム内のメタデータの項目は、そのような項目と二次的ビデオストリームの対応するフレームとの所望の関連付けを示すために、タイムスタンプを付与され得る。

【0133】

[00176]方法Ｍ１００はまた、１つまたは複数の二次的ビデオストリームを他のストリームと組み合わせるように実施され得る。たとえば、二次的ビデオストリームは、１つまたは複数の他のストリーム（たとえば、１つまたは複数のオーディオストリームおよび／またはメタデータストリーム）と多重化され得る。加えて、または代替的に、二次的ビデオストリームは、複数のウィンドウを伴うフレームを有する出力ストリームを生成するために１つまたは複数の他のビデオストリーム（たとえば、他の二次的ビデオストリーム）と組み合わされてよく、各ウィンドウはビデオストリームの異なる１つに対応する。加えて、または代替的に、方法Ｍ１００は、図１７〜図２０を参照して下で説明されるような選択されたオブジェクトの間の幾何学的配置および／または複合的な幾何学的配置（たとえば、選択されたオブジェクトの幾何学的構成）を示す情報のようなメタデータ（たとえば、上で説明されたような任意のそのような方式の）をプライマリビデオストリームと関連付けるタスクを含むように実施され得る。

【0134】

[00177]送信または記憶のために二次的ビデオストリームを提供する代わりに、またはそれに加えて、タスクＴ３００および／またはＴ３５０は、局所的な表示のために二次的ビデオストリームを提供するように実施され得る。たとえば、そのようなストリーム生成タスクは、フレームデータを表示タスクに対して利用可能にすることができ、表示タスクは、フレームデータを表示バッファに記憶するように実施され得る。たとえば、表示タスクは、各々の二次的ビデオストリームのフレームを表示の対応するウィンドウに対応する表示バッファの領域に記憶するように実施され得る。

【0135】

[00178]図３３Ｄは、第１のビデオストリームおよび／または第２のビデオストリームを表示する表示タスクＴ４００（たとえば、上で説明されたような）を含む、方法Ｍ１００の実施Ｍ３００のフローチャートを示す。タスクＴ４００は、（たとえば、別のウィンドウにおける）プライマリビデオストリームの表示とともに、またはそのような表示を伴わずに、表示のそれぞれのウィンドウ内で各々のそのようなストリームを表示するように実施され得る。図３７Ａは、表示タスクＴ４００がトラッキングタスクＴ２５０からの入力にも応答する、方法Ｍ２００およびＭ３００の実施Ｍ４００のフローチャートを示す。

【0136】

[00179]図３４Ａ〜図３４Ｃは、方法Ｍ３００（たとえば、方法Ｍ４００）の実施の適用形態の例を示し、図３４ＡはプライマリビデオストリームＰＳ１０のフレームＰＦ１０を示し、図３４Ｃは表示ビデオストリームＤＳ１０の対応するフレームＤＦ１０を示す。図３４Ｂの左下にある重要な図は、フレームＰＦ１０の中の各々の選択されたオブジェクトと対応する抽出ウィンドウとの関連付けを示す。図３４Ｂの中心の図は、フレームバッファＦＢ１０に記憶されているようなフレームの対応する所望のフレーム部分ＦＰ１０〜ＦＰ４０を定義する抽出ウィンドウと、タスクＴ３００および／またはＴ３５０の対応する実体によって生成される二次的ビデオストリームＳＳ１０〜ＳＳ４０とを示す。

【0137】

[00180]この例では、タスクＴ４００は、ストリームに対応するウィンドウの、表示フレームＤＦ１０における所望の構成に従って、表示バッファＤＢ１０の表示部分ＤＰ２０〜ＤＰ５０の対応する１つに、二次的ビデオストリームの各々を記憶するように実施される。またこの例では、タスクＴ４００は、対応するウィンドウにおける表示のために表示バッファＤＢ１０の表示部分ＤＰ１０に、プライマリビデオストリームＰＳ１０のサイズ変更されたバージョンＲＰＳ１０を記憶するように実施される。図３４Ｂの右下にあるプライマリな図は、表示バッファＤＢ１０内の各表示部分ＤＰ１０〜ＤＰ５０と、表示フレームＤＦ１０の対応するウィンドウとの関連付けを示す。

【0138】

[00181]タスクＴ３００およびＴ３５０は、各々のそれぞれのオブジェクトを選択すると、または、選択動作が完了したこと（たとえば、すべての所望のオブジェクトが選択されていること、さらなる選択が現在望まれていないこと）が示されると、開始することができる。選択されたオブジェクトの２つが近接している場合、二次的ビデオストリームの１つの生成は、（たとえば、トラッキングタスクＴ２５０によって示されるような）オブジェクト間の分離が閾値の距離に達するまで、またはそれを超えるまで、遅延させられ得る。

【0139】

[00182]図３５は、方法Ｍ１００の適用形態のそのような例を示す。パネルＡは、プライマリビデオストリームのビューのプライマリフィールドＰＦＶ２０を示す。パネルＢは、時間Ａにおいて、タスクＴ３００の実体によって生成されるような、第１のビデオストリームのビューの第１のフィールドＦＶ１１０を示す。時間Ａにおいて、ビューの第１のフィールドＦＶ１１０は、第１のオブジェクトと第２のオブジェクトの両方を含む。パネルＣは、時間Ａよりも後の時間Ｂにおいて、タスクＴ３００の実体によって生成されるようなビューの第１のフィールドＦＶ１１０と、タスクＴ３５０の実体によって生成されるような第２のビデオストリームのビューの第２のフィールドＦＶ２１０とを示す。時間Ｂにおいて、ビューの第１のフィールドＦＶ１１０は、第１のオブジェクトを含み、第２のオブジェクトをもはや含まず、ビューの第２のフィールドＦＶ２１０は第２のオブジェクトを含む。

【0140】

[00183]図１１は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図１１に示される実施形態に関して説明されるビデオ処理技法は、たとえば、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0141】

[00184]図１１は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム１１００を示す。たとえば、フレーム１１００は、モバイルデバイスの画面に表示されるべきビデオストリームのフレームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム１１００に示されるシーンは、第１のオブジェクト１１０２と、第２のオブジェクト１１０４と、第３のオブジェクト１１０６と、星と、木とを含む。示される実施形態では、第１のオブジェクト１１０２は第１の人物に対応してよく、第２のオブジェクト１１０４は第２の人物に対応してよく、第３のオブジェクト１１０６は第３の人物に対応してよい。別の実施形態では、オブジェクト１１０２〜１１０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0142】

[00185]図１１はまた、モバイルデバイスの画面上のフレーム１１００の表示１１１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示１１１０はまた、ユーザが（たとえば、トラッキングタスクＴ２５０による）トラッキングのために表示されたオブジェクトを選択することを可能にする、ユーザ選択機構１１１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構１１１１をタッチし、次いで、第１のオブジェクト１１０２のトラッキングを可能にするために第１のオブジェクト１１０２の周囲で第１の焦点リング１１１２をドラッグすることができる。第１の焦点リング１１１２のそのような配置に応答して、モバイルデバイスは、示されるシーン内でのトラッキングのために、第１のオブジェクト１１０２を選択することができる。同様の方式で、ユーザはまた、ユーザ選択機構１１１１をタッチし、次いで第２のオブジェクト１１０４の周囲で第２の焦点リング１１１４をドラッグし、ユーザ選択機構１１１１をタッチし、次いで第３のオブジェクト１１０６の周囲で第３の焦点リング１１１６ドラッグして、それぞれ、第２のオブジェクト１１０４および第３のオブジェクト１１０６のトラッキングを可能にすることができる。第２の焦点リング１１１４および第３の焦点リング１１１６のそのような配置に応答して、モバイルデバイスは、示されるシーン内でのトラッキングのために、それぞれ第２のオブジェクト１１０４と第３のオブジェクト１１０６とを選択することができる。

【0143】

[00186]図１１はまた、（たとえば、第１の時刻の後の）第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム１１２０を示す。フレーム１１２０において、オブジェクト１１０２〜１１０６の場所は、第１の時刻におけるシーンを示すフレーム１１００中の対応する場所に対して変化している。たとえば、フレーム１１２０において、第１のオブジェクト１１０２は星に近づくように移動しており、第２のオブジェクト１１０４は木に近づくように移動しており、第３のオブジェクト１１０６はフレームの下部に近づくように移動している。

【0144】

[00187]図１１はまた、モバイルデバイスの画面上のフレーム１１２０の表示１１３０を示す。表示１１３０は、２つ以上のウィンドウへと（たとえば、表示タスクＴ４００によって）区分され得る。この例では、表示１１３０は、第１のウィンドウ１１３２、第２のウィンドウ１１３４、および第３のウィンドウ１１３６へと区分される。ユーザ選択機構１１１１による３つのオブジェクト１１０２〜１１０６の選択に応答して、たとえば、モバイルデバイスは、３つの対応するウィンドウ１１３２〜１１３６へと表示１１３０を区分することができる。

【0145】

[00188]デバイスは、オブジェクト選択が完了したというユーザによる指示に応答して、選択された区分を適用するように構成され得る。たとえば、対応するオブジェクトが選択されるにつれて各ウィンドウを作成することによって、デフォルトの区分が適用され得るが、（たとえば、表示エリアがオブジェクト選択の間に利用可能なままであるように）オブジェクト選択が完了するまで区分を適用するのを控えることが望ましいことがある。デバイスは、たとえば、選択の完了が示されるまで焦点リングおよび／または選択されたオブジェクトを明滅させることによって、オブジェクト選択が進行中であることを示し得る。各々の選択されたオブジェクトに対する焦点リングまたは他の選択の指示は、選択の完了が示されるまで、（たとえば、オブジェクトがシーンの中を動くにつれて）オブジェクトを追い続け、または別様に示し続け得る。

【0146】

[00189]第１のウィンドウ１１３２は、第１のオブジェクト１１０２を含むフレーム１１２０の第１の部分を表示することができる。フレーム１１２０の第１の部分は、フレーム１１２０の中の第１のオブジェクト１１０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第１のオブジェクト１１０２の位置をトラッキングし、第１のウィンドウ１１３２において、第１のオブジェクト１１０２の位置に注目している（たとえば、その位置が中心である）ビデオストリームを表示することができる。第２のウィンドウ１１３４は、第２のオブジェクト１１０４を含むフレーム１１２０の第２の部分を表示することができる。フレーム１１２０の第２の部分は、フレーム１１２０の中の第２のオブジェクト１１０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第２のオブジェクト１１０４の位置をトラッキングし、第２のウィンドウ１１３４において、第２のオブジェクト１１０４の位置に注目しているビデオストリームを表示することができる。第３のウィンドウ１１３６は、第３のオブジェクト１１０６を含むフレーム１１２０の第３の部分を表示することができる。フレーム１１２０の第３の部分は、フレーム１１２０の中の第３のオブジェクト１１０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第３のオブジェクト１１０４の位置をトラッキングし、第３のウィンドウ１１３６において、第３のオブジェクト１１０６の位置に注目しているビデオストリームを表示することができる。

【0147】

[00190]図３６Ａおよび図３６Ｂは、ウィンドウ１１３２〜１１３６の他の可能なデフォルト構成の例を示す。特定のデフォルト構成は、デバイスの表示構成オプションとしてユーザにより選択可能であり得る。この構成は固定されていてよく、またはユーザにより修正可能であってよい。一例では、デバイスは、ウィンドウの側部の１つをドラッグすることによって表示の中の異なる位置にウィンドウを動かすことができ、表示の境界に位置しないウィンドウの角をドラッグすることによってウィンドウをサイズ変更することができ、ウィンドウ内で指またはスタイラスを（たとえば、２秒という期間）ホールドすることによってウィンドウを削除することができる。さらなる例では、ユーザがウィンドウ内をダブルタップして、デバイスに、そのウィンドウのコンテンツ（たとえば、ウィンドウ内に表示される二次的ビデオストリーム）を表示の中で現在最大であるウィンドウのコンテンツと交換させることができるように、デバイスは構成される。

【0148】

[00191]図１１はまた、（たとえば、第２の時刻（instance）の後の）第３の時刻におけるシーンを示す、ビデオストリームのフレーム１１４０を示す。フレーム１１４０において、各オブジェクト１１０２〜１１０６の場所は、第２の時刻におけるシーンを示すフレーム１１２０中の対応する場所に対して変化している。たとえば、フレーム１１４０において、第１のオブジェクト１１０２は木に近づくように移動しており、第２のオブジェクトはフレームの下部に近づくように移動しており、第３のオブジェクト１１０６は星に近づくように移動している。

【0149】

[00192]図１１はまた、モバイルデバイスによって生成されるウィンドウ１１３２〜１１３６を使用した、モバイルデバイスの画面上のフレーム１１４０の表示１１５０を示す。たとえば、第１のウィンドウ１１３２は、第１のオブジェクト１１０２を含むフレーム１１４０の第１の部分を表示し、第２のウィンドウ１１３４は、第２のオブジェクト１１０４を含むフレーム１１４０の第２の部分を表示し、第３のウィンドウ１１３６は、第３のオブジェクト１１０６を含むフレーム１１４０の第３の部分を表示する。

【0150】

[00193]ウィンドウの各々の中で、それぞれの選択されたオブジェクトの位置を正規化することが望ましいことがある。たとえば、それぞれの選択されたオブジェクトの中心（たとえば、重心）がウィンドウの中心と一致するように、および、オブジェクトがシーン内で動くにつれてこの関係を維持するように、ウィンドウを表示するのが望ましいことがある。加えて、または代替的に、ウィンドウの各々の中で、それぞれの選択されたオブジェクトのサイズを正規化することが望ましいことがある。たとえば、それぞれの選択されたオブジェクトの最大の寸法がウィンドウの対応する寸法の５０％と７５％の間にあるように、および、オブジェクトがカメラに向かって、またはカメラから離れるように動くにつれてこの関係を維持するように、ウィンドウを表示するのが望ましいことがある。そのような表示は、たとえば、ウィンドウに表示されている部分をサイズ変更する（たとえば、その部分にデジタルズーム動作を適用する）ことによって達成され得る。加えて、または代替的に、ウィンドウの各々の中で、明るさ、コントラスト、およびホワイトバランスのいずれかを含み得る、ウィンドウの１つまたは複数の表示の態様を正規化するのが望ましいことがある。

【0151】

[00194]特定の実施形態において、第４のウィンドウ（たとえば、図３６Ｃに示されるようなウィンドウ１１３８）は、表示１１３０および１１５０に（たとえば、表示タスクＴ４００によって）含まれ得る。第４のウィンドウは、図１７に関してさらに説明されるように、各オブジェクト間の幾何学的配置を示し得る。加えて、または代替的に、第４のウィンドウは、フレーム１１２０と１１４０とを含むビデオストリームを表示することができる。たとえば、第１のウィンドウ１１３２、第２のウィンドウ１１３４、および第３のウィンドウ１１３６は、フレーム１１２０および１１４０のピクチャインピクチャショットに対応してよく、第４のウィンドウはフレーム１１２０および１１４０の全体に対応してよい。そのような場合、選択されたオブジェクトのすべてが第４のウィンドウに表示されているストリーム内で可視のままであるように、カメラの光学および／またはデジタルズーム動作を制御するのが望ましいことがある。オブジェクト選択に応答したそのようなズームの組合せは、表示の区分がなくても実行され得る。代替的に、または加えて、第４のウィンドウに表示されているストリーム内の選択されたオブジェクトを示すのが望ましいことがある。たとえば、各オブジェクトにマーク（たとえば、オブジェクトに対するそれぞれの対照的な色を有し、オブジェクトの重心に重畳される図形）が重畳されてよく、および／または、光輪（たとえば、楕円）がオブジェクト（場合によってはより低いコントラストを有する、または光輪の内部の他の顕著な外観を有する）の周囲に配置されてよい。図３６Ｄおよび図３６Ｅは、ウィンドウ１１３２〜１１３８の可能な構成の２つの他の例を示す。

【0152】

[00195]別の特定の実施形態では、単一のオブジェクトのトラッキング（たとえば、第１のオブジェクト１１１２だけ）が表示のために選択され得る。表示のためにオブジェクトを選択したことに応答して、（たとえば、図３６Ｆにおいて示されるように）表示は２つのウィンドウへと区分され得る。この場合、第１のウィンドウは、シーン中の選択されたオブジェクトの場所に基づいて決定される、シーンの一部分を含み得る。たとえば、モバイルデバイスは選択されたオブジェクトの位置をトラッキングすることができ、オブジェクトの場所に注目しているビデオストリームが第１のウィンドウに（たとえば、タスクＴ４００によって）表示され得る。加えて、第２のウィンドウはシーン全体を含み得る。したがって、第１のウィンドウは、シーン中の選択されたオブジェクトの注目されているピクチャインピクチャショットに対応し得る。

【0153】

[00196]図４１Ａおよび図４１Ｂは、選択されたオブジェクトを含むプライマリビデオストリームのビューのフィールドの一部分の表示のある例を示す。そのような表示は、上で説明されたようなウィンドウ（たとえば、ウィンドウ１１３２、１１３４、１１３６、または１１３８）に表示されてよく、これらは、プライマリビデオストリームのビューのフィールド全体を示すウィンドウとともに、またはその代わりに示され得る。これらの例の各々は、ウィンドウのサイズに対するその寸法がプライマリビデオストリームのビューのフィールドに対するビューの表示される（狭められる）フィールドの関係を示す、アイコン（図４１Ａの点線のボックスおよび図４１Ｂの頂部の近くの有限の線）を含む。これらの特定の例では、ビューの狭められたフィールドは、（中空の円によって示される）選択されたオブジェクトの複合的な幾何学的配置の場所を中心とする。これらの例の各々はまた、この場所の最近の軌跡を示す点線を含む。

【0154】

[00197]図４２は、（たとえば、表示タスクＴ４００の実施によって生成されるような）表示ビデオストリームのフレームの例を示す。このフレームは、（たとえば、タスクＴ３００およびＴ３５０の実体によって生成されるような）選択されたオブジェクトＡ、Ｂ、およびＣに対応する二次的ビデオストリームを表示する３つのウィンドウを、フレームの下部とともに含む。左上のウィンドウは、ウィンドウに適合するようにサイズ変更され得る、プライマリビデオストリームを表示する。このウィンドウはまた、対応するフレーム中の選択されたオブジェクトの複合的な幾何学的配置の場所を示す、重畳物（この例では十字線）を含む。右上のウィンドウは、図４１Ａ〜図４１Ｂを参照して上で説明されたような、選択されたオブジェクトを含むプライマリビデオストリームのビューのフィールドの一部分を表示する。

【0155】

[00198]図４３Ｂは、選択されたオブジェクトの複合的な幾何学的配置と、この幾何学的配置の場所と、この場所の最近の軌跡とを示す、グラフィックの例を示す。そのようなグラフィックは、別のウィンドウとして表示されてよく、またはプライマリビデオストリームの表示に重畳されてよい。図４３Ａおよび図４３Ｃは、同様の重畳を含むプライマリビデオストリームのフレームを表示するウィンドウを示す。

【0156】

[00199]図１１に示される実施形態は、モバイルデバイスが、フレーム１１００、１１２０、１１４０中のオブジェクト１１０２〜１１０６をトラッキングすることを可能にでき、オブジェクト１１０２〜１１０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１１３２〜１１３６に表示することができる。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図１１に関して説明される技法を実行することができる。区分は（たとえば、ユーザによって）構成されてビデオストリームに適用されているが、デバイスは、区分されていないビデオストリームおよび／またはウィンドウの１つまたは複数を各々含む１つまたは複数のビデオストリームを記録し続けることができる。ウィンドウの１つまたは複数を各々含む１つまたは複数のビデオストリームを記憶することに加えて、またはその代わりに、記録された区分されていないストリームから特定の区分が再生成され得る際に元となるメタデータ（ビデオストリームに埋め込まれた、および／または別のファイルとしての）をデバイスが記憶するのが望ましいことがある。

【0157】

[00200]図１２を参照すると、オブジェクトトラッキングを使用したビデオ処理方法１２００の特定の実施形態を示すフローチャートが示される。例示的な実施形態では、方法１２００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0158】

[00201]方法１２００は、１２０２において、モバイルデバイスにおいて、表示されるシーン中の第１のオブジェクトおよび表示されるシーン中の第２のオブジェクトの選択を受け取ることを含む。たとえば、図１１を参照すると、ユーザは、画面上のユーザ選択機構１１１１をタッチし、次いで第１のオブジェクト１１０２の周囲で第１の焦点リング１１１２をドラッグし、画面上のユーザ選択機構１１１１をタッチし、次いで第２のオブジェクト１１０４の周囲で第２の焦点リング１１１４をドラッグして、それぞれ、第１のオブジェクト１１０２および第２のオブジェクト１１０４のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。

【0159】

[00202]表示は、１２０４において、少なくとも第１のウィンドウおよび第２のウィンドウへと区分され得る。たとえば、図１１を参照すると、表示１１３０は、第１のウィンドウ１１３２、第２のウィンドウ１１３４、および第３のウィンドウ１１３６に区分され得る。たとえば、ユーザ選択機構１１１１による３つのオブジェクト１１０２〜１１０６の選択に応答して、モバイルデバイスは、３つの対応するウィンドウ１１３２〜１１３６へと表示１１３０を区分することができる。

【0160】

[00203]１２０６において、第１のオブジェクトを含むシーンの第１の部分は、第１のウィンドウに表示され得る。たとえば、図１１を参照すると、第１のウィンドウ１１３２は、第１のオブジェクト１１０２を含むフレーム１１２０の第１の部分を表示することができる。フレーム１１２０の第１の部分は、フレーム１１２０の中の第１のオブジェクト１１０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト１１０２の位置をトラッキングすることができ、第１のオブジェクト１１０２の位置に注目しているビデオストリームが第１のウィンドウ１１３２に表示され得る。

【0161】

[00204]１２０８において、第２のオブジェクトを含むシーンの第２の部分は、第２のウィンドウに表示され得る。たとえば、図１１を参照すると、第２のウィンドウ１１３４は、第２のオブジェクト１１０４を含むフレーム１１２０の第２の部分を表示することができる。フレーム１１２０の第２の部分は、フレーム１１２０の中の第２のオブジェクト１１０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト１１０４の位置をトラッキングすることができ、第２のオブジェクト１１０４の位置に注目しているビデオストリームが第２のウィンドウ１１３４に表示され得る。

【0162】

[00205]図１２の方法１２００は、モバイルデバイスが、シーン１１００、１１２０、１１４０中のオブジェクト１１０２〜１１０６をトラッキングすることを可能にでき、オブジェクト１１０２〜１１０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１１３２〜１１３６に表示することができる。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法１２００を実行することができる。

【0163】

[00206]図１３は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図１３に示される実施形態に関して説明されるビデオ処理技法は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0164】

[00207]図１３は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム１３００を示す。たとえば、フレーム１３００は、モバイルデバイスの画面に表示されるべきビデオストリームのフレームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム１３００に示されるシーンは、第１のオブジェクト１３０２と、第２のオブジェクト１３０４と、第３のオブジェクト１３０６と、星と、木とを含む。示される実施形態では、第１のオブジェクト１３０２は第１の人物に対応してよく、第２のオブジェクト１３０４は第２の人物に対応してよく、第３のオブジェクト１３０６は第３の人物に対応してよい。別の実施形態では、オブジェクト１３０２〜１３０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0165】

[00208]図１３はまた、モバイルデバイスの画面上のフレーム１３００の表示１３１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示１３１０は、ユーザが（たとえば、トラッキングタスクＴ２５０によって）トラッキングのためにオブジェクトを選択することを可能にする、ユーザ選択機構１３１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構１３１１をタッチし、第１のオブジェクト１３０２のトラッキングを可能にするために第１のオブジェクト１３０２の周囲で第１の焦点リング１３１２をドラッグすることができる。第１の焦点リング１３１２のそのような配置に応答して、モバイルデバイスは、示されるシーン内でのトラッキングのために、第１のオブジェクト１３１２を選択することができる。同様の方式で、ユーザはまた、画面上のユーザ選択機構１３１１をタッチし、第２のオブジェクト１３０４および第３のオブジェクト１３０６の周囲で第２の焦点リング１３１４および第３の焦点リング１３１６をドラッグして、それぞれ、第２のオブジェクト１３０４および第３のオブジェクト１３０６のトラッキングを可能にすることができる。第２の焦点リング１３１４および第３の焦点リング１３１６のそのような配置に応答して、モバイルデバイスは、トラッキングのために、それぞれ第２のオブジェクト１３０４と第３のオブジェクト１３０６とを選択することができる。

【0166】

[00209]図１３はまた、第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム１３２０を示す。フレーム１３２０において、各オブジェクト１３０２〜１３０６の場所は、第１の時刻におけるシーンを示すフレーム１３００中の対応する場所に対して変化している。たとえば、フレーム１３２０において、第１のオブジェクト１３０２は第２のオブジェクト１３０４に近づくように移動しており、第２のオブジェクト１３０４は第１のオブジェクト１３０２に近づくように移動しており、第３のオブジェクト１３０６はフレームの下部に近づくように移動している。

【0167】

[00210]図１３はまた、モバイルデバイスの画面上のフレーム１３２０の表示１３３０を示す。表示１３３０は、２つ以上のウィンドウへと（たとえば、表示タスクＴ４００によって）区分され得る。この例では、表示１３３０は、第１のウィンドウ１３３２、第２のウィンドウ１３３４、および第３のウィンドウ１３３６へと区分される。たとえば、ユーザ選択機構１３１１による３つのオブジェクト１３０２〜１３０６の選択に応答して、モバイルデバイスは、３つの対応するウィンドウ１３３２〜１３３６へと表示１３３０を区分することができる。

【0168】

[00211]モバイルデバイスは、オブジェクト選択が完了したというユーザによる指示に応答して、選択された区分を適用するように構成され得る。たとえば、対応するオブジェクトが選択されるにつれて各ウィンドウを作成することによって、デフォルトの区分が適用され得るが、（たとえば、表示エリアがオブジェクト選択の間に利用可能なままであるように）オブジェクト選択が完了するまで区分を適用するのを控えることが望ましいことがある。デバイスは、たとえば、選択の完了が示されるまで焦点リングおよび／または選択されたオブジェクトを明滅させることによって、オブジェクト選択が進行中であることを示し得る。各々の選択されたオブジェクトに対する焦点リングまたは他の選択の指示は、選択の完了が示されるまで、（たとえば、オブジェクトがシーンの中を動くにつれて）オブジェクトを追い続け、または別様に示し続け得る。

【0169】

[00212]第１のウィンドウ１３３２は、第１のオブジェクト１３０２を含むフレーム１３２０の第１の部分を表示することができる。フレーム１３２０の第１の部分は、フレーム１３２０の中の第１のオブジェクト１３０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第１のオブジェクト１３０２の位置をトラッキングし、第１のウィンドウ１３３２において、第１のオブジェクト１３０２の位置に注目している（たとえば、その位置が中心である）ビデオストリームを表示することができる。第２のウィンドウ１３３４は、第２のオブジェクト１３０４を含むフレーム１３２０の第２の部分を表示することができる。フレーム１３２０の第２の部分は、フレーム１３２０の中の第２のオブジェクト１３０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第２のオブジェクト１３０４の位置をトラッキングし、第２のウィンドウ１３３４において、第２のオブジェクト１３０４の位置に注目しているビデオストリームを表示することができる。第３のウィンドウ１３３６は、第３のオブジェクト１３０６を含むフレーム１３２０の第３の部分を表示することができる。フレーム１３２０の第３の部分は、フレーム１３２０の中の第３のオブジェクト１３０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第３のオブジェクト１３０４の位置をトラッキングし、第３のウィンドウ１３３６において、第３のオブジェクト１３０６の位置に注目しているビデオストリームを表示することができる。

【0170】

[00213]図１３はまた、（たとえば、第２の時刻の後の）第３の時刻におけるシーンを示す、フレーム１３４０を示す。フレーム１３４０において、各オブジェクト１３０２〜１３０６の場所は、第２の時刻におけるシーンを示すフレーム１３２０中の対応する場所に対して変化している。たとえば、フレーム１３４０において、第１のオブジェクト１３０２および第２のオブジェクト１３０４互いに交差しており、第３のオブジェクト１３０６はフレームの右下部分に近づくように移動している。

【0171】

[00214]図１３はまた、モバイルデバイスによって生成されるウィンドウ１３３２〜１３３６を使用した、モバイルデバイスの画面上のフレーム１３４０の表示１３５０を示す。フレーム１３４０の第１の部分が第２のウィンドウ１３３４に表示され、フレーム１３４０の第２の部分が第１のウィンドウ１３３２に表示されることが理解されよう。たとえば、第１のオブジェクト１３０２の一部分が（たとえば、トラッキングタスクＴ２５０によって示されるような）ある閾値の量だけ第２のオブジェクト１３０４の一部分と重複する場合、第１のウィンドウ１３３２は、第２のオブジェクト１３０４に注目したビデオストリームを表示することができ、第２のウィンドウ１３３４は、第１のオブジェクト１３０２に注目したビデオストリームを表示することができる。第３のウィンドウ１３３６は、第３のオブジェクト１３０６を含むフレーム１３４０の第３の部分を表示する。

【0172】

[00215]特定の実施形態では、閾値の量は、第１のオブジェクト１３０２および第２のオブジェクト１３０４の完全な重複に対応し得る。たとえば、第１のオブジェクト１３０２の場所と関連付けられる各ｘ座標（またはｙ座標）が第２のオブジェクト１３０４の場所と関連付けられる各ｘ座標（またはｙ座標）よりも小さい値を有するとき、第１のオブジェクト１３０２は、第１のオブジェクト１３０２の場所と関連付けられる各ｘ座標（またはｙ座標）が第２のオブジェクト１３０４の場所と関連付けられる各ｘ座標（またはｙ座標）よりも大きい値を有するときに、フレームにおいて第２のオブジェクト１３０４と完全に重複し得る（たとえば、交差し得る）。

【0173】

[00216]代替的に、第１のオブジェクト１３０２の場所と関連付けられる各ｘ座標（またはｙ座標）が第２のオブジェクト１３０４の場所と関連付けられる各ｘ座標（またはｙ座標）よりも大きい値を有するとき、第１のオブジェクト１３０２は、第１のオブジェクト１３０２の場所と関連付けられる各ｘ座標（またはｙ座標）が第２のオブジェクト１３０４の場所と関連付けられる各ｘ座標（またはｙ座標）よりも小さい値を有するときに、フレームにおいて第２のオブジェクト１３０４と完全に重複し得る（たとえば、交差し得る）。

【0174】

[00217]一例では、ある寸法（たとえば、高さまたは幅）の２つの選択されたオブジェクトのバウンディングボックスの中心の間の距離がその寸法の２つのボックスのサイズの合計の半分未満であるとき、重複が示され得る。そのような場合、トラッキングタスクは、フレームの下部に最も近いオブジェクトが他のオブジェクトと重複すると仮定することができる。別の例では、カラーヒストグラムが、色値のそれぞれの範囲を各々の選択されたオブジェクトと関連付けるために実行される。そのような場合、２つのオブジェクトが近接しており、（Ａ）一方のオブジェクトの範囲内にある色値を有するピクセルと、（Ｂ）他方のオブジェクトの範囲内にある色値を有するピクセルとの間の空間的な境界が、オブジェクトのうちの１つの予想されるエリア内に見出されるとき、重複が示され得る。

【0175】

[00218]別の特定の実施形態では、閾値の量は、第１のオブジェクト１３０２と第２のオブジェクト１３０４の部分的な（たとえば、重複したオブジェクトの予想されるエリアの１０％、２０％、２５％、３０％、４０％、または５０％の）重複に対応し得る。たとえば、第１のオブジェクト１３０２の場所と関連付けられるｘ座標（またはｙ座標）が第２のオブジェクト１３０４の場所と関連付けられるｘ座標（またはｙ座標）の同じ値を有するフレームでは、第１のオブジェクト１３０２は第２のオブジェクト１３０４と部分的に重複し得る。

【0176】

[00219]図１３に示される実施形態は、モバイルデバイスが、フレーム１３００、１３２０、１３４０中のオブジェクト１３０２〜１３０６をトラッキングすることを可能にでき、オブジェクト１３０２〜１３０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１３３２〜１３３６に表示することができる。図１３に示される実施形態はまた、各ウィンドウ１３３２〜１３３６中のビデオストリームが、互いに対する各オブジェクト１３０２〜１３０６の相対的な場所を示すことを可能にし得る。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図１３に関して説明される技法を実行することができる。

【0177】

[00220]選択されたオブジェクトの咬合を検出したことに応答して、上で説明されたように表示の区分を修正するように、表示タスクＴ４００を実施するのが望ましいことがある。たとえば、特定のオブジェクトが（たとえば、トラッキングタスクによって示されるように）互いに交差するとき、二次的ビデオストリームと対応するウィンドウ１３３２〜１３３６との関連付けは、交差を反映するように更新され得る（たとえば、切り替えられ得る）。たとえば、切り替えられるオブジェクトおよび／またはウィンドウを短期間（たとえば、１秒、２秒、または３秒）明滅させることによって、切替えに対する注意を引くようにデバイスを構成するのが望ましいことがある。

【0178】

[00221]ある時間近接したままであるオブジェクトを過度に頻繁に切り替えるのを防ぐために、（たとえば、トラッキングタスクＴ２５０および／または表示タスクＴ４００内の）内部機構を適用するのが望ましいことがある。１つのそのような例では、２つのオブジェクトの切替えが持越し期間（たとえば、２秒、３秒、４秒、または５秒）内に反転されないように、持越し期間が適用される。別の例では、持越し期間内に第２のより大きな閾値の量の重複が発生しない限り、２つのオブジェクトの切替えが持越し期間内に反転されないように、ヒステリシス機能が閾値の量に適用される。

【0179】

[00222]図１４を参照すると、オブジェクトトラッキングを使用してビデオ処理方法１４００の特定の実施形態を示すフローチャートが示される。代替的な実施形態では、方法１４００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0180】

[00223]方法１４００は、１４０２において、モバイルデバイスにおいて、表示されるシーン中の第１のオブジェクトおよび表示されるシーン中の第２のオブジェクトの選択を受け取ることを含む。たとえば、図１３を参照すると、ユーザは、画面上のユーザ選択機構１３１１をタッチし、第１のオブジェクト１３０２の周囲で第１の焦点リング１３１２をドラッグし、第２のオブジェクト１３０４の周囲で第２の焦点リング１３１４をドラッグして、それぞれ、第１のオブジェクト１３０２および第２のオブジェクト１３０４のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームのフレーム（たとえば、フレーム１３００）に対応し得る。

【0181】

[00224]画面はまた、１４０４において、少なくとも第１のウィンドウおよび第２のウィンドウへと区分され得る。たとえば、図１３を参照すると、表示１３３０は、第１のウィンドウ１３３２、第２のウィンドウ１３３４、および第３のウィンドウ１３３６に区分され得る。たとえば、ユーザ選択機構１３１１による３つのオブジェクト１３０２〜１３０６の選択に応答して、モバイルデバイスは、３つの対応するウィンドウ１３３２〜１３３６へと表示１３３０を区分することができる。

【0182】

[00225]１４０６において、第１のオブジェクトを含むシーンの第１の部分は最初、第１のウィンドウに表示され得る。たとえば、図１３を参照すると、第１のウィンドウ１３３２は最初、第１のオブジェクト１３０２を含むフレーム１３２０の第１の部分を表示することができる。フレーム１３２０の第１の部分は、フレーム１３２０の中の第１のオブジェクト１３０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト１３０２の位置をトラッキングすることができ、第１のオブジェクト１３０２の位置に注目しているビデオストリームが第１のウィンドウ１３３２に表示され得る。

【0183】

[00226]１４０８において、第２のオブジェクトを含むシーンの第２の部分は最初、第２のウィンドウに表示され得る。たとえば、図１３を参照すると、第２のウィンドウ１３３４は最初、第２のオブジェクト１３０４を含むフレーム１３２０の第２の部分を表示することができる。フレーム１３２０の第２の部分は、フレーム１３２０の中の第２のオブジェクト１３０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト１３０４の位置をトラッキングすることができ、第２のオブジェクト１３０４の位置に注目しているビデオストリームが第２のウィンドウ１３３４に表示され得る。

【0184】

[00227]１４１０において、第１のオブジェクトの一部分が第２のオブジェクトの一部分と閾値の量だけいつ重複するかに基づいて、第１のオブジェクトおよび第２のオブジェクトが表示されるウィンドウが制御され得る。たとえば、図１３を参照すると、フレーム１３４０の第１の部分が表示１３５０の第２のウィンドウ１３３４に表示され、フレーム１３４０の第２の部分が表示１３５０の第１のウィンドウ１３３２に表示される。たとえば、第１のオブジェクト１３０２の一部分がある閾値の量だけ第２のオブジェクト１３０４の一部分と重複する場合、第１のウィンドウ１３３２は、第２のオブジェクト１３０４に注目したビデオストリームを表示することができ、第２のウィンドウ１３３４は、第１のオブジェクト１３０２に注目したビデオストリームを表示することができる。第３のウィンドウ１３３６は、第３のオブジェクト１３０６を含むフレーム１３４０の第３の部分を表示する。

【0185】

[00228]図１４の方法１４００は、モバイルデバイスが、フレーム１３００、１３２０、１３４０中のオブジェクト１３０２〜１３０６をトラッキングすることを可能にでき、オブジェクト１３０２〜１３０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１３３２〜１３３６に表示することができる。方法１４００はまた、各ウィンドウ１３３２〜１３３６中のビデオストリームが、互いに対する各オブジェクト１３０２〜１３０６の相対的な場所を示すことを可能にし得る。たとえば、特定のオブジェクトが互いに交差するとき、ウィンドウ１３３２〜１３３６中のビデオストリームが交差を反映するように更新され得る（たとえば、切り替えられ得る）。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法１４００を実行することができる。

【0186】

[00229]図１５は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図１５に示される実施形態に関して説明されるビデオ処理技法は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0187】

[00230]図１５は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム１５００を示す。たとえば、フレーム１５００は、モバイルデバイスの画面に表示されるべきビデオストリームのフレームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム１５００に示されるシーンは、第１のオブジェクト１５０２と、第２のオブジェクト１５０４と、第３のオブジェクト１５０６と、星と、木とを含む。示される実施形態では、第１のオブジェクト１５０２は第１の人物に対応してよく、第２のオブジェクト１５０４は第２の人物に対応してよく、第３のオブジェクト１５０６は第３の人物に対応してよい。別の実施形態では、オブジェクト１５０２〜１５０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0188】

[00231]図１５はまた、モバイルデバイスの画面上のフレーム１５００の表示１５１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示１５１０は、ユーザが（たとえば、トラッキングタスクＴ２５０による）トラッキングのためにオブジェクトを選択することを可能にする、ユーザ選択機構１５１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構１５１１をタッチし、第１のオブジェクト１５０２のトラッキングを可能にするために第１のオブジェクト１５０２の周囲で第１の焦点リング１５１２をドラッグすることができる。第１の焦点リング１５１２のそのような配置に応答して、モバイルデバイスは、トラッキングのために第１のオブジェクト１５１２を選択することができる。同様の方式で、ユーザはまた、画面上のユーザ選択機構１５１１をタッチし、第２のオブジェクト１５０４および第３のオブジェクト１５０６の周囲で第２の焦点リング１５１４および第３の焦点リング１５１６をドラッグして、それぞれ、第２のオブジェクト１５０４および第３のオブジェクト１５０６のトラッキングを可能にすることができる。第２の焦点リング１５１４および第３の焦点リング１５１６のそのような配置に応答して、モバイルデバイスは、トラッキングのために、それぞれ第２のオブジェクト１５０４と第３のオブジェクト１５０６とを選択することができる。

【0189】

[00232]図１５はまた、（たとえば、第１の時刻の後の）第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム１５２０を示す。フレーム１５２０において、オブジェクト１５０２〜１５０６の場所は、第１の時刻におけるシーンを示すフレーム１５００の中で示される対応する場所に対して変化している。たとえば、フレーム１５２０において、第１のオブジェクト１５０２は星に近づくように移動しており、第２のオブジェクト１５０４は木に近づくように移動しており、第３のオブジェクトはフレームの下部に近づくように移動している。

【0190】

[00233]図１５はまた、第１のオブジェクト１５０２が第２のオブジェクト１５０４よりも前に選択され、第２のオブジェクト１５０４が第３のオブジェクト１５０６よりも前に選択された場合の、モバイルデバイスの画面上でのフレーム１５２０の表示１５３０を示す。たとえば、表示１５３０は、第１のウィンドウ１５３２、第２のウィンドウ１５３４、および第３のウィンドウ１５０６へと（たとえば、表示タスクＴ４００によって）区分され得る。各ウィンドウ１５３２〜１５３６に表示されるビデオストリームは、オブジェクト１５０２〜１５０６の選択順序に依存し得る。

【0191】

[00234]第１のウィンドウ１５３２は、第１のオブジェクト１５０２が他のオブジェクト１５０４、１５０６の選択よりも前に選択された場合、第１のオブジェクト１５０２を含むフレーム１５２０の第１の部分を表示することができる。フレーム１５２０の第１の部分は、フレーム１５２０の中の第１のオブジェクト１５０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト１５０２の位置をトラッキングすることができ、第１のオブジェクト１５０２の位置に注目しているビデオストリームが第１のウィンドウ１５３２に表示され得る。第２のウィンドウ１５３４は、第２のオブジェクト１５０４が第３のオブジェクト１５０６の選択よりも前に選択された場合、第２のオブジェクト１５０４を含むフレーム１５２０の第２の部分を表示することができる。フレーム１５２０の第２の部分は、フレーム１５２０の中の第２のオブジェクト１５０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト１５０４の位置をトラッキングすることができ、第２のオブジェクト１５０４の位置に注目しているビデオストリームが第２のウィンドウ１５３４に表示され得る。第３のウィンドウ１５３６は、第３のオブジェクト１５０６を含むフレーム１５２０の第３の部分を表示することができる。フレーム１５２０の第３の部分は、フレーム１５２０の中の第３のオブジェクト１５０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは第３のオブジェクト１５０４の位置をトラッキングすることができ、第３のオブジェクト１５０６の位置に注目しているビデオストリームが第３のウィンドウ１５０６に表示され得る。

【0192】

[00235]図１５はまた、第２のオブジェクト１５０２が第３のオブジェクト１５０６よりも前に選択され、第３のオブジェクト１５０６が第１のオブジェクト１５０２よりも前に選択された場合の、モバイルデバイスの画面上でのフレーム１５２０の表示１５３０を示す。たとえば、表示１５３０は、第１のウィンドウ１５３２、第２のウィンドウ１５３４、および第３のウィンドウ１５０６に区分され得る。各ウィンドウ１５３２〜１５３６に表示されるビデオストリームは、オブジェクト１５０２〜１５０６の選択順序に依存し得る。

【0193】

[00236]第１のウィンドウ１５３２は、第２のオブジェクト１５０４が他のオブジェクト１５０２、１５０６の選択よりも前に選択された場合、第２のオブジェクト１５０４を含むフレーム１５２０の第２の部分を表示することができる。第２のウィンドウ１５３４は、第３のオブジェクト１５０６が第１のオブジェクト１５０２の選択よりも前に選択された場合、第３のオブジェクト１５０６を含むフレーム１５２０の第３の部分を表示することができる。第３のウィンドウ１５３６は、第１のオブジェクト１５０２を含むフレーム１５２０の第１の部分を表示することができる。

【0194】

[00237]図１５に示される実施形態は、モバイルデバイスが、フレーム１５００、１５２０中のオブジェクト１５０２〜１５０６をトラッキングすることと、オブジェクト１５０２〜１５０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１５３２〜１５３６に表示することとを可能にし得る。特定のウィンドウ１５３２〜１５３６に表示されるビデオストリームは、オブジェクト１５０２〜１５０６の選択順序に依存し得る。したがって、ユーザは、重要性（または他の選択基準）に基づいて、特定のウィンドウ１５３２〜１５３６にオブジェクト１５０２〜１５０６のいずれを配置するかを決定することができる。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図１５に関して説明される技法を実行することができる。

【0195】

[00238]図１６を参照すると、オブジェクトトラッキングを使用してビデオ処理方法１６００の特定の実施形態を示すフローチャートが示される。例示的な実施形態では、方法１６００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0196】

[00239]方法１６００は、１６０２において、モバイルデバイスにおいて、表示されるシーン中の第１のオブジェクトおよび表示されるシーン中の第２のオブジェクトの選択を受け取ることを含む。たとえば、図１５を参照すると、ユーザは、画面上のユーザ選択機構１５１１をタッチし、第１のオブジェクト１５０２の周囲で第１の焦点リング１５１２をドラッグし、第２のオブジェクト１５０４の周囲で第２の焦点リング１５１４をドラッグして、それぞれ、第１のオブジェクト１５０２および第２のオブジェクト１５０４のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。

【0197】

[00240]表示は、１６０４において、第１のウィンドウおよび第２のウィンドウへと区分され得る。たとえば、図１５を参照すると、表示１５３０は、第１のウィンドウ１５３２、第２のウィンドウ１５３４、および第３のウィンドウ１５３６に区分され得る。たとえば、ユーザ選択機構１５１１による３つのオブジェクト１５０２〜１５０６の選択に応答して、モバイルデバイスは、３つの対応するウィンドウ１５３２〜１５３６へと表示１５３０を区分することができる。

【0198】

[00241]１６０６において、第１のオブジェクトを含むシーンの第１の部分は、第１のオブジェクトが第２のオブジェクトの選択の前に選択された場合、第１のウィンドウに表示され得る。たとえば、図１５を参照すると、第１のウィンドウ１５３２は、第１のオブジェクト１５０２が他のオブジェクト１５０４、１５０６の選択よりも前に選択された場合、第１のオブジェクト１５０２を含むフレーム１５２０の第１の部分を表示することができる。フレーム１５２０の第１の部分は、フレーム１５２０の中の第１のオブジェクト１５０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト１５０２の位置をトラッキングすることができ、第１のオブジェクト１５０２の位置に注目しているビデオストリームが第１のウィンドウ１５３２に表示され得る。

【0199】

[00242]１６０８において、第２のオブジェクトを含むシーンの第２の部分は、第１のオブジェクトが第２のオブジェクトの選択の前に選択された場合、第２のウィンドウに表示され得る。たとえば、図１５を参照すると、第２のウィンドウ１５３４は、第２のオブジェクト１５０４を含むフレーム１５２０の第２の部分を表示することができる。フレーム１５２０の第２の部分は、フレーム１５２０の中の第２のオブジェクト１５０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト１５０４の位置をトラッキングすることができ、第２のオブジェクト１５０４の位置に注目しているビデオストリームが第２のウィンドウ１５３４に表示され得る。

【0200】

[00243]１６１０において、シーンの第１の部分は、第２のオブジェクトが第１のオブジェクトの選択の前に選択された場合、第２のウィンドウに表示され得る。加えて、１６１２において、シーンの第２の部分は、第２のオブジェクトが第１のオブジェクトの選択の前に選択された場合、第１のウィンドウに表示され得る。

【0201】

[00244]図１６の方法１６００は、モバイルデバイスが、シーン１５００、１５２０中のオブジェクト１５０２〜１５０６をトラッキングすることを可能にでき、オブジェクト１５０２〜１５０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ１５３２〜１５３６に表示することができる。特定のウィンドウ１５３２〜１５３６に表示されるビデオストリームは、オブジェクト１５０２〜１５０６の選択順序に依存し得る。したがって、ユーザは、重要性（または他の選択基準）に基づいて、特定のウィンドウ１５３２〜１５３６にオブジェクト１５０２〜１５０６のいずれを配置するかを決定することができる。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法１６００を実行することができる。

【0202】

[00245]図１７は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図１７に示される実施形態に関して説明されるビデオ処理技法は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0203】

[00246]図１７は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム１７００を示す。たとえば、フレーム１７００は、モバイルデバイスの画面に表示されるべきビデオストリームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム１７００に示されるシーンは、第１のオブジェクト１７０２と、第２のオブジェクト１７０４と、第３のオブジェクト１７０６と、星とを含む。示される実施形態では、第１のオブジェクト１７０２は第１の人物に対応してよく、第２のオブジェクト１７０４は木に対応してよく、第３のオブジェクト１７０６は第２の人物に対応してよい。別の実施形態では、第１のオブジェクト１７０２および第３のオブジェクト１７０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0204】

[00247]図１７はまた、モバイルデバイスの画面上のフレーム１７００の表示１７１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示１７１０は、ユーザが（たとえば、トラッキングタスクＴ２５０による）トラッキングのためにオブジェクトを選択することを可能にする、ユーザ選択機構１７１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構１７１１をタッチし、第１のオブジェクト１７０２のトラッキングを可能にするために第１のオブジェクト１７０２の周囲で第１の焦点リング１７１２をドラッグすることができる。第１の焦点リング１７１２のそのような配置に応答して、モバイルデバイスは、トラッキングのためにフレーム１７００中の第１のオブジェクト１７１２を選択することができる。同様の方式で、ユーザはまた、画面上のユーザ選択機構１７１１をタッチし、第２のオブジェクト１７０４および第３のオブジェクト１７０６の周囲で第２の焦点リング１７１４および第３の焦点リング１７１６をドラッグして、それぞれ、第２のオブジェクト１７０４および第３のオブジェクト１７０６のトラッキングを可能にすることができる。第２の焦点リング１７１４および第３の焦点リング１７１６のそのような配置に応答して、モバイルデバイスは、トラッキングのために、それぞれ第２のオブジェクト１７０４と第３のオブジェクト１７０６とを選択することができる。

【0205】

[00248]図１７はまた、（たとえば、第１の時刻の後の）第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム１７２０を示す。フレーム１７２０において、各オブジェクト１７０２〜１７０６の場所は、第１の時刻におけるシーンを示すフレーム１７００の中で示される対応する場所に対して変化している。たとえば、フレーム１７２０において、第１のオブジェクト１７０２および第３のオブジェクト１７０４が移動している。第２のオブジェクト（たとえば、木）は静止しているオブジェクトであるが、第２のオブジェクト１７０４は動いたように見えることがある。たとえば、モバイルデバイス（または他のキャプチャデバイス）の場所が動くことがあり、それによって、第２のオブジェクト１７０４が動いたという錯覚が生まれることがある。

【0206】

[00249]モバイルデバイスは、選択されたオブジェクトの間の１つまたは複数の空間的な関係（「幾何学的配置」とも呼ばれる）を監視することができる。たとえば、モバイルデバイスは、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離と、第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離と、第３のオブジェクト１７０６と第１のオブジェクト１７０２との間の第３の距離とをトラッキングして測定することができる。特定の実施形態において、（たとえば、トラッキングタスクＴ２５０によって）各々の選択されたオブジェクト１７０２〜１７０６の間の幾何学的配置をトラッキングすることは、トリガ事象があると開始し得る。非限定的な例として、各々の選択されるオブジェクト１７０２〜１７０６の間の幾何学的配置をトラッキングすることは、第１のオブジェクト１７０２が第２のオブジェクト１７０４と交差すると開始し得る。他の実施形態において、各々の選択されたオブジェクト１７０２〜１７０６の間の幾何学的配置をトラッキングすることは、ユーザ入力があると開始し得る。非限定的な例として、各々の選択されるオブジェクト１７０２〜１７０６の間の幾何学的配置をトラッキングすることは、オブジェクト１７０２〜１７０６の２つ以上をユーザが選択すると開始し得る。別の例として、各々の選択されたオブジェクト１７０２〜１７０６の間の幾何学的配置をトラッキングすることは、トラッキングモードを開始することをユーザが選択すると開始し得る。

【0207】

[00250]図１７はまた、（たとえば、表示タスクＴ４００による）モバイルデバイスの画面上のフレーム１７２０の表示１７３０を示す。モバイルデバイスは、表示１７３０上での幾何学的配置の指示を含み得る。たとえば、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離の第１の指示（Ｌ₁₂）は、表示１７３０に含まれ得る。第１の距離は、フレーム１７２０の中での第１のオブジェクト１７０２の位置、およびフレーム１７２０中での第２のオブジェクト１７０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは、オブジェクト１７０２の位置と、第２のオブジェクト１７０４の位置とをトラッキングして、第１の指示を生成することができる（Ｌ₁₂）。第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離の第２の指示（Ｌ₂₃）も、表示１７３０に含まれ得る。第２の距離は、フレーム１７２０の中での第２のオブジェクト１７０４の位置、およびフレーム１７２０の中での第３のオブジェクト１７０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第２のオブジェクト１７０４の位置と、第３のオブジェクト１７０６の位置とをトラッキングして、第２の指示を生成することができる（Ｌ₂₃）。第１のオブジェクト１７０２と第３のオブジェクト１７０６との間の第３の距離の第３の指示（Ｌ₁₃）も、表示１７３０に含まれ得る。第３の距離は、フレーム１７２０の中での第１のオブジェクト１７０２の位置、およびフレーム１７２０の中での第３のオブジェクト１７０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第１のオブジェクト１７０２の位置と、第２のオブジェクト１７０４の位置とをトラッキングして、第３の指示を生成することができる（Ｌ₁₃）。

【0208】

[00251]モバイルデバイスはまた、オブジェクト１７０２〜１７０６の複合的な幾何学的配置（たとえば、選択されたオブジェクトの幾何学的構成）をトラッキングすることができる。たとえば、示される実施形態では、オブジェクト１７０２〜１７０６の幾何学的構成は、３つの指示（Ｌ₁₂、Ｌ₂₃、Ｌ₁₃）によって形成される三角形として特徴付けられ得る。各オブジェクト間の幾何学的配置の少なくとも１つのパラメータ、または、複合的な幾何学的配置の少なくとも１つのパラメータが、ビデオストリームのフレームをクラスタ化するために使用され得る。非限定的な例として、２つの特定のオブジェクト１７０２〜１７０６の間の距離（たとえば、第１の距離、第２の距離、および／または第３の距離）に基づいて、特定のフレームがクラスタ化され得る。別の非限定的な例として、複数のオブジェクト１７０２〜１７０６の重心（Ｃ_M2）に基づいて、特定のフレームがクラスタ化され得る。たとえば、モバイルデバイスは、各フレームに対する３つの指示（Ｌ₁₂、Ｌ₂₃、Ｌ₁₃）によって形成される三角形の重心（Ｃ_M2）を決定することができる。特定の実施形態では、重心（Ｃ_M2）は、計算され、インデクシングされ、画面１７３０に表示され得る。別の実施形態では、重心（Ｃ_M2）は、計算されインデクシングされるだけであり得る。選択されたオブジェクトの幾何学的構成が実質的に同様の重心を有するフレームは、メモリの中へと一緒にクラスタ化されインデクシングされ得る。そのようなトラッキングの間、表示の中心が上記の重心と一致するように、表示変換動作を制御するのが望ましいことがある。加えて、または代替的に、選択されたオブジェクトのすべてが表示内で可視のままであるように、カメラの光学および／またはデジタルズーム動作を制御するのが望ましいことがある。

【0209】

[00252]特定の実施形態では、モバイルデバイスは、各オブジェクト１７０２〜１７０６の間の幾何学的配置および／または各フレームに対する複合的な幾何学的配置をトラッキングする（たとえば、フレームごとに幾何学的配置をトラッキングする）ことができる。他の実施形態では、モバイルデバイスは、非連続的な間隔において各オブジェクト１７０２〜１７０６の間の幾何学的配置および／または複合的な幾何学的配置をトラッキングする（たとえば、非連続的なフレームにおいて幾何学的配置をトラッキングする）ことができる。非連続的なフレームにおいて幾何学的配置をトラッキングすることは、モバイルデバイスにおいて消費される電力の量を減らし（バッテリー持続時間を延長し）、幾何学的配置情報および／またはクラスタ化情報と関連付けられる情報をインデクシングするために使用されるメモリの量を減らすことができる。

【0210】

[00253]たとえば、特定の実施形態では、モバイルデバイスは、各フレームにおいて各オブジェクト１７０２〜１７０６（たとえば、３つのオブジェクト）をトラッキングすることができる。トラッキングの間、各オブジェクト１７０２〜１７０６は、オブジェクト１７０２〜１７０６の場所およびオブジェクト１７０２〜１７０６のサイズと関連付けられる少なくとも３つの値によって表され得る。たとえば、ある値はオブジェクト１７０２〜１７０６のｘ座標に対応してよく、ある値はオブジェクト１７０２〜１７０６のｙ座標に対応してよく、別の値はオブジェクト１７０２〜１７０６のサイズ（たとえば、バウンディングボックス）に対応してよい。各値は、３２ビット（たとえば、４バイト）の数に対応してよい。したがって、少なくとも２８８ビットのデータ（３つのオブジェクト＊３つの値／オブジェクト＊３２ビット／値）が、トラッキングの間に収集され、各フレームのためのメモリへとロギングされ得る。モバイルデバイスが毎秒３０フレームをキャプチャすると仮定すると、１時間（たとえば、３６００秒）フレームごとに３つのオブジェクト１７０２〜１７０６をトラッキングしてインデクシングするには、少なくとも３，８８８，０００バイトのデータが収集され、メモリへとロギングされる。

【0211】

[00254]しかしながら、非連続的なフレームにおける幾何学的配置をトラッキングすることは、メモリの要件を緩和し得る。非限定的な例として、１時間、１５フレームごとの間隔で各オブジェクト１７０２〜１７０６をトラッキングしてインデクシングすることは、メモリ空間に９３．３３％の節約をもたらし得る。非連続的なフレームにおいて幾何学的配置をトラッキングすることは、オブジェクト１７０２〜１７０６と関連付けられる動きが比較的少量である状況において、特に有益であり得る。モバイルデバイスは、ユーザ入力（たとえば、ユーザ選好）に基づいてフレームをトラッキングしてインデクシングする頻度を決定することができ、および／または、たとえば、選択されたオブジェクトの１つまたは複数の各々の場所におけるユーザ指示および／または経時的な変化の程度に基づいて、その頻度を変化させることができる。

【0212】

[00255]各オブジェクト１７０２〜１７０６はまた、画面１７３０上のオブジェクト１７０２〜１７０６の位置に対応する、個々の重心を有し得る。たとえば、第１のオブジェクト１７０２は、第１のオブジェクト１７０２の位置に重心（Ｃ₀₁）を有してよく、第２のオブジェクト１７０４は、第２のオブジェクト１７０４の位置に重心（Ｃ₀₁）を有してよく、以下同様である。各オブジェクト１７０２〜１７０６の重心はまた、モバイルデバイスがトラッキングする幾何学的パラメータであり得る。

【0213】

[00256]図１７はまた、（たとえば、第２の時刻の後の）第３の時刻においてキャプチャされたシーンを示す、ビデオストリームのフレーム１７４０を示す。フレーム１７４０において、各オブジェクト１７０２〜１７０６の場所は、第２の時刻におけるシーンを示すフレーム１７２０の中で示される対応する場所に対して変化している。

【0214】

[00257]図１７はまた、（たとえば、表示タスクＴ４００による）モバイルデバイスの画面上のフレーム１７４０の表示１７５０を示す。モバイルデバイスは、表示１７５０上での幾何学的配置の指示を含み得る。たとえば、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離の第１の指示（Ｌ₁₂）は表示１７５０に含まれてよく、第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離の第２の指示（Ｌ₂₃）は表示１７５０に含まれてよく、第１のオブジェクト１７０２と第３のオブジェクト１７０６との間の第３の距離の第３の指示（Ｌ₁₃）は表示１７５０に含まれてよい。加えて、モバイルデバイスはまた、オブジェクト１７０２〜１７０６の複合的な幾何学的配置をトラッキングすることができる。たとえば、示される実施形態では、オブジェクト１７０２〜１７０６の複合的な幾何学的配置は、３つの指示（Ｌ₁₂、Ｌ₂₃、Ｌ₁₃）によって形成される三角形に対応し得る。

【0215】

[00258]別の実施形態では、モバイルデバイスは、各オブジェクト１７０２〜１７０６の動きをトラッキングし、各オブジェクト１７０２〜１７０６の経時的な動きを表示するプロットのシーケンスを生成することができる。モバイルデバイスは、各フレームにおいて各オブジェクト１７０２〜１７０６に対するプロットを生成することができ、上で説明されたように、メモリの要件を緩和して電力の節約を改善するために、非連続的なフレームにおいて各オブジェクト１７０２〜１７０６に対するプロットを生成することができる。

【0216】

[00259]表示上で現在見えていない（たとえば、現在、ビデオストリームによってキャプチャされるシーン内にない）オブジェクトに対する１つまたは複数の選択されたオブジェクトの空間的な関係をトラッキングするようにデバイスを構成すること（たとえば、トラッキングタスクＴ２５０を実施すること）も可能である。たとえば、現在画面上にない固定された（基準の）オブジェクトに対する移動するオブジェクトの空間的な関係がトラッキングされ得る。特定の例では、デバイスは、選択された選手がゴールまたはバスケットから２０フィート以内にいるとき、および／または、ゴール／バスケットに向かって動いているときには、ゴール／バスケットが現在画面上にないとしても、常に指し示すように構成され得る。そのような場合、デバイスは、現在表示されているシーンよりも大きな地図を作成するように構成され得る。カメラの位置が（たとえば、ＧＰＳセンサのような位置センサによって示されるように）知られている場合、カメラの１つまたは複数の方位センサが、現在のビューがより大きなシーンの地図とどのように関連するかを決定するために使用され得る。そのような１つまたは複数の方位センサは、重力軸（たとえば、デバイスと地球の中心を通る軸）に対するカメラの方位を示すための、１つもしくは複数の慣性センサ（たとえば、ジャイロスコープおよび／または加速度計）、および／または１つもしくは複数の磁場センサ（たとえば、磁力計）を含み得る。加えて、または代替的に、スポーツのフィールドまたはコート上の印のような、または舞台のシーンの固定物のような、固定された基準のオブジェクトである可視の地物が、基準として使用され得る。基準のオブジェクトの外観は、そのオブジェクトが見られる角度が変化するにつれて変化し得るが、そのようなマッピングは、動いているカメラに対しても行われ得る。

【0217】

[00260]図１７に示される実施形態は、モバイルデバイスが、図１８に関して下で説明されるように、シーン１７００、１７２０、１７４０の中のオブジェクト１７０２〜１７０６の幾何学的配置をトラッキングし、実質的に同様の幾何学的配置を有するフレームを検索のためにクラスタ化することを可能にし得る。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図１７に関して説明される技法を実行することができる。

【0218】

[00261]本明細書で説明されるような表示の区分および／またはオブジェクトトラッキングの使用法および適用例は、スポーツイベント（たとえば、サッカー、バスケットボール、フットボール、ホッケー）、社会的なイベント（たとえば、結婚式、パーティ、ダンス）、演芸（たとえば、演劇、学芸会、コンサート、デュエット）、およびセキュリティまたは調査のための監視のいずれかを含み得る。モバイルデバイスはまた、頭部に装着されるディスプレイであってよく、ユーザの命令を検出するために、ユーザの選択が、たとえば、ジョイスティック、ジェスチャ認識カメラシステム、またはタッチセンサおよび／もしくは方位センサ（上で説明されたような１つまたは複数の方位センサ）を装備した手袋を使用することにより実行される。ビデオストリームは、生であってよく（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような短距離接続を介して、またはインターネットへのＷｉ−Ｆｉ（登録商標）接続のようなネットワークを介して、デバイスによってキャプチャされ、または別のキャプチャデバイスからストリーミングされてよく）、または（やはりそのデバイスまたは別のデバイスによって）記録されてよい。

【0219】

[00262]ストリーム内での選択されたオブジェクトの間の相対的な位置および／または空間的な関係に従って、ビデオストリームのフレームを分類するのが望ましいことがある。図１８を参照すると、クラスタ化に基づいてフレームを検索するために使用されるモバイルデバイスの画面上の表示１８００の特定の実施形態が示されている。表示１８００は、水平軸と垂直軸とを有するグラフを含み得る。水平軸は、モバイルデバイスによってキャプチャされる異なるビデオファイルに対応し得る。たとえば、例示的な実施形態では、モバイルデバイスは、第１のビデオファイルと第２のビデオファイルとをキャプチャした。垂直軸は、ビデオファイルの時間インデックスに対応し得る。

【0220】

[00263]各ビデオファイルは、ビデオファイル中の選択されたオブジェクトの幾何学的配置と関連付けられる少なくとも１つのパラメータに基づく、フレームのクラスタを含み得る。たとえば、ビデオファイル中の各クラスタは、選択されたオブジェクト間で実質的に同様の幾何学的配置を有する、フレームのグループを含み得る。図１８に示されるクラスタは、オブジェクト間の重心に基づき得る。しかしながら、他の実施形態では、クラスタは１つまたは複数の異なるパラメータ（たとえば、形状、距離、空間的な特性、カラースキームなど）に基づき得る。パラメータはユーザによって選択され得る。

【0221】

[00264]第１のビデオの１０：００前後のマークまでの、第１のビデオの初めにあるフレームは、第１のクラスタ（たとえば、クラスタ１）へとグループ化され得る。第１のクラスタは、ピクセル座標空間中の選択されたオブジェクト間の重心が１５０前後のｘ座標と２５０前後のｙ座標とを有するような、フレームに対応し得る。図１７の第２のフレームを参照すると、選択されたオブジェクト１７０２〜１７０６の重心（Ｃ_M2）（たとえば、三角形の重心（Ｃ_M2））は、表示１７３０上の１５０前後のｘ座標と、表示１７３０上の２５０前後のｙ座標とを有し得る。したがって、第２のフレーム（およびオブジェクト１７０２〜１７０６の間の実質的に同様の重心を有する他のフレーム）が、図１８の第１のクラスタに配置され得る。したがって、ユーザが第１のクラスタを選択する場合、モバイルデバイスは、選択されたオブジェクト１７０２〜１７０６が図１７の第２のフレームと実質的に同様の構成を有する、対応するビデオストリーム（たとえば、ビデオの部分）を表示することができる。

【0222】

[00265]第１のビデオの１０：００前後のマークから第１のビデオの２０：００前後のマークまでのフレームは、第２のクラスタ（たとえば、クラスタ２）へとグループ化され得る。第２のクラスタは、ピクセル座標空間中の選択されたオブジェクト間の重心が２００前後のｘ座標と２５０前後のｙ座標とを有するような、フレームに対応し得る。図３の第３のフレームを参照すると、選択されたオブジェクト１７０２〜１７０６の重心（Ｃ_M3）は、表示１７５０上の２００前後のｘ座標と、表示１７５０上の２５０前後のｙ座標とを有し得る。したがって、第３のフレーム（およびオブジェクト１７０２〜１７０６の間の実質的に同様の重心を有する他のフレーム）が、図１８の第２のクラスタに配置され得る。したがって、ユーザが第２のクラスタを選択する場合、モバイルデバイスは、選択されたオブジェクト１７０２〜１７０６が図１８の第３のフレームと実質的に同様の構成を有する、対応するビデオストリーム（たとえば、ビデオの部分）を表示することができる。

【0223】

[00266]追加のクラスタ（たとえば、第３のクラスタ）は、異なる重心（たとえば、１７５のｘ座標および３２５のｙ座標）を有するフレームに対応し得る。ユーザは、ビデオの特定の部分と関連付けられる構成（たとえば、重心）を有するクラスタを選択することによって、ビデオの特定の部分を検索する（たとえば、位置特定する）ことができる。したがって、選択されたオブジェクト１７０２〜１７０６の幾何学的パラメータ（たとえば、距離、選択されたオブジェクト各々のおよび／または選択されたオブジェクトすべての重心）に基づくクラスタへとフレームをインデクシングすることによって、モバイルデバイスのユーザは、ビデオを見進める（たとえば、再生する、早送りする、巻き戻すなど）必要なく、ビデオの所望の部分を容易に位置特定することができる。クラスタへとフレームをインデクシングすることで、ユーザは、どの構成（たとえば、幾何学的配置）が最も頻繁に発生したか、最も稀に発生したかなどを、見ることが可能になり得る。そのような幾何学的パラメータのそのようなインデクシングおよび／または値は、上で説明されたようなタスクＴ３００および／またはＴ３５０によって記憶されているメタデータに含まれ得る。

【0224】

[00267]図１８はまた、ビデオストリームのフレームのクラスタと関連付けられる領域の表示１８０２を含む。たとえば、領域の表示１８０２は、図１７のシーンのビデオストリームに対応し得る。表示１８０２は１０個の領域（Ｃ１〜Ｃ１０）を含む。示される実施形態では、領域（Ｃ１〜Ｃ１０）は、特定のフレームにおけるオブジェクト１７０２〜１７０６の重心に基づく。他の実施形態では、領域（Ｃ１〜Ｃ１０）は、フレームをクラスタへとインデクシングするために使用され得る他の幾何学的パラメータ（たとえば、オブジェクト１７０２〜１７０６の各々の重心、形状、距離、空間的な特性、カラースキームなど）に基づき得る。特定の実施形態では、各領域（Ｃ１〜Ｃ１０）は等しいサイズを有し得る（たとえば、各領域（Ｃ１〜Ｃ１０）は「ボロノイセル」）である。

【0225】

[00268]各領域（Ｃ１〜Ｃ１０）は、対応するクラスタと関連付けられる重心に対応するｘ座標とｙ座標とを含み得る。非限定的な例として、第１の領域（Ｃ１）に対応する重心は、７５というｘ座標と５８０というｙ座標とを有し得る。加えて、第２の領域（Ｃ２）に対応する重心は、２１５というｘ座標と５８０というｙ座標とを有し得る。図１７のシーンのビデオストリーム中のフレームは、オブジェクト１７０２〜１７０６の重心によってインデクシングされ得る。各フレームは、重心に基づいて領域（Ｃ１〜Ｃ１０）の１つに対応するクラスタに配置され得る。たとえば、第１の領域（Ｃ１）の重心に最も近い重心を有するフレームは、対応する第１のクラスタ内に配置され得る。そのようなクラスタ化情報は、（たとえば、本明細書で説明されるようなビデオストリームに同期されるメタデータストリーム中の）メタデータとして対応するフレームと関連付けられ得る。そのような場合、特定のクラスタ内にインデクシングされるフレームは、メタデータを探索することによって、検索のために容易に識別されることが可能であり、ビデオストリーム全体を確認する必要をなくす。

【0226】

[00269]モバイルデバイスは、特定のクラスタをユーザが選択したことに応答して、特定の幾何学的配置（たとえば、重心）を有するビデオフレームを表示することができる。たとえば、ユーザが第１の領域（Ｃ１）を選択する（たとえば、タッチする）場合、モバイルデバイスは、オブジェクト１７０２〜１７０６の重心が第１の（Ｃ１）領域内にある、ビデオフレームのクラスタを表示することができる。特定の実施形態では、ユーザは、第１の領域（Ｃ１）において画面にタッチし、閾値を超える時間の期間（たとえば、３秒）、第１の領域（Ｃ１）をホールドすることができる。３秒間第１の領域をホールドした後、第１の領域（Ｃ１）は表示１８０２上で拡大され得る。たとえば、表示１８０２は、１８０４に示されるように第１の領域（Ｃ１）を示し得る。このモードでは、第１の領域１８０４は、特定のフレームの重心（Ｃ_M1023-1026）に基づいて、特定のフレーム（たとえば、フレーム１０２３からフレーム１０２６）を示し得る。特定の実施形態では、ユーザは特定のフレーム（たとえば、フレーム１０２４）を選択することができ、モバイルデバイスはフレーム１０２４においてビデオストリームの再生を開始することができる。

【0227】

[00270]図１９を参照すると、オブジェクトトラッキングを使用してビデオ処理方法１９００の特定の実施形態を示すフローチャートが示される。例示的な実施形態では、方法１９００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0228】

[00271]方法１９００は、１９０２において、モバイルデバイスにおいて、シーン中の複数のオブジェクトの選択を受け取ることを含む。たとえば、図１７を参照すると、ユーザは、画面上のユーザ選択機構１７１１をタッチし、第１のオブジェクト１７０２の周囲で第１の焦点リング１７１２をドラッグし、第２のオブジェクト１７０４の周囲で第２の焦点リング１７１４をドラッグし、第３のオブジェクト１７０６の周囲で第３の焦点リング１７１６をドラッグして、それぞれ、第１、第２、および第３のオブジェクト１７０２〜１７０６のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。

【0229】

[00272]１９０４において、各オブジェクト間の幾何学的配置がトラッキングされ得る。たとえば、図１７を参照すると、モバイルデバイスは、各々の選択されたオブジェクト１７０２〜１７０６間の幾何学的配置をトラッキングすることができる。たとえば、モバイルデバイスは、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離と、第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離と、第３のオブジェクト１７０６と第１のオブジェクト１７０２との間の第３の距離とをトラッキングして測定することができる。

【0230】

[00273]１９０６において、幾何学的配置の指示が画面上に表示され得る。たとえば、図１７を参照すると、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離の第１の指示（Ｌ₁₂）は、表示１７３０に含まれ得る。第１の距離は、フレーム１７２０の中での第１のオブジェクト１７０２の位置、およびフレーム１７２０中での第２のオブジェクト１７０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第１のオブジェクト１７０２の位置と、第２のオブジェクト１７０４の位置とをトラッキングして、第１の指示（Ｌ₁₂）を生成することができる。第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離の第２の指示（Ｌ₂₃）も、表示１７３０に含まれ得る。第２の距離は、フレーム１７２０の中での第２のオブジェクト１７０４の位置と、フレーム１７２０の中での第３のオブジェクト１７０６の位置とに基づいて決定され得る。たとえば、モバイルデバイスは、第２のオブジェクト１７０４の位置と、第３のオブジェクト１７０６の位置とをトラッキングして、第２の指示（Ｌ₂₃）を生成することができる。第１のオブジェクト１７０２と第３のオブジェクト１７０６との間の第３の距離の第３の指示（Ｌ₁₃）も、表示１７３０に含まれ得る。第３の距離は、フレーム１７２０の中での第１のオブジェクト１７０２の位置、およびフレーム１７２０の中での第３のオブジェクト１７０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは、第１のオブジェクト１７０２の位置と、第２のオブジェクト１７０４の位置とをトラッキングして、第３の指示（Ｌ₁₃）を生成することができる。

【0231】

[00274]図１９の方法１９００は、モバイルデバイスが、フレーム１７００、１７２０、１７４０の中のオブジェクト１７０２〜１７０６の幾何学的配置をトラッキングし、実質的に同様の幾何学的配置を有するフレームを検索のためにクラスタ化することを可能にし得る。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法１９００を実行することができる。さらなる例では、方法は、１つまたは複数のオブジェクトの間の指定された空間的な関係が検出されるとき、たとえば、第１の選択されたオブジェクトと第２の選択されたオブジェクトとの間の距離が指定された閾値の距離よりも小さくなる（代替的には大きくなる）とき、警告条件を示すことを含み得る。

【0232】

[00275]図２０を参照すると、オブジェクトトラッキングを使用したビデオ処理方法２０００、２０１０の特定の実施形態を示すフローチャートが示される。代替的な実施形態では、方法２０００、２０１０は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0233】

[00276]方法２０００は、２００２において、モバイルデバイスにおいて、シーン中の複数のオブジェクトの選択を受け取ることを含む。たとえば、図１７を参照すると、ユーザは、画面上のユーザ選択機構１７１１をタッチし、第１のオブジェクト１７０２の周囲で第１の焦点リング１７１２をドラッグし、第２のオブジェクト１７０４の周囲で第２の焦点リング１７１４をドラッグし、第３のオブジェクト１７０６の周囲で第３の焦点リング１７１６をドラッグして、それぞれ、第１、第２、および第３のオブジェクト１７０２〜１７０６のトラッキングを可能にすることができる。表示されるシーン１７００は、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。

【0234】

[00277]２００４において、各オブジェクト間の幾何学的配置がトラッキングされ得る。たとえば、図１７を参照すると、モバイルデバイスは、各々の選択されたオブジェクト１７０２〜１７０６間の幾何学的配置をトラッキングすることができる。たとえば、モバイルデバイスは、第１のオブジェクト１７０２と第２のオブジェクト１７０４との間の第１の距離と、第２のオブジェクト１７０４と第３のオブジェクト１７０６との間の第２の距離と、第３のオブジェクト１７０６と第１のオブジェクト１７０２との間の第３の距離とをトラッキングして測定することができる。加えて、モバイルデバイスはまた、オブジェクト１７０２〜１７０６の複合的な幾何学的配置をトラッキングすることができる。たとえば、示される実施形態では、オブジェクト１７０２〜１７０６の複合的な幾何学的配置は、３つの指示（Ｌ₁₂、Ｌ₂₃、Ｌ₁₃）によって形成される三角形に対応し得る。

【0235】

[00278]２００６において、ビデオストリームのフレームは、幾何学的配置と関連付けられる少なくとも１つのパラメータに基づいてクラスタ化され得る。たとえば、図１８を参照すると、ビデオファイル中の各クラスタは、選択されたオブジェクト１７０６〜１７０８間で実質的に同様の幾何学的配置を有する、フレームのグループを含み得る。図１８に示されるクラスタは、オブジェクト１７０６〜１７０８の間の重心（Ｃ_M2、Ｃ_M3）（たとえば、三角形の重心）に基づき得る。

【0236】

[00279]特定の実施形態では、方法２０００は、オブジェクトが特定の幾何学的配置にあるときに、フレームを検索することを含み得る。たとえば、図１８を参照すると、モバイルデバイスは、フレーム中のオブジェクト１７０２〜１７０６の重心（Ｃ_M2、Ｃ_M3）に基づいてフレームをインデクシングすることができる。特定の重心（たとえば、特定の幾何学的配置）を有するフレームは、特定の重心と関連付けられるクラスタを選択することによって容易に実現され得る。たとえば、モバイルデバイスは、図１８の表示１８００に示されるような第１のクラスタ（たとえば、クラスタ１）を選択することによって、オブジェクト１７０２〜１７０６が図１７の第２のフレーム中のオブジェクト１７０２〜１７０６と実質的に同様の幾何学的配置を有するフレームを検索することができる。たとえば、第１のクラスタをユーザが選択したことに応答して、モバイルデバイスは、オブジェクト１７０２〜１７０６の重心が１５０前後のｘ座標と２５０前後のｙ座標とを有するフレームを検索することができる。

【0237】

[00280]方法２０１０は、２０１２において、モバイルデバイスにおいて、ビデオストリーム中の選択されたオブジェクトの特定の幾何学的配置の指示を受信することを含み得る。非限定的な例として、図１８を参照すると、モバイルデバイスは、オブジェクト１７０２〜１７０４の重心が第１の領域（Ｃ１）の重心に最も近いビデオストリームを表示するための、指示（たとえば、表示１８０２に示される第１の領域（Ｃ１）においてユーザが画面をタッチすること）を受け取り得る。

【0238】

[00281]２０１４において、ビデオストリームのフレームは、特定の幾何学的配置に基づいて検索され得る。たとえば、図１８を参照すると、モバイルデバイスは、オブジェクト１７０２〜１７０４の重心が第１の領域（Ｃ１）に対応するエリアの中にある、図１７のシーン中のビデオストリームのフレームを検索することができる。

【0239】

[00282]２０１６において、検索されたフレームはモバイルデバイスの画面上に表示され得る。たとえば、図１８を参照すると、モバイルデバイスは、オブジェクト１７０２〜１７０４の重心が第１の領域（Ｃ１）に対応するエリアの中にある、ビデオストリームのフレームを表示する（たとえば、再生する）ことができる。特定の実施形態では、モバイルデバイスは、順次的な順序でビデオストリームを再生することができる。

【0240】

[00283]図２０の方法２０００、２０１０は、ビデオの特定の部分と関連付けられる構成（たとえば、重心）を有するクラスタを選択することによってユーザがビデオの特定の部分を検索し（たとえば、位置特定し）得ることを可能にすることができる。したがって、選択されたオブジェクト１７０２〜１７０６の幾何学的パラメータに基づくクラスタへとフレームをインデクシングすることによって、モバイルデバイスのユーザは、ビデオを見進める（たとえば、再生する、早送りする、巻き戻すなど）必要なく、ビデオの所望の部分を容易に位置特定することができる。

【0241】

[00284]図２１は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図２１に示される実施形態に関して説明されるビデオ処理技法は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0242】

[00285]図２１は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム２１００を示す。たとえば、フレーム２１００は、モバイルデバイスの画面に表示されるべきビデオストリームのフレームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム１１００に示されるシーンは、第１のオブジェクト２１０２と、第２のオブジェクト２１０４と、第３のオブジェクト２１０６と、星と、木とを含む。示される実施形態では、第１のオブジェクト２１０２は第１の人物に対応してよく、第２のオブジェクト２１０４は第２の人物に対応してよく、第３のオブジェクト２１０６は第３の人物に対応してよい。別の実施形態では、オブジェクト２１０２〜２１０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0243】

[00286]図２１はまた、モバイルデバイスの画面上のフレーム２１００の表示２１１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示２１１０は、ユーザが（たとえば、トラッキングタスクＴ２５０による）トラッキングのためにオブジェクトを選択することを可能にする、ユーザ選択機構２１１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構２１１１をタッチし、第１のオブジェクト２１０２のトラッキングを可能にするために第１のオブジェクト２１０２の周囲で第１の焦点リング２１１２をドラッグすることができる。第１の焦点リング２１１２のそのような配置に応答して、モバイルデバイスは、トラッキングのために第１のオブジェクト２１１２を選択することができる。同様の方式で、ユーザはまた、画面上のユーザ選択機構２１１１をタッチし、第２のオブジェクト２１０４および第３のオブジェクト２１０６の周囲で第２の焦点リング２１１４および第３の焦点リング２１１６をドラッグして、それぞれ、第２のオブジェクト２１０４および第３のオブジェクト２１０６のトラッキングを可能にすることができる。第２の焦点リング２１１４および第３の焦点リング２１１６のそのような配置に応答して、モバイルデバイスは、トラッキングのために、それぞれ第２のオブジェクト２１０４と第３のオブジェクト２１０６とを選択することができる。

【0244】

[00287]図２１はまた、（たとえば、第１の時刻の後の）第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム２１２０を示す。フレーム２１２０において、特定のオブジェクト２１０２、２１０６のサイズは、第１の時刻におけるシーンを示すフレーム２１００中の対応するサイズに対して変化している。たとえば、第１のオブジェクト２１０２はカメラレンズに近づくように動いており（たとえば、第１のオブジェクト２１０２のサイズが比較的大きいように見える）、第３のオブジェクト２１０４はカメラレンズから離れるように動いている（たとえば、第３のオブジェクト２１０６のサイズは比較的小さく見える）。第２のオブジェクト２１０４のサイズは、第３のオブジェクト２１０６のサイズよりも大きく、第１のオブジェクト２１０２のサイズよりも小さく見える。

【0245】

[00288]図２１はまた、モバイルデバイスの画面上のフレーム２１２０の表示２１３０を示す。表示２１３０は、第１のウィンドウ２１３２、第２のウィンドウ２１３４、および第３のウィンドウ２１３６へと（たとえば、表示タスクＴ４００によって）区分され得る。たとえば、ユーザ選択機構２１１１による３つのオブジェクト２１０２〜２１０６の選択に応答して、モバイルデバイスは、３つのウィンドウ２１３２〜２１３６へと表示２１３０を区分することができる。第１のウィンドウ２１３２は第２のウィンドウ２１３４より大きくてよく、第２のウィンドウ２１３４は第３のウィンドウ２１３６より大きくてよい。各ウィンドウ２１３２〜２１３６に表示されるフレーム２１２０の部分は、表示２１３０のサイズに対するオブジェクト２１０２〜２１０６のサイズに基づき得る。

【0246】

[00289]第１のウィンドウ２１３２（たとえば、最大のウィンドウ）は、表示２１３０のサイズに対する第１のオブジェクト２１０２のサイズが表示２１３０のサイズに対する他の選択されたオブジェクト２１０４、２１０６のサイズよりも大きい場合、第１のオブジェクト２１０２を含むフレーム２１２０の第１の部分を表示することができる。フレーム２１２０の第１の部分は、フレーム２１２０の中の第１のオブジェクト２１０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト２１０２の位置をトラッキングすることができ、第１のオブジェクト２１０２の位置に注目しているビデオストリームが第１のウィンドウ２１３２に表示され得る。

【0247】

[00290]第２のウィンドウ２１３４は、表示２１３０のサイズに対する第２のオブジェクト２１０４のサイズが表示２１３０のサイズに対する第３のオブジェクト２１０６のサイズよりも大きい場合、第２のオブジェクト２１０４を含むフレーム２１２０の第２の部分を表示することができる。フレーム２１２０の第２の部分は、フレーム２１２０の中の第２のオブジェクト２１０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト２１０４の位置をトラッキングすることができ、第２のオブジェクト２１０４の位置に注目しているビデオストリームが第２のウィンドウ２１３４に表示され得る。

【0248】

[00291]第３のウィンドウ２１３６（たとえば、最小のウィンドウ）は、第３のオブジェクト２１０６（たとえば、表示２１３０のサイズに対する最小のオブジェクト）を含むフレーム２１２０の第３の部分を表示することができる。フレーム２１２０の第３の部分は、フレーム２１２０の中の第３のオブジェクト２１０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは第３のオブジェクト２１０４の位置をトラッキングすることができ、第３のオブジェクト２１０６の位置に注目しているビデオストリームが第３のウィンドウ２１３６に表示され得る。

【0249】

[00292]図２１はまた、（たとえば、第２の時刻の後の）第３の時刻においてキャプチャされたシーンを示す、ビデオストリームのフレーム２１４０を示す。フレーム２１４０において、オブジェクト２１０２〜２１０６のサイズは、第２の時刻におけるシーンを示すフレーム２１２０に示される対応するサイズに関して変化している。たとえば、第１のオブジェクト２１０２は、カメラレンズから離れるように移動しており（たとえば、第１のオブジェクト２１０２のサイズは比較的小さく見える）、第２のオブジェクトはカメラレンズに近づくように移動しており（たとえば、第１のオブジェクト２１０２のサイズは比較的大きく見える）、第３のオブジェクト２１０４もカメラレンズに近づくように移動している（たとえば、第３のオブジェクト２１０６のサイズは第１のオブジェクト２１０２のサイズよりも大きく見え、第２のオブジェクト２１０４のサイズよりも小さく見える）。

【0250】

[00293]図２１はまた、モバイルデバイスによって生成されるウィンドウ２１３２〜２１３６を含む、モバイルデバイスの画面上のフレーム２１４０の表示２１５０を示す。たとえば、第１のウィンドウ２１３２（たとえば、最大のウィンドウ）は、第２のオブジェクト２１０４を含むフレーム２１４０の第２の部分を表示し、第２のウィンドウ２１３４は、第３のオブジェクト２１０６を含むフレーム２１４０の第３の部分を表示し、第３のウィンドウ２１３６（たとえば、最小のウィンドウ）は、第１のオブジェクト２１０２を含むフレーム２１４０の第１の部分を表示する。

【0251】

[00294]図２１に示される実施形態は、モバイルデバイスが、フレーム２１００、２１２０、２１４０中のオブジェクト２１０２〜２１０６をトラッキングすることを可能にでき、オブジェクト２１０２〜２１０６の相対的なサイズに基づいて、オブジェクト２１０２〜２１０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ２１３２〜２１３６に表示することができる。たとえば、他のオブジェクト２１０２〜２１０６よりも大きく見える（たとえば、画面の最大の部分を占有するように見える）オブジェクト２１０２〜２１０６に注目しているビデオストリームは、最大のウィンドウ（たとえば、第１のウィンドウ２１３２）に表示され得る。同様の実装形態において、表示タスクＴ４００は、トラッキングタスクＴ２５０によって示されるような、各々の二次的ビデオストリームに対応する選択されたオブジェクトのプライマリビデオストリーム内での相対的なサイズ（たとえば、オブジェクトのバウンディングボックスの相対的なサイズ）に応答して、表示の対応するウィンドウに二次的ビデオストリームを割り当てるように実施され得る。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図２１に関して説明される技法を実行することができる。

【0252】

[00295]図２２を参照すると、オブジェクトトラッキングを使用したビデオ処理方法２２００の特定の実施形態を示すフローチャートが示される。代替的な実施形態では、方法２２００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0253】

[00296]方法２２００は、２２０２において、モバイルデバイスにおいて、シーン中の第１のオブジェクトおよびシーン中の第２のオブジェクトの選択を受け取ることを含む。たとえば、図２１を参照すると、ユーザは、画面上のユーザ選択機構２１１１をタッチし、第１のオブジェクト２１０２の周囲で第１の焦点リング２１１２をドラッグし、第２のオブジェクト２１０４の周囲で第２の焦点リング２１１４をドラッグして、それぞれ、第１のオブジェクト２１０２および第２のオブジェクト２１０４のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。

【0254】

[00297]２２０４において、第１のオブジェクトを含む表示されるシーンの第１の部分は、表示のサイズに対する第１のオブジェクトのサイズが表示のサイズに対する第２のオブジェクトのサイズよりも大きい場合、第１のウィンドウに表示され得る。たとえば、図２１を参照すると、第１のウィンドウ２１３２（たとえば、最大のウィンドウ）は、表示２１３０のサイズに対する第１のオブジェクト２１０２のサイズが表示２１３０のサイズに対する他の選択されたオブジェクト２１０４、２１０６のサイズよりも大きい場合、第１のオブジェクト２１０２を含むフレーム２１２０の第１の部分を表示することができる。フレーム２１２０の第１の部分は、フレーム２１２０の中の第１のオブジェクト２１０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト２１０２の位置をトラッキングすることができ、第１のオブジェクト２１０２の位置に注目しているビデオストリームが第１のウィンドウ２１３２に表示され得る。

【0255】

[00298]２２０６において、第２のオブジェクトを含む表示されるシーンの第２の部分は、表示のサイズに対する第１のオブジェクトのサイズが表示のサイズに対する第２のオブジェクトのサイズよりも大きいという決定に応答して、第２のウィンドウに表示され得る。たとえば、図２２を参照すると、第２のウィンドウ２１３４は、表示２１３０のサイズに対する第２のオブジェクト２１０４のサイズが表示２１３０のサイズに対する第３のオブジェクト２１０６のサイズよりも大きい場合、第２のオブジェクト２１０４を含むフレーム２１２０の第２の部分を表示することができる。フレーム２１２０の第２の部分は、フレーム２１２０の中の第２のオブジェクト２１０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト２１０４の位置をトラッキングすることができ、第２のオブジェクト２１０４の位置に注目しているビデオストリームが第２のウィンドウ２１３４に表示され得る。第１のウィンドウ２１３２は第２のウィンドウ２１３４より大きくてよい。

【0256】

[00299]２２０８において、表示されるシーンの第１の部分は、表示のサイズに対する第１のオブジェクトのサイズが表示のサイズに対する第２のオブジェクトのサイズよりも大きくない場合、第２のウィンドウに表示され得る。２２１０において、フレームの第２の部分は、表示のサイズに対する第１のオブジェクトのサイズが表示のサイズに対する第２のオブジェクトのサイズよりも大きくない場合、第１のウィンドウに表示され得る。

【0257】

[00300]図２２の方法２２００は、モバイルデバイスが、フレーム２１００、２１２０、２１４０中のオブジェクト２１０２〜２１０６をトラッキングすることを可能にでき、オブジェクト２１０２〜２１０６の相対的なサイズに基づいて、オブジェクト２１０２〜２１０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ２１３２〜２１３６に表示することができる。たとえば、他のオブジェクト２１０２〜２１０６よりも大きく見える（たとえば、画面の最大の部分を占有するように見える）オブジェクト２１０２〜２１０６に注目しているビデオストリームは、最大のウィンドウ（たとえば、第１のウィンドウ２１３２）に表示され得る。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法２２００を実行することができる。

【0258】

[00301]図２３を参照すると、オブジェクトトラッキングを使用したビデオ処理方法２３００の特定の実施形態を示すフローチャートが示される。例示的な実施形態では、方法２３００は、ロボットを使用して実行され得る。

【0259】

[00302]２３０２において、方法２３００は、ロボットにおいて、複数のオブジェクトの間の幾何学的配置をトラッキングすることを含み得る。たとえば、ユーザは、トラッキングされるべき特定のオブジェクトをロボットに伝えることができる。特定の実施形態では、ロボットはディスプレイインターフェースを含んでよく、ユーザはディスプレイインターフェースとの対話を介してロボットと交流することができる。別の例として、ロボットは、環境因子に基づいてどのオブジェクトがトラッキングされるべきかを、独立に決定することができる。たとえば、ロボットは、動きを検出するためのセンサを含み得る。検出された動きに基づいて、ロボットは、動きと関連付けられるオブジェクトをトラッキングすることを選択し得る。

【0260】

[00303]２３０４において、処理機能が幾何学的配置に基づいて実行され得る。たとえば、ロボットは、幾何学的配置に基づいてオブジェクト間の関係を決定することができる。別の例として、ロボットは、オブジェクトの幾何学的配置に基づいて設定（たとえば、シーン）を決定することができる。

【0261】

[00304]図２４は、方法Ｍ１００（たとえば、方法Ｍ１１０、Ｍ２００、Ｍ３００、またはＭ４００）の実施の適用形態の例を示す。図２４に示される実施形態に関して説明されるビデオ処理技法は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せによって実行され得る。

【0262】

[00305]図２４は、第１の時刻においてキャプチャされるようなシーンを示す、プライマリビデオストリームのフレーム２４００を示す。たとえば、フレーム２４００は、モバイルデバイスの画面に表示されるべきビデオストリームのフレームに対応し得る。モバイルデバイスは、ストリームを（たとえば、モバイルデバイスのカメラによって）キャプチャし、または別のデバイスからストリームを受信するように構成され得る。フレーム２４００に示されるシーンは、第１のオブジェクト２４０２と、第２のオブジェクト２４０４と、第３のオブジェクト２４０６と、星と、木とを含む。示される実施形態では、第１のオブジェクト２４０２は第１の人物に対応してよく、第２のオブジェクト２４０４は第２の人物に対応してよく、第３のオブジェクト２４０６は第３の人物に対応してよい。別の実施形態では、オブジェクト２４０２〜２４０６の少なくとも１つは、モバイルデバイスを介して制御されるロボットに対応し得る。

【0263】

[00306]図２４はまた、モバイルデバイスの画面上のフレーム２４００の表示２４１０を示す。モバイルデバイスの画面（たとえば、タッチスクリーン）は、ビューファインダに対応し得る。表示２４１０は、ユーザが（たとえば、トラッキングタスクＴ２５０による）トラッキングのためにオブジェクトを選択することを可能にする、ユーザ選択機構２４１１を含み得る。たとえば、ユーザは、画面上のユーザ選択機構２４１１をタッチし、第１のオブジェクト２４０２のトラッキングを可能にするために第１のオブジェクト２４０２の周囲で第１の焦点リング２４１２をドラッグすることができる。第１の焦点リング２４１２のそのような配置に応答して、モバイルデバイスは、トラッキングのために第１のオブジェクト２４１２を選択することができる。同様の方式で、ユーザはまた、画面上のユーザ選択機構２４１１をタッチし、第２のオブジェクト２４０４および第３のオブジェクト２４０６の周囲で第２の焦点リング２４１４および第３の焦点リング２４１６をドラッグして、それぞれ、第２のオブジェクト２４０４および第３のオブジェクト２４０６のトラッキングを可能にすることができる。第２の焦点リング２４１４および第３の焦点リング２４１６のそのような配置に応答して、モバイルデバイスは、トラッキングのために、それぞれ第２のオブジェクト２４０４と第３のオブジェクト２４０６とを選択することができる。

【0264】

[00307]図２４はまた、（たとえば、第１の時刻の後の）第２の時刻においてキャプチャされるようなシーンを示す、ビデオストリームのフレーム２４２０を示す。フレーム２４２０において、オブジェクト２４０２〜２４０６の場所は、第１の時刻におけるシーンを示すフレーム２４００中の対応する場所に対して変化している。たとえば、第１のオブジェクト２４０２は星に近づくように移動しており、第２のオブジェクト２４０４は木に近づくように移動しており、第３のオブジェクト２４０６はフレームの下部に近づくように移動している。

【0265】

[00308]図２４はまた、モバイルデバイスの画面上のフレーム２４２０の表示２４３０を示す。表示２４３０は、２つ以上のウィンドウへと（たとえば、表示タスクＴ４００によって）区分され得る。この例では、表示２４３０は、第１のウィンドウ２４３２、第２のウィンドウ２４３４、第３のウィンドウ２４３６、および第４のウィンドウ２４３８へと区分される。ユーザ選択機構２４１１による３つのオブジェクト２４０２〜２４０６の選択に応答して、たとえば、モバイルデバイスは、３つの対応するウィンドウ２４３２〜２４３６および第４のウィンドウ２４３８へと表示２４３０を区分することができる。

【0266】

[00309]第１のウィンドウ２４３２は、第１のオブジェクト２４０２を含むフレーム２４２０の第１の部分を表示することができる。フレーム２４２０の第１の部分は、フレーム２４２０の中の第１のオブジェクト２４０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト２４０２の位置をトラッキングすることができ、第１のオブジェクト２４０２の位置に注目しているビデオストリームが第１のウィンドウ２４３２に表示され得る。第２のウィンドウ２４３４は、第２のオブジェクト２４０４を含むフレーム２４２０の第２の部分を表示することができる。フレーム２４２０の第２の部分は、フレーム２４２０の中の第２のオブジェクト２４０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト２４０４の位置をトラッキングすることができ、第２のオブジェクト２４０４の位置に注目しているビデオストリームが第２のウィンドウ２４３４に表示され得る。第３のウィンドウ２４３６は、第３のオブジェクト２４０６を含むフレーム２４２０の第３の部分を表示することができる。フレーム２４２０の第３の部分は、フレーム２４２０の中の第３のオブジェクト２４０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは第３のオブジェクト２４０４の位置をトラッキングすることができ、第３のオブジェクト２４０６の位置に注目しているビデオストリームが第３のウィンドウ２４３６に表示され得る。

【0267】

[00310]第４のウィンドウ２４３８は、各オブジェクト２４０２〜２４０６の間の幾何学的配置（たとえば、重心（Ｃ_M2））の指示を表示することができる。たとえば、第４のウィンドウ２４３８は、フレーム２４２０中のエリアに対応する複数のセクション（グレースケールの線として表されている）を含む格子を含み得る。たとえば、格子の左下のセクションは、フレーム２４２０の左下のセクションに対応し得る。図１８および図１９に関して説明されるような同様の方式で、モバイルデバイスは、フレーム２４２０中のオブジェクトの重心（Ｃ_M2）を決定することができる。重心（Ｃ_M2）は、格子の対応するセクションに表示され得る。

【0268】

[00311]図２４はまた、（たとえば、第２の時刻の後の）第３の時刻にキャプチャされるようなシーンを示す、フレーム２４４０を示す。フレーム２４４０において、各オブジェクト２４０２〜２４０６の場所は、第２の時刻におけるシーンを示すフレーム２４２０中の対応する場所に対して変化している。たとえば、第１のオブジェクト２４０２は木に近づくように移動しており、第２のオブジェクトはシーン２４４０の下部に近づくように移動しており、第３のオブジェクト２４０６は星に近づくように移動している。

【0269】

[00312]図２４はまた、モバイルデバイスによって生成されるウィンドウ２４３２〜２４３６を使用した、モバイルデバイスの画面上のフレーム２４４０の表示２４５０を示す。たとえば、第１のウィンドウ２４３２は、第１のオブジェクト２４０２を含むフレーム２４４０の第１の部分を表示し、第２のウィンドウ２４３４は、第２のオブジェクト２４０４を含むフレーム２４４０の第２の部分を表示し、第３のウィンドウ２４３６は、第３のオブジェクト２４０６を含むフレーム２４４０の第３の部分を表示する。

【0270】

[00313]第４のウィンドウ２４３８は、第３の時刻におけるフレーム２４４０を反映するように、指示（たとえば、重心（Ｃ_M2））を更新することができる。モバイルデバイスは、フレームごとに、または非連続的な時間間隔で、幾何学的配置をトラッキングし、更新された幾何学的配置の指示を第４のウィンドウ２４３８に表示することができる。たとえば、第３のフレームにおいて、第４のウィンドウ２４３８は、第３の時刻におけるフレーム２４４０中のオブジェクト２４０２〜２４０６の重心（Ｃ_M3）を表示することができる。第４のウィンドウ２４３８はまた、第２のフレームと第３のフレームとの間で（たとえば、トラッキングタスクＴ２５０によって示されるように）オブジェクトの重心をトラッキングする、経路（たとえば、点線）を表示することができる。

【0271】

[00314]図２４に示される実施形態は、モバイルデバイスが、フレーム２４００、２４２０、２４４０中のオブジェクト２４０２〜２４０６をトラッキングすることを可能にでき、オブジェクト２４０２〜２４０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ２４３２〜２４３６に表示することができる。実施形態はまた、ユーザが第４のウィンドウ２４３８中のオブジェクト２４０２〜２４０６の幾何学的配置を見ることを可能にする。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、図２４に関して説明される技法を実行することができる。

【0272】

[00315]図２５を参照すると、オブジェクトトラッキングを使用したビデオ処理方法２５００の特定の実施形態を示すフローチャートが示される。例示的な実施形態では、方法２５００は、図１の電子デバイス１０２、図２Ｂのプロセッサ２６４によって実装されるオブジェクトトラッキングおよび検出モジュール２０４、プロセッサによって実装される図８のオブジェクトトラッキングおよび検出モジュール８０４、プロセッサによって実装される図９の平滑化モジュール９６１、またはこれらの任意の組合せを使用して実行され得る。

【0273】

[00316]方法２５００は、２５０２において、モバイルデバイスにおいて、表示されるシーン中の第１のオブジェクト、表示されるシーン中の第２のオブジェクト、および表示されるシーン中の第３のオブジェクトの選択を受け取ることを含む。たとえば、図２４を参照すると、ユーザは、画面上のユーザ選択機構２４１１をタッチし、第１のオブジェクト２４０２の周囲で第１の焦点リング２４１２をドラッグし、第２のオブジェクト２４０４の周囲で第２の焦点リング２４１４をドラッグし、第３のオブジェクト２４０６の周囲で第３の焦点リング２４１６をドラッグして、それぞれ、第１、第２、および第３のオブジェクト２４０２〜２４０６のトラッキングを可能にすることができる。表示されるシーンは、モバイルデバイスの画面上のキャプチャされ表示されるビデオストリームに対応し得る。

【0274】

[00317]表示はまた、２５０４において、アット第１のウィンドウ、第２のウィンドウ、第３のウィンドウ、および第４のウィンドウへと区分され得る。たとえば、図２４を参照すると、表示２４３０は、第１のウィンドウ２４３２、第２のウィンドウ２４３４、第３のウィンドウ２４３６、および第４のウィンドウに区分され得る。

【0275】

[00318]２５０６において、第１のオブジェクトを含む表示されるシーンの第１の部分は、第１のウィンドウに表示され得る。たとえば、図２４を参照すると、第１のウィンドウ２４３２は、第１のオブジェクト２４０２を含むフレーム２４２０の第１の部分を表示することができる。フレーム２４２０の第１の部分は、フレーム２４２０の中の第１のオブジェクト２４０２の位置に基づいて決定され得る。たとえば、モバイルデバイスは第１のオブジェクト２４０２の位置をトラッキングすることができ、第１のオブジェクト２４０２の位置に注目しているビデオストリームが第１のウィンドウ２４３２に表示され得る。

【0276】

[00319]２５０８において、第２のオブジェクトを含む表示されるシーンの第２の部分は、第２のウィンドウに表示され得る。たとえば、図２４を参照すると、第２のウィンドウ２４３４は、第２のオブジェクト２４０４を含むフレーム２４２０の第２の部分を表示することができる。フレーム２４２０の第２の部分は、フレーム２４２０の中の第２のオブジェクト２４０４の位置に基づいて決定され得る。たとえば、モバイルデバイスは第２のオブジェクト２４０４の位置をトラッキングすることができ、第２のオブジェクト２４０４の位置に注目しているビデオストリームが第２のウィンドウ２４３４に表示され得る。

【0277】

[00320]２５１０において、第３のオブジェクトを含む表示されるシーンの第３の部分は、第３のウィンドウに表示され得る。たとえば、図２４を参照すると、第３のウィンドウ２４３６は、第３のオブジェクト２４０６を含むフレーム２４２０の第３の部分を表示することができる。フレーム２４２０の第３の部分は、フレーム２４２０の中の第３のオブジェクト２４０６の位置に基づいて決定され得る。たとえば、モバイルデバイスは第３のオブジェクト２４０６の位置をトラッキングすることができ、第２のオブジェクト２４０６の位置に注目しているビデオストリームが第３のウィンドウ２４３６に表示され得る。

【0278】

[00321]２４１２において、各オブジェクト間の幾何学的配置の指示が第４のウィンドウに表示され得る。たとえば、図２４を参照すると、第４のウィンドウ２４３８は、各オブジェクト２４０２〜２４０６間の重心（Ｃ_M2）を表示することができる。第４のウィンドウ２４３８は、第３の時刻におけるシーン２４４０を反映するように重心（Ｃ_M2）を更新することができる。たとえば、第３のフレームにおいて、第４のウィンドウ２４３８は、第３の時刻におけるフレーム２４４０中のオブジェクト２４０２〜２４０６の重心（Ｃ_M3）を表示することができる。第４のウィンドウ２４３８はまた、第２のフレームと第３のフレームとの間でオブジェクトの重心をトラッキングする、経路（たとえば、点線）を表示することができる。

【0279】

[00322]図２５の方法２５００は、モバイルデバイスが、シーン２４００、２４２０、２４４０中のオブジェクト２４０２〜２４０６をトラッキングすることを可能にでき、オブジェクト２４０２〜２４０６に対応する個別化された（たとえば、専心的な）ビデオストリームを別のウィンドウ２４３２〜２４３６に表示することができる。方法２５００はまた、ユーザが別のウィンドウ（たとえば、第４のウィンドウ２４３８）中のオブジェクト２４０２〜２４０６の幾何学的配置を見ることを可能にする。モバイルデバイスは、単一のカメラを使用して、または複数のカメラを使用して、方法２５００を実行することができる。

【0280】

[00323]図３７Ｂは、一般的な構成による装置Ａ１００のブロック図を示す。装置Ａ１００は、（たとえば、選択タスクＴ２００を参照して本明細書で説明されるような）ビューのプライマリフィールドを有するプライマリビデオストリームＰＳ１０内の少なくとも２つのオブジェクトを選択するように構成される、判別器２００を含む。装置Ａ１００はまた、（たとえば、ストリーム生成タスクＴ３００およびＴ３５０を参照して本明細書で説明されたような）前記選択に応答して、プライマリビデオストリームから、選択されたオブジェクトのうちの第１のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームＶＳ１０を生成し、前記選択の後に、プライマリビデオストリームから、選択されたオブジェクトのうちの第２のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームＶＳ２０を生成するように構成されるビデオストリーム生成器２００を含む。第１のビデオストリームを前記生成することと第２のビデオストリームを前記生成することとが開始した後、ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。

【0281】

[00324]図３７Ｃは、装置Ａ１００の実装形態Ａ１１０のブロック図を示す。装置Ａ１１０は、（たとえば、解析タスクＴ１１０を参照して本明細書で説明されるように）プライマリビデオストリームＰＳ１０を解析してプライマリビデオストリームＰＳ１０の一連のフレームを生成するように構成される、インターフェース１１０を含む。インターフェース１１０は、本明細書で説明されるようなフレームバッファまたは循環バッファ（たとえば、フレームバッファＦＢ１０、メモリバッファ１１０）のような、１つまたは複数の解析されたフレームを記憶するように構成されるバッファを含み得る。図３８Ａは、装置Ａ１００の実装形態Ａ２００のブロック図を示す。装置Ａ２００は、選択されたオブジェクトをトラッキングするように構成されるオブジェクトトラッカー２５０（たとえば、トラッキングタスクＴ２５０、オブジェクトトラッキングおよび検出モジュール２０４、および／またはオブジェクトトラッキングおよび検出モジュール８０４を参照して本明細書で説明されるような）を含む。たとえば、オブジェクトトラッカー２５０は、表示ビデオストリームのフレームにおいて、第１のオブジェクトおよび第２のオブジェクトのうちの少なくとも１つがフレームの端部に近いことを検出し、プライマリビデオストリームの複数のフレームの第１のフレームにおいて、第２のオブジェクトよりも第１のオブジェクトがフレームの第１の端部に近いと決定し、ならびに／または、第１のウィンドウ内に第１のビデオストリームを前記表示した後に、（Ａ）プライマリビデオストリームのフレーム、（Ｂ）第１のビデオストリームのフレーム、および（Ｃ）第２のビデオストリームのフレームの少なくとも１つにおいて、第２のオブジェクトが第１のオブジェクトと重複すると決定するように構成され得る。

【0282】

[00325]図３８Ｂは、装置Ａ１００の実装形態Ａ３００のブロック図を示す。装置Ａ３００は、（たとえば、表示タスクＴ４００を参照して本明細書で説明されるように）第１のビデオストリームと第２のビデオストリームの少なくとも１つに基づいて表示信号を生成するように構成される、表示信号生成器４００を含む。たとえば、表示信号生成器４００は、第１のウィンドウ内の第１のビデオストリームと第２のウィンドウ内の第２のビデオストリームとを含む（たとえば、画面に対する）表示信号を生成するように構成され得る。加えて、または代替的に、表示信号生成器４００は、（たとえば、図１７、図１８、および図２４を参照して本明細書で説明されるように）幾何学的配置および／またはクラスタ領域の指示を示す表示信号を生成するように構成され得る。表示信号生成器４００は、本明細書で説明されるような表示バッファ（たとえば、表示バッファＤＢ１０）を含み得る。図３９Ａは、装置Ａ２００およびＡ３００の実装形態Ａ４００のブロック図を示す。

【0283】

[00326]本明細書で開示されるような装置Ａ１００の実装形態のいずれかは、次のフォームファクタ、すなわち、携帯可能（たとえば、スマートフォン）、運転可能（たとえば、車両またはロボット）、装着可能（たとえば、衣服またはアクセサリ）、および飛行可能（たとえば、ドローン）のいずれかのデバイスのような、モバイルデバイス内で実装され得る。モバイルデバイスは、ストリームＤＳ１０を表示するように構成される１つまたは複数の画面ＳＣ１０（たとえば、タッチスクリーン）および／またはプライマリビデオストリームＰＳ１０を生成するように構成される１つまたは複数の撮像ユニットＩＵ１０（たとえば、カメラまたは他の画像キャプチャデバイス）を含み得る。図３９Ｂおよび図３９Ｃは、装置Ａ１００のそのような適用形態の例のブロック図を示し、図３９Ｄは、装置Ａ３００のそのような適用形態のブロック図を示す。

【0284】

[00327]図２６を参照すると、上で説明されたビデオ処理技法を実行するように動作可能なコンポーネントを含むワイヤレスデバイス２６００のブロック図が示されている。デバイス２６００は、メモリ２６３２に結合されたデジタル信号プロセッサ（ＤＳＰ）のようなプロセッサ２６１０を含む。デバイス２６００は、本明細書で説明されるような装置Ａ１００の実装形態のいずれかの要素を含むように実装され得るモバイルデバイスの一例である。

【0285】

[00328]図２６はまた、プロセッサ２６１０とディスプレイ２６２８に結合されたディスプレイコントローラ２６２６（たとえば、本明細書で説明されるような表示タスクＴ４００を実行するように構成される）を示している。特定の実施形態では、表示は、上で説明されたビューファインダまたは画面に対応し得る。メモリ２６３２は、実行可能命令２６５６を含む有形の非一時的プロセッサ可読記憶媒体であり得る。命令２６５６はプロセッサ２６１０のようなプロセッサによって実行され得る。プロセッサ２６１０またはディスプレイコントローラ２６２６のようなプロセッサは、図３の方法３００、図４の方法４００、図５の方法５００、図６の方法６００、図１０の方法１０００、図１２の方法１２００、図１４の方法１４００、図１６の方法１６００、図１９の方法１９００、図２０の方法２０００、２０１０、図２２の方法２２００、図２５の方法２５００、方法Ｍ１００、方法Ｍ１１０、方法Ｍ１２０、方法Ｍ２００、方法Ｍ３００、方法Ｍ４００、またはこれらの任意の組合せの、少なくとも一部分を実行するように命令２６５６を実行することができる。

【0286】

[00329]コーダ／デコーダ（コーデック）２６３４も、プロセッサ２６１０に結合され得る。スピーカー２６３６およびマイクロフォン２６３８が、コーデック２６３４に結合され得る。図２６は、ワイヤレスコントローラ２６４０がプロセッサ２６１０およびアンテナ２６４２に結合され得ることも示す。特定の実施形態では、高周波（ＲＦ）インターフェース２６８０が、ワイヤレスコントローラ２６４０とアンテナ２６４２との間に配設される。

【0287】

[00330]特定の実施形態では、プロセッサ２６１０、ディスプレイコントローラ２６２６、メモリ２６３２、コーデック２６３４、およびワイヤレスコントローラ２６４０は、システムインパッケージまたはシステムオンチップデバイス２６２２に含まれる。特定の実施形態では、入力デバイス２６３０（たとえば、上で説明されたようなシーンをキャプチャするために使用されるカメラ）および電源２６４４が、システムオンチップデバイス２６２２に結合される。その上、特定の実施形態では、図２６に示されるように、ディスプレイ２６２８、入力デバイス２６３０、スピーカー２６３６、マイクロフォン２６３８、アンテナ２６４２、電源２６４４、およびＲＦインターフェース２６８０は、システムオンチップデバイス２６２２の外部にある。たとえば、ＲＦインターフェース２６８０は別のチップであってよい。しかしながら、ディスプレイ２６２８、入力デバイス２６３０、スピーカー２６３６、マイクロフォン２６３８、アンテナ２６４２、電源２６４４、およびＲＦインターフェース２６８０の各々は、インターフェースまたはコントローラのような、システムオンチップデバイス２６２２のコンポーネントに結合され得る。

【0288】

[00331]図３９Ｅは、一般的な構成による装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、（たとえば、タスクＴ２００を参照して本明細書で説明されるような）ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択するための手段Ｆ２００を含む。装置ＭＦ１００はまた、前記選択に応答して、（たとえば、タスクＴ３００を参照して本明細書で説明されるように）選択されたオブジェクトのうちの第１のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、プライマリビデオストリームから生成するための手段Ｆ３００を含む。装置ＭＦ１００はまた、前記選択の後に、（たとえば、タスクＴ３５０を参照して本明細書で説明されるように）選択されたオブジェクトのうちの第２のオブジェクトを含みビューのプライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、プライマリビデオストリームから生成するための手段Ｆ３５０を含む。第１のビデオストリームを生成することおよび第２のビデオストリームを前記生成することが開始した後、ビューの第１のフィールドは、ビューの第２のフィールド内にないビューのプライマリフィールドの一部分を含み、ビューの第２のフィールドは、ビューの第１のフィールド内にないビューのプライマリフィールドの一部分を含む。

【0289】

[00332]図４０Ａは、装置ＭＦ１００の実装形態ＭＦ１１０のブロック図を示す。装置ＭＦ１１０は、（たとえば、解析タスクＴ１００を参照して本明細書で説明されるように）プライマリビデオストリームを解析してプライマリビデオストリームの一連のフレームを生成するための手段Ｆ１００を含む。

【0290】

[00333]図４０Ｂは、装置ＭＦ１００の実装形態ＭＦ２００のブロック図を示す。装置ＭＦ２００は、（たとえば、トラッキングタスクＴ２５０を参照して本明細書で説明されるように）オブジェクトをトラッキングするための手段Ｆ２５０を含む。たとえば、手段Ｆ２５０は、表示ビデオストリームのフレームにおいて、第１のオブジェクトおよび第２のオブジェクトのうちの少なくとも１つがフレームの端部に近いことを検出するための手段、プライマリビデオストリームの複数のフレームの第１のフレームにおいて、第２のオブジェクトよりも第１のオブジェクトがフレームの第１の端部に近いと決定するための手段、および／または、第１のウィンドウ内に第１のビデオストリームを前記表示した後に、（Ａ）プライマリビデオストリームのフレーム、（Ｂ）第１のビデオストリームのフレーム、および（Ｃ）第２のビデオストリームのフレームの少なくとも１つにおいて、第２のオブジェクトが第１のオブジェクトと重複すると決定するための手段として実装され得る。

【0291】

[00334]図４０Ｃは、装置ＭＦ１００の実装形態ＭＦ３００のブロック図を示す。装置ＭＦ３００は、（たとえば、表示タスクＴ４００を参照して本明細書で説明されるように）第１のビデオストリームおよび第２のビデオストリームの少なくとも１つを表示するための手段Ｆ４００を含む。たとえば、手段Ｆ４００は、第１のウィンドウ内に第１のビデオストリームと第２のウィンドウ内の第２のビデオストリームとを画面に表示するための手段として実装され得る。加えて、または代替的に、手段Ｆ４００は、（たとえば、図１７、図１８、および図２４を参照して本明細書で説明されるように）幾何学的配置および／またはクラスタ領域の指示を示す表示信号を生成するための手段として実装され得る。図４０Ｄは、装置ＭＦ２００およびＭＦ３００の実装形態ＭＦ４００のブロック図を示す。

【0292】

[00335]さらに、本明細書で開示された実施形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者は理解されよう。本明細書で開示された装置（たとえば、装置ＭＦ１００、ＭＦ１１０、ＭＦ２００、ＭＦ３００、ＭＦ４００、Ａ１００、Ａ１１０、Ａ２００、Ａ３００、およびＡ４００の中のいずれか）の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）のような、論理要素（たとえば、プロセッサ２６１０）の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行されるように構成された命令の１つまたは複数のセットとして実装され得る。様々な例示的なコンポーネント、ブロック、構成、モジュール、回路、およびステップが、上では概して、それらの機能に関して説明された。そのような機能が、ハードウェアとして実装されるかまたはプロセッサ実行可能命令として実装されるかは、具体的な応用例、およびシステム全体に課せられる設計制約に依存する。当業者は、説明されている機能を具体的な適用例ごとに様々な方法で実装することができるが、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

【0293】

[00336]本明細書で開示された実施形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで、プロセッサによって実行されるソフトウェアモジュールで、またはそれら２つの組合せで具現化され得る。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ（ＣＤ−ＲＯＭ）、または当技術分野で知られている任意の他の形態の非一時的記憶媒体に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合される。代替として、記憶媒体は、プロセッサと一体であってよい。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）の中に存在し得る。ＡＳＩＣはコンピューティングデバイスまたはユーザ端末の中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内に個別のコンポーネントとして存在し得る。

【0294】

[00337]開示された実施形態の上記の説明は、当業者が開示された実施形態を製作または使用することを可能にするために提供されている。これらの実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義されている原理は、本開示の範囲から逸脱することなく、他の実施形態に適用され得る。したがって、本開示は、本明細書に示された実施形態に限定されることを意図されておらず、以下の特許請求の範囲によって定義される原理および新規な特徴と一致する可能な最も広い範囲を与えられるべきである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ビデオ処理の方法であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択することと、
前記選択に応答して、前記選択されたオブジェクトのうちの第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成することと、
前記選択の後に、前記選択されたオブジェクトのうちの第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成することと、を備え、
前記第１のビデオストリームを前記生成することおよび前記第２のビデオストリームを前記生成することが開始した後、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、方法。
［Ｃ２］
前記複数（Ａ）前記プライマリビデオストリームの複数のフレームおよび（Ｂ）前記第１のビデオストリームの第１の複数のフレームの少なくとも一方の中で、前記第１のオブジェクトの動きを検出することと、
前記検出に応答して、ビューの前記第１のフィールドの方向を変更することと、
を備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ３］
ビューの前記第１のフィールドの前記方向を前記変更することは、前記第１のオブジェクトの前記検出された動きの方向に従うように前記方向を変更することを備える、Ｃ２に記載のビデオ処理の方法。
［Ｃ４］
前記第１のビデオストリームを前記生成することは、前記プライマリビデオストリームの少なくとも１つの対応するフレームの一部分から前記第１のビデオストリームの各フレームを生成することを備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ５］
前記第１のビデオストリームの第１の複数のフレームの各々について、前記フレーム内の前記第１のオブジェクトの位置は、前記プライマリビデオストリームの複数のフレームのうちの対応する１つにおけるよりも、前記フレームの中心に近い、Ｃ１に記載のビデオ処理の方法。
［Ｃ６］
前記第１のビデオストリームを前記生成することは、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトのサイズを正規化することを備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ７］
前記第１のビデオストリームを前記生成することは、前記第１のビデオストリームの第１の複数のフレームの各々の中での明るさ、コントラスト、およびホワイトバランスの中の少なくとも１つを正規化することを備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ８］
第１のウィンドウ内に前記第１のビデオストリームを画面に表示することと、
第２のウィンドウ内に前記第２のビデオストリームを前記画面に表示することと、を備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ９］
少なくとも２つのオブジェクトを前記選択することは、前記第１のオブジェクトを選択することと前記第２のオブジェクトを選択することとを備え、
前記第１のビデオストリームを前記表示することは、前記第２のオブジェクトを前記選択することの前に開始する、Ｃ８に記載のビデオ処理の方法。
［Ｃ１０］
前記プライマリビデオストリームの複数のフレームの第１のフレームにおいて、前記第１のオブジェクトは、前記第２のオブジェクトよりも、前記フレームの第１の端部に近いと決定することと、
前記第１のオブジェクトが前記第１の端部により近いと前記決定した後に、前記プライマリビデオストリームの前記複数のフレームの第２のフレームにおいて、前記第２のオブジェクトは、前記第１のオブジェクトよりも、前記フレームの前記第１の端部に近いと決定することと、
前記第２のオブジェクトが前記第１の端部により近いと前記決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示することとを備える、Ｃ８に記載のビデオ処理の方法。
［Ｃ１１］
前記第１のウィンドウ内に前記第１のビデオストリームを前記表示した後に、（Ａ）前記プライマリビデオストリームのフレーム、（Ｂ）前記第１のビデオストリームのフレーム、および（Ｃ）前記第２のビデオストリームのフレームのうちの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定することと、
前記決定に応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示することと、を備える、Ｃ８に記載のビデオ処理の方法。
［Ｃ１２］
前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成することと、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示することと、
前記表示ビデオストリームのフレーム内に、前記第１のオブジェクトおよび前記第２のオブジェクトのうちの少なくとも１つが前記フレームの端部に近いことを検出することと、
前記検出に応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更することと、を備え、ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広い角度を有する、Ｃ８に記載のビデオ処理の方法。
［Ｃ１３］
前記第１のオブジェクトはロボットオブジェクトであり、
前記方法は、前記シーン内での前記ロボットオブジェクトの動きを制御することを備える、Ｃ１に記載のビデオ処理の方法。
［Ｃ１４］
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択させ、
前記選択に応答して、前記選択されたオブジェクトのうちの第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成させ、
前記選択の後に、前記選択されたオブジェクトのうちの第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成させ、
前記第１のビデオストリームを前記生成することおよび前記第２のビデオストリームを前記生成することが開始した後、ビューの前記第１のフィールドが、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドが、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、非一時的コンピュータ可読媒体。
［Ｃ１５］
プロセッサによって実行されると、前記プロセッサに、
複数（Ａ）前記プライマリビデオストリームの複数のフレームおよび（Ｂ）前記第１のビデオストリームの第１の複数のフレームの少なくとも一方の中で、前記第１のオブジェクトの動きを検出させ、
前記検出に応答して、前記第１のオブジェクトの前記検出された動きの方向に従うようにビューの前記第１のフィールドの方向を変更させる、
命令を記憶している、Ｃ１４に記載の非一時的コンピュータ可読媒体。
［Ｃ１６］
前記第１のビデオストリームを生成するための前記命令は、前記プロセッサによって実行されると、前記プロセッサに、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトのサイズを正規化させる命令を備える、Ｃ１４に記載の非一時的コンピュータ可読媒体。
［Ｃ１７］
プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内の前記第２のビデオストリームを、画面に表示させ、
前記プライマリビデオストリームの複数のフレームの第１のフレームにおいて、前記第１のオブジェクトは前記第２のオブジェクトよりも前記フレームの第１の端部に近いと決定させ、
前記第１のオブジェクトが前記第１の端部により近いと前記決定した後に、前記プライマリビデオストリームの前記複数のフレームの第２のフレームにおいて、前記第２のオブジェクトは前記第１のオブジェクトよりも前記フレームの前記第１の端部に近いと決定させ、
前記第２のオブジェクトが前記第１の端部により近いと前記決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示させ、前記第２のウィンドウ内に前記第１のビデオストリームを表示させる、
命令を記憶している、Ｃ１４に記載の非一時的コンピュータ可読媒体。
［Ｃ１８］
プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、画面に表示させ、
前記第１のウィンドウ内に前記第１のビデオストリームを前記表示した後に、（Ａ）前記プライマリビデオストリームのフレーム、（Ｂ）前記第１のビデオストリームのフレーム、および（Ｃ）前記第２のビデオストリームのフレームの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定させ、
前記決定に応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示させ、前記第２のウィンドウ内に前記第１のビデオストリームを表示させる、
命令を記憶している、Ｃ１４に記載の非一時的コンピュータ可読媒体。
［Ｃ１９］
プロセッサによって実行されると、前記プロセッサに、
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、画面に表示させ、
前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成させ、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示させ、
前記表示ビデオストリームのフレームにおいて、前記第１のオブジェクトおよび前記第２のオブジェクトのうちの少なくとも１つが前記フレームの端部に近いことを検出させ、
前記検出に応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更させる、命令を記憶しており、ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広い角度を有する、
Ｃ１４に記載の非一時的コンピュータ可読媒体。
［Ｃ２０］
ビデオ処理のための装置であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択するための手段と、
前記選択に応答して、前記選択されたオブジェクトのうちの第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを、前記プライマリビデオストリームから生成するための手段と、
前記選択の後に、前記選択されたオブジェクトのうちの第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを、前記プライマリビデオストリームから生成するための手段と、を備え、
前記第１のビデオストリームを前記生成することおよび前記第２のビデオストリームを前記生成することが開始した後、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、装置。
［Ｃ２１］
前記第１のビデオストリームを生成するための前記手段は、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトのサイズを正規化するように構成される、Ｃ２０に記載の装置。
［Ｃ２２］
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、画面に表示するための手段と、
前記プライマリビデオストリームの複数のフレームの第１のフレームにおいて、前記第１のオブジェクトは、前記第２のオブジェクトよりも前記フレームの第１の端部に近いと決定するための手段と、
前記第１のオブジェクトが前記第１の端部により近いと前記決定した後に、前記プライマリビデオストリームの前記複数のフレームの第２のフレームにおいて、前記第２のオブジェクトは、前記第１のオブジェクトよりも前記フレームの前記第１の端部に近いと決定するための手段と、
前記第２のオブジェクトが前記第１の端部により近いと前記決定したことに応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示するための手段と、
を備える、Ｃ２０に記載の装置。
［Ｃ２３］
第１のウィンドウ内に前記第１のビデオストリーム、および第２のウィンドウ内に前記第２のビデオストリームを、画面に表示するための手段と、
前記第１のウィンドウ内に前記第１のビデオストリームを前記表示した後に、（Ａ）前記プライマリビデオストリームのフレーム、（Ｂ）前記第１のビデオストリームのフレーム、および（Ｃ）前記第２のビデオストリームのフレームの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定するための手段と、
前記決定に応答して、前記第１のウィンドウ内に前記第２のビデオストリームを表示し、前記第２のウィンドウ内に前記第１のビデオストリームを表示するための手段と、
を備える、Ｃ２０に記載の装置。
［Ｃ２４］
第１のウィンドウ内に前記第１のビデオストリーム、第２のウィンドウ内に前記第２のビデオストリームを、画面に表示するための手段と、
前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成するための手段と、
前記画面の第３のウィンドウ内に、前記表示ビデオストリームを表示するための手段と、
前記表示ビデオストリームのフレームにおいて、前記第１のオブジェクトおよび前記第２のオブジェクトのうちの少なくとも１つが前記フレームの端部に近いことを検出するための手段と、
前記検出に応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更するための手段と、
を備え、ビューの前記三次的フィールドは、ビューの前記二次的フィールドよりも広い角度を有する、Ｃ２０に記載の装置。
［Ｃ２５］
ビデオ処理のための装置であって、
ビューのプライマリフィールドを有するプライマリビデオストリーム内の少なくとも２つのオブジェクトを選択するように構成される判別器と、
前記選択に応答して、前記プライマリビデオストリームから、前記選択されたオブジェクトのうちの第１のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第１のフィールドを有する第１のビデオストリームを生成し、前記選択の後に、前記プライマリビデオストリームから、前記選択されたオブジェクトのうちの第２のオブジェクトを含み、ビューの前記プライマリフィールドよりも狭いビューの第２のフィールドを有する第２のビデオストリームを生成するように構成されるビデオストリーム生成器と、を備え、
前記第１のビデオストリームを前記生成することおよび前記第２のビデオストリームを前記生成することが開始した後、ビューの前記第１のフィールドは、ビューの前記第２のフィールド内にないビューの前記プライマリフィールドの一部分を含み、ビューの前記第２のフィールドは、ビューの前記第１のフィールド内にないビューの前記プライマリフィールドの一部分を含む、装置。
［Ｃ２６］
複数（Ａ）前記プライマリビデオストリームの複数のフレームおよび（Ｂ）前記第１のビデオストリームの第１の複数のフレームの少なくとも一方の中で、前記第１のオブジェクトの動きを検出するように構成されるオブジェクトトラッカーを備え、
前記ビデオストリーム生成器は、前記検出に応答して、前記第１のオブジェクトの前記検出された動きの方向に従うようにビューの前記第１のフィールドの方向を変更するように構成される、Ｃ２５に記載の装置。
［Ｃ２７］
前記ビデオストリーム生成器は、前記第１のビデオストリームの第１の複数のフレームの各々の中の前記第１のオブジェクトのサイズを正規化するように構成される、Ｃ２５に記載の装置。
［Ｃ２８］
第１のウィンドウ内に前記第１のビデオストリーム、第２のウィンドウ内に前記第２のビデオストリームを、画面に表示するように構成される表示信号生成器と、
前記プライマリビデオストリームの複数のフレームの第１のフレームにおいて、前記第１のオブジェクトは前記第２のオブジェクトよりも前記フレームの第１の端部に近いと決定し、
前記第１のオブジェクトが前記第１の端部により近いと前記決定した後に、前記プライマリビデオストリームの前記複数のフレームの第２のフレームにおいて、前記第２のオブジェクトは前記第１のオブジェクトよりも前記フレームの前記第１の端部に近いと決定する
ように構成されるオブジェクトトラッカーと、
を備え、
前記表示信号生成器は、前記第１のウィンドウ内に前記第１のビデオストリームを前記表示した後に、前記第２のオブジェクトが前記第１の端部により近いという前記決定に応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するように構成される、Ｃ２５に記載の装置。
［Ｃ２９］
第１のウィンドウ内に前記第１のビデオストリーム、第２のウィンドウ内に前記第２のビデオストリームを画面に表示するように構成される表示信号生成器と、
（Ａ）前記プライマリビデオストリームのフレーム、（Ｂ）前記第１のビデオストリームのフレーム、および（Ｃ）前記第２のビデオストリームのフレームの少なくとも１つにおいて、前記第２のオブジェクトが前記第１のオブジェクトと重複すると決定するように構成されるオブジェクトトラッカーと、
を備え、
前記表示信号生成器は、前記第１のウィンドウ内に前記第１のビデオストリームを前記表示した後に、前記決定に応答して、前記第１のウィンドウ内に前記第２のビデオストリーム、および前記第２のウィンドウ内に前記第１のビデオストリームを表示するように構成される、
Ｃ２５に記載の装置。
［Ｃ３０］
前記ビデオストリーム生成器は、前記プライマリビデオストリームから、ビューの前記プライマリフィールドよりも狭いビューの二次的フィールドを有する表示ビデオストリームを生成するように構成され、
前記装置は、
第１のウィンドウ内に前記第１のビデオストリーム、第２のウィンドウ内に前記第２のビデオストリーム、および第３のウィンドウ内に前記表示ビデオストリームを、画面に表示するように構成される表示信号生成器と、
前記表示ビデオストリームのフレームにおいて、前記第１のオブジェクトおよび前記第２のオブジェクトのうちの少なくとも１つが前記フレームの端部に近いことを検出するように構成されるオブジェクトトラッカーと
を備え、
前記ビデオストリーム生成器は、前記検出に応答して、ビューの三次的フィールドを有するように前記表示ビデオストリームを変更するように構成され、ビューの前記三次的フィールドはビューの前記二次的フィールドよりも広い角度を有する、Ｃ２５に記載の装置。

【図1】