IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インテル・コーポレーションの特許一覧

<>
  • 特許-ジェスチャ埋め込みビデオ 図1A
  • 特許-ジェスチャ埋め込みビデオ 図1B
  • 特許-ジェスチャ埋め込みビデオ 図2
  • 特許-ジェスチャ埋め込みビデオ 図3
  • 特許-ジェスチャ埋め込みビデオ 図4
  • 特許-ジェスチャ埋め込みビデオ 図5
  • 特許-ジェスチャ埋め込みビデオ 図6
  • 特許-ジェスチャ埋め込みビデオ 図7
  • 特許-ジェスチャ埋め込みビデオ 図8
  • 特許-ジェスチャ埋め込みビデオ 図9
  • 特許-ジェスチャ埋め込みビデオ 図10
  • 特許-ジェスチャ埋め込みビデオ 図11
  • 特許-ジェスチャ埋め込みビデオ 図12
  • 特許-ジェスチャ埋め込みビデオ 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】ジェスチャ埋め込みビデオ
(51)【国際特許分類】
   H04N 21/83 20110101AFI20231129BHJP
   G06F 3/01 20060101ALI20231129BHJP
   G06F 3/0346 20130101ALI20231129BHJP
   G11B 20/10 20060101ALI20231129BHJP
   H04N 5/77 20060101ALI20231129BHJP
   H04N 5/92 20060101ALI20231129BHJP
   H04N 23/60 20230101ALI20231129BHJP
【FI】
H04N21/83
G06F3/01 570
G06F3/0346 425
G11B20/10 301Z
H04N5/77
H04N5/92 010
H04N23/60 300
【請求項の数】 22
【外国語出願】
(21)【出願番号】P 2022020305
(22)【出願日】2022-02-14
(62)【分割の表示】P 2018560756の分割
【原出願日】2016-06-28
(65)【公開番号】P2022084582
(43)【公開日】2022-06-07
【審査請求日】2022-03-16
(73)【特許権者】
【識別番号】591003943
【氏名又は名称】インテル・コーポレーション
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ウ、チア チュアン
(72)【発明者】
【氏名】チャン、シャーメイン ルイ チン
(72)【発明者】
【氏名】クー、ニュク キン
(72)【発明者】
【氏名】タン、ホイ ミン
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2004-213623(JP,A)
【文献】特開2016-072673(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
H04N 5/76 - 5/956
H04N 23/00 - 23/959
G11B 20/10 - 20/16
G06F 3/01
G06F 3/033 - 3/039
(57)【特許請求の範囲】
【請求項1】
システムであって、
カメラを有する第1デバイスと、
1または複数のセンサを有する第2デバイスであって、前記第2デバイスはウェアラブルデバイスであり、
前記1または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出し、
前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較し、
前記ジェスチャと、前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じて、ビデオブックマークを、前記第1デバイスと前記第2デバイスとの間の無線接続を介して前記第1デバイスに通知する
ための前記第2デバイスと
を備え、
前記第1デバイスは
前記カメラを用いてビデオをキャプチャし、
前記第2デバイスが前記第1デバイスに前記ビデオブックマークを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに、前記ビデオのマーク付けされた部分を生成するためのマーク付けを行い、
前記1または複数のセンサは、加速度計またはジャイロスコープの少なくとも一方を有する
システム。
【請求項2】
前記第2デバイスは、前記第1デバイスを所持するユーザに所持され、前記ユーザの前記ジェスチャを検出する
請求項1に記載のシステム。
【請求項3】
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項1または2に記載のシステム。
【請求項4】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ビデオの1または複数のフレームにマーク付けを行うこと含む
請求項1から3のいずれか一項に記載のシステム。
【請求項5】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ジェスチャの表現を前記ビデオの前記1または複数のフレーム内に埋め込むことを含む
請求項に記載のシステム。
【請求項6】
前記ジェスチャに基づいて前記ビデオの前記マーク付けされた部分を見つけ出し、前記ビデオの前記マーク付けされた部分を再生するための再生機を更に備える
請求項に記載のシステム。
【請求項7】
前記ジェスチャは第1ジェスチャであり、前記予め定められた動作ジェスチャは第1の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第1デバイスに通知することは、前記ビデオブックマークの開始を前記第1デバイスに通知することを含み、前記第2デバイスが前記第1デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つにマーク付けを始めることを含み、
前記第2デバイスは更に、
前記1または複数のセンサに関連付けられた前記センサデータに基づいて第2ジェスチャを検出し、
前記第2ジェスチャと、前記第1の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第2の予め定められた動作ジェスチャとが一致するか比較し、
前記第1デバイスと前記第2デバイスとの間の無線接続を介して、前記ビデオブックマークの終わりを前記第1デバイスに通知し、
前記第1デバイスは更に、前記第2デバイスが前記第1デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つの前記マーク付けを停止する
請求項1から6のいずれか一項に記載のシステム。
【請求項8】
方法であって、
第1デバイスのカメラを用いて前記第1デバイスでビデオをキャプチャする段階と、
ウェアラブルデバイスであり、1または複数のセンサを有する第2デバイスで、前記1または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出する段階と、
前記第2デバイスで、前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較する段階と、
前記第2デバイスによって、前記第1デバイスと前記第2デバイスとの間の無線接続を介して、前記第1デバイスに、前記ジェスチャと前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じてビデオブックマークを通知する段階と、
前記第1デバイスで、前記第2デバイスが前記第1デバイスに前記ビデオブックマークを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオのマーク付けされた部分を生成するためのマーク付けを行う段階と
を備え
前記1または複数のセンサは、加速度計またはジャイロスコープの少なくとも一方を有する、方法。
【請求項9】
前記ジェスチャを検出する段階は、前記第1デバイスを所持するユーザに所持された前記第2デバイスで前記ユーザの前記ジェスチャを検出する段階を含む
請求項8に記載の方法。
【請求項10】
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項8または9に記載の方法。
【請求項11】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行う段階は、前記ビデオの1または複数のフレームにマーク付けを行う段階を含む
請求項8から10のいずれか一項に記載の方法。
【請求項12】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行う段階は、前記ジェスチャの表現を前記ビデオの前記1または複数のフレーム内に埋め込む段階を含む
請求項11に記載の方法。
【請求項13】
再生機によって、前記ジェスチャに基づいて前記ビデオの前記マーク付けされた部分を見つけ出す段階と、
前記再生機によって、前記ビデオの前記マーク付けされた部分を再生する段階と
をさらに備える、請求項12に記載の方法。
【請求項14】
前記ジェスチャは第1ジェスチャであり、前記予め定められた動作ジェスチャは第1の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第1デバイスに通知する前記段階は、前記ビデオブックマークの開始を前記第1デバイスに通知する段階を含み、前記第2デバイスが前記第1デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行う前記段階は、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つにマーク付けを始める段階を含み、
前記方法は更に、
前記第2デバイスで、前記1または複数のセンサに関連付けられた前記センサデータに基づいて第2ジェスチャを検出する段階と、
前記第2デバイスで、前記第2ジェスチャと、前記第1の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第2の予め定められた動作ジェスチャとが一致するか比較する段階と、
前記第2デバイスによって、前記第1デバイスと前記第2デバイスとの間の無線接続を介して、前記ビデオブックマークの終わりを前記第1デバイスに通知する段階と、
前記第1デバイスで、前記第2デバイスが前記第1デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つの前記マーク付けを停止する段階と
を備える、請求項8から13のいずれか一項に記載の方法。
【請求項15】
1または複数のプログラムであって、
第1デバイスおよび第2デバイスにより実行されたとき、前記第1デバイスおよび前記第2デバイスに
前記第1デバイスのカメラを用いて前記第1デバイスでビデオをキャプチャさせ、
前記第2デバイスはウェアラブルデバイスであり、1または複数のセンサを有し、前記第2デバイスで、前記1または複数のセンサに関連付けられたセンサデータに基づいてジェスチャを検出させ、
前記第2デバイスで、前記ジェスチャとビデオブックマーク付けに関連付けられた予め定められた動作ジェスチャとが一致するか比較させ、
前記第2デバイスによって、前記第1デバイスと前記第2デバイスとの間の無線接続を介して、前記第1デバイスに、前記ジェスチャと前記ビデオブックマーク付けに関連付けられた前記予め定められた動作ジェスチャとが一致するとの結果に応じてビデオブックマークを通知させ、
前記第1デバイスで、前記第2デバイスが前記第1デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオのマーク付けされた部分を生成するためのマーク付けを行わせ
前記1または複数のセンサは、加速度計またはジャイロスコープの少なくとも一方を有す
1または複数のプログラム。
【請求項16】
前記第1デバイスを所持するユーザに所持された前記第2デバイスに、前記ユーザの前記ジェスチャを検出させる
請求項15に記載の1または複数のプログラム。
【請求項17】
前記予め定められた動作ジェスチャは、前記ビデオブックマークの始まりに関連付けられる
請求項15または16に記載の1または複数のプログラム。
【請求項18】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ビデオの1または複数のフレームにマーク付けを行うことを含む
請求項15から17のいずれか一項に記載の1または複数のプログラム。
【請求項19】
前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ジェスチャの表現を前記ビデオの前記1または複数のフレーム内に埋め込むことを含む
請求項18に記載の1または複数のプログラム。
【請求項20】
前記プログラムは、実行されたとき更に、第3デバイスに
前記ジェスチャに基づいて前記ビデオの前記マーク付けされた部分を見つけ出させ、
前記ビデオの前記マーク付けされた部分を再生させる
請求項19に記載の1または複数のプログラム。
【請求項21】
前記ジェスチャは第1ジェスチャであり、前記予め定められた動作ジェスチャは第1の予め定められた動作ジェスチャであり、前記ビデオブックマークを前記第1デバイスに通知することは、前記ビデオブックマークの開始を前記第1デバイスに通知することを含み、前記第2デバイスが前記第1デバイスに前記ビデオブックマーク付けを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するためのマーク付けを行うことは、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つにマーク付けを始めることを含み、
前記プログラムは、実行されたとき更に、前記第1デバイスおよび前記第2デバイスに
前記第2デバイスで、前記1または複数のセンサに関連付けられた前記センサデータに基づいて第2ジェスチャを検出させ、
前記第2デバイスで、前記第2ジェスチャと、前記第1の予め定められた動作ジェスチャまたは前記ビデオブックマーク付けに関連付けられた第2の予め定められた動作ジェスチャとが一致するか比較させ、
前記第2デバイスによって、前記第1デバイスに、前記ビデオブックマークの終わりを前記第1デバイスと前記第2デバイスとの間の無線接続を介して通知させ、
前記第1デバイスで、前記第2デバイスが前記第1デバイスに前記ビデオブックマークの前記終わりを通知することに応じて、前記ビデオ内のフレーム、時間、セグメントまたはシーンの少なくとも1つに前記ビデオの前記マーク付けされた部分を生成するための前記マーク付けを停止させる
請求項15から20のいずれか一項に記載の1または複数のプログラム。
【請求項22】
請求項15から21のいずれか一項に記載の1または複数のプログラムを格納した、非一時的コンピュータ可読記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書で記載されている実施形態は、概してデジタルビデオエンコードに関し、より具体的にはジェスチャ埋め込みビデオに関する。
【背景技術】
【0002】
ビデオカメラは概して、サンプル期間中の集光のために集光器とエンコーダとを含む。例えば、従来のフィルムベースのカメラは、フィルムのあるフレーム(例えば、エンコード)がカメラの光学系により方向付けられた光に曝される時間の長さに基づきサンプル期間を定め得る。デジタルビデオカメラは、概して検出器の特定の部分で受信する光の量を測定する集光器を用いる。あるサンプル期間にわたってカウント値が設定され、その時点でそれらは画像を設定するのに用いられる。画像の集合によってビデオは表現される。しかしながら、概して、未加工の画像はビデオとしてパッケージ化される前に更なる処理(例えば、圧縮、ホワイトバランス処理等)を受ける。この更なる処理の結果物が、エンコードされたビデオである。
【0003】
ジェスチャは、典型的にはユーザにより実施され、コンピューティングシステムにより認識可能である身体の動きである。ジェスチャは概して、デバイスへの追加の入力メカニズムをユーザに提供するのに用いられる。例示的なジェスチャとして挙げられるのは、インタフェースを縮小するための画面上をつまむこと、またはユーザインタフェースからオブジェクトを取り除くためにスワイプすることである。
【図面の簡単な説明】
【0004】
図面は縮尺通りに描画されているとは限らず、共通する数字は、種々の図面において同様のコンポーネントを指し得る。種々の添え字を有する共通する数字は、同様のコンポーネントの種々の例を表し得る。図面は、本文書で説明される様々な実施形態を限定ではなく例として一般的に図示する。
【0005】
図1A図1Aは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステムを含む環境を図示している。
図1B図1Bは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステムを含む環境を図示している。
【0006】
図2図2は、ある実施形態に係る、ジェスチャ埋め込みビデオを実装するデバイスの例のブロック図を図示している。
【0007】
図3図3は、ある実施形態に係る、ビデオに対してジェスチャデータをエンコードするデータ構造の例を図示している。
【0008】
図4図4は、ある実施形態に係る、ジェスチャをビデオ内にエンコードするデバイス間のインタラクションの例を図示している。
【0009】
図5図5は、ある実施形態に係る、エンコードされたビデオ内でジェスチャにより点をマーク付けする例を図示している。
【0010】
図6図6は、ある実施形態に係る、ユーザインタフェースとしてジェスチャ埋め込みビデオに対するジェスチャを用いる例を図示している。
【0011】
図7図7は、ある実施形態に係る、エンコードされたビデオ内のジェスチャデータのメタデータフレーム単位エンコードの例を図示している。
【0012】
図8図8は、ある実施形態に係る、ジェスチャ埋め込みビデオに対するジェスチャを用いることの例示的なライフサイクルを図示している。
【0013】
図9図9は、ある実施形態に係る、ビデオ内にジェスチャを埋め込む方法の例を図示している。
【0014】
図10図10は、ある実施形態に係る、ジェスチャ埋め込みビデオの作成中に埋め込むのに利用可能なジェスチャのレパートリーにジェスチャを追加する方法の例を図示している。
【0015】
図11図11は、ある実施形態に係る、ビデオにジェスチャを追加する方法の例を図示している。
【0016】
図12図12は、ある実施形態に係る、ユーザインタフェース要素としてビデオに埋め込まれるジェスチャを用いる方法の例を図示している。
【0017】
図13図13は、1または複数の実施形態が実装されてよいマシンの例を図示しているブロック図である。
【発明を実施するための形態】
【0018】
新たに出てきているカメラのフォームファクタは、身体着用される(例えば、視点)カメラである。これらデバイスは小さく、スキー滑降、逮捕等のイベントを記録すべく着用されるよう設計されることが多い。身体着用されたカメラによってユーザ達は、自分達の活動の種々の視野をキャプチャし、個々人のカメラ体験を全く新しいレベルに引き上げてきた。例えば、身体着用されたカメラは、エクストリームスポーツ中、バケーション旅行中、等のユーザの視野を、それら活動を楽しむ、または実行するユーザの能力に影響を与えることなく撮影することが可能である。しかしながら、これら個々人のビデオをキャプチャする能力がここまで便利になってきても、一部の課題が残っている。例えば、このやり方で撮影されたビデオ素材の長さは長くなることが多く、素材の大部分が単に興味深くないものとなる。この課題が生じするのは、多くのシチュエーションにおいてユーザが、イベントまたは活動のどの部分も逃さないようカメラの電源を入れ記録を始めることが多いからである。概して、ユーザが活動中にカメラを停止する、または停止ボタンを押すことは稀である。なぜならば、例えば、登山中に崖の面から手を放して、カメラにある記録開始または記録停止ボタンを押すことは危険であるか、または不便であり得るからである。したがって、ユーザは活動の終わりまで、カメラのバッテリーが切れるまで、またはカメラの記憶領域がいっぱいになるまでカメラを動作させたままとしておくことが多い。
【0019】
興味深くない素材に対する興味深い素材の割合は概して低いので、このことによってもビデオを編集することが困難となり得る。カメラにより撮影された多くのビデオの長さが理由で、再度ビデオを見てビデオの興味深いシーン(例えば、セグメント、断片等)を特定することは長く退屈な処理となり得る。このことは、例えば巡査がビデオを12時間記録したとすれば、そのうち何らかの興味深い一編を特定すべく12時間に及ぶビデオを見なければならなくなるので課題を含み得る。
【0020】
一部のデバイスは、ビデオ内のあるスポットにマーク付けを行う、ボタン等のブックマーク付け機能を含むが、このことは、正にカメラを停止し開始することと同様の課題を有している。すなわち、活動中にそれを用いるのは不便であり得、または全くもって危険であり得るからである。
【0021】
以下に示すのは、ビデオにマーク付けを行うための現在の技術が課題を有している、3つの使用に関するシナリオである。エクストリーム(または何らかの)スポーツの参加者(例えば、スノーボード、スカイダイブ、サーフィン、スケートボード等)。エクストリームスポーツの参加者が動作中に、カメラにある何らかのボタンを、ましてやブックマークボタンを押すことは困難である。さらに、これら活動に関してユーザは通常、始まりから終わりまで活動の継続時間全体を単に撮影するであろう。このように素材の長さが長くなる可能性があるが故に、彼らが行なった具体的なトリックまたはスタント行為を検索するときに再度見ることは困難となり得る。
【0022】
警官。警官が自身達の勤務時間中にカメラを着用して、例えば自分達の安全およびアカウンタビリティ、および一般の人々のアカウンタビリティを高めることがより一般的となっている。例えば、巡査が容疑者を追跡するとき、そのイベント全体が撮影されてよく、後に証拠として役に立てる目的で参照されてよい。ここでも、これらフィルムの長さは長くなる可能性が高く(例えば、勤務時間の長さ)、興味の対象となる時間は短い可能性が高い。その素材を再度検証するのが長く退屈なものになるだけでなく、各勤務時間に関して8時間超かかることになるそのようなタスクは許容出来る以上に金銭的または時間的コストが高くなり得、素材の多くが無視されることになる。
【0023】
医療従事者(例えば、看護師、医師等)。医師は、手術中に身体着用または同様のカメラを用いて、例えば、処置の撮影を行ってよい。このことは、学習教材を作成する、責任に関して処置の状況の記録を残しておく、等のために行われてよい。手術は数時間続き得、様々な処置を伴い得る。ビデオとなった手術のセグメントを後の参照のために整理またはラベル付けするには、ある所与の瞬間において何が起こっているかを専門家が見分ける必要があり、作成者にかかるコストが増加し得る。
【0024】
上記にて言及した課題、および本開示に基づけば明らかである他の課題に対処すべく、本明細書において記載されているシステムおよび技術は、ビデオが撮影されている間にビデオのセグメントにマーク付けを行うことを簡易化する。このことは、ブックマークボタン、または同様のインタフェースを避けることにより、そして代わりに、予め定められた動作ジェスチャを用いて、撮影中にビデオ内の特徴(例えば、フレーム、時間、セグメント、シーン等)にマーク付けを行うことにより達成される。センサを備えた手首着用デバイス等のスマートウェアラブルデバイスを用いて動きパターンを設定することを含む様々なやり方でジェスチャがキャプチャされてよい。ユーザ達は、自分達のカメラを用いて撮影を開始するときに、ブックマーク付け機能を開始し終えるためのシステムにより認識可能である動作ジェスチャを予め定めてよい。
【0025】
ジェスチャを用いてビデオの特徴にマーク付けを行うことに加え、ジェスチャ、またはジェスチャの表現がビデオと共に格納される。このことによりユーザは、ビデオ編集中または再生中に同じ動作ジェスチャを繰り返して、ブックマークまで移動することが可能となる。したがって、種々のビデオセグメントに関して撮影中に用いられる種々のジェスチャが、後にビデオ編集中または再生中にそれらセグメントをそれぞれ見つけるのにも用いられる。
【0026】
ビデオ内にジェスチャ表現を格納すべく、エンコードされたビデオはジェスチャに関する追加のメタデータを含む。このメタデータは、ビデオ内で特に有用である。なぜなら、ビデオのコンテンツの意味を理解することは概して、現在の人工知能にとって困難であるが、ビデオ内の検索を行う能力は重要であるからである。ビデオ自体に動作ジェスチャメタデータを追加することにより、ビデオ内を検索し用いる他の技術が追加される。
【0027】
図1Aおよび1Bは、ある実施形態に係る、ジェスチャ埋め込みビデオのためのシステム105を含む環境100を図示している。システム105は、受信機110と、センサ115と、エンコーダ120と、記憶デバイス125とを含んでよい。システム105は、ユーザインタフェース135とトレーナ130とをオプションで含んでよい。システム105のそれらコンポーネントは、図13に関連して以下で記載されるもの等(例えば、電気回路構成)のコンピュータハードウェアで実装されてよい。図1Aは、ユーザがあるイベント(例えば、車の加速)を第1ジェスチャ(例えば、上下の動き)でシグナリングするのを図示しており、図1Bは、ユーザがある第2イベント(例えば、車の「後輪走行」)を第2ジェスチャ(例えば、腕に対して直交する面内での円状の動き)でシグナリングするのを図示している。
【0028】
受信機110は、ビデオストリームを得る(例えば、受信または取得する)よう構成される。本明細書で用いられているように、ビデオストリームは一連の画像である。受信機110は、例えばカメラ112との有線(例えば、ユニバーサルシリアルバス)の、または無線(例えば、IEEE802.15.*)の物理リンクでオペレーションを行ってよい。ある例において、デバイス105は、カメラ112の一部分であり、またはその筐体内に収納され、またはそうでない場合にはそれと一体化される。
【0029】
センサ115は、サンプルセットを得るよう構成される。図示されているように、センサ115は、手首着用デバイス117とのインタフェースである。本例において、センサ115は、手首着用デバイス117にあるセンサとインタフェース接続してサンプルセットを得るよう構成される。ある例において、センサ115は、手首着用デバイス117と一体化されており、センサを提供し、またはローカルのセンサと直接的にインタフェース接続する。センサ115は、有線または無線接続を介してシステム105の他のコンポーネントと通信を行っている。
【0030】
サンプルセットの構成要素が、あるジェスチャを構成する。つまり、特定の一連の加速度計の読み取り値としてあるジェスチャが認識されたとすれば、サンプルセットはその一連の読み取り値を含む。さらに、サンプルセットは、ビデオストリームに対する時間に対応する。したがって、サンプルセットによってシステム105は、どのジェスチャが実施されたのかの特定と、そのジェスチャが実施された時間の特定との両方が可能となる。その時間は単に、(例えば、そのサンプルセットを、サンプルセットを受信したときの現在のビデオフレームに関連付ける)到着時間であってよく、または、ビデオストリームとの関連付けのためにタイムスタンプが記録されてよい。
【0031】
ある例において、センサ115は加速度計またはジャイロメータのうち少なくとも一方である。ある例において、センサ115は第1デバイスの第1筐体内にあり、受信機110およびエンコーダ120は第2デバイスの第2筐体内にある。したがって、センサ115は他のコンポーネントより遠隔にあり(それらとは異なるデバイス内にあり)、他のコンポーネントがカメラ112内にあっても手首着用デバイス117内にある、等である。これら例において、第1デバイスと第2デバイスとは、両デバイスがオペレーション中であるとき通信接続されている。
【0032】
エンコーダ120は、ジェスチャの表現および時間を、ビデオストリームのエンコードされたビデオ内に埋め込むよう構成される。したがって、用いられるジェスチャは実際に、ビデオ自体にエンコードされる。しかしながら、ジェスチャの表現は、サンプルセットとは異なってよい。ある例において、ジェスチャの表現は、サンプルセットの正規化されたバージョンである。本例において、サンプルセットは正規化のために、縮尺変更がされていてよい、ノイズ除去がされてよい、等である。ある例において、ジェスチャの表現は、サンプルセットの構成要素の量子化である。本例において、サンプルセットは、圧縮において典型的に行なわれるように、予め定められた一式の値にまとめられてよい。ここでも、このことは記憶コストを減らし得、またジェスチャ認識が、(例えば、記録デバイス105と再生デバイスとの間、等のように)様々なハードウェア間でより一貫性を持って機能することを可能とし得る。
【0033】
ある例において、ジェスチャの表現はラベルである。本例において、サンプルセットは、限られた数の受け入れ可能なジェスチャのうち1つに対応してよい。この場合、これらジェスチャは、「円状」、「上下」、「左右」等とラベル付けされてよい。ある例において、ジェスチャの表現はインデックスであってよい。本例において、インデックスは、ジェスチャ特性が見つかり得るテーブルを指す。インデックスを用いることによって、対応するセンサセットデータを全体的に一度ビデオ内に格納する一方で、個々のフレームに関するメタデータにジェスチャを効率的に埋め込むことが可能となり得る。ラベルに関するこの変形例は、ルックアップが種々のデバイス間で予め定められているあるタイプのインデックスである。
【0034】
ある例において、ジェスチャの表現はモデルであってよい。ここで、モデルとは、ジェスチャを認識するのに用いられるデバイス構成を指す。例えば、モデルは、入力セットが定められている人工ニューラルネットワークであってよい。デコードデバイスがビデオからそのモデルを取得し、単にその未加工のセンサデータをモデルへと供給し、その出力によってジェスチャのインディケーションが作成され得る。ある例において、モデルは、そのモデルに関するセンサパラメータを提供する入力定義を含む。ある例において、モデルは、入力されたパラメータに関する値がジェスチャを表現しているかをシグナリングする真または偽の出力を提供するよう構成される。
【0035】
ある例において、ジェスチャの表現および時間を埋め込むことは、エンコードされたビデオにメタデータデータ構造を追加することを含む。ここで、メタデータデータ構造は、ビデオの他のデータ構造とは別個のものである。したがって、例えばビデオコーデックの他のデータ構造には、この目的のために新たにタスクを単純に割り当てられない。ある例において、メタデータデータ構造は、ジェスチャの表現が第1列に示され、対応する時間が同じ行の第2列に示されているテーブルである。つまり、メタデータ構造は、ジェスチャを時間に関連付ける。これは従来のビデオに対してあり得るブックマークと同様である。ある例において、テーブルは各行に開始時間と終了時間を含む。これは本明細書において依然としてブックマークと呼ばれているが、ジェスチャのエントリは、単に時点ではなく時間のセグメントを定める。ある例において、ある行は、1つのジェスチャのエントリと2つより多くの時間エントリまたは時間セグメントとを有する。このことにより、僅かではないサイズとなり得るジェスチャの表現を繰り返さないことにより、同じビデオ内で用いられる複数の別個のジェスチャの圧縮が容易になり得る。本例において、ジェスチャのエントリは一意的なもの(例えば、データ構造内で繰り返されないもの)であってよい。
【0036】
ある例において、ジェスチャの表現は、ビデオフレーム内に直接的に埋め込まれてよい。本例において、1または複数のフレームに、後の特定のためにジェスチャがタグ付けされてよい。例えば、時点のブックマークが用いられる場合、ジェスチャが得られる毎に、対応するビデオフレームにジェスチャの表現がタグ付けされる。時間セグメントのブックマークが用いられる場合、ジェスチャの第1インスタンスはあるシーケンス内の第1ビデオフレームを提供するであろうし、ジェスチャの第2インスタンスはそのシーケンス内の最後のビデオフレームを提供するであろう。そしてメタデータは、そのシーケンス内で第1フレームと最後のフレームとの間に含まれる全フレームに適用されてよい。ジェスチャの表現をフレーム自体に行き渡らせることにより、ジェスチャのタグ付が残っている可能性が、ヘッダ等のビデオ内の1つの箇所にメタデータを格納することと比較して高くなり得る。
【0037】
記憶デバイス125は、エンコードされたビデオを、それが他の実存物に取得される、または送信される前に格納してよい。また記憶デバイス125は、サンプルセットがそのような「ブックマークを付けられた」ジェスチャにいつ対応するのかを認識するのに用いられる予め定められたジェスチャ情報を格納してよい。1または複数のそのようなジェスチャが、製造時にデバイス105に組み込まれてよいが、より高いフレキシビリティ、したがってユーザにとってのより大きな楽しみは、ユーザが追加のジェスチャを追加出来るとすることにより達成され得る。この目的で、システム105はユーザインタフェース136とトレーナ130とを含んでよい。ユーザインタフェース135は、新たなジェスチャに関するトレーニングセットのインディケーションを受信するよう構成される。図示されているように、ユーザインタフェース135はボタンである。ユーザはこのボタンを押し、受信しているサンプルセットがビデオストリームにマーク付けするのではなく新たなジェスチャを特定することをシステム105に対してシグナリングしてよい。ダイアル、タッチスクリーン、音声起動等の他のユーザインタフェースが可能である。
【0038】
トレーナ130は、システム105が一旦、トレーニングデータについてシグナリングされると、トレーニングセットに基づいて第2ジェスチャの表現を生成するよう構成される。ここで、トレーニングセットは、ユーザインタフェース135の起動中に得られるサンプルセットである。したがって、センサ115は、ユーザインタフェース135からのインディケーションの受信に応じてトレーニングセットを得る。ある例において、ジェスチャ表現のライブラリが、エンコードされたビデオ内にエンコードされる。本例において、そのライブラリは、ジェスチャと新たなジェスチャとを含む。ある例において、ライブラリは、エンコードされたビデオ内に対応する時間を有さないジェスチャを含む。したがって、そのライブラリは、既知のジェスチャが用いられなかったとしても短縮されないものであってよい。ある例において、ライブラリは、ビデオに含まれる前に短縮される。本例において、ライブラリは、ビデオにブックマークを付けるのに用いられないジェスチャをなくすよう余分なものが取り除かれる。ライブラリを含めることにより、時間的に前にこれらジェスチャについて様々な記録および再生デバイスが知ることなく、ユーザにとって完全にカスタマイズされたジェスチャが可能となる。したがって、ユーザは、自分達が楽と感じるものを用い得、製造者は、自分達のデバイス内に多種多様なジェスチャを保持しておくことによりリソースを無駄にする必要がない。
【0039】
図示されていないが、システム105は、デコーダ、比較器、および再生機も含んでよい。しかしながら、これらコンポーネントは、第2のシステムまたはデバイス(例えば、テレビ、セットトップボックス等)に含まれてもよい。これら特徴により、埋め込まれたジェスチャを用いてビデオ内を移動する(例えば、検索する)ことが可能となる。
【0040】
デコーダは、エンコードされたビデオからジェスチャの表現および時間を抽出するよう構成される。ある例において、時間を抽出することは、単に、関連付けられた時間を有するフレーム内のジェスチャを特定することを含んでよい。ある例において、ジェスチャは、エンコードされたビデオ内の複数の種々のジェスチャのうち1つである。したがって、2つの異なるジェスチャがビデオにマーク付けするのに用いられる場合、両方のジェスチャがこの移動に用いられてよい。
【0041】
比較器は、ジェスチャの表現と、ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較するよう構成される。第2サンプルセットは単に、編集中または他の再生中等のビデオのキャプチャの後の時間にキャプチャされたサンプルセットである。ある例において、比較器は、その比較実施として、ジェスチャの表現(例えば、それがモデルである場合)を実装する(例えば、モデルを実装し、第2サンプルセットを適用する)。
【0042】
再生機は、比較器からの一致するとの結果に応じてその時間のエンコードされたビデオからビデオストリームをレンダリングするよう構成される。したがって、ビデオのヘッダ(またはフッタ)内のメタデータから時間が取得された場合、そのビデオは取得された時間インデックスにおいて再生されることになる。しかしながら、ジェスチャの表現がビデオフレームに埋め込まれている場合、再生機は、比較器が一致するとの結果を出すまでフレーム単位で先に進め、その一致するとの結果が出た時点で再生を始めてよい。
【0043】
ある例において、ジェスチャは、ビデオ内にエンコードされたジェスチャの複数の同じ表現のうち1つである。したがって、同じジェスチャが、セグメントの始まりと終わりとにマーク付けするのに用いられてよく、または、複数のセグメントまたは時点のブックマークを示してよい。この動作を容易にすべく、システム105は、第2サンプルセットの等価物が得られた回数(例えば、再生中に同じジェスチャが何回提供されたか)をトラッキングするカウンタを含んでよい。再生機はこのカウント値を用いて、ビデオ内の適切な時間を選択してよい。例えば、ビデオ内の3つの時点にマーク付けするのにジェスチャが用いられた場合、再生中にユーザがジェスチャを初めて実施することにより再生機は、ビデオ内のジェスチャの最初の使用に対応する時間インデックスを選択し、カウンタの値が増える。ユーザが再びそのジェスチャを実施した場合、再生機は、カウンタに対応するビデオ内のジェスチャのインスタンス(例えば、この場合、第2インスタンス)を見つけ出す。
【0044】
システム105はフレキシブルかつ直観的かつ効率的なメカニズムを提供し、このメカニズムによりユーザは、自分達を危険にさらすことなく、または活動の楽しみを損なうことなくビデオにタグ付けする、またはブックマークを付けることが可能となる。追加の詳細および例が以下に提供される。
【0045】
図2は、ある実施形態に係る、ジェスチャ埋め込みビデオを実装するデバイス202の例のブロック図を図示している。デバイス202は、図1Aおよび図1Bに関連して上述したセンサ115を実装するのに用いられてよい。図示されているように、デバイス202は、他のコンピュータハードウェアと一体化されることになるセンサ処理パッケージである。デバイス202は、一般的なコンピューティングタスクに対処するシステムオンチップ(SOC)206と、内部クロック204と、電源210と、無線トランシーバ214とを含む。デバイス202は、加速度計、ジャイロスコープ(例えば、ジャイロメータ)、気圧計、または温度計のうち1または複数を含んでよいセンサアレイ212も含む。
【0046】
デバイス202はニューラル分類アクセラレータ208も含んでよい。ニューラル分類アクセラレータ208は、人口ニューラルネットワーク分類技術と関連付けられることが多い、一般的であるが多数のタスクに対処する一式の並列処理要素を実装する。ある例において、ニューラル分類アクセラレータ208はパターン一致比較ハードウェアエンジンを含む。パターン一致比較エンジンは、センサデータを処理または分類するようセンサ分類器等のパターンを実装する。ある例において、パターン一致比較エンジンは、1つのパターンについて一致するか比較をそれぞれが行う、ハードウェア要素からなる並列化された集合を介して実装される。ある例において、ハードウェア要素の集合は、連想配列を実装し、センサデータサンプルは、一致するとの結果が存在する場合にその配列に鍵を提供する。
【0047】
図3は、ある実施形態に係る、ビデオに対してジェスチャデータをエンコードするデータ構造304の例を図示している。データ構造304は、例えば、上記で記載したライブラリ、テーブル、またはヘッダベースのデータ構造ではなくフレームベースのデータ構造である。したがって、データ構造304はエンコードされたビデオ内のフレームを表現している。データ構造304は、ビデオメタデータ306と、音声情報314と、タイムスタンプ316と、ジェスチャメタデータ318とを含む。ビデオメタデータ306は、ヘッダ308、トラック310、またはエクステンド(例えば、エクステント)312等のフレームについての典型的な情報を含む。ジェスチャメタデータ318は別として、データ構造304のそれらコンポーネントは、様々なビデオコーデックに従って示されるものとは異なってよい。ジェスチャメタデータ318は、センササンプルセット、正規化されたサンプルセット、量子化されたサンプルセット、インデックス、ラベル、またはモデルのうち1または複数を含んでよい。しかしながら典型的には、フレームベースのジェスチャメタデータに関して、インデックスまたはラベル等のジェスチャのコンパクトな表現が用いられることになる。ある例において、ジェスチャの表現は圧縮されてよい。ある例において、ジェスチャメタデータは、ジェスチャの表現を特徴付ける1または複数の追加のフィールドを含む。これらフィールドは、ジェスチャタイプ、センサセットをキャプチャするのに用いられる1または複数のセンサのセンサID、ブックマークタイプ(例えば、ブックマークの始まり、ブックマークの終わり、ブックマーク内のフレームのインデックス)、または(例えば、ユーザの個人的なセンサ調整を特定する、または複数のライブラリからユーザジェスチャライブラリを特定するのに用いられる)ユーザのIDのうち一部または全てを含んでよい。
【0048】
したがって、図3は、ジェスチャ埋め込みビデオをサポートする例示的なビデオファイルフォーマットを図示している。動作ジェスチャメタデータ318は、音声314、タイムスタンプ316、およびムービー306メタデータブロックと並列である追加のブロックである。ある例において、動作ジェスチャメタデータブロック318は、ユーザにより定められ、後にブックマークとして機能する、ビデオデータの部分を位置特定する参照タグとして用いられる動きデータを格納する。
【0049】
図4は、ある実施形態に係る、ジェスチャをビデオ内にエンコードするデバイス間のインタラクション400の例を図示している。インタラクション400は、ユーザと、手首着用デバイス等のユーザのウェアラブルデバイスと、ビデオをキャプチャしているカメラとの間で行われる。あるシナリオにおいては、登山途中の登りを記録しているユーザが含まれてよい。登りの直前からビデオを記録すべくカメラの動作が開始される(ブロック410)。ユーザが、険しい切り立った面に近づき、クレバスから登ることとする。掴んでいる命綱を放したくないので、ユーザは、予め定められたジェスチャの通りにウェアラブルデバイスと一緒に自分の手を命綱に沿って上下に3回激しく動かす(ブロック405)。ウェアラブルデバイスはそのジェスチャを検知(例えば、検出、分類等)し(ブロック415)、そのジェスチャと予め定められた動作ジェスチャとを一致するか比較する。一致するかの比較は、ビデオにブックマークを付ける目的の動作ジェスチャとして指定されていないジェスチャに応じて、ブックマークを付けることに関連しないタスクをウェアラブルデバイスが実施し得るので重要であり得る。
【0050】
そのジェスチャが予め定められた動作ジェスチャであるとの判断の後、ウェアラブルデバイスはカメラとコンタクトをとりブックマークを示す(ブロック420)。カメラはブックマークを挿入し(ブロック425)、オペレーションが成功したとウェアラブルデバイスに対して応答し、ウェアラブルデバイスはビープ、バイブレーション、視覚的合図等の通知によりユーザに対し応答する(ブロック430)。
【0051】
図5は、ある実施形態に係る、エンコードされたビデオ500内でジェスチャにより点をマーク付けする例を図示している。ビデオ500が、点505に開始(例えば、再生)される。ユーザは再生中に、予め定められた動作ジェスチャを行う。再生機がジェスチャを認識し、そのビデオを点510まで早送り(または巻き戻し)する。ユーザは同じジェスチャを再び行い、再生機は今度は点515まで早送りする。したがって、図5は、以前にジェスチャによりマーク付けされたビデオ500内の点を見つけるべく同じジェスチャの再使用を図示している。このことにより、例えば、ユーザは、例えば彼の子供が何か興味深いことをしているときにシグナリングする1つのジェスチャを定め、例えば彼の犬が日中に外出して公園にいるときに何か興味深いことをしているときにシグナリングする他のジェスチャを定めることが可能となる。または、医療処置として典型的である種々のジェスチャが定められ、いくつかの処置が用いられる手術中に認識されてよい。いずれの場合であっても、すべてが依然としてタグ付けされた状態で、選択されたジェスチャによりブックマーク付けが分類されてよい。
【0052】
図6は、ある実施形態に係る、ユーザインタフェース610としてジェスチャ埋め込みビデオに対するジェスチャ605を用いる例を図示している。図5とかなり同じように図6は、ディスプレイ610上でビデオがレンダリングされている間に、点615から点620へスキップするためのジェスチャの使用を図示している。本例において、ジェスチャメタデータは最初に、サンプルセット、ジェスチャ、またはジェスチャの表現を生成するのに用いられた特定のウェアラブルデバイス605を特定してよい。本例において、ウェアラブルデバイス605がビデオとペアリングされていると見なしてよい。ある例において、ビデオがレンダリングされている間にジェスチャのルックアップを実施するには、元々ビデオにブックマークを残すのに用いられたのと同じウェアラブルデバイス605が必要とされる。
【0053】
図7は、ある実施形態に係る、エンコードされたビデオ700内のジェスチャデータのメタデータ710フレーム単位エンコードの例を図示している。図示されているフレームの濃い影が付けられた構成要素はビデオメタデータである。薄い影が付けられた構成要素はジェスチャメタデータである。図示されているように、フレームベースのジェスチャ埋め込みにおいては、ユーザが呼び出しジェスチャを行ったとき(例えば、ブックマークを定めるのに用いられるジェスチャを繰り返したとき)、再生機は、一致する部分(ここでは点705のジェスチャメタデータ710)を見つけるまでフレームのジェスチャメタデータ内を探す。
【0054】
したがって、再生中に、スマートウェアラブルデバイスは、ユーザの手の動きをキャプチャする。動きデータは、いずれかとの一致がないか確認すべく、予め定められた動作ジェスチャメタデータスタック(薄い影が付けられた構成要素)と比較され、それらとの参照が行われる。
【0055】
(例えば、メタデータ710において)一致するとの結果が一旦得られると動作ジェスチャメタデータは、(例えば、同じフレーム内の)それに対応するムービーフレームメタデータと一致するかの比較が行われることになる。そして、ビデオ再生は、一致するかの比較が行われたムービーフレームメタデータ(例えば、点705)まで即座に飛び、ブックマークが付けられたビデオが始まることになる。
【0056】
図8は、ある実施形態に係る、ジェスチャ埋め込みビデオに対するジェスチャを用いることの例示的なライフサイクル800を図示している。ライフサイクル800において、3つの別々の段階で同じ手の動作ジェスチャが用いられる。
【0057】
段階1において、ブロック805においてそのジェスチャが、ブックマーク動作(例えば、予め定められた動作ジェスチャ)として保存されるか、または定められる。ここで、ユーザは、システムがトレーニングまたは記録モードにある間に動作を実施し、システムはその動作を定められたブックマーク動作として保存する。
【0058】
段階2において、記録の間に、ブロック810においてジェスチャが実施されたとき、ビデオにブックマークが付けられる。ここで、ユーザは、活動を撮影している間に、ビデオのこの部分にブックマークを付けたいというときに動作を実施する。
【0059】
段階3において、再生中に、ブロック815においてジェスチャが実施されたときにブックマークがビデオから選択される。したがって、ビデオにマーク付けをするのに、そして後にそのビデオのマーク付けされた部分を取得するのに(例えば、特定する、一致するか比較を行う等)、ユーザが定める同じジェスチャ(例えば、ユーザ指示のジェスチャの使用)が用いられる。
【0060】
図9は、ある実施形態に係る、ビデオ内にジェスチャを埋め込む方法900の例を図示している。方法900のオペレーションは、図1A~8に関連して上述したもの、または図13に関連して以下に述べるもの(例えば、電気回路構成、プロセッサ等)等のコンピュータハードウェアで実装される。
【0061】
オペレーション905において、(例えば、受信機、トランシーバ、バス、インタフェース等により)ビデオストリームが得られる。
【0062】
オペレーション910において、センサによる測定が行われてサンプルセットが得られる。ある例において、サンプルセットの構成要素は、ジェスチャの構成部分である(例えば、ジェスチャは、サンプルセットのデータから定められる、または導き出される)。ある例において、サンプルセットは、ビデオストリームに対する時間に対応する。ある例において、センサは加速度計またはジャイロメータのうち少なくとも一方である。ある例において、センサは第1デバイスの第1筐体内にあり、受信機(またはビデオを得る他のデバイス)およびエンコーダ(またはビデオをエンコードする他のデバイス)は第2デバイスの第2筐体内にある。本例において、第1デバイスと第2デバイスとは、両デバイスがオペレーション中であるとき通信接続されている。
【0063】
オペレーション915において、ビデオストリームのエンコードされたビデオに、ジェスチャの表現および時間が(例えば、ビデオエンコーダ、エンコーダパイプライン等を介して)埋め込まれる。ある例において、ジェスチャの表現は、サンプルセットの正規化されたバージョン、サンプルセットの構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである。ある例において、モデルは、そのモデルに関するセンサパラメータを提供する入力定義を含む。ある例において、モデルは、入力されたパラメータに関する値がジェスチャを表現しているかをシグナリングする真または偽の出力を提供する。
【0064】
ある例において、ジェスチャの表現および時間を埋め込むこと(オペレーション915)は、エンコードされたビデオにメタデータデータ構造を追加することを含む。ある例において、メタデータデータ構造は、ジェスチャの表現が第1列に示され、対応する時間が同じ行の第2列に示されている(例えば、同じ記録内にある)テーブルである。ある例において、ジェスチャの表現および時間を埋め込むことは、メタデータデータ構造をエンコードされたビデオに追加する段階を有し、データ構造は、ビデオのフレームに対してエンコードした1つのエントリを含む。したがって、本例は、ビデオの各フレームがジェスチャメタデータデータ構造を含むことを表している。
【0065】
方法900はオプションで、図示されているオペレーション920、925および930により拡張されてよい。
【0066】
オペレーション920において、エンコードされたビデオからジェスチャの表現および時間が抽出される。ある例において、ジェスチャは、エンコードされたビデオ内の複数の種々のジェスチャのうち1つである。
【0067】
オペレーション925において、ジェスチャの表現と、ビデオストリームのレンダリング(例えば、再生、編集等)中に得られた第2サンプルセットとの一致するかの比較が行われる。
【0068】
オペレーション930において、比較器からの一致するとの結果に応じてその時間のエンコードされたビデオからビデオストリームがレンダリングされる。ある例において、ジェスチャは、ビデオ内にエンコードされたジェスチャの複数の同じ表現のうち1つである。つまり、ビデオ内に1以上のマークを付けるのに同じジェスチャが用いられた。本例において、方法900は、第2サンプルセットの等価物が得られた回数を(例えば、カウンタにより)トラッキングしてよい。そして方法900は、カウンタに基づいて選択された時間においてビデオをレンダリングしてよい。例えば、再生中にジェスチャが5回実施された場合、方法900は、ビデオ内に埋め込まれたジェスチャの5番目の発生をレンダリングするであろう。
【0069】
方法900はオプションで、以下のオペレーションにより拡張されてよい。
【0070】
新たなジェスチャに関するトレーニングセットのインディケーションがユーザインタフェースから受信される。インディケーションを受信したことに応じて、方法900は、(例えば、センサから得られた)トレーニングセットに基づいて第2ジェスチャの表現を生成してよい。ある例において、方法900は、ジェスチャ表現のライブラリを、エンコードされたビデオ内にエンコードしてもよい。ここで、ライブラリは、ジェスチャと、新たなジェスチャと、エンコードされたビデオ内で対応する時間を有さないジェスチャとを含んでよい。
【0071】
図10は、ある実施形態に係る、ジェスチャ埋め込みビデオの作成中に埋め込むのに利用可能なジェスチャのレパートリーにジェスチャを追加する方法1000の例を図示している。方法1000のオペレーションは、図1A~8に関連して上述したもの、または図13に関連して以下に述べるもの(例えば、電気回路構成、プロセッサ等)等のコンピュータハードウェアで実装される。方法1000は、手のジェスチャデータをプロットする例えば加速度計またはジャイロメータを備えたスマートウェアラブルデバイスを介してジェスチャを入力する技術を図示している。スマートウェアラブルデバイスはアクションカメラにリンクされていてよい。
【0072】
ユーザはユーザインタフェースとインタラクションをしてよく、そのインタラクションにより、スマートウェアラブルデバイスに関するトレーニングを初期化してよい(例えば、オペレーション1005)。したがって、例えば、ユーザはアクションカメラにある開始を押して、ブックマークパターンの記録を始めてよい。そしてユーザは、例えば5秒である期間内に1回、手のジェスチャを実施する。
【0073】
スマートウェアラブルデバイスは、ジェスチャを読み取る時間を開始する(例えば、オペレーション1010)。したがって、例えば5秒の間、例えば初期化に応じてブックマークに関する加速度計データが記録される。
【0074】
ジェスチャが新しかった場合(例えば、判断1015)、その動作ジェスチャが永続性記憶装置に保存される(例えば、オペレーション1020)。ある例において、ユーザは、アクションカメラにある保存ボタン(例えば、トレーニングを始めるのに用いられるのと同じか、またはそれと異なるボタン)を押し、スマートウェアラブルデバイスの永続性記憶装置内にブックマークパターンメタデータを保存してよい。
【0075】
図11は、ある実施形態に係る、ビデオにジェスチャを追加する方法1100の例を図示している。方法1100のオペレーションは、図1A~8に関連して上述したもの、または図13に関連して以下に述べるもの(例えば、電気回路構成、プロセッサ等)等のコンピュータハードウェアで実装される。方法1100は、ジェスチャを用いてビデオ内にブックマーク生成することを図示している。
【0076】
ユーザは、クールなアクションシーンが始まりそうだと思ったときに予め定められた手の動作ジェスチャを行う。スマートウェアラブルデバイスは加速度計データを計算し、永続性記憶装置内の情報と一致するとの結果を一旦検出すると、スマートウェアラブルデバイスは、ビデオブックマークイベントを始めるようアクションカメラに知らせる。このイベントチェーンは以下のように進められる。
【0077】
ユーザにより行われた動作ジェスチャをウェアラブルデバイスが検知する(例えば、ユーザがジェスチャを行っている間にウェアラブルデバイスがセンサデータをキャプチャする)(例えば、オペレーション1105)。
【0078】
キャプチャされたセンサデータは永続性記憶装置内の予め定められたジェスチャと比較される(例えば、判断1110)。例えば、手の動作ジェスチャの加速度計データと一致するブックマークパターンがあるかについてチェックが行われる。
【0079】
キャプチャされたセンサデータが、既知のパターンと一致するとの結果が出た場合、アクションカメラはブックマークを記録してよく、ある例において、例えばビデオブックマーク付けの始まりを示すべく1回振動するようスマートウェアラブルデバイスに指示することによりそのブックマークについて知らせる。ある例において、ブックマーク付けは状態が変化する毎にオペレーションが行われてよい。本例において、カメラは状態をチェックして、ブックマーク付けが進行中であるか判断してよい(例えば、判断1115)。そうでない場合、ブックマーク付けが開始される1120。
【0080】
ユーザがジェスチャを繰り返した後、ブックマーク付けが開始されていれば停止される(例えば、オペレーション1125)。例えば、特定のクールなアクションシーンが終わった後、ユーザは、その開始時点で用いられたのと同じ手の動作ジェスチャを実施して、ブックマーク付け機能の停止を示す。ブックマークが一旦完了すると、カメラは、タイムスタンプと関連付けられたビデオファイル内に動作ジェスチャメタデータを埋め込んでよい。
【0081】
図12は、ある実施形態に係る、ユーザインタフェース要素としてビデオに埋め込まれるジェスチャを用いる方法1200の例を図示している。方法1200のオペレーションは、図1A~8に関連して上述したもの、または図13に関連して以下に述べるもの(例えば、電気回路構成、プロセッサ等)等のコンピュータハードウェアで実装される。方法1200は、ビデオの再生中、編集中、または他にビデオを辿っている最中にジェスチャを用いることを図示している。ある例において、ユーザは、ビデオにマーク付けするのに用いられたのと同じウェアラブルデバイスを用いなければならない。
【0082】
特定のブックマークが付けられたシーンをユーザが見たい場合、そのユーザはただ、ビデオにマーク付けするのに用いられたのと同じ手の動作ジェスチャを繰り返しさえすればよい。ウェアラブルデバイスは、ユーザが動作を実施したときにジェスチャを検知する(例えば、オペレーション1205)。
【0083】
ブックマークパターン(例えば、ユーザにより実施されているジェスチャ)がスマートウェアラブルデバイス内に保存された加速度計データと一致する場合(例えば、判断1210)、ブックマーク点が位置特定されることになり、ユーザは、ビデオ素材のその点までジャンプすることになる(例えば、オペレーション1215)。
【0084】
ブックマークが付けられた素材の他の部分をユーザが見たい場合、ユーザは、同じジェスチャであれ、または異なるジェスチャであれどちらか所望のブックマークに対応するものを実施してよく、方法1200と同じ処理が繰り返されることになる。
【0085】
本明細書において記載されているシステムおよび技術を用いれば、ユーザは、直観的なシグナリングを用いて、ビデオ内に興味対象の期間を設定し得る。これら同じ直観的な信号がビデオ自体内にエンコードされ、編集中または再生中等のビデオが作成された後にそれら信号を用いることが可能となる。以下に、上記にて記載された一部の特徴の要点を繰り返す。スマートウェアラブルデバイスは、永続性記憶装置内に予め定められた動作ジェスチャメタデータを格納する。ビデオフレームのファイルフォーマットコンテナは、ムービーメタデータ、音声、およびタイムスタンプと関連付けられた動作ジェスチャメタデータから成る。ビデオにブックマーク付けする手の動作ジェスチャ、そのブックマークを位置特定する同じ手の動作ジェスチャをユーザが繰り返す。ビデオに種々のセグメントをブックマークすべく種々の手の動作ジェスチャが追加され得、各ブックマークタグを別個のものとし得る。同じ手の動作ジェスチャが、種々の段階における種々のイベントをトリガすることになる。これら要素により、上記で紹介された例示的な利用ケースにおける以下の解決法がもたらされる。
【0086】
エクストリームスポーツのユーザに関しては、ユーザがアクションカメラ自体にあるボタンを押すのは困難であるが、彼らが例えばスポーツの活動中に手を振る、またはスポーツの動作(例えば、テニスラケット、ホッケースティックを振る等)を実施するのはかなり簡単である。例えば、ユーザは、スタント行為を行おうとする前に手を振ってよい。再生中にユーザが自身のスタント行為を見るためにしなければいけないのは、再び自分の手を振ることだけである。
【0087】
法の執行に関しては、巡査が容疑者を追跡しているかもしれず、撃ち合いの中で銃を構えようとするかもしれず、または、負傷して地面に倒れることさえあるかもしれない。これら全てが、着用されたカメラからのビデオ素材にブックマークを付けるのに用いられ得る、勤務時間中に巡査が行うかもしれない可能性のあるジェスチャまたは動きである。したがって、これらジェスチャがブックマークタグとして予め定められ、用いられてよい。勤務時間中の巡査の撮影は長時間にわたり得るので、このことにより、再生処理の負担が和らぐであろう。
【0088】
医療従事者に関しては、医師が手術処置中にある特定のやり方で手を上げる。この動きは、種々の手術処置間で別個のものであってよい。これら手のジェスチャは、ブックマークジェスチャとして予め定められていてよい。例えば、身体の部位を縫う動きがブックマークタグとして用いられてよい。したがって、医師が縫う処置を見ようとする場合に、必要とされるのはその縫う動きを再現することだけであり、セグメントが即座に見えるようになる。
【0089】
図13は、本明細書で説明される技術(例えば、方法)のうちいずれか1または複数が実施され得る例示的なマシン1300のブロック図を図示する。代替的な実施形態において、マシン1300はスタンドアロン型のデバイスとしてオペレーションを行ってよく、または他のマシンへ接続(例えば、ネットワーク化)されてよい。ネットワーク化された配置において、マシン1300は、サーバ-クライアントネットワーク環境内のサーバマシンとして、クライアントマシンとして、または両方としてオペレーションを行ってよい。ある例において、マシン1300は、ピアツーピア(P2P)(または他の分散型の)ネットワーク環境でピアマシンとして動作し得る。マシン1300は、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA),携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ、またはブリッジ、若しくは、何らかのマシンにより行われる動作を特定する(シーケンシャルな、またはその他の方式の)命令を実行可能な当該マシンであり得る。さらに、1つのマシンだけが図示されているが、「マシン」という用語は、クラウドコンピューティング、サービス型ソフトウェア(SaaS)、他のコンピュータクラスタ構成等、個別または合同で命令群(または複数の命令群)を実行して、本明細書で説明されている方法のうちいずれか1または複数を実行する何らかのマシンの集合を含むものとして捉えられるべきである。
【0090】
本明細書で記載されているように、実施例は、ロジックまたは複数のコンポーネント、モジュール、またはメカニズムを含んでよく、若しくはこれらでオペレーションを行ってよい。電気回路構成は、ハードウェア(例えば、単信回路、ゲート、ロジック等)を含む実体のある実存物において実装される回路の集合である。電気回路構成を構成する要素が何かについては、経時的に、および、ベースとなるハードウェアの変化に応じて、フレキシブルであってよい。電気回路構成は、オペレーション中において指定されたオペレーションを単独で、または組み合わさって実施してよい構成要素を含む。ある例において、電気回路構成のハードウェアは、具体的なオペレーションを実行するよう不変的に設計(例えば、ハードワイヤード)されてよい。ある例において、電気回路構成のハードウェアは、具体的なオペレーションの命令をエンコードするよう物理的に変更が加えられたコンピュータ可読媒体(例えば、磁気的に、電気的に、不変の結集させられた粒子の移動可能な配置等)を含む可変的に接続された物理的コンポーネント(例えば、実行ユニット、トランジスタ、単信回路等)を含んでよい。物理的コンポーネントの接続において、ハードウェア構成部分のベースとなる電気的性質は、例えば絶縁体から導体に、またはその逆方向に切り替えられる。それら命令によって、組み込まれたハードウェア(例えば、実行ユニットまたはロードメカニズム)は、オペレーション中に具体的なオペレーションの一部分を実行するよう、可変的な接続を介してハードウェアの電気回路構成の構成要素を生じさせることが可能となる。したがって、コンピュータ可読媒体は、デバイスがオペレーションを行っているとき、電気回路構成の他のコンポーネントに通信接続されている。ある例において、それら物理的コンポーネントのうちのいずれかが、1より多くの電気回路構成のうち1より多くの構成要素で用いられてよい。例えば、オペレーション下で、ある一時点において第1電気回路構成の第1回路において実行ユニットが用いられてよく、異なる時間において、第1電気回路構成の第2回路により、または第2電気回路構成の第3回路により再度用いられてよい。
【0091】
マシン(例えば、コンピュータシステム)1300は、ハードウェアプロセッサ1302(例えば、中央演算ユニット(CPU)、グラフィックプロセッシングユニット(GPU)、ハードウェアプロセッサコア、またはこれらの任意の組み合わせ)、メインメモリ1304、およびスタティックメモリ1306を含み得、これらのうち一部または全ては、インターリンク1308(例えば、バス)を介して互いに通信を行い得る。マシン1300はさらに、表示ユニット1310、英数字入力デバイス1312(例えば、キーボード)、およびユーザインタフェース(UI)ナビゲーションデバイス1314(例えば、マウス)等を含み得る。ある例において、表示ユニット1310、入力デバイス1312、およびUIナビゲーションデバイス1314は、タッチスクリーンディスプレイであり得る。マシン1300は追加的に、記憶デバイス(例えば、ドライブユニット)1316、信号生成デバイス1318(例えば、スピーカ)、ネットワークインタフェースデバイス1320、およびグローバルポジショニングシステム(GPS)センサ、コンパス、加速度計、または他のセンサ等の1または複数のセンサ1321を含み得る。マシン1300は、1または複数の周辺デバイス(例えば、プリンタ、カードリーダ等)と通信を行う、またはこれらを制御する、シリアル(例えば、ユニバーサルシリアルバス(USB))、並列、または他の有線または無線(例えば、赤外線(IR)、近距離無線通信(NFC)等の)接続等の出力コントローラ1328を含み得る。
【0092】
記憶デバイス1316は、本明細書で記載されている技術または機能のうちいずれか1または複数を具現化する、またはこれらにより利用される1または複数のデータ構造群または命令群1324(例えば、ソフトウェア)が格納されたマシン可読媒体1322を含み得る。また命令1324はマシン1300によるその実行中に、完全に、または少なくとも部分的に、メインメモリ1304内に、スタティックメモリ1306内に、または、ハードウェアプロセッサ1302内に存在し得る。ある例において、ハードウェアプロセッサ1302、メインメモリ1304、スタティックメモリ1306、または記憶デバイス1316のうち1つ、またはこれらの任意の組み合わせが、マシン可読媒体を構成し得る。
【0093】
マシン可読媒体1322は1つの媒体として図示されているが、「マシン可読媒体」という用語は、1または複数の命令1324を格納するよう構成された1つの媒体、または複数の媒体(例えば、集中型または分散型のデータベース、および/または、関連付けられたキャッシュおよびサーバ)を含み得る。
【0094】
「マシン可読媒体」という用語は、マシン1300による実行のための命令である、マシン1300に本開示の技術のうちいずれか1または複数を実施させる命令を格納、エンコード、または保持することが可能であり、またはそのような命令により用いられる、またはそれらと関連付けられたデータ構造を格納、エンコード、または保持することが可能な何らかの媒体を含み得る。非限定的なマシン可読媒体の例には、ソリッドステートメモリ、光および磁気媒体が含まれ得る。ある例において、大容量マシン可読媒体は不変の(例えば静止)質量を有する複数の粒子を伴うマシン可読媒体を備える。したがって、大容量マシン可読媒体は、一時的な伝播信号ではない。大容量マシン可読媒体の具体的な例は、半導体メモリデバイス(例えば、電気的プログラマブルリードオンリメモリ(EPROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM))およびフラッシュメモリデバイス等の不揮発性メモリ、内部ハードディスクおよびリムーバブルディスク等の磁気ディスク、光磁気ディスク、およびCD-ROMおよびDVD-ROMディスクを含み得る。
【0095】
命令1324はさらに、複数の伝送プロトコル(例えば、フレームリレー、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)等)のうちいずれか1つを利用してネットワークインタフェースデバイス1320を介して伝送媒体を用いて通信ネットワーク1326上で送信または受信され得る。例示的な通信ネットワークには、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、パケットデータネットワーク(例えば、インターネット)、携帯電話ネットワーク(例えば、セルラーネットワーク)、プレーンオールドテレフォン(POTS)ネットワーク、無線データネットワーク(例えば、Wi-Fi(登録商標)として公知のInstitute of Electrical and Electronics Engineers(IEEE)802.11の規格ファミリー、WiMax(登録商標)として公知のIEEE 802.16規格ファミリー)、IEEE 802.15.4規格ファミリー、ピアツーピア(P2P)ネットワーク、およびその他が含まれ得る。ある例において、ネットワークインタフェースデバイス1320は、通信ネットワーク1326に接続する1または複数の物理的ジャック(例えば、Ethernet(登録商標)、同軸、または電話ジャック)、または、1または複数のアンテナを含み得る。ある例において、ネットワークインタフェースデバイス1320は、単入力多出力(SIMO)、多入力多出力(MIMO)、または、多入力単出力(MISO)技術のうち少なくとも1つを用いて無線で通信を行う複数のアンテナを含み得る。「伝送媒体」という用語は、マシン1300による実行のための命令を格納、エンコード、または保持することが可能であり、そのようなソフトウェアの通信を容易にするデジタルまたはアナログの通信信号、または他の無形媒体を含む何らかの無形媒体を含むものとして捉えられるべきである。 付記および例
【0096】
例1は、
ビデオストリームを得る受信機と、
サンプルセットを得るセンサであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、センサと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むエンコーダと
を備える、ビデオ内埋め込みジェスチャに関するシステムである。
【0097】
例2において、例1の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。
【0098】
例3において、例1から2のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである
ことをオプションで含む。
【0099】
例4において、例3の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。
【0100】
例5において、例1から4のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを含む
ことをオプションで含む。
【0101】
例6において、例5の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第1列に示され、対応する時間が同じ行の第2列に示されるテーブルである
ことをオプションで含む。
【0102】
例7において、例1から6のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを含み、
上記データ構造が、上記ビデオのフレームに対してエンコードした1つのエントリを含む
ことをオプションで含む。
【0103】
例8において、例1から7のうちいずれか1または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出するデコーダと、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較する比較器と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする再生機と
をオプションで含む。
【0104】
例9において、例8の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである
ことをオプションで含む。
【0105】
例10において、例8から9のうちいずれか1または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記システムが、上記第2サンプルセットの等価物が得られた回数をトラッキングするカウンタを備え、
上記再生機が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。
【0106】
例11において、例1から10のうちいずれか1または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースと、
上記トレーニングセットに基づき第2ジェスチャの表現を生成するトレーナと
を含み、
上記センサが、上記インディケーションの受信に応じて上記トレーニングセットを得る
ことをオプションで含む。
【0107】
例12において、例11の主題は、
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリが、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。
【0108】
例13において、例1から12のうちいずれか1または複数の主題は、
上記センサが第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとが、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。
【0109】
例14は、
ビデオストリームを受信機により得る段階と
センサを測定してサンプルセットを得る段階であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、段階と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む段階と
を備える、ビデオ内埋め込みジェスチャに関する方法である。
【0110】
例15において、例14の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。
【0111】
例16において、例14から15のうちいずれか1または複数の主題は、上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである
ことをオプションで含む。
【0112】
例17において、例16の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。
【0113】
例18において、例14から17のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む段階が、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有する
ことをオプションで含む。
【0114】
例19において、例18の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第1列に示され、対応する時間が同じ行の第2列に示されるテーブルである
ことをオプションで含む。
【0115】
例20において、例14から19のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む段階が、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした1つのエントリを含む
ことをオプションで含む。
【0116】
例21において、例14から20のうちいずれか1または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する段階と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較する段階と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする段階と
をオプションで含む。
【0117】
例22において、例21の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである
ことをオプションで含む。
【0118】
例23において、例21から22のうちいずれか1または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記方法が、上記第2サンプルセットの等価物が得られた回数をカウンタによりトラッキングする段階を備え、
上記レンダリングする段階において、上記カウンタに基づき上記時間が選択される
ことをオプションで含む。
【0119】
例24において、例14から23のうちいずれか1または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する段階と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第2ジェスチャの表現を作成する段階と
をオプションで含む。
【0120】
例25において、例24の主題は、
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする段階を含み、
上記ライブラリが、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。
【0121】
例26において、例14から25のうちいずれか1または複数の主題は、
上記センサが第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとが、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。
【0122】
例27は、方法14から26のいずれかを実装する手段を備えるシステムである。
【0123】
例28は、
マシンにより実行された場合に、方法14から26のいずれかを上記マシンに実施させる命令を含む少なくとも1つのマシン可読媒体である。
【0124】
例29は、
ビデオストリームを受信機により得る手段と
センサを測定してサンプルセットを得る手段であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、手段と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む手段と
を備える、ビデオ内埋め込みジェスチャに関するシステムである。
【0125】
例30において、例29の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。
【0126】
例31において、例29から30のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである
ことをオプションで含む。
【0127】
例32において、例31の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。
【0128】
例33において、例29から32のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む上記手段が、メタデータデータ構造を上記エンコードされたビデオに追加する手段を含む
ことをオプションで含む。
【0129】
例34において、例33の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第1列に示され、対応する時間が同じ行の第2列に示されるテーブルである
ことをオプションで含む。
【0130】
例35において、例29から34のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込む上記手段が、メタデータデータ構造を上記エンコードされたビデオに追加する手段を有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした1つのエントリを含む
ことをオプションで含む。
【0131】
例36において、例29から35のうちいずれか1または複数の主題は、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する手段と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較する手段と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする手段と
をオプションで含む。
【0132】
例37において、例36の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである
ことをオプションで含む。
【0133】
例38において、例36から37のうちいずれか1または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記システムが、上記第2サンプルセットの等価物が得られた回数をカウンタによりトラッキングする手段を備え、
上記レンダリングする手段が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。
【0134】
例39において、例29から38のうちいずれか1または複数の主題は、
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する手段と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第2ジェスチャの表現を作成する手段と
をオプションで含む。
【0135】
例40において、例39の主題は、
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする手段を含み、
上記ライブラリが、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。
【0136】
例41において、例29から40のうちいずれか1または複数の主題は、
上記センサが第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとが、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。
【0137】
例42は、
ビデオ内埋め込みジェスチャに関する命令を含む少なくとも1つのマシン可読媒体であって、マシンに実行された場合に上記命令は、上記マシンに、
ビデオストリームを得ることと、
サンプルセットを得ることであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、ことと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むことと
を実行させる少なくとも1つのマシン可読媒体である。
【0138】
例43において、例42の主題は、
上記センサが加速度計またはジャイロメータのうち少なくとも一方である
ことをオプションで含む。
【0139】
例44において、例42から43のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現が、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである
ことをオプションで含む。
【0140】
例45において、例44の主題は、
上記モデルが、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する
ことをオプションで含む。
【0141】
例46において、例42から45のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを有する
ことをオプションで含む。
【0142】
例47において、例46の主題は、
上記メタデータデータ構造が、上記ジェスチャの上記表現が第1列に示され、対応する時間が同じ行の第2列に示されるテーブルである
ことをオプションで含む。
【0143】
例48において、例42から47のうちいずれか1または複数の主題は、
上記ジェスチャの上記表現および上記時間を埋め込むことが、メタデータデータ構造を上記エンコードされたビデオに追加することを有し、
上記データ構造が、上記ビデオのフレームに対してエンコードした1つのエントリを含む
ことをオプションで含む。
【0144】
例49において、例42から48のうちいずれか1または複数の主題は、
上記命令が上記マシンに、
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出させ、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較させ、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングさせる
ことをオプションで含む。
【0145】
例50において、例49の主題は、
上記ジェスチャが、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである
ことをオプションで含む。
【0146】
例51において、例49から50のうちいずれか1または複数の主題は、
上記ジェスチャが、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記命令が上記マシンに、上記第2サンプルセットの等価物が得られた回数をトラッキングするカウンタを実装させ、
上記再生機が、上記カウンタに基づき上記時間を選択する
ことをオプションで含む。
【0147】
例52において、例42から51のうちいずれか1または複数の主題は、
上記命令が上記マシンに
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースを実装させ、
上記トレーニングセットに基づき第2ジェスチャの表現を生成させ、
上記センサが、上記インディケーションの受信に応じて上記トレーニングセットを得る
ことをオプションで含む。
【0148】
例53において、例52の主題は、
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリが、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む
ことをオプションで含む。
【0149】
例54において、例42から53のうちいずれか1または複数の主題は、
上記センサが第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとが、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとが、両デバイスのオペレーション中に通信接続される
ことをオプションで含む。
【0150】
上記の発明を実施するための形態では、発明を実施するための形態の一部分を成す添付の図面が参照されている。それら図面は図示により、実施されてよい具体的な実施形態を示している。これら実施形態は本明細書において「例」とも呼ばれる。そのような例は、示されている、または記載されている要素に加えて、要素を含んでよい。しかしながら、本発明者らは、示されている、または記載されているそれら要素のみが提供される例も想定している。さらに本発明者らは、特定の例(またはその1または複数の態様)に関連して、または、本明細書に示されている、または記載されている他の例(またはそれらの1または複数の態様)に関連して示されている、または記載されているそれら要素(またはそれらの1または複数の態様)の任意の組み合わせまたは順列を用いた例も想定している。
【0151】
本文書で参照されている全ての刊行物、特許、特許文書はそれらの全体が参照によりここで、参照により個別に組み込まれているかのように組み込まれる。本文書と、そのように参照により組み込まれているそれら文書との間で一貫性を欠く使用が見られた場合には、それら組み込まれている参考文献における使用は、本文書の使用を補足するものを見なされるべきであり、矛盾した非一貫性に関しては本文書での使用が優先される。
【0152】
本文書において、「1つの/ある(a)」または「1つの/ある(an)」という用語は、特許文書においては一般的であるように何らかの他の「少なくとも1つの」または「1または複数の」の出現または使用とは独立して、1つまたは1より多くのものを含むものとして用いられている。本文書において、「または」という用語は、逆のことが示されていない限り、「AまたはB」が「AであるがBではない」、「BであるがAではない」、および「AでありBである」ように非排他的論理和を指すのに用いられている。添付の請求項において、「含む」および「そこで」という用語が、「備える」および「その場合において」というそれぞれの用語の平易な英語の等価物として用いられている。また、以下の請求項において、「含む」および「備える」という用語は制限がなく、つまり、ある請求項において、そのような用語の後に列挙されている要素に加えて要素を含むシステム、デバイス、物品、または処理が依然としてその請求項の範囲に含まれると見なされる。さらに、以下の請求項において、「第1」、「第2」、「第3」等の用語が単にラベルとして用いられており、それらはそれらのオブジェクトに数値的な要求事項を課すことは意図されていない。
【0153】
上記の説明は例示を意図しており、限定を意図しているわけではない。例えば、上述の例(またはそれらの1または複数の態様)は、互いに組み合わせて用いられてよい。上記の記載を検討すれば当業者等によって他の実施形態が用いられ得る。要約書は、技術的開示の本質を読み手が直ぐに確認出来るようにするものであり、請求項の範囲または意味を解釈または限定するのに要約書が用いられることはないとの理解に基づき提出される。また、上記の発明を実施するための形態において、開示を能率化するべく様々な特徴が一緒にグループ化されているかもしれない。このことは、特許請求されていないが開示されている特徴がいずれかの請求項において必須であることを意図しているものとして解釈されるべきではない。むしろ、発明に関わる主題は、特定の開示されている実施形態の全ての特徴ではなくそれより少ない特徴に存していてよい。したがって、以下の請求項はこれにより、発明を実施するための形態に組み込まれ、各請求項は、別箇の実施形態としてそれ自体独立している。実施形態の範囲は、添付の請求項を参照して、そのような請求項が法的権利を主張する資格がある等価物の全範囲と併せて判断されるべきである。
[項目1]
ビデオストリームを得る受信機と、
サンプルセットを得るセンサであって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、センサと、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間を埋め込むエンコーダと
を備える、ビデオ内埋め込みジェスチャに関するシステム。
[項目2]
上記センサは加速度計またはジャイロメータのうち少なくとも一方である、項目1に記載のシステム。
[項目3]
上記ジェスチャの上記表現は、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである、項目1に記載のシステム。
[項目4]
上記モデルは、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する、項目3に記載のシステム。
[項目5]
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出するデコーダと、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較する比較器と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする再生機と
を備える、項目1に記載のシステム。
[項目6]
上記ジェスチャは、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである、項目5に記載のシステム。
[項目7]
上記ジェスチャは、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記システムは、上記第2サンプルセットの等価物が得られた回数をトラッキングするカウンタを備え、
上記再生機は、上記カウンタに基づき上記時間を選択した、
項目5に記載のシステム。
[項目8]
新たなジェスチャに関するトレーニングセットのインディケーションを受信するユーザインタフェースと、
上記トレーニングセットに基づき第2ジェスチャの表現を生成するトレーナと
を備え、
上記センサは、上記インディケーションの受信に応じて上記トレーニングセットを得る、
項目1に記載のシステム。
[項目9]
ジェスチャ表現のライブラリが上記エンコードされたビデオ内にエンコードされ、
上記ライブラリは、上記ジェスチャおよび上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む、
項目8に記載のシステム。
[項目10]
上記センサは第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとは、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとは、両デバイスのオペレーション中に通信接続される、
項目1に記載のシステム。
[項目11]
ビデオストリームを受信機により得る段階と
センサを測定してサンプルセットを得る段階であって、上記サンプルセットの構成要素は、ジェスチャの構成部分であり、上記サンプルセットは、上記ビデオストリームに対する時間に対応する、段階と、
上記ビデオストリームのエンコードされたビデオに上記ジェスチャの表現および上記時間をエンコーダにより埋め込む段階と
を備える、ビデオ内埋め込みジェスチャに関する方法。
[項目12]
上記センサは加速度計またはジャイロメータのうち少なくとも一方である、項目11に記載の方法。
[項目13]
上記ジェスチャの上記表現は、上記サンプルセットの正規化されたバージョン、上記サンプルセットの上記構成要素の量子化、ラベル、インデックス、またはモデルのうち少なくとも1つである、項目11に記載の方法。
[項目14]
上記モデルは、上記モデルに関してセンサパラメータを提供する入力定義を含み、上記モデルは、入力された上記パラメータに関する値が上記ジェスチャを表現しているかをシグナリングする真または偽の出力を提供する、項目13に記載の方法。
[項目15]
上記ジェスチャの上記表現および上記時間を埋め込む段階は、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有する、項目11に記載の方法。
[項目16]
上記メタデータデータ構造は、ジェスチャの上記表現が第1列に示され、対応する時間が同じ行の第2列に示されるテーブルである、項目15に記載の方法。
[項目17]
上記ジェスチャの上記表現および上記時間を埋め込む段階は、メタデータデータ構造を上記エンコードされたビデオに追加する段階を有し、
上記データ構造は、上記ビデオのフレームに対してエンコードしている1つのエントリを含む、
項目11に記載の方法。
[項目18]
上記エンコードされたビデオから上記ジェスチャの上記表現および上記時間を抽出する段階と、
上記ジェスチャの上記表現と、上記ビデオストリームのレンダリング中に得られた第2サンプルセットとを一致するか比較する段階と、
上記比較器からの上記一致するとの結果に応じて上記時間の上記エンコードされたビデオから上記ビデオストリームをレンダリングする段階と
を備える、項目11に記載の方法。
[項目19]
上記ジェスチャは、上記エンコードされたビデオ内の複数の種々のジェスチャのうち1つである、項目18に記載の方法。
[項目20]
上記ジェスチャは、上記ビデオ内にエンコードされた上記ジェスチャの複数の同じ上記表現のうち1つであり、
上記第2サンプルセットの等価物が得られた回数をカウンタによりトラッキングする段階を備え、
上記レンダリングする段階において、上記カウンタに基づき上記時間が選択された、
項目18に記載の方法。
[項目21]
新たなジェスチャに関するトレーニングセットのインディケーションをユーザインタフェースから受信する段階と、
上記インディケーションの受信に応じて、上記トレーニングセットに基づき第2ジェスチャの表現を作成する段階と
を備える、項目11に記載の方法。
[項目22]
ジェスチャ表現のライブラリを上記エンコードされたビデオ内にエンコードする段階を備え、
上記ライブラリは、上記ジェスチャと、上記新たなジェスチャと、対応する時間を上記エンコードされたビデオ内に有さないジェスチャとを含む、
項目21に記載の方法。
[項目23]
上記センサは第1デバイスの第1筐体内にあり、
上記受信機と上記エンコーダとは、第2デバイスの第2筐体内にあり、
上記第1デバイスと上記第2デバイスとは、両デバイスのオペレーション中に通信接続される、
項目11に記載の方法。
[項目24]
方法11から23のいずれかを実装する手段を備えるシステム。
[項目25]
マシンにより実行された場合に、方法11から23のいずれかを上記マシンに実施させる命令を備える少なくとも1つのマシン可読媒体。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13