特表2024-508363 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エマージェックス，　エルエルシーの特許一覧

特表2024-508363複合メディアアセットを生成するために、データのフィルタリングと同期を通じてマルチモーダルメタデータに基づいて未調整のコンテンツを調整するための方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2A
2B
2C
2D
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-27

(54)【発明の名称】複合メディアアセットを生成するために、データのフィルタリングと同期を通じてマルチモーダルメタデータに基づいて未調整のコンテンツを調整するための方法およびシステム

(51)【国際特許分類】

H04N 21/854 20110101AFI20240219BHJP

H04N 5/262 20060101ALI20240219BHJP

H04N 23/60 20230101ALI20240219BHJP

H04N 5/765 20060101ALI20240219BHJP

H04N 5/92 20060101ALI20240219BHJP

H04N 21/24 20110101ALI20240219BHJP

【ＦＩ】

H04N21/854

H04N5/262

H04N23/60 300

H04N23/60 500

H04N5/765

H04N5/92 010

H04N21/24

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023544639

(86)(22)【出願日】2022-01-24

(85)【翻訳文提出日】2023-09-25

(86)【国際出願番号】 US2022013538

(87)【国際公開番号】W WO2022159821

(87)【国際公開日】2022-07-28

(31)【優先権主張番号】63/141,171

(32)【優先日】2021-01-25

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＦＩＲＥＷＩＲＥ

(71)【出願人】

【識別番号】520282591

【氏名又は名称】エマージェックス，エルエルシー

【氏名又は名称原語表記】ＥＭＥＲＧＥＸ，ＬＬＣ

【住所又は居所原語表記】３２０ＧｒｅｅｎｅＳｔｒｅｅｔＣｕｍｂｅｒｌａｎｄ，Ｍａｒｙｌａｎｄ２１５０２ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100140431

【弁理士】

【氏名又は名称】大石幸雄

(72)【発明者】

【氏名】カーリン，マイケルジョセフ

(72)【発明者】

【氏名】フェインソン，ロイ

【テーマコード（参考）】

5C023

5C122

5C164

【Ｆターム（参考）】

5C023AA11

5C023CA01

5C122EA42

5C122FH09

5C122FH11

5C122FH12

5C122FH14

5C122FH23

5C122FK28

5C122FK37

5C122FK41

5C122GA34

5C122GC04

5C122GC14

5C122GC52

5C122HA01

5C122HA88

5C122HA90

5C122HB01

5C122HB05

5C122HB10

5C164FA29

5C164MC01P

5C164SA25S

5C164SB29S

5C164SB41P

5C164YA21

5C164YA30

(57)【要約】

本明細書にて以下に開示される方法およびシステムは、上で論じた課題に対処し、特に未調整のコンテンツのための調整を提供する。利用可能なコンテンツを単にアーカイブおよび／または整理することを超えて、前記方法および前記システムは、任意のソースコンテンツを超えて拡張された詳細および補足データを提供する複合メディアアセットを生成する。前記方法および前記システムは、新規のデータフィルタリングと同期プロセスを通じてこれを実現する。

【特許請求の範囲】

【請求項1】

複合メディアアセットを生成するため、データのフィルタリングと同期を通じ、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するためのシステムであって、システムは：
１以上のプロセッサ；および
１以上のプロセッサによって実行されたとき、オペレーションを引き起こす命令を含むストレージ回路を含み、
オペレーションは：
共有時間枠での共有地理的位置のための重心点に基づき複合メディアアセットを要求する第１のユーザー入力を受信すること；
共有地理的位置のための重心点に基づき共有オブジェクトの向きを決定すること；
第１のメディアアセットのための第１のメディアアセットデータ構造を検索すること、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含み、およびここで：
第１の位置情報は、第１のメディアアセットに対応する第１の地理的位置を示し；
第１の時間情報は、第１のメディアアセットに対応する第１の時間を示し；および
第１のオブジェクト情報は、第１のメディアアセットに包含される第１のオブジェクトを示し；
第２のメディアアセットのための第２のメディアアセットデータ構造を検索すること、ここで第２のメディアアセットデータ構造は、第２の位置情報、第２の時間情報、および第２のオブジェクト情報を含み、およびここで：
第２の位置情報は、第１のメディアアセットに対応する第２の地理的位置を示し、
第２の時間情報は、第２のメディアアセットに対応する第２の時間を示し；および
第２のオブジェクト情報は、第２のメディアアセットに包含される第２のオブジェクトを示し；
第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することに応じ、第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することに応じ、第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定すること；および
第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することに応じ、重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすること、
を含む、
前記システム。

【請求項2】

データのフィルタリングと同期を通じ、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するための方法であって、方法は：
共有時間枠での共有地理的位置のための重心点に基づいて複合メディアアセットを要求する第１のユーザー入力を受信すること
共有地理的位置の重心点に基づき共有オブジェクトの向きを決定すること；
第１のメディアアセットのための第１のメディアアセットデータ構造を検索すること、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含み；
第２のメディアアセットのための第２のメディアアセットデータ構造を検索すること、ここで第２のメディアアセットデータ構造は、第２の位置情報、第２の時間情報、および第２のオブジェクト情報を含み；
第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することに応じ、第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することに応じ、第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定すること；および
第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することに応じ、重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすること、
を含む、
前記方法。

【請求項3】

第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することが：
共有地理的位置を示す第２のユーザー入力を受信すること；および
共有地理的位置を示す第２のユーザー入力を受信することに応じて、複数の利用可能なメディアアセットのためのそれぞれの位置情報および共有地理的位置の比較に基づいて複数の利用可能なメディアアセットをフィルタリングして、第１のメディアアセットのサブセットを生成すること
をさらに含む、請求項２に記載の方法。

【請求項4】

第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することが：
共有時間枠を示す第３のユーザー入力を受信すること；および
共有時間枠を示す第３のユーザー入力を受信することに応じて、第１のメディアアセットのサブセットのためのそれぞれの時間情報および共有時間枠の比較に基づいて第１のメディアアセットのサブセットをフィルタリングして、第２のメディアアセットのサブセットを生成すること
をさらに含む、請求項３に記載の方法。

【請求項5】

第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することが：
重心点に対応する既知のオブジェクトを識別すること；
共有オブジェクトの向きでの既知のオブジェクトのための複数の既知のオブジェクトの詳細を検索すること；および
複数の既知のオブジェクトの詳細のうちのある既知のオブジェクトの詳細が、第１のメディアアセットおよび第２のメディアアセットの両方の中に存在すると決定すること、
をさらに含む、請求項２に記載の方法。

【請求項6】

第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることが：
第１のメディアアセットおよび第２のメディアアセットの両方における共有オブジェクトを識別すること；および
第１のメディアアセットからの第１のオブジェクトの詳細および第２のメディアアセットからの第２のオブジェクトの詳細を使用して、複合メディアアセットにおける共有オブジェクトの表現を生成することをさらに含み、
ここで第２のメディアアセットは第１のオブジェクトの詳細を含まず、かつ、第１のメディアアセットは第２のオブジェクトの詳細を含まない、
請求項２に記載の方法。

【請求項7】

第１の位置情報は、第１のメディアアセットに対応する第１の地理的位置を示し；
第１の時間情報は、第１のメディアアセットに対応する第１の時間を示し；および
第１のオブジェクト情報は、第１のメディアアセットに包含される第１のオブジェクトを示す：
請求項２に記載の方法。

【請求項8】

第１のメディアアセットが複数のフレームを含み、および、第１のメディアアセットのための第１のメディアアセットデータ構造を検索することが：
複合メディアアセットを生成するための複数のフレームのうちの第１のフレームを決定すること；
第１のフレームに対応する第１のメディアアセットデータ構造のサブセットを決定すること；および
第１のメディアアセットデータ構造のサブセットから位置情報、第１の時間情報、および第１のオブジェクト情報を検索すること、
をさらに含む、請求項２に記載の方法。

【請求項9】

共有オブジェクトの向きが、それぞれのメディアアセットをキャプチャするときにコンテンツキャプチャデバイスが対向した方角を含む、請求項２に記載の方法。

【請求項10】

重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることが：
焦点の合っていないオブジェクトに対応する第１のメディアアセットの第１の部分を識別すること；
第１のメディアアセット中の焦点の合っていないオブジェクトに対応する第２のメディアアセットの第２の部分を選択すること；および
第１のメディアアセットの第１の部分を第２の部分に置き換えること、
をさらに含む、請求項２に記載の方法。

【請求項11】

共有時間枠での共有地理的位置の重心点に基づき複合メディアアセットを要求する第１のユーザー入力を受信することが：
第１のメディアアセット中のオブジェクトのユーザー選択を受信すること；
オブジェクトが見つかった地理的位置を決定すること；
地理的位置を共有地理的位置として割り当てること；および
地理的位置におけるオブジェクトの配置を重心点として割り当てること、
を含む、請求項２に記載の方法。

【請求項12】

非一時的、コンピュータ可読媒体であって、１以上のプロセッサによって実行されたとき、オペレーションを引き起こす命令を含み、命令は：
共有時間枠での共有地理的位置のための重心点に基づいて複合メディアアセットを要求する第１ユーザー入力を受信すること
共有地理的位置の重心点に基づき共有オブジェクトの向きを決定すること；
第１のメディアアセットのための第１のメディアアセットデータ構造を検索すること、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含み；
第２のメディアアセットのための第２のメディアアセットデータ構造を検索すること、ここで第２のメディアアセットデータ構造は、第２の位置情報、第２の時間情報、および第２のオブジェクト情報を含み；
第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することに応じ、第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定すること；
第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することに応じ、第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定すること；および
第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することに応じ、重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすること、
を含む、前記非一時的、コンピュータ可読媒体。

【請求項13】

第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することが：
共有地理的位置を示す第２のユーザー入力を受信すること；および
共有地理的位置を示す第２のユーザー入力を受信することに応じて、複数の利用可能なメディアアセットのためのそれぞれの位置情報および共有地理的位置の比較に基づいて複数の利用可能なメディアアセットをフィルタリングし第１のメディアアセットのサブセットを生成すること、
をさらに含む、請求項１２に記載の非一時的、コンピュータ可読媒体。

【請求項14】

第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することが：
共有時間枠を示す第３のユーザー入力を受信すること；および
共有時間枠を示す第３のユーザー入力を受信することに応じて、第２のメディアアセットのサブセットを生成するように、第１のメディアアセットのサブセットのためのそれぞれの時間情報および共有時間枠の比較に基づいて第１のメディアアセットのサブセットをフィルタリングすること、
をさらに含む、請求項１３に記載の非一時的、コンピュータ可読媒体。

【請求項15】

第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することが：
重心点に対応する既知のオブジェクトを識別すること；
共有オブジェクトの向きでの既知のオブジェクトのために複数の既知のオブジェクトの詳細を検索すること；および
複数の既知のオブジェクトの詳細のうちの、ある既知のオブジェクトの詳細が第１のメディアアセットおよび第２のメディアアセットの両方の中に存在すると決定すること、
をさらに含む、請求項１２に記載の非一時的、コンピュータ可読媒体。

【請求項16】

第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることが：
第１のメディアアセットおよび第２のメディアアセットの両方の中で共有オブジェクトを識別すること；
第１のメディアアセットからの第１のオブジェクトの詳細および第２のメディアアセットからの第２のオブジェクトの詳細を使用して、複合メディアアセット中での共有オブジェクトの表現を生成することをさらに含み、
ここで第２のメディアアセットは第１のオブジェクトの詳細を含まず、かつ、第１のメディアアセットは第２のオブジェクトの詳細を含まない、
請求項１２に記載の非一時的、コンピュータ可読媒体。

【請求項17】

第１の位置情報は、第１のメディアアセットに対応する第１の地理的位置を示し；
第１の時間情報は、第１のメディアアセットに対応する第１の時間を示し；および
第１のオブジェクト情報は、第１のメディアアセットに包含される第１のオブジェクトを示す：
請求項１２に記載の非一時的、コンピュータ可読媒体。

【請求項18】

【請求項19】

共有オブジェクトの向きが、それぞれのメディアアセットをキャプチャするときにコンテンツキャプチャデバイスが対向した方角を含む、請求項１２に記載の非一時的、コンピュータ可読媒体。

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２１年１月２５日出願の米国特許出願第６３／１４１，１７１号に対する優先権を主張し、その全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

コンテンツキャプチャデバイス（content capture device）(例：カメラ、ビデオレコーダー、マイク、および／またはオーディオ、ビデオ、またはデータ記録機能を備えたその他のデバイス)を包含する可能性のあるユーザー機器の使用と可用性の増加は、とりわけモバイルデバイスにおいて、近年指数関数的に上昇している。これらのコンテンツキャプチャデバイスが多数存在することで、特定の公開イベントではビデオ、オーディオ、および／またはその他の種類の録画をさまざまなデバイスから利用可能になった。

【0003】

これらのコンテンツキャプチャデバイスは、セキュリティ、顕示欲、記念イベント、ライブストリーミングなど、さまざまな理由で使用されてよく、しかしそれにもかかわらず、「インターネットオブアイズ（“Internet of Eyes”）」環境に導かれている。一般的な例は、それぞれのモバイルデバイスによってキャプチャされた複数のビデオ録画を含んでよいが、データは、画像、ビデオ、2D、3D、4D、6D360、LiDAR、レーダー、サーマルレンダリング、MRIスキャン、CATスキャン、超音波、赤外線、視点群（visual point cloud）、またはその他の形式の形式にて取得されうる。コンテンツキャプチャデバイスが豊富で、キャプチャされている画像や個人的なビデオ（「PV」）は無限にある。しかし、多くのコンテンツキャプチャデバイスがPVを撮っているにもかかわらず、このコンテンツは未調整の方法でキャプチャされている。デバイスは、他のPVの認識や協力なしにPVを撮っている。それに続き、同様の主題を有するPVが無数にあり、それらは永遠に分離されたままである。例えば、特定のロックコンサートでは、何千人もの人々がスマートフォンでビデオを撮っていることもあり得る。各ビデオには、角度、画質、ズーム、方角（direction）、焦点(focus)など、コンサートのユニークな側面が含まれている。これらすべての人々が同じイベントに参加しているという事実にもかかわらず、これらのビデオは分離されたままである。

【発明の概要】

【0004】

【0005】

例えば、従来のシステムでは、所与のイベントに関するコンテンツは、特定のデータ属性（例えば、日付、作成者など）に基づいて一緒にアーカイブされ得る。つまり、従来のデータベースは、個々のコンテンツに１以上の属性をタグ付けし、ユーザーがそのコンテンツを探索できるようにすることに依存している。このような従来のシステムは、コンテンツのグループへの効率的なナビゲーションとアクセスを提供するものの、そのような従来のシステムの結果は、せいぜいオリジナルのコンテンツへのアクセスである。ここで記述する方法とシステムは、単にオリジナルのソースコンテンツへのアクセスを提供することを超えて、その代わりに、いずれのソースコンテンツよりもより優れた（例えば、より多くのコンテンツ、詳細、インタラクティブ性などを包含する）新しいコンテンツを生成する。

【0006】

一例として、方法およびシステムは、ソースコンテンツに基づいて複合コンテンツを生成する（例えば、複数のリモートコンテンツキャプチャデバイスによって生成された個々のＰＶ等）。複合コンテンツは、ソースコンテンツ(例えば、その各々が、角度、画質、ズーム、方角、焦点など、所与のイベントの固有の側面を含み得る)を、さまざまな側面の集約を含む単一の複合コンテンツにシームレスに同期してもよい。さらに、高度なデータ編集や手動制作に頼って複合コンテンツを作成するのとは対照的に、本方法とシステムは、この作成を自動的に実現する。いくつかの実施態様では、自動生成は人工知能の使用を通じて支援され、それにもかかわらず、本方法とシステムは、新しいデータフィルタリングと同期プロセスを通じてこれを実現する。

【0007】

データフィルタリングプロセスを実行するために、システムは特定のタイプのデータの使用、それらのタイプのデータに対する特定の処理手法、およびそのデータの特定の処理順序に依存する。例えば、システムは、不変であり得る(例えば、特性が絶対GPS座標に基づいて決定されるので)特定のデータ特性(例えば、位置)と、不変であり得ない(例えば、特性が異なる時刻/日付設定に基づいて変化し得るため)特定の特性(例えば、時間)とを区別する。次いで、システムは、データ特性に基づいて、これらの異なるタイプのデータを異なるデータフィルタリング技術(絶対フィルタリングに対し範囲フィルタリング、枠フィルタリングなど)の対象とする。そうすることによって、システムは、複合コンテンツの生成において使用するために利用可能なコンテンツのプールが同じイベントに関連する(例えば、単一の場所および所与の時間枠内に対応する)が、過度に狭くならないことを保証するシリアルデータフィルタリングプロセスを作成する。システムは、ユーザが、共有時間枠における共有地理的位置の重心点（center-of-mass point）を示すユーザ選択を通じて、このイベントを選択できるようにしてもよい。

【0008】

データフィルタリングプロセスが、同じイベントに確実に関連するアセットのプールを作成するだけでなく、前述のデータフィルタリングプロセスは、データ同期ステップの重要な事前処理ステップを提供する。例えば、異なるコンテンツキャプチャデバイスを使用して生成された異なるコンテンツに依存すると、異なるコンテンツキャプチャデバイスのわずかに異なるタイムコードを有する可能性があるため、フレームのジッター（jittering）が発生する可能性がある（例えば、１／２フレームオフセットでも視覚的な乱雑さを引き起こす可能性がある）。ただし、ほとんどの場合、コンテンツに表れるオブジェクトは、複合コンテンツに悪影響を与えることなく視覚的にスムージングされうる（例えば、特定のイベントに関連する些細な詳細は、視覚的な乱雑さを減らすためにスムージングされてもよい）。場所と時間に基づいて初期データフィルタリングプロセスを実行することにより、システムは、類似のオブジェクトが利用可能なソースコンテンツに表われる高い可能性を保証する。

【0009】

システムは、予期しない結果を使用して、オブジェクト認識に基づいてデータ同期プロセスを実行しうる。例えば、アセットのサブセットを同期するために、システムは、異なるデータ特性(例えば、コンテンツがいつおよびどこでキャプチャされたかとは対照的に、何がキャプチャされたかに関連するデータ特性)に依存してもよい。特に、今、システムは、オブジェクトの向き（orientation）を示すアセットのサブセット内のオブジェクトを識別するために、オブジェクト認識を使用したアセットのサブセットの分析に依存し得る。例えば、コンテンツがキャプチャされたときに、コンテンツキャプチャデバイスが対向する方角を決定するために、システムは位置データ(例えば、GPS座標または軌道を決定するための以前のGPS座標の比較)に依存することができたが、位置データは、複合コンテンツの生成に必要な高い精度を備えている可能性が低い。したがって、システムはさらに別のタイプのデータに依存する。特筆すべきことに、この方法で利用可能なコンテンツのプールにおけるオブジェクト認識を使用することは、従来的に、面倒な処理とリソースの負担を生じる；ただし、データフィルタリングプロセスの後にデータ同期が実行されるため、処理されるべきデータの量が少なくなり、アセットのサブセット内の主要なランドマークとオブジェクトの詳細が検出される可能性が高くなる(したがって、リソースのより効率的な使用につながる)。

【0010】

最後に、システムはデータのフィルタリングと同期プロセスを使用し、その内のオブジェクトに従ってソースコンテンツをマージすることによって複合コンテンツを生成し得る。システムは共有時間枠での共有地理的位置のための選択された重心点に基づいて、複合コンテンツを生成し、あるイベントのサラウンドビデオエクスペリエンスを作成し得る。

【0011】

１つの側面では、データフィルタリングおよび同期を通じて、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するための方法およびシステムが開示される。
例えば、システムは、共有時間枠における共有地理的位置に対する重心点に基づいて複合メディアアセットを要求する第1のユーザ入力を受信し得る。システムは、共有地理的位置の重心点に基づいて共有オブジェクトの向きを決定し得る。システムは、第１のメディアアセットのために第１のメディアアセットデータ構造を検索（retrieve）し得、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含む。システムは、第２のメディアアセットのために第２のメディアアセットデータ構造を検索し得、ここで第２のメディアアセットデータ構造は、第２の位置情報、第２の時間情報、および第２のオブジェクト情報を含む。システムは、第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定し得る。システムは、第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することに応じ、第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定し得る。システムは、第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することに応じ、第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定し得る。システムは、第１のメディアアセットおよび第２のメディアアセットが共有地理的位置第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することに応じ、重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をし得る。

【0012】

本発明の様々な他の側面、特徴、および利点は、本発明の詳細な説明および本明細書に添付された図面を通して明らかにされるであろう。また、前述の一般的な説明および以下の詳細な説明はいずれも例であり、本発明の範囲を制限するものではないことも理解されたい。本明細書および特許請求の範囲において使用されるように、"a"、"an"、および"the"の単数形には、文脈が明確に別段の指示をしない限り、複数の指示対象が含まれる。加えて、本明細書および特許請求の範囲において、文脈が明確に別段の指示をしない限り、「または」という用語は「および／または」を意味する。

【図面の簡単な説明】

【0013】

【図1A】図1A－Eは、1以上の実施態様に従った、イベントのサラウンドビデオ体験を作成するために、共有時間枠における共有地理的位置に対する重心点の選択を示す一連の図を示す。

【図1B】図1A－Eは、1以上の実施態様に従った、イベントのサラウンドビデオ体験を作成するために、共有時間枠における共有地理的位置に対する重心点の選択を示す一連の図を示す。

【図1C】図1A－Eは、1以上の実施態様に従った、イベントのサラウンドビデオ体験を作成するために、共有時間枠における共有地理的位置に対する重心点の選択を示す一連の図を示す。

【図1D】図1A－Eは、1以上の実施態様に従った、イベントのサラウンドビデオ体験を作成するために、共有時間枠における共有地理的位置に対する重心点の選択を示す一連の図を示す。

【図1E】図1A－Eは、1以上の実施態様に従った、イベントのサラウンドビデオ体験を作成するために、共有時間枠における共有地理的位置に対する重心点の選択を示す一連の図を示す。

【0014】

【図2A】図2A－Dは、1以上の実施態様に従った、複合コンテンツの生成のためのソースコンテンツの同期を示す一連の図を示す。

【図2B】図2A－Dは、1以上の実施態様に従った、複合コンテンツの生成のためのソースコンテンツの同期を示す一連の図を示す。

【図2C】図2A－Dは、1以上の実施態様に従った、複合コンテンツの生成のためのソースコンテンツの同期を示す一連の図を示す。

【図2D】図2A－Dは、1以上の実施態様に従った、複合コンテンツの生成のためのソースコンテンツの同期を示す一連の図を示す。

【0015】

【図3】図３は、１以上の実施態様に従って、ソースコンテンツ内のオブジェクトを識別し、コンテンツをマージするときにオブジェクトスムージングを実行するように構成された人工知能モデルを特徴とするシステムを示す。

【0016】

【図4】図4は、1以上の実施態様による、人工知能モデルにおいて使用される人工知能アルゴリズムを特徴とするシステムを示す。

【0017】

【図5】図5は、1以上の実施態様に従う、複合コンテンツの生成に使用するためのマルチモーダルデータを含むデータ構造の図解的な例を示す。

【0018】

【図6】図6は、1以上の実施態様に従う、複合メディアアセットを生成するために、データフィルタリングおよび同期を通じて、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するためのステップの図解的なフローチャートを示す。

【0019】

【図7】図7は、1以上の実施態様に従う、複合メディアアセットを生成するためのオブジェクトを訓練および識別するためのフローチャートを示す。

【発明を実施するための形態】

【0020】

図面の詳細な説明
以下の説明において、説明の目的で、発明の実施態様の完全な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、当業者には、これらの特定の詳細なしで、または同等の配置で、本発明の実施態様が実施され得ることが理解されるであろう。他の事例では、よく知られている構造および装置は本発明の実施態様を不必要に不明瞭にすることを避けるためにブロックダイアグラム形式で示される。

【0021】

本明細書で説明されるように、システムは、異種のメディアアセットまたはコンテンツ(例えば、任意のキャプチャされた画像、ビデオ、または他の記録)を合成し、複合メディアアセットを通じて新規な視覚体験を作り出すことを容易にし得る。例えば、システムは複数のメディアアセットを統合し、視聴者がさまざまな角度からイベントをインタラクティブに視聴する（view）ことができるようにすることができ、視聴者は群衆の中を「飛ぶ」ことができ、バーチャルにあらゆる視点からシーンを調べることが可能である。いくつかの実施態様がビデオに関して本明細書で説明されるが、他の形態の視覚的記録が、ビデオの代わりにまたはビデオに加えて使用され得ることに留意されたい。

【0022】

いくつかの実施態様では、参加ユーザからのメディアアセット―またはクラウドソーシングされたビデオ―は、(例えば、中央のクラウドサーバシステムに)ダウンロードされ、そして時間的に(ビデオ内の時間コードから)および地理的に(例えば、GPS座標または他の地理的位置データを介して)同期されるであろう。いくつかの実施態様では、アプリケーション(例えば、モバイルアプリ)は、様々なカメラの角度を最適化したり、ギャップを埋めるために、コンテンツキャプチャデバイスまたは位置を配置するように(例えば、ユーザのそれぞれのクライアントデバイスを介して)ユーザに警告することができる。一例として、システムは、ユーザのクライアントデバイス上のそれぞれのモバイルアプリに、現在の時間の集合体または地理的に同期されたビデオの1以上のビューを(例えば、現在のシーンの異なる角度または配置から)キャプチャするために、カメラまたは位置を配置するようにユーザに指示する1以上の視覚的インジケータを提示するような命令を提供し得る。

【0023】

例えば、コンテンツキャプチャデバイスは、コンテンツキャプチャデバイスの配置を決定するための全地球測位システム（「GPS」）モジュールまたはコンポーネントを組み込む、および／またはそれにアクセスを有し得る。例えば、コンテンツキャプチャデバイスに組み込まれた加速度計、コンパス、ジャイロスコープなどは、コンテンツキャプチャデバイスが向いている現在の地理的位置および／または方角を示し得る。追加的または代替的に、コンテンツキャプチャデバイスは、動きを検出し、および／または向きを感知することができる1以上のデバイスまたはモジュールを組み込んで、および／またはアクセスを有し得る。

【0024】

いくつかの実施態様では、処理されたビデオの最終結果は、ユーザーの制御下でシーン内を移動する単一のカメラをシミュレートする、単一のインタラクティブな「ビデオ」（または、３次元以上のシミュレートされた空間）となる。静止画を使用して静的構造のモデルを作成する以前のシステムと比較して、本明細書に記載される１以上の実施態様は、フルモーションの、一時的に同期されたイベントの３Ｄ再生を生成し得る（例えば、ユーザーがバーチャルカメラをイベント内のほぼどこにでも配置できる大統領就任式）。

【0025】

いくつかの実施態様では、映像は、広範囲のカメラ、レンズ、焦点距離、フレームレート、解像度、照明設定および地理的変位から発せられるので、これらの差異を軽減するために、映像を事前処理してもよい。カメラによってタイムコードがわずかに異なるため、同期の問題が、フレームのジッターを発生させる可能性がある（例えば、１／２フレームオフセットでも視覚的な乱雑さを引き起こす可能性がある）。いくつかの実施態様では、１以上の予測モデルを使用して、そのような問題に対処し得る。一例として、システムは、ギャップ（例：インビトゥイーニング（inbetweening））を軽減するために３Ｄ畳み込みニューラルネットワーク（3D convolutional neural networks）、適応分離畳み込み、または他のディープラーニング技術によるビデオフレーム補間（video frame interpolation）を使用することによって、そのような問題を軽減することができる。

【0026】

いくつかの実施態様では、カメラの動きは、視聴者がイベントのユニークな体験を作り出すことを可能にする再生メカニズムを使用して、ユーザ制御下にあるであろう；クラウドサーバーからのストリーミング、またはローカルデバイスに保存されているビデオからのストリーミングで、ユーザーがユーザーの制御下で、マルチストリームビデオのコンテンツに対して選択した角度／方角からマルチストリームビデオを視聴することを可能にするように構成されている。ユーザは、画像ストリームの選択、したがって視野角を、動的に変更することができる。

【0027】

いくつかの実施態様では、カメラの地理的空間的分離によって生じるギャップは、新規な映像を作成するディープラーニング方法論を使用して、多数の異なる方法で「埋められる」ことができる。いくつかの実施態様では、ギャップが適切に「埋められ得」ないとAIが決定する状況(例えば、隣接するシーンのアーキテクチャがあまりにも広く異なる場合)において、映像がカットまたは分解（dissolve）されてもよいし、雲のようなアーティファクトが映像に追加されてもよい。

【0028】

いくつかの実施態様では、システムは、ユーザが、生の映像を手動で－個々に又は共同で編集および配置することを可能にするであろう。いくつかの実施態様では、ユーザーは、他人と共有するために、独自の再生体験を記録することを選択してもよい。

【0029】

いくつかの実施態様では、システムは、ユーザがシーンへと「歩み入り」、彼が選択した任意の角度から(例えば、本明細書に記載される刺激空間または他の刺激を介して)それを視聴することを可能にしてもよい。いくつかの実施態様では、シーンの多くの態様がビューから遮られるのでー複数のカメラが採用される場合でさえーいくつかの実施態様は、1以上の前(または将来の)フレームを使用して、特定のフレームのすべての要素を再構成し得る(例えば、テンポラルデータシーク（Temporal Data Seeking)を介して)。例えば、10台のカメラが子供の誕生日パーティーを記録していて、1人の子供が背中に独特な文字が書かれたシャツを着ていて、視聴者が子供の後ろから仮想カメラを配置して彼のシャツを見たい場合である。すべてのカメラは、ビデオ内の特定のポイントではこの眺めからブロックされるため、AIは、フレームの欠落部分をレンダリングするために、前後のフレーム(例えば、フレームの前後の時間)を使用し得る。以前のフレームがこの取り組みをサポートしていない場合、AIは、子供の体型、シャツ、髪の色、またはその他の特徴に基づいて、子供の背中がどのように見えるかについて(例えば、書き込みのないバージョンを含む)最良の予測を採用する。

【0030】

いくつかの実施態様では、シーンの事前撮影は、1以上の予測モデルに追加の情報を提供するために実行され得る。ビデオのAI変換の効率はデータの取得に依存し得るため、シーンの事前の記録が取得され、予測モデルに提供され得る。
例えば、1人以上のユーザーがイベント前に誕生日パーティーの場所の周辺を撮影して、テンポラルデータシークアルゴリズムの背景情報とコンテキスト情報を提供し、後での検索とインタラクティブビデオまたはシミュレート空間に挿入するためのオブジェクトのデータベースを構築してもよい。

【0031】

本発明を、現在最も実用的で好ましい実施態様であると考えられているものに基づく
具体例の目的で詳細に記述したが、そのような詳細はその目的のためだけのものであり、本発明は開示された実施態様に限定されないことを理解されたいが、それどころか、添付の特許請求の範囲内にある変更および同等の取り決めをカバーすることが意図されている。例えば、本発明は、可能な範囲で、任意の実施態様の1以上の特徴を、任意の他の実施態様の1以上の特徴と組み合わせることができることを企図することを理解されたい。

【0032】

図1A－Eは、1以上の実施態様に従って、イベントのサラウンドビデオ体験を作成するために、共有時間枠内の共有地理的位置のための重心点の選択を図解する一連のダイアグラムを示す。例えば、図1Aに示されるように、システムは、重心点(例えば、重心点102)を指定し得る。代替的にまたは追加的に、この重心点は、ユーザによって選択されてもよい。それに応答して、システムは、図1Bに示されるような位置で、複数の利用可能なメディアアセット(例えば、メディアアセット104およびメディアアセット106)を選択し得る。

【0033】

本明細書で使用される場合、「位置」は、現在の地理座標を指す。例えば、位置は、構造物(例えば、公共の建築物、私邸、オフィスビル、レストラン、映画館、車両、橋、博物館、道路、私道、歩道などを含むが、これらに限定されない)、構造物の部屋または区画(例えば、成人の寝室、子供の寝室、キッチン、リビングルーム、バスルーム、ガレージ、または構造の部屋を記述するその他の指定を含むが、これらに限定されない、)、および／または一般的な指定によって記述される可能性のあるその他の物理的設定(例えば、庭、公園、自然または人工のランドマーク、ハイキングコース、水域、自治体などを含むが、これらに限定されない、)として記述される。

【0034】

本明細書で言及されるように、「メディアアセット」および「コンテンツ」という用語は、電子的に消費可能なユーザアセット、例えば、PV、テレビ番組、オンデマンドプログラム(ビデオオンデマンド(VOD)システムと同様)、インターネットコンテンツ(例えば、ストリーミングコンテンツ、ダウンロード可能なコンテンツ、ウェブキャストなど)、ビデオクリップ、オーディオ、コンテンツ情報、写真、回転画像、ドキュメント、プレイリスト、ウェブサイト、記事、書籍、電子書籍、ブログ、広告、チャットセッション、ソーシャルメディア、2D、3D、4D、6D360、LiDAR、レーダー、サーマル、MRI、CATスキャン、複合現実、拡張現実、超音波、赤外線および視覚点群、またはその他の形式、および／またはその他のメディアまたはマルチメディアおよび／またはそれらの組み合わせなどの形式およびデータタイプを含むアプリケーション、等を意味すると理解されるべきである。本明細書で言及されるように、用語「マルチメディア」は、上述の少なくとも2つの異なるコンテンツ形態、例えば、テキスト、オーディオ、画像、ビデオ、またはインタラクティブ性のあるコンテンツ形態を利用するコンテンツを意味すると理解されるべきである。コンテンツは、ユーザー機器デバイスによって記録、再生、表示、またはアクセスされる場合があるが、ライブパフォーマンスの一部にすることもまた可能である。

【0035】

本明細書で使用される場合、「コンテンツキャプチャデバイス」は、オーディオ/ビデオデータなどのデータ(例えば、イベントを記述するデータ)をキャプチャすることができるデバイスを指す。いくつかの実施態様では、コンテンツキャプチャデバイスは、1以上のコンポーネントまたはセンサ(例えば、画像、オーディオ、ビデオ、および／または他の任意のタイプのデータをキャプチャすることができるコンポーネントまたはセンサ)を組み込むことができる。例えば、コンテンツキャプチャデバイスは、限定ではないが、カメラ(例えば、画像および／またはビデオをキャプチャすることができる)および／またはマイク(例えば、サウンドをキャプチャすることができる)を包含し得る。

【0036】

システムはまた、所与の位置の中心点(例えば、重心点102)に対する向き(例えば、メディアアセットおよび／またはコンテンツキャプチャデバイスの)に基づいて、メディアアセットを選択し得る。例えば、向きは、位置における任意のオブジェクトに関連して、および／またはメディアアセット内で識別され得る。すなわち、共有の向きは、メディアアセットが作成されたときにコンテンツキャプチャデバイスが向けられた(またはそこから遠ざかる（pointed away from）)方角を指し得、および／または、向きは、メディアアセット内に現れるオブジェクト(またはオブジェクトのセット)を参照し得る。

【0037】

システムはまた、ベストフィットメカニズム（best-fit mechanism）を使用して、どのメディアアセット(またはコンテンツキャプチャデバイス)が適切な共有の向きを有するかを決定することができる。例えば、ベストフィットメカニズムは、メディアアセットが共有オブジェクトの向きを有するか否かに基づいて、ある場所(例えば、メディアアセット104およびメディアアセット106)におけるメディアアセットをフィルタリングし得る。この共有オブジェクトの向きは、中心点にベストフィットメカニズムを適用した結果であり得る。

【0038】

例えば、他のメディアアセットをマージすることによって複合メディアアセットを正常に作成され得る拡張現実および／または仮想現実環境を実現するために、システムは、メディアアセットが共有オブジェクトの向きを有すると決定する必要があるかもしれない。いくつかの実施態様では、これは、中心点の周りに連続的な(またはほぼ連続的な)周囲（perimeter）を作り出すメディアアセットのサブセットに対して利用可能なメディアアセットをフィルタリングすることを必要とし得る。これを行うために、システムは、ベストフィットメカニズムの変数に対応する様々なフィルタ基準を使用し得る。

【0039】

例えば、システムは、メディアアセットをフィルタリングして、中心点(例えば、重心点102)の周りの最小の円(または他の含まれる形状)を決定し得る。次いでこの含まれる形状内のメディアアセットを使用して、複合メディアアセットを生成し得る。これを行うために、システムは、メディアアセットデータ構造を繰り返しサーチして、含まれる形状に対応するそれぞれのメディアアセットの地理的および時間的情報を決定してもよい。

【0040】

図1Cに示されるように、システムは、中央に重心点を有する円と近似する「外輪」（outer ring）(例えば、円108)内のメディアアセットを選択することができる。いくつかの実施態様では、1以上の再生方法を使用して、システムは、ユーザがこの「外輪」の周りを時計回りまたは反時計回りに連続して「スクロール」するオプションを可能にし得る。円の周りを回転している間の任意の点で、システムは、重心点に向かって「前進する」（“move forward”）ことを選ぶユーザ入力を受信し得る。この場合、システムは、最後に選択されたメディアアセットから始めて、重心点への移動を最もよく表す一連のメディアアセットを選択し得る。例えば、図1Dに示されるように、システムは、ユーザが割り当てられた軸上で左または右に移動することを可能にしてもよく、または、システムは、ユーザが、この軸上で最後に選択されたメディアアセットから開始して時計回りまたは反時計回りの方角に回転することを選択することを可能にしてもよい。

【0041】

いくつかの実施態様では、円108のサイズおよび／または位置付け（placement）は、システムがベストフィットメカニズムを使用する結果であってよく、これは、利用可能なメディアアセットが一連のデータ点を表すカーブフィッティングプロセスであり得る。カーブフィットプロセスは、補間またはスムージングを使用して、含まれる形状(例えば、円、多項式、および／または中心点の周りの他の形状)を生成し得る。例えば、補間を使用する実施態様では(例えば、多項式補間を適用する数学関数に基づいて)、システムは、利用可能なメディアアセットがカーブフィットを満たすような(例えば、含まれる形状のカーブと整列する)含まれる形状のみを選択し得る。スムージングを使用する実施態様では(例えば、多項式回帰を適用する数学関数に基づいて)、システムは、利用可能なメディアアセットが閾値内のカーブフィットを満たす(例えば、含まれる形状のカーブと整列する)含まれる形状を選択し得る。閾値は、いくつかの実施態様では、メディアアセット画像間の許容可能なぼかし（blurring）の量に基づくものとすることができる。

【0042】

カーブフィットの間、システムは、カーブからの点の垂直(y軸)変位を最小化するカーブ(例えば、通常の最小二乗法)を見つけるベストフィットメカニズムを使用し得る。追加的または代替的に、システムは、最良の視覚的適合を見出すベストフィットメカニズム(例えば、カーブへの直交距離を最小化しようとする(例えば、最小二乗の合計)、またはさもなくばカーブからの点の変位の両方の軸を包含しようとする試み)を使用してもよい。

【0043】

追加的にまたは代替的に、システムは新しい重心点を動的に選択してもよい。例えば、メディアアセットの可用性が変化するにつれて、重心点は移動または時間とともに移ってもよい。次いで、システムは、これらの変更に基づいて新しいメディアアセット(例えば、メディアアセット110およびメディアアセット112)を選択し得る。例えば、システムは、メディアアセットデータ構造を反復的および／または連続的に検索して、ユーザーの配置に対する変化の両方に基づいて、また、利用可能なメディアアセットにおける変化に基づいて、含まれる形状に対応するそれぞれのメディアアセットについての地理的および時間的情報を決定してもよい。そのため、システムは、複合メディアアセットの生成に使用されるメディアアセットを継続的に更新し得る。

【0044】

システムは、ユーザが、図1Eに示されるような新しい時間枠などの任意の時点で(例えば、メディアアセット114およびメディアアセット116に基づいて)複合メディアアセットを視聴するために異なる時間を選択することを可能にし得る。利用可能なメディアアセットは時間とともに劇的に変化する可能性があるため、システムは、複合メディアアセットと、利用可能なメディアアセットを示すユーザーインターフェイス、ならびに複合メディアアセットの生成のためのパラメータ(例えば、メディアアセットにぼかしの量および／またはスムーズに適用される)を更新してもよい。例えば、個々のメディアアセットが終了すると、使用可能なメディアアセットのデータベースから削除され、中心点、円周計算、複合メディアアセットの生成には使用されなくなる。

【0045】

いくつかの実施態様では、システムはさらに、シームレスな複合メディアアセットを保証するために、メディアアセット間の画像ぼかしの許容可能な量に基づいて利用可能なメディアアセットをフィルタリングすることができる。そのように、システムは、利用可能なメディアアセット、ならびに複合メディアアセットの解像度および／または(例えば、ユーザ設定に基づく)品質決定に基づいて、含まれる形状(例えば、円108)を自動的に調節し得る。そのように、含まれる形状は、ユーザー入力、時間、および／または利用可能なメディアアセットの関数として、サイズ、形状、向き、および／または配置が動的に変化し得る。

【0046】

図2A－Dは、1以上の実施態様に従った、複合コンテンツの生成のためのソースコンテンツの同期を図解する一連のダイアグラムを示す。例えば、図2のA－Bに示すように、システムは、メディアアセットを可能な限り自動的に整列させてもよい。例えば、メディアアセットは、垂直モードまたは水平モードのいずれかで作成されたコンテンツを含み得、システムは、オブジェクトまたはオブジェクトの詳細(例えば、ランドマークまたは人物)を基準点（a reference point）として使用して表示する水平モードの最も適切な部分を選択することによって、水平モードを垂直モードに変換し得る。例えば、図2Aは、垂直に撮影されたメディアアセットのフレームを示し、図2Bは、異なる角度から、水平モードで撮影された類似のフレーム(この例では時間的に同期されていない)を示す。

【0047】

システムは、オブジェクトおよびオブジェクトの詳細(例えば、ランドマークとしての建築物)を使用して、メディアアセットを回転、サイズ変更、および／またはトリミングする方法を決定するとともに、図2Cに示されるように、メディアアセットをぼかしおよびスムージングして複合メディアアセットを生成し得る。結果として得られる複合メディアアセットは、比較的均等にマッチングされ、図2Dに示されるようなスムーズな再生体験を生み出すだけでなく、スクロールの特徴をより見た目上、心地よいものにする。

【0048】

例えば、メディアアセット内のオブジェクトがスムージングされていることは図2Dに示されている。例えば、いくつかの実施態様では、システムは、スムージングされた画像の1パラメータ族として画像を表現する、微細スケール構造を抑制するために使用されるスムージングカーネルのサイズによってパラメータ化された、スケールスペース表現により、異なるスケールでの画像オブジェクトの処理に関連するスケールスペースマージ法を使用し得る。例えば、システムは、最適なレベルに設定された画像に対応する画像内のオブジェクトを識別してもよい。様々なレベルのぼかしを使用することにより、オブジェクト（例えば、画像内の人物）またはオブジェクトの詳細（例えば、オブジェクトの特性）を単一のオブジェクトに一緒にぼかすことができる。次いで、その後、システムは、（2つのオブジェクトまたは2つのオブジェクトの詳細とは対照的に）1つのオブジェクトまたはオブジェクトの詳細を、オブジェクトの互いの近接性に基づいて検出することができる。

【0049】

例えば、スケールスペースマージング（またはフィルタリング）は、画像を対象として異なるフィルタリングレベル（ぼかし）をかけ、特定の基準（例えば、細かいディテールと粗いディテール、ノイズ除去、重要なコンポーネントの選択）に基づいて１つを選択する。例えば、画像にぼかしをかけると、互いに近くに位置するオブジェクトは1つのオブジェクトにマージされる。

【0050】

システムは、メディアアセット内のオブジェクトの数がある閾値に対応する、および／または満たすことを保証するように、ぼかしの最適レベルを決定してよい。例えば、より高いフィルタ（例えば、より多くのぼかしを特徴とする）は、より多くの画像が、より少ない全体的なオブジェクトとともにぼかされることを可能にし、一方、より低いフィルタ（例えば、より少ないぼかしを特徴とする）は、より少ない画像が、より多くのオブジェクトの詳細とともにシームレスにぼかされることを可能にし得る。このように、システムは、スケール空間フィルタリングを使用して最適なぼかし量を検出することができる。

【0051】

ぼかしの最適な量を決定するために、システムはセグメント化された線形回帰を使用し得る。例えば、画像のぼかしには、次のように定義されたガウスカーネル（Gaussian kernel）が使用される：

【数1】

ここで、(x,y)は画像のピクセル座標、σはぼかしスケールを制御するぼかしパラメーターである。ぼかしを適用すると、識別されたオブジェクトの数は、ぼかしスケールσの関数f:N_objects=F(σ)として計算される。

【0052】

オブジェクトの数は、σが増加するにつれて減少するであろう。そこでセグメント化された線形回帰を使用して、N_objects=F(σ)を2つのセグメントにセグメント化しうる。ブレークポイント（breakpoint）が検出され、および、システムは最適なぼかしスケール(σ_opt)を提供し、それは2つのメディアアセットに最適なぼかしg(x,y,σ_op)を適用するために使用される。

【0053】

いくつかの実施態様では、システムは、受信データ内のオブジェクトを決定するのに、コンテンツ認識モジュールまたはアルゴリズムを使用してもよい。コンテンツ認識モジュールは、エッジ検出、パターン認識(例えば、ニューラルネットワーク)、光学式文字認識、オンライン文字認識(動的文字認識、リアルタイム文字認識、インテリジェント文字認識を包含するがこれらに限定されない)、および／または、受信したデータ内のオブジェクトおよび／または位置間の関係を決定するための任意の他の適切な技術または方法などのオブジェクト認識技術を使用し得る。例えば、システムは、ビデオの形態でメディアアセットを受信し得る。ビデオは、一連のフレームを包含し得る。ビデオの各フレームについて、システムは、フレームまたは一連のフレームの各々におけるオブジェクトを決定するために、コンテンツ認識モジュールまたはアルゴリズムを使用してもよい。加えて、コンテンツ認識モジュールまたはアルゴリズムは、オブジェクトの境界を位置決めし、および／または、フレーム内のオブジェクトの詳細を検出することもできる。

【0054】

いくつかの実施態様では、コンテンツ認識モジュールまたはアルゴリズムは、話された単語をテキストに翻訳し、および／またはオーディオデータを処理するための、隠れマルコフモデル（Hidden Markov Models）、動的時間ワーピング、および／またはニューラルネットワーク(上述したように)を含むがこれらに限定されない音声認識技術をも含んでよい。例えば、システムは、メディアアセットに記録されたオーディオを使用して、オブジェクトを識別することができ、および／または、オーディオデータをマージしてもよい。コンテンツ認識モジュールはまた、複数の技術を組み合わせて、受信されたメディアアセット内のオブジェクトおよび／またはオブジェクト間の関係を決定し得る。

【0055】

さらに、システムは、例えば、位置に関連付けられたデータ(例えば、テキストデータ、翻訳されたオーディオデータ、ユーザ入力など)から検索されたキーワードを処理するとき(または、異なる位置タイプに関連付けられた異なるオブジェクトを示すデータベース内の様々なタイプのデータを相互参照する場合)に、複数のタイプの光学式文字認識および／またはファジー論理を使用し得る。例えば、受信された特定のデータがテキストデータである場合、ファジー論理を使用して、システムは(例えば、メディアガイダンスアプリケーションに組み込まれた、またはメディアガイダンスアプリケーションによってアクセス可能なコンテンツ認識モジュールまたはアルゴリズムを介して)データまたは値の内容(例えば、2つの異なる綴り)が同一でなくても、2つのフィールドおよび／または値が同一であると決定し得る。いくつかの実施態様では、システムは、特定の値またはテキストについて、データ構造またはメディアアセットフレームの特定の受信データを分析し得る。受信されるデータは、特性、追加情報、および／または、本明細書に記述される実施態様の機能に必要な任意の他のデータと関連付けられ得る。さらに、データには値を含有することができる(例えば、データはバイナリまたはその他の適切なコードまたはプログラミング言語で表現できる)。

【0056】

図3は、1以上の実施態様に従って、ソースコンテンツ内のオブジェクトを識別し、コンテンツをマージするときにオブジェクトスムージングを実行するように構成された人工知能モデルを特徴とするシステムを示す。図3に示されるように、システム300は、クライアントデバイス302、クライアントデバイス304または他のコンポーネントを含有し得る。クライアントデバイス302および304の各々は、任意のタイプのモバイル端末、固定端末、または他のデバイスを含み得る。これらのデバイスの各々は、入出力(以下「I/O」)パスを介してコンテンツおよびデータを受信してもよく、I/Oパスを使用してコマンド、要求、および他の適切なデータを送受信するためのプロセッサおよび／または制御回路も含み得る。制御回路は、任意の適切な処理回路を含み得る。これらのデバイスの各々は、データの受信および表示に使用するためのユーザ入力インターフェースおよび／またはディスプレイも包含し得る。例として、クライアントデバイス302および304は、デスクトップコンピュータ、サーバ、または他のクライアントデバイスを包含し得る。ユーザは、例えば、1以上のクライアントデバイス302および304を利用して、互いに、1以上のサーバ、またはシステム300の他のコンポーネントと相互作用し得る。1以上のオペレーションがシステム300の特定のコンポーネントによって実行されるものとして本明細書で記述されるが、それらのオペレーションは、いくつかの実施態様では、システム300の他のコンポーネントによって実行され得ることに留意されたい。一例として、1以上のオペレーションがクライアントデバイス302のコンポーネントによって実行されるものとして本明細書で記述されるが、それらのオペレーションは、いくつかの実施態様では、クライアントデバイス304のコンポーネントによって実行され得る。いくつかの実施態様は機械学習モデルに関して本明細書で記述されるが、他の予測モデル(例えば、統計モデルまたは他の分析モデル)は、他の実施態様における機械学習モデルの代わりに、またはそれに加えて使用され得ることに留意されたい(例えば、1以上の実施態様において、機械学習モデルを置き換える統計モデルおよび非機械学習モデルを置き換える非統計モデル)。つまり、「機械学習モデル」、「モデル」、および／または「人工知能モデル」は、任意の人工知能モデルを含有すると見なす必要がある。

【0057】

これらのデバイスの各々は、電子ストレージの形態のメモリもまた含有し得る。電子ストレージは、情報を電子的に保存する非一時的ストレージメディアを含有し得る。電子ストレージの電子ストレージメディアは、(i)サーバまたはクライアントデバイスと一体的に(例えば、実質的に取り外し不可能に)提供されるシステムストレージ、または(ii)例えば、ポート(例えば、USBポート、ファイヤワイヤ(firewire)ポートなど)またはドライブ(例えば、ディスクドライブなど)を通じてサーバまたはクライアントデバイスへ取り外し可能に接続可能な取外し可能ストレージを包含し得る。電子ストレージは、1以上の光学的に読み取り可能なストレージメディア(例えば、光ディスクなど)、磁気的に読み取り可能なストレージメディア(例えば、磁気テープ、磁気ハードドライブ、フロッピードライブなど)、電荷ベースのストレージメディア(例えば、EEPROM、RAMなど)、ソリッドステート電子ストレージ(例えば、フラッシュドライブなど)、および／または他の電子的に読み取り可能なストレージメディアを含有し得る。電子ストレージは、1以上の仮想ストレージリソース(例えば、クラウドストレージ、仮想プライベートネットワーク、および／または他の仮想ストレージリソース)を包含し得る。電子ストレージは、ソフトウェアアルゴリズム、プロセッサによって決定される情報、サーバから取得された情報、クライアントデバイスから取得された情報、または本明細書に記述されるような機能性を可能にする他の情報を保存し得る。

【0058】

図3はまた、通信経路308、310、および312を含有する。通信経路308、310、および312は、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク(例えば、5GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話網、または他のタイプの通信ネットワークまたは通信ネットワークの組み合わせを含有し得る。通信経路308、310、および312は、別個にまたは一緒に、1以上の通信経路、例えば、衛星経路、光ファイバ経路、ケーブル経路、インターネット通信をサポートする経路(例えば、IPTV)、自由空間接続(例えば、ブロードキャストまたは他の無線信号用)、または任意の他の適切な有線もしくは無線通信経路、またはそのような経路の組み合わせを含有し得る。コンピューティングデバイスは、一緒に動作する複数のハードウェア、ソフトウェア、および／またはファームウェアコンポーネントをリンクする追加の通信経路を含有し得る。例えば、コンピューティングデバイスは、コンピューティングデバイスとして一緒に動作するコンピューティングプラットフォームのクラウドによって実装され得る。

【0059】

いくつかの実施態様では、システム300は、複合コンテンツを生成し、オブジェクトを識別し、および／またはコンテンツをマージするために使用される1以上の予測モデルを使用し得る。例えば、図3に示されるように、システム300は、機械学習モデル322を使用して検出し得る。決定は、クライアントデバイス304上に出力318として示されて出力され得る。システムは、1以上のニューラルネットワーク(例えば、図3に関連して論じられるように)または他の機械学習モデルを含有し得る。

【0060】

一例として、図3に関して、機械学習モデル322は、入力324を取り、出力326を提供し得る。入力には、トレーニングデータセットやテストデータセットなどの複数のデータセットが含有されてよい。データセットは、オブジェクトの画像(または画像セット)を表し得る。1つの使用例では、出力326は、機械学習モデル322を訓練するための入力として(例えば、単独で、もしくは出力326の精度のユーザ指示、入力に関連付けられたラベル、または他の参照フィードバック情報と併せて)機械学習モデル322にフィードバックされ得る。別の使用例では、機械学習モデル322は、その予測の評価(例えば、出力326)および参照フィードバック情報(例えば、精度のユーザ表示、参照ラベル、または他の情報)に基づいて、その構成(例えば、重み、バイアス、または他のパラメータ)を更新し得る。別の使用例では、機械学習モデル322がニューラルネットワークである場合、ニューラルネットワークの予測と参照フィードバックとの間の差異を調和させるために、接続重みを調節してもよい。さらなる使用例では、ニューラルネットワークの1以上のニューロン(またはノード)は、更新プロセス(例えば、エラーのバックプロパゲーション)を容易にするために、それらのそれぞれのエラーがニューラルネットワークを通じてそれらにバックワードに送られることを要求し得る。例えば、接続の重みの更新は、フォワードパスの完了後にバックワードに伝播されるエラーの大きさを反映している場合がある。例えばこのようにして、機械学習モデル322はより良い予測を生成するように訓練され得る。

【0061】

機械学習モデル322は、オブジェクトを識別するように訓練され得る。例えば、クライアントデバイス302または304は、(例えば、コンテンツキャプチャデバイスを介して)オブジェクトを識別し、オブジェクトの画像に基づいて第1のピクセルアレイを生成し、オブジェクト(または第1のピクセルアレイ)にラベルを付けることができる。例えば、機械学習モデル322は、様々なオブジェクトに対する分類を有することができる。次いで、機械学習モデル322は、未知のオブジェクトを分類するために、第1のデータセット(例えば、既知のオブジェクトのデータ)に基づいて訓練される。

【0062】

次いで、システムは第2のオブジェクトを受信し得る。クライアントデバイス302または304は、第2のオブジェクトの画像に基づいて第2のピクセルアレイを生成し、第2のピクセルアレイを機械学習モデル322に入力し得る。次いで、システムは、第2のオブジェクトが第1の(または別のオブジェクト)と同じであることを示す出力を機械学習モデル322から受信し得る。例えば、システムは、機械学習モデル322に第2の画像を入力し得る。次いで、機械学習モデル322は、第2の画像内のオブジェクトを分類し得る。例えば、人物、建築物、オブジェクト、および／またはオブジェクトの詳細は、機械学習モデル322の第1の分類であってもよく、システムは、第2のピクセルアレイを第1の分類に一致させることに基づいて、第2のオブジェクトが同じであるという出力を機械学習モデル322から生成し得る。

【0063】

図4は、1以上の実施態様に従った、人工知能モデルにおいて使用される人工知能アルゴリズムを特徴とするシステムを示す。モデル400は、人工ニューラルネットワークを図示する。モデル400は、入力レイヤ402を含有する。画像は、このレベルでモデル400に入れられてよい。モデル400はまた、1以上の隠れレイヤ(例えば、隠れレイヤ404および隠れレイヤ406)を含む。モデル400は、ニューラルユニット(または人工ニューロン)の大規模な集合体に基づくことができる。モデル400は、(例えば、軸索によって接続された生物学的ニューロンの大きなクラスターを介して)生物学的脳が働く方法を大まかに模倣する。モデル400の各ニューラルユニットは、モデル400の他の多くのニューラルユニットと接続され得る。そのような接続は、接続された神経ユニットの活性化状態に対するそれらの効果において強制的または抑制的であり得る。いくつかの実施態様では、個々のニューラルユニットは、その全ての入力の値を一緒に組み合わせる総和関数を有し得る。
いくつかの実施態様では、各接続(またはニューラルユニット自体)は、信号が他のニューラルユニットに伝播する前に超えなければならないような閾値関数を有し得る。モデル400は、明示的にプログラムされるのではなく、自己学習および訓練されてもよく、従来のコンピュータプログラムと比較して、問題解決の特定の領域において著しく優れた性能を発揮することができる。訓練の間、出力レイヤ408は、モデル400の分類(例えば、所与の画像が特定のオブジェクトに対応するか否か)に対応してもよく、その分類に対応することが知られている入力が入力レイヤ402に入力されてもよい。

【0064】

いくつかの実施態様では、モデル400は、複数のレイヤ(例えば、信号経路が前レイヤから後レイヤに横断する)を包含し得る。いくつかの実施態様では、バックプロパゲーション技法（back propagation technique）がモデル400によって利用され得、ここで、前方刺激は、「前部」ニューラルユニット上の重みをリセットするために使用される。いくつかの実施態様では、接続はより混沌とした複雑な様式で相互作用して、モデル400に対する刺激および抑制は、より自由に流れることができる。モデル400はまた、出力レイヤ408を包含する。テストの間、出力レイヤ408は、所与の入力がモデル400の分類に対応するか否か(例えば、所与の画像が特定のオブジェクトに対応するか否か)を示し得る。

【0065】

図4はまた、畳み込みニューラルネットワークであるモデル450を含有する。畳み込みニューラルネットワークは、1以上の畳み込みレイヤを特徴とする人工ニューラルネットワークである。畳み込みレイヤは、入力画像から特徴を抽出する。畳み込みは、入力データの小さな正方形を使用して画像の特徴を学習することにより、ピクセル間の関係を保持する。例えば、画像の個々の部分間の関係などである。モデル450に示されるように、入力レイヤ452は、畳み込み出力460に出力される前に畳み込みブロック454、456、および458に進み得る。いくつかの実施態様では、モデル450自体がモデル400への入力としての役目を果たすることができる。

【0066】

オブジェクトを識別するアプリケーションに関して、モデル450はまた、性能を改善するために調節され得る。例えば、モデル450は、各重みが測定され、重要でない重みが除去されるように、重みプルーニング（pruning）を受け得る。特に、このデータの損失は、情報が情報のないデータの一部とよく対照的であるため、全体的な精度に影響を与えない。同様に、スパース畳み込みニューラルネットワーク、特に部分多様体スパース畳み込みネットワークも、オブジェクト認識アプリケーションにおいて良好な性能を発揮する。最大のスパース性は、チャネル間とチャネル内の冗長性の両方を活用して得られ、スパース性の最大化によって生じる認識の損失（recognition loss）を最小限に抑えるファインチューニング（fine-tuning）ステップを備えている。また、本明細書で論じる実施態様は、CNN－LSTMおよびメディアアセットと協働するように設計されたスパイキングニューラルネットワークを含む(他の/任意の)ディープラーニング、機械学習、または微分可能なプログラミングアーキテクチャと共にもまた使用され得ることに留意されたい。

【0067】

いくつかの実施態様では、システムは、1以上の実施態様に従って、オブジェクト認識のために長・短期記憶(LSTM)ネットワークを使用してよい。例えば、システムが最適な数のオブジェクトまたはオブジェクトの詳細を検出および抽出した後、システムは、オブジェクト認識のためにLSTMネットワークを使用してよい。

【0068】

例えば、LSTMは人工リカレントニューラルネットワーク(「RNN」)アーキテクチャである。LSTMの使用は、他のタイプのRNNアーキテクチャよりも優れた結果を提供する可能性がある。例えば、バックプロパゲーションを使用して他のRNNをトレーニングする場合、有限精度の数を使用するプロセスに関連する計算のために、バックプロパゲーションされる勾配はゼロまたは無限大になる傾向がある。LSTMユニットを使用するRNNは、LSTMユニットが勾配が変更せずに流れることをもまた可能にするため、消失勾配の問題を部分的に解決する。

【0069】

システムは、ビームサーチ（beam search）を使用して、先行するオブジェクトに基づくオブジェクトの条件付き確率を考慮に入れることによって生の確率を最適化してもよい。例えば、ビームサーチは、限られたセット内で最も有望なノードを展開することによってグラフを探索するヒューリスティック探索アルゴリズムである。ビームサーチは、メモリ必要量を削減する最良優先探索（best-first search）の最適化である。システムは、オブジェクトに対応するオブジェクトの詳細を決定し、および／またはオブジェクトまたはオブジェクトの詳細をデジタル的に認識し得る。

【0070】

図5は、1以上の実施態様に従う、複合コンテンツの生成に使用するためのマルチモーダルメタデータを含むデータ構造の具体的な例を示す。データ構造500は、複合メディアアセットの生成において使用するために利用可能であるメディアアセットと、システムによって生成および／または受信され得る。例えば、データ構造500は、処理されているコンテンツキャプチャデバイスによって記録された画像に関連し得る。データ構造500は、マルチモーダルメタデータを特徴としてよく、これは、コンテンツキャプチャデバイスの位置、または位置におけるオブジェクトを記述するシステムによって受信される。

【0071】

いくつかの実施態様では、データ構造500を、(例えば、システムに組み込まれ、または、システムによってアクセス可能な)コンテンツ認識モジュールによって処理して、位置における、および／またはメディアアセットの内部のオブジェクトを決定することができる。例えば、システムは、ユーザ機器デバイスの位置における特定のオブジェクトを識別するためにデータ構造500を処理し得る。次いで、識別されたオブジェクトを使用して、マージされたメディアアセットを決定し、および／または複合メディアアセットを生成し得る。

【0072】

データ構造500は、オブジェクトを識別するためにシステムによって使用され得るコードのいくつかのフィールドを含有する。フィールド502は、メディアアセットに関連付けられたデータ構造500内のデータの開始をシステムに対して示し、フィールド526は、メディアアセットに関連付けられたデータ構造500内のデータの終わりをシステムに示す。

【0073】

フィールド504は、画像が取り込まれた配置(または地理的位置)を示す。いくつかの実施態様では、画像が取り込まれた配置は、メディアアセットが共有された地理的位置に対応するか否かを決定するために、システムによって使用され得る。例えば、フィールド504は、メディアアセットについてのGPS座標を記述し得る。いくつかの実施態様では、メディアガイダンスアプリケーションは、位置に関する追加情報を決定するために、GPSデータベースとこの情報を相互参照してもよく、これは、(例えば、位置が屋内、屋外、私邸、公共の建築物などであるか否かの)位置タイプを示すことができる。いくつかの実施態様では、システムは、ベストフィットメカニズムのための対応するデータポイントを識別するために、この情報を検索することができる。

【0074】

追加的または代替的に、システムは、配置情報を使用して、利用可能なメディアアセットのマップにインジケータを追加し得る(例えば、図1A～Eに示されるように)。例えば、システムは、この情報を使用して、他の位置に対する位置の地理的座標を記述するマッピングを生成し得る。

【0075】

フィールド506は、メディアアセットに対応する時間または時間枠を記述する。時間は、コンテンツキャプチャデバイスの内部時計によって生成されてもよく、またはリモートタイムスタンプに基づいて生成されてもよい。フィールド508からフィールド620までは、場所の画像を記述する情報をメディアガイダンスアプリケーションに対して示し得る。例えば、フィールド508からフィールド524までは、メディアアセット内に位置する1以上のオブジェクトに関する情報を示し得る。例えば、フィールド510からフィールド522までは、オブジェクト(例えば、建築物)が位置の画像無において識別されたことを示し得る。フィールド514は、オブジェクトのサイズを示す。フィールド516はオブジェクトの形状を示し、フィールド518はオブジェクトの配置を示す。オブジェクトを記述する情報は、オブジェクトを識別するためにシステムによって使用され得る。例えば、システムは、フィールド510からフィールド520までに含まれる情報をルックアップテーブルデータベースに入力するか、または、情報を使用して機械学習モデルのための特徴入力を生成してもよい。

【0076】

例えば、受信データ内のオブジェクトまたは位置をロケーションデータベース内のオブジェクトまたは位置と照合すると、システムは、一致したオブジェクトまたは位置に対応するものとしてロケーションデータベースに示されたロケーション名に基づいて、メディアアセットの現在の位置を決定する。ユーザメディアアセットの現在の位置を決定した後、システムは、特定の位置に対応する1以上のメディアアセットを選択、推奨、および／または送信し得る。

【0077】

いくつかの実施態様では、コンテンツキャプチャデバイスのオペレーションパラメータも、データ構造500に含まれ得る。本明細書で使用される場合、「オペレーションパラメータ」は、コンテンツキャプチャデバイスの記録能力および特性に関連する特性および性質(properties)を指す。例えば、オペレーションパラメータは、コンテンツキャプチャデバイスがコンテンツを生成するために使用するフォーマット、解像度、向き、表示品質、または、他の特徴(例えば、3D表示能力、サラウンドサウンドオーディオ、画面サイズ制限など)を含有し得る。例えば、システムは、この情報を使用して、メディアアセットをマージすることができる。この情報は、許容可能な量のぼかし、および／またはメディアアセットが特定の量のぼかしに使用できるかどうかを決定するためにも使用され得る。

【0078】

図6は、１以上の実施態様に従って、データのフィルタリングと同期を通じ、マルチモーダルメタデータに基づいて複合メディアアセットを生成するための、未調整のコンテンツを調整するためのステップの図示的なフローチャートを示す。プロセス600は、図3で記述された1以上のコンポーネントの制御回路を使用して実行され得る。

【0079】

ステップ602において、プロセス600は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のユーザー入力を受信する。例えば、システムは、共有時間枠での共有地理的位置のための重心点に基づいて複合メディアアセットを要求する第１のユーザー入力を受信する。例えば、システムは、共有地理的位置の重心点に基づいて共有オブジェクトの向きを決定する。

【0080】

いくつかの実施態様においては、共有時間枠での共有地理的位置のための重心点に基づいて複合メディアアセットを要求する第１のユーザー入力を受信することは、第１のメディアアセット内のオブジェクトのユーザー選択を受信すること；オブジェクトが見出された地理的位置を決定すること；地理的位置を共有地理的位置として割り当てること；および地理的位置におけるオブジェクトの配置を重心点として割り当てることを含む。

【0081】

ステップ604において、プロセス600は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のメディアアセットデータ構造を検索してもよい。例えばシステムは第１のメディアアセットデータのために、第１のメディアアセットデータ構造を検索してもよく、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含む。例えば、位置情報は、第1のメディアアセットに対応する地理的位置を示し得る。時間情報は、第1のメディアアセットに対応する時間を示してもよい。オブジェクト情報は、第1のメディアアセットに含有されるオブジェクトを示してもよい。

【0082】

いくつかの実施形態では、各メディアアセットは、複数のフレームを含んでもよく、システムは、各フレームに関する情報を検索し、1以上のフレームを動的にマージして、複合メディアアセットを作成し得る。例えば、システムは、複合メディアアセットを生成するための複数のフレームのうちの第1フレームを決定してもよい。システムは、第1のフレームに対応する第1のメディアアセットデータ構造のサブセットを決定し得る。システムは、位置情報、第1の時間情報、および第1のオブジェクト情報を、第1のメディアアセットデータ構造のサブセットから検索することができる。

【0083】

ステップ606において、プロセス600は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第2のメディアアセットデータ構造を検索する。例えば、システムは、第2のメディアアセットのための第2のメディアアセットデータ構造を検索してもよく、ここで、第2のメディアアセットデータ構造は、第2の位置情報、第2の時間情報、および第2のオブジェクト情報を含む。

【0084】

ステップ608において、プロセス600は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のメディアアセットおよび第2のメディアアセットが共有地理的位置に対応していると決定する。例えば、システムは、第1の位置情報および第2の位置情報の分析に基づき、第1のメディアアセットおよび第2のメディアアセットが共有地理的位置に対応すると決定し得る。

【0085】

いくつかの実施態様では、第1の位置情報および第2の位置情報の分析に基づき、第1のメディアアセットおよび第2のメディアアセットが共有地理的位置に対応すると決定することは、さらに、共有された地理的位置を示す第2のユーザ入力を受信し、共有された地理的位置を示す第2のユーザ入力の受信に応じて、複数の利用可能なメディアアセットのためのそれぞれの位置情報および共有地理的位置の比較に基づいて複数の利用可能なメディアアセットをフィルタリングして、メディアアセットの第1のサブセットを生成することを含んでもよい。

【0086】

ステップ610において、プロセス600は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のメディアアセットおよび第2のメディアアセットが共有時間枠に対応することを決定する。例えば、システムは、第1のメディアアセットおよび第2のメディアアセットが共有地理的位置に対応すると決定することに応じて、第1の時間情報および第2の時間情報の分析に基づき、第1のメディアアセットおよび第2のメディアアセットが共有時間枠に対応すると決定する。

【0087】

いくつかの実施態様では、第1の時間情報および第2の時間情報の分析に基づいて、第1のメディアアセットおよび第2のメディアアセットが共有時間枠に対応すると決定することは、共有時間枠を示す第3のユーザ入力を受信すること、および、共有時間枠を示す第3のユーザ入力を受信することに応じて、メディアアセットの第１のサブセットのためのそれぞれの時間情報および共有時間枠の比較に基づいてメディアアセットの第１のサブセットをフィルター処理して、メディアアセットの2番目のサブセットを生成することをさらに含む。

【0088】

ステップ612において、プロセス600は、(例えば、図3に記述の1以上のコンポーネントの制御回路を使用して)第1のメディアアセットおよび第2のメディアアセットが共有オブジェクトの向きに対応することを決定する。例えば、システムは、第1のメディアアセットおよび第2のメディアアセットが共有時間枠に対応すると決定することに応じて、第1のオブジェクト情報および第2のオブジェクト情報の分析に基づいて、第1のメディアアセットおよび第2のメディアアセットが共有オブジェクトの向きに対応すると決定する。

【0089】

いくつかの実施態様では、第1のオブジェクト情報および第2のオブジェクト情報の分析に基づいて、第1のメディアアセットおよび第2のメディアアセットが共有オブジェクトの向きに対応すると決定することは、さらに：重心点に対応する既知のオブジェクトを識別することと、共有オブジェクトの向きにおける既知のオブジェクトについての複数の既知のオブジェクト詳細を検索すること、および複数の既知のオブジェクト詳細のうち、第1のメディアアセットおよび第2のメディアアセットの両方にある既知のオブジェクト詳細を決定すること、を含む。

【0090】

ステップ614において、プロセス600は、第1のメディアアセットおよび第2のメディアアセットに基づいて(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)複合メディアアセットを生成する。例えば、システムは、第1のメディアアセットおよび第2のメディアアセットが共有オブジェクトの向きに対応すると決定することに応じて、重心点の周りの第1のメディアアセットおよび第2のメディアアセットをマージすることによって、第1のメディアアセットおよび第2のメディアアセットに基づいて複合メディアアセットを生成することができる。例えば、共有オブジェクトの向きは、それぞれのメディアアセットをキャプチャするときにコンテンツキャプチャデバイスが対向する方角を含み得る。

【0091】

本明細書で言及されるように、メディアアセットに関連する「方角」とは、ユーザの現在の配置を真北へまたは磁北へ接続する想像上の線のコースから、メディアアセットがキャプチャされたときにコンテンツキャプチャデバイスが向いていたコースまでの、角度として表される偏差を指す。例えば、コンテンツキャプチャデバイスがメディアアセットをキャプチャしたときにコンテンツキャプチャデバイスが「北」を指していた場合、メディアアセットに関連付けられている方角は「北」になる。同様に、メディアアセットのフレームがキャプチャされたときにコンテンツキャプチャデバイスが「南」を向いていた場合、メディアアセットのフレームは「南」の方角に関連付けられる。

【0092】

なお、方角は、他の任意の適切なフォーマットでもまた表現されてよいことに留意されたい。例えば、追加的にまたは代替的に、方角は、(例えば、極座標系において)度として表されてもよい。別の例では、方角は、空間内の線が座標軸の3つの正の方角(例えば、基準点から)と作る3つの角度のいずれかとして表されてもよい(例えば、通常、x－、y－、およびz－軸に関してα、β、およびγとして指定される)。例えば、いくつかの実施態様では、メディアアセットおよび／またはコンテンツキャプチャデバイスに関連する「方角」を、ユーザーおよび／または1以上の固定点に対する座標に関連付けてもよい。

【0093】

いくつかの実施態様では第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることは：第１のメディアアセットおよび第２のメディアアセットの両方における共有オブジェクトを識別すること；および第１のメディアアセットからの第１のオブジェクトの詳細および第２のメディアアセットからの第２のオブジェクトの詳細を使用して、複合メディアアセットにおける共有オブジェクトの表現を生成することをさらに含み、ここで第２のメディアアセットは第１のオブジェクトの詳細を含まず、かつ、第１のメディアアセットは第２のオブジェクトの詳細を含まない。

【0094】

いくつかの実施態様では、重心点の周りの第1のメディアアセットおよび第2のメディアアセットをマージすることによって、第1のメディアアセットおよび第2のメディアアセットに基づいて複合メディアアセットを生成することは、焦点の合っていないオブジェクトに対応する第1のメディアアセットの第1の部分を識別すること、第1のメディアアセット内の焦点の合っていないオブジェクトに対応する第2のメディアアセットの第2の部分を選択すること、および、第1のメディアアセットの第1の部分を第2の部分に置き換えること、をさらに含む。例えば、システムは、ぼやけた領域を識別し、それらの領域を置き換えてもよい。

【0095】

図6のステップまたは説明は、本開示の他の任意の実施態様と共に使用され得ることが企図される。加えて、図6に関連して記述されるステップおよび説明は、本開示の目的をさらに進めるために入れ替えられた順序で、または並行して行われ得る。例えば、これらのステップの各々は、システムまたは方法の遅れを低減させ、または速度を増加させるために、任意の順序で、または並行してまたは実質的に同時に実行され得る。さらに、上で論じたデバイスまたは機器のいずれもが、図6のステップのうちの1以上を実行するために使用され得ることに留意されたい。

【0096】

図7は、1以上の実施態様に従って、複合メディアアセットを生成するためのオブジェクトを訓練および識別するためのフローチャートを示す。プロセス700は、図3に記述される1以上のコンポーネントの制御回路を使用して実行され得る。

【0097】

ステップ702において、プロセス700は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)領域についてのメディアアセットデータ構造を受信する。例えば、システムは、既知のオブジェクトを含む第1のメディアアセットに対する第1のメディアアセットデータ構造を受信し得る。

【0098】

ステップ704において、プロセス700は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のメディアアセットデータ構造に基づいて第1のピクセルアレイを生成する。例えば、いくつかの実施態様では、システムは、メディアアセット内の画像(例えば、フレーム)を表すためにピクセルアレイを生成し得る。ピクセルアレイは、画像を記述するコンピュータデータ(例えば、ピクセルごと)を参照し得る。いくつかの実施態様では、これは、赤、緑、青の色またはグレースケール画像のいずれかを表す1以上のベクトル、アレイ、および／または行列を含み得る。さらに、いくつかの実施態様では、システムは、画像セットを、1以上のベクトル、配列、および／または行列のセットから、1以上のベクトル、アレイ、および／または行列の別のセットにさらに変換し得る。例えば、システムは、赤色のカラーアレイ、緑色のカラーアレイ、および青色を有する画像セットをグレースケールカラーアレイに変換してもよい。

【0099】

ステップ706で、プロセス700は、既知のコンテンツキャプチャ配置を有する第1のピクセルアレイを(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第1のメディアアセットデータ構造にラベル付けする。例えば、人工ニューラルネットワークを訓練するために、システムは、様々な場所で見出され得る多数のオブジェクトを収集し、ラベル付けしてもよい。

【0100】

ステップ708において、プロセス700は、人工知能モデルを(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)訓練し、ラベル付けされた第1のピクセルアレイに基づいて既知のコンテンツ取り込み位置を検出する。例えば、図4に関連して論じたように、人工ニューラルネットワークは、異なるオブジェクトの分類を有し得る。

【0101】

ステップ710において、プロセス700は、(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第2のメディアアセットのために第2のメディアアセットデータ構造を受信する。例えば、システムは、ある位置でメディアアセットをキャプチャしてもよい。

【0102】

ステップ712において、プロセス700は、第2のメディアアセットデータ構造に基づいて(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)第2のピクセルアレイを生成する。いくつかの実施態様では、これは、赤、緑、青の色またはグレースケール画像のいずれかを表す1以上のベクトル、アレイ、および／または行列を含有し得る。さらに、いくつかの実施態様では、システムは、画像セットを、1以上のベクトル、アレイ、および／または行列のセットから、1以上のベクトル、アレイ、および／または行列の別のセットにさらに変換し得る。例えば、システムは、赤色のカラー配列、緑色のカラー配列、および青色を有する画像セットをグレースケールカラーアレイに変換してもよい。

【0103】

ステップ714で、プロセス700は、訓練されたニューラルネットワークに第2のピクセルアレイを(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)入力する。例えば、訓練されたニューラルネットワークは、第2のピクセルアレイに基づいて、オブジェクトおよび／またはオブジェクトに関する情報を(例えば、図5に記述されるように)識別し得る。

【0104】

ステップ716において、プロセス700は、第2のメディアアセットデータ構造が既知のコンテンツキャプチャ位置に対応することを示す訓練された人工知能モデルからの出力を(例えば、図3に記述される1以上のコンポーネントの制御回路を使用して)受信する。例えば、訓練されたニューラルネットワークは、オブジェクトの識別および／またはオブジェクトに関する情報(例えば、サイズ、形状、配置など)を出力し得る。

【0105】

図7のステップまたは説明は、本開示の他の任意の実施態様と共に使用され得ることが企図される。加えて、図7に関連して記述されるステップおよび説明は、代替の順序で、または本開示の目的をさらに進めるために並行して行われ得る。例えば、これらのステップの各々は、システムまたは方法の遅れを低減または速度を増加させるために、任意の順序で、または並行してまたは実質的に同時に実行され得る。さらに、上で論じたデバイスまたは機器のいずれかが、図7のステップのうちの1以上を実行するために使用され得ることに留意されたい。

【0106】

本技術は、以下に列挙する実施形態を参照することにより、よりよく理解されるであろう。
1. データのフィルタリングと同期を通じ、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するための方法であって、方法は：共有時間枠での共有地理的位置のための重心点に基づいて複合メディアアセットを要求する第１のユーザー入力を受信すること；共有地理的位置の重心点に基づき共有オブジェクトの向きを決定すること；第１のメディアアセットのために第１のメディアアセットデータ構造を検索すること、ここで、第１のメディアアセットデータ構造は、第１の位置情報、第１の時間情報、および第１のオブジェクト情報を含み；第２のメディアアセットのために第２のメディアアセットデータ構造を検索すること、ここで第２のメディアアセットデータ構造は、第２の位置情報、第２の時間情報、および第２のオブジェクト情報を含み；第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定すること；第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することに応じ、第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定すること；第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することに応じ、第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定すること；および第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することに応じ、重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすること、を含む、前記方法。
２．データのフィルタリングと同期を通じ、マルチモーダルメタデータに基づいて未調整のコンテンツを調整するための、前述の実施態様に記載のいずれか１つの方法。
３. 第１の位置情報および第２の位置情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有地理的位置に対応していると決定することが：
共有地理的位置を示す第２のユーザー入力を受信すること；および
共有地理的位置を示す第２のユーザー入力を受信することに応じて、複数の利用可能なメディアアセットのためのそれぞれの位置情報および共有地理的位置の比較に基づいて複数の利用可能なメディアアセットをフィルタリングして第１のメディアアセットのサブセットを生成すること、
をさらに含む、前述の実施態様に記載のいずれか１つの方法。
４. 第１の時間情報および第２の時間情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有時間枠に対応していると決定することが：共有時間枠を示す第３のユーザー入力を受信すること；および共有時間枠を示す第３のユーザー入力を受信することに応じて、第１のメディアアセットのサブセットのそれぞれの時間情報および共有時間枠の比較に基づいて第１のメディアアセットのサブセットをフィルタリングして、第２のメディアアセットのサブセットを生成することをさらに含む、前述の実施態様に記載のいずれか１つの方法。
５. 第１のオブジェクト情報および第２のオブジェクト情報の分析に基づき第１のメディアアセットおよび第２のメディアアセットが共有オブジェクトの向きに対応していると決定することが：重心点に対応する既知のオブジェクトを識別すること；共有オブジェクトの向きでの既知のオブジェクトのために複数の既知のオブジェクトの詳細を検索すること；および複数の既知のオブジェクトの詳細のうちの、ある既知のオブジェクトの詳細が第１のメディアアセットおよび第２のメディアアセットの両方の中に存在すると決定すること、をさらに含む、前述の実施態様に記載のいずれか１つの方法。
６．第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることが：第１のメディアアセットおよび第２のメディアアセットの両方における共有オブジェクトを識別すること；および第１のメディアアセットからの第１のオブジェクトの詳細および第２のメディアアセットからの第２のオブジェクトの詳細を使用して、複合メディアアセットにおける共有オブジェクトの表現を生成すること、ここで第２のメディアアセットは第１のオブジェクトの詳細を含まず、かつ、第１のメディアアセットは第２のオブジェクトの詳細を含まない、をさらに含む、前述の実施態様に記載のいずれか１つの方法。
７．第１の位置情報は、第１のメディアアセットに対応する第１の地理的位置を示し；
第１の時間情報は、第１のメディアアセットに対応する第１の時間を示し；および
第１のオブジェクト情報は、第１のメディアアセットに包含される第１のオブジェクトを示す：前述の実施態様に記載のいずれか１つの方法。
８．第１のメディアアセットが複数のフレームを含み、および、第１のメディアアセットのための第１のメディアアセットデータ構造を検索することが：複合メディアアセットを生成するための複数のフレームのうちの第１のフレームを決定すること；第１のフレームに対応する第１のメディアアセットデータ構造のサブセットを決定すること；および第１のメディアアセットデータ構造のサブセットから位置情報、第１の時間情報、および第１のオブジェクト情報を検索すること、をさらに含む、前述の実施態様に記載のいずれか１つの方法。
９．共有オブジェクトの向きが、それぞれのメディアアセットをキャプチャするときにコンテンツキャプチャデバイスが対向した方角を含む、前述の実施態様に記載のいずれか１つの方法。
１０．重心点の周りの第１のメディアアセットおよび第２のメディアアセットをマージすることにより第１のメディアアセットおよび第２のメディアアセットに基づき複合メディアアセットの生成をすることが：焦点の合っていないオブジェクトに対応する第１のメディアアセットの第１の部分を識別すること；第１のメディアアセット中の焦点の合っていないオブジェクトに対応する第２のメディアアセットの第２の部分を選択すること；および第１のメディアアセットの第１の部分を第２の部分に置き換えること、をさらに含む、前述の実施態様に記載のいずれか１つの方法。
１１．共有時間枠での共有地理的位置の重心点に基づき複合メディアアセットを要求する第１のユーザー入力を受信することが：第１のメディアアセット中のオブジェクトのユーザー選択を受信すること；オブジェクトが見つかった地理的位置を決定すること；地理的位置を共有地理的位置として割り当てること；および地理的位置におけるオブジェクトの配置を重心点として割り当てること、を含む、前述の実施態様に記載のいずれか１つの方法。
１２．データ処理装置によって実行されると、データ処理装置に実施態様１～１１のいずれかを含むオペレーションを実行させる命令を記憶する有形の非一時的な機械可読媒体。
１３． 1以上のプロセッサ、および、プロセッサによって実行されると、プロセッサに実施態様１～１１のいずれかを含むオペレーションを実行させる命令を記憶するメモリを含む、システム。
１４．実施態様１～１１のいずれかを含むステップのうちの１以上を実行するための手段を含む、システム。

【図1A】