IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー コンピュータ エンタテインメント ヨーロッパ リミテッドの特許一覧

特許7630230ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム
<>
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図1
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図2
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図3A
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図3B
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図4
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図5
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図6
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図7
  • 特許-ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-06
(45)【発行日】2025-02-17
(54)【発明の名称】ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム
(51)【国際特許分類】
   A63F 13/497 20140101AFI20250207BHJP
   G06F 3/16 20060101ALI20250207BHJP
   G06F 3/01 20060101ALI20250207BHJP
   A63F 13/86 20140101ALI20250207BHJP
   A63F 13/54 20140101ALI20250207BHJP
   A63F 13/75 20140101ALI20250207BHJP
【FI】
A63F13/497
G06F3/16 530
G06F3/01 510
A63F13/86
A63F13/54
A63F13/75
【請求項の数】 22
【外国語出願】
(21)【出願番号】P 2020009762
(22)【出願日】2020-01-24
(65)【公開番号】P2020127714
(43)【公開日】2020-08-27
【審査請求日】2022-11-04
(31)【優先権主張番号】1901322.6
(32)【優先日】2019-01-31
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】506379415
【氏名又は名称】ソニー インタラクティブ エンタテインメント ヨーロッパ リミテッド
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】サイモン アンドリュー セント ジョン ブリスリン
【審査官】池田 剛志
(56)【参考文献】
【文献】特開2004-041645(JP,A)
【文献】特開2007-156434(JP,A)
【文献】米国特許出願公開第2018/0295427(US,A1)
【文献】特開2016-116073(JP,A)
【文献】動画特徴量からの印象推定に基づく動画BGMの自動素材選出,情報処理学会研究報告,2016年,2016-MUS-110巻16号,p.1-6
(58)【調査した分野】(Int.Cl.,DB名)
A63F 13/00-13/98,
9/24
(57)【特許請求の範囲】
【請求項1】
ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法であって、
音楽を含むユーザが選択したオーディオトラックを取得することと、
少なくとも1つのビデオゲームのプレイ中に少なくとも1つのビデオゲームプレイ装置によって生成された、複数のフレームを含む少なくとも1つのビデオを取得することと、
前記オーディオトラックに対して統計分析を実行して、前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定することと、
前記少なくとも1つのビデオに対して統計分析を実行して、前記少なくとも1つのビデオの少なくともいくつかの部分に関連する興奮レベルを特定することと、
特定された興奮レベルにおける対応関係に基づいて、前記少なくとも1つのビデオの少なくともいくつかの部分を前記オーディオトラックの少なくともいくつかの部分に合わせ込むことと、
前記合わせ込みに基づいて、前記オーディオトラックのそれぞれの部分に合わせ込まれた前記ビデオの前記少なくともいくつかの部分を含む結合オーディオビジュアルコンテンツを生成することと、を含み、
ビート検出に基づいて、前記オーディオトラックをそれぞれの部分に分離することをさらに含み、各部分が少なくとも2つのビートを含
前記オーディオトラックに対して統計分析を実行することは、
前記オーディオトラックのそれぞれの部分のスペクトログラムを生成することと、
複数の異なる周波数間隔での前記オーディオトラックの強さのそれぞれの平均強さと標準偏差とを求めることと、を含み、
前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定することは、それらいくつかの部分について、前記複数の周波数間隔での前記オーディオトラックの平均強さから前記複数の異なる周波数間隔での前記強さの偏差を求めること、を含む方法。
【請求項2】
前記オーディオトラックのそれぞれの部分に関連する興奮レベルを特定することは、前記複数の異なる周波数間隔でのその部分の強さに関連するzスコアを求め、その部分に対するzスコアの結合が閾値を超えているか否かを判定すること、を含む請求項に記載の方法。
【請求項3】
前記オーディオトラックの各部分は、その部分が高い興奮レベルを有するか低い興奮レベルを有するかを示す識別子を割り当てられ、前記興奮レベルは、その部分に対する前記zスコアの結合が閾値以上の場合は高いと判定され、zスコアの結合が前記閾値未満の場合は低いと判定される、請求項に記載の方法。
【請求項4】
前記少なくとも1つのビデオに対して統計分析を実行することは、前記ビデオのそれぞれの部分の各フレームに対して、
i.前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ii.前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の変化、
iii.前記ビデオの前記それぞれの部分を表す平均フレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の偏差、
のうちの少なくとも1つを示すそれぞれのスコアを求めること、を含む請求項1からのいずれか一項に記載の方法。
【請求項5】
前記ビデオの各部分に対して、その部分のフレームのいずれかが閾値スコア以上のスコアを有するか否かを判定することを含み、
前記閾値スコア以上のスコアを有するフレームには、それらのフレームが高い興奮レベルを有することを示す識別子が割り当てられる、請求項に記載の方法。
【請求項6】
前記ビデオの各部分に対して、その部分の複数の連続フレームが前記閾値スコア未満のスコアを有するか否かを判定することを含み、
前記閾値スコア未満のスコアを有する前記複数の連続フレームには、それらのフレームが低い興奮レベルを有することを示す識別子が割り当てられる、請求項に記載の方法。
【請求項7】
前記少なくとも1つのビデオの少なくともいくつかの部分を前記オーディオトラックのそれぞれの部分に合わせ込むことは、
高い興奮レベルを有すると識別されたフレームを含む前記少なくとも1つのビデオの部分を、高い興奮レベルを有すると識別された前記オーディオトラックのそれぞれの部分に合わせ込むことと、
低い興奮レベルを有すると識別された複数の連続フレームを含む前記少なくとも1つのビデオの部分を、低い興奮レベルを有すると識別された前記オーディオトラックのそれぞれの部分に合わせ込むことと、を含む請求項またはに記載の方法。
【請求項8】
高い興奮レベルを有すると識別されたフレームを含む前記ビデオの少なくともいくつかの部分の長さを、前記ビデオのその部分の前記高い興奮レベルを有すると識別されたフレームのうちの少なくとも1つが前記オーディオトラックの対応する部分のビートのうちの1つと同期するように、調整することを、含む請求項1またはに記載の方法。
【請求項9】
複数のビデオを取得することであって、各ビデオが、異なるビデオゲームプレイセッション中に1つ以上のビデオゲームプレイ装置によって生成された前記ビデオに対応する、取得することと、
前記ビデオのうちの少なくとも一部の部分を所定の順序に従って前記オーディオトラックのそれぞれの部分に合わせ込むことであって、前記所定の順序は、異なるビデオの部分が前記結合オーディオビジュアルコンテンツに現れる順序を定義する、合わせ込むことと、を含む請求項1からのいずれか一項に記載の方法。
【請求項10】
コンピュータシステムに請求項1からのいずれか一項に記載の方法を実行させるようになされたコンピュータ実行可能命令を有するコンピュータ可読媒体。
【請求項11】
ビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムであって、
音楽を含むユーザが選択したオーディオトラックおよび少なくとも1つのビデオゲームのプレイ中にビデオゲームプレイ装置によって生成された少なくとも1つのビデオを受信するように動作可能な入力ユニットと、
前記オーディオトラックの少なくともいくつかの部分に対して統計分析を実行して、前記オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定するように動作可能なオーディオ分析器と、
前記少なくとも1つのビデオに対して統計分析を実行して、前記少なくとも1つのビデオの少なくともいくつかの部分に関連する興奮レベルを特定するように動作可能なビデオ分析器と、
興奮レベルにおける対応関係に基づいて、前記少なくとも1つのビデオの少なくともいくつかの部分を、前記オーディオトラックのそれぞれの部分に合わせ込み、前記合わせ込みに基づいて、前記オーディオトラックのそれぞれの部分に合わせ込まれた前記ビデオの前記少なくともいくつかの部分を含む結合オーディオビジュアルコンテンツを生成するように構成された結合器と、を含み、
前記オーディオトラック内のビートを検出し、前記ビート検出に基づいて、前記オーディオトラックを部分に分割するように動作可能なビート検出ユニットをさらに含み、各部分が少なくとも2つのビートを含
前記オーディオ分析器は、前記オーディオトラックの各部分のスペクトログラムを生成し、各部分に対して、複数の異なる周波数間隔での前記オーディオトラックの強さがそれらの周波数での前記オーディオトラックの平均強さから閾値を超えてずれているか否かを判定するように構成された、システム。
【請求項12】
前記オーディオ分析器は、前記オーディオトラックのそれぞれの部分に、それらの部分が高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成され、
前記オーディオ分析器は、前記複数の異なる周波数間隔でのその部分の強さがそれらの周波数での前記オーディオトラックの平均強さから閾値を超えてずれている場合、前記オーディオトラックのそれぞれの部分が高い興奮レベルであることを示す識別子を割り当て、そうでなければ低い興奮レベルであることを示す識別子を割り当てるように構成された、請求項1に記載のシステム。
【請求項13】
前記少なくとも1つのビデオを前記それぞれの部分に分割するように動作可能なビデオ分割ユニットを含み、
前記ビデオ分析器は、前記ビデオのそれぞれの部分の各フレームに関連するスコアを求めるように構成され、前記スコアは、
i.前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ii.前記ビデオの前記それぞれの部分の異なるフレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の変化、
iii.前記ビデオのその部分を表す平均フレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の偏差、
のうちの少なくとも1つを示す、請求項11または2に記載のシステム。
【請求項14】
前記ビデオ分析器は、各フレームに関連する前記スコアが閾値スコア以上であるか否かに基づいて、前記ビデオのそれぞれの部分の各フレームに関連する興奮レベルを特定するように動作可能であり、
前記ビデオ分析器は、各フレームに、そのフレームが高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成された、請求項1に記載のシステム。
【請求項15】
前記ビデオ分析器は、それぞれのフレームに関連する前記スコアが前記閾値スコア以上である場合、そのフレームが高い興奮レベルであることを示す識別子を割り当てるように構成され、
前記ビデオ分析器は、それぞれのフレームに関連する前記スコアが前記閾値スコア未満の場合、そのフレームが低い興奮レベルであることを示す識別子を割り当てるように構成された、請求項1に記載のシステム。
【請求項16】
オーディオトラックのそれぞれの部分の少なくとも1つに合わせ込むための、ビデオのそれぞれの部分の少なくとも1つからビデオクリップを生成するように動作可能なビデオクリップ生成器を含み、
前記ビデオクリップ生成器は、前記オーディオトラックのそれぞれの部分の少なくとも1つの長さを特定し、少なくともその長さを有するビデオクリップを生成するように構成された、請求項1から1のいずれか一項に記載のシステム。
【請求項17】
前記ビデオクリップ生成器は、高い興奮レベルを有すると識別されたフレームを含むビデオクリップを生成するように構成され、
前記結合器は、高い興奮レベルを有すると識別されたフレームを含むビデオクリップを、高い興奮レベルを有すると識別された前記オーディオトラックの対応する部分に合わせ込むように構成された、請求項1に記載のシステム。
【請求項18】
前記ビデオクリップ生成器は、オーディオトラックのそれぞれの部分のビートに関連するタイミング情報を特定するように構成され、
前記ビデオクリップ生成器は、前記オーディオトラックのそれぞれの部分の前記ビートの少なくとも1つと同期する、高い興奮レベルを有すると識別された少なくとも1つのフレームを含むビデオクリップを生成するように構成された、請求項1に記載のシステム。
【請求項19】
前記ビデオクリップ生成器は、低い興奮レベルを有すると識別された複数の連続フレームを含むビデオクリップを生成するように構成され、
前記結合器は、低い興奮レベルを有すると識別された連続フレームを含むビデオクリップを、低い興奮レベルを有すると識別された前記オーディオトラックの対応する部分に合わせ込むように構成された、請求項1または18に記載のシステム。
【請求項20】
前記入力ユニットは、複数のビデオを取得するように動作可能であり、各ビデオは、同じ競技者または異なる競技者による異なるビデオゲームプレイセッション中に生成されたビデオに対応する、請求項1から19のいずれか一項に記載のシステム。
【請求項21】
前記結合器は、前記ビデオのうちの少なくとも1つの部分が前記オーディオトラックのそれぞれの部分に既に合わせ込まれている否かを判定し、そのビデオからの部分が前記オーディオトラックのそれぞれの部分に既に合わせ込まれている場合、前記オーディオトラックの後続の部分に合わせ込むための、異なるビデオの部分を選択するように構成された、請求項2に記載のシステム。
【請求項22】
前記オーディオトラックの各部分の開始点および終了点は、それぞれのビートによって定義され、
前記結合器は、前記少なくとも1つのビデオの各部分が前記オーディオトラックの対応する部分の最初のビートで始まるように、前記少なくとも1つのビデオの部分と前記オーディオトラックのそれぞれの部分とを結合するように構成された、請求項1から2のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムに関する。
【背景技術】
【0002】
多くの場合、ビデオゲーム映像からビデオコンテンツを生成することが望ましい。例えば、ビデオゲームトーナメントの終わりに、ビデオゲームトーナメント中に発生したハイライトおよび/またはブルーパーに相当する編集ビデオを生成することが望ましい場合がある。場合によっては、同じまたは異なるビデオゲームの単一のビデオゲームセッションまたは複数のセッションでも、競技者は、単に自分のゲームプレイを見返したい場合がある。現在、ビデオゲーム映像を利用する多数のオンラインビデオチャネルがあり、そのうちのいくつかは、1000万人超のフォロワを有している。
【0003】
背景音楽を追加することで、ビデオゲーム映像から生成されたビデオコンテンツを強化することができる。例えば、ビデオゲーム映像内の特に劇的な瞬間を、音楽トラック内の対応する劇的な瞬間に合わせ込む(マッチさせる)ことが望ましい場合がある。同様に、ビデオゲーム映像内のより穏やかな瞬間を、同じ音楽トラックのより穏やかな部分に合わせ込むことが望ましい場合がある。音楽を導入することにより、多くの場合、視聴者にとってより魅力的なビデオとなる。より一般的には、競技者は、自分自身または他者のビデオゲーム映像を使用してミュージックビデオを生成したい場合がある。
【0004】
通常、後処理ソフトウェアによって、ビデオゲーム映像からのビデオコンテンツの作成が容易になる。例えば、PS4は、競技者がPS4でキャプチャしたゲームプレイのビデオを編集できる「SHAREFactory」(商標)を提供する。一般的に、このようなソフトウェアによって、ユーザは、ビデオクリップをインポートおよび編集できるとともに、インポートされたビデオクリップに付随するオーディオをインポートして、最終的なビデオを作成することができる。多くの場合、ユーザは、タイムライン内でさまざまなビデオクリップを移動およびトリミングして、ハイライトの瞬間を、インポートされたオーディオの対応するエキサイティングな部分に同期させる(同様に、ローライトの瞬間もオーディオの穏やかな部分に同期させる)必要がある。適切な態様でビデオゲーム映像にオーディオが付随しているかどうかは、通常、ユーザの判断に委ねられる。これにより、ビデオゲーム映像内で発生するハイライトの瞬間と、ユーザがそれらの瞬間に付随させることを意図したオーディオの部分との間にわずかな不一致が生じる可能性がある。
【0005】
一部のビデオ編集ソフトウェアは、ビートのタイミングなど、ユーザがインポートした曲に関する情報を提供する場合がある。ユーザは、この情報を使用して、タイムライン上でビデオクリップをトリミングまたは配置し、ビデオのカットと遷移のタイミングを曲のビートに合わせることができる。しかしながら、この方法でビデオコンテンツを作成することは、ユーザにとって、依然としてやや労力のかかる処理であり、場合によっては、ビートは、必ずしも曲のセグメントが実際に曲の「エキサイティングな」部分に対応するかどうかを示すとは限らない場合がある。
【0006】
本発明は、これらの問題を軽減しようとするものである。
【発明の概要】
【0007】
本明細書で開示される第1の態様によれば、請求項1から11のいずれか一項に記載のビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法が提供される。
【0008】
本明細書で開示される第2の態様によれば、請求項13から25のいずれか一項に記載のビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステムが提供される。
【図面の簡単な説明】
【0009】
本開示の理解を助け、実施形態を実施可能な方法を示すために、添付図面を例として参照する。
【0010】
図1】ビデオゲームプレイ装置の例を概略的に示す図である。
図2】本開示によるオーディオビジュアルコンテンツを生成する方法の例を概略的に示す図である。
図3A】オーディオトラックのスペクトログラムの例を示す図である。
図3B】オーディオトラックの2つの部分の例を示す図であり、各部分は、異なるフルネスを有する。
図4】正規分布と対応するzスコアの例を示す図である。
図5】ビデオゲームの連続するビデオフレームの例と、それらのフレーム間のピクセル強度の差を表すフレームを示す図である。
図6】LAB色空間の例を模式的に示す図である。
図7】ビデオゲーム映像のフレームの例と、そのフレームに対して求められたそれぞれのスコアの例を示す図である。
図8】本開示によるオーディオビジュアルコンテンツを生成するためのシステムの例を概略的に示す図である。
【発明を実施するための形態】
【0011】
ビデオゲームプレイ装置の例として、図1は、Sony(登録商標)PlayStation4(登録商標)エンターテインメント装置の全体的なシステムアーキテクチャを概略的に示す。図1に示す装置は、単なる例示であり、いくつかの実施形態において、エンターテインメント装置は、Sony(登録商標)PlayStation5(登録商標)装置などの次世代コンソールを含み得ることが理解されよう。
【0012】
システムユニット10が設けられ、種々の周辺機器が当該システムユニットに接続可能となっている。システムユニット10は、中央処理装置(Central Processing Unit:CPU)20Aおよびグラフィックス処理装置(Graphics Processing Unit:GPU)20Bを含むシングルチップであるアクセラレーテッド処理装置(Accelerated Processing Unit:APU)20を含む。APU20は、ランダムアクセスメモリ(Random Access Memory:RAM)ユニット22にアクセスできる。
【0013】
APU20は、バス40と、随意によりI/Oブリッジ24を介して、通信を行い、I/Oブリッジ24は、独立したコンポーネントまたはAPU20の一部であってもよい。
【0014】
バス40に接続されるのは、ハードディスクドライブ37、互換性のある光学ディスク36A上のデータにアクセスするように動作可能なBlu-ray(登録商標)ドライブ36などのデータ記憶コンポーネントである。さらに、RAMユニット22は、バス40と通信してもよい。
【0015】
随意により、補助プロセッサ38もバス40に接続される。補助プロセッサ38は、オペレーティングシステムを実行またはサポートするために提供されてもよい。
【0016】
システムユニット10は、オーディオ/ビジュアル入力ポート31、Ethernet(登録商標)ポート32、Bluetooth(登録商標)ワイヤレスリンク33、Wi-Fi(登録商標)ワイヤレスリンク34、または1つ以上のユニバーサルシリアルバス(Universal Serial Bus:USB)ポート35を介して、必要に応じて、周辺機器と通信する。HDMI(登録商標)ポートなどのAV出力39を介して、オーディオおよびビデオを出力してもよい。
【0017】
周辺機器には、PlayStation Eye(登録商標)などのモノスコピックまたはステレオスコピックビデオカメラ41、PlayStation Move(登録商標)などのワンド型ビデオゲームコントローラ42およびDualShock4(登録商標)などの従来の手持ち型ビデオゲームコントローラ43、PlayStation Portable(登録商標)およびPlayStation Vita(登録商標)などの携帯型エンターテインメント装置44、キーボード45および/またはマウス46、例えば、リモートコントロール式のメディアコントローラ47、およびヘッドセット48を含み得る。同様に、他の周辺機器として、マイク、スピーカ、携帯電話、プリンタ、または3Dプリンタ(図示せず)などが考えられる。
【0018】
GPU20Bは、随意によりCPU20Aと連携し、AV出力39を介して出力するビデオ画像とオーディオを生成する。随意により、オーディオは、オーディオプロセッサ(図示せず)と連携してまたはオーディオプロセッサによって生成されてもよい。
【0019】
ビデオ、および随意によりオーディオは、テレビ51に呈示されてもよい。テレビがサポートしている場合、ビデオは、ステレオスコピックでもよい。オーディオは、ステレオ、5.1サラウンドサウンド、7.1サラウンドサウンドなどのいくつかの形式のうちの1つの形式でホームシネマシステム52に呈示されてもよい。同様に、ビデオおよびオーディオは、ユーザ60が装着するヘッドマウントディスプレイユニット53に呈示されてもよい。
【0020】
エンターテインメント装置では、デフォルトで、FreeBSD(登録商標)9.0の改良版などのオペレーティングシステムが動作する。オペレーティングシステムは、CPU20A上、補助プロセッサ38上、またはこれら2つの組合せ上で動作し得る。
【0021】
エンターテインメント装置は、ビデオゲームのプレイ中にエンターテインメント装置によって生成されたビデオを記憶するための一時バッファを備えてもよい。一時バッファは、ビデオゲーム映像の最後のX分を周期的に記録するように構成されたリングバッファに相当し、Xは、例えば、15分に相当してもよい。
【0022】
代替的または追加的に、エンターテインメント装置は、ビデオゲームのプレイ中に生成されたビデオを、例えば、Wi-Fi接続を介して、連続ビデオストリームとしてサーバに送信するように構成されてもよい。ビデオは、エンターテインメント装置が後で取得できるように、サーバにおいて記憶および処理されてもよい。上記内容からわかるように、エンターテインメント装置の外でビデオを記憶することにより、一度に15分よりも大幅に長いゲームプレイを記録できることになる。ビデオゲーム映像の(ローカルおよび/またはリモートでの)処理について、本明細書で説明する実施形態においてさらに説明する。
【0023】
エンターテインメント装置は、エンターテインメント装置で、またはエンターテインメント装置を介してプレイされるビデオゲームで発生するハイライトイベントの記録を自動的に検出およびキャプチャするように構成されたリスニングユニット(図示せず)をさらに含むか、またはそのようなリスニングユニットにアクセスできる。リスニングユニットは、例えば、機械学習を利用して、そのようなハイライトの瞬間を検出してもよい。そのようなリスニングユニットの例は、英国特許出願公開第1819865.5号明細書に記載がある。ハイライトイベントに対応するビデオクリップは、エンターテインメント装置のRAMに記憶されるか、またはエンターテインメント装置と通信しているサーバから取得されてもよい。
【0024】
図1で説明したエンターテインメント装置は、ビデオゲーム映像をキャプチャするために使用い得る装置の例である。
【0025】
前述のように、ユーザは、ビデオゲーム映像を音楽に合わせ込むことで、より魅力的なビデオを作成したい場合がある。ただし、通常、この合わせ込み処理には少なくともある程度の手作業が必要であり、その結果、最終的なビデオが、次善のものとなる。この合わせ込みが自動的に実行され、ビデオゲーム映像の部分が興奮レベルにおいて対応する音楽の部分に合わせ込まれることが望ましい。これは、例えば、競技者が敵を倒す、試合に勝つ、車を衝突させる、爆発を引き起こすといったビデオゲーム映像内のエキサイティングな瞬間を、例えば、コーラス、クレッシェンド、ソロ、キーチェンジ等に対応する音楽の一部分に自動的に同期させることができることを意味する。同様に、ビデオゲーム映像内のそこまでエキサイティングでない瞬間(いわゆる「ローライト」)は、同じ音楽のより穏やかな部分に合わせ込むことができる。
【0026】
さらに、ビデオゲーム(ビデオゲーム映像の元となるビデオゲーム)またはそのビデオゲーム映像を合わせる込むオーディオトラックについての事前の知識を必要としない方法で、この合わせ込みが可能であることが望ましい。すなわち、ビデオゲームと曲に依存しない方法で合わせ込み処理が可能であることが望ましい。そのようなビデオコンテンツを生成する方法を、図2に関連して説明する。
【0027】
図2は、本発明によるオーディオビジュアルコンテンツを生成する方法の一例を示す。ここで、オーディオビジュアルコンテンツという表現は、ビジュアルコンテンツ(RGBまたはYUVビデオフレームなど)およびオーディオ(音楽など)を含むビデオを表すために使用される。
【0028】
最初のステップS201で、ユーザが選択したオーディオトラックが取得される。これには、例えば、ビデオゲーム映像からミュージックビデオを作成する際に、ユーザが使用したい音楽を選択することを含んでもよい。音楽は、例えば、自身のコレクションまたはSpotify(商標)、Apple Music(商標)、Tidal(商標)などの音楽ホスティングサービスから選択したオーディオトラックでもよい。場合によっては、ユーザが自身で作成した曲またはオーディオをアップロードしたかもしれない。例えば、オーディオトラックは、sound canvas(登録商標)を使用して、ビデオゲームDreams(商標)で生成された音楽でもよい。オーディオの選択は、後処理アプリケーション内のオプションとして提供されてもよく、それを通じて、本開示によるミュージックビデオが生成されてもよい。
【0029】
いくつかの例では、後処理アプリケーションにより、ユーザが、例えば、トリミングツールを使用して、ミュージックビデオの作成に使用したい曲の一部を選択できるようにしてもよい。これは、例えば、ユーザが主にハイライトに対応する比較的短いビデオを作成したい場合に適切であり、したがって、例えば、5分のトラックを使用することは望ましくない場合がある。
【0030】
さらなるまたは代替の例では、ユーザは、ビデオゲーム映像のそれぞれのセグメントに合わせる込むための複数の異なるトラックまたはトラックの部分をアップロードしてもよい。
【0031】
第2のステップS202では、少なくとも1つのビデオゲームのプレイ中に少なくとも1つのビデオゲームプレイ装置によって生成された少なくとも1つのビデオが取得される。前記ビデオは、例えば、複数のRGBまたはYUVフレームを含んでもよい。これは第2のステップとして説明されているが、ユーザは、任意の順序でオーディオとビデオを後処理アプリケーションにインポート可能であることが理解されよう。少なくとも1つのビデオは、後処理アプリケーションにインポートするために1つ以上のビデオを選択したユーザによって取得されてもよい。このビデオは、例えば、MPEG4ファイルでもよく、必要に応じて、ビデオゲームのプレイ中に出力されるオーディオを分離およびミュートすることができる。
【0032】
いくつかの例では、ユーザはインポートされたオーディオに合わせ込むための単一のビデオを選択してもよい。前述のように、ビデオゲームプレイ装置は、競技者のゲームプレイの最後のX分の単一の連続記録をキャプチャするように構成されてもよく、このビデオは、インポートされたオーディオトラックとの合わせ込みに使用されてもよい。
【0033】
代替的または追加的に、この単一のビデオは、競技者自身のゲームプレイではなく、YouTube(登録商標)(商標)やTwitch(商標)などのビデオ共有サービスを介してアクセス可能な他の競技者のゲームプレイのビデオでもよい。例えば、1人または数人の異なる競技者から、1つまたはいくつかの異なるゲームのゲームプレイを含む、後処理アプリケーションへインポート可能な比較的長いビデオを取得可能であってもよい。
【0034】
いくつかの例では、ユーザは、選択されたオーディオトラックを用いてミュージックビデオを作成する際に使用されるビデオゲームのゲームプレイの複数の記録を選択してもよい。例えば、ユーザは、いくつかのビデオゲームセッションにわたって手動で(例えば、「共有」ボタンを介して)キャプチャされた、または自動的にキャプチャされたゲームプレイ内の瞬間に対応する記録のライブラリを保持してもよい。PS4の「キャプチャーギャラリー」は、これら記録を保持可能なライブラリの例である。ユーザは、例えば、先月などの長期間にわたって生成されたすべての記録を使用して、ミュージックビデオを生成したい場合がある。場合によっては、競技者は、特定のゲームからのビデオクリップを使用してミュージックビデオを生成したい場合があり、そのゲームに固有の記録を選択してもよい。
【0035】
いくつかの例では、(複数の)ビデオの選択は、あるレベルの自動作成および分類を通じて容易になり得ることが理解されよう。例えば、ビデオは、ゲームと日付により分類され、ミュージックビデオの作成時にユーザが選択できるのはこれらのビデオであってもよい。さらに、選択ステップ自体は、あるレベルの自動化を含んでもよく、例えば、ユーザは、そこからミュージックビデオを生成したいゲームおよび/または期間を選択するだけでよく、対応するビデオクリップが後処理アプリケーションに自動的にインポートされる。
【0036】
追加または代替の例では、複数のビデオ記録の少なくとも一部がユーザ自身のビデオゲーム映像に対応していない場合がある。例えば、ユーザは、YouTube(登録商標)(商標)やTwitch(商標)などのビデオホスティングプラットフォームを介して提供されるビデオクリップを使用して、ミュージックビデオを生成したい場合がある。一例では、発明者らは、15時間の「Lets Play」ビデオクリップが、3分間のオーディオトラックとの合わせ込みに適していることを発見した。
【0037】
いくつかの実施形態では、ユーザは、オフラインまたはオンライン(すなわち、eスポーツ)ビデオゲームトーナメント用のミュージックビデオを生成したい場合がある。そのような実施形態では、後処理アプリケーションにインポートされるビデオは、トーナメントの異なる各競技者についてキャプチャされたビデオゲーム映像でもよい。これらのビデオクリップは、トーナメント中に(手動または自動で)キャプチャされ、ユーザがアクセス可能なサーバなどにアップロードされてもよい。これらのビデオクリップは、トーナメント用のミュージックビデオの生成に使用するために、後処理アプリケーションにインポートされてもよい。
【0038】
一般的に、オーディオトラックとの合わせ込みに使用されるビデオゲーム映像の全長は、比較的長く、例えば、15分以上であることが好ましい。長尺ビデオの場合、競技者は、ビデオゲーム内でより変化に富む環境やシナリオに遭遇する可能性が高くなる。つまり、これらをオーディオトラックの対応する部分に合わせ込む際に選択するハイライトとローライトの瞬間の豊富なパレットがあることを意味する。これは、少なくとも1つのビデオがゲームプレイの連続ストリームに対応する場合に特に当てはまる。一般的に、(曲に合わせ込まれた)出力ビデオの品質は、出力ビデオの作成で使用可能なビデオ映像の長さが長くなるほど高くなる。原則として、少なくとも1つのビデオの最小長さは、選択したオーディオトラックの(またはそのトリミングしたもの)長さと等しくする必要があるが、繰り返しクリップが許容される場合は短くすることができる。
【0039】
要するに、より多くのビデオへアクセスすることで、オーディオとの良好な組合せを見つける機会がより多く提供されるが、任意のサイズのビデオ対して、組合せ(または後述する、所与の音楽セクションのための他部分より高いスコアを有するビデオの少なくとも一部)を見つけることができる。
【0040】
図2に戻ると、第3のステップS203において、オーディオトラックに対して統計分析を実行して、オーディオトラックのそれぞれの部分に関連する興奮レベルを特定する。これは、例えば、ビート検出に基づいてオーディオトラックをそれぞれの部分に分離することを含み、各部分は少なくとも2つのビートを含む。オーディオトラックのビートを検出するためのこのような方法の例は、Brian McFeeらによる「librosa:Audio and Music Signal Analysis in Python」の18~23ページに記載されている。一例では、各部分が4つの連続するビートを含むように、すなわち、各部分が小節に相当するように、分離されたオーディオトラックに対して4分の4拍子記号が想定されてもよい。他の例では、曲の拍子記号は、任意の適切な方法を使用したビート検出に基づいて、例えば、繰り返しパターンのビート数をカウントすることによって推定されてもよい。パターン自体は、例えば、数秒の期間にわたる低周波数帯域および随意により高周波数帯域での自己相関から検出されてもよく、さらに、帯域は、場合によっては通常の有声音声周波数範囲外である。
【0041】
統計分析は、関連する興奮レベルによってオーディオトラックのそれぞれの部分を分類するために、ユーザが選択したオーディオトラックのエネルギを分析することを含んでもよい。これには、例えば、全体のスペクトログラムによって全体のオーディオトラックの特性を判定することおよびオーディオトラックの個々の部分がこの「通常の振る舞い」から閾値を超えて逸脱しているかどうかを判定することが含まれてもよい。統計オーディオ分析を実行するための手法のより詳細な例を、図3A図4に関連して説明する。
【0042】
オーディオ統計分析
図3Aは、オーディオトラックの生成されたスペクトログラムの例を示す。図3Aでは、x軸は、複数の時間間隔を表し、y軸は、複数の異なる周波数間隔(すなわち、周波数ビン)を表す。スペクトログラムの色合いは、特定の時間間隔および特定の周波数範囲での強さを表す。すなわち、スペクトログラムは複数のバケットを含み、各バケットの色合いは、その特定の周波数範囲および特定の時間間隔でのオーディオトラックの強さを表す。明るい色合いは、強さが大きいことを表し、暗い色合いは、強さが小さいことを表す。一例では、スペクトログラムは、128個の周波数範囲に対応する128個の垂直バケットを有してもよい。
【0043】
図3Aに示されている例では、オーディオトラックの強い部分が周波数範囲の低域と中域(例えば、20から20,000Hz)に集中しており、高周波数範囲では強さが小さいことがわかる。当該技術分野では、異なる周波数がオーディオ信号の強さに寄与する程度を「フルネス」と記述することがある。いくつかの(またはすべての)周波数からの強さに対する寄与度が低い信号は、フルネスが低いと記述される。複数の異なる周波数で目立って大きい強さを示す信号は、フルネスである(またはフルネスが高い)と記述される。
【0044】
図3Bは、異なるフルネスを持つオーディオトラックの2つの異なる部分の例を示す。図3Bでは、右側のオーディオ信号の部分は、左側のオーディオ信号の部分よりもフルであると記述される。一般的に、オーディオ信号のフルの部分は、オーディオトラックのエキサイティングな部分に相当し、一方、小さいフルの部分は、オーディオトラックの穏やかな部分に相当する。オーディオトラックの異なる部分のフルネスを判定することにより、それらの部分に関連する興奮レベルを特定することができる。
【0045】
上記内容からわかるように、フルネスの変動は、所与のオーディオトラックについて「正常」と見なされるものに対して相対的である。場合によっては、図3Bに示すほど劇的な違いはない。例えば、完全にドラミングで構成されたオーディオトラックの場合、オーディオトラックのどの部分が他の部分に比べてエキサイティングであると聞き手に認識されるほど明確ではない場合がある。
【0046】
オーディオトラックの変動に対処するために、統計オーディオ分析は、複数の異なる周波数間隔でオーディオトラックの強さのそれぞれの平均強さと標準偏差を求めることを含んでもよい。すなわち、各周波数間隔についておよびオーディオトラックのすべての部分(つまり、その全長)にわたって、その周波数間隔について平均強さと標準偏差を求めてもよい。図3Aでは、単に特定の行(各行が周波数間隔に相当)にわたる強さを加算し、時間間隔の数で除算することで平均強さを算出することを含んでもよい。これを行毎に繰り返し、周波数間隔毎に平均強さと標準偏差とを算出してもよい。標準偏差は、従来の方法で求めてもよい。例えば、次の式を使用する:
【数1】
【0047】
ここで、μは、特定の周波数範囲での平均強さを表し、Nは、時間間隔の数を表し、xは、それぞれの時間間隔における周波数範囲での強さを表す。オーディオトラックに多くのバスドラムなどが含まれる場合、約20~100Hzにおけるバケットの平均値が高くなることが予想される。
【0048】
いくつかの例では、正規分布を使用して、各周波数を正確にモデル化できると仮定してもよい。例えば、特定の周波数範囲について上記のように求められた平均および標準偏差を使用して、その特定の周波数範囲でのオーディオトラックの強さをモデル化してもよい。次に、オーディオトラックの各部分(小節など)をこのモデルと比較して分析し、その周波数でのオーディオトラックの強さが予想強さから大幅にずれているかどうかを判定することができる。
【0049】
いくつかの例では、正規分布をzスコアの計算で使用して、所与の部分(小節など)の特定の周波数間隔での強さがオーディオトラックに対して典型的か非典型的かを判定してもよい。これは、例えば、オーディオトラックのそれぞれの部分のスペクトログラムを生成し、その部分にわたる各周波数間隔について、その周波数間隔の平均強さを求めることを含んでよい。次いで、オーディオトラックのそれぞれの部分の平均強さを対応する周波数範囲のモデルと比較して、その周波数範囲のzスコアを求めてもよい。zスコアは、オーディオトラックの特定の部分の特定の周波数範囲での平均強さが、その周波数範囲でのオーディオトラック全体の平均強さに対して相対的となる標準偏差の数を示す。次いで、オーディオトラックのそれぞれの部分の各特定の周波数範囲のzスコアを結合する(例えば、足し合わせる)ことで、オーディオトラックのその部分に関連する興奮レベルを示す全体的なスコアを求めることができる。オーディオトラックのそれぞれの部分について、これを繰り返し、部分毎に興奮レベルを特定するようにしてもよい。
【0050】
それぞれの部分の各周波数間隔の平均強さを計算する代わりに、その部分の各周波数間隔での合計強さを使用して、zスコアを算出できることが理解されよう。つまり、各周波数間隔での合計強さを、その周波数間隔でのトラックの平均合計強さと比較することができ、対応するzスコアを算出するために使用できる。次に、所与の部分の各周波数間隔のzスコアを結合することで、全体的な興奮レベルを特定することができる。
【0051】
したがって、より一般的には、オーディオトラックの一部は、所定数の周波数間隔(例えば、生成された各周波数間隔、または全周波数範囲にわたる間隔の代表的なサンプル)内の、該当する間隔にわたっての間隔毎または合計に基づいて評価されるように、閾値を超える所定のレベルである強さレベルを有していれば、エキサイティングであると見なされてもよい。
【0052】
図4は、特定の周波数範囲でのオーディオトラックの強さのモデリングに使用可能な正規分布の例および対応するzスコアを概略的に示し、そこでは、zスコアに対して分布上の異なる点が対応している。
【0053】
オーディオトラックの一部は、その部分の結合したzスコアが閾値以上である場合、高い興奮レベルを有すると識別されてもよい。逆に、オーディオトラックの一部は、その部分の結合したzスコアが閾値未満の場合、低い興奮レベルを有すると識別されてもよい。閾値は、多少恣意的かもしれないが、0.25以上の結合したzスコアは、通常、オーディオトラックの一部が高い興奮レベルを持つと見なすことができるか否かを良好に示すことを発明者らは発見した。オーディオトラックの各部分には、オーディオトラックのその部分が高い興奮レベルまたは低い興奮レベルを有すると識別されたか否かを示す識別子を割り当ててもよい(つまり、各部分は、2つの分類のいずれか、エキサイティングまたは穏やか、であると識別される)。次に、後で説明するように、これらの識別子を使用して、興奮レベルにおいて対応するビデオをオーディオトラックのそれぞれの部分に合わせ込んでもよい。
【0054】
前述のように、いくつかの例では、スペクトログラムは、128個の周波数バケットを含んでもよく、したがって、オーディオトラックの各部分について、統計分析は、128個のzスコア、つまり、周波数間隔毎に1個のzスコア、を求めることを含んでもよい。次に、これらのスコアを結合(足し合わせるなど)して、オーディオトラックのその部分がオーディオトラック全体に対してどの程度典型的または非典型的であるかを判定してもよい。一般的に、正の結合したzスコアは、オーディオトラックの所与の部分が平均フルネスより高いことを示し、一方、負のzスコアは、オーディオトラックの所与の部分が平均フルネスより低いことを示す。
【0055】
オーディオ分析は、正規分布および対応するzスコアに関して上記説明されたが、オーディオトラックの異なる部分のフルネスを全体的な平均フルネスと比較することを可能にする任意の統計方法を使用して、オーディオトラックの個々の部分の興奮レベルが高いか低いかを判定し得ることが理解されよう。
【0056】
図2に戻ると、第3のステップS203において、少なくとも1つのビデオに対して統計分析を実行して、少なくとも1つのビデオのそれぞれの部分に関連する興奮レベルを特定する。これは、後続の分析のためにビデオをそれぞれの部分に分離することを含んでもよい。一般的に、少なくとも1つのビデオには1つ以上のビデオゲーム内のさまざまな異なるシナリオと環境が含まれ、所与の部分に対して特定された興奮レベルが、同じビデオゲームまたは所与のビデオゲーム内の瞬間に対応するビデオの大きな部分と少なくとも相対的になるように、これらを多少分離することが必要となる場合がある。例えば、ビデオが2時間プレイする競技者の比較的長い連続ストリームである場合、多数の環境と状況に遭遇する可能性があるため、ビデオ全体の全体的な色分析は、ビデオゲーム内でエキサイティングな瞬間がいつどこで発生しているかを判定するのに役に立たないかもしれない。場合によっては、例えば、ビデオがゲームプレイの連続ストリームに対応する場合、競技者が、例えば、最後の15分間で見た環境と大きく異なる環境に遭遇する可能性が低いので、ビデオを分割するための任意の区切りとして15分を選択してもよい。
【0057】
ミュージックビデオを作成するために複数のビデオが取得された例において、個々のビデオファイルは、ビデオをそれぞれの部分に分離するための固有手段を構成してもよく、したがってビデオをそれぞれの部分に分割する明示的なステップがない場合がある。しかし、いくつかの例では、これらの個々のビデオをそれぞれの部分に分割して、これらの部分のフレームに関連する興奮レベルを特定できることが依然として望ましい場合がある。
【0058】
ここで、少なくとも1つのビデオに対して統計分析を実行する手法のより詳細な例を、図5図7に関連して説明する。
【0059】
ビデオ統計分析
いくつかの実施形態では、ビデオに対して実行される統計分析は、ビデオのそれぞれの部分の少なくともいくつかのフレームについて、それぞれの部分のそれらのフレームに関連する動きを示すスコアを求めることを含んでもよい。一般的に、ビデオの一部で発生する動きが多いほど、ビデオのその部分で発生するアクションがよりエキサイティングとなる。
【0060】
いくつかの例では、動きは、フレーム毎に特定されてもよい。例えば、所与のフレームに関連する動きは、前後のフレームの同じピクセルに対するそのフレームの各ピクセルの強度値の絶対差を取ることによって求めてもよい。連続するフレーム間で同一となるピクセルのスコアは、0となるが、真っ白から真っ黒に変わるピクセルのスコアは、例えば、255(JPGまたはPNG画像の場合)となる。次に、所与のフレームの各ピクセルのスコアを合計して、そのフレームに関連する全体の動きのスコアを求めてもよい。画像が例えば1280×720ピクセルで構成されている場合、921,600ピクセルのスコアを合計することで動きを特定してもよい。全体的な動きのスコアが閾値を超える場合、フレームは、多くの動きを含むものとして識別されてもよい。
【0061】
図5は、ゲーム「Uncharted4(商標)」の2つの連続するビデオフレーム502A、502Bの例を示している。図5では、フレーム502Bとフレーム502Aとの間の個々のピクセル値間の差を表す差分画像504も示されている。次に、差分画像を数値に変換して(ピクセル値を合計することにより)、所与のフレームに関連する動きの広範な評価を取得できる。
【0062】
追加または代替の例では、少なくとも1つの選択されたビデオは、少なくとも1つのビデオのフレーム内の異なる領域に関連する動きベクトルなどを示すメタデータを含んでもよく、このメタデータは、1つまたは複数のフレームに関連する動きを特定するために使用されてもよく、したがって、少なくともいくつかのフレームの動きを示すスコアは、このメタデータに基づいて求められてもよい。
【0063】
いくつかの例では、動きを示すスコアは、zスコアに対応してもよい。これには、例えば、ビデオの一部のフレーム(連続するペア間など)にわたって発生する動きの平均と標準偏差を求めることが含まれてもよい。所与のフレームについて、zスコアは、対応するビデオ部分の平均および標準偏差に対してそのフレームに関連する(上記のように計算された)動きを比較することによって求められてもよい。閾値を超えるzスコアを有するフレームは、興奮レベルが高いと識別されてもよい。
【0064】
代替的または追加的に、ビデオに対して実行される統計分析は、ビデオのそれぞれの部分の少なくともいくつかのフレームについて、ビデオのそれぞれの部分の1つ以上の他のフレームに対する、それらフレームの各ピクセルのLAB色空間のAおよび/またはBチャネルの値の変化を示すスコアを求めることを含んでもよい。繰り返しとなるが、各ピクセルのAおよび/またはBカラーチャネルの値の変化は、フレーム毎に求められてもよい。
【0065】
RGB色空間とは対照的に、LAB色空間のピクセル値の変化を見ることは、2つの理由で有利である。第一に、LAB色空間はRGB色空間よりも知覚的に均一であり、つまり、例えば、10ポイントの変化は、各方向で相対的に均一となる。したがって、所与のピクセルのAおよび/またはBチャネルの大きな変化は、ビデオ内で発生している興味深いイベントを示す。第二に、ビデオゲームは、多くの場合、変化する照明条件を有し、それは必ずしもビデオゲーム内で発生する特にエキサイティングな瞬間を示すものではない場合がある。LAB色空間を使用することで、所与のフレームに関連する興奮レベルを特定するときに、照明の変化とは対照的に、純粋な色の変化により大きな重みを与えることができる。図6に、LAB色空間と、AおよびBチャネルそれぞれ、およびそれぞれの値の例を示す。
【0066】
いくつかの例では、各ピクセルのAおよび/またはBチャネルの値の変化を示すスコアは、動きに関して以前に説明されたものと類似していてもよい。例えば、各フレームについて、各ピクセルのAおよび/またはBの色値を、前および/または後のフレームの対応するピクセルと比較し、これらのフレーム全体にわたるAおよび/またはBの値の差を使用して、現在のフレームのスコアを求めてもよい。例えば、黄から青に突然変わったフレームは、例えば、Bチャネルの色の変化のスコアが高くなる。
【0067】
いくつかの例では、この分析は、所与のフレーム内のピクセルのAおよびBの色チャネルのそれぞれの変化の1つについて、2つのスコア(本明細書では、それぞれL(A)BおよびLA(B)フレーム間スコアと呼ぶ)を求めることを含んでもよい。これらのスコアは、連続するフレーム間の色の変化を示し、これは一般的に、所与のシーン内で発生するアクションを示す。所与のフレームのスコア(または複数のスコア)が高いほど、そのフレームに関連する可能性が高い興奮レベルが高くなる。
【0068】
いくつかの例では、L(A)BおよびLA(B)フレーム間スコアは、zスコアに対応してもよい。これらは、動きのzスコアと同様の方法で求めてもよい。すなわち、ビデオの各部分について、その部分全体にわたるAおよび/またはBチャネルの変化の平均および標準偏差を求めてもよい。それぞれの部分の各フレームについて、そのフレームのAおよび/またはBチャネルの(上記のように計算された)変化に基づいて、その部分全体にわたるAおよび/またはBの変化の平均および標準偏差に対するzスコアを求めてもよい。閾値を超えるL(A)Bおよび/またはLA(B)zスコアを有するフレームは、高い興奮レベルを有するものとして識別されてもよい。
【0069】
所与のフレームの各ピクセルのRGB値の変化が使用され得ること、およびこれは最終的に設計者の裁量によるものであることを理解されたい。
【0070】
さらに追加または代替の例では、ビデオに対して実行される統計分析は、ビデオの一部を表す「平均フレーム」に対する、少なくともいくつかのフレーム内のピクセルのLAB色空間のAおよび/またはBチャネルの値の偏差を示すスコアを求めることを含んでもよい。このスコアの算出は、例えば、ビデオのそれぞれの部分の複数のフレームにわたるAおよび/またはBの色チャネルの少なくともいくつかのピクセルの平均値(すなわち「平均フレーム」)を求めること、および、次いで個々のフレーム毎に、「平均フレーム」の対応するピクセルに対する、AまたはBの色チャネルのピクセル値の偏差を求めることを含んでもよい。この偏差を使用して、各フレームのL(A)BおよびLA(B)スコアを求めてもよい。
【0071】
ビデオの一部は、例えば、任意の分割時間に基づいて、またはインポートされたオーディオトラックとの合わせ込みのために選択された既知の長さの異なるビデオクリップに基づいて、ビデオが分割された部分でもよい。一般的に、所与のフレームのピクセル値の平均フレームに対する偏差が大きいほど、そのフレーム内でエキサイティングなアクションが発生していることを示す。
【0072】
いくつかの例では、L(A)BおよびLA(B)スコアは、zスコアに対応してもよい。これは、例えば、ビデオのそれぞれの部分の複数のフレームにわたるピクセルの平均Aおよび/またはBの値を表す平均L(A)Bフレームおよび/または平均LA(B)フレームを求めることを含んでもよい。次に、ビデオの一部の各フレームについて、Aおよび/またはBチャネルのピクセル値の差を、関連する平均フレームの対応するピクセルに対して求めてもよい。次いで、ビデオ部分のフレーム全体にわたる差の平均および標準偏差を求めてもよい。各フレームのzスコアは、現在のフレームのAおよび/またはBチャネルの差を、それぞれのビデオ部分の差の全体的な平均および標準偏差と比較することで計算されてもよい。高いzスコアは、高レベルの色の変化を示し、したがって、高レベルのエキサイティングなコンテンツがあることを示している。
【0073】
上述の1つまたは複数のスコアは、そのフレームに関連する興奮レベルを示す、フレームの全体スコアを求めることができるように、算出および結合してもよいことを理解されよう。いくつかの例では、動きスコア、LA(B)フレーム間スコア、L(A)Bフレーム間スコア、L(A)Bスコア、およびLA(B)スコアが個々のフレーム毎に求められてもよい。上述のように、これら各スコアは、それぞれのzスコアに対応してもよい。興奮レベルは、例えば、これらのスコアの重み付き和に基づいて、所与のフレームについて特定され、その後、例えば、Savitzky-Golayを使用して、平滑化処理が行われてもよい。
【0074】
したがって、より一般的には、ビデオフレームが有するパラメータレベルが所定数の画像パラメータ(例えば、上記5つのzスコア)の閾値(例えば、平均パラメータレベルまたは予め設定されたパラメータレベル)を超える所定量である場合、または所定数の画像パラメータの結合パラメータレベルが所定の結合閾値(閾値の重み付き和など)を超える所定量である場合、ビデオフレームは、エキサイティングであると見なされてもよい。
【0075】
いくつかの例では、各フレームに、そのフレームの興奮レベルが高いか否かを示す識別子を割り当ててもよい。フレームには、全体スコア(つまり、結合平滑スコア)が閾値を超える場合に、興奮レベルが高いことを示す識別子を割り当ててもよい。逆に、フレームに関連する全体スコアが閾値スコア未満の場合、そのフレームには、興奮レベルが低いことを示す識別子を割り当ててもよい。他の例では、全体スコアを興奮レベルの明示的な指標として使用してもよく、高い全体スコアは、それらのフレームに関連するより高い興奮レベルに対応する。
【0076】
いくつかの例では、低い興奮レベルを有するものとしてフレームを識別することは、全体スコアが閾値スコア未満である複数の連続するフレーム、例えば、80フレームを識別することを含んでもよい。一般的に、全体スコアが低いということは、そのフレームに関連する動きおよび色の変化がほとんどなく、非常に平均的な色であることを示す。
【0077】
図7は、ビデオゲームGod of War(登録商標)に対応するビデオの一部の各フレームについて計算されたzスコアに対応するグラフの例を示す。図7では、緑色の矢印702は、攻撃を実行しているキャラクターKratos(登録商標)が(グラフの背景として)示されているフレーム700に対応する現在時点を表している。キー704に示すように、スコアは、それぞれ異なる色で表される。図7において、矢印702で示される時点でL(A)BおよびLA(B)のスコアが上昇し、この時点の前後のフレーム間L(A)BおよびL(B)スコアにピークがあることがわかる。図7では、全体スコア、つまり結合スコアがグラフ706によって示されている。結合スコアは平滑化されており、それにより、グラフの尖りが軽減され、興奮の持続期間を無効にする1つ以上のスコアの大きな単一フレームのスパイクを防ぐ。
【0078】
ビデオの部分とオーディオの対応する部分との合わせ込み
図2に戻ると、第5のステップS205で、少なくとも1つのビデオの少なくともいくつかの部分を、興奮レベルにおける対応関係に基づいてオーディオトラックのそれぞれの部分に合わせ込む。高レベルでは、これは、高い(または低い)興奮レベルを有すると識別されたオーディオの対応する部分に、高い(または低い)興奮レベルを有すると識別されたフレームを含むビデオの部分を合わせ込むことに相当する。
【0079】
オーディオトラックに対して実行された統計分析後、オーディオトラックの各部分(例えば、4ビートの小節)の開始時刻と終了時刻が既知であり、これらの各部分が興奮レベル(「高」または「低」のいずれか)を示す識別子を割り当てられている可能性があることが想起されよう。いくつかの例では、各部分の開始時間と終了時間は、識別されたビートに対応してもよい(例えば、ビートnで開始、ビートn+3で終了)。
【0080】
少なくとも1つのビデオに対して実行された統計分析に続いて、ビデオの各部分のフレームの少なくとも一部に、興奮レベルが高いか低いかを示す識別子が割り当てられる。興奮レベルが低い場合、フレームのグループは、そのようなレベルを持っていると識別されてもよい。
【0081】
いくつかの実施形態では、オーディオトラックの部分とビデオのフレームの両方の興奮レベルは、可変(すなわち、2値ではない)でもよく、合わせ込みは、値の類似度に基づいてもよいことが理解されよう。例えば、最大興奮レベルを有すると識別された1つ以上のフレームは、同様に最大興奮レベルを有すると識別されたオーディオの対応する部分に合わせ込まれるビデオクリップを生成するために使用されてもよい。
【0082】
オーディオの部分をビデオの対応する部分に合わせ込むために、この方法は、少なくとも1つのビデオの部分からビデオクリップを生成し、これらのビデオクリップをオーディオトラックの対応する部分に合わせ込むことを含んでもよい。生成されたビデオクリップは、ハイライト(高い興奮レベルを有すると識別された1つ以上のフレームを含む)またはローライト(低い興奮レベルを有すると識別された複数の連続フレーム)に相当してもよい。
【0083】
ハイライトビデオクリップは、高い興奮レベルを有すると識別された1つ以上のフレームを含む少なくとも1つのビデオの一部を特定し、同様に高い興奮レベルを有すると識別されたオーディオトラックの一部に長さの点で対応するクリップを生成することにより生成されてもよい。これは、興奮レベルの高いオーディオトラックの各部分が対応するハイライトビデオクリップに合わせ込まれるまで繰り返される。
【0084】
いくつかの例では、ハイライトビデオクリップの長さは、オーディオトラックの小節(4ビートなど)でもよい。これは、例えば、曲が4分の4拍子記号を有し、したがって、各部分(例えば、小節)が同じ長さである場合に適切であろう。他の例では、各ビデオクリップの長さは、そのビデオクリップが合わせ込まれるオーディオトラックの部分に依存(および対応)して可変でもよい。
【0085】
ビデオクリップの長さは、高い興奮レベル(または最大興奮レベル)を有すると識別されたフレームの少なくとも1つが、オーディオトラックの対応する部分のビートの1つ(例えば、2番目の小節のビート)に同期するように調整されてもよい。前述のように、オーディオトラック内のビートを識別するステップが存在してもよく、これらのビートのタイミングがわかっている場合、ビデオクリップ内の所与のフレームをこのビートに合わせることができる。この調整は、ビデオクリップ生成プロセスの一部として自動的に実行されてもよい。
【0086】
さらに、オーディオ部分の開始と終了が異なるビートによって決まり、異なるビデオクリップがオーディオトラックの異なる部分に合わせ込まれる場合、これを使用して、異なるビデオクリップ間の遷移がビートに合わせてカットされるようにすることができる。例えば、ハイライトクリップは、ビート1で始まり、ビート4で終わるようにカットされ、ローライトクリップは、ビート4で始まり、ビート12で終わるようにカットされてもよい。2つの異なるビデオクリップが同じビートで表示されるようにカットされる場合、適切なフェーディングが適用されてもよい。一般的に、異なるビデオクリップ間の遷移は、ビートで行われる場合、耳障りな音は少なくなる。
【0087】
ローライトビデオクリップの場合、ビデオクリップは、複数の連続フレームが低い(またはより低い)興奮レベルを有すると識別されたビデオの部分から生成されてもよい。ローライトビデオクリップは、低い興奮レベルを有すると識別されたオーディオトラックの対応する部分に長さにおいて対応するように生成されてもよい。ほとんどのオーディオトラックでは、低エキサイティングな期間がエキサイティングな期間よりも長く続くため、低い興奮レベルを有すると識別されたオーディオトラックの部分は、高い興奮レベルを有すると識別されたオーディオトラックの部分よりも長い(または複数の部分を含む)ことがあり得る。これは、低い興奮レベルを有するオーディオトラックの各部分が対応するローライトビデオクリップに合わせ込まれるまで繰り返されてもよい。オーディオトラックが規則的な構造を持っている場合、(同じまたは類似の長さを有するオーディオトラック内の穏やかな瞬間に対応する)同じ長さを有するように、すべてのローライトクリップが生成されてもよい。
【0088】
いくつかの例では、異なるビデオクリップ間で過剰な量の飛び越しを回避するために、各ビデオクリップの長さに対して下限を課すことが望ましい場合があることが理解されよう。したがって、いくつかの例では、ビデオクリップは、長さ分布に従って生成され、それによって、ハイライトおよびローライトビデオクリップそれぞれの最小長さを定めてもよい。最小長さは、例えば、1つ以上のオーディオ部分の長さの倍数に相当してもよい。例えば、ハイライトクリップは、少なくとも4ビートの長さを有するように制限され、一方、ローライトクリップは、少なくとも8ビートの長さを有するように制限されてもよい。
【0089】
異なるビデオクリップが生成され、オーディオトラックの対応する部分に合わせ込まれる順序は、ランダム、事前に決定、または動的に決定されてもよい。
【0090】
ステップS202およびS204で複数の異なるビデオが取得および分析される例では、オーディオトラックの各後続部分が異なるビデオから生成されたビデオクリップに合わせ込まれるように、所定の順序を定義してもよい。これは、異なるビデオにわたって十分な数のハイライトおよびローライトの瞬間が発生している場合にのみ可能となることが理解されよう。いくつかの例では、同じビデオから生成されたビデオクリップの、異なるビデオから生成された少なくとも2つの異なるビデオクリップによる分離が必要となる場合がある。異なるビデオからのコンテンツが表示される順序を制御することにより、より多様で魅力的な最終ビデオを作成できる。
【0091】
いくつかの例では、所定の順序は、時系列であってもよい。例えば、ビデオクリップは、時系列に基づいて生成され、少なくとも1つのビデオの前の部分は、ビデオクリップを生成するために、少なくとも1つのビデオの後ろの部分に先立って使用されてもよい。少なくとも1つのビデオの前の部分から生成されたクリップは、オーディオトラックの対応する前の部分に合わせ込まれてもよい。このようにして、最終的なビデオには、競技者が1つ以上のビデオゲームをプレイしている間に、ハイライトおよびローライトの瞬間が明らかとなった順に表示される。これは、競技者が、例えば、単一の競技者ゲームにおけるストーリーモード完了時または、例えばスポーツトーナメントの優勝時、以前のプレイの概要を取得したい場合に望ましい場合がある。
【0092】
さらなるまたは代替の例では、オーディオトラックの対応する部分に合わせ込むためのビデオクリップの選択は、少なくとも1つのビデオが関係するゲームに関連する情報に基づいてもよい。このメタデータは、少なくとも1つのビデオ(またはビデオのそれぞれの部分)でエンコードされてもよい。メタデータは、少なくとも1つのビデオが関係するゲームを定義し、この情報を使用して、十分な数の異なるゲームの映像が最終ビデオの作成に使用されるようにしてもよい。
【0093】
いくつかの例では、メタデータは、例えば、レベル、試合、競技者が勝ったか負けたか、仕留めたか、ゴールしたかなどのゲーム内の状態情報を定義してもよく、この情報を使用して、異なるビデオクリップが生成され、オーディオトラックの対応する部分に合わせ込まれる順序を定義してもよい。例えば、最後の試合またはゲームに勝った競技者に対応するビデオクリップは、オーディオトラックの後半で発生するオーディオトラックのエキサイティングな部分に意図的に合わせ込まれてもよい(例えば、曲の最終コーラスで発生するキー変更)。
【0094】
第6のステップS206では、オーディオトラックのそれぞれの部分に合わせ込まれたビデオの少なくともいくつかの部分を含むコンポジットビデオ(つまり、結合オーディオビジュアルコンテンツ)が生成される。このビデオは、ビデオゲーム映像のさまざまな部分が、競技者が選択したオーディオトラック(曲など)に合わせ込まれたミュージックビデオに相当する。アセンブルされた時点で、ミュージックビデオの再生準備ができたことを競技者に通知してもよい。これは、例えば、ビデオゲームコンソールのホームメニューのホーム画面に表示されるシステム通知、またはビデオゲームアプリケーションを介してユーザの電話に送られる通知の形式であってもよい。ユーザには、このビデオをソーシャルメディアまたはビデオホスティングサービスで共有するオプションが与えられてもよい。
【0095】
いくつかの例では、この方法は、コンポジットビデオをユーザに呈示する追加のステップ(図示せず)をさらに含んでもよい。例えば、ビデオゲームセッションの終わりに、例えば、そのセッションからのビデオがミュージックビデオの作成に使用されたとき、コンポジットビデオが競技者に対して自動的に表示されてもよい。このような場合、一時バッファにキャッシュされた15分のビデオが、選択したオーディオトラックに合わせ込まれる、例えば、30秒のハイライトビデオの作成に使用されてもよい。いくつかの例では、ミュージックビデオは、ゲーム内イベント(例えば、競技者がビデオゲームのストーリーモードで最終レベルを完了するなど)の後に自動的に作成されてもよい。これらの方法のいずれかでコンポジットビデオを表示するには、ユーザが1つ以上のビデオゲームセッションを終了する前に曲を選択する必要がある。あるいは、競技者は、1つ以上のビデオゲームセッションを完了した後に曲を選択してもよいが、これは競技者がシステムによってミュージックビデオがアセンブルされるのを待つ必要があることを意味する。
【0096】
場合によっては、オーディオトラックの対応する部分に合わせ込むためのビデオクリップの数が不十分である可能性があることを理解されよう。オーディオトラックで識別された対応する数のエキサイティングな瞬間に合わせ込むための少なくとも1つのビデオ全体にわたるハイライトの瞬間に対応するフレームが少なすぎる場合などである。そのような場合、この方法は、生成されたビデオクリップに合わせ込まれた短いバージョンのオーディオトラックを含む切り詰められたミュージックビデオを生成することを含んでもよい。この切り詰めは、例えば、曲の最初のX分、曲の連続する低い興奮部分と高い興奮部分のセット数、または高い(または最大の)興奮レベルを有すると識別された部分を中心とした曲の部分に基づいてもよい。
【0097】
前述の方法ステップのいずれかは、システムに前記方法ステップのいずれかを実行させるようになされたコンピュータ実行可能命令を有するコンピュータ可読媒体を含むコンピュータシステムによって実行される場合があることが理解されよう。
【0098】
図8は、本開示による、ビデオゲーム映像からオーディオビジュアルコンテンツを生成するシステム800の一例を概略的に示す。システム800は、音楽を含むオーディオトラックを受信するように動作可能な入力ユニットを含む。オーディオトラックは、図2に関連して前述したオーディオトラックのいずれかに相当してもよい。通常、オーディオトラックは、ユーザによって選択されたことになる。
【0099】
入力ユニットはまた、少なくとも1つのビデオを受信するように動作可能であってもよい。いくつかの実施形態では、システム800は、選択されたオーディオトラックおよび少なくとも1つのビデオそれぞれに対して個別のユニットを備えてもよい。そのような実施形態の一例が図8に示されており、システム800は、オーディオ入力ユニット802およびビデオ入力ユニット804を備えるものとして示されている。
【0100】
少なくとも1つのビデオは、前述の方法のいずれか1つで取得されていてもよい。例えば、ビデオゲームプレイ装置で自動または手動でキャプチャされていてもよい。またはビデオホスティングウェブサイトからインポートされていてもよい。後者の場合、ビデオホスティングウェブサイトは、ゲームまたはゲーム内イベントに従って分類されたビデオ(またはビデオクリップ)を提供してもよい。ユーザは、コンポジットビデオのアセンブルに使用する、これらのビデオのうちの1つまたは複数を選択してもよい。これは、例えば、ユーチューバーらがイントロやアウトロを作成する際に役立ち、所与のビデオゲームをプレイしながら、まだ遭遇していないコンテンツを使用できるようにしてもよい。
【0101】
システム800は、入力ユニット(またはオーディオ入力ユニット)から入力を受信し、オーディオトラックに対して統計分析を実行して、オーディオトラックの少なくともいくつかの部分に関連する興奮レベルを特定するように構成されたオーディオ分析器806をさらに含む。
【0102】
いくつかの例では、システム800は、オーディオトラック内のビートを検出し、そのビート検出に基づいてオーディオトラックを部分に分割するように動作可能なビート検出ユニット(図示せず)を備えてもよい。その部分は、各部分が少なくとも2つの連続する識別されたビートを含むように定義されてもよい。好ましい例では、オーディオトラックの各部分は、小節に相当する。各部分の開始と終了は、それぞれのビートによって定義されてもよい。ビート検出ユニットは、オーディオ分析器806の一部、またはオーディオ分析器806に先行する独立したコンポーネント(図示せず)であってもよい。オーディオ分析器806は、ビート分析に基づいて区切られたオーディオトラックを使用して、オーディオトラックに対して統計分析を実行するように構成されてもよい。
【0103】
いくつかの例では、オーディオ分析器806は、オーディオトラックの各部分のスペクトログラムを生成し、各部分について、複数の異なる周波数間隔でのオーディオトラックの強さがそれら周波数でのオーディオトラックの平均強さから閾値を超えてずれているか否かを判定するように構成されてもよい。前述のように(「オーディオ統計分析」を参照)、これには、オーディオトラックの各部分の複数の周波数間隔のzスコアを求め、フルネスを表す、その部分の全体のスコアを求めることを含んでもよい。オーディオ分析器806は、オーディオトラックの各部分のそのようなスコアを求め、それに基づいて、オーディオトラックの異なる部分に関連する興奮レベルを特定するように構成されてもよい。一般的に、オーディオ分析器806は、前述の統計オーディオ分析のいずれかを実行するように構成されてもよい。
【0104】
オーディオ分析器806は、オーディオトラックのそれぞれの部分に、それらの部分が高い興奮レベルであるか低い興奮レベルであるかを示す識別子を割り当てるように構成されてもよい。オーディオトラックの一部には、複数の異なる周波数間隔でのその部分の強さがそれらの周波数でのオーディオトラックの平均強さから閾値を超えてずれている場合、高い興奮レベルを示す識別子を割り当ててもよい。より簡単に言えば、オーディオ分析器806は、オーディオトラックの一部に関連する全体スコアが閾値を超えるかどうかを判定し、そうであれば、その部分に、その部分が高い興奮レベルであることを示す識別子を割り当ててもよい。これがオーディオトラックの所与の部分に当てはまらない場合、オーディオ分析器806は、その部分に、その部分が低い興奮レベルであることを示す識別子を割り当ててもよい。
【0105】
システム800は、ビデオ分析器808をさらに備え、ビデオ分析器808は、入力ユニット(または専用ビデオ入力ユニット)からの入力を受信し、少なくとも1つのビデオに対して統計分析を実行して、少なくとも1つのビデオの少なくとも一部に関連する興奮レベルを決定するように構成される。
【0106】
いくつかの例では、システム800は、少なくとも1つのビデオをそれぞれの部分に分割するように動作可能なビデオ分割ユニット(図示せず)を含んでもよい。前述のように、これには、任意の時間間隔に基づいて、少なくとも1つのビデオを、例えば、12個の微小部分に分割することを含んでもよい。追加的または代替的に、この分割は、ビデオの所与の部分が、実際にはビデオが異なるビデオゲームまたは所与のビデオゲーム内の瞬間に関係していることを示すファイル名または識別子などのマーカーに基づいてもよい。ビデオ分割ユニットは、例えば、ビデオ分析器808の一部、またはビデオ分析器808に先行する独立したコンポーネントを構成してもよい。
【0107】
ビデオ分析器808は、ビデオのそれぞれの部分における少なくともいくつかのフレームに関連するスコアを求めるように構成されてもよく、このスコアは、
i.ビデオのそれぞれの部分の異なるフレームに相対的な、そのフレームに関連する動き、
ii.ビデオのそれぞれの部分の異なるフレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の変化、
iii.ビデオのその部分を表す平均フレームに相対的な、そのフレームのLAB色空間のAチャネルおよび/またはBチャネルの値の偏差、
のうちの少なくとも1つを示す。
【0108】
ビデオ分析器808は、前述の方法のいずれかでこのスコアを求めるように構成されてもよい(「ビデオ統計分析」を参照)。一例では、これは、動き、LA(B)フレーム間変化、L(A)Bフレーム間変化、平均フレームに対するLA(B)の変化、および平均フレームに対するL(A)Bの変化を表す1つ以上の個別のスコアを求めることを含んでもよい。前述のように、これら1つ以上の個別のスコアを結合して(例えば、重み付き和を使用して)全体スコアを求め、そこから所与のフレームに関連する興奮レベルを特定してもよい。
【0109】
いくつかの例では、ビデオ分析器808は、各フレームに関連するスコアが閾値スコア以上であるか否かに基づいて、ビデオのそれぞれの部分のそのフレームに関連する興奮レベルを特定するように動作可能であってもよい。フレームは、関連するスコアが閾値スコア以上である場合は興奮レベルが高く、そうでない場合は興奮レベルが低いと識別されてもよい。ビデオ分析器808は、少なくともいくつかのフレームに、興奮レベルが高いか低いかを示す識別子を割り当てるように構成されてもよい。
【0110】
図8では、システムは、オーディオ分析器806およびビデオ分析器808から入力を受信するように動作可能な結合器810を備えていることがわかる。結合器810は、特定された興奮レベルにおける対応関係に基づいて、少なくとも1つのビデオの少なくともいくつかの部分をオーディオトラックの少なくともいくつかの部分に合わせ込むように構成される。この合わせ込みに基づいて、結合器810は、オーディオトラックの少なくともいくつかの部分に合わせ込まれたビデオの少なくともいくつかの部分を含むコンポジットビデオを生成するように構成される。「コンポジットビデオ」という用語は、「ミュージックビデオ」という用語と同じ意味で使用される。つまり、1つ以上のビデオの複数の部分で構成された最終的なビデオに相当し、最終的なビデオ内のそれら部分の相対位置は、それら部分とオーディオトラックの部分の間の興奮レベルにおける対応関係に基づいている。
【0111】
いくつかの例では、システム800は、オーディオトラックの部分の少なくとも1つに合わせ込むための少なくとも1つのビデオのそれぞれの部分の少なくとも1つからビデオクリップを生成するように動作可能なビデオクリップ生成器(図示せず)を備えてもよい。ビデオクリップ生成器は、対応する興奮レベルを有すると識別されたオーディオトラックの部分の少なくとも1つの長さを求め、少なくともその長さを有するビデオクリップを生成するように構成されてもよい。これにより、各ビデオクリップは、そのビデオクリップが合わせ込まれるオーディオトラックのそれぞれの部分(4ビートを含む小節など)と同じ長さになる。次いで、結合器810は、これらの生成されたビデオクリップをオーディオトラックの対応する部分に合わせ込むように構成されてもよい。
【0112】
ビデオクリップ生成器は、高興奮レベルを有すると識別されたフレームを含むビデオクリップ(いわゆるハイライトクリップ)を生成し、これらのクリップを高興奮レベルを有すると識別されたオーディオトラックの対応する部分に合わせ込むように構成されてもよい。いくつかの例では、ビデオクリップは、高い興奮レベルを有すると識別されたフレームが、そのクリップが合わせ込まれるオーディオトラックの対応する部分のビートの少なくとも1つに同期するように、生成されてもよい。ハイライトビデオクリップは、図2図7に関連して前述した方法のいずれかで生成されてもよい。
【0113】
ビデオクリップ生成器はまた、低い興奮レベルを有すると識別される複数の連続フレームを含むビデオクリップ(いわゆるローライトクリップ)を生成するように構成されてもよい。次いで、結合器は、これらのクリップを(例えば、それに割り当てられた識別子によって)低い興奮レベルを有すると識別されたオーディオトラックの対応する部分に合わせ込むように構成されてもよい。これにより、ビデオゲーム映像の低エキサイティングな瞬間が、オーディオトラック内の穏やかな瞬間と同時に出力されるようになる。
【0114】
一般に、ビデオクリップは、図2図7に関連して前述した方法のいずれかで生成されてもよい。
【0115】
いくつかの例では、結合器810は、各ビデオクリップがオーディオトラックの異なるビートで始まるように、少なくとも1つのビデオの部分をオーディオトラックのそれぞれの部分と結合するように構成されてもよい。例えば、結合器810は、例えば、クリップ1がビート1で始まり、ビート4で終わり、クリップ2がビート4で始まり、ビート8で終わるように、クリップをオーディオトラックの部分と組み合わせてもよい。これにより、異なるビデオがビートに合わせてカットされる。いくつかの例では、これは、異なるビデオクリップが生成された方法の自然な結果である(それらビデオクリップの長さは、それらが合わせ込まれたオーディオトラックの部分の長さに依存するため)。
【0116】
システム800は、表示用コンポジットビデオを出力するための表示装置(図示せず)をさらに備えてもよい。
【0117】
上述のシステム800の1つまたは複数のコンポーネントは、同一の装置または異なる装置に実装してもよいことが理解されよう。いくつかの例では、これらのコンポーネントの1つまたは複数をビデオゲームプレイ装置に実装してもよい。例えば、入力ユニットは、ビデオゲームプレイ装置に設置され、ビデオゲームプレイ装置によってキャプチャされた(複数の)ビデオを受信してもよい。オーディオトラックはまた、ビデオゲームプレイ装置に記憶されるか、ビデオゲームプレイ装置にダウンロードされ、この仕方で入力ユニットによって受信されてもよい。
【0118】
一旦取得されると、オーディオおよびビデオ分析ならびに結合は、例えば、ビデオゲームプレイ装置と通信しているサーバで実行されてもよい。例えば、ビデオとオーディオの分析は、必要なコンピューティングリソースの点でやや負荷の高い処理であるため、(既にビデオコンテンツをレンダリングするために競技者によって使用中であるかもしれない)ビデオゲームプレイ装置とは対照的に、クラウドなどを用いて実行することで利することが多い場合がある。ビデオゲーム映像がミュージックビデオにアセンブルされた時点で、このミュージックビデオをユーザに提供してもよい。これには、例えば、アセンブルされたビデオを競技者のビデオゲームプレイ装置に送信したり、アプリケーション(例えば「PSアプリ」)または競技者が装置のうちの1つを介してアクセスできるWebページを通じてビデオを利用可能にすることが含まれてもよい。好ましい例では、ビデオとオーディオの分析は自動的に実行され、さまざまなビデオクリップの作成およびそれらを適切な音楽に合わせ込むことに関してユーザの介入は不要となる。
【0119】
本明細書に記載の(複数の)方法は、ソフトウェア命令によって、または専用ハードウェアへの内蔵または専用ハードウェアの置換によって、適用できるように適合された好適な従来のハードウェアで実行可能であることが理解されよう。したがって、従来の同等の装置の既存部分に対する必要な適応は、フロッピー(登録商標)ディスク、光学ディスク、ハードディスク、PROM、RAM、フラッシュメモリ、これらまたは他の記憶メディアの任意の組合せなどの非一時的な機械可読媒体に格納されたプロセッサ実装可能な命令を含むコンピュータプログラム製品の形で実装されてもよく、または特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)もしくは従来の同等の装置を適応させる際の使用に適した他の構成可能な回路としてのハードウェアで実現されてもよい。別に、そのようなコンピュータプログラムは、Ethernet、無線ネットワーク、インターネット、これらまたは他のネットワークの任意の組合せなどのネットワーク上でデータ信号を介して送信されてもよい。
図1
図2
図3A
図3B
図4
図5
図6
図7
図8