IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エックスディーマインド インコーポレイテッドの特許一覧

特表2024-522115動画解析に基づく補足音声セグメントの選択
<>
  • 特表-動画解析に基づく補足音声セグメントの選択 図1
  • 特表-動画解析に基づく補足音声セグメントの選択 図2
  • 特表-動画解析に基づく補足音声セグメントの選択 図3
  • 特表-動画解析に基づく補足音声セグメントの選択 図4
  • 特表-動画解析に基づく補足音声セグメントの選択 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-11
(54)【発明の名称】動画解析に基づく補足音声セグメントの選択
(51)【国際特許分類】
   H04N 21/2368 20110101AFI20240604BHJP
   H04N 21/232 20110101ALI20240604BHJP
【FI】
H04N21/2368
H04N21/232
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023573352
(86)(22)【出願日】2022-05-26
(85)【翻訳文提出日】2024-01-19
(86)【国際出願番号】 US2022031209
(87)【国際公開番号】W WO2022251548
(87)【国際公開日】2022-12-01
(31)【優先権主張番号】63/202,100
(32)【優先日】2021-05-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/202,102
(32)【優先日】2021-05-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/266,498
(32)【優先日】2022-01-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.アンドロイド
(71)【出願人】
【識別番号】523446435
【氏名又は名称】エックスディーマインド インコーポレイテッド
【氏名又は名称原語表記】XDMIND INC.
【住所又は居所原語表記】7683 SE 27th St. #284, Mercer Island, WA 98040 U.S.A.
(74)【代理人】
【識別番号】100077012
【弁理士】
【氏名又は名称】岩谷 龍
(72)【発明者】
【氏名】ベルナルディ,リンダ
(72)【発明者】
【氏名】ベルナルディ,アラ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA06
5C164MA07S
5C164SB12P
5C164SB31P
5C164SB41S
5C164SC01S
5C164YA21
(57)【要約】
本願の態様は、レンダリング対象であるコンテンツと関連付けられている処理情報に基づいて補足コンテンツを生成することに対応する。より具体的には、本願の態様は、動画コンテンツの表示中に再生されるように作成される、音楽トラックなどの音声トラック情報を生成することに対応する。例示すると、動画コンテンツの1つ又は複数のフレームを、1つ又は複数の機械学習アルゴリズムにより処理して、動画コンテンツの個々のフレームを特徴付ける1つ又は複数の属性を示す処理結果を生成する。その後、候補となる音楽トラック、又は、その他の音声データを選択システムにより処理結果に基づいて特定することができる。

【特許請求の範囲】
【請求項1】
1つ又は複数のコンテンツ生成アプリケーションと非結合の状態である補足音声コンテンツ生成アプリケーションを用いて補足コンテンツを生成する方法であって、
前記補足音声コンテンツ生成アプリケーションが、前記1つ又は複数のコンテンツ生成アプリケーションが生成した1つ又は複数の動画フレームを取得する工程であって、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である、工程と、
前記補足音声コンテンツ生成アプリケーションが、前記取得した1つ又は複数の動画フレームを処理して、前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルを生成する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記1つ又は複数のコンテンツ生成アプリケーションと相関して、前記特定された少なくとも1つの音声セグメントの再生を実行させる工程と、を含む方法。
【請求項2】
1つ又は複数のコンテンツ生成アプリケーションは、動画フレームデータを生成する少なくとも1つのソーシャルメディアアプリケーションを含む、請求項1に記載の方法。
【請求項3】
1つ又は複数のコンテンツ生成アプリケーションは、動画フレームデータを生成する少なくとも1つのゲームアプリケーションを含む、請求項1に記載の方法。
【請求項4】
前記補足音声コンテンツ生成アプリケーションが、前記1つ又は複数のコンテンツ生成アプリケーションが生成した1つ又は複数の動画フレームを取得する工程は、キャプチャ周波数に基づいて動画データの個々のフレームを取得する工程を含む、請求項1に記載の方法。
【請求項5】
動画フレームデータの属性に基づいて前記キャプチャ周波数をダイナミックに調整する、請求項4に記載の方法。
【請求項6】
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのテーマの特徴付けに対応する1つ又は複数の属性を含む、請求項1に記載の方法。
【請求項7】
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトの測定された進行の特徴付けに対応する1つ又は複数の属性を含む、請求項1に記載の方法。
【請求項8】
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのムードの特徴付けに対応する1つ又は複数の属性を含む、請求項1に記載の方法。
【請求項9】
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのペースの特徴付けに対応する1つ又は複数の属性を含む、請求項1に記載の方法。
【請求項10】
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、ビデオゲームのプレイのスタイル又はプレイの意図のうちのいずれか1つの特徴付けに対応する1つ又は複数の属性を含む、請求項1に記載の方法。
【請求項11】
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定する工程は、前記生成された属性ベクトルに相関する音声トラックのセグメントを特定する工程を含む、請求項1に記載の方法。
【請求項12】
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定する工程は、前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを編成する工程を含む、請求項1に記載の方法。
【請求項13】
前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを編成する工程は、プレイのスピードを編成する工程を含む、請求項1に記載の方法。
【請求項14】
前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを編成する工程は、フェード情報を編成する工程を含む、請求項1に記載の方法。
【請求項15】
前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを編成する工程は、2つ以上の音声セグメントを組み合わせる工程を含む、請求項1に記載の方法。
【請求項16】
前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを編成する工程は、選好情報と前記生成された属性ベクトルとに基づいて新しい音声トラックを生成する工程を含む、請求項1に記載の方法。
【請求項17】
補足音声コンテンツ用のシステムであって、
補足音声コンテンツ生成アプリケーションと関連する、1つ以上の演算プロセッサと1つ以上のメモリとを備え、前記補足音声コンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能であり、
前記補足音声コンテンツ生成アプリケーションは、
前記1つ又は複数のコンテンツ生成アプリケーションにより生成された1つ又は複数の動画フレームを取得することと(取得において、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である)、
前記取得した1つ又は複数の動画フレームを処理して、前記1つ又は複数の動画フレームに示されているコンテンツを特徴付けする属性ベクトルを生成することと、
前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定し、該特定された少なくとも1つの音声セグメントが、少なくとも部分的に、前記生成されたベクトルに基づいて編成されることと、
前記1つ又は複数のコンテンツ生成アプリケーションと相関して、前記特定された少なくとも1つの音声セグメントの再生を行わせることと、を実行するように構成されている、補足音声コンテンツ用のシステム。
【請求項18】
前記補足音声コンテンツ生成アプリケーションは、キャプチャ周波数に基づいて動画データの個々のフレームを取得する、請求項17に記載のシステム。
【請求項19】
請求項17に記載のシステムであって、
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、前記動画フレームデータに示されているオブジェクトのテーマ、前記動画フレームデータに示されているオブジェクトの測定された進行、前記動画フレームデータに示されているオブジェクトのムード、前記動画フレームデータに示されているオブジェクトのペース、又は、ビデオゲームのプレイのスタイル若しくはプレイの意図のうちのいずれか1つの特徴付けに対応する1つ又は複数の属性を含む、システム。
【請求項20】
請求項17に記載のシステムであって、
前記補足コンテンツアプリケーションは、前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを、プレイの速度の編成、フェード情報の編成、2つ以上の音声セグメントの組み合わせ、又は、前記生成された属性ベクトルと選好情報とに基づく新しい音声トラックの生成のうちのいずれか1つに基づいて編成する、システム。
【請求項21】
1つ又は複数のコンテンツ生成アプリケーションと非結合の状態である補足音声コンテンツ生成アプリケーションを用いて補足音声コンテンツを生成する方法であって、
前記補足音声コンテンツ生成アプリケーションが、前記1つ又は複数のコンテンツ生成アプリケーションが生成した1つ又は複数の動画フレームを取得する工程であって、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記1つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である、工程と、
前記補足音声コンテンツ生成アプリケーションが、前記取得した1つ又は複数の動画フレームを処理して、前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルを生成する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定し、該特定された少なくとも1つの音声セグメントが、少なくとも部分的に、前記生成されたベクトルに基づいて編成される工程と、
前記補足音声コンテンツ生成アプリケーションが、前記特定された少なくとも1つの音声の再生を実行させる工程と、を含む方法。
【請求項22】
前記補足音声コンテンツ生成アプリケーションが、前記1つ又は複数のコンテンツ生成アプリケーションが生成した1つ又は複数の動画フレームを取得する工程は、キャプチャ周波数に基づいて動画データの個々のフレームを取得する工程を含む、請求項21に記載の方法。
【請求項23】
請求項21に記載の方法であって、
前記1つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、前記動画フレームデータに示されているオブジェクトのテーマ、前記動画フレームデータに示されているオブジェクトの測定された進行、前記動画フレームデータに示されているオブジェクトのムード、前記動画フレームデータに示されているオブジェクトのペース、又は、ビデオゲームのプレイのスタイル若しくはプレイの意図のうちのいずれか1つの特徴付けに対応する1つ又は複数の属性を含む、方法。
【請求項24】
請求項21に記載の方法であって、
前記補足コンテンツアプリケーションは、前記生成された属性ベクトルに基づいて少なくとも1つのターゲットセグメントを、プレイの速度の編成、フェード情報の編成、2つ以上の音声セグメントの組み合わせ、又は、前記生成された属性ベクトルと選好情報とに基づく新しい音声トラックの生成のうちのいずれか1つに基づいて編成する、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連件に関するクロスリファレンス
本願は、「DYNAMIC MODIFICATION OF CONTENT」という名称にて2021年5月27日に出願された米国仮出願No.63/202,102と、「ENGAGEMENT PLATFORM」という名称にて2021年5月27日に出願された米国仮出願No.63/202,100と、「DYNAMIC MODIFICATION OF CONTENT」という名称にて2022年1月6日に出願された米国仮出願No.63/266,498の利益を主張し、米国仮出願No.63/202,102、No.63/202,100、及びNo.63/266,498の内容を参照により本願に含めるものである。
【背景技術】
【0002】
一般的に言われるように、コンピュータ装置と通信ネットワークとを使ってデータや情報を送受信することが可能である。一般的な一使用例では、コンピュータ装置は、通信ネットワークを介して他のコンピュータ装置からのコンテンツをリクエストすることができる。例えば、コンピュータ装置にアクセスを有するクライアントは、ソフトウェアアプリケーションを使用して、ネットワーク(例えば、インターネット)を介してサーバコンピュータ装置からのコンテンツをリクエストすることができる。このような実施形態では、クライアントのコンピュータ装置をクライアントコンピュータ装置と称し、サーバコンピュータ装置をオリジナルコンテンツプロバイダと称する場合がある。
【図面の簡単な説明】
【0003】
図面において、参照番号は、それを付した構成要素間の対応関係を示すために同じものを繰り返し使用する場合がある。本明細書に記載されている例示的な実施形態を例示するために図面を提供しているが、本開示の範囲を限定することを意図したものではない。
【0004】
図1図1は、1つ又は複数のクライアントコンピュータ装置と、1つ又は複数のコンテンツプロバイダと、ネットワークサービスとを含むコンテンツ配信環境を示すブロック図である。
【0005】
図2図2は、非結合型環境にて構成されているコンテンツ生成アプリケーションと補足コンテンツ生成アプリケーションとを備えて構成されたクライアントコンピュータ装置のブロック図である。
【0006】
図3図3は、図1のシステムのブロック図であり、クライアントコンピュータ装置への命令を提供する様々な命令と、クライアントコンピュータ装置による命令の処理とを示すものである。
【0007】
図4図4は、補足音声データの選択のルーチンを示すフロー図である。
【0008】
図5図5は、編成する音声トラック情報の生成のルーチンを示すフロー図である。
【発明を実施するための形態】
【0009】
概して、本願の態様は、レンダリング対象であるコンテンツに関連付けされている処理情報に基づいて補足コンテンツを生成することに対応する。より具体的には、本願の態様は、動画コンテンツの表示中に再生されるように作成される、音楽トラックなどの音声トラック情報を生成することに対応する。例示すると、動画コンテンツの1つ又は複数のフレームを、1つ又は複数の機械学習アルゴリズムにより処理して、動画コンテンツの個々のフレームを特徴付ける1つ又は複数の属性を示す処理結果を生成する。その後、候補となる音楽トラック、又はその他の音声データを選択システムにより処理結果に基づいて特定することができる。
【0010】
例示をすると、本願の態様は、コンピュータ装置において生成したビデオゲームコンテンツの処理のために実施することができる。また、本願の態様は、ソーシャルメディアアプリケーションなどのモバイルアプリケーションにて生成された動画コンテンツの処理のために実施することができる。更には、本願の態様は、パーソナルコンピュータ装置、携帯装置などにおいてその他のマルチメディアアプリケーション又は再生アプリケーションにより生成された動画コンテンツの処理のために実施することができる。よって、動画コンテンツに言及した時、一般には、特定のタイプの動画コンテンツや動画コンテンツ生成アプリケーションに限定していると解釈してはならない。
【0011】
一般に、従来の動画処理のアプローチは、個々のオブジェクトの検出、又は、ビデオゲームの開発者により付されたインストルメント化された属性に依存している。例えば、コンテンツシステムは、動画コンテンツを処理して、レンダリング対象である個々のオブジェクトを特定し、広告コンテンツなどの補足コンテンツを選択する。他の実施例では、ゲーム開発者が、メタデータやその他の記述データを表示コンテンツに付して提供して、処理ができるようにする。そのような使用例では、ゲーム開発者が、ムード、感情、活動などの様々な属性を明示的に特定するという場合もある。しかし、そのような記述の場合、ゲーム開発者がそのような意図を事前に考え、エージェントがそのような属性をクライアントに提示して、クライアントがそれらの属性に基づいて適切なアクションを行える場合にのみ適切なアクションが実行される。
【0012】
上記の実施に基づき、補足コンテンツの生成についての従来のアプローチでは、機能するには、一般に、コンテンツ生成者(例えば、ゲーム開発者又はモバイルアプリケーション開発者)の明示的な協力を必要とする。例えば、コンテンツプロバイダは、例えばカスタマイズモジュールやプラグインを挿入しておいて、実行コードの修正を可能にするという対応をすることができる。そのような修正により、アプリケーションはAPI又は様々なクエリを介して属性を配布することができる。
【0013】
このようなアプローチは、補足コンテンツ生成アプリケーションと、基礎となる動画コンテンツ生成アプリケーション(例えば、ゲームアプリケーション)と間の結合型アプローチとも一般に称される場合がある。例えば、ビデオゲームからのメタデータを受信するモジュールは、必要なメタデータへのアクセスを得るために、ビデオゲーム(例えば、コンテンツ生成アプリケーション)の修正を必要とする場合がある。同様に、インストルメント化されたデータの処理をするためにAPI通信を使用するモジュールでは、各ビデオゲームアプリケーション用の設定をそれぞれ必要とする。このアプローチは、複数のゲームアプリケーションでの使用を対象として構成されたアプリケーションの場合に、非効率的となりうる。同様に、結合型アプローチは、ゲームアプリケーション又はソーシャルメディアアプリケーションなどのアプリケーションが、オペレーティングが異なる環境では異なるように機能しうる場合にも更に非効率になりうる。
【0014】
本願の1つ又は複数の態様は、補足コンテンツアプリケーションが、1つ又は複数の特定されたコンテンツ生成アプリケーションと、並行又は別々に実行可能である非結合型アプローチに対応している。本補足コンテンツアプリケーションは、例示的な構成としては、ソーシャルメディアアプリケーションや携帯装置用ゲームなどの動画フレームなどの動画データのディープオフライン解析に対応する1つ又は複数の機械学習アルゴリズムを備えて構成されている。より具体的には、ビデオゲームコンテンツに関する一実施形態において、ディープオフライン解析は、ビデオゲームにより生成される個々のフレームを処理するように学習した機械学習アルゴリズムに対応するものであってもよい。処理結果は、ビデオゲームコンテンツ(又は、他の動画コンテンツ)の現状を特徴付ける複数の属性の一セットの特定に対応する。このような属性は、ムード、テーマ、プレイ中のキャラクター、参照オブジェクト、リズム、周波数測定値、プレイのレート、プレイのスキル、などを含む構成であってもよい。例示すると、動画解析アプリケーションは、複数のビデオゲームコンテンツに対応するものとして構成されていてもよく、例えば、機械学習アルゴリズムは、個々のビデオゲームアプリケーションの各々に対応するものとして構成されていてもよい。そのような機械学習アルゴリズムは、一群の個人に対して総じて適用可能なものであってもよい。他の実施形態では、機械学習アルゴリズムは、個々のユーザそれぞれに、又は、ユーザのサブセットのそれぞれに対してカスタマイズ可能なものであってもよい。
【0015】
ビデオゲームコンテンツ以外のコンテンツに関する他の実施形態では、ディープオフライン解析は、コンテンツ生成アプリケーションにより生成された個々のフレームを処理するように学習した機械学習アルゴリズムに対応するものであってもよい。非限定的な例を挙げると、機械学習アルゴリズムは、様々な学習モデルを組み込んだものであってもよく、学習モデルとしては、例えば、教師あり学習モデル、教師なし学習モデル、強化学習モデル、又は、表現学習モデルなどが挙げられるが、これらに限定されない。機械学習アルゴリズムに採用されている学習モデルのタイプにより、動画データ又は音声データを処理する構成が異なってもよい(例えば、教師有学習モデル又は半教師あり学習モデルの学習セットを用いるなど)。他の実施形態では、機械学習アルゴリズムは、ネットワークサービスにより決定されたペナルティ/報酬モデルを実装した強化学習モデルを実装したもの(例えば、オフラインプロセス)であってもよい。
【0016】
処理結果は、ビデオゲームコンテンツ(又は、他の動画コンテンツ)の現状を特徴付ける複数の属性の一セットの特定に対応する。このような属性は、ムード、テーマ、参照オブジェクト、リズム、周波数測定値、などを含む構成であってもよい。例示すると、動画解析アプリケーションは、複数の動画生成アプリケーションコンテンツに対応するものとして構成されていてもよく、例えば、機械学習アルゴリズムは、個々のビデオゲームアプリケーションそれぞれに対応するものとして構成されていてもよい。そのような機械学習アルゴリズムは、一群の個人に対して総じて適用可能なものであってもよい。他の実施形態では、機械学習アルゴリズムは、個々のユーザそれぞれに、又は、ユーザのサブセットのそれぞれに対してカスタマイズ可能なものであってもよい。
【0017】
そして、機械学習アルゴリズムは、個々の動画フレームを用いて実行されて機械学習アルゴリズムにより処理結果を生成する構成であってもよい。そして、処理結果が処理されて、動画コンテンツの現在の処理結果に対する補足コンテンツ(例えば、曲の選択)や曲の編成に関するインテリジェントな決定をする構成であってもよい。そのような編成は、曲のバリエーションの選択、再生速度の選択、複数の曲の組み合わせの構成、フェードイン又はフェードアウト速度の指定、などを含むものであってもよい。いくつかの実施形態では、補足コンテンツの選択を、別のアプリケーションにて実施する構成であってもよい。この別のアプリケーションは、キャプチャされた動画データの特性の解析から得られた処理結果を用いる他の機械学習アルゴリズムを用いる構成であってもよい。そのような別のアプリケーションは、ユーザプロファイル情報に基づいて設定されたものであってもよく、又は、個人の好みに合わせてカスタマイズしたものであってもよい。
【0018】
いくつかの例示的な実施形態では、動画解析アプリケーションの態様は、機械学習アルゴリズムを用いて動画コンテンツのフレームを解析してレベル(チャプターと同義)を見つけ、動画コンテンツをアクション可能な詳細レベルで要約することを更に含む構成であってもよい。一例として、アクション可能な詳細レベルは、ビデオゲームコンテンツのプレイのレベルを含むものであってもよい。他の一例として、アクション可能な詳細レベルは、動画コンテンツに示された、定義されたマイルストーン又は達成を含む構成であってもよい。解析は、ゲーム画像(グラフィックス)とゲーム音声とを含むものであってもよい。解析の結果は、それぞれ複数の属性の独自のセットを有する数十(数十以上でも数十以下でもよい)のシーンサマリであってもよい。以下に示すように、動画フレームデータの処理は、キャプチャされた任意のフレームを動画解析からこれらサマリシーンのうちのひとつに対してマッピングすることを含む構成であってもよい。適宜、場合により、いくつかの実施形態では、結果得られるテンプレート/マップは、ゲームストーリーやハイレベルなゲームプレイを記述するスケッチブックに対して均等なものであるような構成であってもよい。
【0019】
動画解析アプリケーションは、様々な動画キャプチャ技術を利用して、毎秒数フレームの動画をキャプチャし、各フレームグループにおける複数の特徴を(任意でCNNを使用して)抽出し、その後、最後に、全てのフレームグループに渡る階層類似性クラスタ(例えば、HDBSCAN)の構築を行う。動画キャプチャと併せ、音声解析により、オリジナルの曲がムードなどを表現するのにどのように使用されているかなどに基づいて、複数の特徴の正規直行系の追加のセットを得る。典型的には、音楽では長い内部サイクルが繰り返され、Audio-FXでは周波数領域において突然インパルスのように特徴が表れるものであるが、そのようなAudio-FXがバックグラウンドの音楽に混じるという問題を解消するために、Audio-FXをゲーム内設定でミュートにしてもよいし、又は、適切な信号処理技術を使ってAudio-FXと音楽とを分離してもよい。
【0020】
いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル(例えば、攻撃的、保守的、など)、ゲームプレイの意図(例えば、ハイスコア、プレイのレベル、一般的なプレイ、など)についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各ゲームは、各ゲームが生成する視覚的出力に基づいてそれぞれ異なる構成(例えば、機械学習アルゴリズム)を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用されるこれらの属性を含むものであってもよい。
【0021】
更に他の実施形態では、ビデオゲームコンテンツは、必ずしもキャラクタープレイを含むものではない。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定するものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理可能な表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択(例えば、周波数、編成属性、ペース、など)に関する入力に対応する表示属性(例えば、色、外観の変化、フォント、位置、など)に基づくものであってもよい。
【0022】
更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用の表示オブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート(例えば、ホリデーバージョン)に対応してなどで、ダイナミックに変化しうるものであってもよい。例示的には、機械学習アルゴリズムを、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成してもよい。
【0023】
そして、ゲームがライブでプレイされている間に、動画解析アプリケーションは、動画コンテンツの個々のフレームを把握、又は、キャプチャする。受信した動画コンテンツの周波数は、毎秒一回など、インターバルに基づいた様々なものであってもよい。キャプチャされ、解析するために選択された各フレームをマッピングする構成であってもよい。上記のように、マッピングは、機械学習アルゴリズムの処理結果に対応するという構成であってもよい。
【0024】
例示的には、ゲームプレイヤーのコンピュータ装置や同様の装置上で、若しくは、一部のアンドロイド装置上で実行される所定のコンポーネントにAPIが提供される場合、ローカルで処理が必要なものの量を制限しつつ、遅延やラグの最小限化を図るという両者の適切なバランスを得るということを目的として、アプリケーションの学習と構成の少なくとも一部を、オフラインで、遠隔データセンタ、又は、当社の開発センタにて行ってもよい。
【0025】
本開示の態様を、例示的なネットワークコンポーネント、インタラクション、及び、ルーチンに基づいて説明するが、本開示の1つ又は複数の態様は、様々な環境、システムアーキテクチャ、外部コンピュータ装置アーキテクチャなどによって実施されてもよいことは当業者には明らかであろう。同様に、クライアントコンピュータ装置などの具体的な装置に言及している場合も、その言及は上位概念化して解釈されるべきものであり、意味を付け加えたり、個々の外部コンピュータ装置に関する構成を提供したりする意図ではない。また、各例は例示を意図するもので、限定として解釈されるものではない。
【0026】
図1に、ネットワーク環境100のブロック図を示す。ネットワーク環境100は、動画コンテンツを視聴することができる顧客/クライアントに関連付けられた1つ又は複数の装置、コンテンツプロバイダに関連付けられた1つ又は複数の装置、及び、1つ又は複数の実施形態による動画コンテンツを処理する機械学習アルゴリズムを処理又は構成するサービスプロバイダを含む。環境100は、動画コンテンツアプリケーションにアクセスするためにクライアント又は顧客により使用される、クライアント装置102と総称されている複数の装置102を含む。クライアント装置102は、直接的な接続を介して、又は、中継で、ネットワーク環境106と通信可能な様々なコンピュータ装置を任意の数含んでいる。例えば、個々のアクセスするコンピュータ装置は、ラップトップ若しくはタブレットのコンピュータ、パーソナルコンピュータ、ウェラブルコンピュータ、サーバ、携帯情報端末(PDA)、ハイブリッドPDA/携帯電話、携帯電話、電子書籍リーダー、セットトップボックス、カメラ、電気機器(例えば、温度自動調節器又は冷蔵庫)、コントローラ、デジタルメディアプレイヤー、時計、眼鏡、家庭用又は車載装置、物のインターネット(IoT)装置、仮想現実又は拡張現実装置、などに対応するものであってもよい。
【0027】
任意で、各コンピュータ装置102は、本開示にて開示されている実施形態を実施するのに使用される、つまり、動画コンテンツ生成アプリケーションとして、ウェブブラウザ又はメディアプレイヤーソフトウェアアプリケーションなどの様々なアプリケーション又はコンピュータ実行可能な命令などを含む1つ又は複数のデータストア(図1に図示せず)を備えている構成であってもよい。以下により詳細に説明するように、クライアントコンピュータ装置102は、コンテンツ生成アプリケーションにより生成された動画フレームの処理に基づいて音声セグメントを選択及び生成することを可能にする非結合型補足コンテンツ生成アプリケーションを更に備えている。クライアント装置102の例示的な構成要素を、図2を参照して説明する。
【0028】
環境100は、本明細書で用いられているように、動画コンテンツ又は音声コンテンツを第三者に提供するために、コンテンツプロバイダアプリケーション104と総称されている個々のコンテンツプロバイダにより使用される複数の装置104、又は、複数の装置のネットワークを含んでいる。コンテンツプロバイダアプリケーション104は、直接接続を介して、又は、中継で、ネットワーク106と通信可能な様々なコンピュータ装置を任意の数で備えた構成であってもよい。例えば、個々のアクセスするコンピュータ装置は、ラップトップ若しくはタブレットコンピュータ、パーソナルコンピュータ、ウェラブルコンピュータ、サーバ、携帯情報端末(PDA)、ハイブリッドPDA/携帯電話、携帯電話、物のインターネット(IoT)装置、仮想現実又は拡張現実装置、などに対応するものであってもよい。任意で、各コンテンツプロバイダアプリケーション104は、本開示にて開示されている実施形態を実施するのに使用される、ウェブブラウザ又はメディアプレイヤーソフトウェアアプリケーションなどの様々なアプリケーション、又は、コンピュータ実行可能な命令などを含む1つ又は複数のデータストア(図1に図示せず)を備えている構成であってもよい。以下に更に詳細に説明するように、アプリケーションは、フラグメントやチャンクによって整理された暗号化コンテンツセグメントを処理するように構成されていてもよい。
【0029】
ネットワーク106は、任意の有線ネットワーク、無線ネットワーク、又は、その組み合わせであってもよい。また、ネットワーク106は、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、ケーブルネットワーク、ファイバネットワーク、衛星ネットワーク、携帯電話ネットワーク、データネットワーク、又は、その組み合わせであってもよい。図1の例示的な環境において、ネットワーク106は、インターネットなどのグローバルエリアネットワーク(GAN)である。上記の他のタイプの通信ネットワークを介した通信を行うためのプロトコールや構成要素は、コンピュータ通信の分野における当業者にとっては公知であり、よって、本明細書において更に詳細に記載する必要はない。クライアント装置102、コンテンツプロバイダアプリケーション104、及び、ネットワークサービス110のそれぞれは、ネットワーク106との接続をひとつ有するように示されているが、クライアント装置102、コンテンツプロバイダアプリケーション104、及び、ネットワークサービス110の個々の構成要素がそれぞれ別々のポイントでネットワーク106と接続されていてもよい。よって、通信時間と通信機能は、図1の構成要素間で異なるものあってもよい。同様に、図1は、ネットワーク106ひとつを有するように図示されているが、環境100が任意の数のネットワーク、又は、任意の組み合わせのネットワークを使用する構成であってもよいことは当業者には明らかであろう。
【0030】
いくつかの実施形態によれば、ネットワークサービス110は、本明細書において記載するように、クライアント装置102からコンテンツを受信し、コンテンツを処理して1つ又は複数の音声セグメントの推奨を作成する1つ又は複数のサーバを備えている。更に詳細に記載するように、ネットワークサービス110は、動画処理サービス112、音声処理サービス114、及び、エンゲージメントサービス116を備えている。動画処理サービス112は、動画コンテンツを解析し、キャプチャ動画フレームデータに示されている情報を特徴付けるベクトルの属性を生成する1つ又は複数の機械学習モデルを構成する例示的な構成要素を備えている。音声処理サービス114は、音声コンテンツを解析し、処理結果として、又は、本開示において記載するように更なる処理のために、音声データを特徴付けるベクトルの属性を生成する1つ又は複数の機械学習モデルを構成する例示的な構成要素を備えている。エンゲージメントサービス116は、本開示における様々な実施形態により使用される動画データ又は音声データの調整又はアトリビューションを行うアルゴリズムに対応するものであってもよい。ネットワークサービス110と関連する様々なサービス112~116はそれぞれひとつの構成要素として図示されているが、各サービス112~116は、仮想化されたリソースなどの多数の別々のインスタンス化された構成要素にまたがって実施されてもよい。例えば、推奨サービス116は、異なるタイプの推奨を実施するように構成された複数の装置、又は、複数の仮想マシンインスタンスに対応するものであってもよい。
【0031】
更に、ネットワークサービス110は、異なる情報を保持するための多数のデータストアを備えていてもよい。データストアは、構成情報、機械学習モデル、学習データなどを保持するための動画処理情報データストア118を含む。また、データストアは、構成情報、機械学習モデル、学習データなどを保持するための音声処理情報データストア120も含む。個々のデータストアとして図示されているが、データストア116、118、及び120は、複数のデータストア、分散データストア、又は、これらの変形例に対応するものであってもよい。
【0032】
環境100の構成要素は、図1に図示するものより少なくても多くてもよいことは、当業者には明らかであろう。よって、図1における環境100の図示は、例示的なものとして理解されるべきものである。例えば、いくつかの実施形態では、ネットワークサービス110の構成要素は、ホストコンピュータ環境に実装された1つ以上の仮想マシンにて実行される構成であってもよい。ホストコンピュータ環境は、迅速に用意され、解放される1つ又は複数のコンピュータリソースを備える構成であってもよく、該コンピュータリソースは、演算装置、ネットワーク装置、又は、記録装置を含む構成であってもよい。また、そのような構成要素は図1において、論理的には、論理的にグループ化したものとして図示されているが、本願の1つ又は複数の態様は、複数の地理的エリアにまたがって実現されるネットワークサービス110を含んだ構成であってもよいことは当業者には明らかであろう。また、ネットワークサービス110の一部をホストする各地理的エリアが、同じ構成要素、または同じ構成要素の組み合わせを有した構成である必要はない。
【0033】
図2に、本願によるコンテンツリクエストの生成とコンテンツリクエストの処理を行うことができる、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、その他の装置などの例示的なクライアントコンピュータ装置102のアーキテクチャの一実施形態を示す。図2に示すクライアント装置102の一般的なアーキテクチャは、本開示の態様を実施するのに使用することができるコンピュータハードウェア構成要素とソフトウェア構成要素の構成を含む。図示するように、クライアント装置102は、処理部204、ネットワークインタフェース206、コンピュータ読取可能媒体ドライブ208、出入力装置インタフェース209、任意で設けられているディスプレイ202、及び、入力装置224を備えており、これらは通信バスを介してお互いと通信する構成であってもよい。様々な実施形態において、ディスプレイ202及び/又は入力装置224などの部材は、クライアント装置102に組み込まれている構成であってもよく、装置102に接続された外部の構成要素であってもよい。
【0034】
ネットワークインタフェース206は、図1のネットワーク106などの1つ又は複数のネットワーク若しくはコンピュータシステムに対する接続を行う構成であってもよい。よって、処理部204は、ネットワークを介して他のコンピュータシステムやサービスから情報や命令を受信する構成であってもよい。また、処理部204は、メモリ210と通信し、更に、任意で設けられているディスプレイ202に出入力装置インタフェース220を介して出力情報を提供する構成であってもよい。また、出入力装置インタフェース209は、キーボード、マウス、デジタルペンなどの、任意で設けられている入力装置224から入力を受ける構成であってもよい。いくつかの実施形態では、クライアント装置102が備える構成要素は、図2に示すものよりも多くても(又は、少なくても)よい。
【0035】
メモリ210は、1つ又は複数の実施形態を実施するために処理部204が実行するコンピュータプログラム命令を保存していてもよい。一般に、メモリ210は、RAM、ROM、又はその他の永続性又は非一時的メモリを備えている。メモリ210は、クライアント装置102の一般的な管理や動作において処理部204が使用するコンピュータプログラム命令を提供するオペレーティングシステム214を保存していてもよい。メモリ210は、本開示の態様を実施するためにコンピュータプログラム命令やその他の情報を更に保存していてもよい。例えば、一実施形態において、メモリ210は、動画コンテンツへのアクセスや動画コンテンツの生成のために、ブラウザアプリケーション、モバイルアプリケーション、ビデオゲームアプリケーションなどの、1つ又は複数のコンテンツ生成アプリケーション216を保存していてもよい。更に、メモリ210は、動画フレームデータをキャプチャし、該動画フレームデータを処理し(又は処理させ)、補足音声データを選択する(又は選択させる)、少なくとも1つの補足コンテンツアプリケーション218を保存している。
【0036】
図3を参照して、システム100の構成要素の例示的なインタラクションを説明する。上記にて説明したように、図3に示すアクションは、ビデオゲームアプリケーションやソーシャルメディアアプリケーションなどへのアクセスなど、クライアントがクライアントコンピュータ装置102にアクセスして動画フレームデータを生成することに基づくものである。また、本願においては、補足コンテンツアプリケーション(例えば、音声補足コンテンツアプリケーション)は、本開示にて説明する動画コンテンツの処理や音声コンテンツの選択をするための1つ又は複数の機械学習アルゴリズムを備えて構成されていると仮定している。
【0037】
(1)において、補足コンテンツアプリケーションは、1つ又は複数のコンテンツ生成アプリケーションが生成した動画データの1つ又は複数のフレームをキャプチャする。上記したように、補足コンテンツアプリケーションは、動画の数枚のフレームをキャプチャするために様々な動画キャプチャ技術を利用することができる。動画フレームデータのキャプチャは、あるキャプチャ周波数に合わせて構成されていてもよく、キャプチャ周波数はダイナミックなものであってもよい。例えば、キャプチャ周波数は、動画コンテンツのシーンや長さにおける典型的な変化などの履歴情報に基づいたものであってもよい。他の実施形態では、ダイナミックな周波数は、動画コンテンツデータに示されているオブジェクトのペースや、測定されたダイナミクスに基づいたものであってもよい。
【0038】
(2)において、補足コンテンツアプリケーションは、キャプチャされた動画フレームデータを処理して、属性ベクトルを生成する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンから音楽のテーマを推測し、キャプチャされたフレームをオフラインレベルマップに当てはめる。例えば、補足コンテンツアプリケーションは、各フレームグループ中の特徴のセットを(任意で、畳み込みニューラルネットワークを用いて)抽出し、最終的に、これまでに処理された動画ファイルの階層類似性クラスタ(例えば、HDBSCAN)を構築する。上記のように、いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル(例えば、攻撃的、保守的、など)、およびゲームプレイの意図(例えば、ハイスコア、プレイのレベル、一般的なプレイ、など)についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各個々のゲームは、各ゲームにより生成される視覚的出力に基づいて異なる構成(例えば、機械学習アルゴリズム)を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用するこれら属性を含むものであってもよい。
【0039】
更に他の実施形態では、ビデオゲームコンテンツは、キャラクタープレイを必ずしも含まなくてもよい。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定することができるものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理することができる表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択に関する入力(例えば、周波数、編成属性、ペース、など)に対応する表示属性(例えば、色、外観の変化、フォント、位置、など)に基づくものであってもよい。
【0040】
更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用の表示オブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート(例えば、ホリデーバージョン)に対応してなどで、ダイナミックに変化しうるものである。例示的には、機械学習アルゴリズムは、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成されていてもよい。
【0041】
(3)において、補足音声コンテンツ生成アプリケーションは、生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンからの音楽のテーマを使用し、キャプチャされたフレームをオフラインレベルマップに当てはめる。補足音声コンテンツ生成アプリケーションは、属性をローカルの補足コンテンツ生成サービスに合わせて処理し、ターゲット音声セグメントを特定する。いくつかの実施形態では、ローカルの補足音声コンテンツ生成サービスは、音楽からAudio-FXを分離して2つの音声ストリームを作成し、任意で、Audio-FXストリームを再構築して、ひとつのストリームをふたつのストリームに分割したことを起因とした可聴なアーチファクトを除去する工程を更に行う。オリジナルのゲーム内音楽はゲーム中で進行している状況をより良く把握するのに役立つものであり、Audio-FXをゲーム内音楽に対してミュートさせるように独立して制御するのがより一般的な対応ではあるが、この技術は、それよりも付加価値があるであろう。また、ネットワークサービス110は、いくつかの実施形態において、何らかのマッチング情報を提供する構成であってもよい。
【0042】
いくつかの実施形態では、補足音声生成アプリケーションは、入力された、生成された属性ベクトルに基づいて、音声セグメント情報を編成する構成であってもよい。例示的には、上記にて説明したように、その後、処理結果が処理されて、現在のゲームシーンに対する補足コンテンツ(例えば、曲の選択)や曲の編成に関するインテリジェントな決定をする構成であってもよい。そのような編成は、曲のバリエーションの選択、再生速度の選択、複数の曲の組み合わせの構成、フェードイン又はフェードアウト速度の指定、などを含むものであってもよい。いくつかの実施形態では、補足コンテンツの選択は、別のアプリケーションにて実施される構成であってもよい。この別のアプリケーションは、入力されたビデオゲームフィードの解析から得られた処理結果を用いる他の機械学習アルゴリズムを用いる構成であってもよい。そのような別のアプリケーションは、ユーザプロファイル情報に基づいて設定されたものであってもよく、又は、個人の好みに合わせてカスタマイズしたものであってもよい。
【0043】
編成を行うために、音声トラックを編成するオフラインプロセスを、機械学習アルゴリズムにて具現化してもよい。オフラインプロセスは、既存の楽器音及び/又は声(歌声、歌詞)からの抽象モデルを組み込んで、オリジナルの音声に対して忠実な新しい「音楽」コンテンツを生成できるようにする。楽譜、音声(曲の音声など)及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。
【0044】
(4)において、補足コンテンツアプリケーションは、補足コンテンツ生成音声装置、ミキシングのために送信又はブレンドを行う。
【0045】
図4を参照して、音声コンテンツの選択のルーチンを説明する。上記したように、ルーチン400に示すアクションは、ビデオゲームアプリケーションやソーシャルメディアアプリケーションなどへのアクセスなど、クライアントがクライアントコンピュータ装置102にアクセスして、動画フレームデータを生成することに基づくものである。また、本願においては、補足コンテンツアプリケーション(例えば、音声補足コンテンツアプリケーション)は、本開示にて説明する動画コンテンツの処理や音声コンテンツの選択をするための1つ又は複数の機械学習アルゴリズムを備えて構成されていると仮定している。
【0046】
ブロック402において、補足コンテンツアプリケーションは、前記1つ又は複数のコンテンツ生成アプリケーションにより生成された動画データの1つ又は複数のフレームをキャプチャする。上記したように、補足コンテンツアプリケーションは、動画の数枚のフレームをキャプチャするのに様々な動画キャプチャ技術を利用することができる。動画フレームデータのキャプチャは、あるキャプチャ周波数に合わせて構成されていてもよく、キャプチャ周波数はダイナミックなものであってもよい。例えば、キャプチャ周波数は、動画コンテンツのシーンや長さにおける典型的な変化などの履歴情報に基づいたものであってもよい。他の実施形態では、ダイナミックな周波数は、動画コンテンツデータに示されているオブジェクトのペースや、測定されたダイナミクスに基づいたものであってもよい。
【0047】
ブロック404において、補足コンテンツアプリケーションは、キャプチャされた動画フレームデータを処理して、属性ベクトルを生成する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンから音楽のテーマを推測し、キャプチャされたフレームをオフラインレベルマップに当てはめる。例えば、補足コンテンツアプリケーションは、各フレームグループ中の特徴のセットを(任意で、畳み込みニューラルネットワークを用いて)抽出し、最終的に、これまでに処理された動画ファイルの階層類似性クラスタ(例えば、HDBSCAN)を構築する。上記のように、いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル(例えば、攻撃的、保守的、など)、およびゲームプレイの意図(例えば、ハイスコア、プレイのレベル、一般的なプレイ、など)についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各個々のゲームは、各ゲームにより生成される視覚的出力に基づいて異なる構成(例えば、機械学習アルゴリズム)を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用するこれら属性を含むものであってもよい。
【0048】
更に他の実施形態では、ビデオゲームコンテンツは、キャラクタープレイを必ずしも含まなくてもよい。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定するものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理可能な表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択に関する入力(例えば、周波数、編成属性、ペース、など)に対応する表示属性(例えば、色、外観の変化、フォント、位置、など)に基づくものであってもよい。
【0049】
更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用のオブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート(例えば、ホリデーバージョン)に対応してなどで、ダイナミックに変化しうるものである。例示的には、機械学習アルゴリズムは、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成されていてもよい。
【0050】
ブロック406において、補足音声コンテンツ生成アプリケーションは、生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも1つの音声セグメントを特定する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンからの音楽のテーマを使用し、キャプチャされたフレームをオフラインレベルマップに当てはめる。補足音声コンテンツ生成アプリケーションは、属性をローカルの補足コンテンツ生成サービスに合わせて処理し、ターゲット音声セグメントを特定する。いくつかの実施形態では、ローカルの補足音声コンテンツ生成サービスは、音楽からAudio-FXを分離して2つの音声ストリームを作成し、任意で、Audio-FXストリームを再構築して、ひとつのストリームをふたつのストリームに分割したことを起因とした可聴なアーチファクトを除去する工程を更に行う。例示的には、補足コンテンツ生成アプリケーションは、自然言語処理(NLP)を用いて、抽象的な非音楽性の言葉を生成した属性ベクトルに対してマッチングする。他の実施形態では、補足コンテンツ生成アプリケーションは、キャプチャされた動画フレームデータにて示されている個々のオブジェクトをさせる(made)。また、音声セグメントの選択は、コーラス、リフ、フック、などの音声トラック情報の、生成した属性ベクトルと緊密にマッチした部分であってもよい、様々な部分に対応するものであってもよい。
【0051】
いくつかの実施形態では、補足音声生成アプリケーションは、入力された、生成された属性ベクトルに基づいて、音声セグメント情報を編成する構成であってもよい。例示的には、上記にて説明したように、その後、処理結果が処理されて、現在のゲームシーンに対する補足コンテンツ(例えば、曲の選択)や曲の編成に関するインテリジェントな決定をする構成であってもよい。そのような編成は、曲のバリエーションの選択、再生速度の選択、複数の曲の組み合わせの構成、フェードイン又はフェードアウト速度の指定、などを含むものであってもよい。いくつかの実施形態では、補足コンテンツの選択は、別のアプリケーションにて実施される構成であってもよい。この別のアプリケーションは、入力されたビデオゲームフィードの解析から得られた処理結果を用いる他の機械学習アルゴリズムを用いる構成であってもよい。そのような別のアプリケーションは、ユーザプロファイル情報に基づいて設定されたものであってもよく、又は、個人の好みに合わせてカスタマイズしたものであってもよい。
【0052】
編成を行うために、音声トラックを編成するオフラインプロセスを、機械学習アルゴリズムにて具現化してもよい。オフラインプロセスは、既存の楽器音及び/又は声(歌声、歌詞)からの抽象モデルを組み込んで、オリジナルの音声に対して忠実である新しい「音楽」コンテンツを生成できるようにする。楽譜、音声(曲の音声など)及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。
【0053】
ブロック408において、補足コンテンツアプリケーションは、補足コンテンツ生成音声装置、ミキシングのために送信又はブレンドを行うルーチン400は、ブロック410で終了する。
【0054】
図5に、オフラインプロセスを実施する1つ又は複数の機械学習アルゴリズムにより実施される音声編成ルーチンを示すルーチン500を図示する。ブロック502において、オフラインプロセスは、既存の楽器音及び/又は声(歌声、歌詞)から抽象モデルを組み込む。例示的には、抽象モデルは、オリジナルの音声に対して忠実である新しい「音楽」コンテンツを生成できるように構成されている。
【0055】
ブロック504において、楽譜、音声(曲の音声など)及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。結果得られる特徴付けは、音声情報を特徴付けするなどの処理結果として生成されてもよい。例えば、特徴付けとしては、ジャンル、サブジャンル、ムード、及び、キャラクターなどが挙げられる。また、音声セグメントの属性としては、テンポ、キー、モード、コード、メロディ、などが挙げられる。
【0056】
ブロック506において、コンテンツ生成アプリケーションは、選好情報、生成された属性ベクトル、などの編成のための入力であって、抽象モデルへの入力として機能する入力を取得する。ブロック508において、コンテンツ生成アプリケーションは、機械学習モデルを用いて編成を実施する。また、エンゲージメントプラットフォームが、調整やアトリビューションに用いられるセグメントの一部を更に処理する構成であってもよい。
【0057】
ブロック510において、ルーチン510は終了する。
【0058】
本明細書に記載の個々の実施形態はいずれも、それぞれが全ての目的や効果を達成するというものでなくてもよいことは理解されるであろう。よって、例えば、ある実施形態が、本明細書に教示されているひとつ又は複数の効果を達成、又は、最適化するように実施されるように構成されている一方で、本明細書に教示されている、又は、示唆されている他の目的や効果を達成するように構成されていなくてもよいことを当業者は理解するであろう。
【0059】
本開示において記載の全てのプロセスは、コンピュータシステムによって実行される1つ又は複数のコンピュータ実行可能な命令を含むソフトウェアコードモジュールを用いて完全自動化したものであってもよい。コンピュータシステムは、コンピュータ又はプロセッサを1つ以上含むものであってもよい。コードモジュールは、いずれかのタイプの非一時的なコンピュータ読取可能媒体又はその他のコンピュータ記録装置に保存したものであってもよい。本方法のいくつか又は全ては、専用コンピュータハードウェアにて具現化されてもよい。
【0060】
本明細書において記載されたものの他に多くの変形例があることは本開示から明らかであろう。例えば、本明細書に記載のアルゴリズムのいずれかの実施形態、ある工程、イベント、又は、機能は、他の順番で実行されてもよく、追加、統合、又は、省略(例えば、アルゴリズムを実行するには全ての工程やイベントが必要というわけではない)。また、いくつかの実施形態、工程、又は、イベントは、順番に実行されなくてもよく、例えば、マルチスレッド処理や、割り込み処理、又は、複数のプロセッサ若しくはプロセッサコア若しくは他の並行アーキテクチャを用いて、同時に実行されてもよい。また、様々なタスクやプロセスを、協働して機能することができる様々な機器及び/又はコンピュータシステムにより実行してもよい。
【0061】
本明細書に開示した実施形態に関連して記載された様々な例示的な論理ブロックやモジュールは、処理ユニット又はプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、その他のプログラマブルロジック装置、ディスクリートゲート若しくはトランジスタロジック、ディスクリートハードウェア素子、又は、これらのいずれかの組み合わせなどの、本開示に記載の機能を実行するように設計された機器により、実装又は実行されることができる。プロセッサは、マイクロプロセッサであってもよいが、プロセッサはコントローラ、マイクロコントローラ、ステートマシーン、これらの組み合わせ、などであってもよい。プロセッサは、コンピュータ実行可能な命令を処理するように構成された電気回路を備えていてもよい。他の実施形態では、プロセッサは、コンピュータ実行可能な命令を処理せずにロジックオペレーションを実行するFPGAや他のプログラマブル装置を備えている。また、プロセッサは、外部コンピュータ装置の組み合わせとして、実施されてもよく、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと協働する1つ又は複数のマイクロプロセッサの組み合わせ、又は、その他のこのような構成などであってもよい。本明細書では主にデジタル技術について記載しているが、プロセッサは主にアナログコンポーネントを備えた構成であってもよい。コンピュータ環境は、どのようなコンピュータシステムのタイプを備えたものであってもよく、例えば、数例を挙げれば、コンピュータシステムは、マイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯型外部コンピュータ装置、デジタルコントローラ、又は、電気機器に組み込まれた計算エンジンなどに基づいたものであってもよいが、これらに限定されない。
【0062】
条件的な表現、例えば、「can」「could」「might」又は「may」(「でもよい」)などは、別途記載がない限り、とある実施形態が、とある構成、素子、及び/又は、工程を、他の実施形態は備えていないかもしれないが、その実施形態は備えているという意味を総じて意味するのに使用されていると、文脈の範囲で解釈されるものである。よって、概して、そのような条件的な表現は、構成、素子、及び/又は、工程が、1つ又は複数の実施形態において必ず必要とされるということを暗示する意図ではなく、また、1つ又は複数の実施形態において、ユーザの入力又はプロンプトの有無にかかわらず、これら構成、素子、又は、工程が特定の実施形態において含まれるか否か、又は、実行されるか否かを判断するためのロジックを含むと暗示する意図でもない。
【0063】
「X、Y、又は、Zのうちの少なくとも1つ」という表現などの選言的な表現は、別途記載がない限り、アイテムや条件などがX、Y、若しくはZ、又はこれらのいずれかの組み合わせ(例えば、X、Y、及び/又はZ)であるということを概して意味するものと解釈されるものである。よって、そのような選言的な表現は、ある実施形態が少なくとも1つのX、少なくとも1つのY、又は、少なくとも1つのZがぞれぞれ存在していることを必要とすると暗示する意図ではなく、そのように暗示するものでもない。
【0064】
本明細書に記載されている及び/又は添付の図面に図示されているフロー図におけるプロセスの説明、構成要素、又は、ブロックは、そのプロセスの具体的なロジック機能又は構成要素を実施する1つ又は複数の実行可能な命令を含むモジュール、セグメント、又は、コードの一部の典型例を示すものであると解釈されるべきものである。代替の実施例も本明細書に記載の実施形態の範囲に含まれており、実施における機能により、構成要素や機能は、省略されてもよく、略同時で実行されたり、逆の順番で実行されたりなど、図示又は記載の順番とは違う順番で実行されてもよいことは、当業者には理解されるであろう。
【0065】
明示的に記載しない限り、「a」「an」などの冠詞は、記載されているアイテムを1つ又は複数設けていると総じて解釈されるべきものである。よって、「何々するように構成された装置」などの表現は、そのような装置を1つ又は複数設けていることを意図する。そのような1つ又は複数であると記載された装置は、定義されている記載の構成を実施するように総じて構成されていてもよい。例えば、「記載の構成A、B、及び、Cを実行するように構成されたプロセッサ」は、記載の構成Aを実行する第1プロセッサと、記載の構成B及びCを実行する第2プロセッサとを含む構成であってもよい。
図1
図2
図3
図4
図5
【国際調査報告】