特表2024-522115 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エックスディーマインドインコーポレイテッドの特許一覧

特表2024-522115動画解析に基づく補足音声セグメントの選択

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-06-11

(54)【発明の名称】動画解析に基づく補足音声セグメントの選択

(51)【国際特許分類】

H04N 21/2368 20110101AFI20240604BHJP

H04N 21/232 20110101ALI20240604BHJP

【ＦＩ】

H04N21/2368

H04N21/232

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023573352

(86)(22)【出願日】2022-05-26

(85)【翻訳文提出日】2024-01-19

(86)【国際出願番号】 US2022031209

(87)【国際公開番号】W WO2022251548

(87)【国際公開日】2022-12-01

(31)【優先権主張番号】63/202,100

(32)【優先日】2021-05-27

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/202,102

(32)【優先日】2021-05-27

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/266,498

(32)【優先日】2022-01-06

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．アンドロイド

(71)【出願人】

【識別番号】523446435

【氏名又は名称】エックスディーマインドインコーポレイテッド

【氏名又は名称原語表記】ＸＤＭＩＮＤＩＮＣ．

【住所又は居所原語表記】７６８３ＳＥ２７ｔｈＳｔ．＃２８４，ＭｅｒｃｅｒＩｓｌａｎｄ，ＷＡ９８０４０Ｕ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100077012

【弁理士】

【氏名又は名称】岩谷龍

(72)【発明者】

【氏名】ベルナルディ，リンダ

(72)【発明者】

【氏名】ベルナルディ，アラ

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA06

5C164MA07S

5C164SB12P

5C164SB31P

5C164SB41S

5C164SC01S

5C164YA21

(57)【要約】

本願の態様は、レンダリング対象であるコンテンツと関連付けられている処理情報に基づいて補足コンテンツを生成することに対応する。より具体的には、本願の態様は、動画コンテンツの表示中に再生されるように作成される、音楽トラックなどの音声トラック情報を生成することに対応する。例示すると、動画コンテンツの１つ又は複数のフレームを、１つ又は複数の機械学習アルゴリズムにより処理して、動画コンテンツの個々のフレームを特徴付ける１つ又は複数の属性を示す処理結果を生成する。その後、候補となる音楽トラック、又は、その他の音声データを選択システムにより処理結果に基づいて特定することができる。

【特許請求の範囲】

【請求項1】

１つ又は複数のコンテンツ生成アプリケーションと非結合の状態である補足音声コンテンツ生成アプリケーションを用いて補足コンテンツを生成する方法であって、
前記補足音声コンテンツ生成アプリケーションが、前記１つ又は複数のコンテンツ生成アプリケーションが生成した１つ又は複数の動画フレームを取得する工程であって、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である、工程と、
前記補足音声コンテンツ生成アプリケーションが、前記取得した１つ又は複数の動画フレームを処理して、前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルを生成する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記１つ又は複数のコンテンツ生成アプリケーションと相関して、前記特定された少なくとも１つの音声セグメントの再生を実行させる工程と、を含む方法。

【請求項2】

１つ又は複数のコンテンツ生成アプリケーションは、動画フレームデータを生成する少なくとも１つのソーシャルメディアアプリケーションを含む、請求項１に記載の方法。

【請求項3】

１つ又は複数のコンテンツ生成アプリケーションは、動画フレームデータを生成する少なくとも１つのゲームアプリケーションを含む、請求項１に記載の方法。

【請求項4】

前記補足音声コンテンツ生成アプリケーションが、前記１つ又は複数のコンテンツ生成アプリケーションが生成した１つ又は複数の動画フレームを取得する工程は、キャプチャ周波数に基づいて動画データの個々のフレームを取得する工程を含む、請求項１に記載の方法。

【請求項5】

動画フレームデータの属性に基づいて前記キャプチャ周波数をダイナミックに調整する、請求項４に記載の方法。

【請求項6】

前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのテーマの特徴付けに対応する１つ又は複数の属性を含む、請求項１に記載の方法。

【請求項7】

前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトの測定された進行の特徴付けに対応する１つ又は複数の属性を含む、請求項１に記載の方法。

【請求項8】

前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのムードの特徴付けに対応する１つ又は複数の属性を含む、請求項１に記載の方法。

【請求項9】

前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、動画フレームデータに示されているオブジェクトのペースの特徴付けに対応する１つ又は複数の属性を含む、請求項１に記載の方法。

【請求項10】

前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、ビデオゲームのプレイのスタイル又はプレイの意図のうちのいずれか１つの特徴付けに対応する１つ又は複数の属性を含む、請求項１に記載の方法。

【請求項11】

前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定する工程は、前記生成された属性ベクトルに相関する音声トラックのセグメントを特定する工程を含む、請求項１に記載の方法。

【請求項12】

前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定する工程は、前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを編成する工程を含む、請求項１に記載の方法。

【請求項13】

前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを編成する工程は、プレイのスピードを編成する工程を含む、請求項１に記載の方法。

【請求項14】

前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを編成する工程は、フェード情報を編成する工程を含む、請求項１に記載の方法。

【請求項15】

前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを編成する工程は、２つ以上の音声セグメントを組み合わせる工程を含む、請求項１に記載の方法。

【請求項16】

前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを編成する工程は、選好情報と前記生成された属性ベクトルとに基づいて新しい音声トラックを生成する工程を含む、請求項１に記載の方法。

【請求項17】

補足音声コンテンツ用のシステムであって、
補足音声コンテンツ生成アプリケーションと関連する、１つ以上の演算プロセッサと１つ以上のメモリとを備え、前記補足音声コンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能であり、
前記補足音声コンテンツ生成アプリケーションは、
前記１つ又は複数のコンテンツ生成アプリケーションにより生成された１つ又は複数の動画フレームを取得することと（取得において、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である）、
前記取得した１つ又は複数の動画フレームを処理して、前記１つ又は複数の動画フレームに示されているコンテンツを特徴付けする属性ベクトルを生成することと、
前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定し、該特定された少なくとも１つの音声セグメントが、少なくとも部分的に、前記生成されたベクトルに基づいて編成されることと、
前記１つ又は複数のコンテンツ生成アプリケーションと相関して、前記特定された少なくとも１つの音声セグメントの再生を行わせることと、を実行するように構成されている、補足音声コンテンツ用のシステム。

【請求項18】

前記補足音声コンテンツ生成アプリケーションは、キャプチャ周波数に基づいて動画データの個々のフレームを取得する、請求項１７に記載のシステム。

【請求項19】

請求項１７に記載のシステムであって、
前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、前記動画フレームデータに示されているオブジェクトのテーマ、前記動画フレームデータに示されているオブジェクトの測定された進行、前記動画フレームデータに示されているオブジェクトのムード、前記動画フレームデータに示されているオブジェクトのペース、又は、ビデオゲームのプレイのスタイル若しくはプレイの意図のうちのいずれか１つの特徴付けに対応する１つ又は複数の属性を含む、システム。

【請求項20】

請求項１７に記載のシステムであって、
前記補足コンテンツアプリケーションは、前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを、プレイの速度の編成、フェード情報の編成、２つ以上の音声セグメントの組み合わせ、又は、前記生成された属性ベクトルと選好情報とに基づく新しい音声トラックの生成のうちのいずれか１つに基づいて編成する、システム。

【請求項21】

１つ又は複数のコンテンツ生成アプリケーションと非結合の状態である補足音声コンテンツ生成アプリケーションを用いて補足音声コンテンツを生成する方法であって、
前記補足音声コンテンツ生成アプリケーションが、前記１つ又は複数のコンテンツ生成アプリケーションが生成した１つ又は複数の動画フレームを取得する工程であって、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションはクライアント装置において実行され、前記補足音声コンテンツ生成アプリケーションと前記１つ又は複数のコンテンツ生成アプリケーションとは独立して実行可能である、工程と、
前記補足音声コンテンツ生成アプリケーションが、前記取得した１つ又は複数の動画フレームを処理して、前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルを生成する工程と、
前記補足音声コンテンツ生成アプリケーションが、前記生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定し、該特定された少なくとも１つの音声セグメントが、少なくとも部分的に、前記生成されたベクトルに基づいて編成される工程と、
前記補足音声コンテンツ生成アプリケーションが、前記特定された少なくとも１つの音声の再生を実行させる工程と、を含む方法。

【請求項22】

前記補足音声コンテンツ生成アプリケーションが、前記１つ又は複数のコンテンツ生成アプリケーションが生成した１つ又は複数の動画フレームを取得する工程は、キャプチャ周波数に基づいて動画データの個々のフレームを取得する工程を含む、請求項２１に記載の方法。

【請求項23】

請求項２１に記載の方法であって、
前記１つ又は複数の動画フレームに示されているコンテンツを特徴付ける属性ベクトルは、前記動画フレームデータに示されているオブジェクトのテーマ、前記動画フレームデータに示されているオブジェクトの測定された進行、前記動画フレームデータに示されているオブジェクトのムード、前記動画フレームデータに示されているオブジェクトのペース、又は、ビデオゲームのプレイのスタイル若しくはプレイの意図のうちのいずれか１つの特徴付けに対応する１つ又は複数の属性を含む、方法。

【請求項24】

請求項２１に記載の方法であって、
前記補足コンテンツアプリケーションは、前記生成された属性ベクトルに基づいて少なくとも１つのターゲットセグメントを、プレイの速度の編成、フェード情報の編成、２つ以上の音声セグメントの組み合わせ、又は、前記生成された属性ベクトルと選好情報とに基づく新しい音声トラックの生成のうちのいずれか１つに基づいて編成する、方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連件に関するクロスリファレンス
本願は、「DYNAMIC MODIFICATION OF CONTENT」という名称にて２０２１年５月２７日に出願された米国仮出願Ｎｏ．６３/２０２，１０２と、「ENGAGEMENT PLATFORM」という名称にて２０２１年５月２７日に出願された米国仮出願Ｎｏ．６３/２０２，１００と、「DYNAMIC MODIFICATION OF CONTENT」という名称にて２０２２年１月６日に出願された米国仮出願Ｎｏ．６３/２６６，４９８の利益を主張し、米国仮出願Ｎｏ．６３/２０２，１０２、Ｎｏ．６３/２０２，１００、及びＮｏ．６３/２６６，４９８の内容を参照により本願に含めるものである。

【背景技術】

【0002】

一般的に言われるように、コンピュータ装置と通信ネットワークとを使ってデータや情報を送受信することが可能である。一般的な一使用例では、コンピュータ装置は、通信ネットワークを介して他のコンピュータ装置からのコンテンツをリクエストすることができる。例えば、コンピュータ装置にアクセスを有するクライアントは、ソフトウェアアプリケーションを使用して、ネットワーク（例えば、インターネット）を介してサーバコンピュータ装置からのコンテンツをリクエストすることができる。このような実施形態では、クライアントのコンピュータ装置をクライアントコンピュータ装置と称し、サーバコンピュータ装置をオリジナルコンテンツプロバイダと称する場合がある。

【図面の簡単な説明】

【0003】

図面において、参照番号は、それを付した構成要素間の対応関係を示すために同じものを繰り返し使用する場合がある。本明細書に記載されている例示的な実施形態を例示するために図面を提供しているが、本開示の範囲を限定することを意図したものではない。

【0004】

【図1】図１は、１つ又は複数のクライアントコンピュータ装置と、１つ又は複数のコンテンツプロバイダと、ネットワークサービスとを含むコンテンツ配信環境を示すブロック図である。

【0005】

【図2】図２は、非結合型環境にて構成されているコンテンツ生成アプリケーションと補足コンテンツ生成アプリケーションとを備えて構成されたクライアントコンピュータ装置のブロック図である。

【0006】

【図3】図３は、図１のシステムのブロック図であり、クライアントコンピュータ装置への命令を提供する様々な命令と、クライアントコンピュータ装置による命令の処理とを示すものである。

【0007】

【図4】図４は、補足音声データの選択のルーチンを示すフロー図である。

【0008】

【図5】図５は、編成する音声トラック情報の生成のルーチンを示すフロー図である。

【発明を実施するための形態】

【0009】

概して、本願の態様は、レンダリング対象であるコンテンツに関連付けされている処理情報に基づいて補足コンテンツを生成することに対応する。より具体的には、本願の態様は、動画コンテンツの表示中に再生されるように作成される、音楽トラックなどの音声トラック情報を生成することに対応する。例示すると、動画コンテンツの１つ又は複数のフレームを、１つ又は複数の機械学習アルゴリズムにより処理して、動画コンテンツの個々のフレームを特徴付ける１つ又は複数の属性を示す処理結果を生成する。その後、候補となる音楽トラック、又はその他の音声データを選択システムにより処理結果に基づいて特定することができる。

【0010】

例示をすると、本願の態様は、コンピュータ装置において生成したビデオゲームコンテンツの処理のために実施することができる。また、本願の態様は、ソーシャルメディアアプリケーションなどのモバイルアプリケーションにて生成された動画コンテンツの処理のために実施することができる。更には、本願の態様は、パーソナルコンピュータ装置、携帯装置などにおいてその他のマルチメディアアプリケーション又は再生アプリケーションにより生成された動画コンテンツの処理のために実施することができる。よって、動画コンテンツに言及した時、一般には、特定のタイプの動画コンテンツや動画コンテンツ生成アプリケーションに限定していると解釈してはならない。

【0011】

一般に、従来の動画処理のアプローチは、個々のオブジェクトの検出、又は、ビデオゲームの開発者により付されたインストルメント化された属性に依存している。例えば、コンテンツシステムは、動画コンテンツを処理して、レンダリング対象である個々のオブジェクトを特定し、広告コンテンツなどの補足コンテンツを選択する。他の実施例では、ゲーム開発者が、メタデータやその他の記述データを表示コンテンツに付して提供して、処理ができるようにする。そのような使用例では、ゲーム開発者が、ムード、感情、活動などの様々な属性を明示的に特定するという場合もある。しかし、そのような記述の場合、ゲーム開発者がそのような意図を事前に考え、エージェントがそのような属性をクライアントに提示して、クライアントがそれらの属性に基づいて適切なアクションを行える場合にのみ適切なアクションが実行される。

【0012】

上記の実施に基づき、補足コンテンツの生成についての従来のアプローチでは、機能するには、一般に、コンテンツ生成者（例えば、ゲーム開発者又はモバイルアプリケーション開発者）の明示的な協力を必要とする。例えば、コンテンツプロバイダは、例えばカスタマイズモジュールやプラグインを挿入しておいて、実行コードの修正を可能にするという対応をすることができる。そのような修正により、アプリケーションはＡＰＩ又は様々なクエリを介して属性を配布することができる。

【0013】

このようなアプローチは、補足コンテンツ生成アプリケーションと、基礎となる動画コンテンツ生成アプリケーション（例えば、ゲームアプリケーション）と間の結合型アプローチとも一般に称される場合がある。例えば、ビデオゲームからのメタデータを受信するモジュールは、必要なメタデータへのアクセスを得るために、ビデオゲーム（例えば、コンテンツ生成アプリケーション）の修正を必要とする場合がある。同様に、インストルメント化されたデータの処理をするためにＡＰＩ通信を使用するモジュールでは、各ビデオゲームアプリケーション用の設定をそれぞれ必要とする。このアプローチは、複数のゲームアプリケーションでの使用を対象として構成されたアプリケーションの場合に、非効率的となりうる。同様に、結合型アプローチは、ゲームアプリケーション又はソーシャルメディアアプリケーションなどのアプリケーションが、オペレーティングが異なる環境では異なるように機能しうる場合にも更に非効率になりうる。

【0014】

本願の１つ又は複数の態様は、補足コンテンツアプリケーションが、１つ又は複数の特定されたコンテンツ生成アプリケーションと、並行又は別々に実行可能である非結合型アプローチに対応している。本補足コンテンツアプリケーションは、例示的な構成としては、ソーシャルメディアアプリケーションや携帯装置用ゲームなどの動画フレームなどの動画データのディープオフライン解析に対応する１つ又は複数の機械学習アルゴリズムを備えて構成されている。より具体的には、ビデオゲームコンテンツに関する一実施形態において、ディープオフライン解析は、ビデオゲームにより生成される個々のフレームを処理するように学習した機械学習アルゴリズムに対応するものであってもよい。処理結果は、ビデオゲームコンテンツ（又は、他の動画コンテンツ）の現状を特徴付ける複数の属性の一セットの特定に対応する。このような属性は、ムード、テーマ、プレイ中のキャラクター、参照オブジェクト、リズム、周波数測定値、プレイのレート、プレイのスキル、などを含む構成であってもよい。例示すると、動画解析アプリケーションは、複数のビデオゲームコンテンツに対応するものとして構成されていてもよく、例えば、機械学習アルゴリズムは、個々のビデオゲームアプリケーションの各々に対応するものとして構成されていてもよい。そのような機械学習アルゴリズムは、一群の個人に対して総じて適用可能なものであってもよい。他の実施形態では、機械学習アルゴリズムは、個々のユーザそれぞれに、又は、ユーザのサブセットのそれぞれに対してカスタマイズ可能なものであってもよい。

【0015】

ビデオゲームコンテンツ以外のコンテンツに関する他の実施形態では、ディープオフライン解析は、コンテンツ生成アプリケーションにより生成された個々のフレームを処理するように学習した機械学習アルゴリズムに対応するものであってもよい。非限定的な例を挙げると、機械学習アルゴリズムは、様々な学習モデルを組み込んだものであってもよく、学習モデルとしては、例えば、教師あり学習モデル、教師なし学習モデル、強化学習モデル、又は、表現学習モデルなどが挙げられるが、これらに限定されない。機械学習アルゴリズムに採用されている学習モデルのタイプにより、動画データ又は音声データを処理する構成が異なってもよい（例えば、教師有学習モデル又は半教師あり学習モデルの学習セットを用いるなど）。他の実施形態では、機械学習アルゴリズムは、ネットワークサービスにより決定されたペナルティ／報酬モデルを実装した強化学習モデルを実装したもの（例えば、オフラインプロセス）であってもよい。

【0016】

処理結果は、ビデオゲームコンテンツ（又は、他の動画コンテンツ）の現状を特徴付ける複数の属性の一セットの特定に対応する。このような属性は、ムード、テーマ、参照オブジェクト、リズム、周波数測定値、などを含む構成であってもよい。例示すると、動画解析アプリケーションは、複数の動画生成アプリケーションコンテンツに対応するものとして構成されていてもよく、例えば、機械学習アルゴリズムは、個々のビデオゲームアプリケーションそれぞれに対応するものとして構成されていてもよい。そのような機械学習アルゴリズムは、一群の個人に対して総じて適用可能なものであってもよい。他の実施形態では、機械学習アルゴリズムは、個々のユーザそれぞれに、又は、ユーザのサブセットのそれぞれに対してカスタマイズ可能なものであってもよい。

【0017】

そして、機械学習アルゴリズムは、個々の動画フレームを用いて実行されて機械学習アルゴリズムにより処理結果を生成する構成であってもよい。そして、処理結果が処理されて、動画コンテンツの現在の処理結果に対する補足コンテンツ（例えば、曲の選択）や曲の編成に関するインテリジェントな決定をする構成であってもよい。そのような編成は、曲のバリエーションの選択、再生速度の選択、複数の曲の組み合わせの構成、フェードイン又はフェードアウト速度の指定、などを含むものであってもよい。いくつかの実施形態では、補足コンテンツの選択を、別のアプリケーションにて実施する構成であってもよい。この別のアプリケーションは、キャプチャされた動画データの特性の解析から得られた処理結果を用いる他の機械学習アルゴリズムを用いる構成であってもよい。そのような別のアプリケーションは、ユーザプロファイル情報に基づいて設定されたものであってもよく、又は、個人の好みに合わせてカスタマイズしたものであってもよい。

【0018】

いくつかの例示的な実施形態では、動画解析アプリケーションの態様は、機械学習アルゴリズムを用いて動画コンテンツのフレームを解析してレベル（チャプターと同義）を見つけ、動画コンテンツをアクション可能な詳細レベルで要約することを更に含む構成であってもよい。一例として、アクション可能な詳細レベルは、ビデオゲームコンテンツのプレイのレベルを含むものであってもよい。他の一例として、アクション可能な詳細レベルは、動画コンテンツに示された、定義されたマイルストーン又は達成を含む構成であってもよい。解析は、ゲーム画像（グラフィックス）とゲーム音声とを含むものであってもよい。解析の結果は、それぞれ複数の属性の独自のセットを有する数十（数十以上でも数十以下でもよい）のシーンサマリであってもよい。以下に示すように、動画フレームデータの処理は、キャプチャされた任意のフレームを動画解析からこれらサマリシーンのうちのひとつに対してマッピングすることを含む構成であってもよい。適宜、場合により、いくつかの実施形態では、結果得られるテンプレート／マップは、ゲームストーリーやハイレベルなゲームプレイを記述するスケッチブックに対して均等なものであるような構成であってもよい。

【0019】

動画解析アプリケーションは、様々な動画キャプチャ技術を利用して、毎秒数フレームの動画をキャプチャし、各フレームグループにおける複数の特徴を（任意でＣＮＮを使用して）抽出し、その後、最後に、全てのフレームグループに渡る階層類似性クラスタ（例えば、ＨＤＢＳＣＡＮ）の構築を行う。動画キャプチャと併せ、音声解析により、オリジナルの曲がムードなどを表現するのにどのように使用されているかなどに基づいて、複数の特徴の正規直行系の追加のセットを得る。典型的には、音楽では長い内部サイクルが繰り返され、Ａｕｄｉｏ－ＦＸでは周波数領域において突然インパルスのように特徴が表れるものであるが、そのようなＡｕｄｉｏ－ＦＸがバックグラウンドの音楽に混じるという問題を解消するために、Ａｕｄｉｏ－ＦＸをゲーム内設定でミュートにしてもよいし、又は、適切な信号処理技術を使ってＡｕｄｉｏ－ＦＸと音楽とを分離してもよい。

【0020】

いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル（例えば、攻撃的、保守的、など）、ゲームプレイの意図（例えば、ハイスコア、プレイのレベル、一般的なプレイ、など）についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各ゲームは、各ゲームが生成する視覚的出力に基づいてそれぞれ異なる構成（例えば、機械学習アルゴリズム）を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用されるこれらの属性を含むものであってもよい。

【0021】

更に他の実施形態では、ビデオゲームコンテンツは、必ずしもキャラクタープレイを含むものではない。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定するものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理可能な表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択（例えば、周波数、編成属性、ペース、など）に関する入力に対応する表示属性（例えば、色、外観の変化、フォント、位置、など）に基づくものであってもよい。

【0022】

更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用の表示オブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート（例えば、ホリデーバージョン）に対応してなどで、ダイナミックに変化しうるものであってもよい。例示的には、機械学習アルゴリズムを、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成してもよい。

【0023】

そして、ゲームがライブでプレイされている間に、動画解析アプリケーションは、動画コンテンツの個々のフレームを把握、又は、キャプチャする。受信した動画コンテンツの周波数は、毎秒一回など、インターバルに基づいた様々なものであってもよい。キャプチャされ、解析するために選択された各フレームをマッピングする構成であってもよい。上記のように、マッピングは、機械学習アルゴリズムの処理結果に対応するという構成であってもよい。

【0024】

例示的には、ゲームプレイヤーのコンピュータ装置や同様の装置上で、若しくは、一部のアンドロイド装置上で実行される所定のコンポーネントにＡＰＩが提供される場合、ローカルで処理が必要なものの量を制限しつつ、遅延やラグの最小限化を図るという両者の適切なバランスを得るということを目的として、アプリケーションの学習と構成の少なくとも一部を、オフラインで、遠隔データセンタ、又は、当社の開発センタにて行ってもよい。

【0025】

本開示の態様を、例示的なネットワークコンポーネント、インタラクション、及び、ルーチンに基づいて説明するが、本開示の１つ又は複数の態様は、様々な環境、システムアーキテクチャ、外部コンピュータ装置アーキテクチャなどによって実施されてもよいことは当業者には明らかであろう。同様に、クライアントコンピュータ装置などの具体的な装置に言及している場合も、その言及は上位概念化して解釈されるべきものであり、意味を付け加えたり、個々の外部コンピュータ装置に関する構成を提供したりする意図ではない。また、各例は例示を意図するもので、限定として解釈されるものではない。

【0026】

図１に、ネットワーク環境１００のブロック図を示す。ネットワーク環境１００は、動画コンテンツを視聴することができる顧客／クライアントに関連付けられた１つ又は複数の装置、コンテンツプロバイダに関連付けられた１つ又は複数の装置、及び、１つ又は複数の実施形態による動画コンテンツを処理する機械学習アルゴリズムを処理又は構成するサービスプロバイダを含む。環境１００は、動画コンテンツアプリケーションにアクセスするためにクライアント又は顧客により使用される、クライアント装置１０２と総称されている複数の装置１０２を含む。クライアント装置１０２は、直接的な接続を介して、又は、中継で、ネットワーク環境１０６と通信可能な様々なコンピュータ装置を任意の数含んでいる。例えば、個々のアクセスするコンピュータ装置は、ラップトップ若しくはタブレットのコンピュータ、パーソナルコンピュータ、ウェラブルコンピュータ、サーバ、携帯情報端末（ＰＤＡ）、ハイブリッドＰＤＡ／携帯電話、携帯電話、電子書籍リーダー、セットトップボックス、カメラ、電気機器（例えば、温度自動調節器又は冷蔵庫）、コントローラ、デジタルメディアプレイヤー、時計、眼鏡、家庭用又は車載装置、物のインターネット（ＩｏＴ）装置、仮想現実又は拡張現実装置、などに対応するものであってもよい。

【0027】

任意で、各コンピュータ装置１０２は、本開示にて開示されている実施形態を実施するのに使用される、つまり、動画コンテンツ生成アプリケーションとして、ウェブブラウザ又はメディアプレイヤーソフトウェアアプリケーションなどの様々なアプリケーション又はコンピュータ実行可能な命令などを含む１つ又は複数のデータストア（図１に図示せず）を備えている構成であってもよい。以下により詳細に説明するように、クライアントコンピュータ装置１０２は、コンテンツ生成アプリケーションにより生成された動画フレームの処理に基づいて音声セグメントを選択及び生成することを可能にする非結合型補足コンテンツ生成アプリケーションを更に備えている。クライアント装置１０２の例示的な構成要素を、図２を参照して説明する。

【0028】

環境１００は、本明細書で用いられているように、動画コンテンツ又は音声コンテンツを第三者に提供するために、コンテンツプロバイダアプリケーション１０４と総称されている個々のコンテンツプロバイダにより使用される複数の装置１０４、又は、複数の装置のネットワークを含んでいる。コンテンツプロバイダアプリケーション１０４は、直接接続を介して、又は、中継で、ネットワーク１０６と通信可能な様々なコンピュータ装置を任意の数で備えた構成であってもよい。例えば、個々のアクセスするコンピュータ装置は、ラップトップ若しくはタブレットコンピュータ、パーソナルコンピュータ、ウェラブルコンピュータ、サーバ、携帯情報端末（ＰＤＡ）、ハイブリッドＰＤＡ／携帯電話、携帯電話、物のインターネット（ＩｏＴ）装置、仮想現実又は拡張現実装置、などに対応するものであってもよい。任意で、各コンテンツプロバイダアプリケーション１０４は、本開示にて開示されている実施形態を実施するのに使用される、ウェブブラウザ又はメディアプレイヤーソフトウェアアプリケーションなどの様々なアプリケーション、又は、コンピュータ実行可能な命令などを含む１つ又は複数のデータストア（図１に図示せず）を備えている構成であってもよい。以下に更に詳細に説明するように、アプリケーションは、フラグメントやチャンクによって整理された暗号化コンテンツセグメントを処理するように構成されていてもよい。

【0029】

ネットワーク１０６は、任意の有線ネットワーク、無線ネットワーク、又は、その組み合わせであってもよい。また、ネットワーク１０６は、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、ケーブルネットワーク、ファイバネットワーク、衛星ネットワーク、携帯電話ネットワーク、データネットワーク、又は、その組み合わせであってもよい。図１の例示的な環境において、ネットワーク１０６は、インターネットなどのグローバルエリアネットワーク（ＧＡＮ）である。上記の他のタイプの通信ネットワークを介した通信を行うためのプロトコールや構成要素は、コンピュータ通信の分野における当業者にとっては公知であり、よって、本明細書において更に詳細に記載する必要はない。クライアント装置１０２、コンテンツプロバイダアプリケーション１０４、及び、ネットワークサービス１１０のそれぞれは、ネットワーク１０６との接続をひとつ有するように示されているが、クライアント装置１０２、コンテンツプロバイダアプリケーション１０４、及び、ネットワークサービス１１０の個々の構成要素がそれぞれ別々のポイントでネットワーク１０６と接続されていてもよい。よって、通信時間と通信機能は、図１の構成要素間で異なるものあってもよい。同様に、図１は、ネットワーク１０６ひとつを有するように図示されているが、環境１００が任意の数のネットワーク、又は、任意の組み合わせのネットワークを使用する構成であってもよいことは当業者には明らかであろう。

【0030】

いくつかの実施形態によれば、ネットワークサービス１１０は、本明細書において記載するように、クライアント装置１０２からコンテンツを受信し、コンテンツを処理して１つ又は複数の音声セグメントの推奨を作成する１つ又は複数のサーバを備えている。更に詳細に記載するように、ネットワークサービス１１０は、動画処理サービス１１２、音声処理サービス１１４、及び、エンゲージメントサービス１１６を備えている。動画処理サービス１１２は、動画コンテンツを解析し、キャプチャ動画フレームデータに示されている情報を特徴付けるベクトルの属性を生成する１つ又は複数の機械学習モデルを構成する例示的な構成要素を備えている。音声処理サービス１１４は、音声コンテンツを解析し、処理結果として、又は、本開示において記載するように更なる処理のために、音声データを特徴付けるベクトルの属性を生成する１つ又は複数の機械学習モデルを構成する例示的な構成要素を備えている。エンゲージメントサービス１１６は、本開示における様々な実施形態により使用される動画データ又は音声データの調整又はアトリビューションを行うアルゴリズムに対応するものであってもよい。ネットワークサービス１１０と関連する様々なサービス１１２～１１６はそれぞれひとつの構成要素として図示されているが、各サービス１１２～１１６は、仮想化されたリソースなどの多数の別々のインスタンス化された構成要素にまたがって実施されてもよい。例えば、推奨サービス１１６は、異なるタイプの推奨を実施するように構成された複数の装置、又は、複数の仮想マシンインスタンスに対応するものであってもよい。

【0031】

更に、ネットワークサービス１１０は、異なる情報を保持するための多数のデータストアを備えていてもよい。データストアは、構成情報、機械学習モデル、学習データなどを保持するための動画処理情報データストア１１８を含む。また、データストアは、構成情報、機械学習モデル、学習データなどを保持するための音声処理情報データストア１２０も含む。個々のデータストアとして図示されているが、データストア１１６、１１８、及び１２０は、複数のデータストア、分散データストア、又は、これらの変形例に対応するものであってもよい。

【0032】

環境１００の構成要素は、図１に図示するものより少なくても多くてもよいことは、当業者には明らかであろう。よって、図１における環境１００の図示は、例示的なものとして理解されるべきものである。例えば、いくつかの実施形態では、ネットワークサービス１１０の構成要素は、ホストコンピュータ環境に実装された１つ以上の仮想マシンにて実行される構成であってもよい。ホストコンピュータ環境は、迅速に用意され、解放される１つ又は複数のコンピュータリソースを備える構成であってもよく、該コンピュータリソースは、演算装置、ネットワーク装置、又は、記録装置を含む構成であってもよい。また、そのような構成要素は図１において、論理的には、論理的にグループ化したものとして図示されているが、本願の１つ又は複数の態様は、複数の地理的エリアにまたがって実現されるネットワークサービス１１０を含んだ構成であってもよいことは当業者には明らかであろう。また、ネットワークサービス１１０の一部をホストする各地理的エリアが、同じ構成要素、または同じ構成要素の組み合わせを有した構成である必要はない。

【0033】

図２に、本願によるコンテンツリクエストの生成とコンテンツリクエストの処理を行うことができる、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、その他の装置などの例示的なクライアントコンピュータ装置１０２のアーキテクチャの一実施形態を示す。図２に示すクライアント装置１０２の一般的なアーキテクチャは、本開示の態様を実施するのに使用することができるコンピュータハードウェア構成要素とソフトウェア構成要素の構成を含む。図示するように、クライアント装置１０２は、処理部２０４、ネットワークインタフェース２０６、コンピュータ読取可能媒体ドライブ２０８、出入力装置インタフェース２０９、任意で設けられているディスプレイ２０２、及び、入力装置２２４を備えており、これらは通信バスを介してお互いと通信する構成であってもよい。様々な実施形態において、ディスプレイ２０２及び／又は入力装置２２４などの部材は、クライアント装置１０２に組み込まれている構成であってもよく、装置１０２に接続された外部の構成要素であってもよい。

【0034】

ネットワークインタフェース２０６は、図１のネットワーク１０６などの１つ又は複数のネットワーク若しくはコンピュータシステムに対する接続を行う構成であってもよい。よって、処理部２０４は、ネットワークを介して他のコンピュータシステムやサービスから情報や命令を受信する構成であってもよい。また、処理部２０４は、メモリ２１０と通信し、更に、任意で設けられているディスプレイ２０２に出入力装置インタフェース２２０を介して出力情報を提供する構成であってもよい。また、出入力装置インタフェース２０９は、キーボード、マウス、デジタルペンなどの、任意で設けられている入力装置２２４から入力を受ける構成であってもよい。いくつかの実施形態では、クライアント装置１０２が備える構成要素は、図２に示すものよりも多くても（又は、少なくても）よい。

【0035】

メモリ２１０は、１つ又は複数の実施形態を実施するために処理部２０４が実行するコンピュータプログラム命令を保存していてもよい。一般に、メモリ２１０は、ＲＡＭ、ＲＯＭ、又はその他の永続性又は非一時的メモリを備えている。メモリ２１０は、クライアント装置１０２の一般的な管理や動作において処理部２０４が使用するコンピュータプログラム命令を提供するオペレーティングシステム２１４を保存していてもよい。メモリ２１０は、本開示の態様を実施するためにコンピュータプログラム命令やその他の情報を更に保存していてもよい。例えば、一実施形態において、メモリ２１０は、動画コンテンツへのアクセスや動画コンテンツの生成のために、ブラウザアプリケーション、モバイルアプリケーション、ビデオゲームアプリケーションなどの、１つ又は複数のコンテンツ生成アプリケーション２１６を保存していてもよい。更に、メモリ２１０は、動画フレームデータをキャプチャし、該動画フレームデータを処理し（又は処理させ）、補足音声データを選択する（又は選択させる）、少なくとも１つの補足コンテンツアプリケーション２１８を保存している。

【0036】

図３を参照して、システム１００の構成要素の例示的なインタラクションを説明する。上記にて説明したように、図３に示すアクションは、ビデオゲームアプリケーションやソーシャルメディアアプリケーションなどへのアクセスなど、クライアントがクライアントコンピュータ装置１０２にアクセスして動画フレームデータを生成することに基づくものである。また、本願においては、補足コンテンツアプリケーション（例えば、音声補足コンテンツアプリケーション）は、本開示にて説明する動画コンテンツの処理や音声コンテンツの選択をするための１つ又は複数の機械学習アルゴリズムを備えて構成されていると仮定している。

【0037】

（１）において、補足コンテンツアプリケーションは、１つ又は複数のコンテンツ生成アプリケーションが生成した動画データの１つ又は複数のフレームをキャプチャする。上記したように、補足コンテンツアプリケーションは、動画の数枚のフレームをキャプチャするために様々な動画キャプチャ技術を利用することができる。動画フレームデータのキャプチャは、あるキャプチャ周波数に合わせて構成されていてもよく、キャプチャ周波数はダイナミックなものであってもよい。例えば、キャプチャ周波数は、動画コンテンツのシーンや長さにおける典型的な変化などの履歴情報に基づいたものであってもよい。他の実施形態では、ダイナミックな周波数は、動画コンテンツデータに示されているオブジェクトのペースや、測定されたダイナミクスに基づいたものであってもよい。

【0038】

（２）において、補足コンテンツアプリケーションは、キャプチャされた動画フレームデータを処理して、属性ベクトルを生成する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンから音楽のテーマを推測し、キャプチャされたフレームをオフラインレベルマップに当てはめる。例えば、補足コンテンツアプリケーションは、各フレームグループ中の特徴のセットを（任意で、畳み込みニューラルネットワークを用いて）抽出し、最終的に、これまでに処理された動画ファイルの階層類似性クラスタ（例えば、ＨＤＢＳＣＡＮ）を構築する。上記のように、いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル（例えば、攻撃的、保守的、など）、およびゲームプレイの意図（例えば、ハイスコア、プレイのレベル、一般的なプレイ、など）についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各個々のゲームは、各ゲームにより生成される視覚的出力に基づいて異なる構成（例えば、機械学習アルゴリズム）を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用するこれら属性を含むものであってもよい。

【0039】

更に他の実施形態では、ビデオゲームコンテンツは、キャラクタープレイを必ずしも含まなくてもよい。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定することができるものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理することができる表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択に関する入力（例えば、周波数、編成属性、ペース、など）に対応する表示属性（例えば、色、外観の変化、フォント、位置、など）に基づくものであってもよい。

【0040】

更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用の表示オブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート（例えば、ホリデーバージョン）に対応してなどで、ダイナミックに変化しうるものである。例示的には、機械学習アルゴリズムは、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成されていてもよい。

【0041】

（３）において、補足音声コンテンツ生成アプリケーションは、生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンからの音楽のテーマを使用し、キャプチャされたフレームをオフラインレベルマップに当てはめる。補足音声コンテンツ生成アプリケーションは、属性をローカルの補足コンテンツ生成サービスに合わせて処理し、ターゲット音声セグメントを特定する。いくつかの実施形態では、ローカルの補足音声コンテンツ生成サービスは、音楽からＡｕｄｉｏ－ＦＸを分離して２つの音声ストリームを作成し、任意で、Ａｕｄｉｏ－ＦＸストリームを再構築して、ひとつのストリームをふたつのストリームに分割したことを起因とした可聴なアーチファクトを除去する工程を更に行う。オリジナルのゲーム内音楽はゲーム中で進行している状況をより良く把握するのに役立つものであり、Ａｕｄｉｏ－ＦＸをゲーム内音楽に対してミュートさせるように独立して制御するのがより一般的な対応ではあるが、この技術は、それよりも付加価値があるであろう。また、ネットワークサービス１１０は、いくつかの実施形態において、何らかのマッチング情報を提供する構成であってもよい。

【0042】

いくつかの実施形態では、補足音声生成アプリケーションは、入力された、生成された属性ベクトルに基づいて、音声セグメント情報を編成する構成であってもよい。例示的には、上記にて説明したように、その後、処理結果が処理されて、現在のゲームシーンに対する補足コンテンツ（例えば、曲の選択）や曲の編成に関するインテリジェントな決定をする構成であってもよい。そのような編成は、曲のバリエーションの選択、再生速度の選択、複数の曲の組み合わせの構成、フェードイン又はフェードアウト速度の指定、などを含むものであってもよい。いくつかの実施形態では、補足コンテンツの選択は、別のアプリケーションにて実施される構成であってもよい。この別のアプリケーションは、入力されたビデオゲームフィードの解析から得られた処理結果を用いる他の機械学習アルゴリズムを用いる構成であってもよい。そのような別のアプリケーションは、ユーザプロファイル情報に基づいて設定されたものであってもよく、又は、個人の好みに合わせてカスタマイズしたものであってもよい。

【0043】

編成を行うために、音声トラックを編成するオフラインプロセスを、機械学習アルゴリズムにて具現化してもよい。オフラインプロセスは、既存の楽器音及び／又は声（歌声、歌詞）からの抽象モデルを組み込んで、オリジナルの音声に対して忠実な新しい「音楽」コンテンツを生成できるようにする。楽譜、音声（曲の音声など）及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。

【0044】

（４）において、補足コンテンツアプリケーションは、補足コンテンツ生成音声装置、ミキシングのために送信又はブレンドを行う。

【0045】

図４を参照して、音声コンテンツの選択のルーチンを説明する。上記したように、ルーチン４００に示すアクションは、ビデオゲームアプリケーションやソーシャルメディアアプリケーションなどへのアクセスなど、クライアントがクライアントコンピュータ装置１０２にアクセスして、動画フレームデータを生成することに基づくものである。また、本願においては、補足コンテンツアプリケーション（例えば、音声補足コンテンツアプリケーション）は、本開示にて説明する動画コンテンツの処理や音声コンテンツの選択をするための１つ又は複数の機械学習アルゴリズムを備えて構成されていると仮定している。

【0046】

ブロック４０２において、補足コンテンツアプリケーションは、前記１つ又は複数のコンテンツ生成アプリケーションにより生成された動画データの１つ又は複数のフレームをキャプチャする。上記したように、補足コンテンツアプリケーションは、動画の数枚のフレームをキャプチャするのに様々な動画キャプチャ技術を利用することができる。動画フレームデータのキャプチャは、あるキャプチャ周波数に合わせて構成されていてもよく、キャプチャ周波数はダイナミックなものであってもよい。例えば、キャプチャ周波数は、動画コンテンツのシーンや長さにおける典型的な変化などの履歴情報に基づいたものであってもよい。他の実施形態では、ダイナミックな周波数は、動画コンテンツデータに示されているオブジェクトのペースや、測定されたダイナミクスに基づいたものであってもよい。

【0047】

ブロック４０４において、補足コンテンツアプリケーションは、キャプチャされた動画フレームデータを処理して、属性ベクトルを生成する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンから音楽のテーマを推測し、キャプチャされたフレームをオフラインレベルマップに当てはめる。例えば、補足コンテンツアプリケーションは、各フレームグループ中の特徴のセットを（任意で、畳み込みニューラルネットワークを用いて）抽出し、最終的に、これまでに処理された動画ファイルの階層類似性クラスタ（例えば、ＨＤＢＳＣＡＮ）を構築する。上記のように、いくつかの実施形態では、アクションの特徴付けに加え、動画解析アプリケーションは、キャラクターの健康状態、プレイのペース、プレイのスタイル（例えば、攻撃的、保守的、など）、およびゲームプレイの意図（例えば、ハイスコア、プレイのレベル、一般的なプレイ、など）についても特徴付ける構成であってもよい。これに関して、機械学習アルゴリズムは、データの個々のフレームの処理を行うことで特徴付けを行うように学習する構成であってもよい。よって、各個々のゲームは、各ゲームにより生成される視覚的出力に基づいて異なる構成（例えば、機械学習アルゴリズム）を有する構成であってもよい。例示的には、処理結果は、補足コンテンツの選択において使用するこれら属性を含むものであってもよい。

【0048】

更に他の実施形態では、ビデオゲームコンテンツは、キャラクタープレイを必ずしも含まなくてもよい。動画解析アプリケーションは、上記のようなムードやテーマを特定する処理結果を生成するものであってもよい。更に、動画解析アプリケーションは、参照ポイントを提供することができるオブジェクトをビデオゲーム中で特定するものであってもよい。例えば、ワードゲームアプリケーションは、ワードゲームアプリケーションのプレイを特徴付けるために処理可能な表示オブジェクトとしてパズルボードを有する構成であってもよい。他の実施例では、作画アプリケーションが、作画ツールなどの「キャンバス」を表示オブジェクトとして備えている構成であってもよい。上記のように、いくつかの用途では、処理結果は、補足コンテンツの選択に関する入力（例えば、周波数、編成属性、ペース、など）に対応する表示属性（例えば、色、外観の変化、フォント、位置、など）に基づくものであってもよい。

【0049】

更に、いくつかの実施形態では、動画解析アプリケーションは、動画フィードの態様をフィルタする、又は、無視するように学習する構成であってもよい。例えば、ゲームアプリケーションは、バックグラウンド画像や表示オブジェクトと組み合わされたゲームプレイ用のオブジェクトのコアセットを有する構成であってもよい。バックグラウンド画像、又は、表示オブジェクトは、プレイのレベルにより、又は、ゲームの周期的なアップデート（例えば、ホリデーバージョン）に対応してなどで、ダイナミックに変化しうるものである。例示的には、機械学習アルゴリズムは、処理結果の生成におけるダイナミックな表示オブジェクトの影響を無視又は軽減するように学習するように構成されていてもよい。

【0050】

ブロック４０６において、補足音声コンテンツ生成アプリケーションは、生成された属性ベクトルを処理して、機械学習アルゴリズムに基づいて少なくとも１つの音声セグメントを特定する。例示的には、補足音声コンテンツ生成アプリケーションは、動画シーンからの音楽のテーマを使用し、キャプチャされたフレームをオフラインレベルマップに当てはめる。補足音声コンテンツ生成アプリケーションは、属性をローカルの補足コンテンツ生成サービスに合わせて処理し、ターゲット音声セグメントを特定する。いくつかの実施形態では、ローカルの補足音声コンテンツ生成サービスは、音楽からＡｕｄｉｏ－ＦＸを分離して２つの音声ストリームを作成し、任意で、Ａｕｄｉｏ－ＦＸストリームを再構築して、ひとつのストリームをふたつのストリームに分割したことを起因とした可聴なアーチファクトを除去する工程を更に行う。例示的には、補足コンテンツ生成アプリケーションは、自然言語処理（ＮＬＰ）を用いて、抽象的な非音楽性の言葉を生成した属性ベクトルに対してマッチングする。他の実施形態では、補足コンテンツ生成アプリケーションは、キャプチャされた動画フレームデータにて示されている個々のオブジェクトをさせる（ｍａｄｅ）。また、音声セグメントの選択は、コーラス、リフ、フック、などの音声トラック情報の、生成した属性ベクトルと緊密にマッチした部分であってもよい、様々な部分に対応するものであってもよい。

【0051】

【0052】

編成を行うために、音声トラックを編成するオフラインプロセスを、機械学習アルゴリズムにて具現化してもよい。オフラインプロセスは、既存の楽器音及び／又は声（歌声、歌詞）からの抽象モデルを組み込んで、オリジナルの音声に対して忠実である新しい「音楽」コンテンツを生成できるようにする。楽譜、音声（曲の音声など）及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。

【0053】

ブロック４０８において、補足コンテンツアプリケーションは、補足コンテンツ生成音声装置、ミキシングのために送信又はブレンドを行うルーチン４００は、ブロック４１０で終了する。

【0054】

図５に、オフラインプロセスを実施する１つ又は複数の機械学習アルゴリズムにより実施される音声編成ルーチンを示すルーチン５００を図示する。ブロック５０２において、オフラインプロセスは、既存の楽器音及び／又は声（歌声、歌詞）から抽象モデルを組み込む。例示的には、抽象モデルは、オリジナルの音声に対して忠実である新しい「音楽」コンテンツを生成できるように構成されている。

【0055】

ブロック５０４において、楽譜、音声（曲の音声など）及び適切なジャンルから構築された抽象モデルを用いて、抽象化を用いてオリジナルのアーティストの創作性をアーティストのスタイルとジャンルの範囲内で強化、修正、および、拡張できるようにする。また、構築モデルはアーティストの創作や表現のスタイルに基づいたもので、オリジナルのアーティストのスタイルに忠実な新しいコンテンツを生成する時にアーティストのスタイルを模倣できるようにする。ある意味、このシステムは、創作のスタイルをキャプチャするもので、同じスタイルで更にコンテンツを創作するためのエンジンとなる。結果得られる特徴付けは、音声情報を特徴付けするなどの処理結果として生成されてもよい。例えば、特徴付けとしては、ジャンル、サブジャンル、ムード、及び、キャラクターなどが挙げられる。また、音声セグメントの属性としては、テンポ、キー、モード、コード、メロディ、などが挙げられる。

【0056】

ブロック５０６において、コンテンツ生成アプリケーションは、選好情報、生成された属性ベクトル、などの編成のための入力であって、抽象モデルへの入力として機能する入力を取得する。ブロック５０８において、コンテンツ生成アプリケーションは、機械学習モデルを用いて編成を実施する。また、エンゲージメントプラットフォームが、調整やアトリビューションに用いられるセグメントの一部を更に処理する構成であってもよい。

【0057】

ブロック５１０において、ルーチン５１０は終了する。

【0058】

本明細書に記載の個々の実施形態はいずれも、それぞれが全ての目的や効果を達成するというものでなくてもよいことは理解されるであろう。よって、例えば、ある実施形態が、本明細書に教示されているひとつ又は複数の効果を達成、又は、最適化するように実施されるように構成されている一方で、本明細書に教示されている、又は、示唆されている他の目的や効果を達成するように構成されていなくてもよいことを当業者は理解するであろう。

【0059】

本開示において記載の全てのプロセスは、コンピュータシステムによって実行される１つ又は複数のコンピュータ実行可能な命令を含むソフトウェアコードモジュールを用いて完全自動化したものであってもよい。コンピュータシステムは、コンピュータ又はプロセッサを１つ以上含むものであってもよい。コードモジュールは、いずれかのタイプの非一時的なコンピュータ読取可能媒体又はその他のコンピュータ記録装置に保存したものであってもよい。本方法のいくつか又は全ては、専用コンピュータハードウェアにて具現化されてもよい。

【0060】

本明細書において記載されたものの他に多くの変形例があることは本開示から明らかであろう。例えば、本明細書に記載のアルゴリズムのいずれかの実施形態、ある工程、イベント、又は、機能は、他の順番で実行されてもよく、追加、統合、又は、省略（例えば、アルゴリズムを実行するには全ての工程やイベントが必要というわけではない）。また、いくつかの実施形態、工程、又は、イベントは、順番に実行されなくてもよく、例えば、マルチスレッド処理や、割り込み処理、又は、複数のプロセッサ若しくはプロセッサコア若しくは他の並行アーキテクチャを用いて、同時に実行されてもよい。また、様々なタスクやプロセスを、協働して機能することができる様々な機器及び／又はコンピュータシステムにより実行してもよい。

【0061】

本明細書に開示した実施形態に関連して記載された様々な例示的な論理ブロックやモジュールは、処理ユニット又はプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、その他のプログラマブルロジック装置、ディスクリートゲート若しくはトランジスタロジック、ディスクリートハードウェア素子、又は、これらのいずれかの組み合わせなどの、本開示に記載の機能を実行するように設計された機器により、実装又は実行されることができる。プロセッサは、マイクロプロセッサであってもよいが、プロセッサはコントローラ、マイクロコントローラ、ステートマシーン、これらの組み合わせ、などであってもよい。プロセッサは、コンピュータ実行可能な命令を処理するように構成された電気回路を備えていてもよい。他の実施形態では、プロセッサは、コンピュータ実行可能な命令を処理せずにロジックオペレーションを実行するＦＰＧＡや他のプログラマブル装置を備えている。また、プロセッサは、外部コンピュータ装置の組み合わせとして、実施されてもよく、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと協働する１つ又は複数のマイクロプロセッサの組み合わせ、又は、その他のこのような構成などであってもよい。本明細書では主にデジタル技術について記載しているが、プロセッサは主にアナログコンポーネントを備えた構成であってもよい。コンピュータ環境は、どのようなコンピュータシステムのタイプを備えたものであってもよく、例えば、数例を挙げれば、コンピュータシステムは、マイクロプロセッサ、メインフレームコンピュータ、デジタル信号プロセッサ、携帯型外部コンピュータ装置、デジタルコントローラ、又は、電気機器に組み込まれた計算エンジンなどに基づいたものであってもよいが、これらに限定されない。

【0062】

条件的な表現、例えば、「ｃａｎ」「ｃｏｕｌｄ」「ｍｉｇｈｔ」又は「ｍａｙ」（「でもよい」）などは、別途記載がない限り、とある実施形態が、とある構成、素子、及び／又は、工程を、他の実施形態は備えていないかもしれないが、その実施形態は備えているという意味を総じて意味するのに使用されていると、文脈の範囲で解釈されるものである。よって、概して、そのような条件的な表現は、構成、素子、及び／又は、工程が、１つ又は複数の実施形態において必ず必要とされるということを暗示する意図ではなく、また、１つ又は複数の実施形態において、ユーザの入力又はプロンプトの有無にかかわらず、これら構成、素子、又は、工程が特定の実施形態において含まれるか否か、又は、実行されるか否かを判断するためのロジックを含むと暗示する意図でもない。

【0063】

「Ｘ、Ｙ、又は、Ｚのうちの少なくとも１つ」という表現などの選言的な表現は、別途記載がない限り、アイテムや条件などがＸ、Ｙ、若しくはＺ、又はこれらのいずれかの組み合わせ（例えば、Ｘ、Ｙ、及び／又はＺ）であるということを概して意味するものと解釈されるものである。よって、そのような選言的な表現は、ある実施形態が少なくとも１つのＸ、少なくとも１つのＹ、又は、少なくとも１つのＺがぞれぞれ存在していることを必要とすると暗示する意図ではなく、そのように暗示するものでもない。

【0064】

本明細書に記載されている及び／又は添付の図面に図示されているフロー図におけるプロセスの説明、構成要素、又は、ブロックは、そのプロセスの具体的なロジック機能又は構成要素を実施する１つ又は複数の実行可能な命令を含むモジュール、セグメント、又は、コードの一部の典型例を示すものであると解釈されるべきものである。代替の実施例も本明細書に記載の実施形態の範囲に含まれており、実施における機能により、構成要素や機能は、省略されてもよく、略同時で実行されたり、逆の順番で実行されたりなど、図示又は記載の順番とは違う順番で実行されてもよいことは、当業者には理解されるであろう。

【0065】

明示的に記載しない限り、「ａ」「ａｎ」などの冠詞は、記載されているアイテムを１つ又は複数設けていると総じて解釈されるべきものである。よって、「何々するように構成された装置」などの表現は、そのような装置を１つ又は複数設けていることを意図する。そのような１つ又は複数であると記載された装置は、定義されている記載の構成を実施するように総じて構成されていてもよい。例えば、「記載の構成Ａ、Ｂ、及び、Ｃを実行するように構成されたプロセッサ」は、記載の構成Ａを実行する第１プロセッサと、記載の構成Ｂ及びＣを実行する第２プロセッサとを含む構成であってもよい。

【図1】

【図2】

【図3】

【図4】

【図5】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版