特表2024-501519 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ スコアドテクノロジーズインコーポレイテッドの特許一覧

特表2024-501519オーディオアレンジメントの生成及びミキシング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-12

(54)【発明の名称】オーディオアレンジメントの生成及びミキシング

(51)【国際特許分類】

G10H 1/00 20060101AFI20240104BHJP

G10G 1/04 20060101ALI20240104BHJP

【ＦＩ】

G10H1/00 102Z

G10G1/04

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023537614

(86)(22)【出願日】2021-12-16

(85)【翻訳文提出日】2023-08-07

(86)【国際出願番号】 US2021072973

(87)【国際公開番号】W WO2022133479

(87)【国際公開日】2022-06-23

(31)【優先権主張番号】2020127.3

(32)【優先日】2020-12-18

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

(71)【出願人】

【識別番号】523228532

【氏名又は名称】スコアドテクノロジーズインコーポレイテッド

(74)【代理人】

【識別番号】100114775

【弁理士】

【氏名又は名称】高岡亮一

(74)【代理人】

【識別番号】100121511

【弁理士】

【氏名又は名称】小田直

(74)【代理人】

【識別番号】100202751

【弁理士】

【氏名又は名称】岩堀明代

(74)【代理人】

【識別番号】100208580

【弁理士】

【氏名又は名称】三好玲奈

(74)【代理人】

【識別番号】100191086

【弁理士】

【氏名又は名称】高橋香元

(72)【発明者】

【氏名】ジェルジェク，ルーク

(72)【発明者】

【氏名】キリアクディス，ディミトリオス

(72)【発明者】

【氏名】ウォード，シモン

(72)【発明者】

【氏名】フィッシャー，イアン

【テーマコード（参考）】

5D182

5D478

【Ｆターム（参考）】

5D182AD05

5D478EB24

5D478EB25

5D478EB26

5D478GG05

(57)【要約】

１つ又は複数のターゲットオーディオアレンジメント特性を有するオーディオアレンジメントに対する要求が受け取られる。１つ又は複数のターゲットオーディオ属性が、１つ又は複数のターゲットオーディオアレンジメント特性に基づいて特定される。第１のオーディオデータが選択される。第１のオーディオデータはオーディオ属性の第１のセットを有し、オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。第２のオーディオデータが選択される。第２のオーディオデータはオーディオ属性の第２のセットを有し、オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。１つ又は複数のミキシングされたオーディオアレンジメントが出力され、及び／又は、１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータが出力される。１つ又は複数のミキシングされたオーディオアレンジメントは、少なくとも選択された第１及び第２のオーディオデータが自動化オーディオミキシング手順を使用してミキシングされることによって生成される。
【選択図】図１

【特許請求の範囲】

【請求項1】

オーディオアレンジメントを生成する際に使用するための方法であって、
１つ又は複数のターゲットオーディオアレンジメント特性を有するオーディオアレンジメントの要求を受け取ることと；
前記１つ又は複数のターゲットオーディオアレンジメント特性に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；
第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
出力することであって、
少なくとも前記選択された第１及び第２のオーディオデータが自動化オーディオミキシング手順を使用してミキシングされたことによって生成された１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は、
前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータ、
を出力することと
を含む、方法。

【請求項2】

前記１つ又は複数のターゲットオーディオアレンジメント特性が、ターゲットオーディオアレンジメント強度を含む、請求項１に記載の方法。

【請求項3】

前記１つ又は複数のミキシングされたオーディオアレンジメントが生成された後に、前記ターゲットオーディオアレンジメント強度が修正可能である、請求項２に記載の方法。

【請求項4】

前記第１のオーディオデータのスペクトル分析に基づいて、前記第１のオーディオデータの第１のスペクトル重み係数を計算することと；
前記第２のオーディオデータのスペクトル分析に基づいて、前記第２のオーディオデータの第２のスペクトル重み係数を計算することとを含み、
前記第１及び第２のオーディオデータの前記自動化ミキシングが、前記計算された第１及び第２のスペクトル重み係数を使用し、前記ターゲットオーディオアレンジメント強度に基づく、
請求項２又は３に記載の方法。

【請求項5】

前記オーディオ属性の第１のセットが、第１のクリエイター指定のスペクトル重み係数を含み、前記オーディオ属性の第２のセットが、第２のクリエイター指定のスペクトル重み係数を含み、前記第１のオーディオデータの選択及び前記第２のオーディオデータの選択が、それぞれ、前記第１及び第２のクリエイター指定のスペクトル重み係数に基づく、請求項２～４のいずれかに記載の方法。

【請求項6】

前記選択された第１のオーディオデータと前記選択された第２のオーディオデータとを、前記自動化オーディオミキシング手順を用いてミキシングし、前記１つ又は複数のミキシングされたオーディオアレンジメントを生成することを含む、請求項１～５のいずれかに記載の方法。

【請求項7】

前記１つ又は複数のターゲットオーディオアレンジメント特性が、ターゲットオーディオアレンジメント持続時間を含む、請求項１～６のいずれかに記載の方法。

【請求項8】

前記オーディオ属性の第１のセットが、前記第１のオーディオデータの第１の持続時間を含み、前記オーディオ属性の第２のセットが、前記第２のオーディオデータの第２の持続時間を含み、前記第１のオーディオデータの選択及び前記第２のオーディオデータの選択が、それぞれ前記第１及び第２の持続時間に基づく、請求項７に記載の方法。

【請求項9】

前記１つ又は複数のターゲットオーディオアレンジメント特性が、ジャンル、テーマ、スタイル及び／又はムードを含む、請求項１～８のいずれかに記載の方法。

【請求項10】

１つ又は複数のさらなるターゲットオーディオアレンジメント特性を有するさらなるオーディオアレンジメントのさらなる要求を受け取ることと；
前記１つ又は複数のさらなるターゲットオーディオアレンジメント特性に基づいて、１つ又は複数のさらなるターゲットオーディオ属性を特定することと；
前記第１のオーディオデータを選択することであって、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
第３のオーディオデータを選択することであって、前記第３のオーディオデータは、オーディオ属性の第３のセットを有し、前記オーディオ属性の第３のセットは、前記特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
出力することであって、
少なくとも前記選択された第１及び第３のオーディオデータが前記自動化オーディオミキシング手順を使用してミキシングされたことによって生成されたさらなるミキシングされたオーディオアレンジメント、及び／又は、
前記さらなるミキシングされたオーディオアレンジメントを生成するために使用可能なデータ、
を出力することと
を含む、請求項１～９のいずれかに記載の方法。

【請求項11】

自動化されたオーディオ正規化手順を使用して、前記第１及び／又は第２のオーディオデータを導出することを含む、請求項１～１０のいずれかに記載の方法。

【請求項12】

自動化されたオーディオマスタリング手順を使用して、前記第１及び／又は第２のオーディオデータを導出することを含む、請求項１～１１のいずれかに記載の方法。

【請求項13】

前記１つ又は複数のオーディオアレンジメントが、前記第１及び第２のオーディオデータの選択後に受け取られたユーザ入力とは無関係にミキシングされる、請求項１～１２のいずれかに記載の方法。

【請求項14】

前記オーディオ属性の第１及び／又は第２のセットが、少なくとも１つの禁止されたオーディオ属性を含み、前記少なくとも１つの禁止されたオーディオ属性が、前記第１及び／又は第２のオーディオデータと共に使用されるべきでないオーディオデータの属性を示し、前記第１及び／又は第２のオーディオデータの選択が、前記少なくとも１つの禁止されたオーディオ属性に基づく、請求項１～１３のいずれかに記載の方法。

【請求項15】

さらなるオーディオデータが、前記少なくとも１つの禁止されたオーディオ属性の少なくともいくつかを有する前記さらなるオーディオデータに基づいて、前記オーディオアレンジメントにおける使用のための選択対象として無視される、請求項１４に記載の方法。

【請求項16】

前記第１及び／又は第２のオーディオデータが、
リードイン；
主要な音楽コンテンツ及び／又は本体；
リードアウト；及び／又は、
オーディオテール、
を含む、請求項１～１５のいずれかに記載の方法。

【請求項17】

前記第１及び／又は第２のオーディオデータの一部のみが前記オーディオアレンジメントに使用される、請求項１～１６のいずれかに記載の方法。

【請求項18】

前記第１のオーディオデータが第１のクリエイターに由来し、前記第２のオーディオデータが第２の異なるクリエイターに由来する、請求項１～１７のいずれかに記載の方法。

【請求項19】

前記オーディオアレンジメントが、さらにビデオデータに基づく、請求項１～１８のいずれかに記載の方法。

【請求項20】

前記ビデオデータを分析することを含む、請求項１９に記載の方法。

【請求項21】

前記ビデオデータの分析に基づいて、前記１つ又は複数のターゲットオーディオアレンジメント特性を特定することを含む、請求項２０に記載の方法。

【請求項22】

前記１つ又は複数のミキシングされたオーディオアレンジメントに付随するビデオデータ及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することを含む、請求項１～２１のいずれかに記載の方法。

【請求項23】

前記１つ又は複数のターゲットオーディオ属性の特定が、前記１つ又は複数のターゲットオーディオアレンジメント特性を前記１つ又は複数のターゲットオーディオ属性にマッピングすることを含む、請求項１～２２のいずれかに記載の方法。

【請求項24】

前記出力することが、前記１つ又は複数のミキシングされたオーディオアレンジメントをストリーミングすることを含む、請求項１～２３のいずれかに記載の方法。

【請求項25】

オーディオアレンジメントを生成する際に使用するための方法であって、
ミキシングされたオーディオアレンジメントに許容可能なオーディオデータを定義するテンプレートを選択することであって、前記許容可能なオーディオデータが、前記ミキシングされたオーディオアレンジメントに適合性のある１つ又は複数のターゲットオーディオ属性のセットを有する、選択することと；
第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は、前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、前記１つ又は複数のミキシングされたオーディオアレンジメントは、自動化されたオーディオミキシング手順を使用して、前記選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；
前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することと
を含む、方法。

【請求項26】

オーディオアレンジメントを生成する際に使用するための方法であって、
ビデオデータ及び／又は所与のオーディオデータを分析することと；
前記ビデオデータ及び／又は所与のオーディオデータの分析に基づいて、１つ又は複数のターゲットオーディオアレンジメント強度を特定することと；
前記１つ又は複数のターゲットオーディオアレンジメント強度に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；
第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；
１つ又は複数のミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、前記１つ又は複数のミキシングされたオーディオアレンジメントは、前記選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；
前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することと
を含む、方法。

【請求項27】

請求項１～２６のいずれかに記載の方法を実行するように構成されたシステム。

【請求項28】

実行されると、請求項１～２６のいずれかに記載の方法を実行するように構成されたコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２０年１２月１８日に提出された英国出願ＧＢ２０２０１２７．３号に付与された優先権を主張し、その内容全体は参照により本明細書に組み込まれる。

【0002】

導入部
技術分野
本開示は、オーディオアレンジメントの生成に関する。オーディオアレンジメントを生成する、及びオーディオアレンジメントを生成する際に使用するための様々な手段（例えば、方法、システム、及びコンピュータプログラム）が提供される。特に、これに限定されないが、本開示は、生成的な音楽作曲及びレンダリングオーディオに関する。

【背景技術】

【0003】

背景
音楽などのすべてのオーディオファイルは、静的なデータストリームである。特に、音楽が録音され、ミキシングされ、レンダリングされると、音楽を動的に変化させたり、リアルタイムで相互作用させたり、再利用したり、別の形態やコンテキストでパーソナライズしたりすることは、適切なツールを有する専門家でない限り、有意義な方法ではできない。したがって、そのような音楽は「静的」であると考えることができる。静的な音楽では、インタラクティブで没入型のテクノロジーや体験の世界を動かすことはできない。既存のシステムのほとんどは、音楽のコントロールやパーソナライズを容易に促すものではない。

【0004】

ＵＳ－Ａ１－２０１０／００５０８５４号は、マルチメディアシーケンスの自動又は半自動作曲に関するものである。各トラックにはあらかじめ決められた数のバリエーションがある。作曲はランダムに生成される。関心のある読者は、ＵＳ－Ａ１－２０１８／０７６９１３号、ＷＯ－Ａ１－２０１７／０６８０３２号、及びＵＳ２０１９０１６４５２８号も参照されたい。

【発明の概要】

【0005】

第１の実施形態によれば、オーディオアレンジメントを生成する際に使用するための方法であって、１つ又は複数のターゲットオーディオアレンジメント特性を有するオーディオアレンジメントの要求を受け取ることと；１つ又は複数のターゲットオーディオアレンジメント特性に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；第１のオーディオデータを選択することであって、第１のオーディオデータはオーディオ属性の第１のセットを有し、オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、第２のオーディオデータはオーディオ属性の第２のセットを有し、オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；出力することであって、少なくとも選択された第１及び第２のオーディオデータが自動化オーディオミキシング手順を使用してミキシングされたことによって生成された１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む方法が提供される。

【0006】

第２の実施形態によれば、オーディオアレンジメントを生成する際に使用するための方法であって、ミキシングされたオーディオアレンジメントに許容可能なオーディオデータを定義するテンプレートを選択することであって、許容可能なオーディオデータは、ミキシングされたオーディオアレンジメントに適合性のある１つ又は複数のターゲットオーディオ属性のセットを有する、選択することと；第１のオーディオデータを選択することであって、第１のオーディオデータはオーディオ属性の第１のセットを有し、オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、第２のオーディオデータはオーディオ属性の第２のセットを有し、オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は、１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、１つ又は複数のミキシングされたオーディオアレンジメントは、自動化されたオーディオミキシング手順を使用して、選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む方法が提供される。

【0007】

第３の実施形態によれば、オーディオアレンジメントを生成する際に使用するための方法であって、ビデオデータ及び／又は所与のオーディオデータを分析することと；ビデオデータ及び／又は所与のオーディオデータの分析に基づいて、１つ又は複数のターゲットオーディオアレンジメント強度を特定することと；１つ又は複数のターゲットオーディオアレンジメント強度に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；第１のオーディオデータを選択することであって、第１のオーディオデータはオーディオ属性の第１のセットを有し、オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、第２のオーディオデータはオーディオ属性の第２のセットを有し、オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；１つ又は複数のミキシングされたオーディオアレンジメント及び／又は１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、１つ又は複数のミキシングされたオーディオアレンジメントは、選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む方法が提供される。

【0008】

第４の実施形態によれば、第１から第３の実施形態のいずれかによる方法を実行するように構成されたシステムが提供される。

【0009】

第５の実施形態によれば、実行されると、第１から第３の実施形態のいずれかによる方法を実行するように構成されたコンピュータプログラムが提供される。

【0010】

次に様々な実施形態が、添付の図面を参照して、例としてのみ記載される。

【図面の簡単な説明】

【0011】

【図1】オーディオアレンジメントがレンダリングされ得るシステムの一例のブロック図を示す。

【図2】アセット作成の方法の一例のフローチャートを示す。

【図3】バリエーション要求に対処する方法の一例のフローチャートを示す。

【図4】ユーザインターフェース（ＵＩ）の一例の表現を示す。

【図5】異なるオーディオアレンジメントの例の表現を示す。

【図6】ＵＩの別の例の表現を示す。

【図7】ＵＩの別の例の表現を示す。

【図8】ＵＩの別の例の表現を示す。

【図9】ＵＩの別の例の表現を示す。

【図10】特性曲線の一例の表現を示す。

【図11】特性曲線の別の例の表現を示す。

【図12】強度プロットの一例のグラフを示す。

【図13】ＵＩの別の例の表現を示す。

【発明を実施するための形態】

【0012】

既存の音楽配信システムの多くは、静的な音楽やオーディオコンテンツの再利用性に関して制御を提供していないか、あるいは制限付きの制御を提供している。例えば、ミュージシャンは曲を録音しても、その曲の要素がどのように使用され、再利用されるかに関して制御を持たないか、あるいは制御を制限されている可能性がある。音楽コンテンツ制作者は、使用や再利用のために楽曲のサブセットを簡単に提供することができない。なぜなら、楽曲のサブセットを受け取り、分析し、他の適応性のあるアセットと自動的にマッチングさせ、リクエストに応じて完全な楽曲を生成するインフラがないからである。ほとんどの既存のシステムでは、音楽の長さ、ジャンル、音楽構造、楽器編成、表現曲線又は音楽の他の側面などの属性を、音楽が録音された後に変更することはできない。そのため、録音された音楽は、様々なユースケースやメディアの要件に簡単に、あるいはまったく適合させることができない。既存の人工知能（ＡＩ）ベースの作曲・生成システムの中には、満足のいく品質の結果が得られないものもある。人間の音楽的創造性や楽器演奏における表現力は、特に計算でモデル化することが難しいため、結果として得られる音楽は、一般的なサウンドの作曲だけでなく、貧弱なサウンドデザインや、ほとんどロボットのような非現実的な演奏にも苦しめられている。いくつかの既存のシステムでは、エンドユーザはクリエイターにお金を払って、与えられたコンテンツ（すなわち、ビデオ又はゲーム）のためにオーダーメイドの音楽を作曲してもらうか、既成の音楽を購入し、それを他のメディアに合うように切り貼りしたり、それらをベースに創作したりする必要がある。既存のシステムは、この両極端の中間を提供していない。既存のシステムには、例えばＹｏｕＴｕｂｅ（商標）、Ｔｗｉｔｃｈ（商標）等で、既存の音楽コンテンツを再利用する際のライセンスに関する複雑な問題がある。原理的には、エンドユーザがデジタルオーディオワークステーション（ＤＡＷ）を使って、他のクリエイターが作った音楽を操作したり、パーソナライズしたりすることは可能だが（厳しい制限はあるが）、パーソナライズされた音楽を探しているだけの初心者ユーザは、既存の音楽編集技術を効果的に使うことができないかもしれない。さらに、ＤＡＷプロジェクトファイルなどの音楽プロジェクトを編集することは、操作されるコンテンツを受信者に与えるかもしれないが、このようなプロジェクトファイルや個別にレンダリングされた音楽ステムは、エンドユーザがアクセスできるようになることはほとんどない。また、このようなプロジェクトファイルは一般的に非常に大きなファイルであり、元のプロジェクトファイルから得られる音楽を復元、再生、及び変更するためには、一般的に有償のソフトウェアと、通常は一連の有償のプラグインを必要とする。このようなソフトウェアは、一般的に、専門家である音楽制作者向けに設計された複雑なユーザインターフェースを提示するため、スマートフォンやタブレット端末には適さないか、スマートフォンやタブレット端末では少なくとも機能が大幅に制限される可能性がある。しかしながら、エンドユーザは、このようなデバイスを使用して、直感的で効率的なＵＩで、大量のパーソナライズされた音楽を、実質的にリアルタイムで生成したいと思うかもしれない。

【0013】

例えば、ＵＳ－Ａ１－２０１０／００５０８５４号と比較すると、本開示は、構造変更及び／又はセクションの変更を可能にするシステムを提供する。このような変更は、時間的なもの（例えば、作曲を長くする、並べ替える、又は短くする）、ステムの数及び／又はタイプ（例えば、楽器やレイヤーを追加又は削除する）、又は個々のステムの内容（例えば、ギターのステムのサウンド又は演奏スタイルを変更する）であり得る。また、本開示は、オーディオアレンジメントを生成するプロセスにおいて、より少ない音楽的制限を課すことを可能にする。さらに、本開示は、簡略化された高レベルのブリーフィングを介して、エンドユーザが作曲生成を制御することを可能にする。そのようなエンドユーザは、初心者ユーザであってもよい。本明細書に記載される例に従って提供されるＵＩは、ユーザが高度にパーソナライズされたコンテンツを得ることを可能にするが、ユーザ専門知識及びインタラクションは既存のオーディオ編集ソフトウェアを使用する場合に必要とされるであろうよりも大幅に低減される。

【0014】

本開示は、とりわけ、オーディオフォーマット、プラットフォーム、及びバリエーションシステムを提供する。無限に近い音楽を生成するための方法と技術が提供される。音楽は、様々な長さ、スタイル、ジャンル、及び／又は知覚される音楽の強度を有し得る。エンドユーザは、与えられたトラックのかなりの数の異なるバリエーションをほぼ瞬時に循環するかもしれない。この例では、目的に応じて構成され、構造化され、意味的に注釈が付けられたオーディオファイルをミキシングし、アレンジすることで、これを可能にする。本明細書に記載されるオーディオフォーマットは、本開示のシステムがそれを使用できるようにするために、人間によって、又は自動処理によって、オーディオをパッケージ化する方法を定義する。

【0015】

本明細書に記載される例示的なオーディオプラットフォーム及びバリエーションシステムは、エンドユーザにとって特に有効な複数の機能を提供する。大量の高品質コンテンツを迅速かつ容易に生成することができる。エンドユーザはさらに、そのようなコンテンツをかなりの程度制御することができる。アセット間の音楽的適合性は事実上保証されており、音楽性は作曲と録音の両方の段階で、専門の音楽クリエイターによって手作りされる。強度曲線は、手動又は自動で描き、変更することができる。強度曲線は動的に変化し、オーディオを修正することができる。これはリアルタイムで行われることもある。音楽的に快適な最終結果を保証するために、アセットの使用と再使用に関する、人間が書いたケース固有のルールを提供することができる。例えば、クリエイターは、自分が録音した音楽を、他のクリエイターの音楽とどのように自動的に使用したり組み合わせたりすべきか、すべきでないかを指定することができる。オーディオセグメント間のシームレスなループやトランジションを実現できる。これは、各オーディオアセットに対して、コアオーディオに加えて、個別のリードイン、リードアウト、及び／又はテールオーディオ（本明細書では「オーディオテール」とも呼ぶ）セグメントを持つことによって達成される。リードインセグメントは、歌い始める前の歌い手の息継ぎや、新しいパッセージを予期してギタリストが弦に触れる音など、メインコンテンツが音楽のビートグリッド上に現れることを予期して再生され得る、又は再生される必要があり得る、あらゆるオーディオを構成する。オーディオテールの例は、リバーブテールである。その他のオーディオテールの例としては、ディレイテール、ナチュラルシンバルディケイ（ｎａｔｕｒａl ｃｙｍｂａｌｄｅｃａｙ）等があるが、これらに限定されない。したがって、これらのリードイン及びテールセグメントの内容は、それらが伴う楽器やコンテンツの種類によって異なり、フェードインやスウェルから、リバーブテールや他の長いディケイまで、それぞれ異なる可能性がある。２つのオーディオブロックが時間的に隣接している場合、１つ目のブロックのテールは２つ目のブロックの始まりにミックスされ、２つ目のブロックのリードインは１つ目のブロックのエンディングにミックスされる。他の方法と比較して、これはオーディオのブロック間の自然で滑らかな移行をもたらし、リードインとテールエンドのオーディオの適切なオーバーラップで曲内のセクション間のシームレスなループとダイナミックな移行を可能にする。さらに、これらのリードインとテールセグメントをメインセグメントから分離しておくことで、この方法は、オーディオ録音のサブセットを分離して使用しようとするときに生じる問題を完全に解決する。直前のオーディオのテールは、現在のセグメントの先頭に「焼き付けられ」ていて、それを取り除く方法がなく、一方、リードインは、直前のセグメントのエンディングに紛れ込んでいて、それを分離する方法はない。

【0016】

本明細書に記載される例示的なオーディオプラットフォームとバリエーションシステムも、クリエイターにとって特に有効な複数の機能を提供する。クリエイターは、自分が心地よいと感じるものを作ることができる。クリエイターは、曲全体、又は曲の中で使用される孤立した部分又はステムを制作することができ、その曲の残りが既に作られたか否かは重要ではない。クリエイターがテンプレートに従う限り、例示的なオーディオフォーマット、プラットフォーム、バリエーションシステムによって、オーディオステムを構造化され自動化された方法でミックスすることができる。クリエイターは、様々な用途のために大量のコンテンツを作成する必要はない。代わりに、クリエイターは１つ又は複数のパートを録音し、それを、高度にカスタマイズされた多数のトラックのベースとして使用することができる。複数のクリエイターが自分の作品を提出し、他のクリエイターの作品と組み合わせて使用することで、これまでに聴いたことのない音楽の曲を生み出すことができる。アセットの適合性を保証するための唯一の要件は、それらがすべて同じテンプレートに準拠し、それらの組み合わせがテンプレート固有のルールとアセット固有のルールの両方に一致していることである。

【0017】

さらに、自然な音楽理解は、多くの異なるＵＩに展開されている。これにより、異なる音楽のコンセプトや特徴の間をスムーズに移行することができる。例えば、音楽は「エレクトロニック」から「アコースティック」へ、及び／又は「リラックス」から「エネルギッシュ」へとスムーズに移行し得る。特定の音楽クリエイター及び／又は複数の音楽クリエイターの組み合わせに向かうなど、他の移行が発生することもある。このようなＵＩは、仮想現実（ＶＲ）、拡張現実（ＡＲ）、２Ｄ及び３Ｄのインタラクティブ環境、ビデオゲームなどのコンテキストでも使用することができる。ユーザは、例えば、移動、歩行、ナビゲート、それらの環境との相互作用によって、専門家である音楽クリエイターによって公開された高レベルのパラメータを、入力を用いて制御し得る。

【0018】

音楽に使用できることに加えて、本明細書に記載される例は、ボーカルトラック、サウンドエフェクト（ＳＦＸ）、環境音及び／又はノイズの使用、及び／又は他の非音楽の使用例にも同様に使用することができる。例えば、ボーカルに関連して、歌手は、本明細書に記載のシステムを使用して、例えば男性から女性、異なる歌唱スタイル（ラップ、オペラ、ジャズ、ポップス等など）のボーカルを歌い継いだり、その場で変更したりすることができるかもしれない。歌手は、このシステムを使用して、即席の音楽プロデューサーのように、その場で、即席のユニークなカスタマイズ可能なバッキングトラックを作成することにより、ラップ／歌に伴奏を付けること及びインスパイアすることを助けることができる。そして、完全にユニークな、これまで聞いたことのないようなトラックを作ることができる。このシステムのエンドユーザやリスナーは、複数の無限のボーカルオプションから恩恵を受けることができる。

【0019】

本明細書に記載される例は、クリエイターに、本来意図されたコンテキストとは異なるコンテキストで自分のコンテンツを再利用させる能力（及びその再利用がどのように生じるかを制御する能力）を提供するだけでなく、自分の音楽の要素が最初に本来のコンテキストの中でどのように使用されるかをクリエイターが制御することも可能にする。

【0020】

ここで、本明細書で使用される様々な用語について、一例として説明する。

【0021】

「セクション」という用語は、トラックの他とはっきり区別できる音楽的セクションを意味するように本明細書で一般的に使用される。セクションの例には、イントロ、コーラス、バース、アウトロが含まれるが、これらに限定されない。各セクションは異なる長さを有し得る。長さは小節単位で測定され得る。

【0022】

「セクションセグメント」又は「セグメント」という用語は、セクションがクリエイターの裁量で分割される部分がある場合、その部分の１つを意味するために本明細書で一般に使用される。セグメントは、１つのセクションの長さの異なるバリエーションを可能にするために使用される。例えば、コーラスを長くしたり、バースを短くしたりするなど、所望の長さ又は効果を得るために、いくつかのセグメントをループさせたり、完全にスキップしたりすることができる。例では、各セグメントは、オーディオのリードイン部分、コアオーディオ、及びリバーブテールなどとして機能し得るオーディオのテールエンド部分を含む、又はそれらから構成される。

【0023】

「ステム」という用語は、クリエイターによって提出された、名前付きの複数のオーディオトラックを意味するために本明細書で一般使用される。トラックはモノラル、ステレオ、又は任意の数のチャンネルであり得る。ステムは、単一の楽器又は複数の楽器を含む。例えば、ステムは、バイオリン、バイオリン全体、弦楽アンサンブル、又は楽器ユニットを形成するとクリエイターによって判断されたその他の楽器の組み合わせを含み得る。各ステムは、１つ又は複数のセクションを有し得る。例では、各セクションは、クリエイターによって、互いに同じオーディオファイルに順番に含まれる。オーディオファイルはＷＡＶファイルなどであり得る。複数のセクションを備えるオーディオファイルは、後に、手動で又は自動化されたプロセスによって、スライスされ、別々のファイルに保存され得る。アセットストレージ、ストリーミング、又はダウンロードの要件を減らすために圧縮オーディオフォーマットを使用することができる。

【0024】

上に示したように、トラックは理論上、任意のチャンネル数にすることができる。しかしながら、異なるチャンネル数のステム間の適合性の問題があるかもしれない。本明細書に記載される例は、これに対処するメカニズムを提供する。このようなメカニズムにより、本明細書に記載されるシステムを、仮想ワード及び／又はゲームエンジンと一緒に使用すること、及び／又は仮想ワード及び／又はゲームエンジンの内部で適合性を持たせることが可能になる。アセット間の適合性の観点から、例えば、２チャンネルのステムを６チャンネルのステムとミックスすることができる。６チャンネルのステムを２チャンネルのステムにミックスダウンすることもできるし、２チャンネルのステムを６チャンネルのステムに自動的に分配又はアップスケールすることもできる。本明細書に記載される例示的なエンジンは、任意のチャンネル数で動作することができる。しかしながら、チャンネル数は、特定のユースケースのためのアセットライブラリの構築に関連する場合がある。また、マルチチャンネルオーディオはマルチチャンネルアセットを必要としない場合がある。例えば、ギター又はベースのモノラル録音は、８チャンネルのサラウンドサウンドセッティングのどこにでもパンすることができる。

【0025】

「ステムフラグメント」という用語は、ステムのセクションセグメントが分割されたオーディオパートの１つを意味するために本明細書で一般に使用される。このようなセクションの例には、リードイン、メインパート、テールエンドが含まれるが、これらに限定されない。各ステムフラグメントは特定のユーティリティの役割を持ち、例としては、リードイン、メインパート、テールエンドの１つとすることができる。各セグメントは、クリエイターが特に指定しない限り、これらのステムフラグメントを有する。

【0026】

「パート」という用語は、トラックにおいて特定の役割を果たすために組み合わされるステムのグループを意味するために本明細書で一般に使用される。例えば、ステムは、メロディ、ハーモニー、リズム、移行部などとして組み合わされ得る。パートは、１つのセクションからトラック全体まで、トラックの任意の数のセクションにまたがることができる。

【0027】

「テンプレート」という用語は、音楽構造のハイレベルなアウトラインを意味するために本明細書で一般に使用される。テンプレートは、ハイレベルの音楽構造の時間的、構造的、和声的、及びその他の要素を指示し得る。時間的要素には、１分あたりの拍数で測定される音楽のテンポ、１小節あたりの拍数で測定される音楽の拍子、及び音楽構造の任意の時点でそれらに生じる可能性のある変更が含まれ得る。構造的要素には、パートの数と種類、セクションの数と種類、それらの長さ、音楽構造における機能的役割、及び高レベルの音楽構造に関連するその他の側面が含まれ得る。和声的要素には、和声的タイムラインとして指定された、各セクションの調とコード進行が含まれ得る。テンプレートは、音楽の１つ又は複数のさらなる側面も制御し得る。テンプレートはまた、上記の要素のいずれかをどのように使用及び再利用するかについての規則を含み得る。例えば、テンプレートは、許可されるパートの組み合わせと許可されないパートの組み合わせ、許可されるセクションのシーケンスと許可されないセクションのシーケンス、又はステムを作曲、制作、ミキシング、又はマスタリングする方法に関する他のルールを指定し得る。全体として、テンプレートは、そのルールに従うすべてのアセットの音楽的な適合性と、それらのアセットの許可されたすべての組み合わせの音楽的な健全性を、効果的に保証する。

【0028】

「テンプレート情報（“ｔｅｍｐｌａｔｅｉｎｆｏ”又は“ｔｅｍｐｌａｔｅｉｎｆｏｍａｔｉｏｎ”）」という用語は、テンプレートを定義し、関連するメタデータを含むデータのセットを意味するために本明細書で一般に使用される。このデータは、構造化されたテキストファイル、視覚的表現、ＤＡＷプロジェクトファイル、対話型ソフトウェアアプリケーション、ウェブサイトなど、多くの形式を有し得る。テンプレート情報には、様々なパート及びステムを様々なやり方で組み合わせることができる及びできない方法、及びそのセクションを順番に並べる方法に関する一連のルールも含まれ得る。これらのルールは、グローバルに作成され、作品の全体的な構造に適用されることもあれば、クリエイターの裁量で、特定のパート、ステム、又はセクションに対して定義されることもある。これらのルールは、テンプレートの最初のクリエイターによって指定され得、同じクリエイター又は別のクリエイターによって自動的又は手動で後日修正され得る。

【0029】

「ブリーフィング」という用語は、結果として得られる音楽又はオーディオ出力が満たさなければならない、ユーザが指定した特性のセットを意味するために本明細書で一般に使用される。ブリーフィングとは、エンドユーザのニーズをシステムに知らせるものである。

【0030】

「アレンジメント」という用語は、同じテンプレートに属する、許容されるステム及びセクションの、キュレートされたサブセットを意味するために本明細書で一般に使用される。つまり、多くの可能な許容されるセクションのシーケンスのうち、それぞれが、多くの可能な許容されるパートの組み合わせの１つを含み、それぞれが、多くの可能な許容されるステムの組み合わせの１つを含む。異なるアレンジメントは、異なるメロディ、異なる楽器編成を含み、異なる音楽ジャンルに属し、リスナーに異なる感情を呼び起こし、異なる知覚される音楽的強度を持ち、及び／又は異なる長さを持つことができる。

【0031】

「ミックス」という用語は、アレンジメントを構成する複数のオーディオファイルをミックスした結果として得られる、任意のチャンネル数の、ミックスダウンされたオーディオファイルを意味するために本明細書で一般に使用される。

【0032】

「作曲家」という用語は、本明細書に記載されるプラットフォームを使用し、及び／又はプラットフォームのためのコンテンツを作成する人であるクリエイターを意味するために本明細書で一般に使用される。例としては、ミュージシャン、ボーカリスト、リミキサー、音楽プロデューサー、ミキシングエンジニア等が挙げられるが、これらに限定されない。

【0033】

図１を参照すると、システム１００の一例が示されている。システム１００は、オーディオプラットフォーム及びバリエーションシステムであると考えることができる。ここで、システム１００の概要を、もっぱら例として提供する。

【0034】

この例では、システム１００は、１人又は複数のコンテンツクリエイター１０５を含む。実際には、システム１００は、多数の異なるコンテンツクリエイター１０５を含む。各コンテンツクリエイター１０５は、独自のオーディオ録音・制作機器を有し、独自の創造的ワークフローに従い、荒々しく異なるサウンドのコンテンツを制作し得る。このようなオーディオ録音・制作機器には、異なる音楽制作システム、オーディオ編集ツール、プラグイン等が含まれる可能性がある。

【0035】

この例では、システム１００はアセット管理プラットフォーム１１０を備える。この例では、コンテンツクリエイター１０５は、アセット管理プラットフォーム１１０と双方向にデータ１１５を交換する。この例では、データ１１５はオーディオ及びメタデータを含む。データ１１５はビデオデータを含む場合もある。

【0036】

この例では、システム１００は、アセットライブラリ１２０を備える。この例では、アセット管理プラットフォーム１１０は、アセットライブラリ１２０と双方向にデータ１２５を交換する。この例では、データ１２５はオーディオ及びメタデータを含む。アセットライブラリ１２０は、オーディオデータを、オーディオデータのオーディオ属性のセットと関連付けて記憶し得る。オーディオ属性は、クリエイター又は他の人間によって指定されてもよく、及び／又はデジタル信号処理（ＤＳＰ）及び音楽情報検索（ＭＩＲ）手段によって自動的に抽出されてもよい。アセットライブラリ１２０は、事実上、ハイレベル及びローレベルのオーディオ属性を使用してクエリ可能なオーディオデータのデータベースを提供し得る。例えば、アセットライブラリ１２０の検索は、１つ又は複数の所与のターゲットオーディオ属性を有するオーディオデータに対して実施され得る。１つ又は複数の所与のターゲットオーディオ属性を有するアセットライブラリ１２０内の任意のオーディオデータ、及び／又は一致するオーディオデータ自体の情報が返されてもよい。アセットライブラリ１２０は、ビデオデータを含む場合もある。

【0037】

この例では、システム１００はバリエーションエンジン１３０を備える。この例では、バリエーションエンジン１３０は、アセットライブラリ１２０からデータ１３５を受け取る。この例では、データ１３５は、オーディオ及びメタデータを含む。データ１３５は、いくつかの例では、ビデオデータを含む場合もある。

【0038】

この例では、システム１００は、アレンジメントプロセッサ１４０を備える。この例では、アレンジメントプロセッサ１４０は、バリエーションエンジン１３０からデータ１４５を受け取る。この例では、データ１４５はアレンジメント（本明細書では「アレンジメントデータ」と呼ばれることもある）を含む。

【0039】

この例では、システム１００は、レンダリングエンジン１５０を備える。この例では、レンダリングエンジン１５０は、アレンジメントプロセッサ１４０からデータ１５５を受け取る。この例では、データ１５５は、レンダリング仕様（本明細書では「レンダリング仕様データ」と呼ばれることもある）を含む。

【0040】

この例では、システム１００は、プラグインインターフェース１６０を備える。この例では、プラグインインターフェース１６０は、レンダリングエンジン１５０からデータ１６５を受け取る。この例では、データ１６５はオーディオ（本明細書では「オーディオデータ」と呼ばれることもある）を含む。データ１６５は、いくつかの例では、ビデオを含む場合もある。

【0041】

この例では、プラグインインターフェース１６０は、データ１７０をバリエーションエンジン１３０に提供する。この例では、データ１７０はバリエーション要求（本明細書では「バリエーション要求データ」、「要求データ」又は「要求」と呼ばれることもある）を含む。

【0042】

この例では、プラグインインターフェース１６０は、バリエーションエンジン１３０からデータ１７５を受け取る。この例では、データ１７５はアレンジメント情報を含む。このデータの目的は、エンドユーザへのアレンジメント情報の視覚化又は他の形態のコミュニケーションである。

【0043】

この例では、システム１００は１人又は複数のエンドユーザ１８０を含む。実際には、システム１００は多数の異なるエンドユーザ１８０を含む。各エンドユーザ１８０は、独自のユーザデバイスを有し得る。

【0044】

図１に示すシステム１００は様々な構成要素を有するが、システム１００は他の例では異なる構成要素を含むことができる。特に、システム１００は、異なる数及び／又はタイプの構成要素を有し得る。システム１００の構成要素の機能は、他の例において組み合わせることができる、及び／又は分割することができる。

【0045】

例示的なシステム１００の例示的な構成要素は、様々な異なる方法で通信可能に結合され得る。例えば、構成要素の一部又は全部は、１つ又は複数のデータ通信ネットワークを介して通信可能に結合されてもよい。データ通信ネットワークの例はインターネットである。他のタイプの通信結合を用いてもよい。例えば、通信結合の一部は、同じハードウェア及び／又はソフトウェアエンティティの異なる論理構成要素間の論理結合であり得る。

【0046】

システム１００の構成要素は、１つ又は複数のプロセッサと、１つ又は複数のメモリとを備え得る。１つ又は複数のメモリは、１つ又は複数のプロセッサによって実行されると、本明細書に記載の方法及び／又は技術を実行させるコンピュータ可読命令を記憶し得る。

【0047】

図２を参照すると、アセット作成の方法２００の一例を示すフローチャートが示されている。アセット作成は、他の例では異なる方法で実行されてもよい。

【0048】

項目２０５で、ミュージシャンがコンテンツの作成を希望する。

【0049】

項目２１０で、ミュージシャンが、コンテンツ作成を、テンプレートなしでゼロから始めたいのか、それとも既存のクリエイティブフレームワークとしてテンプレートを使用して始めたいのかが判定される。

【0050】

項目２１０の判定の結果、ミュージシャンがゼロから始めることを望んでいる場合、項目２１５でテンプレートが作成される。その結果、項目２２０でテンプレートが選択された。

【0051】

項目２１０の判定の結果、ミュージシャンがゼロから始めることを望んでいない場合、項目２２５で、ミュージシャンが作成したい音楽のタイプのアイデアをすでに持っているかどうかが判定される。例えば、ミュージシャンは特定のテンポ、音律を持つテンプレートを探しているかもしれないし、特定のムード、ジャンル、ユースケース等に向けて作成するつもりかもしれない。

【0052】

項目２２５の判定の結果、ミュージシャンが特定のテンプレートを探している場合、項目２３０で、テンプレートの検索が行われる。このような検索では、キーワード、タグ、及び／又は他のメタデータを使用することができる。検索の結果、項目２２０で、テンプレートが選択される。

【0053】

項目２２５の判定の結果、ミュージシャンが特定のテンプレートを探していない場合、項目２３５で、ミュージシャンは、促されたテンプレートのライブラリを閲覧する。閲覧の結果、項目２２０でテンプレートが選択される。

【0054】

項目２２０でのテンプレートの選択に続いて、項目２４０で、ミュージシャンはコンテンツを書くパートとセクションを決定し、選択する。

【0055】

項目２４５で、ミュージシャンはそのようなコンテンツに取り組み、記録する。

【0056】

項目２５０で、ミュージシャンはそのコンテンツを、選択したテンプレートの他のコンテンツとミックスしてテストする。例えば、ミュージシャン及び／又は別のミュージシャンが、選択したテンプレートのコンテンツをすでに録音している場合がある。ミュージシャンは、新しいコンテンツが既存のコンテンツとのミックスでどのように聞こえるかを評価することができる。

【0057】

項目２５５では、ミュージシャンが項目２５０の結果に満足しているかどうかが判定される。

【0058】

項目２５５の判定の結果、ミュージシャンが項目２５０の結果に満足していない場合、ミュージシャンは項目２４５でコンテンツに取り組むことに戻り、項目２５０でテンプレートからの他のコンテンツとのミックスで新しいコンテンツをテストする。

【0059】

項目２５５の判定の結果、ミュージシャンが項目２５０の結果に満足した場合、項目２６０で、コンテンツがレンダリングされる。コンテンツは、所与の提出要件に従うようにレンダリングされる。このような要件は、例えば、命名規則、リードイン及び／又はテールエンドオーディオを含むセクション内及び周辺でのオーディオの構造化に関連し得る。

【0060】

項目２６５で、レンダリングされたコンテンツは、図１を参照して上述したアセット管理プラットフォーム１１０などのアセット管理システムに提出される。

【0061】

次いで、項目２７０で、ミュージシャンはルール及び／又はメタデータを追加及び／又は編集する。ルールは、コンテンツが他のコンテンツと組み合わせて、又は特定のコンテキストで、どのように使用でき、どのように使用できないかに関連し得る。メタデータは、コンテンツに関連する音楽属性情報を提供し得る。このようなメタデータは、例えば、コンテンツの作成に使用された楽器、コンテンツのジャンル、コンテンツのムード、コンテンツの音楽的強度、その他を示し得る。

【0062】

次いで、項目２７５で、ミュージシャンは生成されたアレンジメントでルールをテストする。例えば、ミュージシャンは、当該コンテンツがミックスされるべきではない、指定された音楽属性を有するコンテンツを、ルールを介して指定した可能性がある。

【0063】

項目２８０で、ミュージシャンが項目２７５の結果に満足しているかどうかが判定される。

【0064】

項目２８０の判定の結果、ミュージシャンが項目２７５の結果に満足していない場合、ミュージシャンは、項目２７０でルール及び／又はメタデータを追加及び／又は編集し、項目２７５で生成されたアレンジメントでルールをテストする作業に戻る。

【0065】

項目２８０の判定の結果、ミュージシャンが項目２７５の結果に満足した場合、項目２８５で、アセット作成が終了する。

【0066】

一例として、ミュージシャンは、オーディオの作成とエクスポート以外の上記の項目にウェブブラウザを使用する。テンプレートの検索や作成、パートやセクションの選択、コンテンツと他のコンテンツとのテスト、ルールや他のメタデータの指定、その他は、すべてブラウザのインターフェースを通じて行われる。これは比較的シンプルなフォームを提供する。

【0067】

しかしながら、よりユーザフレンドリーだが、より技術的に複雑なフォームも提供される。この例では、ミュージシャンはすべての行為をＤＡＷで行う。彼らはＶＳＴ（ＶｉｒｔｕａｌＳｔｕｄｉｏＴｅｃｈｎｏｌｏｇｙ）プラグインの複数のインスタンスを使用することで、本明細書に記載されるアセット管理システム及びライブラリと対話するが、これはＶＳＴ標準をサポートするあらゆるプラットフォームとの適合性を可能にするためである。ユーザは、ＶＳＴプラグインのインスタンス（「マスター」インスタンス又はトラック固有のインスタンス）と対話し、前述のすべてのデータを指定して提出する。

【0068】

このように、アセットの作成には、以下の主要な人間のループが含まれ得る。まず、クリエイターは既存のテンプレートを選ぶか、新しいテンプレートを作成する。次に、クリエイターは、コンテンツを作成するパート及び／又は楽器等を決定する。次に、クリエイターは各パートの書くセクションを決定する。次いでクリエイターは音楽を書く。次に、クリエイターは、標準化されたフォーマットを使用して音楽をエクスポートする。標準化されたフォーマットには、標準化された命名スキーム、セクションのギャップ、リードイン、リバーブテール等が含まれ得る。次に、クリエイターは、ステムに関連するメタデータを指定する。メタデータは、情報ファイルに、ウェブアプリを介して、又はその他の方法で指定することができる。その後、クリエイターは結果をセントラルカタログに提出する。

【0069】

クリエイターによって作成されたアセットは、以下の１回限りのルーチンを使って消化することができる。まず、クリエイターによって提供されたコンテンツに対して、自動化された正規化及び／又はマスタリングを実行することができる。次に、オーディオ及び音楽的な特徴の抽出を目的として、アセットにＤＳＰを適用することができる。次に、アセットを、それらを含むセクション、サブセクション、及びフラグメントに分割することができる。次に、フラグメントを選択されたテンプレートの構成に追加し、他の関連する機能的に類似したアセットと共に保存することができる。

【0070】

図３を参照すると、バリエーション要求に対処する（本明細書では、バリエーション要求を「処理する」と呼ばれることもある）方法３００の一例を示すフローチャートが示されている。バリエーション要求への対処は、他の例では異なる方法で実行されてもよい。

【0071】

項目３０５において、ユーザがトラックを要求する。これは、ユーザがバリエーション要求を発行することに対応する。

【0072】

項目３１０で、これがこのセッションの最初の要求であるかどうかが判定される。

【0073】

項目３１０の判定の結果、これがこのセッションの最初の要求である場合、項目３１５で、ユーザがブリーフィングを与えたかどうかが判定される。ブリーフィングは、トラックの音楽的特性を指定し得る。そのような音楽的特性の例としては、持続時間、ジャンル、ムード、強度が挙げられるが、これらに限定されない。これはこのセッションの最初の要求であり、以前の要求を変更していないが、トラックのバリエーション（本明細書では「バリアント」と呼ばれることもある）を要求している。音楽的特性はターゲットオーディオアレンジメント特性の一種である。ターゲットオーディオアレンジメント特性はターゲットオーディオ属性とは異なる。例では、ターゲットオーディオ属性は１つの曲のローレベルの属性であるのに対し、ターゲットオーディオアレンジメント特性はハイレベルの特性を表す。

【0074】

項目３１５の判定の結果、ユーザがブリーフィングを提供していない場合、項目３２０で、テンプレートが選択される。

【0075】

項目３２５で、許可されたアレンジメント（言い換えれば、テンプレートのルールを満たす上で所定の要件を満たすアレンジメント）が次に作成される。許可されたテンプレートは、本明細書では「法的」テンプレートも呼ばれることもある。

【0076】

項目３３０で、バリエーション要求が終了する。

【0077】

項目３１５の判定の結果、ユーザがブリーフィングを与えた場合、項目３３５において、テンプレートがブリーフィングに従ってフィルタリングされ、１つのテンプレートが選択される。

【0078】

そして、項目３４０において、ブリーフィングに基づいてアレンジメントが作成され、バリエーション要求への対処は項目３３０に進み、バリエーション要求は終了する。

【0079】

項目３１０の判定の結果、これがこのセッションの最初の要求でない場合、項目３４５で、ユーザがブリーフィングを変更したかどうかが判定される。

【0080】

項目３４５の判定の結果、ユーザがブリーフィングを変更した場合、項目３５０で、ブリーフィングの詳細が更新される。

【0081】

次に、項目３５５において、バリエーション要求が「切替」であるか否かが判定される。

【0082】

項目３５５の判定の結果、バリエーション要求が「切替」である場合、バリエーション要求への対処は３３５に進む。

【0083】

項目３５５の判定の結果、バリエーション要求が「切替」でない場合には、項目３６０において、現在のテンプレートが使用され、バリエーション要求への対処は項目３４０に進む。

【0084】

項目３４５の判定の結果、ユーザがブリーフィングを変更していない場合、項目３５０は迂回され、バリエーション要求への対処は項目３５５に進む。

【0085】

このようなアレンジメント作成は、以下の主要なパートシステムループを含み得る。ゼロから開始する場合、リクエストブリーフィング（もしあれば）とテンプレートのルールを使用して、許可されたアレンジメントが作成される。そうでない場合、現在のアレンジメントのバリエーションが、バリエーション要求ブリーフィングとテンプレートのルールに基づいて作成される。

【0086】

アレンジメントの作成には、様々な技術やアプローチが使用され得る。人間が指定した、あらかじめ設定されたアレンジメントが使用され得る。コンテンツのバリエーションのランダムな選択が使用され得る。タグ及び／又はジャンルに基づいて要素を選択することができる。アレンジメントの生成は、オーディオ、ビデオ、テキスト、又はその他の媒体分析のための自動インテリジェント技術によって動機付けられるかもしれない。例えば、ビデオは、意味コンテンツ記述子、オプティカルフロー、カラーヒストグラム、シーンカット検出、スピーチ検出、知覚強度曲線及び／又はその他を抽出するために分析されてもよく、アレンジメントは、ビデオに一致するように生成されてもよい。アレンジメントの選択と生成はＡＩベースであってもよい。アレンジメントは擬似的にランダムに修正されてもよい。例えば、「微調整（Ｔｗｅａｋ）」、「変更（Ｖａｒｙ）」、「切替（Ｓｗｉｔｃｈ）」又は他の修正によって、アレンジメントが変更される場合がある。アセットには、音楽的重みとスペクトル的重みという２種類の相対的な「重み」係数がタグ付けされる。音楽的重みとは、特定のステムにどれだけの作曲上の「重み」が割り当てられているか、純粋にその象徴的な作曲に関係があるかを意味する。音楽的重みは通常、クリエイターが明示的に指定するが、ＭｕｓｉｃＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ（ＭＩＤＩ）データを分析したり、ＭＩＲメソッドによって自動的に推測されたりすることもある。スペクトル的重みは、録音が周波数スペクトル上でどれだけの「重み」を占めているか、またその重みがスペクトル全体にどのように分布しているかを意味する。スペクトル的重みは通常、ＭＩＲの処理によって自動的に計算されるが、クリエイターが明示的に指定したり、上書きしたりすることもできる。クリエイターによって重みが明示的に指定されたすべてのケースにおいて、結果として得られたＭＩＲデータと重み値のペアは記録され、自動分析を行う機械学習（ＭＬ）モデルの継続的なトレーニングと改良に使用されるデータセットに追加される。音楽的重み係数とスペクトル的重み係数の両方は、特定のターゲット強度を有するアレンジメントのためのステム選択を通知するために使用することができ、スペクトル重み係数は、自動ミキシング及びマスタリングプロセスを通知するためにも使用することができる。

【0087】

アレンジメントは強度パラメータに基づいて作成され得る。強度パラメータは、アレンジメント作成における様々な要因に影響を与える、単一のユーザ側制御を提供する。そのような要因の１つは、どのステムを使用するかの選択である。そのような選択は、重み係数を使用し、それらの合計のバランスをとることができる。もう１つのそのような要因は、各ステムのゲインである。各強度レイヤーにおけるパーツの存在に関するリードクリエイターのルールが使用されてもよい。別のそのような要素は、各アレンジメント内に含まれる、使用されるパーツの数とステムの数である。アレンジメントは、生物学的及び／又は環境センサの入力を介して生成されてもよい。アレンジメントは、ユーザ入力や視覚表示なしに、完全に自動化されてもよい。例えば、パーソナライズされた、動的な、及び／又は適応的なプレイリストが生成される場合があり、このプレイリストは、ユーザによって共有され、パーソナルデジタルラジオ体験のように聴かれ、他のユーザによって相互作用され、さらなるアレンジメントを生成することができる。

【0088】

アレンジメントは、セマンティック用語による個々のステムの選択によって生成されてもよい。アレンジメントは、適切なステム又はステム移行を選択するために音声コマンドを介して生成されてもよい。ステムは、ユーザの要求に応じて、追加、削除、処理、又は他の適合性のあるアセットと交換されてもよい。例えば、ユーザは、ギターの代わりにサキソフォンのメロディが欲しい、又は男性の代わりに女性のボーカルが欲しいと要求し得る。さらに、リバーブ又はピッチシフトなどの追加のポストプロダクションエフェクトで、これらのステムの処理を要求し得る。アレンジメントは、ユーザの過去のアレンジメントや好みを分析するＭＬアルゴリズムによって生成されてもよい。アレンジメントはまた、ユーザのリスニング習慣を分析するＡＩによって生成されてもよく、要求があれば、Ｓｐｏｔｉｆｙ（商標）又はＹｏｕＴｕｂｅ（商標）のようなサービスでのユーザのリスニング履歴を使用する可能性もある。アレンジメントは、仮想世界のゲームプレイの中から適合性のあるステムを組み合わせたり、ロックを解除したりすることによって生成されてもよい。アレンジメントは、参照オーディオファイル、ビデオファイル、又は任意のタイプのメディア又はデータ入力をアップロードし、同様の結果を要求することによって生成されてもよい。アレンジメントは、ＳｃｏｒｅｄＣｕｒｖｅ（商標）を介して生成及び／又は修正されてもよい。ＳｃｏｒｅｄＣｕｒｖｅ（商標）は、本明細書で使用されるように、パラメータ調整（強度など）を記録したオートメーショングラフである。ノード点及び／又は曲線が調整されてもよい。カーブは、アレンジメントの基礎を提供するために迅速に描かれてもよい。しかしながら、アレンジメントは、他の方法で生成及び／又は修正されてもよい。

【0089】

アレンジメントは様々な方法でレンダリングされてもよい。アレンジメントはオーディオファイルに直接レンダリングされてもよい。アレンジメントはストリーミングされてもよい。アレンジメントはリアルタイムで修正され、再生されてもよい。

【0090】

図４を参照すると、ＵＩ４００の一例が示されている。この例では、ＵＩ４００は、エンドユーザがバリエーション要求を行うことを可能にする。

【0091】

この例では、ＵＩ４００は再生／一時停止ボタンを備える。

【0092】

この例では、ＵＩ４００は、再生されているトラックの波形表現と、そのトラックを通じたプレイバック進行とを備える。

【0093】

この例では、ＵＩ４００は「微調整」ボタンを備える。「微調整」ボタンをユーザが選択すると、トラックの微かな要素に変更が要求され、もたらされるが、トラックの全体的なサウンドは同じに保たれる。

【0094】

この例では、ＵＩ４００は「変更」ボタンを備える。「変更」ボタンをユーザが選択すると、トラックの雰囲気とサウンドに変更が要求され、もたらされる。しかしながら、トラックは依然として同じ全体構造を維持している。

【0095】

この例では、ＵＩ４００は「ランダム化」ボタンを備える。「ランダム化」ボタンをユーザが選択すると、非決定論的な方法でトラックの特性に全体的な変更が要求され、もたらされる。

【0096】

この例では、ＵＩ４００は、「低」、「中」、及び「高」の強度ボタンを備える。これらのボタンのうちの１つをユーザが選択すると、トラックの強度の変更が要求され、もたらされる。

【0097】

この例では、ＵＩ４００は「短」、「中」、「長」の持続時間ボタンを備える。これらのボタンのうちの１つをユーザが選択すると、トラックの持続時間の変更が要求され、もたらされる。

【0098】

この例では、ＵＩ４００は、現在のセッションで生成されたバリエーションの数も示している。

【0099】

このようなＵＩ４００は非常に直感的であり、最小限のユーザ入力でトラックのかなりの数のバリアントをレンダリングできることが分かる。

【0100】

図５を参照すると、所与のトラックの異なるアレンジメント例５００が示されている。

【0101】

これらの例５００は、図１を参照して上述したバリエーションエンジン１３０の汎用性の一部を示している。

【0102】

３つの例５００はすべて同じトラックからキュレートされているが、最終結果は大きく異なっている。構造的なバリエーションは、異なる長さのトラックを作成することを可能にする。妥当な場合、音楽が同期されるビデオ、オーディオ、ハイブリッドメディアフォーマットなどのメディアの長さに合わせて、独自のビルディングブロックを組み合わせることができる。インストゥルメンテーション、オーケストレーション、ミキシングプロダクション、音色などのバリエーションは、繰り返しを避けるために各例を横切って行われる。強度エンジンは、ソフトでクライマックスな瞬間を通して、リアルタイムで動的に制御可能な自然な進行を作成する。

【0103】

図６を参照すると、ＵＩ６００の別の例が示されている。

【0104】

この例では、ＵＩ６００は強度スライダ６０５を備える。強度アイコンにタッチして画面の上下にスライドさせることにより、ユーザはトラックの強度を制御することができる。強度レベルの視覚的表現は、アイコンの位置と、ビデオ上のフィルタ又はカラーバリエーションの使用によって提供される。強度は、トラックのエネルギー及び／又はエモーションに対応し得る。

【0105】

この例では、ＵＩ６００はＡｕｔｏｓｃｏｒｅ（商標）ボタン６１０を備える。Ａｕｔｏｓｃｏｒｅ（商標）技術は、ビデオコンテンツを分析し、それに付随する楽譜を自動的に作成する。一旦作成されると、ユーザは楽譜の音楽の質感を調整することが可能になり得る。

【0106】

この例では、ＵＩ６００はバリエーション要求ボタン６１５を備える。上で説明したように、バリエーション要求によって、ユーザは異なるムード、ジャンル、及び／又はテーマを動的に入れ替えることができる。これにより、ユーザはほぼ無限の組み合わせを探求することができる。それにより、異なるユーザに対して、ユニークでパーソナライズされた音楽を提供することができる。

【0107】

この例では、ＵＩ６００はプレイバック制御ボタン６２０を備える。この例では、プレイバック制御ボタン６２０により、ユーザはプレイバックと一時停止中のプレイバックとを切り替えることができる。

【0108】

この例では、ＵＩ６００は、記録ボタン６２５を備える。記録ボタン６２５は、スライダパラメータを介して、又はセンサ等を介して、強度の手動移動を記録する。これは以前の記録を上書きすることができる。この例では、ＵＩ６００は、ライブラリボタン６３０を備える。ライブラリボタン６３０により、ユーザは、ダイナミックトラック及び／又はプレビューのライブラリから、現在の音楽アセットのナビゲート、修正、対話、及び／又はホットスワップを行うことができる。

【0109】

図７を参照すると、ＵＩ７００の別の例が示されている。例示のＵＩ７００はバックエンドシステムを表す。

【0110】

図８を参照すると、ＵＩ８００の別の例が示されている。例示のＵＩ８００はステム選択を表す。

【0111】

図９を参照すると、ＵＩ９００の別の例が示されている。例示のＵＩ８００は、本明細書に記載されるものなどの例示のインタラクティブ音楽プラットフォーム及び／又はシステムのウェブベースのインターフェースを表す。

【0112】

図１０を参照すると、特性曲線１０００の例が示されている。例示の特性曲線１０００は、強度が時間とともにどのように変化するかの一例を示す。

【0113】

図１１を参照すると、特性曲線１１００の別の例が示されている。例示の特性曲線１１００は、時間による強度の変化がどのように修正されるかの一例を示す。

【0114】

図１２を参照すると、強度プロット１２００の例が示されている。モーショントリガー及び強度トリガーＳＦＸの提案が描かれている。強度プロット１２００は、ビデオデータを分析することによって得ることができる。結果として得られるオーディオアレンジメントは、ビデオデータに付随する可能性がある。

【0115】

図１３を参照すると、ＵＩ１３００の別の例が示されている。例示のＵＩ１３００は、ビデオがどのように選択され、リアルタイム又は非リアルタイムで分析され得るかを示す。分析が完了すると、結果として得られるプロットはＳｃｏｒｅｄ（商標）ファイルとしてエクスポートすることができる。

【0116】

１つ又は複数のオーディオアレンジメントの生成に関連して、様々な手段（例えば、方法、システム、及びコンピュータプログラム）が提供される。このような手段により、高度にパーソナライズされたオーディオアレンジメントを効率的かつ効果的に生成することができる。このようなオーディオアレンジメントは、エンドユーザに実質的にリアルタイムで提供され得る。エンドユーザは、パーソナライズされたオーディオアレンジメントを生成するために、選択するオプションが比較的少ないＵＩを使用することが可能になり得る。これは、例えば、初心者ユーザが迅速かつ効率的にナビゲートできるとは考えにくい、典型的なＤＡＷとは大きく異なる。

【0117】

要求は、１つ又は複数のターゲットオーディオアレンジメント特性を有するオーディオアレンジメントについて受け取られる。要求は、上述したようなバリエーション要求に対応し得る。特に、バリエーション要求は、オーディオアレンジメントの初期バリアントに対する初期要求であり得、又はオーディオアレンジメントの以前のバリアントのバリエーションに対する後続要求であり得る。ターゲットオーディオアレンジメント特性は、オーディオアレンジメントの所望の特性であると考えられ得る。このような特性の例としては、強度、持続時間、ジャンルが挙げられるが、これらに限定されない。

【0118】

１つ又は複数のターゲットオーディオ属性が、１つ又は複数のターゲットオーディオアレンジメント特性に基づいて特定される。ターゲットオーディオ属性は、オーディオデータの所望の属性であると考えられ得る。オーディオ属性は、オーディオアレンジメント特性よりも粒度が細かい場合がある。オーディオアレンジメント特性は、音楽構造のハイレベル表現であると考えられ得る。例えば、所望のオーディオアレンジメント特性は中程度の強度であり得る。１つ又は複数の所望のオーディオ属性は、中程度の強度から導出され得る。例えば、１つ又は複数のスペクトル重み係数（オーディオ属性の一例）は、中程度の強度に対応するものとして特定され得る。

【0119】

第１のオーディオデータが選択される。第１のオーディオデータは、オーディオ属性の第１のセットを有する。オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。第２のオーディオデータも選択される。第２のオーディオデータはオーディオ属性の第２のセットを有する。オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。オーディオアレンジメントに対する所望の中強度の上記の例を使用すると、１つ又は複数のターゲットオーディオ属性は、中強度に対応する１つ又は複数の所望のスペクトル重み係数を含み得る。第１及び第２のオーディオデータは、所望のスペクトル重み係数を有することに基づいて選択されてもよい。これは、第１及び第２のオーディオデータが、求められる正確なスペクトル重み係数を有すること、求められるスペクトル重み係数の範囲内のスペクトル重み係数を有すること、求められるスペクトル重み係数が、第１及び第２のオーディオデータのスペクトル重み係数の所与の関数（和など）であること、又はそれ以外のことに対応し得る。オーディオ属性の第１及び第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。オーディオ属性の第１及び第２のセットは、１つ又は複数のターゲットオーディオ属性のすべてを含まない場合がある。オーディオ属性の第１及び第２のセットは、１つ又は複数のターゲットオーディオ属性の異なるものを含み得る。

【0120】

１つ又は複数のミキシングされたオーディオアレンジメントが出力され、及び／又は、１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータが出力される。１つ又は複数のミキシングされたオーディオアレンジメントは、少なくとも選択された第１及び第２のオーディオデータが、自動化されたオーディオミキシング手順を使用してミキシングされることによって生成される。さらなるオーディオデータがオーディオアレンジメントにミキシングされてもよい。出力される場合、ミキシングされたオーディオアレンジメントを生成するために使用可能なデータは、第１及び第２のオーディオデータ（及び／又は、第１及び第２のオーディオデータが得られるようにするためのデータ）と、自動化されたミキシング命令とを含み得る。自動化されたミキシング命令は、自動化されたオーディオミキシング手順を使用して、第１及び第２のオーディオデータをどのようにミキシングするかについての受信者デバイスに対する命令を含み得る。ミキシングされたオーディオアレンジメントは、オーディオファイル、ストリーミングその他など、様々な異なる形態で出力することができる。代替的又は追加的に、上記で示したように、ミキシングされたオーディオアレンジメントを生成するために使用可能なデータが出力されることもある。したがって、自動化されたミキシングは、サーバ及び／又はクライアントデバイスで実行されてもよい。

【0121】

本方法は、自動化されたオーディオミキシング手順を使用して、選択された第１のオーディオデータを選択された第２のオーディオデータとミキシングし、ミキシングされたオーディオアレンジメントを生成することを含み得る。あるいは、ミキシングは上記の方法とは別に実行されてもよい。これにより、ミキシングは自動化され得る。この場合も、初心者のユーザでも、新しいオーディオコンテンツの多数のバリエーションの生成を制御できるようになる。

【0122】

１つ又は複数のターゲットオーディオアレンジメント特性は、ターゲットオーディオアレンジメント強度を含み得る。本発明者らは、ユーザが適切なオーディオコンテンツを生成できるようにする上で特に効果的なオーディオアレンジメント特性として強度を特定した。強度はまた、高精度の結果を提供するために、オーディオデータの客観的なオーディオ属性にマッピングされてもよい。

【0123】

ターゲットオーディオアレンジメントの強度は、１つ又は複数のミキシングされたオーディオアレンジメントが生成された後に修正可能であり得る。このように、強度は、例えば、１つ又は複数のオーディオアレンジメントがミキシングされた後でも、オーディオアレンジメントを動的に制御するために修正及び使用することができる。

【0124】

第１のオーディオデータの第１のスペクトル重み係数は、第１のオーディオデータのスペクトル分析に基づいて計算され得る。第２のオーディオデータの第２のスペクトル重み係数は、第２のオーディオデータのスペクトル分析に基づいて計算され得る。第１及び第２のオーディオデータは、計算された第１及び第２のスペクトル重み係数を用いて、ターゲットオーディオアレンジメント強度に基づいてミキシングされてもよい。この場合も、オーディオデータの客観的な分析により、精度の高い結果が得られる。オーディオデータのクリエイターは、作成したオーディオデータのスペクトル重み係数を示すことができるかもしれないが、これはより主観的である可能性が高い。

【0125】

オーディオ属性の第１のセットは、第１のクリエイター指定のスペクトル重み係数を含み得る。オーディオ属性の第２のセットは、第２のクリエイター指定のスペクトル重み係数を含み得る。第１のオーディオデータの選択及び第２のオーディオデータの選択は、それぞれ、第１及び第２のクリエイター指定のスペクトル重み係数に基づいてもよい。クリエイターは、スペクトル重みの決定に関して本開示のシステムを誘導することができるかもしれない。クリエイター指定のスペクトル重み係数は、分析されたスペクトル重み係数の出発点又はクロスチェックとして使用されてもよい。

【0126】

１つ又は複数のターゲットオーディオアレンジメント特性は、ターゲットオーディオアレンジメント持続時間を含み得る。これにより、エンドユーザは、高度にパーソナライズされたオーディオアレンジメントを得ることができる。繰り返しになるが、初心者のユーザはＤＡＷを使用して所与の持続時間のトラックを作成することを難しいと思う可能性が高い。本明細書に記載される例は、エンドユーザがこれを実現することを容易に可能にする。

【0127】

オーディオ属性の第１のセットは、第１のオーディオデータの第１の持続時間を含み得る。オーディオ属性の第２のセットは、第２のオーディオデータの第２の持続時間を含み得る。第１のオーディオデータの選択及び第２のオーディオデータの選択は、それぞれ第１及び第２の持続時間に基づいてもよい。このように、本明細書に記載されるシステムは、所望の持続時間のオーディオアレンジメントを作成するために使用することができる競合オーディオデータを容易に識別し得る。

【0128】

１つ又は複数のターゲットオーディオアレンジメント特性は、ジャンル、テーマ、スタイル及び／又はムードを含み得る。

【0129】

１つ又は複数のさらなるターゲットオーディオアレンジメント特性を有するさらなるオーディオアレンジメントに対するさらなる要求が受け取られることがある。１つ又は複数のさらなるターゲットオーディオ属性が、１つ又は複数のさらなるターゲットオーディオアレンジメント特性に基づいて特定されてもよい。第１のオーディオデータが選択されてもよい。オーディオ属性の第１のセットは、特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくとも一部を含み得る。第３のオーディオデータが選択されることがある。第３のオーディオデータはオーディオ属性の第３のセットを有し得る。オーディオ属性の第３のセットは、特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくとも一部を含み得る。さらなるミキシングされたオーディオアレンジメント及び／又はさらなるミキシングされたオーディオアレンジメントを生成するために使用可能なデータが出力されてもよい。さらなるミキシングされたオーディオアレンジメントは、少なくとも選択された第１及び第３のオーディオデータが自動化されたオーディオミキシング手順を使用してミキシングされることによって生成されてもよい。このように、第１のオーディオデータは、第３の（異なる）オーディオデータを用いて、さらなるオーディオアレンジメントを生成する際に使用することができる。これにより、多数の異なるバリアントを容易に生成することができる。

【0130】

第１及び／又は第２のオーディオデータは、自動化されたオーディオ正規化手順を使用して導出することができる。これにより、よりバランスのとれたオーディオアレンジメントを提供することができる。これは、オーディオデータが異なるクリエイターから提供され、それぞれが異なるレベルでオーディオを記録及び／又はエクスポートする可能性がある場合に特に有効であるが、それだけに限定されない。また、自動化されたオーディオ正規化手順は、異なるオーディオデータのレベルを効果的に制御することができない可能性のある初心者ユーザにとって特に効果的である。

【0131】

第１及び／又は第２のオーディオデータは、自動化されたオーディオミキシング手順を使用して導出することができる。自動化されたオーディオミキシング手順はまた、オーディオデータを効果的にミキシングすることができない可能性のある初心者ユーザにとって特に効果的である。

【0132】

第１及び／又は第２のオーディオデータは、自動化されたオーディオマスタリング手順を用いて導出されてもよい。これにより、より使いやすいオーディオアレンジメントを提供することができる。このようなマスタリングを行わないと、オーディオアレンジメントは、オーディオアレンジメントを一般に使用するために望まれる音質を欠く可能性がある。

【0133】

オーディオアレンジメントは、第１及び第２のオーディオデータの選択後に受け取られるユーザ入力とは無関係にミキシングされてもよい。このように、完全に自動化されたミキシングが提供されてもよい。

【0134】

オーディオ属性の第１及び／又は第２のセットは、少なくとも１つの禁止されたオーディオ属性を含み得る。少なくとも１つの禁止されたオーディオ属性は、第１及び／又は第２のオーディオデータとともに使用されないオーディオデータの属性を示し得る。第１及び／又は第２のオーディオデータの選択は、少なくとも１つの禁止されたオーディオ属性に基づいてもよい。これにより、第１及び／又は第２のオーディオデータのクリエイターは、第１及び／又は第２のオーディオデータが、特定の禁止された属性を有するオーディオデータとのオーディオアレンジメントにおいて使用されるべきではないことを指定することができる。例えば、穏やかなハープの録音のクリエイターは、その録音を「ロック」ジャンルのアレンジメントで使用してはならない、又は使用すべきではないと指定することができる。

【0135】

さらなるオーディオデータは、少なくとも１つの禁止されたオーディオ属性の少なくともいくつかを有するさらなるオーディオデータに基づいて、オーディオアレンジメントにおける使用のための選択対象として無視され得る。技術的な意味においてオーディオアレンジメントで使用される可能性があるオーディオデータは、それによって、例えば、クリエイター指定の好みに基づいて、オーディオアレンジメントのために無視され得る。

【0136】

第１及び／又は第２のオーディオデータは、リードイン、メイン音楽（及び／又は他のオーディオ）コンテンツ及び／又は本体、リードアウト、及び／又はオーディオテールを含み得る。それによって、本開示のシステムは、オーディオアレンジメントの生成に対してより多くの制御を有する。このようなことがないと、結果として得られるオーディオアレンジメントは少し不自然に感じられるかもしれない。さらに、クリエイターは、特定のリードインを、自分が録音するメインのオーディオ部分とともに常に使用すべきであると考え得る。

【0137】

第１及び／又は第２のオーディオデータの一部のみがオーディオアレンジメントに使用されてもよい。本開示のシステムは、例えば、オーディオアレンジメントのターゲット持続時間に基づいて、第１及び／又は第２のオーディオの一部を切り捨ててもよい。例えば、第１及び／又は第２のオーディオデータがオーディオアレンジメントのターゲット持続時間よりも長いが、オーディオアレンジメントに含めるために他の点で適切である場合、システムは、ターゲット持続時間に一致するように第１及び／又は第２のオーディオデータを切り捨ててもよい。

【0138】

第１のオーディオデータは第１のクリエイターに由来し、第２のオーディオデータは第２の異なるクリエイターに由来することがある。このように、曲などの所与のオーディオアレンジメントは、例えば、個々の専門知識及び／又は好みに基づいて録音し得る異なるクリエイターからの要素を有することがある。そのようなクリエイターは、一緒にコラボレーションしていないかもしれないが、それにもかかわらず、彼らの両方のコンテンツが単一のオーディオアレンジメントに組み合わされる可能性がある。

【0139】

オーディオアレンジメントは、さらにビデオデータ（及び／又は所与のオーディオデータ）に基づいてもよい。オーディオアレンジメントは、例えば、ビデオデータ（及び／又は所与のオーディオデータ）と持続時間を一致させてもよい。ターゲットオーディオアレンジメント特性は、ビデオデータ（及び／又は所与のオーディオデータ）から導出されてもよい。

【0140】

ビデオデータ（及び／又は所与の音声データ）は分析されてもよい。このように、ビデオデータ（及び／又は所与の音声データ）に付随するオーディオアレンジメントが生成されてもよい。

【0141】

１つ又は複数のターゲットオーディオアレンジメント特性は、ビデオデータ（及び／又は所与のオーディオデータ）の分析に基づいてもよい。このように、ビデオデータ（及び／又は所与の音声データ）に付随する自動化されたオーディオ生成が提供されてもよい。

【0142】

ビデオデータは、１つ又は複数のミキシングされたオーディオアレンジメント及び／又は１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータに付随して出力することができる。付随するビデオデータを出力する利点は２つある。第１に、これはリスナーにとってオーディオアレンジメントをよりよく文脈化するのに役立ち、伝えられている感情やストーリーを強調するのに役立つ視覚的表現を提供することができる。第２に、ビデオデータは、ミキシングされたオーディオアレンジメントを生成するためにも使用することができ、最終製品をより柔軟にコントロールすることを可能にする。視聴者はリアルタイムで作成されるオーディオアレンジメントを見たり聞いたりすることができるので、付随するビデオはより没入感のある体験を視聴者に提供することができる。さらに、ビデオを使用することで、より魅力的で視覚に訴えるプレゼンテーションを行うことができ、これは注目を集め、視聴を促すのに一役買うことができる。ミュージシャン、他のパフォーマー、ビジュアルアート、オブジェクトを見ることができることで、リスナーは音楽をよりよく理解することができる。さらに、ビデオを使うことで、風景や特殊効果など、音声だけでは不可能な視覚的要素を加えることができる。ビデオはオーディオの視覚的な背景を作成するのに役立ち、ミックスにさらなる次元と興奮のレイヤーを加えることができる。さらに、ビデオデータはミキシングされたオーディオアレンジメントを生成するために使用することができ、オーディオ出力をさらに柔軟にコントロールすることができる。ユーザは、オーディオと一緒にリアルタイムで起こっているアクションを見ることができる。これは、より信憑性が高く、魅力的なオーディオ体験を作り出す一助となり得る。さらに、ビデオは、音声だけでは伝わらないかもしれない補足情報や文脈を提供するために使用することもできる。ビデオは、歌詞や曲の雰囲気を説明するのに役立ち、リスナーの体験を高めることができる。さらに、ビデオが魅力的であったり、視覚的に面白かったりする場合は特に、ビデオはリスナーの注意を楽曲に集中させるのに役立ち得る。付随するビデオは、オーディオミックスの視覚的表現を提供することができ、これは、ミックスを理解しようとしているユーザや、ミックスを再現しようとしているミュージシャンにとって有用であり得る。

【0143】

１つ又は複数のターゲットオーディオ属性の特定は、１つ又は複数のターゲットオーディオアレンジメント特性を１つ又は複数のターゲットオーディオ属性にマッピングすることを含み得る。これは、エンドユーザに最も関連するオーディオデータを特定し、選択する客観的な技術を提供する。

【0144】

出力は、１つ又は複数のミキシングされたオーディオアレンジメントをストリーミングすることを含み得る。ストリーミングの利点の１つは、ユーザが最初にダウンロードすることなくコンテンツにアクセスできることである。これは、特に、ビデオや曲など、デバイス上で多くの記憶領域を占有する可能性のある大きなファイルにとって有用である。また、ストリーミングでは、オンデマンドでオーディオを聴くことができるため、個人のリスナーにとっても企業にとっても好都合である。さらに、ストリーミングは、オーディオコンテンツを多くの聴衆に放送するために使用することができる。このため、特に低速のインターネット接続でストリーミングする場合、リスナーにとってより好都合な選択肢となる。オーディオをダウンロードで送信するのではなくストリーミングすることは、サーバが一度にファイル全体を送信するのではなく、必要な時にデータを送信するだけなので、より効率的であり得る。これはまた、リスナーにとっても、聴き始める前にファイル全体のダウンロードを待つ必要がないため、利便性を高める。さらに、ストリーミングではリスナーからのフィードバックをリアルタイムで得ることができ、これはミックスの改善に使用することができる。例えば、ユーザがミキシングされたオーディオアレンジメントで演奏しているドラムを新しいスタイルのドラムに変更したいと要求したとする。これは、ストリーミングによってのみ、その場で可能になる。ストリーミングは、リスナーによりインタラクティブな体験を提供することができる。例えば、ユーザ及び／又はリスナーは、他のユーザ及び／又はリスナーがインタラクションされたオーディオをリアルタイムで聴くために、リアルタイムでオーディオコンテンツとインタラクションすることができる。このタイプのインタラクションは、ダウンロードしてリスナーのデバイスに保存されるコンテンツでは不可能である。また、それはあらゆるタイプの放送、センサ、機械にとって有用であり、オーディオストリームはリアルタイムで反応し、更新することができる。ミュージックのストリーミングは、メタバース仮想世界内の相互運用性にとって重要である。人々は、それによってどのようなプラットフォームにいようとも、一緒に音楽を共有し楽しむことができるからである。人々は、同じ仮想世界にいる間、同時にオーディオアレンジメントを聴き、対話し、それについてチャットし、コラボレーションすることができる。これは、関係者全員にとって、より一体的でつながりのある体験を生み出すのに役立つ。ストリーミングはまた、特にエンド・ツー・エンドシステムが適所にある場合、及び／又はブロックチェーンが活用されている場合、世界中のクリエイターにリアルタイムで分配され得るロイヤリティフローのリアルタイムアレンジメントを追跡することもできる。ストリーミングはさらに、ストリーム上のユーザの位置、何人のユーザがストリーミングしているかなど、ストリームとユーザインタラクションのリアルタイム分析を可能にし、これはオーディオが純粋にディスク上でローカルである場合、利用できない。

【0145】

オーディオアレンジメントを生成する際に使用する様々な手段（例えば、方法、システム、及びコンピュータプログラム）が提供される。テンプレートが選択され、ミキシングされるオーディオアレンジに許容可能なオーディオデータが定義される。許容可能なオーディオデータは、ミキシングされるオーディオアレンジメントと適合性のある１つ又は複数のターゲットオーディオ属性のセットを有する。１つ又は複数のターゲットオーディオ属性のセットは、オーディオアレンジメントの１つ又は複数の特定されたオーディオアレンジメント特性を満たすか、少なくとも１つ又は複数の特定されたオーディオアレンジメント特性を満たす可能性を拒絶しない。第１のオーディオデータが選択される。第１のオーディオデータはオーディオ属性の第１のセットを有する。オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。第２のオーディオデータが選択される。第２のオーディオデータは、オーディオ属性の第２のセットを有する。オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。ミキシングされたオーディオアレンジメント及び／又はミキシングされたオーディオアレンジメントを生成するために使用可能なデータが出力される。ミキシングされたオーディオアレンジメントは、自動化されたオーディオミキシング手順を使用して、選択された第１及び第２のオーディオデータをミキシングすることによって生成される。

【0146】

オーディオアレンジメントを生成するために使用される様々な手段（例えば、方法、システム、及びコンピュータプログラム）が提供される。ビデオデータが分析される。前記分析に基づいて、１つ又は複数のターゲットオーディオアレンジメント強度が特定される。１つ又は複数のターゲットオーディオ属性が、１つ又は複数のターゲットオーディオアレンジメント強度に基づいて特定される。第１のオーディオデータが選択される。第１のオーディオデータはオーディオ属性の第１のセットを有する。オーディオ属性の第１のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。第２のオーディオデータが選択される。第２のオーディオデータは、オーディオ属性の第２のセットを有する。オーディオ属性の第２のセットは、特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む。ミキシングされたオーディオアレンジメント及び／又はミキシングされたオーディオアレンジメントを生成するために使用可能なデータが生成され、出力される。ミキシングされたオーディオアレンジメントは、選択された第１及び第２のオーディオデータをミキシングすることによって生成される。

【0147】

文脈がそうでないことを示さない限り、異なる実施形態及び／又は例からの特徴は互いに組み合わされてもよい。特徴及び／又は技術は、例としてのみ上述されている。

【0148】

要約すると、コンテンツクリエイターからエンドユーザまでのプロセスは次のようにまとめることができる。アセットが作成される。アセットを十分に活用するために、いくつかの特定の指示や規約に従って作成される。コンテンツは前処理され、整理される。アセットを受け取ると、さらにデータを抽出するためのさらなる処理が実行され、アサートは最終的な形に処理される（例えば、スプライス、正規化等）。これにより、クリエイターはこれらの作業を自ら行う必要がなくなる。アレンジメント要求は分析され、それが適切なアセットの選択にどのように反映されるかが決定される。上記のブリーフィングと作曲家が指定した全体的なルールに従って、適切なアセットが選択される。アセットがミキシングされ、エンドユーザに配信される。

【0149】

本明細書に記載される例は、ＭＬ目的のデータマイニング及び／又は獲得を可能にする。入力データは、（ｉ）ユーザがインターフェースと相互作用する方法、（ｉｉ）ユーザがシステムによって生成された異なるアレンジメントを評価及び／又は使用する方法（例えば、特定のアレンジメントが好きかどうか、結婚式のビデオ又は休暇のビデオのサウンドトラックとしてそれを使用したかどうか、など）、（ｉｉｉ）クリエイターによって提出された、オーディオコンテンツ自体、（ｉｖ）クリエイターによってコンテンツに割り当てられたタグ、及び／又は（ｖ）その他に基づくことができる。このデータを収集する目的には、以下が含まれ得る：（ｉ）オーディオアセットの自動タグ付け及び分類、（ｉｉ）アレンジメント／作曲の自動タグ付け、分類、及び／又は評価、及び／又は（ｉｉｉ）その他。

【0150】

オーディオファイルの実際のミキシングは、完全にサーバ上で行われることもあれば、完全にエンドユーザのデバイス上で行われることもあり、又は両者の間のハイブリッドミキシングを含むこともある。したがって、ミキシングは、メモリや帯域幅の使用制約や要件に応じて最適化することができる。

【0151】

本明細書に記載される方法の少なくともいくつかは、コンピュータに実装される。そのため、コンピュータ実装方法が提供される。

【0152】

上述した例は、オーディオのレンダリング、特にオーディオアレンジメントのレンダリングに関する。本明細書に記載される技法は、他のタイプのメディア及びメディアアレンジメントを生成するために使用することができる。例えば、本明細書に記載される技法は、ビデオアレンジメントを生成するために使用することができる。

【0153】

本明細書に記載される例では、オーディオアレンジメントの要求が受け取られたことに応答して、様々なアクションが実行される。このようなアクションは、他の方法でトリガーされてもよい。例えば、そのようなアクションは、定期的に、事前対応的に、その他でトリガーされてもよい。

【0154】

本明細書に記載される例では、自動化ミキシング手順が実行される。異なる自動化ミキシング手順は、異なる量の自動化を含む。例えば、いくつかの自動化ミキシング手順は、最初のユーザ入力によって誘導されてもよく、いくつかは完全に自動化されてもよい。

【0155】

例示の項目
実施態様の例が、以下の番号付けされた項に記載される。
第１項：オーディオアレンジメントを生成する際に使用するための方法であって、１つ又は複数のターゲットオーディオアレンジメント特性を有するオーディオアレンジメントの要求を受け取ることと；前記１つ又は複数のターゲットオーディオアレンジメント特性に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；出力することであって、少なくとも前記選択された第１及び第２のオーディオデータが自動化オーディオミキシング手順を使用してミキシングされたことによって生成された１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む、方法。
第２項：前記１つ又は複数のターゲットオーディオアレンジメント特性が、ターゲットオーディオアレンジメント強度を含む、第１項に記載の方法。
第３項：前記１つ又は複数のミキシングされたオーディオアレンジメントが生成された後に、前記ターゲットオーディオアレンジメント強度が修正可能である、第２項に記載の方法。
第４項：前記第１のオーディオデータのスペクトル分析に基づいて、前記第１のオーディオデータの第１のスペクトル重み係数を計算することと；前記第２のオーディオデータのスペクトル分析に基づいて、前記第２のオーディオデータの第２のスペクトル重み係数を計算することとを含み、前記第１及び第２のオーディオデータの前記自動化ミキシングが、前記計算された第１及び第２のスペクトル重み係数を使用し、前記ターゲットオーディオアレンジメント強度に基づく、第２項又は第３項に記載の方法。
第５項：前記オーディオ属性の第１のセットが、第１のクリエイター指定のスペクトル重み係数を含み、前記オーディオ属性の第２のセットが、第２のクリエイター指定のスペクトル重み係数を含み、前記第１のオーディオデータの選択及び前記第２のオーディオデータの選択が、それぞれ、前記第１及び第２のクリエイター指定のスペクトル重み係数に基づく、第２項～第４項のいずれかに記載の方法。
第６項：前記選択された第１のオーディオデータと前記選択された第２のオーディオデータとを、前記自動化オーディオミキシング手順を用いてミキシングし、前記１つ又は複数のミキシングされたオーディオアレンジメントを生成することを含む、第１項～第５項のいずれかに記載の方法。
第７項：前記１つ又は複数のターゲットオーディオアレンジメント特性が、ターゲットオーディオアレンジメント持続時間を含む、第１項～第６項のいずれかに記載の方法。
第８項：前記オーディオ属性の第１のセットが、前記第１のオーディオデータの第１の持続時間を含み、前記オーディオ属性の第２のセットが、前記第２のオーディオデータの第２の持続時間を含み、前記第１のオーディオデータの選択及び前記第２のオーディオデータの選択が、それぞれ前記第１及び第２の持続時間に基づく、第７項に記載の方法。
第９項：前記１つ又は複数のターゲットオーディオアレンジメント特性が、ジャンル、テーマ、スタイル及び／又はムードを含む、第１項～第８項のいずれかに記載の方法。
第１０項：１つ又は複数のさらなるターゲットオーディオアレンジメント特性を有するさらなるオーディオアレンジメントのさらなる要求を受け取ることと；前記１つ又は複数のさらなるターゲットオーディオアレンジメント特性に基づいて、１つ又は複数のさらなるターゲットオーディオ属性を特定することと；前記第１のオーディオデータを選択することであって、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第３のオーディオデータを選択することであって、前記第３のオーディオデータは、オーディオ属性の第３のセットを有し、前記オーディオ属性の第３のセットは、前記特定された１つ又は複数のさらなるターゲットオーディオ属性の少なくともいくつかを含む、選択することと；出力することであって、少なくとも前記選択された第１及び第３のオーディオデータが前記自動化オーディオミキシング手順を使用してミキシングされたことによって生成されたさらなるミキシングされたオーディオアレンジメント、及び／又は前記さらなるミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む、第１項～第９項のいずれかに記載の方法。
第１１項：自動化されたオーディオ正規化手順を使用して、前記第１及び／又は第２のオーディオデータを導出することを含む、第１項～第１０項のいずれかに記載の方法。
第１２項：自動化されたオーディオマスタリング手順を使用して、前記第１及び／又は第２のオーディオデータを導出することを含む、第１項～第１１項のいずれかに記載の方法。
第１３項：前記１つ又は複数のオーディオアレンジメントが、前記第１及び第２のオーディオデータの選択後に受け取られたユーザ入力とは無関係にミキシングされる、第１項～第１２項のいずれかに記載の方法。
第１４項：前記オーディオ属性の第１及び／又は第２のセットが、少なくとも１つの禁止されたオーディオ属性を含み、前記少なくとも１つの禁止されたオーディオ属性が、前記第１及び／又は第２のオーディオデータと共に使用されるべきでないオーディオデータの属性を示し、前記第１及び／又は第２のオーディオデータの選択が、前記少なくとも１つの禁止されたオーディオ属性に基づく、第１項～第１３項のいずれかに記載の方法。
第１５項：さらなるオーディオデータが、前記少なくとも１つの禁止されたオーディオ属性の少なくともいくつかを有する前記さらなるオーディオデータに基づいて、前記オーディオアレンジメントにおける使用のための選択対象として無視される、第１４項に記載の方法。
第１６項：前記第１及び／又は第２のオーディオデータが、リードイン；主要な音楽コンテンツ及び／又は本体；リードアウト；及び／又はオーディオテール；を含む、第１項～第１５項のいずれかに記載の方法。
第１７項：前記第１及び／又は第２のオーディオデータの一部のみが前記オーディオアレンジメントに使用される、第１項～第１６項のいずれかに記載の方法。
第１８項：前記第１のオーディオデータが第１のクリエイターに由来し、前記第２のオーディオデータが第２の異なるクリエイターに由来する、第１項～第１７項のいずれかに記載の方法。
第１９項：前記オーディオアレンジメントが、さらにビデオデータに基づく、第１項～第１８項のいずれかに記載の方法。
第２０項：前記ビデオデータを分析することを含む、第１９項に記載の方法。
第２１項：前記ビデオデータの分析に基づいて、前記１つ又は複数のターゲットオーディオアレンジメント特性を特定することを含む、第２０項に記載の方法。
第２２項：前記１つ又は複数のミキシングされたオーディオアレンジメントに付随するビデオデータ及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することを含む、第１項～第２１項のいずれかに記載の方法。
第２３項：前記１つ又は複数のターゲットオーディオ属性の特定が、前記１つ又は複数のターゲットオーディオアレンジメント特性を前記１つ又は複数のターゲットオーディオ属性にマッピングすることを含む、第１項～第２２項のいずれかに記載の方法。
第２４項：前記出力することが、前記１つ又は複数のミキシングされたオーディオアレンジメントをストリーミングすることを含む、第１項～第２３項のいずれかに記載の方法。
第２５項：オーディオアレンジメントを生成する際に使用するための方法であって、ミキシングされたオーディオアレンジメントに許容可能なオーディオデータを定義するテンプレートを選択することであって、前記許容可能なオーディオデータが、前記ミキシングされたオーディオアレンジメントに適合性のある１つ又は複数のターゲットオーディオ属性のセットを有する、選択することと；第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；１つ又は複数のミキシングされたオーディオアレンジメント、及び／又は、前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、前記１つ又は複数のミキシングされたオーディオアレンジメントは、自動化されたオーディオミキシング手順を使用して、前記選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む、方法。
第２６項：オーディオアレンジメントを生成する際に使用するための方法であって、ビデオデータ及び／又は所与のオーディオデータを分析することと；前記ビデオデータ及び／又は所与のオーディオデータの分析に基づいて、１つ又は複数のターゲットオーディオアレンジメント強度を特定することと；前記１つ又は複数のターゲットオーディオアレンジメント強度に基づいて、１つ又は複数のターゲットオーディオ属性を特定することと；第１のオーディオデータを選択することであって、前記第１のオーディオデータはオーディオ属性の第１のセットを有し、前記オーディオ属性の第１のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；第２のオーディオデータを選択することであって、前記第２のオーディオデータはオーディオ属性の第２のセットを有し、前記オーディオ属性の第２のセットは、前記特定された１つ又は複数のターゲットオーディオ属性の少なくともいくつかを含む、選択することと；１つ又は複数のミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを生成することであって、前記１つ又は複数のミキシングされたオーディオアレンジメントは、前記選択された第１及び第２のオーディオデータをミキシングすることによって生成される、生成することと；前記１つ又は複数の生成されたミキシングされたオーディオアレンジメント及び／又は前記１つ又は複数のミキシングされたオーディオアレンジメントを生成するために使用可能なデータを出力することとを含む、方法。
第２７項：第１項～第２６項のいずれかに記載の方法を実行するように構成されたシステム。
第２８項：実行されると、第１項～第２６項のいずれかに記載の方法を実行するように構成されたコンピュータプログラム。

【図1】