(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-01
(54)【発明の名称】ビデオクリップに基づくオーディオビジュアルコンテンツの生成
(51)【国際特許分類】
H04R 3/00 20060101AFI20240725BHJP
H04N 21/854 20110101ALI20240725BHJP
【FI】
H04R3/00
H04N21/854
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024505096
(86)(22)【出願日】2021-07-27
(85)【翻訳文提出日】2024-03-19
(86)【国際出願番号】 US2021043276
(87)【国際公開番号】W WO2023009104
(87)【国際公開日】2023-02-02
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】クラーク,ニコラス・ジェームズ
(72)【発明者】
【氏名】マーフィー,グレン
(72)【発明者】
【氏名】コーンウェル,ジェイソン・ブリッグス
(72)【発明者】
【氏名】オサリバン,コナー・パトリック
(72)【発明者】
【氏名】バーク,フィリップ・ロイド
(72)【発明者】
【氏名】パク,ウニョン
(72)【発明者】
【氏名】ロウ,フィリップ・フランシス
(72)【発明者】
【氏名】ターナー,ドナルド・ピーター
(72)【発明者】
【氏名】モーラーシュテット,カール・デビッド
(72)【発明者】
【氏名】エリクソン,フィン・オーケ・アクセル
(72)【発明者】
【氏名】スタドラー,スバンテ・ステン・ヨハン
(72)【発明者】
【氏名】クレッソン,ヨハン・フィリップ
(72)【発明者】
【氏名】ヨセフソン,オラ・フレドリック
【テーマコード(参考)】
5C164
5D220
【Fターム(参考)】
5C164FA29
5C164MA02S
5C164MA07S
5C164MC01P
5C164PA41
5C164UA04S
5C164UB08S
5C164UB92S
5D220EE05
5D220EE25
5D220EE47
(57)【要約】
方法は、コンピューティングデバイスのコンテンツ生成コンポーネントが、ビデオとおよびビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることと、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することと、各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することと、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することとを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択され、方法は、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することをさらに含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップであり、方法は、制御インターフェースが、新しいオーディオビジュアルコンテンツを提供することをさらに含む。
【特許請求の範囲】
【請求項1】
コンピューティングデバイスであって、
オーディオビジュアルコンテンツの生成を可能にするように構成されたグラフィカルユーザインターフェースと、
1つまたは複数のプロセッサと、
データ記憶装置と、
を含み、
前記データ記憶装置には、コンピュータ実行可能命令が記憶されており、前記コンピュータ実行可能命令は、前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングデバイスに機能を実行させ、前記機能は、
前記コンピューティングデバイスのコンテンツ生成コンポーネントがビデオと前記ビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることと、
前記オーディオ内の1つまたは複数の過渡ポイントに基づいて、前記ビデオに関連付けられた前記オーディオ内の1つまたは複数のオーディオクリップを識別することと、
前記1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、前記初期コンテンツの前記ビデオから対応するビデオクリップを抽出することと、
前記グラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することとを含み、オーディオクリップの前記シーケンス内の各オーディオクリップは、前記1つまたは複数の識別されたオーディオクリップから選択され、前記機能は、
オーディオクリップの前記ユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することをさらに含み、ビデオクリップの前記シーケンス内の各ビデオクリップは、オーディオクリップの前記ユーザ生成シーケンス内の各オーディオクリップに対する、前記抽出された対応するビデオクリップであり、前記機能は、
前記制御インターフェースが前記新しいオーディオビジュアルコンテンツを提供すること
をさらに含む、
コンピューティングデバイス。
【請求項2】
前記1つまたは複数の識別されたオーディオクリップは、初期リズムを含む複数の打楽器音を含み、前記制御インターフェースを提供することは、
前記複数の打楽器音の複数の修正バージョンを生成することをさらに含み、前記複数の修正バージョンは、前記初期リズムとは異なる修正リズムに関連付けられ、前記制御インターフェースを提供することは、
前記制御インターフェースを介して、前記複数の打楽器音の前記複数の修正バージョンを提供することをさらに含み、
オーディオクリップの前記ユーザ生成シーケンスは、前記複数の打楽器音の前記複数の修正バージョンに基づいている、請求項1に記載のコンピューティングデバイス。
【請求項3】
前記制御インターフェースは、複数のオーディオチャネルに対応する複数の選択可能なタブを含み、前記複数の選択可能なタブのうちのタブをユーザが選択することにより、前記ユーザが選択したタブに対応する前記オーディオチャネル内のオーディオクリップまたはビデオクリップのうちの1つまたは複数と対話するための1つまたは複数のチャネルインターフェースへのユーザクセスが可能になる、請求項1に記載のコンピューティングデバイス。
【請求項4】
前記複数のオーディオチャネルは、メロディ音、打楽器音、楽曲、楽器音、無音、またはボーカルフレーズのうちの1つまたは複数に対応するオーディオクリップを含む、請求項3に記載のコンピューティングデバイス。
【請求項5】
前記複数のオーディオチャネルの各オーディオチャネルは、前記初期コンテンツとは異なる所与のオーディオビジュアルコンテンツに関連付けられる、請求項3に記載のコンピューティングデバイス。
【請求項6】
前記1つまたは複数のチャネルインターフェースは、前記1つまたは複数の識別されたオーディオクリップに対応する1つまたは複数のアイコンを有するインターフェースを含み、オーディオクリップの前記ユーザ生成シーケンスは、前記シーケンスを生成するために前記1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザ指示に基づく、請求項3に記載のコンピューティングデバイス。
【請求項7】
前記1つまたは複数の識別されたオーディオクリップのオーディオクリップは、音符を含み、前記制御インターフェースを提供することは、
前記音符の複数のリピッチバージョンを生成することをさらに含み、
前記1つまたは複数のチャネルインターフェースは、前記音符の前記複数のリピッチバージョンに対応する1つまたは複数のアイコンを有するインターフェースを含み、
オーディオクリップの前記ユーザ生成シーケンスは、前記シーケンスを生成するために前記1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザの指示に基づく、
請求項3に記載のコンピューティングデバイス。
【請求項8】
前記1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含み、前記複数のユーザ生成シーケンスの各シーケンスは前記複数のオーディオチャネルに対応し、前記1つまたは複数のチャネルインターフェースは、ユーザが前記1つまたは複数のシーケンスをつないで新しいシーケンスを生成することを可能にする選択可能なオプションをさらに含む、請求項3に記載のコンピューティングデバイス。
【請求項9】
前記1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含み、前記複数のユーザ生成シーケンスの各シーケンスは前記複数のオーディオチャネルに対応し、前記1つまたは複数のチャネルインターフェースは、ユーザが前記1つまたは複数のシーケンスをミックスして新しいオーディオトラックを生成することを可能にする選択可能なオプションをさらに含む、請求項3に記載のコンピューティングデバイス。
【請求項10】
前記1つまたは複数のチャネルインターフェースは、一対の座標軸を表示するインターフェースを含み、横軸は、前記ユーザ生成シーケンスに対する複数のピッチ調整に対応し、縦軸は、前記ユーザ生成シーケンスに対する複数の同時に調整可能なオーディオフィルタ調整に対応する、請求項3に記載のコンピューティングデバイス。
【請求項11】
前記1つまたは複数のチャネルインターフェースは、前記複数のオーディオチャネルのための複数のそれぞれの音量制御を表示するインターフェースを含み、前記複数のそれぞれの音量制御は、ユーザが前記複数のオーディオチャネルの各々の音量設定を同時に制御することを可能にする、請求項3に記載のコンピューティングデバイス。
【請求項12】
前記1つまたは複数のチャネルインターフェースは、オーディオクリップの前記シーケンス内のオーディオクリップについて、テンポを調整する第1のツール、スイングを調整する第2のツール、およびルート音符を調整する第3のツールを表示するインターフェースを含む、請求項3に記載のコンピューティングデバイス。
【請求項13】
前記1つまたは複数のチャネルインターフェースは、複数のビデオ編集アイコンを表示するインターフェースを含み、前記複数のビデオ編集アイコンのうちのビデオ編集アイコンのユーザ選択により、ビデオクリップの前記シーケンスのビデオクリップへのビデオ編集機能の適用が可能になる、請求項3に記載のコンピューティングデバイス。
【請求項14】
前記機能は、
第2の初期コンテンツ内の1つまたは複数の第2の過渡ポイントに基づいて、前記第2の初期コンテンツ内の1つまたは複数の第2のオーディオクリップを識別することと、
前記制御インターフェースを介して、第2のオーディオクリップの第2のユーザ生成シーケンスを有効にすることと、をさらに含み、第2のオーディオクリップの前記シーケンス内の各第2のオーディオクリップは、前記1つまたは複数の識別された第2のオーディオクリップから選択され、
前記新しいオーディオビジュアルコンテンツを生成することは、オーディオクリップの前記ユーザ生成シーケンスおよび第2のオーディオクリップの前記ユーザ生成シーケンスに対応するようにビデオクリップの第2のシーケンスを生成することを含む、
請求項1に記載のコンピューティングデバイス。
【請求項15】
前記初期コンテンツ内の前記過渡ポイントは、過渡位置、一時停止、またはカットのうちの1つまたは複数を含む、請求項1に記載のコンピューティングデバイス。
【請求項16】
前記初期コンテンツ内の前記1つまたは複数のオーディオクリップを識別することは、前記初期コンテンツのサウンドトラックにおいて、メロディ音、打楽器音、楽曲、楽器音、オーディオ強度の変化、無音、またはボーカルフレーズのうちの1つまたは複数を識別することを含む、請求項1に記載のコンピューティングデバイス。
【請求項17】
前記初期コンテンツ内の前記1つまたは複数のオーディオクリップを識別することは、訓練された機械学習モデルによって実行される、請求項1に記載のコンピューティングデバイス。
【請求項18】
前記1つまたは複数のオーディオクリップを識別することは、
訓練された機械学習モデルによって、前記1つまたは複数のオーディオクリップのオーディオクリップについての分類を識別することと、
前記分類に基づいて、前記オーディオクリップに関連付けられた視覚的ラベルを生成することと、
前記制御インターフェースを介して、前記オーディオクリップに対応する選択可能なアイコン上に前記視覚的ラベルを表示することと
をさらに含む、
請求項1に記載のコンピューティングデバイス。
【請求項19】
ソーシャルネットワーキングサイトへの前記新しいオーディオビジュアルコンテンツの自動アップロードを可能にするための、ユーザが選択可能な仮想タブを提供することをさらに含む、請求項1に記載のコンピューティングデバイス。
【請求項20】
コンピュータが実行する方法であって、
コンピューティングデバイスのコンテンツ生成コンポーネントがビデオと前記ビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることと、
前記オーディオ内の1つまたは複数の過渡ポイントに基づいて、前記ビデオに関連付けられた前記オーディオ内の1つまたは複数のオーディオクリップを識別することと、
前記1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、前記初期コンテンツの前記ビデオから対応するビデオクリップを抽出することと、
前記コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することと
を含み、
オーディオクリップの前記シーケンス内の各オーディオクリップは、前記1つまたは複数の識別されたオーディオクリップから選択され、
前記方法は、
オーディオクリップの前記ユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することをさらに含み、
ビデオクリップの前記シーケンス内の各ビデオクリップは、オーディオクリップの前記ユーザ生成シーケンス内の各オーディオクリップに対する、前記抽出された対応するビデオクリップであり、
前記方法は、
前記制御インターフェースが前記新しいオーディオビジュアルコンテンツを提供すること
をさらに含む、方法。
【請求項21】
非一時的なコンピュータ可読媒体を含む製品であって、コンピューティングデバイスの1つまたは複数のプロセッサによって実行されると、前記コンピューティングデバイスに動作を実行させるプログラム命令を記憶しており、前記動作は、
前記コンピューティングデバイスのコンテンツ生成コンポーネントがビデオと前記ビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることと、
前記オーディオ内の1つまたは複数の過渡ポイントに基づいて、前記ビデオに関連付けられた前記オーディオ内の1つまたは複数のオーディオクリップを識別することと、
前記1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、前記初期コンテンツの前記ビデオから対応するビデオクリップを抽出することと、
前記コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することとを含み、オーディオクリップの前記シーケンス内の各オーディオクリップは、前記1つまたは複数の識別されたオーディオクリップから選択され、前記動作は、
オーディオクリップの前記ユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することをさらに含み、ビデオクリップの前記シーケンス内の各ビデオクリップは、オーディオクリップの前記ユーザ生成シーケンス内の各オーディオクリップに対する、前記抽出された対応するビデオクリップであり、前記動作は、
前記制御インターフェースが前記新しいオーディオビジュアルコンテンツを提供すること
をさらに含む、製品。
【発明の詳細な説明】
【背景技術】
【0001】
背景
携帯電話、パーソナルコンピュータ、およびタブレットなどの現代のコンピューティングデバイスの多くは、スチルカメラおよび/またはビデオカメラなどの画像キャプチャデバイスを含む。画像キャプチャデバイスは、人物、動物、風景、および/または物体を含む画像などの画像をキャプチャすることができる。本開示は、一般に、キャプチャされたビデオからオーディオビジュアルコンテンツを生成することに関する。
【発明の概要】
【発明が解決しようとする課題】
【0002】
概要
主題技術の態様は、キャプチャされたビデオからオーディオビジュアルコンテンツを作成することに関する。オーディオコンテンツの関連する部分を、ビデオの対応する部分と共にビデオから抽出することができる。次に、ユーザは、オーディオコンテンツのそのような部分を配列して、新しいオーディオビジュアルコンテンツを作成することができる。
【課題を解決するための手段】
【0003】
したがって、第1の例示的実施形態では、オーディオビジュアルコンテンツの生成を可能にするように構成されたグラフィカルユーザインターフェースを含むデバイスが提供される。このデバイスはまた、1つまたは複数のプロセッサを含む。デバイスはさらに、データ記憶装置を含む。このデータ記憶装置は、1つまたは複数のプロセッサによって実行されると、コンピューティングデバイスに機能を実行させるコンピュータ実行可能命令を記憶している。この機能は、コンピューティングデバイスのコンテンツ生成コンポーネントがビデオとビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることを含む。機能はさらに、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することを含む。機能はまた、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから、対応するビデオクリップを抽出することを含む。この機能はさらに、グラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択される。機能はさらに、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することを含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップである。この機能は、制御インターフェースが新しいオーディオビジュアルコンテンツを提供することも含む。
【0004】
第2の例示的な実施形態では、コンピューティングデバイスのコンテンツ生成コンポーネントがビデオとビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることを含む、コンピュータが実行する方法が提供される。コンピュータが実行する方法はさらに、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することを含む。コンピュータが実行する方法はまた、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することを含む。コンピュータが実行する方法は、さらに、コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択される。コンピュータが実行する方法は、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することをさらに含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップである。コンピュータが実行する方法は、制御インターフェースが新しいオーディオビジュアルコンテンツを提供することも含む。
【0005】
第3の例示的な実施形態では、コンピューティングデバイスの1つまたは複数のプロセッサによって実行されると、コンピューティングデバイスに動作を実行させるプログラム命令を記憶した非一時的なコンピュータ可読媒体を含む製品が提供される。動作は、コンピューティングデバイスのコンテンツ生成コンポーネントが、ビデオとビデオに関連付けられたオーディオとを含む初期コンテンツをキャプチャすることを含む。動作はまた、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することを含む。動作はまた、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することを含む。動作は加えて、コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択される。動作はさらに、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することを含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップである。動作は加えて、制御インターフェースが、新しいオーディオビジュアルコンテンツを提供することを含む。第4の例示的な実施形態では、コンピューティングデバイスのコンテンツ生成コンポーネントが、ビデオ、およびビデオに関連付けられたオーディオを含む初期コンテンツをキャプチャするための手段と、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別するための手段と、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出するための手段と、コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供するための手段とを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択され、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成するための手段をさらに含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップであり、制御インターフェースが新しいオーディオビジュアルコンテンツを提供するための手段をさらに含む、システムが提供される。
【0006】
主題技術の他の構成は、主題技術の様々な構成が例示として示され、説明される以下の詳細な説明から、当業者には容易に明らかになることが理解される。理解されるように、主題技術は他の異なる構成が可能であり、そのいくつかの詳細事項は、すべてが主題技術の範囲から逸脱することなく、他の様々な点で変更が可能である。したがって、図面および詳細な説明は、本質的に例示的なものとみなされ、制限的なものとはみなされない。
【0007】
添付の図面は、さらなる理解を提供するために含まれ、本明細書に組み込まれ、本明細書の一部を構成するものであり、開示された態様を例示し、説明と共に開示された態様の原理を説明するのに役立つ。
【図面の簡単な説明】
【0008】
【
図1】例示的な実施形態によるコンピューティングデバイスを示す図である。
【
図2】例示的な実施形態による、オーディオおよびビデオクリップの抽出の概略図である。
【
図3】例示的な実施形態による、オーディオクリップおよび対応するビデオクリップを示す例示的なルックアップテーブルである。
【
図4】例示的な実施形態による、オーディオクリップおよび対応するオーディオビジュアルコンテンツのシーケンスの例を示す図である。
【
図5】例示的な実施形態による、例示的な制御インターフェースを示す図である。
【
図6】例示的な実施形態による、別の例示的な制御インターフェースを示す図である。
【
図7】例示的な実施形態による、別の例示的な制御インターフェースを示す図である。
【
図8】例示的な実施形態による、別の例示的な制御インターフェースを示す図である。
【
図9】例示的な実施形態による、オーディオビジュアルコンテンツの作成のための例示的なネットワーク環境を示す図である。
【
図10】例示的な実施形態による、機械学習モデルの訓練段階および推論段階を示す図である。
【
図11】例示的な実施形態による、フローチャートを示す図である。
【発明を実施するための形態】
【0009】
詳細な説明
本明細書では、例示的な方法、デバイス、およびシステムについて説明する。本明細書では、「例」および「例示的」という語は、「例、実例、または説明として役立つ」という意味で使用されることを理解されたい。「例」または「例示的」であるとして本明細書に記載される任意の実施形態または特徴は、必ずしも、他の実施形態または特徴よりも好ましいまたは有利であると解釈されるものではない。本明細書に提示された主題の範囲から逸脱することなく、他の実施形態を利用することができ、他の変更を加えることができる。
【0010】
したがって、本明細書に記載される例示的な実施形態は、限定を意味するものではない。本開示の態様は、本明細書において一般的に記載され、図に示されるように、多種多様な異なる構成において配置され、置換され、組み合わされ、分離され、設計され得、そのすべてが本明細書において企図される。
【0011】
さらに、文脈が他に示唆しない限り、各図に図示された特徴は、互いに組み合わせて使用することができる。したがって、図は、一般に、1つまたは複数の全体的な実施形態の構成要素の態様として見るべきであり、図示された特徴のすべてが各実施形態に必要であるとは限らないことを理解されたい。
【0012】
I.概要
ビデオおよび/またはサウンド編集は、一般に、サウンドトラック、ビデオコンテンツなどを生成するためにオーディオビジュアルコンテンツをカット、編集、および/または合成するために、特殊な装置、スタジオ環境、および経験豊富な編集者を必要とする手の込んだプロセスであり得る。コンピューティングデバイスのオペレーティングシステム、例えばモバイルデバイスを対象としたオペレーティングシステムは、単純なオーディオ処理効果を内蔵しており、オーディオビジュアルコンテンツを作成および/または編集するためのオプションは限られている。オペレーティングシステムの中には、新しいオーディオコンテンツを作成するために利用できるオーディオ処理アーキテクチャを備えているものもある。モバイルアプリケーションの中には、異なるサウンドトラックをマージする能力、および/または既存のサウンドトラックに新しいビートを作成する能力を提供するものもある。
【0013】
1つまたは複数の実施態様に従って、オーディオビジュアルコンテンツを作成するための方法およびシステムが本明細書に開示される。主題技術の様々な態様によれば、ユーザが既存のビデオコンテンツからオーディオビジュアルコンテンツを作成することを可能にする、使い勝手のよいグラフィカルユーザインターフェースが提供される。例えば、音声、楽器音、および/または他の音を含むオーディオクリップをビデオから抽出することができる。主題技術のいくつかの態様では、打楽器音を異なるリズムに設定することができ、メロディ音を音符のコレクションにまたがってピッチし直すことができるなど、オーディオクリップを生成することができる。次いで、ユーザは、これらのオーディオクリップを合成して、新しいオーディオコンテンツを作成することができる。次いで、抽出されたオーディオクリップに対応するビデオクリップの一部と共に、オーディオコンテンツを再生することができる。
【0014】
II.デバイスの例
図1は、例示的な実施形態によるコンピューティングデバイス100を示す。コンピューティングデバイス100は、コンピュータ、電話、パーソナルデジタルアシスタント(PDA)、または任意の他の種類の電子デバイスであり得る。このような電子システムは、様々なタイプのコンピュータ可読媒体および様々な他のタイプのコンピュータ可読媒体用のインターフェースを含む。コンピューティングデバイス100は、バス102と、コンテンツキャプチャコンポーネント110と、コンテンツ抽出コンポーネント120と、コンテンツ生成コンポーネント130と、1つまたは複数のオーディオコンポーネント140と、ネットワークインターフェース150と、グラフィカルユーザインターフェース160と、制御インターフェース162と、プロセッサ172およびメモリ174を含むコントローラ170とを含む。いくつかの例では、コンピューティングデバイス100は、デスクトップデバイス、サーバデバイス、またはモバイルデバイスの形態をとることができる。コンピューティングデバイス100は、環境と相互作用するように構成されてもよい。例えば、コンピューティングデバイス100は、コンピューティングデバイス100の周囲の環境からオーディオ信号を記録することができる。
【0015】
バス102は、コンピューティングデバイス100の多数の内部デバイスを通信可能に接続する、すべてのシステム、周辺機器、およびチップセットバスを集合的に表す。例えば、バス102は、プロセッサ172をメモリ174と通信可能に接続する。バス102はまた、入力および出力デバイスインターフェース(図示せず)にも接続する。入力デバイスインターフェースは、ユーザがコンピューティングデバイス100に情報を伝達し、コマンドを選択することを可能にする。入力デバイスインターフェースと共に使用される入力デバイスには、例えば、英数字キーボード、ポインティングデバイス(「カーソル制御デバイス」とも呼ばれる)、およびサウンドキャプチャデバイス(例えば、マイクロフォン)が含まれる。出力デバイスインターフェースは、例えば、音の再生、コンピューティングデバイス100によって生成された画像の表示などを可能にする。出力デバイスインターフェースと共に使用される出力デバイスは、例えば、プリンタ、ディスプレイデバイス(例えば、陰極線管(CRT)または液晶ディスプレイ(LCD))、およびサウンド再生デバイス(例えば、スピーカ)を含む。いくつかの実装は、デバイス、例えば、入力および出力デバイスの両方として機能するタッチスクリーンを含む。バス102はまた、ネットワークインターフェース150を介して、コンピューティングデバイス100をネットワーク(図示せず)に結合する。このようにして、コンピュータは、コンピュータのネットワーク(例えば、LAN、WAN、またはイントラネット、または例えばインターネットなどのネットワークのネットワーク)の一部であり得る。コンピューティングデバイス100の任意の構成要素またはすべての構成要素を、主題の開示と組み合わせて使用することができる。
【0016】
いくつかの実施形態では、コンピューティングデバイス100は、スチルカメラおよび/またはビデオカメラなどのコンテンツキャプチャコンポーネント120を含むことができる。コンテンツキャプチャコンポーネント120は、人物、動物、風景、および/または物体を含む画像などの画像をキャプチャすることができる。コンテンツは、静止画像、オーディオ、ビデオ、および/またはオーディオビジュアルコンテンツを含み得る。例えば、コンテンツキャプチャコンポーネント120は、ビデオ、およびビデオに関連付けられたオーディオを含む初期コンテンツをキャプチャすることができる。
【0017】
いくつかの実施形態では、コンピューティングデバイス100は、コンテンツ抽出コンポーネント120を含むことができる。例えば、コンテンツ抽出コンポーネント120は、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することができる。また、例えば、コンテンツ抽出コンポーネント120は、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することができる。本明細書で使用する「クリップ」という用語は、一般に、オーディオまたはビデオの一部を指す。クリップは、オーディオビジュアルコンテンツに関連付けられた時間的マーキング、および/またはメタデータに基づいて識別することができる。
【0018】
いくつかの実施形態では、コンピューティングデバイス100は、コンテンツ生成コンポーネント130を含むことができる。例えば、コンテンツ生成コンポーネント130は、ユーザが生成したオーディオクリップのシーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することができる。ビデオクリップのシーケンス内の各ビデオクリップは、ユーザが生成したオーディオクリップのシーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップである。
【0019】
いくつかの実施形態では、コンピューティングデバイス100は、1つまたは複数のオーディオコンポーネント140を含むことができる。1つまたは複数のオーディオコンポーネント140は、コンピューティングデバイス100の環境にオーディオを出力するように構成され得るオーディオ出力コンポーネントを含み得る。いくつかの実施形態では、オーディオ出力コンポーネントは、コンピューティングデバイス100の一部であり得る。例えば、オーディオ出力コンポーネントは、コンピューティングデバイス100に配置された複数のスピーカを含み得る。いくつかの実施形態では、オーディオ出力コンポーネントは、コンピューティングデバイス100に通信可能に結合された第2のデバイスの一部であってもよい。例えば、オーディオ出力コンポーネントは、オーディオを出力するように構成されたネットワークデバイス、1つまたは複数のスピーカ、オーディオアンプシステム、ヘッドホン、カーオーディオなどであってもよい。
【0020】
いくつかの実施形態では、1つまたは複数のオーディオコンポーネント140は、オーディオ入力コンポーネントを含み得る。オーディオ入力コンポーネントは、コンピューティングデバイス100の環境からオーディオを記録するように構成され得る。例えば、コンピューティングデバイス100のカメラがビデオ画像をキャプチャすると、オーディオ入力コンポーネントは、ビデオ画像に関連するオーディオを同時に記録するように構成され得る。いくつかの実施形態では、オーディオ入力コンポーネントは、コンピューティングデバイス100の一部であってもよい。例えば、オーディオ入力コンポーネントは、コンピューティングデバイス100に配置された複数のマイクロフォンを含み得る。いくつかの実施形態では、オーディオ入力コンポーネントは、コンピューティングデバイス100に通信可能に結合された第2のデバイスの一部であってもよい。例えば、オーディオ入力コンポーネントは、マイクロフォン(例えば、ヘッドホン、カーオーディオ)等のオーディオを記録するように構成されたネットワークデバイスであってもよい。例えば、オーディオ入力コンポーネントは、オーディオをキャプチャし、オーディオ信号をコンピューティングデバイス100に通信するように構成されたスマートデバイス(例えば、スマートウォッチ、モバイルデバイス)であってもよい。
【0021】
ネットワークインターフェース150は、ネットワークを介して通信するように構成可能な、1つまたは複数の無線インターフェースおよび/または有線インターフェースを含み得る。無線インターフェースは、Bluetooth(商標)トランシーバ、Zigbee(登録商標)トランシーバ、Wi-Fi(商標)トランシーバ、WiMAX(商標)トランシーバ、および/または無線ネットワークを介して通信するように構成可能な他の同様のタイプの無線トランシーバなどの、1つまたは複数の無線送信機、受信機、および/またはトランシーバを含むことができる。有線インターフェースは、イーサネット(登録商標)トランシーバ、ユニバーサルシリアルバス(USB)トランシーバ、またはツイストペア線、同軸ケーブル、光ファイバーリンク、または有線ネットワークへの同様の物理的接続を介して通信するように構成可能な同様のトランシーバなどの、1つまたは複数の有線送信機、受信機、および/またはトランシーバを含むことができる。
【0022】
いくつかの実施形態では、ネットワークインターフェース150は、信頼性のある、保護された、および/または認証された通信を提供するように構成することができる。本明細書で説明する各通信について、信頼性のある通信(例えば、保護されたオーディオコンテンツ配信)を容易にするための情報を、おそらくは安全なデータパケット送信の一部として提供することができる(例えば、パケット/メッセージシーケンス情報、カプセル化ヘッダおよび/またはフッタ、サイズ/時間情報、ならびに巡回冗長検査(CRC)および/またはパリティ検査値などの送信検証情報)。通信は、データ暗号化基準(DES)、高度暗号化基準(AES)、Rivest-Shamir-Adelman(RSA)アルゴリズム、Diffie-Hellmanアルゴリズム、セキュアソケットレイヤ(SSL)もしくはトランスポートレイヤセキュリティー(TLS)などのセキュアソケットプロトコル、および/またはデジタル署名アルゴリズム(DSA)など(ただしこれらに限定されない)の1つまたは複数の暗号プロトコルおよび/またはアルゴリズムを使用して、保護する(例えば、符号化または暗号化する)、および/または解読/復号化することができる。他の暗号プロトコルおよび/またはアルゴリズムも、本明細書に列挙されているものと同様に、またはこれらに加えて、通信を保護する(および、その後、解読/復号化する)ために使用することができる。
【0023】
グラフィカルユーザインターフェース160は、1つまたは複数のスクリーン(タッチスクリーンを含む)、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、デジタル光処理(DLP)技術を使用するディスプレイ、および/または他の同様の技術によって、出力信号をユーザに提供するように構成され得る。グラフィカルユーザインターフェース160はまた、スピーカ、スピーカジャック、オーディオ出力ポート、オーディオ出力デバイス、イヤホン、および/または他の同様のデバイスを用いるなどして、可聴出力を生成するように構成され得る。グラフィカルユーザインターフェース160はさらに、振動、ならびに/またはタッチおよび/もしくはコンピューティングデバイス100との物理的接触によって検出可能な他の出力などの、触覚出力を生成することができる1つまたは複数の触覚コンポーネントを有して構成され得る。
【0024】
グラフィカルユーザインターフェース160は、制御インターフェース162を含むことができる。制御インターフェース162は、ユーザがオーディオクリップのシーケンスを生成することを可能にすることができ、オーディオクリップのシーケンス内の各オーディオクリップは、識別されたオーディオクリップのコレクションから選択される。制御インターフェース162は、新しいオーディオビジュアルコンテンツを提供することができる。制御インターフェース162は、複数のオーディオチャネルに対応する複数の選択可能なタブを含み得る。複数の選択可能なタブのうちのタブをユーザが選択することにより、ユーザが選択したタブに対応する、オーディオチャネル内のオーディオクリップまたはビデオクリップのうちの1つまたは複数と対話するための、1つまたは複数のチャネルインターフェースへのユーザクセスが可能になる。いくつかの実施形態では、複数のオーディオチャネルは、メロディ音、打楽器音、楽曲、楽器音、無音、またはボーカルフレーズのうちの1つまたは複数に対応するオーディオクリップを含むことができる。いくつかの実施形態では、複数のオーディオチャネルの各オーディオチャネルは、初期コンテンツとは異なる所与のオーディオビジュアルコンテンツに関連付けることができる。
【0025】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、1つまたは複数の識別されたオーディオクリップに対応する1つまたは複数のアイコンを有するインターフェースを含むことができる。オーディオクリップのユーザ生成シーケンスは、シーケンスを生成するために1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザの指示に基づくことができる。
【0026】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含むことができ、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、ユーザが1つまたは複数のシーケンスをつないで新しいシーケンスを生成することを可能にする選択可能なオプションをさらに含む。
【0027】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含むことができ、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、ユーザが1つまたは複数のシーケンスをミックスして新しいオーディオトラックを生成することを可能にする選択可能なオプションをさらに含む。
【0028】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、一対の座標軸を表示するインターフェースを含むことができる。横軸は、ユーザ生成シーケンスに対する複数のピッチ調整に対応し、縦軸は、ユーザ生成シーケンスに対する複数の同時に調整可能なオーディオフィルタ調整に対応する。
【0029】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、複数のオーディオチャネルに対する複数のそれぞれの音量制御を表示するインターフェースを含み得る。複数のそれぞれの音量制御は、ユーザが複数のオーディオチャネルの各々の音量設定を同時に制御することを可能にし得る。
【0030】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、オーディオクリップのシーケンス内のオーディオクリップについて、テンポを調整する第1のツール、スイングを調整する第2のツール、およびルート音符を調整する第3のツールを表示するインターフェースを含むことができる。
【0031】
いくつかの実施形態では、制御インターフェース162の1つまたは複数のチャネルインターフェースは、複数のビデオ編集アイコンを表示するインターフェースを含むことができ、複数のビデオ編集アイコンのうちのビデオ編集アイコンのユーザ選択により、ビデオクリップのシーケンスのビデオクリップへのビデオ編集機能の適用が可能になる。
【0032】
コントローラ170は、1つまたは複数のプロセッサ172およびメモリ174を含むことができる。プロセッサ172は、1つまたは複数の汎用プロセッサおよび/または1つまたは複数の特殊用途プロセッサ(例えば、ディスプレイドライバ集積回路(DDIC)、デジタル信号プロセッサ(DSP)、テンソル処理ユニット(TPU)、グラフィック処理ユニット(GPU)、特定用途向け集積回路(ASIC)など)を含み得る。プロセッサ172は、異なる実装において、単一プロセッサまたはマルチコアプロセッサであり得る。プロセッサ172は、本明細書に記載されるように、メモリ174に含まれるコンピュータ可読命令および/または他の命令を実行するように構成され得る。
【0033】
メモリ174は、プロセッサ172によって読み取りおよび/またはアクセス可能な、1つまたは複数の非一時的なコンピュータ可読記憶媒体を含むことができる。1つまたは複数の非一時的なコンピュータ可読記憶媒体は、光学、磁気、有機もしくは他のメモリまたはディスク記憶装置などの、揮発性および/または不揮発性記憶コンポーネントを含むことができ、これらは、プロセッサ172の少なくとも1つと全体的または部分的に統合することができる。いくつかの例では、メモリ174は、単一の物理的デバイス(例えば、1つの光学、磁気、有機もしくは他のメモリまたはディスク記憶装置)を使用して実装することができるが、他の例では、メモリ174は、2つ以上の物理的デバイスを使用して実装することができる。ROMは、プロセッサ172およびコンピューティングデバイス100の他のモジュールによって必要とされる静的データおよび命令を記憶する。いくつかの実装は、読み書き可能なメモリデバイスである永久記憶装置を使用する。例えば、いくつかの実装は、永久記憶装置として、リムーバブル記憶装置(例えば、フロッピー(登録商標)ディスク、フラッシュドライブ)を使用することができる。永久記憶装置と同様に、読み書き可能なメモリデバイスであるシステムメモリを使用することもできる。ただし、システムメモリは、ランダムアクセスメモリのような揮発性の読み書き可能メモリである。システムメモリは、プロセッサ172が実行時に必要とする命令およびデータの一部を記憶することができる。いくつかの実装では、主題の開示のプロセスは、システムメモリ、永久記憶装置、またはROMに記憶される。例えば、メモリ174を含む様々なメモリユニットは、それぞれのアプリケーションに関連するグラフィカル要素および識別子を表示するための命令、それぞれのアプリケーションに関連するショートカットの視覚的表現を表示するための所定のユーザ入力を受信するための命令、およびショートカットの視覚的表現を表示するための命令を含む。これらの様々なメモリユニットから、プロセッサ172は、いくつかの実装のプロセスを実行するために、実行する命令および処理するデータを取り出す。
【0034】
例示的な実施形態では、プロセッサ172は、動作を実行するようにメモリ174に記憶された命令を実行するように構成される。
【0035】
この動作は、コンピューティングデバイスのコンテンツ生成コンポーネントが、ビデオ、およびビデオに関連付けられたオーディオを含む初期コンテンツをキャプチャすることを含み得る。
【0036】
この動作は、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することを含み得る。例えば、いくつかの実施形態では、初期コンテンツ内の1つまたは複数のオーディオクリップを識別することは、初期コンテンツのサウンドトラックにおいて、メロディ音、打楽器音、楽曲、楽器音、オーディオ強度の変化、無音、またはボーカルフレーズのうちの1つまたは複数を識別することを含むことができる。例えば、メロディ音、打楽器音、楽曲、楽器音、無音、またはボーカルフレーズに対応するオーディオは、そのようなオーディオを示す過渡ポイントに基づいて識別される場合がある。初期コンテンツ内の過渡ポイントは、過渡位置、一時停止、またはカットのうちの1つまたは複数を含み得る。いくつかの実施形態では、初期コンテンツ内の1つまたは複数のオーディオクリップを識別することは、訓練された機械学習モデルによって実行することができる。例えば、過渡ポイントを識別するように機械学習モデルを訓練することができ、関連するオーディオクリップを識別するために、この訓練された機械学習モデルを展開することができる。いくつかの実施形態において、訓練された機械学習モデルは、1つまたは複数のオーディオクリップのうちのオーディオクリップの分類を識別することができる。例えば、訓練された機械学習モデルは、オーディオクリップがメロディ音、打楽器音、楽曲、ボーカルフレーズなどに対応することを識別することができる。次いで、分類に基づいて、オーディオクリップの視覚的ラベルを生成することができる。例えば、オーディオクリップが手のタップによって生成される打楽器音に対応する場合、視覚的ラベルは手の模式的表現であってもよい。また、例えば、オーディオクリップがバイオリンによって生成されるメロディ音に対応する場合、視覚的ラベルはバイオリンの模式的表現であってもよい。追加的および/または代替的な視覚的ラベルが生成されてもよい。いくつかの実施形態では、視覚的ラベルは、制御インターフェースを介してオーディオクリップに対応する選択可能なアイコン上に表示され得る。例えば、
図5の第1のキー540は、手のタップによって生成される打楽器音に対応する第1のオーディオクリップに対応することができ、第1のキー540上の視覚的ラベルは手の模式的表現である。
【0037】
この動作には、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することも含まれる。
【0038】
動作はさらに、グラフィカルユーザインターフェース160を介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェース162を提供することを含むことができ、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択される。
【0039】
いくつかの実施形態では、1つまたは複数の識別されたオーディオクリップは、初期リズムを含む複数の打楽器音を含むことができ、制御インターフェース162を提供する動作は、複数の打楽器音の複数の修正バージョンを生成することを含むことができ、複数の修正バージョンは、初期リズムとは異なる修正リズムに関連付けられる。動作は、制御インターフェース162を介して、複数の打楽器音の複数の修正バージョンを提供することをさらに含むことができ、オーディオクリップのユーザ生成シーケンスは、複数の打楽器音の複数の修正バージョンに基づいている。
【0040】
いくつかの実施形態では、1つまたは複数の識別されたオーディオクリップのオーディオクリップは、音符を含むことができ、制御インターフェース162を提供する動作は、音符の複数のリピッチバージョンを生成することを含むことができる。制御インターフェース162の1つまたは複数のチャネルインターフェースは、音符の複数のリピッチバージョンに対応する1つまたは複数のアイコンを有するインターフェースを含むことができ、オーディオクリップのユーザ生成シーケンスは、シーケンスを生成するために1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザの指示に基づくことができる。
【0041】
動作はまた、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することを含むことができ、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対する、抽出された対応するビデオクリップである。
【0042】
動作は、第2の初期コンテンツ内の1つまたは複数の第2の過渡ポイントに基づいて、第2の初期コンテンツ内の1つまたは複数の第2のオーディオクリップを識別することをさらに含み得る。動作は、制御インターフェースを介して、第2のオーディオクリップの第2のユーザ生成シーケンスを有効にすることも含むことができ、第2のオーディオクリップのシーケンス内の各第2のオーディオクリップは、1つまたは複数の識別された第2のオーディオクリップから選択される。新しいオーディオビジュアルコンテンツの生成は、オーディオクリップのユーザ生成シーケンスおよび第2のオーディオクリップのユーザ生成シーケンスに対応するように、ビデオクリップの第2のシーケンスを生成することを含む。
【0043】
動作はまた、制御インターフェース162が、新しいオーディオビジュアルコンテンツを提供することを含み得る。いくつかの実施形態では、新しいオーディオビジュアルコンテンツを提供することは、ソーシャルネットワーキングサイトへの新しいオーディオビジュアルコンテンツの自動アップロードを可能にするための、ユーザが選択可能な仮想タブを提供することを含むことができる。
【0044】
III.オーディオクリップとビデオクリップの抽出
図2は、例示的な実施形態による、オーディオクリップおよびビデオクリップの抽出の概略
図200である。コンピューティングデバイス(例えば、コンピューティングデバイス100)のメディアキャプチャコンポーネント(例えば、コンテンツキャプチャコンポーネント110)を使用して、ビデオ、およびビデオに関連付けられたオーディオを含む初期コンテンツ205をキャプチャすることができる。いくつかの実施形態では、初期コンテンツ205は、コンピューティングデバイス(例えば、コンピューティングデバイス100)のメモリ(例えば、メモリ174)に記憶される、以前にキャプチャされたオーディオビジュアルコンテンツであってもよい。初期コンテンツ205は、一般に、オーディオコンテンツを伴う任意のビデオコンテンツを含むことができる。例えば、初期コンテンツ205は、物体が様々な表面を叩き、様々な打楽器音を生成するビデオとすることができる。別の例として、初期コンテンツ205は、蒸気を吹き出し、口笛音を生成するやかんのビデオとすることができる。また、例えば、初期コンテンツ205は、1人または複数の個人が何らかのニュースを伝えるニュースリールのビデオとすることができる。場合によっては、初期コンテンツ205は、オーケストラが楽曲を演奏するビデオ、音楽リサイタル(ピアノ、フルートなど)のビデオ、スポーツ中継のビデオ、音楽コンサートのビデオなどとすることができる。また、例えば、初期コンテンツ205は、鳥のさえずり、離陸する航空機、駅に到着する列車などのビデオであり得る。場合によっては、初期コンテンツ205は、無音を伴うビデオ部分とすることができる。
【0045】
いくつかの実施形態では、1つまたは複数のオーディオクリップは、初期コンテンツ205における1つまたは複数の過渡ポイントに基づいて、初期コンテンツ205のビデオに関連付けられたオーディオにおいて識別され得る。本明細書で説明するように、初期コンテンツ205は、オーディオトラック210と関連付けることができる。図示されるように、オーディオトラック210は、オーディオトラックに対応する波形の概略表現である。場合によっては、オーディオトラック210は、さらなる分析のために初期コンテンツ205から抽出されることがある。オーディオトラック210は、ユーザの興味を引く可能性のあるオーディオの一部を含むことがある。例えば、オーディオトラック210は、打楽器音、メロディ音、人の声、無音のオーディオ、および/または興味を引く可能性のある他のオーディオを含むことができる。そのような各オーディオ部分は、オーディオ特性の変化を示すオーディオトラック210内の開始点を有する。本明細書で使用する過渡ポイントは、一般に、オーディオトラック内のオーディオ部分のそのような開始点を指すことがある。
【0046】
過渡ポイントは、オーディオトラック210の特性の分析に基づいて検出することができる。例えば、オーディオ強度の変化(例えば、音量の変化)、音声の発生(例えば、人が話す)、楽器の変化(例えば、フルートからピアノ)、ピッチの変化、バックグラウンドノイズ(例えば、歓声)の量の変化、音から無音への変化、オーディオコンテンツの種類の変化(例えば、スピーチから音楽、バックグラウンドノイズなど)、音楽のジャンルの変化(例えば、クラシック、ロック、ブルース、ジャズなど)、最初の曲が再生された後に2番目の曲が再生され始めるポイントなどが、過渡ポイントとしての役割を果たすことができる。過渡ポイントは、カット、一時停止などによっても示すことができる。
【0047】
いくつかの実施形態では、過渡ポイントは、過渡ポイントを検出するように訓練された機械学習モデルを使用して検出することができる。例えば、機械学習モデルは、以前に分類されたオーディオ部分の開始点を示す、以前に知られている過渡ポイントを有するオーディオトラックを含むラベル付けされたデータで訓練され得る。一旦訓練されると、機械学習モデルは、初期コンテンツ205および/またはオーディオトラック210を入力とし、1つまたは複数の過渡ポイントを検出することができる。このような機械学習モデルのさらなる説明は、
図10を参照して本明細書に提供される。
【0048】
過渡ポイントは、ユーザの興味を引くオーディオの部分に関連付けられる。したがって、1つまたは複数のオーディオクリップを、1つまたは複数の識別された過渡ポイントの各々について識別することができる。
図2に示されるように、過渡ポイントT
1、T
2、T
3はオーディオトラック215において識別されることがある。過渡ポイントT
1、T
2、T
3の各々について、対応するオーディオクリップA
1、A
2、A
3がそれぞれ識別されてもよい。いくつかの実施形態では、1つまたは複数のオーディオクリップ(例えば、オーディオクリップA
1、A
2、A
3)は、初期コンテンツ205および/またはオーディオトラック210から抽出されてもよい。
【0049】
いくつかの実施形態では、コントローラ170は、1つまたは複数の識別されたオーディオクリップ(例えば、オーディオクリップA1、A2、A3)の各オーディオクリップについて、初期コンテンツ205から対応するビデオクリップを抽出することができる。例えば、A1に対応するビデオクリップV1、A2に対応するビデオクリップV2、およびA3に対応するビデオクリップV3が識別され得る。場合によっては、ビデオクリップは、オーディオクリップ内でキャプチャされたオーディオが発生する前にビデオクリップが画像をキャプチャするように、(オーディオクリップの開始または過渡ポイントから)わずかに後方にオフセットされることがある。例えば、花瓶をフォークで叩いて音を出す場合、フォークで実際に叩いて音を出すに至るまでのビデオ画像がキャプチャされることがある。したがって、ビデオクリップの開始点は、対応する過渡ポイントよりも前になるように構成されることがある。図示されているように、ビデオクリップV2の開始点T’2は、オーディオクリップA2に対応する過渡ポイントT2の前になるようにオフセットされる。同様に、ビデオクリップV3の開始点T’3は、オーディオクリップA3に対応する過渡ポイントT3の前になるようにオフセットされる。ただし、V1などの一部のビデオクリップについては、オーディオクリップA1の対応する過渡ポイントT1と一致するように開始点が構成される場合がある。
【0050】
いくつかの実施形態では、ビデオクリップの開始点と、対応するオーディオクリップの過渡ポイントとの間に、固定オフセット(例えば、N個のビデオフレーム)を使用することができる。他の実施形態では、このようなオフセットは、オーディオおよび/またはビデオのタイプに基づいて動的に決定されてもよい。例えば、オーディオクリップがボーカルフレーズを含む場合、対応するビデオクリップのオフセットはなくてもよい。また、例えば、オーディオクリップがピアノによって演奏される音符を含む場合、対応するビデオクリップにはオフセットがないことがある。ただし、オーディオクリップが列車の汽笛の音を含む場合、対応するビデオクリップの開始がオフセットされ、駅のホームに接近する列車の画像がキャプチャされることがある。一般に、機械学習モデルは、オーディオクリップに対応するビデオクリップの開始がオーディオクリップの過渡ポイントに対してオフセットされなければならないかどうかを識別するように訓練することもできる。いくつかの実施形態では、機械学習モデルは、オフセットの長さ(例えば、ビデオフレームの数)を決定するように訓練することができる。
【0051】
図3は、例示的な実施形態による、オーディオクリップおよび対応するビデオクリップを示す例示的なルックアップテーブル300である。いくつかの実施形態では、コントローラ170は、抽出されたオーディオクリップおよび対応するビデオクリップを、メモリ174内のルックアップテーブル300に格納することができる。例えば、ルックアップテーブル300の第1の行305は、1つまたは複数の識別されたオーディオクリップ(例えば、オーディオクリップA
1、A
2、A
3)を格納し、ルックアップテーブル300の第2の行310は、1つまたは複数の対応する抽出されたビデオクリップ(例えば、ビデオクリップV
1、V
2、V
3)を格納することができる。
【0052】
次いで、ユーザは、1つまたは複数の識別されたオーディオクリップを配列することによって、新しいオーディオビジュアルコンテンツを作成することができる。例えば、ユーザは特定のオーディオクリップを選択し、それを一定回数繰り返して、新しいオーディオコンテンツを生成することができる。対応するビデオクリップも同様に配列して、新しいオーディオビジュアルコンテンツを生成することができる。一般に、ユーザは、1つまたは複数の識別されたオーディオクリップの任意の組合せを使用できる。加えて、コントローラ170は、制御インターフェース(例えば、制御インターフェース162)を介して、(例えば、低音、高音、ピッチ、リズムなどのそれぞれのオーディオ特性を変化させることによって)1つまたは複数の識別されたオーディオクリップのバリエーションを利用可能にすることができる。したがって、ユーザは、新しい音楽創作を生成するためのオーディオサウンドの大規模なレパートリーにアクセスすることができる。
【0053】
図4は、例示的な実施形態による、オーディオクリップおよび対応するオーディオビジュアルコンテンツの例示的なシーケンス400を示す。例えば、1つまたは複数の識別されたオーディオクリップのオーディオクリップ(例えば、オーディオクリップA
1)は、音符を含む場合がある。第1のシーケンス405は、例えば、A
1A
1A
1A
1A
1A
1などのオーディオクリップA
1の繰り返しを含むことができ、対応するビデオクリップV
1が同様に配列されて、第1のオーディオビジュアルコンテンツV
1V
1V
1V
1V
1V
1V
1V
1を生成することができる。別の例として、第2のシーケンス410は、例えば、A
1A
2A
2A
1A
2A
2A
1A
3A
1A
1A
1などのオーディオクリップのシーケンスを含むことができ、対応するビデオクリップが同様に配列されて、第2のオーディオビジュアルコンテンツV
1V
2V
2V
1V
2V
2V
1V
3V
1V
1V
1を生成することができる。別の例として、第3のシーケンス415は、新たなシーケンスA
1A
2A
1A
2A
3A
1A
2A
1A
2A
3A
1A
2A
1A
2A
3A
1A
2A
1A
2A
3を生成するために、例えば、A
1A
2A
1A
2A
3などのオーディオクリップのシーケンスのシーケンスを含むことができ、対応するビデオクリップは、第3のオーディオビジュアルコンテンツV
1V
2V
1V
2V
3V
1V
2V
1V
2V
3V
1V
2V
1V
2V
3V
1V
2V
1V
2V
3を生成するために同様に配列され得る。
【0054】
いくつかの実施形態では、シーケンス内の特定のオーディオクリップおよび/またはビデオクリップを、シーケンスの一部となるように編集することができる。例えば、上記の例示において、オーディオクリップAKおよび/またはビデオクリップVJは、編集されたバージョンのオーディオクリップおよび/またはビデオクリップに対応してもよく、本明細書では簡略化のために同じ表記が使用される。例えば、第1のシーケンス405において、第1のオーディオビジュアルコンテンツV1V1V1V1V1V1V1V1は、ビデオクリップV1の1つまたは複数の編集バージョン(例えば、異なる画像テクスチャ、色合い、コントラスト、明るさ、色、シャープネス、解像度など)を含み得る。別の例として、第1のシーケンス405において、オーディオクリップA1A1A1A1A1A1のシーケンスは、オーディオクリップA1のリピッチバージョンであってもよい。
【0055】
注意すべきこととして、シーケンスの長さ、繰り返しのタイプ、オーディオクリップおよび/またはビデオクリップの1つまたは複数の異なるバージョンなどに基づいて、オーディオクリップおよび対応するビデオクリップのコレクションから複数のシーケンスが生成されてもよい。また、例えば、生成されたシーケンスは、リズム、オーディオ強度などを変更することにより、さらに修正することができる。また、例えば、2つ以上の生成されたシーケンスをマージ、混合、および/または配列して、追加のシーケンスを生成してもよい。
【0056】
IV.ユーザインターフェースの例
図5は、例示的な実施形態による、例示的な制御インターフェース500を示す。いくつかの実施形態では、制御インターフェースは、複数のオーディオチャネルに対応する複数の選択可能なタブを含むことができ、複数の選択可能なタブのうちのタブをユーザが選択することにより、ユーザが選択したタブに対応するオーディオチャネル内のオーディオクリップまたはビデオクリップのうちの1つまたは複数と対話するための1つまたは複数のチャネルインターフェースへのユーザクセスが可能になる。制御インターフェース500は、このような1つまたは複数のオーディオチャネル用の選択可能なタブを含む。例えば、第1のオーディオチャネルCH1 505は、第1の初期コンテンツ(例えば、初期コンテンツ205)に関連付けられることがある。追加の選択可能なタブ、第2のオーディオチャネルCH2、第3のオーディオチャネルCH3、第4のオーディオチャネルCH4などは、追加の初期コンテンツに関連付けられてもよい。図示されるように、第1のオーディオチャネルCH1 505の選択可能タブが選択されたものとして表示される。選択可能なタブが選択されると、制御インターフェース500は、例えば、
図3を参照して説明したように、オーディオクリップのユーザ生成シーケンスを可能にするための様々なタブ、アイコンおよび/または機能を表示する。例えば、記録タブ「記録」510は、ユーザが新しいオーディオビジュアルコンテンツを記録することを可能にする。再生タブ「再生」515は、ユーザが新しいオーディオビジュアルコンテンツを再生することを可能にする。制御インターフェース500のトップチャネルインターフェースであるビデオチャネルインターフェース525の表示画面520は、新しいオーディオビジュアルコンテンツを表示することができる。
【0057】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、1つまたは複数の識別されたオーディオクリップに対応する1つまたは複数のアイコンを有するインターフェースを含む。オーディオクリップのユーザ生成シーケンスは、シーケンスを生成するために1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザの指示に基づいている。制御インターフェース500の下部チャネルインターフェースであるキーボードチャネルインターフェース530は、ユーザによるオーディオクリップのシーケンスの生成を可能にするために提供され得る。キーボードチャネルインターフェース530は、選択可能なキーの配列535を含むことができる。例えば、第1のキー540は第1のオーディオクリップに対応し得、第2のキーは第2のオーディオクリップに対応し得る等である。ユーザがキーを連続してタップすると、コントローラ170は、タップされたキーのシーケンスに対応するオーディオクリップのシーケンスを生成する。
【0058】
いくつかの実施形態では、1つまたは複数の識別されたオーディオクリップは、初期リズムを含む複数の打楽器音を含むことができ、コントローラ170は、複数の打楽器音の複数の修正バージョンを生成することができる。複数の修正バージョンは、初期リズムとは異なる修正リズムと関連付けることができる。いくつかの実施形態では、コントローラ170は、キーボードチャネルインターフェース530のキーを介して、複数の打楽器音の複数の修正バージョンを提供することができる。オーディオクリップのユーザ生成シーケンスは、複数の打楽器音の複数の修正バージョンに基づくことができる。例えば、ユーザがキーボードチャネルインターフェース530のキーを連続してタップすると、コントローラ170は、タップされたキーのシーケンスに対応するオーディオクリップのシーケンスを生成する。
【0059】
消去タブ「消去」545は、ユーザが1つまたは複数のタップを消去することを可能にし、それによって対応するオーディオクリップをシーケンスから消去する。前方矢印タブ550は、ユーザが、ビデオチャネルインターフェース525と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図6のパターンチャネルインターフェース635、
図7のミキサチャネルインターフェース720、
図8のマスタチャネルインターフェース820など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。同様に、前方矢印タブ555は、ユーザが、キーボードチャネルインターフェース530と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図6のキーボードチャネルインターフェース645(keyboard channel interface 645)、
図7のキーボードチャネルインターフェース765、
図8の機能チャネルインターフェース840など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。
【0060】
図6は、例示的な実施形態による、別の例示的な制御インターフェース600を示す。制御インターフェース600は、1つまたは複数のオーディオチャネル用の選択可能なタブを含む。例えば、第2のオーディオチャネルCH2 605は、第2の初期コンテンツ(例えば、初期コンテンツ205とは異なる)に関連付けられることがある。追加の選択可能なタブ、第1のオーディオチャネルCH1、第3のオーディオチャネルCH3、第4のオーディオチャネルCH4などは、追加の初期コンテンツに関連付けられてもよい。図示されるように、第2のオーディオチャネルCH2 605の選択可能タブは、選択されたものとして表示される。選択可能なタブが選択されると、制御インターフェース600は、例えば、
図3を参照して説明したように、オーディオクリップのユーザ生成シーケンスを可能にするための様々なタブ、アイコンおよび/または機能を表示する。例えば、記録タブ「記録」610は、ユーザが新しいオーディオビジュアルコンテンツを記録することを可能にする。再生タブ「再生」615は、ユーザが新しいオーディオビジュアルコンテンツを再生することを可能にする。
【0061】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含むことができ、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、ユーザが1つまたは複数のシーケンスをつないで新しいシーケンスを生成することを可能にする選択可能なオプションをさらに含む。例えば、制御インターフェース600のトップチャネルインターフェースであるパターンチャネルインターフェース635は、ユーザが1つまたは複数の生成されたシーケンスに基づいてパターンを生成することを可能にする。選択可能な番号付きアイコンの配列620は、ユーザがシーケンスのシーケンス(例えば、
図4の第3のシーケンス415)を選択することを可能にし得る。例えば、配列620の「1」~「16」とラベル付けされた選択可能なアイコンは、例示の目的で表示されている。配列620のこのような各アイコンは、生成されたシーケンスに関連付けられ得る。ユーザは、1つまたは複数のシーケンスを選択することができ、シーケンスの概略表現が、拍動の対応する間隔と共に表示され得る。例えば、第1のシーケンス625(例えば、
図5の第1のオーディオチャネルCH1 505に対応する)の第1の概略表現、第2のシーケンス630(例えば、第2のオーディオチャネルCH2 605に対応する)の第2の概略表現などが、パターンチャネルインターフェース635に表示されてもよい。選択可能なタブ「つなぐ」640は、ユーザが第1のシーケンス625、第2のシーケンス630などをつないで新たなオーディオシーケンスを形成することを可能にすることができる。
【0062】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含むことができ、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、ユーザが1つまたは複数のシーケンスをミックスして新しいオーディオトラックを生成することを可能にする選択可能なオプションをさらに含む。例えば、パターンチャネルインターフェース635は、第1のオーディオチャネルCH1 505、第2のオーディオチャネルCH2 605などに対応する1つまたは複数の識別されたオーディオクリップのミキシングを可能にすることによって、ユーザ生成パターンを可能にするように構成することができる。
【0063】
ユーザがオーディオシーケンスのオーディオ特性を修正できるようにするために、制御インターフェース600の下部チャネルインターフェースであるサウンドチャネルインターフェース645を提供することができる。サウンドチャネルインターフェース645は、ユーザがオーディオシーケンスのオーディオ特性を修正するために実行された、1つまたは複数の編集を消去することを可能にするために、消去タブ「消去」650を含むことができる。いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、一対の座標軸を表示するインターフェースを含むことができ、横軸は、ユーザ生成シーケンスに対する複数のピッチ調整に対応し、縦軸は、ユーザ生成シーケンスに対する複数の同時に調整可能なオーディオフィルタ調整に対応する。例えば、ディスプレイ655は、一対の座標軸をユーザ調整可能アイコン660で表示することができる。ユーザ調整可能アイコン660を横軸に沿って移動させると、ユーザ生成シーケンスにピッチ調整665を適用させることができる(例えば、ユーザ調整可能アイコン660が横軸に沿って左から右に移動するにつれてピッチが増加する)。縦軸に沿ってユーザ調整可能アイコン660を移動させると、ユーザ生成シーケンスにフィルタ調整670を適用することができる(例えば、ユーザ調整可能アイコン660が縦軸に沿って下から上に移動するにつれて、フィルタが開く)。本明細書で使用する「フィルタ」という用語は、一般に、周波数に基づく増幅回路を指す。例えば、フィルタは、ローパスフィルタ、ハイパスフィルタ、オールパスフィルタ、バンドパスフィルタなどであり得る。
【0064】
後方矢印タブ675は、ユーザが、サウンドチャネルインターフェース645と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のキーボードチャネルインターフェース530)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。同様に、前方矢印タブ680は、ユーザが、サウンドチャネルインターフェース645と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図7のキーボードチャネルインターフェース765、
図8の機能チャネルインターフェース840など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。
【0065】
後方矢印タブ685は、ユーザが、パターンチャネルインターフェース635と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のビデオチャネルインターフェース525)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。同様に、前方矢印タブ680は、ユーザが、パターンチャネルインターフェース635と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図7のミキサチャネルインターフェース720、
図8のマスタチャネルインターフェース820など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。
【0066】
図7は、例示的な実施形態による、別の例示的な制御インターフェース700を示す。制御インターフェース700は、1つまたは複数のオーディオチャネル用の選択可能なタブを含む。例えば、第3のオーディオチャネルCH3 705は、別の初期コンテンツ(例えば、初期コンテンツ205とは異なる)に関連付けられ得る。追加の選択可能なタブ、第1のオーディオチャネルCH1、第2のオーディオチャネルCH2、第4のオーディオチャネルCH4などは、追加の初期コンテンツに関連付けられてもよい。図示されるように、第3のオーディオチャネルCH3 705の選択可能タブが選択されたものとして表示される。選択可能なタブが選択されると、制御インターフェース700は、例えば
図3を参照して説明したように、オーディオクリップのユーザ生成シーケンスを可能にするための様々なタブ、アイコンおよび/または機能を表示する。例えば、記録タブ「記録」710は、ユーザが新しいオーディオビジュアルコンテンツを記録することを可能にする。再生タブ「再生」715は、ユーザが新しいオーディオビジュアルコンテンツを再生することを可能にする。
【0067】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のオーディオチャネルのための複数のそれぞれの音量制御を表示するインターフェースを含むことができる。複数のそれぞれの音量制御は、ユーザが複数のオーディオチャネルの各々の音量設定を同時に制御することを可能にすることができる。例えば、制御インターフェース700のトップチャネルインターフェースであるミキサチャネルインターフェース720は、ユーザがオーディオチャネルCH1、CH2、CH3、およびCH4の音量レベル725を同時に調整することを可能にするために提供され得る。例えば、第1の音量制御730は、第1のオーディオチャネルCH1に対応する第1の生成されたシーケンスの音量設定を調整するように構成することができ、第2の音量制御735は、第2のオーディオチャネルCH2に対応する第2の生成されたシーケンスの音量設定を調整するように構成することができ、第3の音量制御740は、第3のオーディオチャネルCH3に対応する第3の生成されたシーケンスの音量設定を調整するように構成することができ、第4の音量制御745は、第4のオーディオチャネルCH4に対応する第4の生成されたシーケンスの音量設定を調整するように構成することができる。各音量制御は、ユーザが対応するオーディオチャネルをミュート755することを可能にするそれぞれのミュートアイコン750と関連付けることができる。例えば、第1の音量制御730の下に表示されたミュートアイコンをユーザが選択すると、第1のオーディオチャネルCH1などに対応する、第1の生成されたシーケンスのオーディオをミュートすることができる。
【0068】
ユーザがオーディオクリップ内の音符を別の音符にリピッチすることを可能にするために、制御インターフェース700の下部チャネルインターフェースであるキーボードチャネルインターフェース765を提供することができる。キーボードチャネルインターフェース765は、消去タブ「消去」770を含み、ユーザが音符をリピッチするために実行された、1つまたは複数の編集を消去できるようにすることができる。いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、音符の複数のリピッチバージョンに対応する1つまたは複数のアイコンを有するインターフェースを含むことができる。例えば、キーボードチャネルインターフェース765は、ユーザが音符のリピッチバージョンに基づいて1つまたは複数のシーケンスを生成することを可能にする。選択可能なラベル付きアイコンの配列760は、ユーザが音符のリピッチバージョンのシーケンスを選択することを可能にすることができる。配列760のそのような各アイコンは、異なる音符に関連付けることができる。例えば、配列760の「ド」、「レ」、「ミ」、「ファ」、「ソ」、「ラ」、および「シ」とラベル付けされた選択可能なアイコンは、例示の目的で表示される。ユーザは、配列760の1つまたは複数の選択可能なアイコンを連続して選択することができ、コントローラ170は、対応する音符のリピッチバージョンに基づいてシーケンス(例えば、
図4の第1のシーケンス405)を生成することができる。
【0069】
後方矢印タブ775は、ユーザが、キーボードチャネルインターフェース765と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のキーボードチャネルインターフェース530、
図6のサウンドチャネルインターフェース645など)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。同様に、前方矢印タブ780は、ユーザが、キーボードチャネルインターフェース765と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図8の機能チャネルインターフェース840など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。
【0070】
後方矢印タブ785は、ユーザが、ミキサチャネルインターフェース720と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のビデオチャネルインターフェース525、
図6のパターンチャネルインターフェース635など)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。同様に、前方矢印タブ790は、ユーザが、ミキサチャネルインターフェース720と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図8のマスタチャネルインターフェース820など)とを(例えば、左にスワイプすることによって)切り替えることを可能にする。
【0071】
図8は、例示的な実施形態による、別の例示的な制御インターフェース800を示す。制御インターフェース800は、1つまたは複数のオーディオチャネル用の選択可能なタブを含む。例えば、第4のオーディオチャネルCH4 805は、別の初期コンテンツに関連付けられ得る。追加の選択可能なタブ、第1のオーディオチャネルCH1、第2のオーディオチャネルCH2、第3のオーディオチャネルCH3などは、追加の初期コンテンツに関連付けられてもよい。図示されるように、第4のオーディオチャネルCH4 805の選択可能タブが選択されたものとして表示される。選択可能なタブが選択されると、制御インターフェース800は、例えば、
図3を参照して説明したように、オーディオクリップのユーザ生成シーケンスを可能にするための様々なタブ、アイコン、および/または機能を表示する。例えば、記録タブ「記録」810は、ユーザが新しいオーディオビジュアルコンテンツを記録することを可能にする。再生タブ「再生」815は、ユーザが新しいオーディオビジュアルコンテンツを再生することを可能にする。
【0072】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、オーディオクリップのシーケンス内のオーディオクリップについて、テンポを調整する第1のツール、スイングを調整する第2のツール、およびルート音符を調整する第3のツールを表示するインターフェースを含むことができる。例えば、制御インターフェース800のトップチャネルインターフェースであるマスタチャネルインターフェース820を提供することができる。マスタチャネルインターフェース820は、テンポを調整する第1のツール825、スイングを調整する第2のツール830、およびルート音符を調整する第3のツール835を含むことができる。例えば、テンポは拍/分(BPM)として測定することができる。図示されているように、第1のツール825は、打楽器音のシーケンスが120BPMで演奏されていることを示す「120」を表示する。「スイング」という用語は、1拍における2パートのパルス分割において、第1の音符と第2の音符の連続する音符を交互に長くしたり短くしたりするリズム調整の技術を指す。いくつかの実施形態では、第1の音符は第2の音符の2倍の長さであってもよい。また、例えば、スイングリズムは、音符が準3連符のリズムで不揃いの8分音符として演奏される、スイングされた8分音符を含むことがある。生成されたシーケンスには、追加的な、および/または代替的なスイングリズムが適用されてもよい。ルート音符は、例えば、音階A、B、C、D、E、F、およびGのマイナー、メジャー、および/またはフラットバージョンなどの音階の設定であってもよい。
【0073】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のビデオ編集アイコンを表示するインターフェースを含むことができる。複数のビデオ編集アイコンのうちのビデオ編集アイコンをユーザが選択すると、ビデオクリップのシーケンスのビデオクリップにビデオ編集機能を適用することができる。例えば、ユーザがビデオクリップのシーケンスのビデオクリップにビデオ編集機能を適用することを可能にするために、制御インターフェース800の下部チャネルインターフェースである機能チャネルインターフェース840を提供することができる。機能チャネルインターフェース840は、各オーディオチャネルCH1、CH2、CH3、およびCH4に対応する選択可能なアイコンを含むことができる。例えば、第1のオーディオチャネルCHI(first audio channel CHI)は、その真上に表示される選択可能なアイコンと関連付けられることがある。第1の選択可能アイコン845はテープを調整するように構成されてもよく、第2の選択可能アイコン850はフィルタを調整するように構成されてもよく、第3の選択可能アイコン855はグリッチを調整するように構成されてもよく、第4の選択可能アイコン860はスペースを調整するように構成されてもよい。同様の調整可能なアイコンは、各オーディオチャネルに提供されてもよく、一例の配置では、それぞれのオーディオチャネルの選択可能なアイコンの上に垂直に表示されてもよい。機能チャネルインターフェース840は、ユーザがビデオクリップに適用された1つまたは複数のビデオ編集機能を消去できるように、消去タブ「消去」865を含むことができる。
【0074】
後方矢印タブ870は、ユーザが、機能チャネルインターフェース840と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のキーボードチャネルインターフェース530、
図6のサウンドチャネルインターフェース645、
図7のキーボードチャネルインターフェース765など)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。同様に、後方矢印タブ875は、ユーザが、マスタチャネルインターフェース820と、制御インターフェースの他の利用可能なチャネルインターフェース(例えば、
図5のビデオチャネルインターフェース525、
図6のパターンチャネルインターフェース635、
図7のミキサチャネルインターフェース720など)とを(例えば、右にスワイプすることによって)切り替えることを可能にする。
【0075】
一般に、本明細書で説明する1つまたは複数のチャネルインターフェース(例えば、
図5のキーボードチャネルインターフェース530、
図6のサウンドチャネルインターフェース645、
図7のキーボードチャネルインターフェース765、
図8の機能チャネルインターフェース840、
図5のビデオチャネルインターフェース525、
図6のパターンチャネルインターフェース635、
図7のミキサチャネルインターフェース720、
図8のマスタチャネルインターフェース820など)は、オーディオチャネル(例えば、第1のオーディオチャネルCH1、第2のオーディオチャネルCH2、第3のオーディオチャネルCH3、第4のオーディオチャネルCH4など)の各々に対して利用可能であり得る。追加の、および/または代替のチャネルインターフェースは、ユーザにさらなる編集能力を提供するように構成することができる。
【0076】
いくつかの実施形態では、新しいオーディオビジュアルコンテンツは、コンピューティングデバイス(例えば、コンピューティングデバイス100)を介して提供され得る。いくつかの実施形態では、新しいオーディオビジュアルコンテンツを提供することは、ソーシャルネットワーキングサイトへの新しいオーディオビジュアルコンテンツの自動アップロード、および/または他のユーザとの新しいオーディオビジュアルコンテンツの共有を可能にするための、ユーザが選択可能な仮想タブを提供することを含み得る。例えば、1つまたは複数のメディアアップロードサイトを表す選択可能なアイコンを提供することができ、制御インターフェース(例えば、1つまたは複数の制御インターフェース162)は、ユーザがそれぞれの選択可能なアイコンを選択することによって、新しいオーディオビジュアルコンテンツを1つまたは複数のメディアアップロードサイトに直接アップロードすることを可能にすることができる。
【0077】
V.ネットワーク環境の例
図9は、例示的な実施形態による、オーディオビジュアルコンテンツを作成するための例示的なネットワーク環境900を示す。ネットワーク環境900は、コンピューティングデバイス902、904、および906と、サーバ910と、記憶装置912とを含む。いくつかの態様では、ネットワーク環境900は、
図9に示されるものよりも多いまたは少ないコンピューティングデバイス(例えば、902~906)および/またはサーバ(例えば、910)を有することができる。
【0078】
コンピューティングデバイス902、904、および906の各々は、プロセッサ、メモリ、および通信能力を有する様々な形態の処理デバイスを表すことができる。コンピューティングデバイス902、904、および906は、互いに、サーバ910と、ならびに/または
図9に示されていない他のシステムおよびデバイスと通信することができる。非限定的な例として、処理デバイスは、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、ネットワークアプライアンス、カメラ、スマートフォン、拡張一般パケット無線サービス(EGPRS)携帯電話、メディアプレーヤ、ナビゲーションデバイス、電子メールデバイス、ゲーム機、有線/無線ヘッドホン/ヘッドセット、ウェアラブルデバイス、無線もしくは有線スピーカ、またはこれらの処理デバイスの任意の組合せあるいは他の処理デバイスを含むことができる。
【0079】
コンピューティングデバイス902、904、および906の各々は、望ましいオーディオ信号処理効果を達成するための組み込み制御インターフェースおよび/またはオーディオ処理アーキテクチャで構成され得る。例えば、1つまたは複数の制御インターフェースを含むアプリケーションは、クライアントアプリケーションとしてコンピューティングデバイス902、904、および906にインストールされてもよい。コンピューティングデバイス902、904、および906は、単一のユーザに関連付けられてもよい。キャプチャされたメディアコンテンツ、および/または新しいオーディオビジュアルコンテンツは、ネットワーク908を介してサーバ910に送信され、およびサーバ910から受信されてもよい。また、例えば、コンピューティングデバイス902、904、および906の各々は、1つまたは複数のマイクロフォン、1つまたは複数のスピーカ、1つまたは複数のセンサ(例えば、加速度計、ジャイロスコープ)、トランスデューサなどを含むことができる。
【0080】
ネットワーク908は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、セルラーネットワーク、または任意の数のモバイルクライアント、固定クライアント、およびサーバを接続するそれらの組合せなどのコンピュータネットワークであり得る。さらに、ネットワーク908は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スターバスネットワーク、ツリーネットワークまたは階層型ネットワークなどを含む、ネットワークトポロジの任意の1つまたは複数を含むことができるが、これらに限定されない。いくつかの態様では、各クライアント(例えば、コンピューティングデバイス902、904、および906)とサーバ(例えば、サーバ910)との間の通信は、仮想プライベートネットワーク(VPN)、セキュアシェル(SSH)トンネル、セキュアソケットレイヤ(SSL)通信、または他のセキュアネットワーク接続を介して起こり得る。いくつかの態様では、ネットワーク908は、企業ネットワーク(例えば、イントラネット)および1つまたは複数の無線アクセスポイントをさらに含み得る。
【0081】
サーバ910は、プロセッサおよびメモリを含むコンピュータサーバなどの単一のコンピューティングデバイスを表すことができる。プロセッサは、メモリに記憶されたコンピュータ命令を実行することができる。サーバ910は、ネットワーク908を介してクライアントデバイス(例えば、コンピューティングデバイス902、904、および906)上のクライアントアプリケーション(例えば、アプリケーション)と通信するように構成される。例えば、サーバ910は、ユーザがデバイスをコンピューティングデバイス902からコンピューティングデバイス906に切り替えたときに、新しいオーディオビジュアルコンテンツをコンピューティングデバイス902からコンピューティングデバイス906に送信することができる。1つまたは複数の実装では、コンピューティングデバイス902、コンピューティングデバイス904、コンピューティングデバイス906、またはサーバ910は、
図1に関して論じられるコンピューティングデバイス100の構成要素のすべてまたは一部であってもよく、またはそれらを含んでもよい。
【0082】
VI.推論/予測を生成するための機械学習方法の訓練
図10は、例示的な実施形態による、訓練された機械学習モデル1032の訓練段階1002および推論段階1004を示す
図1000である。いくつかの機械学習技術は、訓練データ内のパターンを認識し、訓練データ(内のパターン)に関する出力推論および/または予測を提供するように、訓練データの入力セット上で1つまたは複数の機械学習アルゴリズムを訓練することを含む。結果として得られる訓練された機械学習アルゴリズムは、訓練された機械学習モデルと呼ぶことができる。例えば、
図10は、1つまたは複数の機械学習アルゴリズム1020が訓練データ1010上で訓練され、訓練された機械学習モデル1032となる訓練段階1002を示す。次いで、推論段階1004中に、訓練された機械学習モデル1032は、入力データ1030および1つまたは複数の推論/予測要求1040(おそらく入力データ1030の一部として)を受信し、応答的に1つまたは複数の推論および/または予測1050を出力として提供することができる。
【0083】
このように、訓練された機械学習モデル1032は、1つまたは複数の機械学習アルゴリズム1020の1つまたは複数のモデルを含み得る。機械学習アルゴリズム1020は、人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、ベイズネットワーク、隠れマルコフモデル、マルコフ決定過程、ロジスティック回帰関数、サポートベクターマシン、適切な統計的機械学習アルゴリズム、および/または発見的機械学習システム)を含み得るが、これらに限定されない。機械学習アルゴリズム1020は、教師ありまたは教師なしであり得、オンライン学習およびオフライン学習の任意の適切な組合せを実装し得る。
【0084】
いくつかの例では、機械学習アルゴリズム1020および/または訓練された機械学習モデル1032は、グラフィック処理ユニット(GPU)、テンソル処理ユニット(TPU)、デジタル信号プロセッサ(DSP)、および/または特定用途向け集積回路(ASIC)などのオンデバイスコプロセッサを使用して高速化され得る。そのようなオンデバイスコプロセッサは、機械学習アルゴリズム1020および/または訓練された機械学習モデル1032を高速化するために使用され得る。いくつかの例では、訓練された機械学習モデル1032は、特定のコンピューティングデバイスに関する推論を提供するために、訓練され、常駐し、実行されることができ、および/またはその他の方法で特定のコンピューティングデバイスに関する推論を行うことができる。
【0085】
訓練段階1002の間、機械学習アルゴリズム1020は、教師なし、教師あり、半教師あり、および/または強化学習技術を使用して、訓練入力として少なくとも訓練データ1010を提供することによって訓練され得る。訓練データ1010は、オーディオトラックを含むビデオのコレクションを含むことができる。ビデオは、過渡ポイント、興味を引くオーディオクリップ、対応するビデオクリップ(開始点が過渡ポイントからオフセットされている可能性がある)などを識別するためにラベル付けされ得る。教師なし学習は、訓練データ1010の一部(またはすべて)を機械学習アルゴリズム1020に提供し、機械学習アルゴリズム1020が、提供された訓練データ1010の一部(またはすべて)に基づいて1つまたは複数の出力推論を決定することを含む。教師あり学習は、訓練データ1010の一部を機械学習アルゴリズム1020に提供することを含み、機械学習アルゴリズム1020は、提供された訓練データ1010の一部に基づいて1つまたは複数の出力推論を決定し、出力推論は、訓練データ1010に関連する正しい結果に基づいて受け入れられるか、または修正される。いくつかの例では、機械学習アルゴリズム1020の教師あり学習は、訓練入力に対するルールのセットおよび/またはラベルのセットによって支配され得、ルールのセットおよび/またはラベルのセットは、機械学習アルゴリズム1020の推論を修正するために使用され得る。
【0086】
半教師あり学習は、訓練データ1010のすべてではないが一部について正しい結果を得ることを含む。半教師あり学習中、正しい結果を持つ訓練データ1010の一部に対して教師あり学習が使用され、正しい結果を持たない訓練データ1010の一部に対して教師なし学習が使用される。強化学習は、機械学習アルゴリズム1020が事前の推論に関する報酬信号を受け取ることを含み、報酬信号は数値であり得る。強化学習中、機械学習アルゴリズム1020は、推論を出力し、応答として報酬信号を受信することができ、機械学習アルゴリズム1020は、報酬信号の数値を最大化しようとするように構成される。いくつかの例では、強化学習はまた、時間にわたって報酬信号によって提供される数値の期待される合計を表す数値を提供する値関数を利用する。いくつかの例では、機械学習アルゴリズム1020および/または訓練された機械学習モデル1032は、インクリメンタル学習およびカリキュラム学習を含むがこれらに限定されない、他の機械学習技術を使用して訓練され得る。
【0087】
いくつかの例では、機械学習アルゴリズム1020および/または訓練された機械学習モデル1032は、転移学習技術を使用することができる。例えば、転移学習技術は、訓練された機械学習モデル1032が、1つのデータセットで事前に訓練され、訓練データ1010を使用して追加的に訓練されることを含むことができる。より詳細には、機械学習アルゴリズム1020は、1つまたは複数のコンピューティングデバイスからのデータで事前に訓練することができ、結果として訓練された機械学習モデルは、特定のコンピューティングデバイスに提供することができ、特定のコンピューティングデバイスは、推論段階1004中に、訓練された機械学習モデルを実行することを意図される。次いで、訓練段階1002中、事前訓練された機械学習モデルは、訓練データ1010を使用して追加的に訓練することができ、訓練データ1010は、特定のコンピューティングデバイスのカーネルデータおよび非カーネルデータから導出され得る。特定のコンピューティングデバイスのデータの訓練データ1010を使用する、機械学習アルゴリズム1020および/または事前訓練された機械学習モデルのこのさらなる訓練は、教師あり学習または教師なし学習のいずれかを使用して実行され得る。機械学習アルゴリズム1020および/または事前訓練された機械学習モデルが、少なくとも訓練データ1010で訓練されると、訓練段階1002を完了することができる。訓練された結果の機械学習モデルは、訓練された機械学習モデル1032の少なくとも1つとして利用することができる。
【0088】
特に、訓練段階1002が完了すると、訓練された機械学習モデル1032は、コンピューティングデバイス上にまだない場合、コンピューティングデバイスに提供され得る。推論段階1004は、訓練された機械学習モデル1032が特定のコンピューティングデバイスに提供された後に開始することができる。
【0089】
推論段階1004の間、訓練された機械学習モデル1032は、入力データ1030を受信し、入力データ1030に関する1つまたは複数の対応する推論および/または予測1050を生成および出力することができる。このように、入力データ1030は、対応する推論および/または予測1050をカーネルコンポーネントおよび非カーネルコンポーネントに提供するための、訓練された機械学習モデル1032への入力として使用され得る。例えば、訓練された機械学習モデル1032は、1つまたは複数の推論/予測要求1040に応答して、推論および/または予測1050を生成することができる。いくつかの例では、訓練された機械学習モデル1032は、他のソフトウェアの一部によって実行され得る。例えば、訓練された機械学習モデル1032は、要求に応じて推論および/または予測を提供するために容易に利用可能であるように、推論または予測デーモンによって実行され得る。入力データ1030は、訓練された機械学習モデル1032を実行する特定のコンピューティングデバイスからのデータ、および/または特定のコンピューティングデバイス以外の1つまたは複数のコンピューティングデバイスからの入力データを含み得る。
【0090】
入力データ1030は、初期コンテンツ(例えば、初期コンテンツ205)および/または初期コンテンツ(例えば、初期コンテンツ205)に対応するオーディオトラック(例えば、オーディオトラック210)を含み得る。
【0091】
推論および/または予測1050は、出力過渡ポイント(例えば、
図2の過渡ポイントT
1、T
2、T
3)、オーディオクリップ(例えば、
図2のオーディオクリップA
1、A
2、A
3)、および/または対応するビデオクリップ(例えば、
図2のビデオクリップV
1、V
2、V
3)、および/または入力データ1030(および訓練データ1010)上で動作する訓練された機械学習モデル1032によって生成される他の出力データを含み得る。いくつかの例では、訓練された機械学習モデル1032は、出力推論および/または予測1050を入力フィードバック1060として使用することができる。訓練された機械学習モデル1032は、新しい推論を生成するための入力として、過去の推論に依存することもできる。
【0092】
いくつかの例では、単一のコンピューティングデバイス(「CD_SOLO」)は、おそらく機械学習モデルを訓練した後に、機械学習モデルの訓練されたバージョンを含むことができる。次に、コンピューティングデバイスCD_SOLOは、過渡ポイントを識別し、1つまたは複数のオーディオクリップを識別し、および/または入力オーディオビジュアルコンテンツから対応するビデオクリップを抽出する要求を受信し、機械学習モデルの訓練されたバージョンを使用して、過渡ポイントを識別し、1つまたは複数のオーディオクリップを識別し、および/または対応するビデオクリップを抽出することができる。
【0093】
いくつかの例では、出力を提供するために、第1のクライアントデバイス(「CD_CLI」)およびサーバデバイス(「CD_SRV」)などの2つ以上のコンピューティングデバイスを使用することができる。例えば、第1のコンピューティングデバイスCD_CLIは、過渡ポイントを識別し、1つまたは複数のオーディオクリップを識別し、および/または対応するビデオクリップを入力オーディオビジュアルコンテンツから抽出する要求を生成し、第2のコンピューティングデバイスCD_SRVに送信することができる。次いで、CD_SRVは、機械学習モデルの訓練されたバージョンを使用して、過渡ポイントを識別し、1つまたは複数のオーディオクリップを識別し、および/または対応するビデオクリップを抽出することができる。次いで、要求に対する応答を受信すると、CD_CLIは、1つまたは複数の制御インターフェース(例えば、制御インターフェース162)を介して、要求された出力を提供することができる。
【0094】
VII.動作方法の例
図11は、オペレーティングシステムによって提供されるオーディオ処理ステージの使用に関連する動作のフローチャート1100を示す。この動作は、コンピューティングデバイス100、902~906、または先行する例示的な実施形態の他のもののいずれかによって実行され、および/またはこれらと共に使用され得る。
【0095】
ブロック1110は、コンピューティングデバイスのコンテンツ生成コンポーネントが、ビデオ、およびビデオに関連付けられたオーディオを含む初期コンテンツをキャプチャすることを含む。
【0096】
ブロック1120は、オーディオ内の1つまたは複数の過渡ポイントに基づいて、ビデオに関連付けられたオーディオ内の1つまたは複数のオーディオクリップを識別することを含む。
【0097】
ブロック1130は、1つまたは複数の識別されたオーディオクリップの各オーディオクリップについて、初期コンテンツのビデオから対応するビデオクリップを抽出することを含む。
【0098】
ブロック1140は、コンピューティングデバイスのグラフィカルユーザインターフェースを介して、オーディオクリップのユーザ生成シーケンスを可能にする制御インターフェースを提供することを含み、オーディオクリップのシーケンス内の各オーディオクリップは、1つまたは複数の識別されたオーディオクリップから選択される。
【0099】
ブロック1150は、オーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップのシーケンスを含む新しいオーディオビジュアルコンテンツを生成することを含み、ビデオクリップのシーケンス内の各ビデオクリップは、オーディオクリップのユーザ生成シーケンス内の各オーディオクリップに対して抽出された対応するビデオクリップである。
【0100】
ブロック1160は、制御インターフェースが、新しいオーディオビジュアルコンテンツを提供することを含む。
【0101】
いくつかの実施形態では、1つまたは複数の識別されたオーディオクリップは、初期リズムを含む複数の打楽器音を含む。このような実施形態は、複数の打楽器音の複数の修正バージョンを生成することを含み、複数の修正バージョンは、初期リズムとは異なる修正リズムに関連付けられる。このような実施形態はまた、制御インターフェースを介して、複数の打楽器音の複数の修正バージョンを提供することを含む。オーディオクリップのユーザ生成シーケンスは、複数の打楽器音の複数の修正バージョンに基づくことができる。
【0102】
いくつかの実施形態では、制御インターフェースは、複数のオーディオチャネルに対応する複数の選択可能なタブを含む。複数の選択可能なタブのうちのタブをユーザが選択することによって、ユーザが選択したタブに対応するオーディオチャネル内のオーディオクリップまたはビデオクリップのうちの1つまたは複数と対話するための1つまたは複数のチャネルインターフェースへのユーザアクセスを可能にすることができる。
【0103】
いくつかの実施形態では、複数のオーディオチャネルは、メロディ音、打楽器音、楽曲、楽器音、無音、またはボーカルフレーズのうちの1つまたは複数に対応するオーディオクリップを含む。
【0104】
いくつかの実施形態では、複数のオーディオチャネルの各オーディオチャネルは、初期コンテンツとは異なる所与のオーディオビジュアルコンテンツに関連付けることができる。
【0105】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、1つまたは複数の識別されたオーディオクリップに対応する1つまたは複数のアイコンを有するインターフェースを含む。オーディオクリップのユーザ生成シーケンスは、シーケンスを生成するために1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するというユーザの指示に基づくことができる。
【0106】
いくつかの実施形態では、1つまたは複数の識別されたオーディオクリップのオーディオクリップは、音符を含む。このような実施形態は、音符の複数のリピッチバージョンを生成することを含む。1つまたは複数のチャネルインターフェースは、音符の複数のリピッチバージョンに対応する1つまたは複数のアイコンを有するインターフェースを含むことができる。オーディオクリップのユーザ生成シーケンスは、シーケンスを生成するために1つまたは複数のアイコンのうちの少なくとも1つのアイコンを選択するユーザの指示に基づくことができる。
【0107】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含み、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、1つまたは複数のチャネルインターフェースは、ユーザが1つまたは複数のシーケンスをつないで新しいシーケンスを生成することを可能にする選択可能なオプションをさらに含む。
【0108】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のユーザ生成シーケンスを表示するインターフェースを含み、複数のユーザ生成シーケンスの各シーケンスは複数のオーディオチャネルに対応し、1つまたは複数のチャネルインターフェースは、ユーザが1つまたは複数のシーケンスをミックスして新しいオーディオトラックを生成することを可能にする選択可能なオプションをさらに含む。
【0109】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、一対の座標軸を表示するインターフェースを含む。横軸は、ユーザ生成シーケンスに対する複数のピッチ調整に対応することができ、縦軸は、ユーザ生成シーケンスに対する複数の同時に調整可能なオーディオフィルタ調整に対応することができる。
【0110】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のオーディオチャネルのための複数のそれぞれの音量制御を表示するインターフェースを含む。複数のそれぞれの音量制御は、ユーザが複数のオーディオチャネルの各々の音量設定を同時に制御することを可能にすることができる。
【0111】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、オーディオクリップのシーケンス内のオーディオクリップについて、テンポを調整する第1のツール、スイングを調整する第2のツール、およびルート音符を調整する第3のツールを表示するインターフェースを含む。
【0112】
いくつかの実施形態では、1つまたは複数のチャネルインターフェースは、複数のビデオ編集アイコンを表示するインターフェースを含む。複数のビデオ編集アイコンのうちのビデオ編集アイコンのユーザ選択により、ビデオクリップのシーケンスのビデオクリップへのビデオ編集機能の適用を可能にすることができる。
【0113】
いくつかの実施形態は、第2の初期コンテンツ内の1つまたは複数の第2の過渡ポイントに基づいて、第2の初期コンテンツ内の1つまたは複数の第2のオーディオクリップを識別することを含む。これらの実施形態は、制御インターフェースを介して、第2のオーディオクリップの第2のユーザ生成シーケンスを有効にすることも含み、第2のオーディオクリップのシーケンス内の各第2のオーディオクリップは、1つまたは複数の識別された第2のオーディオクリップから選択される。新しいオーディオビジュアルコンテンツの生成は、オーディオクリップのユーザ生成シーケンスおよび第2のオーディオクリップのユーザ生成シーケンスに対応するようにビデオクリップの第2のシーケンスを生成することを含む。
【0114】
いくつかの実施形態では、コンピューティングデバイスは、画像キャプチャデバイスを含むことができる。初期コンテンツは、画像キャプチャデバイスによってキャプチャされ得る。
【0115】
いくつかの実施形態では、初期コンテンツ内の過渡ポイントは、過渡位置、一時停止、またはカットのうちの1つまたは複数を含む。
【0116】
いくつかの実施形態では、初期コンテンツ内の1つまたは複数のオーディオクリップを識別することは、初期コンテンツのサウンドトラックにおいて、メロディ音、打楽器音、楽曲、楽器音、オーディオ強度の変化、無音、またはボーカルフレーズのうちの1つまたは複数を識別することを含む。
【0117】
いくつかの実施形態では、初期コンテンツ内の1つまたは複数のオーディオクリップを識別することは、訓練された機械学習モデルによって実行することができる。これらの実施形態のいくつかは、訓練された機械学習モデルによって、1つまたは複数のオーディオクリップのオーディオクリップについての分類を識別することを含む。このような実施形態は、分類に基づいて、オーディオクリップに関連付けられた視覚的ラベルを生成することをさらに含む。これらの実施形態は、制御インターフェースを介して、オーディオクリップに対応する選択可能なアイコン上に視覚的ラベルを表示することも含む。
【0118】
いくつかの実施形態は、コンピューティングデバイスを介して新しいオーディオビジュアルコンテンツを提供することを含む。このような実施形態では、新しいオーディオビジュアルコンテンツを提供することは、ソーシャルネットワーキングサイトへの新しいオーディオビジュアルコンテンツの自動アップロードを可能にするための、ユーザが選択可能な仮想タブを提供することを含むことができる。
【0119】
上述の特徴およびアプリケーションの多くは、コンピュータ可読記憶媒体(コンピュータ可読媒体とも呼ばれる)に記録された命令セットとして指定されるソフトウェアプロセスとして実装される。これらの命令が1つまたは複数の処理ユニット(例えば、1つまたは複数のプロセッサ、プロセッサのコア、または他の処理ユニット)によって実行されると、命令に示される動作を処理ユニットに実行させる。コンピュータ可読媒体の例としては、磁気媒体、光学媒体、電子媒体などが挙げられるが、これらに限定されない。コンピュータ可読媒体には、無線または有線接続で通過する搬送波および電子信号は含まれない。
【0120】
本明細書において、「ソフトウェア」という用語は、例えば、読み取り専用メモリもしくは他の形態の電子記憶装置に常駐するファームウェア、またはプロセッサによる処理のためにメモリに読み込むことができる磁気記憶装置、光学装置、ソリッドステート等に記憶され得るアプリケーションを含むことを意味する。また、いくつかの実装では、主題開示の複数のソフトウェア態様は、主題開示の別個のソフトウェア態様のままでありながら、より大きなプログラムのサブパートとして実装され得る。いくつかの実施態様では、複数のソフトウェア態様はまた、別個のプログラムとして実装され得る。最後に、本明細書で説明するソフトウェアの態様を一緒に実装する別個のプログラムの任意の組合せは、本主題の開示の範囲内である。いくつかの実装では、ソフトウェアプログラムは、1つまたは複数の電子システム上で動作するようにインストールされると、ソフトウェアプログラムの動作を実施および実行する1つまたは複数の特定のマシン実装を定義する。
【0121】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られている)は、コンパイル言語またはインタプリタ言語、宣言型言語または手続き型言語などを含む、任意の形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、オブジェクト、もしくはコンピューティング環境での使用に適した他のユニットとして含む、任意の形式で配備することができる。コンピュータプログラムは、ファイルシステム内のファイルに対応してもよいが、対応する必要はない。プログラムは、他のプログラムまたはデータ(例えば、マークアップ言語ドキュメントに格納された1つまたは複数のスクリプト)を保持するファイルの一部、問題のプログラム専用の単一のファイル、または複数の調整されたファイル(例えば、1つまたは複数のモジュール、サブプログラム、またはコードの一部を格納するファイル)に格納することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに配置された複数のコンピュータ、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配置することもできる。
【0122】
上述したこれらの機能は、デジタル電子回路、コンピュータソフトウェア、ファームウェア、またはハードウェアに実装することができる。本技術は、1つまたは複数のコンピュータプログラム製品を使用して実装することができる。プログラマブルプロセッサおよびコンピュータは、モバイルデバイスに含めることも、モバイルデバイスとしてパッケージ化することもできる。プロセスおよび論理フローは、1つまたは複数のプログラマブルプロセッサおよび1つまたは複数のプログラマブル論理回路によって実行することができる。汎用および特殊用途のコンピューティングデバイスと記憶装置は、通信ネットワークを介して相互接続することができる。
【0123】
いくつかの実装は、電子部品、例えば、機械可読媒体またはコンピュータ可読媒体(代替的に、コンピュータ可読記憶媒体、機械可読媒体、または機械可読記憶媒体と呼ばれる)にコンピュータプログラム命令を記憶するマイクロプロセッサ、記憶装置、およびメモリを含む。このようなコンピュータ可読媒体のいくつかの例は、RAM、ROM、読み取り専用コンパクトディスク(CD-ROM)、記録可能コンパクトディスク(CD-R)、書き換え可能コンパクトディスク(CD-RW)、読み取り専用デジタル多用途ディスク(例えば、DVD-ROM、2層DVD-ROM)、様々な記録可能/書き換え可能DVD(例えば、DVD-RAM、DVD-RW、DVD+RWなど)、フラッシュメモリ(例えば、SDカード、ミニSDカード、マイクロSDカードなど)、磁気またはソリッドステートハードドライブ、読み取り専用および記録可能なBlu-Ray(登録商標)ディスク、超高密度光ディスク、任意の他の光学または磁気媒体、ならびにフロッピーディスクを含む。コンピュータ可読媒体は、少なくとも1つの処理ユニットによって実行可能であり、様々な動作を実行するための命令セットを含むコンピュータプログラムを記憶することができる。コンピュータプログラムまたはコンピュータコードの例は、例えばコンパイラによって生成されるマシンコード、およびインタプリタを使用してコンピュータ、電子部品、またはマイクロプロセッサによって実行される高位レベルのコードを含むファイルを含む。
【0124】
上記の議論は、主に、ソフトウェアを実行するマイクロプロセッサまたはマルチコアプロセッサに言及しているが、いくつかの実装は、1つまたは複数の集積回路、例えば、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)によって実行される。いくつかの実装では、このような集積回路は、回路自体に記憶された命令を実行する。
【0125】
本明細書および本出願の任意の請求項で使用される場合、「コンピュータ」、「サーバ」、「プロセッサ」、および「メモリ」という用語はすべて、電子デバイスまたは他の技術デバイスを指す。これらの用語は、人または人のグループを除外する。本明細書の目的のために、表示または表示するという用語は、電子デバイス上に表示することを意味する。本明細書および本出願の任意の請求項において使用される場合、「(1つの)コンピュータ可読媒体」および「(複数の)コンピュータ可読媒体」という用語は、コンピュータによって読み取り可能な形式で情報を記憶する有形で物理的な物体に完全に限定される。これらの用語は、無線信号、有線ダウンロード信号、および任意の他の一時的信号を除外する。
【0126】
ユーザとの対話を提供するために、本明細書に記載の主題の実装は、ユーザに情報を表示するための表示デバイス、例えばCRTまたはLCDモニタと、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックなど、任意の形式の感覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形式で受信することができる。加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、デバイスからドキュメントを受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0127】
この明細書に説明された主題の実施形態は、例えばデータサーバとしてなどのバックエンドコンポーネント、または、例えばアプリケーションサーバなどのミドルウェアコンポーネントを含む、または、例えばユーザがこの明細書に説明された主題の実装とやりとりできるようにするグラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータなどのフロントエンドコンポーネントを含む、または、1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステムにおいて実装され得る。当該システムのコンポーネントは、例えば通信ネットワークなどの任意の形態または媒体のデジタルデータ通信によって相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、インターネットワーク(例えばインターネット)、ならびに、ピアツーピアネットワーク(例えばアドホックピアツーピアネットワーク)を含む。
【0128】
コンピューティングシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に互いに離れた場所にあり、通常、通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行されるコンピュータプログラムによって生じ、互いにクライアントとサーバの関係を有する。いくつかの実施形態では、サーバは、データ(例えば、HTMLページ)をクライアントデバイスに送信する(例えば、クライアントデバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で)。クライアントデバイスで生成されたデータ(例えば、ユーザとの対話の結果)は、サーバでクライアントデバイスから受信することができる。
【0129】
開示されたプロセスにおけるステップの任意の特定の順序または階層は、例示的なアプローチの例示であることを理解される。設計の好みに基づいて、プロセスにおけるステップの特定の順序または階層が再配置されてもよく、または図示されたすべてのステップが実行されてもよいことが理解される。ステップのいくつかは同時に実行されてもよい。例えば、ある状況では、マルチタスクおよび並列処理が有利な場合がある。さらに、上述した実施形態における様々なシステム構成要素の分離は、すべての実施形態においてそのような分離が必要であると理解されるべきではなく、記載されたプログラム構成要素およびシステムは、一般に、単一のソフトウェア製品において一緒に統合され得るか、または複数のソフトウェア製品にパッケージ化され得ることが理解されるべきである。
【0130】
これまでの説明は、当業者であれば誰でも本明細書に記載された様々な態様を実践できるようにするために提供されたものである。これらの態様に対する様々な変更は、当業者には容易に明らかであり、本明細書で定義された一般的な原理は、他の態様にも適用することができる。したがって、特許請求の範囲は、本明細書に示される態様に限定されることを意図するものではないが、単数形の要素への言及が、特にそのように記載されない限り、「1つまたは1つのみ」を意味することを意図するものではなく、むしろ「1つまたは複数」を意味する、特許請求の範囲の文言と一致する全範囲が与えられる。特に別段に記載されない限り、「いくつかの」という用語は1つまたは複数を指す。男性代名詞(例えば、彼の)は、女性代名詞および中性代名詞(例えば、彼女のおよびその)を含み、逆もまた同様である。見出しおよび小見出しがある場合は、便宜上使用されているだけであり、主題の開示を限定するものではない。
【0131】
本明細書で使用される場合、一連の項目に先行する「の少なくとも1つ」という語句は、項目のいずれかを区切るための用語「および」または「または」と共に、リストの各メンバー(例えば、各項目)ではなく、リスト全体を修飾する。「の少なくとも1つ」という語句は、リストされた各項目の少なくとも1つの選択を必要とせず、むしろ、この語句は、項目のいずれか1つの少なくとも1つ、および/または項目の任意の組合せの少なくとも1つ、および/または項目の各々の少なくとも1つを含む意味を許容する。一例として、「A、B、およびCのうちの少なくとも1つ」または「A、B、またはCのうちの少なくとも1つ」という語句は各々、Aのみ、Bのみ、もしくはCのみ、A、B、およびCの任意の組合せ、ならびに/またはA、B、およびCの各々の少なくとも1つを指す。
【0132】
態様、その態様、別の態様、いくつかの態様、1つまたは複数の態様、実装、その実装、別の実装、いくつかの実装、1つまたは複数の実装、実施形態、その実施形態、別の実施形態、いくつかの実施形態、1つまたは複数の実施形態、構成、その構成、別の構成、いくつかの構成、1つまたは複数の構成、主題技術、開示、本開示、それらの他の変形および同様のものは、便宜上のものであり、そのような語句に関連する開示が主題技術に必須であること、またはそのような開示が主題技術のすべての構成に適用されることを意味するものではない。かかる語句に関連する開示は、すべての構成に適用されるか、または1つもしくは複数の構成に適用される場合がある。このような語句に関連する開示は、1つまたは複数の例を提供することができる。態様またはいくつかの態様といった語句は、1つまたは複数の態様を指す場合があり、その逆もまた同様であり、これは前述の他の語句についても同様に当てはまる。
【0133】
当業者に知られているか、または後に知られることとなる、本開示全体を通して記載される様々な態様の要素に対するすべての構造的および機能的等価物は、参照により本明細書に明示的に組み込まれ、主題技術に包含されることが意図される。さらに、本明細書において開示されるものは、そのような開示が上記の説明において明示的に記載されているか否かにかかわらず、一般に専用とされることを意図するものではない。いかなるクレーム要素も、その要素が「~するための手段」という語句を用いて明示的に記載されていない限り、または方法請求項の場合には、その要素が「~するためのステップ」という語句を用いて記載されていない限り、米国特許法第112条第6段落に基づいて解釈されない。さらに、「含む(include)」、「有する(have)」等の用語が明細書または特許請求の範囲において使用されている場合、当該用語は、用語「含む(comprise)」が特許請求の範囲において経過的な語として使用される際に解釈される場合の「含む(comprise)」と同様の方法で包括的であることを意図している。
【国際調査報告】