(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-17
(54)【発明の名称】自律神経系の生理学的反応を誘発するのに適した特性を有する音楽のセグメントを識別するためのシステムおよび方法
(51)【国際特許分類】
G10L 25/51 20130101AFI20240709BHJP
【FI】
G10L25/51
G10L25/51 300
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023577895
(86)(22)【出願日】2022-06-15
(85)【翻訳文提出日】2024-02-01
(86)【国際出願番号】 US2022033597
(87)【国際公開番号】W WO2022266202
(87)【国際公開日】2022-12-22
(32)【優先日】2021-06-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-07-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523472113
【氏名又は名称】エムアイアイアール・オーディオ・テクノロジーズ・インコーポレイテッド
(74)【代理人】
【識別番号】100088605
【氏名又は名称】加藤 公延
(74)【代理人】
【識別番号】100130384
【氏名又は名称】大島 孝文
(72)【発明者】
【氏名】デュマス・ロジャー
(72)【発明者】
【氏名】ベック・ジョン
(72)【発明者】
【氏名】プラスト・アーロン
(72)【発明者】
【氏名】カッツ・ゲーリー
(72)【発明者】
【氏名】モー・ポール・ジェイ
(72)【発明者】
【氏名】レビタン・ダニエル・ジェイ
(57)【要約】
人間の聞き手にチル効果を誘発する可能性が最も高い、音楽の最もインパクトのある瞬間またはセグメントを識別するためのシステムおよび方法。デジタル音楽信号は、チル効果を誘発することが可能であると知られている音響特徴を測定する2つ以上の客観的処理メトリックを用いて処理される。個々の検出事象は、出力が全体の出力に対して閾値を上回るか下回るかに基づいて、各メトリックの出力で識別される。組み合わせアルゴリズムは、一致する検出事象を集約して、拍ごとに計算され得る、音楽信号中の一致する検出事象の数の連続する一致データセットを生成する。フレーズ検出アルゴリズムは、連続する一致データのピーク、ピーク近接、および移動平均の少なくとも1つに基づいて、音楽のインパクトのあるセグメントを識別することができる。
【特許請求の範囲】
【請求項1】
音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、第1の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第1の出力を生成することと、
プロセッサを使用して、第2の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第2の出力を生成することと、
プロセッサを使用して、第1の検出基準が満たされる前記第1の出力中の領域に基づいて、第1の検出ルーチンを使用して第1の複数の検出セグメントを生成することと、
プロセッサを使用して、第2の検出基準が満たされる前記第2の出力中の領域に基づいて、第2の検出ルーチンを使用して第2の複数の検出セグメントを生成することと、
プロセッサを使用して、前記第1の複数の検出セグメントと前記第2の複数の検出セグメントとを組み合わせて、前記第1の複数の検出セグメントおよび前記第2の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。
【請求項2】
所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項1に記載の方法。
【請求項3】
組み合わせることは、前記単一のプロットの移動平均を計算することを含む、請求項1に記載の方法。
【請求項4】
前記移動平均が上限を超える前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項3に記載の方法。
【請求項5】
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、請求項1に記載の方法。
【請求項6】
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、請求項1に記載の方法。
【請求項7】
前記第1の客観的オーディオ処理メトリックまたは前記第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、請求項1に記載の方法。
【請求項8】
前記第1の検出基準または前記第2の検出基準は、上方または下方境界閾値を含む、請求項1に記載の方法。
【請求項9】
検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、請求項1に記載の方法。
【請求項10】
組み合わせることは、第1の複数の検出および第2の複数の検出にそれぞれの重みを適用することを含む、請求項1に記載の方法。
【請求項11】
コンピュータシステムであって、
デジタル音楽データを受信するように構成された入力モジュールと、
前記デジタル音楽データを受信し、前記デジタル音楽データに対して第1の客観的オーディオ処理メトリックを実行し、前記デジタル音楽データに対して第2の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、前記第1のメトリックおよび前記第2のメトリックは、それぞれの第1の出力および第2の出力を生成する、オーディオ処理モジュールと、
前記第1の出力および前記第2の出力を入力として受信し、前記第1の出力および前記第2の出力のそれぞれについて、検出基準が満たされる1つ以上のセグメントのセットを生成するように構成された検出モジュールと、
前記検出モジュールによって検出された前記1つ以上のセグメントを入力として受信し、各セグメントを前記検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。
【請求項12】
前記組み合わせモジュールから一致の前記単一のデータセットを入力として受信し、前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、請求項11に記載のコンピュータシステム。
【請求項13】
前記フレーズ識別モジュールは、前記単一のデータセットの移動平均が上限を超える場所に基づいて、前記1つ以上の領域を識別するように構成されている、請求項12に記載のコンピュータシステム。
【請求項14】
前記フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、請求項12に記載のコンピュータシステム。
【請求項15】
前記組み合わせモジュールは、前記単一のプロットの移動平均を計算するように構成されている、請求項11に記載のコンピュータシステム。
【請求項16】
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、請求項11に記載のコンピュータシステム。
【請求項17】
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、請求項11に記載のコンピュータシステム。
【請求項18】
前記検出モジュールは、前記第1の客観的オーディオ処理メトリックまたは前記第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、請求項11に記載のコンピュータシステム。
【請求項19】
前記検出基準は、上方または下方境界閾値を含む、請求項11に記載のコンピュータシステム。
【請求項20】
前記検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、請求項11に記載のコンピュータシステム。
【請求項21】
前記組み合わせモジュールは、前記第1の複数の検出および前記第2の複数の検出にそれぞれの重みを適用してから、前記それぞれの重みに基づいて各検出セグメントを集約するように構成されている、請求項11に記載のコンピュータシステム。
【請求項22】
コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、前記コンピュータ可読プログラムコードは、プロセッサに、
デジタル音楽データを受信することと、
第1の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第1の出力を生成することと、
第2の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第2の出力を生成することと、
第1の検出基準が満たされる前記第1の出力中の領域に基づいて、第1の検出ルーチンを用いて第1の複数の検出セグメントを生成することと、
第2の検出基準が満たされる前記第2の出力中の領域に基づいて、第2の検出ルーチンを用いて第2の複数の検出セグメントを生成することと、
前記第1の複数の検出セグメントおよび前記第2の複数の検出セグメントにおける検出セグメントの一致に基づいて、前記第1の複数の検出セグメントと前記第2の複数の検出セグメントとを組み合わせて単一のプロットにすることと、
を指示するように構成されたコードを含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。
【請求項23】
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、請求項22に記載のコンピュータプログラム製品。
【請求項24】
所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット内の領域を識別し、識別された前記領域の表示を出力する、命令を含む、請求項22に記載のコンピュータプログラム製品。
【請求項25】
前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別する命令を含む、請求項22に記載のコンピュータプログラム製品。
【請求項26】
前記単一のプロットの移動平均を計算する命令を含む、請求項22に記載のコンピュータプログラム製品。
【請求項27】
前記第1の検出基準または前記第2の検出基準は、上方または下方境界閾値を含む、請求項22に記載のコンピュータプログラム製品。
【請求項28】
所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、請求項22に記載のコンピュータプログラム製品。
【請求項29】
人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、2つ以上の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、それぞれの2つ以上の出力を生成することと、
プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、前記2つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、
プロセッサを使用して、前記複数の検出セグメントにおける一致に基づいて、前記2つ以上の出力のそれぞれにおける前記複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。
【請求項30】
プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む前記単一のチルモーメントプロットにおける1つ以上の領域を識別することと、
プロセッサを用いて、識別された前記1つ以上の領域の表示を出力することと、を含む、請求項29に記載の方法。
【請求項31】
ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記単一のチルモーメントプロットの値の視覚的表示を表示することを含む、請求項29に記載の方法。
【請求項32】
ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データの前記長さに関する前記単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、請求項29に記載の方法。
【請求項33】
前記単一のチルモーメントプロットの値の前記視覚的表示は、前記単一のチルモーメントプロットの前記値の移動平均の曲線を含む、請求項32に記載の方法。
【請求項34】
所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のチルモーメントプロット内の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項29に記載の方法。
【請求項35】
前記出力することは、ディスプレイデバイスを介して、識別された前記領域の視覚的表示を表示することを含む、請求項33に記載の方法。
【請求項36】
前記出力することは、ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データ内の識別された前記領域の視覚的表示と重ねて表示することを含む、請求項33に記載の方法。
【請求項37】
音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音における前記インパクトのある瞬間に関連する情報の要求を受信することであって、前記要求は、前記デジタルオーディオ録音の表示を含む、ことと、
プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、前記対応するセットは、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの1つの識別にマッチングさせることであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
プロセッサを使用して、前記データベース内の前記複数の識別のうちのマッチングされた前記識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。
【請求項38】
前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について請求項1に記載の方法を使用して生成された、前記異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、請求項37に記載の方法。
【請求項39】
前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について請求項29に記載の方法を用いて生成された、前記異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、請求項37に記載の方法。単一のプロット。
【請求項40】
音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、
プロセッサによって操作される通信インターフェースを介して、前記デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、前記情報は、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの1つの識別に表示することであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
ディスプレイデバイスを使用して、前記デジタルオーディオ録音の時間の長さに関する前記デジタルオーディオ録音の視覚的表示を、前記チルフレーズの視覚的表示および/または前記デジタルオーディオ録音の前記時間の長さに関する前記チルモーメントプロットの前記値と重ねて出力することと、を含む、コンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願への相互参照〕
本出願は、「SYSTEMS AND METHODS FOR IDENTIFYING SEGMENTS OF MUSIC HAVING CHARACTERISTICS SUITABLE FOR INDUCING AUTONOMIC PHYSIOLOGICAL RESPONSES」と題され、2021年6月15日に出願された米国仮出願第63/210,863号の優先権および利益を主張し、また、「SYSTEMS AND METHODS FOR IDENTIFYING SEGMENTS OF MUSIC HAVING CHARACTERISTICS SUITABLE FOR INDUCING AUTONOMIC PHYSIOLOGICAL RESPONSES」と題され、2021年7月30日に出願された米国仮出願第63/227,559号の優先権および利益を主張し、これらそれぞれの内容は、参照によりその全体が本明細書に組み込まれる。
【0002】
〔分野〕
本開示は、音楽などの複雑なオーディオデータを処理するシステムおよび方法に関し、より詳細には、人間の聞き手に自律神経系の生理学的反応を誘発するのに適した最も強い特性を有するオーディオデータの時間領域を決定するために、音楽オーディオデータを処理するシステムおよび方法に関する。
【背景技術】
【0003】
最近の科学研究は、聴覚刺激と、特定の音または音楽に対する周知の不随意反応であるチル(chills)または鳥肌などの自律神経系の生理学的反応との関連をよりよく理解しようと試みている。音楽に対する自律神経系の生理学的反応に関する最初の調査の1つで、研究者たちは、脳血流、心拍数、呼吸、骨格筋から生じる電気的活動(例えば、筋電図)のデータ、ならびに、参加者の「チル」の主観的報告を収集した。この研究では、報酬、感情、覚醒に関連する脳領域(例えば、腹側線条体、中脳、扁桃体、眼窩前頭皮質、腹内側前頭前皮質)の脳血流の変動が、参加者のチルの自己報告と対応していることが確認された。これらの領域はまた、食物、セックス、レクリエーショナルドラッグなど、幸福感を誘発する刺激に反応して活性化する。
【0004】
したがって、音楽と自律神経系の生理学的反応には関連があることが立証されている。しかし、チル反応を引き起こし得る、音響および音楽刺激のジャンル、音楽スタイル、種類は多岐にわたる。このような自律神経反応を引き起こす可能性が最も高い、曲または楽譜中の1つもしくは複数の特定のセグメントを正確に識別するために、多種多様な音楽のジャンル/スタイルにうまく対応する方法で、チル誘発に関連するデジタル録音内の様々な個々の根本的な音響/音楽構造を検出し、検出されたチル誘発物を評価することができるデジタルオーディオ処理ルーチンが必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
ソーシャルメディアおよび広告で使用する音楽セグメントを選択する際に使用されるソフトウェアアプリケーションを作成するプロセスにおいて、手作業で音楽のセクションを選択し、キュレーションすることは、コストと時間のかかる作業であり、このプロセスを自動化するための取り組みが行われた。大規模なカタログをキュレーションし、音楽セグメントを識別する際の1つの問題は、主観的と考えられる、様々なレベルの審美的判断を含む。この問題に対する新たなアプローチは、コンテンツベースの音楽情報検索(Content-Based Music Information Retrieval)(本明細書では「CB-MIR」と呼ぶ)の分野からの手法を、人間のいわゆる「チル反応」(例えば、自律神経系の生理学的反応)の考え方を含む神経学的研究の分野からの学術的研究と組み合わせて、使用することであった。この反応は、人間の感覚器官と人間の経験の共通性を考慮するとチルモーメントは生理的な性質のものと考えられ必ずしも主観的なものではないが、音楽の鑑賞とも強く関連している。
【0006】
このような瞬間を見つけるための既存の技術では、音楽の専門家、または任意の所与の楽曲に精通している人々による主観的な評価が必要である。たとえそうであっても、どのような個人も、聴衆全体におけるチル反応の存在または可能性について彼らの評価を特徴づける一連のバイアスおよび不確定要素を有する。本開示の実施例は、客観的かつ定量的なプロセスとして、チルの誘発と関連付けられる音楽セグメントの検出を可能にする。
【課題を解決するための手段】
【0007】
本開示が利用する1つの態様は、音楽家と作曲家が聞き手の感情状態に影響を与えるために共通のツールを使用するという考え方である。ボリュームのコントラスト、キー変化、コード変更、メロディピッチおよび高調波ピッチはすべて、この「音楽家の道具箱(musician's toolbox)」で使用することができ、音楽の演奏および作曲が教えられているあらゆる場所のカリキュラムで見られる。しかし、これらの高レベルの構造は、明確な「音のシグネチャ」、または音楽録音の信号処理の観点での定義を持っていない。これらの構造を見つけるために、デジタル録音またはストリーミングオーディオから低レベルの音楽情報を抽出すること(例えば、特徴抽出)に特に焦点を合わせた、CB-MIRの分野からの教示が、新規なオーディオ処理ルーチンで活用されている。従来のCB-MIR手法によって提供される低レベルの情報をソースとして使用して、本開示の実施例は、複雑なオーディオデータ(例えば、音楽)を処理および分析して、チル反応をもたらすことが音楽の神経学的研究によって判明した高レベルの音響および音楽構造を識別するためのシステムおよび方法を含む。
【0008】
このプロセスの例は、音楽録音から様々なCB-MIRデータストリーム(本明細書では客観的オーディオ処理メトリックとも呼ぶ)を抽出することから始まる。これらの例は、ラウドネス、ピッチ、スペクトル、スペクトルフラックス、スペクトルセントロイド、メル周波数ケプストラム係数などであり、これらについては、本明細書でさらに詳細に説明する。任意の所与のタイプの特徴に対する特徴抽出の特定の実施態様は、後続の処理ステップのためのデータの準備および最適化に影響を与えるパラメータ化オプションを有することができる。例えば、ラウドネスという一般的な特徴は、いくつかの様々なフィルタおよび方法論に従って抽出することができる。
【0009】
この例としてのプロセスの次のフレーズは、チルを誘発する高レベルの音響および音楽構造を探すことを含む。これらの構造は、チル現象に関する学術文献において、様々なレベルの特異性で記述されている。個々のCB-MIRデータストリームからこれらの高レベルな構造のいずれか1つを検出することを、本明細書では、幾何学的辺縁系インパクト現象(Geometric Limbic Impact Phenomenon)の頭字語として、「GLIPh」と呼ぶ。より具体的には、本開示の実施例には、学術文献に記載されているようなチル誘発物を研究し、その後、誘発現象を統計的データパターンとして表すGLIPhを設計することが含まれる。GLIPhは、ピッチ、ラウドネス、スペクトルフラックスなど、各音楽特徴の中の目的の瞬間を表すことができる。抽出された特徴データセットに含まれ得る様々なGLIPhが特定されると、グラフプロット内の対象領域(ROI)の周りに境界線を引いて、デジタル録音のタイムライン内のどこにGLIPhがあるかを示すことができる。
【0010】
次に、GLIPhのタイムスタンプのインスタンスが様々な抽出された特徴データセットにわたって蓄積されると、デジタル録音内のGLIPhの一致および近接の量を計算する新しいデータセットを形成することができる。このデータ処理は、本明細書では組み合わせアルゴリズムと呼ばれ、出力データは、本明細書では「チルモーメント」プロットと呼ばれ、これは、出力の移動平均を含んで、組み合わせアルゴリズムの出力の連続的でより滑らかな表現を提示することができ、これは、拍ごとのレベルで値が大きく変動することがあり(または、最小の時間間隔が入力メトリックうちの1つに使用される)、その結果、視覚的に分析すると「ビジー」なデータになることがあり、この出力の移動平均は、特に複数の拍またはタクトゥスにわたる曲の中の傾向が評価されることがより有用である場合に、データの視覚的分析にさらに有用となり得る。いくつかの実施例では、GLIPhは均等に重み付けされるが、組み合わせアルゴリズムは、重み付けされた値を各GLIPhインスタンスに帰属させることによって、チルモーメントデータを生成するように構成することもできる。移動平均の生成の例には、ガウシアンフィルタによるチルモーメントプロットの畳み込みを使用することが含まれ、これは、例えば、わずか2もしくは3拍、または100拍以上にわたることができ、したがって、曲の中の拍の長さに基づいて時間的に可変であり、動的な値とすることができる。代表的な例としての長さは、本明細書で紹介するデータに使用される長さである、30拍を含め、10~50拍の範囲とすることができる。この平滑化を拍に基づかせることで、有利には、移動平均を音楽の内容に適応させることができる。
【0011】
アーティストの曲作りにおいて観察される傾向は、チル誘発物(例えば、自律神経系の生理学的反応を誘発する可能性を高める音楽特徴)が、(ある論理的限界まで)同時に、および連続して使用され得ることであり、これはGLIPhの一致および近接を反映するチルモーメントプロットと整合する。つまり、曲の一部分(または曲全体)が、自律神経系の生理学的反応に関連することが知られている音楽特徴において、一致および近接のパターンを示す頻度が高ければ高いほど、聞き手においてチルを誘発する可能性が高くなる。全体として、これらの特徴の2つ以上が時間的に整合するとき、その音楽的瞬間が誘発する覚醒のレベルは高くなる。したがって、本開示の特定の実施例は、オーディオデータを処理して個々のチル誘発物を識別し、識別されたチル誘発物の一致の割合および近接に少なくとも部分的に基づく、自律神経系の生理学的反応を誘発する可能性を最大化するオーディオデータ内の1つ以上のピークモーメントの新しいデータセットを構築する方法を提供する。例としては、この新しいデータセットをさらに処理して、これらのピークモーメントを含む音楽セグメントおよびフレーズを識別し、それらを、例えば、ピークモーメントまたはフレーズを含む元のオーディオデータから切り捨てられたセグメントを作成するために使用されるピークモーメントまたはフレーズを示すタイムスタンプとして元のオーディオデータとともに使用され得る新しいタイプのメタデータとして提供することが含まれる。
【0012】
本開示の実施例は、オーディオ波形を一連の「サンプル」値として符号化するデジタルオーディオ録音を処理するために使用することができる;典型的には、毎秒44,100サンプルがパルス符号変調で使用され、各サンプルは、22.676マイクロ秒ごとに複雑なオーディオ波形を捕捉する。当業者であれば、より高いサンプリングレートが可能であり、本明細書で開示するデータ抽出技術に重大な影響を与えないことを理解されよう。例としてのデジタルオーディオファイルフォーマットは、MP3、WAV、AIFFである。処理は、デジタル録音されたオーディオファイルから開始することができ、複数の後続処理アルゴリズムが、音楽特徴を抽出し、最も強いチルモーメントを有する音楽セグメントを識別するために使用される。音楽セグメントは、音楽録音の任意のサブセクションであってよく、通常は10~60秒の長さである。例としてのアルゴリズムは、コーラスまたは節などのフレーズの始まりと終わりに一致して開始および終了するセグメントを見つけるように設計することができる。
【0013】
デジタル音楽録音分析の主なカテゴリーは以下の通りである:
(i)時間領域:時間に関するデジタル録音に含まれる周波数の分析、
(ii)リズム:時間領域内で繰り返される周期的な信号で、人間が別々の拍として知覚するもの、
(iii)周波数:時間領域内で繰り返される周期的な信号で、人間が単一の音/音符として知覚するもの、
(iv)振幅:所与の瞬間における音のエネルギーの強さ、
(v)スペクトルエネルギー:音色として知覚される、曲(または他の時間単位)のすべての周波数にわたって存在する振幅の総量。
【0014】
自律神経系の生理学的反応(例えば、チル)は、音響的、音楽的、感情的な刺激駆動特性によって誘発され得る。これらの特性には、音響特性の急激な変化、高レベルな構造予測、および感情の強度が含まれる。最近の調査では、どのようなオーディオ特性がチルを誘発するのかを明らかにすることが試みられている。このアプローチでは、研究者は、チル体験には、期待、ピーク感情、および感動に基づくメカニズムが関与していることを示唆している。しかし、研究デザイン、実験変数の妥当性、チルの尺度、用語、残された知識のギャップに関して、レビューされた文献には重大な欠点が識別されている。また、チルを経験する能力は、性格の違い、特に「経験に対する開放性」に影響される。これは、所与の聞き手にとってチルを誘発する瞬間は稀で、ある程度個々の性向の違いにより、予測することが困難となり得ることを意味する。文献には、音響媒体(音楽)と物理現象(チル)との間のいくつかの有用な関連が示されているが、チルを誘発する音楽的事象の数多くの音楽的および音響的特性が厳密な定義を欠いているため、これらの特徴の1つ以上を持つ特定の音楽セグメントを識別できることは困難である。さらに、識別された音楽的および音響的特性の多くは、全体として見た場合に主観的に識別可能な特性のみを有し得る、音楽的および音響的事象の複雑な配置として最も良く理解される。したがって、既存の文献では、複雑なオーディオデータ(例えば、音楽)におけるチルを誘発するピークの瞬間の識別は未解決の問題であると考えられている。
【0015】
既存の研究は、チル誘発物を、数値的な用語ではなく、美的記述用語で示している。「驚きのハーモニー」のような複雑な概念は、現在、既知の数学的記述を有さない。典型的なCB-MIR特徴抽出法は低レベルで客観的であるが、それにもかかわらず、本開示の実施例によって実証されるように、高レベルの複雑な概念を正確に表すことができるパターンを構築し始める(そして、その後、発見し、識別する)ために、本開示の実施例において構成要素として使用することができる。
【0016】
本開示の実施例は、主観的な識別を超えて、これらの事象(例えば、GLIPh)に対応するオーディオ信号中の例示的なパターンの客観的な識別を可能にする。この識別に使用するために、いくつかの異なる客観的オーディオ処理メトリックを計算することができる。これらには、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア(predominant pitch melodia)、スペクトルフラックス、およびスペクトルセントロイドが含まれる。しかし、既知の個々の客観的メトリックは、多種多様な音楽にわたってチルモーメントをロバストに識別することはできないが、本開示の実施例は、音楽の全体的な特性(例えば、ジャンル、ムード、または楽器の配置)に関係なく、チル反応を誘発するのに適したセグメントを識別する方法で複数のメトリックを組み合わせることにより、そのようなロバストな検出を可能にする。
【0017】
例えば、所与のデジタル録音の分析中、GLIPhのタイムスタンプのインスタンスが様々な抽出された特徴データセットにわたって蓄積されると、デジタル録音内で識別されたGLIPhの一致および近接の量に基づいて、組み合わせアルゴリズムを用いて新しいデータセットを形成することができる。このデータセットは、本明細書ではチルモーメントプロットと呼ばれ、組み合わせアルゴリズムは、重み付けされた値を各GLIPhインスタンスに帰属させ、例えば、それらの一致率、または単位時間当たり(例えば、1拍当たりもしくは1秒当たり)を決定することによって、チルモーメントプロットを生成する。メトリック(例えば、個々のGLIPhを識別するメトリック)のセットを組み合わせる1つの理由は、多くの種類のチル誘発物があるということである。標準的なCB-MIR式の特徴抽出に関して、チルモーメントを誘発する特性一式(例えば、de FleurianおよびPearceによるもののような研究によって識別されたチル誘発特性)を持つ音楽セグメントを決定することが知られている様々な音響的および音楽的パターンをすべて符号化することができる単一のメトリックはない。さらに、録音するアーティストは、音楽を構成および録音する際に多くの種類のツールを使用し、一般的に所与の曲の中で使用される単一のツールはなく、多種多様な音楽スタイルおよびジャンルは多くの異なる美的アプローチを持っている。ポピュラー音楽の極端な多様性は、その強力な証拠である。1つの特徴が1つの曲の中で多くのポイントを有することはよくある。例えばメロディピッチは、1つの曲の中で潜在的に何百もの目的のポイントを持ち、そのそれぞれがその曲の中の個々のGLIPhに対応することができる。複数の客観的メトリックにわたり整合する複数のGLIPh特徴の同時発生を見て初めて、首尾一貫したパターンが現れる。
【0018】
音楽セグメントは、本開示の実施例により、例えば、GLIPhの一致に基づいて、一次および二次チルセグメントとして識別することができる。これらの一致は、実験参加者により試聴されると、チルの文献に詳述されているように、行動および生理機能の尺度に予測可能な変化をもたらす。一次チルセグメントとは、オーディオ録音の中でGLIPhの一致が最も高いセグメントであり得、チルを生じる可能性が最も高いセグメントを示すことができ、二次チルセグメントは、一次チルセグメントよりもよりもGLIPhの一致が低いことに基づき、より小さい程度でチルを誘発すると識別されるセグメントである。この予測能力を検証する実験が実施され、その結果が本明細書に示されている。これらの識別されたセグメントは、「チルフレーズ」または「チルモーメント」と呼ぶことができるが、音楽的なチル(例えば、所与の聞き手における自律神経系の生理学的反応の誘発)を実際に経験することは稀であるため、これらのセグメントは、「インパクトのある音楽フレーズ」、または一般的に自律神経系の生理学的反応を誘発するのに適した特性を持つ音楽セグメントとみなすこともできる。
【0019】
本明細書でより詳細に論じ、図示するように、本開示の実施例は、a)5つの領域(時間、ピッチ、リズム、ラウドネス、およびスペクトル)からの同期データを分析すること、ならびに、b)開始位置としてごく一般的な音楽マップのみを使用して特定の音響的シグネチャを識別することを含み得る。実施例は、各特徴のGLIPhメタ分析とともに、チルモーメントプロットに含めるために選択された特徴データを含む一連のベクトルを出力することができる。例えば、1拍当たりのラウドネス(Loudness-per-beat)データ出力は、データのベクトルとして保存することができ、その後、閾値(または他の検出アルゴリズム)を適用して、個々のメトリックデータのGLIPhインスタンス(例えば、1拍当たりのラウドネスデータの上位四分位数)を決定することができ、これは、1つが開始時間を保存し、もう1つが終了時間を保存する2つのベクトルにおいて上位四分位数に入るデータの各GLIPhセグメントについて開始時間および終了時間と共に保存される。その後、各特徴を分析することができ、それぞれの拍について、その特徴の目的の開始時間と停止時間が時間のこの瞬間内にあるかどうかを判断することができ、もしそうであれば、その特徴の特定の重み付けに従って、チルモーメントベクトルの値に加えられる。
【0020】
したがって、出力は、調査中のさまざまな特徴を表す、数値、文字列、実数のベクトル、および実数の行列の集まりである。チルモーメント出力は、各時間ステップにおいて各誘発物(例えば、識別されたGLIPhまたはGLIPhの一致)にとってインパクトのある瞬間を示す特徴(例えば、個々の客観的オーディオメトリック)の合計とすることができる。
【0021】
本開示の実施例は、音楽録音から最もインパクトのある瞬間を見つける能力を提供し、チルを誘発する音響的および音楽的特徴の一致は、聞き手の覚醒の予測因子である。
【0022】
本開示の一実施例は、音楽中のセグメントを識別するコンピュータ実装方法であり、この方法は、プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、プロセッサを使用して、第1の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第1の出力を生成することと、プロセッサを使用して、第2の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第2の出力を生成することと、プロセッサを使用して、第1の検出基準が満たされる第1の出力中の領域に基づいて、第1の検出ルーチンを使用して第1の複数の検出セグメントを生成することと、プロセッサを使用して、第2の検出基準が満たされる第2の出力中の領域に基づいて、第2の検出ルーチンを使用して第2の複数の検出セグメントを生成することと、プロセッサを使用して、第1の複数の検出セグメントと第2の複数の検出セグメントとを組み合わせて、第1および第2の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、第1および第2の客観的オーディオ処理メトリックは異なる。この方法は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット中の領域を識別することと、識別された領域の表示を出力することと、を含むことができる。組み合わせることは、単一のプロットの移動平均を計算することを含むことができる。本方法は、移動平均が上限を超える単一のプロット中の領域を識別することと、識別された領域の表示を出力することと、を含むことができる。第1および第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり得、かつ/または一次データを出力するように構成される。例としては、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加(dynamic increase)、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される第1および第2の客観的オーディオ処理メトリックが挙げられる。
【0023】
この方法の実施例は、第1または第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することを含むことができる。第1または第2の検出基準は、上方または下方境界閾値を含むことができる。本方法は、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含むことができる。組み合わせることは、第1および第2の複数の検出にそれぞれの重みを適用することを含むことができる。
【0024】
本開示の別の実施例は、コンピュータシステムであり、これは、デジタル音楽データを受信するように構成された入力モジュールと、デジタル音楽データを受信し、デジタル音楽データに対して第1の客観的オーディオ処理メトリックを実行し、デジタル音楽データに対して第2の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、第1および第2のメトリックは、それぞれの第1および第2の出力を生成する、オーディオ処理モジュールと、第1および第2の出力を入力として受信し、第1および第2の出力のそれぞれについて、検出基準が満たされる1つ以上のセグメントのセットを生成するように構成された検出モジュールと、検出モジュールによって検出された1つ以上のセグメントを入力として受信し、各セグメントを検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む。本システムは、組み合わせモジュールから一致の単一のデータセットを入力として受信し、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別するように構成されたフレーズ識別モジュールを含むことができる。フレーズ識別モジュールは、単一のデータセットの移動平均が上限を超える場所に基づいて、1つ以上の領域を識別するように構成することができる。フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成することができる。組み合わせモジュールは、単一のプロットの移動平均を計算するように構成することができる。第1および第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムとすることができ、かつ/または一次データを出力するように構成される。
【0025】
システムは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される第1および第2の客観的オーディオ処理メトリックを含むことができる。検出モジュールは、第1または第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成することができる。検出基準は、上方または下方境界閾値を含むことができる。検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成され得る。組み合わせモジュールは、第1および第2の複数の検出にそれぞれの重みを適用してから、それぞれの重みに基づいて各検出セグメントを集約するように構成され得る。
【0026】
本開示のさらに別の実施例は、コンピュータプログラム製品であり、これは、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、コンピュータ可読プログラムコードは、プロセッサに:デジタル音楽データを受信することと、第1の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して第1の出力を生成することと、第2の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して第2の出力を生成することと、第1の検出基準が満たされる第1の出力中の領域に基づいて、第1の検出ルーチンを用いて第1の複数の検出セグメントを生成することと、第2の検出基準が満たされる第2の出力中の領域に基づいて、第2の検出ルーチンを用いて第2の複数の検出セグメントを生成することと、第1および第2の複数の検出セグメントにおける検出セグメントの一致に基づいて、第1の複数の検出セグメントと第2の複数の検出セグメントとを組み合わせて単一のプロットにすることと、を指示するように構成されたコードを含み、第1および第2の客観的オーディオ処理メトリックは異なる。第1および第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択され得る。コンピュータプログラム製品は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット内の領域を識別し、識別された領域の表示を出力する命令を含むことができる。本製品は、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別する命令を含むことができる。製品は、単一のプロットの移動平均を計算する命令を含むことができる。第1または第2の検出基準は、上方または下方境界閾値を含むことができる。本製品は、所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含むことができる。
【0027】
本開示のさらに別の実施例は、人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であり、これは、プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、プロセッサを使用して、2つ以上の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、それぞれの2つ以上の出力を生成することと、プロセッサを介して、それぞれの検出基準を満たす領域に基づいて、2つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、プロセッサを使用して、複数の検出セグメントにおける一致に基づいて、2つ以上の出力のそれぞれにおける複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、第1および第2の客観的オーディオ処理メトリックは:ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される。本方法は、プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む単一のチルモーメントプロットにおける1つ以上の領域を識別することと、プロセッサを用いて、識別された1つ以上の領域の表示を出力することとを含むことができる。例としては、ディスプレイデバイスを介して、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示を表示することが含まれる。例としては、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含むことができる。単一のチルモーメントプロットの値の視覚的表示は、単一のチルモーメントプロットの値の移動平均の曲線を含むことができる。本方法の実施例は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のチルモーメントプロット内の領域を識別することと、識別された領域の表示を出力することとを含む。出力することは、ディスプレイデバイスを介して、識別された領域の視覚的表示を表示することを含むことができる。出力することは、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データ内の識別された領域の視覚的表示と重ねて表示することを含むことができる。
【0028】
本開示のさらに別の実施例は、音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であり、この方法は、プロセッサによって操作される入力を介して、デジタルオーディオ録音におけるインパクトのある瞬間に関連する情報の要求を受信することであって、この要求は、デジタルオーディオ録音の表示を含む、ことと、プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、対応するセットは:チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの1つの識別にマッチングさせることであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、プロセッサを使用して、データベース内の複数の識別のうちのマッチングされた識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む。異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例1の方法を使用して生成された、異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含み得る。異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例29の方法を用いて生成された、異なるデジタルオーディオ録音の各々についての単一のチルモーメントプロットを用いて作成された情報を含むことができる。
【0029】
本開示の別の実施例は、音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、この方法は、プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、プロセッサによって操作される通信インターフェースを介して、デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、情報は:チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの1つの識別に表示することであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、ディスプレイデバイスを使用して、デジタルオーディオ録音の時間の長さに関するデジタルオーディオ録音の視覚的表示を、チルフレーズの視覚的表示および/またはデジタルオーディオ録音の時間の長さに関するチルモーメントプロットの値と重ねて出力することと、を含む。
【0030】
本開示は、添付の図面と併せて理解される以下の詳細な説明からより完全に理解されるであろう。
【図面の簡単な説明】
【0031】
【
図1A】本開示によるデジタル音楽データを処理するための例としてのルーチンのフローチャートである。
【
図1B】
図1Aのデジタル音楽データを処理するための例としてのルーチンの詳細なフローチャートである。
【
図2A】デジタル音楽ファイルの例としての波形の経時的な振幅のグラフである。
【
図2B】第1の代表的な客観的オーディオ処理メトリックの例としての出力を、識別されたGLIPhの対応するプロットとともに視覚的に表したものである。
【
図2C】第2の代表的な客観的オーディオ処理メトリックの例としての出力を、識別されたGLIPhの対応するプロットとともに視覚的に表したものである。
【
図2D】第1および第2の代表的な客観的オーディオ処理メトリックの識別されたGLIPhに基づく組み合わせアルゴリズムの例としての出力を視覚的に表したものである。
【
図2E】
図2Dの組み合わせアルゴリズムの出力に基づくフレーズ検出アルゴリズムの例としての出力を視覚的に表したものである。
【
図3A】デジタル音楽ファイルの波形を視覚的に示す図である。
【
図3B】
図3Aの波形に基づくラウドネスメトリックの出力を視覚的に表したものである。
【
図3C】
図3Aの波形に基づく、3つの異なるラウドネス帯域におけるラウドネス帯域比率メトリックの出力を視覚的に表したものである。
【
図3D】
図3Bおよび
図3Cの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねた図である。
【
図3E】
図3Dのフレーズ検出アルゴリズムの出力を示す
図3Aの波形を視覚的に示す図である。
【
図4A】
図3Aの波形に基づく優勢ピッチメロディアメトリックの出力を視覚的に表したものである。
【
図4B】
図3B、
図3C、および
図4Aの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す図である。
【
図4C】
図4Bのフレーズ検出アルゴリズムの出力を示す
図3Aの波形を視覚的に示す図であり、
図3Eに示すフレーズ検出アルゴリズムの出力との比較を示す。
【
図5A】別のデジタル音楽ファイルの波形を視覚的に示す図である。
【
図5B】
図5Aの波形に基づくラウドネス客観的オーディオ処理メトリックの出力を視覚的に表したものである。
【
図5C】
図5Aの波形に基づく3つの異なるラウドネス帯域におけるラウドネス帯域比率アルゴリズムメトリックの出力を視覚的に表したものである。
【
図5D】
図5Aの波形に対して実行される優勢ピッチメロディアメトリックの出力を視覚的に表したものである。
【
図5E】
図5B、
図5C、および
図5Dの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねた図である。
【
図5F】
図5Eのフレーズ検出アルゴリズムの出力を示す
図5Aの波形を視覚的に示す図である。
【
図6A】
図5Aの波形に基づくスペクトルフラックスメトリックの出力を視覚的に表したものである。
【
図6B】
図5B、
図5C、
図5D、および
図6Aの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す図である。
【
図6C】
図6Bのフレーズ検出アルゴリズムの出力を示す
図5Aの波形を視覚的に示す図であり、
図5Fに示すフレーズ検出アルゴリズムの出力との比較を示す。
【
図7】別の曲の波形を入力として使用して生成されたプロット群であり、曲の波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムのから出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。
【
図8】さらに別の曲の波形を入力として使用して生成されたプロット群であり、曲の波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。
【
図9A】ある曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。
【
図9B】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。
【
図9C】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。
【
図9D】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。
【
図10A】行動研究からの被験者データの一例のグラフである。
【
図10B】非ピークモーメントと比べて、音楽中のアルゴリズムによって識別されたピークモーメント中の増加と関連付けられた神経活性化の幅広いネットワークを示すfMRIデータである。
【
図11】本開示の実施例を組み込んだソーシャルメディアアプリケーションを示すモバイルデバイスディスプレイの説明図である。
【
図12】本開示の実施例を組み込んだ音楽ストリーミングアプリケーションを示すモバイルデバイスディスプレイの説明図である。
【
図13】本開示の実施例を組み込んだ音楽カタログアプリケーションを示すコンピュータディスプレイの説明図である。
【
図14】本開示の実施例を組み込んだ動画制作アプリケーションを示すコンピュータディスプレイの説明図である。
【
図15】本開示とともに使用するためのコンピュータシステムの例示的な一実施形態のブロック図である。
【
図16】本開示とともに使用するためのクラウドベースのコンピュータネットワークの例示的な一実施形態のブロック図である。
【発明を実施するための形態】
【0032】
次に、本明細書に開示されるデバイス、システム、および方法の構造、機能、および使用の原理の全体的な理解を提供するために、特定の例示的な実施形態について説明する。これらの実施形態の1つ以上の実施例が、添付の図面に図示されている。当業者であれば、本明細書に具体的に記載され、添付の図面に図示された、このようなデバイス、システム、および方法に関連するかまたは別様にその一部であるデバイス、システム、および構成要素は、非限定的な実施形態であり、本開示の範囲は、特許請求の範囲によってのみ定義されることを理解するであろう。1つの実施形態に関連して図示または説明された特徴は、他の実施形態の特徴と組み合わせることができる。このような修正および変形は、本開示の範囲内に含まれることが意図される。本明細書において提供される実施形態のいくつかは、そのようにラベル付けされていないが、本質的に概略的であることが当業者に理解されるであろういくつかを含む、概略図とすることができる。これらは、縮尺通りでなかったり、開示された構成要素のやや粗いレンダリングであったりする。当業者であれば、これらの教示をどのように実施し、それらを、本明細書で提供される、そのそれぞれに関連する作業システム、方法、および構成要素に組み込むかを理解するであろう。
【0033】
本開示が、開示されたデバイス、システム、方法などの構成要素および/またはプロセスに対する様々な用語を含む限りにおいて、特許請求の範囲、本開示、および当業者の知識を鑑みると、当業者は、そのような用語がそのような構成要素および/またはプロセスの単なる例であり、他の構成要素、デザイン、プロセス、および/または動作が可能であることを理解するであろう。非限定的な例として、本出願は、デジタルオーディオデータの処理を説明するが、代替的に、または追加的に、処理は、類似のアナログシステムおよび方法を介して行われ得るか、またはアナログおよびデジタル処理ステップの両方を含み得る。本開示において、様々な実施形態の同様の番号および同様の文字の構成要素は、それらの構成要素が同様の性質のものであり、かつ/または同様の目的を果たす場合、一般に同様の特徴を有する。
【0034】
本開示は、音楽などの複雑なオーディオデータを処理して、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する複雑なオーディオデータ内の1つ以上の瞬間を識別することに関する。しかし、その逆(例えば、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を有する複雑なオーディオデータ中の瞬間)のような代替構成も開示される。したがって、当業者であれば、本明細書に開示されるオーディオ処理ルーチンは、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した特性に基づく構成に限定されるものではなく、以下のようないくつかの構成要因に応じて、広範囲の複雑なオーディオ特性を識別することが広く可能であることを理解されよう:選択された個々のメトリック、正のGLIPhインスタンスを決定するために各メトリックで使用される閾値、出力を生成するために一致するGLIPhインスタンスを組み合わせる際に各メトリックに適用される重み(ここではチルモーメントデータセットと呼ぶが、これは神経科学研究における様々なチル誘発物の識別と既知の関連性を持つ個々のメトリックの選択を反映したものであり、したがって、異なる音響現象の識別のためにメトリックのセットが選択される例では、出力のためのコンテキストを反映した名前も同様に選択されるであろう)。実際、例えば、研究においてまだ知られていない音楽と生物学的反応との間の相関関係があるかもしれないが、本開示の実施例は、生物学的活動の可能性の増加と関連する個々の客観的な音響特性を組み合わせることによって、生物学的活動を引き起こす可能性が最も高い任意の複雑なオーディオデータ中の瞬間を識別するために使用することができる。
【0035】
オーディオ処理
図1Aは、本開示によるオーディオデータ101を処理するための例としてのルーチン11のフローチャートである。
図1Aにおいて、ルーチン11は、音楽などのデジタルオーディオデータであり得るオーディオデータ101で開始することができ、このオーディオデータ101は、入力12を介して受信され得る。続くステップにおいて、2つ以上の客観的オーディオ処理アルゴリズム111、112(例えば、本明細書では、メトリック、オーディオメトリック、またはオーディオ処理メトリックとも呼ばれる)がオーディオデータ101に対して実行され、メトリック111、112に関連するオーディオ特性(例えば、ラウドネス、スペクトルエネルギー)を表す出力を生成する。各メトリックの出力について、検出アルゴリズム131、132は、メトリックの出力が相対的に上昇している(例えば、データの四分位数を超えている)データ内の1つ以上の瞬間を識別し、これらの検出を、元々入力されたオーディオデータ101の時間領域における正およびヌルの検出領域を示すバイナリマスクとして出力する(例えば、入力されたオーディオデータ101が200秒の長さである場合、各バイナリマスクは、同じ200秒をカバーすることができる)。
【0036】
組み合わせアルゴリズム140は、入力バイナリマスクを受信し、それらをチルモーメントプロットに集約し、これは、集約の一致の時間領域における値を含む。たとえば、オーディオデータ101中のある瞬間が両方のメトリックで正の検出を返す場合、その瞬間は、組み合わせアルゴリズム140の出力において、その時間に対して「2」の値で集約される。同様に、1つのメトリックのみが、ある瞬間について正の検出を返す場合、値は「1」である。組み合わせアルゴリズムは、出力を正規化することができるだけでなく、移動平均、または当業者に既知の任意の他のデータの典型的処理を提供することもできる。組み合わせアルゴリズム140は、組み合わせアルゴリズム140の出力を、例えば、ストレージデバイス、または別のプロセッサに提供することができる出力19の一部であるか、またはそれに関連していることができる。さらに、ルーチン11は、フレーズ識別アルゴリズム150を含むことができ、これは、組み合わせアルゴリズム140からの出力データを入力として取り込み、例えば、それらの相対強度および互いに対する近接に基づいて、チルモーメントプロットの1つ以上のピークを含むオーディオデータの1つ以上のセグメントを検出する。フレーズ識別アルゴリズム150は、組み合わせアルゴリズム140の出力を、例えば、ストレージデバイス、または別のプロセッサに提供することができる出力19の一部であるか、またはそれに関連していることができる。フレーズ識別アルゴリズム150は、タイムスタンプを含む、識別されたセグメントに関連する任意のデータ、およびすべての識別されたセグメントの比較に基づく一次セグメントの検出を出力することができる。フレーズ識別アルゴリズム150は、識別されたセグメントを表す元のオーディオデータ101のセグメントを作成して出力することができる。
【0037】
図1Bは、1つ以上のコンピュータプロセッサを使用してデジタル音楽データを処理するための例としての実施形態の詳細なフローチャートであり、
図1Aには図示されていない追加の中間処理ステップを示している。
図1Bにおいて、プロセス10は、
図1Aのルーチン11、ならびにストレージルーチン12および検索ルーチン13を含むことができる。
図1Bに示されるルーチン11’は、
図1Aのルーチン11を含むことができるが、ここでは、
図1Aのルーチン11に含まれても含まれなくてもよい追加のステップと共に示されている。
【0038】
図1Bのルーチン11’は、MP3、M4A、DSD、またはWAVファイルなど、いくつかの既知の可逆および不可逆技術を使用して符号化することができるオーディオ波形のオーディオデータ101から開始することができる。オーディオデータ101は、コンピュータシステムの入力を使用して受信することができ、またはデータベースから取得することができ、このデータベースは、例えば、コンピュータシステムに対してローカルであるか、インターネットを介して取得することができる。オーディオデータ101が取得されると、複数の異なる客観的オーディオメトリック111、112、113が、コンピュータシステムのプロセッサによって別々に実行され、1拍当たりのラウドネス、ラウドネス帯域比率、ピッチメロディアなどの1次データをオーディオデータ101から抽出する。次のオプションのステップでは、後処理ルーチン111’、113’を、プロセッサを用いて実施し、閾値を用いた後続の検出処理のためのデータを準備することができる。後処理ルーチン111’、113’は、例えば、ローパスエンベロープを使用して1拍当たりのラウドネスデータを変換することを含むことができる。次のステップでは、各メトリックについて、上位または下位四分位関数などの、上方または下方境界閾値121、122、123が、プロセッサを使用して、データの分布に基づいて出力データに適用され得る。次のステップでは、前のステップでの閾値121、122、123の適用に基づいて、検出アルゴリズム130が、プロセッサを使用して、閾値要件を満たすデータのセグメントを識別する。検出アルゴリズム130は、いくつかの実施例では、選択されたセグメントが規定された数の連続する拍にまたがる必要性を指示する要件などの要件を強制することができる。例えば、少なくとも2秒、または2~10秒、または1~30秒などである。検出アルゴリズム130は、検出をバイナリマスクとして出力することができる。
【0039】
信号内のチル誘発特徴を検出する一般的な必要性は、信号の変化、特に突然の変化または集中的な変化を表す領域をハイライトすることを伴う。例えば、アーティストおよび作曲家は、あるパッセージに注意を引くためにラウドネスを増加させ、一般的にラウドネスの変化が劇的であればあるほど、聞き手は反応する。信号内の関連するセグメントを検出することは、通常、録音内の相対的な最高または最低の領域を識別することを伴う。上位または下位四分位数などの閾値を採用することで、本開示の態様は、特定の曲の中で確立されたデュナーミクの範囲に対して最も変化の大きい領域を検出する。異なるジャンル内、さらにはあるジャンル内の個々の曲の間でも、デュナーミクの範囲の多様性が広く存在する可能性があり、絶対的な閾値を使用すると、ほとんどの音楽に対して望ましくない過選択または過小選択が発生する可能性があるため、分位数に基づく閾値の相対性(例えば、上位25%)の使用が有利である。さらに、特定の録音の信号の変化量が少ない場合(例えば、ラウドネスが一定)、ラウドネスの上位四分位数は、後続の組み合わせルーチンの他の特徴と有意に整合する可能性が低い、曲全体にわたり小さく分散した領域を選択する傾向がある。しかし、信号のピークが特定の領域に集中している場合、分位数に基づく閾値は、後続の組み合わせルーチンで他の目的の特徴と同時に整合する傾向がある首尾一貫した領域を選択する。本開示で例示する特徴検出の大部分は、分位数に基づく閾値法を採用しているが、分位数に基づく閾値法では検出されず、本書の他の箇所で説明する別の技術を採用する特徴(例えば、キー変化)もある。
【0040】
個々のセグメントが識別された後、それらの検出は、組み合わせルーチン140に提供され、これは、プロセッサを使用して、セグメントを集約し、選択されたセグメントがどこで重なる(例えば、一致する)かを決定し、より高い数値の「スコア」が適用される。その結果、データプロット内の選択間に重なりがない場合、スコアは最低となり、データプロット内の選択間に完全な重なりがある場合、スコアは最高となる。本明細書ではチルモーメントプロットと呼ばれる、結果として得られるスコアリングデータは、それ自体、この段階で新しいデータプロットとして出力および/または視覚的に表示され得る。ルーチン11’は、フレーズ識別ルーチン150を実行する後続ステップを含むことができる。このステップ150において、組み合わせルーチンの出力は、プロセッサを使用して、高いスコアおよびセグメントを含むセクションについて分析される。最も高い総合スコア値を有するセグメントは「一次チルフレーズ」とみなすことができ、より低いスコアを有する(しかし、それでも選択されるための基準を満たす)識別されたセグメントは「二次チルフレーズ」とみなすことができる。後続のステップにおいて、チルフレーズは、識別された各フレーズの始点および終点を示すタイムスタンプの形態のデータとして出力される161ことができ、かつ/または、元のオーディオデータ101の「チルフレーズ」セグメントのみを含むように作成されたオーディオファイルとして出力される161ことができる。
【0041】
プロセス10は、ルーチン11、11’の実行中に生成されたデータのいずれかを記憶するストレージルーチン12を含むことができる。例えば、チルモーメントプロットデータおよびチルフレーズは、タイムスタンプおよび/またはデジタルオーディオファイルのいずれかとしてデータベース170に記憶され得る。データベース170はまた、元のオーディオデータ101を記憶することができ、および/または元のオーディオデータ101のソースとなることができる。
【0042】
プロセスの任意の部分は、ユーザーがプロセス10の任意のステップを実行し、プロセス10の出力データおよび入力データを観察し、かつ/またはプロセス10の実行に関連する任意のパラメータを設定もしくは変更することを可能にするためのグラフィカルユーザーインターフェースの操作を含み得る。プロセス10はまた、ユーザーが蓄積データベース170に問い合わせることを可能にするインターフェース(例えば、グラフィカルユーザーインターフェースおよび/またはデータを受信するための別のコンピュータシステムとのインターフェース)を含む検索ルーチン13を含み得る。ユーザーは、例えば、曲名、アーティスト名、曲の出版年、ジャンル、または曲の長さなどのいくつかのメタデータ基準だけでなく、チルスコアリングで最高ランクにランク付けされた曲についてデータベースを検索する180ことができる。ユーザーインターフェースは、ユーザーが、チルフレーズタイムスタンプならびに他の標準的なメタデータを含む選択された曲の詳細を見ることを可能にすることができる。ユーザーインターフェースはまた、例えば、チルフレーズオーディオの再生を可能にするとともに、チルフレーズがオーディオのどこに存在するかを示すマーキング(例えば、選択された曲の波形グラフィック上のオーバーレイ)を伴う曲全体の再生を可能にする出力190とインターフェースすることもできる。出力190はまた、ユーザーが、プロセス10の動作で生成されるかまたはそれと関連付けられたデータのいずれかを転送、ダウンロード、または閲覧することを可能にすることができる。
【0043】
図2Aは、デジタル音楽ファイルの例としての波形201の時間(x軸)に対する振幅(y軸)のグラフ200である。
図2Aの波形例は、
図2Bおよび
図2Cに示されるオーディオメトリックの出力と同様に、完全に架空のものであり、例示のみを目的としている。動作において、本開示の実施例は、2つ以上の客観的オーディオ処理メトリック(
図1Bの111、112、113)を波形201に対して実行して出力データを生成することを含み、その一例が
図2Bに示される。
【0044】
図2Bは、第1の代表的な客観的オーディオ処理メトリック(例えば、
図1Bの111)の例としての出力21のプロット211を、識別されたGLIPh204の対応する出力マスク221と共に含む。
図2Bにおいて、出力21は最小値から最大値までの範囲であり、検出アルゴリズム(例えば、
図1Bの130)が、出力が検出基準(例えば、閾値201)を満たす個々の音響事象を出力21から抽出することを可能にするために、閾値201を適用することができる。
図2Bに示す検出基準は、出力21の値の単純な上位五分位数であるが、他の、より複雑な検出基準も可能であり、適用前に後処理111’ステップ(例えば、一致する音符間のハーモニーを検出するために微分またはフーリエ変換を行うこと)を必要とする場合がある。さらに、後処理111’を使用して、時間領域を処理間隔(例えば、0.1ms)から拍ごと(per-beat)に変更することができる。さらに、後処理111’を使用して、周波数領域の処理を時間領域の出力に変換することができる。拍ごとの時間フレームを使用することで、テンポが交絡要因にならないように、メトリックが曲の基本「原子」に対して適応的になることができる。粒度のレベルは、ピッチのようないくつかの特徴、またはスペクトルフラックスもしくはスペクトルセントロイドのような他の多くの特徴をカプセル化したより高いレベルの特徴ではより深くすることができるが、このレベルは、効果的な結果を得るために拍レベルよりはるかに小さくする必要はない。
【0045】
図2Bにおいて、検出基準(例えば、閾値201)が適用されると、検出アルゴリズム130は、出力21を、検出が行われた時間領域では正(例えば、値1)であり、検出間の時間領域ではヌル(例えば、値0)である、個々の検出事象204(本明細書では、GLIPhとも呼ばれる)のバイナリマスク221に変換する。出力マスク221は、組み合わせアルゴリズム(例えば、
図1Bの140)への1つの入力として提供され、別の入力マスクは、
図2Cに示すように、同じオーディオ波形(
図2Aの201)を処理する第2のメトリックからもたらされる。
【0046】
図2Cは、第2の代表的な客観的オーディオ処理メトリック(例えば、
図1Bの112)の例としての出力22のプロット212を、識別されたGLIPh207の対応する出力マスク222と共に含む。
図2Cにおいて、出力22は最小値から最大値までの範囲であり、検出アルゴリズム(例えば、
図1Bの130)が、出力が検出基準(例えば、閾値202)を満たす個々の音響事象を出力22から抽出することを可能にするために、閾値202を適用することができる。
図2Cに示された検出基準は、出力22の値の単純な上位四分位数であるが、他の、より複雑な検出基準も可能であり、メトリックの出力22で検出されるGLIPhの性質に依存することができる。
【0047】
図2Cにおいて、検出基準(例えば、閾値202)が適用されると、検出アルゴリズム130は、出力22を、検出が行われた時間領域では正(例えば、値1)であり、検出間の時間領域ではヌル(例えば、値0)である、個々の検出事象207(本明細書では、GLIPhとも呼ばれる)のバイナリマスク222に変換する。出力マスク222は、
図2Dに示すように、
図2Bの入力マスク221と共に、組み合わせアルゴリズム140への入力として提供される。
【0048】
図2Dは、
図2Bおよび
図2Cの2つのメトリックからの検出のマスク221、222のプロットと、第1および第2の代表的な客観的オーディオ処理メトリックの識別されたGLIPhに基づいて使用する組み合わせアルゴリズム140の例としての出力(例えば、チルモーメントプロット)のインパクトプロット230とを含む。
図2Dのインパクトプロット230において、マスク221、222は集約され、一致する検出が加えられて、両方のマスクが正である(例えば、一致値2)第1の領域238、一方のマスクのみが正である(例えば、一致値1)第2の領域239、およびその間のヌル領域を作成する。場合によっては、入力マスク221、222は時間領域間隔(例えば、拍ごと)を有するが、これは必須ではなく、インパクトプロット230は、第1の領域238および第2の領域239を構築するために、任意の時間領域間隔(例えば、最小x軸間隔)を使用して作成することができる。場合によっては、また本明細書でより詳細に示すように、第1の領域238および第2の領域239の移動平均を作成し、インパクトプロット230に含めることができる。チルモーメントプロットのピークを表す第2の領域238を使用して、
図2Eにオーディオデータのピークモーメント280として示すように、個々のタイムスタンプを
図2Aのオーディオ波形にマッピングし直すことができる。これらのピークモーメント280を使用して、フレーズ検出アルゴリズム(例えば、
図2Bの150)は、ピーク280が存在し、場合によっては、識別されたフレーズ290の位置に対応するタイムスタンプ298、299の出力データを作成するためにクラスター化された、時間領域内のインパクト領域290を識別することができる。
【0049】
オーディオ処理例
図3A~
図3Eは、本開示の実施形態による2つの客観的オーディオ処理メトリックを使用する例としてのオーディオファイルの処理ステップを示し、
図4A~
図4Cは、第3のメトリックを追加した同じオーディオファイルの処理を示す。
【0050】
図5A~
図5Fは、本開示の実施形態による3つの客観的オーディオ処理メトリックを使用した、異なる例としてのオーディオファイルの処理ステップを示し、
図6A~
図6Cは、第4のメトリックを追加した同じオーディオファイルの処理を示す。
【0051】
図7および
図8はそれぞれ、異なる例としてのオーディオファイルを用いた、本開示の実施形態による8メトリック処理例を示す。
【0052】
図3Aは、x軸に沿った秒単位の時間とy軸に沿った振幅を有するオーディオデータのグラフ300である。
図3Aにおいて、示されたオーディオデータは、デジタル音楽ファイルにおいて符号化された波形の視覚的な図である。オーディオ波形データは、1秒当たりのサンプル数でのオーディオ信号の周波数の振幅によりデジタル的に表すことができる。このデータは、ファイルタイプに応じて、圧縮されていても圧縮されていなくてもよい。
図3Aは、オーディオデータを振幅のベクトルとして示しており、各値はサンプルごとの元のオーディオファイルの周波数値を表す。
図2の例としてのオーディオファイルでは、オーディオデータのサンプリングレートは44.1kHz、ビットレートは128~192である。
【0053】
図3Bは、
図3Aのオーディオデータを入力として用いた客観的オーディオ処理メトリックの出力のグラフ311である。
図3Bの実施例では、メトリックは、全スペクトルにわたるオーディオ信号の拍のスペクトルエネルギーであり、グラフ311は、本開示の第1の客観的オーディオ処理メトリック111の実施形態の出力を視覚的に示す図である。
図3Bに示すデータは、
図3Aのオーディオ波形のそれぞれの拍の一般的なラウドネスを表す。このデータから、閾値301に基づいて上部エンベロープと下部エンベロープを生成することができる。
図3Bでは、閾値301は振幅の上位四分位数であり、この上位四分位数に属するセグメントが検出され、検出された各セグメントについて拍が存在する開始時点および終了時点として保存される。上位四分位数は代表的な閾値であり、他の値も可能である。一般に、閾値301は相対値(例えば、平均の上位20%もしくは最大値の20%など、データの値に基づく値)または絶対値(例えば、データに基づいて変化しない値)に基づくことができる。絶対値は、例えば、データがメトリックの一部として正規化されている場合(例えば、メトリックの出力値が0~1である場合)、または、周波数がオーディオデータを記録するためのより厳密なパラメータであるため、出力値が周波数に依存する場合に、使用することができる(例えば、音の振幅は、音量を上げたり下げたりするなど、データの性質を変えることなく、所与のオーディオデータに対してスケーリングすることができるが、絶対周波数は、通常、記録および処理中に保存され、通常、データの性質を変えることなく変更することはできない)。ラウドネスの増加は、聞き手にとって最も基本的なチル反応誘発物の1つであり、ラウドネスの始点と終点は、以下でさらに詳細に示すように、
図3Aのオーディオ波形の曲の中で最もインパクトのある瞬間を計算する、組み合わせアルゴリズムへの入力の1セットとして使用することができる。組み合わせアルゴリズムの出力は、本明細書では、互換的にチルモーメントデータまたはチルモーメントプロットとも呼ばれる。
【0054】
図3Cは、
図3Aの波形に対して実行される本開示の第2の客観的オーディオ処理メトリック112の実施形態の出力を示す3つのグラフ312a~cのセットである。3つのグラフ312a~cの各々は、オーディオ信号の周波数範囲(例えば、第1のグラフ312aでは20~400Hz、第2のグラフ312bでは401~1600Hz、第3のグラフ312cでは1601~3200Hz)によってそれぞれが表される、3つの異なるエネルギー帯域312a~cのうちの1つにおける拍のスペクトルエネルギーを図示する。
図3Cの振幅データは、3つのエネルギー帯域内の録音の各拍の一般的なラウドネスを、全エネルギーの比率として示している。各エネルギー帯域312a~cにおいて、下部エンベロープを生成するために閾値302が適用される。
図3Cでは、閾値302は、計算され得るエンベロープデータの上位四分位数を表し、後処理ルーチンは、すべての帯域312a~cについて、すべての帯域が閾値302を下回るオーディオデータ中の瞬間を検出するために使用される。これらの検出された瞬間は、周波数のバランスが取れている場所であり、音楽のすべての「楽器」が一度に演奏されている場所を表す(例えば、アンサンブル対ソロ)。例えば、楽器の出だしは聞き手にチル反応を誘発する可能性があるため、すべての帯域について帯域がすべて閾値を下回る、検出された始点と終点は、組み合わせアルゴリズムの入力として使用されるように
図3Bのラウドネスメトリック処理出力の検出されたセグメントと組み合わせられる始点と終点を計算するために使用され、その出力は
図3Dに示され、
図3Bおよび
図3Cの客観的オーディオ処理メトリック(例えば、1拍当たりのスペクトルエネルギーと、3つの別々のエネルギー帯域における1拍当たりの一致するスペクトルエネルギー)に基づいて、曲の最もインパクトのある瞬間を表す。
【0055】
さらに、
図3Cは、各エネルギー帯域に適用される同じ閾値302を示すが、ある場合には、この閾値302は、各エネルギー帯域におけるメトリックの値に対してのみ関連し(例えば、すべての帯域312a~cにおける値の上位20%ではなく、第1の帯域312aにおける値の上位20%)、他の場合には、異なる閾値が、各エネルギー帯域において使用され、どの帯域が使用されるか、および/または個々の帯域の数もしくはサイズに応じて変化し得る。ある場合には、各エネルギー帯域312a~cにおいて閾値302を使用する検出アルゴリズムは、いずれか1つの帯域312a~cにおいて閾値が満たされる場合に正の検出を返し、他の場合には、検出アルゴリズムは、すべての帯域312a~c、いくつかの帯域312a~c、ほとんどの帯域312a~c、またはそれらの任意の他の組み合わせにおいてそれぞれの閾値が満たされる場合に正の検出を返す。さらに、閾値は、メトリックの平均に対して20%の値であるとして議論されてきたが、これは、代替的に、最大値および最小値に関連し得る。また、20%(例えば、上位五分位数)が本開示全体を通じて使用されているが、上位四分位数、上位半分、またはそれを上回るかもしくは下回るなど、他の閾値も可能である。
【0056】
一般的に、最終的な目的は、曲に対して、また、複数の異なるメトリックの組み合わせにわたってピーク値を見つけることであるため、高すぎる(例えば、0.1%)かまたは低すぎる(例えば、80%)閾値を選択すると、検出が一般的になりすぎるか、または稀になりすぎることによって、組み合わせ内のメトリックからの検出の貢献が有効に否定される。これが、実際の音楽において、1つの個別のメトリックがチル誘発瞬間とロバストに相関することができない理由の一部である。任意の個々のメトリックとの相関の強さと閾値の値との間のバランスを決定することができるが、より簡単なアプローチは、1つの音響特性だけではチルを誘発することを強く予測できないことが研究で示されているため、任意の1つのメトリックにおけるピークが必ずしもチルを誘発する可能性が最大の瞬間ではないことを立証することである。
【0057】
むしろ、本発明者らが発見し、検証したのは、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を持つ音響的瞬間に関連するのは、個々のメトリックにおける相対的な上昇の一致であるということであり、これらの相対的な上昇を検出することは、正確な閾値に強く依存するものではなく、むしろ、より単純に、曲の全体を通して、各個々のメトリックにおける上昇の一部から大部分が検出されることを必要とし、これは、ある範囲の閾値によって達成することができる。例えば、閾値は50%(例えば、上昇の定義)より大きく、1%(例えば、曲の合計1/100の瞬間)に達し、この上限値は、聞き手に印象付け、反応されるためには、チルを誘発する瞬間は、音楽の数拍超続く必要があるという考えに基づいている。したがって、交響曲全体のような非常に長い楽曲が処理されている場合、曲の1/100は、数拍よりかなり多くを表し得、よって、一般的に、すべての複雑なオーディオデータ(例えば、ポップミュージックおよび交響曲の両方)に対して、最大閾値を確立することはできない。
【0058】
検出アルゴリズム130は、曲の中でメトリックの値が閾値超である瞬間を識別し、これらの瞬間を、これらの瞬間中の正の検出として新たなデータセットに出力するプロセスである。
【0059】
図3Dは、
図3Bおよび
図3Cの第1および第2のオーディオ処理アルゴリズムの出力において検出アルゴリズム130によって識別された検出(例えば、それぞれの閾値を超える各メトリック出力中のセグメントであるGLIPh)を使用して実行された組み合わせアルゴリズム140の出力のインパクトグラフ330である。
図3Dは、組み合わせアルゴリズムの出力に基づくフレーズ検出アルゴリズム150の出力も含む。
図3Dのチルモーメントプロット360を生成するために使用される例としての組み合わせアルゴリズム140は、
図3Bおよび
図3Cの客観的オーディオ処理メトリックの出力における検出の一致を集約することによって動作する。
【0060】
例としての組み合わせアルゴリズムは、以下のように動作することができる:曲のそれぞれの拍について、その拍のラウドネスがメトリックのその特徴に対する閾値より上に上昇する(例えば、検出アルゴリズムが、
図3Bのラウドネスメトリック出力において、1つ以上の拍または時間セグメントについて正の値を返す)場合、組み合わせアルゴリズムは、検出アルゴリズムによって返された各拍または時間セグメントの集約値に1*の重みを追加する。同様に、帯域比率当たりの1拍当たりのラウドネスの値が、その特徴がその特徴に対する閾値未満であることを示す場合、メトリックは、帯域比率当たりの1拍当たりのラウドネスのための1*の重みを集約値に加えることができる。曲の各拍は、メトリックに対して「オン」または「オフ」であるとみなされ、それらのバイナリ特徴は、各メトリックの重みを乗算され、各拍について合計される。これは、加えられるメトリックに関係なく、組み合わせアルゴリズムの一般的なデザインである。
図3D4では、y軸は0、1、2の値に対応し、各メトリックの重みは単純に1に設定される。このプロセスの出力は、拍ごとの時間ステップに基づくステップ状の表示を有するチルモーメントプロット360である。組み合わせアルゴリズムはまた、数拍にわたるチルモーメントプロット360の値を示す、チルモーメントプロット360の移動平均361を生成することができる。
図3Dでは、チルモーメントプロット360は(0~2の元の値から)0~1の範囲に正規化されていることに留意されたい。
【0061】
フレーズ検出アルゴリズム150は、チルモーメントプロット360を入力として使用して、両方のメトリックがそれぞれの閾値を超える時間領域中の領域380を識別することができる。最も単純な形では、フレーズ検出アルゴリズム150は、これらのピーク領域380をフレーズとして返す。しかし、数拍しか離れていない音楽中の2つの短い瞬間は、人間の聞き手によってあまり独立して処理されないため、インパクトのある瞬間(または自律神経系の心理的反応を引き起こすのに適した特性を持つ瞬間)を識別する観点からは、一緒にクラスター化された複数のピーク領域380は、より正確には、1つの音響「事象」とみなされる。したがって、フレーズ検出アルゴリズム150のよりロバストな構成では、ピーク領域380のグループの周囲にウィンドウを確立し、ピーク領域380の1つのグループが別のグループから分離する位置を決定することを試みることができる。
【0062】
図3Dのフレーズ検出アルゴリズム150の構成では、移動平均361の他に、上限371と下限372を考慮する。移動平均361は、ピーク381を「1」に設定するように別途正規化される。
図3Dでは、上限371は約0.65、下限371は約0.40である(正規化されたインパクト等級に対して)。
図3Dのフレーズ検出アルゴリズム150の構成では、移動平均361が上限371を上回ると、ピーク領域380が識別されたフレーズ390の一部とみなされる。次に、フレーズ検出アルゴリズム150は、移動平均361が下限372を下回るピーク領域380の前後の時間に基づいて、識別された各フレーズ390の始点および終点を決定する。いくつかの実施例では、単一の境界(例えば、上限371)のみが使用され、上限371および下限372の値は、使用されるメトリックの数、移動平均361の時間平均長に、また、閾値が高いほど一般的に持続時間検出領域が短くなるため、個々のメトリックに使用される閾値に、部分的に依存する。
【0063】
注目すべきことに、複数のメトリックが使用される場合(例えば、8つ以上)、ピーク領域380は1つしか存在しない可能性があり、ピーク領域380の値は、最大インパクト等級でない可能性がある(例えば、ピーク領域は、8つのメトリックおよび等しい重み付けを仮定すると、可能な8のうちの7の値に対応する可能性がある)。したがって、ピーク領域380は、フレーズ検出アルゴリズム150によって全く使用される必要はなく、フレーズ検出アルゴリズムは、代わりに、移動平均361(またはチルモーメントプロット360の別の時間平滑化関数)が上限371を超えていることに完全に依存して、フレーズが識別されるべき瞬間を確立することができる。また、追加のメトリックの使用は、1つ以上のピーク領域380が、チルモーメントプロット361の他の上昇した領域から十分に隔離され、かつ/または、十分に短い持続時間であることを妨げず、移動平均361は、上限371を超えて上昇せず、したがって、フレーズ検出アルゴリズム150は、それらの1つ以上のピーク領域380の周囲でフレーズを識別しない。
【0064】
ある場合には、
図3Dに示すように、識別された各フレーズ390に小さなリードインおよび/またはリードアウト時間バッファを追加することができ、例えば、移動平均361が下限372をリードインまたはリードアウトバッファを越えて下回った場合にのみ、識別されたフレーズ390の開始または終了が確立され、これにより、識別されたフレーズ390の前または後の任意の音楽の「ビルドアップ」または「レットダウン」期間を捕捉する際の不正確さを、任意のインパクトのある瞬間の前および/または後の少なくとも数拍が識別されたフレーズ390において捕捉されることを保証することによって説明する。さらに、これは、聞き手にとって単一のインパクトのある瞬間と主観的にみなされ得るものを分岐させる移動平均361の短い下降(dip)を防ぐことができるが、
図3Dに示され、以下でさらに詳細に説明されるように、そのような分岐は、
図3Dで依然として見られ、また検出され得、十分に近い場合、および/または十分に短い場合に、分割された識別されたフレーズ390がマージされる。いくつかの実施例では、また
図5Eに関してさらに詳細に説明するように、フレーズ検出アルゴリズム150は、識別されたフレーズ390の長さ、チルモーメントプロット361および/もしくは移動平均361のピークの強さもしくはピークへの近さ、ならびに/または移動平均361の屈曲に基づいて、リードインおよび/またはリードアウト時間バッファの長さを動的に調整することもできる。場合によっては、識別されたフレーズ390の開始および停止の瞬間は、チルモーメントプロット360が閾値を下回るか、またはゼロになることによってトリガーされ得る。
【0065】
フレーズ検出アルゴリズム150は、
図3Dに「一次」として示されているように、単一の一次フレーズを識別することもできる。フレーズ検出アルゴリズム150は、例えば、識別された各フレーズ390について、識別された各フレーズ390の移動平均361もしくはチルモーメントプロット360の平均、および/または上限371を超えている、移動平均361の持続時間を比較し、より高い値を有する識別されたフレーズ390を一次フレーズとして識別することによって、単一の一次フレーズを識別することができる。さらに、
図3Dに示されるように、2つの識別されたフレーズ390が互いにすぐ隣接している場合があり、フレーズ検出アルゴリズム150の出力において(
図3Eに示されるように)1つの識別されたフレーズ390へと組み合わせられ得る。
【0066】
フレーズ検出アルゴリズム150は、
図3Eに示すように、識別されたフレーズ390のタイムスタンプを出力し、これを元のオーディオ波形上に直接マッピングすることができる。
図3Eは、
図3Aの波形のグラフ340であり、識別されたフレーズ390とそれらに関連するタイムスタンプ398、399を示す。
【0067】
図4A~
図4Cは、
図3Aのオーディオサンプルのチルモーメントプロット360および識別されたフレーズ390が、第3の客観的オーディオ処理メトリックである、優勢ピッチメロディアが追加されたときにどのように変化するかを示す図である。
図4Aは、
図3Aの波形に基づく優勢ピッチメロディアメトリックの出力のグラフ413であり、検出アルゴリズム130によって使用するために閾値を設定する(thresholded)ことができる。
図4Aは、周波数値としての各瞬間の優勢ピッチ値、および信頼値(
図4Aには図示されていないが、アルゴリズムが優勢ピッチをどの程度明確に見ているかを表す)を表す。この新しいメトリックは、ピッチの周波数値に信頼値を乗算することで作成される。このデータは、次に、
図3Aおよび
図3Bで行われたのと同じ方法で、上位四分位数(図示せず)を使用して閾値が設定され、データがその閾値を超えている前後の時間についてイン点とアウト点が保存される。作曲家および音楽家は、メロディに注意を喚起する方法として、演奏中にメロディを高くすることがよくあり、高いピッチは聞き手にチル反応を誘発することが知られているため、優勢ピッチメロディアは、メロディが「最も高く」「最も強い」場所を見つけるように設計されている。ピッチメロディア出力の閾値検出は、ピッチ周波数に信頼値を乗じたものに基づいており、これは、その後正規化され、例えば上位四分位数を用いて閾値が設定される。次に、検出アルゴリズム130からの始点と終点が、
図3Aおよび
図3Bのメトリックと同じ方法で組み合わせアルゴリズム140に集約され、フレーズ検出アルゴリズム150が再実行され、
図4Bのインパクトグラフ431のチルモーメントプロット460、移動平均461、および識別されたフレーズ490が生成される。
図4Bのインパクトグラフ431において、y軸値は、第3のメトリックの追加を反映するために、0、1、2、3から0~1に正規化される。結果として得られた識別されたフレーズ490は、
図4Cのオーディオ波形上にマッピングされ、これは、識別されたフレーズ490のタイムスタンプ498、499と、(
図3Eに示すような)2つのメトリックのみを使用した識別されたフレーズ390のタイムスタンプ398、399との比較も示している。第3のメトリックの追加は、移動平均361、461のピーク381、481の位置を実質的に変化させなかったが、識別されたフレーズ390の持続時間は両方ともわずかに縮小し、これは、最もインパクトのある瞬間の検出における精度の向上を示すことができる。さらに、
図4Bの移動平均461の最高ピーク481は、
図3Dの移動平均361の最高ピーク381よりも、隣接するピークを越える高い突出度を有しており、これも、この特定のインパクトのある瞬間の時間的位置に対する信頼性が向上していることを示すことができる。
【0068】
相対的なラウドネス、楽器の出入り、相対的なピッチの上昇などの、チル誘発物は、人間に生理学的反応を引き起こすという点である程度の普遍性を持っているため、本開示の実施例では、場合によっては2つのメトリックの最小限の組み合わせを使って、基本的にあらゆるタイプおよびジャンルの音楽にわたって、適切なセグメントをロバストに識別することができる。音楽は無媒介のものであり、無意識のプロセスであることが研究で示されている。聞き手は、歌詞に使われている言語を理解する必要はなく、音楽に反応するためにその音楽が生まれた文化圏の出身である必要もない。開示されたアルゴリズムは、主に音響学的に、ほぼ普遍的なものである人間の報酬中枢を活性化させる生理学的反応を誘発することが示された聴覚的特徴に焦点を当てており、アルゴリズムによって識別された聴覚的特徴の多様性により、その結果得られたメトリックのうち2つでも一致させることで、本質的にあらゆるジャンルの音楽にわたり、自律神経系の生理学的反応を引き起こすのに適した特性を持つ音楽セグメントを識別することができる。
【0069】
図5Aは、異なるデジタル音楽ファイルの波形のグラフ500である。
図5Bは、
図5Aの波形入力上のラウドネスメトリックからの出力のグラフ511であり、検出アルゴリズム130で使用するための対応する閾値501を示す。
図5Cは、3つの異なるエネルギー帯域512z、512b、512cにおける、
図5Aの同じ入力波形上のラウドネス帯域比率メトリックからの出力のグラフ513であり、それぞれの閾値502が検出アルゴリズム130で使用される。
図5Dは、優勢ピッチメロディアメトリックからの出力のグラフであり、それぞれの閾値503が検出アルゴリズム130で使用される。
【0070】
図5Eは、
図5B~
図5Cのメトリックの検出を入力として使用する組み合わせアルゴリズム140から出力されるチルモーメントプロット560を示すグラフ530であり、チルモーメントプロット560の移動平均561も示す。
図3Dおよび
図4Bの結果と同様に、チルモーメントプロット560におけるピーク480、および移動平均561におけるピーク481が存在しており、移動平均561が上限571を超えている場合、フレーズ識別アルゴリズム150は識別されたフレーズ590を生成している。
図5Eのフレーズ識別アルゴリズム150の構成では、識別された各フレーズ590の始点および終点は、移動平均561が下限572を下回る位置591の前後の移動平均561の屈曲点592によって決定される。
図5Eは、識別された各フレーズについてフレーズ識別アルゴリズム150によって出力されるタイムスタンプ597、598、599を示す。
図5Eのフレーズ識別アルゴリズム150はまた、第3のフレーズを「一次」として分類しており、これは、上限571もしくは下限572のいずれかを超える移動平均561もしくはチルモーメントプロット560の持続時間の関数として、ならびに/または、屈曲部592および/もしくは移動平均561が下限572を下回る位置591の間の移動平均561もしくはチルモーメントプロット560の平均に基づいて行うことができる。ある場合には、図示しないが、フレーズ識別アルゴリズム150は、その後、一次フレーズに、30秒などの最小の長さを強制することができ、その結果、本明細書の他の実施例に示すように、一次フレーズが他のフレーズと重複することがある。フレーズ識別アルゴリズム150は、例えば、両方向に均等に、または移動平均561もしくはチルモーメントプロット560の値が高い方向に優先的に、種々の方法でフレーズの長さを延長することができる。
【0071】
一般に、これらのウィンドウ590の時間長さは、それらが最大時間特性内に発生する場合の隣接検出、または3つのメトリックのうちの2つがそれらの基準に達する頻度/密度の増加などの他の検出特性を捕捉するために、所定の最小値または最大値などの、いくつかの要因に対応し得る。さらに、
図5Eは、3つのメトリックを使用する実施例を示すが、本開示の実施例は、識別されたフレーズ590の数または長さ、グラフ530内および/または識別されたフレーズ590内の移動平均561またはチルモーメントプロット560の値および/または特性(例えば、速度変化)など、グラフ530の特徴のいずれかに応答して、組み合わせアルゴリズム140への入力としてメトリックを動的に追加する(または削除する)ことを含む。例えば、3メトリックの計算が3つのフレーズを返し、1つまたは2つのより多くのメトリックの追加がこの検出を2つのフレーズに減らす場合、2フレーズ出力が使用され得る。
【0072】
図5Eは、各メトリックのそれぞれの基準に基づく3メトリックの組み合わせを示し、2メトリックおよび4メトリック(またはそれ以上)の組み合わせが考慮され、いくつかの実施例は、組み合わせで使用されるメトリックの数に基づいて、各メトリックのそれぞれの検出基準を調整することを含む。例えば、2つのメトリックのみを組み合わせる場合、組み合わせアルゴリズムにおいて検出をより明確に識別できるようにするために、それぞれの基準を厳しくする(例えば、全体のメトリック出力に対する閾値パーセンタイルを下げる)ことができる。逆に、3つ以上のメトリックを組み合わせる場合、組み合わせアルゴリズムによって複数のメトリックの一致をより簡単に識別できるようにするために、それぞれの検出基準を緩める(例えば、全体のメトリック出力に対する閾値パーセンタイルを増加させる)ことができる。あるいは、各メトリックを組み合わせることは、各メトリックに重みを割り当てることを含むことができる。本明細書で提示される実施例では、各メトリックは1.0の重みで組み合わせられ、つまり、各メトリックの検出は、組み合わせアルゴリズム150において1として追加される。しかし、他の値も可能であり、組み合わせられる個々のメトリックに基づいて、あるいは、例えば、音楽のジャンル、またはそれぞれのオーディオ処理メトリックの出力、または組み合わせアルゴリズムで使用される他のメトリックからの出力のいずれかに基づいて動的に、割り当てることができる。
【0073】
実施例は、複数のメトリック(例えば、12以上)を実行し、可能なすべての組み合わせまたはそれ以上の組み合わせのマトリックスの組み合わせを生成することも含む。現在説明されているシステムおよび方法の構成は、そのようなマトリックスを不要にするように構成されているが(例えば、チルを誘発する特徴がオーディオ信号に存在する場合、メトリックがチルを誘発する音響特徴に正しく関連付けられる限り、メトリックの任意の組み合わせを使用して容易に識別される可能性が極めて高い)、学問的訓練として、個々のピークモーメント581をできるだけ正確に(例えば、1拍または2拍以内に)特定することが有用である場合があり、正確な位置は、メトリックの数および選択に対する感度となり得る。したがって、すべての可能な組み合わせのマトリックスの組み合わせで、組み合わせは、それ自体が平均化されるか、または外れ値からトリミングされてから平均化され(その結果は実質的に同一である可能性がある)、個々のピークモーメントを識別することができる。さらに、フレーズ識別アルゴリズム150をこのマトリックス出力に対して実行することもできるが、この結果も、組み合わせアルゴリズム140を使用して単一の組み合わせですべてのメトリックを使用すること、またはメトリックのより小さいサブセット(例えば、
図5Eに示すように、3)を使用することと、有意に異ならない場合がある。
【0074】
一般的に、これは処理能力の問題であると考えられる。例えば、音楽カタログの100万曲を本開示の実施例に従って処理する場合、3または12のメトリックを使用する選択は、処理時間と費用にかなりの差をもたらす可能性がある。したがって、メトリックの数を動的に調整することは、例えば、組み合わせアルゴリズム140を最初に3つのメトリックの組み合わせに実行し、その後、特定の条件が満たされた場合(例えば、ピーク581が突出していない)、第4のメトリックを、オンデマンドで実行し、これがピーク481の位置で所望の信頼性を達成するかどうかを判断するために追加することができれば、最も効率的となり得る。もちろん、処理能力に問題がなければ、100万曲すべてに対して8または12のメトリックを実行しても、有効な結果(例えば、識別されたフレーズ590のタイムスタンプ)が3または4のメトリックで生成された結果と有意に異なっていなくても、「最良」のデータを提供することができる。したがって、本開示の実施例は、他のメトリックとの組み合わせの結果との観察された一致の測定された強さに基づくメトリックの階層または優先リストを含むことができる。これは、例えば、あるジャンルの音楽の代表的なサンプルを12のメトリックのフルセットにわたり実行し、次に、すべての可能な組み合わせのマトリックスで、結果との一致に基づいてそれらのメトリックの階層を確立することによって、ジャンルごと(または他の任意の分離)に確立することができる。これは、そのジャンルの他の音楽を処理するときに使用する12未満のメトリックのサブセットとして確立され得る。代替的に、または追加的に、各メトリックからの検出のそれぞれの重みは、例えば、すべてのジャンルに対して12のすべてのメトリックの使用を維持するが、それぞれがマトリックスの結果との識別された一致に基づく固有の重みのセットを有する場合、同様の方法で調整することができる。
【0075】
図5Fは、
図5Aの元の波形上に表示された、
図5Eからの識別されたフレーズ590およびそれらの関連するタイムスタンプ597、598、599を示す。
【0076】
図6A~
図6Cは、別の適切なオーディオ処理メトリック(例えば、その他のものと同じ現象から関連するメトリック、この場合、チル誘発音響特性)を追加しても、結果が実質的に変わらない場合があることを示す。
図6Aは、
図5Aの波形を入力とし、関連する閾値604を用いた、別の適切な処理メトリックであるスペクトルフラックスの出力のプロット614である。
図6Bは、
図6Aのスペクトルフラックスメトリックからの検出を追加した、
図5B~
図5Dのメトリックからの検出に対して再実行された組み合わせアルゴリズム140およびフレーズ識別アルゴリズム150のグラフ613である。
図6Bは、結果として得られるチルモーメントプロット660、移動平均691、それぞれのピーク680、681、およびそれぞれのタイムスタンプ697、698、699、始点/終点692(例えば、移動平均が下限572を下回る位置691の前または後の移動平均690の屈曲部)を含むインデントされたフレーズ690を示す。
【0077】
図6Cは、
図5Aの波形と
図6Bの更新された識別されたフレーズとのプロット640である。
図6Cはまた、更新されたフレーズのタイムスタンプ697、698、699と、
図5Fの3メトリック出力結果の元のタイムスタンプ597、598、599との間の比較を示す。
図6Cにおいて、識別されたフレーズ690は、それらの検出長さがほぼ同じであることによって示されるように、
図5Eの識別されたフレーズ590と概ね整合している。一次フレーズの長さは、3メトリックの結果には存在しなかった移動平均661の(
図6Bの692’で示すような)ごくわずかな屈曲部の導入により短くなっている。一般的に、これは、ピーク事象を捕捉する際のフレーズの位置を有意に変更することなく、データのより多くの変動性を導入することによって、メトリックの追加がフレーズの長さをわずかに変化させることができる方法の例である。ただし、
図5Eと
図6Bの比較に示されるように、一次フレーズのピーク681の位置は変化しており、これは、識別されたフレーズ590の位置の信頼性は高いが、インパクトの正確なピークモーメント581、681の正確な位置が望まれる場合は、追加のメトリックが必要な場合があることを示している。しかしながら、他の非一次フレーズのピークの位置は、
図5Eと
図6Bとの間で有意に変化しなかったことに留意されたい。
【0078】
いくつかの実施例では、どのウィンドウが一次ウィンドウであるかの識別は、識別されたセグメントにおける検出の頻度および強度など、いくつかの要因に基づいていてよく、一次セグメントの識別は、例えば、識別されたウィンドウのうちの2つが検出強度(例えば、識別されたウィンドウにおける検出頻度)が実質的に類似しており、1つのメトリックを別のメトリックに入れ替えることでウィンドウ自体の検出を変えることなく各ウィンドウにおける検出のバランスを微妙に変える場合に、変化し得る。さらに、メトリックを追加しても特定の曲の結果が実質的に変わらない場合、あるメトリックは多くの曲にわたって有効性(例えばロバストネス)を高める。したがって、例えばスペクトルフラックスを追加しても、特定のジャンルにおける1つの特定の曲の結果は変わらないかもしれないが、別のジャンルではチルフレーズの選択の信頼性が大幅に向上し得る。
【0079】
図7は、入力としてさらに別の曲波形を使用して生成され、曲波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す、プロット730、711~718のグループである。
図8では、オーディオ波形は、Billy J Kramerの「Bad to Me」という曲のデジタルコピーからのものであった。インパクトグラフ730は、チルモーメントプロット760および関連するピーク780を示し、フレーズ識別アルゴリズムの実施例によってチルモーメントプロット760中で識別された一次フレーズ790および二次フレーズ791を有する。
図7はまた、インパクトグラフ730を生成するための組み合わせアルゴリズムへの入力として使用される8つの客観的オーディオ処理メトリックからの個々の検出プロット711~718を示す。8つの客観的オーディオ処理メトリックプロットは、ラウドネス818、スペクトルフラックス712、スペクトルセントロイド713、非調和性714、臨界帯域ラウドネス815、優勢ピッチメロディア716、不協和音717、およびラウドネス帯域比率718である。操作において、8つの客観的オーディオ処理メトリックの各々は、(例えば、それぞれの閾値を使用して)GLIPhを生成するために処理され、GLIPhは、メトリックの対応する検出プロット711~718に示されるように、バイナリ検出セグメントに変換された。バイナリ検出セグメントは、組み合わせアルゴリズムを用いて集約され、インパクトグラフ730のチルモーメントプロット760を生成した。
【0080】
有利なことに、本明細書に開示される組み合わせアルゴリズムの実施例は、これら8つのオーディオ処理アルゴリズムからの個々の検出のすべての組み合わせが、上述したように、自律神経系の生理学的応答を引き起こすのに適したオーディオ特性を有するオーディオ波形内のセグメントまたは瞬間を識別することができる組み合わせアルゴリズムを作成することを可能にする。
図7の本実施例では、インパクトグラフ730のチルモーメントプロット760は、(例えば、プロット711~718に示されるような)各オーディオ処理アルゴリズムの検出の均等加重の組み合わせを用いて生成され、チルモーメントプロット760において最も高い加算値を含む組み合わせアルゴリズムからピークモーメント780が識別された。このピークモーメント780は、識別されたセグメントを表す斜線領域内に描かれた小さい内側ウィンドウ790によって囲まれる。このセグメントの長さは、最大検出値の1つ以上の領域を含むようにいくつかの方法で決定することができ、ここでは、単数の最大検出ピーク780のみがインパクトプロット730に存在し、内側ウィンドウ790は、識別されたセグメント790を定義するために、チルモーメントプロット760の隣接する局所最小値の間に延び、より大きなグレーのウィンドウ791は、内側ウィンドウを30秒のウィンドウに拡張する時間ベースの最小セグメント長の適用を表す。
【0081】
図7のオーディオ処理アルゴリズムの各々は、自律神経系の生理学的反応の誘発に関連することが知られているオーディオ特性の1つ以上を代表するものであるため、
図7の実施例に示すように、各オーディオ処理アルゴリズムからの出力711~718からの検出領域711’~718’を等しい重み付けで組み合わせることにより、本組み合わせ出力760(およびその結果としてのインパクトグラフ730)は、多様なジャンルの音楽にわたりオーディオ波形における最も「インパクトのある」瞬間をロバストに識別することができ、この識別されたインパクトのある瞬間は、各オーディオ処理アルゴリズムによって検出可能なオーディオ特性が自律神経系の生理学的反応を引き起こす責任が等しい(例えば、検出された一致に等しい重み付けを加える)ことに基づいて、聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する。これは、a)本開示の実施例を使用して、等しい重み付けを使用して、脳活動および組み合わせプロットにおける識別されたピークとの相関を決定し、b)等しい重み付けが、識別されたセグメントと音楽を聴いている被験者の脳活動のピークとの間に極めて強い相関を生成することを示し、c)等しい重み付けが、聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する瞬間を識別するのに十分であるという証拠である、以下でさらに詳細に説明する先行研究および進行中の研究の状態に部分的に基づいている。さらに、本開示の明確な利点は、音楽の複雑さにより、(上述した所望のタイプの)幅広い可能なオーディオ特性を検出するのに十分なオーディオ処理アルゴリズムのセットを使用するだけでなく、等しい重み付けにより、本ルーチンが最も幅広い音楽のジャンルおよびタイプにわたって有用となることを可能にすることである。逆に、メトリックの重み付け、および検出領域を生成するために使用される個々の閾値基準の調整は、特定のジャンルの音楽に対してより敏感になるように、本開示の実施例をさらに調整することができる。
【0082】
本開示の実施例には、(1)各オーディオ処理アルゴリズムからの出力における検出の重み付け、(2)(個別にもしくはすべてのオーディオ処理アルゴリズムにわたる)検出閾値基準、および/または(3)音楽のジャンルまたはタイプに基づく検出の時間最小長さに対して、各メトリックにおいて調整を行うことも含まれる。これらの例としての調整は、どのオーディオ処理アルゴリズムが互いに協調される可能性が高いか(例えば、インパクトプロットにピークを生成し、識別を引き起こす可能性が高いか) 対 1つ以上のオーディオ処理アルゴリズムにおける検出がその他のオーディオ処理アルゴリズムにおける検出と一致する可能性が低い非調整に関して、同じまたは類似のジャンルの音楽間の類似性により、出力の全体的なロバストネスを損なうことなく可能である。
図7の本実施例では、プロット714に示される非調和性メトリックの検出714’は、その他のオーディオ処理アルゴリズムの出力における任意の他の検出との相関が非常に弱い。これらの検出714’のこの相関の欠如がこのジャンルの音楽と関連している場合、外れ値メトリックの検出基準を増加させ、かつ/またはプロット714の検出セグメント714’の重み付けを減少させることにより、インパクトプロット730における結果として得られる識別(例えば、ピーク780およびセグメント790)の忠実度を増加させることができる。
【0083】
図8は、さらに別の曲波形を入力として使用して生成されたプロット830、811~818のグループであり、曲波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。
図8では、オーディオ波形は、Harry Nilssonの「Without You」という曲のデジタルコピーからのものである。インパクトグラフ830はチルモーメントプロット860を示し、フレーズ識別アルゴリズムの実施例によってチルモーメントプロット860内で識別された一次フレーズ890および二次フレーズ890を有する。
図8はまた、インパクトグラフ830を生成するための組み合わせアルゴリズムへの入力として使用される8つの客観的オーディオ処理メトリックからの個々の検出プロット811~818を示す。8つの客観的オーディオ処理メトリックプロットは、ラウドネス818、スペクトルフラックス812、スペクトルセントロイド813、非調和性814、臨界帯域ラウドネス815、優勢ピッチメロディア816、不協和音817、およびラウドネス帯域比率818である。操作において、8つの客観的オーディオ処理メトリックの各々は、(例えば、それぞれの閾値を使用して)GLIPhを生成するために処理され、GLIPhは、メトリックの対応する検出プロット811~818に示されるように、バイナリ検出セグメントに変換された。バイナリ検出セグメントは、組み合わせアルゴリズムを用いて集約され、インパクトグラフ830のチルモーメントプロット860を生成した。
【0084】
インパクトグラフ830では、一次および二次フレーズ890、891の両方が、等しい最大値のチルモーメントプロット860におけるピーク880を有する。一次フレーズ890は、ピーク値880におけるチルモーメントプロット860の持続時間が長いことにより、ここでは決定され、それに応じて30秒の固定長ウィンドウを受け取り、二次フレーズ891は、識別されたピーク880からチルモーメントプロット860の局所的な最小値までウィンドウを拡大することにより大きさを決定されたウィンドウを受け取った。識別された瞬間の前後の移動平均(running average)の変化のチルモーメントプロット860の局所的な速度変化を評価すること、および/または、聞き手に自律神経系の生理学的反応を引き起こすのに適した強い特性を有する波形の近傍領域を捕捉するためにウィンドウを拡張するために、チルモーメントプロット860の隣接するピークの強さを評価することなど、識別された瞬間の周りのフレーズウィンドウを拡張するための他の基準を使用することができる。この方法は、ある最小および最大時間ウィンドウ内で、可能な限り高い全体的な平均インパクトを有するウィンドウを生成する。
【0085】
インパクト曲線分類法
本開示の実施例には、本明細書に記載のチルモーメントプロットデータの実施形態を用いて作成された音楽分類法も含まれる。この分類法は、例えば、曲の中で最も高いかもしくは最も低いインパクトの領域が発生する場所、またはチルモーメントプロットの形状の任意の側面に基づくことができる。
図9A~
図9Dに4つの例を示す。
図9A~
図9Dは、4つの異なる曲における、移動平均(平滑線)961、961’、961”、961’’’を有する異なるチルモーメントプロット(ステップ状の線)960、960’、960”、960’’’、ならびに識別されたチルモーメントセグメントを示すウィンドウ971~976を示す。
図9Aは、Lez Zeppelinによる「Stairway to Heaven」であり、
図9Bは、The Policeによる「Every Breath You Take」であり、
図9Cは、Kanye Westによる「Pure Souls」であり、
図9Dは、Radioheadによる「Creep」である。本開示の実施例には、チルモーメントプロット、移動平均、および識別されたフレーズの様々な例を分類して、曲のインパクト分類法に基づいて音楽を検索することを可能にする検索可能なインパクト曲線分類を生成するシステムおよび方法が含まれる。例としての検索には、チルモーメントプロットまたは移動平均のピーク位置、フレーズの位置と持続時間、チルモーメントプロットまたは移動平均の変動性、あるいはチル生成要素の一致に関連する他の特性が含まれる。また、これにより、メディア制作者は、ビデオコマーシャルまたは長編特作映画の場合のように、曲のインパクトの概略を同期メディアと一致させることができる。
【0086】
客観的オーディオ処理メトリック
本開示の実施例は、2つ以上の客観的オーディオメトリックの出力を、本明細書ではチルモーメントプロットと呼ばれる単一のオーディオメトリックへと組み合わせるオーディオ処理ルーチンを提供する。しかし、「チルモーメントプロット」という名称は、複雑なオーディオデータ(例えば、音楽)において、「チル」として知られる、人間の聞き手における自律神経系の生理学的反応を引き起こすのに適した特性を有する瞬間を検出する本開示の実施例の能力を指す。これらの特性を有する瞬間を検出する本開示のオーディオ処理実施例の能力は、選択されたメトリックと、それらのメトリックの出力の処理との両方の関数である。したがって、メトリックのいくつかの選択ならびに/または検出および組み合わせアルゴリズムのいくつかの構成は、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した特性の検出の強さを増加または減少させるか、あるいは他の特性について検出する。他の特性を検出する最も単純な実施例は、検出アルゴリズム(例えば、客観的オーディオ処理メトリックの出力への閾値の適用)または組み合わせアルゴリズムを反転させることによって得られる。検出アルゴリズムを反転させる(例えば、上位20%超としてではなく、下位20%の閾値未満として正(positive)を検出する)ことで、一般的に、チルを引き起こすこととの関連性が最も低い瞬間を各メトリックで識別し、これらの検出の一致を組み合わせアルゴリズムで処理することで、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を持つ瞬間のピーク一致が返される。あるいは、検出アルゴリズムの動作を変えることなく、組み合わせアルゴリズム出力の最小値は、一般的に、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を持つ瞬間を表すこともできるが、各メトリックの出力における検出のために、より低い閾値が使用される場合よりも精度が低くなる可能性がある。したがって、この反転は、人間の聞き手に自律神経系の生理学的反応を引き起こすことに関連することが知られている音響特徴に個別に対応するメトリックを使用する場合に可能である。
【0087】
あるいは、異なる関連性を持つ他のメトリックを使用することもできる。例えば、音響的な複雑さ、または逆に音響的な単純さに関連する2つ以上のメトリックのセットなどである。これらの2つの例では、組み合わせアルゴリズムは、音響的な複雑さまたは単純さのピークモーメントまたはフレーズをロバストに検出することができる。しかし、全体的な複雑さまたは単純さは、音楽のすべてのタイプおよびジャンルに適用されるロバストな定義を欠いている可能性があり、これは、個々のメトリックの選択を困難にする可能性がある。いずれにせよ、本開示の実施例は、複数の異なる客観的オーディオ処理メトリックを利用して、複数のメトリックにわたる同時寄与を考慮した組み合わせメトリックを生成する方法を提供する。
【0088】
複雑さもしくは単純さといった、より漠然とした、または主観的な音響的説明とは対照的に、音楽を聴いたときの聞き手の自律神経系の生理学的反応の経験は、たとえそのような事象が一般的でないとしても、総合的な評価のための明確に定義されたテストである:聞き手は、曲を聴いている間にチル効果を経験するか、またはしないかのどちらかである。このバイナリテストによって、音響特性と聞き手が自律神経系の生理学的反応を経験する可能性との間に検証可能な関連性を確立する現象に関する研究が可能になった。この研究と、それに関連する定量化可能な音響特性は、自律神経系の生理学的反応を引き起こすのに最も適した特性を持つ任意の曲の1つまたは複数の瞬間を、人間の評価なしに決定するという現在の目的に関連すると考えられる一連のメトリックを確立するのに役立つ。さらに、音楽の複雑さと多様性の両方から、任意の1つの客観的オーディオ処理メトリックのみが、音楽中のチルを引き起こすピークの瞬間と確実かつ有意に相関され得るとは考えにくい。本開示の発明者らは、チルを引き起こす特性に関連する複数のメトリックにおける比較的上昇した(例えば、必ずしも最大ではない)事象の一致が、任意の単一のメトリックに関連する問題を解決し、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する複雑なオーディオ信号(例えば、音楽)における個々の瞬間および関連するフレーズをロバストに識別することができることを発見した。これに基づいて、例えば、潜在的な聞き手のチルの経験に関連する音響特性を識別することができる、2つ以上の個別の客観的オーディオ処理メトリックからの入力を組み合わせるための(本明細書で説明するような)組み合わせアルゴリズムが開発された。
【0089】
本開示の実施例には、曲のデジタル録音に見られる音響特徴に関連する客観的オーディオ処理メトリックの使用が含まれる。このプロセスは、外部ソースからのデータ、例えば歌詞データベースからの歌詞コンテンツに依存しない。基礎となる客観的オーディオ処理メトリックは、計算可能でなければならず、メトリックを計算するための「効果的な方法」が存在しなければならないという点で具体的でなければならない。例えば、.wavファイル、または.wavファイルに変換可能な任意のファイルとして保存された録音音楽からピッチメロディ情報を抽出するための多くの既知の効果的な方法がある。その場合、その方法はピッチ情報に依存し、特にチルを誘発することが知られているピッチメロディ情報を検索することができる。
【0090】
組み合わせて、チルを検出することが可能な客観的オーディオ処理メトリックは、社会的なコンセンサスに依存して、チルを生じさせることが知られている誘発物を決定することができる。これらは現在、チルに関する科学的研究、作曲家およびプロデューサーの専門的知識、ならびに音楽家の専門的知識から得られる。これらの多くは一般的に知られており、例えば、突然のラウドネスまたはピッチメロディである。インパクトのある音楽の瞬間を識別することが目的である場合、人間の肯定的な反応との関連を表すことが知られている(または実験を通して表すことが経験的に分かっている)任意の客観的オーディオ処理メトリックは、本明細書で説明するアルゴリズムアプローチに含められ得る。客観的によく定義されている代表的な例としてのメトリックには、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、メロディ、非調和性、不協和音、スペクトルセントロイド、スペクトルフラックス、キー変化(例えば、転調)、急激なラウドネス増加(例えば、クレッシェンド)、持続ピッチ、および高調波ピーク比が含まれる。本開示の実施例は、組み合わせアルゴリズムへの入力として、これらの例としてのメトリックのうちの任意の2つ以上を含む。これらの例としてのメトリックのうちの3つ以上の使用は、一般的に、ほとんどの音楽において最もインパクトのある瞬間の検出を向上させる。
【0091】
一般的に、3つ以上のメトリックを使用することで、より多様な音楽にわたって検出が改善され、それは、あるジャンルの音楽には共通の音響シグネチャがあり、そのようなジャンルでは、2つまたは3つのメトリックにおける一致は、8つ以上のメトリックを使用するのと同然となり得るためである。しかし、他のジャンル、特にそれらの2つまたは3つのメトリックに関連する音響シグネチャが一般的でなかったり、あまり動的でなかったりするジャンルでは、追加のメトリックを追加することで、より大きな恩恵が提供される。追加のメトリックを追加すると、特定のタイプの音楽において、組み合わせアルゴリズムの有効性が薄れたり、低下したりする可能性があるが、追加されたメトリックが、その他のメトリックとは異なり、かつ聞き手にチル現象を引き起こすことに関連している音響特性を測定している限り、追加されたメトリックを含めることで、すべての音楽タイプにわたり、組み合わせアルゴリズムの全体的なパフォーマンスが向上する。上に示した例としてのメトリックはすべて、どのような組み合わせで使用されてもこの基準を満たすが、基準を満たす場合には、いずれか1つのメトリックが別のものと置き換えられることを妨げるものではない。さらに、音楽の特定のジャンル内に存在する類似性を考慮すると、本開示の実施例には、音楽のジャンルが既知の場合に特定のメトリックの使用を事前に選択すること、および/または各メトリックの検出に不均一な重み付けを適用することの両方が含まれる。また、実施例には、個々のメトリックの出力を分析することも含まれ得る。
【0092】
極端な例として、ソロ歌手の音楽には、特定のメトリック(例えば不協和音)から意味のあるデータを生成するための楽器編成がない場合があるため、これらのメトリックからの検出がそのまま存在すると、組み合わせアルゴリズムの出力に一種のランダムノイズが加わる。複数のメトリックがこの種のノイズを組み合わせアルゴリズムに付加しているとしても、2つまたは3つの関連するメトリックが使用されている(例えば、実際に音楽に含まれる音響特性を測定する)限り、一致する検出はノイズを越えて検出される可能性が極めて高くなる。しかし、所与のメトリックがランダムなまたは非常に低い強度の検出を提供しているときを確認することも可能であり、組み合わせアルゴリズムに対するメトリックの寄与は、その出力が意味をなさない可能性に基づいて相対的な重み付けを下げることによって低減され得、あるいは、その寄与がないという十分高い確信が確立され得る場合には、その寄与を完全に取り除くことができる
【0093】
また、一般的に知られている効果的な客観的検出方法を持たない、チルと関連していると識別されている多くの資質がある。例えば、名人芸は、音楽のチル誘発物として知られている。名人芸は一般的に演奏者の技量に関連する美的特徴があると考えられているが、「名人芸」のような主観的価値を例証するのに適している、音楽録音内の識別可能なセクションを計算するための明確に定義された「効果的な方法」はない。また、「名人芸を識別する」アルゴリズムの有効性をテストすることは、困難または不可能であることが判明するかもしれない。
【0094】
一致する誘発物を使用する一般的な方法は、どのような特定のユースケースにも当てはまる。音楽録音の苛立たしい部分またはうるさい部分を識別するケースを考えると(例えば、これらの資質に一致する音楽の再生を避ける際のユースケースについて)、最初のステップとして、苛立たしいまたはうるさいとは美的観点から何を意味するのかを概念的に識別し、次にそれらの特徴を識別するための効果的な統計的方法を作成する必要があるだろう。その後、それらの特徴は、本明細書で説明する方法によって集約することができ、使用するメトリックの拡大、検出のための閾値の調整、および/または組み合わせアルゴリズムの実施例に従って組み合わせられる前の相対的な検出重みの調整を通じて、部分のタイプを識別する、漸進的により効果的となる手段を構築することができる。
【0095】
本開示の実施例は、図面に図示されていない追加の検出メトリックを含むことができる。例としては、急激なデュナーミクの増加/クレッシェンド、持続ピッチ、高調波ピーク比、コード変更/転調が挙げられる。
【0096】
急激なデュナーミクの増加/クレッシェンド:例としては、まずラウドネスの変化の表現としてラウドネスの一次導関数を求め、閾値と検出アルゴリズムを使用して、一次導関数が中央値より大きく、また一次導関数の領域のピークが中央値に標準偏差を加えた値を超える領域の周辺のGLIPhを識別することが含まれる。
【0097】
持続ピッチ:例としては、主旋律において長い持続音が保持されている特定の領域をハイライトするために優勢ピッチ信頼値とピッチ値が分析される、GLIPh領域を識別する検出アルゴリズムが含まれる。この場合の検出メトリックは、ピッチ周波数が、低い変動を有し、選択された持続時間要件を超える(例えば1秒より長い)領域をハイライトすることを伴う。
【0098】
高調波ピーク比:例としては、ベース高調波の比率がピーク高調波に対して比較されて、支配的な高調波が第1、第2、第3、または第4高調波でないセクションを見つける、GLIPh領域を識別する検出アルゴリズムが含まれる。これらのセクションは、チルを誘発する音楽と相関する音色特性をハイライトする。この場合の検出メトリックは、信号中の特定の高調波比率に適合する領域を選択することのみを伴う。例えば、第1高調波がその他のすべての高調波に比べて支配的な領域を選択すると、特定のタイプの音色資質を持つ領域がハイライトされる。同様に、高次高調波(upper harmonics)が支配的な領域を選択すると、別のタイプの音色資質が表される。
【0099】
キー変化/転調:例としては、曲の冒頭で確立された優勢なコード(predominant chords)に対して、優勢なコードが劇的にシフトするGLIPh領域を識別する検出アルゴリズムを使うことが含まれる。このシフトは、キー変化または顕著なコード転調を示す。この場合の検出メトリックは閾値を伴わず、音楽のキー変化を直接検出する。
【0100】
実験的検証
2つの別個の調査において、チル現象(例えば、本開示の実施例によって分析された音響特性に関連する自律神経系の生理学的反応)は、本開示の実施態様の出力からのデータを、脳の活性化および聞き手の行動反応の両方と比較することによって調査された。
【0101】
どちらの研究でも、アルゴリズムの実装構成は同じであった。予測データを生成するために、8つの客観的オーディオ処理メトリックのGLIPh検出を入力として使用して実行された組み合わせアルゴリズムを用いて、チルモーメントプロットを生成した。使用した8つの客観的オーディオ処理メトリックの性質は、前のセクションで説明した。具体的には、本明細書で調査する実験的検証のために、使用された8つの客観的オーディオ処理メトリックは、ラウドネス、臨界帯域ラウドネス、ラウドネス帯域比率、スペクトルフラックス、スペクトルセントロイド、優勢ピッチメロディア、非調和性、および不協和音であり、これらは
図7および
図8に示される8つのメトリックである。
【0102】
前のセクションで説明したのと同じ方法で、8つの客観的オーディオ処理メトリックがデジタル録音に個別に適用され、各メトリックの出力に対するそれぞれの閾値が、各メトリックの検出(例えば、GLIPh)のセットを生成するために使用された。検出のセットは、本開示の組み合わせアルゴリズムの実施形態を使用して組み合わせられ、比較のために使用する曲内の相対的なインパクトの連続グラフを提示するために、組み合わせアルゴリズムの出力の移動平均を含むチルモーメントデータセットを生成した。録音に対して生成された組み合わせアルゴリズムの出力の移動平均は、行動研究および別個にfMRI研究において、同じ曲を聴く人間の被験者から収集された時間データと比較された。
【0103】
行動研究
本開示の実施例がインパクトのあるピークの(例えば、自律神経系の生理学的反応を引き起こす相対的な可能性が最も高い)瞬間を検出する能力を検証し、一般に、本開示の実施例が聴取中に曲のインパクトのある特性の聞き手の主観的評価を予測する能力を検証するために、行動研究が実施された。行動研究では、100曲のリストから、参加者は、曲の音楽的インパクト(最も低いインパクトから最も高いインパクトまで)の同期的知覚を示すためにリアルタイムで画面上のスライダーを動かしながら、自分で選択した、チルを誘発する音楽録音(例えば、チルを与えたことがあるかまたはチルを与える可能性のある、知っている曲を選ぶように求められたユーザーによって選択された曲)を聴いた。参加者が選んだ音楽は一般的に現代のポピュラー音楽で、選ばれた曲の長さは大体3分~6分の範囲であった。各参加者のスライダーのデータは、参加者が選択した曲が入力として使用された8つの客観的オーディオ処理メトリックの出力に対して実行された組み合わせアルゴリズムの出力によって生成された各曲の出力と相互相関された。
【0104】
行動研究は1,500人の参加者を用いて行われた。参加者の反応は、それぞれの曲についての組み合わせアルゴリズムの予測と有意な相関があった。参加者は、組み合わせアルゴリズムによってチルを誘発すると予測されたフレーズの間に、より高いインパクトを示した。
図10Aでは、参加者のスライダーデータ1001(「人間」と表示)の結果をプロットしたグラフが、組み合わせアルゴリズム出力1002(「機械」と表示)の移動平均に重ねられている。
図10Aの結果では、参加者番号8は、Reba McEntireの曲Fancyを聴いていた。
【0105】
1,500人の参加者が選んだ曲を聴いている間に受信した彼らの連続的なスライダーデータを使用し、スライダーデータと組み合わせアルゴリズムの出力の移動平均からピアソンの相関係数を作成した。表1は、1,500人の参加者が選んだ34曲それぞれのピアソン相関係数を示している(多くの参加者が同じ曲を選んだ)。1,500人の参加者のピアソン相関係数の合計は0.52で、確率(p値)は0.001未満であった。言い換えれば、8つの客観的オーディオ処理メトリックからの検出を用いた組み合わせアルゴリズムが、実際の人間の聞き手によって判断されるような、音楽中のインパクトのある瞬間を予測できたことを示す、可能な限り強力な統計的証拠が得られた。
【表1】
【0106】
fMRI研究
参加者が受動的聴取課題中に音楽刺激を聴取する自然音楽聴取課題からのデータを再分析した。音楽的訓練を受けていない17名の参加者が、バロック時代の作曲家William Boyce(1711~1779)の交響曲の9分の長さのセグメントを聴く間に、調べられた。一般線形モデルを使用して、聴取セッション中に全脳分析を実施し、行動研究で使用された同じ8つの客観的オーディオ処理メトリックからの検出を使用して、組み合わせアルゴリズムで予測されるような、より高い予測インパクトと、活性化レベルが相関されたボクセルを決定した。
図10Bは、この研究から得られたfMRIスナップショットであり、組み合わせアルゴリズムによって識別されるような、また、非ピークモーメントと比較した、音楽中の識別されたピークモーメント中の増加に関連する神経活性化の広範なネットワークを示す。
【0107】
fMRI研究の分析により、
図10Bに示すように、背外側および腹外側の前前頭皮質、後部島、上側頭溝、大脳基底核、海馬、感覚運動皮質を含む複数の脳領域において、組み合わせアルゴリズムの出力の移動平均の有意な追跡(p<0.01、q<0.05でクラスター補正;(Cohenのd=0.75))が明らかになった。予測されるインパクトと負の相関を示した脳領域はなかった。ラウドネス測定による対照分析では、感覚運動皮質でのみ有意な反応が見られ、ラウドネスと負の相関を示した脳領域はなかった。これらの結果は、知覚と認知に関与する分散した脳領域が音楽のインパクトに敏感であること、および、本開示の実施例による8つの客観的オーディオ処理メトリックからの検出と組み合わせた組み合わせアルゴリズムが、知覚と認知に関与する脳領域のピークの脳活動と強く相関するデジタル音楽データの時間的瞬間とセグメントを識別できることを示している。
【0108】
さらに、発表された研究がこれを裏付けている。BloodとZatorreによる基礎研究は、「チルの主観的報告は、心拍数、筋電図、呼吸の変化を伴っていた。これらのチルの強さが増すにつれて、腹側線条体、中脳、扁桃体、眼窩前頭皮質、腹内側前頭前皮質を含む、報酬動機、感情、覚醒に関与すると考えられる脳領域で、脳血流の増加と減少が観察された。これらの脳構造は、食べ物、セックス、依存性薬物など、幸福感を誘発する他の刺激に反応して活性化することが知られている」と結論づけている。de FleurianおよびPearceによる研究では、「大脳基底核に属する構造は、チルと繰り返し関連している。背側線条体では、心地よいチルの経験の有無にかかわらず、音楽聴取を比較すると、被殻と左尾状核に活性化の増加が見られる」と述べている。
【0109】
実験の結論
行動研究とfMRI研究の結果は重要である。人間における「チル反応」と、その反応に付随する要素を記述した学術文献との明確な関連性を導き出すことができる。自己申告による行動研究では、被験者はどこで高い音楽的インパクトを経験しているかを示し、これはチル反応に必要な音楽的覚醒に直接関係している。また、fMRI研究では、記憶、快楽、報酬を司る領域の高い活性化が、組み合わせアルゴリズムの出力と強く対応していることが確認された。したがって、実験の性質と規模を考えると、可能な最も強い統計的有意性により、行動研究とfMRI研究は、自律神経系の生理学的反応に関連する聞き手の神経学的活動を予測する本開示の実施形態の能力を共に検証した。
【0110】
産業応用と実施態様
大規模なカタログをキュレーションし、音楽録音にまつわる美的判断を下すことは時間がかかるという大前提に基づき、本開示の実施例のいくつかの商業的応用を採用することができる。例えば、特定の用途のための録音のランク付けと検索を自動化することで、時間を節約することができる。人間が音楽録音のライブラリを調べ、任意の用途のための録音を選ぶのにかかる時間は、法外に大きくなり得る。美的評価を下すには、通常録音を複数回聴取する。ポピュラー音楽の曲の長さが3~5分であることを考えると、この評価には1曲当たり6~10分かかる。また、燃え尽きおよび疲労という側面もある:人間は多くの曲を続けて聴くと、客観性を失う可能性がある。
【0111】
代表的なユースケースの一例は、大規模な音楽カタログホルダー(例えば、Spotify、Amazon Music、Apple Music、またはTidalなどの既存の商用サービス)用のものである。通常、大規模な音楽カタログホルダーは、新たな「有料会員」を獲得し、「無料ユーザー」を有料会員に変えたいと考えている。成功は、少なくとも部分的には、音楽カタログへのアクセスを提供するコンピュータアプリケーションの無料バージョンと相互作用する際のユーザーの経験に基づくことができる。したがって、本開示の実施例を適用することにより、音楽カタログサービスは、「最も説得力のある」または「最もインパクトのある」音楽をユーザーに配信する手段を有することになり、ひいては、ユーザーの購買決定に直接的な影響を与える可能性が高い。この実施例では、タイムスタンプのデータベースがデジタル音楽カタログと共に保存され得、タイムスタンプは、各曲の客観的オーディオ処理メトリックに対して事前に実行された組み合わせアルゴリズムによって検出された1つ以上のインパクトのあるピークの瞬間、および/または組み合わせアルゴリズムの出力に対して事前に実行されたフレーズ検出アルゴリズムによって生成された1つ以上のインパクトのある音楽フレーズを表す。一般に、サービスのカタログ内のすべての曲について、本開示の実施例によって生成されたタイムスタンプの形態のメタデータを提供し、ユーザーの経験を向上させるために使用することができる。本開示の例としての実施形態において、インパクトのあるピークの瞬間を含む曲のサンプルがユーザーに提供され、かつ/または、サンプルは、1つ以上の識別されたインパクトのあるフレーズを表すことができる。
【0112】
もうひとつの例としてのユースケースは、エンターテインメントおよびテレビ業界にある。ディレクターが制作物用の音楽を選択する場合、多くの場合、数百の曲にわたりフィルタリングして、適切な録音および使用するその録音の適切な部分を見つけなければならない。本開示の例としての実施形態では、ソフトウェアアプリケーションは、識別されたインパクトのあるフレーズおよび/またはチルモーメントプロットをユーザー(例えば、映画またはテレビの編集者、プロデューサー、ディレクターなど)に提供し、ユーザーが選択したパラメータ(例えば、ジャンル)内でインパクトの強い音楽に絞り込んで、制作物用の適切な録音およびフレーズを見つけることを可能にする。これには、曲中のインパクトのある瞬間およびフレーズを、動画中の瞬間に合わせる能力も含まれ得る。
【0113】
本開示の例としての実施形態において、クラウドベースのシステムは、ユーザーが、入力として、クラウドに保存された音楽録音の大規模なカタログを通して検索することを可能にし、出力として、返された各曲の結果の中で最もインパクトのある瞬間を含むか識別する1曲以上の検索結果を配信する。本開示の例としての実施形態では、ローカルまたはクラウドベースのコンピュータ実装サービスは、入力としてデジタル音楽録音を受信し、このデジタル音楽録音は、本開示の実施例を通じて処理され、各曲のインパクトのあるピークの瞬間および/または最もインパクトのあるフレーズのタイムスタンプに関するデータ、ならびに客観的オーディオ処理メトリックを使用した処理の結果として提供される任意の他の音楽的特徴に関するデータを作成する。例としては、所望の出力に応じて、機械学習技術を使用して改善した推薦システムを使用するために組織の既存のメタデータと組み合わせられる、保存されたデータを使用すること、または、最もインパクトのあるフレーズの実際のオーディオファイルを生成することが含まれる。
【0114】
音楽療法も、血圧の低下、患者が選択した音楽による手術結果の向上、疼痛管理、不安治療、うつ病、心的外傷後ストレス障害(PTSD)、自閉症を含む、多種多様な状況において医学的転帰を改善することが示されている。音楽療法士は、ディレクターおよび広告主と同じように、音楽のキュレーションに関する問題を抱えており、患者が共感でき、かつ患者から肯定的な反応を引き出す特定のジャンルの音楽を見つける必要がある。したがって、本開示の実施例は、患者からの肯定的な(例えば、チル)反応の可能性を高めることによって、治療の結果を改善するための音楽のセグメントを音楽療法士に提供するために使用することができる。特定の病気(例えば、認知症または重度の精神疾患)を持つ患者の中には、療法士が音楽を選択するのを手伝えない人もいる。患者が特定の曲名またはアーティスト名ではなく、ジャンルを挙げることができれば、本開示の実施例により、療法士はそのジャンルからインパクトのある音楽を選択することができる。あるいは、患者がアーティストの名前を挙げることができ、療法士がそのアーティストに詳しくない場合、本開示の実施例を使用して、曲のリストから最もインパクトのある瞬間をソートすることができ、療法士はそれらの瞬間を再生して、そのうちのいずれかが患者からの反応を生じさせるかどうかを確認することができる。別の例は、音楽療法士が患者の年齢に基づいて音楽を検索し、患者から感情的な反応を誘発する可能性が高い音楽を検索する(例えば、患者が19~25歳の間であった期間から最もインパクトのある音楽を見つける)のに役立つウェブインターフェースである。別の例は、音楽療法士がPTSDの患者に対して瞑想の練習に使用されるジャンルのリストから最もインパクトの少ない音楽を選択するのに役立つウェブインターフェースである。
【0115】
ソーシャルメディア
本開示の実施例は、ユーザーが、閲覧およびエンゲージメント時間を最大化し、また、曲を見つけ、使用するセクションを検索するためのユーザーの検索時間を短縮することを期待して、自分の動画コンテンツとペアにすることができる最もインパクトのあるチルフレーズを見つけることを可能にするために、本明細書に記載される例としてのシステムおよび方法を使用するように構成されたソーシャルメディアプラットフォームおよびアプリケーションを含む。例としては、モバイルデバイスまたはコンピュータのディスプレイを制御して、チルモーメントプロットのデータの視覚的表現および/または識別されたフレーズの視覚的識別(例えば、タイムスタンプ、波形など)を表示することが含まれ、これは、それぞれの曲からの選択に付随することができる。いくつかの実施例では、ディスプレイは、ユーザーがオーディオデバイスを通して識別されたフレーズを再生またはプレビューできるようにインタラクティブである。本開示の実施例は、短い動画コンテンツとペアにするインパクトのある音楽セグメントを見つける能力、動画の閲覧およびエンゲージメント時間を最大化する能力、ユーザーの入力と検索時間を短縮する能力、音楽の選択を多様化することでライセンスコストを削減する能力を含む、いくつかの利点をソーシャルメディアシステムに提供することができる。
【0116】
非限定的な実施態様は以下を含む:a)既存のソーシャルメディアプラットフォームに統合される本開示の実施例、b)複数のチルフレーズ選択を試聴し、ユーザー生成コンテンツとどのようにペアにするかを確認するシステムおよび方法、c)曲のチルモーメントを視覚的に表現するユーザーインターフェースおよび/またはUI要素、d)CB-MIR機能を使用して、ユーザーが異なる時代および音楽ジャンルから音楽を発見するのを支援する、e)CB-MIR機能を使って、ソーシャルメディアアプリ内でのオーディオ選択をさらに洗練させる、f)聞き手とつながる可能性が最も高い楽曲をライセンスする方法をユーザーに提供する、g)識別されたインパクトのあるフレーズによって曲をプレビューし、音楽検索の聴取時間を短縮する、h)ソーシャルメディアプラットフォームがライセンスコストを制御しながら曲の選択を拡大する方法を提供する。
【0117】
図11は、本開示の実施例を組み込んだソーシャルメディアアプリケーションを示すモバイルデバイスのディスプレイ1100の説明図である。
図11は、写真1101のユーザー選択と、チルフレーズ1103を識別するウィンドウと共に音楽トラックの選択を視覚的に示すオーディオデータ1102のオーバーレイと、選択された音楽トラックについてチルモーメントプロットの平均を表す線1104と、を示す。
【0118】
音楽ストリーミングプラットフォーム
本開示の実施例には、音楽ストリーミングサービスとの統合が含まれ、例えば、人間に非常に肯定的な感情的および身体的効果をもたらすことが本開示のシステムおよび方法によって予測された類似のチルモーメント特性および/またはトラックを有する音楽を見つけてプレイリストに追加できるようにすることで、ユーザーがよりインパクトのある音楽を発見し、プレイリストを強化するのを助ける。実施例は、ユーザーが曲のプレビュー中に最もインパクトのあるセクションを聴くことができるようにすることもできる。
【0119】
図12は、本開示の実施例を組み込んだ音楽ストリーミングアプリケーションを示すモバイルデバイスのディスプレイ1200の説明図である。
図12は、代表的な音楽ストリーミングアプリケーションのインターフェース1202を示し、音楽トラック1203、1204、1205のユーザー選択と、チルフレーズを識別するウィンドウ1207を有する各音楽トラックのオーディオデータ1206のオーバーレイと、選択された音楽トラックのチルモーメントプロットの平均を表す線1208とを示す。例は、音楽ストリーミングプラットフォームのユーザーが特定のチルプロット分類を検索することを可能にする本開示の実施例を含み、これは、例えば、インパクトのある終わり、始まり、または中間を有するすべての曲を含むプレイリスト、ならびに曲の分類の混合物を含む曲のプレイリストの作成において、ユーザーを支援することができる。
【0120】
曲のカタログ
非限定的な実施態様としては、テレビの連続番組および映画のための適切な音楽を見つける上でクリエイターを支援するシステムおよび方法が含まれる。具体的には、シーンのタイミングに合った音楽である。特に大規模なカタログから、既存の技術を使用すると、このプロセスは時間のかかる作業になる可能性がある。本開示の実施例は、例えば、曲中のインパクトのあるフレーズによる曲検索結果のフィルタリング(例えば、フレーズの長さおよび分類)でクリエイターを支援することができる。また、実施例は、チルモーメントに関連する新しいタイプのメタデータ(例えば、チルモーメントセグメント位置を示すタイムスタンプ)の作成を可能にし、これにより、検索時間とコストを削減することができる。
【0121】
図13は、本開示の実施例を組み込んだ音楽カタログアプリケーションを示すコンピュータディスプレイ上に提示されるユーザーインターフェース1300の説明図である。
図13は、音楽トラック選択を表すウィンドウ1320のオーディオデータ1321と、選択された曲を処理する組み合わせアルゴリズムからの出力1314と、チルモーメントプロットの平均を表す線1313とを有する別個の音楽的インパクトウィンドウ1310と、を提示する、曲のユーザー選択を示す。音楽的インパクトウィンドウ1310はまた、選択された音楽トラックについて、第1および第2の識別されたインパクトのあるフレーズ1311、1312の視覚的表示を提示する。
【0122】
例としての特徴には、a)曲のチルモーメントプロットの特性によって曲データベースをフィルタリングする能力、b)予測可能にインパクトのある曲を識別すること、c)曲中の識別されたチルセグメントを見つけること、d)本明細書に記載の方法を使用して生成されたデータのいずれかに対応する新しいメタデータを音楽カタログに入力すること、およびe)検索時間およびライセンスコストを削減することが含まれる。本開示の実施例には、組み合わせアルゴリズムおよびフレーズ検出アルゴリズムのパラメータに対するユーザー制御を提供するユーザーインターフェースも含まれる。例えば、異なるタイプのフレーズを見つけるために、ユーザーが1つ以上の入力メトリックのための重みを調整または削除できるようにする。このオンザフライ調整は、個々のメトリックを再処理することなく、組み合わせアルゴリズムおよびフレーズ検出アルゴリズムを再実行することができる。この機能性により、例えば、ピッチとメロディに関連するパラメータの重みを増やすことで、メロディピークが大きい曲を検索したり、音色に関連するメトリックの重みを増やすことで、同様の音響プロファイルを特徴とする瞬間を見つけたりすることができる。例としては、ユーザーがメトリックの重みなどのパラメータを個別に調整できるようにするユーザーインターフェース、または、事前に選択された音響プロファイルを識別する事前に選択された構造が含まれる。相互作用可能な要素(例えば、トグル、ノブ、スライダー、またはフィールド)を使用することにより、ユーザーは、表示されたチルモーメントプロットと、関連するフレーズ検出を即座にインタラクティブに反応させることができる。
【0123】
実施態様としては、以下が挙げられる:a)チルモーメントプロットに関連するデータを動画編集ソフトウェアのユーザーインターフェースに提供する、b)チルモーメントプロットに関連するデータを音楽カタログアプリケーションのユーザーインターフェースに提供し、ユーザーがチルモーメントデータに基づいて、識別されたフレーズおよび/または個々のトラックのシークを使用してトラックをプレビューすることを容易にする、c)チルモーメントプロットに関連するデータをオーディオ編集ソフトウェアのユーザーインターフェースに提供する、d)チルモーメントプロットに関連するデータを、旅客機の音楽選択アプリケーションのユーザーインターフェースに提供し、乗客の音楽選択を支援する、e)チルモーメントに関連するデータを、物理的およびデジタルレコード店のキオスクのユーザーインターフェースに提供する、f)ユーザーがインパクトのあるフレーズを使ってアーティストおよび個々の曲をプレビューできるようにする。
【0124】
本開示の実施例には:a)ソーシャルメディアのスライドショーを即座に生成するためのソーシャルメディアプラットフォームに、チルモーメントプロットに関連するデータを提供する、b)ライブ音楽のためのチルモーメントプロットを生成する、c)インパクトのあるフレーズによるプレビューを可能にするために、既存のデジタル音楽カタログにチルモーメントプロットに関連するデータを入力する、d)チルモーメントプロットに関連するデータを、複数のチルモーメントフレーズを試聴するためのソフトウェアに提供し、ビジュアル編集シーケンスとどのようにペアにされるかを確認する、e)チルモーメントプロットに関連するデータを処理して、カタログホルダーに新しいメタデータを提供し、それらの曲のインパクトのある部分をライセンスする新しい機会を提供する、ためのシステムおよび方法が含まれる。
【0125】
オーディオ、映画、テレビ、広告の制作
映画、テレビ、広告のプロデューサーおよびマーケティング担当者は、ターゲットとする視聴者とつながる音楽を見つけたい。本開示の実施例には、チルモーメントプロットに関連するデータを使用して、ユーザーが録音された音楽の中でインパクトのある瞬間を見つけるのを支援し、これらのチルフレーズを広告、テレビ、または映画のシーンとペアにすることを可能にするシステムおよび方法が含まれる。1つの例としての利点は、曲の識別されたチルセグメントを広告内の重要な瞬間とペアにする能力である。
図14は、本開示の実施例を組み込んだ動画制作アプリケーション1401を示すコンピュータディスプレイ上のソフトウェアインターフェース1400の説明図である。
図14は、現在の動画シーン1410と、オーディオトラックと動画トラック1430との時間整列を示すオーディオ-動画オーバーレイ1420とを示す。オーディオ-動画オーバーレイ1420は、識別されたチルフレーズ1423を識別する隣接ウィンドウ1422と共に音楽トラック選択を表す2チャンネルオーディオデータ1421、ならびに選択された音楽トラック1421についてのチルモーメントプロット1425の平均を表す線1424を含む。オーディオ制作コンテキストにおける実施態様は、曲のトラックの異なるミックスが構成されるときに、チルプロットおよびフレーズ選択の視覚的フィードバックをリアルタイムで提供するシステムおよび方法を含む。実施例では、編集/ミックス中の現在の曲のチルプロットにどのメトリックが入れられているかのより詳細な内訳を提供することもでき、プロデューサーは音楽をどのように改善できるかについての洞察を得ることができる。
【0126】
ゲーミング
本開示の実施例には、ゲーム開発者が、ゲーム体験を向上させるために音楽の最もインパクトのあるセクションを見つけて使用することを可能にし、それによって労働コストおよび制作コストを削減するためのシステムおよび方法が含まれる。本開示の実施例には、本明細書に開示するシステムおよび方法を使用してゲームデザイナーの主観を取り除き、彼らが音楽の最もインパクトのある部分を識別し、ゲーム体験の最もインパクトのある部分と同期させることを可能にすることが含まれる。例えば、ゲームデザイン中に、カットシーン、レベル変化、ゲーム体験の中心となる課題を示す音楽。例としての利点は、最もインパクトのある音楽を統合することでユーザーエンゲージメントを高めること、アプリ内音楽購入のための音楽発見を提供すること、音楽セグメントをゲームシナリオに合わせること、ゲームメーカーの労働コストおよびライセンスコストを削減することを含む。例としては、チルプロットデータと同期した音楽可視化を提供することが含まれ、これは、ゲーム内のビジュアルキュー、または、音楽が再生される環境の動的ライティングシステムを同期させることを含み得る。例としては、チルプロットのピークからタイミングと双方向性を導き出す音楽テンポゲームの作成を支援することが含まれる。実施態様としては、ユーザーのゲームプレイと同期して、リアルタイムで曲のチルモーメントセグメントをキューイングすること、および、チルモーメントプロットに関連するデータを使用して、カットシーン、レベル変化、ゲーム体験の中心となる課題を示すことが含まれる。
【0127】
健康およびウェルネス
人々はしばしば、ストレスを和らげ、ウェルビーイングを改善するのに役立ちそうな音楽を見つけたいと思っており、これは、チルモーメントプロットに関連付けられたデータに基づく推奨音楽からプレイリストを作成することによって行うことができる。本開示のシステムおよび方法の実施態様には、a)チルモーメントプロットに関連するデータを使用して、アルツハイマー病患者または認知症患者に共鳴する音楽を選択する、b)チルモーメントプロットに関連するデータを臨床環境における検査デバイスとして使用して、アルツハイマー病患者または認知症患者に最も共鳴する音楽を決定する、c)チルモーメントプロットに関連するデータを使用して、ウェアラブルなヘルス/ウェルネス製品に音楽を統合する、d)チルモーメントプロットに関連するデータを使用して、エクササイズ活動およびワークアウトのための音楽を選択する、e)チルモーメントプロットに関連するデータを使用して、手術前の患者の不安を軽減するのを助ける、f)疼痛、うつ、不安を治療するために医師がキュレーションされたプレイリストを処方し得るモバイルアプリケーションにおいて、チルモーメントプロットに関連するデータを使用する、g)チルモーメントプロットに関連するデータを使用して、瞑想、ヨガ、他のリラクゼーション活動のための音楽を選択する、h)チルモーメントプロットに関連するデータを使用して、疼痛、不安、うつを有する患者を助けること、が含まれる。
【0128】
コンピュータシステムおよびクラウドベースの実装
図15は、本開示を構築、実行、訓練等することができるコンピュータシステム1500の例示的な一実施形態のブロック図である。例えば、
図1A~
図14を参照すると、任意のモジュールまたはシステムは、本明細書に記載されるシステム1500の例とすることができ、例えば、入力12、客観的オーディオ処理メトリック111、112、検出アルゴリズム130、組み合わせアルゴリズム140、およびフレーズ検出アルゴリズム150、出力19、および本明細書に記載される関連モジュールまたはルーチンの任意のものである。システム1500は、プロセッサ1510、メモリ1520、ストレージデバイス1530、および入出力デバイス1540を含み得る。各構成要素1510、1520、1530、および1540は、例えばシステムバス1550を使用して、相互接続され得る。プロセッサ1510は、システム1500内で実行される命令を処理することができる。プロセッサ1510は、シングルスレッドプロセッサ、マルチスレッドプロセッサ、または同様のデバイスであり得る。プロセッサ1510は、メモリ1520内またはストレージデバイス1530上に記憶された命令を処理することが可能であり得る。プロセッサ1510は、本開示に関連して説明されるいくつかの特徴のうち、a)オーディオ処理メトリックを実行する、b)GLIPhを検出するために1つ以上のオーディオ処理メトリックの出力に閾値を適用する、c)2つ以上のオーディオ処理メトリックの検出に基づいて組み合わせアルゴリズムを実行する、d)組み合わせアルゴリズムの出力に対してフレーズ検出アルゴリズムを実行する、e)本明細書に開示されるメトリックおよびアルゴリズムのいずれかからの出力データを記憶する、f)デジタル音楽ファイルを受信する、g)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからデータを出力する、h)フレーズ検出アルゴリズムに基づいてデジタルオーディオセグメントを生成および/または出力する、i)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータに対するユーザー要求を受信し、結果を出力する、j)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを視覚的に提示するために、モバイルデバイスなどのコンピュータシステムのディスプレイデバイスを操作する、などの動作を実行することができる。
【0129】
メモリ1520は、システム1500内の情報を記憶することができる。いくつかの実施態様では、メモリ1520は、コンピュータ可読媒体とすることができる。メモリ1520は、例えば、揮発性メモリユニットまたは不揮発性メモリユニットであり得る。いくつかの実施態様において、メモリ1520は、客観的オーディオ処理メトリックおよび本明細書に開示される任意のアルゴリズムを実行するための情報関連機能を記憶することができる。メモリ1520はまた、デジタルオーディオデータ、ならびに客観的オーディオ処理メトリックおよび本明細書に開示される任意のアルゴリズムからの出力を記憶することができる。
【0130】
ストレージデバイス1530は、システム1500に大容量記憶装置を提供することができる。いくつかの実施態様では、ストレージデバイス1530は、非一時的コンピュータ可読媒体であり得る。ストレージデバイス1530は、例えば、ハードディスクデバイス、光ディスクデバイス、ソリッドステートドライブ、フラッシュドライブ、磁気テープ、および/または何らかの他の大容量ストレージデバイスを含み得る。ストレージデバイス1530は、代替的に、クラウドストレージデバイス、例えば、ネットワーク上に分散され、ネットワークを使用してアクセスされる複数の物理的ストレージデバイスを含む論理ストレージデバイスであってもよい。いくつかの実施態様では、メモリ1520上に記憶された情報は、ストレージデバイス1530上にも、または代わりにストレージデバイス1530上に、記憶され得る。
【0131】
入出力デバイス1540は、システム1500のための入出力動作を提供することができる。いくつかの実施態様では、入出力デバイス1540は、以下:ネットワークインターフェースデバイス(例えば、イーサネットカードもしくはInfinibandインターコネクト)、シリアル通信デバイス(例えば、RS-232 10ポート)、および/または無線インターフェースデバイス(例えば、短距離無線通信デバイス、802.7カード、3G無線モデム、4G無線モデム、5G無線モデム)のうちの1つ以上を含み得る。いくつかの実施態様では、入出力デバイス1540は、入力データを受信し、出力データを他の入出力デバイス、例えば、キーボード、プリンタ、および/またはディスプレイデバイスに送信するように構成されたドライバデバイスを含み得る。いくつかの実施態様では、モバイルコンピューティングデバイス、モバイル通信デバイス、および他のデバイスを使用することができる。
【0132】
いくつかの実施態様では、システム1500はマイクロコントローラであり得る。マイクロコントローラは、コンピュータシステムの複数の要素を単一の電子機器パッケージ内に含むデバイスである。例えば、単一の電子機器パッケージは、プロセッサ1510、メモリ1520、ストレージデバイス1530、および/または入出力デバイス1540を含み得る。
【0133】
図16は、本開示と共に使用するためのクラウドベースのコンピュータネットワーク1610の例示的な一実施形態のブロック図である。クラウドベースのコンピュータネットワーク1610は、デジタルストレージサービス1611および処理サービス1612を含むことができ、これらの各々は、1つ以上の物理的な場所に配置された1つ以上の個々のコンピュータ処理およびストレージデバイスによって提供されることができる。クラウドベースのコンピュータネットワーク1610は、インターネットまたは他のデジタル接続手段を介して、個々のコンピュータシステム1620(例えば、パーソナルコンピュータまたはモバイルデバイス)からだけでなく、個々のコンピュータシステム1620のネットワーク1630(例えば、音楽ストリーミングサービスを動作させるサーバ)からもデータを送受信する1621、1631ことができる。クラウドベースのコンピュータネットワーク1610は、本開示に関連して説明されるいくつかの特徴のうち、a)オーディオ処理メトリックを実行し、1つ以上のオーディオ処理メトリックの出力に閾値を適用してGLIPhを検出し、b)2つ以上のオーディオ処理メトリックの検出に基づいて組み合わせアルゴリズムを実行し、c)組み合わせアルゴリズムの出力に基づいてフレーズ検出アルゴリズムを実行し、d)本明細書に開示されるメトリックおよびアルゴリズムのいずれかからの出力データを記憶し、e)デジタル音楽ファイルを受信し、f)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを出力し、g)フレーズ検出アルゴリズムに基づいてデジタルオーディオセグメントを生成および/または出力し、h)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータに対するユーザー要求を受信し、結果を出力し、i)本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを視覚的に提示するために、モバイルデバイスなどのコンピュータシステムのディスプレイデバイスを操作する、などの動作の実行を促進または完了することができる。
【0134】
例としての処理システムを上述してきたが、上述した主題および機能的動作の実施態様は、他のタイプのデジタル電子回路において、または、本明細書で開示する構造およびそれらの構造的等価物を含む、コンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいて、またはそれらのうちの1つ以上の組み合わせにおいて、実装することができる。本明細書に記載される主題の実施態様は、1つ以上のコンピュータプログラム製品、すなわち、処理システムによる実行のため、または処理システムの動作を制御するために、有形プログラムキャリア、例えばコンピュータ可読媒体上に符号化されたコンピュータプログラム命令の1つ以上のモジュールとして、実装することができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝播信号をもたらす組成物、またはそれらのうちの1つ以上の組み合わせとすることができる。
【0135】
本開示の様々な実施形態は、任意の従来のコンピュータプログラミング言語で少なくとも部分的に実装され得る。例えば、いくつかの実施形態は、手続き型プログラミング言語(例えば、「C」もしくはForTran95)、またはオブジェクト指向プログラミング言語(例えば、「C++」)で実装されてもよい。他の実施形態は、予め構成されたスタンドアロンのハードウェア要素として、および/または予めプログラムされたハードウェア要素(例えば、特定用途向け集積回路、FPGA、およびデジタル信号プロセッサ)、または他の関連構成要素として実装されてもよい。
【0136】
「コンピュータシステム」という用語は、非限定的な例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含し得る。処理システムは、ハードウェアに加えて、問題のコンピュータプログラムの実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上の組み合わせを構成するコードを含むことができる。
【0137】
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、実行可能論理、またはコードとしても知られている)は、コンパイル言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む、あらゆる形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとしてなど、あらゆる形式で配備することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムもしくはデータ(例えば、マークアップ言語ドキュメントに格納された1つ以上のスクリプト)を保持するファイルの一部、問題のプログラム専用の単一のファイル、または複数の調整されたファイル(例えば、1つ以上のモジュール、サブプログラム、もしくはコードの一部を格納するファイル)に格納することができる。コンピュータプログラムは、1台のコンピュータ上で、または1つのサイトに配置されるか、もしくは、複数のサイトに分散され、通信ネットワークによって相互接続された複数のコンピュータ上で、実行されるように配備され得る。
【0138】
このような実施態様は、コンピュータ可読媒体などの有形の非一時的媒体のいずれかに固定された一連のコンピュータ命令を含むことができる。一連のコンピュータ命令は、本システムに関して本明細書で先に説明した機能性の全部または一部を具現化することができる。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性または揮発性メモリ、媒体およびメモリデバイスが含まれ、例として、半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、例えば内蔵ハードディスクもしくはリムーバブルディスクもしくは磁気テープ;磁気光学ディスク;ならびにCD-ROMおよびDVD-ROMディスクが含まれる。プロセッサとメモリは、特殊用途の論理回路によって補われるか、または特殊用途の論理回路に組み込まれ得る。システムの構成要素は、デジタルデータ通信の任意の形式または媒体、例えば通信ネットワークによって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、例えばインターネットが挙げられる。
【0139】
当業者であれば、このようなコンピュータ命令は、多くのコンピュータアーキテクチャまたはオペレーティングシステムと共に使用するためにいくつかのプログラミング言語で書くことができることを理解すべきである。さらに、このような命令は、半導体、磁気、光学、または他のメモリデバイスなどの任意のメモリデバイスに格納することができ、光学、赤外線、マイクロ波、または他の伝送技術などの任意の通信技術を使用して伝送することができる。
【0140】
いくつかある方法の中でも、このようなコンピュータプログラム製品は、付属の印刷または電子文書(例えば、シュリンクラップソフトウェア)を伴うリムーバブル媒体として配布されるか、コンピュータシステムに(例えば、システムROMもしくは固定ディスクに)プリロードされるか、またはネットワーク(例えば、インターネットもしくはワールドワイドウェブ)を介してサーバもしくは電子掲示板から配布される。実際、いくつかの実施形態は、ソフトウェア・アズ・ア・サービス・モデル(「SAAS」)またはクラウドコンピューティングモデルで実施することができる。もちろん、本開示のいくつかの実施形態は、ソフトウェア(例えば、コンピュータプログラム製品)とハードウェアの両方の組み合わせとして実装されてもよい。本開示のさらに他の実施形態は、完全にハードウェアとして、または完全にソフトウェアとして実装される。
【0141】
当業者であれば、提供された説明および実施形態に基づいて、本開示のさらなる特徴および利点を理解するであろう。したがって、本発明は、特に示され説明されたものによって限定されるものではない。例えば、本開示は、デジタルオーディオデータを処理して、曲中のインパクトのある瞬間およびフレーズを識別することを提供するが、本開示は、スピーチまたは環境ノイズなどの他のタイプのオーディオデータにも適用して、それらの音響特性、および人間の聞き手から身体的反応を引き出す能力を評価することもできる。本明細書で引用したすべての刊行物および参考文献は、参照によりその全体が本明細書に明示的に組み込まれる。
【0142】
上述の実施形態の実施例は、以下を含み得る:
1.音楽中のセグメントを識別するコンピュータ実装方法であって:プロセッサによって操作される入力を介して、デジタル音楽データを受信することと;プロセッサを使用して、第1の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第1の出力を生成することと;プロセッサを使用して、第2の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第2の出力を生成することと;プロセッサを使用して、第1の検出基準が満たされる第1の出力中の領域に基づいて、第1の検出ルーチンを使用して第1の複数の検出セグメントを生成することと;プロセッサを使用して、第2の検出基準が満たされる第2の出力中の領域に基づいて、第2の検出ルーチンを使用して第2の複数の検出セグメントを生成することと;プロセッサを使用して、第1の複数の検出セグメントと第2の複数の検出セグメントとを組み合わせて、第1および第2の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、第1および第2の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。
2.所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット中の領域を識別することと;識別された領域の表示を出力することと、を含む、実施例1に記載の方法。
3.組み合わせることは、単一のプロットの移動平均を計算することを含む、実施例1または実施例2に記載の方法。
4.移動平均が上限を超える単一のプロット中の領域を識別することと;識別された領域の表示を出力することと、を含む、実施例3に記載の方法。
5.第1および第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、実施例1から4のいずれかに記載の方法。
6.第1および第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、実施例1から5のいずれかに記載の方法。
7.第1または第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、実施例1から6のいずれかに記載の方法。
8.第1または第2の検出基準は、上方または下方境界閾値を含む、実施例1から7のいずれかに記載の方法。
9.検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、実施例1から8のいずれかに記載の方法。
10.組み合わせることは、第1および第2の複数の検出にそれぞれの重みを適用することを含む、実施例1から9のいずれかに記載の方法。
11.コンピュータシステムであって:デジタル音楽データを受信するように構成された入力モジュールと;デジタル音楽データを受信し、デジタル音楽データに対して第1の客観的オーディオ処理メトリックを実行し、デジタル音楽データに対して第2の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、第1および第2のメトリックは、それぞれの第1および第2の出力を生成する、オーディオ処理モジュールと;第1および第2の出力を入力として受信し、第1および第2の出力のそれぞれについて、検出基準が満たされる1つ以上のセグメントのセットを生成するように構成された検出モジュールと;検出モジュールによって検出された1つ以上のセグメントを入力として受信し、各セグメントを検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。
12.組み合わせモジュールから一致の単一のデータセットを入力として受信し、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、実施例11に記載のコンピュータシステム。
13.フレーズ識別モジュールは、単一のデータセットの移動平均が上限を超える場所に基づいて、1つ以上の領域を識別するように構成されている、実施例12に記載のコンピュータシステム。
14.フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、実施例12または23に記載のコンピュータシステム。
15.組み合わせモジュールは、単一のプロットの移動平均を計算するように構成されている、実施例11から14のいずれかに記載のコンピュータシステム。
16.第1および第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、実施例11から15のいずれかに記載のコンピュータシステム。
17.第1および第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施例11から16のいずれかに記載のコンピュータシステム。
18.検出モジュールは、第1または第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、実施例11から17のいずれかに記載のコンピュータシステム。
19.検出基準は、上方または下方境界閾値を含む、実施例11から18のいずれかに記載のコンピュータシステム。
20.検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、実施例11から1のいずれかに記載のコンピュータシステム。
21.組み合わせモジュールは、第1および第2の複数の検出にそれぞれの重みを適用してから、それぞれの重みに基づいて各検出セグメントを集約するように構成されている、実施例11から20のいずれかに記載のコンピュータシステム。
22.コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、コンピュータ可読プログラムコードは、プロセッサに:デジタル音楽データを受信することと;第1の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して、第1の出力を生成することと;第2の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して、第2の出力を生成することと;第1の検出基準が満たされる第1の出力中の領域に基づいて、第1の検出ルーチンを用いて第1の複数の検出セグメントを生成することと;第2の検出基準が満たされる第2の出力中の領域に基づいて、第2の検出ルーチンを用いて第2の複数の検出セグメントを生成することと;第1および第2の複数の検出セグメントにおける検出セグメントの一致に基づいて、第1の複数の検出セグメントと第2の複数の検出セグメントとを組み合わせて単一のプロットにすることと、を指示するように構成されたコードを含み、第1および第2の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。
23.第1および第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施例22に記載のコンピュータプログラム製品。
24.所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット内の領域を識別し;識別された領域の表示を出力する、命令を含む、実施例22または23に記載のコンピュータプログラム製品。
25.単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別する命令を含む、実施例22から24のいずれかに記載のコンピュータプログラム製品。
26.単一のプロットの移動平均を計算する命令を含む、実施例22から25のいずれかに記載のコンピュータプログラム製品
27.第1または第2の検出基準は、上方または下方境界閾値を含む、実施例22から26のいずれかに記載のコンピュータプログラム製品。
28.所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、実施例22から27のいずれかに記載のコンピュータプログラム製品。
29.人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって:プロセッサによって操作される入力を介して、デジタル音楽データを受信することと;プロセッサを使用して、2つ以上の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、それぞれの2つ以上の出力を生成することと;プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、2つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと;プロセッサを使用して、複数の検出セグメントにおける一致に基づいて、2つ以上の出力のそれぞれにおける複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、第1および第2の客観的オーディオ処理メトリックは:ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。
30.プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む単一のチルモーメントプロットにおける1つ以上の領域を識別することと;プロセッサを用いて、識別された1つ以上の領域の表示を出力することとを含む、実施例29に記載の方法。
31.ディスプレイデバイスを介して、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示を表示することを含む、実施例29または30に記載の方法。
32.ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、実施例29から32のいずれかに記載の方法。
33.単一のチルモーメントプロットの値の視覚的表示は、単一のチルモーメントプロットの値の移動平均の曲線を含む、実施例32に記載の方法。
34.所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のチルモーメントプロット内の領域を識別することと;識別された領域の表示を出力することと、を含む、実施例29から33のいずれかに記載の方法。
35.出力することは、ディスプレイデバイスを介して、識別された領域の視覚的表示を表示することを含む、実施例33に記載の方法。
36.出力することは、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データ内の識別された領域の視覚的表示と重ねて表示することを含む、実施例33に記載の方法。
37.音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって:プロセッサによって操作される入力を介して、デジタルオーディオ録音におけるインパクトのある瞬間に関連する情報の要求を受信することであって、この要求は、デジタルオーディオ録音の表示を含む、ことと;プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、対応するセットは:チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと;プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの1つの識別にマッチングさせることであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと;プロセッサを使用して、データベース内の複数の識別のうちのマッチングされた識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。
38.異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例1の方法を使用して生成された、異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、実施例37に記載の方法。
39.異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例29の方法を用いて生成された、異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、実施例37に記載の方法。単一のプロット
40.音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって:プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと;プロセッサによって操作される通信インターフェースを介して、デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、情報は:チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと;プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの1つの識別に表示することであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと;ディスプレイデバイスを使用して、デジタルオーディオ録音の時間の長さに関するデジタルオーディオ録音の視覚的表示を、チルフレーズの視覚的表示および/またはデジタルオーディオ録音の時間の長さに関するチルモーメントプロットの値と重ねて出力することと、を含む、コンピュータ実装方法。
【0143】
〔実施の態様〕
(1) 音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、第1の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第1の出力を生成することと、
プロセッサを使用して、第2の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第2の出力を生成することと、
プロセッサを使用して、第1の検出基準が満たされる前記第1の出力中の領域に基づいて、第1の検出ルーチンを使用して第1の複数の検出セグメントを生成することと、
プロセッサを使用して、第2の検出基準が満たされる前記第2の出力中の領域に基づいて、第2の検出ルーチンを使用して第2の複数の検出セグメントを生成することと、
プロセッサを使用して、前記第1の複数の検出セグメントと前記第2の複数の検出セグメントとを組み合わせて、前記第1の複数の検出セグメントおよび前記第2の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。
(2) 所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様1に記載の方法。
(3) 組み合わせることは、前記単一のプロットの移動平均を計算することを含む、実施態様1に記載の方法。
(4) 前記移動平均が上限を超える前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様3に記載の方法。
(5) 前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、実施態様1に記載の方法。
【0144】
(6) 前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、実施態様1に記載の方法。
(7) 前記第1の客観的オーディオ処理メトリックまたは前記第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、実施態様1に記載の方法。
(8) 前記第1の検出基準または前記第2の検出基準は、上方または下方境界閾値を含む、実施態様1に記載の方法。
(9) 検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、実施態様1に記載の方法。
(10) 組み合わせることは、第1の複数の検出および第2の複数の検出にそれぞれの重みを適用することを含む、実施態様1に記載の方法。
【0145】
(11) コンピュータシステムであって、
デジタル音楽データを受信するように構成された入力モジュールと、
前記デジタル音楽データを受信し、前記デジタル音楽データに対して第1の客観的オーディオ処理メトリックを実行し、前記デジタル音楽データに対して第2の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、前記第1のメトリックおよび前記第2のメトリックは、それぞれの第1の出力および第2の出力を生成する、オーディオ処理モジュールと、
前記第1の出力および前記第2の出力を入力として受信し、前記第1の出力および前記第2の出力のそれぞれについて、検出基準が満たされる1つ以上のセグメントのセットを生成するように構成された検出モジュールと、
前記検出モジュールによって検出された前記1つ以上のセグメントを入力として受信し、各セグメントを前記検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。
(12) 前記組み合わせモジュールから一致の前記単一のデータセットを入力として受信し、前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、実施態様11に記載のコンピュータシステム。
(13) 前記フレーズ識別モジュールは、前記単一のデータセットの移動平均が上限を超える場所に基づいて、前記1つ以上の領域を識別するように構成されている、実施態様12に記載のコンピュータシステム。
(14) 前記フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、実施態様12に記載のコンピュータシステム。
(15) 前記組み合わせモジュールは、前記単一のプロットの移動平均を計算するように構成されている、実施態様11に記載のコンピュータシステム。
【0146】
(16) 前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ/または一次データを出力するように構成されている、実施態様11に記載のコンピュータシステム。
(17) 前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施態様11に記載のコンピュータシステム。
(18) 前記検出モジュールは、前記第1の客観的オーディオ処理メトリックまたは前記第2の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、実施態様11に記載のコンピュータシステム。
(19) 前記検出基準は、上方または下方境界閾値を含む、実施態様11に記載のコンピュータシステム。
(20) 前記検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、実施態様11に記載のコンピュータシステム。
【0147】
(21) 前記組み合わせモジュールは、前記第1の複数の検出および前記第2の複数の検出にそれぞれの重みを適用してから、前記それぞれの重みに基づいて各検出セグメントを集約するように構成されている、実施態様11に記載のコンピュータシステム。
(22) コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、前記コンピュータ可読プログラムコードは、プロセッサに、
デジタル音楽データを受信することと、
第1の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第1の出力を生成することと、
第2の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第2の出力を生成することと、
第1の検出基準が満たされる前記第1の出力中の領域に基づいて、第1の検出ルーチンを用いて第1の複数の検出セグメントを生成することと、
第2の検出基準が満たされる前記第2の出力中の領域に基づいて、第2の検出ルーチンを用いて第2の複数の検出セグメントを生成することと、
前記第1の複数の検出セグメントおよび前記第2の複数の検出セグメントにおける検出セグメントの一致に基づいて、前記第1の複数の検出セグメントと前記第2の複数の検出セグメントとを組み合わせて単一のプロットにすることと、
を指示するように構成されたコードを含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。
(23) 前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施態様22に記載のコンピュータプログラム製品。
(24) 所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット内の領域を識別し、識別された前記領域の表示を出力する、命令を含む、実施態様22に記載のコンピュータプログラム製品。
(25) 前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する1つ以上の領域を識別する命令を含む、実施態様22に記載のコンピュータプログラム製品。
【0148】
(26) 前記単一のプロットの移動平均を計算する命令を含む、実施態様22に記載のコンピュータプログラム製品。
(27) 前記第1の検出基準または前記第2の検出基準は、上方または下方境界閾値を含む、実施態様22に記載のコンピュータプログラム製品。
(28) 所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、実施態様22に記載のコンピュータプログラム製品。
(29) 人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、2つ以上の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、それぞれの2つ以上の出力を生成することと、
プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、前記2つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、
プロセッサを使用して、前記複数の検出セグメントにおける一致に基づいて、前記2つ以上の出力のそれぞれにおける前記複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、
前記第1の客観的オーディオ処理メトリックおよび前記第2の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。
(30) プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む前記単一のチルモーメントプロットにおける1つ以上の領域を識別することと、
プロセッサを用いて、識別された前記1つ以上の領域の表示を出力することと、を含む、実施態様29に記載の方法。
【0149】
(31) ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記単一のチルモーメントプロットの値の視覚的表示を表示することを含む、実施態様29に記載の方法。
(32) ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データの前記長さに関する前記単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、実施態様29に記載の方法。
(33) 前記単一のチルモーメントプロットの値の前記視覚的表示は、前記単一のチルモーメントプロットの前記値の移動平均の曲線を含む、実施態様32に記載の方法。
(34) 所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のチルモーメントプロット内の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様29に記載の方法。
(35) 前記出力することは、ディスプレイデバイスを介して、識別された前記領域の視覚的表示を表示することを含む、実施態様33に記載の方法。
【0150】
(36) 前記出力することは、ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データ内の識別された前記領域の視覚的表示と重ねて表示することを含む、実施態様33に記載の方法。
(37) 音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音における前記インパクトのある瞬間に関連する情報の要求を受信することであって、前記要求は、前記デジタルオーディオ録音の表示を含む、ことと、
プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、前記対応するセットは、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの1つの識別にマッチングさせることであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
プロセッサを使用して、前記データベース内の前記複数の識別のうちのマッチングされた前記識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。
(38) 前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について実施態様1に記載の方法を使用して生成された、前記異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、実施態様37に記載の方法。
(39) 前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について実施態様29に記載の方法を用いて生成された、前記異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、実施態様37に記載の方法。単一のプロット。
(40) 音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、
プロセッサによって操作される通信インターフェースを介して、前記デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、前記情報は、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも1つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの1つの識別に表示することであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
ディスプレイデバイスを使用して、前記デジタルオーディオ録音の時間の長さに関する前記デジタルオーディオ録音の視覚的表示を、前記チルフレーズの視覚的表示および/または前記デジタルオーディオ録音の前記時間の長さに関する前記チルモーメントプロットの前記値と重ねて出力することと、を含む、コンピュータ実装方法。
【国際調査報告】