特表2024-526125 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エムアイアイアール・オーディオ・テクノロジーズ・インコーポレイテッドの特許一覧

特表2024-526125自律神経系の生理学的反応を誘発するのに適した特性を有する音楽のセグメントを識別するためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
2C
2D
2E
3A
3B
3C
3D
3E
4A
4B
4C
5A
5B
5C
5D
5E
5F
6A
6B
6C
7
8
9A
9B
9C
9D
10A
10B
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-17

(54)【発明の名称】自律神経系の生理学的反応を誘発するのに適した特性を有する音楽のセグメントを識別するためのシステムおよび方法

(51)【国際特許分類】

G10L 25/51 20130101AFI20240709BHJP

【ＦＩ】

G10L25/51

G10L25/51 300

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023577895

(86)(22)【出願日】2022-06-15

(85)【翻訳文提出日】2024-02-01

(86)【国際出願番号】 US2022033597

(87)【国際公開番号】W WO2022266202

(87)【国際公開日】2022-12-22

(31)【優先権主張番号】63/210,863

(32)【優先日】2021-06-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/227,559

(32)【優先日】2021-07-30

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】523472113

【氏名又は名称】エムアイアイアール・オーディオ・テクノロジーズ・インコーポレイテッド

(74)【代理人】

【識別番号】100088605

【弁理士】

【氏名又は名称】加藤公延

(74)【代理人】

【識別番号】100130384

【弁理士】

【氏名又は名称】大島孝文

(72)【発明者】

【氏名】デュマス・ロジャー

(72)【発明者】

【氏名】ベック・ジョン

(72)【発明者】

【氏名】プラスト・アーロン

(72)【発明者】

【氏名】カッツ・ゲーリー

(72)【発明者】

【氏名】モー・ポール・ジェイ

(72)【発明者】

【氏名】レビタン・ダニエル・ジェイ

(57)【要約】

人間の聞き手にチル効果を誘発する可能性が最も高い、音楽の最もインパクトのある瞬間またはセグメントを識別するためのシステムおよび方法。デジタル音楽信号は、チル効果を誘発することが可能であると知られている音響特徴を測定する２つ以上の客観的処理メトリックを用いて処理される。個々の検出事象は、出力が全体の出力に対して閾値を上回るか下回るかに基づいて、各メトリックの出力で識別される。組み合わせアルゴリズムは、一致する検出事象を集約して、拍ごとに計算され得る、音楽信号中の一致する検出事象の数の連続する一致データセットを生成する。フレーズ検出アルゴリズムは、連続する一致データのピーク、ピーク近接、および移動平均の少なくとも１つに基づいて、音楽のインパクトのあるセグメントを識別することができる。

【特許請求の範囲】

【請求項1】

音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、第１の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第１の出力を生成することと、
プロセッサを使用して、第２の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第２の出力を生成することと、
プロセッサを使用して、第１の検出基準が満たされる前記第１の出力中の領域に基づいて、第１の検出ルーチンを使用して第１の複数の検出セグメントを生成することと、
プロセッサを使用して、第２の検出基準が満たされる前記第２の出力中の領域に基づいて、第２の検出ルーチンを使用して第２の複数の検出セグメントを生成することと、
プロセッサを使用して、前記第１の複数の検出セグメントと前記第２の複数の検出セグメントとを組み合わせて、前記第１の複数の検出セグメントおよび前記第２の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。

【請求項2】

所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項１に記載の方法。

【請求項3】

組み合わせることは、前記単一のプロットの移動平均を計算することを含む、請求項１に記載の方法。

【請求項4】

前記移動平均が上限を超える前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項３に記載の方法。

【請求項5】

前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、請求項１に記載の方法。

【請求項6】

前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、請求項１に記載の方法。

【請求項7】

前記第１の客観的オーディオ処理メトリックまたは前記第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、請求項１に記載の方法。

【請求項8】

前記第１の検出基準または前記第２の検出基準は、上方または下方境界閾値を含む、請求項１に記載の方法。

【請求項9】

検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、請求項１に記載の方法。

【請求項10】

組み合わせることは、第１の複数の検出および第２の複数の検出にそれぞれの重みを適用することを含む、請求項１に記載の方法。

【請求項11】

コンピュータシステムであって、
デジタル音楽データを受信するように構成された入力モジュールと、
前記デジタル音楽データを受信し、前記デジタル音楽データに対して第１の客観的オーディオ処理メトリックを実行し、前記デジタル音楽データに対して第２の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、前記第１のメトリックおよび前記第２のメトリックは、それぞれの第１の出力および第２の出力を生成する、オーディオ処理モジュールと、
前記第１の出力および前記第２の出力を入力として受信し、前記第１の出力および前記第２の出力のそれぞれについて、検出基準が満たされる１つ以上のセグメントのセットを生成するように構成された検出モジュールと、
前記検出モジュールによって検出された前記１つ以上のセグメントを入力として受信し、各セグメントを前記検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。

【請求項12】

前記組み合わせモジュールから一致の前記単一のデータセットを入力として受信し、前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、請求項１１に記載のコンピュータシステム。

【請求項13】

前記フレーズ識別モジュールは、前記単一のデータセットの移動平均が上限を超える場所に基づいて、前記１つ以上の領域を識別するように構成されている、請求項１２に記載のコンピュータシステム。

【請求項14】

前記フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、請求項１２に記載のコンピュータシステム。

【請求項15】

前記組み合わせモジュールは、前記単一のプロットの移動平均を計算するように構成されている、請求項１１に記載のコンピュータシステム。

【請求項16】

前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、請求項１１に記載のコンピュータシステム。

【請求項17】

【請求項18】

前記検出モジュールは、前記第１の客観的オーディオ処理メトリックまたは前記第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、請求項１１に記載のコンピュータシステム。

【請求項19】

前記検出基準は、上方または下方境界閾値を含む、請求項１１に記載のコンピュータシステム。

【請求項20】

前記検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、請求項１１に記載のコンピュータシステム。

【請求項21】

前記組み合わせモジュールは、前記第１の複数の検出および前記第２の複数の検出にそれぞれの重みを適用してから、前記それぞれの重みに基づいて各検出セグメントを集約するように構成されている、請求項１１に記載のコンピュータシステム。

【請求項22】

コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、前記コンピュータ可読プログラムコードは、プロセッサに、
デジタル音楽データを受信することと、
第１の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第１の出力を生成することと、
第２の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第２の出力を生成することと、
第１の検出基準が満たされる前記第１の出力中の領域に基づいて、第１の検出ルーチンを用いて第１の複数の検出セグメントを生成することと、
第２の検出基準が満たされる前記第２の出力中の領域に基づいて、第２の検出ルーチンを用いて第２の複数の検出セグメントを生成することと、
前記第１の複数の検出セグメントおよび前記第２の複数の検出セグメントにおける検出セグメントの一致に基づいて、前記第１の複数の検出セグメントと前記第２の複数の検出セグメントとを組み合わせて単一のプロットにすることと、
を指示するように構成されたコードを含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。

【請求項23】

【請求項24】

所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット内の領域を識別し、識別された前記領域の表示を出力する、命令を含む、請求項２２に記載のコンピュータプログラム製品。

【請求項25】

前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別する命令を含む、請求項２２に記載のコンピュータプログラム製品。

【請求項26】

前記単一のプロットの移動平均を計算する命令を含む、請求項２２に記載のコンピュータプログラム製品。

【請求項27】

前記第１の検出基準または前記第２の検出基準は、上方または下方境界閾値を含む、請求項２２に記載のコンピュータプログラム製品。

【請求項28】

所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、請求項２２に記載のコンピュータプログラム製品。

【請求項29】

人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、２つ以上の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、それぞれの２つ以上の出力を生成することと、
プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、前記２つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、
プロセッサを使用して、前記複数の検出セグメントにおける一致に基づいて、前記２つ以上の出力のそれぞれにおける前記複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。

【請求項30】

プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む前記単一のチルモーメントプロットにおける１つ以上の領域を識別することと、
プロセッサを用いて、識別された前記１つ以上の領域の表示を出力することと、を含む、請求項２９に記載の方法。

【請求項31】

ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記単一のチルモーメントプロットの値の視覚的表示を表示することを含む、請求項２９に記載の方法。

【請求項32】

ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データの前記長さに関する前記単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、請求項２９に記載の方法。

【請求項33】

前記単一のチルモーメントプロットの値の前記視覚的表示は、前記単一のチルモーメントプロットの前記値の移動平均の曲線を含む、請求項３２に記載の方法。

【請求項34】

所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のチルモーメントプロット内の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、請求項２９に記載の方法。

【請求項35】

前記出力することは、ディスプレイデバイスを介して、識別された前記領域の視覚的表示を表示することを含む、請求項３３に記載の方法。

【請求項36】

前記出力することは、ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データ内の識別された前記領域の視覚的表示と重ねて表示することを含む、請求項３３に記載の方法。

【請求項37】

音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音における前記インパクトのある瞬間に関連する情報の要求を受信することであって、前記要求は、前記デジタルオーディオ録音の表示を含む、ことと、
プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、前記対応するセットは、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの１つの識別にマッチングさせることであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
プロセッサを使用して、前記データベース内の前記複数の識別のうちのマッチングされた前記識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。

【請求項38】

前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について請求項１に記載の方法を使用して生成された、前記異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、請求項３７に記載の方法。

【請求項39】

前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について請求項２９に記載の方法を用いて生成された、前記異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、請求項３７に記載の方法。単一のプロット。

【請求項40】

音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、
プロセッサによって操作される通信インターフェースを介して、前記デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、前記情報は、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの１つの識別に表示することであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
ディスプレイデバイスを使用して、前記デジタルオーディオ録音の時間の長さに関する前記デジタルオーディオ録音の視覚的表示を、前記チルフレーズの視覚的表示および／または前記デジタルオーディオ録音の前記時間の長さに関する前記チルモーメントプロットの前記値と重ねて出力することと、を含む、コンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願への相互参照〕
本出願は、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＩＤＥＮＴＩＦＹＩＮＧＳＥＧＭＥＮＴＳＯＦＭＵＳＩＣＨＡＶＩＮＧＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳＳＵＩＴＡＢＬＥＦＯＲＩＮＤＵＣＩＮＧＡＵＴＯＮＯＭＩＣＰＨＹＳＩＯＬＯＧＩＣＡＬＲＥＳＰＯＮＳＥＳ」と題され、２０２１年６月１５日に出願された米国仮出願第６３／２１０，８６３号の優先権および利益を主張し、また、「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＩＤＥＮＴＩＦＹＩＮＧＳＥＧＭＥＮＴＳＯＦＭＵＳＩＣＨＡＶＩＮＧＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳＳＵＩＴＡＢＬＥＦＯＲＩＮＤＵＣＩＮＧＡＵＴＯＮＯＭＩＣＰＨＹＳＩＯＬＯＧＩＣＡＬＲＥＳＰＯＮＳＥＳ」と題され、２０２１年７月３０日に出願された米国仮出願第６３／２２７，５５９号の優先権および利益を主張し、これらそれぞれの内容は、参照によりその全体が本明細書に組み込まれる。

【0002】

〔分野〕
本開示は、音楽などの複雑なオーディオデータを処理するシステムおよび方法に関し、より詳細には、人間の聞き手に自律神経系の生理学的反応を誘発するのに適した最も強い特性を有するオーディオデータの時間領域を決定するために、音楽オーディオデータを処理するシステムおよび方法に関する。

【背景技術】

【0003】

最近の科学研究は、聴覚刺激と、特定の音または音楽に対する周知の不随意反応であるチル（chills）または鳥肌などの自律神経系の生理学的反応との関連をよりよく理解しようと試みている。音楽に対する自律神経系の生理学的反応に関する最初の調査の１つで、研究者たちは、脳血流、心拍数、呼吸、骨格筋から生じる電気的活動（例えば、筋電図）のデータ、ならびに、参加者の「チル」の主観的報告を収集した。この研究では、報酬、感情、覚醒に関連する脳領域（例えば、腹側線条体、中脳、扁桃体、眼窩前頭皮質、腹内側前頭前皮質）の脳血流の変動が、参加者のチルの自己報告と対応していることが確認された。これらの領域はまた、食物、セックス、レクリエーショナルドラッグなど、幸福感を誘発する刺激に反応して活性化する。

【0004】

したがって、音楽と自律神経系の生理学的反応には関連があることが立証されている。しかし、チル反応を引き起こし得る、音響および音楽刺激のジャンル、音楽スタイル、種類は多岐にわたる。このような自律神経反応を引き起こす可能性が最も高い、曲または楽譜中の１つもしくは複数の特定のセグメントを正確に識別するために、多種多様な音楽のジャンル／スタイルにうまく対応する方法で、チル誘発に関連するデジタル録音内の様々な個々の根本的な音響／音楽構造を検出し、検出されたチル誘発物を評価することができるデジタルオーディオ処理ルーチンが必要とされている。

【発明の概要】

【発明が解決しようとする課題】

【0005】

ソーシャルメディアおよび広告で使用する音楽セグメントを選択する際に使用されるソフトウェアアプリケーションを作成するプロセスにおいて、手作業で音楽のセクションを選択し、キュレーションすることは、コストと時間のかかる作業であり、このプロセスを自動化するための取り組みが行われた。大規模なカタログをキュレーションし、音楽セグメントを識別する際の１つの問題は、主観的と考えられる、様々なレベルの審美的判断を含む。この問題に対する新たなアプローチは、コンテンツベースの音楽情報検索（Content-Based Music Information Retrieval）（本明細書では「ＣＢ－ＭＩＲ」と呼ぶ）の分野からの手法を、人間のいわゆる「チル反応」（例えば、自律神経系の生理学的反応）の考え方を含む神経学的研究の分野からの学術的研究と組み合わせて、使用することであった。この反応は、人間の感覚器官と人間の経験の共通性を考慮するとチルモーメントは生理的な性質のものと考えられ必ずしも主観的なものではないが、音楽の鑑賞とも強く関連している。

【0006】

このような瞬間を見つけるための既存の技術では、音楽の専門家、または任意の所与の楽曲に精通している人々による主観的な評価が必要である。たとえそうであっても、どのような個人も、聴衆全体におけるチル反応の存在または可能性について彼らの評価を特徴づける一連のバイアスおよび不確定要素を有する。本開示の実施例は、客観的かつ定量的なプロセスとして、チルの誘発と関連付けられる音楽セグメントの検出を可能にする。

【課題を解決するための手段】

【0007】

本開示が利用する１つの態様は、音楽家と作曲家が聞き手の感情状態に影響を与えるために共通のツールを使用するという考え方である。ボリュームのコントラスト、キー変化、コード変更、メロディピッチおよび高調波ピッチはすべて、この「音楽家の道具箱（musician's toolbox）」で使用することができ、音楽の演奏および作曲が教えられているあらゆる場所のカリキュラムで見られる。しかし、これらの高レベルの構造は、明確な「音のシグネチャ」、または音楽録音の信号処理の観点での定義を持っていない。これらの構造を見つけるために、デジタル録音またはストリーミングオーディオから低レベルの音楽情報を抽出すること（例えば、特徴抽出）に特に焦点を合わせた、ＣＢ－ＭＩＲの分野からの教示が、新規なオーディオ処理ルーチンで活用されている。従来のＣＢ－ＭＩＲ手法によって提供される低レベルの情報をソースとして使用して、本開示の実施例は、複雑なオーディオデータ（例えば、音楽）を処理および分析して、チル反応をもたらすことが音楽の神経学的研究によって判明した高レベルの音響および音楽構造を識別するためのシステムおよび方法を含む。

【0008】

このプロセスの例は、音楽録音から様々なＣＢ－ＭＩＲデータストリーム（本明細書では客観的オーディオ処理メトリックとも呼ぶ）を抽出することから始まる。これらの例は、ラウドネス、ピッチ、スペクトル、スペクトルフラックス、スペクトルセントロイド、メル周波数ケプストラム係数などであり、これらについては、本明細書でさらに詳細に説明する。任意の所与のタイプの特徴に対する特徴抽出の特定の実施態様は、後続の処理ステップのためのデータの準備および最適化に影響を与えるパラメータ化オプションを有することができる。例えば、ラウドネスという一般的な特徴は、いくつかの様々なフィルタおよび方法論に従って抽出することができる。

【0009】

この例としてのプロセスの次のフレーズは、チルを誘発する高レベルの音響および音楽構造を探すことを含む。これらの構造は、チル現象に関する学術文献において、様々なレベルの特異性で記述されている。個々のＣＢ－ＭＩＲデータストリームからこれらの高レベルな構造のいずれか１つを検出することを、本明細書では、幾何学的辺縁系インパクト現象（Geometric Limbic Impact Phenomenon）の頭字語として、「ＧＬＩＰｈ」と呼ぶ。より具体的には、本開示の実施例には、学術文献に記載されているようなチル誘発物を研究し、その後、誘発現象を統計的データパターンとして表すＧＬＩＰｈを設計することが含まれる。ＧＬＩＰｈは、ピッチ、ラウドネス、スペクトルフラックスなど、各音楽特徴の中の目的の瞬間を表すことができる。抽出された特徴データセットに含まれ得る様々なＧＬＩＰｈが特定されると、グラフプロット内の対象領域（ＲＯＩ）の周りに境界線を引いて、デジタル録音のタイムライン内のどこにＧＬＩＰｈがあるかを示すことができる。

【0010】

次に、ＧＬＩＰｈのタイムスタンプのインスタンスが様々な抽出された特徴データセットにわたって蓄積されると、デジタル録音内のＧＬＩＰｈの一致および近接の量を計算する新しいデータセットを形成することができる。このデータ処理は、本明細書では組み合わせアルゴリズムと呼ばれ、出力データは、本明細書では「チルモーメント」プロットと呼ばれ、これは、出力の移動平均を含んで、組み合わせアルゴリズムの出力の連続的でより滑らかな表現を提示することができ、これは、拍ごとのレベルで値が大きく変動することがあり（または、最小の時間間隔が入力メトリックうちの１つに使用される）、その結果、視覚的に分析すると「ビジー」なデータになることがあり、この出力の移動平均は、特に複数の拍またはタクトゥスにわたる曲の中の傾向が評価されることがより有用である場合に、データの視覚的分析にさらに有用となり得る。いくつかの実施例では、ＧＬＩＰｈは均等に重み付けされるが、組み合わせアルゴリズムは、重み付けされた値を各ＧＬＩＰｈインスタンスに帰属させることによって、チルモーメントデータを生成するように構成することもできる。移動平均の生成の例には、ガウシアンフィルタによるチルモーメントプロットの畳み込みを使用することが含まれ、これは、例えば、わずか２もしくは３拍、または１００拍以上にわたることができ、したがって、曲の中の拍の長さに基づいて時間的に可変であり、動的な値とすることができる。代表的な例としての長さは、本明細書で紹介するデータに使用される長さである、３０拍を含め、１０～５０拍の範囲とすることができる。この平滑化を拍に基づかせることで、有利には、移動平均を音楽の内容に適応させることができる。

【0011】

アーティストの曲作りにおいて観察される傾向は、チル誘発物（例えば、自律神経系の生理学的反応を誘発する可能性を高める音楽特徴）が、（ある論理的限界まで）同時に、および連続して使用され得ることであり、これはＧＬＩＰｈの一致および近接を反映するチルモーメントプロットと整合する。つまり、曲の一部分（または曲全体）が、自律神経系の生理学的反応に関連することが知られている音楽特徴において、一致および近接のパターンを示す頻度が高ければ高いほど、聞き手においてチルを誘発する可能性が高くなる。全体として、これらの特徴の２つ以上が時間的に整合するとき、その音楽的瞬間が誘発する覚醒のレベルは高くなる。したがって、本開示の特定の実施例は、オーディオデータを処理して個々のチル誘発物を識別し、識別されたチル誘発物の一致の割合および近接に少なくとも部分的に基づく、自律神経系の生理学的反応を誘発する可能性を最大化するオーディオデータ内の１つ以上のピークモーメントの新しいデータセットを構築する方法を提供する。例としては、この新しいデータセットをさらに処理して、これらのピークモーメントを含む音楽セグメントおよびフレーズを識別し、それらを、例えば、ピークモーメントまたはフレーズを含む元のオーディオデータから切り捨てられたセグメントを作成するために使用されるピークモーメントまたはフレーズを示すタイムスタンプとして元のオーディオデータとともに使用され得る新しいタイプのメタデータとして提供することが含まれる。

【0012】

本開示の実施例は、オーディオ波形を一連の「サンプル」値として符号化するデジタルオーディオ録音を処理するために使用することができる；典型的には、毎秒４４，１００サンプルがパルス符号変調で使用され、各サンプルは、２２．６７６マイクロ秒ごとに複雑なオーディオ波形を捕捉する。当業者であれば、より高いサンプリングレートが可能であり、本明細書で開示するデータ抽出技術に重大な影響を与えないことを理解されよう。例としてのデジタルオーディオファイルフォーマットは、ＭＰ３、ＷＡＶ、ＡＩＦＦである。処理は、デジタル録音されたオーディオファイルから開始することができ、複数の後続処理アルゴリズムが、音楽特徴を抽出し、最も強いチルモーメントを有する音楽セグメントを識別するために使用される。音楽セグメントは、音楽録音の任意のサブセクションであってよく、通常は１０～６０秒の長さである。例としてのアルゴリズムは、コーラスまたは節などのフレーズの始まりと終わりに一致して開始および終了するセグメントを見つけるように設計することができる。

【0013】

デジタル音楽録音分析の主なカテゴリーは以下の通りである：
（ｉ）時間領域：時間に関するデジタル録音に含まれる周波数の分析、
（ｉｉ）リズム：時間領域内で繰り返される周期的な信号で、人間が別々の拍として知覚するもの、
（ｉｉｉ）周波数：時間領域内で繰り返される周期的な信号で、人間が単一の音／音符として知覚するもの、
（ｉｖ）振幅：所与の瞬間における音のエネルギーの強さ、
（ｖ）スペクトルエネルギー：音色として知覚される、曲（または他の時間単位）のすべての周波数にわたって存在する振幅の総量。

【0014】

自律神経系の生理学的反応（例えば、チル）は、音響的、音楽的、感情的な刺激駆動特性によって誘発され得る。これらの特性には、音響特性の急激な変化、高レベルな構造予測、および感情の強度が含まれる。最近の調査では、どのようなオーディオ特性がチルを誘発するのかを明らかにすることが試みられている。このアプローチでは、研究者は、チル体験には、期待、ピーク感情、および感動に基づくメカニズムが関与していることを示唆している。しかし、研究デザイン、実験変数の妥当性、チルの尺度、用語、残された知識のギャップに関して、レビューされた文献には重大な欠点が識別されている。また、チルを経験する能力は、性格の違い、特に「経験に対する開放性」に影響される。これは、所与の聞き手にとってチルを誘発する瞬間は稀で、ある程度個々の性向の違いにより、予測することが困難となり得ることを意味する。文献には、音響媒体（音楽）と物理現象（チル）との間のいくつかの有用な関連が示されているが、チルを誘発する音楽的事象の数多くの音楽的および音響的特性が厳密な定義を欠いているため、これらの特徴の１つ以上を持つ特定の音楽セグメントを識別できることは困難である。さらに、識別された音楽的および音響的特性の多くは、全体として見た場合に主観的に識別可能な特性のみを有し得る、音楽的および音響的事象の複雑な配置として最も良く理解される。したがって、既存の文献では、複雑なオーディオデータ（例えば、音楽）におけるチルを誘発するピークの瞬間の識別は未解決の問題であると考えられている。

【0015】

既存の研究は、チル誘発物を、数値的な用語ではなく、美的記述用語で示している。「驚きのハーモニー」のような複雑な概念は、現在、既知の数学的記述を有さない。典型的なＣＢ－ＭＩＲ特徴抽出法は低レベルで客観的であるが、それにもかかわらず、本開示の実施例によって実証されるように、高レベルの複雑な概念を正確に表すことができるパターンを構築し始める（そして、その後、発見し、識別する）ために、本開示の実施例において構成要素として使用することができる。

【0016】

本開示の実施例は、主観的な識別を超えて、これらの事象（例えば、ＧＬＩＰｈ）に対応するオーディオ信号中の例示的なパターンの客観的な識別を可能にする。この識別に使用するために、いくつかの異なる客観的オーディオ処理メトリックを計算することができる。これらには、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア（predominant pitch melodia）、スペクトルフラックス、およびスペクトルセントロイドが含まれる。しかし、既知の個々の客観的メトリックは、多種多様な音楽にわたってチルモーメントをロバストに識別することはできないが、本開示の実施例は、音楽の全体的な特性（例えば、ジャンル、ムード、または楽器の配置）に関係なく、チル反応を誘発するのに適したセグメントを識別する方法で複数のメトリックを組み合わせることにより、そのようなロバストな検出を可能にする。

【0017】

例えば、所与のデジタル録音の分析中、ＧＬＩＰｈのタイムスタンプのインスタンスが様々な抽出された特徴データセットにわたって蓄積されると、デジタル録音内で識別されたＧＬＩＰｈの一致および近接の量に基づいて、組み合わせアルゴリズムを用いて新しいデータセットを形成することができる。このデータセットは、本明細書ではチルモーメントプロットと呼ばれ、組み合わせアルゴリズムは、重み付けされた値を各ＧＬＩＰｈインスタンスに帰属させ、例えば、それらの一致率、または単位時間当たり（例えば、１拍当たりもしくは１秒当たり）を決定することによって、チルモーメントプロットを生成する。メトリック（例えば、個々のＧＬＩＰｈを識別するメトリック）のセットを組み合わせる１つの理由は、多くの種類のチル誘発物があるということである。標準的なＣＢ－ＭＩＲ式の特徴抽出に関して、チルモーメントを誘発する特性一式（例えば、ｄｅＦｌｅｕｒｉａｎおよびＰｅａｒｃｅによるもののような研究によって識別されたチル誘発特性）を持つ音楽セグメントを決定することが知られている様々な音響的および音楽的パターンをすべて符号化することができる単一のメトリックはない。さらに、録音するアーティストは、音楽を構成および録音する際に多くの種類のツールを使用し、一般的に所与の曲の中で使用される単一のツールはなく、多種多様な音楽スタイルおよびジャンルは多くの異なる美的アプローチを持っている。ポピュラー音楽の極端な多様性は、その強力な証拠である。１つの特徴が１つの曲の中で多くのポイントを有することはよくある。例えばメロディピッチは、１つの曲の中で潜在的に何百もの目的のポイントを持ち、そのそれぞれがその曲の中の個々のＧＬＩＰｈに対応することができる。複数の客観的メトリックにわたり整合する複数のＧＬＩＰｈ特徴の同時発生を見て初めて、首尾一貫したパターンが現れる。

【0018】

音楽セグメントは、本開示の実施例により、例えば、ＧＬＩＰｈの一致に基づいて、一次および二次チルセグメントとして識別することができる。これらの一致は、実験参加者により試聴されると、チルの文献に詳述されているように、行動および生理機能の尺度に予測可能な変化をもたらす。一次チルセグメントとは、オーディオ録音の中でＧＬＩＰｈの一致が最も高いセグメントであり得、チルを生じる可能性が最も高いセグメントを示すことができ、二次チルセグメントは、一次チルセグメントよりもよりもＧＬＩＰｈの一致が低いことに基づき、より小さい程度でチルを誘発すると識別されるセグメントである。この予測能力を検証する実験が実施され、その結果が本明細書に示されている。これらの識別されたセグメントは、「チルフレーズ」または「チルモーメント」と呼ぶことができるが、音楽的なチル（例えば、所与の聞き手における自律神経系の生理学的反応の誘発）を実際に経験することは稀であるため、これらのセグメントは、「インパクトのある音楽フレーズ」、または一般的に自律神経系の生理学的反応を誘発するのに適した特性を持つ音楽セグメントとみなすこともできる。

【0019】

本明細書でより詳細に論じ、図示するように、本開示の実施例は、ａ）５つの領域（時間、ピッチ、リズム、ラウドネス、およびスペクトル）からの同期データを分析すること、ならびに、ｂ）開始位置としてごく一般的な音楽マップのみを使用して特定の音響的シグネチャを識別することを含み得る。実施例は、各特徴のＧＬＩＰｈメタ分析とともに、チルモーメントプロットに含めるために選択された特徴データを含む一連のベクトルを出力することができる。例えば、１拍当たりのラウドネス（Loudness-per-beat）データ出力は、データのベクトルとして保存することができ、その後、閾値（または他の検出アルゴリズム）を適用して、個々のメトリックデータのＧＬＩＰｈインスタンス（例えば、１拍当たりのラウドネスデータの上位四分位数）を決定することができ、これは、１つが開始時間を保存し、もう１つが終了時間を保存する２つのベクトルにおいて上位四分位数に入るデータの各ＧＬＩＰｈセグメントについて開始時間および終了時間と共に保存される。その後、各特徴を分析することができ、それぞれの拍について、その特徴の目的の開始時間と停止時間が時間のこの瞬間内にあるかどうかを判断することができ、もしそうであれば、その特徴の特定の重み付けに従って、チルモーメントベクトルの値に加えられる。

【0020】

したがって、出力は、調査中のさまざまな特徴を表す、数値、文字列、実数のベクトル、および実数の行列の集まりである。チルモーメント出力は、各時間ステップにおいて各誘発物（例えば、識別されたＧＬＩＰｈまたはＧＬＩＰｈの一致）にとってインパクトのある瞬間を示す特徴（例えば、個々の客観的オーディオメトリック）の合計とすることができる。

【0021】

本開示の実施例は、音楽録音から最もインパクトのある瞬間を見つける能力を提供し、チルを誘発する音響的および音楽的特徴の一致は、聞き手の覚醒の予測因子である。

【0022】

本開示の一実施例は、音楽中のセグメントを識別するコンピュータ実装方法であり、この方法は、プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、プロセッサを使用して、第１の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第１の出力を生成することと、プロセッサを使用して、第２の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第２の出力を生成することと、プロセッサを使用して、第１の検出基準が満たされる第１の出力中の領域に基づいて、第１の検出ルーチンを使用して第１の複数の検出セグメントを生成することと、プロセッサを使用して、第２の検出基準が満たされる第２の出力中の領域に基づいて、第２の検出ルーチンを使用して第２の複数の検出セグメントを生成することと、プロセッサを使用して、第１の複数の検出セグメントと第２の複数の検出セグメントとを組み合わせて、第１および第２の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、第１および第２の客観的オーディオ処理メトリックは異なる。この方法は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット中の領域を識別することと、識別された領域の表示を出力することと、を含むことができる。組み合わせることは、単一のプロットの移動平均を計算することを含むことができる。本方法は、移動平均が上限を超える単一のプロット中の領域を識別することと、識別された領域の表示を出力することと、を含むことができる。第１および第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり得、かつ／または一次データを出力するように構成される。例としては、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加（dynamic increase）、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される第１および第２の客観的オーディオ処理メトリックが挙げられる。

【0023】

この方法の実施例は、第１または第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することを含むことができる。第１または第２の検出基準は、上方または下方境界閾値を含むことができる。本方法は、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含むことができる。組み合わせることは、第１および第２の複数の検出にそれぞれの重みを適用することを含むことができる。

【0024】

本開示の別の実施例は、コンピュータシステムであり、これは、デジタル音楽データを受信するように構成された入力モジュールと、デジタル音楽データを受信し、デジタル音楽データに対して第１の客観的オーディオ処理メトリックを実行し、デジタル音楽データに対して第２の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、第１および第２のメトリックは、それぞれの第１および第２の出力を生成する、オーディオ処理モジュールと、第１および第２の出力を入力として受信し、第１および第２の出力のそれぞれについて、検出基準が満たされる１つ以上のセグメントのセットを生成するように構成された検出モジュールと、検出モジュールによって検出された１つ以上のセグメントを入力として受信し、各セグメントを検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む。本システムは、組み合わせモジュールから一致の単一のデータセットを入力として受信し、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別するように構成されたフレーズ識別モジュールを含むことができる。フレーズ識別モジュールは、単一のデータセットの移動平均が上限を超える場所に基づいて、１つ以上の領域を識別するように構成することができる。フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成することができる。組み合わせモジュールは、単一のプロットの移動平均を計算するように構成することができる。第１および第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムとすることができ、かつ／または一次データを出力するように構成される。

【0025】

システムは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される第１および第２の客観的オーディオ処理メトリックを含むことができる。検出モジュールは、第１または第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成することができる。検出基準は、上方または下方境界閾値を含むことができる。検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成され得る。組み合わせモジュールは、第１および第２の複数の検出にそれぞれの重みを適用してから、それぞれの重みに基づいて各検出セグメントを集約するように構成され得る。

【0026】

本開示のさらに別の実施例は、コンピュータプログラム製品であり、これは、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、コンピュータ可読プログラムコードは、プロセッサに：デジタル音楽データを受信することと、第１の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して第１の出力を生成することと、第２の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して第２の出力を生成することと、第１の検出基準が満たされる第１の出力中の領域に基づいて、第１の検出ルーチンを用いて第１の複数の検出セグメントを生成することと、第２の検出基準が満たされる第２の出力中の領域に基づいて、第２の検出ルーチンを用いて第２の複数の検出セグメントを生成することと、第１および第２の複数の検出セグメントにおける検出セグメントの一致に基づいて、第１の複数の検出セグメントと第２の複数の検出セグメントとを組み合わせて単一のプロットにすることと、を指示するように構成されたコードを含み、第１および第２の客観的オーディオ処理メトリックは異なる。第１および第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択され得る。コンピュータプログラム製品は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット内の領域を識別し、識別された領域の表示を出力する命令を含むことができる。本製品は、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別する命令を含むことができる。製品は、単一のプロットの移動平均を計算する命令を含むことができる。第１または第２の検出基準は、上方または下方境界閾値を含むことができる。本製品は、所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含むことができる。

【0027】

本開示のさらに別の実施例は、人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であり、これは、プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、プロセッサを使用して、２つ以上の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、それぞれの２つ以上の出力を生成することと、プロセッサを介して、それぞれの検出基準を満たす領域に基づいて、２つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、プロセッサを使用して、複数の検出セグメントにおける一致に基づいて、２つ以上の出力のそれぞれにおける複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、第１および第２の客観的オーディオ処理メトリックは：ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される。本方法は、プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む単一のチルモーメントプロットにおける１つ以上の領域を識別することと、プロセッサを用いて、識別された１つ以上の領域の表示を出力することとを含むことができる。例としては、ディスプレイデバイスを介して、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示を表示することが含まれる。例としては、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含むことができる。単一のチルモーメントプロットの値の視覚的表示は、単一のチルモーメントプロットの値の移動平均の曲線を含むことができる。本方法の実施例は、所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のチルモーメントプロット内の領域を識別することと、識別された領域の表示を出力することとを含む。出力することは、ディスプレイデバイスを介して、識別された領域の視覚的表示を表示することを含むことができる。出力することは、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データ内の識別された領域の視覚的表示と重ねて表示することを含むことができる。

【0028】

本開示のさらに別の実施例は、音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であり、この方法は、プロセッサによって操作される入力を介して、デジタルオーディオ録音におけるインパクトのある瞬間に関連する情報の要求を受信することであって、この要求は、デジタルオーディオ録音の表示を含む、ことと、プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、対応するセットは：チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの１つの識別にマッチングさせることであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、プロセッサを使用して、データベース内の複数の識別のうちのマッチングされた識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む。異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例１の方法を使用して生成された、異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含み得る。異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例２９の方法を用いて生成された、異なるデジタルオーディオ録音の各々についての単一のチルモーメントプロットを用いて作成された情報を含むことができる。

【0029】

本開示の別の実施例は、音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、この方法は、プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、プロセッサによって操作される通信インターフェースを介して、デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、情報は：チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの１つの識別に表示することであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、ディスプレイデバイスを使用して、デジタルオーディオ録音の時間の長さに関するデジタルオーディオ録音の視覚的表示を、チルフレーズの視覚的表示および／またはデジタルオーディオ録音の時間の長さに関するチルモーメントプロットの値と重ねて出力することと、を含む。

【0030】

本開示は、添付の図面と併せて理解される以下の詳細な説明からより完全に理解されるであろう。

【図面の簡単な説明】

【0031】

【図1A】本開示によるデジタル音楽データを処理するための例としてのルーチンのフローチャートである。

【図1B】図１Ａのデジタル音楽データを処理するための例としてのルーチンの詳細なフローチャートである。

【図2A】デジタル音楽ファイルの例としての波形の経時的な振幅のグラフである。

【図2B】第１の代表的な客観的オーディオ処理メトリックの例としての出力を、識別されたＧＬＩＰｈの対応するプロットとともに視覚的に表したものである。

【図2C】第２の代表的な客観的オーディオ処理メトリックの例としての出力を、識別されたＧＬＩＰｈの対応するプロットとともに視覚的に表したものである。

【図2D】第１および第２の代表的な客観的オーディオ処理メトリックの識別されたＧＬＩＰｈに基づく組み合わせアルゴリズムの例としての出力を視覚的に表したものである。

【図2E】図２Ｄの組み合わせアルゴリズムの出力に基づくフレーズ検出アルゴリズムの例としての出力を視覚的に表したものである。

【図3A】デジタル音楽ファイルの波形を視覚的に示す図である。

【図3B】図３Ａの波形に基づくラウドネスメトリックの出力を視覚的に表したものである。

【図3C】図３Ａの波形に基づく、３つの異なるラウドネス帯域におけるラウドネス帯域比率メトリックの出力を視覚的に表したものである。

【図3D】図３Ｂおよび図３Ｃの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねた図である。

【図3E】図３Ｄのフレーズ検出アルゴリズムの出力を示す図３Ａの波形を視覚的に示す図である。

【図4A】図３Ａの波形に基づく優勢ピッチメロディアメトリックの出力を視覚的に表したものである。

【図4B】図３Ｂ、図３Ｃ、および図４Ａの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す図である。

【図4C】図４Ｂのフレーズ検出アルゴリズムの出力を示す図３Ａの波形を視覚的に示す図であり、図３Ｅに示すフレーズ検出アルゴリズムの出力との比較を示す。

【図5A】別のデジタル音楽ファイルの波形を視覚的に示す図である。

【図5B】図５Ａの波形に基づくラウドネス客観的オーディオ処理メトリックの出力を視覚的に表したものである。

【図5C】図５Ａの波形に基づく３つの異なるラウドネス帯域におけるラウドネス帯域比率アルゴリズムメトリックの出力を視覚的に表したものである。

【図5D】図５Ａの波形に対して実行される優勢ピッチメロディアメトリックの出力を視覚的に表したものである。

【図5E】図５Ｂ、図５Ｃ、および図５Ｄの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねた図である。

【図5F】図５Ｅのフレーズ検出アルゴリズムの出力を示す図５Ａの波形を視覚的に示す図である。

【図6A】図５Ａの波形に基づくスペクトルフラックスメトリックの出力を視覚的に表したものである。

【図6B】図５Ｂ、図５Ｃ、図５Ｄ、および図６Ａの客観的オーディオ処理メトリックに基づく組み合わせアルゴリズムの例としての出力を、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す図である。

【図6C】図６Ｂのフレーズ検出アルゴリズムの出力を示す図５Ａの波形を視覚的に示す図であり、図５Ｆに示すフレーズ検出アルゴリズムの出力との比較を示す。

【図7】別の曲の波形を入力として使用して生成されたプロット群であり、曲の波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムのから出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。

【図8】さらに別の曲の波形を入力として使用して生成されたプロット群であり、曲の波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。

【図9A】ある曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。

【図9B】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。

【図9C】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。

【図9D】異なる曲の客観的オーディオメトリック出力に対して実行された組み合わせアルゴリズムからの出力プロットである。

【図10A】行動研究からの被験者データの一例のグラフである。

【図10B】非ピークモーメントと比べて、音楽中のアルゴリズムによって識別されたピークモーメント中の増加と関連付けられた神経活性化の幅広いネットワークを示すｆＭＲＩデータである。

【図11】本開示の実施例を組み込んだソーシャルメディアアプリケーションを示すモバイルデバイスディスプレイの説明図である。

【図12】本開示の実施例を組み込んだ音楽ストリーミングアプリケーションを示すモバイルデバイスディスプレイの説明図である。

【図13】本開示の実施例を組み込んだ音楽カタログアプリケーションを示すコンピュータディスプレイの説明図である。

【図14】本開示の実施例を組み込んだ動画制作アプリケーションを示すコンピュータディスプレイの説明図である。

【図15】本開示とともに使用するためのコンピュータシステムの例示的な一実施形態のブロック図である。

【図16】本開示とともに使用するためのクラウドベースのコンピュータネットワークの例示的な一実施形態のブロック図である。

【発明を実施するための形態】

【0032】

次に、本明細書に開示されるデバイス、システム、および方法の構造、機能、および使用の原理の全体的な理解を提供するために、特定の例示的な実施形態について説明する。これらの実施形態の１つ以上の実施例が、添付の図面に図示されている。当業者であれば、本明細書に具体的に記載され、添付の図面に図示された、このようなデバイス、システム、および方法に関連するかまたは別様にその一部であるデバイス、システム、および構成要素は、非限定的な実施形態であり、本開示の範囲は、特許請求の範囲によってのみ定義されることを理解するであろう。１つの実施形態に関連して図示または説明された特徴は、他の実施形態の特徴と組み合わせることができる。このような修正および変形は、本開示の範囲内に含まれることが意図される。本明細書において提供される実施形態のいくつかは、そのようにラベル付けされていないが、本質的に概略的であることが当業者に理解されるであろういくつかを含む、概略図とすることができる。これらは、縮尺通りでなかったり、開示された構成要素のやや粗いレンダリングであったりする。当業者であれば、これらの教示をどのように実施し、それらを、本明細書で提供される、そのそれぞれに関連する作業システム、方法、および構成要素に組み込むかを理解するであろう。

【0033】

本開示が、開示されたデバイス、システム、方法などの構成要素および／またはプロセスに対する様々な用語を含む限りにおいて、特許請求の範囲、本開示、および当業者の知識を鑑みると、当業者は、そのような用語がそのような構成要素および／またはプロセスの単なる例であり、他の構成要素、デザイン、プロセス、および／または動作が可能であることを理解するであろう。非限定的な例として、本出願は、デジタルオーディオデータの処理を説明するが、代替的に、または追加的に、処理は、類似のアナログシステムおよび方法を介して行われ得るか、またはアナログおよびデジタル処理ステップの両方を含み得る。本開示において、様々な実施形態の同様の番号および同様の文字の構成要素は、それらの構成要素が同様の性質のものであり、かつ／または同様の目的を果たす場合、一般に同様の特徴を有する。

【0034】

本開示は、音楽などの複雑なオーディオデータを処理して、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する複雑なオーディオデータ内の１つ以上の瞬間を識別することに関する。しかし、その逆（例えば、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を有する複雑なオーディオデータ中の瞬間）のような代替構成も開示される。したがって、当業者であれば、本明細書に開示されるオーディオ処理ルーチンは、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した特性に基づく構成に限定されるものではなく、以下のようないくつかの構成要因に応じて、広範囲の複雑なオーディオ特性を識別することが広く可能であることを理解されよう：選択された個々のメトリック、正のＧＬＩＰｈインスタンスを決定するために各メトリックで使用される閾値、出力を生成するために一致するＧＬＩＰｈインスタンスを組み合わせる際に各メトリックに適用される重み（ここではチルモーメントデータセットと呼ぶが、これは神経科学研究における様々なチル誘発物の識別と既知の関連性を持つ個々のメトリックの選択を反映したものであり、したがって、異なる音響現象の識別のためにメトリックのセットが選択される例では、出力のためのコンテキストを反映した名前も同様に選択されるであろう）。実際、例えば、研究においてまだ知られていない音楽と生物学的反応との間の相関関係があるかもしれないが、本開示の実施例は、生物学的活動の可能性の増加と関連する個々の客観的な音響特性を組み合わせることによって、生物学的活動を引き起こす可能性が最も高い任意の複雑なオーディオデータ中の瞬間を識別するために使用することができる。

【0035】

オーディオ処理
図１Ａは、本開示によるオーディオデータ１０１を処理するための例としてのルーチン１１のフローチャートである。図１Ａにおいて、ルーチン１１は、音楽などのデジタルオーディオデータであり得るオーディオデータ１０１で開始することができ、このオーディオデータ１０１は、入力１２を介して受信され得る。続くステップにおいて、２つ以上の客観的オーディオ処理アルゴリズム１１１、１１２（例えば、本明細書では、メトリック、オーディオメトリック、またはオーディオ処理メトリックとも呼ばれる）がオーディオデータ１０１に対して実行され、メトリック１１１、１１２に関連するオーディオ特性（例えば、ラウドネス、スペクトルエネルギー）を表す出力を生成する。各メトリックの出力について、検出アルゴリズム１３１、１３２は、メトリックの出力が相対的に上昇している（例えば、データの四分位数を超えている）データ内の１つ以上の瞬間を識別し、これらの検出を、元々入力されたオーディオデータ１０１の時間領域における正およびヌルの検出領域を示すバイナリマスクとして出力する（例えば、入力されたオーディオデータ１０１が２００秒の長さである場合、各バイナリマスクは、同じ２００秒をカバーすることができる）。

【0036】

組み合わせアルゴリズム１４０は、入力バイナリマスクを受信し、それらをチルモーメントプロットに集約し、これは、集約の一致の時間領域における値を含む。たとえば、オーディオデータ１０１中のある瞬間が両方のメトリックで正の検出を返す場合、その瞬間は、組み合わせアルゴリズム１４０の出力において、その時間に対して「２」の値で集約される。同様に、１つのメトリックのみが、ある瞬間について正の検出を返す場合、値は「１」である。組み合わせアルゴリズムは、出力を正規化することができるだけでなく、移動平均、または当業者に既知の任意の他のデータの典型的処理を提供することもできる。組み合わせアルゴリズム１４０は、組み合わせアルゴリズム１４０の出力を、例えば、ストレージデバイス、または別のプロセッサに提供することができる出力１９の一部であるか、またはそれに関連していることができる。さらに、ルーチン１１は、フレーズ識別アルゴリズム１５０を含むことができ、これは、組み合わせアルゴリズム１４０からの出力データを入力として取り込み、例えば、それらの相対強度および互いに対する近接に基づいて、チルモーメントプロットの１つ以上のピークを含むオーディオデータの１つ以上のセグメントを検出する。フレーズ識別アルゴリズム１５０は、組み合わせアルゴリズム１４０の出力を、例えば、ストレージデバイス、または別のプロセッサに提供することができる出力１９の一部であるか、またはそれに関連していることができる。フレーズ識別アルゴリズム１５０は、タイムスタンプを含む、識別されたセグメントに関連する任意のデータ、およびすべての識別されたセグメントの比較に基づく一次セグメントの検出を出力することができる。フレーズ識別アルゴリズム１５０は、識別されたセグメントを表す元のオーディオデータ１０１のセグメントを作成して出力することができる。

【0037】

図１Ｂは、１つ以上のコンピュータプロセッサを使用してデジタル音楽データを処理するための例としての実施形態の詳細なフローチャートであり、図１Ａには図示されていない追加の中間処理ステップを示している。図１Ｂにおいて、プロセス１０は、図１Ａのルーチン１１、ならびにストレージルーチン１２および検索ルーチン１３を含むことができる。図１Ｂに示されるルーチン１１’は、図１Ａのルーチン１１を含むことができるが、ここでは、図１Ａのルーチン１１に含まれても含まれなくてもよい追加のステップと共に示されている。

【0038】

図１Ｂのルーチン１１’は、ＭＰ３、Ｍ４Ａ、ＤＳＤ、またはＷＡＶファイルなど、いくつかの既知の可逆および不可逆技術を使用して符号化することができるオーディオ波形のオーディオデータ１０１から開始することができる。オーディオデータ１０１は、コンピュータシステムの入力を使用して受信することができ、またはデータベースから取得することができ、このデータベースは、例えば、コンピュータシステムに対してローカルであるか、インターネットを介して取得することができる。オーディオデータ１０１が取得されると、複数の異なる客観的オーディオメトリック１１１、１１２、１１３が、コンピュータシステムのプロセッサによって別々に実行され、１拍当たりのラウドネス、ラウドネス帯域比率、ピッチメロディアなどの１次データをオーディオデータ１０１から抽出する。次のオプションのステップでは、後処理ルーチン１１１’、１１３’を、プロセッサを用いて実施し、閾値を用いた後続の検出処理のためのデータを準備することができる。後処理ルーチン１１１’、１１３’は、例えば、ローパスエンベロープを使用して１拍当たりのラウドネスデータを変換することを含むことができる。次のステップでは、各メトリックについて、上位または下位四分位関数などの、上方または下方境界閾値１２１、１２２、１２３が、プロセッサを使用して、データの分布に基づいて出力データに適用され得る。次のステップでは、前のステップでの閾値１２１、１２２、１２３の適用に基づいて、検出アルゴリズム１３０が、プロセッサを使用して、閾値要件を満たすデータのセグメントを識別する。検出アルゴリズム１３０は、いくつかの実施例では、選択されたセグメントが規定された数の連続する拍にまたがる必要性を指示する要件などの要件を強制することができる。例えば、少なくとも２秒、または２～１０秒、または１～３０秒などである。検出アルゴリズム１３０は、検出をバイナリマスクとして出力することができる。

【0039】

信号内のチル誘発特徴を検出する一般的な必要性は、信号の変化、特に突然の変化または集中的な変化を表す領域をハイライトすることを伴う。例えば、アーティストおよび作曲家は、あるパッセージに注意を引くためにラウドネスを増加させ、一般的にラウドネスの変化が劇的であればあるほど、聞き手は反応する。信号内の関連するセグメントを検出することは、通常、録音内の相対的な最高または最低の領域を識別することを伴う。上位または下位四分位数などの閾値を採用することで、本開示の態様は、特定の曲の中で確立されたデュナーミクの範囲に対して最も変化の大きい領域を検出する。異なるジャンル内、さらにはあるジャンル内の個々の曲の間でも、デュナーミクの範囲の多様性が広く存在する可能性があり、絶対的な閾値を使用すると、ほとんどの音楽に対して望ましくない過選択または過小選択が発生する可能性があるため、分位数に基づく閾値の相対性（例えば、上位２５％）の使用が有利である。さらに、特定の録音の信号の変化量が少ない場合（例えば、ラウドネスが一定）、ラウドネスの上位四分位数は、後続の組み合わせルーチンの他の特徴と有意に整合する可能性が低い、曲全体にわたり小さく分散した領域を選択する傾向がある。しかし、信号のピークが特定の領域に集中している場合、分位数に基づく閾値は、後続の組み合わせルーチンで他の目的の特徴と同時に整合する傾向がある首尾一貫した領域を選択する。本開示で例示する特徴検出の大部分は、分位数に基づく閾値法を採用しているが、分位数に基づく閾値法では検出されず、本書の他の箇所で説明する別の技術を採用する特徴（例えば、キー変化）もある。

【0040】

個々のセグメントが識別された後、それらの検出は、組み合わせルーチン１４０に提供され、これは、プロセッサを使用して、セグメントを集約し、選択されたセグメントがどこで重なる（例えば、一致する）かを決定し、より高い数値の「スコア」が適用される。その結果、データプロット内の選択間に重なりがない場合、スコアは最低となり、データプロット内の選択間に完全な重なりがある場合、スコアは最高となる。本明細書ではチルモーメントプロットと呼ばれる、結果として得られるスコアリングデータは、それ自体、この段階で新しいデータプロットとして出力および／または視覚的に表示され得る。ルーチン１１’は、フレーズ識別ルーチン１５０を実行する後続ステップを含むことができる。このステップ１５０において、組み合わせルーチンの出力は、プロセッサを使用して、高いスコアおよびセグメントを含むセクションについて分析される。最も高い総合スコア値を有するセグメントは「一次チルフレーズ」とみなすことができ、より低いスコアを有する（しかし、それでも選択されるための基準を満たす）識別されたセグメントは「二次チルフレーズ」とみなすことができる。後続のステップにおいて、チルフレーズは、識別された各フレーズの始点および終点を示すタイムスタンプの形態のデータとして出力される１６１ことができ、かつ／または、元のオーディオデータ１０１の「チルフレーズ」セグメントのみを含むように作成されたオーディオファイルとして出力される１６１ことができる。

【0041】

プロセス１０は、ルーチン１１、１１’の実行中に生成されたデータのいずれかを記憶するストレージルーチン１２を含むことができる。例えば、チルモーメントプロットデータおよびチルフレーズは、タイムスタンプおよび／またはデジタルオーディオファイルのいずれかとしてデータベース１７０に記憶され得る。データベース１７０はまた、元のオーディオデータ１０１を記憶することができ、および／または元のオーディオデータ１０１のソースとなることができる。

【0042】

プロセスの任意の部分は、ユーザーがプロセス１０の任意のステップを実行し、プロセス１０の出力データおよび入力データを観察し、かつ／またはプロセス１０の実行に関連する任意のパラメータを設定もしくは変更することを可能にするためのグラフィカルユーザーインターフェースの操作を含み得る。プロセス１０はまた、ユーザーが蓄積データベース１７０に問い合わせることを可能にするインターフェース（例えば、グラフィカルユーザーインターフェースおよび／またはデータを受信するための別のコンピュータシステムとのインターフェース）を含む検索ルーチン１３を含み得る。ユーザーは、例えば、曲名、アーティスト名、曲の出版年、ジャンル、または曲の長さなどのいくつかのメタデータ基準だけでなく、チルスコアリングで最高ランクにランク付けされた曲についてデータベースを検索する１８０ことができる。ユーザーインターフェースは、ユーザーが、チルフレーズタイムスタンプならびに他の標準的なメタデータを含む選択された曲の詳細を見ることを可能にすることができる。ユーザーインターフェースはまた、例えば、チルフレーズオーディオの再生を可能にするとともに、チルフレーズがオーディオのどこに存在するかを示すマーキング（例えば、選択された曲の波形グラフィック上のオーバーレイ）を伴う曲全体の再生を可能にする出力１９０とインターフェースすることもできる。出力１９０はまた、ユーザーが、プロセス１０の動作で生成されるかまたはそれと関連付けられたデータのいずれかを転送、ダウンロード、または閲覧することを可能にすることができる。

【0043】

図２Ａは、デジタル音楽ファイルの例としての波形２０１の時間（ｘ軸）に対する振幅（ｙ軸）のグラフ２００である。図２Ａの波形例は、図２Ｂおよび図２Ｃに示されるオーディオメトリックの出力と同様に、完全に架空のものであり、例示のみを目的としている。動作において、本開示の実施例は、２つ以上の客観的オーディオ処理メトリック（図１Ｂの１１１、１１２、１１３）を波形２０１に対して実行して出力データを生成することを含み、その一例が図２Ｂに示される。

【0044】

図２Ｂは、第１の代表的な客観的オーディオ処理メトリック（例えば、図１Ｂの１１１）の例としての出力２１のプロット２１１を、識別されたＧＬＩＰｈ２０４の対応する出力マスク２２１と共に含む。図２Ｂにおいて、出力２１は最小値から最大値までの範囲であり、検出アルゴリズム（例えば、図１Ｂの１３０）が、出力が検出基準（例えば、閾値２０１）を満たす個々の音響事象を出力２１から抽出することを可能にするために、閾値２０１を適用することができる。図２Ｂに示す検出基準は、出力２１の値の単純な上位五分位数であるが、他の、より複雑な検出基準も可能であり、適用前に後処理１１１’ステップ（例えば、一致する音符間のハーモニーを検出するために微分またはフーリエ変換を行うこと）を必要とする場合がある。さらに、後処理１１１’を使用して、時間領域を処理間隔（例えば、０．１ｍｓ）から拍ごと（per-beat）に変更することができる。さらに、後処理１１１’を使用して、周波数領域の処理を時間領域の出力に変換することができる。拍ごとの時間フレームを使用することで、テンポが交絡要因にならないように、メトリックが曲の基本「原子」に対して適応的になることができる。粒度のレベルは、ピッチのようないくつかの特徴、またはスペクトルフラックスもしくはスペクトルセントロイドのような他の多くの特徴をカプセル化したより高いレベルの特徴ではより深くすることができるが、このレベルは、効果的な結果を得るために拍レベルよりはるかに小さくする必要はない。

【0045】

図２Ｂにおいて、検出基準（例えば、閾値２０１）が適用されると、検出アルゴリズム１３０は、出力２１を、検出が行われた時間領域では正（例えば、値１）であり、検出間の時間領域ではヌル（例えば、値０）である、個々の検出事象２０４（本明細書では、ＧＬＩＰｈとも呼ばれる）のバイナリマスク２２１に変換する。出力マスク２２１は、組み合わせアルゴリズム（例えば、図１Ｂの１４０）への１つの入力として提供され、別の入力マスクは、図２Ｃに示すように、同じオーディオ波形（図２Ａの２０１）を処理する第２のメトリックからもたらされる。

【0046】

図２Ｃは、第２の代表的な客観的オーディオ処理メトリック（例えば、図１Ｂの１１２）の例としての出力２２のプロット２１２を、識別されたＧＬＩＰｈ２０７の対応する出力マスク２２２と共に含む。図２Ｃにおいて、出力２２は最小値から最大値までの範囲であり、検出アルゴリズム（例えば、図１Ｂの１３０）が、出力が検出基準（例えば、閾値２０２）を満たす個々の音響事象を出力２２から抽出することを可能にするために、閾値２０２を適用することができる。図２Ｃに示された検出基準は、出力２２の値の単純な上位四分位数であるが、他の、より複雑な検出基準も可能であり、メトリックの出力２２で検出されるＧＬＩＰｈの性質に依存することができる。

【0047】

図２Ｃにおいて、検出基準（例えば、閾値２０２）が適用されると、検出アルゴリズム１３０は、出力２２を、検出が行われた時間領域では正（例えば、値１）であり、検出間の時間領域ではヌル（例えば、値０）である、個々の検出事象２０７（本明細書では、ＧＬＩＰｈとも呼ばれる）のバイナリマスク２２２に変換する。出力マスク２２２は、図２Ｄに示すように、図２Ｂの入力マスク２２１と共に、組み合わせアルゴリズム１４０への入力として提供される。

【0048】

図２Ｄは、図２Ｂおよび図２Ｃの２つのメトリックからの検出のマスク２２１、２２２のプロットと、第１および第２の代表的な客観的オーディオ処理メトリックの識別されたＧＬＩＰｈに基づいて使用する組み合わせアルゴリズム１４０の例としての出力（例えば、チルモーメントプロット）のインパクトプロット２３０とを含む。図２Ｄのインパクトプロット２３０において、マスク２２１、２２２は集約され、一致する検出が加えられて、両方のマスクが正である（例えば、一致値２）第１の領域２３８、一方のマスクのみが正である（例えば、一致値１）第２の領域２３９、およびその間のヌル領域を作成する。場合によっては、入力マスク２２１、２２２は時間領域間隔（例えば、拍ごと）を有するが、これは必須ではなく、インパクトプロット２３０は、第１の領域２３８および第２の領域２３９を構築するために、任意の時間領域間隔（例えば、最小ｘ軸間隔）を使用して作成することができる。場合によっては、また本明細書でより詳細に示すように、第１の領域２３８および第２の領域２３９の移動平均を作成し、インパクトプロット２３０に含めることができる。チルモーメントプロットのピークを表す第２の領域２３８を使用して、図２Ｅにオーディオデータのピークモーメント２８０として示すように、個々のタイムスタンプを図２Ａのオーディオ波形にマッピングし直すことができる。これらのピークモーメント２８０を使用して、フレーズ検出アルゴリズム（例えば、図２Ｂの１５０）は、ピーク２８０が存在し、場合によっては、識別されたフレーズ２９０の位置に対応するタイムスタンプ２９８、２９９の出力データを作成するためにクラスター化された、時間領域内のインパクト領域２９０を識別することができる。

【0049】

オーディオ処理例
図３Ａ～図３Ｅは、本開示の実施形態による２つの客観的オーディオ処理メトリックを使用する例としてのオーディオファイルの処理ステップを示し、図４Ａ～図４Ｃは、第３のメトリックを追加した同じオーディオファイルの処理を示す。

【0050】

図５Ａ～図５Ｆは、本開示の実施形態による３つの客観的オーディオ処理メトリックを使用した、異なる例としてのオーディオファイルの処理ステップを示し、図６Ａ～図６Ｃは、第４のメトリックを追加した同じオーディオファイルの処理を示す。

【0051】

図７および図８はそれぞれ、異なる例としてのオーディオファイルを用いた、本開示の実施形態による８メトリック処理例を示す。

【0052】

図３Ａは、ｘ軸に沿った秒単位の時間とｙ軸に沿った振幅を有するオーディオデータのグラフ３００である。図３Ａにおいて、示されたオーディオデータは、デジタル音楽ファイルにおいて符号化された波形の視覚的な図である。オーディオ波形データは、１秒当たりのサンプル数でのオーディオ信号の周波数の振幅によりデジタル的に表すことができる。このデータは、ファイルタイプに応じて、圧縮されていても圧縮されていなくてもよい。図３Ａは、オーディオデータを振幅のベクトルとして示しており、各値はサンプルごとの元のオーディオファイルの周波数値を表す。図２の例としてのオーディオファイルでは、オーディオデータのサンプリングレートは４４．１ｋＨｚ、ビットレートは１２８～１９２である。

【0053】

図３Ｂは、図３Ａのオーディオデータを入力として用いた客観的オーディオ処理メトリックの出力のグラフ３１１である。図３Ｂの実施例では、メトリックは、全スペクトルにわたるオーディオ信号の拍のスペクトルエネルギーであり、グラフ３１１は、本開示の第１の客観的オーディオ処理メトリック１１１の実施形態の出力を視覚的に示す図である。図３Ｂに示すデータは、図３Ａのオーディオ波形のそれぞれの拍の一般的なラウドネスを表す。このデータから、閾値３０１に基づいて上部エンベロープと下部エンベロープを生成することができる。図３Ｂでは、閾値３０１は振幅の上位四分位数であり、この上位四分位数に属するセグメントが検出され、検出された各セグメントについて拍が存在する開始時点および終了時点として保存される。上位四分位数は代表的な閾値であり、他の値も可能である。一般に、閾値３０１は相対値（例えば、平均の上位２０％もしくは最大値の２０％など、データの値に基づく値）または絶対値（例えば、データに基づいて変化しない値）に基づくことができる。絶対値は、例えば、データがメトリックの一部として正規化されている場合（例えば、メトリックの出力値が０～１である場合）、または、周波数がオーディオデータを記録するためのより厳密なパラメータであるため、出力値が周波数に依存する場合に、使用することができる（例えば、音の振幅は、音量を上げたり下げたりするなど、データの性質を変えることなく、所与のオーディオデータに対してスケーリングすることができるが、絶対周波数は、通常、記録および処理中に保存され、通常、データの性質を変えることなく変更することはできない）。ラウドネスの増加は、聞き手にとって最も基本的なチル反応誘発物の１つであり、ラウドネスの始点と終点は、以下でさらに詳細に示すように、図３Ａのオーディオ波形の曲の中で最もインパクトのある瞬間を計算する、組み合わせアルゴリズムへの入力の１セットとして使用することができる。組み合わせアルゴリズムの出力は、本明細書では、互換的にチルモーメントデータまたはチルモーメントプロットとも呼ばれる。

【0054】

図３Ｃは、図３Ａの波形に対して実行される本開示の第２の客観的オーディオ処理メトリック１１２の実施形態の出力を示す３つのグラフ３１２ａ～ｃのセットである。３つのグラフ３１２ａ～ｃの各々は、オーディオ信号の周波数範囲（例えば、第１のグラフ３１２ａでは２０～４００Ｈｚ、第２のグラフ３１２ｂでは４０１～１６００Ｈｚ、第３のグラフ３１２ｃでは１６０１～３２００Ｈｚ）によってそれぞれが表される、３つの異なるエネルギー帯域３１２ａ～ｃのうちの１つにおける拍のスペクトルエネルギーを図示する。図３Ｃの振幅データは、３つのエネルギー帯域内の録音の各拍の一般的なラウドネスを、全エネルギーの比率として示している。各エネルギー帯域３１２ａ～ｃにおいて、下部エンベロープを生成するために閾値３０２が適用される。図３Ｃでは、閾値３０２は、計算され得るエンベロープデータの上位四分位数を表し、後処理ルーチンは、すべての帯域３１２ａ～ｃについて、すべての帯域が閾値３０２を下回るオーディオデータ中の瞬間を検出するために使用される。これらの検出された瞬間は、周波数のバランスが取れている場所であり、音楽のすべての「楽器」が一度に演奏されている場所を表す（例えば、アンサンブル対ソロ）。例えば、楽器の出だしは聞き手にチル反応を誘発する可能性があるため、すべての帯域について帯域がすべて閾値を下回る、検出された始点と終点は、組み合わせアルゴリズムの入力として使用されるように図３Ｂのラウドネスメトリック処理出力の検出されたセグメントと組み合わせられる始点と終点を計算するために使用され、その出力は図３Ｄに示され、図３Ｂおよび図３Ｃの客観的オーディオ処理メトリック（例えば、１拍当たりのスペクトルエネルギーと、３つの別々のエネルギー帯域における１拍当たりの一致するスペクトルエネルギー）に基づいて、曲の最もインパクトのある瞬間を表す。

【0055】

さらに、図３Ｃは、各エネルギー帯域に適用される同じ閾値３０２を示すが、ある場合には、この閾値３０２は、各エネルギー帯域におけるメトリックの値に対してのみ関連し（例えば、すべての帯域３１２ａ～ｃにおける値の上位２０％ではなく、第１の帯域３１２ａにおける値の上位２０％）、他の場合には、異なる閾値が、各エネルギー帯域において使用され、どの帯域が使用されるか、および／または個々の帯域の数もしくはサイズに応じて変化し得る。ある場合には、各エネルギー帯域３１２ａ～ｃにおいて閾値３０２を使用する検出アルゴリズムは、いずれか１つの帯域３１２ａ～ｃにおいて閾値が満たされる場合に正の検出を返し、他の場合には、検出アルゴリズムは、すべての帯域３１２ａ～ｃ、いくつかの帯域３１２ａ～ｃ、ほとんどの帯域３１２ａ～ｃ、またはそれらの任意の他の組み合わせにおいてそれぞれの閾値が満たされる場合に正の検出を返す。さらに、閾値は、メトリックの平均に対して２０％の値であるとして議論されてきたが、これは、代替的に、最大値および最小値に関連し得る。また、２０％（例えば、上位五分位数）が本開示全体を通じて使用されているが、上位四分位数、上位半分、またはそれを上回るかもしくは下回るなど、他の閾値も可能である。

【0056】

一般的に、最終的な目的は、曲に対して、また、複数の異なるメトリックの組み合わせにわたってピーク値を見つけることであるため、高すぎる（例えば、０．１％）かまたは低すぎる（例えば、８０％）閾値を選択すると、検出が一般的になりすぎるか、または稀になりすぎることによって、組み合わせ内のメトリックからの検出の貢献が有効に否定される。これが、実際の音楽において、１つの個別のメトリックがチル誘発瞬間とロバストに相関することができない理由の一部である。任意の個々のメトリックとの相関の強さと閾値の値との間のバランスを決定することができるが、より簡単なアプローチは、１つの音響特性だけではチルを誘発することを強く予測できないことが研究で示されているため、任意の１つのメトリックにおけるピークが必ずしもチルを誘発する可能性が最大の瞬間ではないことを立証することである。

【0057】

むしろ、本発明者らが発見し、検証したのは、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を持つ音響的瞬間に関連するのは、個々のメトリックにおける相対的な上昇の一致であるということであり、これらの相対的な上昇を検出することは、正確な閾値に強く依存するものではなく、むしろ、より単純に、曲の全体を通して、各個々のメトリックにおける上昇の一部から大部分が検出されることを必要とし、これは、ある範囲の閾値によって達成することができる。例えば、閾値は５０％（例えば、上昇の定義）より大きく、１％（例えば、曲の合計１／１００の瞬間）に達し、この上限値は、聞き手に印象付け、反応されるためには、チルを誘発する瞬間は、音楽の数拍超続く必要があるという考えに基づいている。したがって、交響曲全体のような非常に長い楽曲が処理されている場合、曲の１／１００は、数拍よりかなり多くを表し得、よって、一般的に、すべての複雑なオーディオデータ（例えば、ポップミュージックおよび交響曲の両方）に対して、最大閾値を確立することはできない。

【0058】

検出アルゴリズム１３０は、曲の中でメトリックの値が閾値超である瞬間を識別し、これらの瞬間を、これらの瞬間中の正の検出として新たなデータセットに出力するプロセスである。

【0059】

図３Ｄは、図３Ｂおよび図３Ｃの第１および第２のオーディオ処理アルゴリズムの出力において検出アルゴリズム１３０によって識別された検出（例えば、それぞれの閾値を超える各メトリック出力中のセグメントであるＧＬＩＰｈ）を使用して実行された組み合わせアルゴリズム１４０の出力のインパクトグラフ３３０である。図３Ｄは、組み合わせアルゴリズムの出力に基づくフレーズ検出アルゴリズム１５０の出力も含む。図３Ｄのチルモーメントプロット３６０を生成するために使用される例としての組み合わせアルゴリズム１４０は、図３Ｂおよび図３Ｃの客観的オーディオ処理メトリックの出力における検出の一致を集約することによって動作する。

【0060】

例としての組み合わせアルゴリズムは、以下のように動作することができる：曲のそれぞれの拍について、その拍のラウドネスがメトリックのその特徴に対する閾値より上に上昇する（例えば、検出アルゴリズムが、図３Ｂのラウドネスメトリック出力において、１つ以上の拍または時間セグメントについて正の値を返す）場合、組み合わせアルゴリズムは、検出アルゴリズムによって返された各拍または時間セグメントの集約値に１＊の重みを追加する。同様に、帯域比率当たりの１拍当たりのラウドネスの値が、その特徴がその特徴に対する閾値未満であることを示す場合、メトリックは、帯域比率当たりの１拍当たりのラウドネスのための１＊の重みを集約値に加えることができる。曲の各拍は、メトリックに対して「オン」または「オフ」であるとみなされ、それらのバイナリ特徴は、各メトリックの重みを乗算され、各拍について合計される。これは、加えられるメトリックに関係なく、組み合わせアルゴリズムの一般的なデザインである。図３Ｄ４では、ｙ軸は０、１、２の値に対応し、各メトリックの重みは単純に１に設定される。このプロセスの出力は、拍ごとの時間ステップに基づくステップ状の表示を有するチルモーメントプロット３６０である。組み合わせアルゴリズムはまた、数拍にわたるチルモーメントプロット３６０の値を示す、チルモーメントプロット３６０の移動平均３６１を生成することができる。図３Ｄでは、チルモーメントプロット３６０は（０～２の元の値から）０～１の範囲に正規化されていることに留意されたい。

【0061】

フレーズ検出アルゴリズム１５０は、チルモーメントプロット３６０を入力として使用して、両方のメトリックがそれぞれの閾値を超える時間領域中の領域３８０を識別することができる。最も単純な形では、フレーズ検出アルゴリズム１５０は、これらのピーク領域３８０をフレーズとして返す。しかし、数拍しか離れていない音楽中の２つの短い瞬間は、人間の聞き手によってあまり独立して処理されないため、インパクトのある瞬間（または自律神経系の心理的反応を引き起こすのに適した特性を持つ瞬間）を識別する観点からは、一緒にクラスター化された複数のピーク領域３８０は、より正確には、１つの音響「事象」とみなされる。したがって、フレーズ検出アルゴリズム１５０のよりロバストな構成では、ピーク領域３８０のグループの周囲にウィンドウを確立し、ピーク領域３８０の１つのグループが別のグループから分離する位置を決定することを試みることができる。

【0062】

図３Ｄのフレーズ検出アルゴリズム１５０の構成では、移動平均３６１の他に、上限３７１と下限３７２を考慮する。移動平均３６１は、ピーク３８１を「１」に設定するように別途正規化される。図３Ｄでは、上限３７１は約０．６５、下限３７１は約０．４０である（正規化されたインパクト等級に対して）。図３Ｄのフレーズ検出アルゴリズム１５０の構成では、移動平均３６１が上限３７１を上回ると、ピーク領域３８０が識別されたフレーズ３９０の一部とみなされる。次に、フレーズ検出アルゴリズム１５０は、移動平均３６１が下限３７２を下回るピーク領域３８０の前後の時間に基づいて、識別された各フレーズ３９０の始点および終点を決定する。いくつかの実施例では、単一の境界（例えば、上限３７１）のみが使用され、上限３７１および下限３７２の値は、使用されるメトリックの数、移動平均３６１の時間平均長に、また、閾値が高いほど一般的に持続時間検出領域が短くなるため、個々のメトリックに使用される閾値に、部分的に依存する。

【0063】

注目すべきことに、複数のメトリックが使用される場合（例えば、８つ以上）、ピーク領域３８０は１つしか存在しない可能性があり、ピーク領域３８０の値は、最大インパクト等級でない可能性がある（例えば、ピーク領域は、８つのメトリックおよび等しい重み付けを仮定すると、可能な８のうちの７の値に対応する可能性がある）。したがって、ピーク領域３８０は、フレーズ検出アルゴリズム１５０によって全く使用される必要はなく、フレーズ検出アルゴリズムは、代わりに、移動平均３６１（またはチルモーメントプロット３６０の別の時間平滑化関数）が上限３７１を超えていることに完全に依存して、フレーズが識別されるべき瞬間を確立することができる。また、追加のメトリックの使用は、１つ以上のピーク領域３８０が、チルモーメントプロット３６１の他の上昇した領域から十分に隔離され、かつ／または、十分に短い持続時間であることを妨げず、移動平均３６１は、上限３７１を超えて上昇せず、したがって、フレーズ検出アルゴリズム１５０は、それらの１つ以上のピーク領域３８０の周囲でフレーズを識別しない。

【0064】

ある場合には、図３Ｄに示すように、識別された各フレーズ３９０に小さなリードインおよび／またはリードアウト時間バッファを追加することができ、例えば、移動平均３６１が下限３７２をリードインまたはリードアウトバッファを越えて下回った場合にのみ、識別されたフレーズ３９０の開始または終了が確立され、これにより、識別されたフレーズ３９０の前または後の任意の音楽の「ビルドアップ」または「レットダウン」期間を捕捉する際の不正確さを、任意のインパクトのある瞬間の前および／または後の少なくとも数拍が識別されたフレーズ３９０において捕捉されることを保証することによって説明する。さらに、これは、聞き手にとって単一のインパクトのある瞬間と主観的にみなされ得るものを分岐させる移動平均３６１の短い下降（dip）を防ぐことができるが、図３Ｄに示され、以下でさらに詳細に説明されるように、そのような分岐は、図３Ｄで依然として見られ、また検出され得、十分に近い場合、および／または十分に短い場合に、分割された識別されたフレーズ３９０がマージされる。いくつかの実施例では、また図５Ｅに関してさらに詳細に説明するように、フレーズ検出アルゴリズム１５０は、識別されたフレーズ３９０の長さ、チルモーメントプロット３６１および／もしくは移動平均３６１のピークの強さもしくはピークへの近さ、ならびに／または移動平均３６１の屈曲に基づいて、リードインおよび／またはリードアウト時間バッファの長さを動的に調整することもできる。場合によっては、識別されたフレーズ３９０の開始および停止の瞬間は、チルモーメントプロット３６０が閾値を下回るか、またはゼロになることによってトリガーされ得る。

【0065】

フレーズ検出アルゴリズム１５０は、図３Ｄに「一次」として示されているように、単一の一次フレーズを識別することもできる。フレーズ検出アルゴリズム１５０は、例えば、識別された各フレーズ３９０について、識別された各フレーズ３９０の移動平均３６１もしくはチルモーメントプロット３６０の平均、および／または上限３７１を超えている、移動平均３６１の持続時間を比較し、より高い値を有する識別されたフレーズ３９０を一次フレーズとして識別することによって、単一の一次フレーズを識別することができる。さらに、図３Ｄに示されるように、２つの識別されたフレーズ３９０が互いにすぐ隣接している場合があり、フレーズ検出アルゴリズム１５０の出力において（図３Ｅに示されるように）１つの識別されたフレーズ３９０へと組み合わせられ得る。

【0066】

フレーズ検出アルゴリズム１５０は、図３Ｅに示すように、識別されたフレーズ３９０のタイムスタンプを出力し、これを元のオーディオ波形上に直接マッピングすることができる。図３Ｅは、図３Ａの波形のグラフ３４０であり、識別されたフレーズ３９０とそれらに関連するタイムスタンプ３９８、３９９を示す。

【0067】

図４Ａ～図４Ｃは、図３Ａのオーディオサンプルのチルモーメントプロット３６０および識別されたフレーズ３９０が、第３の客観的オーディオ処理メトリックである、優勢ピッチメロディアが追加されたときにどのように変化するかを示す図である。図４Ａは、図３Ａの波形に基づく優勢ピッチメロディアメトリックの出力のグラフ４１３であり、検出アルゴリズム１３０によって使用するために閾値を設定する（thresholded）ことができる。図４Ａは、周波数値としての各瞬間の優勢ピッチ値、および信頼値（図４Ａには図示されていないが、アルゴリズムが優勢ピッチをどの程度明確に見ているかを表す）を表す。この新しいメトリックは、ピッチの周波数値に信頼値を乗算することで作成される。このデータは、次に、図３Ａおよび図３Ｂで行われたのと同じ方法で、上位四分位数（図示せず）を使用して閾値が設定され、データがその閾値を超えている前後の時間についてイン点とアウト点が保存される。作曲家および音楽家は、メロディに注意を喚起する方法として、演奏中にメロディを高くすることがよくあり、高いピッチは聞き手にチル反応を誘発することが知られているため、優勢ピッチメロディアは、メロディが「最も高く」「最も強い」場所を見つけるように設計されている。ピッチメロディア出力の閾値検出は、ピッチ周波数に信頼値を乗じたものに基づいており、これは、その後正規化され、例えば上位四分位数を用いて閾値が設定される。次に、検出アルゴリズム１３０からの始点と終点が、図３Ａおよび図３Ｂのメトリックと同じ方法で組み合わせアルゴリズム１４０に集約され、フレーズ検出アルゴリズム１５０が再実行され、図４Ｂのインパクトグラフ４３１のチルモーメントプロット４６０、移動平均４６１、および識別されたフレーズ４９０が生成される。図４Ｂのインパクトグラフ４３１において、ｙ軸値は、第３のメトリックの追加を反映するために、０、１、２、３から０～１に正規化される。結果として得られた識別されたフレーズ４９０は、図４Ｃのオーディオ波形上にマッピングされ、これは、識別されたフレーズ４９０のタイムスタンプ４９８、４９９と、（図３Ｅに示すような）２つのメトリックのみを使用した識別されたフレーズ３９０のタイムスタンプ３９８、３９９との比較も示している。第３のメトリックの追加は、移動平均３６１、４６１のピーク３８１、４８１の位置を実質的に変化させなかったが、識別されたフレーズ３９０の持続時間は両方ともわずかに縮小し、これは、最もインパクトのある瞬間の検出における精度の向上を示すことができる。さらに、図４Ｂの移動平均４６１の最高ピーク４８１は、図３Ｄの移動平均３６１の最高ピーク３８１よりも、隣接するピークを越える高い突出度を有しており、これも、この特定のインパクトのある瞬間の時間的位置に対する信頼性が向上していることを示すことができる。

【0068】

相対的なラウドネス、楽器の出入り、相対的なピッチの上昇などの、チル誘発物は、人間に生理学的反応を引き起こすという点である程度の普遍性を持っているため、本開示の実施例では、場合によっては２つのメトリックの最小限の組み合わせを使って、基本的にあらゆるタイプおよびジャンルの音楽にわたって、適切なセグメントをロバストに識別することができる。音楽は無媒介のものであり、無意識のプロセスであることが研究で示されている。聞き手は、歌詞に使われている言語を理解する必要はなく、音楽に反応するためにその音楽が生まれた文化圏の出身である必要もない。開示されたアルゴリズムは、主に音響学的に、ほぼ普遍的なものである人間の報酬中枢を活性化させる生理学的反応を誘発することが示された聴覚的特徴に焦点を当てており、アルゴリズムによって識別された聴覚的特徴の多様性により、その結果得られたメトリックのうち２つでも一致させることで、本質的にあらゆるジャンルの音楽にわたり、自律神経系の生理学的反応を引き起こすのに適した特性を持つ音楽セグメントを識別することができる。

【0069】

図５Ａは、異なるデジタル音楽ファイルの波形のグラフ５００である。図５Ｂは、図５Ａの波形入力上のラウドネスメトリックからの出力のグラフ５１１であり、検出アルゴリズム１３０で使用するための対応する閾値５０１を示す。図５Ｃは、３つの異なるエネルギー帯域５１２ｚ、５１２ｂ、５１２ｃにおける、図５Ａの同じ入力波形上のラウドネス帯域比率メトリックからの出力のグラフ５１３であり、それぞれの閾値５０２が検出アルゴリズム１３０で使用される。図５Ｄは、優勢ピッチメロディアメトリックからの出力のグラフであり、それぞれの閾値５０３が検出アルゴリズム１３０で使用される。

【0070】

図５Ｅは、図５Ｂ～図５Ｃのメトリックの検出を入力として使用する組み合わせアルゴリズム１４０から出力されるチルモーメントプロット５６０を示すグラフ５３０であり、チルモーメントプロット５６０の移動平均５６１も示す。図３Ｄおよび図４Ｂの結果と同様に、チルモーメントプロット５６０におけるピーク４８０、および移動平均５６１におけるピーク４８１が存在しており、移動平均５６１が上限５７１を超えている場合、フレーズ識別アルゴリズム１５０は識別されたフレーズ５９０を生成している。図５Ｅのフレーズ識別アルゴリズム１５０の構成では、識別された各フレーズ５９０の始点および終点は、移動平均５６１が下限５７２を下回る位置５９１の前後の移動平均５６１の屈曲点５９２によって決定される。図５Ｅは、識別された各フレーズについてフレーズ識別アルゴリズム１５０によって出力されるタイムスタンプ５９７、５９８、５９９を示す。図５Ｅのフレーズ識別アルゴリズム１５０はまた、第３のフレーズを「一次」として分類しており、これは、上限５７１もしくは下限５７２のいずれかを超える移動平均５６１もしくはチルモーメントプロット５６０の持続時間の関数として、ならびに／または、屈曲部５９２および／もしくは移動平均５６１が下限５７２を下回る位置５９１の間の移動平均５６１もしくはチルモーメントプロット５６０の平均に基づいて行うことができる。ある場合には、図示しないが、フレーズ識別アルゴリズム１５０は、その後、一次フレーズに、３０秒などの最小の長さを強制することができ、その結果、本明細書の他の実施例に示すように、一次フレーズが他のフレーズと重複することがある。フレーズ識別アルゴリズム１５０は、例えば、両方向に均等に、または移動平均５６１もしくはチルモーメントプロット５６０の値が高い方向に優先的に、種々の方法でフレーズの長さを延長することができる。

【0071】

一般に、これらのウィンドウ５９０の時間長さは、それらが最大時間特性内に発生する場合の隣接検出、または３つのメトリックのうちの２つがそれらの基準に達する頻度／密度の増加などの他の検出特性を捕捉するために、所定の最小値または最大値などの、いくつかの要因に対応し得る。さらに、図５Ｅは、３つのメトリックを使用する実施例を示すが、本開示の実施例は、識別されたフレーズ５９０の数または長さ、グラフ５３０内および／または識別されたフレーズ５９０内の移動平均５６１またはチルモーメントプロット５６０の値および／または特性（例えば、速度変化）など、グラフ５３０の特徴のいずれかに応答して、組み合わせアルゴリズム１４０への入力としてメトリックを動的に追加する（または削除する）ことを含む。例えば、３メトリックの計算が３つのフレーズを返し、１つまたは２つのより多くのメトリックの追加がこの検出を２つのフレーズに減らす場合、２フレーズ出力が使用され得る。

【0072】

図５Ｅは、各メトリックのそれぞれの基準に基づく３メトリックの組み合わせを示し、２メトリックおよび４メトリック（またはそれ以上）の組み合わせが考慮され、いくつかの実施例は、組み合わせで使用されるメトリックの数に基づいて、各メトリックのそれぞれの検出基準を調整することを含む。例えば、２つのメトリックのみを組み合わせる場合、組み合わせアルゴリズムにおいて検出をより明確に識別できるようにするために、それぞれの基準を厳しくする（例えば、全体のメトリック出力に対する閾値パーセンタイルを下げる）ことができる。逆に、３つ以上のメトリックを組み合わせる場合、組み合わせアルゴリズムによって複数のメトリックの一致をより簡単に識別できるようにするために、それぞれの検出基準を緩める（例えば、全体のメトリック出力に対する閾値パーセンタイルを増加させる）ことができる。あるいは、各メトリックを組み合わせることは、各メトリックに重みを割り当てることを含むことができる。本明細書で提示される実施例では、各メトリックは１．０の重みで組み合わせられ、つまり、各メトリックの検出は、組み合わせアルゴリズム１５０において１として追加される。しかし、他の値も可能であり、組み合わせられる個々のメトリックに基づいて、あるいは、例えば、音楽のジャンル、またはそれぞれのオーディオ処理メトリックの出力、または組み合わせアルゴリズムで使用される他のメトリックからの出力のいずれかに基づいて動的に、割り当てることができる。

【0073】

実施例は、複数のメトリック（例えば、１２以上）を実行し、可能なすべての組み合わせまたはそれ以上の組み合わせのマトリックスの組み合わせを生成することも含む。現在説明されているシステムおよび方法の構成は、そのようなマトリックスを不要にするように構成されているが（例えば、チルを誘発する特徴がオーディオ信号に存在する場合、メトリックがチルを誘発する音響特徴に正しく関連付けられる限り、メトリックの任意の組み合わせを使用して容易に識別される可能性が極めて高い）、学問的訓練として、個々のピークモーメント５８１をできるだけ正確に（例えば、１拍または２拍以内に）特定することが有用である場合があり、正確な位置は、メトリックの数および選択に対する感度となり得る。したがって、すべての可能な組み合わせのマトリックスの組み合わせで、組み合わせは、それ自体が平均化されるか、または外れ値からトリミングされてから平均化され（その結果は実質的に同一である可能性がある）、個々のピークモーメントを識別することができる。さらに、フレーズ識別アルゴリズム１５０をこのマトリックス出力に対して実行することもできるが、この結果も、組み合わせアルゴリズム１４０を使用して単一の組み合わせですべてのメトリックを使用すること、またはメトリックのより小さいサブセット（例えば、図５Ｅに示すように、３）を使用することと、有意に異ならない場合がある。

【0074】

一般的に、これは処理能力の問題であると考えられる。例えば、音楽カタログの１００万曲を本開示の実施例に従って処理する場合、３または１２のメトリックを使用する選択は、処理時間と費用にかなりの差をもたらす可能性がある。したがって、メトリックの数を動的に調整することは、例えば、組み合わせアルゴリズム１４０を最初に３つのメトリックの組み合わせに実行し、その後、特定の条件が満たされた場合（例えば、ピーク５８１が突出していない）、第４のメトリックを、オンデマンドで実行し、これがピーク４８１の位置で所望の信頼性を達成するかどうかを判断するために追加することができれば、最も効率的となり得る。もちろん、処理能力に問題がなければ、１００万曲すべてに対して８または１２のメトリックを実行しても、有効な結果（例えば、識別されたフレーズ５９０のタイムスタンプ）が３または４のメトリックで生成された結果と有意に異なっていなくても、「最良」のデータを提供することができる。したがって、本開示の実施例は、他のメトリックとの組み合わせの結果との観察された一致の測定された強さに基づくメトリックの階層または優先リストを含むことができる。これは、例えば、あるジャンルの音楽の代表的なサンプルを１２のメトリックのフルセットにわたり実行し、次に、すべての可能な組み合わせのマトリックスで、結果との一致に基づいてそれらのメトリックの階層を確立することによって、ジャンルごと（または他の任意の分離）に確立することができる。これは、そのジャンルの他の音楽を処理するときに使用する１２未満のメトリックのサブセットとして確立され得る。代替的に、または追加的に、各メトリックからの検出のそれぞれの重みは、例えば、すべてのジャンルに対して１２のすべてのメトリックの使用を維持するが、それぞれがマトリックスの結果との識別された一致に基づく固有の重みのセットを有する場合、同様の方法で調整することができる。

【0075】

図５Ｆは、図５Ａの元の波形上に表示された、図５Ｅからの識別されたフレーズ５９０およびそれらの関連するタイムスタンプ５９７、５９８、５９９を示す。

【0076】

図６Ａ～図６Ｃは、別の適切なオーディオ処理メトリック（例えば、その他のものと同じ現象から関連するメトリック、この場合、チル誘発音響特性）を追加しても、結果が実質的に変わらない場合があることを示す。図６Ａは、図５Ａの波形を入力とし、関連する閾値６０４を用いた、別の適切な処理メトリックであるスペクトルフラックスの出力のプロット６１４である。図６Ｂは、図６Ａのスペクトルフラックスメトリックからの検出を追加した、図５Ｂ～図５Ｄのメトリックからの検出に対して再実行された組み合わせアルゴリズム１４０およびフレーズ識別アルゴリズム１５０のグラフ６１３である。図６Ｂは、結果として得られるチルモーメントプロット６６０、移動平均６９１、それぞれのピーク６８０、６８１、およびそれぞれのタイムスタンプ６９７、６９８、６９９、始点／終点６９２（例えば、移動平均が下限５７２を下回る位置６９１の前または後の移動平均６９０の屈曲部）を含むインデントされたフレーズ６９０を示す。

【0077】

図６Ｃは、図５Ａの波形と図６Ｂの更新された識別されたフレーズとのプロット６４０である。図６Ｃはまた、更新されたフレーズのタイムスタンプ６９７、６９８、６９９と、図５Ｆの３メトリック出力結果の元のタイムスタンプ５９７、５９８、５９９との間の比較を示す。図６Ｃにおいて、識別されたフレーズ６９０は、それらの検出長さがほぼ同じであることによって示されるように、図５Ｅの識別されたフレーズ５９０と概ね整合している。一次フレーズの長さは、３メトリックの結果には存在しなかった移動平均６６１の（図６Ｂの６９２’で示すような）ごくわずかな屈曲部の導入により短くなっている。一般的に、これは、ピーク事象を捕捉する際のフレーズの位置を有意に変更することなく、データのより多くの変動性を導入することによって、メトリックの追加がフレーズの長さをわずかに変化させることができる方法の例である。ただし、図５Ｅと図６Ｂの比較に示されるように、一次フレーズのピーク６８１の位置は変化しており、これは、識別されたフレーズ５９０の位置の信頼性は高いが、インパクトの正確なピークモーメント５８１、６８１の正確な位置が望まれる場合は、追加のメトリックが必要な場合があることを示している。しかしながら、他の非一次フレーズのピークの位置は、図５Ｅと図６Ｂとの間で有意に変化しなかったことに留意されたい。

【0078】

いくつかの実施例では、どのウィンドウが一次ウィンドウであるかの識別は、識別されたセグメントにおける検出の頻度および強度など、いくつかの要因に基づいていてよく、一次セグメントの識別は、例えば、識別されたウィンドウのうちの２つが検出強度（例えば、識別されたウィンドウにおける検出頻度）が実質的に類似しており、１つのメトリックを別のメトリックに入れ替えることでウィンドウ自体の検出を変えることなく各ウィンドウにおける検出のバランスを微妙に変える場合に、変化し得る。さらに、メトリックを追加しても特定の曲の結果が実質的に変わらない場合、あるメトリックは多くの曲にわたって有効性（例えばロバストネス）を高める。したがって、例えばスペクトルフラックスを追加しても、特定のジャンルにおける１つの特定の曲の結果は変わらないかもしれないが、別のジャンルではチルフレーズの選択の信頼性が大幅に向上し得る。

【0079】

図７は、入力としてさらに別の曲波形を使用して生成され、曲波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示す、プロット７３０、７１１～７１８のグループである。図８では、オーディオ波形は、ＢｉｌｌｙＪＫｒａｍｅｒの「ＢａｄｔｏＭｅ」という曲のデジタルコピーからのものであった。インパクトグラフ７３０は、チルモーメントプロット７６０および関連するピーク７８０を示し、フレーズ識別アルゴリズムの実施例によってチルモーメントプロット７６０中で識別された一次フレーズ７９０および二次フレーズ７９１を有する。図７はまた、インパクトグラフ７３０を生成するための組み合わせアルゴリズムへの入力として使用される８つの客観的オーディオ処理メトリックからの個々の検出プロット７１１～７１８を示す。８つの客観的オーディオ処理メトリックプロットは、ラウドネス８１８、スペクトルフラックス７１２、スペクトルセントロイド７１３、非調和性７１４、臨界帯域ラウドネス８１５、優勢ピッチメロディア７１６、不協和音７１７、およびラウドネス帯域比率７１８である。操作において、８つの客観的オーディオ処理メトリックの各々は、（例えば、それぞれの閾値を使用して）ＧＬＩＰｈを生成するために処理され、ＧＬＩＰｈは、メトリックの対応する検出プロット７１１～７１８に示されるように、バイナリ検出セグメントに変換された。バイナリ検出セグメントは、組み合わせアルゴリズムを用いて集約され、インパクトグラフ７３０のチルモーメントプロット７６０を生成した。

【0080】

有利なことに、本明細書に開示される組み合わせアルゴリズムの実施例は、これら８つのオーディオ処理アルゴリズムからの個々の検出のすべての組み合わせが、上述したように、自律神経系の生理学的応答を引き起こすのに適したオーディオ特性を有するオーディオ波形内のセグメントまたは瞬間を識別することができる組み合わせアルゴリズムを作成することを可能にする。図７の本実施例では、インパクトグラフ７３０のチルモーメントプロット７６０は、（例えば、プロット７１１～７１８に示されるような）各オーディオ処理アルゴリズムの検出の均等加重の組み合わせを用いて生成され、チルモーメントプロット７６０において最も高い加算値を含む組み合わせアルゴリズムからピークモーメント７８０が識別された。このピークモーメント７８０は、識別されたセグメントを表す斜線領域内に描かれた小さい内側ウィンドウ７９０によって囲まれる。このセグメントの長さは、最大検出値の１つ以上の領域を含むようにいくつかの方法で決定することができ、ここでは、単数の最大検出ピーク７８０のみがインパクトプロット７３０に存在し、内側ウィンドウ７９０は、識別されたセグメント７９０を定義するために、チルモーメントプロット７６０の隣接する局所最小値の間に延び、より大きなグレーのウィンドウ７９１は、内側ウィンドウを３０秒のウィンドウに拡張する時間ベースの最小セグメント長の適用を表す。

【0081】

図７のオーディオ処理アルゴリズムの各々は、自律神経系の生理学的反応の誘発に関連することが知られているオーディオ特性の１つ以上を代表するものであるため、図７の実施例に示すように、各オーディオ処理アルゴリズムからの出力７１１～７１８からの検出領域７１１’～７１８’を等しい重み付けで組み合わせることにより、本組み合わせ出力７６０（およびその結果としてのインパクトグラフ７３０）は、多様なジャンルの音楽にわたりオーディオ波形における最も「インパクトのある」瞬間をロバストに識別することができ、この識別されたインパクトのある瞬間は、各オーディオ処理アルゴリズムによって検出可能なオーディオ特性が自律神経系の生理学的反応を引き起こす責任が等しい（例えば、検出された一致に等しい重み付けを加える）ことに基づいて、聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する。これは、ａ）本開示の実施例を使用して、等しい重み付けを使用して、脳活動および組み合わせプロットにおける識別されたピークとの相関を決定し、ｂ）等しい重み付けが、識別されたセグメントと音楽を聴いている被験者の脳活動のピークとの間に極めて強い相関を生成することを示し、ｃ）等しい重み付けが、聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する瞬間を識別するのに十分であるという証拠である、以下でさらに詳細に説明する先行研究および進行中の研究の状態に部分的に基づいている。さらに、本開示の明確な利点は、音楽の複雑さにより、（上述した所望のタイプの）幅広い可能なオーディオ特性を検出するのに十分なオーディオ処理アルゴリズムのセットを使用するだけでなく、等しい重み付けにより、本ルーチンが最も幅広い音楽のジャンルおよびタイプにわたって有用となることを可能にすることである。逆に、メトリックの重み付け、および検出領域を生成するために使用される個々の閾値基準の調整は、特定のジャンルの音楽に対してより敏感になるように、本開示の実施例をさらに調整することができる。

【0082】

本開示の実施例には、（１）各オーディオ処理アルゴリズムからの出力における検出の重み付け、（２）（個別にもしくはすべてのオーディオ処理アルゴリズムにわたる）検出閾値基準、および／または（３）音楽のジャンルまたはタイプに基づく検出の時間最小長さに対して、各メトリックにおいて調整を行うことも含まれる。これらの例としての調整は、どのオーディオ処理アルゴリズムが互いに協調される可能性が高いか（例えば、インパクトプロットにピークを生成し、識別を引き起こす可能性が高いか）対１つ以上のオーディオ処理アルゴリズムにおける検出がその他のオーディオ処理アルゴリズムにおける検出と一致する可能性が低い非調整に関して、同じまたは類似のジャンルの音楽間の類似性により、出力の全体的なロバストネスを損なうことなく可能である。図７の本実施例では、プロット７１４に示される非調和性メトリックの検出７１４’は、その他のオーディオ処理アルゴリズムの出力における任意の他の検出との相関が非常に弱い。これらの検出７１４’のこの相関の欠如がこのジャンルの音楽と関連している場合、外れ値メトリックの検出基準を増加させ、かつ／またはプロット７１４の検出セグメント７１４’の重み付けを減少させることにより、インパクトプロット７３０における結果として得られる識別（例えば、ピーク７８０およびセグメント７９０）の忠実度を増加させることができる。

【0083】

図８は、さらに別の曲波形を入力として使用して生成されたプロット８３０、８１１～８１８のグループであり、曲波形に基づく複数の客観的オーディオ処理メトリックからの検出出力と、複数の客観的オーディオ処理メトリックの出力に基づく組み合わせアルゴリズムからの出力とを、組み合わせアルゴリズムの出力に適用されるフレーズ検出アルゴリズムの出力と重ねて示している。図８では、オーディオ波形は、ＨａｒｒｙＮｉｌｓｓｏｎの「ＷｉｔｈｏｕｔＹｏｕ」という曲のデジタルコピーからのものである。インパクトグラフ８３０はチルモーメントプロット８６０を示し、フレーズ識別アルゴリズムの実施例によってチルモーメントプロット８６０内で識別された一次フレーズ８９０および二次フレーズ８９０を有する。図８はまた、インパクトグラフ８３０を生成するための組み合わせアルゴリズムへの入力として使用される８つの客観的オーディオ処理メトリックからの個々の検出プロット８１１～８１８を示す。８つの客観的オーディオ処理メトリックプロットは、ラウドネス８１８、スペクトルフラックス８１２、スペクトルセントロイド８１３、非調和性８１４、臨界帯域ラウドネス８１５、優勢ピッチメロディア８１６、不協和音８１７、およびラウドネス帯域比率８１８である。操作において、８つの客観的オーディオ処理メトリックの各々は、（例えば、それぞれの閾値を使用して）ＧＬＩＰｈを生成するために処理され、ＧＬＩＰｈは、メトリックの対応する検出プロット８１１～８１８に示されるように、バイナリ検出セグメントに変換された。バイナリ検出セグメントは、組み合わせアルゴリズムを用いて集約され、インパクトグラフ８３０のチルモーメントプロット８６０を生成した。

【0084】

インパクトグラフ８３０では、一次および二次フレーズ８９０、８９１の両方が、等しい最大値のチルモーメントプロット８６０におけるピーク８８０を有する。一次フレーズ８９０は、ピーク値８８０におけるチルモーメントプロット８６０の持続時間が長いことにより、ここでは決定され、それに応じて３０秒の固定長ウィンドウを受け取り、二次フレーズ８９１は、識別されたピーク８８０からチルモーメントプロット８６０の局所的な最小値までウィンドウを拡大することにより大きさを決定されたウィンドウを受け取った。識別された瞬間の前後の移動平均（running average）の変化のチルモーメントプロット８６０の局所的な速度変化を評価すること、および／または、聞き手に自律神経系の生理学的反応を引き起こすのに適した強い特性を有する波形の近傍領域を捕捉するためにウィンドウを拡張するために、チルモーメントプロット８６０の隣接するピークの強さを評価することなど、識別された瞬間の周りのフレーズウィンドウを拡張するための他の基準を使用することができる。この方法は、ある最小および最大時間ウィンドウ内で、可能な限り高い全体的な平均インパクトを有するウィンドウを生成する。

【0085】

インパクト曲線分類法
本開示の実施例には、本明細書に記載のチルモーメントプロットデータの実施形態を用いて作成された音楽分類法も含まれる。この分類法は、例えば、曲の中で最も高いかもしくは最も低いインパクトの領域が発生する場所、またはチルモーメントプロットの形状の任意の側面に基づくことができる。図９Ａ～図９Ｄに４つの例を示す。図９Ａ～図９Ｄは、４つの異なる曲における、移動平均（平滑線）９６１、９６１’、９６１”、９６１’’’を有する異なるチルモーメントプロット（ステップ状の線）９６０、９６０’、９６０”、９６０’’’、ならびに識別されたチルモーメントセグメントを示すウィンドウ９７１～９７６を示す。図９Ａは、ＬｅｚＺｅｐｐｅｌｉｎによる「ＳｔａｉｒｗａｙｔｏＨｅａｖｅｎ」であり、図９Ｂは、ＴｈｅＰｏｌｉｃｅによる「ＥｖｅｒｙＢｒｅａｔｈＹｏｕＴａｋｅ」であり、図９Ｃは、ＫａｎｙｅＷｅｓｔによる「ＰｕｒｅＳｏｕｌｓ」であり、図９Ｄは、Ｒａｄｉｏｈｅａｄによる「Ｃｒｅｅｐ」である。本開示の実施例には、チルモーメントプロット、移動平均、および識別されたフレーズの様々な例を分類して、曲のインパクト分類法に基づいて音楽を検索することを可能にする検索可能なインパクト曲線分類を生成するシステムおよび方法が含まれる。例としての検索には、チルモーメントプロットまたは移動平均のピーク位置、フレーズの位置と持続時間、チルモーメントプロットまたは移動平均の変動性、あるいはチル生成要素の一致に関連する他の特性が含まれる。また、これにより、メディア制作者は、ビデオコマーシャルまたは長編特作映画の場合のように、曲のインパクトの概略を同期メディアと一致させることができる。

【0086】

客観的オーディオ処理メトリック
本開示の実施例は、２つ以上の客観的オーディオメトリックの出力を、本明細書ではチルモーメントプロットと呼ばれる単一のオーディオメトリックへと組み合わせるオーディオ処理ルーチンを提供する。しかし、「チルモーメントプロット」という名称は、複雑なオーディオデータ（例えば、音楽）において、「チル」として知られる、人間の聞き手における自律神経系の生理学的反応を引き起こすのに適した特性を有する瞬間を検出する本開示の実施例の能力を指す。これらの特性を有する瞬間を検出する本開示のオーディオ処理実施例の能力は、選択されたメトリックと、それらのメトリックの出力の処理との両方の関数である。したがって、メトリックのいくつかの選択ならびに／または検出および組み合わせアルゴリズムのいくつかの構成は、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した特性の検出の強さを増加または減少させるか、あるいは他の特性について検出する。他の特性を検出する最も単純な実施例は、検出アルゴリズム（例えば、客観的オーディオ処理メトリックの出力への閾値の適用）または組み合わせアルゴリズムを反転させることによって得られる。検出アルゴリズムを反転させる（例えば、上位２０％超としてではなく、下位２０％の閾値未満として正（positive）を検出する）ことで、一般的に、チルを引き起こすこととの関連性が最も低い瞬間を各メトリックで識別し、これらの検出の一致を組み合わせアルゴリズムで処理することで、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を持つ瞬間のピーク一致が返される。あるいは、検出アルゴリズムの動作を変えることなく、組み合わせアルゴリズム出力の最小値は、一般的に、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も弱い特性を持つ瞬間を表すこともできるが、各メトリックの出力における検出のために、より低い閾値が使用される場合よりも精度が低くなる可能性がある。したがって、この反転は、人間の聞き手に自律神経系の生理学的反応を引き起こすことに関連することが知られている音響特徴に個別に対応するメトリックを使用する場合に可能である。

【0087】

あるいは、異なる関連性を持つ他のメトリックを使用することもできる。例えば、音響的な複雑さ、または逆に音響的な単純さに関連する２つ以上のメトリックのセットなどである。これらの２つの例では、組み合わせアルゴリズムは、音響的な複雑さまたは単純さのピークモーメントまたはフレーズをロバストに検出することができる。しかし、全体的な複雑さまたは単純さは、音楽のすべてのタイプおよびジャンルに適用されるロバストな定義を欠いている可能性があり、これは、個々のメトリックの選択を困難にする可能性がある。いずれにせよ、本開示の実施例は、複数の異なる客観的オーディオ処理メトリックを利用して、複数のメトリックにわたる同時寄与を考慮した組み合わせメトリックを生成する方法を提供する。

【0088】

複雑さもしくは単純さといった、より漠然とした、または主観的な音響的説明とは対照的に、音楽を聴いたときの聞き手の自律神経系の生理学的反応の経験は、たとえそのような事象が一般的でないとしても、総合的な評価のための明確に定義されたテストである：聞き手は、曲を聴いている間にチル効果を経験するか、またはしないかのどちらかである。このバイナリテストによって、音響特性と聞き手が自律神経系の生理学的反応を経験する可能性との間に検証可能な関連性を確立する現象に関する研究が可能になった。この研究と、それに関連する定量化可能な音響特性は、自律神経系の生理学的反応を引き起こすのに最も適した特性を持つ任意の曲の１つまたは複数の瞬間を、人間の評価なしに決定するという現在の目的に関連すると考えられる一連のメトリックを確立するのに役立つ。さらに、音楽の複雑さと多様性の両方から、任意の１つの客観的オーディオ処理メトリックのみが、音楽中のチルを引き起こすピークの瞬間と確実かつ有意に相関され得るとは考えにくい。本開示の発明者らは、チルを引き起こす特性に関連する複数のメトリックにおける比較的上昇した（例えば、必ずしも最大ではない）事象の一致が、任意の単一のメトリックに関連する問題を解決し、人間の聞き手に自律神経系の生理学的反応を引き起こすのに適した最も強い特性を有する複雑なオーディオ信号（例えば、音楽）における個々の瞬間および関連するフレーズをロバストに識別することができることを発見した。これに基づいて、例えば、潜在的な聞き手のチルの経験に関連する音響特性を識別することができる、２つ以上の個別の客観的オーディオ処理メトリックからの入力を組み合わせるための（本明細書で説明するような）組み合わせアルゴリズムが開発された。

【0089】

本開示の実施例には、曲のデジタル録音に見られる音響特徴に関連する客観的オーディオ処理メトリックの使用が含まれる。このプロセスは、外部ソースからのデータ、例えば歌詞データベースからの歌詞コンテンツに依存しない。基礎となる客観的オーディオ処理メトリックは、計算可能でなければならず、メトリックを計算するための「効果的な方法」が存在しなければならないという点で具体的でなければならない。例えば、．ｗａｖファイル、または．ｗａｖファイルに変換可能な任意のファイルとして保存された録音音楽からピッチメロディ情報を抽出するための多くの既知の効果的な方法がある。その場合、その方法はピッチ情報に依存し、特にチルを誘発することが知られているピッチメロディ情報を検索することができる。

【0090】

組み合わせて、チルを検出することが可能な客観的オーディオ処理メトリックは、社会的なコンセンサスに依存して、チルを生じさせることが知られている誘発物を決定することができる。これらは現在、チルに関する科学的研究、作曲家およびプロデューサーの専門的知識、ならびに音楽家の専門的知識から得られる。これらの多くは一般的に知られており、例えば、突然のラウドネスまたはピッチメロディである。インパクトのある音楽の瞬間を識別することが目的である場合、人間の肯定的な反応との関連を表すことが知られている（または実験を通して表すことが経験的に分かっている）任意の客観的オーディオ処理メトリックは、本明細書で説明するアルゴリズムアプローチに含められ得る。客観的によく定義されている代表的な例としてのメトリックには、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、メロディ、非調和性、不協和音、スペクトルセントロイド、スペクトルフラックス、キー変化（例えば、転調）、急激なラウドネス増加（例えば、クレッシェンド）、持続ピッチ、および高調波ピーク比が含まれる。本開示の実施例は、組み合わせアルゴリズムへの入力として、これらの例としてのメトリックのうちの任意の２つ以上を含む。これらの例としてのメトリックのうちの３つ以上の使用は、一般的に、ほとんどの音楽において最もインパクトのある瞬間の検出を向上させる。

【0091】

一般的に、３つ以上のメトリックを使用することで、より多様な音楽にわたって検出が改善され、それは、あるジャンルの音楽には共通の音響シグネチャがあり、そのようなジャンルでは、２つまたは３つのメトリックにおける一致は、８つ以上のメトリックを使用するのと同然となり得るためである。しかし、他のジャンル、特にそれらの２つまたは３つのメトリックに関連する音響シグネチャが一般的でなかったり、あまり動的でなかったりするジャンルでは、追加のメトリックを追加することで、より大きな恩恵が提供される。追加のメトリックを追加すると、特定のタイプの音楽において、組み合わせアルゴリズムの有効性が薄れたり、低下したりする可能性があるが、追加されたメトリックが、その他のメトリックとは異なり、かつ聞き手にチル現象を引き起こすことに関連している音響特性を測定している限り、追加されたメトリックを含めることで、すべての音楽タイプにわたり、組み合わせアルゴリズムの全体的なパフォーマンスが向上する。上に示した例としてのメトリックはすべて、どのような組み合わせで使用されてもこの基準を満たすが、基準を満たす場合には、いずれか１つのメトリックが別のものと置き換えられることを妨げるものではない。さらに、音楽の特定のジャンル内に存在する類似性を考慮すると、本開示の実施例には、音楽のジャンルが既知の場合に特定のメトリックの使用を事前に選択すること、および／または各メトリックの検出に不均一な重み付けを適用することの両方が含まれる。また、実施例には、個々のメトリックの出力を分析することも含まれ得る。

【0092】

極端な例として、ソロ歌手の音楽には、特定のメトリック（例えば不協和音）から意味のあるデータを生成するための楽器編成がない場合があるため、これらのメトリックからの検出がそのまま存在すると、組み合わせアルゴリズムの出力に一種のランダムノイズが加わる。複数のメトリックがこの種のノイズを組み合わせアルゴリズムに付加しているとしても、２つまたは３つの関連するメトリックが使用されている（例えば、実際に音楽に含まれる音響特性を測定する）限り、一致する検出はノイズを越えて検出される可能性が極めて高くなる。しかし、所与のメトリックがランダムなまたは非常に低い強度の検出を提供しているときを確認することも可能であり、組み合わせアルゴリズムに対するメトリックの寄与は、その出力が意味をなさない可能性に基づいて相対的な重み付けを下げることによって低減され得、あるいは、その寄与がないという十分高い確信が確立され得る場合には、その寄与を完全に取り除くことができる

【0093】

また、一般的に知られている効果的な客観的検出方法を持たない、チルと関連していると識別されている多くの資質がある。例えば、名人芸は、音楽のチル誘発物として知られている。名人芸は一般的に演奏者の技量に関連する美的特徴があると考えられているが、「名人芸」のような主観的価値を例証するのに適している、音楽録音内の識別可能なセクションを計算するための明確に定義された「効果的な方法」はない。また、「名人芸を識別する」アルゴリズムの有効性をテストすることは、困難または不可能であることが判明するかもしれない。

【0094】

一致する誘発物を使用する一般的な方法は、どのような特定のユースケースにも当てはまる。音楽録音の苛立たしい部分またはうるさい部分を識別するケースを考えると（例えば、これらの資質に一致する音楽の再生を避ける際のユースケースについて）、最初のステップとして、苛立たしいまたはうるさいとは美的観点から何を意味するのかを概念的に識別し、次にそれらの特徴を識別するための効果的な統計的方法を作成する必要があるだろう。その後、それらの特徴は、本明細書で説明する方法によって集約することができ、使用するメトリックの拡大、検出のための閾値の調整、および／または組み合わせアルゴリズムの実施例に従って組み合わせられる前の相対的な検出重みの調整を通じて、部分のタイプを識別する、漸進的により効果的となる手段を構築することができる。

【0095】

本開示の実施例は、図面に図示されていない追加の検出メトリックを含むことができる。例としては、急激なデュナーミクの増加／クレッシェンド、持続ピッチ、高調波ピーク比、コード変更／転調が挙げられる。

【0096】

急激なデュナーミクの増加／クレッシェンド：例としては、まずラウドネスの変化の表現としてラウドネスの一次導関数を求め、閾値と検出アルゴリズムを使用して、一次導関数が中央値より大きく、また一次導関数の領域のピークが中央値に標準偏差を加えた値を超える領域の周辺のＧＬＩＰｈを識別することが含まれる。

【0097】

持続ピッチ：例としては、主旋律において長い持続音が保持されている特定の領域をハイライトするために優勢ピッチ信頼値とピッチ値が分析される、ＧＬＩＰｈ領域を識別する検出アルゴリズムが含まれる。この場合の検出メトリックは、ピッチ周波数が、低い変動を有し、選択された持続時間要件を超える（例えば１秒より長い）領域をハイライトすることを伴う。

【0098】

高調波ピーク比：例としては、ベース高調波の比率がピーク高調波に対して比較されて、支配的な高調波が第１、第２、第３、または第４高調波でないセクションを見つける、ＧＬＩＰｈ領域を識別する検出アルゴリズムが含まれる。これらのセクションは、チルを誘発する音楽と相関する音色特性をハイライトする。この場合の検出メトリックは、信号中の特定の高調波比率に適合する領域を選択することのみを伴う。例えば、第１高調波がその他のすべての高調波に比べて支配的な領域を選択すると、特定のタイプの音色資質を持つ領域がハイライトされる。同様に、高次高調波（upper harmonics）が支配的な領域を選択すると、別のタイプの音色資質が表される。

【0099】

キー変化／転調：例としては、曲の冒頭で確立された優勢なコード（predominant chords）に対して、優勢なコードが劇的にシフトするＧＬＩＰｈ領域を識別する検出アルゴリズムを使うことが含まれる。このシフトは、キー変化または顕著なコード転調を示す。この場合の検出メトリックは閾値を伴わず、音楽のキー変化を直接検出する。

【0100】

実験的検証
２つの別個の調査において、チル現象（例えば、本開示の実施例によって分析された音響特性に関連する自律神経系の生理学的反応）は、本開示の実施態様の出力からのデータを、脳の活性化および聞き手の行動反応の両方と比較することによって調査された。

【0101】

どちらの研究でも、アルゴリズムの実装構成は同じであった。予測データを生成するために、８つの客観的オーディオ処理メトリックのＧＬＩＰｈ検出を入力として使用して実行された組み合わせアルゴリズムを用いて、チルモーメントプロットを生成した。使用した８つの客観的オーディオ処理メトリックの性質は、前のセクションで説明した。具体的には、本明細書で調査する実験的検証のために、使用された８つの客観的オーディオ処理メトリックは、ラウドネス、臨界帯域ラウドネス、ラウドネス帯域比率、スペクトルフラックス、スペクトルセントロイド、優勢ピッチメロディア、非調和性、および不協和音であり、これらは図７および図８に示される８つのメトリックである。

【0102】

前のセクションで説明したのと同じ方法で、８つの客観的オーディオ処理メトリックがデジタル録音に個別に適用され、各メトリックの出力に対するそれぞれの閾値が、各メトリックの検出（例えば、ＧＬＩＰｈ）のセットを生成するために使用された。検出のセットは、本開示の組み合わせアルゴリズムの実施形態を使用して組み合わせられ、比較のために使用する曲内の相対的なインパクトの連続グラフを提示するために、組み合わせアルゴリズムの出力の移動平均を含むチルモーメントデータセットを生成した。録音に対して生成された組み合わせアルゴリズムの出力の移動平均は、行動研究および別個にｆＭＲＩ研究において、同じ曲を聴く人間の被験者から収集された時間データと比較された。

【0103】

行動研究
本開示の実施例がインパクトのあるピークの（例えば、自律神経系の生理学的反応を引き起こす相対的な可能性が最も高い）瞬間を検出する能力を検証し、一般に、本開示の実施例が聴取中に曲のインパクトのある特性の聞き手の主観的評価を予測する能力を検証するために、行動研究が実施された。行動研究では、１００曲のリストから、参加者は、曲の音楽的インパクト（最も低いインパクトから最も高いインパクトまで）の同期的知覚を示すためにリアルタイムで画面上のスライダーを動かしながら、自分で選択した、チルを誘発する音楽録音（例えば、チルを与えたことがあるかまたはチルを与える可能性のある、知っている曲を選ぶように求められたユーザーによって選択された曲）を聴いた。参加者が選んだ音楽は一般的に現代のポピュラー音楽で、選ばれた曲の長さは大体３分～６分の範囲であった。各参加者のスライダーのデータは、参加者が選択した曲が入力として使用された８つの客観的オーディオ処理メトリックの出力に対して実行された組み合わせアルゴリズムの出力によって生成された各曲の出力と相互相関された。

【0104】

行動研究は１，５００人の参加者を用いて行われた。参加者の反応は、それぞれの曲についての組み合わせアルゴリズムの予測と有意な相関があった。参加者は、組み合わせアルゴリズムによってチルを誘発すると予測されたフレーズの間に、より高いインパクトを示した。図１０Ａでは、参加者のスライダーデータ１００１（「人間」と表示）の結果をプロットしたグラフが、組み合わせアルゴリズム出力１００２（「機械」と表示）の移動平均に重ねられている。図１０Ａの結果では、参加者番号８は、ＲｅｂａＭｃＥｎｔｉｒｅの曲Ｆａｎｃｙを聴いていた。

【0105】

１，５００人の参加者が選んだ曲を聴いている間に受信した彼らの連続的なスライダーデータを使用し、スライダーデータと組み合わせアルゴリズムの出力の移動平均からピアソンの相関係数を作成した。表１は、１，５００人の参加者が選んだ３４曲それぞれのピアソン相関係数を示している（多くの参加者が同じ曲を選んだ）。１，５００人の参加者のピアソン相関係数の合計は０．５２で、確率（ｐ値）は０．００１未満であった。言い換えれば、８つの客観的オーディオ処理メトリックからの検出を用いた組み合わせアルゴリズムが、実際の人間の聞き手によって判断されるような、音楽中のインパクトのある瞬間を予測できたことを示す、可能な限り強力な統計的証拠が得られた。

【表1】

【0106】

ｆＭＲＩ研究
参加者が受動的聴取課題中に音楽刺激を聴取する自然音楽聴取課題からのデータを再分析した。音楽的訓練を受けていない１７名の参加者が、バロック時代の作曲家ＷｉｌｌｉａｍＢｏｙｃｅ（１７１１～１７７９）の交響曲の９分の長さのセグメントを聴く間に、調べられた。一般線形モデルを使用して、聴取セッション中に全脳分析を実施し、行動研究で使用された同じ８つの客観的オーディオ処理メトリックからの検出を使用して、組み合わせアルゴリズムで予測されるような、より高い予測インパクトと、活性化レベルが相関されたボクセルを決定した。図１０Ｂは、この研究から得られたｆＭＲＩスナップショットであり、組み合わせアルゴリズムによって識別されるような、また、非ピークモーメントと比較した、音楽中の識別されたピークモーメント中の増加に関連する神経活性化の広範なネットワークを示す。

【0107】

ｆＭＲＩ研究の分析により、図１０Ｂに示すように、背外側および腹外側の前前頭皮質、後部島、上側頭溝、大脳基底核、海馬、感覚運動皮質を含む複数の脳領域において、組み合わせアルゴリズムの出力の移動平均の有意な追跡（ｐ＜０．０１、ｑ＜０．０５でクラスター補正；（Ｃｏｈｅｎのｄ＝０．７５））が明らかになった。予測されるインパクトと負の相関を示した脳領域はなかった。ラウドネス測定による対照分析では、感覚運動皮質でのみ有意な反応が見られ、ラウドネスと負の相関を示した脳領域はなかった。これらの結果は、知覚と認知に関与する分散した脳領域が音楽のインパクトに敏感であること、および、本開示の実施例による８つの客観的オーディオ処理メトリックからの検出と組み合わせた組み合わせアルゴリズムが、知覚と認知に関与する脳領域のピークの脳活動と強く相関するデジタル音楽データの時間的瞬間とセグメントを識別できることを示している。

【0108】

さらに、発表された研究がこれを裏付けている。ＢｌｏｏｄとＺａｔｏｒｒｅによる基礎研究は、「チルの主観的報告は、心拍数、筋電図、呼吸の変化を伴っていた。これらのチルの強さが増すにつれて、腹側線条体、中脳、扁桃体、眼窩前頭皮質、腹内側前頭前皮質を含む、報酬動機、感情、覚醒に関与すると考えられる脳領域で、脳血流の増加と減少が観察された。これらの脳構造は、食べ物、セックス、依存性薬物など、幸福感を誘発する他の刺激に反応して活性化することが知られている」と結論づけている。ｄｅＦｌｅｕｒｉａｎおよびＰｅａｒｃｅによる研究では、「大脳基底核に属する構造は、チルと繰り返し関連している。背側線条体では、心地よいチルの経験の有無にかかわらず、音楽聴取を比較すると、被殻と左尾状核に活性化の増加が見られる」と述べている。

【0109】

実験の結論
行動研究とｆＭＲＩ研究の結果は重要である。人間における「チル反応」と、その反応に付随する要素を記述した学術文献との明確な関連性を導き出すことができる。自己申告による行動研究では、被験者はどこで高い音楽的インパクトを経験しているかを示し、これはチル反応に必要な音楽的覚醒に直接関係している。また、ｆＭＲＩ研究では、記憶、快楽、報酬を司る領域の高い活性化が、組み合わせアルゴリズムの出力と強く対応していることが確認された。したがって、実験の性質と規模を考えると、可能な最も強い統計的有意性により、行動研究とｆＭＲＩ研究は、自律神経系の生理学的反応に関連する聞き手の神経学的活動を予測する本開示の実施形態の能力を共に検証した。

【0110】

産業応用と実施態様
大規模なカタログをキュレーションし、音楽録音にまつわる美的判断を下すことは時間がかかるという大前提に基づき、本開示の実施例のいくつかの商業的応用を採用することができる。例えば、特定の用途のための録音のランク付けと検索を自動化することで、時間を節約することができる。人間が音楽録音のライブラリを調べ、任意の用途のための録音を選ぶのにかかる時間は、法外に大きくなり得る。美的評価を下すには、通常録音を複数回聴取する。ポピュラー音楽の曲の長さが３～５分であることを考えると、この評価には１曲当たり６～１０分かかる。また、燃え尽きおよび疲労という側面もある：人間は多くの曲を続けて聴くと、客観性を失う可能性がある。

【0111】

代表的なユースケースの一例は、大規模な音楽カタログホルダー（例えば、Ｓｐｏｔｉｆｙ、ＡｍａｚｏｎＭｕｓｉｃ、ＡｐｐｌｅＭｕｓｉｃ、またはＴｉｄａｌなどの既存の商用サービス）用のものである。通常、大規模な音楽カタログホルダーは、新たな「有料会員」を獲得し、「無料ユーザー」を有料会員に変えたいと考えている。成功は、少なくとも部分的には、音楽カタログへのアクセスを提供するコンピュータアプリケーションの無料バージョンと相互作用する際のユーザーの経験に基づくことができる。したがって、本開示の実施例を適用することにより、音楽カタログサービスは、「最も説得力のある」または「最もインパクトのある」音楽をユーザーに配信する手段を有することになり、ひいては、ユーザーの購買決定に直接的な影響を与える可能性が高い。この実施例では、タイムスタンプのデータベースがデジタル音楽カタログと共に保存され得、タイムスタンプは、各曲の客観的オーディオ処理メトリックに対して事前に実行された組み合わせアルゴリズムによって検出された１つ以上のインパクトのあるピークの瞬間、および／または組み合わせアルゴリズムの出力に対して事前に実行されたフレーズ検出アルゴリズムによって生成された１つ以上のインパクトのある音楽フレーズを表す。一般に、サービスのカタログ内のすべての曲について、本開示の実施例によって生成されたタイムスタンプの形態のメタデータを提供し、ユーザーの経験を向上させるために使用することができる。本開示の例としての実施形態において、インパクトのあるピークの瞬間を含む曲のサンプルがユーザーに提供され、かつ／または、サンプルは、１つ以上の識別されたインパクトのあるフレーズを表すことができる。

【0112】

もうひとつの例としてのユースケースは、エンターテインメントおよびテレビ業界にある。ディレクターが制作物用の音楽を選択する場合、多くの場合、数百の曲にわたりフィルタリングして、適切な録音および使用するその録音の適切な部分を見つけなければならない。本開示の例としての実施形態では、ソフトウェアアプリケーションは、識別されたインパクトのあるフレーズおよび／またはチルモーメントプロットをユーザー（例えば、映画またはテレビの編集者、プロデューサー、ディレクターなど）に提供し、ユーザーが選択したパラメータ（例えば、ジャンル）内でインパクトの強い音楽に絞り込んで、制作物用の適切な録音およびフレーズを見つけることを可能にする。これには、曲中のインパクトのある瞬間およびフレーズを、動画中の瞬間に合わせる能力も含まれ得る。

【0113】

本開示の例としての実施形態において、クラウドベースのシステムは、ユーザーが、入力として、クラウドに保存された音楽録音の大規模なカタログを通して検索することを可能にし、出力として、返された各曲の結果の中で最もインパクトのある瞬間を含むか識別する１曲以上の検索結果を配信する。本開示の例としての実施形態では、ローカルまたはクラウドベースのコンピュータ実装サービスは、入力としてデジタル音楽録音を受信し、このデジタル音楽録音は、本開示の実施例を通じて処理され、各曲のインパクトのあるピークの瞬間および／または最もインパクトのあるフレーズのタイムスタンプに関するデータ、ならびに客観的オーディオ処理メトリックを使用した処理の結果として提供される任意の他の音楽的特徴に関するデータを作成する。例としては、所望の出力に応じて、機械学習技術を使用して改善した推薦システムを使用するために組織の既存のメタデータと組み合わせられる、保存されたデータを使用すること、または、最もインパクトのあるフレーズの実際のオーディオファイルを生成することが含まれる。

【0114】

音楽療法も、血圧の低下、患者が選択した音楽による手術結果の向上、疼痛管理、不安治療、うつ病、心的外傷後ストレス障害（ＰＴＳＤ）、自閉症を含む、多種多様な状況において医学的転帰を改善することが示されている。音楽療法士は、ディレクターおよび広告主と同じように、音楽のキュレーションに関する問題を抱えており、患者が共感でき、かつ患者から肯定的な反応を引き出す特定のジャンルの音楽を見つける必要がある。したがって、本開示の実施例は、患者からの肯定的な（例えば、チル）反応の可能性を高めることによって、治療の結果を改善するための音楽のセグメントを音楽療法士に提供するために使用することができる。特定の病気（例えば、認知症または重度の精神疾患）を持つ患者の中には、療法士が音楽を選択するのを手伝えない人もいる。患者が特定の曲名またはアーティスト名ではなく、ジャンルを挙げることができれば、本開示の実施例により、療法士はそのジャンルからインパクトのある音楽を選択することができる。あるいは、患者がアーティストの名前を挙げることができ、療法士がそのアーティストに詳しくない場合、本開示の実施例を使用して、曲のリストから最もインパクトのある瞬間をソートすることができ、療法士はそれらの瞬間を再生して、そのうちのいずれかが患者からの反応を生じさせるかどうかを確認することができる。別の例は、音楽療法士が患者の年齢に基づいて音楽を検索し、患者から感情的な反応を誘発する可能性が高い音楽を検索する（例えば、患者が１９～２５歳の間であった期間から最もインパクトのある音楽を見つける）のに役立つウェブインターフェースである。別の例は、音楽療法士がＰＴＳＤの患者に対して瞑想の練習に使用されるジャンルのリストから最もインパクトの少ない音楽を選択するのに役立つウェブインターフェースである。

【0115】

ソーシャルメディア
本開示の実施例は、ユーザーが、閲覧およびエンゲージメント時間を最大化し、また、曲を見つけ、使用するセクションを検索するためのユーザーの検索時間を短縮することを期待して、自分の動画コンテンツとペアにすることができる最もインパクトのあるチルフレーズを見つけることを可能にするために、本明細書に記載される例としてのシステムおよび方法を使用するように構成されたソーシャルメディアプラットフォームおよびアプリケーションを含む。例としては、モバイルデバイスまたはコンピュータのディスプレイを制御して、チルモーメントプロットのデータの視覚的表現および／または識別されたフレーズの視覚的識別（例えば、タイムスタンプ、波形など）を表示することが含まれ、これは、それぞれの曲からの選択に付随することができる。いくつかの実施例では、ディスプレイは、ユーザーがオーディオデバイスを通して識別されたフレーズを再生またはプレビューできるようにインタラクティブである。本開示の実施例は、短い動画コンテンツとペアにするインパクトのある音楽セグメントを見つける能力、動画の閲覧およびエンゲージメント時間を最大化する能力、ユーザーの入力と検索時間を短縮する能力、音楽の選択を多様化することでライセンスコストを削減する能力を含む、いくつかの利点をソーシャルメディアシステムに提供することができる。

【0116】

非限定的な実施態様は以下を含む：ａ）既存のソーシャルメディアプラットフォームに統合される本開示の実施例、ｂ）複数のチルフレーズ選択を試聴し、ユーザー生成コンテンツとどのようにペアにするかを確認するシステムおよび方法、ｃ）曲のチルモーメントを視覚的に表現するユーザーインターフェースおよび／またはＵＩ要素、ｄ）ＣＢ－ＭＩＲ機能を使用して、ユーザーが異なる時代および音楽ジャンルから音楽を発見するのを支援する、ｅ）ＣＢ－ＭＩＲ機能を使って、ソーシャルメディアアプリ内でのオーディオ選択をさらに洗練させる、ｆ）聞き手とつながる可能性が最も高い楽曲をライセンスする方法をユーザーに提供する、ｇ）識別されたインパクトのあるフレーズによって曲をプレビューし、音楽検索の聴取時間を短縮する、ｈ）ソーシャルメディアプラットフォームがライセンスコストを制御しながら曲の選択を拡大する方法を提供する。

【0117】

図１１は、本開示の実施例を組み込んだソーシャルメディアアプリケーションを示すモバイルデバイスのディスプレイ１１００の説明図である。図１１は、写真１１０１のユーザー選択と、チルフレーズ１１０３を識別するウィンドウと共に音楽トラックの選択を視覚的に示すオーディオデータ１１０２のオーバーレイと、選択された音楽トラックについてチルモーメントプロットの平均を表す線１１０４と、を示す。

【0118】

音楽ストリーミングプラットフォーム
本開示の実施例には、音楽ストリーミングサービスとの統合が含まれ、例えば、人間に非常に肯定的な感情的および身体的効果をもたらすことが本開示のシステムおよび方法によって予測された類似のチルモーメント特性および／またはトラックを有する音楽を見つけてプレイリストに追加できるようにすることで、ユーザーがよりインパクトのある音楽を発見し、プレイリストを強化するのを助ける。実施例は、ユーザーが曲のプレビュー中に最もインパクトのあるセクションを聴くことができるようにすることもできる。

【0119】

図１２は、本開示の実施例を組み込んだ音楽ストリーミングアプリケーションを示すモバイルデバイスのディスプレイ１２００の説明図である。図１２は、代表的な音楽ストリーミングアプリケーションのインターフェース１２０２を示し、音楽トラック１２０３、１２０４、１２０５のユーザー選択と、チルフレーズを識別するウィンドウ１２０７を有する各音楽トラックのオーディオデータ１２０６のオーバーレイと、選択された音楽トラックのチルモーメントプロットの平均を表す線１２０８とを示す。例は、音楽ストリーミングプラットフォームのユーザーが特定のチルプロット分類を検索することを可能にする本開示の実施例を含み、これは、例えば、インパクトのある終わり、始まり、または中間を有するすべての曲を含むプレイリスト、ならびに曲の分類の混合物を含む曲のプレイリストの作成において、ユーザーを支援することができる。

【0120】

曲のカタログ
非限定的な実施態様としては、テレビの連続番組および映画のための適切な音楽を見つける上でクリエイターを支援するシステムおよび方法が含まれる。具体的には、シーンのタイミングに合った音楽である。特に大規模なカタログから、既存の技術を使用すると、このプロセスは時間のかかる作業になる可能性がある。本開示の実施例は、例えば、曲中のインパクトのあるフレーズによる曲検索結果のフィルタリング（例えば、フレーズの長さおよび分類）でクリエイターを支援することができる。また、実施例は、チルモーメントに関連する新しいタイプのメタデータ（例えば、チルモーメントセグメント位置を示すタイムスタンプ）の作成を可能にし、これにより、検索時間とコストを削減することができる。

【0121】

図１３は、本開示の実施例を組み込んだ音楽カタログアプリケーションを示すコンピュータディスプレイ上に提示されるユーザーインターフェース１３００の説明図である。図１３は、音楽トラック選択を表すウィンドウ１３２０のオーディオデータ１３２１と、選択された曲を処理する組み合わせアルゴリズムからの出力１３１４と、チルモーメントプロットの平均を表す線１３１３とを有する別個の音楽的インパクトウィンドウ１３１０と、を提示する、曲のユーザー選択を示す。音楽的インパクトウィンドウ１３１０はまた、選択された音楽トラックについて、第１および第２の識別されたインパクトのあるフレーズ１３１１、１３１２の視覚的表示を提示する。

【0122】

例としての特徴には、ａ）曲のチルモーメントプロットの特性によって曲データベースをフィルタリングする能力、ｂ）予測可能にインパクトのある曲を識別すること、ｃ）曲中の識別されたチルセグメントを見つけること、ｄ）本明細書に記載の方法を使用して生成されたデータのいずれかに対応する新しいメタデータを音楽カタログに入力すること、およびｅ）検索時間およびライセンスコストを削減することが含まれる。本開示の実施例には、組み合わせアルゴリズムおよびフレーズ検出アルゴリズムのパラメータに対するユーザー制御を提供するユーザーインターフェースも含まれる。例えば、異なるタイプのフレーズを見つけるために、ユーザーが１つ以上の入力メトリックのための重みを調整または削除できるようにする。このオンザフライ調整は、個々のメトリックを再処理することなく、組み合わせアルゴリズムおよびフレーズ検出アルゴリズムを再実行することができる。この機能性により、例えば、ピッチとメロディに関連するパラメータの重みを増やすことで、メロディピークが大きい曲を検索したり、音色に関連するメトリックの重みを増やすことで、同様の音響プロファイルを特徴とする瞬間を見つけたりすることができる。例としては、ユーザーがメトリックの重みなどのパラメータを個別に調整できるようにするユーザーインターフェース、または、事前に選択された音響プロファイルを識別する事前に選択された構造が含まれる。相互作用可能な要素（例えば、トグル、ノブ、スライダー、またはフィールド）を使用することにより、ユーザーは、表示されたチルモーメントプロットと、関連するフレーズ検出を即座にインタラクティブに反応させることができる。

【0123】

実施態様としては、以下が挙げられる：ａ）チルモーメントプロットに関連するデータを動画編集ソフトウェアのユーザーインターフェースに提供する、ｂ）チルモーメントプロットに関連するデータを音楽カタログアプリケーションのユーザーインターフェースに提供し、ユーザーがチルモーメントデータに基づいて、識別されたフレーズおよび／または個々のトラックのシークを使用してトラックをプレビューすることを容易にする、ｃ）チルモーメントプロットに関連するデータをオーディオ編集ソフトウェアのユーザーインターフェースに提供する、ｄ）チルモーメントプロットに関連するデータを、旅客機の音楽選択アプリケーションのユーザーインターフェースに提供し、乗客の音楽選択を支援する、ｅ）チルモーメントに関連するデータを、物理的およびデジタルレコード店のキオスクのユーザーインターフェースに提供する、ｆ）ユーザーがインパクトのあるフレーズを使ってアーティストおよび個々の曲をプレビューできるようにする。

【0124】

本開示の実施例には：ａ）ソーシャルメディアのスライドショーを即座に生成するためのソーシャルメディアプラットフォームに、チルモーメントプロットに関連するデータを提供する、ｂ）ライブ音楽のためのチルモーメントプロットを生成する、ｃ）インパクトのあるフレーズによるプレビューを可能にするために、既存のデジタル音楽カタログにチルモーメントプロットに関連するデータを入力する、ｄ）チルモーメントプロットに関連するデータを、複数のチルモーメントフレーズを試聴するためのソフトウェアに提供し、ビジュアル編集シーケンスとどのようにペアにされるかを確認する、ｅ）チルモーメントプロットに関連するデータを処理して、カタログホルダーに新しいメタデータを提供し、それらの曲のインパクトのある部分をライセンスする新しい機会を提供する、ためのシステムおよび方法が含まれる。

【0125】

オーディオ、映画、テレビ、広告の制作
映画、テレビ、広告のプロデューサーおよびマーケティング担当者は、ターゲットとする視聴者とつながる音楽を見つけたい。本開示の実施例には、チルモーメントプロットに関連するデータを使用して、ユーザーが録音された音楽の中でインパクトのある瞬間を見つけるのを支援し、これらのチルフレーズを広告、テレビ、または映画のシーンとペアにすることを可能にするシステムおよび方法が含まれる。１つの例としての利点は、曲の識別されたチルセグメントを広告内の重要な瞬間とペアにする能力である。図１４は、本開示の実施例を組み込んだ動画制作アプリケーション１４０１を示すコンピュータディスプレイ上のソフトウェアインターフェース１４００の説明図である。図１４は、現在の動画シーン１４１０と、オーディオトラックと動画トラック１４３０との時間整列を示すオーディオ－動画オーバーレイ１４２０とを示す。オーディオ－動画オーバーレイ１４２０は、識別されたチルフレーズ１４２３を識別する隣接ウィンドウ１４２２と共に音楽トラック選択を表す２チャンネルオーディオデータ１４２１、ならびに選択された音楽トラック１４２１についてのチルモーメントプロット１４２５の平均を表す線１４２４を含む。オーディオ制作コンテキストにおける実施態様は、曲のトラックの異なるミックスが構成されるときに、チルプロットおよびフレーズ選択の視覚的フィードバックをリアルタイムで提供するシステムおよび方法を含む。実施例では、編集／ミックス中の現在の曲のチルプロットにどのメトリックが入れられているかのより詳細な内訳を提供することもでき、プロデューサーは音楽をどのように改善できるかについての洞察を得ることができる。

【0126】

ゲーミング
本開示の実施例には、ゲーム開発者が、ゲーム体験を向上させるために音楽の最もインパクトのあるセクションを見つけて使用することを可能にし、それによって労働コストおよび制作コストを削減するためのシステムおよび方法が含まれる。本開示の実施例には、本明細書に開示するシステムおよび方法を使用してゲームデザイナーの主観を取り除き、彼らが音楽の最もインパクトのある部分を識別し、ゲーム体験の最もインパクトのある部分と同期させることを可能にすることが含まれる。例えば、ゲームデザイン中に、カットシーン、レベル変化、ゲーム体験の中心となる課題を示す音楽。例としての利点は、最もインパクトのある音楽を統合することでユーザーエンゲージメントを高めること、アプリ内音楽購入のための音楽発見を提供すること、音楽セグメントをゲームシナリオに合わせること、ゲームメーカーの労働コストおよびライセンスコストを削減することを含む。例としては、チルプロットデータと同期した音楽可視化を提供することが含まれ、これは、ゲーム内のビジュアルキュー、または、音楽が再生される環境の動的ライティングシステムを同期させることを含み得る。例としては、チルプロットのピークからタイミングと双方向性を導き出す音楽テンポゲームの作成を支援することが含まれる。実施態様としては、ユーザーのゲームプレイと同期して、リアルタイムで曲のチルモーメントセグメントをキューイングすること、および、チルモーメントプロットに関連するデータを使用して、カットシーン、レベル変化、ゲーム体験の中心となる課題を示すことが含まれる。

【0127】

健康およびウェルネス
人々はしばしば、ストレスを和らげ、ウェルビーイングを改善するのに役立ちそうな音楽を見つけたいと思っており、これは、チルモーメントプロットに関連付けられたデータに基づく推奨音楽からプレイリストを作成することによって行うことができる。本開示のシステムおよび方法の実施態様には、ａ）チルモーメントプロットに関連するデータを使用して、アルツハイマー病患者または認知症患者に共鳴する音楽を選択する、ｂ）チルモーメントプロットに関連するデータを臨床環境における検査デバイスとして使用して、アルツハイマー病患者または認知症患者に最も共鳴する音楽を決定する、ｃ）チルモーメントプロットに関連するデータを使用して、ウェアラブルなヘルス／ウェルネス製品に音楽を統合する、ｄ）チルモーメントプロットに関連するデータを使用して、エクササイズ活動およびワークアウトのための音楽を選択する、ｅ）チルモーメントプロットに関連するデータを使用して、手術前の患者の不安を軽減するのを助ける、ｆ）疼痛、うつ、不安を治療するために医師がキュレーションされたプレイリストを処方し得るモバイルアプリケーションにおいて、チルモーメントプロットに関連するデータを使用する、ｇ）チルモーメントプロットに関連するデータを使用して、瞑想、ヨガ、他のリラクゼーション活動のための音楽を選択する、ｈ）チルモーメントプロットに関連するデータを使用して、疼痛、不安、うつを有する患者を助けること、が含まれる。

【0128】

コンピュータシステムおよびクラウドベースの実装
図１５は、本開示を構築、実行、訓練等することができるコンピュータシステム１５００の例示的な一実施形態のブロック図である。例えば、図１Ａ～図１４を参照すると、任意のモジュールまたはシステムは、本明細書に記載されるシステム１５００の例とすることができ、例えば、入力１２、客観的オーディオ処理メトリック１１１、１１２、検出アルゴリズム１３０、組み合わせアルゴリズム１４０、およびフレーズ検出アルゴリズム１５０、出力１９、および本明細書に記載される関連モジュールまたはルーチンの任意のものである。システム１５００は、プロセッサ１５１０、メモリ１５２０、ストレージデバイス１５３０、および入出力デバイス１５４０を含み得る。各構成要素１５１０、１５２０、１５３０、および１５４０は、例えばシステムバス１５５０を使用して、相互接続され得る。プロセッサ１５１０は、システム１５００内で実行される命令を処理することができる。プロセッサ１５１０は、シングルスレッドプロセッサ、マルチスレッドプロセッサ、または同様のデバイスであり得る。プロセッサ１５１０は、メモリ１５２０内またはストレージデバイス１５３０上に記憶された命令を処理することが可能であり得る。プロセッサ１５１０は、本開示に関連して説明されるいくつかの特徴のうち、ａ）オーディオ処理メトリックを実行する、ｂ）ＧＬＩＰｈを検出するために１つ以上のオーディオ処理メトリックの出力に閾値を適用する、ｃ）２つ以上のオーディオ処理メトリックの検出に基づいて組み合わせアルゴリズムを実行する、ｄ）組み合わせアルゴリズムの出力に対してフレーズ検出アルゴリズムを実行する、ｅ）本明細書に開示されるメトリックおよびアルゴリズムのいずれかからの出力データを記憶する、ｆ）デジタル音楽ファイルを受信する、ｇ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからデータを出力する、ｈ）フレーズ検出アルゴリズムに基づいてデジタルオーディオセグメントを生成および／または出力する、ｉ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータに対するユーザー要求を受信し、結果を出力する、ｊ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを視覚的に提示するために、モバイルデバイスなどのコンピュータシステムのディスプレイデバイスを操作する、などの動作を実行することができる。

【0129】

メモリ１５２０は、システム１５００内の情報を記憶することができる。いくつかの実施態様では、メモリ１５２０は、コンピュータ可読媒体とすることができる。メモリ１５２０は、例えば、揮発性メモリユニットまたは不揮発性メモリユニットであり得る。いくつかの実施態様において、メモリ１５２０は、客観的オーディオ処理メトリックおよび本明細書に開示される任意のアルゴリズムを実行するための情報関連機能を記憶することができる。メモリ１５２０はまた、デジタルオーディオデータ、ならびに客観的オーディオ処理メトリックおよび本明細書に開示される任意のアルゴリズムからの出力を記憶することができる。

【0130】

ストレージデバイス１５３０は、システム１５００に大容量記憶装置を提供することができる。いくつかの実施態様では、ストレージデバイス１５３０は、非一時的コンピュータ可読媒体であり得る。ストレージデバイス１５３０は、例えば、ハードディスクデバイス、光ディスクデバイス、ソリッドステートドライブ、フラッシュドライブ、磁気テープ、および／または何らかの他の大容量ストレージデバイスを含み得る。ストレージデバイス１５３０は、代替的に、クラウドストレージデバイス、例えば、ネットワーク上に分散され、ネットワークを使用してアクセスされる複数の物理的ストレージデバイスを含む論理ストレージデバイスであってもよい。いくつかの実施態様では、メモリ１５２０上に記憶された情報は、ストレージデバイス１５３０上にも、または代わりにストレージデバイス１５３０上に、記憶され得る。

【0131】

入出力デバイス１５４０は、システム１５００のための入出力動作を提供することができる。いくつかの実施態様では、入出力デバイス１５４０は、以下：ネットワークインターフェースデバイス（例えば、イーサネットカードもしくはＩｎｆｉｎｉｂａｎｄインターコネクト）、シリアル通信デバイス（例えば、ＲＳ－２３２１０ポート）、および／または無線インターフェースデバイス（例えば、短距離無線通信デバイス、８０２．７カード、３Ｇ無線モデム、４Ｇ無線モデム、５Ｇ無線モデム）のうちの１つ以上を含み得る。いくつかの実施態様では、入出力デバイス１５４０は、入力データを受信し、出力データを他の入出力デバイス、例えば、キーボード、プリンタ、および／またはディスプレイデバイスに送信するように構成されたドライバデバイスを含み得る。いくつかの実施態様では、モバイルコンピューティングデバイス、モバイル通信デバイス、および他のデバイスを使用することができる。

【0132】

いくつかの実施態様では、システム１５００はマイクロコントローラであり得る。マイクロコントローラは、コンピュータシステムの複数の要素を単一の電子機器パッケージ内に含むデバイスである。例えば、単一の電子機器パッケージは、プロセッサ１５１０、メモリ１５２０、ストレージデバイス１５３０、および／または入出力デバイス１５４０を含み得る。

【0133】

図１６は、本開示と共に使用するためのクラウドベースのコンピュータネットワーク１６１０の例示的な一実施形態のブロック図である。クラウドベースのコンピュータネットワーク１６１０は、デジタルストレージサービス１６１１および処理サービス１６１２を含むことができ、これらの各々は、１つ以上の物理的な場所に配置された１つ以上の個々のコンピュータ処理およびストレージデバイスによって提供されることができる。クラウドベースのコンピュータネットワーク１６１０は、インターネットまたは他のデジタル接続手段を介して、個々のコンピュータシステム１６２０（例えば、パーソナルコンピュータまたはモバイルデバイス）からだけでなく、個々のコンピュータシステム１６２０のネットワーク１６３０（例えば、音楽ストリーミングサービスを動作させるサーバ）からもデータを送受信する１６２１、１６３１ことができる。クラウドベースのコンピュータネットワーク１６１０は、本開示に関連して説明されるいくつかの特徴のうち、ａ）オーディオ処理メトリックを実行し、１つ以上のオーディオ処理メトリックの出力に閾値を適用してＧＬＩＰｈを検出し、ｂ）２つ以上のオーディオ処理メトリックの検出に基づいて組み合わせアルゴリズムを実行し、ｃ）組み合わせアルゴリズムの出力に基づいてフレーズ検出アルゴリズムを実行し、ｄ）本明細書に開示されるメトリックおよびアルゴリズムのいずれかからの出力データを記憶し、ｅ）デジタル音楽ファイルを受信し、ｆ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを出力し、ｇ）フレーズ検出アルゴリズムに基づいてデジタルオーディオセグメントを生成および／または出力し、ｈ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータに対するユーザー要求を受信し、結果を出力し、ｉ）本明細書に開示されたメトリックおよびアルゴリズムのいずれかからのデータを視覚的に提示するために、モバイルデバイスなどのコンピュータシステムのディスプレイデバイスを操作する、などの動作の実行を促進または完了することができる。

【0134】

例としての処理システムを上述してきたが、上述した主題および機能的動作の実施態様は、他のタイプのデジタル電子回路において、または、本明細書で開示する構造およびそれらの構造的等価物を含む、コンピュータソフトウェア、ファームウェア、もしくはハードウェアにおいて、またはそれらのうちの１つ以上の組み合わせにおいて、実装することができる。本明細書に記載される主題の実施態様は、１つ以上のコンピュータプログラム製品、すなわち、処理システムによる実行のため、または処理システムの動作を制御するために、有形プログラムキャリア、例えばコンピュータ可読媒体上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして、実装することができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝播信号をもたらす組成物、またはそれらのうちの１つ以上の組み合わせとすることができる。

【0135】

本開示の様々な実施形態は、任意の従来のコンピュータプログラミング言語で少なくとも部分的に実装され得る。例えば、いくつかの実施形態は、手続き型プログラミング言語（例えば、「Ｃ」もしくはＦｏｒＴｒａｎ９５）、またはオブジェクト指向プログラミング言語（例えば、「Ｃ＋＋」）で実装されてもよい。他の実施形態は、予め構成されたスタンドアロンのハードウェア要素として、および／または予めプログラムされたハードウェア要素（例えば、特定用途向け集積回路、ＦＰＧＡ、およびデジタル信号プロセッサ）、または他の関連構成要素として実装されてもよい。

【0136】

「コンピュータシステム」という用語は、非限定的な例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての装置、デバイス、および機械を包含し得る。処理システムは、ハードウェアに加えて、問題のコンピュータプログラムの実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つ以上の組み合わせを構成するコードを含むことができる。

【0137】

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、実行可能論理、またはコードとしても知られている）は、コンパイル言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む、あらゆる形式のプログラミング言語で記述することができ、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適した他のユニットとしてなど、あらゆる形式で配備することができる。コンピュータプログラムは、必ずしもファイルシステム内のファイルに対応するわけではない。プログラムは、他のプログラムもしくはデータ（例えば、マークアップ言語ドキュメントに格納された１つ以上のスクリプト）を保持するファイルの一部、問題のプログラム専用の単一のファイル、または複数の調整されたファイル（例えば、１つ以上のモジュール、サブプログラム、もしくはコードの一部を格納するファイル）に格納することができる。コンピュータプログラムは、１台のコンピュータ上で、または１つのサイトに配置されるか、もしくは、複数のサイトに分散され、通信ネットワークによって相互接続された複数のコンピュータ上で、実行されるように配備され得る。

【0138】

このような実施態様は、コンピュータ可読媒体などの有形の非一時的媒体のいずれかに固定された一連のコンピュータ命令を含むことができる。一連のコンピュータ命令は、本システムに関して本明細書で先に説明した機能性の全部または一部を具現化することができる。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性または揮発性メモリ、媒体およびメモリデバイスが含まれ、例として、半導体メモリデバイス、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス；磁気ディスク、例えば内蔵ハードディスクもしくはリムーバブルディスクもしくは磁気テープ；磁気光学ディスク；ならびにＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサとメモリは、特殊用途の論理回路によって補われるか、または特殊用途の論理回路に組み込まれ得る。システムの構成要素は、デジタルデータ通信の任意の形式または媒体、例えば通信ネットワークによって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）、例えばインターネットが挙げられる。

【0139】

当業者であれば、このようなコンピュータ命令は、多くのコンピュータアーキテクチャまたはオペレーティングシステムと共に使用するためにいくつかのプログラミング言語で書くことができることを理解すべきである。さらに、このような命令は、半導体、磁気、光学、または他のメモリデバイスなどの任意のメモリデバイスに格納することができ、光学、赤外線、マイクロ波、または他の伝送技術などの任意の通信技術を使用して伝送することができる。

【0140】

いくつかある方法の中でも、このようなコンピュータプログラム製品は、付属の印刷または電子文書（例えば、シュリンクラップソフトウェア）を伴うリムーバブル媒体として配布されるか、コンピュータシステムに（例えば、システムＲＯＭもしくは固定ディスクに）プリロードされるか、またはネットワーク（例えば、インターネットもしくはワールドワイドウェブ）を介してサーバもしくは電子掲示板から配布される。実際、いくつかの実施形態は、ソフトウェア・アズ・ア・サービス・モデル（「ＳＡＡＳ」）またはクラウドコンピューティングモデルで実施することができる。もちろん、本開示のいくつかの実施形態は、ソフトウェア（例えば、コンピュータプログラム製品）とハードウェアの両方の組み合わせとして実装されてもよい。本開示のさらに他の実施形態は、完全にハードウェアとして、または完全にソフトウェアとして実装される。

【0141】

当業者であれば、提供された説明および実施形態に基づいて、本開示のさらなる特徴および利点を理解するであろう。したがって、本発明は、特に示され説明されたものによって限定されるものではない。例えば、本開示は、デジタルオーディオデータを処理して、曲中のインパクトのある瞬間およびフレーズを識別することを提供するが、本開示は、スピーチまたは環境ノイズなどの他のタイプのオーディオデータにも適用して、それらの音響特性、および人間の聞き手から身体的反応を引き出す能力を評価することもできる。本明細書で引用したすべての刊行物および参考文献は、参照によりその全体が本明細書に明示的に組み込まれる。

【0142】

上述の実施形態の実施例は、以下を含み得る：
１．音楽中のセグメントを識別するコンピュータ実装方法であって：プロセッサによって操作される入力を介して、デジタル音楽データを受信することと；プロセッサを使用して、第１の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第１の出力を生成することと；プロセッサを使用して、第２の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、第２の出力を生成することと；プロセッサを使用して、第１の検出基準が満たされる第１の出力中の領域に基づいて、第１の検出ルーチンを使用して第１の複数の検出セグメントを生成することと；プロセッサを使用して、第２の検出基準が満たされる第２の出力中の領域に基づいて、第２の検出ルーチンを使用して第２の複数の検出セグメントを生成することと；プロセッサを使用して、第１の複数の検出セグメントと第２の複数の検出セグメントとを組み合わせて、第１および第２の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、第１および第２の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。
２．所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット中の領域を識別することと；識別された領域の表示を出力することと、を含む、実施例１に記載の方法。
３．組み合わせることは、単一のプロットの移動平均を計算することを含む、実施例１または実施例２に記載の方法。
４．移動平均が上限を超える単一のプロット中の領域を識別することと；識別された領域の表示を出力することと、を含む、実施例３に記載の方法。
５．第１および第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、実施例１から４のいずれかに記載の方法。
６．第１および第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、実施例１から５のいずれかに記載の方法。
７．第１または第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、実施例１から６のいずれかに記載の方法。
８．第１または第２の検出基準は、上方または下方境界閾値を含む、実施例１から７のいずれかに記載の方法。
９．検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、実施例１から８のいずれかに記載の方法。
１０．組み合わせることは、第１および第２の複数の検出にそれぞれの重みを適用することを含む、実施例１から９のいずれかに記載の方法。
１１．コンピュータシステムであって：デジタル音楽データを受信するように構成された入力モジュールと；デジタル音楽データを受信し、デジタル音楽データに対して第１の客観的オーディオ処理メトリックを実行し、デジタル音楽データに対して第２の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、第１および第２のメトリックは、それぞれの第１および第２の出力を生成する、オーディオ処理モジュールと；第１および第２の出力を入力として受信し、第１および第２の出力のそれぞれについて、検出基準が満たされる１つ以上のセグメントのセットを生成するように構成された検出モジュールと；検出モジュールによって検出された１つ以上のセグメントを入力として受信し、各セグメントを検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。
１２．組み合わせモジュールから一致の単一のデータセットを入力として受信し、単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、実施例１１に記載のコンピュータシステム。
１３．フレーズ識別モジュールは、単一のデータセットの移動平均が上限を超える場所に基づいて、１つ以上の領域を識別するように構成されている、実施例１２に記載のコンピュータシステム。
１４．フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、実施例１２または２３に記載のコンピュータシステム。
１５．組み合わせモジュールは、単一のプロットの移動平均を計算するように構成されている、実施例１１から１４のいずれかに記載のコンピュータシステム。
１６．第１および第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、実施例１１から１５のいずれかに記載のコンピュータシステム。
１７．第１および第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施例１１から１６のいずれかに記載のコンピュータシステム。
１８．検出モジュールは、第１または第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、実施例１１から１７のいずれかに記載のコンピュータシステム。
１９．検出基準は、上方または下方境界閾値を含む、実施例１１から１８のいずれかに記載のコンピュータシステム。
２０．検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、実施例１１から１のいずれかに記載のコンピュータシステム。
２１．組み合わせモジュールは、第１および第２の複数の検出にそれぞれの重みを適用してから、それぞれの重みに基づいて各検出セグメントを集約するように構成されている、実施例１１から２０のいずれかに記載のコンピュータシステム。
２２．コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、コンピュータ可読プログラムコードは、プロセッサに：デジタル音楽データを受信することと；第１の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して、第１の出力を生成することと；第２の客観的オーディオ処理メトリックを用いてデジタル音楽データを処理して、第２の出力を生成することと；第１の検出基準が満たされる第１の出力中の領域に基づいて、第１の検出ルーチンを用いて第１の複数の検出セグメントを生成することと；第２の検出基準が満たされる第２の出力中の領域に基づいて、第２の検出ルーチンを用いて第２の複数の検出セグメントを生成することと；第１および第２の複数の検出セグメントにおける検出セグメントの一致に基づいて、第１の複数の検出セグメントと第２の複数の検出セグメントとを組み合わせて単一のプロットにすることと、を指示するように構成されたコードを含み、第１および第２の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。
２３．第１および第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施例２２に記載のコンピュータプログラム製品。
２４．所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のプロット内の領域を識別し；識別された領域の表示を出力する、命令を含む、実施例２２または２３に記載のコンピュータプログラム製品。
２５．単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別する命令を含む、実施例２２から２４のいずれかに記載のコンピュータプログラム製品。
２６．単一のプロットの移動平均を計算する命令を含む、実施例２２から２５のいずれかに記載のコンピュータプログラム製品
２７．第１または第２の検出基準は、上方または下方境界閾値を含む、実施例２２から２６のいずれかに記載のコンピュータプログラム製品。
２８．所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、実施例２２から２７のいずれかに記載のコンピュータプログラム製品。
２９．人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって：プロセッサによって操作される入力を介して、デジタル音楽データを受信することと；プロセッサを使用して、２つ以上の客観的オーディオ処理メトリックを使用してデジタル音楽データを処理して、それぞれの２つ以上の出力を生成することと；プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、２つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと；プロセッサを使用して、複数の検出セグメントにおける一致に基づいて、２つ以上の出力のそれぞれにおける複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、第１および第２の客観的オーディオ処理メトリックは：ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。
３０．プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む単一のチルモーメントプロットにおける１つ以上の領域を識別することと；プロセッサを用いて、識別された１つ以上の領域の表示を出力することとを含む、実施例２９に記載の方法。
３１．ディスプレイデバイスを介して、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示を表示することを含む、実施例２９または３０に記載の方法。
３２．ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データの長さに関する単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、実施例２９から３２のいずれかに記載の方法。
３３．単一のチルモーメントプロットの値の視覚的表示は、単一のチルモーメントプロットの値の移動平均の曲線を含む、実施例３２に記載の方法。
３４．所定の最小長さの時間要件の間に最も多くの数の一致を含む単一のチルモーメントプロット内の領域を識別することと；識別された領域の表示を出力することと、を含む、実施例２９から３３のいずれかに記載の方法。
３５．出力することは、ディスプレイデバイスを介して、識別された領域の視覚的表示を表示することを含む、実施例３３に記載の方法。
３６．出力することは、ディスプレイデバイスを介して、デジタル音楽データの長さに関するデジタル音楽データの視覚的表示を、デジタル音楽データ内の識別された領域の視覚的表示と重ねて表示することを含む、実施例３３に記載の方法。
３７．音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって：プロセッサによって操作される入力を介して、デジタルオーディオ録音におけるインパクトのある瞬間に関連する情報の要求を受信することであって、この要求は、デジタルオーディオ録音の表示を含む、ことと；プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、対応するセットは：チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと；プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの１つの識別にマッチングさせることであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと；プロセッサを使用して、データベース内の複数の識別のうちのマッチングされた識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。
３８．異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例１の方法を使用して生成された、異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、実施例３７に記載の方法。
３９．異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットは、異なるデジタルオーディオ録音の各々について実施例２９の方法を用いて生成された、異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、実施例３７に記載の方法。単一のプロット
４０．音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって：プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと；プロセッサによって操作される通信インターフェースを介して、デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、情報は：チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと；プロセッサを使用して、デジタルオーディオ録音の受信された識別をデータベース内の複数の識別のうちの１つの識別に表示することであって、マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと；ディスプレイデバイスを使用して、デジタルオーディオ録音の時間の長さに関するデジタルオーディオ録音の視覚的表示を、チルフレーズの視覚的表示および／またはデジタルオーディオ録音の時間の長さに関するチルモーメントプロットの値と重ねて出力することと、を含む、コンピュータ実装方法。

【0143】

〔実施の態様〕
（１）音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、第１の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第１の出力を生成することと、
プロセッサを使用して、第２の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、第２の出力を生成することと、
プロセッサを使用して、第１の検出基準が満たされる前記第１の出力中の領域に基づいて、第１の検出ルーチンを使用して第１の複数の検出セグメントを生成することと、
プロセッサを使用して、第２の検出基準が満たされる前記第２の出力中の領域に基づいて、第２の検出ルーチンを使用して第２の複数の検出セグメントを生成することと、
プロセッサを使用して、前記第１の複数の検出セグメントと前記第２の複数の検出セグメントとを組み合わせて、前記第１の複数の検出セグメントおよび前記第２の複数の検出セグメントにおける検出セグメントの一致を表す単一のプロットにすることと、を含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは異なる、コンピュータ実装方法。
（２）所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様１に記載の方法。
（３）組み合わせることは、前記単一のプロットの移動平均を計算することを含む、実施態様１に記載の方法。
（４）前記移動平均が上限を超える前記単一のプロット中の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様３に記載の方法。
（５）前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、実施態様１に記載の方法。

【0144】

（６）前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、実施態様１に記載の方法。
（７）前記第１の客観的オーディオ処理メトリックまたは前記第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用することをさらに含む、実施態様１に記載の方法。
（８）前記第１の検出基準または前記第２の検出基準は、上方または下方境界閾値を含む、実施態様１に記載の方法。
（９）検出することは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用することを含む、実施態様１に記載の方法。
（１０）組み合わせることは、第１の複数の検出および第２の複数の検出にそれぞれの重みを適用することを含む、実施態様１に記載の方法。

【0145】

（１１）コンピュータシステムであって、
デジタル音楽データを受信するように構成された入力モジュールと、
前記デジタル音楽データを受信し、前記デジタル音楽データに対して第１の客観的オーディオ処理メトリックを実行し、前記デジタル音楽データに対して第２の客観的オーディオ処理メトリックを実行するように構成されたオーディオ処理モジュールであって、前記第１のメトリックおよび前記第２のメトリックは、それぞれの第１の出力および第２の出力を生成する、オーディオ処理モジュールと、
前記第１の出力および前記第２の出力を入力として受信し、前記第１の出力および前記第２の出力のそれぞれについて、検出基準が満たされる１つ以上のセグメントのセットを生成するように構成された検出モジュールと、
前記検出モジュールによって検出された前記１つ以上のセグメントを入力として受信し、各セグメントを前記検出の一致を含む単一のデータセットに集約するように構成された組み合わせモジュールと、を含む、コンピュータシステム。
（１２）前記組み合わせモジュールから一致の前記単一のデータセットを入力として受信し、前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別するように構成されたフレーズ識別モジュールを含む、実施態様１１に記載のコンピュータシステム。
（１３）前記フレーズ識別モジュールは、前記単一のデータセットの移動平均が上限を超える場所に基づいて、前記１つ以上の領域を識別するように構成されている、実施態様１２に記載のコンピュータシステム。
（１４）前記フレーズ識別モジュールは、所望の長さ範囲外の領域を除去するために、長さ要件フィルタを適用するように構成されている、実施態様１２に記載のコンピュータシステム。
（１５）前記組み合わせモジュールは、前記単一のプロットの移動平均を計算するように構成されている、実施態様１１に記載のコンピュータシステム。

【0146】

（１６）前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックの一方または両方は、一次アルゴリズムであり、かつ／または一次データを出力するように構成されている、実施態様１１に記載のコンピュータシステム。
（１７）前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施態様１１に記載のコンピュータシステム。
（１８）前記検出モジュールは、前記第１の客観的オーディオ処理メトリックまたは前記第２の客観的オーディオ処理メトリックのいずれかの出力にローパスエンベロープを適用するように構成されている、実施態様１１に記載のコンピュータシステム。
（１９）前記検出基準は、上方または下方境界閾値を含む、実施態様１１に記載のコンピュータシステム。
（２０）前記検出モジュールは、所望の長さ範囲外の検出セグメントを除去するために、長さ要件フィルタを適用するように構成されている、実施態様１１に記載のコンピュータシステム。

【0147】

（２１）前記組み合わせモジュールは、前記第１の複数の検出および前記第２の複数の検出にそれぞれの重みを適用してから、前記それぞれの重みに基づいて各検出セグメントを集約するように構成されている、実施態様１１に記載のコンピュータシステム。
（２２）コンピュータプログラム製品であって、コンピュータ可読プログラムコードを有する有形で非一時的なコンピュータ使用可能媒体を含み、前記コンピュータ可読プログラムコードは、プロセッサに、
デジタル音楽データを受信することと、
第１の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第１の出力を生成することと、
第２の客観的オーディオ処理メトリックを用いて前記デジタル音楽データを処理して、第２の出力を生成することと、
第１の検出基準が満たされる前記第１の出力中の領域に基づいて、第１の検出ルーチンを用いて第１の複数の検出セグメントを生成することと、
第２の検出基準が満たされる前記第２の出力中の領域に基づいて、第２の検出ルーチンを用いて第２の複数の検出セグメントを生成することと、
前記第１の複数の検出セグメントおよび前記第２の複数の検出セグメントにおける検出セグメントの一致に基づいて、前記第１の複数の検出セグメントと前記第２の複数の検出セグメントとを組み合わせて単一のプロットにすることと、
を指示するように構成されたコードを含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは異なる、コンピュータプログラム製品。
（２３）前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択されている、実施態様２２に記載のコンピュータプログラム製品。
（２４）所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のプロット内の領域を識別し、識別された前記領域の表示を出力する、命令を含む、実施態様２２に記載のコンピュータプログラム製品。
（２５）前記単一のデータセットの最高平均値が所定の最小長さの時間中に発生する１つ以上の領域を識別する命令を含む、実施態様２２に記載のコンピュータプログラム製品。

【0148】

（２６）前記単一のプロットの移動平均を計算する命令を含む、実施態様２２に記載のコンピュータプログラム製品。
（２７）前記第１の検出基準または前記第２の検出基準は、上方または下方境界閾値を含む、実施態様２２に記載のコンピュータプログラム製品。
（２８）所望の長さ範囲外の検出セグメントを除去するために、フィルタに長さ要件を適用する命令を含む、実施態様２２に記載のコンピュータプログラム製品。
（２９）人間の聞き手に自律神経系の心理的反応を引き起こすのに適した特性を有する音楽中のセグメントを識別するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタル音楽データを受信することと、
プロセッサを使用して、２つ以上の客観的オーディオ処理メトリックを使用して前記デジタル音楽データを処理して、それぞれの２つ以上の出力を生成することと、
プロセッサを介して、それぞれの検出基準が満たされる領域に基づいて、前記２つ以上の出力のそれぞれにおける複数の検出セグメントを検出することと、
プロセッサを使用して、前記複数の検出セグメントにおける一致に基づいて、前記２つ以上の出力のそれぞれにおける前記複数の検出セグメントを組み合わせて単一のチルモーメントプロットにすることと、を含み、
前記第１の客観的オーディオ処理メトリックおよび前記第２の客観的オーディオ処理メトリックは、ラウドネス、ラウドネス帯域比率、臨界帯域ラウドネス、優勢ピッチメロディア、スペクトルフラックス、スペクトルセントロイド、非調和性、不協和音、急激なデュナーミクの増加、持続ピッチ、高調波ピーク比、またはキー変化からなる群から選択される、コンピュータ実装方法。
（３０）プロセッサを用いて、最小長さ要件中に最も多くの数の一致を含む前記単一のチルモーメントプロットにおける１つ以上の領域を識別することと、
プロセッサを用いて、識別された前記１つ以上の領域の表示を出力することと、を含む、実施態様２９に記載の方法。

【0149】

（３１）ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記単一のチルモーメントプロットの値の視覚的表示を表示することを含む、実施態様２９に記載の方法。
（３２）ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データの前記長さに関する前記単一のチルモーメントプロットの値の視覚的表示と重ねて表示することを含む、実施態様２９に記載の方法。
（３３）前記単一のチルモーメントプロットの値の前記視覚的表示は、前記単一のチルモーメントプロットの前記値の移動平均の曲線を含む、実施態様３２に記載の方法。
（３４）所定の最小長さの時間要件の間に最も多くの数の一致を含む前記単一のチルモーメントプロット内の領域を識別することと、
識別された前記領域の表示を出力することと、を含む、実施態様２９に記載の方法。
（３５）前記出力することは、ディスプレイデバイスを介して、識別された前記領域の視覚的表示を表示することを含む、実施態様３３に記載の方法。

【0150】

（３６）前記出力することは、ディスプレイデバイスを介して、前記デジタル音楽データの長さに関する前記デジタル音楽データの視覚的表示を、前記デジタル音楽データ内の識別された前記領域の視覚的表示と重ねて表示することを含む、実施態様３３に記載の方法。
（３７）音楽におけるインパクトのある瞬間を識別する情報を提供するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音における前記インパクトのある瞬間に関連する情報の要求を受信することであって、前記要求は、前記デジタルオーディオ録音の表示を含む、ことと、
プロセッサを使用して、異なるデジタルオーディオ録音の複数の識別と、前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の対応するセットとを記憶するデータベースにアクセスすることであって、前記対応するセットは、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの１つの識別にマッチングさせることであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
プロセッサを使用して、前記データベース内の前記複数の識別のうちのマッチングされた前記識別のインパクトのある瞬間を識別する情報のセットを出力することと、を含む、コンピュータ実装方法。
（３８）前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について実施態様１に記載の方法を使用して生成された、前記異なるデジタルオーディオ録音の各々についての検出一致の単一のプロットを使用して作成された情報を含む、実施態様３７に記載の方法。
（３９）前記異なるデジタルオーディオ録音の各々におけるインパクトのある瞬間を識別する情報の前記対応するセットは、前記異なるデジタルオーディオ録音の各々について実施態様２９に記載の方法を用いて生成された、前記異なるデジタルオーディオ録音の各々について単一のチルモーメントプロットを用いて作成された情報を含む、実施態様３７に記載の方法。単一のプロット。
（４０）音楽におけるインパクトのある瞬間を識別する情報を表示するコンピュータ実装方法であって、
プロセッサによって操作される入力を介して、デジタルオーディオ録音の表示を受信することと、
プロセッサによって操作される通信インターフェースを介して、前記デジタルオーディオ録音におけるインパクトのある瞬間を識別する情報を受信することであって、前記情報は、チルフレーズの開始時間および停止時間、またはチルモーメントプロットの値のうちの少なくとも１つを含む、ことと、
プロセッサを使用して、前記デジタルオーディオ録音の受信された識別を前記データベース内の前記複数の識別のうちの１つの識別に表示することであって、前記マッチングさせることは、完全一致または最も近い一致を見つけることを含む、ことと、
ディスプレイデバイスを使用して、前記デジタルオーディオ録音の時間の長さに関する前記デジタルオーディオ録音の視覚的表示を、前記チルフレーズの視覚的表示および／または前記デジタルオーディオ録音の前記時間の長さに関する前記チルモーメントプロットの前記値と重ねて出力することと、を含む、コンピュータ実装方法。

【図1A】