(58)【調査した分野】(Int.Cl.,DB名)
前記セマンティック・コマンド・インタプリタ(30;35)は、前記セマンティック・ミキシング・コマンドの範囲内において、セマンティックの表現を識別するための語彙データベース(31)を含む、請求項1に記載のオーディオミキサー。
前記複数のオーディオ・トラックの中のターゲット・オーディオ・トラックを識別するためのオーディオ・トラック識別器(40;430)をさらに含み、前記ターゲット・オーディオ・トラックは、オーディオ・トラック識別表現によって前記セマンティック・ミキシング・コマンドの範囲内において表示される、請求項1または請求項2に記載のオーディオミキサー。
前記複数のオーディオ・トラックの範囲内において、ターゲット時間セクションを識別するための時間セクション識別器(40;460)をさらに含み、前記ターゲット時間セクションは、時間セクション識別表現によって、前記セマンティック・ミキシング・コマンドの範囲内において表示される、請求項1ないし請求項4のいずれかに記載のオーディオミキサー。
前記時間セクション識別器(40;460)は、前記複数の時間セクションに前記複数のオーディオ・トラックを構築するように構成される、請求項5に記載のオーディオミキサー。
前記時間セクション識別器(40;460)は、前記複数のオーディオ・トラックによって表現されるオーディオ信号の固有性の変化が発生した時点における少なくとも1つの時刻を決定し、そして、2つの隣り合った時間セクションの間における少なくとも1つの境界として前記少なくとも1つの決定した時刻を使用するために、前記複数のオーディオ・トラックの分析を実行するために構成される、請求項5または請求項6に記載のオーディオミキサー。
前記複数のオーディオ・トラックに関連するメタデータ(12)を受信するためのメタデータ・インタフェース(42:480)をさらに含み、前記メタデータ(12)は、トラック名、トラック識別子、時間構造情報、強度情報、オーディオ・トラックの空間属性もしくはその一部、音質の特徴およびリズム特徴のうちの少なくとも1つを示す、請求項1ないし請求項7のいずれかに記載のオーディオミキサー。
言語フォーマットにおいて前記セマンティック・ミキシング・コマンドを受信するためのコマンドインタフェースをさらに含む、請求項1ないし請求項8のいずれかに記載のオーディオミキサー。
見本となる混合信号が、どの程度混合されるかに関連するユーザの選択に従って、前記見本となる混合信号として他の混合信号を受信するための見本インタフェース(23;490)と、
前記見本となる混合信号を分析し、前記見本となる混合信号の前記分析に基づき前記セマンティック・ミキシング・コマンドを生成するための混合信号分析器(492)と、
をさらに含む、請求項1ないし請求項9のいずれかに記載のオーディオミキサー。
前記セマンティック・コマンド・インタプリタ(30;35)は、前記混合信号の聴覚関連の特性の知覚モデル(64)に従って、前記セマンティック・ミキシング・コマンドを前記複数のミキシング・パラメータに変換するための知覚プロセッサ(63)を含む、請求項1ないし請求項10のいずれかに記載のオーディオミキサー。
前記セマンティック・コマンド・インタプリタ(30;35)は、前記セマンティック・コマンド・インタプリタによって前記セマンティック・ミキシング・コマンドから導出される少なくとも1つのファジールールを受信し、前記少なくとも1つのファジールールに基づいて前記複数のミキシング・パラメータを生成するためのファジー理論プロセッサを含む、請求項1ないし請求項11のいずれかに記載のオーディオミキサー。
前記ファジー理論プロセッサは、前記セマンティック・コマンド・インタプリタによって準備される少なくとも2つの同時に発生するファジールールを受信するように構成され、前記オーディオミキサーは、前記少なくとも2つの同時に発生するファジールールの中の1つの同時に発生するファジールールを選択するためのランダム選択器をさらに含む、請求項12に記載のオーディオミキサー。
【発明の概要】
【発明が解決しようとする課題】
【0016】
本願明細書において開示される教示は、この一般的な目的について述べる。その教示は、音声信号処理、特に、リスニングの(最終的な)目的のための一組のユーザ定義の記録基準に従って、マルチトラックをミキシングするタスクに関連がある。本願明細書において開示される教示に従って、オーディオミキサーおよび混合信号に複数のオーディオ・トラックを混合するための方法は、素人の実施的な美的考えおよび結果として得る混合信号の関係を定める。
【0017】
これらの目的および/または可能なほかの目的のうちの少なくとも1つは、請求項1または請求項16に記載のオーディオミキサー、請求項14または請求項17に記載の複数のオーディオ・トラックを混合するための方法、および請求項15または請求項18に記載のコンピュータ・プログラムによって達成される。
【課題を解決するための手段】
【0018】
本願明細書において開示される教示によれば、混合信号に複数のオーディオ・トラックを混合するためのオーディオミキサーは、セマンティック・コマンド・インタプリタ、オーディオ・トラック・プロセッサおよびオーディオ・トラック・コンバイナを含む。セマンティック・コマンド・インタプリタは、セマンティック・ミキシング・コマンドを受信し、そして、セマンティック・ミキシング・コマンドから複数のオーディオ・トラックのための複数のミキシング・パラメータを導出するために構成される。オーディオ・トラック・プロセッサは、複数のミキシング・パラメータに従って、複数のオーディオ・トラックを処理するために構成される。オーディオ・トラック・コンバイナは、オーディオ・トラック・プロセッサによって処理される複数のオーディオ・トラックを結合して混合信号を得るために構成される。
【0019】
開示された教示にかかる混合信号に複数のオーディオ・トラックを混合する方法は、セマンティック・ミキシング・コマンドを受信するステップと、セマンティック・ミキシング・コマンドから複数のオーディオ・トラックのための複数のミキシング・パラメータを導出するステップと、複数のミキシング・パラメータに従って、複数のオーディオ・トラックを処理するステップと、混合信号を形成するために、複数のオーディオ・トラックの処理から結果として得る複数のオーディオ・トラックを結合するステップと、を含む。
【0020】
コンピュータ・プログラムは、複数のオーディオ・トラックを混合するための方法を実行するためのコンピュータまたはプロセッサを有効にするための命令を含むか、または表す。コンピュータ・プログラムは、請求項14に列挙されるような方法をコンピュータに実行させる場合、実行するための格納されたその上に前記コンピュータ・プログラムを有するコンピュータに読み込み可能な媒体に具体化されうる。
【0021】
セマンティック・ミキシング・コマンドは、所望の結果として得る混合信号のセマンティックな記述を提供するユーザ定義の基準に基づきうる。本願明細書において開示される教示によれば、セマンティック・オーディオ分析、心理音響および音声信号処理は、セマンティックな記述に基づき、自動的に混合信号を導出するために、お互いに組み入れられうる。この処理は、「セマンティック・ミキシング」と称されうる。
【0022】
セマンティック・ミキシングは、ユーザにより与えられる仕様に従って記録するマルチトラックを混合するためのコンピュータを有効にする方法として考慮する。仕様は、一般的には、セマンティックな記述の形式で与えられる。このセマンティックな記述を与えられて、ミキシング・パラメータは、単一のトラックおよび人間の聴覚の特性を考慮することによって決定されうる。
【0023】
一般的に、このように本願明細書において開示される教示にかかるオーディオミキサーは、コンピュータもしくはプロセッサ、またはそれが、コンピュータ/プロセッサと相互に作用する。オーディオ・トラック・プロセッサおよびオーディオ・トラック・コンバイナは、単一ユニットとして結合されうる。
【0024】
セマンティック・ミキシング・コマンドからの複数のミキシング・パラメータの導出は、セマンティック・ミキシング・コマンド、またはその一部の意味を分析することを含みうる。セマンティック・ミキシング・コマンドの一部は、たとえば、語または一群の語のようなセマンティックの表現でありうる。そして、セマンティックの表現は、複数のオーディオ・トラックのための一組の特定のミキシング・パラメータに変換されうる。このように、セマンティック・ミキシング・コマンドは、セマンティック・ミキシング・コマンドの意味に対応する特定のミキシング・パラメータによって実施される。セマンティック・ミキシング・コマンドのトランスレートおよび/またはセマンティックの表現を構成しているそれの作用は、たとえば、トランスレート関数の評価またはルックアップテーブルの問い合わせを含みうる。トランスレート関数またはルックアップテーブルにおけるデータ・レコードは、一般的に、予め定義されており、たとえば、経験されるミキシング・エンジニアの専門知識の一群を表す。専門知識は、ミキシング・エンジニアによって実行される設定と同様に、彼または彼女のミキシング・エンジニアにアーティストまたは音楽制作者によって与えられる口頭の指示を記録することによって、時間とともに得られうる。このように、トランスレート関数および/またはルックアップテーブルは、専門のミキシング・エンジニアによってトレーニングされうる。
【0025】
本願明細書において開示される教示の実施の形態によれば、セマンティック・コマンド・インタプリタは、セマンティック・ミキシング・コマンドの範囲内において、セマンティックの表現を識別するための語彙データベースを含みうる。語彙データベースによって、セマンティック・コマンド・インタプリタは、たとえば、同義語を確認することができる。さらに、特定の値までセマンティック・ミキシング・コマンドに含まれる語または一群の語をマップすることを可能にしうる。たとえば、楽器(「ギター」)を確認するための語は、特有のチャンネル番号または識別子にマップされうる。そこに、楽器は記録されている。語彙データベースは、音楽の一部の特定の部分、たとえば、始め(たとえば、「イントロ」)、コーラス(「コーラス」)または最後(たとえば、「コーダ」または「終奏」)を確認するエントリをさらに含みうる。語彙データベースのさらに他の可能性は、表されるミキシング・パラメータまたはスタイル、たとえば、「大きな音」、「ソフト」、「明瞭」、「包まれた音」、「遠い」等を、セマンティックに認識し、割り当てる。
【0026】
本願明細書において開示される教示の実施の形態において、オーディオミキサーは、複数のオーディオ・トラックの中のターゲット・オーディオ・トラックを識別するためのオーディオ・トラック識別器をさらに含みうる。ターゲット・オーディオ・トラックは、オーディオ・トラック識別表現によってセマンティック・ミキシング・コマンドの範囲内において表示されうる。複数のオーディオ・トラックが、それらがどの部分または基語を含むかについて明確にマークされないか、または確認されない場合、オーディオ・トラック識別器は役立ちうる。たとえば、オーディオ・トラックは、「トラック1」,「トラック2」,・・・「トラックN」として単純に番号がつけられうる。オーディオ・トラック識別器は、トラック識別表現によって確認されるオーディオ・トラックにマッチするように見える、全くないか、1またはいくつかのオーディオ・トラックのいずれかを決定するための複数のオーディオ・トラックのそれぞれを分析しうる。
【0027】
オーディオ・トラック識別器は、オーディオ・トラック・テンプレート・データベースからオーディオ・トラック識別表現に対応するデータ・レコードを取り出し、複数のオーディオ・トラックの中の少なくとも1つのオーディオ・トラックのトラック名、トラック識別子、音質、リズム構造、周波数帯域、サンプリング音および調和密度のうちの少なくとも1つの分析を実行し、少なくとも1つのマッチングスコアを結果として得るデータ・レコードを有する分析の結果を比較し、少なくとも1つのオーディオ・トラックおよびデータ・レコードの間の少なくとも1つのマッチングスコアに基づくターゲット・オーディオ・トラックを決定するために構成されうる。オーディオ・トラック識別器によって実行されるタスクは、複数のオーディオ・トラックの中のターゲット・オーディオ・トラックを確認することである。ターゲット・オーディオ・トラックは、オーディオ・トラック識別子に対応する、すなわち、オーディオ・トラック識別子がオーディオ・トラック識別器によって成功した識別子に続く「ギター」である場合、ターゲット・オーディオ・トラックは、一般的に、音楽作品のギター・パートを含む。オーディオ・トラック・テンプレート・データベースは、楽器「ギター」に対応するデータ・レコードを含み、データ・レコード自身は、ギターに対する特徴である値および/または情報を含む。たとえば、データ・レコードは、一般的なギター音の周波数モデルおよび/または一般的なギター音のアタック・ディケイ・モデル(attack−decay model)を含む。データ・レコードは、オーディオ・トラック識別器によって類似性分析のために使用されうる。
【0028】
本願明細書において開示される教示の実施の形態によれば、オーディオミキサーは、複数のオーディオ・トラックの範囲内において、ターゲット時間セクションを識別するための時間セクション識別器をさらに含み、ターゲット時間セクションは、時間セクション識別表現によって、セマンティック・ミキシング・コマンドの範囲内において表示される。ユーザが、オーディオ信号の第2のセクションとは異なるそのオーディオ信号(たとえば、音楽作品)の第1のセクションを混合したい場合に備えて、オーディオミキサーは、一般的に、これらのオーディオ信号のセクションに特定のミキシング・パラメータを適用するために、様々なオーディオ信号のセクションが開始し、終了することを知られることを必要とする。
【0029】
時間セクション識別器は、複数のオーディオ・トラックを複数の時間セクションに構築するように構成される。特に、音楽作品は、しばしば、音楽の慣例、たとえば、バースおよびコーラスの交互のセクションを有する曲形式によって影響される特定の構造を有する。この知見は、最初に、複数のオーディオ・トラックによって表されるオーディオ信号が、特定の音楽の構造に従うかどうかを決定することによって、時間セクション識別器によって利用され、音楽の構造の時間セクションにオーディオ信号の時間セクションを割り当てるために利用される。この目的で、時間セクション識別器は、オーディオ信号の範囲内における繰り返しおよび/または類似の間ターンを認識するパターン・レコグナイザを含みうる。少し例を挙げれば、パターン認識は、メロディ分析、調和解析、およびリズム解析に基づきうる。
【0030】
時間セクション識別器は、複数のオーディオ・トラックによって表されるオーディオ信号の固有性の変化が発生する、少なくとも1つの時刻を決定するために、および2つの隣り合った時間セクションの間における少なくとも1つの境界として少なくとも1つの決定した時刻を使用するために、複数のオーディオ・トラックの分析を実行するために構成される。
【0031】
オーディオミキサーは、複数のオーディオ・トラックに関連するメタデータを受信するためのメタデータ・インタフェースをさらに含み、メタデータは、トラック名、トラック識別子、時間構造情報、強度情報、オーディオ・トラックの空間属性もしくはその一部、音質の特徴、およびリズム特徴のうちの少なくとも1つを示す。メタデータは、複数のオーディオ・トラックの製作者によって生成することができ、オーディオミキサー、または複数のオーディオ・トラックを混合するための方法のための有益な情報を提供しうる。メタデータの可能性は、様々なオーディオ・トラックおよび/または時間セクションを確認するために、オーディオ信号の広範囲な分析を実行しなければならないことから、オーディオミキサーまたは方法を確保する。メタデータ・インタフェースが、将来の再利用のための分析結果(楽器、時間構造・・・)を格納するために使用されうる。このように、複数のオーディオ・トラックの潜在的に冗長な分析は、一度だけ実行する必要がある。さらに、ユーザが何度も同じ問題を修正する必要がないように、自動的に決定された分析結果に対してする如何なる手動修正も格納されうる。手元に格納された分析結果を有しており、ユーザは、異なるミックスバージョンを同じメタデータを使用している同じ複数のオーディオ・トラックから作り出すことができる。
【0032】
本願明細書において開示される教示の実施の形態によれば、言語フォーマットにおいてセマンティック・ミキシング・コマンドを受信するためのコマンドインタフェースをさらに含む。言語フォーマットは、ユーザが通常の言語によって実質的にオーディオミキサーによって実行されるミキシングの結果に関して彼/彼女の要求を表明することができる。言語フォーマットにおけるセマンティック・ミキシング・コマンドは、マイクロホンを使用している話し言葉、または、たとえばキーボードを使用して言語として、オーディオミキサーに入力されうる。
【0033】
本願明細書において開示される教示の別の実施の形態では、典型的な混合信号を受信するための見本インタフェースと、典型的な混合信号を分析するためおよび見本となる混合信号の分析に基づきセマンティック・ミキシング・コマンドを生成するための混合信号分析器を含む。見本インタフェースを介して提供される見本となる混合信号を使用して、混合信号分析器は、どの特徴が見本となる混合信号を特徴づけるかについて決定しうる。たとえば、混合信号分析器は、(強く反復的な)ドラム・パートおよびベース・パートの強調を認識することができ、一方、メロディは、より強調されない。これらの検出特徴は、いわゆるダンス−ミックス(すなわち、ミキシングの特定のスタイル)を示唆する。この情報は、混合信号分析器からセマンティック・コマンド・インタプリタに提供されうる。この情報に基づいて、たとえば、セマンティック・コマンド・インタプリタは、他のパートと関連して、ドラム・パートおよびベース・パートの音量を増加しうる。セマンティック・コマンド・インタプリタは、ドラム・パートを、たとえば、所望のダンス−ミックススタイルのために典型的に使用される合成されたドラム・パートにまさに置き換えられる。
【0034】
見本インタフェースは、得られた見本となる混同信号から複数の見本のオーディオ・トラックを受信するように、さらに構成されうる。混合信号分析器は、典型的な混合信号を結果として得るために使用されたミキシング・パラメータを決定するために、見本オーディオ・トラックを見本となる混合信号と比較するように構成されうる。それらが、典型的な混合信号を形成するために一緒に混合される前に、混合信号分析器によって形成されるセマンティック・ミキシング・コマンドは、それから、どの程度見本オーディオ・トラックが修正されるかの記述を含む。たとえば、セマンティック・ミキシング・コマンドは、たとえば、「著しくより音の大きいドラム,適度により穏やかな、より遠くから、ハイパスフィルタによってフィルタされたボーカル」を含む。そして、セマンティック・ミキシング・コマンドは、このセマンティック・ミキシング・コマンドから複数のミキシング・パラメータを導出しうる。
【0035】
本願明細書において開示される教示の別の実施の形態では、セマンティック・コマンド・インタプリタは、混合信号の聴覚関連の特性の知覚モデルに従って、セマンティック・ミキシング・コマンドを複数のミキシング・パラメータに変換するための知覚プロセッサを含みうる。知覚モデルは、特定のミキシング・パラメータがリスナーのための所望の効果を達成するためにどのように選択されなければならないのかを記載する音響心理学的なルールを典型的には実施する。たとえば、距離についての印象を伝えるために、残響、周波数フィルタリングおよび減衰のような、いくつかの音の処理動作は、必要とされる。音響心理学的な知見に典型的に基づく知覚モデルは、所望の効果の実現のための適切なミキシング・パラメータの決定を容易にする。
【0036】
本願明細書において開示される教示の別の実施の形態では、セマンティック・コマンド・インタプリタは、セマンティック・コマンド・インタプリタによってセマンティック・ミキシング・コマンドから導出される少なくとも1つのファジールールを受信し、少なくとも1つのファジールールに基づいて複数のミキシング・パラメータを生成するためのファジー理論プロセッサを含む。ファジー理論プロセッサは、少なくとも1つのファジールールの形式でセマンティック・ミキシング・コマンドを処理するために、非常に適している。少なくとも1つのファジールールは、実質的にセマンティックな領域において、ファジー理論プロセッサの入力量をファジー理論プロセッサの出力量にマッピング(すなわち、第1のセマンティックフォーマットの量から第2のセマンティックフォーマットへのマッピング)する。
【0037】
ファジー理論プロセッサは、セマンティック・コマンド・インタプリタによって準備される少なくとも2つの同時に発生するファジールールを受信するように構成されうる。ここで、オーディオミキサーは、少なくとも2つの同時に発生するファジールールの中の1つの同時に発生するファジールールを選択するためのランダム選択器をさらに含む。2以上の同時に発生するファジールールからファジールールの選択をランダム化することによって、ミキシング・スタイルが関係している限りは、オーディオミキサーによってもたらされる混合信号が、一様に実質的に音を発する傾向がないように、芸術の自由のイリュージョンは引き起こされうる。そして、それは、オーディオミキサーがファジールールに関して、より固定したスキームに従う場合、他のケースがありうる。
【0038】
複数のオーディオ・トラックを混合するための方法に関して、セマンティック・ミキシング・コマンドの範囲内においてセマンティックの表現を確認するための語彙データベースが問い合わされる。
【0039】
方法、さらに、または代わりに、複数のオーディオ・トラックの中のターゲット・オーディオ・トラックの識別を含み、ターゲット・オーディオ・トラックは、オーディオ・トラック識別表現によってセマンティック・ミキシング・コマンドの範囲内において示される。この目的で、オーディオ・トラック・テンプレート・データベースからオーディオ・トラック識別表現に対応するデータ・レコードは、読み出されうる。それから、複数のオーディオ・トラックの中の少なくとも1つのオーディオ・トラックのトラック名、トラック識別子、音質、リズム構造、周波数帯域、サンプリング音および調和密度のうちの少なくとも1つの分析が実行されうる。分析の結果は、少なくとも1つのマッチングスコアを結果として得るデータ・レコードと比較されうる。そして、ターゲット・オーディオ・トラックは、少なくとも1つのオーディオ・トラックおよびデータ・レコードの間の少なくとも1つのマッチングスコアに基づいて決定されうる。
【0040】
方法は、複数のオーディオ・トラックの範囲内のターゲット時間セクションを確認するための作用も含み、ターゲット時間セクションは、時間セクション識別表現によってセマンティック・ミキシング・コマンドの範囲内において示される。ターゲット時間セクションを確認するための作用は、複数のオーディオ・トラックを複数の時間セクションに構築するように構成されうる。時間セクション識別は、複数のオーディオ・トラックによって表されるオーディオ信号の固有性の変化が発生し、少なくとも1つの時刻を決定するために、複数のオーディオ・トラックの分析を実行するステップ、および2つの隣り合った時間セクションの間における少なくとも1つの境界として少なくとも1つの決定した時刻の使用するステップを含む。
【0041】
本願明細書において開示される教示の別の実施の形態では、方法は、メタデータ・インタフェースで、複数のオーディオ・トラックに関連するメタデータを受信するステップを含む。メタデータは、トラック名、トラック識別子、時間構造情報、強度情報、オーディオ・トラックの空間属性もしくはその一部、音質の特徴およびリズム特徴のうちの少なくとも1つを示しうる。
【0042】
方法は、オーディオミキサーに対応するコマンドインタフェースでの言語フォーマットにおけるセマンティック・ミキシング・コマンドを受信するステップを、さらに含む。
【0043】
本願明細書において開示される教示の別の実施の形態では、方法は、見本インタフェースで見本となる混合信号を受信するステップと、混合信号分析器によって見本となる混合信号を分析するステップと、見本となる混合信号の分析に基づきセマンティック・ミキシング・コマンドを生成するステップと、をさらに含む。
【0044】
セマンティック・ミキシング・コマンドから複数のミキシング・パラメータを導出する作用は、混合信号の聴覚関連の特性の知覚モデルに従って、複数のミキシング・パラメータにセマンティック・ミキシング・コマンドを変換するステップを含む。
【0045】
本願明細書において開示される教示の実施の形態によれば、複数のミキシング・パラメータを導出する作用は、セマンティック・コマンド・インタプリタによってセマンティック・ミキシング・コマンドから導出される少なくとも1つのファジールールを受信するステップと、少なくとも1つのファジールールに基づいて複数のミキシング・パラメータを生成するステップとを含みうる。少なくとも1つのファジールールの受信および少なくとも1つのファジールールに基づく複数のミキシング・パラメータの生成は、ファジー理論プロセッサによって実行されうる。
【0046】
方法は、少なくとも2つの同時に発生するファジールールを受信するステップと、少なくとも2つの同時に発生するファジールールの中の1つの同時に発生するファジールールをランダムに選択するステップとを含む。
【0047】
本願明細書において開示される教示は、以下に記載するポイントにおいて上述された従来の発明とは異なる。
− ペレス−ゴンザレスら(Perez−Gonzalez et al.)によって提案された方法は、処理を制御するために、セマンティックな記述を考慮に入れない。
− セマンティックHiFiプロジェクトは、マルチトラック・フォーマットの処理について対処しない。セマンティックな記述を実行する混合信号を計算するために必要となる知覚的な状況を、それは対処しない。
− 「構造化オーディオ」プロジェクトは、オーディオ信号を合成することに関連がある。対照的に、本願明細書(セマンティック・ミキシング)において開示される教示は、オーディオ信号を混合することに関連がある。
【0048】
簡潔に、本願明細書において開示される教示の中心的な実施の形態のいくつかを要約するために、マルチトラック録音のミキシングは、オーサリング・タスクである。セマンティック・ミキシングは、セマンティックな記述によって導かれるマルチトラック録音を混合するためのソリューションの開発を目指す。それは、セマンティックなオーディオ分析、心理音響および音声信号処理の技術を結合する。セマンティック・ミキシングは、音楽制作、SAOC(Spatial Object Audio Coding)ホームビデオ・オーサリング、仮想現実感およびゲームのような様々なアプリケーションに適用できる。
【0049】
セマンティック・ミキシングは、手短に言えば、以下の(部分的に任意の)特徴を記載されうる。
− ユーザとの対話処理を提供する。
− セマンティック・ミキシングは、広い範囲で知覚的なコンポーネントに対処する。このことは、環境、再生装置およびユーザ選択への適応を含みうる。
− セマンティックな部分と心理音響学的な部分とを結合する。いかなるセマンティック処理も、知覚的な態様を考慮に入れることを必要とする。それは、セマンティックな分析(音楽情報検索、プレイリスト作成)の従来のアプリケーションというよりむしろ音声信号処理に焦点をあわせる。それは、コンテンツとの相互作用の新規な方法を目的とする。
− それは、マルチトラック録音の処理に関連がある。
【0050】
本願明細書において開示される教示は、とりわけ、ユーザの仕様に従ってマルチトラック信号の混合のための方法に関する。音声信号処理に関し、特に、一組のユーザ定義の基準に従ってマルチトラック録音を混合するタスクに関する。ユーザ定義の基準は、結果として得る混合信号のセマンティックな記述を提供する。本願明細書において開示される教示は、セマンティックな記述に基づいて、自動的に混合信号を導出するために、音声分析、心理音響および音声信号処理を組み込みうる。
【0051】
本願明細書において開示される教示の上記の特徴および他の特徴は、以下の説明から明らかである。そして、それは付随する略図に関して例として示される。
【発明を実施するための形態】
【0053】
図1は、オーディオミキサーの略ブロック図を示す。オーディオミキサーは、混合信号MSが形成されるように、複数の単一のトラックSTを結合することを可能にし、典型的には、各単一のトラックを結合することを制御するために、個々の信号プロセッサに供給される。1つの単一のトラックのための個々の信号プロセッサは、たとえば、イコライザEQ、パニング制御PAN、リバーブレータREVERB、音量調節VOLおよび場合により更なる音響効果を含みうる。オーディオミキサーの中心的役割は、混合信号が複数の単一のトラックSTによって供給される音声信号のバランスのよい重ね合わせであるように、複数のうちの1つの単一のオーディオ・トラックSTのそれぞれの量を調整することである。単一のトラックSTの音響効果および音量の特定の設定がよくバランスのよい重ね合わせを構成する決定は、ミキシング・エンジニアによって典型的にはなされる。複数の個々の信号プロセッサは、複数のオーディオ・トラック信号を修正する。そして、修正されたオーディオ・トラック信号は、混合信号MSを生成するために信号コンバイナΣにおいて結合される。
【0054】
図2は、ポピュラー音楽ジャンルに属する典型的な曲の時間構造を例示する。
図2の中で、例えば、使用される曲は、序奏(INTRO)から始まり、その後に、バースセクション(VERSE 1)、コーラス(CHORUS)、実質的には同じ音楽で異なる歌詞を伴う第2のバース(VERSE 2)セクション、コーラスの繰り返し、ブリッジ(BRIDGE)、他のコーラスの繰り返し、およびコーダまたは終奏(OUTRO)が続く。この基本的なスキームのバリエーションの多数が存在し、その上、大部分の人々のためのポピュラー音楽の様々なセクションを区別することがたいてい可能である。たとえば、コーラスは、リスナーによって容易に認識されうるように、実質的に同じ歌詞およびメロディをともなう曲の全体にわたって、様々な場所で典型的に繰り返される。
【0055】
図3は、ソナタ形式において作曲される音楽作品の時間構造を例示する。ソナタ形式は、クラッシック音楽の多数の作曲家により用いられている。名前が示唆するように、ソナタ形式は、ソナタ、典型的には、その第1楽章において広く使用される。その上、典型的には、多くのシンフォニの第1楽章は、ソナタ形式である。ソナタ形式の特徴的な部分は、特に、コード進行に関して、基本的に同じ音楽資料が様々な修正によって表される場合において、提示部、展開部および再現部である。任意に、序奏およびコーダは、それぞれ音楽作品の始まりおよび終わりを表す。ソナタ形式の様々な時間部分を区別することがいくらかの経験をすることができると同時に、それは人間のリスナーに一般に可能である。
【0056】
ミキシング・エンジニアは、異なる方法の音楽作品の異なる時間部分を処理したい場合もある。理由は、特定の芸術的な効果を達成するか、または複数のオーディオ・トラックの記録の間に生じうる潜在的な欠陥のための補正によって一様に混合信号MSを生成したいという願望でありうる。音楽作品、または一般のオーディオ記録(たとえば、オーディオブック、講義、その他)の時間構造についての知見は、ミキシング・エンジニアが様々な時間部分の出発点および終点を記録で見つけるのをアシストしうる。
【0057】
図4は、ポピュラー音楽ジャンルにおける曲の記録の見本となるオーディオ・トラック配置を例示する。単一のオーディオ・トラックSTは、以下の楽器のために存在する:リードギター、リズムギター、ボーカル部分、ピアノおよびベースである。ドラムセットは、ドラムセットの様々なパートに対して、いくつかの単一のオーディオ・トラックを使用して録音されている:クラッシュシンバル、ライドシンバル、ハイハット、トムトム、スネアドラムおよびバスドラムである。単一のオーディオ・トラックが全体のドラムセットに対して使用されている場合よりも、ドラムセットの異なる部分のためのいくつかのオーディオ・トラックSTの使用は、ミキシング・エンジニアがよりよく、ドラム・パートのバランスをとることができる。
【0058】
手短の複数の単一のオーディオ・トラックについて、音楽作品は、演奏しているアーティストおよび/またはミキシング・エンジニアによって要望どおり習得されうる。特に、音楽作品の特徴または「モード」は、複数のオーディオ・トラックSTのために用いられるミキシング・パラメータを変更することによって、有効な方法で変更されうる。ミキシングのためのカスタマーに対する複数のオーディオ・トラックSTを提供することは、カスタマーに大きな自由度を用意する。しかしながら、特に、ミキシング・パラメータの間の複雑な相互接続および相互作用のために、多くのユーザは、適切にミキシング・パラメータを選択するための経験が欠如している。単一のオーディオ・トラックに影響を及ぼすように見える特定の効果を達成するために、いくつかのまたはすべてのオーディオ・トラックのミキシング・パラメータを調子するために必要でありうる。
【0059】
図5は、第1の可能な構成を有する本願明細書において開示される教示にかかるオーディオミキサーの略ブロック図を示す。
【0060】
典型的に、ユーザ(またはリスナー)は、混合信号がどのように音を出すのかのある考えがあるが、この考えを達成するために、ミキシング・パラメータがどのように調整すべきなのかはわからない。
【0061】
本願明細書において開示される教示にかかるオーディオミキサーは、ユーザの考えまたは簡潔な形式に記載するセマンティックな表現の間のリンクを構築し、そして、実際のミキシング・パラメータは、複数の単一のオーディオ・トラックを混合信号MSに混合するために必要である。
【0062】
シンプルに、ミキシング・プロセスを導くセマンティックな記述の例は、以下に示すとおりである:「ギターソロの間、顕著にギターを混合し、そしてわずかにキーボードを背景に移動する」
【0063】
これを達成するために、少なくとも、典型的に、リストされる様々なサブタスクのいくつかが、対処されることを必要とする:
− ユーザによって与えられるセマンティックな記述は、適切なユーザ・インターフェースを使用して、捕らえられることを必要とする。
− ユーザ入力は、機械で読み取り可能な形式に変換されることを必要とする。
− 音楽的なオーディオ信号のセマンティックな分析は、(たとえば、ギター・トラックおよびキーボード・トラックを確認し、ギターソロの始まりおよび最後を見つける)演奏されることを必要とする。
− 物理的なミキシング・パラメータは、人間が視聴しているメカニズムを考慮に入れて決定されることを必要とする(たとえば、混合におけるギターの知覚された音の大きさがいくつかの他の楽器よりも大きいようなゲインを決定し、一方、あまり大きくないキーボードに対して、距離の所望の知覚のための残響効果に送信トラックのゲイン、遅延を決定する)。
− ミックスは、計算された物理的なミキシング・パラメータを使用して導出される。パラメータは、単一のオーディオ・トラックSTおよび出力チャンネルの各結合に対するゲイン係数および時間遅延を含む。さらにまた、物理的なミキシング・パラメータは、デジタル・オーディオ・エフェクト・プロセッサ(DAFx;digital audio effect processors)、たとえば、人工的な残響およびダイナミック・レンジ処理、を制御する。
【0064】
セマンティックな記述は、たとえば、
− 混合信号MSにおいて、各音のオブジェクトSOの知覚される位置および音の大きさ、
− 各トラックに対するDAFxのパラメータ、
− 混合信号MS(たとえば、残響の量、ダイナミック・レンジ)のための特性、
を明確に述べる。
【0065】
本願明細書において開示される教示にかかるオーディオミキサーの可能な構成を示している
図5の略ブロック図において、上記のサブタスクは、オーディオミキサーのモジュールによって達成される。オーディオミキサーは、ユーザ・インターフェース(UI)20、コマンド・インタプリタ(CI)30、セマンティック・オーディオ分析(SAA)40、ターゲット記述子割り当て装置(DAU)50、知覚プロセッサ60および信号プロセッサ70を含む。
【0066】
ユーザ・インターフェース20は、オーディオミキサーのユーザからの入力を獲得するための機能を提供する。ユーザ・インターフェース20の一部である複数のサブモジュールで例示されるように、ユーザ入力の実施のための異なるオプションが存在する。例は、以下の通りである。
− 一組のプレセットの1つのセクション(サブモジュール22);
− 一組のn次元のコントローラが、単一のトラックおよび結果として得る混合信号MSの異なる特性に割り当てられる(サブモジュール23);
− 自然言語の入力(サブモジュール24);
− 混合信号MSの例、または対応する混合信号MSをともなうマルチトラックの例の入力(サブモジュール23)。そして、与えられる例は、混合信号MSに対して、セマンティックな記述を導出するように分析される。ユーザの入力のこのソートによって制御されるオーディオミキサーの動作モードは、次の記述において、「例によるミキシング」として言及される。
【0067】
コマンド・インタプリタ30は、ユーザ・インターフェース20に接続され、そして、(人間が読み取り可能であるかまたは例によって与えられる)入力を機械が読み取り可能なコマンドに変換される。これらのコマンドは、典型的には、語彙文法サブモジュール31によって提供されおよび/または制御される語彙および周知の文法を制限している。
【0068】
コマンド・インタプリタ30の実施のための例は、異なるユーザ・インターフェースの設計のため、表1において与えられる。
【0070】
ユーザ入力のほかに、オーディオミキサーは、入力として単一のオーディオ・トラックSTを含むデータ10も受信する。データ10が音楽作品のオーディオ・トラックに対応する場合に備えて、データ10は、音楽コンテナ11および任意のメタデータコンテナ12を含みうる。データ10は、適切なインターフェース(
図5には表示せず)を介して、オーディオミキサーに提供されうる。
【0071】
データ10は、セマンティック・オーディオ分析(SAA)40に取り入れられる。セマンティック・オーディオ分析40は、典型的には、各オーディオ・トラックSTのための一組のメタデータを計算する自動工程である。マルチトラック、すなわち、複数のオーディオ・トラックを記載するメタデータが計算されうる(たとえば、音楽のジャンル)。メタデータは、オーディオ信号を特徴づけるセマンティック記述子である。
【0072】
セマンティック・オーディオ分析40は、以下を含みうる。
− 楽器の識別
− 構造分析(バース、コーラスおよび各信号の他の部分のラベリング)
− 演奏スタイルの識別(ソロ、伴奏、旋律、ハーモニーおよびリズム・エントロピー)
− リズム分析(たとえば、ビート同期音響効果のためのビート・トラッキング)
− 旋律のおよびハーモニーの分析
− 音質の特徴(たとえば、輝度、粗さ、鮮明度)
− 単一のオーディオ・トラックSTの間の(音質、演奏スタイル形式に関する)類似点の特徴
− 音楽ジャンル
【0073】
これらのメタデータは、ミキシング・パラメータを介して、各単一のトラックSTに、適切な信号処理を割り当てるために使用されうる。
【0074】
セマンティック・オーディオ分析は、セマンティック・ミキシングの処理が実行されるたびに実行されうる。任意には、セマンティック・オーディオ分析は、(製造/オーサリングの間)1度実行され、そして、結果として得られるメタデータは、マルチメディア・アイテムとともに格納され、送信されうる。
【0075】
任意には、彼/彼女が、自動的に1以上の導出されたセマンティック・オーディオ分析の結果を満たさない場合、セマンティック・オーディオ分析40は、ユーザ入力によって導かれ、すなわち、ユーザは、セマンティック・オーディオ分析40をアシストし、または、彼/彼女がメタデータを入力しうる。セマンティック・オーディオ分析40がユーザの選択に適応しうるように、すなわち、セマンティック・オーディオ分析40がユーザの入力によって時間とともに訓練されうるように、これらの修正ユーザ入力は、次の分析の間に考慮されるためにセマンティック・オーディオ分析によって格納されうる。
【0076】
セマンティック・オーディオ分析40は、複数のオーディオ・トラックSTにおいて含まれるオーディオ信号に基づくメタデータを計算するための第1のサブモジュール41を含みうる。加えて、または、あるいは、セマンティック・オーディオ分析40は、複数のオーディオ・トラックSTとともに提供されるメタデータを読み込むための第2のサブモジュール42を含みうる。
【0077】
コマンド・インタプリタ30およびセマンティック・オーディオ分析40に対する連結は、ターゲット記述子割り当て装置(DAU)50である。コマンドはコマンド・インタプリタ30により形成され、メタデータは、セマンティック・オーディオ分析40から得られる場合、ターゲット記述子割り当て装置50は、オーディオ信号(それは、コマンドが存在するサウンド・オブジェクトに対応するトラックならびに起動時間および停止時間を決定する)の部分を選択し、適切な知覚的ターゲット記述子(PTD)をそれらに割り当てる。
【0078】
知覚的ターゲット記述子は、以下のように記載されうる:
− サウンド・オブジェクトの知覚される強さ(音の大きさ)
− サウンド・オブジェクトの空間属性(外側角、高さ、距離、拡散、幅)
− サウンド・オブジェクトに対する音質特性(たとえば、輝度、鮮明度、粗さ)
− デジタル・オーディオ・エフェクトに関する特性(DAFx)
【0079】
コマンドが、言語変数を使用することによって与えられる場合、ターゲット記述子割り当て装置50は、クリスプ値に言語変数との間に変換されるためのファジー論理を使用しうる。
【0080】
知覚的ターゲット記述子を提供するターゲット記述子割り当て装置50の出力は、知覚プロセッサ(PP)60の入力に接続される。知覚プロセッサ60は、混合するため、および割り当てられた知覚的ターゲット記述子を与えられる追加的な信号処理(たとえば、DAFx)のための物理パラメータ(ミキシング・パラメータ)を計算する。これは、典型的には、心理音響学61および専門知識62を考慮することを必要とする非常に厳しい作業である。
【0081】
これは、以下の例で例示される:たとえば、ギター・トラックである特定のオーディオ信号に対して、知覚的なレベルに対する記述子は、「高い」に設定される。シンプルなソリューションは、固定量、たとえば、6dBによって、ギターのゲインを増加させることである。音の大きさの知覚は、非常に複雑な方法において処理されたオーディオ信号および混合信号MSのスペクトルおよび時間的な特徴に依存するので、このシンプルなソリューションは、全ての場合において、所望の効果を有しない。
【0082】
たとえば、音の大きさおよび部分的な音の大きさの知覚モデルを用いて、リスナーによって知覚される混合におけるギターの音の大きさは、調整されるように、より良い結果は、すべてのレベルを設定することによって得られうる。部分的な音の大きさは、音の混合において示される信号の音の大きさであり、ここで、注目信号は、部分的にマスキングされる。
【0083】
典型的に、人間の聴覚および音の認識の異なる態様は、音の大きさの知覚に加えて対処されることを必要とする。これらは、残響、音の定位、および空間属性の知覚の量の知覚である。
【0084】
心理音響的な部分は、セマンティックな記述(これをわずかにより大きくする)を物理的パラメータ(たとえば、「4.5dBによって高める」)に変換するために重要である。
【0085】
知覚プロセッサ60は、信号プロセッサ70の入力にその出力の1つを介して接続される。信号プロセッサ70は、物理的なミキシング・パラメータ71を処理するモジュール、1以上のデジタル・オーディオ・エフェクト72およびフォーマットためのモジュール73を含みうる。混合および信号処理のための物理パラメータとともに、信号プロセッサ70は、混合信号MSを計算する。
【0086】
コンベンションペーパー「“Automatic Music Production System Employing Probabilistic Expert Systems”, Audio Engineering Society, presented at the 129th Convention, 2010 November 4−7」において、著者であるR.ガングら(R.Gang et al.)らは、専門の音声工学の知識を組み込むために確率的なグラフィカル・モデルを使用することを提案し、そして、オーディオ・ファイルから得られる音楽の情報に基づいて、自動的な生産決定を推論する。確率的なグラフィカル・モデルとして表される生産パターンは、人間の音声エンジニアの動作データから学ぶことができ、または手動で特定分野の専門知識から構築されうる。知覚プロセッサ60および/またはセマンティック・コマンド・インタプリタ30は、このコンベンションペーパーにおいて提案される技術的特徴を実装することができる。前述のコンベンションペーパーの全体の内容は、本願明細書において言及することにより組み込まれる。
【0087】
マルチトラック記録を混合することは、以下を含む。
− レベルの調整および各単一のトラックに対するパニング位置(物理ミキシング・パラメータ71を処理するためのモジュール)
− イコライゼーション(単一のトラックSTおよび混合信号MSに対して)
− ダイナミック・レンジ処理(DRP)(単一のトラックSTおよび混合信号MSに対して)
− 人工的な残響
− 音響効果を適用すること(DAFx72)
【0088】
知覚プロセッサ60によって計算されるとき、これらの動作の各々は、物理パラメータによって制御される。
【0089】
フォーマット73は、物理的な制約(たとえば、自動的なゲイン制御を適用している)およびフォーマット変換(音声コーディング/デコーディング)の処理をすることを任意に必要とする。
【0090】
以下のセクションは、処理ブロックの各々の見本となる実施を詳述する。
【0091】
ユーザ・インターフェース20は、一組のプレセットとして実施されうる。各プレセットは、一組の特徴を有する「ミキシング・タイプ」を表す。これらの特性は、「ミキシング・ルール」の形式においてセマンティックな表現として与えられ、コマンド・インタプリタ30に関連して、後述する。
【0092】
ミキシング・タイプは、たとえば「ダンス・ミックス」、「アンビエント・ミックス」「ロック・ギター・ミックス」その他でありうる。
【0093】
これらの名前は、高圧縮の方法においてターゲット混合信号MSの記述を与える。それでも、ユーザは、それら(またはそれらのサブセット)を解釈しうる。プレセットの名前を解釈するユーザの能力は、慣例および広く使われている文体の分類に基づく。たとえば、ユーザは、特定の演奏しているスタイルおよび/またはあるアーティストの名前をともなう音と関連させうる。
【0094】
コマンド・インタプリタ30との関連の範囲内において、一組のミキシング・ルールは、ルックアップテーブルを使用しているプレセットの各々に割り当てられる。ミキシング・ルールは、本願明細書において示されるように、ファジー論理(J.M. Mendel, “Fuzzy Logic Systems for Engineering: A Tutorial”, Proc. of IEEE, vol. 83, pp. 345−377, 1995)において見られるようなIF−THEN−命令文の形式において論理的含意として表される。ここで、サウンド・オブジェクト記述子<SOD>は、既述の事項であり、ミキシング動作記述子<MOD>は、結果として生じる。
【0095】
IF <SOD> THEN <MOD>
IF−THEN−命令文は、特定する。
− サウンド・オブジェクトSOは、ミキシング動作記述子(MOD)として表現された混合信号MSにおいてどのように現れるか。MODは、サウンド・オブジェクト記述子(SOD)によって与えられ、サウンド・オブジェクトの特徴に従って選択される。
− 混合信号MSの特徴は、特定のミキシング動作記述子MODから独立しており、混合信号MSに対する動作のパラメータを特定する。
【0096】
サウンド・オブジェクト記述子SODは、(データ)構造として表されうる。たとえば、
SO.ID サウンド・オブジェクト識別子、たとえば、行為者の名前
SO.INSTR サウンド・オブジェクトSOの楽器クラス
SO.BRIGHTNESS サウンド・オブジェクトSOの知覚する輝度
SO.PERCUSSIVENESS SOの衝撃の限定作用素
SO.CHARACTERISTIC サウンド・オブジェクトSOの他の特徴
【0097】
ミキシング動作記述子MODは、レベル(すなわち、ボリューム)、パニング位置、および混合信号MSにおいて知覚されうるサウンド・オブジェクトの他の特徴を記述する。サウンド・オブジェクトに適用されるミキシング動作記述子MODは、データ構造の範囲内においてSO.MODによって示されうる。ミキシング動作記述子MODは、混合信号MSにも適用されうる。これらのミキシング動作記述子MODは、MT.MODによって示される。典型的には、これらのミキシング動作記述子MODは、全てのオーディオ信号または混合信号、たとえば、残響もしくはダイナミック・レンジ処理DRPに適用される信号処理を制御する。
【0098】
ミキシング動作記述子MODは、知覚的な属性および知覚的な属性に割り当てられる値で構成される。ミキシング動作記述子は、言語変数として実施されうる。
【0099】
知覚的な属性のリストは、以下(他のほかにも)を含みうる。
【0101】
知覚的な属性は、言語変数でありうる。割り当てられた値は、以下のうちの1つでありうる:{「非常に低い」「低い」「中間」「高い」「非常に高い」}。
【0102】
ミキシング動作記述子MODによって設定されない知覚的な属性は、デフォルトに設定される。
【0103】
そして、ミキシング・ルールは、このように見えうる:
【0104】
IF <SO.INSTR=value> AND <SO.C1=value> … AND <SO.Cn=value>
THEN <SO.MOD1=value> AND <SO.MOD2=value> … AND <SO.MODn=value>
【0105】
論理積(すなわち「AND」)の使用は満たしており、論理和(すなわち「OR」)は、分かれたルールとして表されうることに留意すべきである。
【0106】
典型的なルール集合:手元におけるユースケースに対する一組のミキシング・ルールは、たとえば、ダンス・ミックスに対して与えられる。
【0107】
これらのミキシング・ルールは、楽器クラスに対して特定される。
【0108】
1. IF <SO.INSTR=”kick drum”>
THEN <SO.PLOUDLEVEL=”high”> AND <SO.LATERALDISPLACEMENT=”zero”> AND <SO.DISTANCE=”near”>
2. IF <SO.INSTR=”bass”>
THEN <SO.PLOUDLEVEL=”high”> AND <SO.LATERALDISPLACEMENT=”zero”> AND <SO.DISTANCE=”near”>
3. IF <SO.INSTR=”percussion”> AND <SO.ENTROPY=”high”>
THEN <SO.PLOUDLEVEL=”high”> AND <SO.FXLEVEL=”high”>
4. IF <SO.INSTR=”percussion”> AND <SO.ENTROPY=”low”>
THEN <SO.PLOUDLEVEL=”low”>
【0109】
以下のミキシング・ルールは、それぞれの楽器クラスの特徴のために特定される。
【0110】
5. IF <SO.INSTR=”*”> AND <SO.ENTROPY=”low”>
THEN <SO.LATERALDISPLACEMENT=”far left”>
6. IF <SO.INSTR=”*”> AND <SO.CREST=”low”>
THEN <SO.PLOUDLEVEL=”low”>
【0111】
任意には、ミキシング・ルールは、混合信号MSに対して特定されうる。それは、サウンド・オブジェクトSOの特徴との関連がない。サウンド・オブジェクトが、ミキシング・ルールのIF部分において特定されない場合、結果として得られる動作は、すべてのサウンド・オブジェクトSOに適用される。
【0112】
7. IF *
THEN <MS.REVERBLEVEL=”low”>
8. IF *
THEN <MS.FX1LEVEL=”high”>
【0113】
さらに、ルールのIF部分において、属性は、絶対値の代わりに相対値とも比較されうる。これは、1つのサウンド・オブジェクトSOの属性が、「最大」または「最小」のような動作を使用する全ての他のサウンド・オブジェクトの同じ属性と比較されうることを意味する。
【0114】
9. IF <SO.INSTR=”*”> AND <SO.ENTROPY=”maximum”>
THEN <SO.FX2LEVEL=”high”>
【0115】
たとえば、上記の属性およびルールは例であり、特定のミキシング・プレセットのための完全セットであることを意味されない点に留意すべきである。
【0116】
本願明細書において開示される教示の実施の形態によれば、ルール集合のバリエーションは、実行されうる。特に、ルール集合は、そのルールが任意に選択される(ランダム化される)同時に発生しているルール(同じ既述の事項であるが、異なる結論を有するルール)を含むために実施されうる。これは、バリエーションを結果にもたらして、このことによりユーザ満足感を増加させる。それは、一様なルール集合が、ルール集合を生成する処理において同意されえない状況においても有益である。
【0117】
セマンティック・オーディオ分析40の見本となる実行に、ここで戻って、セマンティック・オーディオ分析40は、複数のオーディオ・トラックSTについて情報を収集するために適用されることを呼び出し、そして、おそらくマルチトラックは、ミキシング・パラメータが複数のオーディオ・トラックSTのうちの1つの各々のオーディオ・トラックに適用されるミキシング・パラメータを決定するために役立ちうる。セマンティック・オーディオ分析は、別々に複数のオーディオ・トラックの各々のオーディオ・トラックSTおよび加えて、マルチトラックMTの表現を処理する。マルチトラックMTの表現は、ユニットゲインとともにダウンミキシングの全てのオーディオ・トラックSTから導出される混合信号の形式において、たとえば、得られうる。
【0118】
結果は、(各配列要素が1つのオーディオ・トラックSTに対するメタデータを含む)構造の配列として表現され、そして、付加構造がマルチトラックのメタデータを含む。構造要素の変数のタイプは、ストリング(たとえば、楽器名のために)、スカラー値(テンポ、エントロピーのために)、または演奏スタイルの記述のための配列(たとえば、開始時間および停止時間)、またはそれ自身の専用の構造物(たとえば、音楽の部分の形を記述するための方法)でありうる。
【0119】
分析結果は、それぞれの結果の信頼性の程度を表す信頼基準に付随して生じうる。
【0120】
セマンティック・オーディオ分析40によってもたらされる結果の表現に対する例:
【0121】
ST(1).ID = ”TR909”
ST(1).INSTRUMENT = ”kick drum”
ST(1).INSTRUMENT_CONFIDENCE = 0.93
ST(1).ENTROPY = 0.12
ST(2).ID = ”lead guitar”
ST(2).INSTRUMENT = ”guitar”
ST(2).INSTRUMENT_CONFIDENCE = 0.68
ST(2).SOLO = [ [123.4 234.5] [567.7 789.0] ]
ST(3).ID = ”background vocals”
ST(3).INSTRUMENT = ”human singing”
ST(3).INSTRUMENT_CONFIDENCE = 0.8
ST(3).BRIGHTNESS = 0.12
MT.TEMPO=”126”
MT.GENRE=”electro”
MT.FORM=<form structure>
【0122】
セマンティック・オーディオ分析40は、独自の識別子をオーディオ・トラックSTにおよび音楽作品の様々な時間部分に割り当てることによって、提供されたマルチトラック・オーディオ材料を標準化するために役立ちうる。特に、典型的に、マルチトラック・オーディオ材料は、特定の仕様の定義済みフォーマットではない。換言すれば、オーディオミキサーは、特定のオーディオ・トラック(たとえば、「トラック1」)が常に特定の楽器(たとえば、「ギター」)を含むことに依存することはできない。しかしながら、セマンティック・オーディオ分析によりもたらされるメタデータは、構成についての実質的に標準化された情報およびそれらのそれぞれの作業を達成するため、オーディオミキサーの他のモジュールをアシストするマルチトラック信号の内容を提供しうる。セマンティック・オーディオ分析によってされる標準化は、役立つ。なぜなら、それは、マルチトラック・オーディオ信号の直面する状況に関連があるコマンド・インタプリタ30によって提供されるミキシング・コマンドを認めるからである。このように、コマンド・インタプリタ30およびセマンティック・オーディオ分析40は、「同じ考え方をする」。
【0123】
ターゲット記述子割り当てユニットDAU60は、複数のオーディオ・トラックSTまたはオーディオ・トラックSTのセグメントにミキシング動作記述子を割り当てるために、セマンティック・オーディオ分析40によって提供されるメタデータおよびコマンド・インタプリタ30からのミキシング・ルールを処理する。これらの記述子は、オーディオ・トラックSTのそれぞれのセグメントにおける属音である各サウンド・オブジェクトSOが、ターゲット混合信号MSにおいて知覚される方法を述べる。
【0124】
各オーディオ・トラックSTにおいて、1つのサウンド・オブジェクトは1回優位であると仮定される。この仮定が与えられて、(各オーディオ・トラックSTのために計算される)セマンティック・オーディオ分析40から導出される属性は、サウンド・オブジェクトSOのための属性として処理される。あるいは、オーディオ・トラックSTがマルチプル・サウンド・オブジェクトを含む場合、特に、いくつかのサウンド・オブジェクトSOが比較的容易に切り離されることを意味する、いくつかのサウンド・オブジェクトSOが時間的にオーディオ・トラックSTの範囲内おいてお互いに成功する場合、セマンティック・オーディオ分析は、各オーディオ・トラックSTに対して1つの属性構造を出力することができる。他の可能性は、第1のサウンド・オブジェクトSO1がステレオ信号の左チャンネルにおいて主に示し、一方、第2のサウンド・オブジェクトSO2が右チャンネルにおいて主に示すことである。さらに、他の可能性は、いくつかのサウンド・オブジェクトが、ローパス、ハイパスおよび/またはバンドパスフィルタによって、周波数領域において切り離されうることである。
【0125】
入力変数がクリスプ値である場合、ファジー論理が適用され、一方、ルール集合は、ファジー属性(たとえば、「低い」または「高い」)を使用して考案される。たとえば、楽器を演奏することにおける変化の程度は、0および1の間の範囲のスカラー値として表されうる。さらにまた、セマンティック・オーディオ分析40は、推定されたメタデータが計算された信頼の程度を記載している確実性値(たとえば、確率)と共に、メタデータを出力することができる。
【0126】
ファジー理論は、複雑なタスクのモデリングのために許可し、しばしば、専門知識を組み込む。それはファジー集合を利用する。そして、それは直接的なメカニズムを前後に正確な値をファジー記述に変換するために提供する。
【0127】
ファジー論理システムとして実施される場合に処理する概要は、
図6におけるブロック図に示される(メンデル;Mendel,1995)。ファジー理論システムは、ファジー化するモジュール622、推定モジュール624、ルール集合626、および非ファジー化するモジュール628を含む。ファジー化するモジュール622は、たとえば、セマンティック・オーディオ分析40からの一組のクリスプ入力を受信する。クリスプ入力を基礎として、ファジー化するモジュール622は、推定モジュール624に供給されるファジー入力集合をもたらす。推定モジュール624は、推定モジュール624に等しく供給されるルール集合626によってファジー入力集合を評価する。ルール集合626は、コマンド・インタプリタ30によって提供されうる。推定モジュール624は、ファジー出力集合をもたらし、そして、非ファジー化するモジュール628にそれを供給する。非ファジー化モジュール628において、ファジー出力集合は、ミキシング・パラメータまたは中間量としてのクリスプ出力に変換される。
【0128】
さらに、詳細なファジー化に、ここで戻って、単一のオーディオ・トラックSTに対するミキシング動作記述子MODの割り当ては、コマンド・インタプリタ30によって決定されるルール集合のIF部分において記述される基準に基づいて行われる。セマンティック・オーディオ分析40を形成するそれぞれのメタデータが、実数としてまたは信頼値(たとえば、結果として得られる楽器クラス)とともにストリングスとして与えられる場合、実数は、ファジー化することを使用して言語変数に変換される。ファジー集合は、要素がメンバシップの度合いを有する設定である。メンバシップの度合いは、間隔[0、1](メンバシップの度合いが0か1である古典的集合論とは対照的に)におけるいかなる実数でもありえる。
【0129】
見本となって
図7に示されるように、ファジー化することは、ファジー集合のためのメンバシップ関数を使用して実行される。ファジー化することにおいて、各実数値の入力変数のために、対応するファジー集合(I.A. Zadeh, “Fuzzy Sets”, Information and Control, vol. 8, pp. 338−353, 1965)およびメンバシップの度合いは、決定される。たとえば、0.25の輝度値が与えられ、対応するファジー集合は、メンバシップ0.5とともに「非常に低い」であり、そしてメンバシップ0.5とともに「低い」である。
【0130】
推定ステップまたはモジュール624において、入力変数に対するファジー集合は、ルール集合626を使用して出力変数に対するファジー集合をマップする。結果は、知覚属性のための(対応する信頼メンバシップの度合いと共に)一組の言語変数である。
【0131】
次のステップまたはモジュール、非ファジー化する628において、推定の結果は、それらに対応するファジー集合を使用して出力変数のためのクリスプ値に変換される。すなわち、知覚的な属性の上記の表にリストされる変数は、クリスプ値を有する対応物を有する。
【0132】
知覚プロセッサ60に関して、コマンド・インタプリタ30およびターゲット記述子割り当て装置50の出力は、各サウンド・オブジェクトSOが混合信号MSにおいてどのように現れるべきかを決定する。今までのところ、この仕様は、知覚的な値によって与えられる。
【0133】
知覚プロセッサ60は、信号特性および人間の聴覚メカニズムを考慮に入れることによって、知覚的な値を物理ミキシング・パラメータに変換する。以下のパラグラフは、いくつかの知覚的な値、すなわち、サウンド・レベル、所与の横方向の角度、残響レベル、および時間遅延、DAFxパラメータ、イコライゼーションおよびダイナミック・レンジ処理の処理を例示する。
【0134】
サウンド・オブジェクトSOのためのサウンド・レベルは、知覚的な音の大きさモデル、たとえば、グラスベルグ(2002)(Glasberg in 2002)により記載されるモデルを使用して計算されうる。
【0135】
あるいは、ムーア(1996)(Moore in 1996)により記載される音の大きさモデルは、音の信号のミクスチャの範囲内における音の信号の音の大きさを計算するために使用されうる(B.C.J. Moore and B.R. Glasberg, “A Revision of Zwicker’s Loudness Model”, Acustica − Acta Acustica, vol. 82, pp. 335−345, 1996)。
【0136】
オーディオ・トラックST(または混合信号MS)におけるサウンド・オブジェクトSOの知覚的な音の大きさが、ミキシング動作記述子MODによって表されるようにセマンティックな記述とマッチするように、各オーディオ・トラックSTに対するゲイン係数が計算される。
【0137】
所与の横方向の角度のためのパニング係数:サウンド・オブジェクトSOの横方向の位置の知覚は、耳の入口での両耳間強度差(ILD)および両耳間時間差(ITD)によって決定される(Lord Rayleigh, “On our perception of Sound Direction”, Philosophical Magazine, vol. 6, pp. 214−232, 1907)。知覚プロセッサ60との関連の範囲内において、頭内定位の知覚が想起されるように、時間遅延およびレベル差は、プレイバック・チャンネル毎に決定される。
【0138】
残響レベルおよび時間遅延:残響の知覚される量がユーザによって決定されるセマンティックな記述にマッチするように、人工的な残響処理に対するレベルが決定される。残響レベルは、個々の各サウンド・オブジェクトおよび/または混合信号MSに対して定義される。残響レベルは、特定のサウンド・オブジェクトSOに対する距離の知覚を想起するために、個々のサウンド・オブジェクト毎に調整されうる。距離感覚は、加えて、レベル、時間遅延、等化曲線および横方向の位置によって制御される。
【0139】
DAFxパラメータ:デジタル・オーディオ・エフェクトのためのパラメータの設定は、特に、DAFxプロセッサに依存する。DAFx処理された信号のレベルは、ラウドネスモデル(たとえば、ムーア;Moore,1996)を使用して計算される。
【0140】
等化:処理された信号がサウンド・オブジェクトまたは混合信号MSの「輝度」に関連して知覚的な属性にマッチするように、等化のためのパラメータは、設定される。
【0141】
ダイナミック・レンジ処理:ダイナミック・レンジ処理DRPのためのパラメータは、ダイナミック・レンジのための知覚的な属性にマッチするように設定される。
【0142】
図8は、ファジープロセッサ37を含むオーディオミキサーの一部の略ブロック図を示す。ファジープロセッサ37の入力は、セマンティック・オーディオ分析40に接続され、この接続を介してトラック分析を受信するように構成される。いずれのクリスプ値であるトラック分析の値は、言語変数である。ファジープロセッサ37は、セマンティック・コマンド・インタプリタ35からルールまたはルール集合を受信するための入力も有する。前述したように、ファジープロセッサ37は、オーディオ・トラック・プロセッサ75に提供されうるクリスプ・ミキシング・パラメータを結果として得るトラック分析を処理するためのルールを使用する。
【0143】
ルールは、ユーザによって提供されるセマンティック・ミキシング・コマンドに基づき、セマンティック・コマンド・インタプリタ35によって構築される。
【0144】
知覚モデル64は、ファジー化および非ファジー化パラメータをファジー論理プロセッサ37に提供する。ファジー化および非ファジー化パラメータは、数値および対応するセマンティックな記述との間のつながりを構築する。たとえば、ファジー化および非ファジー化パラメータは、リスナーにソフト、ミディアム、またはラウドと思われるオーディオ信号のための音の大きさの範囲を特定することができる。
【0145】
さらにまた、知覚モデル64は、特定の効果が要求される場合に、ミキシング・パラメータが含まれるように特定されうる。これらのミキシング・パラメータのための対応する値も、知覚モデル64によって特定されうる。これらの仕様は、ガイドラインとしてセマンティック・コマンド・インタプリタ35に提供されうる。ファジールールを構築する場合、セマンティック・コマンド・インタプリタ35は、これらのガイドラインに従いうる。
【0146】
オーディオミキサーは、2つの同時に発生するファジールールがセマンティック・コマンド・インタプリタ35によって構築され、そして、その一方が、ファジー論理プロセッサ37によって実施されうる場合に使用される任意のランダム・ファジールール選択器38を含みうる。ランダム性の中等度は、ミキシング処理がより自然なおよび「人間的」にみえるように、ユーザの満足感を増加しうる。結局、人間のミキシング・エンジニアは、時々、わずかにランダムに作動する。そしてそれは、ミキシング・エンジニアのクライアントによる「芸術」として知覚されうる。
【0147】
図9は、本願明細書において開示される教示にかかるオーディオミキサーの可能な基本的な構成の略ブロック図を示す。データ10は、複数の単一のオーディオ・トラックSTの形式において提供される。オーディオミキサーは、セマンティック・コマンド・インタプリタ35、オーディオ・トラック・プロセッサ75およびオーディオ・トラック・コンバイナ(AT CMB)76を含む。
【0148】
セマンティック・コマンド・インタプリタ35は、
図5のコマンド・インタプリタ30に全般的に見て対応する。さらにまた、セマンティック・コマンド・インタプリタ35は、ターゲット記述子割り当てモジュール50および知覚プロセッサ60のいくつかの機能性を含みうる。セマンティック・コマンド・インタプリタ35は、入力として、セマンティック・ミキシング・コマンドを受信し、そして、セマンティック・ミキシング・コマンドから1つのミキシング・パラメータまたは複数のミキシング・パラメータを導出する。複数のミキシング・パラメータは、オーディオ・トラック・プロセッサ75に、または、より正確には、オーディオ・トラック・プロセッサ75の個々のオーディオ・トラック・プロセッサATP1,ATP2,ATP3,ATP Nに提供される。ミキシング・パラメータは、典型的に、複数の個々のオーディオ・トラック・プロセッサATP1からATP Nによって直ちに実施されうるクリスプ値の形式である。
【0149】
複数の個々のオーディオ・トラック・プロセッサATP1からATP Nは、ミキシング・パラメータに従って、対応しているオーディオ・トラックST1からST Nのうちの1つによって提供されるオーディオ信号を修正する。
【0150】
修正された音声信号は、混合信号MSを得るために、オーディオ・トラック・コンバイナ76によって結合される。
【0151】
図9に示される構成において、セマンティック・コマンド・インタプリタ35は、対応する個々のオーディオ・トラック・プロセッサATP1からATP Nに対して適したミキシング・パラメータにセマンティック・ミキシング・コマンドの範囲内における特定のセマンティックな内容を割り当てうる。セマンティック・コマンド・インタプリタ35のこの能力は、セマンティック・コマンド・インタプリタ35が、トラックがいずれの楽器に対応するかを知るように同意された標準に従って構成されるという事実に基づく。
図11から
図14において、オーディオミキサーの代替構造が示され、データそのものからマルチトラック録音の組織および/または記録された音楽作品の時間構造に関する情報を引き出すことができるこの説明の対応する部分に記載されている。
【0152】
図10は、セマンティック・ミキシング・コマンドを例示する。セマンティック・ミキシング・コマンドは、英語の言語の形式における言語表現を含む。もちろん、他の言語も同様に使用しうる。文は、「ギターソロの間、顕著にギターを混合する」と書いてある。この文のセマンティックな分析は、文が3つの部分に分解しうることを示す。第1の部分は、「ギターソロの間」の表現を含み、セマンティック・ミキシング・コマンドに対するターゲット時間セクションを特定している表現として確認されうる。第2の部分は、「ギター」の表現を含み、ターゲット・トラックを特定している表現として確認されうる。第3の部分は、「顕著に(・・・)混合する」の表現を含み、そして、所望のミキシング動作を特定する表現として確認されうる。
【0153】
図11は、セマンティック・ミキシング・コマンドの拡張された例を例示する。拡張されたミキシング・コマンドは、
図10からのセマンティック・ミキシング・コマンドに基づく。加えて、第2のターゲット・トラックに対する第2のミキシング動作が追加され、すなわち、「[・・・]は、わずかに背景へキーボードを移動する」。論理積は、第1のミキシング動作/第1のターゲット・トラックおよび第2のミキシング動作/第2のターゲット・トラックの間の関係を特定するために使用される。例示されるケースにおいて、第1のミキシング動作および第2のミキシング動作がそれらのそれぞれのターゲット・トラックにおいて両方同時に実行されるように、論理積は、語「and」である。
【0154】
図12は、他の可能性のある構成にかかるオーディオミキサーの一部の略ブロック図を示す。特に、
図12は、複数のオーディオ信号ST1からST Nおよび初期値の混合信号MT(「マルチトラック」)によって提供されるデータが、トラック装置および/または音楽作品の時間構造について有益な情報を得るためにどのように使用されうるかについて示す。特に明記しない限り、複数のオーディオ・トラックの参照は、初期値の混合信号MTの参照を含む。
【0155】
複数のオーディオ・トラックST1からMTは、セマンティック・オーディオ分析40に提供される。複数のオーディオ・トラックを分析することによって、トラック情報および時間構造情報は、得られ、そして、それは、セマンティックからクリスプへの変換モジュール65へ提供する。
【0156】
セマンティック・ミキシング・コマンドは、複数の表示を含み、各表示は、ターゲット時間セクション26、ターゲット・トラック27およびミキシング動作28を特定することを含む。
【0157】
セマンティックからクリスプへの変換モジュール65は、
図5のターゲット記述子割り当て装置50におよそ対応する。セマンティックからクリスプへの変換モジュール65は、入力としてセマンティック・ミキシング・コマンドから情報も受信する。提供された入力に基づいて、セマンティックからクリスプへの変換モジュール65は、1以上の知覚的ターゲット記述子PTDおよび対応するミキシング・パラメータを作成する。知覚的ターゲット記述子PTDは、影響を受けたオーディオ・トラックの時間セクションのみが、ミキシング・コマンドにより影響を受ける場合には、時間セクション情報と同様に、影響を受けたオーディオ・トラックST1からST Nのトラック識別子を含む。ミキシング・パラメータが後のステージにおいて分解されるクリスプ値か言語変数でもよいことに留意されたい。
【0158】
セマンティック・オーディオ分析40が提供された仕様において特定の焦点を有する複数のオーディオ・トラックST1からMTを分析するように、セマンティック・オーディオ分析40は、入力として、ターゲット時間セクションの仕様26および/またはターゲット・トラックの仕様27を任意に受信する。
【0159】
図13は、本願明細書において開示される教示にかかるオーディオミキサーの他の可能な構成の略ブロック図を示す。この構成は、オーディオ・トラック識別器430を特徴とする。
【0160】
図13に示される構成の基本構成は、実質的に
図9のように同じことである;しかしながら、いくつかのパーツは、明確にするため省略されている。
【0161】
オーディオ・トラックST1からST Nが楽器またはボーカル部分を含むことが、必ずしも直ちに明らかでない場合、オーディオ・トラック識別器430は、この情報を決定するために使用される。オーディオ・トラック識別器430は、セマンティック・オーディオ分析40の一部である。
【0162】
セマンティック・ミキシング・コマンドは、
図12と関連するターゲット・オーディオ・トラック識別表示27を含む。ターゲット・オーディオ・トラック識別表示27は、オーディオ・トラック・テンプレート・データベース432に提供される。オーディオ・トラック・テンプレート・データベース432は、ターゲット・オーディオ・トラック識別表示27に対応する1以上のデータ・レコードを提供し、そして、それ(またはそれら)をオーディオ・トラック識別器430に提供する。データ・レコードは、たとえば、測定値、サウンド・サンプルなどの形式における楽器についての情報を含みうる。それから、オーディオ・トラック識別器430は、複数のオーディオ・トラックST1からST Nの内の1つ毎のオーディオ信号を有するデータ・レコードにおいて含まれる情報を比較しうる。この目的を達成するために、オーディオ・トラック識別器は、たとえば、オーディオ・トラック信号のショートセクションをデータ・レコードからのサウンド・サンプル相互相関を実行する。他のオプションは、オーディオ・トラック信号の倍音の位置および大きさを決定し、データ・レコードにおいて対応するデータを結果と比較することとである。さらにもう1つのオプションは、オーディオ・トラック信号のアタック−ディケイ−サスティン−リリースの振る舞いを分析し、比較することによって与えられる。
【0163】
オーディオ・トラック識別器は、オーディオ・トラック・プロセッサ75が、たとえば、セマンティック・ミキシング・コマンドの範囲内における楽器名による表示にしたがって、各単一のオーディオ・トラックST1からST Nを処理しうるように、オーディオ・トラック・プロセッサ75に提供されるトラック識別表示情報を生成する。
【0164】
図14は、時間セクション識別器460が複数のオーディオ・トラックST1からMTから時間セクション情報を抽出するオーディオミキサーの他の可能な構成の略ブロック図を示す。時間セクション識別器460は、複数のオーディオ・トラックST1からMTに接続され、オーディオ・トラックST1からMTによって表される音楽作品の時間構造を分析するために構成される。特に、時間セクション識別器460は、音楽作品の範囲内において類似であるかまたは実質的に同一のセクションを探しうる。音楽作品が、ポピュラー音楽のジャンルに属する場合、これらの類似であるかまたは実質的に同一のセクションは、おそらく、曲のコーラスである。時間セクション識別器460は、時間セクション識別表示の精度を改善することができる音楽作品の拍子または小節をカウントも、しうる。
【0165】
時間セクション情報は、セクションの始めの時間値と終わりの時間値とを明確にするために、セマンティック・ミキシング・コマンドの範囲内において使用されるセマンティック時間セクションの表現を変換するために、それを使用したセマンティック・コマンド・インタプリタ35に提供される。
【0166】
時間セクション識別器によって実行された音楽作品の時間構造の分析は、従来において様々な研究者によって提案された1以上の方法を使用する。それらの論文「Automatic Music Summarization Based on Music Structure Analysis”, ICASSP 2005, Xi Shao et al.」において、参照されることによって本願明細書において引用した全体のコンテンツは、音楽構造分析に基づいて音楽の略説に対して新規な方法を示唆する。特に、音符の出だしが、最初に、曲の時間テンポを得るために、オーディオ信号から抽出される。音楽構造分析は、このテンポ情報に基づき実行されうる。音楽コンテンツが、序奏(イントロ)、バース、コーラス、エンディング(アウトロ)等のような異なる領域に構築された後、最終的な音楽の概要は、最終的な概要の所望の長さを得るために選択された前部または後部に含まれるコーラスおよび音楽フレーズを作成されうる。音楽構造分析は、メロディ・ベースの類似性領域(バース)およびコンテンツ・ベース類似性領域(コーラス)と区別する。
【0167】
「“Chorus Detection with Combined Use of MFCC and Chroma Features and Image Processing Filters”, Proc. of the 10th Int. Conference on Digital Audio Effects (DAFx−07), Bordeaux, France, September 10−15, 2007」において、著者のアンティ・エロネン(Antti Eronen)は、ポピュラーロック音楽においてコーラスセクションを検出するための計算機的に効率的な方法を記載する。その方法は、メル周波数ケプストラム係数およびピッチの色度の特徴を使用して計算される2つの別々の距離マトリクスを合計することによって得られる距離マトリクスの表現を利用する。エロネンの論文の全体の内容は、参照することによって、本願明細書に引用される。
【0168】
マーク・レビーら(Mark Levy et al.)は、その全体において参照されることによって、本願明細書に引用される内容の論文「“Extraction of High−Level Musical Structure from Audio Data and its Application to Thumbnail Generation”, ICASSP 2006」の著者である。この論文において、階層的な音質モデルを有する音楽オーディオのセグメント化のための方法が導かれる。新しい証拠は、音楽のセグメンテーションが音質特徴のクラスタリングとしての改作でありえ、新規なクラスタリングアルゴリズムであることが記載されることを示すように、提示される。
【0169】
「“A Chorus Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station”, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14, No. 5, September 2006」において、著者のマサタカ・ゴトーは、ポピュラー音楽のコンパクトディスク記録の繰り返されたコーラス(「フック」)セクションのリストを得るための方法を記載する。まず、伴奏の変化に関して強いクロマベクトルと呼ばれる12次元の特徴ベクトルが入力信号の各フレームから抽出され、そして、これらのベクトルとの類似点が算出される。繰り返されたセクションであると確認されるセクションは、リスト化され、集積される。方法は、変調後の繰り返されたコーラスセクションの検出を可能にする知覚的に動機づけされた音響特性および類似性を導くことによって、変調されたコーラスセクションを検出することさえできる。論文の全体の内容は、参照することによって本願明細書に引用される。
【0170】
そして、周知の自動の音楽構造分析方法の概要は、彼の論文「“Structural Analysis and Segmentation of Music Signals”, Universitat Pompeu Barcelona, 2007, ISBN 978−84−691−1756−9」において、Bee Suang Ongによって編集され、全体の内容は、参照することによって本願明細書に引用される。
【0171】
図15は、マルチトラック信号とともに供給されるメタデータ12を利用するために提供されるメタデータ・インタフェース480におけるオーディオミキサーのさらなる可能な構成の略ブロック図を示す。メタデータは、
図12および
図13に関連して述べたように、オーディオ・トラック構成または時間セクション情報についての情報を含みうる。
【0172】
ある場合、メタデータ12は、オーディオミキサーをマルチトラック信号からオーディオ・トラック情報、時間セクション情報または他の有益な情報を決定しなければならないことからセーブする。この種の決定は、計算機的に強いデータ処理のタスクを含みうる。そして、それに比較的長い時間がかかることができる。さらに、オーディオミキサー自体によって実行される決定の結果は、提供されるメタデータよりも信頼性が高くなくてもよく、そして、マルチトラック・オーディオ信号の発信者によって提供される。
【0173】
メタデータ・インタフェース480は、マルチトラック録音のデータ12からメタデータ12を抽出するように構成される。出力側において、メタデータ・インタフェース480は、セマンティック・コマンド・インタプリタ35の入力に接続される。
図15において示される構成において、セマンティック・コマンド・インタプリタ35は、セマンティック・ミキシング・コマンドから複数のミキシング・パラメータを導出するための処理において、メタデータ・インタフェース480によって提供されるメタデータ12を使用するように構成される。
【0174】
図16は、見本インタフェース490および見本となる混合信号分析器492が見本となる混合信号に基づきセマンティック・ミキシング・コマンドを生成するために提供される、オーディオミキサーの他の可能な構成の略ブロック
図20を示す。
【0175】
見本インタフェース490は、見本となる混合信号を受信するように構成される。見本となる混合信号は、たとえば、メモリに保存されるか、またはネットワークを通じて読み出されうる。ユーザは、彼/彼女の好みに従って、見本となる混合信号のコレクションから見本となる混合信号を選択しうる。なぜなら、彼/彼女は、どのように特定の混合信号が混合されることを好むからである。一般に、いくつかのオーディオ信号は見本となる混合信号として使用されうる、しかし、見本となる混合信号はマルチトラック録音に類似する構造およびスタイルを有する場合、典型的には、よりよい結果が要求される。たとえば、見本となる混合信号の楽器がオーディオミキサーによって混合されたマルチトラック信号の楽器として実質的に同様である場合、それは役立ちうる。
【0176】
見本インタフェース490は、混合信号分析器492へ見本となる混合信号を転送する。混合信号分析器492は、見本となる混合信号における楽器およびボーカルの部分を確認するように構成されうる。さらに、混合信号分析器492は、全体として、相対的な音の大きさのレベル、および/または確認された楽器部分、確認されたボーカル部分および/または見本となる混合信号の頻度曲線を決定しうる。残響のような音響効果の量を決定も、しうる。決定された値に基づいて、混合信号分析器492は、見本となる混合信号および/またはセマンティック・ミキシング・コマンドの概略を構築しうる。たとえば、混合信号分析器492によって実行される分析は、見本となる混合信号のドラム・トラックおよびベース・トラックが比較的目立つことを示す一方、他のトラックよりソフトである。したがって、セマンティック・ミキシング・コマンドは、ドラム・トラックおよびベース・トラックがオーディオミキサーによってもたらされる混合信号MSを通じて目立つ表現配置することを含みうる。
【0177】
見本インタフェース490は、見本となる混合信号とともに見本となるオーディオ・トラックも受信するように構成されうる。見本となるオーディオ・トラックは、
図16において、点線の長斜方形でマークされる「見本となるST」によって表される。見本となるオーディオ・トラックは、見本インタフェース490によって混合信号分析器492に提供される。見本となるオーディオ・トラックが見本となる混合信号を生成するために用いたという点で、見本となるオーディオ・トラックは見本となる混合信号に対応する。利用できる見本となるオーディオ・トラックについて、混合信号分析器492は、特定の見本となる混合信号がどのように見本となる混合信号に混合される前に修正されたかについて知るために、見本となる混合信号を見本となるオーディオ・トラックのそれぞれと比較することができる。このように、トラックに関連するミキシング・パラメータは、セマンティックの形式またはセミセマンティックの形式において、混合信号分析器492によって決定されうる。
【0178】
図17は、知覚プロセッサ63および知覚モデル64がセマンティック・ミキシング・コマンドをミキシング・パラメータに変換する処理を使用するオーディオミキサーの他の可能な構成の略ブロック図を示す。知覚プロセッサ63および知覚モデル64は、
図17における構成においてセマンティック・コマンド・インタプリタ35の部分として示される。上述したように、知覚プロセッサ63は、信号特性および人間の聴覚メカニズムを考慮することによって、知覚的な値から物理ミキシング・パラメータに変換する。人間の聴覚メカニズムを記載しているパラメータは、知覚モデル64によって提供される。聴覚モデル64は、データベースまたは知識ベースとして体系付けられる。データベースの入力は、聴覚関連の現象および音響効果、音の大きさ、相対的な音の大きさ、周波数コンテンツ等のパラメータの形式における対応する実装のセマンティックな記述を含む。聴覚関連の現象は、たとえば、「遠い」、「近い」、「平らな」、「フル」、「明るい」、「低周波の方へ偏る」、「高周波の方へ偏る」等のような表現によって記載される。対応する実装は、複数のオーディオ・トラックSTの1以上に対するミキシング・パラメータが、所望の効果を達成するためにどのように選択されるかを示す数値を含みうる。セマンティックな記述からミキシング・パラメータの対応する値へのマッピングは、典型的には、専門知識および心理音響に基づく。専門知識および心理音響は、精巧な科学的な試験および研究の間、得られている。
【0179】
図8および
図11ないし
図16において示される構成は、いかなる結合の各々とも結合されうる。たとえば、
図12および
図13に示される構成を結合することによって、オーディオ・トラック識別器430および時間セクション識別器460を含むオーディオミキサーが提供される。
【0180】
図18は、混合信号に複数のオーディオ信号を混合する方法の概略フローチャートを示す。102において、方法のスタートの後、ブロック104で示すように、セマンティック・ミキシング・コマンドが受信される。セマンティック・ミキシング・コマンドは、見本となる混合信号として1以上のパラメータを調整することによって複数のプレセットから選択されるように、キーボードを使用してテキスト形式でユーザによって、音声による指示として口頭で、または他の方法において、入力される。
【0181】
ブロック106によって表される働きで、複数のミキシング・パラメータは、セマンティック・ミキシング・コマンドから導出される。ミキシング・パラメータが、ユーザによって所望される結果に繋がるように、この働きは、専門知識および心理音響を含みうる。
【0182】
複数のオーディオ・トラックは、ブロック108により表される働きに関連してミキシング・パラメータに従って処理される。複数のオーディオ・トラックの処理は、設定音の大きさのレベル、パニング位置、音響効果、周波数フィルタリング(等化にする)および他の修正を含む。
【0183】
ブロック110により表される働きにおいて、ブロック112での方法終了の前に、処理から結果として得られるオーディオ・トラックは、混合信号を形成するために結合される。
【0184】
若干の態様が、装置に関連して記載されているが、これらの形態は対応する方法の記載も表すことは明らかである。ここで、1ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似して、方法ステップに関連して記載されている形態は、対応するブロックまたは項目または対応する装置の特徴の説明を表す。方法のステップのいくつかまたは全てが、たとえば、マイクロプロセッサ、プログラミング可能なコンピュータ、または電子回路のようなハードウェア装置によって(または使用して)実行されうる。若干の実施の形態において、最も重要なステップの若干またはより多くは、そのような装置によって実行されうる。
【0185】
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータシステムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、たとえば、フロッピー(登録商標)ディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
【0186】
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータシステムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
【0187】
通常、本発明の実施の形態は、プログラム・コードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラム・コードは、方法のうちの1つを実行するために作動される。プログラム・コードは、機械可読キャリアに、たとえば、格納されうる。
【0188】
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
【0189】
換言すれば、したがって、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラム・コードを有するコンピュータ・プログラムである。
【0190】
したがって、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび/または、暫定的である。
【0191】
したがって、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。たとえば、データストリームまたは一連の信号は、データ通信接続、たとえば、インターネットを介して転送されるように構成されうる。
【0192】
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、たとえば、コンピュータ、またはプログラミング可能な論理回路を含む。
【0193】
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
【0194】
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムを(たとえば、電子的にまたは光学的に)転送するために構成される装置またはシステムを含む。レシーバは、たとえば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。
【0195】
いくつかの実施の形態において、プログラミング可能な論理回路(たとえば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
【0196】
上述した実施の形態は、本発明の原理の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。