特許第6181651号(P6181651)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シルコフ,アレクサンダーの特許一覧 ▶ オラエフスキー,アレクセイの特許一覧 ▶ グリチン,アンドレイの特許一覧 ▶ ブロンドハイム,ジョージの特許一覧 ▶ ワンディンガー,マックスの特許一覧 ▶ アットウッド,ウェイドの特許一覧

特許6181651多重構造、多重レベルの情報形式化および構造化方法、ならびに関連する装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6181651
(24)【登録日】2017年7月28日
(45)【発行日】2017年8月16日
(54)【発明の名称】多重構造、多重レベルの情報形式化および構造化方法、ならびに関連する装置
(51)【国際特許分類】
   G10L 19/02 20130101AFI20170807BHJP
   G10L 19/008 20130101ALI20170807BHJP
【FI】
   G10L19/02 150
   G10L19/008 200
【請求項の数】63
【全頁数】46
(21)【出願番号】特願2014-525270(P2014-525270)
(86)(22)【出願日】2012年8月16日
(65)【公表番号】特表2014-529755(P2014-529755A)
(43)【公表日】2014年11月13日
(86)【国際出願番号】CA2012050562
(87)【国際公開番号】WO2013026155
(87)【国際公開日】20130228
【審査請求日】2015年8月6日
(31)【優先権主張番号】61/525,629
(32)【優先日】2011年8月19日
(33)【優先権主張国】US
(31)【優先権主張番号】61/588,101
(32)【優先日】2012年1月18日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】514038890
【氏名又は名称】シルコフ,アレクサンダー
(73)【特許権者】
【識別番号】514038904
【氏名又は名称】オラエフスキー,アレクセイ
(73)【特許権者】
【識別番号】514038915
【氏名又は名称】グリチン,アンドレイ
(73)【特許権者】
【識別番号】514038926
【氏名又は名称】ブロンドハイム,ジョージ
(73)【特許権者】
【識別番号】514038937
【氏名又は名称】ワンディンガー,マックス
(73)【特許権者】
【識別番号】514038948
【氏名又は名称】アットウッド,ウェイド
(74)【代理人】
【識別番号】100114775
【弁理士】
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【弁理士】
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100191086
【弁理士】
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】シルコフ,アレクサンダー
(72)【発明者】
【氏名】オラエフスキー,アレクセイ
(72)【発明者】
【氏名】グリチン,アンドレイ
(72)【発明者】
【氏名】ブロンドハイム,ジョージ
(72)【発明者】
【氏名】ワンディンガー,マックス
(72)【発明者】
【氏名】アットウッド,ウェイド
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特表平09−506983(JP,A)
【文献】 特開2011−075936(JP,A)
【文献】 特開2009−253706(JP,A)
【文献】 特開平10−093441(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/02−19/26
(57)【特許請求の範囲】
【請求項1】
情報を構造化する方法であって、前記方法は、
元のデジタル情報ファイルを分析して前記ファイルに関連付けられた元の情報量および元の情報値を決定することと、
前記元のデジタル情報ファイルに初期操作プロセスを適用して第1の生成デジタル情報ファイルを形成し、前記第1の生成デジタル情報ファイルに次の操作プロセスを適用して第2の生成デジタル情報ファイルを形成することであって、各操作プロセスは、前記処理されたデジタル情報ファイルの少なくとも一つの要素を除去することと、代表要素を有する前記処理されたデジタル情報ファイルの複数の要素の組合せと、前記組合せにおける前記代表要素および前記複数の要素のうちの少なくとも一つの間の相互関係に関連付けられた第1の印とを表現することとの少なくとも一つを行うことにより、前記情報量を縮小し、前記処理されたデジタル情報ファイルを構造化し、前記除去された要素および前記代表要素の少なくとも一つは前記処理されたデジタル情報ファイルの情報値を選択された閾値以下の値だけ下げるために決定されることと、
逐次的な操作プロセスを適用しても、前記先の生成デジタル情報ファイルよりも前記後の生成デジタル情報ファイルの情報量の閾値の低下が行われなくなるまで、前記先の生成デジタル情報ファイルに逐次的な操作プロセスを適用することであって、それにより、最終生成デジタル情報ファイルは、前記元の情報量に対して縮小された情報量と前記元の情報値の選択された閾値内に入る生成情報値とを有する一次構造を有することと、
を含む、方法。
【請求項2】
前期逐次的に操作プロセスを適用することは、前記先の生成デジタル情報ファイルに、逐次的に操作プロセスを適用して、複数の情報レベルを有する情報の階層に従って構成された、前記最終生成構造化デジタル情報ファイルを形成することをさらに含む、請求項1に記載の方法。
【請求項3】
前記情報の階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記方法は、前記下位の情報レベルの構造と前記下位の情報レベルの構造に関連するカオスシステムパラメータから前記上位の情報レベルを形成することをさらに含む、請求項2に記載の方法。
【請求項4】
前記情報の階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記方法は、前記上位の情報レベルが前記元の情報値よりも高い情報値価値を有するように前記上位の情報レベルを形成することをさらに含む、請求項2に記載の方法。
【請求項5】
前記情報の階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記方法は、前記上位の情報レベルの構造から複数の下位の情報レベルを形成することと、前記上位の情報レベルとの関連付けのために前記複数の下位の情報レベルの一つを選択することと、をさらに含む、請求項2に記載の方法。
【請求項6】
先のデジタル情報ファイルに複数の操作プロセスを同時に適用して第2の構造化デジタル情報ファイルを形成することをさらに含む、請求項1に記載の方法。
【請求項7】
前記第1および第2の構造化デジタル情報ファイルを分析して、第1および第2の構造化デジタル情報ファイルのうちの一つに含まれる情報レベル間の相互関係と、第1および第2の構造化デジタル情報ファイル間の相互関係とのうち少なくとも一つを決定することをさらに含む、請求項6に記載の方法。
【請求項8】
先のデジタル情報ファイルに複数の操作プロセスの少なくとも一つを適用することをさらに含み、前記操作プロセスは、無位相符号操作プロセス、繰り返し構造のための構造化分析操作プロセス、無位相の繰り返し符号操作プロセス、無損失エントロピー圧縮操作方法、先に縮小したオーディオデータファイルに対し追加の圧縮レイヤを形成するための無損失アクセラレータ操作プロセス、効率的なオーディオデータストリーミングを促進するためのアクセラレータ操作プロセス、アフィン変換符号操作プロセスから成るグループから選択される、請求項1に記載の方法。
【請求項9】
逐次的に操作プロセスを適用して前記元の情報値の選択された閾値内の生成情報値を得ることは、前記一次構造化デジタル情報ファイルの忠実性を保つために、逐次的に操作プロセスを適用して、元の情報値のうち、人間の知覚の限界を含む前記選択された閾値に入る生成情報値を得ることをさらに含む、請求項1に記載の方法。
【請求項10】
前記生成デジタル情報ファイルを形成することは、生成デジタル情報アイルの各々が、各オブジェクトおよびオブジェクトクラスタがそれぞれの規定を有する、オブジェクトおよびオブジェクトクラスタを含むように、前記生成デジタル情報ファイルを形成することをさらに含む、請求項1に記載の方法。
【請求項11】
前記処理されたデジタル情報ファイルの少なくとも一つの要素を除去することと、代表要素を有する前記処理されたデジタル情報ファイルの複数の要素の組合せを表現することとの少なくとも一つに操作プロセスを適用することは、前記処理されたデジタル情報ファイルの少なくとも一つの要素を除去することと、代表要素を有する前記処理されたデジタル情報ファイルの複数の要素の組合せと、前記組合せにおける前記代表要素および前記複数の要素のうちの少なくとも一つの間の相互関係に関連する第1の印と、前記組合せにおける前記複数の要素の少なくとも二つの間の相互関係に関連する第2の印とを表現することとの少なくとも一つに操作プロセスを適用することと、をさらに含む、請求項1に記載の方法。
【請求項12】
前記生成デジタル情報ファイルを形成することは、前記オブジェクトおよび前記オブジェクトに含まれるオブジェクトクラスタが前記代表要素の少なくとも一つを含むように、かつ、各オブジェクトおよびオブジェクトクラスタに関連付けられた前記規定が前記代表要素の少なくとも一つに関連付けられた、前記第1の相互関係の印と、任意選択で第2の相互関係の印とを含むように、前記生成デジタル情報ファイルを形成することをさらに含む、請求項10または11に記載の方法。
【請求項13】
前記対応するオブジェクトおよびオブジェクトクラスタを有する規定を、前記生成デジタル情報ファイルの各々に含めることをさらに含む、請求項12に記載の方法。
【請求項14】
対応する生成デジタル情報ファイルの各々とは別々に、前記オブジェクトおよびオブジェクトクラスタのセットに関連付けられた前記規定を維持することをさらに含む、請求項12に記載の方法。
【請求項15】
前記生成デジタル情報ファイルは、後の生成デジタル情報ファイルの各々が前記先の生成デジタル情報ファイル内にオブジェクトおよびオブジェクトクラスタの任意の認識されたパターンを含むように、前記結果デジタル情報ファイルを形成することをさらに含む、請求項1に記載の方法。
【請求項16】
逐次的な操作プロセスを適用しても、前記後の生成デジタル情報ファイルの情報量の閾値の低下行われなくなるまで、逐次的に操作プロセスを適用することは、前記最終生成デジタル情報ファイルが一次オブジェクト、一次オブジェクトクラスタおよびこれらに関連付けられた任意の相互関係のセットを含む構造を有するように、逐次的な操作プロセスの適用によっても前記後の生成デジタル情報ファイルの情報量の閾値の低下行われなくなるまで、逐次的に操作プロセスを適用することをさらに含む、請求項1に記載の方法。
【請求項17】
後の生成デジタル情報ファイルと前記最終生成デジタル情報ファイルとの各々を分析して、対応閾値を少なくとも満たす統計的相関のために、後続のデジタル情報ファイルの後続オブジェクトおよび先のデジタル情報ファイルのオブジェクトの先の組合せの間における統計的相関を決定し、後続の元のデジタル情報ファイルの分析のために、前記対応する後続オブジェクトおよびオブジェクトの先の組合せの相関の印を記憶することをさらに含む、請求項16に記載の方法。
【請求項18】
後の生成デジタル情報ファイルの各々を分析して先のオブジェクトの組合せの少なくとも一つの客観的相関と、前記組合せ、先のデジタル情報ファイルおける前記先のオブジェクトと少なくとも一つのオブジェクトとの間の関係とを決定することと、前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係を、複数の後続オブジェクトに亘って、後続のデジタル情報ファイルにおける対応する後続オブジェクト、前記対応する後続のオブジェクトに関連付けられた前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係に関連付けることと、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに関連付けられた前記相互関係を表すオブジェクト相関のセットを集合的に形成することとをさらに含む、請求項16に記載の方法。
【請求項19】
後の生成デジタル情報ファイルの各々を分析して先のデジタル情報ファイルの先のオブジェクトの組合せ間の少なくとも一つの客観的相関を決定することと、前記組合せにおける先のオブジェクトと少なくとも一つのオブジェクトとの間の関係を割り当てることと、前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係を、複数の後続オブジェクトに亘って、後続のデジタル情報ファイルにおける対応する後続オブジェクト、前記対応する後続のオブジェクトに関連付けられた前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係に関連付けることと、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに関連付けられた前記相互関係を表すオブジェクト相関のセットを集合的に形成することとをさらに含む、請求項16に記載の方法。
【請求項20】
少なくとも統計的閾値を満たし、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットとして、前記組合せに前記一次オブジェクトおよび一次オブジェクトクラスタを関連付ける前記オブジェクト相関の任意の組み合わせのために、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットを、前記オブジェクト相関の様々な組み合わせを統計的に評価することにより解釈することをさらに含む、請求項18または19に記載の方法。
【請求項21】
記構造における一次オブジェクトおよび一次オブジェクトクラスタのセットに前記コンテキスト解釈を適用することにより、前記元のデジタル情報ファイルに関連付けられた代表デジタル情報ファイルを合成することをさらに含む、請求項20に記載の方法。
【請求項22】
前記先のオブジェクト、前記後続オブジェクト、並びに前記一次オブジェクトおよび一次オブジェクトクラスタから選択される少なくとも一つのオブジェクトを、前記元のデジタル情報ファイルの複数の特徴の一つに関連付けることと、
前記元のデジタル情報ファイルの持続時間について前記複数の特徴の配列を決定して、前記配列に前記少なくとも一つのオブジェクトの配分を相関させることと、
をさらに含む請求項18または19に記載の方法。
【請求項23】
前記元のデジタル情報ファイルの持続時間に亘り、前記複数の特徴の各々に関連付けられた前記少なくとも一つのオブジェクトの配分の一般表現を備える要約データファイルを形成することをさらに有する、請求項22に記載の方法。
【請求項24】
逐次的な操作プロセスの適用を適用しても、前記後の生成デジタル情報ファイルの情報量の閾値の低下行われなくなるまで、逐次的な操作プロセスを適用することは、前記後の生成デジタル情報ファイルに逐次的に適用される前記操作プロセス量および順序をカタログ化して、前記構造を有する前記最終生成デジタル情報ファイルを得ることをさらに含み、前記操作プロセス量は、情報階層の対応する階層に関連付けられる、請求項16に記載の方法。
【請求項25】
前記方法は、条件プロセスに従って前記元のデジタル情報ファイルに関連する代表デジタル情報ファイルを合成することをさらに含み前記条件プロセスは、
任意の適用可能な相関の印を前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに適用して、前記セットに関連付けられた前記対応する先の組合せを決定することと、
前記適用可能な相関の印が決定されない場合、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに前記コンテキスト解釈を適用して、前記セットに関連付けられた対応する先の組合せを決定することと、
前記コンテキスト解釈の適用が前記元の情報値に関連付けられた閾値の情報値を下回る場合、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに、前記操作プロセスの逆順序における最初の操作である初期リバース操作プロセスを適用して前記セットに関連付けられた対応する先の組合せを決定することと、
を含む、請求項17、20および24のいずれか一項に記載の方法。
【請求項26】
記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットから決定された前記オブジェクトの先の組合せに対し、任意の適用可能な相関の印、前記対応するコンテキスト解釈、または前記オブジェクトの先の組合せに対応する前記操作プロセスの逆順序における第2の逆操作プロセスを含む前記条件プロセスを適用して、前記オブジェクトの先の組合せに対応する、オブジェクトの次なる先の組合せを決定することをさらに含む、請求項25に記載の方法。
【請求項27】
前記生成オブジェクトの先の組合せが前記情報階層の初期層に関連付けられるまで前記オブジェクトの次なる先の組合せに前記条件プロセスを逐次的に適用することをさらに含み、それにより、前記先の生成デジタル情報ファイルが前記合成された代表デジタル情報ファイルに対応する、請求項26に記載の方法。
【請求項28】
前記元のデジタル情報ファイルはデジタルオーディオファイルであり、前記方法は、前記デジタルオーディオファイルの情報量を前記デジタルオーディオファイルのサイズおよび持続時間に比例するビットレートに関連付けること、前記デジタルオーディオファイルの情報値を前記デジタルオーディオファイルの品質に関連付けることとをさらに含み、前記品質は、入力信号としてランダムノイズを使用する確率分布関数に従って決定されるランダムカオス変動事象、無品質低下基準、または陰関数から決定される時間周波数領域の単位半径のn次元球の表面積から識別されるプリモトロンエネルギー閾値、知覚情報基準(PIC)、およびサウンド構造の少なくとも一つから決定される、請求項1〜17のいずれか一項に記載の方法。
【請求項29】
前記先の生成デジタルオーディオファイルに逐次的に操作プロセスを適用して前記最終生成構造化デジタル音楽ファイルを形成することは、前記先の生成デジタルオーディオファイルに逐次的に操作プロセスを適用して複数の情報レベルを有する情報階層に従って構成された前記最終生成構造化デジタルオーディオファイルを形成することをさらに含み、下位の情報レベルは高解像度のデジタル情報ファイルとして前記オーディオの表現を含み、上位の情報レベルは対応する歌詞を含む手書きの楽譜を含む用紙表現を含み、それにより前記上位の情報レベルは前記下位の情報レベルよりも情報量が少なく、それにより前記下位の情報レベルは前記用紙表現に従った前記オーディオの性能およびデジタル化に関連付けられた前記上位の情報レベルとカオスシステムパラメータから形成することができる、請求項28に記載の方法。
【請求項30】
前記先の生成デジタルオーディオファイルに逐次的に操作プロセスを適用して最終生成構造化デジタル音楽ファイルを形成することは、前記先の生成デジタルオーディオファイルに逐次的に操作プロセスを適用して時間領域および時間周波数領域のうちの一つにおいて規定された少なくとも一つのプリモトロンを含む前記最終生成構造化デジタルオーディオファイルを形成することをさらに含み、それにより前記最終生成構造化デジタルオーディオファイルは調和信号のコンパクトなデジタル形式化を表現し、前記オーディオビットレートに関連付けられた前記情報量は、前記オーディオ品質に関連付けられた前記情報値が前記元のデジタル情報ファイルに対応する前記デジタルオーディオファイルの閾値内に維持されつつ、前記元のデジタル情報ファイルに対応する前記デジタルオーディオファイルに比較して縮小される、請求項29に記載の方法。
【請求項31】
各デジタルオーディオファイルは調波関連データを表現し、前記方法は、時間領域の上位レベルの階層構造としてヒットを規定することと、先の調波プリモトロン終点に一致する後続の調波プリモトロン始点を有する周波数領域の上位レベルの階層構造として調波を規定することと、時間領域の下位レベルの階層構造の冗長性を除去して前記上位レベルの階層構造のエントロピーを減少させること、前記下位レベルの階層構造に対応する単一の基本周波数と、前記単一の基本周波数から固定周波数により偏移した前記上位レベルの階層構造の複数の複製を有する周波数領域の上位レベルの階層構造として倍音を規定することをさらに含む、請求項28〜30のいずれか一項に記載の方法。
【請求項32】
情報を構造化するためのシステムであって、
元のデジタル情報ファイルを分析して前記ファイルに関連付けられた元の情報量および元の情報値を決定するように構成されたプロセッサを有する第1分析装置と、
前記第1分析装置と動作可能に連動し、プロセッサを有するデジタルファイル縮小装置であって、前記プロセッサは、
前記元のデジタル情報ファイルに初期操作プロセスを適用して第1の生成デジタル情報ファイルを形成し、前記第1の生成デジタル情報ファイルに次の操作プロセスを適用して第2の生成デジタル情報ファイルを形成することであって、各操作プロセスは、前記処理されたデジタル情報ファイルの少なくとも一つの要素を除去することと、代表要素を有する前記処理されたデジタル情報ファイルの複数の要素の組合せと、前記組合せにおける前記代表要素および前記複数の要素のうちの少なくとも一つの間の相互関係に関連付けられた第1の印とを表現することとの少なくとも一つを行うことにより、前記情報量を縮小し、前記処理されたデジタル情報ファイルを構造化するように構成されており、前記除去された要素および前記代表要素の少なくとも一つは前記処理されたデジタル情報ファイルの情報値を選択された閾値以下の値だけ下げるために決定されることと
逐次的な操作プロセスを適用しても、前記先の生成デジタル情報ファイルよりも前記後の生成デジタル情報ファイルの情報量の閾値の低下が行われなくなるまで、前記先の生成デジタル情報ファイルに逐次的な操作プロセスを適用することであって、それにより、前記最終生成デジタル情報ファイルは、前記元の情報量に対して縮小された情報量と前記元の情報値の選択された閾値内に入る生成情報値とを有する一次構造を有することと
を行うように構成される、デジタルファイル縮小装置と
を備える、システム。
【請求項33】
前記デジタルファイル縮小装置のプロセッサは、前記先の生成情報ファイルに操作プロセスを逐次的に適用して、複数の情報レベルを有する情報階層に従って構成された前記最終生成構造化デジタル情報ファイルを形成するようにさらに構成される、請求項32に記載のシステム。
【請求項34】
前記情報階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記デジタルファイル縮小装置のプロセッサは、前記下位の情報レベルの構造と前記下位の情報レベルの構造に関連付けられたカオスシステムパラメータから前記上位の情報レベルを形成するようにさらに構成されている、請求項33に記載のシステム。
【請求項35】
前記情報階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記デジタル縮小装置のプロセッサは前記上位の情報レベルが前記元の情報値よりも高い情報値価値を有するように前記上位の情報レベルを形成するようにさらに構成されている、請求項33に記載のシステム。
【請求項36】
前記情報階層の上位の情報レベルは下位の情報レベルよりも情報量が少なく、前記デジタルファイル縮小装置のプロセッサは、前記上位の情報レベルの構造から複数の下位の情報レベルを形成し、前記上位の情報レベルとの関連付けのために前記複数の下位の情報レベルの一つを選択するようにさらに構成されている、請求項33に記載のシステム。
【請求項37】
前記デジタルファイル縮小装置のプロセッサは、先のデジタル情報ファイルに複数の操作プロセスを同時に適用して二次構造化デジタル情報ファイルを形成するように構成されている、請求項32に記載のシステム。
【請求項38】
前記一次および二次構造化デジタル情報ファイルを分析して、前記一次および二次構造化デジタル情報ファイルのうちの一つに含まれる情報レベル間の相互関係と、前記一次および二次構造化デジタル情報ファイル間の相互関係とのうち少なくとも一つを決定するように構成された、プロセッサを有する第2分析装置をさらに備える、請求項37に記載のシステム。
【請求項39】
前記デジタルファイル縮小装置のプロセッサは、先のデジタル情報ファイルに複数の操作プロセスの少なくとも一つを適用するように構成されており、前記操作プロセは、無位相符号化操作プロセス、繰り返し構造のための構造化分析操作プロセス、無位相反復符号化操作プロセス、無損失エントロピー圧縮操作方法、先に縮小したオーディオデータファイルに対し追加の圧縮レイヤを形成するための無損失アクセラレータ操作プロセス、効率的なオーディオデータストリーミングを促進するためのアクセラレータ操作プロセス、およびアフィン変換符号操作プロセスから成るグループから選択される、請求項32に記載のシステム。
【請求項40】
前記デジタルファイル縮小装置のプロセッサは、前記一次構造デジタル情報ファイルの忠実性を保つために、操作プロセスを逐次的に適用して、元の情報値のうち人間の知覚の限界を含む前記選択された閾値内に入る生成情報値を得るように構成されている、請求項32に記載のシステム。
【請求項41】
前記デジタルファイル縮小装置のプロセッサは、生成デジタル情報ファイルの各々が、各オブジェクトおよびオブジェクトクラスタがそれぞれの規定を有する、前記オブジェクトおよびオブジェクトクラスタのセットを含むように、前記生成デジタル情報ファイルを形成するように構成されている、請求項32に記載のシステム。
【請求項42】
前記デジタルファイル縮小装置のプロセッサは、前記処理されたデジタル情報ファイルの少なくとも一つの要素を除去することと、代表要素を有する前記処理されたデジタル情報ファイルの複数の要素の組合せと、前記組合せにおける前記代表要素および前記複数の要素のうちの少なくとも一つの間の相互関係に関連付けられた第1の印と、前記組合せにおける前記複数の要素の少なくとも二つの間の相互関係に関連付けられた第2の印とを表現することとの少なくとも一つに操作プロセスを適用するように構成される、請求項32に記載のシステム。
【請求項43】
前記デジタルファイル縮小装置のプロセッサは、前記オブジェクトおよび前記オブジェクトに含まれるオブジェクトクラスタが前記代表要素の少なくとも一つを含むように、かつ、各オブジェクトおよびオブジェクトクラスタに関連付けられた前記規定が前記代表要素の少なくとも一つに関連付けられた、前記第1の相互関係の印と、任意選択で第2の相互関係の印とを含むように、前記生成デジタル情報ファイルを形成するように構成されている、請求項41または42に記載のシステム。
【請求項44】
前記デジタルファイル縮小装置のプロセッサは、前記対応するオブジェクトおよびオブジェクトクラスタのセットを有する規定を、前記生成デジタル情報ファイルの各々に含めるように構成されている、請求項43に記載のシステム。
【請求項45】
前記デジタルファイル縮小装置のプロセッサは、対応する生成デジタル情報ファイルの各々とは別々に、前記オブジェクトおよびオブジェクトクラスタのセットに関連付けられた前記規定を維持するように構成されている、請求項43に記載のシステム。
【請求項46】
前記デジタルファイル縮小装置のプロセッサは、後の生成デジタル情報ファイルの各々が、前記先の生成デジタル情報ファイル内にオブジェクトおよびオブジェクトクラスタの任意の認識されたパターンを含むように前記結果デジタル情報ファイルを形成するように構成されている、請求項32に記載のシステム。
【請求項47】
前記デジタルファイル縮小装置のプロセッサは、逐次的な操作プロセスを適用しても、前記後の生成デジタル情報ファイルの情報量の閾値の低下行われなくなるまで、逐次的に操作プロセスを適用するように構成され、それにより、前記最終生成デジタル情報ファイルが一次オブジェクト、一次オブジェクトクラスタおよびこれらに関連付けられた任意の相互関係のセットを含む構造を有する、請求項32に記載のシステム。
【請求項48】
後の生成デジタル情報ファイルと前記最終生成デジタル情報ファイルとの各々を分析して、対応閾値を少なくとも満たす統計的相関のために、後続のデジタル情報ファイルの後続オブジェクトおよび先のデジタル情報ファイルのオブジェクトの先の組合せの間における統計的相関を決定し、後続の元のデジタル情報ファイルの分析のために、前記対応する後続オブジェクトおよびオブジェクトの先の組合せの相関の印を記憶するように構成された、プロセッサを有する第2の分析装置をさらに備える、請求項47に記載のシステム。
【請求項49】
後の生成デジタル情報ファイルの各々を分析して先のオブジェクトの組合せの少なくとも一つの客観的相関と、前記組合せ、先のデジタル情報ファイルおける前記先のオブジェクトと少なくとも一つのオブジェクトとの間の関係とを決定し、前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係を、複数の後続オブジェクトに亘って、後続のデジタル情報ファイルにおける対応する後続オブジェクト、前記対応する後続のオブジェクトに関連付けられた前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係に関連付け、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに関連付けられた前記相互関係を表すオブジェクト相関のセットを集合的に形成するように構成されたプロセッサを有する第2の分析装置をさらに備える、請求項47に記載のシステム。
【請求項50】
後の生成デジタル情報ファイルの各々を分析して先のデジタル情報ファイルの先のオブジェクトの組合せ間の少なくとも一つの客観的相関を決定し、前記組合せにおける先のオブジェクトと少なくとも一つのオブジェクトとの間の関係を割り当てることと、前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係を、複数の後続オブジェクトに亘って、後続のデジタル情報ファイルにおける対応する後続オブジェクト、前記対応する後続のオブジェクトに関連付けられた前記少なくとも一つの客観的相関および前記少なくとも一つのオブジェクト間の関係に関連付け、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに関連付けられた前記相互関係を表すオブジェクト相関のセットを集合的に形成するように構成されたプロセッサを有する第2の分析装置をさらに備える、請求項47に記載のシステム。
【請求項51】
前記オブジェクト相関のセットに含まれるオブジェクト相関の様々な組み合わせを統計的に評価し、かつ、少なくとも統計的閾値を満たす前記オブジェクト相関の任意の組み合わせのために、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットを解釈するように、かつ、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットのコンテキスト解釈として、前記組合せを前記一次オブジェクトおよび一次オブジェクトクラスタに関連付けるように構成されたプロセッサを有する第3分析装置をさらに備える、請求項49または50に記載のシステム。
【請求項52】
記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに前記コンテキスト解釈を適用することにより、前記元のデジタル情報ファイルに関連付けられた代表デジタル情報ファイルを合成するように構成されたプロセサを備える合成装置をさらに備える、請求項51に記載のシステム。
【請求項53】
少なくとも一つのオブジェクトを前記元のデジタル情報ファイルの複数の特徴の一つと関連付けることであって、前記少なくとも一つのオブジェクトは、前記先のオブジェクト、前記後続オブジェクト、並びに前記一次オブジェクトおよび一次オブジェクトクラスタから選択されることと
前記元のデジタル情報ファイルの持続時間について前記複数の特徴の配列を決定して、前記配列に前記少なくとも一つのオブジェクトの配分を相関させることと、
を行うように構成されたプロセッサを有する第3分析装置をさらに備える、請求項49または50に記載のシステム。
【請求項54】
前記第3分析装置のプロセッサは、前記元のデジタル情報ファイルの持続時間に亘り前記複数の特徴の各々に関連付けられた前記少なくとも一つのオブジェクトの配分の一般化表現を含む要約ファイルを形成するように構成されている、請求項53に記載のシステム。
【請求項55】
前記デジタルファイル縮小装置のプロセッサは、前記後の生成デジタル情報ファイルに逐次的に適用される前記操作プロセス量および順序をカタログ化して、前記構造を有する前記最終生成デジタル情報ファイルを得るように構成され、前記操作プロセス量は、対応する階層の情報階層の対応する階層に関連付けられる、請求項47に記載のシステム。
【請求項56】
前記システムは、条件プロセスに従って前記元のデジタル情報ファイルに関連する代表デジタル情報ファイルを合成するように構成されるプロセッサを有する合成装置をさらに備え、前記条件プロセスは、
任意の適用可能な相関の印を前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに適用して、前記セットに関連付けられた対応する先の組合せを決定することと、
前記適用可能な相関の印が決定されない場合、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに前記コンテキスト解釈を適用して、前記セットに関連付けられた前記対応する先の組合せを決定することと、
前記コンテキスト解釈の適用が前記元の情報値に関連付けられた閾値の情報値を下回る場合、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットに、前記操作プロセスの逆順序における最初の操作である初期リバース操作プロセスを適用して前記セットに関連付けられた前記対応する先の組合せを決定することと、
を含む、請求項48、51および55のいずれか一項に記載のシステム。
【請求項57】
前記合成装置のプロセッサは、前記構造における前記一次オブジェクトおよび一次オブジェクトクラスタのセットから決定される前記オブジェクトの先の組合せに対し、任意の適用可能な相関の印、前記対応するコンテキスト解釈、または前記オブジェクトの先の組合せに対応する前記操作プロセスの逆順序における第2の逆操作プロセスを含む前記条件プロセスを適用して、前記オブジェクトの先の組合せに対応する、オブジェクトの次なる先の組合せを決定するように構成されている、請求項56に記載のシステム。
【請求項58】
前記合成装置のプロセッサは、前記結果オブジェクトの先の組合せが前記情報階層の初期層に関連付けられるまで前記オブジェクトの次なる先の組合せに前記条件プロセスを逐次的に適用するように構成されており、それにより、前記結果先のデジタル情報ファイルが前記合成された代表デジタル情報ファイルに対応する、請求項57に記載のシステム。
【請求項59】
前記元のデジタル情報ファイルはデジタルオーディオファイルでり、前記デジタルファイル縮小装置のプロセッサは、前記デジタルオーディオファイルの情報量を前記デジタルオーディオファイルのサイズおよび持続時間に比例するビットレートに関連付け、前記デジタルオーディオファイルの情報値を前記デジタルオーディオファイルの品質に関連付けるように構成されており、前記品質は、入力信号としてランダムノイズを使用する確率分布関数に従って決定されるランダムカオス変動事象、無品質低下基準、または陰関数から決定される時間周波数領域の単位半径のn次元球の表面積から識別されるプリモトロンエネルギー閾値、知覚情報基準(PIC)、およびサウンド構造の少なくとも一つから決定される、請求項32〜48のいずれか一項に記載のシステム。
【請求項60】
前記デジタルファイル縮小装置のプロセッサは、前記先の生成デジタルオーディオファイルに操作プロセスを逐次的に適用して複数の情報レベルを有する情報階層に従って構成された前記最終生成構造化デジタルオーディオファイルを形成するように構成されており、下位の情報レベルは高解像度デジタル情報ファイルとして前記オーディオ表現を含み、上位の情報レベルは対応する歌詞を含む手書きの楽譜を含む用紙表現を含み、それにより前記下位の情報レベルは前記用紙表現に従った前記オーディオの性能およびデジタル化に関連付けられた前記上位の情報レベルとカオスシステムパラメータから形成することができる、請求項59に記載のシステム。
【請求項61】
前記デジタルファイル縮小装置のプロセッサは、操作プロセスを前記先の生成デジタルオーディオファイルに逐次的に適用して時間領域および時間周波数領域のうちの一つにおいて規定された少なくとも一つのプリモトロンを含む前記最終生成構造化デジタルオーディオファイルを形成するように構成されており、それにより、前記最終生成構造化デジタルオーディオファイルは調和信号のコンパクトなデジタル形式化を表現し、前記オーディオビットレートに関連付けられた前記情報量は、前記オーディオ品質に関連付けられた前記情報値が前記元のデジタル情報ファイルに対応する前記デジタルオーディオファイルの閾値内に維持されつつ、前記元のデジタル情報ファイルに対応する前記デジタルオーディオファイルに比較して縮小される、請求項60に記載のシステム。
【請求項62】
各デジタルオーディオファイルは調波関連データを表現し、前記デジタルファイル縮小装置のプロセッサは、時間領域の上位レベルの階層構造としてヒットを規定し、先の調波プリモトロン終点に一致する後続の調波プリモトロン始点を有する周波数領域の上位レベルの階層構造として調波を規定し、時間領域の下位レベルの階層構造の冗長性を除去して前記上位レベルの階層構造のエントロピーを減少させ、前記下位レベルの階層構造に対応する単一の基本周波数と、前記単一の基本周波数から固定周波数により偏移した前記上位レベルの階層構造の複数の複製を有する周波数領域の上位レベルの階層構造として倍音を規定するように構成されている、請求項59〜61のいずれか一項に記載のシステム。
【請求項63】
プロセッサによって実行されると、少なくとも請求項1〜31のいずれか一項に記載の方法を装置に実行させる、コンピュータ可読プログラムコード部を内蔵したコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2011年8月19日出願の米国特許仮出願第61/525,629号明細書および2012年1月18日出願の米国特許仮出願第61/588,101号明細書の利益を主張し、これらは参照により本明細書に組み込まれる。
【0002】
本開示の態様は、オーディオの分析、操作および表現を含む、形式化および構造化を実現するための情報処理に関し、より詳細には、デジタルメディアを含む調和的に構成されたデータに関連する情報値と情報量との間の構造分析および関係の決定を行うシステムおよび方法に関する。
【背景技術】
【0003】
オーディオデジタルデータまたは他のデジタルデータの統一された形式化のために様々な技術が実施されているが、このような形式化の広く認められている規格は、当業界でほとんど利用できない場合がある。例えば、サウンド信号の簡易なオーディオ表現を用いる技術があり、これは主に、音声認識、音声構成および音楽を表現するデジタルデータの圧縮を含む。一態様では、対応する波形によってサウンド信号を表現する音声技術が発展しているが、そのような技術は音声データ中の単語や、さらにはフレーズ全体に基づき機能する。そのような単語/フレーズの基盤は人間の脳が自然に知覚するような情報の形態を表現す。一方、音楽表現のために実施される形式化技術は、一般的に、例えば人間の耳による音の身体的知覚の情報に近い形態で情報の身体的知覚表現のみを使用する。
【0004】
これまで、音楽のより概念的な共通表現の他の試みが行われているが、大部分は成功していない。成功が得られていないのは、例えば、音声情報が、多くの世代にわたって確立され微調整されてきた正確な数学を用いて設計された一次言語およびその記述構文の形態を含むという事実に起因する。一方、例えば音色サンプルやサウンドサンプルに基づいた既存の音楽表現は音声情報分析に比べて比較的原始的であり、そのような表現のほとんどは共通して利用するこができない。
【0005】
この点、現在利用可能な比較的有益なサウンドデジタル表現は、一般に非圧縮オーディオと呼ばれるPCM形式であるといえる。しかし、そのような形式が比較的有益だとしても、この有益性はデータファイルサイズが相対的に大きくなることで相殺される。同様に、大きなデータファイルサイズにより、例えば、このようn形式または表現が、迅速な配信/伝達、および/またはコンパクトな収納等に対して不適または実行不可能となる。このような特性が望ましい場合、有益性は下がるか、例えば、MP3、OGG、WMAや他の古典的な心理音響モデルまたは表現で用いられているような一般的なアプローチを一般的に用いてデータ縮小させる、よりコンパクトな表現が開発されており、今も開発中である。しかしながら、自然音は、効率的に分析することができる典型的なオーディオ信号の表現/モデルよりも冗長性を含む。さらに、人間の音楽の知覚は、一般に、既存のどのような心理音響モデルよりもはるかに複雑である。よって、(提供される表現の完全性の観点から)さらに有益なやり方で、サウンド/オーディオ、音楽および/または他の任意の調波関連のデジタルデータをよりコンパクトに(すなわち、より少量のデータで)表現することができる、サウンド形式化の向上を提案する必要がある。
【0006】
この要求を満たすための試みにおいて、MP3−Pro、HE AAC、MP3 PlusV、MPEG−4 SSC、およびMPEG−4 structured audio、並びにMIDIなどにおいて、より進歩した表現/モデルが開発され、現在用いられている。MP3−ProおよびHE AACは、基本的に、特定の位相を保つことも信号中の類似検索を行うこともなく、オーディオ信号中の構造要素を抽出する基盤として人間の知覚特性を使用する。低周波数は位相を保持しないが、エネルギー変換および信号のカオス的性質など、類似原理および一般的なサウンドパラメータは保持して、高周波数に置き換えられる。MP3−PlusVは、位相を保つことなく調波を抽出、記憶および生成し、信号の高周波数部分を決定するために適用され得る。MPEG−4 SSC(正弦波符号化)は、調波、ヒットおよびノイズなど体系化された一式のオブジェクトとして信号を表現する方法である。しかしながら、信号からこうしたオブジェクトを抽出する方法は、人間の脳の自然の知覚スキームと異なる。それ故、この表現/モデルから信号を再生すると望ましくない副作用が含まれ得る。MPEG−4構造化オーディオは、種々のサウンド構造を生成できる統一アルゴリズムによってサウンドの表現を試みる。このアプローチは見込みがあるが、そのようなアルゴリズムの作成は必要とされるコンピュータリソースのため問題となる。MIDI形式は、通常は比較的小さなデータファイルサイズで済むが、MPEG−4 Structured Audiと同様に、音楽を手動書込みするために一般的に適しており、自然に生じるサウンドおよび/または作成済みのオーディオ合成の表現には適さない表現/モデルである。
【発明の概要】
【発明が解決しようとする課題】
【0007】
従って、古典的で心理音響的な方法またはモデルと比較して、オーディオ信号に内在する知覚冗長性を減少または排除する試みが進められているが、既存の構造化オブジェクト指向のサウンド表現/モデルは低ビットレートの初期信号(すなわち多くの情報量)の情報性の範囲を損失しがちであり、音声表現/モデルがよりコンパクトなデータファイルサイズを作る際に、容認できる程度の元のオーディオ信号量を保つことができない。このため、元のデジタル情報ファイルの閾値内か、閾値を上回る情報値を維持しつつ、適切に構造化することによりデジタル情報ファイルの情報量またはビットレートを低減することができる、オーディオなどデジタルメディアのための形式化構想および構成に対するニーズが存在する。
【課題を解決するための手段】
【0008】
上述および他のニーズは本開示の態様により満足される。その態様の一つは、オーディオ信号基準として高度に体系化された構造およびパラメータのみを使用することに関する。別の態様は、情報プリモトロンまたは他のデータ要素から種々のサウンド構造を逐次的に成長させて、複雑だが(データファイルサイズについて)よりコンパクトな、情報に富んだ構造を作り出す方法を含む。高次レベル構造は、時間により局在化され得るか、周波数により局在化され得るか、または複合的な(すなわち時間周波数の)局在化を有し得るサウンド情報プリモトロンから成り、そのような情報プリモトロンは音声信号の音素を含む高次サウンドまたは他のメディア構造の展開や作成を容易にし得る。時間により局在化されるプリモトロンは、(オーディオについて)アタックおよびヒット、並びに上位レベルのリズムを生成し得、周波数により局在化されるプリモトロンは、調波の起源、上位レベルの倍音モデルおよび上位レベルの再現メロディである。さらに別の態様は信号プリモトロンをさらなる分類および分析のために時間周波数クラスタに体系化することを含む。本開示のさらに別の態様は、情報階層の各レベルにいて、容認できる程度の元のデジタル情報ファイルを備えた、時間周波数クラスタ毎のサウンド構造構築領域(SSCD)を生成するための、数多くの自己適応するオーディオ形式化の分析方法の同時使用を対象とする。本開示の追加的態様は、開示する技術の態様により提供される比較的小さなデータファイルサイズを組み合わせた、比較的高レベルの情報性により実現される、上記サウンド/オーディオ形式化技術の適用を対象とする。
【0009】
本明細書で使用されるように、「プリモトロン」(primotron)は、サウンドまたはオーディオなどのメディアのデジタル形式化のための多重構造、多重レベル(MSML)オブジェクトまたは実体を含む一次的代表データ要素または構造として定義することができ、これは、(データファイルサイズに対して)複雑ではあるがよりコンパクトな情報に富む構造を作成するために使用することができる。高次レベル構造のサウンド情報プリモトロンは、時間により局在化され得、周波数により局在化され得、および/またはハイブリッド(すなわち、時間周波数)のローカリゼーションを有し得る。時間により局在化されたプリモトロンは、アタックおよびヒット、並びに(オーディオについて)より上位レベルリズムを生成し得、一方周波数により局在化されたプリモトロンは、調波、上位レベルの倍音モデル、およびより上位レベルの回帰モデルの起源である。一般的に、本明細書で開示するような形式化方法の態様により決定されるプリモトロンは、デジタルオーディオファイルのビット行列の様々なレベルおよび/または様々な次元にある一つ以上のビットまたはデータ要素のパターンまたは組み合わせを表現し、次に、デジタルオーディオファイルは、該ファイルに含むために識別および/または決定されたそのようなプリモトロンの組合せにより表現することができることとなる。そのようなパターンの展開または「生存歴」は、デジタルオーディオファイルの時間または時間周波数期間内のうちの一秒足らずから数分まで異なり得る「生存期間」を有する有限数の構造、すなわち各々のプリモトロンにより規定される動的カオスシステムにおける情報展開の原理によりさらに特徴付けられ得る。デジタルオーディオファイルは、デジタルオーディオファイルのビット行列のビットのサブセット、またはデジタルオーディオファイルに関連付けられた他の構造または実体を表現するプリモトロンのそのような組合せまたは生体系により表現されるため、識別されたプリモトロンの組合せを含むMSMLオーディオファイルは、例えば、(元のデジタルオーディオファイルの知覚閾値内のデジタルオーディオファイルの情報品質を保持しつつ)元のデジタル化されたオーディオファイルと比較して縮小されたデータファイルサイズ(情報量)を提示し得る。そのようなプリモトロンは、デジタルオーディオファイルの情報性を元のデジタル音声ファイルの知覚閾値内に保持しつつ、特定のデジタル音声ファイルの情報量またはビットレートの縮小を容易にし得る。それに従って、そのような高度に構造化された多重機能のデジタルデータ形式は、調和に基づいて、または調和的に構築された高忠実度の(音楽、声、および他のサウンドに基づくメディアを含む)オーディオ信号の形態で表現された任意の素材を、元のデジタルデータ信号の閾値内で非常にコンパクトかつ効率的に記憶および再生するように構成され得る。
【0010】
別の観点からは、本開示の態様は多重構造、多重レベル(MSML)形式化としてサウンド構成を表現するシステムおよび方法を提供し、サウンド構成のうち任意の、比較的上位の構造レベルは、例えば知覚情報基準(PIC)を使用して、該サウンド構成のうち比較的下位レベルの要素を統合したものとして構成され得る。PICは例えば、一レベルの知覚情報が該レベルの構成要素たる個々の要素の情報値の合計未満であれば満足するものとみなされる。ゼロレベルは、情報量が「知覚エントロピー」に等価なレベルとして規定される。高次レベルは、時間により局在化されるか、周波数により局在化されるか、および/または複合的な局在化を有し得るサウンド情報プリモトロン(または一次音声構造)を含み得る。情報不足は、音声信号の音素を含み得る高次サウンド構造を生じさせ得る。時間により局在化されるプリモトロンは、アタックおよびヒット、並びに上位レベルのリズムを生成し得る。周波数により局在化されるプリモトロンは、調波の源泉、上位レベルの倍音モデル、次いで上位レベルの再現メロディに関連付けられ得る。一旦構築されると、各サウンド構成または信号のMSML形式化は、別のサウンド構成または信号のMSML形式化を用いて形態が変化されるか、または該MSML形式化へと形態が変化されるか、あるいは該MSML形式化組み合わされて、それにより、より複雑な上位レベルのMSML意味構造を形成することができる。
【0011】
より詳細には、本開示の態様は、情報を構造化するための方法およびシステムを提供する。そのような方法およびシステムは、一般に、元のデジタル情報ファイを分析して該ファイルに関連付けられた元の情報量と元の情報値とを決定することに関する。次に、最初の操作プロセスが元のデジタル情報ファイルに適用されて第1の生成デジタル情報ファイルが形成され、次に、後続の操作プロセスが第1の生成デジタル情報ファイルに適用されて第2の生成デジタル情報ファイルが生成され得る。各操作プロセスは、処理されたデジタル情報ファイルの少なくとも一つの要素を除去し、および/または代表要素を有する処理されたデジタル情報ファイルに含まれる複数の要素の組合せと、該組合せにおける代表要素と複数の要素のうちの少なくとも一つとの間における関係に関連付けられた第1の印とを表現し、それにより処理されたデジタル情報ファイルの情報量を縮小し、該ファイルを構造化するように構成される。除去された要素および/または代表要素は、元のデジタル情報ファイルについて選択された閾値を用いて処理されたデジタル情報ファイルの情報値を下げるために決定される。そのような操作プロセスは、逐次的な操作プロセスを適用しても、先の生成情報ファイルを超えて後の生成デジタル情報ファイルの情報量の閾値の低下が行われなくなるまで、先の生成情報ファイルに逐次的に適用される。それにより、最終生成デジタル情報ファイルは、元の情報量に対して縮小された情報量と元の情報値の選択された閾値内の情報値生成情報値とを有する第1の構造を有するものとして指定される。
【0012】
別の態様によれば、MSMLサウンド構成の形式化のための無位相符号化インタフェース(操作プロセス)を使用してオーディオデータの帯域幅およびビットレートの縮小のためのシステムおよび方法が提供され得、該インタフェースは知覚情報値の階層を考慮するように構成される。帯域幅およびビットレートの縮小方法は、サウンド構成に関連付けられたあらゆるサウンド構造の情報性または情報値を、例えば公知のサウンド基準との比較により保持しながら、選択されたデータ縮小を標的としたタスクを実行するインタフェースを使用する。そのような方法は、構造の整合性およびその分解度の決定に着目して、操作プロセスのフィルタリングまたは適用後の信号を示す縮小量内で、空間における異なるレベルのサウンドオブジェクトの比較を行い、これは、サウンド要素毎の適切なパラメータの選択を促す。無位相符号化インタフェースは、信号の時間依存性が保持されず、サウンド構造が信号波形の代わりに保存され、これにより、本質的な帯域幅およびビットレートを減少させるように適切に構成される。より高い率のオーディオ帯域幅およびビットレート縮小を実現するために、比較的情報量の多いレベル構造を持つMSMLサウンド構成の形式化は定数パラメータを維持するように構成される。比較的情報量の少ないレベル構造のパラメータは、低い精度で保存されるか、または乱数値を使用した復号時に生成される。
【0013】
別の態様によれば、楽曲からファジー反復要素を抽出するために、MSMLサウンド構成の形式化のための構造分析インタフェースを使用してオーディオデータ構造の分析を行うためのシステムおよび方法が提供され得る。そのような構造分析インタフェースは、全体的な信号の情報性を低下させることなくさらなるデータ縮小で使用するために、元信号のMSML形式化から受け取ったオーディオデータを処理し、比較的低レベルのMSML形式化に入るファジー反復ループ要素を識別するように構成される。そのようなインタフェースは3つのモジュールを備える。第1のモジュールは、MSML形式化の初期レベル全体を通して、全てのファジー反復要素を検索し、位置付け、該要素の長さをマークする。第2のモジュールは、ファジー反復フラグメントの任意のセットについて一般的なサウンド成分を抽出し、対応する残留信号を形成することによりデータの凝集性レベルを規定する。第3のモジュールは抽出された繰り返し要素、対応するマーキングデータおよび残留情報を統合することにより、結果オーディオフラグメントの予測構築を行う。位相モデリングのフィルタリング方法は、サウンド構築プロセス時に必要な初期位相情報を最小化するために使用される。このインタフェースは、限定されるものではないが音楽検索エンジン、音楽視覚化および深部オーディオ圧縮技術を含む、種々に適用するための要素として使用されるように構成される。
【0014】
別の態様は、MSMLサウンド構成の形式化における階層繰り返し構造を使用したオーディオ圧縮のためのシステムおよび方法を対象とする。高度な無位相反復符号化インタフェースは、意味のあるMSML形式化サウンド階層内で最上位レベルのマクロ繰り返しサウンドプリモトロンにより形成される構造を利用する。二種類のデータが復号プロセスのために使用される。一つ目はMSML形式化内で一般構造を規定する大規模データであり、二つ目は比較的下位レベルのモデルより記述される元信号フラグメントを備えたデータである。信号フラグメントを圧縮するために、一般的な心理音響コーダ、場合によっては可能性として外側の信号マスキングを使用して心理音響コーダを利用することができる。ビットレートの縮小は、MSML形式化の最上位レベルで構築される繰り返しフラグメントの位置は記憶するが、該繰り返しフラグメントを除去することに起因して生じる。知覚等価な繰り返しフラグメントにより、参照サンプル数を減少させることができる。
【0015】
さらに別の態様は、除算無しに、整数演算および二次確率推定のみを行う高度エントロピーコーダを使用して、MSMLサウンド構成に関連付けられた整数値アレイの数を低減することにより、MSMLサウンド構成の形式化のための無損失圧縮インタフェースを使用したオーディオ帯域幅およびビットレートの縮小のためのシステムおよび方法を対象とする。インタフェースのレンジコーダおよびコンテキストモデルは除算の算出演算を使用しないので、このインタフェースを適用することにより、除算演算を行わない低コストのマイクロコンピュータを用いてインタフェースを実行することができる。インタフェースのコンテキストモデルの信頼性を向上させるため、二次確率推定が用いられる。二次確率推定は、別のモデルのコンテキストとして予測確率を利用する複雑なコンテキストモデルである。二次元の二次確率推定も二つの異なるモデルを混合するために使用することができる。二次元の二次確率推定は二次確率推定を改良したものであり、二つの入力確率を有し、該入力確率をコンテキストとして使用する。追加的に整数コンテキスも使用することができる。
【0016】
さらに別の態様は、オーディオ信号の圧縮を向上させるシステムおよび方法を対象とする。また、システムおよび方法は、圧縮率および処理速度を上げ、それにより、スペクトルデータを高効率かつ高速に圧縮できるように、算術符号化およびコンテキストモデリングを向上させるために提供される。圧縮方法は完全に自動化することができ、異なる種類のオーディオデータに対する事前初期化を要しない。異なるサイズのスペクトルオーディオデータを調整するに十分な適応性を有するので、該データを異なるスペクトル変換とともに使用することができる。標準的な算術コーダに代えて、より効率的なレンジコーダが使用される。コンテキストモデルは、データストリームと、構築されたアルゴリズムモデルと、コーダおよび/またはデコーダ機能のアルゴリズム最適化とに適用される。また、この態様は符号化された値の確率を高めることに関する適応レンジコーダ技術の使用に少なくとも部分的に基づく。コンテキストモデルの信頼性を向上させるために、二次確率推定が用いられ得る。
【0017】
他の態様は、MSMLサウンド構成の形式化のためのオーディオデータの高度なアクセラレータインタフェースを使用し、かつ、量子化時間周波数スペクトル係数(QMDCT)の数を低減させる無品質低下(NQL)プロセスを利用して、結果サウンドに本質的な品質劣化の無い元のオーディオの迅速な配信を提供する、効率的なオーディオデータストリーミングのためのシステムおよび方法に関する。NQLプロセスは、人間の知覚の限界に基づき、サウンド構成の重要度に応じてMSML形式化内でサウンド構造の分類を行う。高度なアクセラレータインタフェースは、PCM形式を介したデータ逆量子化または逆トランスコーディング無しに初期形式の量子化時間周波数スペクトル係数を再構築する。高度なアクセラレータインタフェースは、時間周波数スペクトル係数を有する初期に符号化されたファイルを三つのグループに分割し、低周波数スペクトルグループの係数は変更されないまま、しかし一方で中間周波数グループはNQLプロセスを使用してゼロに設定され、第3グループ(最も高い周波数)の係数は構造的なサウンド要素(すなわち、調波およびヒット)に影響を与えること無く、類似サブグループの係数に置き換え、低グループおよび中間グループに縫い合わせ、このサブグループの参照先とともに整数の因数を保存することにより除去される。
【0018】
さらに別の態様によれば、信号エントロピーを低下させる類似サウンドプリモトロンのアフィン変換の形態で元の音再生の完全な整合性を保ちつつ、MSMLサウンド構成の形式化のためのアフィン変換符号化インタフェースを使用してオーディオのデータサイズを縮小するためのシステムおよび方法も提供され、これは、信号エントロピーを低下させる(すなわち、より高度な構造となる)。MSML形式化に関連付けられたアフィンインタフェースは、圧縮率を上げ、時間周波数のアフィン類似マクロフラグメントが音声情報の本質的部分を担う信号分類のためのコア圧縮プロセスと増強するために、任意のオーディオ符号化手段の追加または補完として使用される。MSML形式化と併せて使用される間、このアフィン変換符号化インタフェースは、信号の圧縮率を上げるために、デジタルオーディオ信号の類似スペクトルマクロフラグメントを利用するように構成される。処理時に、全てのスペクトル領域はサブバンドに分割される。サウンド信号のうち先行部分の類似スペクトルフラグメントの検索が独立に、各サブバンドにおいて異なるステップを使用して行われる。アフィン振幅、時間およびスペクトルシフトの変換が類似フラグメントの検索時に使用される。見つかった各フラグメントが元のスペクトラムフラグメントから減算され、残余がスペクトル成分の差としてさらに処理され、それによりスペクトルデータの冗長性が除去される。
【0019】
要約すれば、本開示の態様は、サウンドまたは他のデジタルメディア合成物の多重構造、多重レベルの形式化を対象とするシステムおよび方法とともに、形式化において一次オブジェクトまたは実体のパターン/組み合わせを決定して、決定された要素の最大限の情報性(すなわち情報品質)を保持しつつ、元のデジタル化オーディオファイルと比較して縮小されたデータファイルサイズ(すなわち、縮小された情報量またはビットレート)を提供する様々なシステムおよび方法と、一次オブジェクトまたは実体(要素)のパターン/組み合わせを再構成または復元して元のサウンドまたは他のデジタルメディア構成を合成するシステム及び方法を対象とする。従って、本開示の態様は特定のニーズに応え、本明細書で詳細に述べるようにその他の利益を提供する。
【0020】
以下では、必ずしも縮小率で描かれたものではない添付の図面を参照し、本開示を一般用語で説明する。
【図面の簡単な説明】
【0021】
図1】本開示の各種態様に係る情報構造化の一例として、デジタルオーディオデータの多重構造、多重レベル形式化を概略的に示す。
図2】本開示の各種態様に係る情報構造化の一例として、デジタルオーディオファイルのMSML形式化に対応する情報量の多いサウンド情報プリモトロンの視覚化を概略的に示す。
図3A】本開示の各種態様に係る情報構造化の一例として、デジタルオーディオデータの無位相符号化と無位相復号化の操作プロセスを概略的に示す。
図3B】本開示の各種態様に係る情報構造化の一例として、デジタルオーディオデータの無位相符号化と無位相復号化の操作プロセスを概略的に示す。
図4A】本開示の各種態様に係る情報構造化の一例として、3つの「ベース」信号に基づいて、楽曲を残留部分と繰り返し部分とに分解する(すなわち、ファジー反復要素を抽出する)ための操作プロセスを概略的に示す。
図4B】ファジー反復要素を抽出するために楽曲を分解するための操作プロセスを概略的に示す。
図5】本開示の各種態様に係る情報構造化の一例として、階層繰り返し構造を使用したオーディオ圧縮のための操作プロセスを概略的に示す。
図6A】本開示の各種態様に係る情報構造化の一例として、確率混合を含むコンテキストモデル方法を使用した無損失圧縮のための操作プロセスを概略的に示す。
図6B】二次確率推定方法を使用した無損失圧縮のための操作プロセスを概略的に示す。
図7A】本開示の各種態様に係る情報構造化の一例として、量子化時間周波数スペクトル係数(QMDCT)の数を低減するために、オーディオデータアクセラレータを含む非可逆圧縮方式と無品質低下(NQL)を使用した効率的なオーディオデータストリーミングのための操作プロセスを概略的に示す。
図7B】非可逆圧縮方式を含む操作プロセスの生成QMDCT係数フラグメントを概略的に示す。
図8】本開示の各種態様に係る情報構造化の一例として、操作プロセスを符号化するアフィン変換の符号方式および復号方式を概略的に示す。
図9】本開示の各種態様に係る情報構造化の一例として、デジタル情報ファイルのMSML形式化のレベル間におけるデータの変化と、該形式化に関連する特定の符号化および復号化プロセスとを概略的に示す。
図10】本開示の各種態様に係る情報構造化の一例として、デジタルオーディオファイルのMSML形式化のレベル間におけるデータの変化と、該形式化に関連する特定の符号化および復号化プロセスとを概略的に示す。
図11】本開示の各種態様に係る情報構造化の一例として、デジタル情報ファイルのMSML形式化のレベル間のデータに適用されるプロセスを概略的に示す。
【発明を実施するための形態】
【0022】
以下に、添付の図面を参照して本開示をより詳細にに記載し、本開示の全ての態様ではないが一部の態様を明らかにする。実際、本開示は種々多くの形態で具体化され得、本明細書で説明する態様に限定されるものと解釈されるべきではなく、これらの態様は、この開示が適用可能な法的要件を満たすために提供される。同様の参照番号は明細書を通して同様の要素を指す。
【0023】
ある現象の現代における主な理論の幾つかは、単一のフレーズで定型化された最適性の比較的単純な原理に基づく。しかし、そのような単純な定型化に至るまでに、基本的な理論について、多くの時間のかかる発展が必要であった。例えば、幾何光学は、光線に沿った最小の動きの原理に基づき、機械学は最小動作の原理を利用し、熱力学は最大エントロピーの原理に基づき、進化論は最も適合した種の生存の原理に基づき、生物学は最小エネルギーの原理を実施する。すなわち、本開示の態様、すなわち、開示するようにサウンド形式化理論(多重構造/多重レベル(MSML)配列に基づく)を対象とする態様は、一般に、データファイルサイズに対する情報性の最大化の原理に基づき、かつ、該原理を対象とし、特定の態様では、そのような原理はデータファイルサイズの最小化と併せたデータ要素の情報性または情報値の最大化にまで及ぶ。
【0024】
最初の前提として、人間の耳に送られる音波に含まれる情報量は、人間の脳が受信または理解する情報量よりもかなり多いことがある。よって、人間の脳が受信し理解できる情報範囲を簡潔に決定および量子化することにより、サウンド/オーディオに対する人間の知覚メカニズムにより良好に対応するサウンド形式化スキーマを容易にし、これは生体系の中で最も効率的であり得る。このため、本明細書で提示するMSML形式化スキーマの態様は、先に述べた論点に取り組み、会話および音楽(すなわち、オーディオ)の両方についてサウンドを表現する共通の形式化基盤を産み出すように機能し得る。
【0025】
フルスペクトルのオーディオ事象を用いて提示される場合、オーディオ情報の少なくとも一部分は人間の耳構造の生理学的レベルでは受入れられない場合がある。すなわち、人間の耳の生理にはあらゆるオーディオ情報の受入れを促さない限界(すなわち周波数限界)があり得る。しかしながら、人間の耳の生理が受け取るオーディオ情報の一部のうち、人間の耳に関連する人間の神経回路は、その際に、残るオーディオ情報から最も重要なサウンドオブジェクトを抽出し、自然に選択するために責任がある。そのような場合、抽出および選択されたサウンドオブジェクトは、オーディオ事象に対してローカルな特定データと、可能性としてそもそもグローバルで汎用的なサウンド構造により特徴付けされ得る。
【0026】
この点において、本開示の態様は、一般に、サウンド/オーディオの人間の知覚に関連し得るグローバル/汎用的なサウンド構造を対象とする。場合によっては、そのようなサウンド構造は、例えば、三つのレベルの無品質低下(NQL)をさらに前提とするか、該NQLに関連付けられ得、これらのレベルは、例えば、受け取った情報を知覚的に区別できない時間に依存し得る。より詳細には、NQLの3つのレベルは以下のように特徴付けられ得る。
1.あるサウンド事象が例えば、別のサウンド事象から約20秒の持続時間で離れている場合の知覚的に区別不可能なサウンド事象
サウンド事象毎に、両方のサウンド事象が等しい波形であればNQLは満足させることができる。この基準を満たすサウンド表現/モデルは、一般的に標準または従来のオーディオコーデックで使用される。しかしながら、この時間スケール/期間を前提としたMSML形式化は、情報量の少ないMSML構造または要素の実質的な数または割合を備え得る。よって、もっぱらそのような基準を前提としたMSML形式化に関連するコーデックは、MSML構造または要素、特に、例えば、低ビットレート(または少量の情報量)において、必要とされる情報性または品質を最大限にすることができず、または保つことすらできないかもしれない。
2.あるサウンド事象が例えば、別のサウンド事象から約1分の持続時間で離れている場合の知覚的に区別不可能なサウンド事象
この時間スケール/期間では、先に聞いた/経験した最初のサウンド事象について相対的に少ない情報量が脳内に残っているか、または脳に関連付けられているため、数学的等価(すなわち、等しい波形)は必ずしも必要ではなく、サウンド事象の知覚特徴は比較的さほど本質的ではないMSML構造または要素により規定される。しかしながら、知覚等価を実現するために正確な一致は必要ではないけれども、より複雑なサウンド分析が、MSML形式化の第2レベル以上のレベルに関連付けられた構造または要素が十分な品質を有し得るか否かを判定するために行われ得る。
3.あるサウンド事象が例えば、別のサウンド事象から約1日以上の持続時間で離れている場合の知覚的に等価なサウンド事象
この期間/持続時間では、人間の脳は一般的に、MSML形式化スキーマの上位レベルを表現または該上位レベルに概ね対応する、非常に集中したサウンド情報構造のみを保持する。そのような構造は構造/要素の情報量/情報性は先の期間/持続時間よりも比較的に少ないが、本明細書で提示するサウンド分析の態様において重要な役割を果たし、知覚等価のために重要である。一般的に、訓練を受けた音響専門家は、下位レベルから上位レベル(すなわち短い時間フレーム/期間から長いい時間フレーム/期間)のサウンド構造の遷移/進行は、サウンド事象を経験する大多数の人々にとって一般的に共通のプロセスであるが、サウンド事象において長時間が経過しても、先の短い時間フレーム/期間に関連する下位レベルのサウンド構造を区別することができる。
【0027】
物理学の理論によれば、ある条件下で多くの可能な状態を有するシステムでは、システムが秩序されているほど少量のエントロピーが存在する。また、熱力学の第二法則によれば、単離システムではエントロピーが一般的に増大する。しかしながら、シュレーディンガーによれば、人は内部体系化を補助または構造化された情報を保存するために、人生における経験のエントロピーを低減させ続けようと努める。エントロピーの概念は、科学的な情報の決定および多くの情報規定の欠落に少なくとも部分的に起因して、情報量とともに情報そのものと一致する場合もあり得る。シャノンによれば、情報量はエントロピーに逆比例する。すなわち、事象の可能性が低ければ(エントロピーが多ければ)、その事象に関するデータに含まれる情報が少なくなる。あるいは、情報量は通信結果として不確かな形で定量的変化として表すことができる。しかしながら、情報量は(他の多くの属性を有し得る)そのような情報の一属性に過ぎず、情報値はそうした他の属性の中で最も重要であり得る。あらゆる場合において、多くの情報規定から、本開示の態様は、キャステラ(Casteler)による「情報は多くの可能な選択肢から記憶された選択肢である」を前提とし得る。
【0028】
チェルニャフスキー(Chernavsky)によれば、マクロ情報は、記憶された選択肢、すなわち、知識に関連付けられた所定の情報を使用して持続時間を上回る知識の存在の持続時間である。マクロ情報は多くの可能な見地以外の一検知の記憶されない選択肢である。物理的エントロピー(またはボルツマンのエントロピー)の範囲は先の状態をすぐに忘れるえエルゴード系に限定される(従って、この時間では300kまでの気温で約10−13秒)。この点において、マクロ情報量は定常状態量の対数に比例し、ミクロ情報は、定常状態とは限らないが、あらゆる状態量の対数に比例する。例えば、気体で充填された容器におけるミクロ情報量は、以下のように求められる。
ミクロ=log(あらゆる状態の数)=log(exp(S/k))、ここでSは3/2kNに等しいエントロピーである(すなわち情報は2.16×Nであり、約1023のアボガドロ定数に相当する)
マクロ=log2(定常状態の数)=log(1)=0(一つの定常状態しかないため、すなわち、熱力学的バランス)
【0029】
従って、情報内容の概念は情報が使用できるか否かに依存する。より詳細には、サウンドにおけるホワイトノイズは、二つの状態がそれぞれのシステムの最大エントロピーに一致するため、熱力学バランスの等価物であるとみなすことができる。結果は気体で充填された容器に引き寄せられ、すなわちマクロ情報は最小でありゼロに等しく、一方ミクロ情報は最大である。
【0030】
一態様によれば、情報値は、受け取った情報の影響の有り無しでシステムのエントロピーにおける差として定義することができる。数学的観点から、そのような情報値はV=log(P1/P0)と定義することができ、目的の観念は各システムで異なるが、ここでP0は、情報を受取ること無しに目的を満たす確率であり、P1は、情報を受取って目的を満たす確率である。この点において、各要素の目的は関連する情報を記憶(保持)することである。一旦目的が提示または規定されると、その目的に関連する得られた情報の価値の展開が追跡および分析される。このため、本開示の態様は、サウンド合成スキーマの基盤として、デジタル化オーディオからプリモトロン(primotoron)を分析および抽出する目的を含む。しかしながら、当業者であれば、サウンドまたはオーディオに対する本明細書における参照は、本明細書に開示のシステムおよび方法の適用性および能力性の例示的な説明にすぎず、本明細書で開示するシステムおよび方法は例えば、オーディオ、動画などを含むデジタルメディアなどのデジタル形態で分析することができる任意の情報に対して概ね適用し得ることを理解するであろう。
【0031】
従って、本開示の態様は、例えば、異なるレベルのMSML階層内に配列され、MSML形式に変換可能なオーディオまたは他のデジタルメディアファイルに関連付けられたプリモトロン(すなわち、一次代表データ要素またはデータ構造)の分析、識別および構造化のためのシステムおよび方法を提供し得る。さらに、分析、識別および構造化するそのようなシステムおよび方法は、そのようなプリモトロンから、元のデジタルメディアの閾値内でオーディオまたは他のデジタルメディアの合成または再構築とは異なる場合がある。すなわち、元のデジタルメディアファイルの符号化は、符号化ファイルを復号化して元のデジタルメディアファイルの再構築を合成または形成することとは異なるプロセスである場合がある。どのような場合でも、サウンドまたは他のメディアのプリモトロンに基づく記述または表現を対象とする本開示の特定の態様の一般的なアプローチは、表現(すなわち、プリモトロンを形成するデータ要素の組合せの決定)を可能とし得、サウンドまたは他のメディアファイルを形成するためのプリモトロンの合成(“再構築”)はMSML形式化を用いたインタフェース(または編明細書では「操作プロセス」と呼ぶ)のインタラクションに基づき得、そのような操作プロセスは特定の機能のために、または特定の事例において独立して機能または連携し得る。動画など他のメディアの範囲まで、サウンド(特に音楽および音声)の本質は基本サウンドまたは他の基本要素(すなわち、個々の手紙、単語のつづり、メロディの符号、倍音)の特定の反復に基づき得るため、特定のプリモトロンまたはその組合せは、構造化基盤要素は元のファイルよりもはるかに、またはより多い情報値として知覚閾値内に確実に保持しつつ、例えば、こうした要素の冗長性を縮小または最小化することにより情報量を縮小させる高度に構造化された手法(構造化データはデータの解釈と共にその構造の解釈を容易にし得る特定のカオスパラメータに関連付けられ得る)で、これらの特定の基礎的なまたは一次要素を配列する観点から、MSML処理されたファイルのコンパクトな表現として使用され得る。さらに、そのような方法では、MSML階層における異なるレベルのプリモトロンまたはデータ要素は、そのような合成のための対応指示または規則が規定、例えば、カオスパラメータにより、または別の好適なやり方(すなわち、再構築確率の統計的評価に関する)別の好適なやり方で規定されているならば、一般信号(すなわち、元のデジタル化オーディオファイル)が合成または復元できる種として機能し得る。
【0032】
よって、検討において、本開示の態様は上記サウンドまたは他のメディア(例えば、図1図9図11を参照)のコンパクトな多重構造、多重レベル(MSML)デジタル形式化を形成することを対象とするオーディオまたは他のデジタルメディア処理の方法を提供し、該方法は、情報プリモトロン、そのようなプリモトロンの存在に関連する(すなわち、人間の知覚の限界に関連する)知覚情報基準(PIC)の、特定の規定と、そのようなプリモトロンを形成するデータ要素の組合せまたはセットの決定を前提とする。そのようなMSML形式化も、時間および時間周波数領域におけるデジタルオーディオまたは他のデジタルメディアファイルからのプリモトロンの抽出および分類の方法に関し得る。また、本明細書で開示する関連MSML形式化の手段は、二次レベルのMSMLサウンドまたはMSMLサウンド構造のセットと該構造に関連付けられたPICの規定とであり得、これはそのような二次MSML構造を構築するための少なくとも幾つかのプリモトロン分析にも関与し得る。また、MSML形式化の手段は上位レベルのMSMLサウンド構造またはMSMLサウンド構造のセットと階層において関連付けられたPICとの規定に関連し得、これは特定の上位レベルのMSML構造を選択または規定するための下位レベルのMSML構造の分析にも関与し得る。これらの原理および方法は連携して、形式化、とりわけ、データを特定の構造および構造のセットに体系化することを助成および促進させ得る、本開示で開示されるMSML形式化を目的としたサウンドまたは他のメディアのパラメトリック構造モデルの構築を可能とする。また、関連MSML形式化の手段は、サウンド合成または再構築に使用され得る時間周波数領域プリモトロンライブラリの確立のための方法および装置であり得、該ライブラリ内の特定のプリモトロン配置はMSML形式化の上位レベル構造により規定され得る。
【0033】
本開示の態様は二つのエネルギー値の比較を行うことによりプリモトロンの存在確率を規定するためにそのような知覚情報基準(PIC)を決定する方法も提供し、一つ目のエネルギー値はプリモトロンを形成するか、またはプリモトロンに関連付けられる構造のために決定され得、二つ目のエネルギー値は、注目されるプリモトロンを含む、時間周波数領域内のデジタル信号の断片のために計算され得る。第2エネルギー値に対する第1エネルギー値の割合が所定の閾値よりも大きい場合、その存在を肯定する注目されるプリモトロンに対するPICは、満足される。
【0034】
本開示の別の態様は、ランダムカオスの変動が有益な音声構造として認識され得る事象の許容確率として閾値エネルギー値を規定する方法を対象とし、そのような確率は、計算実験を行うことにより、または入力信号としてランダムノイズを使用する確率分布関数を規定するための理論的観点から生成された式を直接適用することにより判定され得る。
【0035】
本開示のさらに別の態様は、時間周波数領域の単位半径のn次元球(S)の表面積を計算することを含むプロセスによってプリモトロンエネルギー閾値を規定する理論式を対象とし、以下の陰関数を使用する。
【数1】

ここで、kは合計ベクトルエネルギーで割ったN次元ベクトルの第1Mコンポーネントの標的エネルギー閾値である。和項中の指数は2l+2q−N+2=0の値を含み、
【数2】
それにより、Sは以下として決定される。
【数3】
【0036】
本開示のさらに別の態様は、元信号と本明細書に開示のMSML形式化手段に応じて合成または復元された信号との比較分析による無品質低下(NQL)基準を規定する方法を対象とする。
【0037】
本開示のさらに別の態様は、上位レベル構造の確立または体系化が該上位レベル構造を形成するために連携するMSML形式化の下位レベル構造のエントロピー全体を減少させる場合のみ、MSML形式化階層の新たな上位レベル構造を構築するための確率要素としてPICを規定する方法を対象とする。
【0038】
本開示の追加的態様は、時間領域内で階層に関連付けられた時間座標に従ってMSML階層の第1レベル内で数多くの対応するプリモトロンまたは他のデータ要素としてプリモトロン構造を決定または指定するための方法を対象とする。さらに、そのような態様は、時間により局在化された第2レベルのプリモトロン、プリモトロン構造または同一の開始時間座標を有する他のデータ要素としてヒットを規定することも含み得、上位レベル構造(すなわち、より簡潔な記述)のエントロピーの減少は、下位レベル構造に現れるプリモトロン時間成分値の冗長性を除去することにより提供される。また、そのような態様は、周波数により局在化され第2レベルのMSML構造として調波を規定することも含み得、後続のプリモトロンの開始または遭遇は、先のプリモトロン終点座標と一致する。そのような場合、上位レベル構造のためのエントロピーの減少は、プリモトロン時間成分値の冗長性を除去することによっても提供される。そのような態様は、第1レベルのMSML構造由来の単一の基本周波数と該基本周波数由来の固定周波数値によって、かつ互いに偏移された数多くの複製を含む周波数により局在化された第2レベルのMSML構造として設定された倍音を規定することをさらに含み得る。そのような構造のエントロピー全体は周波数偏移に関連付けられた単一のパラメータにより、一式の第1レベル構造のコンパクトな記述の結果として減少する傾向があり得る。
【0039】
より詳細には、元のデジタル情報ファイルがデジタルオーディオファイルである場合、本開示のそのような態様は、デジタルオーディオファイルの情報量を該デジタルオーディオファイルのサイズおよび持続時間に比例するビットレートに関連付けること、デジタルオーディオファイルの情報値を該デジタルオーディオファイルの品質に関連付けることとに関し、品質は、プリモトロンエネルギー閾値、知覚情報基準(PIC)、入力信号としてランダムノイズを使用する確率分布関数に従って決定されるランダムカオス変動事象から識別される音声構造、無品質低下基準および陰関数から決定される時間周波数領域の単位半径のn次元球の表面積の少なくとも一つから決定される。
【0040】
特定の態様では、例えば、図2A図2Cで示すように、例えばインタフェースまたは操作プロセスを構造化するデジタルオーディオファイルが先の生成デジタルオーディオファイルに逐次的に適用されて複数の情報レベルを有する情報階層に従って構成された最終生成構造化デジタルオーディオファイルを形成する場合、階層の下位の情報レベルは高解像度のデジタル情報ファイルとしてオーディオ表現を備え、階層の上位の情報レベルは例えば、対応する歌詞を有する手書きの楽譜を含む用紙表現を備える。そのように構造化される場合、上位の情報レベルは、階層において下位の情報レベルよりも情報量が少なく、下位の情報レベルは、用紙表現に従うオーディオ性能およびオーディオのデジタル化に関連付けられた上位の情報レベルとカオスパラメータから形成、合成および再構築することができる。
【0041】
本開示の別の態様は、先の生成デジタルオーディオファイルへの逐次的な操作プロセスが最終生成構造化デジタルオーディオファイルを形成することを認識することであり、最終生成構造化デジタルオーディオファイルは時間領域および時間周波数領域のいずれかにおいて規定された少なくとも一つプリモトロンを備え、それにより調波信号のコンパクトなデジタル形式化を表現する。オーディオビットレートに関連付けられた情報量は、オーディオ品質に関連付けられた情報値が元のデジタル情報ファイルに対応するデジタルオーディオファイルの閾値内に維持されつつ、元のデジタル情報ファイルに対応するデジタルオーディオファイルに比較して縮小される。
【0042】
本開示のさらに別の態様は、各デジタルオーディオファイルが調波関連データを表現することを認識することであり、その分析は、時間領域の上位レベルの階層構造としてヒットを規定することと、先の調波プリモトロン終点と一致する後続の調波プリモトロン始点を有する周波数領域の上位レベルの階層構造として倍音を規定することと、時間領域下位レベルの階層構造の冗長性を除去して上位レベルの階層構造のエントロピーを減少させること、下位レベルの階層構造に対応する単一の基本周波数および単一の基本周波数由来の固定周波数により、かつ互いに偏移した複数の上位レベルの階層構造の複製を有する周波数領域の上位レベルの空き層構造として倍音を規定することとに関する。
【0043】
より一般的な意味では、MSML形式化は情報を構造化する方法を指し、そのような情報は、例えば、上記参照した、または本明細書で参照するオーディオデータなどのデジタル情報を含み得る。そうすることで、元のデジタル情報ファイルがまず分析されて該ファイルに関連付けられた元の情報量および元の情報値が決定される。すなわち、データ要素がデジタル情報ファイルに含まれている量と、該各データ要素に関連付けられた情報性の関連レベルがまず決定される。情報の構造化において、元のデジタル情報ファイルに最初の操作プロセスが適用されて第1の生成デジタル情報ファイルを形成し得、第1の生成デジタル情報ファイルに後続のプロセスが適用されて第2の生成デジタル情報ファイルを生成し得る。そのような場合、各操作プロセスは処理されたデジタル情報ファイルの少なくとも一つの要素を除去するように構成され得、そのように除去された要素は、例えば、冗長、ノイズまたは不要と識別され得る。その別の場合、各操作プロセスは、代表要素を有する処理されたデジタル情報ファイルの複数の要素の組合せと、該組み合わせにおける代表要素および複数の要素のうちの少なくとも一つの間の相互関係に関連付けられた第1の印とを表現して、処理されたデジタル情報ファイルの情報量を縮小し、該ファイルを構造化するように構成され得る。すなわち、要素は組み合わせられるか、または単一の代表要素により表現され得、単一の代表要素は、例えば、特定の要素が組み合わされ、要素の特定の組合せと指定された代表要素(すなわち、代表要素は、組み合わされた要素が繰り返されたパターンまたはメロディを形成し、調波を規定し、関連する歌詞であるなどを表す)との間における関係の本質に組み合わされた理由を示す、理由、分析結果、または他の好適な任意のインジケータを示す第1の印に関連し得る。一つ以上要素の除去および/または要素の組合せにおいて、各操作プロセスは、除去された要素および/または代表要素の少なくとも一つが決定されて、選択された閾値で、処理されたデジタル情報ファイルの情報値を減少させるように構成され得る。すなわち、先の情報量が減少され得るが、各操作プロセスは、前記生成デジタル情報ファイルの情報値が元のまたは先のデジタル情報ファイルの決定量または他の好適な大きさ内(すなわち、特定の閾値内)に入るように好ましくは構成される。このように、操作プロセスは、逐次的な操作プロセスを適用しても、先の生成情報ファイルよりも後の生成デジタル情報ファイルの情報量の閾値の低下が行われなくなるまで、先の生成情報ファイルに逐次的に適用され得る(すなわち、生成デジタル情報ファイルの各々に対し、別の操作プロセスが適用され得る)。すなわち、結果デジタル情報ファイルの各々に操作プロセスを適用するプロセスは先の生成デジタル情報ファイルよりも後の生成デジタル情報ファイルの情報量を低減させることができなくなるまで(すなわち閾値内で)継続され得る。換言すれば、最終的に適用された操作プロセスの適用が、除去可能な要素および/または代表要素により表現される組み合わせ可能な要素を提供するのではない。よって、それにより、最終生成デジタル情報ファイルは、元の情報量に対して縮小された情報量と元の情報値の選択された閾値内の情報値生成情報値とを有する第1の構造を有し得る。すなわち、最終生成デジタル情報ファイルに含まれる情報量は元のデジタル情報ファイルに含まれる情報量よりも少ないが、最終生成デジタル情報ファイルに含まれるデータの情報値または情報性は元のデジタル情報ファイルの一定の許容可能な大きさ内(すなわち閾値内)に入る(例えば図9図11参照)。
【0044】
生成デジタル情報ファイルの各々に様々な操作プロセスを逐次的に適用するプロセスを通じて、少なくとも最終生成構造化デジタル情報ファイルは複数の情報レベルを有する情報階層に従って構成され得る。すなわち、最終生成デジタル情報ファイルは(例えば、元のデジタル情報ファイルと比較して)比較的高度に構造化情報を備え、ファイル内のデータ量または情報量は元のデジタル情報ファイルよりも少ないが、そのデータまたは情報の価値は元のデジタル情報ファイルの決定量または閾値に入る(すなわち、データ量の点でより小さなファイルであるが、該ファイルはほぼ同じまたは可能性としてより多くの情報値を有し得る)。さらに、そのような構造化では、最終生成デジタル情報ファイルは階層構成を有し得、階層のより上位の情報レベルのデータは様々なカオスパラメータによって階層の下位レベルのデータに関連し得る。すなわち、情報階層のより上位の情報レベルはより下位の情報レベルよりも情報量が少なく、より上位の情報レベルは、より下位の情報レベルの構造(すなわち、データの組合せまたは決定要素の組合せ)および該下位の情報レベルに関連付けられたカオスパラメータ(すなわち、特定の組合せを導く理由または他のパラメータ)から形成される。場合によっては、上位の情報レベルは、例えば、カオスパラメータに関連付けられた情報に起因して、元の情報値よりも高い情報値を含むように形成され得る。場合によっては、必要であれば、複数のより低い情報レベルがより上位の情報レベルの構造から形成され得、複数のより低い情報レベルの少なくとも一つは、その上位の情報レベルとの関連付けのために選択され得る。そのような場合、この関係は特定のカオスパラメータにより規定され得る。
【0045】
一部の態様では、複数の操作プロセスが先のデジタル情報ファイルに同時に適用されて、一次構造化デジタル情報ファイルに加えて、二次構造化デジタル情報ファイルを形成し得る。そのような態様では、一次および二次構造化デジタル情報ファイルが分析されて、一次および二次構造化デジタル情報ファイルのいずれかに含まれる情報レベル間の相互関係と、一次および二次構造化デジタル情報ファイル間の相互関係との少なくとも一つが決定され得る。そのような相互関係は、場合によっては先に開示したカオスパラメータを含むか、または関連付けられ得る。
【0046】
一部の態様では、複数の操作プロセスの少なくとも一つが先のデジタル情報ファイルに適用され得、操作プロセスは例えば、無位相符号化操作プロセス、繰り返し構造のための構造化分析操作プロセス、無位相反復符号化操作プロセス、無損失エントロピー圧縮操作方法、先に縮小したオーディオデータファイルに対し追加の圧縮レイヤを形成するための無損失アクセラレータ操作プロセス、効率的なオーディオデータストリーミングを促進するためのアクセラレータ操作プロセス、およびアフィン変換符号操作プロセスから成る群から選択され得る。
【0047】
より詳細には、操作プロセスの一態様では、オーディオデータの帯域幅およびビットレートの縮小がMSMLサウンド構成の形式化のための無位相符号化インタフェースを使用して実現され得、該インタフェースは知覚情報値の階層を考慮するように構成される(例えば図3A参照)。帯域幅およびビットレートの縮小は、例えば、サウンド基準を使用して、サウンド構成に関連付けられたあらゆるサウンド構造の情報性を維持しつつ、選択されたデータ縮小を標的としたタスクを実行するために上記インタフェースを使用して実現することができる。そうすることで、構造の整合性と損傷度合いの決定に着目して、フィルタリング後の減少済み信号表現内で、空間における異なるレベルのサウンドオブジェクトの比較が行われ、これは、サウンド要素毎の適切なパラメータの選択を促す。無位相符号化インタフェースは、信号の時間依存性が保持されず、サウンド構造が信号波形の代わりに保存されて本質的な帯域幅およびビットレートを減少させるように適切に構成される。より高い率の帯域幅およびビットレートの縮小を達成するために、比較的情報量の多いレベル構造を持つMSMLサウンド構成の形式化は、定数パラメータを維持するように構成される。階層内の比較的情報量の少ないレベル構造のパラメータは、低い精度で保存されるか、または乱数値を使用した復号時に生成され、そのような無位相符号化インタフェースに関連する例示的な復号プロセスが、例えば、図3Bに示される。
【0048】
操作プロセスの別の態様によれば、例えば、図4Aおよび図4Bに示すように、楽曲からファジー反復要素を抽出するために、MSMLサウンド構成の形式化のための構造分析インタフェースを使用してオーディオデータ構造分析が行われる。そのような構造分析インタフェースは、全体的な信号の情報性を低下させることなくさらなるデータ縮小で使用するために、元信号のMSML形式化から受け取ったオーディオデータを処理し、MSML形式化の比較的低レベルに入るファジー反復ループ要素を識別するように構成され得る。そのようなインタフェースは3つのモジュールを備え得、第1のモジュールは、MSML形式化の初期レベル全体を通して、全てのファジー反復要素の検索、位置付けおよびマーキングを提供し得る。第2のモジュールは、ファジー反復フラグメントの任意のセットのために一般的なサウンド成分を抽出し、対応する残留信号を形成することによりデータ凝集性のレベルを規定するように構成され得る。第3のモジュールは抽出された繰り返し要素、対応するマーキングデータおよび残留情報を統合することにより生成オーディオフラグメントの予測構築を行うように構成され得る。位相モデリングのためのフィルタリング方法は、サウンド構築プロセス時に必要な初期位相情報を最小化するために使用される。そのようなインタフェースは、限定されるものではないが、例えば、音楽検索エンジン、音楽視覚化、深部オーディオ圧縮技術を含む種々のアプリケーションのための要素として使用されるように構成され得る。
【0049】
操作プロセスの別の態様は、例えば図5に示すように、MSMLサウンド構成の形式化における階層繰り返し構造を使用したオーディオ圧縮に関する。そのような高度な無位相反復符号化インタフェースは、意味のあるMSML形式化サウンド階層内の最上位レベルのマクロ繰り返しサウンドプリモトロンにより形成された構造を利用する。二種類のデータが復号プロセスのために使用され得、一つ目はMSML形式化内の一般構造を規定する大規模データであり、二つ目は階層の比較的下位レベルで記述された元の信号フラグメントを含むデータである。信号フラグメントを圧縮するために、一般的な心理音響コーダを利用でき、場合によっては可能性として外側の信号マスキングを使用することができる。ビットレートの縮小は、フラグメントの位置を記憶しながら、MSML形式化の最上位レベルにおいて構築された繰り返しフラグメントの除去に起因して生じる。知覚等価な繰り返しフラグメントにより、参照サンプルの数を縮小することができる。
【0050】
操作プロセスのさらに別の態様は、MSMLサウンド構成の形式化のための無損失圧縮インタフェースを使用したオーディオ帯域幅およびビットレートの縮小(例えば図6A参照)に関し、場合によっては、これは除算および二次確率関数無しに整数演算のみを行う高度エントロピーコーダの使用によりMSMLサウンド構成の形式化に関連付けられた整数値配列の数を縮小する。インタフェースのレンジコーダおよびコンテキストモデルは除算の算出演算を使用しないので、そのようなインタフェースの適用により、除算演算を行わない低コストのマイクロコンピュータのほとんどが該インタフェースを実行することができる。インタフェースのコンテキストモデルの信頼性を向上させるため、二次確率推定(例えば図6B参照)が用いられ得る。二次確率推定は、別のモデルのコンテキストとして予測確率を利用する複雑なコンテキストモデルである。二次元の二次確率推定も二つの異なるモデルを混合するために使用することができる。二次元の二次確率推定は二次確率推定を改良したものであり、二つの入力確率を有し、該入力確率をコンテキストとして使用する。追加的な整数コンテキストも使用できる。操作プロセスのそのような態様は、オーディオ信号の圧縮を向上、および/または算術符号化およびコンテキストモデリングを向上させて圧縮率および処理速度を上げることに関し得、それにより、スペクトルデータを高効率かつ高速に圧縮できる。圧縮手段は完全に自動化することができ、異なる種類のオーディオまたは他のデジタルデータの事前初期化を要しない。異なるサイズまたは量のスペクトルオーディオまたは他のデジタルデータを調整する十分な順応性を有することにより、異なるスペクトル変換で使用することができる。標準的な算術コーダに代えて、より効率的なレンジコーダが使用され得る。データストリーム、構築されたアルゴリズムモデルおよびデコーダ機能のアルゴリズム最適化にコンテキストモデルが適用される。また、この態様は、符号化された値の確率を高めることに関する適応レンジコーダ技術の使用に少なくとも部分的に基づき得る。コンテキストモデルの信頼性を向上させるために、二次確率推定が用いられ得る。
【0051】
操作プロセスの他の態様は、MSMLサウンド構成の形式化のためのオーディオデータの高度なアクセラレータインタフェースのための効率的なオーディオデータストリーミングに関し、これにより、無品質低下(NQL)プロセスを利用して量子化時間周波数スペクトル係数(QMDCT)の数を縮小して、生成サウンドまたはデータの本質的な品質劣化無しに元のオーディオまたは他の情報を迅速に配信する(例えば図7Aおよび図7B参照)。NQLプロセスは人間の知覚に基づき、その重要性に依存してMSML内でサウンド構造の分類を行う。高度なアクセラレータインタフェースは、PCM形式を介して、データ逆量子化または逆トランスコーディング無しに初期形式の量子化時間周波数スペクトル係数を再構築する。そのような高度なアクセラレータインタフェースは、時間周波数スペクトル係数を有する初期に符号化されたファイルを三つのグループに分割し、低周波数スペクトルグループの係数は変更されないまま、しかし一方で中間周波数グループはNQLプロセスを使用してゼロに設定され、第3グループ(最も高い周波数)の係数は構造的なサウンドまたは他のデジタルデータ要素(すなわち、倍音およびヒット)に影響を与えること無く、類似サブグループの係数に置き換え、低グループおよび中間グループに縫い合わせ、このサブグループと共に整数の因数に対する参照先を保存することにより除去される。
【0052】
操作プロセスのさらに別の態様は、MSMLサウンド構成の形式化のためのアフィン変換符号化インタフェース(例えば、図8A参照)を使用して、(オーディオの場合)信号エントロピーを低下させる類似サウンドプリモトロンのアフィン変換の形態で元の音再生の完全な整合性を保持しつつ、オーディオまたは他のデジタルデータファイルのサイズまたは量を縮小することに関する。MSML形式化に関連付けられたアフィン変換インタフェースは、圧縮率を高めるための任意のオーディオまたは他のデジタルデータ符号化手段のための、並びに、時間周波数アフィン類似ミクロフラグメントがサウンド(または他のデジタルデータ)情報の基本部分の責任を持つ場合の信号を分類するコア圧縮プロセスのための追加または補充として使用され得る。このアフィン変換符号化インタフェースは、MSML形式化と併せて使用される間、信号の圧縮率を高めるデジタル信号(特にオーディオ)の類似スペクトルミクロフラグメントを利用するように構成される。処理時に、全てのスペクトル領域はサブバンドに分割される。サウンドまたは他のデジタルデータ信号の以前の部分の類似スペクトルフラグメントの検索は、独立に、各サブバンドにおいて異なるステップを使用して行われる。アフィン振幅、時間およびスペクトルシフトの変換が類似フラグメントの検索時に使用される。見つかった各フラグメントが元のスペクトラムフラグメントから減算され、残余がスペクトル成分の差としてさらに処理され、それによりスペクトルデータの冗長性が除去される。そのようなアフィン変換符号化インタフェースのための関連復号方式が、例えば図8Bに示され、上記アフィン変換符号化インタフェースのための選択的な高速復号方式が、例えば、図8Cに示される。
【0053】
当業者であれば、本明細書に開示の操作プロセスの各種態様が単に例示目的であり、現在においても未来においても、元データファイルの情報値の閾値内にある構造化デジタルデータファイルの情報値を維持しつつ、デジタルデータファイルのサイズを縮小する(すなわち、デジタルデータファイルを含む実データまたは情報量を縮小する)ためにデジタル情報データを構造するに適用可能な、適用され得る様々な操作プロセスに対して限定される方法でみなされるべきではないことを理解するであろう。さらに、当業者は、構造化デジタルデータファイルの情報値が、場合によっては元のデジタル情報ファイルと比較してはるかにデータ量または情報量が少ないが、元のデジタル情報ファイルの閾値内の情報性(すなわち情報値)も有し得、特定の場合では、元のデジタルデータファイルよりも多くの情報性を有し得ることを理解するであろう。本明細書の原理に従い、本開示の各種態様に従うそのようなデータの構造化が、例えば図9図11に示され、〜さらに詳細に説明されている。
【0054】
特定の態様では、元の情報値の選択された閾値内の情報値生成情報値を得るために逐次的に操作プロセスを適用することは、例えば、人間の知覚の限界(すなわち、オーディオデータの場合、知覚情報基準に関して先述したように、例えば、人間の聴覚のスペクトル限界)である選択された閾値で、操作プロセスを逐次的に適用して、元のデジタル情報ファイルについて一次構造化デジタル情報ファイルの忠実性を保つことをさらに含む。
【0055】
生成デジタル情報ファイルを形成するために操作プロセスを逐次的に適用するプロセスでは、生成デジタル情報ファイルは、生成デジタル情報ファイルの各々がオブジェクトおよびオブジェクトクラスタのセットを含むように形成され、各オブジェクトおよびオブジェクトクラスタはそれぞれの規定を有する。より詳細には、少なくとも一つの操作プロセスが適用されて、処理されたデジタル情報ファイルの少なくとも一つの要素を除去する、および/または、代表要素を備える複数の処理されたデジタル情報ファイルの組合せと、該組み合わせにおける、代表要素および複数の要素のうちの少なくとも一つの間の相互関係に関連付けられた第1の印と、該組合せにおける、複数の要素の少なくとも二つの要素間の相互関係に関連する第2の印と、を表現する。従って、生成デジタル情報ファイルは、オブジェクトおよびオブジェクトクラスタが、代表要素の少なくとも一つを備え、各オブジェクトおよびオブジェクトクラスタに関連する規定が代表要素の少なくとも一つに関連する、第1の相互関係の印と、任意選択で、代表要素に関連付けられた第2の相互関係とをを含むように形成される。場合によっては、生成デジタル情報ファイルの各々に対応するオブジェクトおよびオブジェクトクラスタのセットとともに規定が含まれ得る(すなわち、ファイルに一緒に記憶され得る)。しかしながら別の場合では、オブジェクトおよびオブジェクトクラスタのセットに関連付けられた規定は、対応する生成デジタル情報ファイルの各々とは別に維持(すなわち記憶)され得る。従って、生成デジタル情報ファイルの各々は、後の生成デジタル情報ファイルの各々が先の生成デジタル情報ファイル内にオブジェクトおよびオブジェクトクラスタの任意の認識されたパターンを含むように形成され得る。
【0056】
別の態様では、操作プロセスを適用しても、後の生成デジタル情報ファイルの情報量の閾値の低下行われなくなるまで、、逐次的に逐次的な操作プロセスが適用され得る。そのような場合、最終生成デジタル情報ファイルは、一次オブジェクト、一次オブジェクトクラスタおよびそれらに関連付けられた相互関係のセットを含む情報プリモトロン構造を有し得る。操作プロセスの適用時または適用後に、後の生成デジタル情報ファイルと最終生成デジタル情報ファイルの各々が分析されて後続のデジタル情報ファイルの後続オブジェクトと、先のデジタル情報ファイルのオブジェクトの先の組合せとの間における統計的相関が判定され得る。さらに、対応閾値を少なくとも満たす任意の統計的相関のために、対応する後続オブジェクトおよびオブジェクトの先の組合せの相関の印が、後続の元のデジタル情報ファイルの分析のために記憶される。
【0057】
場合によっては、後の生成デジタル情報ファイルの各々が分析されて、先のデジタル情報ファイルにおいて、先のオブジェクトの組合せにおける少なくとも一つの客観的相関と、組合せにおける先のオブジェクト間の少なくとも一つのオブジェクト間の関係とが決定され得る。次に、少なくとも一つの客観的相関と、少なくとも一つのオブジェクト間の関係とは、後続のデジタル情報ファイルにおける対応する後続のオブジェクトに関連付けられる。それにより、複数の後続オブジェクトに対して、対応する後続オブジェクトに関連付けられた少なくとも一つの客観的相関と少なくとも一つのオブジェクト間の関係とは、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットに関連する相互関係を表すオブジェクト相関のセットを集合的に形成し得る。
【0058】
別の場合では、後の生成デジタル情報ファイルの各々が分析されて先のデジタル情報ファイル中の先のオブジェクトの組合せにおける少なくとも一つの客観的相関が決定され得、少なくとも一つのオブジェクト間の関係が組合せにおける先のオブジェクトに割り当てられるか、または指定され得る。次に、少なくとも一つの客観的相関と少なくとも一つのオブジェクト間の関係とは、後続のデジタル情報ファイルにおける対応する後続オブジェクトに関連付けられ得る。それにより、複数の後続オブジェクトに対して、対応する後続オブジェクトに関連付けられた少なくとも一つの客観的相関と少なくとも一つのオブジェクト間の関係とは、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットに関連付けられた相互関係を表すオブジェクト相関のセットを集合的に形成し得る。
【0059】
いずれかの場合においては、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットは、次に、オブジェクト相関の様々な組み合わせを統計的に評価することにより、かつ、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットのコンテキスト解釈として、一次オブジェクトおよび一次オブジェクトクラスタの組合せに関連する統計的閾値を少なくとも満たすオブジェクト相関の任意の組合のために解釈され得る。次に、元のデジタル情報ファイルに関連付けられた代表デジタル情報ファイルは、例えば、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットにコンテキスト解釈を適用することにより合成される。
【0060】
さらに、後の生成デジタル情報ファイルの各々を分析することにより、先のオブジェクト、後続オブジェクト、並びに一次オブジェクトおよび一次オブジェクトクラスタの少なくとも一つのオブジェクトは、元のデジタル情報ファイルの複数の特徴のうちの一つに関連付けられ得る。そうすることで、複数の特徴の構成が元のデジタル情報ファイルの持続時間について決定され得、少なくとも一つのオブジェクトの配分が該持続時間と相関され得る。そのような場合、要約データファイルが形成され得、該要約データファイルは、元のデジタル情報ファイルの持続時間に対する複数の特徴の各々に関連付けられた少なくとも一つのオブジェクトの配分の一般表現を含む。
【0061】
逐次的な操作プロセスを適用しても、後の生成デジタル情報ファイルの情報量に閾値の低下を行われなくなるまで、操作プロセスの逐次的に適用する場合、情報プリモトロン構造を有する最終生成デジタル情報ファイルを得るために後の生成デジタル情報ファイに逐次的に適用される操作プロセス量および該操作プロセスの順序はカタログ化され得、操作プロセス量は情報階層の対応層に関連付けられる。
【0062】
よって、一部の態様によれば、元のデジタル情報ファイルに関連付けられた代表デジタル情報ファイルは、例えば以下のステップを有する条件プロセスに従って合成され得る。
1.任意の適用可能な相関の印を情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットに適用することによりセットに関連付けられた対応する先の組合せを決定すること。
2.ステップ1において適用可能な相関の印が決定されない場合、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットにコンテキスト解釈を適用することにより、セットに関連付けられた対応する先の組合せを決定すること。
3.ステップ2におけるコンテキスト解釈の適用が元の情報値に関連付けられた閾値の情報値を下回る場合、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットに初期リバースプロセスを適用すること。ここで初期リバース操作プロセスは、セットに関連付けられた対応する先の組合せを決定するための、操作プロセスの逆順序における第1操作である。
【0063】
場合によっては、情報プリモトロン構造における一次オブジェクトおよび一次オブジェクトクラスタのセットから決定されたオブジェクトの先の組合せに対し、任意の、適用可能な相関の印、対応するコンテキスト解釈、またはオブジェクトの先の組合せに対応する操作プロセスの逆順序における第2の逆操作プロセスを含む条件プロセスが、オブジェクトの次なる先の組合せを決定するために適用され得る。条件プロセスは、生成オブジェクトの先の組合せが情報階層の初期層に関連付けられるまでオブジェクトの次なる先の組合せに逐次的に適用され得、それにより、先の生成デジタル情報ファイルが合成された代表デジタル情報ファイルに対応するという結果となり得る。
【0064】
上で開示したように、MSML形式化は情報を構造化する方法を指し、そのような情報は、例えばオーディオデータなどのデジタル情報を含み得る。このため、本開示のさらに別の態様は、サウンドまたはオーディオ分析のためのMSML形式化(すなわち階層構造)の異なるレベルにおいてプリモトロンを展開させる方法に関し得、そのようなプリモトロンの展開は一般MSML形式化に独立インタフェースを適用することにより達成され得、該インタフェースは、例えば、上記プリモトロンの発展を促すためにMSML形式化のデータ構造を分析および変更するための操作プロセスを含み得る。そのような態様は、元のデジタル化オーディオファイルに実質的に対応するサウンドまたはオーディオ信号を合成または再構築するために、逐次的および/または同時的にインタフェースを適用して、MSML形式化に関連して規定および決定されたプリモトロンのセットまたは組み合わせと、MSML形式化により提供される復号信号を規定する特定の指示および規則と、関連付けられたプリモトロンプリモトロンの展開とを利用するサウンド合成の方法も含み得る。
【0065】
一般MSML形式化に適用されるそのようなインタフェース(すなわち、デジタルオーディオまたは他の情報ファイルに適用できる操作プロセスを表すインタフェース)の一例では、オーディオデータの帯域幅およびビットレートの縮小は、サウンド構成のMSML形式化のための無位相符号化インタフェース(例えば図3A参照)を使用して実現され得る。そのような無位相符号化インタフェースは、例えば、知覚情報値の階層を考慮してファイル内データが維持、変換または処分できるかを判定するように構成され得る。より詳細には一旦デジタルオーディオ信号が分析され、対応するMSML形式化が決定されると、例えば、レンジコーダにより、無損失圧縮が、1)二次元ラスタ形態の調波構造、2)高時間分解能および幾ばくかの周波数帯域を有する合計エネルギーエンベロープ、3)合計エネルギー対ノイズエネルギーの割合のプロセスに適用され得る。例えば、公知のサウンド基準との比較により、サウンド構成に関連付けられた情報性の高い(すなわち情報値の高い)サウンド構造を維持しつつ、無位相符号化方法がMSML形式化に適用、例えば、MSML形式化の選択されたデータデータ縮小を標的とするタスクが実行され得る。一般的に、そのような方法は、情報性を維持しつつ情報量/ビットレートの縮小を実現するために各サウンド要素の適切なパラメータの選択を促すフィルタリングおよび/または処理後の構造の完全性と、縮小(すなわち、低情報量またはビットレート)表現に入る結果となり得る構造の劣化度とを決定するために、空間の異なるレベルのサウンドオブジェクトを比較する。場合によっては、無位相符号化インタフェースは、信号時間依存性が必ずしも保持されず、サウンド構造が信号波形の代わりに保存され、本質的な帯域幅およびビットレートを減少させるように適切に構成される。より高い率の帯域幅およびビットレートの縮小を達成するために、比較的情報量の多いレベル構造を持つMSMLサウンド構成の形式化は、定数パラメータを維持するように構成され得る。従って、比較的情報量の少ないレベル構造のパラメータは、低い精度で保持され得るか、または復号時に、例えば、乱数値または適切なパラメータを用いて生成され得る。
【0066】
一般MSML形式化に適用できるそのようなインタフェース/操作プロセスの別の例では、MSMLサウンド構成の形式化のためのオーディオデータ構造分析インタフェースは、楽曲からファジー反復要素を抽出するように構成され得る(例えば図4Aおよび図4B参照)。そのような構造分析インタフェースは、MSML形式化の比較的低レベルの階層内でファジー反復ループ要素を識別するためにMSML形式化のオーディオデータファイルに関連付けられたオーディオデータを処理するように構成され得る。そのような場合、この識別ファジー反復ループ要素は、代表要素および関連カオスパラメータに置き換えることにより、情報値または情報性の全体を感知できる程低下させることなく情報/データ量またはビットレートの縮小を提供することができる。そのようなインタフェースは、例えば、3つのモジュールを備え得る。第1のモジュールは、MSML形式化の初期レベル全体を通して、全てのファジー反復要素の検索、位置付けおよびマーキングを提供するように構成され得る。第2のモジュールは、ファジー反復フラグメントの任意のセットのために一般的なサウンド成分を抽出し、対応する残留信号を形成することによりデータの凝集性のレベルを規定するように構成され得る。第3のモジュールは、抽出された繰り返し要素、対応するマーキングデータおよび残留信号の残留情報を統合することにより生成オーディオフラグメントの予測構築を行うように構成され得る。位相モデリングのフィルタリング方法は、生成オーディオフラグメントに対して、音声構築プロセス時に必要な初期位相情報を最小化するために使用される。このインタフェースは、限定されるものではいが、音楽検索エンジン、音楽視覚化および深部オーディオ圧縮技術を含む種々のアプリケーションで使用されるようにさらに構成され得る。
【0067】
一般MSML形式化に適用できる別の例示的なインタフェース/操作プロセスは、MSMLサウンド構成の形式化の階層繰り返し構造(例えば図5C参照)を使用した音声圧縮に関する。この高度な無位相反復符号化インタフェースは、MSML形式化サウンド階層の最上位レベルにおけるマクロ反復サウンドまたはオーディオプリモトロンにより形成された構造を識別し、それにより、情報値または情報性の全体を感知できる程に低下させること無しに、さらなる情報/データ量またはビットレートの縮小を提供する。二種類のデータが符号化プロセスのために使用され、一つ目はMSML形式化内の一般構造を規定する大規模データであり、二つ目は階層内の比較的下位レベルにより記述された元信号フラグメントを含むデータである。信号フラグメントを圧縮するために、一般的な心理音響コーダが利用でき、場合によっては、可能性として外部信号マスキングを使用することができる。ビットレートの縮小は、MSML形式化階層の最上位レベルにおいて決定された繰り返しフラグメントの除去に起因して生じ、しかし、該フラグメントの位置は記憶または維持される。知覚等価な繰り返しフラグメントにより、比較に必要な参照サンプルの数を低減することができる。
【0068】
一般MSML形式化に適用できるさらに別の例示的なインタフェース/操作プロセスは、除算および二次確率推定無しに整数演算のみを行う高度エントロピーコーダの使用により、MSML形式化に関連付けられた整数値配列の数を低減するように構成され得るMSMLサウンド構成の形式化のための無損失圧縮インタフェース(例えば、図6A参照)を使用したオーディオ帯域幅およびビットレートの縮小に関する。該インタフェースのレンジコーダおよびコンテキストモデルは除算の算出演算を使用しないので、このインタフェースを適用することにより、除算演算を行わない多くの低コストのマイクロコンピュータが該インタフェースを実行することができる。インタフェースのコンテキストモデルの信頼性を向上させるため、二次確率推定が用いられ得る(例えば図6B参照)。二次確率推定は、別のモデルのコンテキストとして予測確率を利用する複雑なコンテキストモデルである。すなわち、例えば、二次確率推定は、異なるレベルの階層に関連するカオスパラメータの一つとして共に実施され得る。この点において、二次元の二次確率推定も、二つの異なるモデルを混合するために使用することができ、二次元の二次確率推定は、コンテキストを決定するために入力された二つの確率を使用する、二次確率推定を改良したものである。場合によっては追加の整数コンテキストを使用することもできる。
【0069】
一般MSML形式化に適用できるさらに別の例示的なインタフェース/操作プロセスは、算術符号化およびコンテキストモデリングを向上させて圧縮率および処理速度を上げ、高効率かつ高速でスペクトルデータを圧縮できるオーディオ信号の圧縮に関する。そのような圧縮方法は完全に自動化することができ、異なる種類のオーディオデータに対する事前初期化を要しない。異なるサイズのスペクトルオーディオデータを調整するに十分な適応性を有するので、該データを異なるスペクトル変換とともに使用することができる。標準的な算術コーダに代えて、より効率的なレンジコーダが使用される。データストリーム、構築されたアルゴリズムモデルおよびデコーダ機能のアルゴリズム最適化にコンテキストモデルが適用される。また、この態様は、符号化された値の確率を上げることに関する適応レンジコーダ技術の使用に少なくとも部分的に基づく。コンテキストモデルの信頼性を向上させるため、二次確率推定が用いられ得る。
【0070】
一般MSML形式化に適用できる別の例示的なインタフェース/操作プロセスは、MSMLサウンド構成の形式化のためのオーディオデータ高度なアクセラレータインタフェースを使用して、かつ、量子化時間周波数スペクトル係数(QMDCT)の数を低減する無品質低下(NQL)プロセスを利用して、それにより、生成サウンドの著しい品質劣化無しにオーディオデータの迅速な配信を提供する、効率的なオーディオデータストリーミングに関し、(例えば図7Aおよび図7B参照)。NQLプロセスは、例えば、人間の知覚の限界または閾値に基づく比較において、形式化の重要性に依存してMSML形式化内でサウンド構造の分類を行う。すなわち、例えば、情報量が人間の知覚の限界または閾値あたり、あるいは限界または閾値を超えるデータにより減少される場合、最小の、もしあれば、情報の品質低下が生じる。高度なアクセラレータインタフェースは、PCM形式を介したデータ逆量子化または逆トランスコーディング無しに初期形式の量子化時間周波数スペクトル係数を再構築するように構成され得る。高度なアクセラレータインタフェースは、例えば、初期に符号化したファイルの時間周波数領域スペクトル係数を三つのグループに分割し得、低周波数スペクトルグループの係数は変更されず、中間周波数スペクトルグループの幾つかの係数はNQLプロセスを使用してゼロ化され得、第3グループ(最も高い周波数)の係数は構造的なサウンド要素(すなわち、調波およびヒット)に影響を与えること無く、類似サブグループの係数に置き換え、低グループおよび中間グループに縫い合わせ、このサブグループと共に整数の因数に対する参照先を保存することにより除去され得る。
【0071】
一般MSML形式化に適用できる別の例示的なインタフェース/操作プロセスは、MSMLサウンド構成の形式化のためのアフィン変換符号化インタフェース(例えば図8A参照)を使用して、元のオーディオデータファイルの完全性(情報値)を保持しつつ、オーディオデータのファイルサイズ(情報量またはビットレート)を縮小することに関する。そのようなインタフェースは、信号エントロピーを低下させる類似サウンド/オーディオプリモトロンのアフィン変換を実施し得る(すなわち、より上位の構造化はエントロピーを少なくし、可能性として情報量またはビットレートを減少させる)。MSML形式化に関連付けられたアフィン変換インタフェースは、例えば、本明細書で開示されるように、時間周波数領域、アフィン類似マクロフラグメントがサウンド情報値に必須である場合のサウンド/オーディオ信号に対し、形式化の圧縮率を上げ、コア圧縮プロセスを提供するために、オーディオ符号化手段の追加または補充として使用され得る。MSML形式化と併せて使用できるこのアフィン変換符号化インタフェースは、信号の圧縮率を高めるためにデジタルオーディオ信号の類似スペクトルミクロフラグメントを利用するように構成される。処理時に、全てのスペクトル領域はサブバンドに分割される。サウンド信号のうち先立つ部分の類似スペクトルフラグメントの検索が独立に、各サブバンドの異なるステップを使用して実行される。アフィン振幅、時間およびスペクトルシフトの変換が類似フラグメントの検索時に使用される。見つかった各フラグメントが元のスペクトラムフラグメントから減算され、残余がスペクトル成分の差としてさらに処理され、従ってスペクトルデータの冗長性が除去され、それにより、プロセスにおいて情報量またはビットレートが縮小される。
【0072】
実際面では、(例えば図9図11で示すように)、デジタルオーディオファイルはビット行列により表現れ、次にこれは、様々なレベルの情報伝達性を表現するビットパターンのために適切に分析することができ、そのような基本ビットパターンは、本明細書で取り組む本開示の各種態様に係る「プリモトロン」と称する場合がある。ビット行列は多次元にまで及ぶため、またビットパターンは二次元以上のビット行列に及ぶ異なる構造/組合せを有することができる(すなわち、種々のレベルの情報性を提供する)ため、プリモトロンは、サウンドまたはオーディオなどのメディアのデジタル形式化のための新たな理論的枠組みを提供する多重構造、多重レベル(MSML)オブジェクトまたは実体として特徴付けることができる。そのような形式化手段および該形式化手段から作成された形式化デジタルオーディオファイルは、本願とともに、プリモトロンが識別または決定され得る様々な方法、並びにそのようなプリモトロンが組み合わされるか分析されて、閾値内の元のデジタルオーディオファイルの表現を合成することができる様々な方法で開示される。本開示の一態様は、閾値内に情報量を維持しつつ、元のデジタルメディアファイルの情報量またはビットレートを縮小することに関するため、当業者であれば、追加の利益および有益性が、例えば本明細書でさらに詳細に述べるように、データ送信、データストレージ、データ機密が実現され得ることを理解するであろう。
【0073】
本明細書で開示されるような形式化方法の態様により決定されるプリモトロンは、デジタルオーディオファイルについて様々なレベルおよび/または次元のビット行列で一つ以上ビットまたはデータ要素のパターンまたは組み合わせを表現するため、デジタルオーディオファイルを、該ファイルに含まれるように識別および/または決定されるプリモトロンの組合せによって表現することができる。すなわち、デジタルオーディオファイルにMSML形式化が施され得、次に該MSML形式化が分析されてファイルに存在するそのようなプリモトロンまたはデータ要素の組合せが決定され得る。そのような分析は、例えば、境界情報量内の決定条件下でサウンドパターンに作用する「生体系」として特徴付けられ得る。そのようなパターンの展開または「生存歴」は、有限数の構造、すなわち、デジタルオーディオファイルの時間または時間周波数期間内のうちの一秒足らずから数分まで異なり得る「生存期間」を有する各々のプリモトロンにより規定される動的カオスシステムにおける情報展開の原理によりさらに特徴付けられ得る。デジタルオーディオファイルは、デジタルオーディオファイルのビット行列のビットのサブセット、またはデジタルオーディオファイルに関連付けられた他の構造または実体を表現するプリモトロンのそのような組合せまたは生体系により表現されるため、識別されたプリモトロンの組合せを含むMSMLオーディオファイルは、例えば、(元のデジタルオーディオファイルの知覚閾値内のデジタルオーディオファイルの情報品質を保持しつつ)元のデジタル化されたオーディオファイルと比較して縮小されたデータファイルサイズ(情報量)を提示し得る。場合によっては、そのような縮小は、例えば、元のデータファイルサイズの約20分の1から約60分の1であり得、縮小され得るデータファイルサイズ縮小は、例えばさらなるプリモトロンおよび関連方法が識別または決定され、改良されるように、60分の1をさらに上回って達成され得る。例えば、識別または決定され、改良されるさらなるプリモトロンおよび関連方法として、そのようなプリモトロンは、デジタルオーディオファイルの情報性を元のデジタルオーディオファイルの知覚閾値内に保持しつつ、特定のデジタルオーディオファイルの情報量またはビットレートの縮小を容易にし得る。別の場合では、さらに一層一般的なオブジェクトまたは他の実体により表現されるデータファイル中のプリモトロンまたは他のデータ要素の組合せのサブセットが可能となり得、それにより、元のデジタルオーディオファイル(および/またはそのMSML形式化)と比較してデータファイルをさらに縮小することができる。このため、そのようなパラダイムは、調和に基づく、または調和的に構築された高忠実度の(楽、声およびサウンドが豊かなメディアを含む)オーディオ信号の形態で表現される任意の物質を、元のデジタルデータ信号の閾値内で、よりコンパクトで効率的に記憶および再生する、高度に構造化された多機能デジタルデータ形式のパラダイムを形成する。
【0074】
様々なプリモトロンまたは他のデータ要素を形成する様々な要素の組み合わせの識別において、生成代表要素は、例えば、代表要素のコンテキストもしくは他の特性、および/または代表要素が決定されたデータ要素もしくはプリモトロンを表現する、特定のパラメータ(すなわち、本明細書でカオスパラメータ、または代表要素の特定の特性に関連付けられたデータファイルとして本明細書で参照したパラメータ)に関連付けられ得る。そのようなパラメータは、例えば、同一のレベル階層におけるデータ要素間における関係と、異なるレベル階層にわたるデータ要素間における関係と、下位レベル階層のデータ要素および上位レベル階層のデータ要素に対する下位レベル階層のデータ要素の関係との間における関係とを含み得る。さらに、そのようなプリモトロンは有限の境界情報量内で規定されるため、そのようなプリモトロンに関連付けられた識別パターンは、デジタルオーディオファイルの対応する各種態様に関連付けられ得る。例えば、あるプリモトロンは調波を表現し得るが、他のプリモトロンはボーカル、特定の楽器、特定の周波数もしくは周波数帯域、発生音響または音楽的または他の調波に基づく性能に関連付けられたデジタルオーディオファイルの他の識別可能な任意の態様を表現し得る。
【0075】
従って、デジタルオーディオファイルのMSML(すなわち、プリモトロンの組合せによるデジタル化オーディオファイルの表現)形式化の一態様は、プリモトロンの組合せ中のプリモトロン成分として必ずしも識別/決定されないビット行列のビットが、ノイズ(すなわち、ホワイトノイズまたは周囲ノイズ、すなわち、MSML形式化に変換されるデジタルオーディオファイルの性質に必ずしも影響を与えない(すなわち、デジタルオーディオファイルの情報品質に対する有害な影響が抑制される))ノイズとして指定され得るということになる。そのような場合、ノイズはMSML表現に含まれないか、または除去され得る。しかしながら、MSML表現に一部または全ての「ノイズ」が含まれるように残存することが望ましい場合がある。例えば、デジタルオーディオファイルが生音楽演奏を表現する場合、ノイズの一部は演奏現場または演奏に対する観客のリアクションに起因する。よって、場合によってはデジタルオーディオファイルのMSML表現にそのような「ノイズ」を含めてオーディオファイル内容に活力、雰囲気または背景を提供することが望ましい。そうすることで、「所望ノイズ」がノイズ要素に切り分けられ、各ノイズ要素が一つ以上の末梢プリモトロンにより表現され得る。そのような方法では、一つ以上の末梢プリモトロンまたはその様々な組み合わせはMSML表現に選択的に含まれ得る。すなわち、そのような末梢プリモトロンはMSML表現に含めることができ、あるいは、必要な場合または所望される場合、MSML表現から除去することができる。
【0076】
前述のことに関連する別の態様は、元のデータファイルのMSML表現がプリモトロンまたは他のデータ要素の組合せの形態であるため、また、末梢プリモトロンが識別/決定され、MSML表現に選択的に含有または排除され得るため、プリモトロンの組合せのうち識別/決定されるべき一つ以上サブコンビネーションがMSML表現に選択的に含有または排除し得ることでる。例えば、前述した生音楽演奏について、MSML表現に含まれるプリモトロンの組合せは、演奏される楽器の音楽のみを含み得る。そのような場合、例えば、演奏を各楽器に関連する「トラック」に切り分けることができるように個々の楽器から音楽を識別し得る。このため、オーディオ信号および該オーディオ信号の跡を辿ることが可能なネットワーク伝達に相対的かつ関連する情報の同時的または適時に同期した効率的な集合処理は、移動体および地上のIPインフラストラクチャに対して動的に最適化され得、そのようなMSMLで表現されたオーディオファイルは、(例えば、2.0ステレオおよび5.1サラウンド音響を含む)高度な規定で、かつ、低ビットレートで単一データファイル内で平面信号および体積信号の表現を同時に実行および動的に抽出することができ、元の音源を十分に明白にする音質で、歌声をリアルタイムに抽出することと、元の音源を再生することとができる。デジタルオーディオファイルのMSML表現の特定の特性は、閾値内の情報品質または元のデジタルオーディオファイルの情報品質よりも高い情報値を有する著しく少ない情報量またはビットレートであるため、本明細書で開示されるそのような例示的な能力は、デジタルストレージ、送信、中継、およびメディア中心システムおよびネットワークの帯域幅に関する支出を著しく抑えることであり得、一方で新たな収益源を広げ、コンテンツの収益化を向上させ得る。
【0077】
例えば、元のオーディオデータファイルを構文解釈、またはMSML表現に関する特定の特性に応じてデータファイルを別離する能力に関連する別の態様は、場合によっては、MSML表現に選択的に含めるための特定の二次的プリモトロンの作成または変換を可能とし得ることである。例えば、前述した生音楽演奏について、異なる開催地の音響特性は、デジタルにより捕獲または再作成され、一つ以上プリモトロンとしてMSML表現に変換され得る。そのような場合、開催地成分はデジタルオーディオファイルのMSML表現から除去することが可能であり、次に、異なる開催地に関連付けられたプリモトロンに置換され得る。従って、当業者であれば、プリモトロンが多くの異なる組合せに配列されて、元のデジタルオーディオファイルに由来するプリモトロンであろうとなかろうと、所望のMSML表現が提供され得ることを理解するであろう。
【0078】
所望のMSML表現を提供するために、多くの異なる組み合わせでプリモトロンを配列する概念の助成において、当業者であれば、プリモトロンまたは他のデータ要素が作成されてデジタルオーディオファイルのMSML表現内に他の実体が表現され得ることも理解するであろう。例えば、そのようなプリモトロンまたは他のデータ要素の一つは、例えば、デジタルオーディオファイルのMSML表現のオーナまたは所有者を表す一意の印に関連付けられ得る。より詳細には、デジタルオーディオファイルのMSML形式への変換時に、プリモトロンまたは他のデータ要素の一意の組合せが生成されて、デジタルオーディオファイルのMSML表現の権利を有する決定ユーザ、つまり、ユーザは、例えば、コンテンツのオーナ、コンテンツのライセンシー、コンテンツの購入者またはコンテンツにアクセスする権利を購入する実体であるかが識別され得る。幾つかのケースでは、一意の印は、ユーザまたはその二次的所有者によるMSML表現ファイルの操作に関係なくMSML表現の一部に残るように構成され得る(すなわち、「消去可能」または除去可能ではない)。このため、当業者であれば、一意の印が、場合によっては、元のデジタルオーディオファイルの特定のMSML表現に対し「透かし」またはセキュリティ特徴を提供し得ることを理解するであろう。また、そのような一意の印は、場合によってはMSML表現の一部分に残るように構成されていてもいなくても、MSML表現ファイルの他の態様を表現するように構成または配列され、そのような一意の印は例えば、メタデータ(すなわち、キーワード、参照番号、分類、セキュリティデータなど)を含み得ることを当業者であれば理解するであろう。
【0079】
場合によっては、デジタルメディアファイルのMSML表現に含まれる一意の印は、時間領域に内部構造情報を動的に反映および表示して、任意の外または外部の事象を持つ同期再生オーディオを可能とするために、符号化調波信号と併せて機能するように構成された専用データチャネルを介して明らかにされるか、または監視され得る。例えば、特定のデジタルメディアファイルのプリモトロン構造の決定時に、一意の印を含むファイルを備えるプリモトロンは時間領域に配列され得る。特定のプリモトロンの構造または特定の特性、およびデジタルメディアファイルの持続時間に関連する時間領域における特定のプリモトロンの位置の知識を通じて、そのような知識は、幾つかの事象を駆動するために使用する、または該事象に関連付けられた情報の幾つかの発生を有するために使用することができる。そのような外部事象は、例えば、ゲームまたは映画の動画またはプログラミングシーケンス、曲の歌詞、表紙絵、アーティストおよび構成者の資格もしくは楽譜、室内および屋外の照明を含む様々な視覚的および華々しい特殊効果もしくは視覚的オーディオブック、標的広告、あるいは再生されたサウンドメディアに関連する任意の他の情報を含み得る。すなわち、例えば、プリモトロンまたはプリモトロンの組合せは、特定の外部事象または効果を駆動するような専用データチャネル内で指定され得る。専用データチャネルが該チャネルに組み合わされるか、または導入されるMSMLにより形式化したオーディオファイルを有する場合、MSMLにより形式化したオーディオファイルの持続時間に沿った特定のプリモトロンまたはその組合せの発生は、MSMLにより形式化したオーディオファイルの実行時に特定の時間で、対応する外部事象または効果を駆動するように機能し、それにより、受け取ったメディアの情報性および個性化が高まり、エンターテイメント価値およびその収益化が実質的に向上する。
【0080】
より詳細には、専用データチャネルの態様について、生オーディオデータ(PCM,wav,aiff)および高ビットレートMP3、AAC、OGG、WMA(すなわち、約192kbit/秒以上)のファイルをMSML形式化に符号化および変換処理する際に、オーディオデータを表す固有の性質および特性を有する一式の構造が識別および抽出される(すなわち、プリモトロンおよびプリモトロンを使用した多重レベルの記述が識別および抽出される)。そのようなやり方でオーディオデータを表現することにより、十分に統合されたインテリジェントな双方向データチャネルをMSML形式化と関連させることができる。例えば、データチャネルは、オーディオまたは他のメディアデータのMSML形式化に関する、および該形式化に関連付けられた種々の情報を含むように構成され得る。より詳細には、データチャネルは、MSML形式化の特定のプリモトロンおよび/または多重レベルの記述要素に関連付けられた一つ以上の事象を示すデータを受信するように構成され得る。別の場合では、データは楽曲全体に概ね関連付けられ得る。例えば、そのような事象は、音色に関連付けられたオーディオおよび/または音波属性、用語に関連付けられた特定の時間または持続時間を有する一つ以上の歌詞、楽曲に関連付けられた「楽譜」、ライセンスの識別、著作権、並びに法的情報、並びに、他のオーディオ、イメージおよび動画オプション、ニュース、イベントなどの関連テキスト材料へのリンクなど種々の下位データを含み得る。
【0081】
一例では、サウンド構成は、前述したプリモトロンおよび多重レベルの記述を備える関連MSML形式化へと処理され得る。MSML形式化の準備時に、対応するデータファイルは、外部データと通信できるデータを有するように構成され得る(すなわち、データファイルは「データチャネル」と通信するように構成され得る)。そのような外部データは、特定の動作、事象、効果などと共に、特定のプリモトロン、特定の多重レベルの記述またはそれらの組合せと関連するように構成され得る。例えば、外部データは、装飾的な水飲み場の動作を実行するように構成され得る。このため、サウンド構成の様々な特性は、水飲み場の様々な動作特性と相関され得る。特定の態様では、例えば、サウンド構成の持続時間に沿った体積は、一つ以上の水飲み場によってかけられた水の体積または圧力と相関され得、様々な楽器は水飲み場の様々なサブグループと相関され得、歌詞は様々な水飲み場を照らす光に相関され、時間が定められ得る。このため、特定のサウンド構成のMSML形式化から決定された様々なプリモトロンおよび多重レベルの記述は特定のアプリケーションを駆動または作用するように自動的に構成され得る。よって、特定のアプリケーションは、異なるサウンド構成のMSML形式化を、専用のデータチャネルを介して特定のアプリケーションに関連付けるだけで容易に変化され得る。類似例を、例えば、花火大会などの花火に結び付けることができる。よって、このように構成されると、サウンド構成は、サウンド構成のMSML形式化の本質そのものを用いて特定のアプリケーションを「駆動」するために使用される。すなわち、データチャネルの特定の構成は、同一のままである(すなわち、幾つかのプリモトロンまたはその組合せは特定の対応外部事象を駆動する)が、サウンド構成を変化させて該特定のサウンド構成に関連付けられた異なるMSML形式化を与え、プリモトロン事象は別のサウンド構成ではなく持続時間を通して異なるインスタンスで生じるため、データチャネルに関連付けられた外部事象は異なるサウンド構成ではなく異なるシーケンスで駆動される。このため、一つのサウンド構成のMSML形式化は、特定のアプリケーション、例えば、楽曲の特性に基づくビデオゲーム(すなわち、カラオケをベースにしたビデオゲーム)に変化を与えるために、別のサウンド構成のMSML形式化と容易に置換することができる。そのような構想は、非常に時間のかかるプロセスで各サウンド構成が分析されなければならず、特定のアプリケーションに関連付けられた個々の事象がそのサウンド構成の特定の態様と相関されなければならない従来の状態と明確に対照的である。サウンド構成を変更するために、そのような場合、骨の折れる手動相関プロセスが繰り替えされなければならない。
【0082】
また、当業者であれば、データチャネルの概念がMSML形式化の連携についてさらなる能力も有することを理解するであろう。例えば、特定のサウンド構成は、場合によっては該サウンド構成に関連付けられた対応する歌詞および/または動画を有し得る。開示するように、サウンド構成は、本明細書でさらに詳細に述べるような本開示の各種態様に従ってMSML形式化によって表現され得る。場合によっては、歌詞および/または動画は、サウンド構成のプリモトロンプロファイルと時間領域または時間周波数領域において相関され得る。すなわち、歌詞および/または動画内の特定の発生は、サウンド構成の時間領域プリモトロンプロファイルに関連付けられ得る。よって、サウンド構成のMSML形式化と歌詞および/または動画を有するデータチャネルとの間の相互関係は、プロファイルが相関できる(すなわち、特定のプリモトロンまたはその組合せの時間領域発生に従って相関できる)状況を提示し得る。相関を行う際に、サウンド構成のMSML形式化は時間領域プリモトロンプロファイルの対応に起因してデータチャネルに関連付けられた歌詞および/または動画と基本的に同期されるようになる。このため、場合によっては、データチャネルとサウンド構成のMSML形式化の相関は基本的にリアルタイムによるため、動的同期が達成または実現され得る。実際的な意味の一つは、例えば、サウンド構成のMSML形式化は遂行または実行されているプロセスであり得、持続時間の任意の時間においてデータチャネルとインタラクションさせることである、そのようなインタラクション時に、データチャネルに関連付けられた動画および/または歌詞は基本的にリアルタイムでサウンド構成と動的に同期されるようになり得る。これにより、例えば、相関を行うために、発生時間(すなわち、t=0)を当てにすることなく、サウンド構成のMSML形式化との自由な関与および解放を可能する。
【0083】
一部の態様では、データチャネルに関連付けられた外部データは、サウンド構成のMSML形式化のデータファイル内の具体的なレポジトリまたは位置を対象とし得る。そのような方法では、外部データは、サウンド構成のMSML形式化から合成および演奏されたサウンドに先立って、かつ、整合的に実施され得る。このため、適切な再生態様は、収集された音声情報(外部データ)レポジトリへのアクセスを提供するように構成され得、同時にサウンドデータを復号してリッチな双方向コンテンツのユーザ体験を作成しつつ、専用のデータチャネルを介して所望の略同時に発生するコンテンツ(すなわち、異なるサウンドおよび/または動画構成)を受け取るように構成され得る。そのような態様により、限定されるものではないが種々の双方向音楽および動画サービス、ユーザおよびエンターテイメントがメディアと相互に作用するゲームを含む多次元のインテリジェントな音楽および関連アプリケーション(すなわち、ユーザに個性化された再生体験のための、例えば、音楽が駆動または体験を制御する、高品質の双方向コンテンツをユーザに提供することにより音楽の新しい体験方法)を作り出すことができる。
【0084】
データチャネルは、同一のサウンド構成/デジタルオーディオデータおよびサウンド構成にリンクされた任意の外部情報のMSML形式化時と合成プロセス時とに収集されたデータから構成され得、対応する符号化プロセス時に、または限定されるものではないが以下の構造に従って既に符号化されたMSML形式化の事後処理の追加として、所望の情報をMSML形式化に組み込むように構成され得る。
【0085】
すなわち、一部の態様では、注目されたデータチャネルは、外部事象に関連、および/または、インタラクションするように構成されたサウンド構成のMSML形式化と関係がある数種類の情報データを備え得、一例は以下の通りである。

−一般:
−演奏コンテンツを識別するファイルヘッダおよび各ブロック(典型的には10秒間隔において符号化され、符号化および復号化された元のファイルと対応する全ての高度情報を有する基本データ
−曲ID、任意の追加的曲情報がクラウドコンピューティングリポジトリから受信できる一意の曲またはオーディオ合成物の識別子
−LDE
−エンコーダID
−デコーダID
−ライセンス有効期間
−曲名
−アルバム名
−アーティスト名
−パターン総数
−反復総数

−詳細
−内部
−ブロック
−フレーム
−外部
−一次
−二次

−以下の情報を表す一般データ:

−詳細(ファイルヘッダで符号化されたデータ)
−曲識別データ:
−アルバム内のトラック番号、(ディスクコレクション用の)ディスク数、ギャップまたはギャップレスアルバム
−音楽ジャンル、音楽サブジャンル、スタイル
−一次合成物またはリミックス
−性能一次言語

−著作権:
−著作権ホルダネーム
−リリース日
−ライセンスの種類
−ライセンス期間(開始日および満了日)
−ライセンスが適用可能な地域
−レコーディングスタジオ名

−認証情報:
−音楽の作者(作曲家)
−曲の歌詞の作家
−曲を創作するために使用された様々な楽器のリストおよび合計数およびトラック内のそれぞれのID
−各楽器のアーティスト(すなわち、一般情報で述べた楽器を演奏したアーティスト名)
−音響技術者
−芸術グラフィックデザイナ

−技術特性:
−曲の形式(モノラル、ステレオ、多重チャネル5.1など)
−出力ファイル特性:離散化(44.1/48/96/192KHz)、ビット深さ分解能(16/24/32)
−平均に対する音量レベルの偏差(すなわち、曲内の一定レベルを提供および/または様々な曲の等価レベルの連続再生を提供するように調整されるべき曲レベルの大きさ)

−内部:
−ブロック毎:
−基本データ
−リズム
−テンポ
−ステレオ信号規定
−ユーザがミックスから特定の楽器を除去できる時間周波数マスキングおよび他の情報
−メロディ規定:
−スケールの種類

−遠隔情報(オーディオ、動画、テキスト)およびそれらの持続時間に対するタイムスタンプされたリンク
−タイムスタンプされた音波特性およびそれらの対応期間:
−対応輝度を持つヒット
−調和性:
−楽器の識別と対応する体積空間規定
−時間遅延などを含むミックス内および特定のチャネル内の各楽器の割合
−ブロック内の楽器総数
−声/楽器規定
−母音
−子音
−不協和
−ピッチクラス
−音楽事象:
−平均大きさレベル(AVL)
−大きさレベルの上昇
−大きさレベルの減少
−スケール加入シーケンス
−スケール低下シーケンス
−トーンアタック
−トーンデコイ
−トーン持続時間
−トーンピッチ
−トーン強度(音の強さ)
−トーンシンブル(または品質)
−非周期態様:
−アッタク一過性
−ビブラート
−エンベロープ変調

−パターンおよび反復
−ブロック毎のパターン数
−パターン識別
−ブロック毎の反復数
−反復識別
−一次言語歌詞

−フレームごと:
−合成物特性:
−曲の歌詞:
−フレームを通した歌詞の各用語の時間位置および持続時間
−ヒット位置
−ヒット特性:
−輝度
−持続時間
−スケールステップ

−高調和構造化サウンド場面の位置
−調和レベル
−信号純度レベル
−調和反復位置
−各特定パターンの位置

−外部:
−一次(例えば、クラウドの音楽レポジトリの計算において記憶された情報)
−一般情報
−対応作品
−追加スライド
−コンテンツのオーディオ指紋
−曲の楽譜

−二次(例えばクラウドの音楽レポジトリを外部で計算するために記憶された情報)
−時間同期に沿った任意のテキスト、および曲(フラグメント)を通したテキストの可視性の持続時間
−時間同期に沿った任意のリンク、および曲(フラグメント)を通した可視性の持続時間
【0086】
実際面では、専用データチャネルがデジタルオーディオファイルのMSML形式化の多用途性を向上させるのに役立ち得る。より詳細には、MSML形式化構想内では、オーディオ(または、一部の態様では動画)データを特性化することにより、該データの客観的表現をMSML形式化における代用として機能させることができる。より詳細には、比較的抑制された量の客観的表現とともに該表現の特定の規定により、該表現の様々な組み合わせを、元のオーディオデータの構成を反映させる(すなわちオーディオデータが、任意のサウンド構成を特徴付けるための規定領域を提供する公知の一式の客観的表現内の様々な組み合わせにより表現される)方法でアレンジすることができる。このように、MSML形式化の手段および構造は、従来のように波長の観点から音声を分析する際に遭遇する主観的基準または標準ではない基準を最小化または除去する。
【0087】
規定された共通の客観的表現により、さらにサウンド構成を個々の要素(すなわち、楽器、歌詞など)に分解することができ、そのような要素は、所望される場合は含有、置換または操作することができる。一部の態様では、サウンド構成は「構成単位」または合成物の基盤としてMSML形式化された客観的表現を使用して形成することができる。さらに、メタデータ、セキュリティ情報、著作権資料などの外部データがMSML形式化に追加され得、そのような外部データは、デジタル形態で、サウンド構成の客観的表現と区別され得る客観的表現を提供し得る。このように、外部データは、サウンド構成自体の特性を破壊または影響することなく合成、実施、分析または操作され得る(すなわち、外部データはMSML形式化のサウンド構成を表現するデータから客観的に区別できるように構成され得る)。
【0088】
特定の態様では、MSML形式化により実現される客観的表現は、例えば、様々なサウンド構成客観的に分析する際(すなわち、「著作権証拠収集」ツールとして分析する際に)、あるいは、ドライバまたは「駆動」システムの他の関連コンポーネント(すなわち、信号ディスプレイ、動的ファウンテン構成、ビデオゲームなど)として役立ち得る。すなわち、客観的表現は外部データの関連により規定され得る対応機能を作動させることに関するか、または作動させるように構成され得る。前述した専用データチャネルは、サウンド構成を(MSML形式化フォーマットで)規定関数に、あるいは、サウンド構成のMSML形式化表現の調波構造内に導入するために使用され得る。
【0089】
他の態様では、サウンド構成の客観的表現を与えるサウンド構成のMSML形式化は、必ずしも時間依存態様に基づくわけではないが、時間依存態様を含み得る要素に基づく事象スキームを容易にし得る。このスキームは、駆動された要素/事象であるため、様々なオーディオ特性(すなわち、テンポ、拍子、小節、リアルタイム同時発生、可聴事象、感情事象など)が、より客観的なやり方で表現することができ、サウンド構成の基本成分に対して類似するやり方で操作することができる。
【0090】
一部の態様では、外部データの一部として含まれ得る前述した一意の印は、ユーザ以外の者によるMSML表現の操作を防止し得る。他の態様では、一意の印は、ファイルがユーザにより複製、転送または配信される場合、ユーザを識別する(すなわち、特定のMSML表現の権利を有する特定のユーザを識別する)ように機能し得る。そのような特徴は、元のデジタルオーディオファイルの特定のMSML表現の複製、ファイル共有または無許可の使用を制限または排除し得る。別の場合では、そのような特徴は、例えば、習慣またはトレンドの購入、商品販売のターゲット層、あるいはデータの使用(および使用傾向)を含むユーザを「追跡」するための仕組みとして、または購入ユーザの勘定書もしくは請求書、MSML表現の権限使用もしくはMSML表現に対する許可アクセスを目的とする仕組みとして機能し得る。このため、一意の印は、場合によってはの一定の権利を有する特定のユーザに起因する跡を辿ることが可能なデータファイルを提供するようにMSML形式空間内で機能し得、そのような機能性は、向上した効率性を促し、MSML形式のいかんに関わらず、データファイルの無許可の再配信を制限または制止することにより、コンテンツのオーナの収益を確保する。このため、MSML表現はアナログオーディオ信号から一意のサウンド指紋を抽出するように構成され得、聞き取れないデータのデータ拡張は配信方法の形式変換時における依存性に関係なく高い効率性を提供し、デジタルメディア識別および追跡可能性の方法を確保し得る。
【0091】
当業者は、上述の開示が前述の説明と添付の図面とに提示される教示の利益を有することに関する、本明細書で説明した本開示の多くの変更および他の態様を想到できるであろう。例えば、本明細書に開示の態様は、場合によっては、調和に基づく、または調和的に構築された(音楽、声および他のサウンド豊かなメディアを含む)高忠実度信号の形態で表現される任意の素材を、非常にコンパクトかつ効率的に記憶および再生するように構成された多機能デジタルデータ形式の印として参照され、信号およびその追跡可能なネットワーク配信に対する情報および関連する情報の同時および適時に同期された効率的な集合処理は、移動体および地上のIPインフラストラクチャに対して動的に最適化される。そのようなメディアオファイルは、(例えば、2.0ステレオおよび5.1サラウンドサウンドを含む)高度な規定で、かつ、低ビットレートの単一データファイル(すなわち、情報量が縮小されている単一のデータファイル)内に平面信号および体積信号の表現を同時に実行および動的に抽出することができ、元の音源を十分にトランスペアレントかつ再現性の高い音質で(すなわち、高情報品質で)歌声をリアルタイムに抽出することもできる。そのような能力は、デジタルストレージ、送信、中継、およびメディア中心システムおよびネットワークの帯域幅に関する支出を大幅に削減し、一方で新たな収益源を広げ、コンテンツの収益化を向上させ得る。この点において、MSML表現はアナログ信号から一意のサウンド指紋を抽出するように構成され得、聞き取れないデータの拡張は、配信方法の形式変換時における依存性に関係なく高い効率性を提供し、デジタルメディア識別および追跡可能性の方法を確保し得る。そのようなメディアは、信号の内部構造を時間領域または時間周波数領域で動的に反映および表示する調和信号と調和および一体化された専用のデータチャネルを含むようにも構成され得、従って、双方向のデータインタラクションにより、外または外部の事象(そのような事象はゲームまたは映画の動画もしくはプログラミングシーケンス、曲の歌詞、表紙絵、アーティストおよび構成者の資格もしくは楽譜、室内および屋外の照明を含む様々な視覚的および華々しい特殊効果もしくは視覚的オーディオブック、標的広告、あるいは再生されたサウンドメディアに関連する任意の他の情報を含み得る)を有する同期された再生オーディオを可能とする。データチャネルは、情報性(すなわち情報値)と受信メディアの個性化とを実質的に増強し、従ってエンターテイメント価値とその収益化を実質的に向上させる。
【0092】
さらに、本明細書に開示の方法に対し、当業者であれば、開示した方法が例えば、対応プロセッサまたは他のコンピューティングおよび通信装置を介して連携できる様々な装置など適切な装置およびシステムで実行可能に具体化され得、そのような装置は必要な、所望される、および/または適切な特定のメモリまたはストレージ設備に関連付けられ得ることを理解するであろう。さらに、当業者であれば、開示した方法がプロセッサによって実行されると、装置に、開示した方法を少なくとも実行させるコンピュータ可読プログラムコード部を内蔵する少なくとも一つのコンピュータ可読記憶媒体で具体化され得ることを理解するだろ。それ故、本開示は開示した特定の態様に限定されず、変更や他の態様が添付の特許請求の範囲の範囲内に含まれることが意図されると理解されるべきである。特定の用語を本明細書で採用しているが、単に包括的および説明的趣旨で使用されており、限定目的で使用されているものではない。
図1
図2
図3A
図3B
図4A
図4B
図5
図6A
図6B
図7A
図7B
図8A
図8B
図8C
図9
図10
図11