(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5771618
(24)【登録日】2015年7月3日
(45)【発行日】2015年9月2日
(54)【発明の名称】音声オブジェクトの区分を示すメタデータ時間標識情報
(51)【国際特許分類】
G10L 19/00 20130101AFI20150813BHJP
【FI】
G10L19/00 330B
G10L19/00 312E
【請求項の数】19
【全頁数】22
(21)【出願番号】特願2012-533640(P2012-533640)
(86)(22)【出願日】2010年10月14日
(65)【公表番号】特表2013-509601(P2013-509601A)
(43)【公表日】2013年3月14日
(86)【国際出願番号】EP2010065463
(87)【国際公開番号】WO2011048010
(87)【国際公開日】20110428
【審査請求日】2013年6月17日
(31)【優先権主張番号】61/252,788
(32)【優先日】2009年10月19日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】レスク,バルバラ
(72)【発明者】
【氏名】エングデガルド,ヨナス
【審査官】
上田 雄
(56)【参考文献】
【文献】
特開2006−163063(JP,A)
【文献】
国際公開第2009/101703(WO,A1)
【文献】
特開2007−248895(JP,A)
【文献】
特表2007−520727(JP,A)
【文献】
特開2000−206973(JP,A)
【文献】
Eoin Brazil,Cue Point Processing: An Introduction,Proc. COST G-6 Conference on Digital Audio Effects(DAFX-01),IE,2001年12月 6日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
時間標識情報を音声データ中に符号化する方法であって、前記音声データはビットストリームであり、当該方法は、
時間標識情報を前記音声データ中の音声メタデータとして符号化することで、ジョイントビットストリームを形成するステップを含み、前記時間標識情報は、前記音声データ中の音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化されており、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器は前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できる、
方法。
【請求項2】
前記音声オブジェクトは楽曲である、請求項1に記載の方法。
【請求項3】
前記区分は前記音声オブジェクトの特徴部分である、請求項1に記載の方法。
【請求項4】
前記音声オブジェクトは楽曲であり、前記区分は、コーラス、リフレインまたはその一部である、請求項3に記載の方法。
【請求項5】
前記音声オブジェクトは楽曲であり、前記複数の区分は、前記楽曲の時間的音楽的構造に関連する異なる区分である、請求項1に記載の方法。
【請求項6】
前記複数の区分は、以下の区分、すなわち、
導入部、
歌詞、
リフレインもしくはコーラス、
ブリッジ、または
ソロ、
のうち少なくとも1つを含む、請求項5に記載の方法。
【請求項7】
前記音声オブジェクトは楽曲であり、前記時間標識情報は、以下、すなわち、
前記楽曲内における、特定の楽器または楽器グループの発生、
歌声の発生、
前記楽曲の中で一番音の大きな部分、
主題、
動機、または
主題の変形、
のうち少なくとも1つを示す、請求項1に記載の方法。
【請求項8】
前記時間標識情報は、
前記区分の開始位置、および
前記区分の終了位置または継続長さ、
を指定する、請求項1に記載の方法。
【請求項9】
前記方法は、
前記音声データ中のラベル付け情報を符号化することを含み、前記ラベル付け情報は、前記音声オブジェクトの前記複数の区分をラベル付けし、前記ラベル付け情報は前記ジョイントビットストリームのメタデータとして符号化される、
請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
前記音声オブジェクトは楽曲であり、前記時間標識情報は、特定の音楽的特性を有する区分を示し、前記ラベル付け情報はそのセクションについての特定の音楽的特性を記述する、請求項9に記載の方法。
【請求項11】
前記音楽的特性は、以下、すなわち、
特定のテンポ、
特定のアーティキュレーション、
特定のムード、
特定の調性、または
特定の音楽的スタイルまたはジャンル、
のうち1つを含む、請求項10に記載の方法。
【請求項12】
前記ラベル付け情報はテキストラベルとして符号化される、請求項9に記載の方法。
【請求項13】
前記ラベル付け情報は、表のインデックスとして符号化される、請求項9に記載の方法。
【請求項14】
前記時間標識情報は、
秒値、
秒値および端数秒値、
サンプル番号、
フレーム番号、
整数のフレーム番号および整数のサンプル番号、または
整数のフレーム番号および端数のフレーム値、
を含む、請求項1に記載の方法。
【請求項15】
前記複数の位置のうちある所与の位置における時間標識情報は、前記ビットストリーム中の前記所与の位置の発生に関連して指定される、請求項1に記載の方法。
【請求項16】
前記時間標識情報は、
MPEG−2または−4 AAC音声データの拡張ペイロードコンテナ、あるいは
MPEG−4パート12に適合するメタデータコンテナ、
中に符号化される、請求項1に記載の方法。
【請求項17】
音声データおよび音声メタデータを含むジョイントビットストリーム中の時間標識情報を復号する方法であって、
前記ジョイントビットストリーム中の前記音声メタデータとして提供された時間標識情報を復号するステップを含み、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、それにより、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、
方法。
【請求項18】
時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器であって、前記音声データはビットストリームであり、これによりジョイントビットストリームが形成され、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、符号化器。
【請求項19】
音声データを含むジョイントビットストリーム中の音声メタデータとして提供された時間標識情報を復号するように構成された復号器であって、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、当該復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、復号器。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は音声符号化に関し、より具体的には、音声〔オーディオ〕(audio)オブジェクトの区分〔セクション〕(section)を示す、音声データ内のメタデータに関する。
【背景技術】
【0002】
楽曲は、しばしばその楽曲の特徴部分(リフレインのコーラス(chorus)などのような)を聴くことによって認識することができる。また、音楽消費者が楽曲を好きか嫌いかを評価するには、楽曲の特徴部分を聴くだけで十分である場合がある。音楽消費者がデジタル音声データとして保存された楽曲の特徴部分を探している場合、特徴部分を見つけるために、音楽消費者は楽曲の中で手作業で早送りしなければならない。これは、特に音楽消費者が特定の楽曲を見つけるために大規模な音楽コレクションの中の複数の楽曲をブラウジングする場合、煩雑である。
【発明の概要】
【0003】
本発明の第1の態様は、時間標識(marking)情報を音声データ中に符号化するための方法に関する。
【0004】
好適には、時間標識情報を含む符号化された音声データは、MP3(MPEG−1オーディオ層3)ファイルまたはAAC(先進的オーディオ符号化)ファイル内などのような、単一の音声ファイルに保存される。
【0005】
この方法によれば、時間標識情報は、音声データ中の音声メタデータとして符号化される。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。例えば、時間標識情報は、その区分の開始位置および終了位置、または開始位置のみを指定する場合がある。
【0006】
前記少なくとも1つの区分は、音声オブジェクトの特徴部分であってもよい。このような特徴部分は、しばしばその特徴部分を聴くことによって瞬時に音声オブジェクトを認識できるようにする。
【0007】
このような音声データ中に符号化された時間標識情報は、音声オブジェクトの特定の区分を瞬時にブラウジングすることを可能にする。よって、特定の区分を見出すために音声オブジェクトを通じて手作業で探索することが回避される。
【0008】
この音声データ中に符号化された時間標識情報により、特定の区分(例えば、特徴区分(特に、コーラス))の抽出が可能になる。その区分は、着信音またはアラーム信号として利用することができる。この目的のため、その区分を新規ファイル内に保存することができ、あるいは、その着信音またはアラーム音もしくはアラーム信号が再生されたときに、音声データ中の時間標識を用いてその特定の区分から再生を開始することができる。
【0009】
前記少なくとも1つの区分が音声オブジェクトの特徴部分(すなわち、重要部分または代表的部分)である場合、この標識付けされた区分を時間標識情報と併用することで、聴くことによって瞬時に認識することを可能にする音声オブジェクトの音声サムネイルが提供される。
【0010】
消費者機器が特定の区分(例えば、楽曲の特徴区分)を見出すための音声データ自動分析に対応している場合でも、その区分を見出すためのそのような分析は不要である。なぜならば、時間標識情報は事前に既に特定されており、音声データ中に含まれているからである。
【0011】
音声データは、純粋な音声データ、多重化されたマルチメディアビデオ/オーディオデータ(MPEG−4ビデオ/オーディオビットストリームまたはMPEG−2ビデオ/オーディオビットストリームなどのような)、あるいはこのような多重化されたビデオ/オーディオデータの音声部分であってもよい点に留意されたい。
【0012】
時間標識情報は音声データの生成時に符号化されてもよく、または時間標識情報は、所与の音声データ中に含まれてもよい。
【0013】
符号化器からの音声データ出力または音声復号器への音声データ入力は典型的には、ビットストリームを形成する。よって、本出願全体において、「ビットストリーム」という用語が「音声データ」という用語の代わりに用いられ場合がある。時間標識情報を含む符号化された音声データは好適には、記憶媒体上に記憶された単一のファイル内に記憶される。
【0014】
それにもかかわらず、符号化された音声データ(換言すれば、符号化されたビットストリーム)は、別個のファイル、つまり音声情報を有する1つの音声ファイルと1つ以上の時間標識(marker)を有する1つのメタデータファイルからの情報を多重化することにより、を生成されてもよい。
【0015】
音声データは、ストリーミングアプリケーション(インターネットラジオビットストリームまたはビデオおよびオーディオを含むマルチメディアビットストリームなどのような)において用いられてもよい。あるいは、音声データは、消費者側の記憶媒体(フラッシュメモリまたはハードディスクなどのような)中に保存されていてもよい。
【0016】
好適には、音声オブジェクトは、知覚的符号化方式(MP3、ドルビーデジタル、または(HE−)AACにおいて用いられる符号化方法などのような)によって符号化される。あるいは、音声オブジェクトは、PCM(パルス符号変調)符号化音声オブジェクトであってもよい。
【0017】
例えば、音声オブジェクトは、楽曲またはスピーチの録音(オーディオブックなどのような)であってもよい。
【0018】
好適には、時間標識情報の符号化は前方互換性を許容する。すなわち、時間標識情報に対応していない復号器が時間標識情報を読み飛ばすことができるような方法で、時間標識情報の符号化が行われる。
【0019】
好適には、後方互換性および前方互換性の双方が達成される。後方互換性とは、時間標識情報に対応している復号器(例えば、時間標識メタデータ用の抽出器およびプロセッサを有するHE−AAC復号器)が、時間標識情報を含まない従来の音声データ(例えば、従来のHE−AACビットストリーム)と、時間標識情報を有する音声データ(例えば、追加的な時間標識メタデータを有するHE−AACビットストリーム)とをどちらとも読み出すことができることを意味する。前方互換性とは、時間標識情報に対応していない復号器(例えば、従来のHE−AAC復号器)が、時間標識情報を含まない従来の音声データと、時間標識情報を含む音声データの従来式の部分とをどちらとも読むことができることを意味する(この場合、時間標識情報は、対応されていないため、読み飛ばされる)。
【0020】
ある実施形態によれば、時間標識情報は、音声オブジェクトの特徴部分の位置を示す。例えば、楽曲の場合、時間標識情報は、コーラス、リフレインまたはその一部を示してもよい。換言すれば、時間標識メタデータは、重要部分または代表的部分を指示する。その結果、音声ビットストリームを復号する音楽プレーヤが、重要な瞬間において再生を開始することが可能になる。
【0021】
時間標識情報は、音声オブジェクト内の(例えば、楽曲またはオーディオブック内の)複数の区分を示してもよい。換言すれば、時間標識情報は、音声オブジェクトの複数の区分と関連付けられた複数の時間標識を含んでもよい。例えば、時間標識情報は、複数の区分の開始点および終点の時間位置を示してもよい。その結果、音声オブジェクト内の種々の区分へブラウジングすることが可能になる。
【0022】
時間標識情報は、楽曲の時間的音楽的構造に関連する種々の時間的位置を指定してもよい。換言すれば、時間標識情報は、楽曲中における複数の区分を示してもよく、複数の区分は、時間的音楽的構造の異なる区分に関連する。例えば、時間標識情報は、以下の区分のうち1つ以上の区分の始まりを示してもよい。すなわち、導入部、1番の歌詞、第1のリフレインまたはコーラス、2番(3番)の歌詞、第2(第3)のリフレインまたはコーラス(chorus)、またはブリッジ(bridge))。
【0023】
時間標識情報は、楽曲内の動機、主題および/または主題の変形も標識してもよい。
【0024】
さらに、時間標識情報は、他の音楽的態様(歌声の発生(例えば、最初のボーカルの入り)などのような)を指定してもよく、または、音楽構成(特定の楽器の発生(特に、特定の楽器のソロの出現)または楽器グループ(例えば、ブラスセクション、バックボーカル)またはその楽曲において最も音の大きな部分などのような)に関連してもよい。
【0025】
時間標識情報は、特定の音楽的特性を有する区分も示してもよい。音楽的特性は、例えば、特定の音楽的スタイルまたはジャンル、特定のムード、特定のテンポ、特定の調性、特定のアーティキュレーションであってもよい。
【0026】
時間標識区分は、区分のラベル付けに用いられるラベル付け情報と関連付けられてもよい。例えば、ラベル付け情報はその区分の特定の音楽的特性を記述してもよい。特定の音楽的特性とは、音楽的スタイルまたはジャンルの指定(例えば、ソフト、クラシック、エレクトロニックなど)、関連付けられたムードの指定(例えば、うれしい、悲しい、攻撃的)、テンポ(例えば、1分あたりの拍数によって指定されるかまたは例えばアレグロ、アンダンテなどのような音楽用語によって標識付けされた音声信号の速度またはペース)、音声信号のその区分の調性(例えば、イ長調、ハ短調)、あるいはアーティキュレーション(例えば、ポルタート、レガート、ピチカートといったものである。
【0027】
ラベル付け情報は、別のメタデータフィールドに含まれてもよい。ラベル付け情報は、テキストラベルを含んでもよい。あるいは、ラベル付けのために、時間標識は、例えば上述したような音楽的構造または音楽的特性を指定するテーブル中のインデックスと関連付けられてもよい。この場合、各ラベルのインデックスは、ラベル付け情報として音声データ中に含まれる。このような参照テーブル〔ルックアップ・テーブル〕の一例を以下に示す。
【表1】
【0028】
この例においては、インデックス(ここでは4状態、よって2ビット)のみを音声ビットストリーム内で搬送することになる。参照テーブルは典型的には、復号器にとって既知である。しかし、テーブルを音声ビットストリーム内で搬送することも可能である。
【0029】
時間標識情報と、該時間標識情報に関連付けられた1つ以上のラベル(例えば、テキストラベルとしてまたはテーブルからのラベル抽出を可能にする参照テーブルのインデックスとしてメタデータ中に符号化されたラベル)とを併用することにより、特定の部分(例えば、ギターソロ)を見つけるためにユーザが音声オブジェクトの大型データベース(楽曲の大規模なコレクションなどのような)を通じて容易にブラウジングすることが可能になる。
【0030】
時間標識情報により、興味のある部分(複数)(例えば、ギターソロ、ボーカルパート、リフレイン)にわたってループ再生することもさらに可能になる場合があり、これにより、その楽曲の器楽またはボーカルパートのリハーサルおよび練習が容易にされる。
【0031】
時間標識情報は、音声ファイル(例えば、AACファイルまたはMP3ファイル)中のメタデータとして保存されてもよく、時間情報(例えば、特定の区分の開始点および終了点、または特定の区分の開始点および継続長さ)を以下のフォーマットのうち1つ以上のフォーマットで符号化してもよい。
・ 秒値(例えば、20秒)および任意選択で端数秒値(例えば、0.2秒)
・ サンプル番号(例えば、28ビット幅のサンプル番号フィールドは、44100Hzのサンプリングレートにおいて1時間を越える長さをカバーする)
・ フレーム番号(例えば、44100Hzのサンプリングレートでおよび1024サンプル/フレームでは、18ビット幅のフレーム番号フィールドは1時間を越える長さをカバーする)
・ 整数のフレーム番号および整数のサンプル番号、または
・ 整数のフレーム番号および端数フレーム値(例えば、18ビット幅のフレームカウンタに2ビット幅の端数フレーム値を加えた結果、44100Hzのサンプリングレートおよび1024サンプル/フレームにおいて、5ミリ秒の精度がもたらされる)。
【0032】
上記の時間情報の符号化のための種々のフォーマットの正確さの程度は異なる。使用されるフォーマットは典型的には、用途の要件に依存する。「コーラスファインダ」用途のためには、時間分解能はそれほど重要ではないため、フォーマットも高い精度を持つ必要がない。しかし、非常に厳密なループを用いる「曲に合わせて楽器を練習する」用途のためには、時間分解能要件も高くなる場合があり、そのため好適には高精度のフォーマットが用いられる。
【0033】
時間標識メタデータは、音声データの初め(例えば、音声ビットストリームのヘッダ)に(例えば、一度)含まれてもよい。
【0034】
あるいは、時間標識情報は、音声データの複数の区分中で符号化されてもよい。例えば、複数の区分は、特定の発生率でビットストリーム中に発生してもよい(例えば、n秒毎またはn音声フレーム毎に(n≧1であり、例えば、n=1である))。換言すれば、時間標識情報は、特定の固定された更新速度で符号化されてもよい。
【0035】
複数の区分内の時間標識情報を符号化する場合、複数の区分のうちの所与の区分内の時間標識情報が、ビットストリーム内における所与の区分の発生に関連して指定されてもよい。換言すれば、時間標識の時間指定は、メタデータが挿入される時点に関連して規定することができる。例えば、時間標識は、規則的に離間されたメタデータ更新位置と、関心対象区分との間の時間的距離を指定してもよい(例えば、音声信号のコーラスが開始するまで3秒)。
【0036】
このように特定の更新速度で時間標識情報を含めることで、ストリーミングアプリケーション(例えば、ブロードキャスティング)のためのブラウジング機能性が容易にされる。
【0037】
符号化方法のさらなる実施形態については、独立請求項に記載される。
【0038】
本出願の第2の態様は、音声データ中に提供された時間標識情報を復号する方法に関連する。この方法によれば、音声メタデータとして提供された時間標識情報が復号される。この復号は典型的には、音声データ中で与えられる音声オブジェクトの復号と共に行われる。時間標識情報は、本発明の第1の態様に関連して既述したように、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分(例えば、最も特徴的な部分)を示す。
【0039】
本出願の第1の態様による符号化方法に関連する上記の記述は、本出願の第2の態様による復号方法にも適用される。
【0040】
ある実施形態によれば、時間標識情報を復号した後、標識付けされた区分の初めから再生が始まる。標識付けされた区分の初めは、時間標識情報によって指定されている。標識付けされた区分の初めから再生を開始するために、復号器は、標識付けされた区分から復号を開始してもよい。標識付けされた区分の初めからの再生開始は、ユーザ入力によって開始されてもよい。あるいは、(例えば、複数の曲の特徴部分の再生の場合において)再生は自動的に開始してもよい。
【0041】
好適には、区分の再生は、区分の終端において停止する。終端は、時間標識情報によって示される。ループモードにおいては、その後、区分の初めから再生を再開することが可能である。
【0042】
時間標識情報の復号と、各区分の初めからの再生とは、複数の音声オブジェクトについて行われてもよい。そのため、複数の曲を通してブラウジングする(例えば、大きな音楽コレクション内の複数の曲の最も特徴的な部分をブラウジングする)ことが可能になる。
【0043】
楽曲の特徴部分を示す符号化された時間標識情報は、種々のラジオチャンネル(例えば、種々のインターネットラジオチャンネル)をブラウジングすることも容易にする。
【0044】
種々のラジオチャンネルをブラウジングするために、複数のラジオチャンネルと関連付けられた複数の音声ビットストリーム中の時間標識情報が復号される。複数のビットストリームそれぞれについて1つずつ、各ビットストリームの時間標識情報によって示される少なくとも1つの各区分の初めから再生が開始される。よって、この実施形態によれば、第1のラジオチャンネル上の曲の特徴的な区分(または複数の曲の特徴的な区分)が再生されてもよい。その後、第2のラジオチャンネル上(その後、第3のラジオチャンネル上)の曲の特徴的な区分(または複数の曲の特徴的な区分)が再生されもよい。これにより、ラジオ消費者は、多様なラジオチャンネル上において再生されている音楽の種類についての印象を得ることが可能になる。
【0045】
この方法は、所与のラジオチャンネル上において再生されている多様な曲のメドレーを再生するためにも使用されてもよい。このようなメドレーを生成するために、ラジオチャンネルのビットストリーム内の複数の音声オブジェクトの時間標識情報が復号される。複数の音声オブジェクトそれぞれについて1つずつ、各音声オブジェクトの各区分が再生される。前記方法は、複数のラジオチャンネルについても実行されてもよい。これにより、複数のラジオチャンネルそれぞれについて曲のメドレーを再生して、多様なチャンネル上においてどんな種類の音楽が再生されているかについての印象を提供することが可能になる。
【0046】
上述したコンセプトは、リアルタイムラジオおよびオンデマンドラジオの両方と関連して用いられてもよい。リアルタイムラジオの場合、ユーザは典型的には、ラジオプログラムにおける特定の点にジャンプすることができない(リアルタイムラジオにおいては、ユーザは場合によってはバッファサイズに応じてラジオプログラム内の過去の点にジャンプすることはありうる)。オンデマンドラジオの場合、リスナーは、ラジオプログラム内の任意の点において開始および停止することが可能である。
【0047】
リアルタイムラジオの場合、再生デバイスは、好ましくは特定の量の音楽をメモリ内に保存できる能力を有する。時間標識情報を復号することにより、デバイスは、1つ以上のラジオチャンネルの最後の1つ以上の曲それぞれの重要部分をキャプチャし、これらの重要区分を後で再生できるようにメモリ中に保存してもよい。再生デバイスは、ラジオチャンネルの受信した連続的音声ストリームを記録してもよく、任意選択的に(メモリを解放するために)重要ではない部分を後で削除してもよく、あるいは、再生デバイスは直接、重要部分を記録してもよい。
【0048】
同じコンセプトを、インターネット経由のテレビに使うこともできる。
【0049】
ある実施形態によれば、標識付けされた区分は、着信音またはアラーム信号として利用されてもよい。この目的のため、その区分は、着信音またはアラーム信号の再生のために用いられる異なるファイル中に区分を保存してもよく、あるいは、その区分を示す時間標識情報を用いて、着信音またはアラーム信号の再生のために、その区分の初めから再生を開始してもよい。
【0050】
本出願の第3の態様は、時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器に関する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。
【0051】
本出願の第1の態様による符号化方法に関連する上記の記述は、本出願の第3の態様による符号化器にも適用される。
【0052】
本出願の第4の態様は、音声データ中の音声メタデータとして提供される時間標識情報を復号するように構成された復号器に関連する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。
【0053】
本出願の第1の態様による復号方法に関連する上記の記述は、本出願の第4の態様による復号器にも適用される。
【0054】
復号器は、音声プレーヤ(例えば、フラッシュメモリおよび/またはハードディスクを有するポータブル音楽プレーヤ内などのような音楽プレーヤ)において用いられてもよい。「ポータブル音楽プレーヤ」という用語は、音楽プレーヤ機能性を有する携帯電話もカバーする。音声復号器により、各曲の各特徴部分の再生によってそれらの曲を通じたブラウジングが可能になる場合、曲名を表示するディスプレイは省略されてもよい。その場合、音楽プレーヤサイズのさらなる低減と、デバイスコストの低減とが可能になる。
【0055】
本出願の第5の態様は、音声データ(例えば、音声ビットストリーム)に関連する。音声データは、時間標識情報を音声メタデータとして含む。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。音声データは、サーバーからクライアント(すなわち、消費者)へとストリーミングされるビットストリーム((インターネット)ラジオビットストリームなどのような)であってもよい。あるいは、音声データは、記憶媒体(フラッシュメモリまたはハードディスクなどのような)上に保存されたファイル内に含まれてもよい。例えば、音声データは、AAC(先進的オーディオ符号化)、HE−AAC(高効率AAC)、ドルビーパルス、MP3またはドルビーデジタルのビットストリームであってもよい。ドルビーパルスは、HE−AACv2(HE−AACバージョン2)に基づいたものであるが、さらなるメタデータを提供する。本出願全体を通して、「AAC」という用語は、AACの拡張バージョン(HE−AACまたはドルビーパルスなどのような)を全て含む。「HE−AAC」(ならびに「HE−AACvl」および「HE−AACv2」)という用語は、ドルビーパルスをもカバーする。音声データは、オーディオ情報およびビデオ情報の両方を含むマルチメディアデータであってもよい。
【0056】
以下、本発明は、多様な例示的例により添付図面を参照して説明される。
【図面の簡単な説明】
【0057】
【
図1】時間標識情報を符号化する符号化器の概略的実施形態を示す図である。
【
図2】時間標識情報を復号する復号器の概略的実施形態を示す図である。
【発明を実施するための形態】
【0058】
以下において、メタデータ時間情報の種々の使用の場合が論じられる。メタデータ時間標識は、種々の種類の区分を示してもよく、種々の用途において用いられてもよい。
【0059】
曲の特徴部分(例えば、コーラス)を示すメタデータ時間標識情報
【0060】
曲の特徴部分(例えば、コーラス、リフレインまたはその一部)を示すために、時間標識情報を用いてもよい。曲はしばしば、曲名を読むよりも、特徴部分(例えば、コーラス)を聴くことによって、より容易に認識できる。曲の特徴部分を示すメタデータ時間標識を用いることで、知っている曲を検索することが可能となり、曲のデータベースを通じて聴くことによってブラウジングすることが容易になる。音楽消費者は、各曲の最重要な部分を聴けば、曲を瞬時に認識および特定することができる。さらに、このような機能性は、全く表示の無いポータブル音楽プレーヤデバイス上で曲をブラウジングする際に、または、デバイスがポケットまたはバッグの中にあるためユーザから現在のところ表示が見えない場合に、大変都合がよい。
【0061】
曲の特徴部分を示す時間標識情報は、新しい曲を発見する際にも有用である。ユーザは、特徴部分(例えば、コーラス)を聴くことで、自分が曲を好きか嫌いか容易に判断することができる。よって、最も特徴的な部分を聴くことに基づいて、ユーザは、自分が曲全体を聴きたいかどうか決定すること、または自分がその曲を購入するためにお金を払いたいかどうか決定することができる。この機能性は、例えば、音楽ストアおよび音楽発見サービスの用途において有用である。
【0062】
曲の時間的音楽的構造に関連するメタデータ時間標識情報
【0063】
時間標識情報は、曲の時間的音楽的構造に関連する種々の時間的位置(例えば、イントロ、歌詞、リフレイン、ブリッジ、別のリフレイン、別の歌詞などの位置を示すためのもの)を指定するために用いられてもよい。
【0064】
これにより、ユーザは、曲中において曲の異なる部分間を容易にブラウジングすることができる。例えば、ユーザは、曲のうちユーザが気に入っている部分に容易にブラウジングすることができる。
【0065】
音楽的構造に関連するメタデータ時間標識情報は、楽器または歌唱の練習のためにも有益である。このような時間標識情報は、曲の種々の部分を通じてナビゲートする可能性を提供し、これにより、興味のある区分へとアクセスして、楽器または歌唱の練習している間、その区分を一度だけまたはループで再生することが可能となる。
【0066】
特定の楽器の発生または歌声の発生に関連するメタデータ時間標識情報
【0067】
時間標識情報は、特定の楽器の発生または歌声(および任意選択で音程範囲)の発生を指定するためにも用いてもよい。このような時間標識情報は、例えば楽器または歌唱の練習において有用である。ユーザが楽器(例えば、ギター)の演奏を学習している場合、ユーザは、曲の中で演奏してみたい部分(例えば、ギターソロ)を容易に見出すことができる。歌手の場合は、曲中の所望のピッチ範囲の部分を見つけることが有用である。
【0068】
特定の音楽的特性をともなう区分を示すメタデータ時間標識情報
【0069】
特定の音楽的特性、例えば、アーティキュレーション(例えば、レガート、ピチカート)、スタイル(例えば、アレグロ、アンダンテ)またはテンポ(例えば、1分あたりの拍数)に関する音楽的記述をともなう区分を見つけるために、時間標識情報を用いてもよい。これは、例えば楽器の練習の助けとなる場合がある。なぜならば、練習するために曲のうち関連のある、興味のある部分をユーザが容易に見つけることができるからである。再生は、そのような特定の区分にわたってループしてもよい。
【0070】
特定のムードまたはテンポをともなう区分を示すメタデータ時間標識情報
【0071】
メタデータ時間標識情報は、特定のムード(例えば、エネルギッシュ、攻撃的、または穏やか)またはテンポ(例えば、1分あたりの拍数)をともなう区分を示す場合がある。このようなメタデータは、、ムードに応じた曲の部分を見つける助けとなる。ユーザは、特定のムードの曲の区分を検索することができる。これにより、特定のムードに応じた複数の曲または利用可能な全ての曲からの区分でメドレーを作ることも可能になる。
【0072】
このようなメタデータは、運動(例えば、ランニング、回転、ホームトレーナー、またはエアロビクス)用の適切な音楽を見つけるために用いられてもよい。メタデータにより、種々のレベルの強度でトレーニングを行う際に、音楽をトレーニング強度レベルに適合させることも容易にする場合がある。よって、このようなメタデータを用いることは、ユーザが、特定の計画されたワークアウトを適切な音楽と揃えることに役立つ。例えば、インターバルトレーニング(短時間の高強度のワークアウトとそれに続く休憩期間を交互に行う)の場合、高強度の期間の間、エネルギッシュな、攻撃的なまたは高速の区分が再生され、一方で、休憩期間においては穏やかな区分またはゆっくりとした区分が再生される。
【0073】
上述したようなメタデータ時間情報の種々の使用の場合において、時間標識情報は好適には、音声ファイル中に(例えば、曲ファイルのヘッダ中に統合される。ファイルに基づいた利用法の代わりに、メタデータ時間標識情報は、ストリーミングアプリケーション(例えば、ラジオストリーミングアプリケーション(例えば、インターネットを介したもの))のコンテキスト内においても用いられてもよい。例えば、曲の特徴部分(例えば、コーラスまたはその一部)を示すメタデータ時間標識情報がある場合、そのようなメタデータは、種々のラジオチャンネルをブラウジングするコンテキストにおいて用いることができる。このようなメタデータは、複数のラジオ局(例えば、インターネットラジオ)を受信する能力がありかつ特定量の音楽をメモリに(例えば、ハードディスクまたはフラッシュメモリ上に)保存する能力を有するデバイス上において種々のラジオチャンネルをブラウジングすることを容易にする。曲の重要部分(例えば、コーラス)の位置を信号送信することにより、デバイスは、それらのチャンネルのうちの複数のチャンネルに対する最後の数曲(例えば、最後のn個の曲に対して;n≧1であり、例えば、n=5)それぞれの重要部分を決定することができる。デバイスは、これらの重要部分をキャプチャし、これらの区分をメモリ中に保持してもよい(そして、メモリを解放するために、前記最後の数曲の残りの部分を削除してもよい)。ユーザは、各チャンネルについてこのコーラスのコレクションを通じて聴き、そのチャンネルからどんな種類の音楽が放送されているかおよび自分がこれを好きか否かをの概要を容易に得ることができる。
【0074】
音声オブジェクトの特定の区分を示すメタデータ時間標識情報
【0075】
時間標識情報は、スピーチおよび任意選択の音楽および任意選択の音を含む音声オブジェクト(例えば、オーディオブック、オーディオ・ポッドキャスト、教育教材)の特定の区分を示すために用いてもよい。これらの区分は、音声オブジェクトの内容と関連することができる(例えば、オーディオブックのチャプターまたは演劇のシーンを指定する、音声オブジェクト全体の要約を与えるいくつかのセグメントを指定するなど)。これらの区分は、オーディオブックの特徴に関連することも可能である(例えば、例えば複数の話のコレクションであるオーディオブックにおいて、ある区分が陽気であるかまたは陽気ではないかを指示する)。教育用の音声教材の場合、時間標識情報は、当該教材の難易度について、音声オブジェクトの種々の部分を指示してもよい。また、教育教材中の時間標識情報は、学習者の能動的参加を必要とする区分(例えば、言語コースにおける理解度の問題、発音エクササイズ)を示してもよい。
【0076】
メタデータ時間標識情報の多様な例示的用途について論じた後、時間標識の例示的ソースについて論じる。メタデータ中に書き込まれる時間標識は、例えば以下のソースのうち1つ以上から発生する場合がある。
【0077】
・自動抽出(例えば、消費者側(すなわち、クライアント側)または音楽プロバイダ側(すなわち、サーバー側)における音楽情報検索(Music Information Retrieval)(MIR)アルゴリズムまたはサービスによるもの)。自動抽出アルゴリズムの例については、以下において論じられている。「A Chorus−Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station」(Masataka Goto、IEEE Transactions on Audio, Speech and Language Processing 、Vol.14、No.5、pp.1783−1794、2006年9月)、および「To Catch a Chorus:Using Chroma−Based Representations for Audio Thumbnailing」(M.A.Bartsch,M.A. and G.H. Wakefield,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2001年)。これらの文献は、参照により本明細書に組み込まれる。
【0078】
・外部データベースからの転送。例えば、音声ライブラリを外部データベースと同期させてもよい。メタデータをホストしている外部データベースが例えばコンピュータネットワークまたはセルラーネットワークを介してアクセス可能である場合があるため、データは遠隔でフェッチされてもよい(Gracenoteのコンパクト・ディスク・データベース(Compact Disc Database)(CDDB)からアーティスト/トラック情報を入手するCDの場合と同様)
【0079】
・クライアント側において(すなわち、消費者によって)エディタにおいて手作業で入力。
【0080】
以下においては、メタデータ時間標識情報を搬送するための、多様な例示的なメタデータコンテナについて議論する。音声またはマルチメディアビットストリームでのメタデータの搬送は、多数の方法で行うことができる。このようなデータを前方互換な様態で(すなわち、時間標識メタデータの抽出に対応していない復号器にとって非破壊的に)含めることが望ましい場合がある。メタデータを音声データ中に埋め込むために、以下の一般的に用いられているメタデータ埋め込み方法のうち1つを用いてもよい。
【0082】
ID3タグ(ID3−「MP3を特定(Identify an MP3)」)は、MP3(MPEG−1/2 層III)音声ファイルと共にしばしば用いられるメタデータコンテナである。その埋め込みは、基本的にはID3タグをファイルの一番初めに挿入するか(ID3v2の場合)または終端部にアペンドする(ID3v1の場合)ため、どちらかといえばシンプルな方法である。特にID3タグはMP3プレーヤに対して事実上の標準(de facto standard)となっているため、通常、前方互換性が達成される。時間標識の搬送のために、ID3タグ中の未使用のデータフィールドが使用されてもよく(または、異なる用途のためのデータフィールドをその意図される用途から転用されてもよい)、あるいは、ID3タグを時間標識搬送のための1つ以上のデータフィールドによって拡張してもよい。
【0084】
MPEG−1またはMPEG−2の層I/II/III音声ビットストリームは、時間標識メタデータのために用いられてもよい補助データコンテナを提供する。これらの補助データコンテナについては、標準化文献ISO/IEC11172−3およびISO/IEC13818−3中に記載がある。これらは、参照により、本明細書に組み込まれる。このような補助データコンテナは、可変サイズのデータコンテナを許容する「AncDataElement()」ビットストリーム要素により、完全に前方互換性の方法で信号送信される。復号器が時間標識情報に対応していない場合、この復号器は典型的にはこの追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。
【0085】
MPEG−2/4 AACビットストリーム中の拡張ペイロード
【0086】
MPEG−2またはMPEG−4 AAC(先進的オーディオ符号化)の音声ビットストリームについては、標準化文献ISO/IEC13818−7およびISO/IEC14496−3に記載のようなAACの「extension_payload()〔拡張_ペイロード()〕」機構を用いて、時間標識情報をデータコンテナ中に保存してもよい。これらの文献は、参照により本明細書に組み込まれる。このアプローチは、基本的AACにおいて使用できるだけではなく、拡張バージョンのAAC(HE−AACv1(高効率AACバージョン1)、HE−AACv2(高効率AACバージョン2)およびドルビーパルスなどのような)においても利用可能である。この「extension_payload()」機構は、可変サイズのデータコンテナを許容する完全に前方互換性の仕方で信号送信される。「extension_payload()」機構によって符号化された時間標識情報に復号器が対応しない場合、復号器は典型的には、この追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。よって、メタデータは連続的に(例えば、毎フレームについて)更新されてもよい。AACビットストリーム中への時間標識情報の統合についての詳細な例については、本出願において後述する。
【0087】
ISOベースのメディアファイルフォーマット(MPEG−4パート12)
【0088】
あるいは、ISO/IEC14496−12中に規定されているような、ISOベースのメディアファイルフォーマット(MPEG−4 パート12)が使用されてもよい。このコンテナ標準は、メタデータ用の階層的下部構造を既に有する。メタデータは、例えば以下を含むことができる。
【0089】
−iTunes〔アイチューンズ〕メタデータ、
−上で論じたようなMPEG−4 AAC音声ビットストリームの一部としての「extension_payload()」要素、または
−カスタマイズされたメタデータ区分。
【0090】
このISOベースのメディアファイルフォーマットは、このような時間標識メタデータをドルビーデジタル音声データまたはドルビーパルス音声データまたは他の音声データフォーマットの関連で含めるために用いられてもよい。例えば、時間標識メタデータをドルビーパルス音声ビットストリームに付加してもよく、その場合、従来のHE−AACからドルビーパルスがさらに差別化される。
【0091】
ISO/IEC14496−12中に規定された階層構造を用いて、例えばドルビーパルスまたはドルビーメディアジェネレータに特有のメタデータを含めることができる。このメタデータは、「moov」アトム内でmp4ファイルにおいて搬送される。「moov」アトムは、ユーザデータアトム「udta」を含む。ユーザデータアトム「udta」は、一意のID(汎用一意識別子(universal unique identifier)−「uuid」)を用いることにより、自身が搬送している内容を特定する。この箱は、いくつかのメタアトムを含み、これらのメタアトムはそれぞれ、異なる種類のメタデータを搬送することができる。メタデータの種類は、ハンドラー「hdlr」によって特定される。既存の種類のものは、例えば曲名、アーティスト、ジャンル等々に関する情報を搬送している場合がある。例えば必要とされる情報を含む拡張マークアップ言語(XML)構造新規の種類を規定することができる可能性がある。正確なフォーマットは、送信したい情報に基づいて決定される。下記の例において、時間標識メタデータが「xml_data」という名称のアトムの一部である構造を示す。
【表2】
【0092】
XML形式でコーディングされた時間標識メタデータアトム「xml_data」は、下記の例に示すような構造にすることができる。
【表3】
【0093】
このようなアトムは、そのサイズに関する情報を含むことができる。すなわち、種類を認識しないパーサーは、その区分を読み飛ばして、後続データの解析を継続することができる。よって、前方互換性が達成される。
【0095】
メタデータに対応しかつ時間標識メタデータの搬送に利用されてもよい他のマルチメディアコンテナフォーマットは、広く用いられている業界標準(MPEG−4パート14(MP4とも呼ばれ、標準化文献ISO/IEC14496−14中に規定されている)および3GPフォーマットなどのような)である。
【0096】
以下に、ビットストリームシンタックス中への時間標識メタデータの統合についての2つの例が説明される。
【0097】
音声サムプリントビットストリームシンタックスの第1の例
【0098】
いくつかのメタデータコンテナフォーマットは、(例えば、拡張マークアップ言語(XML)フレームワークにおける)テキストストリングの利用を定めており、一方他のメタデータコンテナフォーマットは、単にバイナリデータチャンクのための一般的コンテナである。下記の表1は、疑似Cシンタックスによって指定された(これは、ISO/IEC標準仕様書において一般的な慣用である)バイナリフォーマットビットストリームの一例を示す。1ビットよりも大きなビットストリーム要素は通常は、最上位ビットが先頭の符号無し整数(unsigned-integer-most-significant-bit-first)(「uimsbf」)として書き込み/読み出しされる。
【表4】
【0099】
これらのビットストリーム要素は以下の意味を有する。
【0100】
整数要素「BS_SECTION_ID」は、例えば長さが2ビットであり、標識付けされた区分の内容の種類を記述する(例えば、0=コーラス、1=歌詞、2=ソロ、3=ボーカルの入り)。
【0101】
整数要素「BS_NUM_CHAR」は、例えば長さが8ビットであり、テキストストリング「BS_ARTIST_STRING」の長さをバイトで記述する。この例において、整数要素「BS_NUM_CHAR」およびテキストストリング「BS_ARTIST_STRING」は特別な場合(すなわち、整数要素「BS_SECTION_ID」がボーカルの入りを示す場合)においてのみ用いられる。疑似Cシンタックス中の命令文「if(BS_SECTION_ID==3)」を参照せよ。
【0102】
テキストストリング要素「BS_ARTIST_STRING」は、標識付けされた区分中のボーカルアーティストの名称を含む。テキストストリングは、例えば8ビットASCII(例えば、ISO/IEC10646:2003に規定されるようなUTF−8)でコーディングされてもよい。この場合、テキストストリングのビット長さは8×BS_NUM_CHARである。
【0103】
整数要素「BS_START」は、標識付けされた区分の開始フレーム番号を示す。
【0104】
整数要素「BS_LENGTH」は、標識付けされた区分の長さを示す(ここでは、フレーム数で表される)。
【0105】
上記疑似Cシンタックスによるビットストリーム例は、「11 00001101 01000001 01110010 01110100 00100000 01000111 01100001 01110010 01100110 01110101 01101110 01101011 01100101 01101100 001010111111001000 01100001101010」である。
【0106】
上記例示的ビットストリームは、以下を指定する。
【0107】
テキストタグ「Art Garfunkel」をもつVOCAL_ENTRY〔ボーカルの入り〕区分がフレーム番号45000において開始し、継続長さが6250フレームとなる(よって、この区分はフレーム51250において停止する)。
【0108】
音声サムプリントビットストリームシンタックスの第2の例
第2の例は第1の例に基づいており、ISO/IEC14496−3からのextension_payload()機構を用いる。extension_payload()機構のシンタックスについて、表4.51(従属節4.4.2.7、ISO/IEC14496−3:2001/FDAM:2003(E))中に記載がある。これは、参照によりの本明細書に組み込まれる。
【0109】
表4.51(従属節4.4.2.7、ISO/IEC14496−3:2001/FDAM:2003(E))中のextension_payload()機構のシンタックスと比較して、第2の例においては、表2に示すように、extension_payload()のシンタックスに対して追加のextension_type〔拡張_種類〕(すなわち、「EXT_AUDIO_THUMBNAIL」というextension_type)が追加される。復号器がこの追加のextension_typeに対応していない場合、この情報は典型的には読み飛ばされる。表2において、音声サムプリントのための追加のビットストリーム要素に下線を付してある。拡張種類「EXT_AUDIO_THUMBNAIL」はメタデータ「AudioThumbprintData()」と関連付けられ、「AudioThumbprintData()」のシンタックスの一例を表3に示す。表3の「AudioThumbprintData()」のシンタックスは、表1のシンタックスと類似する。ビットストリーム要素「BS_SECTION_ID」、「BS_NUM_CHAR」、「BS_ARTIST_STRING」、「BS_START」および「BS_LENGTH」の規定は、表1に関連して論じた規定と同じである。変数「numAuThBits」はAudioThumbprintData()と関連付けられた追加のビットの数をカウントする。
【0110】
変数「numAlignBits」は、必要なフィルビット数に対応し、extension_payloadのビット数合計(変数「cnt」(単位:バイト))と、音声サムプリント(変数「numAuThBits」)および変数「拡張種類」(これは、extension_payload()中の拡張種類を特定する)に用いられるビット数との間の差として決定される。この所与の例において、「numAlignBits」は4に等しい、「AudioThumbprintData〔音声サムプリントデータ〕()」は、読み出されたバイト数合計を返す。
【表5】
【表6】
【0111】
図1は、時間標識情報の符号化のための符号化器〔エンコーダ〕1の例示的実施形態を示している。符号化器は、音声信号2を受信する。音声信号2は、PCM(パルス符号変調)符号化された音声信号2でもよく、または、知覚符号化された音声ビットストリーム(MP3ビットストリーム、ドルビーデジタルビットストリーム、従来のHE−AACビットストリームまたはドルビーパルスビットストリームなどのような)であってもよい。音声信号2は、マルチメディアトランスポートフォーマット(例えば、「MP4」(MPEG−4パート14などのような)またはメタデータコンテナ(例えば、「ID3」)などのような)によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。音声信号2は、音声オブジェクト(例えば、楽曲)を含む。符号化器1は、時間標識データ7をさらに受信する。時間標識データ7は、音声オブジェクト中の1つ以上の区分(最も特徴的な部分などのような)を示す。時間標識データ7は、例えば音楽情報検索(MIR)アルゴリズムによって自動特定されてもよく、または手作業で入力されてもよい。符号化器1は、1つ以上の標識付けされた区分をラベル付けするための、ラベル付け情報8をさらに受信してもよい。
【0112】
信号2および7ならびに任意選択的に信号8に基づいて、符号化器1は、音声オブジェクトを含み、かつ音声オブジェクト中の1つ以上の区分をマーク付けするための時間標識情報を含むビットストリーム3を生成する。ビットストリーム3は、MP3ビットストリーム、ドルビーデジタルビットストリーム、HE−AACビットストリームまたはドルビーパルスビットストリームであってもよく、ビットストリームが時間標識情報と、任意選択的に関連付けられたラベル付け情報とを含む点において従来のビットストリームと異なる。ビットストリーム3は、マルチメディアトランスポートフォーマット(例えば、「MP4」(MPEG−4パート14)、またはメタデータコンテナ(例えば、「ID3」などのような)によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。ビットストリーム3は、後で再生できるように音声ファイルとして記憶媒体(図示せず)(フラッシュメモリまたはハードディスクなどのような)中に保存されてもよく、またはストリーミングアプリケーション(インターネットラジオなどのような)においてストリーミングされてもよい。
【0113】
ビットストリーム3は、ヘッダ区分4を備えてもよい。ヘッダ区分4は、時間標識メタデータ区分5を備えてもよい。時間標識メタデータ区分5は、符号化された時間標識情報と、関連付けられたラベル付け情報とを有する。時間標識情報は、1つ以上の標識付けされた区分についての開始点および停止点、または1つ以上の標識付けされた区分の各開始点および各継続長さを備えてもよい。時間標識メタデータ区分5は、上述したようにメタデータコンテナ中に含まれていてもよい。ビットストリーム3は、音声オブジェクト6をさらに含む。よって、1つ以上の区分の時間情報がビットストリームのメタデータ中に含まれ、これにより、例えば音声オブジェクトの重要部分にナビゲートすることが可能になる。
【0114】
図2は、復号器〔デコーダ〕10の例示的実施形態を示す。復号器10は、符号化器1によって生成されたビットストリーム3を復号するように構成される。復号器10は、ビットストリーム3(PCM音声信号11などのような)に基づいて音声信号11を生成する。復号器10は典型的には、音声再生(特に音楽再生)のための消費者デバイスの一部である。消費者デバイスは、携帯電話機能性の無いポータブル音楽プレーヤ、音楽プレーヤ機能性のある携帯電話、ノートブック、セットトップボックス、またはDVDプレーヤなどのようなものである。音声再生のための消費者デバイスは、組み合わされたオーディオ/ビデオ再生のために利用されてもよい。復号器10は、選択信号13をさらに受信する。選択信号13に応じて、復号器10は、音声オブジェクトの標識付けされた区分にジャンプして標識付けされた区分の復号を行うか、または、音声オブジェクトの通常の復号を音声オブジェクトの初めから終わりまで行う。復号器が音声オブジェクトの標識付けされた区分へとジャンプした場合、消費者デバイスは、標識付けされた区分から再生を開始する。
【0115】
復号器10は、復号されたラベル付け情報12を任意選択的にさらに出力してもよい。復号されたラベル付け情報12は、デバイスのディスプレイ上に表示されるよう、ディスプレイドライバ(図示せず)に入力されてもよい。
【0116】
本明細書において、時間標識情報を音声データ中のメタデータとして符号化するための方法およシステムが記載される。この時間標識情報により、音楽消費者が音声ファイルの特徴部分を素早く特定することが可能になる。
【0117】
本明細書中に記載の方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、例えばデジタル信号プロセッサまたはマイクロプロセッサ上において実行されるソフトウェアとして実装されてもよい。他のコンポーネントは、例えばハードウェアとしてあるいは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて出てくる信号は、媒体(ランダムアクセスメモリまたは光学記憶媒体などのような)上に保存されてもよい。これらは、ネットワーク(電波ネットワーク、衛星ネットワーク、無線ネットワーク、または有線ネットワーク(例えば、インターネット)などのような)を介して転送されてもよい。本文献中に記載の方法およびシステムを利用する典型的なデバイスとしては、ポータブル電子機器または音声信号の保存および/またはレンダリングに用いられる他の消費者装置がある。これらの方法およびシステムは、ダウンロードのために音声信号(例えば、音楽信号)を保存および提供するコンピュータシステム(例えば、インターネットウェブサーバー)上で用いられてもよい。