特許5771618 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許5771618音声オブジェクトの区分を示すメタデータ時間標識情報

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5771618

(24)【登録日】2015年7月3日

(45)【発行日】2015年9月2日

(54)【発明の名称】音声オブジェクトの区分を示すメタデータ時間標識情報

(51)【国際特許分類】

G10L 19/00 20130101AFI20150813BHJP

【ＦＩ】

G10L19/00 330B

G10L19/00 312E

【請求項の数】19

【全頁数】22

(21)【出願番号】特願2012-533640(P2012-533640)

(86)(22)【出願日】2010年10月14日

(65)【公表番号】特表2013-509601(P2013-509601A)

(43)【公表日】2013年3月14日

(86)【国際出願番号】EP2010065463

(87)【国際公開番号】WO2011048010

(87)【国際公開日】20110428

【審査請求日】2013年6月17日

(31)【優先権主張番号】61/252,788

(32)【優先日】2009年10月19日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】レスク，バルバラ

(72)【発明者】

【氏名】エングデガルド，ヨナス

【審査官】上田雄

(56)【参考文献】

【文献】特開２００６−１６３０６３（ＪＰ，Ａ）

【文献】国際公開第２００９／１０１７０３（ＷＯ，Ａ１）

【文献】特開２００７−２４８８９５（ＪＰ，Ａ）

【文献】特表２００７−５２０７２７（ＪＰ，Ａ）

【文献】特開２０００−２０６９７３（ＪＰ，Ａ）

【文献】 Eoin Brazil，Cue Point Processing: An Introduction，Proc. COST G-6 Conference on Digital Audio Effects(DAFX-01)，IE，２００１年１２月６日

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

時間標識情報を音声データ中に符号化する方法であって、前記音声データはビットストリームであり、当該方法は、
時間標識情報を前記音声データ中の音声メタデータとして符号化することで、ジョイントビットストリームを形成するステップを含み、前記時間標識情報は、前記音声データ中の音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化されており、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器は前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できる、
方法。

【請求項2】

前記音声オブジェクトは楽曲である、請求項１に記載の方法。

【請求項3】

前記区分は前記音声オブジェクトの特徴部分である、請求項１に記載の方法。

【請求項4】

前記音声オブジェクトは楽曲であり、前記区分は、コーラス、リフレインまたはその一部である、請求項３に記載の方法。

【請求項5】

前記音声オブジェクトは楽曲であり、前記複数の区分は、前記楽曲の時間的音楽的構造に関連する異なる区分である、請求項１に記載の方法。

【請求項6】

前記複数の区分は、以下の区分、すなわち、
導入部、
歌詞、
リフレインもしくはコーラス、
ブリッジ、または
ソロ、
のうち少なくとも１つを含む、請求項５に記載の方法。

【請求項7】

前記音声オブジェクトは楽曲であり、前記時間標識情報は、以下、すなわち、
前記楽曲内における、特定の楽器または楽器グループの発生、
歌声の発生、
前記楽曲の中で一番音の大きな部分、
主題、
動機、または
主題の変形、
のうち少なくとも１つを示す、請求項１に記載の方法。

【請求項8】

前記時間標識情報は、
前記区分の開始位置、および
前記区分の終了位置または継続長さ、
を指定する、請求項１に記載の方法。

【請求項9】

前記方法は、
前記音声データ中のラベル付け情報を符号化することを含み、前記ラベル付け情報は、前記音声オブジェクトの前記複数の区分をラベル付けし、前記ラベル付け情報は前記ジョイントビットストリームのメタデータとして符号化される、
請求項１ないし８のうちいずれか一項に記載の方法。

【請求項10】

前記音声オブジェクトは楽曲であり、前記時間標識情報は、特定の音楽的特性を有する区分を示し、前記ラベル付け情報はそのセクションについての特定の音楽的特性を記述する、請求項９に記載の方法。

【請求項11】

前記音楽的特性は、以下、すなわち、
特定のテンポ、
特定のアーティキュレーション、
特定のムード、
特定の調性、または
特定の音楽的スタイルまたはジャンル、
のうち１つを含む、請求項１０に記載の方法。

【請求項12】

前記ラベル付け情報はテキストラベルとして符号化される、請求項９に記載の方法。

【請求項13】

前記ラベル付け情報は、表のインデックスとして符号化される、請求項９に記載の方法。

【請求項14】

前記時間標識情報は、
秒値、
秒値および端数秒値、
サンプル番号、
フレーム番号、
整数のフレーム番号および整数のサンプル番号、または
整数のフレーム番号および端数のフレーム値、
を含む、請求項１に記載の方法。

【請求項15】

前記複数の位置のうちある所与の位置における時間標識情報は、前記ビットストリーム中の前記所与の位置の発生に関連して指定される、請求項１に記載の方法。

【請求項16】

前記時間標識情報は、
ＭＰＥＧ−２または−４ＡＡＣ音声データの拡張ペイロードコンテナ、あるいは
ＭＰＥＧ−４パート１２に適合するメタデータコンテナ、
中に符号化される、請求項１に記載の方法。

【請求項17】

音声データおよび音声メタデータを含むジョイントビットストリーム中の時間標識情報を復号する方法であって、
前記ジョイントビットストリーム中の前記音声メタデータとして提供された時間標識情報を復号するステップを含み、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、それにより、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、
方法。

【請求項18】

時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器であって、前記音声データはビットストリームであり、これによりジョイントビットストリームが形成され、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、符号化器。

【請求項19】

音声データを含むジョイントビットストリーム中の音声メタデータとして提供された時間標識情報を復号するように構成された復号器であって、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、当該復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、復号器。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は音声符号化に関し、より具体的には、音声〔オーディオ〕（audio）オブジェクトの区分〔セクション〕（section）を示す、音声データ内のメタデータに関する。

【背景技術】

【0002】

楽曲は、しばしばその楽曲の特徴部分（リフレインのコーラス（chorus）などのような）を聴くことによって認識することができる。また、音楽消費者が楽曲を好きか嫌いかを評価するには、楽曲の特徴部分を聴くだけで十分である場合がある。音楽消費者がデジタル音声データとして保存された楽曲の特徴部分を探している場合、特徴部分を見つけるために、音楽消費者は楽曲の中で手作業で早送りしなければならない。これは、特に音楽消費者が特定の楽曲を見つけるために大規模な音楽コレクションの中の複数の楽曲をブラウジングする場合、煩雑である。

【発明の概要】

【0003】

本発明の第１の態様は、時間標識（marking）情報を音声データ中に符号化するための方法に関する。

【0004】

好適には、時間標識情報を含む符号化された音声データは、ＭＰ３（ＭＰＥＧ−１オーディオ層３）ファイルまたはＡＡＣ（先進的オーディオ符号化）ファイル内などのような、単一の音声ファイルに保存される。

【0005】

この方法によれば、時間標識情報は、音声データ中の音声メタデータとして符号化される。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも１つの区分を示す。例えば、時間標識情報は、その区分の開始位置および終了位置、または開始位置のみを指定する場合がある。

【0006】

前記少なくとも１つの区分は、音声オブジェクトの特徴部分であってもよい。このような特徴部分は、しばしばその特徴部分を聴くことによって瞬時に音声オブジェクトを認識できるようにする。

【0007】

このような音声データ中に符号化された時間標識情報は、音声オブジェクトの特定の区分を瞬時にブラウジングすることを可能にする。よって、特定の区分を見出すために音声オブジェクトを通じて手作業で探索することが回避される。

【0008】

この音声データ中に符号化された時間標識情報により、特定の区分（例えば、特徴区分（特に、コーラス））の抽出が可能になる。その区分は、着信音またはアラーム信号として利用することができる。この目的のため、その区分を新規ファイル内に保存することができ、あるいは、その着信音またはアラーム音もしくはアラーム信号が再生されたときに、音声データ中の時間標識を用いてその特定の区分から再生を開始することができる。

【0009】

前記少なくとも１つの区分が音声オブジェクトの特徴部分（すなわち、重要部分または代表的部分）である場合、この標識付けされた区分を時間標識情報と併用することで、聴くことによって瞬時に認識することを可能にする音声オブジェクトの音声サムネイルが提供される。

【0010】

消費者機器が特定の区分（例えば、楽曲の特徴区分）を見出すための音声データ自動分析に対応している場合でも、その区分を見出すためのそのような分析は不要である。なぜならば、時間標識情報は事前に既に特定されており、音声データ中に含まれているからである。

【0011】

音声データは、純粋な音声データ、多重化されたマルチメディアビデオ／オーディオデータ（ＭＰＥＧ−４ビデオ／オーディオビットストリームまたはＭＰＥＧ−２ビデオ／オーディオビットストリームなどのような）、あるいはこのような多重化されたビデオ／オーディオデータの音声部分であってもよい点に留意されたい。

【0012】

時間標識情報は音声データの生成時に符号化されてもよく、または時間標識情報は、所与の音声データ中に含まれてもよい。

【0013】

符号化器からの音声データ出力または音声復号器への音声データ入力は典型的には、ビットストリームを形成する。よって、本出願全体において、「ビットストリーム」という用語が「音声データ」という用語の代わりに用いられ場合がある。時間標識情報を含む符号化された音声データは好適には、記憶媒体上に記憶された単一のファイル内に記憶される。

【0014】

それにもかかわらず、符号化された音声データ（換言すれば、符号化されたビットストリーム）は、別個のファイル、つまり音声情報を有する１つの音声ファイルと１つ以上の時間標識（marker）を有する１つのメタデータファイルからの情報を多重化することにより、を生成されてもよい。

【0015】

音声データは、ストリーミングアプリケーション（インターネットラジオビットストリームまたはビデオおよびオーディオを含むマルチメディアビットストリームなどのような）において用いられてもよい。あるいは、音声データは、消費者側の記憶媒体（フラッシュメモリまたはハードディスクなどのような）中に保存されていてもよい。

【0016】

好適には、音声オブジェクトは、知覚的符号化方式（ＭＰ３、ドルビーデジタル、または（ＨＥ−）ＡＡＣにおいて用いられる符号化方法などのような）によって符号化される。あるいは、音声オブジェクトは、ＰＣＭ（パルス符号変調）符号化音声オブジェクトであってもよい。

【0017】

例えば、音声オブジェクトは、楽曲またはスピーチの録音（オーディオブックなどのような）であってもよい。

【0018】

好適には、時間標識情報の符号化は前方互換性を許容する。すなわち、時間標識情報に対応していない復号器が時間標識情報を読み飛ばすことができるような方法で、時間標識情報の符号化が行われる。

【0019】

好適には、後方互換性および前方互換性の双方が達成される。後方互換性とは、時間標識情報に対応している復号器（例えば、時間標識メタデータ用の抽出器およびプロセッサを有するＨＥ−ＡＡＣ復号器）が、時間標識情報を含まない従来の音声データ（例えば、従来のＨＥ−ＡＡＣビットストリーム）と、時間標識情報を有する音声データ（例えば、追加的な時間標識メタデータを有するＨＥ−ＡＡＣビットストリーム）とをどちらとも読み出すことができることを意味する。前方互換性とは、時間標識情報に対応していない復号器（例えば、従来のＨＥ−ＡＡＣ復号器）が、時間標識情報を含まない従来の音声データと、時間標識情報を含む音声データの従来式の部分とをどちらとも読むことができることを意味する（この場合、時間標識情報は、対応されていないため、読み飛ばされる）。

【0020】

ある実施形態によれば、時間標識情報は、音声オブジェクトの特徴部分の位置を示す。例えば、楽曲の場合、時間標識情報は、コーラス、リフレインまたはその一部を示してもよい。換言すれば、時間標識メタデータは、重要部分または代表的部分を指示する。その結果、音声ビットストリームを復号する音楽プレーヤが、重要な瞬間において再生を開始することが可能になる。

【0021】

時間標識情報は、音声オブジェクト内の（例えば、楽曲またはオーディオブック内の）複数の区分を示してもよい。換言すれば、時間標識情報は、音声オブジェクトの複数の区分と関連付けられた複数の時間標識を含んでもよい。例えば、時間標識情報は、複数の区分の開始点および終点の時間位置を示してもよい。その結果、音声オブジェクト内の種々の区分へブラウジングすることが可能になる。

【0022】

時間標識情報は、楽曲の時間的音楽的構造に関連する種々の時間的位置を指定してもよい。換言すれば、時間標識情報は、楽曲中における複数の区分を示してもよく、複数の区分は、時間的音楽的構造の異なる区分に関連する。例えば、時間標識情報は、以下の区分のうち１つ以上の区分の始まりを示してもよい。すなわち、導入部、１番の歌詞、第１のリフレインまたはコーラス、２番（３番）の歌詞、第２（第３）のリフレインまたはコーラス（chorus）、またはブリッジ（bridge））。

【0023】

時間標識情報は、楽曲内の動機、主題および／または主題の変形も標識してもよい。

【0024】

さらに、時間標識情報は、他の音楽的態様（歌声の発生（例えば、最初のボーカルの入り）などのような）を指定してもよく、または、音楽構成（特定の楽器の発生（特に、特定の楽器のソロの出現）または楽器グループ（例えば、ブラスセクション、バックボーカル）またはその楽曲において最も音の大きな部分などのような）に関連してもよい。

【0025】

時間標識情報は、特定の音楽的特性を有する区分も示してもよい。音楽的特性は、例えば、特定の音楽的スタイルまたはジャンル、特定のムード、特定のテンポ、特定の調性、特定のアーティキュレーションであってもよい。

【0026】

時間標識区分は、区分のラベル付けに用いられるラベル付け情報と関連付けられてもよい。例えば、ラベル付け情報はその区分の特定の音楽的特性を記述してもよい。特定の音楽的特性とは、音楽的スタイルまたはジャンルの指定（例えば、ソフト、クラシック、エレクトロニックなど）、関連付けられたムードの指定（例えば、うれしい、悲しい、攻撃的）、テンポ（例えば、１分あたりの拍数によって指定されるかまたは例えばアレグロ、アンダンテなどのような音楽用語によって標識付けされた音声信号の速度またはペース）、音声信号のその区分の調性（例えば、イ長調、ハ短調）、あるいはアーティキュレーション（例えば、ポルタート、レガート、ピチカートといったものである。

【0027】

ラベル付け情報は、別のメタデータフィールドに含まれてもよい。ラベル付け情報は、テキストラベルを含んでもよい。あるいは、ラベル付けのために、時間標識は、例えば上述したような音楽的構造または音楽的特性を指定するテーブル中のインデックスと関連付けられてもよい。この場合、各ラベルのインデックスは、ラベル付け情報として音声データ中に含まれる。このような参照テーブル〔ルックアップ・テーブル〕の一例を以下に示す。

【表1】

【0028】

この例においては、インデックス（ここでは４状態、よって２ビット）のみを音声ビットストリーム内で搬送することになる。参照テーブルは典型的には、復号器にとって既知である。しかし、テーブルを音声ビットストリーム内で搬送することも可能である。

【0029】

時間標識情報と、該時間標識情報に関連付けられた１つ以上のラベル（例えば、テキストラベルとしてまたはテーブルからのラベル抽出を可能にする参照テーブルのインデックスとしてメタデータ中に符号化されたラベル）とを併用することにより、特定の部分（例えば、ギターソロ）を見つけるためにユーザが音声オブジェクトの大型データベース（楽曲の大規模なコレクションなどのような）を通じて容易にブラウジングすることが可能になる。

【0030】

時間標識情報により、興味のある部分（複数）（例えば、ギターソロ、ボーカルパート、リフレイン）にわたってループ再生することもさらに可能になる場合があり、これにより、その楽曲の器楽またはボーカルパートのリハーサルおよび練習が容易にされる。

【0031】

時間標識情報は、音声ファイル（例えば、ＡＡＣファイルまたはＭＰ３ファイル）中のメタデータとして保存されてもよく、時間情報（例えば、特定の区分の開始点および終了点、または特定の区分の開始点および継続長さ）を以下のフォーマットのうち１つ以上のフォーマットで符号化してもよい。
・秒値（例えば、２０秒）および任意選択で端数秒値（例えば、０．２秒）
・サンプル番号（例えば、２８ビット幅のサンプル番号フィールドは、４４１００Ｈｚのサンプリングレートにおいて１時間を越える長さをカバーする）
・フレーム番号（例えば、４４１００Ｈｚのサンプリングレートでおよび１０２４サンプル／フレームでは、１８ビット幅のフレーム番号フィールドは１時間を越える長さをカバーする）
・整数のフレーム番号および整数のサンプル番号、または
・整数のフレーム番号および端数フレーム値（例えば、１８ビット幅のフレームカウンタに２ビット幅の端数フレーム値を加えた結果、４４１００Ｈｚのサンプリングレートおよび１０２４サンプル／フレームにおいて、５ミリ秒の精度がもたらされる）。

【0032】

上記の時間情報の符号化のための種々のフォーマットの正確さの程度は異なる。使用されるフォーマットは典型的には、用途の要件に依存する。「コーラスファインダ」用途のためには、時間分解能はそれほど重要ではないため、フォーマットも高い精度を持つ必要がない。しかし、非常に厳密なループを用いる「曲に合わせて楽器を練習する」用途のためには、時間分解能要件も高くなる場合があり、そのため好適には高精度のフォーマットが用いられる。

【0033】

時間標識メタデータは、音声データの初め（例えば、音声ビットストリームのヘッダ）に（例えば、一度）含まれてもよい。

【0034】

あるいは、時間標識情報は、音声データの複数の区分中で符号化されてもよい。例えば、複数の区分は、特定の発生率でビットストリーム中に発生してもよい（例えば、ｎ秒毎またはｎ音声フレーム毎に（ｎ≧１であり、例えば、ｎ＝１である））。換言すれば、時間標識情報は、特定の固定された更新速度で符号化されてもよい。

【0035】

複数の区分内の時間標識情報を符号化する場合、複数の区分のうちの所与の区分内の時間標識情報が、ビットストリーム内における所与の区分の発生に関連して指定されてもよい。換言すれば、時間標識の時間指定は、メタデータが挿入される時点に関連して規定することができる。例えば、時間標識は、規則的に離間されたメタデータ更新位置と、関心対象区分との間の時間的距離を指定してもよい（例えば、音声信号のコーラスが開始するまで３秒）。

【0036】

このように特定の更新速度で時間標識情報を含めることで、ストリーミングアプリケーション（例えば、ブロードキャスティング）のためのブラウジング機能性が容易にされる。

【0037】

符号化方法のさらなる実施形態については、独立請求項に記載される。

【0038】

本出願の第２の態様は、音声データ中に提供された時間標識情報を復号する方法に関連する。この方法によれば、音声メタデータとして提供された時間標識情報が復号される。この復号は典型的には、音声データ中で与えられる音声オブジェクトの復号と共に行われる。時間標識情報は、本発明の第１の態様に関連して既述したように、音声データ中に符号化された音声オブジェクトのうち少なくとも１つの区分（例えば、最も特徴的な部分）を示す。

【0039】

本出願の第１の態様による符号化方法に関連する上記の記述は、本出願の第２の態様による復号方法にも適用される。

【0040】

ある実施形態によれば、時間標識情報を復号した後、標識付けされた区分の初めから再生が始まる。標識付けされた区分の初めは、時間標識情報によって指定されている。標識付けされた区分の初めから再生を開始するために、復号器は、標識付けされた区分から復号を開始してもよい。標識付けされた区分の初めからの再生開始は、ユーザ入力によって開始されてもよい。あるいは、（例えば、複数の曲の特徴部分の再生の場合において）再生は自動的に開始してもよい。

【0041】

好適には、区分の再生は、区分の終端において停止する。終端は、時間標識情報によって示される。ループモードにおいては、その後、区分の初めから再生を再開することが可能である。

【0042】

時間標識情報の復号と、各区分の初めからの再生とは、複数の音声オブジェクトについて行われてもよい。そのため、複数の曲を通してブラウジングする（例えば、大きな音楽コレクション内の複数の曲の最も特徴的な部分をブラウジングする）ことが可能になる。

【0043】

楽曲の特徴部分を示す符号化された時間標識情報は、種々のラジオチャンネル（例えば、種々のインターネットラジオチャンネル）をブラウジングすることも容易にする。

【0044】

種々のラジオチャンネルをブラウジングするために、複数のラジオチャンネルと関連付けられた複数の音声ビットストリーム中の時間標識情報が復号される。複数のビットストリームそれぞれについて１つずつ、各ビットストリームの時間標識情報によって示される少なくとも１つの各区分の初めから再生が開始される。よって、この実施形態によれば、第１のラジオチャンネル上の曲の特徴的な区分（または複数の曲の特徴的な区分）が再生されてもよい。その後、第２のラジオチャンネル上（その後、第３のラジオチャンネル上）の曲の特徴的な区分（または複数の曲の特徴的な区分）が再生されもよい。これにより、ラジオ消費者は、多様なラジオチャンネル上において再生されている音楽の種類についての印象を得ることが可能になる。

【0045】

この方法は、所与のラジオチャンネル上において再生されている多様な曲のメドレーを再生するためにも使用されてもよい。このようなメドレーを生成するために、ラジオチャンネルのビットストリーム内の複数の音声オブジェクトの時間標識情報が復号される。複数の音声オブジェクトそれぞれについて１つずつ、各音声オブジェクトの各区分が再生される。前記方法は、複数のラジオチャンネルについても実行されてもよい。これにより、複数のラジオチャンネルそれぞれについて曲のメドレーを再生して、多様なチャンネル上においてどんな種類の音楽が再生されているかについての印象を提供することが可能になる。

【0046】

上述したコンセプトは、リアルタイムラジオおよびオンデマンドラジオの両方と関連して用いられてもよい。リアルタイムラジオの場合、ユーザは典型的には、ラジオプログラムにおける特定の点にジャンプすることができない（リアルタイムラジオにおいては、ユーザは場合によってはバッファサイズに応じてラジオプログラム内の過去の点にジャンプすることはありうる）。オンデマンドラジオの場合、リスナーは、ラジオプログラム内の任意の点において開始および停止することが可能である。

【0047】

リアルタイムラジオの場合、再生デバイスは、好ましくは特定の量の音楽をメモリ内に保存できる能力を有する。時間標識情報を復号することにより、デバイスは、１つ以上のラジオチャンネルの最後の１つ以上の曲それぞれの重要部分をキャプチャし、これらの重要区分を後で再生できるようにメモリ中に保存してもよい。再生デバイスは、ラジオチャンネルの受信した連続的音声ストリームを記録してもよく、任意選択的に（メモリを解放するために）重要ではない部分を後で削除してもよく、あるいは、再生デバイスは直接、重要部分を記録してもよい。

【0048】

同じコンセプトを、インターネット経由のテレビに使うこともできる。

【0049】

ある実施形態によれば、標識付けされた区分は、着信音またはアラーム信号として利用されてもよい。この目的のため、その区分は、着信音またはアラーム信号の再生のために用いられる異なるファイル中に区分を保存してもよく、あるいは、その区分を示す時間標識情報を用いて、着信音またはアラーム信号の再生のために、その区分の初めから再生を開始してもよい。

【0050】

本出願の第３の態様は、時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器に関する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも１つの区分を示す。

【0051】

本出願の第１の態様による符号化方法に関連する上記の記述は、本出願の第３の態様による符号化器にも適用される。

【0052】

本出願の第４の態様は、音声データ中の音声メタデータとして提供される時間標識情報を復号するように構成された復号器に関連する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも１つの区分を示す。

【0053】

本出願の第１の態様による復号方法に関連する上記の記述は、本出願の第４の態様による復号器にも適用される。

【0054】

復号器は、音声プレーヤ（例えば、フラッシュメモリおよび／またはハードディスクを有するポータブル音楽プレーヤ内などのような音楽プレーヤ）において用いられてもよい。「ポータブル音楽プレーヤ」という用語は、音楽プレーヤ機能性を有する携帯電話もカバーする。音声復号器により、各曲の各特徴部分の再生によってそれらの曲を通じたブラウジングが可能になる場合、曲名を表示するディスプレイは省略されてもよい。その場合、音楽プレーヤサイズのさらなる低減と、デバイスコストの低減とが可能になる。

【0055】

本出願の第５の態様は、音声データ（例えば、音声ビットストリーム）に関連する。音声データは、時間標識情報を音声メタデータとして含む。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも１つの区分を示す。音声データは、サーバーからクライアント（すなわち、消費者）へとストリーミングされるビットストリーム（（インターネット）ラジオビットストリームなどのような）であってもよい。あるいは、音声データは、記憶媒体（フラッシュメモリまたはハードディスクなどのような）上に保存されたファイル内に含まれてもよい。例えば、音声データは、ＡＡＣ（先進的オーディオ符号化）、ＨＥ−ＡＡＣ（高効率ＡＡＣ）、ドルビーパルス、ＭＰ３またはドルビーデジタルのビットストリームであってもよい。ドルビーパルスは、ＨＥ−ＡＡＣｖ２（ＨＥ−ＡＡＣバージョン２）に基づいたものであるが、さらなるメタデータを提供する。本出願全体を通して、「ＡＡＣ」という用語は、ＡＡＣの拡張バージョン（ＨＥ−ＡＡＣまたはドルビーパルスなどのような）を全て含む。「ＨＥ−ＡＡＣ」（ならびに「ＨＥ−ＡＡＣｖｌ」および「ＨＥ−ＡＡＣｖ２」）という用語は、ドルビーパルスをもカバーする。音声データは、オーディオ情報およびビデオ情報の両方を含むマルチメディアデータであってもよい。

【0056】

以下、本発明は、多様な例示的例により添付図面を参照して説明される。

【図面の簡単な説明】

【0057】

【図1】時間標識情報を符号化する符号化器の概略的実施形態を示す図である。

【図2】時間標識情報を復号する復号器の概略的実施形態を示す図である。

【発明を実施するための形態】

【0058】

以下において、メタデータ時間情報の種々の使用の場合が論じられる。メタデータ時間標識は、種々の種類の区分を示してもよく、種々の用途において用いられてもよい。

【0059】

曲の特徴部分（例えば、コーラス）を示すメタデータ時間標識情報

【0060】

曲の特徴部分（例えば、コーラス、リフレインまたはその一部）を示すために、時間標識情報を用いてもよい。曲はしばしば、曲名を読むよりも、特徴部分（例えば、コーラス）を聴くことによって、より容易に認識できる。曲の特徴部分を示すメタデータ時間標識を用いることで、知っている曲を検索することが可能となり、曲のデータベースを通じて聴くことによってブラウジングすることが容易になる。音楽消費者は、各曲の最重要な部分を聴けば、曲を瞬時に認識および特定することができる。さらに、このような機能性は、全く表示の無いポータブル音楽プレーヤデバイス上で曲をブラウジングする際に、または、デバイスがポケットまたはバッグの中にあるためユーザから現在のところ表示が見えない場合に、大変都合がよい。

【0061】

曲の特徴部分を示す時間標識情報は、新しい曲を発見する際にも有用である。ユーザは、特徴部分（例えば、コーラス）を聴くことで、自分が曲を好きか嫌いか容易に判断することができる。よって、最も特徴的な部分を聴くことに基づいて、ユーザは、自分が曲全体を聴きたいかどうか決定すること、または自分がその曲を購入するためにお金を払いたいかどうか決定することができる。この機能性は、例えば、音楽ストアおよび音楽発見サービスの用途において有用である。

【0062】

曲の時間的音楽的構造に関連するメタデータ時間標識情報

【0063】

時間標識情報は、曲の時間的音楽的構造に関連する種々の時間的位置（例えば、イントロ、歌詞、リフレイン、ブリッジ、別のリフレイン、別の歌詞などの位置を示すためのもの）を指定するために用いられてもよい。

【0064】

これにより、ユーザは、曲中において曲の異なる部分間を容易にブラウジングすることができる。例えば、ユーザは、曲のうちユーザが気に入っている部分に容易にブラウジングすることができる。

【0065】

音楽的構造に関連するメタデータ時間標識情報は、楽器または歌唱の練習のためにも有益である。このような時間標識情報は、曲の種々の部分を通じてナビゲートする可能性を提供し、これにより、興味のある区分へとアクセスして、楽器または歌唱の練習している間、その区分を一度だけまたはループで再生することが可能となる。

【0066】

特定の楽器の発生または歌声の発生に関連するメタデータ時間標識情報

【0067】

時間標識情報は、特定の楽器の発生または歌声（および任意選択で音程範囲）の発生を指定するためにも用いてもよい。このような時間標識情報は、例えば楽器または歌唱の練習において有用である。ユーザが楽器（例えば、ギター）の演奏を学習している場合、ユーザは、曲の中で演奏してみたい部分（例えば、ギターソロ）を容易に見出すことができる。歌手の場合は、曲中の所望のピッチ範囲の部分を見つけることが有用である。

【0068】

特定の音楽的特性をともなう区分を示すメタデータ時間標識情報

【0069】

特定の音楽的特性、例えば、アーティキュレーション（例えば、レガート、ピチカート）、スタイル（例えば、アレグロ、アンダンテ）またはテンポ（例えば、１分あたりの拍数）に関する音楽的記述をともなう区分を見つけるために、時間標識情報を用いてもよい。これは、例えば楽器の練習の助けとなる場合がある。なぜならば、練習するために曲のうち関連のある、興味のある部分をユーザが容易に見つけることができるからである。再生は、そのような特定の区分にわたってループしてもよい。

【0070】

特定のムードまたはテンポをともなう区分を示すメタデータ時間標識情報

【0071】

メタデータ時間標識情報は、特定のムード（例えば、エネルギッシュ、攻撃的、または穏やか）またはテンポ（例えば、１分あたりの拍数）をともなう区分を示す場合がある。このようなメタデータは、、ムードに応じた曲の部分を見つける助けとなる。ユーザは、特定のムードの曲の区分を検索することができる。これにより、特定のムードに応じた複数の曲または利用可能な全ての曲からの区分でメドレーを作ることも可能になる。

【0072】

このようなメタデータは、運動（例えば、ランニング、回転、ホームトレーナー、またはエアロビクス）用の適切な音楽を見つけるために用いられてもよい。メタデータにより、種々のレベルの強度でトレーニングを行う際に、音楽をトレーニング強度レベルに適合させることも容易にする場合がある。よって、このようなメタデータを用いることは、ユーザが、特定の計画されたワークアウトを適切な音楽と揃えることに役立つ。例えば、インターバルトレーニング（短時間の高強度のワークアウトとそれに続く休憩期間を交互に行う）の場合、高強度の期間の間、エネルギッシュな、攻撃的なまたは高速の区分が再生され、一方で、休憩期間においては穏やかな区分またはゆっくりとした区分が再生される。

【0073】

上述したようなメタデータ時間情報の種々の使用の場合において、時間標識情報は好適には、音声ファイル中に（例えば、曲ファイルのヘッダ中に統合される。ファイルに基づいた利用法の代わりに、メタデータ時間標識情報は、ストリーミングアプリケーション（例えば、ラジオストリーミングアプリケーション（例えば、インターネットを介したもの））のコンテキスト内においても用いられてもよい。例えば、曲の特徴部分（例えば、コーラスまたはその一部）を示すメタデータ時間標識情報がある場合、そのようなメタデータは、種々のラジオチャンネルをブラウジングするコンテキストにおいて用いることができる。このようなメタデータは、複数のラジオ局（例えば、インターネットラジオ）を受信する能力がありかつ特定量の音楽をメモリに（例えば、ハードディスクまたはフラッシュメモリ上に）保存する能力を有するデバイス上において種々のラジオチャンネルをブラウジングすることを容易にする。曲の重要部分（例えば、コーラス）の位置を信号送信することにより、デバイスは、それらのチャンネルのうちの複数のチャンネルに対する最後の数曲（例えば、最後のｎ個の曲に対して；ｎ≧１であり、例えば、ｎ＝５）それぞれの重要部分を決定することができる。デバイスは、これらの重要部分をキャプチャし、これらの区分をメモリ中に保持してもよい（そして、メモリを解放するために、前記最後の数曲の残りの部分を削除してもよい）。ユーザは、各チャンネルについてこのコーラスのコレクションを通じて聴き、そのチャンネルからどんな種類の音楽が放送されているかおよび自分がこれを好きか否かをの概要を容易に得ることができる。

【0074】

音声オブジェクトの特定の区分を示すメタデータ時間標識情報

【0075】

時間標識情報は、スピーチおよび任意選択の音楽および任意選択の音を含む音声オブジェクト（例えば、オーディオブック、オーディオ・ポッドキャスト、教育教材）の特定の区分を示すために用いてもよい。これらの区分は、音声オブジェクトの内容と関連することができる（例えば、オーディオブックのチャプターまたは演劇のシーンを指定する、音声オブジェクト全体の要約を与えるいくつかのセグメントを指定するなど）。これらの区分は、オーディオブックの特徴に関連することも可能である（例えば、例えば複数の話のコレクションであるオーディオブックにおいて、ある区分が陽気であるかまたは陽気ではないかを指示する）。教育用の音声教材の場合、時間標識情報は、当該教材の難易度について、音声オブジェクトの種々の部分を指示してもよい。また、教育教材中の時間標識情報は、学習者の能動的参加を必要とする区分（例えば、言語コースにおける理解度の問題、発音エクササイズ）を示してもよい。

【0076】

メタデータ時間標識情報の多様な例示的用途について論じた後、時間標識の例示的ソースについて論じる。メタデータ中に書き込まれる時間標識は、例えば以下のソースのうち１つ以上から発生する場合がある。

【0077】

・自動抽出（例えば、消費者側（すなわち、クライアント側）または音楽プロバイダ側（すなわち、サーバー側）における音楽情報検索（Music Information Retrieval）（ＭＩＲ）アルゴリズムまたはサービスによるもの）。自動抽出アルゴリズムの例については、以下において論じられている。「ＡＣｈｏｒｕｓ−ＳｅｃｔｉｏｎＤｅｔｅｃｔｉｏｎＭｅｔｈｏｄｆｏｒＭｕｓｉｃａｌＡｕｄｉｏＳｉｇｎａｌｓａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｔｏａＭｕｓｉｃＬｉｓｔｅｎｉｎｇＳｔａｔｉｏｎ」（ＭａｓａｔａｋａＧｏｔｏ、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、Ｖｏｌ．１４、Ｎｏ．５、ｐｐ．１７８３−１７９４、２００６年９月）、および「ＴｏＣａｔｃｈａＣｈｏｒｕｓ：ＵｓｉｎｇＣｈｒｏｍａ−ＢａｓｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒＡｕｄｉｏＴｈｕｍｂｎａｉｌｉｎｇ」（Ｍ．Ａ．Ｂａｒｔｓｃｈ，Ｍ．Ａ．ａｎｄＧ．Ｈ．Ｗａｋｅｆｉｅｌｄ，ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，２００１年）。これらの文献は、参照により本明細書に組み込まれる。

【0078】

・外部データベースからの転送。例えば、音声ライブラリを外部データベースと同期させてもよい。メタデータをホストしている外部データベースが例えばコンピュータネットワークまたはセルラーネットワークを介してアクセス可能である場合があるため、データは遠隔でフェッチされてもよい（Ｇｒａｃｅｎｏｔｅのコンパクト・ディスク・データベース（ＣｏｍｐａｃｔＤｉｓｃＤａｔａｂａｓｅ）（ＣＤＤＢ）からアーティスト／トラック情報を入手するＣＤの場合と同様）

【0079】

・クライアント側において（すなわち、消費者によって）エディタにおいて手作業で入力。

【0080】

以下においては、メタデータ時間標識情報を搬送するための、多様な例示的なメタデータコンテナについて議論する。音声またはマルチメディアビットストリームでのメタデータの搬送は、多数の方法で行うことができる。このようなデータを前方互換な様態で（すなわち、時間標識メタデータの抽出に対応していない復号器にとって非破壊的に）含めることが望ましい場合がある。メタデータを音声データ中に埋め込むために、以下の一般的に用いられているメタデータ埋め込み方法のうち１つを用いてもよい。

【0081】

ＩＤ３コンテナ

【0082】

ＩＤ３タグ（ＩＤ３−「ＭＰ３を特定（Identify an MP3）」）は、ＭＰ３（ＭＰＥＧ−１／２層ＩＩＩ）音声ファイルと共にしばしば用いられるメタデータコンテナである。その埋め込みは、基本的にはＩＤ３タグをファイルの一番初めに挿入するか（ＩＤ３ｖ２の場合）または終端部にアペンドする（ＩＤ３ｖ１の場合）ため、どちらかといえばシンプルな方法である。特にＩＤ３タグはＭＰ３プレーヤに対して事実上の標準（ｄｅｆａｃｔｏｓｔａｎｄａｒｄ）となっているため、通常、前方互換性が達成される。時間標識の搬送のために、ＩＤ３タグ中の未使用のデータフィールドが使用されてもよく（または、異なる用途のためのデータフィールドをその意図される用途から転用されてもよい）、あるいは、ＩＤ３タグを時間標識搬送のための１つ以上のデータフィールドによって拡張してもよい。

【0083】

ＭＰＥＧ−１／２の補助データ

【0084】

ＭＰＥＧ−１またはＭＰＥＧ−２の層Ｉ／ＩＩ／ＩＩＩ音声ビットストリームは、時間標識メタデータのために用いられてもよい補助データコンテナを提供する。これらの補助データコンテナについては、標準化文献ＩＳＯ／ＩＥＣ１１１７２−３およびＩＳＯ／ＩＥＣ１３８１８−３中に記載がある。これらは、参照により、本明細書に組み込まれる。このような補助データコンテナは、可変サイズのデータコンテナを許容する「ＡｎｃＤａｔａＥｌｅｍｅｎｔ（）」ビットストリーム要素により、完全に前方互換性の方法で信号送信される。復号器が時間標識情報に対応していない場合、この復号器は典型的にはこの追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。

【0085】

ＭＰＥＧ−２／４ＡＡＣビットストリーム中の拡張ペイロード

【0086】

ＭＰＥＧ−２またはＭＰＥＧ−４ＡＡＣ（先進的オーディオ符号化）の音声ビットストリームについては、標準化文献ＩＳＯ／ＩＥＣ１３８１８−７およびＩＳＯ／ＩＥＣ１４４９６−３に記載のようなＡＡＣの「ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）〔拡張＿ペイロード（）〕」機構を用いて、時間標識情報をデータコンテナ中に保存してもよい。これらの文献は、参照により本明細書に組み込まれる。このアプローチは、基本的ＡＡＣにおいて使用できるだけではなく、拡張バージョンのＡＡＣ（ＨＥ−ＡＡＣｖ１（高効率ＡＡＣバージョン１）、ＨＥ−ＡＡＣｖ２（高効率ＡＡＣバージョン２）およびドルビーパルスなどのような）においても利用可能である。この「ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）」機構は、可変サイズのデータコンテナを許容する完全に前方互換性の仕方で信号送信される。「ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）」機構によって符号化された時間標識情報に復号器が対応しない場合、復号器は典型的には、この追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。よって、メタデータは連続的に（例えば、毎フレームについて）更新されてもよい。ＡＡＣビットストリーム中への時間標識情報の統合についての詳細な例については、本出願において後述する。

【0087】

ＩＳＯベースのメディアファイルフォーマット（ＭＰＥＧ−４パート１２）

【0088】

あるいは、ＩＳＯ／ＩＥＣ１４４９６−１２中に規定されているような、ＩＳＯベースのメディアファイルフォーマット（ＭＰＥＧ−４パート１２）が使用されてもよい。このコンテナ標準は、メタデータ用の階層的下部構造を既に有する。メタデータは、例えば以下を含むことができる。

【0089】

−ｉＴｕｎｅｓ〔アイチューンズ〕メタデータ、
−上で論じたようなＭＰＥＧ−４ＡＡＣ音声ビットストリームの一部としての「ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）」要素、または
−カスタマイズされたメタデータ区分。

【0090】

このＩＳＯベースのメディアファイルフォーマットは、このような時間標識メタデータをドルビーデジタル音声データまたはドルビーパルス音声データまたは他の音声データフォーマットの関連で含めるために用いられてもよい。例えば、時間標識メタデータをドルビーパルス音声ビットストリームに付加してもよく、その場合、従来のＨＥ−ＡＡＣからドルビーパルスがさらに差別化される。

【0091】

ＩＳＯ／ＩＥＣ１４４９６−１２中に規定された階層構造を用いて、例えばドルビーパルスまたはドルビーメディアジェネレータに特有のメタデータを含めることができる。このメタデータは、「ｍｏｏｖ」アトム内でｍｐ４ファイルにおいて搬送される。「ｍｏｏｖ」アトムは、ユーザデータアトム「ｕｄｔａ」を含む。ユーザデータアトム「ｕｄｔａ」は、一意のＩＤ（汎用一意識別子（universal unique identifier）−「ｕｕｉｄ」）を用いることにより、自身が搬送している内容を特定する。この箱は、いくつかのメタアトムを含み、これらのメタアトムはそれぞれ、異なる種類のメタデータを搬送することができる。メタデータの種類は、ハンドラー「ｈｄｌｒ」によって特定される。既存の種類のものは、例えば曲名、アーティスト、ジャンル等々に関する情報を搬送している場合がある。例えば必要とされる情報を含む拡張マークアップ言語（ＸＭＬ）構造新規の種類を規定することができる可能性がある。正確なフォーマットは、送信したい情報に基づいて決定される。下記の例において、時間標識メタデータが「ｘｍｌ＿ｄａｔａ」という名称のアトムの一部である構造を示す。

【表2】

【0092】

ＸＭＬ形式でコーディングされた時間標識メタデータアトム「ｘｍｌ＿ｄａｔａ」は、下記の例に示すような構造にすることができる。

【表3】

【0093】

このようなアトムは、そのサイズに関する情報を含むことができる。すなわち、種類を認識しないパーサーは、その区分を読み飛ばして、後続データの解析を継続することができる。よって、前方互換性が達成される。

【0094】

メタデータに対する他のフォーマット

【0095】

メタデータに対応しかつ時間標識メタデータの搬送に利用されてもよい他のマルチメディアコンテナフォーマットは、広く用いられている業界標準（ＭＰＥＧ−４パート１４（ＭＰ４とも呼ばれ、標準化文献ＩＳＯ／ＩＥＣ１４４９６−１４中に規定されている）および３ＧＰフォーマットなどのような）である。

【0096】

以下に、ビットストリームシンタックス中への時間標識メタデータの統合についての２つの例が説明される。

【0097】

音声サムプリントビットストリームシンタックスの第１の例

【0098】

いくつかのメタデータコンテナフォーマットは、（例えば、拡張マークアップ言語（ＸＭＬ）フレームワークにおける）テキストストリングの利用を定めており、一方他のメタデータコンテナフォーマットは、単にバイナリデータチャンクのための一般的コンテナである。下記の表１は、疑似Ｃシンタックスによって指定された（これは、ＩＳＯ／ＩＥＣ標準仕様書において一般的な慣用である）バイナリフォーマットビットストリームの一例を示す。１ビットよりも大きなビットストリーム要素は通常は、最上位ビットが先頭の符号無し整数（unsigned-integer-most-significant-bit-first）（「ｕｉｍｓｂｆ」）として書き込み／読み出しされる。

【表4】

【0099】

これらのビットストリーム要素は以下の意味を有する。

【0100】

整数要素「ＢＳ＿ＳＥＣＴＩＯＮ＿ＩＤ」は、例えば長さが２ビットであり、標識付けされた区分の内容の種類を記述する（例えば、０＝コーラス、１＝歌詞、２＝ソロ、３＝ボーカルの入り）。

【0101】

整数要素「ＢＳ＿ＮＵＭ＿ＣＨＡＲ」は、例えば長さが８ビットであり、テキストストリング「ＢＳ＿ＡＲＴＩＳＴ＿ＳＴＲＩＮＧ」の長さをバイトで記述する。この例において、整数要素「ＢＳ＿ＮＵＭ＿ＣＨＡＲ」およびテキストストリング「ＢＳ＿ＡＲＴＩＳＴ＿ＳＴＲＩＮＧ」は特別な場合（すなわち、整数要素「ＢＳ＿ＳＥＣＴＩＯＮ＿ＩＤ」がボーカルの入りを示す場合）においてのみ用いられる。疑似Ｃシンタックス中の命令文「ｉｆ（ＢＳ＿ＳＥＣＴＩＯＮ＿ＩＤ＝＝３）」を参照せよ。

【0102】

テキストストリング要素「ＢＳ＿ＡＲＴＩＳＴ＿ＳＴＲＩＮＧ」は、標識付けされた区分中のボーカルアーティストの名称を含む。テキストストリングは、例えば８ビットＡＳＣＩＩ（例えば、ＩＳＯ／ＩＥＣ１０６４６：２００３に規定されるようなＵＴＦ−８）でコーディングされてもよい。この場合、テキストストリングのビット長さは８×ＢＳ_ＮＵＭ_ＣＨＡＲである。

【0103】

整数要素「ＢＳ＿ＳＴＡＲＴ」は、標識付けされた区分の開始フレーム番号を示す。

【0104】

整数要素「ＢＳ＿ＬＥＮＧＴＨ」は、標識付けされた区分の長さを示す（ここでは、フレーム数で表される）。

【0105】

上記疑似Ｃシンタックスによるビットストリーム例は、「１１００００１１０１０１０００００１０１１１００１００１１１０１００００１００００００１０００１１１０１１００００１０１１１００１００１１００１１００１１１０１０１０１１０１１１００１１０１０１１０１１００１０１０１１０１１００００１０１０１１１１１１００１００００１１００００１１０１０１０」である。

【0106】

上記例示的ビットストリームは、以下を指定する。

【0107】

テキストタグ「ＡｒｔＧａｒｆｕｎｋｅｌ」をもつＶＯＣＡＬ＿ＥＮＴＲＹ〔ボーカルの入り〕区分がフレーム番号４５０００において開始し、継続長さが６２５０フレームとなる（よって、この区分はフレーム５１２５０において停止する）。

【0108】

音声サムプリントビットストリームシンタックスの第２の例
第２の例は第１の例に基づいており、ＩＳＯ／ＩＥＣ１４４９６−３からのｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）機構を用いる。ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）機構のシンタックスについて、表４．５１（従属節４．４．２．７、ＩＳＯ／ＩＥＣ１４４９６−３：２００１／ＦＤＡＭ：２００３（Ｅ））中に記載がある。これは、参照によりの本明細書に組み込まれる。

【0109】

表４．５１（従属節４．４．２．７、ＩＳＯ／ＩＥＣ１４４９６−３：２００１／ＦＤＡＭ：２００３（Ｅ））中のｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）機構のシンタックスと比較して、第２の例においては、表２に示すように、ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）のシンタックスに対して追加のｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅ〔拡張＿種類〕（すなわち、「ＥＸＴ＿ＡＵＤＩＯ＿ＴＨＵＭＢＮＡＩＬ」というｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅ）が追加される。復号器がこの追加のｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅに対応していない場合、この情報は典型的には読み飛ばされる。表２において、音声サムプリントのための追加のビットストリーム要素に下線を付してある。拡張種類「ＥＸＴ＿ＡＵＤＩＯ＿ＴＨＵＭＢＮＡＩＬ」はメタデータ「ＡｕｄｉｏＴｈｕｍｂｐｒｉｎｔＤａｔａ（）」と関連付けられ、「ＡｕｄｉｏＴｈｕｍｂｐｒｉｎｔＤａｔａ（）」のシンタックスの一例を表３に示す。表３の「ＡｕｄｉｏＴｈｕｍｂｐｒｉｎｔＤａｔａ（）」のシンタックスは、表１のシンタックスと類似する。ビットストリーム要素「ＢＳ＿ＳＥＣＴＩＯＮ＿ID」、「ＢＳ＿ＮＵＭ＿ＣＨＡＲ」、「ＢＳ＿ＡＲＴＩＳＴ＿ＳＴＲＩＮＧ」、「ＢＳ＿ＳＴＡＲＴ」および「ＢＳ＿ＬＥＮＧＴＨ」の規定は、表１に関連して論じた規定と同じである。変数「ｎｕｍＡｕＴｈＢｉｔｓ」はＡｕｄｉｏＴｈｕｍｂｐｒｉｎｔＤａｔａ（）と関連付けられた追加のビットの数をカウントする。

【0110】

変数「ｎｕｍＡｌｉｇｎＢｉｔｓ」は、必要なフィルビット数に対応し、ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄのビット数合計（変数「ｃｎｔ」（単位：バイト））と、音声サムプリント（変数「ｎｕｍＡｕＴｈＢｉｔｓ」）および変数「拡張種類」（これは、ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）中の拡張種類を特定する）に用いられるビット数との間の差として決定される。この所与の例において、「ｎｕｍＡｌｉｇｎＢｉｔｓ」は４に等しい、「ＡｕｄｉｏＴｈｕｍｂｐｒｉｎｔＤａｔａ〔音声サムプリントデータ〕（）」は、読み出されたバイト数合計を返す。

【表5】

【表6】

【0111】

図１は、時間標識情報の符号化のための符号化器〔エンコーダ〕１の例示的実施形態を示している。符号化器は、音声信号２を受信する。音声信号２は、ＰＣＭ（パルス符号変調）符号化された音声信号２でもよく、または、知覚符号化された音声ビットストリーム（ＭＰ３ビットストリーム、ドルビーデジタルビットストリーム、従来のＨＥ−ＡＡＣビットストリームまたはドルビーパルスビットストリームなどのような）であってもよい。音声信号２は、マルチメディアトランスポートフォーマット（例えば、「ＭＰ４」（ＭＰＥＧ−４パート１４などのような）またはメタデータコンテナ（例えば、「ＩＤ３」）などのような）によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。音声信号２は、音声オブジェクト（例えば、楽曲）を含む。符号化器１は、時間標識データ７をさらに受信する。時間標識データ７は、音声オブジェクト中の１つ以上の区分（最も特徴的な部分などのような）を示す。時間標識データ７は、例えば音楽情報検索（ＭＩＲ）アルゴリズムによって自動特定されてもよく、または手作業で入力されてもよい。符号化器１は、１つ以上の標識付けされた区分をラベル付けするための、ラベル付け情報８をさらに受信してもよい。

【0112】

信号２および７ならびに任意選択的に信号８に基づいて、符号化器１は、音声オブジェクトを含み、かつ音声オブジェクト中の１つ以上の区分をマーク付けするための時間標識情報を含むビットストリーム３を生成する。ビットストリーム３は、ＭＰ３ビットストリーム、ドルビーデジタルビットストリーム、ＨＥ−ＡＡＣビットストリームまたはドルビーパルスビットストリームであってもよく、ビットストリームが時間標識情報と、任意選択的に関連付けられたラベル付け情報とを含む点において従来のビットストリームと異なる。ビットストリーム３は、マルチメディアトランスポートフォーマット（例えば、「ＭＰ４」（ＭＰＥＧ−４パート１４）、またはメタデータコンテナ（例えば、「ＩＤ３」などのような）によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。ビットストリーム３は、後で再生できるように音声ファイルとして記憶媒体（図示せず）（フラッシュメモリまたはハードディスクなどのような）中に保存されてもよく、またはストリーミングアプリケーション（インターネットラジオなどのような）においてストリーミングされてもよい。

【0113】

ビットストリーム３は、ヘッダ区分４を備えてもよい。ヘッダ区分４は、時間標識メタデータ区分５を備えてもよい。時間標識メタデータ区分５は、符号化された時間標識情報と、関連付けられたラベル付け情報とを有する。時間標識情報は、１つ以上の標識付けされた区分についての開始点および停止点、または１つ以上の標識付けされた区分の各開始点および各継続長さを備えてもよい。時間標識メタデータ区分５は、上述したようにメタデータコンテナ中に含まれていてもよい。ビットストリーム３は、音声オブジェクト６をさらに含む。よって、１つ以上の区分の時間情報がビットストリームのメタデータ中に含まれ、これにより、例えば音声オブジェクトの重要部分にナビゲートすることが可能になる。

【0114】

図２は、復号器〔デコーダ〕１０の例示的実施形態を示す。復号器１０は、符号化器１によって生成されたビットストリーム３を復号するように構成される。復号器１０は、ビットストリーム３（ＰＣＭ音声信号１１などのような）に基づいて音声信号１１を生成する。復号器１０は典型的には、音声再生（特に音楽再生）のための消費者デバイスの一部である。消費者デバイスは、携帯電話機能性の無いポータブル音楽プレーヤ、音楽プレーヤ機能性のある携帯電話、ノートブック、セットトップボックス、またはＤＶＤプレーヤなどのようなものである。音声再生のための消費者デバイスは、組み合わされたオーディオ／ビデオ再生のために利用されてもよい。復号器１０は、選択信号１３をさらに受信する。選択信号１３に応じて、復号器１０は、音声オブジェクトの標識付けされた区分にジャンプして標識付けされた区分の復号を行うか、または、音声オブジェクトの通常の復号を音声オブジェクトの初めから終わりまで行う。復号器が音声オブジェクトの標識付けされた区分へとジャンプした場合、消費者デバイスは、標識付けされた区分から再生を開始する。

【0115】

復号器１０は、復号されたラベル付け情報１２を任意選択的にさらに出力してもよい。復号されたラベル付け情報１２は、デバイスのディスプレイ上に表示されるよう、ディスプレイドライバ（図示せず）に入力されてもよい。

【0116】

本明細書において、時間標識情報を音声データ中のメタデータとして符号化するための方法およシステムが記載される。この時間標識情報により、音楽消費者が音声ファイルの特徴部分を素早く特定することが可能になる。

【0117】

本明細書中に記載の方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、例えばデジタル信号プロセッサまたはマイクロプロセッサ上において実行されるソフトウェアとして実装されてもよい。他のコンポーネントは、例えばハードウェアとしてあるいは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて出てくる信号は、媒体（ランダムアクセスメモリまたは光学記憶媒体などのような）上に保存されてもよい。これらは、ネットワーク（電波ネットワーク、衛星ネットワーク、無線ネットワーク、または有線ネットワーク（例えば、インターネット）などのような）を介して転送されてもよい。本文献中に記載の方法およびシステムを利用する典型的なデバイスとしては、ポータブル電子機器または音声信号の保存および／またはレンダリングに用いられる他の消費者装置がある。これらの方法およびシステムは、ダウンロードのために音声信号（例えば、音楽信号）を保存および提供するコンピュータシステム（例えば、インターネットウェブサーバー）上で用いられてもよい。

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第5771618号(P5771618)IP Force 特許公報掲載プロジェクト 2022.1.31 β版