(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-10
(45)【発行日】2022-05-19
(54)【発明の名称】音量調整のための方法、コンピュータ可読記憶媒体及び装置
(51)【国際特許分類】
H03G 9/14 20060101AFI20220511BHJP
H04R 3/00 20060101ALI20220511BHJP
【FI】
H03G9/14
H04R3/00 310
(21)【出願番号】P 2020537547
(86)(22)【出願日】2019-01-07
(86)【国際出願番号】 US2019012524
(87)【国際公開番号】W WO2019136371
(87)【国際公開日】2019-07-11
【審査請求日】2020-08-27
(32)【優先日】2018-01-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】501112323
【氏名又は名称】グレースノート インコーポレイテッド
(74)【代理人】
【識別番号】100107456
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】クーバー, ロバート
(72)【発明者】
【氏名】スコット, ジェフリー
(72)【発明者】
【氏名】クレーマー, マーカス ケー.
(72)【発明者】
【氏名】バータカビー, アニーシュ
【審査官】竹内 亨
(56)【参考文献】
【文献】特開2012-104992(JP,A)
【文献】特開2010-192954(JP,A)
【文献】特開2010-258776(JP,A)
【文献】米国特許出願公開第2017/0295412(US,A1)
【文献】米国特許出願公開第2017/0207762(US,A1)
【文献】特開2003-348682(JP,A)
【文献】実開平04-044004(JP,U)
(58)【調査した分野】(Int.Cl.,DB名)
H03G 1/00-99/00
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
音声音量を調整するための装置であって、
音声信号内に表されるメディアを識別するための音声信号識別器と、
メタデータアクセッサであり、
前記音声信号内の前記メディアを識別することに応答して前記メディアと関連付けられたメタデータにアクセスし、
前記メタデータに基づき、前記メディアの平均音量を決定するためのメタデータアクセッサと、
第1のゲイン値に基づき、前記音声信号の出力音量を調整するための音量調整器
であり、
前記第1のゲイン値が、
他のメディア間の前記音声信号の出力音量の正規化を可能にするための第2のゲイン値であり、前記メディアの前記平均音量に基づき決定される第2のゲイン値と、
ソース間の前記音声信号の出力音量の正規化を可能にするための第3のゲイン値であり、前記音声信号と、前記メタデータ内に表される瞬間的な音量測定値との比較に基づき決定される第3のゲイン値と、
を使用して決定される、音量調整器と
を備える、装置。
【請求項2】
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタをさらに含み、前記音量調整器が、前記差に基づいた
第4のゲイン値に基づき前記音声信号の前記
出力音量を調整するためのものである、請求項1に記載の装置。
【請求項3】
前記
第1のゲイン値が、前記音声信号に適用される初期音量調整であり、前記
第4のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項2に記載の装置。
【請求項4】
前記音声信号識別器が前記音声信号内に表される
前記メディアを識別することができないときに、前記音声信号を圧縮するためのダイナミックレンジ圧縮器をさらに含む、請求項1に記載の装置。
【請求項5】
前記音声信号をバッファするための音声信号アクセッサをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項1に記載の装置。
【請求項6】
前記
第1のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項1に記載の装置。
【請求項7】
前記
第1のゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、請求項1に記載の装置。
【請求項8】
コンピュータ可読命令を含む持続性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行されると、プロセッサに少なくとも
音声信号内に表されるメディアを識別することと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスすることと、
前記メタデータに基づき、前記メディアの平均音量を決定することと、
第1のゲイン値に基づき、前記音声信号の出力音量を調整すること
であり、
前記第1のゲイン値が、
異なるメディア間の前記出力音量の正規化のための第2のゲイン値であり、前記メディアの前記平均音量に基づき決定される第2のゲイン値と、
異なるソース間の前記出力音量の正規化のための第3のゲイン値であり、前記音声信号と、前記メタデータ内に含まれる瞬間的な音量測定値との比較に基づき決定される第3のゲイン値と、
を使用して決定される、調整することと、
を行わせる、持続性コンピュータ可読記憶媒体。
【請求項9】
前記コンピュータ可読命令が、実行されると、前記プロセッサに
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、
前記差に基づいた
第4のゲイン値に基づき前記音声信号の前記
出力音量を調整することと、
を行わせる、請求項8に記載の持続性コンピュータ可読記憶媒体。
【請求項10】
前記
第1のゲイン値が、前記音声信号に適用される初期音量調整であり、前記
第4のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項9に記載の持続性コンピュータ可読記憶媒体。
【請求項11】
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号内に表される
前記メディアが識別されないときに、前記音声信号を圧縮することを行わせる、請求項8に記載の持続性コンピュータ可読記憶媒体。
【請求項12】
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号をバッファすることを行わせ、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項8に記載の持続性コンピュータ可読記憶媒体。
【請求項13】
前記
第1のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項8に記載の持続性コンピュータ可読記憶媒体。
【請求項14】
前記
第1のゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、請求項8に記載の持続性コンピュータ可読記憶媒体。
【請求項15】
音声信号内に表されるメディアを識別するステップと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスするステップと、
前記メタデータに基づき、前記メディアの平均音量を決定するステップと、
第1のゲイン値に基づき、前記音声信号の出力音量を調整するステップ
であり、
前記第1のゲイン値が、
異なるメディア間の前記出力音量の正規化のための第2のゲイン値であり、前記メディアの前記平均音量に基づき決定される第2のゲイン値と、
異なるソース間の前記出力音量の正規化のための第3のゲイン値であり、前記音声信号と、前記メタデータ内に含まれる瞬間的な音量測定値との比較に基づき決定される第3のゲイン値と、
を使用して決定される、調整するステップと
を含む方法。
【請求項16】
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、
前記差に基づいた
第4のゲイン値に基づき前記音声信号の前記
出力音量を調整するステップと、をさらに含む、請求項15に記載の方法。
【請求項17】
前記
第1のゲイン値が、前記音声信号に適用される初期音量調整であり、前記
第4のゲイン値が、前記音声信号に適用されるその後の音量調整である、請求項16に記載の方法。
【請求項18】
前記音声信号内に表される前記メディアが識別されないときに、前記音声信号を圧縮するステップをさらに含む、請求項15に記載の方法。
【請求項19】
前記音声信号をバッファするステップをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、請求項15に記載の方法。
【請求項20】
前記
第1のゲイン値が、セーフリスニング音量範囲に基づき決定される、請求項15に記載の方法。
【発明の詳細な説明】
【関連出願】
【0001】
[0001]本特許は、2018年1月7日に出願された「METHODS AND APPARATUS FOR DYNAMIC VOLUME ADJUSTMENT」という表題の米国仮出願第62/614,439号の利益及びそれに対する優先権を主張するものである。米国仮出願第62/614,439号は、その全体が参照により本明細書に組み込まれる。
【本開示の分野】
【0002】
[0002]本開示は、一般には、音量調整、及びより詳細には、音量調整のための方法及び装置に関する。
【背景】
【0003】
[0003]近年、種々の特徴を持つ数多くのメディアが、ますます多くのチャネルを使用して搬送されている。詳細には、音声メディアは、より従来型のチャネル(例えば、無線)を使用して、又は、インターネット接続されたストリーミングデバイスを使用するなど、もっと最近になって開発されたチャネルを使用して受信され得る。これらのチャネルが開発されたことにより、複数ソースからの音声を処理及び出力することができるシステムも同様に開発されてきた。いくつかの自動車メディアシステムは、例えば、コンパクトディスク(CD)、ブルートゥース[登録商標]接続デバイス、ユニバーサルシリアルバス(USB)接続デバイス、Wi-Fi接続デバイス、補助入力、及び他のソースからメディアを搬送することができる。
【図面の簡単な説明】
【0004】
【
図1】[0004]
図1は、音量調整のための本開示の教示に従って構築される例示的なシステムの概略図である。
【0005】
【
図2】[0005]
図2は、
図1のメディアユニットのさらなる詳細を示すブロック図である。
【0006】
【
図3】[0006]
図3は、音量調整を実施するために
図1及び
図2のメディアユニット106を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。
【0007】
【
図4】[0007]
図4は、音声信号を出力し、音声信号のリアルタイム音量調整を提供するように
図1及び
図2のメディアユニット106を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。
【0008】
【
図5】[0008]
図5は、音量調整を実施してソース間及びメディア間の音声を正規化するように
図1及び
図2のメディアユニット106を実装するために使用され得る例示的なマシン可読命令を表すフローチャートである。
【0009】
【
図6】[0009]
図6は、
図1及び
図2の例示的なメディアユニット106を実装するために
図3~
図5の命令を実行し得る例示的なプロセッサプラットフォームの概略図である。
【0010】
[0010]図は縮尺通りではない。可能な限り、同じ参照番号が、同じ又は同様の部分について言及するために、図面全体及び付随する書面による説明を通して使用される。
【詳細な説明】
【0011】
[0011]従来の音声メディア実装形態において、異なるメディアと関連付けられた音声信号は、異なる音量を有し得る。例えば、あるCD上のメディアは、別のCDのメディアとは著しく異なる音量で記録及び/又はマスター作成され得る。同様に、ストリーミングデバイスから取得されるメディアは、異なるデバイスから取得されるメディア、又は異なるアプリケーションを介して同じデバイスから取得されるメディアとは著しく異なる音量レベルを有し得る。ユーザが様々な異なるソースからのメディアをますます聴くようになると、ソース間及び同じソースのメディア間の音量レベルにおける差は、極めて顕著になり得、リスナを苛立たせる可能性があり得る。
【0012】
[0012]音量正則化に対するいくつかの従来の手法においては、ダイナミックレンジ圧縮器が、音量しきい値を満足するように音声信号のダイナミックレンジ全体を圧縮するために利用される。いくつかの従来の実装形態においては、そのようなダイナミックレンジ圧縮は、音声信号の音量しきい値を満足するように、音声信号の音量を絶え間なくモニタし、調整する。そのような連続的な調整は、トラックの元のダイナミクスが著しく変更されるため、リスナによる音声信号の知覚に影響を及ぼす。いくつかの例では、ダイナミックレンジ圧縮は、音声信号の知覚品質を著しく劣化させる。
【0013】
[0013]本明細書に開示される例示的な方法、装置、システム、及び製品において、メディアメタデータは、メディア単位(例えば、曲、トラックなど)の平均音声レベルを決定するために使用される。平均音声レベルは、次いで、所望の音量レベル(本明細書では目標音量レベルとも称される)を達成するように音声信号に適用するための適切なゲイン値を決定するために利用される。いくつかの例では、所望の音量レベルは、すべての信号が一貫した平均音量レベルで出力されて、最適なユーザ体験を可能にするように、すべての音声信号にわたって維持される。さらに、いくつかの例では、音量レベルを、音声信号の出力中に規則的な増分でモニタして、そのセグメントの音量レベルが音量しきい値を満足する平均音量を有するかどうかを決定する。そのような例では、音量は、この場合も、セグメント中の音量と所望の音量レベルとの差を計算に入れるように動的に調整され得る。さらに、音量レベルがメディア内に表される音量レベルともはや同じではなくなるように変更又は調整されているメディアの場合、規則的な増分でモニタすることは、メタデータに基づいた間違ったゲインが、音声信号の音量を所望の範囲の外側にあるように調整することを防ぐ。
【0014】
[0014]本明細書に開示される例示的な方法、装置、システム、及び製品において、音量レベルは、音量がセーフリスニング音量範囲内に留まることを確実にするように調整され得る。例えば、比較的静かなトラックが増幅され、次いで再生が、非常に大音量を既に有するトラックへ遷移する場合、音量レベルは、新しいトラックを危険な音量レベル(例えば、人間のヒアリング又はレンダリング技能に比較的すぐに損傷を与え得る音量レベル)で再生することを回避するように調整される必要がある。本明細書に開示されるいくつかの例では、バッファ(例えば、1秒バッファ、3秒バッファなど)は、音声信号がソース(例えば、ディスク、ラジオ放送局、携帯電話など)から入力される時間と、それが出力される時間との間の遅延として作用するように用いられ、以て音量レベルの急速な変動を防ぎ、バッファ期間中の音量レベルの分析及び調整を可能にする。
【0015】
[0015]本明細書に開示されるいくつかの例示的な技術においては、音声信号に関するメタデータを取得するために、音声透かしを利用してメディアを識別する。音声透かしは、テレビ放送、ラジオ放送、広告(テレビ及び/又はラジオ)、ダウンロードメディア、ストリーミングメディア、事前にパッケージ化されたメディアなどのメディアを識別するために使用される技術である。既存の音声透かし技術は、メディア識別情報及び/又はメディア識別情報にマッピングされ得る識別子などの1つ又は複数の音声コード(例えば、1つ又は複数の透かし)を、音声成分及び/又は映像成分に埋め込むことによって、メディアを識別する。いくつかの例では、音声成分又は映像成分は、透かしを隠すのに十分な信号特徴を有するように選択される。本明細書で使用される場合、用語「コード」又は「透かし」は、交換可能に使用され、メディアを識別する目的のため、又はチューニング(例えば、パケット識別ヘッダ)などの別の目的のためにメディアの音声又は映像(例えば、番組又は広告)に挿入され得る、又は埋め込まれ得る任意の識別情報(例えば、識別子)を意味するように定義される。本明細書で使用される場合、「メディア」は、音声及び/又は視覚(静又は動)コンテンツ及び/又は広告を指す。フィンガープリント付きメディアを識別するため、透かし(複数可)は、抽出されて、メディア識別情報にマップされる参照透かしのテーブルにアクセスするために使用される。
【0016】
[0016]本明細書に開示されるいくつかの例示的な技術においては、音声信号に関するメタデータを取得するために、音声フィンガープリントを利用してメディアを識別する。音声フィンガープリントは、テレビ放送、ラジオ放送、広告(テレビ及び/又はラジオ)、ダウンロードメディア、ストリーミングメディア、事前にパッケージ化されたメディアなどのメディアを識別するために使用される技術である。モニタ対象メディアに含まれる及び/又は埋め込まれるコード及び/又は透かしに基づいたメディアモニタリング技術とは異なり、フィンガープリント又はシグネチャベースのメディアモニタリング技術は、一般的に、モニタリング時間間隔の間、モニタ対象メディアの1つ又は複数の固有特性を使用して、メディアのための実質的に固有のプロキシを生成する。そのようなプロキシは、シグネチャ又はフィンガープリントと称され、メディア信号(複数可)の任意の態様(複数可)(例えば、モニタされているメディア提示を形成する音声信号及び/又は映像信号)を表す任意の形態(例えば、一連のデジタル値、波形など)をとり得る。シグネチャは、あるタイマ間隔にわたって連続して収集される一連のシグネチャであってもよい。良好なシグネチャは、同じメディア提示を処理するときに繰り返し可能であるが、他の(例えば、異なる)メディアの他の(例えば、異なる)提示に対して固有である。したがって、用語「フィンガープリント」及び「シグネチャ」は、本明細書では交換可能に使用され、メディアの1つ又は複数の固有特性から生成される、メディアを識別するためのプロキシを意味するように本明細書では定義される。
【0017】
[0017]シグネチャベースのメディアモニタリングは、一般的に、モニタ対象メディアデバイスによって出力されるメディア信号(例えば、音声信号及び/又は映像信号)を表すシグネチャ(複数可)を決定(例えば、生成及び/又は収集)し、モニタ対象シグネチャ(複数可)を既知の(例えば、参照)メディアソースに対応する1つ又は複数の参照シグネチャと比較することを伴う。相互相関値、ハミング距離などの様々な比較基準を評価して、モニタ対象シグネチャが特定の参照シグネチャに一致するかどうかを決定し得る。モニタ対象シグネチャと参照シグネチャのうちの1つの一致が発見されると、モニタ対象メディアは、モニタ対象シグネチャと一致する参照シグネチャによって表される特定の参照メディアに対応すると識別され得る。メディアの識別子、提示時間、放送チャネルなどの属性が、参照シグネチャについて収集されるため、これらの属性は、次いで、モニタ対象シグネチャが参照シグネチャに一致したモニタ対象メディアと関連付けられ得る。
【0018】
[0018]本明細書に開示されるいくつかの例示的な技術において、音声信号は、テキストマッチング(例えば、アーティスト、アルバム、タイトルなどに関するテキストを利用すること)、又は音声信号(例えば、ID3タグに埋め込まれるカタログ識別子、ISRC識別子など)と関連付けられた識別子を使用することによって識別される。本明細書に開示される例示的な技術は、任意の音声信号識別技術を利用して音声信号を識別し得る。
【0019】
[0019]本明細書に開示されるいくつかの例示的な技術において、識別可能でない音声信号、及び故に、メタデータが利用可能でない音声信号は、所望の音量レベルを維持するように動的に圧縮される。例えば、コマーシャルは、メタデータを有するメディアに関する識別可能な音声信号間に流れ得る。そのような例では、音量レベルは、識別可能な音声信号の各々についての平均音量レベルに基づき調整され、動的圧縮を使用して合間のコマーシャルの音量レベルを調整して、音量の劇的な変化を回避する。
【0020】
[0020]本明細書に開示される例では、音量調整は、車両のオーディオシステムの構成要素によって、又は車両のオーディオシステムと通信している構成要素によって実施され得る。いくつかの例では、動的音量調整器又は動的音量調整が可能な他の構成要素を含むメディアユニットは、車両のヘッドユニットに含まれ得る。そのような例において、車両ヘッドユニットは、補助入力、CD入力、ラジオ信号受信器入力、スマートデバイスからの外部ストリーム、ブルートゥース入力、ネットワーク接続(例えば、インターネットへの接続)、又は任意の他のソースから音声信号を受信し得る。例えば、動的音量調整は、家庭用娯楽システム内のメディアシステム上で実施され得、複数のソース(例えば、DVDプレイヤ、セットトップボックスなど)は、ソース及びメディア間で音声レベルを正規化することを目指して動的に調整される音声信号を通信し得る。他の例では、動的音量調整は、任意の設定で、又は任意のメディアデバイス(複数可)のために実施され得る。
【0021】
[0021]本明細書に開示される例示的な方法、装置、システム、及び製品において、ユーザによって指定される音量設定は、ソースタイプを識別するデータと関連して記憶される。例えば、ユーザが自らのモバイルデバイスを操作している間にユーザによって選択される音量レベルが記憶され得る。追加的又は代替的に、音量レベルは、ユーザ選好を満足するように、又は特定の入力ソースが使用されているときの要件を満足するように、本明細書に開示される技術を利用して自動的に調整され得る。いくつかのそのような音量レベルは、初期音量レベルを構成するために、ソース変更が発生したときに活用され得る。例えば、ユーザが音声ソースをラジオから携帯電話に切り替える場合、本明細書に開示される例示的な技術は、初期音量レベルを構成するために携帯電話のための音声設定履歴を参照する。同様に、音量設定履歴は、入力ソースの現在の音量レベルをレベル履歴と比較し、一貫した及び安全なリスナ体験を確実にするように調整を行うために使用され得る。
【0022】
[0022]
図1は、音量調整のための本開示の教示に従って構築される例示的なシステム100の概略図である。例示的なシステム100は、音声信号をメディアユニット106に伝送するメディアデバイス102、104を含む。メディアユニット106は、音声信号を処理し、信号を音声増幅器108に伝送し、続いて音声増幅器108が、出力デバイス110を介して提示されることになる増幅された音声信号を出力する。
【0023】
[0023]
図1の図示された例の例示的なメディアデバイス102は、ポータブルメディアプレイヤ(例えば、MP3プレイヤ)である。例示的なメディアデバイス102は、メディアに対応する音声信号を記憶又は受信し、音声信号を他のデバイスに伝送することができる。
図1の図示された例において、メディアデバイス102は、補助ケーブルを介して音声信号をメディアユニット106に伝送する。いくつかの例では、メディアデバイス102は、任意の他のインターフェースを介して音声信号をメディアユニット106に伝送する。
【0024】
[0024]
図1の図示された例の例示的なメディアデバイス104は、モバイルデバイス(例えば、携帯電話)である。例示的なメディアデバイス104は、メディアに対応する音声信号を記憶又は受信し、音声信号を他のデバイスに伝送することができる。
図1の図示された例において、メディアデバイス104は、ワイヤレスで音声信号をメディアユニット106に伝送する。いくつかの例では、メディアデバイス104は、Wi-Fi、ブルートゥース、及び/又は任意の他の技術を使用して音声信号をメディアユニット106に伝送し得る。いくつかの例では、メディアデバイス104は、リスナが車両内での提示のためのメディアを選択するために、車両の構成要素又は他のデバイスと対話し得る。メディアデバイス102、104は、音声信号を記憶すること及び/又は音声信号にアクセスすることができる任意のデバイスであってもよい。いくつかの例では、メディアデバイス102、104は、車両と一体であってもよい(例えば、CDプレイヤ、ラジオなど)。
【0025】
[0025]
図1の図示された例の例示的なメディアユニット106は、音声信号を受信すること、及びそれらを処理することができる。
図1の図示された例において、メディアユニット106は、メディアデバイス102、104からメディア信号を受信し、それらを処理して音量調整を実施する。例示的なメディアユニット106は、メディアに埋め込まれた、又はメディアから導出される識別子(例えば、フィンガープリント、透かし、シグネチャなど)に基づき音声信号を識別することができる。例示的なメディアユニット106は、さらに、音声信号と関連付けられたメディアに対応するメタデータにアクセスすることができる。いくつかの例では、メタデータは、メディアユニット106の記憶デバイスに記憶される。いくつかの例では、メタデータは、別の場所から(例えば、ネットワークを介してサーバから)アクセスされる。さらには、例示的なメディアユニット106は、メタデータに基づき平均ゲイン値を決定及び適用して、音量しきい値を満足するように音声信号の平均音量を調整することによって、動的音量調整を実施することができる。例示的なメディアユニット106は、さらに、出力デバイス110によって出力されている音声をモニタして、リアルタイムに音声セグメントの平均音量レベルを決定することができる。音声信号がメディアに対応するものとして識別されない場合、及び/又は音声信号について、音量情報を含むメタデータを利用できない場合、例示的なメディアユニット106は、所望の音量レベルを達成するために音声信号の圧縮を提供するダイナミックレンジ圧縮が可能である。いくつかの例では、例示的なメディアユニット106は、車両内の別のデバイスの部分(例えば、カーラジオヘッドユニット)として含まれる。いくつかの例では、例示的なメディアユニット106は、ソフトウェアとして実装され、直接接続(例えば、有線接続)又はネットワーク(例えば、クラウド上で利用可能)のいずれかを通じて利用可能である別のデバイスの部分として含まれる。いくつかの例では、例示的なメディアユニット106は、音声増幅器108及び出力デバイス110と共に組み込まれてもよく、音声信号の処理の後にそれ自体が音声信号を出力してもよい。
【0026】
[0026]
図1の図示された例の例示的な音声増幅器108は、メディアユニット106によって処理された音声信号を受信すること、及び出力デバイス110による出力のための信号の適切な増幅を実施することができるデバイスである。いくつかの例では、音声増幅器108は、出力デバイス110に組み込まれ得る。いくつかの例では、音声増幅器108は、メディアユニット106からの増幅出力値に基づき音声信号を増幅する。いくつかの例では、音声増幅器108は、リスナ(例えば、音量セレクタを調整する車両の乗客又は運転者)からの入力に基づき音声信号を増幅する。
【0027】
[0027]
図1の図示された例の例示的な音声出力デバイス110は、スピーカである。いくつかの例では、音声出力デバイス110は、複数のスピーカ、ヘッドフォン、又は音声信号をリスナに提示することができる任意の他のデバイスであってもよい。いくつかの例では、出力デバイス110は、視覚要素(例えば、映像)も同様に出力することができてもよい(例えば、スピーカ付きのテレビ)。いくつかのそのような例では、視覚要素は、メディアを識別するために利用され得る(例えば、映像に含まれる透かしに基づき、映像から導出されるフィンガープリントに基づきなど)。いくつかのそのような例では、音量調整に加えて、又はその代替として、本明細書に説明される技術は、映像内に表されるメディアの識別に基づき、映像の特徴を調整する(例えば、輝度を調整する、ガンマ補正を実施する、色のバランス補正を実施するなど)ために実装され得る。
【0028】
[0028]
図1の図示される例示的なシステム100は、車両における音量調整実装形態を参照して説明されるが、例示的なシステム100に含まれるデバイスの一部又はすべては、任意の環境において、及び任意の組み合わせで、実装され得る。例えば、システム100は、家庭の娯楽室内にあってもよく、メディアデバイス102、104は、ゲーム機、仮想現実デバイス、セットトップボックス、又はメディアにアクセスすること及び/若しくはメディアを伝送することができる任意の他のデバイスであってもよい。加えて、いくつかの例では、メディアは、視覚要素も同様に含み得る(例えば、テレビ番組、映画など)。
【0029】
[0029]メディアユニット106の例示的な実装形態のさらなる詳細を提供するブロック
図200が、
図2に図示される。例示的なメディアユニット106は、音声信号を受信すること、及び音声信号を処理して、音声信号の音量を所望のレベルまで動的に調整することができる。動的音量調整の後、例示的なメディアユニット106は、出力デバイス110による出力の前に増幅のために音声増幅器108に音声信号を伝送する。
【0030】
[0030]
図2に示されるように、図示された例示的なメディアユニット106は、動的音量調整器202、データストア204、メタデータデータベース206、及びダイナミックレンジ圧縮器208を含む。動的音量調整器202は、音声信号アクセッサ210、音声信号識別器212、メタデータアクセッサ214、音量調整器216、リアルタイム音声モニタ218、及び音声信号出力器220をさらに含む。
【0031】
[0031]例示的な動的音量調整器202は、音声信号を受信すること、及びその音声信号に対して動的音量調整を実施することができる。いくつかの例では、例示的な動的音量調整器202は、動的音量調整器202によってアクセスされる音声信号を識別する。いくつかの例では、動的音量調整器202は、信号が処理中に一時的に記憶され得るデータストア204から音声信号にアクセスし得る。いくつかの例では、動的音量調整器202は、音声信号に埋め込まれた識別子を利用して音声信号に対応するメディアを決定する。例示的な動的音量調整器202は、任意の技術を使用して、受信した音声信号に対応するメディアを決定し得る。いくつかの例では、音量調整器202は、音量情報に対応するメタデータ(例えば、メディア単位にわたる平均音量、メディアのあるセグメントの間の平均音量など)を獲得することができる。いくつかの例では、例示的な音量調整器202は、音声信号のための所望の平均音量を達成するために音声信号に適用するための適切な平均ゲイン値を決定することができる。いくつかの例では、例示的な音量調整器202は、
図1の図示された例の音声増幅器108に音声信号をサンプル内で提示(例えば、出力)し、音声サンプルが提示されるときにサンプルに対するリアルタイムの音量測定値を絶え間なく収集する。そのような例では、例示的な音量調整器202は、音声信号のセグメント(例えば、3秒セグメント)の間の平均音量レベルを生成し、そのセグメントの間の平均音量レベルが音量しきい値を満足するかどうかを決定する。いくつかの例では、例示的な音量調整器202は、所望の音量レベル及び音量しきい値で事前に構成される。例示的な音量調整器202は、そのセグメントがしきい値を満足する平均音量レベルを有さないことに応答して、提示されることになる全体的な音声信号のゲインを調整し得る。いくつかの例では、例示的な音量調整器202は、音声サンプル全体にわたるセグメントについての平均音量レベルに対応するメタデータ(例えば、現行音量推測データ)を利用して、音声信号の1つ又は複数の異なるセグメントにおいて実装され得る1つ又は複数のゲイン値を決定し得る。いくつかの例では、音量調整器202は、音声信号内のメディアに関するメディア識別子(例えば、フィンガープリント)を絶え間なくモニタして、伝送されているメディアにおける変化が発生したかどうかを決定し得る。
【0032】
[0032]
図2の図示された例の例示的なデータストア204は、音声信号及びメディアユニット106によって利用される他のデータのための記憶位置である。データストア204は、揮発性メモリ(例えば、シンクロナスダイミックランダムアクセスメモリ(SDRAM)、ダイミックランダムアクセスメモリ(DRAM)、RAMBUSダイミックランダムアクセスメモリ(RDRAM)など)、及び/又は不揮発性メモリ(例えば、フラッシュメモリ)で実装され得る。データストア204は、追加的又は代替的に、DDR、DDR2、DDR3、モバイルDDR(mDDR)などの、1つ又は複数のダブルデータレート(DDR)メモリで実装され得る。データストア204は、追加的又は代替的に、ハードディスクドライブ(複数可)、コンパクトディスクドライブ(複数可)、デジタルバーサタイルディスク(複数可)などの、1つ又は複数の大容量記憶デバイスで実装され得る。図示された例では、データストア204は、単一のデータベースとして図示されるが、データストア204は、任意の数及び/又はタイプ(複数可)のデータベースで実装されてもよい。さらには、データストア660に記憶されるデータは、例えば、バイナリデータ、コンマ区切りデータ、タブ区切りデータ、構造化照会言語(SQL)構造など、任意のデータ形式のものであってもよい。いくつかの例では、例示的なデータストア204及び例示的なメタデータデータベース206は、同じ記憶位置であってもよい。いくつかの例では、データストア204は、仮想記憶位置(例えば、ネットワークを介してアクセス可能なサーバ)であってもよい。
【0033】
[0033]例示的なメタデータデータベース206は、メディアに対応するメタデータのための記憶位置である。例示的なメタデータデータベース206は、例示的な音声信号識別器212によって音声信号内で識別されたメディアに関するメタデータを例示的なメタデータアクセッサ214に提供する。いくつかの例では、メタデータデータベース206に記憶されるメタデータは、メディア単位(例えば、トラック、曲など)の平均音量情報、及び/又はメディア単位のセグメント(例えば、曲全体にわたって3秒間隔)の平均音量情報などの情報を含む。例示的なメタデータデータベース206は、揮発性メモリ(例えば、シンクロナスダイミックランダムアクセスメモリ(SDRAM)、ダイミックランダムアクセスメモリ(DRAM)、RAMBUSダイミックランダムアクセスメモリ(RDRAM)など)、及び/又は不揮発性メモリ(例えば、フラッシュメモリ)で実装され得る。メタデータデータベース206、追加的又は代替的に、DDR、DDR2、DDR3、モバイルDDR(mDDR)などの、1つ又は複数のダブルデータレート(DDR)メモリで実装され得る。メタデータデータベース206は、追加的又は代替的に、ハードディスクドライブ(複数可)、コンパクトディスクドライブ(複数可)、デジタルバーサタイルディスク(複数可)などの、1つ又は複数の大容量記憶デバイスで実装され得る。図示された例では、メタデータデータベース206は、単一のデータベースとして図示されるが、メタデータデータベース206は、任意の数及び/又はタイプ(複数可)のデータベースで実装されてもよい。さらには、メタデータデータベース206に記憶されるデータは、例えば、バイナリデータ、コンマ区切りデータ、タブ区切りデータ、構造化照会言語(SQL)構造など、任意のデータ形式のものであってもよい。
【0034】
[0034]
図2の図示された例の例示的なダイナミックレンジ圧縮器208は、識別されない音声信号、及び/又は所望の音量要件を満たすために対応するメタデータを利用することができない音声信号のダイナミックレンジを圧縮及び/又は拡張することができる。いくつかの例では、ダイナミックレンジ圧縮器208は、信号が所望のレベルに関連した音量しきい値を満足する平均音量レベルを有するように、音声ダイナミックレンジ圧縮及び/又は音声ダイナミックレンジ拡張を実施する。いくつかの例では、ダイナミックレンジ圧縮器は、バックグラウンドで連続的に実行し、音量調整器216がメタデータの欠如、又は識別可能なメディアの欠如により音声信号の音量を動的に調整することができないときにいつも起動される。例示的なダイナミックレンジ圧縮器208は、音声信号が所望の音量値に関連した音量しきい値を満足しない音量振幅を有するとき、信号が瞬間的に圧縮又は拡張されるように、圧縮を実施する。そのような例では、音声信号の局所的なダイナミックレンジは、圧縮又は拡張に起因して変更され得る。いくつかの例では、例示的なダイナミックレンジ圧縮器208は、音声信号、又は音声信号の一部分を、その音声信号、又は音声信号の一部分が圧縮された後に、リアルタイム音声モニタ218に転送する。
【0035】
[0035]
図2の図示された例の例示的な音声信号アクセッサ210は、処理のために音声信号にアクセスする。いくつかの例では、例示的な音声信号アクセッサ210は、
図1の図示された例のメディアデバイス102、104から信号を受信する。いくつかの例では、音声信号アクセッサ210は、処理の前に入来音声信号の一時的なバッファとして作用し得るデータストア204から音声信号を取得する。いくつかの例では、音声信号アクセッサ210は、音声信号が最初にアクセスされる時間と音声信号が出力される時間との間の遅延を結果としてもたらすバッファ(例えば、1秒バッファ)を実施して、動的音量調整器202に分析及び音量調整のための時間を提供する。バッファ期間中、音声信号は、音声信号識別器212によって識別され得、メタデータは、メタデータアクセッサ214によって、音声信号について取得され得、音量レベルは、(例えば、メタデータから、音量設定履歴からなどの)参照音声レベルと比較され得、音声信号の部分の音量レベルが調整され得、及び/又は音声信号の全体の音量レベルが調整され得る。任意の分析及び/又は音量調整ステップは、音量一貫性、ユーザ体験、及び/又は音量レベル安全性を向上させるためにバッファ期間中に発生し得る。例示的な音声信号アクセッサ210は、任意のソースからの、及び任意の形態にある音声信号を受信し得る。図示された例の音声信号アクセッサ210は、リアルタイム音声モニタ218、音声信号識別器212、及び/又はメディアユニット106の任意の他の構成要素に音声信号を通信する。
【0036】
[0036]
図2の図示された例の例示的な音声信号識別器212は、例示的な音声信号アクセッサ210によってアクセスされる音声信号に対応するメディアを識別する。いくつかの例では、音声信号識別器212は、音声信号に埋め込まれたメディア識別子(例えば、フィンガープリント)の、既知又は参照の音声シグネチャとの比較を実施して、音声信号のメディアを決定する。例示的な音声信号識別器212が、識別を実施するためにメディア内のシグネチャを発見しない場合、例示的な音声信号識別器212は、音声信号の動的圧縮を実施するようにダイナミックレンジ圧縮器208に指示する。同様に、例示的な音声信号識別器212がシグネチャを発見するが、参照との一致に基づきメディアを決定することができない場合、例示的な音声信号識別器212は、音声信号の動的圧縮を実施するようにダイナミックレンジ圧縮器208に指示する。いくつかの例では、例示的な音声信号識別器212は、マッチング参照シグネチャを発見することができる。そのような例では、音声信号識別器212は、メディアに対応するメタデータにアクセスするために例示的なメタデータアクセッサ214に識別情報を引き渡し得る。いくつかの例では、音声信号識別器212は、マッチング参照シグネチャを発見するために(例えば、中核的施設における)外部データベースと対話し得る。いくつかの例では、音声信号識別器212は、マッチング参照シグネチャを発見するために内部データベース(例えば、データストア204、及び/又はメタデータデータベース206)と対話し得る。いくつかの例では、音声信号識別器212は、透かしを利用して音声信号を識別する。いくつかの例では、音声信号識別器212は、他の識別子(例えば、ID3タグに埋め込まれたカタログ識別子、ISRC識別子など)を利用して音声信号を識別する。音声信号識別器212は、任意の技術を利用して音声信号を識別し得る。
【0037】
[0037]
図2の図示された例の例示的なメタデータアクセッサ214は、音声信号識別器212によって識別されるメディアに対応するメタデータにアクセスすることができる。いくつかの例では、メタデータアクセッサ214は、メディア単位(例えば、トラック)の平均音量、及びメディア単位(例えば、トラック)全体にわたる現行音量レベルに関する情報を抽出する。いくつかの例では、メタデータは、メタデータデータベース206から取得され得る。いくつかの例では、メタデータは、外部位置(例えば、中核的施設における記憶位置、ネットワークを介してアクセス可能な記憶位置など)から取得され得る。いくつかの例では、利用可能なメタデータは、動的音量調整器202のために使用可能なデータを提供するためにメタデータアクセッサ214によって処理され得る。いくつかの例では、音量メトリックは、既存の技術及び規格(例えば、本明細書内で参照によりここに組み込まれるITU-R規格BS.1770-4に提示されるような音声プログラマラウドネスを測定するためのアルゴリズム)を使用して処理され得る。例えば、メタデータは、全時間セグメントにおける音量情報を含み得、メタデータアクセッサ214は、時間スパン全体にわたる平均音量を決定し得る。いくつかの例では、メタデータアクセッサ214は、動的音量調整を実施するために有用なデータに到達するのに必要な任意の計算及び変換を実施し得る。いくつかの例では、メタデータアクセッサ214によってアクセスされるメタデータは、メディアの平均音量と所望の音量との差を表す値を含み得、これは、その後、音声信号に平均ゲインを適用するために使用され得る。
【0038】
[0038]
図2の図示された例の例示的な音量調整器216は、音声信号の音量レベルを調整する。いくつかの例では、例示的な音量調整器216は、音声信号の音量を既知の音量値(例えば、メタデータ内に示されるような)から所望の音量値(例えば、事前に構成された値)へ変換する単一の平均ゲイン値を決定する。そのような例では、例示的な音量調整器216は、ゲイン値を音声信号全体に適用して音声信号を変換する。いくつかの例では、例示的な音量調整器216は、追加的又は代替的に、リアルタイム音声モニタ218からフィードバックされてきた出力レベル(例えば、音量レベル)、及び音声信号の指定のセグメント(例えば、1つのサンプル又は複数のサンプル)についての平均音量レベルが所望の音量レベルに関連した音量しきい値を満足しない(例えば、音量目標を満足しない)ことに応答して、出力されている音声信号にリアルタイムでゲイン値を適用し得る。いくつかの例では、例示的な音量調整器216は、メディアのメタデータによって示される平均音量レベルに基づき、音声信号全体にグローバルゲイン値を適用し得る。いくつかの例では、例示的な音量調整器216は、メタデータ内で示される大きい音量変化に基づき、及び/又はしきい値が満足されていない(例えば、目標出力レベルが達成されていない)ことを示す、例示的なリアルタイム音声モニタ218によって収集されるリアルタイムデータに基づき、音声信号の他のセグメントとは著しく異なる(例えば、より低い又はより高い)音量を有する音声信号の領域にローカルゲイン値を適用し得る。いくつかの例では、メタデータアクセッサ214によって取得されるメタデータは、所望の音量レベルを達成するように音声信号に適用するための適切なゲインを直接示すデータを含む。いくつかの例では、例示的な音量調整器216は、メタデータアクセッサ214によってアクセスされるメタデータに含まれる連続した音量ストリームを使用することによって、将来を考慮した調整能力を有し得る。いくつかの例では、例示的な音量調整器216は、音声信号のダイナミックレンジにおける変化が発生する前にこれらの変化を捕らえるように音量に対する調整を行うために、例示的なリアルタイム音声モニタ218及びメタデータアクセッサ214と連携して機能し得る。例えば、メタデータアクセッサ214によってアクセスされるメタデータに含まれる連続的な音量ストリームは、大きい音量変化を示し得、これは、音量調整器216が、大きい音量事象の発生前に、ゆっくりと進む音量変化を適用することによって補正することができるものである。したがって、メタデータに示される音量変化の前に、例示的な音量調整器216は、音声信号に対するゲイン値を漸進的に調整し、結果としてメディアの音量を調整し得る。
【0039】
[0039]加えて、リアルタイム音声モニタ218は、音量しきい値が満足されていない(例えば、目標音量レベルが達成されていない)ことを示し、リアルタイムで適用されるべき追加の補正因子を音量調整器216に供給し得る。いくつかの例では、音声のダイナミックレンジにおける緩徐かつ僅かなシフトは、例示的なダイナミックレンジ圧縮器208によって適用される圧縮とは対照的に、補正因子の適用から生じ得る。
【0040】
[0040]いくつかの例では、音量調整器216は、新規メディアが検出される時、及び/又は新規ソースが検出される時に単一の音量調整を行う。そのような手法は、単一の音量調整がソース間及びメディア間で正規化するために行われ得、次いでこの所望の音量レベルが、新規ソース又は新規メディアが検出されるまで維持され得る(以て目立った音量調整を回避する)ことから、連続的な音量調整と比較していくつかの例においては好ましい場合がある。いくつかのそのような例では、音量調整器216は、異なるメディア間の正規化を可能にするために、メタデータ内に示されるようなメディアの平均音量に基づき第1のゲインを、及び、ソース間の音量の正規化を可能にするために、入力音声信号とメタデータ内に表される瞬間的な音量測定値との比較に基づき第2のゲインを算出(computing, コンピューティング)する。音量調整器216は、入力音声信号の未変更の音量を利用して、この初期の未変更の音量をメタデータアクセッサ214からのメタデータ内の瞬間的な音量と比較することによって第2のゲイン値を決定する。次いで、音量調整器216は、第1のゲイン値及び第2のゲイン値の両方に基づき適用ゲイン値を算出し、この適用ゲイン値に基づき入力音声信号の音量を調整する。いくつかのそのような例では、第1及び第2のゲイン値は、両方とも、ゲイン値が適用される前の音量測定値に基づく(例えば、未変更の入力音声信号に基づく)。
【0041】
[0041]いくつかの例では、音量調整器216は、音声信号の部分のみの音量レベルを調整する。例えば、音量調整器216は、特定のチャネルの音量レベルを調整し得る(例えば、5.1mixでのセンターチャネルにおける音量を増大して、映画における会話の認識性を向上する)。
【0042】
[0042]いくつかの例では、音量調整器216によって構成される音量レベルは、データ履歴として記憶される。いくつかの例では、音量レベル履歴は、初期音量レベルを設定するために、ソースが変化するときに(例えば、ラジオから補助入力への移行、CDからラジオ入力への移行など)利用される。いくつかの例では、リアルタイム音声モニタ218は、現在の音量レベルをソース及び/又はユーザと関連付けられた音量レベル履歴と比較して、音量調整器216に、それに応じて音量レベルを調整するように(例えば、ユーザの選好履歴に適うように音量レベルを低減する、セーフリスニング音量範囲内に留まるように音量レベルを低減するなど)させる。
【0043】
[0043]
図2の図示された例の例示的なリアルタイム音声モニタ218は、リアルタイム音量測定データを収集し、音声信号のサンプルについての平均音量レベルを生成し、音声信号のセグメントが、所望の音量レベルに関連した音量しきい値(例えば、目標音量)を満足しない平均音量値を有するかどうかを決定する。例示的なリアルタイム音声モニタ218は、音声信号アクセッサ210によってアクセスされる入力音声信号、並びに、音声信号が音量調整器216によって変更された後、及び/又は音声信号がダイナミックレンジ圧縮器208によって変更された後の、メディアユニット106の音声出力をモニタする。いくつかの例では、リアルタイム音声モニタ218は、処理された音声信号の出力の前に、処理された音声信号から直接音量データを収集し得る。いくつかの例では、リアルタイム音声モニタ218はまた、別個の測定デバイス又は機序から音量データ(例えば、メタデータアクセッサ214によってアクセスされるメタデータから音量ストリーム)を収集し得る。例示的なリアルタイム音声モニタ218は、音声信号のセグメントが所望の音量レベルに関連した音量しきい値(例えば、目標音量)を満足しないという決定に応答して、音量調整器216にデータを提供し得る。次いで例示的な音量調整器216は、続いて、音声信号を補正するためにゲイン値をローカル又はグローバルに(例えば、音声信号全体にわたって)適用し得、その結果として、音声信号は、次いで、所望の音量レベルに関連した音量しきい値を満足する。いくつかの例では、例示的なリアルタイム音声モニタ218は、リアルタイム音声レベルが計算されるサンプル間隔範囲(例えば、750ミリ秒~3秒)で事前に構成され得る。いくつかの例では、計算された出力音量レベルを、サンプリング範囲(例えば、750ミリ秒~3秒)内のメタデータアクセッサ214によってアクセスされるメタデータからのデータのストリームと比較して、音声信号の平均音量レベル及びこのレベルと目標音量レベルとの差を計算する。いくつかの例では、サンプルサイズ、サンプル頻度、及び他のパラメータ(例えば、しきい値)は、構成可能であってもよい。
【0044】
[0044]ソース間を正規化するためにゲイン値が計算されるいくつかの例では、リアルタイム音声モニタ218は、未変更の入力音声信号の初期音量を決定し、ゲイン値が計算されるように、この音量を音量調整器216に通信する。いくつかのそのような例では、リアルタイム音声モニタ218は、ソース変化が発生したかどうか、又はメディアにおける変化が発生したかどうかを決定し得、以て音量調整器216が、新規ゲイン値を計算して、異なるメディア及び/又は異なるソースを正規化することを可能にする。
【0045】
[0045]いくつかの例では、リアルタイム音声モニタ218は、現在の音量レベルを安全な音量レベル範囲及び/又は安全な音量しきい値と比較する。例えば、リアルタイム音声モニタ218は、音量レベルが安全なリスニング音量しきい値を超えるときに音量低減をもたらすように構成され得る。
【0046】
[0046]
図2の図示された例の例示的な音声信号出力器220は、提示のための音声信号を出力する。いくつかの例では、音声信号出力器220は、
図1の出力デバイス110の要件を満たすように音声信号に対して変換を実施する。いくつかの例では、音声信号がダイナミックレンジ圧縮器208によって圧縮された後、それは、動的音量調整器202の音声信号出力器220に伝送される。いくつかの例では、例示的な音声信号出力器220は、音声信号を増幅器又は出力デバイスに伝送する前に、音声信号が音量要件を満たすという最終確認を可能にするために、リアルタイム音声モニタ218と直接通信している。
【0047】
[0047]
図1のメディアユニット106を実装する例示的な様式は、
図2に図示されるが、
図2に図示される要素、プロセス、及び/又はデバイスの1つ又は複数は、組み合わされても、分割されても、再配置されても、省略されても、削除されても、及び/又は任意の他の方式で実装されてもよい。さらに、例示的な動的音量調整器202、例示的なデータストア204、例示的なメタデータデータベース206、例示的なダイナミックレンジ圧縮器208、例示的な音声信号アクセッサ210、例示的な音声信号識別器212、例示的なメタデータアクセッサ214、例示的な音量調整器216、例示的なリアルタイム音声モニタ218、例示的な音声信号出力器220、及び/又は、より一般的には、
図1の例示的なメディアユニット106は、ハードウェア、ソフトウェア、ファームウェア、並びに/又は、ハードウェア、ソフトウェア、及び/若しくはファームウェアの任意の組み合わせで実装され得る。したがって、例えば、例示的な動的音量調整器202、例示的なデータストア204、例示的なメタデータデータベース206、例示的なダイナミックレンジ圧縮器208、例示的な音声信号アクセッサ210、例示的な音声信号識別器212、例示的なメタデータアクセッサ214、例示的な音量調整器216、例示的なリアルタイム音声モニタ218、例示的な音声信号出力器220、及び/又は、より一般的には、例示的なメディアユニット106のいずれかは、1つ又は複数のアナログ又はデジタル回路(複数可)、論理回路、プログラマブルプロセッサ(複数可)、特定用途向け集積回路(複数可)(ASIC(複数可))、プログラマブル論理デバイス(複数可)(PLD(複数可))、及び/又はフィールドプログラマブル論理デバイス(複数可)(FPLD(複数可))で実装されてもよい。純粋なソフトウェア及び/又はファームウェア実装形態を網羅するための本特許の装置又はシステム請求項のいずれかを読むとき、例示的な動的音量調整器202、例示的なデータストア204、例示的なメタデータデータベース206、例示的なダイナミックレンジ圧縮器208、例示的な音声信号アクセッサ210、例示的な音声信号識別器212、例示的なメタデータアクセッサ214、例示的な音量調整器216、例示的なリアルタイム音声モニタ218、例示的な音声信号出力器220、及び/又は、より一般的には、例示的なメディアユニット106のうちの少なくとも1つは、ソフトウェア及び/又はファームウェアを含む、メモリ、デジタルバーサタイルディスク(DVD)、コンパクトディスク(CD)、ブルーレイディスクなどの持続性の(non-transitory、ノントランジトリ)コンピュータ可読記憶デバイス又は記憶ディスクを含むことがここに明示的に定義される。さらに依然として、
図1の例示的なメディアユニット106は、
図2に図示されるものに加えて、及びその代わりに、1つ又は複数の要素、プロセス、及び/若しくはデバイスを含み得、並びに/又は、図示された要素、プロセス、及びデバイスのいずれか若しくはすべてのうちの2つ以上を含み得る。
【0048】
[0048]
図1及び
図2のメディアユニット106を実装するための例示的なマシン可読命令を表すフローチャートは、
図3~
図5に示される。この例では、マシン可読命令は、
図6に関連して以下に論じられる例示的なプロセッサプラットフォーム600に示されるプロセッサ612などのプロセッサによる実行のためのプログラムを含む。プログラムは、プロセッサ612と関連付けられたCD-ROM、フロッピーディスク、ハードドライブ、DVD、ブルーレイディスク、又はメモリなどの持続性コンピュータ可読記憶媒体に記憶されるソフトウェアにおいて具現化され得るが、プログラム全体及び/又はその部分は、代替的に、プロセッサ612以外のデバイスによって実行され得る、及び/又はファームウェア若しくは専用ハードウェアにおいて具現化され得る。さらに、例示的なプログラムは、
図3~
図5に図示されるフローチャートを参照して説明されるが、例示的なメディアユニット106を実装するための多くの他の方法が、代替的に使用され得る。例えば、ブロックの実行の順序は変えられてもよく、及び/又は説明されるブロックのいくつかは、変えられても、削除されても、又は省略されてもよい。追加的又は代替的に、ブロックのいずれか又はすべては、ソフトウェア又はファームウェアを実行することなく対応する動作を実施するように構造化される1つ又は複数のハードウェア回路(例えば、個別及び/又は集積アナログ及び/又はデジタル回路、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、比較器、演算増幅器(op-amp)、論理回路など)で実装されてもよい。
【0049】
[0049]上で述べたように、
図3~
図5の例示的なプロセスは、情報が任意の持続時間の間(例えば、長期間にわたって、永続的に、短い瞬間の間、一時的なバッファリングの間、及び/又は情報のキャッシュの間)記憶される、ハードディスクドライブ、フラッシュメモリ、リードオンリメモリ、CD、DVD、キャッシュ、ランダムアクセスメモリ、及び/又は任意の他の記憶デバイス若しくは記憶ディスクなどの持続性のコンピュータ及び/又はマシン可読媒体に記憶される符号化命令(例えば、コンピュータ及び/又はマシン可読命令)を使用して実施され得る。本明細書で使用される場合、持続性コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び/又は記憶ディスクを含むこと、及び伝播信号を除外すること、及び伝送媒体を除外することが明示的に定義される。「含む(including)」及び「備える(comprising)」(並びにそれらのすべての形態及び時制)は、オープンエンドの用語であるように本明細書では使用される。したがって、請求項が、「含む(include)」又は「備える(comprise)」の任意の形態(例えば、備える(comprises)、含む(includes)、備えること(comprising)、含むこと(including)など)に続いて何かを列挙するときにはいつでも、追加の要素、用語などが対応する請求項の範囲から外れることなく存在し得るということを理解されたい。本明細書で使用される場合、「少なくとも」という句は、請求項のプリアンブルにおいて移行用語として使用される場合、用語「備える(comprising)」及び「含む(including)」がオープンエンドであるのと同じ様式でオープンエンドである。
【0050】
[0050]
図1及び
図2のメディアユニット106を実装するための、及び音声信号の音量調整を実施するために実行され得る、例示的なマシン可読命令は、
図3に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令300は、例示的な動的音量調整器202が音声信号を受信すること(ブロック302)から始まる。例えば、音声信号アクセッサ210は、任意のメディアソースから音声信号を受信し得るか、任意の場所から音声信号にアクセスし得る。
【0051】
[0051]ブロック304において、例示的な動的音量調整器202は、音声信号のメディアが識別可能であるかどうかを決定する。例えば、音声信号識別器212が、音声信号のメディアが識別可能であるかどうかを決定し得る。いくつかの例では、音声信号識別器212は、音声信号に埋め込まれたメディア識別子(例えば、透かし、ID3タグ、ISRC識別子など)を利用して参照識別子と比較する。いくつかの例では、音声信号識別器212は、メディアユニット106上に位置するか、又は異なる場所(例えば、中核的施設)に位置する参照データベースと対話し得る。そのような例では、音声信号識別器212は、参照データベースに識別子を提供し得、この参照データベースにおいてマッチング識別子の検索が実施され得る。いくつかの例では、音声信号識別器212は、音声信号から導出されるフィンガープリントを利用して、音声信号内に表されるメディアが識別可能であるかどうかを決定する。音声信号識別器212は、任意の技術を利用して、音声信号内に表されるメディアが識別可能であるかどうかを決定し得る。音声信号のメディアが識別可能であることに応答して、処理はブロック308へ移行する。逆に、音声信号のメディアが識別可能ではないことに応答して、処理はブロック306へ移行する。
【0052】
[0052]ブロック306において、例示的なメディアユニット106は、音声信号のレンジを動的に圧縮して、所望の音量レベルに関連したしきい値を満足するように平均音量レベルを変更する。いくつかの例では、ダイナミックレンジ圧縮器208は、音声信号のメディアが識別可能ではないことに応答して、音声信号を動的に圧縮する。いくつかの例では、ダイナミックレンジ圧縮器208は、音声信号が音量しきい値を満足しない領域において圧縮されるように、音声を増分的に圧縮する。いくつかの例では、ダイナミックレンジ圧縮器208は、音声信号の平均音量が所望の音量に関連したしきい値を満足するように、音声信号全体を圧縮する。
【0053】
[0053]ブロック308において、例示的な動的音量調整器202は、平均全体音量及び指定の間隔での現行音量を含む、メディアのメタデータを獲得する。例えば、例示的なメタデータアクセッサ214は、音声信号識別器212によって識別されるメディアに対応するメタデータをメタデータデータベース206から取得し得る。いくつかの例では、例示的なメタデータアクセッサ214は、メディアの平均全体音量(例えば、トラックの平均音量)、並びに指定の間隔(例えば、平均音量を計算するためのセグメント)での現行音量(例えば、メディア全体にわたる複数の音量値)を示すデータを受信する。いくつかの例では、メタデータアクセッサ214は、メディアの平均音量と所望の音量との差を表す値を含むメタデータにアクセスし得る。そのような例では、メタデータは、所望の音量を達成するように音声信号に適用されるべきゲイン値をさらに含み得る。いくつかの例では、メタデータアクセッサ214は、獲得されるメタデータに基づきこれらの値(例えば、平均音量、現行音量、ゲイン値など)のいずれかを計算し得る。いくつかの例では、メタデータアクセッサ214は、メディアのセグメントに対応する平均音量の平均に基づきメディアの平均音量を計算し得る。例えば、メタデータアクセッサ214は、メディア全体にわたる指定の増分での平均音量データに対応するメタデータにアクセスし得る。そのような例では、メタデータアクセッサ214は、次いで、トラックのすべてのセグメントの平均値を平均することによってメディア(例えば、トラック)の平均音量を計算し得る。
【0054】
[0054]ブロック310において、例示的な動的音量調整器202は、メタデータに基づき平均ゲインを音声信号に適用して、所望の音量レベルに関連したしきい値を満足するように平均音量を調整する。いくつかの例では、例示的な音量調整器216は、平均ゲインを音声信号に適用して、所望の音量レベルに関連したしきい値を満足するように音声信号の平均音量を調整する。例えば、音量調整器216は、所望の音量レベル(例えば、マイナス21デシベルLoudness,K-weighted,relative to full scale)、及び一部又はすべての音量平均が満足しなければならない指定のしきい値で構成され得る。例えば、しきい値は、所望の音量レベルからの偏差又は音量レベルの許容範囲であり得る。いくつかの例では、音量調整器216は、メタデータアクセッサ214によってアクセスされるメタデータから直接平均ゲイン値にアクセスする。いくつかの例では、音量調整器216は、メタデータアクセッサ214によってアクセスされるメタデータに基づき平均ゲイン値を計算する。いくつかの例では、音量調整器216は、平均ゲインを音声信号全体に適用する。いくつかの例では、音量調整器216は、指定の間隔での現行音量に関するメタデータを利用して、異なるゲイン値をメディアの異なるセグメントに適用する。例示的な音量調整器216は、メディアのダイナミクス全体に影響を与えることなく音量しきい値を満足するように音量を調節する方式として、平均ゲイン値を適用する。
【0055】
[0055]ブロック312において、例示的なメディアユニット106は、音声信号を出力する。いくつかの例では、例示的な動的音量調整器202が音声信号を出力する。音声信号を出力するための詳細な命令は、
図4に提供される。
【0056】
[0056]
図1及び
図2のメディアユニット106を実装するための、及び音声信号を出力し、音声信号のリアルタイム音量調整を提供するために実行され得る、例示的なマシン可読命令は、
図4に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令400は、動的音量調整器202が提示されるべき音声信号のサンプルを出力することから始まる。例えば、音声信号出力器220は、増幅器又は出力デバイスに出力されるべき音声信号のサンプルを出力し得る。本明細書で使用される場合、音声信号のサンプルは、提示のための音声信号全体を出力することとは対照的に、音声信号のセグメントを指す。
【0057】
[0057]ブロック404において、例示的な動的音量調整器202は、音声サンプルが出力される際にリアルタイム音量測定データを収集する。例えば、リアルタイム音声モニタ218は、出力音声信号の音量に関するデータを収集する。いくつかの例では、データ収集は、音量測定値を収集する際のサンプルサイズ(例えば、3秒)、並びに音量測定データが収集される頻度を指すサンプル頻度(例えば、750ミリ秒ごと)を有し得る。いくつかの例では、リアルタイム音声モニタ218は、音声信号の実際の提示の前にデータを収集して、音声信号音量の最終補正を可能にする。他の例では、リアルタイム音声モニタ218は、音声信号が提示される際にデータを収集して、その後の提示のための音声信号の補正を可能にする。
【0058】
[0058]ブロック406において、例示的な動的音量調整器202は、再生された音声信号の指定の時間スパンにわたる平均音量レベルを生成する。いくつかの例では、例示的なリアルタイム音声モニタ218が、再生された音声信号の指定の時間スパンにわたる平均音量レベルを生成する。いくつかの例では、例示的なリアルタイム音声モニタ218は、出力音声サンプルに関する平均音量測定値を生成する。いくつかの例では、指定の時間スパンは、音声信号のサンプルの同じ持続時間を指す。他の例では、指定の時間スパンは、サンプルの持続時間とは異なってもよく、複数のサンプル(例えば、3秒の平均化時間スパンである一方、サンプルは1秒の長さ)を含み得る。
【0059】
[0059]ブロック408において、例示的な動的音量調整器202は、指定の時間スパンにわたる音量測定値が、メタデータ内に示されるような指定の時間スパンにわたる音量データに対応するかどうかを決定する。例えば、リアルタイム音声モニタ218は、生成された平均音量レベルを、音声信号によって表されるメディアに対応するメタデータと比較し得る。例示的なリアルタイム音声モニタ218は、指定の時間スパンにわたる音量測定値が、メタデータ内の音量データに対応するかどうかを、平均音量間の差を決定し、この差がマッチングしきい値を満足するかどうかを決定することによって、決定する。いくつかの例では、音声信号は、識別されない場合があり、またメタデータが比較のために利用可能ではない場合があり、結果として、音量測定値がメタデータ内に示されるいかなる音量データとも一致しないということをもたらす。指定の時間スパンにわたる音量測定値がメタデータ内に示される指定の時間スパンにわたる音量データに対応しないことに応答して、処理はブロック410へ移行する。逆に、指定の時間スパンにわたる音量測定値がメタデータ内に示される指定の時間スパンにわたる音量データに対応することに応答して、処理はブロック416へ移行する。いくつかの例では、例示的なリアルタイム音声モニタ218は、加えて、指定の時間スパンにわたる音量測定値を音声信号の来たるセグメントに対応するメタデータと比較して、音量変化が予期されるかどうかを決定し得る。そのような例では、例示的なリアルタイム音声モニタ218は、メタデータからのそのような予測情報を音量調整器216に提供して、音声信号の音量及び/又はダイナミックレンジの来たる変化を捕らえるように音量を徐々に調整し得る。
【0060】
[0060]ブロック410において、例示的な動的音量調整器202は、指定の時間スパンにわたる平均音量レベルが所望の音量レベルに関連した音量しきい値を満足するかどうかを決定する。例えば、リアルタイム音声モニタ218は、指定の時間スパンにわたる平均音量レベルが、所望の音量レベルに関連した音量しきい値(例えば、マイナス21デシベルLoudness,K-weighted,relative to full scale)を満足するかどうかを決定し得る。指定の時間スパンにわたる平均音量レベルが所望の音量レベルに関連した音量しきい値を満足することに応答して、処理はブロック414に移行する。逆に、指定の時間スパンにわたる平均音量が所望の音量レベルに関連した音量しきい値を満足しないことに応答して、処理はブロック410に移行する。
【0061】
[0061]ブロック412において、例示的な動的音量調整器202は、平均測定音量と所望の音量レベルとの差を決定する。例えば、リアルタイム音声モニタ218は、指定の時間スパンにわたる平均音量レベルから所望の音量レベルを減算して、2つの値の間の差を決定し得る。
【0062】
[0062]ブロック414において、例示的な動的音量調整器202は、この差に基づきゲイン値を適用して、音声信号を所望の音量レベルに調整する。例えば、音量調整器216は、平均測定音量と所望の音量レベルとの差に基づき音声信号に適用するためのゲイン値を計算して、音声信号を所望の音量レベルに調整し得る。いくつかの例では、音量調整器216は、余りの音声信号にゲイン値を適用し得る。いくつかの例では、音量調整器216は、音声信号が同じメディアに対応する限りゲイン値を適用し得る。いくつかの例では、音量調整器216は、音声信号内の異なるセグメントにおける音量レベルの差を捕らえるようにゲイン値をローカルに適用し得る。
【0063】
[0063]ブロック416において、例示的な動的音量調整器202は、認識可能なメディア提示又は認識不可能なメディア提示のいずれかに対応する現在の音声信号が、完全に出力されたかどうかを決定する。例えば、音声信号識別器212は、認識可能なメディア提示又は認識不可能なメディア提示データのいずれかに対応する現在の音声信号が完全に出力されたかどうかを、音声信号のメディア識別子の存在(又はその欠如)に基づき決定し得る。例えば、音声信号識別器212は、メディア識別子のために音声信号を絶え間なくモニタし得る。例示的な音声信号識別器212は、次いで、メディア識別子における変化、又はメディア識別子の存在における変化(例えば、メディア識別子の未発見からメディア識別子の発見へ)を、メディア提示又は認識不可能なメディア提示に対応する音声信号が完全に出力されたという指標として解釈し得る。例示的な音声信号識別器212は、新規の音声信号が存在するかどうかを確認するためにこの検証を実施し、これには、新規ゲイン値が利用可能なメタデータに基づき算出されることが必要であり得るか、又はメディアが識別不可能である場合にはダイナミックレンジ圧縮が実施されることが必要であり得る。認識可能なメディア提示又は認識不可能なメディア提示に対応する現在の音声信号が完全に出力されたことに応答して、処理は
図3の命令に戻り、完結する。逆に、認識可能なメディア提示又は認識不可能なメディア提示に対応する現在の音声信号が完全に出力されていないことに応答して、処理はブロック402へ移行する。
【0064】
[0064]
図1及び
図2のメディアユニット106を実装するための、並びにソース間及びメディア間の音量を正規化するように音量調整を実施するために実行され得る、例示的なマシン可読命令は、
図5に図示される。先の図面及び関連した説明を参照すると、例示的なマシン可読命令500は、例示的なメディアユニット106が音声信号にアクセスすること(ブロック502)から始まる。いくつかの例では、音声信号アクセッサ210は、入力音声信号にアクセスする。
【0065】
[0065]ブロック504において、例示的なメディアユニット106は、音声信号で伝達されたメディアが識別可能であるかどうかを決定する。いくつかの例では、音声信号識別器212が、音声信号によって伝達されたメディアが識別可能であるかどうかを決定する。音声信号識別器212は、任意の透かし、コード、及び/又は他の識別子が音声信号に埋め込まれているかどうかを決定し得る。いくつかの例では、音声信号識別器212は、音声信号に基づきシグネチャを決定し、このシグネチャが参照シグネチャと共に記憶位置に表されるかどうかを決定する。音声信号で伝達されたメディアが識別可能であることに応答して、処理はブロック508へ移行する。逆に、音声信号で伝達されたメディアが識別可能ではないことに応答して、処理はブロック506へ移行する。
【0066】
[0066]ブロック506において、例示的なメディアユニット106は、音量しきい値を満足するように音声信号のダイナミックレンジを圧縮又は拡張する。いくつかの例では、ダイナミックレンジ圧縮器208が、音量しきい値を満足するように音声信号のダイナミックレンジを圧縮又は拡張する。いくつかの例では、音量しきい値は、音声信号の音量が納まるべき範囲である。いくつかの例では、音量しきい値は、最大又は最小音量値である。
【0067】
[0067]ブロック508において、例示的なメディアユニット106は、音声信号で伝達されたメディアを識別する。いくつかの例では、音声信号識別器212は、透かし、コード、シグネチャ、フィンガープリント、及び/又は任意の他の識別技術を利用して、音声信号で伝達されたメディアを識別する。
【0068】
[0068]ブロック510において、例示的なメディアユニット106は、メディアの平均音量及びメディアの時変音量測定値を含むメタデータを獲得する。いくつかの例では、メタデータアクセッサ214が、メディアの平均音量及びメディアの時変音量測定値を含むメタデータを獲得する。メディアの平均音量は、メディアの特徴的な音量である。異なる曲は、例えば、異なる平均音量値を有し得る。平均音量値は、したがって、異なるメディア(例えば、異なる曲)間の音量レベルを正規化することを助けるために利用され得る。メディアの時変音量測定値は、特定の時間におけるメディアの瞬間的な音量測定値を含む。時変音量測定値は、したがって、入力音声信号の瞬間的な音量を、メタデータ内に表される期待値と比較するために利用され得、異なるソース間の音量レベルの正規化を可能にする。
【0069】
[0069]ブロック512において、例示的なメディアユニット106は、メディアの平均音量に基づき第1のゲイン値を算出して、異なるメディア間の音量を正規化する。いくつかの例では、音量調整器216が、メディアの平均音量に基づき第1のゲイン値を算出して、異なるメディア間の音量を正規化する。第1のゲイン値を算出するため、音量調整器216は、メタデータアクセッサ214からのメタデータ及びリアルタイム音声モニタ218によって測定される音量に基づき、第1のゲイン値を算出する。第1のゲイン値は、識別されたメディアの特定の音量を捕らえるゲインを表す。例えば、比較的静かな曲は、比較的より音の大きい曲よりも大きいポジティブゲインを有し得るが、これは両方の曲を音量しきい値範囲内にするためである。
【0070】
[0070]ブロック514において、例示的なメディアユニット106は、音声信号の音量と時変音量測定値との比較に基づき第2のゲイン値を算出して、ソース間を正規化する。いくつかの例では、例示的な音量調整器216が、音声信号の音量と時変音量測定値との比較に基づき第2のゲイン値を算出して、ソース間を正規化する。例えば、補助入力を介してメディアユニット106に接続されるメディアプレイヤは、CDとは異なるベースライン音量を有し得る。したがって、異なるソース間の音量を正規化するため、入力音量とメタデータの時変音量測定値との瞬間的な比較が実施されて、ソース固有の音量差をオフセットするためのゲインを決定する。第1のゲイン(メディアの平均音量に関するゲイン)の適用前の入力信号の音量レベルは、メタデータ内のメディアの時変測定値と比較される。いくつかの例では、時変音量測定値は、メタデータに含まれない。いくつかのそのような例では、第1のゲイン値が計算され適用され得る。逆に、いくつかの例では、平均音量測定値は、メタデータに含まれない。いくつかのそのような例では、第2のゲイン値が計算され適用され得る。
【0071】
[0071]ブロック516において、例示的なメディアユニット106は、第1のゲイン値及び第2のゲイン値に基づき、音声信号に適用するための適用ゲイン値を計算する。いくつかの例では、音量調整器216が、第1のゲイン値及び第2のゲイン値に基づき、音声信号に適用するための適用ゲイン値を計算する。いくつかの例では、適用ゲイン値は、第1のゲイン値のみ又は第2のゲイン値のみに基づき得る。
【0072】
[0072]ブロック518において、例示的なメディアユニット106は、適用ゲイン値を音声信号に適用する。いくつかの例では、音量調整器216が、適用ゲイン値を音声信号に適用する。
【0073】
[0073]ブロック520において、例示的なメディアユニット106は、メディアにおける変化が検出されたかどうかを決定する。いくつかの例では、音声信号識別器212が、メディアの異なる識別表示に基づき、又はメディアの識別表示の損失に基づき(例えば、透かし及び/又は他の識別子がもはや検出されない)、メディアにおける変化が検出されたかどうかを決定する。メディアにおける変化が検出されていることに応答して、処理はブロック508へ移行する。逆に、メディアにおける変化が検出されていないことに応答して、処理はブロック522へ移行する。
【0074】
[0074]ブロック522において、例示的なメディアユニット106は、ソースにおける変化が検出されたかどうかを決定する。いくつかの例では、音声信号アクセッサ210が、ソースにおける変化が検出されたかどうかを決定する。ソースにおける変化が検出されていることに応答して、処理はブロック514へ移行する。逆に、ソースにおける変化が検出されていないことに応答して、処理はブロック524へ移行する。
【0075】
[0075]ブロック524において、例示的なメディアユニット106は、モニタリングを継続するかどうかを決定する。モニタリングを継続することに応答して、処理はブロック520へ移行する。逆に、モニタリングを継続しないことに応答して、処理は終了する。
【0076】
[0076]
図6は、
図1及び
図2の例示的なメディアユニット106を実装するために
図3~
図5の方法を実施するための命令を実行することができる例示的なプロセッサプラットフォーム600のブロック図である。プロセッサプラットフォーム600は、例えば、サーバ、パーソナルコンピュータ、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(登録商標)などのタブレット)、パーソナルデジタルアシスタント(PDA)、インターネット家電、DVDプレイヤ、CDプレイヤ、デジタル映像レコーダ、ブルーレイプレイヤ、ゲーム機、パーソナルビデオレコーダ、セットトップボックス、又は任意の他のタイプのコンピューティングデバイスであり得る。
【0077】
[0077]図示された例のプロセッサプラットフォーム600は、プロセッサ612を含む。図示された例のプロセッサ612は、ハードウェアである。例えば、プロセッサ612は、任意の所望のファミリ又は製造業者からの1つ又は複数の集積回路、論理回路、マイクロプロセッサ、又はコントローラで実装され得る。ハードウェアプロセッサは、半導体ベース(例えば、シリコンベース)のデバイスであってもよい。この例では、プロセッサ612は、例示的な動的音量調整器202、例示的なデータストア204、例示的なメタデータデータベース206、例示的なダイナミックレンジ圧縮器208、例示的な音声信号アクセッサ210、例示的な音声信号識別器212、例示的なメタデータアクセッサ214、例示的な音量調整器216、例示的なリアルタイム音声モニタ218、例示的な音声信号出力器220、及び/又は、より一般的には、
図1の例示的なメディアユニット106を実装する。図示された例のプロセッサ612は、ローカルメモリ613(例えば、キャッシュ)を含む。図示された例のプロセッサ612は、バス618を介して、揮発性メモリ614及び不揮発性メモリ616を含むメインメモリと通信している。揮発性メモリ614は、シンクロナスダイミックランダムアクセスメモリ(SDRAM)、ダイミックランダムアクセスメモリ(DRAM)、RAMBUSダイミックランダムアクセスメモリ(RDRAM)、及び/又は任意の他のタイプのランダムアクセスメモリデバイスで実装され得る。不揮発性メモリ616は、フラッシュメモリ及び/又は任意の他の所望のタイプのメモリデバイスで実装され得る。メインメモリ614、616へのアクセスは、メモリコントローラによって制御される。
【0078】
[0078]図示された例のプロセッサプラットフォーム600は、インターフェース回路620も含む。インターフェース回路620は、イーサネット[登録商標]インターフェース、ユニバーサルシリアルバス(USB)、及び/又は周辺構成要素相互接続(PCI)Expressインターフェースなどの任意のタイプのインターフェース規格で実装され得る。
【0079】
[0079]図示された例では、1つ又は複数の入力デバイス622は、インターフェース回路620に接続される。入力デバイス(複数可)622は、ユーザがデータ及び/又はコマンドをプロセッサ612に入力することを可能にする。入力デバイス(複数可)は、例えば、音声センサ、マイク、カメラ(静止又は映像)、キーボード、ボタン、マウス、タッチスクリーン、トラックパッド、トラックボール、アイソポイント(isopoint)デバイス、及び/又は声認識システムで実装され得る。
【0080】
[0080]1つ又は複数の出力デバイス624もまた、図示された例のインターフェース回路620に接続される。出力デバイス624は、例えば、ディスプレイデバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶ディスプレイ、陰極線管ディスプレイ(CRT)、タッチスクリーン、触覚出力デバイス、プリンタ、及び/又はスピーカ)で実装され得る。図示された例のインターフェース回路620は、したがって、典型的には、グラフィックドライバカード、グラフィックドライバチップ、及び/又はグラフィックドライバプロセッサを含む。
【0081】
[0081]図示された例のインターフェース回路620はまた、ネットワーク626(例えば、イーサネット接続、デジタル加入者回線(DSL)、電話回線、同軸ケーブル、携帯電話システムなど)を介した外部マシン(例えば、任意の種類のコンピューティングデバイス)とのデータの交換を促進するために、トランスミッタ、レシーバ、トランシーバ、モデム、及び/又はネットワークインターフェースカードなどの通信デバイスを含む。
【0082】
[0082]図示された例のプロセッサプラットフォーム600はまた、ソフトウェア及び/又はデータを記憶するための1つ又は複数の大容量記憶デバイス628を含む。そのような大容量記憶デバイス628の例は、フロッピディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立した複数のディスクからなる冗長配列(RAID)システム、及びDVDドライブを含む。
【0083】
[0083]
図3~
図5の方法を実施するための符号化命令632は、大容量記憶デバイス628、揮発性メモリ614、不揮発性メモリ616、及び/又はCD若しくはDVDなどの取り外し可能な持続性コンピュータ可読記憶媒体に記憶され得る。
【0084】
[0084]先述から、メディアの元のダイナミクスを変更することなく、異なる初期音量特徴を有するメディアがほぼ同じ音量で再生され得るように、メディアの音量を調整する例示的な方法、装置、及び製品が開示されているということを理解されたい。音量均一化の従来の実装形態は、音量を絶え間なく調整し、その結果として音声信号に対して知覚可能な変化を引き起こすが、本明細書に開示される例は、メディアに関するメタデータに基づいた平均ゲイン値による調整を使用した音量均一化を可能にする。加えて、本明細書に開示される例は、音声信号と、適切な平均ゲインが最初に計算されたときの対応するメタデータメディアとの間に差がある場合にトラックの音量を調整するためのリアルタイムモニタリングの技術を説明する。そのような技術は、それらがユーザには感知できないこと、及びシームレスなメディア提示体験のために異なるソース又は同様のソースからの異なるメディアが実質的に同じ音量で再生されることを可能にすることから、従来の実装形態よりも有利である。
【0085】
[0085]音量を調整するための例示的な装置が開示される。例示的な装置は、音声信号内に表されるメディアを識別するための音声信号識別器、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスし、メタデータに基づきメディアの平均音量を決定するためのメタデータアクセッサを含む。例示的な装置は、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整するための音量調整器を含む。
【0086】
[0086]いくつかの例では、例示的な装置は、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタを含み、音量調整器は、差に基づいた第2のゲイン値に基づき音声信号の音量を調整するためのものである。
【0087】
[0087]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第2のゲイン値は、音声信号に適用されるその後の音量調整である。
【0088】
[0088]いくつかの例では、例示的な装置は、音声信号識別器が音声信号内に表されるメディアを識別することができないときに、音声信号を圧縮するためのダイナミックレンジ圧縮器を含む。
【0089】
[0089]いくつかの例では、例示的な装置は、音声信号をバッファするための音声信号アクセッサを含み、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。
【0090】
[0090]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。
【0091】
[0091]いくつかの例では、平均ゲイン値は、音声信号のソースタイプについての音量設定履歴に基づき決定される。
【0092】
[0092]例示的な持続性コンピュータ可読記憶媒体が本明細書に開示される。例示的な持続性コンピュータ可読記憶媒体は、命令を含み、該命令は、実行されると、プロセッサに少なくとも、音声信号内に表されるメディアを識別することと、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスすることと、メタデータに基づき、メディアの平均音量を決定することと、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整することとを行わせる。
【0093】
[0093]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、差に基づいた第2のゲイン値に基づき音声信号の音量を調整することとをさらに行わせる。
【0094】
[0094]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第2のゲイン値は、音声信号に適用されるその後の音量調整である。
【0095】
[0095]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、音声信号内に表されるメディアが識別されないとき、音声信号を圧縮することを行わせる。
【0096】
[0096]いくつかの例では、コンピュータ可読命令は、実行されると、プロセッサに、音声信号をバッファすることを行わせ、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。
【0097】
[0097]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。
【0098】
[0098]いくつかの例では、平均ゲイン値は、音声信号のソースタイプについての音量設定履歴に基づき決定される。
【0099】
[0099]本明細書に開示される例示的な方法は、音声信号内に表されるメディアを識別するステップと、音声信号内のメディアを識別することに応答してメディアと関連付けられたメタデータにアクセスするステップと、メタデータに基づき、メディアの平均音量を決定するステップと、メディアの平均音量に基づき決定される平均ゲイン値に基づき、音声信号の出力音量を調整するステップとを含む。
【0100】
[00100]いくつかの例では、本方法は、指定の時間スパンについて音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、差に基づいた第2のゲイン値に基づき音声信号の音量を調整するステップとを含む。
【0101】
[00101]いくつかの例では、平均ゲイン値は、音声信号に適用される初期音量調整であり、第2のゲイン値は、音声信号に適用されるその後の音量調整である。
【0102】
[00102]いくつかの例では、本方法は、音声信号内に表されるメディアが識別されないとき、音声信号を圧縮するステップをさらに含む。
【0103】
[00103]いくつかの例では、本方法は、音声信号をバッファするステップをさらに含み、バッファすることは、音声信号を出力することにおける遅延を引き起こして、メディアを識別し、メタデータにアクセスし、平均音量を決定するための時間を提供する。
【0104】
[00104]いくつかの例では、平均ゲイン値は、セーフリスニング音量範囲に基づき決定される。
【0105】
[00105]特定の例示的な方法、装置、及び製品が本明細書に開示されているが、本特許の対象の範囲はそれらに限定されない。むしろ、本特許は、本特許の特許請求の範囲内に公正に入るすべての方法、装置、及び製品を網羅する。
[発明の項目]
[項目1]
音声音量を調整するための装置であって、
音声信号内に表されるメディアを識別するための音声信号識別器と、
メタデータアクセッサであり、
前記音声信号内の前記メディアを識別することに応答して前記メディアと関連付けられたメタデータにアクセスし、
前記メタデータに基づき、前記メディアの平均音量を決定するためのメタデータアクセッサと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整するための音量調整器と
を備える、装置。
[項目2]
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するためのリアルタイム音声モニタをさらに含み、前記音量調整器が、前記差に基づいた第2のゲイン値に基づき前記音声信号の前記音量を調整するためのものである、項目1に記載の装置。
[項目3]
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第2のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目2に記載の装置。
[項目4]
前記音声信号識別器が前記音声信号内に表されるメディアを識別することができないときに、前記音声信号を圧縮するためのダイナミックレンジ圧縮器をさらに含む、項目1に記載の装置。
[項目5]
前記音声信号をバッファするための音声信号アクセッサをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目1に記載の装置。
[項目6]
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目1に記載の装置。
[項目7]
前記平均ゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、項目1に記載の装置。
[項目8]
コンピュータ可読命令を含む持続性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が、実行されると、プロセッサに少なくとも
音声信号内に表されるメディアを識別することと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスすることと、
前記メタデータに基づき、前記メディアの平均音量を決定することと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整することと、
を行わせる、持続性コンピュータ可読記憶媒体。
[項目9]
前記コンピュータ可読命令が、実行されると、前記プロセッサに
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定することと、
前記差に基づいた第2のゲイン値に基づき前記音声信号の前記音量を調整することと、
を行わせる、項目8に記載の持続性コンピュータ可読記憶媒体。
[項目10]
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第2のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目9に記載の持続性コンピュータ可読記憶媒体。
[項目11]
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号内に表されるメディアが識別されないときに、前記音声信号を圧縮することを行わせる、項目8に記載の持続性コンピュータ可読記憶媒体。
[項目12]
前記コンピュータ可読命令が、実行されると、前記プロセッサに、前記音声信号をバッファすることを行わせ、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目8に記載の持続性コンピュータ可読記憶媒体。
[項目13]
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目8に記載の持続性コンピュータ可読記憶媒体。
[項目14]
前記平均ゲイン値が、前記音声信号のソースタイプについての音量設定履歴に基づき決定される、項目8に記載の持続性コンピュータ可読記憶媒体。
[項目15]
音声信号内に表されるメディアを識別するステップと、
前記音声信号内の前記メディアを識別することに応答して、前記メディアと関連付けられたメタデータにアクセスするステップと、
前記メタデータに基づき、前記メディアの平均音量を決定するステップと、
前記メディアの前記平均音量に基づき決定される平均ゲイン値に基づき、前記音声信号の出力音量を調整するステップと
を含む方法。
[項目16]
指定の時間スパンについて前記音声信号のサンプルの平均測定音量と所望の音量レベルとの差を決定するステップと、
前記差に基づいた第2のゲイン値に基づき前記音声信号の前記音量を調整するステップと、をさらに含む、項目15に記載の方法。
[項目17]
前記平均ゲイン値が、前記音声信号に適用される初期音量調整であり、前記第2のゲイン値が、前記音声信号に適用されるその後の音量調整である、項目16に記載の方法。
[項目18]
前記音声信号内に表される前記メディアが識別されないときに、前記音声信号を圧縮するステップをさらに含む、項目15に記載の方法。
[項目19]
前記音声信号をバッファするステップをさらに含み、前記バッファすることが、前記音声信号を出力することにおける遅延を引き起こして、前記メディアを識別し、前記メタデータにアクセスし、前記平均音量を決定するための時間を提供する、項目15に記載の方法。
[項目20]
前記平均ゲイン値が、セーフリスニング音量範囲に基づき決定される、項目15に記載の方法。