IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ガウディ・オーディオ・ラボ・インコーポレイテッドの特許一覧

特表2023-551222オーディオ信号の正規化を行う方法及びそのための装置
<>
  • 特表-オーディオ信号の正規化を行う方法及びそのための装置 図1
  • 特表-オーディオ信号の正規化を行う方法及びそのための装置 図2
  • 特表-オーディオ信号の正規化を行う方法及びそのための装置 図3
  • 特表-オーディオ信号の正規化を行う方法及びそのための装置 図4
  • 特表-オーディオ信号の正規化を行う方法及びそのための装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-07
(54)【発明の名称】オーディオ信号の正規化を行う方法及びそのための装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20231130BHJP
   H03G 3/20 20060101ALI20231130BHJP
   H03G 9/02 20060101ALI20231130BHJP
   H03G 11/00 20060101ALI20231130BHJP
【FI】
H04R3/00 310
H03G3/20 Z
H03G9/02
H03G11/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023531070
(86)(22)【出願日】2021-11-24
(85)【翻訳文提出日】2023-05-23
(86)【国際出願番号】 KR2021017428
(87)【国際公開番号】W WO2022114787
(87)【国際公開日】2022-06-02
(31)【優先権主張番号】10-2020-0159371
(32)【優先日】2020-11-24
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2020-0159372
(32)【優先日】2020-11-24
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】518449353
【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ヒュンジュ・チュン
(72)【発明者】
【氏名】ヒュノ・オ
(72)【発明者】
【氏名】サンペ・チョン
(72)【発明者】
【氏名】ジョンフン・ソ
【テーマコード(参考)】
5D220
5J030
5J100
【Fターム(参考)】
5D220AA02
5D220AB01
5D220AB08
5J030AA02
5J030AB03
5J100JA00
(57)【要約】
ラウドネスの正規化(loudness normalization)を行う方法であって、オーディオ信号処理装置によって行われる方法は、オーディオ信号を受信する段階;前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信する段階;前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信する段階;一つ以上のプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得する段階;前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得する段階を含むことを特徴とする。
【特許請求の範囲】
【請求項1】
ラウドネスの正規化(loudness normalization)を行う方法であって、
オーディオ信号処理装置によって行われる方法は、
オーディオ信号を受信する段階;
前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信する段階;
前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信する段階;
一つ以上のオーディオプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得する段階であって、前記統合ラウドネスは、一つ以上のオーディオプロセシングに基づいて補正され、前記一つ以上のオーディオプロセシングは、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシング及びDRC(dynamic range control)のうち少なくともいずれか一つを含む、段階;
前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得する段階を含むことを特徴とする方法。
【請求項2】
前記統合ラウドネスの補正のための前記一つ以上のオーディオプロセシングが適用される順序を示す順序情報を受信する段階をさらに含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記統合ラウドネスは、前記順序情報に基づいて決定される順序によって前記一つ以上のオーディオプロセシングを適用して補正されることを特徴とする、請求項2に記載の方法。
【請求項4】
前記一つ以上のオーディオプロセシングがそれぞれ活性化されるか否かを示すビットフラグを受信する段階をさらに含み、
前記統合ラウドネスは、前記ビットフラグに基づいて活性化される前記一つ以上のオーディオプロセシングによって補正されることを特徴とする、請求項2に記載の方法。
【請求項5】
前記順序情報は、前記ビットフラグと同じフラグ値によって設定されることを特徴とする、請求項4に記載の方法。
【請求項6】
前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシングは、イコライザー(equalizer)、ユーザ機器特性と関連したプロセシング及びユーザの認知能力と関連したプロセシングのうち少なくともいずれか一つを含むことを特徴とする、請求項1に記載の方法。
【請求項7】
前記ユーザ機器特性は、前記ユーザ機器が出力可能な周波数帯域であり、
前記ユーザの認知能力は、前記ユーザの周波数帯域に対する敏感度(sensitivity)であることを特徴とする、請求項6に記載の方法。
【請求項8】
前記一つ以上のプロセシングのいずれか一つは、非線形(non-linear)的なプロセシングであることを特徴とする、請求項6に記載の方法。
【請求項9】
前記非線形的なプロセシングは、前記DRCであることを特徴とする、請求項8に記載の方法。
【請求項10】
前記オーディオ信号の正規化は、ユーザの周辺環境と関連したパラメータに基づいて行われ、
前記ユーザの周辺環境は、前記ユーザが位置している場所の騒音の大きさ及び前記騒音の周波数特性のうち少なくともいずれか一つであることを特徴とする、請求項1に記載の方法。
【請求項11】
前記ターゲットラウドネスは、前記ユーザの周辺環境と関連したパラメータに基づいて設定されることを特徴とする、請求項10に記載の方法。
【請求項12】
前記一つ以上のオーディオプロセシングは、少なくとも2個であることを特徴とする、請求項6に記載の方法。
【請求項13】
ラウドネスの正規化(loudness normalization)を行うオーディオ信号処理装置は、
オーディオ信号を受信する受信部;
前記受信部を機能的に制御するプロセッサを含み、
前記プロセッサは、
前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信し、
前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信し、
一つ以上のオーディオプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得し、
前記統合ラウドネスは、一つ以上のオーディオプロセシングに基づいて補正され、
前記一つ以上のオーディオプロセシングは、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシング及びDRC(dynamic range control)のうち少なくともいずれか一つを含み、
前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得する段階を含むことを特徴とするオーディオ信号処理装置。
【請求項14】
前記プロセッサは、
前記統合ラウドネスの補正のための前記一つ以上のオーディオプロセシングが適用される順序を示す順序情報を受信することを特徴とする、請求項13に記載のオーディオ信号処理装置。
【請求項15】
前記統合ラウドネスは、前記順序情報に基づいて決定される順序によって前記一つ以上のオーディオプロセシングを適用して補正されることを特徴とする、請求項14に記載のオーディオ信号処理装置。
【請求項16】
前記プロセッサは、前記一つ以上のオーディオプロセシングがそれぞれ活性化されるか否かを示すビットフラグを受信し、
前記統合ラウドネスは、前記ビットフラグに基づいて活性化される前記一つ以上のオーディオプロセシングによって補正されることを特徴とする、請求項14に記載のオーディオ信号処理装置。
【請求項17】
前記順序情報は、前記ビットフラグと同じフラグ値によって設定されることを特徴とする、請求項16に記載のオーディオ信号処理装置。
【請求項18】
前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシングは、
イコライザー(equalizer)、ユーザ機器特性と関連したプロセシング及びユーザの認知能力と関連したプロセシングのうち少なくともいずれか一つを含むことを特徴とする、請求項13に記載のオーディオ信号処理装置。
【請求項19】
前記ユーザ機器特性は、前記ユーザ機器が出力可能な周波数帯域であり、
前記ユーザの認知能力は、前記ユーザの周波数帯域に対する敏感度(sensitivity)であることを特徴とする、請求項18に記載のオーディオ信号処理装置。
【請求項20】
前記一つ以上のプロセシングのいずれか一つは、非線形(non-linear)的なプロセシングであることを特徴とする、請求項18に記載のオーディオ信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の正規化を行う方法及びそのための装置に関する。
【背景技術】
【0002】
ユーザにオーディオを提供する方法がアナログ方式からデジタル化しながら、より広い音量領域に対する表現が可能になった。また、オーディオ信号の音量は、オーディオ信号に対応するコンテンツにしたがって多様化しつつある傾向にある。オーディオコンテンツ制作過程において、オーディオコンテンツ別に意図するラウドネスがそれぞれ異なるように設定されることがあるためである。これにより、国際電気通信連合(International Telecommunication Union,ITU)、ヨーロッパ放送連合(European Broadcasting Union,EBU)のような国際標準団体ではオーディオのラウドネスに対する標準を発行した。しかしながら、国別にラウドネスを測定する方法及び基準が異なるため、国際標準団体によって発行された標準が適用し難いという問題点がある。
【0003】
コンテンツの制作者らは、相対的にラウドネスが大きくミキシングされたコンテンツを制作してユーザに提供しようとする。オーディオ信号の音響サイズが増加すると、当該オーディオ信号の音質が向上したかのように認知される心理的音響特性のためである。これにより、ラウドネス戦争(Loudness War)といわれる競争構図が形成されている。このため、コンテンツ内部的に又は複数のコンテンツ間のラウドネス差が発生してしまい、ユーザにとって、当該コンテンツが再生される機器のボリュームを反復して調整しなければならないという不便があり得る。このため、コンテンツ再生機器を使用するユーザの便宜のためにオーディオコンテンツのラウドネスを正規化する技術が要求される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、ラウドネスの正規化によって目標音量を一定に提供するための方法を提供することに目的がある。
【課題を解決するための手段】
【0005】
本明細書は、ラウドネスの正規化を行う方法を提供する。
【0006】
具体的には、ラウドネスの正規化(loudness normalization)を行う方法であって、オーディオ信号処理装置によって行われる方法は、オーディオ信号を受信する段階;前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信する段階;前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信する段階;一つ以上のオーディオプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得する段階であって、前記統合ラウドネスは、一つ以上のオーディオプロセシングに基づいて補正され、前記一つ以上のオーディオプロセシングは、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシング及びDRC(dynamic range control)のうち少なくともいずれか一つを含む、段階;前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得する段階を含むことを特徴とする。
【0007】
また、本明細書において、オーディオ信号処理装置によって行われる方法は、前記統合ラウドネスの補正のための前記一つ以上のオーディオプロセシングが適用される順序を示す順序情報を受信する段階をさらに含むことを特徴とする。
【0008】
また、本明細書において、オーディオ信号処理装置によって行われる方法は、前記一つ以上のオーディオプロセシングがそれぞれ活性化されるか否かを示すビットフラグを受信する段階をさらに含み、前記統合ラウドネスは、前記ビットフラグに基づいて活性化される前記一つ以上のオーディオプロセシングによって補正されることを特徴とする。
【0009】
ラウドネスの正規化(loudness normalization)を行うオーディオ信号処理装置は、オーディオ信号を受信する受信部;前記受信部を機能的に制御するプロセッサを含み、前記プロセッサは、前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信し、前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信し、一つ以上のオーディオプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得し、前記統合ラウドネスは、一つ以上のオーディオプロセシングに基づいて補正され、前記一つ以上のオーディオプロセシングは、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシング及びDRC(dynamic range control)のうち少なくともいずれか一つを含み、前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得する段階を含むことを特徴とする。
【0010】
また、本明細書において、前記プロセッサは、前記統合ラウドネスの補正のための前記一つ以上のオーディオプロセシングが適用される順序を示す順序情報を受信することを特徴とする。
【0011】
また、本明細書において、前記プロセッサは、前記一つ以上のオーディオプロセシングがそれぞれ活性化されるか否かを示すビットフラグを受信し、前記統合ラウドネスは、前記ビットフラグに基づいて活性化される前記一つ以上のオーディオプロセシングによって補正されることを特徴とする。
【0012】
また、本明細書において、前記統合ラウドネスは、前記順序情報に基づいて決定される順序によって前記一つ以上のオーディオプロセシングを適用して補正されることを特徴とする。
【0013】
また、本明細書において、前記順序情報は、前記ビットフラグと同じフラグ値によって設定されることを特徴とする。
【0014】
また、本明細書において、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシングは、イコライザー(equalizer)、ユーザ機器特性と関連したプロセシング及びユーザの認知能力と関連したプロセシングのうち少なくともいずれか一つを含むことを特徴とする。
【0015】
また、本明細書において、前記ユーザ機器特性は、前記ユーザ機器が出力可能な周波数帯域であり、前記ユーザの認知能力は、前記ユーザの周波数帯域に対する敏感度(sensitivity)であることを特徴とする。
【0016】
また、本明細書において、前記一つ以上のプロセシングのいずれか一つは、非線形(non-linear)的なプロセシングであることを特徴とする。
【0017】
また、本明細書において、前記非線形的なプロセシングは、前記DRCであることを特徴とする。
【0018】
また、本明細書において、前記オーディオ信号の正規化は、ユーザの周辺環境と関連したパラメータに基づいて行われ、前記ユーザの周辺環境は、前記ユーザが位置している場所の騒音の大きさ及び前記騒音の周波数特性のうち少なくともいずれか一つであることを特徴とする。
【0019】
また、本明細書において、前記ターゲットラウドネスは、前記ユーザの周辺環境と関連したパラメータに基づいて設定されることを特徴とする。
【0020】
また、本明細書において、前記一つ以上のオーディオプロセシングは、少なくとも2個であることを特徴とする。
【発明の効果】
【0021】
本発明は、ラウドネスの正規化を用いて目標音量を統一し、効率的なオーディオ信号を提供できるという効果がある。
【図面の簡単な説明】
【0022】
図1】本発明の一実施例に係る、オーディオ信号処理装置の動作を示すブロック図である。
図2】本発明の一実施例に係る、オーディオ信号の正規化を行う方法を示す図である。
図3】本発明の実施例によってラウドネス分布情報を含むメタデータのシンタックスを示す図である。
図4】本発明の一実施例に係るオーディオ信号の正規化を行う方法を示すフローチャートである。
図5】本発明の一実施例に係るオーディオ信号処理装置の構成を示すブロック図である。
【発明を実施するための形態】
【0023】
本明細書で使われる用語は、本発明における機能を考慮しながら可能な限り現在広く使われている一般的な用語を選択したが、これは、当分野に従事する技術者の意図、慣例又は新しい技術の出現などによって変わってもよい。また、特定の場合では出願人が任意に選定した用語もあり、この場合、該当する発明の説明部分においてその意味が記載される。したがって、本明細書で使われる用語は、単純な用語の名称ではなくその用語が持つ実質的な意味と本明細書の全般にわたる内容に基づいて解釈されるべきであることは明らかである。
【0024】
図1は、本発明の一実施例に係る、オーディオ信号処理装置の動作を示すブロック図である。
【0025】
図1を参照すると、オーディオ信号処理装置は、入力オーディオ信号を受信することができる。また、オーディオ信号処理装置は、入力オーディオ信号に対応するメタデータを受信することができ、オーディオ信号処理装置のための設定情報(config,state)をさらに受信することができる。このとき、メタデータは、オーディオ信号処理装置が受信するビットストリームに含まれるシンタックス構成要素を意味できる。
【0026】
オーディオ信号処理装置は、受信した入力オーディオ信号、メタデータ、設定情報などに基づいて入力オーディオ信号のラウドネスを補正し、補正された入力オーディオ信号を出力オーディオ信号として出力することができる。例えば、オーディオ信号処理装置は、入力オーディオ信号のラウドネスを補正して正規化されたオーディオ信号を出力することができる。
【0027】
具体的には、オーディオ信号処理装置は、パーサー(parser)とデコーダ(decoder)部分を含んで構成されてよい。このとき、パーサーは、受信したメタデータ、設定情報を用いて、入力オーディオ信号を補正するための偏差(deviation)及びゲイン(gain)値を計算することができる。デコーダは、入力オーディオ信号、偏差及びゲイン値に基づいて入力オーディオ信号の補正を行い、補正された入力オーディオ信号を出力することができる。言い換えると、デコーダは、入力オーディオ信号、偏差及びゲイン値に基づいて、入力オーディオ信号に対する正規化プロセシング過程を行い、正規化されたオーディオ信号を出力オーディオ信号として出力できる。このとき、偏差は、入力オーディオ信号のラウドネスと出力オーディオ信号との差を意味できる。
【0028】
さらに、オーディオ信号処理装置は、正規化されたオーディオ信号を出力する前に、正規化されたオーディオ信号の出力ラウドネスレベルの動的範囲(dynamic range)を制御することができる。入力コンテンツの特定フレームに対する出力ラウドネスレベルが予め設定された動的範囲を外れる場合に、クリッピング(clipping)による音質歪みが発生することがあるためである。オーディオ信号処理装置は、予め設定された動的範囲に基づいて出力ラウドネスレベルの動的範囲を制御することができる。例えば、オーディオ信号処理装置は、リミッター(limiter)及び動的範囲制御(dynamic range control,DRC)のようなオーディオプロセシングを用いて出力ラウドネスレベルの動的範囲を制御することができる。
【0029】
以下では、オーディオ信号処理装置が受信した入力オーディオ信号、メタデータ及び設定情報に基づいて入力オーディオ信号を正規化する方法について具体的に説明する。また、本明細書におけるオーディオ信号の正規化はラウドネスの正規化と同じ意味であってよい。
【0030】
メタデータには統合ラウドネス(integrated Loudness)に関する情報、ターゲットラウドネス(target loudness)に関する情報が含まれてよい。統合ラウドネスは、入力オーディオ信号の平均音量を表し、ターゲットラウドネスは、出力オーディオ信号のラウドネス、すなわち、オーディオ信号処理装置が出力しようとする目標ラウドネスを意味できる。ターゲットラウドネスは、0.1dB解像度を有するデシベルスケール(decibel scale)と定義されてよい。また、本明細書におけるラウドネスは、LKFS(Loudness K-Weighted relative to Full Scale)又はLUFS(Loudness Unit relative to Full Scale)のような単位で表現されてよい。
【0031】
設定情報には、入力オーディオ信号の正規化のために行われるオーディオプロセシングに関する情報が含まれてよい。正規化のために行われるオーディオプロセシングは、DSLC(device specific loudness control)、ELEQ(equal loudness equalizer)、EQ(equalizer)、DRC(dynamic range control)であってよい。すなわち、オーディオ信号処理装置は、DSLC、ELEQ、EQ、DRCのうち少なくともいずれか一つを用いて入力オーディオ信号の正規化を行うことができる。正規化のために行われるオーディオプロセシングに関する情報には、正規化のために用いられるオーディオプロセシングの個数、正規化のために行われるオーディオプロセシングが適用される順序に関する情報が含まれてよい。順序に関する情報は、ラウドネスの正規化のために適用されるオーディオプロセシングの定められた順序であってよい。予め定められた順序は、DSLC、ELEQ、EQ、DRCの4個に対する順序であってよい。一方、オーディオプロセシングの個数が4個よりも少ない場合に、オーディオ信号処理装置は、実際に用いられるオーディオプロセシングに対してのみ順序情報を考慮してオーディオ信号の正規化を行うことができる。例えば、順序情報が、DSLC->ELEQ->EQ->DRCの順序を示し、DSLC、EQ、DRCのみがオーディオ信号の正規化のために用いられる場合に、オーディオ信号装置は、順序情報のうち、DSLC、EQ、DRCの順序情報のみに基づいてオーディオ信号の正規化を行うことができる。すなわち、オーディオ信号処理装置は、ELEQに対する順序が順序情報に含まれていてもそれは除外し、残りDSLC、EQ、DRCに対する順序、すなわち、DSLC->EQ->DRCの順序に基づいてオーディオ信号の正規化を行うことができる。言い換えると、オーディオ信号の正規化のために用いられるオーディオプロセシングの個数を示す情報は、当該オーディオプロセシングが用いられるか否かを示す情報であってよい。オーディオ信号処理装置は、それぞれのプロセシングが用いられるか否かを示す情報を受信した順にオーディオ信号の正規化のためのオーディオプロセシングが適用されることが分かり、それによってオーディオ信号の正規化を行うことができる。オーディオプロセシングが用いられるか否かを示す情報は、ビットフラグ形式であってよい。このとき、順序情報は、オーディオプロセシングが用いられるか否かを示すビットフラグ値と同じ値で示されてよい。また、オーディオ信号の正規化のために用いられるオーディオプロセシングの個数は、少なくとも2個であってよい。本明細書におけるEQ、DRCは、入力オーディオ信号処理装置のデコーダ内部で行われるプロセシングであるか、デコーダ外部で行われるプロセシングであってよい。
【0032】
本明細書におけるEQは、入力オーディオ信号の周波数特性を変更する過程を行うエフェクター又はプロセシングを意味できる。すなわち、EQプロセシングによって入力オーディオ信号の特定周波数帯域を強調又は減少させることができる。本明細書における動的範囲は、入力オーディオ信号測定量の最大値と最小値の範囲を意味し、デシベル(dB)単位で表現されてよい。本明細書におけるDRCは、入力オーディオ信号内で相対的に大きい音の音響のボリュームを減少させ、相対的に小さい音の音響のボリュームを増加させることで、オーディオ信号処理装置が小さい音を効果的に出力できるようにするプロセシングを意味できる。本明細書におけるDSLCは、再生機器(例えば、ユーザ装置)の出力(再生)特性を反映してオーディオ信号を処理するプロセシングを意味できる。例えば、DSLCは、再生機器で出力(再生)できない低帯域の周波数信号を除外してラウドネスを調節する機能を行うプロセシングであってよい。したがって、DSLCは、ラウドネス測定時に用いられるk-加重(k-weighting)を適用する前に、再生機器の出力(再生)特性(例えば、低帯域周波数信号出力が不可能な場合)を考慮して再生機器の出力(再生)特性による帯域フィルター(例えば、高帯域通過フィルター)を用いてオーディオ信号のラウドネスを調節する方法であってよい。本明細書におけるELEQは、オーディオ信号の出力(ボリューム)サイズによるユーザの認知特性を反映してオーディオ信号を処理するプロセシングを意味できる。例えば、ELEQは、オーディオ信号の出力(ボリューム)調節による再生レベルが変化する場合に、再生レベルの変化による高帯域周波数又は低帯域周波数領域に対するユーザの敏感度(sensitivity)が変わることを補償するためのEQであってよい。ユーザの敏感度とは、同じ大きさの音であっても、周波数によって異なって感じられる程度を意味し、等聴感曲線(equal-loudness contour)で表現されてよい。すなわち、EQ、DSLC及びELEQは、入力オーディオ信号の周波数スペクトルを制御する方法を意味できる。
【0033】
また、オーディオ信号処理装置は、出力されるオーディオ信号を聴取するユーザ(聴取者)の周辺環境(すなわち、聴取環境)と関連した情報が受信(入力)され、ユーザの周辺環境と関連した情報に基づいて入力オーディオ信号の正規化を行うことができる。例えば、周辺環境と関連した情報は、ユーザの周辺環境の騒音サイズ、騒音の周波数特性、周辺環境の特性(例えば、室内、室外など)を意味できる。すなわち、ユーザの周辺環境のノイズレベルが高い場合に、オーディオ信号処理装置は、動的範囲を縮小し、入力オーディオ信号のラウドネスを正規化してユーザに適したオーディオ信号を出力することができる。具体的には、周辺環境は、ユーザがオーディオ信号を理想的に聴取するためのターゲットラウドネス又は動的範囲を設定するためのユーザの周辺環境を意味できる。例えば、周辺環境と関連した情報は、ユーザの周辺環境の騒音、周辺環境の特性であって、ターゲットラウドネス及び動的範囲のうち少なくともいずれか一つを設定するためのパラメータ値で設定されてよい。
【0034】
本明細書におけるオーディオプロセシングは、入力オーディオ信号の周波数領域上のスペクトルを変更し、入力オーディオ信号のターゲットラウドネス、時間領域上の動的範囲を変更することができる。このとき、ターゲットラウドネス、動的範囲は、ユーザの周辺環境と関連した情報に基づいて変更されてよい。上述した通り、ユーザの周辺環境と関連した情報はパラメータ値で設定されてよく、オーディオ信号処理装置は、パラメータ値に基づいて入力オーディオ信号を正規化することができる。具体的には、オーディオ信号処理装置は、パラメータ値に基づいてターゲットラウドネス、動的範囲のうち少なくともいずれか一つを変更してオーディオ信号の正規化を行うことができる。
【0035】
言い換えると、オーディオ信号処理装置は、入力オーディオ信号、統合ラウドネスに関する情報、ターゲットラウドネスに関する情報を受信し、オーディオプロセシングを適用して統合ラウドネスを補正し、補正された統合ラウドネス及びターゲットラウドネスに基づいて入力オーディオ信号の正規化を行うことができる。そして、オーディオ信号処理装置は、正規化されたオーディオ信号を出力することができる。
【0036】
図2には、本発明の一実施例に係る、オーディオ信号の正規化を行う方法を示す。
【0037】
図2を参照して、オーディオ信号処理装置がオーディオ信号の正規化を行う方法について具体的に説明する。
【0038】
オーディオ信号の正規化のために用いられるオーディオプロセシングのうち一部は、非線形(non-linear)であってよい。例えば、DRCプロセシングが非線形であってよい。非線形プロセシングが出力オーディオ信号のラウドネスに影響を及ぼすので、オーディオ信号処理装置は、非線形プロセシングによって発生する非線形プロセシング入力オーディオ信号のラウドネスと非線形プロセシング出力オーディオ信号のラウドネスとの偏差であるラウドネス偏差(deviation)を考慮してオーディオ信号を正規化することができる。ただし、非線形プロセシングでは、線形プロセシングと違い、出力信号が非線形的に処理されるため、非線形プロセシングが適用される前に入力信号のラウドネスと出力信号のラウドネスとの差が予想し難い。したがって、オーディオ信号処理装置がオーディオ信号の正規化を行う場合に、非線形プロセシングによって発生するラウドネス偏差を効率的に予想するためには、オーディオプロセシングが適用される順序が重要であり得る。
【0039】
オーディオ信号処理装置は、オーディオ信号のラウドネスと関連した4個の付加機能(例えば、EQ、DRC、DSLC、ELEQ)に対するラウドネス偏差を予測し、予測したラウドネス偏差をラウドネスの正規化のために活用することができる。オーディオ信号処理装置は、ラウドネス偏差を予測するためにEQの周波数特性及びDRCのゲイン特性が外部から伝達されてよい。
【0040】
図2(a)を参照すると、ラウドネス偏差予測のためのEQとDRCは、Deviation Estimation Advanced Featureよりも前に適用されてよい。図2(b)を参照すると、ラウドネス偏差予測のためのEQとDRCは、Deviation Estimation Advanced Featureよりも後に適用されてよい。図2のDeviation Estimation Advanced Featureは、上述したオーディオ信号の正規化のために用いられるオーディオプロセシングで、DSLC(Device Specific Loudness Control)、ELEQ(Equal Loudness Equalizer)、EQ(Equalizer)、DRC(Dynamic Range Control)を意味できる。すなわち、図2(a)を参照すると、EQとDRCが残りのオーディオプロセシング(すなわち、DSLC、ELEQ)よりも前にオーディオ信号の正規化のために適用されてよく、図2(b)を参照すると、EQとDRCは残りのオーディオプロセシング(すなわち、DSLC、ELEQ)の後にオーディオ信号の正規化のために適用されてよい。
【0041】
上述した通り、オーディオ信号処理装置がラウドネスの正規化を行う時に、オーディオ信号に非線形プロセシングが適用されてよい。具体的には、前述したDRCプロセシングが適用されてよい。非線形プロセシングが出力オーディオ信号のラウドネスに影響を及ぼすので、オーディオ信号処理装置は、非線形プロセシングによって発生する非線形プロセシング入力オーディオ信号のラウドネスと非線形プロセシング出力オーディオ信号のラウドネスとの偏差であるラウドネス偏差を考慮してオーディオ信号のラウドネスを補正しなければならない。ただし、非線形プロセシングでは、線形プロセシングと違い、出力信号が非線形的に処理されるため、非線形プロセシングが適用される前に入力信号のラウドネスと出力信号のラウドネス間の差が予想し難い。したがって、オーディオ信号処理装置がオーディオ信号を実時間に処理しなければならない場合に、非線形プロセシングによって発生するラウドネス偏差を効率的に予想できる方法が必要である。これを解決するために、コンテンツに含まれたオーディオ信号のラウドネス分布(loudness distribution)情報を含むメタデータが用いられてよい。
【0042】
図3には、本発明の実施例によってラウドネス分布情報を含むメタデータのシンタックスを示す。
【0043】
前述した通り、オーディオ信号処理装置が用いるメタデータは、ラウドネス分布に関する情報を含んでよい。説明の便宜のために、ラウドネス分布に関する情報をラウドネス分布情報と呼ぶ。このとき、ラウドネス分布情報は、ラウドネスヒストグラムであってよい。具体的には、ラウドネス分布情報は、正規化された(normalized)ヒストグラムであってよい。すなわち、ラウドネス分布情報は、各時区間に対応する値のそれぞれの和が1である正規化された比率で構成されたヒストグラムであってよい。具体的な実施例において、メタデータは、ラウドネスのサイズによって区分された複数の段階ごとに、前記オーディオ信号のうち各段階に該当するオーディオ信号の量と前記オーディオ信号全体量間の比率を示すラウドネス分布情報を含んでよい。このとき、ラウドネスは、予め指定された時間区間内で測定されたものであってよい。例えば、メタデータは、各段階に該当する予め指定された時間区間の個数と時間区間の全体個数との比率を示すことができる。説明の便宜のために、各段階に該当するオーディオ信号の量と全体オーディオ信号の量との比率を、オーディオ信号比率と呼ぶ。また、予め指定された時間区間は、オーディオ信号のフレームであってよい。ラウドネス分布情報に、基準となるラウドネスのタイプを指示する情報を含んでよい。ラウドネスのタイプは、ラウドネスを測定した時間区間の長さによって区分されてよい。例えば、ラウドネスのタイプは、短区間(short-term)ラウドネス、瞬間ラウドネス(momentary loudness)のうち少なくともいずれか一つを示すことができる。具体的には、ラウドネス分布情報は図3のようなシンタックスを有し得る。
【0044】
図3で、typeは、ラウドネス分布情報が示すラウドネスのタイプを表す。ラウドネスのタイプは、前述した通り、ラウドネス分布情報のラウドネスが測定された時間区間の長さによるタイプを示すことができる。bsMinは、ラウドネス分布情報にコードされたラウドネスの最小値を示すことができる。bsMaxは、ラウドネス分布情報にコードされたラウドネスの最大値を示すことができる。bsStepは、ラウドネス分布情報に用いられたラウドネス段階の大きさを示すことができる。numStepsは、ラウドネス分布情報が含む段階の総個数を示すことができる。bsRatioは、ラウドネス分布情報において各段階に該当するオーディオ信号の量と全体オーディオ信号の量との比率を示すことができる。具体的には、bsRatioは、ラウドネスヒストグラムの各段階別の値と全ての段階別の値の和との比率を示した値であってよい。すなわち、bsRatioは、前述したオーディオ信号比率であってよい。ラウドネス分布範囲は、-90~0LUFS/LKFSであってよい。
【0045】
ラウドネス分布情報が含む段階別オーディオ信号比率は、可変長のビット列にエンコードされてよい。各段階別オーディオ信号比率の差が大きいことがあるためである。したがって、オーディオ信号比率が可変長のビット列にエンコードされる場合に、オーディオ信号比率が固定した長さのビット列にエンコードされる場合に比べて遥かに少ない数のビットでラウドネス分布情報がエンコードされ得る。具体的には、複数の段階にそれぞれ該当するオーディオ信号比率が一つのビット列に含まれてよい。このとき、ビット列は、予め指定された個数だけ反復して位置し、各段階に該当するオーディオ信号比率を示すビットの最後のビットであるか否かを指示するエンディングフラグを含んでよい。具体的には、エンディングフラグは、毎8ビットごとに反復して位置してよい。また、エンディングフラグの値が予め指定された値である場合に、エンディングフラグ直前のビットがオーディオ信号比率の最後のビットであってよい。このとき、予め指定された値は1であってよい。
【0046】
このような具体的な実施例において、オーディオ信号処理装置は、各段階別オーディオ信号比率を含むビット列において8ビット単位で処理することができる。オーディオ信号処理装置は、8ビットのうち7ビットの値をオーディオ信号比率を示すビットの一部として、最後の1ビットをエンディングフラグとして取得する。エンディングフラグの値が予め指定された値であれば、以前に取得したオーディオ信号比率のビットを結合させてオーディオ信号比率を示すビットを取得する。エンディングフラグの値が予め指定された値でなければ、オーディオ信号処理装置は、次の8ビットを取得し、先に行った動作を繰り返し行う。オーディオ信号装置は、表1のシンタックスによって段階別オーディオ信号成分を含むビット列からオーディオ信号比率を取得することができる。
【0047】
【表1】
【0048】
オーディオ信号処理装置は、ラウドネス分布情報に基づいてオーディオ信号のラウドネスを補正することができる。
【0049】
前述した通り、オーディオ信号処理装置は、オーディオ信号に非線形プロセシングを行うことができる。この時、オーディオ信号処理装置は、ラウドネス分布(distribution)情報及び非線形プロセシングの特性に関する情報に基づいて、非線形プロセシングによって発生するラウドネス偏差を予測できる。このとき、非線形プロセシングの特性に関する情報は、非線形プロセシングの周波数特性又は非線形プロセシングのゲイン特性のうち少なくともいずれか一つを含んでよい。例えば、非線形プロセシングの特性に関する情報は、イコライザーの周波数特性を含んでよい。また、非線形プロセシングの特性に関する情報は、DRCと関連したパラメータ(例えば、DRCのゲイン特性)を含んでよい。このとき、非線形プロセシングの特性に関する情報は、オーディオ信号処理装置に外部から受信(入力)される情報であってよい。
【0050】
オーディオ信号処理装置は、非線形プロセシングによって発生するラウドネス偏差に基づいてオーディオ信号のラウドネスを補正することができる。具体的には、オーディオ信号処理装置は、オーディオ信号のラウドネスに、非線形プロセシングによって発生するラウドネス偏差を足した値とターゲットラウドネスとの差だけラウドネスを補正することができる。オーディオ信号処理装置は、補正されたラウドネスに基づいて入力オーディオ信号の正規化を行うことができる。
【0051】
実施例によって、オーディオ信号処理装置は、ラウドネス補正前に非線形プロセシングを適用することができる。また、オーディオ信号処理装置は、ラウドネス補正後に非線形プロセシングを適用することができる。
【0052】
オーディオ信号処理装置は、DRC入力信号の基準大きさとDRC出力信号の基準大きさとをマップするDRCマッピングカーブに基づいて、DRCによって発生するラウドネス偏差を取得することができる。基準大きさは、入力信号の線形大きさ又はログ(Log)スケールレベルで表現された、一定区間を基準にして計算された平均大きさ、最大大きさ(Peak値)又はラウドネス値であってよい。DRCに入力されるDRC入力オーディオ信号の統合(integrated)ラウドネスをLとし、オーディオ信号処理装置に入力される入力オーディオ信号の統合ラウドネスをLI,orgとすれば、DRC前に他のオーディオプロセシングによって発生するラウドネス偏差ΔLprevは、次のように定義されてよい。DRCマッピングカーブは、-127~0dBの範囲の値を有してよい。
【0053】
ΔLprev=L-LI,org
【0054】
オーディオ信号処理装置は、ΔLprevを用いてラウドネス分布情報から取得した入力オーディオ信号のラウドネス分布を、DRCに入力されるラウドネス分布の範囲に調整することができる。オーディオ信号処理装置の具現によってΔLprevは0であってよい。具体的には、オーディオ信号のラウドネス分布が-127<inputDB<0において定義されるとき、オーディオ信号処理装置は、ラウドネス分布、hDB[k(inputDB)]の範囲を-127+ΔLprev<inputDB<ΔLprevに調整することができる。具体的には、オーディオ信号処理装置は、次のような数学式によって、オーディオ信号のラウドネス分布の範囲を、DRCに入力されるオーディオ信号のラウドネス分布範囲に調整することができる。すなわち、オーディオ信号処理装置は、ラウドネス分布にDRCプロセシングを行い、DRCに入力される新しいラウドネス分布を生成することができる。
【0055】
【数1】
【0056】
オーディオ信号処理装置は、分布の範囲が調整されたhDBprevからDRCマッピングカーブdrcDB[K(inputDB)]に基づいてDRCが適用された後、オーディオ信号のラウンドニス分布、hDB,DRCを初期化することができる。
【0057】
【数2】
【0058】
オーディオ信号処理装置は、hDB,DRCからDRC出力オーディオ信号のラウドネスLDRC,outを取得し、この値から、DRCによって発生するラウドネス偏差であるΔLDRCを取得できる。具体的には、オーディオ信号処理装置は、ITU-R Recommendation BS.1770-4によって、絶対閾値(absolute threshold)以下の成分を除去した分布成分の平均値と、この値から導出された比較閾値(relative threshold)J以上の分布に対する平均をDRC出力オーディオ信号のラウドネスLDRC,outとして取得することができる。例えば、オーディオ信号処理装置は、次の数学式によってΔLDRCが取得できる。
【0059】
【数3】
【0060】
言い換えると、オーディオ信号処理装置は、ラウドネス分布情報と非線形プロセシングの特性に関する情報(例えば、DRCと関連したパラメータ)を外部から受信することができる。そして、オーディオ信号処理装置は、非線形プロセシングの特性に関する情報に基づいてラウドネス分布情報を更新(新しく取得)することができる。オーディオ信号処理装置は、更新されたラウドネス分布情報、統合ラウドネスに関する情報、ターゲットラウドネスに関する情報に基づいて入力オーディオ信号の正規化を行うことができる。
【0061】
オーディオ信号処理装置は、入力オーディオ信号にゲイン値(Gloud)を掛けてオーディオ信号の正規化を行うことができる。オーディオ信号処理装置は、ターゲットラウドネスと一致する出力オーディオ信号を取得するためにゲイン値を計算することができる。このとき、ゲイン値に基づいてオーディオ信号を正規化する様々な方法について説明する。ゲイン値は、ターゲットラウドネス(L)と統合ラウドネス(L)に基づいて計算されてよい。
【0062】
i)オーディオ信号処理装置は、ターゲットラウドネス(L)と統合ラウドネス(L)との偏差を補償することができる。LがLよりも大きい場合に、オーディオ信号ゲイン値は1よりも大きくなってクリッピングが発生することがあり、これを防止するためにピークリミッターが適用されてよい。ゲイン値は、下記の数学式のように計算されてよい。
【0063】
【数4】
【0064】
ii)オーディオ信号処理装置は、メタデータに含まれるリミッター上でアーティファクト無しで提供可能な最大のターゲットラウドネスであるLQSHIを用いてゲイン値を計算することができる。具体的には、ゲイン値は、下記の数学式のように、LとLQSHIのうち小さい値に基づいて取得されてよい。下記の数学式においてmin(x,y)は、xとyのうち少ない値を返す関数である。
【0065】
【数5】
【0066】
iii)オーディオ信号処理装置は、オーディオ信号の正規化のためのオフセット値と基準ラウドネス値に基づいてゲイン値を計算することができる。具体的には、オーディオ信号処理装置は、オーディオ信号の正規化のためのオフセット値(STLNoffset)と基準ラウドネス値(Lref)に基づいてオフセットゲイン(Goffset)を計算できる。そして、オーディオ信号処理装置は、オーディオ信号の正規化のためのオフセット値を補正し、補正されたオフセット値に基づいてゲイン値を計算することができる。ゲイン値を計算する具体的な数学式は、次の通りである。
【0067】
【数6】
【数7】
【0068】
iv)オーディオ信号処理装置がオーディオ信号の正規化を行う際にリミッターを用いない場合に、サンプルピーク(sample peak)値(peaksmpl)に基づいてゲイン値を計算することができる。ゲイン値を計算する具体的な数学式は、次の通りである。
【0069】
【数8】
【0070】
v)オーディオ信号処理装置がオーディオ信号の正規化を行う際にリミッターを用いない場合に、トゥルーピーク(true peak)値(peaktrue)に基づいてゲイン値を計算できる。トゥルーピークは、サンプルピークメーターで測定できないアナログ信号の正確なピークを意味できる。ゲイン値を計算する具体的な数学式は、次の通りである。
【0071】
【数9】
【0072】
vi)オーディオ信号処理装置は、減衰(Attenuation)ゲインのみを用いてオーディオ信号の正規化を行うことができる。減衰ゲインのみが用いられる場合に、ゲイン値は1を超えなくてよい。ゲイン値を計算する具体的な数学式は、次の通りである。
【0073】
【数10】
【0074】
オーディオ信号処理装置は、EQ、DRC、DSLC、ELEQのうち全部又は一部のオーディオプロセシングによってオーディオ信号の正規化を行うことができる。一実施例として、オーディオ信号処理装置は、DSLC->ELEQ順のオーディオプロセシングを適用してオーディオ信号の正規化を行うことができる。すなわち、オーディオ信号処理装置は、DSLCフィルタリング及びELEQフィルタリングを適用してオーディオ信号の正規化を行うことができる。
【0075】
DSLCフィルタリング
【0076】
DSLCフィルターは、ユーザ装置の周波数応答を反映するフィルターでなく信号ダイナミックレンジ(signal dynamic range)を確保するためのフィルターであってよい。例えば、モバイル機器のスピーカーは、低周波特性が良好でないため、DSLCフィルターは100Hz以下の成分を除去するローカットフィルター(Low cut filter)であってよい。このとき、DSLCフィルターは、フィルターが有限インパルス応答(Finite Impulse Response,FIR)形態のフィルターであるか、無限インパルス応答(Infinite Impulse Response,IIR)形態のフィルターであってよい。
【0077】
オーディオ信号処理装置は、DSLCフィルターが有限インパルス応答形態のフィルターである場合に、入力オーディオ信号(xDSLC[n])に対して有限インパルス応答フィルタリングを適用し、フィルタリングが適用された出力信号(yDSLC[n])を出力できる。出力信号の具体的な計算方法は、次の数学式の通りである。このとき、NDSLCは、ユーザ装置のためのDSLCフィルター次数を意味し、bDSLCは、ユーザ装置のためのDSLCフィルター係数で、有限インパルス応答フィルター係数の分子(numerator)であってよく、float32のデータタイプを有してよい。
【0078】
【数11】
【0079】
オーディオ信号処理装置は、DSLCフィルターが無限インパルス応答形態のフィルターである場合に、入力オーディオ信号(xDSLC[n])に対して無限インパルス応答フィルタリングを適用し、フィルタリングが適用された出力信号(yDSLC[n])を出力することができる。出力信号の具体的な計算方法は、次の数学式の通りである。このとき、NDSLCは、ユーザ装置のためのDSLCフィルター次数を意味し、bDSLCは、ユーザ装置のためのDSLCフィルター係数で、無限インパルス応答フィルター係数の分子(numerator)であってよく、float32のデータタイプを有してよい。aDSLCは、ユーザ装置のためのDSLCフィルター係数で、無限インパルス応答フィルター係数の分母(denominator)であってよく、float32のデータタイプを有してよい。
【0080】
【数12】
【0081】
一方、DSLCフィルターが適用されないと、DSLCプロセシングはバイパス(bypass)され、出力信号(yDSLC[n])は入力オーディオ信号(xDSLC[n])と同一であってよい。
【0082】
ELEQフィルタリング
【0083】
ELEQフィルターは、ターゲットラウドネス(L)とユーザボリューム(Lvol)によって決定される出力オーディオ信号の音色とELEQ基準ラウドネス(LELEQ、ref)の信号が0dBのとき、ボリュームの音色間の差を補正するフィルターであってよい。
【0084】
オーディオ信号処理装置は、フィルターインデックス(iELEQ)によるフィルター係数(yDSLC[n])を用いて、ELEQフィルターの入力される入力信号(xELEQ[n])に有限インパルス応答フィルタリングを行い、フィルタリングされた出力信号(yELEQ[n])を出力することができる。出力信号(yELEQ[n])は、次の数学式のように計算されてよい。このとき、bELEQ[iELEQ][k]は、入力オーディオ信号の周波数によって予め設定される値であり、周波数は44100Hz又は48000Hzであってよい。xELEQ[n]はyDSLC[n]と同一であってよい。
【0085】
【数13】
【0086】
ELEQフィルターが適用されない場合に、ELEQプロセシングはバイパス(bypass)され、yELEQ[n]はxELEQ[n]と同一であってよい。
【0087】
オーディオ信号処理装置は、上述した方法によって計算されたゲイン値(Gloud)とELEQフィルタリングを行って出力される信号であるyELEQ[n]に基づいて、正規化されたオーディオ信号(y[n])を出力できる。このとき、正規化されたオーディオ信号は、次の数学式のように計算されてよい。
【0088】
【数14】
【0089】
図4は、本発明の一実施例に係るオーディオ信号の正規化を行う方法を示すフローチャートである。
【0090】
図4を参照すると、オーディオ信号処理装置は、オーディオ信号を受信することができる(S410)。オーディオ信号処理装置は、前記オーディオ信号の統合ラウドネス(integrated loudness)に関する情報を受信することができる(S420)。オーディオ信号処理装置は、前記オーディオ信号のターゲットラウドネス(target loudness)に関する情報を受信することができる(S430)。オーディオ信号処理装置は、一つ以上のオーディオプロセシングに基づいて前記統合ラウドネスを補正し、補正された統合ラウドネスを取得することができる(S440)。前記統合ラウドネスは、一つ以上のオーディオプロセシングに基づいて補正され、前記一つ以上のオーディオプロセシングは、前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシング及びDRC(dynamic range control)のうち少なくともいずれか一つを含んでよい。オーディオ信号処理装置は、前記補正された統合ラウドネス及び前記ターゲットラウドネスに基づいて前記オーディオ信号の正規化を行い、正規化されたオーディオ信号を取得することができる(S450)。
【0091】
オーディオ信号処理装置は、前記統合ラウドネスの補正のための前記一つ以上のオーディオプロセシングが適用される順序を示す順序情報を受信することができる。このとき、前記統合ラウドネスは、前記順序情報に基づいて決定される順序によって前記一つ以上のオーディオプロセシングを適用して補正されてよい。
【0092】
オーディオ信号装置は、前記一つ以上のオーディオプロセシングがそれぞれ活性化されるか否かを示すビットフラグを受信することができる。このとき、前記統合ラウドネスは、前記ビットフラグに基づいて活性化される前記一つ以上のオーディオプロセシングによって補正されてよい。前記順序情報は、前記ビットフラグと同じフラグ値によって設定されてよい。
【0093】
前記オーディオ信号の周波数領域上のスペクトルを変更するプロセシングは、イコライザー(equalizer)、ユーザ機器特性と関連したプロセシング及びユーザの認知能力と関連したプロセシングのうち少なくともいずれか一つを含んでよい。このとき、前記ユーザ機器特性は、前記ユーザ機器が出力可能な周波数帯域を意味できる。前記ユーザの認知能力は、前記ユーザの周波数帯域に対する敏感度(sensitivity)を意味できる。前記一つ以上のプロセシングのいずれか一つは、非線形(non-linear)的なプロセシングであってよい。具体的には、前記非線形的なプロセシングは、前記DRCであってよい。オーディオ信号の正規化のために用いられる前記一つ以上のオーディオプロセシングは、少なくとも2個であってよい。
【0094】
前記オーディオ信号の正規化は、ユーザの周辺環境と関連したパラメータに基づいて行われてよい。このとき、前記ユーザの周辺環境は、前記ユーザが位置している場所の騒音の大きさ及び前記騒音の周波数特性のうち少なくともいずれか一つであってよい。前記ターゲットラウドネスは、前記ユーザの周辺環境と関連したパラメータに基づいて設定されてよい。
【0095】
図5は、本発明の一実施例に係るオーディオ信号処理装置の構成を示すブロック図である。
【0096】
図5で説明するオーディオ信号処理装置は、図4で説明したオーディオ信号処理装置であってよい。具体的には、オーディオ信号処理装置は、オーディオ信号と関連した情報を受信する受信部、前記受信部を機能的に制御するプロセッサを含んで構成されてよい。このとき、プロセッサは、図1図4で説明したオーディオ信号を正規化する方法を行うことができる。
【0097】
一実施例によって、オーディオ信号処理装置1000は、受信部1100、プロセッサ1200、出力部1300及び保存部1400を含んでよい。ただし、図5に示している構成要素がいずれもオーディオ信号処理装置の必須構成要素であるわけではない。オーディオ信号処理装置1000は、図5に示していない構成要素をさらに含んでよい。また、図5に示しているオーディオ信号処理装置100の構成要素のうち少なくとも一部が省略されてもよい。例えば、一実施例に係るオーディオ信号処理装置は、受信部1100及び出力部1300を含まなくてもよい。
【0098】
受信部1100は、オーディオ信号処理装置1000に入力される入力オーディオ信号を受信することができる。受信部1100は、プロセッサ1200によって正規化される入力オーディオ信号を受信することができる。具体的には、受信部1100は、ネットワークを通じて外部サーバーから入力コンテンツを受信することができる。また、受信部1100は、記憶媒体から入力オーディオ信号を取得することができる。このとき、オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号のうち少なくとも一つを含んでよい。また、オーディオ信号は、1個のオブジェクト信号又はモノ信号であってよい。オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。一実施例によって、受信部1100は、有線で送信される入力オーディオ信号を受信する入力端子を含んでよい。また、受信部1100は、無線で送信される入力オーディオ信号を受信する無線受信モジュールを含んでよい。
【0099】
一実施例によって、オーディオ信号処理装置1000は、別のデコーダを含んでよい。この場合、受信部1100は、入力オーディオ信号に対応する符号化されたビットストリームを受信することができる。また、符号化されたビットストリームは、デコーダで入力コンテンツに復号化されてよい。さらに、受信部1100は、入力オーディオ信号と関連したメタデータを受信することができる。
【0100】
一実施例によって、受信部1100は、ネットワークを通じて外部の装置とデータを送受信するための送受信手段を備えることができる。このとき、データは入力オーディオ信号のビットストリーム又はメタデータのうち少なくとも一つを含んでよい。受信部1100は、有線で送信されるデータを受信するための有線送受信端子を含んでよい。また、受信部1100は、無線で送信されるデータを受信するための無線送受信モジュールを含んでよい。この場合、受信部1100は、ブルートゥース(登録商標)(bluetooth)又はワイファイ(Wi-Fi)通信方法を用いて、無線で送信されるデータを受信することができる。また、受信部1100は、LTE(long term evolution)、LTE-advancedのような移動通信規格に基づいて送信されるデータを受信することができ、本開示がこれに限定されるものではない。受信部1100は、様々な有無線通信規格に基づいて送信される様々な形態のデータを受信することができる。
【0101】
プロセッサ1200は、オーディオ信号処理装置100の動作全般を制御することができる。プロセッサ1200は、オーディオ信号処理装置100の各構成要素を制御することができる。プロセッサ1200は、各種データと信号の演算及び処理を行うことができる。プロセッサ1200は、半導体チップ又は電子回路形態のハードウェアとして具現されるか、ハードウェアを制御するソフトウェアとして具現されてよい。プロセッサ1200は、ハードウェアと前記ソフトウェアとが結合した形態で具現されてもよい。例えば、プロセッサ1200は、少なくとも一つのプログラムを実行することによって、受信部1100、出力部1300及び保存部1400の動作を制御することができる。また、プロセッサ1200は、少なくとも一つのプログラムを実行して、前述の図1図4で説明された動作を行うことができる。
【0102】
一実施例によって、プロセッサ1200は、入力オーディオ信号の正規化を行うことができる。例えば、プロセッサ1200は、オーディオプロセシングに基づいて入力オーディオ信号の正規化を行うことができる。このとき、オーディオ信号のプロセシングは、DSLC(Device Specific Loudness Control)、ELEQ(Equal Loudness Equalizer)、EQ(Equalizer)、DRC(Dynamic Range Control)のうち少なくともいずれか一つを含んでよい。このとき、オーディオプロセシングのいずれか一つは、非線形(non-linear)的なプロセシングであってよい。また、プロセッサ1200は、オーディオプロセシングが適用される順序を示す順序情報によってオーディオプロセシングを適用して入力オーディオ信号の正規化を行うことができる。また、プロセッサ1200は、正規化されたオーディオ信号を出力できる。このとき、プロセッサ1200は、後述する出力部1300から正規化されたオーディオ信号を出力できる。
【0103】
出力部1300は、正規化されたオーディオ信号を出力できる。出力部1300は、プロセッサ1200によって入力オーディオ信号を正規化した正規化されたオーディオ信号を出力できる。この場合、出力オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号のうち少なくとも一つを含んでよい。出力オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。また、出力オーディオ信号は、聴取者の両耳にそれぞれ対応する2チャネル出力オーディオ信号を含んでよい。出力オーディオ信号は、バイノーラル2チャネル出力オーディオ信号を含んでよい。
【0104】
一実施例によって、出力部1300は、出力コンテンツを出力する出力手段を備えることができる。例えば、出力部1300は、出力オーディオ信号を外部に出力する出力端子を含んでよい。このとき、オーディオ信号処理装置100は、出力端子に連結された外部装置に出力オーディオ信号を出力することができる。出力部1300は、出力オーディオ信号を外部に出力する無線オーディオ送信モジュールを含んでよい。この場合、出力部1300は、ブルートゥース(登録商標)又はワイファイのような無線通信方法を用いて外部装置に出力オーディオ信号を出力することができる。
【0105】
また、出力部1300は、スピーカーを含んでよい。この場合、オーディオ信号処理装置100は、スピーカーから出力オーディオ信号を出力することができる。また、出力部1300は、デジタルオーディオ信号をアナログオーディオ信号に変換するコンバータ(例えば、digital-to-analog converter,DAC)をさらに含んでよい。さらに、出力部1300は、出力コンテンツが含むビデオ信号を出力するディスプレイ手段を備えることができる。
【0106】
保存部1400は、プロセッサ1200の処理及び制御のためのデータ又はプログラムのうち少なくとも一つを保存することができる。例えば、オーディオプロセシングを行うための各種情報(例えば、ELEQフィルター係数など)を保存することができる。また、保存部1400は、プロセッサ1200で演算された結果を保存することができる。例えば、保存部1400は、DSLCフィルタリングを行った後の信号を保存することができる。また、保存部1400は、オーディオ信号処理装置1000に入力されたりオーディオ信号処理装置1000から出力されるデータを保存することもできる。
【0107】
保存部1400は、少なくとも一つのメモリを備えることができる。このとき、メモリは、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えばSD又はXDメモリなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも一つのタイプの記憶媒体を含んでよい。
【0108】
一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態で具現されてもよい。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれをも含んでよい。また、コンピュータ可読媒体は、コンピュータ記憶媒体を含んでよい。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の記憶のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型の如何なる媒体も含んでよい。
【0109】
以上では、本開示を具体的な実施例を用いて説明したが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲を逸脱することなく修正、変更が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における者に容易に類推可能なものは、本開示の権利範囲に属するものと解釈される。
【符号の説明】
【0110】
1100 受信部
1200 プロセッサ
1300 出力部
1400 保存部
図1
図2
図3
図4
図5
【国際調査報告】