IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開-音声信号処理装置およびプログラム 図1
  • 特開-音声信号処理装置およびプログラム 図2
  • 特開-音声信号処理装置およびプログラム 図3A
  • 特開-音声信号処理装置およびプログラム 図3B
  • 特開-音声信号処理装置およびプログラム 図4A
  • 特開-音声信号処理装置およびプログラム 図4B
  • 特開-音声信号処理装置およびプログラム 図5
  • 特開-音声信号処理装置およびプログラム 図6
  • 特開-音声信号処理装置およびプログラム 図7A
  • 特開-音声信号処理装置およびプログラム 図7B
  • 特開-音声信号処理装置およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024023163
(43)【公開日】2024-02-21
(54)【発明の名称】音声信号処理装置およびプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240214BHJP
   G10L 21/0364 20130101ALI20240214BHJP
【FI】
H04S7/00 300
G10L21/0364
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023128849
(22)【出願日】2023-08-07
(31)【優先権主張番号】P 2022126646
(32)【優先日】2022-08-08
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100164471
【弁理士】
【氏名又は名称】岡野 大和
(74)【代理人】
【識別番号】100163511
【弁理士】
【氏名又は名称】辻 啓太
(72)【発明者】
【氏名】杉本 岳大
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】岩崎 泰士
(72)【発明者】
【氏名】大出 訓史
(72)【発明者】
【氏名】中山 靖茂
(72)【発明者】
【氏名】大久保 洋幸
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162BA12
5D162CA01
5D162EG02
(57)【要約】
【課題】複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図る。
【解決手段】
音声信号処理装置10は、第1の音声オブジェクトの信号レベルの調整値である第1の調整値b、および、第2の音声オブジェクトの信号レベルの調整値である第2の調整値cを決定する調整値決定部14と、第1の調整値bに基づく信号レベルが調整後の第1の音声オブジェクトの音声信号と、第2の調整値cに基づく信号レベルが調整後の第2の音声オブジェクトの音声信号とを合成して出力する音声信号合成部13と、を備え、調整値決定部14は、エンハンスメント量dに合わせて、第1の調整値bの真数と前記第2の調整値cの真数との二乗和が一定になるように第1の調整値bおよび第2の調整値cを決定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の音声オブジェクトから構成される番組の音声信号を処理する音声信号処理装置であって、
前記複数の音声オブジェクトの内の第1の音声オブジェクトの信号レベルと前記第1の音声オブジェクトと重畳して再生される第2の音声オブジェクトの信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると、前記第1の音声オブジェクトの信号レベルの調整値である第1の調整値b、および、前記第2の音声オブジェクトの信号レベルの調整値である第2の調整値cを決定する調整値決定部と、
前記第1の調整値bに基づき、前記第1の音声オブジェクトの信号レベルを調整する第1の音声信号調整部と、
前記第2の調整値cに基づき、前記第2の音声オブジェクトの信号レベルを調整する第2の音声信号調整部と、
前記第1の音声信号調整部による信号レベルの調整後の前記第1の音声オブジェクトの音声信号と、前記第2の音声信号調整部による信号レベルの調整後の前記第2の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、
前記調整値決定部は、前記エンハンスメント量dに合わせて、前記第1の調整値bの真数と前記第2の調整値cの真数との二乗和が一定になるように前記第1の調整値bおよび前記第2の調整値cを決定する、音声信号処理装置。
【請求項2】
前記調整値決定部は、前記エンハンスメント量dが上限値eを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、請求項1に記載の音声信号処理装置。
【請求項3】
前記調整値決定部は、前記複数の音声オブジェクトの再生に関する情報である音響メタデータに含まれる前記エンハンスメント量dの上限値hを取得した場合、前記エンハンスメント量dが前記上限値hを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、請求項2に記載の音声信号処理装置。
【請求項4】
前記エンハンスメント量dと、前記第1の調整値bおよび前記第2の調整値cとを対応付けた調整値リストを記憶する調整値記憶部をさらに備え、
前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第1の調整値bおよび前記第2の調整値cを決定する、請求項1から3のいずれか一項に記載の音声信号処理装置。
【請求項5】
前記調整値決定部は、前記上限値eが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、請求項2に記載の音声信号処理装置。
【請求項6】
前記調整値決定部は、前記上限値hが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、請求項3に記載の音声信号処理装置。
【請求項7】
前記上限値eは+12dBである、請求項2に記載の音声信号処理装置。
【請求項8】
コンピュータを、請求項1に記載の音声信号処理装置として動作させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理装置およびプログラムに関する。
【背景技術】
【0002】
近年、音声信号と音響メタデータ(非特許文献1,2参照)とを組み合わせたオブジェクトベース音響システムの実用化が進められている(非特許文献3-5参照)。オブジェクトベース音響システムは、視聴者が視聴環境あるいは好みに合わせて再生音をカスタマイズすることができるという特徴がある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Rec. ITU-R BS.2076-1 「Audio Definition Model」 (2017)
【非特許文献2】Rec. ITU-R BS.2125-0 「A serial representation of the Audio Definition Model」 (2019)
【非特許文献3】ISO/IEC 23008-3:2019 「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition」 (2019)
【非特許文献4】ETSI TS 103 190-2 V1.2.1 「AC-4 Part 2」 (2018)
【非特許文献5】ATSC Standard: A/342 Part 3 (2017)
【発明の概要】
【発明が解決しようとする課題】
【0004】
オブジェクトベース音響システムの代表的な機能の1つに、ダイアログエンハンスメント機能がある。ダイアログエンハンスメント機能は、図8に示すように、番組音声がダイアログ(セリフあるいはナレーション)および背景音(BGMあるいは効果音)の音声オブジェクトで構成されている場合に、番組の制作時のダイアログおよび背景音の信号レベルと比べて、ダイアログを強調する(ダイアログの信号レベルを大きくする)ことで、ダイアログの聞き取りを改善する機能である。
【0005】
オブジェクトベース音響システムにおいては、番組音声の全体的な印象の悪化を抑制しつつ、ダイアログの聞き取りやすさの向上を図ることができる、より効果的なダイアログエンハンスメント機能の実装が求められている。
【0006】
本発明の目的は、上述した課題を解決し、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる音声信号処理装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0007】
(1)本開示に係る音声信号処理装置は、複数の音声オブジェクトから構成される番組の音声信号を処理する音声信号処理装置であって、前記複数の音声オブジェクトの内の第1の音声オブジェクトの信号レベルと前記第1の音声オブジェクトと重畳して再生される第2の音声オブジェクトの信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると、前記第1の音声オブジェクトの信号レベルの調整値である第1の調整値b、および、前記第2の音声オブジェクトの信号レベルの調整値である第2の調整値cを決定する調整値決定部と、前記第1の調整値bに基づき、前記第1の音声オブジェクトの信号レベルを調整する第1の音声信号調整部と、前記第2の調整値cに基づき、前記第2の音声オブジェクトの信号レベルを調整する第2の音声信号調整部と、前記第1の音声信号調整部による信号レベルの調整後の前記第1の音声オブジェクトの音声信号と、前記第2の音声信号調整部による信号レベルの調整後の前記第2の音声オブジェクトの音声信号とを合成して出力する音声信号合成部と、を備え、前記調整値決定部は、前記エンハンスメント量dに合わせて、前記第1の調整値bの真数と前記第2の調整値cの真数との二乗和が一定になるように前記第1の調整値bおよび前記第2の調整値cを決定する。
【0008】
(2) 前記調整値決定部は、前記エンハンスメント量dが上限値eを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、(1)に記載の音声信号処理装置。
【0009】
(3) 前記調整値決定部は、前記複数の音声オブジェクトの再生に関する情報である音響メタデータに含まれる前記エンハンスメント量dの上限値hを取得した場合、前記エンハンスメント量dが前記上限値hを超えないように前記第1の調整値bおよび前記第2の調整値cを決定する、(2)に記載の音声信号処理装置。
【0010】
(4) 前記エンハンスメント量dと、前記第1の調整値bおよび前記第2の調整値cとを対応付けた調整値リストを記憶する調整値記憶部をさらに備え、前記調整値決定部は、前記調整値記憶部に記憶されている調整値リストに基づき、前記第1の調整値bおよび前記第2の調整値cを決定する、(1)から(3)のいずれか一項に記載の音声信号処理装置。
【0011】
(5) 前記調整値決定部は、前記上限値eが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、(2)に記載の音声信号処理装置。
【0012】
(6) 前記調整値決定部は、前記上限値hが+6dB以上の場合に、前記エンハンスメント量dを+6dB以上とする、(3)に記載の音声信号処理装置。
【0013】
(7) 前記上限値eは+12dBである、(2)に記載の音声信号処理装置。
【0014】
(8)本開示に係るプログラムは、コンピュータを、(1)から(7)のいずれかに記載の音声信号処理装置として動作させる。
【発明の効果】
【0015】
本発明に係る音声信号処理装置およびプログラムによれば、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。
【図面の簡単な説明】
【0016】
図1】本開示の一実施形態に係る音声信号処理装置の構成例を示す図である。
図2図1に示す調整値決定部の構成例を示す図である。
図3A図2に示す調整値記憶部が記憶する調整値リストの一例を示す図である。
図3B図2に示す調整値記憶部が記憶する調整値リストの他の一例を示す図である。
図4A】ダイアログおよび背景音のエネルギーの合計が一定である場合の、γおよびσの変化の様子を真数表示した図である。
図4B】ダイアログおよび背景音のエネルギーの合計が一定である場合の、γおよびσの変化の様子を対数表示した図である。
図5図1に示す音声信号処理装置の動作の一例を示すフローチャートである。
図6】エンハンスメント操作のためのUIの一例を示す図である。
図7A】スピーカ再生による、音素材の聞き取りおよび総合印象に関する評価結果を示す図である。
図7B】イヤホン・ヘッドホン再生による、音素材の聞き取りおよび総合印象に関する評価結果を示す図である。
図8】ダイアログエンハンスメントについて模式的に示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態について図面を参照して説明する。
【0018】
図1は、本開示の一実施形態に係る音声信号処理装置10の構成例を示す図である。本実施形態に係る音声信号処理装置10は、ダイアログおよび背景音などの複数の音声オブジェクトから構成される番組の音声信号を再生するものである。具体的には、音声信号処理装置10は、上述したダイアログエンハンスメントのように、複数の音声オブジェクトの内、特定の音声オブジェクト(第1の音声オブジェクト)の信号レベルと、特定の音声オブジェクトと重畳して再生される他の音声オブジェクト(第2の音声オブジェクト)の信号レベルとの比aを増加または減少させる信号処理を行う。以下では、ダイアログの信号レベルと、ダイアログと重畳して再生される背景音の信号レベルとの比aを増加または減少させる例を用いて説明する。なお、番組の音声を構成する音声オブジェクトとして、例えば、複数の言語それぞれに対応するダイアログの音声オブジェクトと、背景音の音声オブジェクトとが含まれることがある。この場合、音声信号処理装置10は、例えば、視聴者により選択された一つの言語に対応するダイアログの信号レベルと、背景音の信号レベルとの比aを増加または減少させる。
【0019】
図1に示すように、本実施形態に係る音声信号処理装置10は、音声信号調整部11,12と、音声信号合成部13と、調整値決定部14とを備える。
【0020】
第1の音声信号調整部としての音声信号調整部11は、番組を構成する複数の音声オブジェクトの内、ダイアログ(第1の音声オブジェクト)の音声信号が入力される。音声信号調整部11は、後述する調整値決定部14により決定された、ダイアログ(第1の音声オブジェクト)の信号レベルの調整値である第1の調整値bに基づき、入力されたダイアログの信号レベルを調整し、音声信号合成部13に出力する。
【0021】
第2の音声信号調整部としての音声信号調整部12は、ダイアログと重畳して再生される背景音(第2の音声オブジェクト)の音声信号が入力される。音声信号調整部12は、後述する調整値決定部14により決定された、背景音(第2の音声オブジェクト)の信号レベルの調整値である第2の調整値cに基づき、入力された背景音の信号レベルを調整し、音声信号合成部13に出力する。
【0022】
音声信号合成部13は、音声信号調整部11による信号レベルの調整後のダイアログの音声信号と、音声信号調整部12による信号レベルの調整後の背景音の音声信号とを合成した再生音を出力する。
【0023】
調整値決定部14は、ダイアログの信号レベルと背景音の信号レベルとの比aの増加または減少を要求するエンハンスメント要求が入力される。エンハンスメント要求としては、ダイアログの信号レベルと背景音の信号レベルとの比aの増加量または減少量が入力(要求)されてよい。また、エンハンスメント要求は、エンハンスメント量dを指定せず、単にダイアログの信号レベルと背景音の信号レベルとの比aの調整を要求するものであってもよい。この場合、調整値決定部14は、予め定められた所定値のエンハンスメント量dが要求されたものとして処理する。調整値決定部14は、音響メタデータが入力されてもよい。音響メタデータは、番組を構成する複数のオブジェクトの再生に関する情報である。音響メタデータは、例えば、エンハンスメント量dの上限値hを含む。
【0024】
調整値決定部14は、エンハンスメント要求が入力されると(ダイアログと背景音の信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると)、ダイアログの信号レベルの調整値である第1の調整値b、および、背景音の信号レベルの調整値である第2の調整値cを決定する。ここで、調整値決定部14は、詳細は後述するが、エンハンスメント量dに合わせて、第1の調整値bの真数と第2の調整値cの真数との二乗和が一定になるように第1の調整値bおよび第2の調整値cを決定する。また、調整値決定部14は、エンハンスメント量dが上限値eを超えないように第1の調整値bおよび第2の調整値cを決定してよい。
【0025】
調整値決定部14は、決定した第1の調整値bを音声信号調整部11に出力し、決定した第2の調整値cを音声信号調整部12に出力する。
【0026】
図2は、調整値決定部14の構成例を示す図である。
【0027】
図2に示すように、調整値決定部14は、調整値記憶部141と、調整値選択部142とを備える。
【0028】
調整値記憶部141は、エンハンスメント量dと、そのエンハンスメント量dに応じた第1の調整値b(ダイアログの信号レベルの調整値)および第2の調整値c(背景音の信号レベルの調整値)とが対応付けられた調整値リストを記憶する。
【0029】
図3Aは、調整値記憶部141が記憶する調整値リストの一例を示す図である。図3Aにおいては、エンハンスメント量d(レベル)が0dB,+6dB,+12dBである場合の調整値リストの例を示している。
【0030】
図3Aに示すように、調整値記憶部141は、エンハンスメント量dと、第1の調整値b(ダイアログの信号レベルの調整値(係数、レベル))および第2の調整値c(背景音の信号レベルの調整値(係数、レベル))とを対応付けた調整値リストを記憶する。
【0031】
図3Aにおいては、エンハンスメント量d(レベル)が0dB,+6dB,+12dBである例を用いて説明したが、本開示はこれに限られるものではない。調整値記憶部141は、図3Bに示すように、より広範囲のエンハンスメント量dと、第1の調整値bおよび第2の調整値cとが対応付けられた調整値リストを記憶してもよい。ただし詳細は後述するが、ダイアログエンハンスメントによるダイアログの信号レベルと背景音の信号レベルとの比aの増加量はある値以上でないとダイアログの聞き取りの改善効果が視聴者に感じられにくく、また、ダイアログの信号レベルと背景音の信号レベルとの比aの増加量が大きすぎると、番組音声の全体的な印象が悪化してしまう。そのため、図3Aに示すように、エンハンスメント量dの区切りは+6dB程度、また、エンハンスメント量dの上限値eは+12dB程度とするのが好ましい。
【0032】
図3A,3Bに示すような調整値リストは予め計算により求めることができる。以下では、エンハンスメント量dに応じた、第1の調整値bおよび第2の調整値cの計算方法について説明する。
【0033】
ダイアログの音声オブジェクトDを、時間tの関数およびチャネル数mを用いて式(1)のように定義し、背景音の音声オブジェクトBを、時間tの関数およびチャネル数nを用いて式(2)のように定義する。
【0034】
【数1】
【0035】
また、時間tが0からTの範囲の、各音声オブジェクトの平均エネルギーE,Eは以下の式(3)および式(4)で表される。
【0036】
【数2】
【0037】
なお、エネルギーレベルとラウドネスレベルとは一般に異なる値であるが、エンハンスメント量dおよびダイアログ/背景音比(以下、「D/B比」と称する。)など、各音声オブジェクト間の比に関する数値の計算においては、エネルギーレベルとラウドネスレベルとを等価とみなすことができることとする。
【0038】
ダイアログ用の係数γ(γ≧0)および背景音用の係数δ(δ≧0)を用いると、ダイアログエンハンスメント後のダイアログ
および背景音
はそれぞれ、以下の式(5),(6)で表される。なお、ダイアログ用の係数γは、第1の調整値bの真数に相当し、背景音用の係数δは、第2の調整値cの真数に相当する。
【0039】
【数3】
【0040】
同様に、ダイアログエンハンスメント後のダイアログの平均エネルギー
および背景音の平均エネルギー
はそれぞれ、以下の式(7),(8)で表される。
【0041】
【数4】
【0042】
次に、ダイアログエンハンスメントに係るパラメータである、エンハンスメント量gおよびD/B比rをそれぞれ、以下の式(9)、(10)のように定義する。
【0043】
【数5】
【0044】
エンハンスメント量gのレベルをG、D/B比rのレベルをRとすると、それぞれ以下の式(11),(12)で表される。
【0045】
【数6】
【0046】
ここで、係数γ,δの初期値を1とすると、ダイアログの強調条件はγ>1,δ=1となる。また、ダイアログの抑制条件はγ<1,δ=1となる。しかしながら、この条件では、ダイアログエンハンスメントに伴って番組音声全体のエネルギーも変化してしまい、番組の全体の平均ラウドネスレベルを規制している現在の運用規定に合わなくなってしまう。そのため、番組音声を構成する全ての音声オブジェクトのエネルギーの合計を一定に保つことで、番組音声の音量感が大きく変化しないようにダイアログエンハンスメントを実装することが望ましい。全ての音声オブジェクト(ここでは、ダイアログおよび背景音)のエネルギーの合計が一定であるという条件は以下の式(13)で表される。
【0047】
【数7】
【0048】
なお、実際にダイアログエンハンスメントを適用するためには、エンハンスメント量gに応じた係数γ,δの値が必要であり、そのためには平均エネルギーE,Eの値が必要になる。平均エネルギーE,Eの値が音響メタデータなどから取得可能な場合、実際の平均エネルギーE,Eの値を用いて係数γ,δの値を導出し、ダイアログエンハンスメントを行うことができる。
【0049】
一方、音声信号の状態が逐次変化する生放送においては、各時点での正確な平均エネルギーE,Eの値を受信機側で把握できないことが多い。そこで、ダイアログエンハンスメント機能が用いられる条件としてE=Eと仮定すると、以下の式(14)が導かれる。
γ+δ=2 式(14)
【0050】
ここで、媒介変数θ(0≦θ≦π/2)を導入すると、係数γ,δは以下の式(15),(16)で表すことができる。
【0051】
【数8】
【0052】
図4Aは、式(15),(16)より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ,δの変化の様子を真数表示した図である。また、図4Bは、式(15),(16)より得られる、ダイアログおよび背景音のエネルギーの合計が一定である場合の、係数γ,δの変化の様子を対数表示した図である。図4Bにおける、20logγ-20logδがエンハンスメント量dに相当する。
【0053】
式(15),(16)および図4A,4Bに基づき、各エンハンスメント量dに対応する、ダイアログの信号レベルおよび背景音の信号レベルの調整値を決定し、図3A,3Bに示すような、調整値リストを作成することができる。
【0054】
図2を再び参照すると、調整値選択部142は、エンハンスメント要求が入力される。また、調整値選択部142は、音響メタデータが入力されてもよい。調整値選択部142は、エンハンスメント要求(ダイアログと背景音の信号レベルとの比aの増加量または減少量がエンハンスメント量dとして要求されると)が入力されると、調整値記憶部141に記憶されている調整値リストを参照し、第1の調整値bおよび第2の調整値cを選択する。式(14)から分かるように、調整値リストに記載される第1の調整値bおよび第2の調整値cは、ダイアログ用の係数γ(第1の調整値bの真数)と、背景音用の係数δ(第2の調整値cの真数)との二乗和が一定となるようにして決定された値である。したがって、調整値選択部142は、第1の調整値bの真数と、第2の調整値cの真数との二乗和が一定となるように、第1の調整値bおよび第2の調整値cを決定する。調整値選択部142は、エンハンスメント要求として、エンハンスメント量dが入力された場合、調整値リストにおいて、そのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。例えば、調整値記憶部141には図3Aに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量dが+6dBである場合、調整値リストにおいて、+6dBのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。
【0055】
なお、エンハンスメント要求に含まれるエンハンスメント量dが、調整値リストに含まれるエンハンスメント量dと一致しない場合がある。この場合、調整値選択部142は、例えば、調整値リストに含まれるエンハンスメント量dの内、エンハンスメント要求に含まれるエンハンスメント量dと近いエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。例えば、調整値記憶部141には図3Aに示す調整値リストが記憶されており、エンハンスメント要求に含まれるエンハンスメント量dが+5dBである場合、調整値リストにおいて、+5dBに最も近い+6dBのエンハンスメント量dに対応付けられている調整値を、第1の調整値bおよび第2の調整値cとして選択する。なお、エンハンスメント要求に含まれるエンハンスメント量dに近い調整値リストに含まれるエンハンスメント量dが2種類ある場合は、どちらかを適宜選択する。
【0056】
また、エンハンスメント要求がエンハンスメント量を含まず、ダイアログの音量の増加だけを要求する場合、調整値選択部142は、例えば、予め定められた所定値のエンハンスメント量dが要求されたものとして、第1の調整値bおよび第2の調整値cを選択してもよい。この場合、調整値選択部142は、エンハンスメント要求が行われるたびに、エンハンスメント量dが上限値eを超えない範囲で、エンハンスメント量dを増加させる。例えば、調整値選択部142は、上限値eが+12dBであるとすると、1回目のエンハンスメント要求が入力されると、エンハンスメント量dを+6dBとし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dを+12dBとし、3回目のエンハンスメント要求が入力されると、エンハンスメント量dを0としてもよい。また、調整値選択部142は、上限値eが+6dBより大きく、+12dB未満である場合、1回目のエンハンスメント要求が入力されると、エンハンスメント量dを+6dBとし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dをその上限値としてもよい。また、調整値選択部142は、上限値eが+6dB未満である場合、1回目のエンハンスメント要求が入力されると、エンハンスメント量dをその上限値とし、2回目のエンハンスメント要求が入力されると、エンハンスメント量dを0としてよい。
【0057】
また、調整値選択部142は、エンハンスメント要求にエンハンスメント量dが含まれていても、そのエンハンスメント量dに関わらず、所定値だけエンハンスメント量dが増加または減少するように、第1の調整値bおよび第2の調整値cを選択してもよい。すなわち、調整値選択部142は、例えば、図3Aに示す調整値リストが調整値記憶部141に記憶されている場合、エンハンスメント量dがエンハンスメント要求に含まれているか否かに関わらず、エンハンスメント量dが所定値(例えば、+6dB))以上となるように、第1の調整値bおよび第2の調整値cを選択してよい。
【0058】
調整値選択部142は、選択した第1の調整値bを音声信号調整部11に出力し、選択した第2の調整値cを音声信号調整部12に出力する。
【0059】
次に、本実施形態に係る音声信号処理装置10の動作について説明する。図5は、本実施形態に係る音声信号処理装置10の動作の一例を示すフローチャートである。図5においては、エンハンスメント要求が行われるたびに、上限値e(+12dB)を超えない範囲で、ダイアログの音量を所定値(+6dB)ずつ増加させる場合の、音声信号処理装置10の動作を例として説明する。
【0060】
音声信号調整部11は、ダイアログの音声オブジェクトを取得する(ステップS101)。音声信号調整部12は、背景音の音声オブジェクトを取得する(ステップS102)。また、調整値決定部14は、音響メタデータを取得する(ステップS103)。
【0061】
調整値決定部14は、取得した音響メタデータからエンハンスメント量dの上限値hを取得したか否かを判定する(ステップS104)。
【0062】
音響メタデータにエンハンスメント量dの上限値hが含まれておらず、エンハンスメント量dの上限値hを取得していないと判定した場合(ステップS104:No)調整値決定部14は、エンハンスメント量dの上限値eを+12dBに設定し(ステップS105)、後述するステップS107の処理に進む。
【0063】
エンハンスメント量dの上限値hを取得したと判定した場合(ステップS104:Yes)調整値決定部14は、取得したエンハンスメント量dの上限値hは+6dBより大きいか否かを判定する(ステップS106)。
【0064】
取得したエンハンスメント量dの上限値hは+6dBより大きいと判定した場合(ステップS106:Yes)、および、上限値eを+12dBと設定した(上限値eが+6dB以上である)場合(ステップS105)、調整値決定部14は、エンハンスメント量dを+6dBに設定する(ステップS107)。このように、調整値決定部14は、上限値hが+6dB以上の場合(ステップS106:Yes)、あるいは、上限値eが+6dB以上の場合(ステップS105)、エンハンスメント量dを+6dB以上とする。
【0065】
取得したエンハンスメント量dの上限値hは+6dBより大きくないと判定した場合(ステップS106:No)、調整値決定部14は、エンハンスメント量dを取得した上限値hに設定する(ステップS108)。このように、調整値決定部14は、音響メタデータに含まれるエンハンスメント量dの上限値hを取得した場合、上限値hを超えないように、エンハンスメント量dを設定する(ステップS107,S108)。そして、調整値決定部14は、設定したエンハンスメント量dに基づき、第1の調整値bおよび第2の調整値cを決定する。すなわち、調整値決定部14は、音響メタデータに含まれるエンハンスメント量dの上限値hを取得した場合、エンハンスメント量dが上限値hを超えないように第1の調整値bおよび第2の調整値cを決定する。
【0066】
エンハンスメント量dを設定した後、エンハンスメント要求を取得すると(ステップS109)、調整値決定部14は、調整値リストを参照して、第1の調整値bおよび第2の調整値cを決定する。図5に示す例では、調整値決定部14は、上限値eが+6dB以上の場合に、エンハンスメント量dを+6dB以上とする。調整値決定部14により決定された調整値に基づき、ダイアログエンハンスメントが実施される(ステップS110)。具体的には、音声信号調整部11は、調整値決定部14により決定された第1の調整値bに基づきダイアログの信号レベルを調整し、調整後のダイアログの音声信号を音声信号合成部13に出力する。また、音声信号調整部12は、調整値決定部14により決定された第2の調整値cに基づき背景音の信号レベルを調整し、調整後の背景音の音声信号を音声信号合成部13に出力する。
【0067】
音声信号合成部13は、音声信号調整部11から出力された音声信号に示されるダイアログと、音声信号調整部12から出力された音声信号に示される背景音とを合成し、再生音として出力する(ステップS111)。エンハンスメント要求が再び入力されると、調整値決定部14は、ステップS109の処理に戻る。
【0068】
図6は、ユーザがエンハンスメント要求を入力する際のUI(User Interface)の一例を示す図であり、テレビなどの表示装置における表示例を示す図である。
【0069】
例えば、ダイアログエンハンスメントが行われていない状態では、図6に示すように、ダイアログエンハンスメントが行われていない(エンハンスメント量dが0dBである)ことを示すアイコン21が表示される。アイコン21が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、エンハンスメント量dを+6dBとすることを示すアイコン22が表示される。
【0070】
アイコン22が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、エンハンスメント量dを+12dBとすることを示すアイコン23が表示される。
【0071】
アイコン23が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、ダイアログの出力をなくす(エンハンスメント量dを-∞とする)ことを示すアイコン24が表示される。
【0072】
アイコン24が表示された状態で、リモートコントローラなどを介してダイアログエンハンスメントを行うための所定の操作が行われると、図6に示すように、アイコン21が再び表示される。そして、例えば、アイコン21~24の表示に応じたエンハンスメント要求が出力される。
【0073】
次に、本願発明者らが行った、ダイアログエンハンスメントの効果の主観評価の結果について説明する。評価手法は、Rec. ITU-T P.800 Annex Eに規定されている、比較範疇尺度法(CMOS)を採用した。各試行では、D/B比の異なる2個1組の刺激をランダムに評価者に提示した。評価者は,コンテンツ聴取に普段使用する再生機器(スピーカ、ヘッドホン、イヤホンのいずれか)を用いて素材音を聴取し、ランダムに指定された一方の刺激を基準とし、もう一方の刺激を、「ダイアログの聞き取り(以下、聞き取り)」「番組の総合印象(以下,総合印象)」それぞれの観点で、非常に良い(+3)、良い(+2)、やや良い(+1)、ほとんど同じ(0)、やや悪い(-1)、悪い(-2)、非常に悪い(-3)の7段階で評価した。
【0074】
評価に用いる素材音としては10種類の番組の音声を用意し、各素材音の長さは約20秒とし、ダイアログおよび背景音の平均ラウドネスレベルはそれぞれ、-27LKFS(loudness, K-weighted, relative to full scale)に調整した。ダイアログと背景音とを組み合わせた刺激全体の平均ラウドネスレベルを一定に保ち、D/B比を3dB刻みで-6~+12dBの範囲で変化させた。
【0075】
図7Aは、スピーカ再生による、全10番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、95%信頼区間とを、ダイアログエンハンスメント前のD/B比(以下、「初期D/B比」と称する。)からのエンハンスメント量dを変数として示した図である。また、図7Bは、ヘッドホン・イヤホン再生による、全10番組分の音素材の聞き取りおよび総合印象に関する評価結果の平均と、95%信頼区間とを、初期D/B比からのエンハンスメント量dを変数として示した図である。なお、評価者数はいずれも25名である。
【0076】
図7A,7Bに示されるように、ダイアログエンハンスメントにより聞き取りが改善されることが確認された。ただし、エンハンスメント量dが+12dB以上では、聞き取りの改善効果は飽和し、どの初期D/B比でも、評点は+2に達しなかった。また、エンハンスメント量dが+3dBの場合、どの初期D/Bでも、聞き取りに関する評価カテゴリが変わるほどの効果はなかった。これは、エンハンスメント量dが小さいと、ダイアログエンハンスメントの効果を知覚しにくくなるためと考えられる。
【0077】
図7A,7Bに示されるように、ダイアログエンハンスメントにより総合印象が低下する場合があることが確認された。これは、D/B比が大きくなりすぎると、番組の臨場感が損なわれることがあるためと考えられる。したがって、上限値eを+12dBとし、本実施形態に係る音声信号処理装置10のように、エンハンスメント量dが上限値eを超えない範囲で、エンハンスメント量dを所定値(例えば、+6dB)だけ増加または減少させるように、第1の調整値bおよび第2の調整値cを決定することで、複数の音声オブジェクトから構成される番組音声の全体的な印象の悪化を抑制しつつ、特定の音声オブジェクトの聞き取りやすさの向上を図ることができる。
【0078】
実施形態では特に触れていないが、コンピュータを、音声信号処理装置10として動作させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。
【0079】
あるいは、音声信号処理装置10が行う各処理を実行するためのプログラムを記憶するメモリ、および、メモリに記憶されたプログラムを実行するプロセッサによって構成され、音声信号処理装置10に搭載されるチップが提供されてもよい。
【0080】
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0081】
10 音声信号処理装置
11 音声信号調整部(第1の音声信号調整部)
12 音声信号調整部(第2の音声信号調整部)
13 音声信号合成部
14 調整値決定部
141 調整値記憶部
142 調整値選択部
図1
図2
図3A
図3B
図4A
図4B
図5
図6
図7A
図7B
図8