特許第5812998号(P5812998)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テレフオンアクチーボラゲット エル エム エリクソン(パブル)の特許一覧

特許5812998オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
<>
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000005
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000006
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000007
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000008
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000009
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000010
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000011
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000012
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000013
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000014
  • 特許5812998-オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5812998
(24)【登録日】2015年10月2日
(45)【発行日】2015年11月17日
(54)【発明の名称】オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
(51)【国際特許分類】
   G10L 21/0388 20130101AFI20151029BHJP
   G10L 19/02 20130101ALI20151029BHJP
【FI】
   G10L21/0388 100
   G10L19/02 150
【請求項の数】14
【全頁数】17
(21)【出願番号】特願2012-539847(P2012-539847)
(86)(22)【出願日】2010年6月29日
(65)【公表番号】特表2013-511741(P2013-511741A)
(43)【公表日】2013年4月4日
(86)【国際出願番号】SE2010050746
(87)【国際公開番号】WO2011062535
(87)【国際公開日】20110526
【審査請求日】2013年5月31日
(31)【優先権主張番号】61/262,714
(32)【優先日】2009年11月19日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エル エム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【弁理士】
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100101199
【弁理士】
【氏名又は名称】小林 義教
(72)【発明者】
【氏名】グランシャロヴ, ヴォロージャ
(72)【発明者】
【氏名】スヴェリルソン, シグルズール
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開2008−107415(JP,A)
【文献】 特開2010−066335(JP,A)
【文献】 特開2005−010621(JP,A)
【文献】 特開2007−164041(JP,A)
【文献】 特開2007−178675(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
G10L 21/00−21/18
(57)【特許請求の範囲】
【請求項1】
所定の帯域幅に限られた復元スピーチ信号について知覚されるラウドネスおよびシャープネスを改善する方法であって、
前記スピーチ信号を用意するステップ(S10)と、
少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに、前記スピーチ信号を分割するステップ(S20)と、
前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように、前記第1の信号部分を調整するステップ(S30)と、
少なくとも前記調整した第1の信号部分にもとづいて前記第2の信号部分を復元するステップ(S40)と、
前記調整した第1の信号部分と前記復元した第2の信号部分とを組み合わせて(S50)、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成するステップと
を含む方法。
【請求項2】
前記調整するステップ(S30)が、
前記第1の信号部分をフィルタ処理するステップを含み、前記第1の帯域部分の選択された周波数に向かって第1の信号部分のエネルギの少なくとも一部を分配すると同時に、前記第1の帯域部分の選択された高周波数区間に向かって第1の信号部分のエネルギの少なくとも別の一部を分配する、請求項1に記載の方法。
【請求項3】
前記フィルタ処理するステップ(S30)が以下のフィルタ関数H(z):
H(z)=α・z−2+β・z−1−γ+β・z+1+α・z+2
に従って実行される、請求項2に記載の方法。
【請求項4】
係数α=0.1、β=0、γ=0.85である、請求項3に記載の方法。
【請求項5】
前記フィルタ処理するステップ(S30)が以下のフィルタ関数H(z):
H(z)=α・z−1−β+α・z+1
に従って実行される、請求項2に記載の方法。
【請求項6】
係数α=0.06およびβ=0.66である、請求項5に記載の方法。
【請求項7】
前記フィルタ処理するステップ(S30)が以下のフィルタ関数H(z):
H(z)=1−μ・z−1
に従って実行される、請求項2に記載の方法。
【請求項8】
係数μ=0.2である、請求項7に記載の方法。
【請求項9】
自然の外耳−中耳の反応にもとづいて、前記第1の帯域部分の範囲内の前記周波数を選択するさらなるステップを含む、請求項2に記載の方法。
【請求項10】
前記第1の帯域部分が、前記用意されるスピーチ信号の低周波数帯(LB)に相当し、前記第2の帯域部分が、前記用意されるスピーチ信号の高周波数帯(HB)に相当する、請求項1〜9のいずれか1項に記載の方法。
【請求項11】
前記調整するステップ(S30)が、低周波数帯(LB)をプレフィルタ処理するステップにもとづいており、前記第2の信号部分を復元するステップ(S40)が、帯域拡張(BWE)または低域通過フィルタ処理にもとづく、請求項10に記載の方法。
【請求項12】
所定の帯域幅に限られた復元スピーチ信号について知覚されるラウドネスおよびシャープネスを改善するためのシステムであって、
前記スピーチ信号を生成する手段(10)と、
少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに、前記スピーチ信号を分割する手段(20)と、
前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように、前記第1の信号部分を調整する手段(30)と、
少なくとも前記調整した第1の信号部分にもとづいて前記第2の信号部分を復元する手段(40)と、
前記調整した第1の信号部分と前記復元した第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成する手段(50)と
を備えるシステム。
【請求項13】
前記手段(30)が、プレフィルタ処理によって前記第1の信号部分を調整するように構成され、前記第1の信号部分が、前記スピーチ信号の低周波数帯(LB)に相当し、前記手段(40)が、帯域拡張(BWE)または低域通過フィルタ処理にもとづいて、前記スピーチ信号の高周波数帯(HB)を復元する、請求項12に記載のシステム。
【請求項14】
通信システムにおいて所定の帯域幅に限られたスピーチ信号を処理するためのデコーダ装置()であって、
少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに、生成されたスピーチ信号を分割することによって得られる第1の信号部分を受信する手段(25)と、
前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように、前記受信される第1の信号部分を調整する手段(30)と、
少なくとも前記調整した第1の信号部分にもとづいて前記第2の信号部分を復元する手段(40)と、
前記調整済みの第1の信号部分と前記復元される第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成する手段(50)と
を備えるデコーダ装置()。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、広くにはオーディオコーディング/デコーディングに関し、とくにはオーディオコーディングにおけるラウドネスおよびシャープネスの限界の補償を実行またはサポートする帯域拡張の仕組みに関する。
【背景技術】
【0002】
心理音響学の分野は、音の知覚の研究に関する。それには、人間の聴覚の仕組み、その生理的な応答、ならびに人間の神経系への音楽および音の生理的な影響が含まれる。とくには最新の通信システムの開発において、音刺激が聴覚系によってどのように処理されるのかについての知見が、新たなデジタルオーディオ技術の開発および既存の技術の改善において重要である。マルチメディアおよび配信サービスにおいて不可欠な構成要素であるオーディオコーデックは、人間の聴覚系の特性についての知見に左右され、低ビットレートでの効率的な伝送および保存のためにオーディオ情報を圧縮する。さらに、やはり心理音響に関する知見に大きく依存する客観的な品質評価の仕組みも、オーディオ品質の主観的評定を模擬するために開発されてきている。
【0003】
現代のほぼすべてのオーディオコーデック[1〜5]は、オーディオ信号の信号周波数成分のうちの一部だけをエンコードおよび伝送し、デコーダにおいてオーディオ信号の残りの周波数を復元するという考え方を利用している。典型的には、信号の低周波数帯(LB)だけが伝送され、信号の高周波数帯(HB)は、後にいわゆる帯域拡張(BWE)によって復元される。典型的なBWEの仕組みにおいては、信号の周波数成分が、隣接する帯域からの利用可能な周波数成分(通常は、利用可能なLB)のトランスレートまたはフリッピングによって拡張される。しかしながら、そのようなやり方で復元された信号は、復元後の信号において知覚できる特定のアーチファクトゆえ、元のオーディオ信号のHBに正確に一致するHBを有するわけではない。それらのアーチファクトの影響を最小限にするために、BWEの仕組みにおいては、復元されたHBのゲインが典型的には元のHBのゲインよりも低く保たれ、結果として復元された信号の心理音響的な特性が変質することになる。最も影響を受ける特性は、とりわけラウドネスの知覚およびシャープネスの知覚である。ラウドネスは、スピーチ信号の信号強度または音圧に関する。シャープネスは、スピーチ信号の周波数におけるエネルギ分布に関し、高周波成分の相対的増加につれて向上する。信号の帯域が限られており、あるいは従来からのBWEの仕組みが適用される場合、復元された信号について知覚されるラウドネスおよびシャープネスがどちらも元の信号と比べて低下し、主観的品質の低下につながる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
したがって、受信/デコード後の信号について知覚されるラウドネスおよびシャープネスを向上させることができる方法および装置について、ニーズが存在する。
【0005】
本発明は、改善された帯域拡張の仕組みに関する。
【0006】
本発明の目的は、スピーチ信号の知覚品質を改善するための方法およびシステムを提供することにある。
【0007】
さらなる目的は、復元スピーチ信号について知覚されるラウドネスおよびシャープネスの改善を可能にすることにある。
【0008】
具体的な目的は、スピーチ信号を処理するためのエンコーダおよびデコーダ装置を提供することにある。
【0009】
他の具体的な目的は、スピーチ信号の処理方法を提供することにある。
【0010】
またさらなる具体的な目的は、フィルタ装置を提供することにある。
【課題を解決するための手段】
【0011】
所定の帯域幅に限られた復元スピーチ信号について知覚されるラウドネスおよびシャープネスを改善する第1の態様において、スピーチ信号が用意される。次いで、スピーチ信号が、少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割される。その後に、第1の信号部分が、前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整される。最後に、第2の信号部分が、少なくとも第1の信号部分にもとづいて復元され、調整済みの第1の信号部分と復元された第2の信号部分とが組み合わせられ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号が生成される。
【0012】
本発明の第2の態様においては、所定の帯域幅に限られた復元スピーチ信号について知覚されるラウドネスおよびシャープネスを改善するためのシステムが、前記スピーチ信号を生成する手段を備える。さらに、前記スピーチ信号を、少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割する手段が、システムに備えられる。さらにシステムは、第1の信号部分を前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整する手段を備える。最後に、システムは、少なくとも第1の信号部分にもとづいて前記第2の信号部分を復元する手段と、前記調整した第1の信号部分と前記復元した第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成する手段とを備える。
【0013】
本発明の第3の態様においては、通信システムにおいて所定の帯域幅に限られたスピーチ信号を処理するためのエンコーダ装置が、前記スピーチ信号を生成する手段を備える。さらに、このエンコーダ装置が、前記スピーチ信号を、少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割する手段を備える。加えて、このエンコーダ装置が、前記第1の信号部分を、前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調する手段と、少なくとも前記調整した第1の信号部分を他のノードへと送信する手段とを備える。
【0014】
本発明の第4の態様においては、通信システムにおいて所定の帯域幅に限られたスピーチ信号を処理するためのデコーダ装置が、スピーチ信号の調整済みの第1の信号部分を受信する手段を備える。調整済みの第1の信号部分は、生成されたスピーチ信号を少なくとも所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割して、前記第1の信号部分を前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整することによって得られる。さらに、デコーダ装置は、少なくとも前記受信される調整済みの第1の信号部分にもとづいて前記第2の信号部分を復元する手段を備える。最後に、デコーダ装置は、前記受信される調整済みの第1の信号部分と前記復元される第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成する手段を備える。
【0015】
本発明の第5の態様においては、通信システムにおいて所定の帯域幅に限られたスピーチ信号を処理するためのデコーダ装置が、スピーチ信号の第1の信号部分を受信する手段を備える。この第1の信号部分は、生成されたスピーチ信号を少なくとも所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割することによって得られる。さらに、このデコーダ装置は、受信される第1の信号部分を、前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように
構成された手段を備える。最後に、デコーダ装置は、少なくとも前記第1の信号部分にもとづいて前記第2の信号部分を復元する手段と、前記調整済みの第1の信号部分と前記復元される第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成する手段とを備える。
【0016】
本発明の第6の態様においては、通信システムの一ノードのエンコーダ装置において所定の帯域幅に限られたスピーチ信号を処理する方法が、前記スピーチ信号を生成するステップと、前記スピーチ信号を、少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と、前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割するステップとを含む。さらにこの方法は、前記第1の信号部分を、前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整するステップと、前記調整した第1の信号部分を他のノードへと送信するステップとを含む。
【0017】
本発明の第7の態様においては、通信システムの一ノードのデコーダ装置において所定の帯域幅に限られたスピーチ信号を処理する方法が、調整済みの第1の信号部分を別のノードから受信するステップを含む。この調整済みの第1の信号部分は、生成されたスピーチ信号を少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割して、前記第1の信号部分を前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整することによって得られる。さらにこの方法は、前記受信される調整済みの第1の信号部分にもとづいて前記第2の信号部分を復元するステップと、前記調整済みの第1の信号部分と前記復元される第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成するステップとを含む。
【0018】
本発明の第8の態様においては、通信システムの一ノードのデコーダ装置において所定の帯域幅に限られたスピーチ信号を処理する方法が、スピーチ信号の第1の信号部分を別のノードから受信するステップを含む。この第1の信号部分は、前記スピーチ信号を少なくとも前記所定の帯域幅のうちの第1の帯域部分にもとづく第1の信号部分と前記所定の帯域幅のうちの第2の帯域部分にもとづく第2の信号部分とに分割することによって得られる。さらにこの方法は、前記受信した第1の信号部分を前記第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整するステップと、少なくとも前記第1の信号部分にもとづいて前記第2の信号部分を復元するステップとを含む。最後に、この方法は、前記調整済みの第1の信号部分と前記復元された第2の信号部分とを組み合わせ、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成するステップとを含む。
【0019】
本発明の第9の態様においては、通信システムにおいて所定の帯域幅に限られたスピーチ信号を調整するためのフィルタ装置が、スピーチ信号について該スピーチ信号の前記所定の周波数帯のうちの第1の帯域部分にもとづいて生成される第1の信号部分を、前記第1の帯域部分の範囲内の少なくとも所定の周波数区間を強調するように調整するように構成される。
【0020】
本発明の利点として、スピーチ信号の一部をプレフィルタ処理することによって、復元スピーチ信号について知覚される全体としてのラウドネスおよびシャープネスが改善されることが挙げられる。
【0021】
本発明ならびに本発明のさらなる目的および利点を、以下の説明を参照し、添付の図面と併せて検討することによって、最もよく理解することができる。
【図面の簡単な説明】
【0022】
図1】本発明による方法の実施形態の概略のフロー図である。
図2】本発明による方法のさらなる実施形態の概略のフロー図である。
図3図2の実施形態の働きの概略のブロック図である。
図4】本発明による方法のまたさらなる実施形態の概略のフロー図である。
図5図4の実施形態の働きの概略のブロック図である。
図6】本発明による装置の実施形態の概略のブロック図である。
図7】外耳−中耳の応答を示すグラフである。
図8】先行技術と本発明の効果との間の比較を示すグラフである。
図9】先行技術と本発明の効果との間の比較の聴き取りテストを示す図である。
図10】本発明による装置のさらなる実施形態の概略のブロック図である。
図11】本発明の実施形態の概略のブロック図である。
【発明を実施するための形態】
【0023】
本開示は、通信システム(帯域拡張の仕組みを使用するシステムなど)におけるスピーチエンコーディング/デコーディング、ならびにそのようなシステムにおいて知覚される品質を改善し、とくには知覚されるラウドネスおよびシャープネスを改善するための方法および装置に関する。本発明の実施形態が有益であると考えられる具体的なコーデックの例は、AMR−WB(適応マルチレート広帯域)コーデックである。しかしながら、帯域拡張を使用する他のコーデックについても、本発明または本発明の実施形態が有益であると考えられる。
【0024】
本開示の目的は、信号(例えば、復元された信号)について知覚されるラウドネスおよびシャープネスを改善するためにスピーチ信号を調整するための方法および装置を提供することにある。信号の選択された一部分だけを調整し、あるいは前もってフィルタ処理することで、信号全体について知覚される品質を改善できることが、すでに認められている。人間の耳の自然な反応を考慮に入れることによって、耳が典型的に最も敏感である周波数について、スピーチ信号を強調することができる。結果として、再結合または復元したスピーチ信号全体を、あたかもラウドネスおよびシャープネスが改善されたかのように聴き手に知覚させることができる。
【0025】
図1を参照し、本発明の所定の帯域幅に限られた自然のスピーチ信号に相当するスピーチ信号について、知覚されるラウドネスおよびシャープネスを改善する方法の実施形態を説明する。この実施形態において、本発明による方法は、特定のノードまたはネットワークデバイスに限られない。
【0026】
最初に、スピーチ信号が生成される(S10)。スピーチ信号を、任意の従来からの手段によって生成することができる。次いで、スピーチ信号が、所定の帯域幅の第1および第2の帯域部分にもとづいて、少なくとも第1および第2の信号部分へと分離される(S20)。典型的には、これは、所定の周波数帯を低周波数帯部分(LB)および高周波数帯部分(HB)へと分割することによって実行される。しかしながら、帯域幅について他の分割を実行することも可能である。本発明の特定の例においては、所定の周波数帯が、0〜8.0kHzの周波数区間に相当し、低周波数帯が0〜6.4kHzの周波数によって表わされる一方で、高周波数帯は、6.4〜8.0kHzの周波数によって表わされる。しかしながら、他の周波数区間も同様に可能である。次いで、第1の信号部分が、第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調するように調整される(S30)。特定の例では、この所定の周波数が、内耳の反応の中心周波数(例えば、3.2kHz)によって表わされ、あるいは3.2〜6.4kHzの周波数範囲の全体によって表わされる。最後に、第2の信号部分またはその表現が、第1の信号部分にもとづいて復元され(S40)、次いで調整された第1の信号部分および復元された第2の信号部分が組み合わせられ(S50)、全体として知覚されるラウドネスおよびシャープネスが改善されてなる復元スピーチ信号が生成される。
【0027】
例として、分離後のスピーチ信号の第1の部分の調整は、第1の信号部分のエネルギの少なくとも一部が第1の帯域部分の範囲内の選択された周波数に向かって分配されると同時に、第1の信号部分のエネルギの別の一部分が第1の帯域部分の高周波数区間または領域に向かって分配されるようなやり方で実行される。このやり方で、後に復元される信号について知覚される全体としてのラウドネスおよびシャープネスが、フィルタ処理または調整が行なわれていないスピーチ信号の低周波数帯にもとづいて復元されるスピーチ信号と比べて、改善される。
【0028】
BWEの改善を、復元される信号の全体としてのラウドネスおよびシャープネスがBWEの仕組みに起因する損失について補償されるようなやり方で、利用可能なスピーチ信号の低周波数帯(LB)をプレフィルタ処理することによって達成することができる。プレフィルタ処理は、復元された高周波数帯(HB)については、これによって持ち込まれる信号アーチファクトの量が増加するため、典型的には実行されない。プレフィルタ処理という用語は、開示されるフィルタ処理または調整が信号の復元または再結合に先立って実行されることを指して使用されている。したがって、フィルタ処理または調整は、好ましくは信号の一部分についてのみ適用されるが、影響または改善は、再結合または復元後の信号全体について知覚される。
【0029】
調整の段階S30は、典型的には、低周波数帯のプレフィルタ処理にもとづき、復元の段階S40は、BWEまたは低域通過フィルタ処理にもとづくことができる。
【0030】
以下の説明においては、機能の各段階が、例えば通信システムまたはネットワークにおける送信および受信ノードのそれぞれのエンコーダおよびデコーダなど、ネットワークの2つのノードに分配または共有されるものとして説明される。したがって、分離または選択された第1の信号部分の調整S30またはフィルタ処理のステップを、第1の信号部分または第1の信号部分の表現の伝送後または伝送前に実行することができる(詳細は以下で説明される)。
【0031】
図2を参照し、スピーチ信号の第1の信号部分(例えば、低周波数帯)のフィルタ処理または調整が第1のネットワークノードのデコーダまたは受信装置において実行される方法の実施形態を説明する。したがって、手順全体の種々の段階のうちの一部が、エンコーダまたは送信装置において実行され、一部がデコーダまたは受信装置において実行される。この特定の実施形態においては、スピーチ信号が公知のやり方でエンコードされる。したがって、スピーチ信号を用意する段階S10ならびにスピーチ信号をスピーチ信号の所定の帯域幅の第1および第2の帯域部分にもとづいて少なくとも第1および第2の信号部分へと分離する段階S20が、好ましくはエンコーダにおいて実行される。次いで、分離または選択された第1の信号部分または第1の信号部分の表現が送信され(S24)、ネットワークの第2のノードの受信器またはデコーダ装置において受信される(S25)。次いで、デコーダが、受信した第1の信号部分または第1の信号部分の表現を、第1の帯域部分の範囲内の所定の周波数または周波数区間が強調されるように調整する(S30)。公知の手段により、スピーチ信号の第2の信号部分または高周波数帯が、受信した第1の信号部分にもとづいて復元される(S40)。最後に、調整済みの第1の信号部分および復元された第2の信号部分が組み合わせられ(S50)、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号が生成される。
【0032】
図3を参照すると、提供されるスピーチ信号の種々の部分ならびに上述の方法の実行中のスピーチ信号の種々の部分の処理が示されている。したがって、図3において、オーディオスピーチ処理のためのスピーチ信号が、信号供給部10によって適切な形態で提供される。次いで、信号は、低周波数帯LBおよび高周波数帯HBにもとづいて第1および第2の信号部分へと信号分離部20によって分割される。次いで、第1の信号部分LBが、送信部24によって送信される。その後に、送信された第1の信号部分LBが、受信部25において受信される。受信された第1の信号部分LBにもとづき、第2の信号部分HBまたは第2の信号部分の表現が、復元部40によって(例えば、好ましくはBWEを使用して)復元される一方で、第1の信号部分が、調整部30によって調整またはフィルタ処理され、フィルタ処理済みまたは調整済みの第1の信号部分LBが生成される。最後に、2つの部分LBおよびHBが、結合部50によって再び組み合わせられ、改善された復元または再結合スピーチ信号が形成される。
【0033】
図4を参照し、スピーチ信号の第1の信号部分(例えば、低周波数帯)のフィルタ処理または調整がエンコーダまたは送信装置において実行される方法の実施形態を説明する。この実施形態においては、デコーダ装置も、後述される本発明の全利益を利用できるように構成される必要がある。
【0034】
したがって、エンコーダあるいは送信ノードまたは装置において、スピーチ信号を用意するステップS10ならびにスピーチ信号をスピーチ信号の所定の帯域幅の第1および第2の帯域部分にもとづいて少なくとも第1および第2の信号部分へと分離するステップS20が実行される。次いで、エンコーダ装置が、用意された第1の信号部分を、第1の帯域部分の範囲内の所定の周波数または周波数区間が強調されるように調整する(S30)。次いで、調整後の第1の信号部分または調整後の第1の信号部分の表現が送信され(S34)、例えば受信器またはデコーダ装置などのネットワークのノードにおいて受信される(S35)。加えて、エンコーダは、使用されているコーデックの種類についての情報や、デコーダにおいて少なくとも受信される調整済みの第1の信号部分(例えば、低周波数帯)にもとづいて第2の信号部分または高周波帯を復元(S40)することが可能であるために必要な任意の他の情報を提供する。典型的には、この補助的情報は、2つのノードの間のセッションのネゴシエーションの際にすでに入手可能にされており、あるいは前もって知られている(コーデックおよび他のセッションパラメータについて合意がなされている)。しかしながら、いくつかの事例においては、第2の信号部分の復元を助けるためにさらなる補助的情報を提供する必要がある。最後に、デコーダが、受信した調整済みの第1の信号部分LBおよび復元した第2の信号部分HBを組み合わせ(S50)、全体として知覚されるラウドネスおよびシャープネスが改善された復元スピーチ信号を生成することができる。これが、図5にさらに説明される。
【0035】
図5を参照すると、提供されるスピーチ信号の種々の部分ならびに上述の方法の実行中のスピーチ信号の種々の部分の処理が示されている。したがって、図5において、信号供給部10がスピーチ信号を供給し、次いでこの信号が、信号分離部20によって、低周波数帯LBおよび高周波数帯HBにもとづいて第1および第2の信号部分へと分割される。次いで、第1の信号部分LBが、アダプタ30によって調整またはフィルタ処理され、フィルタ処理済みまたは調整済みの第1の信号部分LBが生成される。次いでこれが、送信部34によって送信される。その後に、送信された調整済みの第1の信号部分LBが、受信部35において受信される。第2の信号部分HBの復元を可能にする情報が、この信号とともに生成され、あるいはセッションの初期化またはコーデックのネゴシエーションの際にすでに生成されている。受信された調整済みの第1の信号部分LBにもとづき、第2の信号部分HBまたは第2の信号部分HBの表現が、復元部40によって(例えば、好ましくはBWEまたは低域通過フィルタ処理を使用して)復元される。最後に、2つの部分LBおよびHBが、結合部50によって組み合わせられ、改善された復元または結合スピーチ信号が形成される。
【0036】
図6を参照し、全体としての方法をサポートするシステム100ならびに装置(例えば、エンコーダ装置1/デコーダ装置2、送信部/受信部、第1/第2のノード)の実施形態を説明する。さらに、第1の信号部分の調整またはフィルタ処理の機能を、分離した機能として設けることができ、例えば破線の四角30によって示されるとおり、エンコーダ装置1またはデコーダ装置2のいずれか、あるいはシステム100の何らかの他のノードに備えることができるフィルタ装置30として設けることができる。
【0037】
図6を参照すると、本発明によるシステム100の実施形態は、所定の帯域に限られたスピーチ信号を生成するための信号供給部10を備える。この信号を、システムの他のノードから生成することができ、マイクロホンまたは他のオーディオデバイスによってエンコーダ装置1において実際に記録/生成することができ、あるいはシステムの何らかの他の装置において実際に記録/生成することができる。さらに、システム100は、スピーチ信号を所定の帯域の範囲内の2つの帯域部分にもとづいて少なくとも2つの信号部分へと分割するための分割部20を備える。典型的には、2つの信号部分は、信号の低周波数帯LBおよび高周波数帯HBに相当するが、何らかの他の分割も実行可能である。さらに、システム100は、第1の帯域部分の範囲内の少なくとも所定の周波数または周波数区間を強調すべく第1の信号部分またはLBをフィルタ処理または調整する調整部30を備える。最後に、システム100は、信号の第2の信号部分またはHBを復元するための復元部40と、調整済みの第1の信号部分と復元した第2の信号部分とを組み合わせて、スピーチ信号の復元(例えばラウドネスおよびシャープネスなどの知覚品質が改善されている)を生成する結合部50を備える。さらに、図6を参照すると、システム100が、例えばエンコーダ装置1を備える第1のノードおよびデコーダ装置2を備える第2のノードなど、後述される実施形態の通信システムにおける2つのノードを備えている。
【0038】
エンコーダ1の実施形態によれば、エンコーダ装置1は、スピーチ信号を生成するためのスピーチ信号供給部10と、スピーチ信号を第1および第2の信号部分に分割する信号分割部20とを備えている。さらに、エンコーダ装置1は、本開示においてすでに述べた方法に従って第1の信号部分を調整するための第1の信号部分の調整部30を備えている。さらに、エンコーダ1は、少なくとも調整後の第1の信号部分の表現を送信し、さらに随意によりシステム100のデコーダ装置2における第2の信号部分の復元を補助する情報を送信する信号送信部34を備えている。
【0039】
デコーダ2の実施形態によれば、デコーダ装置2が、上述したエンコーダ装置1と協働するように構成される。したがって、デコーダ2は、上述のエンコーダ1によって生成される調整済みの第1の信号部分の表現を、追加の情報とともに受信する信号受信部35を備える。加えて、デコーダ2は、受信した調整済みの第1の信号部分にもとづいてスピーチ信号の第2の信号部分を復元する復元部40を備える。最後に、デコーダ2は、受信した調整済みの第1の信号部分と復元した第2の信号部分とを組み合わせ、知覚されるラウドネスおよびシャープネスが改善されている復元信号を生成する結合部50を備える。
【0040】
エンコーダ1のさらなる実施形態によれば、エンコーダ装置1が、スピーチ信号を生成するためのスピーチ信号供給部10、スピーチ信号を第1および第2の信号部分へと分割する信号分割部20、ならびに第1の信号部分または少なくとも第1の信号部分の表現を通信ネットワーク内の第2のノードへと送信するためのユニット24だけを備える。
【0041】
デコーダ2のさらなる実施形態によれば、デコーダ装置2が、上述のエンコーダ装置1から第1の信号部分を受信する信号受信部25を備える。さらに、デコーダ2は、受信した第1の信号部分を調整またはフィルタ処理するための第1の信号部分の調整部30と、受信した第1の信号部分にもとづいて第2の信号部分を復元するための復元部40と、調整後の第1の信号部分と復元した第2の信号部分とを組み合わせて、全体として知覚されるラウドネスおよびシャープネスが改善されている復元信号を生成する結合部50とを備える。
【0042】
以下で、第1の帯域部分の範囲内の所定の周波数または周波数区間の所望の強調を生成するために、第1の信号部分の調整またはフィルタ処理をどのように実行できるのかについて、いくつかの例を説明する。それらはあくまでも例にすぎず、知覚されるラウドネスおよびシャープネスについて全体として同じ影響を維持する傍ら、実際の数式を変更し、あるいは別のやり方で表現することが可能であることが当業者にとって明らかである。
【0043】
LBの中ほどの周波数(典型的には、特定の実施形態において約3.2kHz)の強調を、以下の種類のフィルタ
H(z)=α・z−2+β・z−1−γ+β・z+1+α・z+2 (1)
によって達成でき、ここで好ましい係数は、α=0.1、β=0、およびγ=0.85である。
【0044】
LB信号の傾斜に影響を及ぼす別のフィルタの実施例は、
H(z)=α・z−1−β+α・z+1 (2)
であって、好ましい係数は、α=0.06およびβ=0.66であり、
あるいは
H(z)=1−μ・z−1 (3)
であって、好ましい係数は、μ=0.2である。
【0045】
本発明の実施形態によれば、前置フィルタモジュールが、信号のHBがBWEの仕組みによって復元されており、あるいは低域通過フィルタ処理されている場合に、信号のLB部分をプレフィルタ処理すべく作動させられる。この文脈において、プレフィルタ処理という用語は、フィルタ処理がスピーチ信号の復元に先立って実行されることを指す。結果として、信号の一部分だけがフィルタ処理されるが、フィルタ処理が、復元される信号全体の知覚品質に影響を有する。本発明の実施形態のプレフィルタ処理は、LBの中ほどの周波数または高い周波数を強調することを目的とする。
【0046】
すでに述べたように、0〜6.4kHzの周波数成分からなる典型的なLBと、6.4〜8kHzの周波数成分からなる復元HBとを考える。この筋書きにおいて、プレフィルタ処理は、3.2kHzに中心を有する周波数または3.2〜6.4kHzの全範囲を強調する。強調周波数は、典型的には、通常の聴き取りテストの被験者の外耳−中耳の反応に関して決定される(図7を参照されたい)。しかしながら、強調の周波数または周波数範囲の選択について、他の基準も適用可能である。例えば、調整を、顧客(耳が不自由であり、あるいは不自由でない)の実際の聴き取りのデータにもとづいて行なうことができる。
【0047】
本発明の効果の説明が、図8に示されている。この例において、実線が元のスピーチ信号を示している。点線は、従来からのBWEの仕組みの対象とされ、低域通過フィルタ処理された復元信号に相当する。最後に、破線は、本発明による復元信号に相当する。破線および点線のどちらの信号も、元の信号と比べて6kHzよりも上のエネルギが少ない。それにもかかわらず、破線の信号は、3〜4kHzの領域における周波数の強調ゆえに、点線の信号と比べてラウドネスおよびシャープネスがより高いと知覚されるであろう。換言すると、高い周波数に多くのエネルギを有するシャープネスおよびラウドネスを、HBの代わりに信号のLBを増幅することによって復元することができる。これにより、信号アーチファクトの発生を効果的に回避することができる。
【0048】
上述のプレフィルタ処理がラウドネスおよびシャープネスの感覚または知覚にどのように影響する(すなわち、知覚品質を向上させる)のかを理解するために、それぞれの心理音響モデルを検討することが有益である。重要な帯域kにおける特定ラウドネスを

によって定義すると、ラウドネスおよびシャープネスを、以下のように定めることができる[6]。
【0049】
合計が、信号の帯域幅の全体の重要な帯域に及び、関数f(k)は、低周波数帯において1に等しく、最後のいくつかの重要な周波数帯において増加する。特定ラウドネスが、

として定められ、ここで正規化係数Eは、静寂のしきい値の逆数または外耳−中耳の周波数応答に関係できる(図7を参照)。励振Eを、信号波形を周波数ドメインへと変換し、周波数ビンを重要な周波数帯へとまとめることによって計算することができる。
【0050】
式(4)、(6)、および図7から、ラウドネスの感覚を、利用可能な信号エネルギを3.2kHzの領域に向かって分配することで、たとえ全体としての信号強度を変化させることなくても向上させることができると結論付けることができる。
【0051】
式(5)から、シャープネスの感覚を、エネルギをLBの低い周波数から高い周波数に向かって分配する(より高い帯域が、kおよびf(k)の増加によって合計においてより大きな重みを有する)ことによって向上させることができると結論付けることができる。
【0052】
本発明の発明者は、定評のあるMUSHRAの仕組み[7]に従って多数の聴き取りテストを行なった。その結果が、図9に示されている。白色の棒が、基準信号であり、灰色の棒が、本発明の結果であり、黒色の柱が、先行技術の結果である。この図から見られるように、本発明による信号の調整は、先行技術の方法と比べて基準信号により近い信号をもたらし、したがって先行技術と比べて改善された聴き取りの体感をもたらす。
【0053】
さらに、図10が、本発明によるエンコーダおよびデコーダの機能の例を示している。
【0054】
上述の各段階、機能、手順、および/またはブロックを、汎用の電子回路および特定用途向けの回路の両方を含むディスクリートな回路または集積回路の技術など、任意の従来からの技術を使用して、ハードウェアにて実現することができる。
【0055】
あるいは、上述の各段階、機能、手順、および/またはブロックの少なくとも一部を、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、および/または任意の適切なプログラマブルな論理デバイス(フィールド・プログラマブル・ゲート・アレイ(FPGA)デバイスなど)などの適切な処理装置によって実行されるソフトウェアにて実現してもよい。
【0056】
さらに、ネットワークノードの汎用の処理能力を再使用することが可能であってもよいことが、理解されるべきである。これは、例えば既存のソフトウェアをプログラムし直すことによって行なうことができ、あるいは新たなソフトウェア構成要素を追加することによって行なうことができる。
【0057】
ソフトを、通常はコンピュータにとって読み取り可能な媒体上に保持されるコンピュータプログラム製品として実現することができる。したがって、ソフトウェアを、コンピュータのプロセッサによる実行のために、コンピュータの動作メモリへとロードすることができる。コンピュータ/プロセッサは、上述の各段階、機能、手順、および/またはブロックのみに専用である必要はなく、他のソフトタスクも実行可能であってよい。
【0058】
以下で、コンピュータによる実施の例を、図11を参照して説明する。コンピュータ200が、プロセッサ210、動作メモリ220、および入力/出力ユニット230を備えている。この特定の例においては、上述の各段階、機能、手順、および/またはブロックの少なくとも一部が、プロセッサ210による実行のために動作メモリ220へとロードされるソフトウェア225において実行される。プロセッサ210およびメモリ220は、通常のソフトウェアの実行を可能にするためにシステムバスを介して互いに接続されている。I/Oユニット230を、関連のデータ(入力パラメータおよび/または得られた出力パラメータなど)の入力および/または出力を可能にするために、I/Oバスを介してプロセッサ210および/またはメモリ220へと互いに接続することができる。
【0059】
上記提案のラウドネスおよびシャープネスの部分的な補償のための仕組みは、必要なビットレートおよび複雑さの制限を維持する傍ら、知覚品質を向上させる。上述の考え方は、近年のほぼすべてのオーディオコーデックまたはBWEの仕組みに適用可能である。フィルタ処理によって信号のLB部分の中または高周波数を強調することで、復元される全体の信号についてラウドネスおよびシャープネスの感覚が改善される。換言すると、信号の一部分をフィルタ処理することによって、信号全体について知覚される品質の改善がもたらされる。
【先行技術文献】
【非特許文献】
【0060】
【非特許文献1】[1]3GPP TS 26.190、「Adaptive Multi−Rate−Wideband(AMR−WB) speech codec;Transcoding functions」、2008
【非特許文献2】[2]3GPP TS 26.290「Extended Adaptive Multi−Rate−Wideband(AMR−WB+) speech codec;Transcoding functions」、2005
【非特許文献3】[3]3GPP TS 26.404、「Enhanced aacPlus encoder SBR part」、2007
【非特許文献4】[4]ITU−T Rec.G.729.1、「G.729−based embedded variable bit−rate coder:An 8−32 kbit/s scalable wideband coder bitstream interoperable with G.729」、2006
【非特許文献5】[5]ITU−T Rec.G.718、「Frame error robust narrowband and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s」、2008
【非特許文献6】[6]H.FastlおよびE.Zwicker、「Psychoacoustics:Facts and Models」、Chapter 8.7.1 and 9.2、Springer、2007
【非特許文献7】[7]G.StollおよびF.Kozamernik、「EBU listening tests on Internet audio codecs」、EBU Technical Review、June 2000。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11