特許第5722912号(P5722912)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サムスン エレクトロニクス カンパニー リミテッドの特許一覧

特許5722912音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体
<>
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000002
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000003
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000004
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000005
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000006
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000007
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000008
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000009
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000010
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000011
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000012
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000013
  • 特許5722912-音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5722912
(24)【登録日】2015年4月3日
(45)【発行日】2015年5月27日
(54)【発明の名称】音響通信方法及び音響通信方法を実行させるためのプログラムを記録した記録媒体
(51)【国際特許分類】
   G10L 19/018 20130101AFI20150507BHJP
【FI】
   G10L19/018
【請求項の数】10
【全頁数】14
(21)【出願番号】特願2012-541958(P2012-541958)
(86)(22)【出願日】2010年12月9日
(65)【公表番号】特表2013-512474(P2013-512474A)
(43)【公表日】2013年4月11日
(86)【国際出願番号】KR2010008811
(87)【国際公開番号】WO2011071322
(87)【国際公開日】20110616
【審査請求日】2012年5月31日
(31)【優先権主張番号】10-2010-0118134
(32)【優先日】2010年11月25日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】503447036
【氏名又は名称】サムスン エレクトロニクス カンパニー リミテッド
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(72)【発明者】
【氏名】ヒ−ウォン・ジュン
(72)【発明者】
【氏名】ジュン−ホ・コ
(72)【発明者】
【氏名】サン−ムク・イ
(72)【発明者】
【氏名】ギ−サン・イ
(72)【発明者】
【氏名】セルゲイ・ジドコフ
【審査官】 毛利 太郎
(56)【参考文献】
【文献】 特開2000−172282(JP,A)
【文献】 特開2002−304184(JP,A)
【文献】 特開2001−127643(JP,A)
【文献】 特開2010−044117(JP,A)
【文献】 特開2003−280697(JP,A)
【文献】 特開2001−148670(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04J 11/00
(57)【特許請求の範囲】
【請求項1】
音響通信方法であって、
オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、
前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、
予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、
前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、
前記音響信号スペクトルマスクに従ってディジタルデータを多重搬送波変調(multicarrier modulation)することにより音響通信信号を生成するステップと、
前記音響通信信号を前記フィルターリングされた信号と結合するステップとを有することを特徴とする音響通信方法。
【請求項2】
前記オーディオ信号をフィルターリングするステップは、低い周波数から高い周波数に行くほど順次に減少する周波数応答を有する周波数選択減衰フィルターを用いて実行されることを特徴とする請求項1に記載の音響通信方法。
【請求項3】
前記残留信号のスペクトル包絡を検出するステップをさらに有することを特徴とする請求項1に記載の音響通信方法。
【請求項4】
前記スペクトル包絡を検出するステップは、
前記残留信号の高速フーリエ変換(FFT)を行うステップと、
変換された残留信号のスペクトル包絡を推定するステップとを有することを特徴とする請求項3に記載の音響通信方法。
【請求項5】
前記心理音響マスクを生成するステップは、
前記オーディオ信号のピーク成分を検出するステップと、
前記ピーク成分に対して個別周波数マスクを算出するステップと、
前記個別周波数マスクを絶対可聴しきい値と結合することによりグローバルマスクを生成するステップと、
前記グローバルマスクと前記オーディオ信号間の差に対応する前記心理音響マスクを生成するステップとを有することを特徴とする請求項1に記載の音響通信方法。
【請求項6】
前記ピーク成分を検出する前に、前記オーディオ信号の高速フーリエ変換(FFT)を行うステップをさらに有することを特徴とする請求項5に記載の音響通信方法。
【請求項7】
前記ピーク成分を検出するステップは、
前記オーディオ信号のトーナル及び非トーナル成分を検出するステップと、
前記トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分を除去するステップとを有することを特徴とする請求項5に記載の音響通信方法。
【請求項8】
前記音響通信信号は多重搬送波信号であることを特徴とする請求項1に記載の音響通信方法。
【請求項9】
前記結合された音響通信信号及び前記フィルターリングされた信号をスピーカを用いて音波の形態で放射するステップをさらに有することを特徴とする請求項1に記載の音響通信方法。
【請求項10】
コンピュータに請求項1乃至請求項9のいずれか一項に記載の音響通信方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号を用いて移動装置間でディジタルデータを送信するための音響通信のための方法及び装置に関し、特に、音響心理モデルを用いる音響通信のための方法及び装置に関する。
【背景技術】
【0002】
音響通信(acoustic communication)は、移動装置間でディジタル情報を転送するための可能な方法のうちの1つである。音響通信の長所のうちの1つは、データ通信プロトコルが任意の無線基盤通信システム(radio-based communication system)に要求されるアンテナ及びRFフロントエンド(front-end)などのような追加のハードウェア素子なしに完全にソフトウェアのみを用いて既存の装置上に実現されることができるというものである。
【0003】
幾つかの方法は、人間の耳に楽であり人間が理解可能な追加の情報を伝達することができるように音楽又はスピーチ信号による音響通信をマスキング(masking)するための様々な方法が提案されてきた。このような方法は、“D.Gruhl, A.Lu and W.Bender,“Echo Hiding”, Proceedings of the First International Workshop on Information Hiding, Cambridge, U.K., May 30 -June 1, 1996, pp. 293-315”に開示されたようなエコーによる埋込み(Echo-Hiding)又は“L. Boney, et al., Digital watermarks for audio signals,” IEEE Intl. Conf. on Multimedia Computing and Systems, pp.473-480, March 1996”で説明したようにノイズレベル以下の拡散スペクトル信号(spread-spectrum signal)を付加する方法を含む。
【0004】
図1は、オーディオプログラムを音響通信信号と混合(mixing)する従来の方法を示す図である。このような方法を実現するための装置100は、音響通信信号生成器110、結合器120、及びスピーカ130を含む。上述した方法において、拡散スペクトル信号のような低いレベル通信信号は、音楽、スピーチ、アラーム音などのようなオーディオプログラムに単純に付加される。音響通信信号生成器110から出力される音響通信信号及びオーディオプログラムは、結合器120により結合される(又は混合される)。この結合された信号は、スピーカ130を通して音波の形態で放射される。
【0005】
不幸にも、従来の方法は、音響通信チャネルの容量を完全に活用することができず、したがって、非常に低いビットレート、すなわち、秒当たりの数ビットだけを実現する。
【0006】
“Y. Nakashima, et al., in Evaluation and Demonstration of Acoustic OFDM, Proc. Fortieth Asilomar Conference on Signals, Systems and Computers, 2006. ACSSC 2006, pp. 1747-1751”に記述されたタイプのような良好な方法は、スピーチ/音楽オーディオプログラムの高周波数ビンをスペクトル形態(spectrally shaped)の通信信号に置き換えることに基づく。
【0007】
図2は、既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号の生成方法を説明するための図である。このような方法を実現するための装置200は、高速フーリエ変換(Fast Fourier Transform:FFT)ブロック210、帯域スプリッタ(band splitter)220、逆高速フーリエ変換(Inverse Fast Fourier Transform:IFFT)ブロック230、順方向エラー訂正(Forward Error Correction:FEC)符号化ブロック240、直交周波数分割多重(Orthogonal Frequency Division Multiplexing:OFDM)変調器250、結合器260、及びスピーカ270を含む。
【0008】
FFTブロック210は、音楽又はスピーチのようなオリジナルオーディオ信号(又はプログラム)のFFTを実行する。この後に、帯域スプリッタ220は、FFTが実行されたオーディオ信号を高周波数ビン及び低周波数ビンに分割し、低周波数ビンをIFFTブロック230に出力し、高周波数ビンをOFDM変調器250に出力する。IFFTブロック230は、高周波数ビンが除去されたオリジナルオーディオ信号(低周波数ビンに対応する)の逆高速フーリエ変換を実行する。
【0009】
FEC符号化ブロック240は、入力されたディジタルデータの順方向エラー訂正(Forward Error Correction:FEC)符号化を実行する。OFDM変調器250は、高周波数ビンに従って符号化されたディジタルデータのOFDMを実行し、このデータを出力し、OFDM変調器からの音響通信信号は、高周波数ビンと同様の形態のスペクトル包絡(spectral envelope)を有する。言い換えれば、高周波数ビンは、音響通信信号に置き換えられる。
【0010】
図3a及び図3bは、周波数代替技術に従って生成される信号を示す図である。図3aは、オリジナルオーディオ信号330の周波数スペクトルを示し、図3bは、代替音響通信信号を有する変形されたオーディオ信号330aの周波数スペクトルを示す。この時に、各周波数スペクトルにおいて、横軸は周波数を示し、縦軸は信号強度を示す。図3aに示すように、オリジナルオーディオ信号330は、周波数分割に基づいて高周波数ビン(又は領域)320及び低周波数ビン310に分割される。図3bに示すように、変形されたオーディオ信号330aの低周波数ビン310はオリジナルオーディオ信号の低周波数ビンと同一であり、オリジナルオーディオ信号の高周波数ビン320は変形されたオーディオ信号の音響通信信号325に置き換えられる。
【0011】
このような方法は、オリジナルオーディオ信号及び音響通信信号が分離された周波数帯域で送信されるために、音響信号受信器の単純な実装を可能にする。しかしながら、このような方法は2つの短所を有する。
【0012】
1番目に、オリジナルオーディオ信号及び音響通信信号の間で周波数領域での急激な転移(sharp transition)が存在するために(図3bを参照)、このような方法は、オリジナルオーディオ信号、すなわち、音楽/スピーチ信号の品質を低下させる。
【0013】
2番目に、このような方法は、音響通信信号が相対的に高いオーディオ周波数に集中するために使用可能信号帯域幅を完全に活用することができない。結果的に、音楽/スピーチオーディオプログラムが高周波数ビンを含まないか又は受信装置マイクロフォンが高周波数ビンを含む全広帯域オーディオスペクトルを検出することができない場合に、音響データ通信は不可能である(減少したビットレートでも)。
【発明の概要】
【発明が解決しようとする課題】
【0014】
本発明の目的は、少なくとも上述した問題点及び/又は不都合に取り組み、少なくとも以下の便宜を提供することにある。すなわち、本発明の目的は、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避けることができる音響通信のための装置及び方法を提供することにある。
【0015】
本発明の他の目的は、オリジナルオーディオ信号の全スペクトルを効率的に使用することができる音響通信のための装置及び方法を提供することにある。
【課題を解決するための手段】
【0016】
上記のような目的を達成するために、本発明の一態様によれば、音響通信方法は、オーディオ信号の高周波数部分が減衰するように前記オーディオ信号をフィルターリングするステップと、前記オーディオ信号及び前記フィルターリングされた信号間の差に対応する残留信号を生成するステップと、予め定められた心理音響モデルに基づいて前記オーディオ信号に対する心理音響マスクを生成するステップと、前記残留信号を前記心理音響マスクと結合することにより音響信号スペクトルマスクを生成するステップと、前記音響信号スペクトルマスクに従ってディジタルデータを変調することにより音響通信信号を生成するステップと、前記音響通信信号を前記フィルターリングされた信号と結合するステップとを有することを特徴とする。
【発明の効果】
【0017】
本発明による音響通信のための方法及び装置は、少なくとも次のような長所を提供する。
【0018】
1番目に、本発明によると、音響通信信号をオーディオプログラムに挿入することによる歪んだ信号のオーディオ感度を減少させることができる。
【0019】
2番目に、本発明によると、受信マイクロフォンが全広帯域オーディオスペクトルを検出しないか又はオーディオプログラムが高周波数ビンを含まない場合にもデータ送信を許容するようにすべてのオーディオ帯域幅を効率的に使用することができる。
【0020】
本発明の他の目的、利点、及び顕著な特徴は、添付の図面及び本発明の実施形態からなされる以下の詳細な説明から、当業者にとって明確になるはずである。
【図面の簡単な説明】
【0021】
図1】オーディオプログラムを音響通信信号と混合する従来の方法を説明するための図である。
図2】既知の周波数代替技術を用いる音響通信信号と混合したオーディオ信号を示す図である。
図3a】周波数代替技術に従って生成される信号を示す図である。
図3b】周波数代替技術に従って生成される信号を示す図である。
図4】本発明の実施形態に従う音響通信を実行するための装置を示す図である。
図5a】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図5b】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図5c】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図5d】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図5e】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図5f】本発明の実施形態に従う信号生成手順の異なるステップでの信号スペクトルを示す図である。
図6】周波数マスキングしきい値の算出及びしきい以下の音響通信信号の配置を行う方法を説明するための図である。
図7】本発明の実施形態による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。
【発明を実施するための形態】
【0022】
当業者は、図面内の要素が単純化及び明瞭化のために例示されただけであり、そのスケールに基づいて示されないことが分かる。例えば、本発明の様々な実施形態の理解を助けるために図面内のいくつかの要素の大きさは他の要素と比較して誇張されることができる。
【0023】
また、方法のステップ及び装置の要素は、図面内で通常のシンボルで表現され、発明の細部事項だけが図示されることに留意しなければならない。また、当業者に知られている細部事項は省略することができる。本発明において、“第1”及び“第2”のような相対的な用語は1つの要素を別の要素から分割するために使用されることもあり、これは、このような要素間の任意の実際の関係又は順序を意味しない。
【0024】
本発明の実施形態において、2個の基本的なアイディアが記載されている。1番目に、オリジナルオーディオ信号と代替音響通信信号間の急激な境界を避ける。2番目に、このような追加が人間の耳で知覚されないという点で全体の使用可能なオーディオ信号スペクトル内に少量の音響通信信号を付加する。
【0025】
したがって、本発明による音響通信信号を生成するために、音楽又はスピーチのようなオリジナルオーディオ信号は、高周波数ビンを徐々に減衰させるハイシェルフ(high-shelf)フィルターでフィルターリングされる。例えば、ここに説明される図5bを参照する。この後に、オリジナル信号と減衰した信号間の差が算出される。このような残留信号のスペクトル形態が保存される。また、いわゆる、心理音響(又は周波数)マスキングしきい値(psychoacoustic masking threshold)がオリジナルオーディオ信号のスペクトル形態に従って算出される。心理音響マスキングしきい値の算出は、所定の周波数の強いオーディオ信号が存在する場合に近接した周波数のオーディオ信号は通常のリスナーに聞こえなくなってしまうという事実に基づく。このような効果は、図6を参照して概略的に例示され説明される。
【0026】
このような効果は、“周波数マスキング効果”と知られており、可聴しきい値以下の信号周波数ビンを除去する非可逆オーディオ圧縮アルゴリズム(lossy audio compression algorithms)に広く活用されている。本発明において、周波数マスキングしきい値は、音響通信信号をマスキングしきい値以下に配置することにより聞こえないようにするために算出される。
【0027】
最後に、2つのスペクトル形態、すなわち、残留スペクトル及び周波数マスキングしきい値から導出される心理音響マスキングスペクトルは、音響通信信号のための最終的なスペクトル包絡マスクを生成するために結合される。
【0028】
図4は、本発明の望ましい実施形態による音響通信を実行するための装置を示す図である。図5a乃至図5fは、本発明による信号生成手順の異なるステップ上の信号スペクトルを示す図である。
【0029】
図4に示すように、装置400は、高周波数減衰フィルター410、第1の結合器422、FFTブロック430、包絡推定ブロック440、心理音響モデリングブロック450、第2の結合器424、オブジェクト符号化ブロック460、多重搬送波変調器470、第3の結合器426、及びスピーカ480を含む。
【0030】
図5aは、オリジナルオーディオ信号510の周波数スペクトルを示す図である。図5a及び図5c乃至図5fにおいて、横軸は周波数を示し、縦軸は信号強度を示す。周波数スペクトルのアウトライン、すなわち、包絡だけが図示されているが、このような包絡は、複数の周波数ビンを含む。
【0031】
高周波数減衰フィルター410は、中間周波数領域及び高周波数領域でスペクトルエネルギーを次第に減少させるフィルター応答特性を有する。図5bは、高周波数減衰フィルター410のフィルター応答特性520を示し、横軸は周波数を示し、縦軸は信号透過率を示す。図5bを参照すると、高周波数減衰フィルター410は、何の変更なしに低周波数領域の信号をほとんどそのまま通過させ、中間周波数領域及び高周波数領域の信号を次第に減少させることがわかる。
【0032】
オリジナルオーディオ信号は、高周波数減衰(又はハイシェルフ)フィルター410でフィルターリングされる。図5bに示すように、フィルター応答特性で急激な遮断周波数(cut-off frequency)が存在しない(例えば、図5bを参照)。したがって、高周波数減衰フィルター410により導入されたスペクトル歪みはより人間の耳に刺激が少ない。
【0033】
図5cは、オリジナルオーディオ信号510及びフィルターリングされた信号530の周波数スペクトルを示す図である。
【0034】
オリジナルオーディオ信号及びフィルターリングされた信号は、第1の結合器422に入力され、第1の結合器422は、オリジナル信号とフィルターリングされた信号間の差、すなわち、残留信号を出力する。
【0035】
図5dは、第1の結合器422から出力される残留信号540の周波数スペクトルを示す。残留信号540は、オリジナル信号510とフィルターリングされた信号530間の差に対応する。
【0036】
FFTブロック430は、残留信号の高速フーリエ変換(FFT)を実行する。言い換えれば、FFTブロック430は、時間ドメインでの残留信号を周波数ドメインでの信号に変換する。
【0037】
包絡推定ブロック440は、この変換された残留信号を分析し、残留信号のスペクトル形態である包絡を推定(又は検出)する。
【0038】
このような残留信号がオリジナルオーディオ信号(又はプログラム)から除去されるために、これは、同一のスペクトル形態を有する音響通信信号により補償されなければならない。しかしながら、上述したように、そのスペクトルマスクが周波数マスキングしきい値(実質的な可聴しきい値)を超過しない場合に、追加の音響通信信号をオーディオ品質を損なうことなく追加することも可能である。本発明の実施形態において、音響通信信号を2回生成することを避けるために単純に2個のスペクトルマスクを結合する。
【0039】
心理音響モデリングブロック450は、例えば、ISO−IEC 11172,part 3,Annex D.で定義された通常の心理音響モデルに従ってオリジナルオーディオ信号から心理音響マスクを算出する。
【0040】
図6は、周波数マスキングしきい値の算出及び上記しきい値以下の音響通信信号の配置を行う方法を説明するための図である。図6は、理解の便宜のために、1つのマスカー610を有するオリジナルオーディオ信号に対する周波数マスキングしきい値(すなわち、実際の可聴しきい値)640を示す。
【0041】
絶対可聴しきい値630は、静かな雰囲気でも人間の耳で聞き難い周波数別しきい値の強度分布を示す。1つのマスカー610は、オリジナルオーディオ信号で周辺周波数ビン(マスキー)620と比較して最大信号強度を有する周波数ビンである。マスカー610なしに、絶対可聴しきい値630を超過するマスキー620は、耳に聞こえることができる。本例において、マスキー(すなわち、小さい声)620がマスカー(すなわち、大きい声)610により隠れることにより、マスキー620が耳に聞こえない。このような効果をマスキング効果と呼ぶ。このようなマスキング効果を反映すると、マスキー620に対する実際の可聴しきい値は、絶対可聴しきい値630より上昇(又は増加)し、このような上昇した可聴しきい値を周波数マスキングしきい値640と呼ぶ。言い換えれば、周波数マスキングしきい値640以下の周波数ビンは、耳に聞こえることができない。
【0042】
図4をさらに参照すると、心理音響モデリングブロック450により算出される心理音響マスクは、周波数マスキングしきい値とオリジナルオーディオ信号間の差に対応する。
【0043】
図5eは、心理音響モデリングブロック450から出力される心理音響マスク550を示す。図5eにおいて、比較のために、オリジナルオーディオ信号510が図示される。
【0044】
第2の結合器424は、包絡推定ブロック440から入力された第1のマスク、すなわち、残留信号スペクトルを心理音響モデリングブロック450から入力された第2のマスク、すなわち、オリジナルオーディオ信号に対する心理音響マスクと結合して最終の音響信号スペクトルマスクを生成した後に、生成された音響信号スペクトルマスクを多重搬送波変調器470に出力する。最終の音響信号スペクトルマスクは、音響通信スペクトルを生成するために使用される。
【0045】
図5fは、第2の結合器424から出力される音響信号スペクトルマスク560を示す。図5e及び図5dにそれぞれ示すように、音響信号スペクトルマスク560は、心理音響マスク550と残留信号540との和に対応する。
【0046】
オブジェクト符号化ブロック460は、入力されたディジタルデータをシンボル又はオブジェクトに符号化して出力する。例えば、オブジェクト符号化ブロック460は、直交振幅変調(Quadrature Amplitude Modulation:QAM)を実行することができる。
【0047】
多重搬送波変調器470は、第2の結合器424から入力される音響信号スペクトルマスクに従って符号化されたディジタルデータ、すなわち、シンボルに対する多重搬送波変調を実行し、その得られた信号を出力する。例えば、多重搬送波変調器470は、オブジェクト符号化ブロック460から入力されたシンボルと第2の結合器424から入力された音響信号スペクトルマスク内の周波数ビンとを各々乗じた後に、その得られた結果値を結合して出力するOFDM変調を実行することができる。多重搬送波変調器470から出力される音響通信信号は、音響信号スペクトルマスクに含まれる同様の周波数スペクトルを有する。
【0048】
第3の結合器426は、高周波数減衰フィルター410から入力されたフィルターリングされた信号を多重搬送波変調器470から出力された音響通信信号と結合する。スピーカ480は、結合された信号を音波の形態で放射する。
【0049】
本発明の例において、多重搬送波通信信号が音響通信信号として使用されることが望ましい。その理由は、多重搬送波信号のための任意のスペクトル形態を形成することが非常に容易であるためである。しかしながら、これは、必須のものではなく、符号分割多重接続(code division multiple access:CDMA)信号又は拡散スペクトル信号が使用されることができる。
【0050】
心理音響マスク算出方法は、好ましくは非可逆音声圧縮コーデックが使用され、例えば、これは、ISO−IEC 11172,part3,Annex D.で定義されるMPEGレイヤーII標準(MPEG layer II standard)からの心理音響モデルに基づくことができる。心理音響マスキングしきい値の算出は、ただ単一のマスカーからのマスキング効果の算出よりさらに複雑である。
【0051】
上述したように、本発明で使用する心理音響マスクは、通常の心理音響モデルに従って算出されるので、以下簡略に説明する。
【0052】
図7は、本発明による心理音響マスクを算出するための方法の主要ステップを示すフローチャートである。上記方法は、セグメント抽出ステップS10、FFTステップS20、トーナル成分検出ステップ(tonal component detection step)S30、非トーナル成分検出ステップS40、非相関トーナル及び非トーナル成分除去ステップS50、個別周波数マスク生成ステップS60、グローバルマスク生成ステップS70、及び心理音響マスク生成ステップS80を含む。
【0053】
セグメント抽出ステップS10において、オリジナルオーディオ信号から時間的に短いセグメントを抽出し、本ステップは、セグメント単位で反復して実行される。
【0054】
FFTステップS20において、オリジナルオーディオ信号のFFTを実行する。言い換えれば、オリジナルオーディオ信号は、時間ドメインから周波数ドメインに変換される。
【0055】
トーナル成分検出ステップS30において、オリジナルオーディオ信号の周波数成分から隣接周波数成分の強度より大きい強度を有する最大周波数成分が検出される。最大周波数成分において、隣接周波数成分と最大周波数成分間の強度の差が予め定められた値以上である場合に、最大周波数成分は、トーナル成分として決定される。すなわち、トーナル成分検出ステップS30において、オリジナルオーディオ信号の周波数成分でサイン曲線と同様のトーナル成分、すなわち、純音成分が検出される。
【0056】
非トーナル成分検出ステップS40において、最大周波数成分のうちからトーナル成分を除外した残りの最大周波数成分が非トーナル成分として決定される。すなわち、非トーナル成分検出ステップにおいて、オリジナルオーディオ信号の周波数成分からノイズと同様の非トーナル成分、すなわち、ノイズ成分が検出される。
【0057】
言い換えれば、トーナル及び非トーナル成分は、オリジナルオーディオ信号のピーク成分に対応し、トーナル成分検出ステップS30は、ピーク成分からサイン曲線特性を有する純音成分を検出するステップに対応し、非トーナル成分検出ステップS40は、ピーク成分から純音と対比されるノイズ成分を検出するステップに対応する。
【0058】
非相関トーナル及び非トーナル成分除去ステップS50において、トーナル及び非トーナル成分から絶対可聴しきい値未満の強度を有するトーナル及び非トーナル成分が除去される。すなわち、非相関トーナル及び非トーナル成分除去ステップS50において、主要成分だけを決定するために耳に聞こえない関係がないトーナル及び非トーナル成分を除去する。
【0059】
個別周波数マスク生成ステップS60において、各主要成分(トーナル及び非トーナル)のための個別周波数マスクを算出する。周波数マスクは、主要成分の強度と対応する心理音響モデルで使用される予め定められたマスクに関連した関数(例えば、マスキングインデックス及びマスキング関数)の値とを合わせることにより算出される。この時に、マスキングインデックスは、トーナル及び非トーナル成分に応じて異なって設定され、マスキング関数は、トーナル及び非トーナル成分に対して同一に設定される。例えば、マスキングインデックスは、主要成分に対するバーク(Bark)周波数(又は臨界帯域レート)zの関数、例えば、a−b*z−c dBのように与えられることができる。このマスキング関数は、主要成分の強度X及びバーク距離dz(隣接したバーク周波数間の距離)の関数、例えば、d*(dz+1)−(e*X+f)dBのように与えられることができる。この時に、a乃至fの値は常数である。
【0060】
グローバルマスク生成ステップS70において、個別周波数マスクは、単一グローバルマスクを形成するために絶対可聴しきい値と結合される。
【0061】
心理音響マスク生成ステップS80において、グローバルマスクとオリジナルオーディオ信号間の差に対応する心理音響マスクが生成される。
【0062】
上述したように、このステップは、すべての連続的な信号セグメントに対して実行されなければならず、セグメント持続時間は、約20〜40msであり、このような持続時間は、オーディオ信号の通常の準定常持続時間(quasi-stationary duration)である。したがって、最上の性能及び単純な実現のために、残留信号スペクトルを分析するのに使用されるFFT分析ウィンドーの持続時間と多重搬送波信号シンボルの持続時間とを同一に設定することができる。
【0063】
また、本発明は、オリジナルオーディオ信号での歪みと通信データレート間の非常に柔軟な制御を提供し、これは、音響通信信号で累積信号対雑音比(cumulative signal-to-noise ratio)により決定される。実際に、減衰フィルターの形態を調節することにより歪み及びデータレートを容易にトレードオフすることができる。このフィルターがより少ない減衰を導入する場合に、オリジナル信号はより少なく歪まれ、音響通信信号での全信号対雑音比も減少される。しかしながら、これは、全データレートを減少させ、その逆の関係も成立する。ここで、‘信号’は、音響通信信号自体を意味し、オリジナルオーディオ信号が音響通信受信器によりランダム雑音として取り扱われるために(本発明において、音響通信受信器は、オリジナルオーディオ信号の情報を有しないと仮定する)、‘雑音’は、オリジナルオーディオ信号を意味する。
【0064】
本発明は、移動電話、携帯用マルチメディア装置、ネットブック(netbook)などのような移動装置間のデータ転送のための音響通信システムで使用されることができる。例えば、本発明は、RU2009119776及び2010年5月18日付で米国特許庁に特許出願され、12/782,520の出願番号が割り当てられた“エンコーダ、デコーダ、エンコーディング及びデコーディング方法”を名称とする米国特許公開公報2010−0290484 A1に記述された客体送信のための音響通信システムとともに使用されることができ、これらは、本明細書に参照文献として併合される。本発明は、汎用プロセッサ又はディジタル信号プロセッサチップを用いてソフトウェアで実現されるか又はハードウェア又はこれらの組み合せとして実現されることができる。
【0065】
本発明の実施形態は、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせの形態で実現されることができる。このような任意のソフトウェアは、例えば、削除又は再起録が可能であるか否かに関係なく、ROMなどの記憶装置のような揮発性又は非揮発性記憶装置、又は例えば、RAM、メモリチップ、装置又は集積回路のようなメモリ、又は例えばCD、DVD、磁気ディスク又は磁気テープなどの光学的又は磁気的に読み取り可能な媒体に格納されることができる。記憶装置及び記憶媒体は、本発明の実施形態を実現する指示を含むプログラム又はプログラムを格納するのに適合した機械可読の記憶装置の実施形態である。したがって、本発明の実施形態は、本願に説明したようなシステム又は方法を実現するためのコードを含むプログラム及びこのようなプログラムを格納する機械可読記憶装置を提供する。また、このようなプログラムは、有線又は無線接続を通じて送信される通信信号のような任意の媒体を通して電子的に移送され、実施形態はこれと均等なことを適切に含む。
【0066】
以上、本発明を具体的な実施形態を参照して詳細に説明してきたが、本発明の範囲及び趣旨を逸脱することなく様々な変更が可能であるということは、当業者には明らかであり、本発明の範囲は、上述の実施形態に限定されるべきではなく、特許請求の範囲の記載及びこれと均等なものの範囲内で定められるべきである。
【符号の説明】
【0067】
100、200、400 装置
110 音響通信信号生成器
120、260、422、424、426 結合器
130、270、480 スピーカ
210、430 高速フーリエ変換ブロック
220 帯域スプリッタ
230 逆高速フーリエ変換ブロック
240 順方向エラー訂正符号化ブロック
250 直行周波数分割多重変調
310 低周波数ビン
320 高周波数ビン
325 音響通信信号
330、510 オリジナルオーディオ信号
410 高周波数減衰フィルター
440 包絡推定ブロック
450 心理音響モデリングブロック
460 オブジェクト符号化ブロック
470 多重搬送波変調器
530 フィルターリングされた信号
540 残留信号
550 心理音響マスク
560 音響信号スペクトルマスク
610 マスカー
620 マスキー
630 絶対可聴しきい値
640 周波数マスキングしきい値
図1
図2
図3a
図3b
図4
図5a
図5b
図5c
図5d
図5e
図5f
図6
図7