特許第6765124号(P6765124)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アクセルの特許一覧

特許6765124音声処理装置、音声処理方法、及び音声処理プログラム
<>
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000013
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000014
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000015
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000016
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000017
  • 特許6765124-音声処理装置、音声処理方法、及び音声処理プログラム 図000018
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6765124
(24)【登録日】2020年9月17日
(45)【発行日】2020年10月7日
(54)【発明の名称】音声処理装置、音声処理方法、及び音声処理プログラム
(51)【国際特許分類】
   G10L 19/03 20130101AFI20200928BHJP
   G10L 19/035 20130101ALI20200928BHJP
【FI】
   G10L19/03
   G10L19/035 Z
【請求項の数】8
【全頁数】16
(21)【出願番号】特願2017-156486(P2017-156486)
(22)【出願日】2017年8月14日
(65)【公開番号】特開2019-35839(P2019-35839A)
(43)【公開日】2019年3月7日
【審査請求日】2019年4月2日
(73)【特許権者】
【識別番号】398034168
【氏名又は名称】株式会社アクセル
(74)【代理人】
【識別番号】110000279
【氏名又は名称】特許業務法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】道上 将志
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開平6−152542(JP,A)
【文献】 特開2016−213683(JP,A)
【文献】 特開昭63−191200(JP,A)
【文献】 特開平1−261930(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−25/93
(57)【特許請求の範囲】
【請求項1】
対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置であって、
前記音声処理部による前記音声処理における1以上のパラメータの値を複数の値のそれぞれに変更させて、前記音声処理部に、同一の対象信号に対して、変更させた前記パラメータの値のそれぞれを用いた前記音声処理をそれぞれ実行させる音声処理制御部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づく特徴量を算出する特徴量算出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記特徴量算出部により算出される複数の前記特徴量に基づいて、複数の前記パラメータの値の中から前記音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、
を備える音声処理装置。
【請求項2】
前記音声処理における前記パラメータの値を、前記有効値決定部により検出された前記有効値に設定して、前記音声処理を実行させ、前記音声処理により得られた処理後信号を有効な処理後信号である有効処理後信号として記憶部に格納させる有効信号生成制御部をさらに有する
請求項1に記載の音声処理装置。
【請求項3】
前記音声処理部は、前記対象信号における量子化雑音の周波数特性を変化させるノイズシェーピングを行うノイズシェーピング部を含み、
前記パラメータは、前記ノイズシェーピング部におけるノイズシェーピングに関わるパラメータである
請求項1又は請求項2に記載の音声処理装置。
【請求項4】
前記差分検出部は、前記対象信号の所定のサイズのブロックを単位として前記差分を検出し、
前記特徴量算出部は、前記ブロックを単位として前記特徴量を算出し、
前記有効値決定部は、前記ブロックを単位として、前記有効値を決定する
請求項3に記載の音声処理装置。
【請求項5】
前記人間の聴覚の周波数成分に対応する感度に関する情報を記憶する聴覚情報記憶部をさらに備え、
前記特徴量算出部は、前記聴覚情報記憶部の前記感度に関する情報に基づいて、前記重みを決定する
請求項1乃至請求項4のいずれか一項に記載の音声処理装置。
【請求項6】
対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置による音声処理方法であって、
前記音声処理部による前記音声処理における1以上のパラメータの値を複数の値のそれぞれに変更させて、前記音声処理部に、同一の対象信号に対して、変更させた前記パラメータの値のそれぞれを用いた前記音声処理をそれぞれ実行させ、
前記パラメータを複数の値のそれぞれに変更させた際に、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらを合計した特徴量を算出し、算出された複数の前記特徴量に基づいて、複数の前記パラメータの値の中から前記音声処理の利用に適したパラメータの値である有効値を決定する
音声処理方法。
【請求項7】
対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置を構成するコンピュータに実行させる音声処理プログラムであって、
前記音声処理プログラムは、
前記コンピュータを、
前記音声処理部による前記音声処理における1以上のパラメータの値を複数の値のそれぞれに変更させて、前記音声処理部に、同一の対象信号に対して、変更させた前記パラメータの値のそれぞれを用いた前記音声処理をそれぞれ実行させる音声処理制御部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記対象信号のエネルギーと、前記処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づく特徴量を算出する特徴量算出部と、
前記パラメータの値を複数の値に変更させた場合のそれぞれにおける、前記特徴量算出部により算出される複数の前記特徴量に基づいて、複数の前記パラメータの値の中から前記音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、
して機能させる音声処理プログラム。
【請求項8】
音声処理の対象である原信号に対してノイズシェーピングを含む処理を実行して再生信号を生成する処理をする処理部と、
周波数成分ごとに前記原信号と前記再生信号とのエネルギーの差分を検出する検出部と、
各周波数成分のエネルギーの差分に対して、聴覚の特性に応じた重み付けをし、重み付けされた各周波数成分のエネルギーの差分を足し合わせた特徴量を算出する算出部と、
前記ノイズシェーピングのパラメータを変更して、変更した各パラメータが設定されている各状態で、前記算出部に特徴量を算出させる制御部と、
前記各状態で算出された複数の特徴量の中から、最小の特徴量または閾値以下の特徴量に対応するパラメータの値を、前記音声処理に用いる前記ノイズシェーピングのパラメータの値に決定する決定部と、
を備える音声処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理装置等に関する。
【背景技術】
【0002】
信号処理技術として、ADPCM(adaptive differential pulse code modulation)が知られている。ADPCMは、ハードウェア実装の回路規模が小さく、かつ高速なデコードが可能であるため、複数の音声信号を同時に再生するアミューズメント分野などで重要な技術である。
【0003】
しかし、ADPCMは、同程度の圧縮率を実現できる他の技術、例えば、MP3等の変換符号化方式のコーデック技術よりも再生される音質が劣ることがある。
【0004】
これに対して、ADPCMによって発生する量子化雑音と、ADPCMのエンコード対象である原信号との周波数スペクトルの傾向を考慮し、再生信号の品質を向上させる緩やかな遮蔽周波数を持つポストフィルタを用いる技術が知られている。
【0005】
関連する技術として、複数の時系列信号によって形成される音声信号を生成するための量子化処理部と、量子化処理部において量子化を行った際に発生する量子化ノイズについてノイズシェーピングを行うためのノイズシェーピング手段とを備えた音声信号処理装置が知られている。ノイズシェーピング手段は、量子化された音声信号のノイズシェーピングを実現できる特性を有するポストフィルタと、ポストフィルタの逆特性を有するプリフィルタとを備え、ポストフィルタを量子化処理部の後段に、プリフィルタを量子化処理部の前段にそれぞれ設ける技術が開示されている(例えば、特許文献1参照)。
【0006】
また、関連する他の技術として、量子化誤差を低減するノイズシェーピングフィルタの係数設定方法において、所定のサンプル数の周波数分析結果に基づいたパワースペクトル形状の逆数をとった後、逆直交変換して求められた自己相関係数に基づいてフィルタの係数を演算する技術が知られている(例えば、特許文献2)。これによると、通常のいわゆるDSP(digital signal processor)によって量子化誤差低減の実時間処理が可能となるノイズシェーピングフィルタの係数設定方法が提供できる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2016−213683号公報
【特許文献2】特開平4−72907号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
例えば、上記したポストフィルタを用いて再生信号の品質を向上させる音声処理技術は、高周波帯域の特性を改善するものであり、低・中周波数帯域の量子化雑音は低減されない。
【0009】
これに対して、高周波帯域だけでなく、低・中周波数帯域の量子化雑音も低減するために、量子化雑音のエネルギーを最小とする方法が考えられる。量子化雑音のエネルギーを最小にすると、量子化雑音のスペクトル包絡は全周波数帯域で平坦となる。
【0010】
しかしながら、このように量子化雑音のスペクトル包絡を全周波数帯域で平坦としたとしても、人間にとって、再生信号の品質が向上しているとは限らない。
【0011】
一方、原信号の周波数特性を考慮してノイズシェーピングを施し、量子化雑音のスペクトルを変形し、原信号のエネルギーの強いところに量子化雑音を集中させることにより、原信号のエネルギーの弱いところの量子化雑音を軽減させる方法が考えられる。しかしながら、ノイズシェーピングの強度を固定してしまうと、量子化雑音の総量を増加させてしまって再生信号の品質が逆に劣化してしまう問題がある。
【0012】
本発明は、上記事情に鑑みなされたものであり、その目的は、再生信号の品質を向上させることのできる技術を提供することにある。
【課題を解決するための手段】
【0013】
上記目的を達成するため、第1の観点に係る音声処理装置は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置であって、音声処理部による音声処理における1以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させる音声処理制御部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、対象信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出する特徴量算出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、特徴量算出部により算出される複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部と、を備える。
【0014】
上記音声処理装置において、音声処理におけるパラメータの値を、有効値検出部により検出された有効値に設定して、音声処理を実行させ、音声処理により得られた処理後信号を有効な処理後信号である有効処理後信号として記憶部に格納させる有効信号生成制御部をさらに有するようにしてもよい。
【0015】
また、上記音声処理装置において、音声処理部は、対象信号における量子化雑音の周波数特性を変化させるノイズシェーピングを行うノイズシェーピング部を含み、パラメータは、ノイズシェーピング部におけるノイズシェーピングに関わるパラメータであってもよい。
【0016】
また、上記音声処理装置において、差分検出部は、対象信号の所定サイズのブロックを単位として差分を検出し、特徴量算出部は、ブロックを単位として特徴量を算出し、有効値決定部は、ブロックを単位として、有効値を決定するようにしてもよい。
【0017】
また、上記音声処理装置において、人間の聴覚の周波数成分に対応する感度に関する情報を記憶する聴覚情報記憶部をさらに備え、特徴量算出部は、聴覚情報記憶部の感度に関する情報に基づいて、重みを決定するようにしてもよい。
【0018】
また、上記目的を達成するため、第2の観点に係る音声処理方法は、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理部を有する音声処理装置による音声処理方法であって、音声処理部による音声処理における1以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させ、パラメータを複数の値のそれぞれに変更させた際に、原信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出し、算出された複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する。
【0019】
また、上記目的を達成するため、第3の観点に係る音声処理プログラムは、対象信号に対して所定の音声処理を行って処理後信号を生成する音声処理装置を構成するコンピュータに実行させる音声処理プログラムであって、音声処理プログラムは、コンピュータを、音声処理部による音声処理における1以上のパラメータの値を複数の値に変更させて、音声処理部に音声処理を実行させる音声処理制御部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、対象信号のエネルギーと、処理後信号に基づいて生成される再生信号のエネルギーとの所定の周波数成分ごとの差分を検出する差分検出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、差分検出部により検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらに基づいた特徴量を算出する特徴量算出部と、パラメータの値を複数の値に変更させた場合のそれぞれにおける、特徴量算出部により算出される複数の特徴量に基づいて、音声処理の利用に適したパラメータの値である有効値を決定する有効値決定部として機能させる。
【発明の効果】
【0020】
本発明によれば、再生信号の品質を向上させることができる。
【図面の簡単な説明】
【0021】
図1図1は、一実施形態に係る音声処理装置の機能ブロック図である。
図2図2は、一実施形態に係る音声処理装置の音声処理部の機能ブロック図である。
図3図3は、一実施形態に係る人間の聴覚の周波数に対する感度を示すAカーブを示す図である。
図4図4は、一実施形態に係る音声処理装置のハードウェア構成図である。
図5図5は、一実施形態に係る音声生成処理のフローチャートである。
図6図6は、一実施形態に係る特徴量算出処理のフローチャートである。
【発明を実施するための形態】
【0022】
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0023】
まず、一実施形態に係る音声処理装置について説明する。
【0024】
図1は、一実施形態に係る音声処理装置の機能ブロック図である。図2は、一実施形態に係る音声処理装置の音声処理部の機能ブロック図である。
【0025】
音声処理装置1は、音声処理部11と、差分検出部12と、特徴量算出部13と、有効値決定部14と、有効信号生成制御部の一例としての音声処理制御部15と、聴覚情報記憶部の一例としての記憶部20とを備える。
【0026】
音声処理部11は、対象信号の一例としての原信号s(n)に対して、所定の音声処理(例えば、ADPCMのエンコード処理)を行う。音声処理部11は、例えば、図2に示すように、量子化部の一例としての適応量子化部31と、逆量子化部の一例としての逆適応量子化部32と、演算部33,34と、ノイズシェーピング部35と、演算部36と、適応予測部37と、演算部38とを備える。
【0027】
演算部33は、原信号s(n)と、適応予測部37から出力される予測信号との差分である差分信号を出力する。演算部34は、演算部33から出力された差分信号と、ノイズシェーピング部35により出力された信号とを加算する。
【0028】
適応量子化部31は、演算部34から出力された信号(ノイズシェーピング後の差分信号)に対して、適応量子化処理(デコード処理)を実行することにより、処理後信号x(n)を出力する。逆適応量子化部32は、適応量子化部31により出力された処理後信号x(n)に対して、逆適応量子化処理(デコード処理)を実行する。
【0029】
演算部36は、逆適応量子化部32から出力された信号と、演算部34から出力された信号との差分の信号を出力する。演算部36から出力された信号は、適応量子化部31に入力された信号に対する量子化雑音の信号である。
【0030】
ノイズシェーピング部35は、演算部36から出力された信号を入力として、量子化雑音の信号の形状を変形させるノイズシェーピングを行う。
【0031】
ここで、量子化雑音の伝達関数(雑音伝達関数)H(z)について、ノイズシェーピングの強度を変更するためのパラメータ(強度γ(0以上1以下))を導入した伝達関数H(γz)とすると、この伝達関数は、以下の式(1)に示すように表すことができる。式(1)において、H(γz)(なお、本明細書では、「H」は、Hの上に「―」を表すこととする。)は、ノイズシェーピング部35のフィードバック要素に相当する。
【0032】
【数1】
【0033】
本実施形態では、雑音伝達関数H(γz)を、再生信号y(n)を自己回帰モデルとした場合における伝達関数A(z)に対して上記したパラメータである強度γを導入した伝達関数A(γz)としている。このように、雑音伝達関数H(γz)を、伝達関数A(γz)とすることにより、原信号と同様なスペクトル包絡によるノイズシェーピングを行うことができ、所謂聴覚マスキングによる雑音の隠蔽が期待できる。また、後述するように、強度γの値を再生信号の品質の向上に有効な値に設定することができるので、雑音の総エネルギーを抑制し、再生信号による音質を向上することができる。
【0034】
ここで、自己回帰モデルの伝達関数A(z)について説明する。
【0035】
まず、時刻nの再生信号y(n)の予測値を、過去k個(kは所定の数)のサンプルと、k個の予測係数αiとを用いた線形和で予測することとすると、時刻nの再生信号の予測値をy^(n)(なお、本明細書では、「y^」は、yの真上に「^」を表すこととする。)とすると、以下の式(2)に示すように表される。
【0036】
【数2】
【0037】
予測値y^(n)と、実際の値y(n)との差分信号をd(n)とすると、差分信号d(n)は、以下の式(3)に示すように表される。
【0038】
【数3】
【0039】
この式(3)に、式(2)を代入すると、以下の式(4)に示す関係が得られる。この式(4)は、自己回帰モデルと呼ばれる。
【0040】
【数4】
【0041】
この式(4)に対して、z変換することにより、以下の式(5)に示すように、式(4)の伝達関数A(z)が得られる。
【0042】
【数5】
【0043】
なお、予測係数αiは、Levinson−Durbinのアルゴリズムを用いることにより求めることができる。
【0044】
H(γz)=A(γz)と、式(5)及び式(1)とによると、フィードバック要素H(γz)は、以下の式(6)に示すように表される。
【0045】
【数6】
【0046】
演算部38は、逆適応量子化部32の出力した信号と、適応予測部37が出力した予測信号とを加算した再生信号y(n)を出力する。
【0047】
適応予測部37は、再生信号y(n)を入力として、原信号s(n)を予測する予測信号を出力する。
【0048】
図1の説明に戻り、記憶部20は、原信号データ21と、聴覚情報22と、有効処理後信号データ23とを記憶する。
【0049】
原信号データ21は、音声処理部11の処理対象となるデジタルデータ化された原信号s(n)である。原信号s(n)は、例えば、アナログの原信号を、所定のサンプリング間隔ごとに、各時点におけるアナログ値を、そのアナログ値に対応するデジタル値に変換したものである。
【0050】
聴覚情報22は、人間の聴覚の周波数成分に対応する感度に関する情報(聴覚情報)である。聴覚情報としては、例えば、人間が感覚的に同じ音の大きさであると認識する音圧レベルの周波数変化を示す等ラウドネス曲線のミラー特性を持つ曲線に対応する情報や、JIS C 1509−1:2005のAカーブやCカーブに対応する情報である。
【0051】
ここで、Aカーブについて説明する。
【0052】
図3は、一実施形態に係る人間の聴覚の周波数に対する感度を示すAカーブを示す図である。図3において、横軸は周波数[KHz]であり、縦軸は、音圧[dB]である。縦軸については、周波数1.0[kHz]の音圧を0[dB]としている。
【0053】
人間の聴覚は、図3のAカーブに示すように、周波数に応じて、同一の音圧と感じる値が異なっている、すなわち、感度が異なっている。
【0054】
図1の説明に戻り、有効処理後信号データ23は、ノイズシェーピング部35の強度γに対して、有効値決定部14により決定された有効値が設定されている場合において、音声処理部11により生成される処理後信号x(n)である。この有効処理後信号データ23を、デコードすることにより、高品質の音声を再現できる再生信号を生成することができる。
【0055】
差分検出部12は、ノイズシェーピング部35のパラメータの値を複数の値に変更させた場合のそれぞれにおいて、原信号s(n)の所定の単位(ブロック)を処理対象として、そのブロック(処理対象ブロック)についての対数パワースペクトルと、原信号s(n)の処理対象ブロックを適応量子化部31でエンコードし、逆適応量子化部32でデコードした後に得られる再生信号y(n)(図2では、演算部38から出力される信号)についての対数パワースペクトルとを算出し、求めた2つの対数パワースペクトルの差の絶対値を周波数成分ごとに求める。具体的には、差分検出部12は、以下の式(7)により、原信号s(n)のブロックについての対数パワースペクトルS(f)を算出する。
【0056】
【数7】
【0057】
また、差分検出部12は、以下の式(8)により、再生信号y(n)のブロックについての対数パワースペクトルY(f)を算出する。
【0058】
【数8】
【0059】
次いで、差分検出部12は、以下の式(9)により、原信号s(n)の対数パワースペクトルS(f)と、再生信号y(n)のブロックについての対数パワースペクトルY(f)との周波数成分ごとの絶対値の差分である差分パワースペクトルD(f)を算出する。
【0060】
【数9】
【0061】
特徴量算出部13は、ノイズシェーピング部35のパラメータの値を複数の値に変更させた場合のそれぞれにおいて、差分パワースペクトルD(f)の各周波数成分に対して、人間の聴力に基づく重みw(f)を乗算し、得られた値のすべてに基づいて(例えば、すべてを加算することにより)、特徴量(FDD:Frequency Domain Difference)を算出する。
【0062】
ここで、聴覚情報22を、図3に示すAカーブが示す周波数と音圧との対応関係としている場合には、各周波数成分に対する重みw(f)は、周波数に対する縦軸の音圧の値をC(f)とすると、以下の式(10)により算出される。
【0063】
【数10】
【0064】
特徴量算出部13は、特徴量FDDを、以下の式(11)により算出する。
【0065】
【数11】
【0066】
ここで、特徴量FDDは、各周波数の原信号s(n)と再生信号y(n)とのエネルギーの差分に対して人間の聴覚の特性に応じた重みをつけて合計したものである。このことから、特徴量FDDが小さいと、人間の聴覚に対しては、再生信号y(n)における量子化雑音の影響が少ない、すなわち、再生信号y(n)による音声の音質が良いことを示している。
【0067】
音声処理制御部15は、原信号s(n)のブロックのそれぞれを対象(処理対象ブロック)として、音声処理部11による音声処理における1以上のパラメータの値を複数の値に変更させて、それぞれの値を設定したそれぞれの状態で音声処理部11に音声処理を実行させ、それぞれの音声処理に対して、差分検出部12及び特徴量算出部13による処理を実行させる。本実施形態では、音声処理制御部15は、例えば、ノイズシェーピング部35における強度γについて、0以上1以下の範囲で複数の値に変化させる。また、音声処理制御部15は、有効値決定部14により、パラメータの有効値が決定された場合には、音声処理部11による原信号s(n)の処理対象ブロックに対する音声処理における1以上のパラメータの値を、その処理対象ブロックに対応する有効値に変更させ、音声処理部11により生成された処理後信号x(n)を処理対象ブロックの有効な処理後信号(有効処理後データ)として、記憶部20に格納させる。
【0068】
有効値決定部14は、音声処理制御部15によって変更されたパラメータの各値に対応する特徴量算出部13により算出された特徴量FDDに基づいて、劣化の少ない音声処理を行うことのできるパラメータ(強度γ)の値(有効値)を決定する。本実施形態では、有効値決定部14は、特徴量FDDが最も小さくなるパラメータの値を、処理対象ブロックに対する有効値として決定する。
【0069】
次に、音声処理装置1のハードウェア構成について詳細に説明する。
【0070】
図4は、一実施形態に係る音声処理装置のハードウェア構成図である。
【0071】
音声処理装置1は、制御回路101と、記憶装置102と、リーダライタ103と、通信インターフェース(通信I/F)104と、入出力インターフェース(入出力I/F)105と、入力装置106と、表示装置107とを備えるコンピュータにより構成される。制御回路101、記憶装置102、リーダライタ103、通信I/F104、入出力I/F105、及び表示装置107は、バス108を介して接続されている。
【0072】
制御回路101は、例えば、プロセッサであり、音声処理装置1の全体を統括制御する。制御回路101は、記憶装置102に格納されたプログラムを実行することにより各種処理を実行する。本実施形態では、制御回路101は、記憶装置102に格納された音声処理プログラムを実行することにより、音声処理部11、差分検出部12、特徴量算出部13、有効値決定部14、及び音声処理制御部15を構成する。
【0073】
記憶装置102は、例えば、HDD(Hard DISK Drive)、SSD(Solid State Drive)、RAM、ROM等であり、制御回路101に実行されるプログラム(音声処理プログラム等)や、各種情報を記憶する。記録装置102は、図1に示す記憶部20を構成する。
【0074】
リーダライタ103は、記録媒体110を着脱可能であり、記録媒体110からのデータの読み出し、及び記録媒体110へのデータの書き込みを行う。記録媒体110としては、例えば、SDメモリーカード、FD(フロッピーディスク:登録商標)、CD、DVD,BD(登録商標)、フラッシュメモリ等の非一時的記録媒体(不揮発性記録媒体)がある。本実施形態においては、記録媒体110に、音声処理プログラム、処理に使用する原信号s(n)、聴覚情報等を格納させておき、リードライタ103により、これらを読み出して、利用するようにしてもよい。
【0075】
通信I/F104は、ネットワーク111に接続されており、ネットワーク111に接続された他の装置との間でのデータの送受信を行う。
【0076】
次に、本実施形態に係る音声処理装置1における音声生成処理の動作について説明する。
【0077】
図5は、一実施形態に係る音声生成処理のフローチャートである。
【0078】
音声処理制御部15は、記憶部20から原信号s(n)の処理範囲内の未処理のブロック(処理対象ブロック)を抽出する(ステップS101)。なお、原信号s(n)の処理範囲は、例えば、原信号s(n)の全体としてもよいし、原信号s(n)のうちのユーザから指定された一部の範囲としてもよい。
【0079】
次いで、音声処理制御部15は、音声処理部11のノイズシェーピング部35の強度γに0を設定し(ステップS102)、抽出した処理対象ブロックを音声処理部11に入力して音声処理を実行させる(ステップS103)。
【0080】
次いで、音声処理制御部15は、差分検出部12及び特徴量算出部13に、音声処理部11による音声処理に用いた原信号s(n)と、音声処理部11により出力される再生信号y(n)とを用いて、特徴量FDDを算出する処理(特徴量算出処理)を実行させる(ステップS104)。
【0081】
次いで、音声処理制御部15は、音声処理部11の強度γを変更する(ステップS105)。例えば、音声処理制御部15は、強度γの値に所定値(例えば、0.01)を加算する。
【0082】
次いで、音声処理制御部15は、強度γが1より大きいか否かを判定する(ステップS106)。この結果、強度γが1より大きくない場合(ステップS106:No)には、この強度γによる特徴量FDDを算出する必要があるので、音声処理制御部15は、処理をステップS103に進める。一方、強度γが1より大きい場合(ステップS106:Yes)には、強度γを十分に変更させて必要な特徴量FDDを算出したことを意味するので、音声処理制御部15は、処理をステップS107に進める。
【0083】
ステップS107では、有効値決定部14が、ステップS104で算出された複数の特徴量FDDに基づいて、量子化雑音が少ない再生信号を得ることのできる処理後信号を生成することのできる強度γの値(有効値)を決定し、音声処理制御部15が、決定した有効値を音声処理部11の強度γに設定する。本実施形態では、有効値決定部14は、特徴量FDDが最も小さくなる強度γの値を、処理対象ブロックに対する有効値として決定する。
【0084】
次いで、音声処理制御部15は、処理対象ブロックを音声処理部11に入力して音声処理を実行させ、音声処理部11により生成された処理後信号x(n)を有効処理後信号データとして記憶部20に格納する(ステップS108)。
【0085】
次いで、音声処理制御部15は、原信号s(n)の処理範囲の全てのブロックに対して処理を行ったか否かを判定する(ステップS109)。この結果、処理範囲の全てのブロックに対して処理を行っていない場合(ステップS109:No)には、音声処理制御部15は、処理をステップS101に進めて、次のブロックを対象に処理を行う一方、処理範囲の全てのブロックに対して処理を行った場合(ステップS109:Yes)には、音声処理制御部15は、音声生成処理を終了する。
【0086】
次に、図5のステップS104に示す特徴量算出処理について説明する。
【0087】
図6は、一実施形態に係る特徴量算出処理のフローチャートである。
【0088】
差分検出部12は、式(7)により、原信号s(n)の対数パワースペクトルS(f)を算出する(ステップS201)。さらに、差分検出部12は、式(8)により、再生信号y(n)の対数パワースペクトルY(f)を算出する(ステップS202)。そして、差分検出部12は、式(9)により、対数パワースペクトルS(f)と対数パワースペクトルY(f)との絶対値の差分である差分パワースペクトルD(f)を周波数毎に算出する(ステップS203)。次いで、特徴量算出部13は、各差分パワースペクトルD(f)に対して、対応する周波数に応じた人間の聴覚特性に応じた重みw(f)を付与する。すなわち、特徴量算出部13は、式(10)により、各差分パワースペクトルD(f)に対して対応する重みw(f)を乗算する(ステップS204)。次いで、特徴量算出部13は、式(11)により、重みが付与された周波数ごとの差分パワースペクトルD(f)を合計することにより、特徴量FDDを算出する(ステップS205)。
【0089】
以上説明したように、本実施形態に係る音声処理装置1によると、音声処理における1以上のパラメータの値を複数の値に変更させて、音声処理部11に音声処理を実行させ、原信号s(n)のエネルギーと、再生信号y(n)のエネルギーとの所定の周波数成分ごとの差分を検出し、検出された周波数成分ごとの差分に対して、人間の聴覚の周波数成分に対応する感度に応じた重み付けを行い、それらを合計した特徴量を算出し、パラメータを複数の値のそれぞれに変更させた際に特徴量算出部13により算出される複数の特徴量に基づいて、量子化誤差の少ない再生信号が得られる処理後信号の生成に適したパラメータの有効値を決定するようにしたので、音声処理によって生成される処理後信号により生成される再生信号による音声の品質を向上することができる。
【0090】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
【0091】
例えば、上記実施形態においては、原信号の各ブロックに対して、ノイズシェーピング部35の強度γの値を常に所定の範囲(0以上1以下の範囲)内で変更して特徴量FDDを算出するようにしていたが、本発明はこれに限られず、所定数前(例えば、直前)のブロックに対する強度γの有効値を基準に、その有効値の周辺の限られた範囲内で強度γの値を変更するようにしてもよい。ブロックに対する強度γの有効値は、時間的に近い範囲(例えば、直前)のブロックの強度γの有効値と近い値となる傾向が高く、このようにすることにより、有効値を適切に決定できると共に、有効値を決定するために必要な処理負荷を低減することができる。
【0092】
また、上記実施形態においては、各ブロックのそれぞれに対して特徴量を算出して強度γの有効値を決定するようにしていたが、本発明はこれに限られず、例えば、複数のブロックのうちの一つのブロックに対して強度γを変更して有効値を決定し、それら複数のブロックに対する強度γとして決定した1つの有効値を用いて音声処理をするようにしてもよい。このようにすると、ブロックごとに特徴量を算出して強度γの有効値を決定する場合に比して、処理負荷を低減することができ、短時間で比較的品質の良い再生信号を生成することのできる処理後信号を生成することができる。
【0093】
また、上記実施形態では、ノイズシェーピング部35の強度γの値を変化させた場合の特徴量を算出し、特徴量に基づいて、強度γの有効値を決定するようにしていたが、本発明はこれに限られず、音声処理における他のパラメータの値(例えば、音声処理部にLPF(ローパスフィルタ)があれば、そのフィルタの遮断周波数、ノイズシェーピング部35の雑音伝達関数として用いる自己回帰モデルの予測係数の個数、量子化する際のブロックのサイズ等の少なくともいずれか1つのパラメータ)を変化させて、各パラメータ値での特徴量を算出し、その特徴量に基づいて、そのパラメータの有効値を決定するように、有効処理後信号を生成する際に用いるようにしてもよい。
【0094】
また、上記実施形態では、共通の聴覚情報22に基づいて、重み付けを決定し、特徴量を算出するようにしていたが、本発明はこれに限られず、例えば、処理後信号から生成される再生信号に基づく音声を聞く対象となる利用者の年代別(例えば、10代、20代、30代、・・・等)に、その年代に対応する聴覚情報を用意し、それら聴覚情報に基づいて重み付けを決定し、特徴量を算出するようにしてもよい。この場合には、音声を聞く主な年代の聴覚情報22を利用して特徴量を算出して、パラメータの有効度を決定して、処理後信号を生成するようにしてもよく、年代ごとの特徴量を算出し、年代ごとのパラメータの有効度を決定し、各年代に適した処理後信号を生成するようにしてもよい。
【0095】
また、上記実施形態では、聴覚情報22として、主に等ラウドネス曲線に対応する情報の例を示していたが、本発明はこれに限られず、例えば、等ラウドネス曲線に対応する情報に代えて、又は等ラウドネス曲線に対応する情報に加えて、時間的に前の音によりその後の音がかき消されてしまうという現象である時間マスキングに対応する情報や、或る音が発生している際に他の音がかき消されてしまう現象であるスペクトルマスキングに対応する情報を用いるようにしてもよい。
【0096】
また、上記実施形態では、音声処理部による音声処理を、ADPCMとしていたが、本発明はこれに限られず、例えば、他のDPCMや他の方式(例えば、MP3)のコーデックであってもよい。音声処理部による音声処理がMP3である場合、例えば、音声処理におけるカットする音の周波数(パラメータ)を変えた場合のそれぞれにおいて、聴覚特性(例えば、等ラウドネス曲線とマスキングに対応する情報とのいずれか1以上に基づく聴覚特性)に応じた重みを用いて特徴量FDDを算出し、特徴量FDDを閾値以下とすることができ、且つ圧縮率を高くすることのできるような(例えば、カットする音の周波数を多くすることができるような)パラメータを選択するようにすればよい。このようにすると、MP3では、聴覚特性に応じて、音質を一定以上に維持しつつ、音質に影響のない、又は少ない音のカットにより圧縮率を高くすることができる。
【0097】
また、上記実施形態において、制御回路101が行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。例えば、図1に示す各機能部11〜15の少なくともいずれか1つをハードウェア回路で構成してもよい。また、音声処理部11の各構成の少なくとも一部をハードウェア回路で構成してもよい。
【符号の説明】
【0098】
1…音声処理装置、11…音声処理部、12…差分検出部、13…特徴量算出部、14…有効値決定部、15…音声処理制御部、20…記憶部、21…原信号データ、22…聴覚情報、23…有効処理後信号データ
図1
図2
図3
図4
図5
図6