特許6096437 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ザクティの特許一覧

特許6096437音声処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6096437

(24)【登録日】2017年2月24日

(45)【発行日】2017年3月15日

(54)【発明の名称】音声処理装置

(51)【国際特許分類】

H04R 3/00 20060101AFI20170306BHJP

H04R 1/40 20060101ALI20170306BHJP

【ＦＩ】

H04R3/00 320

H04R1/40 320A

【請求項の数】3

【全頁数】14

(21)【出願番号】特願2012-186269(P2012-186269)

(22)【出願日】2012年8月27日

(65)【公開番号】特開2014-45317(P2014-45317A)

(43)【公開日】2014年3月13日

【審査請求日】2015年7月21日

(73)【特許権者】

【識別番号】313003417

【氏名又は名称】株式会社ザクティ

(74)【代理人】

【識別番号】100103056

【弁理士】

【氏名又は名称】境正寿

(72)【発明者】

【氏名】吉田昌弘

【審査官】渡邊正宏

(56)【参考文献】

【文献】国際公開第２００９／０７８１０５（ＷＯ，Ａ１）

【文献】特開２０１０−２４５９８４（ＪＰ，Ａ）

【文献】国際公開第２０１１／１０３４８８（ＷＯ，Ａ１）

【文献】特開２００９−０５５３４３（ＪＰ，Ａ）

【文献】特開２０１１−０６１４２２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｒ１／２０− １／４０

Ｈ０４Ｒ３／００− ３／１４

Ｈ０４Ｒ２９／００

(57)【特許請求の範囲】

【請求項1】

並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類手段、
前記分類手段の出力を参照して前記Ｎ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出手段、
前記検出手段によって検出されたＮ個の位相差の中から閾値以上の値を示す位相差を特定する特定手段、および
前記特定手段によって特定された位相差が抑制されるように前記Ｍ個の音声信号の遅延量を調整する調整手段を備え、
前記閾値は前記Ｍ個の音声信号をそれぞれ取得するＭ個のマイクロフォンの間の距離に基づく値を示す、
音声処理装置。

【請求項2】

前記特定手段は、前記検出手段によって検出されたＮ個の位相差の中から前記閾値以上の値を示すＬ個（Ｌ：整数）の位相差を特定し、
前記特定手段によって特定されたＬ個の位相差の平均値を算出する算出手段を有し、
前記調整手段は、前記算出手段によって算出された位相差の平均値が抑制されるように前記Ｍ個の音声信号の遅延量を調整する
請求項１記載の音声処理装置。

【請求項3】

前記閾値は前記Ｍ個の音声信号が前記Ｍ個のマイクロフォンを結ぶ直線の延長線上の方向から到来する場合の位相差を表す、
請求項１ないし２のいずれかに記載の音声処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、音声処理装置に関し、特に並列的に取得された複数の音声信号のゲインを調整する、音声処理装置に関する。

【背景技術】

【0002】

この種の装置の一例が、特許文献１に開示されている。この背景技術によれば、一方のマイクロフォンによって捉えられた音声信号は、アンプおよび第１ＬＰＦを介して第１検波器に入力される。また、他方のマイクロフォンによって捉えられた音声信号は、可変利得アンプおよび第２ＬＰＦを介して第２検波器に入力される。第１検波器の出力および第２検波器の出力は比較器によって互いに比較され、可変利得アンプの増幅率は比較結果に基づいて調整される。これによって、マイクロフォンの感度のばらつきを抑制することができる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００５−１３６６２８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、背景技術では、マイクロフォンへの音声信号の入射角によって可変利得アンプの増幅率が調整されることはなく、各マイクロフォンによって捉えられた音声信号間の位相のばらつきが抑制されることもない。このため、背景技術では、調整後の音声信号の品質に限界がある。

【0005】

それゆえに、この発明の主たる目的は、音声信号の品質を高めることができる、音声処理装置を提供することである。

【課題を解決するための手段】

【0006】

この発明に従う音声処理装置(10：実施例で相当する参照符号。以下同じ)は、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類手段(54, S1~S5, S13~S15)、分類手段の出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出手段(S7~S11)、検出手段によって検出されたＮ個の位相差の中から第１閾値(TH1)を下回る位相差を特定する第１特定手段(S19)、および第１特定手段によって特定された位相差を定義するＭ個の信号成分の間のレベル差が抑制されるようにＭ個の音声信号の振幅を調整する第１調整手段(50, S23~S25, S33~S37)を備える。

【0007】

好ましくは、第１閾値はＭ個の音声信号をそれぞれ取得するＭ個のマイクロフォン(34L, 34R)の間の距離とＭ個の音声信号の許容入射角の上限とに基づく値を示す。

【0008】

好ましくは、検出手段によって検出されたＮ個の位相差の中から第２閾値(TH2)以上の値を示す位相差を特定する第２特定手段(S21, S27)、および第２特定手段によって特定された位相差が抑制されるようにＭ個の音声信号の遅延量を調整する第２調整手段(52, S39~S41)がさらに備えられる。

【0009】

さらに好ましくは、第２閾値はＭ個の音声信号をそれぞれ取得するＭ個のマイクロフォン(34L, 34R)の間の距離に基づく値を示す。

【0010】

好ましくは、分類手段はＭ個（Ｍ：２以上の整数）の音声信号の各々をフーリエ変換する変換手段(54)を含む。

【0011】

この発明に従う音声処理装置(10)は、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類手段(54, S1~S5, S13~S15)、分類手段の出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出手段(S7~S11)、検出手段によって検出されたＮ個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定手段(S21, S27)、および特定手段によって特定された位相差が抑制されるようにＭ個の音声信号の遅延量を調整する調整手段(52, S39~S41)を備える。

【0012】

この発明に従う音声処理装置(10)は、並列的に取得された複数の音声信号の相対位相差情報を検出する検出手段(S1~S15)、部品ばらつきによって生じる複数の音声信号の間の振幅・位相ずれを検出手段によって検出された相対位相差情報に基づいて判別する判別手段(S17~S21, S29~S31)、複数の音声信号の振幅および位相を補正する補正手段(50, 52)、および判別手段の判別結果に基づいて補正手段の補正量を調整する調整手段(S23~S27, S33~S41)を備える。

【0013】

この発明に従う音声処理プログラムは、音声処理装置(10)のプロセッサ(56)に、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類ステップ(S1~S5, S13~S15)、分類ステップの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたＮ個の位相差の中から閾値(TH1)を下回る位相差を特定する特定ステップ(S19)、および特定ステップによって特定された位相差を定義するＭ個の信号成分の間のレベル差が抑制されるようにＭ個の音声信号の振幅を調整する調整ステップ(50, S23~S25, S33~S37)を実行させるための、音声処理プログラムである。

【0014】

この発明に従う音声処理方法は、音声処理装置(10)のプロセッサ(56)によって実行される音声処理方法であって、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類ステップ(S1~S5, S13~S15)、分類ステップの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたＮ個の位相差の中から閾値(TH1)を下回る位相差を特定する特定ステップ(S19)、および特定ステップによって特定された位相差を定義するＭ個の信号成分の間のレベル差が抑制されるようにＭ個の音声信号の振幅を調整する調整ステップ(50, S23~S25, S33~S37)を備える。

【0015】

この発明に従う音声処理プログラムは、音声処理装置(10)のプロセッサ(56)に、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類ステップ(54, S1~S5, S13~S15)、分類ステップの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたＮ個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定ステップ(S21, S27)、および特定ステップによって特定された位相差が抑制されるようにＭ個の音声信号の遅延量を調整する調整ステップ(52, S39~S41)を実行させるための、音声処理プログラムである。

【0016】

この発明に従う音声処理方法は、音声処理装置(10)のプロセッサ(56)によって実行される音声処理方法であって、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する分類ステップ(54, S1~S5, S13~S15)、分類ステップの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたＮ個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定ステップ(S21, S27)、および特定ステップによって特定された位相差が抑制されるようにＭ個の音声信号の遅延量を調整する調整ステップ(52, S39~S41)を備える。

【発明の効果】

【0017】

Ｍ個の音声信号の振幅は、第１閾値を下回る位相差を定義するＭ個の信号成分の間のレベル差が抑制されるように調整される。つまり、第１閾値に相当する角度を下回る角度で入射された音声成分のレベル差が抑制される。これによって、音声信号の品質が向上する。

【0018】

Ｍ個の音声信号の位相は、閾値以上の位相差が抑制されるように調整される。つまり、閾値をマイク間隔から決まる理論上の最大閾値とすることで、品質バラツキの影響で生じた最大位相差を上回る位相差を抑制する。この抑制処理を繰り返すことにより、どの方向から到来した音に対しても位相差が最大閾値以内に収まるようになる。この結果、品質バラツキによる遅延が補正され、音声信号の品質が向上する。

【0019】

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

【図面の簡単な説明】

【0020】

【図1】（Ａ）はこの発明の一実施例の基本的構成を示すブロック図であり、（Ｂ）はこの発明の他の実施例の基本的構成を示すブロック図である。

【図2】この発明の一実施例の構成を示すブロック図である。

【図3】図２実施例に適用される音声処理回路の構成の一例を示すブロック図である。

【図4】図３に示す音声処理回路に設けられた制御回路の動作の一部を示すフロー図である。

【図5】図３に示す音声処理回路に設けられた制御回路の動作の他の一部を示すフロー図である。

【図6】図３に示す音声処理回路に設けられた制御回路の動作のその他の一部を示すフロー図である。

【図7】マイクロフォンに入射される音声信号の一例を示す図解図である。

【図8】（Ａ）はＬチャネル周波数成分の波形の一例を示す図解図であり、（Ｂ）はＲチャネル周波数成分の波形の一例を示す図解図である。

【図9】マイクロフォンに入射される音声信号の他の一例を示す図解図である。

【図10】（Ａ）はＬチャネル周波数成分の波形の他の一例を示す図解図であり、（Ｂ）はＲチャネル周波数成分の波形の他の一例を示す図解図である。

【図11】マイクロフォンに入射される音声信号のその他の一例を示す図解図である。

【図12】（Ａ）はＬチャネル周波数成分の波形のその他の一例を示す図解図であり、（Ｂ）はＲチャネル周波数成分の波形のその他の一例を示す図解図である。

【図13】図２実施例に適用される音声処理回路の構成の他の一例を示すブロック図である。

【図14】図２実施例に適用される音声処理回路の構成のその他の一例を示すブロック図である。

【発明を実施するための形態】

【0021】

以下、この発明の実施の形態を図面を参照しながら説明する。
［基本的構成１］

【0022】

図１（Ａ）を参照して、この実施例の音声処理装置は、基本的に次のように構成される。分類手段１ａは、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する。検出手段２ａは、分類手段１ａの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する。第１特定手段３ａは、検出手段２ａによって検出されたＮ個の位相差の中から第１閾値を下回る位相差を特定する。第１調整手段４ａは、第１特定手段３ａによって特定された位相差を定義するＭ個の信号成分の間のレベル差が抑制されるようにＭ個の音声信号の振幅を調整する。

【0023】

Ｍ個の音声信号の振幅は、第１閾値を下回る位相差を定義するＭ個の信号成分の間のレベル差が抑制されるように調整される。つまり、第１閾値に相当する角度を下回る角度で入射された音声成分のレベル差が抑制されるように、Ｍ個の音声信号の全域の振幅が調整される。これによって、マイク感度のバラツキが補正され、音声信号の品質が向上する。
［基本的構成２］

【0024】

図１（Ｂ）を参照して、他の実施例の音声処理装置は、基本的に次のように構成される。分類手段１ｂは、並列的に取得されたＭ個（Ｍ：２以上の整数）の音声信号の各々をＮ個（Ｎ：２以上の整数）の周波数にそれぞれ対応するＮ個の信号成分に分類する。検出手段２ｂは、分類手段１ｂの出力を参照してＮ個の周波数の各々に対応するＭ個の信号成分の間の位相差を検出する。特定手段３ｂは、検出手段２ｂによって検出されたＮ個の位相差の中から閾値以上の値を示す位相差を特定する。調整手段４ｂは、特定手段３ｂによって特定された位相差が抑制されるようにＭ個の音声信号の遅延量を調整する。

【0025】

【0026】

図２を参照して、この実施例のディジタルカメラ１０は、ドライバ１８ａおよび１８ｂによってそれぞれ駆動されるフォーカスレンズ１２および絞りユニット１４を含む。これらの部材を経た光学像は、イメージャ１６の撮像面に照射され、光電変換を施される。

【0027】

電源が投入されると、ＣＰＵ３０は、動画取り込み処理を実行するべく、ドライバ１８ｃに露光動作および電荷読み出し動作の繰り返しを命令する。ドライバ１８ｃは、周期的に発生する垂直同期信号Ｖｓｙｎｃに応答して、イメージャ１６の撮像面を露光し、かつ撮像面で生成された電荷をラスタ走査態様で読み出す。イメージャ１６からは、読み出された電荷に基づく生画像データが周期的に出力される。

【0028】

カメラ処理回路２０は、イメージャ１６から出力された生画像データに白バランス調整，色分離，ＹＵＶ変換などの処理を施す。これによって生成されたＹＵＶ形式の画像データは、メモリ制御回路２２を通してＳＤＲＡＭ２４のＹＵＶ画像エリア２４ａに書き込まれる。ＬＣＤドライバ２６は、ＹＵＶ画像エリア２４ａに格納された画像データをメモリ制御回路２２を通して繰り返し読み出し、読み出された画像データに基づいてＬＣＤモニタ２８を駆動する。この結果、撮像面で捉えられたシーンを表すリアルタイム動画像（スルー画像）がモニタ画面に表示される。

【0029】

カメラ処理回路２０はまた、ＹＵＶ変換によって生成されたＹデータをＣＰＵ３０に与える。ＣＰＵ３０は、与えられたＹデータにＡＥ処理を施して適正ＥＶ値を算出し、算出された適正ＥＶ値を定義する絞り量および露光時間をドライバ１８ｂおよび１８ｃにそれぞれ設定する。これによって、スルー画像の明るさが確保される。ＣＰＵ３０はまた、前処理回路２０から与えられたＹデータの高周波成分を参照してＡＦ処理を継続的に実行する。これによってフォーカスレンズ１２が合焦点近傍に継続的に配置され、スルー画像の鮮鋭度が確保される。

【0030】

キー入力装置３２に設けられたムービボタン３２ｍｖが操作されると、ＣＰＵ３０は、音声処理回路３６およびメモリＩ／Ｆ３８を起動する。音声処理回路３６は、マイクロフォン３４Ｌおよび３４Ｒからそれぞれ出力されたＬチャネルの音声データおよびＲチャネルの音声データに後述する音声処理を施す。処理を施されたＬチャネルの音声データおよびＲチャネルの音声データは、メモリ制御回路２２を介してＳＲＡＭ２４の音声エリア２４ｂに書き込まれる。

【0031】

メモリＩ／Ｆ３８は、新規の画像ファイルを着脱自在の記録媒体３８に作成し（作成した画像ファイルはオープンされる）、ＹＵＶ画像エリア２４ａに格納された画像データおよび音声エリア２４ｂに格納された２チャネルの音声データをメモリ制御回路２２を通して繰り返し読み出し、そして読み出された画像データおよび音声データをオープン状態の画像ファイルに収める。

【0032】

ムービボタン３４ｍｖが再度操作されると、ＣＰＵ３０は、音声処理回路３６およびメモリＩ／Ｆ３８を停止する。メモリＩ／Ｆ３８は、ＹＵＶ画像エリア２４ａおよび音声エリア２４ｂからのデータ読み出しを終了し、オープン状態の画像ファイルをクローズする。これによって、撮像シーンを継続的に表す動画像と撮像シーン周辺の音声とがファイル形式で記録媒体４０に記録される。

【0033】

音声処理回路３６は、図３に示すように構成される。Ｌチャネルの音声データおよびＲチャネルの音声データはそれぞれ、振幅補正系５０を形成する振幅補正回路５０Ｌおよび５０Ｒに入力される。振幅補正回路５０Ｌおよび５０Ｒの各々は、入力された音声データの振幅を制御回路５６の設定に従って補正し、補正後の音声データを遅延補正系５２に与える。Ｌチャネルの音声データは遅延補正回路５２Ｌに入力され、Ｒチャネルの音声データは遅延補正回路５２Ｒに入力される。遅延補正回路５２Ｌおよび５２Ｒの各々は、入力された音声データを制御回路５６の設定に従って遅延させ、遅延後の音声データをメモリ制御回路２２に向けて出力する。

【0034】

遅延補正を施されたＬチャネルの音声データおよびＲチャネルの音声データはまた、ＦＦＴ(Fast Fourier Transform)解析系５２を形成するＦＦＴ解析回路５４Ｌおよび５４Ｒにそれぞれ入力される。ＦＦＴ解析回路５４Ｌおよび５４Ｒの各々は、入力された音声データにフーリエ変換を施し、これによって得られた解析結果つまりＮｍａｘ個（Ｎｍａｘ：２以上の整数）の周波数成分を制御回路５６に与える。

【0035】

Ｌチャネルの周波数成分とＲチャネルの周波数成分との位相差が１／２周期（＝π）以上ずれる周波数については、チャネル間の位相差を的確に判別することができない。このため、Ｎｍａｘ個の周波数成分の各々の周波数は、数１を満足する必要がある。
［数１］
Ｄ／Ｖ＊２πｆ＜π
Ｄ：マイクロフォン３４Ｌおよび３４Ｒの間隔
Ｖ：音速
ｆ：周波数

【0036】

なお、間隔Ｄを２０ミリメートルとし、音速を３４０ｍ／秒とすると、Ｎｍａｘ個の周波数成分はいずれも８．５ｋＨｚを下回る周波数のデータ成分に相当する。

【0037】

制御回路５６は、こうして与えられた周波数成分に基づいて振幅補正系５０および遅延補正系５２の設定を制御する。制御回路５６は、具体的にはＤＳＰ(Digital Signal Processor)であり、図４〜図６に示すフロー図に従う処理を１０２４サンプル毎に実行する。なお、振幅補正系５０および遅延補正系５２の設定は、電源投入時に初期化される。また、Ｌチャネルの音声データおよびＲチャネルの音声データはいずれも４８ｋＨｚのクロック周波数でサンプルされたデータに相当する。

【0038】

図４を参照して、ステップＳ１ではＬチャネルの音声データのＦＦＴ解析結果をＦＦＴ解析回路５４Ｌから取得し、ステップＳ３ではＲチャネルの音声データのＦＦＴ解析結果をＦＦＴ解析回路５４Ｒから取得する。取得が完了すると、ステップＳ５で変数Ｎを“１”に設定する。

【0039】

ステップＳ７ではＬチャネルに属するＮ番目の周波数成分の位相を“Ｐｈ＿Ｌ（Ｎ）”として算出し、ステップＳ９ではＲチャネルに属するＮ番目の周波数成分の位相を“Ｐｈ＿Ｒ（Ｎ）”として算出する。位相Ｐｈ＿Ｌ（Ｎ）は数２に従って算出され、位相Ｐｈ＿Ｒ（Ｎ）は数３に従って算出される。
［数２］
Ｐｈ＿Ｌ（Ｎ）＝ａｔａｎ（ｒｅａｌ（ｆ＿Ｎ＿Ｌ）／ｉｍａｇ（ｆ＿Ｎ＿Ｌ））
ａｔａｎ：アークタンジェント
ｒｅａｌ（ｆ＿Ｎ＿Ｌ）：Ｌチャネルに属するＮ番目の周波数成分の実部
ｉｍａｇ（ｆ＿Ｎ＿Ｌ）：Ｌチャネルに属するＮ番目の周波数成分の嘘部
［数３］
Ｐｈ＿Ｌ（Ｒ）＝ａｔａｎ（ｒｅａｌ（ｆ＿Ｎ＿Ｒ）／ｉｍａｇ（ｆ＿Ｎ＿Ｒ））
ｒｅａｌ（ｆ＿Ｎ＿Ｒ）：Ｒチャネルに属するＮ番目の周波数成分の実部
ｉｍａｇ（ｆ＿Ｎ＿Ｒ）：Ｒチャネルに属するＮ番目の周波数成分の嘘部

【0040】

ステップＳ１１では、こうして算出された位相Ｐｈ＿Ｌ（Ｎ）およびＰｈ＿Ｒ（Ｎ）の差分絶対値を“ΔＰｈ（Ｎ）”として算出する。ステップＳ１３では、変数Ｎが最大値Ｎｍａｘに達したか否かを判別する。判別結果がＮＯであればステップＳ１５で変数ＮをインクリメントしてからステップＳ７に戻り、判別結果がＹＥＳであればステップＳ１７に進む。

【0041】

ステップＳ１７では、変数Ｎを再度“１”に設定する。ステップＳ１９では差分絶対値ΔＰｈ（Ｎ）が閾値ＴＨ１を下回るか否かを判別し、ステップＳ２１では差分絶対値ΔＰｈ（Ｎ）が閾値ＴＨ２以上であるか否かを判別する。ここで、閾値ＴＨ１は数４に従って算出され、閾値ＴＨ２は数５に従って算出される。なお、数４における“８５°”は、同振幅で検出することが可能な正面方向からの音声信号とみなせる角度の限界に相当する。数５は、マイクを結ぶ直線の延長線上の方向から到来した場合の位相差を表し、理論上の最大位相差を示す。
［数４］
ＴＨ１＝Ｄ＊ｃｏｓ８５°／Ｖ＊２πｆ
［数５］
ＴＨ２＝Ｄ＊ｃｏｓ０°／Ｖ＊２πｆ

【0042】

ステップＳ１９の判別結果がＹＥＳであれば、Ｌチャネルに属するＮ番目の周波数成分のレベルをステップＳ２３で保存し、Ｒチャネルに属するＮ番目の周波数成分のレベルをステップＳ２５で保存する。ステップＳ２１の判別結果がＹＥＳであれば、ステップＳ２７で差分絶対値ΔＰｈ（Ｎ）を保存する。

【0043】

ステップＳ２５またはＳ２７の処理が完了するか、或いはステップＳ１９およびＳ２１の判別結果がいずれもＮＯであれば、変数Ｎが最大値Ｎｍａｘに達したか否かをステップＳ２９で判別する。判別結果がＮＯであればステップＳ３１で変数ＮをインクリメントしてからステップＳ１９に戻り、判別結果がＹＥＳであればステップＳ３３に進む。

【0044】

ステップＳ３３では、ステップＳ２３の処理によって保存されたレベルの平均値を“ＬＶａｖ＿Ｌ”として算出する。ステップＳ３５では、ステップＳ２５の処理によって保存されたレベルの平均値を“ＬＶａｖ＿Ｒ”として算出する。ステップＳ３７では、算出された平均値ＬＶａｖ＿ＬおよびＬＶａｖ＿Ｒの差分絶対値が抑制されるように振幅補正回路５０Ｌおよび５０Ｒの設定を調整する。

【0045】

ステップＳ３９では、ステップＳ２７の処理によって保存された差分絶対値の平均値を“ΔＰｈａｖ”として算出する。ステップＳ４１では、算出された平均値ΔＰｈａｖが抑制されるように、遅延補正回路５２Ｌおよび５２Ｒの設定を調整する。調整が完了すると、注目する１０２４サンプルに対する処理を終了する。

【0046】

図７に示すように音声信号が前方から入射した場合、或る周波数に属するＬチャネルのデータ成分およびＲチャネルのデータ成分はそれぞれ図８（Ａ）に示す波形および図８（Ｂ）に示す波形を描く。また、図９に示すように音声信号が斜め右前方から入射した場合、或る周波数に属するＬチャネルのデータ成分およびＲチャネルのデータ成分はそれぞれ図１０（Ａ）に示す波形および図１０（Ｂ）に示す波形を描く。さらに、図１１に示すように音声信号が右側から入射した場合、或る周波数に属するＬチャネルのデータ成分およびＲチャネルのデータ成分はそれぞれ図１２（Ａ）に示す波形および図１２（Ｂ）に示す波形を描く。

【0047】

ここで、図８（Ｂ），図１０（Ｂ）または図１２（Ｂ）に実線で示す波形は、振幅補正回路５０Ｒの特性が振幅補正回路５０Ｌの特性と一致し、かつ遅延補正回路５２Ｒの特性が遅延補正回路５２Ｌの特性と一致する場合のＲチャネルのデータ成分の変化を表す。

【0048】

また、図８（Ｂ），図１０（Ｂ）または図１２（Ｂ）に一点鎖線で示す波形は、振幅補正回路５０Ｒの特性が振幅補正回路５０Ｌの特性と相違し、かつ遅延補正回路５２Ｒの特性が遅延補正回路５２Ｌの特性と一致する場合のＲチャネルのデータ成分の変化を表す。

【0049】

さらに、図８（Ｂ），図１０（Ｂ）または図１２（Ｂ）に破線で示す波形は、振幅補正回路５０Ｒの特性が振幅補正回路５０Ｌの特性と一致し、かつ遅延補正回路５２Ｒの特性が遅延補正回路５２Ｌの特性と相違する場合のＲチャネルのデータ成分の変化を表す。

【0050】

振幅補正回路５０Ｌと振幅補正回路５０Ｒとの間での特性の相違は、部品の性能のばらつきに起因して発生する。遅延補正回路５２Ｌと遅延補正回路５２Ｒとの間での特性の相違も、部品の性能のばらつきに起因して発生する。

【0051】

また、音声信号の入射角が図７，図９および図１１の間で相違することから、図１０（Ｂ）に波形の位相は図８（Ｂ）に示す波形の位相よりも進み、図１２（Ｂ）に波形の位相は図１０（Ｂ）に示す波形の位相よりも進む。

【0052】

これを踏まえて、図５に示すステップＳ１９の判別結果は、図７または図９に示す要領で入射された音声信号についてＹＥＳを示す一方、図１１に示す要領で入射された音声信号についてはＮＯを示す。これに対して、図５に示すステップＳ２１の判別結果は、図７または図９に示す要領で入射された音声信号についてＮＯを示す一方、図１１に示す要領で入射された音声信号についてはＹＥＳを示す。

【0053】

したがって、振幅補正系５０の設定は、図８（Ａ）に示す波形のレベルと図８（Ｂ）に示す波形のレベルとの相違が抑制されるように調整され、或いは図１０（Ａ）に示す波形のレベルと図１０（Ｂ）に示す波形のレベルとの相違が抑制されるように調整される。これに対して、遅延補正系５２の設定は、図１２（Ａ）に示す波形の位相と図１２（Ｂ）に示す波形の位相との相違が抑制されるように調整される。

【0054】

以上の説明から分かるように、制御回路５６は、並列的に取得された２チャネルの音声データの各々をＮｍａｘ（Ｎｍａｘ：２以上の整数）の周波数にそれぞれ対応するＮｍａｘ個の周波数成分に分類し(S1~S5, S13~S15)、Ｎｍａｘ個の周波数の各々に対応する２つの周波数成分の間の位相差を差分絶対値ΔＰｈ（１）〜ΔＰｈ（Ｎｍａｘ）として検出する(S7~S11)。制御回路５６はまた、検出された差分絶対値ΔＰｈ（１）〜ΔＰｈ（Ｎｍａｘ）の中から閾値ＴＨ１を下回る差分絶対値を特定し(S19)、特定された差分絶対値を定義する２つの周波数成分の間のレベル差が抑制されるように振幅補正系５０の設定を調整する(S23~S25, S33~S37)。ここで、閾値ＴＨ１は、マイクロフォン３４Ｌおよび３４Ｒの間の距離と音声の許容入射角の上限とに基づく値を示す。

【0055】

制御回路５６はまた、Ｎｍａｘ個の差分絶対値ΔＰｈ（１）〜ΔＰｈ（Ｎｍａｘ）の中から閾値ＴＨ２以上の値を示す差分絶対値を特定し(S21, S27)、特定された差分絶対値に相当する位相差が抑制されるように遅延補正系５２の設定を調整する(S39~S41)。ここで、閾値ＴＨ２もまた、マイクロフォン３４Ｌおよび３４Ｒの間の距離に基づく値を示す。

【0056】

このように、音声データの振幅は、閾値ＴＨ１を下回る差分絶対値を定義する２つの周波数成分の間のレベル差が抑制されるように調整される。換言すれば、閾値ＴＨ１に相当する角度を下回る角度で入射された音声成分のレベル差が抑制されるように、Ｍ個の音声信号の全域の振幅が調整される。また、音声データの遅延量は、閾値ＴＨ２以上の差分絶対値に相当する位相差が抑制されるように調整される。換言すれば、閾値ＴＨ２をマイク間隔から決まる理論上の最大閾値とすることで、品質バラツキの影響で生じた最大位相差を上回る位相差を抑制する。この抑制処理を繰り返すことにより、どの方向から到来した音に対しても位相差が最大閾値以内に収まるようになる。この結果、品質バラツキによる遅延が補正され、音声信号の品質が向上する。

【0057】

なお、この実施例の音声処理回路３６は図３に示すように構成されるが、音声処理回路３６は図１３または図１４に示すように構成してもよい。

【0058】

図１３によれば、ＦＦＴ解析系５４は振幅補正系５０の前段に設けられ、逆ＦＦＴ系５８が遅延補正系５２の後段に設けられる。Ｌチャネルの音声データはＦＦＴ解析回路５４Ｌを介して振幅補正回路５０Ｌに与えられ、Ｒチャネルの音声データはＦＦＴ解析回路５４Ｒを介して振幅補正回路５０Ｒに与えられる。また、制御回路５６は、遅延補正系５２の出力に基づいて図４〜図６に示す処理を実行する。さらに、遅延補正回路５２Ｌの出力は逆ＦＦＴ回路５８Ｌによって音声データに戻された後にメモリ制御回路２２に向けて出力され、遅延補正回路５２Ｒの出力は逆ＦＦＴ回路５８Ｒによって音声データに戻された後にメモリ制御回路２２に向けて出力される。

【0059】

図１４によれば、振幅補正回路５０Ｌおよび遅延補正回路５２Ｌの代わりに位相・振幅補正フィルタ６０Ｌが設けられ、振幅補正回路５０Ｒおよび遅延補正回路５２Ｒの代わりに位相・振幅補正フィルタ６０Ｒが設けられる。位相・振幅補正フィルタ６０Ｌおよび６０Ｒはいずれも、指向性を制御したり、ステレオ感を強調するための重み付けフィルタに相当する。このとき、図６に示すステップＳ３７およびＳ４１では、重み付けフィルタ６０Ｌおよび６０Ｒの設定が調整される。

【0060】

また、この実施例では、図３に示す制御回路５６としてＤＳＰを採用しているが、ＤＳＰに代えてＣＰＵを採用するようにしてもよい。この場合、図４〜図６に示す処理に相当する制御プログラムは、図示しないフラッシュメモリに記憶される。

【符号の説明】

【0061】

１０ …ディジタルカメラ
１６ …イメージャ
２４ …ＳＤＲＡＭ
３０ …ＣＰＵ
３６ …音声処理回路
５０ …振幅補正系
５２ …遅延補正系
５４ …ＦＦＴ解析系
５６ …制御回路

【図1】