(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】音声処理装置及び音声処理方法
(51)【国際特許分類】
G10L 21/034 20130101AFI20231219BHJP
G10L 25/84 20130101ALI20231219BHJP
【FI】
G10L21/034
G10L25/84
(21)【出願番号】P 2019106859
(22)【出願日】2019-06-07
【審査請求日】2022-04-19
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】川合 窒登
【審査官】中村 天真
(56)【参考文献】
【文献】特開2009-175473(JP,A)
【文献】特開2015-215463(JP,A)
【文献】特開2009-294537(JP,A)
【文献】特開2006-194959(JP,A)
【文献】特表2010-541010(JP,A)
【文献】大淵 康成,外2名,統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出,情報処理学会研究報告,2012年12月,Vol.2012-SLP-94, No.18,p.1-6
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
第1のマイクおよび第2のマイクと、
前記第1のマイクで収音された音信号から近端側の話者の音声である確率を求める音声推定部と、
前記音声推定部で推定された前記確率に基づいて、前記第1のマイクで収音された前記音信号のゲインを決定するゲイン決定部と、
前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、
前記第1のマイクと前記第2のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求める相関算出部と、を備え、
前記ゲイン決定部は、前記確率及び前記時間差を用いて前記第1のマイクで収音された前記音信号の前記ゲインを決定
し、
前記相関算出部は、前記時間差が所定値より大きい場合は前記第1のマイクで収音された前記音信号が近端側の話者の音声であると判断し、前記時間差が前記所定値以下の場合は前記第1のマイクで収音された前記音信号が雑音であると判断する、音声処理装置。
【請求項2】
前記第1のマイクで収音された前記音信号における音信号対雑音の比率を推定するSN比算出部をさらに備え、
前記ゲイン決定部は、前記確率と前記時間差と前記SN比算出部によって推定された前記比率とに基づいて前記第1のマイクで収音された前記音信号の前記ゲインを決定する、請求項1に記載の音声処理装置。
【請求項3】
前記ゲイン決定部は、前記ゲインを段階的に下げる、請求項1又は2に記載の音声処理装置。
【請求項4】
前記ゲイン決定部は、前記確率と前記時間差の組み合わせが所定の条件を満たさなかった場合、前記ゲインを最小に決定し、前記確率と前記時間差の組み合わせが前記所定の条件を満たした場合、前記ゲインを最小よりも大きい値に決定する、請求項1に記載の音声処理装置。
【請求項5】
前記音声推定部は、ケプストラムを用いて、前記確率を求める、請求項1乃至4のいずれかに記載の音声処理装置。
【請求項6】
前記音声推定部は、機械学習方法を用いて、前記確率を求める、請求項1乃至4のいずれかに記載の音声処理装置。
【請求項7】
前記音声推定部は、前記第1のマイクで収音された前記音信号の基音及び倍音の周波数分布を用いて、前記確率を求める、請求項1乃至4のいずれかに記載の音声処理装置。
【請求項8】
第1のマイクおよび第2のマイクと、
前記第1のマイクで収音された音信号から近端側の話者の音声の特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した前記音声の特徴量に基づいて、前記第1のマイクで収音された前記音信号のゲインを決定するゲイン決定部と、
前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、
前記第1のマイクと前記第2のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求める相関算出部と、を備え、
前記ゲイン決定部は、前記特徴量及び前記時間差を用いて前記第1のマイクで収音された前記音信号の前記ゲインを決定
し、
前記相関算出部は、前記時間差が所定値より大きい場合は前記第1のマイクで収音された前記音信号が近端側の話者の音声であると判断し、前記時間差が前記所定値以下の場合は前記第1のマイクで収音された前記音信号が雑音であると判断する、音声処理装置。
【請求項9】
第1のマイクで収音された音信号から近端側の話者の音声である確率を求め、
前記第1のマイクと第2のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求め、
前記時間差が所定値より大きい場合は前記第1のマイクで収音された前記音信号が近端側の話者の音声であると判断し、
前記時間差が前記所定値以下の場合は前記第1のマイクで収音された前記音信号が雑音であると判断し、
求められた前記確率および前記時間差に基づいて、前記第1のマイクで収音された前記音信号のゲインを決定し、
決定された前記ゲインによって処理された信号を遠端側に送信する、音声処理方法。
【請求項10】
前記第1のマイクで収音された前記音信号における音信号対雑音の比率を推定し、
前記確率と前記時間差と前記比率とに基づいて前記第1のマイクで収音された前記音信号の前記ゲインを決定する、請求項
9に記載の音声処理方法。
【請求項11】
前記ゲインを段階的に下げる、請求項
9又は
10に記載の音声処理方法。
【請求項12】
前記確率と前記時間差の組み合わせが所定の条件を満たさなかった場合、前記ゲインを最小に決定し、前記確率と前記時間差の組み合わせが前記所定の条件を満たした場合、前記ゲインを最小よりも大きい値に決定する、請求項
9に記載の音声処理方法。
【請求項13】
ケプストラムを用いて、前記確率を求める、請求項
9乃至
12のいずれかに記載の音声処理方法。
【請求項14】
機械学習方法を用いて、前記確率を求める、請求項
9乃至
12のいずれかに記載の音声処理方法。
【請求項15】
前記第1のマイクで収音された前記音信号の基音及び倍音の周波数分布を用いて、前記確率を求める、請求項
9乃至
12のいずれかに記載の音声処理方法。
【請求項16】
第1のマイクで収音された音信号から近端側の話者の音声の特徴量を抽出し、
前記第1のマイクと第2のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求め、
前記時間差が所定値より大きい場合は前記第1のマイクで収音された前記音信号が近端側の話者の音声であると判断し、
前記時間差が前記所定値以下の場合は前記第1のマイクで収音された前記音信号が雑音であると判断し、
抽出した前記音声の特徴量および前記時間差に基づいて、前記第1のマイクで収音された前記音信号のゲインを決定し、
決定された前記ゲインによって処理された信号を遠端側に送信する、音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一実施形態は、音信号の信号処理に関する。
【背景技術】
【0002】
従来、マイクから入力された音信号のレベルの強度を測定して、音信号のレベルの強度と予め設定した音声強度閾値とを比較することで、音信号が音声であるか雑音であるかを判定する音声調整装置があった(例えば、特許文献1を参照)。この音声調整装置は、所定の音声強度閾値よりも大きい状態(有音状態)で任意の一定時間(5~10秒)を越えて継続している音信号を、人間の音声ではなく周囲の雑音であるとみなしていた。また、この音声調整装置は、閾値よりも小さい状態(無音状態)が一定(20~30秒)を超えて継続している音信号に周囲の雑音を含まないとみなしていた。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の音声調整装置は、該音声調整装置を使用している近端側の話者の音声を、離れた位置(遠端側)にある別の音声調整装置又はスピーカを有する装置に対して、適切なレベルで遠端側に送信することを考慮していなかった。
【0005】
この発明の一実施形態は、近端側の話者の音声を適切なレベルで遠端側に送信することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係る音声処理装置は、マイクと、前記マイクで収音された音信号から近端側の話者の音声の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記音声の特徴量に基づいて、前記マイクで収音された前記音信号のゲインを決定するゲイン決定部と、前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、を備えている。
【発明の効果】
【0007】
本発明の一実施形態によれば、近端側の話者の音声を適切なレベルで遠端側に送信することができる。
【図面の簡単な説明】
【0008】
【
図1】実施形態1の音声処理システムの構成を示す図である。
【
図2】実施形態1の音声処理装置の主要な構成を示すブロック図である。
【
図3】実施形態1の音声処理装置の機能的構成を示すブロック図である。
【
図4】実施形態1のケプストラムの波形の一例であって、
図4(A)は、音信号に音声が含まれている波形を示す図であり、
図4(B)は、音信号に音声が含まれていない波形を示す図である。
【
図5】実施形態1の音声処理装置の動作の一例を示すフローチャートである。
【
図6】実施形態1のケプストラムを用いた特徴量の抽出処理の一例を示すフローチャートである。
【
図7】実施形態1のゲイン決定部の動作の一例を示すフローチャートである。
【
図8】実施形態2の音声処理装置の機能的構成を示すブロック図である。
【
図9】実施形態3の音声処理装置の主要な構成を示すブロック図である。
【
図10】実施形態3の音声処理装置の機能的構成を示すブロック図である。
【
図11】音響装置の主要なハードウェア構成を示すブロック図である。
【発明を実施するための形態】
【0009】
(実施形態1)
図1は、実施形態1に係る音声処理システム100の構成を示す図である。音声処理システム100は、ネットワーク2を介して互いに接続される複数の(
図1では2つの)音声処理装置1及び音声処理装置3を備えている。
【0010】
音声処理装置1は、第1の地点に設置されている。音声処理装置3は、第2の地点に設置されている。すなわち、音声処理装置1及び音声処理装置3は、互いに遠隔地に設置されている。
【0011】
音声処理装置1及び音声処理装置3は、例えば、遠隔地における会議システムに用いられる。音声処理装置1は、例えば、音声処理装置1の利用者の音声を、ネットワーク2を介して、音声処理装置3に送信する。また、音声処理装置3の利用者の音声も、同じく、ネットワーク2を介して、音声処理装置1に送信する。
【0012】
音声処理装置1及び音声処理装置3は、同じ構成及び機能を有する。また、以下の説明では、音声処理装置1の利用者を近端側の利用者又は話者と呼ぶ。また、以下の説明では、音声処理装置3の利用者を遠端側の利用者又は聴者と呼ぶ。さらに、以下の説明では、音声処理装置1の話者の音声を、ネットワーク2を介して音声処理装置3に送信する例で説明する。
【0013】
なお、以下の実施形態の説明は一例であって、本発明は、以下の例に限定されるものではない。
【0014】
図2は、音声処理装置1の主要な構成を示すブロック図である。音声処理装置1は、
図2に示すように、通信部11、CPU12、RAM13、メモリ14、マイク15、スピーカ16、及びユーザインタフェース(I/F)17を備えている。この例でいう、通信部11は、本発明の送信部に相当する。なお、音声処理装置3は、音声処理装置1と同じ構成及び同じ機能を有するので、説明を省略する。
【0015】
CPU12は、記憶媒体であるメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。
【0016】
メモリ14は、フラッシュメモリ又はハードディスクドライブ(HDD)等からなる。メモリ14は、上記のようにCPU12の動作用プログラムを記憶している。メモリ14は、特徴量抽出プログラム、ゲイン決定プログラム、及び通信制御プログラムを記憶している。特徴量抽出プログラムは、後述の音声の特徴量抽出部121を構成するためのプログラムである。ゲイン決定プログラムは、後述のゲイン決定部122を構成するためのプログラムである。通信制御プログラムは、後述の通信部11を制御するためのプログラムである。
【0017】
マイク15は、話者の音声及び周囲の雑音を含む音信号を収音する。マイク15は、収音した音信号(話者の音声及び周囲の雑音を含む音)をデジタル変換する。マイク15は、デジタル変換した音信号をCPU12に出力する。
【0018】
CPU12は、マイク15から入力された音信号に信号処理を施す。CPU12は、信号処理を施した音信号を通信部11に出力する。なお、音声処理装置1は、信号処理の専用プロセッサ(DSP:Digital Signal Processor)を備えていてもよい。この場合、CPU12の指示に従って、DSPが信号処理を行なう。
【0019】
CPU12は、信号処理として、マイク15で収音された音信号から、話者の音声である確率(人の声である信頼度)を求める。CPU12は、音声である確率に基づいて、遠端側の聴者にとって近端側の音声をより聞き取りやすくするように音信号に信号処理を施す。なお、信号処理の詳細は後述する。なお、この例でいう、音声である確率とは、0~100、又は0~1の値であってもよいし、基準を設けて、該基準と比較した度合いによって求められてもよい。
【0020】
ユーザI/F17は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば、スピーカ16の音量の調整等である。
【0021】
通信部11は、CPU12で信号処理された音信号を、ネットワーク2を介して、遠端側の音声処理装置3に送信する(
図1参照)。また、通信部11は、音声処理装置3から遠端側の音信号を受信し、スピーカ16に出力する。
【0022】
スピーカ16は、通信部11が出力した遠端側の音信号(利用者の音声)を放音する。また、スピーカ16は、入力された音信号がデジタル信号である場合、D/A変換を行ってから音信号を放音する構成であってもよい。
【0023】
CPU12の詳細な機能及び動作について、
図3を参照して説明する。
図3は、音声処理装置1の機能的構成を示すブロック図である。CPU12は、マイク15で収音された音声を適切なレベルに調節し、通信部11に出力する。
【0024】
CPU12は、
図3に示すように、特徴量抽出部121と、ゲイン決定部122と、レベル調節部123とを備えている。この例でいう特徴量抽出部121は、本発明の音声推定部に相当する。
【0025】
特徴量抽出部121は、マイク15で収音された音信号から、音声である確率として、音声の特徴量を抽出する。より詳細には、特徴量抽出部121は、例えば、ケプストラムを用いて、音声の特徴量を抽出する。
【0026】
図4(A)は、ケプストラムの波形の一例であって、音信号に音声が含まれている例を示す図である。
図4(B)は、ケプストラムの波形の一例であって、音信号に音声が含まれていない例を示す図である。
図4(A)及び
図4(B)の縦軸は、レベル(dB)を示す。また、
図4(A)及び
図4(B)の横軸は、ケフレンシー(ms)を示す。なお、
図4(A)及び
図4(B)は、低ケフレンシー成分を拡大したものである。
【0027】
特徴量抽出部121は、
図4(A)に示すように、例えば、リフタ(ケプストラムに使用されるフィルタ)を使用するなどして、一点鎖線で囲まれた低次のケプストラムと二点鎖線で囲まれた高次のケプストラムとに分離する。ここで、低次のケプストラムは、スペクトルの包絡成分に対応する。また、高次のケプストラムはスペクトルの微細成分に対応する。
【0028】
音声は、基音と倍音で構成されている。音声の基音は、高次のケプストラムのピークとして現れる。つまり、特徴量抽出部121は、高次のケプストラムにピークを検出した場合、マイク15で収音された音信号は、音声である確率が高いと推定する。この例では、特徴量抽出部121は、高次のケプストラムにピークを検出した場合、ピークレベルを0~1の値に変換(正規化)し、特徴量としてゲイン決定部122に出力する。
【0029】
一方、特徴量抽出部121は、
図4(B)に示すように、高次のケプストラムにピークを検出しない場合、音声である確率が低いと推定する。特徴量抽出部121は、高次のケプストラムにピークが無い旨(特徴量を0とする旨)をゲイン決定部122に出力する。
【0030】
ゲイン決定部122は、特徴量抽出部121によって抽出された特徴量(0~1の値)に基づいて、マイク15で収音した音信号のゲインを決定する。ゲイン決定部122は、例えば、特徴量が0~1の場合、ゲインを0(最小値)よりも大きな値に決定する。また、ゲイン決定部122は、抽出された特徴量が0の場合、ゲインを0(最小値)に決定する。
【0031】
なお、ゲイン決定部122は、受け取った特徴量に応じて、ゲインを0~1の間に決定してもよい。また、ゲイン決定部122は、予め閾値を決めておき、受け取った特徴量と閾値とを比較して、ゲインを決定してもよい。この場合、例えば、ゲイン決定部122は、特徴量が閾値以下であれば、ゲインを0に決定する。また、この場合、例えば、特徴量が閾値を越えていれば、ゲインを0~1に決定する。
【0032】
レベル調節部123は、ゲイン決定部122によって決定されたゲインを用いて、マイク15で収音した音信号のレベルを調節する。
【0033】
音声処理装置1は、マイク15で収音された音信号が音声である確率(特徴量)が高ければ、ゲインを1又は確率に応じて0~1の間に決定する。また、マイク15で収音された音信号が音声である確率が低ければ、ゲインを0に決定する。これにより、音声処理装置1は、近端側の不要な雑音を抑制することができる。従って、遠端側の聴者は、適切なレベルで近端側の話者の音声を聞くことができる。
【0034】
音声処理装置1の動作について、
図5を参照して説明する。
図5は、音声処理装置1の動作の一例を示すフローチャートである。
【0035】
特徴量抽出部121は、マイク15で収音された音信号から、音声の確率として、音声の特徴量を抽出する(S1)。ゲイン決定部122は、音声の特徴量に基づいて、マイク15で収音された音信号のゲインを決定する(S2)。レベル調節部123は、決定されたゲインを用いて音信号のレベルを調節する(S3)。送信部は、処理された信号を遠端側に送信する(S4)。
【0036】
次に、特徴量抽出部121による特徴量の抽出処理の一例について、
図6を参照して説明する。
図6は、ケプストラムを用いた特徴量の抽出処理の一例を示すフローチャートである。
【0037】
まず、特徴量抽出部121は、マイク15で収音された音信号にFFT(Fast Furies Transform)(高速フーリエ変換処理)を施し、FFTを施した信号の絶対値を計算する。これにより、特徴量抽出部121は、音信号の振幅スペクトルを算出する(S11)。次に、特徴量抽出部121は、振幅スペクトルを対数計算(Log計算)し、振幅スペクトルをデシベル(dB)に変換する。これにより、特徴量抽出部121は、対数スペクトルを算出する(S12)。さらに、特徴量抽出部121は、対数スペクトルにDCT(Discrete Cosine Transform)(離散コサイン変換処理)を施す。これにより特徴量抽出部121は、ケプストラム(波形)を算出する(S13)。特徴量抽出部121は、算出したケプストラムの波形から高次のケプストラムのピークレベルを検出する(S14)。特徴量抽出部121は、検出したピークレベルを正規化した特徴量をゲイン決定部122に出力する(S15)。
【0038】
なお、特徴量抽出部121は、高次ケプストラムにピークレベルを検出しなかった場合、音声の特徴量(音声である確率)を0としてゲイン決定部122に出力する。
【0039】
次に、ゲイン決定部122の動作の一例について、
図7を参照して説明する。
図7は、ゲイン決定部122の動作の一例を示すフローチャートである。なお、以下の説明は一例であって、限定されるものではない。
【0040】
ゲイン決定部122は、特徴量抽出部121から特徴量を受け取る(S21)。ゲイン決定部122は、受け取った特徴量に応じて、ゲインを決定する(S22)。ゲイン決定部122は、受け取った特徴量が0~1であれば、又は予め決められた閾値を越えていれば、(S22:Yes)、ゲインを0よりも大きい値に決定し、レベル調節部123に出力する(S23)。
【0041】
一方、ゲイン決定部122は、特徴量が0又は特徴量が閾値よりも低ければ、(S22:No)、ゲインを0に決定し、レベル調節部123に出力する(S23)。
【0042】
実施形態1の音声処理装置1は、ケプストラムの波形のピークレベルから求められた音声である確率(音声の特徴量)に基づいて、ゲインを決定する。音声処理装置1は、音声である確率(音声の特徴量)に基づいて決定されたゲインで、マイク15で収音された音信号のレベルを調節する。これにより、実施形態1の音声処理装置1は、近端側の話者の音声を適切なレベルで遠端側に送信することができる。
【0043】
なお、ゲイン決定部122は、例えば、受け取った特徴量が1又は閾値を越えた場合、瞬時にゲインを上げてもよい。この場合、音声処理装置1は、音声の始まり部分を聞き取りやすくする(音声の頭抜けを抑制することができる)。また、ゲイン決定部122は、受け取った特徴量が0又は閾値以下の場合、ゲインを時間の経過とともに段階的に下げてもよい。この場合、音声処理装置1は、急激に音量が下がらないので、利用者に違和感を覚えさせない。
【0044】
(実施形態2)
実施形態2の音声処理装置1及び音声処理装置3のCPU12Aについて、
図8を参照して説明する。
図8は、実施形態2のCPU12Aの機能的構成を示すブロック図である。なお、上述の実施形態1のCPU12と同じ構成には、同じ符号を付し、説明を省略する。また、実施形態2の音声処理装置1及び3は同じ構成及び同じ機能を有するものとし、以下の説明では、音声処理装置1のCPU12Aを代表して説明する。
【0045】
実施形態2のCPU12Aは、
図8に示すように、マイク15で収音された音信号に対する、周囲の雑音のSN(Signal to Noise)比率を算出するSN比算出部124を備えている。すなわち、CPU12Aは、SN比率の算出を、プログラムを読み出して実行する。
【0046】
SN比算出部124は、音信号と、雑音(例えば、タイピング音、空調の音、装置から遠い位置の音など、話者の音声以外の音)とのSN比率を算出する。SN比率は、例えば、以下の数式1よって算出される。
【0047】
【0048】
上記の数式1において、Psは、マイク15で収音された音信号のパワーである。また、PNは、マイク15で収音された雑音のパワーである。この場合、SN比算出部124は、例えば、予め、近端側の話者が音声を発していない(話していない)状態において、雑音のパワーを算出しておく。SN比算出部124は、予め算出していた雑音のパワーと、収音された音信号のパワーとを用いてSN比率を算出する。SN比率が大きい場合、音声に対して雑音が小さいことを示す。また、SN比率が小さい場合、音声に対して雑音が大きいことを示す。
【0049】
ゲイン決定部122は、例えば、SN比算出部124によって算出されたSN比率と特徴量抽出部121によって抽出された特徴量との積に応じてゲインを決定する。
【0050】
なお、ゲイン決定部122は、予め決められた閾値と、上記積とを比較してもよい。この場合、ゲイン決定部122は、上記積が閾値を越えていれば、ゲインを0~1に決定する。また、ゲイン決定部122は、上記積が閾値以下であれば、ゲインを0に決定する。
【0051】
また、ゲイン決定部122は、特徴量抽出部121によって抽出された音声の特徴量と、SN比算出部124によって算出されたSN比率特徴量抽出部との積に応じてゲインを決定する例に限定されない。ゲイン決定部122は、例えば、音声の特徴量及び算出したSN比率を論理式、例えば、論理積、論理和、排他的論理和等、又は複数の論理式の組み合わせを用いてゲインを決定してもよい。
【0052】
実施形態2の音声処理装置1は、近端側の話者の特徴量抽出部121による音声である確率(音声の特徴量)だけでなく、音信号対雑音のSN比率にも基づいて、音信号のレベルを調節する。これにより、音声処理装置1は、マイク15で収音された近端側の話者の音声をより適切なレベルで遠端側に送信することができる。
【0053】
なお、実施形態2の音声処理装置1では、CPU12AがSN比算出プログラムを読みだして実行している例で説明したが、SN比算出部は、SN比算出回路で構成されていてもよい。
【0054】
(実施形態3)
実施形態3の音声処理装置1Aについて
図9を参照して説明する。
図9は、実施形態3の音声処理装置1Aの主要な構成を示すブロック図である。
図10は、実施形態3の音声処理装置1AのCPU12Bの機能的構成を示すブロック図である。なお、音声処理装置3は、音声処理装置1Aと同じ構成及び機能を有しているので、以下の説明では、音声処理装置1Aを代表して説明する。また、音声処理装置1と同じ構成には、同じ符号を付し、説明を省略する。
【0055】
実施形態3の音声処理装置1Aは、
図9に示すように、複数(
図9では2つ)のマイク15A及びマイク15Bを備えている。音声処理装置1Aは、マイク15A及びマイク15Bのそれぞれから近端側の音信号を収音する。
【0056】
マイク15A及びマイク15Bのそれぞれは、音信号をCPU12Bに出力する。
【0057】
CPU12Bは、
図10に示すように、相関算出部125を備えている。相関算出部125は複数のマイク15A及びマイク15Bで収音した音信号の相関を算出する。相関算出部125は、白色化相互関数を算出する。
【0058】
相関算出部125は、マイク15Aから生成される第1音信号S1(t)のスペクトル及びマイク15Bから生成される第2音信号S2(t)のスペクトルの相関を求める。
【0059】
なお、以下の説明では、一例として、マイク15Aは、指向性マイクである。マイク15Bは、全方向に均一な感度を有する無指向性マイクである。ただし、マイク15A及びマイク15Bの指向性の態様は、この例に限るものではない。例えば、マイク15A及びマイク15Bともに無指向性のマイクであってもよいし、ともに指向性のマイクであってもよい。また、マイクの数も2つに限るものではなく、音声処理装置1Aは、例えば3つ以上のマイクを備えていてもよい。
【0060】
白色化相互関数は、例えば、以下の数式2~数式6によって算出される。まず、相関算出部125は、以下の数式2及び数式3に従って、第1音信号S1(t)及び第2音信号S2(t)のそれぞれにFFTを施す。そして、相関算出部125は、第1音信号S1(t)及び第2音信号S2(t)を周波数領域の信号S1(ω)及び信号S2(ω)に変換する。
【0061】
【0062】
【0063】
次に、相関算出部125は、周波数領域の信号S1(ω)及び信号S2(ω)の相互相関関数S1、2(ω)を算出する。
【0064】
【0065】
上記の数式4における、*は、複素共役(複素数について、虚部を-1倍する)を示す。
【0066】
さらに、相関算出部125は、数式4で算出された相互相関関数S1,2(ω)から、例えば、IFFT(Inverse Fast Fourie Transfer(フーリエ逆変換))を施して白色化相互関数係数CPS1,2(τ)を算出する。
【0067】
【0068】
さらに白色化相互関数係数CPS1,2(τ)から、白色化相互関数係数が最大となる時間差TDOA1,2を算出する。
【0069】
【0070】
相関算出部125は、上述の数式2~数式6を用いることで、第1音信号及び第2音信号S2(t)の波形の時間差(位相差)TDOA1,2を求める。時間差TDOA1,2が大きい場合、相関算出部125は、装置の近くに音源が存在するとみなし、音源からの音声を近端側の話者の音声であると判定する。一方、相関算出部125は、時間差TDOA1,2が小さい場合、間接音が多く、装置の遠方の音源からの雑音であると判定する。
【0071】
ゲイン決定部122は、特徴量抽出部121によって抽出された音声の特徴量と相関算出部125によって判定された判定結果の積を用いて収音した音信号のゲインを決定する。
【0072】
実施形態3の音声処理装置1Aの相関算出部125は、白色化相互関数を用いることで、音源からの音信号が音声又は遠方の雑音であるかを判定する。これにより、実施形態3の音声処理装置1Aは、近端側の話者の音声である確率(音声の特徴量)だけでなく、遠方からの雑音であるか否かにより、音信号のレベルを調節する。従って、音声処理装置1Aは、マイク15で収音された近端側の話者の音声をより適切なレベルで遠端側に送信することができる。
【0073】
なお、ゲイン決定部122は、音声である確率(音声の特徴量)及び相関算出部125による判定結果の積を用いてゲインを決定する例に限定されない。ゲイン決定部122は、例えば、音声である確率(音声の特徴量)及び該判定結果を論理式、例えば、論理積、論理和、排他的論理和等、又は複数の論理式の組み合わせでゲインを決定してもよい。
【0074】
また、実施形態3の音声処理装置1Aは、実施形態2の音声処理装置1と組み合わせて使用してもよい。この場合、例えば、ゲイン決定部122は、音声である確率+SN比率×該判定結果により、マイク15で収音された音信号のゲインを決定する。これにより、音声処理装置1Aは、より精度よく、マイク15で収音された近端側の話者の音声を適切なレベルで遠端側に送信することができる。なお、ゲイン決定部122は、音声である確率(音声の特徴量)、SN比率及び該判定結果を、複数の論理式、例えば論理積、論理和、排他的論理和等、を組み合わせることでゲインを決定してもよい。
【0075】
また、実施形態3の音声処理装置1Aでは、CPU12Bが相関算出プログラムを読みだして実行している例で説明したが、相関算出125は、相関算出回路で構成されていてもよい。
【0076】
(変形例1)
変形例1の音声処理装置1の特徴量抽出部121について、説明する。音声処理装置1は、機械学習によって、音信号が近端側の話者の音声であるかどうか判定する。
【0077】
音声処理装置1は、例えば、予め複数の音声サンプルを記憶させておく。音声処理装置1は、複数の音声サンプルの特徴量を算出し、音声の特徴量を学習モデルとしてパターン化しておく。音声処理装置1は、マイク15で収音した音信号を、記憶されていた音声サンプルの特徴量と比較する。音声処理装置1は、マイク15で収音した音声の特徴量と、記憶されていた音声サンプルの特徴量のパターンマッチングにより、音声である確率を求める。
【0078】
例えば、音声処理装置1は、音声の特徴量及び、雑音の特徴量を学習し、それぞれの音声モデル及び、雑音モデルとしてパターン化しておく。音声処理装置1は、未知の(マイクで収音した)音信号を入力し、より尤度の高い値を示すモデルを基に、該音信号を音声か否か判定する。
【0079】
変形例1の音声処理装置1は、機械学習により、マイク15で収音した音信号から音声の確率を求める。これにより、変形例1の音声処理装置1は、より簡易な方法で、マイク15で収音された近端側の話者の音声を適切なレベルで遠端側に送信することができる。
【0080】
なお、変形例1の音声処理装置1は、ニューラルネットワークを用いて、音声である確率を求めてもよい。すなわち、変形例1の音声処理装置1は、ニューラルネットワークによって予め学習された、未知の音信号の特徴量を入力し、出力結果に基づいて、音信号を音声か否かを判定する。
【0081】
(変形例2)
変形例2の音声処理装置1の特徴量抽出部121について、説明する。変形例2の音声処理装置1の特徴量抽出部121は、音信号の基音と倍音の周波数分布によって、音声の特徴量を抽出する。
【0082】
特徴量抽出部121は、例えば、マイク15で収音された音信号にFFTを施す。特徴量抽出部121は、マイク15で収音された音信号から基音と基音の整数倍である倍音を検出すれば、話者の音声であると推定する。
【0083】
変形例2の音声処理装置1は、より簡易な方法で音声である確率を求める(音声の特徴量を抽出する)ことができる。
【0084】
(別の変形例)
別の変形例について、以下に列挙する。
【0085】
別の変形例の音声処理装置1の特徴量抽出部121は、周波数帯域におけるパワー(dB)を算出する。より詳細には、特徴量抽出部121は、音信号にFFTを施して、パワーを算出する。特徴量抽出部121は、マイク15で収音した音信号のパワーに応じて、音信号が音声である確率を求める。言い換えると、特徴量抽出部121は、マイク15で収音した音信号のパワーに応じて、音信号が音声であるか否かを判定する。
【0086】
また、別の変形例の音声処理装置1の特徴量抽出部121は、スペクトルフラックス手法によって音声の特徴量を抽出する。スペクトルフラックスは、音声スペクトルの局所的な変化を示すものである。すなわち、スペクトルフラックスが大きければ、音の変動が大きいことを示す。すなわち、音声処理装置1の特徴量抽出部121は、スペクトルフラックスが大きければ、近端側の話者が発話したと判断する。
【0087】
また、別の変形例の音声処理装置1の特徴量抽出部121は、非周期性指標によって音声の特徴量を抽出する。非周期性指標は、音声の周期成分及び非周期成分の割合を示す。非周期性指標は、嗄れ声の子音のように周期的な成分と非周期的な成分が混在した音を表すために用いられている。本変形例の特徴量抽出部121は、非周期性指標を算出する。すなわち、音声処理装置1の特徴量抽出部121は、非周期性指標を検出すれば、近端側の話者が発話していると判定する。
【0088】
また、別の変形例の特徴量抽出部121は、音声である確率(音声の特徴量)として、音信号の時間波形がゼロと交差する回数を計算する。特徴量抽出部121は、音声の時間領域においてゼロ交差となる点の出現頻度を算出したものである。ゼロ交差は、音声の基音であるピッチに対応する。すなわち、音声処理装置1の特徴量抽出部121は、ゼロ交差を検出すれば、近端側の話者の音声の確率が高いと推定する。
【0089】
なお、本発明の構成は、全て、FGPA(Field-Programmable Gate Array)などのハードウェアにより実現してもよい。例えば、
図11に示すように、音声処理装置1又は音声処理装置1Aは、特徴量抽出部121は、特徴量抽出部121に対応する特徴量抽出回路121A、ゲイン決定部122に対応するゲイン決定回路122Aを備えていてもよい。
【0090】
また、通信部11のハードウェアの機能を、CPU12、CPU12A又はCPU12Bがメモリ14に記憶された通信制御プログラムを読み出して実行することで実現してもよい。
【0091】
また、本発明の構成は、適宜ハードウェア及びソフトウェアを組み合わせて実現してもよい。
【0092】
上述の実施形態及び変形例の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態及び変形例ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0093】
1,1A,3…音声処理装置
11…通信部(送信部)
15…マイク
121…特徴量抽出部(音声推定部)
122…ゲイン決定部
124…SN比算出部
125…相関算出部