特許7404664 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7404664音声処理装置及び音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-18

(45)【発行日】2023-12-26

(54)【発明の名称】音声処理装置及び音声処理方法

(51)【国際特許分類】

G10L 21/034 20130101AFI20231219BHJP

G10L 25/84 20130101ALI20231219BHJP

【ＦＩ】

G10L21/034

G10L25/84

【請求項の数】 16

(21)【出願番号】P 2019106859

(22)【出願日】2019-06-07

(65)【公開番号】P2020201337

(43)【公開日】2020-12-17

【審査請求日】2022-04-19

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】川合窒登

【審査官】中村天真

(56)【参考文献】

【文献】特開２００９－１７５４７３（ＪＰ，Ａ）

【文献】特開２０１５－２１５４６３（ＪＰ，Ａ）

【文献】特開２００９－２９４５３７（ＪＰ，Ａ）

【文献】特開２００６－１９４９５９（ＪＰ，Ａ）

【文献】特表２０１０－５４１０１０（ＪＰ，Ａ）

【文献】大淵康成，外２名，統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出，情報処理学会研究報告，2012年12月，Vol.2012-SLP-94, No.18，p.1-6

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

第１のマイクおよび第２のマイクと、
前記第１のマイクで収音された音信号から近端側の話者の音声である確率を求める音声推定部と、
前記音声推定部で推定された前記確率に基づいて、前記第１のマイクで収音された前記音信号のゲインを決定するゲイン決定部と、
前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、
前記第１のマイクと前記第２のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求める相関算出部と、を備え、
前記ゲイン決定部は、前記確率及び前記時間差を用いて前記第１のマイクで収音された前記音信号の前記ゲインを決定し、
前記相関算出部は、前記時間差が所定値より大きい場合は前記第１のマイクで収音された前記音信号が近端側の話者の音声であると判断し、前記時間差が前記所定値以下の場合は前記第１のマイクで収音された前記音信号が雑音であると判断する、音声処理装置。

【請求項2】

前記第１のマイクで収音された前記音信号における音信号対雑音の比率を推定するＳＮ比算出部をさらに備え、
前記ゲイン決定部は、前記確率と前記時間差と前記ＳＮ比算出部によって推定された前記比率とに基づいて前記第１のマイクで収音された前記音信号の前記ゲインを決定する、請求項１に記載の音声処理装置。

【請求項3】

前記ゲイン決定部は、前記ゲインを段階的に下げる、請求項１又は２に記載の音声処理装置。

【請求項4】

前記ゲイン決定部は、前記確率と前記時間差の組み合わせが所定の条件を満たさなかった場合、前記ゲインを最小に決定し、前記確率と前記時間差の組み合わせが前記所定の条件を満たした場合、前記ゲインを最小よりも大きい値に決定する、請求項１に記載の音声処理装置。

【請求項5】

前記音声推定部は、ケプストラムを用いて、前記確率を求める、請求項１乃至４のいずれかに記載の音声処理装置。

【請求項6】

前記音声推定部は、機械学習方法を用いて、前記確率を求める、請求項１乃至４のいずれかに記載の音声処理装置。

【請求項7】

前記音声推定部は、前記第１のマイクで収音された前記音信号の基音及び倍音の周波数分布を用いて、前記確率を求める、請求項１乃至４のいずれかに記載の音声処理装置。

【請求項8】

第１のマイクおよび第２のマイクと、
前記第１のマイクで収音された音信号から近端側の話者の音声の特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した前記音声の特徴量に基づいて、前記第１のマイクで収音された前記音信号のゲインを決定するゲイン決定部と、
前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、
前記第１のマイクと前記第２のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求める相関算出部と、を備え、
前記ゲイン決定部は、前記特徴量及び前記時間差を用いて前記第１のマイクで収音された前記音信号の前記ゲインを決定し、
前記相関算出部は、前記時間差が所定値より大きい場合は前記第１のマイクで収音された前記音信号が近端側の話者の音声であると判断し、前記時間差が前記所定値以下の場合は前記第１のマイクで収音された前記音信号が雑音であると判断する、音声処理装置。

【請求項9】

第１のマイクで収音された音信号から近端側の話者の音声である確率を求め、
前記第１のマイクと第２のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求め、
前記時間差が所定値より大きい場合は前記第１のマイクで収音された前記音信号が近端側の話者の音声であると判断し、
前記時間差が前記所定値以下の場合は前記第１のマイクで収音された前記音信号が雑音であると判断し、
求められた前記確率および前記時間差に基づいて、前記第１のマイクで収音された前記音信号のゲインを決定し、
決定された前記ゲインによって処理された信号を遠端側に送信する、音声処理方法。

【請求項10】

前記第１のマイクで収音された前記音信号における音信号対雑音の比率を推定し、
前記確率と前記時間差と前記比率とに基づいて前記第１のマイクで収音された前記音信号の前記ゲインを決定する、請求項９に記載の音声処理方法。

【請求項11】

前記ゲインを段階的に下げる、請求項９又は１０に記載の音声処理方法。

【請求項12】

前記確率と前記時間差の組み合わせが所定の条件を満たさなかった場合、前記ゲインを最小に決定し、前記確率と前記時間差の組み合わせが前記所定の条件を満たした場合、前記ゲインを最小よりも大きい値に決定する、請求項９に記載の音声処理方法。

【請求項13】

ケプストラムを用いて、前記確率を求める、請求項９乃至１２のいずれかに記載の音声処理方法。

【請求項14】

機械学習方法を用いて、前記確率を求める、請求項９乃至１２のいずれかに記載の音声処理方法。

【請求項15】

前記第１のマイクで収音された前記音信号の基音及び倍音の周波数分布を用いて、前記確率を求める、請求項９乃至１２のいずれかに記載の音声処理方法。

【請求項16】

第１のマイクで収音された音信号から近端側の話者の音声の特徴量を抽出し、
前記第１のマイクと第２のマイクで収音された前記音声の相関から同一音源由来の波形の時間差を求め、
前記時間差が所定値より大きい場合は前記第１のマイクで収音された前記音信号が近端側の話者の音声であると判断し、
前記時間差が前記所定値以下の場合は前記第１のマイクで収音された前記音信号が雑音であると判断し、
抽出した前記音声の特徴量および前記時間差に基づいて、前記第１のマイクで収音された前記音信号のゲインを決定し、
決定された前記ゲインによって処理された信号を遠端側に送信する、音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明の一実施形態は、音信号の信号処理に関する。

【背景技術】

【0002】

従来、マイクから入力された音信号のレベルの強度を測定して、音信号のレベルの強度と予め設定した音声強度閾値とを比較することで、音信号が音声であるか雑音であるかを判定する音声調整装置があった（例えば、特許文献１を参照）。この音声調整装置は、所定の音声強度閾値よりも大きい状態（有音状態）で任意の一定時間（５～１０秒）を越えて継続している音信号を、人間の音声ではなく周囲の雑音であるとみなしていた。また、この音声調整装置は、閾値よりも小さい状態（無音状態）が一定（２０～３０秒）を超えて継続している音信号に周囲の雑音を含まないとみなしていた。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１６－８５４２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の音声調整装置は、該音声調整装置を使用している近端側の話者の音声を、離れた位置（遠端側）にある別の音声調整装置又はスピーカを有する装置に対して、適切なレベルで遠端側に送信することを考慮していなかった。

【0005】

この発明の一実施形態は、近端側の話者の音声を適切なレベルで遠端側に送信することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一実施形態に係る音声処理装置は、マイクと、前記マイクで収音された音信号から近端側の話者の音声の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記音声の特徴量に基づいて、前記マイクで収音された前記音信号のゲインを決定するゲイン決定部と、前記ゲイン決定部で決定された前記ゲインによって処理された信号を遠端側に送信する送信部と、を備えている。

【発明の効果】

【0007】

本発明の一実施形態によれば、近端側の話者の音声を適切なレベルで遠端側に送信することができる。

【図面の簡単な説明】

【0008】

【図1】実施形態１の音声処理システムの構成を示す図である。

【図2】実施形態１の音声処理装置の主要な構成を示すブロック図である。

【図3】実施形態１の音声処理装置の機能的構成を示すブロック図である。

【図4】実施形態１のケプストラムの波形の一例であって、図４（Ａ）は、音信号に音声が含まれている波形を示す図であり、図４（Ｂ）は、音信号に音声が含まれていない波形を示す図である。

【図5】実施形態１の音声処理装置の動作の一例を示すフローチャートである。

【図6】実施形態１のケプストラムを用いた特徴量の抽出処理の一例を示すフローチャートである。

【図7】実施形態１のゲイン決定部の動作の一例を示すフローチャートである。

【図8】実施形態２の音声処理装置の機能的構成を示すブロック図である。

【図9】実施形態３の音声処理装置の主要な構成を示すブロック図である。

【図10】実施形態３の音声処理装置の機能的構成を示すブロック図である。

【図11】音響装置の主要なハードウェア構成を示すブロック図である。

【発明を実施するための形態】

【0009】

（実施形態１）
図１は、実施形態１に係る音声処理システム１００の構成を示す図である。音声処理システム１００は、ネットワーク２を介して互いに接続される複数の（図１では２つの）音声処理装置１及び音声処理装置３を備えている。

【0010】

音声処理装置１は、第１の地点に設置されている。音声処理装置３は、第２の地点に設置されている。すなわち、音声処理装置１及び音声処理装置３は、互いに遠隔地に設置されている。

【0011】

音声処理装置１及び音声処理装置３は、例えば、遠隔地における会議システムに用いられる。音声処理装置１は、例えば、音声処理装置１の利用者の音声を、ネットワーク２を介して、音声処理装置３に送信する。また、音声処理装置３の利用者の音声も、同じく、ネットワーク２を介して、音声処理装置１に送信する。

【0012】

音声処理装置１及び音声処理装置３は、同じ構成及び機能を有する。また、以下の説明では、音声処理装置１の利用者を近端側の利用者又は話者と呼ぶ。また、以下の説明では、音声処理装置３の利用者を遠端側の利用者又は聴者と呼ぶ。さらに、以下の説明では、音声処理装置１の話者の音声を、ネットワーク２を介して音声処理装置３に送信する例で説明する。

【0013】

なお、以下の実施形態の説明は一例であって、本発明は、以下の例に限定されるものではない。

【0014】

図２は、音声処理装置１の主要な構成を示すブロック図である。音声処理装置１は、図２に示すように、通信部１１、ＣＰＵ１２、ＲＡＭ１３、メモリ１４、マイク１５、スピーカ１６、及びユーザインタフェース（Ｉ／Ｆ）１７を備えている。この例でいう、通信部１１は、本発明の送信部に相当する。なお、音声処理装置３は、音声処理装置１と同じ構成及び同じ機能を有するので、説明を省略する。

【0015】

ＣＰＵ１２は、記憶媒体であるメモリ１４からプログラムを読み出し、ＲＡＭ１３に一時記憶することで、種々の動作を行う。

【0016】

メモリ１４は、フラッシュメモリ又はハードディスクドライブ（ＨＤＤ）等からなる。メモリ１４は、上記のようにＣＰＵ１２の動作用プログラムを記憶している。メモリ１４は、特徴量抽出プログラム、ゲイン決定プログラム、及び通信制御プログラムを記憶している。特徴量抽出プログラムは、後述の音声の特徴量抽出部１２１を構成するためのプログラムである。ゲイン決定プログラムは、後述のゲイン決定部１２２を構成するためのプログラムである。通信制御プログラムは、後述の通信部１１を制御するためのプログラムである。

【0017】

マイク１５は、話者の音声及び周囲の雑音を含む音信号を収音する。マイク１５は、収音した音信号（話者の音声及び周囲の雑音を含む音）をデジタル変換する。マイク１５は、デジタル変換した音信号をＣＰＵ１２に出力する。

【0018】

ＣＰＵ１２は、マイク１５から入力された音信号に信号処理を施す。ＣＰＵ１２は、信号処理を施した音信号を通信部１１に出力する。なお、音声処理装置１は、信号処理の専用プロセッサ（ＤＳＰ：Digital Signal Processor）を備えていてもよい。この場合、ＣＰＵ１２の指示に従って、ＤＳＰが信号処理を行なう。

【0019】

ＣＰＵ１２は、信号処理として、マイク１５で収音された音信号から、話者の音声である確率（人の声である信頼度）を求める。ＣＰＵ１２は、音声である確率に基づいて、遠端側の聴者にとって近端側の音声をより聞き取りやすくするように音信号に信号処理を施す。なお、信号処理の詳細は後述する。なお、この例でいう、音声である確率とは、０～１００、又は０～１の値であってもよいし、基準を設けて、該基準と比較した度合いによって求められてもよい。

【0020】

ユーザＩ／Ｆ１７は、利用者からの操作を受け付ける。利用者から受け付ける操作は、例えば、スピーカ１６の音量の調整等である。

【0021】

通信部１１は、ＣＰＵ１２で信号処理された音信号を、ネットワーク２を介して、遠端側の音声処理装置３に送信する（図１参照）。また、通信部１１は、音声処理装置３から遠端側の音信号を受信し、スピーカ１６に出力する。

【0022】

スピーカ１６は、通信部１１が出力した遠端側の音信号（利用者の音声）を放音する。また、スピーカ１６は、入力された音信号がデジタル信号である場合、Ｄ／Ａ変換を行ってから音信号を放音する構成であってもよい。

【0023】

ＣＰＵ１２の詳細な機能及び動作について、図３を参照して説明する。図３は、音声処理装置１の機能的構成を示すブロック図である。ＣＰＵ１２は、マイク１５で収音された音声を適切なレベルに調節し、通信部１１に出力する。

【0024】

ＣＰＵ１２は、図３に示すように、特徴量抽出部１２１と、ゲイン決定部１２２と、レベル調節部１２３とを備えている。この例でいう特徴量抽出部１２１は、本発明の音声推定部に相当する。

【0025】

特徴量抽出部１２１は、マイク１５で収音された音信号から、音声である確率として、音声の特徴量を抽出する。より詳細には、特徴量抽出部１２１は、例えば、ケプストラムを用いて、音声の特徴量を抽出する。

【0026】

図４（Ａ）は、ケプストラムの波形の一例であって、音信号に音声が含まれている例を示す図である。図４（Ｂ）は、ケプストラムの波形の一例であって、音信号に音声が含まれていない例を示す図である。図４（Ａ）及び図４（Ｂ）の縦軸は、レベル（ｄＢ）を示す。また、図４（Ａ）及び図４（Ｂ）の横軸は、ケフレンシー（ｍｓ）を示す。なお、図４（Ａ）及び図４（Ｂ）は、低ケフレンシー成分を拡大したものである。

【0027】

特徴量抽出部１２１は、図４（Ａ）に示すように、例えば、リフタ（ケプストラムに使用されるフィルタ）を使用するなどして、一点鎖線で囲まれた低次のケプストラムと二点鎖線で囲まれた高次のケプストラムとに分離する。ここで、低次のケプストラムは、スペクトルの包絡成分に対応する。また、高次のケプストラムはスペクトルの微細成分に対応する。

【0028】

音声は、基音と倍音で構成されている。音声の基音は、高次のケプストラムのピークとして現れる。つまり、特徴量抽出部１２１は、高次のケプストラムにピークを検出した場合、マイク１５で収音された音信号は、音声である確率が高いと推定する。この例では、特徴量抽出部１２１は、高次のケプストラムにピークを検出した場合、ピークレベルを０～１の値に変換（正規化）し、特徴量としてゲイン決定部１２２に出力する。

【0029】

一方、特徴量抽出部１２１は、図４（Ｂ）に示すように、高次のケプストラムにピークを検出しない場合、音声である確率が低いと推定する。特徴量抽出部１２１は、高次のケプストラムにピークが無い旨（特徴量を０とする旨）をゲイン決定部１２２に出力する。

【0030】

ゲイン決定部１２２は、特徴量抽出部１２１によって抽出された特徴量（０～１の値）に基づいて、マイク１５で収音した音信号のゲインを決定する。ゲイン決定部１２２は、例えば、特徴量が０～１の場合、ゲインを０（最小値）よりも大きな値に決定する。また、ゲイン決定部１２２は、抽出された特徴量が０の場合、ゲインを０（最小値）に決定する。

【0031】

なお、ゲイン決定部１２２は、受け取った特徴量に応じて、ゲインを０～１の間に決定してもよい。また、ゲイン決定部１２２は、予め閾値を決めておき、受け取った特徴量と閾値とを比較して、ゲインを決定してもよい。この場合、例えば、ゲイン決定部１２２は、特徴量が閾値以下であれば、ゲインを０に決定する。また、この場合、例えば、特徴量が閾値を越えていれば、ゲインを０～１に決定する。

【0032】

レベル調節部１２３は、ゲイン決定部１２２によって決定されたゲインを用いて、マイク１５で収音した音信号のレベルを調節する。

【0033】

音声処理装置１は、マイク１５で収音された音信号が音声である確率（特徴量）が高ければ、ゲインを１又は確率に応じて０～１の間に決定する。また、マイク１５で収音された音信号が音声である確率が低ければ、ゲインを０に決定する。これにより、音声処理装置１は、近端側の不要な雑音を抑制することができる。従って、遠端側の聴者は、適切なレベルで近端側の話者の音声を聞くことができる。

【0034】

音声処理装置１の動作について、図５を参照して説明する。図５は、音声処理装置１の動作の一例を示すフローチャートである。

【0035】

特徴量抽出部１２１は、マイク１５で収音された音信号から、音声の確率として、音声の特徴量を抽出する（Ｓ１）。ゲイン決定部１２２は、音声の特徴量に基づいて、マイク１５で収音された音信号のゲインを決定する（Ｓ２）。レベル調節部１２３は、決定されたゲインを用いて音信号のレベルを調節する（Ｓ３）。送信部は、処理された信号を遠端側に送信する（Ｓ４）。

【0036】

次に、特徴量抽出部１２１による特徴量の抽出処理の一例について、図６を参照して説明する。図６は、ケプストラムを用いた特徴量の抽出処理の一例を示すフローチャートである。

【0037】

まず、特徴量抽出部１２１は、マイク１５で収音された音信号にＦＦＴ（Fast Furies Transform）（高速フーリエ変換処理）を施し、ＦＦＴを施した信号の絶対値を計算する。これにより、特徴量抽出部１２１は、音信号の振幅スペクトルを算出する（Ｓ１１）。次に、特徴量抽出部１２１は、振幅スペクトルを対数計算（Ｌｏｇ計算）し、振幅スペクトルをデシベル（ｄＢ）に変換する。これにより、特徴量抽出部１２１は、対数スペクトルを算出する（Ｓ１２）。さらに、特徴量抽出部１２１は、対数スペクトルにＤＣＴ（Discrete Cosine Transform）（離散コサイン変換処理）を施す。これにより特徴量抽出部１２１は、ケプストラム（波形）を算出する（Ｓ１３）。特徴量抽出部１２１は、算出したケプストラムの波形から高次のケプストラムのピークレベルを検出する（Ｓ１４）。特徴量抽出部１２１は、検出したピークレベルを正規化した特徴量をゲイン決定部１２２に出力する（Ｓ１５）。

【0038】

なお、特徴量抽出部１２１は、高次ケプストラムにピークレベルを検出しなかった場合、音声の特徴量（音声である確率）を０としてゲイン決定部１２２に出力する。

【0039】

次に、ゲイン決定部１２２の動作の一例について、図７を参照して説明する。図７は、ゲイン決定部１２２の動作の一例を示すフローチャートである。なお、以下の説明は一例であって、限定されるものではない。

【0040】

ゲイン決定部１２２は、特徴量抽出部１２１から特徴量を受け取る（Ｓ２１）。ゲイン決定部１２２は、受け取った特徴量に応じて、ゲインを決定する（Ｓ２２）。ゲイン決定部１２２は、受け取った特徴量が０～１であれば、又は予め決められた閾値を越えていれば、（Ｓ２２：Ｙｅｓ）、ゲインを０よりも大きい値に決定し、レベル調節部１２３に出力する（Ｓ２３）。

【0041】

一方、ゲイン決定部１２２は、特徴量が０又は特徴量が閾値よりも低ければ、（Ｓ２２：Ｎｏ）、ゲインを０に決定し、レベル調節部１２３に出力する（Ｓ２３）。

【0042】

実施形態１の音声処理装置１は、ケプストラムの波形のピークレベルから求められた音声である確率（音声の特徴量）に基づいて、ゲインを決定する。音声処理装置１は、音声である確率（音声の特徴量）に基づいて決定されたゲインで、マイク１５で収音された音信号のレベルを調節する。これにより、実施形態１の音声処理装置１は、近端側の話者の音声を適切なレベルで遠端側に送信することができる。

【0043】

なお、ゲイン決定部１２２は、例えば、受け取った特徴量が１又は閾値を越えた場合、瞬時にゲインを上げてもよい。この場合、音声処理装置１は、音声の始まり部分を聞き取りやすくする（音声の頭抜けを抑制することができる）。また、ゲイン決定部１２２は、受け取った特徴量が０又は閾値以下の場合、ゲインを時間の経過とともに段階的に下げてもよい。この場合、音声処理装置１は、急激に音量が下がらないので、利用者に違和感を覚えさせない。

【0044】

（実施形態２）
実施形態２の音声処理装置１及び音声処理装置３のＣＰＵ１２Ａについて、図８を参照して説明する。図８は、実施形態２のＣＰＵ１２Ａの機能的構成を示すブロック図である。なお、上述の実施形態１のＣＰＵ１２と同じ構成には、同じ符号を付し、説明を省略する。また、実施形態２の音声処理装置１及び３は同じ構成及び同じ機能を有するものとし、以下の説明では、音声処理装置１のＣＰＵ１２Ａを代表して説明する。

【0045】

実施形態２のＣＰＵ１２Ａは、図８に示すように、マイク１５で収音された音信号に対する、周囲の雑音のＳＮ（Signal to Noise）比率を算出するＳＮ比算出部１２４を備えている。すなわち、ＣＰＵ１２Ａは、ＳＮ比率の算出を、プログラムを読み出して実行する。

【0046】

ＳＮ比算出部１２４は、音信号と、雑音（例えば、タイピング音、空調の音、装置から遠い位置の音など、話者の音声以外の音）とのＳＮ比率を算出する。ＳＮ比率は、例えば、以下の数式１よって算出される。

【0047】

【数1】

【0048】

上記の数式１において、Ｐｓは、マイク１５で収音された音信号のパワーである。また、Ｐ_Ｎは、マイク１５で収音された雑音のパワーである。この場合、ＳＮ比算出部１２４は、例えば、予め、近端側の話者が音声を発していない（話していない）状態において、雑音のパワーを算出しておく。ＳＮ比算出部１２４は、予め算出していた雑音のパワーと、収音された音信号のパワーとを用いてＳＮ比率を算出する。ＳＮ比率が大きい場合、音声に対して雑音が小さいことを示す。また、ＳＮ比率が小さい場合、音声に対して雑音が大きいことを示す。

【0049】

ゲイン決定部１２２は、例えば、ＳＮ比算出部１２４によって算出されたＳＮ比率と特徴量抽出部１２１によって抽出された特徴量との積に応じてゲインを決定する。

【0050】

なお、ゲイン決定部１２２は、予め決められた閾値と、上記積とを比較してもよい。この場合、ゲイン決定部１２２は、上記積が閾値を越えていれば、ゲインを０～１に決定する。また、ゲイン決定部１２２は、上記積が閾値以下であれば、ゲインを０に決定する。

【0051】

また、ゲイン決定部１２２は、特徴量抽出部１２１によって抽出された音声の特徴量と、ＳＮ比算出部１２４によって算出されたＳＮ比率特徴量抽出部との積に応じてゲインを決定する例に限定されない。ゲイン決定部１２２は、例えば、音声の特徴量及び算出したＳＮ比率を論理式、例えば、論理積、論理和、排他的論理和等、又は複数の論理式の組み合わせを用いてゲインを決定してもよい。

【0052】

実施形態２の音声処理装置１は、近端側の話者の特徴量抽出部１２１による音声である確率（音声の特徴量）だけでなく、音信号対雑音のＳＮ比率にも基づいて、音信号のレベルを調節する。これにより、音声処理装置１は、マイク１５で収音された近端側の話者の音声をより適切なレベルで遠端側に送信することができる。

【0053】

なお、実施形態２の音声処理装置１では、ＣＰＵ１２ＡがＳＮ比算出プログラムを読みだして実行している例で説明したが、ＳＮ比算出部は、ＳＮ比算出回路で構成されていてもよい。

【0054】

（実施形態３）
実施形態３の音声処理装置１Ａについて図９を参照して説明する。図９は、実施形態３の音声処理装置１Ａの主要な構成を示すブロック図である。図１０は、実施形態３の音声処理装置１ＡのＣＰＵ１２Ｂの機能的構成を示すブロック図である。なお、音声処理装置３は、音声処理装置１Ａと同じ構成及び機能を有しているので、以下の説明では、音声処理装置１Ａを代表して説明する。また、音声処理装置１と同じ構成には、同じ符号を付し、説明を省略する。

【0055】

実施形態３の音声処理装置１Ａは、図９に示すように、複数（図９では２つ）のマイク１５Ａ及びマイク１５Ｂを備えている。音声処理装置１Ａは、マイク１５Ａ及びマイク１５Ｂのそれぞれから近端側の音信号を収音する。

【0056】

マイク１５Ａ及びマイク１５Ｂのそれぞれは、音信号をＣＰＵ１２Ｂに出力する。

【0057】

ＣＰＵ１２Ｂは、図１０に示すように、相関算出部１２５を備えている。相関算出部１２５は複数のマイク１５Ａ及びマイク１５Ｂで収音した音信号の相関を算出する。相関算出部１２５は、白色化相互関数を算出する。

【0058】

相関算出部１２５は、マイク１５Ａから生成される第１音信号Ｓ１（ｔ）のスペクトル及びマイク１５Ｂから生成される第２音信号Ｓ２（ｔ）のスペクトルの相関を求める。

【0059】

なお、以下の説明では、一例として、マイク１５Ａは、指向性マイクである。マイク１５Ｂは、全方向に均一な感度を有する無指向性マイクである。ただし、マイク１５Ａ及びマイク１５Ｂの指向性の態様は、この例に限るものではない。例えば、マイク１５Ａ及びマイク１５Ｂともに無指向性のマイクであってもよいし、ともに指向性のマイクであってもよい。また、マイクの数も２つに限るものではなく、音声処理装置１Ａは、例えば３つ以上のマイクを備えていてもよい。

【0060】

白色化相互関数は、例えば、以下の数式２～数式６によって算出される。まず、相関算出部１２５は、以下の数式２及び数式３に従って、第１音信号Ｓ１（ｔ）及び第２音信号Ｓ２（ｔ）のそれぞれにＦＦＴを施す。そして、相関算出部１２５は、第１音信号Ｓ１（ｔ）及び第２音信号Ｓ２（ｔ）を周波数領域の信号Ｓ１（ω）及び信号Ｓ２（ω）に変換する。

【0061】

【数2】

【0062】

【数3】

【0063】

次に、相関算出部１２５は、周波数領域の信号Ｓ１（ω）及び信号Ｓ２（ω）の相互相関関数Ｓ_１、２（ω）を算出する。

【0064】

【数4】

【0065】

上記の数式４における、＊は、複素共役（複素数について、虚部を－１倍する）を示す。

【0066】

さらに、相関算出部１２５は、数式４で算出された相互相関関数Ｓ_１，２（ω）から、例えば、IFFT（Inverse Fast Fourie Transfer（フーリエ逆変換））を施して白色化相互関数係数CPS_1,2(τ)を算出する。

【0067】

【数5】

【0068】

さらに白色化相互関数係数CPS_1,2(τ)から、白色化相互関数係数が最大となる時間差ＴＤＯＡ_1,2を算出する。

【0069】

【数6】

【0070】

相関算出部１２５は、上述の数式２～数式６を用いることで、第１音信号及び第２音信号Ｓ２（ｔ）の波形の時間差（位相差）ＴＤＯＡ_1,2を求める。時間差ＴＤＯＡ_1,2が大きい場合、相関算出部１２５は、装置の近くに音源が存在するとみなし、音源からの音声を近端側の話者の音声であると判定する。一方、相関算出部１２５は、時間差ＴＤＯＡ_1,2が小さい場合、間接音が多く、装置の遠方の音源からの雑音であると判定する。

【0071】

ゲイン決定部１２２は、特徴量抽出部１２１によって抽出された音声の特徴量と相関算出部１２５によって判定された判定結果の積を用いて収音した音信号のゲインを決定する。

【0072】

実施形態３の音声処理装置１Ａの相関算出部１２５は、白色化相互関数を用いることで、音源からの音信号が音声又は遠方の雑音であるかを判定する。これにより、実施形態３の音声処理装置１Ａは、近端側の話者の音声である確率（音声の特徴量）だけでなく、遠方からの雑音であるか否かにより、音信号のレベルを調節する。従って、音声処理装置１Ａは、マイク１５で収音された近端側の話者の音声をより適切なレベルで遠端側に送信することができる。

【0073】

なお、ゲイン決定部１２２は、音声である確率（音声の特徴量）及び相関算出部１２５による判定結果の積を用いてゲインを決定する例に限定されない。ゲイン決定部１２２は、例えば、音声である確率（音声の特徴量）及び該判定結果を論理式、例えば、論理積、論理和、排他的論理和等、又は複数の論理式の組み合わせでゲインを決定してもよい。

【0074】

また、実施形態３の音声処理装置１Ａは、実施形態２の音声処理装置１と組み合わせて使用してもよい。この場合、例えば、ゲイン決定部１２２は、音声である確率＋ＳＮ比率×該判定結果により、マイク１５で収音された音信号のゲインを決定する。これにより、音声処理装置１Ａは、より精度よく、マイク１５で収音された近端側の話者の音声を適切なレベルで遠端側に送信することができる。なお、ゲイン決定部１２２は、音声である確率（音声の特徴量）、ＳＮ比率及び該判定結果を、複数の論理式、例えば論理積、論理和、排他的論理和等、を組み合わせることでゲインを決定してもよい。

【0075】

また、実施形態３の音声処理装置１Ａでは、ＣＰＵ１２Ｂが相関算出プログラムを読みだして実行している例で説明したが、相関算出１２５は、相関算出回路で構成されていてもよい。

【0076】

（変形例１）
変形例１の音声処理装置１の特徴量抽出部１２１について、説明する。音声処理装置１は、機械学習によって、音信号が近端側の話者の音声であるかどうか判定する。

【0077】

音声処理装置１は、例えば、予め複数の音声サンプルを記憶させておく。音声処理装置１は、複数の音声サンプルの特徴量を算出し、音声の特徴量を学習モデルとしてパターン化しておく。音声処理装置１は、マイク１５で収音した音信号を、記憶されていた音声サンプルの特徴量と比較する。音声処理装置１は、マイク１５で収音した音声の特徴量と、記憶されていた音声サンプルの特徴量のパターンマッチングにより、音声である確率を求める。

【0078】

例えば、音声処理装置１は、音声の特徴量及び、雑音の特徴量を学習し、それぞれの音声モデル及び、雑音モデルとしてパターン化しておく。音声処理装置１は、未知の（マイクで収音した）音信号を入力し、より尤度の高い値を示すモデルを基に、該音信号を音声か否か判定する。

【0079】

変形例１の音声処理装置１は、機械学習により、マイク１５で収音した音信号から音声の確率を求める。これにより、変形例１の音声処理装置１は、より簡易な方法で、マイク１５で収音された近端側の話者の音声を適切なレベルで遠端側に送信することができる。

【0080】

なお、変形例１の音声処理装置１は、ニューラルネットワークを用いて、音声である確率を求めてもよい。すなわち、変形例１の音声処理装置１は、ニューラルネットワークによって予め学習された、未知の音信号の特徴量を入力し、出力結果に基づいて、音信号を音声か否かを判定する。

【0081】

（変形例２）
変形例２の音声処理装置１の特徴量抽出部１２１について、説明する。変形例２の音声処理装置１の特徴量抽出部１２１は、音信号の基音と倍音の周波数分布によって、音声の特徴量を抽出する。

【0082】

特徴量抽出部１２１は、例えば、マイク１５で収音された音信号にＦＦＴを施す。特徴量抽出部１２１は、マイク１５で収音された音信号から基音と基音の整数倍である倍音を検出すれば、話者の音声であると推定する。

【0083】

変形例２の音声処理装置１は、より簡易な方法で音声である確率を求める（音声の特徴量を抽出する）ことができる。

【0084】

（別の変形例）
別の変形例について、以下に列挙する。

【0085】

別の変形例の音声処理装置１の特徴量抽出部１２１は、周波数帯域におけるパワー（ｄＢ）を算出する。より詳細には、特徴量抽出部１２１は、音信号にＦＦＴを施して、パワーを算出する。特徴量抽出部１２１は、マイク１５で収音した音信号のパワーに応じて、音信号が音声である確率を求める。言い換えると、特徴量抽出部１２１は、マイク１５で収音した音信号のパワーに応じて、音信号が音声であるか否かを判定する。

【0086】

また、別の変形例の音声処理装置１の特徴量抽出部１２１は、スペクトルフラックス手法によって音声の特徴量を抽出する。スペクトルフラックスは、音声スペクトルの局所的な変化を示すものである。すなわち、スペクトルフラックスが大きければ、音の変動が大きいことを示す。すなわち、音声処理装置１の特徴量抽出部１２１は、スペクトルフラックスが大きければ、近端側の話者が発話したと判断する。

【0087】

また、別の変形例の音声処理装置１の特徴量抽出部１２１は、非周期性指標によって音声の特徴量を抽出する。非周期性指標は、音声の周期成分及び非周期成分の割合を示す。非周期性指標は、嗄れ声の子音のように周期的な成分と非周期的な成分が混在した音を表すために用いられている。本変形例の特徴量抽出部１２１は、非周期性指標を算出する。すなわち、音声処理装置１の特徴量抽出部１２１は、非周期性指標を検出すれば、近端側の話者が発話していると判定する。

【0088】

また、別の変形例の特徴量抽出部１２１は、音声である確率（音声の特徴量）として、音信号の時間波形がゼロと交差する回数を計算する。特徴量抽出部１２１は、音声の時間領域においてゼロ交差となる点の出現頻度を算出したものである。ゼロ交差は、音声の基音であるピッチに対応する。すなわち、音声処理装置１の特徴量抽出部１２１は、ゼロ交差を検出すれば、近端側の話者の音声の確率が高いと推定する。

【0089】

なお、本発明の構成は、全て、ＦＧＰＡ（Field-Programmable Gate Array）などのハードウェアにより実現してもよい。例えば、図１１に示すように、音声処理装置１又は音声処理装置１Ａは、特徴量抽出部１２１は、特徴量抽出部１２１に対応する特徴量抽出回路１２１Ａ、ゲイン決定部１２２に対応するゲイン決定回路１２２Ａを備えていてもよい。

【0090】

また、通信部１１のハードウェアの機能を、ＣＰＵ１２、ＣＰＵ１２Ａ又はＣＰＵ１２Ｂがメモリ１４に記憶された通信制御プログラムを読み出して実行することで実現してもよい。

【0091】

また、本発明の構成は、適宜ハードウェア及びソフトウェアを組み合わせて実現してもよい。

【0092】

上述の実施形態及び変形例の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態及び変形例ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0093】

１，１Ａ，３…音声処理装置
１１…通信部（送信部）
１５…マイク
１２１…特徴量抽出部（音声推定部）
１２２…ゲイン決定部
１２４…ＳＮ比算出部
１２５…相関算出部

【図1】