(58)【調査した分野】(Int.Cl.,DB名)
複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成部と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得部と、
前記形成部により形成された前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調部と、
前記強調部により生成された前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成部と、
前記生成部により生成された前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択部と、
を備えたことを特徴とする音声抽出装置。
前記マイクロホンアレイの前記各チャネルのうち、前記選択部により選択されたチャネルに対応する音声信号を、音声認識を行う認識装置に出力する出力部を、さらに備えたことを特徴とする請求項1に記載の音声抽出装置。
前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記観測信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記観測信号を、前記認識装置に出力することを特徴とする請求項2に記載の音声抽出装置。
前記選択部は、前記生成部により生成された前記各チャネルに対応する前記頻度分布に基づいて、前記各チャネルのうち、前記音声認識に用いる音声信号としての前記強調信号に対応するチャネルを選択し、
前記出力部は、前記選択部により選択されたチャネルに対応する前記強調信号を、前記認識装置に出力することを特徴とする請求項2に記載の音声抽出装置。
複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、前記各マイクロホンについてビームフォーミング処理により、予め指向性を形成する形成手順と、
前記各チャネルで受音された音声の信号である観測信号を取得する取得手順と、
形成した前記各マイクロホンについての前記指向性に従って、前記各チャネルの前記観測信号を強調して強調信号を生成する強調手順と、
生成した前記強調信号の振幅の頻度分布を前記チャネルごとに生成する生成手順と、
生成した前記各チャネルに対応する前記頻度分布のカートシス、頻値、最頻値、分散、ピーク部分と裾の部分との高さ、又はピーク部分からの所定位置におけるグラフの幅に基づいて、前記各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する選択手順と、
をコンピュータに実行させることを特徴とする音声抽出プログラム。
【発明を実施するための形態】
【0010】
以下に、本願に係る音声抽出装置、音声抽出方法および音声抽出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る音声抽出装置、音声抽出方法および音声抽出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0011】
〔1.抽出処理〕
図1は、実施形態に係る抽出処理の一例を示す図である。
図1を参照しながら、本実施形態に係る抽出処理の一例について説明する。
図1では、本願に係る音声抽出装置20が、マイクロホンアレイ装置10により受音された話者の音声に基づく音声信号(以下、「観測信号」と称する場合がある)に対して、マイクロホンアレイ装置10の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を出力する抽出処理を実行する例を示す。ここで、チャネルとは、マイクロホンアレイ装置10において話者の音声を受音する各受音部を示すものとし、具体的には、上述のように指向性が形成された各マイクロホンに対応するものとする。
【0012】
図1に示す音声抽出装置20は、上述のように、マイクロホンアレイ装置10により受音された音声に基づく観測信号に対して、マイクロホンアレイ装置10の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を抽出して出力する抽出処理を実行する装置である。
図1に示すように、音声抽出装置20は、機能として、指向性形成・強調機能61と、チャネル選択機能62と、を有する。
【0013】
図1に示すマイクロホンアレイ装置10は、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置20に送信する装置である。マイクロホンアレイ装置10の各マイクロホンは、例えば、
図1に示したように、装置本体の筐体において、円形状、かつ等間隔に配置されている。
【0014】
なお、マイクロホンアレイ装置10が備える複数のマイクロホンについて、
図1に示す例では、8つのマイクロホンが円形状かつ等間隔に配置された例を示しているが、これに限定されるものではない。すなわち、複数のマイクロホンは、例えば、矩形状等に配置されるものとしてもよく、同一平面上ではなく立体的に配置されるものとしてもよい。
【0015】
また、マイクロホンアレイ装置10は、複数のマイクロホンを備えた単体の装置として構成されることに限定されるものではなく、例えば、複数のマイクロホンが1つの装置に集約されるのではなく、独立して配置される構成としてもよい。例えば、話者が存在する部屋の壁際に複数のマイクロホンが個別に配置されるものとしてもよい。ただし、各マイクロホンの相対的な位置関係は、予め定められている必要がある。
【0016】
以下の例では、マイクロホンアレイ装置10が、8つのマイクロホンを有するものとして説明する。
【0017】
図1に示す認識装置30は、音声抽出装置20による抽出処理によって出力された観測信号を受信して、当該観測信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。
【0018】
図2は、従来の音声認識システムの一例を示す図である。ここで、
図2を参照しながら、従来の音声認識システムの処理の概要について説明する。
図2に示すように、一例として示す従来の音声認識システムは、例えば、マイクロホンアレイ装置110と、音声抽出装置120と、認識装置130と、を有する。
【0019】
マイクロホンアレイ装置110は、上述の本実施形態に係るマイクロホンアレイ装置10と同様の機能を有し、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置120に送信する。
【0020】
音声抽出装置120は、マイクロホンアレイ装置110の各マイクロホンにより受音された音声に基づく観測信号から、音源定位により音源の方向を推定し、ビームフォーミング処理によって、推定した方向に対して指向性を形成し、形成した指向性に基づいて、観測信号を強調して強調信号を生成(抽出)する装置である。
図2に示すように、音声抽出装置120は、機能として、音源定位機能161と、指向性形成・強調機能162と、を有する。
【0021】
音源定位機能161は、マイクロホンアレイ装置110の各マイクロホンにより受音された音声に基づく観測信号から、音源定位により音源の方向を推定する機能である。音源定位の方法としては、例えば、MUSIC(MUltiple SIgnal Classification)法、およびGCC−PHAT(Generalized Cross−Correlation methods with PHAse Transform)等が挙げられる。MUSIC法は、雑音の空間相関行列と事前に収録したアレイマニュフォールドベクトルを用いて、音源方向を推定する方法である。また、GCC−PHATは、周波数領域において各マイクロホンにおける観測信号同士の相互相関関数を計算することによって音源方向を推定する方法である。演算の負荷の観点で比較した場合、MUSIC法は空間相関行列の固有値展開を行う必要があるため、GCC−PHATの方が演算の処理負荷を低減することができる。
【0022】
指向性形成・強調機能162は、音源定位機能161により推定された音源(話者)に対して、ビームフォーミング処理によって指向性を形成し、形成した指向性に基づいて、観測信号を強調して強調信号を生成する機能である。ビームフォーミング処理としては、例えば、DS(Delay−and−Sum)法(遅延和法)、およびMVDR(Minimum Variance Distortionless Response)等が挙げられる。MVDRは、指向性を形成する方向に対する歪みが少ないという制約のもと、周囲環境の雑音を抑圧するものであり、音源方向が正しく推定できれば音声認識に効果的であることが知られているが、雑音の空間相関行列の逆行列を推定する必要があるため演算量は高くなる。一方、DS法は、空間相関行列を推定する必要がないため演算量の観点ではMVDRよりも優れているので、演算による処理負荷の低減を目的とするのであれば、DS法を採用する方が望ましい。
【0023】
認識装置130は、音声抽出装置120によって抽出されて出力された強調信号を受信して、当該強調信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。音声認識処理としては、例えば、ディープニューラルネットワークまたは隠れマルコフモデルを用いた認識アルゴリズムが挙げられる。
【0024】
以上のような従来の音声認識システムにおいては、マイクロホンアレイ装置110から観測信号を受信するたびに、音源定位を行って音源(話者)の方向を推定し、ビームフォーミング処理により当該方向に指向性を形成する必要があり、演算処理の負荷が大きいという問題がある。さらに、音源定位の推定に誤りが生じると、観測信号に基づいて強調した強調信号が歪んでしまい、音声認識の性能が劣化するという問題もある。
【0025】
そこで、本実施形態に係る音声認識システム1は、以下に説明する処理(特に、音声抽出装置20による抽出処理)を実行することにより、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように予め指向性を形成するものとし、当該指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する観測信号を抽出するものとしている。これによって、観測信号を受信するたびに指向性を形成する必要がなく、上述の従来の音声認識システムの音源定位による音源方向の推定ではなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布(具体的には、分布から算出されるカートシス)に基づいてチャネルを選択するものとしている。このチャネルの選択が、従来の音声認識システムの音源定位の機能に相当するが、上述した演算負荷の高い音源定位の処理を実行する必要がない。よって、従来の音声認識システムと比較して、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。以下、
図1に戻って、本実施形態に係る音声認識システム1の処理(特に、音声抽出装置20の抽出処理)の一例を流れに沿って説明する。
【0026】
音声抽出装置20は、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように予め指向性を形成する(ステップS11)。指向性の形成の具体的な内容については、
図4で後述する。
【0027】
このように、マイクロホンアレイ装置10の各マイクロホン(各チャネル)に正対する方向に対して予め指向性が形成された状態で、話者U01は、マイクロホンアレイ装置10に向かって発話する(ステップS12)。そして、マイクロホンアレイ装置10は、各マイクロホンで受音した音声を観測信号として、音声抽出装置20に送信する(ステップS13)。
【0028】
音声抽出装置20は、マイクロホンアレイ装置10から観測信号を受信すると、指向性形成・強調機能61として、予め形成した指向性に従って、各チャネルの観測信号を強調して強調信号を生成する(ステップS14)。また、音声抽出装置20は、チャネル選択機能62として、各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布(例えば、
図1に示す頻度分布51)をチャネルごとに生成する(ステップS15)。また、音声抽出装置20は、チャネル選択機能62として、生成した各チャネルの強度信号の振幅の頻度分布についてのカートシス(尖度)を算出する(ステップS16)。このとき、音声抽出装置20は、
図1に示す算出結果情報52のように、マイクロホンアレイ装置10の各マイクロホンのマイクロホンIDに関連付けて、算出した各チャネルのカートシスを記憶する。
【0029】
また、音声抽出装置20は、チャネル選択機能62として、算出した各チャネルのカートシスに基づいて、認識装置30に観測信号を出力するチャネルを選択する(ステップS17)。具体的には、音声抽出装置20は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。このとき、音声抽出装置20は、
図1に示す算出結果情報52のように、マイクロホンアレイ装置10のマイクロホンのマイクロホンIDに関連付けて、選択フラグを記憶する。音声抽出装置20は、マイクロホンアレイ装置10の各マイクロホンで受音された音声の観測信号のうち、ステップS17で選択したチャネルに対応する観測信号を抽出して、認識装置30へ出力する(ステップS18)。
【0030】
認識装置30は、音声抽出装置20から受信(入力)した観測信号に対して音声認識処理を実行し、テキストに変換する(ステップS19)。そして、認識装置30は、観測信号から変換(生成)したテキストを、当該テキストを利用する外部装置に出力する(ステップS20)。
【0031】
以上のような音声認識システム1の処理によって、観測信号を受信するたびに指向性を形成する必要がなく、上述の従来の音声認識システムの音源定位による音源方向の推定ではなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布(具体的には、分布から算出されるカートシス)に基づいてチャネルを選択するものとしている。よって、従来の音声認識システムと比較して、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【0032】
以下、このような処理を行う音声抽出装置20、および音声抽出装置20を含む音声認識システム1の構成等について、詳細に説明する。
【0033】
〔2.音声認識システムの構成〕
図3は、実施形態に係る音声認識システムの構成例を示す図である。
図3を参照しながら、本実施形態に係る音声認識システム1の構成について説明する。
【0034】
図3に示すように、本実施形態に係る音声認識システム1は、マイクロホンアレイ装置10と、音声抽出装置20と、認識装置30と、を含む。マイクロホンアレイ装置10は、音声抽出装置20に接続され、受音した音声信号を音声抽出装置20に送信する。音声抽出装置20は、ネットワークNを介して、有線または無線により認識装置30と通信可能に接続されている。
【0035】
なお、
図3に示す音声認識システム1には、1のマイクロホンアレイ装置10、および、1の音声抽出装置20が含まれているが、これに限定されるものではなく、複数のマイクロホンアレイ装置10、および、複数の音声抽出装置20が含まれるものとしてもよい。また、音声抽出装置20には、複数のマイクロホンアレイ装置10が接続されているものとしてもよい、また、
図3では、マイクロホンアレイ装置10が音声抽出装置20に直接接続されている例を示しているが、これに限定されるものではなく、無線により通信可能に接続されてもよく、または、有線または無線によるネットワークを介して通信可能に接続されるものとしてもよい。
【0036】
マイクロホンアレイ装置10は、周囲環境の音声を受音する複数のマイクロホンを有し、各マイクロホンで受音した音声を観測信号として、音声抽出装置20に送信する装置である。マイクロホンアレイ装置10の各マイクロホンは、例えば、
図1に示したように、円形状、かつ等間隔に配置されている。
【0037】
音声抽出装置20は、マイクロホンアレイ装置10の各マイクロホンにより受音された音声に基づく観測信号に基づいて上述の抽出処理を実行する装置である。音声抽出装置20は、例えば、PC(Personal Computer)、ワークステーション、または専用装置等のコンピュータによって実現される。
【0038】
認識装置30は、音声抽出装置20による抽出処理によって出力された観測信号を受信して、当該観測信号に対して音声認識処理を実行し、当該観測信号が表すテキストに変換して出力するサーバ装置である。認識装置30は、例えば、PCまたはワークステーション等のコンピュータによって実現される。
【0039】
なお、
図3では、マイクロホンアレイ装置10、音声抽出装置20および認識装置30がそれぞれ独立した装置として示されているが、例えば、マイクロホンアレイ装置10および音声抽出装置20が統合した1つの装置、音声抽出装置20および認識装置30が統合された1つの装置、または、マイクロホンアレイ装置10、音声抽出装置20および認識装置30がすべて統合された1つの装置として構成されてもよい。
【0040】
〔3.音声抽出装置の構成〕
図4は、実施形態に係る音声抽出装置の構成例を示す図である。
図4を参照しながら、本実施形態に係る音声抽出装置20の構成について説明する。
【0041】
図4に示すように、本実施形態に係る音声抽出装置20は、通信部210と、記憶部220と、制御部230と、通信部240と、を有する。なお、音声抽出装置20は、音声抽出装置20を利用する管理者等から各種操作を受け付ける入力部(例えば、マウスまたはキーボード等)、または各種情報を表示する表示部(例えば、液晶ディスプレイまたは有機EL(Electro−Luminescence)ディスプレイ等)を有するものとしてもよい。
【0042】
(通信部210について)
通信部210は、マイクロホンアレイ装置10と情報の通信を行う機能部である。具体的には、通信部210は、例えば、マイクロホンアレイ装置10が受音した話者の音声を音声信号(観測信号)として受信する。通信部210は、後述する
図13に示す通信I/F1600(例えば、USB(Universal Serial Bus)インターフェース等)によって実現される。
【0043】
(記憶部220について)
記憶部220は、音声抽出装置20の処理の用に供する様々な情報を記憶する機能部である。記憶部220は、例えば、後述する制御部230の形成部232により形成された指向性を決めるパラメータ、生成部234により生成された強調信号の振幅の頻度分布の情報、および、算出部235により算出された頻度分布のカートシス(尖度)等を記憶する。
図4に示すように、記憶部220は、算出結果記憶部221を有する。記憶部220は、後述する
図13に示すRAM(Random Access Memory)1200、補助記憶装置1400(HDD(Hard Disk Drive)またはSSD(Solid State Drive)等)、または記録媒体1900(DVD−RW(Digital Versatile Disc ReWritable)等)のうち少なくともいずれかによって実現される。
【0044】
(算出結果記憶部221について)
算出結果記憶部221は、後述する算出部235により算出された頻度分布のカートシス(尖度)等を記憶する。
【0045】
図5は、実施形態に係る算出結果記憶部の一例を示す図である。
図5を参照しながら、本実施形態に係る算出結果記憶部221の一例について説明する。
図5に示す算出結果記憶部221の例では、算出結果記憶部221は、「マイクロホンID(CH)」と、「カートシス」と、「選択フラグ」とを関連付けて記憶している。
【0046】
「マイクロホンID(CH)」は、マイクロホンアレイ装置10の各マイクロホン(すなわち、チャネル)を識別する情報である。上述のように、マイクロホンアレイ装置10が有するマイクロホンが8つである場合、例えば、
図5に示すように、各マイクロホン(各チャネル)に「1」〜「8」の識別情報をそれぞれ割り当てている。
【0047】
「カートシス」は、対応するチャネルについて形成された指向性に従って強調された強調信号の振幅の頻度分布に対する尖度を示す値である。「カートシス」の算出方法については、
図8で後述する。
【0048】
「選択フラグ」は、後述する制御部230の選択部236によって、どのチャネルが選択されたかを示すフラグ情報である。
図5に示す例では、「1」が、対応するチャネルが選択されたことを示し、「0」が、対応するチャネルが選択されていないことを示す。すなわち、後述するように、選択部236は、カートシスが最大であるチャネルを選択するので、
図8に示すカートシスが最大の「2.29」を有するチャネル「5」が選択されていることが示されている。
【0049】
すなわち、
図5に示した算出結果記憶部221の一例は、マイクロホンID(CH)「5」について、カートシスが「2.29」であり、選択フラグが「1」であることを示している。
【0050】
なお、
図5に示した算出結果記憶部221の構成は一例であり、その他の情報が含まれているものとしてもよい。例えば、算出結果記憶部221は、選択部236によりチャネルが選択された日時の情報等を、上述の各情報に関連付けて記憶するものとしてもよい。
【0051】
また、
図5に示した算出結果記憶部221は、テーブル形式の情報としているが、これに限定されるものではなく、テーブルの各フィールドの値を互いに関連付けて管理することができれば、どのような形式の情報であってもよい。
【0052】
(制御部230について)
制御部230は、音声抽出装置20全体の動作の制御を司る機能部である。
図4に示すように、制御部230は、取得部231と、形成部232と、強調部233と、生成部234と、算出部235と、選択部236と、出力部237と、を有する。制御部230は、後述する
図13に示すCPU(Central Processing Unit)1100が、ROM(Read Only Memory)1300および補助記憶装置1400等に記憶されているプログラムを、RAM1200を作業領域として実行することにより実現される。
【0053】
なお、制御部230の上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field−Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路によって実現されてもよい。
【0054】
また、
図4に示す制御部230の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、
図4で独立した制御部230の機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、
図4の制御部230が有する1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0055】
(取得部231について)
取得部231は、マイクロホンアレイ装置10の各マイクロホン(各チャネル)で受音された音声を観測信号として、通信部210を介して取得する機能部である。取得部231は、取得した各マイクロホンの観測信号を、強調部233へ送る。
【0056】
(形成部232について)
形成部232は、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように指向性を形成する機能部である。形成部232は、音声抽出装置20による抽出処理の最初の処理として、予め各マイクロホンに対応する指向性を形成する。形成部232の機能は、上述の
図1に示した指向性形成・強調機能61に含まれる。
【0057】
ここで、指向性の形成とは、各マイクロホンに正対する方向から来る音声が強調されるようなパラメータを決定する処理(ビームフォーミング処理)を示すものとする。具体的には、特定のマイクロホンに正対する方向から来る音声を強調するには、例えば、各マイクロホンにより受音された各音声の観測信号に対して任意の遅延を加えた上で重み付け(例えば、当該特定のマイクロホンにより受音された音声の観測信号の重みを最大にし、当該特定のマイクロホンから最も離れた位置に配置されたマイクロホンにより受音された音声の観測信号の重みを最小にする)を行って加算する処理を行う。このように、特定のマイクロホンに正対する方向から来る音声を強調する処理で使用する各観測信号に対する重みをパラメータとして具体的な値を決定する処理を、指向性の形成というものとする。そして、後述するように、この指向性の形成により決定されたパラメータを用いて、特定のマイクロホンに正対する方向から来る音声を強調する機能部が、強調部233である。
【0058】
この指向性の形成であるビームフォーミング処理は、上述のDS法またはMVDR等の公知の方法により実行されるものとすればよい。ただし、演算による処理負荷の低減を目的とするのであれば、DS法を採用する方が望ましい。
【0059】
図6は、実施形態に係るマイクロホンアレイ装置の指向性を説明する図である。
図6を参照しながら、本実施形態に係る形成部232による指向性の形成について説明する。
【0060】
本実施形態に係るマイクロホンアレイ装置10は、複数のマイクロホンとして、
図6に示すように、マイクロホン10a〜10hを有するものとする。形成部232は、例えば、マイクロホンアレイ装置10のマイクロホン10aに正対する方向である指向性形成方向500aから来る音声が強調されるようなパラメータを決定する処理を行う。同様に、形成部232は、マイクロホン10b〜10hにそれぞれ正対する方向である指向性形成方向500b〜500hから来る音声が強調されるようなパラメータを決定する処理を行う。
【0061】
(強調部233について)
強調部233は、形成部232により形成された指向性に従って、各チャネルの観測信号を強調して強調信号を生成する機能部である。具体的には、強調部233は、特定のマイクロホン(チャネル)に正対する音声を強調する場合、形成部232により決定されたパラメータを用いて、各チャネルで受音された音声の観測信号に対して重みづけおよび加算を行うことによって、当該特定のマイクロホンに正対する音声を強調する。以下、各チャネルで受音された音声の観測信号、および形成部232により決定された特定のチャネルの指向性に対応するパラメータを用いて、当該特定のチャネルのマイクロホンに正対する音声を強調することを、単に、当該特定のチャネルの観測信号を強調するという場合がある。そして、強調部233は、生成した各チャネルの強調信号を、生成部234へ送る。強調部233の機能は、上述の
図1に示した指向性形成・強調機能61に含まれる。
【0062】
(生成部234について)
生成部234は、強調部233により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する機能部である。生成部234は、チャネルごとに生成した強調信号の振幅の頻度分布の情報を、記憶部220に記憶させる。生成部234の機能は、上述の
図1に示したチャネル選択機能62に含まれる。
【0063】
図7は、実施形態に係る強調信号の振幅の頻度分布の一例を示す図である。
図7を参照しながら、生成部234が生成する振幅の頻度分布について説明する。
【0064】
強調部233により生成された音声信号である強調信号は、様々な周波数成分の信号が含まれる。この強調信号について、各周波数ビンにおいて、例えば、所定時間内の等間隔の各タイミングにおいて、どのような振幅の信号がどれくらい含まれるのかについての頻度を計上して生成した分布が、
図7に示すグラフである。したがって、生成部234は、
図7に示す強調信号の振幅の頻度分布(ヒストグラム)は、周波数ビンごとに生成する。そして、生成部234は、生成した各チャネルの強調信号の振幅の頻度分布の情報を、算出部235へ送る。
【0065】
(算出部235について)
算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出する機能部である。ここで、カートシス(尖度)とは、振幅の頻度分布(例えば、
図7に示す頻度分布)のピーク部分およびその近傍部分の分布形状の鋭さを示す値である。
【0066】
例えば、
図7(b)に示す頻度分布は、ピーク部分およびその近傍部分が鋭く、かつ、ピーク部分が裾の部分よりも高い位置にある分布となっており、
図7(a)に示す頻度分布は、ピーク部分およびその近傍部分が丸みがかっており、かつ、ピーク部分が裾の部分よりも高くない分布となっている。この場合、
図7(b)の頻度分布について算出された尖度は、
図7(a)の頻度分布について算出された尖度よりも高い値となる。
【0067】
図8は、実施形態に係る振幅の頻度分布のカートシスの算出方法の一例を示す図である。
図8を参照しながら、算出部235による振幅の頻度分布のカートシスの算出方法の一例について説明する。
【0068】
まず、生成部234は、強調部233により生成された強調信号に対してSTFT(Short−Time Fourier Transform:短時間フーリエ変換)を行う(ステップS21)。これによって、強調信号から周波数成分が抽出される。
図8に示す例では、J個の周波数ビンの成分が抽出されるものとする。そして、生成部234は、STFTにより得られた周波数ビンごとの成分について絶対値をとることにより振幅スペクトル|X(i,0)|,|X(i,1)|,・・・,|X(i,J)|を得る(ステップS22)。生成部234は、この周波数ビンごとの振幅スペクトルから、上述の振幅の頻度分布を生成する。
【0069】
次に、算出部235は、振幅スペクトルに基づく振幅の頻度分布から、周波数ビンごとにカートシスを算出する(ステップS23)。算出部235は、例えば、下記の式(1)により、周波数ビンごとのカートシスを算出する。
【0071】
式(1)において、K
jは、j番目の周波数ビンに対応するカートシスであり、|X(i,j)|は、i番目のフレームにおける振幅スペクトルであり、M[x
n]は、n次のモーメントである。また、モーメントM[x
n]は、下記の式(2)により定義される。
【0073】
式(2)において、p(x)は、変数xの分布に従う確率密度関数である。
【0074】
そして、算出部235は、周波数ビンごとに算出した各カートシスの平均値(K)を、下記の式(3)によって算出し(ステップS24)、当該平均値を、着目しているチャネルに対応する振幅の頻度分布のカートシスとする。
【0076】
算出部235は、上述のステップS21〜S24による算出処理を、各チャネルについて実行する。算出部235は、算出した各チャネルに対応するカートシスを、算出結果記憶部221に記憶させる。具体的には、算出部235は、
図5に示すように、マイクロホンアレイ装置10の各マイクロホンのマイクロホンIDに関連付けて、算出した各チャネルのカートシスを算出結果記憶部221に記憶させる。算出部235の機能は、上述の
図1に示したチャネル選択機能62に含まれる。
【0077】
(選択部236について)
選択部236は、算出部235により算出された各チャネルのカートシスに基づいて、認識装置30に観測信号を出力するチャネルを選択する機能部である。具体的には、選択部236は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。選択部236は、
図5に示すように、マイクロホンアレイ装置10のマイクロホンのマイクロホンIDに関連付けて、選択フラグを算出結果記憶部221に記憶させる。選択部236の機能は、上述の
図1に示したチャネル選択機能62に含まれる。
【0078】
このように、観測信号を出力するチャネルを選択するためにカートシスを利用する理由は、以下の通りである。音声信号の分布はラプラス分布のような分布に従うのに対し、複数の雑音源が混合された音声信号の分布は正規分布に近くなるという性質がある。すなわち、各チャネルに対応する音声が存在する場合における音声信号(ここでは、強調信号)の振幅の頻度分布の尖度、すなわちカートシスは、音声が存在しない場合における頻度分布のカートシスよりも高くなることが予想されるためである。
【0079】
(出力部237について)
出力部237は、マイクロホンアレイ装置10の各マイクロホンで受音された音声の観測信号のうち、選択部236により選択されたチャネルに対応する観測信号を抽出して、通信部240を介して、認識装置30へ出力する機能部である。出力部237の機能は、上述の
図1に示したチャネル選択機能62に含まれる。
【0080】
(通信部240について)
通信部240は、認識装置30と情報の通信を行う機能部である。具体的には、通信部240は、例えば、出力部237による機能により、選択部236により選択されたチャネルに対応する観測信号を、ネットワークNを介して、認識装置30へ送信する。通信部240は、後述する
図13に示すネットワークI/F1500(例えば、NIC(Netowork Interface Card)等)によって実現される。
【0081】
〔4.認識装置の構成〕
図9は、実施形態に係る認識装置の構成例を示す図である。
図9を参照しながら、本実施形態に係る認識装置30の構成について説明する。
【0082】
図9に示すように、本実施形態に係る認識装置30は、通信部310と、記憶部320と、制御部330と、を有する。なお、認識装置30は、認識装置30を利用する管理者等から各種操作を受け付ける入力部(例えば、マウスまたはキーボード等)、または各種情報を表示する表示部(例えば、液晶ディスプレイまたは有機ELディスプレイ等)を有するものとしてもよい。
【0083】
(通信部310について)
通信部310は、本実施形態に係る音声抽出装置20と情報の通信を行う機能部である。具体的には、通信部310は、例えば、マイクロホンアレイ装置10により受音された音声の観測信号に対して、音声抽出装置20により抽出処理が実行されて出力された観測信号を、ネットワークNを介して受信する。通信部310は、後述する
図13に示すネットワークI/F1500(例えば、NIC(Netowork Interface Card)等)によって実現される。
【0084】
(記憶部320について)
記憶部320は、認識装置30の処理の用に供する様々な情報を記憶する機能部である。記憶部320は、例えば、後述する制御部330の取得部331により取得された観測信号のデータ、および、音声認識部332による音声認識処理により生成されたテキストのデータ等を記憶する。記憶部320は、後述する
図13に示すRAM1200、補助記憶装置1400(HDDまたはSSD等)、または記録媒体1900(DVD−RW等)のうち少なくともいずれかによって実現される。
【0085】
(制御部330について)
制御部330は、認識装置30全体の動作の制御を司る機能部である。
図9に示すように、制御部330は、取得部331と、音声認識部332と、出力部333と、を有する。制御部330は、後述する
図13に示すCPU1100が、ROM1300および補助記憶装置1400等に記憶されているプログラムを、RAM1200を作業領域として実行することにより実現される。
【0086】
なお、制御部330の上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGAまたはASIC等のハードウェア回路によって実現されてもよい。
【0087】
また、
図9に示す制御部330の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、
図9で独立した制御部330の機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、
図9の制御部330が有する1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0088】
(取得部331について)
取得部331は、マイクロホンアレイ装置10により受音された音声の観測信号に対して、音声抽出装置20により抽出処理が実行されて出力された観測信号を、通信部310を介して取得する機能部である。取得部331は、取得した強調信号を、音声認識部332へ送る。
【0089】
(音声認識部332について)
音声認識部332は、取得部331により取得された観測信号に対して音声認識処理を実行し、テキストに変換する機能部である。ここで、音声認識処理としては、ディープニューラルネットワークを用いた認識アルゴリズム等の公知のアルゴリズムにより実行されるものとすればよい。音声認識部332は、観測信号から変換したテキストを、出力部333へ送る。
【0090】
(出力部333について)
出力部333は、音声認識部332により観測信号から変換されたテキストを、通信部310を介して、当該テキストを利用する外部装置に出力する機能部である。なお、音声認識部332により観測信号から変換されたテキストは、必ずしも外部へ出力される必要はなく、認識装置30内で実行されているアプリケーションに対して出力するものとしてもよい。
【0091】
〔5.処理の流れ〕
図10は、実施形態に係る音声認識システムの処理の一例を示すフローチャートである。
図10を参照しながら、本実施形態に係る音声認識システム1の処理の流れについて説明する。
【0092】
(ステップS101)
音声抽出装置20の形成部232は、マイクロホンアレイ装置10の各マイクロホンに正対する方向から来る音声が強調されるように、予め指向性を形成する。そして、ステップS102へ移行する。
【0093】
(ステップS102)
マイクロホンアレイ装置10が、各マイクロホンにより話者の音声を受音した場合(ステップS102:Yes)、ステップS103へ移行し、音声を受音していない場合(ステップS102:No)、処理を終了する。
【0094】
(ステップS103)
マイクロホンアレイ装置10は、各マイクロホン(各チャネル)で受音された音声を観測信号として、音声抽出装置20へ送信する。そして、ステップS104へ移行する。
【0095】
(ステップS104)
音声抽出装置20の強調部233は、形成部232により形成された指向性に従って、取得部231により取得された各チャネルの観測信号を強調して強調信号を生成する。そして、ステップS105へ移行する。
【0096】
(ステップS105)
音声抽出装置20の生成部234は、強調部233により強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する。そして、ステップS106へ移行する。
【0097】
(ステップS106)
音声抽出装置20の算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出する。このとき、算出部235は、算出した各チャネルに対応するカートシスを、算出結果記憶部221に記憶させる。そして、ステップS107へ移行する。
【0098】
(ステップS107)
音声抽出装置20の選択部236は、算出部235により算出された各チャネルのカートシスに基づいて、認識装置30に観測信号を出力するチャネルを選択する。具体的には、選択部236は、各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択する。そして、音声抽出装置20の出力部237は、選択部236により選択されたチャネルに対応する観測信号を、通信部240を介して、認識装置30へ出力する。そして、ステップS108へ移行する。
【0099】
(ステップS108)
認識装置30の取得部331は、音声抽出装置20により抽出処理が実行されて出力された観測信号を、通信部310を介して取得する。認識装置30の音声認識部332は、取得部331により取得された観測信号に対して音声認識処理を実行し、テキストに変換する。認識装置30の出力部333は、音声認識部332により観測信号から変換されたテキストを、通信部310を介して、当該テキストを利用する外部装置に出力する。そして、処理を終了する。
【0100】
以上のような、ステップS101〜S108によって、本実施形態に係る音声認識システム1の処理が実行される。具体的には、ステップS101において形成部232により指向性が形成された後、ステップS102〜S108が繰り返し実行される。
【0101】
〔6.変形例〕
上述した音声抽出装置20は、上述の実施形態以外にも種々の異なる形態にて実施されてよい。以下では、音声抽出装置の他の実施形態について説明する。
【0102】
〔6−1.強調信号の出力〕
図11は、変形例に係る抽出処理の一例を示す図である。上述の実施形態では、選択されたチャネルに対応する観測信号を認識装置30に対して出力する例を示した。これに対して、
図11を参照しながら、選択されたチャネルに対応する強調信号を認識装置30に対して出力する処理について説明する。
【0103】
図11に示す音声抽出装置20aは、マイクロホンアレイ装置10により受音された音声に基づく観測信号に対して、マイクロホンアレイ装置10の各マイクロホンに対応して予め形成した指向性に従って、各チャネルの観測信号を強調し、強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する強調信号を抽出して出力する抽出処理を実行する装置である。
図11に示すように、音声抽出装置20aは、機能として、指向性形成・強調機能61と、チャネル選択機能62aと、を有する。
【0104】
指向性形成・強調機能61は、
図1に示した音声抽出装置20の指向性形成・強調機能61と同様の機能である。
【0105】
チャネル選択機能62aは、指向性形成・強調機能61の機能により生成された強調信号の振幅の頻度分布のカートシスに基づいてチャネルを選択し、選択されたチャネルに対応する強調信号を抽出して出力する機能である。
【0106】
図12は、変形例に係る音声抽出装置の構成例を示す図である。
図12を参照しながら、本変形例に係る音声抽出装置20aの構成について説明する。
【0107】
図12に示すように、本変形例に係る音声抽出装置20aは、通信部210と、記憶部220と、制御部230aと、通信部240と、を有する。なお、音声抽出装置20aは、音声抽出装置20aを利用する管理者等から各種操作を受け付ける入力部(例えば、マウスまたはキーボード等)、または各種情報を表示する表示部(例えば、液晶ディスプレイまたは有機ELディスプレイ等)を有するものとしてもよい。また、通信部210、記憶部220および通信部240の機能は、
図4で上述した機能と同様である。
【0108】
制御部230aは、音声抽出装置20a全体の動作を司る機能部である。
図12に示すように、制御部230aは、取得部231と、形成部232と、強調部233と、生成部234と、算出部235と、選択部236と、出力部237aと、を有する。制御部230aは、後述する
図13に示すCPU1100が、ROM1300および補助記憶装置1400等に記憶されているプログラムを、RAM1200を作業領域として実行することにより実現される。なお、取得部231、形成部232、強調部233、生成部234、算出部235および選択部236の機能は、上述の
図4で説明した機能と同様である。形成部232および強調部233の機能は、上述の
図11に示した指向性形成・強調機能61に含まれる。生成部234、算出部235、選択部236および出力部237aの機能は、上述の
図11に示したチャネル選択機能62aに含まれる。
【0109】
なお、制御部230aの上述の各機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGAまたはASIC等のハードウェア回路によって実現されてもよい。
【0110】
また、
図12に示す制御部230aの各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、
図12で独立した制御部230aの機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、
図12の制御部230aが有する1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0111】
出力部237aは、マイクロホンアレイ装置10の各マイクロホンで受音された音声の観測信号のうち、選択部236により選択されたチャネルに対応する強調信号を抽出して、通信部240を介して、認識装置30へ出力する機能部である。出力部237aの機能は、上述の
図11に示したチャネル選択機能62aに含まれる。
【0112】
以上のように、
図4では選択されたチャネルに対応する観測信号を、認識装置30に対して出力していたが、本変形例の
図12に示すように、選択されたチャネルに対する強調信号を出力するようにしてもよい。これによって、上述の実施形態に係る音声抽出装置20と同様に、音声を適切に抽出することで信号の歪みの発生を抑制して音声認識の精度を向上させることができる。
【0113】
〔6−2.頻度分布に基づくその他の指標値による選択〕
上述の実施形態では、算出部235は、生成部234により生成された各チャネルの強調信号の振幅の頻度分布についてのカートシス(尖度)を算出し、選択部236は、算出部235により算出された各チャネルのカートシスのうち、最大のカートシスに対応するチャネルを選択するものとした。しかし、これに限定されるものではなく、例えば、以下のような方法によって、認識装置30に観測信号(または強調信号)を出力するチャネルを選択するものとしてもよい。
【0114】
例えば、選択部236は、算出された各チャネルのカートシスのうち、所定の閾値以上のカートシスにそれぞれ対応する1以上のチャネルを選択するものとし、出力部237(237a)は、選択された1以上のチャネルにそれぞれ対応する観測信号(または強調信号)を平均化または合成等を行って、認識装置30に出力するものとしてもよい。この場合、選択部236により選択されるチャネル数に上限を設けてもよい。
【0115】
また、例えば、算出部235は、生成された各チャネルの強調信号の振幅の頻度分布から指標値としてカートシスではなく、異なる指標値を算出するものとしてもよい。例えば、算出部235は、頻度分布の頻値、分散、平均値、頻度分布のピーク部分と裾の部分との高さ、頻度分布のピーク部分からの所定位置におけるグラフの幅、または、頻度分布の最頻値等の指標値を算出するものとしてもよい。この場合、選択部236は、算出された指標値に基づいて、観測信号(または強調信号)を出力するチャネルを選択するものとすればよい。
【0116】
また、例えば、予め、人間(話者)の音声信号の振幅の頻度分布のモデル(パターン)を用意しておき、算出部235は、生成された各チャネルの強調信号の振幅の頻度分布と、当該モデルとを比較して、その類似度を指標値として算出するものとしてもよい。この場合、選択部236は、例えば、頻度分布のモデルとの類似度が最も高い強調信号に対応するチャネルを選択するものとすればよい。
【0117】
このように、強調信号の振幅の頻度分布に基づいて、上述のような各方法等によっても、上述の実施形態に係る音声抽出装置20と同様に、音声を適切に抽出することで信号の歪みの発生を抑制して音声認識の精度を向上させることができる。
【0118】
〔7.ハードウェア構成〕
図13は、音声抽出装置の機能を実現するコンピュータのハードウェア構成の一例を示す図である。上述してきた実施形態に係る音声抽出装置20および認識装置30は、例えば、
図13に示すような構成のコンピュータ1000によって実現される。以下、音声抽出装置20を例に挙げて説明する。
【0119】
コンピュータ1000は、CPU1100と、RAM1200と、ROM1300と、補助記憶装置1400と、ネットワークI/F(インターフェース)1500と、通信I/F(インターフェース)1600と、入出力I/F(インターフェース)1700と、メディアI/F(インターフェース)1800と、を有する。CPU1100、RAM1200、ROM1300、補助記憶装置1400、ネットワークI/F1500、通信I/F1600、入出力I/F1700およびメディアI/F1800は、バス1950によって互いにデータ通信が可能となるように接続されている。
【0120】
CPU1100は、ROM1300または補助記憶装置1400に記憶されたプログラムに基づいて動作し、各部の制御を行う演算装置である。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムおよびBIOS(Basic Input/Output System)、および、コンピュータ1000のハードウェアに依存するプログラム等を記憶する不揮発性の記憶装置である。
【0121】
補助記憶装置1400は、CPU1100によって実行されるプログラム、および、当該プログラムによって使用されるデータ等を記憶する不揮発性の記憶装置である。補助記憶装置1400は、例えば、HDDまたはSSD等である。
【0122】
ネットワークI/F1500は、通信網600(
図3に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網600を介して他の機器へ送信する通信インターフェースである。ネットワークI/F1500は、例えば、NIC等である。
【0123】
通信I/F1600は、周辺機器との間でデータを通信するための通信インターフェースである。通信I/F1600は、例えば、USBインターフェース、または、シリアルポート等である。
【0124】
CPU1100は、入出力I/F1700を介して、ディスプレイまたはプリンタ等の出力装置、および、キーボードまたはマウス等の入力装置を制御する。CPU1100は、入出力I/F1700を介して、入力装置からデータを取得する。また、CPU1100は、入出力I/F1700を介して、生成したデータを出力装置へ出力する。
【0125】
メディアI/F1800は、記録媒体1900に記憶されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供するインターフェースである。CPU1100は、提供されたプログラムを、メディアI/F1800を介して記録媒体1900からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1900は、例えば、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto−Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0126】
例えば、コンピュータ1000が実施形態に係る音声抽出装置20として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部230の機能を実現する。また、補助記憶装置1400には、記憶部220内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1900から読み取って実行するが、他の例として、他の装置から通信網600を介してこれらのプログラムを取得してもよい。
【0127】
なお、
図13に示したコンピュータ1000のハードウェア構成は一例を示すものであり、
図13に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。
【0128】
〔8.その他〕
また、上述の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述の文書中および図面中で示した処理手順、具体的名称、各種のデータ、ならびにパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0129】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷および使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、
図4に示した生成部234と、算出部235とは統合されてもよい。また、例えば、記憶部220に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
【0130】
また、上述の実施形態では、音声抽出装置20が、例えば、指向性に従って各チャネルの観測信号を強調して強調信号を生成する強調処理と、強調された各チャネルの強調信号に基づいて、当該強調信号の振幅の頻度分布をチャネルごとに生成する生成処理と、を行う例を示した。しかし、上述の音声抽出装置20は、強調処理を行う強調装置と、生成処理を行う生成装置とに分離されてもよい。この場合、強調装置は、少なくとも強調部233を有する。生成装置は、少なくとも生成部234を有する。そして、上述の音声抽出装置20による処理は、強調装置と、生成装置との各装置を有する音声認識システム1によって実現される。
【0131】
また、上述してきた実施形態およびその変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0132】
〔9.効果〕
上述してきたように、実施形態に係る音声抽出装置20(20a)は、形成部232と、取得部231と、強調部233と、生成部234と、選択部236と、を有する。形成部232は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイ装置10において、各マイクロホンについてビームフォーミング処理により、予め指向性を形成する。取得部231は、各チャネルで受音された音声の信号である観測信号を取得する。強調部233は、形成部232により形成された各マイクロホンについての指向性に従って、各チャネルの観測信号を強調して強調信号を生成する。生成部234は、強調部233により生成された強調信号の振幅の頻度分布をチャネルごとに生成する。選択部236は、生成部234により生成された前記各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。
【0133】
このように、観測信号を受信するたびに指向性を形成する必要がなく、従来の音声認識システムの音源定位を行うことなく、形成された指向性に基づいて強調された各チャネルの強調信号によって生成された振幅の頻度分布に基づいてチャネルを選択するものとしている。このチャネルの選択が、従来の音声認識システムの音源定位の機能に相当するが、演算負荷の高い音源定位の処理を実行する必要がない。よって、演算処理の負荷を低減することができ、かつ、音声を適切に抽出することで信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【0134】
また、実施形態に係る音声抽出装置20(20a)は、出力部237(237a)を、さらに有する。出力部237(237a)は、マイクロホンアレイ装置10の各チャネルのうち、選択部236により選択されたチャネルに対応する音声信号を、音声認識を行う認識装置30に出力する。
【0135】
このように、実施形態に係る音声抽出装置20(20a)は、信号の歪みの発生を抑制した音声を適切に抽出して当該音声に対応する音声信号を出力するので、認識装置30における音声認識の精度を向上させることができる。
【0136】
また、選択部236は、生成部234により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号としての観測信号に対応するチャネルを選択する。出力部237は、選択部236により選択されたチャネルに対応する観測信号を、認識装置30に出力する。
【0137】
このように、実施形態に係る音声抽出装置20は、認識装置30での音声認識に用いる音声信号として観測信号を出力するものとしてもよい。これによって、形成部232によるビームフォーミング処理、および強調部233による観測信号の強調処理に不具合が発生して、強調信号に歪みが生じたとしても、歪みのない観測信号をそのまま出力することによって、音声認識の精度を向上させることができる。
【0138】
また、選択部236は、生成部234により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号としての強調信号に対応するチャネルを選択する。出力部237aは、選択部236により選択されたチャネルに対応する強調信号を、認識装置30に出力する。
【0139】
このように、実施形態の変形例に係る音声抽出装置20aは、認識装置30での音声認識に用いる音声信号として強調信号を出力するものとしてもよい。これによって、適切に選択されたチャネルに対応する強調された音声信号である強調信号を出力することによって、音声認識の精度を向上させることができる。
【0140】
また、実施形態に係る音声抽出装置20(20a)は、算出部235を、さらに有する。算出部235は、生成部234により生成された各チャネルに対応する頻度分布に対する指標値を算出する。選択部236は、算出部235により算出された指標値に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。
【0141】
このように、実施形態に係る音声抽出装置20(20a)は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部235により算出された頻度分布に対する指標値を用いるものとしてもよい。これによって、頻度分布の特性を適切に示す指標値に基づいて、チャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【0142】
また、算出部235は、各チャネルに対応する頻度分布のカートシスを指標値として算出する。選択部236は、算出部235により算出されたカートシスに基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。
【0143】
このように、実施形態に係る音声抽出装置20(20a)は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部235により算出された頻度分布のカートシスを用いるものとしてもよい。これによって、頻度分布の特性を適切に示すカートシスに基づいて、チャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【0144】
また、選択部236は、算出部235により算出された各チャネルに対応するカートシスのうち、最大のカートシスに対応するチャネルを選択する。
【0145】
これによって、観測信号から明瞭に強調された強調信号に対応するチャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【0146】
算出部235は、各チャネルに対応する頻度分布と、予め定められた音声信号の振幅の頻度分布のモデルとの類似度を各チャネルについて算出する。選択部236は、算出部235により算出された各チャネルに対応する類似度のうち、最大の類似度に対応するチャネルを選択する。
【0147】
このように、実施形態に係る音声抽出装置20(20a)は、音声認識に用いる音声信号に対応するチャネルを選択するために、算出部235により算出された、各チャネルに対応する頻度分布と、予め定められた音声信号の振幅の頻度分布のモデルとの類似度を用いるものとしてもよい。これによって、よりモデルの音声信号に近いものと判断された強調信号に対応するチャネルを選択することができるので、音声を適切に抽出することができ、信号の歪みの発生を抑制することができるので音声認識の精度を向上させることができる。
【実施例】
【0148】
図14は、各システムの文字正解精度の検証結果の一例を示す図である。
図14を参照しながら、
図1および
図4に示す上述の実施形態に係る音声抽出装置20を用いた場合、および、
図11および
図12に示す上述の変形例に係る音声抽出装置20aを用いた場合の認識装置30における文字正解精度の検証結果の一例を説明する。本実施例において、以下の検証条件により検証を行った。
【0149】
・マイクロホンアレイ装置の素子(マイクロホン)数:8個
・マイクロホンアレイ形状:円状、半径3.7cm
・音声認識モデルの学習に使用した音声:雑音や残響を付加した音声
・評価データ:実環境で収録したコマンド発話 9900発話
・4部屋、マイクロホンおよび話者の位置の組み合わせ6組
【0150】
また、具体的には以下の<1>〜<5>のシステムによって文字正解精度の比較を行った。
【0151】
<1>channel_select(enh)
上述の変形例に係る音声抽出装置20aを用いた音声認識システムであり、ビームフォーミング処理としてDS法を用いた。
<2>channel_select(obs)
上述の実施形態に係る音声抽出装置20を用いた音声認識システムであり、ビームフォーミング処理としてDS法を用いた。
<3>Static
マイクロホンアレイ装置におけるマイクロホンのうち話者の正面に位置する1のマイクロホンのみを用いて受音するものとしたシステムである。
<4>BeamformIt
図2に示す従来の音声認識システムであり、音源定位にGCC−PHATを用い、ビームフォーミング処理にDS法を用いた。また、音源定位を行う際には、GCC−PHATの結果に対してさらにViterbiアルゴリズムを適用している。
<5>BeamformIt(channel_select)
BeamformItにおいて信号として、選択されたチャネルにおける観測信号を用いた音声認識システムである。
【0152】
図14に示す文字正解精度の結果のように、従来の音声認識システムであるBeamformItおよびBeamformIt(channel_select)は、Staticよりも性能が劣化していることが確認された。これは、雑音および残響環境下では、音源定位が困難であり、ビームフォーミング処理に失敗してしまっていることが原因であると思われる。
【0153】
一方、上述の実施形態に係る音声認識システムであるchannel_select(obs)は、Staticと比較して認識性能が改善していることが確認された。このことより、channel_select(obs)では、音声認識に効果的なチャネルを選択できるものと考えられる。また、上述の変形例に係る音声認識システムであるchannel_select(enh)は、今回の検証で最も高い性能を示すことが確認された。これは、カートシスによるチャネルの選択により、その選択の性能が従来の音声認識システムよりも改善され、予めビームフォーミング処理により指向性を形成しておくことの効果が示されたものと考えられる。
【0154】
図15は、各システムの処理時間の抽出処理の処理時間の結果の一例を示す図である。
図15を参照しながら、
図1および
図4に示す上述の実施形態に係る音声抽出装置20を用いた場合のシステム(上述のchannel_select(obs))での処理と、従来の音声認識システム(上述のBeamformIt)での処理との、計算時間の比較結果を説明する。本実施例において、以下の条件により計算時間の比較を行った。
【0155】
・マシンスペック:Intel(R) Xeon(R) CPU E5-2630L 0 @ 2.00GHz
・計測方法:Linux(登録商標)のtimeコマンド、user時間で計測
・4980発話を処理したときの平均および標準偏差を計算
【0156】
図15に示す計算時間の比較結果のように、本実施形態に係る音声認識システムの方が、従来の音声認識システムよりも大幅に計算時間を削減することができていることが確認された。
【解決手段】本願に係る音声抽出装置は、形成部と、取得部と、強調部と、生成部と、選択部と、を有する。形成部は、複数のマイクロホンを有することにより複数のチャネルが形成されたマイクロホンアレイにおいて、各マイクロホンについてビームフォーミング処理により、予め指向性を形成する。取得部は、各チャネルで受音された音声の信号である観測信号を取得する。強調部は、形成部により形成された各マイクロホンについての指向性に従って、各チャネルの観測信号を強調して強調信号を生成する。生成部は、強調部により生成された強調信号の振幅の頻度分布をチャネルごとに生成する。選択部は、生成部により生成された各チャネルに対応する頻度分布に基づいて、各チャネルのうち、音声認識に用いる音声信号に対応するチャネルを選択する。