特許6802145 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6802145ＳＮＲ推定装置、ＳＮＲ推定方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6802145

(24)【登録日】2020年11月30日

(45)【発行日】2020年12月16日

(54)【発明の名称】ＳＮＲ推定装置、ＳＮＲ推定方法、プログラム

(51)【国際特許分類】

G10L 25/51 20130101AFI20201207BHJP

【ＦＩ】

G10L25/51

【請求項の数】4

【全頁数】9

(21)【出願番号】特願2017-251645(P2017-251645)

(22)【出願日】2017年12月27日

(65)【公開番号】特開2019-117317(P2019-117317A)

(43)【公開日】2019年7月18日

【審査請求日】2020年2月7日

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100121706

【弁理士】

【氏名又は名称】中尾直樹

(74)【代理人】

【識別番号】100128705

【弁理士】

【氏名又は名称】中村幸雄

(74)【代理人】

【識別番号】100147773

【弁理士】

【氏名又は名称】義村宗洋

(72)【発明者】

【氏名】伊藤弘章

(72)【発明者】

【氏名】齊藤翔一郎

(72)【発明者】

【氏名】原田登

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０１３−６２６０９（ＪＰ，Ａ）

【文献】特表２００２−５２７７８５（ＪＰ，Ａ）

【文献】 Voice enhancement devices Amendment 2: Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms，Recommendation ITU-T G.160 (2008) Amendment 2，２０１１年３月１１日

【文献】齊藤翔一郎他，"局所PSD推定を利用した高騒音環境用雑音抑圧マイクロホンの実装"，日本音響学会2016年秋季研究発表会講演論文集CD-ROM，２０１６年９月１６日，pp.519-520

【文献】 SAITO, Shoichiro et al.，"Noise suppressing microphone array for highly noisy environments using power spectrum density estimation in beamspace"，Proc. of 2017 IEEE International Conference on Consumer Electronics (ICCE)，２０１７年１月８日

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−２５／９３

Ｈ０４Ｒ３／００，２９／００

(57)【特許請求の範囲】

【請求項1】

スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるＳＮＲ推定装置であって、
前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出部と、
前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第１ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第２ポーズに分類する無音声区間分類部と、
前記クリーン音声信号に前記第１ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第１ポーズフレーム数判定部と、
前記第１ポーズのフレームが所定のフレーム数以上存在する場合に、前記第１ポーズに基づいて前記収録信号のＳＮＲを算出し、前記第１ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第２ポーズに基づいて前記収録信号の前記ＳＮＲを算出するＳＮＲ算出部を含む
ＳＮＲ推定装置。

【請求項2】

請求項１に記載のＳＮＲ推定装置であって、
前記無音声区間分類部は、
前記サイレントのうち、前記音声区間に隣接するフレームを含む所定の区間を前記第２ポーズに分類する
ＳＮＲ推定装置。

【請求項3】

スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるＳＮＲ推定方法であって、
前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出ステップと、
前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第１ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第２ポーズに分類する無音声区間分類ステップと、
前記クリーン音声信号に前記第１ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第１ポーズフレーム数判定ステップと、
前記第１ポーズのフレームが所定のフレーム数以上存在する場合に、前記第１ポーズに基づいて前記収録信号のＳＮＲを算出し、前記第１ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第２ポーズに基づいて前記収録信号の前記ＳＮＲを算出するＳＮＲ算出ステップを含む
ＳＮＲ推定方法。

【請求項4】

コンピュータを請求項１または２に記載のＳＮＲ推定装置として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、マイクデバイスで収録された信号のＳＮＲを推定するＳＮＲ推定装置、ＳＮＲ推定方法、プログラムに関する。

【背景技術】

【0002】

マイクデバイスの性能評価において、しばしばスピーカで再生された音声をマイクデバイスで収録したデータを評価試験に用いることがある。このような場合、収録されたデータが実利用環境では想定しないようなデータになっていないか確認することは、評価試験の妥当性を担保する上で重要である。

【0003】

従来は、例えばＩＴＵ−ＴＧ．１６０（非特許文献１）で定義されるＳＮＲの値を用いて収録データのＳＮＲを推定し、評価用データを選定する、という方法が知られている。

【0004】

従来技術では、図１に示すように無音声区間をポーズとサイレントの２種類に分類し、発話区間内の無音声区間（ポーズ）を用いて、雑音のパワーを算出し、発話区間内の音声区間を用いて音声のパワーを計算し、ＳＮＲ値を求めている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】International Telecommunication Union, " G.160 : Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms", ［online］, International Telecommunication Union, ［平成 29年 12月 19日検索］、インターネット〈URL：https://www.itu.int/rec/T-REC-G.160-201103-S!Amd2/en〉

【発明の概要】

【発明が解決しようとする課題】

【0006】

音声認識性能評価のために用意されたデータセットの場合、１つの音声データに含まれる発話が１単語のみ（例えば「おはよう」のみ）の場合など、極端に短い場合が考えられる。このような音声では、図２に示すように、発話区間内の短時間無音声区間（ポーズ）が全く存在しないか、あるいは十分な長さ存在しないため、ポーズを用いてＳＮＲ値を算出することができない。

【0007】

また、発話区間内の無音声区間（ポーズ）が算出できない場合に、発話区間外の全区間を短時間無音区間として割り当ててＳＮＲを算出する方法が考えられるが、割り当てられた無音声区間に雑音パワーが小さい区間と大きい区間が混ざっていると、実態のＳＮＲ値からの推定誤差が大きくなってしまう。

【0008】

そこで本発明では、発話区間内の無音声区間（ポーズ）が少ない場合であっても、マイクデバイスで収録された信号のＳＮＲを推定することができるＳＮＲ推定装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明のＳＮＲ推定装置は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を用いるＳＮＲ推定装置である。

【0010】

ＳＮＲ推定装置は、音声区間検出部と、無音声区間分類部と、第１ポーズフレーム数判定部と、ＳＮＲ算出部を含む。

【0011】

音声区間検出部は、クリーン音声信号の音声区間と無音声区間を検出する。無音声区間分類部は、無音声区間を、音声区間に挟まれた無音声区間である第１ポーズ、それ以外の無音声区間であるサイレントの何れかに分類し、サイレントのうち、クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第２ポーズに分類する。第１ポーズフレーム数判定部は、クリーン音声信号に第１ポーズのフレームが所定のフレーム数以上存在するか否かを判定する。ＳＮＲ算出部は、第１ポーズのフレームが所定のフレーム数以上存在する場合に、第１ポーズに基づいて収録信号のＳＮＲを算出し、第１ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第２ポーズに基づいて収録信号のＳＮＲを算出する。

【発明の効果】

【0012】

本発明のＳＮＲ推定装置によれば、発話区間内の無音声区間（ポーズ）が少ない場合であっても、マイクデバイスで収録された信号のＳＮＲを推定することができる。

【図面の簡単な説明】

【0013】

【図1】音声信号の例と従来技術における無音声区間の分類例を示す図。

【図2】十分なフレーム数のポーズが存在しない場合の音声信号の例を示す図。

【図3】実施例１のＳＮＲ推定装置の構成を示すブロック図。

【図4】実施例１のＳＮＲ推定装置の動作を示すフローチャート。

【図5】第２ポーズの区間を決定する方法の具体例その１を示す図。

【図6】第２ポーズの区間を決定する方法の具体例その２を示す図。

【図7】収録信号のＳＮＲ値の分布の例を示すグラフ。

【図8】実利用環境に則さないＳＮＲとなる収録信号を除去した場合の音声認識率の変化の例を示すグラフ。

【発明を実施するための形態】

【0014】

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

【実施例1】

【0015】

実施例１のＳＮＲ推定装置１は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を対応させて用いることで、収録信号のＳＮＲを算出（推定）する装置である。

【0016】

以下、図３を参照して本実施例のＳＮＲ推定装置１の構成を説明する。同図に示すように、本実施例のＳＮＲ推定装置１は、音声区間検出部１１と、無音声区間分類部１２と、第１ポーズフレーム数判定部１３と、ＳＮＲ算出部１４を含む。以下、図４を参照して、各部の動作について説明する。

【0017】

＜音声区間検出部１１＞
音声区間検出部１１は、クリーン音声信号を受信し、クリーン音声信号の音声区間と無音声区間を検出する（Ｓ１１、図５参照）。例えば、音声区間検出部１１は、クリーン音声信号の各フレームのパワーを算出し、予め規定されたしきい値を元に、各フレームを無音、パワー小、パワー中、パワー大に分類し、無音と分類されたフレーム（複数フレーム連続している場合にはその区間）を無音声区間とし、それ以外のフレーム（複数フレーム連続している場合にはその区間）を音声区間として検出してもよい。

【0018】

＜無音声区間分類部１２＞
無音声区間分類部１２は、ステップＳ１１における検出結果を取得し、無音声区間を、音声区間に挟まれた無音声区間（別の表現では、発話区間内の短時間無音声区間）である第１ポーズ、それ以外の無音声区間であるサイレントの何れかに分類する（Ｓ１２、図５参照）。さらに、無音声区間分類部１２はサイレントと分類されたフレームのうち、所定の区間（例えば、発話区間の直前直後の数十ミリ秒、数十フレームの区間、図５、図６におけるドットハッチングの区間）を第２ポーズと分類する（Ｓ１２）。

【0019】

例えば、第２ポーズは、クリーン音声信号の最初のフレームと最後のフレーム（図５における斜線ハッチングを参照）に該当するフレームを除く所定の区間としてもよい。また第２ポーズは、サイレントのうち、音声区間に隣接するフレーム（別の表現では、発話区間の直前と直後で発話区間に隣接するフレーム、図６における斜線ハッチングを参照）を含む所定の区間としてもよい。

【0020】

＜第１ポーズフレーム数判定部１３＞
第１ポーズフレーム数判定部１３は、ステップＳ１２における分類結果を取得し、クリーン音声信号に第１ポーズのフレームが所定のフレーム数以上存在するか否かを判定する（Ｓ１３）。具体的には、第１ポーズフレーム数判定部１３は、第１ポーズがＧ．１６０に規定されるフレーム数以上存在するか否かを判定する。

【0021】

＜ＳＮＲ算出部１４＞
ＳＮＲ算出部１４は、ステップＳ１１における検出結果、ステップＳ１２における分類結果、ステップＳ１３における判定結果を取得し、第１ポーズのフレームが所定のフレーム数以上存在する場合に、第１ポーズに基づいて収録信号のＳＮＲを算出し、第１ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第２ポーズに基づいて収録信号のＳＮＲを算出する（Ｓ１４）。

【0022】

第１ポーズのフレームが所定のフレーム数以上存在しない場合、ＳＮＲ算出部１４は、ＳＮＲの値を下式により求める。なおｘ（ｎ）は収録信号、ｎはフレームインデックス、Ｎは第１ポーズの区間数の判定しきい値、ｓｐｅｅｃｈ，ｐａｕｓｅ_１，ｐａｕｓｅ_２は、フレームの分類情報を示し、それぞれ、音声、第１ポーズ、第２ポーズを表す。

【0023】

【数1】

【0024】

図７、図８を参照して、本実施例のＳＮＲ推定装置１によりＳＮＲを推定し、実利用環境に則さないＳＮＲとなった収録信号を除外して音声認識を行った場合の音声認識率の変化について説明する。本実施例のＳＮＲ推定装置１によりリビング雑音環境下において収録信号のＳＮＲを推定したところ、図７のようにそのＳＮＲ分布を得ることができた。同図の左側に寄っている分布は実利用環境に則さないＳＮＲ値となっているため、該当する収録信号をＳＮＲに対するしきい値を適宜変更しながら除外したところ、図８に示すように、収録信号を適宜除外することで評価データ数（同図の四角形の凡例、右軸の数値）が減少するにつれ、音声認識率（同図の三角形の凡例、左軸の数値）が向上していることが分かる。

【0025】

本実施例のＳＮＲ推定装置１によれば、音声認識性能評価のための音声を収録した際に、収録された音声信号（収録信号）に含まれる発話区間内の無音声区間（第１ポーズ）が少ない場合であっても、実態に即したＳＮＲ値を推定することができる。

【0026】

また、収録信号、ＳＮＲ値、音声認識結果を突合することで、収録信号のＳＮＲに対する音声認識性能の変化を確認することができる。

【0027】

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

【0028】

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

【0029】

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

【0030】

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

【0031】

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

【0032】

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

【0033】

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

【0034】

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

【0035】

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【図1】