特許第6802145号(P6802145)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6802145SNR推定装置、SNR推定方法、プログラム
<>
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000003
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000004
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000005
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000006
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000007
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000008
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000009
  • 特許6802145-SNR推定装置、SNR推定方法、プログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6802145
(24)【登録日】2020年11月30日
(45)【発行日】2020年12月16日
(54)【発明の名称】SNR推定装置、SNR推定方法、プログラム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20201207BHJP
【FI】
   G10L25/51
【請求項の数】4
【全頁数】9
(21)【出願番号】特願2017-251645(P2017-251645)
(22)【出願日】2017年12月27日
(65)【公開番号】特開2019-117317(P2019-117317A)
(43)【公開日】2019年7月18日
【審査請求日】2020年2月7日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】伊藤 弘章
(72)【発明者】
【氏名】齊藤 翔一郎
(72)【発明者】
【氏名】原田 登
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2013−62609(JP,A)
【文献】 特表2002−527785(JP,A)
【文献】 Voice enhancement devices Amendment 2: Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms,Recommendation ITU-T G.160 (2008) Amendment 2,2011年 3月11日
【文献】 齊藤翔一郎 他,"局所PSD推定を利用した高騒音環境用雑音抑圧マイクロホンの実装",日本音響学会2016年秋季研究発表会講演論文集CD-ROM,2016年 9月16日,pp.519-520
【文献】 SAITO, Shoichiro et al.,"Noise suppressing microphone array for highly noisy environments using power spectrum density estimation in beamspace",Proc. of 2017 IEEE International Conference on Consumer Electronics (ICCE),2017年 1月 8日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−25/93
H04R 3/00,29/00
(57)【特許請求の範囲】
【請求項1】
スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定装置であって、
前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出部と、
前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第1ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する無音声区間分類部と、
前記クリーン音声信号に前記第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第1ポーズフレーム数判定部と、
前記第1ポーズのフレームが所定のフレーム数以上存在する場合に、前記第1ポーズに基づいて前記収録信号のSNRを算出し、前記第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第2ポーズに基づいて前記収録信号の前記SNRを算出するSNR算出部を含む
SNR推定装置。
【請求項2】
請求項1に記載のSNR推定装置であって、
前記無音声区間分類部は、
前記サイレントのうち、前記音声区間に隣接するフレームを含む所定の区間を前記第2ポーズに分類する
SNR推定装置。
【請求項3】
スピーカーから再生される前の信号であるクリーン音声信号と、前記クリーン音声信号を前記スピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定方法であって、
前記クリーン音声信号の音声区間と無音声区間を検出する音声区間検出ステップと、
前記無音声区間を、前記音声区間に挟まれた前記無音声区間である第1ポーズ、それ以外の前記無音声区間であるサイレントの何れかに分類し、前記サイレントのうち、前記クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する無音声区間分類ステップと、
前記クリーン音声信号に前記第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する第1ポーズフレーム数判定ステップと、
前記第1ポーズのフレームが所定のフレーム数以上存在する場合に、前記第1ポーズに基づいて前記収録信号のSNRを算出し、前記第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも前記第2ポーズに基づいて前記収録信号の前記SNRを算出するSNR算出ステップを含む
SNR推定方法。
【請求項4】
コンピュータを請求項1または2に記載のSNR推定装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクデバイスで収録された信号のSNRを推定するSNR推定装置、SNR推定方法、プログラムに関する。
【背景技術】
【0002】
マイクデバイスの性能評価において、しばしばスピーカで再生された音声をマイクデバイスで収録したデータを評価試験に用いることがある。このような場合、収録されたデータが実利用環境では想定しないようなデータになっていないか確認することは、評価試験の妥当性を担保する上で重要である。
【0003】
従来は、例えばITU−T G.160(非特許文献1)で定義されるSNRの値を用いて収録データのSNRを推定し、評価用データを選定する、という方法が知られている。
【0004】
従来技術では、図1に示すように無音声区間をポーズとサイレントの2種類に分類し、発話区間内の無音声区間(ポーズ)を用いて、雑音のパワーを算出し、発話区間内の音声区間を用いて音声のパワーを計算し、SNR値を求めている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】International Telecommunication Union, " G.160 : Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms", [online], International Telecommunication Union, [平成 29年 12月 19日検索]、インターネット〈URL:https://www.itu.int/rec/T-REC-G.160-201103-S!Amd2/en〉
【発明の概要】
【発明が解決しようとする課題】
【0006】
音声認識性能評価のために用意されたデータセットの場合、1つの音声データに含まれる発話が1単語のみ(例えば「おはよう」のみ)の場合など、極端に短い場合が考えられる。このような音声では、図2に示すように、発話区間内の短時間無音声区間(ポーズ)が全く存在しないか、あるいは十分な長さ存在しないため、ポーズを用いてSNR値を算出することができない。
【0007】
また、発話区間内の無音声区間(ポーズ)が算出できない場合に、発話区間外の全区間を短時間無音区間として割り当ててSNRを算出する方法が考えられるが、割り当てられた無音声区間に雑音パワーが小さい区間と大きい区間が混ざっていると、実態のSNR値からの推定誤差が大きくなってしまう。
【0008】
そこで本発明では、発話区間内の無音声区間(ポーズ)が少ない場合であっても、マイクデバイスで収録された信号のSNRを推定することができるSNR推定装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明のSNR推定装置は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を用いるSNR推定装置である。
【0010】
SNR推定装置は、音声区間検出部と、無音声区間分類部と、第1ポーズフレーム数判定部と、SNR算出部を含む。
【0011】
音声区間検出部は、クリーン音声信号の音声区間と無音声区間を検出する。無音声区間分類部は、無音声区間を、音声区間に挟まれた無音声区間である第1ポーズ、それ以外の無音声区間であるサイレントの何れかに分類し、サイレントのうち、クリーン音声信号の最初のフレームと最後のフレームに該当するフレームを除く所定の区間を第2ポーズに分類する。第1ポーズフレーム数判定部は、クリーン音声信号に第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する。SNR算出部は、第1ポーズのフレームが所定のフレーム数以上存在する場合に、第1ポーズに基づいて収録信号のSNRを算出し、第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第2ポーズに基づいて収録信号のSNRを算出する。
【発明の効果】
【0012】
本発明のSNR推定装置によれば、発話区間内の無音声区間(ポーズ)が少ない場合であっても、マイクデバイスで収録された信号のSNRを推定することができる。
【図面の簡単な説明】
【0013】
図1】音声信号の例と従来技術における無音声区間の分類例を示す図。
図2】十分なフレーム数のポーズが存在しない場合の音声信号の例を示す図。
図3】実施例1のSNR推定装置の構成を示すブロック図。
図4】実施例1のSNR推定装置の動作を示すフローチャート。
図5】第2ポーズの区間を決定する方法の具体例その1を示す図。
図6】第2ポーズの区間を決定する方法の具体例その2を示す図。
図7】収録信号のSNR値の分布の例を示すグラフ。
図8】実利用環境に則さないSNRとなる収録信号を除去した場合の音声認識率の変化の例を示すグラフ。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0015】
実施例1のSNR推定装置1は、スピーカーから再生される前の信号であるクリーン音声信号と、クリーン音声信号をスピーカーで再生してマイクロホンで収録した信号である収録信号を対応させて用いることで、収録信号のSNRを算出(推定)する装置である。
【0016】
以下、図3を参照して本実施例のSNR推定装置1の構成を説明する。同図に示すように、本実施例のSNR推定装置1は、音声区間検出部11と、無音声区間分類部12と、第1ポーズフレーム数判定部13と、SNR算出部14を含む。以下、図4を参照して、各部の動作について説明する。
【0017】
<音声区間検出部11>
音声区間検出部11は、クリーン音声信号を受信し、クリーン音声信号の音声区間と無音声区間を検出する(S11、図5参照)。例えば、音声区間検出部11は、クリーン音声信号の各フレームのパワーを算出し、予め規定されたしきい値を元に、各フレームを無音、パワー小、パワー中、パワー大に分類し、無音と分類されたフレーム(複数フレーム連続している場合にはその区間)を無音声区間とし、それ以外のフレーム(複数フレーム連続している場合にはその区間)を音声区間として検出してもよい。
【0018】
<無音声区間分類部12>
無音声区間分類部12は、ステップS11における検出結果を取得し、無音声区間を、音声区間に挟まれた無音声区間(別の表現では、発話区間内の短時間無音声区間)である第1ポーズ、それ以外の無音声区間であるサイレントの何れかに分類する(S12、図5参照)。さらに、無音声区間分類部12はサイレントと分類されたフレームのうち、所定の区間(例えば、発話区間の直前直後の数十ミリ秒、数十フレームの区間、図5図6におけるドットハッチングの区間)を第2ポーズと分類する(S12)。
【0019】
例えば、第2ポーズは、クリーン音声信号の最初のフレームと最後のフレーム(図5における斜線ハッチングを参照)に該当するフレームを除く所定の区間としてもよい。また第2ポーズは、サイレントのうち、音声区間に隣接するフレーム(別の表現では、発話区間の直前と直後で発話区間に隣接するフレーム、図6における斜線ハッチングを参照)を含む所定の区間としてもよい。
【0020】
<第1ポーズフレーム数判定部13>
第1ポーズフレーム数判定部13は、ステップS12における分類結果を取得し、クリーン音声信号に第1ポーズのフレームが所定のフレーム数以上存在するか否かを判定する(S13)。具体的には、第1ポーズフレーム数判定部13は、第1ポーズがG.160に規定されるフレーム数以上存在するか否かを判定する。
【0021】
<SNR算出部14>
SNR算出部14は、ステップS11における検出結果、ステップS12における分類結果、ステップS13における判定結果を取得し、第1ポーズのフレームが所定のフレーム数以上存在する場合に、第1ポーズに基づいて収録信号のSNRを算出し、第1ポーズのフレームが所定のフレーム数以上存在しない場合に、少なくとも第2ポーズに基づいて収録信号のSNRを算出する(S14)。
【0022】
第1ポーズのフレームが所定のフレーム数以上存在しない場合、SNR算出部14は、SNRの値を下式により求める。なおx(n)は収録信号、nはフレームインデックス、Nは第1ポーズの区間数の判定しきい値、speech,pause,pauseは、フレームの分類情報を示し、それぞれ、音声、第1ポーズ、第2ポーズを表す。
【0023】
【数1】
【0024】
図7図8を参照して、本実施例のSNR推定装置1によりSNRを推定し、実利用環境に則さないSNRとなった収録信号を除外して音声認識を行った場合の音声認識率の変化について説明する。本実施例のSNR推定装置1によりリビング雑音環境下において収録信号のSNRを推定したところ、図7のようにそのSNR分布を得ることができた。同図の左側に寄っている分布は実利用環境に則さないSNR値となっているため、該当する収録信号をSNRに対するしきい値を適宜変更しながら除外したところ、図8に示すように、収録信号を適宜除外することで評価データ数(同図の四角形の凡例、右軸の数値)が減少するにつれ、音声認識率(同図の三角形の凡例、左軸の数値)が向上していることが分かる。
【0025】
本実施例のSNR推定装置1によれば、音声認識性能評価のための音声を収録した際に、収録された音声信号(収録信号)に含まれる発話区間内の無音声区間(第1ポーズ)が少ない場合であっても、実態に即したSNR値を推定することができる。
【0026】
また、収録信号、SNR値、音声認識結果を突合することで、収録信号のSNRに対する音声認識性能の変化を確認することができる。
【0027】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0028】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0029】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0030】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0031】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0032】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0033】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0034】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0035】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8