(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-01
(45)【発行日】2022-12-09
(54)【発明の名称】対象音声検出方法及び装置
(51)【国際特許分類】
G10L 25/84 20130101AFI20221202BHJP
G10L 15/28 20130101ALI20221202BHJP
G10L 25/30 20130101ALI20221202BHJP
【FI】
G10L25/84
G10L15/28 400
G10L25/30
(21)【出願番号】P 2020517383
(86)(22)【出願日】2018-07-16
(86)【国際出願番号】 CN2018095758
(87)【国際公開番号】W WO2019080551
(87)【国際公開日】2019-05-02
【審査請求日】2020-05-18
(31)【優先権主張番号】201710994194.5
(32)【優先日】2017-10-23
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】マー,フォン
(72)【発明者】
【氏名】ワン,ハイクン
(72)【発明者】
【氏名】ワン,チグォ
(72)【発明者】
【氏名】フー,グォピン
【審査官】泉 卓也
(56)【参考文献】
【文献】特許第6480644(JP,B1)
【文献】国際公開第2017/164954(WO,A1)
【文献】特開2014-010438(JP,A)
【文献】Xiong Xiao, et al.,A Study of Learning Based Beamforming Methods for Speech Recognition,Speech Processing in Everyday Environment (CHiME 2016),2016年09月13日
【文献】Yuxuan Wang, et al.,On Training Targets for Supervised Speech Separation,IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,2014年08月28日,Vol. 22, No. 12,pp. 1849-1857
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00 - 25/93
G10L 15/00 - 15/34
(57)【特許請求の範囲】
【請求項1】
マイクロホンアレイに基づき集音した音響信号を受信することと、
フレーム毎に、前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することと、を含み、
前記モデル出力結果に基づき、
現フレームに対応する対象音声の検出結果を取得することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む、ことを特徴とする対象音声検出方法。
【請求項2】
前記対象音声検出モデルは、
前記対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む、
ことを特徴とする請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記した、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む、
ことを特徴とする請求項1に記載の方法。
【請求項7】
受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第1の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、
前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、フレーム毎に、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得し、
前記対象音声検出装置は、入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第2の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する、
ことを特徴とする対象音声検出装置。
【請求項8】
前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、
前記モデル構築モジュールは、
対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデル
のパラメータを取得するトレーニングユニットと、を含む、
ことを特徴とする請求項7に記載の装置。
【請求項9】
前記対象音声検出モデルは分類モデルまたは回帰モデルである、
ことを特徴とする請求項7に記載の装置。
【請求項10】
前記第2の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、を含む、
ことを特徴とする請求項7に記載の装置。
【請求項11】
1つのコンピュータユニットにより、請求項1~6のいずれか1項に記載の人とコンピュータとの相互作用に適用される方法のステップを実行させるコンピュータプログラムコードを記憶する、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項12】
プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に請求項1~6のいずれか1項に記載の方法を前記プロセッサに実行させる、
ことを特徴とする対象音声検出装置。
【請求項13】
端末装置で実行された場合に、請求項1~6のいずれか1項に記載の方法を前記端末装置に実行させる、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は2017年10月23日に中国国家知識産権局へ提出した出願番号201710994194.5、出願名称「対象音声検出方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
【0002】
本出願は、音声信号処理分野に関し、具体的には対象音声検出方法及び装置に関する。
【背景技術】
【0003】
音声は、最も自然かつ便利なインタラクション方式の一つとして、日常生活や仕事において幅広く用いられている。音声符号化や雑音低減などの音声信号処理は、ホットな研究テーマとして関連分野の研究者らに注目されている。音声の雑音低減を例にすると、対象音声を検出することは、雑音を低減するのに最も重要なステップとして、その検出精度が雑音低減効果に直接影響を及ぼしており、対象音声の検出が正確に行われていない場合、雑音低減過程において、有効音声の歪みが深刻なものになるため、対象音声を正確に検出することには重大な意義を持っている。
【0004】
従来の対象音声の検出手法としては、主に以下の2種類が知られている。
【0005】
1.強度差に基づいた対象音声検出
例えば、まず主マイクロホンの信号に対し雑音低減を行い、雑音が低減された主マイクロホンの信号と副マイクロホンの信号との強度差を利用して音声検出を行うか、又は、音声基準信号と雑音基準信号とのエネルギーの差に基づき、対象音声の検出を行う。このような方法は、主マイクロホンで集音した対象信号の強度が副マイクロホンで受信した対象信号の強度よりも大きく、雑音信号の強度が両マイクロホンにおいて同様であるとの仮設に基づくものである。例えば、信号対雑音比が高い場合は主マイクロフホンと副マイクロフホンとのエネルギーの比は1よりも大きく、信号対雑音比が低い場合はそのエネルギーの比は1よりも小さい。
【0006】
このような強度差に基づいた対象音声検出方法には利用上の制限があり、つまり、対象信号から主マイクロホンと副マイクロホンまでに到達する強度差が所定の閾値(例えば3db以上)に達さない限り有効ではない。また、雑音が大きく、信号対雑音比が低い場合には、対象音声の検出確率がやや低い。
【0007】
2.機械学習に基づく対象音声検出
例えば、単一チャンネルの雑音信号を入力とし、理想バイナリマスク(Ideal Binary Mask、IBM)又は理想比マスク(Ideal Ratio Mask、IRM)を出力とした場合には、そ
の出力値は、対象音声が存在することの根拠と考えられる。または、多重チャンネルデータを用い、多重チャンネルを単一チャンネルに合成したものを入力として、さらにマスクを得る。
【0008】
従来の機械学習に基づく対象音声検出方法には、単一チャンネル情報だけでは情報が十分に利用されず、対象音声の検出効果が低い一方、多重チャンネル情報を利用しても、各ニューラルネットワーク(Neural Network)では1つの原信号又は1つの混合信号の処理しか行われず、多重チャンネルの空間情報が十分に利用されず、他の方向からの人間の音声による干渉が雑音に含まれると効果が劇的に低下するといったような問題点がある。
【発明の概要】
【発明が解決しょうとする技術課題】
【0009】
本出願の実施例は対象音声検出装置及び方法を提供し、従来の対象音声検出方法における適用場面上の制限、低い信号対雑音比環境で検出する際、情報利用の不十分による検出効果が不良であるといった1つまたは複数の問題を解決する。
【課題を解決するための手段】
【0010】
従って、本出願は以下の技術案を提供する。
【0011】
マイクロホンアレイに基づき集音した音響信号を受信することと、
前記音響信号をビームフォーミング処理し、方向が異なるビームを取得することと、
前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することと、
抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得することと、
前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得することと、
を含む対象音声検出方法。
【0012】
好ましくは、前記対象音声検出モデルは、
対象音声検出モデルのトポロジー構造を決定し、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングし、
前記トレーニングデータの検出特徴を抽出し、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得することにより構築される。
【0013】
好ましくは、前記対象音声検出モデルは分類モデル又は回帰モデルであり、前記対象音声検出モデルの出力は、現フレームの周波数ごとの理想バイナリマスク又は理想比マスクである。
【0014】
好ましくは、前記検出特徴は、空間次元情報、周波数次元情報、時間次元情報を含む。
【0015】
好ましくは、前記音響信号と前記方向が異なるビームとに基づき検出特徴をフレーム毎に抽出することは、
各フレームの各周波数において、各ビーム信号と、マイクロホンアレイに基づき集音した音響信号とを順次に組み合わせることで、多次元空間ベクトルを取得することと、
前記多次元空間ベクトルの要素ごとにそれぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得することと、
前記空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得することと、を含む。
【0016】
好ましくは、前記方法は、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得することをさらに含み、
前記モデル出力結果に基づき、現フレームが対象音声フレームであるかどうかを判断することは、
前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得することを含む。
【0017】
好ましくは、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得することは、
前記方向が異なるビームから、音声参照信号及び雑音参照信号を取得し、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、
音声参照信号と雑音参照信号とのパワーの比を算出し、
前記パワーの比に基づき、前記強度差に基づいた検出結果を取得することを含む。
【0018】
受信モジュールと、ビームフォーミングモジュールと、検出特徴抽出モジュールと、第1の検出モジュールと、検出結果出力モジュールと、を含む対象音声検出装置において、前記受信モジュールは、マイクロホンアレイに基づき集音した音響信号を受信し、前記ビームフォーミングモジュールへ出力し、
前記ビームフォーミングモジュールは、入力された前記音響信号をビームフォーミング処理し、方向が異なるビームを取得し、
前記検出特徴抽出モジュールは、その入力がそれぞれ前記受信モジュール及び前記ビームフォーミングモジュールの出力に接続され、前記音響信号と前記方向が異なるビームとに基づき、検出特徴をフレーム毎に抽出し、抽出した検出特徴を前記第1の検出モジュールへ出力し、
前記第1の検出モジュールは、前記検出特徴抽出モジュールにより抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得し、前記モデル出力結果を前記検出結果出力モジュールに送信し、
前記検出結果出力モジュールは、前記モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
【0019】
好ましくは、前記対象音声検出モデルを構築するモデル構築モジュールをさらに含み、前記モデル構築モジュールは、
前記対象音声検出モデルのトポロジー構造を決定する構造設計ユニットと、
クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、前記トレーニングデータに対し対象音声情報をラベリングするトレーニングデータ処理ユニットと、
前記トレーニングデータの検出特徴を抽出する特徴抽出ユニットと、
前記検出特徴及びラベリング情報に基づき、トレーニングして前記対象音声検出モデルのパラメータを取得するトレーニングユニットと、を含む、
【0020】
好ましくは、前記対象音声検出モデルは分類モデルまたは回帰モデルである。
【0021】
好ましくは、入力が前記ビームフォーミングモジュールの出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取得し、かつ、前記強度差に基づいた検出結果を前記検出結果出力モジュールに送信する第2の検出モジュールをさらに含み、
前記検出結果出力モジュールは、前記強度差に基づいた検出結果と前記モデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。
【0022】
好ましくは、前記第2の検出モジュールは、
前記方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニットと、
前記音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニットと、
前記パワーの比から、前記強度差に基づいた検出結果を取得する結果検出ユニットと、
を含む。
【0023】
1つのコンピュータユニットにより、前述のいずれかに記載の対象音声検出方法のステップを実行させるコンピュータプログラムコードを記憶するコンピュータ読み取り可能な
記憶媒体。
【0024】
プロセッサ、メモリ、システムバスを含む対象音声検出装置において、
前記プロセッサと前記メモリとが、前記システムバスを介して接続され、
前記メモリには、命令を含む一つまたは複数のプログラムが記憶され、前記命令が前記プロセッサによって実行された場合に前述のいずれかに記載の対象音声検出方法を前記プロセッサに実行させる。
【0025】
端末装置で実行された場合に、前述のいずれかに記載の対象音声検出方法を前記端末装置に実行させることを特徴とするコンピュータプログラム製品
【発明の効果】
【0026】
本出願の実施例で提供される対象音声検出方法及び装置は、マイクロホンアレイに基づき集音した音声信号を受信し、前記音声信号をビームフォーミング処理し方向が異なるビームを取得し、前記音声信号と前記方向が異なるビームとに基づいて検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
【0027】
そして、強度差に基づいた検出結果をさらに合わせ、すなわち、強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得することにより、検出結果の正確性をさらに向上する。
【図面の簡単な説明】
【0028】
本出願の実施例又は従来技術の技術解決案をより明確に説明するためには、以下、実施例に使用される図面を簡単に説明する。明らかに、下記の図面は、本出願に記載される実施例の一部に過ぎず、当業者であれば、これらの図面から他の図面を得ることができる。
【
図1】本出願の実施例における対象音声検出方法のフローチャートである。
【
図2】本出願の実施例における対象音声検出モデルの構築フローチャートである。
【
図3】本出願の実施例における対象音声検出方法のもう一つのフローチャートである。
【
図4】本出願の実施例における対象音声検出装置の構造模式図である。
【
図5】本出願の実施例におけるモデル構築モジュールの模式図である。
【
図6】本出願の実施例における対象音声検出装置のもう一つの構造模式図である。
【発明を実施するための形態】
【0029】
当業者が本出願の実施例の解決案をよりよく理解するため、以下の図面及び実施形態を合わせて本出願の実施例を詳細に説明する。
【0030】
図1は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。
【0031】
ステップ101:マイクロホンアレイに基づき集音した音声信号を受信する。
実際の応用上では、音声信号は集音された後、さらに前処理することが必要である。
M個のマイクロホンを備えるマイクロホンアレイによる音声信号の受信を例にすると、集音された信号はそれぞれ、X
1(t)、X
2(t)・・・X
M(t)である。
前処理とは、主に、受信した音声信号を時間領域から周波数領域に変換し、周波数領域信号
を取得することをいう。その中で、kは信号の周波数(0,1,・・・,K)、lはフレーム番号を表す。
【0032】
ステップ102:音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
ビームフォーミングとしては、従来技術を用いることができ、例えば、方向推定に基づく適応アルゴリズムや信号構成に基づくビームフォーミング方法などが挙げられるが、これについて、本出願の実施例では限定しない。ビームフォーミングアルゴリズムについては、マイクロホンアレイはそのゲインが空間領域内のある方向に対し高くなる一方、他の方向に対し低くなり、あたかも一方向に向くビームを形成するように主にマイクロホンアレイで集音した信号を処理する。
【0033】
M個のマイクロホンにより、メインローブ分布のN個の異なる方向に向くビームが形成され、ビームフォーマにより、N個の方向のビームが得られる。
【数1】
その中、W
n(k,l)が、第nの方向に向いた第kの周波数帯域におけるビームフォー
マの係数を表し、異なるビームフォーミング方法によって決定される。
【0034】
ステップ103:音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は以下のとおりである。
【0035】
を予め設定された目的方向の出力信号とし、
を非目的方向の出力信号とする。
【0036】
1.空間次元情報V
1(k,l)
具体的には、各フレームの各周波数において、得られた各ビーム信号とマイクロホンアレイで集音した音声信号とを順次組み合わせ、多次元空間ベクトルを得る。例えば、M個のマイクロホンにより、メインローブ分布のN個の異なる方向に向くビームを形成し、各フレームの各周波数においてN個のビーム信号とM個のマイクロホン信号とを(M+N)次元空間ベクトルV
1(k,l)に組み合わせる。
【数2】
説明すべき点については、実際の応用上では、目的方向の信号
、他の方向の信号
、マイクロホンで集音した音声信号に対する組み合わせの順序は制限されない。
【0037】
2.周波数次元情報
まず、上記多次元空間ベクトルの要素ごとに、それぞれモジュロ演算を行い、さらに、各フレームの全ての周波数におけるモジュロを組み合わせることで、空間情報を含む多次元周波数ベクトルを取得する。例えば、上記V
1(k,l)の要素ごとに、それぞれMD(k,l)=f(V
1(k,l))(その中、f(x)=|x|
2)で表すモジュロ演算を行い、
さらに、第lフレームの全ての周波数におけるモジュロMD(k,l)を組み合わせること
で、(M+N)*K次元周波数ベクトルを取得する。
【数3】
【0038】
3.時間次元情報
空間情報を含む多次元周波数ベクトルをフレーム拡張することで、空間情報および周波数情報を含む多次元時間ベクトルを取得する。例えば、上記V
2(l)をフレーム拡張し、前後においてそれぞれPフレームを拡張することで、(M+N)*K*2P次元の時間次元
情報を取得する。
【数4】
【0039】
ステップ104:抽出された現フレームの検出特徴を、予め構築された対象音声検出モデルに入力し、モデル出力結果を取得する。
すなわち、上記現フレームlに対応する空間次元、周波数次元及び時間次元を考慮した検出特徴V3(l)を、予め構築された対象音声検出モデルに入力し、現フレームlの各周波数kの理想バイナリマスク(IBM、Ideal Binary Mask)又は理想比マスク(IRM
、Ideal Ratio Mask)として出力する。IRMとしての出力を例にすると、モデルの出力がImodel(k,l)と定義してよい。
【0040】
対象音声検出モデルとしては分類モデル又は回帰モデルが挙げられるが、IRMとして出力する場合は回帰モデルとなり、さもなければ分類モデルとなる。
【0041】
対象音声検出モデルとしては、ディープニューラルネットワーク(DNN)、再帰型ニューラルネットワーク(RNN)などのニューラルネットワークモデルが具体的に使用される。
【0042】
ステップ105:モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
モデル出力結果としては、IBM又はIRMが挙げられる。モデル出力がIBMである場合には、現フレームが対象音声フレームであるかどうかを当該出力に基づき直ちに判断することができる。モデル出力がIRMである場合には、さらに設定された閾値に基づき判断する必要があり、当該閾値を超える場合は対象音声フレームと判断され、さもなければ非対象音声フレームと判断される。モデル出力のIRMを直接、対応する検出結果とすることも無論可能である。
【0043】
上記対象音声検出モデルの構築フローは、
図2に示すように、以下のステップを含む。
【0044】
ステップ201:対象音声検出モデルのトポロジー構造を決定する。
前述にも言及したように、対象音声検出モデルとして、分類モデルまたは回帰モデルが挙げられるが、本出願の実施例では限定しない。
【0045】
ステップ202:クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。
クリーン音声には、対象音声を含む。
【0046】
ステップ203:トレーニングデータの検出特徴を抽出する。
検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法は前述のとおりである。
【0047】
ステップ204:検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。
【0048】
本出願の実施例で提供される対象音声検出方法では、マイクロホンアレイに基づき音声信号を集音し、音声信号をビームフォーミング処理し方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声の検出正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
【0049】
対象音声の検出結果の精度をさらに高めるために、本出願における方法のもう一つの実施例においては、強度差及び検出モデルに基づいた2つの検出方法結果の対象音声検出方法をさらに提供する。
【0050】
図3は、本出願の実施例における対象音声検出方法のフローチャートであり、以下のステップを含む。
【0051】
ステップ301:マイクロホンアレイに基づき、集音した音声信号を受信する。
【0052】
ステップ302:音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
【0053】
ステップ303:強度差に基づき、対象音声の検出を実行し、強度差に基づいた検出結果を取得する。
【0054】
具体的には、まず、方向が異なるビームから音声参照信号及び雑音参照信号を取得する。次は、音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、かつ音声参照信号と雑音参照信号とのパワーの比を算出する。最後に、パワーの比に基づき、強度差に基づいた検出結果を取得する。
【0055】
仮に音声参照信号をFに、雑音参照信号をUにすれば、そのエネルギー比は下式で定義される。
【数5】
【0056】
その中、P
F(k,l)、P
U(k,l)はそれぞれ、音声参照信号、雑音参照信号のパワー推定値であり、パワー推定は1次の再帰法により行う。
【数6】
【0057】
その中で、XF(k,l)は音声参照信号、すなわち、メインローブの方向を目的方向
に向けてビームフォーミングした信号であり、対象音声に向けてメインローブ方向を固定するビームフォーミングアルゴリズムにより得られる。これらのアルゴリズムとしては、遅延和ビームフォーミング(Delay and Sumbeamforming)、定ビーム幅ビームフォーマ(Constant Beam-widthbeam‐former)、スーパゲインビームフォーミング(Super‐Gainbeamforming)などが挙げられる。
【0058】
X
U(k,l)は雑音参照信号、すなわち、ヌル点の方向を目的方向に向けてビームフ
ォーミングした信号であり、適応ブロッキング行列により取得することができる。雑音参照信号は、例えば、周波数領域正規化最小平均二乗(NLMS)適応法によりフィルター更新を行うことで得られる。
【数7】
【0059】
その中、W
N(k,l)は適応ブロッキング行列の係数で、αは一定の学習ステップサ
イズであり、例えば、このステップサイズを0.05としてよい。上付きの*は複素共役
を表し、δは小さい正数であり、例えば、δを0.001としてよい。I
ratio(k,l)は現在の周波数における対象音声の検出結果である。
【数8】
【0060】
その中、閾値th1及びth2は多くの実験及び/又は経験を踏まえて得られるものである。例えば、th2を2、th1を0.5としてよい。
【0061】
説明すべき点については、1つの閾値thを設けてもよい。Iratio(k,l)が
当該閾値thを超える場合、現フレームは対象音声フレームであると判断し、さもなければ現フレームは非対象音声フレームであると判断する。
【0062】
ステップ304:検出モデルに基づき対象音声の検出を行い、モデルに基づいた検出結果を取得する。
検出モデルに基づいた対象音声の検出は、上述した
図1のステップ103~ステップ104を参照し、ここでは繰り返さない。
【0063】
ステップ305:強度差に基づいた検出結果とモデルに基づいた検出結果とを統合して、現フレームに対応する対象音声の検出結果を取得する。
【0064】
具体的には、I
model(k,l)及びI
ratio(k,l)に基づき、協同的に判断を行う。音声雑音対策うちの適応雑音除去(ANC、Adaptive Noise Cancellation)
を例とし、対象音声の有無を以下の通り判断する。
【数9】
【0065】
その中、閾値th3、th4、th5及びth6は多くの実験及び/又は経験を踏まえて得られるものである。例えば、th3を0.5、th4を0.5、th5を0.25、th6を0.25としてよい。
【0066】
説明すべき点については、対象音声検出モデルとして分類モデルを用い、かつ、強度差に基づいた検出結果も0又は1の二値データとなる場合、両方式の検出結果を統合する際
に、論理「AND」もしくは論理「OR」の統合方式を用いることができる。もちろん、実際の適用上においては、他の統合方式を採用することもでき、本出願の実施例では限定しない。
【0067】
説明すべき点については、上記ステップ303とステップ304とは、それぞれ異なる方法による対象音声検出プロセスであり、独立して行われ、かつ時間的前後関係はないため、並行に実行しても、いずれかのステップを先行に実行してもよい。
【0068】
このように、本出願の実施例における対象音声検出方法では、信号対雑音比の低い環境下でも正確な検出結果を取得するのみならず、強度差に基づいた検出結果を合わせることができるため、検出結果の正確性をさらに高めた。
【0069】
本出願の実施例においてコンピュータ読み取り可能な記録媒体を提供し、コンピュータプログラムコードを記憶し、コンピュータプログラムコードは1つのコンピュータユニットにて実行され、コンピュータユニットに本出願の対象音声検出実施例における各ステップを実行させる。
【0070】
対象音声検出装置であって、プロセッサ、メモリ、システムバスを含む。
【0071】
プロセッサ及びメモリは、システムバスを介して接続される。
【0072】
メモリは、1つ又は複数のプログラムを記憶し、1つ又は複数のプログラムは命令を含み、命令はプロセッサで実行される場合に、プロセッサに本出願の対象音声検出実施例における各ステップを実行させる。
【0073】
コンピュータプログラム製品であって、コンピュータプログラム製品が端末装置で実行される時、端末装置に本出願の対象音声検出実施例における各ステップを実行させることを特徴とする。
【0074】
本出願の実施例においては、さらに、対象音声検出装置を提供する。
図4に示すように、当該装置の構造模式図である。
【0075】
当該実施例において、当該装置は、受信モジュール401と、ビームフォーミングモジュール402と、検出特徴抽出モジュール403と、第1の検出モジュール404と、検出結果出力モジュール405と、を含む。
【0076】
ここで、受信モジュール401は、マイクロホンアレイに基づき集音した音声信号を受信し、それをビームフォーミングモジュール402へ出力する。
【0077】
ビームフォーミングモジュール402は、入力された音声信号をビームフォーミング処理し、方向が異なるビームを取得する。
【0078】
検出特徴抽出モジュール403は、その入力がそれぞれ受信モジュール401及びビームフォーミングモジュール402の出力に接続され、音声信号と方向が異なるビームとに基づき、フレーム毎に検出特徴を抽出し、抽出した検出特徴を第1の検出モジュール404へ出力する
【0079】
第1の検出モジュール404は、検出特徴抽出モジュール403により抽出された現フレームの検出特徴を予め構築された対象音声検出モデル400に入力し、取得したモデル出力結果を、検出結果出力モジュール405に送信する。
【0080】
検出結果出力モジュール405は、モデル出力結果に基づき、現フレームに対応する対象音声の検出結果を取得する。
【0081】
説明すべき点については、上記受信モジュール401は、音声信号の集音後、音声信号に対し前処理を行う必要がある。前処理とは受信した音声信号を時間領域から周波数領域に変換し、周波数信号を取得することである。
【0082】
上記検出特徴抽出モジュール403により抽出された検出特徴は、空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照にすることができるため、ここでは繰り返さない。
【0083】
上記対象音声検出モデル400としては分類モデル又は回帰モデルが挙げられるが、具体的には、対応するモデル構築モジュールで予め構築することができる。モデル構築モジュールについては、本出願における装置の一部であってもよく、本出願における装置と独立するものであってもよく、本出願の実施例では限定しない。
【0084】
図5は、本出願の実施例におけるモデル構築モジュールの構造を示し、この構造は以下の各ユニットを含む。
【0085】
構造設計ユニット51は、対象音声検出モデルのトポロジー構造を決定する。
【0086】
トレーニングデータ処理ユニット52は、クリーン音声及び擬似雑音を用いてトレーニングデータを生成させ、トレーニングデータに対し対象音声情報をラベリングする。
【0087】
特徴抽出ユニット53は、トレーニングデータの検出特徴を抽出する。
【0088】
トレーニングユニット54は、検出特徴及びラベリング情報に基づき、トレーニングして対象音声検出モデルのパラメータを取得する。
【0089】
説明すべき点については、対象音声検出モデルの構築過程において、特徴抽出ユニット53で抽出される検出特徴も空間次元情報、周波数次元情報及び時間次元情報を考慮した総合的情報であり、その具体的な抽出方法については、前述本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。
【0090】
本出願の実施例で提供される対象音声検出装置は、マイクロホンアレイに基づき、音声信号を集音し、音声信号をビームフォーミング処理し、方向が異なるビームを取得し、音声信号と方向が異なるビームとに基づき検出特徴をフレーム毎に抽出し、予め構築された対象音声検出モデル及び多重チャンネルの情報を利用し対象音声を検出することにより、対象音声検出の正確性を効果的に高めるのみならず、適用場面が制限されるという問題もなく、信号対雑音比の低い環境でも正確な検出結果を取得することができる。
【0091】
図6は、本出願の実施例における対象音声検出装置のもう一つの構造模式図である。
【0092】
当該実施例において、
図5に示された実施例と異なる点としては、当該装置にはさらに、第2の検出モジュール406を含む。
【0093】
第2の検出モジュール406は、その入力がビームフォーミングモジュール402の出力に接続され、強度差に基づき対象音声の検出を実行し、強度差に基づいた検出結果を取
得し、かつ、強度差に基づいた検出結果を検出結果出力モジュール405に送信する。
【0094】
第2の検出モジュール406は、具体的に、以下の各ユニットを含んでよい。
【0095】
方向が異なるビームから音声参照信号及び雑音参照信号を取得する参照信号取得ユニット。
【0096】
音声参照信号及び雑音参照信号のパワーをそれぞれ算出し、音声参照信号と雑音参照信号とのパワーの比を算出する算出ユニット。
【0097】
パワーの比から、強度差に基づいた検出結果を取得する結果検出ユニット。
【0098】
従って、当該実施例において、検出結果出力モジュール405は、強度差に基づいた検出結果とモデル出力結果とを統合し、現フレームに対応する対象音声の検出結果を取得する。その具体的な統合方法については、前述の本出願の実施例に記載した説明を参照することができるため、ここでは繰り返さない。
【0099】
本出願の実施例における対象音声検出装置は、モデルと強度差のそれぞれに基づく方法により対象音声の検出を行う上で、この2つの異なる方法による検出結果を総合的に評価することにより、得られる検出結果をより正確にすることができる。
【0100】
本明細書の各実施例はプログレッシブな方式で記載し、各実施例間の同一または類似する部分は互いに参照でき、各実施例はその他の実施例との相違点について重点を置いて記載される。また、以上のように記載される装置の実施例は例示的なものであり、ここで、分割部品として述べられたユニットは物理的な分割であってもよく、そうでなくてもよい。ユニットとして示される部品は物理的なユニットであってもよく、そうでなくてもよい。また、1つの箇所に位置するか、複数のネットワークユニットに分散する場合がある。
実際のニーズに応じて、その一部又は全部のモジュールを選択して、本実施例の解決案の目的を果たすことができる。当業者であれば、創造的な労働をせずに容易に理解して実施することができる。
【0101】
以上、本出願の実施例を詳細に説明し、本文では具体的な実施形態を用いて本出願を説明し、以上の実施例の説明は本出願を理解するための方法及び装置である。また、当業者にとっては、本出願のアイデアに基づき具体的な実施形態及び応用範囲を変更することができ、以上のことから、本明細書の内容は本出願への制限と理解すべきではない。