IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

<>
  • 特開-オーディオ処理方法及び装置 図1A
  • 特開-オーディオ処理方法及び装置 図1B
  • 特開-オーディオ処理方法及び装置 図2
  • 特開-オーディオ処理方法及び装置 図3
  • 特開-オーディオ処理方法及び装置 図4A
  • 特開-オーディオ処理方法及び装置 図4B
  • 特開-オーディオ処理方法及び装置 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023157845
(43)【公開日】2023-10-26
(54)【発明の名称】オーディオ処理方法及び装置
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20231019BHJP
   G10L 15/20 20060101ALI20231019BHJP
【FI】
G10L21/0208 100Z
G10L15/20 370Z
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023028408
(22)【出願日】2023-02-27
(31)【優先権主張番号】2205590.9
(32)【優先日】2022-04-14
(33)【優先権主張国・地域又は機関】GB
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】チューダー‐カタリン ゾリラ
(72)【発明者】
【氏名】ラマ サナンド ドディパトラ
(57)【要約】      (修正有)
【課題】雑音のある状況での音声認識装置(ASR)の精度を、歪んだデータでの音響モデルの再トレーニングを必要としない話者強調戦略を使用することによって高めるオーディオ処理方法及び装置を提供する。
【解決手段】オーディオ信号のターゲット成分を強調するために、オーディオ信号を処理する方法であって、第1の環境におけるターゲット成分を備える第1のオーディオ信号Aを受け取ることと、第2のオーディオ信号Bを抽出するために、第1のオーディオ信号Aを処理することと、第2のオーディオ信号Bは、第2の環境におけるターゲット成分を備え、第2の環境は、第1の環境より雑音が少なく、第3のオーディオ信号Cを生成するために、第1のオーディオ信号Aを第2のオーディオ信号Bと混合することと、第3のオーディオ信号Cは、抽出されたターゲット成分を備える、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
オーディオ信号のターゲット成分を強調するために前記オーディオ信号を処理するための方法であって、
第1の環境における前記ターゲット成分を備える第1のオーディオ信号を受け取ることと、
第2のオーディオ信号を抽出するために、前記第1のオーディオ信号を処理することと、前記第2のオーディオ信号は、第2の環境における前記ターゲット成分を備え、前記第2の環境は、前記第1の環境より雑音が少なく、
第3のオーディオ信号を生成するために、前記第1のオーディオ信号を前記第2のオーディオ信号と混合することと、前記第3のオーディオ信号は、抽出された前記ターゲット成分を備える、
を備える、方法。
【請求項2】
前記第1のオーディオ信号は、ターゲット話者からの音声を備え、前記ターゲット成分は、前記ターゲット話者からの音声である、請求項1に記載の方法。
【請求項3】
前記第3のオーディオ信号は、音声認識装置(ASR)に与えられ、テキストが、前記ASRによって、前記第3のオーディオ信号において識別される、請求項2に記載の方法。
【請求項4】
前記第2の環境における前記雑音は、前記ターゲット話者以外の話者によるものである、請求項2に記載の方法。
【請求項5】
音声エクストラクタが、前記第1のオーディオ信号から前記第2のオーディオ信号を抽出するために使用され、前記音声エクストラクタは、前記オーディオ信号における時間領域の歪み又は周波数領域の歪みを表す項と、前記オーディオ信号の了解度を表す項との組合せである損失関数を使用してトレーニングされている、請求項2に記載の方法。
【請求項6】
前記オーディオ信号の了解度を表す前記項は、短期客観的了解度(STOI)尺度である、請求項5に記載の方法。
【請求項7】
前記オーディオ信号における前記時間領域の歪み又は周波数領域の歪みを表す前記項は、スケールが不変の信号対歪み比(SISDR)である、請求項5に記載の方法。
【請求項8】
前記第2のオーディオ信号を抽出するために、前記第1のオーディオ信号を処理することは、音声エクストラクタを使用することを備え、前記音声エクストラクタは、前記第1のオーディオ信号と、前記ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、前記音声エクストラクタは、前記第2のオーディオ信号を抽出するために、前記第1のオーディオ信号の一部を取り除くためのマスクを生成するように構成されている、請求項2に記載の方法。
【請求項9】
前記第1のオーディオ信号は、時間領域信号である、請求項8に記載の方法。
【請求項10】
前記第1のオーディオ信号は、前記第1のオーディオ信号をより高次元の信号に変換するように構成されたトレーニング可能な畳み込みネットワークであるスペクトルエンコーダによって処理される、請求項9に記載の方法。
【請求項11】
前記音声エクストラクタは、スペクトル入力信号の時間的な畳み込みが行われることを可能にする複数の深さ方向の畳み込み層を備える、請求項10に記載の方法。
【請求項12】
前記第1のオーディオ信号は、シングルチャネルオーディオ信号である、請求項1に記載の方法。
【請求項13】
前記第1のオーディオ信号及び前記第2のオーディオ信号は、第3のオーディオ信号を、
z(n)=s′(n)+αy(n)
として形成するように混合され、ここで、z(n)は、前記第3のオーディオ信号を表し、s′(n)は、前記第2のオーディオ信号を表し、y(n)は、前記第1のオーディオ信号を表し、αは、前記第1のオーディオ信号のための乗算係数である、請求項1に記載の方法。
【請求項14】
前記乗算係数は、スカラ係数σ、即ち、
【数1】
によって制御される、請求項13に記載の方法。
【請求項15】
σは、0以上30以下である、請求項14に記載の方法。
【請求項16】
音声処理装置をトレーニングする方法であって、前記音声処理装置は、ターゲット話者の音声を強調するために、音声信号を処理するためのものであり、前記装置は、
第1の環境における前記ターゲット話者からの音声を備える第1の音声信号を受け取るための入力モジュールと、
第2の音声信号を抽出するために、前記第1の音声信号を処理するように構成された音声エクストラクタと、前記第2の音声信号は、第2の環境における前記ターゲット話者からの音声を備え、前記第2の環境は、前記第1の環境より雑音が少なく、前記音声エクストラクタは、前記第1の音声信号と、前記ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、前記音声エクストラクタは、前記第2の音声信号を抽出するために、前記第1の音声信号の一部を取り除くためのマスクを生成するように構成されており、
第3の音声信号を生成するために、前記第1の音声信号を前記第2の音声信号と組み合わせるためのミキサと、前記第3の音声信号は、前記ターゲット話者からの抽出された前記音声を備える、
を備え、前記方法は、
トレーニングデータセットを受け取ることと、前記トレーニングデータセットの各メンバは、前記ターゲット話者の音声を備える第1の信号と、前記ターゲット話者からのサンプル音声を有する登録信号と、第2の信号として、前記第1の信号に対応する前記ターゲット話者からのクリーンな音声と、を備え、
前記第1の信号及び前記登録信号を入力とし、前記第2の信号を所望の出力として使用して、前記音声エクストラクタをトレーニングすることと、前記トレーニングすることは、損失関数を使用し、前記損失関数は、前記信号における時間領域の歪み又は周波数領域の歪みを表す項と、前記信号の了解度を表す項との組合せである、
を備える、音声処理装置をトレーニングする方法。
【請求項17】
前記音声処理装置は、音声認識のために構成され、音声認識ユニットを更に備え得、前記音声認識ユニットは、前記第3の音声信号を受け取り、前記第3の音声信号からテキストを導出するように構成されており、前記音声認識ユニットは、前記音声エクストラクタとは独立にトレーニングされている、請求項16に記載の音声処理装置をトレーニングする方法。
【請求項18】
音声処理装置をトレーニングする方法であって、前記音声処理装置は、ターゲット話者の音声を強調するために、音声信号を処理するためのものであり、前記装置は、
第1の環境における前記ターゲット話者からの音声を備える第1の音声信号を受け取るための入力モジュールと、
第2の音声信号を抽出するために、前記第1の音声信号を処理するように構成された音声エクストラクタと、前記第2の音声信号は、第2の環境における前記ターゲット話者からの音声を備え、前記第2の環境は、前記第1の環境より雑音が少なく、前記音声エクストラクタは、前記第1の音声信号と、前記ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、前記音声エクストラクタは、前記第2の音声信号を抽出するために、前記第1の音声信号の一部を取り除くためのマスクを生成するように構成されている、
を備え、前記方法は、
トレーニングデータセットを受け取ることと、前記トレーニングデータセットの各メンバは、前記ターゲット話者の音声を備える第1の信号と、前記ターゲット話者からのサンプル音声を有する登録信号と、第2の信号として、前記第1の信号に対応する前記ターゲット話者からのクリーンな音声と、を備え、
前記第1の信号及び前記登録信号を入力とし、前記第2の信号を所望の出力として使用して、前記音声エクストラクタをトレーニングすることと、前記トレーニングすることは、損失関数を使用し、前記損失関数は、前記信号における時間領域の歪み又は周波数領域の歪みを表す項と、前記信号の了解度を表す項との組合せである、
を備える、方法。
【請求項19】
オーディオ信号のターゲット成分を強調するために、前記オーディオ信号を処理するためのオーディオ処理装置であって、前記装置は、
第1の環境における前記ターゲット成分を備える第1のオーディオ信号を受け取るための入力モジュールと、
第2のオーディオ信号を抽出するために、前記第1のオーディオ信号を処理するように構成されたオーディオ信号エクストラクタと、前記第2のオーディオ信号は、第2の環境における前記ターゲット成分を備え、前記第2の環境は、前記第1の環境より雑音が少なく、
第3のオーディオ信号を生成するために、前記第1のオーディオ信号を前記第2のオーディオ信号と混合するように構成されたミキサと、前記第3のオーディオ信号は、抽出された前記ターゲット成分を備える、
を備える、オーディオ処理装置。
【請求項20】
命令を備えるコンピュータ可読媒体であって、前記命令は、コンピュータによって実行されると、前記コンピュータに、請求項1、16又は18に記載の方法を行わせる、コンピュータ可読媒体。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書で説明される実施形態は、オーディオ処理方法及び装置に関する。
【背景技術】
【0002】
近年、ディープニューラルネットワーク(DNN)は、音声認識装置(ASR:automatic speech recognizers)の精度を大幅に向上させた。現行のASRシステムは、クリーンな状況では、既に人間の能力に達している、しかしながら、雑音のある状況(noisy conditions)では、それらは、依然として正常聴力の聴取者に劣る。
【0003】
雑音下でのASRのロバスト性を向上させるために、少なくとも2つの別個の戦略が存在する。1つの戦略は、マルチコンディションモデル(multi-condition models)をトレーニングするための大量のデータに依拠し、もう1つの戦略は、信号強調を使用して、データクリーニングを行うことに依拠する。第1のアプローチはシンプルではあるが、それは、そのようなモデルをトレーニングするために必要な計算リソースと、ラベル付きデータの収集との両方の観点からコストがかかる。更に、マルチコンディションシステムの精度は、競合する話者がいるような、非常に困難な環境において低下する。
【0004】
しばしば、音声強調によって導入される歪みは、ASRのためのスタンドアロンフロントエンドとしてのこれらの方法の適用性を制限し、ASRシステムの音響モデルは、最高の認識性能を達成するためには、マッチした歪んだデータで再トレーニングされなければならない。代替として、同時学習された強調システムと認識システムが、歪みを軽減するために提案されてきた。しかしながら、非常に動的な音響状況を伴う実際の応用では、後者のアプローチはうまく機能しない場合がある。
【図面の簡単な説明】
【0005】
図1A図1Aは、一実施形態による音声処理装置の概略図である。
図1B図1Bは、一実施形態による音声処理装置の概略図である。
図2図2は、一実施形態による音声認識装置の構造の概略図である。
図3図3は、話者抽出システムの構造の概略図である。
図4A図4Aは、音声エクストラクタ(speech extractor)の詳細な層構造である。
図4B図4Bは、図4Aのエクストラクタの時間的な畳み込みブロックの詳細な層構造である。
図5図5は、どのように損失関数が了解度の尺度を使用して算出され得るかを示す図である。
【発明を実施するための形態】
【0006】
一実施形態では、オーディオ信号のターゲット成分を強調するために、オーディオ信号を処理するための方法が提供され、方法は、
第1の環境におけるターゲット成分を備える第1のオーディオ信号を受け取ることと、
第2のオーディオ信号を抽出するために、上記第1のオーディオ信号を処理することと、第2のオーディオ信号は、第2の環境におけるターゲット成分を備え、第2の環境は、第1の環境より雑音が少なく、
第3のオーディオ信号を生成するために、第1のオーディオ信号を第2のオーディオ信号と混合することと、第3のオーディオ信号は、抽出されたターゲット成分を備える、
を備える。
【0007】
第1のオーディオ信号は、ターゲット話者からの音声を備え得、ターゲット成分は、ターゲット話者からの音声である。第1のオーディオ信号が音声である場合の実施形態では、第1のオーディオ信号、第2のオーディオ信号及び第3のオーディオ信号は、それぞれ第1の音声信号、第2の音声信号及び第3の音声信号と呼ばれ得る。
【0008】
音声信号を強調するための上記方法は、雑音のある状況において、シングルチャネル音声認識(ASR)の精度を向上させるという課題に役立つ。強力な音声強調フロントエンドが利用可能であるが、それらは、典型的に、処理歪みに対処するために、ASRモデルが再トレーニングされることを必要とする。本明細書で説明される実施形態は、音響モデル(AM)を再トレーニングすることなく認識性能を向上させるための話者強調戦略(speaker reinforcement strategy)に言及する。これは、処理歪みを軽減するために、強調された信号を未処理の入力と再混合することによって達成される。知覚的に動機付けられた損失関数でトレーニングされたDNN話者抽出に基づく音声雑音デノイザ(DNN speaker extraction based speech denoiser)を使用して評価を行った。結果は、(AMの再トレーニングなしで)モノラルシミュレーションされたCHiME-4評価セット及び実際のCHiME-4評価セットについて、未処理のものと比較して、それぞれ約23%及び28%の相対的な精度改善が達成されることを示した。
【0009】
本明細書で説明される実施形態では、話者抽出(SPX)システムが、雑音除去を行うために使用される。混合音(mixture)から全ての音源(sources)を復元する(即ち、音源分離)代わりに、SPXの目的は、混合音からターゲット話者のみを復元することであり、これは、音源の総数を事前に知る必要性を回避する。
【0010】
したがって、一実施形態では、第3の音声信号が、ASRに与えられ、テキストが、ASRによって、第3の信号において識別され得る。しかしながら、強調された信号は、他のシステム、例えば音声制御コマンドインターフェースに出力されることも可能である。第3の信号はまた、更なるオーディオプロセッサへと出力され得る。
【0011】
例えば、音声エクストラクタは、1以上の話者又は周辺音源からの音声又はオーディオ信号を強調するために、補聴器、ノイズキャンセリングヘッドホン又は他のオーディオ処理デバイスにおいて提供され得る。
【0012】
上記は音声に焦点を合わせているが、任意のタイプのオーディオ信号が強調され得る。例えば、音楽信号が、上記システムによって強調され得る。次いで、このような強調された信号は、例えば音楽識別デバイスに入力され得る。登録信号は、歌手の声であり得るか、又は混合音に見られる楽器の短い録音であり得る。他の成分もまた、この方法を使用して抽出され得る。
【0013】
上述されたように、一実施形態では、第1の音声信号は、例えば、シングルマイクロホン又は他のシングルオーディオピックアップデバイスからの、シングルチャネル音声信号であり、その結果、信号中の雑音を低減させるために使用され得る空間手掛かりが存在しない。雑音は、ターゲット話者以外の話者によるものであり得る。雑音はまた、例えば、鉄道の駅、交通騒音等における、通常背景雑音であり得る。
【0014】
一実施形態では、第1の音声信号及び第2の音声信号は、以下のように、第3の音声信号を形成するために混合される:
z(n)=s′(n)+αy(n)
ここで、z(n)は、第3の音声信号を表し、s′(n)は、第2の音声信号を表し、y(n)は、第1の音声信号を表し、αは、第1の音声信号のための乗算係数である。
【0015】
乗算係数は、以下のスカラ係数σによって制御され得る:
【0016】
【数1】
【0017】
一実施形態では、σは、0以上30以下である。一実施形態では、σの値は、第2の音声信号に見られる歪みの量に基づいて、自動的に適合される。更なる実施形態では、ノーリファレンス音声品質モデル(no-reference speech quality model)が、歪みを評価するために使用され得る。
【0018】
更なる実施形態では、音声エクストラクタが、第1の信号から第2の信号を抽出するために使用され、ここにおいて、音声エクストラクタは、信号における時間領域の歪み又は周波数領域の歪みを表す項と、信号の了解度を表す項との組合せである損失関数を使用してトレーニングされている。信号の了解度を表す項は、短期客観的了解度「STOI(short term objective intelligibility)」尺度である。他の関数が、STOIの代わりに使用され得、これもまた、音声の了解度尺度、例えば、正規化された共分散に基づく音声伝送指標、グリンプスプロポーション(GP:glimpse proportion)、音声了解度指標(SII)、PESQ又はSTOI-Net等のディープラーニング方法を可能にする。
【0019】
更なる実施形態では、信号における時間領域の歪み又は周波数領域の歪みを表す項は、スケールが不変の信号対歪み比「SISDR(scale invariant signal-to-distortion ratio)」である。更なる実施形態では、歪みを表す項は、平均二乗誤差又はマスククロスエントロピー等の、振幅スペクトル上の周波数領域損失であり得る。
【0020】
更なる実施形態では、第2の音声信号を抽出するために、第1の音声信号を処理することは、音声エクストラクタを使用することを備え、上記音声エクストラクタは、上記第1の音声信号と、ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、音声エクストラクタは、第2の音声信号を抽出するために、第1の音声信号の一部を取り除くためのマスクを生成するように構成されている。
【0021】
時間領域信号である第1の信号を処理する音声エクストラクタが使用され得る。第1の信号は、第1の信号をより高次元の信号に変換するように構成されたトレーニング可能な畳み込みネットワークであるスペクトルエンコーダによって処理され得る。音声エクストラクタは、複数の深さ方向の畳み込み層(plurality of depthwise convolutional layers)を備え得る。
【0022】
更なる実施形態では、音声処理装置をトレーニングする方法が提供され、音声処理装置は、ターゲット話者の音声を強調するために、音声信号を処理するためのものであり、装置は、
第1の環境におけるターゲット話者からの音声を備える第1の音声信号を受け取るための入力モジュールと、
第2の音声信号を抽出するために、上記第1の音声信号を処理するように構成された音声エクストラクタと、第2の音声信号は、第2の環境における上記ターゲット話者からの音声を備え、第2の環境は、第1の環境より雑音が少なく、上記音声エクストラクタは、上記第1の音声信号と、ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、音声エクストラクタは、第2の音声信号を抽出するために、第1の音声信号の一部を取り除くためのマスクを生成するように構成されており、
第3の音声信号を生成するために、第1の音声信号を第2の音声信号と組み合わせるためのミキサと、第3の音声信号は、ターゲット話者からの抽出された音声を備える、
を備え、方法は、
トレーニングデータセットを受け取ることと、トレーニングデータセットの各メンバは、ターゲット話者の音声を備える第1の信号と、ターゲット話者からのサンプル音声を有する登録信号と、第2の信号として、第1の信号に対応するターゲット話者からのクリーンな音声と、を備え、
第1の信号及び登録信号を入力とし、第2の信号を所望の出力として使用して、音声エクストラクタをトレーニングすることと、トレーニングすることは、損失関数を使用し、上記損失関数は、信号における時間領域の歪み又は周波数領域の歪みを表す項と、信号の了解度を表す項との組合せである、
を備える。
【0023】
音声処理装置は、音声認識のために構成され、音声認識ユニットを更に備え得、音声認識ユニットは、第3の音声信号を受け取り、第3の音声信号からテキストを導出するように構成されており、ここにおいて、音声認識ユニットは、音声エクストラクタとは独立にトレーニングされている。
【0024】
上記で説明された損失関数はまた、第3の強調された信号を生成するために、出力信号を入力と混合しない音声エクストラクタのためにも使用され得る。したがって、更なる実施形態では、音声処理装置をトレーニングする方法が提供され、音声処理装置は、ターゲット話者の音声を強調するために、音声信号を処理するためのものであり、装置は、
第1の環境におけるターゲット話者からの音声を備える第1の音声信号を受け取るための入力モジュールと、
第2の音声信号を抽出するために、上記第1の音声信号を処理するように構成された音声エクストラクタと、第2の音声信号は、第2の環境における上記ターゲット話者からの音声を備え、第2の環境は、第1の環境より雑音が少なく、上記音声エクストラクタは、上記第1の音声信号と、ターゲット話者からの音声のサンプルを備える登録音声信号と、を受け取るように構成されており、音声エクストラクタは、第2の音声信号を抽出するために、第1の音声信号の一部を取り除くためのマスクを生成するように構成されている、
を備え、方法は、
トレーニングデータセットを受け取ることと、トレーニングデータセットの各メンバは、ターゲット話者の音声を備える第1の信号と、ターゲット話者からのサンプル音声を有する登録信号と、第2の信号として、第1の信号に対応するターゲット話者からのクリーンな音声と、を備え、
第1の信号及び登録信号を入力とし、第2の信号を所望の出力として使用して、音声エクストラクタをトレーニングすることと、トレーニングすることは、損失関数を使用し、上記損失関数は、信号における時間領域の歪み又は周波数領域の歪みを表す項と、信号の了解度を表す項との組合せである、
を更に備える。
【0025】
更なる実施形態では、オーディオ信号のターゲット成分を強調するために、オーディオ信号を処理するためのオーディオ処理装置が提供され、装置は、
第1の環境におけるターゲット成分を備える第1のオーディオ信号を受け取るための入力モジュールと、
第2のオーディオ信号を抽出するために、上記第1のオーディオ信号を処理するように構成されたオーディオ信号エクストラクタと、第2のオーディオ信号は、第2の環境におけるターゲット成分を備え、第2の環境は、第1の環境より雑音が少なく、
第3のオーディオ信号を生成するために、第1のオーディオ信号を第2のオーディオ信号と混合するように構成されたミキサと、第3のオーディオ信号は、抽出されたターゲット成分を備える、
を備える。
【0026】
上記方法は、ソフトウェア又はハードウェアにおいて、例えばコンピュータ可読媒体として具現化され得、これは、一時的又は非一時的であり、命令を備え、命令は、コンピュータによって実行されると、コンピュータに、上記で説明された方法のうちのいずれか1つを行わせる。
【0027】
図1Aは、一実施形態による音声処理システム1を概略的に示す。音声処理システム1は、プログラム5を実行するプロセッサ3を備える。音声処理システム1は、記憶装置7を更に備える。記憶装置7は、ターゲット話者の雑音除去された音声を抽出するために、音声を処理するためのプログラム5によって使用されるデータを記憶する。プログラムは、話者抽出プログラムと呼ばれ得る。音声処理システム1は、入力モジュール11と、出力モジュール13と、を更に備える。入力モジュール11は、オーディオ入力15に接続されている。オーディオ入力15は、例えば、マイクロホンから、入力オーディオ信号を受け取る。オーディオ入力はまた、外部記憶媒体又はネットワークからオーディオデータのファイルを受け取るように構成され得る。オーディオ入力15は、例えば、マイクロホンであり得る。代替として、オーディオ入力15は、外部記憶媒体又はネットワークからオーディオデータを受け取るための手段であり得る。
【0028】
オーディオ用の出力17が、出力モジュール13に接続されている。オーディオ出力17は、処理された音声信号を出力するために使用される。オーディオ出力17は、例えば直接のオーディオ出力、例えばスピーカであり得るか、又は記憶媒体へ若しくはネットワーク等を介して送られ得るオーディオデータファイル用の出力であり得る。
【0029】
使用に際して、音声処理システム1は、オーディオ入力15を通じて第1のオーディオ信号を受け取る。プロセッサ3上で実行されるプログラム5は、ターゲット話者の音声を抽出するために、記憶装置7に記憶されたデータを使用して、第1のオーディオ信号を雑音除去する。記憶装置7に記憶されたデータは、ターゲット話者に関するオーディオデータを備えることになる。雑音除去された音声は、出力モジュール13を介してオーディオ出力17に出力される。雑音除去された音声は、音声認識装置(ASR)への入力に特に適している。
【0030】
図1Bは、一実施形態による音声処理システム1を概略的に示す。この変形例では、プログラム5は、話者抽出(SPX)プログラム6Aと、音声認識装置(ASR)プログラム6Bと、を備える。話者抽出プログラム6Aは、ターゲット話者の雑音除去された音声出力を抽出する。次いで、ターゲット話者の雑音除去された音声出力は、ASRプログラム6Bに入力され、ここで、それはテキストに変換される。この実施形態では、出力モジュール13は、出力19にテキスト出力を与えるテキスト出力モジュールである。
【0031】
図1A及び図1Bの実施形態は、ラップットップ又はデスクトップコンピュータにおいて提供され得る。しかしながら、図1A及び図1Bの実施形態はまた、モバイルフォン、タブレット、又はオーディオ入力を有する任意のタイプのプロセッサにおいて提供され得る。システムは、保守点検ログの手動記録のために使用され得、ここで、ユーザは、自身の留意点を記録するためにマイクロホンに向かって話し、それらをリアルタイムで自動的にテキスト起こしさせる。しかしながら、他の実施形態では、テキスト出力は、音声コマンドインターフェースの一部として使用され得る。
【0032】
図2は、プロセッサによって行われる機能の概観を示す。ここで、SPXユニット51の出力は、ASRユニット53に与えられることに留意されたい。しかしながら、他のオプションも可能であり、例えば、出力は、音声制御コマンドインターフェースに与えられ得る。
【0033】
図2では、ターゲット話者の音声を備える入力信号Aが、SPXユニット51に与えられる。この例では、SPXユニット51の出力は、ASRユニット53に与えられる。しかしながら、出力はまた、音声制御コマンドインターフェースにも与えられ得る。入力信号Aは、背景雑音も備え、例えば、入力信号Aは、雑音のある環境においてモバイルフォンを介して収集される。
【0034】
SPXユニット51はまた、「登録音声信号」も受け取り、これは、クリーンである、ターゲット話者からの音声である。登録音声信号は、ターゲット話者からの任意の音声であり得、特定のテキストである必要はない。登録音声は、推論前に捉えられ得るか、又はそれは前もって収集され、推論中に再利用され得る。前もって収集された場合、それは、メモリに記憶され、推論のために取り出され得る。一実施形態では、登録信号は、長さが数秒(例えば、3~6秒)である。トレーニングについては、音響変動性(acoustic variability)が、語彙的な多様性(lexical variety)を可能にするために有益である。例えば、登録データは、利用可能なクリーンなターゲットデータからランダムに選ばれ得る。
【0035】
次いで、ターゲット音声が分離されることになる信号が、SPXユニット51に入力される。図3は、SPXユニット51のサブユニットを示す概略図である。
【0036】
最初に、入力信号Aは、スペクトルエンコーダに与えられる。スペクトルエンコーダは、少なくとも1つの畳み込み層を備え、音声信号をより高次元の空間に変換するように構成されている。より高次元の空間は、音源分離のために音声のスパース性をよりよく活用し得る。空間の次元は、CNNにおけるカーネルの数によって与えられる。一実施形態では、カーネルの数(N)は、少なくとも入力サンプルの数(L)に等しい。
【0037】
スペクトルエンコーダ61の第1の出力が、エクストラクタ63に与えられる。エクストラクタは、ターゲット話者のためのマスクを計算するように構成されている。次いで、これらマスクは、ミキサ67において、要素組み合わせ(element combination)を使用して適用される。エクストラクタ63は、スペクトル領域における音声のスパース性(sparsity)と、その時間的な特徴の長期依存性とを活用する。
【0038】
一実施形態では、これを達成するために、エクストラクタは、複数の深さ方向の畳み込み層を備え、これは、時間的な特徴の長期依存性を捉えるために、時間的に分離されたフレームにわたって畳み込みを行う。一実施形態では、複数の深さ方向の畳み込み層には、増大するカーネルの拡張係数(increasing kernel dilation factors)が与えられ、これは、入力混合信号の多重解像度解析を行う。
【0039】
エクストラクタ63はまた、登録音声信号を受け取る。音声登録信号が、話者エンコーダ65によって出力される。話者エンコーダは、少なくとも1つ又は複数の深さ方向の畳み込み層を備える。
【0040】
次いで、マスクである、エクストラクタから出力された信号は、スペクトルエンコーダ61の第2の出力からターゲット話者を抽出するために、スペクトルエンコーダ61からの第2の出力に適用される。ミキサ67は、スペクトルエンコーダの第2の出力と、エクストラクタ63の出力との間の要素ごとの組み合わせ(element-wise combination)を実施する。
【0041】
デコーダ69は、マスクされたスペクトル表現と、1つの全結合層(N入力及びL出力の次元)とを使用して、推定されたターゲットフレームs′(n)を再構成する。重畳加算法(overlap-and-add)が、波形全体を再構成するために適用される。
【0042】
次に、音声エクストラクタのより詳細な説明が、図4を参照して説明される。図4の音声エクストラクタは、図3のエクストラクタの基本構造を有する。図3の構造を有するエクストラクタは、図4の厳密な構造に限定されない。図4は、時間的な畳み込みネットワークブロック(TCN:temporal convolutional network block)に基づく構造を有するエクストラクタの一例である。しかしながら、他のアーキテクチャ、例えば、異なるモデルアーキテクチャ、例えば、LSTM、RNN等も可能である。上記は、時間領域又は周波数領域において動作するエクストラクタと共に使用され得る。例えば、時間領域又は周波数領域において異なる損失関数を使用するネットワーク。上記で説明されたものとは異なる埋め込みを使用する抽出ネットワーク。同時学習されるか、又は1つ以上の層/ユニットが個々にトレーニングされる抽出ネットワーク。上記方法は、出力にバイアスをかけるために、登録信号を使用する。しかしながら、例えば、話者の閉集合に関して、ターゲット話者に対して事前トレーニングされたシステムも使用され得る。
【0043】
いかなる不要な繰り返しも避けるために、同様の参照番号を使用して同様の特徴を示す。スペクトルエンコーダ61の目的は、入力音声波形をより高次元の空間(Espec)に変換することである。この例では、入力音声波形は、時間領域波形y(n)である。入力信号y(n)は、-1から1までの範囲にある浮動小数点数のシーケンスであり得る(又はそれは量子化レベルに変換され得、これは整数である)。一実施形態では、入力信号は、マイクロホンによって捉えられた連続信号のデジタル化されたバージョンであり、これは、音圧変動を測定する。一実施形態では、入力信号は、デジタル入力信号である。次いで、入力信号は、固定された持続時間のウィンドウに分割される。この例を例示するために、1~2msの時間ウィンドウが使用される。時間ウィンドウはまた、互いに重なり合い得る。
【0044】
次いで、入力信号y(n)の各時間ウィンドウが、スペクトルエンコーダ61に与えられる。一実施形態では、CNNの入力層は、次元の配列/テンソルである[batch_size,1,time_length]。batch_sizeは、1又はそれ以上であり得る。time_lengthは、サンプルにおける波形(時間領域信号)の長さである。例えば、これは、4秒に固定され得、fs=16kHzの場合、64000サンプルになる。エンコーダからの第1の1D CNNがこの入力を取る(take)ことになり、次元[batch_size,number_of_kernels,number_of_time_frames]のテンソルを出力することになる。number_of_kernelsが与えられる(N=256)一方で、number_of_time_framesは、信号の全長と、フレーム長(L=20)と、ホップサイズ(L/2)とが与えられると、計算される。したがって、一実施形態では、1D CNNは、ウィンドウイング(windowing)と、「スペクトル」解析との両方を行う。
【0045】
スペクトルエンコーダ61は、CNN層101に後続して、アクティベーションのための整流された線形ユニット(ReLU:rectified linear unit)103を備える。この例では、CNNは、サイズLのN個のカーネル及びストライドL/2を有する。スペクトルエンコーダは、入力時間領域信号y(n)に対して動作することに留意されたい。スペクトルエンコーダは、スペクトル出力に類似の出力を生成するように機能するが、それは、厳密には、この信号の周波数領域への変換を行わない。代わりに、それは、CNN101のパラメータがトレーニングされることを可能にして、高次元スパース出力が達成されることを可能にする。
【0046】
登録音声信号s(n)もまた、y(n)について上記で説明されたのと同様に時間領域信号であり、これは、一実施形態では、y(n)、即ち、時間領域ウィンドウと同様にデジタル信号に変換される。
【0047】
スペクトルエンコーダ61と同様に、話者エンコーダ65もまた、CNN層105に後続して、アクティベーションのための整流された線形ユニット(ReLU)107を備える。
【0048】
次いで、アクティベーション層107の出力は、時間的な畳み込みネットワーク(TCN)109に与えられる。
【0049】
図4Bは、TCN109等のTCNの概略的な層構造を示す。ここで、TCNブロックは、3つのCNN層と、パラメトリックReLU(PReLU)アクティベーションと、トレーニング可能なバイアス及び利得パラメータによってスケーリングされた時間及びチャネルの次元の両方にわたる平均及び分散の正規化(G-NORM)と、から形成される。深さ方向の畳み込み(D-CONV、サイズPのH個のカーネル)は、拡張係数1を用いて、入力チャネルに対して独立に動作する。エンドポイント1D CNN(B個のカーネル)は、チャネル次元を調整するために用いられている。
【0050】
詳細には、TCNの第1の層は、1次元CNN111である。次に、G-NORM層113が、トレーニング可能なバイアス及び利得パラメータによってスケーリングされた時間及びチャネルの次元の両方にわたる平均及び分散の正規化を提供する。次いで、この層113の出力が、PReLU層115に与えられる。一実施形態では、PReLU層は、それが勾配消失問題を防ぐのに役立ち得るので使用される。
【0051】
次に、信号は、深さ方向の畳み込みを提供するD-CONV層117を介して処理される。次は、更なるG-NORM層119であり、これは、第2のPReLU層121に出力し、第2のPReLU層121の出力は、第2の1D CNN層123に与えられる。
【0052】
次いで、TCN109の出力は、登録信号のスペクトル表現Espkを生成するために、時間平均化演算子(time averaging operator)125に与えられる。
【0053】
エクストラクタ63において、スペクトルエンコーダ61の出力Especは、チャネルごとに正規化され、次いで、一連のカスケーディングTCN135、139の第1のTCNに供給される前に、ボトルネック1×1CNN層(B個のカーネル)133によって処理される。TCN135及び139は、図4Bを参照して説明された構造をそれぞれ有する。しかしながら、D-CONVの拡張は変化し、したがって、連続するTCNブロックにわたる拡張係数は、2mod(i,X)であり、ここで、iは、0からXR-1までのブロックのインデックスである。TCNブロックは、各グループにX個のTCNと、R個のグループとを有して、グループに直列に配置されており、その結果、合計XR個のTCNが存在する。Xは、各グループにいくつのTCNがあるかを制御するハイパーパラメータであり、modは、モジュロ演算である。
【0054】
この例では、乗法各点アダプテーション層(multiplicative pointwise adaptation layer)137が、ターゲット話者埋め込みEspkを、第2のTCNの出力と組み合わせるために使用される。しかしながら、その他の点ごとの組み合わせも使用され得る。
【0055】
N個の出力チャネルを有する更なる1×1CNN層141が、最後TCNの後に使用されて、マスク次元をスペクトルエンコーダ61の出力のものに合わせ、したがって、それらの点ごとの乗算を容易にする。更なるCNN層141の出力は、マスクを生成するアクティベーション層143を通じて与えられる。次いで、マスクは、スペクトルエンコーダ61からの第2の出力Especにミキサ67を使用して適用されて、Especからターゲット話者の音声を抽出する。
【0056】
次いで、これは、デコーダ147に与えられる。デコーダは、全結合層147を備え、これは、次いで、抽出された時間領域信号s′(n)を出力する。
【0057】
図2の全システムに戻る前に、図3のシステムのトレーニングが説明される。トレーニングは、図4の特定の配置に好適であるが、この特定のアーキテクチャに限定されない。
【0058】
トレーニングのために、トレーニングセットが確立され、トレーニングセットの各メンバは、3つのセクションを備える:
1)他の話者又は非有声性の音によってもたらされ得る背景雑音の中でのターゲット話者の音声を含む入力音声(y(n))
2)ターゲット話者からの登録音声サンプル(s(n))
3)入力音声に対応するターゲット話者のクリーンな音声(s(n))。
トレーニングセットは、多くの異なるターゲット話者についての上記3つのセクションを含むことになる。トレーニング後、システムは、新しい話者の登録音声を受け取るだけで、その話者に適合することが可能になるべきである。新しい話者に対して再トレーニングする必要はなく、また、この話者が元のトレーニングセットに含まれている必要もない。
【0059】
一実施形態では、図3のシステムは、同時学習されており、即ち、スペクトルエンコーダ61、話者エンコーダ65、エクストラクタ63及びデコーダ69は、一緒にトレーニングされている。
【0060】
一実施形態では、図1のエクストラクタについてのトレーニング目標は、スケールが不変の信号対歪み比(SISDR)を最大化することであり、これは、以下のように定義される:
【0061】
【数2】
【0062】
ここで、s′及びsは、それぞれ推定されたターゲット話者信号及びオラクルターゲット話者信号(the oracle target speaker signal)を示し、ここで、オラクルターゲット話者信号は、クリーンな音声である。
【0063】
更なる実施形態では、異なる損失関数が使用され、これは、以下の通りである:
【0064】
【数3】
【0065】
上記損失関数は、短期客観的了解度(STOI)尺度に基づく知覚的に動機付けられた項と組み合わせて、上記式(1)のSISDR損失を組み込む。
【0066】
STOIは、時間周波数重み付けによって処理される雑音のある音声の了解度を客観的に評価するためのメトリックであり、これは、人間の知覚との高い相関を生じる。それは、クリーンな基準信号s(n)を必要とし、これは、処理された信号s′(n)に対して比較される。比較は、約400msの音声を必要とし、以下に要約されるように、圧縮されたDFTベースの空間において行われる。
【0067】
図5は、STOIを算出するためのステップを示すフロー図である。最初に、ステップS201において、基準(即ち、クリーンな)信号及び処理された信号の短期フーリエ変換(STFT)が計算され、これらは、それぞれS(k,m)及びS′(k,m)として示されている。インデックスk及びmは、それぞれ現在の周波数ビン及び時間フレームを指す。次いで、S203において、150Hzの最低中心周波数を有する1/3オクターブバンド二乗平均平方根(RMS)エネルギーが計算される:
【0068】
【数4】
【0069】
ここで、jは、1/3オクターブバンドインデックスであり、k(j)及びk(j)は、そのバンドエッジである。処理された信号の1/3オクターブバンドRMSエネルギーは、N個(例えば、30個)の前の連続したフレームのコンテキストを使用して、クリーンな信号のものにマッチさせるように、ステップS205において正規化される
【0070】
【数5】
【0071】
次に、処理された信号のスケーリングされた1/3オクターブバンドRMSエネルギー
【0072】
【数6】
【0073】
が、以下の規則を使用して、ステップS207においてクリッピングされ、
【0074】
【数7】
【0075】
ここで、β(例えば、-15)は、信号対歪みの下限である。中間了解度スコアが、基準信号と、正規化及びクリッピングされた処理された信号との1/3オクターブバンドRMSエネルギー間で、ステップS209において相互相関として計算される、
【0076】
【数8】
【0077】
最終的なSTOI損失が、ステップS211において計算され
【0078】
【数9】
【0079】
ここで、J及びMは、それぞれ1/3オクターブバンド及び信号フレームの総数である。他の関数が、STOIの代わりに使用され得、これもまた、音声の了解度尺度、例えば、正規化された共分散に基づく音声伝送指標、グリンプスプロポーション(GP)、音声了解度指標(SII)、PESQ又はSTOI-Net等のディープラーニング方法を可能にする。
【0080】
したがって、この実施形態では、SISDR及びSTOIの両方が、エクストラクタをトレーニングするために考慮に入れられる。
【0081】
図2に戻ると、エクストラクタ51からの出力である抽出された信号が、音声認識装置(ASR)53に与えられる。しかしながら、抽出された信号は、ASR53に入力される前に、強調された信号(C)を生成するために、元の入力信号(A)のフラクション(a fraction)と混合される。これは、マスクされるべき抽出された信号における処理歪みの抑制を可能にする。これらの処理歪みは、ASRの動作に影響を及ぼし得る。
【0082】
一実施形態では、再混合は、以下のスカラσ(図2)、即ち:
【0083】
【数10】
【0084】
によって制御され、出力は、z(n)=s′(n)+αy(n)として計算される。どのようにσが選択され得るかが、以下で説明される。上記を使用することによって、処理歪みにマッチするようにASR53を再トレーニングすることを必要とせずに、ASR53から良好な結果を得ることが可能である。
【0085】
一実施形態では、σは、0以上30以下である。一実施形態では、σの値は、第2の信号に見られる歪みの量に基づいて、自動的に適合される。更なる実施形態では、ノーリファレンス音声品質モデル(no-reference speech quality model)が、歪みを評価するために使用され得る。
【0086】
上記をテストするために、シミュレーションされた雑音のある音声記録と、実際の雑音のある音声記録との両方を含むCHiME-4データで実験を行った。CHiME-4コーパスは、カフェテリア、バスの中、車道又は歩道エリア等の雑音のある日常の環境の中で、モバイルタブレットコンピューティングデバイスを使用して、マルチチャネル音声を捉えるように設計されている。SPXデノイザ(音声エクストラクタ)が使用され、CHiME-4雑音と人工的に混合された、クリーンなウォールストリートジャーナル(WSJ)音声でトレーニングされた。
【0087】
CHiME-4のシングルチャネルの実際の評価セット及びシミュレーションされた評価セット(et05)(SPXのトレーニングセットに対してマッチした状況)についての結果を以下に報告する。追加として、VoiceBank-DEMAND(VBD)セット及びWHAM!セットでのミスマッチしたテスト状況についての結果を報告する。WHAM!テスト(tt)セットの最大バージョン(max version)が使用され、全ての実験を16kHzの解像度データを用いて行った。
【0088】
性能は、主にワード誤り率(WER)の観点から評価されているが、いくつかの予備実験では、信号対歪み(SDR)値及びSTOI値も報告されている。SDRスコアは、BSSevalツールキットを使用して計算され、STOIトレーニング損失は、自由に利用可能なPyTorch実装を使用して計算された。雑音除去ネットワーク及びASRシステムの構成についての更なる詳細を次に提示する。
【0089】
これらのテストのために、図4A及び図4Bを参照して説明されたアーキテクチャを有する音声エクストラクタを使用した。スペクトルエンコーダは、サイズL=20のN=256個のカーネル及び10サンプルのフレームレートを有する1-D CNNを備える。R=4回繰り返されるX=8個のスタックされたTCNブロックが、抽出ネットワークのために用いられた。各TCNブロックは、それぞれB=256個及びH=512個のカーネルを用いる1×1CNN及び1×3深さ方向の畳み込みで構成されている。デコーダにおける全結合層は、256の入力次元と、20の出力次元と、を有する。
【0090】
SPXシステムをトレーニングするために、CHiME-4雑音が人工的に加えられたWSJ0-2mixからのクリーンなWSJトレーニングリストを使用した。約39時間のデータが生成され、混合音の信号対雑音(SNR)比は、0dB~5dBの範囲から均一にサンプリングされており、オーディオ長は、1秒~6秒でランダムに変化する。ターゲット登録文をトレーニングのために使用し、登録用の録音(recording)と、混合信号とが異なることを確実にした。シミュレーションされたCHiME-4、VBD及びWHAM!テストセットのための登録サンプルは、利用可能なクリーンな波形から選ばれ、一方、接話マイクロホン録音を、実際のCHiME-4評価セットの登録のために使用した。
【0091】
初期学習率0.001、チャンク長(chunk length)4秒、及びミニバッチサイズ8で、Adamオプティマイザ[D. P. Kingma and J. L. Ba, “Adam: A method for stochastic optimization,” in Int. Conf. Learning Repres., 2015.]を使用してトレーニングを行った。3つの連続したエポックの間、交差検証セットに対する改善が得られなかった場合、学習率を半分にした。全ての競合モデルは、トレーニングデータに対する過剰適合を回避するために、エポック20において復号された。
【0092】
ASRのための2つの音響モデルがこの評価に含まれている。第1のモデルは、クリーンなWSJ-SI284データ(WSJ-CLN)でトレーニングされており、12層TDNNFトポロジを有し[D. Povey, G. Cheng, Y. Wang, K. Li, H. Xu, M. Yarmoham-madi, and S. Khudanpur, “Semi-orthogonal low-rank matrix factorization for deep neural networks,” in Proc. Interspeech, 2018, pp. 3743-3747.]、一方、第2のモデルは、CHiME-4からの標準の雑音のあるセット(C4-ORG)でトレーニングされており、14層TDNNF構造を有する。後者のシステムは、CHiME-4の実際のトレーニングセット及びシミュレーションされたトレーニングセットからの、6つ全てのチャネルを用いる。両方のモデルが、40次元MFCC及び100次元i-ベクトルを音響特徴として使用し、それらは、格子なしMMI基準(lattice-free MMI criterion)を使用して、KALDIにおいてトレーニングされた[D. Povey, V. Peddinti, D. Galvez, P. Ghahrmani, and V. Manohar, “Purely sequence-trained neural networks for ASR based on lattice-free MMI,” in Proc. Interspeech, 2016, pp. 2751-2755]。標準のtri-gramとより強力なRNN言語モデル(LM)との両方を、復号のために使用した。3倍速摂動(3-fold speed perturbation)後、WSJ-CLN及びC4-ORGは、それぞれ約246時間及び327時間のトレーニングデータを有する。
【0093】
次に、マッチした及びミスマッチした雑音のある状況におけるASRのロバスト性を向上させるための提案されたターゲット話者強調アプローチの有効性に対する調査結果を提示する。
【0094】
【表1】
【0095】
最初に、VBD及びWHAM!のシミュレーションされた雑音のあるテストデータを使用して、SPXデノイザをミスマッチした状況において評価した(表1)。表1のWER結果は、WSJ-CLN AM及びtri-gram(3G)LMでのものである。雑音除去-SPXは、シミュレーションされた雑音のあるCHiME-4混合音でトレーニングされており、したがって、いずれのテストセットともミスマッチしているが、それは、未処理のケースと比較して、VBD及びWHAM!のテストセットに対して約14%及び67%の相対的なWERの低減をもたらした。表1のWER結果は、複合SISDR及びSTOIトレーニング損失が、標準のSISDR損失よりも良好に機能することを示しているが、通常のシステム及び提案されたシステムについてのSDR値及びSTOI値は、ほぼ同一であった。したがって、追加のSTOI項(the additional STOI term)は、強調中に歪んだ音声の時間変調のうちのいくつかを復元するのに役立てることができる。本明細書で使用される場合、「通常の」システムは、標準のSISDRトレーニング基準(STOIなし)で、SPXを雑音除去するためのシステムである。
【0096】
次の一連の実験を、雑音のあるCHiME-4音響モデル(C4-ORG)を使用して行った。これら実験は、ASRのロバスト性に対する再混合比σの重要性を評価している。
【0097】
【表2】
【0098】
表2における結果は、シミュレーションされたCHiME-4テストセットと実際のCHiME-4テストセットとの両方について、σの値を∞(いかなる入力混合音も、強調された信号に加えて追加されていない(added on top of))から0dBまで低減させることによって、目ざましいWERの低減が達成され得ることを示している。より具体的には、再混合比を低減させるだけで、提案された雑音除去-SPXは、シミュレーションされた評価セット及び実際の評価セットについて、それぞれ約28%及び33%の相対的なWERの低減を達成した。これらの結果は、これらの改善を生じるために、音響モデルもSPXモデルも再トレーニングされていないので、注目に値する。未処理のケースと比較して、σ=∞についての雑音除去-SPXの性能が悪いことは、システムが無響のシミュレーションされたCHiME-4の雑音のあるデータからトレーニングされたものである一方で、テストセットは少量の残響も含むという事実に帰せられる。精度の低下の別の原因は、特に実際のデータでの、SPXによって導入される固有の歪みであり得る。話者強調を伴う雑音除去-SPXは、シミュレーションされたセット及び実際のセットについて、それぞれ約23%及び28%の相対的なWERの低減をもたらした。
【0099】
【表3】
【0100】
表3は、シングルチャネルCHiME-4タスクに関する雑音除去-SPXの認識精度を示す。ASRを行うために、標準の雑音のあるC4-ORG音響モデルを使用し、3-Gトランスクリプションは、RNNベースの言語モデルを用いてスコアを再計算した。
【0101】
上記の実施形態は、音響モデルの再トレーニングなしに、雑音のある状況においてASR精度を向上させるためのターゲット話者強調アルゴリズムを示した。DNN話者抽出に基づくデノイザを使用することで、雑音のある入力を強調された信号と再混合することが、シングルチャネルCHiME-4のシミュレーションされた評価セット及び実際の評価セットについて、それぞれ未処理のケースと比較して約23%及び28%のWERの低減を達成することが示された。更に、実験は、話者抽出システムのトレーニング中に時間領域再構成損失に加えて知覚的に動機付けられた損失を追加することが、ささやかではあるが、一貫したASR精度改善を達成するのに役立つことを示唆する。
【0102】
上記で説明された実施形態は、以下のうちの少なくとも1つを提供する:
(i)マッチした状況とミスマッチした状況との両方における、実際のデータ及びシミュレーションされたデータの音声雑音除去についての時間領域音声抽出のASR性能、
(ii)時間領域デノイザをトレーニングするための客観的了解度尺度に基づく新しい損失関数、
(iii)雑音のある環境でのASRモデルのロバスト性を向上させるための話者強調戦略。
【0103】
本明細書で説明された実施形態は、雑音のある状況でのASR精度が、歪んだデータでの音響モデルの再トレーニングを必要としない話者強調戦略を使用することによって、高められ得ることを示した。最先端の強調アルゴリズムを使用して、背景騒音を完全に抑制することに焦点を合わせる代わりに、本明細書で説明された実施形態は、処理歪みを軽減するために、強調された信号を未処理の入力と再混合し、ASRの音響モデルを再トレーニングすることなく、著しい認識精度改善をもたらす。
【0104】
ある特定の実施形態について説明したが、これらの実施形態は単に例として提示したものであり、本発明の範囲を限定することを意図するものではない。実際、本明細書で説明された新規のデバイス及び方法は、様々な他の形態で具現化され得、更に、本明細書で説明されたデバイス、方法及び製品の形態の様々な省略、置き換え、及び変更が、本発明の趣旨から逸脱することなく行われ得る。添付の特許請求の範囲及びそれらの同等物は、本発明の趣旨及び範囲内に入る形態又は修正を網羅することを意図している。
図1A
図1B
図2
図3
図4A
図4B
図5
【外国語明細書】