特許7690138 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7690138自動音声認識のためのマイクロフォンアレイ構成でインバリアントな、ストリーミングな、マルチチャネルな、ニューラル強調フロントエンド

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-05-30

(45)【発行日】2025-06-09

(54)【発明の名称】自動音声認識のためのマイクロフォンアレイ構成でインバリアントな、ストリーミングな、マルチチャネルな、ニューラル強調フロントエンド

(51)【国際特許分類】

G10L 15/20 20060101AFI20250602BHJP

G10L 15/16 20060101ALI20250602BHJP

【ＦＩ】

G10L15/20 380

G10L15/16

【請求項の数】 22

(21)【出願番号】P 2024555936

(86)(22)【出願日】2023-02-20

(65)【公表番号】

(43)【公表日】2025-04-11

(86)【国際出願番号】 US2023062887

(87)【国際公開番号】W WO2023183684

(87)【国際公開日】2023-09-28

【審査請求日】2024-10-07

(31)【優先権主張番号】63/269,633

(32)【優先日】2022-03-20

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】カロゼッリ、ジョセフ

(72)【発明者】

【氏名】ナラヤナン、アルン

(72)【発明者】

【氏名】オマリー、トム

【審査官】山下剛史

(56)【参考文献】

【文献】国際公開第２０２１／０１３３４５（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２１／０００５１８２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０３７５２８９（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２０／０３１２３４６（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４，２１／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

音声認識のためのマルチチャネルニューラルフロントエンド音声強調モデル（２００）としての音声強調モデル（２００）であって、前記音声強調モデル（２００）はコンピュータを、
音声クリーナ（３００）であって、
入力として、マルチチャネルノイジー入力信号（２０２）およびマルチチャネルコンテキストノイズ信号（２０４）を受信しており、かつ、
出力として、単一チャネルのクリーニング済入力信号（３４０）を生成するように構成されている、前記音声クリーナ（３００）と、
各々がマルチヘッド自己注意機構を有している自己注意ブロック（４００）のスタックであって、前記自己注意ブロック（４００）のスタックは、
入力として、前記自己注意ブロック（４００）のスタックの最初のブロック（４００）で、前記音声クリーナ（３００）から出力済の単一チャネルのクリーニング済入力信号（３４０）と、単一チャネルノイジー入力信号（２０６）と、を備えているスタック入力（２３２）を受信する一方で、
前記自己注意ブロック（４００）のスタックの最終的なブロック（４００）からの出力として、アンマスクド出力（４８０）を生成するように構成されている、前記自己注意ブロック（４００）のスタックと、および
マスキング層（２４０）であって、
入力として、前記単一チャネルノイジー入力信号（２０６）と、前記自己注意ブロック（４００）のスタックの前記最終的なブロック（４００）からの出力として生成済の前記アンマスクド出力（４８０）と、を受信する一方で、
出力として、ターゲット発話（１２）に対応する強調済入力音声特徴（２５０）を生成するように構成されている、前記マスキング層（２４０）と、
して機能させるための、
音声強調モデル（２００）。

【請求項2】

前記自己注意ブロック（４００）のスタックは、コンフォーマブロック（４００）のスタックを備えている、
請求項１に記載の音声強調モデル（２００）。

【請求項3】

前記コンフォーマブロック（４００）のスタックは、４つの前記コンフォーマブロック（４００）を備えている、
請求項２に記載の音声強調モデル（２００）。

【請求項4】

前記音声強調モデル（２００）は、ユーザデバイス（１１０）に存在する前記コンピュータとしてのデータ処理ハードウェア（１１２）で実行されており、
前記ユーザデバイス（１１０）は、前記ターゲット発話（１２）と、前記ユーザデバイス（１１０）のマイクロフォン（１１６）のアレイを介して前記マルチチャネルコンテキストノイズ信号（２０４）と、をキャプチャするように構成されている、
請求項１～３のいずれか１項に記載の音声強調モデル（２００）。

【請求項5】

前記音声強調モデル（２００）は、前記マイクロフォン（１１６）のアレイの前記マイクロフォン（１１６）の数に関して不可知である、
請求項４に記載の音声強調モデル（２００）。

【請求項6】

前記音声クリーナ（３００）は、
前記マルチチャネルノイジー入力信号（２０２）の第１チャネル（２０６）を除く前記マルチチャネルノイジー入力信号（２０２）のすべてのチャネル（２０６）に、有限インパルス応答（ＦＩＲ）フィルタを適用することで、合計出力（３１２）を生成する工程と、
前記マルチチャネルノイジー入力信号（２０２）の前記第１チャネル（２０６）から前記合計出力（３１２）を減算する工程と、
によって、単一チャネルのクリーニング済入力信号（３４０）を生成するべく、アダプティブノイズキャンセレーションアルゴリズムを実行する、
請求項１～３のいずれか１項に記載の音声強調モデル（２００）。

【請求項7】

バックエンド音声システム（１８０）は、前記ターゲット発話（１２）に対応する前記強調済入力音声特徴（２５０）を処理するように構成されている、
請求項１～３のいずれか１項に記載の音声強調モデル（２００）。

【請求項8】

前記バックエンド音声システム（１８０）は、自動音声認識（ＡＳＲ）モデル（１９２）、オーディオ呼出アプリケーション、もしくはオーディオ－ビデオ呼出アプリケーション、のうちの少なくとも１つを備えている、
請求項７に記載の音声強調モデル（２００）。

【請求項9】

前記音声強調モデル（２００）は、スペクトル損失および自動音声認識ＡＳＲ損失（５６０）を使用することで、前記コンピュータにバックエンド自動音声認識（ＡＳＲ）を実行させるためのバックエンド自動音声認識ＡＳＲモデル（１９２）としての自動音声認識ＡＳＲモデル（１９２）とで共同でトレーニングされる、
請求項１～３のいずれか１項に記載の音声強調モデル（２００）。

【請求項10】

前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のＬ１損失関数およびＬ２損失関数の距離に基づいており、
前記理想的比率マスクは、残響音声および残響ノイズを使用することで計算される、
請求項９に記載の音声強調モデル（２００）。

【請求項11】

前記自動音声認識ＡＳＲ損失（５６０）は前記コンピュータに、
トレーニング発話（５３２）に対して前記音声強調モデル（２００）によって予測された強調済音声特徴（２５０）を入力として受信するように構成された前記自動音声認識ＡＳＲモデル（１９２）の自動音声認識ＡＳＲエンコーダ（５４０）を使用することで、前記強調済音声特徴（２５０）の前記自動音声認識ＡＳＲエンコーダ（５４０）の予測出力（５２２）を生成する工程と、
入力として前記トレーニング発話（５３２）のターゲット音声特徴（５３６）を受信するように構成された前記自動音声認識ＡＳＲエンコーダ（５４０）を使用することで、前記ターゲット音声特徴（５３６）の前記自動音声認識ＡＳＲエンコーダ（５４０）のターゲット出力（５２４）を生成する工程と、および
前記強調済音声特徴（２５０）の前記自動音声認識ＡＳＲエンコーダ（５４０）の前記予測出力（５２２）と、前記ターゲット音声特徴（５２６）の前記自動音声認識ＡＳＲエンコーダ（５４０）の前記ターゲット出力（５２４）と、に基づき前記自動音声認識ＡＳＲ損失（５６０）を計算する工程と、
を実行させることによって計算される、
請求項９に記載の音声強調モデル（２００）。

【請求項12】

データ処理ハードウェア（１１２、１３４）で実行されたとき、前記データ処理ハードウェア（１１２、１３４）に動作を実行させるコンピュータ実装方法（６００）であって、前記動作は、
マルチチャネルノイジー入力信号（２０２）とマルチチャネルコンテキストノイズ信号（２０４）と、を受信する工程と、
音声強調モデル（２００）の音声クリーナ（３００）を使用することで、単一チャネルのクリーニング済入力信号（３４０）を生成する工程と、
スタック入力（２３２）を受信するように構成された前記音声強調モデル（２００）の自己注意ブロック（４００）のスタックからの出力として、アンマスクド出力（４８０）を生成する工程であって、前記スタック入力（２３２）は、前記音声クリーナ（３００）から出力済の単一チャネルのクリーニング済入力信号（３４０）と、単一チャネルノイジー入力信号（２０６）と、を備えており、前記自己注意ブロック（４００）のスタックの前記各自己注意ブロック（４００）は、マルチヘッド自己注意機構を備えている、前記アンマスクド出力（４８０）を生成する工程と、および、
前記単一チャネルノイジー入力信号（２０６）と、前記自己注意ブロック（４００）のスタックからの出力として生成済の前記アンマスクド出力（４８０）と、を受信するように構成された前記音声強調モデル（２００）のマスキング層（２４０）を使用することで、ターゲット発話（１２）に対応する強調済入力音声特徴（２５０）を生成する工程と、
を備えている、コンピュータ実装方法（６００）。

【請求項13】

前記自己注意ブロック（４００）のスタックは、コンフォーマブロック（４００）のスタックを備えている、
請求項１２に記載のコンピュータ実装方法（６００）。

【請求項14】

前記コンフォーマブロック（４００）のスタックは、４つの前記コンフォーマブロック（４００）を備えている、
請求項１３に記載のコンピュータ実装方法（６００）。

【請求項15】

前記音声クリーナ（３００）、前記自己注意ブロック（４００）のスタック、および前記マスキング層（２４０）、は前記データ処理ハードウェア（１１２）で実行されており、
前記データ処理ハードウェア（１１２）はユーザデバイス（１１０）に存在しており、
前記ユーザデバイス（１１０）は、前記ターゲット発話（１２）および前記マルチチャネルコンテキストノイズ信号（２０４）を、前記ユーザデバイス（１１０）のマイクロフォン（１１６）のアレイを介してキャプチャするよう構成されている、
請求項１２～１４のいずれか１項に記載のコンピュータ実装方法（６００）。

【請求項16】

前記音声強調モデル（２００）は、前記マイクロフォン（１１６）のアレイの前記マイクロフォン（１１６）の数に関して不可知である、
請求項１５に記載のコンピュータ実装方法（６００）。

【請求項17】

前記動作はさらに、前記音声クリーナ（３００）を使用することで、
前記マルチチャネルノイジー入力信号（２０２）の第１チャネル（２０６）を除く前記マルチチャネルノイジー入力信号（２０２）のすべてのチャネル（２０６）に有限インパルス応答（ＦＩＲ）フィルタを適用することで、合計出力（３１２）を生成する工程と、および
前記マルチチャネルノイジー入力信号（２０２）の前記第１チャネル（２０６）から前記合計出力（３１２）を減算することによって、単一チャネルのクリーニング済入力信号（３４０）を生成するべくアダプティブノイズキャンセレーションアルゴリズムを実行する工程と、
を備えている、
請求項１２～１４のいずれか１項に記載のコンピュータ実装方法（６００）。

【請求項18】

バックエンド音声システム（１８０）は、前記ターゲット発話（１２）に対応する前記強調済入力音声特徴（２５０）を処理するように構成されている、
請求項１２～１４のいずれか１項に記載のコンピュータ実装方法（６００）。

【請求項19】

前記バックエンド音声システム（１８０）は、自動音声認識（ＡＳＲ）モデル（１９２）、オーディオ呼出アプリケーション、もしくはオーディオ－ビデオ呼出アプリケーション、のうちの少なくとも１つを備えている、
請求項１８に記載のコンピュータ実装方法（６００）。

【請求項20】

前記音声強調モデル（２００）は、スペクトル損失および自動音声認識ＡＳＲ損失（５６０）を使用することで、バックエンド自動音声認識（ＡＳＲ）モデル（１９２）としての自動音声認識ＡＳＲモデル（１９２）とで共同でトレーニングされる、
請求項１２～１４のいずれか１項に記載のコンピュータ実装方法（６００）。

【請求項21】

前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のＬ１損失関数およびＬ２損失関数の距離に基づいており、
前記理想的比率マスクは、残響音声および残響ノイズを使用することで計算される、
請求項２０に記載のコンピュータ実装方法（６００）。

【請求項22】

前記自動音声認識ＡＳＲ損失（５６０）は、
トレーニング発話（５３２）に対して前記音声強調モデル（２００）によって予測された強調済音声特徴（２５０）を入力として受信するように構成された前記自動音声認識ＡＳＲモデル（１９２）の自動音声認識ＡＳＲエンコーダ（５４０）を使用することで、前記強調済音声特徴（２５０）の前記自動音声認識ＡＳＲエンコーダ（５４０）の予測出力（５２２）を生成する工程と、
入力として前記トレーニング発話（５３２）のターゲット音声特徴（５３６）を受信するように構成された前記自動音声認識ＡＳＲエンコーダ（５４０）を使用することで、前記ターゲット音声特徴（５３６）の前記自動音声認識ＡＳＲエンコーダ（５４０）のターゲット出力（５２４）を生成する工程と、および
前記強調済音声特徴（２５０）の前記自動音声認識ＡＳＲエンコーダ（５４０）の前記予測出力（５２２）と、前記ターゲット音声特徴（５３６）の前記自動音声認識ＡＳＲエンコーダ（５４０）の前記ターゲット出力（５２４）と、に基づき前記自動音声認識ＡＳＲ損失（５６０）を計算する工程と、
によって計算される、
請求項２０に記載のコンピュータ実装方法（６００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、自動音声認識のためのマイクロフォンアレイ構成でインバリアントな、ストリーミングな、マルチチャネルな、ニューラル強調フロントエンドに関する。

【背景技術】

【0002】

自動音声認識（ＡＳＲ）システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模なトレーニングデータ、およびトレーニングデータを拡張するための戦略の改善、によって長年にわたって大幅に向上している。しかし、残響（リバベレーション）、著しい暗騒音（バックグラウンドノイズ、背景ノイズ）、および競合音声（コンピーティングスピーチ）、などの様々な条件は、自動音声認識ＡＳＲシステムのパフォーマンスを大幅に低下させる。共同（ジョイント）の自動音声認識ＡＳＲモデルは、これらの条件を処理するようにトレーニングされ得る。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０２１／０１３３４５号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、音声ベースのノイズと、非音声ベースのノイズと、を備えているバックグラウンド条件で音声を分離することは、特に困難である。

【課題を解決するための手段】

【0005】

本開示の一態様は、音声認識のためのマルチチャネルニューラルフロントエンド音声強調（スピーチエンハンスメント）モデルを提供する。マルチチャネルニューラルフロントエンド音声強調モデルは、音声（スピーチ）クリーナと、マルチヘッド自己注意機構（セルフアテンションメカニズム）を各々有している自己注意ブロックのスタックと、およびマスキング層と、を備えている。音声クリーナは、入力として、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を受信する一方で、出力として、単一チャネルのクリーニング済入力信号を生成する。自己注意ブロックのスタックは、入力として、自己注意ブロックのスタックの最初のブロックで、音声クリーナから出力済の単一チャネルのクリーニング済入力信号と、単一チャネルノイジー入力信号と、を備えているスタック入力を受信する一方で、自己注意ブロックのスタックの最終的なブロックからの出力として、アンマスクド出力（マスクされていない出力）を生成する。マスキング層は、入力として、単一チャネルノイジー入力信号と、自己注意ブロックのスタックの最終的なブロックからの出力として生成済のアンマスクド出力と、を受信する一方で、出力として、ターゲット発話に対応する強調済入力音声特徴（エンハンスドインプットスピーチフィーチャー）を生成する。

【0006】

本開示の実施態様は、以下の任意選択の特徴の１つまたは複数を含み得る。いくつかの実施態様では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを備えている。これらの実施態様では、コンフォーマブロックのスタックは、４つのコンフォーマブロックを含み得る。いくつかの例では、音声強調モデルは、ユーザデバイスに存在するデータ処理ハードウェアで実行される。ここでユーザデバイスは、ユーザデバイスのマイクロフォンのアレイを介して、ターゲット発話とマルチチャネルコンテキストノイズ信号とをキャプチャするように構成されている。これらの例では、音声強調モデルは、マイクロフォンのアレイのマイクロフォンの数に関して不可知（アグノスティック）であり得る。

【0007】

いくつかの実施態様では、音声クリーナは、アダプティブノイズキャンセレーションアルゴリズムを実行することで、単一チャネルのクリーニング済入力信号を生成するべく、マルチチャネルノイジー入力信号の第１チャネルを除くマルチチャネルノイジー入力信号のすべてのチャネルに有限インパルス応答（ＦＩＲ）フィルタを適用することで合計出力を生成する工程と、マルチチャネルノイジー入力信号の第１チャネルから合計出力を減算する工程と、を実行する。いくつかの例では、バックエンド音声システムは、ターゲット発話に対応する強調済入力音声特徴を処理するように構成されている。これらの例では、バックエンド音声システムは、自動音声認識（ＡＳＲ）モデル、またはオーディオ呼び出し（コール）アプリケーション、もしくはオーディオ－ビデオ呼出アプリケーション、のうちの少なくとも１つを備えている。

【0008】

いくつかの実施態様では、音声強調モデルは、スペクトル損失および自動音声認識ＡＳＲ損失を使用することで、バックエンド自動音声認識（ＡＳＲ）モデルとで共同でトレーニングされる。これらの実施態様では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のＬ１損失関数およびＬ２損失関数の距離に基づき得る。ここで理想的比率マスクは、残響音声および残響ノイズを使用することで計算される。追加的または代替的に、自動音声認識ＡＳＲ損失は、トレーニング発話に対して音声強調モデルによって予測された強調済音声特徴を入力として受信するように構成された自動音声認識ＡＳＲモデルの自動音声認識ＡＳＲエンコーダを使用することで、強調済音声特徴の自動音声認識ＡＳＲエンコーダの予測出力を生成する工程と、入力としてトレーニング発話のターゲット音声特徴を受信するように構成された自動音声認識ＡＳＲエンコーダを使用することでターゲット音声特徴の自動音声認識ＡＳＲエンコーダのターゲット出力を生成する工程と、によって計算される。ここで自動音声認識ＡＳＲ損失を計算する工程は、強調済音声特徴の自動音声認識ＡＳＲエンコーダの予測出力と、ターゲット音声特徴の自動音声認識ＡＳＲエンコーダのターゲット出力と、に基づく。

【0009】

本開示の別の態様は、データ処理ハードウェアで実行されたとき、データ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供する。動作は、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を受信する工程と、音声強調モデルの音声クリーナを使用することで、単一チャネルのクリーニング済入力信号を生成する工程と、を備えている。動作はまた、音声クリーナから出力済の単一チャネルのクリーニング済入力信号と、単一チャネルノイジー入力信号と、を備えているスタック入力を受信するように構成された音声強調モデルの自己注意ブロックのスタックからの出力として、アンマスクド出力を生成する工程を備えている。ここで自己注意ブロックのスタックの各自己注意ブロックは、マルチヘッド自己注意機構を備えている。動作は、単一チャネルノイジー入力信号と、自己注意ブロックのスタックからの出力として生成済のアンマスクド出力と、を受信するように構成された音声強調モデルのマスキング層を使用することで、ターゲット発話に対応する強調済入力音声特徴を生成する工程をさらに備えている。

【0010】

この態様は、以下の任意選択の特徴のうちの１つまたは複数を含み得る。いくつかの実施態様では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを備えている。これらの実施態様では、コンフォーマブロックのスタックは、４つのコンフォーマブロックを含み得る。いくつかの例では、音声クリーナ、自己注意ブロックのスタック、およびマスキング層、はユーザデバイスに存在するデータ処理ハードウェアで実行される。ここでユーザデバイスは、ユーザデバイスのマイクロフォンのアレイを介して、ターゲット発話とマルチチャネルコンテキストノイズ信号とをキャプチャするように構成されている。これらの例では、音声強調モデルは、マイクロフォンのアレイのマイクロフォンの数に関して不可知（アグノスティック）であり得る。

【0011】

いくつかの実施態様では、動作は、音声クリーナを使用することで、マルチチャネルノイジー入力信号の第１チャネルを除くマルチチャネルノイジー入力信号のすべてのチャネルに有限インパルス応答（ＦＩＲ）フィルタを適用することで、合計出力を生成する工程と、およびマルチチャネルノイジー入力信号の第１チャネルから合計出力を減算することによって、単一チャネルのクリーニング済入力信号を生成するべくアダプティブノイズキャンセレーションアルゴリズムを実行する工程と、をさらに備えている。いくつかの例では、バックエンド音声システムは、ターゲット発話に対応する強調済入力音声特徴を処理するように構成されている。これらの例では、バックエンド音声システムは、自動音声認識（ＡＳＲ）モデル、またはオーディオもしくはオーディオ－ビデオ呼出アプリケーションのうちの少なくとも１つを備えている。

【0012】

いくつかの実施態様では、音声強調モデルは、スペクトル損失および自動音声認識ＡＳＲ損失を使用することで、バックエンド自動音声認識（ＡＳＲ）モデルとで共同でトレーニングされる。これらの実施態様では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のＬ１損失関数およびＬ２損失関数の距離に基づき得る。ここで理想的比率マスクは、残響音声および残響ノイズを使用することで計算される。追加的または代替的に、自動音声認識ＡＳＲ損失は、トレーニング発話に対して音声強調モデルによって予測された強調済音声特徴を入力として受信するように構成された自動音声認識ＡＳＲモデルの自動音声認識ＡＳＲエンコーダを使用することで、強調済音声特徴の自動音声認識ＡＳＲエンコーダの予測出力を生成する工程と、入力としてトレーニング発話のターゲット音声特徴を受信するように構成された自動音声認識ＡＳＲエンコーダを使用することで、ターゲット音声特徴の自動音声認識ＡＳＲエンコーダのターゲット出力を生成する工程と、によって計算される。ここで自動音声認識ＡＳＲ損失を計算する工程は、強調済音声特徴の自動音声認識ＡＳＲエンコーダの予測出力と、ターゲット音声特徴の自動音声認識ＡＳＲエンコーダのターゲット出力と、に基づく。

【0013】

本開示の１つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、は説明および図面ならびに特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0014】

【図1】話されたターゲット発話を音声対応ユーザデバイスに通信するユーザを備えている、システムの概略図である。

【図2】図１のマルチチャネルニューラルフロントエンド音声強調モデルの概略図である。

【図3】マルチチャネルニューラルフロントエンド音声強調モデルの音声クリーナの概略図である。

【図4】マルチチャネルニューラルフロントエンド音声強調モデルの自己注意コンフォーマブロックの概略図である。

【図5】コンテキストフロントエンド処理モデルと自動音声認識モデルとを、共同でトレーニングするための例示的なトレーニング処理の概略図である。

【図6】マルチチャネルニューラルフロントエンド音声強調モデルを使用した自動音声認識の方法についての動作の例示的な構成の例示的なフローチャートである。

【図7】本明細書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0015】

種々の図面における同様の参照記号は、同様の要素を指す。
自動音声認識（ＡＳＲ）システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模トレーニングデータ、およびトレーニングデータを拡張するための戦略の改善、によって数年にわたって大幅に向上している。にもかかわらず、バックグラウンド干渉は、自動音声認識ＡＳＲシステムに向けられた音声を正確に認識する自動音声認識ＡＳＲシステムの機能を大幅に低下させ得る。バックグラウンド干渉は、３つのグループ、つまりデバイスエコー、暗騒音、および競合音声、に大まかに分類できる。これらのバックグラウンド干渉グループの各々を分離して扱うべく、別々の自動音声認識ＡＳＲモデルをトレーニングすることが可能にされている。しかし、複数のタスク／条件に特有の自動音声認識ＡＳＲモデルを維持するとともに、使用中にその場でモデルを切り替えることは、困難であるだけでなく、実用的ではない。

【0016】

デバイスエコーは、スマートホームスピーカなどのデバイスからの再生オーディオ出力に対応することができる。よって、再生オーディオは、エコーとして記録されることで、自動音声認識ＡＳＲシステムなどのバックエンド音声システムのパフォーマンスに影響を与え得る。特に、バックエンド音声システムのパフォーマンスの低下は、再生オーディオが可聴音声を備えている場合、例えばデジタルアシスタントからのテキスト読み上げ（ＴＴＳ）応答を備えている場合、特に深刻である。

【0017】

非音声特性を有している暗騒音（バックグラウンドノイズ、背景ノイズ）は、通常、自動音声認識ＡＳＲモデルのマルチスタイルトレーニング（ＭＴＲ）などのデータ拡張戦略を使用することで、適切に処理される。ここでは、室内シミュレータを使用することでトレーニングデータにノイズが加えられる。次いでトレーニング中に、それらがクリーンなデータで慎重に重み付けされることで、クリーン状態とノイジー状態との間におけるパフォーマンスのバランスがとられる。結果、大規模な自動音声認識ＡＳＲモデルは、中程度レベルの非音声ノイズに対してロバストである。しかし、低い信号対ノイズ比（ＳＮＲ）条件の存在下では、暗騒音は、依然として、バックエンド音声システムのパフォーマンスに影響を与え得る。

【0018】

非音声の暗騒音とは異なり、競合音声は、単一の話者を認識するようにトレーニングされる自動音声認識ＡＳＲモデルにとっての大きな難題である。自動音声認識ＡＳＲモデルを複数の送話者の音声でトレーニングすることは、推論中にどの話者に焦点を当てるべきかの曖昧さをなくすことが難しいので、それ自体が問題になる場合がある。サポートするユーザ数を事前に知ることは困難であるので、複数の話者を認識するモデルを使用することも最適ではない。さらに、そのような複数話者モデルは、通常、単一話者設定ではパフォーマンスが低下しており、望ましくない。

【0019】

前述した３つのバックグラウンド干渉のクラスは、通常、互いに分離して対処されており、各々が別々のモデリング戦略を使用している。最近の文献では、深層クラスタリング、順列不変トレーニングの技術を使用するとともに、話者埋め込みを使用する音声分離が多くの注目を集めている。話者埋め込みを使用する場合、対象のターゲット話者は先験的に既知であると想定される。話者分離のために開発された技術は、トレーニングデータを修正するとともに、非音声ノイズを除去することにも応用される。音響エコーキャンセレーション（ＡＥＣ）もまた、暗騒音の存在下で、単独でまたは一緒に研究されてきた。非線形処理によってもたらされる歪みは自動音声認識ＡＳＲパフォーマンスに悪影響を与え得るので、音声の質を改善しても自動音声認識ＡＳＲパフォーマンスが必ずしも向上するわけではないことは周知である。着信オーディオを最初に処理する強調フロントエンドと、得られる自動音声認識ＡＳＲパフォーマンスと、の不一致を軽減する１つの方法は、強調フロントエンドを、バックエンド自動音声認識ＡＳＲモデルとで一緒に共同でトレーニングすることである。

【0020】

さらに、大規模な多領域および多言語自動音声認識ＡＳＲモデルのアプリケーションが関心を集め続けている。これらの自動音声認識ＡＳＲモデルのトレーニングデータが通常、様々な音響および言語のユースケース（例えば、音声検索およびビデオキャプション）をカバーしているので、より困難なノイズの条件に同時に対処することが難しくなっている。その結果、バックエンド自動音声認識ＡＳＲモデルとで組合せることなく、不利な条件に対処できる別々のフロントエンド特徴処理モデルを、トレーニングおよび維持することが好都合であることが多い。

【0021】

本明細書の実施態様は、自動音声認識ＡＳＲのロバスト性を向上させるべくフロントエンド音声強調モデルをトレーニングすることを対象とする。このモデルは、特にストリーミング自動音声認識ＡＳＲ設定において、事前にどのクラスのバックグラウンド干渉に対処するかを知ることは、不可能ではないにしても困難であるという観点から、実用的である。具体的には、フロントエンド音声強調モデルは、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を利用することが可能にされているコンテキスト強調ニューラルネットワーク（ＣＥＮＮ）を備えている。音声強調および分離の場合、ノイズコンテキスト、すなわち、認識すべきターゲット発話前の数秒のオーディオは、音響コンテキストに関する有用な情報を伝達する。コンテキスト強調（エンハンスド）ニューラルネットワークＣＥＮＮは、ノイジー入力およびコンテキスト入力を取り込むように構成された各々のニューラルネットワークアーキテクチャを使用することで、強調済入力音声特徴を生成する。強調済入力音声特徴は、ターゲット発話に対する音声認識結果を発生させるように強調済入力音声特徴を処理し得る、自動音声認識ＡＳＲモデルなどのバックエンド音声システムに渡され得る。特に、フロントエンド音声強調モデルはマルチチャネルアレイで動作するように設計されているが、フロントエンド音声強調モデル自体は、アレイのチャネル数またはその構成に関して不可知（アグノスティック）である。

【0022】

図１を参照すると、いくつかの実施態様において、システム１００は、音声環境において、発声ターゲット発話（スポークン目標アタランス１２）を音声対応ユーザデバイス１１０（デバイス１１０またはユーザデバイス１１０とも呼ばれる）に伝えるユーザ１０を備えている。ユーザ１０（すなわち、発話１２の話者）は、デバイス１１０からの応答を求めるクエリまたはコマンドとして、ターゲット発話１２を話し得る。ユーザデバイス１１０は、音声環境内部の１人以上のユーザ１０、１１からの音をキャプチャするように構成されている。ここでオーディオ音は、可聴クエリ、デバイス１１０用のコマンド、またはデバイス１１０によってキャプチャされる可聴通信、として機能するユーザ１０による語られた発話（スポークンアタランス１２）を指し得る。デバイス１１０の音声対応システムは、またはデバイス１１０に関連付けられている音声対応システムは、クエリに応答したり、および／またはコマンドを実行したり、することによってコマンドのクエリを実行し得る。

【0023】

様々なタイプのバックグラウンド干渉は、デバイス１１０へのクエリまたはコマンドを指定するターゲット発話１２を処理するバックエンド音声システム１８０の能力に干渉する虞がある。前述のように、バックグラウンド干渉は、ユーザデバイス（例えば、スマートスピーカ）１１０から出力済の再生オーディオ１５４に対応するデバイスエコーの１つまたは複数と、ユーザデバイス１１０に向けられていない１人以上の他のユーザ１１によって話されたターゲット発話１２以外の発話などの競合音声１３と、および別のユーザデバイス１１１からの着信音１５などの非音声特性を有している暗騒音（バックグラウンドノイズ）と、を含み得る。本明細書の実施態様は、デバイス１１０で実行されているマルチチャネルニューラルフロントエンド音声強調モデル２００（モデル２００またはフロントエンド音声強調モデル２００とも呼ばれる）を使用する。マルチチャネルニューラルフロントエンド音声強調モデル２００は、入力として、ターゲット発話１２とバックグラウンド干渉とに対応する音声特徴を備えているマルチチャネルノイジー入力信号２０２と、マルチチャネルコンテキストノイズ信号２０４と、を受信するとともに、バックグラウンド干渉を除去するべくマルチチャネルノイジー入力信号２０２およびマルチチャネルコンテキストノイズ信号２０４を処理することによってターゲット発話１２に対応する強調済入力音声特徴２５０を出力として生成するよう構成されている。マルチチャネルノイジー入力信号２０２は、オーディオの１つまたは複数のチャネル２０６、２０６ａ～２０６ｎを備えている。次に、バックエンド音声システム１８０は、強調済入力音声特徴２５０を処理することで、出力１８２を生成することが可能にされている。とりわけ、マルチチャネルニューラルフロントエンド音声強調モデル２００は、バックエンド音声システム１８０に提供される強調済入力音声特徴２５０が、デバイス１１０用に意図された音声（すなわち、ターゲット発話１２）を伝達してバックエンド音声システム１８０によって生成済の出力１８２がバックグラウンド干渉によって劣化されないように、ユーザ１０がターゲット発話１２を話したときにデバイス１１０によって記録されるバックグラウンド干渉の存在を効果的に除去する（すなわち、マスクする）。

【0024】

図示の例では、バックエンド音声システム１８０は自動音声認識ＡＳＲシステム１９０を備えている。自動音声認識ＡＳＲシステム１９０は、強調済入力音声特徴２５０を処理することで、ターゲット発話１２に対する音声認識結果（例えば、トランスクリプション）を生成する自動音声認識ＡＳＲモデル１９２を使用する。自動音声認識ＡＳＲシステム１９０は、ターゲット発話１２のトランスクリプションに対して意味解釈（セマンティックインタープリテ－ション）を実行することで、デバイス１１０に向けられたクエリ／コマンドを識別する自然言語理解（ＮＬＵ）モジュール（図示せず）をさらに含み得る。したがって、バックエンド音声システム１８０からの出力１８２は、自然言語理解ＮＬＵモジュールによって識別されたクエリ／コマンドを達成するためのトランスクリプションおよび／または命令を含み得る。

【0025】

バックエンド音声システム１８０は、追加的または代替的に、強調済入力音声特徴２５０が、ホットワード検出モデルが検出するようにトレーニングされた１つまたは複数のホットワード／ウォームワードの存在を備えているか否かを検出するように構成されたホットワード検出モデル（図示せず）を含み得る。例えば、ホットワード検出モデルは、ターゲット発話１２に対応する強調済入力音声特徴２５０が特定のホットワード／ウォームワードを備えている尤度を示すホットワード検出スコアを出力し得る。ホットワードの検出は、ウェイクアップ処理をトリガすることができ、この処理は、デバイス１１０をスリープ状態からウェイクアップする。例えば、デバイス１１０は、ホットワード、および／またはホットワードに先行／後続の１つまたは複数の用語をウェイクアップして処理することが可能にされている。

【0026】

追加の例では、バックグラウンド音声システム１８０は、オーディオまたはオーディオ－ビデオ呼出アプリケーション（例えば、ビデオ会議アプリケーション）を備えている。ここでターゲット発話１２に対応する強調済入力音声特徴２５０は、オーディオまたはオーディオ－ビデオ通信セッション中に、受信者への通信のためにターゲット話者（１０）の声をフィルタリングするべく、オーディオまたはオーディオ－ビデオ呼出アプリケーションによって使用される。バックグラウンド音声システム１８０は、追加的または代替的に、強調済入力音声特徴２５０を使用することで話者識別を実行することで、ターゲット発話１２を話したユーザ１０を識別するように構成された話者識別モデルを含み得る。

【0027】

図示の例では、デバイス１１０は、ユーザ１０以外の１つまたは複数のソースから発するバックグラウンド干渉の存在下で、ユーザ１０によって話されたターゲット発話１２のマルチチャネルノイジー入力信号２０２（オーディオデータとも呼ばれる）をキャプチャする。マルチチャネルノイジー入力信号２０２は、オーディオの１つまたは複数の単一チャネルノイジー入力信号２０６、２０６ａ～２０６ｎを備えている。デバイス１１０は、ユーザ１０に関連付けられており、マルチチャネルノイジー入力信号２０２を受信することが可能にされている任意のコンピューティングデバイスに対応し得る。ユーザデバイス１１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ、スマートヘッドホンなど）、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、スマートスピーカなどを備えているが、これらに限定されない。デバイス１１０は、データ処理ハードウェア１１２と、データ処理ハードウェア１１２に通信するメモリハードウェア１１４と、を備えている。メモリハードウェア１１４は、データ処理ハードウェア１１２によって実行されたときデータ処理ハードウェア１１２に１つまたは複数の動作を実行させる命令を格納する。マルチチャネルニューラルフロントエンド音声強調モデル２００は、データ処理ハードウェア１１２で実行され得る。いくつかの例では、バックエンド音声システム１８０が、データ処理ハードウェア１１２で実行される。

【0028】

いくつかの例では、デバイス１１０は、１つまたは複数のアプリケーション（すなわち、ソフトウェアアプリケーション）を備えており、各アプリケーションは、アプリケーション内の様々な機能を実行するべく、マルチチャネルニューラルフロントエンド音声強調モデル２００によって生成済の強調済入力音声特徴２５０を利用し得る。例えば、デバイス１１０は、合成再生オーディオ１５４をユーザ１０に通信することで、ユーザ１０の様々なタスクを支援するように構成されるアシスタントアプリケーションを備えている。

【0029】

ユーザデバイス１１０はさらに、音声環境の内部で、語られた発話（１２）をキャプチャし電気信号に変換するためのオーディオキャプチャデバイス（例えば、マイクロフォン）１１６、１１６ａ～１１６ｎのアレイと、可聴オーディオ信号（例えば、デバイス１１０からの合成再生オーディオ１５４）を通信するための音声出力デバイス（例えば、スピーカ１１８）と、を備えたオーディオサブシステムを備えている（または通信する）。ユーザデバイス１１０のマイクロフォン１１６のアレイの各マイクロフォン１１６は、マルチチャネルノイジー入力信号２０２の別個の専用チャネル２０６に発話（１２）を別々に記録することが可能にされている。例えば、ユーザデバイス１１０は、各々発話（１２）を記録する２つのマイクロフォン１１６を含み得、２つのマイクロフォン１１６からの記録は、結合されて２チャネルのノイジー入力信号２０２（すなわち、立体音響オーディオまたはステレオ）になり得る。すなわち、２つのマイクロフォンは、ユーザデバイス１１０に存在する。いくつかの例では、ユーザデバイス１１０は、３つ以上のマイクロフォン１１６を備えている。追加的または代替的に、ユーザデバイス１０２は、ユーザデバイス１１０とは別個の／リモートな２つ以上のマイクロフォン１１６に通信し得る。例えば、ユーザデバイス１１０は、車両内に配置されており、車両の２つ以上のマイクロフォン１１６との有線通信または無線通信（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標））を行なうモバイルデバイスであってもよい。いくつかの構成では、ユーザデバイス１１０は、別個のデバイス１１１に存在する少なくとも１つのマイクロフォン１１６に通信しており、それは、限定するものではないが、車載オーディオシステム、コンピューティングデバイス、スピーカ、または別のユーザデバイスを含み得る。これらの構成では、別個のデバイス１１１はまた、ユーザデバイス１１０に存在する１つまたは複数のマイクロフォン１１６に通信してよい。

【0030】

いくつかの例では、デバイス１１０は、ネットワーク（図示せず）を介してリモートシステム１３０に通信するように構成されている。リモートシステム１３０は、リモートデータ処理ハードウェア１３４（例えば、リモートサーバまたはＣＰＵ）および／またはリモートメモリハードウェア１３６（例えば、リモートデータベースまたは他のストレージハードウェア）などの、リモートリソース１３２を含み得る。ユーザデバイス１１０は、リモートリソース１３２を利用することで、音声処理および／または合成再生通信に関連する様々な機能を実行し得る。マルチチャネルニューラルフロントエンド音声強調モデル２００およびバックエンド音声システム１８０は、デバイス１１０に存在する場合があり（オンデバイスシステムと呼ばれる）、またはデバイス１１０に通信しながらもリモートに存在する場合がある（例えば、リモートシステム１３０に存在する場合がある）。いくつかの例では、１つまたは複数のバックエンド音声システム１８０は、ローカルに、またはオンデバイスに存在するが、１つまたは複数の他のバックエンド音声システム１８０は、リモートに存在する。換言すれば、マルチチャネルニューラルフロントエンド音声強調モデル２００から出力済の強調済入力音声特徴２５０を活用する１つまたは複数のバックエンド音声システム１８０は、任意の組合せでローカルまたはリモートであり得る。例えば、システム１８０のサイズがかなり大きい場合、あるいは処理要件である場合は、システム１８０がリモートシステム１３０に存在してもよい。しかし、デバイス１１０が１つまたは複数のシステム１８０のサイズまたは処理要件をサポートし得る場合、１つまたは複数のシステム１８０は、データ処理ハードウェア１１２および／またはメモリハードウェア１１４を使用することでデバイス１１０に存在してもよい。任意選択で、システム１８０の１つまたは複数は、ローカル／オンデバイス、およびリモートの両方に存在してもよい。例えば、バックエンド音声システム１８０は、デバイス１１０とリモートシステム１３０との間の接続が利用可能にされているとき、デフォルトでリモートシステム１３０で実行することが可能にされているが、接続が失われる、または利用できないとき、システム１８０は、代わりにデバイス１１０でローカルに実行する。

【0031】

いくつかの実施態様では、デバイス１１０は、またはデバイス１１０に関連付けられているシステムは、ユーザ１０によって話されたクエリへの応答として、デバイス１１０がユーザ１０に通信するテキストを識別する。次に、デバイス１１０は、テキスト読み上げ（ＴＴＳ）システムを使用することで、テキストを、デバイス１１０が対応する合成再生オーディオ１５４に変換するとともに、クエリへの応答としてユーザ１０に通信する（例えば、ユーザ１０とは可聴で通信する）ことができる。生成されると、ＴＴＳシステムは、合成再生オーディオ１５４をデバイス１１０に通信することで、デバイス１１０が合成再生オーディオ１５４を出力することを可能にする。例えば、デバイス１１０は、ユーザ１０が今日の天気予測に対する口頭におけるクエリをしたことに応答して、デバイス１１０のスピーカ１１８で「今日は晴れです」という合成再生オーディオ１５４を出力する。

【0032】

図１を引き続き参照すると、デバイス１１０が合成再生オーディオ１５４を出力するとき、合成再生オーディオ１５４は、オーディオキャプチャデバイス１１６によってキャプチャ済のエコー１５６を生成する。合成再生オーディオ１５４は、参照オーディオ信号に対応する。合成再生オーディオ１５４は、図１の例では参照オーディオ信号を示しているが、参照オーディオ信号は、スピーカ１１８からのメディアコンテンツ出力、またはユーザ１０がデバイス１１０を介して会話しているリモートユーザからの通信（例えば、ボイスオーバーＩＰコールまたはビデオ会議コール）、を備えている他のタイプの再生オーディオ１５４を含み得る。残念ながら、エコー１５６に加えて、オーディオキャプチャデバイス１１６はまた、「明日はどうですか」で始まる、天気についてさらに問うフォローアップクエリを備えている、ユーザ１０によって話されたターゲット発話１２を同時にキャプチャすることがある。例えば、図１は、デバイス１１０が合成再生オーディオ１５４を出力するときに、ユーザ１０が、デバイス１１０に、「明日はどうですか」で始めることによって、語られた発話（１２）で、天気についてさらに問うことを描写している。ここで語られた発話（１２）およびエコー１５６は、両方とも同時にオーディオキャプチャデバイス１１６でキャプチャされるので、マルチチャネルノイジー入力信号２０２を形成する。換言すれば、マルチチャネルノイジー入力信号２０２は、ユーザ１０によって話されたターゲット発話１２の一部が、デバイス１１０のスピーカ１１８から出力済の参照オーディオ信号（例えば、合成再生オーディオ１５４）の一部に重複する、重複したオーディオ信号を備えている。合成再生オーディオ１５４に加えて、環境内の別のユーザ１１によって話された競合音声１３と、別個のユーザデバイス１１１からの着信音（リングトーン）１５などの非音声特性と、もオーディオキャプチャデバイス１１６によってキャプチャされ得るので、ターゲット発話１２とで重複するバックグラウンド干渉に寄与し得る。

【0033】

図１では、バックエンド音声システム１８０は、ターゲット発話１２に干渉するバックグラウンド干渉の存在に起因する、マルチチャネルノイジー入力信号２０２におけるフォローアップの天気のクエリ「明日はどうですか」に対応するターゲット発話１２を処理する問題を有し得る。ここでバックグラウンド干渉は、再生オーディオ１５４、競合音声１３、または非音声の暗騒音（ノンスピーチバックグラウンドノイズ１５）、のうちの少なくとも１つに帰属される。ユーザ１０がターゲット発話１２を話したときにデバイス１１０によって記録されるバックグラウンド干渉の存在を効果的に除去（すなわち、マスキング）することによって、バックエンド音声システム１８０のロバスト性を改善するべく、マルチチャネルニューラルフロントエンド音声強調モデル２００が使用される。

【0034】

モデル２００は、ノイズコンテキストモデリングを適用することによって音声強調を実行してもよい。モデル２００の音声クリーナ３００は、ターゲット発話１２がユーザ１０によって話される前に、オーディオキャプチャデバイス１１６によってキャプチャ済のノイズセグメントの所定期間に関連するマルチチャネルコンテキストノイズ信号２０４を処理する。いくつかの例では、所定期間は、６秒のノイズセグメントを備えている。したがって、マルチチャネルコンテキストノイズ信号２０４は、ノイズコンテキストをもたらす。いくつかの例では、マルチチャネルコンテキストノイズ信号２０４は、コンテキスト情報として使用するためのノイズコンテキスト信号のＬＦＢＥ（ログ－メルフィルタバンクエネルギー）特徴を備えている。

【0035】

図２は、図１のマルチチャネルニューラルフロントエンド音声強調モデル２００を示す。マルチチャネルニューラルフロントエンド音声強調モデル２００は、短距離および遠距離の相互作用をモデル化するべく、畳込と自己注意を組合せたコンフォーマニューラルネットワークアーキテクチャの修正バージョンを使用する。マルチチャネルニューラルフロントエンド音声強調モデル２００は、音声クリーナ３００、特徴スタック２２０、エンコーダ２３０、およびマスキング層２４０、を備えている。音声クリーナ３００は、アダプティブノイズキャンセレーションアルゴリズムを実行し得る（図３）。エンコーダ２３０は、自己注意ブロック４００のスタックを含み得る。

【0036】

音声クリーナ３００は、入力として、マルチチャネルノイジー入力信号２０２およびマルチチャネルコンテキストノイズ信号２０４を受信する一方で、出力として、単一チャネルのクリーニング済入力信号３４０を生成するように構成され得る。ここで音声クリーナ３００は、マルチチャネルノイジー入力信号２０２を処理するための有限インパルス応答（ＦＩＲ）フィルタを備えている。

【0037】

図３は、音声クリーナ３００によって実行される例示的なアダプティブノイズキャンセレーションアルゴリズムを提示している。ここで音声クリーナ３００は、ＦＩＲフィルタを備えているＦＩＲモジュール３１０と、最小化モジュール３２０と、キャンセルモジュール３３０と、を備えている。

【0038】

図示の例では、簡単にするべく、マルチチャネルノイジー入力信号２０２は、３つのチャネル２０６ａ～２０６ｃを備えており、各々が、３つのマイクロフォン１１６のアレイの別個の専用マイクロフォン１１６ａ～１１６ｃによってキャプチャされる各々のオーディオ特徴を備えている。ただし、上記のように、フロントエンド音声強調モデル２００は、マイクロフォン１１６のアレイのマイクロフォン１１６の数に関して不可知である。換言すれば、マルチチャネルノイジー入力信号２０２は、本開示の範囲から逸脱することなく、１つのマイクロフォン１１６によってキャプチャ済の１つのチャネル２０６、２つのマイクロフォン１１６によってキャプチャ済の２つのチャネル２０６、または４つ以上のマイクロフォン１１６によってキャプチャ済の４つ以上のチャネル２０６、を備えていることができる。

【0039】

ここでＦＩＲモジュール３１０は、第１チャネル２０６ａを除くマルチチャネルノイジー入力信号２０２のすべてのチャネル２０６にＦＩＲフィルタを適用することで、合計出力３１２を生成する。換言すれば、ＦＩＲモジュール３１０は、マルチチャネルノイジー入力信号２０２の第１チャネル２０６ａを処理しない一方で、マルチチャネルノイジー入力信号２０２の第２チャネル２０６ｂおよび第３チャネル２０６ｃにＦＩＲフィルタを適用することで、合計出力３１２を生成する。最小化モジュール３２０は、合計出力３１２および第１チャネル２０６ａを受信するとともに、マルチチャネルノイジー入力信号２０２の第１チャネル２０６ａから合計出力３１２を減算することによって、「最小化された出力」（ミニマイズドアウトプット）３２２を生成する。数学的には、ＦＩＲフィルタは、チャネル２０６ｂ、２０６ｃに適用される一方でチャネル２０６ａには適用されない長さＬの３つのタップ付き遅延ラインを備えている。最小化された出力３２２の決定は、次のように表され得る。

【0040】

【数1】

【0041】

式中、

【0042】

【数2】

【0043】

は、チャネル２０６ｂ、２０６ｃの時間遅延短時間フーリエ変換（ＳＴＦＴ）の処理が為された入力のベクトルである。Ｕ_ｍ（ｋ）は、チャネル２０６ｂ、２０６ｃに適用されるフィルタ係数のベクトルである。

【0044】

【数3】

【0045】

およびＵ_ｍ（ｋ）は、次のように表され得る。

【0046】

【数4】

【0047】

Ｕ_ｍ（ｋ）＝［Ｕ_ｍ（ｋ，０），Ｕ_ｍ（ｋ，１），…Ｕ_ｍ（ｋ，Ｎ－１）］^Ｔ（３）
式中、フィルタ係数は、次のように、出力のパワーを最小化することが可能にされている。

【0048】

【数5】

【0049】

音声クリーナ３００はデバイス１１０において実装されるので、キャンセルモジュール３３０は、マルチチャネルノイジー入力信号２０２内の発話（１２）の直前に発生するマルチチャネルコンテキストノイズ信号２０４を使用することが可能にされている。言い換えれば、最小化モジュール３２０は、発話（１２）がマルチチャネルノイジー入力信号２０２に存在しないときに、マルチチャネルコンテキストノイズ信号２０４の最中に、適応を通じて、最小化された出力３２２を生成する。適応は、再帰的最小二乗法（ＲＬＳ）アルゴリズムを含んでもよい。音声クリーナ３００が発話（１２）を検出すると、フィルタ係数は固定されているとともに、キャンセルモジュール３３０は発話（１２）の前の最後の係数をマルチチャネルノイジー入力信号２０２に適用することでバックグラウンド干渉をキャンセルすることで、次のように単一チャネルのクリーニング済入力信号３４０を生成する。

【0050】

【数6】

【0051】

図２に戻り参照すると、特徴スタック２２０は、単一チャネルのクリーニング済入力信号３４０と、マルチチャネルノイジー入力信号２０２の単一チャネル２０６ａと、を入力として受信する。そして特徴スタック２２０はスタック入力２３２を生成するように構成されている。スタック入力２３２は、単一チャネルのクリーニング済入力信号３４０と、単一チャネル２０６ａと、を備えている。特徴スタック２２０は、単一チャネルのクリーニング済入力信号３４０と、マルチチャネルノイジー入力信号２０２の単一チャネル２０６ａと、の各々を、ステップサイズ１０ｍｓを伴う３２ミリ秒（ｍｓ）のウィンドウサイズを使用することで、１２８次元のｌｏｇ－ｍｅｌ（ログ－メル）ドメインに変換し得る。ここで４つのフレームは、特徴スタック２２０への入力時に３０ｍｓのステップでスタックされ得る。

【0052】

エンコーダ２３０は、単一チャネルのクリーニング済入力信号３４０と、マルチチャネルノイジー入力信号２０２の単一チャネル２０６ａと、を備えているスタック入力２３２を受信するとともに、アンマスクド出力（マスクされていないアウトプット）４８０を出力として生成する。エンコーダ２３０は、自己注意ブロック４００（ブロック４００とも呼ばれる）のスタックを備えている。ここで自己注意ブロック４００のスタックの最初のブロック（４００）は、スタック入力２３２を受信する。スタック入力２３２は、音声クリーナ３００から出力済の単一チャネルのクリーニング済入力信号３４０と、マルチチャネルノイジー入力信号２０２の単一チャネル２０６と、を備えている。自己注意ブロック４００のスタックの最終的なブロック（４００）は、アンマスクド出力４８０を生成する。

【0053】

各コンフォーマブロック（４００）は、（第１半分）フィードフォワード層、自己注意層、畳込層（畳み込み層）、および第２（半分）フィードフォワード層、を含み得る。いくつかの実施態様では、自己注意ブロック４００のスタックは、コンフォーマブロック（４００）のスタックを備えている。これらの実施態様では、コンフォーマブロック（４００）のスタックは、コンフォーマブロック（４００）の４つの層を備えており、各々、１０２４個のユニット、８個のアテンションヘッド、１５×１の畳込カーネルサイズ、およびストリーミングモデルを可能にする６４フレームの自己注意、を有している。コンフォーマブロック（４００）の例は、図４を参照しながら下記においてさらに詳細に説明される。

【0054】

マスキング層２４０は、エンコーダ２３０の自己注意ブロック４００によって出力済のアンマスクド出力４８０と、マルチチャネルノイジー入力信号２０２の単一チャネル２０６ａと、を入力として受信するとともに、出力として、ターゲット発話１２に対応する、強調済（エンハンスド）入力音声特徴２５０を生成するように構成されている。いくつかの実施態様では、モデル２００のマスキング層２４０は、アンマスクド出力４８０を、ターゲット発話１２に対応する強調済入力音声特徴２５０にデコードするように構成されたデコーダ（図示せず）を備えている。ここでデコーダは、シグモイド活性化を伴う単一層のフレーム単位の完全に接続済のネットワークを有している、単純な投影デコーダを含み得る。

【0055】

図４は、エンコーダ２３０の自己注意ブロック４００のスタックからのブロック（４００）の例を提示する。自己注意ブロック４００では、マルチヘッド自己注意ブロック４２０および畳込層（畳み込み層）４３０は、第１半分フィードフォワード層４１０と第２半分フィードフォワード層４４０との間に配置されている、第１半分フィードフォワード層４１０、第２半分フィードフォワード層４４０、および連結演算子４０５、４０５ａ～４０５ｄ、を備えている。第１半分フィードフォワード層４１０は、音声クリーナ３００から出力済の単一チャネルのクリーニング済入力信号３４０と、単一チャネルノイジー入力信号２０６ａと、を備えているスタック入力２３２を処理することで、出力４１２を生成する。次に、第１連結演算子４０５ａは、出力４１２をスタック入力２３２に連結することで、第１連結入力４１４を生成する。続いて、マルチヘッド自己注意ブロック４２０は、第１連結入力４１４を受信することで、ノイズサマリー４２２を生成する。直感的には、マルチヘッド自己注意ブロック４２０の役割は、強調すべき各入力フレームについて、ノイズコンテキストを別々に要約することである。

【0056】

次に、第２連結演算子４０５ｂは、出力済のノイズサマリー４２２を第１連結入力４１４に連結することで、第２連結入力４２４を生成する。続いて、畳込層（畳み込み層）４３０は、マルチヘッド自己注意ブロック４２０のノイズサマリー４２２を備えている第２連結入力４２４と、第１連結入力４１４と、をサブサンプリングすることで畳込出力４３２を生成する。その後、第３連結演算子４０５ｃは、畳込出力４３２を第２連結入力４２４に連結することで、第３連結入力４３４を生成する。第３連結入力４３４は、第２半分フィードフォワード層４４０への入力としてもたらされており、第２半分フィードフォワード層４４０は出力４４２を生成する。第２半分フィードフォワード層４４０の出力４４２は、第４連結演算子４０５ｄによって第３連結入力４３４に連結されることで、第４連結入力４４４を生成する。最後に、ｌａｙｅｒｎｏｒｍ（レイヤーノルム、層正規化）モジュール４５０は、第２半分フィードフォワード層４４０からの第４連結入力４４４を処理する。数学的には、自己注意ブロック４００は、次のように、変調特徴（モデュレーションフィーチャーズ）ｍを使用することで入力特徴（インプットフィーチャーズ）ｘを変換することによって、出力特徴ｙを生成する。

【0057】

【数7】

【0058】

自己注意ブロック４００は、出力として、アンマスクド出力（マスクされていないアウトプット）４８０を生成する。このアンマスクド出力４８０は、自己注意ブロック４００の次の層に渡される。このようにして入力（２０４、２０６）は、自己注意ブロック４００の各々によって変調される。

【0059】

図５は、フロントエンド音声強調モデル２００が自動音声認識ＡＳＲモデル１９２とで共同でトレーニングされるときの自動音声認識ＡＳＲ損失５６０を計算するための例示的なトレーニング処理５００を示す。トレーニング処理５００は、図１のリモートシステム１３０で実行されてよい。示されるように、トレーニング処理５００は、データストア５１０に格納済の１つまたは複数のトレーニングデータセット５２０を取得することで、トレーニングデータセット５２０によってマルチチャネルニューラルフロントエンド音声強調モデル２００をトレーニングする。データストア５１０は、リモートシステム１３０のメモリハードウェア１３６に存在し得る。各トレーニングデータセット５２０は、複数のトレーニング例（訓練サンプル）５３０、５３０ａ～５３０ｎを備えている。各トレーニング例５３０は、トレーニング発話５３２を含み得る。ここで自動音声認識ＡＳＲモデル１９２のエンコーダ（５４０）のみが、損失を計算するべく使用される。自動音声認識ＡＳＲ損失５６０は、トレーニング発話５３２のターゲット特徴（５３６）についての自動音声認識ＡＳＲエンコーダ５４０の出力と、強調済入力音声特徴２５０と、の間のｌ２（エルツー）距離として計算される。自動音声認識ＡＳＲエンコーダ５４０は、トレーニング処理５００中では更新されない。詳細には、トレーニング処理５００は、以下の２つの工程によって、自動音声認識ＡＳＲ損失５６０を計算する。１つ目の工程は、自動音声認識ＡＳＲモデル１９２の自動音声認識ＡＳＲエンコーダ５４０を使用することで、強調済入力音声特徴２５０についての自動音声認識ＡＳＲエンコーダ５４０の予測出力５２２を生成する工程である。ここで自動音声認識ＡＳＲエンコーダ５４０は、トレーニング発話５３２についてのフロントエンド音声強調モデル２００によって予測された強調済入力音声特徴２５０を、入力として受信するように構成されている。２つ目の工程は、入力としてトレーニング発話５３２のターゲット音声特徴５３６を受信するように構成された自動音声認識ＡＳＲエンコーダ５４０を使用することで、ターゲット音声特徴５３６の自動音声認識ＡＳＲエンコーダ５４０のターゲット出力５２４を生成する工程である。強調済入力音声特徴２５０の予測出力５２２と、ターゲット音声特徴５３６のターゲット出力５２４と、は各々、ＬＦＢＥ（ログ－メルフィルタバンクエネルギー）特徴の各々のシーケンスを含み得る。その後、トレーニング処理５００は、損失モジュール５５０を介して、強調済入力音声特徴２５０の自動音声認識ＡＳＲエンコーダ５４０の予測出力５２２と、ターゲット音声特徴５３６の自動音声認識ＡＳＲエンコーダ５４０のターゲット出力５２４と、に基づき自動音声認識ＡＳＲ損失５６０を計算する。自動音声認識ＡＳＲ損失５６０を使用する目標（ゴール）は、フロントエンド音声強調モデル２００の強調を、自動音声認識ＡＳＲモデル１９２に更に近づける（アチューンされる）ことである。これは、フロントエンド音声強調モデル２００から、最良のパフォーマンスを得るべく重要である。自動音声認識ＡＳＲモデル１９２のパラメータを固定したままにすることによって、自動音声認識ＡＳＲモデル１９２は、フロントエンド音声強調モデル２００からデカップリングされる。よって各々を互いに独立してトレーニングおよび展開（デプロイ）することが可能になる。

【0060】

いくつかの実施態様では、フロントエンド音声強調モデル２００は、スペクトル損失および自動音声認識ＡＳＲ損失５６０を使用することで、バックエンド自動音声認識ＡＳＲシステム１８０の自動音声認識ＡＳＲモデル１９２とで共同でトレーニングされる。マルチチャネルニューラルフロントエンド音声強調モデル２００をトレーニングするためのトレーニングターゲット（５３６）は、理想的比率マスク（ＩＲＭ：アイデアルレシオマスク）を使用する。理想的比率マスクＩＲＭは、次のように、Ｍｅｌスペクトル空間では音声とノイズとの相関が無いという仮定に基づき、残響音声（レバルベラントスピーチ）および残響ノイズ（レバルベラントノイズ）を使用することで計算され得る。

【0061】

【数8】

【0062】

ここでＸおよびＮは各々、残響音声および残響ノイズのＭｅｌスペクトログラムである。ｔおよびｆは、時間およびＭｅｌ周波数ビンインデックスを表す。理想的比率マスクＩＲＭを推定するための選択は、［０，１］の間に制限されるターゲットに基づいているので、推定処理を簡素化する。さらに、評価に使用される自動音声認識ＡＳＲモデル１９２は、実際のおよびシミュレートされた残響データでトレーニングすることができる。結果、残響音声に対して比較的ロバストになっているトレーニング済み自動音声認識ＡＳＲモデル１９２が得られる。したがって、残響音声をターゲットとして使用することで導出された理想的比率マスクＩＲＭは、依然として、パフォーマンスにおいて大幅な向上をもたらす。トレーニング中のスペクトル損失Ｌは、次のように、理想的比率マスクＩＲＭと、推定された理想的比率マスクＩＲＭとしての

【0063】

【数9】

【0064】

と、の間のＬ１損失およびＬ２損失に基づき計算され得る。

【0065】

【数10】

【0066】

推論（インフェランス）中に、推定された理想的比率マスクＩＲＭは、ノイズ抑制の低減を犠牲にすることで音声歪み（スピーチディストーション）を低減するべく、スケーリングおよび床（フロアー）化される。自動音声認識ＡＳＲモデル１９２は、強調フロントエンドを使用することでロバストな自動音声認識ＡＳＲモデルのパフォーマンスを改善する際の主な課題の１つである、音声歪みおよび非線形フロントエンド処理の影響を受けやすい。よって、これは特に重要である。強調した特徴（エンハンスドフィーチャー）は、次のように導出され得る。

【0067】

【数11】

【0068】

ここでＹはノイジーＭｅｌスペクトログラムである。

【0069】

【数12】

【0070】

はクリーンなＭｅｌスペクトログラムの推定値である。αとβは、指数マスクスカラおよびマスク床である。いくつかの例では、αは０．５に設定されている。βは０．０１に設定されている。強調した特徴は、ログ圧縮されるとともに（すなわち

【0071】

【数13】

【0072】

評価のために自動音声認識ＡＳＲモデル１９２に渡され得る。
図６は、方法６００についての動作の例示的な構成のフローチャートを備えている。方法６００は、マルチチャネルニューラルフロントエンド音声強調モデル（２００）を使用した、自動音声認識を実行する。動作６０２において、方法６００は、マルチチャネルノイジー入力信号２０２と、マルチチャネルコンテキストノイズ信号２０４と、を受信する工程を備えている。方法６００はまた、動作６０４において、音声強調モデル２００の音声クリーナ３００を使用することで、単一チャネルのクリーニング済入力信号３４０を生成する工程を備えている。

【0073】

動作６０６で、方法６００はまた、スタック入力２３２を受信するように構成されている音声強調モデル２００の自己注意ブロック４００のスタックからの出力として、アンマスクド出力４８０を生成する工程を備えている。ここでスタック入力２３２は、音声クリーナ３００から出力済の単一チャネルのクリーニング済入力信号３４０と、単一チャネルノイジー入力信号２０６と、を備えている。ここで自己注意ブロック４００のスタックの各自己注意ブロック４００は、マルチヘッド自己注意機構（セルフアテンションメカニズム）を備えている。動作６０８において、方法６００は、音声強調モデル２００のマスキング層２４０を使用することで、ターゲット発話１２に対応する強調済入力音声特徴２５０を生成する工程をさらに備えている。ここでマスキング層２４０は、単一チャネルノイジー入力信号２０６と、自己注意ブロック４００のスタックからの出力として生成済のアンマスクド出力４８０と、を受信するように構成されている。

【0074】

図７は、本明細書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイス７００の概略図である。コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ、など様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、この文書で説明および／または特許請求される本開示の実施態様を制限することを意図してはいない。

【0075】

コンピューティングデバイス７００には、プロセッサ７１０、メモリ７２０、ストレージデバイス７３０、メモリ７２０および高速拡張ポート７５０に接続する高速インタフェース／コントローラ（７４０）、ならびに低速バス７７０およびストレージデバイス７３０に接続する低速インタフェース／コントローラ（７６０）が含まれる。構成要素（７１０、７２０、７３０、７４０、７５０、および７６０）の各々は、様々なバスを使用することで相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在してもよい。プロセッサ７１０（例えば、図１のデータ処理ハードウェア１１２、１３４）は、メモリ７２０またはストレージデバイス７３０に記憶された命令を備えている、コンピューティングデバイス７００内で実行するための命令を処理することで、高速インタフェース（７４０）に接続済のディスプレイ７８０などの外部入出力デバイスにグラフィカルユーザインタフェース（ＧＵＩ）のグラフィカル情報を表示することが可能にされている。他の実施態様では、複数のメモリおよび複数の種類のメモリとでともに、必要に応じて複数のプロセッサおよび／または複数のバスが使用され得る。また、複数のコンピューティングデバイス７００を接続されて、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）各デバイスが必要な動作の部分を提供してもよい。

【0076】

メモリ７２０（例えば、図１のメモリハードウェア１１４、１３６）は、コンピューティングデバイス７００内部に非一時的に情報を記憶する。メモリ７２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的なメモリ７２０は、コンピューティングデバイス７００による使用のために一時的または永続的にプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を格納するべく使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを備えているが、これらに限定されない。

【0077】

ストレージデバイス７３０は、コンピューティングデバイス７００に大容量ストレージを提供することが可能にされている。いくつかの実施態様において、ストレージデバイス７３０はコンピュータ読み取り可能な媒体である。様々な異なる実施態様では、ストレージデバイス７３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他のコンフィグレーションのデバイスを備えている、デバイスアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上述したような１つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ７２０、ストレージデバイス７３０、またはプロセッサ７１０のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0078】

高速コントローラ７４０は、コンピューティングデバイス７００の帯域幅集約動作を管理しており、低速コントローラ７６０は、より低い帯域幅集約動作を管理する。このような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ７４０は、メモリ７２０、ディスプレイ７８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート７５０に結合される。いくつかの実施態様では、低速コントローラ７６０は、ストレージデバイス７３０および低速拡張ポート７９０に結合される。低速拡張ポート７９０には、様々な通信ポート（ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット（登録商標）など）が含まれる場合があり、キーボード、ポインティングデバイス、スキャナ、または、例えばネットワークアダプタなどを介して、スイッチやルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに接続されてもよい。

【0079】

コンピューティングデバイス７００を、図に示すように、複数の種々の形態で実装してもよい。例えば、それは、標準サーバ７００ａとして、またはそれらのようなサーバ（７００ａ）のグループ内の複数倍、ラップトップコンピュータ７００ｂとして、またはラックサーバシステム７００ｃの一部として実装されてよい。

【0080】

本明細書で説明するシステムおよび技術の様々な実施態様は、デジタル電子および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータおよび命令を受信しており、ストレージシステムにデータおよび命令を送信するように結合された、少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを備えているプログラム可能なシステムで実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施態様を備えていることができる。

【0081】

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指してもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを備えているが、これらに限定されない。

【0082】

非一時的なメモリは、コンピューティングデバイスによる使用のために一時的または永続的にプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を格納するべく使用される物理デバイスであってよい。非一時的メモリは、揮発性および／または不揮発性のアドレス指定可能な半導体メモリであり得る。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを備えているが、これらに限定されない。

【0083】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を備えており、かつ高水準手続型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装されることができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を備えているプログラマブルプロセッサに機械命令および／またはデータを提供するべく用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するべく用いられるあらゆる信号を指す。

【0084】

本明細書に説明する処理および論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサが１つまたは複数のコンピュータプログラムを実行することで、入力データに作用しており、出力を生成することによって機能を実行することによって実行できる。処理および論理フローはまた、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行され得る。コンピュータプログラムの実行に適切なプロセッサは、例として、汎用および特殊目的のプロセッサの両方、ならびにいずれかの種類のデジタルコンピュータのいずれか１つまたは複数のプロセッサを備えている。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを格納するための１つまたは複数のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを備えている、またはそれらからデータを受信するもしくはそれらにデータを送信する、あるいはその両方を行なうよう動作可能に接続される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイスが含まれ、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵ハードディスクまたはリムーバブルディスクの磁気ディスク、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサおよびメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。

【0085】

ユーザとのインタラクションを行なうために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイ装置、例えばＣＲＴ（ブラウン管）、ＬＣＤ（液晶画面モニタ）、またはタッチスクリーン、およびユーザがそれによってコンピュータへの入力を行なうことができる任意選択のキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有しているコンピュータに実装することが可能にされている。他の種類のデバイスもまた、ユーザとのインタラクションを行なうために使用できる。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックである場合があり、ユーザからの入力は、音響入力、音声入力、または触覚入力、などあらゆる形式で受信できる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信済の要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。

【0086】

いくつかの実施態様が説明されてきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行ない得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

【図1】