IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特許7383122信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
<>
  • 特許-信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 図1
  • 特許-信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 図2
  • 特許-信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 図3A
  • 特許-信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 図3B
  • 特許-信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-09
(45)【発行日】2023-11-17
(54)【発明の名称】信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
(51)【国際特許分類】
   G10L 15/02 20060101AFI20231110BHJP
   G10L 15/16 20060101ALI20231110BHJP
【FI】
G10L15/02 300Z
G10L15/16
【請求項の数】 21
(21)【出願番号】P 2022506119
(86)(22)【出願日】2020-07-25
(65)【公表番号】
(43)【公表日】2022-10-17
(86)【国際出願番号】 US2020043632
(87)【国際公開番号】W WO2021021683
(87)【国際公開日】2021-02-04
【審査請求日】2022-03-25
(31)【優先権主張番号】62/880,167
(32)【優先日】2019-07-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】19217579.2
(32)【優先日】2019-12-18
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】62/950,013
(32)【優先日】2019-12-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【弁理士】
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【弁理士】
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【弁理士】
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【弁理士】
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】カートライト,リチャード ジェイ.
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2003-271190(JP,A)
【文献】特開2007-11330(JP,A)
【文献】特表2019-514045(JP,A)
【文献】特表平8-508107(JP,A)
【文献】特開平5-108099(JP,A)
【文献】特開2011-2703(JP,A)
【文献】特開平9-258772(JP,A)
【文献】Michael L. Seltzer, et al.,AN INVESTIGATION OF DEEP NEURAL NETWORKS FOR NOISE ROBUST SPEECH RECOGNITION,ICASSP 2013,IEEE,2013年05月,pp.7398-7402
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26,21/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
デジタル化マイクロフォン音声データのフレームを受信する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴セットに少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含するオーディオ処理方法であって、
前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットをさらに含み、
現在のフレームおよび少なくとも1つの過去フレームに基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも1つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、
前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、
前記平均スペクトル表現のすべての周波数帯域にわたっての平均を表す平均広帯域レベルを決定する工程と、
前記平均スペクトル表現から前記平均広帯域レベルを減算することにより、平均レベル非依存スペクトル表現を決定する工程と、
前記平均レベル非依存スペクトル表現のケプストラム分解を決定する工程と、
前記ケプストラム分解に基づいてケプストラム係数のセットを決定する工程と、をさらに包含し、
前記正規化特徴データ構造を生成する工程は、前記平均スペクトル表現に基づく、オーディオ処理方法。
【請求項2】
デジタル化マイクロフォン音声データのフレームを受信する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴セットに少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含するオーディオ処理方法であって、
前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットをさらに含み、
現在のフレームおよび少なくとも1つの過去フレームに基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも1つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、
前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、
平均スペクトル表現のケプストラム分解またはそれを平滑化したものを決定することと、
前記ケプストラム分解に基づいて前記ケプストラム係数のセットを決定することと、をさらに包含し、
前記正規化特徴データ構造を生成する工程は、前記平均スペクトル表現に基づく、オーディオ処理方法。
【請求項3】
前記正規化特徴データ構造を生成する工程は、
前記平均レベル非依存スペクトル表現を平滑化することと、
平滑化された前記平均レベル非依存スペクトル表現および前記平均広帯域レベルを、前記特徴履歴データ構造の各特徴ベクトルから減算することと、
を包含する、請求項に記載の方法。
【請求項4】
前記平均レベル非依存スペクトル表現を平滑化することは、前記ケプストラム分解のスペクトル再合成を行うことを包含する、請求項に記載の方法。
【請求項5】
前記正規化特徴データ構造を生成する工程は、
前記平均レベル非依存スペクトル表現またはそれを平滑化したものを、前記特徴履歴データ構造の各特徴ベクトルから減算することを包含する、
請求項に記載の方法。
【請求項6】
前記ケプストラム分解は1桁の数のケプストラムdnabを含み、前記ケプストラム係数のセットは前記ケプストラム分解のケプストラムdnab群の少なくともサブセットに対応し、前記サブセットは、第一番目のケプストラムdnabを除くサブセットであってもよい(optionally)、請求項1からのいずれかに記載の方法。
【請求項7】
前記平均スペクトル表現は、前記現在のフレームおよび直近の過去フレームに基づく無限インパルス応答IIR平均として決定される、請求項1から6のいずれかに記載の方法。
【請求項8】
前記平均スペクトル表現は、前記複数の周波数帯域の各周波数帯域について、前記特徴履歴データ構造のすべてのフレームの各前記周波数帯域のパワー値の平均を計算することにより、前記特徴履歴データ構造のすべてのフレームに基づく有限インパルス応答FIR平均として決定される、請求項1から6のいずれかに記載の方法。
【請求項9】
前記信号認識または修正処理は音声認識処理を包含する、請求項1からのいずれかに記載の方法。
【請求項10】
前記音声認識処理はウェイクワード認識処理を包含する、請求項に記載の方法。
【請求項11】
前記信号認識または修正処理を実行する工程は、
前記正規化特徴セットを音響モデルに供給することと、
前記音響モデルの出力に基づいて音韻確率推定値を決定することと、
を包含する、請求項9または10に記載の方法。
【請求項12】
前記音響モデルはニューラルネットワークを包含する、請求項11に記載の方法。
【請求項13】
前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理からなる処理のリストより選択された1つまたは複数の処理を包含する、請求項1からのいずれかに記載の方法。
【請求項14】
前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有する、請求項1から13のいずれかに記載の方法。
【請求項15】
前記周波数空間は、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールである、請求項14に記載の方法。
【請求項16】
前記パワー値はパワーの対数を包含する、請求項1から15のいずれかに記載の方法。
【請求項17】
前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含し、前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、または残響推定のうち1つ以上に少なくとも部分的に基づく、請求項1から16のいずれかに記載の方法。
【請求項18】
前記信号認識または修正処理に少なくとも部分的に基づいている後続タスクを実行することをさらに包含し、ここで前記後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、およびデバイスの設定を変更することからなるタスクのリストより選択された1つまたは複数のタスクを含む、請求項1から17のいずれかに記載の方法。
【請求項19】
デジタル化マイクロフォン音声データのフレームを受信する工程は、
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
を包含する、請求項1から18のいずれかに記載の方法。
【請求項20】
請求項1から19のいずれかに記載の方法を実行するように構成された1以上のプロセッサを備える装置。
【請求項21】
請求項1から19のいずれかに記載の方法を実行するように、1つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、1つまたは複数の非一時的媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2019年7月30日に出願された米国仮特許出願第62/880,167号、2019年12月18日に出願された米国仮特許出願第62/950,013号、および2019年12月18日に出願された欧州特許出願第19217579.2号の優先権を主張し、これらの各々の全体を本出願に援用する。
【0002】
本開示は、音声認識を含むがこれに限定されない、オーディオ信号の認識または修正のためのシステムおよび方法に関するものである。
【背景技術】
【0003】
信号認識または修正が可能なデバイスは、以下を含むがこれに限定されない、幅広い応用性を有する。すなわち、ウェイクワード検出などの音声認識処理、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理などである。オーディオ信号の認識または修正を実施するための既存のシステムおよび方法は利点をもたらすものであるが、システムおよび方法の改良が望まれる。
【0004】
表記および命名法
ここで、「スマートオーディオデバイス」という表現は、単一目的オーディオデバイスまたはバーチャルアシスタント(例えば、接続状態にあるバーチャルアシスタント)であるスマートデバイスを表すために用いられる。単一目的オーディオデバイスとは、少なくとも1つのマイクロフォンを含むかまたはそれに結合される(かつ任意に少なくとも1つのスピーカも含むかまたはそれに結合される)デバイス(例えば、テレビ(TV)または携帯電話)であり、単一の目的を達成するために概してまたは主として設計されているデバイスである。TVは典型的には、プログラム素材からのオーディオを再生することができる(再生できると考えられている)が、ほとんどの場合、現代のTVは、テレビを見るというアプリケーションを含むアプリケーションがその上でローカルで実行される、何らかのオペレーティングシステムを実行している。同様に、携帯電話のオーディオ入力と出力は多くのことを行い得るが、これらは電話上で実行されているアプリケーションによってサービスされている。この意味で、スピーカ(複数可)およびマイクロフォン(複数可)を有する単一目的オーディオデバイスは、スピーカ(複数可)およびマイクロフォン(複数可)を直接使用するためのローカルアプリケーションおよび/またはサービスを実行するように構成されることが多い。ゾーンすなわちユーザー設定されたエリアにわたってオーディオの再生を実現するためにグループ化するように構成された、単一目的オーディオデバイスもある。
【0005】
ここで、「バーチャルアシスタント」(例えば、接続状態にあるバーチャルアシスタント)とは、少なくとも1つのマイクロフォンを含むかまたはそれに結合される(かつ任意に少なくとも1つのスピーカも含むかまたはそれに結合される)デバイス(例えば、スマートスピーカ、スマートディスプレイまたは音声アシスタント統合デバイス)であり、ある意味でクラウド対応であるか、さもなくばバーチャルアシスタント自体中やバーチャルアシスタント自体上には実装されていないアプリケーションに対し、複数のデバイス(バーチャルアシスタントとは異なる)を利用できるようにし得るものである。複数のバーチャルアシスタントが、例えば、非常に離散的かつ条件的に定義された方法で、一緒に動作することがある。例えば、2つ以上のバーチャルアシスタントが、それらのうち1つ(すなわちウェイクワードを聞いたことを最も確信している1つ)が、その言葉に応答するという意味において、協働し得る。接続状態にある複数のデバイスが、1つのメインアプリケーションによって管理される、一種のコンステレーションを形成してもよい。その1つのメインアプリケーションは、バーチャルアシスタントであり得る(または、バーチャルアシスタントを含むかまたは実装し得る)。
【0006】
ここで、「ウェイクワード」とは、任意の音(例えば、人間によって発せられた単語、または他の何らかの音)の意味において広義で使用される。スマートオーディオデバイスは、(スマートオーディオデバイスに含まれるかまたは結合された少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを用いた)音の検出(「聞き取り(hearing))に応答して、目覚めるよう構成される。この文脈において「目覚める(awake)」とは、デバイスがサウンドコマンドを待つ(すなわち、耳を立てている)状態に入ることを表す。
【0007】
ここで、「ウェイクワード検出器」という表現は、リアルタイムのサウンド(例えば、発話)特徴と学習済みモデルとの間の整合性を連続的に探索するように構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードイベントは、ウェイクワードが検出された確率が事前に定義された閾値を超えているとウェイクワード検出器によって判断されるたびに、トリガされる。例えば閾値は、他人受入率と本人拒否率との間の良好な妥協点を与えるように調整された、所定の閾値であってもよい。ウェイクワードイベントの後、デバイスはコマンドに耳を立てる状態(「目覚めた(awakened)」状態または「注意深い(attentiveness)」状態と呼ばれることがある)に入り、この状態において、受け取ったコマンドをより大規模でより計算集約的な認識器に渡し得る。
【0008】
特許請求の範囲を含む本開示全体を通じて、「スピーカ」および「ラウドスピーカ」は、同義的に、単一のスピーカフィードによって駆動される任意の音響放射トランスデューサ(またはトランスデューサのセット)を示すように使用される。典型的なヘッドフォンセットは、2つのスピーカを含む。スピーカは、すべてが単一の共通のスピーカフィードによって駆動されるような、複数のトランスデューサ(例えばウーファーとツイーター)を含むように実装され得る。スピーカフィードは、場合によっては、異なるトランスデューサに結合された異なる回路ブランチにおいて異なる処理を受けてもよい。
【0009】
特許請求の範囲を含む本開示全体を通じて、信号またはデータに対して演算(例えば、信号またはデータに対するフィルタリング、スケーリング、変換、またはゲインの適用)を「行う」という表現は、信号またはデータに対して直接演算を行うこと、または信号またはデータの処理済みバージョン(例えば、演算の実行を受ける前に予備フィルタリングまたは前処理されたバージョンの信号)に対して演算を行うことの意味において広義で使用される。
【0010】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、デバイス、システム、またはサブシステムの意味において広義で使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれることがあり、そのようなサブシステムを含むシステム(例えば、複数の入力に応答してX個の出力信号を生成するシステムであって、入力のうちM個をサブシステムが生成し、他のX-M個の入力が外部ソースから受信される)は、デコーダシステムとも呼ばれ得る。
【0011】
特許請求の範囲を含む本開示全体を通じて、「プロセッサ」という用語は、データ(例えば、オーディオ、またはビデオもしくは他の画像データ)に対する演算を実行するためにプログラマブルであるかまたは他の方法で(例えば、ソフトウェアまたはファームウェアによって)構成可能なシステムまたはデバイスの意味において広義で使用される。プロセッサの例としては、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン化処理を行うようにプログラムおよび/または他の方法で構成されたデジタルシグナルプロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットなどが挙げられる。
【発明の概要】
【0012】
要約
本開示の少なくともいくつかの局面は、1つ以上の方法として実装され得る。そのような方法のいくつかは、マイクロフォン音声データをマイクロフォンシステムから受信する工程と、前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程とを任意に包含し得る。いくつかの方法は、前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程とを、任意に包含し得る。前記特徴ベクトルは、複数の周波数帯域のうち各周波数帯域についてのパワー値であってもよいし、またはそれらを含んでもよい。いくつかの例では、前記パワー値はパワーの対数であってもよい。そのような方法のいくつかは、特徴履歴データ構造を形成することを含み得る。前記特徴履歴データ構造は、複数の特徴ベクトルを含んでもよい。
【0013】
そのような方法のいくつかは、前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程を包含してもよい。そのような方法のいくつかは、前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程を包含してもよい。
【0014】
そのような方法のいくつかにおいて、前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットを任意に含み得る。
【0015】
いくつかの実施態様では、現在のフレームおよび少なくとも1つの過去フレーム(previous frame)に基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも1つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、をさらに包含してもよく、前記正規化特徴データ構造を生成する工程は、平均スペクトル表現に基づいてもよい。
【0016】
第1の局面に基づくいくつかの実施態様は、前記平均スペクトル表現のすべての周波数帯域にわたっての平均を表す平均広帯域レベルを決定する工程と、前記平均スペクトル表現から前記平均広帯域レベルを減算することにより、平均レベル非依存スペクトル表現(mean level-independent spectrum representation)を決定する工程と、前記平均レベル非依存スペクトル表現のケプストラム分解を決定する工程と、前記ケプストラム分解に基づいてケプストラム係数のセットを決定する工程と、をさらに包含し得る。いくつかの例では、前記正規化特徴データ構造を生成する工程は、前記平均レベル非依存スペクトルを平滑化することと、平滑化された前記平均レベル非依存スペクトルおよび前記平均広帯域レベルを、前記特徴履歴データ構造の各特徴ベクトルから減算することと、を包含する。前記平均レベル非依存スペクトルを平滑化することは、前記ケプストラム分解のスペクトル再合成を行うことを任意に包含する。
【0017】
第2の局面に基づくいくつかの実施態様では、本方法は、平均スペクトル表現のケプストラム分解またはそれを平滑化したものを決定することと、前記ケプストラム分解に基づいて前記ケプストラム係数のセットを決定することと、をさらに包含する。いくつかの例では、前記正規化特徴データ構造を生成する工程は、前記平均レベル非依存スペクトルまたはそれを平滑化したものを、前記特徴履歴データ構造の各特徴ベクトルから減算することを包含する。
【0018】
第1または第2の局面に基づくいくつかの実施態様では、前記ケプストラム分解は1桁の数のケプストラムdnabを含み、前記ケプストラム係数のセットは前記ケプストラム分解のケプストラムdnab群の少なくともサブセットに対応し、前記サブセットは、第一番目のケプストラムdnabを除くサブセットであってもよい(optionally)。
【0019】
いくつかの例では、前記平均スペクトル表現は、前記現在のフレームおよび前記直近の過去フレームに基づく無限インパルス応答IIR平均として決定される。または、前記平均スペクトル表現は、前記複数の周波数帯域の各周波数帯域について、前記特徴履歴データ構造のすべてのフレームの各前記周波数帯域のパワー値の平均を計算することにより、前記特徴履歴データ構造のすべてのフレームに基づく有限インパルス応答FIR平均として決定される。
【0020】
前記信号認識または修正処理は、音声認識処理であってもよいし、または音声認識処理を含んでもよい。場合によっては、前記音声認識処理は、ウェイクワード認識処理であってもよいし、またはウェイクワード認識処理を含んでもよい。いくつかの例において、前記信号認識または修正処理を実行する工程は、前記正規化特徴データ構造を音響モデルに供給することと、前記音響モデルの出力に基づいて音韻確率推定値を決定することとを包含し得る。前記音響モデルは、場合によっては、ニューラルネットワークを介して実装され得る。代替的または追加的に、前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、および/またはノイズ抑制処理を包含してもよい。
【0021】
いくつかの例において、前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有していてもよい。前記周波数空間は、例えば、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールであってよい。
【0022】
いくつかの例では、前記正規化特徴データ構造を生成する工程は、現在のフレームおよび直近の過去フレームに基づいて、平均広帯域レベルを決定することを包含してもよい。例えば、前記正規化特徴データ構造を生成する工程は、前記現在のフレームおよび前記直近の過去フレームに基づいて、平均スペクトル表現を決定することを包含してもよい。いくつかの実施態様において、前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均広帯域レベルを決定することを包含してもよい。場合によっては、前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均スペクトル表現を決定することを包含してもよい。
【0023】
いくつかの実施態様では、前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含してもよい。前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、および/または残響推定に少なくとも部分的に基づいてもよい。
【0024】
いくつかの例において、前記正規化特徴セットを生成することは平均レベル非依存スペクトル表現を得ることを包含してもよい。いくつかの例では、前記正規化特徴セットを生成することは前記平均レベル非依存スペクトル表現のケプストラム分解を行うことを包含してもよい。場合によっては、前記ケプストラム分解を行うことは、基底行列によって表されるデコリレーション変換を適用することを包含してもよい。前記基底行列は、例えば、離散サイン変換に基づくもの、離散コサイン変換に基づくもの、および/またはKarhunen-Loeve変換に基づくものを表してもよい。
【0025】
いくつかの方法は、前記信号認識または修正処理に少なくとも部分的に基づいている、後続または同時タスクを実行することを包含し得る。前記後続または同時タスクは例えば、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、および/またはデバイスの設定を変更することを包含し得る。
【0026】
本明細書に記載する動作、機能、および/または方法の一部または全ては、1つ以上の非一時的媒体上に格納される命令(例えばソフトウェア)に従って1つまたは複数のデバイスが実施することができる。そのような非一時的媒体は、本明細書に記載のものなどのメモリデバイスを含むことができ、ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)デバイスなどを含むがこれに限定されない。したがって、本開示で説明する主題のいくつかの発明的局面を、ソフトウェアを格納した非一時的媒体に実装することができる。
【0027】
例えば、上記ソフトウェアは、1つまたは複数のデバイスを制御して上述の方法を実行させるための命令を含み得る。
【0028】
本開示の少なくともいくつかの局面は、装置によって実装され得る。例えば、1つまたは複数のデバイスが、本明細書において開示する方法を少なくとも部分的に実行することができる場合がある。いくつかの実施態様では、装置は、インターフェースシステムと制御システムとを含んでいてもよい。制御システムは、1つ以上の汎用のシングルチップもしくはマルチチッププロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジック、ディスクリートハードウェアコンポーネント、またはその組み合わせを含み得る。いくつかの例において、上記制御システムは、上述の方法を実行するように構成され得る。
【0029】
本明細書において記載された主題の1つ以上の実施態様の詳細は、添付の図面および以下の説明に記載されている。他の特徴、局面および利点は以下の説明、図面および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、縮尺通りに描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0030】
図1図1は、本開示の様々な局面を実施することが可能な装置の構成要素の例を示すブロック図である。
図2図2は、図1に示すような装置によって実行され得る方法の一例を概説するフロー図である。
図3A図3Aは、本開示のいくつかの局面を実施するために使用され得るシステムのブロックを示す。
図3B図3Bは、図1に示すような装置によって実行され得る方法の一例を概説するフロー図である。
図4図4は、図3Aの音響モデルを実装するためのアーキテクチャの一例を示す図である。
【0031】
様々な図面における同様な参照番号と表記は、同様の要素を示している。
【発明を実施するための形態】
【0032】
詳細な説明
本開示の多くの実施形態が、技術的に可能である。それらをどのように実施するかは、本開示から当業者には明らかであろう。システムおよび方法のいくつかの実施形態が本明細書に記載されている。
【0033】
音声分析システムには、ウェイクワード検出器、音声認識器、話者認識器、感情認識器などがある。音声分析システムは、多種多様な音響条件において多種多様なマイクロフォンハードウェアで動作することがしばしば要求されるが、このいずれも、音声分析システムの設計時または学習時には、完全に特徴付けることは一般にはできない。これらの問題に対処するために、MFCC(Mel Frequency Cepstral Coefficient features)、fMLLR(feature-space Maximum Likelihood Regression)、CMS(Cepstral Mean Subtraction)、CMVN(Cepstral Mean and Variance Normalization)などの多くの特徴抽出技術や特徴正規化方式が長年にわたって提案されている。
【0034】
これらの方法にはいくつか利点があるが、いずれも完全に満足できるものではないことがわかっている。例えば、正規化と回帰の技術が効果的に機能できるためには、先だってある程度の期間にわたって統計量を収集する必要がある。音声認識の場合には、数十秒から数分の発話を収集しなければ、これらの技術は有効に機能しないことがある。多くの音声分析の使用例において、新しい発話が過去の発話と同じ音響条件で発声される保証はない。たとえば、遠距離ウェイクワード検出の場合、以前に聞かれたことのないユーザーが部屋に入ってきて、以前には話者がいなかった新しい位置に立ち、その人が最初に口にした単語がウェイクワードになり得る、というような流れが予想される。しかし、そのような状況下でも、デバイスはウェイクワードを低い誤作動率で検出することが期待される。さらに、ウェイクワードを検出するデバイスが、例えば、住宅のキッチンに設置された「スマートスピーカ」である場合、ユーザーは、調理活動中にデバイスを頻繁に動かすことが予想され、これにより、幅広い関連音が生じ、ユーザー発声の受信レベルおよびスペクトルが時とともに異なってしまう可能性がある。つまり、2つのウェイクワードが同一の音響条件下で発声されることはない可能性が高いのである。
【0035】
さらに、非加重の正規化技術は、前述の調理に関連する音のような背景ノイズに敏感であることが多い。MFCC法では、最初のケプストラム係数(通常C0と表記)を落としてしまうことがよくあるが、これはメル周波数空間におけるデータの非加重平均を特徴セットから除去する効果がある。ケプストラム平均の推定値が背景ノイズの影響を大きく受ける場合、そのケプストラム平均を減算すると、目的の発話信号を最もよく表すものを含むすべてのケプストラム係数が歪んでしまう。
【0036】
長年にわたり、音声技術システムは、発話音を表す特徴がガウス分布またはガウス混合分布としてモデル化されることを前提に動作してきた。このため、システム設計は、特徴間の共分散が限定された特徴セットの使用に限定されていた。多くの場合、ガウス混合分布モデルを計算しやすくするために、特徴間の統計的独立性(対角共分散)を仮定している。典型的には、MFCCとともにある時間ステップから次の時間ステップまでの差分および差分の差分が特徴セットとして選択されていた。これは、あるユーザーが任意の時間にどの音を発声しているかを分類するのに、時間的にわずか3つの分析フレーム(典型的には合計時間30msの履歴)に依存することを意味していた。人間の発話の音節の長さは100ms程度であるため、例えば音声認識タスクでは、どの音韻が発声されているのかをうまく推定できないことがしばしばあった。
【0037】
これに対して、現代の音声技術システムのほとんどは、ニューラルネットワークベースの発話モデルに依拠している。このようなモデルは典型的には、以前のガウス分布モデルやガウス混合分布モデルに比べて、静的に従属な(共変)特徴を扱う能力がはるかに高い。これらのシステムは、多くの場合、複数の分析フレームぶんの特徴を「スタック化」して、フレームごとにネットワークに供給する。このようなスタック方式により、どの音韻が話されているか(あるいは、ウェイクワードが話されているか、どの話者が話しているか、など)をはるかにロバストに推定することができる。現代の音声認識器における典型的なケースは、ある数(例えば23)の「logmelspec」値(メル周波数で等間隔に並んだ複数のスペクトル帯域のパワーの対数)を10msごとに算出し、そのような特徴の直近の10~20フレームぶんを、230~460次元の拡張特徴ベクトルとして「スタック化」してネットワークに提示することである。
【0038】
いくつかの開示する実施態様は、ニューラルネットワーク音声技術モデルへ入力される複数の分析フレームにわたって「スタック化」された、スペクトル特徴の新規な正規化方法を提供する。いくつかの開示する例では、スペクトル特徴は「logmelspec」特徴であるが、開示する方法は、パワーが計算される周波数帯域がメルスケールで編成されておらず、異なるやり方で編成された方法、例えば、周波数が対数的に間隔を空けられている周波数帯域、バークスケールに従って編成されている周波数帯域などで編成されている場合にも適用可能である。開示するいくつかの正規化方法は、上述した困難の少なくともいくつかを克服することが可能であり得る。
【0039】
このような正規化方法の中には、スタック内の特徴間の正規化のみを行うものもある(例えば、100~200msの時間窓にわたって)。このような方法は、ユーザーが突然、これまで聞かれたことのない音響条件で話し始めた場合でも、正確に発話を認識したり、ウェイクワードを検出したりするのに役立ち得る。
【0040】
マクロスケールのスペクトル形状とミクロスケールのディテールを分離する方法もある。このような方法は、例えば、異なる等化曲線を持つマイクロフォンや異なるスペクトル形状を持つ室内インパルス応答(RIR)に対してロバストであるような、システムを作成するのに役立つ。このような方法を実装したシステムは、従来の方法よりも背景ノイズに対して比較的ロバストになる可能性がある。
【0041】
いくつかの方法は、特徴における重み付け(確実性に基づく重み付けなど)に対応することができる。そのような方法を実装するシステムは、エコーサプレッサ、ノイズサプレッサおよび/または非線形ビームフォーミングシステムなどの前処理システムから追加的な入力を取るように構成されてもよく、これは、場合によってはロバスト性を大いに助けることができる。
【0042】
図1は、本開示の様々な局面を実施することが可能な装置の構成要素の例を示すブロック図である。いくつかの例において、装置110は、本明細書に開示される方法の少なくともいくつかを実行するように構成されたスマートオーディオデバイスであってもよいし、またはそのようなスマートオーディオデバイスを含んでもよい。スマートオーディオデバイスは、例えば、ウェイクワード検出器を含むバーチャルアシスタントであってよい。他の実施態様において、装置110は、ラップトップまたはデスクトップコンピュータ、携帯電話またはタブレットなどのモバイルデバイスなど、本明細書に開示される方法の少なくともいくつかを実行するように構成された他のデバイスであってもよいし、またはそのようなデバイスを含んでもよい。いくつかのそのような実施態様では、装置110は、サーバであってもよいし、またはサーバを含んでもよい。
【0043】
この例では、装置110は、インターフェースシステム115と、制御システム120とを含む。インターフェースシステム115は、いくつかの実施態様では、1つまたは複数のマイクロフォンを含むマイクロフォンシステムから入力を受信するように構成されてもよい。
【0044】
インターフェースシステム115は、1つまたは複数のネットワークインターフェースおよび/または1つまたは複数の外部デバイスインターフェース(1つまたは複数のユニバーサルシリアルバス(USB)インターフェースなど)を含んでもよい。いくつかの実施態様において、インターフェースシステム115は、1つまたは複数の無線インターフェースを含んでもよい。インターフェースシステム115は、1つまたは複数のマイクロフォン、1つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび/またはジェスチャセンサシステムなどの、ユーザーインターフェースを実装するための1つまたは複数のデバイスを含んでもよい。いくつかの例では、インターフェースシステム115は、制御システム120と図1に示すオプションのメモリシステム125などのメモリシステムとの間に、1つまたは複数のインターフェースを含んでもよい。しかしながら、場合によっては、制御システム120がメモリシステムを含んでいてもよい。
【0045】
制御システム120は、例えば、汎用シングルチップまたはマルチチッププロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、および/またはディスクリートハードウェアコンポーネントを含み得る。いくつかの実施態様では、制御システム120は、複数のデバイス中に存在し得る。例えば、制御システム120の一部が装置110中に存在し、制御システム120の別の部分は、サーバ、スマートオーディオデバイス、モバイルデバイス(例えばスマートフォンまたはタブレットコンピュータ)などの別のデバイス中に存在してもよい。インターフェースシステム115もまた、いくつかのそのような例では、複数のデバイス中に存在していてもよい。したがって、いくつかの実施態様では、装置100は、本開示の各局面を実装するための1つまたは複数のクラウドベースのサービス(クラウドベースの音声認識処理サービスを含むがこれに限定されない)を実装するために使用される複数のデバイスの1つであってよい。
【0046】
いくつかの実施態様では、制御システム120は、少なくとも部分的に、本明細書に開示される方法を実行するように構成されてもよい。いくつかの例において、制御システム120は、例えば、本明細書に開示されるもののうちの1つ以上のような信号認識または修正処理を実行するように構成されてもよい。いくつかのそのような例では、制御システム120は、音声認識処理を実行するように構成されてもよい。音声認識処理は、例えば、ウェイクワード認識処理を含んでもよい。
【0047】
本明細書に記載される方法のいくつかまたはすべては、1つまたは複数の非一時的媒体に格納された命令(例えば、ソフトウェア)に従って、1つまたは複数のデバイスによって実行され得る。そのような非一時的媒体は、本明細書に記載のものなどのメモリデバイスを含むことができ、ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)デバイスなどを含むがこれに限定されない。1つまたは複数の非一時的媒体は、例えば、図1に示すオプションのメモリシステム125および/または制御システム120中に存在してもよい。したがって、本開示に記載する主題の様々な革新的な局面は、ソフトウェアが格納された1つまたは複数の非一時的媒体において実施され得る。ソフトウェアは、例えば、音声データを処理するための少なくとも1つのデバイスを制御するための命令を含むことができる。ソフトウェアは、例えば、図1の制御システム120などの制御システムの1つ以上の構成要素によって実行可能であってよい。
【0048】
図2は、図1に示すような装置によって実行され得る方法の一例を概説するフロー図である。方法200のブロックは、本明細書に記載される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されているよりも多いまたは少ないブロックを含むことができる。
【0049】
この例では、ブロック205は、マイクロフォンシステムからマイクロフォン音声データを受信することを含む。いくつかのそのような例において、マイクロフォンシステムのすべてのマイクロフォンは、方法200を実行している装置、例えば、装置110の一部である。しかしながら、いくつかの実施態様では、方法200を実行している装置は、マイクロフォンシステムの少なくとも一部を含まなくてもよい。いくつかのそのような例では、マイクロフォンシステムは、環境内の1つまたは複数の他の場所、例えばその環境における1つまたは複数の他のデバイス内に存在する、1つまたは複数のマイクロフォンを含んでもよい。
【0050】
この例において、ブロック205はアナログマイクロフォン音声データの受信を含み、ブロック210はマイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成することを含む。しかしながら、代替的な実施態様では、方法200は、処理の最初のブロックとしてデジタル化マイクロフォン音声データを受信することを含んでもよい。
【0051】
同様に、この例では、ブロック215は、デジタル化マイクロフォン音声データのフレームを生成するために、デジタル化マイクロフォン音声データをフレーム化することを含む。いくつかの実施態様において、ステップサイズは10msであってよい。そのような例では、logmelspec特徴の新しいフレームは、10msごとに算出される。他の実施態様では、より長いまたはより短いステップサイズを用いてもよい。例えば、いくつかの実施態様では、5ms、15ms、20ms、25ms、30msなどのステップサイズを有してもよい。10msのステップサイズを用いてlogmelspec特徴を算出するために、いくつかの例では、20msの入力マイクロフォン音声データが、変換において50%のオーバーラップで用いられてもよい。代替的な実施態様では、より長いまたは短いオーバーラップを用いることができる。例えばいくつかの実施態様では、各10msフレームを算出するために、30ms、40ms、50ms、60ms、70ms、80ms、90msまたは100msの入力マイクロフォン音声データが用いられてもよい。システムによっては、入力マイクロフォン音声データのサンプルの2のべき乗カウントとなるようなステップサイズを用いることを選択することがある。なぜならこれによりFFTを用いた効率的な変換の実施態様が得られるからである。例えば、いくつかの実施態様では、Fs=16kHzで256個の入力サンプル(16ms)、または128個の入力サンプル(8ms)を用い得る。いくつかの代替的な実施態様は、Fs=32kHzで256個の入力サンプルまたは512個の入力サンプルを用いてもよい。しかしながら、代替的な実施態様では、方法200は、処理の最初のブロックとしてデジタル化マイクロフォン音声データのフレームを受信することを含んでもよい。
【0052】
この例において、ブロック220は、デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出することを含む。この例では、特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む。したがって、いくつかの例では、ブロック220(またはブロック215などの前のブロック)は、デジタル化マイクロフォン音声データを時間領域から周波数領域中の複数の周波数帯域に変換することを含んでもよい。いくつかの例では、特徴ベクトルは、15、20、25、30、40、45または50個の値を含んでもよい。
【0053】
いくつかの例では、周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有していてもよい。周波数空間は、例えば、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールであってよい。パワー値は、例えば、パワーの対数であってもよい。いくつかの例において、対数表現はデシベルである。
【0054】
この実施態様では、ブロック225は、特徴履歴データ構造を形成することを含む。ブロック225は、特徴ベクトルを「スタックする」処理を含んでもよい。この例では、特徴履歴データ構造は、複数の特徴ベクトルを含む。いくつかのそのような例では、5、10、15、20、25、30個またはそれ以上の特徴ベクトルが存在してもよい。いくつかの実施態様において、特徴履歴データ構造は、100ms~200msの合計時間長を有する特徴ベクトルを含んでもよい。例えば、10msのステップサイズを有するいくつかのそのような実施態様は、特徴履歴データ構造中に10フレームから20フレームの特徴ベクトルを含んでもよい。20msのステップサイズを有するいくつかのそのような実施態様は、特徴履歴データ構造中に5フレームから10フレームの特徴ベクトルを含んでもよい。100ms~200msの合計時間長を有する特徴ベクトルを含む特徴履歴データ構造を作成することは、発話の平均音節率が100msごとに約1音節であることを少なくとも理由として、音声関連タスクに有利である。したがって、音韻や音節を認識するような実施態様については、100msから200msの合計時間長が適しているといえる。非発話音の認識、単語全体の認識などを含む実施態様では、より長いまたは短い合計時間長が適切である場合がある。
【0055】
この実施態様において、ブロック230は、正規化特徴データ構造を含む正規化特徴セットを生成することを含む。この例では、ブロック230は、特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することを含む。
【0056】
いくつかの例において、ブロック230は、平均レベル非依存スペクトル表現または平均スペクトル表現を得ることを含んでもよい。いくつかのそのような例では、ブロック230は、平均レベル非依存スペクトル表現または平均スペクトル表現のケプストラム分解を実行することを含んでもよい。いくつかのそのような例において、正規化特徴セットは、正規化特徴データ構造の全体的な平均スペクトル形状に対応する係数のセットを含んでもよい。係数のセットは、例えば、ケプストラム分解に少なくとも部分的に基づいてもよい。
【0057】
図2に示す例では、ブロック235は、ブロック230で生成された正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行することを含む。場合によっては、信号認識または修正処理は、音声認識処理を含んでもよい。いくつかのそのような例では、音声認識処理は、ウェイクワード認識処理であってもよい。
【0058】
いくつかの実施態様において、信号認識または修正処理を実行することは、正規化特徴データ構造を音響モデルに供給することと、音響モデルの出力に基づいて音韻確率推定値を決定することとを含んでもよい。いくつかの例では、音響モデルは、ニューラルネットワークを介して実装されてもよい。
【0059】
代替的に、または追加的に、信号認識または修正処理を実行することは、音声認識処理以外の処理を含んでもよい。例えば、信号認識または修正処理を実行することは、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、および/またはノイズ抑制処理を含んでもよい。
【0060】
いくつかの実施態様では、方法200は、信号認識または修正処理に少なくとも部分的に基づいている少なくとも1つの後続タスクを実行することを含み得る。いくつかのそのような実施態様において、後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、および/またはデバイスの設定(例えば、テレビ設定、スピーカ設定、サーモスタット設定、ホームセキュリティシステム設定、家電設定、ヒーティングまたは空調設定など)を変更することを含むことができる。
【0061】
図3Aは、本開示のいくつかの局面を実施するために使用され得るシステムのブロックを示す。図3Aのブロック303、304、305、307、309および311は、例えば、図1を参照して上述した制御システム120などの制御システムを介して実装され得る。
【0062】
この例では、話し手301は、マイクロフォンシステム302によってピックアップされる発声313を行っている。話し手(talker)は、本明細書では、"話者(speaker)"と呼ばれることもある。マイクロフォンシステム302は、特定の実施態様に依存して、単一のマイクロフォンまたは2つ以上のマイクロフォンのアレイを含むことができる。
【0063】
この例では、マイクロフォンシステム302は、アナログマイクロフォン音声データをアナログ-デジタル変換器303に供給する。これは、図2のブロック205の例である。アナログ-デジタル変換器303は、アナログマイクロフォン音声データをデジタル化して、デジタル化マイクロフォン音声データを生成するように構成される。これは、図2のブロック210の一例である。
【0064】
この例において、デジタル化マイクロフォン音声データは、デジタル前処理ユニット304に供給される。アナログ-デジタル変換器303またはデジタル前処理ユニット304のいずれかが、デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成するように構成されてもよい(ブロック215)。デジタル前処理ユニット304は、エコー抑制、ノイズ抑制、ビーム形成などの1つ以上のタイプのオーディオ前処理を提供するように構成されてもよい。
【0065】
本例では、特徴抽出ブロック305は、デジタル前処理ユニット304から出力されるデジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出するように構成されている。これは、図2のブロック220の例である。特徴ベクトルは、複数の周波数帯域のうち各周波数帯域についてのパワー値であってもよいし、またはそのようなパワー値を含んでもよい。いくつかの例では、特徴抽出ブロック305は、パルスコード変調(PCM)データを「logmelspec」データに変換するように構成されてもよい。例えば、特徴抽出ブロック305は、ある時間間隔において、メル周波数空間における等幅の複数の周波数帯域のそれぞれにおけるパワーの対数を算出するように構成されてもよい。いくつかの例では、時間間隔は、6ms、8ms、10ms、12ms、14msなどであってよい。いくつかの例において、周波数帯域の数は、8、10、12、16、18、20、22、24、25、26、28、30、40、45、50などであってもよい。
【0066】
ブロック306は、デジタル前処理ユニット304から出力されるデジタル化マイクロフォン音声データの1フレームから特徴抽出ブロック305によって生成される特徴ベクトルを示すものである。一例では、特徴ベクトル306は、25個の実数を含む。代替的な例では、特徴ベクトル306は、より多くのまたはより少ない個数(例えば、15、20、30、35個など)の実数を含んでもよい。
【0067】
この実施態様において、スタック化ユニット307は履歴バッファを有し、複数の特徴ベクトルを、特徴の時間および周波数における2次元配列308に格納または「スタック化」するように構成されている。配列308は、図2のブロック225で形成される特徴履歴データ構造の一例である。非限定的な例において、10msごとに、新たな25帯域の特徴ベクトル306が特徴抽出ブロック305によって算出されてもよい。そのような一例において、スタック化ユニット307は、スタック化ユニット307の出力が特徴履歴の25個(周波数)×10個(時間)の配列308となるように、直近の10個の特徴ベクトル306を保持する。
【0068】
この例では、配列308は、正規化ブロック309に供給される。いくつかの例では、正規化ブロック309は、配列308の各特徴ベクトル306の複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴セット310を生成するように構成されてもよい。正規化ブロック309のいくつかの詳細な例を以下に説明する。この例では、正規化特徴セット310は、正規化特徴の2次元配列(すなわち「スタック」)310Aを含む。この配列310Aは、いくつかの実施態様では、配列308と同じサイズを有することになる。この例において、正規化特徴セット310は、配列310Aの全体的な平均スペクトル形状を記述する、ケプストラム特徴310Bも含む。この例では、ケプストラム特徴310Bは、2つの実数のみを含む。様々な例において、ケプストラム特徴310Bの数は、配列310Aの値の数よりはるかに小さい。
【0069】
この例では、正規化特徴セット310は、音響モデル311に供給され、これは、場合によっては、ディープニューラルネットワーク(Deep Neural Network:DNN)、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)またはリカレントニューラルネットワーク(Recurrent Neural Network:RNN)などのニューラルネットワークを介して実装されてもよい。音響モデル311は、いくつかの例では、音声認識のために構成されてもよい。音響モデル311は、いくつかのそのような例では、正規化特徴セット310内の各実数値に対して1つの入力を有し、かつ、それによってモデル化される各音韻またはセノン確率に対して1つの出力を有するであろう。図3Aは、音響モデル311によって生成される音韻確率推定値312の一例を示す。
【0070】
図3Bは、図1に示すような装置によって実行され得る方法の一例を概説するフロー図である。方法320のブロックは、本明細書に記載される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されているよりも多いまたは少ないブロックを含むことができる。
【0071】
この例では、方法320のブロック325~355は、図3Aの正規化ブロック309によって実行され得るブロックの例である。この例において、ブロック325は、入力スタックの全フレームにわたる平均スペクトルを算出することを含む。入力スタックは、例えば、図3Aの配列308であってよい。いくつかの例において、ブロック325は、以下のように平均スペクトルを算出することを含み得る。
【数1】
(式200)
【0072】
式200において、x[f,t]は、過去の特定の時間t(範囲[1,T]内、ここでインデックス1は直近のデータに対応する)および特定の周波数帯域f(範囲[1,F]内)における、配列308の非正規化入力特徴を表している。式200において、μは、すべてのフレーム[1,T]にわたって平均化された平均スペクトルを表す。
【0073】
この例において、ブロック330は、入力スタック内のすべてのフレームにわたって平均レベルを算出することを含む。この例では、ブロック330は、例えば、以下のように、すべての周波数にわたるスペクトルの平均を取ることを含む。
【数2】
(式201)
【0074】
式201において、Lは平均広帯域レベルを表す。しかし、Lは他の方法で算出されてもよい。いくつかの実施態様では、式200を式201に代入し、二重和を形成することによって、Lはxから直接算出されてもよい。例えば、MATLABまたはJuliaを使用することを含むいくつかの実施態様では、Lをxの平均に等しく設定してもよい。
【0075】
この例では、ブロック335は、平均レベル非依存スペクトルを算出することを含む。いくつかの例において、ブロック335は、以下のように平均レベル非依存スペクトルを算出することを含み得る。
【数3】
(式202)
【0076】
式202において
は、全フレーム[1,T]にわたって平均化された平均レベル非依存スペクトルを表す。
【0077】
図3Bに示す例では、ブロック340は、平均レベル非依存スペクトルの滑らかなケプストラム近似を算出することを含む。いくつかの例では、ブロック340は、少数のケプストラム「dnab」について、滑らかなケプストラム近似を計算することを含む。本明細書では、logmelspecデータの離散コサイン変換を意味するために、ケプストラムという用語を使用することに留意されたい。スペクトル項に対応するケプストラム項を考え出すために、単語の一部の文字を逆にすることはよくあることである。例えば、ケプストラム領域で実施されるフィルタリング(filtering)は、一般に「リフタリング(liftering)」と呼ばれる。そこで、ここでは、スペクトル帯域(band)に相当するケプストラムを「dnab」と呼ぶことにする。
【0078】
フラット基底関数(flat basis function)に対応するものを除くケプストラム成分(通常、第1番目のケプストラム成分を除くことを意味する)は、音声認識器が使用するのに都合のよい形式でスタック内の音声データの概略的なスペクトル形状を要約する1セットのケプストラム出力成分(例えば、図3Aのケプストラム特徴310B)として捉えることができる。
【0079】
いくつかの例において、ブロック340は以下のように滑らかなケプストラム近似を算出することを含んでもよい。
【数4】
(式203)
【0080】
式203において、c[b]は、
のケプストラム分解を表す。いくつかの例では、
のケプストラム分解は、ケプストラムdnabであるb=[1...B]の各々についてのDCT基底行列C[b,f]に対し、
の打切り(truncated)離散コサイン変換(DCT)を取ることによって得ることができる。しかし、他の実施態様では、
のKarhunen-Loeve変換(KLT)または離散サイン変換(DCT)のような、異なるデコリレーション変換を適用してもよい。このように、任意の適切な基底行列が関与し得る。KLTは、特定の音声データの統計量が既知であるような実施態様のための有利なデコリレーション変換であり得る。一方、DCTは、特定の音声データの統計が未知であるような実施態様のための有利なデコリレーション変換であり得る。いくつかの実施態様では、Bは、1桁の整数であり、例えば、2、3、4、5などである。この例では、b>1の場合のc[b](つまり、第1番目のケプストラムdnabを除く)が、図3Aのケプストラム特徴310Bの一例である。DCT基底行列C[b,f]は、例えば、以下の式206および式207に従って算出され得る。
【0081】
図3Bに示す例では、ブロック345は、ブロック340の滑らかなケプストラム近似を、例えば以下のように滑らかなスペクトルに戻す変換を含む。
【数5】
(式204)
【0082】
式204において、s[f]は、IDCT基底行列S[f,b]に関してcの打切り逆離散コサイン変換(IDCT)をとることによって得られる、c[b]のスペクトル再合成を表す。式204中、S[f,b]は、C[b,f]のムーア-ペンローズ疑似逆行列をとることによって計算され得る、IDCT基底を表している。
【0083】
ケプストラム分析およびスペクトル再合成を使用して
[f]を平滑化する代わりに、
[f]に別の平滑化演算を適用することで平滑化平均スペクトルs[f]を得ることができる。
【0084】
図3Bの例では、ブロック350は、例えば以下のように、入力から平滑化平均スペクトルを除去することによって正規化特徴データ構造を算出することを含む。
【数6】
(式205)
【0085】
式205において、y[f,t]は正規化出力特徴を表し、これらは図3Aの配列310Aの例である。DCT基底行列C[b,f]は、式206および式207に従って算出されてもよい。
【数7】
(式206)

【数8】
(式207)
【0086】
式206および207の例は、DCT-I基底を用いることを含む。上述のように、他の例では、異なるタイプのDCT基底、DST基底またはKLT基底のような、別のタイプの基底を用いることを含み得る。式207に導入されたスケールファクタは、ケプストラムデコリレーションされたdnab群(cepstral decorrelated dnabs)が入力帯域エネルギー群とほぼ同じスケールを有するようにするための便利な方法である。
【0087】
いくつかの代替的な実施態様では、式203を実装し、かつ行列Cを算出または格納することを避けるために、効率的なDCT関数を供給するライブラリが含まれる。同様に、いくつかの代替例では、式204は、IDCT関数への呼び出しによって置換されてもよい。しかしながら、いくつかのそのような実施態様において、これらのタイプのライブラリは、B=Fを仮定することがあるので、存在するスペクトル帯域と同じ数のケプストラムdnabを算出することになる。比較的少数のケプストラムdnab群を保持することが比較的により望ましい場合がある。すなわち、式204は、B<<Fであるため、平滑化されたスペクトルを生成する。
【0088】
あるいは、入力から平均スペクトルμ[f]を除去することにより正規化特徴データ構造が計算される。
【数9】
(式205a)
【0089】
このような実施態様では、μ[f]のケプストラム分解を決定することにより(
[f]のケプストラム分解を行う代わりに)、

【数10】
(式203a)
【0090】
この結果、信号認識または修正処理に用いるケプストラム係数c[b]のセットを得る。
【0091】
オプションとして、そのような実施態様において、μ[f]が適切な平滑化演算によって平滑化されてもよい。すなわち、式205aが非正規化特徴履歴データ構造x[f,t]からμ[f]を平滑化したものを減算することを包含し、式203aがμ[f]を平滑化したもののケプストラム分解を決定することを包含してもよい。
【0092】
さらなる代替案では、正規化特徴データ構造は、式205aに従って算出され、一方、ケプストラム係数のセットは、式203に従って計算される。さらなる代替案では、正規化特徴データ構造は、式205に従って計算され、一方、ケプストラム係数のセットは、式203aに従って計算される。
【0093】
いくつかの代替的な実施態様において、各入力特徴x[f,t]に対して信頼度加重w[f,t]が利用可能であれば、時間横断平均(μ)および時間周波数横断平均(L)は両方とも加重平均とすることができる。このような実施態様は、ノイズの多い条件下でのロバスト性を高めることができる可能性がある。
【0094】
信頼度加重は、特定の実施態様に依存して、多くの異なるファクタに基づくことができる。いくつかの実施態様において、信頼度加重は、少なくとも部分的に、定常ノイズ推定に基づくことができる。定常ノイズ推定は、例えば、各周波数帯域において最小値フォロワー(minimum follower)を使用することによって得られてもよい。いくつかのそのような例では、各入力フレームについて、入力帯域エネルギーがその周波数帯域の現在のノイズフロア推定値よりも低い場合、ノイズフロア推定値は直ちに新しいエネルギーレベルに更新されてもよい(または新しいエネルギーレベルの値に近づくように積極的にスルー(slew)されてもよい)。いくつかのそのような実施態様において、入力帯域がノイズフロア推定値よりも大きい場合、現在の推定ノイズフロア推定値は、新しいエネルギーレベルの値に向かって非常にゆっくりとスルー(slew)されてもよい。最小ノイズを追跡するだけでなく、各帯域におけるノイズの分散を追跡し、および/または帯域間のノイズの共分散を追跡することが有利であり得る。
【0095】
いくつかの例では、定常ノイズ推定が行われた後、定常ノイズ推定値がノイズフロアに近い(推定SNR低)場合、特定の時間-周波数タイルが所与の音声分析および/または音声修正(speech modification)タスクに関連する可能性は低いと仮定することができ、そのような帯域についてはwはゼロに近く設定することができる。一方、時間周波数タイルがノイズフロアに対して閾値量より高い(推定SNR高)場合、その時間周波数タイルは関連する可能性が高いので、いくつかの例では、wの値はその帯域について1近くに設定されてもよい。いくつかの例では、SNRと信頼度wとの間のマッピングとしてロジスティック関数を使用することによって、この機能を実装することができる。
【0096】
いくつかの実施態様において、信頼度加重は、少なくとも部分的に音響エコー推定に基づくことができる。例えば、デバイスが1つまたは複数のマイクロフォンに加えて1つまたは複数のスピーカを含む場合、デバイス(または別のデバイス)は、両方の信号を観察することによって、それらスピーカが時間とともにマイクロフォンにどのように音響的に結合するかを予測してもよい。そのような予測または決定は、通常、エコーキャンセルまたは抑制の文脈で行われ得る。しかしながら、いくつかの開示する実施態様と共に使用される場合、音響的エコー予測または決定は、必ずしもエコーをキャンセルまたは抑制するために使用される必要はなく、単にエコーを予測した後、エコーによって非常に汚染されている帯域を無視するように正規化の際に本明細書に開示の正規化の段に指示してもよい。
【0097】
いくつかの例では、エコーキャンセラは、約20dBのエコーをキャンセルしてもよい。すなわち、ERLE(Echo Return Enhancement Loss)は、約20dBであってもよい。通信システムにおいて、エコーキャンセル処理は、しばしば、帯域エネルギー領域で動作し、エコーキャンセル処理の後に残る可能性のある残留エコーを積極的に抑制するように働くエコー抑制処理に続いて行われる。このようなエコー抑制処理は、通常、まず各フレーム中の各帯域のSER(signal to echo ratio:信号対エコー比)を予測し、次に、SERに基づいてその帯域の抑制利得を決定することによって動作する。いくつかの開示する実施態様において、抑制利得を適用するのではなく、例えば、ノイズ抑制の場合のSNRについて説明したようなロジスティック関数を使用することにより、SERを用いてwを駆動してもよい。
【0098】
いくつかの実施態様において、信頼度加重は、少なくとも部分的に、音の方向/相関に基づくことができる(複数のマイクロフォンがある場合)。時間周波数タイルが、対象とする話し手に対応することがわかっている方向から到来する主としてコヒーレントな平面波エネルギー(例えば、空間共分散推定値によって決定される)を含んでいる場合、いくつかの開示する実施態様では、対応する周波数帯域は、正規化を算出するときに高く重み付けされてもよい。ある時間周波数タイルが既知の干渉源から来るように見えるか、または拡散した周囲音の混合体である場合、いくつかの開示する実施態様では、対応する周波数帯域は、正規化を算出するときに低い重みが与えられてもよい。
【0099】
いくつかの例では、信頼度加重は、少なくとも部分的に、残響の有無に基づいてもよく、例えば残響を無視することによってもよい。例えば特定の環境において音が減衰するのにかかる時間を知ることにより、ある時間周波数タイルが直接音ではなく残響(単一のマイクロフォンからの)に主として起因するかどうかを、予測することが可能であるはずである。例えば、このような予測は、特定の環境のRT60の推定に基づいてもよい。RT60とは、残響のある環境において音のレベルが60dB減衰するのにかかる時間(秒)である。もし開示する実施態様が、特定の帯域が話し手からの直接音声を含むという自身の推定において高い信頼度を有する場合は、その実施態様ではwを1に近い値に設定してもよい。もし開示する実施態様が、ある帯域が残響エネルギーから成っている可能性のほうが高いと推定する場合、その実施態様ではwを0に近い値に設定してもよい。
【0100】
いくつかの代替的な実施態様では、上記の式200および201は、それぞれ式200Aおよび201Aに置き換えられてもよい。
【数11】
(式200A)
【数12】
(式201A)
【0101】
有限インパルス応答(FIR)
式200、200A、201、および201Aは、時間的な平均化の処理を記述している。これらは、FIR(Finite Impulse Response:有限インパルス応答)平均である。すなわち、これらの式を実装するためには、フレームtにおけるx[f,t-T]を知る必要がある。上述したいくつかの例において、Tフレーム前のデータを保持するために、履歴バッファ(例えば、図3Aの配列308)が維持されてもよい。
【0102】
式200Aおよび201A(または類似の式)の適用を含むいくつかの代替的な実施態様では、履歴バッファを用いる代わりに、μの実行近似(running approximation)(「IIR平均」)が維持され、例えば、以下のように経時的に更新される。
【数13】
(式208)
【0103】
式208において、αは定数を表す。αの値の例は0.96であるが、他の例では、αはより大きくても小さくてもよい。いくつかのそのような実施態様は、式200および201を参照して上述した例よりも計算効率が高くてもよい。さらに、そのような実施態様は、オプションとしてαの値を調整することによって、古いデータよりも最近のデータへの依存度を高めてもよい(またはその逆もあり得る)。
【0104】
図3Bに示す例では、ブロック355は、正規化特徴データ構造を出力することを含む。正規化特徴データ構造は、図3Aに示す正規化特徴セット310の一例であり得る。この例において、ブロック360は、正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行することを含む。いくつかのそのような例では、ブロック360は、正規化特徴データ構造を音響モデル、例えば本明細書で参照される音響モデルのうちの1つ(例えば、図3Aの音響モデル311)に入力することを含んでもよい。いくつかの実施態様において、ブロック360は、図2のブロック235を参照して上述した処理のうちの1つ以上を含んでもよい。
【0105】
以下は、Julia1.0による正規化ブロック309の実装例である。
【0106】
【表1】
【0107】
図4は、図3Aの音響モデルを実装するためのアーキテクチャの一例を示す図である。この実施態様では、音響モデル311は、DNNの一例に従って実装される。
【0108】
この例では、正規化特徴セット310は、音響モデル311に供給される。この実施態様において、正規化特徴セット310の配列310Aは、平坦化ブロック401に供給される。この例において、平坦化ブロック401は、スペクトル特徴310Aのスタックを1次元ベクトルに平坦化するように構成される。いくつかの例では、平坦化ブロック401は、スペクトル特徴310Aのスタックの行を横切って読むことによってスペクトル特徴310Aのスタックを平坦化するように構成されてもよく、一方、他の例では、平坦化ブロック401は、スペクトル特徴310Aのスタックの列を読み下ろすこと(read down)によってスペクトル特徴310Aのスタックを平坦化するように構成されてもよい。代替的な実施態様では、平坦化ブロック401は、スペクトル特徴310Aのスタックを別の方法で、例えば対角線に沿って読み取ることによって、スペクトル特徴310Aのスタックを平坦化するように構成されてもよい。
【0109】
この例において、平坦化ブロック401が出力する平坦化されたスペクトル特徴ベクトルは、連結ブロック402に供給される。この例では、ケプストラム特徴310Bは平坦化を必要としないので、ケプストラム特徴310Bは連結ブロック402に直接供給される。この実施態様では、連結ブロック402は、平坦化されたスペクトル特徴ベクトルとケプストラム特徴ベクトルとを結合して、単一の統合特徴ベクトル410を形成するように構成される。いくつかの実施態様ではケプストラム特徴が最初に来て、平坦化されたスペクトル特徴ベクトルが続くが、他の実施態様では平坦化されたスペクトル特徴ベクトルが最初に来てもよい。他の実施態様において、平坦化されたスペクトル特徴ベクトルとケプストラム特徴とがインターリーブされてもよい。
【0110】
この例では、連結ブロック402は、単一の統合特徴ベクトル410をDNNの入力層403に出力するように構成されている。入力層403は、例えば、バイアス、および非線形活性化関数(例えば、ロジスティック、双曲線正接(tanh)、正規化線形関数(ReLU)、LeakyReLU)を用いた全結合(別名として濃密)層であってよい。入力層403は、例えば、64~1024の出力値を生成してもよい。
【0111】
この例において、DNNは、複数の隠れ層404を含む。いくつかの実施態様ではDNNは2~6個の隠れ層を含んでもよく、一方、他の実施態様ではDNNはより多くの隠れ層を含んでもよい。隠れ層404の各々は、例えば、バイアス、および非線形活性化関数(例えば、ロジスティック、双曲線正接、整流線形ユニット(ReLU)、LeakyReLU)を用いた全結合(別名として濃密)層であってよい。隠れ層404の各々は、例えば、64~1024の出力値を生成してもよい。
【0112】
この実施態様では、出力層405は、入力特徴セット310が多数のセノン(例えば、音韻、2音韻、3音韻)クラスの各々に対応する確率ベクトルを生成する(312)。例えば、1つの出力は、ユーザーが「book」における「oo」の音を発声することに対応するかもしれない。
【0113】
いくつかの実施形態は、1つ以上の開示する方法を実行するように構成された(例えば、プログラムされた)システムまたはデバイスと、1つ以上の開示する方法またはそのステップを実施するためのコードを格納する有形のコンピュータ読み取り可能な媒体(例えば、ディスク)とを含む。例えば、システムは、開示する方法またはそのステップの実施形態を含むデータに対する様々な演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされたかつ/または他の方法で構成された、プログラマブルな汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであってもよいし、またはそれらを含んでもよい。このような汎用プロセッサは、入力デバイス、メモリ、および開示する方法(またはそのステップ)の実施形態を、それにアサートされたデータに応答して実行するようにプログラムされた(かつ/または他の方法で構成された)処理サブシステムを含むコンピュータシステムであってもよいし、またはそれを含んでもよい。
【0114】
開示するシステムのいくつかの実施形態は、オーディオ信号(複数可)に対して、開示する方法の実施形態の実行を含む必要な処理を行うように構成された(例えば、プログラムされたまたはその他構成された)、コンフィギュラブル(例えばプログラマブル)なデジタルシグナルプロセッサ(DSP)として実装されてもよい。あるいは、開示するシステム(またはその要素)の実施形態は、開示する方法の実施形態を含む様々な演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされたかつ/または他の方法で構成された、汎用プロセッサ(例えば、入力デバイスおよびメモリを含み得るパーソナルコンピュータ(PC)またはその他のコンピュータシステムまたはマイクロプロセッサ)として実施されてもよい。あるいは、開示するシステムのいくつかの実施形態の要素は、開示する方法の実施形態を実行するように構成された(例えば、プログラムされた)汎用プロセッサまたはDSPとして実装されてもよく、システムはまた、他の要素(例えば1つまたは複数のラウドスピーカおよび/または1つまたは複数のマイクロフォン)を含んでもよい。開示する方法の実施形態を実行するように構成された汎用プロセッサは、入力デバイス(例えば、マウスおよび/またはキーボード)、メモリ、およびいくつかの例ではディスプレイデバイスに結合されてもよい。
【0115】
本開示の別の局面は、開示する方法またはそのステップの任意の実施形態を実行するためのコードを格納する(例えば、これを実行するように実行可能な符号化器(coder))、1つまたは複数の非一時的コンピュータ可読媒体(例えば、1つまたは複数のRAM、ROM、ディスクまたは他の有形の記憶媒体)に実装されてもよい。
【0116】
本開示の特定の実施形態および応用を本明細書で説明したが、本明細書で説明した実施形態および応用の多くの変形が本開示の範囲を逸脱することなく可能であることは、当業者には明らかであろう。
【0117】
本発明の様々な局面を、以下に続く列挙実施形態例(enumerated example embodiments)(EEE)から理解することができる。
【0118】
EEE1.オーディオ処理方法であって、
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含する、オーディオ処理方法。
【0119】
EEE2.前記信号認識または修正処理は音声認識処理を包含する、EEE1に記載の方法。
【0120】
EEE3.前記音声認識処理はウェイクワード認識処理を包含する、EEE2に記載の方法。
【0121】
EEE4.前記信号認識または修正処理を実行する工程は、
前記正規化特徴データ構造を音響モデルに供給することと、
前記音響モデルの出力に基づいて音韻確率推定値を決定することと、
を包含する、EEE2またはEEE3に記載の方法。
【0122】
EEE5.前記音響モデルはニューラルネットワークを包含する、EEE4に記載の方法。
【0123】
EEE6.前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理からなる処理のリストより選択された1つまたは複数の処理を包含する、EEE1から5のいずれかに記載の方法。
【0124】
EEE7.前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有する、EEE1から6のいずれかに記載の方法。
【0125】
EEE8.前記周波数空間は、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールである、EEE7に記載の方法。
【0126】
EEE9.前記パワー値はパワーの対数を包含する、EEE1から8のいずれかに記載の方法。
【0127】
EEE10.前記正規化特徴データ構造を生成する工程は、現在のフレームおよび直近の過去フレームに基づいて、平均広帯域レベルを決定することを包含する、EEE1から9のいずれかに記載の方法。
【0128】
EEE11.前記正規化特徴データ構造を生成する工程は、前記現在のフレームおよび前記直近の過去フレームに基づいて、平均スペクトル表現を決定することを包含する、EEE10に記載の方法。
【0129】
EEE12.前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均広帯域レベルを決定することを包含する、EEE1から9のいずれかに記載の方法。
【0130】
EEE13.前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均スペクトル表現を決定することを包含する、EEE10に記載の方法。
【0131】
EEE14.前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含する、EEE1から13のいずれかに記載の方法。
【0132】
EEE15.前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、または残響推定のうち1つ以上に少なくとも部分的に基づく、EEE14に記載の方法。
【0133】
EEE16.前記正規化特徴セットを生成することは平均レベル非依存スペクトル表現を得ることを包含する、EEE13に記載の方法。
【0134】
EEE17.前記正規化特徴セットを生成することは前記平均レベル非依存スペクトル表現のケプストラム分解を行うことを包含する、EEE16に記載の方法。
【0135】
EEE18.前記ケプストラム分解を行うことは、基底行列によって表されるデコリレーション変換を適用することを包含する、EEE17に記載の方法。
【0136】
EEE19.前記基底行列は、離散サイン変換に基づくもの、離散コサイン変換に基づくもの、またはKarhunen-Loeve変換に基づくもののうち1つ以上を表す、EEE18に記載の方法。
【0137】
EEE20.前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状に対応する係数のセットであって、前記ケプストラム分解に少なくとも部分的に基づく係数のセットをさらに含む、EEE13に記載の方法。
【0138】
EEE21.前記信号認識または修正処理に少なくとも部分的に基づいている後続タスクを実行することをさらに包含し、ここで前記後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、およびデバイスの設定を変更することからなるタスクのリストより選択された1つまたは複数のタスクを含む、EEE1から20のいずれかに記載の方法。
【0139】
EEE22.EEE1から21のいずれかに記載の方法を実行するように構成された、装置。
【0140】
EEE23.EEE1から21のいずれかに記載の方法を実行するように、1つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、1つまたは複数の非一時的媒体。
【0141】
EEE24.
マイクロフォン音声データをマイクロフォンシステムから受信するように構成されたインターフェースシステムと、
制御システムであって、
マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を実行するように構成された制御システムと、
を備える、装置。
【0142】
EEE25.
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含する方法を実行するように、1つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、1つまたは複数の非一時的媒体。
【0143】
EEE26.前記信号認識または修正処理は音声認識処理を包含する、EEE25に記載の1つまたは複数の非一時的媒体。
【0144】
EEE27.前記音声認識処理はウェイクワード認識処理を包含する、EEE26に記載の1つまたは複数の非一時的媒体。
図1
図2
図3A
図3B
図4