特許7383122 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特許7383122信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-09

(45)【発行日】2023-11-17

(54)【発明の名称】信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置

(51)【国際特許分類】

G10L 15/02 20060101AFI20231110BHJP

G10L 15/16 20060101ALI20231110BHJP

【ＦＩ】

G10L15/02 300Z

G10L15/16

【請求項の数】 21

(21)【出願番号】P 2022506119

(86)(22)【出願日】2020-07-25

(65)【公表番号】

(43)【公表日】2022-10-17

(86)【国際出願番号】 US2020043632

(87)【国際公開番号】W WO2021021683

(87)【国際公開日】2021-02-04

【審査請求日】2022-03-25

(31)【優先権主張番号】62/880,167

(32)【優先日】2019-07-30

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】19217579.2

(32)【優先日】2019-12-18

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】62/950,013

(32)【優先日】2019-12-18

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100101683

【弁理士】

【氏名又は名称】奥田誠司

(74)【代理人】

【識別番号】100155000

【弁理士】

【氏名又は名称】喜多修市

(74)【代理人】

【識別番号】100188813

【弁理士】

【氏名又は名称】川喜田徹

(74)【代理人】

【識別番号】100202197

【弁理士】

【氏名又は名称】村瀬成康

(72)【発明者】

【氏名】カートライト，リチャードジェイ．

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００３－２７１１９０（ＪＰ，Ａ）

【文献】特開２００７－１１３３０（ＪＰ，Ａ）

【文献】特表２０１９－５１４０４５（ＪＰ，Ａ）

【文献】特表平８－５０８１０７（ＪＰ，Ａ）

【文献】特開平５－１０８０９９（ＪＰ，Ａ）

【文献】特開２０１１－２７０３（ＪＰ，Ａ）

【文献】特開平９－２５８７７２（ＪＰ，Ａ）

【文献】Michael L. Seltzer, et al.，AN INVESTIGATION OF DEEP NEURAL NETWORKS FOR NOISE ROBUST SPEECH RECOGNITION，ICASSP 2013，IEEE，2013年05月，pp.7398-7402

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１７／２６，２１／００－２５／９３

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

デジタル化マイクロフォン音声データのフレームを受信する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴セットに少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含するオーディオ処理方法であって、
前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットをさらに含み、
現在のフレームおよび少なくとも１つの過去フレームに基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも１つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、
前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、
前記平均スペクトル表現のすべての周波数帯域にわたっての平均を表す平均広帯域レベルを決定する工程と、
前記平均スペクトル表現から前記平均広帯域レベルを減算することにより、平均レベル非依存スペクトル表現を決定する工程と、
前記平均レベル非依存スペクトル表現のケプストラム分解を決定する工程と、
前記ケプストラム分解に基づいてケプストラム係数のセットを決定する工程と、をさらに包含し、
前記正規化特徴データ構造を生成する工程は、前記平均スペクトル表現に基づく、オーディオ処理方法。

【請求項2】

デジタル化マイクロフォン音声データのフレームを受信する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴セットに少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含するオーディオ処理方法であって、
前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットをさらに含み、
現在のフレームおよび少なくとも１つの過去フレームに基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも１つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、
前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、
平均スペクトル表現のケプストラム分解またはそれを平滑化したものを決定することと、
前記ケプストラム分解に基づいて前記ケプストラム係数のセットを決定することと、をさらに包含し、
前記正規化特徴データ構造を生成する工程は、前記平均スペクトル表現に基づく、オーディオ処理方法。

【請求項3】

前記正規化特徴データ構造を生成する工程は、
前記平均レベル非依存スペクトル表現を平滑化することと、
平滑化された前記平均レベル非依存スペクトル表現および前記平均広帯域レベルを、前記特徴履歴データ構造の各特徴ベクトルから減算することと、
を包含する、請求項１に記載の方法。

【請求項4】

前記平均レベル非依存スペクトル表現を平滑化することは、前記ケプストラム分解のスペクトル再合成を行うことを包含する、請求項３に記載の方法。

【請求項5】

前記正規化特徴データ構造を生成する工程は、
前記平均レベル非依存スペクトル表現またはそれを平滑化したものを、前記特徴履歴データ構造の各特徴ベクトルから減算することを包含する、
請求項１に記載の方法。

【請求項6】

前記ケプストラム分解は１桁の数のケプストラムｄｎａｂを含み、前記ケプストラム係数のセットは前記ケプストラム分解のケプストラムｄｎａｂ群の少なくともサブセットに対応し、前記サブセットは、第一番目のケプストラムｄｎａｂを除くサブセットであってもよい（ｏｐｔｉｏｎａｌｌｙ）、請求項１から５のいずれかに記載の方法。

【請求項7】

前記平均スペクトル表現は、前記現在のフレームおよび直近の過去フレームに基づく無限インパルス応答ＩＩＲ平均として決定される、請求項１から６のいずれかに記載の方法。

【請求項8】

前記平均スペクトル表現は、前記複数の周波数帯域の各周波数帯域について、前記特徴履歴データ構造のすべてのフレームの各前記周波数帯域のパワー値の平均を計算することにより、前記特徴履歴データ構造のすべてのフレームに基づく有限インパルス応答ＦＩＲ平均として決定される、請求項１から６のいずれかに記載の方法。

【請求項9】

前記信号認識または修正処理は音声認識処理を包含する、請求項１から８のいずれかに記載の方法。

【請求項10】

前記音声認識処理はウェイクワード認識処理を包含する、請求項９に記載の方法。

【請求項11】

前記信号認識または修正処理を実行する工程は、
前記正規化特徴セットを音響モデルに供給することと、
前記音響モデルの出力に基づいて音韻確率推定値を決定することと、
を包含する、請求項９または１０に記載の方法。

【請求項12】

前記音響モデルはニューラルネットワークを包含する、請求項１１に記載の方法。

【請求項13】

前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理からなる処理のリストより選択された１つまたは複数の処理を包含する、請求項１から８のいずれかに記載の方法。

【請求項14】

前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有する、請求項１から１３のいずれかに記載の方法。

【請求項15】

前記周波数空間は、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールである、請求項１４に記載の方法。

【請求項16】

前記パワー値はパワーの対数を包含する、請求項１から１５のいずれかに記載の方法。

【請求項17】

前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含し、前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、または残響推定のうち１つ以上に少なくとも部分的に基づく、請求項１から１６のいずれかに記載の方法。

【請求項18】

前記信号認識または修正処理に少なくとも部分的に基づいている後続タスクを実行することをさらに包含し、ここで前記後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、およびデバイスの設定を変更することからなるタスクのリストより選択された１つまたは複数のタスクを含む、請求項１から１７のいずれかに記載の方法。

【請求項19】

デジタル化マイクロフォン音声データのフレームを受信する工程は、
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
を包含する、請求項１から１８のいずれかに記載の方法。

【請求項20】

請求項１から１９のいずれかに記載の方法を実行するように構成された１以上のプロセッサを備える装置。

【請求項21】

請求項１から１９のいずれかに記載の方法を実行するように、１つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、１つまたは複数の非一時的媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本出願は、２０１９年７月３０日に出願された米国仮特許出願第６２／８８０，１６７号、２０１９年１２月１８日に出願された米国仮特許出願第６２／９５０，０１３号、および２０１９年１２月１８日に出願された欧州特許出願第１９２１７５７９．２号の優先権を主張し、これらの各々の全体を本出願に援用する。

【0002】

本開示は、音声認識を含むがこれに限定されない、オーディオ信号の認識または修正のためのシステムおよび方法に関するものである。

【背景技術】

【0003】

信号認識または修正が可能なデバイスは、以下を含むがこれに限定されない、幅広い応用性を有する。すなわち、ウェイクワード検出などの音声認識処理、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理などである。オーディオ信号の認識または修正を実施するための既存のシステムおよび方法は利点をもたらすものであるが、システムおよび方法の改良が望まれる。

【0004】

表記および命名法
ここで、「スマートオーディオデバイス」という表現は、単一目的オーディオデバイスまたはバーチャルアシスタント（例えば、接続状態にあるバーチャルアシスタント）であるスマートデバイスを表すために用いられる。単一目的オーディオデバイスとは、少なくとも１つのマイクロフォンを含むかまたはそれに結合される（かつ任意に少なくとも１つのスピーカも含むかまたはそれに結合される）デバイス（例えば、テレビ（ＴＶ）または携帯電話）であり、単一の目的を達成するために概してまたは主として設計されているデバイスである。ＴＶは典型的には、プログラム素材からのオーディオを再生することができる（再生できると考えられている）が、ほとんどの場合、現代のＴＶは、テレビを見るというアプリケーションを含むアプリケーションがその上でローカルで実行される、何らかのオペレーティングシステムを実行している。同様に、携帯電話のオーディオ入力と出力は多くのことを行い得るが、これらは電話上で実行されているアプリケーションによってサービスされている。この意味で、スピーカ（複数可）およびマイクロフォン（複数可）を有する単一目的オーディオデバイスは、スピーカ（複数可）およびマイクロフォン（複数可）を直接使用するためのローカルアプリケーションおよび／またはサービスを実行するように構成されることが多い。ゾーンすなわちユーザー設定されたエリアにわたってオーディオの再生を実現するためにグループ化するように構成された、単一目的オーディオデバイスもある。

【0005】

ここで、「バーチャルアシスタント」（例えば、接続状態にあるバーチャルアシスタント）とは、少なくとも１つのマイクロフォンを含むかまたはそれに結合される（かつ任意に少なくとも１つのスピーカも含むかまたはそれに結合される）デバイス（例えば、スマートスピーカ、スマートディスプレイまたは音声アシスタント統合デバイス）であり、ある意味でクラウド対応であるか、さもなくばバーチャルアシスタント自体中やバーチャルアシスタント自体上には実装されていないアプリケーションに対し、複数のデバイス（バーチャルアシスタントとは異なる）を利用できるようにし得るものである。複数のバーチャルアシスタントが、例えば、非常に離散的かつ条件的に定義された方法で、一緒に動作することがある。例えば、２つ以上のバーチャルアシスタントが、それらのうち１つ（すなわちウェイクワードを聞いたことを最も確信している１つ）が、その言葉に応答するという意味において、協働し得る。接続状態にある複数のデバイスが、１つのメインアプリケーションによって管理される、一種のコンステレーションを形成してもよい。その１つのメインアプリケーションは、バーチャルアシスタントであり得る（または、バーチャルアシスタントを含むかまたは実装し得る）。

【0006】

ここで、「ウェイクワード」とは、任意の音（例えば、人間によって発せられた単語、または他の何らかの音）の意味において広義で使用される。スマートオーディオデバイスは、（スマートオーディオデバイスに含まれるかまたは結合された少なくとも１つのマイクロフォン、または少なくとも１つの他のマイクロフォンを用いた）音の検出（「聞き取り（ｈｅａｒｉｎｇ））に応答して、目覚めるよう構成される。この文脈において「目覚める（ａｗａｋｅ）」とは、デバイスがサウンドコマンドを待つ（すなわち、耳を立てている）状態に入ることを表す。

【0007】

ここで、「ウェイクワード検出器」という表現は、リアルタイムのサウンド（例えば、発話）特徴と学習済みモデルとの間の整合性を連続的に探索するように構成されたデバイス（またはデバイスを構成するための命令を含むソフトウェア）を表す。典型的には、ウェイクワードイベントは、ウェイクワードが検出された確率が事前に定義された閾値を超えているとウェイクワード検出器によって判断されるたびに、トリガされる。例えば閾値は、他人受入率と本人拒否率との間の良好な妥協点を与えるように調整された、所定の閾値であってもよい。ウェイクワードイベントの後、デバイスはコマンドに耳を立てる状態（「目覚めた（ａｗａｋｅｎｅｄ）」状態または「注意深い（ａｔｔｅｎｔｉｖｅｎｅｓｓ）」状態と呼ばれることがある）に入り、この状態において、受け取ったコマンドをより大規模でより計算集約的な認識器に渡し得る。

【0008】

特許請求の範囲を含む本開示全体を通じて、「スピーカ」および「ラウドスピーカ」は、同義的に、単一のスピーカフィードによって駆動される任意の音響放射トランスデューサ（またはトランスデューサのセット）を示すように使用される。典型的なヘッドフォンセットは、２つのスピーカを含む。スピーカは、すべてが単一の共通のスピーカフィードによって駆動されるような、複数のトランスデューサ（例えばウーファーとツイーター）を含むように実装され得る。スピーカフィードは、場合によっては、異なるトランスデューサに結合された異なる回路ブランチにおいて異なる処理を受けてもよい。

【0009】

特許請求の範囲を含む本開示全体を通じて、信号またはデータに対して演算（例えば、信号またはデータに対するフィルタリング、スケーリング、変換、またはゲインの適用）を「行う」という表現は、信号またはデータに対して直接演算を行うこと、または信号またはデータの処理済みバージョン（例えば、演算の実行を受ける前に予備フィルタリングまたは前処理されたバージョンの信号）に対して演算を行うことの意味において広義で使用される。

【0010】

特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、デバイス、システム、またはサブシステムの意味において広義で使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれることがあり、そのようなサブシステムを含むシステム（例えば、複数の入力に応答してＸ個の出力信号を生成するシステムであって、入力のうちＭ個をサブシステムが生成し、他のＸ－Ｍ個の入力が外部ソースから受信される）は、デコーダシステムとも呼ばれ得る。

【0011】

特許請求の範囲を含む本開示全体を通じて、「プロセッサ」という用語は、データ（例えば、オーディオ、またはビデオもしくは他の画像データ）に対する演算を実行するためにプログラマブルであるかまたは他の方法で（例えば、ソフトウェアまたはファームウェアによって）構成可能なシステムまたはデバイスの意味において広義で使用される。プロセッサの例としては、フィールドプログラマブルゲートアレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他のサウンドデータに対してパイプライン化処理を行うようにプログラムおよび／または他の方法で構成されたデジタルシグナルプロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットなどが挙げられる。

【発明の概要】

【0012】

要約
本開示の少なくともいくつかの局面は、１つ以上の方法として実装され得る。そのような方法のいくつかは、マイクロフォン音声データをマイクロフォンシステムから受信する工程と、前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程とを任意に包含し得る。いくつかの方法は、前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程とを、任意に包含し得る。前記特徴ベクトルは、複数の周波数帯域のうち各周波数帯域についてのパワー値であってもよいし、またはそれらを含んでもよい。いくつかの例では、前記パワー値はパワーの対数であってもよい。そのような方法のいくつかは、特徴履歴データ構造を形成することを含み得る。前記特徴履歴データ構造は、複数の特徴ベクトルを含んでもよい。

【0013】

そのような方法のいくつかは、前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程を包含してもよい。そのような方法のいくつかは、前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程を包含してもよい。

【0014】

そのような方法のいくつかにおいて、前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状を記述するケプストラム係数のセットを任意に含み得る。

【0015】

いくつかの実施態様では、現在のフレームおよび少なくとも１つの過去フレーム（ｐｒｅｖｉｏｕｓｆｒａｍｅ）に基づいて平均スペクトル表現を決定する工程であって、前記複数の周波数帯域の各周波数帯域について、前記現在のフレームの前記周波数帯域の前記パワー値と前記少なくとも１つの過去フレームの各前記周波数帯域のパワー値との平均または加重平均を計算することを包含する、工程と、前記平均スペクトル表現に基づいて前記ケプストラム係数のセットを決定する工程と、をさらに包含してもよく、前記正規化特徴データ構造を生成する工程は、平均スペクトル表現に基づいてもよい。

【0016】

第１の局面に基づくいくつかの実施態様は、前記平均スペクトル表現のすべての周波数帯域にわたっての平均を表す平均広帯域レベルを決定する工程と、前記平均スペクトル表現から前記平均広帯域レベルを減算することにより、平均レベル非依存スペクトル表現（ｍｅａｎｌｅｖｅｌ－ｉｎｄｅｐｅｎｄｅｎｔｓｐｅｃｔｒｕｍｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を決定する工程と、前記平均レベル非依存スペクトル表現のケプストラム分解を決定する工程と、前記ケプストラム分解に基づいてケプストラム係数のセットを決定する工程と、をさらに包含し得る。いくつかの例では、前記正規化特徴データ構造を生成する工程は、前記平均レベル非依存スペクトルを平滑化することと、平滑化された前記平均レベル非依存スペクトルおよび前記平均広帯域レベルを、前記特徴履歴データ構造の各特徴ベクトルから減算することと、を包含する。前記平均レベル非依存スペクトルを平滑化することは、前記ケプストラム分解のスペクトル再合成を行うことを任意に包含する。

【0017】

第２の局面に基づくいくつかの実施態様では、本方法は、平均スペクトル表現のケプストラム分解またはそれを平滑化したものを決定することと、前記ケプストラム分解に基づいて前記ケプストラム係数のセットを決定することと、をさらに包含する。いくつかの例では、前記正規化特徴データ構造を生成する工程は、前記平均レベル非依存スペクトルまたはそれを平滑化したものを、前記特徴履歴データ構造の各特徴ベクトルから減算することを包含する。

【0018】

第１または第２の局面に基づくいくつかの実施態様では、前記ケプストラム分解は１桁の数のケプストラムｄｎａｂを含み、前記ケプストラム係数のセットは前記ケプストラム分解のケプストラムｄｎａｂ群の少なくともサブセットに対応し、前記サブセットは、第一番目のケプストラムｄｎａｂを除くサブセットであってもよい（ｏｐｔｉｏｎａｌｌｙ）。

【0019】

いくつかの例では、前記平均スペクトル表現は、前記現在のフレームおよび前記直近の過去フレームに基づく無限インパルス応答ＩＩＲ平均として決定される。または、前記平均スペクトル表現は、前記複数の周波数帯域の各周波数帯域について、前記特徴履歴データ構造のすべてのフレームの各前記周波数帯域のパワー値の平均を計算することにより、前記特徴履歴データ構造のすべてのフレームに基づく有限インパルス応答ＦＩＲ平均として決定される。

【0020】

前記信号認識または修正処理は、音声認識処理であってもよいし、または音声認識処理を含んでもよい。場合によっては、前記音声認識処理は、ウェイクワード認識処理であってもよいし、またはウェイクワード認識処理を含んでもよい。いくつかの例において、前記信号認識または修正処理を実行する工程は、前記正規化特徴データ構造を音響モデルに供給することと、前記音響モデルの出力に基づいて音韻確率推定値を決定することとを包含し得る。前記音響モデルは、場合によっては、ニューラルネットワークを介して実装され得る。代替的または追加的に、前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、および／またはノイズ抑制処理を包含してもよい。

【0021】

いくつかの例において、前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有していてもよい。前記周波数空間は、例えば、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールであってよい。

【0022】

いくつかの例では、前記正規化特徴データ構造を生成する工程は、現在のフレームおよび直近の過去フレームに基づいて、平均広帯域レベルを決定することを包含してもよい。例えば、前記正規化特徴データ構造を生成する工程は、前記現在のフレームおよび前記直近の過去フレームに基づいて、平均スペクトル表現を決定することを包含してもよい。いくつかの実施態様において、前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均広帯域レベルを決定することを包含してもよい。場合によっては、前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均スペクトル表現を決定することを包含してもよい。

【0023】

いくつかの実施態様では、前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含してもよい。前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、および／または残響推定に少なくとも部分的に基づいてもよい。

【0024】

いくつかの例において、前記正規化特徴セットを生成することは平均レベル非依存スペクトル表現を得ることを包含してもよい。いくつかの例では、前記正規化特徴セットを生成することは前記平均レベル非依存スペクトル表現のケプストラム分解を行うことを包含してもよい。場合によっては、前記ケプストラム分解を行うことは、基底行列によって表されるデコリレーション変換を適用することを包含してもよい。前記基底行列は、例えば、離散サイン変換に基づくもの、離散コサイン変換に基づくもの、および／またはＫａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換に基づくものを表してもよい。

【0025】

いくつかの方法は、前記信号認識または修正処理に少なくとも部分的に基づいている、後続または同時タスクを実行することを包含し得る。前記後続または同時タスクは例えば、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、および／またはデバイスの設定を変更することを包含し得る。

【0026】

本明細書に記載する動作、機能、および／または方法の一部または全ては、１つ以上の非一時的媒体上に格納される命令（例えばソフトウェア）に従って１つまたは複数のデバイスが実施することができる。そのような非一時的媒体は、本明細書に記載のものなどのメモリデバイスを含むことができ、ランダムアクセスメモリ（ＲＡＭ）デバイス、リードオンリーメモリ（ＲＯＭ）デバイスなどを含むがこれに限定されない。したがって、本開示で説明する主題のいくつかの発明的局面を、ソフトウェアを格納した非一時的媒体に実装することができる。

【0027】

例えば、上記ソフトウェアは、１つまたは複数のデバイスを制御して上述の方法を実行させるための命令を含み得る。

【0028】

本開示の少なくともいくつかの局面は、装置によって実装され得る。例えば、１つまたは複数のデバイスが、本明細書において開示する方法を少なくとも部分的に実行することができる場合がある。いくつかの実施態様では、装置は、インターフェースシステムと制御システムとを含んでいてもよい。制御システムは、１つ以上の汎用のシングルチップもしくはマルチチッププロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジック、ディスクリートハードウェアコンポーネント、またはその組み合わせを含み得る。いくつかの例において、上記制御システムは、上述の方法を実行するように構成され得る。

【0029】

本明細書において記載された主題の１つ以上の実施態様の詳細は、添付の図面および以下の説明に記載されている。他の特徴、局面および利点は以下の説明、図面および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、縮尺通りに描かれていない場合があることに留意されたい。

【図面の簡単な説明】

【0030】

【図1】図１は、本開示の様々な局面を実施することが可能な装置の構成要素の例を示すブロック図である。

【図2】図２は、図１に示すような装置によって実行され得る方法の一例を概説するフロー図である。

【図3A】図３Ａは、本開示のいくつかの局面を実施するために使用され得るシステムのブロックを示す。

【図3B】図３Ｂは、図１に示すような装置によって実行され得る方法の一例を概説するフロー図である。

【図4】図４は、図３Ａの音響モデルを実装するためのアーキテクチャの一例を示す図である。

【0031】

様々な図面における同様な参照番号と表記は、同様の要素を示している。

【発明を実施するための形態】

【0032】

詳細な説明
本開示の多くの実施形態が、技術的に可能である。それらをどのように実施するかは、本開示から当業者には明らかであろう。システムおよび方法のいくつかの実施形態が本明細書に記載されている。

【0033】

音声分析システムには、ウェイクワード検出器、音声認識器、話者認識器、感情認識器などがある。音声分析システムは、多種多様な音響条件において多種多様なマイクロフォンハードウェアで動作することがしばしば要求されるが、このいずれも、音声分析システムの設計時または学習時には、完全に特徴付けることは一般にはできない。これらの問題に対処するために、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｆｅａｔｕｒｅｓ）、ｆＭＬＬＲ（ｆｅａｔｕｒｅ－ｓｐａｃｅＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＲｅｇｒｅｓｓｉｏｎ）、ＣＭＳ（ＣｅｐｓｔｒａｌＭｅａｎＳｕｂｔｒａｃｔｉｏｎ）、ＣＭＶＮ（ＣｅｐｓｔｒａｌＭｅａｎａｎｄＶａｒｉａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）などの多くの特徴抽出技術や特徴正規化方式が長年にわたって提案されている。

【0034】

これらの方法にはいくつか利点があるが、いずれも完全に満足できるものではないことがわかっている。例えば、正規化と回帰の技術が効果的に機能できるためには、先だってある程度の期間にわたって統計量を収集する必要がある。音声認識の場合には、数十秒から数分の発話を収集しなければ、これらの技術は有効に機能しないことがある。多くの音声分析の使用例において、新しい発話が過去の発話と同じ音響条件で発声される保証はない。たとえば、遠距離ウェイクワード検出の場合、以前に聞かれたことのないユーザーが部屋に入ってきて、以前には話者がいなかった新しい位置に立ち、その人が最初に口にした単語がウェイクワードになり得る、というような流れが予想される。しかし、そのような状況下でも、デバイスはウェイクワードを低い誤作動率で検出することが期待される。さらに、ウェイクワードを検出するデバイスが、例えば、住宅のキッチンに設置された「スマートスピーカ」である場合、ユーザーは、調理活動中にデバイスを頻繁に動かすことが予想され、これにより、幅広い関連音が生じ、ユーザー発声の受信レベルおよびスペクトルが時とともに異なってしまう可能性がある。つまり、２つのウェイクワードが同一の音響条件下で発声されることはない可能性が高いのである。

【0035】

さらに、非加重の正規化技術は、前述の調理に関連する音のような背景ノイズに敏感であることが多い。ＭＦＣＣ法では、最初のケプストラム係数（通常Ｃ０と表記）を落としてしまうことがよくあるが、これはメル周波数空間におけるデータの非加重平均を特徴セットから除去する効果がある。ケプストラム平均の推定値が背景ノイズの影響を大きく受ける場合、そのケプストラム平均を減算すると、目的の発話信号を最もよく表すものを含むすべてのケプストラム係数が歪んでしまう。

【0036】

長年にわたり、音声技術システムは、発話音を表す特徴がガウス分布またはガウス混合分布としてモデル化されることを前提に動作してきた。このため、システム設計は、特徴間の共分散が限定された特徴セットの使用に限定されていた。多くの場合、ガウス混合分布モデルを計算しやすくするために、特徴間の統計的独立性（対角共分散）を仮定している。典型的には、ＭＦＣＣとともにある時間ステップから次の時間ステップまでの差分および差分の差分が特徴セットとして選択されていた。これは、あるユーザーが任意の時間にどの音を発声しているかを分類するのに、時間的にわずか３つの分析フレーム（典型的には合計時間３０ｍｓの履歴）に依存することを意味していた。人間の発話の音節の長さは１００ｍｓ程度であるため、例えば音声認識タスクでは、どの音韻が発声されているのかをうまく推定できないことがしばしばあった。

【0037】

これに対して、現代の音声技術システムのほとんどは、ニューラルネットワークベースの発話モデルに依拠している。このようなモデルは典型的には、以前のガウス分布モデルやガウス混合分布モデルに比べて、静的に従属な（共変）特徴を扱う能力がはるかに高い。これらのシステムは、多くの場合、複数の分析フレームぶんの特徴を「スタック化」して、フレームごとにネットワークに供給する。このようなスタック方式により、どの音韻が話されているか（あるいは、ウェイクワードが話されているか、どの話者が話しているか、など）をはるかにロバストに推定することができる。現代の音声認識器における典型的なケースは、ある数（例えば２３）の「ｌｏｇｍｅｌｓｐｅｃ」値（メル周波数で等間隔に並んだ複数のスペクトル帯域のパワーの対数）を１０ｍｓごとに算出し、そのような特徴の直近の１０～２０フレームぶんを、２３０～４６０次元の拡張特徴ベクトルとして「スタック化」してネットワークに提示することである。

【0038】

いくつかの開示する実施態様は、ニューラルネットワーク音声技術モデルへ入力される複数の分析フレームにわたって「スタック化」された、スペクトル特徴の新規な正規化方法を提供する。いくつかの開示する例では、スペクトル特徴は「ｌｏｇｍｅｌｓｐｅｃ」特徴であるが、開示する方法は、パワーが計算される周波数帯域がメルスケールで編成されておらず、異なるやり方で編成された方法、例えば、周波数が対数的に間隔を空けられている周波数帯域、バークスケールに従って編成されている周波数帯域などで編成されている場合にも適用可能である。開示するいくつかの正規化方法は、上述した困難の少なくともいくつかを克服することが可能であり得る。

【0039】

このような正規化方法の中には、スタック内の特徴間の正規化のみを行うものもある（例えば、１００～２００ｍｓの時間窓にわたって）。このような方法は、ユーザーが突然、これまで聞かれたことのない音響条件で話し始めた場合でも、正確に発話を認識したり、ウェイクワードを検出したりするのに役立ち得る。

【0040】

マクロスケールのスペクトル形状とミクロスケールのディテールを分離する方法もある。このような方法は、例えば、異なる等化曲線を持つマイクロフォンや異なるスペクトル形状を持つ室内インパルス応答（ＲＩＲ）に対してロバストであるような、システムを作成するのに役立つ。このような方法を実装したシステムは、従来の方法よりも背景ノイズに対して比較的ロバストになる可能性がある。

【0041】

いくつかの方法は、特徴における重み付け（確実性に基づく重み付けなど）に対応することができる。そのような方法を実装するシステムは、エコーサプレッサ、ノイズサプレッサおよび／または非線形ビームフォーミングシステムなどの前処理システムから追加的な入力を取るように構成されてもよく、これは、場合によってはロバスト性を大いに助けることができる。

【0042】

図１は、本開示の様々な局面を実施することが可能な装置の構成要素の例を示すブロック図である。いくつかの例において、装置１１０は、本明細書に開示される方法の少なくともいくつかを実行するように構成されたスマートオーディオデバイスであってもよいし、またはそのようなスマートオーディオデバイスを含んでもよい。スマートオーディオデバイスは、例えば、ウェイクワード検出器を含むバーチャルアシスタントであってよい。他の実施態様において、装置１１０は、ラップトップまたはデスクトップコンピュータ、携帯電話またはタブレットなどのモバイルデバイスなど、本明細書に開示される方法の少なくともいくつかを実行するように構成された他のデバイスであってもよいし、またはそのようなデバイスを含んでもよい。いくつかのそのような実施態様では、装置１１０は、サーバであってもよいし、またはサーバを含んでもよい。

【0043】

この例では、装置１１０は、インターフェースシステム１１５と、制御システム１２０とを含む。インターフェースシステム１１５は、いくつかの実施態様では、１つまたは複数のマイクロフォンを含むマイクロフォンシステムから入力を受信するように構成されてもよい。

【0044】

インターフェースシステム１１５は、１つまたは複数のネットワークインターフェースおよび／または１つまたは複数の外部デバイスインターフェース（１つまたは複数のユニバーサルシリアルバス（ＵＳＢ）インターフェースなど）を含んでもよい。いくつかの実施態様において、インターフェースシステム１１５は、１つまたは複数の無線インターフェースを含んでもよい。インターフェースシステム１１５は、１つまたは複数のマイクロフォン、１つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび／またはジェスチャセンサシステムなどの、ユーザーインターフェースを実装するための１つまたは複数のデバイスを含んでもよい。いくつかの例では、インターフェースシステム１１５は、制御システム１２０と図１に示すオプションのメモリシステム１２５などのメモリシステムとの間に、１つまたは複数のインターフェースを含んでもよい。しかしながら、場合によっては、制御システム１２０がメモリシステムを含んでいてもよい。

【0045】

制御システム１２０は、例えば、汎用シングルチップまたはマルチチッププロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、および／またはディスクリートハードウェアコンポーネントを含み得る。いくつかの実施態様では、制御システム１２０は、複数のデバイス中に存在し得る。例えば、制御システム１２０の一部が装置１１０中に存在し、制御システム１２０の別の部分は、サーバ、スマートオーディオデバイス、モバイルデバイス（例えばスマートフォンまたはタブレットコンピュータ）などの別のデバイス中に存在してもよい。インターフェースシステム１１５もまた、いくつかのそのような例では、複数のデバイス中に存在していてもよい。したがって、いくつかの実施態様では、装置１００は、本開示の各局面を実装するための１つまたは複数のクラウドベースのサービス（クラウドベースの音声認識処理サービスを含むがこれに限定されない）を実装するために使用される複数のデバイスの１つであってよい。

【0046】

いくつかの実施態様では、制御システム１２０は、少なくとも部分的に、本明細書に開示される方法を実行するように構成されてもよい。いくつかの例において、制御システム１２０は、例えば、本明細書に開示されるもののうちの１つ以上のような信号認識または修正処理を実行するように構成されてもよい。いくつかのそのような例では、制御システム１２０は、音声認識処理を実行するように構成されてもよい。音声認識処理は、例えば、ウェイクワード認識処理を含んでもよい。

【0047】

本明細書に記載される方法のいくつかまたはすべては、１つまたは複数の非一時的媒体に格納された命令（例えば、ソフトウェア）に従って、１つまたは複数のデバイスによって実行され得る。そのような非一時的媒体は、本明細書に記載のものなどのメモリデバイスを含むことができ、ランダムアクセスメモリ（ＲＡＭ）デバイス、リードオンリーメモリ（ＲＯＭ）デバイスなどを含むがこれに限定されない。１つまたは複数の非一時的媒体は、例えば、図１に示すオプションのメモリシステム１２５および／または制御システム１２０中に存在してもよい。したがって、本開示に記載する主題の様々な革新的な局面は、ソフトウェアが格納された１つまたは複数の非一時的媒体において実施され得る。ソフトウェアは、例えば、音声データを処理するための少なくとも１つのデバイスを制御するための命令を含むことができる。ソフトウェアは、例えば、図１の制御システム１２０などの制御システムの１つ以上の構成要素によって実行可能であってよい。

【0048】

図２は、図１に示すような装置によって実行され得る方法の一例を概説するフロー図である。方法２００のブロックは、本明細書に記載される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されているよりも多いまたは少ないブロックを含むことができる。

【0049】

この例では、ブロック２０５は、マイクロフォンシステムからマイクロフォン音声データを受信することを含む。いくつかのそのような例において、マイクロフォンシステムのすべてのマイクロフォンは、方法２００を実行している装置、例えば、装置１１０の一部である。しかしながら、いくつかの実施態様では、方法２００を実行している装置は、マイクロフォンシステムの少なくとも一部を含まなくてもよい。いくつかのそのような例では、マイクロフォンシステムは、環境内の１つまたは複数の他の場所、例えばその環境における１つまたは複数の他のデバイス内に存在する、１つまたは複数のマイクロフォンを含んでもよい。

【0050】

この例において、ブロック２０５はアナログマイクロフォン音声データの受信を含み、ブロック２１０はマイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成することを含む。しかしながら、代替的な実施態様では、方法２００は、処理の最初のブロックとしてデジタル化マイクロフォン音声データを受信することを含んでもよい。

【0051】

同様に、この例では、ブロック２１５は、デジタル化マイクロフォン音声データのフレームを生成するために、デジタル化マイクロフォン音声データをフレーム化することを含む。いくつかの実施態様において、ステップサイズは１０ｍｓであってよい。そのような例では、ｌｏｇｍｅｌｓｐｅｃ特徴の新しいフレームは、１０ｍｓごとに算出される。他の実施態様では、より長いまたはより短いステップサイズを用いてもよい。例えば、いくつかの実施態様では、５ｍｓ、１５ｍｓ、２０ｍｓ、２５ｍｓ、３０ｍｓなどのステップサイズを有してもよい。１０ｍｓのステップサイズを用いてｌｏｇｍｅｌｓｐｅｃ特徴を算出するために、いくつかの例では、２０ｍｓの入力マイクロフォン音声データが、変換において５０％のオーバーラップで用いられてもよい。代替的な実施態様では、より長いまたは短いオーバーラップを用いることができる。例えばいくつかの実施態様では、各１０ｍｓフレームを算出するために、３０ｍｓ、４０ｍｓ、５０ｍｓ、６０ｍｓ、７０ｍｓ、８０ｍｓ、９０ｍｓまたは１００ｍｓの入力マイクロフォン音声データが用いられてもよい。システムによっては、入力マイクロフォン音声データのサンプルの２のべき乗カウントとなるようなステップサイズを用いることを選択することがある。なぜならこれによりＦＦＴを用いた効率的な変換の実施態様が得られるからである。例えば、いくつかの実施態様では、Ｆｓ=１６ｋＨｚで２５６個の入力サンプル（１６ｍｓ）、または１２８個の入力サンプル（８ｍｓ）を用い得る。いくつかの代替的な実施態様は、Ｆｓ=３２ｋＨｚで２５６個の入力サンプルまたは５１２個の入力サンプルを用いてもよい。しかしながら、代替的な実施態様では、方法２００は、処理の最初のブロックとしてデジタル化マイクロフォン音声データのフレームを受信することを含んでもよい。

【0052】

この例において、ブロック２２０は、デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出することを含む。この例では、特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む。したがって、いくつかの例では、ブロック２２０（またはブロック２１５などの前のブロック）は、デジタル化マイクロフォン音声データを時間領域から周波数領域中の複数の周波数帯域に変換することを含んでもよい。いくつかの例では、特徴ベクトルは、１５、２０、２５、３０、４０、４５または５０個の値を含んでもよい。

【0053】

いくつかの例では、周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有していてもよい。周波数空間は、例えば、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールであってよい。パワー値は、例えば、パワーの対数であってもよい。いくつかの例において、対数表現はデシベルである。

【0054】

この実施態様では、ブロック２２５は、特徴履歴データ構造を形成することを含む。ブロック２２５は、特徴ベクトルを「スタックする」処理を含んでもよい。この例では、特徴履歴データ構造は、複数の特徴ベクトルを含む。いくつかのそのような例では、５、１０、１５、２０、２５、３０個またはそれ以上の特徴ベクトルが存在してもよい。いくつかの実施態様において、特徴履歴データ構造は、１００ｍｓ～２００ｍｓの合計時間長を有する特徴ベクトルを含んでもよい。例えば、１０ｍｓのステップサイズを有するいくつかのそのような実施態様は、特徴履歴データ構造中に１０フレームから２０フレームの特徴ベクトルを含んでもよい。２０ｍｓのステップサイズを有するいくつかのそのような実施態様は、特徴履歴データ構造中に５フレームから１０フレームの特徴ベクトルを含んでもよい。１００ｍｓ～２００ｍｓの合計時間長を有する特徴ベクトルを含む特徴履歴データ構造を作成することは、発話の平均音節率が１００ｍｓごとに約１音節であることを少なくとも理由として、音声関連タスクに有利である。したがって、音韻や音節を認識するような実施態様については、１００ｍｓから２００ｍｓの合計時間長が適しているといえる。非発話音の認識、単語全体の認識などを含む実施態様では、より長いまたは短い合計時間長が適切である場合がある。

【0055】

この実施態様において、ブロック２３０は、正規化特徴データ構造を含む正規化特徴セットを生成することを含む。この例では、ブロック２３０は、特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することを含む。

【0056】

いくつかの例において、ブロック２３０は、平均レベル非依存スペクトル表現または平均スペクトル表現を得ることを含んでもよい。いくつかのそのような例では、ブロック２３０は、平均レベル非依存スペクトル表現または平均スペクトル表現のケプストラム分解を実行することを含んでもよい。いくつかのそのような例において、正規化特徴セットは、正規化特徴データ構造の全体的な平均スペクトル形状に対応する係数のセットを含んでもよい。係数のセットは、例えば、ケプストラム分解に少なくとも部分的に基づいてもよい。

【0057】

図２に示す例では、ブロック２３５は、ブロック２３０で生成された正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行することを含む。場合によっては、信号認識または修正処理は、音声認識処理を含んでもよい。いくつかのそのような例では、音声認識処理は、ウェイクワード認識処理であってもよい。

【0058】

いくつかの実施態様において、信号認識または修正処理を実行することは、正規化特徴データ構造を音響モデルに供給することと、音響モデルの出力に基づいて音韻確率推定値を決定することとを含んでもよい。いくつかの例では、音響モデルは、ニューラルネットワークを介して実装されてもよい。

【0059】

代替的に、または追加的に、信号認識または修正処理を実行することは、音声認識処理以外の処理を含んでもよい。例えば、信号認識または修正処理を実行することは、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、および／またはノイズ抑制処理を含んでもよい。

【0060】

いくつかの実施態様では、方法２００は、信号認識または修正処理に少なくとも部分的に基づいている少なくとも１つの後続タスクを実行することを含み得る。いくつかのそのような実施態様において、後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、および／またはデバイスの設定（例えば、テレビ設定、スピーカ設定、サーモスタット設定、ホームセキュリティシステム設定、家電設定、ヒーティングまたは空調設定など）を変更することを含むことができる。

【0061】

図３Ａは、本開示のいくつかの局面を実施するために使用され得るシステムのブロックを示す。図３Ａのブロック３０３、３０４、３０５、３０７、３０９および３１１は、例えば、図１を参照して上述した制御システム１２０などの制御システムを介して実装され得る。

【0062】

この例では、話し手３０１は、マイクロフォンシステム３０２によってピックアップされる発声３１３を行っている。話し手（ｔａｌｋｅｒ）は、本明細書では、"話者（ｓｐｅａｋｅｒ）"と呼ばれることもある。マイクロフォンシステム３０２は、特定の実施態様に依存して、単一のマイクロフォンまたは２つ以上のマイクロフォンのアレイを含むことができる。

【0063】

この例では、マイクロフォンシステム３０２は、アナログマイクロフォン音声データをアナログ－デジタル変換器３０３に供給する。これは、図２のブロック２０５の例である。アナログ－デジタル変換器３０３は、アナログマイクロフォン音声データをデジタル化して、デジタル化マイクロフォン音声データを生成するように構成される。これは、図２のブロック２１０の一例である。

【0064】

この例において、デジタル化マイクロフォン音声データは、デジタル前処理ユニット３０４に供給される。アナログ－デジタル変換器３０３またはデジタル前処理ユニット３０４のいずれかが、デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成するように構成されてもよい（ブロック２１５）。デジタル前処理ユニット３０４は、エコー抑制、ノイズ抑制、ビーム形成などの１つ以上のタイプのオーディオ前処理を提供するように構成されてもよい。

【0065】

本例では、特徴抽出ブロック３０５は、デジタル前処理ユニット３０４から出力されるデジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出するように構成されている。これは、図２のブロック２２０の例である。特徴ベクトルは、複数の周波数帯域のうち各周波数帯域についてのパワー値であってもよいし、またはそのようなパワー値を含んでもよい。いくつかの例では、特徴抽出ブロック３０５は、パルスコード変調（ＰＣＭ）データを「ｌｏｇｍｅｌｓｐｅｃ」データに変換するように構成されてもよい。例えば、特徴抽出ブロック３０５は、ある時間間隔において、メル周波数空間における等幅の複数の周波数帯域のそれぞれにおけるパワーの対数を算出するように構成されてもよい。いくつかの例では、時間間隔は、６ｍｓ、８ｍｓ、１０ｍｓ、１２ｍｓ、１４ｍｓなどであってよい。いくつかの例において、周波数帯域の数は、８、１０、１２、１６、１８、２０、２２、２４、２５、２６、２８、３０、４０、４５、５０などであってもよい。

【0066】

ブロック３０６は、デジタル前処理ユニット３０４から出力されるデジタル化マイクロフォン音声データの１フレームから特徴抽出ブロック３０５によって生成される特徴ベクトルを示すものである。一例では、特徴ベクトル３０６は、２５個の実数を含む。代替的な例では、特徴ベクトル３０６は、より多くのまたはより少ない個数（例えば、１５、２０、３０、３５個など）の実数を含んでもよい。

【0067】

この実施態様において、スタック化ユニット３０７は履歴バッファを有し、複数の特徴ベクトルを、特徴の時間および周波数における２次元配列３０８に格納または「スタック化」するように構成されている。配列３０８は、図２のブロック２２５で形成される特徴履歴データ構造の一例である。非限定的な例において、１０ｍｓごとに、新たな２５帯域の特徴ベクトル３０６が特徴抽出ブロック３０５によって算出されてもよい。そのような一例において、スタック化ユニット３０７は、スタック化ユニット３０７の出力が特徴履歴の２５個（周波数）×１０個（時間）の配列３０８となるように、直近の１０個の特徴ベクトル３０６を保持する。

【0068】

この例では、配列３０８は、正規化ブロック３０９に供給される。いくつかの例では、正規化ブロック３０９は、配列３０８の各特徴ベクトル３０６の複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴セット３１０を生成するように構成されてもよい。正規化ブロック３０９のいくつかの詳細な例を以下に説明する。この例では、正規化特徴セット３１０は、正規化特徴の２次元配列（すなわち「スタック」）３１０Ａを含む。この配列３１０Ａは、いくつかの実施態様では、配列３０８と同じサイズを有することになる。この例において、正規化特徴セット３１０は、配列３１０Ａの全体的な平均スペクトル形状を記述する、ケプストラム特徴３１０Ｂも含む。この例では、ケプストラム特徴３１０Ｂは、２つの実数のみを含む。様々な例において、ケプストラム特徴３１０Ｂの数は、配列３１０Ａの値の数よりはるかに小さい。

【0069】

この例では、正規化特徴セット３１０は、音響モデル３１１に供給され、これは、場合によっては、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ：ＤＮＮ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）またはリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）などのニューラルネットワークを介して実装されてもよい。音響モデル３１１は、いくつかの例では、音声認識のために構成されてもよい。音響モデル３１１は、いくつかのそのような例では、正規化特徴セット３１０内の各実数値に対して１つの入力を有し、かつ、それによってモデル化される各音韻またはセノン確率に対して１つの出力を有するであろう。図３Ａは、音響モデル３１１によって生成される音韻確率推定値３１２の一例を示す。

【0070】

図３Ｂは、図１に示すような装置によって実行され得る方法の一例を概説するフロー図である。方法３２０のブロックは、本明細書に記載される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されているよりも多いまたは少ないブロックを含むことができる。

【0071】

この例では、方法３２０のブロック３２５～３５５は、図３Ａの正規化ブロック３０９によって実行され得るブロックの例である。この例において、ブロック３２５は、入力スタックの全フレームにわたる平均スペクトルを算出することを含む。入力スタックは、例えば、図３Ａの配列３０８であってよい。いくつかの例において、ブロック３２５は、以下のように平均スペクトルを算出することを含み得る。

【数1】

（式２００）

【0072】

式２００において、ｘ［ｆ，ｔ］は、過去の特定の時間ｔ（範囲［１，Ｔ］内、ここでインデックス１は直近のデータに対応する）および特定の周波数帯域ｆ（範囲［１，Ｆ］内）における、配列３０８の非正規化入力特徴を表している。式２００において、μは、すべてのフレーム［１，Ｔ］にわたって平均化された平均スペクトルを表す。

【0073】

この例において、ブロック３３０は、入力スタック内のすべてのフレームにわたって平均レベルを算出することを含む。この例では、ブロック３３０は、例えば、以下のように、すべての周波数にわたるスペクトルの平均を取ることを含む。

【数2】

（式２０１）

【0074】

式２０１において、Ｌは平均広帯域レベルを表す。しかし、Ｌは他の方法で算出されてもよい。いくつかの実施態様では、式２００を式２０１に代入し、二重和を形成することによって、Ｌはｘから直接算出されてもよい。例えば、ＭＡＴＬＡＢまたはＪｕｌｉａを使用することを含むいくつかの実施態様では、Ｌをｘの平均に等しく設定してもよい。

【0075】

この例では、ブロック３３５は、平均レベル非依存スペクトルを算出することを含む。いくつかの例において、ブロック３３５は、以下のように平均レベル非依存スペクトルを算出することを含み得る。

【数3】

（式２０２）

【0076】

式２０２において

は、全フレーム［１，Ｔ］にわたって平均化された平均レベル非依存スペクトルを表す。

【0077】

図３Ｂに示す例では、ブロック３４０は、平均レベル非依存スペクトルの滑らかなケプストラム近似を算出することを含む。いくつかの例では、ブロック３４０は、少数のケプストラム「ｄｎａｂ」について、滑らかなケプストラム近似を計算することを含む。本明細書では、ｌｏｇｍｅｌｓｐｅｃデータの離散コサイン変換を意味するために、ケプストラムという用語を使用することに留意されたい。スペクトル項に対応するケプストラム項を考え出すために、単語の一部の文字を逆にすることはよくあることである。例えば、ケプストラム領域で実施されるフィルタリング（ｆｉｌｔｅｒｉｎｇ）は、一般に「リフタリング（ｌｉｆｔｅｒｉｎｇ）」と呼ばれる。そこで、ここでは、スペクトル帯域（ｂａｎｄ）に相当するケプストラムを「ｄｎａｂ」と呼ぶことにする。

【0078】

フラット基底関数（ｆｌａｔｂａｓｉｓｆｕｎｃｔｉｏｎ）に対応するものを除くケプストラム成分（通常、第１番目のケプストラム成分を除くことを意味する）は、音声認識器が使用するのに都合のよい形式でスタック内の音声データの概略的なスペクトル形状を要約する１セットのケプストラム出力成分（例えば、図３Ａのケプストラム特徴３１０Ｂ）として捉えることができる。

【0079】

いくつかの例において、ブロック３４０は以下のように滑らかなケプストラム近似を算出することを含んでもよい。

【数4】

（式２０３）

【0080】

式２０３において、ｃ［ｂ］は、

のケプストラム分解を表す。いくつかの例では、

のケプストラム分解は、ケプストラムｄｎａｂであるｂ＝［１．．．Ｂ］の各々についてのＤＣＴ基底行列Ｃ［ｂ，ｆ］に対し、

の打切り（ｔｒｕｎｃａｔｅｄ）離散コサイン変換（ＤＣＴ）を取ることによって得ることができる。しかし、他の実施態様では、

のＫａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）または離散サイン変換（ＤＣＴ）のような、異なるデコリレーション変換を適用してもよい。このように、任意の適切な基底行列が関与し得る。ＫＬＴは、特定の音声データの統計量が既知であるような実施態様のための有利なデコリレーション変換であり得る。一方、ＤＣＴは、特定の音声データの統計が未知であるような実施態様のための有利なデコリレーション変換であり得る。いくつかの実施態様では、Ｂは、１桁の整数であり、例えば、２、３、４、５などである。この例では、ｂ＞１の場合のｃ［ｂ］（つまり、第１番目のケプストラムｄｎａｂを除く）が、図３Ａのケプストラム特徴３１０Ｂの一例である。ＤＣＴ基底行列Ｃ［ｂ，ｆ］は、例えば、以下の式２０６および式２０７に従って算出され得る。

【0081】

図３Ｂに示す例では、ブロック３４５は、ブロック３４０の滑らかなケプストラム近似を、例えば以下のように滑らかなスペクトルに戻す変換を含む。

【数5】

（式２０４）

【0082】

式２０４において、ｓ［ｆ］は、ＩＤＣＴ基底行列Ｓ［ｆ，ｂ］に関してcの打切り逆離散コサイン変換（ＩＤＣＴ）をとることによって得られる、ｃ［ｂ］のスペクトル再合成を表す。式２０４中、Ｓ［ｆ，ｂ］は、Ｃ［ｂ，ｆ］のムーア－ペンローズ疑似逆行列をとることによって計算され得る、ＩＤＣＴ基底を表している。

【0083】

ケプストラム分析およびスペクトル再合成を使用して

[f]を平滑化する代わりに、

[f]に別の平滑化演算を適用することで平滑化平均スペクトルｓ［ｆ］を得ることができる。

【0084】

図３Ｂの例では、ブロック３５０は、例えば以下のように、入力から平滑化平均スペクトルを除去することによって正規化特徴データ構造を算出することを含む。

【数6】

（式２０５）

【0085】

式２０５において、ｙ［ｆ，ｔ］は正規化出力特徴を表し、これらは図３Ａの配列３１０Ａの例である。ＤＣＴ基底行列Ｃ［ｂ，ｆ］は、式２０６および式２０７に従って算出されてもよい。

【数7】

（式２０６）

【数8】

（式２０７）

【0086】

式２０６および２０７の例は、ＤＣＴ－Ｉ基底を用いることを含む。上述のように、他の例では、異なるタイプのＤＣＴ基底、ＤＳＴ基底またはＫＬＴ基底のような、別のタイプの基底を用いることを含み得る。式２０７に導入されたスケールファクタは、ケプストラムデコリレーションされたｄｎａｂ群（ｃｅｐｓｔｒａｌｄｅｃｏｒｒｅｌａｔｅｄｄｎａｂｓ）が入力帯域エネルギー群とほぼ同じスケールを有するようにするための便利な方法である。

【0087】

いくつかの代替的な実施態様では、式２０３を実装し、かつ行列Ｃを算出または格納することを避けるために、効率的なＤＣＴ関数を供給するライブラリが含まれる。同様に、いくつかの代替例では、式２０４は、ＩＤＣＴ関数への呼び出しによって置換されてもよい。しかしながら、いくつかのそのような実施態様において、これらのタイプのライブラリは、Ｂ＝Ｆを仮定することがあるので、存在するスペクトル帯域と同じ数のケプストラムｄｎａｂを算出することになる。比較的少数のケプストラムｄｎａｂ群を保持することが比較的により望ましい場合がある。すなわち、式２０４は、Ｂ＜＜Ｆであるため、平滑化されたスペクトルを生成する。

【0088】

あるいは、入力から平均スペクトルμ［ｆ］を除去することにより正規化特徴データ構造が計算される。

【数9】

（式２０５ａ）

【0089】

このような実施態様では、μ［ｆ］のケプストラム分解を決定することにより（

［ｆ］のケプストラム分解を行う代わりに）、

【数10】

（式２０３ａ）

【0090】

この結果、信号認識または修正処理に用いるケプストラム係数ｃ［ｂ］のセットを得る。

【0091】

オプションとして、そのような実施態様において、μ［ｆ］が適切な平滑化演算によって平滑化されてもよい。すなわち、式２０５ａが非正規化特徴履歴データ構造ｘ［ｆ，ｔ］からμ［ｆ］を平滑化したものを減算することを包含し、式２０３ａがμ［ｆ］を平滑化したもののケプストラム分解を決定することを包含してもよい。

【0092】

さらなる代替案では、正規化特徴データ構造は、式２０５ａに従って算出され、一方、ケプストラム係数のセットは、式２０３に従って計算される。さらなる代替案では、正規化特徴データ構造は、式２０５に従って計算され、一方、ケプストラム係数のセットは、式２０３ａに従って計算される。

【0093】

いくつかの代替的な実施態様において、各入力特徴ｘ［ｆ，ｔ］に対して信頼度加重ｗ［ｆ，ｔ］が利用可能であれば、時間横断平均（μ）および時間周波数横断平均（Ｌ）は両方とも加重平均とすることができる。このような実施態様は、ノイズの多い条件下でのロバスト性を高めることができる可能性がある。

【0094】

信頼度加重は、特定の実施態様に依存して、多くの異なるファクタに基づくことができる。いくつかの実施態様において、信頼度加重は、少なくとも部分的に、定常ノイズ推定に基づくことができる。定常ノイズ推定は、例えば、各周波数帯域において最小値フォロワー（ｍｉｎｉｍｕｍｆｏｌｌｏｗｅｒ）を使用することによって得られてもよい。いくつかのそのような例では、各入力フレームについて、入力帯域エネルギーがその周波数帯域の現在のノイズフロア推定値よりも低い場合、ノイズフロア推定値は直ちに新しいエネルギーレベルに更新されてもよい（または新しいエネルギーレベルの値に近づくように積極的にスルー（ｓｌｅｗ）されてもよい）。いくつかのそのような実施態様において、入力帯域がノイズフロア推定値よりも大きい場合、現在の推定ノイズフロア推定値は、新しいエネルギーレベルの値に向かって非常にゆっくりとスルー（ｓｌｅｗ）されてもよい。最小ノイズを追跡するだけでなく、各帯域におけるノイズの分散を追跡し、および／または帯域間のノイズの共分散を追跡することが有利であり得る。

【0095】

いくつかの例では、定常ノイズ推定が行われた後、定常ノイズ推定値がノイズフロアに近い（推定ＳＮＲ低）場合、特定の時間－周波数タイルが所与の音声分析および／または音声修正（ｓｐｅｅｃｈｍｏｄｉｆｉｃａｔｉｏｎ）タスクに関連する可能性は低いと仮定することができ、そのような帯域についてはｗはゼロに近く設定することができる。一方、時間周波数タイルがノイズフロアに対して閾値量より高い（推定ＳＮＲ高）場合、その時間周波数タイルは関連する可能性が高いので、いくつかの例では、ｗの値はその帯域について１近くに設定されてもよい。いくつかの例では、ＳＮＲと信頼度ｗとの間のマッピングとしてロジスティック関数を使用することによって、この機能を実装することができる。

【0096】

いくつかの実施態様において、信頼度加重は、少なくとも部分的に音響エコー推定に基づくことができる。例えば、デバイスが１つまたは複数のマイクロフォンに加えて１つまたは複数のスピーカを含む場合、デバイス（または別のデバイス）は、両方の信号を観察することによって、それらスピーカが時間とともにマイクロフォンにどのように音響的に結合するかを予測してもよい。そのような予測または決定は、通常、エコーキャンセルまたは抑制の文脈で行われ得る。しかしながら、いくつかの開示する実施態様と共に使用される場合、音響的エコー予測または決定は、必ずしもエコーをキャンセルまたは抑制するために使用される必要はなく、単にエコーを予測した後、エコーによって非常に汚染されている帯域を無視するように正規化の際に本明細書に開示の正規化の段に指示してもよい。

【0097】

いくつかの例では、エコーキャンセラは、約２０ｄＢのエコーをキャンセルしてもよい。すなわち、ＥＲＬＥ（ＥｃｈｏＲｅｔｕｒｎＥｎｈａｎｃｅｍｅｎｔＬｏｓｓ）は、約２０ｄＢであってもよい。通信システムにおいて、エコーキャンセル処理は、しばしば、帯域エネルギー領域で動作し、エコーキャンセル処理の後に残る可能性のある残留エコーを積極的に抑制するように働くエコー抑制処理に続いて行われる。このようなエコー抑制処理は、通常、まず各フレーム中の各帯域のＳＥＲ（ｓｉｇｎａｌｔｏｅｃｈｏｒａｔｉｏ：信号対エコー比）を予測し、次に、ＳＥＲに基づいてその帯域の抑制利得を決定することによって動作する。いくつかの開示する実施態様において、抑制利得を適用するのではなく、例えば、ノイズ抑制の場合のＳＮＲについて説明したようなロジスティック関数を使用することにより、ＳＥＲを用いてｗを駆動してもよい。

【0098】

いくつかの実施態様において、信頼度加重は、少なくとも部分的に、音の方向／相関に基づくことができる（複数のマイクロフォンがある場合）。時間周波数タイルが、対象とする話し手に対応することがわかっている方向から到来する主としてコヒーレントな平面波エネルギー（例えば、空間共分散推定値によって決定される）を含んでいる場合、いくつかの開示する実施態様では、対応する周波数帯域は、正規化を算出するときに高く重み付けされてもよい。ある時間周波数タイルが既知の干渉源から来るように見えるか、または拡散した周囲音の混合体である場合、いくつかの開示する実施態様では、対応する周波数帯域は、正規化を算出するときに低い重みが与えられてもよい。

【0099】

いくつかの例では、信頼度加重は、少なくとも部分的に、残響の有無に基づいてもよく、例えば残響を無視することによってもよい。例えば特定の環境において音が減衰するのにかかる時間を知ることにより、ある時間周波数タイルが直接音ではなく残響（単一のマイクロフォンからの）に主として起因するかどうかを、予測することが可能であるはずである。例えば、このような予測は、特定の環境のＲＴ６０の推定に基づいてもよい。ＲＴ６０とは、残響のある環境において音のレベルが６０ｄＢ減衰するのにかかる時間（秒）である。もし開示する実施態様が、特定の帯域が話し手からの直接音声を含むという自身の推定において高い信頼度を有する場合は、その実施態様ではｗを１に近い値に設定してもよい。もし開示する実施態様が、ある帯域が残響エネルギーから成っている可能性のほうが高いと推定する場合、その実施態様ではｗを０に近い値に設定してもよい。

【0100】

いくつかの代替的な実施態様では、上記の式２００および２０１は、それぞれ式２００Ａおよび２０１Ａに置き換えられてもよい。

【数11】

（式２００Ａ）

【数12】

（式２０１Ａ）

【0101】

有限インパルス応答（ＦＩＲ）
式２００、２００Ａ、２０１、および２０１Ａは、時間的な平均化の処理を記述している。これらは、ＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ：有限インパルス応答）平均である。すなわち、これらの式を実装するためには、フレームｔにおけるｘ［ｆ，ｔ－Ｔ］を知る必要がある。上述したいくつかの例において、Tフレーム前のデータを保持するために、履歴バッファ（例えば、図３Ａの配列３０８）が維持されてもよい。

【0102】

式２００Ａおよび２０１Ａ（または類似の式）の適用を含むいくつかの代替的な実施態様では、履歴バッファを用いる代わりに、μの実行近似（ｒｕｎｎｉｎｇａｐｐｒｏｘｉｍａｔｉｏｎ）（「ＩＩＲ平均」）が維持され、例えば、以下のように経時的に更新される。

【数13】

（式２０８）

【0103】

式２０８において、αは定数を表す。αの値の例は０．９６であるが、他の例では、αはより大きくても小さくてもよい。いくつかのそのような実施態様は、式２００および２０１を参照して上述した例よりも計算効率が高くてもよい。さらに、そのような実施態様は、オプションとしてαの値を調整することによって、古いデータよりも最近のデータへの依存度を高めてもよい（またはその逆もあり得る）。

【0104】

図３Ｂに示す例では、ブロック３５５は、正規化特徴データ構造を出力することを含む。正規化特徴データ構造は、図３Ａに示す正規化特徴セット３１０の一例であり得る。この例において、ブロック３６０は、正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行することを含む。いくつかのそのような例では、ブロック３６０は、正規化特徴データ構造を音響モデル、例えば本明細書で参照される音響モデルのうちの１つ（例えば、図３Ａの音響モデル３１１）に入力することを含んでもよい。いくつかの実施態様において、ブロック３６０は、図２のブロック２３５を参照して上述した処理のうちの１つ以上を含んでもよい。

【0105】

以下は、Ｊｕｌｉａ１．０による正規化ブロック３０９の実装例である。

【0106】

【表1】

【0107】

図４は、図３Ａの音響モデルを実装するためのアーキテクチャの一例を示す図である。この実施態様では、音響モデル３１１は、ＤＮＮの一例に従って実装される。

【0108】

この例では、正規化特徴セット３１０は、音響モデル３１１に供給される。この実施態様において、正規化特徴セット３１０の配列３１０Ａは、平坦化ブロック４０１に供給される。この例において、平坦化ブロック４０１は、スペクトル特徴３１０Ａのスタックを１次元ベクトルに平坦化するように構成される。いくつかの例では、平坦化ブロック４０１は、スペクトル特徴３１０Ａのスタックの行を横切って読むことによってスペクトル特徴３１０Ａのスタックを平坦化するように構成されてもよく、一方、他の例では、平坦化ブロック４０１は、スペクトル特徴３１０Ａのスタックの列を読み下ろすこと（ｒｅａｄｄｏｗｎ）によってスペクトル特徴３１０Ａのスタックを平坦化するように構成されてもよい。代替的な実施態様では、平坦化ブロック４０１は、スペクトル特徴３１０Ａのスタックを別の方法で、例えば対角線に沿って読み取ることによって、スペクトル特徴３１０Ａのスタックを平坦化するように構成されてもよい。

【0109】

この例において、平坦化ブロック４０１が出力する平坦化されたスペクトル特徴ベクトルは、連結ブロック４０２に供給される。この例では、ケプストラム特徴３１０Ｂは平坦化を必要としないので、ケプストラム特徴３１０Ｂは連結ブロック４０２に直接供給される。この実施態様では、連結ブロック４０２は、平坦化されたスペクトル特徴ベクトルとケプストラム特徴ベクトルとを結合して、単一の統合特徴ベクトル４１０を形成するように構成される。いくつかの実施態様ではケプストラム特徴が最初に来て、平坦化されたスペクトル特徴ベクトルが続くが、他の実施態様では平坦化されたスペクトル特徴ベクトルが最初に来てもよい。他の実施態様において、平坦化されたスペクトル特徴ベクトルとケプストラム特徴とがインターリーブされてもよい。

【0110】

この例では、連結ブロック４０２は、単一の統合特徴ベクトル４１０をＤＮＮの入力層４０３に出力するように構成されている。入力層４０３は、例えば、バイアス、および非線形活性化関数（例えば、ロジスティック、双曲線正接（ｔａｎｈ）、正規化線形関数（ＲｅＬＵ）、ＬｅａｋｙＲｅＬＵ）を用いた全結合（別名として濃密）層であってよい。入力層４０３は、例えば、６４～１０２４の出力値を生成してもよい。

【0111】

この例において、ＤＮＮは、複数の隠れ層４０４を含む。いくつかの実施態様ではＤＮＮは２～６個の隠れ層を含んでもよく、一方、他の実施態様ではＤＮＮはより多くの隠れ層を含んでもよい。隠れ層４０４の各々は、例えば、バイアス、および非線形活性化関数（例えば、ロジスティック、双曲線正接、整流線形ユニット（ＲｅＬＵ）、ＬｅａｋｙＲｅＬＵ）を用いた全結合（別名として濃密）層であってよい。隠れ層４０４の各々は、例えば、６４～１０２４の出力値を生成してもよい。

【0112】

この実施態様では、出力層４０５は、入力特徴セット３１０が多数のセノン（例えば、音韻、２音韻、３音韻）クラスの各々に対応する確率ベクトルを生成する（３１２）。例えば、１つの出力は、ユーザーが「ｂｏｏｋ」における「ｏｏ」の音を発声することに対応するかもしれない。

【0113】

いくつかの実施形態は、１つ以上の開示する方法を実行するように構成された（例えば、プログラムされた）システムまたはデバイスと、１つ以上の開示する方法またはそのステップを実施するためのコードを格納する有形のコンピュータ読み取り可能な媒体（例えば、ディスク）とを含む。例えば、システムは、開示する方法またはそのステップの実施形態を含むデータに対する様々な演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされたかつ／または他の方法で構成された、プログラマブルな汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであってもよいし、またはそれらを含んでもよい。このような汎用プロセッサは、入力デバイス、メモリ、および開示する方法（またはそのステップ）の実施形態を、それにアサートされたデータに応答して実行するようにプログラムされた（かつ／または他の方法で構成された）処理サブシステムを含むコンピュータシステムであってもよいし、またはそれを含んでもよい。

【0114】

開示するシステムのいくつかの実施形態は、オーディオ信号（複数可）に対して、開示する方法の実施形態の実行を含む必要な処理を行うように構成された（例えば、プログラムされたまたはその他構成された）、コンフィギュラブル（例えばプログラマブル）なデジタルシグナルプロセッサ（ＤＳＰ）として実装されてもよい。あるいは、開示するシステム（またはその要素）の実施形態は、開示する方法の実施形態を含む様々な演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされたかつ／または他の方法で構成された、汎用プロセッサ（例えば、入力デバイスおよびメモリを含み得るパーソナルコンピュータ（ＰＣ）またはその他のコンピュータシステムまたはマイクロプロセッサ）として実施されてもよい。あるいは、開示するシステムのいくつかの実施形態の要素は、開示する方法の実施形態を実行するように構成された（例えば、プログラムされた）汎用プロセッサまたはＤＳＰとして実装されてもよく、システムはまた、他の要素（例えば１つまたは複数のラウドスピーカおよび／または１つまたは複数のマイクロフォン）を含んでもよい。開示する方法の実施形態を実行するように構成された汎用プロセッサは、入力デバイス（例えば、マウスおよび／またはキーボード）、メモリ、およびいくつかの例ではディスプレイデバイスに結合されてもよい。

【0115】

本開示の別の局面は、開示する方法またはそのステップの任意の実施形態を実行するためのコードを格納する（例えば、これを実行するように実行可能な符号化器（ｃｏｄｅｒ））、１つまたは複数の非一時的コンピュータ可読媒体（例えば、１つまたは複数のＲＡＭ、ＲＯＭ、ディスクまたは他の有形の記憶媒体）に実装されてもよい。

【0116】

本開示の特定の実施形態および応用を本明細書で説明したが、本明細書で説明した実施形態および応用の多くの変形が本開示の範囲を逸脱することなく可能であることは、当業者には明らかであろう。

【0117】

本発明の様々な局面を、以下に続く列挙実施形態例（ｅｎｕｍｅｒａｔｅｄｅｘａｍｐｌｅｅｍｂｏｄｉｍｅｎｔｓ）（ＥＥＥ）から理解することができる。

【0118】

ＥＥＥ１．オーディオ処理方法であって、
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含する、オーディオ処理方法。

【0119】

ＥＥＥ２．前記信号認識または修正処理は音声認識処理を包含する、ＥＥＥ１に記載の方法。

【0120】

ＥＥＥ３．前記音声認識処理はウェイクワード認識処理を包含する、ＥＥＥ２に記載の方法。

【0121】

ＥＥＥ４．前記信号認識または修正処理を実行する工程は、
前記正規化特徴データ構造を音響モデルに供給することと、
前記音響モデルの出力に基づいて音韻確率推定値を決定することと、
を包含する、ＥＥＥ２またはＥＥＥ３に記載の方法。

【0122】

ＥＥＥ５．前記音響モデルはニューラルネットワークを包含する、ＥＥＥ４に記載の方法。

【0123】

ＥＥＥ６．前記信号認識または修正処理は、話者認識処理、言語認識処理、感情認識処理、非発話音分類処理、およびノイズ抑制処理からなる処理のリストより選択された１つまたは複数の処理を包含する、ＥＥＥ１から５のいずれかに記載の方法。

【0124】

ＥＥＥ７．前記周波数帯域は、周波数空間において等しいかまたは実質的に等しい幅を有する、ＥＥＥ１から６のいずれかに記載の方法。

【0125】

ＥＥＥ８．前記周波数空間は、メル周波数空間、バークスケール、または同等の矩形帯域幅スケールである、ＥＥＥ７に記載の方法。

【0126】

ＥＥＥ９．前記パワー値はパワーの対数を包含する、ＥＥＥ１から８のいずれかに記載の方法。

【0127】

ＥＥＥ１０．前記正規化特徴データ構造を生成する工程は、現在のフレームおよび直近の過去フレームに基づいて、平均広帯域レベルを決定することを包含する、ＥＥＥ１から９のいずれかに記載の方法。

【0128】

ＥＥＥ１１．前記正規化特徴データ構造を生成する工程は、前記現在のフレームおよび前記直近の過去フレームに基づいて、平均スペクトル表現を決定することを包含する、ＥＥＥ１０に記載の方法。

【0129】

ＥＥＥ１２．前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均広帯域レベルを決定することを包含する、ＥＥＥ１から９のいずれかに記載の方法。

【0130】

ＥＥＥ１３．前記正規化特徴データ構造を生成する工程は、前記特徴履歴データ構造のすべてのフレームに基づいて、平均スペクトル表現を決定することを包含する、ＥＥＥ１０に記載の方法。

【0131】

ＥＥＥ１４．前記正規化特徴データ構造を生成する工程は、各フレームについて信頼度加重ファクタを決定することを包含する、ＥＥＥ１から１３のいずれかに記載の方法。

【0132】

ＥＥＥ１５．前記信頼度加重ファクタを決定することは、ノイズ推定、信号対ノイズ推定、エコー予測、信号対エコー比予測、音方向推定、または残響推定のうち１つ以上に少なくとも部分的に基づく、ＥＥＥ１４に記載の方法。

【0133】

ＥＥＥ１６．前記正規化特徴セットを生成することは平均レベル非依存スペクトル表現を得ることを包含する、ＥＥＥ１３に記載の方法。

【0134】

ＥＥＥ１７．前記正規化特徴セットを生成することは前記平均レベル非依存スペクトル表現のケプストラム分解を行うことを包含する、ＥＥＥ１６に記載の方法。

【0135】

ＥＥＥ１８．前記ケプストラム分解を行うことは、基底行列によって表されるデコリレーション変換を適用することを包含する、ＥＥＥ１７に記載の方法。

【0136】

ＥＥＥ１９．前記基底行列は、離散サイン変換に基づくもの、離散コサイン変換に基づくもの、またはＫａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換に基づくもののうち１つ以上を表す、ＥＥＥ１８に記載の方法。

【0137】

ＥＥＥ２０．前記正規化特徴セットは、前記正規化特徴データ構造の全体的な平均スペクトル形状に対応する係数のセットであって、前記ケプストラム分解に少なくとも部分的に基づく係数のセットをさらに含む、ＥＥＥ１３に記載の方法。

【0138】

ＥＥＥ２１．前記信号認識または修正処理に少なくとも部分的に基づいている後続タスクを実行することをさらに包含し、ここで前記後続タスクは、応答音を生成するようにスピーカを制御すること、インターネット検索を行うこと、電話呼を開始すること、テキストメッセージを送信すること、電子メールメッセージを送信すること、およびデバイスの設定を変更することからなるタスクのリストより選択された１つまたは複数のタスクを含む、ＥＥＥ１から２０のいずれかに記載の方法。

【0139】

ＥＥＥ２２．ＥＥＥ１から２１のいずれかに記載の方法を実行するように構成された、装置。

【0140】

ＥＥＥ２３．ＥＥＥ１から２１のいずれかに記載の方法を実行するように、１つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、１つまたは複数の非一時的媒体。

【0141】

ＥＥＥ２４．
マイクロフォン音声データをマイクロフォンシステムから受信するように構成されたインターフェースシステムと、
制御システムであって、
マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を実行するように構成された制御システムと、
を備える、装置。

【0142】

ＥＥＥ２５．
マイクロフォン音声データをマイクロフォンシステムから受信する工程と、
前記マイクロフォン音声データをデジタル化してデジタル化マイクロフォン音声データを生成する工程と、
前記デジタル化マイクロフォン音声データをフレーム化してデジタル化マイクロフォン音声データのフレームを生成する工程と、
前記デジタル化マイクロフォン音声データの各フレームから特徴ベクトルを抽出する工程であって、前記特徴ベクトルは複数の周波数帯域のうち各周波数帯域についてのパワー値を含む、工程と、
複数の特徴ベクトルを含む、特徴履歴データ構造を形成する工程と、
前記特徴履歴データ構造の各特徴ベクトルの複数の周波数帯域について正規化パワー値群を決定することによって、正規化特徴データ構造を含む正規化特徴セットを生成する工程と、
前記正規化特徴データ構造に少なくとも部分的に基づいて、信号認識または修正処理を実行する工程と、
を包含する方法を実行するように、１つまたは複数のデバイスを制御するための命令を含むソフトウェアが記録された、１つまたは複数の非一時的媒体。

【0143】

ＥＥＥ２６．前記信号認識または修正処理は音声認識処理を包含する、ＥＥＥ２５に記載の１つまたは複数の非一時的媒体。

【0144】

ＥＥＥ２７．前記音声認識処理はウェイクワード認識処理を包含する、ＥＥＥ２６に記載の１つまたは複数の非一時的媒体。

【図1】

【図2】

【図3A】

【図3B】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版