IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特許7051919ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
<>
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図1
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図2
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図3
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図4
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図5
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図6
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図7
  • 特許-ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
   G10L 15/08 20060101AFI20220404BHJP
   G10L 15/16 20060101ALI20220404BHJP
【FI】
G10L15/08 200Z
G10L15/16
【請求項の数】 19
【外国語出願】
(21)【出願番号】P 2020040041
(22)【出願日】2020-03-09
(65)【公開番号】P2021018413
(43)【公開日】2021-02-15
【審査請求日】2020-06-22
(31)【優先権主張番号】201910646762.1
(32)【優先日】2019-07-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】シャオ ジュンヤオ
(72)【発明者】
【氏名】キアン シェン
(72)【発明者】
【氏名】ジア レイ
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2002-073078(JP,A)
【文献】米国特許出願公開第2019/0189115(US,A1)
【文献】特開平10-198392(JP,A)
【文献】特表2019-514045(JP,A)
【文献】米国特許第9613624(US,B1)
【文献】米国特許出願公開第2018/0336466(US,A1)
【文献】特開2018-109760(JP,A)
【文献】特開2017-040919(JP,A)
【文献】A Breakthrough in Speech Technology: Baidu Launched SMLTA, the First Streaming Multilayer Truncated Attention Model for Large-scale Online Speech Recognition,[online],Baidu Research,2019年01月21日,[令和3年7月26日検索],インターネット<URL:http://research.baidu.com/Blog/index-view?id=109>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/08
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップであって、前記ストリーミングアテンションモデルは複数のモデリングユニットを備え、前記モデリングユニットは音節である、ステップと、
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップと、
前記複数のマージされた音響経路の中から所定数の音響経路を選択するステップと、を含むストリーミングアテンションモデルに基づく音声認識復号化方法。
【請求項2】
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップは、
前記最後の発音の直前の発音時の候補音響経路と、前記ストリーミングアテンションモデルの前記複数のモデリングユニットとに基づいて、前記複数の音響経路を生成するステップを含む請求項1に記載の方法。
【請求項3】
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップは、
前記複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するステップと、
前記複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するステップと、
各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するステップと、を含む請求項1に記載の方法。
【請求項4】
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップは、
前記複数の音響経路のうち最後の発音が第1発音である第1音響経路集合をマークアップするステップと、
前記第1音響経路集合における復号化総合得点が最も高い第1音響経路を確定するステップと、
前記第1音響経路集合における各音響経路の履歴状態を前記第1音響経路にマージするステップと、を含む請求項3に記載の方法。
【請求項5】
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップは、
言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路を同一グループにマージするステップ、を含む請求項3に記載の方法。
【請求項6】
前記複数のマージされた音響経路の中から所定数の音響経路を選択するステップは、
前記複数のマージされた音響経路の複数の復号化総合得点をランキングするステップであって、各復号化総合得点は前記ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含むステップと、
前記複数のマージされた音響経路の中から、ランキング順位が所定の上位数にある音響経路を候補音響経路として選択するステップと、を含む請求項1に記載の方法。
【請求項7】
新たな発音を含む新たな音声信号を受信するステップと、
前記候補音響経路と前記新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するステップとをさらに含む請求項6に記載の方法。
【請求項8】
音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するステップをさらに含む請求項6に記載の方法。
【請求項9】
ストリーミングアテンションモデルに基づく音声認識復号化装置であって、
音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される音響経路生成モジュールであって、前記ストリーミングアテンションモデルは複数のモデリングユニットを備え、前記モデリングユニットは音節である、音響経路生成モジュールと、
前記複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るように構成される音響経路マージモジュールと、
前記複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される音響経路選択モジュールと、を備えるストリーミングアテンションモデルに基づく音声認識復号化装置。
【請求項10】
前記音響経路生成モジュールは、
前記最後の発音の直前の発音時の候補音響経路と、前記ストリーミングアテンションモデルの前記複数のモデリングユニットとに基づいて、前記複数の音響経路を生成するように構成される第2音響経路生成モジュールを備える請求項9に記載の装置。
【請求項11】
前記音響経路生成モジュールは、
前記複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するように構成される音響得点確定モジュールと、
前記複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するように構成される言語得点確定モジュールと、
各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するように構成される復号化総合得点確定モジュールと、を備える請求項9に記載の装置。
【請求項12】
前記音響経路マージモジュールは、
前記複数の音響経路のうち最後の発音が第1発音である第1音響経路集合をマークアップするように構成される経路集合マークアップモジュールと、
前記第1音響経路集合における復号化総合得点が最も高い第1音響経路を確定するように構成される最高総合得点確定モジュールと、
前記第1音響経路集合における各音響経路の履歴状態を前記第1音響経路にマージするように構成される経路集合マージモジュールと、を備える請求項11に記載の装置。
【請求項13】
前記音響経路マージモジュールは、
言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路を同一グループにマージするように構成されるグループマージモジュールを備える請求項11に記載の装置。
【請求項14】
前記音響経路選択モジュールは、
前記複数のマージされた音響経路の複数の復号化総合得点をランキングするように構成される音響経路ランキングモジュールであって、各復号化総合得点は前記ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含む音響経路ランキングモジュールと、
前記複数のマージされた音響経路の中から、ランキング順位が所定の上位数にある音響経路を候補音響経路として選択するように構成される候補経路選択モジュールと、を備える請求項9に記載の装置。
【請求項15】
新たな発音を含む新たな音声信号を受信するように構成される音声受信モジュールと、
前記候補音響経路と前記新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するように構成される候補経路生成モジュールとをさらに備える請求項14に記載の装置。
【請求項16】
音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するように構成される認識結果確定モジュールをさらに備える請求項14に記載の装置。
【請求項17】
電子機器であって、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを格納するための記憶手段であって、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されると、前記電子機器は請求項1~8のいずれか1項に記載の方法を実現する記憶手段と、を備える、電子機器。
【請求項18】
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
【請求項19】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~8のいずれか一項に記載の方法を実現させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、主に音声認識技術分野に属し、特に、ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
音声認識とはコンピュータによって音声信号を対応するテキストに変換するプロセスであり、人間と機械とのインタラクションを実現する主なアプローチの一つである。近年、深層学習技術が音声認識分野に幅広く適用されることにつれて、音声認識の正確率が大幅に向上された。また、スマートデバイスの普及の進めに伴い、音声を用いて認識するシーンは非常に多様になっている。例えば、音声認識技術は、音声入力、音声ダイヤル、カーナビゲーション等の様々な場面で幅広く利用されている。音声認識技術は自然言語処理及び音声合成等の技術と結合し、例えばスマートスピーカ、会議の同時通訳、インテリジェントカスタマーサービスアシスタント等、より多くの複雑な応用を生成することができる。音声認識の正確率は音声関連製品のユーザの使用体験に直接影響し、そのため、音声認識の使用シーンが絶えず豊富になることに伴い、音声認識の正確率にはより高い要件が課せられる。
【0003】
ストリーミング音声認識はリアルタイム処理をサポートする音声認識技術であり、それはストリームに伝送された連続音声に対し、音声の各フラグメントを認識し、それによりリアルタイムに認識結果を得ることができ、全ての音声入力が完了した後に認識処理を開始する必要がない。例えば、ユーザが発話しながら認識結果がリアルタイムに表示されるように求めるシーンにおいて、音声認識システムは高い認識率を維持しながら、音声信号を即時迅速に復号化し且つ認識結果をリアルタイムに出力する必要がある。一般的に、ストリーミング音声認識がストリーミング音響モデルによって実現され得、ストリーミング音響モデルは現在の音声の得点を算出する際に、現在の音声の信号特徴に加えて、過去の履歴情報を必要とするため、履歴依存の音響モデルである。
【発明の概要】
【0004】
本開示の例示的な実施形態により、ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体を提供する。
【0005】
本開示の第1態様において、ストリーミングアテンションモデルに基づく音声認識復号化方法であって、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するステップと、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るステップと、複数のマージされた音響経路の中から所定数の音響経路を選択するステップと、を含むストリーミングアテンションモデルに基づく音声認識復号化方法を提供する。
【0006】
本開示の第2態様において、ストリーミングアテンションモデルに基づく音声認識復号化装置であって、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される音響経路生成モジュールと、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得るように構成される音響経路マージモジュールと、複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される音響経路選択モジュールと、を備えるストリーミングアテンションモデルに基づく音声認識復号化装置を提供する。
【0007】
本開示の第3態様において、1つ又は複数のプロセッサと、1つ又は複数のプログラムを格納するための記憶手段と、を備える電子機器を提供する。1つ又は複数のプログラムが1つ又は複数のプロセッサによって実行されると、電子機器は本開示の実施形態に係る様々な方法及び/又はプロセスを実現する。
【0008】
本開示の第4態様において、コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の実施形態に係る様々な方法及び/又はプロセスを実現するコンピュータ可読記憶媒体を提供する。
【0009】
発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0010】
添付図面と組み合わせて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の参照番号は、同一又は類似の要素を表す。
【0011】
図1】本開示の実施形態に係る音声認識の処理プロセスを示す概略図である。
【0012】
図2】本開示の実施形態に係る例示的な音声認識シーンを示す概略図である。
【0013】
図3】本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化方法を示すフローチャートである。
【0014】
図4】本開示の実施形態に係る候補音響経路を選択するためのプロセスを示す概略図である。
【0015】
図5】本開示の実施形態に係る候補音響経路をマージするためのプロセスを示す概略図である。
【0016】
図6】本開示の実施形態に係る復号化総合得点を用いた音響経路のクリッピング方法を示す概略図である。
【0017】
図7】本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化装置を示すブロック図である。
【0018】
図8】本開示の複数の実施形態を実施することができる電子機器を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本開示のいくつかの実施形態が図面に示されているが、本開示は様々な形態で具現化されてもよく、本明細書に記載の実施形態に限定されると解釈されるべきではなく、逆に、これらの実施形態は、本開示をより明確かつ完全に理解するために提供されるものであることを理解されたい。なお、本開示の図面及び実施例は例示的なものにすぎず、本開示の保護範囲を限定するものではない。
【0020】
本開示の実施形態の説明では、用語「…を含む」及びそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に…に基づいて」と理解されるべきである。用語「1つの実施形態」又は「該実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「いくつかの実施形態」は、「少なくともいくつかの実施形態」と理解されるべきである。以下では、他の明確か暗黙的な定義がさらに含まれ得る。
【0021】
アテンションモデル(attention model)は、エンコーダ-デコーダ構造に基づく音声認識音響モデリング技術であり、長いシーケンスにおける予測効果を向上させることができる。例えば、エンコーダは入力された音声特徴を符号化して隠れ特徴を得て、続いてアテンションモデルによってこれらの隠れ特徴の異なる部分に、相応しい重みを割り当て、最後にデコーダはモデリング粒度の違いに応じて対応するテキストを出力する。ストリーミングアテンションモデルはストリーミング処理をサポートするアテンションモデルであり、リアルタイムな音声認識処理を実現することができ、ストリーミングとは音声の小素片(必ずしも文ではなく)に対してフラグメントごとに直接インクリメンタル復号化できることを表す。ストリーミングアテンションモデルは履歴状態に基づいて現在の音声フラグメントを復号化する必要があるため、履歴依存の音響モデルに属する。
【0022】
従来の履歴依存に基づく音響モデルのデコーダでは、音響経路のマージは、音響モデル自体の履歴依存を考慮する必要がある。例えば、音響経路のマージは音響モデルの履歴状態を考慮する必要があり、一般的に異なるモデル履歴状態から出力されたワンホット(one hot)特徴ベクトル又は異なるモデル履歴状態はいずれも異なる音響経路を表し、マージされることができなく、さらに復号化時の経路の数の膨大化を引き起こし、復号化速度に影響を与え、また、音声認識システムの正確率も影響を受ける可能性があると考えられる。
【0023】
そこで、本開示の実施形態は、ストリーミングアテンションモデルに基づく新たな音声認識復号化方法を提供する。本開示の発明者らは、現在の発音の音響得点の計算がその直前の発音フラグメントのみの影響を受け、より早い発音フラグメント履歴に関係しないという考えを前提として、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができることを発見した。以下、本開示の実施形態のいくつかの実施例を図1図8を参照して詳細に説明する。
【0024】
図1は、本開示の実施形態に係る音声認識の処理プロセスの概略図を示している。通常、音声認識システムは音響モデル、言語モデル及びデコーダ等のコンポーネントを含むことができる。図1に示すように、集音された音声信号110を取得した後、まず、後の音響モデル等の処理に供するために、入力された音声信号110から特徴を抽出することなど、信号処理と特徴抽出をブロック120で行う。あるいは、特徴抽出プロセスは、環境ノイズ又は他の要因が特徴に与える影響を低減するために、いくつかの他の信号処理技術をさらに含む。
【0025】
図1を参照すると、特徴抽出が完了した後、抽出された特徴をデコーダ130に入力し、且つデコーダ130により処理しテキスト認識結果140を出力し、デコーダ130は音響モジュール(例えば、ストリーミングアテンションモデル132)及び言語モデル134に基づいて最大確率で出力された音声信号の単語シーケンスを検索し、そのうちストリーミングアテンションモデル132は音声から音節への変換を実現することができ、言語モデル134は音節からテキストへの変換を実現することができる。
【0026】
いくつかの実施形態において、ストリーミングアテンションモデル132は発音フラグメントをモデリングするために用いられ、そのモデリング単位が例えば音節であってもよく、それはストリーミングトランケートされるマルチレイヤーアテンションモデル(Streaming trancated multi-layer attention,SMLTA)であってもよく、ストリーミングとは音声の小素片(必ずしも文ではなく)に対してフラグメントごとに直接インクリメンタル復号化できることを表し、マルチレイヤーとは多層のアテンションモデルを積層できることを表し、トランケートとは、コネクショニスト時間分類(Connectionist Temporal Classification,CTC)モデルのスパイク情報を利用し、音声を複数の小素片に切断できることを表し、アテンションモデルのモデリング及び復号化は各小素片に展開することができる。このようなSMLTAモデルは、リアルタイムなストリーミング音声認識をサポートすることができ、かつ高い認識正確率を実現することができる。そのうち、CTCモデルは、エンドツーエンドのモデルであって、大規模な語彙の音声認識に用いられ、深層ニューラルネットワーク(DNN)+隠れマルコフモデル(HMM)の音響モデル構造が完全に統一されたニューラルネットワーク構造に置き換えられ、音響モデルの構造及びトレーニング難易度が大幅に低減され、音声認識システムの正確率が向上された。
【0027】
言語モデル134は言語をモデリングするために用いられる。通常、統計されたNグラム法(N-Gram)を用いて、すなわち前後Nワードが出現する確率を統計することができる。なお、既知又は将来開発されるあらゆる言語モデルは、本開示の実施形態と組み合わせて用いることができることは言うまでもない。いくつかの実施形態において、ストリーミングアテンションモデル132は音声データベースに基づいてトレーニング及び/又は動作することができ、言語モデル134はテキストデータベースに基づいてトレーニング及び/又は動作することができる。
【0028】
デコーダ130は、ストリーミングアテンションモデル132と言語モデル134の出力結果に基づいて、動的復号化を実現することができる。本開示の実施形態によれば、デコーダ130は、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができる。次に、デコーダが音響経路をマージするいくつかの例についてさらに詳しく説明する。
【0029】
図2は、本開示の実施形態に係る例示的な音声認識シーン200の概略図を示している。シーン200は、本開示の実施形態の実現可能なシーンの一例に過ぎず、本開示の保護範囲を限定するものではないことを理解されたい。
【0030】
図2に示すように、シーン200において、ユーザ210は、そのユーザデバイス220に音声入力を行っており、ユーザ210が生成した音声215(すなわち、音声)はユーザデバイス220により集音され、例えば、ユーザデバイス220の音声収集装置(例えば、マイクロホン)によって音声215を収集することができる。ユーザデバイス220は音声信号を収集できるあらゆる電子機器であってもよく、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス(スマートウォッチ、スマートメガネ等)、ナビゲーションデバイス、マルチメディアプレイヤーデバイス、教育機器、ゲーム機器、スマートスピーカ等を含むがこれらに限定されない。
【0031】
ユーザデバイス220は、音声215を収集するプロセスにおいて、ネットワーク225を介して音声215をフラグメントごとにサーバ230に送信することができ、サーバ230は、本開示の実施形態に係る音声認識のための音声認識システム233(音声認識システム233は本開示の実施形態に係るストリーミングアテンションモデル132及び復号化経路をマージすることができるデコーダ130を含み得る)を含む。ネットワーク225は、あらゆる有線ネットワーク、無線ネットワーク、又は有線ネットワークと無線ネットワークとの組み合わせであってもよい。音声認識システム233は、データをトレーニングすることによりトレーニングされることができ、それにより、リアルタイム且つ正確な音声認識を実現することができ、認識が完了した後、ネットワーク225を介して認識結果をユーザデバイス220にリアルタイムに送信することができる。
【0032】
ユーザデバイス220は、そのディスプレイ223を介して認識結果をリアルタイムに表示することができ、ユーザ210は、例えば、ユーザデバイス220における音声入力法プログラムにより音声入力を行うことができる。本開示の実施形態は音声をリアルタイムに認識することができるため、音声215が発生し続けるにつれて、ディスプレイ223に表示された認識結果も動的に変化し、ユーザは認識された結果をリアルタイムに知ることができ、ユーザーエクスペリエンスが向上される。いくつかの実施形態において、ユーザデバイス220はディスプレイ223を含まなくてもよい。逆に、ユーザデバイス220はその音声出力装置(例えば、スピーカ)を介して認識結果を出力することができる。さらに他のいくつかの実施形態において、サーバ230は、音声の認識結果をユーザデバイス220に送信する必要がなく、認識結果に基づいて更なる動作を直接実行することができる。
【0033】
図2の環境200では、音声認識システム233がユーザデバイス220のリモートサーバ230側にデプロイされているが、音声認識システム233は、ユーザデバイス220のローカルにデプロイされていてもよいことを理解されたい。あるいは、音声認識システム233の一部をユーザデバイス220のローカルにデプロイし、他の一部をサーバ230側にデプロイするか、又は音声認識システム233を複数のサーバ又はクラウドに分散してデプロイすることもできる。本開示の実施形態は音声認識システム233のデプロイ形態及び位置を限定しない。
【0034】
図3は、本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化方法300のフローチャートを示している。方法300は、図2を参照して説明したサーバ230又はユーザデバイス220、又はそれらの組み合わせによって実行され得ることを理解されたい。
【0035】
ブロック302では、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成する。例えば、直前の発音フラグメントの復号化時に候補音響経路が複数選択されていた場合には、ストリーミングアテンションモデル132は、前の候補経路と現在の音声の特徴とに基づいて、現在の音声フラグメントについての複数の音響経路を生成することができる。本開示のいくつかの実施形態において、1つの発音フラグメントは1つの音節を指すことができ、一部の音声特徴を表すことができ、1拍と呼ばれることもできる。
【0036】
ブロック304では、複数の音響経路のうち、最後の発音が同じである音響経路をマージして複数のマージされた音響経路を得る。本開示の発明者らは、現在の発音フラグメントの音響得点の計算は、その直前の発音フラグメントのみに影響され、より早い発音フラグメントの履歴には無関係又は関係が少ないことを発見した。これにより、デコーダ130は、ストリーミングアテンションモデル132により生成された複数の音響経路のうち、最後の発音が同一である音響経路をマージすることができ、これらの経路の過去の履歴状態が同一であるか否かを考慮する必要がない。このようにすることで、復号化される音響経路の数を減らすことができる。
【0037】
ブロック306では、複数のマージされた音響経路の中から所定数の音響経路を選択する。例えば、デコーダ130は、マージされた音響経路の中から、復号化総合得点が最も高いいくつかの経路を候補音響経路として選択することができる。いくつかの実施形態において、本開示の実施形態の復号化総合得点は、ストリーミングアテンションモデル132からの音響モデル得点だけでなく、言語モデル134からの言語モデル得点も含む。このように、言語モデルによる音響経路のクリッピングに与える影響を大きくすることで、音声認識システムの柔軟性や正確率を向上させることができる。
【0038】
また、ストリーミング音声中の後続発音フラグメントについては、全ての経路が終了状態になるまで、方法300のステップ302~306を繰り返し実行することができる。したがって、本開示の実施形態は現在の発音フラグメントの音響得点の計算がその直前の発音フラグメントのみの影響を受けており、より早い発音履歴に関係しないと仮定し、複数の候補音響経路のうちの最後の発音が同じである音響経路をマージすることにより、ストリーミングアテンションモデルに基づく音声認識システムの正確率及び復号化速度を向上させることができる。
【0039】
履歴依存音響モデルが復号化する時に音響履歴が異なるために復号化経路がマージできないという問題、及びさらに復号化経路の数の膨大化及び復号化速度が遅くなるという問題を解決するために、本開示の実施形態はアテンション音響モデルに対する経路マージ方法を提供し、該方法は、アテンションモデルの計算過程において、現在の発音の音響得点計算はその直前の発音の影響のみを受け、より早い履歴に関係しないという仮定に基づく。このように、復号化された音響経路のマージを追加し、音響経路の数を減少し、音響経路の数の膨大化を防止し、且つ復号化速度がより速くなった。
【0040】
いくつかの実施形態において、方法300はさらに新たな発音フラグメントを含む新たな音声信号を受信し、続いて候補音響経路及び新たな音声信号の特徴に基づき、新たな候補音響経路を生成することを含むことができる。いくつかの実施形態では、音声の受信が終了した後、最終的な候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定する。
【0041】
図4は、本開示の実施形態に係る候補音響経路を選択するためのプロセス400の概略図を示している。図4のプロセス400は、上述した図3の方法の例示的な実施態様であってもよいことを理解されたい。
【0042】
図4を参照して、音声認識プロセスが開始されると、初期のワンホットベクトルySOSが取得され、初期状態401が確定される。初期状態401は、ストリーミングアテンションモデルの音声フラグメントにおける履歴情報であり得る。ストリーミングアテンションモデルにN個のモデリングユニットを設けることができ、Nの数は言語の違い及び/又はモデルの設置によって異なることができ、その数は例えば数千であってもよい。初期状態401と音声特徴とに基づいて、N個のワンホットベクトル(例えば、図4のy,y,…,yN-1)の複数の音響経路を生成し、その得点を確定することができる。ブロック405において、状態401が対応するN個の候補音響経路に拡張された後、得点が所定の上位数にある複数の音響経路を選択することができ、本開示のいくつかの実施形態において、得点が最上位の4つの音響経路を候補音響経路として選択することができ、もちろん、他の数の音響経路を選択することもできる。
【0043】
最上位の4つの候補音響経路が選択された後、それに応じて4つの経路及び4つの履歴状態、すなわち状態411、412、413及び414が取得される。次に、新たに受信した発音フラグメントについて、4つの音響経路のそれぞれをN個の新たな経路に拡張することで、ブロック415には、4×N個の候補音響経路が生成される。
【0044】
引き続き図4を参照し、本開示の実施形態により、ブロック417において、生成された4×N個の候補音響経路のうちのいくつかの音響経路をマージして、N個の候補音響経路を得る。これらのマージされた候補音響経路の履歴状態が異なる場合があるが、本発明者らは、現在の発音の音響得点の算出がより早い履歴に関わらず、その直前の発音の影響のみを受けていることを発見し、そのため、本開示の実施形態は、4×N個の候補音響経路のうち、最後の発音が同一である経路をマージすることで、復号化経路の数を低減し、復号化経路の数の膨大化を防止することができる。次に、図5を参照して複数の音響経路をマージする例示的な実施態様について説明する。
【0045】
ブロック419では、マージされたN個の候補音響経路の中から、得点が最上位の4つの音響経路を音声フラグメントの候補音響経路として選択する。次に、ストリーミング受信した後続音声について、全ての音声に対して処理が完了するまで、ステップ415~417を繰り返し実行することができる。本開示の実施形態における各候補音響経路が複数の候補音響経路をマージしたものであるので、本開示の実施形態は同じ計算量である場合に、より多くの経路を残すことができ、それによって音声認識の正確率が向上された。
【0046】
図5は、本開示の実施形態に係る候補音響経路をマージするためのプロセス500の概略図を示している。図5に示すように、4つの履歴状態411、412、413及び414から4×N個の候補音響経路集合510を拡張して得、各状態はN個のモデリングユニットによりN個の候補音響経路に拡張することができ、各候補音響経路の復号化得点を算出することができる。
【0047】
本開示の実施形態では、生成された4×N個の候補音響経路に対して、各経路の過去の履歴状態が同一であるか否かに関わらず、これらの音響経路のうち、最後の発音が同一である音響経路を同一のグループに分けることができる。図5に示すように、候補音響経路集合510において、尾音がyである音響経路511、521、531及び541を、尾音がyである経路551にマージすることができ、例えば、音響経路511、521、531及び541のうち、得点が最大である音響経路にマージすることができる。候補音響経路集合510における尾音がyである複数の音響経路512、522、532及び542を、尾音がyである経路552にマージすることができ(線間の混同を防止するために、図5において尾音がyである経路マージ矢印を示さない)、このように類推し、尾音がyN-1である経路559にマージするまで繰り返し、それによりマージされた候補音響経路集合550が形成される。
【0048】
いくつかの実施形態において、尾音がyである複数の音響経路をマージすることは、まず、最後の発音がyである複数の音響経路をマークアップし、すなわち音響経路511、521、531及び541をマークアップし、次に、これらの経路のうち復号化総合得点が最も高い1つの音響経路(例えば、経路511)を確定し、且つ各音響経路の履歴状態をこの復号化総合得点が最も高い音響経路(例えば、経路511)にマージすることを含むことができ、それにより復号化グラフにおけるより多くの経路がマージされることができ、経路の復号化数が低減される。同様に、最後の発音がyN-1である複数の音響経路がマージされるまで、最後の発音がyである複数の音響経路をマージするようにしてもよい。いくつかの実施形態において、音響経路を拡張する時に、言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同じである複数の音響経路が同一グループにマージされ、さらに音響経路の復号化数が低減されることができる。
【0049】
続いて、図5を参照すると、マージされた候補音響経路集合550の中から、復号化総合得点が最も高い4つの候補音響経路を選択して、候補音響経路561、562、563及び564を含む最終的な候補音響経路集合560を形成する。いくつかの実施形態において、マージされた音響経路集合550におけるN個の音響経路のN個の復号化総合得点をランキングすることができ、ここで各復号化総合得点はストリーミングアテンションモデル132からの音響モデル得点及び言語モデル134からの言語モデル得点を含むことができ、続いて複数のマージされた音響経路集合550から最上位の4つの音響経路を選択して選択される候補音響経路とする。
【0050】
図6は、本開示の実施形態に係る復号化総合得点を用いた音響経路のクリッピング方法600の概略図を示している。方法600は、先に図3を参照して説明した動作302に含まれてもよいことを理解されたい。
【0051】
ブロック602では、ストリーミングアテンションモデル132は各音響経路の音響モデル得点を確定する。ブロック604では、言語モデル134は、各音響経路の言語モデル得点を確定する。ブロック606では、デコーダ130は、各音響経路の音響モデル得点と言語モデル得点とを組み合わせて、各音響経路の復号化総合得点を確定する。ブロック608では、デコーダ130は、復号化総合得点を音響経路のクリッピングの基準として用いることができる。
【0052】
したがって、本開示の実施形態による方法600は、復号化経路のクリッピングプロセスにおいて、復号化総合得点を経路のクリッピングの基準とし、言語モデルの経路拡張への影響が増加し、言語モデルを調整することによって復号化経路の拡張に対して迅速な介入を行うことができ、音声認識システムの柔軟性が向上された。また、本開示の実施形態は言語モデルの得点を用いて音響モデルを誤り訂正することができ、それにより音声認識システムのフォールトトレランスが向上された。逆に、従来の方法は音響経路のクリッピングを復号化する時に音響モデル自体の得点のみを参照し、同一の音声認識結果の発音が固定され、言語モデルによって認識結果への高速介入を最適化する柔軟性が失い、異なる細分化分野において言語モデルの適応によって認識率を向上させる実行可能性も低下した。
【0053】
したがって、本開示の実施形態による方法600は、音響経路のクリッピングは、ストリーミングアテンションモデル自体の音響モデル得点のみに依存するものではなく、音響モデル得点と音声モデル得点を組み合わせて経路クリッピングの基準とすることで、経路クリッピングの正確性を向上させるとともに、言語モデルの調整によって復号化経路の拡張を迅速に介入することができ、音声認識システムの柔軟性が向上された。
【0054】
図7は、本開示の実施形態に係るストリーミングアテンションモデルに基づく音声認識復号化装置700のブロック図を示している。図7に示すように、装置700は、音響経路生成モジュール710と、音響経路マージモジュール720と、音響経路選択モジュール730とを備える。音響経路生成モジュール710は、音声を復号化するための複数の音響経路を、ストリーミングアテンションモデルを用いて生成するように構成される。音響経路マージモジュール720は、複数の音響経路のうち、最後の発音が同一である音響経路をマージして複数のマージされた音響経路を得るように構成される。音響経路選択モジュール730は、複数のマージされた音響経路の中から所定数の音響経路を選択するように構成される。
【0055】
いくつかの実施形態において、音響経路生成モジュール710は、最後の発音の直前の発音時の候補音響経路と、ストリーミングアテンションモデルの複数のモデリングユニットとに基づいて、複数の音響経路を生成するように構成される第2音響経路生成モジュールを備える。
【0056】
いくつかの実施形態において、音響経路生成モジュール710は、複数の音響経路それぞれの音響モデル得点を、ストリーミングアテンションモデルを用いて確定するように構成される音響得点確定モジュールと、複数の音響経路それぞれの言語モデル得点を、言語モデルを用いて確定するように構成される言語得点確定モジュールと、各音響経路の音響モデル得点と言語モデル得点とに基づいて、音響経路のクリッピングのための各音響経路の復号化総合得点を確定するように構成される復号化総合得点確定モジュールと、を備える。
【0057】
いくつかの実施形態において、音響経路マージモジュール720は、複数の音響経路のうち最後の発音が第1発音である第1音響経路集合をマークアップするように構成される経路集合マークアップモジュールと、第1音響経路集合における復号化総合得点が最も高い第1音響経路を確定するように構成される最高総合得点確定モジュールと、第1音響経路集合における各音響経路の履歴状態を第1音響経路にマージするように構成される経路集合マージモジュールと、を備える。
【0058】
いくつかの実施形態において、音響経路マージモジュール720は、言語モデルの状態が同じであり且つ音響モデルの最後の発音のワンホットベクトルが同一である複数の音響経路を同一グループにマージするように構成されるグループマージモジュールを備える。
【0059】
いくつかの実施形態において、音響経路選択モジュール730は、複数のマージされた音響経路における、ストリーミングアテンションモデルからの音響モデル得点と言語モデルからの言語モデル得点とを含む複数の復号化総合得点をランキングするように構成される音響経路ランキングモジュールと、複数のマージされた音響経路の中から所定の上位数の音響経路を候補音響経路として選択するように構成される候補経路選択モジュールと、を備える。
【0060】
いくつかの実施形態において、装置700は、新たな発音を含む新たな音声信号を受信するように構成される音声受信モジュールと、候補音響経路と新たな音声信号の特徴とに基づいて、新たな候補音響経路を生成するように構成される候補経路生成モジュールとをさらに備える。
【0061】
いくつかの実施形態において、装置700は、音声の受信が完了したことに応じて、各候補音響経路の復号化総合得点に基づいて最終的な音声認識結果を確定するように構成される認識結果確定モジュールをさらに備える。
【0062】
図7に示した音響経路生成モジュール710、音響経路マージモジュール720及び音響経路選択モジュール730は、単一又は複数の電子機器に含まれていてもよいことを理解されたい。また、図7に示したモジュールは本開示の実施形態を参照する方法及び/又はプロセスにおけるステップ及び/又は動作を実行することができることを理解されたい。
【0063】
図8は、本開示の実施形態を実施するために使用できる例示的な装置800の概略ブロック図を示している。装置800は、本開示に記載したストリーミングアテンションモデルに基づく音声認識復号化装置700であってもよいし、ユーザデバイス220又はサーバ230であってもよいことを理解されたい。図に示すように、装置800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラム命令又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置(CPU)801を備える。RAM803には、装置800の動作に必要な様々なプログラム及びデータが更に記憶されることが可能である。CPU801、ROM802及びRAM803は、バス804を介して互いに接続されている。図8に示すように、入力/出力(I/O)インターフェース805もバス804に接続されている。
【0064】
装置800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット809とを備える複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、装置800がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。
【0065】
処理ユニット801は、上述した方法300及び600のような様々な方法及びプロセスを実行する。例えば、いくつかの実施形態では、方法は、記憶ユニット808などの機械可読媒体に有形に実施されるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信ユニット809を介して装置800にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM803にロードされ、CPU801によって実行されると、上述した方法における1つ又は複数の動作又はステップが実行され得る。あるいは、他の実施形態では、CPU801は、他の任意の適切な手段によって(例えば、ファームウェアによって)方法を実行するように構成されていてもよい。
【0066】
本明細書で説明した機能は、少なくとも部分的に1つ又は複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが含まれる。
【0067】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、これらのプログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能又は動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、又は完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0068】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又はデバイスが使用するため、又は命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又はデバイス、又はこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本又は複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらのあらゆる適切な組み合わせが含まれ得る。
【0069】
また、各動作又はステップは、特定の順序で示されているが、所望の結果を得られるために、このような動作又はステップは、示された特定の順序にて又は順を追って実行されることを要求するか、又は、図に示されたすべての動作又はステップが実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別に又は任意の適切なサブセットで実施されることもできる。
【0070】
本開示の実施形態は、構造特徴及び/又は方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴又は動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴及び動作は、特許請求の範囲を実施するための例示的な形態にすぎない。
図1
図2
図3
図4
図5
図6
図7
図8