IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特許7167074音声認識方法、装置、機器及びコンピュータ可読記憶媒体
<>
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図1
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図2
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図3
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図4
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図5
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図6
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図7
  • 特許-音声認識方法、装置、機器及びコンピュータ可読記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-28
(45)【発行日】2022-11-08
(54)【発明の名称】音声認識方法、装置、機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
   G10L 15/32 20130101AFI20221031BHJP
   G10L 15/16 20060101ALI20221031BHJP
【FI】
G10L15/32 220Z
G10L15/16
【請求項の数】 17
【外国語出願】
(21)【出願番号】P 2020040023
(22)【出願日】2020-03-09
(65)【公開番号】P2021033255
(43)【公開日】2021-03-01
【審査請求日】2020-06-22
(31)【優先権主張番号】201910779740.2
(32)【優先日】2019-08-22
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】ペン シンユアン
(72)【発明者】
【氏名】シャオ ジュンヤオ
(72)【発明者】
【氏名】ジア レイ
【審査官】大野 弘
(56)【参考文献】
【文献】特開2010-055020(JP,A)
【文献】特開2017-040919(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/32
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
音声認識方法であって、
入力された音声信号に基づいて、コネクショニスト時間分類(CTC)モデルによって、前記音声信号に関連するスパイク情報を含む第1の音響復号化情報を取得するステップと、
前記音声信号と前記スパイク情報に基づいて、ストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)モデルにおけるアテンションデコーダによって、第2の音響復号化情報を取得するステップと、
前記第1の音響復号化情報及び前記第2の音響復号化情報それぞれに基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定するステップと、
前記第1組の候補認識結果と前記第2組の候補認識結果とに基づいて、前記音声信号に対する認識結果を確定するステップと、を含む音声認識方法。
【請求項2】
第1組の候補認識結果及び第2組の候補認識結果を確定するステップは、
コネクショニスト時間分類(CTC)デコーダにより前記第1の音響復号化情報に基づいて前記第1組の候補認識結果を確定するステップと、
ストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)デコーダにより前記第2の音響復号化情報に基づいて前記第2組の候補認識結果を確定するステップと、を含む請求項に記載の方法。
【請求項3】
前記第1組の候補認識結果を確定するステップは、第1の言語モデル及び前記第1の音響復号化情報に基づいて前記第1組の候補認識結果を確定することを含み、
前記第2組の候補認識結果を確定するステップは、第2の言語モデル及び前記第2の音響復号化情報に基づいて前記第2組の候補認識結果を確定することを含み、
前記第1の言語モデルと前記第2の言語モデルとは異なる、請求項に記載の方法。
【請求項4】
前記音声信号に対する認識結果を確定するステップは、
前記第1組の候補認識結果と前記第2組の候補認識結果との組み合わせに基づいて、第3組の候補認識結果を得ることと、
前記第3組の候補認識結果のそれぞれから複数の特徴を抽出することと、
候補認識結果ごとの複数の特徴に基づいて、前記音声信号に対する前記認識結果を確定することと、を含む請求項1に記載の方法。
【請求項5】
前記第3組の候補認識結果のそれぞれから複数の特徴を抽出することは、
各候補認識結果の音響特徴及び言語特徴を取得することと、
各候補認識結果のドメイン特徴を確定することと、を含む請求項に記載の方法。
【請求項6】
前記第3組の候補認識結果のそれぞれから複数の特徴を抽出することは、
各候補認識結果に関連付けられる、信頼度特徴、意味特徴、類似度特徴、及びユーザ特徴のうちの少なくとも1つの特徴を抽出することをさらに含む請求項に記載の方法。
【請求項7】
前記第1組の候補認識結果は、確定された前記認識結果を含み、前記第2組の候補認識結果は、確定された前記認識結果を含まない、請求項1に記載の方法。
【請求項8】
入力された音声信号に基づいて、コネクショニスト時間分類(CTC)モデルによって、前記音声信号に関連するスパイク情報を含む第1の音響復号化情報を取得するように構成される第1の音響情報取得モジュールと、
前記音声信号と前記スパイク情報に基づいて、ストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)モデルにおけるアテンションデコーダによって、第2の音響復号化情報を取得するように構成される第2の音響情報取得モジュールと、
前記第1の音響復号化情報及び前記第2の音響復号化情報にそれぞれ基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定するように構成される候補結果確定モジュールと、
前記第1組の候補認識結果と前記第2組の候補認識結果とに基づいて、前記音声信号に対する認識結果を確定するように構成される認識結果確定モジュールと、を備える音声認識装置。
【請求項9】
前記候補結果確定モジュールは、
コネクショニスト時間分類(CTC)デコーダにより前記第1の音響復号化情報に基づいて前記第1組の候補認識結果を確定するように構成される第1の候補結果確定モジュールと、
ストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)デコーダにより前記第2の音響復号化情報に基づいて前記第2組の候補認識結果を確定するように構成される第2の候補結果確定モジュールと、を備える請求項に記載の装置。
【請求項10】
前記第1の候補結果確定モジュールは、第1の言語モデル及び前記第1の音響復号化情報に基づいて前記第1組の候補認識結果を確定するように構成される第3の候補結果確定モジュールを含み、
前記第2の候補結果確定モジュールは、第2の言語モデル及び前記第2の音響復号化情報に基づいて前記第2組の候補認識結果を確定するように構成される第4の候補結果確定モジュールを含み、
前記第1の言語モデルと前記第2の言語モデルとは異なる、請求項に記載の装置。
【請求項11】
前記認識結果確定モジュールは、
前記第1組の候補認識結果と前記第2組の候補認識結果との組み合わせに基づいて、第3組の候補認識結果を得るように構成される組み合わせモジュールと、
前記第3組の候補認識結果のそれぞれから複数の特徴を抽出するように構成される抽出モジュールと、
候補認識結果ごとの複数の特徴に基づいて、前記音声信号に対する前記認識結果を確定するように構成される確定モジュールと、を備える請求項に記載の装置。
【請求項12】
前記抽出モジュールは、
各候補認識結果の音響特徴及び言語特徴を取得するように構成される特徴取得モジュールと、
各候補認識結果のドメイン特徴を確定するように構成される特徴確定モジュールと、を備える請求項11に記載の装置。
【請求項13】
前記抽出モジュールは、
各候補認識結果に関連付けられる、信頼度特徴、意味特徴、類似度特徴、及びユーザ特徴のうちの少なくとも1つの特徴を抽出するように構成される第2の特徴抽出モジュール、をさらに備える請求項12に記載の装置。
【請求項14】
前記第1組の候補認識結果は、確定された前記認識結果を含み、前記第2組の候補認識結果は、確定された前記認識結果を含まない、請求項に記載の装置。
【請求項15】
1つまたは複数のプロセッサと、
1つまたは複数のコンピュータプログラムを格納するための記憶装置とを備える電子機器であって、
前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法を実現する、電子機器。
【請求項16】
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
【請求項17】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~のいずれか一項に記載の方法を実現させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、主に音声認識技術分野に属し、特に、二重復号化に基づく音声認識方法、装置、機器及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
音声認識とは、コンピュータによって音声信号を対応するテキストに変換するプロセスであり、人間の音声における語彙内容を実際の文字出力に変換し、人間と機械とのインタラクションを実現する主なアプローチの一つである。近年、深層学習技術が音声認識分野に幅広く適用されることにつれて、音声認識の正確率が大幅に向上された。また、スマートデバイスの普及の進めに伴い、音声を用いて認識するシーンは非常に多様になっている。例えば、音声認識技術は、音声入力法、音声ダイヤル、カーナビゲーション等の様々な場面で幅広く利用されている。音声認識技術は自然言語処理及び音声合成等の技術と結合し、例えばスマートスピーカ、会議の同時通訳、インテリジェントカスタマーサービスアシスタント等、より多くの複雑な応用を生成することができる。音声認識の正確率は、音声関連製品のユーザの使用エクスペリエンスに直接影響し、対話過程における後続の意味理解、対話生成等のモジュールに直接影響を与えるため、音声認識の使用シーンが絶えずに多様化になることに伴い、音声認識の正確率にはより高い要件が課せられる。
【0003】
人工知能の発展に伴い、各種の音声認識技術も新しくなっており、音声認識の正確率が益々向上されている。早期のガウス混合モデル-隠れマルコフモデル(GMM-HMM)の音響モデリング方法から、GMMモデリングの代わりに深層ニューラルネットワーク(DNN)構造を応用することまで、音声認識の深層学習時代が始まった。その後、畳み込みニューラルネットワーク(CNN)、ゲートに基づくリカレントニューラルネットワーク(GRU)及び長・短期記憶ネットワーク(LSTM)等のネットワーク構造を用いてDNNモデルを置換し、いずれもニューラルネットワークモデルのモデリング精度を顕著に向上させた。そして、エンドツーエンド(End-to-End)のコネクショニスト時間分類(CTC)モデルは音声認識に用いられ、音響モデル構造は完全に統一されたニューラルネットワーク構造に置換され、これにより音響モデル構造が大きく簡略化され、トレーニング難易度が大幅に低減され、認識率がいっそう向上された。近年、アテンション(Attention)メカニズムに基づくエンドツーエンドLAS(Listen,Attend and Spell)構造は、音響と言語を組合せモデリングする方式により、音声認識の正確率がいっそう向上された。
【発明の概要】
【0004】
本開示の例示的な実施形態により、音声認識方法、装置、機器及びコンピュータ可読記憶媒体を提供する。
【0005】
本開示の第1態様において、音声認識方法を提供する。該方法は、入力された音声信号に対して、音響モデリングにより生成された第1の音響モデルと、音響と言語の組合せモデリングにより生成された第2の音響モデルとにより、それぞれ第1の音響復号化情報および第2の音響復号化情報を取得するステップと、第1の音響復号化情報及び第2の音響復号化情報にそれぞれ基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定するステップと、第1組の候補認識結果と第2組の候補認識結果とに基づいて、音声信号に対する認識結果を確定するステップと、を含む。
【0006】
本開示の第2態様において、音声認識装置を提供する。該装置は、入力された音声信号に対して、音響モデリングにより生成された第1の音響モデルと、音響と言語の組合せモデリングにより生成された第2の音響モデルとにより、それぞれ第1の音響復号化情報および第2の音響復号化情報を取得するように構成される音響情報取得モジュールと、第1の音響復号化情報及び第2の音響復号化情報にそれぞれ基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定するように構成される候補結果確定モジュールと、第1組の候補認識結果と第2組の候補認識結果とに基づいて、音声信号に対する認識結果を確定するように構成される認識結果確定モジュールと、を備える。
【0007】
本開示の第3態様において、1つまたは複数のプロセッサと、1つまたは複数のプログラムを格納するための記憶装置と、を備える電子機器を提供する。1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、電子機器は本開示の複数の実施形態に係る方法またはプロセスを実現する。
【0008】
本開示の第4態様において、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の各実施形態に係る方法またはプロセスを実現するコンピュータ可読記憶媒体を提供する。
【0009】
発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0010】
図面を踏まえて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の参照番号は、同一又は類似の要素を表す。
【0011】
図1】本開示の実施形態に係る音声認識の処理プロセスを示す概略図である。
【0012】
図2】本開示の実施形態に係る音声認識方法を示すフローチャートである。
【0013】
図3】本開示の実施形態に係る二重復号化に基づく音声認識プロセスを示す概略図である。
【0014】
図4】本開示の実施形態に係るストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)及びコネクショニスト時間分類(CTC)の二重復号化に基づく音声認識プロセスを示す概略図である。
【0015】
図5】本開示の実施形態に係るCTCスパイク情報に基づくSMLTAモデルの例示的なアーキテクチャを示す概略図である。
【0016】
図6】本開示に係る多特徴を融合したSMLTAとCTC二重復号化の最適化プロセスを示す概略図である。
【0017】
図7】本開示の実施形態に係る音声認識装置を示すブロック図である。
【0018】
図8】本開示の複数の実施形態を実施することができる電子機器を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本開示のいくつかの実施形態が図面に示されているが、本開示は様々な形態で具現化されてもよく、本明細書に記載の実施形態に限定されると解釈されるべきではなく、逆に、これらの実施形態は、本開示をより明確かつ完全に理解するために提供されるものであることを理解されたい。なお、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するものではない。
【0020】
本開示の実施形態の説明では、用語「…を含む」およびそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に…に基づいて」と理解されるべきである。用語「1つの実施形態」または「該実施形態」は、「少なくとも1つの実施形態」と理解されるべきである。用語「いくつかの実施形態」は、「少なくともいくつかの実施形態」と理解されるべきである。以下では、他の明確か暗黙的な定義がさらに含まれ得る。
【0021】
そのうち、コネクショニスト時間分類(CTC)モデルは、エンドツーエンドのモデルであって、大規模な語彙の音声認識に用いられ、DNN+HMMを組み合わせた音響モデル構造が完全に統一されたニューラルネットワーク構造に置き換えられ、音響モデルの構造が大きく簡素化され、トレーニング難易度が大幅に低減され、音声認識システムの正確率がいっそう向上された。また、CTCモデルの出力結果には、音声信号のスパイク情報が含まれていてもよい。
【0022】
アテンションモデル(attention model)は、エンコーダ-デコーダモデルに対する拡張であり、長いシーケンスに対する予測効果を向上させることができる。まず、GRU又はLSTMモデルを用いて、入力された音声特徴を符号化して隠れ特徴を得て、続いてアテンションモデルによってこれらの隠れ特徴の異なる部分に、相応しい重みを割り当て、最後にデコーダはモデリング粒度の違いに応じて対応する結果を出力する。このような音響と言語モデルの組合せモデリングにより、音声認識システムの複雑さをさらに低減することができる。
【0023】
ストリーミング・マルチレイヤー・トランケート・アテンション(Streaming Multi-Layer Truncated Attention,SMLTAと略称する)モデルは、CTC及びアテンションに基づくストリーミング音声認識モデルである。ストリーミングとは、音声の小素片(必ずしも文ではなく)に対してフラグメントごとに直接インクリメンタル復号化できることを表す。マルチレイヤーとは、多層のアテンションモデルを積層することを表す。トランケートとは、CTCモデルのスパイク情報を利用して、音声を、アテンションモデルのモデリング及び復号化が展開可能な複数の小素片に分割することを表す。SMLTAは、従来のグローバルアテンションモデリングをローカルアテンションモデリングに変換し、このプロセスもストリーミング実現できるプロセスであり、文の長さにも関わらず、トランケートすることによってストリーミング復号化及び正確なローカルアテンションモデリングを実現することができ、それによりストリーミング復号化が実現される。
【0024】
本願の発明者らは、音響と言語モデルの組合せモデリングによって生成された音響モデル(例えば、アテンションモデル、又はアテンションメカニズムに基づくSMLTAモデル)の復号化プロセスにおいて、言語情報によって検索経路をより正確な空間に拘束して復号化することによって、音声認識率が顕著に向上されたことを発見した。しかしながら、このような組合せモデリング方式により言語の事前制約情報(Prior Constraint Information)を音声認識システムに導入することは、最適なN個の候補における音響多様性が少ないことにつながり、従来のトレーニングが十分でない場合、より広い分野に向けて認識する際、正確率が損なわれる場合がある。この言語制約情報のトレーニングが不十分であると、正確な検索経路が早期に切り抜かれてしまうことが発生しやすく、その結果、正確な認識結果を得ることができない。
【0025】
これから分かるように、このような音響と言語の組合せモデリングによる音響モデルにより、最適な1つの候補結果の認識率が向上されたが、好適なN個の候補結果の認識率の音響多様性は従来の非組合せモデリング方式(例えば、CTCモデル)に比べて低下してしまう。また、いくつかの好適なN個の候補結果に依存して行われる二重復号化方法は大きく制限される。そのため、組合せモデリングの方式により音響モデルのモデリングプロセスに言語情報を導入することは、ある程度認識正確率が向上されたが、一部の場合には不適切な言語制約は音響復号化経路の多様性を制限することもあり、特定のシーンでの認識正確率に影響を与えることがある。
【0026】
また、本願の発明者らは、音響と言語の組合せモデリングにより、データに存在するドメイン特性をより良好に学習やトレーニングできるが、他の汎用ドメインへの認識性能に影響を与えることがあることをさらに発見した。このようなトレード‐オフ制約関係は、音響と言語の組合せモデリング方式による音声認識率への更なる向上をある程度制限する。
【0027】
そのため、本開示の実施形態は、二重復号化に基づく音声認識方法を提供し、音声認識の正確率をさらに向上させることができる。本開示の実施形態により提供される二重復号化に基づく音声認識方法では、1つの音響モデルの音響多様性により他の音響モデル(すなわち、音響と言語の組合せモデリングによる音響モデル)の音響経路が少ないという欠点を補い、2つの復号化経路は互いに独立しており、復号化空間が拡張され、それにより音声認識の正確率が向上されることができる。いくつかの実施形態において、アテンションメカニズムに基づくSMLTAモデルに対し、CTCモデルの復号化結果を利用してSMLTAモデルの復号化結果の音響多様性を向上させることができ、それによりSMLTAモデルの認識性能がさらに向上される。また、本開示のいくつかの実施形態はさらに多特徴の融合により、二重復号化された全ての候補結果を総合的にソートすることができ、音声認識の正確率がさらに向上される。以下、図1図8を参照して本開示の実施形態のいくつかの実施例を詳細に説明する。
【0028】
図1は、本開示の実施形態に係る音声認識の処理プロセスの概略図を示している。通常、音声認識システムは音響モデル、言語モデル及びデコーダ等のコンポーネントを含むことができる。図1に示すように、集音された音声信号110を取得した後、まず、後の音響モデル等の処理に供するために、入力された音声信号110から特徴を抽出することなど、音声信号110に対して信号処理と特徴抽出をブロック120で行う。あるいは、特徴抽出プロセスは、環境ノイズ又は他の要因による特徴への影響を低減するために、いくつかの他の信号処理技術をさらに含む。
【0029】
図1を参照すると、特徴抽出120が終了すると、抽出された特徴がデコーダ130に入力され、デコーダ130により処理されてテキスト認識結果140が出力される。具体的には、デコーダ130は、音響モデル132と言語モデル134とに基づいて、最も確率的に出力された音声信号のテキストシーケンスを検索し、ここで、音響モデル132は音声から発音フラグメントへの変換を実現することができ、言語モデル134は発音フラグメントからテキストへの変換を実現することができる。
【0030】
音響モデル132は、発音フラグメントに対して音響及び言語の組合せモデリングを行うために用いられ、そのモデリングユニットは例えば音節であってもよく、本開示のいくつかの実施形態において、音響モデル132はストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)モデルであってもよく、そのうちSMLTAモデルはCTCモデルのスパイク情報を利用して、音声を複数の小素片に分割することができ、それにより各小素片においてアテンションモデルのモデリング及び復号化を展開することができるようになる。このようなSMLTAモデルは、リアルタイムなストリーミング音声認識をサポートすることができ、かつ高い認識正確率を実現することができる。
【0031】
言語モデル134は、言語をモデリングするために用いられる。通常、統計のNグラム法(N-Gram)を用いて、すなわち前後N個の文字の出現確率を統計することができる。なお、既知または将来開発されるあらゆる言語モデルは、本開示の実施形態と組み合わせて用いることができることは言うまでもない。いくつかの実施形態において、音響モデル132は、音声データベースに基づいてトレーニング及び/又は動作することができ、言語モデル134は、テキストデータベースに基づいてトレーニング及び/又は動作することができる。
【0032】
デコーダ130は、音響モデル132と言語モデル134の出力認識結果に基づいて、動的復号化を実現することができる。本開示の実施形態によれば、デコーダ130は、2つの独立した復号化スレッドを同時に起動して音声信号に対する二重復号化を実現することができ、1つの音響モデルの音響多様性を利用して他の音響モデルの音響経路が少ないという欠点を補い、2つの復号化経路が互いに独立しており、復号化空間が拡張され、それにより音声認識の正確率が向上されることができる。以下、二重復号化による音声認識方法のいくつかの例示的な実施態様を説明する。
【0033】
ある音声認識のシーンにおいて、ユーザはそのユーザデバイスに向かって発話し、ユーザにより生成した音声(すなわち音声)はユーザデバイスに集音され、例えば、ユーザデバイスの集音装置(例えばマイクロホン)によって音声を収集することができる。ユーザデバイスは音声信号を収集できるあらゆる電子機器であってもよく、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートブックコンピュータ、スマートウェアラブルデバイス(スマートウォッチ、スマートメガネ等)、ナビゲーションデバイス、マルチメディアプレイヤーデバイス、教育機器、ゲーム機器、スマートスピーカ等を含むがこれらに限定されない。ユーザデバイスは、収集中に、ネットワークを介して音声をサーバに区分的に送信することができ、サーバは、リアルタイムかつ正確な音声認識を実現できるとともに、認識完了後、ネットワークを介して認識結果をユーザデバイスに送信できる音声認識モデルを備える。なお、本開示の実施形態に係る音声認識方法は、ユーザデバイスにおいて実行されるようにしてもよいし、サーバにおいて実行されるようにしてもよいし、又は一部がユーザデバイスにおいて実行され、他の一部がサーバにおいて実行されるようにしてもよい。
【0034】
図2は、本開示の実施形態に係る音声認識方法200を示すフローチャートである。方法200がユーザデバイス、又はサーバ、又はそれらの組み合わせで実行され得ることを理解されたい。方法200を分かりやすく説明するために、ここでは、図3の二重復号化による音声認識プロセス300を参照しながら方法200を説明する。
【0035】
ブロック202において、入力された音声信号に対して、音響モデリングにより生成された第1の音響モデルと、音響と言語の組合せモデリングにより生成された第2の音響モデルとにより、第1の音響復号化情報および第2の音響復号化情報をそれぞれ取得する。例えば、図3を参照すると、入力された音声信号310に対して、ブロック311および312において、それぞれ異なる音響モデルに従った音響復号化が行われる。具体的には、ブロック311において、音響モデル313により音声信号310の特徴が処理されて音響復号化情報321が生成される。ブロック312において、音響モデル314により音声信号310の特徴が処理されて音響復号化情報322が生成される。ここで、音響モデル313は音響モデリングのみにより生成されたモデルである。音響モデル314は、音響と言語の組合せモデリングにより生成された音響モデル(例えば、アテンションに基づく音響モデル)である。組合せモデリングにより生成された音響モデル314の言語制約により、正確な復号化経路が早期に切り抜かれてしまい、正確な認識結果を得ることができない可能性があり、したがって、言語制約を有さない音響モデル313の復号化結果を導入することにより、音響モデル314による正確な復号化経路の欠失という欠陥を補うことができる。
【0036】
ブロック204において、それぞれ第1の音響復号化情報及び第2の音響復号化情報に基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定する。例えば、図3を参照すると、ブロック331において、音響復号化情報321と言語モデル333とに基づいて、1組の候補認識結果341が確定される。ブロック332において、異なる言語復号化が実行され、音響復号化情報322と言語モデル334とに基づいて、他組の候補認識結果342が確定される。したがって、本開示の実施形態によれば、2組の候補認識結果が同時に生成されることができ、候補認識結果の範囲が広げられた。
【0037】
ブロック206において、第1組の候補認識結果と第2組の候補認識結果とに基づいて、音声信号に対する認識結果を確定する。例えば、再び図3を参照すると、音声信号310の最終的な認識結果350は、1組の候補認識結果341と他組の候補認識結果342とに基づいて確定される。いくつかの実施形態において、多特徴を融合する方式により全ての候補認識結果から最終的な認識結果を選択するか又は生成することができる。あるいは、これら2組の候補認識結果の中から最適な候補認識結果を最終的な音声認識結果として直接選択してもよい。あるいは、2組の候補認識結果のそれぞれの候補認識結果を、フラグメントごとに組み合わせたり、これら2組の候補認識結果に基づいて新たな認識結果を改めて生成したりしてもよい。
【0038】
したがって、本開示の実施形態の方法200によれば、1つの音響モデル(すなわち、音響モデリングのみによる音響モデル313)の音響の多様性を利用して、他の音響モデル(すなわち、音響と言語の組合せモデリングによる音響モデル314)の音響経路が少ないという欠陥を補い、2つの復号化経路が互いに独立しており、復号化空間が拡張され、それにより音声認識の正確率が向上されることができる。
【0039】
図3を参照すると、あるシーンにおいて、1組の候補認識結果341及び1組の候補認識結果342はいずれも最終的な認識結果350を含む可能性がある。しかし、いくつかのシーンにおいて、1組の候補認識結果341に最終的な認識結果350が含まれる可能性があり、1組の候補認識結果342に最終的な認識結果350が含まれない可能性があるため、組合せモデリングに基づく音響モデル314の復号化に基づき、音響モデル313の復号化を追加すれば、音響モデル313の復号化結果の多様性を利用して音響モデル314の復号化結果の欠損を補うことができ、それにより音声認識の正確率が向上される。
【0040】
あるいは、言語モデル333と言語モデル334とは、同じ言語モデルであってもよい。オプションとして、言語モデル333と言語モデル334とは、それぞれ傾向と役割分担を有する異なる言語モデルであってもよい。例えば、言語モデル334はいくつかの特定の分野及び/又はシーンにおけるテキストを含むことができ、言語モデル333はいくつかの一般分野のテキストを含むことができる。このようにすると、言語モデル334に基づく復号化結果の専門性が向上され、且つ言語モデル333に基づく復号化結果の汎用性が向上され、両者が互いに補完しており、それにより音声認識の正確率がさらに向上される。
【0041】
なお、図3では、音響モデル313と音響モデル314とが別体で示されているが、音響モデル313と音響モデル314との間には、相関関係と包含関係があってもよい。本開示のいくつかの実施形態において、音響モデル314はSMLTAモデルであってもよく、音響モデル313はSMLTAモデル内部のCTCモデルであってもよく、以下に図5を参照しながらSMLTAモデルの例示的なアーキテクチャをさらに説明する。
【0042】
図4は、本開示の実施形態に係るSMLTAおよびCTCの二重復号化に基づく音声認識プロセス400の概略図を示している。図4の例では、図2で説明した第1の音響モデルがCTCモデル421であり、第2の音響モデルがSMLTAモデル420である。図4に示すように、SMLTAモデル420は、受信した音声信号410に対して、SMLTA出力432を生成することができ、その後、SMLTAデコーダは、SMLTA出力432に基づいてN個の候補認識結果442を生成する。例えば、SMLTAモデル420におけるCTCモデル421は音声信号410のスパイク情報を生成することができ、SMLTAモデル420におけるアテンションデコーダ422は音声信号410及びCTCモデル421から提供されたスパイク情報に基づき、音声信号410を正確にトランケートすることができ、それによりアテンションデコーダ422のストリーミングオンライン音声認識能力が向上される。
【0043】
本開示の実施形態によれば、SMLTA復号化を基に、CTCの復号化が追加された。図4に示すように、SMLTAモデル420がSMLTA出力432を生成するプロセスにおいて、SMLTAモデル420におけるCTCモデル421はCTC出力431を同時に生成し、続いてCTCデコーダはCTC出力431に基づいてN個の候補認識結果441をも生成する。SMLTA復号化により生成されたSMLTA出力432に比べて、CTC復号化により生成されたCTC出力431は言語制約がないため、より多くの音響多様性を有する。したがって、SMLTA復号化を基にCTC復号化を追加することにより、認識結果450の正確率がさらに向上されることができる。
【0044】
したがって、本開示の実施形態の図4のプロセス400によれば、CTC復号化の候補認識結果を導入することにより、SMLTAモデリング中に存在したトレーニングデータの不十分による挽回できない誤認識防止機能が拡張され、SMLTAモデルの認識性能が向上された。また、2つの復号化経路は、互いに影響を与えず、実質的に復号化空間が拡張されたものに相当する。単一デコーダにより認識する時に、音声信号の減衰および背景環境ノイズの影響で正確な認識結果が早期に切り抜かれるという問題を緩和することができ、それにより音声認識の正確率が向上された。
【0045】
図5は、本開示の実施形態に係るCTCスパイク情報に基づくSMLTAモデル500の例示的なアーキテクチャの概略図を示している。図5に示すように、SMLTAモデル500は、主に、入力された音声信号510の特徴を隠れ特徴シーケンス530(すなわち、隠れ特徴シーケンスh)に符号化する共有デコーダ520と、隠れ特徴シーケンス530に基づいてスパイク情報を含むCTC出力560を生成するCTCモデル540と、隠れ特徴シーケンス530とスパイク情報とに基づいてリアルタイムSMLTA復号化出力570を得るアテンションデコーダ550との3つの部分から構成され、ここで、スパイク同士はブランク(blank)で区切られ、1つのスパイクは1つの音節(syllable)または1組の音素(phone)(例えば、高域音素の組み合わせ)を表すことができる。
【0046】
図5に示すように、SMLTAモデル500では、共用エンコーダ520がCTCモデル540とアテンションデコーダ550とによって共用され、CTCモデル540とアテンションデコーダ550との2つのヘッドの「デュアルヘッド構成」が形成されている。SMLTAモデル550における主な計算量が共有エンコーダ520及びアテンションデコーダ550に集中しているため、従来のアテンションモデルに比べ、本開示の実施形態に係るSMLTAモデル550はモデルアーキテクチャ全体の計算量をほとんど増加しない(すなわち、増加があっても、増加の割合が特に小さく、ほとんど無視することができる)が、CTC出力560(すなわちスパイク情報)及びアテンション出力570(すなわち音響復号化情報)を同時に提供することができ、本開示の実施形態に係るSMLTAモデル500の大規模な工業的デプロイメントという問題をよく解決することができる。逆に、従来の方式は、製品にこれらの2つのモデルを組み合わせて使用しようとすると、オンラインの計算量が倍増する可能性があり、それによりコストが高すぎ、大規模な工業的使用ができない。
【0047】
続いて図5に戻って、SMLTAモデルの実行プロセスにおいて、CTCモデルはCTC出力560(さらに図6の位置Aに用いることができる)を生成し、かつそのスパイク情報をトランケートのためにアテンションデコーダ550に供給し、さらにSMLTA出力570(さらに図6の位置Bに用いることができる)を取得する。このプロセスにおいて、CTC出力560は、既に生成されており、それ以上の計算を必要としない。従って、本開示の実施形態によれば、CTC出力560およびSMLTA出力570が同時に生成されており、余分な計算量が増加されていない。逆に、それはSMLTAモデル構造におけるコンパクトなCTC及びアテンションのデュアルヘッド構成を十分に利用し、二重復号化を実現する過程において、音響計算が一回のみ必要とされ、計算リソース及び処理時間が大幅に節約される。これにより、SMLTAモデル500からCTC出力560とSMLTA出力570とを同時に出力して、それ以降の復号化に使用することができる。
【0048】
続いて図5を参照し、共有エンコーダ520は1つの畳み込み層(Conv)、N個のLSTM及びバッチ正規化(BN)層を含み、ここで、Nは正の整数(例えば5等)であってもよく、且つLSTMは単方向LSTMであってもよい。所定の入力音声信号に対して、共有エンコーダ520はまず音声信号を符号化し、対応する隠れ特徴シーケンス530を得る。いくつかの実施形態において、音声信号510は、共有エンコーダ520に入力される前に、特徴抽出処理が施されてモデル入力xとしてもよい。なお、図5では、共有エンコーダ520の内部の階層構造を示しているが、他の構造の共有エンコーダも本開示の実施形態と組み合わせて用いることもできる。
【0049】
CTCモデル540は1つの線形変換(Linear)層と1つの正規化(Softmax)層を含み、CTCトレーニング基準を利用して入力された隠れ特徴シーケンス530のスパイクの記述情報を得、それによりスパイク情報を含むCTC出力560を生成し、続いてスパイク情報をアテンションデコーダ550に伝送し、それによりスパイク情報を利用して隠れ特徴シーケンス530を複数のサブシーケンスにトランケートするために用いられる。
【0050】
アテンションデコーダ550は1つのアテンションモデル層、M個のLSTM層及び層正規化(LN)層、並びに1つのSoftmax層を含み、ここでMは正の整数(例えば2等)であってもよく、且つLSTMは単方向LSTMであってもよい。アテンションデコーダ550は、受信した隠れ特徴シーケンス530とスパイク情報とに基づいて、隠れ特徴シーケンス530を各々の連続するサブシーケンスにトランケートすることができる。アテンションデコーダ550はトランケートされたサブシーケンスに対してアテンションメカニズムによってスクリーニングを行い、最終的に対応する出力確率分布を得る。共有エンコーダ520及びデコーダ550は単方向LSTMを基本的なネットワーク構造とし、且つこのような隠れ特徴シーケンスをサブシーケンスにトランケートする方式は隠れ特徴の履歴情報のみに依存するため、音声認識システムは音声信号が入力されると同時にリアルタイムに復号化することができ、音声信号全体が全て入力された後に復号化を開始する必要がなく、リアルタイムの音声認識が実現される。なお、図5では、アテンションデコーダ550の内部の階層構造を示しているが、他の構造のアテンションデコーダを本開示の実施形態と組み合わせて用いてもよい。
【0051】
図5に示すコンパクトなCTCとアテンションが一体化されたSTMLAモデルにおいて、CTCモデル540のヘッドとアテンションデコーダ550のヘッドを同時に有し、トレーニング時にデュアルヘッドが一緒にトレーニングされてもよい。CTCモデル540のヘッドはCTC損失関数でトレーニングされ、アテンションデコーダ550のヘッドはクロスエントロピー損失関数でトレーニングされる。2つの損失関数は線形差の重みで結ばれており、すなわち、2つの損失関数それぞれは対応する重みを有する。このようなモデルのオンライン計算量が1つのモデルとほぼ同じであるが、CTCとアテンションという2種類の情報を同時に提供することができ、それにより大規模な工業的デプロイメントを可能にする。
【0052】
したがって、本開示の実施形態はSMLTAモデル500においてCTC出力560(すなわちCTCモデルの音響復号化情報)を増加することにより、追加計算量を増加しないか又はわずかに増加する場合、2種類の異なる音響モデルによる2種類の音響復号化情報の出力が実現され、復号化空間が拡張され、それによりSMLTAモデルの音声認識の正確率が向上された。
【0053】
図6は、本開示に係る多特徴を融合したSMLTAとCTCの二重復号化の最適化プロセス600の概略図を示している。図6に示すように、入力された言語信号610に対し、ブロック611において、SMLTA音響モデル612により統一されたSMLTA音響部分のスコアリングを行い、例えば図5のCTC出力(図6の位置Aで、CTCスパイク情報)及びSMLTA出力(図6の位置Bで、SMLTA分布情報)を取得する。そしてそれぞれ1つのSMLTAデコーダ(例えば復号化スレッド)及び1つのCTCデコーダ(例えば復号化スレッド)を用いてそれぞれの情報を利用してそれぞれの空間において音声復号化を行い、それぞれN個の候補復号化結果を出力し、そしてこれらの候補結果を多特徴の総合決定順位付けを行い、最適な認識結果を出力する。
【0054】
図6の多特徴を融合するSMLTA及びCTC二重復号化最適化プロセス600において、主に、SMLTAモデル612内部のCTC及びアテンションのダブルヘッド音響スコアリングモジュール、SMLTAデコーダ及びその対応する言語モデル632、CTCデコーダ及びその対応する言語モデル622、並びに多特徴決定モデル640の4つの部分に関する。
【0055】
以上のように、SMLTAモデル612内のCTC及びアテンションが一体化されたアテンションモデル構造は、CTCのスパイク情報及びSMLTAの分布情報を同時に出力することができ、このようなモデルはオンラインの計算量が1つのモデルとほぼ同じであり、二重復号化による計算コストが倍増するという問題が大幅に防止される。
【0056】
ブロック631において、SMLTAデコーダは、SMLTA出力と、対応する言語モデル632とに基づいて、N個の認識結果633を復号化して生成する。SMLTAデコーダは、得られたSMLTAの音響結果の独立した言語モデルでの復号化が実現された。音響と言語情報の組合せモデリングが行われたので、従来のCTCモデルが音響モデルのみをモデリングできるという欠点を克服し、モデル認識率が向上された。しかし、組合せモデリングは、拘束性が増加し、復号化および切り抜き後、認識結果における音響経路の多様性が、CTCモデルよりもはるかに低い。したがって、本開示の実施形態はCTC音響出力を利用してSMLTA音響出力の多様性の欠如を補う。
【0057】
ブロック621において、CTCデコーダはCTC出力及び対応する言語モデル622に基づき、N個の候補認識結果623を復号化して生成する。CTCデコーダはCTCスパイク情報を取得して独立した言語モデルでの復号化を行う。それが提供する最適な1つの認識結果はSMLTAデコーダの1つの認識結果より正確性が低い可能性があるが、その最適なN個の認識結果の豊富性により、その限界性能がSMLTAデコーダの最適なN個の認識結果より高くなる傾向にある。
【0058】
多特徴決定モデル640は、SMLTAデコーダおよびCTCデコーダそれぞれの候補認識結果633および623に基づいて、候補認識結果ごとの複数の特徴を抽出し、多特徴融合により、最終的な音声認識結果650を確定する。このようなSMLTAとCTCとの相補性により、決定モデルによる収益の取得が可能となる。いくつかの実施形態において、1つの双方向LSTMモデルを用いて2つのデコーダで得られた候補認識結果に対して多特徴の融合を行い、最適な認識結果を確定して与えることができる。該技術案はSMLTAモデルの高精度特性を維持するだけでなく、同時にCTCモデル結果の多様性を利用することにより、単一のSMLTAデコーダが部分サンプル例の場合の誤認識問題に対する対策を補った。決定モデルは多特徴の面から特徴を再組合し、2つのモデルの長所を融合し、認識率がいっそう向上された。
【0059】
いくつかの実施形態において、抽出された多特徴は、音響モデル特徴及び言語モデル特徴を含むほか、さらに信頼度特徴、ドメイン情報特徴、意味特徴、言語特徴、文の類似度特徴及びユーザ特徴等を含むことができる。また、特徴を新たに追加して拡張することもでき、それによって認識システムのロバストネス及び正確性がいっそう向上された。このように、多特徴融合の方式により、SMLTA復号化及びCTC復号化の候補認識結果を総合的にソートし、より良好な音声認識結果を得ることができる。
【0060】
いくつかの実施形態において、デュアルLSTMモデルを用いて多特徴決定モデル640を実現し、且つ予めアノテーションが付与されたトレーニングデータを用いて多特徴決定モデル640をトレーニングすることができる。いくつかの実施形態において、音声認識システムにおける実際の誤りサンプル例を分析し、誤り部分に関連する特徴を抽出して多特徴決定モデル640に加え、それにより誤り率が高い部分の特徴に対するトレーニングを強化し、音声認識の正確率をいっそう向上させることができる。
【0061】
いくつかの実施形態において、SMLTAデコーダとCTCデコーダはそれぞれ異なる言語モデルを用いることができ、例えばSMLTAデコーダは特定シーンの言語モデルを用いることができ、CTCデコーダは汎用シーンの言語モデルを用いることができ、こうすると異なる事前制約で復号化することができる。特殊な設計により、ドメイン認識の正確性と汎用認識の汎用性に対して良好にバランスを整え、復号化空間を拡張することができる。
【0062】
図7は、本開示の実施形態に係る音声認識装置700のブロック図を示している。図7に示すように、装置700は、音響情報取得モジュール710と、候補結果確定モジュール720と、認識結果確定モジュール730とを備える。音響情報取得モジュール710は、入力された音声信号に対して、音響モデリングにより生成された第1の音響モデルと、音響と言語の組合せモデリングにより生成された第2の音響モデルとにより、それぞれ第1の音響復号化情報および第2の音響復号化情報を取得するように構成される。候補結果確定モジュール720は、第1の音響復号化情報及び第2の音響復号化情報にそれぞれ基づいて、第1組の候補認識結果及び第2組の候補認識結果を確定するように構成される。認識結果確定モジュール730は、第1組の候補認識結果と第2組の候補認識結果とに基づいて、音声信号に対する認識結果を確定するように構成される。
【0063】
いくつかの実施形態において、第1の音響モデルはコネクショニスト時間分類(CTC)モデルであり、第2の音響モデルはストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)モデルであり、音響情報取得モジュール710は、音声信号に基づいて、コネクショニスト時間分類(CTC)モデルによって、音声信号に関連するスパイク情報を含む第1の音響復号化情報を取得するように構成される第1の音響情報取得モジュールと、
音声信号とスパイク情報に基づいて、ストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)モデルにおけるアテンションデコーダによって第2の音響復号化情報を取得するように構成される第2の音響情報取得モジュールと、を備える。
【0064】
いくつかの実施形態において候補結果確定モジュール720は、コネクショニスト時間分類(CTC)デコーダにより第1の音響復号化情報に基づいて第1組の候補認識結果を確定するように構成される第1の候補結果確定モジュールと、第2の音響復号化情報に基づいて第2組の候補認識結果をストリーミング・マルチレイヤー・トランケート・アテンション(SMLTA)デコーダにより確定するように構成される第2の候補結果確定モジュールと、を備える。
【0065】
いくつかの実施形態において、第1の候補結果確定モジュールは、第1の言語モデル及び第1の音響復号化情報に基づいて第1組の候補認識結果を確定するように構成される第3の候補結果確定モジュールを備え、第2の候補結果確定モジュールは、第2の言語モデル及び第2の音響復号化情報に基づいて第2組の候補認識結果を確定するように構成される第4の候補結果確定モジュールを備える。
【0066】
いくつかの実施形態において、認識結果確定モジュール730は、第1組の候補認識結果と第2組の候補認識結果との組み合わせに基づいて、第3組の候補認識結果を得るように構成される組み合わせモジュールと、第3組の候補認識結果のそれぞれから複数の特徴を抽出するように構成される抽出モジュールと、各候補認識結果の複数の特徴に基づいて、音声信号に対する認識結果を確定するように構成される確定モジュールと、を備える。
【0067】
いくつかの実施形態において、抽出モジュールは、各候補認識結果の音響特徴と言語特徴とを取得するように構成される特徴取得モジュールと、各候補認識結果のドメイン特徴を確定するように構成される特徴確定モジュールと、を備える。
【0068】
いくつかの実施形態において、抽出モジュールは、各候補認識結果に関連付けられる、信頼度特徴、意味特徴、類似度特徴、及びユーザ特徴のうちの少なくとも1つの特徴を抽出するように構成される第2の特徴抽出モジュール、をさらに備える。
【0069】
いくつかの実施形態において、第1組の候補認識結果は、確定された認識結果を含み、且つ第2組の候補認識結果は、確定された認識結果を含まない。
【0070】
図7に示した音響情報取得モジュール710と、候補結果確定モジュール720と、認識結果確定モジュール730は、単一または複数の電子機器に含まれていてもよいことを理解されたい。また、図7に示したモジュールは本開示の各実施形態を参照する方法又はプロセスにおけるステップ又は動作を実行することができることを理解されたい。
【0071】
したがって、本開示のいくつかの実施形態によれば、多特徴を融合するSMLTA及びCTC二重復号化最適化の音声認識方法を提供し、SMLTA復号化を実現すると同時に、その内部のCTCモデルの情報を利用してCTC復号化を行い、CTC復号化結果の音響多様性を利用してSMLTA音響経路が少ないという欠点を補い、また、さらに多階層の特徴を用いて改めて認識結果の順位決定を行うことができ、SMLTAの認識正確率がいっそう向上された。
【0072】
図8は、本開示の実施形態を実施するために使用できる例示的な装置800の概略ブロック図を示している。装置800は、本開示に記載された音声認識装置700であり得ることを理解されたい。図に示すように、装置800は、読み出し専用メモリ(ROM)802に記憶されているコンピュータプログラム命令又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置(CPU)801を備える。RAM803には、装置800の動作に必要な様々なプログラム及びデータが更に記憶されることが可能である。CPU801、ROM802及びRAM803は、バス804を介して互いに接続されている。入力/出力(I/O)インターフェース805もバス804に接続されている。
【0073】
装置800において、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット809とを含む複数のコンポーネントは、I/Oインターフェース805に接続されている。通信ユニット809は、装置800がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。
【0074】
処理ユニット801は、上述した方法200のような様々な方法およびプロセスを実行する。例えば、いくつかの実施形態では、方法は、記憶ユニット808などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ROM802及び/又は通信ユニット809を介して装置800にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM803にロードされ、CPU801によって実行されると、上述した方法における1つまたは複数の動作またはステップが実行され得る。あるいは、他の実施形態では、CPU801は、他の任意の適切な形態によって(例えば、ファームウェアによって)方法を実行するように構成されていてもよい。
【0075】
本明細書で説明した機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが含まれる。
【0076】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0077】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または命令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置またはデバイス、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0078】
また、各動作またはステップは、特定の順序で示されているが、所望の結果を得られるために、このような動作またはステップは示された特定の順序にてまたは順を追って実行されることを要求するか、または、図に示されたすべての動作またはステップが実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別にまたは任意の適切なサブセットで実施されることもできる。
【0079】
本開示の実施形態は、構造特徴および/または方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴または動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴および動作は、特許請求の範囲を実施するための例示的な形態にすぎない。
図1
図2
図3
図4
図5
図6
図7
図8