(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-21
(45)【発行日】2024-01-04
(54)【発明の名称】音声認識方法、装置、設備及び記憶媒体
(51)【国際特許分類】
G10L 15/10 20060101AFI20231222BHJP
G10L 15/16 20060101ALI20231222BHJP
【FI】
G10L15/10 200W
G10L15/16
(21)【出願番号】P 2022563214
(86)(22)【出願日】2020-12-02
(86)【国際出願番号】 CN2020133286
(87)【国際公開番号】W WO2021232746
(87)【国際公開日】2021-11-25
【審査請求日】2022-10-18
(31)【優先権主張番号】202010418728.1
(32)【優先日】2020-05-18
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】ション,シーフー
(72)【発明者】
【氏名】リュウ,ツォン
(72)【発明者】
【氏名】ウェイ,スー
(72)【発明者】
【氏名】リュウ,チンフォン
(72)【発明者】
【氏名】ガオ,ジェンチン
(72)【発明者】
【氏名】パン,ジャ
【審査官】冨澤 直樹
(56)【参考文献】
【文献】米国特許出願公開第2020/0097604(US,A1)
【文献】米国特許出願公開第2020/0066271(US,A1)
【文献】中国特許出願公開第102592595(CN,A)
【文献】Golan Pundak, et al.,Deep Context: End-to-end Contextual Speech Recognition,IEEE Spoken Language Technology Workshop,2018,米国,IEEE,2018年12月18日,pp. 418-425,https://ieeexplore.ieee.org/document/8639034,<online>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声認識方法であって、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定することと、
を含むことを特徴とする音声認識方法。
【請求項2】
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える、
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと、
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時
刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する、
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記第1のアテンションモデルが、デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む、
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記第2のアテンションモデルが、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む、
ことを特徴とする請求項5に記載の方法。
【請求項8】
前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含み、
分類器モジュールが、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することと、
を含むことを特徴とする請求項4に記載の方法。
【請求項9】
前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは1対1対応する、
ことを特徴とする請求項8に記載の方法。
【請求項10】
前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することと、
を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することと、
を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
【請求項12】
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力すること、
をさらに含むことを特徴とする請求項11に記載の方法。
【請求項13】
音声認識装置であって、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットと、
を含むことを特徴とする音声認識装置。
【請求項14】
音声認識設備であって、
プログラムを格納するメモリと、
前記プログラムを実行し、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現するプロセッサと、
を含むことを特徴とする音声認識設備。
【請求項15】
コンピュータプログラムを格納する読取可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現する、
ことを特徴とする読取可能な記憶媒体。
【請求項16】
コンピュータプログラム製品であって、
端末装置で実行される時に、前記端末装置に請求項1~12のいずれか1項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年05月18日に中国特許局へ提出した出願番号202010418728.1、発明名称「音声認識方法、装置、設備及び記憶媒体」である中国特許出願
の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
【背景技術】
【0002】
音声認識とは、入力された音声データを認識し、音声に対応する認識テキスト内容を得ることを意味する。ディープラーニングシーケンスモデリングの発展に伴い、エンドツーエンドモデリング方法が音声認識分野の研究の焦点となっている。
【0003】
図1に示すように、アテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークは、入力音声の符号化を行い、アテンションメカニズムに基づいて、符号化されたオーディオを処理し、復号化及び分類により、入力音声に対応する認識テキストを得ることができる。このような音声認識方法は、訓練データの需要量が多いため、訓練したモデルに自信過剰(over-confidence)の問題があり、モデルには、算出された事後確率得点が鋭く、つまり高頻度語に対する認識効果が良く、得点が高いが、低頻度語に対する認識効果が悪く、得点が低いことが反映されている。専門名詞、専門用語、日常の社会活動の中から生まれたリアルタイムな話題となる単語などのホットワードは、モデルに対して低頻度語であり、モデルでこのようなホットワードの認識効果が悪い。
【発明の概要】
【0004】
上記の問題に鑑み、本出願は、従来の音声認識方法においてホットワードに対する認識効果が良くないという問題を解決するように、音声認識方法、装置、設備及び記憶媒体を提供し、その技術案は以下の通りである。
【0005】
本出願の第一態様において、音声認識方法を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
【0006】
好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含む。
【0007】
好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワード
シソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。
【0008】
好ましくは、前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
【0009】
好ましくは、前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。
【0010】
好ましくは、前記第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む。
【0011】
好ましくは、前記第2のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む。
【0012】
好ましくは、前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含む。
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて
、認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
【0013】
好ましくは、前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは1対1対応する。
【0014】
好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することとを含む。
【0015】
好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することとを含む。
【0016】
好ましくは、
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することとをさらに含む。
【0017】
本出願の第二態様において、音声認識装置を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットとを含む。
【0018】
本出願の第三態様において、プログラムを格納するメモリ及び前記プログラムを実行し、上記の音声認識方法の各ステップを実現するプロセッサを含む音声認識設備を提供する。
【0019】
本出願の第四態様において、コンピュータプログラムを格納する読取可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、上記の音声認識方法の各ステップを実現する。
【0020】
本出願の第五態様において、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、端末装置で実行される時に、前記端末装置に上記の音声認識方法の各ステップを実行させる。
【0021】
以上のことから分かるように、本出願に係る音声認識方法では、ホットワードシソーラス(すなわち、認識対象音声に存在する可能性のあるホットワード)が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報では
なく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。
【図面の簡単な説明】
【0022】
本発明の実施例又は従来技術の技術案をより明確にするためには、以下、実施例又は従来技術を説明するための図面を簡単に説明する。明らかに、下記の図面は、本発明の実施例に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。
【0023】
【
図1】
図1はアテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークを示す。
【
図2】
図2はアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す。
【
図3】
図3は本出願の実施例に係る音声認識方法のフローチャートである。
【
図4】
図4は本出願の実施例に係る別のアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す図である。
【
図5】
図5は本出願の実施例において1層の双方向長短期記憶層(LSTM)のホットワードエンコーダのホットワードに対する符号化を示す図である。
【
図6】
図6は本出願の実施例に係る音声認識装置の構造を示す図である。
【
図7】
図7は本出願の実施例に係る電子設備の構造を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。
【0025】
従来の音声認識方法においてホットワードの認識効果が良くないという問題を解決するために、本案発明者が研究を行い、まずホットワードの得点にインセンティブを与えることを考え、つまり、音声認識モデルが出力した各候補認識文字のうち、ホットワードに属する候補認識文字の得点にインセンティブを与えることで、ホットワードの認識率を高めるという目的を達成する。
【0026】
しかしながら、さらに研究を進めると、エンドツーエンドの音声認識モデルでは、ホットワードのような低頻度語の得点が低すぎるため、ホットワードの復号化を行う過程で削減されることが多く、場合によってインセンティブが与えられる機会もなく、ホットワードの認識度を高めることができないことが分かった。
【0027】
したがって、本発明者は、音声認識モデルの構造を変更することにより、モデルレベルでホットワードの得点確率を高める方案を提出する。変更された音声認識モデルのフレームワークの例を
図2に示す。
【0028】
従来の音声認識モデルに比べて、ホットワードエンコーダモジュールBias encoderが追加され、ホットワードを符号化することができる。さらに、デコーダDec
oderのステータス情報を用いて、アテンションメカニズムに基づいて、オーディオ符号化特徴及びホットワード符号化特徴のそれぞれに対して操作を行い、復号化に必要なオーディオ関連特徴及びホットワード関連特徴を得る。オーディオ関連特徴及びホットワード関連特徴に基づいて、復号化及び分類を行い、入力音声に対応する認識テキストを得る。
【0029】
この方案では、モデル構造レベルでホットワードを考慮したため、モデルから出力されたホットワードの得点にインセンティブを直接に与える方式よりも効果的である。
【0030】
しかし、発明者が深く研究した結果、異なるホットワードの長さが違いことがあり、オーディオにホットワードが含まれているか否か、どのホットワードが含まれているかを正確に判定するには、ホットワードによって必要な情報が異なることがわかった。一方、デコーダのステータス情報には、復号化済み結果の履歴テキストと履歴オーディオ情報のみが含まれ、単に履歴情報のみを含むステータス情報をアテンションメカニズムのクエリ項目として使用して、オーディオ符号化特徴に対しアテンションの操作を実行して得られるオーディオ関連特徴は必ずしも完全ではなく、同時にホットワード符号化特徴に対しアテンションの操作を実行して得られるホットワード関連特徴も必ずしも正確ではないため、最終的なホットワード認識精度も特に高くない。
【0031】
したがって、発明者は上記の問題を解決するための別の改善案を提出する。以下、本案に係る音声認識方法を詳細に説明する。
【0032】
本案の音声認識方法は、音声認識が必要なあらゆる場面に適用可能であることが理解される。音声認識方法は、携帯電話、翻訳機、パソコン、サーバーなどのデータ処理能力を備えた装置のような、電子機器を用いて実現できる。
【0033】
そして、図面3に示すフローチャートに合わせて、本案の音声認識方法を説明し、詳しく次のステップを含む。
【0034】
S100:認識対象音声及び設定されたホットワードシソーラスを取得する。
具体的には、今回の音声認識タスクで認識する音声を認識対象音声とする。音声認識の前に、設定されたホットワードシソーラスを取得することができ、ホットワードシソーラスには複数のホットワードが保存されている。ホットワードシソーラスは音声認識タスクに関連するホットワードから構成されてもよいことが理解される。例えば、認識対象音声の中に存在する可能性のあるすべてのホットワード(専門用語など)を用いてホットワードシソーラスを構成する。
【0035】
また、本実施例で設定されたホットワードシソーラスとして、既存のホットワードシソーラスを直接呼び出してもよい。S110:前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。
【0036】
具体的には、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻の復号化対象文字がホットワードであるか否かを検出する機能を果たす。
最終的に得られるオーディオ関連特徴には、現在の復号化対象文字の完全なオーディオ情報が含まれる。
【0037】
S120:前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定する。
【0038】
前のステップでは、現在の復号化時刻に必要なオーディオ関連特徴が決定されているため、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、当該ホットワード関連特徴は現在の復号化時刻に現れる可能性のあるホットワード内容を示している。
【0039】
オーディオ関連特徴は現在の復号化対象文字の完全なオーディオ情報を含んでもよいため、これに基づいて、ホットワードシソーラスから現在の復号時に必要なホットワード関連特徴を決定し、ホットワードの長さが異なることにさらに適応できることが理解される。
【0040】
S130:前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する。
【0041】
現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴が得られた後、両方に基づいて、現在の時刻に復号化対象文字の復号化認識を行い、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0042】
本出願の実施例に係る音声認識方法では、ホットワードシソーラス(すなわち、認識対象音声に存在する可能性のあるホットワード)が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報ではなく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。
【0043】
本出願の実施例では、上記のS100で認識対象音声及び設定されたホットワードシソーラスを取得するための実施形態を説明する。
【0044】
選択肢として、認識対象音声を取得した後、認識対象音声の会話シーンを決定することができる。さらに、当該会話シーンに関連するホットワードシソーラスを、本案に設定されたホットワードシソーラスとして取得することができる。
会話シーンによって発生される認識対象音声に含まれるホットワードも異なる可能性があることが理解されるため、本出願で、各会話シーンに対応するホットワードシソーラスを事前に決定することができ、そして認識対象音声の会話シーンを決定した後、対応するホットワードシソーラスを取得することができる。
【0045】
別の選択肢として、本出願の方案をヒューマンコンピュータインタラクションシーンでの音声認識に適用する場合には、
ユーザーがヒューマンコンピュータインタラクションシーンで機器とやり取りを行う時、
ユーザーの音声操作命令に関わってくることが理解され、すなわち、ユーザーが所定の目的を実現するための音声操作命令を機器に出す。例えば、ユーザーがスマートテレビを音声でコントロールしてチャンネル切り替えや音量調整などの関連操作を実現し、またユーザーがスマートロボットをコントロールして曲の再生、天気の確認、所定の動作の実行などを実現する。
【0046】
その上で、機器がユーザーに正しく応答するためには、機器が音声操作命令を正確に認識する必要がある。このため、本出願では、ユーザーの音声操作命令中の操作キーワードを用いてホットワードシソーラスを構成することができる。
【0047】
これに基づいて、本出願の実施例で、ヒューマンコンピュータインタラクションシーンでユーザーからの音声を認識対象音声として取得することができると同時に、ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令中の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することができる。
【0048】
このようにして、本出願の方案に従って認識対象音声の認識結果を決定した後、当該認識結果に基づいて、当該認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することができる。
【0049】
本実施で説明された方案に従って、ヒューマンコンピュータインタラクション過程におけるユーザーの操作命令を正確的に認識するため、機器が正確的な認識結果に基づいて、適切なインタラクション応答を行うことができる。
【0050】
本出願の別の実施例では、上記のS110において、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。
【0051】
具体的には、認識対象音声の各フレームの音声間にコンテキスト関係が存在し、現在の復号時刻に必要なオーディオ関連特徴を決定するために、本実施例では、現在の復号時刻より前の復号化済み結果情報を取得してもよい。復号化済み結果情報には、復号化済み文字のテキスト情報、オーディオ情報が含まれてもよい。
【0052】
また、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻に復号化対象文字がホットワードであるか否かを検出する機能を果たす。その上で、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、ホットワードの長さが異なることにさらに適応できる。
【0053】
以上によって、S110におけるオーディオ関連特徴の決定過程は以下を含むことが分かる。
S1:現在の復号化時刻より前の復号化済み結果情報を取得する。
S2:復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
【0054】
具体的には、本実施例では、まず認識対象音声のオーディオ特徴を決定することができ、そのオーディオ特徴としては、フィルタバンク(Filter Bank)特徴、メル
周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。さらに、復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声のオーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
【0055】
ここで、オーディオ関連特徴には現在の復号化時刻の復号化対象文字の完全なオーディオ情報が運ばれている。その上で、ホットワードの正確的な認識のために十分なオーディオ関連特徴を提供することができる。
【0056】
本出願の別の実施例では、上記実施例のS110~S130で、現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴を決定し、これに基づいて認識対象音声の現在の復号化時刻の認識結果を決定する選択可能な実施形態を説明する。
具体的には、音声認識モデルを用いて実現できる。
【0057】
もちろん、本実施例に係る音声認識モデルは従来の音声認識モデルとは異なり、本実施例の音声認識モデルは、認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備えるように構成されている。
【0058】
具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。
【0059】
その上で、本実施例では、音声認識モデルを用いて前述したS100から取得された認識対象音声及びホットワードシソーラスを処理し、音声認識モデルが認識対象音声の認識結果を出力することができる。
【0060】
具体的には、認識対象音声のオーディオ特徴及びホットワードシソーラスを音声認識モデルに入力し、モデルから出力された認識対象音声の認識結果を得ることができる。
【0061】
そして、
図4を参照し、音声認識モデルのフレームワークを説明する。
【0062】
音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。受信されたホットワードシソーラスの各ホットワード及び認識対象音声のオーディオ特徴を処理し、最終的に認識結果を出力する過程を各モジュールの協働により実現する。これから、各モジュールをそれぞれ説明する。
【0063】
説明のために、認識対象音声のオーディオ特徴はX=[x1,x2,…,xk]とし、ここで、xkはkフレーム目のオーディオ特徴ベクトル、kは認識対象音声の音声フレームの合計数を表す。
【0064】
1.オーディオエンコーダモジュール:
オーディオエンコーダモジュールで認識対象音声の符号化を行い、オーディオ符号化結果を得る。
【0065】
具体的には、オーディオエンコーダモジュールで認識対象音声のオーディオ特徴Xの符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなる符号化済みのオーディオ特徴ベクトルのシーケンスを得る。
ここで、得られた符号化済みのオーディオ特徴ベクトルのシーケンスは次の通りである。
【数1】
ここで、
はkフレーム目のオーディオ特徴ベクトル、
はx
kがオーディオエンコーダモジュールにより符号化された結果を表す。
【0066】
オーディオエンコーダモジュールは、1層又は複数層の符号化層を含んでもよい、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を採用してもよい。具体的にどの構造を使用するかは使用需要に応じて決定する。即時性の要求がある音声認識について、3~5層の単方向長短期記憶層を使用し、即時性の要求がない音声認識について、3~5層の双方向長短期記憶層を使用してもよい。ここで、即時性の要求とは、すべて話した後に認識結果を一括に出すことなく、話しながら認識することを意味する。
【0067】
本実施例では、5層の単方向長短期記憶層を用いて、入力されたオーディオ特徴X=[x
1,x
2,…,x
k]を処理し、符号化されたオーディオ特徴ベクトルのシーケンス
を出力してもよい。
【0068】
2.ホットワードエンコーダモジュール:
ホットワードエンコーダモジュールでホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得る。
【0069】
具体的には、ホットワードエンコーダモジュールがホットワードシソーラスにおける各ホットワードを個別に符号化し、各ホットワードが個別に符号化された後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。
ホットワードシソーラス内に合計N+1個のホットワードが含まれるように定義される。
Z=[z0,z1,…,zn]
ここで、znはN番目のホットワードを表す。ここで、z0は特別なホットワード「<no-bias>」であり、ホットワードが存在しないことを表す。復号化の過程におけるホット
ワードはz0である場合、現在の復号化時刻に復号化対象文字がいずれかホットワードでもないことを意味し、認識されている音声セグメントがホットワードでない場合に使用される。
【0070】
ホットワードの合計数はN+1とすると、ホットワードエンコーダが各ホットワードを個別に符号化して得られたホットワード特徴ベクトルのシーケンスは次の通りである。
【数2】
ここで、
はN番目のホットワードがホットワードエンコーダモジュールで個別に符号化された後のホットワード特徴ベクトルを表す。
【0071】
ホットワードによって含まれている文字数が異なることがあり、例えば、「中科大」と
「科大訊飛」をホットワードとすると、含まれる文字数はそれぞれ3と4である。
【0072】
モデル処理のため、本実施例で長くなったホットワードを同じ次元のベクトルに統一的に符号化することができる。具体的には、ホットワードエンコーダモジュールが設定された次元にしたがって、各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することができる。
【0073】
ホットワードエンコーダモジュールは1層又は複数層の符号化層を含むことができ、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層或畳み込みニューラルネットワークの畳み込み層を採用してもよい。一般的に、同時に左右側のすべての情報を示している双方向長短期記憶層は、ホットワードに対する符号化効果が単方向長短期記憶層よりもよい。例えば、1層の双方向長短期記憶層を使用する場合は、「科」、「大」、「訊」、「飛」の4文字からなる「科大訊飛」をホットワードとすると、1層の双方向長短期記憶層のホットワードエンコーダモジュールの符号化過程は
図5に示す通りである。
【0074】
図5の左側が双方向長短期記憶層の順方向部分で、右側が逆方向部分であり、順方向と逆方向の最終ステップの出力ベクトル
と
を接合して得られたベクトルh
zはホットワードの符号化ベクトルを表す。
【0075】
3、共同注意モジュール:
共同注意モジュールは、オーディオ符号化結果及びホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。当該接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
【0076】
本実施例では、
図4に示すように、共同注意モジュールの選択可能なアーキテクチャを説明し、共同注意モジュールは第1のアテンションモデル及び第2のアテンションモデルを含んでもよい。
ここで、第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果から現在の復号化時刻に必要可能なオーディオ関連特徴を決定することができる。
【0077】
具体的には、状況ベクトル、ホットワード符号化結果を第1のアテンションモデルの入力として、第1のアテンションモデルでオーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。
【0078】
第2のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
【0079】
具体的には、オーディオ関連特徴を第2のアテンションモデルの入力として、第2のアテンションモデルでホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
【0080】
最後に、前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を構成する。
【0081】
以上からわかるように、デコーダモジュールの現在の復号化時刻に出力された状況ベクトルは復号化済み結果情報を示すことができるため、当該状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。つまり、本実施例における第1のアテンションモデルはオーディオ、ホットワードの共同注意メカニズムを使用し、オーディオ関連特徴の計算にホットワードを関与させる。ホットワード情報を利用したため、現在の復号化時刻に復号化対象文字が特定のホットワードである場合、オーディオ関連特徴から当該ホットワードに対応する完全なオーディオ情報を抽出される。
【0082】
さらに、オーディオ関連特徴を用いてホットワード符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なホットワード関連特徴を決定する。オーディオ関連特徴にはホットワードの完全なオーディオ情報が含まれているため、これにより得られたホットワード関連特徴もより正確である。
【0083】
ここで、アテンションメカニズムは1つのベクトルをクエリ項目(query)とし、一連の特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを出力とする。具体的には、クエリ項目と特徴ベクトルシーケンスの各特徴ベクトルとのマッチング係数を計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけ、合計を求めて得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。
【0084】
現在の時刻を時刻tとし、デコーダモジュールの時刻tに出力された状況ベクトルをd
tとすると、第1のアテンションモデルは、状況ベクトルd
tとホットワード特徴ベクトルシーケンスH
zに基づいて、オーディオ特徴ベクトルシーケンスH
xから現在の復号化時刻に必要なオーディオ関連特徴
を決定する。第2のアテンションモデルは、
をクエリ項目とし、ホットワード特徴ベクトルシーケンスH
zに対しアテンションメカニズム操作を実行し、現在の復号化時刻に必要なホットワード関連特徴
を決定する。
【0085】
そして、第1のアテンションモデルの実施形態について詳細に説明する。
まず、第1のアテンションモデルは、ホットワード特徴ベクトルシーケンスH
zにおける各ホットワード特徴ベクトル
を状況ベクトルd
tとそれぞれ組み合わせてクエリ項目とし、オーディオ特徴ベクトルシーケンスH
xにおける各オーディオ特徴ベクトル
に対してアテンションメカニズム操作を行い、マッチング係数行列E
tを得る。前記マッチング係数行列E
tには任意のホットワードと任意のフレームの音声との一致度
が含まれ、
は、i番目のホットワードとjフレーム目の音声との一致度(すなわちjフレーム目の音声がi番目のホットワードである可能性)を示す。
【0086】
ここで、
の計算過程は下の式を参照する。
【数3】
ここで、W
d、W
z、W
xはモデルパラメータであり、
はそれぞれベクトル
の次元を示し、3つの行列の行数が同じでいずれもDであり、演算子<.,.>はベクトルの内積を求めることを示す。
【0087】
要素
はホットワードと音声フレームのマッチング係数行列E
tを構成し、E
t∈R
K×(N-1)とする。ここで、
はE
tにおけるi行目j列目の要素、E
tの列ベクトルはあるホットワードとオーディオ特徴ベクトルシーケンスとの一致度、E
tの行ベクトルはあるフレームのオーディオ特徴ベクトルとホットワード特徴ベクトルシーケンスの一致度を表す。
【0088】
さらに、第1のアテンションモデルは上記のマッチング係数行列E
tに基づいて、オーディオ特徴ベクトルシーケンスH
xから現在の復号化時刻に必要なオーディオ関連特徴
を決定する。
【0089】
具体的には、当該過程は次のステップを含んでもよい。
S1:マッチング係数行列Etに基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率wtを決定する。
【0090】
E
tにおけるi行目j列目の要素はjフレーム目のオーディオがi番目のホットワードである可能性を表し、E
tの各行のsoftmax正規化を行い、その後、すべての行ベクトルを加算して平均値を計算し、次のN+1次元の行ベクトルを得る。
【数4】
ここで、
は現在の復号化時刻tの復号化対象文字がi番目のホットワードである可能性を表す。つまり、現在の復号化時刻tの音声から出てくる可能性の最も高いホットワードを決定する。
【0091】
S2:マッチング係数行列Et及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率wtに基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率atを決定する。
【0092】
具体的には、E
tの各列のsoftmax正規化を行い、列ベクトルが正規化された行列A
tを得る。その後、w
tの要素を行列A
tの列ベクトルの加重係数にして、行列A
tのすべての列ベクトルを重み付け及び加算し、次のK次元の行ベクトルを得る。
【数5】
ここで、
はjフレーム目のオーディオ特徴が現在の復号化時刻tの復号化に必要な音声内容である可能性を表す。
【0093】
S3:各フレームの音声を現在の復号化時刻に必要な音声内容とする確率a
tを加重係数とし、オーディオ特徴ベクトルシーケンスH
xにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴
を得る。
具体的には、a
tの要素をオーディオ特徴ベクトルシーケンス
に対応する位置のオーディオ特徴ベクトルの加重係数とし、オーディオ特徴ベクトルを重み付け及び加算し、オーディオ関連特徴ベクトル
を得る。
【0094】
さらに、第2のアテンションモデルの実施形態について詳細に説明する。
第2のアテンションモデルは、上記のオーディオ関連特徴
に基づいて、ホットワード特徴ベクトルシーケンスH
zから現在の復号化時刻に必要なホットワード関連特徴
を決定する。
【0095】
具体的には、当該過程は次のステップを含んでもよい。
S1:第2のアテンションモデルは、オーディオ関連特徴
をクエリ項目とし、ホットワード特徴ベクトルシーケンスH
zに対してアテンションメカニズム操作を行い、ホットワードマッチング係数ベクトルb
tを得る。ホットワードマッチング係数ベクトルb
tには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれる。b
tは次の通りである。
【数6】
ここで、
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表す。
【0096】
具体的には、
と各ホットワード特徴ベクトルとを、小さなニューラルネットワークによって計算して1つのマッチング係数を得た後、これらのマッチング係数のsoftmax正規化を行って、
を得る。
【0097】
S2:各ホットワードを現在の復号化時刻の復号化対象文字とする確率
を加重係数とし、ホットワード特徴ベクトルシーケンスH
zにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴
を得る。
【0098】
には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれているため、これに基づいて決定されたホットワード関連特徴
もより正確である。
【0099】
と
が決定された後に接合する必要があり、現在の復号化時刻に必要な接合特徴c
tが得られ、接合特徴c
tをデコーダモジュールに渡す。
【0100】
さらに、上記の決定された現在の復号化時刻の復号化対象文字の確率btを分類器モジュールに渡し、ホットワードの分類に使用されてもよい。
【0101】
4.デコーダモジュール:
デコーダモジュールは共同注意モジュールから出力された現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。
【0102】
具体的には、デコーダモジュールは、現在の復号化時刻tより一つ前の復号化時刻t-1に必要な接合特徴ct-1と一つ前の復号化時刻t-1の認識結果文字を用いて、現在の復号化時刻tの状況ベクトルdtを求める。
【0103】
ここで、dtは次の二つの役割を果たす。一つ目は、共同注意モジュールに送信することで、共同注意モジュールが上記実施例で説明された操作過程を実行し、現在の復号化時刻のctを求める。
【0104】
二つ目は、デコーダモジュールは現在の復号化時刻の状況ベクトルd
tと現在の復号化時刻に必要な接合特徴c
tを用いて、デコーダモジュールの現在の復号化時刻の出力特徴
を求める。
【0105】
説明すべき点については、デコーダモジュールには複数のニューラルネットワーク層が含まれてもよいため、本出願では二層の単方向長短期記憶層を使用してもよい。現在の時刻tの復号化対象文字を復号化する時には、一層目の長短期記憶層は時刻t-1の認識結果文字とアテンションモジュールから出力された接合特徴c
t-1を入力とし、デコーダモジュールの現在の復号化時刻の状況ベクトルd
tを求める。デコーダモジュールはd
tとc
tを二層目の長短期記憶層の入力とし、デコーダモジュールの出力特徴
を求める。
【0106】
5.分類器モジュール:
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0107】
具体的には、分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、認識対象音声の現在の復号化時刻の認識結果を決定してもよい。
【0108】
以上からわかるように、出力特徴
は、デコーダモジュールの状況ベクトルd
tと現在の復号化時刻に必要な接合特徴c
tに基づいて共同で決定されたものであり、接合特徴c
tにおける
には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれるため、これに基づいて決定されたホットワード関連特徴
もより正確である。よって、最終的に得られた出力特徴
もより正確であり、さらにこれに基づいて決定された認識結果もより正確で、ホットワードの認識精度を高めることができるのが確認される。
【0109】
本出願の一実施例では、分類器モジュールの2つの実施形態が提供され、その1つは、従来の一般静的分類器を採用している。当該静的分類器の分類ノードの数が一定に維持され、共通文字が含まれる。分類器モジュールは出力特徴
に基づいて各分類ノード文字の得点確率を決定し、最終的な認識結果に組み合わせる。
【0110】
しかしながら、このような常用静的分類器は、ホットワードを常用文字の組み合わせで表し、ホットワードを文字ごとに復号化すると、ホットワードセグメントでないホットワードが誤ってトリガされてしまうことが多い。例えば、「這個模型訓飛了」を認識対象音声の内容とする音声データについて、「科大訊飛」をホットワードとすると、静的分類器を用いた認識結果が「這個模型訊飛了」になる可能性がある。「訓飛」とホットワードの「科大訊飛」における「訊飛」との2文字の発音が同じであるため、静的分類器がホットワードを文字ごとに復号化し、1文字ずつインセンティブを与えることで、各文字にインセンティブが与えられる可能性があり、音声セグメントのうち、ホットワードが含まれる部分の発音とマッチングする内容を誤ってホットワードの一部としてインセンティブを与える可能性が高い。つまり、「訓飛」における「訓」をホットワードである「科大訊飛」における「訊」として誤って認識してしまう。
【0111】
このため、本出願は分類器モジュールの新構造を提供し、分類器モジュールの分類ノードには、固定の常用文字ノードに加えて、動的に拡張可能なホットワードノードも含まれるため、従来技術のようにホットワードを分割して、文字ごとに認識したり、インセンティブを与えたりする必要がなく、直接にホットワードの全体を認識することができる。なお、上述した例で説明するように、音声データである「這個模型訓飛了」について、「訓飛」がホットワードである「科大訊飛」の一部の文字と発音だけ同じであるが、ホットワードである「科大訊飛」の全体との一致度が高くないため、ホットワード全体の誤認識の問題が発生しない。一方、音声データに特定のホットワードが含まれている場合、本実施例の分類器モジュールにより、分類ノードにホットワードが丸ごと含まれるため、ホットワードを丸ごと認識し、ホットワードの認識効果を向上させることができる。
【0112】
本実施例の分類器モジュールにおけるホットワードノードの数は、シーンによって動的
調整でき、現在のシーンに対応するホットワードシソーラスにN個のホットワードがある場合、同じくN個のホットワードノードを設定することができる。中国語の音声認識を例として、漢字をモデリング単位とし、常用漢字の数をV個とすると、分類器モジュールの固定の常用文字ノードの数はVとし、またホットワードシソーラスに合計N個のホットワードが存在すると、分類器モジュールのホットワードノードの数はNとし、つまり分類器モジュールのすべての分類ノードの数はV+Nとする。
【0113】
上記のような新構造の分類器モジュールに基づき、分類器モジュールが音声認識を行う過程は以下を含んでもよい。
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点を決定し、よって最終的な認識結果を決定する。
【0114】
1つの選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点をそれぞれ決定することができる。
【0115】
別の選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、各常用文字ノードの確率得点を決定することができる。さらに、上記の実施例で説明されたホットワードマッチング係数ベクトルb
tを用いて、各ホットワードノードの確率得点を決定する。
【0116】
分類器モジュールにおける固定の常用文字ノードについて、その確率得点を、静的分類器を用いて決定できることが理解される。具体的には、静的分類器はデコーダモジュールの現在の復号化時刻の出力特徴
を用いて、各常用文字ノードの確率得点を決定する。
【0117】
静的分類器はV次元の確率分布(
で表す)を出力する。
ここで、y
tは現在の復号化時刻tの復号化対象文字を表し、行列Wは静的分類器のモデルパラメータとし、デコーダモジュールの出力特徴
の次元をMとすると、WはV*Mの行列を表し、P
v(y
t)の要素は常用文字ノードの常用文字の確率得点を表す。
【0118】
分類器モジュールにおける動的に拡張可能なホットワードノードについて、その確率得点はホットワード分類器を用いて決定されてもよい。具体的には、ホットワード分類器はホットワードマッチング係数ベクトルbtを用いて、各ホットワードノードの確率得点を決定してもよい。
【0119】
前述した過程では、ホットワードマッチング係数ベクトルbtには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれるため、当該確率をそのホットワードノードの確率得点として使用することができる。
【0120】
【数7】
ここで、
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表し、これをi番目のホットワードノードの確率得点とすることができる。0番目のホットワードが「<no-bias>」である場合は「ホットワードでない」ことを示す。iは0である場合、
は復号化結果が「ホットワードでない」である確率得点を示す。
【0121】
常用文字ノード及びホットワードノードの確率得点が決定された後、2種類のノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。
【0122】
静的分類器及びホットワード分類器の2つの分類器が同時に存在するため、どの分類器の結果を最終的な結果とするかを判定するための1つの判断器も分類器モジュールに追加してもよいことが理解される。当該判断器は、現在の復号化時刻tにホットワード分類器/静的分類器の結果を最終的な出力結果とする確率得点を表すスカラー型の確率値
を出力する。
【0123】
で現在の復号化時刻tにホットワード分類器の結果を最終的な出力結果とする確率得点を表すことを例として説明する。
は次の通りである。
【数8】
ここで、w
bはモデルパラメータであり、
次元と同じの重みベクトルを示し、sig moidはニューラルネットワーク活性化関数である。
【0124】
判断器は、2つの分類器から出力された確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。具体的には以下を含んでもよい。
N個のホットワードにおけるi番目のホットワードノード(iの値を取る範囲は[1,N]とする)について、静的分類器から出力された確率分布におけるその得点は0であり、ホットワード分類器におけるその確率得点は
であるため、最終的にその確率得点は
である。V個の常用文字y
tについて、静的分類器から出力された確率分布におけるその得点はP
v(y
t)であり、ホットワード分類器におけるその確率得点は
であるため、最終的にその確率得点は
である。
【0125】
本出願の別の実施例では、上記音声認識モデルの訓練方式を説明する。
【0126】
本出願に係る音声認識モデルは任意のホットワードに対する認識能力を備える必要があるため、モデル訓練でホットワードを限定できないことを意味する。したがって、本出願では、訓練データのテキスト注釈からランダムに選定された注釈セグメントをホットワードとしてモデル訓練全体に参加させることができる。具体的なプロセスは以下を含んでもよい。
【0127】
S1:認識テキストを注釈した音声訓練データを取得する。
ここで、音声訓練データのテキスト注釈シーケンスは次の通りである。
Y=[y0,y1,…,yt…,yT]
ここで、ytはテキスト注釈シーケンスにおけるt番目の文字、T+1は認識テキストの文字総数を表す。ここで、y0はセンテンスの開始タグ「<s>」、yTはセンテンスの終
了タグ「</s>」である。
【0128】
中国語の音声認識を例とし、単一の漢字をモデリング単位とする。「歓迎来到科大訊飛」をセンテンスのテキスト内容とし、合計8個の漢字があり、センテンスの開始タグと終了タグを加えて、テキスト注釈シーケンスは合計10個の文字がある場合、テキスト注釈シーケンスは次の通りである。
Y=[< s >,歓、迎、来、到、科、大、訊、飛、</ s >]。
【0129】
S2:前記音声訓練データのオーディオ特徴を取得する。
ここで、オーディオ特徴としては、フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。
【0130】
S3:前記音声訓練データの注釈テキスからランダムに選定された注釈セグメントを訓練ホットワードとする。
【0131】
具体的には、本出願では、あらかじめPとNとの2つのパラメータを設定してもよい。Pはあるセンテンスの訓練データについて訓練ホットワードを選定するかどうかの確率とし、Nは選定された訓練ホットワードの最大字数とする。そうすると、訓練ホットワードとして任意のセンテンスの訓練データが選択される確率はPであり、訓練ホットワードとして当該センテンスの訓練データのテキスト注釈シーケンスから最大N個連続した文字を選定する。「歓迎来到科大訊飛」を例として、当該センテンスから訓練ホットワードを選定するときの注釈の比較は下の表に示す。
【表1】
【0132】
ここで、上の表の第1の注釈は、「科大訊飛」が訓練ホットワードとして選定されたものであり、第2の注釈は、「科大」が訓練ホットワードとして選定されたものである。
【0133】
以上からわかるように、原始注釈の「科」、「大」、「訊」、「飛」が訓練ホットワードとして選定される場合、この四つの文字を「科大訊飛」に結合し、その後ろに特殊なタグ「<bias>」を付ける必要がある。「<bias>」の役割は、訓練エラーを導入し、モデル訓練の時に訓練ホットワードに関するモデルパラメータ(ホットワードエンコーダモジュールなど)を強制的に更新することである。「科大訊飛」又は「科大」が訓練ホットワードとして選定された後、それを今回のモデル更新のための訓練ホットワードリストに追加し、ホットワードエンコーダモジュールの入力及び分類器モジュールの訓練ホットワード分類ノードとする。モデル更新を行うたびに訓練ホットワードの選定を個別に行い、初期時刻の訓練ホットワードリストは空である。
【0134】
S4:前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練する。
【0135】
具体的には、訓練ホットワードとオーディオ特徴を訓練サンプルの入力とし、音声訓練データの認識テキストをサンプルラベルとし、音声認識モデルを訓練する。
【0136】
また、本出願の実施例は音声認識装置を提供し、下記のように本出願の実施例に係る音声認識装置を説明し、下述した音声認識装置と上述した音声認識方法とは互いに参照することができる。
【0137】
図6は、本出願の実施例に係る音声認識装置の構造を示し、当該音声認識装置は、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニット11と、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニット12と、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニット13と、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニット14とを含んでもよい。
【0138】
選択肢として、上記のオーディオ関連特徴取得ユニットは、
現在の復号化時刻より前の復号化済み結果情報を取得する第1のオーディオ関連特徴取得サブユニットと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する第2のオーディオ関連特徴取得サブユニットとを含んでもよい。
【0139】
選択肢として、上記のオーディオ関連特徴取得ユニット、ホットワード関連特徴取得ユニット及び認識結果取得ユニットの実現過程は音声認識モデルを用いて行われる。具体的には、あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を得る。
【0140】
ここで、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。
【0141】
具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、オーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現
在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。
【0142】
選択肢として、音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。
【0143】
ここで、前記オーディオエンコーダモジュールが前記認識対象音声の符号化を行い、オーディオ符号化結果を得る。
【0144】
具体的には、前記オーディオエンコーダモジュールで前記オーディオ特徴の符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなるオーディオ特徴ベクトルシーケンスを得る。
【0145】
前記ホットワードエンコーダモジュールが前記ホットワードシソーラスの各ホットワードに対して符号化を行い、ホットワード符号化結果を得る。
【0146】
具体的には、前記ホットワードエンコーダモジュールで前記各ホットワードを個別に符号化し、各ホットワードを個別に符号化した後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。
【0147】
前記共同注意モジュールは、前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
【0148】
前記デコーダモジュールは、前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。
【0149】
前記分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0150】
ここで、選択肢として、前記共同注意モジュールは、
第1のアテンションモデル及び第2のアテンションモデルを含んでもよい。
【0151】
前記第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
【0152】
具体的には、前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。
【0153】
前記第2のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する。
【0154】
具体的には、前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
【0155】
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。
【0156】
選択肢として、上記のホットワードエンコーダモジュールが前記各ホットワードを個別に符号化する過程は、
前記ホットワードエンコーダモジュールが設定された次元に基づいて、前記各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することを含んでもよい。
【0157】
選択肢として、上記の第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード特徴スベクトルのシーケンスに基づいて、前記オーディオ特徴スベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
第1のアテンションモデルが、それぞれ前記ホットワード特徴ベクトルシーケンスにおける各ホットワード特徴ベクトルと前記状況ベクトルの組み合わせをクエリ項目とし、前記オーディオ特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、任意のホットワードと任意のフレームの音声の一致度を含むマッチング係数行列を得ることと、
前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含んでもよい。
【0158】
選択肢として、上記の第1のアテンションモデルは前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
前記マッチング係数行列に基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を決定することと、
前記マッチング係数行列及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率に基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を決定することと、
各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を加重係数とし、前記オーディオ特徴ベクトルシーケンスにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴を得ることとを含んでもよい。
【0159】
選択肢として、上記の第2のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード特徴ベクトルシーケンスから現在の復号化時刻に必要なホットワード関連特徴を決定する過程は、
第2のアテンションモデルが、前記オーディオ関連特徴をクエリ項目とし、前記ホットワード特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を含むホットワードマッチング係数ベクトルを得ることと、
各ホットワードを現在の復号化時刻の復号化対象文字とする確率を加重係数とし、前記ホットワード特徴ベクトルシーケンスにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴を得ることとを含んでもよい。
【0160】
選択肢として、また、上記の共同注意モジュールは前記ホットワードマッチング係数ベクトルを前記分類器モジュールに送信してもよい。前記分類器モジュールは、具体的に、前記デコーダモジュールの現在の復号化時刻の出力特徴及び前記ホットワードマッチング
係数ベクトルを用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0161】
選択肢として、上記の分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含んでもよい。これに基づき、
分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定してもよい。前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0162】
具体的には、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点を決定してもよい。
【0163】
分類器モジュールは前記ホットワードマッチング係数ベクトルを用いて、前記各ホットワードノードの確率得点を決定する。
【0164】
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。
【0165】
選択肢として、本出願の装置はまた、モデル訓練ユニットを含んでもよく、
認識テキストを注釈する音声訓練データを取得し、
前記音声訓練データのオーディオ特徴を取得し、
前記音声訓練データの注釈テキスからランダムに選定した注釈セグメントを訓練ホットワードとし、
前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練するために使用される。
【0166】
選択肢として、上記のデータ取得ユニットが認識対象音声のオーディオ特徴を取得する過程は、
認識対象音声の次のいずれか一つのオーディオ特徴を取得することを含んでもよい。
フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴。
【0167】
本出願の実施例はまた、一つの電子設備を提供する。
図7は、当該電子設備の構造図を示す。当該電子設備は、少なくとも1つのプロセッサ1001、少なくとも1つの通信ポート1002、少なくとも1つのメモリ1003、少なくとも1つの通信バス1004を含んでもよい。
【0168】
本出願の実施例において、プロセッサ1001、通信ポート1002、メモリ1003、通信バス1004の数が少なくとも1つであり、且つプロセッサ1001、通信ポート1002、メモリ1003は、通信バス1004を介して相互通信を行う。
【0169】
プロセッサ1001は、1つの中央プロセッサCPU、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、又は本出願の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
【0170】
メモリ1003は、高速RAMメモリを含んでもよく、また、少なくとも1つのディスクメモリなどの不揮発性メモリ(non-volatile memory)などを含んでもよい。
【0171】
このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
【0172】
選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。
【0173】
本出願の実施例は、また、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるように適合されるプログラムを格納することができる。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
【0174】
さらに、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の音声認識方法のうち、いずれか一つの実施形態を実行させる。
【0175】
最後に、説明すべき点については、本明細書では、第一及び第二のような関係用語は、単に1つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、排他的ではない「含む」をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
【0176】
本明細書中の各実施例は、漸進的に説明されており、各実施例では、他の実施例との相違点に重点を置いて説明され、各実施例が場合によって相互に結合してもよく、同一で類似している部分は互いに参照すればよい。
【0177】
開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。