IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユニバーシティ オブ サイエンス アンド テクノロジー オブ チャイナの特許一覧 ▶ アイフライテック カンパニー,リミテッドの特許一覧

特表2024-530353音声認識方法、装置、設備及び記憶媒体
<>
  • 特表-音声認識方法、装置、設備及び記憶媒体 図1
  • 特表-音声認識方法、装置、設備及び記憶媒体 図2
  • 特表-音声認識方法、装置、設備及び記憶媒体 図3
  • 特表-音声認識方法、装置、設備及び記憶媒体 図4
  • 特表-音声認識方法、装置、設備及び記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-16
(54)【発明の名称】音声認識方法、装置、設備及び記憶媒体
(51)【国際特許分類】
   G10L 15/02 20060101AFI20240808BHJP
   G10L 15/16 20060101ALI20240808BHJP
【FI】
G10L15/02 300Z
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024514680
(86)(22)【出願日】2021-11-10
(85)【翻訳文提出日】2024-05-01
(86)【国際出願番号】 CN2021129733
(87)【国際公開番号】W WO2023035397
(87)【国際公開日】2023-03-16
(31)【優先権主張番号】202111042821.8
(32)【優先日】2021-09-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】501403265
【氏名又は名称】ユニバーシティ オブ サイエンス アンド テクノロジー オブ チャイナ
(71)【出願人】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】ファン,シン
(72)【発明者】
【氏名】リュウ,ジュンファ
(57)【要約】
本出願は、音声認識方法、装置、設備及び記憶媒体を提供し、ここで、方法は、対象混合音声の音声特徴及び指定された話者の話者特徴を取得することと、対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得ることと、指定された話者の抽出音声特徴に基づき、指定された話者の音声認識結果を取得することとを含み、ここで、対象音声特徴は、対象話者の実際の音声内容と一致する音声認識結果の取得に用いられる音声特徴である。本出願に係る音声認識方法により、指定された話者の音声を含む混合音声から、指定された話者の音声内容を正確的に認識でき、ユーザエクスペリエンスが良い。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声認識方法であって、
対象混合音声の音声特徴及び対象話者の話者特徴を取得することと、
前記対象話者の実際の音声内容と一致する音声認識結果の取得に用いられる音声特徴としての対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出し、前記対象話者の抽出音声特徴を得ることと、
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することと、
を含むことを特徴とする音声認識方法。
【請求項2】
前記対象話者の話者特徴を取得することは、
前記対象話者の登録音声を取得することと、
前記対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、得られたマルチスケール声紋特徴を前記対象話者の話者特徴とすることと、
を含むことを特徴とする請求項1に記載の音声認識方法。
【請求項3】
前記対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することは、
予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することを含み、
ここで、前記特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴及び前記指定された話者の話者特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであり、前記指定された話者の抽出音声特徴は前記訓練混合音声の音声特徴から抽出された前記指定された話者の音声特徴である、
ことを特徴とする請求項1に記載の音声認識方法。
【請求項4】
前記特徴抽出モデルは前記指定された話者の抽出音声特徴及び前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果の両方を最適化目標として訓練して得られたものであることを特徴とする請求項3に記載の音声認識方法。
【請求項5】
前記予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することは、
前記対象混合音声の音声特徴及び前記対象話者の話者特徴を前記特徴抽出モデルに入力し、前記対象話者に対応する特徴マスクを得ることと、
前記対象混合音声の音声特徴及び前記対象話者に対応する特徴マスクに基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することと、
を含むことを特徴とする請求項3又は4に記載の音声認識方法。
【請求項6】
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することは、
前記対象話者の抽出音声特徴及び前記対象話者の登録音声特徴に基づき、前記対象話者の音声認識結果を取得することを含み、
ここで、前記対象話者の登録音声特徴は、前記対象話者の登録音声の音声特徴であることを特徴とする請求項1に記載の音声認識方法。
【請求項7】
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することは、
少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得ることと、
前記音声認識モデルは、前記特徴抽出モデルと共同で訓練して得られたものであり、前記音声認識モデルは、前記指定された話者の抽出音声特徴を使用し、前記指定された話者の抽出音声特徴に基づき取得した音声認識結果を最適化目標として訓練して得られたものであることと、
を含むことを特徴とする請求項3又は4に記載の音声認識方法。
【請求項8】
前記音声認識入力特徴を前記音声認識モデルに入力し、前記対象話者の音声認識結果を得ることは、
前記音声認識モデルのエンコーダモジュールに基づき、前記音声認識入力特徴を符号化し、符号化結果を得ることと、
前記音声認識モデルのアテンションモジュールに基づき、前記符号化結果から復号化時刻の復号化に必要なオーディオ関連特徴ベクトルを抽出することと、
前記音声認識モデルのデコーダモジュールに基づき、前記符号化結果から抽出された前記オーディオ関連特徴ベクトルを復号化し、前記復号化時刻の認識結果を得ることと、
を含むことを特徴とする請求項7に記載の音声認識方法。
【請求項9】
前記音声認識モデルと前記特徴抽出モデルを共同で訓練するプロセスは、
特徴抽出モデルを使用し、前記訓練混合音声の音声特徴から前記指定された話者の音声特徴を抽出し、前記指定された話者の抽出音声特徴を得ることと、
音声認識モデル及び前記指定された話者の抽出音声特徴を使用し、前記指定された話者の音声認識結果を取得することと、
前記指定された話者の抽出音声特徴及び前記指定された話者の音声認識結果に基づき、特徴抽出モデルのパラメータを更新し、前記指定された話者の音声認識結果に基づき、音声認識モデルのパラメータを更新することと、
を含むことを特徴とする請求項7に記載の音声認識方法。
【請求項10】
前記訓練混合音声は前記指定された話者の音声に対応し、
前記指定された話者の抽出音声特徴及び前記指定された話者の音声認識結果に基づき、特徴抽出モデルのパラメータを更新し、前記指定された話者の音声認識結果に基づき、音声認識モデルのパラメータを更新することは、
前記指定された話者の音声の注釈テキストを取得し、前記指定された話者の音声の音声特徴を前記指定された話者の標準音声特徴として取得することと、
前記指定された話者の抽出音声特徴及び前記指定された話者の標準音声特徴に基づき、第1の予測損失を決定し、前記指定された話者の音声認識結果及び前記指定された話者の音声の注釈テキストに基づき、第2の予測損失を決定することと、
前記第1の予測損失及び前記第2の予測損失に基づき、特徴抽出モデルのパラメータを更新し、前記第2の予測損失に基づき、音声認識モデルのパラメータを更新することと、
を含むことを特徴とする請求項9に記載の音声認識方法。
【請求項11】
前記訓練混合音声及び前記訓練混合音声に対応する前記指定された話者の音声は、予め作られた訓練データセットから取得し、
前記訓練データセットの構築プロセスは、
注釈テキストをつけた単一の話者の音声からなる複数の話者からの複数の音声を取得することと、
前記複数の音声の一部又は全部のうちいずれか一つの音声を、指定された話者の音声と
し、別の音声の中の別の話者の一つ又は複数の音声を、当該指定された話者の音声と混合し、一つの訓練混合音声を得、当該指定された話者の音声を混合して得られた訓練混合音声と一つの訓練データとすることと、
得られたすべての訓練データは前記訓練データセットを構成することと、
を含むことを特徴とする請求項10に記載の音声認識方法。
【請求項12】
音声認識装置であって、
対象混合音声の音声特徴及び対象話者の話者特徴を取得するために用いられる特徴取得モジュールと、
対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出し、前記対象話者の抽出音声特徴を得る特徴抽出モジュールと、
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられる音声認識モジュールと、
を含み、
ここで、前記対象音声特徴は、前記対象話者の実際の音声内容と一致する音声認識結果の取得に用いる音声特徴である、
ことを特徴とする音声認識装置。
【請求項13】
前記特徴取得モジュールは、
前記対象話者の登録音声を取得し、前記対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、得られたマルチスケール声紋特徴を前記対象話者の話者特徴とするために用いられる話者特徴取得モジュールを含む、
ことを特徴とする請求項12に記載の音声認識装置。
【請求項14】
前記特徴抽出モジュールは、具体的に、予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出するために用いられ、
ここで、前記特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴及び指定された話者の話者特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであり、前記指定された話者の抽出音声特徴は前記訓練混合音声の音声特徴から抽出された前記指定された話者の音声特徴である、
ことを特徴とする請求項12に記載の音声認識装置。
【請求項15】
前記音声認識モジュールは、具体的に、前記対象話者の抽出音声特徴及び前記対象話者の登録音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられ、
ここで、前記対象話者の登録音声特徴は、前記対象話者の登録音声の音声特徴である、ことを特徴とする請求項12に記載の音声認識装置。
【請求項16】
前記音声認識モジュールは、少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得るために用いられ、
ここで、前記音声認識モデルは、前記特徴抽出モデルと共同で訓練して得られたものであり、前記音声認識モデルは、前記指定された話者の抽出音声特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものである、
ことを特徴とする請求項14に記載の音声認識装置。
【請求項17】
音声認識設備であって、
プログラムを格納するために用いられるメモリと、
前記プログラムを実行し、請求項1~11のいずれか1項に記載の音声認識方法の各ステップを実現するために用いられるプロセッサと、
を含むことを特徴とする音声認識設備。
【請求項18】
コンピュータプログラムを格納するコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~11のいずれか1項に記載の音声認識方法の各ステップを実現する、
ことを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年9月7日に中国特許局へ提出した出願番号CN202111042821.8、発明名称「音声認識方法、装置、設備及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
【0002】
本出願は、音声認識技術分野に属し、特に音声認識方法、装置、設備及び記憶媒体に関する。
【背景技術】
【0003】
人工知能技術の急速な発展に伴い、スマートデバイスは人々の生活においてますます重要な役割を演じており、音声対話は最も便利で自然なマンマシンインタラクション方式としてユーザに愛されている。
【0004】
ユーザがスマートデバイスを使用する場合、他の人の声が存在する複雑な環境にいる可能性があり、この場合、スマートデバイスによって収集される音声は混合音声である。音声対話を行う際に、良好なユーザエクスペリエンスを得るためには、混合音声から対象話者の音声内容を認識する必要があり、混合音声から対象話者の音声内容をどのように認識するかが緊急の課題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
この点を考慮して、本出願は、混合音声から対象話者の音声内容を正確的に認識する音声認識方法、装置、設備及び記憶媒体を提供し、その技術的解決手段は以下のとおりである。
【課題を解決するための手段】
【0006】
音声認識方法であって、
対象混合音声の音声特徴及び対象話者の話者特徴を取得することと、
前記対象話者の実際の音声内容と一致する音声認識結果の取得に用いる音声特徴としての対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出し、前記対象話者の抽出音声特徴を得ることと、
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することとを含む。
【0007】
選択肢として、前記対象話者の話者特徴を取得することは、
前記対象話者の登録音声を取得することと、
前記対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、得られたマルチスケール声紋特徴を前記対象話者の話者特徴とすることとを含む。
【0008】
選択肢として、前記対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することは、
予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することを含み、
ここで、前記特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴
及び前記指定された話者の話者特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであり、前記指定された話者の抽出音声特徴は前記訓練混合音声の音声特徴から抽出された前記指定された話者の音声特徴である。
【0009】
選択肢として、前記特徴抽出モデルは前記指定された話者の抽出音声特徴及び前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果の両方を最適化目標として訓練して得られたものである。
【0010】
選択肢として、前記予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することは、
前記対象混合音声の音声特徴及び前記対象話者の話者特徴を前記特徴抽出モデルに入力し、前記対象話者に対応する特徴マスクを得ることと、
前記対象混合音声の音声特徴及び前記対象話者に対応する特徴マスクに基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出することとを含む。
【0011】
選択肢として、前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することは、
前記対象話者の抽出音声特徴及び前記対象話者の登録音声特徴に基づき、前記対象話者の音声認識結果を取得することを含み、
ここで、前記対象話者の登録音声特徴は、前記対象話者の登録音声の音声特徴である。
【0012】
選択肢として、前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することは、
少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得ることと、
前記音声認識モデルは、前記特徴抽出モデルと共同で訓練して得られたものであり、前記音声認識モデルは、前記指定された話者の抽出音声特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであることとを含む。
【0013】
選択肢として、前記音声認識入力特徴を前記音声認識モデルに入力し、前記対象話者の音声認識結果を得ることは、
前記音声認識モデルのエンコーダモジュールに基づき、前記音声認識入力特徴を符号化し、符号化結果を得ることと、
前記音声認識モデルのアテンションモジュールに基づき、前記符号化結果から復号化時刻の復号化に必要なオーディオ関連特徴ベクトルを抽出することと、
前記音声認識モデルのデコーダモジュールに基づき、前記符号化結果から抽出された前記オーディオ関連特徴ベクトルを復号化し、前記復号化時刻の認識結果を得ることとを含む。
【0014】
選択肢として、前記音声認識モデルと前記特徴抽出モデルを共同で訓練するプロセスは、
特徴抽出モデルを使用し、前記訓練混合音声の音声特徴から前記指定された話者の音声特徴を抽出し、前記指定された話者の抽出音声特徴を得ることと、
音声認識モデル及び前記指定された話者の抽出音声特徴を使用し、前記指定された話者の音声認識結果を取得することと、
前記指定された話者の抽出音声特徴及び前記指定された話者の音声認識結果に基づき、特徴抽出モデルのパラメータを更新し、前記指定された話者の音声認識結果に基づき、音
声認識モデルのパラメータを更新することとを含む。
【0015】
選択肢として、前記訓練混合音声は前記指定された話者の音声に対応し、
前記指定された話者の抽出音声特徴及び前記指定された話者の音声認識結果に基づき、特徴抽出モデルのパラメータを更新し、前記指定された話者の音声認識結果に基づき、音声認識モデルのパラメータを更新することは、
前記指定された話者の音声の注釈テキストを取得し、前記指定された話者の音声の音声特徴を前記指定された話者の標準音声特徴として取得することと、
前記指定された話者の抽出音声特徴及び前記指定された話者の標準音声特徴に基づき、第1の予測損失を決定し、前記指定された話者の音声認識結果及び前記指定された話者の音声の注釈テキストに基づき、第2の予測損失を決定することと、
前記第1の予測損失及び前記第2の予測損失に基づき、特徴抽出モデルのパラメータを更新し、前記第2の予測損失に基づき、音声認識モデルのパラメータを更新することとを含む。
【0016】
選択肢として、前記訓練混合音声及び前記訓練混合音声に対応する前記指定された話者の音声は、予め作られた訓練データセットから取得され、
前記訓練データセットの構築プロセスは、
注釈テキストをつけた単一の話者の音声からなる複数の話者からの複数の音声を取得することと、
前記複数の音声の一部又は全部のうちいずれか一つの音声を、指定された話者の音声とし、別の音声の中の別の話者の一つ又は複数の音声を、当該指定された話者の音声と混合し、一つの訓練混合音声を得、当該指定された話者の音声を混合して得られた訓練混合音声と一つの訓練データとすることと、
得られたすべての訓練データは前記訓練データセットを構成することとを含む。
【0017】
音声認識装置であって、
対象混合音声の音声特徴及び対象話者の話者特徴を取得するために用いられる特徴取得モジュールと、
対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出し、前記対象話者の抽出音声特徴を得る特徴抽出モジュールと、
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられる音声認識モジュールとを含み、
ここで、前記対象音声特徴は、前記対象話者の実際の音声内容と一致する音声認識結果の取得に用いられる音声特徴である。
【0018】
選択肢として、前記特徴取得モジュールは、
前記対象話者の登録音声を取得し、前記対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、得られたマルチスケール声紋特徴を前記対象話者の話者特徴とするために用いられる話者特徴取得モジュールを含む。
【0019】
選択肢として、前記特徴抽出モジュールは、具体的に、予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出するために用いられ、
ここで、前記特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴及び指定された話者の話者特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであり、前記指定された話者の抽出音声特徴は前記訓練混合音声の音声特徴から抽出された前記指定された話者の音声特徴である。
【0020】
選択肢として、前記音声認識モジュールは、具体的に、前記対象話者の抽出音声特徴及び前記対象話者の登録音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられ、
ここで、前記対象話者の登録音声特徴は、前記対象話者の登録音声の音声特徴である。
【0021】
選択肢として、前記音声認識モジュールは、具体的に、少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得るために用いられ、
ここで、前記音声認識モデルは、前記特徴抽出モデルと共同で訓練して得られたものであり、前記音声認識モデルは、前記指定された話者の抽出音声特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものである。
【0022】
音声認識設備であって、
プログラムを格納するために用いられるメモリと、
前記プログラムを実行し、上記のいずれか1項に記載の音声認識方法の各ステップを実現するために用いられるプロセッサとを含む。
【0023】
可読記憶媒体は、コンピュータプログラムを格納し、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれか1項に記載の音声認識方法の各ステップを実現する。
【0024】
上述した解決手段から、本出願に係る音声認識方法、装置、設備及び記憶媒体は、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出できるため、抽出された対象話者の音声特徴に基づき、対象話者の音声認識結果を得る。また、本出願において、対象混合音声の音声特徴から対象話者の音声特徴を抽出する際に、対象音声特徴(対象話者の実際の音声内容と一致する音声認識結果を取得するために用いられる音声特徴)へのアプローチを抽出方向としているため、抽出された音声特徴は、対象音声特徴又は対象音声特徴に近い音声特徴であり、このように、上記方式を用いて抽出された音声特徴は、音声認識に有用な特徴であり、抽出された音声特徴に基づき、音声認識を行うことで、音声認識の好ましい効果、すなわち比較的に正確な音声認識結果が得られ、ユーザエクスペリエンスが良い。
【図面の簡単な説明】
【0025】
本願の実施例又は従来技術の技術案をより明確に説明するため、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本願の実施例に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。
【0026】
図1図1は、本出願の実施例に係る音声認識方法のフローチャートである。
図2図2は、本出願の実施例に係る特徴抽出モデルと音声認識モデルを共同で訓練するフローチャートである。
図3図3は、本出願の実施例に係る特徴抽出モデルと音声認識モデルを共同で訓練するプロセス概略図である。
図4図4は、本出願の実施例に係る音声認識装置の構造を示す図である。
図5図5は、本出願の実施例に係る音声認識設備の構造を示す図である。
【発明を実施するための形態】
【0027】
以下、本願の実施例の図面を併せて、本願の実施例における技術案を明確かつ詳細に説
明する。記載された実施例は本願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本願の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本願の保護範囲内にある。
【0028】
外界環境において、人々がさまざまな音源に囲まれている。例えば、複数の人が同時に発話する音声や交通騒音や自然騒音などがある。研究者のたゆまぬ努力によって、上述した背景騒音の分離課題、すなわち通常の意味での音声強調課題はよく解決されているようになるが、複数の人が同時に発話する場合、どのように対象話者の音声内容を認識するか、すなわち混合音声からどのように対象話者の音声の内容を認識するかはより難しい課題となり、更なる研究意義がある。
【0029】
混合音声から対象話者の音声内容を認識するためには、出願人は研究を行い、最初の構想は、まず特徴抽出モデルを訓練し、次に音声認識モデルを訓練することと、対象話者の登録音声を取得し、対象話者の登録音声から対象話者の話者特徴としてd-vectorを抽出することと、予め訓練された特徴抽出モデルに基づき、対象話者の話者特徴と対象混合音声の音声特徴を根拠とし、対象混合音声の音声特徴から対象話者の音声特徴を抽出することと、抽出された対象話者の音声特徴に対して一連の変換処理を行うことにより、対象話者の音声を得ることと、対象話者の音声を予め訓練して得られた音声認識モデルに入力し、音声認識を行い、対象話者の音声認識結果を得ることとを含む。
【0030】
出願人は上記の構想について研究を行った結果、上記の構想には次のような多くの欠陥があることを発見した。第一に、対象話者の登録音声から抽出されたd-vectorに含まれる声紋情報が不足し、その後の特徴抽出の効果に影響を与える。第二に、特徴抽出モデルと音声認識モデルは単独で訓練されたものであり、両者は完全に分断されているため、効果的な共同最適化が困難で、2つの独立訓練で得られたモデルをカスケードして音声認識を行うとカスケード誤差が存在し、音声認識の効果に影響する。第三に、フロントエンドの特徴抽出部から抽出された特徴が良くない場合、バックエンドの音声認識部で何の救済策を講じることなく、音声認識の効果が低くなるおそれがある。
【0031】
出願人は、上記の構想及び上記の構想に存在する欠陥を踏まえた上で、さらに研究を行った後、上記の欠陥を完全に克服する音声認識方法を提案する。当該音声認識方法は混合音声から対象話者の音声内容を正確に認識することができる。当該音声認識方法はデータ処理能力を備えた端末に適用され、端末は本出願に係る音声認識方法により、対象混合音声から対象話者の音声内容を認識することができる。当該端末は、処理コンポーネント、メモリ、入出力ポート及び電源コンポーネントを含むことができ、また、選択肢として、マルチメディアコンポーネント、オーディオコンポーネント、センサコンポーネント及び通信コンポーネントなどを含むことができる。ここで、処理コンポーネントはデータ処理に用いられ、本願の音声合成処理を行うことができ、一つ又は複数のプロセッサを含むことができる。また、処理コンポーネントは、別のコンポーネントとやり取りをするための一つ又は複数のモジュールを含むことができる。
【0032】
メモリは、さまざまなタイプのデータを格納するように構成され、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、光ディスクなどの一つ又は複数の組み合わせなど、任意のタイプの揮発性記憶装置或いは不揮発性記憶装置、又はそれらの組み合わせによって実装されてもよい。
【0033】
電源コンポーネントは、端末の各コンポーネントに電力を供給し、電源管理システム及
び一つ又は複数の電源などを含むことができる。
【0034】
マルチメディアコンポーネントはディスプレイを含むことができ、ディスプレイとしてユーザからの入力信号を受信するタッチディスプレイを使用することが好ましい。また、マルチメディアコンポーネントは前面カメラ及び/又は背面カメラを含むことができる。
【0035】
オーディオコンポーネントは、オーディオ信号を出力及び/又は入力するように構成され、例えば、外部オーディオ信号を受信するように構成されたマイクロホンを含むことができる。また、オーディオコンポーネントは、オーディオ信号及び端末によって合成された音声を出力するように構成されたスピーカを含むことができる。
【0036】
入力/出力ポートは、処理コンポーネントと周辺ポートモジュールとの間のポートであり、周辺ポートモジュールとしてはキーボードやボタンなどが挙げられる。ここで、ボタンは、ホームページボタン、ボリュームボタン、スタートボタン、ロックボタンなどを含むが、これらに限らない。
【0037】
センサコンポーネントは、端末にさまざまな側面の状態評価を提供するための一つ又は複数のセンサを含むことができ、例えば、センサコンポーネンは、端末の開閉状態、ユーザが端末に接触しているか否か、装置の方位、速度、温度等を検出することができる。センサコンポーネントは、図像センサ、加速度センサ、ジャイロスコープセンサ、圧力センサ、温度センサなどのうち一つ又は複数の組み合わせを含むが、これらに限らない。
【0038】
通信コンポーネントは、端末と別のデバイスとの有線又は無線通信を行うように構成されている。端末は、WiFi、2G、3G、4G、5Gのうち一つ又は複数の組み合わせなど、通信標準に基づく無線ネットワークにアクセスすることができる。
【0039】
選択肢として、端末は、本出願に係る同時通訳方法を実行するために、一つ又は複数の特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(ASP)、デジタルシグナルプロセッサデバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子部品によって実装されてもよい。
【0040】
本出願に係る音声認識方法はサーバにも使用されることができる。サーバは、本出願に係る音声認識方法により、対象混合音声から対象話者の音声内容を認識することができる。一つの実施態様において、サーバはネットワークを介して端末に接続され、端末で対象混合音声を取得し、サーバに接続されたネットワークを介して、対象混合音声をサーバに送信し、サーバでは本出願に係る音声認識方法により、対象混合音声から対象話者の音声内容を認識し、ネットワークを介して、対象話者の音声内容を端末に送信する。サーバは一つ以上のプロセッサ及びメモリを含むことができ、ここで、メモリは、さまざまなタイプのデータを格納するように構成され、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、光ディスクなどの一つ又は複数の組み合わせなど、任意のタイプの揮発性記憶装置或いは不揮発性記憶装置、又はそれらの組み合わせによって実装されてもよい。また、サーバは一つ以上の電源、一つ以上の有線ネットワークポート及び/又は一つ以上の無線ネットワークポート、一つ以上のオペレーティングシステムを含むことができる。
【0041】
次に、以下の実施例により、本出願に係る音声認識方法について説明する。
【0042】
(第1実施例)
図1は本出願の実施例に係る音声認識方法のフローチャートであり、当該方法は次のステップを含む。
【0043】
S101:対象混合音声の音声特徴及び対象話者の話者特徴を取得する。
【0044】
ここで、対象混合音声は複数の話者の音声であり、対象話者の音声のほか、別の話者の音声も含む。本出願は、別の話者の音声がある状況で、対象話者の音声内容を正確に認識することを目的とする。
【0045】
ここで、対象混合音声の音声特徴を取得するプロセスは、対象混合音声から各音声フレームの特徴ベクトル(スペクトル特徴など)を取得し、特徴ベクトルのシーケンスを得、得られた特徴ベクトルのシーケンスを対象混合音声の音声特徴とする。仮に対象混合音声がK個の音声フレームを含み、k番目の音声フレームの特徴ベクトルをxkで表すと、対象混合音声の音声特徴が[x1,x2,…,xk,…,xK]と表される。
【0046】
ここで、対象話者の話者特徴を取得する実施形態がいくつあるが、本実施例では選択肢として次のような二つの実施形態を提供する。一つの考えられる実施形態においては、対象話者の登録音声を取得し、対象話者の登録音声からd-vectorを抽出し、抽出されたd-vectorを対象話者の話者特徴とする。d-vectorに含まれる声紋情報が単純で豊富さが低いことを考慮し、その後の特徴抽出の効果を高めるためには、本実施例は別の好ましい実施形態を提供し、つまり、対象話者の登録音声を取得し、対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、マルチスケール声紋特徴を得、マルチスケール声紋特徴を対象話者の話者特徴とする。
【0047】
上記の第1の実施形態から得られた話者特徴に比べ、上記の第2の実施形態から得られた話者特徴のほうが豊富な声紋情報を有するため、その後、上記の第2の実施形態から得られた話者特徴を用いた特徴抽出を行うとより良い特徴抽出の効果が得られる。
【0048】
次に、上記の第2の実施形態において、「指定された話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出する」という具体的な実施プロセスについて説明する。
【0049】
対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出するプロセスは、予め作られた話者特徴づけ抽出モデルを使用し、対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出することを含むことができる。具体的に、対象話者の登録音声の音声特徴シーケンスを取得し、対象話者の登録音声の音声特徴シーケンスを予め作られた話者特徴づけ抽出モデルに入力し、対象話者の短時間の声紋特徴及び長時間の声紋特徴を取得する。
【0050】
選択肢として、話者特徴づけ抽出モデルは畳み込みニューラルネットワークを使用することができ、対象話者の登録音声の音声特徴シーケンスを畳み込みニューラルネットワークに入力し、特徴抽出を行い、浅い層の特徴及び深い層の特徴を得る。ここで、浅い層の特徴は、受容野が小さいため短時間の声紋を効果的に特徴づけるため、浅い層の特徴を短時間の声紋特徴とする。ただし、深い層の特徴は、受容野が大きいため長時間の声紋を効果的に特徴づけるため、深い層の特徴を長時間の声紋特徴とする。
【0051】
本実施例の話者特徴づけ抽出モデルは、実際の話者ラベルをつけた大量の訓練音声(ここの訓練音声は一人の話者の音声が好ましい)を使用し、訓練により得られたものである。ここで、訓練音声の実際の話者ラベルは、訓練音声に対応する話者を表す。選択肢として、交差エントロピー(Cross Entropy:CE)法則又は距離学習(Metric Learning:ML)
法則を使用して話者特徴づけ抽出モデルを訓練することができる。
【0052】
S102:対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得る。
【0053】
ここで、対象音声特徴は、対象話者の実際の音声内容と一致する音声認識結果を取得するために用いられる音声特徴である。
【0054】
対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴から対象音声特徴又は対象音声特徴に近い音声特徴を抽出することができ、つまり、対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴からその後の音声認識に有用な音声特徴を抽出することができ、音声認識に有用な音声特徴に基づき、音声認識を行うことで、よい音声認識効果が得られる。
【0055】
選択肢として、対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得るというプロセスは、予め作られた特徴抽出モデルを使用し、対象混合音声特徴及び対象話者特徴を根拠とし、対象混合音声特徴から指定された話者の音声特徴を抽出し、対象話者の抽出音声特徴を得ることを含むことができる。
【0056】
ここで、特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴及び指定された話者の話者特徴を使用し、指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものである。説明すべき点については、訓練段階において、上記の訓練混合音声の音声特徴及び指定された話者の話者特徴を特徴抽出モデルの入力とし、訓練混合音声特徴から抽出した指定された話者の音声特徴を出力とする。
【0057】
一つの考えられる実施形態においては、特徴抽出モデルを訓練する際に、指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標とする。指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として特徴抽出モデルを訓練することで、特徴抽出モデルに基づき、混合音声特徴から音声認識に有用な音声特徴を抽出することができる。
【0058】
特徴抽出の効果を高めるために、別の考えられる実施形態においては、特徴抽出モデルを訓練する際に、指定された話者の抽出音声特徴及び指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標とする。また、指定された話者の抽出音声特徴及び指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標とすることで、特徴抽出モデルに基づき、混合音声特徴から音声認識に有用な、かつ指定された話者の標準音声特徴に近い音声特徴を抽出することができる。説明すべき点については、対象話者の標準音声特徴とは、指定された話者の音声(きれいな音声)に基づいて取得された音声特徴をいう。
【0059】
S103:対象話者の抽出音声特徴に基づき、対象話者の音声認識結果を取得する。
【0060】
対象話者の抽出音声特徴に基づき、対象話者の音声認識結果を取得する実施形態がいくつあるが、一つの考えられる実施形態においては、対象話者の抽出音声特徴のみに基づき、対象話者の音声認識結果を取得することができる。音声認識の効果を高めるために、別の考えられる実施形態においては、対象話者の抽出音声特徴及び対象話者の登録音声特徴(対象話者の登録音声特徴とは、対象話者の登録音声の音声特徴をいう)に基づき、対象
話者の音声認識結果を取得することができる。ここで、対象話者の登録音声特徴は認識補助情報として音声認識の効果を高めることができる。
【0061】
具体的に、予め作られた音声認識モデルを使用し、対象話者の音声認識結果を取得することができ、より具体的に、対象話者の抽出音声特徴を音声認識入力特徴とし、又は対象話者の抽出音声特徴及び対象話者の登録音声特徴を音声認識入力特徴とし、音声認識入力特徴を予め作られた音声認識モデルに入力し、対象話者の音声認識結果を得る。
【0062】
説明すべき点については、対象話者の抽出音声特徴及び対象話者の登録音声特徴を音声認識入力特徴として音声認識モデルに入力するとき、対象話者の登録音声特徴は、対象話者の抽出音声特徴が不正確な場合、音声認識モデルの音声認識をアシストできるため、音声認識の効果を高める。
【0063】
好ましくは、音声認識モデルは、特徴抽出モデルと共同で訓練して得られたものであり、音声認識モデルは、上記の「指定された話者の抽出音声特徴」を訓練サンプルとし、指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものである。特徴抽出モデルを音声認識モデルと共同で訓練し、特徴抽出モデルを音声認識にとって有利な方向に向かって最適化できるようにする。
【0064】
本出願の実施例に係る音声認識方法は、対象混合音声の音声特徴から対象話者の音声特徴を抽出できるため、抽出された対象話者の音声特徴に基づき、対象話者の音声認識結果を得る。また、本出願の実施例において、対象混合音声の音声特徴から対象話者の音声特徴を抽出する際に、対象音声特徴(対象話者の実際の音声内容と一致する音声認識結果を取得するために用いる音声特徴)へのアプローチを抽出方向としているため、抽出された音声特徴は、対象音声特徴又は対象音声特徴に近い音声特徴であり、当該音声特徴に基づき、音声認識を行うことで、音声認識の好ましい効果、すなわち比較的に正確な音声認識結果が得られ、ユーザエクスペリエンスが良い。
【0065】
(第2実施例)
上述した実施例においては、対象混合音声の音声特徴から対象話者の音声特徴を抽出するために用いられる特徴抽出モデル、及び特徴抽出モデルで抽出された特徴に基づき対象話者の音声認識結果を取得するために用いられる音声認識モデルは、共同訓練方式により訓練して得られることを示している。本実施例は、特徴抽出モデルと音声認識モデルの共同訓練プロセスを中心に説明する。
【0066】
以下、図2をもとに、図3を参照しながら、特徴抽出モデル及び音声認識モデルの共同訓練プロセスについて説明する。特徴抽出モデル及び音声認識モデルの共同訓練プロセスは以下を含むことができる。
【0067】
S201:予め作られた訓練データセットSから訓練混合音声smを取得する。
【0068】
ここで、訓練データセットSは複数の訓練データを含み、各訓練データはいずれも指定された話者の音声(きれいな音声)を含み、当該指定された話者の音声の訓練混合音声も含む。ここで、指定された話者の音声に注釈テキスト(注釈テキストは指定された話者の音声の内容である)がある。
【0069】
訓練データセットSの構築プロセスは、
【0070】
ステップa1:複数の話者の複数の音声を取得する。
【0071】
本ステップで取得された複数の音声の各音声は一人の話者の音声であり、各音声には注釈テキストがある。仮に一人の話者の音声の内容を「今天天気不錯」とすると、当該音声の注釈テキストは「<s>、今、填、天、気、不、錯、</s>」になる。ここで、「<s>」は文の開始記号であり、「</s>」は文の終了記号である。
【0072】
説明すべき点については、複数の音声の数は複数の音声に対応する話者の人数と同じであってもよく、異なっていてもよい。仮にステップa1でP人の話者のQ件(複数件)の音声を取得すれば、PとQの関係はP=Q(例えば、話者aの一つの音声、話者bの一つの音声、話者cの一つの音声を取得する)であってもよく、P<Q(例えば、話者aの二つの音声、話者bの一つの音声、話者cの三つの音声を取得する)であってもよい。つまり、それぞれの話者から一つの音声を取得してもよく、複数の音声を取得してもよい。
【0073】
ステップa2:複数の音声の一部又は全部のうちいずれか一つの音声を、指定された話者の音声とし、別の音声の中の別の話者の一つ又は複数の音声を、当該指定された話者の音声と混合し、一つの訓練混合音声を得、当該訓練混合音声及び当該指定された話者の音声を一つの訓練データとする。
【0074】
例として、取得した複数の音声は話者aの一つの音声、話者bの一つの音声、話者cの一つの音声及び話者dの一つの音声を含み、ここで各音声はいずれも一人の話者のきれいな音声であり、話者aの音声を、指定された話者の音声とし、別の話者(一つ又は複数の話者)の音声を話者aの音声と混合し、一つの訓練混合音声を得る。例えば、話者bの音声を話者aの音声と混合し、又は、話者bの音声、話者cの音声を話者aの音声と混合し、話者aの音声と、話者aの音声を別の話者の音声と混合して得られた訓練混合音声とを一つの訓練データとする。同様に、話者bの音声を、指定された話者の音声とし、別の話者(一つ又は複数の話者)の音声を話者bの音声と混合し、一つの訓練混合音声を得る。また、話者bの音声と、話者bの音声を別の話者の音声と混合して得られた訓練混合音声とを一つの訓練データとする。以上のように複数の訓練データが得られる。
【0075】
説明すべき点については、指定された話者の音声を別の話者の音声と混合するとき、別の話者の音声の長さが指定された話者の音声の長さと異なる場合、別の話者の音声を、指定された話者の音声の長さと同じの長さになるよう処理しなければならない。仮に指定された話者の音声はK個の音声フレーム(すなわち、指定された話者の音声の長さをKとする)を含み、別の話者の音声の長さはKより大きければ、別の話者の音声の中のK+1番目の音声フレーム及び後ろの音声フレームを削除することができ、すなわち、前のK個の音声フレームを保持し、別の話者の音声の長さはKより小さく、Lとすると、前からK-L個の音声フレームをコピーして補足する。
【0076】
ステップa3:得られたすべての訓練データは訓練データセットを構成する。
【0077】
S202:訓練混合音声smの音声特徴を訓練混合音声特徴Xmとして取得するとともに、指定された話者の話者特徴を訓練話者特徴として取得する。
【0078】
第一実施例のように、まず話者特徴づけ抽出モデルをつくり、予め作られた話者特徴づけ抽出モデルを使用し、指定された話者の登録音声から話者特徴を抽出し、抽出した話者特徴を訓練話者特徴とする。図3に示すように、話者特徴づけ抽出モデル300を使用し、指定された話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、抽出した短時間の声紋特徴及び長時間の声紋特徴を、指定された話者の話者特徴とする。
【0079】
説明すべき点については、話者特徴づけ抽出モデルは特徴抽出モデル及び音声認識モデルを共同で訓練する前に予め訓練されたものであり、特徴抽出モデル及び音声認識モデル
の共同訓練段階では、そのパラメータが不変となり、特徴抽出モデル及び音声認識モデルのパラメータによって更新されない。
【0080】
S203:特徴抽出モデルを使用し、訓練混合音声特徴Xm及び訓練話者特徴を根拠とし、訓練混合音声特徴Xmから指定された話者の音声特徴を抽出し、指定された話者の抽出音声特徴
【数1】

とする。
【0081】
具体的に、まず訓練混合音声特徴Xm及び訓練話者特徴を特徴抽出モデルに入力し、指定された話者に対応する特徴マスクMを得た後、指定された話者に対応する特徴マスクMに基づき、訓練混合音声特徴Xmから指定された話者の音声特徴を抽出し、指定された話者の抽出音声特徴
【数2】

とする。
【0082】
図3に示すように、訓練混合音声特徴Xm及び訓練話者特徴を特徴抽出モデル301に入力し、特徴抽出モデル301は入力した訓練混合音声特徴Xm及び訓練話者特徴に基づき、指定された話者に対応する特徴マスクMを決定し、出力する。
【0083】
本実施例の特徴抽出モデル301としては、リカレントニューラルネットワーク(Recurrent Neural Network:RNN)、畳み込みニューラルネットワーク(Convolution Neural Network:CNN)、ディープニューラルネットワーク(Deep Neural Network:DNN)などが挙げられる。
【0084】
説明すべき点については、訓練混合音声特徴Xmは訓練混合音声の中の各音声フレームの特徴ベクトルからなる特徴ベクトルシーケンス[xm1,xm2,…,xmk,…,xmK](Kは訓練混合音声の音声フレームの総数)であり、訓練混合音声特徴Xm及び訓練話者特徴を特徴抽出モデル301に入力するとき、訓練話者特徴を訓練混合音声の中の各音声フレームの特徴ベクトルに結合することができ、結合した後、特徴抽出モデル301に入力することができる。例として、訓練混合音声の中の各音声フレームの特徴ベクトルを40次元とし、訓練話者特徴の短時間の声紋特徴及び長時間の声紋特徴をいずれも40次元とすると、訓練混合音声の中の各音声フレームの特徴ベクトルに短時間の声紋特徴及び長時間の声紋特徴を結合した後、120次元の結合特徴ベクトルを得る。指定された話者の音声特徴を抽出する際に、短時間の声紋特徴及び長時間の声紋特徴に入力情報の豊富さを加えることで、特徴抽出モデルが指定された話者の音声特徴を効果的に抽出することができる。
【0085】
本実施例においては、指定された話者に対応する特徴マスクMは、訓練混合音声特徴Xmに占める指定された話者の音声特徴の割合を特徴づけることができる。訓練混合音声特徴Xmを[xm1,xm2,…,xmk,…,xmK]と表し、指定された話者に対応する特徴マスクMを[m1,m2,……,mk,……,mK]と表すと、m1はxm1に占める指定された話者の音声特徴の割合を表し、m2はxm2に占める指定された話者の音声特徴の割合を表す。このような類推によると、mKはxmKに占める指定された話者の音声特徴の割合を表し、ここで、m1~mKは[0,1]の値である。指定された話者に対応する特徴マスクMを取得した後、訓練混合音声特徴Xmと指定され
た話者に対応する特徴マスクMをフレームごとに掛けあわせると、訓練混合音声特徴Xmから抽出した指定された話者の音声特徴
【数3】

が得られる。
【0086】
S204:指定された話者の抽出音声特徴
【数4】

を音声認識モデルに入力し、指定された話者の音声認識結果
【数5】

を得る。
【0087】
好ましくは、音声認識モデルの認識効果を高めるために、指定された話者の登録音声特徴(指定された話者の登録音声特徴は指定された話者の登録音声の音声特徴を意味する)Xe=[xe1,xe2,……,xek,……,xeK]を取得し、指定された話者の抽出音声特徴
【数6】

を音声認識モデルに入力するほか、指定された話者の登録音声特徴Xeも音声認識モデルに入力し、指定された話者の登録音声特徴Xeを使用し、音声認識モデルの音声認識をアシストする。
【0088】
選択肢として、本実施例の音声認識モデルは、エンコーダモジュール、アテンションモジュール及びデコーダモジュールを含んでもよい。ここで、エンコーダモジュールは、指定された話者の抽出音声特徴
【数7】

を符号化し、
【数8】

の符号化結果Hx=[h1 x,h2 x,……,hK x]を得ること、指定された話者の登録音声特徴Xeを符号化し、Xeの符号化結果He=[ h1 e,h2 e,……,hK e]を得ることに用いられる。説明すべき点については、指定された話者の抽出音声特徴
【数9】

のみを音声認識モデルに入力する場合、エンコーダモジュールは指定された話者の抽出音声特徴
【数10】

を符号化すればよい。
【0089】
エンコーダモジュールの入力は、指定された話者の抽出音声特徴
【数11】

及び指定された話者の登録音声特徴Xeを含む場合、一つの考えられる実施形態において、エンコーダモジュールには二つの符号化モジュールを配置してもよい。図3に示すように、エンコーダモジュールには第1の符号化モジュール3021及び第2の符号化モジュール3022を配置し、ここで、第1の符号化モジュール3021は指定された話者の抽出音声特徴
【数12】

を符号化し、第2の符号化モジュールは指定された話者の登録音声特徴Xeを符号化する。別の考えられる実施形態において、エンコーダモジュールには一つの符号化モジュールを配置し、指定された話者の抽出音声特徴
【数13】

に対する符号化操作及び指定された話者の登録音声特徴Xeに対する符号化操作はいずれもこの符号化モジュールによって実行され、すなわち、二つの符号化プロセスは一つの符号化モジュールを共有する。エンコーダモジュールの入力は、指定された話者の抽出音声特徴
【数14】

のみを含む場合、エンコーダモジュールには一つの符号化モジュールだけ配置すればよい。エンコーダモジュールに配置された符号化モジュールが一つか二つかにかかわらず、各符号化モジュールはすべて一層又は複数層の符号化層を含むことができ、符号化層としては単方向又は双方向の長・短期記憶ニューラルネットワークの長・短期記憶層、又は畳み込みニューラルネットワークの畳み込み層を使用してもよい。
【0090】
アテンションモジュールは、それぞれ指定された話者の抽出音声特徴
【数15】

の符号化結果Hx及び指定された話者の登録音声特徴Xeの符号化結果から復号化時刻の復号化に必要なオーディオ関連特徴ベクトルを抽出するために用いられる。
【0091】
復号化モジュールは、アテンションモジュールから抽出したオーディオ関連特徴ベクトルを復号化し、復号化時刻の認識結果を得るために用いられる。
【0092】
図3に示すように、アテンションモジュール3023はアテンションメカニズムに基づき、各復号化時刻にそれぞれ
【数16】

の符号化結果Hx=[h1 x,h2 x,……,hK x]及びXeの符号化結果He=[h1 e,h2 e,……,hK e]から現在の復号化時刻に必要なオーディオ関連特徴ベクトルを抽出する。t番目の復号化時刻には、抽出されたオーディオ関連特徴ベクトルはt番目の復号化時刻における復号化対象文字のオーディオ内容を特徴づける。
【0093】
説明すべき点については、アテンションメカニズムとは、一つのベクトルをクエリ項目(query)とし、一連の特徴ベクトルシーケンスに対しアテンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを出力とすることを意味する。具体的には、クエリ項目と特徴ベクトルシーケンスの各特徴ベクトルとのマッチング係数をそれぞれ計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけ、合計を求めて得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。
【0094】
t番目の復号化時刻には、アテンションモジュール3023はデコーダモジュール3024の状態特徴ベクトルdtをクエリ項目とし、dtとHx=[h1 x,h2 x,……,hK x]の各特徴ベクトルとのマッチング係数w1 x、w2 x、……、wK xを計算し、その後、マッチング係数w1 x、w2 x、……、wK xをHx=[h1 x,h2 x,……,hK x]に対応する特徴ベクトルにかけ、合計を求めて得られた特徴ベクトルをオーディオ関連特徴ベクトルct xとする。同様に、アテンションモジュール3023はdtとHe=[h1 e,h2 e,……,hK e]における各特徴ベクトルとのマッチング係数w1 e、w2 e、……、wK eを計算し、その後、マッチング係数w1 e、w2 e、……、wK eをHe=[h1 e,h2 e,……,hK e]に対応する特徴ベクトルにかけ、合計を求めて得られた特徴ベクトルをオーディオ関連特徴ベクトルct eとする。オーディオ関連特徴ベクトルct x及びct eを取得した後、オーディオ関連特徴ベクトルct x及びct eをデコーダモジュール3024に入力し復号化を行い、t番目の復号化時刻の認識結果を得る。
【0095】
ここで、デコーダモジュール3024の状態特徴ベクトルdtは、t-1番目の復号化時刻の認識結果yt-1及びアテンションモジュールから出力されたct-1 x及びct-1 eに基づいて決定される。選択肢として、デコーダモジュール3024は、複数のニューラルネットワーク層を含んでもよく、例えば、2層の単方向長・短期記憶層の場合は、t番目の復号化時刻において、デコーダモジュール3024の第1の長・短期記憶層はt-1番目の復号化時刻の認識結果yt-1及びアテンションモジュール3023から出力されたct-1 x及びct-1 eを入力として、デコーダの状態特徴ベクトルdtを求める。dtをアテンションモジュール3023に入力し、t番目の復号化時刻のct x及びct eの計算に使用する。その後、ct x及びct eを結合し、結合した後のベクトルをデコーダモジュール3024の第2の長・短期記憶層の入力として(例えば、ct x及びct eはいずれも128次元のベクトルであり、ct xとct eを結合すると、256次元の結合ベクトルを得る。256次元の結合ベクトルをデコーダモジュール3024の第2の長・短期記憶層に入力する)、デコーダの出力ht dを求める。最後、ht dから出力文字の事後確率を計算し、出力文字の事後確率に基づき、t番目の復号化時刻の認識結果を決定する。
【0096】
S205:指定された話者の抽出音声特徴
【数17】

及び指定された話者の音声認識結果
【数18】

に基づき、特徴抽出モデルのパラメータを更新し、指定された話者の音声認識結果
【数19】

に基づき、音声認識モデルのパラメータを更新する。
【0097】
具体的に、S205の実施プロセスは次を含むことができる。
【0098】
S2051:訓練混合音声smに対応する指定された話者音声st(指定された話者の音声)の注釈テキストTtを取得するとともに、指定された話者音声stの音声特徴を、指定された話者の標準音声特徴Xtとして取得する。
【0099】
説明すべき点については、ここの指定された話者音声st及び上記指定された話者の登録音声は指定された話者のそれぞれの音声である。
【0100】
S2052:指定された話者の抽出音声特徴
【数20】

及び指定された話者の標準音声特徴Xtに基づき、第1の予測損失Loss1を決定し、指定された話者の音声認識結果
【数21】

及び指定された話者音声stの注釈テキストTtに基づき、第2の予測損失Loss2を決定する。
【0101】
選択肢として、指定された話者の抽出音声特徴
【数22】

及び指定された話者の標準音声特徴Xtの最小平均二乗誤差を計算し、それを第1の予測損失Loss1とし、指定された話者の音声認識結果
【数23】

及び指定された話者音声stの注釈テキストTtに基づき、交差エントロピー損失を計算し、
それを第2の予測損失とする。
【0102】
S2053:第1の予測損失Loss1及び第2の予測損失Loss2に基づき、特徴抽出モデルのパラメータを更新し、第2の予測損失Loss2に基づき、音声認識モデルのパラメータを更新する。
【0103】
第1の予測損失Loss1及び第2の予測損失Loss2に基づき、特徴抽出モデルのパラメータを更新することにより、特徴抽出モデルにより、訓練混合音声特徴から指定された話者の標準音声特徴に近く、音声認識に有用な音声特徴を抽出することができ、当該音声特徴を音声認識モデルに入力し、音声認識を行うことで、よい音声認識効果が得られる。
【0104】
(第3実施例)
本実施例においては、上記第3実施例をもとに、第1実施例における「予め作られた特徴抽出モデルを使用し、対象混合音声特徴及び対象話者特徴を根拠とし、対象混合音声特徴から指定された話者の音声特徴を抽出し、対象話者の抽出音声特徴を得る」というプロセスについて説明する。
【0105】
予め作られた特徴抽出モデルを使用し、対象混合音声特徴及び対象話者特徴を根拠とし、対象混合音声特徴から指定された話者の音声特徴を抽出し、対象話者の抽出音声特徴を得るというプロセスは、次のようなステップを含むことができる。
【0106】
ステップb1:対象混合音声の音声特徴及び対象話者の話者特徴を特徴抽出モデルに入力し、対象話者に対応する特徴マスクを得る。
【0107】
ここで、対象話者に対応する特徴マスクは、対象混合音声の音声特徴に占める対象話者の音声特徴の割合を特徴付けることができる。
【0108】
ステップb2:対象話者に対応する特徴マスクに基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得る。
【0109】
具体的には、対象混合音声の音声特徴と対象話者に対応する特徴マスクとをフレームごとに掛けあわせ、対象話者の抽出音声特徴を得る。
【0110】
対象話者の抽出音声特徴が得られた後、対象話者の抽出音声特徴及び対象話者の登録音声特徴を音声認識モデルに入力し、対象話者の音声認識結果を得る。具体的には、対象話者の抽出音声特徴及び対象話者の登録音声特徴を音声認識モデルに入力し、対象話者の音声認識結果を得るというプロセスは、次のようなステップを含んでもよい。
【0111】
ステップc1:音声認識モデルのエンコーダモジュールに基づき、それぞれ対象話者の抽出音声特徴及び対象話者の登録音声特徴を符号化し、二つの符号化結果を得る。
【0112】
ステップc2:音声認識モデルのアテンションモジュールに基づき、それぞれ二つの符号化結果から復号化時刻の復号化に必要なオーディオ関連特徴ベクトルを抽出する。
【0113】
ステップc3:音声認識モデルのデコーダモジュールに基づき、それぞれ二つの符号化結果から抽出したオーディオ関連特徴ベクトルを復号化し、復号化時刻の認識結果を得る。
【0114】
説明すべき点については、対象話者の抽出音声特徴を音声認識モデルに入力し、前記対象話者の音声認識結果を得るというプロセスは、指定された話者の抽出音声特徴及び指定された話者の登録音声特徴を訓練段階で音声認識モデルに入力し、指定された話者の音声
認識結果を得るという実現プロセスと類似し、ステップc1~ステップc3の具体的な実現プロセスは、第2実施例においてエンコーダモジュール、アテンションモジュール及びデコーダモジュールに関する説明を参照できるので、本実施例では省略する。
【0115】
上記第1実施例~第3実施例から分かるように、本出願に係る音声認識方法は、次のようなメリットがある。第一に、本出願では、対象話者の登録音声からマルチスケール声紋特徴を抽出し、特徴抽出モデルに入力することで、特徴抽出モデルへ入力される情報の豊富さを増やし、特徴抽出モデルの特徴抽出効果を高める。第二に、特徴抽出モデル及び音声認識モデルを共同で訓練し、音声認識モデルの予測損失を特徴抽出モデルに適用するため、特徴抽出モデルが音声認識に有用な音声特徴を抽出でき、音声認識結果の正確さを高める。第三に、対象話者の登録音声の音声特徴を音声認識モデルの追加入力とし、特徴抽出モデルから抽出された音声特徴がよくない場合、音声認識モデルの音声認識をアシストし、比較的に正確な音声認識結果を得る。以上から、本出願に係る音声認識方法は、複雑な人声からの干渉がある場合でも、対象話者の音声内容を正確に認識することができる。
【0116】
(第4実施例)
また、本出願の実施例は音声認識装置を提供し、下記のように本出願の実施例に係る音声認識装置を説明し、下述した音声認識装置は上述した音声認識方法と互いに参照してもよい。
【0117】
図4は、本出願の実施例に係る音声認識装置の構造を示す図であり、
対象混合音声の音声特徴及び対象話者の話者特徴を取得するために用いられる特徴取得モジュール401と、
対象音声特徴へのアプローチを抽出方向とし、前記対象混合音声の音声特徴及び前記対象話者の話者特徴に基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出し、前記対象話者の抽出音声特徴を得る特徴抽出モジュール402と、
前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられる音声認識モジュール403とを含み、
ここで、前記対象音声特徴は、前記対象話者の実際の音声内容と一致する音声認識結果の取得に用いる音声特徴である。
【0118】
選択肢として、特徴取得モジュール401は、
対象混合音声の音声特徴を取得するために用いられる音声特徴取得モジュールと、
対象話者の話者特徴を取得するために用いられる者特徴取得モジュールとを含む。
【0119】
選択肢として、前記話者特徴取得モジュールは、対象話者の話者特徴を取得する際に、具体的に、前記対象話者の登録音声を取得し、前記対象話者の登録音声から短時間の声紋特徴及び長時間の声紋特徴を抽出し、得られたマルチスケール声紋特徴を前記対象話者の話者特徴とするために用いられる。
【0120】
選択肢として、特徴抽出モジュール402は、具体的に、予め作られた特徴抽出モデルを使用し、前記対象混合音声の音声特徴及び前記対象話者の話者特徴を根拠とし、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出するために用いられる。
【0121】
ここで、前記特徴抽出モデルは、指定された話者の音声を含む訓練混合音声の音声特徴及び指定された話者の話者特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものであり、前記指定された話者の抽出音声特徴は前記訓練混合音声の音声特徴から抽出された前記指定された話者の音声特徴である。
【0122】
選択肢として、前記特徴抽出モデルは前記指定された話者の抽出音声特徴及び前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果の両方を最適化目標として訓練して得られたものである。
【0123】
選択肢として、特徴抽出モジュール402は、
前記対象混合音声の音声特徴及び前記対象話者の話者特徴を前記特徴抽出モデルに入力し、前記対象話者に対応する特徴マスクを得るために用いられる特徴マスク決定サブモジュールと、
前記対象混合音声の音声特徴及び前記対象話者に対応する特徴マスクに基づき、前記対象混合音声の音声特徴から前記対象話者の音声特徴を抽出するために用いられる音声特徴抽出サブモジュールとを含み、
ここで、前記特徴マスクは、前記対象混合音声の音声特徴に占める対応する話者の音声特徴の割合を特徴付けることができる。
【0124】
選択肢として、音声認識モジュール403は、具体的に、前記対象話者の抽出音声特徴及び前記対象話者の登録音声特徴に基づき、前記対象話者の音声認識結果を取得するために用いられる。ここで、前記対象話者の登録音声特徴は、前記対象話者の登録音声の音声特徴である。
【0125】
選択肢として、音声認識モジュール403は、具体的に、少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得るために用いられる。
【0126】
ここで、前記音声認識モデルは、前記特徴抽出モデルと共同で訓練して得られたものであり、前記音声認識モデルは、前記指定された話者の抽出音声特徴を使用し、前記指定された話者の抽出音声特徴に基づいて取得された音声認識結果を最適化目標として訓練して得られたものである。
【0127】
選択肢として、音声認識モジュール403は、少なくとも前記対象話者の抽出音声特徴を含む音声認識入力特徴を予め作られた音声認識モデルに入力し、前記対象話者の音声認識結果を得る際に、具体的に、前記音声認識モデルのエンコーダモジュールに基づき、前記音声認識入力特徴を符号化し、符号化結果を得ることと、前記音声認識モデルのアテンションモジュールに基づき、前記符号化結果から復号化時刻の復号化に必要なオーディオ関連特徴ベクトルを抽出することと、前記音声認識モデルのデコーダモジュールに基づき、前記符号化結果から抽出した前記オーディオ関連特徴ベクトルを復号化し、前記復号化時刻の認識結果を得ることとに用いられる。
【0128】
選択肢として、本出願の実施例に係る音声認識装置は、さらにモデル訓練モジュールを含んでもよい。モデル訓練モジュールは、抽出音声特徴取得モジュール、音声認識結果取得モジュール、パラメータ更新モジュールを含んでもよい。
【0129】
前記抽出音声特徴取得モジュールは、特徴抽出モデルを使用し、前記訓練混合音声の音声特徴から前記指定された話者の音声特徴を抽出し、前記指定された話者の抽出音声特徴を得るために用いられる。
【0130】
前記音声認識結果取得モジュールは、音声認識モデル及び前記指定された話者の抽出音声特徴を使用し、前記指定された話者の音声認識結果を取得するために用いられる。
【0131】
前記モデル更新モジュールは、前記指定された話者の抽出音声特徴及び前記指定された話者の音声認識結果に基づき、特徴抽出モデルのパラメータを更新し、前記指定された話
者の音声認識結果に基づき、音声認識モデルのパラメータを更新するために用いられる。
【0132】
選択肢として、モデル更新モジュールは、注釈テキスト取得モジュール、標準音声特徴取得モジュール、予測損失決定モジュール及びパラメータ更新モジュールを含んでもよい。
【0133】
前記訓練混合音声は前記指定された話者の音声に対応する。
【0134】
前記標準音声特徴取得モジュールは、前記指定された話者の音声の音声特徴を前記指定された話者の標準音声特徴として取得するために用いられる。
【0135】
前記注釈テキスト取得モジュールは、前記指定された話者の音声の注釈テキストを取得するために用いられる。
【0136】
前記予測損失決定モジュールは、前記指定された話者の抽出音声特徴及び前記指定された話者の標準音声特徴に基づき、第1の予測損失を決定し、前記指定された話者の音声認識結果及び前記指定された話者の音声の注釈テキストに基づき、第2の予測損失を決定するために用いられる。
【0137】
前記パラメータ更新モジュールは、前記第1の予測損失及び前記第2の予測損失に基づき、特徴抽出モデルのパラメータを更新し、前記第2の予測損失に基づき、音声認識モデルのパラメータを更新するために用いられる。
【0138】
選択肢として、前記訓練混合音声及び前記訓練混合音声に対応する前記指定された話者の音声は、予め作られた訓練データセットから取得される。本出願の実施例に係る音声認識装置は、さらに訓練データセット構築モジュールを含んでもよい。
【0139】
前記訓練データセット構築モジュールは、注釈テキストをつけた単一の話者の音声からなる複数の話者からの複数の音声を取得することと、前記複数の音声の一部又は全部のうちいずれか一つの音声を、指定された話者の音声とし、別の音声の中の別の話者の一つ又は複数の音声を、当該指定された話者の音声と混合し、一つの訓練混合音声を得、当該指定された話者の音声と混合して得られた訓練混合音声を一つの訓練データとすることと、得られたすべての訓練データは前記訓練データセットを構成することとに用いられる。
【0140】
本出願の実施例に係る音声認識装置は、対象混合音声の音声特徴から対象話者の音声特徴を抽出できるため、抽出された対象話者の音声特徴に基づき、対象話者の音声認識結果を得る。また、本出願の実施例において、対象混合音声の音声特徴から対象話者の音声特徴を抽出する際に、対象音声特徴(対象話者の実際の音声内容と一致する音声認識結果を取得するために用いられる音声特徴)へのアプローチを抽出方向としているため、抽出された音声特徴は、対象音声特徴又は対象音声特徴に近い音声特徴であり、当該音声特徴に基づき、音声認識を行うことで、音声認識の好ましい効果、すなわち比較的に正確な音声認識結果が得られ、ユーザエクスペリエンスが良い。
【0141】
(第5実施例)
本出願の実施例はまた、音声認識装置を提供する。図5は、音声認識設備の構造図を示す。当該音声認識設備は、少なくとも1つのプロセッサ501、少なくとも1つの通信ポート502、少なくとも1つのメモリ503、少なくとも1つの通信バス504を含んでもよい。
【0142】
本出願の実施例において、プロセッサ501、通信ポート502、メモリ503、通信バス504の数が少なくとも一つであり、且つプロセッサ501、通信ポート502、メモリ503は、通信バ
ス504を介して相互通信を行う。
【0143】
プロセッサ501は、1つの中央プロセッサCPU、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、又は本発明の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
【0144】
メモリ503は、高速RAMメモリを含んでもよく、また、少なくとも1つのディスクメモリなどの不揮発性メモリ(non-volatile memory)などを含んでもよい。
【0145】
このうち、メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができ、前記プログラムは、対象混合音声の音声特徴及び対象話者の話者特徴を取得することと、対象話者の実際の音声内容一致の音声認識結果を取得するために用いられる音声特徴としての対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得ることと、前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することとに用いられる。
【0146】
選択肢として、前記プログラムの細分化機能及び拡張機能は上文の説明を参照してもよい。
【0147】
(第6実施例)
本出願の実施例はまた、可読記憶媒体を提供する。当該可読記憶媒体は、プロセッサによって実行されるように適合されるプログラムを格納することができる。前記プログラムは、対象混合音声の音声特徴及び対象話者の話者特徴を取得することと、対象話者の実際の音声内容一致の音声認識結果を取得するために用いられる音声特徴としての対象音声特徴へのアプローチを抽出方向とし、対象混合音声の音声特徴及び対象話者の話者特徴に基づき、対象混合音声の音声特徴から対象話者の音声特徴を抽出し、対象話者の抽出音声特徴を得ることと、前記対象話者の抽出音声特徴に基づき、前記対象話者の音声認識結果を取得することとに用いられる。
【0148】
選択肢として、前記プログラムの細分化機能及び拡張機能は上文の説明を参照してもよい。
【0149】
最後に、説明すべき点については、本明細書で、「第1」及び「第2」のような関連用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実体又は操作の間に何らかの実際の関連又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、非排他的包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
【0150】
本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例の間で同一で類似している部分は互いに参照すればよい。
【0151】
開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で
実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。
図1
図2
図3
図4
図5
【国際調査報告】