IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特表2024-538876音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図6
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図7
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図8
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図9
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図10
  • 特表-音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-24
(54)【発明の名称】音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/197 20130101AFI20241017BHJP
   G10L 15/16 20060101ALI20241017BHJP
【FI】
G10L15/197
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024524988
(86)(22)【出願日】2023-01-16
(85)【翻訳文提出日】2024-04-25
(86)【国際出願番号】 CN2023072417
(87)【国際公開番号】W WO2024045475
(87)【国際公開日】2024-03-07
(31)【優先権主張番号】202211064891.8
(32)【優先日】2022-09-01
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100090033
【弁理士】
【氏名又は名称】荒船 博司
(74)【代理人】
【識別番号】100093045
【弁理士】
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】シャオ, ジュンヤオ
(72)【発明者】
【氏名】ジャン, ジェンシアン
(72)【発明者】
【氏名】シエン, シェン
(72)【発明者】
【氏名】フー, シャオイン
(72)【発明者】
【氏名】ワン, ハイフォン
(72)【発明者】
【氏名】ジア, レイ
(57)【要約】
本開示は、音声認識方法、装置、機器及び媒体を提供し、人工知能分野に関し、具体的には、音声認識、自然言語処理及びディープラーニング等の技術分野に関する。方法の具体的な実現方式は、音響モデルを用いて認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得することと、第1言語サブモデルを用いて第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの初期言語確率を取得することと、制約サブモデルを用いて第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの第1テキストセグメントに対する拡張可能な関係を取得することと、拡張可能な関係に基づいて、候補テキストセグメントの初期言語確率を調整し、複数の候補テキストセグメントのそれぞれの第1言語確率を取得することと、第1言語確率及び音響確率に基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定することと、を含む。
【特許請求の範囲】
【請求項1】
音声認識方法であって、
音響モデルを用いて、認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの音響確率を取得することと、
言語モデルにおける第1言語サブモデルを用いて、前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、
前記言語モデルにおける制約サブモデルを用いて、前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれにおける前記第1テキストセグメントに対する拡張可能な関係を取得することと、
前記拡張可能な関係に基づいて、前記候補テキストセグメントの初期言語確率を調整し、複数の前記候補テキストセグメントのそれぞれの第1言語確率を取得することと、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することと、を含み、
ここで、前記制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られたものである
音声認識方法。
【請求項2】
言語モデルにおける第1言語サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
前記第1テキストセグメントに対して埋め込み処理を行い、テキスト埋め込み特徴を取得することと、
前記第1テキストセグメントが属するカテゴリの第1識別特徴を特定することと、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第1識別特徴を融合した後の特徴を処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含む
請求項1に記載の方法。
【請求項3】
前記言語モデルは、前記第1言語サブモデルと並列に設置された第2言語サブモデルをさらに含み、
前記方法は、
前記テキスト埋め込み特徴を前記第2言語サブモデルに入力し、前記第1テキストセグメントの第1暗黙表現を取得することをさらに含み、
前記第1言語サブモデルは、第1特徴抽出ネットワーク及び第1予測ネットワークを含み、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第1識別特徴を融合した後の特徴を処理して、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
前記テキスト埋め込み特徴および前記第1識別特徴を融合した特徴を前記第1特徴抽出ネットワークに入力し、第2暗黙表現を取得することと、
前記第1暗黙表現および前記第2暗黙表現を融合して得られた特徴を前記第1予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含み、
ここで、前記第2言語サブモデルは、複数の所定のカテゴリのサンプルテキストを用いてトレーニングして得られた
請求項2に記載の方法。
【請求項4】
前記第2言語サブモデルは、第2特徴抽出ネットワーク及び第2予測ネットワークを含み、
前記テキスト埋め込み特徴を前記第2言語サブモデルに入力して、前記第1テキストセグメントの第1暗黙表現を取得することは、前記テキスト埋め込み特徴を前記第2特徴抽出ネットワークに入力し、前記第2暗黙表現を取得することを含み、
前記方法は、
前記第2暗黙表現を前記第2予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの第2言語確率を取得することと、
前記第2言語確率、前記第1言語確率及び前記音響確率に基づいて、前記ターゲットテキストセグメントを特定することと、をさらに含む
請求項3に記載の方法。
【請求項5】
前記言語モデルは、前記第1言語サブモデルと並列に設置された第3言語サブモデルをさらに含み、
前記方法は、
識別すべき音声データのソースを示す第2識別特徴を特定することと、
前記第3言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第2識別特徴を融合した後の特徴を処理し、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することと、
前記第3言語確率、前記第1言語確率及び前記音響確率に基づいて、前記ターゲットテキストセグメントを特定することと、さらに含む
請求項3に記載の方法。
【請求項6】
前記第3言語サブモデルは、第3特徴抽出ネットワーク及び第3予測ネットワークを含み、
前記第3言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第2識別特徴を融合した特徴を処理して、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することは、
前記テキスト埋め込み特徴と前記第2識別特徴とを融合した特徴を前記第3特徴抽出ネットワークに入力し、第3暗黙表現を取得することと、
前記第1暗黙表現と前記第3暗黙表現とを融合して得られた特徴を前記第3予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することと、を含む
請求項5に記載の方法。
【請求項7】
前記第1テキストセグメントがテキストの開始識別子である場合、前記第1テキストセグメントが属するカテゴリは、複数の所定のカテゴリを含み、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴と前記第1識別特徴とを融合した特徴を処理して、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
各所定のカテゴリごとに、前記テキスト埋め込み特徴と前記各所定のカテゴリの識別特徴を融合し、第1融合特徴を取得することと、
前記第1言語サブモデルを用いて前記第1融合特徴を処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含む
請求項2に記載の方法。
【請求項8】
複数の前記候補テキストセグメントは、候補ワードを示す複数の第1候補セグメントを含み、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記第1テキストセグメントに基づいて所定のテキストリストをクエリし、前記複数の第1候補セグメントにおける第1指定セグメントを特定し、前記第1テキストセグメント及び前記第1指定セグメントが結合されたテキストが前記所定のテキストリストに属することと、
前記第1指定セグメントの第1言語確率と前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項1に記載の方法。
【請求項9】
前記所定のテキストリストは、複数のテキスト及び前記複数のテキストにおける各テキストの認識重みを含み、
前記認識重みは、テキストの認識難易度を指示し、
前記第1指定セグメントの第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することは、
前記所定のテキストリストにおける前記第1テキストセグメントと前記第1指定セグメントとが結合されたテキストが属する第1ターゲットテキストを特定することと、
前記第1ターゲットテキストの認識重み、前記第1指定セグメントの第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項8に記載の方法。
【請求項10】
複数の前記候補テキストセグメントは候補スロットを示す複数の第2候補セグメントをさらに含み、
前記候補スロットは、入りスロットを含み、
前記第1言語確率と前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記入りスロットにおける前記所定のテキストリストに属するターゲットスロットを特定することと、
前記言語モデルを用いて、前記ターゲットスロットの第3識別特徴とテキストの開始識別子に基づいて得られた特徴を処理して、複数の前記第1候補セグメントのそれぞれの前記ターゲットスロットに対する第4言語確率を取得することと、
前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、をさらに含む
請求項8に記載の方法。
【請求項11】
前記候補スロットは、出しスロットをさらに含み、
前記第1言語確率および前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記第1テキストセグメントが属するカテゴリの第1識別特徴と、前記第1テキストセグメントの最後の位置のテキストセグメントに対応するスロットの第4識別特徴とを融合し、第2融合特徴を取得することと、
前記言語モデルを用いて前記第2融合特徴を処理して、複数の前記第1候補セグメントのそれぞれの前記出しスロットに対する第5言語確率を取得するステップと、
前記第5言語確率、前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、をさらに含む
請求項10に記載の方法。
【請求項12】
前記入りスロットにおける前記所定のテキストリストに属するターゲットスロットを特定することは、
前記入りスロットにおける前記所定のテキストリストに属するスロットを特定し、初期スロットを取得することと、
前記初期スロットを示す第2候補セグメントの第1言語確率と、複数の前記第1候補セグメントの第1言語確率との差異に基づいて、前記初期スロットにおけるターゲットスロットを特定することと、を含み、
ここで、前記ターゲットスロットを示す第2候補セグメントの第1言語確率は、前記初期スロットにおける前記ターゲットスロット以外の他のスロットを示す第2候補セグメントの第1言語確率よりも大きい
請求項10に記載の方法。
【請求項13】
前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することは、
前記第1テキストセグメントに基づいて前記所定のテキストリストをクエリし、第2ターゲットテキストと前記複数の第1候補セグメントにおける第2指定セグメントとを取得し、前記第1テキストセグメントと前記第2指定セグメントに対応するターゲットスロットを示すターゲット候補セグメントとが結合されたテキストが前記第2ターゲットテキストに属することと、
前記第2ターゲットテキストの認識重みと前記ターゲット候補セグメントの第1言語確率に基づいて、前記ターゲット候補セグメントの初期確率を取得することと、
前記初期確率及び前記第2指定セグメントの第4言語確率に基づいて、前記第2指定セグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項10に記載の方法。
【請求項14】
前記テキストシーケンスに前記候補スロットに属するスロットテキストセグメントが含まれることに応答して、前記スロットテキストセグメントに基づいて前記候補スロットに対するテキストセグメントテーブルをクエリすることと、
前記スロットテキストセグメントが前記テキストセグメントテーブルに属さないことに応答して、前記テキストセグメントテーブルにおける前記スロットテキストセグメントとの類似度が最大であるテキストセグメントを候補セグメントとして特定することと、
前記候補セグメントを用いて前記テキストシーケンスにおける前記スロットテキストセグメントを置換し、前記認識すべき音声データに対する認識結果を取得することと、をさらに含む
請求項10に記載の方法。
【請求項15】
前記言語モデルを用いて第1ターゲット特徴を処理した回数が所定の回数に達したことに応答して、前記言語モデルによって前記第1ターゲット特徴を処理して得られた言語確率をキャッシュに記憶することと
前記言語モデルを用いて第2ターゲット特徴を処理する必要があることに応答して、前記第2ターゲット特徴に基づいて前記キャッシュをクエリすることと、
前記キャッシュに前記第2ターゲット特徴に対する言語確率が記憶されていることに応答して、前記キャッシュから前記第2ターゲット特徴に対する言語確率を読み取り、前記言語モデルを用いて前記第2ターゲット特徴を処理することを完成することと、をさらに含み、
ここで、前記第1ターゲット特徴及び前記第2ターゲット特徴は、前記第1テキストセグメントのテキスト埋め込み特徴、前記テキスト埋め込み特徴及びカテゴリの識別特徴が融合した後の特徴、前記テキスト埋め込み特徴及びデータのソースの識別特徴が融合した後の特徴、前記テキスト埋め込み特徴及びスロットの識別特徴が融合した後の特徴のうちのいずれか1つの特徴を含む
請求項10~13のいずれか一項に記載の方法。
【請求項16】
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定する操作は、電子機器に設けられたグラフィックプロセッサによって実行される
請求項10~13のいずれか一項に記載の方法。
【請求項17】
前記制約サブモデルをトレーニングするサンプルは、ポジティブサンプルとネガティブサンプルとを含み、
前記ポジティブサンプルは、前記所定のテキストセットにおけるテキストを含み、
前記ネガティブサンプルは、複数の前記候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得するという方式によって得られる
請求項1に記載の方法。
【請求項18】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しないテキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントと前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントとの間の混同関係に基づいて、前記第2テキストセグメントにおける置換すべきセグメントを特定することと、
前記置換すべきセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換し、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項19】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しないテキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換し、候補サンプルを取得することと、
前記候補サンプルにおける各サンプルについて、前記第1言語サブモデルを用いて処理し、前記各サンプルの第6言語確率を取得することと、
前記第6言語確率に基づいて前記候補サンプルをスクリーニングし、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項20】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換して、初期テキストを取得することと、
前記初期テキストにおける前記ターゲット位置の後のテキストセグメントを除去し、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項21】
音声認識装置であって、
音響モデルを用いて認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得する音響確率取得モジュールと、
言語モデルにおける第1言語サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得する初期確率取得モジュールと、
前記言語モデルにおける制約サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの前記第1テキストセグメントに対する拡張可能な関係を取得する拡張関係取得モジュールと、
前記拡張可能な関係に基づいて、前記候補テキストセグメントの初期言語確率を調整し、複数の前記候補テキストセグメントのそれぞれの第1言語確率を取得する確率調整モジュールと、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得するテキスト特定モジュールと、を含み、
ここで、前記制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られた
音声認識装置。
【請求項22】
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1~20のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される
電子機器。
【請求項23】
コンピュータ命令が記憶されている非一時的コンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~20のいずれか一項に記載の方法を実行させる
記憶媒体。
【請求項24】
プロセッサによって実行されると、請求項1~20のいずれか一項に記載の方法を実現するコンピュータプログラムを含む、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2022年9月1日に出願された、出願番号が202211064891.8である中国特許出願の優先権を要求し、その全ての内容が引用によって本願に組み込まれる。
【0002】
本開示は、人工知能分野に関し、特に、音声認識、自然言語処理及びディープラーニング等の技術分野に関し、特に音声認識方法、装置、機器及び媒体に関する。
【背景技術】
【0003】
コンピュータ技術及びネットワーク技術の発展に伴い、深層学習技術は多くの分野で広く利用されている。例えば、深層学習技術に基づいて構築された音響モデルを用いて音声を認識し、収集された音声をテキストに変換することができる。
【発明の概要】
【0004】
本開示は、音声認識方法、装置、機器及び媒体を提供することを目的とする。
【0005】
本開示の一態様によれば、音声認識方法であって、
音響モデルを用いて、認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得することと、
言語モデルにおける第1言語サブモデルを用いて、第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの初期言語確率を取得することと、
言語モデルにおける制約サブモデルを用いて第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれにおける第1テキストセグメントに対する拡張可能な関係を取得することと、
拡張可能な関係に基づいて、候補テキストセグメントの初期言語確率を調整し、複数の候補テキストセグメントのそれぞれの第1言語確率を取得することと、
第1言語確率及び音響確率に基づいて複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定して、認識すべき音声データに対するテキストシーケンスを取得することと、を含む音声認識方法を提供する。ここで、制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られたものである。
【0006】
本開示の別の態様によれば、音声認識装置であって、
音響モデルを用いて、認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得する音響確率取得モジュールと、
言語モデルにおける第1言語サブモデルを用いて、第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの初期言語確率を取得する初期確率取得モジュールと、
言語モデルにおける制約サブモデルを用いて第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの第1テキストセグメントに対する拡張可能な関係を取得する拡張関係取得モジュールと、
拡張可能な関係に基づいて、候補テキストセグメントの初期言語確率を調整し、複数の候補テキストセグメントのそれぞれの第1言語確率を取得する確率調整モジュールと、
第1言語確率及び音響確率に基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定して、認識すべき音声データに対するテキストシーケンスを取得するテキスト特定モジュールと、を含み、
ここで、制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られたものである音声認識装置を提供する。
【0007】
本開示の別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されるメモリとを含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサが本開示に係る音声認識方法を実行できるようにする電子機器を提供する。
【0008】
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的コンピュータ読取可能な記憶媒体であって、コンピュータ命令は、コンピュータに本開示に係る音声認識方法を実行させる記憶媒体を提供する。
【0009】
本開示の別の態様によれば、コンピュータプログラム/命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム/命令は、プロセッサによって実行されると、本開示に係る音声認識方法を実現するコンピュータプログラムを提供する。
【0010】
本部分に記載された内容は、本開示の実施例の重要な特徴を識別するためのものではなく、本開示の範囲を制限するものでもないことを理解されたい。本開示のその他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、本発明をより良く理解するためのものであり、本開示を限定するものではない。
図1図1は、本開示の実施例に係る音声認識方法及び装置の適用シーンの模式図である。
図2図2は、本開示の実施例に係る音声認識方法のフローチャート模式図である。
図3図3は、本開示の第1実施例に係る複数の候補テキストセグメントの初期言語確率を取得する原理模式図である。
図4図4は、本開示の第2実施例に係る複数の候補テキストセグメントの第1言語確率を取得する原理模式図である。
図5図5は、本開示の実施例に係る言語モデルの構造模式図である。
図6図6は、本開示の第1実施例に係るターゲットテキストセグメントを特定する原理模式図である。
図7図7は、本開示の第2実施例に係るターゲットテキストセグメントを特定する原理模式図である。
図8図8は、本開示の第3実施例に係るターゲットテキストセグメントを特定する原理模式図である。
図9図9は、本開示の実施例に係る制約サブモデルをトレーニングするためのネガティブサンプルの作成原理模式図である。
図10図10は、本開示の実施例に係る音声認識装置の構造ブロック図である。
図11図11は、本開示の実施例の音声認識方法を実施するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本開示の例示的な実施例を説明し、本開示の実施例の様々な詳細を含み、理解を容易にするために、これらは例示的なものに過ぎない。したがって、当業者は、ここに記載された実施例に対して、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔にするため、以下の説明では、公知の機能及び構造についての説明を省略する。
【0013】
通常、音声認識音響モデリング技術を用いて音声認識タスクを完成することができる。例えば、エンドツーエンドの注意力モデルを構築することにより、音声認識の正確率を向上させることができる。しかし、実際のサービスでは、モデリングによって得られた音響モデルのみに依存して認識タスクを実行し、特定のサービスによる音声認識の高精度へのニーズを満たすことが困難である。これは、音響モデルのトレーニングデータが一般に有限であり、多種多様なビジネス分野をカバーできないためである。また、各ビジネス分野のビジネス需要は、通常時事的な話題に伴って変化し、認識精度を向上させるために、通常、音響モデルを繰り返し更新する必要がある。しかし、音響モデルの更新コストが高く、更新周期が長いため、通常、正確率要求の変化速度に追従できない。
【0014】
これによると、言語モデルと音響モデルとを組み合わせて音声認識タスクを完成することができる。このように、言語モデルの膨大なトレーニングデータ量、速い更新速度という利点を介して、音響モデルの不足を補い、音声認識の高精度に対するサービスのニーズを満たす。
【0015】
ここで、言語モデルは、例えば、ニューラルネットワーク言語モデル(NeuralNetworkLanguageModel、NNLM)を採用することができる。該NNLMは、実質的にシーケンスモデルであり、直前のサイクルで予測して得られたテキストセグメントを含むテキストシーケンスを入力し、現在のサイクルで得られた複数の所定のテキストセグメントに対する確率分布を出力する。当該実施例は、確率分布に基づいて、確率値が最大である所定のテキストセグメントを現在のサイクルで予測して得られたテキストセグメントとすることができる。ここで、音響モデルは、注意力に基づく音響モデルであってもよい。ここで、各テキストセグメントは、1つのワードや、1つの単語や、1つの音節を有するテキスト又は1つのフレーズなどの任意の粒度のテキストであってもよい。
【0016】
本開示の実施例によれば、言語モデルと注意力に基づく音響モデルによる復号化アルゴリズムは、単一の音響モデルから出力された確率分布と単一のNNLMから出力された確率分布とを融合し、ビームサーチ(BeamSearch)方式を採用して、融合結果に基づいて単一の復号プロセスによって選択された候補パスを取得することができる。例えば、複数の所定のテキストセグメントがN個であり、ビームサーチに採用されるbeamが3であることを例として、1回目の復号化は、N個の所定のテキストセグメントから確率値が最も高い3つのセグメントを候補テキストセグメントとしてスクリーニングし、後続の各復号化は、3*N個のパスの中から確率の合計値が最も高い3つのパスを候補パスとしてスクリーニングし、スクリーニングされた候補パスがいずれもテキストエンド識別子<EOS>を含むか、又はスクリーニングされた候補パスにおけるテキストセグメントの長さがいずれも長さ閾値に達するまで、候補パスとして選択することができる。ここで、パスは、1回目の復号から現在の復号までによって得られた、セグメントが作成順に配列されたセグメントシーケンスによって表されてもよい。当該パスの確率合計値は、セグメントシーケンスにおける各セグメントの確率値の積、又はセグメントシーケンスにおける各セグメントの確率値の対数の和であってもよい。
【0017】
言語モデルと音響モデルを組み合わせた方式は、ある程度認識精度を向上させることができるが、この方式では、言語モデルから出力された確率分布に基づいて、復号パスの拡張をガイドする。閉集合の認識タスクに対して、最終的に認識されたテキストが閉集合認識タスクに設定されたテキストセットにおけるあるテキストであることを保証することができず、それにより、下流タスク(例えば認識されたテキストに基づいて検索し、音声応答を行うなどのタスク)の実施に影響を与える。即ち、この方式は、依然として認識精度が低く、認識タスクの完成効果が悪いという問題がある。
【0018】
これに基づいて、本開示は、認識結果が認識タスクに一致するように音声認識精度を向上させる音声認識方法及び装置を提供する。以下、まず、図1を参照して本開示に係る方法及び装置の適用シーンについて説明する。
【0019】
図1は、本開示の実施例に係る音声認識方法及び装置の適用シーンの模式図である。
【0020】
図1に示すように、当該実施例の応用シーン100は電子機器110を含んでもよく、当該電子機器110は処理機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、スマートウォッチ又はスマートスピーカなどを含むが、これらに限定されない。
【0021】
当該電子機器110は、例えば、取得された音声データ120を処理することができ、例えば、音声データ120に対して音声認識を行い、音声データ120をテキスト130に変換することができる。例えば、音声データ120は、収集された音声を処理して得られたデータであってもよい。収集された音声は、マイクロホンなどのオーディオコレクタを用いて収集されたユーザ音声であってもよい。
【0022】
一実施例において、電子機器110にオーディオコレクタが設置されてもよく、且つ該電子機器110に入力法、ブラウザ、スマートスピーカーAPP、車載APPなどの音声認識機能を有するクライアントアプリケーション(単なる例)がインストールされてもよく、電子機器110は音声認識により音声データを入力されたワードに変換して、情報クエリ、スマートスピーカー遠隔制御又は車両遠隔制御などを行うことができる。
【0023】
一実施例において、電子機器110は、エンドツーエンドモデル140を用いて音声認識タスクを完成することができる。ここで、エンドツーエンドモデル140は、例えば、上述の言語モデル及び音響モデルを含んでもよく、当該エンドツーエンドモデル140は、ビームサーチの方式を用いてテキスト130を取得してもよい。あるいは、エンドツーエンドモデル140は、上述したエンドツーエンドのストリーミング注意力モデルであってもよい。或いは、電子機器110は、以下に説明する音声認識方法を用いて音声認識タスクを完成してもよく、本開示はこれを限定しない。
【0024】
一実施例では、図1に示すように、アプリケーションシーン100は、サーバ150をさらに含み得る。サーバ150は、例えば、電子機器110におけるクライアントアプリケーションの実行をサポートするバックグラウンド管理サーバであってもよい。電子機器110は、ネットワークを介してサーバ150と通信接続されてもよく、ネットワークは、有線又は無線通信リンクを含んでもよい。
【0025】
例えば、サーバ150は、膨大なテキストサンプルに基づいて言語モデルをトレーニングし、音声-テキストペアに基づいて音響モデルをトレーニングしてもよい。サーバ150は、トレーニングして得られた言語モデル及び音響モデルをエンドツーエンドモデル140に構成し、具体的なシーンを参照して当該エンドツーエンドモデル140を微調整することができる。サーバ150は、例えば、電子機器110から送信された取得要求に応答して、電子機器110が当該エンドツーエンドモデル140を用いて音声認識タスクを完成するように、微調整されたエンドツーエンドモデル140を電子機器110に送信することができる。
【0026】
一実施例において、電子機器110は、取得した音声データ120をサーバ150に送信し、サーバ150がエンドツーエンドモデル140に基づいて音声データ120に対して音声認識を行い、テキスト130を取得することができる。
【0027】
なお、本開示に係る音声認識方法は、電子機器110によって実行されてもよく、サーバ150によって実行されてもよい。それに応じて、本開示に係る音声認識装置は、電子機器110に設けられてもよく、サーバ150に設けられてもよい。
【0028】
図1における電子機器110及びサーバ150の数及び種類は、単なる例示であることが理解されるべきである。必要に応じて、任意の数及び種類の電子機器110及びサーバ150を有してもよい。
【0029】
以下、図2図9を参照しながら、本開示に係る音声認識方法について詳細に説明する。
【0030】
図2は、本開示の実施例に係る音声認識方法のフローチャートである。
【0031】
図2に示すように、当該実施例の音声認識方法200は、操作S210-操作S250を含んでもよい。
【0032】
操作S210において、音響モデルを用いて認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの音響確率を取得する。
【0033】
本開示の実施例によれば、音響モデルは、ガウス混合モデル(GaussianMixedModel、GMM)と隠れマルコフモデル(HiddenMarkovModel、HMM)とからなるモデルを採用してもよく、ディープニューラルネットワーク(DeepNeuralNetworks、DNN)とHMMとからなるモデルを採用してもよい。音響モデルは、例えば、エンコーダおよびデコーダを含み取得することが理解されよう。エンコーダの入力は認識すべき音声データであり、抽出された音響特徴である。デコーダの入力は、音響特徴と、認識によって得られた第1テキストセグメントの埋め込み特徴とを含む。音響モデルの出力は、複数の候補テキストセグメントの確率分布であり、該確率分布は、複数の候補テキストセグメントのそれぞれの音響確率を含む。
【0034】
音声認識の初期段階において、認識によって得られた第1テキストセグメントはテキスト開始ワード<SOS>であってもよく、後続段階において、認識によって得られた第1テキストセグメントは、テキスト開始ワード<SOS>と、認識によって得られたテキストセグメントとからなるテキストセグメントシーケンスである。
【0035】
ここで、複数の候補テキストセグメントは、例えば、ワードライブラリにおける複数のワードであってもよい。ワードライブラリに含まれるワードは、実際のニーズに応じて設定することができ、本開示はこれを限定しない。
【0036】
操作S220において、言語モデルにおける第1言語サブモデルを用いて、第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの初期言語確率を取得する。
【0037】
操作S230において、言語モデルにおける制約サブモデルを用いて第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの第1テキストセグメントに対する拡張可能な関係を取得する。
【0038】
操作S240において、拡張可能な関係に基づいて候補テキストセグメントの初期言語確率を調整し、複数の候補テキストセグメントのそれぞれの第1言語確率を取得する。
【0039】
本開示の実施例によれば、言語モデルは、上記のNNLMを採用してもよく、N-gramモデルを採用してもよい。該実施例は、第1テキストセグメントを言語モデルに入力し、言語モデルにより複数の候補テキストセグメントの確率分布を出力し、該確率分布は複数の候補テキストセグメントのそれぞれの第1言語確率を含む。
【0040】
本開示の実施例によれば、言語モデルは、例えば、第1言語サブモデル及び制約サブモデルを含んでもよい。該第1言語サブモデルと制約サブモデルは並列に設置されてもよく、第1言語サブモデルは上記のNNLMを採用してもよい。制約サブモデルの構造はNNLMの構造と類似している。該第1言語サブモデル及び制約サブモデルの入力は、いずれも第1テキストセグメントの埋め込み特徴であってもよく、該2つのサブモデルのネットワーク構造は類似してもよく、相違点は、主に、第1言語サブモデルが第1テキストセグメントを処理して確率分布を取得することができ、第2言語サブモデルが第1テキストセグメントを処理することで、拡張可能な関係を表すベクトルを取得することができる。ここで、第1言語サブモデルにより得られた確率分布は、複数の候補テキストセグメントのそれぞれの言語確率を含み、該言語確率を初期言語確率としてもよい。拡張可能な関係を表すベクトルは、複数の要素を含み、各要素は、1つの候補テキストセグメントの第1テキストセグメントに対する拡張可能な関係を表す。ここで、拡張可能な関係は、候補テキストセグメントを第1テキストセグメントの直後のセグメントとして表すことができる。
【0041】
一実施例において、複数の要素における各要素の値は0又は1であり、0は拡張可能な関係がなく、1は拡張可能な関係を有することを示す。
【0042】
制約サブモデルの出力に基づいて、複数の候補テキストセグメントのそれぞれの第1テキストセグメントに対する拡張可能な関係を取得した後、当該拡張可能な関係に基づいて、候補テキストセグメントの初期確率を調整することができる。例えば、各候補テキストセグメントの第1テキストセグメントに対する拡張可能な関係を示す要素値を当該各候補テキストセグメントの初期言語確率に乗算して、当該各候補テキストセグメントの第1言語確率を取得することができる。或いは、各候補テキストセグメントの第1テキストセグメントに対する拡張可能な関係を示す要素値に対して対数を取って、当該各候補テキストセグメントの初期言語確率に対して対数を取って、得られた2つの対数を加算して、当該各候補テキストセグメントの第1言語確率としてもよい。
【0043】
一実施例において、制約サブモデルは、所定のテキストセットにおけるテキストトレーニングに基づいて得られたものであってもよい。ここで、所定のテキストセットは、閉集合認識タスクに設定されたテキストセットであってもよく、閉集合認識タスクは、実際のニーズに応じて設定されてもよい。
【0044】
操作S250において、第1言語確率及び音響確率に基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定して、認識すべき音声データに対するテキストシーケンスを取得する。
【0045】
本開示の実施例によれば、候補テキストセグメント毎に、第1言語確率と音響確率を加算又は乗算し、加算又は乗算して得られた値を当該候補テキストセグメント毎の確率値とすることができる。その後、当該実施例は、確率値が最も大きいテキストセグメントをターゲットテキストセグメントとして選択することができる。
【0046】
該ターゲットテキストセグメントを取得した後、該ターゲットテキストセグメントを認識によって得られた第1テキストセグメントに追加し、選択された確率値が最大となるテキストセグメントがテキストエンド識別特徴<EOS>であるか、又は確率値が最大であるテキストセグメントと第1テキストセグメントにおけるテキストセグメントとの合計が所定の数に達するまで、ステップS210-操作S250を引き続き実行することができる。
【0047】
一実施例において、ビームサーチの方式を用いて、確率合計値が大きい所定の数個(例えば、M個)のパスのうち最後の位置のセグメントをターゲットテキストセグメントとして特定することもできる。その後、各ターゲットテキストセグメントを第1テキストセグメントに追加し、M個の調整されたテキストセグメントを取得する。続いて、各調整されたテキストセグメントを1つの第1テキストセグメントとし、実行操作S210-操作S240に戻り、合計でM*N個の候補パスを取得する。続いて、M*N個の候補パスから、確率の合計値が最も高いM個のパスが選択される。このように類推して、スクリーニングされた候補パスがいずれもテキスト終了識別特徴<EOS>を含むか、又はスクリーニングされた候補パスにおけるテキストセグメントの長さがいずれも長さ閾値に達するまで繰り返す。最終的に、確率合計値が最も高い候補パス上のテキストセグメントから認識すべき音声データのテキストシーケンスを構成する。
【0048】
本開示の実施例は、言語モデルに候補テキストセグメントの第1テキストセグメントに対する拡張可能な関係を予測するための制約サブモデルを設定し、該拡張可能な関係に基づいて予測された初期言語確率を調整することにより、拡張可能な関係及び初期言語確率を組み合わせて復号パスの拡張をガイドすることができる。このように、制約サブモデルがニューラルネットワークモデルであり、閉集合認識タスクに設定されたテキストセットに基づいて複数の候補テキストセグメントにおける各セグメント同士の間の拡張可能な関係を学習した後、拡張可能な関係のガイドの下で、認識されたテキストを閉集合認識タスクにより設定されたテキストセットにおけるあるテキストであるようにすることができるため、認識精度を向上させ、認識タスクの完成効果を向上させ、下流タスクの実施に有利である。
【0049】
以下、図3図5を参照しながら、上記操作S220-操作S240の実施をさらに拡張して限定する。
【0050】
図3は、本開示の第1実施例に係る複数の候補テキストセグメントの第1言語確率を取得する原理模式図である。
【0051】
本開示の実施例によれば、言語モデルを用いて言語確率を取得する場合、例えば言語モデルの入力に対してカテゴリマークを追加してもよい。このように、言語モデルは、異なる種類のテキストに対して異なるパスのガイドを行うことができる。本開示の言語モデルは、複数の異なる種類のテキストを予測することができ、本開示の音声認識方法のロバスト性を向上させることに有利である。
【0052】
図3に示すように、当該実施例300において、候補テキストセグメントのそれぞれの初期言語確率を特定する際に、まず、第1テキストセグメント301を処理して、当該第1テキストセグメント301のテキスト埋め込み特徴302を取得することができる。例えば、word2vecメソッド又はワード表現のグローバルベクトル方法(GlobalVectorsforWordRepresentation、GloVe)などを用いて第1テキストセグメント301を処理することができる。
【0053】
テキスト埋め込み特徴302を得る任意のタイミングで、当該実施例は、さらに、第1テキストセグメントが属するカテゴリ303、及び当該所属するカテゴリ303の第1識別特徴304を特定することができる。理解できるように、第1テキストセグメントが属するカテゴリ303は、例えば、ユーザ操作に応答して特定されてもよく、又は、音声認識の初期段階において、複数の所定のカテゴリをいずれも第1テキストセグメントが属するカテゴリ303としてもよく、所定のカテゴリごとに1つの確率分布を取得してもよい。パスの拡張に伴い、選択されたパスに対応する所定のカテゴリを認識によって得られた第1テキストセグメントが属するカテゴリとすることができる。該実施例は、複数の所定のカテゴリのそれぞれに識別特徴を割り当てることができ、該実施例は、カテゴリの識別特徴を符号化することにより、カテゴリの第1識別特徴を取得することができる。
【0054】
テキスト埋め込み特徴302及び第1識別特徴304を取得した後、該実施例は、まず、該テキスト埋め込み特徴302及び第1識別特徴304を融合することができる。その後、融合によて得られた特徴を第1言語サブモデル320に入力し、第1言語サブモデル320を介して処理した後、言語確率分布305を取得することができる。言語確率分布305は、複数の所定のテキストセグメントの初期言語確率を含む。
【0055】
例示的に、テキスト埋め込み特徴302と第1識別特徴304を繋ぎ合わせて、両者の融合を実現することができる。あるいは、テキスト埋め込み特徴302と第1識別特徴304とが同じ次元を有すると設定してもよく、当該実施例は、加算器310を用いてテキスト埋め込み特徴302と第1識別特徴304とを加算することにより、両者の融合を実現してもよい。上記の融合方法は、単なる例として本開示を理解するのに有利であり、本開示はこれを限定しない。
【0056】
例示的に、第1言語サブモデル320は、NNLMモデルを採用してもよい。例えば、当該第1言語サブモデル320は、順次接続された入力層、隠れ層及び出力層を含んでもよく、ここで、入力層は、テキストを埋め込み特徴に変換するために用いられてもよく、理解すべきは、当該入力層は、上記で説明した第1テキストセグメントを処理して、テキスト埋め込み特徴を取得する機能と、垂直タイプに基づいて第1識別特徴を取得する機能と、テキスト埋め込み特徴及び第1識別特徴を融合する機能とを含んでもよい。隠れ層は、全結合層であってもよく、入力シーケンスにおける複数のデータ間のコンテキスト情報の学習を容易にするために、シーケンスネットワークと全結合層とからなるネットワーク構造であってもよい。ここで、シーケンスネットワークは、注意力メカニズムに基づくネットワーク(例えばTransformer)又は長短期記憶ネットワークLSTMなどを含んでもよく、本開示はこれを限定しない。出力層は、ソフトマックスなどのロジスティック回帰ネットワークを含んでもよい。
【0057】
図4は、本開示の第2実施例に係る複数の候補テキストセグメントの第1言語確率を取得する原理模式図である。
【0058】
本開示の実施例によれば、言語モデルにおいて、汎用の言語モデルブランチを1つ設けることができ、当該言語モデルブランチは、複数のカテゴリを用いたテキストトレーニングによって得られる。当該汎用の言語モデルによって分岐されたカテゴリの偏りが不足していることを考慮して、カテゴリに対する言語モデルは一般的にパラメータの数が高すぎて、当該実施例は両者を組み合わせて、汎用の言語モデルのブランチのパラメータをカテゴリに対する言語モデルに共有するとともに、カテゴリの言語モデルに対して一部のパラメータを追加的に追加して、カテゴリに対して個別の強化学習を行うことができる。すなわち、言語モデルには2つのブランチが設けられ、1つは汎用言語モデルブランチであり、1つはカテゴリに対する言語モデルブランチである。このように、言語モデルによるマルチドロー類の認識率を最適化した上で、モデルの体積が小さいことを保証し、それにより、モデル実行時の計算力のニーズを低減し、該実施例の方法のロバスト性を向上させることに役立つ。
【0059】
図4に示すように、この実施例400において、言語モデルは、第1言語サブモデル410と、第1言語サブモデル410と並列に設けられた第2言語サブモデル420と、制約サブモデル430とを含んでもよい。ここで、第1言語サブモデル410と制約サブモデル430は、カテゴリに対する言語モデル分岐を構成する。
【0060】
第1言語確率を取得する場合、該実施例は、テキスト埋め込み特徴401を第2言語サブモデル420に入力し、第2言語サブモデル420の隠れ層出力の第1暗黙表現を取得することができる。
【0061】
当該実施例は、テキスト埋め込み特徴401を、所属するカテゴリの第1識別特徴402と融合してから、第1言語サブモデル410に入力し、第1言語サブモデル410の隠れ層から出力された第2暗黙表現と前記第1暗黙表現とを融合することもできる。その後、融合された特徴を第1言語サブモデル410の出力層に入力し、該出力層から言語確率分布を出力することにより、複数の候補テキストセグメントのそれぞれの初期言語確率を取得する。
【0062】
該実施例は、テキスト埋め込み特徴401を第1標識特徴402と融合してから、制約サブモデル430に入力し、該制約サブモデル430から拡張可能な関係を表すベクトルを出力することもできる。該ベクトルを初期言語確率と融合層440に入力し、融合層440が拡張可能な関係を表すベクトルに基づいて初期言語確率を調整することにより、複数の候補テキストセグメントのそれぞれの第1言語確率403を出力する。
【0063】
ここで、第1言語サブモデルにおける隠れ層は、第1特徴抽出ネットワークとしてもよく、出力層は、第1予測ネットワークとしてもよい。第1予測ネットワークの入力は、第2暗黙表現と、第1暗黙表現融合後の特徴(例えば、加算器を用いて融合する)とを含み、第1予測ネットワークの出力は確率分布であり、拡張可能な関係を表すベクトルは、該確率分布における確率値の対数値を調整することであってもよい。本実施例では、確率値の対数値に基づいて言語確率を特定することにより、数値間の乗算関係を数値の対数間の加算関係に変換することができ、計算精度を保証することができる。電子機器は、通常、浮動小数点数の乗算の計算精度が比較的低く、加算の計算精度が高いためである。
【0064】
1つの具体的な実施例において、第1言語サブモデルはLSTM層、加算器、全結合層及びロジスティック回帰層(softmax)を含んでもよい。ここで、加算器は、全結合層とロジスティック回帰層との間に設けられてもよい。相応的に、LSTM及び全結合層は第1特徴抽出ネットワークを構成し、ソフトマックス層は第1予測ネットワークを構成する。一つの具体的な実施例において、加算器は、全結合層とロジスティック回帰層との間だけでなく、LSTM層と全結合層との間にも設けられる。相応的に、LSTM層、LSTM層と全結合層との間に設けられた加算器及び全結合層は第1特徴抽出ネットワーク411を構成し、全結合層とロジスティック回帰層との間に設けられた加算器及びロジスティック回帰層は第1予測ネットワーク412を構成することができる。ここで、LSTM層と全結合層との間の加算器は、第1暗黙表現とLSTM出力の特徴を融合し、全結合層とロジスティック回帰層との間の加算器は、第1暗黙表現と第2暗黙表現とを融合するために用いられる。このように、第1暗黙表現と第1言語サブモデルにおける特徴との十分な融合を実現し、第1言語サブモデルにおけるネットワークパラメータと第2言語サブモデルにおけるネットワークパラメータとの共有を強化し、得られた第1言語確率の精度を向上させ、音声認識精度を向上させることができる。
【0065】
一つの具体的な実施例において、第2言語サブモデル420はLSTM層、全結合層及びソフトマックス層を含んでもよい。LSTM層及び全結合層は、第2言語サブモデルの第2特徴抽出ネットワーク421を構成し、ソフトマックス層は、第2言語サブモデルの第2予測ネットワーク422を構成する。該実施例は、第1テキストセグメントのテキスト埋め込み特徴401を第2特徴抽出ネットワーク421に入力して第2暗黙表現を取得した後、該第2暗黙表現を第2予測ネットワーク422に入力し、該第2予測ネットワーク422から別の確率分布を出力することで、複数の候補テキストセグメントのそれぞれの第2言語確率404を取得することができる。最後に、該実施例は、第1言語確率403、第2言語確率404及び音響確率に基づいて、ターゲットテキストセグメントを特定することができる。具体的には、第1言語確率403及び第2言語確率404をそれぞれ音響確率に加算することができる。複数の所定のテキストセグメントがN個であると設定すると、合計で2*N個の加算後の確率値が得られる。その後、該2*N個の加算後の確率値からM個の大きい確率値を選択することにより、現在の復号により得られた候補パスを取得する。この方式により、本開示の実施例の方法を複数のカテゴリのシーンに適用するだけでなく、汎用の音声認識シーンに適用して、当該実施例の方法のロバスト性を向上させることができる。
【0066】
図5は、本開示の実施例に係る言語モデルの構造模式図である。
【0067】
本開示の実施例によれば、異なるソースの音声データとテキストとの関係を学習するための第1言語サブモデルと並列する第3言語サブモデルを言語モデルに設定することができる。該実施例は、第3言語サブモデルにより得られた言語確率と、カテゴリに対する言語モデルとを分岐して得られた言語確率を並列選択肢としてスクリーニングすることができる。このように、当該実施例の言語モデルは、異なるシーンの異なるカテゴリに適用でき、異なるカテゴリに対して別々にトレーニングする必要がなく、モデルのロバスト性を向上させ、モデルのトレーニングコストを低減することができる。
【0068】
図5に示すように、当該実施例500において、言語モデルは、第1言語サブモデル510、第2言語サブモデル520、制約サブモデル530及び第3言語サブモデル540を含んでもよい。ここで、第1言語サブモデル510、第2言語サブモデル520及び制約サブモデル530は、上述した図4における対応するモデルと類似するため、ここでは説明を省略する。
【0069】
該実施例500において、第3言語サブモデル540は、第1言語サブモデル510と類似しており、異なる点は、該第3言語サブモデルの入力は、認識すべき音声データのソースを表す第2識別特徴503及びテキスト埋め込み特徴501が融合した後の特徴である。
【0070】
それに応じて、当該実施例は、音声認識を行う際に、認識すべき音声データのソースを表す第2標識特徴503をさらに特定することができる。例えば、使用者が音声認識効果が悪いと特定した場合、トレーニングデータを提供することができる。当該実施例の方法は、当該ユーザに識別特徴を割り当て、当該ユーザによって提供されたトレーニングデータに基づいて第3言語サブモデルをトレーニングすることができる。実際の音声認識では、認識すべき音声のソースに基づいてユーザを特定し、当該特定したユーザに割り当てられた識別特徴を符号化することにより、第2標識特徴を取得することができる。ユーザは、音声認識機能を有する様々なクライアントアプリケーションであってもよいことが理解されよう。第2識別特徴は、クライアントアプリケーションの名称などを符号化することによって得られてもよく、本開示はこれを限定しない。
【0071】
第2識別特徴503を取得した後、当該実施例500においては、第3言語サブモデル540を用いて、テキスト埋め込み特徴501と第2識別特徴503とを融合した特徴を処理することができる。第1言語サブモデルが初期言語確率を取得する原理と類似する原理に基づいて、当該第3言語サブモデル540は確率分布を出力することができる。該確率分布における確率値に対して対数を取ることにより、複数の候補テキストセグメントのそれぞれの第3言語確率506を取得することができる。
【0072】
図5に示すように、上記の第1言語サブモデルと同様に、当該実施例500において、第3言語サブモデル540は、第3特徴抽出ネットワーク及び第3予測ネットワークを含んでもよい。該実施例は、テキスト埋込特徴501と第2標識特徴503とを融合した特徴を第3特徴抽出ネットワーク541に入力して、第3暗黙表現を取得することができる。その後、第1暗黙表現と第3暗黙表現とを融合して得られた特徴を第3予測ネットワーク542に入力し、第3予測ネットワーク542によって確率分布を出力する。該確率分布における確率値に対して対数を取ることにより、複数の候補テキストセグメントのそれぞれの第3言語確率506を取得することができる。
【0073】
第3言語確率506を取得した後、該実施例は、第3言語確率506、第1言語確率504及び音響確率に基づいて、ターゲットテキストセグメントを特定することができる。この原理は、上記第1言語確率、第2言語確率及び音響確率に基づいて、ターゲットテキストセグメントを特定する原理と類似するため、ここでは説明を省略する。
【0074】
一実施例では、第2言語サブモデル520が第2言語確率505を取得した上で、当該実施例500は、第1言語確率504、第2言語確率505、第3言語確率506及び音響確率に基づいて、ターゲットテキストセグメントを特定することができる。この原理は、上記第1言語確率、第2言語確率及び音響確率に基づいて、ターゲットテキストセグメントを特定する原理と類似するため、ここでは説明を省略する。
【0075】
言語モデルがシーケンスモデルであり、認識すべき音声を認識する場合、言語モデルにおける第1言語サブモデルの初期入力は、テキスト開始識別子<SOS>の埋め込み特徴とP個の所定のカテゴリの識別特徴とをそれぞれ加算することにより得られるP個の特徴を含むことが理解できる。第2言語サブモデルの初期入力は、テキスト開始識別子<SOS>の埋め込み特徴である。第3言語サブモデルの初期入力は、テキスト開始識別子<SOS>の埋め込み特徴と、認識すべき音声のソースを表す第2識別特徴とを加算した特徴である。言語モデルの処理を経て、(P+2)*N個の確率値が得られ、(P+2)*N個の拡張パスに対応する。該実施例は、該(P+2)*N個の拡張パスからM個の確率合計値が高いパスを選択することができる。このように、2回目の復号において、認識によって得られた第1テキストセグメントはM個のテキストセグメントを含み、テキスト開始識別子<SOS>と該M個の確率合計値が高いパスに対応するテキストセグメントとをそれぞれ組み合わせて得られる。続いて、当該M個のテキストセグメントをそれぞれ第2言語サブモデルに入力し、M*N個の拡張パスを取得し、当該M個のテキストセグメントをそれぞれM個の確率値が高いパスに対応するカテゴリの識別特徴と融合してから第1言語サブモデルに入力し、M*N個の拡張パスを取得する。M個のテキストセグメントをそれぞれ第2識別特徴特徴と融合した後に第3言語サブモデルを入力し、M*N個の拡張パスを取得し、合計で3M*N個の拡張パスを取得する。その後、当該3M*N個の拡張パスからM個の確率合計値が高いパスを選択し、これによって類推して、スクリーニングによって得られたM個のパスがいずれもテキスト終了識別特徴<EOS>を含むか、またはスクリーニングされたM個のパスにおけるテキストセグメントの長さがいずれも長さ閾値に達するまで、複数回の復号化を行う。最後に、確率合計値が最も高いパスに対応するテキストシーケンスを認識された認識すべき音声データのテキストシーケンスとする。i回目の復号において、スクリーニングされたパスに含まれるテキストセグメントの数は(i+1)であり、且つ該テキストセグメントにはテキスト開始識別子<SOS>が含まれることが理解できる。
【0076】
以下、上記操作S250の実施をさらに拡張して限定する。
【0077】
本開示の実施例によれば、閉集合認識タスクに対して、例えば、当該閉集合認識タスクに設定されたテキストセットに基づいて所定のテキストリストを設定することができる。ターゲットテキストセグメントを特定する際に、該所定のテキストリストに基づいて、複数の候補テキストセグメントからターゲットテキストセグメントを選択する。このように、認識されたテキストシーケンスからなるテキストを閉集合認識タスクに対して設定されたテキストセットに所属させることができ、この実施例の方法は、あるテキストを閉に集合させる能力を強制的に認識することができる。閉集合認識タスクがスマートスピーカーの音声認識タスクである場合、当該実施例の方法により、認識されたテキストシーケンスに含まれる曲名、歌手名などが既存の曲名、歌手名であることを保証し、認識結果に基づいてユーザに実際のニーズに合う音楽を再生することに有利である。
【0078】
当該実施例において、複数の候補テキストセグメントは、例えば、候補ワードを示す複数の第1候補セグメントを含んでもよく、候補ワードは、実際のニーズに応じて設定されてもよく、本開示はこれを限定しない。該実施例は、ターゲットテキストセグメントを特定する際に、まず、第1テキストセグメントに基づいて所定のテキストリストをクエリし、クエリ結果に基づいて、複数の第1候補セグメントのうちの第1指定セグメントを特定してもよい。例えば、所定のテキストリストを検索し、所定のテキストリストに当該第1テキストセグメントを含むテキストを第1テキストとして特定してもよい。例えば、設定テキストセットにテキスト「歌手Aの曲aを放送してください」が含まれ、第1テキストセグメントが「放~してください」であれば、当該テキスト「歌手Aの曲aを放送してください」が第1テキストであると特定することができる。続いて、当該実施例は、当該第1テキストにおける第1テキストセグメントの後のワード「送」を第1指定セグメントとしてもよい。すなわち、第1指定されたセグメントと第1テキストセグメントとが結合されたテキストは、所定のテキストリストに属する。
【0079】
第1指定セグメントを取得した後、当該実施例は、当該第1指定セグメントの第1言語確率及び音響確率に基づいて、複数の第1候補セグメントにおけるターゲットテキストセグメントを特定することができる。例えば、当該実施例は、第1指定セグメントの第1言語確率の対数値を音響確率の対数値に加算することができる。加算して得られた値を第1指定セグメントの第1テキストセグメントに対する確率値とする。第1テキストセグメントが1つのみである場合、当該実施例は、第1テキストセグメントに対する確率値が大きいM個の第1指定セグメントをターゲットテキストセグメントとしてもよい。第1テキストセグメントが複数である場合、まず、複数の第1テキストセグメントから、第1指定セグメントと結合されたテキストが所定のテキストリストに属する第2テキストセグメントを選択し、第1指定セグメントの第2テキストセグメントに対する確率値を当該第2テキストセグメントの確率値に乗算して、第1指定セグメントと第2テキストセグメントとをスティッチングして得られたテキストに対する確率値を取得することができる。最後に、該実施例は、確率値が最も高いM個のテキストのうちの第1指定セグメントをターゲットテキストセグメントとすることができる。
【0080】
一実施例において、例えば、所定のテキストリストにおける各テキストに識別重みを設定することができ、該識別重みは識別の難易度に基づいて特定することができる。例えば、認識重みは、認識の難易度と正の相関がある。ターゲットテキストセグメントを特定する際に、該認識重みと組み合わせて候補テキストセグメントをスクリーニングすることもでき、音声認識方法は認識難易度が高いテキストを認識しやすく、該音声認識方法の高難易度テキストに対する認識能力を強化する。識別重みは、例えば、実際のニーズに応じて設定及び修正されてもよく、本開示はこれを限定しない。
【0081】
図6は、本開示の第1実施例に係るターゲットテキストセグメントを特定する原理模式図である。
【0082】
図6に示すように、該実施例600は、ターゲットテキストセグメントを特定する際に、まず、第1テキストセグメント601に基づいて所定のテキストリスト602をクエリし、所定のテキストリスト602における該第1テキストセグメント601を含むテキストを第1テキスト603として特定してもよい。該実施例は、複数の第1候補セグメントに属し、且つ該第1テキスト603において第1テキストセグメント601に位置した後のテキストセグメントを第1指定セグメント604とすることができる。
【0083】
その後、該実施例は、第1テキストセグメント601と第1指定セグメント604とが接合されたテキストを接合後テキスト605として特定し、第1テキスト603における該接合後テキストを含む部分を第1ターゲットテキスト606とすることができる。最後に、該実施例は、該第1ターゲットテキスト606の認識重み、第1指定セグメント604の第1言語確率及び該第1指定セグメント604の音響確率に基づいて、ターゲットテキストセグメントを特定することができる。例えば、第1ターゲットテキスト606の認識重み、第1指定セグメント604の第1言語確率及び該第1指定セグメント604の音響確率の対数を加算し、該第1指定セグメント604の第1テキストセグメント601に対する確率値とし、その後、該確率値に基づいて、特定された第1指定セグメント604からターゲットテキストセグメントを選出することができる。
【0084】
本開示の実施例によれば、所定のテキストリストにおいて、例えば、テンプレート形式で所定のテキストを表し、所定のテキストにおけるエンティティ類テキストセグメントなどをスロットで表し、所定のテキストリストにおいて、スロットに対応するエンティティ類に含まれるエンティティをリストアップすることができ、これにより、音声の認識を精緻化するパス管理に有利であり、音声認識精度の向上に有利である。ここで、エンティティ類テキストセグメントは、例えば、曲名、アーティスト名、興味ポイント名称などを示すテキストセグメントを含んでもよく、異なるタイプのエンティティは1つのスロットに対応し、例えば、曲名カテゴリのエンティティに対応するスロットは[song]、楽曲名カテゴリのエンティティに対応するスロットは[singer]、興味ポイント名称カテゴリのエンティティに対応するスロットは[POI]などである。
【0085】
それに対応して、当該実施例は、マクログラフ図の復号化方法を用いて、テキストシーケンスを予測して取得することができる。ここで、大図面はテキストテンプレートに対応し、小図面はスロットに対応する。第1テキストセグメントの後のテキストセグメントが1つのスロットによって表されるエンティティである場合、当該実施例は、当該スロットの識別特徴に基づいてスロットに示されるエンティティを予測することができ、これにより、言語モデルを異なるスロットに対して予測することができ、予測されたターゲットテキストセグメントの精度を向上させることに役立つ。スロットの識別特徴を考慮することにより、言語モデルは、異なるスロットと予測されたテキストセグメントとの間のマッピング関係を学習できるためである。
【0086】
以下、図7を参照して、該実施例がターゲットテキストセグメントを特定する原理について詳細に説明する。
【0087】
図7は、本開示の第2実施例に係るターゲットテキストセグメントを特定する原理模式図である。
【0088】
図7に示すように、当該実施例700において、複数の候補テキストセグメントは、候補ワードを指示する複数の第1候補セグメントに加えて、候補スロットを指示する複数の第2候補セグメントを含む。ここで、候補スロットは、実際のニーズに応じて設定されてもよく、例えば、実際のシーンにおけるエンティティのカテゴリに基づいて候補スロットを設定してもよく、各カテゴリのエンティティは、1つの候補スロットに対応する。当該候補スロットにおける各カテゴリに対応するエンティティのスロットは、入りスロットとして理解されてもよく、予測過程において、エンティティへの予測が完了したことを示すための出しスロットがさらに設定されてもよい。
【0089】
当該実施例700において、言語モデルを用いて第1言語確率を取得した後、例えば、上記所定のテキストリストに基づいて第1指定セグメントを特定する類似方法を採用し、まず、所定のテキストリスト702に基づいて、入りスロット701における当該所定のテキストリスト702に属するターゲットスロット703を特定してもよい。この態様によれば、閉集合テキストを認識できない入りスロットをフィルタリングすることができる。具体的には、上述したように、所定のテキストリストにおけるテキストは、ワードとスロットとにより構成され、スロット対応位置は、所定のテキストにおけるエンティティが所在する位置である。該実施例は、所定のテキストリストにおけるテキストを構成するスロットを入りスロット701と比較して、ターゲットスロット703を取得することができる。
【0090】
続いて、当該実施例は、言語モデル710を用いて、当該ターゲットスロット703の第3識別特徴704及びテキストの開始識別子<SOS>705に基づいて得られた特徴を処理し、複数の第1候補セグメントの第4言語確率を取得することができる。該第4言語確率は、各候補ワードがターゲットスロット703におけるセグメントに属する確率を表すことができる。当該部分は、テキストの開始識別子の埋め込み特徴を用いて第1テキストセグメントのテキスト埋め込み特徴を代替し、ターゲットスロット703の第3識別特徴704を用いて第1テキストセグメントが所属するカテゴリの第1識別特徴を代替する復号化過程である。具体的には、本実施形態は、まず、ターゲットスロット703の第3識別特徴704を特定することができ、第3識別特徴704は、ターゲットスロット703に割り当てられた識別特徴によって符号化されてもよい。同時に、開始識別子<SOS>705を符号化して、開始識別子符号化特徴を取得することができる。続いて、該第3識別特徴704を開始識別子コード特徴に加算し、該ターゲットスロット703の第3識別特徴704とテキストの開始識別子<SOS>705に基づいて得られた特徴を取得し、該特徴は言語モデル710における第1言語サブモデル及び制約サブモデルの入力とすることができる。上記第1言語確率を取得する原理と類似する原理を用いて、第1候補セグメントのターゲットスロットに対する第4言語確率706を取得する。
【0091】
第4言語確率706を取得した後、当該実施例においては、第4言語確率706、第1言語確率及び音響確率に基づいて、第1候補セグメントにおけるターゲットテキストセグメントを特定することができる。例えば、ターゲットスロットの個数をQ個とし、各ターゲットスロットについて、当該実施例は、当該各ターゲットスロットの第3識別特徴に基づいて得られた第4言語確率と当該各ターゲットスロットの第2候補セグメントを示す第1言語確率とに基づいて、複数の第1候補セグメントを当該各ターゲットスロットにおけるテキストセグメントとする確率を特定することができる。例えば、各第1候補セグメントの第4言語確率を、当該各ターゲットスロットの第2候補セグメントを示す第1言語確率に乗算し、当該各第1候補セグメントを当該各ターゲットスロットにおけるテキストセグメントの確率としてもよい。複数の第1候補セグメントがN’個である場合、各ターゲットスロットに対して、N’個の確率が得られ、Q個のターゲットスロットについて、合計でQ*N’個の確率が得られる。該実施例は、該Q*N’個の確率とN’個の第1候補セグメントの第1言語確率とを確率セットに構成することができ、該確率セットは合計(Q+1)*N’個の確率を含む。
【0092】
該実施例700においては、例えば、(Q+1)*N’個の確率の対数値をそれぞれ第1候補セグメントの音響確率に対応する対数値に加算して、(Q+1)*N’拡張確率を取得することができる。該実施例においては、該(Q+1)*N’の拡張確率に基づいて、(Q+1)*N’の拡張確率に対応する(Q+1)*N’個のパスからM個のパスを選択し、M個のパスのうち最後の位置に対応するテキストセグメントをターゲットテキストセグメントとすることができる。
【0093】
本開示の実施例によれば、出しスロットについて、入りスロットに類似する方式により、ターゲットテキストセグメントを特定することができる。相違点は、出しスロットについて、入力言語モデル710の特徴において、第1テキストセグメントのテキスト埋め込み特徴の代わりに、飛び出したスロットの識別特徴、具体的には、第1テキストセグメントにおける最後の位置のテキストセグメントに対応するスロットの第4識別特徴である。第1識別特徴は、第1テキストセグメントが属するカテゴリの識別特徴であるべきである。該実施例は、第4標識特徴及び第1標識特徴を融合することにより、第2融合特徴を取得することができる。該第2融合特徴は、言語モデルの入力として、言語モデル処理によって複数の第1候補セグメントの出しスロットに対する第5言語確率を取得することができる。最後に、該実施例は、該第5言語確率、第1言語確率及び音響確率に基づいて、複数の第1候補セグメントにおけるターゲットテキストセグメントを特定することができる。
【0094】
例えば、当該実施例には、上記した方法を採用して、Q個のターゲットスロットについて、合計でQ*N’個の確率を取得することができる。当該実施例は、出しスロットを指示する第2テキストセグメントの第1言語確率を、各第1候補セグメントの出しスロットに対する第5言語確率に乗算し、当該各第1候補セグメントをスロットアウト後の最初のテキストセグメントとする確率として、N’個の第1候補セグメントについて、合計でN’個の確率を取得することができる。該実施例は、得られたQ*N’個の確率、N’個の第1候補セグメントをスロットの後の1番目のテキストセグメントのN’個の確率及びN’個の第1候補セグメントのN’個の第1言語確率として確率セットを構成することができ、該確率セットは合計(Q+2)*N’個の確率を含む。
【0095】
続いて、該実施例は、(Q+2)*N’個の確率の対数値をそれぞれ第1候補セグメントの音響確率に対応する対数値に加算して、(Q+2)*N’拡張確率を取得することができる。該実施例は、該(Q+2)*N’の拡張確率に基づいて、(Q+2)*N’の拡張確率に対応する(Q+2)*N’個のパスからM個のパスを選択し、M個のパスのうち最後の位置に対応するテキストセグメントをターゲットテキストセグメントとすることができる。
【0096】
本開示の実施例によれば、ターゲットスロット703を特定する際に、例えば、入りスロットにおける所定のテキストリストに属するスロットを初期スロットとすることができる。続いて、初期スロットを示す第2候補セグメントの第1言語確率と複数の第1候補セグメントの第1言語確率とを比較し、相対的に確率値が大きい第2候補セグメントが示す初期スロットをターゲットスロットとする。例えば、該実施例は、まず、複数の第1候補セグメントの第1言語確率のうち値が大きい所定の数の確率を特定し、次に、初期スロットを示す第2候補セグメントの第1言語確率と所定の数の確率のうちの最小確率とを比較し、ある初期スロットを示す第2候補セグメントの第1言語確率が最小確率より高いか、又は最小確率より低く且つ最小確率との差分絶対値が第1所定の閾値以下である場合、該ある初期スロットビットがターゲットスロットであると特定する。或いは、該実施例は、初期スロットを示す第2候補セグメントの第1言語確率と、複数の第1候補セグメントの第1言語確率における最大確率とを比較し、両者の差分絶対値が第2所定の閾値より小さければ、初期スロットビットがターゲットスロットビットであると特定することができる。上記の差異によってターゲットスロットを特定する方法は、本開示を理解しやすくするための例示に過ぎず、本開示はこれを限定しない。
【0097】
本開示の実施例は、複数の第1候補セグメントとの第1言語確率の差異に基づいてターゲットスロットを特定することにより、入りスロットに対して更なるスクリーニングを行うことができ、拡張された確率の小さいスロットを削除することにより、予測精度を保証するとともに、計算量を低減し、復号によりターゲットテキストセグメントの計算効率を取得することができる。
【0098】
図8は、本開示の第3実施例に係るターゲットテキストセグメントを特定する原理模式図である。
【0099】
本開示の実施例によれば、小図面に飛びて復号化する場合、例えば、所定のテキストリストにおいてテキストに割り当てられた識別重みを組み合わせて、ターゲットテキストセグメントをスクリーニングして取得してもよい。このように、音声認識方法は認識難易度が高いテキストを認識しやすく、当該音声認識方法の高難易度テキストに対する認識能力を強化することができる。
【0100】
例えば、上記の第4言語確率を取得した後、又は任意のタイミングで、第1テキストセグメントに基づいて所定のテキストリストをクエリし、第2ターゲットテキスト及び複数の第1候補セグメントのうちの第2指定セグメントを取得する。具体的には、まず、第1テキストセグメントと、各第1候補セグメントに対応するスロットを示す第2候補セグメントとをスティッチングして、複数のスティッチング後テキストを取得することができる。続いて、接合されたテキストに基づいて所定のテキストリストをクエリし、複数の接合されたテキストのうちのいずれかのテキストを含む所定のテキストを第2ターゲットテキストとして特定し、いずれかのテキストに含まれる指示スロットに対応する第1候補セグメントを第2指定セグメントとする。説明の便宜上、当該実施例は、第2指定セグメントに対応するスロットを示す第2候補セグメントをターゲット候補セグメントとしてもよい。
【0101】
続いて、該実施例は、第2ターゲットテキストの認識重みとターゲット候補セグメントの第1言語確率に基づいて、ターゲット候補セグメントの初期確率を特定することができる。例えば、第2ターゲットテキストの認識重みをターゲット候補セグメントの第1言語確率に乗算し、積を初期確率としてもよい。あるいは、第2ターゲットテキストの認識重みの対数値をターゲット候補セグメントの第1言語確率の対数値に加算して、初期確率を取得するが、本開示はこれを限定しない。
【0102】
初期確率を取得した後、該実施例には、初期確率と第2指定セグメントの第4言語確率に基づいて、該第2指定セグメントをターゲットスロットにおける最初のテキストセグメントとする確率を特定してもよく、例えば、初期確率を第2指定セグメントの第4言語確率の対数値に加算して、第2指定セグメントをターゲットスロットにおける最初のテキストセグメントとする確率を取得してもよい。確率は、上述したQ*N’個の確率のうちの対応する確率に置き換えることができる。
【0103】
以下、図8を参照して、一実例により、本開示の実施例において、ターゲットテキストセグメントを復号化する原理について詳細に説明する。
【0104】
図8に示すように、この実施例800において、ビームサーチ方式を用いて復号化を行うことにより、テキストシーケンスを取得する場合、ビームをMと設定すると、第1サイクルを除き、復号化過程における各サイクルにおける第1テキストセグメントの個数はM個である。候補ワードの数はN’個であり、候補スロットビットはQ’個の入りスロット及び1つの出しスロットを含む。M個の第1テキストセグメントにおけるテキストセグメント801に対して、当該実施例は、音響モデル810を用いてN’個の音響確率802を取得することができる。言語モデル820を用いると、N’個の候補ワードにそれぞれ対応するN’個の言語確率と、Q’個の入りスロットにそれぞれ対応する入り確率と、出しスロットに対応する出し確率と、合計(N’+Q’+1)個の言語確率803を取得することができる。
【0105】
また、当該実施例には、テキストセグメント801に基づいて所定のテキストリスト830をクエリし、クエリ取得情報804を取得することができ、当該情報804は、上述した第1ターゲットテキスト及びその認識重みw1と、上述した第2ターゲットテキスト及びその認識重みw2とを含むことができる。該実施例は、クエリにより得られた情報804に基づいて、予測して得られた言語確率に対応するテキストセグメントをスクリーニングすることにより、拡張可能なワード805、上述のターゲットスロット806及び出しスロット807を取得することができる。拡張可能なフィールドは、上述の第1指定されたセグメントであってもよいことが理解され取得する。出しスロット807の出し確率が、ターゲットスロット及び拡張可能なワードの確率よりも遥かに小さい場合、出しスロットを削除することもできる。ここで、拡張可能なワード805の拡張確率は、拡張可能なワードの音響確率の対数値、拡張可能なワードの言語確率の対数値と拡張可能なワードに対応する第1ターゲットテキストの識別重みw1との和で表されてもよい。ターゲットスロット806の拡張可能初期確率は、ターゲットスロット806の入り確率の対数値と、ターゲットスロットに対応する第2ターゲットテキストの識別重みw2との和で表すことができる。出しスロットの拡張初期確率は、出し確率の対数値で表される。
【0106】
該実施例においては、拡張可能なワード805を候補テキストセグメントとし、候補テキストセグメントとテキストセグメント801をスティッチングし、スティッチング後テキストをテキストセグメント801に対する第1候補プール808に加えることができる。
【0107】
ターゲットスロットに対して、当該実施例は、上述した類似方法を採用して、テキスト開始識別子の埋め込み特徴及びターゲットスロットの識別特徴を言語モデル820に入力し、小図面に飛びて復号化操作を行うことで、上記の第4言語確率を取得することができる。出しスロットについて、当該実施例は、上述した類似方法を採用して、第1テキストセグメントが属するカテゴリの識別特徴と、第1テキストセグメントにおける最後の位置のテキストセグメントに対応するスロットの識別特徴を言語モデル830に入力し、大図面に飛びて復号化操作を行うことにより、上述の第5言語確率を取得することができる。その後、当該実施例は、所定のテキストリストを検索することにより、リストにおけるテキストに基づいて第4言語確率及び第5言語確率を制約し、所定のテキストリストにおけるテキストに属するテキストセグメントをスクリーニングして取得し、当該テキストセグメントをテキストセグメント801と結合して第1候補プール808に加えることができる。
【0108】
類似の原理に基づいて、M個の第1テキストセグメントにおける各テキストセグメントに対して、M個の候補プールを取得することができる。当該実施例は、M個の候補プールから確率合計値が最大であるM個の候補テキストセグメントを選択し、次のサイクルにおけるM個の第1テキストセグメントとすることができる。選択されたM個の候補テキストセグメントのいずれにもテキストの終了識別特徴<EOS>が含まれ、又はM個の候補テキストセグメントにおけるテキストセグメントの個数がいずれも所定の個数に達する。
【0109】
以上から分かるように、本開示の実施例では、1回のサイクルにおいて、通常、言語モデルを用いて2回の計算を行う必要がある。計算効率を向上させるために、該実施例では、言語モデルを用いて第1ターゲット特徴を処理する回数が所定の回数に達した場合、言語モデルを第1ターゲット特徴に対して処理して得られた言語確率をキャッシュに記憶して、後続の呼び出しに備えることができる。それに応じて、言語モデルを用いてあるターゲット特徴(例えば、第2ターゲット特徴)を処理する必要があると特定した場合、まず、キャッシュを検索し、キャッシュに第2ターゲット特徴に対する言語確率が記憶されているか否かを特定し、ある場合、キャッシュから直接当該言語確率を読み取り、言語モデルによる第2ターゲット特徴に対する処理を完成し、言語モデルを用いて複雑な計算を行う必要がない。
【0110】
第1ターゲット特徴及び第2ターゲット特徴は、第1テキストセグメントのテキスト埋め込み特徴、テキスト埋め込み特徴及びカテゴリの識別特徴が融合した後の特徴、テキスト埋め込み特徴及びデータのソースの識別特徴が融合した後の特徴、テキスト埋め込み特徴及びスロットの識別特徴が融合した後の特徴のうちのいずれか1つの特徴を含んでもよいことが理解できる。即ち、該第1ターゲット特徴及び第2ターゲット特徴は、上記の入力言語モデルにおける隠れ層の任意の特徴であってもよく、本開示はこれを限定しない。
【0111】
一実施例において、グラフィックプロセッサGPUなどの高性能プロセッサを用いてターゲットテキストセグメントを特定する操作を実行してもよく、これにより、M個の第1テキストセグメントに対する計算またはターゲットテキストセグメントを特定するプロセスにおける任意の並列計算が、GPUなどにより並列的に実行されて、復号効率をさらに向上させ、音声認識効率を向上させることができる。
【0112】
本開示の実施例によれば、候補スロットに対してテキストセグメントテーブルを維持し、当該候補スロットに属するテキストセグメントを当該テキストセグメントテーブルに追加することができる。当該実施例では、テキストシーケンスを認識して取得した後、例えば、テキストシーケンスにおける候補スロットに属するスロットテキストセグメントと候補スロットのテキストセグメントテーブルにおけるテキストセグメントとを比較することができる。具体的には、テキストシーケンスに候補スロットに属するスロットテキストセグメントが含まれることに応答して、当該スロットテキストセグメントに基づいて候補スロットに対するテキストセグメントテーブルをクエリすることができる。スロットテキストセグメントが候補スロットに対するテキストセグメントテーブルに属さない場合、当該スロットテキストセグメントをスロットに対するテキストセグメントテーブルにおける各テキストセグメントと比較し、テキストセグメントテーブルにおけるスロットテキストセグメントとの類似度が最大であるテキストセグメントを候補セグメントとすることができる。続いて、当該候補セグメントを用いてテキストシーケンスにおけるスロットテキストセグメントを置換し、置換されたテキストセグメントを認識すべき音声データに対する認識結果とする。
【0113】
この方式により、テキストシーケンスにおける候補スロットにおけるテキストセグメントがテキストセグメントテーブルにおけるテキストセグメントであることを保証することができ、作成された認識結果におけるテキストセグメントが合理的なセグメントであることを確保することができる。例えば、スロットテキストセグメントが「モーメント果」である場合、クエリにより、「モーメント果」を「リンゴ」に置き換えることができ、それにより、作成された認識結果が妥当であり、認識結果の精度を向上させる。
【0114】
以下、図9を参照して、言語モデルにおける制約サブモデルをトレーニングする際に採用されるサンプルの作成を拡張及び限定して、制約サブモデルが閉集合の認識タスクにおける複数の候補テキストセグメントの間の拡張可能な関係を学習することができ、それにより、タスクの完了効果を向上させ、下流タスクの実施に有利である。
【0115】
図9は、本開示の実施例に係る制約サブモデルをトレーニングするためのネガティブサンプルの作成原理模式図である。
【0116】
本開示の実施例によれば、制約サブモデルをトレーニングするサンプルは、例えば、ポジティブサンプルとネガティブサンプルとを含むことができる。ここで、ポジティブサンプルは、所定のテキストセットにおけるテキストを含んでもよく、ネガティブサンプルは、所定のテキストセットにおけるテキスト以外の任意のテキストであってもよい。この方式により、制約サブモデルによって作成された拡張可能な関係を表すベクトルに基づいて、復号化過程において、所定のテキストセットテキストに属さないテキスト作成パスをトリミングすることができる。
【0117】
一実施例において、複数の候補テキストセグメントのうち、所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、所定のテキストセグメントを調整し、調整後のテキストをネガティブサンプルとすることができる。ここで、ターゲット位置は、所定のテキストにおける任意の位置であってもよい。この方式によりネガティブサンプルが作成され、ネガティブサンプルとポジティブサンプルとの区別がターゲット位置におけるテキストセグメントのみであるため、制約サブモデルの学習能力を向上させることができる。
【0118】
例えば、図9に示すように、該実施例900は、所定のテキストセット910からランダムに1つの所定のテキストをポジティブサンプル911として抽出することができる。該実施例は、該抽出された所定のテキストにおける最後の位置に排出された所定の数のテキストセグメントを除去し、得られたテキストもポジティブサンプルとすることができる。
【0119】
所定のテキストを抽出して取得した後、上記の第2テキストセグメント920を用いて該所定のテキストにおけるターゲット位置におけるテキストセグメントを置き換えることにより、ネガティブサンプル930を取得することができる。
【0120】
一実施例において、ターゲット位置は、例えば、所定のテキストの最後の位置であってもよく、このように、ネガサンプルとポジティブサンプルとが同じ接頭木を有し、復号化過程において、最後の1つのサイクルにおける所定のテキストセットテキストに属さないテキスト作成パスを効果的に裁断することができる。
【0121】
一実施例において、ターゲット位置はいずれの位置であってもよく、該実施例は、抽出された所定のテキストにおけるターゲット位置におけるテキストセグメントを第2テキストセグメント920で置換した後、該所定のテキストにおける該ターゲット位置に位置した後のテキストセグメントを除去して、ネガティブサンプルを取得することができる。
【0122】
当該実施例は、ターゲット位置の後のテキストセグメントを除去してネガティブサンプルを取得することにより、すべてのネガティブサンプルがポジティブサンプルと同じプレフィックスを有するようにすることができる。ターゲット位置を任意の位置に選択することにより、制約サブモデルは、所定のテキストにおける任意の2つのテキストセグメントの間の拡張可能な関係を学習することができ、復号パスのクリッピング精度及び有効性を向上させることに役立つ。
【0123】
一実施例において、第2テキストセグメントを用いて所定のテキストを調整する場合、例えば、まず、該第2テキストセグメントと所定のテキストにおけるターゲット位置におけるテキストセグメントとの間の混同関係に基づいて、第2テキストセグメントにおける置換すべきセグメントを特定することができる。その後、置換すべきセグメントを所定のテキストにおけるターゲット位置におけるテキストセグメントに置き換え、置き換え後のテキストをネガティブサンプルとすることができる。この方式により、作成されたネガサンプルを所定のテキスト(即ち、ポジティブサンプル)と混同されやすいテキストとすることができ、制約サブモデルの識別能力の向上に有利である。また、当該実施例における置換すべきセグメントの選択によって、ネガティブサンプルの数とネガティブサンプルの対性を効果的に減少させることができ、制約サブモデルのトレーニング効率を向上させることに役立つ。
【0124】
ここで、混同関係は、例えば、テキストセグメント間のテキスト類似度、音節類似度などで表されてもよく、類似度が高いほど、混同しやすくなる。
【0125】
一実施例において、ネガティブサンプルを作成する場合、例えば、まず、第2テキストセグメントを用いて所定のテキストにおけるターゲット位置におけるテキストセグメントを置換し、得られたテキストセグメントを候補サンプルとすることができる。その後、予めトレーニングされた、上記の第1言語サブモデルを用いて各候補サンプルを処理し、第1言語サブモデルを取得して当該各候補サンプルの言語確率を作成し、当該言語確率は、当該各候補サンプルにおける複数のテキストセグメントの複数の言語確率の積を順次作成することであってもよい。その後、当該実施例は、当該第6言語確率に基づいて候補サンプルをスクリーニングし、第6言語確率が確率閾値より高い候補サンプルをネガティブサンプルとすることができる。または、第6言語確率が高いいくつかの候補サンプルをネガティブサンプルとする。この方式により、ネガティブサンプルの規模を制御可能にすることができ、且つネガティブサンプルの作成パスを第1言語サブモデルにより復号化してテキストシーケンスの選択可能なパスを取得することを保証することができ、それにより、制約サブモデルに対して対性のトレーニングを行うことができ、制約サブモデルのトレーニング効率及びトレーニングにより得られた制約サブモデルの精度を向上させることができる。
【0126】
一実施例において、第6言語確率と混同関係とを組み合わせてネガティブサンプルの規模を制御することができるため、制約サブモデルのトレーニング効率及びトレーニング効果を向上させることができる。
【0127】
本開示に係る音声認識方法に基づいて、本開示は、音声認識装置をさらに提供する。以下、図10を参照しながら、当該装置について詳細に説明する。
【0128】
図10は、本開示の実施例による音声認識装置の構造ブロック図である。
【0129】
図10に示すように、該実施例の音声認識装置1000は、音響確率取得モジュール1010、初期確率取得モジュール1020、拡張関係取得モジュール1030、確率調整モジュール1040及びテキスト特定モジュール1050を含んでもよい。
【0130】
音響確率取得モジュール1010は、音響モデルを用いて認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得する。一実施例において、音響確率取得モジュール1010は、上記した操作S210を実行するように構成されてもよく、ここでは説明を省略する。
【0131】
初期確率取得モジュール1020は、言語モデルにおける第1言語サブモデルを用いて第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの初期言語確率を取得する。拡張関係取得モジュール1030は、言語モデルにおける制約サブモデルを用いて第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれにおける第1テキストセグメントに対する拡張可能な関係を取得する。確率調整モジュール1040は、拡張可能な関係に基づいて、候補テキストセグメントの初期言語確率を調整し、複数の候補テキストセグメントのそれぞれの第1言語確率を取得する。ここで、制約サブモデルは、所定のテキストセットにおけるテキストトレーニングに基づいて得られたものである。一実施例において、初期確率取得モジュール1020、拡張関係取得モジュール1030及び確率調整モジュール1040は、それぞれ上述した操作S220-操作S240を実行することができ、ここでは説明を省略する。
【0132】
テキスト特定モジュール1050は、第1言語確率及び音響確率に基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定して、認識すべき音声データに対するテキストシーケンスを取得する。一実施例において、テキスト特定モジュール1050は、上記した操作S250を実行するように構成されてもよく、ここでは説明を省略する。
【0133】
本開示の実施例によれば、上記初期確率取得モジュール1020は、第1テキストセグメントに対して埋め込み処理を行い、テキスト埋め込み特徴を取得するための埋め込み処理サブモジュールと、第1テキストセグメントが属するカテゴリの第1識別特徴を特定するための特徴特定サブモジュールと、第1言語サブモデルを用いてテキスト埋め込み特徴と第1識別特徴とを融合した後の特徴を処理して、複数の候補テキストセグメントのそれぞれの初期言語確率を取得するための第1確率特定サブモジュールと、を含んでもよい。
【0134】
本開示の実施例によれば、言語モデルは、第1言語サブモデルと並列に設けられた第2言語サブモデルをさらに含む。上記装置は、テキスト埋め込み特徴を第2言語サブモデルに入力し、第1テキストセグメントの第1暗黙表現を取得する暗黙表現取得モジュールをさらに含む。前記第1言語サブモデルは、第1特徴抽出ネットワーク及び第1予測ネットワークを含む。前記第1確率特定サブモジュールは、テキスト埋め込み特徴と第1識別特徴とを融合した特徴を第1特徴抽出ネットワークに入力し、第2暗黙表現を取得する暗黙表現取得手段と、第1暗黙表現と第2暗黙表現とを融合して得られた特徴を第1予測ネットワークに入力し、複数の候補テキストセグメントのそれぞれの初期言語確率を取得するための第1確率取得手段と、を含んでもよい。ここで、第2言語サブモデルは、複数の所定のカテゴリのサンプルテキストを用いてトレーニングして得られたものである。
【0135】
本開示の実施例によれば、上記第2言語サブモデルは、第2特徴抽出ネットワーク及び第2予測ネットワークを含む。前記暗黙表現取得モジュールは、テキスト埋め込み特徴を第2特徴抽出ネットワークに入力し、第2暗黙表現を取得する。上記装置1000は、第2暗黙表現を第2予測ネットワークに入力して、複数の候補テキストセグメントのそれぞれの第2言語確率を取得するための第1確率取得モジュールをさらに含んでもよい。前記テキスト特定モジュール1050は、さらに、第2言語確率、第1言語確率及び音響確率に基づいて、ターゲットテキストセグメントを特定するように構成される。
【0136】
本開示の実施例によれば、言語モデルは、第1言語サブモデルと並列に設けられた第3言語サブモデルをさらに含む。上記装置1000は、認識すべき音声データのソースを表す第2標識特徴を特定するための標識特徴特定モジュールと、第3言語サブモデルを用いてテキスト埋込特徴及び第2標識特徴を融合した後の特徴を処理して、複数の候補テキストセグメントのそれぞれの第3言語確率を取得するための第2確率取得モジュールと、を更に含んでもよい。前記テキスト特定モジュール1050は、さらに、第3言語確率、第1言語確率及び音響確率に基づいて、ターゲットテキストセグメントを特定するように構成される。
【0137】
本開示の実施例によれば、第3言語サブモデルは、第3特徴抽出ネットワーク及び第3予測ネットワークを含む。前記第2確率取得モジュールは、テキスト埋め込み特徴と第2識別特徴とを融合した特徴を第3特徴抽出ネットワークに入力し、第3暗黙表現を取得する暗黙表現取得サブモジュールと、融合第1暗黙表現と第3暗黙表現によって得られた特徴を第3予測ネットワークに入力し、複数の候補テキストセグメントのそれぞれの第3言語確率を取得するための第1確率取得サブモジュールと、を含んでもよい。
【0138】
本開示の実施例によれば、第1テキストセグメントがテキストの開始識別子である場合、第1テキストセグメントが属するカテゴリは、複数の所定のカテゴリを含む。上記第1確率特定サブモジュールは、所定のカテゴリごとに、テキスト埋め込み特徴と各所定のカテゴリの識別特徴を融合して、第1融合特徴を取得するための特徴融合手段と、第1言語サブモデルを用いて第1融合特徴を処理して、複数の候補テキストセグメントのそれぞれの初期言語確率を取得するための第2確率取得手段とを含むことができる。
【0139】
本開示の実施例によれば、複数の候補テキストセグメントは、候補ワードを示す複数の第1候補セグメントを含む。上記テキスト特定モジュール1050は、第1テキストセグメントに基づいて所定のテキストリストをクエリし、複数の第1候補セグメントにおける第1指定セグメントを特定するように構成された指定セグメント特定サブモジュールと、第1テキストセグメントと第1指定セグメントとが結合されたテキストが所定のテキストリストに属することを特定するように構成された第1セグメント特定サブモジュールと、第1指定セグメントの第1言語確率及び音響確率に基づいて、複数の第1候補セグメントにおけるターゲットテキストセグメントを特定するように構成された第1セグメント特定サブモジュールと、を含んでもよい。
【0140】
本開示の実施例によれば、所定のテキストリストには、複数のテキスト及び複数のテキストにおける各テキストの識別重みが含まれ、識別重みは、テキストの認識難易度を示す。上記第1セグメント特定サブモジュールは、所定のテキストリストにおける第1テキストセグメントと第1指定セグメントとが結合されたテキストが属する第1ターゲットテキストを特定するための第1特定手段と、第1ターゲットテキストの認識重みと、第1指定セグメントの第1言語確率と、音響確率とに基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定するための第2特定手段とを含む。
【0141】
本開示の実施例によれば、複数の候補テキストセグメントは、候補スロットを示す複数の第2候補セグメントをさらに含み、候補スロットは、入りスロットを含む。上記テキスト特定モジュール1050は、入りスロットにおける所定のテキストリストに属するターゲットスロットを特定するためのスロット特定サブモジュールと、言語モデルを用いて、ターゲットスロットの第3識別特徴及びテキストの開始識別子に基づいて得られた特徴を処理して、複数の第1候補セグメントのそれぞれにおけるターゲットスロットに対する第4の言語確率を取得するための第2確率特定サブモジュールと、第4の言語確率、第1言語確率及び音響確率に基づいて、複数の第1候補セグメントにおけるターゲットテキストセグメントを特定するための第2セグメント特定サブモジュールと、を含んでもよい。
【0142】
本開示の実施例によれば、候補スロットは、出しスロットをさらに含む。上記テキスト特定モジュール1050は、さらに、第1テキストセグメントが属するカテゴリの第1識別特徴と、第1テキストセグメントにおける最後の位置のテキストセグメントに対応するスロットの第4の識別特徴とを融合して、第2融合特徴を取得する融合サブモジュールと、言語モデルを用いて第2融合特徴を処理して、複数の第1候補セグメントのそれぞれの出しスロットに対する第5言語確率を取得するための第2確率特定サブモジュールと、第5言語確率、第4の言語確率、第1言語確率及び音響確率に基づいて、複数の第1候補セグメントにおけるターゲットテキストセグメントを特定するための第3セグメント特定サブモジュールと、を含んでもよい。
【0143】
本開示の実施例によれば、上記スロット特定サブモジュールは、入りスロットにおける所定のテキストリストに属するスロットを特定し、初期スロットを取得するように構成される初期スロット特定手段と、初期スロットを示す第2候補セグメントの第1言語確率と複数の第1候補セグメントの第1言語確率との差異に基づいて、初期スロットにおけるターゲットスロットを特定するように構成されるターゲットスロット特定手段とを含むことができる。ここで、ターゲットスロットを示す第2候補セグメントの第1言語確率は、初期スロットにおけるターゲットスロット以外の他のスロットを示す第2候補セグメントを示す第1言語確率より大きい。
【0144】
本開示の実施例によれば、上記第2セグメント特定サブモジュールは、第1テキストセグメントに基づいて所定のテキストリストをクエリして、第2ターゲットテキストと複数の第1候補セグメントにおける第2指定セグメントとを取得するように構成された第3特定手段と、第2指定セグメントに対応するターゲットスロットに対応するターゲット候補セグメントがスティッチングされたテキストが第2ターゲットテキストに属することを示す第1テキストセグメントと、第2ターゲットテキストの識別重みとターゲット候補セグメントの第1言語確率とに基づいて、ターゲット候補セグメントの初期確率を取得するように構成された確率特定手段と、初期確率と第2指定セグメントの第4の言語確率に基づいて、第2指定セグメントにおけるターゲットテキストセグメントを特定するように構成されたセグメント特定手段とを含むことができる。
【0145】
本開示の実施例によれば、上記装置1000は、テキストシーケンスに候補スロットに属するスロットテキストセグメントが含まれることに応答して、スロットテキストセグメントに基づいて候補スロットに対するテキストセグメントテーブルをクエリするためのテーブルクエリモジュールと、スロットテキストセグメントがテキストセグメントテーブルに属さないことに応答して、テキストセグメントテーブルにおけるスロットテキストセグメントとの類似度が最大であるテキストセグメントを候補セグメントとして特定するための候補セグメント特定モジュールと、候補セグメントを用いてテキストシーケンスにおけるスロットテキストセグメントを置換して、認識すべき音声データに対する認識結果を取得するための認識結果取得モジュールと、をさらに含んでもよい。
【0146】
本開示の実施例によれば、上記装置1000は、言語モデルを用いて第1ターゲット特徴を処理した回数が所定の回数に達したことに応答して、言語モデルを第1ターゲット特徴に対して処理して得られた言語確率をバッファに記憶するための確率記憶モジュールと、言語モデルを用いて第2ターゲット特徴を処理する必要があることに応答して、第2ターゲット特徴に基づいてバッファを照会するためのバッファ照会モジュールと、バッファに第2ターゲット特徴に対する言語確率が記憶されていることに応答して、バッファから第2ターゲット特徴に対する言語確率を読み出し、言語モデルを用いて第2ターゲット特徴に対する処理を完了するための確率読み取りモジュールと、をさらに含んでもよく、ここで、第1ターゲット特徴及び第2ターゲット特徴は、第1テキスト段落のテキスト埋め込み特徴、テキスト埋め込み特徴及びカテゴリの識別特徴が融合された特徴、テキスト埋め込み特徴及びデータのソースの識別特徴が融合された特徴、テキスト埋め込み特徴及びスロットの識別特徴が融合された後の特徴の何れか一方を含む。
【0147】
本開示の実施例によれば、第1言語確率及び音響確率に基づいて、複数の候補テキストセグメントにおけるターゲットテキストセグメントを特定する操作は、電子機器に設けられたグラフィックプロセッサによって実行される。
【0148】
本開示の実施例によれば、制約サブモデルをトレーニングするサンプルは、ポジティブサンプルとネガサンプルとを含み、ポジティブサンプルは、所定のテキストセットにおけるテキストを含む。上記装置は、複数の候補テキストセグメントのうち、所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、所定のテキストを調整して、ネガティブサンプルを取得するためのネガティブサンプル取得モジュールをさらに含む。
【0149】
本開示の実施例によれば、上記ネガティブサンプル取得モジュールは、第2テキストセグメントと所定のテキストにおけるターゲット位置におけるテキストセグメントとの間の混同関係に基づいて、第2テキストセグメントにおける置換すべきセグメントを特定するための第4セグメント特定サブモジュールと、置換すべきセグメントを用いて所定のテキストにおけるターゲット位置におけるテキストセグメントを置換して、ネガティブサンプルを取得するための第1置換サブモジュールとを含む。
【0150】
本開示の実施例によれば、上記ネガティブサンプル取得モジュールは、第2テキストセグメントを用いて所定のテキストにおけるターゲット位置におけるテキストセグメントを置換して候補サンプルを取得するための第2置換サブモジュールと、候補サンプルにおける各サンプルに対して、第1言語サブモデルを用いて処理を行い、各サンプルの第6言語確率を取得するための第2確率取得サブモジュールと、第6言語確率に基づいて候補サンプルをスクリーニングして、ネガティブサンプルを取得するためのサンプルスクリーニングサブモジュールと、を含む。
【0151】
本開示の実施例によれば、上記ネガティブサンプル取得モジュールは、第2テキストセグメントを用いて所定のテキストにおけるターゲット位置におけるテキストセグメントを置換して、初期テキストを取得するための第3置換サブモジュールと、初期テキストにおけるターゲット位置の後のテキストセグメントを除去して、ネガティブサンプルを取得するためのセグメント除去サブモジュールとを含むことができる。
【0152】
なお、本開示の技術案において、かかるユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開及び応用等の処理は、いずれも関連法律の規定に合致し、必要なセキュリティ対策を講じ、公序良俗に反することはない。本開示の技術案において、ユーザの個人情報を取得又は収集する前に、ユーザの承認又は許可を取得する。
【0153】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
【0154】
図11は、本開示の実施例の音声認識方法を実施することが可能な電子機器1100の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0155】
図11に示すように、電子機器1100は、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する計算手段1101を含んでもよい。RAM1103には、さらに電子機器1100の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段1101、ROM1102、およびRAM1103は、バス1104により相互に接続されている。バス1104には、入出力インタフェース1105も接続されている。
【0156】
電子機器1100における複数の部品は、I/Oインタフェース1105に接続され、例えばキーボード、マウスなどの入力手段1106と、例えば様々なタイプのディスプレイ、スピーカなどの出力手段1107と、例えば磁気ディスク、光ディスクなどの記憶手段1108と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段1109とを含む。通信手段1109は、電子機器1100がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
【0157】
計算手段1101は、各種の処理、演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算手段1101としては、中央処理ユニット(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムを実行する計算手段、デジタル信号機(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算手段1101は、上記説明した各方法及び処理を実行し、例えば、音声認識方法を実行する。例えば、ある実施例において、音声認識方法は、コンピュータソフトウェアプログラムとして実現され、それは機械的読取可能なな媒体、例えば記憶手段1108に一時的に含まれる。ある実施例において、コンピュータプログラムの一部又は全部はROM1102及び/又は通信手段1109を介して電子機器1100にロード及び/又はインストールされる。コンピュータプログラムがRAM1103にロードされかつ計算手段1101により実行される場合、前述の音声認識方法の一つ又は複数のステップを実行してもよいる。代替的に、他の実施例において、計算手段1101は、他の任意の適切な方式(例えば、ファームウェア)により音声認識方法を実行するように構成される。
【0158】
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。
【0159】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0160】
本開示のコンテキストにおいて、機械的読取可能な媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械的読取可能な媒体は、機械読取可能な信号媒体又は機械的読取可能な記憶媒体であってもよい。機械的読取可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械的読取可能な記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0161】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0162】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0163】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって作成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、従来の物理ホストとVPSサービス(「VirtualPrivateServer」又は「VPS」と略称する)に存在する管理難易度が大きく、サービス拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバであってもよく、ブロックチェーンが結合されたサーバであってもよい。
【0164】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0165】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2024-04-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声認識方法であって、
音響モデルを用いて、認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理し、複数の候補テキストセグメントのそれぞれの音響確率を取得することと、
言語モデルにおける第1言語サブモデルを用いて、前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、
前記言語モデルにおける制約サブモデルを用いて、前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれにおける前記第1テキストセグメントに対する拡張可能な関係を取得することと、
前記拡張可能な関係に基づいて、前記候補テキストセグメントの初期言語確率を調整し、複数の前記候補テキストセグメントのそれぞれの第1言語確率を取得することと、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することと、を含み、
ここで、前記制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られたものである
音声認識方法。
【請求項2】
言語モデルにおける第1言語サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
前記第1テキストセグメントに対して埋め込み処理を行い、テキスト埋め込み特徴を取得することと、
前記第1テキストセグメントが属するカテゴリの第1識別特徴を特定することと、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第1識別特徴を融合した後の特徴を処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含む
請求項1に記載の方法。
【請求項3】
前記言語モデルは、前記第1言語サブモデルと並列に設置された第2言語サブモデルをさらに含み、
前記方法は、
前記テキスト埋め込み特徴を前記第2言語サブモデルに入力し、前記第1テキストセグメントの第1暗黙表現を取得することをさらに含み、
前記第1言語サブモデルは、第1特徴抽出ネットワーク及び第1予測ネットワークを含み、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第1識別特徴を融合した後の特徴を処理して、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
前記テキスト埋め込み特徴および前記第1識別特徴を融合した特徴を前記第1特徴抽出ネットワークに入力し、第2暗黙表現を取得することと、
前記第1暗黙表現および前記第2暗黙表現を融合して得られた特徴を前記第1予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含み、
ここで、前記第2言語サブモデルは、複数の所定のカテゴリのサンプルテキストを用いてトレーニングして得られた
請求項2に記載の方法。
【請求項4】
前記第2言語サブモデルは、第2特徴抽出ネットワーク及び第2予測ネットワークを含み、
前記テキスト埋め込み特徴を前記第2言語サブモデルに入力して、前記第1テキストセグメントの第1暗黙表現を取得することは、前記テキスト埋め込み特徴を前記第2特徴抽出ネットワークに入力し、前記第2暗黙表現を取得することを含み、
前記方法は、
前記第2暗黙表現を前記第2予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの第2言語確率を取得することと、
前記第2言語確率、前記第1言語確率及び前記音響確率に基づいて、前記ターゲットテキストセグメントを特定することと、をさらに含む
請求項3に記載の方法。
【請求項5】
前記言語モデルは、前記第1言語サブモデルと並列に設置された第3言語サブモデルをさらに含み、
前記方法は、
識別すべき音声データのソースを示す第2識別特徴を特定することと、
前記第3言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第2識別特徴を融合した後の特徴を処理し、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することと、
前記第3言語確率、前記第1言語確率及び前記音響確率に基づいて、前記ターゲットテキストセグメントを特定することと、さらに含む
請求項3に記載の方法。
【請求項6】
前記第3言語サブモデルは、第3特徴抽出ネットワーク及び第3予測ネットワークを含み、
前記第3言語サブモデルを用いて前記テキスト埋め込み特徴及び前記第2識別特徴を融合した特徴を処理して、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することは、
前記テキスト埋め込み特徴と前記第2識別特徴とを融合した特徴を前記第3特徴抽出ネットワークに入力し、第3暗黙表現を取得することと、
前記第1暗黙表現と前記第3暗黙表現とを融合して得られた特徴を前記第3予測ネットワークに入力し、複数の前記候補テキストセグメントのそれぞれの第3言語確率を取得することと、を含む
請求項5に記載の方法。
【請求項7】
前記第1テキストセグメントがテキストの開始識別子である場合、前記第1テキストセグメントが属するカテゴリは、複数の所定のカテゴリを含み、
前記第1言語サブモデルを用いて前記テキスト埋め込み特徴と前記第1識別特徴とを融合した特徴を処理して、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することは、
各所定のカテゴリごとに、前記テキスト埋め込み特徴と前記各所定のカテゴリの識別特徴を融合し、第1融合特徴を取得することと、
前記第1言語サブモデルを用いて前記第1融合特徴を処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得することと、を含む
請求項2に記載の方法。
【請求項8】
複数の前記候補テキストセグメントは、候補ワードを示す複数の第1候補セグメントを含み、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記第1テキストセグメントに基づいて所定のテキストリストをクエリし、前記複数の第1候補セグメントにおける第1指定セグメントを特定し、前記第1テキストセグメント及び前記第1指定セグメントが結合されたテキストが前記所定のテキストリストに属することと、
前記第1指定セグメントの第1言語確率と前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項1に記載の方法。
【請求項9】
前記所定のテキストリストは、複数のテキスト及び前記複数のテキストにおける各テキストの認識重みを含み、
前記認識重みは、テキストの認識難易度を指示し、
前記第1指定セグメントの第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することは、
前記所定のテキストリストにおける前記第1テキストセグメントと前記第1指定セグメントとが結合されたテキストが属する第1ターゲットテキストを特定することと、
前記第1ターゲットテキストの認識重み、前記第1指定セグメントの第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項8に記載の方法。
【請求項10】
複数の前記候補テキストセグメントは候補スロットを示す複数の第2候補セグメントをさらに含み、
前記候補スロットは、入りスロットを含み、
前記第1言語確率と前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記入りスロットにおける前記所定のテキストリストに属するターゲットスロットを特定することと、
前記言語モデルを用いて、前記ターゲットスロットの第3識別特徴とテキストの開始識別子に基づいて得られた特徴を処理して、複数の前記第1候補セグメントのそれぞれの前記ターゲットスロットに対する第4言語確率を取得することと、
前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、をさらに含む
請求項8に記載の方法。
【請求項11】
前記候補スロットは、出しスロットをさらに含み、
前記第1言語確率および前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得することは、
前記第1テキストセグメントが属するカテゴリの第1識別特徴と、前記第1テキストセグメントの最後の位置のテキストセグメントに対応するスロットの第4識別特徴とを融合し、第2融合特徴を取得することと、
前記言語モデルを用いて前記第2融合特徴を処理して、複数の前記第1候補セグメントのそれぞれの前記出しスロットに対する第5言語確率を取得するステップと、
前記第5言語確率、前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することと、をさらに含む
請求項10に記載の方法。
【請求項12】
前記入りスロットにおける前記所定のテキストリストに属するターゲットスロットを特定することは、
前記入りスロットにおける前記所定のテキストリストに属するスロットを特定し、初期スロットを取得することと、
前記初期スロットを示す第2候補セグメントの第1言語確率と、複数の前記第1候補セグメントの第1言語確率との差異に基づいて、前記初期スロットにおけるターゲットスロットを特定することと、を含み、
ここで、前記ターゲットスロットを示す第2候補セグメントの第1言語確率は、前記初期スロットにおける前記ターゲットスロット以外の他のスロットを示す第2候補セグメントの第1言語確率よりも大きい
請求項10に記載の方法。
【請求項13】
前記第4言語確率、前記第1言語確率及び前記音響確率に基づいて、複数の前記第1候補セグメントにおけるターゲットテキストセグメントを特定することは、
前記第1テキストセグメントに基づいて前記所定のテキストリストをクエリし、第2ターゲットテキストと前記複数の第1候補セグメントにおける第2指定セグメントとを取得し、前記第1テキストセグメントと前記第2指定セグメントに対応するターゲットスロットを示すターゲット候補セグメントとが結合されたテキストが前記第2ターゲットテキストに属することと、
前記第2ターゲットテキストの認識重みと前記ターゲット候補セグメントの第1言語確率に基づいて、前記ターゲット候補セグメントの初期確率を取得することと、
前記初期確率及び前記第2指定セグメントの第4言語確率に基づいて、前記第2指定セグメントにおけるターゲットテキストセグメントを特定することと、を含む
請求項10に記載の方法。
【請求項14】
前記テキストシーケンスに前記候補スロットに属するスロットテキストセグメントが含まれることに応答して、前記スロットテキストセグメントに基づいて前記候補スロットに対するテキストセグメントテーブルをクエリすることと、
前記スロットテキストセグメントが前記テキストセグメントテーブルに属さないことに応答して、前記テキストセグメントテーブルにおける前記スロットテキストセグメントとの類似度が最大であるテキストセグメントを候補セグメントとして特定することと、
前記候補セグメントを用いて前記テキストシーケンスにおける前記スロットテキストセグメントを置換し、前記認識すべき音声データに対する認識結果を取得することと、をさらに含む
請求項10に記載の方法。
【請求項15】
前記言語モデルを用いて第1ターゲット特徴を処理した回数が所定の回数に達したことに応答して、前記言語モデルによって前記第1ターゲット特徴を処理して得られた言語確率をキャッシュに記憶することと
前記言語モデルを用いて第2ターゲット特徴を処理する必要があることに応答して、前記第2ターゲット特徴に基づいて前記キャッシュをクエリすることと、
前記キャッシュに前記第2ターゲット特徴に対する言語確率が記憶されていることに応答して、前記キャッシュから前記第2ターゲット特徴に対する言語確率を読み取り、前記言語モデルを用いて前記第2ターゲット特徴を処理することを完成することと、をさらに含み、
ここで、前記第1ターゲット特徴及び前記第2ターゲット特徴は、前記第1テキストセグメントのテキスト埋め込み特徴、前記テキスト埋め込み特徴及びカテゴリの識別特徴が融合した後の特徴、前記テキスト埋め込み特徴及びデータのソースの識別特徴が融合した後の特徴、前記テキスト埋め込み特徴及びスロットの識別特徴が融合した後の特徴のうちのいずれか1つの特徴を含む
請求項10~13のいずれか一項に記載の方法。
【請求項16】
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定する操作は、電子機器に設けられたグラフィックプロセッサによって実行される
請求項10~13のいずれか一項に記載の方法。
【請求項17】
前記制約サブモデルをトレーニングするサンプルは、ポジティブサンプルとネガティブサンプルとを含み、
前記ポジティブサンプルは、前記所定のテキストセットにおけるテキストを含み、
前記ネガティブサンプルは、複数の前記候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得するという方式によって得られる
請求項1に記載の方法。
【請求項18】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しないテキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントと前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントとの間の混同関係に基づいて、前記第2テキストセグメントにおける置換すべきセグメントを特定することと、
前記置換すべきセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換し、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項19】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しないテキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換し、候補サンプルを取得することと、
前記候補サンプルにおける各サンプルについて、前記第1言語サブモデルを用いて処理し、前記各サンプルの第6言語確率を取得することと、
前記第6言語確率に基づいて前記候補サンプルをスクリーニングし、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項20】
前記複数の候補テキストセグメントのうち、前記所定のテキストにおけるターゲット位置におけるテキストセグメントと一致しない第2テキストセグメントに基づいて、前記所定のテキストを調整して、前記ネガティブサンプルを取得することは、
前記第2テキストセグメントを用いて前記所定のテキストにおける前記ターゲット位置におけるテキストセグメントを置換して、初期テキストを取得することと、
前記初期テキストにおける前記ターゲット位置の後のテキストセグメントを除去し、前記ネガティブサンプルを取得することと、を含む
請求項17に記載の方法。
【請求項21】
音声認識装置であって、
音響モデルを用いて認識すべき音声データ及び認識によって得られた第1テキストセグメントを処理して、複数の候補テキストセグメントのそれぞれの音響確率を取得する音響確率取得モジュールと、
言語モデルにおける第1言語サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの初期言語確率を取得する初期確率取得モジュールと、
前記言語モデルにおける制約サブモデルを用いて前記第1テキストセグメントを処理し、複数の前記候補テキストセグメントのそれぞれの前記第1テキストセグメントに対する拡張可能な関係を取得する拡張関係取得モジュールと、
前記拡張可能な関係に基づいて、前記候補テキストセグメントの初期言語確率を調整し、複数の前記候補テキストセグメントのそれぞれの第1言語確率を取得する確率調整モジュールと、
前記第1言語確率及び前記音響確率に基づいて、複数の前記候補テキストセグメントにおけるターゲットテキストセグメントを特定して、前記認識すべき音声データに対するテキストシーケンスを取得するテキスト特定モジュールと、を含み、
ここで、前記制約サブモデルは、所定のテキストセットにおけるテキストに基づいてトレーニングして得られた
音声認識装置。
【請求項22】
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサが請求項1~14のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される
電子機器。
【請求項23】
コンピュータ命令が記憶されている非一時的コンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~14のいずれか一項に記載の方法を実行させる
記憶媒体。
【請求項24】
コンピュータプログラムであって、プロセッサによって実行されると、請求項1~14のいずれか一項に記載の方法を実現する
コンピュータプログラム。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本開示は、人工知能分野に関し、特に、音声認識、自然言語処理及びディープラーニング等の技術分野に関し、特に音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0004
【補正方法】変更
【補正の内容】
【0004】
本開示は、音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供することを目的とする。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
本開示の別の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行されると、本開示に係る音声認識方法を実現するコンピュータプログラムを提供する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0153
【補正方法】変更
【補正の内容】
【0153】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供する。
【国際調査報告】