(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-10
(54)【発明の名称】音声認識方法、装置、設備及び記憶媒体
(51)【国際特許分類】
G10L 15/193 20130101AFI20241003BHJP
G10L 15/34 20130101ALI20241003BHJP
G10L 15/32 20130101ALI20241003BHJP
【FI】
G10L15/193 100
G10L15/34
G10L15/32 220Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525244
(86)(22)【出願日】2021-11-26
(85)【翻訳文提出日】2024-06-12
(86)【国際出願番号】 CN2021133434
(87)【国際公開番号】W WO2023070803
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】202111274880.8
(32)【優先日】2021-10-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】501403265
【氏名又は名称】ユニバーシティ オブ サイエンス アンド テクノロジー オブ チャイナ
(71)【出願人】
【識別番号】518394983
【氏名又は名称】アイフライテック カンパニー,リミテッド
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】リ,ヨンチャオ
(72)【発明者】
【氏名】シュー,シャオフェイ
(72)【発明者】
【氏名】ワン,チョン
(72)【発明者】
【氏名】ファン,シン
(57)【要約】
本出願は音声認識方法、装置、設備及び記憶媒体を提案し、当該方法は、認識対象音声の音響学状態系列を取得することと、前記認識対象音声の属する場面での垂直型キーワード集合と、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納及び構文スロットの定義処理によって得られた構文復号化ネットワークとに基づき、音声認識復号化ネットワークを構築することと、前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得ることとを含む。上記の音声認識復号化ネットワークを構築し、それを音声認識に使用することにより、認識対象音声、特に垂直型キーワードに関わる特定の場面での音声、特に音声から垂直型キーワードを正しく認識することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声認識方法であって、
認識対象音声の音響学状態系列を取得することと、
前記認識対象音声の属する場面での垂直型キーワード集合と、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納・処理によって得られた構文復号化ネットワークとに基づき、音声認識復号化ネットワークを構築することと、
前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得ることと、
を含むことを特徴とする音声認識方法。
【請求項2】
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することは、
前記認識対象音声の属する場面での垂直型キーワード集合をクラウドサーバに伝送し、前記クラウドサーバにおいて前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築すること、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記音声認識結果を第1の音声認識結果とし、前記方法は、
汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識結果を得
ることと、
少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することと、
をさらに含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記方法は、
あらかじめ訓練された場面カスタマイズモデルを用いて、前記音響学状態系列を復号化し、第3の音声認識結果を得ることをさらに含み、
ここで、前記場面カスタマイズモデルは、前記認識対象音声の属する場面での音声に対する音声認識訓練によって得られるものであり、
少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最
終の音声認識結果を決定することを含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最
終の音声認識結果を決定することは、
前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果に対する
言語モデルインセンティブをそれぞれに行うことと、
インセンティブを行った後の第1の音声認識結果、第2の音声認識結果及び第3の音声認
識結果の言語得点に基づき、前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から最終の音声認識結果を決定することと、
を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最
終の音声認識結果を決定することは、
前記第1の音声認識結果に対する音響学得点のインセンティブを行い、前記第3の音声認識結果に対する言語モデルのインセンティブを行うことと、
音響学得点のインセンティブを行った後の第1の音声認識結果の音響学得点、及び前記
第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認
識結果から音声認識結果の候補を決定することと、
前記音声認識結果の候補に対する言語モデルのインセンティブを行うことと、
言語モデルのインセンティブを行った後の前記音声認識結果の候補の言語得点、及び言語モデルのインセンティブを行った後の前記第3の音声認識結果の言語得点に基づき、前
記音声認識結果の候補及び前記第3の音声認識結果から最終の音声認識結果を決定するこ
とと、
を含むことを特徴とする請求項4に記載の方法。
【請求項7】
音声認識方法であって、
認識対象音声の音響学状態系列を取得することと、
音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声認識
結果を得、汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識
結果を得ることと、
前記第1の音声認識結果に対する音響学得点のインセンティブを行うことと、
少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することとを含み、
ここで、前記音声認識復号化ネットワークは前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて構築される、
ことを特徴とする音声認識方法。
【請求項8】
前記方法は、
あらかじめ訓練された場面カスタマイズモデルを用いて、前記音響学状態系列を復号化し、第3の音声認識結果を得ることをさらに含み、
ここで、前記場面カスタマイズモデルは、前記認識対象音声の属する場面での音声に対する音声認識訓練によって得られるものであり、
少なくとも前記インセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
インセンティブを行った後の第1の音声認識結果、前記第2の音声認識結果及び前記第3
の音声認識結果から、最終の音声認識結果を決定することを含む、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記インセンティブを行った後の第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定することは、
音響学得点のインセンティブを行った後の第1の音声認識結果の音響学得点、及び前記
第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認
識結果から音声認識結果の候補を決定することと、
前記音声認識結果の候補及び前記第3の音声認識結果に対してそれぞれに言語モデルの
インセンティブを行うことと、
言語モデルのインセンティブを行った後の前記音声認識結果の候補の言語得点、及び言語モデルのインセンティブを行った後の前記第3の音声認識結果の言語得点に基づき、前
記音声認識結果の候補及び前記第3の音声認識結果から最終の音声認識結果を決定するこ
とと、
を含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記認識対象音声の属する場面での構文復号化ネットワークを構築するための処理は、
前記認識対象音声の属する場面でのコーパスデータに対する構文の帰納及び構文スロットの定義処理によって、非垂直型キーワードに対応する一般構文スロットと垂直型キーワードに対応するプレースホルダを格納するための垂直型キーワードに対応する置換構文スロットとを含むテキスト構文ネットワークを構築することと、
前記テキスト構文ネットワークにおける一般構文スロットのフレーズを分割し、分割結果に基づいてワードノードの拡張を行い、ワードレベルの構文復号化ネットワークを得ることと、
前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの構文復号化ネットワークを得、前記発音レベルの構文復号化ネットワークを前記認識対象音声の属する場面での構文復号化ネットワークとすることと、
を含むことを特徴とする請求項1ないし9のいずれか1項に記載の方法。
【請求項11】
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することは、
予め構築された前記認識対象音声の属する場面での構文復号化ネットワークを取得することと、
認識対象音声の属する場面での垂直型キーワード集合における垂直型キーワードに基づき、垂直型キーワードネットワークを構築することと、
前記垂直型キーワードネットワークを前記構文復号化ネットワークに挿入し、音声認識復号化ネットワークを得ることと、
を含むことを特徴とする請求項1ないし9のいずれか1項に記載の方法。
【請求項12】
前記認識対象音声の属する場面での垂直型キーワード集合における垂直型キーワードに基づき、垂直型キーワードネットワークを構築することは、
認識対象音声の属する場面での垂直型キーワード集合における各垂直型キーワードに基づき、ワードレベルの垂直型キーワードネットワークを構築することと、
前記ワードレベルの垂直型キーワードネットワークにおける各ワードをその発音に置換し、ワードの発音により発音ノード拡張を行い、発音レベルの垂直型キーワードネットワークを得ることと、
を含むことを特徴とする請求項11に記載の方法。
【請求項13】
前記垂直型キーワードネットワーク及び前記構文復号化ネットワークの両方はノードとノードを接続する有向アークとから構成され、ノード間の有向アークに発音情報又はプレースホルダを格納し、
前記垂直型キーワードネットワークを前記構文復号化ネットワークに挿入し、音声認識復号化ネットワークを得ることは、
有向アークを用いて前記垂直型キーワードネットワークと前記構文復号化ネットワークの置換構文スロットの左右ノードをそれぞれ接続し、音声認識復号化ネットワークを構築することを含む、
ことを特徴とする請求項11に記載の方法。
【請求項14】
前記垂直型キーワードネットワークにおける各キーワードの最初のアーク及び最後のアークにそれぞれ当該キーワードに対応する唯一の識別子が格納され、
前記垂直型キーワードネットワークにおけるキーワードが前記構文復号化ネットワークに挿入されるとき、当該キーワードの唯一の識別子と、当該唯一の識別子の置かれた有向アークに関し当該構文復号化ネットワークにおける左右ノード番号とを、それぞれネットワークに挿入されたキーワード情報集合に格納し、
ここで、前記ネットワークに挿入されたキーワード情報集合に、それぞれ構文復号化ネットワークに挿入されたキーワードの唯一識別子と、当該唯一の識別子の置かれた有向アークに関し、当該構文復号化ネットワークにおける左右ノード番号とを格納する、
ことを特徴とする請求項13に記載の方法。
【請求項15】
さらに、前記ネットワークに挿入されたキーワード情報集合における各唯一の識別子を
トラバースすることと、
トラバースされた唯一の識別子が前記認識対象音声の属する場面での垂直型キーワード集合における任意キーワードの唯一の識別子でない場合、当該唯一の識別子に対応する左右ノード番号間の有向アークを切り離すことと、
を含むことを特徴とする請求項14に記載の方法。
【請求項16】
前記方法は、
前記第2の音声認識結果の参考テキスト内容を使用し、前記第1の音声認識結果の非垂直型キーワード内容を修正し、修正された第1の音声認識結果を得ることをさらに含み、
ここで、前記参考テキスト内容は、前記第2の音声認識結果における、前記第1の音声認識結果の非垂直型キーワード内容にマッチングするテキスト内容である、
ことを特徴とする請求項3ないし9のいずれか1項に記載の方法。
【請求項17】
前記第2の音声認識結果の参考テキスト内容を使用し、前記第1の音声認識結果の非垂直型キーワード内容を修正し、修正後の第1の音声認識結果を得ることは、
前記第1の音声認識結果から垂直型キーワード内容及び非垂直型キーワード内容を決定
し、前記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とすることと、
前記第2の音声認識結果の参考テキスト内容及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、修正後の非垂直型キーワード内容を決定することと、
前記修正後の非垂直型キーワード内容及び前記垂直型キーワード内容を組み合わせて、修正後の第1の音声認識結果を得ることと、
を含むことを特徴とする請求項16に記載の方法。
【請求項18】
前記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とすることは、
編集距離アルゴリズムに基づき、前記第1の音声認識結果と前記第2の音声認識結果との間の編集距離行列を決定することと、
前記編集距離行列及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、前
記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とすることと、
を含むことを特徴とする請求項17に記載の方法。
【請求項19】
前記第2の音声認識結果の参考テキスト内容及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、修正後の非垂直型キーワード内容を決定することは、
前記第2の音声認識結果の参考テキスト内容と前記第1の音声認識結果の非垂直型キーワード内容が同じかどうかを決定することと、
同じである場合、前記第2の音声認識結果の対象テキスト内容を修正後の非垂直型キー
ワード内容と決定することと、
同じでない場合、前記第2の音声認識結果が前記第1の音声認識結果の非垂直型キーワード内容の文字数よりも多いかどうか、両者の文字数の差が設定された閾値を超えていないかを決定することと、
前記第2の音声認識結果が前記第1の音声認識結果の非垂直型キーワード内容の文字数よりも多く、かつ両者の文字数の差が設定された閾値を超えていない場合、前記第2の音声
認識結果の対象テキスト内容を修正後の非垂直型キーワード内容と決定することと、
前記第2の音声認識結果が前記第1の音声認識結果の非垂直型キーワード内容の文字数より小さく、及び/又は両者の文字数の差が設定された閾値を超えた場合、前記第1の音声認識結果の非垂直型キーワード内容を修正後の非垂直型キーワード内容と決定することとを含み、
ここで、前記第2の音声認識結果の対象テキスト内容は、前記第2の音声認識結果におけ
る、前記第1の音声認識結果の非垂直型キーワード内容の位置に対応するテキスト内容で
ある、
ことを特徴とする請求項17に記載の方法。
【請求項20】
少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値よりも大きいかどうか
を決定することと、
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値よりも大きい場合、前
記第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終の音声認識結果を選択することと、
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値よりも大きくない場合
、前記第1の音声認識結果に対する音響学得点のインセンティブを行い、インセンティブ
を行った後の第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終の音声認識結果を選択することと、
を含むことを特徴とする請求項3に記載の方法。
【請求項21】
前記第1の音声認識結果及び前記第2の音声認識結果の音響学得点が同じである場合、前記第1の音声認識結果及び前記第2の音声認識結果の両方を最終の音声認識結果とする、
ことを特徴とする請求項7又は20に記載の方法。
【請求項22】
前記第1の音声認識結果に対する音響学得点のインセンティブを行うことは、
少なくとも前記第1の音声認識結果の垂直型キーワード内容及び非垂直型キーワード内
容に基づき、音響学インセンティブ係数を決定することと、
前記音響学インセンティブ係数を使用し、前記第1の音声認識結果の垂直型キーワード
内容の音響学得点を更新することと、
更新後の前記第1の音声認識結果における垂直型キーワード内容の音響学得点及び前記
第1の音声認識結果における非垂直型キーワード内容の音響学得点に基づき、再計算によ
って前記第1の音声認識結果の音響学得点を決定することと、
を含むことを特徴とする請求項4、6、又は20に記載の方法。
【請求項23】
前記第3の音声認識結果に対する言語モデルのインセンティブを行うことは、
認識対象音声の属する場面での垂直型キーワード集合及び前記当該場面に対応する種類タグに基づき、前記第3の音声認識結果に対するパス拡張を行うことと、
前記種類タグに対応するクラスタ化言語モデルの訓練コーパスに対する認識結果に基づき、それぞれ前記第3の音声認識結果及び前記第3の音声認識結果の拡張パスの言語モデル得点を決定することと、
前記第3の音声認識結果の言語モデル得点及び前記第3の音声認識結果の拡張パスの言語モデル得点に基づき、前記第3の音声認識結果に対する言語モデルのインセンティブを行
った後の言語得点を決定することとを含み、
ここで、前記種類タグは、音声認識場面に対するクラスタ化によって決定される、前記クラスタ化言語モデルは、対象コーパスに対する音声認識訓練によって得られ、前記対象コーパスにおける垂直型キーワードはすべて前記種類タグに置換しられる、
ことを特徴とする請求項5、6、又は9に記載の方法。
【請求項24】
前記認識対象音声の属する場面での垂直型キーワード集合及び当該場面に対応する種類タグに基づき、前記第3の音声認識結果に対するパス拡張を行うことは、
前記第3の音声認識結果の垂直型キーワードを認識対象音声の属する場面での垂直型キ
ーワード集合における垂直型キーワードとそれぞれ比較することと、
前記第3の音声認識結果の垂直型キーワードが前記垂直型キーワード集合における任意
垂直型キーワードにマッチングする場合、前記第3の音声認識結果における垂直型キーワ
ードの置かれたスロットの左右ノードの間で新しいパスを拡張し、当該新パスに認識対象音声の属する場面に対応する種類タグを格納することと、
を含むことを特徴とする請求項23に記載の方法。
【請求項25】
音声認識装置であって、
認識対象音声の音響学状態系列を取得する音響学認識ユニットと、
前記認識対象音声の属する場面での垂直型キーワード集合と、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納・処理によって得られた構文復号化ネットワークとに基づき、音声認識復号化ネットワークを構築するネットワーク構築ユニットと、
前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得る復号化処理ユニットと、
を含むことを特徴とする音声認識装置。
【請求項26】
音声認識装置であって、
認識対象音声の音響学状態系列を取得する音響学認識ユニットと、
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて構築された音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声認識結果を得、汎用音声認識モデルを用いて前記音響学状態系列を復号化
し、第2の音声認識結果を得る多次元復号化ユニットと、
前記第1の音声認識結果に対する音響学得点のインセンティブを行う音響学インセンテ
ィブユニットと、
少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定する意思決定処理ユニットと、
を含むことを特徴とする音声認識装置。
【請求項27】
音声認識設備であって、
プロセッサと接続しプログラムを格納するメモリと、
前記メモリに格納されているプログラムを実行し、請求項1ないし24のいずれか1項に記載の音声認識方法を実現するプロセッサと、
を含むことを特徴とする音声認識設備。
【請求項28】
記憶媒体であって、
プロセッサによって実行されると、請求項1ないし24のいずれか1項に記載の音声認識方法を実現するコンピュータプログラムを格納する、
ことを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年10月29日に中国特許局へ提出した出願番号202111274880.8、発明名称「音声認識方法、装置、設備及び記憶媒体」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
【背景技術】
【0002】
本出願は、音声認識技術分野に属し、具体的に音声認識方法、装置、設備及び記憶媒体に関する。
【0003】
モバイルインターネットや人工知能などの急速な発展に伴い、音声認識は重要なインターフェースとして、人々の日常生活や生産活動など多くの場面で現れてきたヒューマンマシンインタラクションでの導入・利用の広がりを見せている。
【0004】
現在、音声認識の最も有効な解決策はニューラルネットワーク技術で大量のデータを学習し、音声認識モデルを得ることであり、このモデルは一般的な場合で非常に高い認識効果が得られた。理論的には、十分なデータで可能な限りあらゆる語彙をカバーする場合、高い認識効果が得られる。
【0005】
しかし、「携帯電話の連絡先へ電話をかける」、「携帯電話の連絡先にメッセージを送る」、「都市の天気状況や現在位置を調べる」などの場面で、既存の音声認識の効果が悪く、ユーザの音声を正しく認識することが困難で、特にユーザの音声から人名や地名などの垂直型キーワードを認識できない場合が多い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述した技術の現状を考慮し、本出願の実施例では、認識対象音声、特に垂直型キーワードに関わる特定の場面での音声、特に音声から垂直型キーワードを正しく認識する音声認識方法、装置、設備及び記憶媒体を提案する。
【課題を解決するための手段】
【0007】
音声認識方法であって、
認識対象音声の音響学状態系列を取得することと、
前記認識対象音声の属する場面での垂直型キーワード集合と、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納処理によって得られた構文復号化ネットワークとに基づき、音声認識復号化ネットワークを構築することと、
前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得ることとを含むことを特徴とする。
【0008】
音声認識方法であって、
認識対象音声の音響学状態系列を取得することと、
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて構築された音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声認識結果を得、汎用音声認識モデルを用いて前記音響学状態系列を復号化
し、第2の音声認識結果を得ることと、
前記第1の音声認識結果に対する音響学得点のインセンティブを行うことと、
少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することとを含むことを特徴とする。
【0009】
音声認識装置であって、
認識対象音声の音響学状態系列を取得する音響学認識ユニットと、
前記認識対象音声の属する場面での垂直型キーワード集合と、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納処理によって得られた構文復号化ネットワークとに基づき、音声認識復号化ネットワークを構築するネットワーク構築ユニットと、
前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得る復号化処理ユニットとを含むことを特徴とする。
【0010】
音声認識装置であって、
認識対象音声の音響学状態系列を取得する音響学認識ユニットと、
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて構築された音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声認識結果を得、汎用音声認識モデルを用いて前記音響学状態系列を復号化
し、第2の音声認識結果を得る多次元復号化ユニットと、
前記第1の音声認識結果に対する音響学得点のインセンティブを行う音響学インセンテ
ィブユニットと、
少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定する意思決定処理ユニットとを含む。
【0011】
音声認識設備であって、
プロセッサと接続し、プログラムを格納するために用いられるメモリと、
前記メモリに格納されているプログラムを実行し、上記の音声認識方法を実現するために用いられるプロセッサとを含む。
【0012】
記憶媒体であって、プロセッサによって実行されると、上記の音声認識方法を実現するコンピュータプログラムを格納する。
【発明の効果】
【0013】
本出願に係る音声認識方法は、認識対象音声の属する場面での垂直型キーワード集合及び予め構築された当該場面での構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することができる。当該音声認識復号化ネットワークにおいては、認識対象音声の属する場面でのさまざまな音声の構文情報も認識対象音声の属する場面でのさまざまな垂直型キーワードも含み、当該音声認識復号化ネットワークを用いて認識対象音声の属する場面での任意の構文及び任意の垂直型キーワードからなる音声を復号化することができる。したがって、上記の音声認識復号化ネットワークを構築することにより、認識対象音声、特に垂直型キーワードに関わる特定の場面での音声、特に音声から垂直型キーワードを正しく認識することができる。
【図面の簡単な説明】
【0014】
本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下説明される図面は、本出願の実施例に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
【0015】
【
図1】
図1は本出願の実施例に係る音声認識方法を示すフローチャートである。
【
図2】
図2は本出願の実施例に係るワードレベルの構文復号化ネットワークを示す図である。
【
図3】
図3は本出願の実施例に係る別の音声認識方法を示すフローチャートである。
【
図4】
図4は本出願の実施例に係る別の音声認識方法を示すフローチャートである。
【
図5】
図5は本出願の実施例に係る別の音声認識方法を示すフローチャートである。
【
図6】
図6は本出願の実施例に係る別の音声認識方法を示すフローチャートである。
【
図7】
図7は本出願の実施例に係るテキスト構文ネットワークを示す図である。
【
図8】
図8は本出願の実施例に係る発音レベルの構文復号化ネットワークを示す図である。
【
図9】
図9は本出願の実施例に係るワードレベルの人名ネットワークを示す図である。
【
図10】
図10は本出願の実施例に係る
図9に対応する発音レベルの人名ネットワークを示す図である。
【
図11】
図11は本出願の実施例に係る第2の音声認識結果を用いて第1の音声認識結果を修正する処理フローチャートである。
【
図12】
図12は本出願の実施例に係る第1の音声認識結果及び第2の音声認識結果から最終の音声認識結果を決定する処理フローチャートである。
【
図13】
図13は本出願の実施例に係る音声認識結果の状態ネットワークを示す図である。
【
図14】
図14は
図13に示す音声認識結果に対するパス拡張を行った後の状態ネットワークを示す図である。
【
図15】
図15は本出願の実施例に係る音声認識装置の構造を示す図である。
【
図16】
図16は本出願の実施例に係る別の音声認識装置の構造を示す図である。
【
図17】
図17は本出願の実施例に係る音声認識設備の構造を示す図である。
【発明を実施するための形態】
【0016】
本出願の実施例の技術案は、音声認識の応用場面に適用し、本出願の実施例の技術案を利用することにより、音声の内容、特に垂直型キーワードに関わる特定の場面での音声の内容をさらに正しく認識し、特に音声から垂直型キーワードを正しく認識し、音声認識の効果を全体的に高めることができる。
【0017】
上記の垂直型キーワードとは、広く一般的に同種に属する異なるキーワードを指す。人名、地名、アプリケーションの名称などを例としては、ユーザのコンタクトリストに登録された異なる人名からなる人名の垂直型キーワード、ユーザの滞在する地域の異なる地名からなる地名の垂直型キーワード、ユーザ端末にインストールされたそれぞれのアプリケーションの名称からなるアプリケーション名称の垂直型キーワードが挙げられる。
【0018】
上記の垂直型キーワードに関わる業務の場面とは、対話音声の中に含まれた垂直型キーワードの業務の場面を指す。例えば、音声で電話をかけるや、音声ナビゲーションなどの業務の場面において、ユーザが「XXさんに電話をかけて」、「YYまでのルートを教えて」など、相手の名前又は目的地名を言わなければならない。ここで、「XX」がユーザの電話帳に登録された1つの名前、「YY」がユーザの所在地の1つの地名だと考えられる。このように、これらの業務の場面での音声に垂直型キーワード(人名や地名など)が含まれているため、これらの業務の場面は垂直型キーワードに関わる業務の場面に該当する。
【0019】
人工知能及びスマート端末の普及に伴い、音声認識を重要なインターフェースとしたヒューマンマシンインタラクションを導入・利用する場面が多くなっている。例えば、スマート端末のオペレーティングシステムに音声アシスタントが内蔵され、ユーザが音声で端末を操作することができる。例えば、ユーザは音声でコンタクトリストに登録された相手
に電話をかけたり、ショートメールをしたり、各都市の天気を調べたり、端末のアプリケーションを実行・終了したりすることができる。このようなインタラクション場面は一般の音声認識業務場面とは違い、特定の業務場面であり、これらの場面での音声は垂直型キーワード(コンタクトリストに登録されている人名、地名、端末のアプリケーション名など)に関わるものが多い。
【0020】
垂直型キーワードは一般的なテキストキーワードとは違い、変化が頻繁で、予見できず、カスタマイズできるという特徴があり、また大量の音声認識用訓練コーパスに占めている垂直型キーワードの割合が低いため、大量のコーパスで音声認識モデルを訓練する通常の音声認識解決案が垂直型キーワードに関わる音声認識業務に適していないことが多い。
【0021】
例えば、通常のテキストコーパスよりも人名の出現率が低いため、大量の訓練コーパスにおいても人名が希なものであり、モデルが大量のコーパスから十分な人名の特徴を学習することができない。また、人名はカスタマイズされたテキストの内容であり、網羅しにくいか予見不可能という特徴があり、すべての人名を手作業で生成することは現実的ではない。さらに、ユーザがコンタクトリストに登録された相手の名前はニックネーム、コードネーム、あだ名など、標準の人名以外のものを使うほかに、コンタクトリストに登録されている相手を変更したり増減したりすることがあるため、ユーザによってコンタクトリストに登録されている人名の多様性が高く、モデルがすべての人名の特徴を統一方式で学習することが困難になる。
【0022】
したがって、大量のコーパスを用いて音声認識モデルを訓練し、当該音声認識モデルを利用して音声認識機能を実現するという技術案は、垂直型キーワードに関わる業務の場面での音声認識任務にうまく適していない。特に音声に含まれている垂直型キーワードを正しく認識できず、ユーザエクスペリエンスが悪い。
【0023】
上記の技術的な現状に鑑み、本出願の実施例では音声認識方法を提案し、当該方法が音声認識の効果、特に垂直型キーワードに関わる業務の場面での音声認識の効果を高めることができる。
【0024】
以下、本出願の実施例の図面を併せて、本出願の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本出願の保護範囲内にある。
【0025】
本出願の実施例では、音声認識方法を提案し、
図1に示すように、当該方法は、以下の
ステップを含む。
【0026】
S101:認識対象音声の音響学状態系列を取得する。
具体的には、上述した本出願の実施例の技術案に適用される応用場面に基づき、上記の認識対象音声は、具体的に垂直型キーワードに関わる業務の場面での音声データであり、当該認識対象音声には垂直型キーワードの音声内容が含まれている。
【0027】
上記の認識対象音声に対し、端点検出、窓かけ・フレーム分割、特徴抽出などの処理を行い、そのオーディオ特徴を取得し、当該オーディオ特徴はメル周波数ケプストラム係数(MFCC)で表されるものか、他のタイプのオーディオ特徴であってもよい。
【0028】
認識対象音声のオーディオ特徴を取得した後、当該オーディオ特徴を音響学モデルに入力し、音響学認識を行い、オーディオフレームごとの音響学状態の事後得点、すなわち音響学状態系列を得る。当該音響学モデルは、主にニューラルネットワーク構造であり、フ
ォワードアルゴリズムでオーディオフレームごとの音響学状態を認識し、その事後得点を算出する。上記のオーディオフレームに対応する音響学状態は、具体的にはオーディオフレームに対応する音素又は音素系列など、オーディオフレームに対応する発音ユニットである。
【0029】
従来の音声認識の技術案は、音響学モデル及び言語モデルを組み合わせた構造、つまり、音響学モデルで認識対象音声の音響学認識を行い、音声特徴から音素系列へのマッピングを実現した後、言語モデルで音素系列の認識を行い、音素からテキストへのマッピングを実現するような構造になっている。
【0030】
従来の音声認識解決案により、上記の音響学認識から得られた認識対象音声の音響学状態系列を言語モデルに入力されて復号化を行い、認識対象音声に対応するテキスト内容を決定する。当該言語モデルは、大量の訓練コーパスから訓練して得られた、音素からテキストへのマッピングを実現できるモデルである。
【0031】
従来の音声認識の解決案とは違い、本出願の実施例では音響学状態系列の復号化を行うために大量のコーパスを用いて訓練された音声モデルでなく、リアルタイムで構築された復号化ネットワークを用いて復号化を行う。具体的には以下を参照する。
【0032】
S102:前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築する。
具体的には、従来の言語モデルとは違い、本出願の実施例では、垂直型キーワードの業務の場面での音声を認識するときに、音声認識復号化ネットワークをリアルタイムで構築し、それを用いて認識対象音声の音響学状態系列を復号化し、音声認識の結果を得る。
【0033】
上記の音声認識復号化ネットワークは、認識対象音声の属する場面での垂直型キーワード集合、及び予め構築された当該認識対象音声の属する場面での構文復号化ネットワークから得られる。
【0034】
ここで、認識対象音声の属する場面での構文復号化ネットワークは、少なくとも認識対象音声の属する場面でのテキストコーパスに対する構文帰納処理によって得られる。
【0035】
認識対象音声の属する場面は、具体的には認識対象音声の属する業務の場面を指す。例えば、認識対象音声を「I want to give XX a call」とすれば、当該認識対象音声は発呼業務の音声に該当するため、当該認識対象音声の属する場面は電話をかける場面である。また、認識対象音声を「XXまでのルートを教えて」とすれば、当該認識対象音声はナビゲーション業務の音声に該当するため、当該認識対象音声の属する場面はナビゲーション場面である。
【0036】
本出願の発明者は研究により、垂直型キーワードに関わる業務の場面で、ユーザ音声の構文について、かなりの部分が固定なものであり、例えば、電話をかける場合又はショートメールを送信する場合には、ユーザが「I want to give XX a call」又は「send a message to XX for me」、音声ナビゲーションの場合には、「XX(地名)に行って」又は「XX(地名)までのルートを教えて」のような構文をよく使用している。
【0037】
したがって、垂直型キーワードに関わる特定の業務の場面で、ユーザ音声の構文は規則的であるか、網羅できるとも言え、このような構文の帰納により、当該場面に対応する構文ネットワークが得られ、本出願の実施例ではそれを構文復号化ネットワークという。上記の方式で構築された構文復号化ネットワークには当該場面に対応する構文情報が含まれ、ある場面でのすべての構文のテキストコーパスに対し帰納を行って構文復号化ネットワ
ークを得られるとき、当該構文復号化ネットワークには当該場面での任意の構文が含まれることが理解される。
【0038】
好ましい実施形態として、本出願の実施例では、認識対象音声の属する場面でのテキストコーパスに対する構文の帰納及び構文スロットの定義処理を行って得られる。
【0039】
上記のように構文の構文スロットを定義することは、具体的には構文のテキストスロットの文法的なタイプを決定することである。本出願の実施例では、テキスト文のテキストスロットを一般構文スロット及び置換構文スロットに分類し、ここで、テキスト文の非垂直型キーワードの置かれたテキストスロットは一般構文スロットと定義され、テキスト文の垂直型キーワードの置かれたテキストスロットは置換構文スロットと定義される。
【0040】
1つの簡単な例として、電話をかける場合又はショートメールを送信する場合には、「I
want to give XX a call」又は「send a message to XX for me」のようなテキストコーパスに対し構文の帰納及び構文スロットの定義を行い、
図2に示す構文復号化ネットワー
クを得られる。当該構文復号化ネットワークはノード及び接続ノードの有向アークからなり、ここで、有向アークは一般構文スロット及び置換構文スロットに対応し、有向アークには、スロットにおけるテキスト内容を記載するタグ情報が含まれる。具体的には、一般構文スロットフレーズを分割し、ノード及び有向アークにより直列接続し、2つのノード
間の有向アークにワード情報を注記し、コロンの左右にある項目はそれぞれ入力情報・出力情報を代表し、ここで入力情報と出力情報が同じものと設定し、1つのフレーズから分
割された後の複数のワードを直列接続し、同じ構文スロットの各フレーズを並列接続し、置換構文スロットにプレースホルダの「#placeholder#」で場所を確保し、拡張せずに、
ノードを順番に番号付け、ここで、同じ開始ノード識別子を有するワードに1つの開始ノ
ードを共有し、同じ終了ノード識別子を有するワードに1つの終了ノードを共用する。
図2は、簡単なコンタクトリストワードレベルの構文復号化ネットワークを示す図であり、置換構文スロットの前の一般構文スロットには「I want to give」、「send a message to
」及び「give a call」の3フレーズが含まれ、置換構文スロットの後の一般構文スロットには「for me」、「a call」及び「a call with her number」の3フレーズが含まれる。
ノード10及びノード18の間の接続は直接的にノード10から終了ノードに到達できることを意味し、アーク側の「</s>」はミュートを表す。
【0041】
上記の構文復号化ネットワークの具体的な構築プロセスについては、後述の実施例の詳細な説明を参照する。
【0042】
上記の認識対象音声の属する業務の場面での垂直型キーワード集合とは、認識対象音声の属する業務の場面でのすべての垂直型キーワードからなる集合を指す。例えば、認識対象音声が音声で電話をかける場合又は音声でショートメールを送信する場合の音声であれば、認識対象音声の属する業務の場面での垂直型キーワード集合は、具体的にはユーザのコンタクトリストに登録されている人名からなる人名の集合であってもよい。認識対象音声が音声ナビゲーションを行う場合の音声であれば、認識対象音声の属する業務の場面での垂直型キーワード集合は、具体的にはユーザの滞在する地域の各地名からなる地名の集合であってもよい。
【0043】
認識対象音声の属する業務の場面での垂直型キーワード集合における垂直型キーワードを、構文復号化ネットワークの置換構文スロットに追加すると音声認識復号化ネットワークが得られる。このように、当該復号化ネットワークには、認識対象音声の属する業務の場面でのすべての音声構文及び当該場面でのすべての垂直型キーワードの両方が含まれると、当該音声認識復号化ネットワークは認識対象音声の属する業務の場面での音声構文も認識音声の垂直型キーワードも認識することでき、つまり、当該業務の場面での音声を認
識することができる。
【0044】
上記の音声認識復号化ネットワークの具体的な構築プロセスについては、後述の実施例で詳細に説明する。
【0045】
説明すべき点については、好ましい実施形態として、本出願の実施例では音声認識復号化ネットワークを構築するとき、具体的にサーバで構築することであり、つまり、認識対象音声の属する業務の場面での垂直型キーワード集合をクラウドサーバに伝送し、クラウドサーバが当該認識対象音声の属する業務の場面での垂直型キーワード集合及び予め構築された構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築する。
【0046】
例えば、ユーザが携帯電話に発呼音声命令の「I want to give XX a call」を話し掛けるとき、携帯電話でローカルのコンタクトリスト(すなわち人名垂直型キーワード集合)をクラウドサーバに伝送し、クラウドサーバでコンタクトリストに登録されている人名及び電話をかける場面での構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築する。そして、当該音声認識復号化ネットワークには、さまざまな発呼用構文及び今回の発呼用コンタクトリストに登録されている人名が含まれ、当該復号化ネットワークを利用し、当前コンタクトリストに登録されている任意の相手に電話をかけるためのユーザの音声を認識することができる。
【0047】
従来の技術案では、音声認識復号化ネットワークがユーザ端末のローカルで構築されたものであり、リアルタイムで構築されたものでなく、予め構築された後に繰り返し呼び出さるものである。端末機器のコンピューティングリソースが低いため、ネットワークの構築速度が遅くなり、ネットワークの復号化速度が限られる。また、非リアルタイムで構築された復号化ネットワークは垂直型キーワード集合が更新しても速やかに更新されず、音声認識の効果が悪い。
【0048】
本出願の実施例では、クラウドサーバで音声認識復号化ネットワークを構築し、そして音声認識を行うときに、垂直型キーワード集合をリアルタイムに伝送し、S102の「音声認識復号化ネットワークを構築する」を実行するため、構築された音声認識復号化ネットワークに最も新しい垂直型キーワード集合、すなわち今回の認識に必要な垂直型キーワード集合が含まれ、垂直型キーワードを正しく認識することができる。また、クラウドサーバの強い演算能力に基づき、当該音声認識復号化ネットワークがより強い復号化性能を備える。
【0049】
また、クラウドサーバの集中処理能力に基づき、各端末ごとにそれぞれ音声認識復号化ネットワークを構築する必要がなく、クラウドサーバで構築すればよい。クラウドサーバに接続される任意の端末について、端末で認識対象音声情報、及び認識対象音声の属する業務の場面での垂直型キーワード集合(ローカル端末で保存されたコンタクトリストなど)をクラウドサーバに伝送し、クラウドサーバで今回の認識対象音声に適した音声認識復号化ネットワークを構築し、今回の認識対象音声を復号化する。
【0050】
S103:前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得る。
【0051】
上記の説明から分かるように、上記のように構築された音声認識復号化ネットワークには、認識対象音声の属する業務の場面での構文、及び認識対象音声の属する業務の場面での垂直型キーワード集合が含まれる。そうすると、当該音声認識復号化ネットワークを利用し、認識対象音声の音声内容を認識することができる。
【0052】
例えば、ユーザ端末で端末のコンタクトリストに登録されている相手に電話をかけるというユーザの音声信号を収集した場合、当該音声を認識するよう、上記のS102の説明により、ローカル端末のコンタクトリスト(当該コンタクトリストを垂直型キーワード集合とする)及び予め構築された、発呼業務の場面に対応する構文復号化ネットワークを利用し、ローカルコンタクトリストに登録されている人名を含む音声認識復号化ネットワークを構築し、具体的には
図2に示す音声認識復号化ネットワークの構成を参照する。当該音声
認識復号化ネットワークには、すべての発呼音声構文だけでなく、ローカルコンタクトリストに登録されているすべての人名も含まれており、理論上、ユーザは音声で端末を制御し、端末のコンタクトリストに登録されている任意の相手に電話をかけるときに使う言葉は当該音声認識復号化ネットワークに含まれなければならない。
【0053】
例示的には、上記の音声認識復号化ネットワークには、さまざまな垂直型キーワードからなる複数の同一又は異なる構文パスが含まれる。1つの音響学状態系列は当該音声認識
復号化ネットワークにおける1つ又は複数の構文パスの発音とマッチする場合、当該音響
学状態系列のテキスト内容が当該構文パスのテキスト内容であることを決定することができる。したがって、最終的に復号化から得られた音声認識結果は、当該音声認識復号化ネットワークにおける1つの又は複数のパスのテキストであると考えられ、つまり、最終的
に得られる音声認識結果は1つ又は複数である場合がある。
【0054】
例えば、端末で収集されたユーザの音声は「I want to give John a call」である場合、当該音声の音響学認識を行ってその音響学状態系列を得た後、端末のコンタクトリストを利用し音声認識復号化ネットワークを構築すると、当該音声認識復号化ネットワークには、「I want to give XX a call」のような構文及び「John」のような人名が含まれると同時に、他の構文及び人名も含まれる。当該音声認識復号化ネットワークに基づき、当該音声の音響学状態系列及び当該音声認識復号化ネットワークにおける各パスに対し発音のマッチングを行うと、当該音響学状態系列は「I want to give John a call」というパスの発音とマッチする場合、音声認識結果である「I want to give John a call」を得、つまり、ユーザ音声の認識を実現する。
【0055】
上記の説明から分かるように、本出願の実施例に係る音声認識方法は、認識対象音声の属する業務の場面での垂直型キーワード集合及び予め構築された当該業務の場面での構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することができる。当該音声認識復号化ネットワークにおいては、認識対象音声の属する業務の場面でのさまざまな音声の構文も認識対象音声の属する業務の場面でのさまざまな垂直型キーワードも含み、当該音声認識復号化ネットワークを用いて認識対象音声の属する業務の場面での任意の構文及び任意の垂直型キーワードからなる音声を復号化することができる。したがって、上記の音声認識復号化ネットワークを構築することにより、認識対象音声、特に垂直型キーワードに関わる特定の場面での音声、特に音声から垂直型キーワードを正しく認識することができる。
【0056】
好ましい実施形態として、上記の音声認識復号化ネットワークを利用し、認識対象音声の音響学状態系列を復号化すると同時に、汎用音声認識モデルを用いて当該認識対象音声の音響学状態系列を復号化する。
【0057】
区別しやすいように、上記の音声認識復号化ネットワークを用いて認識対象音声の音響学状態系列を復号化して得られた結果を第1の音声認識結果とし、上記の汎用音声認識モ
デルを用いて認識対象音声の音響学状態系列を復号化して得られた結果を第2の音声認識
結果とする。
【0058】
図3に示すように、S301の「認識対象音声の音響学状態系列を取得する」を実行した後
、それぞれ、S302の「音声認識復号化ネットワークを得る」、及びS303の「当該音声認識復号化ネットワークを用いて当該音響学状態系列を復号化し、第1の音声認識結果を得る
」を実行し、また、S304の「汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識結果を得る」を実行する。
【0059】
上記の第1の音声認識結果及び第2の音声認識結果はそれぞれ1つ又は複数であってもよ
い。音声認識の効果を保証するよう、最終音声認識結果の決定に使用されるものとして、各モデルから出力された音声認識結果は最大5個まで保持する。
【0060】
ここで、上記の汎用音声認識モデル、すなわち大量のコーパスから訓練されて得られた従来の音声認識モデルは、音声の特徴を学習し、音声に対応するテキスト内容を認識するため、上記の音声認識復号化ネットワークのように規範化した構文を有するわけではない。したがって、当該汎用音声認識モデルで認識される構文が高い柔軟性を有する。当該汎用音声認識モデルを用いて認識対象音声の音響学状態系列を復号化することにより、認識対象音声構文によって制限されることなく、認識対象音声の内容をより柔軟に認識することができる。
【0061】
認識対象音声は上記の音声認識復号化ネットワークにおける1つの構文でない場合、当
該音声認識復号化ネットワークによって正しく復号化されないか、得られた第1の音声認
識結果が正しくないが、当該汎用音声認識モデルの活用により、当該認識対象音声の認識・復号化を行い、第2の音声認識結果を得ることができる。
【0062】
第1の音声認識結果及び第2の音声認識結果を得られた後、S305の「少なくとも前記第1
の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定する」を実
行する。
【0063】
例示的な実施形態として、第1の音声認識結果及び第2の音声認識結果を得られた後、第1の音声認識結果及び第2の音声認識結果の音響学得点で勝負をかけ、第1の音声認識結果
及び第2の音声認識結果から選別された得点が最高の1つ又は複数のものを最終の音声認識結果とする。
【0064】
ここで、上記の第1の音声認識結果及び第2の音声認識結果の音響学得点とは、認識対象音声の音響学状態系列を復号化するときに、各音響学状態系列元素の復号化得点によって決定される復号化結果全体の得点を指す。例えば、各音響学状態系列元素の復号化得点の和を復号化結果全体の得点とする。音響学状態系列元素の復号化得点とは、音響学状態系列元素(音素又は音素ユニットなど)が1つのテキストとして復号化される確率得点を指
す。それで復号化結果全体の得点は、音響学状態系列全体が1つのテキストとして復号化
される確率得点である。音声認識結果の音響学得点は、音声の認識によって得られた当該音声認識結果の得点を意味し、当該得点は音声認識結果の正確度を示す。
【0065】
したがって、1つ又は複数の第1の音声認識結果の音響学得点、及び1つ又は複数の第2の音声認識結果の音響学得点に基づき、各認識結果の正確度を示し、音響学得点で勝負をかけ、つまり、音響学得点の比較により、そのような認識結果から選別された得点が最も高い1つ又は複数の音声認識結果を最終の音声認識結果とする。
【0066】
図3に示す方法実施例のS301~S303は、それぞれ
図1に示す方法実施例のS101~S103に対応し、その具体内容は
図1の方法実施例の説明を参照する。
【0067】
さらに、
図4は本出願の実施例に係る別の音声認識方法を示すフローチャートである。
【0068】
図3に示す音声認識方法とは違い、
図4に示すように、本出願の実施例に係る音声認識方法においては、構築された音声認識復号化ネットワーク及び汎用音声認識モデルを利用し、認識対象音声の音響学状態系列を復号化して第1の音声認識結果及び第2の音声認識結果を得たほかに、S405の「あらかじめ訓練された場面カスタマイズモデルを用いて、前記音響学状態系列を復号化し、第3の音声認識結果を得る」を実行する。
【0069】
それぞれ第1の音声認識結果、第2の音声認識結果及び第3の音声認識結果を得られた後
、S406の「前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果
から、最終の音声認識結果を決定する」を実行する。
【0070】
上記の場面カスタマイズモデルとは、認識対象音声の属する場面での音声に対し音声認識訓練を行って得られた音声認識モデルを指す。当該場面カスタマイズモデルは上記の汎用音声認識モデルと同じモデル構造を持ち、汎用音声認識モデルと違うところについて、当該場面カスタマイズモデルは大量の汎用コーパスでなく、認識対象音声の属する場面でのコーパスを使用し、訓練によって得られたものである。そこで、当該場面カスタマイズモデルは、認識対象音声の属する業務の場面での音声について、汎用音声認識モデルよりも感度と認識率が高い。当該場面カスタマイズモデルは汎用音声認識モデルよりも特定の業務の場面での音声を正しく認識することができ、上記の音声認識復号化ネットワークのように予め設定された構文に限定されない。
【0071】
したがって、上記の音声認識復号化ネットワーク及び上記の汎用音声認識モデルをもとに、場面カスタマイズモデルを加え、3つのモデルでそれぞれ認識対象音声の音響学状態
系列を復号化することで、さまざまな形態で、認識対象音声に対し、より全面的に深めた音声認識を行うことができる。
【0072】
3つのモデルからそれぞれ出力される音声認識結果について、例示的に、上記S305の説
明を参照し、第1の音声認識結果、第2の音声認識結果及び第3の音声認識結果の音響学得
点を比較し、その中から得られた音響学得点の最も高い又は上位にある1つ又は複数の音
声認識結果を最終の音声認識結果とする。
【0073】
図4に示す方法実施例のS401~S404はそれぞれ
図3に示す方法実施例のS301~S304に対応し、その具体内容は
図3に示す方法実施例の内容を参照するので、ここでは省略する。
【0074】
複数のモデルに基づいて復号化された上記の音声認識方法は、主な考え方として複数のモデルを用いて復号化を行った後、音響学得点で勝負をかけ、複数の認識結果から最終の認識結果を選別することである。実際に応用してみると、上記の音声認識復号化ネットワークから出力された第1の音声認識結果が汎用音声認識モデルから出力された第2の音声認識結果、又は場面カスタマイズモデルから出力された第3の音声認識結果の音響学得点に
近い場合、当該第1の音声認識結果が第2の音声認識結果又は第3の音声認識結果との勝負
に負けることが多い。
【0075】
実際には、3つのモデルから出力された音声認識結果の得点が近い数値同士である場合
、各音声認識結果の構文がほとんど一致しているが、垂直型キーワードの位置が異なる。ただし、第1の音声認識結果には、より正確的な垂直型キーワードの情報が含まれており
、第1の音声認識結果が勝負に負けると、垂直型キーワードが正しく認識されない結果が
出る。したがって、各モデルから出力された認識結果の得点が近い数値同士である場合、正しい垂直型キーワードを含む認識結果が勝つようにしなければならない。
【0076】
それにしても上記の各実施例の説明によると、第1の音声認識結果が勝つわけではない
。
【0077】
上記の状況を考慮し、音声認識結果で勝負をかけるとき、まず第1の音声認識結果にお
ける垂直型キーワードの置かれたスロットの得点に対してインセンティブを与え、割合をある程度上げ、つまり、第1の音声認識結果に対する音響学得点のインセンティブを行う
ことで、各モデルから出力された構文が同じである場合でも、第1の音声認識結果が勝つ
ことになる。
【0078】
上記の説明は、音響学得点のインセンティブに関する考えと必要性を概括的に提案し、具体的な音響学得点のインセンティブ処理について、後述の実施例の説明を参照する。
【0079】
上記の音響学得点のインセンティブに関する考えから、本出願の実施例では別の音声認識方法を提案し、
図5に示すように、当該方法は、以下のステップを含む。
S501:認識対象音声の音響学状態系列を取得する。
S502:音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声
認識結果を得る。S503:汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識結果を得る。前記音声認識復号化ネットワークは前記認識対象音声の属する
場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて得られる。
S504:前記第1の音声認識結果に対する音響学得点のインセンティブを行う。
S505:少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定する。
【0080】
具体的には、上記のS501、S502、S503、S505の具体処理内容について、
図1~
図4に示す音声認識方法実施例の内容を参照できるので、ここでは省略する。
【0081】
ここで、上記の音声認識復号化ネットワークは、認識対象音声の属する場面での垂直型キーワード集合、及び予め認識対象音声の属する場面でのテキストコーパスに対する構文の帰納及び構文スロットの定義処理によって得られた構文復号化ネットワークに基づき、構築して得られる。当該音声認識復号化ネットワークの具体的内容については、上記の実施例の説明を参照し、当該ネットワークの構築プロセスについては、後述の実施例の具体的な説明を参照する。
【0082】
上記の実施例に説明された音声認識方法と違うところは、本出願の実施例に係る音声認識方法では、第1の音声認識結果及び第2の音声認識結果の音響学得点で勝負をかけ、最終の音声認識結果を決定する前に、本出願の実施例でまず第1の音声認識結果に対する音響
学得点のインセンティブを行うことである。
【0083】
具体的には、第1の音声認識結果に対する音響学得点のインセンティブを行うことは、
第1の音声認識結果の垂直型キーワードの置かれたスロットの音響学得点にインセンティ
ブを与えることで、つまり、第1の音声認識結果の垂直型キーワードの置かれたスロット
の音響学得点に対し、インセンティブ係数でスケーリングを行い、当該インセンティブ係数の具体的な数値は業務の場面及び音声認識結果の実際によって決定される。具体的な音響学得点のインセンティブについては、後述の音響学得点のインセンティブに関する実施例の説明を参照する。
【0084】
上記の音響学得点のインセンティブ処理により、第1の音声認識結果が第2の音声認識結果の得点に近く、すなわち構文が同じである場合、第1の音声認識結果の音響学得点が第2の音声認識結果より高いため、第1の音声認識結果が音響学得点の勝負に勝つことになり
、つまり、第1の音声認識結果が第2の音声認識結果の得点に近い場合、最終的に得られた音声認識結果の垂直型キーワードがより正確的な認識結果であることを保証する。
【0085】
このように、本出願の実施例に係る音声認識方法は、認識対象音声の属する業務の場面での垂直型キーワード集合及び予め構築された当該業務の場面での構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することができる。当該音声認識復号化ネットワークを利用すると認識対象音声の属する業務の場面での任意の構文及び任意の垂直型キーワードからなる音声を復号化することができる。したがって、上記の音声認識復号化ネットワークに基づき、認識対象音声、特に垂直型キーワードに関わる特定の場面での認識対象音声、特に音声から垂直型キーワードを正しく認識することができる。
【0086】
また、本出願の実施例に係る音声認識方法では、上記の音声認識復号化ネットワークを用いて復号化・認識を行うとともに、汎用音声認識モデルを用いて復号化・認識を行う。上記の音声認識復号化ネットワークよりも汎用音声認識モデルの方が構文の柔軟性が高く、複数のモデルでそれぞれ認識対象音声の音響学状態系列を復号化することで、さまざまな形態で、認識対象音声に対し、より全面的に深めた音声認識を行うことができる。
【0087】
また、複数のモデルで復号化・認識を行う場合には、本出願の実施例では、音声認識復号化ネットワークから出力された音声認識結果に対する音響学得点のインセンティブを行う。上記の音声認識復号化ネットワークは汎用音声認識モデルよりも、垂直型キーワードをより正確的に認識するため、上記の音響学得点のインセンティブ処理に基づき、音声認識復号化ネットワークから出力された音声認識結果が汎用音声認識モデル出力の音声認識結果の得点に近い場合でも、音声認識復号化ネットワークから出力された音声認識結果が勝負に勝つようになり、最終の音声認識結果の垂直型キーワードを正しく認識することを保証する。
【0088】
好ましい実施形態として、本出願の実施例では、別の音声認識方法を提案し、当該方法は、
図5に示す音声認識方法に対し、認識対象音声の音響学状態系列を復号化する場面カ
スタマイズモデルを追加している。
【0089】
図6に示すように、S602の「音声認識復号化ネットワークを用いて前記音響学状態系列
を復号化し、第1の音声認識結果を得る」及びS603の「汎用音声認識モデルを用いて前記
音響学状態系列を復号化し、第2の音声認識結果を得る」を実行するほかに、S604の「あ
らかじめ訓練された場面カスタマイズモデルにより、前記音響学状態系列を復号化し、第3の音声認識結果を得る」を実行する。
【0090】
ここで、上記の場面カスタマイズモデルは認識対象音声の属する場面での音声に対する音声認識訓練によって得られる。
【0091】
具体的には、上記の場面カスタマイズモデルの機能、及び当該場面カスタマイズモデルの追加による好適な効果については、上記の
図4に示す音声認識方法の実施例内容を参照
できるので、ここでは省略する。
【0092】
最後、S606の「インセンティブを行った後の第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定する」を実行する。
【0093】
例示的には、上記の実施例で説明されるように、第1の音声認識結果、第2の音声認識結果及び第3の音声認識結果に対して、音響学得点で勝負をかけ、その中から選別された音
響学得点が高い又は最も高い複数又は1つの音声認識結果を最終の音声認識結果とする。
具体的な処理プロセスについては、上記の実施例の説明を参照する。
【0094】
図6中のS601~S603、S605の具体内容については、上記の実施例の関連ステップの具体
的な処理内容を参照できるので、ここでは省略する。
【0095】
上記の各音声認識方法では、最終的に複数の音声認識結果で勝負をかけ、決定するときに、音声認識結果の音響学得点だけに基づいて行うことは、特に上記の音声認識復号化ネットワーク又は場面カスタマイズモデルにおいて、認識効果に対する言語モデルの影響を完全に無視している。このような単純な勝負ポリシーが認識効果に大きな影響を与え、重大な場合には誤作動が発生し、ユーザエクスペリエンスに影響を与える。
【0096】
これに対し、本出願の実施例では、音響学得点で勝負をかけるうえで、音声認識結果に対する言語モデルのインセンティブを行い、音声認識結果に言語モデル情報を入れ、最終的に、言語得点で勝負をかけて最終の音声認識結果を選別することが提案される。
【0097】
任意の音声認識結果決定選択方式としては、上記の実施例の説明を参照し、音声認識復号化ネットワーク、汎用音声認識モデル、場面カスタマイズモデルでそれぞれ第1の音声
認識結果、第2の音声認識結果及び第3の音声認識結果を得、第1の音声認識結果に対する
音響学得点のインセンティブを行い、そしてインセンティブを行った後の第1の音声認識
結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定することは、以下の処理で実行することができる。
【0098】
まず、音響学得点のインセンティブを行った後の第1の音声認識結果の音響学得点、及
び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の
音声認識結果から音声認識結果の候補を決定する。
【0099】
具体的には、本ステップの処理は、上述した音響学得点の勝負をかけると同じように、音響学得点のインセンティブを行った後の第1の音声認識結果及び第2の音声認識結果について音響学得点で勝負をかけて、選別された音響学得点が最も高い1つ又は複数の音声認
識結果を音声認識結果の候補とする。
【0100】
次に、前記音声認識結果の候補及び前記第3の音声認識結果に対してそれぞれ言語モデ
ルのインセンティブを行う。
【0101】
具体的には、上記の言語モデルのインセンティブを行うことは、音声認識結果を認識対象音声の属する場面での垂直型キーワードとマッチングし、マッチングできる場合、音声認識結果のパス拡張を行い、その後、クラスタ化の言語モデルに基づき、拡張後の音声認識結果を評価し直し、音声認識結果の言語モデルでのインセンティブを行うことを指す。具体的な言語モデルのインセンティブの処理プロセスについては、後述の実施例で説明する。
【0102】
最後、言語モデルのインセンティブを行った後の前記音声認識結果の候補の言語得点、及び言語モデルのインセンティブを行った後の前記第3の音声認識結果の言語得点に基づ
き、前記音声認識結果の候補及び前記第3の音声認識結果から最終の音声認識結果を決定
する。
【0103】
具体的には、上記の音響学得点の勝負ポリシーを参照し、言語モデルのインセンティブを行った後の音声認識結果の候補及び第3の音声認識結果に対し、言語得点で勝負をかけ
、その中から選別された言語得点が最も高い1つ又は複数の音声認識結果を最終の音声認
識結果とする。具体的な言語得点の勝負処理プロセスについては、上記の実施例で説明された音響学得点の勝負処理プロセスを参照できるので、ここで省略する。
【0104】
上記の音響学得点のインセンティブ、言語モデルのインセンティブ、音声認識結果の候補の選別などのステップの実行順は、機能全体の実現に影響しない前提で自由に調整する
ことができる。
【0105】
例えば、選択できる音声認識結果の決定選別方式として、上記の実施例の説明を参照し、音声認識復号化ネットワーク、汎用音声認識モデル、場面カスタマイズモデルでそれぞれ第1の音声認識結果、第2の音声認識結果及び第3の音声認識結果を得た後、それぞれ前
記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果に対する言語
モデルのインセンティブを行い、その後、言語モデルのインセンティブを行った後の第1
の音声認識結果、第2の音声認識結果及び第3の音声認識結果の言語得点に基づき、言語得点で勝負をかけ、第1の音声認識結果、第2の音声認識結果及び第3の音声認識結果から最
終の音声認識結果を決定する。
【0106】
以下、異なる実施例でそれぞれ上記の各実施例で説明されている各音声認識方法の処理ステップを詳細に説明する。上記の各音声認識方法の間で交差又は同一の処理ステップが存在するため、下述した各実施例で説明される処理ステップの具体的な実施形態は、それぞれ上記の各実施例で説明された音声認識方法の必要又は関連の処理ステップに適用することが理解されるべきである。
【0107】
まず、本出願では、上記の各音声認識方法の実施例における音声認識復号化ネットワーク構築用構文復号化ネットワークの構築プロセスについて説明する。下述した構文復号化ネットワークの構築プロセスは、例示的な好ましい実施形態に過ぎず、本出願の実施例の技術案を実際に適用するとき、本実施例に示される構文復号化ネットワークの機能を参照し、別の形態で構築する。
【0108】
上記の各実施例に記載されている認識対象音声の属する業務の場面での構文復号化ネットワークは、次のステップA1~A3で構築される。
【0109】
A1:前記認識対象音声の属する場面でのコーパスデータに対し、構文の帰納及び構文スロットの定義処理を行い、テキスト構文ネットワークを構築する。
【0110】
認識対象音声の属する業務の場面でのコーパスデータは、実際の業務の場面から収集された音声の注記データであり、例えば、ユーザが音声で電話をかける場合又は音声でショートメールを送信する場合、ユーザの発呼又はショートメール送信用命令音声を収集し、それに注記をほどこし、電話をかける場合又はショートメールを送信する場合のコーパスデータとする。又は、業務の場面に適した文法的・論理的なコーパスデータを得るため、経験を組み合わせて手動拡張を行うこともできる。例えば、「I want to give John a call」及び「send a message to Peter for me」はそれぞれ2つのコーパスデータのユース
ケースである。その後、コーパスに基づき、構文の帰納及び構文スロットの定義を直接的に行うため、当該段階では収集されたコーパスのカバー率が高いと要求されるが、垂直型キーワードのカバー率に対して要求されない。
【0111】
上述したように、特定の垂直型キーワードの業務の場面で、ユーザ音声の構文は通常に規則的であるか、網羅できるとも言え、このような構文の帰納及び構文の構文スロットに対し分類及び定義を行うことにより、当該業務の場面に対応する構文ネットワークが得られ、本出願の実施例ではそれをテキスト構文ネットワークと定義する。
【0112】
上記のように構文の構文スロットを定義することは、具体的には構文のテキストスロットの文法的なタイプを決定することである。本出願の実施例ではテキスト文のテキストスロットを一般構文スロット及び置換構文スロットに分類し、ここで、非垂直型キーワードに対応するテキストスロットは一般構文スロットと定義され、垂直型キーワードに対応するテキストスロットは置換構文スロットと定義される。一般構文スロットには、テキスト
文の非垂直型キーワード内容が格納され、置換構文スロットには垂直型キーワードに対応するプレースホルダが格納される。テキストにおいて、垂直型キーワードテキストスロットの位置によって、一般構文スロットの数量は1つ又は複数であり、各垂直型キーワード
テキストスロットはそれぞれ1つの置換構文スロットに対応する。
【0113】
上記の実施形態で構築されたテキスト構文ネットワークに含まれる要素はネットワークノード及び接続ノードの有向アークがあり、当該テキスト構文ネットワークはABNF(拡張バッカスナウア記法)に基づいて定義される。具体的には、
図7に示すように、テキスト
構文ネットワークの有向アークにタグ情報が付けられ、当該タグ情報は有向アークに対応する置換構文スロットのプレースホルダ又は有向アークに対応する一般構文スロットのテキストに対応する。
【0114】
図7は、収集された発呼又はショートメール送信の場面でのコーパスデータに基づいて
定義されたテキスト構文ネットワークを示す。ここで、「<xxxx>」タグを有する有向アークは一般構文スロットと呼ばれ、一般構文スロットは少なくとも1つのフレーズを含み、
テキスト構文ネットワークの定義段階ですべてのフレーズの収集が完了しなければならない。
図7は2つの一般構文スロットを含み、それぞれ<phone>及び<sth>であり、<phone>は
場面コーパスのユースケースにおけるコンタクトリストに登録されている人名の前にあるテキストフレーズ内容に対応し、例えば、「I want to give」及び「send a message」は<phone>構文スロットの2つのフレーズである。<sth>はユースケースにおけるコンタクト
リストに登録されている人名の後ろにあるテキストフレーズ内容に対応し、例えば、「a call」及び「for me」は<sth>構文スロットの2つのフレーズである。「xxx」タグをつけ
た有向アークは置換構文スロットと呼ばれ、前記置換構文スロットとは、構文の定義段階で実際のフレーズをつけず、1つの「#placehollder#」(プレースホルダ)をつけている
ものを指す。実際のフレーズは音声認識復号化ネットワークを構築するときに渡される。
図7の「name」は1つの置換構文スロットであり、その後、動的に作成される垂直型キーワードネットワークは当該置換構文スロット内に挿入され、完全の音声認識復号化ネットワークを構成する。最後に、「-」タグをつけた有向アークは仮想アークと呼ばれ、前記仮
想アークとは、構文スロット及びフレーズ情報を有しない有向アークであって、パスを選択できるものを指す。仮想アークはその後、ネットワークを構築すると同時に当該構文スロットをスキップできる復号化パスも構築するための適切な構文スロットを有しなければならない。例えば、
図7ではノード2とノード4の間及びノード2とノード3の間の仮想アー
クに対応する構文スロットは<sth>構文スロットである場合、認識結果が当該構文スロッ
トを経由しなくてもいいことを意味する。また、
図7のテキスト構文ネットワークで2つの構文が定義され、それぞれは<phone>+name及び<phone>+name+<sth>であり、当該ネットワークから得られた音声認識結果は必ずこの2つの構文のいずれかと一致し、例えば、ユー
スケース「give a call to John」には一般構文スロット<phone>=「give a call to」及び置換構文スロットname=「John」の2つのスロットのみが含まれる。実際に使用すると
きの一般構文スロットのフレーズデータが多いため、説明の便宜上、下述の実施例では関連概念を説明するときに少量のフレーズしか使用しない。
【0115】
さらに、テキスト構文ネットワークにおけるすべての構文スロットにIDをつけ、当該構文スロットのslot_idフィールドを定義し、グローバル一意性識別子を設定してもよい。
【0116】
最終的には、構文ネットワークで定義された構文、構文スロット及び一般構文スロットのフレーズは共同でテキスト構文ネットワークを構成している。
【0117】
A2:前記テキスト構文ネットワークにおける一般構文スロットのフレーズを分割し、分割結果からワードノードの拡張を行い、ワードレベルの構文復号化ネットワークを得る。
【0118】
具体的には、上記構築されたテキスト構文ネットワークにおける構文スロット情報に基づき、一般構文スロットフレーズを解析し、一般構文スロットにおけるフレーズを分割し、分割結果からワードノードの拡張を行い、ワードレベルの構文復号化ネットワークを構築する。
【0119】
前記ワードレベルの構文復号化ネットワークには複数のノード及びノード間の有向アークが含まれる。ワードレベルの構文復号化ネットワークを構築するとき、まず一般構文スロットにおける各フレーズをそれぞれ分割し、各フレーズに対応する各ワードを得る。
【0120】
次に、同一フレーズに対応する各ワードに対し、ワードノードの拡張を行い、すなわち、同一フレーズの分割結果をノード及び有向アークにより直列接続し、フレーズに対応するワード列を得る。2つのノード間の有向アークには分割によって得られたワード情報が
注記され、ここで、コロンの左右の項目はそれぞれ入力情報及び出力情報を表し、また、入力情報及び出力情報が同じと設定する。
【0121】
最後、上記のノード拡張方式を参照し、単一のフレーズから分割され後の複数のワードを直列接続し、同一の一般構文スロットにおける異なるフレーズに対応するワード列を並列接続し、置換構文スロットはプレースホルダの「#placeholder#」で場所を確保し、拡
張せず、ネットワークノードを順番に番号付け、ここで、同じ開始ノード識別子を有するワードは1つの開始ノードを共用し、同じ終了ノード識別子を有するワードは1つの終了ノードを共用することにより、ワードレベルの構文復号化ネットワークを得られる。
【0122】
図2は示例的に、簡単なコンタクトリストワードレベルの構文復号化ネットワークを示
す図であり、構文スロット<phone>には「I want to give」、「send a message to」及び「give a call」の3つのフレーズが含まれ、構文スロット<sth>には「for me」、「a call」及び「a call with her number」の3つのフレーズが含まれる。ノード10及びノード18の間の接続は直接的にノード10から終了ノードに到達できることを意味し、アーク側の「</s>」はミュートを表す。
【0123】
A3:前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの構文復号化ネットワークを得、前記発音レベルの構文復号化ネットワークを前記認識対象音声の属する場面での構文復号化ネットワークとする。
【0124】
具体的には、まず前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをそれぞれ対応する発音に置換する。
【0125】
例示的には、発音辞書で既存のワードと発音との間の対応関係を調べ、ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各有向アークに注記されているワードの発音を決定する。この基礎の上に、ワードの発音で有向アークに注記されているワードを置換する。
【0126】
次に、前記ワードレベルの構文復号化ネットワークにおける各発音に対し、それぞれ発音ユニットの分割を行い、発音に対応する各発音ユニットを利用し発音ノードの拡張を行い、発音レベルの構文復号化ネットワークを得る。
【0127】
すなわち、ワードレベルの構文復号化ネットワークの各有向アークの発音に対して、それぞれその発音ユニットを決定し、発音ユニットの分類を行い、本出願では例示的に発音を音素系列に分割する。例えば、ワード「I」の発音は単音素「ay」であり、ワード「give」の発音は音素列「g ih v」である。
【0128】
この基礎の上に、発音ユニットの配列順位及び数量により、発音に対して発音ノードの拡張直列接続を行う。例示的には、上記のワードノード拡張と同様に、同一発音の各音素を順番にノード及び有向アークにより直列接続し、発音に対応する音素列を得る。次に、発音に対応する音素列で発音を置換し、ワードレベルの構文復号化ネットワークを発音レベルの構文復号化ネットワークに拡張する。発音ノードを拡張するとき、置換構文スロットを拡張しない。当該発音レベルの構文復号化ネットワークを認識対象音声の属する業務の場面での構文復号化ネットワークとする。
【0129】
図8は簡単な発音レベルの構文復号化ネットワークを示す図である。
【0130】
また、この後、コンピュータでのネットワーク構造的な格納、サブネットワークの動的な挿入・更新及び復号化・トラバースを容易にするため、構文復号化ネットワークにおけるノードに順次番号をつけ、かつ、同じ開始ノード識別子を有する発音ユニットは1つの
開始ノードを共用し、同じ終了ノード識別子を有する発音ユニットは1つの終了ノードを
共用する。ネットワークにおける単ノードは合計でid番号、入るアーク数及び出るアーク数の3つの属性フィールドを含み、ノード格納トリプルアレイを構成し、前記ノードの入
るアークはノードを指す向きの有向アーク、出るアークはノードから進む有向アークを表す。ネットワークにおける単一の有向アークは合計で左ノード番号、右ノード番号、アーク発音情報及び属する構文スロット識別子slot_idの4つの属性フィールドを含み、またネットワークにおけるノード総数及びアーク総数が記録される。
【0131】
さらに、構文復号化ネットワークにおいて構文スロットの左右ノード位置情報が記録されてもよい、
図8に示すように、一般構文スロット<phone>のネットワークにおける左ノード位置は0、右ノード位置は10、置換構文スロットnameの左ノード位置は10、右ノードは11、一般構文スロット<sth>の左ノードは11、右ノードは16である。
【0132】
さらに、得られた発音レベルの構文復号化ネットワーク内において条件を満たしているアークを統合・最適化し、余分なノードを削除し、ネットワークの複雑さを低減させ、具体的に使用される方法は一般復号化ネットワークの最適化方法と同じであるので、ここで省略する。
【0133】
以上のステップを完了した後に得られた復号化ネットワークは構文復号化ネットワークになり、グロバールリソースとしてクラウドの音声認識サービスに導入されるが、置換構文スロットにリアルなコンタクトリスト情報が記録されていないため、実際の復号化能力を備えるわけがない。
【0134】
上記の構築によって得られた構文復号化ネットワークに基づき、認識対象音声の属する業務の場面での垂直型キーワード集合を組み合わせることで、認識対象音声の音響学状態系列を復号化する音声認識復号化ネットワークを得られる。
【0135】
本出願の実施例では、さらに音声認識復号化ネットワークの構築プロセスについて例示的に説明する。
【0136】
一実施形態として、本出願の実施例では、以下のステップB1~B3を実行し、音声認識復号化ネットワークを構築する。
【0137】
B1:予め構築された前記認識対象音声の属する場面での構文復号化ネットワークを取得する。
【0138】
具体的には、上述の実施例で説明されるように、予め認識対象音声の属する業務の場面での構文復号化ネットワークを構築し、この場合、直接的に当該構文復号化ネットワークを呼び出せばよい。又は、上記の実施例の説明を参照し、ステップB1を実行するときに、リアルタイムで構文復号化ネットワークを構築することができる。
【0139】
B2:認識対象音声の属する場面での垂直型キーワード集合における垂直型キーワードに基づき、垂直型キーワードネットワークを構築する。
【0140】
具体的には、認識対象音声の属する業務の場面での垂直型キーワード集合とは、認識対象音声の属する業務の場面でのすべての垂直型キーワードからなる集合を指す。例えば、認識対象音声が音声で電話をかける場合又は音声でショートメールを送信する場合の音声であれば、認識対象音声の属する業務の場面での垂直型キーワード集合は、具体的にはユーザコンタクトリストに登録されている人名から人名の集合であってもよい。認識対象音声が音声ナビゲーションを行う場合の音声であれば、認識対象音声の属する業務の場面での垂直型キーワード集合は、具体的にはユーザの滞在する地域の各地名からなる地名の集合であってもよい。
【0141】
本出願の実施例では、コンタクトリストを垂直型キーワード集合とし、コンタクトリストに登録されている人名のネットワークの構築を例とし、垂直型キーワードネットワークを構築する具体的な実施プロセスについて説明する。
【0142】
垂直型キーワードネットワークの構築については、具体的に上記の構文復号化ネットワークの構築プロセスを参照することができるが、違うところとして、構築された垂直型キーワードネットワークには構文スロット情報が含まれず、デフォルトですべての構文スロットは置換構文スロットに属する。
【0143】
まず、認識対象音声の属する業務の場面での垂直型キーワード集合における各垂直型キーワードに基づき、ワードレベルの垂直型キーワードネットワークを構築する。
【0144】
例えば、コンタクトリストに登録されている人名をそれぞれ分割し、人名に含まれている各ワードを得られ、ノード及び有向アークにより各ワードを直列接続し、人名に対応するワード列を得る。異なる人名に対応するワード列を並列接続すると、ワードレベルの人名ネットワークを得る。
【0145】
図9は、「Jack Alen」、「Tom」及び「Peter」の3つの連絡先フレーズで構築されたワ
ードレベルの人名ネットワークを示す図である。
【0146】
次に、前記ワードレベルの垂直型キーワードネットワークにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの垂直型キーワードネットワークを得る。
【0147】
例えば、ワードレベルの人名ネットワークにおける各ワードについて、それぞれその発音を決定し、また発音に含まれる音素を決定し、各音素をノード及び有向アークによって接続し、音素列を構成した後、発音に対応する音素列で発音を置換すると、発音レベルの人名ネットワークを得る。
【0148】
上記のワードレベルの垂直型キーワードネットワークの構築、及び発音置換の処理については、上記の実施例で説明された構文復号化ネットワークを構築するときの処理内容を参照することができる。
【0149】
上記の説明により、発音レベルの垂直型キーワードネットワークを得、当該ネットワークは最終的に構築された垂直型キーワードネットワークである。当該ネットワークにおいて、入るアーク数が0のノードはネットワーク開始ノード、出るアーク数が0のノードはネットワーク終了ノードである。
【0150】
図10は、
図9に示すワードレベルの人名ネットワークの発音置換を行った後に得られた
発音レベルの人名ネットワークを示す図である。当該ネットワークにおいて、0号ノード
はネットワークの開始ノード、8号ノードはネットワークの終了ノードである。
【0151】
B3:前記垂直型キーワードネットワークを前記構文復号化ネットワークに挿入し、音声認識復号化ネットワークを得る。
【0152】
上記の説明から、ワードレベルネットワークの構築、ワードレベルネットワークの発音拡張などの処理により、最終的に得られた構文復号化ネットワーク及び垂直型キーワードネットワークはいずれも、ノードとノードに接続されている有向アークとから構成され、ノード間の有向アークに発音情報又はプレースホルダが格納されている。具体的には、構文復号化ネットワークの一般構文スロットに対応する有向アークにスロットにおけるテキストの発音情報を格納し、構文復号化ネットワークの置換構文スロットに対応する有向アークにプレースホルダを格納し、垂直型キーワードネットワークの各構文スロットに対応する有向アークにスロットにおけるテキストの発音情報を格納する。
【0153】
この基礎の上に、有向アークを通じて垂直型キーワードネットワークと構文復号化ネットワークの置換構文スロットの左右ノードとをそれぞれ接続し、すなわち、垂直型キーワードネットワークを利用し、構文復号化ネットワークにおけるにおける置換構文スロットの置かれた有向アークを置換すると、音声認識復号化ネットワークを得る。
【0154】
垂直型キーワードネットワークと構文復号化ネットワークの置換構文スロットとの左右ノードをそれぞれ接続するときに、接続後の隣接する各対のノード間の有向アークに有効な発音情報が格納されることを保証するために、本出願の実施例では、垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと置換構文スロットの左ノードとを有向アークを介して接続し、接続された各有向アークにそれぞれ垂直型キーワードネットワークの開始ノードの各出るアークの発音情報を格納すること、及び、垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと置換構文スロットの右ノードとを有向アークを介して接続し、接続される各有向アークにそれぞれ垂直型キーワードネットワークの終了ノードの各入るアークの発音情報を格納することにより、音声認識復号化ネットワークを得る。
【0155】
より好ましい実施形態として、垂直型キーワードネットワークを構文復号化ネットワークに挿入するときの効率を高めるために、本出願の実施例では、垂直型キーワードネットワークにおける各キーワードの最初のアーク及び最後のアークにそれぞれ当該キーワードに対応する唯一の識別子を格納し、当該唯一の識別子として例示的に当該キーワードのハッシュコードを設定することができる。例えば、
図10に示す発音レベルの人名ネットワークにおいて、ノード(0、1)間の有向アーク、及びノード(7、8)間の有向アークにそれぞれ人名「Jack Alen」 に対応するハッシュコードが格納されている。
【0156】
それに応じて、本出願の実施例では、またネットワークに挿入されたキーワード情報集合を設定し、当該ネットワークに挿入されたキーワード情報集合に、構文復号化ネットワークに挿入されたキーワードの唯一の識別子、及び当該唯一の識別子の置かれた有向アークの当該構文復号化ネットワークにおける左右ノード番号をそれぞれ格納する。
【0157】
例示的には、上記のネットワークに挿入されたキーワード情報集合は、key:value構造のHashMap格納構造を採用してもよい。keyは上記の垂直型キーワードに対応するハッシュコードであり、valueは当該ハッシュコードの置かれた有向アークのノード番号のペア集
合であり、開始時のHashMapは空であり、全体の認識サービスプロセスにおいて、HashMapはすべての動的に渡された垂直型キーワードフレーズのハッシュコード及びノード番号のペアを一意に格納したが、ユーザID及びユーザIDと垂直型キーワード集合とのマッピング関係を記録していない。
【0158】
上記のネットワークに挿入されたキーワード情報集合の設定により、構文復号化ネットワークに挿入された垂直型キーワード情報の明確化が容易になり、すなわち音声認識復号化ネットワーク内に存在している垂直型キーワード情報の明確化が容易になる。これにより、垂直型キーワードネットワークの挿入を実行するたびに、当該ネットワークに挿入されたキーワード情報集合を調べ、垂直型キーワードを挿入されたかどうかを確認する。挿入する垂直型キーワードが音声認識復号化ネットワーク内に存在していることを確認した場合、現在の垂直型キーワードの挿入を取り消し、他の垂直型キーワードの挿入操作を継続して実行する。
【0159】
上記の考えに基づき、垂直型キーワードネットワークを構文復号化ネットワークに挿入するとき、垂直型キーワードネットワークの開始ノードの各出るアークをトラバースし、トラバースされた各出るアークについて、当該出るアークの唯一の識別子及びネットワークに挿入されたキーワード情報集合に基づき、当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されたどうかを決定する。
【0160】
当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されていない場合、トラバースされた当該出るアークの右ノードと前記置換構文スロットの左ノードを有向アークを通じて接続し、当該有向アークにトラバースされた当該出るアークの発音情報を格納し、かつ当該有向アークの両端ノードの入るアーク又は出るアーク数を更新する。
【0161】
例示的には、人名ネットワークを構文復号化ネットワークに挿入するときに、人名ネットワークにおける開始ノードの各出るアークをトラバースし、トラバースされた各出るアークについて、当該出るアークの人名ハッシュコードを取得し、当該ハッシュコードとネットワークに挿入されたキーワード情報集合におけるすべてのハッシュコードとを比較し、当該ハッシュコードとネットワークに挿入されたキーワード情報集合におけるいずれかのハッシュコードがマッチングする場合、当該ハッシュコードに対応する人名が構文復号化ネットワークに挿入されたことを意味し、この場合、当該出るアークをスキップし、次の出るアークのハッシュコード判断を実行する。
【0162】
トラバースした出るアークのハッシュコードとネットワークに挿入されたキーワード情報集合におけるすべてのハッシュコードがいずれもマッチングしない場合、当該ハッシュコードに対応する人名が構文復号化ネットワークに挿入されていないことを意味し、この場合、トラバースした当該出るアークの右ノードと構文復号化ネットワークの置換構文スロットの左ノードを有向アークを通じて接続し、かつ接続する有向アークにトラバースした当該出るアークの発音情報を格納し、かつ当該有向アークの両端ノードの入るアーク又は出るアーク数を更新する。
【0163】
上記のプロセスは、垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと構文復号化ネットワークの置換構文スロットの左ノードとの接続を実現する。
【0164】
それに応じて、垂直型キーワードネットワークの終了ノードの各入るアークについて、
順次トラバースし、トラバースされた各入るアークについて、当該入るアークの唯一の識別子及びネットワークに挿入されたキーワード情報集合に基づき、当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されたどうかを決定する。
【0165】
当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されていない場合、トラバースした当該入るアークの左ノード及び前記置換構文スロットの右ノードを有向アークを通じて接続し、当該有向アークにトラバースした当該入るアーク上の発音情報を格納する。
【0166】
例示的には、人名ネットワークを構文復号化ネットワークに挿入するときに、人名ネットワークにおける終了ノードの各入るアークをトラバースし、トラバースした各入るアークについて、当該入るアークの人名ハッシュコードを取得し、当該ハッシュコードとネットワークに挿入されたキーワード情報集合におけるすべてのハッシュコードとを比較し、当該ハッシュコードとネットワークに挿入されたキーワード情報集合におけるいずれかのハッシュコードがマッチングする場合、当該ハッシュコードに対応する人名が構文復号化ネットワークに挿入されたことを意味し、この場合、当該入るアークをスキップし、次の入るアークのハッシュコード判断を実行する。
【0167】
トラバースされた入るアークのハッシュコードとネットワークに挿入されたキーワード情報集合におけるすべてのハッシュコードがいずれもマッチングしない場合、当該ハッシュコードに対応する人名が構文復号化ネットワークに挿入されていないことを意味し、この場合、トラバースされた当該入るアークの左ノードと構文復号化ネットワークの置換構文スロットの右ノードを有向アークを通じて接続し、かつ接続する有向アークにトラバースした当該入るアークの発音情報を格納し、かつ当該有向アークの両端ノードの入るアーク又は出るアーク数を更新する。
【0168】
上記のプロセスは、垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと構文復号化ネットワークの置換構文スロットの右ノードとの接続を実現する。
【0169】
上記の処理により、垂直型キーワードネットワークにおける各キーワードは構文復号化ネットワークに挿入される。具体的に実施する際に、上述した垂直型キーワードネットワークの開始ノード及び終了ノードに対する挿入の実行順序は自由に設定されることができ、例えば、垂直型キーワードネットワークの開始ノードに対し挿入操作を実行することもできるし、垂直型キーワードネットワークの終了ノードに対して挿入操作を実行することもできる。また、同時に実行することもできる。
【0170】
さらに、垂直型キーワードネットワークにおけるキーワードが構文復号化ネットワークに挿入されたとき、つまり当該キーワードの置かれたネットワークパスの最初のアークの右ノードと構文復号化ネットワークの置換構文スロットの左ノードが接続され、及び当該キーワードの置かれたネットワークパスの最後のアークの左ノードと構文復号化ネットワークの置換構文スロットの右ノードが接続された後、本出願の実施例では、当該キーワードの唯一の識別子と、当該唯一の識別子の置かれた有向アークに関し当該構文復号化ネットワークにおける左右ノード番号とを、それぞれネットワークに挿入されたキーワード情報集合に格納する。
【0171】
例えば、
図10に示す発音レベルの人名ネットワークについて、人名「Jack Alen」の置
かれたネットワークパスのノード1と
図8に示す構文復号化ネットワークの置換構文スロットの左ノード10が接続され、「Jack Alen」の置かれたネットワークパスのノード7と
図8
に示す構文復号化ネットワークの置換構文スロットの右ノード11が接続された後、人名「Jack Alen」のハッシュコードをkeyとして、当該ハッシュコードの置かれた有向アークの
左右ノード番号をvalueとして、ネットワークに挿入されたキーワード情報集合に格納す
る。
【0172】
本出願の実施例では、クラウドサーバで音声認識復号化ネットワークを構築するため、ユーザはクラウドサーバに垂直型キーワード集合をアップロードすることができ、クラウドサーバはユーザがアップロードした垂直型キーワード集合に基づき、大規模又は超大規模の音声認識復号化ネットワークを構築し、さまざまなユーザの呼び出しニーズを満足させる。
【0173】
ネットワークに挿入されたキーワード情報集合の設定により、垂直型キーワードを音声認識復号化ネットワークに挿入するときの効率を高めるとともに、現在のユーザの音声認識ニーズに応じて特定の復号化パスを選択しやすくなる。
【0174】
例えば、ユーザが音声で電話をかける業務の場面で、上記の解決案により音声認識復号化ネットワークが構築されるときに、現在の会話で動的に伝送されたコンタクトリストフレーズ情報及びその他の過去会話のコンタクトリスト情報の両方を含み、そしてハッシュコードの形でネットワークに挿入されたキーワード情報集合に保存されている。
【0175】
現在の会話を認識するときにユーザが電話コンタクトリストに登録された誰に電話をかけたいかを正しく認識するよう、当然現在伝送されたコンタクトリストの範囲内で認識を行う。この場合、復号化パスを現在伝送されたコンタクトリストの範囲内に制限するよう、音声認識復号化ネットワークのパスを更新する。
【0176】
具体的に実施形態は以下を含む。
ネットワークに挿入されたキーワード情報集合における各唯一の識別子をトラバースし、トラバースされた唯一の識別子が前記認識対象音声の属する業務の場面での垂直型キーワード集合における任意キーワードの唯一の識別子でない場合、当該唯一の識別子に対応する左右ノード番号間の有向アークを切り離す。
【0177】
上記のユーザが音声で電話をかける業務の場面を例として、ユーザ音声を復号化するため、ユーザのコンタクトリスト及び構文復号化ネットワークを用いて音声認識復号化ネットワークを構築する。現在のコンタクトリストを音声認識復号化ネットワークに挿入した後、ネットワークに挿入されたキーワード情報集合における各ハッシュコードをトラバースし、トラバースされたハッシュコードが今回伝送されたコンタクトリストに登録されている人名のハッシュコードである場合、処理しないが、今回伝送されたコンタクトリストに登録されている人名のハッシュコードでない場合、ネットワークに挿入されたキーワード情報集合を調べ、当該ハッシュコードに対応する左右ノード番号を決定し、当該左右ノード番号間の有向アークを切り離す。すると、実際に復号化に関与する音声認識復号化ネットワークにおいて、現在伝送されたコンタクトリストの置かれた復号化パスだけが導通状態であるため、復号化を実行すると現在のコンタクトリストに記載されているいずれか人名に電話をかけるという音声認識結果が得られ、ユーザの期待に応える。
【0178】
このように、上記の処理により、現在の音声を復号化するときに、復号化パスを今回伝送された垂直型キーワード集合の範囲内に収めるため、パスの検索範囲を絞り、復号化の効率を高め、復号化の誤差を減らす。
【0179】
上記の各音声認識方法の実施例に関する説明をまとめると、垂直型キーワード集合及び構文復号化ネットワークに基づいて構築された音声認識復号化ネットワークは、垂直型キーワードに関わる音声認識を実現するための主要ネットワークだと考えられる。
【0180】
本出願の発明者は研究により、当該音声認識復号化ネットワークには、垂直型キーワードの誤作動とネットワークのカバー率の不十分との2つの問題があることを発見した。
【0181】
誤作動の問題は、定型文の音声認識復号化ネットワークに基づく音声認識において最も一般的な問題であり、一番解決しにくい問題である。誤作動とは、オーディオの実際の内容が定型文の音声認識復号化ネットワークにおける構文でないが、最終的な結果として、定型文の音声認識復号化ネットワークにおける結果が得られたことを意味する。垂直型キーワードの誤作動とは、実際の結果の中に垂直型キーワードがなく、又は垂直型キーワードが今回伝送された垂直型キーワード集合内に存在しないが、最終的な結果として、音声認識復号化ネットワークの結果が勝ち越せ、間違った垂直型キーワードが得られた。例えば、電話をかける場面で、実際の結果の中に人名がなく、又は人名が今回伝送されたコンタクトリストに存在しないが、最終的な結果として、音声認識復号化ネットワーク出力の結果が勝ち越せ、間違った人名が得られた。
【0182】
垂直型キーワードの誤作動は一般的に次の4種類がある。(1)垂直型キーワードと真実の結果の発音が同じの誤作動。(2)垂直型キーワードと真実の結果の発音が近い誤作動
。(3)垂直型キーワードと真実の結果の発音がまったく違うが、インセンティブポリシ
ーの導入によって発生した誤作動。(4)真実の結果の中に垂直型キーワードがないが、
音声認識復号化ネットワークから垂直型キーワードが認識された誤作動。
【0183】
ここで、上記の4つ目の誤作動について、根本的な原因として、音声認識復号化ネット
ワークにおける構文のカバー率の不十分によるものだと考えられる。
【0184】
当該垂直型キーワードの誤作動を考慮し、本出願の実施例では、音声認識復号化ネットワークの構文のカバー率が足りないという問題について、解決案を提示している。その他の誤作動について、下述した実施例で別の解決案により解決と改善を行う。
【0185】
これまで述べてきたように、音声認識復号化ネットワークは構文復号化ネットワークに基づいて構築されたものであり、つまり構文をもとに構築されたものであり、このようなネットワーク構築方法はマッチングにより音声構文を正確的に取得できるという利点があるが、ネットワーク構築用のコーパスだけですべての場面でのすべての構文をカバーしにくいため、構文がネットワーク内になければ認識できないという欠点もある。したがって、音声認識復号化ネットワークは構文のカバー率が足りないという課題がある。
【0186】
一方、汎用音声認識モデルは大量のデータで訓練されたものであり、それに拡張的で非常に豊富な構文がある。特定の業務の場面で、汎用音声認識モデルの結果の誤りは垂直型キーワードの認識ミスが多い。汎用音声認識モデルにはコーパス訓練時の言語得点が含まれ、コーパスから好ましい垂直型キーワードの得点が容易にあてはめられない。汎用音声認識モデルで認識された垂直型キーワードは間違っているが、その構文が正しいものであり、構文は訓練データで当てはめられるからである。
【0187】
つまり、汎用音声認識モデルの認識結果である構文情報は信頼性が高いが、音声認識復号化ネットワークの認識結果である垂直型キーワード情報は信頼性が高い。この考え方に沿って、本案は汎用音声認識モデルの構文をもとに、音声認識復号化ネットワークの構文のカバー率が足りないという問題の解決方法を提示する。
【0188】
具体的解決案は、それぞれ本出願の技術的考えで構築された音声認識復号化ネットワーク及び汎用音声認識モデルを利用し、認識対象音声の音響学状態系列を復号化し、第1の
音声認識結果及び第2の音声認識結果を得たうえで、第2の音声認識結果に基づき、第1の
音声認識結果を修正することである。
【0189】
これまで述べてきたように、第1の音声認識結果の垂直型キーワード内容の方が正確的
であるが、第2の音声認識結果の構文情報の方が正確的である。したがって、第2の音声認識結果を利用し、第1の音声認識結果を修正するときに、第1の音声認識結果の非垂直型キーワード内容を修正すると、構文がより正確的になる。
【0190】
したがって、本出願の実施例では、第1の音声認識結果の内容を垂直型キーワード内容
及び非垂直型キーワード内容に分類し、それに応じて、第2の音声認識結果と第1の音声認識結果の内容の対応関係により、第2の音声認識結果の内容を参考テキスト内容及び非参
考テキスト内容に分類し、ここで、第2の音声認識結果の参考テキスト内容とは、第2の音声認識結果のうち、第1の音声認識結果の非垂直型キーワードの内容とマッチングしてい
るテキスト内容を指す。
【0191】
第1の音声認識結果の非垂直型キーワード内容とマッチングしているテキスト内容は、
具体的に、第1の音声認識結果の非垂直型キーワード内容の文字列と最も類似しているも
の、又は類似度が設定された閾値よりも大きいものであってもよい。
【0192】
上記のテキスト内容の分類に基づき、上記の第2の音声認識結果に基づき第1の音声認識結果を修正することは、具体的に、第2の音声認識結果の参考テキスト内容を利用し、第1の音声認識結果の非垂直型キーワード内容を修正し、修正された後の第1の音声認識結果
を得ることである。
【0193】
上記の修正プロセスは、具体的に次のステップC1~C3を実行して実現される。
【0194】
C1:前記第1の音声認識結果から垂直型キーワード内容及び非垂直型キーワード内容を
決定し、かつ、前記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それらを参考テキスト内容とする。
【0195】
好ましい実施形態として、本出願の実施例では、編集距離アルゴリズムに基づき、第1
の音声認識結果及び第2の音声認識結果をマッチングし、第2の音声認識結果から参考テキスト内容を決定する。
【0196】
具体的には、まず、編集距離アルゴリズムに基づき、第1の音声認識結果と第2の音声認識結果との間の編集距離行列を決定する。当該編集距離行列には、第1の音声認識結果の
各文字と第2の音声認識結果の各文字との間の編集距離が含まれる。
【0197】
次に、当該編集距離行列及び第1の音声認識結果の非垂直型キーワード内容に基づき、
第2の音声認識結果から第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とする。
【0198】
第1の音声認識結果の垂直型キーワードの位置によって、第1の音声認識結果の非垂直型キーワード内容は、垂直型キーワードの前の文字列、及び/又は、垂直型キーワードの後
ろの文字列に分類されると考えられる。
【0199】
垂直型キーワードの前の文字列を例として、当該部分の文字列及び上記の編集距離行列に基づき、第2の音声認識結果から当該部分の文字列との編集距離が最も小さい文字列、
すなわち当該部分の文字列に対応する参考テキスト内容を選別する。同様に、垂直型キーワードの後ろの文字列についても、上記の方法でそれに対応する参考テキスト内容を決定することができる。
【0200】
C2:前記第2の音声認識結果の参考テキスト内容及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、修正された後の非垂直型キーワード内容を決定する。
【0201】
選択できる実施形態として、本出願の実施例では、第2の音声認識結果の参考テキスト
内容と第1の音声認識結果の非垂直型キーワード内容の文字の違いにより、第2の音声認識結果の対象テキスト内容又は第1の音声認識結果の非垂直型キーワード内容を、修正され
た後の非垂直型キーワード内容として決定する。
【0202】
ここで、第2の音声認識結果の対象テキスト内容とは、第2の音声認識結果のうち、第1
の音声認識結果の非垂直型キーワード内容の位置に対応するテキスト内容を指す。
【0203】
具体的には、第2の音声認識結果の対象テキスト内容に関し、第2の音声認識結果の中での位置は、第1の音声認識結果の非垂直型キーワード内容に関し、第1の音声認識結果の中での位置と同じである。
【0204】
例えば、第1の音声認識結果の非垂直型キーワード内容が第1の音声認識結果の垂直型キーワードの前にあるテキスト内容とすると、第2の音声認識結果の対象テキスト内容は、
具体的に、第1の音声認識結果の垂直型キーワードの位置が第2の音声認識結果の中での位置の前にマッピングされたテキスト内容である。ここで、第1の音声認識結果の中での垂
直型キーワードの位置に関し、第2の音声認識結果へのマッピングは、上記の編集距離行
列に基づいて実現される。
【0205】
以下、電話をかける場面を例として、修正された後の非人名内容の決定プロセスを説明する。下述したように、第1の音声認識結果の人名に関し、第1の音声認識結果である文の中の位置を例として説明し、特に第1の音声認識結果のうち、人名の前にある文字列の修
正処理プロセスを説明する。下述した説明を参照し、人名の後の文字列もそのような修正処理を行ってもよい。
【0206】
第1の音声認識結果と第2の音声認識結果との間の編集距離行列、及び第1の音声認識結
果の非垂直型キーワード内容に基づき、第2の音声認識結果から参考テキスト内容を決定
した後、第2の音声認識結果の参考テキスト内容と第1の音声認識結果の非垂直型キーワード内容を比較し、第2の音声認識結果の参考テキスト内容が第1の音声認識結果の非垂直型キーワード内容と同じかどうかを決定する。
【0207】
同じでれば、前記第2の音声認識結果の対象テキスト内容を、修正した後の非垂直型キ
ーワード内容として決定する。
【0208】
同じでなければ、前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が多いか、かつ、両者の文字数の差が設定された閾値を超えていないかを決定する。
【0209】
前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が多く、かつ、両者の文字数の差が設定された閾値を超えていない場合、前記第2
の音声認識結果の対象テキスト内容を、修正された後の非垂直型キーワード内容として決定する。
【0210】
前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が少なく、及び/又は両者の文字数の差が設定された閾値を超えた場合、前記第1の音声認識結果の非垂直型キーワード内容を、修正された後の非垂直型キーワード内容として決定する。
【0211】
具体的には、
図11に示す修正処理プロセスを参照し、第1の音声認識結果と第2の音声認識結果との間の編集距離行列、及び第1の音声認識結果の人名の前にある文字列に基づき
、人名の前にある文字列と第2の音声認識結果の局所的な最大サブ系列を計算し、当該局
所的な最大サブ系列は第2の音声認識結果から決定された参考テキスト内容である。
【0212】
次に、当該最大サブ系列が人名の前の文字列であるか、つまり当該参考テキスト内容が人名の前の文字列と同じであるかどうかを判断する。
【0213】
同じであれば、第2の音声認識結果の対象テキスト内容を、修正された後の人名の前の
文字列として決定する。この場合、第2の音声認識結果の対象テキスト内容は、具体的に
、第1の音声認識結果での人名の位置が、第1の音声認識結果と第2の音声認識結果との間
の編集距離行列に基づき、第2の音声認識結果での位置の前にマッピングされるテキスト
内容である。
【0214】
同じでなければ、当該第2の音声認識結果が当該人名の前の文字列よりも文字数が多い
かどうかを判断する。
【0215】
当該第2の音声認識結果の文字数が人名の前の文字列の文字数よりも少ない場合、第1の音声認識結果の人名の前の文字列をそのままに保持し、つまり、第1の音声認識結果の人
名の前の文字列を修正された後の人名の前の文字列として決定する。
【0216】
第2の音声認識結果の文字数が人名の前の文字列の文字数よりも多い場合、さらに両者
の文字列数の差が設定された閾値を超えているかどうかを判断し、具体的には、第2の音
声認識結果の文字数が人名の前の文字列の文字数を超えた分について、人名の前の文字列の文字数の20%を超えているかどうかを判断する。
【0217】
当該設定された閾値を超えた場合、第1の音声認識結果の人名の前の文字列をそのまま
に保持し、つまり、第1の音声認識結果の人名の前の文字列を修正された後の人名の前の
文字列として決定する。
【0218】
当該設定された閾値を超えていない場合、第2の音声認識結果の対象テキスト内容を修
正された後の人名の前の文字列として決定する。
【0219】
同様に、第1の音声認識結果の人名の後ろの文字列についても、上述した説明を参照し
、修正された後の人名の後ろの文字列を決定する。
【0220】
C3:前記修正された後の非垂直型キーワード内容、及び前記垂直型キーワード内容を組み合わせて、修正された後の第1の音声認識結果を得る。
【0221】
具体的には、修正された後の非垂直型キーワード内容、及び垂直型キーワード内容を、元の非垂直型キーワード内容と垂直型キーワード内容との位置関係により組み合わせて得られた組み合わせ結果を、修正された後の第1の音声認識結果とする。
【0222】
例えば、
図11に示すように、修正された後の人名の前の文字列、人名文字列及び修正された後の人名の後の文字列を順次接合・組合せると、修正された後の第1の音声認識結果
を得る。
【0223】
上記の処理プロセスにより、第1の音声認識結果を修正すると、音声認識復号化ネット
ワークの出力結果により正確的な垂直型キーワード情報が含まれるほかに、汎用音声認識
モデルで認識された正確的な構文情報を融合でき、それにより音声認識復号化ネットワークの認識結果がより正確的で、構文のカバー率が高くなり、また、音声認識復号化ネットワークの構文のカバー率が低いときに発生する認識の誤作動問題を解決することができる。
【0224】
上記の実施例の説明によると、複数のモデルでそれぞれ認識対象音声の音響学状態系列を復号化するときに、音声認識復号化ネットワークの結果が最終の勝負に勝ち越せるよう、音声認識復号化ネットワークの結果にインセンティブ(音響学インセンティブ及び言語インセンティブを含む)を与える場合がある。インセンティブプロセスにおいて、適切なインセンティブを実行しないと、インセンティブが不十分になり、又はインセンティブを与えすぎて誤作動が発生し、例えば、上述した第2種類及び第3種類の垂直型キーワード誤作動((2)垂直型キーワードと真実の結果の発音が近い誤作動及び(3)垂直型キーワードと真実の結果の発音がまったく違うが、インセンティブポリシーの導入によって発生した誤作動)が発生する場合がある。
【0225】
上記の問題を改善し、合理的なインセンティブを行うことで、音声認識復号化ネットワークの結果が他のモデルの結果に負けないことを保証し、過剰なインセンティブによる音声認識復号化ネットワークの認識誤作動をできる限り回避するよう、本出願の実施例では、上記のインセンティブ構想を研究し、好ましいインセンティブ構想を提案する。
【0226】
本出願の実施例では、まず、音声認識復号化ネットワーク及び汎用音声認識モデルを利用し、認識対象音声の音響学状態系列を復号化するときに、音声認識復号化ネットワークから出力された第1の音声認識結果、及び汎用音声認識モデルから出力された第2の音声認識結果から最終の音声認識結果を決定するとき、
図12に示すプロセスを参照し、次のステップD1~D3の処理により、最終の音声認識結果を決定する。
【0227】
D1:前記第1の音声認識結果及び前記第2の音声認識結果を比較し、前記第1の音声認識
結果及び前記第2の音声認識結果の一致度を決定し、前記第1の音声認識結果及び前記第2
の音声認識結果の一致度に基づき、前記第1の音声認識結果の信頼度を決定する。
【0228】
具体的には、第1の音声認識結果及び第2の音声認識結果から編集距離アルゴリズムにより文字編集距離を計算し、両者の一致度を決定する。
【0229】
第1の音声認識結果及び第2の音声認識結果の一致度が決定された後、第1の音声認識結
果及び第2の音声認識結果の一致度をもとに、第1の音声認識結果の信頼度を決定する。
【0230】
例示的には、第1の音声認識結果の信頼度を決定するときに、まず第1の音声認識結果及び第2の音声認識結果の一致度が設定された一致度閾値より大きいかどうかを判断する。
当該一致度閾値が複数のテスト集合から統計された認識への寄与度の最も大きい1つの値
である。
【0231】
設定された一致度閾値より大きい場合、前記第1の音声認識結果の各フレームの音響学
得点に基づき、計算により前記第1の音声認識結果の信頼度を決定する。すなわち、第1の音声認識結果の各フレームの音響学得点の累積和又は加重累積和を計算し、累積和の結果を第1の音声認識結果の信頼度とする。
【0232】
設定された一致度閾値より大きくない場合、前記第1の音声認識結果の垂直型キーワー
ド内容及び前記第2の音声認識結果を利用し、復号化ネットワークを構築し、当該復号化
ネットワークを利用し、前記音響学状態系列を再復号化し、復号化の結果で前記第1の音
声認識結果を更新し、更新された後の第1の音声認識結果の各フレームの音響学得点に基
づき、計算により第1の音声認識結果の信頼度を決定する。
【0233】
具体的には、第1の音声認識結果及び第2の音声認識結果の一致度が設定された一致度閾値より大きくない場合、第1の音声認識結果の垂直型キーワード及び第2の音声認識結果の構文、つまり第2の音声認識結果のうち、垂直型キーワードに対応する内容以外のものを
利用し、1つの小型の復号化ネットワークを構築する。当該小型の復号化ネットワークは1つの復号化パスしか有しないことが分かる。
【0234】
当該小型の復号化ネットワークを利用し、上記の認識対象音声の音響学状態系列を再復号化し、復号化結果を得、当該復号化結果を新しい第1の音声認識結果とする。次に、更
新された後の第1の音声認識結果の各フレームに関し、復号化時の音響学得点を利用し、
各フレームの音響学得点の累積和又は加重累積和を計算し、最終的に決定される第1の音
声認識結果の信頼度とする。
【0235】
第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きい場合、ステップD2の「前記第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基
づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終的な音声認識結果を選別する」を実行する。
【0236】
具体的には、上記の信頼度の閾値とは、テストで決定された、第1の音声認識結果が他
の音声認識結果との点数勝負に勝つような得点閾値を指す。
【0237】
第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きい場合、第1の音声認識結果がその信頼度をもって、他の音声認識結果の音響学得点との勝負に簡単に負けないことを意味する。したがって、この場合、直接的に第1の音声認識結果の音響学得点及
び第2の音声認識結果の音響学得点に基づき、両者の音響学得点で勝負をかけ、その中か
ら選別された1つ又は複数の音響学得点が最も高い音声認識結果を、最終の音声認識結果
とする。
【0238】
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きくない場合、
ステップD3の「前記第1の音声認識結果に対する音響学得点のインセンティブを行い、イ
ンセンティブを行った後の第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終の音声認識結果を選別する」を実行する。
【0239】
具体的には、第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きくな
い場合、当該第1の音声認識結果の信頼度が低い、つまりその音響学得点が低いことを意
味し、これで他の音声認識結果の音響学得点との勝負に負けてしまい、最終的に選別された音声認識結果の中で、第1の音声認識結果に含まれるより正確的な垂直型キーワード情
報が失われ、認識ミス、特に垂直型キーワードの認識ミスが発生する可能性がある。
【0240】
この場合、第1の音声認識結果がその後の音響学得点との勝負に簡単に負けないよう、
本出願の実施例では、第1の音声認識結果に対する音響学得点のインセンティブを行い、
具体的には、第1の音声認識結果の垂直型キーワードの置かれたスロットの音響学得点に
インセンティブを行い、第1の音声認識結果の垂直型キーワードの置かれたスロットの音
響学得点を一定の割合で上げることで、第1の音声認識結果の音響学得点が向上し、第1の音声認識結果がその後他の音声認識結果の音響学得点との勝負に簡単に負けないことを保証する。
【0241】
第1の音声認識結果に対する音響学得点のインセンティブを行った後、インセンティブ
を行った後の第1の音声認識結果の音響学得点及び第2の音声認識結果の音響学得点に基づき、両者の音響学得点で勝負をかけ、その中から選別された1つ又は複数の音響学得点が
最も高い音声認識結果を最終の音声認識結果とする。
【0242】
以下、上記の各実施例に係る第1の音声認識結果に対する音響学得点のインセンティブ
に関する具体的な実施形態について説明する。
【0243】
第1の音声認識結果に対する音響学得点のインセンティブを行うことは、第1の音声認識結果の垂直型キーワードの置かれたスロットの音響学得点にインセンティブを行うことを意味し、具体的には第1の音声認識結果の垂直型キーワードの置かれたスロットの音響学
得点にインセンティブ係数をかけた後、インセンティブを行った後の垂直型キーワード音響学得点をもとに、再計算により第1の音声認識結果の音響学得点を決定する。
【0244】
具体的には、次のE1~E3の処理を実行することで、第1の音声認識結果に対する音響学
得点のインセンティブを実現することができる。
【0245】
E1:少なくとも前記第1の音声認識結果の垂直型キーワード内容及び非垂直型キーワー
ド内容に基づき、音響学インセンティブ係数を決定する。
【0246】
音響学インセンティブ係数は、第1の音声認識結果に対する音響学得点のインセンティ
ブを行うときの強度を決定し、インセンティブ係数が大きすぐると、過剰なインセンティブになり、上述した認識誤作動問題が発生し、インセンティブ係数が小さすぎると、インセンティブの目的が達成されず、第1の音声認識結果が他の音声認識結果との点数勝負に
負けてしまう。
【0247】
したがって、音響学インセンティブ係数の決定は、上記の実施例に係る垂直型キーワードの誤作動問題、及び音響学勝負で重要な垂直型キーワード情報が失われるという問題を解決するキーとなっている。
【0248】
本出願の実施例では、音響学インセンティブ係数を決定するには、少なくとも第1の音
声認識結果の垂直型キーワード内容及び非垂直型キーワード内容に基づき決定し、また、実際の業務の場面や実際の業務の場面での経験パラメータなども考慮して決定するように設定されている。
【0249】
選択できる実施形態として、認識対象音声の属する業務の場面での音響学得点のインセンティブ事前係数、前記第1の音声認識結果の垂直型キーワードの文字数、音素数、及び
前記第1の音声認識結果のすべての文字数、すべての音素数に基づき、計算により音響学
インセンティブ係数を決定することができる。
【0250】
具体的には、当該実施形態において、次の式で音響学インセンティブ係数RCを求める。
RC=1.0+α*{β*(SlotWC/SentWC)+(1-β)*(SlotPC/SentPC)}
【0251】
ここで、αは場面の事前係数であり、本出願の実施例では、認識対象音声の属する業務の場面でのインセンティブ事前係数であり、当該係数の符号はそれぞれ正方向インセンティブ及び逆方向インセンティブを表す。事前係数αはオープンパラメータとして、認識システムの需要に応じて、認識会話を行うたびに動的な設定を行うことができる。例えば、自然言語処理(NLP)技術に基づき、上層システムはユーザ対話時のコンテクストにより
ユーザの行動意図を予測し、当該係数に対し、さまざまな場面での要求を満たすよう、リアルタイムで動的な調節を行う。
【0252】
また、垂直型キーワードに関わる業務の場面での垂直型キーワードについてワード数及びワード発音音素の長さが一致しない場合があるため、音響学インセンティブ係数の汎化能力及び各スロットでの適応能力を向上させ、不合理なインセンティブを回避するよう、音響学インセンティブ係数の設計において、垂直型キーワードの置かれたスロットのワード数(word count in slot:SlotWC)と音素数(phoneme count in slot:SlotPC)、す
なわち垂直型キーワードの文字数及び音素数、及び文の中のワード数(word count in sentence:SentWC)と音素数(phoneme count in sentence:SentPC)、(すなわち、第1の音声認識結果のすべての文字数及びすべての音素数)の間の比例関係を十分に考慮し、文字数及び音素数にそれぞれ影響重みβを設定し、文字及び音素の影響重みの和が1になる
。このような方式は音響学インセンティブ係数の範囲を制限し、異なる長さの文及びキーワード下インセンティブの自己適応性を実現する。特定の場面で、算出されたインセンティブ係数RCが1.0を超えた場合、音声認識復号化ネットワークから出力された第1の音声認識結果に偏る認識結果が得られ、そうでない場合、他のモデルから出力された結果に偏る。また、音響学得点のインセンティブは、垂直型キーワードの置かれたスロットの音響学得点に対するインセンティブであり、関係のないコンテクストの干渉が排除されることで、過剰なインセンティブによる認識誤作動問題を回避することができる。
【0253】
別の選択できる実施形態として、まず第1の音声認識結果の垂直型キーワード内容の音
素数と音響学得点、及び第1の音声データ結果の非垂直型キーワード内容の音素数量と音
響学得点に基づき、第1の音声認識結果の垂直型キーワード内容の得点信頼度を算出し、
次に、第1の音声認識結果の垂直型キーワード内容の得点信頼度に基づき、音響学インセ
ンティブ係数を決定する。
【0254】
具体的には、音声認識結果の音響学状態系列を分析すると、正しく認識されないワードの状態系列の得点が低いことが分かり、これは正しく認識された結果は得点も最も高くなる原因になっている。つまり、正しく認識されない結果の音響学系列の平均得点が低い。
【0255】
垂直型キーワードに関わる業務の場面において、垂直型キーワードが正しく認識されないが、全体的な構文の認識は正常であった。つまり、全体的な音声認識結果の中で、垂直型キーワードの局所認識効果が文全体の非垂直型キーワード部分の認識効果より悪い。本案は、この考え方に沿って、垂直型キーワード内容の得点信頼度を用いて垂直型キーワードが実際の結果の発音に近いという誤作動問題を解決する構想を提案する。
【0256】
垂直型キーワードの得点信頼度に関する提案は、音声認識復号化ネットワークから出力された第1の音声認識結果の中の垂直型キーワード及び非垂直型キーワードを分割し、そ
れぞれ垂直型キーワードの音響学総得点と垂直型キーワードが占めている有効音響学モデル化因子数の比、及び非垂直型キーワード部分の音響学総得点と非垂直型キーワード部分が占めている有効音響学モデル化因子数の比を計算した後、両者の割り算を行い、垂直型キーワードの得点信頼度の値を得る。
【0257】
上記の垂直型キーワードの得点信頼度S
cは次の式で計算される。
【数1】
【0258】
ここで、第1の音声認識結果の垂直型キーワードの音響学得点をSp、垂直型キーワード
の置かれたスロットが占めている有効音響学音素数をNp、非垂直型キーワードの総音響学
得点をSa、非垂直型キーワードの置かれたスロットが占めている有効音響学音素数をNaで記す。
【0259】
第1の音声認識結果の垂直型キーワード内容の得点信頼度を得た後、当該得点信頼度に
基づき、当該垂直型キーワードに対しインセンティブを行うための音響学インセンティブ係数を決定することができる。
【0260】
例示的な実施形態として、第1の音声認識結果の垂直型キーワード内容の得点信頼度と
予め設定された信頼度の閾値を比較する。当該信頼度の閾値は、音響学インセンティブ係数による認識誤作動の確率によって決定される。第1の音声認識結果の垂直型キーワード
内容の得点信頼度が当該信頼度の閾値を超えた場合、当該垂直型キーワードによって誤作動が発生しやすいと考えられ、当該垂直型キーワードの音響学インセンティブ係数を決定するときに、音響学インセンティブ係数を下げなければならない。また、第1の音声認識
結果の垂直型キーワード内容の得点信頼度が当該信頼度の閾値を超えていない場合、当該垂直型キーワードが勝負に負けやすいと考えられ、当該垂直型キーワードの音響学インセンティブ係数を決定するときに、音響学インセンティブ係数を上げなければならない。
【0261】
さらに、第1の音声認識結果の垂直型キーワード内容の得点信頼度に基づき、音響学イ
ンセンティブ係数を決定するときに、第1の音声認識結果の垂直型キーワード内容の得点
信頼度、及び予め決定された音響学インセンティブ係数と、認識効果や認識誤作動との間の関係を結合し、音響学インセンティブ係数の決定に共同で使用することができる。
【0262】
具体的には、本出願の実施例では、複数のテスト集合の認識結果を分析し、音響学インセンティブ係数の大きさの認識効果や認識誤作動への影響を統計し、音響学インセンティブ係数と、認識効果や認識誤作動との間の関係を決定する。
【0263】
音響学インセンティブ係数と、認識効果や認識誤作動との間の関係に基づき、音響学インセンティブ係数の具体値を決定するときに、認識率の向上及び誤作動の低減にバランスが取れる1つの値を選択する。選択原則は、誤作動の数が認識効果の向上数よりもはるか
に少ないことを保証しなければならない。本出願の実施例で選択された音響学インセンティブ係数を使用すると、認識誤作動の数が認識効果の向上数の100分の1になっている。
【0264】
E2:前記音響学インセンティブ係数を利用し、前記第1の音声認識結果の垂直型キーワ
ード内容の音響学得点を更新する。
【0265】
具体的には、第1の音声認識結果の垂直型キーワード内容の置かれたスロットの音響学
得点に、上記のステップで決定された音響学インセンティブ係数をかけ、更新された後の垂直型キーワード内容の音響学得点を得る。
【0266】
E3:更新された後の前記第1の音声認識結果の垂直型キーワード内容の音響学得点、及
び前記第1の音声認識結果の非垂直型キーワード内容の音響学得点に基づき、再計算によ
り前記第1の音声認識結果の音響学得点を決定する。
【0267】
具体的には、更新された後の垂直型キーワード内容の音響学得点で、第1の音声認識結
果の垂直型キーワード内容の音響学得点を置換し、その後、それぞれ第1の音声認識結果
の各文字の音響学得点の合計又は加重合計を行い、更新された後の第1の音声認識結果の
音響学得点を得る。
【0268】
以下、上記の各実施例に係る言語モデルのインセンティブの具体的な実施形態について説明する。下述した実施例において、第3の音声認識結果に対する言語モデルのインセン
ティブを例として、言語モデルのインセンティブの具体的な処理内容を説明する。具体的な言語モデルのインセンティブの処理プロセスは、インセンティブ対象の制限を受けない。当該言語モデルのインセンティブ構想は他の音声認識結果のインセンティブにも適用される。例えば、下述した実施例で説明される言語モデルのインセンティブの実現構想は、同様に第1の音声認識結果及び第2の音声認識結果から選別された音声認識結果の候補に対する言語モデルのインセンティブに適用されることが理解されるべきである。
【0269】
言語モデルのインセンティブは、言語モデルで音声認識結果の得点を再計算し、音声認識結果の得点に言語成分を持たせることを意味する。
【0270】
言語モデルのインセンティブメカニズムは、クラスタ化class言語モデルと、垂直型キ
ーワードを音声認識結果発音系列にマッチングするというポリシーに基づき、音声認識結果のパスを拡張し、拡張パス及び上記のクラスタ化言語モデルに基づき、音声認識結果の言語得点を決定する。
【0271】
まず、クラスタ化classモデルを説明する。発呼、ショートメール送信、天気調べ、ナ
ビゲーションなど、垂直型キーワードに係る特定の音声認識業務の場面で、列挙又はユーザ提供の方式により、各場面での垂直型キーワードを有限範囲内に制限し、垂直型キーワードの置かれたコンテクストは通常特定の構文として現れる。
【0272】
クラスタ化class言語モデルは、共通の訓練コーパスを使用するほかに、このような特
定の構文又は言い方を対象に、特別な処理を行っている。クラスタ化言語モデルは、すべての特定の場面にそれぞれ1種類を定義し、各種類の場面には当該場面に対応する種類タ
グとして、特別の単語(class)で標示及び区分を行う。すべての種類タグを定義した後
、訓練コーパスにおける人名、都市名、オーディオ・ビデオ名などの垂直型キーワードも適切な種類タグに置換され、対象コーパスになり、これらの対象コーパスは最初の訓練コーパスに追加され、上記のクラスタ化言語モデルへの音声認識訓練に再利用される。このような処理方式により、特殊単語classがある種類のワードの確率を表すため、クラスタ
化モデルにおける特殊単語classの置かれたN-gram言語モデルの確率が具体的な垂直型キ
ーワード自身の確率よりも明らかに高い。
【0273】
上記の種類タグに基づき、本出願の実施例では、認識対象音声の属する業務の場面での垂直型キーワード集合及び当該業務場面に対応する種類タグに基づき、第3の音声認識結
果に対してパス拡張を行う。
【0274】
例示的には、まず、第3の音声認識結果の垂直型キーワードと、認識対象音声の属する
業務の場面での垂直型キーワード集合における垂直型キーワードをそれぞれ比較する。
【0275】
上述したように、発呼、天気調べ、ナビゲーションなど、垂直型キーワードを含む特定の音声認識業務の場面で、垂直型キーワードは有限な範囲内に収める。列挙やユーザ提供などの方式で、その業務場面でのすべての垂直型キーワードを静的リソースとして使用することができる。発音辞書リソースを利用し、それぞれ認識対象音声の属する業務の場面での垂直型キーワード及び第3の音声認識結果の発音列情報を生成し、第3の音声認識結果の垂直型キーワードの発音情報と認識対象音声の属する業務の場面での垂直型キーワード集合における垂直型キーワードの発音情報をそれぞれ比較し、第3の音声認識結果の垂直
型キーワードが認識対象音声の属する業務の場面での垂直型キーワード集合における任意の垂直型キーワードとマッチングしているかどうかを判断する。
【0276】
第3の音声認識結果の垂直型キーワードと認識対象音声の属する業務の場面での垂直型
キーワード集合における任意の垂直型キーワードがマッチングしている場合、第3の音声
認識結果の垂直型キーワードの置かれたスロットの左右ノードの間で新パスを拡張し、当該新パスに、認識対象音声の属する業務の場面に対応する種類タグを格納する。
【0277】
例示的には、
図13は、電話をかける業務の場面での音声認識結果「<s>給張三打電話</s>」の状態ネットワーク(lattice)を示す図である。
【0278】
当該音声認識結果の人名「張三」は、発音のマッチングにより、ユーザからアップロードされたコンタクトリストの「張三」とマッチングしていることが確認された場合、
図13に示す状態ネットワークにおける「張三」の置かれたスロットの左右ノードの間で新パスを拡張し、当該新パスは元の状態ネットワークにおける「張三」と開始ノード及び終了ノードを共有し、かつ、当該新パス上に現在の業務場面に対応する種類タグ 「class」を注記し、具体的には、当該「class」は具体的な「人名」であってもよく、パス拡張後の状
態ネットワークは
図14に示す通りである。
【0279】
上記の処理により、第3の音声認識結果のパス拡張を完了した後、認識対象音声の属す
る業務の場面に対応する種類タグの対応するクラスタ化言語モデルに関して訓練コーパスへの認識結果に基づき、それぞれ第3の音声認識結果及び第3の音声認識結果の拡張パスの言語モデル得点を決定する。
【0280】
具体的には、クラスタ化言語モデルの訓練コーパスへの認識結果の中に、認識結果における各ワードのN-gram言語モデル確率がふくまれ、当該確率はワードの言語得点である。
【0281】
第3の音声認識結果のパス拡張を完了した後、第3の音声認識結果に対応するクラスタ化言語モデルを選択し、第3の音声認識結果及び第3の音声認識結果の拡張パスに対し、得点を調べ直し、第3の音声認識結果及び第3の音声認識結果の拡張パスの言語モデル得点をそれぞれに決定する。
【0282】
本出願の実施例では、汎用音声認識モデル及び場面カスタマイズモデルは、異なるコーパスで訓練されたものであるため、この2つのモデルはそれぞれ異なるクラスタ化class言語モデルに対応する一方、音声認識復号化ネットワークと場面カスタマイズモデルはいずれも分野関連モデルに該当するため、両者は同じクラスタ化class言語モデルを共有する
。したがって、音声認識結果に対し、得点を調べ直すときに、得られた音声認識結果のモデルに基づき、クラスタ化言語モデルに適応し、音声認識結果に対し得点を調べ直す。
【0283】
特に、上記の言語モデルのインセンティブ構想は、第1の音声認識結果及び第2の音声認識結果から選別された音声認識結果の候補に対し、言語モデルのインセンティブを行うときに使用される場合、音声認識の候補は音声認識復号化ネットワークから出力された結果(すなわち、第1の音声認識結果の任意の1つ又は複数のもの)及び汎用音声認識モデルから出力された結果(すなわち、第2の音声認識結果の1つ又は複数のもの)のどちらかであるため、得点を調べ直すには、音声認識結果の候補の出所に基づき、その出所と同じ種類のクラスタ化言語モデルを選択しなければならない。
【0284】
上記の異なる種類のクラスタ化言語モデルのモデル構造は同じであるが、訓練コーパスが違っている。例えば、汎用音声認識モデルと同じ種類のクラスタ化言語モデルは、大量のコーパスから訓練されたものであり、それをモデルAとし、場面カスタマイズモデルと
同じ種類のクラスタ化言語モデルは、場面コーパスから訓練されたものであり、それをモデルBとすると、モデルA及びモデルBは、種類の異なる訓練コーパスから訓練されたもの
であるため、両者は異なる種類のクラスタ化言語モデルに該当する。音声認識復号化ネットワークと同じ種類のクラスタ化言語モデルも、場面コーパスから訓練されたものであり、それをモデルCとすると、モデルB及びモデルCは同じ種類の訓練コーパスから訓練され
たものであるため、両者は同じ種類のクラスタ化言語モデルに該当する。
【0285】
表1は
図14の2パスに対し得点を調べ直すための計算方式を示す。
【表1】
【0286】
上記の説明により、表1を参照し、それぞれ第3の音声認識結果及び第3の音声認識結果
の拡張パスの言語モデル得点scoreAとscoreBを決定することができる。
【0287】
最後、第3の音声認識結果の言語モデル得点及び第3の音声認識結果の拡張パスの言語モデル得点に基づき、第3の音声認識結果の言語モデルのインセンティブを行った後の言語
得点を決定する。
【0288】
具体的には、第3の音声認識結果の言語モデル得点scoreA、及び第3の音声認識結果の拡張パスの言語モデル得点scoreBを一定の比率で結合し、両者の結合係数の和が1になり、
第3の音声認識結果の言語モデルのインセンティブを行った後の言語得点を得る。
【0289】
例えば、次の式で第3の音声認識結果の言語モデルのインセンティブ後の言語得点Scoreを求める。
Score=γ*scoreA+(1-γ)*scoreB
【0290】
ここで、γは経験係数であり、その値はテストで決定され、具体的には、正しい言語得点を得、そして言語得点で勝負をかけ、多くの音声認識結果から正しい音声認識結果を得ることを目的とする。
【0291】
以上の実施例は、音響学得点のインセンティブ及び言語モデルのインセンティブに関する具体的な実施形態を説明し、上記の実施形態、特に音響学得点のインセンティブ実施形態において、垂直型キーワードの誤作動問題を十分に考慮し、インセンティブ係数を合理的に設定することで、インセンティブによって垂直型キーワードが実査の結果の発音と近いときに発生する誤作動、及び垂直型キーワードが実際の結果の発音との違いが大きいときに発生する誤作動問題を解決することができる。
【0292】
上述した実施例で述べたように、垂直型キーワードと実際の結果の発音が同じであることで発生する誤作動問題について、上記のインセンティブ係数をコントロールする構想で解決することができない。なぜなら、本出願の実施例で構築される音声認識復号化ネットワークは、言語情報を含まず、音響学モデルに依存する構文ネットワークであり、垂直型キーワードと実際の結果の発音が同じであることを本質的に解決できないからである。このような誤作動の影響を軽減するよう、本出願の実施例は複数の候補で結果をユーザに示すことを使用している。
【0293】
具体的には、汎用音声認識モデル及び音声認識復号化ネットワークは1つの音響学モデ
ルを共有するため、それらの出力結果の発音が同じの場合、それらの音響学得点も必ず同
じである。したがって、音声認識復号化ネットワークから出力された第1の音声認識結果
及び汎用音声認識モデルから出力された第2の音声認識結果の音響学得点が同じである場
合、第1の音声認識結果及び第2の音声認識結果の両方を最終の音声認識結果とし、つまり第1の音声認識結果及び第2の音声認識結果を同時に出力し、ユーザがその中から正しい音声認識結果を選択する。ここで、第1の音声認識結果及び第2の音声認識結果を同時に出力するときの出力順は自由に調整されることができ、好ましくは第1の音声認識結果を前に
、第2の音声認識結果を後ろにした順で出力する。
【0294】
説明すべき点については、上記の複数の候補で音声認識結果を出力するという考え方は、同様により多くのモデルの音声認識結果の点数勝負に適用される。例えば、上記の実施例で述べたように、音声認識復号化ネットワーク、汎用音声認識モデル、場面カスタマイズモデルの出力結果に得点で勝負をかけ、最終の音声認識結果を決定するときに、得点が同じの音声認識結果が複数ある場合、これらの得点が同じの音声認識結果を同時に出力し、ユーザがその中から正しい音声認識結果を選択する。
【0295】
これまで、本出願の上記の各実施例では、提案する各音声認識方法の処理プロセス、特に各音声認識方法の典型的な処理ステップについてそれぞれ説明している。注意すべき点として、明細書を簡潔にするために、各音声認識方法における同一又は関連の処理ステップの具体的な実施形態について、互いに参照できるので、本出願の実施例では1つずつを
列挙して説明しない。各音声認識方法における処理ステップは互いに参照し、組み合わせることで、本出願の保護範囲を超えない技術案を形成する。
【0296】
また、上記の音声認識方法に応じて、本出願の実施例では音声認識装置を提案し、
図15に示すように、当該音声認識装置は、
認識対象音声の音響学状態系列を取得する音響学認識ユニット001と
前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築するネットワーク構築ユニット002と、
前記音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、音声認識結果を得る復号化処理ユニット003とを含む。
ここで、前記構文復号化ネットワークは、少なくとも前記認識対象音声の属する場面でのテキストコーパスに対する構文の帰納処理によって得られる。
【0297】
選択できる実施形態として、上記の前記認識対象音声の属する業務の場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することは、
前記認識対象音声の属する場面での垂直型キーワード集合をクラウドサーバに伝送し、前記クラウドサーバにおいて前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することを含む。
【0298】
選択できる実施形態として、前記音声認識結果を第1の音声認識結果とする。
また、前記復号化処理ユニット003は、
汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識結果を得
、
少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定するために用いられる。
【0299】
選択できる実施形態として、前記復号化処理ユニット003は、
あらかじめ訓練された場面カスタマイズモデルを用いて、前記音響学状態系列を復号化し、第3の音声認識結果を得るために用いられる。ここで、前記場面カスタマイズモデル
は、前記認識対象音声の属する場面での音声に対する音声認識訓練によって得られるものである。
【0300】
前記少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最
終の音声認識結果を決定することを含む。
【0301】
選択できる実施形態として、前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定することは、
それぞれ前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果
に対する言語モデルインセンティブを行うことと、
インセンティブを行った後の第1の音声認識結果、第2の音声認識結果及び第3の音声認
識結果の言語得点に基づき、前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から最終の音声認識結果を決定することとを含む。
【0302】
選択できる実施形態として、前記第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定することは、
前記第1の音声認識結果に対する音響学得点のインセンティブを行い、前記第3の音声認識結果に対する言語モデルのインセンティブを行うことと、
音響学得点のインセンティブを行った後の第1の音声認識結果の音響学得点、及び前記
第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認
識結果から音声認識結果の候補を決定することと、
前記音声認識結果の候補に対する言語モデルのインセンティブを行うことと、
言語モデルのインセンティブを行った後の前記音声認識結果の候補の言語得点、及び言語モデルのインセンティブを行った後の前記第3の音声認識結果の言語得点に基づき、前
記音声認識結果の候補及び前記第3の音声認識結果から最終の音声認識結果を決定するこ
ととを含む。
【0303】
本出願の別の実施例では、別の音声認識装置を提案し、
図16に示すように、当該装置は、
認識対象音声の音響学状態系列を取得する音響学認識ユニット011と
音声認識復号化ネットワークを用いて前記音響学状態系列を復号化し、第1の音声認識
結果を得、汎用音声認識モデルを用いて前記音響学状態系列を復号化し、第2の音声認識
結果を得る多次元復号化ユニット012と、
前記第1の音声認識結果に対する音響学得点のインセンティブを行う音響学インセンテ
ィブユニット013と、
少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定する意思決定処理ユニット014とを含む、
前記音声認識復号化ネットワークは、前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づいて構築される。
【0304】
選択できる実施形態として、前記多次元復号化ユニット012は、さらに
あらかじめ訓練された場面カスタマイズモデルを用いて、前記音響学状態系列を復号化し、第3の音声認識結果を得るために用いられる。ここで、前記場面カスタマイズモデル
は、前記認識対象音声の属する場面での音声に対する音声認識訓練によって得られるものである。
【0305】
前記少なくともインセンティブを行った後の第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
インセンティブを行った後の第1の音声認識結果、前記第2の音声認識結果及び前記第3
の音声認識結果から、最終の音声認識結果を決定することを含む。
【0306】
選択できる実施形態として、インセンティブを行った後の第1の音声認識結果、前記第2の音声認識結果及び前記第3の音声認識結果から、最終の音声認識結果を決定することは
、
音響学得点のインセンティブを行った後の第1の音声認識結果の音響学得点、及び前記
第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認
識結果から音声認識結果の候補を決定することと、
前記音声認識結果の候補及び前記第3の音声認識結果に対してそれぞれ言語モデルのイ
ンセンティブを行うことと、
言語モデルのインセンティブを行った後の前記音声認識結果の候補の言語得点、及び言語モデルのインセンティブを行った後の前記第3の音声認識結果の言語得点に基づき、前
記音声認識結果の候補及び前記第3の音声認識結果から最終の音声認識結果を決定するこ
ととを含む。
【0307】
選択できる実施形態として、前記認識対象音声の属する場面での構文復号化ネットワークは次のような処理によって構築される。
【0308】
前記認識対象音声の属する場面でのコーパスデータに対し、構文の帰納及び構文スロットの定義処理を行い、テキスト構文ネットワークを構築する。ここで、前記テキスト構文ネットワークは、非垂直型キーワードに対応する一般構文スロットと垂直型キーワードに対応する置換構文スロットとを含み、前記置換構文スロットには垂直型キーワードに対応するプレースホルダを格納する。
【0309】
前記テキスト構文ネットワークにおける一般構文スロットのフレーズを分割し、分割結果からワードノードの拡張を行い、ワードレベルの構文復号化ネットワークを得る。
【0310】
前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの構文復号化ネットワークを得、前記発音レベルの構文復号化ネットワークを前記認識対象音声の属する場面での構文復号化ネットワークとする。
【0311】
選択できる実施形態として、前記テキスト構文ネットワークにおける一般構文スロットのフレーズを分割し、分割結果からワードノードの拡張を行い、ワードレベルの構文復号化ネットワークを得ることは、
前記テキスト構文ネットワークにおける一般構文スロットの各フレーズをそれぞれ分割し、各フレーズに対応する各ワードを得ることと、
同一フレーズに対応する各ワードを用いてワードノード拡張を行い、当該フレーズに対応するワード列を得ることと、
同一一般構文スロットの各フレーズに対応するワード列を並列接続し、ワードレベルの構文復号化ネットワークを得ることとを含む。
【0312】
選択できる実施形態として、前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの構文復号化ネットワークを得ることは、
前記ワードレベルの構文復号化ネットワークにおける一般構文スロットにおける各ワードをそれぞれ対応する発音に置換することと、
前記ワードレベルの構文復号化ネットワークにおける各発音に対し、それぞれ発音ユニットの分割を行い、発音に対応する各発音ユニットを利用し発音ノードの拡張を行い、発
音レベルの構文復号化ネットワークを得ることとを含む。
【0313】
選択できる実施形態として、前記認識対象音声の属する場面での垂直型キーワード集合及び構文復号化ネットワークに基づき、音声認識復号化ネットワークを構築することは、
予め構築された前記認識対象音声の属する場面での構文復号化ネットワークを取得することと、
認識対象音声の属する場面での垂直型キーワード集合における垂直型キーワードに基づき、垂直型キーワードネットワークを構築することと、
前記垂直型キーワードネットワークを前記構文復号化ネットワークに挿入し、音声認識復号化ネットワークを得ることとを含む。
【0314】
選択できる実施形態として、前記認識対象音声の属する場面での垂直型キーワード集合における垂直型キーワードに基づき、垂直型キーワードネットワークを構築することは、
認識対象音声の属する場面での垂直型キーワード集合における各垂直型キーワードに基づき、垂直型キーワードネットワークを構築することと、
前記ワードレベルの垂直型キーワードネットワークにおける各ワードをその発音に置換し、ワードの発音により発音ノードの拡張を行い、発音レベルの垂直型キーワードネットワークを得ることとを含む。
【0315】
選択できる実施形態として、前記垂直型キーワードネットワーク及び前記構文復号化ネットワークの両方はノードとノードを接続する有向アークとから構成され、ノード間の有向アークに発音情報又はプレースホルダを格納する。
【0316】
前記垂直型キーワードネットワークを前記構文復号化ネットワークに挿入し、音声認識復号化ネットワークを得ることは、
有向アークを用いて前記垂直型キーワードネットワークと前記構文復号化ネットワークの置換構文スロットの左右ノードをそれぞれ接続し、音声認識復号化ネットワークを構築することを含む。
【0317】
選択できる実施形態として、前記有向アークを用いて前記垂直型キーワードネットワークと前記構文復号化ネットワークの置換構文スロットの左右ノードをそれぞれ接続し、音声認識復号化ネットワークを構築することは、
前記垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと置換構文スロットの左ノードとを有向アークを介して接続し、及び、前記垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと置換構文スロットの右ノードとを有向アークを介して接続し、音声認識復号化ネットワークを構築することを含む。
【0318】
選択できる実施形態として、前記垂直型キーワードネットワークにおける各キーワードの最初のアーク及び最後のアークにそれぞれ当該キーワードに対応する唯一の識別子が格納される。
【0319】
前記垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと置換構文スロットの左ノードとを有向アークを介して接続し、及び、前記垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと置換構文スロットの右ノードとを有向アークを介して接続し、音声認識復号化ネットワークを構築することは、
前記垂直型キーワードネットワークの開始ノードの各出るアークをトラバースし、トラバースされた各出るアークについて、当該出るアークの唯一の識別子及びネットワークに挿入されたキーワード情報集合に基づき、当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されたどうかを決定することを含み、ここで、前記ネットワークに挿入されたキーワード情報集合に、それぞれ構文復号化ネットワークに挿入されたキ
ーワードの唯一識別子と、当該唯一の識別子の置かれた有向アークに関し、当該構文復号化ネットワークにおける左右ノード番号とを格納する。
【0320】
当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されていない場合、トラバースされた当該出るアークの右ノードと前記置換構文スロットの左ノードを有向アークを通じて接続し、当該有向アークにトラバースされた当該出るアークの発音情報を格納し、
及び、
前記垂直型キーワードネットワークの終了ノードの各入るアークをトラバースし、トラバースされた各入るアークについて、当該入るアークの唯一の識別子及びネットワークに挿入されたキーワード情報集合に基づき、当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されたどうかを決定する。
【0321】
当該唯一の識別子に対応するキーワードが構文復号化ネットワークに挿入されていない場合、トラバースされた当該入るアークの左ノード及び前記置換構文スロットの右ノードを有向アークを通じて接続し、当該有向アークにトラバースされた当該入るアーク上の発音情報を格納する。
【0322】
選択できる実施形態として、前記垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと置換構文スロットの左ノードとを有向アークを介して接続し、及び、前記垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと置換構文スロットの右ノードとを有向アークを介して接続し、音声認識復号化ネットワークを構築することは、さらに
前記垂直型キーワードネットワークにおけるキーワードが前記構文復号化ネットワークに挿入されるとき、当該キーワードの唯一の識別子と、当該唯一の識別子の置かれた有向アークに関し当該構文復号化ネットワークにおける左右ノード番号とを、それぞれネットワークに挿入されたキーワード情報集合に格納することを含む。
【0323】
選択できる実施形態として、前記垂直型キーワードネットワークの開始ノードの各出るアークの右ノードと置換構文スロットの左ノードとを有向アークを介して接続し、及び、前記垂直型キーワードネットワークの終了ノードの各入るアークの左ノードと置換構文スロットの右ノードとを有向アークを介して接続し、音声認識復号化ネットワークを構築することは、さらに
前記ネットワークに挿入されたキーワード情報集合における各唯一の識別子をトラバースすることと、
トラバースされた唯一の識別子が前記認識対象音声の属する場面での垂直型キーワード集合における任意キーワードの唯一の識別子でない場合、当該唯一の識別子に対応する左右ノード番号間の有向アークを切り離すこととを含む。
【0324】
選択できる実施形態として、上記の音声認識装置は、さらに
前記第2の音声認識結果に基づき、前記第1の音声認識結果を修正する結果修正ユニットを含む。
【0325】
選択できる実施形態として、前記第2の音声認識結果に基づき、前記第1の音声認識結果を修正することは、
前記第2の音声認識結果の参考テキスト内容を使用し、前記第1の音声認識結果の非垂直型キーワード内容を修正し、修正後の第1の音声認識結果を得ることを含み、
ここで、前記参考テキスト内容は、前記第2の音声認識結果において、前記第1の音声認識結果の非垂直型キーワード内容にマッチングするテキスト内容である。
【0326】
選択できる実施形態として、前記第2の音声認識結果の参考テキスト内容を使用し、前
記第1の音声認識結果の非垂直型キーワード内容を修正し、修正後の第1の音声認識結果を得ることは、
前記第1の音声認識結果から垂直型キーワード内容及び非垂直型キーワード内容を決定
し、かつ、前記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それらを参考テキスト内容とすることと、
前記第2の音声認識結果の参考テキスト内容及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、修正された後の非垂直型キーワード内容を決定することと、
前記修正した後の非垂直型キーワード内容、及び前記垂直型キーワード内容を組み合わせて、修正された後の第1の音声認識結果を得ることとを含む。
【0327】
選択できる実施形態として、前記第2の音声認識結果から、前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とすることは、
編集距離アルゴリズムに基づき、第1の音声認識結果と第2の音声認識結果との間の編集距離行列を決定することと、
前記編集距離行列及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、前
記第2の音声認識結果から前記第1の音声認識結果の非垂直型キーワード内容に対応するテキスト内容を決定し、それを参考テキスト内容とすることとを含む。
【0328】
選択できる実施形態として、前記第2の音声認識結果の参考テキスト内容及び前記第1の音声認識結果の非垂直型キーワード内容に基づき、修正された後の非垂直型キーワード内容を決定することは、
前記第2の音声認識結果の参考テキスト内容と前記第1の音声認識結果の非垂直型キーワード内容の文字の違いにより、前記第2の音声認識結果の対象テキスト内容又は前記第1の音声認識結果の非垂直型キーワード内容を、修正された後の非垂直型キーワード内容として決定することを含み、
ここで、前記第2の音声認識結果の対象テキスト内容とは、前記第2の音声認識結果のうち、前記第1の音声認識結果の非垂直型キーワード内容の位置に対応するテキスト内容を
指す。
【0329】
選択できる実施形態として、前記第2の音声認識結果の参考テキスト内容と前記第1の音声認識結果の非垂直型キーワード内容の文字の違いにより、前記第2の音声認識結果の対
象テキスト内容又は前記第1の音声認識結果の非垂直型キーワード内容を、修正された後
の非垂直型キーワード内容として決定することは、
前記第2の音声認識結果の参考テキスト内容と前記第1の音声認識結果の非垂直型キーワード内容を比較し、前記第2の音声認識結果の参考テキスト内容と前記第1の音声認識結果の非垂直型キーワード内容が同じかどうかを決定することと、
同じでれば、前記第2の音声認識結果の対象テキスト内容を、修正された後の非垂直型
キーワード内容として決定する。
同じでなければ、前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が多いか、かつ、両者の文字数の差が設定された閾値を超えていないかどうかを決定することと、
前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が多く、かつ、両者の文字数の差が設定された閾値を超えていない場合、前記第2
の音声認識結果の対象テキスト内容を、修正された後の非垂直型キーワード内容として決定することと、
前記第1の音声認識結果の非垂直型キーワード内容よりも前記第2の音声認識結果の方が文字数が少なく、及び/又は両者の文字数の差が設定された閾値を超えた場合、前記第1の音声認識結果の非垂直型キーワード内容を、修正された後の非垂直型キーワード内容とし
て決定する。
【0330】
選択できる実施形態として、前記少なくとも前記第1の音声認識結果及び前記第2の音声認識結果から、最終の音声認識結果を決定することは、
前記第1の音声認識結果及び前記第2の音声認識結果を比較し、前記第1の音声認識結果
及び前記第2の音声認識結果の一致度を決定し、前記第1の音声認識結果及び前記第2の音
声認識結果の一致度に基づき、前記第1の音声認識結果の信頼度を決定することと、
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きい場合、前記
第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終的な音声認識結果を選別することと、
前記第1の音声認識結果の信頼度が予め設定された信頼度の閾値より大きくない場合、
前記第1の音声認識結果に対する音響学得点のインセンティブを行い、インセンティブを
行った後の第1の音声認識結果の音響学得点及び前記第2の音声認識結果の音響学得点に基づき、前記第1の音声認識結果及び前記第2の音声認識結果から最終の音声認識結果を選別することとを含む。
【0331】
選択できる実施形態として、前記第1の音声認識結果及び前記第2の音声認識結果の一致度に基づき、前記第1の音声認識結果の信頼度を決定することは、
第1の音声認識結果及び第2の音声認識結果の一致度が設定された一致度閾値より大きいかどうかを判断することと、
設定された一致度閾値より大きい場合、前記第1の音声認識結果の各フレームの音響学
得点に基づき、計算により前記第1の音声認識結果の信頼度を決定することと、
設定された一致度閾値より大きくない場合、前記第1の音声認識結果の垂直型キーワー
ド内容及び前記第2の音声認識結果を利用し、復号化ネットワークを構築し、当該復号化
ネットワークを利用し、前記音響学状態系列を再復号化し、復号化の結果で前記第1の音
声認識結果を更新することと、
更新された後の第1の音声認識結果の各フレームの音響学得点に基づき、計算により第1の音声認識結果の信頼度を決定することとを含む。
【0332】
選択できる実施形態として、前記第1の音声認識結果及び前記第2の音声認識結果の音響学得点が同じである場合、前記第1の音声認識結果及び前記第2の音声認識結果の両方を最終の音声認識結果とする。
【0333】
選択できる実施形態として、前記第1の音声認識結果に対する音響学得点のインセンテ
ィブを行うことは、
少なくとも前記第1の音声認識結果の垂直型キーワード内容及び非垂直型キーワード内
容に基づき、音響学インセンティブ係数を決定することと、
前記音響学インセンティブ係数を利用し、前記第1の音声認識結果の垂直型キーワード
内容の音響学得点を更新することと、
更新された後の前記第1の音声認識結果の垂直型キーワード内容の音響学得点、及び前
記第1の音声認識結果の非垂直型キーワード内容の音響学得点に基づき、再計算により前
記第1の音声認識結果の音響学得点を決定することとを含む。
【0334】
選択できる実施形態として、少なくとも前記第1の音声認識結果の垂直型キーワード内
容及び非垂直型キーワード内容に基づき、音響学インセンティブ係数を決定することは、
認識対象音声の属する場面での音響学得点のインセンティブ事前係数、前記第1の音声
認識結果の垂直型キーワードの文字数、音素数、及び前記第1の音声認識結果のすべての
文字数、すべての音素数に基づき、計算により音響学インセンティブ係数を決定することを含む。
【0335】
選択できる実施形態として、少なくとも前記第1の音声認識結果の垂直型キーワード内
容及び非垂直型キーワード内容に基づき、音響学インセンティブ係数を決定することは、
前記第1の音声認識結果の垂直型キーワード内容の音素数と音響学得点、及び第1の音声データ結果の非垂直型キーワード内容の音素数量と音響学得点に基づき、前記第1の音声
認識結果の垂直型キーワード内容の得点信頼度を算出することと、
少なくとも前記第1の音声認識結果中の垂直型キーワード内容の得点信頼度に基づき、
音響学インセンティブ係数を決定することとを含む。
【0336】
選択できる実施形態として、少なくとも前記第1の音声認識結果の垂直型キーワード内
容の得点信頼度に基づき、音響学インセンティブ係数を決定することは、
前記第1の音声認識結果の垂直型キーワード内容の得点信頼度、及び予め決定された音
響学インセンティブ係数と、認識効果や認識誤作動との間の関係に基づき、音響学インセンティブ係数の決定することを含む。
【0337】
選択できる実施形態として、前記第3の音声認識結果に対する言語モデルのインセンテ
ィブを行うことは、
認識対象音声の属する場面での垂直型キーワード集合及び前記当該場面に対応する種類タグに基づき、前記第3の音声認識結果に対するパス拡張を行い、前記種類タグは、音声
認識場面に対するクラスタ化によって決定されることと、
前記種類タグに対応するクラスタ化言語モデルの訓練コーパスに対する認識結果に基づき、それぞれ前記第3の音声認識結果及び前記第3の音声認識結果の拡張パスの言語モデル得点を決定することと、
前記第3の音声認識結果の言語モデル得点及び前記第3の音声認識結果の拡張パスの言語モデル得点に基づき、前記第3の音声認識結果に対する言語モデルのインセンティブを行
った後の言語得点を決定することとを含む。
ここで、前記クラスタ化言語モデルは、対象コーパスに対する音声認識訓練によって得られ、前記対象コーパスの垂直型キーワードはすべて前記種類タグに置換しられる。
【0338】
選択できる実施形態として、前記認識対象音声の属する場面での垂直型キーワード集合及び当該場面に対応する種類タグに基づき、前記第3の音声認識結果に対するパス拡張を
行うことは、
前記第3の音声認識結果の垂直型キーワードを認識対象音声の属する場面での垂直型キ
ーワード集合における垂直型キーワードとそれぞれ比較することと、
前記第3の音声認識結果の垂直型キーワードが前記垂直型キーワード集合における任意
垂直型キーワードにマッチングする場合、前記第3の音声認識結果の垂直型キーワードの
置かれたスロットの左右ノードの間で新しいパスを拡張し、当該新パスに認識対象音声の属する場面に対応する種類タグを格納することとを含む。
【0339】
具体的には、上記の各音声認識装置の実施例における各ユニットの具体的な動作内容について、上記の音声認識方法の関連ステップの処理内容を参照できるので、ここでは省略する。
【0340】
本出願の別の実施例では、さらに音声認識設備を提案し、
図17に示すように、当該設備は、メモリ200とプロセッサ210を含み、
ここで、前記メモリ200は前記プロセッサ210と接続し、プログラムを格納するために用いられ、
前記プロセッサ210は、前記メモリ200に格納されているプログラムを実行し、上記のいずれか実施例で開示された音声認識方法を実現するために用いられる。
【0341】
具体的には、上記の音声認識設備は、さらに、バス、通信ポート220、入力設備230及び出力設備240を含む。
【0342】
プロセッサ210、メモリ200、通信ポート220、入力設備230及び出力設備240はバスを介
して相互に接続されている。ここで、バスは1つのチャネルを含むことができ、コンピュ
ータシステムの各構成要素の間で情報を伝送する。
【0343】
プロセッサ210は汎用プロセッサ(CPU)、マイクロプロセッサなどの汎用プロセッサであってもよく、特定用途向け集積回路(application-specific integrated circuit:ASIC)、又は1つ又は複数の本発明の解決案プログラムの実行を制御するための集積回路であってもよい。また、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、
フィールド・プログラマブル・ゲート・アレイ(FPGA)又はその他のプログラマブルロジックデバイス、ディスクリートゲートやトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよい。
【0344】
プロセッサ210は主プロセッサのほかに、ベースバンドチップやモデムなども含める。
【0345】
メモリ200中には、本発明の技術案を実行するためのプログラムが格納され、また、オ
ペレーティングシステム及びその他の重要な業務も格納されてもよい。具体的には、プログラムはプログラムコードを含むことができ、プログラムコードはコンピュータ動作指令を含む。さらに具体的には、メモリ200は、読出専用メモリ(read-only memory,ROM)、
静的情報や命令を格納する他のタイプの静的記憶装置、ランダムアクセスメモリ(random
access memory:RAM)、情報や命令を格納する他のタイプの動的記憶装置、ディスクメ
モリ、flashなどを含むことができる。
【0346】
入力設備230は、キーボード、マウス、カメラ、スキャナ、ライトペン、音声入力デバ
イス、タッチスクリーン、歩数計、又は重力センサなど、ユーザによって入力されるデータや情報を受信するデバイスを含むことができる。
【0347】
出力設備240は、表示画面、プリンタ、スピーカなどのような情報をユーザに出力する
ことを可能にする手段を含むことができる。
【0348】
通信ポート220は、イーサネット、無線アクセスネットワーク(RAN)、無線ローカルエリアネットワーク(WLAN)など、他のデバイスや通信ネットワークと通信するために、任意の受送信機器を使用する装置を含むことができる。
【0349】
プロセッサ2102は、メモリ200に格納されているプログラムを実行し、他の設備を呼び
出すことで、本出願の実施例に係る音声認識方法の各ステップを実現する。
【0350】
本出願の別の実施例では、記憶媒体を提示し、当該記憶媒体には、コンピュータプログラムが格納され、当該コンピュータプログラムは、プロセッサによって実行され、上記のいずれか実施例に係る音声認識方法の各ステップを実現する。
【0351】
具体的には、上記の音声認識設備の各部分の具体的な動作内容、及び上記の記憶媒体に格納されているコンピュータプログラムはプロセッサによって実行されるときの具体的な処理内容については、上記の音声認識方法の各実施例の内容を参照できるので、ここで省略する。
【0352】
前述した各方法の実施例については、説明を簡単にするために、一連の動作の組み合わせとして説明されているが、当業者には、本出願によれば、いくつかのステップが他の順
序又は同時に実行されてもよいので、本出願は、説明される動作の順序によって限定されないことが認識されるべきである。また、明細書に記載される実施例は、すべて好ましい実施例であり、関連する動作及びモジュールは必ずしも本出願に必須なものではないことも当業者には認識されるべきである。
【0353】
本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例の間で同一で類似しているの部分は互いに参照すればよい。装置に関する実施例について、方法の実施例とほぼ類似しているため、簡単に説明したわけであり、関連する点については方法の実施例の部分を参照すればよい。
【0354】
本出願の各実施例の方法におけるステップは、実際の必要に応じて順番の調整、合併及び増減を行うことができ、各実施例に記載されている技術的特徴は置換又は組み合せてもよい。
【0355】
本出願の各実施例の装置及び端末のモジュール及びサブモジュールは実際の必要に応じて合併、分割及び増減を行うことができる。
【0356】
本出願に係るいくつかの実施例では、開示される端末、装置及び方法は他の形態により実施されてもよいことが理解されるべきである。例えば、上述した端末の実施例は単に例示的であり、モジュール又はサブモジュールの区分のように、論理機能の区分にすぎず、実現されるときには、複数のサブモジュール又はモジュールが組み合わせるか、別のモジュールに統合されることや、一部の特徴が無視されるか、実行されないことなど、他の区分方法も考えられる。また、表示又は検討されている相互の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はモジュールを介した間接的な結合又は通信接続であってもよいし、電気的、機械的又は他の形態であってもよい。
【0357】
分離された構成要素として説明されているモジュール又はサブモジュールは物理的に分離されたもの又は物理的に分離されていないものであり、モジュール又はサブモジュールの構成要素は物理的なモジュール或いはサブモジュール又は非物理的なモジュール・サブモジュールであり、すなわち1つの場所に位置してもよいが、複数のネットワークモジュ
ール或いはサブモジュールに分布されてもよい。これらの一部又は全部のモジュール或いはサブモジュールは、実際の必要に応じて、本実施例の解決策の目的を達成するために選択されてもよい。
【0358】
また、本出願の各実施例の各機能モジュール又はサブモジュールは、1つの処理モジュ
ールに統合されてもよいし、各モジュール又はサブモジュールは物理的に別々に存在してもよいし、二つ以上のモジュール或いはサブモジュールは1つのモジュールに統合されて
もよい。上記のように統合されているモジュール或いはサブモジュールは、ハードウェアで実現されてもよいし、ソフトウェアの機能モジュール或いはサブモジュールで実現されてもよい。
【0359】
当業者はまた、本明細書で開示された実施例に例示されたユニット及びアルゴリズムステップを参照しながら、電子ハードウェア、コンピュータソフトウェア又は両方の組み合わせで実装することを認識することができる。ハードウェア及びソフトウェアの互換性を明確に示すために、各例の構成及びステップは、上記の説明において機能ごとに一般的に説明している。これら機能がハードウェアで実行されるか、又はコンピュータソフトウェアで実行されるかは、技術案の特定用途と設計制約条件によって異なる。専門技術者は、特定の用途ごとに異なる方法をいいか使用して、記載された機能を実現することができるが、そのような実施は、本出願の範囲を超えるものとみなされるべきではない。
【0360】
本明細書で開示された実施例に記載された方法又はアルゴリズムのステップは、ハードウェアやプロセッサ、又はこれらの組み合わせで実行されるソフトウェアユニットによって直接的に実施されてもよい。ソフトウェアユニットは、ランダムアクセスメモリ(RAM
)、メモリ、読み出し専用メモリ(ROM)、プログラマブルROM、消去可能なプログラマブルROM、記憶装置、ハードディスク、リムーバブルディスク、CD-ROM、又は形態にかかわ
らず技術分野で知られている他の記憶媒体に格納されることができる。
【0361】
最後に、説明すべき点については、本明細書で、「第1」及び「第2」のような関連用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの
実体又は操作の間に何らかの実際の関連又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、非排他的包含をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1
つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
【0362】
開示された実施例の上記の説明は、当業者が本出願を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。
【国際調査報告】