(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-26
(45)【発行日】2022-10-04
(54)【発明の名称】音声インタラクション制御のための方法、装置、機器及び媒体
(51)【国際特許分類】
G10L 15/22 20060101AFI20220927BHJP
G10L 15/10 20060101ALI20220927BHJP
G10L 15/16 20060101ALN20220927BHJP
【FI】
G10L15/22 300Z
G10L15/10 500Z
G10L15/16
(21)【出願番号】P 2020170837
(22)【出願日】2020-10-09
【審査請求日】2020-10-09
(31)【優先権主張番号】201911033410.5
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】バイ, ジンフェン
(72)【発明者】
【氏名】ツァイ, チュァンレイ
(72)【発明者】
【氏名】チェン, シュウ
(72)【発明者】
【氏名】チェン, タオ
(72)【発明者】
【氏名】マ, シャオコン
(72)【発明者】
【氏名】チャン, セー
(72)【発明者】
【氏名】ウー, チェン
(72)【発明者】
【氏名】ペン, シンユァン
(72)【発明者】
【氏名】ワン, ツィジャン
(72)【発明者】
【氏名】キアン, シェン
(72)【発明者】
【氏名】ワン, グイビン
(72)【発明者】
【氏名】ジア, レイ
【審査官】泉 卓也
(56)【参考文献】
【文献】中国特許出願公開第109461446(CN,A)
【文献】中国特許出願公開第107665708(CN,A)
【文献】米国特許出願公開第2019/0295564(US,A1)
【文献】米国特許第09437186(US,B1)
【文献】再公表特許第2014/103099(JP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/10 - 15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するステップと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するステップと、
前記認識情報と前記音信号とのマッチング状況を決定するステップと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するステップと、
を含み、
前記マッチング状況を決定するステップが、
前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するステップと、
ローカル情報音信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するステップと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップと、
を含む音声インタラクション制御のための方法。
【請求項2】
前記インタラクション信頼度を決定するステップが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、
前記音響特徴表現に基づいて、前記音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するステップと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度のうちの少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記音響信頼度モデルのトレーニングが、第1の正の例のサンプルと第1の負の例のサンプルとに基づいており、前記第1の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第1の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項2に記載の方法。
【請求項4】
前記インタラクション信頼度を決定するステップが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するステップと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するステップと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項1に記載の方法。
【請求項5】
前記セマンティック信頼度モデルのトレーニングが、第2の正の例のサンプルと第2の負の例のサンプルとに基づいており、前記第2の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第2の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項4に記載の方法。
【請求項6】
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され
る請求項1に記載の方法。
【請求項7】
前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項6に記載の方法。
【請求項8】
前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するステップ含む請求項6に記載の方法。
【請求項9】
前記ローカルユニット音響信頼度モデルのトレーニングが、第3の正の例のサンプルと第3の負の例のサンプルとに基づいており、前記第3の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第1の音響セグメントと、前記第1の音響セグメントからラベル付けられた第1のユニットとを含み、前記第3の負の例のサンプルが、第2の音響セグメントと、前記第2の音響セグメントに出現したユニットとは異なる第2のユニットとを含む請求項6に記載の方法。
【請求項10】
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況を決定するステップが、
グローバル情報音信頼度モデルを用いて、前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、のうちの一つ又は複数を実行するステップであって、前記タグシーケンスは、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグは、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグは、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグは、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示すステップと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて、前記マッチング状況を決定するステップと、
を含む請求項1に記載の方法。
【請求項11】
前記ユニットシーケンスが、複数のユニットを含み、前記タグシーケンスを生成するステップが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するステップであって、各隣接指示タグが、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示すステップを含む請求項10に記載の方法。
【請求項12】
前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号全体が前記音声インタラクション機器とインタラクションするための音声である信頼度とと、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項10に記載の方法。
【請求項13】
前記グローバル情報音信頼度モデルのトレーニングが、第4の正の例のサンプルと第4の負の例のサンプルとに基づいており、前記第4の正の例のサンプルが、ヒューマン・マシンインタラクションのための第1の音信号と、前記第1の音信号からラベル付けられた第1の情報と、前記第1の情報及び前記第1の音信号に対して生成された正しいタグシーケンスとを含み、前記第4の負の例のサンプルが、前記第4の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項10に記載の方法。
【請求項14】
前記音信号と前記認識情報とを取得するステップが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するステップと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するステップと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するステップと、を含む請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するステップを含む請求項14に記載のインタラクション方法。
【請求項16】
前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項14に記載の方法。
【請求項17】
前記認識情報が、テキスト情報を含む請求項1から13のいずれか一項に記載のインタラクション方法。
【請求項18】
前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御するステップと、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するステップであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックは、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドするステップと、
を含む請求項1から13のいずれか一項に記載の方法。
【請求項19】
音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するように構成される取得モジュールと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュールと、
前記認識情報と前記音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュールと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するように構成される提供モジュールと、
を備え、
前記マッチング状況決定モジュールが、前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するように構成される音分割モジュール
と、
ローカルユニット音響信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて、前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するように構成される第3のモデル実行モジュールと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するように構成される第3の融合決定モジュールと、
を備え
る、音声インタラクション制御のための装置。
【請求項20】
前記インタラクション信頼度決定モジュールが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、前記音響特徴表現に基づいて、前記音信号のヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するように構成される第1のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第1の融合決定モジュールと、
を備える請求項19に記載の装置。
【請求項21】
前記音響信頼度モデルのトレーニングが、第1の正の例のサンプルと第1の負の例のサンプルとに基づいており、前記第1の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第1の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項20に記載の装置。
【請求項22】
前記インタラクション信頼度モジュールが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するように構成される情報特徴抽出モジュールと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するように構成される第2のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第2の融合決定モジュールと、
を備える請求項19に記載の装置。
【請求項23】
前記セマンティック信頼度モデルのトレーニングが、第2の正の例のサンプルと第2の負の例のサンプルとに基づいており、前記第2の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第2の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項22に記載の装置。
【請求項24】
前記ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され
る請求項19に記載の装置。
【請求項25】
前記インタラクション信頼度決定モジュールが、前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第4の融合決定モジュールを備える請求項24に記載の装置。
【請求項26】
前記第4の融合決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するように構成される請求項25に記載の装置。
【請求項27】
前記ローカルユニット音響信頼度モデルのトレーニングが、第3の正の例のサンプルと第3の負の例のサンプルとに基づいており、前記第3の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第1の音響セグメントと、前記第1の音響セグメントからラベル付けられた第1のユニットとを含み、前記第3の負の例のサンプルが、第2の音響セグメントと、前記第2の音響セグメントに出現したユニットとは異なる第2のユニットとを備える請求項24に記載の装置。
【請求項28】
前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況決定モジュールが、グローバル情報音信頼度モデルを用いて、
前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、うちの一つ又は複数を実行するように構成され第4のモデル実行モジュールであって、前記タグシーケンスが、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグが、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグが、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグが、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示す第4のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて前記マッチング状況を決定するように構成される第5の融合決定モジュールと、
を備える請求項19に記載の装置。
【請求項29】
前記ユニットシーケンスが、複数のユニットを含み、前記第4のモデル実行モジュールが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するように構成され、各隣接指示タグは、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示す請求項28に記載の装置。
【請求項30】
前記インタラクション信頼度決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第6の融合決定モジュールを備える請求項28に記載の装置。
【請求項31】
前記グローバル情報音信頼度モデルのトレーニングが、第4の正の例のサンプルと第4の負の例のサンプルとに基づいており、前記第4の正の例のサンプルが、ヒューマン・マシンインタラクションのための第1の音信号と、前記第1の音信号からラベル付けられた第1の情報と、前記第1の情報及び前記第1の音信号に対して生成された正しいタグシーケンスとを含み、前記第4の負の例のサンプルが、前記第4の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項28に記載の装置。
【請求項32】
前記取得モジュールが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するように構成される終了決定モジュールと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するように構成されるセマンティック完全性検出モジュールと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するように構成される音及び情報決定モジュールと、
を備える請求項19から31のいずれか一項に記載の装置。
【請求項33】
前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するように構成される待機取得モジュールを備える請求項32に記載の装置。
【請求項34】
前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項32に記載の装置。
【請求項35】
前記認識情報が、テキスト情報を含む請求項19から31のいずれか一項に記載の装置。
【請求項36】
前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御し、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するように構成される応答決定モジュールであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックが、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドする応答決定モジュールを備える請求項19から31のいずれか一項に記載の装置。
【請求項37】
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサが請求項1から18のいずれか一項に記載の方法を実現する電子機器。
【請求項38】
コンピュータプログラムに記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項1から18のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体。
【請求項39】
コンピュータプログラムが実行される場合、コンピュータに請求項1から18のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施例は、主に人工知能の分野に関し、より具体的には、音声技術に関する。
【背景技術】
【0002】
音声インタラクション技術は、人間(ヒューマン)と機械(マシン)とが音声でインタラクションする技術であり、自然な対話と類似した音声インタラクション体験を実現する。ヒューマン・マシンインタラクションは、コンピュータ時代のマウス及びキーボードをスクリーンと合わせたインタラクションから、スマートフォン時代のタッチスクリーンとの直接インタラクションまで、ヒューマン・マシンインタラクションする方式は、ますます簡単になり、インタラクションのハードルがますます低くなっている。人工知能及びモバイルインターネットの活発な発展に伴い、人間と人間との間の対話と類似した自然音声インタラクションは、ヒューマン・マシンインタラクションの新しい方式になりつつある。音声インタラクションは、入力帯域幅が大きく、精度が高く、移動性がよく、使用ハードルが低いなどの利点を兼ね備えるため、ヒューマン・マシンインタラクションの最優先インタラクション方式の一つである。
【0003】
音声インタラクションは、一回のウェイクアップで一回のインタラクションを行うシーンと、一回のウェイクアップで連続的なインタラクションを行う(一回のウェイクアップで複数回のインタラクションを行うこととも呼ばれる)シーンという二つのシーンに分けることができる。音声インタラクションを実現する間に、通常、収集された音声信号に対して音声認識を実行することにより、その中から対応する情報が認識されて、インタラクション制御の実現に使用される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の実施例によれば、音声インタラクション制御のための技術案が提供される。
【課題を解決するための手段】
【0005】
本開示の第1の態様では、音声インタラクション制御の方法が提供される。当該方法は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するステップと、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現のうちの少なくとも一つに基づいて音信号のインタラクション信頼度を決定するステップと、認識情報と音信号とのマッチング状況を決定するステップと、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するステップと、を含む。
【0006】
本開示の第2の態様では、音声インタラクション制御のための装置が提供される。当該装置は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するように構成される取得モジュールと、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュールと、認識情報と音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュールと、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するように構成される提供モジュールと、を備える。
【0007】
本開示の第3の態様では、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、一つ又は複数のプログラムが一つ又は複数のプロセッサによって実行される場合、一つ又は複数のプロセッサが本開示の第1の態様に係る方法を実現する電子機器が提供される。
【0008】
本開示の第4の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の第1の態様に係る方法が実現されるコンピュータ読み取り可能な記憶媒体が提供される。
【0009】
本開示の第5の態様では、コンピュータプログラムが提供され、前記コンピュータプログラムが実行される場合、コンピュータに本開示の第1の態様に係る方法を実行させる。
【0010】
なお、発明の概要に説明された内容は、本開示の実施例の肝心又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。
【図面の簡単な説明】
【0011】
本開示の各実施例の上記及び他の特徴、利点及び態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一又は類似した符号は、同一又は類似した要素を表す。
【
図1】本開示の複数の実施例が実現され得る環境の概略図を示す。
【
図2】本開示のいくつかの実施例に係る音声インタラクション制御のためのプロセスのフローチャートを示す。
【
図3】本開示のいくつかの実施例に係るインタラクション制御装置の例示的なブロック図を示す。
【
図4】本開示のいくつかの実施例に係る音響信頼度モデルの例示的なブロック図である。
【
図5】本開示のいくつかの実施例に係るセマンティック信頼度モデルの例示的なブロック図である。
【
図6】本開示のいくつかの実施例に係るローカル情報音信頼度モデルの例示的なブロック図である。
【
図7】本開示のいくつかの実施例に係るグローバル情報音信頼度モデルの例示的なブロック図である。
【
図8】本開示のいくつかの実施例に係るタグシーケンス生成の例の概略図である。
【
図9】本開示の別の実施例に係るインタラクション制御装置の例示的なブロック図を示す。
【
図10】本開示のいくつかの実施例に係る音声インタラクション制御のための装置のブロック図である。
【
図11】本開示の複数の実施例を実施可能な機器のブロック図を示す。
【発明を実施するための形態】
【0012】
本開示の実施例を、図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面及び実施例は例示するものに過ぎず、本開示の保護範囲を限定するものではないと理解されたい。
【0013】
本開示の実施例の説明において、「含む」という用語及びその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」を意味すると理解されるべきである。「第1」、「第2」などの用語は、異なる対象または同一対象を指すことができる。他の明示的及び暗黙的な定義も以下に含まれ得る。
【0014】
上記のように、音声インタラクションのプロセスでは、収集された音声信号に対して音声認識を実行することにより、その中から対応する情報が認識されて、インタラクション制御の実現に使用される。しかしながら、いくつかの場合には、収集された音信号は、ヒューマン・マシンインタラクションのための音声命令ではないため、このような音信号に基づいて認識された情報も、誤って機器の制御に使用されることがある。
【0015】
このような問題は、一回のウェイクアップで連続的なインタラクションを行うプロセスでは特に注意する必要がある。これは、一回のウェイクアップで一回のインタラクションを行うインタラクションの技術案では、ユーザが音声インタラクション機器とインタラクションするたびにまずウェイクアップワードを言う必要があるからである。したがって、ウェイクアップワードが認識されて機器がウェイクアップされた後に収集された音信号は、ヒューマン・マシンインタラクションの信号である確率が高い。しかしながら、一回のウェイクアップで連続的なインタラクションを行うシーンでは、ユーザは、ウェイクアップワードによって音声インタラクション機器をウェイクアップした後、インタラクションのための音声を複数回発する可能性があるため、インタラクション中に他の無関係な環境音を収集する可能性がある。ヒューマン・マシンインタラクションの音と非ヒューマン・マシンインタラクションの音とを正確に判別することができ、音声インタラクション制御の精度及びインテリジェンスを向上させ、ヒューマン・マシンインタラクションのユーザ体験を向上させることができることが期待される。
【0016】
基本的な動作原理及び例示的な環境
本開示の実施例によれば、音声インタラクション制御を改良した技術案が提供される。当該技術案では、音信号及び/又は音信号から取得された認識情報に基づいて、音響又はセマンティックの全体から、音信号が音声インタラクション機器とインタラクションするための音であるインタラクション信頼度を決定する。また、認識情報と音信号とのマッチング状況も決定する。インタラクション信頼度とマッチング状況とは、音信号に対する音声インタラクション機器の応答を決定するのに提供される。このようにすることで、複数の次元から、音声インタラクション機器が取得された音信号に応答するべきか否か、及びどのように音信号に応答するかを決定することができ、より正確且つインテリジェントな音声インタラクション制御を実現し、ユーザ体験を向上させることができる。
【0017】
以下、図面を参照して本開示のいくつかの実施例を説明する。
図1は、本開示の複数の実施例が実現され得る環境100の概略図を示す。当該例示的な環境100では、ユーザ110は、音声インタラクション機器120に音声命令を出して音声インタラクション機器120の動作を制御することができる。例えば、音声インタラクション機器120がスマートスピーカーである場合、音声命令は、「…歌手の…歌を再生して」などであってもよく、音声インタラクション機器120は、音声信号が正しく認識された後、対応する歌を検索し、ユーザ110に再生することができる。
【0018】
音声インタラクション機器120は、ユーザ110の音声命令を収集するための、関連付けられたサウンドコレクタ122(例えば、一つ又は複数のマイクロフォン)を有することができる。音声インタラクション機器120は、音を再生するための、関連付けられたサウンドプレーヤ124(例えば、一つ又は複数のスピーカ)を有することもできる。
【0019】
音声インタラクション機器120は、音声信号によって制御及び/又はインタラクションすることができる任意の電子機器であってもよい。音声インタラクション機器120のいくつかの例としては、スマートスピーカー、音声インタラクション型テレビボックス、スマート家電、音声家庭教師、スマートロボット、地図ナビゲーションデバイス、スマートウェアラブルデバイスなどを含むことができるが、これらに限定されない。音声インタラクション機器120は、音声アシスタントアプリケーション、スマートカーシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオおよびビデオ再生アプリケーション、インテリジェントアシスタントアプリケーションなどの音声インタラクションアプリケーションがインストールされた任意の他の電子機器であってもよい。このような音声インタラクションアプリケーションをインストールできる電子機器の例としては、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、電子書籍デバイス、ゲームデバイス、又はこれら的任意の組み合わせであってもよいが、これらに限定されない。
【0020】
音声インタラクション機器120とのインタラクション中に、通常、ウェイクアップワードによって音声インタラクション機器120をウェイクアップしてインタラクション状態に入らせる必要がある。音声インタラクション機器120は、一回のウェイクアップで一回のインタラクションを行うこと、又は一回のウェイクアップで連続的なインタラクションを行うことをサポートすることができる。一回のウェイクアップで一回のインタラクションを行うシーンでは、ユーザ110は、ウェイクアップワードによって音声インタラクション機器120をウェイクアップした後、音声インタラクション機器120と一回のインタラクションを行い、すなわち一回の音声命令を出すことができる。一回のウェイクアップで連続的なインタラクションを行うシーンでは、音声インタラクション機器120をウェイクアップした後、音を出しているなど、機器が動作状態にある限り、ユーザ110は、再度にウェイクアップワードを出す必要がなく、音声インタラクション機器120と直接にインタラクションすることができ、これは、インタラクションのハードルを低くし、ユーザのインタラクション意欲を高めることができる。いくつかの場合には、インタラクションが天気を聞くなどのクエリカテゴリに属している場合、音声インタラクション機器120が回答を完了してからの一定の期間(例えば5分以内)に、ユーザ110は、機器を再度ウェイクアップする必要もなく、インタラクションを継続することができる。いくつかの場合には、一回にウェイクアップした後の所定の期間(例えば、5分)と音声インタラクション機器120の動作時間との二者から大きいほうの値を取って、ユーザの連続的なインタラクション時間を制限することができる。
【0021】
音声インタラクション機器120のサウンドコレクタ122によって収集された音信号は、その中からユーザの意図が認識できる前に処理される必要がある。音信号の処理及び/又はユーザ意図の判断は、音声インタラクション機器120のローカル側で行われるか、又は音声インタラクション機器120のリモート側で行われる。例えば、音声インタラクション機器120は、ローカル側で音信号の関連処理の一つ又は複数の態様を実現し、音声インタラクション機器120とユーザ110とのインタラクションを制御するためのインタラクション制御装置140-1を含むことができる。音声インタラクション機器120は、クラウド130に配置されたインタラクション制御装置140-2と通信するなど、リモート側処理機器と通信することもできる。インタラクション制御装置140-2は、音声インタラクション機器120によって収集された音信号の処理及び音声インタラクション機器120のインタラクション制御を独立して実現することができ、又は音信号の処理及び音声インタラクション機器120のインタラクション制御をインタラクション制御装置140-1とともに実現することができる。以下では、インタラクション制御装置140-1とインタラクション制御装置140-2とを、インタラクション制御装置140と総称するか又は個別に言う。
【0022】
なお、
図1に示される環境は、単なる例である。いくつかの実現では、リモート側のインタラクション制御装置140-2は、存在しないか、又はクラウドに配置されなくてもよいことを理解されたい。
【0023】
例示的なプロセス
図2は、本開示のいくつかの実施例に係る音声インタラクション制御のためのプロセス200のフローチャートを示す。プロセス200は、インタラクション制御装置140によって実現することができる。検討を容易にするために、
図1を参照してプロセス200を説明する。
【0024】
ブロック210では、インタラクション制御装置140が、音声インタラクション機器120における音信号と、音信号から認識された認識情報とを取得する。認識情報は、音声認識技術によって音信号から認識されたものである。需要に応じて、認識情報は、任意の形式で表すことができる。いくつかの実施例では、認識情報はテキスト情報であってもよい。例えば、認識情報は、ある自然言語(例えば、中国語、英語、日本語など)で表されるテキストシーケンスを含むことができる。別のいくつかの実施例では、認識情報は、任意の他の情報表現で表すこともできる。例えば、認識情報は、機械言語で表すこともできる。
【0025】
音声インタラクション機器120によって収集された元の音は、一定の処理を経て、音声認識に利用可能な音信号として取得することができる。元の音信号の処理、及び/又は音信号からの情報認識は、インタラクション制御装置140によって実行されてもよいし、又はインタラクション制御装置140以外の装置/機器によって実行されて、インタラクション制御装置140に提供されてもよい。例えば、インタラクション制御装置140が音声インタラクション機器120のリモート側(例えば、クラウド)に位置する実施例では、音声インタラクション機器120のローカル側の装置(例えば、インタラクション制御装置140-1)がサウンドコレクタ122によって収集された元の音に対して一定の処理を行った後にリモート側のインタラクション制御装置140-2に提供することができる。以下では音信号及び認識情報を取得するいくつかの例示的な実施例を詳細に説明する。
【0026】
ブロック220では、インタラクション制御装置140が、少なくとも音響特徴表現及びセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定する。インタラクション信頼度は、音信号が音声インタラクション機器120とインタラクションするために使用された、又は部分的に使用された音声である信頼度を示す。
【0027】
音声インタラクション制御のプロセスでは、音声インタラクション機器120がユーザ110の実際の音声命令にタイムリー且つ正確に応答することが望ましい。しかしながら、音声インタラクション機器120は、いくつかのノイズ信号、又は音声インタラクション機器120とのインタラクションに使用されない信号(例えば、人と人の会話など)を収集した可能性がある。例えば、一回のウェイクアップで連続的なインタラクションを行うプロセスでは、音声インタラクション機器120がウェイクアップされた後にユーザ110の音声命令を常に注目して収集するため、干渉する音信号を収集する確率が高い。音声インタラクション機器120とのインタラクションに使用されない音に応答すると、インタラクションのインテリジェンスが低くなり、ユーザ体験が悪くなりやすい。一回のウェイクアップで一回のインタラクションを行うプロセスでは、ほとんどの場合、ユーザ110が音声インタラクション機器120をウェイクアップするたびに音声命令を出すと簡単に仮定することができるが、このような仮定によって、音声インタラクション機器120は、ユーザ110が音声インタラクション機器120に音声命令を出したか否かにも関わらず、音声インタラクション機器120が応答する必要があるように制御され、音声インタラクション機器120のインタラクションが充分にインテリジェントでなくなり、ユーザ体験が低下する。
【0028】
したがって、本開示の実施例によれば、音信号の信頼度の判断を実行することが提案される。具体的には、音信号及び/又は認識情報の全体的な視点からインタラクション信頼度を決定することができ、当該インタラクション信頼度は、当該音信号が実際の音声であり、当該音信号がインタラクションのためのものであることを示すことができる。音信号が実際の音声であるか否かを判断することによって、前の処理中に音声が入っていない音(例えば、様々な環境音)を音声として検出され、その中から情報が認識される(例えば、認識テキスト)ことを防止することができる。音信号がインタラクションのためのものであるか否かを判断することは、ユーザ110が音声インタラクション機器120とインタラクションしているか、それとも周囲の他の人とインタラクションしているかを区別するためである。
【0029】
全体的なインタラクション信頼度は、少なくとも音信号の音響特徴表現及び/又は認識情報のセマンティック特徴表現に基づいて決定することができる。音響特徴表現は、音声と非音声との区別を捉えるのに役立つとともに、インタラクションのための音声と非インタラクションのための音声とを区分することもできる。認識情報のセマンティック特徴表現は、セマンティックの面から判断することができ、これは、非音声の音信号から認識された情報が、通常、実際の意味がなく、人と音声インタラクション機器120とのインタラクションが、セマンティック上で区分することができるからである。いくつかの実施例では、機械学習モデルによって音信号及び認識情報の分析を実現することができ、これは以下で詳細に説明する。
【0030】
ブロック230では、インタラクション制御装置140が、認識情報と音信号とのマッチング状況を決定する。マッチング状況は、認識情報が、音信号に実際に含まれる情報を正確に反映する度合いを示す。インタラクション信頼度は、音信号が音声機器120とインタラクションするための音声であるか否かを確率上で決定するものであるが、音声インタラクション機器120がどのように音信号に応答するかを決定する時に、通常、認識情報に基づいてユーザの意図を理解する必要がある。
【0031】
認識情報は、異なる粒度で一つ又は複数のユニットのシーケンスとして表すことができ、各ユニットは、単語、音節、ピクセル、音素、サブ音素、又はこれらの組み合わせであってもよい。認識情報と音信号とのマッチング状況は、音信号と認識情報とが認識情報の単位レベルで一対一にマッチングするか否かを認識することができる。これは、音声インタラクション機器120をどのように制御して応答させるかを决定する。いくつかの実施例では、機械学習モデルによって認識情報と音信号とのマッチング状況の決定を実現することもでき、これは以下で詳細に説明する。
【0032】
例えば、認識情報と音信号とが一対一にマッチングすると決定された場合、直ちに応答するように、すなわち、音信号に直接フィードバックするように音声インタラクション機器120を制御することができる。一対一にマッチングしないと決定された場合、ポリシーに従って、どのように応答するかを決定する必要がある。例えば、依然として認識情報からユーザの意図を正確に決定することができる場合、直ちに応答するように、すなわち音信号に直接フィードバックするように音声インタラクション機器120を制御することができる。認識情報からユーザの意図を正確に判断できない場合、マッチング状況に基づいて、ユーザ110に対するガイドフィードバックを決定して、音声インタラクション機器120に対する所望の命令を明確にするようにユーザ110をガイドすることができる。
【0033】
ブロック240では、インタラクション制御装置140が、音信号に対する音声インタラクション機器120の応答を制御するように、インタラクション信頼度とマッチング状況とを提供する。音声インタラクション機器120に対する応答の制御は、インタラクション制御装置140によってローカルで実現されるか、又は他のインタラクション制御装置によって実現されてもよい。インタラクション信頼度及びマッチング状況は、それぞれインタラクション音声の判断及び認識情報の緻密な評価の両方から評価されるため、これは、音声インタラクション機器120のインタラクション制御を改善するのに役立ち、これにより、音声インタラクション機器120が正確なインタラクション音声信号に迅速に応答し、非インタラクション音声信号に応答せず、インタラクション音声信号であるがその中から情報を正確に認識することができない場合には、マッチング状況に基づいて、音声インタラクション機器120がどのように応答するかを決定することもできる。
【0034】
具体的な一例として、ユーザ110が「私はジェイ・チョウ(周杰倫)の稲の香りが聴きたい」と言ったが、認識情報が「私はジェイ・チョウの塔の下が聴きたい」を示した場合、インタラクション信頼度は、音信号及び/又は認識情報によって、現在ユーザが音声インタラクション機器120とインタラクションしていると決定したが、認識情報の中では、「私はジェイ・チョウの…が聴きたい」というマッチング信頼度が高く、「塔の下」のマッチング信頼度が低い。このような場合には、認識情報と音信号とのマッチング状況に基づいて、その意図をさらに明確にするようにユーザ110をガイドすることができる。例えば、「先ほどはよく聴き取れなかったので、主人様はジェイ・チョウのどの曲がお聴きしたいですか」という音を出すように音声インタラクション機器120を制御することができる。
【0035】
例示的な機器アーキテクチャ
上記のように、インタラクション制御装置140は、機械学習モデルを用いてインタラクション信頼度及び/又は認識情報と音信号とのマッチング状況を決定することができる。
本明細書では、「機械学習モデル」という用語は、「学習モデル」、「学習ネットワーク」、「ネットワークモデル」、又は「モデル」と呼ぶこともできる。「ニューラルネットワーク」又は「ニューラルネットワークモデル」は、深層機械学習モデルである。一般的には、機械学習モデルは、入力情報を受信し、入力情報に基づいて予測を実行する。
【0036】
機械学習は、主に、トレーニング段階、テスト段階、及びアプリケーション段階という三つの段階に分けることができる。トレーニング段階では、予定の機械学習モデルがトレーニングサンプルから一貫した、人間の知恵が行うことができる推論と同様の推論を取得することができるまで、機械学習モデルを大量のトレーニングサンプルを用いて繰り返しトレーニングすることができる。機械学習モデルは、トレーニングによって、トレーニングデータから入力から出力までのマッピング又は関連関係を学習できると考えられる。トレーニング後に、機械学習モデルのパラメータセットが決定される。テスト段階では、テストサンプルを用いてトレーニング済の機械学習モデルをテストして、機械学習モデルの性能を決定することができる。アプリケーション段階では、機械学習モデルは、トレーニングによって取得されたパラメータセットに基づいて、実際の入力情報を処理して、対応する出力を出力することができる。異なるタスクに基づいて機械学習モデルを選択及び構成し、対応するトレーニングデータを用いて機械学習モデルをトレーニングして対応するタスクを実現することができる。
【0037】
次に、
図3を参照して機械学習モデルに基づく例示的な実施例を説明する。
図3は、インタラクション制御装置140の例示的なアーキテクチャを示す。
図3に示すように、インタラクション制御装置140は、音声認識エンジン310と音声信頼度エンジン320とを備える。
【0038】
音声認識エンジン310は、音信号302を取得し、音信号302から対応する認識情報312を決定するように構成される。音声認識エンジン310は、様々な音声認識技術を利用して音信号302から認識情報312を取得することができる。本開示の実施例は、この点で限定されない。
【0039】
音声信頼度エンジン320は、音信号302及び/又は認識情報312に基づいてインタラクション信頼度を決定するように構成され、及び/又は認識情報312と音信号302とのマッチング状況を決定するように構成される。
図3の例示的な実施例では、音声信頼度エンジン320は、音響信頼度モデル330を用いて音信号302を処理して、インタラクション信頼度を決定するか、又は決定することを支援することができる。代替可能又は追加可能に、音声信頼度エンジン320は、セマンティック信頼度モデル340を用いて、認識情報312を処理して、インタラクション信頼度を決定するか、又は決定することを支援することもできる。
【0040】
マッチング状況の決定に関して、音声信頼度エンジン320は、ローカル情報音信頼度モデル350を用いて、音信号302と認識情報312とを処理して、音信号302の各音セグメントから、認識情報と音信号とのマッチング状況を決定するか、又は決定することを支援することができる。代替可能又は追加可能に、音声信頼度エンジン320は、グローバル情報音信頼度モデル360を用いて、音信号302と認識情報312とを処理して、音信号302の全体から、認識情報と音信号とのマッチング状況を決定するか、又は決定することを支援することもできる。
【0041】
上記の四つのモデルは、それぞれ異なる面から音信号302及び/又は認識情報312を処理することが分かる。いくつかの実施例では、音響信頼度モデル330及び/又はセマンティック信頼度モデル340は、音信号302に基づいて決定された音響信頼度及び/又は認識情報312に基づいて決定されたセマンティック信頼度を出力して、音信号302が音声インタラクション機器120とインタラクションするための音声であるインタラクション信頼度を個別に又は組み合わせて示すことができる。いくつかの実施例では、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360は、音セグメントから決定されたマッチング状況及び/又は音信号302の全体から決定されたマッチング状況を出力して、認識情報312に含まれる単語が音信号302に実際に含まれる情報を正確に反映する度合いを個別に又は組み合わせて示すことができる。いくつかの実施例では、音響信頼度モデル330、セマンティック信頼度モデル340、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360は、モデル処理の中間結果及び/又は最終出力332、342、352、及び362を融合モデル370に提供することができる。この四つのモデル330、340、350、及び360は、それぞれのタスクに応じて、異なる面から音信号302及び/又は認識情報312を解析するため、融合モデル370は、これらの情報をまとめることにより、インタラクション信頼度372及び/又はマッチング状況374をより正確に決定することができる。
【0042】
以下では、音声信頼度エンジン320に含まれるこれらのモデルをより詳細に説明する。
【0043】
音響信頼度モデルの例示的な実施例
音響信頼度モデル330は、音信号がヒューマン・マシンインタラクションのための音声である確率(音響信頼度と呼ばれる)を決定するように構成され、すなわち、音信号が実際の音声である確率、又は人と音声インタラクション機器とがインタラクションする時の音声である確率を決定する。音響信頼度モデル330の入力は音信号である。音響信頼度モデル330は、音信号の音響特徴表現を抽出し、音響特徴表現に基づいて、音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定するように構成することができる。
【0044】
音響信頼度モデル330は、音信号を処理するのに適した任意の機械学習モデルを用いて実現することができ、特に、時間シーケンス上の情報を処理するのに適した機械学習モデルを用いて実現することができる。いくつかの実施例では、音響信頼度モデル330は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(単純なRNN、LSTMネットワーク、GRUネットワークなど)、変換器ネットワークなど一つ又は複数のタイプのモデル構造に基づいて実現することができる。
【0045】
図4は、音響信頼度モデル330の一つの例示的なモデル構造を示す。当該例では、音響信頼度モデル330は、複数のネットワーク層を含み可能なディープニューラルネットワークモデルとして構成される。
図4に示すように、音響信頼度モデル330は、畳み込み層410、バッチ正規化(BN)層420、N個の変換層430(Nは1以上の整数である)、完全接続(FC)層440、及び出力層450を含む。各変換層430は、一つ又は複数のLSTMサブネットワーク432とバッチ正規化層434とを含むことができる。音響信頼度モデル330では、完全接続層440及び出力層450より前のネットワーク層は、入力された音信号の音響特徴表現を探索するためのネットワーク層として見なされてもよい。LSTMサブネットワーク432は、一定の時間ウィンドウごとに音信号上で平行移動し、時間ウィンドウごとに入力情報を処理することができる。出力層450は、変換関数を用いて、一つ前の層によって提供される音響特徴表現に基づいてモデル出力、すなわち音響信頼度を生成する。いくつかの例では、音響信頼度は、0~1の範囲における連続値であってもよい。したがって、出力層450で利用される関数は、例えば、出力値を0~1の範囲内にマッピングするsigmoid関数であってもよい。
【0046】
図4は、音響信頼度モデル330の一例のみを示すことを理解されたい。音響信頼度モデル330は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設計されてもよく、又はその中の一つ又は複数のネットワーク層は、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。
【0047】
音響信頼度モデル330のトレーニングは、教師あり機械学習方法に基づくことができる。音響信頼度モデル330の実現すべきタスクを考慮して、トレーニング段階では、音響信頼度モデル330をトレーニングするためのトレーニングデータは、音信号と音信号に対応する音響信頼度タグとを含み、当該タグは、対応する音信号がヒューマン・マシンインタラクションのための音声であるか否かを示す。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。音響信頼度モデル330のタスクでは、正の例のサンプル(本明細書では、区別を容易にするために第1の正の例のサンプルと言う場合もある)は、ヒューマン・マシンインタラクションのための音信号を含み、負の例のサンプル(本明細書では、区別を容易にするために第1の負の例のサンプルと言う場合もある)は、非ヒューマン・マシンインタラクションの音信号(ノイズ、人と人がコミュニケーションする音声、動物声など)を含む。正の例のサンプルに対応する音響信頼度タグは、対応する音信号がヒューマン・マシンインタラクションのための音声であることを示し、負の例のサンプルに対応する音響信頼度タグは、対応する音信号がヒューマン・マシンインタラクションのための音声ではないことを示す。
【0048】
トレーニングサンプルを収集する時、音声インタラクション機器(例えば、セマンティックインタラクション機器120及び/又は他の音声インタラクション機器であってもよい)がウェイクアップワードを検出した前及び検出した後に収集された音信号をそれぞれ負の例のサンプル及び正の例のサンプルとして使用することができる。いくつかの実施例では、一回のウェイクアップで一回のインタラクションを行うシーンにおける音声インタラクション機器がウェイクアップワードを検出した前及び検出した後に収集された音信号を負の例のサンプル及び正の例のサンプルとして使用することができる。もちろん、任意の他の方式でのサンプル収集も可能である。
【0049】
トレーニング中に、サンプルの音信号における各フレームを、正の例又は負の例(すなわち、正の例のサンプルに対応する音響信頼度タグと負の例のサンプルに対応する音響信頼度タグとを有する)としてラベル付けすることができる。したがって、モデルのトレーニング時に、入力されたサンプルの音信号の各フレームについて、いずれも対応する音響信頼度タグと比較し、比較された誤差に基づいてモデルのパラメータを最適化することができる。例えば、トレーニング時に、入力されたサンプル音信号の各フレームの、N個の変換層430によって処理された後の音響特徴表現は、いずれも後続の完全接続層440に提供される。
【0050】
音響信頼度モデル330をトレーニングするための正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号を含み、負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号であるため、音響信頼度モデル330は、ヒューマン・マシンインタラクションのための音信号と非ヒューマン・マシンインタラクションの音信号を正確に区分できるようにトレーニングされる。トレーニング後に、音響信頼度モデル330は、音声インタラクション機器102の音信号302の処理に適用することができる。アプリケーション段階では、N個の変換層430の後に、音信号302の最後のフレームに対して抽出された音響特徴表現が後続の完全接続層440に提供される。
【0051】
上記のように、音信号302を処理する時、音響信頼度モデル330によって出力される音響信頼度は、インタラクション信頼度の決定に直接に使用されるか、又はセマンティック信頼度モデル340によって出力されるセマンティック信頼度と共にインタラクション信頼度の決定に使用されてもよい。代替可能的に、音響信頼度モデル330によって出力される音響信頼度及び/又は音信号302から抽出された音響特徴表現は、いずれも出力332として音声信頼度エンジン320内の融合モデル370に提供することができ、融合モデル370によって、他のモデルからのモデル出力及び/又は特徴表現と組み合わせて、最後のインタラクション信頼度372の決定に使用される。音響特徴表現を提供する時、音響信頼度モデル330のN個の変換層430が処理した後の音響特徴表現を融合モデル370に提供することができる。融合モデル370に最後の音響信頼度を提供してインタラクション信頼度372を決定する必要がない実施例において、トレーニング後のアプリケーション段階では、音響信頼度モデル330の完全接続層440と出力層450は、音信号302の音響特徴表現を処理しなくてもよい。
【0052】
セマンティック信頼度モデルの例示的な実施例
セマンティック信頼度モデル340は、セマンティックから、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報である確率(セマンティック信頼度と言う)を決定するように構成され、すなわち、認識情報が人と音声インタラクション機器とがインタラクションする時の実際の音声から認識された情報である確率、又は非ヒューマン・マシンインタラクションの音から認識された情報である確率を決定する。セマンティック信頼度モデル340の入力は、認識情報である。セマンティック信頼度モデル340は、認識情報に関連付けられたセマンティック特徴表現を取得し、セマンティック特徴表現に基づいて、認識情報がヒューマン・マシンインタラクションのための音声であるセマンティック信頼度を決定するように構成することができる。
【0053】
セマンティック信頼度モデル340は、セマンティックを処理するのに適する任意の機械学習モデルを用いて実現することができる。認識情報が自然言語で表されるテキストシーケンスなどのテキスト情報として表される場合、セマンティック信頼度モデル340は、自然言語処理(NLP)に適した機械学習モデルを用いて実現することができる。いくつかの実施例では、セマンティック信頼度モデル340は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(単純なRNN、LSTMネットワーク、GRUネットワークなど)、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。いくつかの実施例では、セマンティック信頼度モデル340は、インタラクションコンテキスト、復号単語マップ情報、ユーザ行動フィードバック、認識結果セマンティック情報などの様々なセマンティック特徴表現を用いて、全体から、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるか否かを直接に判断することができる。
【0054】
図5は、セマンティック信頼度モデル340の一つの例示的なモデル構造を示す。当該例では、セマンティック信頼度モデル340は、ディープニューラルネットワークモデルとして構成され、双方向LSTM(BiLSTM)に基づくモデル構造である。いくつかの実施例では、まず、認識情報の特徴変換を埋め込み(embedding)表現と呼ぶことができる。このような変換機能は、セマンティック信頼度モデル340に統合されるか、又は外部モデルによって実行された後にセマンティックに提供することができる。いくつかの実施例では、テキストで表される場合、認識情報を単語分割(例えば、中国語、日本語、韓国語などの言語のテキスト)した後の単語分割された埋め込み表現をモデル入力とすることができる。もちろん、いくつかの実施例では、認識情報の単語分割を行わなくてもよい。
【0055】
図5に示すように、認識情報にそれぞれ対応する埋め込み表現510-1、510-2、……510-N(埋め込み表現510と総称し、Nは1以上の正整数である)は、それぞれ一つ又は複数のLSTMによって処理される。
図5の例では、2層のLSTMを示し、例えば、LSTM520-1、520-2、……520-N(LSTM520と総称する)によって構成される一つの層、及びLSTM530-1、530-2、……530-N(LSTM530と総称する)によって構成される一つの層である。より多くのLSTM層、又は一つの層のみでも可能であることを理解されたい。最後の層の各LSTMの出力は、それぞれSoftmax層540-1、540-2、……540-N(Softmax層540と総称する)に提供される。Softmax層540は、Softmax関数に基づいて当該層の入力を処理することができる。セマンティック信頼度モデル340の最後の出力層550は、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を出力することができる。
【0056】
図5は、セマンティック信頼度モデル340の一例のみを示すことを理解されたい。セマンティック信頼度モデル340は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設定されてもよく、又はその中の一つ又は複数のネットワーク層が、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。
【0057】
図5には、双方向に基づくセマンティック信頼度モデル340(例えば、Bi-LSTMを利用した)が示されているが、セマンティック特徴表現に基づく機械学習モデルは、通常、小型であるので、当該モデルは、実際には一方向モデルであってもよいし、双方向モデルであってもよい。
【0058】
上記の説明において、セマンティック信頼度モデル340のセマンティック信頼度決定に考慮できるセマンティック特徴表現が言及された。いくつかの実施例では、セマンティック信頼度モデル340のセマンティック特徴表現は、インタラクションコンテキストを含むことができる。ここでのインタラクションコンテキストは、人と音声インタラクション機器とのインタラクション中に、人が提供する情報(例えば、音声によって入力されたテキスト)と音声インタラクション機器の応答に対応する情報(例えば、音声によって出力されたテキスト)とを指すことができ、当該回のウェイクアップから現在インタラクションされている認識情報までのすべてのインタラクション情報を含む。セマンティック特徴表現は、復号単語マップ情報を考慮することもできる。現在入力されている認識情報は、単語マップから復号されたものであってもよく、セマンティック信頼度モデル340は、単語マップ内の音響点数、言語点数、及び総点数を使用することができ、同時に認識情報内の各単語の候補単語リストなどを含むことができる。
【0059】
代替可能又は追加可能に、セマンティック信頼度モデル340は、認識情報のセマンティック特徴も考慮することができ、当該セマンティック特徴は、主に、ドメイン解析、意図判断、及び完全性判断などの複数の次元情報をカバーする。代替可能又は追加可能に、セマンティック信頼度モデル340は、年齢、性別、高頻度のオンデマンドリソース名リスト、関心のある分野リストなどを含む、ユーザ登録及び多くの履歴インタラクションで蓄積されたユーザ固有の情報を特徴付けるユーザ個人化情報も考慮することができる。代替可能又は追加可能に、セマンティック信頼度モデル340は、ユーザと音声インタラクション機器とのインタラクション中の行動フィードバック情報を考慮することもでき、当該情報は、リソースの切り替え、命令情報、リスニング時間などユーザの行動を含むことができる。
【0060】
セマンティック信頼度モデル340のトレーニングは、教師あり機械学習方法に基づくことができる。セマンティック信頼度モデル340が実現すべきタスクを考慮して、トレーニング段階では、セマンティック信頼度モデル340をトレーニングするためのトレーニングデータは、認識情報と認識情報に対応するセマンティック信頼度タグとを含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。セマンティック信頼度モデル340のタスクにおいて、正の例のサンプル(本明細書では区別を容易にするために第2の正の例のサンプルと言う場合もある)は、ヒューマン・マシンインタラクションのための音信号からラベル付けられた正しい情報(例えば、ラベル付けられた正確テキストであってもよい)を含み、負の例のサンプル(本明細書では区別を容易にするために第2の負の例のサンプルと言う場合もある)は、非ヒューマン・マシンインタラクションの情報を含む。正の例のサンプルに対応するセマンティック信頼度タグは、対応する情報がヒューマン・マシンインタラクションのための音声から認識された情報であることを示し、負の例のサンプルに対応するセマンティック信頼度タグは、対応する情報がヒューマン・マシンインタラクションのための音声から認識された情報ではないことを示す。セマンティック信頼度モデル340をトレーニングするための正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号に関連し、負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号に関連するので、セマンティック信頼度モデル340は、ヒューマン・マシンインタラクションのための音信号及び非ヒューマン・マシンインタラクションの音信号に対応する情報を正確に区分できるようにトレーニングされる。
【0061】
トレーニングサンプルを収集する時、音響信頼度モデル330をトレーニングするための正の例のサンプル及び負の例のサンプルから対応する情報をラベル付け、それぞれセマンティック信頼度モデル340の正の例のサンプル及び負の例のサンプルとして使用することができる。負の例のサンプルは、他の情報キャリア(例えば、ウェブページ、記事など)からヒューマン・マシンインタラクションに使用されない情報も取得することができる。もちろん、任意の他の方式でのサンプル収集も可能である。
【0062】
上記のように、認識情報312を処理する時、音響信頼度モデル330によって出力される音響信頼度は、インタラクション信頼度の決定に直接に使用されるか、又はセマンティック信頼度モデル340によって出力されるセマンティック信頼度と共にインタラクション信頼度の決定に使用することができる。代替可能に、セマンティック信頼度モデル340によって出力されるセマンティック信頼度及び/又は認識情報312に関連付けられたセマンティック特徴表現は、いずれも出力342として音声信頼度エンジン320内の融合モデル370に提供することができ、融合モデル370によって、他のモデルからのモデル出力及び/又は特徴表現を組み合わせて最後のインタラクション信頼度372の決定に使用される。セマンティック特徴表現を提供する時、セマンティック信頼度モデル340が過剰な処理を実行する必要がなく、特徴ステップによって取得された特徴表現を直接に使用することができる。
【0063】
ローカル情報音信頼度モデルの例示的な実施例
上記のように、認識情報は、一つ又は複数のユニットを含むユニットシーケンスとして表すことができる。各ユニットは、単語、音節、ピクセル(例えば、中国語では単一の文字を指し、英語では単語を構成するアルファベットなど、これに基づいて類推する)、音素、サブ音素、マルチ音素の組み合わせセグメント、又はマルチピクセルの組み合わせセグメントのいずれかを含むことができる。いくつかの実施例では、認識情報によって変換されるユニットシーケンス内の一つ又は複数のユニットは、コンテキスト関連ユニットをさらに含むことができ、当該コンテキスト関連ユニットは、認識情報によって直接に変換されるユニット(例えば、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント)のコンテキストに関連する。これは、各ユニットのコンテキストを区分するのに役立つ。例えば、認識テキスト「私の祖国」について、音素シーケンスに変換した後に「w o d e z u g u o」として表すことができる。次に、コンテキストに関連する組み合わせを音素シーケンスに追加することにより、音素シーケンスは、「^_w+o, w_o+d, o_d+e……」などに変換することができる。ここでは、コンテキストの組み合わせは、異なるコンテキスト内の同じ音素を区別するために使用される。
【0064】
ローカル情報音信頼度モデル350は、音信号の音響セグメントに基づいて、認識情報を構成する各ユニットが正確に認識された確率(マッチング信頼度とも言う)を判断するように構成される。
【0065】
具体的には、認識情報をユニットシーケンス表現に変換した後、音信号を、ユニットシーケンス内のユニットにそれぞれ対応する一つ又は複数の音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成することができる。音信号を分割する時、まず音信号内の無音部分を削除し、その後、他の部分を統合した後に分割することができ、分割された音響セグメントの数は、ユニットシーケンス内のユニットの数と同じである。
【0066】
各ユニット音響セグメントペアは、ローカル情報音信頼度モデル350の入力として使用される。ローカル情報音信頼度モデル350は、各ユニット音響セグメントペアのユニット音響セグメント特徴表現を抽出し、抽出したユニット音響セグメント特徴表現に基づいて、対応するユニットと音響セグメントとのマッチング信頼度を決定するように構成することができる。マッチング信頼度の値は、0又は1などの離散値であってもよく、0は、ユニットが音響セグメントとマッチングしないことを示し、1は、ユニットが音響セグメントとマッチングすることを示す。別のいくつかの例では、マッチング信頼度の値は、マッチングする又はマッチングしない確率を示す、0と1の間などの連続値であってもよい。
【0067】
いくつかの実施例では、音響セグメントとユニットとの整列は、整列モデルを用いて実現することができ、整列モデルは、隠れマルコフモデル(HMM)に基づく3状態整列モデルであってもよく、整列に使用される音響モデルは、畳み込みニューラルネットワークと完全接続ニューラルネットワークとによって構成される。ローカル情報音信頼度モデル350は、音信号と情報セマンティックとを処理するのに適した任意の機械学習モデルを用いて実現することができる。いくつかの実施例では、ローカル情報音信頼度モデル350は、多層CNNモデル構造に基づいて実現することができ、典型的なモデル構造の例としては、例えば、コンピュータビジュアルジオメトリグループ(Visual Geometry Group,VGG)、Inceptionネットワーク、残差ネットワークなどを含むことができる。
【0068】
図6は、ローカル情報音信頼度モデル350の例示的な構造を示す。
図6の例では、ローカル情報音信頼度モデル350は、共有隠れ層VGGに基づくMixLR(Mixture of Logistic Regression,混合ロジスティック回帰)モデルである。図に示すように、ローカル情報音信頼度モデル350は、一つ又は複数のカスケードのCNN構造602を含み、各CNN構造602は、一つ又は複数のCNNネットワーク層610とプーリング層620とを含む。複数のCNN構造602を有する場合、異なるCNN構造602は直列に接続され、その中のプーリング層620は、一つ前のCNN構造602から当該CNN構造602に伝達する中間特徴表現のサイズを絶えずに小さくすることができる。すべてのCNN構造602の処理を経て、ローカル情報音信頼度モデル350は、完全接続層630、Sigmoid層640、及びMixLRモデル650を含む。MixLRモデル650は、ローカル情報音信頼度モデル350の出力を与える。
【0069】
図6はローカル情報音信頼度モデル350の一例のみを示すことを理解されたい。ローカル情報音信頼度モデル350は、より多くの同じ又は異なるタイプのネットワーク層、より少ないネットワーク層を含むように設計することもでき、又はその中の一つ又は複数のネットワーク層は、他の一つの又はネットワーク層によって置き換えられてもよい。本開示の実施例は、この点で限定されない。
【0070】
ローカル情報音信頼度モデル350のトレーニングは、教師あり機械学習方法に基づくことができる。ローカル情報音信頼度モデル350が実現すべきタスクを考慮して、トレーニング段階では、ローカル情報音信頼度モデル350をトレーニングするためのトレーニングデータは、音信号内の音響セグメント、ユニット、音響セグメントとユニットとの対応するタグ(ユニットと音響セグメントとのマッチング度合いを示す)を含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。正の例のサンプル(本明細書では、区別を容易にするために第3の正の例のサンプルと言う場合もある)は、ヒューマン・マシンインタラクションのための音信号内の音響セグメント(区別を容易にするために第1の音響セグメントと言う場合もある)、第1の音響セグメントからラベル付けられたユニット(区別を容易にするために第1のユニットと言う場合もある)、第1の音響セグメントと第1のユニットとの対応するタグ(ユニットと音響セグメントとのマッチング度合いを示す)を含む。負の例のサンプル(本明細書では区別を容易にするために第3の負の例のサンプルと言う場合もある)は、ある音響セグメント(区別を容易にするために第2の音響セグメントと言う場合もある)、及び第2の音響セグメントに出現するユニットとは異なるユニット(区別を容易にするために第2のユニットと言う場合もある)を含む。いくつかの実施例では、第3の負の例のサンプルは、ヒューマン・マシンインタラクションの音信号及び/又は非ヒューマン・マシンインタラクションの音信号内の音響セグメントと、音響セグメントにマッチングしないユニットと、をさらに含むことができる。
【0071】
ローカル情報音信頼度モデル350の正の例のサンプルと負の例のサンプルを決定する時に、混同行列に基づく正と負の例の定義方法を使用することもできる。ローカル情報音信頼度モデル350の二つのタイプの確認問題において、正と負の例の定義が非常に重要である。いくつかの実施例では、正と負の例を定義するプロセスは、損失関数に基づく最適化方法を組み合わせる必要がある場合もある。いくつかの実施例では、正と負の例の参照としてビタビアライメントによって形成された混同行列を使用し、混同行列内の非常に類似した最初の数個(例えば、最初のK個、Kは1以上である)を、当該音響セグメントの負の例とし、残りをすべて当該音響セグメントの負の例とすることができる。このプロセスでは、焦点損失(focal loss)に基づく損失関数が使用される。
【0072】
トレーニングサンプルを収集する時、セマンティック信頼度モデル340をトレーニングするための正の例のサンプルと負の例のサンプルから、対応する認識情報内のユニット及びユニットに対応する音響セグメントを認識し、それぞれローカル情報音信頼度モデル350の正の例のサンプルと負の例のサンプルとして使用することができる。音響セグメントに対応するユニットを他のユニットにランダムに修正して、別の負の例のサンプルとすることができる。もちろん、任意の他の方式でのサンプル収集も可能である。
【0073】
上記のように、認識情報312と音信号302とを処理する時、ローカル情報音信頼度モデル350によって出力される各ユニットに対応するマッチング信頼度は、情報と音とのマッチング状況として使用されるか、又はグローバル情報音信頼度モデル360の出力と共にマッチング状況を決定するのに使用することができる。代替可能に、ローカル情報音信頼度モデル350によって出力される認識情報のユニットレベルのマッチング信頼度及び/又は各ユニット音響セグメント特徴表現は、いずれも音声信頼度エンジン320内の融合モデル370に提供することができ、融合モデル370は、他のモデルからのモデル出力及び/特徴表現を組み合わせて最後のマッチング状況374を決定するのに使用される。
【0074】
グローバル情報音信頼度モデルの例示的な実施例
ローカル情報音信頼度モデル350と比較して、グローバル情報音信頼度モデル360は、音信号の全体から、認識情報における各ユニットが正確に認識された状況、認識情報の全体が正確に認識されていない時の具体的なエラーのタイプ及びエラーが発生可能な位置を判断するように構成される。
【0075】
グローバル情報音信頼度モデル360は、一つのタグシーケンスを出力するように構成することができ、当該タグシーケンスは、ユニットシーケンス内の各ユニットに対応する複数のマッチングタグ、開始タグ、及び終了タグを含む。各マッチングタグは、複数のユニット内の一つのユニットが音信号内の対応する音響セグメントにマッチングするか否かを示し、開始タグは、複数のユニット内の開始ユニットが音信号の開始位置に出現したか否かを示し、終了タグは、複数のユニット内の最後のユニットが音信号の終了位置に出現したか否かを示す。認識情報に対応するユニットシーケンスが複数のユニットを含む場合、シーケンスタグは、複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する隣接指示タグをさらに含むことができる。各隣接指示タグは、隣接する二つのユニットが音信号内の隣接する位置に出現したか否かを示す。
【0076】
いくつかの実施例では、グローバル情報音信頼度モデル360は、ニューラルネットワーク構造における典型的なエンコーダ・デコーダアーキテクチャを使用することができ、エンコーダアーキテクチャは、音響信頼度モデル330と共有することができる。もちろん、グローバル情報音信頼度モデル360は、完全に独立したエンコーダデ・コーダアーキテクチャも使用することができる。エンコーダ・デコーダアーキテクチャでは、注意力アーキテクチャなどを使用することができる。いくつかの実施例では、エンコーダアーキテクチャは、CNN、リカレントニューラルネットワーク(単純なRNN、LSTM、GRUなど)、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。アテンションアーキテクチャは、和式アテンションメカニズム、セルフアテンションメカニズム、ドッド乗算アテンションメカニズム、ローカルセンシティブアテンションメカニズムなどを含むことができる。デコーダアーキテクチャは、エンコーダに類似し、CNN、リカレントニューラルネットワーク(単純なRNN、LSTM、GRUなど)、変換器ネットワークなどの一つ又は複数のタイプのモデル構造に基づいて実現することができる。
【0077】
図7は、グローバル情報音信頼度モデル360の一つの例示的なモデル構造を示す。当該例では、グローバル情報音信頼度モデル360のエンコーダアーキテクチャは、音響信頼度モデル330と共有する。すなわち、音響信頼度モデル330によって音信号を処理して、音響特徴表現を提供する(例えば、音響信頼度モデル330の最後の変換層430から提供する)。グローバル情報音信頼度モデル360の埋め込み層710は、認識情報のセマンティック特徴表現を抽出する。グローバル情報音信頼度モデル360は、セルフアテンション部分722、ドット乗算アテンション部分724、及びフィードフォワード層726を含むアテンションアーキテクチャ720をさらに含む。グローバル情報音信頼度モデル360は、最終的なタグシーケンスを提供するための完全接続層730と出力層740とをさらに含む。グローバル情報音信頼度モデル360は、認識情報における各ユニットの順序に従ってタグシーケンスを予測するように構成される。ユニットごとの処理のプロセスでは、グローバル情報音信頼度モデル360は、音響特徴表現とセマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出し、最後にタグシーケンスを生成することができる。
【0078】
このようなタグシーケンスをよりよく理解するために、タグシーケンスが、単一のユニットの認識精度の判断だけでなく、認識情報がユニットごとにマッチングしていない場合にどのようなエラーが出現したかを決定するのにどのように役立つかについて、
図8のいくつかの例を参照して詳細に説明する。通常、よく見られる認識エラーは、削除エラー、挿入エラー、及び置き換えエラーに分類することができ、削除エラーは、一つ又は複数のユニットが無くされたことであり、挿入エラーは、認識情報に一つ又は複数の余分のユニットが挿入されたことであり、置き換えエラーは、認識情報内の一つ又は複数のユニットが他のユニットに置き換えられたことである。特定の認識情報には、上記の一つ又は複数のタイプのエラーが発生する可能性がある。
【0079】
図8の例(a)では、音信号内の正しい情報が「ABCD」であり、認識情報が「ACD」として認識されたと仮定する。グローバル情報音信頼度モデル360は、認識情報に基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。グローバル情報音信頼度モデル360は、各タグビット及び各ユニットに対応するマッチングタグの値を決定するように構成される。例えば、順序に従って、グローバル情報音信頼度モデル360は、音信号の全体から、認識情報内のユニット「A」が音信号の開始位置に出現し、且つユニット「A」が音信号内の音セグメントにもマッチングしていることを決定したため、タグシーケンス内の開始タグは「1」として表記されて、開始位置であることを示し、ユニット「A」に対応するマッチングタグも「1」と表記されて、ユニットがマッチングしていることを示す。
【0080】
さらに、グローバル情報音信頼度モデル360は、認識情報内の隣接する二つのユニット「A」と「C」が音信号内で隣接していないことを発見し、これは、音信号でこの二つのユニット間に他のユニット、すなわちユニット「B」があることが示されているからである。したがって、隣接する二つのユニット「A」と「C」の間の隣接タグは、「0」として表記されて、この隣接する二つのユニットが音信号内の隣接する位置に出現していないことを示す。グローバル情報音信頼度モデル360は、ユニット「C」と「D」のマッチングと隣接状況を判断し続け、終了ユニット「D」の後の終了タグも判断する。グローバル情報音信頼度モデル360は、認識情報「ACD」に対してタグシーケンス1101111を生成することができる。当該タグシーケンスによって、ユニット「A」と「C」の間に一つ又は複数のユニットが無くされたことを決定することができ、認識情報に「削除エラー」が発生したと判断することができる。
【0081】
図8の例(b)では、音信号内の正しい情報が「ABCD」であるが、認識情報が「AEBCD」として認識されたと仮定する。グローバル情報音信頼度モデル360は、認識情報基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。各タグビットの値を順序に従って決定することによって、グローバル情報音信頼度モデル360は、認識情報「AEBCD」に対してタグシーケンス11000111111を生成することができる。当該タグシーケンスによって、認識情報「AEBCD」内のユニット「A」とユニット「B」の間のユニット「E」が誤って挿入されたものであると決定することができ、認識情報に「挿入エラー」が発生したと判断することができる。
【0082】
図8の例(c)では、音信号内の正しい情報が「ABCD」であるが、認識情報が「AECD」として認識されたと仮定する。グローバル情報音信頼度モデル360は、認識情報に基づいて、認識情報の前後に開始タグビットと終了タグビットを追加し、認識情報における隣接する二つのユニット間に隣接タグビットを追加する。各タグビットの値を順序に従って決定することによって、グローバル情報音信頼度モデル360は、認識情報「AECD」に対してタグシーケンス111011111を生成することができる。当該タグシーケンスによって、ユニット「A」と「C」の間のユニット「E」が誤って認識されたものであると決定することができ、そこに別のユニットがあるはずであるので、認識情報に「置き換えエラー」が発生したと判断することができる。
【0083】
グローバル情報音信頼度モデル360のトレーニングは、教師あり機械学習方法に基づくことができる。グローバル情報音信頼度モデル360の実現すべきタスクを考慮して、トレーニング段階では、グローバル情報音信頼度モデル360をトレーニングするためのトレーニングデータは、音信号、認識情報、及び当該音信号と認識情報に対して生成されたタグシーケンスを含む。トレーニングデータは、通常、正の例のサンプルと負の例のサンプルとを含む。
【0084】
グローバル情報音信頼度モデル360のタスクでは、正の例のサンプル(本明細書では区別を容易にするために第4の正の例のサンプルと言う場合もある)は、ヒューマン・マシンインタラクションのための第1の音信号と、第1の音信号からラベル付けられた第1の情報と、第1の情報及び第1の音信号に対して生成された正しいタグシーケンスとを含む。負の例のサンプル(本明細書では区別を容易にするために第4の負の例のサンプルと言う場合もある)は、第4の正の例のサンプル以外のトレーニングサンプル(すなわち、他の音信号、情報、及びタグシーケンスの組み合わせ)であってもよい。負の例のサンプルは、第2の音信号、第2の情報、及び第2の情報又は第2の音信号に対して生成されたエラータグシーケンスを含むことができる。具体的には、第2の音信号は、ヒューマン・マシンインタラクションのための音声及び/又はヒューマン・マシンインタラクションに使用されない音であってもよい。第2の情報は、第2の音信号に対して認識されたエラー情報であってもよく、これにより、エラータグシーケンスが生成される。又は第2の情報は、第2の音信号に対して認識された正しい情報であってもよいが、生成されたタグシーケンスはエラータグシーケンスである。
【0085】
トレーニングサンプルを収集する時、音響信頼度モデル330をトレーニングするための正の例のサンプルと負の例のサンプル、及びその中から認識された情報を用いて、グローバル情報音信頼度モデル360の正の例のサンプルと負の例のサンプルを構成することができる。もちろん、任意の他の方式でのサンプル収集も可能である。
【0086】
上記のように、認識情報312と音信号302を処理する時、グローバル情報音信頼度モデル360によって出力されるタグシーケンスは、マッチング状況又はローカル情報音信頼度モデル350の出力と共にマッチング状況の決定に使用することができる。代替可能に、グローバル情報音信頼度モデル360によって出力されるタグシーケンス及び/又は複数のユニット内の終了ユニットに対して抽出されたグローバル音響セマンティック特徴表現は、いずれも音声信頼度エンジン320内の融合モデル370に提供することができ、融合モデル370によって、他のモデルからのモデル出力及び/特徴表現と組み合わせられて、最後のマッチング状況374の決定に使用することができる。
【0087】
融合モデルの例示的な実施例
融合モデル370は、音響信頼度モデル330、セマンティック信頼度モデル340、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360によって提供されるモデルの最終出力又は特徴表現から最終のインタラクション信頼度372及びマッチング状況374を決定するように構成される。四つのモデル330、340、350、及び360は、それぞれ独自の焦点があるので、融合モデル370は、各モデルの情報を融合することにより、より正確な判断をし、性能をさらに向上させることができる。
【0088】
融合モデル370は、融合モデル370の入力に基づいて最終出力を決定するために、畳み込み層、RNN層、完全接続層、出力層などの対応する一つ又は複数のネットワーク層を含むディープニューラルネットワークとして構成することができる。
【0089】
いくつかの実施例では、まず、音響信頼度モデル330、セマンティック信頼度モデル340、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360を個別にトレーニングし、その後、融合モデル370をトレーニングに追加することができる。いくつかの実施例では、音響信頼度モデル330、セマンティック信頼度モデル340、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360、及び融合モデル370をエンドツーエンドでトレーニングすることができる。本開示の実施例は、この点で限定されない。
【0090】
いくつかの実施例では、インタラクション信頼度について、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360によって与えられた認識情報312のユニット粒度のマッチング状況を考慮することによって、全体から、音信号302が音声インタラクション機器120とインタラクションするための音声である信頼の度合いを決定することに加えて、音信号302の一部が音声インタラクション機器120とインタラクションするための音声である信頼度も決定することができる。
【0091】
具体的には、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360は、認識情報312の各ユニットが音信号302内の各音セグメントに正しくマッチングしているか否か、及び各ユニット間に全体的に現れたエラーを出力することができるほか、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360は、さらに、音信号内の各音響セグメントがヒューマン・マシンインタラクションのためのものである信頼度を決定するように構成することができる。ここでの音響セグメントは、認識情報を表す各ユニットと整列されてもよい。ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360のトレーニングの正の例のサンプルは、ヒューマン・マシンインタラクションの音信号及び情報に関連しているので、このような信頼度を決定することができる。ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360の出力は、融合モデル370がインタラクション信頼度372をより緻密的に決定するために使用されて、音信号302の全体又は一部が、音声インタラクション機器120とインタラクションするための音声である信頼度を示すことができる。
【0092】
音信号302は、その一部が音声インタラクション機器120とインタラクションするための音声である信頼度が決定されることによって、音声インタラクション機器120の応答を制御するインテリジェンス及び精度のさらなる向上に役立つ。例えば、音声インタラクション機器120が、ユーザ110によって発された音声命令「私は……聴きたい」及びユーザ110が位置する環境で他の人とコミュニケーションした音声「……すぐ服を取り込んで」を収集した場合、音信号302及び対応する認識情報には、「私は聴きたいすぐ服を取り込んで」がすべて含まれる可能性がある。音信号の音響セグメントが音声インタラクションに使用される信頼度をユニットレベルで判断することによって、音信号302内の前半の部分「私は聴きたい」は、ヒューマン・マシンインタラクションのためのものであり、後半の部分「すぐ服を取り込んで」は、ヒューマン・マシンインタラクションのものではなく、応答する必要がないと決定することができる。このようなインタラクション信頼度は、音声インタラクション機器120を制御して後半部分の音声を無視させ、前半部分の音のみに応答させるようにすることができ、例えば、「何お聴きしたいですか」という音声を出して再度にユーザに質問する。
【0093】
音声開始終了点検出の例示的な実施例
通常、従来の音声終了点検出技術は、ユーザの沈黙に基づいて音声命令の終了を決定するが、これは、ユーザが質問をためらっている時(この時、音声命令がまだ完了していない)に音の収集を終了させる可能性があり、これにより、後続の音声信頼度の頻繁な判断をもたらし、非音声インタラクションの音を頻繁に判断するようになる。これにより、良くないユーザ体験をもたらすだけでなく、インタラクション制御装置140のリソースの無駄ももたらす。
【0094】
本開示のいくつかの実施例では、インタラクション制御装置140は、音声インタラクション機器120のサウンドコレクタによって音声を収集する間にユーザ110の音声の終了を検出するように構成されてもよい。
図9は、インタラクション制御装置140の一例を示す。
図9に示すように、インタラクション制御装置140は、信号VAD(Voice Activity Detection,音声活性化検出)モジュール910とセマンティックVADモジュール920とを含む。
【0095】
音声インタラクション機器120のサウンドコレクタ122が音声を検出しない場合、エンド信号VADモジュール910は、非音声データを部分的にフィルタリングすることができる。この時、音声認識エンジン310に送信される音信号はない。サウンドコレクタ122が音声に類似した音信号を検出した場合、エンド信号VADモジュール910は、音の開始点を検出し、収集された元の音902を連続的に送信し、音信号302の少なくとも一部として音声認識エンジン310に提供する。音声認識エンジン310が、現在取得した処理対象音から情報を検出した場合、現在認識された処理対象情報をセマンティックVADモジュール920に提供して、セマンティックVADモジュール920によって処理対象情報のセマンティックが完全であるか否かを決定することができる。
【0096】
エンド信号VADモジュール910がサウンドコレクタ122によって収集された処理対象音信号の終了を検出し、且つセマンティックVADモジュール920が処理対象情報のセマンティックが完全であると決定した場合、現在の音信号302と音信号302から認識された情報312とは、音声インタラクション機器120をできるだけ早く制御して応答させるように音声信頼度エンジン320に提供される。これは、機器の迅速なインタラクション応答を実現し、ユーザの疑問を低減することができる。また、音声終了点が検出され、且つセマンティックが完全であると検出された場合に限って、音声信頼度の決定及び応答の制御を実行することにより、ユーザが質問をためらうシーンを解決することができる。例えば、ユーザが音声を一時停止(例えば、ユーザが「私は……聴きたい」という音声を出した時)した時、セマンティックが不完全であるため、音声終了点が検出されたが、ユーザの音声命令に応答できないと直接に判断せず、依然としてユーザの後続の音信号を待ち、ユーザの完全な表現を待ち続ける。
【0097】
いくつかの実施例では、信号VADモジュール910及び/又はセマンティックVADモジュール920は、CNN、リカレントニューラルネットワーク(例えばLSTM)、完全接続ネットワーク層などの機械学習モデルに基づいて実現することもできる。信号VADモジュール910は、分類モデルとして構成することができ、モデル入力は音信号であり、出力は音信号の分類である。音信号の分類は、例えば、音声なし、音声開始点、持続的音声、及び音声終了点の4種類を含むことができる。音信号の分類は、音声の一時停止などの他のカテゴリをさらに含むことができる場合がある。信号VADモジュール910が入力に対して抽出した特徴表現は、例えば、音信号のメル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)を含むことができ、また、信号VADモジュール910は、フィルタバンクを用いて音響特徴を抽出することもできる。セマンティックVADモジュール920の入力は、認識情報であり、出力は、認識情報のセマンティック完全性の判断であり、0又は1で構成された分類問題(セマンティックが完全である又はセマンティックが不完全である)であってもよいし、0から1までの連続値(セマンティックが完全である又は不完全である確率)であってもよい。
【0098】
いくつかの実施例では、特に、一回のウェイクアップで連続的なインタラクションを行うシーンでは、ユーザが音声命令を出す可能性がある時間内に、音声インタラクション機器120も音声を出している可能性があるため、音声インタラクション機器120がサウンドコレクタ122によって収集された元の信号に対してエコーキャンセルを実行した後、エコーキャンセルされた音信号を処理のためにローカル又はリモート側のインタラクション制御装置140に提供することが求められている。例えば、音声インタラクション機器120のローカル側のインタラクション制御装置140によってこのようなエコーキャンセルを実行することができる。
【0099】
装置の例示的な実施例
図10は、本開示のいくつかの実施例に係る音声インタラクション制御のための装置1000の概略ブロックを示す。装置1000は、
図1のインタラクション制御装置140-1、140-2、又は音声インタラクション機器120に含むことができる。
【0100】
図10に示すように、装置1000は、音声インタラクション機器における音信号と、音信号から認識された認識情報とを取得するように構成される取得モジュール1010と、少なくとも音信号の音響特徴表現及び認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュール1020と、認識情報と音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュール1030と、音信号に対する音声インタラクション機器の応答を制御するように、インタラクション信頼度とマッチング状況とを提供するように構成される提供モジュール1040と、備える。
【0101】
いくつかの実施例では、インタラクション信頼度決定モジュールは、音響信頼度モデルを用いて、音信号の音響特徴表現を抽出することと、音響特徴表現に基づいて音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するように構成される第1のモデル実行モジュールと、融合モデルを用いて、少なくとも音響特徴表現及び音響信頼度の少なくとも一つに基づいてインタラクション信頼度を決定するように構成される第1の融合決定モジュールと、を備える。
【0102】
いくつかの実施例では、音響信頼度モデルのトレーニングは、第1の正の例のサンプルと第1の負の例のサンプルとに基づいており、第1の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号を含み、第1の負の例のサンプルは、非ヒューマン・マシンインタラクションの音信号を含む。
【0103】
いくつかの実施例では、インタラクション信頼度モジュールは、認識情報に関連付けられたセマンティック特徴表現を抽出するように構成される情報特徴抽出モジュールと、セマンティック信頼度モデルを用いて、セマンティック特徴表現に基づいて認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するように構成される第2のモデル実行モジュールと、融合モデルを用いて、少なくともセマンティック特徴表現及びセマンティック信頼度の少なくとも一つに基づいてインタラクション信頼度を決定するように構成される第2の融合決定モジュールと、を備える。
【0104】
いくつかの実施例では、セマンティック信頼度モデルのトレーニングは、第2の正の例のサンプルと第2の負の例のサンプルとに基づいており、第2の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、第2の負の例のサンプルは、非ヒューマン・マシンインタラクションの情報を含む。
【0105】
いくつかの実施例では、認識情報は、ユニットシーケンスとして表され、ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットは、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、マッチング状況決定モジュールは、音分割モジュールと、第3のモデル実行モジュール、第3の融合決定モジュールと、を備える。前記音分割モジュールは、音信号を、ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して少なくとも一つのユニット音響セグメントペアを構成するように構成される。前記第3のモデル実行モジュールは、ローカルユニット音響信頼度モデルを用いて、少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、少なくとも一つのユニット音響セグメント特徴表現に基づいて、少なくとも一つのユニットと少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することとのうちの一つ又は複数を実行するように構成される。前記第3の融合決定モジュールは、融合モデルを用いて、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つに基づいてマッチング状況を決定するように構成される。
【0106】
いくつかの実施例では、インタラクション信頼度決定モジュールは、第4の融合決定モジュールを備え、前記第4の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つとに基づいて、インタラクション音信号の全体が音声インタラクション機器とインタラクションするための音声である信頼度と、音信号の一部が音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示すインタラクション信頼度を決定するように構成される。
【0107】
いくつかの実施例では、第4の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、少なくとも一つのユニット音響セグメント特徴表現及び対応するマッチング信頼度の少なくとも一つとに基づいて、マッチング状況を決定するように構成される。
【0108】
いくつかの実施例では、ローカル情報音信頼度モデルのトレーニングは、第3の正の例のサンプルと第3の負の例のサンプルとに基づいており、第3の正の例のサンプルは、ヒューマン・マシンインタラクションのための音信号内の第1の音響セグメントと、第1の音響セグメントからラベル付けられた第1のユニットとを含み、第3の負の例のサンプルは、第2の音響セグメントと、第2の音響セグメントに出現したユニットとは異なる第2のユニットとを含む。
【0109】
いくつかの実施例では、認識情報は、ユニットシーケンスとして表され、ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットは、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される。マッチング状況決定モジュールは、第4のモデル実行モジュールと、第5の融合決定モジュールと、を備える。前記第4のモデル実行モジュールは、グローバル情報音信頼度モデルを用いて、音響特徴表現とセマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、のうちの一つ又は複数を実行するように構成され、前記タグシーケンスは、ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、前記各マッチングタグは、ユニットシーケンスにおける各ユニットが音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグは、ユニットシーケンスにおける開始ユニットが音信号の開始位置に出現したか否かを示し、前記終了タグは、ユニットシーケンスにおける最後のユニットが音信号の終了位置に出現したか否かを示す。前記第5の融合決定モジュールは、融合モデルを用いて、少なくともグローバル音響セマンティック特徴表現及びタグシーケンスの少なくとも一つに基づいて、マッチング状況を決定するように構成される。
【0110】
いくつかの実施例では、ユニットシーケンスは、複数のユニットを含み、第4のモデル実行モジュールは、さらに、複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含むタグシーケンスを生成するように構成され、各隣接指示タグは、複数のユニット内の隣接する二つのユニットが音信号内の隣接する位置に出現したか否かを示す。
【0111】
いくつかの実施例では、インタラクション信頼度決定モジュールは、第6の融合決定モジュールを備え、前記第6の融合決定モジュールは、融合モデルを用いて、音響特徴表現及びセマンティック特徴表現の少なくとも一つと、グローバル音響セマンティック特徴表現及びタグシーケンスの少なくとも一つとに基づいて、インタラクション音信号の全体が音声インタラクション機器とインタラクションするための音声である信頼度と、音信号の一部が音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示すインタラクション信頼度を決定するように構成される。
【0112】
いくつかの実施例では、グローバル情報音信頼度モデルのトレーニングは、第4の正の例のサンプルと第4の負の例のサンプルとに基づいており、第4の正の例のサンプルは、ヒューマン・マシンインタラクションのための第1の音信号と、第1の音信号からラベル付けられた第1の情報と、第1の情報及び第1の音信号に対して生成された正しいタグシーケンスとを含み、第4の負の例のサンプルは、第4の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む。
【0113】
いくつかの実施例では、取得モジュールは、音声インタラクション機器のサウンドコレクタによって音声を収集する間に、サウンドコレクタによって収集された処理対象音信号の終了を決定するように構成される終了決定モジュールと、処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するように構成されるセマンティック完全性検出モジュールと、処理対象情報のセマンティックが完全であると決定されたことに応じて、処理対象音信号を音信号として決定し、処理対象情報を認識情報として決定するように構成される音及び情報決定モジュールと、を備える。
【0114】
いくつかの実施例では、装置1000は、処理対象情報のセマンティックが完全ではないと決定されたことに応じて、サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するように構成される待機取得モジュールをさらに備える。
【0115】
いくつかの実施例では、処理対象音信号は、音声インタラクション機器がサウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される。
【0116】
いくつかの実施例では、認識情報は、テキスト情報を含む。
【0117】
いくつかの実施例では、装置1000は、応答決定モジュールをさらに備え、前記応答決定モジュールは、インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、インタラクション音信号に応答しないように音声インタラクション機器を制御し、インタラクション信頼度が所定の信頼度閾値以上であると決定されたことに応じて、マッチング状況に基づいて、音声インタラクション機器によって提供される、音信号に対する応答を決定するように構成され、前記応答は、音信号に対する直接フィードバック又は音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックは、音声インタラクション機器に対する所望の命令を明確にするようにユーザをガイドする。
【0118】
機器の例示的な実施例
図11は、本開示の実施例を実施できる示例的な機器1100の概略ブロックを示す。機器1100は、
図1のインタラクション制御装置140-1、140-2、又は音声インタラクション機器120を実現するために使用することができる。
【0119】
図に示すように、機器1100は、リードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム命令、又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット1101を含む。RAM1103には、機器1100の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット1101と、ROM1102と、RAM1103とは、バス1104を介して互いに接続されている。入力/出力(I/O)インタフェース1105もバス1104に接続されている。
【0120】
機器1100における複数のコンポーネントは、I/Oインタフェース1105に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット1106と、種々なディスプレイやスピーカなどの出力ユニット1107と、磁気ディスクや光学ディスクなどの記憶ユニット1108と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット1109と、を備える。通信ユニット1109は、機器1100がインターネットのようなコンピュータネット及び/又は種々なキャリアネットワークを介して他の機器と情報/データを交換することを許可する。
【0121】
計算ユニット1101は、処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1101のいくつかの例としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット1101は、プロセス200などの上記で説明された各方法及び処理を実行する。例えば、いくつかの実施例では、プロセス200は、記憶ユニット1108のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施例では、コンピュータプログラムの一部又は全ては、ROM1102及び/又は通信ユニット1109を介して、機器1100にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1103にロードされて計算ユニット1101によって実行される場合に、前述したプロセス200の一つ又は複数のステップを実行することができる。追加可能に、他の実施例では、計算ユニット1101は、他の任意の適当な方式(例えば、ファームウェア)によりプロセス200を実行するように構成することができる。
【0122】
本明細書では、前述した機能は、少なくとも部分的に一つ又は複数のハードウェアロジックコンポーネントによって実行することができる。例えば、限定ではないが、使用可能なハードウェアロジックコンポーネントとしては、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが挙げられる。
【0123】
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラミングデータ処理装置のプロセッサ又はコントローラに提供されることにより、プログラムコードがプロセッサ又はコントローラによって実行される場合に、フローチャート及び/又はブロック図に規定された機能/動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよいし、部分的にマシンで実行されてもよいし、独立したソフトパッケージとして部分的にマシンで実行されるとともに部分的にリモートマシンで実行されてもよし、又は完全にリモートマシン又はサーバで実行されてもよい。
【0124】
本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置又は機器によって、又は命令実行システム、装置又は機器と合わせて使用されるプログラムを含み、又は記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置、又はデバイス、又は前述した内容の任意の適切な組み合わせを含むことができるがこれらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、1つ又は複数の配線による電気的接続、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前述した内容の任意の組み合わせを含む。
【0125】
また、特定の順番で各動作を説明したが、このような動作を、示される特定の順番又は順次実行することが求められ、又は図示した動作の全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスク及び並列処理が有利である可能性がある。同様に、以上の説明には、若干の具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、一つの実施形態で組み合わせて実現することができる。逆に、一つの実施形態に説明された種々な特徴は、個別又は任意の適切なサブ組み合わせの方式で複数の実施形態で実現することができる。
【0126】
構成の特徴及び/又は方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定されるテーマは、上記の特定の特徴又は動作に限定されない。逆に、上記の特定の特徴と動作は、特許請求の範囲を実現する例に過ぎない。