(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-16
(54)【発明の名称】マルチモーダル特徴に基づく音声対話処理方法、装置および電子機器
(51)【国際特許分類】
G10L 15/04 20130101AFI20241008BHJP
G10L 15/22 20060101ALN20241008BHJP
【FI】
G10L15/04 300Z
G10L15/22 300Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024523243
(86)(22)【出願日】2022-08-19
(85)【翻訳文提出日】2024-04-17
(86)【国際出願番号】 CN2022113640
(87)【国際公開番号】W WO2023082752
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】202111337746.8
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522173413
【氏名又は名称】ジンドン テクノロジー インフォメーション テクノロジー カンパニー,リミテッド
【氏名又は名称原語表記】JINGDONG TECHNOLOGY INFORMATION TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】Room 601, 6/F, Building 2, NO. 18, KECHUANG 11 STREET, BEIJING ECONOMIC-TECHNOLOGICAL DEVELOPMENT AREA, BEIJING, 100176, P.R. CHINA
(74)【代理人】
【識別番号】100107456
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】ワン, ペイイン
(72)【発明者】
【氏名】ヤン, ジウドン
(72)【発明者】
【氏名】チェン, メン
(57)【要約】
マルチモーダル特徴に基づく音声対話処理方法、装置(300)および電子機器である。ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得するステップ(101)と、第1音声情報のテキスト情報および第1音声情報の履歴コンテキスト情報に基づいて、テキスト情報の語義特徴情報を決定するステップ(102)と、第1音声情報における無音区間の前の音声断片に基づいて、第1音声情報の音声特徴情報を決定するステップ(103)と、第1音声情報の時間特徴情報を取得するステップ(104)と、語義特徴情報、音声特徴情報および時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定するステップ(105)と、を含む方法である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得するステップと、
前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定するステップと、
前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定するステップと、
前記第1音声情報の時間特徴情報を取得するステップと、
前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定するステップと、
を含む、マルチモーダル特徴に基づく音声対話処理方法。
【請求項2】
前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定する前記ステップが、
前記第1音声情報のテキスト情報が得られるよう、前記第1音声情報に対して音声識別を行うこと、
前記第1音声情報の履歴コンテキスト情報を取得すること、
前記テキスト情報の語義特徴情報が得られるよう、前記テキスト情報および前記履歴コンテキスト情報を語義表示モデルに入力すること、
を含む、請求項1に記載の方法。
【請求項3】
前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定する前記ステップが、
前記第1音声情報における前記無音区間の前の第1所定時間長の音声断片を取得すること、
複数の音声断片が得られるよう、第2所定時間長に従って前記音声断片を分割すること、
前記複数の音声断片の各々に対応する音響特徴情報を抽出し、前記複数の音声断片の各々に対応する結合特徴が得られるよう、前記複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合すること、
前記第1音声情報の音声特徴情報が得られるよう、前記結合特徴をディープ・レジデュアル・ネットワークに入力すること、
を含む、請求項1に記載の方法。
【請求項4】
前記第1音声情報の時間特徴情報を取得する前記ステップが、
前記第1音声情報の音声時間長、話速およびテキスト長を取得すること、
前記第1音声情報の時間特徴情報が得られるよう、前記音声時間長、前記話速およびテキスト長を予め訓練された多層パーセプトロンMLPモデルに入力すること、
を含む、請求項1に記載の方法。
【請求項5】
前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定する前記ステップが、
前記語義特徴情報、前記音声特徴情報および前記時間特徴情報をマルチモーダル融合モデルに入力すること、
前記マルチモーダル融合モデルの出力結果に基づいて、前記ユーザが音声入力を終了するか否かを決定すること、
を含む、請求項1に記載の方法。
【請求項6】
前記ユーザが音声入力を終了すると決定された場合、前記第1音声情報に対応する第1返答音声情報を決定し、前記第1返答音声情報を出力すること、
をさらに含む、請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記ユーザが音声入力を終了していないと決定された場合、前記ユーザが再度入力する第2音声情報を取得すること、
前記第1音声情報および前記第2音声情報に基づいて、対応する第2返答音声情報を決定し、前記第2返答音声情報を出力すること、
をさらに含む、請求項1~5のいずれか1項に記載の方法。
【請求項8】
ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得する第1取得モジュールと、
前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定する第1決定モジュールと、
前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定する第2決定モジュールと、
前記第1音声情報の時間特徴情報を取得する第2取得モジュールと、
前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定する第3決定モジュールと、
を含む、マルチモーダル特徴に基づく音声やり取り処理装置。
【請求項9】
前記第1決定モジュールが、具体的に、
前記第1音声情報のテキスト情報が得られるよう、前記第1音声情報に対して音声識別を行うこと、
前記第1音声情報の履歴コンテキスト情報を取得すること、
前記テキスト情報の語義特徴情報が得られるよう、前記テキスト情報および前記履歴コンテキスト情報を語義表示モデルに入力すること、
に用いられる、請求項8に記載の装置。
【請求項10】
前記第2決定モジュールが、具体的に、
前記第1音声情報における前記無音区間の前の第1所定時間長の音声断片を取得すること、
複数の音声断片が得られるよう、第2所定時間長に従って前記音声断片を分割すること、
前記複数の音声断片の各々に対応する音響特徴情報を抽出し、前記複数の音声断片の各々に対応する結合特徴が得られるよう、前記複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合すること、
前記第1音声情報の音声特徴情報が得られるよう、前記結合特徴をディープ・レジデュアル・ネットワークに入力すること、
に用いられる、請求項8に記載の装置。
【請求項11】
前記第2取得モジュールが、具体的に、
前記第1音声情報の音声時間長、話速およびテキスト長を取得すること、
前記第1音声情報の時間特徴情報が得られるよう、前記音声時間長、前記話速およびテキスト長を予め訓練された多層パーセプトロンMLPモデルに入力すること、
に用いられる、請求項8に記載の装置。
【請求項12】
前記第3決定モジュールが、
前記語義特徴情報、前記音声特徴情報および前記時間特徴情報をマルチモーダル融合モデルに入力するマルチモーダル処理ユニットと、
前記マルチモーダル融合モデルの出力結果に基づいて、前記ユーザが音声入力を終了するか否かを決定する決定ユニットと、
を含む、請求項8に記載の装置。
【請求項13】
前記ユーザが音声入力を終了すると決定された場合、前記第1音声情報に対応する第1返答音声情報を決定し、前記第1返答音声情報を出力することに用いられる第1処理モジュール、
をさらに含む、請求項8~12のいずれか1項に記載の装置。
【請求項14】
前記ユーザが音声入力を終了していないと決定された場合、前記ユーザが再度入力する第2音声情報を取得する第3取得モジュールと、
前記第1音声情報および前記第2音声情報に基づいて、対応する第2返答音声情報を決定し、前記第2返答音声情報を出力する第2処理モジュールと、
をさらに含む、請求項8~12のいずれか1項に記載の装置。
【請求項15】
メモリと、プロセッサと、を備え、
前記メモリには、前記プロセッサによって実行されるとき、請求項1~7のいずれか1項に記載のマルチモーダル特徴に基づく音声対話処理方法を実現するコンピュータ命令が記憶されている、電子機器。
【請求項16】
請求項1~7のいずれか1項に記載のマルチモーダル特徴に基づく音声対話処理方法を、コンピュータに実行させるためのコンピュータ命令が記憶されている、非一時的なコンピュータ読取可能な記録媒体。
【請求項17】
コンピュータプログラム製品であって、
当該コンピュータプログラム製品のうちの命令プロセッサが実行されるとき、請求項1~7のいずれか1項に記載のマルチモーダル特徴に基づく音声対話処理方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願はコンピュータ技術分野に関し、特にマルチモーダル特徴に基づく音声対話処理方法、装置および電子機器に関する。
【関連出願の相互参照】
【0002】
本願は、出願番号202111337746.8であり、出願日が2021年11月9日である中国特許出願に基づいて出願され、当該中国特許出願の優先権を要求する。参考として、当該中国特許出願の全内容をここで本願に引用する。
【背景技術】
【0003】
音声対話システムにおいて、ユーザが話すとき、音声対話システムは話者権を引き継ぐ適切なタイミングを判断する必要がある。つまり、マンマシンインタラクションが円滑で自然になるよう、音声対話システムは受話者と話者とのキャラクタ間で交替する。
【0004】
現在、多くの音声対話システムは、音声区間検出(Voice Activity Detection,VAD)によってユーザの無音時間長を検出しており、ユーザの無音時間長が閾値(例えば、0.8s~1s)を超えると、システムが話者権を引き継ぐ。しかし、このような無音時間長が一定のものである方式では、ユーザが話し終えておらず且つ考えている最中であるが、無音時間長が閾値を超えた場合、システムの反応は速すぎて敏感になってしまう。一方、ユーザのやり取りが速くて簡潔である場合、無音時間長が設定された閾値に達するのを待ってからシステムが話者権を引き継ぐと、システムの反応は遅くなり、ユーザが回答を繰り返すのを招く可能性がある。そのため、音声対話システムがいつ話者権を引き継ぐかをどのように決定するかは、現在、早急に解決すべき問題である。
【発明の概要】
【0005】
本願は、マルチモーダル特徴に基づく音声対話処理方法、装置および電子機器を提案する。
【0006】
本願の一つの実施例では、ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得するステップと、前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定するステップと、前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定するステップと、前記第1音声情報の時間特徴情報を取得するステップと、前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定するステップと、を含む、マルチモーダル特徴に基づく音声対話処理方法を提案する。
【0007】
本願の一つの実施例では、前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定する前記ステップが、前記第1音声情報のテキスト情報が得られるよう、前記第1音声情報に対して音声識別を行うこと、前記第1音声情報の履歴コンテキスト情報を取得すること、前記テキスト情報の語義特徴情報が得られるよう、前記テキスト情報および前記履歴コンテキスト情報を語義表示モデルに入力すること、を含む。
【0008】
本願の一つの実施例では、前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定する前記ステップが、前記第1音声情報における前記無音区間の前の第1所定時間長の音声断片を取得すること、複数の音声断片が得られるよう、第2所定時間長に従って前記音声断片を分割すること、前記複数の音声断片の各々に対応する音響特徴情報を抽出し、前記複数の音声断片の各々に対応する結合特徴が得られるよう、前記複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合すること、前記第1音声情報の音声特徴情報が得られるよう、前記結合特徴をディープ・レジデュアル・ネットワークに入力すること、を含む。
【0009】
本願の一つの実施例では、前記第1音声情報の時間特徴情報を取得する前記ステップが、前記第1音声情報の音声時間長、話速およびテキスト長を取得すること、前記第1音声情報の時間特徴情報が得られるよう、前記音声時間長、前記話速およびテキスト長を予め訓練された多層パーセプトロンMLPモデルに入力すること、を含む。
【0010】
本願の一つの実施例では、前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定する前記ステップが、 前記語義特徴情報、前記音声特徴情報および前記時間特徴情報をマルチモーダル融合モデルに入力すること、前記マルチモーダル融合モデルの出力結果に基づいて、前記ユーザが音声入力を終了するか否かを決定すること、を含む。
【0011】
本願の一つの実施例では、前記ユーザが音声入力を終了すると決定された場合、前記第1音声情報に対応する第1返答音声情報を決定し、前記第1返答音声情報を出力すること、をさらに含む。
【0012】
本願の一つの実施例では、前記ユーザが音声入力を終了していないと決定された場合、前記ユーザが再度入力する第2音声情報を取得すること、前記第1音声情報および前記第2音声情報に基づいて、対応する第2返答音声情報を決定し、前記第2返答音声情報を出力すること、をさらに含む。
【0013】
本願の別の実施例では、ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得する第1取得モジュールと、前記第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、前記テキスト情報の語義特徴情報を決定する第1決定モジュールと、前記第1音声情報における前記無音区間の前の音声断片に基づいて、前記第1音声情報の音声特徴情報を決定する第2決定モジュールと、前記第1音声情報の時間特徴情報を取得する第2取得モジュールと、前記語義特徴情報、前記音声特徴情報および前記時間特徴情報に基づいて、前記ユーザが音声入力を終了するか否かを決定する第3決定モジュールと、を含む、マルチモーダル特徴に基づく音声やり取り処理装置を提案する。
【0014】
本願の一つの実施例では、前記第1決定モジュールが、具体的に、前記第1音声情報のテキスト情報が得られるよう、前記第1音声情報に対して音声識別を行うこと、前記第1音声情報の履歴コンテキスト情報を取得すること、前記テキスト情報の語義特徴情報が得られるよう、前記テキスト情報および前記履歴コンテキスト情報を語義表示モデルに入力すること、に用いられる。
【0015】
本願の一つの実施例では、前記第2決定モジュールが、具体的に、前記第1音声情報における前記無音区間の前の第1所定時間長の音声断片を取得すること、複数の音声断片が得られるよう、第2所定時間長に従って前記音声断片を分割すること、前記複数の音声断片の各々に対応する音響特徴情報を抽出し、前記複数の音声断片の各々に対応する結合特徴が得られるよう、前記複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合すること、前記第1音声情報の音声特徴情報が得られるよう、前記結合特徴をディープ・レジデュアル・ネットワークに入力すること、に用いられる。
【0016】
本願の一つの実施例では、前記第2取得モジュールが、具体的に、前記第1音声情報の音声時間長、話速およびテキスト長を取得すること、前記第1音声情報の時間特徴情報が得られるよう、前記音声時間長、前記話速およびテキスト長を予め訓練された多層パーセプトロンMLPモデルに入力すること、に用いられる。
【0017】
本願の一つの実施例では、前記第3決定モジュールが、前記語義特徴情報、前記音声特徴情報および前記時間特徴情報をマルチモーダル融合モデルに入力するマルチモーダル処理ユニットと、前記マルチモーダル融合モデルの出力結果に基づいて、前記ユーザが音声入力を終了するか否かを決定する決定ユニットと、を含む。
【0018】
本願の一つの実施例では、前記ユーザが音声入力を終了すると決定された場合、前記第1音声情報に対応する第1返答音声情報を決定し、前記第1返答音声情報を出力することに用いられる第1処理モジュール、をさらに含む。
【0019】
本願の一つの実施例では、前記ユーザが音声入力を終了していないと決定された場合、前記ユーザが再度入力する第2音声情報を取得する第3取得モジュールと、前記第1音声情報および前記第2音声情報に基づいて、対応する第2返答音声情報を決定し、前記第2返答音声情報を出力する第2処理モジュールと、をさらに含む。
【0020】
本願の別の実施例では、メモリと、プロセッサと、を備え、前記メモリには、前記プロセッサによって実行されるとき、本願の実施例におけるマルチモーダル特徴に基づく音声対話処理方法を実現するコンピュータ命令が記憶されている、電子機器を提案する。
【0021】
本願の別の実施例では、本願の実施例に開示されたマルチモーダル特徴に基づく音声対話処理方法を、前記コンピュータに実行させるための前記コンピュータ命令が記憶されている、非一時的なコンピュータ読取可能な記録媒体を提案する。
【0022】
本願の別の実施例では、そのうちの命令プロセッサが実行されるとき、本願の実施例におけるマルチモーダル特徴に基づく音声対話処理方法を実現する、コンピュータプログラム製品を提案する。
【0023】
上述した選択可能な形態の有する他の効果について、以下に、具体的な実施例に合わせて説明する。
【0024】
添付した図面は、本技術案の理解を深めるためのものであるが、本願を限定するものではない。
【図面の簡単な説明】
【0025】
【
図1】
図1は、本願の一つの実施例に係るマルチモーダル特徴に基づく音声対話処理方法を示すフローチャートである。
【
図2】
図2は、本願の一つの具体的な実施例に基づき、モデル枠組み図に合わせて音声対話処理方法を説明する図である。
【
図3】
図3は、本願の一つの実施例に係るマルチモーダル特徴に基づく音声対話処理装置の構成を示す図である。
【
図4】
図4は、本願の別の実施例に係るマルチモーダル特徴に基づく音声対話処理装置の構成を示す図である。
【
図5】
図5は、本願の一つの実施例に係る電子機器を示す図である。
【発明を実施するための形態】
【0026】
以下に、本開示の実施例を詳しく説明する。係る実施例の例を添付図面に示し、同一または類似する素子、または同一または類似する機能を有する素子を、全文において同一または類似する記号で示す。以下に、添付図面を参照して説明する実施例は、例示的なものであり、本願を説明するために使用されるが、本願を限定するものとして解釈されるものではない。
【0027】
以下に、添付図面を参照して本願の実施例に係るマルチモーダル特徴に基づく音声対話処理方法、装置および電子機器を説明する。
【0028】
図1は、本願の一つの実施例に係るマルチモーダル特徴に基づく音声対話処理方法を示すフローチャートである。うち、本願の実施例において提案された、マルチモーダル特徴に基づく音声対話処理方法を実行する本体は、マルチモーダル特徴に基づく音声対話処理装置であり、このマルチモーダル特徴に基づく音声対話処理装置は、ソフトウェアおよび/またはハードウェアによって実現され得る。本願の実施例に係るマルチモーダル特徴に基づく音声対話処理装置の音声対話システムにおいて、該音声対話システムは、電子機器に配置可能である。電子機器として、端末装置またはサーバなどが挙げられる。
【0029】
図1に示すように、このマルチモーダル特徴に基づく音声対話処理方法は、ステップ101からステップ105を含み得る。
【0030】
ステップ101では、ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得する。
【0031】
ステップ102では、第1音声情報のテキスト情報および前記第1音声情報の履歴コンテキスト情報に基づいて、テキスト情報の語義特徴情報を決定する。
【0032】
本願の一つの実施例では、第1音声情報のテキスト情報が得られるよう、第1音声情報に対して音声識別を行い、第1音声情報の履歴コンテキスト情報を取得し、また、テキスト情報の語義特徴情報が得られるよう、テキスト情報および履歴コンテキスト情報を語義表示モデルに入力してもよい。
【0033】
一部の実施例では、テキスト情報と履歴コンテキスト情報との間の長距離依存関係を捕捉し、長距離依存関係に基づいてテキスト情報の語義特徴情報を正確に決定するために、上述した語義表示モデルとしては、自己注意機構に基づくTransformerモデルが挙げられる。
【0034】
一部の実施例では、Transformerモデルは、複数の符号化層を含むことができる。各符号化層のいずれにも、Transformerに基づく符号化構造が含まれており、対応する符号化構造により入力内容を符号化し、出力結果を対応する次の符号化層に入力して処理される。
【0035】
一部の実施例では、第1音声情報の履歴コンテキスト情報を取得する例示的な実施形態として、第1音声情報以前の複数の履歴音声対話情報を取得し、複数の履歴音声対話情報に基づいて、第1音声情報の履歴コンテキスト情報を取得することが挙げられる。
【0036】
ステップ103では、第1音声情報における無音区間の前の音声断片に基づいて、第1音声情報の音声特徴情報を決定する。
【0037】
一部の実施例では、第1音声情報における無音区間の前の第1所定時間長の音声断片を取得し、複数の音声断片が得られるよう、第2所定時間長に従って音声断片を分割し、複数の音声断片の各々に対応する音響特徴情報を抽出し、複数の音声断片の各々に対応する結合特徴が得られるよう、複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合し、第1音声情報の音声特徴情報が得られるよう、結合特徴をディープ・レジデュアル・ネットワークに入力する。
【0038】
一部の実施例では、第1所定時間長は予め設定されたものである。例えば、上述した第1所定時間長は、2秒であってもよい。つまり、第1音声情報における無音区間の前の、時間長が2秒である音声断片を切り取ることができる。
【0039】
一部の実施例では、第2所定時間長は予め設定されたものである。第1所定時間長は第2所定時間長よりも長く、例えば、第1所定時間長が2秒である場合、上述した第2所定時間長は、50ミリ秒(ms)であってもよい。一部の実施例では、時間長が2秒である音声断片を切り取った後、各々の時間長が50msである複数の音声断片が得られるよう、当該音声断片を50msで分割することができる。
【0040】
一部の実施例では、音響特徴情報には、パワー、音量、ピッチ、ゼロ交差数などが含まれるが、これらに限定されない。
【0041】
ステップ104では、第1音声情報の時間特徴情報を取得する。
【0042】
一部の実施例では、第1音声情報の音声時間長、話速およびテキスト長を取得し、第1音声情報の時間特徴情報が得られるよう、音声時間長、話速およびテキスト長を予め訓練された多層パーセプトロン(Multi Layer Perceptron,MLP)モデルに入力する。
【0043】
一部の実施例では、テキスト長は、第1音声情報に対応するテキスト情報に基づいて決定される。
【0044】
ステップ105では、語義特徴情報、音声特徴情報および時間特徴情報に基づいて、ユーザが音声入力を終了するか否かを決定する。
【0045】
一部の実施例では、ユーザが音声入力を終了するか否かを正確に決定するために、語義特徴情報、音声特徴情報および時間特徴情報をマルチモーダル融合モデルに入力し、マルチモーダル融合モデルの出力結果に基づいて、ユーザが音声入力を終了するか否かを決定する。
【0046】
一部の実施例では、マルチモーダル融合モデルが語義特徴情報、音声特徴情報および時間特徴情報を取得するとき、上述した語義特徴情報、音声特徴情報および時間特徴情報のそれぞれに対応する重みを取得し、その重みに基づいて、語義特徴情報、音声特徴情報および時間特徴情報に対して重み付け処理を行い、マルチモーダル融合モデルの出力結果が得られるよう、重み付けの結果をマルチモーダル融合モデルの活性化関数に入力する。
【0047】
一部の実施例では、マルチモーダル融合モデルの出力結果が、ユーザが音声入力を終了することを示す場合、ユーザが音声入力を終了すると決定し、この際に、対話システムは話者権を引き継ぐことができると決定する。一部の別の実施例では、マルチモーダル融合モデルの出力結果が、ユーザが音声入力を終了していないことを示す場合、ユーザが音声入力を終了していないと決定し、この際に、対話システムは聞き取りを継続し、ユーザの入力終了が決定された後に返答する。
【0048】
本願の実施例に係るマルチモーダル特徴に基づく音声対話処理方法によれば、ユーザと対話のやり取りを行っている中、ユーザが現在入力する音声情報のテキスト情報および第1音声情報の履歴コンテキスト情報を組み合わせて、テキスト情報の語義特徴情報を決定し、第1音声情報における無音区間の前の音声断片に基づいて、第1音声情報の音声特徴情報を決定し、第1音声情報の時間特徴情報を取得する。語義特徴情報、音声特徴情報および時間特徴情報に基づいて、ユーザが音声入力を終了するか否かを決定する。これにより、ユーザと対話のやり取りを行っている中、語義特徴情報、音声特徴情報および時間特徴情報を組み合わせて、システムが話者権を引き継ぐことができるか否かを正確に決定した。
【0049】
上述した実施例の基に、対話システムがユーザから入力された音声情報に対して正確に返答できるよう、一部の実施例では、ユーザが音声入力を終了すると決定された場合、第1音声情報に対応する第1返答音声情報を決定し、第1返答音声情報を出力する。
【0050】
別の一部の実施例では、ユーザが音声入力を終了していないと決定された場合、ユーザが再度入力する第2音声情報を取得する。第1音声情報および第2音声情報に基づいて、対応する第2返答音声情報を決定し、前記第2返答音声情報を出力する。これにより、ユーザが現在入力する第1音声情報と、再度入力する第2音声情報とを組み合わせて、正確な返答を行う。
【0051】
当業者が本願を明確に理解できるよう、以下に、
図2に合わせて当該実施例の方法をさらに説明する。
【0052】
図2に示すように、本実施例では、ユーザが音声入力を終了するか否かを決定する過程において、ユーザが音声入力を終了するか否かを決定するために、音声特徴情報、語義特徴情報および時間特徴情報という3つの異なる次元での特徴を使用した。即ち、本願実施例では、対話システムが話者権を引き継ぐことができるか否か、つまり、対話システムが対応する返答を出力するか否かを決定するために、語義特徴情報、音声特徴情報および時間特徴情報という3つの異なる次元での特徴を使用した。
【0053】
以下に、語義特徴情報、音声特徴情報および時間特徴情報を取得する過程のそれぞれについて説明する。
【0054】
1)語義特徴情報の取得
うち、語義特徴情報は、音声識別後のテキスト情報から得られるものであり、特に「語義の完全性」が話者権の切替の基本的な要素であることを考えれば、話者権の決定における語義特徴情報の重要性は言うまでもない。つまり、ユーザが自分の意図を完全に表現したと決定された後、通常、システムが話者権を引き継ぐことができることを意味している。語義の完全性は、一般的には、文脈に合わせて判断される。例えば、以下の簡単な例を見てみよう。
【表1】
左側の例では、ユーザは明瞭な意味を持つ明確な返答を行っており、この時点では、対話システムは話者権を引き継ぐことができる。右側の例では、ユーザは少し躊躇しているが、ユーザが現在入力する内容に基づき、ユーザは話し終えていないと決定することができる。この時点では、対話システムは聞き取りを続けて、ユーザが話し終えるのを待つのを選択することができる。
【0055】
このような語義の完全性をモデル化するために、ユーザが対話システムと対話のやり取りを行う過程をまとめ、ユーザが現在入力する音声情報を取得した後、現在のテキスト情報を取得するために、該音声情報に対して音声識別を行い、該テキスト情報の語義特徴情報を取得するために、現在入力する音声情報の履歴コンテキストcontext情報および現在のテキスト情報を符号化することができる。
【0056】
一部の実施例では、自己注意機構に基づくTransformerモデルを用い、現在入力する音声情報の歴史コンテキストcontext情報および現在のテキスト情報に対応するテキスト情報を符号化する。
【0057】
うち、Transformerモデルにおける自己注意機構は、履歴コンテキストとテキスト情報との間の長距離依存関係を捕捉可能である、と理解することができる。最終的な語義特徴は以下のように表される。
【数1】
【0058】
2)音声特徴情報の取得
対話の過程では、ある音声特徴、例えばピッチの変化や音量の大きさなどが、話者権の切替を行うか否かを判断する重要な手がかりとなることは、理解できる。そのため、ユーザと対話する過程において、ユーザが現在入力する音声情報を取得した後、ユーザが無音になる前の音声(2s)を音声情報から切り取り、その後、固定長の小断片に分割する、即ちフレーム分割(1フレーム50ms)を行う。次に、各フレームの音声に対して、パワー、音量、ピッチ、ゼロ交差数などの対応する音響特徴を抽出し、1次元ベクトルに結合して、以下に記載された各フレームの音声の特徴表示f
iが得られる。最後に、シーケンスフレームの特徴F=[f
1,f
2,…,f
n]を多層のディープ・レジデュアル(Residual Network, ResNet)ネットワークに入力する。最終的に得られる音声特徴は以下のように表される。
【数2】
【0059】
3)時間特徴
うち、時間特徴(例えば、音声断片の時間長、話速、テキスト長など)は、話者権が切り替わるか否かの判断にも一定の役割があることについて、理解する必要がある。例えば、システムが主導するアウトバウンド対話シナリオでは、多くの場合、ユーザが短い返答をした後に、システムは話者権を引き継ぐことができる。システムが聞き取る必要がある場合は、ほとんど、ユーザがためらうなどの理由で長い返答をしたためである。そのため、対話システムが話者権を引き継ぐことができるか否かを正確に決定するために、ユーザと対話のやり取りを行っている中、ユーザが現在入力する音声情報の音声時間長、話速およびテキスト長を取得し、音声時間長、話速およびテキスト長のそれぞれにバケット分け処理を行い、また、音声情報の低次元の時間特徴情報が得られるよう、処理後の音声時間長、話速およびテキスト長をMLPモデルに入力する。
【0060】
うち、多層感知ネットワークを介して抽出した低次元の特徴は以下のように表される。
【数3】
【0061】
4)マルチモーダル特徴の融合
一部の実施例では、各モーダルの特徴表示を取得した後、それをマルチモーダル融合モデルに入力し、3つの異なる特徴を融合して話者権の判断を行う。
【数4】
うち、σ()は、sigmoid関数、yは、1-の場合、ユーザの発話が終了し、システムが話者権を引き継ぐことを表し、0-の場合、システムがユーザの返答を引続き聞き取るべきであることを表す、予測される二項分類ラベルであり、bはオフセット値である。
【0062】
うち、上述したマルチモーダル融合モデルは、フィードフォワード・ニューラルネットワークに基づいて構築され得る。
【0063】
上述したいくつの実施例において提供されたマルチモーダル特徴に基づく音声対話処理方法に対応し、本願の一つの実施例では、マルチモーダル特徴に基づく音声対話処理装置をさらに提供する。本願の実施例において提供されたマルチモーダル特徴に基づく音声対話処理装置は、上述したいくつの実施例において提供されたマルチモーダル特徴に基づく音声対話処理方法に対応しているため、マルチモーダル特徴に基づく音声対話処理方法の実施形態は、本願の実施例において提供されたマルチモーダル特徴に基づく音声対話処理装置にも適用する。
【0064】
図3は、本願の一つの実施例に係るマルチモーダル特徴に基づく音声対話処理装置の構成を示す図である。
【0065】
図3に示すように、該マルチモーダル特徴に基づく音声対話処理装置300は、第1取得モジュール301、第1決定モジュール302、第2決定モジュール303、第2取得モジュール304および第3決定モジュール305を含む。
【0066】
第1取得モジュール301は、ユーザと対話のやり取りを行っている中、ユーザが現在入力する、無音区間を含む第1音声情報を取得することに用いられる。
【0067】
第1決定モジュール302は、第1音声情報のテキスト情報および第1音声情報の履歴コンテキスト情報に基づいて、テキスト情報の語義特徴情報を決定することに用いられる。
【0068】
第2決定モジュール303は、第1音声情報における無音区間の前の音声断片に基づいて、第1音声情報の音声特徴情報を決定することに用いられる。
【0069】
第2取得モジュール304は、第1音声情報の時間特徴情報を取得することに用いられる。
【0070】
第3決定モジュール305は、語義特徴情報、音声特徴情報および時間特徴情報に基づいて、ユーザが音声入力を終了するか否かを決定することに用いられる。
【0071】
本願の一つの実施例では、第1決定モジュール302は、具体的には、第1音声情報のテキスト情報が得られるよう、第1音声情報に対して音声識別を行うこと、第1音声情報の履歴コンテキスト情報を取得すること、テキスト情報の語義特徴情報が得られるよう、テキスト情報および履歴コンテキスト情報を語義表示モデルに入力すること、に用いられる。
【0072】
本願の一つの実施例では、第2決定モジュール303は、具体的に、第1音声情報における無音区間の前の第1所定時間長の音声断片を取得すること、複数の音声断片が得られるよう、第2所定時間長に従って音声断片を分割すること、複数の音声断片の各々に対応する音響特徴情報を抽出し、複数の音声断片の各々に対応する結合特徴が得られるよう、複数の音声断片の各々に対応する音響特徴情報をそれぞれ結合すること、第1音声情報の音声特徴情報が得られるよう、結合特徴をディープ・レジデュアル・ネットワークに入力すること、に用いられる。
【0073】
本願の一つの実施例では、前記第2取得モジュール304は、具体的に、第1音声情報の音声時間長、話速およびテキスト長を取得すること、第1音声情報の時間特徴情報が得られるよう、音声時間長、話速およびテキスト長を予め訓練された多層パーセプトロンMLPモデルに入力すること、に用いられる。
【0074】
本願の一つの実施例では、
図3に示す装置に係る実施例の基に、
図4に示すように、前記第3決定モジュール305は、マルチモーダル処理ユニット3051と、決定ユニット3052とを含む。
【0075】
マルチモーダル処理ユニット3051は、語義特徴情報、音声特徴情報および時間特徴情報をマルチモーダル融合モデルに入力することに用いられる。
【0076】
決定ユニット3052は、マルチモーダル融合モデルの出力結果に基づいて、ユーザが音声入力を終了するか否かを決定することに用いられる。
【0077】
本願の一つの実施例では、
図4に示すように、該マルチモーダル特徴に基づく音声対話処理装置300は、第1処理モジュール306をさらに含む。
【0078】
第1処理モジュール306は、ユーザが音声入力を終了すると決定された場合、第1音声情報に対応する第1返答音声情報を決定し、第1返答音声情報を出力することに用いられる。
【0079】
本願の一つの実施例では、
図4に示すように、該マルチモーダル特徴に基づく音声対話処理装置300は、第3取得モジュール307と、第2処理モジュール308とを含む。
【0080】
第3取得モジュール307は、ユーザが音声入力を終了していないと決定された場合、ユーザが再度入力する第2音声情報を取得することに用いられる。
【0081】
第2処理モジュール308は、第1音声情報および第2音声情報に基づいて、対応する第2返答音声情報を決定し、第2返答音声情報を出力することに用いられる。
【0082】
本願の実施例におけるマルチモーダル特徴に基づく音声対話処理装置は、ユーザと対話のやり取りを行っている中、ユーザが現在入力する音声情報のテキスト情報および第1音声情報の履歴コンテキスト情報を組み合わせて、テキスト情報の語義特徴情報を決定し、第1音声情報における無音区間の前の音声断片に基づいて、第1音声情報の音声特徴情報を決定し、第1音声情報の時間特徴情報を取得し、語義特徴情報、音声特徴情報および前記時間特徴情報に基づいて、ユーザが音声入力を終了するか否かを決定する。これにより、ユーザと対話のやり取りを行っている中、語義特徴情報、音声特徴情報および時間特徴情報を組み合わせて、システムが話者権を引き継ぐことができるか否かを正確に決定した。
【0083】
本願の実施例によれば、本願は電子機器および読取可能な記録媒体をさらに提供した。
【0084】
図5に示すように、本願の一つの実施例に係る電子機器を示す図である。
【0085】
図5に示すように、該電子機器は、メモリ501、プロセッサ502およびメモリ501に記憶されてプロセッサ502上に実行可能なコンピュータ命令を含む。
【0086】
プロセッサ502が命令を実行するとき、上述した実施例において提供されたマルチモーダル特徴に基づく音声対話処理方法を実現する。
【0087】
さらに、電子機器は、メモリ501とプロセッサ502との間の通信に用いられる通信インターフェース503をさらに含む。
【0088】
メモリ501は、プロセッサ502上に実行可能なコンピュータ命令を記憶することに用いられる。
【0089】
メモリ501は、高速RAMメモリを含んでもよく、さらに、不揮発性メモリ(non-volatile memory)、例えば少なくとも1つのディスクメモリを含んでもよい。
【0090】
プロセッサ502は、プログラムを実行するときに上述した実施例におけるマルチモーダル特徴に基づく音声対話処理方法を実現することに用いられる。
【0091】
メモリ501、プロセッサ502および通信インターフェース503が独立して実現される場合、通信インターフェース503、メモリ501およびプロセッサ502は、バスを介して互いに接続され、相互間に通信を行うことができる。バスとしては、業界標準アーキテクチャ(Industry Standard Architecture, 略してISA)規格のバス、周辺コンポーネントの相互接続(Peripheral Component, 略してPCI)規格のバス、または拡張業界標準アーキテクチャ(Extended Industry Standard Architecture, 略してEISA)規格のバスなどが挙げられる。バスは、アドレスバス、データバス、コントロールバスなどに分けられる。表し易いよう、
図5では、1本の太い線だけで表しているが、バスが1本しかない、または1種類しかないなどを意味していない。
【0092】
一部の実施例では、メモリ501、プロセッサ502および通信インターフェース503が、1つのチップ上に集積されて実現される場合、メモリ501、プロセッサ502および通信インターフェース503は、内部インターフェースを介して相互間の通信を行うことができる。
【0093】
プロセッサ502としては、中央処理装置(Central Processing Unit, 略してCPU)、または特定の集積回路(Application Specific Integrated Circuit, 略してASIC)、または本願実施例を実施するように配置された1つまたは複数の集積回路が挙げられる。
【0094】
本願は、そのうちの命令プロセッサが実行されるとき、本願の実施例におけるマルチモーダル特徴に基づく音声対話処理方法を実現する、コンピュータプログラム製品をさらに提案する。
【0095】
本明細書の説明では、「一つの実施例」、「一部の実施例」、「例示」、「具体的な例示」、または「一部の例示」などの用語を参照した説明は、該実施例または例示に合わせて説明した具体的な特徴、構造、材料または特徴が、本願の少なくとも一つの実施例または例示に含まれることを意味する。本明細書では、上述した用語の意味を示す記載は、同一の実施例または例示へのものでなければならないというわけではない。また、説明した具体的な特徴、構造、材料または特徴は、いずれか1つまたは複数の実施例または例示において適切に組み合わせることができる。また、互いに矛盾しない場合、当業者であれば、本明細書に記載された異なる実施例または例示、および異なる実施例または例示の特徴を組み合わせることができる。
【0096】
また、「第1」、「第2」という用語は、説明の目的のみに使用され、相対的な重要性を示すまたは暗示するもの、または、指示された技術的特徴の数を暗に表明するものと理解してはならない。これにより、「第1」、「第2」で限定された特徴が、この特徴を少なくとも1つ含むことは明示または暗に示されている。本願の説明では、「複数」の意味は、別の明確で具体的な限定がない限り、少なくとも2つ、例えば2つ、3つなどを意味する。
【0097】
フローチャートまたはここで他の方法で説明されたいずれかの過程または方法の説明は、カスタマイズされた論理機能またはプロセスのステップを実現するための、命令を実行可能な一つまたは複数のコードを含むモジュール、フラグメントまたはその一部を表すと理解され、また、本願の好ましい実施形態の範囲は、表示または検討された順序でなくてもよく、係る機能に基づいて実質的に同時の形態または逆の順序で機能を実行する追加の形態を含む。これについて、本願の実施例が属する技術分野の当業者であれば理解できるはずである。
【0098】
フローチャートにおいて表示され、またはここで他の方法で説明された論理および/またはステップは、例えば、論理機能を実現するための、命令を実行可能な順序リストであり、命令実行システム、装置または機器(例えば、コンピュータに基づくシステム、プロセッサを含むシステム、または他の命令実行システム、装置または機器から命令を受けて実行するシステム)に使用されるか、もしくはこれら命令実行システム、装置または機器と組み合わせて使用されるために、任意のコンピュータ読取可能な媒体において具体的に実現することが可能である。本明細書の場合、「コンピュータ読取可能な媒体」とは、命令実行システム、装置または機器、もしくはこれら命令実行システム、装置または機器と組み合わせて使用されるよう、プログラムを格納、記憶、通信、拡散または伝送可能な装置である。コンピュータ読取可能な媒体のより具体的な例(非網羅的なリスト)として、一つまたは複数の配線を備える電気接続部(電子機器)、携帯型コンピュータディスクカートリッジ(磁気装置)、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去・書き込み可能な読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ装置、および携帯型光ディスク読み出し専用メモリ(CDROM)が挙げられる。また、コンピュータ読取可能な媒体は、その上にプログラムを印刷可能な紙や他の適切な媒体であってもよい。例えば、紙や他の媒体を光学的にスキャンした後、プログラムを電子的に得るために編集、解読または必要時に他の適切な方法で処理し、その後コンピュータのメモリに記憶することが可能であるためである。
【0099】
本願の各部分は、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組み合わせで実現できることは、理解されるべきだろう。上述した実施形態では、複数のステップまたは方法は、メモリに記憶されており、かつ適切な命令実行システムにより実行されるソフトウェアまたはファームウェアで実現可能である。例えば、別の実施形態と同じようにハードウェアで実現する場合、当分野周知の下記技術のうちの一つまたはそれらの組み合わせによって実現可能である。即ち、データ信号に対して論理機能を実現する論理ゲート回路を有するディスクリート論理回路、適切な組み合わせ論理ゲート回路を有する特殊用途向け集積回路、プログラム可能なゲートアレイ(PGA)、現場でプログラム可能なゲートアレイ(FPGA)などが挙げられる。
【0100】
当業者であれば理解できるように、上述した実施例の方法に備わる全てまたは一部のステップは、プログラムによって関連するハードウェアを指示して完成するのである。プログラムは、コンピュータ読取可能な媒体に記憶されており、該プログラムが実行されるとき、方法に係る実施例のステップのうちの一つまたはその組み合わせを含む。
【0101】
また、本願の各実施例における各機能ユニットは、一つの処理モジュールに集積されていてもよいし、各ユニットが物理的に別々に存在していてもよいし、2つ以上のユニットが一つのモジュールに集積されていてもよい。上述した集積されたモジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。集積されたモジュールがソフトウェア機能モジュールの形態で実現され、独立した製品として販売または使用されるとき、コンピュータ読取可能な記憶媒体に記憶されていてもよい。
【0102】
上述した記憶媒体としては、読み出し専用メモリ、磁気ディスクまたは光ディスクなどが挙げられる。以上には、本願の実施例を示して説明したが、理解できるように、上述した実施例は例示的なものであり、本願を限定するものとして理解すべきではなく、当業者であれば、本願の範囲内において上述した実施例に対して変更、修正、置換および変形を行うことができる。
【国際調査報告】