(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-21
(45)【発行日】2023-09-29
(54)【発明の名称】能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230922BHJP
G10L 15/30 20130101ALI20230922BHJP
G10L 13/00 20060101ALI20230922BHJP
G10L 15/10 20060101ALI20230922BHJP
H04M 3/42 20060101ALI20230922BHJP
【FI】
G10L15/22 200H
G10L15/30
G10L13/00 100M
G10L15/22 300Z
G10L15/10 500Z
H04M3/42 P
(21)【出願番号】P 2022538904
(86)(22)【出願日】2020-11-20
(86)【国際出願番号】 CN2020130325
(87)【国際公開番号】W WO2021129262
(87)【国際公開日】2021-07-01
【審査請求日】2022-06-23
(31)【優先権主張番号】201911364247.0
(32)【優先日】2019-12-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520235782
【氏名又は名称】エーアイ スピーチ カンパニー リミテッド
【氏名又は名称原語表記】AI SPEECH CO., LTD.
(74)【代理人】
【識別番号】100112874
【氏名又は名称】渡邊 薫
(72)【発明者】
【氏名】石 ▲ウェイ▼斯
(72)【発明者】
【氏名】宋 洪博
(72)【発明者】
【氏名】朱 成亜
(72)【発明者】
【氏名】樊 帥
【審査官】菊地 陽一
(56)【参考文献】
【文献】特開2017-067849(JP,A)
【文献】特開2016-206469(JP,A)
【文献】特開2015-068866(JP,A)
【文献】特開2008-234443(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/30
G10L 13/00
G10L 15/10
H04M 3/42
(57)【特許請求の範囲】
【請求項1】
受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するステップと、
前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップと、
を含
み、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するステップにおいては、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶し、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力し、
前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
前記トリガ条件には、識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、
前記情報ストリーム及び配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断するステップにおいては、
前記オーディオ情報を識別して、識別結果を取得し、
識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれている場合には、識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する、
ことを特徴とする、能動的に対話の開始を提起するためのサーバ側処理方法。
【請求項2】
前記トリガ条件には、識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断するステップにおいては、さらに、
識別結果に識別内容が含まれているか否かを判断し、識別内容が含まれていない場合には、音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、能動対話シーンであると確定する、
ことを特徴とする請求項
1に記載のサーバ側処理方法。
【請求項3】
トリガ条件に含まれる前記対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる、
ことを特徴とする請求項
2に記載のサーバ側処理方法。
【請求項4】
前記通信接続は、二重通信のパーシステントコネクションである、
ことを特徴とする請求項1~
3のいずれか1項に記載のサーバ側処理方法。
【請求項5】
能動的に対話の開始を提起するためのサーバであって、
受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
前記通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
前記情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して前記音声クライアントに出力するための対話決定モジュールと、
が配置されて
おり、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュールとがさらに配置されており、
前記対話決定モジュールには、
前記情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニットと、
現在のトリガ条件に関連付けて記憶された対話内容を取得して前記音声クライアントに出力するための対話開始提起ユニットと、
が含まれ、
前記情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、
前記トリガ条件としては、
オーディオ情報に識別内容を含むこと、且つ、識別内容が無効なセマンティックであることが含まれ、または、
オーディオ情報に識別内容を含まないこと、且つ、対応するコンテキスト状態を有することが含まれ、または、
前記対応するコンテキスト状態に問い合わせ待ち状態と沈黙破り状態とを含むことが含まれる、
ことを特徴とするサーバ。
【請求項6】
音声クライアントと音声サーバとを備え、能動的に対話の開始が提起できる音声インタラクションシステムであって、
前記音声クライアントは、前記音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに前記音声サーバに出力し、前記音声サーバから送信された対話内容を受信したときに再生するために用いられ、
前記音声サーバは、請求項
5に記載の、能動的に対話の開始を提起するためのサーバである、
ことを特徴とする音声インタラクションシステム。
【請求項7】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、
請求項1~
4のいずれか1項に記載のサーバ側処理方法のステップが実行できるように、前記少なくとも1つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
【請求項8】
コンピュータプログラムが記憶された記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1~
4のいずれか1項に記載のサーバ側処理方法のステップが実現できる、ことを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声インタラクション(VOICE INTERACTION)の技術分野に関し、特に、能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステムに関する。
【背景技術】
【0002】
近年、人工知能による音声技術の発展に伴い、音声インタラクションに基づくさまざまなスマートデバイスもますます広く応用されている。しかし、現在の音声インタラクションプロセスのほとんどはその開始がユーザによって能動的に提起され、デバイスはユーザの音声命令に基づいて受動的に応答する。実際に、多くの場合、デバイスから能動的に対話の開始が提起されるほうは、人間同士のコミュニケーションの実際のシーンにより一致しており、音声インタラクションプロセスがより自然になる。これは、音声インタラクションデバイスが高知能の特徴を真に示す鍵でもある。この目標を実現するために、現在、一般的に以下の2つの方法を採用して、能動的に対話の開始を提起する音声インタラクションプロセスを実現している。
【0003】
案1、クラウド側は前回の要求に応答する時、能動的に対話の開始を提起する必要がある対話話術をユーザ端末側に返し、ユーザ端末側は適切なタイミングで能動的な対話の話術を再生することを判断する。
【0004】
案2、ユーザ端末側の判断により、能動的な対話が必要な場合、1つの要求をクラウド側に送信し、それに対して、クラウド側は能動的な対話の話術を返す。
【0005】
しかし、上記の案ではいずれもユーザ端末側とサーバ側が切り離されているため、サーバ側には、受動的な側としてインタラクションを行う場合の制限がある。例えば、上記の2つの案には、以下のような欠陥がある。
【0006】
案1の時効性が低い。即ち、一回の要求で2つの対話話術を取得する必要がある。ユーザ端末側が2番目の話術を再生するとき、ユーザのシーンがすでに変わっている可能性がある。このとき、すでに保存されている2番目の話術を再生するのは適切ではなく、ユーザはデバイスが知能的ではないと感じる。
【0007】
案2の能動対話シーンは制限されている。即ち、ユーザ端末にセマンティックと対話の情報がないため、ユーザ端末側でできる条件判断は非常に限られている。
【発明の概要】
【0008】
上記の問題を解決するために、発明者は、サーバ側自体の利点を利用して対話決定を行い、サーバの対話決定状況に基づいて能動的に対話の開始を提起する案を想到した。
【課題を解決するための手段】
【0009】
本発明の第1の態様によれば、
能動的に対話の開始を提起するためのサーバ側処理方法であって、
受信した音声クライアントからの接続確立要求に応答して、音声クライアントとの通信接続を確立するステップと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するステップと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するステップと、
を含むことを特徴とする。
【0010】
本発明の第2の態様によれば、
能動的に対話の開始を提起するためのサーバであって、
受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュールと、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュールと、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュールと、
を備えることを特徴とする。
【0011】
本発明の第3の態様によれば、
能動的に対話の開始を提起する音声インタラクションシステムであって、
音声クライアントと音声サーバ側とを含み、
音声クライアントは、音声サーバとの接続要求を送信し、通信接続を確立した後に、確立した通信接続を介して、収集されたオーディオ情報をリアルタイムに音声サーバに出力し、音声サーバから送信された対話内容を受信したときに再生するために用いられ、
音声サーバは、前記能動的な対話の開始を提起するためのサーバである ことを特徴とする。
【0012】
本発明の第4の態様によれば、
少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実行できるように、少なくとも1つのプロセッサによって命令を実行させることを特徴とする。
【0013】
本発明の第5の態様によれば、
コンピュータプログラムが記憶されている記憶媒体であって、
前記プログラムがプロセッサによって実行されると、前記能動的に対話の開始を提起するためのサーバ側処理方法のステップが実現できる、ことを特徴とする。
【発明の効果】
【0014】
本発明の実施例の技術案は、サーバの対話決定に基づいて能動的な音声対話の開始を提起することができる。サーバは、完全な対話情報を有し且つセマンティック判断能力を有するため、サーバの機能を拡張することで、サーバは音声クライアントの状態をリアルタイムで取得し、音声クライアントの当該リアルタイム状態に基づいて対話決定を行うことができ、さらに、音声インタラクションにおける他のモジュールに含まれる情報と合わせて、より知能的な決定をすることができる。そして、音声クライアントは、サーバと通信接続を確立して維持し、通信接続に基づいて情報ストリームを送信するだけでよく、複雑な論理処理を行う必要がなく、ユーザ端末の負担が軽減されると同時に、ユーザ端末情報の時効性も保証される。また、サーバは、音声クライアントとの特定の通信接続を確立することにより、安定した情報ストリームを取得し、音声クライアントの状態に対する規則的な更新が保証される。
【図面の簡単な説明】
【0015】
本願の実施例の技術案をより明確に説明するために、以下、実施例の説明において使用される図面について簡単に紹介する。明らかに、以下の説明における図面は、本願のいくつかの実施例である。当業者は、創造的な労働をすることなく、これらの図面に基づいて他の図面を得ることができる。
【0016】
【
図1】本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバ側処理方法を示すフローチャートである。
【
図2】本発明の一実施形態であって、サーバ側において対話決定処理を行って能動的に対話の開始を提起する処理方法を示すフローチャートである。
【
図3】本発明の一実施形態であって、能動的に対話の開始を提起するためのサーバの構成を模式的に示す概略図である。
【
図4】本発明の一実施形態であって、能動的に対話の開始を提起する音声インタラクションシステムの構成を模式的に示す概略図である。
【
図5】本発明の一実施形態に係る電子機器の構造概略図である。
【
図6】本発明の一実施形態における音声クライアントの構成を模式的に示す概略図である。
【
図7】本発明の一実施形態であって、サーバ側において対話決定処理を行う方法を示すフローチャートである。
【発明を実施するための形態】
【0017】
本発明の実施例の目的、技術案および利点をより明確にさせるために、以下では、本発明の実施例における図面と併せて、本発明の実施例における技術案を明確かつ完全に説明する。もちろん、説明される実施形態は本発明の一部の実施形態にすぎず、本発明の全部の実施形態ではない。本発明の実施形態に基づいて、当業者が創造的な努力なしに得られる他の全ての実施形態も本発明の保護範囲に含まれるべきである。
【0018】
なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
【0019】
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。
【0020】
本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
【0021】
最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」、「有する」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
【0022】
本発明の実施例に係る能動的に対話の開始を提起する技術案は、例えば、携帯電話、腕時計、イヤホン、パソコンなどの知能音声インタラクション機能を有する任意のスマートデバイスに適用することができ、音声インタラクション中に、シーンに応じてユーザとの対話を能動的に開始提起することができる。しかし、本発明の適用範囲はこれに限定されるべきではない。本発明の実施例によって提供される技術案は、音声クライアントとサーバのそれぞれの利点を合わせて、音声クライアントがリアルタイムに取得してアップロードした情報ストリームを利用して、サーバが自身のセマンティックと対話情報に対する全体的な判断に基づいて、知能的に対話決定を行い、そしてシーンに応じて能動的に対話を開始提起して、ユーザのインタラクション体験を向上させ、音声インタラクションデバイスをより知能化させることができる。
【0023】
以下、図面と併せて本発明をさらに詳しく説明する。
【0024】
図1は、本発明の実施例に係る能動的に対話の開始を提起するためのサーバ側処理方法を概略的に示す図である。本発明の実施例の方法の実行主体は、例えば、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたクラウド側サーバなどの、音声インタラクション機能に音声識別処理やセマンティック解析処理や対話管理機能を提供する任意のサーバ端末であってもよく、または、例えば音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されているクラウド側サーバと双方向通信可能な第2のクラウド側サーバなどの、音声識別処理やセマンティック解析処理や対話管理機能モジュールが配置されたサーバ端末と双方向通信可能な第2のサーバ端末であってもよいが、もちろん、
図3に示す能動的な対話の開始を提起するためのサーバであってもよい。
【0025】
本発明の実施例に係る音声クライアントは、例えば携帯電話、腕時計、イヤホン、パソコン、車載端末などの、音声インタラクション機能を有する任意のスマートデバイスであってもよい。実行主体が
図3に示す能動的な対話の開始を提起するためのサーバである場合を例にとると、
図1に示すように、当該方法は以下のステップを含む。
【0026】
ステップS101:受信した音声クライアントからの接続要求に応答して、音声クライアントとの通信接続を確立する。本発明の実施例では、サーバが取得する音声クライアント状態の時効性を確保するために、対応する音声クライアントと通信接続を確立し、当該通信接続に基づいて音声クライアントの状態更新をリアルタイムで取得する。すなわち、本発明の実施例では、音声クライアントの接続要求に基づいて、音声クライアントとサーバとの間に、音声クライアントのリアルタイム状態を取得するための専用の接続チャネルを確立する。具体的な実現において、本発明の実施例の技術案は、音声クライアントによって能動的に接続要求を開始するように構成され、サーバは、音声クライアントからの接続要求を受信した後、それと通信接続を確立するように構成される。これにより、音声クライアントの要求に基づいて各音声クライアントを明確に識別することができるだけでなく、音声クライアントは、本発明の実施例の能動的に対話を開始提起してインタラクションするサービスを拡張するかどうかを能動的に決定することができる。
【0027】
好ましくは、本発明の実施例における通信接続は、二重通信のパーシステントコネクション(persistent connection)であり、二重通信のパーシステントコネクションを確立することにより、伝送情報の安定性を確保することができるだけでなく、通信接続を確立した後、音声クライアントとサーバ側は完全に平等であり、互いに能動的に要求することができる。これにより、サーバは、音声クライアントの要求を待つことなく、必要に応じていつでも音声クライアントにメッセージを能動的にプッシュすることができ、これにより、サーバは確実に能動的に対話の開始を提起することができる。例示的に、WebSocketプロトコルまたはTCP Socketカスタムプロトコルを利用して、二重通信のパーシステントコネクションを確立することができる。
【0028】
ステップS102:通信接続を介して、音声クライアントから送信された情報ストリームを受信する。サーバと音声クライアントとの間で通信接続を確立した後、当該通信接続を介して音声クライアントの状態情報を取得する。具体的に、音声クライアントは、収集された情報を、通信接続を介して情報ストリームの形態でリアルタイムに送信する。ここで、情報ストリームに含まれる情報は、音声クライアントがラジオなどの収音装置を介して記録したオーディオストリームであってもよく、または、地理的位置や連絡先ホットワードなどの、音声クライアントがリアルタイムで収集したデバイス情報であってもよく、または、オーディオストリームとデバイス情報を同時に含むことができる。情報伝送の秩序性と時効性を確保するために、オーディオストリームを伝送する際に固定周波数で送信することが好ましい。
【0029】
ステップS103:情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力する。対話決定処理とは、能動的に対話の開始を提起する必要があるかどうかを確定するための処理であり、情報ストリーム決定フレームワークに基づいて実現される。情報ストリーム決定フレームワークは、予め配置されて記憶された能動対話シーンのトリガ条件とトリガ条件に関連する対話内容として具現化できる。
【0030】
本発明の実施例における能動対話シーンとは、サーバが能動的に対話の開始を提起する必要があるシーンを意味する。トリガ条件とは、能動対話シーンを発生させる所定の条件を意味する。トリガ条件に関連する対話内容とは、能動対話シーンが発生したときに音声クライアントで能動的に再生する必要がある対話内容を意味する。
図7に示すように、外部から入力された配置情報を受信することにより、能動対話シーンのトリガ条件とトリガ条件に関連する対話内容とを生成して記憶することができ、これにより、ステップS701における能動対話シーンのトリガ条件の配置とトリガ条件に関連する対話内容記憶を実現することができる。このように、情報ストリームを受信した後、
図7に示すように、ステップS702において、取得した情報ストリームと予め配置された能動対話シーンのトリガ条件に基づいて、能動対話シーンであるか否かを判断し、判断結果に基づいて、能動的に対話の開始を提起する必要があるか否かを判断することができる。
【0031】
本発明の実施例は、トリガ条件が満たされたときに能動対話シーンであると判断し、能動対話シーンであると確定されたときに、現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力し、音声クライアントで対話内容の再生を行うことにより、サーバによる能動的な対話インタラクションの開始を実現するように構成されている。
【0032】
ここで、能動対話シーンとそのトリガ条件、およびトリガ条件に関連する対話内容は、ユーザの実際のニーズに応じて定義および配置することができる。
【0033】
以下では、能動対話シーンが問い合わせ待ち状態、沈黙破り状態、及び能動的に割り込む状態であることを例として、本発明の実施例の方法をより詳細に説明する。
【0034】
好ましい実施例として、本発明の例では、音声クライアントがサーバに送信する情報ストリームには、音声クライアントがピックアップしたオーディオ情報(すなわち、記録されたオーディオストリーム)が含まれ、サーバに配置された能動対話シーンのトリガ条件には、少なくとも以下の2つの状況が含まれる。
第1のトリガ条件は、識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第2のトリガ条件は、識別内容が含まれないこと、且つ、対応するコンテキスト状態を有することである。
【0035】
各能動対話シーンのトリガ条件は互いに干渉しないが、同じ能動対話シーンのトリガ条件は完全に満たされる必要がある。すなわち、どの能動対話シーンのトリガ条件が満たされていても、そのトリガ条件が十分に満たされていれば、サーバに1ラウンドの能動的な対話を開始させることができる。上記の例において、識別内容とは、音声クライアントから送信されたオーディオ情報に対するサーバの識別結果の内容を意味する。すなわち、識別結果に識別内容が含まれているかどうか、および識別結果における識別内容のセマンティックが有効であるかどうかである。コンテキスト状態とは、ユーザの意図または現在の文脈を示すために用いられる、対話管理においてサーバが確定したインタラクションフローを意味する。例示的に、対話管理のインタラクションフローに従って、配置された対応するコンテキスト状態には、問い合わせ待ち状態と沈黙破り状態とが含まれる。
【0036】
上記能動対話シーンの構成条件を例に、以下に、
図2に示す決定処理フローチャートとともに、当該ステップの具体的な決定処理プロセスを詳細に説明する。
図2に示すように、本発明の実施例の、対話決定処理を行い且つ能動対話シーンであると確定されたときに能動的に対話の開始を提起する音声インタラクションの実施プロセスには、以下のステップが含まれる。
【0037】
ステップS201:取得したオーディオ情報を識別し、識別結果を取得する。サーバにおいてオーディオ情報を識別して識別結果を得るには、音声インタラクションサーバの既存の音声識別機能とモジュールを利用して実現することができる、例えば、音声インタラクションサービスを提供する既存のクラウド側サーバに音声識別モジュールを配置することにより実現され、ここでは説明を省略する。
【0038】
ステップS202:識別結果に識別内容が含まれているか否かを判断する。識別内容が含まれている場合にはステップS203を実行し、識別内容が含まれていない場合にはステップS204を実行する。音声認識を実行した後、識別結果に内容があるかどうかを判断する。音声識別を実行するとオーディオ情報がテキスト情報に変換されるため、識別結果に識別内容が含まれているかどうかを判断することは、変換後のテキスト情報にテキスト文字列が含まれているかどうかを判断することで実現できる。
【0039】
ステップS203:識別内容をセマンティック解析し、セマンティック解析結果が無効なセマンティックである場合、能動対話シーンであると確定する。識別内容に対するセマンティック解析は、セマンティックインタラクションサーバの既存のセマンティック解析機能及びモジュールを利用して実現することができ、セマンティック識別とセマンティック解析は、既存の音声インタラクションシステムにおいて従来技術であり、当該機能をそのまま利用すればよく、例えば、既存の音声インタラクションサービスを提供するクラウド側サーバに配置されている音声解析モジュールで実現するため、ここでは具体的な識別及び解析プロセスについては詳述しない。ここで、有効なセマンティックとは、セマンティック解析エンジンに存在する特定の実行または応答動作に対応するセマンティックであり、セマンティック解析エンジンに存在しない場合、即ちマッチングする項目が見つからない場合には、無効なセマンティックであると見なす。具体的な応用では、音声インタラクションプロセスにおいて、ユーザが連続的に発話し、識別内容がますます長くなり、内容が無意味又は敏感な内容がない場合(すなわち、マッチングする実行や応答動作に対応できない場合)、能動的な割り込みを行うことが知能的なインタラクションにより合致する。従って、このシーンに対応する状況を能動的に割り込む能動的に対話をするシーンとすることができ、より知能的なインタラクションを実現し、ユーザのインタラクション体験を向上させることができる。例示的に、このトリガ条件に対して、ユーザが効果的な対話を実行するようにガイドするために、配置された対話内容は「...を話してください」などの割り込み命令やリマインダ命令にすることができる。
【0040】
ステップS204:音声インタラクションシーンのコンテキスト状態を取得して判断し、取得した音声インタラクションシーンのコンテキスト状態がトリガ条件における対応するコンテキスト状態である場合、ステップS205を実行する。識別内容を含まないオーディオを取得した場合、例えば、以下の2つのシーンのように、能動的な対話の開始を提起する必要があるシーンである可能性もある。
問い合わせ待ち状態シーン。即ち、ユーザは前のラウンドのインタラクションで待つ意図を表明し、指定された時間だけマシンを待機した後に、能動的に問い合わせを開始する必要がある。
沈黙破り状態シーン。即ち、対話中に、お互いに何も言わない気まずい状況がたまに発生する。この時、マシンが能動的に質問をし、ユーザを誘導する必要がある。
【0041】
この時、知能的に対話の開始を提起するには、マシンがコンテキスト状態に基づいて文脈を判断できる必要がある。そのため、上記のコンテキスト状態を、識別内容がない場合に対話の開始を提起する必要があるトリガ条件として記憶することができる。この処理プロセスはサーバで行われ、サーバは音声インタラクションプロセス全体のコンテキスト状態であるインタラクションフローを記録しているため、インタラクションフローを取得して判断することができ、インタラクションフローに基づいて能動対話シーンに合致するコンテキスト状態であるかどうかを判断することができる。例えば、インタラクションフローに問い合わせ待ち状態実行フローがあると判断された場合、または1つの音声インタラクションプロセスが行われていると判断されてユーザが突然沈黙した場合、能動対話シーンであると確定し、ステップS205を実行する。
【0042】
ステップS205:能動対話シーンであると確定し、既知の意図に従って能動的な対話を開始する。サーバはコンテキスト状態であるインタラクションフローを知っているため、インタラクションフローの状況に基づいて既知の意図を判断し、そして既知の意図に基づいて実行される動作または再生される内容を確定するなど、既知の意図に基づいて能動的に対話の開始を提起することができる。既知の意図は一般的に複数ラウンドのプロセスに現れるため、既知の意図を判断することは、複数ラウンドの対話の結果に基づいて判断することができる。例えば、カーナビゲーションのシーンでは、前の複数ラウンドの対話ではすでに目的地とナビゲーションルートを確定している。この場合、既知の意図を既知のナビゲーション意図として確定し、既知のナビゲーション意図に基づいて、能動的に対話する内容を推奨目的地週辺駐車場などであると確定することができる。例示的に、既知の意図に基づいて、問い合わせ待ち状態に対応する対話内容は、指定された事項または内容を問い合わせることであってもよく、沈黙破り状態に対応する対話内容は、その前のインタラクションフロー状態に基づいて問い合わせることであってもよい。
【0043】
ステップS206:適合する対話内容を取得して、音声クライアントに出力する。
【0044】
ステップS207:音声クライアントは、当該対話内容を再生する。
【0045】
上記の方法プロセスに基づいて、ユーザ端末がリアルタイム伝送するオーディオストリームに基づいて、サーバが対話シーンに従って能動対話シーンを判断し、適切なタイミングで能動的に対話を開始し、ユーザ端末が対話内容の再生を行うことを実現することができる。当該技術案は、ユーザ端末がその状態情報をリアルタイムに伝送することを実現できるだけでなく、サーバを利用して音声インタラクション中の他の情報(コンテキスト状態など)と合わせて決定することができるため、時効性とマシンの知能性が保証され、ユーザのインタラクション体験を大幅に向上させることができる。
【0046】
ユーザ端末が伝送する情報ストリームにデバイス情報も含まれる実施例において、サーバは、リアルタイムのデバイス情報に基づいて能動的に対話する決定を行うこともできる。例えば、サーバは、対話決定処理を行う際に、デバイス情報に基づいて推薦内容を確定し、推薦内容を対話内容として音声クライアントに出力することができる。例えば、サーバは、リアルタイムの地理位置情報に基づいて、週辺の店舗や食べ物を推薦するための対話インタラクションなどを音声クライアントに能動的に開始することもできる。
【0047】
図3は、本発明の一実施形態の能動的な対話の開始を提起するためのサーバを模式的に示しており、
図3に示すように、当該サーバには、
受信した音声クライアントの接続要求に応答して、音声クライアントとの通信接続を確立するための通信モジュール30と、
通信接続を介して、音声クライアントから送信された情報ストリームを受信するための情報受信モジュール31と、
情報ストリームに基づいて対話決定処理を行い、能動対話シーンであると確定された場合、適合する対話内容を取得して音声クライアントに出力するための対話決定モジュール32と、
能動対話シーンのトリガ条件と、トリガ条件に関連する対話内容とを設けて記憶するための配置モジュール33と、
が配置されている。
【0048】
ここで、対話決定モジュール32は、
情報ストリームと、配置された能動対話シーンのトリガ条件とに基づいて、能動対話シーンであるか否かを判断し、能動対話シーンであると確定された場合、対話開始提起ユニットを呼び出すために用いられる条件判断ユニット32Aと、
現在のトリガ条件に関連付けて記憶された対話内容を取得して音声クライアントに出力するための対話開始提起ユニット32Bと、
を含んで実現される。
【0049】
図4は、
図3に示すサーバを用いて実現される、能動的に対話の開始を提起することができる音声インタラクションシステムを概略的に示している。
図4に示すように、当該システムには、音声クライアント1と、音声サーバ3とが含まれており、ここで、音声サーバは、
図3に示すような能動的な対話の開始を実現するためのサーバである。
【0050】
好ましい実施例として、情報ストリームには、音声クライアントがピックアップしたオーディオ情報が含まれ、トリガ条件には、以下の二種類の能動対話シーンのトリガ条件が含まれることができる。
第1のトリガ条件は、オーディオ情報に識別内容が含まれること、且つ、識別内容が無効なセマンティックであることである。
第2のトリガ条件は、オーディオ情報に識別内容が含まれないこと、且つ、問い合わせ待ち状態と沈黙破り状態とを含む対応するコンテキスト状態を有することである。
【0051】
具体的な実現プロセスにおいて、音声クライアント1は音声サーバ3との接続要求を送信し、音声サーバ3の通信モジュール30はこの要求を受信し、音声クライアント1との通信接続を確立する。通信接続が確立された後、音声クライアント1は、確立した通信接続を介して、収集されたオーディオ情報(例示的に、ラジオを介して記録されたオーディオ)をリアルタイム(固定周波数でもよい)で音声サーバ3に送信する。音声サーバ3の情報受信モジュール31は、この情報ストリームを受信し、オーディオ情報を対話決定モジュール32に出力する。対話決定モジュール32は、オーディオ情報と配置モジュール33により配置されたトリガ条件に基づいて、能動的に対話の開始を提起するか否かを判断し、能動的に対話の開始を提起する必要があると判断された場合、マッチングする対話内容を取得して音声クライアント1に出力する。音声クライアント1は、音声サーバ3から送信された対話内容を受信したときに再生し、能動的な対話の開始を実現する。
【0052】
図6は、一実施形態の音声クライアントを概略的に示している。
図6に示すように、音声クライアントは、通信接続を確立するためにサーバに接続要求を送信するための接続要求モジュール10と、通信接続を介して受信した対話内容を再生するための音声再生モジュール11と、情報ストリームを取得し、確立した通信接続を介してサーバに送信するための情報取得モジュール12とを含むことができる。例示的に、接続要求モジュール10は、WebSocketプロトコルまたはTCP Socketカスタムプロトコルに基づいて接続要求を行い、サーバとの間の二重通信パーシステントコネクションを確立することができる。音声再生モジュール11は、ホーンやスピーカなどで実現されてもよい。情報取得モジュール12は、オーディオ情報をピックアップするための録音装置、リアルタイムの地理位置情報を取得するための測位モジュールなどを含むことができる。
【0053】
サーバ、音声サーバ3、音声クライアントに関する各モジュールとユニットの具体的な実現プロセスは、前述の方法部分の説明を参照することができ、ここでは説明を繰り返さない。
【0054】
具体的な実現では、音声クライアントを上記の方法で上記のサーバまたは音声サーバに接続することにより、上記の音声インタラクションシステムを構築し、サーバの処理に基づいて能動的な対話の開始を提起し、対話の開始を提起する主動権をサーバに渡すことができる。上記の技術案により、音声クライアントの軽量を確保できるとともに、サーバがリアルタイムで連続的な音声クライアントの状態を取得することを保証することができて、システムの拡張性とメンテナンス性がより良く、任意の需要のあるユーザ端末に対するサービス機能の拡張が容易になる。本発明の実施例の技術案はさらに、サーバの他の音声インタラクション機能を利用して全体的に把握し、識別やセマンティックや対話シーンに基づく知能的な決定を実現し、能動的に対話する応用シーンを広げ、音声インタラクションの体験を大幅に向上させ、知能的なインタラクション効果を保証することができる。
【0055】
いくつかの実施例において、本発明の実施例はさらに、実行命令を含む1つまたは複数のプログラムを記憶する不揮発性コンピュータ読み取り可能な記憶媒体を提供する。実行命令は、本発明の上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために、電子機器(コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない)によって読み取られて実行することができる。
【0056】
いくつかの実施例において、本発明の実施例はさらに、不揮発性コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記の能動的な対話の開始を実現するためのサーバ側処理方法を実行させる。
【0057】
いくつかの実施例において、本発明の実施例はさらに、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、上記の能動的な対話の開始を実現するためのサーバ側処理方法が実行できるように、少なくとも1つのプロセッサによって命令を実行させる電子機器を提供する。
【0058】
いくつかの実施例において、本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、上記の能動的な対話の開始を実現するためのサーバ側処理方法を実現できる。
【0059】
上記の本発明の実施例の能動的な対話の開始を実現するためのサーバは、本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実行するために用いられることができ、それに応じて、上記本発明の実施例の能動的な対話の開始を実現するためのサーバ側処理方法によって達成される技術的効果を達成することができ、ここでは説明を省略する。本発明の実施例において、ハードウェアプロセッサ(hardware processor)によって関連する機能モジュールを実現することができる。
【0060】
図5は、本発明の他の実施例によって提供される、能動的な対話の開始を提起するためのサーバ側処理方法を実行する電子機器のハードウェア構造概略図である。
図5に示すように、当該機器には、
1つまたは複数のプロセッサ510およびメモリ520が含まれ、
図5では1つのプロセッサ510を例に取る。
【0061】
能動的な対話の開始を提起するためのサーバ側処理方法を実行する機器は、入力装置530と出力装置540とをさらに含むことができる。
【0062】
プロセッサ510、メモリ520、入力装置530と出力装置540はバスまたは他の 方法で接続することができ、
図5ではバスによる接続を例に取る。
【0063】
メモリ520は不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラムおよびモジュールを記憶するために用いられることができる。例えば、本発明の実施例における能動的な対話の開始を実現するためのサーバ側処理方法に対応するプログラム命令/モジュールを記憶することができる。プロセッサ510は、メモリ520に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの各種機能応用およびデータ処理を実行し、即ち、上記方法実施例の能動的な対話の開始を実現するためのサーバ側処理方法を実現する。
【0064】
メモリ520は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、能動的な対話の開始を実現するためのサーバの使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ520は、高速ランダムアクセスメモリを含むことができ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置のような不揮発性メモリをさらに含むことができる。いくつかの実施例において、メモリ520は、プロセッサ510から離れて設置されたメモリを選択的に含み得、これらのリモートメモリは、ネットワークを介して能動的な対話の開始を実現するためのサーバに接続することができる。上記ネットワークには、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。
【0065】
入力装置530は、入力された数値や文字情報を受信し、能動的な対話の開始を実現するためのサーバのユーザ設定および機能制御に関連する信号を生成することができる。出力装置540は、ディスプレイなどの表示装置を含むことができる。
【0066】
上記の1つまたは複数のモジュールはメモリ520に記憶され、1つまたは複数のプロセッサ510によって実行されると、上記任意の方法実施例における能動的な対話の開始を実現するサーバ側処理方法を実行する。
【0067】
上記の製品は、本発明の実施例で提供される方法を実行することができ、実行方法に対応する機能モジュールと有益な効果を有する。本実施例において詳細に説明されていない技術の詳細は、本発明の実施例で提供される方法を参照することができる。
【0068】
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
【0069】
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iPhone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
【0070】
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
【0071】
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
【0072】
(4)サーバ:コンピューティングサービスを提供するデバイスである。サーバの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバ及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。
【0073】
(5)データ交換機能を備えたその他の電子デバイス。
【0074】
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
【0075】
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピューターソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピューターデバイス(パーソナルコンピューター、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。
【0076】
最後に、上記した実施形態は、本発明の技術構成を説明するためのものであり、本発明を限定するためのものではない。当業者であれば、本発明の技術構成の趣旨や範囲を逸脱しない前提下で、上述した実施形態に対して修正することもできるし、一部の技術的特徴を均等置換することもできる。これらの修正や置換は、いずれも本発明の保護範囲に含まれるべきである。