(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-02
(45)【発行日】2023-05-15
(54)【発明の名称】音声会話処理方法及び装置
(51)【国際特許分類】
G10L 15/22 20060101AFI20230508BHJP
G10L 15/10 20060101ALI20230508BHJP
【FI】
G10L15/22 300U
G10L15/10 500T
(21)【出願番号】P 2022510069
(86)(22)【出願日】2019-12-09
(86)【国際出願番号】 CN2019123937
(87)【国際公開番号】W WO2021027198
(87)【国際公開日】2021-02-18
【審査請求日】2022-02-15
(31)【優先権主張番号】201910752714.0
(32)【優先日】2019-08-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520235782
【氏名又は名称】エーアイ スピーチ カンパニー リミテッド
【氏名又は名称原語表記】AI SPEECH CO., LTD.
(74)【代理人】
【識別番号】100137338
【氏名又は名称】辻田 朋子
(72)【発明者】
【氏名】董 ▲シン▼
(72)【発明者】
【氏名】戴 中原
(72)【発明者】
【氏名】初 敏
(72)【発明者】
【氏名】顧 寒
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2019-53126(JP,A)
【文献】特表2003-505778(JP,A)
【文献】特開2018-156418(JP,A)
【文献】特表2011-515028(JP,A)
【文献】特開昭61-208123(JP,A)
【文献】特開2014-191271(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声顧客サービスサーバ側に用いられる音声会話処理方法であって、
処理すべきユーザ音声に対応する音声意味を特定するステップと、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、
特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、
前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理方法。
【請求項2】
前記会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含み、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップは、
前記音声意味によって示されるユーザ意図を特定するステップと、
前記ユーザ意図が汎用意図セットに属するときに、前記汎用会話管理モデルを用いて前記ユーザ意図に対する汎用会話操作を実行するステップと、を含み、
前記汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちの何れか一項を含む請求項1に記載の音声会話処理方法。
【請求項3】
前記ユーザ意図が前記汎用意図セットに属さないときに、前記業務会話管理モデルを用いて、
前記ユーザ意図に対応する目標会話ストリームを特定することと、
特定された目標会話ストリームにおける会話ノードに基づいて前記応答文を特定することと、
を含む業務操作を実行することにより、前記応答文を特定するステップを更に含む請求項2に記載の音声会話処理方法。
【請求項4】
前記会話業務カスタマイズファイルは、会話フロー設計サーバ側から取得され、前記会話フロー設計サーバ側は、会話フロー設計クライアント側とのインタラクションを行うことで前記会話業務カスタマイズファイルを作成するように構成される請求項1に記載の音声会話処理方法。
【請求項5】
前記会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む請求項1~4の何れか一項に記載の音声会話処理方法。
【請求項6】
会話フロー設計サーバ側に用いられる音声顧客サービス方法であって、
会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するステップと、
前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、
前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、
前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声顧客サービス方法。
【請求項7】
前記会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成され、前記会話フロー設計クライアント側は、前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する請求項6に記載の音声顧客サービス方法。
【請求項8】
音声会話処理装置であって、
処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、
会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、
特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、
前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む音声会話処理装置。
【請求項9】
電子機器であって、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサで実行され得る指令が記憶され、前記少なくとも1つのプロセッサは、前記指令を実行することにより、請求項1~7の何れか一項に記載の方法のステップを実施可能である電子機器。
【請求項10】
コンピュータプログラムが記憶される記憶媒体であって、
当該コンピュータプログラムがプロセッサによって実行されたときに、請求項1~7の何れか一項に記載の方法のステップは、実施される記憶媒体。
【発明の詳細な説明】
【関連出願の相互引用】
【0001】
本発明は、2019年08月15日に中国専利局へ提出された、出願番号が201910752714.0である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
【技術分野】
【0002】
本発明は、スマート顧客サービス技術分野に関し、例えば音声会話処理方法及び装置に関する。
【背景技術】
【0003】
マン-マシンインタラクションは、人とコンピュータシステムの間のインタラクション関係を研究する技術である。AI(Artificial Intelligence、人工知能)会話システムは、新型のマン-マシンインタラクション方式であり、自然音声又は自然言語形式によって入出力を行う。現在、AI会話システムは、スマートフォン、スマートホーム、スマート車載、スマート顧客サービス等のシーンに広く応用されている。
【0004】
しかし、異なるメーカーにとって必要な会話業務フロー及び内容に区別が存在するため、各メーカーは、自分に属する音声会話システムをカスタマイズする必要がある。現在、業務論理の複雑性は、AI会話システムの会話フロー開発の複雑さを引き起こし、会話業務カスタマイズ開発の低効率をもたらす。また、メーカーが業務フロー又は内容をメンテナンスや変更する必要があるときに、コードロジックを繰り返し開発するか修正する必要があるため、業務プロセスの後期のメンテナンスに不利であった。
【発明の概要】
【0005】
本発明は、上記技術課題の少なくとも1つを解決するための音声会話処理方法及び装置を提供する。
【0006】
第1態様において、本発明の実施例は、音声会話処理方法を提供する。当該音声会話処理方法は、音声顧客サービスサーバ側に用いられ、処理すべきユーザ音声に対応する音声意味を特定するステップと、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するステップと、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するステップと、を含み、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【0007】
第2態様において、本発明の実施例は、音声顧客サービス方法を提供する。当該音声顧客サービス方法は、会話フロー設計サーバ側に用いられ、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するステップと、前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するステップと、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするステップと、を含み、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【0008】
第3態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、処理すべきユーザ音声に対応する音声意味を特定するための音声意味特定手段と、会話管理エンジンに基づいて前記音声意味に対する応答文を特定するための会話管理エンジン呼出手段と、特定された応答文に基づいて、前記ユーザ音声に応答するための顧客サービス音声を生成するための顧客サービス音声生成手段と、を備え、前記会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に作成され、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【0009】
第4態様において、本発明の実施例は、音声会話処理装置を提供する。当該音声会話処理装置は、会話フロー設計クライアント側からの会話フロー設計要求を取得し、前記会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定するための会話ストリーム特定手段と、前記少なくとも1つの会話ストリームに基づいて、会話業務カスタマイズファイルを生成するための業務カスタマイズファイル生成手段と、前記会話業務カスタマイズファイルを音声顧客サービスサーバ側へ送信して会話管理エンジンに関するトレーニングサンプルセットを作成することにより、前記音声顧客サービスサーバ側が前記会話管理エンジンに基づいて音声顧客サービスサービスを実行するようにするための業務カスタマイズファイル送信手段とを備え、前記会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【0010】
第5態様において、本発明の実施例は、電子機器を提供する。当該電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサで実行され得る指令が記憶され、前記少なくとも1つのプロセッサは、前記指令を実行することにより、上記方法のステップを実施可能である。
【0011】
第6態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上記方法のステップは、実施される。
【発明の効果】
【0012】
本発明では、会話管理エンジンを利用してユーザ音声の音声意味に対応する応答文を特定する。ここで、会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの、所定順番を持つ複数の会話ノードを含む会話ストリームの会話業務カスタマイズファイルを基に作成される。会話業務カスタマイズファイルの作成が簡単且つ便利であり、コードロジックの修正に関わらないため、会話業務カスタマイズ開発は、より便利且つ効果的になる。また、業務カスタマイズファイルを交換するだけで会話管理エンジンに対する反復操作を完了することができ、業務フローの後期メンテナンスが便利になる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施例の音声会話処理方法のフローチャートである。
【
図2】音声顧客サービスサーバ側に用いられる音声会話処理方法の一例示におけるフローチャートを示す。
【
図3】本実施例に係る会話フローの一例示における模式図を示す。
【
図4】本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャ模式図を示す。
【
図5】本発明の実施例のオンライン会話システムにおける会話管理エンジンがモデリングを行う原理フローチャートを示す。
【
図6】会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローチャートを示す。
【
図7A-7Z】会話フローを構築する過程における、会話設計クライアント側の異なる状態でのスクリーンショットインターフェースの例示をそれぞれ示す。
【
図8】本発明の実施例の音声会話処理装置の構造ブロック図を示す。
【発明を実施するための形態】
【0014】
本発明の実施例の目的、解決手段及び利点がより明確になるように、以下では、本発明の実施例の図面を参照しながら本発明の実施例の解決手段を明確で完全に説明する。説明される実施例は本発明の一部の実施例であり、全部の実施例ではない。なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。
【0015】
本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピュータストレージメディアに配置できる。
【0016】
本発明では、「モジュール」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び/又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び/又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び/又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び/又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び/又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。
【0017】
最後に、用語「含む」、「有する」及びそれらのいずれの変更は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、「含む」及びそれらのいずれの変更によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。
【0018】
本明細書において、用語「エンジン」は、少なくとも1つのアルゴリズムモデルをカプセル化した後で形成された構造を表す。用語「意図」は、語句に対する分類を表し、例えば、ユーザの語句「またね」は、「会話終了」という意図に分類すべきである。
【0019】
図1に示すように、本発明の実施例の音声会話処理方法の例示的なフローは、複数の実行主体の間の通信インタラクションに係り、例えば会話フロー設計クライアント側10、会話フロー設計サーバ側20、音声顧客サービスサーバ側30及びユーザ端末40の間で通信インタラクションを行う。クライアント及びユーザ端末は、任意のタイプのノートパソコン、タブレットPC、携帯電話のような端末機器、例えば、特定のアプリケーションプログラムがインストールされた端末機器であってもよい。また、サーバ側は、中心通信ネットワークアーキテクチャにおけるサーバ又はピアツーピア通信ネットワークアーキテクチャにおける業務を提供するためのマスタノード機器として示されてもよい。
【0020】
図1に示すとおり、本発明の実施例の音声会話処理方法のフロー100は、以下のステップを含む。
【0021】
ステップ101では、会話フロー設計クライアント側10が会話フロー設計要求を生成する。
【0022】
会話フロー設計クライアント側10は、メーカー音声業務マンのユーザ操作を受け付け、且つユーザ操作に応じて対応する会話フロー設計要求を生成する。会話フロー設計要求は、既に設計された1つ又は複数の会話ストリームに対する要求指令であってもよく、会話ストリームは、所定順番を持つ複数の会話ノードを含んでもよい。
【0023】
例示として、メーカー音声業務マンは、会話フロー設計クライアント側10において1つの会話項目に対する複数の会話フローを描画し、且つこれらの複数の会話フローに基づいて会話フロー設計要求を生成してもよい。また、会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成されてもよい。このように、メーカー音声業務マンは、会話ノード枠をドラッグすることにより、会話フローを構築することを迅速に実現することができる。
【0024】
ステップ102では、会話フロー設計クライアント側10は、会話フロー設計要求を会話フロー設計サーバ側20へ送信する。
【0025】
ステップ103では、会話フロー設計サーバ側20は、会話フロー設計要求に基づいて会話業務カスタマイズファイルを生成する。
【0026】
例示として、会話フロー設計サーバ側20は、会話フロー設計要求における少なくとも1つの会話ストリームを解析し、且つ会話ストリーム中の各規則的なノードのノード内容及びノードタイプを自動的に認識し、会話業務カスタマイズファイルを生成する。当該会話業務カスタマイズファイルは、jsonファイルであってもよい。ここで、会話フロー設計サーバ側20は、会話フロー設計クライアント側10との間の複数回のインタラクション操作(例えば、複数の会話フロー設計要求)により会話業務カスタマイズファイルを特定してもよい。
【0027】
ステップ104では、会話フロー設計サーバ側20は、会話業務カスタマイズファイルを音声顧客サービスサーバ側30へ送信する。
【0028】
ステップ105では、音声顧客サービスサーバ側30は、会話業務カスタマイズファイルに基づいて会話管理エンジンをトレーニングする。
【0029】
ここで、音声顧客サービスサーバ側30は、会話業務カスタマイズファイルに基づいて会話管理エンジンに対するトレーニングサンプルセットを生成し、更にトレーニングサンプルセットを利用して会話管理エンジンをトレーニングしてもよい。
【0030】
ステップ106では、ユーザ端末40は、ユーザ音声を音声顧客サービスサーバ側30へ送信する。
【0031】
ここで、会話管理エンジンは、トレーニングされた後でオンラインすることができる。その際、オンライン後の音声顧客サービスサーバ側は、ユーザ端末からのユーザ音声を受信してユーザへサービスを提供してもよい。
ステップ107では、音声顧客サービスサーバ側30は、ユーザ音声に対する顧客サービス音声を特定する。
【0032】
音声顧客サービスサーバ側30は、処理すべきユーザ音声に対応する音声意味を特定してもよく、例えばASR(Automatic Speech Recoarition、音声認識)機能モジュール及びNLU(Natural Language Understanding、自然言語理解)機能モジュールを応用することにより実現される。次に、音声顧客サービスサーバ側30は、会話管理エンジンを呼び出すことで音声意味に対する応答文を特定し、且つ特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。応答文を利用して顧客サービス音声を生成する過程において、音声顧客サービスサーバ側30は、NLG(Natural Language Generation、自然言語生成)機能モジュール及びTTS(Text To Speech、音声合成)機能モジュールを応用することにより実現することができる。
【0033】
ステップ108では、音声顧客サービスサーバ側30は、顧客サービス音声をユーザ端末40へ送信する。
【0034】
理解できるように、顧客サービス音声が複数回提供されるように、上記ステップ106~108は、望ましいサービスがユーザへ提供されるまで、繰り返されてもよい。また、
図1に示す実施例は、例示に過ぎず、上記フローにおける一部のステップは、選択可能又は置換可能である。例えば、音声顧客サービスサーバ側は、更にローカルで会話業務カスタマイズファイルを直接取得してもよい。
【0035】
図2は、本発明の実施例の音声顧客サービスサーバ側30に用いられる音声会話処理方法の一例におけるフローであり、以下のステップを含む。
【0036】
ステップ201では、処理すべきユーザ音声に対応する音声意味を特定する。
【0037】
ステップ202では、会話管理エンジンに基づいて音声意味に対する応答文を特定し、会話管理エンジンは、汎用会話管理モデル及び業務会話管理モデルを含む。
【0038】
ステップ203では、特定された応答文に基づいて、ユーザ音声に応答するための顧客サービス音声を生成する。
【0039】
本実施例において、会話管理エンジンは、汎用会話を処理するための汎用会話管理モデルと、専用業務を処理するための業務会話管理モデルとを含む。汎用会話管理モデルは、異なる複数の業務顧客サービス項目で共有してコードロジックを多重化することができ、顧客サービスシステムの開発効率を向上させる。
【0040】
スマート顧客サービスのコールセンターシーンにおいて、電話には、常に「うん」、「あぁ」、「もしもし」のような特定の電話話し言葉返信が伴う。且つ、電話中においてユーザが挨拶、中断、リピート、解釈等の汎用型の会話要求を行うことが常に伴う。しかし、現在のAI会話システムは、コールセンターシーンにおいてこのような会話要求に対して最適化処理を行うことが少なく、顧客サービスのサービスプロセスが凝りすぎてユーザ体験に影響を与える。
【0041】
本発明の実施例における汎用会話管理モデルにより、上記会話要求を好適に処理し、ユーザ体験を向上させることができる。ユーザ音声の音声意味の指すユーザの意図を特定し、且つそれが汎用意図セットに属する場合に、汎用会話管理モデルを使用して前記ユーザ意図に対する汎用会話操作を実行する。汎用会話操作は、オペレーターに繋ぐ操作、繰り返し放送操作、会話退出操作及び感嘆詞処理操作のうちのいずれか1種を含む。
【0042】
表1は、汎用意図セットにおける各汎用意図について実行される汎用会話操作に係る関連フローの記述を示す。
【0043】
【0044】
幾つかの実施形態において、ユーザ意図が汎用意図セットに属さないときに、業務会話管理モデルを使用して、以下の業務操作、即ち、ユーザ意図に対応する目標会話ストリームを特定することと、特定された目標会話ストリームにおける会話ノードに基づいて応答文を特定することと、を実行して応答文を特定する。
【0045】
例示として、会話ノードは、会話開始ノード、ユーザコミュニケーションノード、ユーザ情報認識ノード及びスロットフィリングノードを含む。会話開始ノードは、会話ストリームが開始するノードである。ユーザコミュニケーションノードは、顧客サービスがユーザとコミュニケーションを行う必要のあるノードである。ユーザ情報認識ノードは、他のサービスAPIを呼び出すことにより(例えば、関数により)ユーザ情報を認識するものであってもよい。スロットフィリングノードは、最終的に収集された情報を対応するスロット位置に追加するノードである。このように、ユーザ意図に基づいて目標会話ストリーム中の対応する会話ノードを呼び出すことができ、それにより対応する操作を実行して応答文を特定する。
【0046】
図3に示す会話フローを参照する。ユーザ音声が顧客サービスプラットフォームに導入されたときに、会話フロー中のユーザ情報認識ノードにより旧ユーザであるか否かを直接認識する。旧ユーザであれば、ユーザが履歴宅配記録に指示された地点で注文するか否かを直接問い合わせ、新ユーザであれば、会話フロー中のユーザコミュニケーションノードを呼び出してユーザの出荷先を問い合わせてもよい。音声認識技術を利用してユーザフィードバック音声における出荷アドレスを取得した後、スロットフィリング操作を完了し、認識されなかった又はスロットフィリングに成功しなかった場合に、オペレーターに繋ぐ処理へ移行してもよい。
【0047】
図4は、本発明の一実施例に適用される音声会話処理方法の例示的な原理アーキテクチャを示し、全体的にオンラインAI会話システム及びオフラインDM(Dialogue Management、会話管理)カスタマイズプラットフォームを含む。ここで、オンラインAI会話システムのアクセスサービスモジュールは、sipプロトコル(session initiation protocol、セッション開始プロトコル)によってユーザクライアントのcall centerに合わせることにより、ユーザクライアント側で指示されたユーザへサービスを提供する。
【0048】
また、オンラインAI会話システムの内部に幾つかの大きなユニットモジュールがあり、それらは、ASRモジュール、NLUモジュール、NLGモジュール、TTSモジュール及びDMエンジンを含む。DMエンジンは、業務DMと汎用DMに分けられる。
【0049】
本発明の実施例において、コールセンターシーンについて、AI会話システムにおける会話管理を業務型DMと汎用型DMの2種類に分ける。業務DMは、具体的な業務フローに関連する会話管理である。汎用DM設計は、マンマシン会話プロセスの汎用の会話管理を処理するために、会話全体をよりスムーズにするが、具体的な業務シーン及び知識に係らない。
【0050】
コールセンターシーンの電話会話において、比較的に通常な会話、例えば、挨拶、中断、リピート、解釈等が非常に多い。表1に示すように、これらは、汎用DMを用いてこれらの汎用型の会話ロジックを処理することができる。汎用DMは、汎用モジュールとして任意の業務DMの前側に埋め込まれ、会話を人と人の間のチャットコミュニケーションの効果に更に近づけることができる。このような設計は、ユーザ体験を改善するだけでなく、異なるシーンDMのカスタマイズ開発コストを節約することができる。
【0051】
図5は、本発明の実施例のオンラインAI会話システムにおけるDMエンジンがモデリングを行う原理プロセスを示す。業務DMの迅速なカスタマイズを実現するために、会話管理におけるキー要素をモデリングすることにより、業務型会話フローは、jsonファイル方式で記述することができる。具体的な記述は、以下のようになる。
シーン(Bot):即ち、会話ロボットであり、ある顧客サービス項目として理解されてもよい。
【0052】
会話ストリーム(Flow):あるタスクを実施する会話フローである。1つの項目は、1つ又は複数の会話ストリームで構成される。
【0053】
会話ノード(Node):会話ストリームにおけるあるラウンドの会話であって、異なるノードタイプ、例えば、開始ノード、ユーザコミュニケーションノード、スロットフィリングノード、ユーザ情報認識ノード等を提供する。開始ノードは、当該会話ストリームの開始ノードであり、ユーザコミュニケーションノードは、次のラウンドの会話であり、スロットフィリングノードは、スロット位置を収集するために設計された特殊なノードであってスロット位置情報を補完するために用いられ、ユーザ情報認識ノードは、他のサービスAPIアクセスをカプセル化する。
【0054】
具体的な操作(Operation):会話ノードに係る具体的な操作、例えば、当該会話ノードがユーザへ返信する話術、用いられるユーザの発話を解析する意図リスト、ジャンプロジック等である。したがって、会話ノードが特定された後、会話ノードにより指示された内容及びタイプに直接応じて対応する具体的な操作を行ってもよい。
【0055】
図4の例を参照し、オフラインDMカスタマイズプラットフォームにより会話フローを設計する。オフラインDMカスタマイズプラットフォームは、会話設計ツール及び会話テストツールを含み、グラフィカルドラッグの方式を提供して会話設計及びテストを行う。オフラインDMカスタマイズプラットフォームは、項目の会話をjsonフォーマットのファイルとして生成する。オンラインDMエンジンは、当該ファイルをロードし、AI会話ロボットを生産し、オンライントラフィックにサービスする。
【0056】
図6は、会話フロー設計サーバ側に用いられる音声顧客サービス方法のフローを示す。会話フロー設計サーバ側と会話フロー設計クライアント側とのインタラクション操作により会話フローを迅速にカスタマイズし且つ対応する会話業務カスタマイズファイルを構築することを実現する。当該方法は、以下のステップを含む。
【0057】
ステップ601では、会話フロー設計クライアント側からの会話フロー設計要求を取得し、且つ会話フロー設計要求に対応する少なくとも1つの会話ストリームを特定する。会話ストリームは、所定順番を持つ複数の会話ノードを含む。
【0058】
ステップ602では、少なくとも1つの会話ストリームに基づいて会話業務カスタマイズファイルを生成する。
【0059】
ステップ603では、会話業務カスタマイズファイルを音声顧客サービスサーバ側に送信して会話管理エンジンに関するトレーニングサンプルセットを構築することにより、音声顧客サービスサーバ側が会話管理エンジンに基づいて音声サービスを実行するようにする。
【0060】
会話フロー設計クライアント側は、ユーザによる会話ノード枠のドラッグ調整が可能なグラフィックスインタフェースを有するように構成される。会話フロー設計クライアント側10は、メーカー開発者による前記グラフィックスインタフェースに対するユーザ操作を受け付けて対応する前記会話フロー設計要求を生成する。このように、メーカーは、クライアントグラフィックスインターフェースのドラッグ方式を開発することで業務型会話ストリームを生成することにより、対応するjsonファイルを生成し、業務型DMカスタマイズを迅速に完了することができる。
【0061】
以下では、
図7A~7Zにおける開発クライアント側スクリーンショットを参照して
図3に示す具体的な宅配顧客サービスシーンにおいて会話フロー設計クライアント側10でDMを行う例を説明する。
【0062】
図7Aに示すように、左側をクリックして新たなシーン部分を作成し、ダイアログボックスをポップアップし、「シーン名」及び「シーン記述」を入力する。ここで、1つのシーンは、1つの顧客サービス項目を表してもよい。
【0063】
次に、
図7Bに示すように、会話ストリームを新規作成する。作成されたシーン「宅配」をクリックし、以下のページに進む。左側から順に以下のとおりである。1)シーン配置:シーン名、製品ID、グローバル変数追加、汎用フロー追加等を含む。2)会話ストリームカスタマイズ:このページで会話ストリームを描画する。3)意図カスタマイズ:ユーザ発話から解析された意図を追加する。4)会話テスト:構築されたモデルをテストする。5)botデバッグ:可視化ツールで構築された会話ストリームモデルによって自動的に生成されたコードに対して修正及びデバッグを行う。
【0064】
会話フロー配置をクリックして
図7Cに示すユーザインターフェースに入る。その際、会話ストリーム「ピックアップアドレス収集」を新規作成する。クリックした後のインターフェースは、以下の図のようになる。右側に4種のノードを提供し、当該4種のノードは、それぞれ、開始ノード(又はスタートノード)、会話ノード(又はユーザコミュニケーションノード)、関数ノード(又はユーザ情報認識ノード)及びスロットフィリングノードである。
【0065】
ノード配置過程において、まず開始ノードに対応する「前置き」を追加する(例えば、
図7D)。
図7Eに示すインターフェースのスクリーンショットを参照し、具体的な操作は、以下を含む。1)右側の「開始ノード」をクリックし、パネルに開始ノードを追加する。2)開始ノードでの「編集」をクリックする。3)「基本設定」により:ノードの名称を「前置き」に変更し、話術テキスト「こんにちは、ここはxx宅配便」を追加する。4)「ジャンプリンク」により:新たなジャンプロジック「へジャンプ」を追加し、次のノードを選択してジャンプする(次のノードを追加した後こそ、初めてジャンプすることができ、このステップを先にスキップしてもよい)。
【0066】
次に、関数ノード「新旧顧客判断」を追加する。
図7Fに示すように、「関数ノード」をクリックし、パネルに関数ノードを作成する。これは、以下のステップを含む。1)クリックして編集し、基本設定では、ノードの名称を「新旧顧客判断」に修正し、関数記述「この携帯番号が履歴注文を所有するか否かを判断する」を追加して保存する。2)開始ノード-関数ノードのジャンプを完了する:「新旧顧客判断」を選択してジャンプし、会話ノードの間のリンクが出現することを見ることができる。3)「シーン配置」に移行し、2つのグローバル変数:phone_num、historical_ordersを新規作成する。同時にこのページに汎用DMフローを追加することができ、
図7Gに示すように、使用可能な汎用フローをチェックする。4)会話ストリームに戻り、
図7Hに示すように、「関数ノード」の基本設定を編集し、パラメータ設定「phone_num」を入力し、パラメータ設定「historical_orders」に戻る。
【0067】
次に、
図7I-Mに示すように、ユーザコミュニケーションノード「この地点で注文?」及び「出荷先を問い合わせる」を追加する。1)2つのユーザコミュニケーションノードを追加し、「編集-基本設定-ノード名」によって「この地点で注文?」及び「出荷先を問い合わせる」とリネームする。2)「新旧顧客判断」を編集し、ジャンプリンクを設定する。下方の「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数-履歴発注状態isNotEmpty」を設定して「この地点で注文?」にジャンプし、再び「新たなジャンプロジックを追加する」をクリックし、条件「グローバル変数-履歴発注状態isEmpty」を設定して「出荷先を問い合わせる」にジャンプする。保存する。3)
図7Jに示すように、「意図カスタマイズ」に移行し、新たな業務意図を追加し、業務意図「はい」、「いいえ」を追加する。4)会話フローカスタマイズに戻り、会話ノード「この地点で注文?」を編集し、話術テキスト「システムは、最近、XX市XX区XX路XX号に物品を送ったことがあると検索で分かり、このアドレスをまだ使用しますか?」を入力する。5)業務意図「はい」、「いいえ」を追加する。6)「出荷先を問い合わせる」を編集し、話術「あなたの出荷先がどこにありますか?」を追加する。
【0068】
次に、
図7N及び7Oに示すように、会話ノード「アドレス情報を受信した」を追加する。1)放送会話ノード「アドレス情報を受信した」を追加し、基本設定を修正し、話術「はい、宅配便のお兄さんが宅配便を受け取るのを待ってください。楽しく過ごしてください」を追加し、「放送後の操作」を「会話完了」に修正して保存する。2)「この地点で注文?」を編集してジャンプリンクを設定し、条件「業務意図contains確定」を設定して「アドレス情報を受信した」にジャンプし、条件「業務意図contains否定」を設定して「出荷先を問い合わせる」にジャンプする。
【0069】
次に、
図7P-7Uに示すように、スロットフィリングノード(「スロットフィリング:出荷先」を追加する。1)スロットフィリングノードを追加し、「スロットフィリング:出荷先」とリネームし、会話ノード「出荷先を問い合わせる」を編集し、ジャンプリンクを設定し、「スロットフィリング:出荷先」にジャンプする。2)シーン配置に移行し、グローバル変数「出荷_都市」、「出荷_都道府県」、「出荷_ストリート」を新規作成する。3)意図カスタマイズに移行し、意図「ストリートのみを話した」、「都道府県のみを話した」、「都市のみを話した」、「ストリートと都道府県のみを話した」、「都道府県と都市のみを話した」、「ストリートと都市のみを話した」を新規作成する。4)会話ストリームカスタマイズに戻り、「スロットフィリング:出荷先」を編集し、基本設定をクリックし、以上の6つの意図を追加する。5)「スロットフィリング:出荷先」を編集し、スロット位置配置をクリックし、新たなスロット位置変数を追加し、スロットフィリングを必要とする変数-出荷_都市、必須選択、意図-「ストリートのみを話した」、「都道府県のみを話した」、「ストリート及び都道府県のみを話した」を順に設定し、逆質問文「どの都市にありますか?」を入力し、最大逆質問回数を2に設定する。6)同様に他の2つのスロット位置変数を追加する。
【0070】
次に、
図7V及び7Wに示すように、会話ノード「オペレーターに繋げ」を追加する。1)会話ノード「オペレーターに繋げ」を追加することを含む。話術を設定し、会話完了を選択する。2)「スロットフィリング:出荷先」を編集し、ジャンプリンクをクリックする。条件「スロットフィリングに成功した」の場合に、「アドレス情報を受信した」にジャンプし、条件「スロットフィリングに失敗した」の場合に、「オペレーターに繋げ」にジャンプする。これにより、以上の会話ストリームを完了する。最終的に得られた会話ストリームの結果は、
図7Xに示される。
【0071】
次に、ローカルに保存する。
図7Yに示すように、「シーン配置-DMファイル導出」によりjsonファイルをローカルに保存してもよい。
【0072】
幾つかの実施形態において、機能の完備性が保証されるように、構築された会話ストリームをローカルにテストしてもよい。
図7Zに示すように、「会話テストクリック-テスト発表-ユーザ音声入力」によってテスト操作を実行する。
【0073】
本発明の実施例において、高速カスタマイズプラットフォームを提供し、コールセンターのインテリジェント音声開発速度を大幅に加速し、開発コストを著しく低減することができ、それによりコールセンター業界全体のインテリジェント化レベルに影響を与える。
【0074】
図8に示すように、本発明の一実施例の音声会話処理装置800は、音声意味特定手段810、会話管理エンジン呼出手段820及び顧客サービス音声生成手段830を備える。音声意味特定手段810は、処理すべきユーザ音声に対応する音声意味を特定し、会話管理エンジン呼出手段820は、会話管理エンジンに基づいて前記音声意味に対する応答文を特定する。会話管理エンジンのトレーニングサンプルセットは、少なくとも1つの会話ストリームを含む会話業務カスタマイズファイルを基に構築され、且つ会話ストリームは、所定順番を持つ複数の会話ノードを含む。顧客サービス音声生成手段830は、特定された応答文に基づいてユーザ音声に応答するための顧客サービス音声を生成する。
【0075】
上記本発明の実施例の装置は、本発明における対応する方法実施例を実行し、上記本発明の方法実施例の奏する技術的効果を有することができ、ここで繰り返し説明しない。
【0076】
本発明の実施例では、ハードウェアプロセッサ(hardware processor)を介して関連機能モジュールを実現してもよい。
【0077】
別の態様において、本発明の実施例は、記憶媒体を提供する。当該記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上述したサーバで実行されるローカルの管理方法のステップは、実施される。
【0078】
上記製品は、本発明の実施例に係る方法を実行可能であり、方法を実行する関連機能モジュール及び有利な作用効果を有する。本実施例において詳しく記述されていない技術的詳細は、本発明の実施例に係る方法を参照可能である。
【0079】
本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。
【0080】
(1)モバイル通信デバイス:これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン(例えば、iphone(登録商標))、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。
【0081】
(2)ウルトラモバイルパソコンデバイス:これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、iPad(登録商標)などのPDA、MID及びUMPCデバイスなどを含む。
【0082】
(3)ポータブルエンターテイメントデバイス:これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー(例えば、iPod(登録商標))、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。
【0083】
(4)データー交換機能を備えたその他の電子デバイス。
上記の装置の実施形態は、例示的だけであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、 一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。
【0084】
上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイスなどである)に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。