IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユニロボット株式会社の特許一覧

<>
  • 特許-自動対話のためのシステム 図1
  • 特許-自動対話のためのシステム 図2
  • 特許-自動対話のためのシステム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-06
(45)【発行日】2023-01-17
(54)【発明の名称】自動対話のためのシステム
(51)【国際特許分類】
   G06F 3/16 20060101AFI20230110BHJP
   G06F 3/0481 20220101ALI20230110BHJP
【FI】
G06F3/16 650
G06F3/0481
【請求項の数】 11
(21)【出願番号】P 2022165681
(22)【出願日】2022-10-14
【審査請求日】2022-10-14
【早期審査対象出願】
(73)【特許権者】
【識別番号】514317496
【氏名又は名称】ユニロボット株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】前田 佐知夫
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2007-033478(JP,A)
【文献】特開2005-038067(JP,A)
【文献】特開2021-009434(JP,A)
【文献】特開2019-185474(JP,A)
【文献】特許第6990472(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/16
G06F 3/048-3/04895
(57)【特許請求の範囲】
【請求項1】
グラフィックユーザインタフェースを表すGUIデータと、対話のシナリオを表すシナリオデータとを記憶する記憶手段と、
ユーザが使用する端末装置にGUIデータと、発話の内容を表すシステム発話データとを送信する送信手段と、
前記端末装置が前記送信手段から受信したGUIデータを用いて表示したグラフィックユーザインタフェースに対し前記ユーザが入力した入力データと、前記端末装置が当該グラフィックユーザインタフェースを表示しているときに前記ユーザが発話した内容を表すユーザ発話データとを受信する受信手段と、
前記受信手段が入力データ又はユーザ発話データを受信すると、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されているシナリオデータに従い、前記送信手段が前記端末装置に送信すべきシステム発話データを決定する決定手段と
を備え、
前記送信手段は、前記決定手段が決定したシステム発話データを前記端末装置に送信し、
前記記憶手段が記憶しているGUIデータは、複数の異なる項目に関する入力欄を同時に表示し、表示する複数の異なる項目の全てに関し、前記送信手段が前記端末装置に送信するシステム発話データが表す発話の内容に応じた項目であるか否かにかかわらず、前記ユーザによる入力データの入力、及び、前記ユーザによる発話を受け付けるユーザグラフィックユーザインタフェースを表す
システム。
【請求項2】
前記記憶手段は複数のGUIデータを記憶し、
前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されている複数のGUIデータの中から前記送信手段が前記端末装置に送信すべきGUIデータを選択する選択手段を備え、
前記送信手段は、前記選択手段が選択したGUIデータを前記端末装置に送信する
請求項1に記載のシステム。
【請求項3】
前記記憶手段は複数のシナリオデータを記憶し、
前記決定手段は、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、前記送信手段が前記端末装置に送信するシステム発話データを決定する
請求項1に記載のシステム。
【請求項4】
前記記憶手段に記憶されているGUIデータが表すグラフィックユーザインタフェースは、前記端末装置が前記送信手段から受信したシステム発話データを用いて発した音声の内容と、当該音声に応じて前記ユーザが発話した内容とを表示する領域を含む
請求項1に記載のシステム。
【請求項5】
前記送信手段は、前記端末装置が表示しているグラフィックユーザインタフェースに対し、前記受信手段が受信したユーザ発話データに応じた処理を指示する指示データを前記端末装置に送信する
請求項1に記載のシステム。
【請求項6】
前記記憶手段に記憶されているGUIデータは、前記端末装置が前記送信手段から受信したシステム発話データを用いて発した音声に応じて前記ユーザが発話した内容を表すユーザ発話データに応じた処理を、当該GUIデータを用いて前記端末装置が表示しているグラフィックユーザインタフェースに対し行わせるプログラムを含む
請求項1に記載のシステム。
【請求項7】
前記記憶手段は複数のシナリオデータを記憶し、
前記ユーザの属性を示すユーザ属性データを取得する取得手段を備え、
前記決定手段は、前記取得手段が取得したユーザ属性データに基づき、前記記憶手段に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、前記送信手段が前記端末装置に送信するシステム発話データを決定する
請求項1に記載のシステム。
【請求項8】
前記送信手段が過去に前記ユーザの端末装置に送信したデータと、前記受信手段が過去に前記ユーザの端末装置から受信したデータとに基づき、前記ユーザの属性を特定し、特定した属性を示すユーザ属性データを生成する生成手段を備え、
前記取得手段は前記生成手段が生成したユーザ属性データを取得する
請求項に記載のシステム。
【請求項9】
前記生成手段は、前記ユーザの現在の感情を前記ユーザの属性として特定し、当該感情を示すユーザ属性データを生成する
請求項に記載のシステム。
【請求項10】
前記ユーザを第1のユーザとし、前記システムにより前記第1のユーザと情報交換を行うユーザを第2のユーザとするとき、
前記記憶手段は、前記第2のユーザによる変更が許可されていないGUIデータであるパブリックGUIデータと、前記第2のユーザによる変更が許可されているGUIデータであるプライベートGUIデータを記憶し、
前記受信手段が前記第2のユーザが使用する端末装置から受信するデータに基づき、前記記憶手段が記憶するプライベートGUIデータを変更する変更手段を備える
請求項1に記載のシステム。
【請求項11】
前記ユーザを第1のユーザとし、前記システムにより前記第1のユーザと情報交換を行うユーザを第2のユーザとするとき、
前記記憶手段は、前記第2のユーザによる変更が許可されていないシナリオデータであるパブリックシナリオデータと、前記第2のユーザによる変更が許可されているシナリオデータであるプライベートシナリオデータを記憶し、
前記受信手段が前記第2のユーザが使用する端末装置から受信するデータに基づき、前記記憶手段が記憶するプライベートシナリオデータを変更する変更手段を備える
請求項1に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザと自動対話するシステムに関する。
【背景技術】
【0002】
企業が顧客からの問い合わせに応じたり、企業が顧客に対し情報サービスを提供したりする際の労力、費用等を削減する目的で、近年、チャットボットと呼ばれる自動対話のシステムが普及しつつある。チャットボットは、インターネット等のネットワークを介して、ユーザが端末装置に入力した質問を取得し、その質問に応じた回答を、例えば人工知能を用いて特定し、特定した回答をユーザの端末装置に送信する、という処理を繰り返すことによって、ユーザとの間で情報のやりとりを行う。
【0003】
例えば、特許文献1には、ユーザ毎に設定を行うことでユーザに応じたサービス提供を行うチャットボット(ソフトウェアロボットプログラム)に関する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-160192号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
通常、チャットボットとユーザとの対話は、ユーザの発話とチャットボットの発話が交互に繰り返される形で行われる。そのため、ユーザは、知りたい情報をチャットボットから得るために、多くの発話を行わなければならない場合がある。また、ユーザは、チャットボットを介して企業等に提供したい情報をチャットボットに伝えるまでに、多くの対話を行わなければならない場合がある。
【0006】
上記の事情に鑑み、本発明は、従来技術と比較し、ユーザが効率的に情報交換を行える自動対話の仕組みを提供する。
【課題を解決するための手段】
【0007】
本発明は、グラフィックユーザインタフェースを表すGUIデータと、対話のシナリオを表すシナリオデータとを記憶する記憶手段と、ユーザが使用する端末装置にGUIデータと、発話の内容を表すシステム発話データとを送信する送信手段と、前記端末装置が前記送信手段から受信したGUIデータを用いて表示したグラフィックユーザインタフェースに対し前記ユーザが入力した入力データと、前記端末装置が当該グラフィックユーザインタフェースを表示しているときに前記ユーザが発話した内容を表すユーザ発話データとを受信する受信手段と、前記受信手段が入力データ又はユーザ発話データを受信すると、前記受信手段が受信した入力データと前記受信手段が受信したユーザ発話データとのいずれかに基づき、前記記憶手段に記憶されているシナリオデータに従い、前記送信手段が前記端末装置に送信すべきシステム発話データを決定する決定手段とを備え、前記送信手段は、前記決定手段が決定したシステム発話データを前記端末装置に送信し、前記記憶手段が記憶しているGUIデータは、複数の異なる項目に関する入力欄を同時に表示し、表示する複数の異なる項目の全てに関し、前記送信手段が前記端末装置に送信するシステム発話データが表す発話の内容に応じた項目であるか否かにかかわらず、前記ユーザによる入力データの入力、及び、前記ユーザによる発話を受け付けるユーザグラフィックユーザインタフェースを表すシステムを提供する。
【発明の効果】
【0008】
本発明のシステムを利用するユーザは、GUI(Graphical User Interface)とVUI(Voice User Interface)の両方を適宜使い分けながら、システムと対話できる。その結果、ユーザは、システムとの間で効率的に情報交換を行うことができる。
【図面の簡単な説明】
【0009】
図1】一実施形態に係るコミュニケーションシステムの全体構成を示した図。
図2】一実施形態に係るエンドユーザ端末装置がUI管理サーバ装置から受信するデータに従い表示するWebページを例示した図。
図3】一実施形態に係るUI管理サーバ装置の機能構成を示した図。
【発明を実施するための形態】
【0010】
[実施形態]
以下に、本発明の一実施形態に係るコミュニケーションシステム1を説明する。図1は、コミュニケーションシステム1の全体構成を示した図である。コミュニケーションシステム1は、UI(User Interface)管理サーバ装置11、音声合成サーバ装置12、音声認識サーバ装置13、Web配信サーバ装置14、管理者端末装置15、企業ユーザ端末装置16、及び、エンドユーザ端末装置17を備える。
【0011】
管理者端末装置15、企業ユーザ端末装置16、及び、エンドユーザ端末装置17は、通信機能を備えた一般的な端末装置である。これらの端末装置のハードウェアは、プロセッサ、メモリ、通信IF(Interface)、ディスプレイ、キーボード等の入力デバイスを備えるコンピュータであり、メモリに記憶されているプログラムに従うデータ処理をプロセッサが実行することにより、コミュニケーションシステム1を構成する端末装置として機能する。
【0012】
また、エンドユーザ端末装置17のハードウェアは、ユーザとの間で音声による対話を行うために、マイクとスピーカを備えている。
【0013】
管理者端末装置15は、UI管理サーバ装置11の管理者Mが使用する端末装置であり、インターネット等のネットワークを介してUI管理サーバ装置11と通信を行う。
【0014】
企業ユーザ端末装置16は、コミュニケーションシステム1を介してエンドユーザに対し情報提供サービスを行う企業Pの職員であるユーザX(第2のユーザの一例)が使用する端末装置であり、インターネット等のネットワークを介してUI管理サーバ装置11及びWeb配信サーバ装置14と通信を行う。
【0015】
エンドユーザ端末装置17は、コミュニケーションシステム1を介して企業から情報提供サービスを受けるエンドユーザであるユーザA(第1のユーザの一例)が使用する端末装置であり、インターネット等のネットワークを介してUI管理サーバ装置11及びWeb配信サーバ装置14と通信を行う。
【0016】
UI管理サーバ装置11、音声合成サーバ装置12、音声認識サーバ装置13、及び、Web配信サーバ装置14は、一般的なサーバ装置である。これらのサーバ装置のハードウェアは、プロセッサ、メモリ、通信IF(Interface)を備えるコンピュータであり、メモリに記憶されているプログラムに従うデータ処理をプロセッサが実行することにより、コミュニケーションシステム1を構成するサーバ装置として機能する。
【0017】
音声合成サーバ装置12は、UI管理サーバ装置11からの要求に応じて、当該要求に含まれるテキストデータが示す文章を人間が発話した場合の音声を表す音声データを、既知の音声合成技術により生成し、生成した音声データをUI管理サーバ装置11に送信するサーバ装置である。
【0018】
音声認識サーバ装置13は、UI管理サーバ装置11からの要求に応じて、当該要求に含まれる音声データが表す音声が示す文章を、既知の音声認識技術により認識し、認識した文章を示すテキストデータをUI管理サーバ装置11に送信するサーバ装置である。
【0019】
Web配信サーバ装置14は、エンドユーザ端末装置17に対し、Webページを表示するためのデータ(HTMLデータ等。以下、「Webページデータ」という。)を送信するサーバ装置である。ユーザXは、例えば企業ユーザ端末装置16を用いて、企業PのWebページを表示するためのWebページデータ(以下、「WebページデータW」という)をWeb配信サーバ装置14にアップロードしている。Web配信サーバ装置14は、エンドユーザ端末装置17からの要求に応じて、WebページデータWをエンドユーザ端末装置17に送信する。エンドユーザ端末装置17は、Web配信サーバ装置14から受信したWebページデータWに従い、企業PのWebページを表示する。
【0020】
企業PのWebページには、企業Pがエンドユーザとの間で行う対話を代行する自動応答用のWebページ(以下、「自動応答用Webページ」という)へのリンクが含まれている。ユーザAが、企業PのWebページに表示される所定のボタンに対しクリック、タップ等の操作を行うと、そのボタンにリンクされているURL(Uniform Resource Locator)に従い、エンドユーザ端末装置17はUI管理サーバ装置11に対しWebページデータの要求を行う。この要求に応じて、UI管理サーバ装置11は、企業Pの自動応答用Webページを表示するためのWebページデータ(以下、「WebページデータZ」という)をエンドユーザ端末装置17に送信する。エンドユーザ端末装置17は、UI管理サーバ装置11から受信したWebページデータZに従い、企業Pの自動応答用Webページ(以下、「WebページQ」という)を表示する。
【0021】
なお、エンドユーザ端末装置17においてWebページQが表示される際、WebページQのリンク元のWebページは開かれたままでもよいし、閉じられてもよい。また、前者の場合、WebページQがリンク元のWebページを親ページとする子ページとして、リンク元のWebページ内に表示されてもよい。また、WebページQのリンク元のWebページからWebページQへの遷移は、エンドユーザによる操作をトリガとせず、リダイレクトにより行われてもよい。
【0022】
上記のように、UI管理サーバ装置11は、エンドユーザ端末装置17からの要求に応じて、WebページQを表示するためのWebページデータZをエンドユーザ端末装置17に送信するサーバ装置である。図2は、UI管理サーバ装置11が送信するWebページデータZに従いエンドユーザ端末装置17が表示するWebページQを例示した図である。
【0023】
WebページQには、エンドユーザがデータを入力するためのテキストボックス、リストボックス、コンボボックス等の入力欄を含む領域A1と、エンドユーザがWebページQを介してUI管理サーバ装置11との間で音声により行った対話の内容(すなわち、エンドユーザ端末装置17がUI管理サーバ装置11から受信したシステム発話音声データを用いて発した音声の内容と、当該音声に応じてユーザAが発話した内容)を示すテキストが表示される領域A2が含まれている。以下、領域A2に表示される情報をチャットログという。
【0024】
領域A1には、通常、複数の異なる項目に関する入力欄が含まれる。なお、ユーザAによる入力は、文字等の入力に限られず、例えば選択肢の中からの選択等の、エンドユーザ端末装置17に対しユーザAが望む情報を取得させる操作全般を意味する。
【0025】
図2に例示のWebページQは、企業Pが経営しているレストランRの予約受付用のWebページである。エンドユーザ端末装置17はWebページデータZに従い、WebページQを表示すると、まず、「お名前を教えて下さい。」という音声を発音するとともに、領域A1の「お名前」欄をハイライト表示し、また、領域A2にその発話内容を示すテキストを表示する。
【0026】
ユーザAがエンドユーザ端末装置17からの音声による質問に応じて、例えば「山田花子です。」と発声すると、エンドユーザ端末装置17は、領域A1内の「お名前」欄に「山田 花子」を自動入力するとともに、領域A2にその発話内容を示すテキストを追加表示する。
【0027】
なお、ユーザAの音声が誤認識されて、入力欄に誤ったデータが自動入力された場合、ユーザAはその入力欄に対し文字等の入力操作を行って、誤ったデータの訂正を行うことができる。
【0028】
続いて、エンドユーザ端末装置17は、「予約日を教えて下さい。」という音声を発音するとともに、領域A1の「日付」欄をハイライト表示し、また、領域A2にその発話内容を示すテキストを追加表示する。
【0029】
ユーザAがエンドユーザ端末装置17からの音声による質問に応じて、例えば「2月10日です。」と発声すると、エンドユーザ端末装置17は、領域A1内の「日付」欄に「2月10日」を自動入力するとともに、領域A2にその発話内容を示すテキストを追加表示する。
【0030】
上記のように、WebページQを介してユーザAとUI管理サーバ装置11との間の対話が行われ、領域A1に含まれる全ての入力欄に対するデータの入力が完了すると、WebページQに含まれる「予約確定」ボタンがアクティブ化される。ユーザAが領域A1に入力されているデータを確認し、問題がないと判断して「予約確定」ボタンに対しクリック、タップ等の操作を行うと、ユーザAによるレストランRの予約が完了する。
【0031】
なお、WebページQを介してユーザAにより行われた予約に関するデータ(名前、日付等)は、UI管理サーバ装置11からユーザXに、例えば電子メール、SNS(Social Networking Service)におけるトーク、Webページ等により通知される。
【0032】
ユーザAは、上記のように、発声によりWebページQに対するデータの入力を行ってもよいし、領域A1の入力欄に対し文字の入力、リスト表示される選択肢のいずれかの選択等の操作を行うことによってデータの入力を行ってもよい。すなわち、WebページQは、ユーザAに対しGUIとVUIの両方を同時に提供する。そして、ユーザAは、項目毎に、GUIとVUIのいずれを用いてデータの入力を行ってもよい。
【0033】
ところで、WebページQを介した予約において、ユーザAは必ずしもエンドユーザ端末装置17から発音される音声に応じた入力欄に対しデータの入力を行う必要はない。
【0034】
例えば、ユーザAが、まず希望するコースの選択肢があるかを確認した後に、希望するコースがあればレストランRへの予約を行いたい、と考えていたとする。この場合、ユーザAは、名前、日付、人数といった質問に応じる前に、領域A1に表示されている「コース予約」欄に対しクリック、タップ等の操作を行い、メニューボックスを開いて、レストランRが提供できるコースを確認することができる。もし、メニューボックスにユーザAが希望するコースの表示がなければ、ユーザAはレストランRの予約の作業を中止し、WebページQを閉じて、他のレストランを探せばよい。その場合、ユーザAは、WebページQにおいて、名前、日付、人数等の入力を無駄に行わなくて済む。
【0035】
また、ユーザAは、WebページQに表示されている入力欄の項目を見て、VUIによる質問を待たずに、例えば「私の名前は山田花子で、日付は2月10日で、人数は4人です。」と発話してもよい。この場合、領域A1の「名前」欄に「山田 花子」、「日付」欄に「2月10日」、「人数」欄に「4人」が自動入力され、「コース名」欄がハイライト表示される。その後、VUIにより、例えば「コース名を教えて下さい。」といった発話が行われる。
【0036】
なお、エンドユーザ端末装置17は、上記のようにユーザAが、その時に行っている質問に応じたデータの入力とは異なる動作(GUIに対する操作、又は、VUIに対する発声)を行った場合、エンドユーザ端末装置17は、その時々のユーザAの動作に応じた情報の表示や発声を行う。例えば、エンドユーザ端末装置17の「お名前を教えて下さい。」という発声に対し、ユーザAが「コース予約」欄に対し操作を行った場合、エンドユーザ端末装置17は、例えば「コース内容のご案内が必要ですか?」といった発声を行い、その音声に応じてユーザAが、例えば「はい、案内をお願いします。」といった発声を行うと、エンドユーザ端末装置17は、例えばWebページQに代えて、コース内容の案内ページを表示する。このように、エンドユーザ端末装置17は、ユーザAの動作に応じて、適宜GUI及びVUIを変更する。
【0037】
上述したエンドユーザ端末装置17の動作は、エンドユーザ端末装置17がUI管理サーバ装置11から受信するWebページデータに従い行われる。すなわち、エンドユーザ端末装置17の動作を決定しているのはUI管理サーバ装置11である。UI管理サーバ装置11は、エンドユーザ端末装置17に上述したようなGUI及びVUIを提供させるために、図3に示す機能構成を備えている。すなわち、UI管理サーバ装置11を構成するコンピュータのプロセッサが、本実施形態に係るプログラムに従うデータ処理を行うと、そのコンピュータが図3に示す構成を備えるUI管理サーバ装置11として動作する。以下に、UI管理サーバ装置11の機能構成を説明する。
【0038】
記憶手段111は、各種データを記憶する。記憶手段111が記憶するデータには、GUIを表すGUIデータと、対話のシナリオを表すシナリオデータが含まれる。
【0039】
本実施形態において、記憶手段111が記憶するGUIデータには、管理者Mが管理者端末装置15を用いてUI管理サーバ装置11にアップロードするパブリックGUIデータと、ユーザXが企業ユーザ端末装置16を用いてUI管理サーバ装置11にアップロードするプライベートGUIデータが含まれる。パブリックGUIデータは、ユーザXにより変更が許可されない。一方、プライベートGUIデータは、ユーザXによる変更が許可されている。
【0040】
また、本実施形態において、記憶手段111が記憶するシナリオデータには、管理者Mが管理者端末装置15を用いてUI管理サーバ装置11にアップロードするパブリックシナリオデータと、ユーザXが企業ユーザ端末装置16を用いてUI管理サーバ装置11にアップロードするプライベートシナリオデータが含まれる。パブリックシナリオデータは、ユーザXにより変更が許可されない。一方、プライベートシナリオデータは、ユーザXによる変更が許可されている。
【0041】
なお、ユーザXがプライベートGUIデータやプライベートシナリオデータを開発できるように、UI管理サーバ装置11が使用可能なGUIデータとシナリオデータの仕様(データフォーマット等)はユーザXに通知されている。なお、それらの仕様が広く公開されていてもよい。
【0042】
ユーザXは、管理者Mから提供されるパブリックGUIデータとパブリックシナリオデータを用いて汎用的なGUI及びVUIをエンドユーザに提供することもできるし、自らが開発したプライベートGUIデータとプライベートシナリオデータを用いて企業P用にカスタマイズされたGUI及びVUIをエンドユーザに提供することもできる。また、ユーザXは、パブリックGUIデータとプライベートGUIデータの両方を用いて一部に汎用的な部分を含む企業P用にカスタマイズされたGUIをエンドユーザに提供してもよい。同様に、ユーザXは、パブリックシナリオデータとプライベートシナリオデータの両方を用いて一部に汎用的な部分を含む企業P用にカスタマイズされたVUIをエンドユーザに提供してもよい。
【0043】
送信手段112は、音声合成サーバ装置12、音声認識サーバ装置13、管理者端末装置15、企業ユーザ端末装置16、及び、エンドユーザ端末装置17に対し、各種データを送信する。受信手段113は、音声合成サーバ装置12、音声認識サーバ装置13、管理者端末装置15、企業ユーザ端末装置16、及び、エンドユーザ端末装置17から、各種データを受信する。
【0044】
例えば、送信手段112は音声合成サーバ装置12に、決定手段114(後述)が決定した、エンドユーザ端末装置17に送信されるべき発話の内容をテキストで示すシステム発話テキストデータを含む要求を音声合成サーバ装置12に送信する。受信手段113は、その要求に対する応答として音声合成サーバ装置12から送信されてくるシステム発話音声データを受信する。なお、システム発話音声データは、システム発話テキストデータが示すテキストを発声した場合の音声を表すデータである。
【0045】
また、送信手段112はエンドユーザ端末装置17に、判定手段116(後述)が生成した、エンドユーザ端末装置17が表示しているGUIに対する処理を指示する指示データを送信する。
【0046】
また、受信手段113は、エンドユーザ端末装置17からユーザAが発話した音声を表すユーザ発話音声データを受信する。送信手段112は、受信手段113が受信したユーザ発話音声データを含む要求を音声認識サーバ装置13に送信する。受信手段113は、その要求に対する応答として音声認識サーバ装置13から送信されてくるユーザ発話テキストデータを受信する。なお、ユーザ発話テキストデータは、ユーザ発話音声データが表す文章を示すデータである。
【0047】
また、受信手段113は、エンドユーザ端末装置17からユーザAがエンドユーザ端末装置17に対する操作(文字入力、選択操作等)により入力したデータ(以下、「入力データ」という)を受信する。
【0048】
また、送信手段112は、エンドユーザ端末装置17からの要求に応じて、WebページデータZに例示されるWebページデータをエンドユーザ端末装置17に送信する。
【0049】
また、受信手段113は、管理者端末装置15からパブリックGUIデータとパブリックシナリオデータを受信する。
【0050】
また、受信手段113は、企業ユーザ端末装置16からプライベートGUIデータとプライベートシナリオデータを受信する。
【0051】
決定手段114は、いわゆる対話エンジンであり、受信手段113がエンドユーザ端末装置17から受信した入力データと、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データとのいずれかに基づき、記憶手段111に記憶されている複数のシナリオデータの中から使用するシナリオデータを選択し、選択したシナリオデータに従い、送信手段112がエンドユーザ端末装置17に送信すべき発話の内容を示すシステム発話テキストデータを決定する。
【0052】
なお、決定手段114は、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置13から送信されてくるユーザ発話テキストデータを用いて、システム発話テキストデータを決定する。
【0053】
また、送信手段112は、決定手段114により決定されたシステム発話テキストデータを含む要求に応じて音声合成サーバ装置12から送信されてくるシステム発話音声データを、システム発話テキストデータとともに、エンドユーザ端末装置17に送信する。なお、システム発話テキストデータは、エンドユーザ端末装置17において、領域A2のチャットログの表示に用いられる。
【0054】
決定手段114は、どのような方式の対話エンジンであってもよい。例えば、決定手段114が、ルールベースの対話エンジンであってもよいし、機械学習モデル等の人工知能を用いた対話エンジンであってもよい。
【0055】
選択手段115は、受信手段113がエンドユーザ端末装置17から受信した入力データと、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データとのいずれかに基づき、記憶手段111に記憶されている複数のGUIデータの中から、送信手段112がエンドユーザ端末装置17に送信すべきGUIデータを選択する。
【0056】
なお、選択手段115は、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置13から送信されてくるユーザ発話テキストデータを用いて、GUIデータを選択する。
【0057】
選択手段115がGUIデータを選択する方法は、ルールベースによる方法、人工知能を用いた方法等のいずれであってもよい。
【0058】
判定手段116は、エンドユーザ端末装置17が表示しているGUIに対し、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データに応じた処理を指示する指示データを生成する。
【0059】
判定手段116が生成する指示データが示す指示には、GUIに表示されている入力欄(例えば、「名前」欄)に対する、ユーザAの発話内容に含まれる回答を示すテキスト(例えば、「山田 花子」)の入力の指示が含まれる。この場合、判定手段116は、受信手段113がエンドユーザ端末装置17から受信したユーザ発話音声データを含む要求に応じて音声認識サーバ装置13から送信されてくるユーザ発話テキストデータが示すテキストに、エンドユーザ端末装置17がその時に表示しているGUIに含まれる入力欄に応じた回答を示すテキストが含まれるか否かを判定し、含まれると判定した場合、その回答を示すテキストを、その回答に応じた入力欄に入力する指示を示す指示データを生成する。
【0060】
判定手段116により生成された指示データは、送信手段112によりエンドユーザ端末装置17に送信される。エンドユーザ端末装置17は、UI管理サーバ装置11から受信した指示データが示す指示に従い、GUIに含まれる入力欄に回答を入力する。
【0061】
変更手段117は、受信手段113が企業ユーザ端末装置16から受信するデータに基づき、記憶手段111が記憶するプライベートGUIデータ及びプライベートシナリオデータを変更する。なお、変更手段117がエンドユーザ端末装置17から受信するプライベートGUIデータを変更するためのデータは、変更後のプライベートGUIデータの全部を示すデータであってもよいし、既存のプライベートGUIデータの一部の変更を指示するデータであってもよい。同様に、変更手段117がエンドユーザ端末装置17から受信するプライベートシナリオデータを変更するためのデータは、変更後のプライベートシナリオデータの全部を示すデータであってもよいし、既存のプライベートシナリオデータの一部の変更を指示するデータであってもよい。
【0062】
上述したコミュニケーションシステム1によれば、ユーザAはGUIとVUIの両方を適宜使い分けながら、UI管理サーバ装置11との間で効率的に情報交換を行うことができる。
【0063】
[変形例]
上述した実施形態は、本発明の技術的思想の範囲内で様々に変形されてよい。以下にそれらの変形の例を示す。なお、以下に示す変形の例の2以上が適宜、組み合わされてもよい。
【0064】
(1)上述した実施形態においてUI管理サーバ装置11が行うものとした処理の一部が、エンドユーザ端末装置17により行われてもよい。
【0065】
例えば、上述した実施形態においてUI管理サーバ装置11が音声合成サーバ装置12との間で通信を行うことによりシステム発話テキストデータからシステム発話音声データを取得する処理がエンドユーザ端末装置17により行われてもよい。その場合、エンドユーザ端末装置17はUI管理サーバ装置11からシステム発話テキストデータを受信し、そのシステム発話テキストデータを含む要求を音声合成サーバ装置12に送信し、その応答として音声合成サーバ装置12から送信されてくるシステム発話音声データを受信し、受信したシステム発話音声データが表す音声を発音する。
【0066】
また、上述した実施形態においてUI管理サーバ装置11が音声認識サーバ装置13との間で通信を行うことによりユーザ発話音声データからユーザ発話テキストデータを取得する処理がエンドユーザ端末装置17により行われてもよい。その場合、エンドユーザ端末装置17はユーザ発話音声データを含む要求を音声認識サーバ装置13に送信し、その応答として音声認識サーバ装置13から送信されてくるユーザ発話テキストデータを受信し、受信したユーザ発話テキストデータをUI管理サーバ装置11に送信する。
【0067】
また、上述した実施形態においてUI管理サーバ装置11の決定手段114が行う処理がエンドユーザ端末装置17により行われてもよい。その場合、エンドユーザ端末装置17はUI管理サーバ装置11から受信するGUIデータに含まれるプログラムに従い、UI管理サーバ装置11から受信したシステム発話音声データを用いて発した音声に応じてユーザAが発話した内容を表すユーザ発話テキストデータに応じた処理を、その時に表示しているGUI(WebページQ)に対し行う。
【0068】
例えば、ユーザAが「私の名前は山田花子です。」と発話すると、エンドユーザ端末装置17はその発話の内容に含まれる「山田花子」が「名前」欄に応じた回答を判定し、「名前」欄に「山田 花子」を入力する処理を行う。
【0069】
(2)記憶手段111が複数のシナリオデータを記憶している場合、UI管理サーバ装置11が、それら複数のシナリオデータの中から、ユーザAの属性に応じたシナリオデータを選択して用いてもよい。その場合、UI管理サーバ装置11は、ユーザAの属性を示すユーザ属性データを取得する取得手段を機能構成として備える。そして、決定手段114は、取得手段が取得したユーザ属性データに基づき、使用するシナリオデータの選択を行う。
【0070】
UI管理サーバ装置11は、例えば、過去にエンドユーザ端末装置17との間で行った対話の内容に基づき、ユーザの属性を取得してもよい。その場合、UI管理サーバ装置11は、送信手段112が過去にエンドユーザ端末装置17に送信したデータと、受信手段113が過去にエンドユーザ端末装置17から受信したデータとに基づき、ユーザAの属性を特定し、特定した属性を示すユーザ属性データを生成する生成手段を機能構成として備える。そして、取得手段は、生成手段が生成したユーザ属性データを取得する。
【0071】
なお、UI管理サーバ装置11がユーザAの属性を特定するために用いる過去の対話の内容は、過去に完結した対話の内容であってもよいし、現在進行している対話の内容であってもよい。前者の場合、UI管理サーバ装置11は、例えばCookie等の既知の技術によって、以前に対話したユーザAと現在対話中のユーザAとの同定を行う。
【0072】
また、UI管理サーバ装置11が特定するユーザAの属性の種別は、年齢、性別、趣味嗜好等、いずれであってもよい。例えば、UI管理サーバ装置11が、ユーザAの性格や現在の感情を属性として特定してもよい。
【0073】
(3)コミュニケーションシステム1が備えるサーバ装置の構成は、上述した実施形態に例示の構成に限れない。例えば、UI管理サーバ装置11が1つのサーバ装置により構成される代わりに、複数のサーバ装置(サーバ装置群)により構成されてもよい。
【0074】
また、例えば、UI管理サーバ装置11が音声合成サーバ装置12、音声認識サーバ装置13、Web配信サーバ装置14の1以上を兼ねてもよい。
【0075】
また、例えば、コミュニケーションシステム1が、予約管理を行う予約管理サーバ装置を備え、UI管理サーバ装置11が予約管理サーバ装置と通信を行うことによって、エンドユーザ端末装置17に表示させるWebページの内容を決定してもよい。この例のように、UI管理サーバ装置11がエンドユーザ端末装置17に提供する情報の種別等に応じて、UI管理サーバ装置11が必要な機能を提供するサーバ装置がコミュニケーションシステム1を構成するサーバ装置群に追加されてもよい。
【0076】
(4)上述した実施形態において、エンドユーザとの情報交換をUI管理サーバ装置11に代行させる主体は企業であるものとしたが、企業以外の個人や団体が、エンドユーザとの情報交換をUI管理サーバ装置11に代行させてもよい。
【0077】
(5)上述した実施形態において、エンドユーザ端末装置17が表示するGUIに含まれる項目のうち、VUIが現在質問等を行っている項目がハイライト表示により他の項目と区別されるものとしたが、ハイライト表示以外の表示態様(例えば、太字表示、異なる色による表示、点滅表示、拡大表示等)により、VUIが現在質問等を行っている項目が他の項目と区別されてもよい。
【0078】
(6)本発明は、上述したコミュニケーションシステム1又はUI管理サーバ装置11に例示されるシステムに加え、コンピュータにUI管理サーバ装置11が行う処理を実行させるためのプログラム、コンピュータにエンドユーザ端末装置17が行う処理を実行させるためのプログラム、それらのプログラムを記録した記録媒体等を提供する。
【符号の説明】
【0079】
1…コミュニケーションシステム、11…UI管理サーバ装置、12…音声合成サーバ装置、13…音声認識サーバ装置、14…Web配信サーバ装置、15…管理者端末装置、16…企業ユーザ端末装置、17…エンドユーザ端末装置、111…記憶手段、112…送信手段、113…受信手段、114…決定手段、115…選択手段、116…判定手段、117…変更手段。
【要約】
【課題】従来技術と比較し、ユーザが効率的に情報交換を行える自動対話の仕組みを提供する。
【解決手段】本発明に係るコミュニケーションシステムにおいて、エンドユーザが使用する端末装置は、サーバ装置から提供される自動応答において、ユーザに対しGUIとVUIの両方を同時に提供する。ユーザは、端末装置との間で、画面に表示される情報に対するデータの入力による対話と、音声による対話を適宜、使い分けて、サーバ装置との間で対話を行うことができる。従って、ユーザは、必ずしもサーバ装置の音声に応じた回答を行う必要はなく、GUIに表示される項目のうち、優先順位の高い項目を選択し、その項目に関する回答をサーバ装置に対し行うことができる。
【選択図】図2
図1
図2
図3