特開2024-112283 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2024-112283対話システム、対話制御方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10A
10B
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024112283

(43)【公開日】2024-08-20

(54)【発明の名称】対話システム、対話制御方法、及びプログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20240813BHJP

G06F 3/048 20130101ALI20240813BHJP

G06F 3/16 20060101ALI20240813BHJP

G06Q 50/00 20240101ALI20240813BHJP

【ＦＩ】

G06F3/01 510

G06F3/048

G06F3/16 650

G06F3/16 690

G06F3/16 620

G06Q50/00 300

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2023221852

(22)【出願日】2023-12-27

(31)【優先権主張番号】P 2023017067

(32)【優先日】2023-02-07

(33)【優先権主張国・地域又は機関】JP

(71)【出願人】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】能勢将樹

(72)【発明者】

【氏名】後藤悠斗

(72)【発明者】

【氏名】麻田千尋

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA46

5E555AA48

5E555BA01

5E555BA04

5E555BB01

5E555BB04

5E555BC04

5E555BD01

5E555CA17

5E555CA18

5E555CA42

5E555CA47

5E555CB65

5E555CB66

5E555CB67

5E555CC01

5E555DA03

5E555DA23

5E555DB32

5E555DC09

5E555DC84

5E555DD02

5E555DD07

5E555EA05

5E555EA07

5E555EA08

5E555EA09

5E555EA19

5E555EA22

5E555EA23

5E555FA00

(57)【要約】

【課題】対話エージェントを用いてユーザと対話を行う対話システムにおいて、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができるようにする。
【解決手段】対話システムは、対話エージェントを用いてユーザと対話を行う対話システムであって、前記対話から前記ユーザの言語情報を取得する第１の取得部と、前記対話から前記ユーザの非言語情報を取得する第２の取得部と、前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、を備える。
【選択図】図７

【特許請求の範囲】

【請求項1】

対話エージェントを用いてユーザと対話を行う対話システムであって、
前記対話から前記ユーザの言語情報を取得する第１の取得部と、
前記対話から前記ユーザの非言語情報を取得する第２の取得部と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、
前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、
を備える、対話システム。

【請求項2】

前記対話エージェントの応答内容は、前記対話エージェントの非言語応答を含み、
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントの非言語応答を生成する、
請求項１に記載の対話システム。

【請求項3】

前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションの内容を変更する、請求項２に記載の対話システム。

【請求項4】

前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションのタイミングを変更する、請求項２に記載の対話システム。

【請求項5】

前記ユーザの非言語情報は、前記ユーザの画像から取得した表情、視線、姿勢、又は感情の情報を含む、請求項１乃至４のいずれか一項に記載の対話システム。

【請求項6】

前記ユーザの非言語情報は、前記ユーザの音声から取得した声の大小、声の抑揚、又は声の音色の情報を含む、請求項５に記載の対話システム。

【請求項7】

前記生成部は、前記対話のシナリオに応じて、前記対話エージェントの応答内容を変更する、請求項１に記載の対話システム。

【請求項8】

前記生成部は、予め設定された複数の対話段階に応じて、前記対話エージェントの応答内容を変更する、請求項１に記載の対話システム。

【請求項9】

前記生成部は、前記ユーザの視線情報に基づいて前記対話段階を変更する、請求項８に記載の対話システム。

【請求項10】

前記ユーザの言語情報と非言語情報とのうち、少なくとも１つに基づいて、対話内容に関する画像を生成する画像生成部を有し、
前記対話エージェントと前記画像とを用いて、前記ユーザと対話を行う、
請求項１に記載の対話システム。

【請求項11】

前記対話の対話ログに基づいて、前記対話を要約する要約部を有する、請求項１に記載の対話システム。

【請求項12】

前記対話は、前記ユーザとの商談であり、
前記商談の対話内容に基づいて、前記ユーザに提案する商材を提案する、
請求項１に記載の対話システム。

【請求項13】

前記商談の対話内容に基づいて、前記商材のキャッチコピーを提示する。
請求項１２に記載の対話システム。

【請求項14】

前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴に基づいて、前記対話のシナリオを変更する、請求項７に記載の対話システム。

【請求項15】

前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴を参照して、前記対話エージェントの言語応答を生成する、
請求項１に記載の対話システム。

【請求項16】

前記第２の取得部は、前記対話から前記ユーザの属性を示す非言語情報を取得し、
前記生成部は、前記ユーザの属性に応じた前記言語応答、又は前記非言語応答を生成する、請求項１に記載の対話システム。

【請求項17】

対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータが、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行する、対話制御方法。

【請求項18】

対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータに、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、対話システム、対話制御方法、及びプログラムに関する。

【背景技術】

【0002】

ユーザからのメッセージに対して、対話エージェントが自動で応答を行う対話システムがある。また、ユーザとの対話を学習し、対話エージェントの格好、又は性格等の属性を変更するエージェントシステムが知られている（例えば、特許文献１参照）。

【発明の概要】

【発明が解決しようとする課題】

【0003】

従来の技術では、対話エージェントによる対話は、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができないという問題がある。

【0004】

本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、対話エージェントを用いてユーザと対話を行う対話システムにおいて、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができるようにする。

【課題を解決するための手段】

【0005】

上記の課題を解決するため、一実施形態に係る対話システムは、対話エージェントを用いてユーザと対話を行う対話システムであって、前記対話から前記ユーザの言語情報を取得する第１の取得部と、前記対話から前記ユーザの非言語情報を取得する第２の取得部と、前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、を備える。

【発明の効果】

【0006】

本発明の一実施形態によれば、対話エージェントを用いてユーザと対話を行う対話システムにおいて、ユーザの言語情報とユーザの非言語情報とに基づいて、対話エージェントの応答内容を生成することができるようになる。

【図面の簡単な説明】

【0007】

【図1】一実施形態に係る対話システムのシステム構成の例を示す図である。

【図2】一実施形態に係る対話エージェントの一例を示す図である。

【図3】一実施形態に係る対話エージェントの別の一例を示す図である。

【図4】一実施形態に係る対話処理の概要について説明するための図である。

【図5】一実施形態に係るコンピュータのハードウェア構成の例を示す図である。

【図6】一実施形態に係る端末装置のハードウェア構成の例を示す図である。

【図7】一実施形態に係る対話システムの機能構成の例を示す図である。

【図8】一実施形態に係る対話処理の概要を示すフローチャートである。

【図9】第１の実施形態に係る生成部の機能構成の例を示す図である。

【図10A】第１の実施形態に係る対話処理の例を示すフローチャート（１）である。

【図10B】第１の実施形態に係る対話処理の例を示すフローチャート（２）である。

【図11】第１の実施形態に係る非言語情報の利用例について説明するための図である。

【図12】第２の実施形態に係る対話シナリオの遷移の一例を示す図（１）である。

【図13】第２の実施形態に係る対話シナリオの遷移の一例を示す図（２）である。

【図14】第３の実施形態に係る対話画面の一例を示す図である。

【図15】第３の実施形態に係る対話システムの機能構成の例を示す図である。

【図16】第３の実施形態に係る対話処理の例を示すフローチャートである。

【図17】第４の実施形態に係る対話システムの機能構成の例を示す図である。

【図18】第４の実施形態に係る対話ログの例を示す図である。

【図19】第５の実施形態に係る対話システムの機能構成の例を示す図である。

【図20】第５の実施形態に係るキャッチコピーの提示処理の例を示すフローチャートである。

【図21】第６の実施形態に係る対話システムの機能構成の例を示す図である。

【図22】第６の実施形態に係る入出力情報の例を示す図である。

【図23】第６の実施形態に係る対話処理の例を示すフローチャートである。

【図24】一実施形態に係る利用シーン１のシステム構成の例を示す図である。

【図25】一実施形態に係る利用シーン２の対話開始処理の例を示すフローチャートである。

【図26】一実施形態に係る利用シーン２のシステム構成の例を示す図である。

【図27】一実施形態に係る利用シーン２の対話開始処理の例を示すフローチャートである。

【図28】一実施形態に係る利用シーン３のシステム構成の例を示す図である。

【図29】一実施形態に係る利用シーン２の対話開始処理の例を示すフローチャートである。

【発明を実施するための形態】

【0008】

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
＜システム構成＞
図１は、一実施形態に係る対話システムのシステム構成の例を示す図である。図１の例では、対話システム１は、例えば、インターネット、及びＬＡＮ（Local Area Network）等の通信ネットワークＮに接続されたサーバ装置１００と、端末装置１０とを含む。

【0009】

サーバ装置１００は、例えば、コンピュータの構成を備えた情報処理装置、又は複数のコンピュータによって構成されるシステムである。サーバ装置１００は、サーバ装置１００が備えるコンピュータが所定のプログラムを実行することにより、端末装置１０を利用するユーザ１１からのメッセージに対して、対話エージェントが自動で応答を行う対話サービスを提供する。

【0010】

端末装置１０は、例えば、ＰＣ（Personal Computer）、タブレット端末、又はスマートフォン等のユーザ１１が利用する情報端末である。端末装置１０は、通信ネットワークＮを介して、サーバ装置１００と通信可能である。ユーザ１１は、端末装置１０を用いて、サーバ装置１００が提供する対話サービスを利用することができる。

【0011】

好ましくは、対話システム１は、ユーザからのメッセージに対して、対話エージェントが自動で応答を行う対話により、例えば、商談、又は介護等の所定のタスクの遂行を支援する。

【0012】

なお、図１に示した対話システム１のシステム構成は一例である。また、端末装置１０は、汎用の情報端末に限られず、例えば、専用の端末装置、又は各種の電子機器等であってもよい。また、対話システム１は、例えば、コンピュータの構成を有する１台の情報処理装置によって実現されるものであってもよい。ここでは、対話システム１は、図１に示すようなシステム構成を有しているものとして、以下の説明を行う。

【0013】

（対話エージェントのイメージ）
対話エージェントは、ユーザ、又は顧客等からの問いかけに対して登録された情報や知識を含むナレッジ、又はＡＩ（Artificial Intelligence）等を用いて自動応答するシステムである。

【0014】

対話エージェントの利用ケースとして、例えば、Ｗｅｂ会議、Ｗｅｂサイト、スマートフォンアプリ、又はメタバース空間での無人ＡＩアバター等として利用されてもよい。

【0015】

図２は、一実施形態に係る対話エージェントのイメージの一例を示している。この図は、サーバ装置１００が端末装置１０に表示させる商談用の対話画面２００の一例を示している。図２の例では、対話画面２００には、３Ｄ（three-dimensional）モデリングにより生成されたバーチャルヒューマン２０１が表示されている。なお、バーチャルヒューマン２０１は、対話エージェントの一例である。サーバ装置１００は、例えば、この対話画面２００において、ユーザ１１と対話を行いながら、商談を進めるように、バーチャルヒューマン２０１を制御する。

【0016】

好適な一例として、商談用の対話画面２００には、大型のディスプレイ２０２が表示されている。サーバ装置１００は、このディスプレイ２０２に、例えば、ユーザ提案する商材を表示するとともに、バーチャルヒューマン２０１に商材を説明させるように制御することもできる。

【0017】

図３は、一実施形態に係る対話エージェントのイメージの別の一例を示している。この図は、サーバ装置１００が端末装置１０に表示させる介護用途の対話画面３００の一例を示している。図３の例では、対話画面３００には、図２と同様に、３Ｄモデリングにより生成された別のバーチャルヒューマン３０１が表示されている。なお、バーチャルヒューマン３０１は、対話エージェントの別の一例である。サーバ装置１００は、この対話画面３００において、例えば、一人暮らしの高齢者等を対象に、認知症を予防するためのコミュニケーションを行うように、バーチャルヒューマン３０１を制御する。

【0018】

好適な一例として、ユーザ１１とバーチャルヒューマン３０１との対話は、図３に示すように、音声に加えて（又は代えて）、文字列による対話３０２も可能である。

【0019】

このように、対話システム１は、対話シナリオを変更することにより、例えば、商談、介護、授業、又はカウンセリング等の様々な用途に合わせて、対話内容を変更することができる。

【0020】

（対話処理の概要）
図４は、一実施形態に係る対話処理の概要について説明するための図である。この図は、横軸を時間とし、ユーザ１１と対話エージェントとの対話における、ユーザ１１の言語情報、及び非言語情報と、対話エージェントの言語応答、及び非言語応答と関係の一例を示している。

【0021】

図４において、ユーザ１１が開始操作を行うと、時間ｔ１において、サーバ装置１００は、対話エージェントに、言語応答として、挨拶、又はアイスブレイク等の発話４０１を行わせるとともに、非言語応答として、お辞儀、又は笑顔等のアイスブレイク４０２を実行させる。

【0022】

これに応じて、時間ｔ２において、ユーザが発話を行うと、サーバ装置１００は、ユーザ１１の言語情報と、ユーザ１１の非言語情報とを取得する。このとき、サーバ装置１００は、対話エージェントに、例えば、頷き４０３等の非言語応答を行わせてもよい。

【0023】

ここで、ユーザ１１の言語情報には、例えば、音声認識技術によってテキスト化した、ユーザ１１の発話４１１の内容を示す情報が含まれる。また、ユーザ１１の非言語情報には、例えば、画像認識技術等によって取得したユーザ１１の表情、視線、姿勢、又は感情等の言語情報以外の情報が含まれる。また、ユーザ１１の非言語情報には、例えば、ユーザ１１の映像に含まれる音声から取得した、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等の言語以外の音声情報（パラ言語）が含まれていてもよい。このように、画像や音声等の非言語情報をマルチモーダルに活用する。

【0024】

言語情報とは、言葉を介して発話の内容が伝達される情報である。例えば、単語、文法、文の構造、文脈などのような、明確に定義された言語のルールと辞書に基づく意味の伝達がされる情報である。例えば、言語情報には、音声認識技術によってテキスト化した、ユーザ１１の発話４１１の内容を示す情報が含まれる。

【0025】

また、非言語情報とは、言葉以外の手段を通じて伝達される情報である。例えば、画像認識技術等によって取得したユーザ１１の表情、視線、姿勢、又は感情等の言語情報以外の情報が含まれる。また、ユーザ１１の非言語情報には、例えば、ユーザ１１の映像に含まれる音声から取得した、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等の言語以外の音声情報（パラ言語）等が含まれる。このように、本実施形態では、画像や音声等の非言語情報をマルチモーダルに活用する。

【0026】

また、サーバ装置１００は、ユーザ１１の言語情報をベースに、ユーザ１１の非言語情報を加味して、ユーザ１１の発話の意図を解釈する。これにより、サーバ装置１００は、言語情報のみで意図を解釈するより、意図解釈の精度を向上させることができる。

【0027】

さらにサーバ装置１００は、ユーザ１１の発話の意図に対応する、対話エージェントの応答内容を生成する。この応答内容には、対話エージェントが発話する発話内容を表す言語応答と、例えば、対話エージェントの表情、又はジェスチャー等を表す非言語応答とが含まれる。好ましくは、サーバ装置１００は、取得したユーザ１１の非言語情報に応じて、対話エージェントの非言語応答を変える。

【0028】

時間ｔ３になると、サーバ装置１００は、生成された応答内容に従って、対話エージェントを制御する。例えば、サーバ装置１００は、生成された言語応答を音声合成処理で音声化して、対話エージェントに発話４０４させる。好ましくは、サーバ装置１００は、対話エージェントの発話４０４に合わせて、対話エージェントの口を動かす（リップシンク）。さらに、サーバ装置１００は、生成された非言語応答に従って、対話エージェントに、例えば、表情、又はジェスチャー等の非言語応答を実行させる。

【0029】

このように、本実施形態に係る対話システム１は、ユーザ１１の非言語情報に応じて、対話エージェント（バーチャルヒューマン２０１、３０１）の応答内容（言語応答、及び非言語応答）を変える。従って、本実施形態によれば、対話エージェントを用いてユーザと対話を行う対話システム１において、ユーザ１１に対してより適切なリアクションを行えるようになる。
＜ハードウェア構成＞
（コンピュータのハードウェア構成）
サーバ装置１００は、例えば、図５に示すようなコンピュータ５００のハードウェア構成を有している。或いは、サーバ装置１００は、複数のコンピュータ５００によって構成される。また、端末装置１０は、例えば、図５に示すようなコンピュータ５００のハードウェア構成を有していてもよい。

【0030】

図５は、一実施形態に係るコンピュータのハードウェア構成の例を示す図である。コンピュータ５００は、例えば、図５に示されるように、ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３、ＨＤ（Hard Disk）５０４、ＨＤＤ（Hard Disk Drive）コントローラ５０５、ディスプレイ５０６、外部機器接続Ｉ／Ｆ（Interface）５０７、ネットワークＩ／Ｆ５０８、キーボード５０９、ポインティングデバイス５１０、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable)ドライブ５１２、メディアＩ／Ｆ５１４、及びバスライン５１５等を備えている。

【0031】

また、コンピュータ５００が端末装置１０である場合、コンピュータ５００は、マイク５２１、スピーカ５２２，音入出力Ｉ／Ｆ５２３、ＣＭＯＳ(Complementary Metal Oxide Semiconductor)センサ５２４、及び撮像素子Ｉ／Ｆ５２５等を、さらに備える。

【0032】

これらのうち、ＣＰＵ５０１は、コンピュータ５００全体の動作を制御する。ＲＯＭ５０２は、例えば、ＩＰＬ（Initial Program Loader）等のコンピュータ５００の起動に用いられるプログラムを記憶する。ＲＡＭ５０３は、例えば、ＣＰＵ５０１のワークエリア等として使用される。ＨＤ５０４は、例えば、ＯＳ（Operating System）、アプリケーション、デバイスドライバ等のプログラムや、各種データを記憶する。ＨＤＤコントローラ５０５は、例えば、ＣＰＵ５０１の制御に従ってＨＤ５０４に対する各種データの読み出し又は書き込みを制御する。なお、ＨＤ５０４、及びＨＤＤコントローラ５０５は、ストレージデバイスの一例である。

【0033】

ディスプレイ５０６は、例えば、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。なお、ディスプレイ５０６は、コンピュータ５００の外部に設けられていてもよい。外部機器接続Ｉ／Ｆ５０７は、コンピュータ５００に、様々な外部装置を接続するためのインタフェースである。ネットワークＩ／Ｆ５０８は、コンピュータ５００を通信ネットワーク２に接続して、他の装置と通信するためのインタフェースである。

【0034】

キーボード５０９は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１０は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行なう入力手段の一種である。なお、キーボード５０９、及びポインティングデバイス５１０は、コンピュータ５００の外部に設けられていてもよい。

【0035】

ＤＶＤ－ＲＷドライブ５１２は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ５１１に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷ５１１は、ＤＶＤ－ＲＷに限らず、着脱可能な他の記録媒体であってもよい。メディアＩ／Ｆ５１４は、フラッシュメモリ等のメディア５１３に対するデータの読み出し又は書き込み（記憶）を制御する。バスライン５１５は、上記の各構成要素を電気的に接続するためのアドレスバス、データバス及び各種の制御信号等を含む。

【0036】

マイク５２１は、音を電気信号に変える内蔵型の回路である。スピーカ５２２は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ５２３は、ＣＰＵ５０１の制御に従ってマイク５２１及びスピーカ５２２との間で音信号の入出力を処理する回路である。

【0037】

ＣＭＯＳセンサ５２４は、ＣＰＵ５０１の制御に従って被写体（例えば自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、コンピュータ５００は、ＣＭＯＳセンサ５２４に代えて、ＣＣＤ(Charge Coupled Device)センサ等の撮像手段を有していてもよい。撮像素子Ｉ／Ｆ５２５は、ＣＭＯＳセンサ５２４の駆動を制御する回路である。

【0038】

（端末装置のハードウェア構成の一例）
図６は、一実施形態に係る端末装置のハードウェア構成の一例を示す図である。ここでは、端末装置１０が、スマートフォン、又はタブレット端末等の情報端末である場合における端末装置１０のハードウェア構成の例について説明する。

【0039】

図６の例では、端末装置１０は、ＣＰＵ６０１、ＲＯＭ６０２、ＲＡＭ６０３、ストレージデバイス６０４、ＣＭＯＳセンサ６０５、撮像素子Ｉ／Ｆ６０６、加速度・方位センサ６０７、メディアＩ／Ｆ６０９、ＧＰＳ（Global Positioning System）受信部６１０を備えている。

【0040】

これらのうち、ＣＰＵ６０１は、所定のプログラムを実行することにより端末装置１０全体の動作を制御する。ＲＯＭ６０２は、例えば、ＩＰＬ等のＣＰＵ６０１の起動に用いられるプログラムを記憶する。ＲＡＭ６０３は、ＣＰＵ６０１のワークエリアとして使用される。ストレージデバイス６０４は、ＯＳ、アプリ等のプログラム、及び各種のデータ等を記憶する大容量の記憶装置であり、例えば、ＳＳＤ（Solid State Drive）、又はフラッシュＲＯＭ等によって実現される。

【0041】

ＣＭＯＳセンサ６０５は、ＣＰＵ６０１の制御に従って被写体（主に自画像）を撮像して画像データを得る内蔵型の撮像手段の一種である。なお、端末装置１０は、ＣＭＯＳセンサ６０５に代えて、ＣＣＤセンサ等の撮像手段を有していてもよい。撮像素子Ｉ／Ｆ６０６は、ＣＭＯＳセンサ６０５の駆動を制御する回路である。加速度・方位センサ６０７は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアＩ／Ｆ６０９は、フラッシュメモリ等のメディア（記憶メディア）６０８に対するデータの読み出し又は書き込み（記憶）を制御する。ＧＰＳ受信部６１０は、ＧＰＳ衛星からＧＰＳ信号（測位信号）を受信する。

【0042】

また、端末装置１０は、遠距離通信回路６１１、遠距離通信回路６１１のアンテナ６１１ａ、ＣＭＯＳセンサ６１２、撮像素子Ｉ／Ｆ６１３、マイク６１４、スピーカ６１５、音入出力Ｉ／Ｆ６１６、ディスプレイ６１７、外部機器接続Ｉ／Ｆ６１８、近距離通信回路６１９、近距離通信回路６１９のアンテナ６１９ａ、及びタッチパネル６２０を備えている。

【0043】

これらのうち、遠距離通信回路６１１は、例えば、通信ネットワーク２を介して、他の装置と通信する回路である。ＣＭＯＳセンサ６１２は、ＣＰＵ６０１の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子Ｉ／Ｆ６１３は、ＣＭＯＳセンサ６１２の駆動を制御する回路である。マイク６１４は、音を電気信号に変える内蔵型の回路である。スピーカ６１５は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力Ｉ／Ｆ６１６は、ＣＰＵ６０１の制御に従ってマイク６１４及びスピーカ６１５との間で音波信号の入出力を処理する回路である。

【0044】

ディスプレイ６１７は、被写体の画像や各種アイコン等を表示する液晶や有機ＥＬ(Electro Luminescence)等の表示手段の一種である。外部機器接続Ｉ／Ｆ６１８は、各種の外部機器を接続するためのインタフェースである。近距離通信回路６１９は、近距離無線通信を行う回路を含む。タッチパネル６２０は、利用者がディスプレイ６１７を押下することで、端末装置１０を操作する入力手段の一種である。

【0045】

また、端末装置１０は、バスライン６２１を備えている。バスライン６２１は、図６に示されているＣＰＵ６０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等を含む。

【0046】

なお、図６に示した端末装置１０のハードウェア構成は一例である。端末装置１０は、コンピュータの構成、通信回路、ディスプレイ、マイク、及びスピーカ等を有していれば、他のハードウェア構成であってもよい。

【0047】

＜機能構成＞
図７は、一実施形態に係る対話システムの機能構成の例を示す図である。

【0048】

（サーバ装置の機能構成）
サーバ装置１００は、サーバ装置１００が備えるコンピュータ５００が、記憶媒体に記憶した所定のプログラムを実行することにより、例えば、図７に示すような機能構成を実現している。図７の例では、サーバ装置１００は、通信部７０１、第１の取得部７０２、第２の取得部７０３、生成部７０４、音声合成部７１１、描画部７１２、及び出力部７１３等を有している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。

【0049】

また、サーバ装置１００は、例えば、ＨＤ５０４、及びＨＤＤコントローラ５０５等のストレージデバイス等により、記憶部７１０を実現している。なお、記憶部７１０は、例えば、サーバ装置１００の外部に設けられたストレージサーバ、又はクラウドサービス等によって実現されるものであってもよい。

【0050】

通信部７０１は、例えば、ネットワークＩ／Ｆ５０８等を用いて、サーバ装置１００を通信ネットワークＮに接続し、端末装置１０等の他の装置と通信する通信処理を実行する。

【0051】

第１の取得部７０２は、端末装置１０を利用するユーザ１１との対話から、ユーザ１１の言語情報を取得する第１の取得処理を実行する。例えば、第１の取得部７０２は、通信部７０１が、端末装置１０から受信したユーザ１１の映像（動画像、及び音声）から、ＶＡＤ（Voice Activity Detection）等の技術により音声区間を検出し、ユーザ１１の発話音声を取得する。また、第１の取得部７０２は、取得したユーザ１１の発話音声に対して、音声認識処理を実行して、ユーザ１１の発話音声をテキスト化する。さらに、第１の取得部７０２は、テキスト化したユーザ１１の発話テキストを、ユーザ１１の言語情報として取得する。

【0052】

第２の取得部７０３は、端末装置１０を利用するユーザ１１との対話から、ユーザ１１の非言語情報を取得する第２の取得処理を実行する。例えば、第２の取得部７０３は、通信部７０１が、端末装置１０から受信したユーザ１１の映像（動画像、及び音声）から、画像処理により、例えば、表情、視線、又は感情等のユーザ１１の非言語情報を取得する。また、第２の取得部７０３は、通信部７０１が、端末装置１０から受信したユーザ１１の映像（動画像、及び音声）から、例えば、声の大小、声の抑揚、又は声の音色等のユーザ１１の非言語情報を取得する。

【0053】

生成部７０４は、第１の取得部７０２が取得したユーザ１１の言語情報と、第２の取得部７０３が取得したユーザ１１の非言語情報とに基づいて、対話エージェントの言語応答（対話内容）と非言語応答（対話エージェントの動作、又はパラ言語等）とを含む応答内容を生成する生成処理を実行する。例えば、生成部７０４は、対話制御部７０５、意図解釈部７０６、及び応答生成部７０７を含む。また、図示はしていないが、応答生成部７０７のバックエンドには、実際に行われた対話情報（音声や画像等）が大量に蓄積されており、その対話情報が応答生成部７０７の構築に用いられる。応答生成部７０７が後述の機械学習モデルの場合、それらの対話情報は学習データとして用い、対話生成の精度向上に寄与する。

【0054】

対話制御部７０５は、ユーザ１１の言語情報と非言語情報とを入力する処理、及び対話エージェントの言語応答と非言語応答を出力する処理等を含む対話制御処理を実行する。

【0055】

意図解釈部７０６は、ユーザ１１の言語情報をベースに、ユーザ１１の非言語情報を加味して、ユーザ１１の発話の意図を解釈する意図解釈処理を実行する。例えば、ユーザ１１が「それは、いいです」と発話した場合、ユーザ１１の言語情報（発話テキスト）だけでは、ユーザ１１が、それが「良い」ことを意図しているのか、それが「不要である」ことを意図しているのか判断することが難しい場合がある。そこで、本実施形態に係る意図解釈部７０６は、ユーザ１１の言語情報（発話テキスト）だけではなく、ユーザ１１の非言語情報を用いて、ユーザ１１の発話の意図を解釈する。これにより、意図解釈部７０６は、意図解釈処理の精度を向上することができる。

【0056】

例えば、意図解釈部７０６は、複数のユーザの言語情報と非言語情報とを入力データとして、ユーザの意図を解釈するように、予め機械学習した機械学習モデルに、ユーザ１１の言語情報と非言語情報とを入力して、ユーザ１１の発話の意図を解釈してもよい。

【0057】

ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

【0058】

応答生成部７０７は、ユーザ１１の発話の意図に対応する、対話エージェントの応答内容を生成する応答生成処理を実行する。この応答内容には、対話エージェントが発話する発話内容を表す言語応答と、例えば、対話エージェントの表情、又はジェスチャー等を表す非言語応答とが含まれる。好ましくは、サーバ装置１００は、取得したユーザ１１の非言語情報に応じて、対話エージェントの言語応答、及び非言語応答を変える。

【0059】

例えば、応答生成部７０７は、ユーザ１１の非言語情報に応じて、対話エージェントのアクションの内容を変更する。また、応答生成部７０７は、ユーザ１１の非言語情報に応じて、対話エージェントのアクションのタイミングを変更する。

【0060】

応答内容の生成には、例えば、ルールベース、又は大規模言語モデルによる自然言語処理を用いることができる。大規模言語モデルとしては、一例として、GPT-3（Generative Pre-trained Transformer 3）と呼ばれる文章生成言語モデルを適用することができる。また、ルールベースの自然言語処理では、ユーザの発話の意図に対して、応答内容を予め記述したルールに基づいて、対話エージェントの応答内容を生成する。

【0061】

また、応答内容の進行には、シナリオ型とスロット・フィリング型がある（参考：https://goqsmile.com/function/about/）。

【0062】

音声合成部７１１は、生成部７０４が生成した言語応答を、音声合成技術により音声化する音声合成処理を実行する。

【0063】

描画部７１２は、生成部７０４が生成した非言語応答に従って、対話エージェントを描画した対話画面を描画する描画処理を実行する。例えば、描画部７１２は、非言語応答に従って、表情、視線、姿勢、又は感情等を、図２に示すようなバーチャルヒューマン（対話エージェント）２０１に反映する。

【0064】

好ましくは、描画部７１２は、対話エージェントの発話に合わせて、対話エージェントの口を動かすリップシンクの描画も行う。

【0065】

出力部７１３は、音声合成部７１１が音声化した対話エージェントの音声と、描画部７１２が描画した対話画面とを含む映像を出力する出力処理を実行する。例えば、出力部７１３は、音声合成部７１１が音声化した対話エージェントの音声と、描画部７１２が描画した対話画面とを含む映像を、通信部７０１を介して、端末装置１０に送信する。

【0066】

なお、音声合成部７１１、描画部７１２、及び出力部７１３は、生成部７０４で生成した応答内容に基づいて対話エージェントを制御する制御部７１４の一例である。

【0067】

記憶部７１０は、サーバ装置１００が用いる機械学習モデル、ルール、設定情報、及び対話ログ等の様々な情報、データ、及びプログラム等を記憶する。

【0068】

（端末装置の機能構成）
端末装置１０は、例えば、端末装置１０が備えるウェブブラウザ等を用いて、サーバ装置１００にアクセスして、図２に示すような対話画面２００を表示し、ユーザ１１の映像を送信できるものであれば、任意の機能構成であってよい。

【0069】

なお、図７に示した対話システム１のシステム構成は一例である。例えば、対話システム１は、図７に示したサーバ装置１００の機能構成を有する１台の情報処理装置によって構成されるものであってもよい。また、サーバ装置１００の各機能構成のうち、少なくとも一部は、端末装置１０が有していてもよい。例えば、端末装置１０は、第１の取得部７０２、第２の取得部７０３、音声合成部７１１、描画部７１２、及び出力部７１３等を有していてもよい。この場合、端末装置１０は、言語情報、及び非言語情報をサーバ装置１００に送信し、サーバ装置１００から受信した言語応答、及び非言語応答に基づいて、対話画面を表示してもよい。

【0070】

＜処理の流れ＞
図８は、一実施形態に係る対話システムが実行する対話処理の概要を示すフローチャートである。この処理は、例えば、図７に示すような機能構成を有する対話システム１が、繰り返し実行する処理の一例を示している。なお、図８の処理の開始時点において、端末装置１０を利用するユーザ１１と、サーバ装置１００が提供する対話エージェントとの間で対話が既に行われているものとする。

【0071】

ステップＳ８０１において、第１の取得部７０２は、ユーザ１１と、対話エージェントとの間の対話から、ユーザの言語情報を取得する。例えば、第１の取得部７０２は、通信部７０１が、端末装置１０から受信したユーザ１１の映像から、ユーザ１１の発話音声を取得する。また、第１の取得部７０２は、取得したユーザ１１の発話音声に対して音声認識処理を実行し、ユーザ１１の発話音声をテキスト化したユーザ１１の発話テキスト（言語情報）を取得する。

【0072】

ステップＳ８０２において、第２の取得部７０３は、ステップＳ８０１の処理と並行して、ユーザ１１と、対話エージェントとの間の対話から、ユーザ１１の非言語情報を取得する。例えば、第２の取得部７０３は、通信部７０１が、端末装置１０から受信したユーザ１１の映像から、画像処理により、ユーザ１１の表情、視線、又は感情等の非言語情報を取得する。また、第２の取得部７０３は、通信部７０１が、端末装置１０から受信したユーザ１１の映像から、音声処理により、声の大小、声の抑揚、又は声の音色等の非言語情報を取得する。

【0073】

ステップＳ８０３において、生成部７０４は、第１の取得部７０２が取得したユーザ１１の言語情報と、第２の取得部７０３が取得したユーザ１１の非言語情報とに基づいて、ユーザ１１の発話の意図を解釈する。

【0074】

ステップＳ８０４において、生成部７０４は、ユーザ１１の発話の意図に対応する言語応答、及び非言語応答を生成する。

【0075】

ステップＳ８０５において、音声合成部７１１は、生成部７０４が生成した言語応答に基づいて、対話エージェントの発話音声を合成する。

【0076】

ステップＳ８０６において、描画部７１２は、ステップＳ８０９５の処理と並行して、生成部７０４が生成した非言語応答に基づいて、対話エージェントを描画する。

【0077】

ステップＳ８０７において、出力部７１３は、音声合成部７１１が合成した対話エージェントの発話音声と、描画部７１２が描画した対話エージェントを含む対話画面を出力する。例えば、出力部７１３は、通信部７０１を用いて、端末装置１０に対話画面を送信する。

【0078】

対話システム１は、図８の処理を繰り返し実行することにより、ユーザ１１の非言語情報に基づいて、対話エージェントの発話音声だけではなく、対話エージェントの非言語対応を変更することができる。これにより、本実施形態によれば、対話エージェントを用いてユーザ１１と対話を行う対話システム１において、ユーザ１１に対してより適切なリアクションを行えるようになる。

【0079】

［第１の実施形態］
本実施形態に係る対話システム１は、対話シナリオを変更することにより、様々な用途に対応することができる。第１の実施形態では、商談用途に対応した対話処理の例について説明する。

【0080】

＜機能構成＞
第１の実施形態に係る対話システム１は、例えば、図７に示すような機能構成を有している。また、第１の実施形態に係る生成部７０４は、例えば、図９に示すような機能構成を有している。

【0081】

図９は、第１の実施形態に係る生成部の機能構成の例を示す図である。図９に示すように、生成部７０４の対話制御部７０５は、例えば、入力フィルタ部９０１、対話状態管理部９０２、及び出力フィルタ部９０３を含む。

【0082】

入力フィルタ部９０１は、例えば、ユーザ１１の言語情報と非言語情報との入力を受け付ける入力Ｉ／Ｆの機能、誤認識対応機能、及び不適切な入力を検知する機能等を有している。なお、誤認識対応機能、及び不適切な入力を検知する機能は、オプションであり必須ではない。

【0083】

対話状態管理部９０２は、例えば、入力情報を記録する機能、現在の商談段階を記憶する機能、商談段階を制御する機能、及び出力情報を記録する機能等を有している。商談段階とは、商談の進行度を数値で定義した一例である。

【0084】

出力フィルタ部９０３は、例えば、対話エージェントの言語対応、及び非言語対応を出力する出力Ｉ／Ｆの機能、及び不適切な出力を検知する機能等を有している。なお、不適切な出力を検知する機能は、オプションであり必須ではない。

【0085】

意図解釈部７０６は、対話制御部７０５が受け付けたユーザ１１の言語情報と非言語情報とに基づいて、ユーザ１１の発話の意図を解釈する意図解釈処理を実行する。意図解釈部７０６は、例えば、ユーザ１１の言語情報と文脈から、ユーザ１１の意図を推定することも可能であるが、ユーザ１１の非言語情報を加味した方がより的確にユーザ１１の意図を解釈できる可能性が高くなる。

【0086】

例えば、「嘘でしょう？」というユーザ１１の発話は、ネガティブな応答に用いられる場合が多いが、良い意味で期待を上回った場合に、ユーザ１１が喜んで「嘘でしょう？」というときにも用いられる。このような場合、意図解釈部７０６は、ユーザ１１の非言語情報を手がかりにして、ユーザ１１の意図をより的確に解釈することが望ましい。

【0087】

例えば、ユーザ１１の非言語情報として、ユーザ１１の音声のトーンが高く、ユーザ１１の表情が明るい場合、意図解釈部７０６は、ユーザ１１の「嘘でしょう？」という発話を「ポジティブ（喜んで）」と判断してもよい。この場合、生成部７０４は、例えば、対話エージェントの表情を笑顔とし、現在の対話シナリオを維持してもよい。

【0088】

一方、ユーザ１１の音声のトーンが低く、ユーザ１１の画像の表情が暗い場合、意図解釈部７０６は、ユーザ１１の「嘘でしょう？」という発話を「ネガティブ」と判断してもよい。この場合、生成部７０４は、例えば、対話エージェントの身振り、手振りを低減し、より詳細な実例を含む対話（商材）シナリオに遷移してもよい（或いは、他の商材のシナリオに遷移してもよい。）

【0089】

商談というビジネスシーンでは商談相手の喜怒哀楽が表れにくいところ、ネガティブと判断される非言語情報は、商談の進行だけでなく次回の商談にも影響する長期的な心証形成にかかわる重要な情報となるため、慎重な対応が求められる。たとえばトーンの低さの程度や表情の暗さの程度までも考慮し、シナリオの遷移の可否を判断することが望ましい。

【0090】

応答生成部７０７は、複数の商談段階１～７に対応する複数の対話シナリオ９１１～９１７、商材レコメンド部９１８、及び判断部９１９等を含む。なお、商材レコメンド部９１８、及び判断部９１９は、応答生成部７０７の外部に設けられていてもよい。

【0091】

第１段階に対応する対話シナリオ９１１は、商談を開始するときに用いられる対話シナリオであり、例えば、商談の開始の挨拶、又は顧客データの検索等を行う。第２段階に対応する対話シナリオ９１２は、例えば、名刺交換、又はスモールトーク等の対話を行う。第３段階に対応する対話シナリオ９１３は、例えば、業務内容のヒアリング、又は使用機器のヒアリング等の対話を行う。第４段階に対応する対話シナリオ９１４は、例えば、顕在ニーズの確認、又は潜在ニーズの掘り起こし等の対話を行う。

【0092】

第５段階に対応する対話シナリオ９１１は、例えば、レコメンドする商材の提示、購買意欲を増進させるキャッチコピーの提示、商談延期の判断、又は商談終了の判断等の対話を行う。第６段階に対応する対話シナリオ９１２は、例えば、納期確認、又は電子契約誘導等の対話を行う。第７段階に対応する対話シナリオ９１７は、例えば、日報作成、又はアンケート生成・送付等のインタラクションを行う。

【0093】

対話制御部７０５の対話状態管理部９０２は、現在の商談の状態に応じて、複数の対話シナリオ９１１～９１７から、使用する対話シナリオを選択する。例えば、対話制御部７０５は、第１段階に対応する対話シナリオ９１１から商談を開始し、商談が進行するに伴い、商談段階を上げる。また、対話制御部７０５は、ユーザ１１が商談に否定的な場合、商談段階を下げる。

【0094】

これにより、生成部７０４は、予め設定された複数の商談段階に応じて、対話エージェントの応答内容を変更することができる。なお、商談段階は、予め設定された複数の対話段階の一例である。

【0095】

商材レコメンド部９１８は、例えば、第５段階において、第１段階～第４段階の対話内容に基づいて、ユーザ１１に薦める商材を選択する商材レコメンド処理を実行する。判断部９１９は、例えば、第５段階において、第１段階～第５段階の対話内容に基づいて、商談を延期するか否か、又は商談を終了するか否か等を判断する判断処理を実行する。

【0096】

なお、図９に示した、複数の商談段階１～７の数は一例であり、２つ以上の他の数であってもよい。また、図９に示した、複数の対話シナリオ９１１～９１７の対話内容は一例であり、他の内容であってもよい。

【0097】

＜処理の流れ＞
図１０Ａは、第１の実施形態に係る対話処理の例を示すフローチャートである。この処理は、例えば、図７に示すようなサーバ装置１００の機能構成と、図９に示すような生成部７０４の機能構成とを有する対話システム１が実行する対話処理の例を示している。

【0098】

ステップＳ１００１において、対話システム１は、第１段階に対応する対話シナリオ９１１で対話を開始するとともに、ユーザ１１に関する顧客データがあるか否かを判断する。顧客データがある場合、対話システム１は、処理をステップＳ１００２に移行させる。一方、顧客データがない場合、対話システム１は、処理をステップＳ１００８に移行させる。

【0099】

ここで、ステップＳ１００２～Ｓ１００５の処理と、ステップＳ１００８～Ｓ１０１１の処理は、同様の商談段階になっているが、利用する対話シナリオが異なる。例えば、ステップＳ１００２～Ｓ１００５の処理では、対話システム１は、顧客データを持っているので、過去の商談データに基づいて、商談を進める対話シナリオを用いることが望ましい。一方、ステップＳ１００８～Ｓ１０１１の処理では、対話システム１は、顧客データを持っていないので、顧客データの作成に必要な情報も含めて、丁寧にヒアリングする対話シナリオを用いることが望ましい。これにより、対話エージェントが、ユーザ１１に、毎回、同じような内容をヒアリングしてしまうことを抑制することができる。

【0100】

ステップＳ１００２に移行すると、対話システム１は、第２段階に対応する対話シナリオ９１２で対話を行うとともに、名刺交換、又はスモールトークができたか否かを判断する。名刺交換、又はスモールトークができた場合、対話システム１は、処理をステップＳ１００４に移行させる。一方、名刺交換、又はスモールトークができていない場合、対話システム１は、例えば、図１０Ａの処理（商談）を終了する。好ましくは、対話システム１は、第２段階に対応する対話シナリオ９１２で対話を開始してから、所定の時間を経過しても、名刺交換、又はスモールトークができていない場合、商談を終了する。

【0101】

ステップＳ１００３に移行すると、対話システム１は、第３段階に対応する対話シナリオ９１３で対話を行うとともに、例えば、業務内容、又は使用機器等の状況をヒアリングできたか否かを判断する。状況をヒアリングできた場合、対話システム１は、処理をステップＳ１００４に移行させる。一方、状況をヒアリングできていない場合、対話システム１は、例えば、図１０Ａの処理（商談）を終了する。好ましくは、対話システム１は、第３段階に対応する対話シナリオ９１３で対話を開始してから、所定の時間を経過しても、状況をヒアリングできていない場合、商談を終了する。

【0102】

ステップＳ１００４に移行すると、対話システム１は、第４段階に対応する対話シナリオ９１４で対話を行うとともに、例えば、潜在ニーズ、又は予測ニーズ等のニーズを聞き取りできたか否かを判断する。ニーズを聞き取りできた場合、対話システム１は、処理をステップＳ１００５に移行させる。一方、ニーズを聞き取りできていない場合、対話システム１は、処理をステップＳ１００３に戻す。

【0103】

ステップＳ１００５に移行すると、対話システム１は、第５段階に対応する対話シナリオ９１５で対話を行うとともに、商材を提案できたか否かを判断する。商材を提案できた場合、対話システム１は、処理をステップＳ１００６に移行させる。一方、商材を提案できていない場合、対話システム１は、処理をステップＳ１００４又はステップＳ１００５に戻す。

【0104】

例えば、対話システム１は、ステップＳ１００３、Ｓ１００４で取得した情報に基づいて、商材レコメンド部９１８を用いて、ユーザ１１に提案する商材を選択する。ただし、取得した情報が不十分であり、商材レコメンド部９１８が、ユーザ１１に提案する商材を選択できない場合、対話システム１は、処理をステップＳ１００４又はステップＳ１００５に戻す。

【0105】

ステップＳ１００６に移行すると、対話システム１は、第６段階に対応する対話シナリオ９１６で対話を行うとともに、契約を締結できたか否かを判断する。契約を締結できた場合、対話システム１は、処理をステップＳ１００７に移行させる。一方、契約を締結できていない場合、対話システム１は、例えば、処理をステップＳ１００５に戻す。

【0106】

ステップＳ１００７に移行すると、対話システム１は、第７段階に対応する対話シナリオ９１７で対話を行うとともに、商談の整理ができたか否かを判断する。商談の整理ができた場合、対話システム１は、図１０Ａの処理を終了する。

【0107】

一方、ステップＳ１００１からステップＳ１００８に移行すると、対話システム１は、第２段階に対応する対話シナリオ９１２（新規顧客用）で対話を行うとともに、名刺交換、又はスモールトークができたか否かを判断する。名刺交換、又はスモールトークができた場合、対話システム１は、処理をステップＳ１００９に移行させる。一方、名刺交換、又はスモールトークができていない場合、対話システム１は、図１０Ａの処理（商談）を終了する。好ましくは、対話システム１は、第２段階に対応する対話シナリオ９１２（新規顧客用）で対話を開始してから、所定の時間を経過しても、名刺交換、又はスモールトークができていない場合、商談を終了する。

【0108】

ステップＳ１００９に移行すると、対話システム１は、第３段階に対応する対話シナリオ９１３（新規顧客用）で対話を行うとともに、例えば、業務内容、又は使用機器等の状況をヒアリングできたか否かを判断する。状況をヒアリングできた場合、対話システム１は、処理をステップＳ１０１０に移行させる。一方、状況をヒアリングできていない場合、対話システム１は、図１０Ａの処理（商談）を終了する。好ましくは、対話システム１は、第３段階に対応する対話シナリオ９１３（新規顧客用）で対話を開始してから、所定の時間を経過しても、状況をヒアリングできていない場合、商談を終了する。

【0109】

ステップＳ１０１０に移行すると、対話システム１は、第４段階に対応する対話シナリオ９１４（新規顧客用）で対話を行うとともに、例えば、潜在ニーズ、又は予測ニーズ等のニーズを聞き取りできたか否かを判断する。ニーズを聞き取りできた場合、対話システム１は、処理をステップＳ１０１１に移行させる。一方、ニーズを聞き取りできていない場合、対話システム１は、処理をステップＳ１００９に戻す。

【0110】

ステップＳ１０１１に移行すると、対話システム１は、第５段階に対応する対話シナリオ９１５（新規顧客用）で対話を行うとともに、商材を提案できたか否かを判断する。商材を提案できた場合、対話システム１は、処理をステップＳ１００６に移行させる。一方、商材を提案できていない場合、対話システム１は、処理をステップＳ１０１０に戻す。

【0111】

図１０Ａの処理により、対話システム１は、予め設定された複数の対話段階に応じて、対話エージェントの応答内容を変更することができる。

【0112】

なお、図１０Ａの処理は一例である。例えば、対話システム１は、ステップＳ１００６において、契約締結できていない場合、図１０ＢのステップＳ１０２１、Ｓ１０２２の処理を実行してもよい。

【0113】

図１０Ｂは、第１の実施形態に係る対話処理の例を示すフローチャート（２）である。ステップＳ１００６において、契約を締結できていない場合、対話システム１は、処理をステップＳ１０２１に移行させる。

【0114】

ステップＳ１０２１に移行すると、対話システム１は、ユーザ１１の感情分析がポジティブであるか否かを判断する。感情分析がポジティブである場合、対話システム１は、処理をステップＳ１００５に戻す。一方、感情分析がポジティブでない場合（ネガティブである場合）、対話システム１は、処理をステップＳ１０２２に移行させる。

【0115】

ステップＳ１０２２に移行すると、対話システム１は、例えば、終了（又は延期）の挨拶をして、図１０Ｂの処理を終了する。例えば、対話システム１は、対話エージェントに、商談終了の挨拶をさせるとともに、お辞儀をさせてもよい。

【0116】

図１１は、第１の実施形態に係る非言語情報の利用例について説明するための図である。例えば、対話システム１は、ユーザ１１の映像１１００から、ユーザ１１の顔が向いている方向を示す方向ベクトル１１０１を取得し、取得した方向ベクトル１１０１と、ユーザ１１の瞳の位置１１２とに基づいて、ユーザ１１の視線を表す視線情報を取得する。

【0117】

例えば、ユーザ１１が、対話エージェントが提示した商材に対して関心を示している場合、ユーザ１１は、対話画面に表示した商材を凝視する傾向にあるため、例えば、視線１１０３ａ、１１０３ｂのように、視線はあまり変動しない（分散が小さい）。一方、ユーザ１１が、対話エージェントが提示した商材に対して関心を示していない場合、注意力が低下するので、例えば、視線１１０３ｃのように、視線が変動する（分散が大きい）。

【0118】

従って、対話システム１は、例えば、ユーザ１１に商材を提示した後に、ユーザ１１の視線を表す視線情報を取得して、視線の分散が小さい場合、ユーザ１１の感情分析がポジティブ（商談を続ける）と判断してもよい。また、対話システム１は、例えば、ユーザ１１に商材を提示した後に、ユーザ１１の視線を表す視線情報を取得して、視線の分散が大きい場合、ユーザ１１の感情分析がネガティブ（商談を終了、又は延期する）と判断してもよい。

【0119】

なお、この方法は、商談の終了（又は延期）の判断に限られず、例えば、より高い商談段階に移行するか、より低い商談段階に戻るかを判断するために用いてもよい。

【0120】

［第２の実施形態］
第１の実施形態では、介護用途に対応した対話処理の一例について説明する。介護用途では、回想法に対応する対話シナリオを用いることができる。回想法とは、高齢者等が、自分の過去のことを話すことで精神を安定させ、認知機能の改善も期待できる心理療法のことである。

【0121】

回想法で懐かしい思い出を話題にして対話することは、右脳で浮かんだイメージ映像を、左脳が言語化していく作業だと言われている。起承転結の会話は「５Ｗ（When, Where, Who, What, Why）話法」と言い、場面の様子やどんな風だったかを中心にした会話を「１Ｈ（How）話法」という。起承転結をともなうストーリーよりも、その時の様子や場面を対話する方が、楽しさが倍増すると言われている。

【0122】

そこで、第２の実施形態では、対話システム１は、回想法の対話シナリオを用いて、対話の進行に伴い、具体的に対話を深掘りさせるために、１Ｈ話法を重ねる対話シナリオを設け、その対話シナリオに基づいて、対話エージェントの応答内容を生成する。

【0123】

なお、第２の実施形態に係る対話システム１の機能構成は、図７で説明した対話システム１の機能構成と同様でよい。

【0124】

＜処理の流れ＞
図１２、１３は、第２の実施形態に係る対話シナリオの遷移の一例を示す図である。この図は、回想法の対話シナリオの遷移の一例を示している。なお、実際の遷移は、ユーザ１１の発話によって変わるため、この図は、図１２、１３に示すように、ユーザ１１が発話したときの遷移の一例を示している。

【0125】

例えば、状態１２０１において、対話エージェントは、「学生時代はなにかスポーツをやっていましたか？」と発話し、状態１２０２において、ユーザ１１は、一例として、「スポーツＡをやっていた」と発話したものとする。

【0126】

この場合、対話システム１は、第１段階として、対話エージェントに、スポーツＡの全般の知識を振り返る発話をさせる。例えば、状態１２０３において、対話エージェントは、「ポジションはどこでしたか？」と発話する。また、状態１２０４において、ユーザ１１は、一例として、「ポジションＢだった」と発話したものとする。

【0127】

この場合、対話システム１は、第２段階として、対話エージェントに、スポーツＡの話題を深掘りする発話をさせる。例えば、対話エージェントは、状態１２０５、１２０９、１２１３、１２１５から、ランダムに１つの状態を選択し、選択した状態に遷移させる。

【0128】

一例として、状態１２０５に遷移すると、対話エージェントは、「試合にでたことはありますか？」と発話する。また、状態１２０６において、ユーザ１１は、一例として、「何度もでていた」と発話したものとする。

【0129】

ここで、対話システム１は、第３段階として、対話エージェントに、状態１２０５の話題をさらに深掘りする発話をさせる。例えば、状態１２０７において、対話エージェントは、「なにか賞をとりましたか」と発話する。また、状態１２０８において、ユーザ１１は、一例として、「県大会に出場した」と発話したものとする。ここで、対話システム１は、一例として、状態１２１７に状態を遷移させる。

【0130】

別の一例として、状態１２０４から状態１２０９に遷移すると、対話エージェントは、「どのくらいの頻度でスポーツＡをやっていましたか？」と発話する。また、状態１２１０において、ユーザ１１は、一例として、「週に３回以上やっていた」と発話したものとする。

【0131】

ここで、対話システム１は、第３段階として、対話エージェントに、状態１２０９の話題をさらに深掘りする発話をさせる。例えば、状態１２１１において、対話エージェントは、「スポーツＡのどこが好きでしたか？」と発話する。また、状態１２１２において、ユーザ１１は、一例として、「チームでプレイできるところ」と発話したものとする。ここで、対話システム１は、一例として、状態１２１７に状態を遷移させる。

【0132】

別の一例として、状態１２０４から状態１２１３に遷移すると、対話エージェントは、「スポーツＡをすきでしたか？」と発話する。また、状態１２１４において、ユーザ１１は、一例として、「はい」と発話したものとする。ここで、対話システム１は、一例として、状態１２１１に状態を遷移させる。

【0133】

別の一例として、状態１２０４から状態１２１５に遷移すると、対話エージェントは、「スポーツＡを観戦することはありますか？」と発話する。また、状態１２１６において、ユーザ１１は、一例として、「あります」と発話したものとする。ここで、対話システム１は、一例として、状態１２１７に状態を遷移させる。このように、対話システム１は、第３段階の深掘りを省略してもよい。

【0134】

状態１２１７に遷移すると、対話エージェントは、「教えてくれてありがとうございます。スポーツＡを楽しめているのですね。素晴らしいです。」と発話し、状態１２１８において、ユーザ１１は、一例として、「はい」と発話したものとする。

【0135】

ここで、対話システム１は、例えば、対話を終了してもよいし、図１３の状態１３０１に、さらに状態を遷移させてもよい。

【0136】

状態１３０１に遷移すると、対話エージェントは、例えば、「好きなチームはありましたか？」と発話する。また、状態１３０２において、ユーザ１１は、一例として、「チームＣが好きだった」と発話したものとする。

【0137】

この場合、対話システム１は、第４段階として、対話エージェントに、スポーツＡで好きなチーム（又は選出）について深掘りする発話をさせる。例えば、状態１３０３において、対話エージェントは、「チームＣのどんなところが好きでしたか？」と発話する。また、状態１３０４において、ユーザ１１は、一例として、「強いところ」と発話したものとする。この場合、対話システム１は、対話エージェントに、終了の挨拶をさせる。例えば、状態１３０５において、対話エージェントは、「そうなんですね。教えてくれてありがとうございます。お時間を頂きありがとうございました。対話を終了します。」等と発話して、対話を終了する。

【0138】

図１２、１３の遷移により、対話システム１は、回想法の対話シナリオを用いて、対話の進行に伴い、具体的に対話を深掘りさせるために、１Ｈ話法を重ねて、対話エージェントに対話させることができる。

【0139】

［第３の実施形態］
例えば、図３に示すような対話画面３００において、音声による対話と、バーチャルヒューマン３０１の所作だけではなく、補助的な視覚情報を追加することにより、商談においても、介護においても、対話の深掘りが容易になる。

【0140】

図１４は、第３の実施形態に係る対話画面の一例を示す図である。図１４の例では、対話画面１４００には、バーチャルヒューマン（対話エージェント）１４０１、及び文字列による対話３０２に加えて、対話内容に基づいて生成した画像である挿絵１４０３が表示されている。この挿絵１４０３により、ユーザ１１は、対話内容であるクロスカントリースキーのイメージを、容易に思い浮かべることができる。なお、挿絵１４０３には、例えば、効果音、又は対話内容とは別の音声等の音情報が含まれていてもよい。

【0141】

＜機能構成＞
図１５は、第３の実施形態に係る対話システムの機能構成の例を示す図である。図１５に示すように、第３の実施形態に係るサーバ装置１００は、図７で説明したサーバ装置１００の機能構成に加えて、画像生成部１５０１を有している。

【0142】

画像生成部１５０１は、例えば、生成部７０４に含まれ、ユーザ１１との対話内容に基づいて生成した画像である挿絵１４０３生成する画像生成処理を実行する。例えば、画像生成部１５０１は、テキスト情報から画像を生成する学習済の機械学習モデル（例えば、ＤＡＬＬ・Ｅ、ＤＡＬＬ・Ｅ２、又はStable Diffusion等）を利用して、挿絵１４０３を生成することができる。また、画像生成部１５０１は、ユーザ１１の言語情報と非言語情報とのうち、少なくとも１つに基づいて、対話内容に関する画像である挿絵１４０３を生成してもよい。

【0143】

例えば、画像生成部１５０１は、ユーザ１１が発話した「クロスカントリースキー」という言語情報と、ユーザ１１の音声の「トーンが高い」という非言語情報とから、ユーザ１１の感情分析を「ポジティブ」と判断したときに、挿絵１４０３を生成してもよい。これにより、対話システム１は、ユーザ１１の回想をより誘発し、効果的な対話を行うことができる。

【0144】

なお、画像生成部１５０１以外の各機能構成は、図７で説明した一実施形態に係る対話システム１の機能構成と同様でよい。

【0145】

＜処理の流れ＞
図１６は、第３の実施形態に係る対話処理の例を示すフローチャートである。この処理は、例えば、図１５に示した機能構成を有する対話システム１が実行する対話処理の一例を示している。

【0146】

ステップＳ１６０１において、第１の取得部７０２は、ユーザ１１の発話音声を取得する。また、ステップＳ１６０２において、第１の取得部７０２は、取得したユーザ１１の発話音声に対して、音声認識処理を実行する。これにより、第１の取得部７０２は、ユーザ１１の発話音声をテキスト化した、ユーザ１１の言語情報を出力する。なお、ステップＳ１６０１、Ｓ１６０２の処理は、例えば、図８のステップＳ８０１の処理を利用してもよい。

【0147】

ステップＳ１６０３において、画像生成部１５０１は、ユーザ１１の発話音声から、要約、又はキーワード等を抽出する。また、ステップＳ１６０４において、画像生成部１５０１は、抽出した要約、又はキーワード等に基づいて、例えば、図１４で説明した挿絵１４０３等の画像を生成する。

【0148】

ステップＳ１６０４において、生成部７０４は、例えば、対話エージェントに発話させる音声を生成する。なお、この処理は、例えば、図８のステップＳ８０３、Ｓ８０４の処理を利用してもよい。また、生成部７０４は、画像生成部１５０１が、図１４に示すようなクロスカントリースキーの挿絵１４０３を生成した場合、対話エージェントにクロスカントリースキーに関する発話をさせる音声を生成してもよい。

【0149】

ステップＳ１６０６において、生成部７０４は、画像生成部１５０１が生成した画像と、生成部７０４が生成した音声を、対話画面１４００に出力する。このとき、対話システム１は、バーチャルヒューマン１４０１に、表示した挿絵１４０３をアシストする動作（例えば、指で指し示す等）をさせてもよい。

【0150】

図１６の処理により、対話システム１は、例えば、図４に示すように、対話画面１４００に、対話内容に関する画像である挿絵１４０３を表示することができる。

【0151】

［第４の実施形態］
図１７は、第４の実施形態に係る対話システムの機能構成の例を示す図である。図１７に示すように、第４の実施形態に係るサーバ装置１００は、図７で説明したサーバ装置１００の機能構成に加えて、要約部１７０１を有している。

【0152】

要約部１７０１は、例えば、生成部７０４に含まれ、対話制御部７０５が記憶部７１０に記憶した対話ログを要約して、例えば、報告書等を作成する要約処理を実行する。

【0153】

対話システム１の対話制御部７０５は、ユーザ１１と、対話エージェントとの対話が行われると、例えば、図１８に示すような対話ログ１８００を作成し、記憶部７１０等に記憶する。

【0154】

図１８の例では、対話ログ１８００は、項目として、「タイムスタンプ」、「話者」、「発話テキスト」、及び「ファイル名」等の情報を含む。「タイムスタンプ」は、ユーザ１１、又は対話エージェントによる発が行われた日時を示す情報である。「話者」は、「発話テキスト」の発話を、ユーザが行ったか、対話エージェントが行ったかを示す情報である。「発話テキスト」は、ユーザ１１、又は対話エージェントの発話をテキスト化した情報である。「ファイル名」は、ユーザ１１の発話音声のファイル名を示す情報である。

【0155】

図１８に示すように、対話ログ１８００は、ユーザ１１と対話エージェントとの間の対話を漏れなく記録したものなので、例えば、報告書として提出する場合には、これを要約することが望ましい。

【0156】

要約部１７０１は、例えば、大規模言語モデルを応用して、対話ログ１８００を要約してもよいし、文章の要約ＡＩ（Artificial Intelligence）として公開されているクラウドサービスを利用して、対話ログ１８００を要約してもよい。

【0157】

要約する場合に重要な情報としては、例えば、日時と場所、ユーザ情報（属性、及び新規顧客か既存顧客か等）のよう５Ｗ１Ｈ情報と、ユーザが抱える課題又はニーズと、提案した商材の情報と、アクションアイテム又は次の予定等の情報がある。要約部１７０１は、対話ログ１８００を要約して、これらの情報を含む報告書、又は対話の議事録等を作成する。

【0158】

また、要約部１７０１は、ユーザ１１が発話した「はい」等の言語情報と、ユーザ１１の音声の「トーンが高い」、及びユーザ１１の「表情が明るい」等の非言語情報とに基づいて、ユーザ１１が、発話エージェントが提示した商材に興味があると判断してもよい。この場合、要約部１７０１は、要約文を作成するときに、当該商材に関する記述が漏れないように文章を作成することが望ましい。

【0159】

［第５の実施形態］
図１９は、第５の実施形態に係る対話システムの機能構成の例を示す図である。図１９に示すように、第５の実施形態に係るサーバ装置１００は、図７で説明したサーバ装置１００の機能構成に加えて、キャッチコピー生成部１９０１を有している。

【0160】

キャッチコピー生成部１９０１は、例えば、図９に示した第５段階に対応する対話シナリオ９１５において、商材レコメンドとともに、ユーザ１１に提示するキャッチコピーを生成するキャッチコピー生成処理を実行する。キャッチコピーとは、人の注意をひく広告文、又は宣伝文等であり、ここでは、ユーザ１１に提案する商材を、ユーザ１１にアピールするための文字列である。

【0161】

（キャッチコピーの例１）
一例として、対話エージェントがユーザに提案する商材の概要が次のような内容のニーズ分析サービスであるものとする。

【0162】

「小売り・卸、食品飲料、製造、情報通信、サービス、医薬品・化粧品、観光などサポートセンター・コールセンター窓口の返答品質・時間短縮を支援。また、顧客から寄せられる膨大な問い合わせ等をコンテキスト化分析し、販売促進施策の立案、新商品・サービス開発へのヒントを手助けします。」
しかし、このままでは、ユーザ１１に商材の特徴が伝わりにくい。そこで、キャッチコピー生成部１９０１は、例えば、次のようなキャッチコピーを生成してもよい。
１）お客様対応から施策立案までサポート！
お客様のことを徹底分析するＡＩ
或いは、キャッチコピー生成部１９０１は、例えば、次のようなキャッチコピーを生成してもよい。
２）蓄積した顧客の声をＡＩが学習し分析！
タイムリーに最適な解決へ導く

【0163】

（キャッチコピーの例２）
別の一例として、対話エージェントがユーザに提案する商材の概要が次のような内容の営業支援サービスであるものとする。

【0164】

「顧客とのやりとりの履歴や営業ノウハウの蓄積は、個人に依存してしまい、チーム内に共有されないまま。引き継ぎ時には、ちらばった顧客データの探索に時間がかかるなど、非効率でした。属人的になりがちな営業現場の情報共有で、手間のかかる検索作業を軽減します。たとえば、ベテランの作成した類似案件の提案書等参考情報が共有できれば、スキルでばらつく資料作成といった課題をクリアにし、商談を成功させるドキュメント開発に貢献します。」
しかし、このままでは、ユーザ１１に商材の特徴が伝わりにくい。そこで、キャッチコピー生成部１９０１は、例えば、次のようなキャッチコピーを生成してもよい。
３）お客様の関心事を即効インストール！
商談成功をサポートするＡＩ
或いは、キャッチコピー生成部１９０１は、例えば、次のようなキャッチコピーを生成してもよい。
４）属人的な営業スタイルをＡＩが学習！
お客様の関心事に応じた提案書をＡＩがレコメンド
このようなキャッチコピーは、例えば、大規模言語モデルを用いることで、効率よく生成することができる。また、キャッチコピー生成部１９０１は、外部のクラウドサービス等が提供する、また、キャッチコピー生成サービス等を利用して、キャッチコピーを生成してもよい。

【0165】

＜処理の流れ＞
図２０は、第５の実施形態に係る情報提供処理の例を示すフローチャートである。この処理は、例えば、図９に示すような、第５段階に対応する対話シナリオ９１５において、ユーザ１１に提案する商材に対応するキャッチコピーを生成する処理の一例を示している。

【0166】

ステップＳ２００１において、図９の商材レコメンド部９１８は、例えば、図１０ＡのステップＳ１００３～Ｓ１００４で行われた対話内容に基づいて、ユーザ１１に提案する商材を決定する。

【0167】

ステップＳ２００２において、図１９のキャッチコピー生成部１９０１は、決定した商材に関する商材データを、記憶部７１０等から取得する。

【0168】

ステップＳ２００３において、キャッチコピー生成部１９０１は、取得した商材データを用いて、商材レコメンド部９１８が決定した商材のキャッチコピーを生成する。一例として、キャッチコピー生成部１９０１は、外部のクラウドサービス等が提供する、キャッチコピー生成サービスを利用して、キャッチコピーを生成してもよい。別の一例として、キャッチコピー生成部１９０１は、大規模言語モデルを用いて、キャッチコピーを生成してもよい。

【0169】

ステップＳ２００４において、対話システム１は、ユーザ１１に提案する商材と、当該商材のキャッチコピーを、ユーザ１１に提示する。例えば、対話システム１は、図２に示すような対話画面２００に表示されているディスプレイ２０２に、提案する商材の情報と、商材のキャッチフレーズを表示させる。

【0170】

なお、図２０に示す処理は一例である。例えば、ユーザ１１に提案する商材は、複数の商材を組み合わせたパッケージ商材であってもよい。この場合、キャッチコピー生成部１９０１は、ステップＳ２００２において、複数の商材の商材データを取得し、ステップＳ２００３において、複数の商材の商材データを用いて、キャッチフレーズを生成する。

【0171】

第５の実施形態により、対話システム１は、商材の価値を分かりやすく端的に、ユーザ１１に伝えることができる。

【0172】

［第６の実施形態］
図２１は、第６の実施形態に係る対話システムの機能構成の例を示す図である。図２１に示すように、第６の実施形態に係るサーバ装置１００は、図７で説明したサーバ装置１００の機能構成に加えて、記憶部７１０等に過去履歴ＤＢ（Database）２１０１、及び非言語情報の入出力情報（以下、単に入出力情報と呼ぶ）２１０２等を有している（記憶している）。

【0173】

過去履歴ＤＢ２１０１は、例えば、ユーザ１１の過去の対話ログ、非言語情報、及び体調等の情報を記憶したデータベースである。

【0174】

入出力情報２１０２には、例えば、図２２に示すように、ユーザ１１の画像、及び音声から取得した（入力された）非言語情報が、ポジティブであるか、ネガティブであるかを判断するための情報が含まれる。また、入出力情報２１０２には、例えば、図２２に示すように、対話エージェントの画像、及び音声が表す非言語情報が、ポジティブであるか、ネガティブであるかを示す情報が含まれる。

【0175】

これにより、意図解釈部７０６は、入出力情報２１０２を用いて、ユーザ１１の画像、及び音声に含まれる非言語情報が、ポジティブであるか、ネガティブであるかを容易に判断することができる。また、応答生成部７０７は、入出力情報２１０２を用いて、対話エージェントのポジティブな非言語情報、又はネガティブな非言語情報の例を取得することができる。

【0176】

また、第６の実施形態に係る第２の取得部７０３は、端末装置１０を利用するユーザ１１との対話から、ユーザ１１の非言語情報を取得する際に、非言語情報（感情系）と、非言語情報（個性系）とを取得する。ここで、非言語情報（感情系）は、例えば、ユーザ１１の感情、態度、言葉（強さ、早さ、又は抑揚等）、生理的特徴、又は身体動作（視線、表情等）等、そのときによって変化する非言語情報を含む。例えば、意図解釈部７０６は、第２の取得部７０３が取得した非言語情報（感情系）に基づいて、ユーザ１１がポジティブであるか、ネガティブであるかを判断することができる。

【0177】

一方、非言語情報（個性系）は、例えば、ユーザ１１の性別、年齢、身体的な特徴、又は身なり等、そのときによって変化しない、又は変化が少ない非言語情報（属性情報）を含む。例えば、応答生成部７０７は、第２の取得部７０３が取得した非言語情報（個性系）に基づいて、ユーザの属性（例えば、性別、年齢、又は体躯等）に応じた言語応答、又は非言語応答を生成することができる。なお、非言語情報（個性系）は、ユーザ１１の属性を示す非言語情報の一例である。

【0178】

なお、第６の実施形態に係る対話システム１の他の機能構成は、図７で説明した対話システム１の機能構成と同様でよい。

【0179】

＜処理の流れ＞
図２３は、第６の実施形態に係る対話処理の例を示すフローチャートである。この処理は、ユーザ１１と対話エージェントとの対話を開始した後に、図２１に示すような対話システム１が実行する処理の例を示している。なお、ここでは、図８で説明した一実施形態に係る対話処理の概要と同様の処理内容に対する詳細な説明は省略する。

【0180】

ステップＳ２３０１において、第１の取得部７０２は、ユーザ１１と、対話エージェントとの間の対話から、ユーザの言語情報を取得する。

【0181】

ステップＳ２３０２、Ｓ２３０３において、第２の取得部７０３は、ステップＳ２３０１の処理と並行して、ユーザ１１と、対話エージェントとの間の対話から、ユーザ１１の非言語情報（感情系）と、非言語情報（個性系）とを取得する。

【0182】

ステップＳ２３０４において、生成部７０４は、第１の取得部７０２が取得した言語情報と、第２の取得部７０３が取得した非言語情報（感情系）とに基づいて、ユーザ１１の発話の意図を解釈する。

【0183】

ステップＳ２３０５において、生成部７０４は、第２の取得部７０３が取得した非言語情報（個性系）、又は過去履歴ＤＢ２１０１を参照して、ユーザ１１の発話の意図に対応する言語応答（対話文）を生成する。例えば、生成部７０４は、過去履歴ＤＢ２１０１のユーザ１１との過去の対話履歴等から、ユーザ１１の性別、趣味、又は体型等を判断し、ユーザ１１の性別、趣味、又は体型等に応じて異なる言語応答（対話文）を生成する。

【0184】

なお、ユーザ１１の過去履歴がない場合、生成部７０４は、例えば、ユーザ１１の画像から、顔領域を検出し、年齢性別推定ＡＩ（Artificial Intelligence）等を用いて、ユーザ１１の性別、又は年齢等を推定してもよい。また、生成部７０４は、ユーザ１１の画像から、体型推定ＡＩ等を用いて、ユーザ１１の体型を推定してもよい。さらに、生成部７０４は、ユーザ１１の言語情報から、ユーザ１１の趣味等を判断してもよい。なお、生成部は、推定したユーザ１１の性別、年齢、又は体型等を、過去履歴ＤＢ２１０１に記憶しておく。

【0185】

具体的な一例として、商談中に、生成部７０４が、ユーザ１１の言語情報と非言語情報から、ユーザ１１が、年齢が４０代の女性で、趣味がコスメティック（以下、コスメと呼ぶ）であると判断したものとする。この場合、生成部７０４は、４０代向けのコスメ商材の紹介、又は提案をする価値ありと判断し、例えば、具体的な商材を紹介する言語応答を生成してもよい。

【0186】

別の一例として、生成部７０４は、商談中に、ユーザ１１の画像からユーザ１１の体型を推定し、ユーザ１１の過去の体型の履歴とを比較して、ユーザ１１の体型の推移、又は過去の体型との比較等を行ってもよい。これにより、生成部７０４は、例えば、最近になって太ったユーザ１１に対して、低糖質の食材、又は体重管理アプリケーション等の商材を初回する言語応答を生成してもよい。

【0187】

別の一例として、生成部７０４は、商談中に、ユーザ１１の画像から、ユーザ１１の服装おしゃれ度を推定し、ユーザ１１の過去の服装おしゃれ度を比較してもよい。これにより、生成部７０４は、服飾関係の商材を優先的に紹介する価値があると判断したユーザ１１に対して、具体的な商材を紹介する言語応答を生成してもよい。

【0188】

別の一例として、生成部７０４は、商談中に、ユーザ１１の画像からユーザ１１の体型を推定し、過去履歴の病歴情報等と合わせて、ユーザ１１の体調を確認する必要があるかを判断してもよい。これにより、生成部７０４は、体調を確認する必要があると判断したユーザ１１に対して、現状の体調を確認する言語応答を生成してもよい。

【0189】

ステップＳ２３０６において、生成部７０４は、生成した言語応答と、さらに、ユーザ１１の非言語情報とに基づいて、対話エージェントのパラ言語（例えば、声のトーン、話す速さ、声の高さ、声の強さ、咳払い、ため息、笑い、又は沈黙等）を決定する。例えば、生成部７０４は、図２２に示すような入出力情報２１０２を参照して、ユーザ１１の感情分析がポジティブであると判断した場合、入出力情報２１０２から、対話エージェントのポジティブな非言語情報（パラ言語）を取得してもよい。同様に、生成部７０４は、図２２に示すような入出力情報２１０２を参照して、ユーザ１１の感情分析がネガティブであると判断した場合、入出力情報２１０２から、対話エージェントのネガティブな非言語情報（パラ言語）を取得してもよい。

【0190】

なお、図２２に示した入出力情報２１０２は一例である。入出力情報２１０２には、様々な、ユーザ１１のポジティブな非言語情報、及びネガティブな非言語情報と、対話エージェントのポジティブな非言語情報、及びネガティブな非言語情報とを、予め登録しておく。

【0191】

ステップＳ２３０７において、制御部７１４は、生成部７０４が生成した言語応答と、生成部７０４が決定したパラ言語とに基づいて、対話エージェントの応答音声を合成する。

【0192】

また、サーバ装置１００は、ステップＳ２３０６、Ｓ２３０７の処理と並行して、ステップＳ２３０８、Ｓ２３０９の処理を実行する。

【0193】

ステップＳ２３０８において、生成部７０４は、ユーザ１１の非言語情報に基づいて、対話エージェントの表情、視線、又は所作等を決定する。例えば、生成部７０４は、図２２に示すような入出力情報２１０２を参照して、ユーザ１１の感情分析がポジティブであると判断した場合、入出力情報２１０２から、対話エージェントのポジティブな非言語情報（表情、視線、又は所作等）を取得する。同様に、生成部７０４は、図２２に示すような入出力情報２１０２を参照して、ユーザ１１の感情分析がネガティブであると判断した場合、入出力情報２１０２から、対話エージェントのネガティブな非言語情報（表情、視線、又は所作等）を取得する。

【0194】

ステップＳ２３０９において、生成部７０４は、決定した対話エージェントの表情、視線、又は所作等に基づいて、対話エージェントの動作（モーション）を決定する。

【0195】

具体的な一例として、生成部７０４は、商談中に、ユーザ１１の感情分析がポジティブであると判断した場合、例えば、対話エージェントを笑顔とし、手振りを大きくしてもよい。また、生成部７０４は、ユーザ１１の感情分析がネガティブであると判断した場合、例えば、対話エージェントを寂しい顔とし、頷き、お辞儀等をさせてもよい。

【0196】

ポジティブ・ネガティブの判断に加え非言語情報（個性系）に基づいて対話エージェントの動作（モーション）をさせてもよい。たとえば、ポジティブの場合で、過去履歴ＤＢに記録されたユーザの手振りや腕組みの形、会話のペースやリズム、などユーザの非言語情報（個性系）に合わせた（類似した）動作を対話エージェントに実行させる。

【0197】

ステップＳ２３１０において、制御部７１４は、生成部７０４が決定した対話エージェントの動作に基づいて、対話エージェントを描画し、描画した対話エージェント、及び合成した応答音声を含む対話画面を出力する。例えば、出力部７１３は、通信部７０１を用いて、端末装置１０に対話画面を送信する。

【0198】

対話システム１は、例えば、図８の処理を繰り返し実行することにより、ユーザ１１の非言語情報（個性系）、又は過去履歴ＤＢ２１０１等に基づいて、ユーザ１１に対してより適切なリアクションを行えるようになる。

【0199】

＜利用シーンの例＞
続いて、本実施形態に係る対話システム１の利用シーンの例について説明する。

【0200】

（利用シーンＡ）
図２４は、一実施形態に係る利用シーンＡのシステム構成の例を示す図である。利用シーンＡは、図１の端末装置１０がデジタルサイネージのサイネージ端末２４００である場合の例を示している。図２４の例では、サイネージ端末２４００は、カメラ、及びマイク等の入力デバイス２４０１と、コンピュータのハードウェア構成を備えている。

【0201】

図２５は、一実施形態に係る利用シーンＡの対話開始処理の例を示すフローチャートである。

【0202】

ステップＳ２５０１において、対話システム１は、サイネージ端末２４００が備える入力デバイス２４０１で撮影した画像からユーザ１１の顔を検知する。具体的な一例として、対話システム１は、入力デバイス２４０１で撮影した画像から人物の顔画像を抽出し、抽出した顔画像に対して顔認証を行う。また、対話システム１は、抽出した顔画像が顔認証ＯＫとなった場合、ユーザ１１の顔を検知したと判断する。

【0203】

ステップＳ２５０２において、対話システム１は、顔検知が所定の時間継続したかを判断する。例えば、対話システム１は、ユーザ１１顔を検知した状態が、所定の時間（例えば、５秒間）継続したか否かを判断する。顔検知が所定の時間継続した場合、対話システム１は、処理をステップＳ２５０３に移行させる。一方、顔検知が所定の時間継続しなかった場合、対話システム１は、処理をステップＳ２５０１に戻す。なお、ステップＳ２５０１、Ｓ２５０２の処理は、サイネージ端末２４００が行ってもよいし、サーバ装置１００が行ってもよい。

【0204】

ステップＳ２５０３に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴があるかを判断する。例えば、サーバ装置１００は、過去履歴ＤＢ２１０１等を参照して、ユーザ１１の過去の対話ログがある場合、ユーザ１１の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置１００は、処理をステップＳ２５０４に移行させる。一方、過去の履歴がない場合、サーバ装置１００は、処理をステップＳ２５０５に移行させる。

【0205】

ステップＳ２５０４に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴（過去の対話ログ等）から、対話処理に用いるシナリオを決定する。これにより、対話システム１は、同じユーザ１１に、何度も同じ質問、又は発話を繰り返し行ってしまうことを抑制することができる。

【0206】

ステップＳ２５０５に移行すると、サーバ装置１００は、対話処理に用いるシナリオとして、定型のシナリオ（例えば、新規顧客用のシナリオ等）を選択する。

【0207】

ステップＳ２５０６に移行すると、対話システム１は、サイネージ端末２５００との間で、例えば、図１～２３で説明した対話処理を実行する。図２５の処理により、対話システム１は、サイネージ端末２５００を利用して、ユーザ１１に対話サービスを提供することができる。また、対話システム１は、ユーザ１１の過去の対話履歴等に基づいて、ユーザ１１に提供する対話内容を変更することができる。なお、ステップＳ２７０３～Ｓ２７０５の処理はオプションであり、必須ではない。例えば、対話システム１は、ステップＳ２５０６の対話処理の中で、対話に用いるシナリオを決定してもよい。

【0208】

（利用シーンＢ）
図２６は、一実施形態に係る利用シーンＢのシステム構成の例を示す図である。利用シーンＢは、図１の端末装置１０がメタバース用のディスプレイ端末２６００である場合の例を示している。ディスプレイ端末２６００は、例えば、ヘッドマウントディスプレイ、又は空間再現ディスプレイのメタバース用のディスプレイと、コンピュータの構成とを備えている。また、対話システム１は、仮想空間上の対話エージェントを用いて、ユーザ１１に対話サービスを提供する。

【0209】

図２７は、一実施形態に係る利用シーンＢの対話開始処理の例を示すフローチャートである。

【0210】

ステップＳ２７０１において、対話システム１は、仮想空間上で、ユーザ１１のアバターの接近を検知する。例えば、対話システム１は、ユーザ１１のログイン情報、仮想空間上のユーザ１１のアバターの座標と対話エージェントの座標から、ユーザ１１のアバターが所定の距離（例えば、１ｍ等）以内に接近したか否かを検知する。

【0211】

ステップＳ２７０２において、対話システム１は、ユーザ１１のアバターが所定の距離（例えば、１ｍ等）以内に接近した状態が、所定の時間（例えば、５秒等）継続したか否かを判断する。ユーザ１１のアバターの接近が所定の時間継続した場合、対話システム１は、処理をステップＳ２７０３に移行させる。一方、ユーザ１１のアバターの接近が所定の時間継続しなかった場合、対話システム１は、処理をステップＳ２７０１に戻す。

【0212】

ステップＳ２７０３に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴があるかを判断する。例えば、サーバ装置１００は、過去履歴ＤＢ２１０１等を参照して、ユーザ１１の過去の対話ログがある場合、ユーザ１１の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置１００は、処理をステップＳ２７０４に移行させる。一方、過去の履歴がない場合、サーバ装置１００は、処理をステップＳ２７０５に移行させる。

【0213】

ステップＳ２７０４に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴（過去の対話ログ等）から、対話処理に用いるシナリオを決定する。一方、ステップＳ２７０５に移行すると、サーバ装置１００は、対話処理に用いるシナリオとして、定型のシナリオ（例えば、新規ユーザのシナリオ等）を選択する。

【0214】

ステップＳ２７０６に移行すると、対話システム１は、仮想空間上で、例えば、図１～２３で説明した対話処理を実行する。図２７の処理により、対話システム１は、メタバース用のディスプレイ端末２６００を利用して、仮想空間上でユーザ１１に対話サービスを提供することができる。

【0215】

（利用シーンＣ）
図２８は、一実施形態に係る利用シーンＣのシステム構成の例を示す図である。利用シーンＣは、ユーザ１１が、端末装置１０を用いて、サーバ装置１００が提供する対話エージェントとウェブ会議を行う場合の例を示している。なお、ユーザ１１は、システム外の会議サーバ２８１０等が提供するウェブ会議に参加するものであってもよいし、サーバ装置１００が、ウェブ会議を提供するものであってもよい。

【0216】

図２９は、一実施形態に係る利用シーンＣの対話開始処理の例を示すフローチャートである。

【0217】

ステップＳ２９０１において、ユーザ１１が、端末装置１０を用いて、対話システム１が提供する対話エージェントと同じウェブ会議に参加するものとする。例えば、ユーザ１１は、端末装置１０を用いて、対話エージェントとウェブ会議に参加するためのリンクにアクセスすることにより、当該ウェブ会議に参加する。

【0218】

ステップＳ２９０２において、対話システム１は、ウェブ会議において、ユーザ１１による対話開始操作を受け付けたか否かを判断する。ユーザ１１による対話開始操作を受け付けた場合、対話システム１は、処理をステップＳ２９０３に移行させる。一方、ユーザ１１による対話開始操作を受け付けていない場合、対話システム１は、例えば、ステップＳ２９０２の処理を繰り返し実行する。

【0219】

ステップＳ２９０３に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴があるかを判断する。例えば、サーバ装置１００は、過去履歴ＤＢ２１０１等を参照して、ユーザ１１の過去の対話ログがある場合、ユーザ１１の過去の履歴があると判断する。過去の履歴がある場合、サーバ装置１００は、処理をステップＳ２９０４に移行させる。一方、過去の履歴がない場合、サーバ装置１００は、処理をステップＳ２９０５に移行させる。

【0220】

ステップＳ２９０４に移行すると、サーバ装置１００は、ユーザ１１の過去の履歴（過去の対話ログ等）から、対話処理に用いるシナリオを決定する。一方、ステップＳ２９０５に移行すると、サーバ装置１００は、対話処理に用いるシナリオとして、定型のシナリオ（例えば、新規ユーザのシナリオ等）を選択する。

【0221】

ステップＳ２９０６に移行すると、対話システム１は、ウェブ会議上で、例えば、図１～２３で説明した対話処理を実行する。図２９の処理により、対話システム１は、ウェブ会議を利用して、ユーザ１１に対話サービスを提供することができる。

【0222】

以上、本発明の各実施形態によれば、対話エージェントを用いてユーザ１１と対話を行う対話システム１において、ユーザ１１に対してより適切なリアクションを行えるようになる。

【0223】

＜補足＞
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

【0224】

また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの１つを示すものに過ぎない。ある実施形態では、サーバ装置１００は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。

【0225】

また、サーバ装置１００の各機能構成は、１つのサーバ装置にまとめられていても良いし、複数の装置に分けられていても良い。さらに、サーバ装置１００の各機能構成のうち、少なくとの一部は、端末装置１０が有していてもよい。

【0226】

＜付記＞
本明細書には、下記の各項の対話システム、対話制御方法、及びプログラムが開示されている。
（第１項）
対話エージェントを用いてユーザと対話を行う対話システムであって、
前記対話から前記ユーザの言語情報を取得する第１の取得部と、
前記対話から前記ユーザの非言語情報を取得する第２の取得部と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成部と、
前記生成部で生成した応答内容に基づいて前記対話エージェントを制御する制御部と、
を備える、対話システム。
（第２項）
前記対話エージェントの応答内容は、前記対話エージェントの非言語応答を含み、
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントの非言語応答を変更する、
第１項に記載の対話システム。
（第３項）
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションの内容を変更する、第２項に記載の対話システム。
（第４項）
前記生成部は、前記ユーザの非言語情報に応じて、前記対話エージェントのアクションのタイミングを変更する、第２項又は第３項に記載の対話システム。
（第５項）
前記ユーザの非言語情報は、前記ユーザの画像から取得した表情、視線、姿勢、又は感情の情報を含む、第１項～第４項のいずれかに記載の対話システム。
（第６項）
前記ユーザの非言語情報は、前記ユーザの音声から取得した声の大小、声の抑揚、又は声の音色の情報を含む、第１項～第５項のいずれかに記載の対話システム。
（第７項）
前記生成部は、前記対話のシナリオに応じて、前記対話エージェントの応答内容を変更する、第１項～第６項のいずれかに記載の対話システム。
（第８項）
前記生成部は、予め設定された複数の対話段階に応じて、前記対話エージェントの応答内容を変更する、第１項～第７項のいずれかに記載の対話システム。
（第９項）
前記生成部は、前記ユーザの視線情報に基づいて前記対話段階を変更する、第８項に記載の対話システム。
（第１０項）
前記ユーザの言語情報に基づいて、対話内容に関する画像を生成する画像生成部を有し、
前記対話エージェントと、前記画像とを用いて、前記ユーザと対話を行う、
第１項～第９項のいずれかに記載の対話システム。
（第１１項）
前記対話の対話ログに基づいて、前記対話を要約する要約部を有する、第１項～第１０項のいずれかに記載の対話システム。
（第１２項）
前記対話は、前記ユーザとの商談であり、
前記商談の対話内容に基づいて、前記ユーザに提案する商材を提案する、
第１項～第１１項のいずれかに記載の対話システム。
（第１３項）
前記商談の対話内容に基づいて、前記商材のキャッチコピーを提示する。
第１２項に記載の対話システム。
（第１４項）
前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴に基づいて、前記対話のシナリオを変更する、第１項～１３項のいずれかに記載の対話システム。
（第１５項）
前記対話の過去の履歴を記憶したデータベースを有し、
前記生成部は、前記対話の過去の履歴を参照して、前記対話エージェントの言語応答を生成する、
第１項～１４項のいずれかに記載の対話システム。
（第１６項）
前記第２の取得部は、前記対話から前記ユーザの属性を示す非言語情報を取得し、
前記生成部は、前記ユーザの属性に応じた前記言語応答、又は前記非言語応答を生成する、第１項～第１５項のいずれかに記載の対話システム。
（第１７項）
対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータが、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行する、対話制御方法。
（第１８項）
対話エージェントを用いてユーザと対話を行う対話システムにおいて、
コンピュータに、
前記対話から前記ユーザの言語情報を取得する処理と、
前記対話から前記ユーザの非言語情報を取得する処理と、
前記ユーザの言語情報と前記ユーザの非言語情報とに基づいて、前記対話エージェントの言語応答と非言語応答とを含む応答内容を生成する生成処理と、
前記生成処理で生成した応答内容に基づいて前記対話エージェントを制御する処理と、
を実行させる、プログラム。

【0227】

以上、本発明の実施形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、及び応用が可能である。

【符号の説明】

【0228】

１対話システム
１０端末装置
１００サーバ装置
２００、３００対話画面
２０１、３０１、１４０１バーチャルヒューマン（対話エージェント）
５００コンピュータ
７０２第１の取得部
７０３第２の取得部
７０４生成部
７１４制御部
１５０１画像生成部
１７０１要約部
１９０１キャッチコピー生成部

【先行技術文献】

【特許文献】

【0229】

【特許文献1】特開２０２２－０９３４７９号公報

【図1】