特開2024-117199 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 花王株式会社の特許一覧

特開2024-117199対話システム、対話プログラム、対話方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024117199

(43)【公開日】2024-08-29

(54)【発明の名称】対話システム、対話プログラム、対話方法

(51)【国際特許分類】

G10L 13/08 20130101AFI20240822BHJP

G10L 13/00 20060101ALI20240822BHJP

G10L 15/10 20060101ALI20240822BHJP

G10L 15/22 20060101ALI20240822BHJP

G06F 40/30 20200101ALI20240822BHJP

G06F 40/56 20200101ALI20240822BHJP

【ＦＩ】

G10L13/08 122

G10L13/00 100M

G10L13/08 124

G10L15/10 500T

G10L15/22 300U

G06F40/30

G06F40/56

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023023145

(22)【出願日】2023-02-17

(71)【出願人】

【識別番号】000000918

【氏名又は名称】花王株式会社

(74)【代理人】

【識別番号】110001863

【氏名又は名称】弁理士法人アテンダ国際特許事務所

(72)【発明者】

【氏名】高柳直人

(72)【発明者】

【氏名】平石牧子

(72)【発明者】

【氏名】楊井一彦

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA15

5B091CA12

5B091CA14

5B091CA21

5B091CB12

5B091CB32

5B091EA01

(57)【要約】

【課題】ユーザとの間で実際の人との音声会話のような対話を実現することができる対話システム、対話プログラム及び方法を提供する。
【解決手段】対話システム１は、ユーザ発言取得部１０と、ユーザ発言に対して応答文を作成する応答文作成部２０と、応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する発言意図ラベル付与部３０と、発言意図ラベルに基づき当該応答文に追加する追加文の意図ラベルを選択する追加文意図ラベル選択部４０と、追加文意図ラベルに基づき前記応答文に追加文を付与する追加文付与部６０と備えた。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザと対話する対話システムであって、
ユーザの発言を取得するユーザ発言取得部と、
前記ユーザ発言取得部で取得したユーザの発言に対して応答文を作成する応答文作成部と、
前記応答文作成部で作成した応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する発言意図ラベル付与部と、
前記発言意図ラベル付与部で付した発言意図ラベルに基づき当該応答文に追加する追加文の意図ラベルを選択する追加文意図ラベル選択部と、
追加文意図ラベル選択部で選択した追加文意図ラベルに基づき前記応答文に追加文を付与する追加文付与部と備えた
ことを特徴とする対話システム。

【請求項2】

前記ユーザ発言取得部はユーザの発話音声から当該ユーザの発言を取得するとともに、
前記追加文付与部に追加文が付与された前記応答文を音声により出力する音声出力部を備えた
ことを特徴とする請求項１に記載の対話システム。

【請求項3】

前記応答文作成部は、テキストデータからなる前記応答文を作成し、
前記発言意図ラベル付与部は、前記テキストデータからなる前記応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する
ことを特徴とする請求項１又は２に記載の対話システム。

【請求項4】

前記追加文意図ラベルは、反応、リアクション、相槌表現のうち少なくともいずれか１つを含む
ことを特徴とする請求項１乃至３何れか１項に記載の対話システム。

【請求項5】

前記ユーザ発言取得部で取得したユーザの発言の対話テーマを抽出する対話テーマ抽出部を備え、
前記追加文付与部は、前記対話テーマに関するユーザへの質問を含む追加文を付与する
ことを特徴とする請求項１乃至４何れか１項に記載の対話システム。

【請求項6】

前記追加文意図ラベル選択部は、予め音声会話から解析して得られたユーザの発言に対する応答に含まれる複数の文についての各発言意図の出現パターンに基づき、前記追加文意図ラベルを選択し、
前記追加文付与部は、前記追加文意図ラベルと当該追加文意図ラベルに対応する文例を記憶した会話データベースを用いて、前記追加文を付与する
ことを特徴とする請求項１乃至５何れか１項に記載の対話システム。

【請求項7】

コンピュータを、請求項１乃至６何れか１項に記載の対話システムとして機能させる
ことを特徴とする対話プログラム。

【請求項8】

ユーザと対話する対話システムにおけるユーザとの対話方法であって、
対話システムが、
（１）ユーザの発言を取得する第１のステップと、
（２）前記第１のステップで取得したユーザの発言に対して応答文を作成する第２のステップと、
（３）前記第２のステップで作成した応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する第３のステップと、
（４）前記第３のステップで付した発言意図ラベルに基づき当該応答文に追加する追加文の追加文意図ラベルを選択する第４のステップと、
（５）前記第４のステップで選択した追加文意図ラベルに基づき追加文を作成して前記応答文に当該追加文を付与する第５のステップとを備えた
ことを特徴とする対話方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザと対話を行う対話システムに関する。

【背景技術】

【0002】

他者との会話を通じたコミュニケーションは、対人関係の構築や維持に重要な役割を担う。例えば、特に、高齢者にとって会話による他者との社会的交流機会を維持することはＱＯＬ（ＱｕａｌｉｔｙｏｆＬｉｆｅ）の向上や記憶力の維持といった様々な健康増進に寄与すると考えられる。

【0003】

一方で、近年では少子高齢化や核家族化の影響、地域コミュニティ活動の縮小に伴い、「ご近所付き合い」といったコミュニケーションの機会が希薄になっている。そのため、他者と「話したい」という欲求に反してコミュニケーションの機会が思った程取れないという課題がある。

【0004】

コミュニケーションを取る機会が少ないという課題に対し、人工知能を搭載したロボットや対話エージェントといった対話システムを、話し相手の代用とする試みがなされている。

【0005】

人工知能を搭載した対話システムは大きく２つに分類することができる。一つは、「今日の天気を教えて」、「〇〇について教えて」等の課題に応じた発話を行うスマートスピーカー等のシステムである。このシステムはタスク型の対話システムと呼ばれる。もう一つは、日常会話や雑談等のように明確な課題がなく、相手と共に時を過ごすための活動として会話をすることができるシステムである。このシステムは非タスク型の対話システムと呼ばれる。

【0006】

非タスク型の対話システムはタスク型の対話システムと比較して言葉の選択の自由度が非常に高いため、ユーザとの対話内容がかみあわないという対話破綻が起こる可能性が高い。そのため、近年ではディープラーニング技術を利用し、膨大なテキストデータを学習させることで対話破綻を起きにくくする対話システムが提案されている。例えば、２０２０年に、Ｆａｃｅｂｏｏｋ（Ｍｅｔａ）が発表した、ＴｒａｎｓｆｏｒｍｅｒをベースとするＢｌｅｎｄｅｒＢｏｔがある（非特許文献１）。ＢｌｅｎｄｅｒＢｏｔをはじめとするＴｒａｎｓｆｏｒｍｅｒをベースとした対話モデルは、主にテキストデータが学習データとして利用される。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２０１４－４８４４３号公報

【非特許文献】

【0008】

【非特許文献1】Roller et al. Recipes for building an open-domain chatbot, arXiv:2004.13637(2020)

【非特許文献2】藤原吏生、他、「ＩＬＹＳａｏｂａｂｏｔ：大規模ニューラル応答生成モデルとルールベースを統合した雑談対話システム」，第９０回人工知能学会言語・音声理解と対話処理研究会（第１１回対話システムシンポジウム）（２０２０）

【発明の概要】

【発明が解決しようとする課題】

【0009】

しかしながら、メッセージアプリ等を活用して収集されたテキストによる対話と、音声による対話では発話内容や発話パターンに違いがあると考えられる。そのため、ディープラーニングをベースとした対話モデルを単独で用いるだけでは、特に音声をベースとした対話システムへの適応が難しく、人間が実際に行っているような「人らしい会話」を実現させることは難しい。

【0010】

一方、実際の人間同士の会話データに基づいて、生成された応答文にフィラー（えっと、えー、など）、言いよどみ、類語といった冗長表現を加えることで、音声対話に適応した音声合成システムが提案されている（特許文献１）。この技術は、会話中の冗長的表現を表す冗長表現データをテキストデータに含まれる話し言葉のテキストに挿入することで、テキストデータであっても音声に出力した際に自然な発話を実現できることが特徴である。

【0011】

しかしながら、この技術はあくまでテキストデータに冗長表現を加えることで音声での対話に近づける技術であり、音声による対話特有の発話パターンや発話傾向をもとに具体的な内容の発話を付与しているわけではない。

【0012】

本発明は上記事情に鑑みてなされたものであり、その目的とするところは、ユーザとの間で実際の人との音声会話のような対話を実現することができる対話システム、対話プログラム及び方法を提供することにある。

【課題を解決するための手段】

【0013】

本願発明者は、対話システムにおいて、音声ならではの人らしい対話を実現するためには、ユーザ発言に対して作成した応答文の発言意図を判定し、その発言意図に応じて、人同士の会話データベースから特定の発話パターンとなるよう追加文を応答文に付与することが有効であることを見出し、本発明を完成させた。

【0014】

すなわち、本願発明は、ユーザと対話する対話システムであって、ユーザの発言を取得するユーザ発言取得部と、前記ユーザ発言取得部で取得したユーザの発言に対して応答文を作成する応答文作成部と、前記応答文作成部で作成した応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する発言意図ラベル付与部と、前記発言意図ラベル付与部で付した発言意図ラベルに基づき当該応答文に追加する追加文の追加文意図ラベルを選択する追加文意図ラベル選択部と、追加文意図ラベル選択部で選択した追加文意図ラベルに基づき前記応答文に追加文を付与する追加文付与部と備えたことを特徴とする。

【発明の効果】

【0015】

本発明によれば、単なる応答文だけでなく、指定された情報の提供や冗長表現などを追加文として追加することが可能となる。すなわち、よりユーザが求める応答をすることが可能となるので、ユーザとの間で実際の人との音声会話のような対話を実現することができる。

【図面の簡単な説明】

【0016】

【図1】対話システムの機能ブロック図

【図2】音声対話とテキスト対話の相違を説明する図

【図3】対話システムの動作を説明するフローチャート

【図4】対話システムを用いた対話の一例を説明する図

【図5】受入性評価の評価結果

【発明を実施するための形態】

【0017】

本発明の一実施の形態に係る対話システムについて図面を参照して説明する。図１は対話システムの機能ブロック図である。

【0018】

図１に示すように、対話システム１は、ユーザの発言を取得するユーザ発言取得部１０と、ユーザ発言取得部１０で取得したユーザの発言に対して応答文を作成する応答文作成部２０と、応答文作成部２０で作成した応答文の発言意図を推定して応答文にメタ情報として発言意図ラベルを付与する発言意図ラベル付与部３０と、発言意図ラベル付与部３０で付した発言意図ラベルに基づき当該応答文に追加する追加文の追加文意図ラベルを選択する追加文意図ラベル選択部４０と、ユーザ発言取得部１０で取得したユーザの発言の対話テーマを抽出する対話テーマ抽出部５０と、追加文意図ラベル選択部４０で選択した追加文意図ラベルに基づき応答文に追加文を付与する追加文付与部６０と、追加文付与部６０により追加文が付与された前記応答文を音声により出力する音声出力部７０と、とを備える。

【0019】

対話システム１の実装形態は不問である。対話システム１は、主演算装置・主記憶装置・補助記憶装置等を備えた従来周知のコンピュータにプログラムをインストールすることにより実装することができる。また、対話システム１は専用のハードウェアとして実装することもできる。また、対話システム１は、上述の各部１０～７０を複数の装置に分散して実装することができる。また、後述するように、対話システム１の各部１０～７０は、その機能の一部を他の装置に実装することができる。また、対話システム１は、他のシステムの一部として組み込むことができる。例えば、対話システム１は、ロボットの一部として組み込むことができる。

【0020】

ユーザ発言取得部１０は、所定の入力手段を介してユーザの発言を取得して当該ユーザ発言をテキストデータとして出力する。入力手段としてはユーザの発話音声から音声データを取得するマイク１０ａが挙げられる。この場合、ユーザ発言取得部１０は、音声データからテキストを識別してテキストデータに変換する音声認識機能を有する。当該音声認識機能は、対話システム１内に設けてもよいし、外部の装置に設けられた音声認識機能を利用するようにしてもよい。後者の場合、例えばいわゆるクラウドサーバなどネットワークを介して通信可能なコンピュータに実装された音声認識機能を用いることができる。ユーザ発言取得部１０は、自身内で音声認識処理を行うために或いは外部の装置の音声認識処理を利用するために、一時的に音声データを録音・記録する録音機能部を有していてもよい。

【0021】

また、入力手段としては、ユーザの音声ではなくユーザが入力するテキストデータを取得するものであってもよい。入力手段としては、キーボード、マウス、タッチパッドなどの入力デバイスが挙げられる。

【0022】

また、音声データを取得する入力手段は対話システム１内に設けてもよいし、外部に配置した入力手段を利用するようにしてもよい。例えば、対話システム１に有線又は無線で通信可能に接続された各種入力デバイスを利用することができる。また例えば、対話システム１と通信可能に接続した外部のコンピュータに備えられた又は接続された各種入力デバイスを利用することができる。

【0023】

応答文作成部２０は、ユーザ発言取得部１０で取得されたテキストデータからなるユーザ発言を入力として、当該ユーザ発言に対するテキストデータからなる応答文を作成する応答文作成機能を有する。本実施の形態では、応答文作成部２０は非タスク型の対話に係る応答文を作成する。応答文作成機能は、対話システム１内に設けてもよいし、外部の装置に設けられた応答文作成機能を利用するようにしてもよい。後者の場合、例えばいわゆるクラウドサーバなどネットワークを介して通信可能なコンピュータに実装された応答文作成機能を用いることができる。応答文作成部２０は、入力されたユーザ発言を履歴データとして記憶することができる。この場合、応答文作成部２０は、ユーザ発言取得部１０で取得されたユーザ発言に対して、履歴データとして記憶している１又は複数の直近のユーザ発言を付加して入力データとすることができる。応答文作成部２０が作成する応答文は一入力あたり複数であってもよい。

【0024】

応答文の作成アルゴリズムとしては従来周知の種々のものを用いることができる。例えば、ＢｌｅｎｄｅｒＢｏｔ（非特許文献１）などのＴｒａｎｓｆｏｒｍｅｒベースのディープラーニング技術を利用して応答文を生成することが可能である。日本語でもＴｒａｎｓｆｏｒｍｅｒをベースとした対話モデル（ＩＬＹＳ－ａｏｂａ－ｂｏｔ）が東北大学より公開されている（非特許文献２）。本実施形態では、公開されている日本語でのＴｒａｎｓｆｏｒｍｅｒをベースとした対話モデルを応答文の生成に利用した。この対話モデルは、主にテキストデータが学習データとして利用される。

【0025】

また、従来のＱ＆Ａチャットボット（タスク型チャットボット）などに用いられるように、ユーザの意図とその意図に対応する返答フレーズが格納されたデータベースを準備し、そのデータベースをもとに応答文を作成することも可能である。例えば、あらかじめ、ユーザの発言意図「（お腹が空いた）」とそれに対応する返答フレーズ「近くにレストランがありますよ」という、意図と返答フレーズのセットを含むデータベースを準備したとする。ユーザが「お腹がペコペコです。」と発言した場合、「（お腹が空いた）」という意図に対応したフレーズである「近くにレストランがありますよ」という返答フレーズを応答文として選択することが可能である。なお、このユーザの意図を判定し、それに対応したフレーズを応答文として作成する方法を用いる際は、Ｍｉｃｒｏｓｏｆｔ社のＬＵＩＳ（ＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）など、機械学習から情報を抽出するクラウドベースのＡＰＩサービスを利用して作成することも可能である。

【0026】

発言意図ラベル付与部３０は、応答文作成部２０で作成した応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する。発言意図ラベル付与部３０の発言意図推定機能は、対話システム１内に設けてもよいし、外部の装置に設けられた発言意図推定機能を利用するようにしてもよい。後者の場合、例えばいわゆるクラウドサーバなどネットワークを介して通信可能なコンピュータに実装された発言意図推定機能を用いることができる。

【0027】

発言意図ラベル付与部３０は、応答文作成部２０で作成した応答文１つに対して複数の発言意図ラベルを付与することができる。また、発言意図ラベル付与部３０は、応答文作成部２０で作成した応答文が複数の場合、各応答文に対して１又は複数の発言意図ラベルを付与することができる。また、応答文作成部２０で作成した応答文が複数の場合、複数の応答文からなる群に対して応答文の数より少ない発言意図ラベルを付与することができる。つまり、応答文の数と発言意図ラベルの数の関係は必ずしも１対１ではない点に留意されたい。

【0028】

発言意図ラベル付与部３０による発言意図推定アルゴリムは種々のものを用いることできる。発言意図ラベル付与部３０は、発言の意図の種類を示す発言意図ラベルと、各発言意図ラベルに対応する例文が記憶された会話データベースを備え、当該会話データベースを参照することにより応答文作成部２０で作成した応答文の発言意図を推定し、発言意図ラベルをメタ情報として当該応答文に付与する。具体的には、発言意図ラベル付与部３０は、発言意図と対応文のデータセットを用いて発言意図推定モデルの作成を行い、そのモデルから応答文作成部２０で作成した応答文の発言意図ラベルを取得する。

【0029】

ここで、発言意図ラベルとは、発言の意図の種類を示す情報であり、発言意図を短い言葉で簡潔に表したものである。発言意図ラベルの一例を表１に示す。表１では１４種の発言意図ラベルが挙げられている。発言意図ラベルは、例えば同表に示すように記号化してもよい。なお、発言意図ラベルの種類は以下の表に挙げた１４種に限られないが、高齢者との日常会話における発言意図を大凡この１４種に分類することで相手の意図を汲み取った発言が可能である。

【0030】

【表1】

【0031】

下記の表２は発言意図ラベルに対応する発言の例文である。発言意図ラベルとその例文を対応させてデータベースとして記憶させておき、応答文作成部２０で作成した応答文についてデータベースに参照することでユーザの発言の意図を推定することが可能となる。

【0032】

【表2】

【0033】

また、発言意図ラベル付与部３０は、応答文作成部２０で作成した応答文の意図を推定するため、発言意図ラベルとその例文を対応させたデータベースから発言意図推定モデルを作成し、この発言意図推定モデルを利用してもよい。発言意図推定モデルは、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）を始めとするＴｒａｎｓｆｏｒｍｅｒベースの機械学習手法などを利用して作成することができる。また、前述したＭｉｃｒｏｓｏｆｔ社のＬＵＩＳ（ＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）などのクラウドベースのＡＰＩサービスを利用して作成することも可能である。本実施形態では、ＢＥＲＴをもとに作成した発言意図推定モデルを利用した。具体的には、発言意図ラベルとその例文を対応させたデータベースを学習データとし、これらのデータで事前に学習させることで発言意図推定モデルを準備し、応答文の発言意図推定に用いた。

【0034】

追加文意図ラベル選択部４０は、発言意図ラベル付与部３０で付した発言意図ラベルに基づき当該応答文に追加する追加文の追加文意図ラベルを選択する。ここで、追加文意図ラベルとは、追加文に係る発言の意図の種類を示す情報であり、その発言意図を短い言葉で簡潔に表したものである。追加文意図ラベルの種類は上記表２に示すものと同様であり、追加文意図ラベル選択部４０は上記表２の中から１又は複数のラベルを、応答文に追加する追加文の追加文意図ラベルとして選択する。

【0035】

追加文意図ラベル選択部４０は、発言意図ラベル付与部３０で付与した発言意図ラベル１つに対して１又は複数の追加文意図ラベルを選択することができる。追加文意図ラベル選択部４０は、発言意図ラベル付与部３０で付与した発言意図ラベルが複数の場合、各発言意図ラベルに対して１又は複数の追加文意図ラベルを選択することができる。また、追加文意図ラベル選択部４０は、発言意図ラベル付与部３０で付与した発言意図ラベルが複数の場合、複数の発言意図ラベルからなる群に対して発言意図ラベルの数より少ない追加文意図ラベルを付与することができる。つまり、発言意図ラベルの数と追加文意図ラベルの数の関係は必ずしも１対１ではない点に留意されたい。

【0036】

追加文意図ラベル選択部４０による追加文意図ラベルの選択アルゴリムについて説明する。出願人は、実際の人間同士の音声対話を観察し、あるユーザの発言と当該発言に対する応答について音声対話特有の発話パターンを見出した。この発話パターンとは、ユーザの発言に係る発言意図ラベルと、当該発言に対する応答の発言意図ラベルとの関係性を意味する。換言すれば、この発話パターンとは、予め音声会話から解析して得られたユーザの発言に対する応答に含まれる複数の文についての各発言意図の出現パターンである。追加文意図ラベル選択部４０は、ユーザの発言に対する応答が前記発話パターンに適合するように、発言意図ラベル付与部３０で付与された応答文の発言意図ラベルに基づき、当該応答文に追加すべき追加文の追加文意図ラベルを選択するものである。

【0037】

音声対話特有の発話パターンを見出すため、出願人は、同一の試験参加者において、音声による対話とテキストによる対話という２つの対話形式における発話ラベルの違いについて比較を行った。具体的には、３０代男性１名を「聞き手」とし、５２名の６０，７０代女性を「話し手」として、対面形式での音声対話（５分）、チャット形式でのテキスト対話（１５分）という２つの形式で１対１の対話を行い、「聞き手」の発話について比較を行った。なお、対話テーマは「最近の趣味や最近気になっていること」とした。

【0038】

２つの形式における「聞き手」の発言意図ラベルの総計を図２に示す。音声による対話ではテキストによる対話と比較して、「反応（Ｒｅ）」ラベルについて高い割合を示し、「自分の考えや話（Ｍｙ）」ラベルについて低い割合を示すことが分かった。

【0039】

そこで、本実施形態では、音声対話特有の発話パターンとなるように、非タスク型の応答文作成部２０が作成する応答文に新たに追加する追加文として以下、２点に着目することとした。

【0040】

１点目として、非タスク型の応答文作成部２０が作成する応答文から推定された発言意図ラベルの内、「反応（Ｒｅ）」ラベル及び「同意（Ａｇ）」ラベルのいずれもが含まれていない場合に、文頭に「反応（Ｒｅ）」ラベルに関係する追加文を付加することとした。これは前述した２つの形式での発話から、音声対話はテキスト対話と比較して「反応（Ｒｅ）」ラベルが多く、特に、文頭で顕著にみられたためである。これにより、テキストデータを学習したＴｒａｎｓｆｏｒｍｅｒモデルであっても、「反応（Ｒｅ）ラベル」が発言意図としてみられなかった場合に追加文として新たに付与することで、音声対話特有の発話パターンを再現できると考えた。

【0041】

なお、上述した新たに追加する追加文意図ラベルは本実施形態では「反応（Ｒｅ）」ラベルとして定義しているが、これらは「なるほど」「確かに」といった語彙的応答、「そうなんですね」「そうですか」「えー」「あー」「すごい」「それは面白い」といったリアクションとしての反応や「うん」「ええ」「はい」といった相槌表現についても含まれる。

【0042】

２点目として、非タスク型の応答文作成部２０が作成する応答文から推定された発言意図ラベルの内、「質問（Ｑ）」ラベルが含まれていない場合に、文末に「質問（Ｑ）」ラベルに関係する追加文を追加することとした。これはテキスト対話では、「自分の話や考え（Ｍｙ）」ラベルが多く、テキストデータを学習したＴｒａｎｓｆｏｒｍｅｒモデルでは自分の話に固執する可能性があるためである。これにより、「質問（Ｑ）」に対する追加文として新たに付与することで、ユーザの話題を深掘りし、音声対話と同様に会話を展開していけるのではないかと考えた。

【0043】

なお、対話システム１と対話をすることが想定されるユーザの年代等に応じて、データを収集する際の「話し手」「聞き手」それぞれの年代を定めてもよい。例えば、データを収集するときの「話し手」を児童、「聞き手」を学校の教職員とすることにより、対話システム１が児童と人間らしい音声対話を続けることを可能とするデータを取得することができる。

【0044】

また、取得したデータをもとに本実施形態とは異なる追加文意図ラベルを付与してもよい。例えば、ユーザに対して共感する応答文を生成したい場合は応答文の発言意図ラベルに「同意（Ａｇ）」ラベルが含まれていない場合に文頭にて本ラベルを付与し、後述する追加文付与部６０において相当する追加文を付与することで実現が可能である。

【0045】

このように本実施の形態では、追加文意図ラベル選択部４０は、応答文の発言意図ラベルを条件として、追加文意図ラベルを選択する処理を行う。応答文の発言意図ラベルの条件と追加文意図ラベルとの対応関係は、上記知見に基づき、１：１の静的な関係として設定することができる。また、応答文の発言意図ラベルの条件と追加文意図ラベルとの対応関係は、上記知見に基づき、１：Ｎ（Ｎ：２以上の自然数）という対応関係とすることもできる。

【0046】

対話テーマ抽出部５０は、ユーザ発言取得部１０で取得したユーザの発言から深掘りすべき対話テーマを抽出する。本実施の形態では、対話テーマ抽出部５０は、形態素解析を用いて対話テーマを抽出する。ここで、形態素解析とは、予め辞書等に基づいて登録された単語の品詞などの情報に基づき、入力文を、言語的に意味を持つ最小単位に分割していく解析手法である。例えば、ユーザの入力文が「買い物にはよく行きますけど。」であるとき、Ｍｅｃａｂというオープンソース形態素解析エンジンを利用することで、「買い物／に／は／よく／行く／ます／けど／。」といった形態素に分割することができる。対話テーマ抽出部５０は、抽出された形態素について、あらかじめ記憶していた単語と当該単語に対応するテーマ名を含むデータベースをもとに、対話テーマを抽出する。また、対話テーマ抽出部５０は、当該対話テーマの抽出元となった単語を付加情報として対話テーマに付加する。データベースの一例を表３に示す。なお、ユーザの発言に含まれる形態素のうち、テーマに相当する形態素が一つも含まれない場合、対話テーマは付与しないよう処理する。

【0047】

【表3】

【0048】

例えば、「野球が好きです。」というユーザの発言の場合、形態素解析により、「野球」という単語が抽出される。「野球」はあらかじめ記憶していた単語、対応するテーマ名を含むデータベースの中に含まれており、対応するテーマ名である「スポーツ」が抽出される。

【0049】

追加文付与部６０は、追加文意図ラベル選択部４０で選択した追加文意図ラベルに基づき応答文に追加する追加文を作成し、応答文作成部２０で作成した応答文に前記作成した追加文を追加する。追加文付与部６０は、追加文意図ラベル選択部４０で選択した追加文意図ラベルが複数の場合、各追加文意図ラベルに対して追加文の作成及び応答文への追加処理を行う。追加文付与部６０は、追加文意図ラベルに応じて異なる追加文決定処理を行うことができる。

【0050】

上述のように、本実施形態では、追加文意図ラベル選択部４０が選択する追加文意図ラベルの１つに「反応（Ｒｅ）」ラベルがある。追加文付与部６０は、この「反応（Ｒｅ）」ラベルに関係する追加文については、追加文をあらかじめ記憶したデータベースを参照し、データベースに記憶された追加文からランダムに１つ選択することにより追加文を作成する。データベースの一例を表４に示す。なお、表４において、［固有表現］とは、ユーザが直前の発言で「花王ミュージアム」などの固有表現を用いた時にそれを引用するための表記である。本実施の形態では、対話テーマ抽出部５０で抽出した対話テーマに付加された単語を用いることができる。返答ラベル「反応（Ｒｅ）」に対応する追加文は、Ｔｒａｎｓｆｏｒｍｅｒベースのディープラーニング技術を利用した方法により決定してもよい。

【0051】

【表4】

【0052】

また、本実施形態では、追加文意図ラベル選択部４０が選択する追加文意図ラベルの１つに「質問（Ｑ）」ラベルがある。追加文付与部６０は、「質問（Ｑ）」ラベルに関係する追加文については、対話テーマ抽出部５０によって抽出されたユーザ発言の対話テーマを用いて追加文を作成する。具体的には、追加文付与部６０は、予め記憶したテーマ名と各テーマにおける１又は複数の質問文を含むデータベースを参照し、対話テーマ抽出部５０によって抽出されたユーザ発言の対話テーマから質問文を１つ選択し、この質問文を追加文とする。データベースの一例を表５に示す。なお、表５において、［単語］は、対話テーマ抽出部５０で抽出した対話テーマに付加された単語を引用するための表記である。

【0053】

【表5】

【0054】

例えば、対話テーマ抽出部５０で抽出された対話テーマが「スポーツ」の場合、質問文はデータベースに含まれる「スポーツ」のテーマ別質問からランダムに選択され、一例として「野球にハマったきっかけとかはあるんですか？」という質問文が追加文として選択される。

【0055】

追加文付与部６０は、後述する対話テーマ抽出部５０において対話テーマが抽出されなかった場合、追加文を作成しないよう処理することができる。また、追加文付与部６０は、過去発話から対話テーマを数ターン記憶保持しておき、後述する対話テーマ抽出部５０において対話テーマが抽出されなかった場合でも、当該記憶保持した対話テーマを用いて追加文を作成することができる。

【0056】

音声出力部７０は、追加文付与部６０により追加文が付与されたテキストデータである応答文から音声信号を生成し、当該音声信号をスピーカー７０ａ等の所定の出力手段から音声出力する。テキストデータから音声信号を生成する手段は、従来周知の種々のものを用いることができる。

【0057】

次に、本実施の形態に係る対話システム１の動作について図３のフローチャートを参照して説明する。図１に示すように、まず、ユーザ発言取得部１０が、ユーザの発言を取得する（ステップＳ１）。次に、応答文作成部２０が、ユーザ発言に対する応答文を作成する（ステップＳ２）。次に、発言意図ラベル付与部３０が、前記応答文の発言意図を推定して当該応答文にメタ情報として発言意図ラベルを付与する（ステップＳ３）。次に、追加文意図ラベル付与部４０が、応答文の発言意図ラベルに基づき当該応答文に追加する追加文の追加文意図ラベルを選択する（ステップＳ４）。一方、対話テーマ抽出部５０が、ユーザ発言に基づき対話テーマを抽出する（ステップＳ５）。そして、追加文付与部６０が、追加文意図ラベルに基づき追加文を作成して前記応答文に当該追加文を付与する（ステップＳ６）。このとき、追加文付与部６０は、追加文意図ラベルの種類に応じて対話テーマも参照して追加文を作成する。最後に、音声出力部７０が、追加文の付与された前記応答文を音声により出力する（ステップＳ７）。なお、ステップＳ５は、ステップＳ１より後で且つステップＳ６より前であれば、そのタイミングは不問である。

【実施例0058】

本実施の形態に係る対話システム１の実施例について図４を参照して説明する。図４は、ユーザが対話システム１に対して「買い物にはよく行きますけど。」と発話した場合の一例を示す。

【0059】

まず、ユーザの発言として「買い物にはよく行きますけど。」という発話が取得される（ステップＳ１１）。次に、この「買い物にはよく行きますけど。」というユーザ発言に対し、「私も買い物にはよく行きますよ。」という応答文が生成される（ステップＳ１２）。

【0060】

次に、「私も買い物にはよく行きますよ。」という応答文に対して、記憶させておいたデータベース（発言意図推定モデル）を参照し、発言意図ラベル「自分の話や考え（Ｍｙ）」が付与される（ステップＳ１３）。なお、今回は１文であったため、発言意図ラベルも１つしか付与されていないが、応答文が複数文である場合は発言意図ラベルも複数付与されることとする。例えば、「そうなんですか。私も買い物にはよく行きますよ。」という生成文の場合、「反応（Ｒｅ）」と「自分の話や考え（Ｍｙ）」という２つの発言意図ラベルが付与される。

【0061】

次に、「私も買い物にはよく行きますよ。」という一文について「自分の話や考え（Ｍｙ）」という１つの発言意図ラベルのみがステップＳ１３にて判定されており、「反応（Ｒｅ）」「同意（Ａｇ）」「質問（Ｑ）」という発言意図ラベルがいずれも含まれていない。そのため、追加文意図ラベルとして「反応（Ｒｅ）」と「質問（Ｑ）」が選択される（ステップＳ１４）。

【0062】

一方、「買い物にはよく行きますけど。」というユーザ発言に対して対話テーマ「買い物」が抽出される（ステップＳ１５）。

【0063】

次に、「反応（Ｒｅ）」ラベルに対応する追加文として、文頭に「買い物に行かれるんですね。」という追加文が応答文に追加される（ステップＳ１６）。次に、「質問（Ｑ）」ラベルに対応する追加文として、対話テーマ「買い物」が参照され、文末に「近くに良い場所があるんですか？」という追加文が応答文に追加される（ステップＳ１７）。

【0064】

そして、追加文が付与された応答文「買い物に行かれるんですね。私も買い物にはよく行きますよ。近くに良い場所があるんですか？」が音声として出力される（ステップＳ１８）。

【0065】

このように、Ｔｒａｎｓｆｏｒｍｅｒモデルのみの対話では「私も買い物にはよく行きますよ。」という応答文のみが出力されるのみフレーズのみであったのに対し、本システムでは「買い物に行かれるんですね。私も買い物にはよく行きますよ。近くに良い場所があるんですか？」となり、音声対話特有の発話パターンを有する発話となる。

【0066】

＜受入性評価＞
本実施の形態に係る対話システム（本システム）と、本発明のような追加文を付与しない従来の音声対話システム（従来システム）の２つについて、システム発話に関する印象評価を実施した。

【0067】

あらかじめ、２種類のシステムと女性１名・男性１名がそれぞれ趣味について対話する動画を準備した（計４動画）。女性は買い物が趣味としてそれぞれ２つのシステムと対話を行い、男性はテニスが趣味としてそれぞれ２つのシステムと会話を行った。これらの動画について、１２名の試験参加者に視聴してもらい、各システムの発話内容について印象評価を実施した。

【0068】

印象評価は、試験参加者に対して、Ｑ１「応答が自然であった」、Ｑ２「相手の話を受け止めている」、Ｑ３「相手の話に興味を持っている」、Ｑ４「相手の話を深掘りしている」という４つの質問を行い、それぞれの項目について「本システムの方が強く感じた」「本システムの方がやや強く感じた」「従来システムの方がやや強く感じた」「従来システムの方が強く感じた」という４段階で回答を得た。回答結果を図５に示す。

【0069】

印象評価の結果を確認したところ、全ての印象評価項目について本システムの方が高い評価が得られた。特に、Ｑ３の「相手の話に興味を持っている」、Ｑ４の「相手の話を深掘りしている」といった項目について本システムの評価が高いことがわかった。ゆえに、本発明により音声対話特有の発話パターンを有する発話とすることで、相手の話に対して興味を示したり、相手の話を深掘りしたりすることが可能となり、結果として、より人らしい会話を実現できる可能性が示された。

【0070】

以上のように、本実施の形態に係る対話システム１によれば、ユーザ発言に対して一旦作成した応答文に対して、当該応答文の意図を示す発言意図ラベルがメタ情報として付与され、この発言意図ラベルに基づき応答文に対して追加文の追加文意図ラベルが選択され、この追加文意図ラベルに基づき追加文が応答文に付加される。これにより、単なる応答文だけでなく、指定された情報の提供や冗長表現などを追加文として追加することが可能となる。すなわち、よりユーザが求める応答をすることが可能となるので、ユーザとの間で実際の人との音声会話のような対話を実現することができる。

【0071】

以上、本発明の一実施の形態について詳述したが、本発明は上記実施の形態に限定されるものではなく、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよい。

【0072】

例えば、上記実施の形態に係る対話システム１では、対話テーマに沿った質問を追加文として応答文に追加するために、ユーザ発言から対話テーマを抽出する対話テーマ抽出部５０を備えていたが、追加文として対話テーマとの関連性が不要である場合、対話テーマ抽出部５０は必ずしも必要でない。

【0073】

また、上記実施の形態に係る対話システム１では、ユーザとの間で音声での対話を行うよう構成していたが、いわゆるチャットボットと呼ばれるようにテキストによりユーザと対話する対話システムにおいても本発明を適用できる。

【符号の説明】

【0074】

１…対話システム
１０…ユーザ発言取得部
２０…応答文作成部
３０…発言意図ラベル付与部
４０…追加文意図ラベル選択部
５０…対話テーマ抽出部
６０…追加文付与部
７０…音声出力部

【図1】

【図2】

【図3】

【図4】

【図5】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版