特許第6985311号(P6985311)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6985311相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法
<>
  • 特許6985311-相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 図000002
  • 特許6985311-相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 図000003
  • 特許6985311-相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 図000004
  • 特許6985311-相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6985311
(24)【登録日】2021年11月29日
(45)【発行日】2021年12月22日
(54)【発明の名称】相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法
(51)【国際特許分類】
   G10L 13/08 20130101AFI20211213BHJP
   G10L 13/00 20060101ALI20211213BHJP
【FI】
   G10L13/08 122
   G10L13/00 100M
【請求項の数】4
【全頁数】15
(21)【出願番号】特願2019-19481(P2019-19481)
(22)【出願日】2019年2月6日
(65)【公開番号】特開2020-126186(P2020-126186A)
(43)【公開日】2020年8月20日
【審査請求日】2020年12月14日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【弁理士】
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】呉 剣明
(72)【発明者】
【氏名】帆足 啓一郎
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2006−039120(JP,A)
【文献】 特開2016−090891(JP,A)
【文献】 西村祥吾 他 ,"日常的な対話継続を目的としたテレビを共同視聴するロボットとの盛り上がり共有 ",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2017年04月10日,Vol.116,No.448,pp.147−152
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
G10L 15/00−15/22
G06F 40/56
(57)【特許請求の範囲】
【請求項1】
入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータを機能させる対話実施プログラムであって、
前記装置は、複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、多数の発話を含むコーパスとを有し、
前記対話実施プログラムは、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
してコンピュータを機能させ
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
とを特徴とする対話実施プログラム。
【請求項2】
当該応答用発話生成モデルは、文脈情報としての追加発話、入力発話及び応答用発話が組になった学習データによって構築された、追加発話を考慮して応答用発話を出力する応答用発話生成モデルであり、または、当該学習データによって構築された、追加発話を考慮して応答用発話を出力する応答用発話生成モデルが別途設けられており、
生成された追加発話を文脈情報として、次いで取得された入力発話とともに当該追加発話を考慮して応答用発話を出力する応答用発話生成モデル入力し、応答用発話を出力させるモデル制御手段としてコンピュータを更に機能させることを特徴とする請求項1に記載の対話実施プログラム。
【請求項3】
入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置であって、
複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、
多数の発話を含むコーパスと、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
を有し、
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
とを特徴とする対話実施装置。
【請求項4】
入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータにおいて実施される方法であって、
前記装置は、複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、多数の発話を含むコーパスとを有し、
前記方法は、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定するステップと、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力するステップと
を有し、
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
とを特徴とする対話実施方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザとの間で対話を行う対話システムの技術に関する。
【背景技術】
【0002】
近年、ユーザとの間で対話を実施し、当該ユーザに種々のサービスを提供可能な対話システムの開発が盛んに進められている。例えば、現在普及しているスマートフォンには、ユーザの発話による問合せに音声で回答し、検索結果等の情報を提供する対話応答機能が常備されているものも少なくない。
【0003】
このような対話システムでは、ユーザの発話であるユーザ発話に対し、如何に適切なシステム側の応答発話を生成するかが最重要の課題となる。
【0004】
この課題に対し、例えば、非特許文献1には、リカレントニューラルネットワークの一種であるLSTM(Long Short term Memory)を用いたエンコーダ(encoder)及びデコーダ(Decoder)から構成された発話生成モデルであるSeq2Seq(Sequence to Sequence)モデルが開示されている。
【0005】
このモデルのLSTMによるエンコーダでは、ユーザ発話の発話文を単語等のトークン(token)に分解し、当該発話文であるトークン列をID化した上で、各トークンをエンコーダに順次入力し、エンコーダ内で隠れベクトル(hidden vector)を順次生成して保持し、最後のトークンによる隠れベクトルをデコーダへ出力する。次いで、デコーダは、エンコーダから受け取った隠れベクトルを用いて、システム側の応答発話の発話文を構成するトークンを順次生成し、最終的に応答発話の発話文となるトークン列を出力するのである。
【0006】
さらに、このようにして生成された大量の発話文・応答文のペアを学習データとして用いることによって、ユーザ発話からシステム側の応答発話を動的に生成可能なSeq2Seqモデルが構築されるのである。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Sutskever, I., Vinyals, O., and Le, Q. V., “Sequence to sequence learning with neural networks” NIPS Proceedings: Advances in Neural Information Processing Systems, 3104〜3112頁, 2014年
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献1に記載された技術を含めた従来技術では、応答発話として単なる相槌が比較的に多く出力され、無難ではあるが内容の薄い対話になってしまう場合が少なくないとの問題が生じていた。
【0009】
ここで、このような問題は、発話生成モデルを構築する際に使用される発話学習データが通常、人間同士の対話における発話から生成されたデータとなっており、当該データには実際に、「いいですね」、「そうですね」、「だよね」といった相槌が相当に多く含まれていることに起因して生じるのである。
【0010】
このように、応答発話が無難な内容の提供に終始してしまうと、例えばユーザが対話を続けたいとの意欲も削がれがちとなってユーザの発話がそれほど行われなくなり、結果的に、対話システム設置の目的である、所望のユーザ情報の収集、ユーザへの適切なサービスの提供や、マーケティング成果の獲得等を達成することができなくなる場合も生じてしまう。
【0011】
そこで、本発明は、対話の中で、対話先ユーザとのタッチポイント(接点,繋がり)をより拡充させることが可能な対話実施プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明によれば、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータを機能させる対話実施プログラムであって、
上記の装置は、複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、多数の発話を含むコーパスとを有し、
本対話実施プログラムは、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
してコンピュータを機能させ
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
ことを特徴とする対話実施プログラムが提供される。
【0017】
さらに、本発明による対話実施プログラムの他の実施形態として
当該応答用発話生成モデルは、文脈情報としての追加発話、入力発話及び応答用発話が組になった学習データによって構築された、追加発話を考慮して応答用発話を出力する応答用発話生成モデルであり、または、当該学習データによって構築された、追加発話を考慮して応答用発話を出力する応答用発話生成モデルが別途設けられており、
本対話実施プログラムは、生成された追加発話を文脈情報として、次いで取得された入力発話とともに当該追加発話を考慮して応答用発話を出力する応答用発話生成モデル入力し、応答用発話を出力させるモデル制御手段としてコンピュータを更に機能させることも好ましい。
【0018】
本発明によれば、また、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置であって、
複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、
多数の発話を含むコーパスと、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定する相槌判定手段と、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力する応答発話生成手段と
を有し、
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
ことを特徴とする対話実施装置が提供される。
【0019】
本発明によれば、さらに、入力発話を受け取って応答用発話を生成する応答用発話生成モデルを用いて対話を実施する装置に搭載されたコンピュータにおいて実施される方法であって、
上記の装置は、複数の名詞用の疑問詞を含む名詞用疑問詞リスト、及び複数の動詞用の疑問詞を含む動詞用疑問詞リストを備えた疑問詞リストと、多数の発話を含むコーパスとを有し、
本方法は、
当該応答用発話生成モデルの生成した応答用発話が、予め設定された相槌相当の発話であるか否かを判定するステップと、
当該応答用発話が相槌相当の発話であると判定された際、当該入力発話から、所定条件を満たす語である重要語を抽出して、当該重要語が名詞の場合には当該名詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択し、また、当該重要語が動詞の場合には当該動詞用疑問詞リストに含まれる疑問詞の中から、当該疑問詞と当該重要語とを含む語句が当該コーパスから検索される度合いに基づき疑問詞を選択して、選択した疑問詞と当該重要語とを含んだ質問相当の追加発話を生成し、当該追加発話を当該応答用発話に追加した発話を、応答発話として出力するステップと
を有し、
当該相槌相当の発話は、間投詞、又は理解、共感若しくは同意を示す語句・短文、又は当該間投詞若しくは当該語句・短文に類似する語句・短文である
ことを特徴とする対話実施方法が提供される。
【発明の効果】
【0020】
本発明の対話実施プログラム、装置及び方法によれば、対話の中で、対話先ユーザとのタッチポイント(接点,繋がり)をより拡充させることができる。
【図面の簡単な説明】
【0021】
図1】本発明による対話実施装置の一実施形態における機能構成を示す機能ブロック図である。
図2】本発明に係る相槌判定部及び応答発話生成部における相槌判定処理及び応答発話生成処理の一実施例を説明するための模式図である。
図3】本発明に係る追加発話生成部における追加発話生成処理の一実施例を説明するための模式図である。
図4】本発明による対話実施装置の他の実施形態における機能構成を示す機能ブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0023】
[対話実施装置]
図1は、本発明による対話実施装置の一実施形態における機能構成を示す機能ブロック図である。
【0024】
図1によれば、本発明の一実施形態としての対話実施装置1は、ユーザが当該装置に対しユーザインタフェース(UI)101を介して対話を行うことができる装置である。
【0025】
ここで、ユーザインタフェース101がマイク及びスピーカであって、ユーザがユーザ発話を音声で入力し、装置側発話が同じく音声で出力されてもよい。または、ユーザインタフェース101がタッチパネル・ディスプレイであって、ユーザがユーザ発話をタッチパネルに対するタップ等の入力操作をもって入力し、一方、装置側発話がディスプレイに表示されてもよい。さらに、上述した発話入出力の混合形態をとることも勿論可能である。
【0026】
本実施形態において、対話実施装置1は、装置へ入力されたユーザ発話である入力発話を受け取って、装置側発話を生成するための応答用発話を生成する発話生成モデル102を備えている。この発話生成モデル102は、例えば公知のSeq2Seq(Sequence to Sequence)等のモデルとすることができる。
【0027】
ここで従来、このようなモデルを構築するのに人間同士の対話に基づく発話学習データが利用されてきたが、当該データには実際に、「いいですね」、「そうですね」、「だよね」といった「相槌相当の発話」が相当に多く含まれている。その結果、発話生成モデル102から応答用発話として、単なる「相槌相当の発話」が比較的に多く出力されてしまう。ここで従来通りにこのような発話をそのまま装置側発話としてユーザに提供したならば、無難ではあるが内容の薄い対話になってしまう可能性が高くなる。
【0028】
これに対し、対話実施装置1は、具体的にその特徴として、
(A)発話生成モデル102の生成した応答用発話が、予め設定された「相槌相当の発話」であるか否かを判定する相槌判定部113と、
(B)応答用発話が「相槌相当の発話」であると判定された際、入力発話の内容に基づいて「追加発話」を生成し、「追加発話」を応答用発話に追加した発話を、応答発話として出力する応答発話生成部114と
を有している。
【0029】
ここで、「相槌相当の発話」とは、
(A1)間投詞(感嘆詞)、
(A2)理解、共感若しくは同意を示す語句・短文、又は
(A3)上記(A1)の間投詞若しくは上記(A2)の語句・短文に類似する語句・短文
との意味である。
【0030】
また、上記(A3)の「類似する」とは、類似度算出対象の語句・短文間の類似度が所定閾値以上になることとしてもよい。さらに、この類似度としては、類似度算出対象の語句・短文を、品詞種別やその意味内容を特徴付ける特徴ベクトルVに変換し、例えば次式によって算出されるこれら特徴ベクトルV間におけるコサイン(cos)類似度sを、この類似度として採用することができる。
(1) s(i,j)=cosθij=(Vi・Vj)/(|Vi||Vj|)
Vi,Vj:類似度算出対象それぞれの特徴ベクトル
【0031】
このように、対話実施装置1は、発話生成モデル102が「相槌相当の発話」を生成した際、単にその「相槌相当の発話」を応答発話として出力するのではなく、入力発話の内容に基づいて生成した「追加発話」を加味した発話を、応答発話として出力するのである。
【0032】
これにより、ユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、この装置1との対話について、より多くの充実感や親近感を得ることができる。
【0033】
またそれとともに、ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話実施装置1は、当該対話の中で、対話先のユーザとのタッチポイント(接点,繋がり)をより拡充させることが可能となるのである。
【0034】
なお変更態様として、対話実施装置1は、発話生成モデル102を保有する代わりに、発話送受信制御部116及び通信インタフェース106を介して対話制御サーバ2の保有する発話生成モデル21と通信接続し、この発話生成モデル21を利用して対話を実施してもよい。
【0035】
また、後述する会話コーパス105についても、これを保有するのではなく、対話制御サーバ2の会話コーパス22を利用する態様をとることも可能である。このような変更態様では、対話実施装置1が発話生成モデルや会話コーパスを保有する必要がないので、例えばメモリ容量の小さな端末でも、対話実施装置1を具現可能となる。
【0036】
[装置機能構成]
同じく図1の機能ブロック図によれば、対話実施装置1は、ユーザインタフェース(UI)101と、発話生成モデル102と、相槌リスト103と、疑問詞リスト104と、会話コーパス105と、通信インタフェース106と、プロセッサ・メモリとを有する。
【0037】
ここで、このプロセッサ・メモリは、本発明による対話実施プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対話実施プログラムを実行することによって、対話処理を実施する。このことから、対話実施装置1は、対話ロボットやスマートスピーカ等の対話専用装置であってもよいが、本発明による対話実施プログラム(アプリ)を搭載した例えばスマートフォン、タブレット型若しくはノート型コンピュータや、パーソナル・コンピュータ(PC)等とすることも可能である。
【0038】
さらに、このプロセッサ・メモリは、機能構成部として、発話入出力制御部111と、入力発話解析部112と、相槌判定部113と、追加発話生成部114aを含む応答発話生成部114と、モデル制御部115と、発話送受信制御部116とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対話実施プログラムの機能と捉えることができる。また、図1における対話実施装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による対話実施方法の一実施形態としても理解される。
【0039】
同じく図1の機能ブロック図において、発話入出力制御部111は、ユーザインタフェース101を介して入力された入力発話であるユーザ発話を発話デジタルデータに変換して入力発話解析部112へ出力し、一方、応答発話生成部114で生成された応答発話である装置側発話を表示データや音声データに変換してユーザインタフェース101へ出力する。
【0040】
入力発話解析部112は、入力された入力発話(ユーザ発話デジタルデータ)を、発話生成モデル102への入力に適した形に変換した上で、発話生成モデル102に対するインタフェースであるモデル制御部115を介し、発話生成モデル102へ出力する。
【0041】
例えば、この後説明するように発話生成モデル102がSeq2Seq(Sequence to Sequence)モデルやHRED(Hierarchical Recurrent Encoder-Decoder)モデルである場合、入力発話解析部112は入力発話を、単語等のトークン(token)に分解してトークン列(さらには、それをID化したデータ)へ変換してもよい。
【0042】
発話生成モデル102は、本実施形態では対話先ユーザのユーザ発話である入力発話を受け取って応答用発話を生成するモデルであり、例えば非特許文献1に開示されたSeq2Seqモデルとすることができる。Seq2Seqは一問一答の処理を行い、過去の1個の発話から応答用発話を生成するものである。
【0043】
また、発話生成モデル102として、Seq2Seqを発展させたモデルであるHREDモデルを採用してもよい。HREDは、過去の複数個の発話から応答用発話を生成可能となっている。このように発話生成モデル102がHREDモデルである場合、上記(B)の「追加発話」の生成は、同じく過去の複数個の「入力発話」の内容に基づいて実施されてもよい。
【0044】
相槌判定部113は、発話生成モデル102の生成した応答用発話が、「相槌相当の発話」であるか否かを判定する。ここで、「相槌相当の発話」は、予め設定された語句・短文であって上記(A1)〜(A3)に相当する語句・短文として相槌リスト103に登録されている。相槌判定部113は、入力された応答用発話が、相槌リスト103に登録された語句・短文のいずれかに該当するならば、当該応答用発話は「相槌相当の発話」であると判定するのである。
【0045】
また変更態様として、上記(A1)及び(A2)に相当する語句・短文が相槌リスト103に登録されていて、相槌判定部113は、入力された応答用発話が、この相槌リスト103に登録された語句・短文のいずれかに該当するか、又は当該語句・短文のいずれかと類似するならば、当該応答用発話は「相槌相当の発話」であると判定してもよい。
【0046】
同じく図1の機能ブロック図において、応答発話生成部114の追加発話生成部114aは、相槌判定部113において応答用発話が「相槌相当の発話」であると判定された際、発話生成モデル102へ入力された(1つ又は複数の)入力発話の内容に基づいて追加発話を生成する。次いで、応答発話生成部114は、このように生成された追加発話を応答用発話に追加した発話を、応答発話として出力する。
【0047】
一方、応答発話生成部114は、相槌判定部113において応答用発話が「相槌相当の発話」ではないと判定された際には、発話生成モデル102の生成した応答用発話をそのまま、応答発話として出力する。
【0048】
ここで、追加発話生成処理の一実施形態として、追加発話生成部114aは、発話生成モデル102へ入力された1つの入力発話から、所定条件を満たす語である「重要語」を抽出し、「重要語」と「疑問詞」とを含んだ質問相当の追加発話を生成することも好ましい。
【0049】
このうち「重要語」については、入力発話に対し述語項構造解析を行って入力発話内の動詞(述語)に対する名詞を抽出し、当該名詞又は動詞を「重要語」としてもよい。または、入力発話に対し述語項構造解析又は形態素解析を行い、単純に入力発話中で最後に出現している名詞又は動詞を「重要語」とすることも可能である。ちなみに、上述したように「重要語」は、過去の複数の入力発話から抽出されて所定条件の下で選択されてもよい。
【0050】
また、「疑問詞」については、複数の疑問詞が予め登録された疑問詞リスト104を用い、その中から、抽出された「重要語」を勘案して1つを選択することができる。具体的には、追加発話生成部114aは、多数の発話を含む会話コーパス105を利用し、疑問詞リスト104に登録された疑問詞の中から、当該疑問詞と「重要語」とを含む語句が会話コーパス105から検索される度合いに基づいて1つを選択し、追加発話生成用の「疑問詞」としてもよい。
【0051】
なお、以上に述べた「重要語」及び「疑問詞」の選択処理及び追加発話生成処理については、後に図2及び図3に示した実施例を通して詳細に説明する。
【0052】
モデル制御部115は、発話生成モデル104に対するインタフェース機能部であり、1つの好適な実施形態として、追加発話生成部114aで生成された追加発話を、文脈情報として、次いで取得された入力発話とともに発話生成モデル104に入力する。この追加発話を文脈情報として利用する実施形態については、この後、図2に示した実施例を通して詳細に説明を行う。
【0053】
[実施例]
図2は、相槌判定部113及び応答発話生成部114における相槌判定処理及び応答発話生成処理の一実施例を説明するための模式図である。
【0054】
図2に示した実施例では最初に、対話実施装置1は、「なんの食べ物が好きですか?」との装置側発話をユーザへ出力する。これに対し、ユーザは、ユーザ発話「カレーが好きです。」を装置1へ入力する。次いで、このユーザ発話を入力発話として受け取った発話生成モデル102は、応答用発話として「いいですね。」を出力する。
【0055】
この応答用発話を受け取った相槌判定部113は、これが「相槌相当の発話」であるとの判定を行い、この判定結果を応答発話生成部114へ通知する。応答発話生成部114の追加発話生成部114aは、この判定結果を受け、入力発話「カレーが好きです」に基づいて追加発話「どこのカレーですか?」を生成する。ここでの追加発話生成処理については、後に図3を用いて詳細に説明する。
【0056】
次いで、応答発話生成部114は、発話生成モデル102から出力された応答用発話「いいですね。」と生成した追加発話「どこのカレーですか?」とを結合させて、応答発話「いいですね。どこのカレーですか?」を生成し、ユーザへ出力するのである。
【0057】
以上述べたように本実施例では、ユーザ発話「カレーが好きです。」に対する応答発話として、「いいですね。」との相槌だけでなく、会話を円滑に継続させその内容を深めるような疑問・掘り下げ質問の発話「どこのカレーですか?」も併せてユーザへ提示されている。
【0058】
その結果、この後のユーザの発話が促され、次のターンのユーザ返答発話「よくインド料理屋で食べてるよ。」を得ることができる。またさらに、このユーザ発話に対し、相槌「そうなんだ。」だけでなく「誰と一緒に食べてますか?」との疑問・掘り下げ質問の発話を更に繰り出すこともできるのである。このようにして、対話をより進展させ深めることができるので、ユーザは、より多くの充実感や親近感を得ることも可能となる。
【0059】
ちなみに、本実施例では、「そうなんだ。誰と一緒に食べてますか?」との装置側発話に対するユーザの返答発話「大学の友人。」に対し、発話生成モデル102は、応答用発話として「友達と一緒に食べるなんて最高。」を出力する。ここで、相槌判定部113は、このユーザの返答発話が「相槌相当の発話」ではないとの判定を行い、応答発話生成部114はこの判定結果を受けて、発話生成モデル102から出力された応答用発話「友達と一緒に食べるなんて最高。」を、そのまま応答発話としてユーザへ出力している。
【0060】
また、本実施例では、最初に生成された追加発話「どこのカレーですか?」が、文脈情報としてモデル制御部115を介し、次のターンとして取得された入力発話「よくインド料理屋で食べてるよ。」とともに、発話生成モデル102へ入力されている。これにより、発話生成モデル102における応答用発話生成処理の精度(対話文脈上の適切さ)が向上するのである。
【0061】
ちなみに本実施例では、発話生成モデル102はSeq2Seqモデルであり、入力発話(ユーザ発話)及び応答用発話(装置側発話)がペアになった学習データによってモデル構築処理(学習処理)が行われる。ここで、上述したような追加発話を文脈情報として利用する形態に合わせ、追加発話、入力発話及び応答用発話が組になった学習データによってモデル構築を行うことも好ましい。
【0062】
さらに、追加発話を文脈情報として利用する際には、それに合わせて構築した別のモデルを用いることも可能である。例えば、発話生成モデル102が、追加発話を考慮せずに応答用発話を出力するSeq2Seqモデルと、追加発話を考慮して応答用発話を出力するSeq2Seqモデルとを備えていてもよい。
【0063】
図3は、追加発話生成部114aにおける追加発話生成処理の一実施例を説明するための模式図である。
【0064】
図3に示した実施例によれば、入力発話「カレーが好きです。」を受け取った発話生成モデル102は、応答用発話として「いいですね。」を出力して、相槌判定部113は、これを相槌であると判定し、さらに追加発話生成部114aは、この判定結果を受けて、入力発話「カレーが好きです。」から重要語「カレー」を抽出している。
【0065】
具体的に、追加発話生成部114aは、入力発話「カレーが好きです。」に対し述語項構造解析を行い、発話文中において最後に出現する名詞又は動詞を特定し、これを重要語として抽出する処理を行っており、本実施例では、重要語として名詞「カレー」が抽出されている。
【0066】
次に、追加発話生成部114aは、疑問詞リスト104に登録されている各疑問詞と重要語「カレー」とを連結させた複数の疑問詞・重要語候補を生成する。ここで本実施例において、疑問詞リスト104は、名詞用疑問詞リスト及び動詞用疑問詞リストを含んでおり、追加発話生成部114aは、
(a)抽出された重要語が名詞である場合、名詞用疑問詞リストから疑問詞を取り出して疑問詞・重要語候補を生成し、一方、
(b)抽出された重要語が動詞である場合、動詞用疑問詞リストから疑問詞を取り出して疑問詞・重要語候補を生成する。
したがって本実施例では、名詞用疑問詞リストの各疑問詞と、名詞である重要語「カレー」とを連結させた疑問詞・重要語候補が生成されるのである。
【0067】
追加発話生成部114aは次いで、会話コーパス105を利用し、当該コーパス中に含まれる発話群における、各追加発話候補の出現確率を算出し、最も出現確率の高い疑問詞・重要語候補をなす疑問詞「どこの」を選定している。その結果本実施例では、この「どこの」及び重要語「カレー」を含む追加発話「どこのカレーですか?」が生成されるのである。またこれにより、重要語「カレー」と関連性の高い疑問詞「どこの」と連結した掘り下げ質問を含む発話をユーザへ提示することが可能となる。
【0068】
ちなみに、上記の「出現確率」として例えば、N-gram言語モデルにおける疑問詞・重要語候補(本実施例では単語列:「疑問詞」,「カレー」)のN-gram確率を算出してもよい。ここで、N-gram言語モデルは、単語列wn=w1,w2,・・・,wnにおける各単語の生起確率P(wi)が直前の(N-1)個の単語のみに依存するという公知の言語モデルであり、N-gram確率は、このN-gram言語モデルにおける当該単語列wnの生起確率P(wn)のことである。
【0069】
また以上に説明した追加発話生成処理の変更態様として、追加発話生成部114aは、疑問・掘り下げ質問の追加発話ではなく、「同意・共感の意を重ねる又は強調する追加発話」を生成してもよい。例えば、重要語の意味内容毎に、当該重要語を当て嵌めれば同意・共感を示す発話が完成する発話テンプレートを用意しておき、抽出された重要語の意味内容に応じ発話テンプレートを選択して当該重要語を当て嵌めることにより、その前の「相槌相当の発話」に対し「同意・共感の意を重ねる又は強調する追加発話」を生成してもよいのである。
【0070】
具体的には、図2に示したユーザ発話「カレーが好きです。」に対し、抽出された重要語「カレー」を用いて、「私もカレーが食べたいです。」との追加発話を生成し、応答発話「いいですね。私もカレーが食べたいです。」を出力することができる。
【0071】
ここで、「相槌相当の発話」の定義として述べた上記(A2)の「理解、共感若しくは同意を示す語句・短文」には、例えば「そうなんですよね」が該当する。これに対し、上述した追加発話は、例えば「私も(重要語)が好きなんです。」となり、まさに「同意・共感の意を重ねる又は強調する追加発話」となっているのである。
【0072】
[対話実施装置の他の実施形態]
図4は、本発明による対話実施装置の他の実施形態における機能構成を示す機能ブロック図である。
【0073】
図4によれば、本実施形態の対話実施装置3は、図1に示した対話実施装置1と同様、ユーザとの間で対話を実施することができる装置となっている。ただし、対話実施装置3は、対話実施装置1とは異なり、対話先であるユーザの有するユーザ端末4との間で通信ネットワークを介して通信接続されており、当該ユーザは、ユーザ端末4のユーザインタフェース(例えばマイク・スピーカやタッチパネル・ディスプレイ等)を介して、対話実施装置3との間で対話を行うことになる。
【0074】
また、図4の機能ブロック図に示した対話実施装置3の機能構成部については、通信インタフェース306及び発話送受信制御部316を除き、対話実施装置1(図1)における同名の機能構成部と同様の機能を有し、同様の処理を実施する機能構成部となっている。
【0075】
ここで、発話送受信制御部316は、
(a)通信インタフェース306を介し、ユーザ端末4からユーザ発話を受け取り、入力発話として入力発話解析部312に入力し、
(b)応答発話生成部314で生成された応答発話を、通信インタフェース306を介し、ユーザ端末4に送信する。
すなわち、発話送受信制御部316は、図1に示した対話実施装置1における発話入出力制御部111に対応する機能を果たす構成部となっている。
【0076】
このような対話実施装置3によっても、ユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、装置との対話について、より多くの充実感や親近感を得ることができる。またそれとともに、ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話実施装置3も、当該対話の中で、対話先のユーザとのタッチポイント(接点,繋がり)をより拡充させることが可能となるのである。
【0077】
ちなみに、以上詳細に説明した本発明による対話実施装置における対話実施方法は、対話シナリオ生成方法にも適用可能となっている。例えば、「ユーザ発話」とそれに対する「装置側発話」との多数のペアを含む基準対話シナリオが存在する場合において、
(A’)この基準対話シナリオ中の「装置側発話」が、予め設定された「相槌相当の発話」であるか否かを判定するステップと、
(B1’)当該「装置側発話」が「相槌相当の発話」であると判定された際、それに対応する「ユーザ発話」の内容に基づいて「追加発話」を生成するステップと、
(B2’)基準対話シナリオにおいて、当該「装置側発話」に当該「追加発話」を追加した発話を、新たな「装置側発話」とする書き換えを行うステップと
を行うことができる。
【0078】
これにより、それを用いた対話の中で、対話先ユーザとのタッチポイント(接点,繋がり)をより拡充させることができるような対話シナリオが生成可能となるのである。
【0079】
以上詳細に説明したように、本発明によれば、対話先のユーザは自らの発話に対し、単なるありがちな相槌や相槌相当の返答のみを受け取るのではなく、自らの発話に基づいた内容を有する応答を受け取ることになり、装置との対話について、より多くの充実感や親近感を得ることができる。
【0080】
またそれとともに、対話先ユーザは、このような装置側応答によって発話し易い感じを受けることになり、この後もより多くの発話を行う可能性が高くなる。このようにして、対話の中で、対話先ユーザとのタッチポイント(接点,繋がり)をより拡充させることが可能となる。
【0081】
以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0082】
1、3 対話シナリオ生成装置
101 ユーザインタフェース(UI)
102、302 発話生成モデル
103、303 相槌リスト
104、304 疑問詞リスト
105、305 会話コーパス
106、306 通信インタフェース
111 発話入出力制御部
112、312 入力発話解析部
113、313 相槌判定部
114、314 応答発話生成部
114a、314a 追加発話生成部
115、315 モデル制御部
116、316 発話送受信制御部
2 対話制御サーバ
21 発話生成モデル
22 会話コーパス
4 ユーザ端末

図1
図2
図3
図4