IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特開-応答生成装置およびその方法 図1
  • 特開-応答生成装置およびその方法 図2
  • 特開-応答生成装置およびその方法 図3
  • 特開-応答生成装置およびその方法 図4
  • 特開-応答生成装置およびその方法 図5
  • 特開-応答生成装置およびその方法 図6
  • 特開-応答生成装置およびその方法 図7
  • 特開-応答生成装置およびその方法 図8
  • 特開-応答生成装置およびその方法 図9
  • 特開-応答生成装置およびその方法 図10
  • 特開-応答生成装置およびその方法 図11
  • 特開-応答生成装置およびその方法 図12
  • 特開-応答生成装置およびその方法 図13
  • 特開-応答生成装置およびその方法 図14
  • 特開-応答生成装置およびその方法 図15
  • 特開-応答生成装置およびその方法 図16
  • 特開-応答生成装置およびその方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023158992
(43)【公開日】2023-10-31
(54)【発明の名称】応答生成装置およびその方法
(51)【国際特許分類】
   G06F 40/56 20200101AFI20231024BHJP
【FI】
G06F40/56
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022069126
(22)【出願日】2022-04-19
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】永松 健司
(72)【発明者】
【氏名】内田 尚和
(72)【発明者】
【氏名】本間 健
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA21
(57)【要約】
【課題】応答テキストの表現がユーザに理解しやすく、かつ対話の目的や文脈に沿った内容の応答テキストを出力する。
【解決手段】
入力テキストに対する応答テキストを生成する応答生成部105と、応答生成部で生成された応答テキストを修正する応答修正部107と、応答修正部で修正された応答テキスト群内の応答テキストに対して応答テキストの表現がユーザにとって適切かどうかを判定する応答表現適切性評価部109と、応答修正部で修正された応答テキスト群内の応答テキストに対して応答テキストの内容が、ユーザの過去にやりとりの内容に対して妥当な内容であるかどうかを判定する応答内容妥当性評価部111と、応答表現適切性評価部による評価と応答内容妥当性評価部による評価に基づき、修正された応答テキスト群から出力すべき応答テキストを決定する選択部113を有する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
入力テキストに対する応答テキストを生成する応答生成部と、
前記応答生成部で生成された該応答テキストを修正する応答修正部と、
前記応答修正部で修正された応答テキスト群内の応答テキストに対して、該応答テキストの表現がユーザにとって適切かどうかを判定する応答表現適切性評価部と、
前記応答修正部で修正された応答テキスト群内の応答テキストに対して、該応答テキストの内容が、該ユーザの過去にやりとりの内容に対して妥当な内容であるかどうかを判定する応答内容妥当性評価部と、
前記応答表現適切性評価部による評価と、前記応答内容妥当性評価部による評価に基づき、前記修正された応答テキスト群から出力すべき応答テキストを決定する選択部と、
を有する応答生成装置。
【請求項2】
前記応答生成部は、ユーザからの入力テキストに応じて応答テキストの内容を決定する
請求項1の応答生成装置。
【請求項3】
前記応答生成部は、学習された言語モデルを用いて統計的テキスト生成処理を行って、システムにおける応答テキストを生成する第1の生成部と、
状態遷移と状態ごとの応答テキストテンプレートを用いて規則的に応答テキストを生成する第2の生成部と、
のいずれか一つの生成部、または両方の生成部を有する
請求項1の応答生成装置。
【請求項4】
前記応答表現適切性評価部は、修正された前記応答テキストに対して、その表現がユーザにとって理解しやすいか不快な表現でないかなどを評価した指標である応答表現適切性スコアを算出し、
前記応答内容妥当性評価部は、前記応答テキストの内容がそれまでのメッセージのやりとりの文脈に沿った内容であるかを評価した指標である応答内容妥当性スコアを算出し、
前記選択部は、前記応答表現適切性評価部が算出した前記スコアと、前記応答内容妥当性評価部が算出した前記スコアから、もっとも適切な評価スコアを持つ応答テキストを選択する
請求項1の応答生成装置。
【請求項5】
ユーザからの前記入力テキストをユーザの発話音声からテキスト変換することで作成する音声認識部と、
前記選択部により決定された応答テキストを音声変換して出力する音声合成部と、
有する、請求項1の応答生成装置。
【請求項6】
前記応答表現適切性評価部が参照するユーザごとの言語理解モデルデータを、前回応答テキストに対するユーザの反応に応じて調整更新していく応答表現適切性更新部を有する
請求項1の応答生成装置。
【請求項7】
前記応答内容妥当性評価部が参照する情報関連性モデルデータを、前回応答テキストに対するユーザの反応に応じて調整更新していく応答内容妥当性更新部を有する
請求項1の応答生成装置。
【請求項8】
前記応答表現適切性評価部は、ユーザごとに、応答テキスト候補のテキストを入力としてスコア値を出力するように学習された任意の深層学習モデルのデータを保管するデータベースを参照して、前記応答表現適切性スコアを算出する
請求項4の応答生成装置。
【請求項9】
コンピュータの実行により応答を生成する応答生成方法であって、
入力テキストに対する応答テキストを生成する応答生成ステップと、
前記応答生成ステップで生成された該応答テキストを修正する応答修正ステップと、
前記応答修正ステップで修正された応答テキスト群内の応答テキストに対して、該応答テキストの表現がユーザにとって適切かどうかを判定する応答表現適切性評価ステップと、
前記応答修正ステップで修正された応答テキスト群内の応答テキストに対して、該応答テキストの内容が、該ユーザの過去にやりとりの内容に対して妥当な内容であるかどうかを判定する応答内容妥当性評価ステップと、
前記応答表現適切性評価ステップによる評価と、前記応答内容妥当性評価ステップによる評価に基づき、前記修正された応答テキスト群から出力すべき応答テキストを決定する選択ステップと、
を有する応答生成方法。
【請求項10】
前記応答生成ステップは、学習された言語モデルを用いて統計的テキスト生成処理を行って、システムにおける応答テキストを生成する第1の生成ステップと、
状態遷移と状態ごとの応答テキストテンプレートを用いて規則的に応答テキストを生成する第2の生成ステップと、
のいずれか一つの生成ステップ、または両方の生成ステップを有する
請求項9の応答生成方法。
【請求項11】
前記応答表現適切性評価ステップは、修正された前記応答テキストに対して、その表現がユーザにとって理解しやすいか不快な表現でないかなどを評価した指標である応答表現適切性スコアを算出し、
前記応答内容妥当性評価ステップは、前記応答テキストの内容がそれまでのメッセージのやりとりの文脈に沿った内容であるかを評価した指標である応答内容妥当性スコアを算出し、
前記選択ステップは、前記応答表現適切性評価ステップが算出した前記スコアと、前記応答内容妥当性評価ステップが算出した前記スコアから、もっとも適切な評価スコアを持つ応答テキストを選択する
請求項9の応答生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、応答生成装置およびその方法に係り、特に、テキストまたは音声でユーザに対して応答を出力する装置、またはそのような応答を出力するユーザインタフェースの実施に関する。
【背景技術】
【0002】
コールセンタにおけるIVR(音声自動応答)システムやWEBシステムにおけるチャットボット、カーナビゲーション装置のように音声やテキスト情報を用いてユーザとやり取りを行い、必要なサービス・情報提供を行う対話的情報システムが存在する。このようなシステムでは、あらかじめユーザの様々な入力(音声やテキスト)に対する応答出力をシナリオや質問・回答ペアDBのような形式で規則化・データ化しておき、入力に応じて適切な応答情報を出力する形態が一般的である。この関連技術として例えば、特許文献1に開示された対話システムが知られている。
【0003】
また、近年、大規模言語モデルと呼ばれる統計的テキスト生成の技術が発展し、予め規則化しておかなくても、様々な入力テキストに対して意味の通じる適切な応答テキストを出力できるようになってきている。最近では、上記の対話的情報システムに、この大規模言語モデルを組み合わせることで、想定された入力の場合はあらかじめ用意された応答を出力し、雑談のように想定されていなかったような、想定しづらい入力に対しては、大規模言語モデルで生成された応答テキストを出力することにより、従来の規則に基づく対話的情報システムよりも幅広い入力に対して応答でき、ユーザの満足度を向上させることができる。しかし、大規模言語モデルによる統計的テキスト生成は統計的に尤もらしい単語列が生成されるだけであり、必ずしもそれまでの対話文脈に沿った応答テキストが生成されるとは限らない。
【0004】
また、上記のような対話的情報システムでは、ユーザに応じて応答情報(音声やテキスト)のスタイルを変えることも行われている。例えば、ユーザが好むキャラクター性を付与した口調(方言にする、特定の言い回しを付加するなど)に応答テキストを変換するシステムが存在する。また、ユーザが高齢者の場合など、応答音声の発話速度をゆっくりとするなどの音声的なスタイル変換も存在する。また、音声では理解しづらい語彙を言い換える、高齢者など特定のユーザ層では理解しづらい語彙を言い換えるなどの、ユーザのカテゴリに応じて応答情報を変換する事例は容易に想像できる。このような応答テキストの変換処理は多くは変換規則を適用することで実施されるが、最近では、大規模言語モデルの技術を応用することで、テキストの内容を大きく変えずスタイル(語彙の選択や言い回し)だけを変換する統計的スタイル変換技術も存在する。この統計的スタイル変換技術も上記の統計的テキスト生成と同様に出力されたテキストが必ずしも文脈的に、文法的に正しいとは限らないという問題がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2021-196798号公報
【非特許文献】
【0006】
【非特許文献1】“Language Models are Few-Shot Learners”,Brown et.al., 2020,arXiv.
【非特許文献2】“Style Transfer from Non-Parallel Text by Cross-Alignment”,Shen et.al.,2017,NIPS.
【発明の概要】
【発明が解決しようとする課題】
【0007】
背景技術で説明した、大規模言語モデルによる応答テキスト生成と、ユーザに応じた応答テキスト変換を組み合わせることで、自由な入力に対して応答可能な柔軟性を持つとともに、ユーザにとってより理解しやすい応答を出力できると考えられる。しかし、この場合、統計的テキスト生成により出力された、文脈的・文法的に正しいとは限らないテキストに対して、さらにユーザごとの応答テキスト変換処理、とくに統計的スタイル変換処理を加えることで、応答テキストの内容がさらに不適切になるという課題が生じる。
【0008】
本発明の目的は、応答テキストの表現がユーザに理解しやすく、かつ対話の目的や文脈に沿った内容の応答テキストを出力することができる技術を提供することにある。
【課題を解決するための手段】
【0009】
本発明による応答生成装置の好ましい例は、入力テキストに対する応答テキストを生成する応答生成部と、
前記応答生成部で生成された該応答テキストを修正する応答修正部と、
前記応答修正部で修正された応答テキスト群内の応答テキストに対して、該応答テキストの表現がユーザにとって適切かどうかを判定する応答表現適切性評価部と、
前記応答修正部で修正された応答テキスト群内の応答テキストに対して、該応答テキストの内容が、該ユーザの過去にやりとりの内容に対して妥当な内容であるかどうかを判定する応答内容妥当性評価部と、
前記応答表現適切性評価部による評価と、前記応答内容妥当性評価部による評価に基づき、前記修正された応答テキスト群から出力すべき応答テキストを決定する選択部と、を有する応答生成装置、である。
本発明はまた、上記応答生成装置で実行される応答生成方法として把握される。
【発明の効果】
【0010】
本発明によれば、応答テキストの修正候補群の中から、ユーザが理解しやすい表現で、かつ対話の目的や文脈に沿った内容の応答テキストを出力することができる。これにより、ユーザの満足度、利便性を向上させることができる。
【図面の簡単な説明】
【0011】
図1】実施例1に係る応答生成装置の構成例を示す図である。
図2】入出力履歴DB103の構成例を示す図である。
図3】言語モデル状態応答生成部による応答テキストの生成の例を示す図である。
図4】言語モデル状態応答生成部による応答テキストの生成の例を示す図である。
図5】応答修正リストDB108の構成例を示す図である。
図6】応答修正部107により修正された応答テキスト候補群の例を示す図である。
図7】修正された応答テキスト候補と応答表現適切性スコアの対応を管理するリストの例を示す図である。
図8】ユーザ言語理解モデルDB110の構成例を示す図である。
図9】ユーザ言語理解モデルDB110の他の構成例を示す図である。
図10】修正された応答テキスト候補と応答内容妥当性スコアの対応を管理するリストの例を示す図である。
図11】応答内容妥当性評価部111の処理の例を示す図である。
図12】応答内容妥当性評価部111の入力データに対する入出力を示す図である。
図13】実施例2に係るに係る応答生成装置の構成例を示す図である。
図14】実施例2における意図理解モデルDB1319の構成例を示す図である。
図15】実施例3に係る応答生成装置の構成例を示す図である。
図16】実施例3における応答表現適切性更新部の処理フローを示す図である。
図17】実施例3におけるユーザ反応履歴DB1502の構成例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を用いて実施例を説明する。
【実施例0013】
本実施例は、コールセンタなどで使われるIVR(音声自動応答)システムに適用した例を示す。IVRシステム(以下単にシステムということがある)は、例えば銀行残高の照会、口座からの出金などの操作を音声により実現できるシステムである。ユーザが、電話などでシステムに接続し、自分の口座番号を指定して、例えば「口座残高を教えて」や「口座の残高はいくら」などの音声発話を行うと、システムが「残高は10万5000円です」などのように、音声で残高情報を知らせる。
【0014】
図1は、応答生成装置の構成例を示す。図1において、応答生成装置1は、ユーザの音声をユーザごとにテキストとして結合するテキスト結合部102と、ユーザからの入力テキストに応じて次のシステム応答テキストを生成する言語モデル状態応答生成部105と、言語モデル状態応答生成部105で生成された応答テキストに対してユーザの理解しやすさなどを考慮した修正処理を行う応答修正部107と、応答修正部107から出力される様々な応答テキスト候補群に対してそれぞれの応答表現適切性スコアを算出する応答表現適切性評価部109と、同じくそれぞれの応答内容妥当性スコアを算出する応答内容妥当性評価部111と、応答表現適切性評価部109と応答内容妥当性評価部111から出力される二つの評価スコアを総合して最終的な出力応答テキストを選択する応答選択部113、などの機能部、および後述する各データベース(DB)を有して構成される。一例では、ユーザとのやりとりをテキストではなく音声で行うために、ユーザ発話音声をテキスト変換する音声認識部101や、システム応答テキストを音声変換する音声合成部114(すなわち出力部)を備えても良い。
【0015】
応答生成装置1は、プログラムを実行して、応答生成のためのデータ処理を行うコンピュータにより実現される。コンピュータは、ハードウェアとして、プログラムやデータを格納する半導体メモリやハードディスクなどの記憶部と、プログラムを実行するプロセッサである処理部と、キーボードやマウスによるテキスト入力や音声入力などを行うマンマシンインターフェースである入力部と、データを表示する表示部を有する。本実施例において、上記各機能部は、記憶部に記憶された1又は複数のプログラムを、1又は複数の処理部が実行することで実現される。例えば、上記各機能部に対応して複数のプログラムが用意されてよいし、或いは幾つかの上記機能部を纏めて実行する1または複数のプログラムが用意されてもよい。応答生成に用いられるデータや生成されたデータは、記憶部に形成されたデータベース(DB)に記憶される。
【0016】
音声認識部101は、入力部より入力されるユーザの音声(例えば「口座残高を教えて」等の音声)を書き起こしテキストに変換する。テキスト結合部102は、1または複数の書き起こしテキストをユーザごとに結合して、ユーザIDを付与して、入出力履歴DB103に格納する。書き起こしテキストは、IVRシステムのメイン処理となる言語モデル状態応答生成部105への入力テキストとなり、システムから出力される応答テキストを決定する処理へと進む。
【0017】
言語モデル状態応答生成部105は、統計的テキスト生成技術や機械学習技術を用いた例を示している。すなわち、言語モデル状態応答生成部105は、ユーザとシステムの間で従来やり取りされた履歴テキスト、およびユーザが現在置かれているサービスの状態を入力として、システムからユーザに返される応答テキストの候補群を出力する。またそれぞれの応答テキスト候補に対して、その応答テキストが選択されてユーザに出力された場合に当該ユーザのサービスが次に遷移する状態情報も付加されている。
【0018】
図2は、過去に入出力された履歴テキストをユーザごとに保持する入出力履歴DB103のデータ構成例を示す。
データは、ユーザに固有なID201ごとに、ユーザがシステムとの間で発した音声メッセージのテキストが結合された状態の入出力履歴情報202が保持される。入出力履歴情報202は、実際にユーザやシステムが発したメッセージテキストの前に、システムが発したテキストであれば「S:」、ユーザが発したテキストであれば「U:」というプレフィックスが付加される。システムとユーザがやり取りしたメッセージを大量に集めた学習データ(人がシステムの代わりとなってメッセージを考案して学習データを作っても良い)に、このようなプレフィクスを付けた状態で統計的テキスト生成モデル(例えば言語モデルDB106が保持する大規模言語モデル)を学習することで、モデルはどのテキストがシステム応答であり、どのテキストがユーザ応答であるかを識別できるようになる。また、入力テキストに対してプレフィックス「S:」だけを最後に付加して統計的テキスト生成モデルに入力することで、このモデルにシステム応答を生成するように指示することもできるようになる。
【0019】
図3は、言語モデル状態応答生成部105による応答テキストの生成の例を示す。
言語モデル状態応答生成部105は、プレフィックス付きの入出力履歴テキスト301を入力として、学習された言語モデルを保管する言語モデルDB106を参照して、統計的テキスト生成処理302を行って、システムにおける応答例303を生成する。例えば、応答例303に“残高”とあるテキスト部分はこの後の処理にてユーザの実際の残高の数値に置換される。このようなプレフィックスやプロンプトを指定して特定の意味合いのテキストの生成としては、例えば非特許文献1に開示された、統計的テキスト生成手法を用いることができる。なお、図3には、出力される応答テキストの一例が示されているが、非特許文献1に代表される手法でテキスト、すなわち単語列を生成する際に、次に選ばれる単語を尤度が大きな候補群の中から確率的に選択することで、尤もらしい応答テキスト例を複数出力することも可能である。
【0020】
図3の応答生成処理では、入出力履歴テキスト301を入力して一つまたは複数の応答テキストを出力する。他の例によれば、言語モデル状態応答生成部105が、さらにユーザ状態DB104から現在のユーザ状態も入力して、応答テキスト候補それぞれに付加する形でその応答の後に遷移するユーザ状態を出力することができる。図4は、ユーザ状態を加味した応答テキストの生成の例を示す。ここで使用されるユーザ状態DB104は、ユーザの状態がメインメニューの入力待ち状態であるか(「0」で示す)、またはYESかNOのユーザ入力の待ち状態(「1」で資示す)を保持する。ユーザ状態は、システムが把握することができる。
【0021】
図4の例示において、ユーザの入力テキストが「いくら」となっている。これは、口座残高の確認なのか、それ以外(例えば送金手数料)の確認なのか判別できないため、言語モデル状態応答生成部105が2つの応答テキスト候補を出力した様子を示している。第一の候補では口座残高の情報を提示し、その後、ユーザ状態を0(すなわちメインメニューの入力待ち状態)に遷移させるパタンを示す。第二の候補では、「残高の確認ですか?」とユーザに確認のメッセージを示し、ユーザ状態を1(すなわちYESかNOのユーザ入力の待ち状態)に遷移させるパタンを示す。
【0022】
このように、言語モデル状態応答生成部105からは複数の応答テキスト候補に対して次の遷移状態を付加した形で出力される。このように、応答テキスト候補と次のユーザ状態を組み合わせて出力する手法として、一つの機械学習モデル(深層学習モデルであっても良い)で応答テキストの生成と次状態の予測を行う手法を適用することができる。さらに別の例として、生成された応答テキスト候補を入力として次状態を予測する機械学習モデルを追加で組み合わせて使用することもできる。
【0023】
上記のように、言語モデル状態応答生成部105から出力された応答テキスト候補群およびそれぞれの応答テキスト候補に付加された次のユーザ状態の情報403(応答テキスト候補群403)は、応答修正部107に入力され、応答テキスト候補それぞれに対して、ユーザごとに理解しやすいテキストへと修正・変換処理が行われる。
【0024】
応答修正部107は、応答修正リストDB108の内容に基づいて応答テキストの修正処理を行う。図5に応答修正リストDB108の構成例を示す。応答修正リストDB108は、ユーザに固有なユーザID501ごとに応答テキストに対する修正処理の組合せ(応答修正処理リスト502)をリスト形式で格納する。例えば、「口語調」の処理は、入力テキストに対して「ですます」調から「~だよ」などの口語調表現に変換する処理を実施することを示す。また、「親密度0.8以上」の処理は、応答テキスト内に含まれる単語(例えば名詞)を、一般的な日本語話者がどの程度理解しやすいか、親密に感じるかを示す指標である親密度(0<親密度<1.0)が0.8以上の語彙に置換する処理を示す。親密度に基づく単語置換は、置換対象となる単語ごとに親密度を定義した単語親密度DBと、置換対象となる単語ごとに言い換え可能な同義語集合を定義した単語シソーラスDBを参照することで容易に実現可能である。また、「毒性除去」の処理は、応答テキスト内の単語を毒性値(読み手を不快に思わせたり傷つけたりするような悪意ある表現の度合い)に応じて、毒性のないまたは低い表現に置換する処理を示す。この処理も、単語ごとに毒性値を定義した単語毒性値DBと単語シソーラスDBを参照することで容易に実現可能である。もちろん、応答修正処理の候補はこれらに限るわけではなく、他にも様々な修正・置換処理がある。例えば、複文を二つの単文に分割する、長い重文を複数の単文に分割する、毒性値が一定以上のもののみを置換する、毒性表現のうち特定の表現のみを置換する、等などが考えられる。応答修正処理リスト502に指定される修正処理は、応答テキスト候補一つに対してすべてを同時に実施し、ただ一つの修正された応答テキスト候補を出力するわけではなく、これらの修正処理の一つまたは複数をランダムもしくはあらかじめ決められたルールで選択的に実施することで、応答テキスト候補一つに対して複数の修正結果を出力するようにする。これによって、言語モデル状態応答生成部105から出力された応答テキスト候補群の中のそれぞれの応答テキスト候補に対して複数の修正テキストが出力され、その結果、大きな数の修正された応答テキスト候補群を生成することができる。
【0025】
図4に例示されている応答テキスト候補群403に、図5のユーザID=1のユーザに対応する応答修正処理が実施された場合の修正された応答テキスト候補群601の一例を図6に示す。上記したように、応答修正処理リスト内の処理の適用はランダムに実行されるため、図6の応答テキスト候補群601は修正結果となりうるものの一例にすぎない。また、図6の例示では省略してあるが、図4の出力情報である応答テキスト候補群403のように、図6の修正された応答テキスト候補一つ一つにも、対応する次のユーザ状態情報が付随している。
【0026】
上記の説明では、応答修正部107は、図5に示す応答修正リストDB108の情報に基づいて応答テキストの修正結果を出力する、としたが、応答修正処理はこれに限定されない。例えば、深層学習技術によって入力テキストの内容は変えずに口調などの表現スタイルのみを変換する手法がある(非特許文献2)。学習済モデルをさまざま変えてこの手法を利用することで、口調を変える、単語を平易なものに置換する、言い回しを平易なものに変換する、等の応答修正処理をより柔軟に実現することが可能である。もちろん、上記の統計的テキスト生成処理において説明したように、生成される単語列の選択に乱数を入れることで複数の修正結果を出力させることも容易である。
【0027】
次に、応答表現適切性評価部109、応答内容妥当性評価部111、応答選択部113について説明する。これらの処理部の処理により、言語モデル状態応答生成部105および応答修正部107から出力された、修正された応答テキスト候補群の中から、ユーザにとって理解しやすく、不快でない表現を持ち、かつその内容もこれまでの対話サービスの文脈やその目的に沿った妥当な内容の応答テキストが評価値に基づいて選択されて出力される。
【0028】
まず、応答表現適切性評価部109は、修正された応答テキスト候補群601を入力として、それぞれの応答テキスト候補に対して応答表現適切性スコアを計算して、出力する。その結果、図7に示すような、応答テキスト候補群601に応じた応答表現適切性スコア702を保持するリストが得られる。応答表現適切性評価部109は、ユーザごとにそのユーザがどのような表現を好むか、不快に思うか、理解しやすいかなどの応答表現適切性スコアを計算するための情報として、ユーザ言語理解モデルDB110を参照して、応答表現適切性スコアを計算する。
【0029】
図8に、ユーザ言語理解モデルDB110の構成例を示す。ユーザ言語理解モデルDB110は、ユーザID801ごとに、そのユーザの言語理解モデルデータ802、例えば深層学習モデルデータを格納する。ここで深層学習モデルデータとは、応答テキスト候補のようなテキストを入力として、スコア値を出力するように学習された任意の深層学習モデルのデータである。このような学習モデルは、例えば、特定の年代・性別・出身地などの人に、あるテキストに対して感じる応答適切性スコアを付けさせる作業を行うことで構築された学習データを使うことで、深層学習手法でも他の様々な機械学習手法でもモデルを学習させることが可能である。ここで例示した学習データの構築方法は、年代・性別などで層化したユーザグループごとに言語理解モデルデータを作成する方法であり、同じグループに属するユーザはすべて同一の応答表現適切性スコアが出力される形式となる。しかし、後述する方法(実施例3)などによって、ユーザ個々人に対する深層学習モデルの再学習を行っていくことで、真にユーザ一人一人の快不快や理解しやすさを考慮した応答表現適切性スコアの算出を実現することも可能である。
【0030】
また、図8の言語理解モデルデータ802では、機械学習や深層学習の手法を使ったブラックボックス的なスコア評価方法としたが、もちろん、このような機械学習手法に限らず、別の手法も利用し得る。例えば、特定の年代・性別・出身地などの人が理解しやすい単語や言い回しに正の評価値を付け、理解しづらいまたは不快に感じる単語や言い回しに負の評価値を付けた単語・言い回しリストを用意し、入力テキスト内に出現する単語や言い回しの評価値の総和に線形変換を施すことで、0から1の範囲の応答表現適切性スコアを算出するという手法も考えられる。この場合も上記の通り、当初はユーザグループごとに同一の応答表現適切性スコアが出力されるものであっても、後述する方法などによって、ユーザ個々人に対する単語・言い回しリストに調整を行っていくという形態も考えられる。この形態の場合、図9に示すような、ユーザID901ごとにユーザの言語理解モデルデータ902が得られる。
【0031】
次に、応答内容妥当性評価部111の機能および動作について説明する。応答内容妥当性評価部111は、修正された応答テキスト候補群601を入力として、それぞれの応答テキスト候補に対して応答内容妥当性スコアを計算する。計算の結果、図10のような、修正された応答テキスト候補群601に対応する応答内容妥当性スコア1002が得られる。
【0032】
応答内容妥当性評価部111は、システムが応答出力するメッセージである応答テキスト候補の内容が、ユーザが行っている対話の目的やそれまでのユーザとシステムのメッセージのやり取り(文脈)に照らして内容が妥当なものかどうかを応答内容妥当性スコアとして計算する処理である。つまり、次のシステム応答候補だけではなく、それまでのユーザとシステムとのメッセージのやり取り履歴も評価処理には必要である。応答内容妥当性評価部111へ入力される、図6のデータの例では、次にシステムが応答出力する応答テキスト候補だけが入力されるように認識される。
【0033】
しかし、入出力履歴DB103から出力されて言語モデル状態応答生成部105に入力される履歴情報は、応答修正部107などを素通りしてそのまま応答内容妥当性評価部111に入力することは容易である。ここでは、応答内容妥当性評価部111に対して、図4に示すやり取り履歴テキスト401と共に、図6の修正された応答テキスト候補群601が入力されたこととして、以下、処理内容を説明する。
【0034】
上述したように、応答内容妥当性評価部111は、応答テキスト候補がそれまでのやり取り履歴の文脈や対話目的に対して妥当な内容を持つかどうかを評価する処理である。そのため、同じ応答テキスト候補に対してはユーザによらず同じスコアを出すことが想定される。しかしながら、同じやり取り履歴(文脈)でもユーザごとに、次のシステム応答としてどういう内容が妥当かは変わってくる可能性は存在する。例えば、図4のやり取り履歴テキスト301に対して、直近のユーザ入力「いくら」に対して、応答テキスト候補群403の中の「残高の確認ですか?」と、残高確認かどうかを再度質問する応答出力は内容的には妥当ではあるが、もしこのユーザがIVRシステムに接続するたび最初に残高確認を行う傾向があるのであれば、直接に残高情報を出力する「残高は“残高”です。」のスコアを高めるなどの調整を行う意義がある。このように、ユーザに応じて内容妥当性スコアを計算する場合であっても、以降の説明にあるドメインごとの情報関連性モデルをユーザID別に管理するDBを用意すればよく、応答内容妥当性評価部111の機能ないし作用は上記と同様であるので、その説明は省略する。
【0035】
応答内容妥当性評価部111が参照するドメインごと情報関連性モデルDB112は、銀行サービスや家電故障受付サービスのように、IVRシステムが対象とするタスクドメインごとに一つのモデルを設定しても良い。また、銀行サービスドメインを細分化して、メインメニュー、残高照会メニュー、国内送金メニューなどのように、複数ドメインの情報関連性モデルを設定して、その時々の対話状態、すなわちユーザ状態DB104で管理されるユーザごとの対話状態に応じて情報関連性モデルを切り替える構成としてもよい。以下の説明では、IVRシステム全体でユーザによらず一つの情報関連性モデルを持つ例を基に処理を説明する。
【0036】
図11は、応答内容妥当性評価部111の処理を示す。とりわけ、処理に伴う入出力情報の一例を示す。上述のように、応答内容妥当性評価部111は、ユーザに対するそれまでのやり取りを記録した履歴情報1101と、「いくら」というユーザの最終入力に対する修正された応答テキスト候補群601を入力として、図10に示したものと同じく、修正された応答テキスト候補一つ一つに対して、応答内容妥当性スコア1002を掲載したリスト1000を出力する。応答テキスト候補群の中の応答テキスト候補一つ一つに対してスコアを算出するには、算出処理をループすれば良い。
【0037】
ここでは、応答テキスト候補「残高の確認ですか?」に対してスコアを算出する処理を取り出して説明する。この処理の例を図12に示す。つまり、やり取りの履歴情報テキスト301に対して応答テキスト候補の一つを末尾に連結したテキストを入力として、応答内容妥当性評価部111が、末尾に連結された応答テキスト候補の応答内容妥当性スコア1204を、情報関連性モデルを参照して算出すれば良い。この処理の例としては例えば、このIVRシステムでの過去の様々なやり取り履歴テキストのうち、すべてのシステム応答が内容的に妥当なもののみを取り出して学習データを構築し、その学習データを使ってLSTM(Long-Short Term Memory)などの再帰的深層学習モデルを学習して使用する方法が考えられる。このLSTM深層学習モデルに、図12の履歴情報テキスト301を入力すると、履歴情報内のやり取りが内容的に妥当かどうかのスコアが内部重みとして伝播し、最終的には履歴情報テキストの末尾の文、すなわち今回の応答テキスト候補に対して内容が妥当かどうかの尤度値が出力されるようにLTSM深層学習モデルを構成できる。この尤度情報に何等かの数学的変換を施すことで、0から1.0の範囲での応答内容妥当性スコア1204を出力する。
【0038】
さらに、応答内容妥当性評価部111の算出処理の他の例として、例えば、チャットボットのQAペアDBを利用する方法や、チャットボットのシナリオ情報を活用する方法などの単純な方法が考えられる。ユーザの入力した対話テキストに対して応答テキストを出力するチャットボットのうち、簡単な例では、入力テキスト(Q)に対する応答テキスト(A)をテキスト対の形で大量にリスト化したQAペアDBを参照する。ユーザの入力した対話テキストに対して何らかの基準で似ていると判定されたQに対応するAテキストを出力することで、問い合わせに応答できるチャットボットが実現できる。例えば、銀行サービスに応答可能なチャットボット用にQAペアDBが存在している場合、そのQAペアDBを応答内容妥当性スコアの算出処理に利用できる。
【0039】
チャットボットのQAペアDBを利用する例では、図12の履歴情報テキスト301の末尾の一対のやりとりである「U:いくら」と「S:残高の確認ですか?」を抜き出し、Qが前者に似てAが後者に似たQAペアがQAペアDBにあるかどうかを検索する。似ているかどうかの判定処理は上記チャットボットの処理を用いればよく、QとAそれぞれで計算される類似度の平均を取るなどして最も類似度が高いQAペアを検索する。その際の類似度に数学的変換を施すことで応答内容妥当性スコアとすることができる。他にも、履歴テキスト301内のユーザ入力とシステム応答のすべてのペアに対して、同様にQAペアDB内での類似度を算出し、すべての類似度に何等かの重みを用いて加重平均を取ることで履歴テキスト全体に対する応答内容妥当性スコアを計算しても良い。
【0040】
また、チャットボットのシナリオ情報を利用する例では、QAペアを対話の流れに沿って繋げて木構造となるようにしたデータであるシナリオ情報を参照する。QAペアDBが一回の往復で完結するやり取りを定義した情報であるのに対して、シナリオ情報は、送金先や送金額などの複数の情報をユーザに質問しなければならないタスクにおいて有用である。この木構造のシナリオ情報を活用して応答内容妥当性スコアを算出する手法も、実際の処理は上記のQAペアDBの活用形態と同様に処理可能である。例えば、履歴テキストの末尾の一対のやり取りを抜き出し、そのユーザ入力とシステム応答の組が、シナリオ木構造の隣あったノードとして近いテキストが存在しているかを類似度の平均などでスコアを算出することができる。
【0041】
応答表現適切性評価部109および応答内容妥当性評価部111から出力された、修正された応答テキスト候補群に対する2つのスコア値リスト700,1000は応答選択部113に入力され、応答選択部113において応答表現適切性スコア702と応答内容妥当性スコア1002を総合した指標で最も良い応答テキストが選択される。選択された応答テキストは、IVRシステムでは音声合成部114で音声に変換されて出力され、ユーザによる音声再生が可能となる。この総合指標の算出方法としては、平均のような単純なものから、応答表現適切性スコア702と応答内容妥当性スコア1002それぞれにしきい値を設定し、共にしきい値を超えた応答テキスト候補に対して何らかの総合指標を算出するなどの工夫が考えられる。
【0042】
以上のように、実施例1によれば、ユーザの入力メッセージ(音声もしくはテキスト)に対して応答メッセージを返すようなIVRシステムにおいて、生成されたメッセージを様々なパタンで修正した応答テキストに対して、その表現がユーザにとって理解しやすいか不快な表現でないかなどを評価した指標である応答表現適切性スコア702と、その応答テキストの内容がそれまでのメッセージのやりとりの文脈に沿った内容であるかを評価した指標である応答内容妥当性スコア1002を算出し、もっとも適切な評価スコアを持つ応答メッセージを選択、出力することができる。これにより、IVRシステムの応答メッセージがユーザに応じて理解しやすく不快でない表現になり、応答メッセージがそれまでの対話文脈に沿った妥当な内容となる。本実施例は、システムの応答メッセージの生成処理が、従来のテンプレートやルールに基づく応答メッセージ生成ではなく統計的テキスト生成手法などで生成される場合、すなわち生成される応答メッセージの表現適切性や内容妥当性に対して制御が困難な場合において特に効果的である。
【実施例0043】
実施例1は、IVRシステムの応答生成処理(図1の言語モデル状態応答生成部105)が図1に示すような大規模言語モデルによる統計的テキスト生成手法によるものである。これに対して、実施例2は、大規模言語モデルによる統計的テキスト生成手法のみによるのではなく、従来の対話的情報システムのような規則的な応答生成手法と、統計的テキスト生成手法とを併用する構成である。
【0044】
実施例2による応答生成装置の一例を図13に示す。なお、図13において、図1と同異なる部位には異なる符号を付している。以下の説明は、実施例1と異なる構成部位について述べる。図13の応答生成装置において、実施例1との違いは、音声認識部101の後から、応答結合部1306までのルートである。応答結合部1306の出力は、実施例1と同じく、IVRシステムが次にユーザに提示する応答メッセージの候補となるテキストのリスト(応答テキスト候補群)601である。ただし、言語モデル状態応答生成部105からは統計的テキスト生成手法によって尤度の異なる複数の応答テキスト候補群601が出力されるのに対して、応答結合部1306から出力される応答テキスト候補群601は、テキスト結合部102から言語モデル応答生成部105の処理ルート(第1のルート)で統計的テキスト生成手法によって生成される応答テキスト候補群105’と、意図理解部1302から応答生成部1305の処理ルート(第2のルート)で規則的に生成される応答テキスト候補群1305’を、応答結合部1306で結合したリストとなる。すなわち、ルートの異なる二つのリストと結合したものである。このように、応答結合部1306から応答メッセージ候補群が出力された後、応答修正部107以降の処理は、実施例1と同様であるので説明を省略する。
【0045】
このように、実施例2による応答テキストの生成は、二つの処理ルートで行われる。第1のルートが、テキスト結合部102から言語モデル応答生成部105を経由する統計的テキスト生成手法によって生成されるルートであり、ここでの応答生成は実施例1の言語モデル状態応答生成部105で実施される処理と同一である。第2のルートは、意図理解部1302から応答生成部1305を経由するルートである。このルートの処理は、従来のIVRシステムで使われているような規則に従った応答テキスト生成処理である。実施例1で説明したような統計的テキスト生成手法がまだ十分にすべてのユーザ入力に対して適切な応答テキストを生成できるとは限らない場合に、このように規則的な生成と統計的テキスト生成とを併用することが有用である。IVRシステムのような対話的情報システムにおいては、例えば銀行サービスのようにあらかじめ設定されたタスクやドメインの中での対話パタンはほぼ事前に設計しておくことができるため、第2の処理ルートのような規則的な応答生成が効果的である。しかし、そのようなサービスシステムであっても、時としてユーザがドメイン外の入力メッセージ(例えばある銀行支店の住所を聞くなど)を発することがありえる。このような場合、従来の規則的な応答生成のみの処理であると、「分かりません。別の問い合わせをどうぞ」などのようなシステム応答が繰り返されることになり、ユーザの満足度が低下する。そこで、統計的テキスト生成手法を併用することでタスク外、ドメイン外の入力であっても何かしらの適切な応答を生成できるようになる。特に、この銀行サービスなどに関連する様々なテキストデータ(銀行Webサイトの全テキストやすべての業務マニュアルなど)を学習データとして統計的テキスト生成手法のモデル学習を行うことで、より適切な応答を生成できる可能性を高めることができる。しかしながら、統計的テキスト生成である以上、実施例1と同様に、その表現の適切さや内容の妥当さは制御しづらいため、応答表現適切性評価部109と応答内容妥当性評価部111でのスコア評価およびその結果を用いた最終的な応答選択部113による処理を行うことが重要になる。
【0046】
以下、第2のルートの処理(すなわち規則的な応答生成処理)について、図14も参照して、詳細に説明する。ユーザが入力したメッセージは、必要であれば音声認識部101を経て、入力テキストとして意図理解部1302に入力される。意図理解部1302では、様々なテキスト表現形式をとり得るユーザ入力テキストに対して、例えば銀行サービスの中のどういうコマンドに対応するかを識別し、そのコマンド(意図ラベル)を出力する。意図理解部1302は、ドメインごとに用意された意図理解モデルDB1319を参照して意図ラベルの識別処理を行う。
【0047】
図14は意図理解モデルDB1319のデータ構成の例を示す。この例では、様々な表現形式の入力テキスト1401に対応する意図ラベル1402を保持する。意図理解部1302は、音声認識部101から入力されたテキストに最も類似した入力テキスト1401を検索し、それに対応する意図ラベル1402を出力する。この類似処理は、上述のQAペアDBの検索で用いる類似度判定手法などを利用すればよい。意図理解部1302の識別手法としては、例えば、図14に示す表形式のデータを学習データとして、機械学習手法(深層学習含む)を用いて、入力テキストの特徴量から意図ラベルを判定する識別器を構成する例もありえる。
【0048】
意図理解部1302から出力された意図ラベルは、ユーザ入力に対するユーザ意図として状態遷移部1304に入力される。状態遷移部1304には併せて、ユーザ状態DB104からの出力である、ユーザのサービス状態が現在どの状態であるかを示す情報も入力される。状態遷移部1304は、現在のユーザ状態と今回入力されたユーザ意図に応じて次のユーザ状態を決定する。状態遷移部1304の処理は、ドメイン(例えば銀行サービスなど)ごとに定義される状態遷移グラフを参照し、現在のユーザ状態ノードから発する有向リンクの中で指定のユーザ意図が割り当てられているリンクが次に至るユーザ状態ノードを探索して出力するという一般的な状態遷移マシンの構成を取ればよい。状態遷移部1304からの出力は、このように決定された次のユーザ状態、および当該有向リンクに合わせて指定されている応答テキストテンプレート(例えば残高照会に対応する有向リンクの場合だと「残高は“残高”です」など)の2点を少なくとも有する。次のユーザ状態は、ユーザ状態DB1303に渡されて格納され、応答テキストテンプレートは応答生成部1305に渡されてユーザに対する応答テキストの生成が行われる。
【0049】
応答生成部1305では、入力された応答テキストテンプレートに対して、必要な情報を追加、置換することで最終的な応答テキストを生成する。例えば、応答テキストテンプレート「残高は“残高”です」が入力された場合、このテンプレートのスロット部分である“残高”をこのユーザ口座の実際の残高数値で置換して例えば「残高は百万円です」などの応答テキストを生成する。
【0050】
実施例2によれば、従来の規則的な対話制御を行うIVRシステムに対して統計的テキスト生成手法を付加することでドメイン外の入力にも柔軟に対応できるようにしたシステムにおいて、実施例1と同様に、生成された応答メッセージを様々なパタンで修正した応答テキストに対して、その表現がユーザにとって理解しやすいか不快な表現でないかなどを評価した指標である応答表現適切性スコアと、その応答テキストの内容がそれまでのメッセージのやりとりの文脈に沿った内容であるかを評価した指標である応答内容妥当性スコアを算出し、もっとも適切な評価スコアを持つ応答メッセージを選択、出力できる。これにより、IVRシステムの応答メッセージがユーザに応じて理解しやすく不快でない表現になると共に、その内容がそれまでの対話文脈に沿った妥当な内容であることが保証される。
【実施例0051】
実施例3は、実施例1の応答表現適切性評価部109が参照するユーザの言語理解モデルDB110に格納されているユーザごとの言語理解モデルデータを、ユーザとシステムのやり取りが進むごとに更新する例である。例えばIVRシステムにおいて、ユーザとシステムの対話が進むにつれて、またはこのIVRシステムにユーザが接続して対話的情報サービスを行うに従って、ユーザに対する言語理解モデルデータを更新する。この更新により、ユーザの感覚を一層反映した表現適切性評価に近づくようになる。すなわち、そのユーザならではの応答表現適切性評価を実施できる。
【0052】
図15は実施例3による応答生成装置の構成例を示す。図15は、実施例1の図1に対して、応答表現適切性更新部1501と、ユーザ反応履歴DB1502が追加されたことが特徴である。その他の部位は、図1と同じなので、同一符号を付している。なお、図15の例に限らず、実施例3は、実施例2の図13に上記の特徴的部位を追加した例でもよい。
【0053】
図16は、応答表現適切性更新部の処理フローの一例を示す。この処理では、データとしてユーザ反応履歴1502に格納されている情報を参照し、その処理結果として、ユーザの言語理解モデルDB110に格納されている、このユーザに対する言語理解モデルデータを更新する。ユーザの言語理解モデルデータとしては、機械学習(深層学習含む)手法を用いる図8の例であってよいし、単語や言い回しごとに正や負の評価値を定義した図9のような例であっても構わない。図17にユーザ反応履歴DB1502のデータ構成例を示す。ユーザ反応履歴DB1502は、システムが出力したメッセージ(応答テキスト)に対して、次にユーザがどのようなメッセージを入力したか、および出力応答から入力までの遅延時間(入力遅延)を管理する。
【0054】
図16のフローに従って、応答表現適切性更新部1501の処理を説明する。応答表現適切性更新部1501の処理は、実施例1や実施例2のIVRシステムにおいて、システムの応答テキストが決定され、それがユーザに対して提示された後に、ユーザが次の応答を入力した後に実行される。この時点で、ユーザ反応履歴DB1502には、先のシステム応答テキストおよび今回のユーザ入力テキスト、およびその出力応答からユーザ入力までに要した時間である入力遅延が格納されている。
【0055】
応答表現適切性更新処理が開始されると、まず処理1602において、上記のように追記格納された最新のユーザ反応履歴情報レコードが取り出され、その前回応答テキストからの特徴量抽出が行われる。例えば、今回参照されるレコードが、データ1703(図17)であった場合、この前回応答テキスト「満期利回り1%が適用されますが、よろしいでしょうか。」に対する特徴量抽出を実施する。ここで行われる特徴量抽出処理は、図1のユーザの言語理解モデルDB110に格納されている言語理解モデルデータの構成に応じて異なってくる。例えば、実施例1で最初に説明した機械学習(深層学習)手法を用いる場合は、この応答テキストそのもの、もしくはここから重要語句(例えば名詞・動詞など)を抜き出して、それを機械学習の学習データに追加した上での再学習が必要となる。この後の処理1606が実施された場合にはこれを負例として学習データに追加し、処理1607が実施された場合には正例として学習データに追加した後に、再学習処理を行って、その結果の学習モデルによってユーザの言語理解モデルDB110内のデータを更新する。一方、実施例1で次に説明した単語・言い回しの評価値を用いる場合であれば、前回応答テキストからそのような単語・言い回しの単位で部分文字列を抜き出し、それらを特徴量として出力する。これらの単語・言い回し文字列に対して、その後に処理1606が実施された場合には負の評価値を付与し、処理1607が実施された場合には正の評価値を付与し、図9に示す単語・言い回しの評価値にそれらを加算することにより、新たな評価値を得る。
【0056】
また、応答表現適切性更新処理が開始されると同時に、処理1603において、ユーザ反応履歴レコードの情報をもとにユーザ反応プレファレンス評価値が算出される。この評価値は、前回応答テキストに対するユーザ入力の入力遅延量をもとに、今回のユーザ入力反応が平均的な反応と比べて良いか(遅延が短いか)、悪いか(遅延が長いか)を判断するための指標である。この評価値の算出方法の一つの例としては、前回応答テキストに対する次のユーザ入力の入力遅延量の平均値を、前回応答テキストの種類に応じてリスト化して保持しておき、この平均値からの差分によってプレファレンス評価値を算出する方法が考えられる。また別の例としては、図17のレコード1702のように、次のユーザ入力テキストが前回応答テキストに対して問い返しをする場合や、ユーザ入力テキストが「分からない」などの否定的な表現の場合にプレファレンス評価値を大きく低い値とし、否定的な表現ではなかった場合には上述のような入力遅延の平均値からの差分を採用するなどの方法も考えられる。
【0057】
次に処理1605において、算出されたプレファレンス評価値があらかじめ設定されたしきい値以上であるかを比較する。その結果、しきい値以上すなわち前回応答テキストに対するユーザ反応が良い場合には処理1607を実行し、逆にしきい値未満すなわち前回応答テキストに対するユーザ反応が悪い場合には処理1606を実行するように分岐する。なお、この処理1605における比較処理は一つのしきい値を用いてそこから大きい場合、小さい場合で2つの処理を分岐しているが、もちろん、二つのしきい値を用いて、大きい方のしきい値以上であれば処理1607を実行し、小さい方のしきい値未満であれば処理1606を実行し、ユーザ反応が平均的だった場合にはユーザ言語理解モデルDB110の更新処理を行わないようにすることも可能である。
【0058】
処理1606が実行された場合、処理1602から出力された特徴量に基づいて、前回応答テキストに対して負の効果が表れるようにユーザ言語理解モデルの更新を行い、そのユーザの言語理解モデルデータを置き換える。この更新処理は上述のように、応答表現適切性評価部109における評価手法によって異なってくる。この手法が機械学習(深層学習含む)手法を用いる例では、ユーザごとにユーザ言語理解モデルデータが機械学習モデルデータとしてユーザ言語理解モデルDB110に格納されているが、実施例3では、更に、その機械学習モデルデータを作成した際の学習データそのものを別途保持しておく必要がある。処理1606が実行された場合は、この保持されたユーザごとの学習データに対して、今回得られた前回応答テキストに対する特徴量およびこの機械学習モデルが予測する指標である応答表現適切性スコアの正解値を追加する。なお、この特徴量は、機械学習手法によりテキスト全体を使用する場合も、テキストから抜き出された特徴単語集合を使用する場合も、またテキスト内の単語やその並びから別途算出された特徴量指標を使用する場合もありえる。
【0059】
このように更新されたユーザごとの学習データを用いてユーザ言語理解モデルを再学習することで、モデルデータの更新を行うことができる。ここで用いる応答表現適切性スコアの正解値としては、処理1606が負の更新を行うことから、例えば、学習データ内のスコア正解値全体の平均値から一定量減算した値を用いる、または処理1603で計算されたプレファレンス評価値の、その平均値からの差分に一定量の重みを乗算して用いるなど様々な方法が考えられる。一方、応答表現適切性評価部109の評価手法が単語・言い回し表現の評価値を用いる場合には、この処理1606において、図9に例示されるようなユーザごとの言語理解モデルデータである特定単語・言い回しテキストごとの評価値リストに対して、処理1602で得られた前回応答テキストに対する特徴量である、そのテキスト内の特定単語・言い回しテキストに対して負の評価値差分を設定し、図9の言語理解モデルデータ内の単語評価値に対して加算処理を行うことで、その評価値の低減を行う。
【0060】
一方、処理1607が実行された場合は、上述と同様に処理1602から出力された特徴量を用いて、今度は正の正解値もしくは評価値差分を用いることで、前回応答テキストに対してユーザごとの言語理解モデルデータがより良い応答表現適切性スコアを算出できるようにする更新処理を行う。
【0061】
実施例3の説明では、応答表現適切性評価部109の評価処理が、あるユーザがシステム応答テキストに対してどのような反応をするかによって、ユーザの言語理解により沿ったものになるように調整する方法を述べた。同様の構成は、応答内容妥当性評価部111の参照する情報関連性モデルDB112のデータの更新処理に対しても利用することが可能である。この場合、情報関連性モデルとしてユーザごとのデータを用いる場合であっても、ただ一つのデータを用いる場合であっても良い。どちらの場合でも、情報関連性モデルデータを作成した際の元の学習データを別途保持しておき、この学習データに新たにデータを追加して再学習することで情報関連性モデルデータを更新することができる。ここで、追加するデータは、これまでのシステムとユーザのやり取り履歴テキスト(前回までの応答テキストを含む)に対して、応答内容妥当性スコアの正解値として、例えば学習データ内のスコアの平均値から一定量を加算もしくは減算した値を用いるなどの方法が利用できる。
【0062】
以上のように、実施例3によれば、IVRシステムにおいて、システム応答テキストに対してその表現がユーザにとって理解しやすいか不快な表現でないかなどを評価した指標である応答表現適切性スコアと、その応答テキストの内容がそれまでのメッセージのやりとりの文脈に沿った内容であるかを評価した指標である応答内容妥当性スコアの算出処理を、システムの出力応答テキストに対する次のユーザの反応の良し悪しによって調整していくことにより、IVRシステムの応答メッセージがユーザにとってより理解しやすく不快でない表現になると同時に、その内容がそれまでの対話文脈に沿った妥当な内容になるように更新していくシステムを実現できる。
【0063】
なお、本発明に係る応答生成装置は、音声を入力として音声を出力するIVRシステムに限らず、ユーザからのテキストを入力としてテキストを出力するチャットボットシステムや、ユーザのテキスト入力を必要とせずにシステムの応答テキスト(メッセージ)を直接ユーザに出力するシステムにも適用することができることは言うまでもない。
【符号の説明】
【0064】
1:応答生成装置
101:音声認識部
102:テキスト結合部
105:言語モデル状態応答生成部
109:応答表現適切性評価部
111:応答内容妥当性評価部
113:応答選択部
114:音声合成部
103:入出力履歴DB
104:ユーザ状態DB
106:言語モデルDB
108:応答修正リストDB
110:ユーザ言語理解モデルDB
112:ドメインごと情報関連性モデルDB
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17