IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2023-32038制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム
<>
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図1
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図2
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図3
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図4
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図5
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図6
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図7
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図8
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図9
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図10
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図11
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図12
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図13
  • 特開-制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023032038
(43)【公開日】2023-03-09
(54)【発明の名称】制御装置、制御方法、提示装置、提示方法、プログラム及び通信システム
(51)【国際特許分類】
   G06F 16/90 20190101AFI20230302BHJP
【FI】
G06F16/90 100
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2021137903
(22)【出願日】2021-08-26
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】深澤 伸一
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
(57)【要約】
【課題】対話AIと人間が協調してユーザーへの対話応答を行うシステムにおいて、人間側の対話支援行動の負荷を分散するシステムを提供することを目的とする。
【解決手段】第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付ける対応付け処理部と、を備える、制御装置が提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、
前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、
前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付ける対応付け処理部と、
を備える、制御装置。
【請求項2】
前記制御装置は、対話支援中ではないオペレーターを前記第2のオペレーターとして選定する選定部を備える、
請求項1に記載の制御装置。
【請求項3】
前記選定部は、担当中のユーザーの人数がより少ないオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項4】
前記選定部は、直前に行った対話支援からの経過時間がより長いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項5】
前記選定部は、直前に転移を受けて行った対話支援からの経過時間がより長いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項6】
前記選定部は、一定期間内における対話支援の累積時間がより短いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項7】
前記選定部は、担当中のユーザーによるユーザー側提示装置の使用開始からの経過時間をまとめた代表値がより長いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項8】
前記選定部は、担当中のユーザーの優先順位の代表値がより低いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項9】
前記選定部は、担当中のユーザーのAIエージェントとの対話のターン数をまとめた代表値がより多いオペレーターを前記第2のオペレーターとして選定する、
請求項2に記載の制御装置。
【請求項10】
前記選定部は、担当中のユーザーのAIエージェントとの対話のターン間の間隔時間長をまとめた代表値がより少ないオペレーターを選定する、
請求項2に記載の制御装置。
【請求項11】
前記間隔時間長は、前記ユーザーの対話のターンと前記AIエージェントの対話のターンとの間隔の時間長である、
請求項10に記載の制御装置。
【請求項12】
前記間隔時間長は、前記AIエージェントの対話のターンに対する前記ユーザーの応答の対話のターン間の間隔の時間長である、
請求項10に記載の制御装置。
【請求項13】
前記選定部は、音声データから発話音声のパワー情報をもとに無音区間を抽出し、所定の時間より長い無音によって区切られた一連の音声区間を用いて前記対話のターンを識別する、
請求項9~12のいずれか一項に記載の制御装置。
【請求項14】
前記選定部は、オペレーターのセンサデータから生成されたオペレーター反応推定情報に基づいて、前記第2のオペレーターを選定する、
請求項2に記載の制御装置。
【請求項15】
第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成することと、
前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付することと、
前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付けることと、
を備える、制御方法。
【請求項16】
コンピュータを、
第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、
前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、
前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付ける対応付け処理部と、
を備える制御装置として機能させるプログラム。
【請求項17】
第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置であって、
前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、
提示装置。
【請求項18】
第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置による提示方法であって、
前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御することを備える、
提示方法。
【請求項19】
コンピュータを、
第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置であって、
前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、
提示装置として機能させるプログラム。
【請求項20】
第1のユーザーの対話支援中の第1のオペレーターの提示装置と、前記第1のオペレーターとは異なる第2のオペレーターの提示装置と、制御装置とを備える、通信システムであって、
前記制御装置は、
前記第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、
前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、
前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第2のオペレーターとを対応付ける対応付け処理部と、
を備え、
前記第1のオペレーターの提示装置は、
前記第2のユーザーに付された優先順位が前記所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備え、
前記第2のオペレーターの提示装置は、
前記第2のユーザーに付された優先順位が前記所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、
通信システム。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御装置、制御方法、提示装置、提示方法、プログラム及び通信システムに関する。
【背景技術】
【0002】
特許文献1には、ユーザーと対話するキャラクター・エージェントの情報提示を行うキャラクター表示部と、ユーザーからの音声入力から命令の意図を推定する対話理解部と、前記意図に従い電子機器を制御する電子機器制御部と、を備えた電子機器の制御装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平4-338817号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
対話AIと人間が協調してユーザーへの対話応答を行うシステムにおいて、人間側の対話支援行動の負荷を分散するシステムを提供することを目的とする。
【課題を解決するための手段】
【0005】
上記問題を解決するために、本発明のある観点によれば、第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付ける対応付け処理部と、を備える、制御装置が提供される。
【0006】
前記制御装置は、対話支援中ではないオペレーターを前記第2のオペレーターとして選定する選定部を備えてもよい。
【0007】
前記選定部は、担当中のユーザーの人数がより少ないオペレーターを前記第2のオペレーターとして選定してもよい。
【0008】
前記選定部は、直前に行った対話支援からの経過時間がより長いオペレーターを前記第2のオペレーターとして選定してもよい。
【0009】
前記選定部は、直前に転移を受けて行った対話支援からの経過時間がより長いオペレーターを前記第2のオペレーターとして選定してもよい。
【0010】
前記選定部は、一定期間内における対話支援の累積時間がより短いオペレーターを前記第2のオペレーターとして選定してもよい。
【0011】
前記選定部は、担当中のユーザーによるユーザー側提示装置の使用開始からの経過時間をまとめた代表値がより長いオペレーターを前記第2のオペレーターとして選定してもよい。
【0012】
前記選定部は、担当中のユーザーの優先順位の代表値がより低いオペレーターを前記第2のオペレーターとして選定してもよい。
【0013】
前記選定部は、担当中のユーザーのAIエージェントとの対話のターン数をまとめた代表値がより多いオペレーターを前記第2のオペレーターとして選定してもよい。
【0014】
前記選定部は、担当中のユーザーのAIエージェントとの対話のターン間の間隔時間長をまとめた代表値がより少ないオペレーターを選定してもよい。
【0015】
前記間隔時間長は、前記ユーザーの対話のターンと前記AIエージェントの対話のターンとの間隔の時間長であってもよい。
【0016】
前記間隔時間長は、前記AIエージェントの対話のターンに対する前記ユーザーの応答の対話のターン間の間隔の時間長であってもよい。
【0017】
前記選定部は、音声データから発話音声のパワー情報をもとに無音区間を抽出し、所定の時間より長い無音によって区切られた一連の音声区間を用いて前記対話のターンを識別してもよい。
【0018】
前記選定部は、オペレーターのセンサデータから生成されたオペレーター反応推定情報に基づいて、前記第2のオペレーターを選定してもよい。
【0019】
また、本発明の他の観点によれば、第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成することと、前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付することと、前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付けることと、を備える、制御方法が提供される。
【0020】
また、本発明の他の観点によれば、コンピュータを、第1のユーザーの対話支援中の第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第1のオペレーターとは異なる第2のオペレーターとを対応付ける対応付け処理部と、を備える制御装置として機能させるプログラムが提供される。
【0021】
また、本発明の他の観点によれば、第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置であって、前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、提示装置が提供される。
【0022】
また、本発明の他の観点によれば、第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置による提示方法であって、前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御することを備える、提示方法が提供される。
【0023】
また、本発明の他の観点によれば、コンピュータを、第1のユーザーの対話支援中の第1のオペレーターとは異なる第2のオペレーターの提示装置であって、前記第1のオペレーターと対応付けられた第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、提示装置として機能させるプログラムが提供される。
【0024】
また、本発明の他の観点によれば、第1のユーザーの対話支援中の第1のオペレーターの提示装置と、前記第1のオペレーターとは異なる第2のオペレーターの提示装置と、制御装置とを備える、通信システムであって、前記制御装置は、前記第1のオペレーターと対応付けられた第2のユーザーのセンサデータに基づいて、前記第2のユーザーの反応推定情報を生成する反応推定部と、前記第2のユーザーの反応推定情報に基づいて、前記第2のユーザーに優先順位を付する優先付け処理部と、前記第2のユーザーに付された優先順位が所定の優先順位であることに基づいて、前記第2のユーザーと前記第2のオペレーターとを対応付ける対応付け処理部と、を備え、前記第1のオペレーターの提示装置は、前記第2のユーザーに付された優先順位が前記所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備え、前記第2のオペレーターの提示装置は、前記第2のユーザーに付された優先順位が前記所定の優先順位であることに基づいて、前記第2のユーザーに応じた提示を制御する制御部を備える、通信システムが提供される。
【発明の効果】
【0025】
以上説明したように本発明によれば、対話エンジンや推定エンジンの性能が低くても、ユーザーの反応に合わせた適切な対話応答や情報提供を行い得る対話システムにおいて、オペレーターの対話支援行動の負荷を分散できるシステムを実現する技術が提供される。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。
図2】同実施形態に係る対話制御サーバ、ユーザー側提示装置、オペレーター側提示装置のハードウェア構成の一例を示すブロック図である。
図3】同実施形態に係るユーザー側提示装置の機能構成の一例を示すブロック図である。
図4】同実施形態に係るオペレーター側提示装置の機能構成の一例を示すブロック図である。
図5】同実施形態に係る対話制御サーバの機能構成の一例を示すブロック図である。
図6】ユーザー側提示装置の提示部によって提示される第1の画面の例を示す図である。
図7】オペレーター側提示装置の提示部によって提示される画面の例を示す図である。
図8】オペレーター側提示装置の提示部によって提示される画面の例を示す図である。
図9】ユーザー側提示装置の提示部によって提示される第2の画面の例を示す図である。
図10】ユーザー側提示装置の提示部によって提示される第3の画面の例を示す図である。
図11】転移元のオペレーターが使用するオペレーター側提示装置における転移されるユーザーに応じた提示制御の例を示す図である。
図12】転移先のオペレーターが使用するオペレーター側提示装置における転移されるユーザーに応じた提示制御の例を示す図である。
図13】同実施形態に係る情報通信システムの動作フローの一例を示す説明図である。
図14】同実施形態に係る情報通信システムのアラート対話分配管理部および要支援ユーザー検出部の動作フローの一例を示す説明図である。
【発明を実施するための形態】
【0027】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0028】
また、本明細書及び図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
【0029】
(0.概要)
前記特許文献1のような化体(観念的な事柄が具体的な形あるもので表されたもの)を有するエージェントが情報提示され、ユーザーと前記エージェントの対話により機器やシステムの動作が制御される、エージェントUI(User Interface)を備えた対話システムは従来から存在している。それらの対話システムの利点として、対話という自然で直感的な人間の行動を入力方法に用いることにより、キーボードやその他の専用入力装置を使用するシステムと比べてシステムの操作や動作理解が容易であることがしばしば挙げられる。
【0030】
しかし、そのような対話による自然で直感的な入力が機械的に実現されるためには、人間の発話(または文章入力)という、自由度や多義性が非常に高い情報の意味や意図の理解をリアルタイムで正確に行うことができる、高性能な対話理解エンジン(AI:Artificial Intelligence)や意図推定エンジン(AI)が必要となる。
【0031】
たとえば、対話処理と関連が深い自然言語(言語理解)処理分野でのAI技術、「意味解析」や「文脈解析」の技術は、その性能は人間にまだ及ばない状況である。
【0032】
それゆえ、現在の実環境で実運用される対話システムは、対話を自由型対話ではなく単純な一問一答型に制約する、人間が膨大な対話ルールを人手で事前につくりこんでおく、等の、制約を設けたり完全に人手作業に頼ったりすることにより実現されていることが少なくない。
【0033】
上記のような対話の制約や人手ルールの不十分さによりユーザーが本来の自由な対話を行えない場合、対話システムはしばしば旧来のキーボードや専用入力装置によるシステム操作方法に利便性ではむしろ劣る、という状況が起こり得る。そして、ユーザーの自由な対話に機械的に完全対応できる高性能な対話理解エンジン(AI)や意図推定エンジン(AI)の実現は現状の社会の技術水準では難しい。
【0034】
そのような課題に対し、対話理解エンジン(AI)や意図推定エンジン(AI)による対話機能と、推定エンジン(AI)ではなく人間のオペレーターが遠隔からエージェントを介してユーザーと間接的に対話する機能と、を組合せて協働させる仕組みを採用することで、理解・推定エンジン(AI)の精度・性能が低い場合でも結果的にユーザーが対話形式で意図通りに操作ができる対話システムを本発明の実施形態において提案する。
【0035】
具体的には、本発明の実施形態は、推定エンジンの動作を基に機械的に対話を行う「AIエージェント」と、人間のオペレーターが背後で操作し遠隔から前記AIエージェントと直接的に対話する(ユーザーとは間接的に対話する)「人操作エージェント」という2種類の異なる役割を担うエージェント(ペアエージェント)が登場するUI(User Interface)を備える、という1つ目の特長を有する。
【0036】
さらに、前記AIエージェントはユーザーと直接対話するが、前記人操作エージェントはユーザーとは対話せず前記AIエージェントと対話する。つまり、本発明の実施形態は、そのエージェント間の対話の様子をユーザーに情報提示する、という2つ目の特長を有する。
【0037】
加えて、本発明の実施形態は、前記AIエージェントと前記人操作エージェント間の対話データを利用して、前記AIエージェントの動作の元になる推定エンジンの学習修正(再学習)を行い、対話システムが使われるほど前記推定エンジンが賢くなっていく(性能が向上していく)、という3つ目の特長を有する。
【0038】
本発明の実施形態は、AIエージェントと人操作エージェントというペアエージェント間の対話を制御する「エージェント間対話制御部」を備え、人操作エージェントが、従来の人間操作型のエージェントとは異なり、AIエージェントのみと対話を行ってその対話の情報をユーザーに提示するという仕組みを採用した。これにより、通常の対話ではユーザーと1対1のかかりきりで応対しなければならないオペレーターが、ユーザーと直接対話する必要がなくなるため、オペレーターの対話行動に要する労力や人的リソースを削減可能になる。
【0039】
さらに、本発明の実施形態によれば、オペレーターの操作に基づいてユーザーの意図に対する修正処理が行わるため、ユーザーは性能が低い推定エンジンの対話システムでも従来と比較してより少ないストレス負荷で意図通りのシステム操作を行うことができる(性能が低い推定エンジンでも実運用可能な対話システムが実現され得る)。また、本発明の実施形態によれば、修正処理後の意図に基づいて推定エンジンが学習されるため、実環境で使われながら推定性能を向上させられる対話システムが実現され得る。
【0040】
加えて、本発明の実施形態によれば、ユーザー側提示装置がセンサ部を、そして対話制御サーバがユーザー反応観測部を備えることにより、対話システムの性能等に起因する対話中のユーザーの反応(たとえば、対話がうまくいかないことによるネガティブな感情)の情報をオペレーターが把握・管理しやすくなり、1名のオペレーターで「複数の」ユーザー(または対話システム)に対応し得ることで、対話システムの実現に関わるオペレーターの人的リソースを大きく低減可能になる。
【0041】
さらに加えて、本発明の実施形態によれば、対話制御サーバがアラート対話分配管理部を備えることにより、支援を要する複数のユーザーに対して、「複数の」オペレーター(または対話システム)が協調的にリソース分配されて対話支援を行うことが可能になる。
【0042】
(1.第1の実施形態)
続いて、図1を参照して、本発明の実施形態に係る情報通信システムの概略的な構成を説明する。
【0043】
図1は、本実施形態に係る情報通信システムの概略的な構成の一例を示す説明図である。図1を参照すると、本情報通信システムは、対話制御サーバ100(制御装置)、ユーザー側提示装置200(ユーザーの提示装置)、オペレーター側提示装置300(オペレーターの提示装置)、LAN50、複数のオペレーター800及び複数のユーザー900を含む。
【0044】
ユーザー900とユーザー側提示装置200は同じ拠点内に存在し、また、オペレーター800とオペレーター側提示装置300も同じ拠点内に存在するが、オペレーター800とユーザー900は互いに遠隔地の異なる拠点に存在していても構わない。さらに、図1のように、複数のオペレーター800(とオペレーターの提示装置)と、複数のユーザー900(とユーザー側提示装置200)は、それぞれ複数の拠点(たとえば、拠点A、B、C、D、E、F、O、O2)に分散して存在していてもよい。ユーザー900は、ユーザー側提示装置200を使用して、たとえば情報検索を行う。
【0045】
図1に示されるように、ユーザー側提示装置200は、センサとして、カメラ(C:Camera))、マイクロフォン(M:Microphone)、及びその他のセンサ(O:Other Sensors)を備えていてもよい。同様に、オペレーター側提示装置300も、カメラ、マイクロフォン、及びその他のセンサを備えていてもよい。すなわち、本発明の実施形態に係る提示装置は、ユーザー及びオペレーターに使用される旧来の入力装置(たとえば、マウスやキーボード等)の代わりに、あるいは、これらの入力装置に追加して、各種センサによる対話に係る情報の直観的な入力機能を備えていてもよい。
【0046】
図2は、本実施形態に係る対話制御サーバ100、ユーザー側提示装置200、オペレーター側提示装置300(以下、それぞれを区別せずに「本実施形態に係る装置」と言う場合がある。)のハードウェア構成の一例を示すブロック図である。なお、前記の各装置のすべてに下記のハードウェア構成のすべてが備えられている必要はなく(たとえば対話制御サーバ100に直接的にセンサが備えられている必要はない)、後述する各装置の機能構成を実現できるハードウェアモジュールが適宜限定して備えられてもよい。
【0047】
図2を参照すると、本実施形態に係る装置は、バス801、CPU(Central Processing Unit)803、ROM(Read Only Memory)805、RAM(Random Access Memory)807、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817、スピーカ819を備える。
【0048】
CPU803は、本実施形態に係る装置における様々な処理を実行する。また、ROM805は、本実施形態に係る装置における処理をCPU803に実行させるためのプログラム及びデータを記憶する。また、RAM807は、CPU803の処理の実行時に、プログラム及びデータを一時的に記憶する。
【0049】
バス801は、CPU803、ROM805及びRAM807を相互に接続する。バス801には、さらに、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817及びスピーカ819が接続される。バス801は、例えば、複数の種類のバスを含む。一例として、バス801は、CPU803、ROM805及びRAM807を接続する高速バスと、該高速バスよりも低速の1つ以上の別のバスを含む。
【0050】
記憶装置809は、本実施形態に係る装置内で一時的または恒久的に保存すべきデータを記憶する。記憶装置809は、例えば、ハードディスク(Hard Disk)等の磁気記憶装置であってもよく、または、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ(flash
memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access
Memory)及びPRAM(Phasechange Random Access Memory)等の不揮発性メモリ(nonvolatile memory)であってもよい。
【0051】
通信インタフェース811は、本実施形態に係る装置が備える通信手段であり、ネットワークを介して(あるいは直接的に)外部装置と通信する。通信インタフェース811は、無線通信用のインタフェースであってもよく、この場合に、例えば、通信アンテナ、RF回路及びその他の通信処理用の回路を含んでもよい。また、通信インタフェース811は、有線通信用のインタフェースであってもよく、この場合に、例えば、LAN端子、伝送回路及びその他の通信処理用の回路を含んでもよい。
【0052】
センサ813は、たとえばカメラ、マイクロフォン、生体センサ、その他のセンサまたはそれらの複合である。カメラは、被写体を撮像するもので、例えば光学系、撮像素子及び画像処理回路を含む。マイクロフォンは、周囲の音を収音するもので、該音を電気信号へ変換し該電気信号をデジタルデータに変換する。
【0053】
入力装置815は、タッチパネル、マウス、視線検出装置等である。表示装置817は、本実施形態に係る装置からの出力画像(すなわち表示画面)を表示するもので、例えば液晶、有機EL(Organic Light-Emitting Diode)、CRT(Cathode Ray Tube)等を用いて実現され得る。スピーカ819は、音声を出力するもので、デジタルデータを電気信号に変換し該電気信号を音声に変換する。
【0054】
次に、図3を参照して、本実施形態に係る「ユーザー側提示装置200」の機能構成の一例を説明する。ユーザー側提示装置200は、通信部210、記憶部220、制御部230、入力部240、提示部250及びセンサ部260を備える。
【0055】
通信部210は、他の装置と通信する。たとえば、通信部210は、LAN50に直接的に接続され、対話制御サーバ100と通信する。なお、通信部210は、通信インタフェース811により実装され得る。
【0056】
記憶部220は、ユーザー側提示装置200の動作のためのプログラム及びデータを記憶する。なお、記憶部220は、記憶装置809により実装され得る。
【0057】
制御部230は、ユーザー側提示装置200の様々な機能を提供する。なお、制御部230は、CPU803、ROM805及びRAM807により実装され得る。
【0058】
入力部240は、ユーザー900からの入力を受け付ける。そして、入力部240は、入力結果を制御部230へ提供し、前記入力結果は通信部210を介して後述する対話制御サーバ100へ送信される。
【0059】
前記ユーザー900からの入力とは、たとえば音声入力である。入力部240から入力されたユーザー音声データは、音声認識処理を経て、テキスト化されたデータに変換される。たとえば、前記音声認識処理は、入力部240から入力されたユーザー音声データから発話区間を検出し、検出した発話区間の音声データを言語の音素や単語の辞書と照合し、発話区間に含まれる単語や文節の候補を対話言語データとして得る処理である。たとえば、前記音声認識処理は、音声認識エンジン(AI)によって行われてよい。
【0060】
本実施形態では、制御部230が入力部240を介して取得した前記ユーザー音声データを、通信部210を介して後述する対話制御サーバ100へ送信し、対話制御サーバ100内の制御部130で前記音声認識処理が行われる場合を主に想定する。しかし、前記ユーザー音声データが(直接、または対話制御サーバ100を介して)一般的な音声認識クラウドサービスのサーバへ送信されて音声認識クラウドサービスにおいて前記音声認識処理が行われても構わない。あるいは、前記音声認識処理は、ユーザー側提示装置200内の制御部230で行われても構わない。
【0061】
なお、入力部240はキーボードやタッチパネル(ソフトウェアキーボード)でも構わず、その場合、ユーザー900の入力データは音声チャネルや音声認識処理を介さず直接的にテキスト化されて、ユーザー側提示装置200はユーザー900の対話言語(文字列)データを取得できる。対話言語データに対しては、自然言語(言語理解)処理が施され、自然言語処理の結果として発話語・文の単位候補が得られる。たとえば、自然言語処理は、対話言語データに対して構文解析を行うことによって受理可能な文法に従う発話語・文の1または複数の候補を得る処理である。たとえば、前記自然言語処理は、言語理解エンジン(AI)によって行われてよい。
【0062】
本実施形態では、対話制御サーバ100内の制御部130が、前記ユーザー音声データに基づいて得られた対話言語データに対して、自然言語処理を行う場合を主に想定する。しかし、対話言語データに対する自然言語処理は、ユーザー側提示装置200の制御部230によって行われてもよい。このとき、ユーザー側提示装置200の制御部230によって得られた、発話語・文の1または複数の候補が、通信部210を介して対話制御サーバ100へ送信される。なお、前記自然言語処理は、(直接、または対話制御サーバ100を介して)一般的な自然言語処理クラウドサービスのサーバへ送信され自然言語処理サービスにおいて行われても構わない。
【0063】
いずれの場合であっても、後述する対話制御サーバ100は、音声認識処理及び自然言語(言語理解)処理の結果として、発話語・文の1または複数の候補(ユーザー900による入力データ)を取得できる。発話語・文の1または複数の候補は、後述するように、ユーザー900の意図の推定に用いられる。なお、入力部340は、入力装置815により実装され得る。
【0064】
提示部250は、後述するペアエージェントをユーザー900へ情報提示する。また、提示部250は、前記ペアエージェントの対話言語データのテキスト(文字列情報)をユーザー900へ情報提示してもよい。なお、提示部250は、例えば表示装置823により実現され得る。
【0065】
センサ部260は、ユーザー900の行動や生理反応を外的に計測してデータを取得する。前記行動や生体反応のデータは、たとえば、カメラにより計測される顔表情や身体姿勢の状態内容を含む画像データ、マイクロフォンにより計測される音声データ(入力部240が音声の言語情報の取得を目的とする場合、センサ部260は音声の非言語情報の取得を目的としてもよい)、加速度センサにより計測される身体動作の加速度データ、キーボード・マウス・タッチパネル等の入力装置により計測される機器操作データ、各種生体センサにより計測される自律神経系活動(心拍活動、皮膚電気活動、血圧、発汗、呼吸、皮膚・深部体温等)のデータ、中枢神経系活動(脳波、脳血流等)のデータ、視線計測装置により計測される視線運動・瞳孔径・瞬目数等のデータ、唾液または血中の免疫成分のデータ等を含む。これらの計測指標の算出処理は、制御部230によりユーザー側提示装置200内で行われてもよいし、ユーザー側提示装置200から対話制御サーバ100へ生の測定データを送信し対話制御サーバ100内で行われてもよい。なお、センサ部260は、センサ813により実装され得る。
【0066】
なお、ユーザー側提示装置200は、カメラ、マイクロフォン、加速度センサ、通信部等を備えたスマートフォンやタブレット端末であっても構わないし、HMD(Head Mounted Display)やディスプレイ付きのウェアラブル端末であっても構わない。
【0067】
次に、図4を参照して、本実施形態に係る「オペレーター側提示装置300」の機能構成の一例を説明する。オペレーター側提示装置300は、通信部310、記憶部320、制御部330、入力部340、提示部350及びセンサ部360を備える。
【0068】
通信部310は、他の装置と通信する。たとえば、通信部310は、LAN50に直接的に接続され、対話制御サーバ100と通信する。なお、通信部310は、通信インタフェース811により実装され得る。
【0069】
記憶部320は、オペレーター側提示装置300の動作のためのプログラム及びデータを記憶する。なお、記憶部320は、記憶装置809により実装され得る。
【0070】
制御部330は、オペレーター側提示装置300の様々な機能を提供する。なお、制御部330は、CPU803、ROM805及びRAM807により実装され得る。
【0071】
入力部340は、オペレーター800からの入力を受け付ける。そして、入力部340は、入力結果を制御部330へ提供する。前記入力結果は通信部310を介して後述する対話制御サーバ100へ送信される。
【0072】
提示部350は、制御部330による制御に従って、オペレーターによって知覚され得る情報の提示を行う。本発明の実施形態においては、提示部350がオペレーターによって視覚的に知覚される表示画面を表示する場合を主に想定する。かかる場合、提示部350は、表示装置823により実現され得る。しかし、提示部350がオペレーターの聴覚によって知覚される情報を提示する場合、提示部350は、スピーカにより実現されてもよい。あるいは、提示部350がオペレーターの触覚や嗅覚によって知覚される情報を提示する場合、提示部350は、触覚または嗅覚提示装置により実現されてもよい。
【0073】
センサ部360は、オペレーター800の行動や生理反応を外的に計測してデータを取得する。オペレーター800の行動や生体反応のデータは、ユーザー900の行動や生体反応のデータと同様に取得されてよい。これらの計測指標の算出処理は、制御部330によりオペレーター側提示装置300内で行われてもよいし、オペレーター側提示装置300から対話制御サーバ100へ生の測定データを送信し対話制御サーバ100内で行われてもよい。なお、センサ部360は、センサ813により実装され得る。
【0074】
また、オペレーター側提示装置300は、ユーザー側提示装置200よりも性能が高いハードウェア装置でも構わない。性能が高いとは、たとえば、表示装置823の表示領域のサイズや解像度が大きかったり、CPU803の処理能力が高かったり、通信インタフェース811の最大通信速度が高かったり、センサ部360や制御部330にジェスチャー認識やその他の高度な行動認識機能が追加されており、そのためにセンサ813に特殊な計測機器が使用されていたりしても構わない。
【0075】
次に、図5を参照して、本実施形態に係る「対話制御サーバ100」の機能構成の一例を説明する。図5は、本実施形態に係る対話制御サーバ100の機能構成の一例を示すブロック図である。図5を参照すると、対話制御サーバ100は、通信部110、記憶部120及び制御部130を備える。
【0076】
通信部110は、他の装置と通信する。たとえば、通信部110は、LAN50に直接的に接続され、ユーザー側提示装置200やオペレーター側提示装置300と通信する。また、LAN50はインターネットに接続されていても構わない。なお、通信部110は、通信インタフェース811により実装され得る。
【0077】
記憶部120は、対話制御サーバ100の動作のためのプログラム及びデータを記憶する。前記記憶されるデータには、本発明の認識処理に使われる各種AIの学習用データや学習済モデルデータが含まれてもよい。なお、記憶部120は、記憶装置809により実装され得る。
【0078】
制御部130は、対話制御サーバ100の様々な機能を提供する。制御部130は、AIエージェント制御部140、人操作エージェント制御部150、エージェント間対話制御部160、意図学習部170、意図推論部180、ユーザー反応観測部190及びアラート対話分配管理部195を含む。なお、制御部130は、CPU803、ROM805及びRAM807により実装され得る。
【0079】
意図学習部170は、後述する意図推論部180が後述する意図の推定処理(推論処理)を行うのに必要な、学習済モデルデータや識別器を、各種の機械学習や深層学習等の学習処理によって生成する。前記学習済モデルデータや識別器は、記憶部120に記憶されてもよい。意図学習部170によって生成された学習済モデルデータや識別器は、意図推定エンジン(AI)として機能する。また、意図の推定処理を機械学習ベースではなくヒューリスティックなルールベースで行う場合は、前記学習処理を行わず、推定に用いる前記ルールに関するデータを、記憶部120に記憶させてもよい。また、意図学習部170は、意図修正学習部171を含む。意図修正学習部171の詳細については、後述する。
【0080】
意図推論部180は、前記自然言語(言語理解)処理によって得られた発話語・文の1または複数の候補に基づいて、ユーザー900の意図を推定する。たとえば、意図推論部180は、発話語・文の1または複数の候補と意図推定エンジン(AI)とに基づいて、ユーザー900の意図推定情報を生成する。より詳細に、意図推論部180は、発話語・文の1または複数の候補を意図推定エンジン(AI)に入力し、この入力に基づいて意図推定エンジン(AI)から出力されるデータを、ユーザー900の要求(ユーザー900の意図)として推定する。意図推論部180は、通信部110によって意図推定情報がオペレーター側提示装置300に送信されるように通信部110を制御する。
【0081】
意図とは、特にユーザーの目的に関する情報取得という観点では、非特許文献1「笹嶋、2015、意図の認識、進化するヒトと機械の音声コミュニケーション、pp.89-107」より、「対話文からユーザーが解決したい問題を同定すること」とも定義することができる。本明細書内ではこの定義に従って説明する。意図の代表的な属性として、“Where”(場所を知りたい)、“What”(事物の定義を知りたい)、“When”(いつ起こるのか知りたい)、等が挙げられる(笹嶋、2015、前掲)。正しい意図推定の情報が得られることにより、対話システムは、意味・文脈的に適切な対話応答をユーザーに返すことができる。意図推定の方法については、たとえば非特許文献2「颯々野、2018、音声発話からの意味理解、電子情報通信学会誌、101(9)、pp.891-895」など、多くの公知の先行文献が存在するため、ここでは説明を省略する。
【0082】
なお、意図推定エンジン(AI)には、発話語・文の1または複数の候補だけではなく、意図の絞り込みに用いられる他の情報(たとえばセンサデータから得られる非言語情報)が入力されてもよい。たとえば、意図推定エンジン(AI)は、学習可能なモデル(ニューラルネットワークの学習済みモデルなど)によって構成されている。
【0083】
なお、本実施形態では、前記対話エンジン(AI)の処理が対話制御サーバ100内において行われる場合を主に想定する。しかし、前記対話エンジン(AI)の処理は、ユーザー側提示装置200内の制御部230で行われても構わないし(この場合、対話データが対話制御サーバ100にも送信される)、対話制御サーバ100からさらに一般的な対話処理クラウドサービスのサーバへ送信されて対話処理クラウドサービスにおいて前記対話エンジン(AI)の処理が行われても構わない。
【0084】
意図推論部180によってユーザー900の意図が推定されると、対話エンジン(AI)は、ユーザー900の意図に基づいて、対話言語データを生成し、対話言語データに基づいて、ユーザー側提示装置200の提示部250による出力形式に合わせた形式の対話データを生成してもよい。たとえば、ユーザー側提示装置200の提示部250がスピーカを含む場合には、対話エンジン(AI)は、音声形式の対話データを生成してもよい。あるいは、ユーザー側提示装置200の提示部250がディスプレイを含む場合には、対話エンジン(AI)は、テキスト形式の対話データを生成してもよい。
【0085】
なお、一般に対話システムは、基本的な処理構成として、入力理解部、対話管理部、出力生成部からなる(中野幹生、2015、対話システムの構成と処理の概要、対話システム、pp.66-113)。前記入力理解部には音声認識エンジン(AI)及び言語理解エンジン(AI)が含まれ、対話管理(対話処理)部には意図推定エンジン(AI)や内部状態データベースが含まれ、出力生成部には、言語生成エンジン(AI)や音声合成部や非言語情報表出部が含まれてもよい(各エンジンの担当処理機能は、中野幹生、2015、前掲、に従う)。
【0086】
本発明の実施形態では、AIエージェントの対話処理に用いられる対話エンジンや意図推定エンジン(AI)の性能が低い状況を想定しており、本発明の実施形態に係るAIエージェントは意図・意味的に適切ではない対話応答をユーザー900に対して行っても構わない。また、本発明の実施形態に係るAIエージェントの対話エンジンの方式は、ルールベースでも、従来の機械学習ベースでも、深層学習ベースで生成されたものでも構わない。
【0087】
AIエージェント制御部140は、ユーザー900によって視認されるAIエージェント(第1のオブジェクト)の動作を、通信部110を介して制御する。本実施形態では、AIエージェントが、ユーザー側提示装置200の提示部250(たとえば、ディスプレイなど)によってユーザー900に提示される仮想的なオブジェクトである場合を主に想定する。すなわち、AIエージェント制御部140は、通信部110を介してユーザー側提示装置200と通信を行い、ユーザー側提示装置200の提示部250によってユーザー900に情報提示されるAIエージェントの動作を制御する。しかし、AIエージェントは、仮想的なオブジェクトでなくてもよく、実オブジェクト(たとえば、実世界に存在するロボットなど)であってもよい。
【0088】
より詳細に、AIエージェント制御部140は、ユーザーから入力された対話データ、及び、対話エンジンによって生成された対話データ(出力データ)が、通信部110によってユーザー側提示装置200に送信されるように通信部110を制御する。これによって、ユーザー側提示装置200の制御部230は、ユーザーから入力された対話データ、及び、対話エンジンによって生成された対話データを取得し、ユーザーから入力された対話データに基づく対話情報、対話エンジンによって生成された対話データに基づく対話情報が提示部250によって提示されるように制御する。さらに、AIエージェント制御部140は、ユーザーから入力された対話データ、対話エンジンによって生成された対話データ(出力データ)及び意図推定情報が、オペレーター側提示装置300に送信されるように通信部110を制御する。これによって、オペレーター側提示装置300の提示部350によっても対話データに基づく提示が行われる。
【0089】
図6は、ユーザー側提示装置200の提示部250によって提示される第1の画面の例を示す図である。図6を参照すると、提示部250によって画面A10が提示され、画面A10にAIエージェントB1が提示されている。また、AIエージェント制御部140は、ユーザーによって入力された対話データに基づく対話情報A102「〇〇〇は朝何時に開きますか?」を提示部250に提示させている(制御部230は、AIエージェント制御部140による制御に従って、対話情報A102「〇〇〇は朝何時に開きますか?」が提示されるように提示部250を制御している)。
【0090】
また、AIエージェント制御部140は、この対話データに対応して対話エンジンによって生成された対話データに基づく対話情報A103「〇〇〇は右手の方にあるよ。」を(AIエージェントB1からの対話情報として)AIエージェントB1に対応付けて提示部250に提示させている(制御部230は、AIエージェント制御部140による制御に従って、対話情報A103「〇〇〇は右手の方にあるよ。」が提示されるように提示部250を制御している)。たとえば、AIエージェント制御部140は、対話情報A103をAIエージェントB1からの吹き出しに記述することによって、対話情報A103とAIエージェントB1とを対応付けることが可能である。このとき、AIエージェント制御部140は、補助説明情報の例として、地図情報A101を提示部250に提示させている。
【0091】
ユーザーは、自分の質問(または要求、意図)に対する正しい回答(情報)が得られなかったため、「いや、何時に開きますか?」と再度入力を行っている。ここでは、ユーザーからの入力は、音声入力により行われ、対話エンジンによって生成された対話データの出力は音声出力及びテキスト表示によって行われる場合を想定している。しかし、前述したように、ユーザーからの入力は、音声入力に限定されないし、AIエージェントB1からの対話情報の出力も、音声出力及びテキスト表示に限定されない。
【0092】
AIエージェントB1は、ユーザーがシステムを操作するための対話(たとえば、音声対話)を行う相手をイメージした化体であってよく、擬人化または動物等を模したキャラクターの様態(図6に示された例では、ヒナ鳥)をしていてもよい。さらに、AIエージェントは、ユーザー900と言語対話(たとえば、音声対話)のやり取りを行うだけでなく、非言語情報としてうなずき等のしぐさをアニメーションで表現(表出)する機能を備えていてもよい。AIエージェントが機械的にユーザーと対話を行う方法については、前述の特許文献1(特開平4-338817号公報)など多くの公知の先行文献に記載されているため、ここでは説明を省略する。
【0093】
なお、AIエージェント制御部140による制御動作の一部は、ユーザー側提示装置200内で実施されても構わないし、対話制御サーバ100及びユーザー側提示装置200以外の装置によって実施されたりしても構わない(たとえば、エッジコンピューティングによって実施されても構わない)。
【0094】
人操作エージェント制御部150は、ユーザー900によって視認される人操作エージェント(第2のオブジェクト)の動作を、通信部110を介して制御する。本実施形態では、人操作エージェントが、ユーザー側提示装置200の提示部250(たとえば、ディスプレイなど)によってユーザー900に提示される仮想的なオブジェクトである場合を主に想定する。すなわち、人操作エージェント制御部150は、通信部110を介してユーザー側提示装置200と通信を行い、ユーザー側提示装置200の提示部250によってユーザー900に情報提示される人操作エージェントの動作を制御する。しかし、人操作エージェントは、仮想的なオブジェクトでなくてもよく、実オブジェクト(たとえば、実世界に存在するロボットなど)であってもよい。
【0095】
オペレーターは、必要に応じて人操作エージェントの操作情報を入力部340に対して入力する。
【0096】
たとえば、前記人操作エージェントの操作情報は、人操作エージェントが前記AIエージェントに対して行う対話言語データの指定を含んでもよいし、後述する正しい意図の指定を含んでもよい。あるいは、前記人操作エージェントの操作情報は、人操作エージェントによる非言語コミュニケーションの表出指示(たとえば、人操作エージェントに特定の表情(たとえば、焦った表情など)を浮かべさせる指示など)を含んでもよい。非言語コミュニケーションの表出指示は、オペレーターに取り付けられたセンサによる検出結果に基づいて入力されてもよい。あるいは、前記人操作エージェントの操作情報は、ユーザー側提示装置200の提示部250に人操作エージェントを提示させるか否かを含んでもよい。
【0097】
なお、人間が(人操作)エージェントを操作する方法については、いわゆるビデオゲーム上でのキャラクター操作や、WOZ(Wizard of OZ)法といった公知の研究方法が存在するため、ここではこれ以上の説明を省略する。
【0098】
ここで重要な点は、本発明の実施形態に係る人操作エージェントは、AIではなく人間(オペレーター)が操作しているため、前述のAIエージェントとは異なり、適切な対話を行うことができる(万が一適切ではない対話応答がAIエージェントによって行われてしまった場合でも、オペレーター800は、人操作エージェント制御部150を介して、ユーザー900とAIエージェント間で交わされた過去の対話言語データを取得することができるため、すぐにオペレーターが異変に気づき、適切ではない対話応答を適切な対話応答に修正することができる)ことである。
【0099】
また、本発明の実施形態では、オペレーター800のユーザー900への対話行動に要する労力や人的リソースを削減するために、オペレーターは人操作エージェントを介して、原則としてユーザー900とは直接的な対話を行わない運用形態を想定している。ユーザーとの直接対話はAIエージェントに任せ、オペレーターはそれを間接支援する本発明の実施形態に係る方式を採用することにより、オペレーターはユーザーとの対話行動にかかりきりにならず、労力や人的リソースを削減できる。なお、前述したように、前記AIエージェントと前記人操作エージェントの組合せを「ペアエージェント」と呼んでもよい。
【0100】
オペレーター800は、後述するように、オペレーター側提示装置300を用いて、人操作エージェントを操作したり、ユーザーとAIエージェントとの過去の対話言語テキストを閲覧したり、ユーザーの対話操作に問題が生じていないかを監視したり、通知待ちしたりする。ここで、オペレーター側提示装置300の提示部350によって提示される画面の例について説明する。
【0101】
図7は、オペレーター側提示装置300の提示部350によって提示される画面の例A50を示す図である。図7を参照すると、提示部350によって画面A50が提示され、画面A50に、オペレーターメイン情報エリアA501、サムネイル情報エリアA502、及び、アラート情報A503が、提示されている。
【0102】
オペレーターメイン情報エリアA501は、オペレーター800が現在優先して対応しているユーザー900に関する情報提示やオペレーターの操作入力を受け付ける画面領域(エリア)である。前記優先して対応しているとは、たとえば、前記ユーザー900との対話情報やカメラ撮像情報にオペレーターが選択的注意の認知的リソースを最も大きく割く行動をとっている場合である。オペレーターメイン情報エリアA501の各構成要素の内容を含む詳細説明は後述する。
【0103】
サムネイル情報エリアA502は、オペレーター800が対話の担当を受け持っている複数のユーザー900に対応するオペレーターメイン情報エリアA501のサムネイル(縮小)表示を複数含み提示する。図7に図示した例では、オペレーター800は3台のユーザー側提示装置200との3つの対話を担当しているため、3つのサムネイル表示が、サムネイル情報エリアA502に画面表示されている。サムネイル情報エリアA502に含まれるサムネイル表示の数は、たとえば、オペレーター800が担当するユーザー側提示装置200の台数に対応する。
【0104】
さらに、サムネイル情報エリアA502は、各ユーザー側提示装置200とそれを使用しているユーザー900に対応する、後述のユーザー反応推定情報に基づく高次情報(たとえば、ユーザー反応推定情報の時系列履歴データ、時系列履歴データの平均値、中央値、最頻値等の代表値など)が、一例としてグラフ形式で表示されていてもよい。図7に図示した例では、ユーザー反応推定情報がユーザーのネガティブ感情の強度である場合、かつ、ユーザー反応推定情報に基づく高次情報がユーザーのネガティブ感情の強度の時系列履歴データである場合において、ユーザー900A~900Cそれぞれのネガティブ感情の強度の時系列履歴データがグラフ形式でサムネイル情報エリアA502に表示されている。オペレーター800は前記高次情報を見ることにより、ユーザー反応推定情報が急速に変化しているのか、緩やかに変化しているのか、等のユーザーの状況をより詳細に把握することができる。
【0105】
アラート情報A503は、後述のユーザー反応推定情報に基づき、オペレーター800が現在優先して対応すべき相手と判定されたユーザー側提示装置200とそれを使用しているユーザー900に対応したサムネイル表示(以下、「優先サムネイル表示」とも言う。)に紐づいた様態で提示される情報である。アラート情報が表示されると、前記優先サムネイル表示を目立たせ、オペレーター800は前記優先サムネイル表示とそれ以外の残りのサムネイル表示群とを見分けやすくなる(選択的注意の認知資源を優先サムネイル表示に振り分けやすくなる)。アラート情報A503の情報提示様態は、図7に図示した例では、ユーザー900Aに対応する優先サムネイル表示A502Aの周囲の矩形線として表現されているが、かかる例に限定されない。優先サムネイル表示とそれ以外の残りのサムネイル表示群とが異なる表現要素で示されていればよく、前記表現要素とはたとえば形、色、動き、大きさ、透過性またはそれらのいずれか2つ以上の組合せにより構成される。そして、前記アラート情報は、後述するユーザー反応観測部190の処理(たとえば優先付け処理)結果を用いて生成されても構わない。
【0106】
なお、オペレーター側提示装置300の提示部350によって提示される画面の例は、図7に図示されたA50の構成の例に限定されない。たとえば、オペレーター側提示装置300の提示部350によって提示される画面は、サムネイル情報エリアA502とアラート情報A503のみで構成されていてもよい。その場合、ユーザー900がサムネイル情報エリアA502内の1つのサムネイル表示を選択する操作を行うと、前記選択されたサムネイル表示に対応するオペレーターメイン情報エリアA501が提示部350に大きく表示されるように表示が変化(または階層的遷移)してもよい。
【0107】
図8は、オペレーター側提示装置300の提示部350によって提示される前述のオペレーターメイン情報エリアA501(図7)の例A40を示す図である。図8を参照すると、提示部350の一部に画面A40が提示され、画面A40に、カメラ撮像情報A401、コピー画面A402、オペレーター操作用入力パネルA403、ユーザーの対話情報A404、AIエージェントの対話情報A405、意図推定情報A406、人操作エージェントの対話情報A407、及び、オペレーターの操作情報A408が提示されている。
【0108】
カメラ撮像情報A401は、ユーザー側提示装置200のセンサ部260(カメラ)によってユーザーが撮像された画像である。たとえば、ユーザー側提示装置200のセンサ部260(カメラ)によってユーザーが時系列に沿って連続的に撮像された各画像フレームが通信部210によって送信される場合、通信部310によって各画像フレームが受信され、提示部350によって各画像フレームが動画としてリアルタイムに提示されてもよい。
【0109】
コピー画面A402は、ユーザー側提示装置200によって提示されている画面A10(図6)と同じ画面である。
【0110】
オペレーター操作用入力パネルA403は、前記人操作エージェントの操作の例としての「正しい意図を指定する操作」を入力するための入力パネルである。ここでは、意図の例として「Where」「When」「What」が含まれている。なお、ここでは、オペレーターがボタン押下によって、正しい意図を指定する操作を入力可能である場合を想定している。しかし、正しい意図を指定する操作は、かかる例に限定されない。たとえば、オペレーターは、正しい意図を示す文字列を、キーボードを用いて入力してもよい。
【0111】
ユーザーの対話情報A404は、ユーザーから入力された対話データに基づく対話情報の履歴情報である。AIエージェントの対話情報A405は、AIエージェントからの対話データ(すなわち、対話エンジンによって生成された対話データ)に基づく対話情報の履歴情報である。意図推定情報A406は、意図推論部180によって推定された意図推定情報の履歴情報である。人操作エージェントの対話情報A407は、人操作エージェントからの対話データ(すなわち、修正処理後の意図に対応する対話データ)の履歴情報である。オペレーターの操作情報A408は、オペレーターによって指定された意図の履歴情報である。
【0112】
たとえば、各対話情報(ユーザーの対話情報A404、AIエージェントの対話情報A405、人操作エージェントの対話情報A407)、意図推定情報A406、オペレーターの操作情報A408は、時系列に沿って順番に並べて表示されるのがオペレーターにとって理解しやすい。たとえば、図8に示された例では、上方から下方に向けて、新しい対話情報が並べられている。しかし、各情報がどの方向に、どのような順序で並べられるかは限定されない。
【0113】
なお、図8に示されるように、ユーザーの対話情報A404、AIエージェントの対話情報A405、意図推定情報A406、人操作エージェントの対話情報A407、及び、オペレーターの操作情報A408それぞれは、互いの時間的な前後関係も考慮された上で配置されるのがオペレーターにとって理解しやすい。たとえば、図8に示されるように、互いに関連する、AIエージェントの対話情報A405と、意図推定情報A406とは、(配置方向に対する位置が同じになるように)対応付けられてもよい。
【0114】
エージェント間対話制御部160は、AIエージェント制御部140または人操作エージェント制御部150と通信し、前記AIエージェントと前記人操作エージェント(ペアエージェント)間の対話情報を制御・管理する。また、エージェント間対話制御部160は、修正対話提示部161を含む。修正対話提示部161は、誤った(対話文脈上適切ではない)意図推定情報が生成され、オペレーターが前記意図推定情報を手動操作で修正した場合に、その修正処理に対応する対話情報を、AIエージェントまたは人操作エージェントに対応付けて情報提示する。たとえば、オペレーターが、画面A40(図8)を見ながら、ユーザーによって入力された対話データに基づく対話情報「〇〇〇は朝何時に開きますか?」の正しい意図が「When」であるにも関わらず、誤った意図推定情報「Where」に基づいて、AIエージェントからの対話情報「〇〇〇は右手の方にあるよ。」が生成されたことに気づいた場合を想定する。このとき、オペレーターは、正しい意図を指定する操作として、オペレーター操作用入力パネルA403のボタン「When」を押下する操作を入力する。かかるオペレーターの操作は、入力部340を介して制御部330によって取得され、制御部330によって通信部310を介して対話制御サーバ100に送信される。
【0115】
エージェント間対話制御部160は、正しい意図を指定する操作に応じて、(AIエージェント制御部140が管理している)ユーザーの意図推定情報の修正を行う。すなわち、エージェント間対話制御部160は、AIエージェントに紐づく意図推定情報を誤った意図である「Where(場所)」から、正しい意図である「When(時間)」に修正する。エージェント間対話制御部160は、その際併せて、修正対話提示部161により、前記ユーザーの意図推定情報の修正内容を含んだ対話情報が、人操作エージェントから(ユーザーではなく)AIエージェントに向けて行われるように、ユーザー側提示装置200の提示部250を制御し、ユーザー900に意図修正処理が行われたことを知らせる。
【0116】
図9は、ユーザー側提示装置200の提示部250によって提示される第2の画面の例を示す図である。図9を参照すると、提示部250によって画面A20が提示されている。人操作エージェント制御部150は、意図推定情報の修正処理が行われるタイミングで、人操作エージェントB2を提示部250に提示させる。なお、意図推定情報の修正処理が行われるタイミングは、ユーザー側提示装置200の提示部250に人操作エージェントB2を提示させるための操作情報が、オペレーターから入力部340に対して入力されたタイミングであってよい。また、修正対話提示部161は、修正処理前の意図推定情報である「Where(場所)」と、修正処理後の意図推定情報である「When(時間)」とを含んだ対話情報A201「場所ではなく、時間を聞いているのよ」を、提示部250に提示させている。
【0117】
このとき、修正対話提示部161は、対話情報A201を(人操作エージェントB2からの対話情報として)人操作エージェントB2に対応付けて提示部250に提示させる。たとえば、修正対話提示部161は、対話情報A201を人操作エージェントB2からの吹き出しに記述することによって、対話情報A201と人操作エージェントB2とを対応付けることが可能である。
【0118】
ここで、前記修正処理を、(ユーザーからは見えない)バックエンド情報処理としてユーザー900に秘匿するのではなく、修正処理を行ったことを、人操作エージェントからAIエージェントへの対話という直観的な情報提示様態を用いてユーザー900に知らせる本発明の機能の意義を説明する。
【0119】
バックエンド情報処理でユーザー900に知られることなくAIエージェントの意図修正処理が行われると、対話の途中から急にAIエージェントが適切な対話応答をするようになり、きっかけもなく急に賢くなったような異様な印象を、対話しているユーザー900に与えてしまう恐れがある。対話の相手のAIエージェントに対してユーザーに信頼感や親近感を持ってもらうためには、AIエージェントの性質(たとえば、性格や価値観等の特に内的なキャラクター性)に対してユーザーに「一貫性」を感じさせることが重要であり、上記のようにきっかけもなく急に賢くなったような印象をユーザーに与えることはその感覚を損ねる危険性が高い。
【0120】
本発明の実施形態では、AIエージェントに対する賢い人操作エージェントと両エージェント間の対話という方式によって前記意図修正処理を可視化し、ユーザー900に知らせる、という方法を創出することで上記課題を解決する。なお、本発明の実施形態に係るシステムの実施にあたり必須の要件ではないが、上記の解決策を効果的に実施するために、本発明の実施形態に係るAIエージェントはあまり賢くなさそうな印象を与える提示様態(たとえばヒナ鳥の外観)、人操作エージェントは逆に賢い印象を与える提示様態(たとえば白鳥などの親鳥の外観)でユーザーに情報提示することが好適である。
【0121】
さらに、修正対話提示部161は、意図推定情報の修正処理が行われたタイミングで、(たとえば、対話情報A201の提示後に)意図推定情報の修正処理に応じたメッセージがユーザー側提示装置200の提示部250によって提示されるように制御する(制御部230は、修正対話提示部161による制御に従って、意図推定情報の修正処理に応じたメッセージが提示されるように提示部250を制御する)。これによって、誤った意図推定情報が修正されたことがユーザーによって把握され得る。なお、図9に示された例では、メッセージの例として、対話情報A202「ふむふむ」(人操作エージェントの対話情報への相槌を打つ言葉)が提示されている。しかし、意図推定情報の修正処理に応じたメッセージは、かかる例に限定されない。
【0122】
たとえば、意図推定情報の修正処理に応じたメッセージは、意図推定情報が修正処理されたことを直接的に示す情報(たとえば、「意図が修正されました」など)を含んでもよい。あるいは、意図推定情報の修正処理に応じたメッセージは、図9に示されるように、AIエージェントB1の顔を人操作エージェントB2に向けることを含んでもよい。
【0123】
より詳細に、図9に示されたように、修正対話提示部161は、意図推定情報の修正処理に応じたメッセージの例としての対話情報A202「ふむふむ」が、AIエージェントB1に対応付けられてユーザー側提示装置200の提示部250によって提示されるように制御してもよい。これによって、対話情報A202「ふむふむ」がAIエージェントB1からの対話情報であることがより明確に把握される。
【0124】
図10は、ユーザー側提示装置200の提示部250によって提示される第3の画面の例を示す図である。図10を参照すると、提示部250によって画面A30が提示されている。対話エンジンは、修正処理後の意図である「When」に基づいて、対話データを生成し直し、AIエージェント制御部140は、生成された対話データに基づく対話情報A105「〇〇〇は午前8時に開くよ。」をユーザー側提示装置200の提示部250に提示させる。これによって、ユーザーは、正しい意図「When」に従って生成された対話情報を知覚し、「〇〇〇」が開く時刻を把握することができる。
【0125】
このとき、AIエージェント制御部140は、補助説明情報の例として、「〇〇〇」の営業時間A301を提示部250に提示させてもよい。なお、人操作エージェント制御部150は、人操作エージェントB2をその場に留まらせてもよいが、人操作エージェントB2がひとまず役目を終えたとして、図10に示されるように、人操作エージェントB2をAIエージェントB1から遠ざけるような様態変更処理を行ってもよい(たとえば、人操作エージェントB2を画面A30の外に移動させてもよい)。
【0126】
意図修正学習部171は、エージェント間対話制御部160によって行われた意図推定情報の修正処理のデータに基づいて、意図推定に用いる学習済モデルや識別器(意図推定エンジン)を再度学習させ、記憶部120に記憶させる。たとえば、意図修正学習部171は、既存の学習用データに意図推定情報の修正処理に関する情報を追加して最初から学習し直してもよいし、意図推定情報の修正処理に関する情報を用いて追加的な学習のみを行ってもよい。なお、前記意図推定情報の修正処理に関する情報とは、たとえば、対話データと、それに対応する正しい意図(オペレーターの指定操作により修正された意図)の情報と、を含む教師データ(入力データと正解データの組)の情報を含むものでもよい。
【0127】
たとえば、意図推定情報の修正処理のデータは、ユーザーからの対話データ「〇〇〇は朝何時に開きますか?」に対応する発話語・文の1または複数の候補と、エージェント間対話制御部160によって修正処理が行われた後の意図推定情報「When」との組み合わせであってよい。かかる組み合わせは、意図推定に用いる学習済モデルや識別器の正解教師データに他ならない。
【0128】
これにより、本発明の実施形態に係る対話制御サーバ100は、意図修正学習部171と、本システムの動作により蓄積されていく意図推定情報の修正処理のデータを用いることによって、より多くの学習データで生成される性能向上した意図推定エンジン(AI)を生み出すことができる。使われるほどに賢くなっていく(性能が高くなっていく)意図推定エンジンを有する対話システムが実現される。
【0129】
なお、意図修正学習部171は、ユーザーからの対話データ「〇〇〇は朝何時に開きますか?」に対応する対話言語データと、修正処理が行われた後の意図推定情報「When」との組み合わせに基づいて、自然言語(言語理解)処理エンジン(AI)及び意図推定エンジン(AI)を再学習させてもよい。あるいは、意図修正学習部171は、ユーザーからの対話データ「〇〇〇は朝何時に開きますか?」と、修正処理が行われた後の意図推定情報「When」との組み合わせに基づいて、音声認識エンジン(AI)、自然言語処理エンジン(AI)及び意図推定エンジン(AI)を再学習させてもよい。
【0130】
ユーザー反応観測部190は、複数のユーザー900の反応・行動・状況を推定し、ユーザー反応推定情報を生成して、オペレーター800へ前記情報を提供する、または、オペレーター800の対話操作を支援する。より詳細には、まず、ユーザー反応観測部190は、ユーザー側提示装置200を使用(対話)中のユーザー900の反応・行動・状況のセンサデータを、センサ部260及び通信部110を介して取得する(センサデータの例は、センサ部260の説明に記載済)。さらに、ユーザー反応観測部190は、ユーザー反応推定エンジン(AI)の機能を有し、前記センサデータから、後述するユーザー反応推定情報を生成する。
【0131】
また、ユーザー反応観測部190は、要支援ユーザー検出部191(優先付け処理部)及び反応推定部192を含む。
【0132】
要支援ユーザー検出部191は、反応推定部192により生成されたユーザー反応推定情報を受信し、オペレーター800が優先して対応すべきユーザー900を判定する処理を行い、前記優先して対応すべきユーザー900の情報をアラート対話分配管理部195へ送信する。
【0133】
前記ユーザー反応推定情報に基づくオペレーター800が優先して対応すべきユーザー900の判定は、要支援ユーザー検出部191による、前述のユーザー反応推定情報に基づく高次情報(たとえば、ユーザー反応推定情報の時系列履歴データに基づいて算出される、時系列履歴データの平均値、中央値、最頻値等の代表値、積分値、実効値、発生頻度、継続時間)のいずれか1つまたは2つ以上の組み合わせに基づいて実施されてもよい。具体例として、要支援ユーザー検出部191は、ユーザー反応推定情報がネガティブ感情の強度である場合について説明する。
対話中の所定の時間区間内における、ネガティブ感情の強度の代表値、積分値もしくは実効値、ネガティブ感情の強度がある値を上回る頻度(発生頻度)、または、ネガティブ感情の強度がある値を継続して上回る時間(継続時間)が、所定の閾値を超えた場合、または、オペレーター800が担当している複数のユーザー900の中で最大値をとった場合、そのユーザー反応推定情報が推定されたユーザー900を、前述のオペレーター800が優先して対応すべきユーザー900であると判定してもよい。たとえば、ネガティブ感情の強度は、後述の反応推定部192により推定され得る。
【0134】
なお、ユーザー反応推定情報は、ユーザーのネガティブ感情の強度に限定されない。また、前記閾値は、オペレーターまたは本システム管理者によって手動設定されてもよいし、本発明の実施形態に係る情報通信システムが過去に取得したユーザー反応情報の履歴・統計的情報に基づいて自動設定してもよい。
【0135】
オペレーター800が優先して対応すべきユーザー900の判定によって、優先して対応すべきことを示す優先順位(以下、「優先度」とも言う。)が付されるユーザー900と、優先して対応しなくてよいことを示す優先度が付されるユーザー900とが生じる。すなわち、オペレーター800が優先して対応すべきユーザー900の判定は、複数のユーザー900に対する優先付けの例に該当する。複数のユーザー900に対する優先付けは、複数のユーザー900それぞれの対話情報(ユーザーとAIエージェントとの対話情報)に対する優先付けを意味し得る。この例のように、要支援ユーザー検出部191は、ユーザー反応観測部190により生成されたユーザー反応推定情報に基づき、対話中の複数のユーザー900それぞれの対話情報に優先付けの処理を行ってもよい(これにより、オペレーター800が最も優先して対話すべきユーザー900の選択行動が支援される)。前記優先付けの(たとえば順位)情報は、要支援ユーザー検出部191により、前記対話情報またはユーザー側提示装置200の識別情報と対応付けて、記憶部120に記憶されてもよい。
【0136】
反応推定部192は、前述のセンサデータからユーザー反応推定情報を生成するユーザー反応推定エンジン(AI)の役割を果たす。ユーザー反応推定情報とは、ユーザー側提示装置200を使用(対話)中のユーザー900の反応・行動・状況に関わる情報であり、一例としてそれはユーザーの「感情」であって、たとえば、ユーザー側提示装置200との操作対話がうまくいかないことや所望の情報が得られないことにより、ユーザー内に生じる困惑やネガティブな感情等が含まれる(感情自体の詳細説明は後述)。
【0137】
すなわち、反応推定部192は、ユーザー900からユーザー側提示装置200及び通信部110を介して取得した行動の画像データや生体反応の計測データ(センサデータ)に基づいて、ユーザー900毎の個人感情の推定モデルデータおよびそれにより推定(識別)された推定感情情報を生成する。なお、前記センサデータには、センサ部260の取得データだけでなく、入力部240の入力データを含めてもよい。また、反応推定部192は、前記生成した推定モデルデータと推定感情情報を記憶部120に記憶させる機能を有する。また、前記推定感情情報の生成処理はユーザー側提示装置200で行われてもよく、対話制御サーバ100はユーザー側提示装置200から前記画像データではなく推定感情情報を受信しても構わない。
【0138】
ここで、個人感情とその推定方法について説明を補足する。個人感情は、一例として「人が心的過程の中で行うさまざまな情報処理のうちで、人、物、出来事、環境についてする評価的な反応」(Ortony et al.,1988;大平,2010)と定義される。感情の具体的な種類としては、心理学者Paul
Ekmanによる表情に対応する基本感情ベースの離散型モデル上での幸福、驚き、恐れ、怒り、嫌悪、悲しみや、心理学者James A.Russellによる快度及び覚醒度の感情次元ベースの連続型モデルにおける喜怒哀楽の象限などが知られている。他の連続型モデルとしては、Watsonによるポジティブまたはネガティブ感情、Wundtによる3軸モデル(快度、興奮度、緊張度)、Plutchikによる4軸のモデルなどもある。その他、応用的・複合的な感情としては、困惑度、関心度、メンタルストレス、集中度、疲労感、多忙度、創造性、リラックス/緊張度、モチベーション、共感度、信頼度などが挙げられる。さらに、業務活動において集団の雰囲気として体感されるイキイキ感なども高次な感情の一種といえる。本発明の実施形態における感情の定義の有効範囲は、前述の基本感情よりも広く、ユーザーのあらゆる内部「状態」やユーザーの周囲環境や文脈等の影響も加味した「状況」も含むものである。一例として、ポジティブ感情やその度合いは、快度そのものや、快度と覚醒度を合わせたもの、基本感情における幸福の強度の大きさ、もしくは恐れ、怒り、嫌悪、悲しみ等の強度の小ささ等を指標としてあらわされてもよい。すなわち、本発明の実施形態において、ポジティブ感情やネガティブ感情は、類似する基本感情6種自体の強度またはその組合せに基づいて算出されてもよい。
【0139】
ある人物がどのような感情とどの程度にあるかは、たとえば質問紙法を用いることで、記人物の文字、文章、記号による言語的報告によって求めることができる。前記質問紙としては“Affect Grid”(Russell, J. A., Weiss, A., & Mendelsohn, G. A. (1989). Affect Grid:
A single-item scale of pleasure and arousal. Journal of Personality and Social
Psychology, 57(3), 493-502.)や“SAM scale”(Bradley, M. M., & Lang, P. J. (1994). Measuring emotion: The
Self-Assessment Manikin and the semantic differential. Journal of Behavior Therapy
and Experimental Psychiatry, 25(1), 49-59.)などがよく知られている。しかしながら、質問紙を用いた計測方法では回答作業が必要になるため、業務など何か別の作業行っている日常生活においては計測それ自体が本来の目的作業に支障を及ぼしてしまう可能性がある。
【0140】
そこで、本情報通信システムにおいて、反応推定部192は、前述のユーザー側提示装置200やオペレーター側提示装置300により計測される行動や生体反応のデータに基づいて(質問紙法等で求めた)感情を機械的に推定処理する。前記推定処理を行うためには、予め学習処理によって生成された感情推定モデルのデータが必要となる。感情推定モデルは、たとえば、ある時点・状況における前記行動や生体反応のデータと前記質問紙の回答データからなる訓練データとを対応付けたデータの群から生成される。たとえば、オフィスに埋め込まれた無数のカメラやマイクロフォン、ウェアラブル活動量計から計測されたユーザーの顔表情、音声、心拍活動、皮膚電気活動等の行動・生体データと、前記ユーザーの主観的感情を質問紙回答した正解データとが対応付けられて訓練データとされる。前記行動・生体データは、センサからの計測値が変換された学習処理用の特徴量データであってもよい。
【0141】
特徴量データは、顔の代表的特徴点の位置や各2点間を結ぶ直線の距離や成す角度であってもよい。あるいは、特徴量データは、音声の基本周波数、パワー、平均発話速度、一次ケプストラム係数の最高値と標準偏差であってもよい。あるいは、特徴量データは、心拍数や拍動間隔の平均値や標準偏差、心拍変動性であってもよい。あるいは、特徴量データは、皮膚コンダクタンス水準の平均値や標準偏差や増減低下率などであってもよい。これらの特徴量データはどのように使用されてもよく、ある時点における絶対値として使用されてもよいし、2時点間の相対的な変化率として使用されてもよい。
【0142】
前記訓練データを用いた感情推定モデルの生成には、学習の手法として、たとえば既知のSVM(Support Vector Machine)や深層学習(Deep Learning)法が用いられてもよいし、単純に回帰分析法が利用されてもよい。また、学習モデルはユーザー個人毎に生成されてもよいし、複数のユーザーの訓練データを用いて人間に共通的なモデルが生成されてもよい。反応推定部192は、得られた感情推定モデルのデータを用いることで、ある人物の行動・生体データから個人感情を推定できるようになる。
【0143】
対話制御サーバ100(たとえば、反応推定部192)は、上述の個人感情推定処理のための訓練データや感情の推定モデル自体を生成する機能を有していてもよい。さらに、訓練データのための前述の特徴量データの生成は、対話制御サーバ100ではなくユーザー側提示装置200やオペレーター側提示装置300の方で行い、ユーザー側提示装置200やオペレーター側提示装置300が、前記特徴量データを対話制御サーバ100へ送信するようにしてもよい。
【0144】
アラート対話分配管理部195は、複数のオペレーター800と、各オペレーター800が担当する複数のユーザー900の対話状況を管理し、より多くのユーザー900がオペレーター800の対話支援を受けられるように、複数のオペレーター800の対話担当のリソース分配を行う。
具体的には、アラート対話分配管理部195は、あるオペレーター800Aが担当しているユーザー900Aの対話支援(たとえば、前述した人操作エージェントの操作など)を行っている際中に、同オペレーター800Aが担当するユーザー900Bにも対話支援の必要が生じた場合に、同ユーザー900Bの対話支援の担当を(その時点では同ユーザー900Bの対話を担当していない)オペレーター800Bに転移させる。
【0145】
背景として、本発明の実施形態に係る情報通信システムは、基本的な対話をAIエージェントに任せる前述のペアエージェントの仕組みを採用することで、オペレーター800が複数のユーザー900を担当することを可能にした(たとえば、既存のコールセンターではオペレーターとユーザーは通常の場合、1対1の担当関係になる)。
一方で、あるオペレーター800Aの担当するユーザー900Aとユーザー900Bに「同時的に」AI対話上の問題が発生し対話支援の必要性が発生した場合、オペレーター800Aが人操作エージェントの操作を複数対話分同時並行で行うのは困難な場合もある。
この時、本発明の実施形態に係る情報通信システムが、前記オペレーター800A担当のユーザー900Bの対話支援を、その時対話支援を行っていないオペレーター800Bへ対話転移(担当振替)させることで、前記オペレーター800Aがユーザー900Aの対話支援に安定して専念することができる。上記の仕組みにより、あるオペレーター800の担当下の複数のユーザー900に「同時的」に対話支援の必要性が発生した場合の対応問題が解決できる。
【0146】
また、アラート対話分配管理部195は、オペレーター支援状況判定部196、アラート対話転移先選定部197(オペレーター選択部)及び対話転移部198(対応付け処理部)を含む。
【0147】
オペレーター支援状況判定部196は、本発明の実施形態に係る情報通信システムを使用している複数のオペレーター800が、それぞれ「対話支援を行っている最中か否か」の状況を判定する。前記対話支援が行われている最中か否かの判定は、対話支援の始端から終端までに現在が属するか否かによって判定されてもよい。
たとえば、対話支援の始端は、前述の人操作エージェント制御部150の動作に基づいて判定されてもよい。より詳細に、対話支援の始端は、ユーザー900Aによって対話データが入力された後に、人操作エージェントB2を提示させるための操作情報がオペレーター800Aから入力されたタイミングであってもよい。
また、対話支援の終端は、対話支援がある程度行われたタイミングであればよく、対話支援の始端から対話が所定のターン行われたタイミングであってもよいし、対話支援の始端から所定の時間が経過したタイミングであってもよいし、ユーザー800Aのネガティブ感情の強度が閾値よりも低下したタイミングであってもよい。
オペレーター支援状況判定部196は、本発明の実施形態に係る情報通信システムを使用している複数のオペレーター800それぞれについて前記「対話支援を行っている最中か否か」を実時間で判定した結果のデータを、アラート対話転移先選定部197に送信、または記憶部120に記憶する。
【0148】
アラート対話転移先選定部197は、あるオペレーター800が、担当するあるユーザー900の対話支援を行っている最中に、前記オペレーター800が担当する別のユーザー900に対話支援の必要性が生じた(必要性が高まった)場合に、前記別のユーザー900の担当を転移(担当振替)させる別のオペレーター800を選定する。前記「担当するあるユーザー900の対話支援を行っている最中」であるかどうかの判定処理は、前述の通りオペレーター支援状況判定部196によって行われる。前記「ユーザー900に対話支援の必要性が生じた(必要性が高まった)場合」の判定処理は、前述の通り要支援ユーザー検出部191によって行われる。たとえば、あるユーザー900の優先度が所定の優先度である場合に(例えば、あるユーザー900が優先して対応すべきユーザーである場合に)、そのユーザー900に対話支援の必要性が生じたと要支援ユーザー検出部191によって判定されてもよい。前記「別のオペレーター800を選定」の処理について以下に記載する。
【0149】
前記「別のオペレーター800を選定」の処理を行うにあたっては、別のオペレーター800を選ぶ条件が必要となる。まず、担当を転移させる別のオペレーター800もまた対話支援を行っている最中であってはならないという第1の条件が満たされる必要がある(対話支援を行っている最中である場合、結局再び別の転移処理が必要になるため)。さらに、転移処理の発生により、各オペレーター800の対話支援実施数やその負荷量に大きな偏りが生じない(均等に近づく)という第2の条件が満たされることが好ましい。
【0150】
そこで、アラート対話転移先選定部197は、ユーザー900の対話情報(対話の通信ストリームと履歴情報)の転移先(別のオペレーター800の)選定の処理を、第1の条件が満たされるように行う必要がある。さらに、アラート対話転移先選定部197は、転移先選定の処理を、第2の条件が満たされるように行うのが好ましい。ここで、第2の条件を満たすような転移先選定の処理として以下の〔A〕~〔G〕に挙げられた各選定の処理が適用され得る。なお、〔A〕~〔G〕における「より少ない」「より長い」「より短い」「より多い」「より低い」といった表現は、複数の項目のうち他の項目よりも「より少ない」「より長い」「より短い」「より多い」「より低い」項目が優先して選定されることを意味しており、追加的な他の条件を考慮する必要がない場合には、「最も少ない」「最も長い」「最も短い」「最も多い」「最も低い」といった表現に置き換えられてもよい。
【0151】
〔A〕担当中のユーザー900の人数がより少ないオペレーター800を選定(監視しているユーザー対話情報数が少ないことからオペレーターの認知リソースに余裕がある可能性が高く、また、担当するユーザーの人数が少ないほど新たな対話支援が発生する可能性が低いため)
〔B〕直前に行った対話支援からの経過時間がより長いオペレーター800を選定(これにより、各オペレーター800の対話支援の単位時間あたりの頻度がより均等に近づくため)
〔C〕直前に転移を受けて行った対話支援からの経過時間がより長いオペレーター800を選定(これにより、各オペレーター800に転移される対話の数がより均等に近づくため)
〔D〕一定期間(たとえば1日)内における対話支援実施の累積時間がより短いオペレーター800を選定(これにより、各オペレーター800が実施する対話支援の累積時間数がより均等に近づくため)
〔E〕担当中の各ユーザー900のユーザー側提示装置200使用開始からの経過時間をまとめた代表値(平均値など)がより長いオペレーター800を選定(ユーザー側提示装置200使用開始からの経過時間がより長いユーザーほど、問題なくユーザー側提示装置200を使用できている可能性が高くなり、その後に対話支援の必要性が発生する可能性が低いため)
〔F〕担当中の各ユーザー900のAIエージェントとの対話のターン数をまとめた代表値(平均値など)がより多いオペレーター800を選定(AIエージェントとの対話のターン数がより多いユーザーほど、問題なくAIエージェントと対話をできている可能性が高くなり、その後に対話支援の必要性が発生する可能性が低いため。ただし、対話のターンは、同一の発話主体による連続した発話区間であり、ユーザーによる対話のターン及びエージェントによる対話のターンの少なくともいずれか一方を含んでよい)
〔G〕担当中の(要支援ユーザー検出部191が算出した)各ユーザー900の対話情報の優先付け情報の代表値(最頻値など)がより低い(総合的な優先度がより低い)オペレーター800を選定(前述の通り、対話情報の優先度が低いほど、新たな対話支援が発生する可能性が低いため)
【0152】
前記〔F〕の応用として、アラート対話転移先選定部197は、転移先として、担当中の各ユーザー900のAIエージェントとの対話のターン間の間隔時間長をまとめた代表値(平均値など)がより少ないオペレーター800を選定してもよい(問題なくAIエージェントと対話をできているほど対話のターン間の間隔時間長は短くなる可能性が高いため)。さらに、前記対話のターン間の間隔時間長は、AIエージェントの対話のターンとユーザー900の応答の対話のターンとの間の間隔時間長であってもよいが、AIエージェントの対話のターンに対するユーザー900の応答の対話のターン間の間隔時間長であることに限定されてもよい(対話のターン間の間隔時間長が大きく変化するのは多くの場合ユーザー900の応答時であると考えられるため)。
【0153】
なお、前述の「対話のターン」を求める処理の方法は、ユーザー側提示装置200やオペレーター側提示装置300のセンサ部より取得された音声データから、発話音声のパワー情報をもとに自動的に無音区間を抽出し、所定の時間より長い無音によって区切られた一連の音声区間である間休止単位IPU(Inter-Pausal Unit)の基準を用いて成されてもよい。また、前記対話のターンを求める処理の実施は、前記音声データを受信した対話制御サーバ100が備える前述の対話エンジン(AI)の入力理解部により行われてよいが、ユーザー側提示装置200やオペレーター側提示装置300の制御部において行われても構わない。
【0154】
アラート対話転移先選定部197は、上記の方法に従い、転移させるユーザー900(すなわち、対話支援の必要性が生じたユーザー900)に対応する識別情報と、その転移先となるオペレーター800に対応する識別情報を対話転移部198へ送信する。
【0155】
対話転移部198は、アラート対話転移先選定部197から、転移させるユーザー900に対応する識別情報と移転先のオペレーター800に対応する識別情報とを受信し、転移させるユーザー900に対応する識別情報と転移先として選定されたオペレーター800に対応する識別情報とを対応させる(すなわち、前記転移させるユーザー900の担当者を前記転移先として選定されたオペレーター800へ設定変更させる)。
【0156】
さらに、対話転移部198は、前記転移させるユーザー900の対話情報と前記転移させるユーザー900に対応する識別情報と転移元のオペレーター800に対応する識別情報とを前記転移先として選定されたオペレーター800が使用するオペレーター側提示装置300へ送信する。また、対話転移部198は、前記転移させるユーザー900に対応する識別情報と転移先のオペレーター800に対応する識別情報とを転移元のオペレーター800が使用するオペレーター側提示装置300へ送信する。
【0157】
転移元のオペレーター800が使用するオペレーター側提示装置300において、通信部310は、対話転移部198(対話制御サーバ100)から前記転移させるユーザー900に対応する識別情報と転移元のオペレーター800に対応する識別情報とを受信する。
【0158】
制御部330は、前記転移させるユーザー900に対応する識別情報に基づいて、前記転移させるユーザー900に応じた提示部350による提示を制御する。さらに、制御部330は、転移元のオペレーター800に対応する識別情報に基づいて、転移元のオペレーター800に応じた提示部350による提示を制御する。
【0159】
図11は、転移元のオペレーター800Aが使用するオペレーター側提示装置300における転移させるユーザー900Bに応じた提示制御の例を示す図である。図11を参照すると、提示部350によって画面A50が提示され、画面A50に、オペレーターメイン情報エリアA501、サムネイル情報エリアA502、及び、アラート情報A503が、提示されている。
【0160】
図11に図示した例では、オペレーター800Aはユーザー900A~900Cの3名のユーザー900を担当しているため、3つのサムネイル表示A502A~A502Cが、サムネイル情報エリアA502に画面表示されている。しかし、ユーザー900Bに対話支援の必要性が生じたために、ユーザー900Bに対応する識別情報が前記転移させるユーザー900Bに対応する識別情報として対話転移部198(対話制御サーバ100)から送信される。
【0161】
転移元のオペレーター800Aが使用するオペレーター側提示装置300において、制御部330は、前記転移させるユーザー900Bに対応する識別情報に基づいて、前記転移させるユーザー900Bに応じた提示部350による提示を制御する。さらに、制御部330は、前記転移先のオペレーター800Bに対応する識別情報に基づいて、前記転移先のオペレーター800Bに応じた提示部350による提示を制御する。
【0162】
図11に示されたように、制御部330は、前記転移させるユーザー900Bに対応する(ユーザー900BとAIエージェントとの対話情報を含んだ)サムネイル情報エリアA502Bの提示の態様を、転移させないユーザー900Aおよび900Cに対応するサムネイル情報エリアA502A、A502Cの提示の態様と異ならせることによって、前記転移させるユーザー900Bに応じた提示部350による提示を制御してもよい。たとえば、制御部330は、形、色、動き、大きさ、透過性またはそれらのいずれか2つ以上の組合せを異ならせることによって、提示の態様を異ならせてもよい。
【0163】
また、制御部330は、前記転移先のオペレーター800Bに対応する識別情報「オペレーター800B」を提示部350に提示させることによって、前記転移先のオペレーター800Bに応じた提示部350による提示を制御してもよい。たとえば、図11に示されたように、制御部330は、前記転移先のオペレーター800Bへの転移を示す情報「オペレーター800Bへ転移」を提示部350に提示させることによって、前記転移先のオペレーター800Bに応じた提示部350による提示を制御してもよい。
【0164】
一方、前記転移先として選定されたオペレーター800が使用するオペレーター側提示装置300において、通信部310は、対話転移部198(対話制御サーバ100)から転移されるユーザー900(すなわち、前記転移させるユーザー900)の対話情報と前記転移させるユーザー900に対応する識別情報と転移元のオペレーター800に対応する識別情報とを受信する。
【0165】
制御部330は、前記転移されるユーザー900に対応する識別情報に基づいて、前記転移させるユーザー900に応じた提示部350による提示を制御する。さらに、制御部330は、転移元のオペレーター800に対応する識別情報に基づいて、転移元のオペレーター800に応じた提示部350による提示を制御する。また、制御部330は、前記転移されるユーザー900の対話情報の提示部350による提示を制御する。
【0166】
図12は、転移先のオペレーター800Aが使用するオペレーター側提示装置300における転移されるユーザー900Bに応じた提示制御の例を示す図である。図12を参照すると、提示部350によって画面A50が提示され、画面A50に、オペレーターメイン情報エリアA501、及び、サムネイル情報エリアA502が、提示されている。
【0167】
図12に図示した例では、オペレーター800Bはユーザー900D~900Fの3名のユーザー900を担当しているため、3つのサムネイル表示A502D~A502Fが、サムネイル情報エリアA502に画面表示されている。しかし、ユーザー900Bに対話支援の必要性が生じたために、ユーザー900Bに対応する識別情報が前記転移させるユーザー900Bに対応する識別情報として対話転移部198(対話制御サーバ100)から送信される。
【0168】
転移先のオペレーター800Bが使用するオペレーター側提示装置300において、制御部330は、前記転移されるユーザー900Bに対応する識別情報に基づいて、前記転移されるユーザー900Bに応じた提示部350による提示を制御する。さらに、制御部330は、前記転移元のオペレーター800Aに対応する識別情報に基づいて、前記転移元のオペレーター800Aに応じた提示部350による提示を制御する。また、制御部330は、前記転移されるユーザー900Bの対話情報の提示部350による提示を制御する。
【0169】
図12に示されたように、制御部330は、前記転移されるユーザー900Bに対応する(ユーザー900BとAIエージェントとの対話情報を含んだ)サムネイル情報エリアA502Bをサムネイル情報エリアA502に追加してもよい。このとき、制御部330は、前記転移されるユーザー900Bに対応するサムネイル情報エリアA502Bの提示の態様を、オペレーター800Bによって元々担当されていたユーザー900D~900Fに対応するサムネイル情報エリアA502D~A502Fの提示の態様と同様にしてもよい。
【0170】
しかし、制御部330は、前記転移されるユーザー900Bに対応するサムネイル情報エリアA502Bの提示の態様を、オペレーター800Bによって元々担当されていたユーザー900D~900Fに対応するサムネイル情報エリアA502D~A502Fの提示の態様と異ならせることによって、前記転移されるユーザー900Bに応じた提示部350による提示を制御するのが好ましい。これによって、転移されたユーザー900Bの対話情報と元々担当されていたユーザー900D~900Fの対話情報とが容易に区別され得る。たとえば、制御部330は、形、色、動き、大きさ、透過性またはそれらのいずれか2つ以上の組合せを異ならせることによって、提示の態様を異ならせてもよい。
【0171】
以上により、前記転移先として選定されたオペレーター800(転移先のオペレーター800)が前記転移させたユーザー900の対話情報を取得できるようになり、必要に応じて、前記転移先として選定されたオペレーター800が前記転移させたユーザー900を対話支援できるようになる。すなわち、複数のオペレーター800が、状況に応じて、複数のユーザー900の担当を動的にリソース分担できる機能・システムが実現される。
【0172】
なお、上述の本発明の実施形態では、ユーザー側提示装置200のセンサ部260が計測したユーザー900のセンサデータからユーザー反応推定情報を生成する場合を主に想定した。しかし、変形例として、本発明の実施形態が想定する対話システムは、オペレーター側提示装置300のセンサ部360が計測したオペレーター800のセンサデータからオペレーターの反応推定情報(以下、「オペレーター反応推定情報」)を同様に生成し、利用しても構わない。それにより、前述の通り、たとえば、オペレーター反応推定情報として各オペレーター800の困惑度、メンタルストレス、集中度、疲労感(もしくは身体・精神活動や作業能率の低下に対応する疲労度)などを情報として利用可能になる。アラート対話転移先選定部197は、オペレーター反応推定情報に基づいて、ユーザー900の対話情報の転移先選定を行っても構わない(たとえば、より疲労度が低いオペレーター800を選定)。
【0173】
続いて、図13を参照して、本実施形態に係る情報通信システムの動作の例を説明する。図13は、本実施形態に係る情報通信システムの動作フローの一例を示す説明図である。なお、図13では、紙面のスペースの関係上、エージェントを「Ag」と表記している。たとえば、AIエージェントを「AIAg」と表記し、人操作エージェントを「人操作Ag」と表記する。
【0174】
ユーザー側提示装置200は、AIエージェントを提示する。そして、図13に示したように、ユーザーとAIエージェントとの間の対話が開始される(ステップS1101)。ユーザーからの対話データ及びAIエージェントからの対話データは、対話制御サーバ100からユーザー側提示装置200に送信され(S1103)、ユーザー側提示装置200において、ユーザーからの対話情報及びAIエージェントからの対話情報が提示される。
【0175】
ユーザーからの対話データ及びAIエージェントからの対話データは、対話制御サーバ100からオペレーター側提示装置300にも送信され(S1105)、オペレーター側提示装置300において、ユーザーからの対話情報及びAIエージェントからの対話情報が提示される(S1109)。対話制御サーバ100においては、ユーザーの対話データからユーザーの意図を推定し、推定した意図に基づいてAIエージェントからの対話データを生成する処理が開始される(S1107)。
【0176】
ここで、対話制御サーバ100において、ユーザーの意図の推定を誤り、それが原因となってAIエージェントからの対話データがユーザーからの対話データと合っていない不適切対話が発生したとする(S1111)。オペレーター側提示装置300においては、ユーザーからの対話情報及びAIエージェントからの対話情報が提示されており、オペレーターによって監視されているため、オペレーターは、不適切対話の発生に気づくことができる。オペレーターは、人操作エージェントの操作を開始する(S1113)。
【0177】
たとえば、オペレーターが、正しい意図を指定する操作を入力すると、オペレーター側提示装置300は、正しい意図を指定する操作を示す操作データを対話制御サーバ100に送信する(S1115)。さらに、正しい意図を指定する操作を示す操作データは、対話制御サーバ100からユーザー側提示装置200に送信される(S1117)。対話制御サーバ100は、正しい意図を指定する操作を示す操作データを受信すると、ユーザーの意図を正しい意図に修正する(S1119)。
【0178】
ユーザー側提示装置200は、正しい意図を指定する操作を示す操作データを受信すると、正しい意図に基づいて、人操作エージェントからAIエージェントに向けた対話情報を提示する(S1121)。さらに、ユーザー側提示装置200は、AIエージェントから人操作エージェントに向けた、意図の修正処理に応じたメッセージを提示する。
【0179】
その後、ユーザー側提示装置200は、正しい意図に基づいて生成し直された対話情報を対話制御サーバ100から受信し、受信した対話情報をAIエージェントに関連付けて提示する。さらに、ユーザー側提示装置200は、人操作エージェントの役目はひとまず終わったとして、対話制御サーバ100による制御に従って、人操作エージェントをAIエージェントから遠ざけてもよい(たとえば、人操作エージェントを画面の外に移動させてもよい)(S1123)。
【0180】
ユーザーからの対話データ及びAIエージェントからの対話データは、対話制御サーバ100からユーザー側提示装置200に送信され(S1125)、ユーザー側提示装置200において、ユーザーからの対話情報及びAIエージェントからの対話情報が提示される。さらに、ユーザーからの対話データ及びAIエージェントからの対話データは、対話制御サーバ100からオペレーター側提示装置300にも送信され(S1127)、オペレーター側提示装置300において、ユーザーからの対話情報及びAIエージェントからの対話情報が提示される。
【0181】
ユーザーとAIエージェントとの対話が終了すると(S1129)、ユーザー側提示装置200から対話制御サーバ100に終了メッセージが送信される(S1131)。終了メッセージは、対話制御サーバ100からオペレーター側提示装置300に送信される(S1133)。なお、ユーザーとAIエージェントとの対話の終了はどのように検出されてもよい。たとえば、ユーザーとAIエージェントとの対話の終了は、ユーザー側提示装置200における実行が想定される各種のタスクが終了したことによって検出されてもよい。たとえば、ユーザーとAIエージェントとの対話の終了は、ユーザー側提示装置200の前からユーザーがいなくなり、同じ画面が表示されたまま一定時間が経過したことによって検出されてもよい。
【0182】
対話制御サーバ100は、終了メッセージを受信すると、ユーザーの対話データからユーザーの意図を推定し、推定した意図に基づいてAIエージェントからの対話データを生成する処理を終了する(S1135)。一方、オペレーター側提示装置300は、終了メッセージを受信すると、ユーザーからの対話情報及びAIエージェントからの対話情報の提示を終了する(S1137)。対話制御サーバ100においては、ユーザーからの対話データに対応する発話語・文の1または複数の候補と、正しい意図とに基づいて、意図推定に用いる学習済モデルや識別器を再学習する(S1139)。
【0183】
続いて、図14を参照して、対話支援を行うオペレーターの転移の動作の例を説明する。図14は、本実施形態に係る情報通信システムのアラート対話分配管理部195および要支援ユーザー検出部191の動作フローの一例を示す説明図である。まず、要支援ユーザー検出部191は、反応推定部192により生成されたユーザー反応推定情報を受信し、オペレーター800が優先して対応すべきユーザー900を判定する処理を行う(ステップS1201)。
【0184】
要支援ユーザー検出部191は、オペレーター800が優先して対応すべきユーザー900の発生を検出しない場合には(ステップS1201において「NO」)、対話支援を行うオペレーターの転移の動作を終了する。一方、要支援ユーザー検出部191は、オペレーター800が優先して対応すべきユーザー900の発生を検出した場合には(ステップS1201において「YES」)、前記優先して対応すべきユーザー900の情報をアラート対話分配管理部195へ送信する。
【0185】
オペレーター支援状況判定部196は、前記優先して対応すべきユーザーを担当するオペレーターが対話支援中であるか否かを判定する(ステップS1203)。オペレーター支援状況判定部196によって、前記優先して対応すべきユーザーを担当するオペレーターが対話支援中ではないと判定された場合(ステップS1203において「NO」)、前記優先して対応すべきユーザーを担当しているオペレーターが状況判断して対話支援を開始する(ステップS1205)。そして、対話支援を行うオペレーターの転移の動作が終了する。
【0186】
一方、オペレーター支援状況判定部196によって、前記優先して対応すべきユーザーを担当するオペレーターが対話支援中であると判定された場合(ステップS1203において「YES」)、アラート対話転移先選定部197は、前記優先して対応すべきユーザーの担当と対話情報との転移先となる別のオペレーターを選定する(ステップS1207)。対話転移部198は、アラート対話転移先選定部197によって選定された別のオペレーターへ前記優先して対応すべきユーザーの担当と対話情報とを転移させる(ステップS1209)。そして、対話支援を行うオペレーターの転移の動作が終了する。
【0187】
(2.まとめ)
以上のように、本発明の実施形態によれば、推定エンジンの性能が低くても、ユーザーの意図に合わせた適切な対話応答を行うことが可能な対話システムが実現される。
【0188】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0189】
たとえば、本発明の実施形態に係る情報通信システムが備える各構成は、上記した通りに配置されなくてもよい。たとえば、上記において対話制御サーバ100が備えるとして説明した機能の一部は、対話制御サーバ100の代わりに、ユーザー側提示装置200が備えてもよい。たとえば、AIエージェント制御部140、人操作エージェント制御部150及びエージェント間対話制御部160の少なくとも一部は、対話制御サーバ100の代わりに、ユーザー側提示装置200が備えてもよい。また、意図学習部170は、対話制御サーバ100とは異なるサーバが備えていてもよい。
【0190】
上記では、人操作エージェントからの対話情報が、システムによって生成された対話情報(たとえば、合成音声など)である場合を主に想定した。しかし、人操作エージェントからの対話情報は、オペレーターによってリアルタイムに入力された音声であってもよい。あるいは、人操作エージェントからの対話情報は、オペレーターによってリアルタイムに入力されたテキストであってもよい。
【0191】
なお、上述の本発明の実施形態では、対話システムが意図推論部180を備え、ユーザー900の意図を推定してユーザー意図推定情報を生成する場合を主に想定した。しかし、変形例として、本発明の実施形態が想定する対話システムは、「意図」だけでなく、対話上で発生し得る各種の状況(以下、「対話状況」)に関わる情報を推定・生成し、本発明の実施形態に係る対話システムにおける対話支援に用いても構わない。
【0192】
一例として、前記対話状況はユーザーの「感情」であって、対話における意図推定情報の代わりに感情推定情報が扱われ、意図学習部170及び意図推論部180は、感情学習部170及び感情推論部180であっても構わない。この時、本発明の実施形態に係る修正処理も感情推定情報に対して行われる。
【0193】
なお、前記対話状況がユーザーの感情である場合に、感情の推定処理に前述の反応推定部192の機能を一部利用しても構わない。
【0194】
推定される対話状況が意図ではなく感情であった場合のインタラクションの具体例の1つを次に示す。本発明の実施形態に係るシステムに対する、ユーザー900の「○○○へ行ったのに、閉まっていて、悲しかった」という正解感情“Negative”の入力に対して、前記システムによる誤った推定感情情報“Positive”が生成されてしまい、前記誤った推定感情情報に基づきAIエージェントが「それは楽しそうだね」と適切ではない対話が交わされた場合、オペレーター800の指定操作に基づき推定感情情報が“Negative”に修正され、ペアエージェントの修正対話情報提示の後、AIエージェントが「それは残念だったね」と修正後の推定感情情報“Positive”に基づく回答を情報提示するようにしてもよい。
【0195】
ユーザーの感情は、主として前記ユーザーに関わる対話データに基づいて推定されることを想定するが、ユーザー側提示装置200のセンサ部260から取得される、ユーザー900の行動や生理反応のデータに基づいて推定されてもよい。対話中の言語または各種非言語情報からのマルチモーダル感情推定の方法は、複数の既存文献で公開されている(たとえば、有本・岡ノ谷、2015、対面対話における感情の自動推定に向けたマルチモーダル特徴量の検討、音声研究、19(1)、pp.53-67)。
【0196】
上記変形例の説明をまとめると、本発明の実施形態に係るシステムは、意図推定情報や感情推定情報を含む、ユーザーの対話状況に関わる情報を学習・推定の対象とする、「対話状況推定部」を(意図推定部に代わり)有していてもよい。
【0197】
上記では、1名のオペレーターに対し複数名のユーザーが存在する環境を想定して説明を行った。しかしながら、オペレーターが担当するユーザーが複数でなく1名であった場合でも、本発明の実施形態により、オペレーターが対話相手のユーザー反応に関わる情報を入手しやすくなるという、オペレーターのユーザー対話支援効果がある。すなわち、本発明の実施形態は、オペレーターとユーザーが1対多の環境に限定されず、オペレーターとユーザーが1対1の環境で実現されてもよい。
【0198】
上記では、要支援ユーザー検出部191が、複数のユーザーに対する優先付けを行う例について主に説明したが、要支援ユーザー検出部191は、1名のユーザーに対する優先付けを行ってもよい。このとき、反応推定部192は、1名のユーザーのセンサデータに基づいてユーザー反応推定情報を生成する。要支援ユーザー検出部191は、ユーザー反応推定情報に基づき、その1名のユーザーをオペレーター800が対応すべきか否かを判定する。オペレーター800が対応すべきという判定によって、対応すべきことを示す優先度がそのユーザーに付される。一方、オペレーター800が対応しなくてよいという判定によって、対応しなくてよいことを示す優先度がそのユーザーに付される。
【0199】
すなわち、その1名のユーザーをオペレーター800が対応すべきか否かの判定は、その1名のユーザーに対する優先付けの例に該当する。その1名のユーザーに対する優先付けは、その1名のユーザーの対話情報(ユーザーとAIエージェントとの対話情報)に対する優先付けを意味し得る。1名のユーザーをオペレーター800が対応すべきか否かの判定は、ユーザーが複数である場合と同様に行われてよい。すなわち、要支援ユーザー検出部191による、前述のユーザー反応推定情報に基づく高次情報のいずれか1つまたは2つ以上の組み合わせに基づいて実施されてもよい。
【0200】
具体例として、要支援ユーザー検出部191は、ユーザー反応推定情報がネガティブ感情の強度である場合には、対話中の所定の時間区間内における、ネガティブ感情の強度の代表値、積分値もしくは実効値、ネガティブ感情の強度がある値を上回る頻度(発生頻度)、または、ネガティブ感情の強度がある値を継続して上回る時間(継続時間)が、所定の閾値を超えた場合、その1名のユーザーをオペレーター800が対応すべきであると判定してもよい。なお、ユーザーが複数である場合と同様に、ユーザー反応推定情報は、ユーザーのネガティブ感情の強度に限定されない。
【0201】
要支援ユーザー検出部191は、このようにして1名のユーザーをオペレーター800が対応すべきと判定した場合、その1名のユーザーに関わるアラート(警告)情報をオペレーター側提示装置300に送信するように通信部110を制御する。オペレーター側提示装置300において、制御部330は、通信部310によって受信されたアラート(警告)情報を提示するように提示部350を制御する。アラート(警告)情報の提示は、オペレーター800に注意を促す所定の表示または所定の警告音の出力であってもよい。特に、ユーザーが1名の場合には、サムネイル情報エリアA502が表示されておらず、その1名のユーザーに対応する各種情報(A401~A408)を含んだ画面A40(図8)が初めから表示されていることが想定されるため、画面A40(図8)の一部または全体の色の変更や動き(時系列情報変化)の付与などによって、オペレーター800に注意を促す所定の表示が出力されてもよい。
【符号の説明】
【0202】
100 対話制御サーバ
110 通信部
120 記憶部
130 制御部
140 AIエージェント制御部
150 人操作エージェント制御部
160 エージェント間対話制御部
161 修正対話提示部
170 意図学習部
171 意図修正学習部
180 意図推論部
190 ユーザー反応観測部
191 支援ユーザー検出部
192 反応推定部
195 アラート対話分配管理部
196 オペレーター支援状況判定部
197 アラート対話転移先選定部
198 対話転移部
200 ユーザー側提示装置
210 通信部
220 記憶部
230 制御部
240 入力部
250 提示部
260 センサ部
300 オペレーター側提示装置
310 通信部
320 記憶部
330 制御部
340 入力部
350 提示部
360 センサ部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14