IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-164644対話システム、プログラムおよび対話方法
<>
  • 特開-対話システム、プログラムおよび対話方法 図1
  • 特開-対話システム、プログラムおよび対話方法 図2
  • 特開-対話システム、プログラムおよび対話方法 図3
  • 特開-対話システム、プログラムおよび対話方法 図4
  • 特開-対話システム、プログラムおよび対話方法 図5
  • 特開-対話システム、プログラムおよび対話方法 図6
  • 特開-対話システム、プログラムおよび対話方法 図7
  • 特開-対話システム、プログラムおよび対話方法 図8
  • 特開-対話システム、プログラムおよび対話方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024164644
(43)【公開日】2024-11-27
(54)【発明の名称】対話システム、プログラムおよび対話方法
(51)【国際特許分類】
   G10L 13/10 20130101AFI20241120BHJP
   G10L 13/00 20060101ALI20241120BHJP
   G10L 13/08 20130101ALI20241120BHJP
   G10L 15/10 20060101ALI20241120BHJP
   G10L 15/22 20060101ALI20241120BHJP
   G06F 3/16 20060101ALI20241120BHJP
【FI】
G10L13/10 114
G10L13/00 100M
G10L13/08 124
G10L15/10 500N
G10L15/10 500T
G10L15/22 300Z
G06F3/16 690
G06F3/16 650
G06F3/16 610
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023080278
(22)【出願日】2023-05-15
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110003199
【氏名又は名称】弁理士法人高田・高橋国際特許事務所
(72)【発明者】
【氏名】白旗 悠真
(72)【発明者】
【氏名】和気 雅弥
(72)【発明者】
【氏名】蓮実 拓也
(72)【発明者】
【氏名】ウェリ ナプタリ
(57)【要約】
【課題】発話者が違和感を覚えることなくAIエージェントと対話することができる対話システム、プログラムおよび対話方法を提供する。
【解決手段】対話システムは、発話者と対話を行うAIエージェントを制御するシステムであって、発話者の表現に関する表現情報に基づいて発話者の感情を推定する推定部と、推定部によって推定された発話者の感情に基づいて、AIエージェントが応答する際の応答特徴を決定する特徴決定部と、を備えた。発話者の感情に基づいてAIエージェントが応答する際の応答特徴が決定される。このため、発話者は、違和感を覚えることなくAIエージェントと対話することができる。
【選択図】図3
【特許請求の範囲】
【請求項1】
発話者と対話を行うAIエージェントを制御するシステムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定する推定部と、
前記推定部によって推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定する特徴決定部と、
を備えた対話システム。
【請求項2】
前記表現情報は、前記発話者が発した音声の情報であり、
前記推定部は、前記発話者が発した音声に基づいて前記発話者の感情を推定する請求項1に記載の対話システム。
【請求項3】
前記表現情報は、前記発話者がうつった画像または映像の情報であり、
前記推定部は、前記画像または前記映像にうつった前記発話者の像に基づいて前記発話者の感情を推定する請求項1に記載の対話システム。
【請求項4】
前記特徴決定部が決定する応答特徴は、前記AIエージェントが発する音声に関する応答特徴であり、前記AIエージェントが発する音声の音量、声質、および声色のうち少なくとも1つの応答特徴量の設定を含み、
前記特徴決定部は、前記応答特徴として、前記推定部によって推定された前記発話者の感情に対応した前記応答特徴量を決定する請求項1に記載の対話システム。
【請求項5】
前記特徴決定部は、前記推定部によって推定された前記発話者の感情とは逆の感情を示すような前記応答特徴量を生成する請求項4に記載の対話システム。
【請求項6】
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記応答特徴量の設定に基づく音声で前記対話テキストを読み上げる請求項4に記載の対話システム。
【請求項7】
前記特徴決定部は、前記推定部よって推定された前記発話者の感情と前記対話テキストとに基づいて、前記応答特徴量を決定する請求項6に記載の対話システム。
【請求項8】
前記応答生成部は、前記表現情報に示される意味と前記推定部によって推定された前記発話者の感情とに基づいて、前記対話テキストを生成する請求項6に記載の対話システム。
【請求項9】
前記AIエージェントが前記発話者と対話をする際の前記AIエージェントの役割を設定する役割設定部、
を更に備え、
前記特徴決定部は、前記役割設定部によって設定された役割に沿った前記応答特徴を決定する請求項1から請求項8のいずれか一項に記載の対話システム。
【請求項10】
前記役割設定部は、前記推定部に推定された前記発話者の感情に対応して前記AIエージェントの役割を変化させる請求項9に記載の対話システム。
【請求項11】
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて前記発話者と前記AIエージェントとの対話が行われ、
前記特徴決定部は、前記応答特徴として、前記コメント欄に投稿されたコメントの中から前記推定部によって推定された感情に対応する第1コメントを選定し、前記第1コメントを前記AIエージェントに読み上げられるコメントに決定する請求項1に記載の対話システム。
【請求項12】
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記対話テキストと前記第1コメントとを区別して読み上げる請求項11に記載の対話システム。
【請求項13】
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて前記発話者と前記AIエージェントとの対話が行われ、
前記特徴決定部は、前記応答特徴として、前記推定部によって推定された前記発話者の感情に対応する第2コメントを生成し、前記コメント欄に投稿されて前記AIエージェントに読み上げられるコメントに決定する請求項1に記載の対話システム。
【請求項14】
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記対話テキストと前記第2コメントとを区別して読み上げる請求項13に記載の対話システム。
【請求項15】
コンピュータに実行され、発話者と対話を行うAIエージェントを制御するためのプログラムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定することと、
推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定することと、
が前記コンピュータに実行されるプログラム。
【請求項16】
発話者と対話を行うAIエージェントを制御するためにコンピュータによって行われる方法であって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定することと、
推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定することと、
を含む対話方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、対話システム、プログラムおよび対話方法に関する。
【背景技術】
【0002】
特許文献1には、顧客と担当者が音声対話する際に、顧客が発した音声情報に基づいて、担当者に対して会話用のテキストを提案する技術が開示されている。また近年、人と対話を行うAIエージェントを利用した発話者とAIエージェントとの音声対話が行われている。特許文献1に開示された技術は、発話者とAIエージェントとの音声対話にも適用され得る。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-157419号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に開示された技術が適用された従来のAIエージェントを利用した対話応答では、AIエージェントの応答内容が発信される態様である応答の特徴(応答特徴)を決定するための検討がされていなかった。そのため、AIエージェントの応答特徴と、発話者のテンションおよび雰囲気との間にギャップが生じてしまっており、発話者が違和感を感じることがあった。
【課題を解決するための手段】
【0005】
本開示の第1の態様によると、対話システムは、発話者と対話を行うAIエージェントを制御するシステムであって、発話者の表現に関する表現情報に基づいて発話者の感情を推定する推定部と、推定部によって推定された発話者の感情に基づいて、AIエージェントが応答する際の応答特徴を決定する特徴決定部と、を備えた。
【0006】
本開示の第2の態様によると、プログラムは、コンピュータに実行され、発話者と対話を行うAIエージェントを制御するためのプログラムであって、発話者の表現に関する表現情報に基づいて発話者の感情を推定することと、推定された発話者の感情に基づいて、AIエージェントが応答する際の応答特徴を決定することと、がコンピュータに実行される。
【0007】
本開示の第3の態様によると、対話方法は、発話者と対話を行うAIエージェントを制御するためにコンピュータによって行われる方法であって、発話者の表現に関する表現情報に基づいて発話者の感情を推定することと、推定された発話者の感情に基づいて、AIエージェントが応答する際の応答特徴を決定することと、を含む。
【図面の簡単な説明】
【0008】
図1】実施の形態1における対話システムの全体概要を示す模式図である。
図2】実施の形態1における対話システムの機器構成図である。
図3】実施の形態1における対話システムの要部の機能ブロック図である。
図4】実施の形態1における対話システムの動作の一例を示すフローチャートである。
図5】実施の形態1における対話システムの変形例の機能ブロック図である。
図6】実施の形態2における対話システムの要部の機能ブロック図である。
図7】実施の形態2における対話システムの動作の一例を示すフローチャートである。
図8】実施の形態3における対話システムの要部の機能ブロック図である。
図9】実施の形態3における対話システムの動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
本開示に記載の開示は、通信の秘密など、本開示の実施に必要な実施国の法的事項遵守を前提とすることに留意されたい。本開示に係る対話システム、プログラムおよび対話方法を実施するための形態について添付の図面を参照しながら説明する。各図において、同一または相当する部分には同一の符号を付して、重複する説明は適宜に簡略化または省略する。なお、本開示は以下の実施の形態に限定されることなく、本開示の趣旨を逸脱しない範囲において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
【0010】
実施の形態1.
図1から図4を参照しながら、本開示の実施の形態1について説明する。図1は対話システムの全体概要を示す模式図である。図2は対話システムの機器構成図である。図3は対話システムの要部の機能ブロック図である。図4は対話システムの動作の一例を示すフローチャートである。
【0011】
図1および図2に示すように、この実施の形態に係る対話システム400は、サーバ100と、ユーザ端末200とを備える。対話システム400では、サーバ100とユーザ端末200とが、ネットワーク300を介して通信可能に接続される。
【0012】
ここで説明する構成例では、サーバ100は、ネットワーク300を介してユーザが所有するユーザ端末200に、ライブ配信サービスを提供する。ライブ配信サービスとは、配信者が映像を撮影し、撮影された映像を視聴者へリアルタイムで配信するサービスである。なお、動画ではなく、音声のみが配信されてもよい。視聴者は、コメント等のリアクションを投稿する形式で、当該ライブ配信サービスに参加可能である。
【0013】
ユーザ端末200には、配信者端末200aと視聴者端末200bとが含まれる。配信者端末200aおよび視聴者端末200bが区別されずに、総称してユーザ端末200と呼称されてもよい。なお、ネットワーク300に接続される配信者端末200aおよび視聴者端末200bのそれぞれの数は1台に限られず、2台以上であってもよい。
【0014】
ネットワーク300は、ユーザ端末200と1以上のサーバ100とを接続する役割を担う。即ち、ネットワーク300は、ユーザ端末200がサーバ100に接続した後、データを送受信することができるように接続経路を提供する通信網を意味する。ネットワーク300のうちの1つまたは複数の部分は、有線ネットワークや無線ネットワークであってもよいし、そうでなくてもよい。
【0015】
ネットワーク300は、例えば、アドホック・ネットワーク(Ad Hoc Network)、イントラネット、エクストラネット、仮想プライベート・ネットワーク(Virtual Private Network:VPN)、ローカル・エリア・ネットワーク(Local Area Network:LAN)、ワイヤレスLAN(Wireless LAN:WLAN)、広域ネットワーク(Wide Area Network:WAN)、ワイヤレスWAN(Wireless WAN:WWAN)、大都市圏ネットワーク(Metropolitan Area Network:MAN)、インターネットの一部、公衆交換電話網(Public Switched Telephone Network:PSTN)の一部、携帯電話網、ISDN(Integrated Service Digital Networks)、無線LAN、LTE(Long Term Evolution)、CDMA(Code Division Multiple Access)、ブルートゥース(Bluetooth(登録商標))、または、衛星通信等、もしくは、これらの2つ以上の組合せを含むことができる。ネットワーク300は、1つまたは複数のネットワーク300を含むことができる。
【0016】
ユーザ端末200は、本開示に係る実施形態の機能を実現できる情報処理端末であればどのような端末であってもよい。ユーザ端末200は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、コンピュータ(例えば、デスクトップPC、ラップトップPC、タブレットPC等)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)、電子メールクライアント等)、ウェアラブル端末(メガネ型デバイス、時計型デバイス等)、または他種のコンピュータ、またはコミュニケーションプラットホームを含む。また、ユーザ端末200は情報処理端末と表現されてもよい。
【0017】
サーバ100は、ユーザ端末200に対して、所定のサービスを提供する機能を備える。サーバ100は、本開示に係る実施形態の機能を実現できる情報処理装置であればどのような装置であってもよい。サーバ100は、例えば、サーバ装置、コンピュータ(例えば、デスクトップPC、ラップトップPC、タブレットPC等)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアント等)、あるいは他種のコンピュータ、またはコミュニケーションプラットホームを含む。また、サーバ100は情報処理装置と表現されてもよい。サーバ100とユーザ端末200とを区別する必要がない場合は、サーバ100とユーザ端末200とは、それぞれ情報処理装置と表現されてもよいし、されなくてもよい。
【0018】
次に、図2を参照しながら、ユーザ端末200の構成について説明する。ユーザ端末200は、端末制御手段210、端末記憶手段220、端末通信手段230、入出力手段240、表示手段250、マイク260、スピーカ270、およびカメラ280を備える。ユーザ端末200のハードウェアの各構成要素は、例えば、バスを介して相互に接続される。なお、ユーザ端末200のハードウェア構成として、ここで説明する全ての構成要素を含むことは必須ではない。例えば、ユーザ端末200は、カメラ280等の個々の構成要素、または複数の構成要素を取り外すような構成であってもよいし、そうでなくてもよい。
【0019】
端末制御手段210は、端末記憶手段220に記憶された情報等の各種の情報を用いて、ユーザ端末200の動作を全体的に制御可能である。
【0020】
端末通信手段230は、ネットワーク300を介して各種データの送受信を行うI/F(インタフェース)である。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。端末通信手段230は、ネットワーク300を介して、サーバ100との通信を実行する機能を有する。端末通信手段230は、端末制御手段210からの指示に従って、各種の情報をサーバ100に送信する。端末通信手段230は、サーバ100から送信された各種の情報を受信し、端末制御手段210に伝達する。なお、端末通信手段230を単に通信手段と表現する場合もある。端末通信手段230が物理的に構造化された回路で構成される場合には、通信回路と表現する場合もある。
【0021】
入出力手段240は、入力手段および出力手段を含む。入力手段は、ユーザ端末200に対する各種のユーザの操作を入力する装置である。出力手段は、ユーザ端末200で処理された処理結果を出力する装置である。入出力手段240において、入力手段と出力手段が一体化されていてもよいし、入力手段と出力手段とが分離していてもよい。
【0022】
入力手段は、ユーザからの入力を受け付けて、当該入力に係る情報を端末制御手段210に伝達できる全ての種類の装置のいずれか、または、その組み合わせにより実現される。例えば、入力手段は、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス等を含み得る。
【0023】
出力手段は、端末制御手段210で処理された処理結果を出力することができる全ての種類の装置のいずれか、または、その組み合わせにより実現される。出力手段は、例えば、タッチパネル、タッチディスプレイ、レンズ(例えば3D(Three Dimensions)出力や、ホログラム出力)、プリンター等を含み得る。
【0024】
表示手段250は、フレームバッファに書き込まれた表示データに従って、表示することができる全ての種類の装置のいずれか、または、その組み合わせにより実現される。即ち、表示手段250は、出力手段に含まれ得る。表示手段250は、例えば、タッチパネル、タッチディスプレイ、モニタ(例えば、液晶ディスプレイやOELD(Organic Electroluminescence Display)等)、ヘッドマウントディスプレイ(HDM:Head Mounted Display)、プロジェクションマッピング、ホログラム、空気中等(真空であってもよいし、そうでなくてもよい)に画像やテキスト情報等を表示可能な装置を含み得る。なお、これらの表示手段250は、3Dで表示データを表示可能であってもよいし、そうでなくてもよい。
【0025】
なお、入出力手段240がタッチパネルを有する場合、入出力手段240と表示手段250とは、略同一の大きさおよび形状で対向して配置されていてもよい。
【0026】
マイク260は、入力手段に含まれる。マイク260は、表現情報である音声情報の入力に利用される。スピーカ270は、出力手段に含まれる。スピーカ270は、音声情報の出力に利用される。カメラ280は、入力手段に含まれる。カメラ280は、表現情報である静止画像情報および/または連続した静止画像情報である映像情報の取得に利用される。
【0027】
端末制御手段210は、プログラム内に含まれたコードまたは命令によって実現する機能を実行するために物理的に構造化された回路を有し、例えば、ハードウェアに内蔵されたデータ処理装置により実現される。そのため、端末制御手段210は、制御回路と表現されてもよいし、されなくてもよい。
【0028】
端末制御手段210は、例えば、中央処理装置(CPU:Central Processing Unit)、マイクロプロセッサ(Microprocessor)、プロセッサコア(Processor Core)、マルチプロセッサ(Multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等を含む。
【0029】
端末記憶手段220は、ユーザ端末200が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。端末記憶手段220は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)等各種の記憶媒体を含む。また、端末記憶手段220は、メモリ(Memory)と表現されてもよいし、されなくてもよい。
【0030】
ユーザ端末200は、プログラムを端末記憶手段220に記憶し、このプログラムを実行することで、端末制御手段210が、端末制御手段210に含まれる各部としての処理を実行する。つまり、端末記憶手段220に記憶されるプログラムは、ユーザ端末200に、端末制御手段210が実行する各機能を実現させる。換言すれば、ユーザ端末200においてメモリに記憶されたプログラムをプロセッサが実行し、ユーザ端末200のハードウェアとソフトウェアとが協働することによって、ユーザ端末200が備える各部の機能が実現される。なお、このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。
【0031】
次に、サーバ100の構成について説明する。サーバ100は、サーバ制御手段110、サーバ記憶手段120、およびサーバ通信手段130を備える。サーバ100のハードウェアの各構成要素は、例えば、バスを介して相互に接続される。
【0032】
サーバ制御手段110は、プログラム内に含まれたコードまたは命令によって実現する機能を実行するために物理的に構造化された回路を有し、例えば、ハードウェアに内蔵されたデータ処理装置により実現される。サーバ制御手段110は、代表的には中央処理装置(CPU)であり、その他にマイクロプロセッサ、プロセッサコア、マルチプロセッサ、ASIC、FPGA等であってもよいし、そうでなくてもよい。本開示において、サーバ制御手段110は、これらに限定されない。
【0033】
サーバ記憶手段120は、サーバ100が動作するうえで必要となる各種プログラムおよび各種データを記憶する機能を有する。サーバ記憶手段120は、HDD、SSD、フラッシュメモリ等各種の記憶媒体により実現される。ただし、本開示において、サーバ記憶手段120は、これらに限定されない。また、サーバ記憶手段120は、メモリ(Memory)と表現されてもよいし、されなくてもよい。
【0034】
サーバ通信手段130は、ネットワーク300を介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。サーバ通信手段130は、ネットワーク300を介して、ユーザ端末200との通信を実行する機能を有する。具体的には、サーバ通信手段130は、各種の情報をサーバ制御手段110からの指示に従って、ユーザ端末200に送信する。サーバ通信手段130は、ユーザ端末200から送信された各種の情報を受信し、サーバ制御手段110に伝達する。
【0035】
なお、サーバ通信手段130をサーバ通信I/F(インタフェース)と表現する場合もある。また、サーバ通信手段130が物理的に構造化された回路で構成される場合には、サーバ通信回路と表現する場合もある。
【0036】
なお、サーバ100は、ハードウェア構成として、入出力手段およびディスプレイを備えてもよい。入出力手段は、サーバ100に対する各種操作を入力する装置により実現される。入出力手段は、ユーザからの入力を受け付けて、当該入力に係る情報をサーバ制御手段110に伝達できる全ての種類の装置のいずれか、または、その組み合わせにより実現される。ディスプレイは、代表的にはモニタ(例えば、液晶ディスプレイやOELD等)で実現される。この場合、例えば、サーバ100のハードウェアは、ディスプレイを取り外すような構成であってもよいし、そうでなくてもよい。
【0037】
サーバ100は、プログラムをサーバ記憶手段120に記憶し、このプログラムを実行することで、サーバ制御手段110が、サーバ制御手段110に含まれる各部としての処理を実行する。つまり、サーバ記憶手段120に記憶されるプログラムは、サーバ100に、サーバ制御手段110が実行する各機能を実現させる。換言すれば、サーバ100においてメモリに記憶されたプログラムをプロセッサが実行し、サーバ100のハードウェアとソフトウェアとが協働することによって、サーバ100が備える各部の機能が実現される。なお、このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。
【0038】
なお、ユーザ端末200の端末制御手段210、および/または、サーバ100のサーバ制御手段110は、制御回路を有するCPUだけでなく、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって各処理を実現してもよいし、そうでなくてもよい。また、これらの回路は、1または複数の集積回路により実現されてよく、本開示に係る実施形態に示す複数の処理を1つの集積回路により実現されることとしてもよいし、そうでなくてもよい。また、LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
【0039】
また、本開示に係る実施形態のプログラム(例えば、ソフトウェアプログラム、コンピュータプログラム、またはプログラムモジュール)は、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよいし、されなくてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。また、プログラムは、本開示に係る実施形態の機能の一部を実現するためのものであってもよいし、そうでなくてもよい。さらに、本開示に係る実施形態の機能を記憶媒体に既に記録されるプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよいし、そうでなくてもよい。
【0040】
記憶媒体は、1つまたは複数の半導体ベースの、または他の集積回路(IC)(例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)または特定用途向けIC(ASIC)等)、ハード・ディスク・ドライブ(HDD)、ハイブリッド・ハード・ドライブ(HHD)、光ディスク、光ディスクドライブ(ODD)、光磁気ディスク、光磁気ドライブ、フロッピィ・ディスケット、フロッピィ・ディスク・ドライブ(FDD)、磁気テープ、固体ドライブ(SSD)、RAMドライブ、セキュア・デジタル・カード、またはドライブ、任意の他の適切な記憶媒体、もしくは、これらの2つ以上の適切な組合せを含むことができる。記憶媒体は、適切な場合、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。また、記憶媒体はメモリ(Memory)と表現されてもよいし、されなくてもよい。
【0041】
また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して、サーバ100および/またはユーザ端末200に提供されてもよいし、されなくてもよい。プログラムが伝送媒体を介して提供される場合、サーバ100および/またはユーザ端末200は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現することが可能である。
【0042】
また、限定ではなく例として、ユーザ端末200がスマートフォンまたはPCである場合に、当該スマートフォンまたはPCにサーバ100(またはサーバ100以外のサーバ装置)から受信したアプリケーションが組み込まれ(インストールされ)て、本開示の請求項に係る一部の要素(処理・動作)が当該アプリケーションを介して実行されてもよい。また、限定ではなく例として、ユーザ端末200がスマートフォンまたはPCである場合に、当該スマートフォンまたはPCにアプリケーションが組み込まれる(インストールされる)ことなく、当該スマートフォンまたはPCからアクセス可能なウェブサイトを介して、本開示の請求項に係る一部の要素(処理・動作)が実行されてもよい。
【0043】
また、本開示に係る実施形態は、プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。また、サーバ100および/またはユーザ端末200における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよいし、そうでなくてもよい。また、ユーザ端末200における処理の少なくとも一部を、サーバ100により行う構成としてもよいし、そうでなくてもよい。この場合、ユーザ端末200の端末制御手段210の各機能部の処理のうち少なくとも一部の処理を、サーバ100で行う構成としてもよいし、そうでなくてもよい。また、サーバ100における処理の少なくとも一部を、ユーザ端末200により行う構成としてもよいし、そうでなくてもよい。この場合、サーバ100のサーバ制御手段110の各機能部の処理のうち少なくとも一部の処理を、ユーザ端末200で行う構成としてもよいし、そうでなくてもよい。
【0044】
なお、本開示のプログラムは、例えば、ActionScript、JavaScript(登録商標)等のスクリプト言語、Objective-C、Java(登録商標)等のオブジェクト指向プログラミング言語、HTML5等のマークアップ言語等を用いて実装され得る。
【0045】
次に、図3を用いて、サーバ100の機能を説明する。
【0046】
図3に示されるように、サーバ100は、記憶部10、配信インタフェース部11、入力部12、出力部13、応答生成部14、推定部15、特徴決定部16、統合部17、および付加部18を備える。例えば、配信インタフェース部11、入力部12、出力部13、応答生成部14、推定部15、特徴決定部16、統合部17、および付加部18は、サーバ制御手段110によって実現される。
【0047】
例えば、記憶部10は、図2に示されたサーバ記憶手段120によって実現される。記憶部10は、制御に必要な各種の情報を記録する。
【0048】
配信インタフェース部11は、ライブ配信サービスの配信インタフェース(以降、「配信I/F」とも呼称される)を提供する。配信I/Fにおいて、配信者は、配信者端末200aから、音声付きの映像または音声のみをライブ配信することが可能である。配信I/Fにおいて、視聴者は、視聴者端末200bから、ライブ配信された映像または音声を視聴可能である。視聴者は、視聴者端末200bから、配信I/Fに設けられたコメント欄にコメントを投稿可能である。
【0049】
なお、配信I/Fは、配信者画面と視聴者画面とを提供可能であってもよい。配信者画面は、配信者端末200aに表示され、ライブ配信に関する内容が表示される画面である。視聴者画面は、視聴者端末200bに表示され、ライブ配信に関する内容が表示される画面である。視聴者画面は、配信者画面と比べて少なくとも一部が異なる。
【0050】
サーバ100は、AIエージェント機能を備える。AIエージェント機能には、入力部12、出力部13、応答生成部14、推定部15、特徴決定部16、統合部17、および付加部18の機能が含まれる。なお、AIエージェント機能には、応答生成部14、推定部15、および特徴決定部16が少なくとも含まれればよい。AIエージェント機能は、AIエージェントを制御する。AIエージェントは、発話者である配信者との対話の音声を生成し、当該音声によって発話者とリアルタイムで対話を行う。なお、AIエージェントは、音声ではなく、文字、映像、のみによって発話者とリアルタイムで対話をおこなってもよい。例えば、AIエージェントと配信者との対話は、配信I/Fを介して、ライブ配信される。視聴者は、AIエージェントと配信者との対話を、配信I/F上で視聴可能である。
【0051】
入力部12は、配信者端末200aから受信した配信者が行った表現に関する表現情報の入力を受け付ける。表現情報は、配信者が発した音声の情報であってもよいし、配信者がうつった画像または連続した画像である映像の情報であってもよい。例えば、表現情報は、配信I/Fで配信される音声付きの映像または音声のみの情報である。
【0052】
出力部13は、AIエージェントの対話に関する出力として出力情報を配信I/Fに出力する。例えば、出力情報には、AIエージェントが発する音声またはテキストに関する情報が含まれる。即ち、出力部13からAIエージェントの音声またはテキストが配信I/Fに出力されることで、配信者とAIエージェントとの対話が視聴者へ配信される。本実施の形態では、出力情報には、AIエージェントの音声の情報が少なくとも含まれる。
【0053】
なお、出力部13は、出力情報として、AIエージェントのアバターを制御する情報を出力してもよい。この場合、配信I/Fには、当該アバターの画像または映像が表示される。出力情報には、当該アバターの動作、表情、等を制御する情報が含まれてもよい。
【0054】
応答生成部14は、表現情報に基づいて、対話テキストを生成する。対話テキストは、AIエージェントが発する文章のテキストである。例えば、応答生成部14は、表現情報から、配信者が発する意味情報を抽出する。表現情報が配信者の音声を含む場合、意味情報は、当該音声に含まれる文章の意味を示す情報であってもよい。表現情報が画像または映像を含む場合、意味情報は、当該画像または映像に写る配信者の動きに対応する意味を示す情報であってもよい。配信者の動きは、ジェスチャー、手話、等の任意の動きであってもよい。応答生成部14は、抽出した意味情報に基づいて、当該意味情報に対応する対話テキストを生成する。例えば、当該意味情報が「生配信を始めます」という意味を示す場合、応答生成部14は、意味情報に対する応答として、ライブ配信の司会進行を行うために「今日のテーマは何だっけ?」という対話テキストを生成する。なお、応答生成部14は、意味情報から対話テキストを生成する際に、既知の対話応答モデルを利用してもよい。
【0055】
推定部15は、表現情報に基づいて、発話者である配信者の感情を推定する。推定部15は、推定した配信者の感情を示す感情情報を生成して、出力する。表現情報が配信者の音声を含む場合、推定部15は、当該音声から配信者の感情を推定してもよい。表現情報が配信者の画像または映像を含む場合、推定部15は、当該画像に写る配信者の像から配信者の感情を推定してよもい。配信者の感情を推定する手法および感情情報に含まれる情報は、任意の技術が適用されればよい。なお、以降では、いくつかの例が示されるが、当該手法および感情情報は、これらの例に限定されない。
【0056】
例えば、表現情報が音声を含む場合の手法の第1例において、推定部15は、当該音声から特徴量を抽出する。例えば、抽出される特徴量には、pitch、energy、speed、MFCC(メル周波数)、等が含まれる。推定部15は、特徴量から感情を推定する機械学習モデルを利用して配信者の感情を推定する。
【0057】
表現情報が音声を含む場合の手法の第2例において、推定部15は、表現情報に示される音声から直接的に感情情報を生成する。即ち、手法の第2例では、end-to-endモデルが利用される。手法の第2例では、第1例と比べて、特徴量を抽出する処理が介在しない。
【0058】
表現情報が音声を含む場合の手法の第3例において、推定部15は、他の日時に行われたライブ配信で入力された同じ配信者の表現情報と、現在入力された表現情報との差分を計算して、現在の配信者の感情を推定する。この場合、推定部15は、他の日時の表現情報から抽出された特徴量と、現在の表現情報から抽出された特徴量との差分を計算してもよい。他の日時の表現情報は、記憶部10に予め記憶される。なお、他の日時の表現情報には、配信者によって感情のラベルが付されていてもよい。この場合、推定部15は、他の日時の表現情報の感情のラベルを基準にして、現在の配信者の感情を推定してもよい。
【0059】
表現情報が画像または映像を含む場合の手法の第1例において、推定部15は、表現情報に映る配信者の表情を認識して、当該表情が示す感情を推定する。
【0060】
表現情報が画像または映像を含む場合の手法の第2例において、推定部15は、配信者の表情に加えて、表現情報に映る配信者のジェスチャー(hand gesture/hand-over-face)、手話、等が示す意味を更に認識して、配信者の感情を推定する。
【0061】
感情情報の第1例において、感情情報には、配信者の感情をネガティブ/ポジティブの2つに分類した情報が含まれる。この場合、感情情報には、ネガティブ/ポジティブの2値のみが含まれてもよいし、ネガティブの程度を示す指標値、ポジティブの程度を示す指標値が含まれてもよい。
【0062】
感情情報の第2例において、感情情報には、既存の感情推定モデルが用いられることで、配信者の感情を第1例よりも更に細かく分類した情報が含まれる。例えば、感情情報には、Valence-arousalモデルに基づいて分類された感情の情報が含まれてもよい。
【0063】
感情情報の第3例において、感情情報には、配信者の感情を示す複数のパラメータが含まれる。第1例および第2例とは異なり、第3例の感情情報に含まれるパラメータには、感情を分類するモデルで利用されるような感情を分類するラベルが付されていなくてもよい。
【0064】
なお、表現情報が音声を含む場合、推定部15は、手法の第1例、第2例または第3例の機械学習モデルへの補助入力として、表現情報に示される音声信号のASR(自動音声認識)結果を更に用いてもよい。即ち、一例として、推定部15は、表現情報から意味情報を抽出して、感情を推定するための補助入力としてもよい。例えば、推定部15は、日本語感情表現辞書等のデータベースに示される単語を意味情報からピックアップして、ピックアップした単語に対応する感情を補助入力としてもよい。例えば、推定部15は、意味情報をNLP(自然言語処理)を扱う特定の処理モデルで処理した結果を、補助入力としてもよい。
【0065】
推定部15は、表現情報を規定の入力間隔ごとに処理する。例えば、入力間隔は、10ミリ秒から100ミリ秒の間の値である。推定部15は、配信者の感情を、規定の出力間隔ごとに推定する。例えば、出力間隔は、1つの文節、1つの発話、等である。具体的には、推定部15は、表現情報に含まれる音声情報から10ミリ秒ごとに特徴量を抽出し、1つの文節ごとに当該文節を発話しているときの配信者の感情を推定する。
【0066】
特徴決定部16は、感情情報に基づいて、AIエージェントの応答特徴を決定する。応答特徴は、発話者である配信者の表現情報に対してAIエージェントが応答する際の特徴であって、特に、配信者の感情に対応するような応答の特徴である。即ち、特徴決定部16は、推定部15によって推定された発話者の感情に基づいて、AIエージェントが応答する際の応答特徴を決定する。
【0067】
本実施の形態において、特徴決定部16は、応答特徴として、AIエージェントが応答する際に発する音声の応答特徴量の設定値を決定する。例えば、応答特徴量には、AIエージェントが発する音声の音量、声質、および声色のうち少なくとも1つが含まれる。音声の音量は、音声のテンションを意味してもよい。声質は、人によって異なる声の特徴、のように音声を発する主体の違いを表現する際に主に調整されるパラメータである。声色は、ウィスパーボイス、怒声、等の表現を行う際に主に調整されるパラメータである。特徴決定部16は、感情情報に示される配信者の感情に対応する応答特徴量を決定する。配信者の感情に対応して、応答特徴量をどのような値に設定するか、即ちAIエージェントがどのような特徴の音声を発するかの傾向は、配信者またはその他の者に予め設定されてもよい。
【0068】
一例として、特徴決定部16は、感情情報に示される感情と同一または類似の感情となるように応答特徴量を決定する。この際、特徴決定部16は、感情情報に示される感情に寄り添うように応答特徴量を決定してもよい。具体的には、配信者のテンションが低いまたは配信者がネガティブな感情を抱いていると推定部15によって推定された場合、特徴決定部16は、音量を規定値より小さくして、聞き手に優しさを感じさせるような声質および声色の設定値を決定する。この際、応答特徴量は、励ましたり、同情したりするような音量、声質、および声色となるように決定される。また、配信者のテンションが高いまたは配信者がポジティブな感情を抱いていると推定部15によって推定された場合、特徴決定部16は、音量を規定値より大きくして、聞き手に快活さを感じさせるような声質および声色の設定値を決定する。
【0069】
別の例として、特徴決定部16は、感情情報に示される感情とは逆の感情を示すような応答特徴量を決定する。具体的には、配信者のテンションが低いまたは配信者がネガティブな感情を抱いていると推定部15によって推定された場合、特徴決定部16は、音量を規定値より大きくして、聞き手に快活さを感じさせるような声質および声色の設定値を決定する。また、配信者のテンションが高いまたは配信者がポジティブな感情を抱いていると推定部15によって推定された場合、特徴決定部16は、音量を規定値より小さくして、聞き手に元気のなさを感じさせるような声質および声色の設定値を決定する。
【0070】
なお、記憶部10には、応答特徴量の各値について基本設定値(プリセット)が記憶されていてもよい。この場合、特徴決定部16は、基本設定値を基準とした増減量を応答特徴量として決定してもよい。また、記憶部10には、応答特徴量の各値の設定範囲が記憶されていてもよい。この場合、特徴決定部16は、設定範囲に収まるように応答特徴量の各値を決定してもよい。
【0071】
また、記憶部10には、応答特徴量の決定の傾向と基本設定値と応答特徴量の組み合わせが複数パターン記憶されていてもよい。配信者によって配信者端末200aからいずれかの組み合わせが選択された場合、特徴決定部16は、選択された組み合わせに対応する決定の傾向、基本設定値、および設定範囲に基づいて応答特徴量を決定する。例えば、各パターンには、「ひたすら明るいAIアカリちゃん」、「ノリがいいけど大切な場面で親身になってくれるアリサさん」、「常にイケボで冷静沈着なアキレスくん」、等の特性ラベルが設定されていてもよい。例えば、「アリサさん」の場合、次のような組み合わせとなる。基本設定値は、明るい印象を与えるような応答特徴量が設定されている。応答特徴量の決定の傾向は、感情情報に示される感情と同一または類似の感情となるように設定されている。明るさと、親身になってくれるときの真剣さと、の音声の幅が生まれるよう、設定範囲は、各値で比較的広く設定されている。
【0072】
更に、AIエージェントのアバターが設定されている場合、応答特徴量の基本設定値および設定範囲は、当該アバターに対応付けられたものであってもよい。この場合、アバター画像から想定されないような声色および声質になることが回避され得る。
【0073】
なお、特徴決定部16は、感情情報に追加する補助入力として、意味情報を更に用いてもよい。この場合、例えば、特徴決定部16は、推定部15が意味情報を補助入力として用いる場合と同様の処理を行うことで、感情情報と意味情報とに基づいて応答特徴量を決定してもよい。
【0074】
なお、特徴決定部16は、感情情報に追加する補助入力として、応答生成部14が生成した対話テキストを更に用いてもよい。この場合、例えば、特徴決定部16は、対話テキストが示す内容と類似の感情となるように、感情情報と対話テキストとに基づいて応答特徴量を決定してもよい。
【0075】
統合部17は、応答生成部14に生成された対話テキストと、特徴決定部16に決定された応答特徴と、を統合して出力情報を作成する。出力情報には、AIエージェントが発する音声の情報が少なくとも含まれる。
【0076】
本実施の形態において、統合部17は、対話テキストを応答特徴量に基づく音声で読み上げるような出力情報を生成する。この出力情報が出力部13によって出力されることで、ライブ配信において、AIエージェントは、応答特徴量に示される音声で対話テキストを発する。即ち、AIエージェントは、配信者の発話である表現情報に対応した対話の音声を発する。視聴者は、配信者の発話と、配信者の発話に対応するような文章の音声であって、配信者のテンションに対応するような応答特徴量の音声をAIエージェントが発する様子とを視聴可能となる。
【0077】
なお、出力情報には、対話テキストの文節、文章、等の規定の出力単位ごとに応答特徴量が対応付けられてもよい。
【0078】
付加部18は、統合部17が生成した出力情報に対して、更に情報を付加する。例えば、付加部18は、感情情報に基づいてBGMを選定し、選定したBGMの情報を出力情報に付加してもよい。この場合、出力部13は、当該出力情報に示される対話テキストの音声を発する際に、付加部18によって選定されたBGMを同時に再生する。
【0079】
AIエージェントのアバターの画像または映像が設定されている場合、付加部18は、感情情報に基づいて、アバターの表情および仕草のうち少なくとも一方の情報を生成し、当該情報を出力情報に付加してもよい。この場合、出力部13は、当該出力情報に示される対話テキストの音声を発する際に、付加された表情および仕草をアバターに反映する。
【0080】
例えば、付加部18は、推定部15によって推定された感情の時間推移を示す情報を生成し、出力情報に付加してもよい。この場合、出力部13は、当該時間推移を示すタイムチャートを配信者画面および視聴者画面のうち少なくとも一方に表示させる。
【0081】
図4に示されるフローチャートは、AIエージェント機能によって行われる配信者との対話の基本的な動作の一例である。例えば、図4に示されるフローチャートは、配信者が発話した際に開始する。
【0082】
ステップS01において、入力部12は、配信者の発話に対応する表現情報を取得する。
【0083】
その後、ステップS02において、応答生成部14は、表現情報に基づいて対話テキストを生成する。また、ステップS01の後、ステップS02と並行してステップS03の動作が行われる。ステップS03において、推定部15は、表現情報に基づいて、配信者の感情を推定し、感情情報を生成する。
【0084】
ステップS02およびステップS03の後、ステップS04において、特徴決定部16は、感情情報に基づいて、応答特徴として応答特徴量を決定する。
【0085】
その後、ステップS05において、統合部17は、対話テキストと応答特徴量とを統合して、出力情報を生成する。
【0086】
その後、ステップS06において、出力部13は、出力情報に基づいて配信I/Fに音声を出力する。その後、フローチャートの動作が終了する。
【0087】
以上で説明した実施の形態1によれば、対話システム400は、推定部15と特徴決定部16とを備える。また、当該対話システム400は、コンピュータであるサーバ100がプログラムを実行することで実現されてもよい。即ち、実行されるプログラムは、本開示の対話方法をコンピュータに実行させる。特許文献1に示されるような従来技術では、推定された発話者の感情に基づいて応答内容が推薦される。しかしながら、従来のAIエージェントとの対話では、AIエージェントの応答内容が発信される態様である応答の特徴について、発話者の感情が考慮されたものではなかった。そのため、AIエージェントの応答特徴と、発話者のテンションおよび雰囲気との間にギャップが生じてしまっていた。一方で、対話システム400において、発話者である配信者の感情に基づいてAIエージェントが応答する際の応答特徴が決定される。このため、発話者は、違和感を覚えることなくAIエージェントと対話することができる。また、その結果、発話者がAIエージェントに対して感じた違和感に対する質問の回数を減少させることができ、対話に要するサーバ100の演算負荷を軽減することができる。
【0088】
また、表現情報は、発話者が発した音声の情報である。推定部15は、音声の情報に基づいて発話者の感情を推定する。このため、例えば、音声のみがやり取りされる対話においても、対話システム400は、発話者の感情を推定することができる。
【0089】
また、表現情報は、発話者が写った画像または映像の情報である。推定部15は、当該画像または映像の情報に基づいて発話者の感情を推定する。このため、例えば、発話者が音声を発することができないまたは発話者の音声の情報が取得できない場合の対話においても、対話システム400は、発話者の感情を推定することができる。
【0090】
また、特徴決定部16は、応答特徴として、AIエージェントが発する音声の応答特徴量の設定を決定する。従来技術では、AIエージェントが発する音声の特徴量が発話者の感情に則したものにすることができなかった。このため、発話者とAIエージェントとの間にコミュニケーション上のギャップが生じ、発話者が違和感を覚える恐れがあった。対話システム400は、AIエージェントが発する音声の特徴量を発話者の感情に応じてリアルタイムで変化させることができる。その結果、発話者は、違和感を覚えることなくAIエージェントと対話することができる。
【0091】
また、特徴決定部16は、推定された発話者の感情とは逆の感情を示すような応答特徴量を生成する。このため、AIエージェントとの対話のバリエーションを多様にすることができる。
【0092】
また、対話システム400は、応答生成部14を更に備える。AIエージェントは、表現情報に基づいて応答生成部14で生成された対話テキストを、応答特徴量に含まれる設定に基づく音声で読み上げる。応答特徴量は、表現情報に基づいて決定される。即ち、発話者による同一の表現情報によって、対話テキストと応答特徴量が生成または決定される。このため、AIエージェントは、発話者の発話内容に対応した内容および特徴量の音声を発することができる。
【0093】
また、特徴決定部16は、発話者の感情に加えて、対話テキストに基づいて応答特徴量を決定する。このため、AIエージェントは、対話テキストの内容とも整合する特徴量の音声を発することができる。
【0094】
なお、応答生成部14は、表現情報に示される意味に加えて、補助入力として感情情報に示される発話者の感情を用いて、対話テキストを生成してもよい。このため、発話者の感情に対応するような対話テキストを生成することができる。なお、応答生成部14は、対話テキストを生成する際に、表現情報と当該表現情報から推定部15が生成した感情情報とを用いてもよいし、表現情報と当該表現情報とは別の表現情報から推定部15が生成した感情情報とを用いてもよい。
【0095】
なお、AIエージェント機能は、ライブ配信で公開されることを前提としたものでなくてもよい。図5は実施の形態1における対話システムの変形例の機能ブロック図である。例えば、図5に示されるように、発話者は、ユーザ端末200を介して、AIインタフェースと対話を行う。ここで、図2で示された例と比較して、発話者は配信者ではなく、配信インタフェース部11は設けられない。発話者とAIインタフェースとの対話を視聴する視聴者はいない。
【0096】
出力部13は、配信I/Fではなく、対話用のインタフェースに対して、AIエージェントの対話内容を出力する。例えば、対話用のインタフェースは、スマートスピーカの制御インタフェース、等である。このように、本実施の形態に係るAIエージェント機能は、スマートスピーカ等の、発話者と対話を行うシステムに適用可能である。
【0097】
また、AIエージェントとの対話をライブ配信しない別の一例として、AIエージェントとの対話に関する映像または音声を記録、編集、等が可能なアプリケーションに、本開示の発明が採用されてもよい。この場合、発話者とAIエージェントとの対話が記録された映像または音声において、AIエージェントが応答する際の応答特徴が、当該アプリケーションによって編集されることで、発話者の感情情報に対応したものに変更されてもよい。
【0098】
なお、本開示の発明において統合部17が生成する出力情報として、少なくとも音声情報が含まれる例を記載したが、これに限られない。例えば、発話者である質問者のテキスト形式での質問に対して、テキスト形式で応答するチャットボットのような生成AIに本発明が採用されてもよい。この場合、出力情報がテキスト情報になるため、特徴決定部16が決定する応答特徴には、テキスト情報のフォント形式・サイズ、応答(テキスト返信)の速度、応答するテキスト表現の言い回し(例えば“です。ます。”といった丁寧な文章なのか、体言止めのように簡潔な表現なのか)、等のうち一部または複数が含まれていてもよい。またこの場合、推定部15が推定する感情情報は、上述したように音声または画像から推定されたものであってもよいし、それ以外の方法によって推定されたものでもよい。例えば、推定部15は、質問者が入力するテキスト情報から質問者の感情情報を推定してもよい。具体例として、入力されたテキストの内容・表現(例えば高圧的な表現の有無など)、テキスト情報が入力されるスピード、生成AIがテキストを出力してから質問者が次の質問を入力するまでの時間、入力されたテキストの内容・表現・言い回し等のブレ、誤字脱字の有無、などのうち一部または複数の情報に基づいて、テキスト情報から感情情報が推定されてもよい。
【0099】
実施の形態2.
図6は対話システムの要部の機能ブロック図である。図7は対話システムの動作の一例を示すフローチャートである。なお、実施の形態1の部分と同一または相当部分には同一符号が付される。当該部分の説明は省略される。
【0100】
実施の形態2において、AIエージェントは、視聴者から配信I/Fのコメント欄に投稿されたコメントの一部を読み上げる。
【0101】
特徴決定部16は、感情情報に基づいて、配信者の感情に対応する第1コメントを応答特徴として選定する。また、特徴決定部16は、応答特徴として、選定した第1コメントを、AIエージェントに読み上げられるコメントの候補に決定する。この際、特徴決定部16は、コメント欄に投稿された1以上のコメントの各々を分析し、感情情報と分析結果とに基づいて第1コメントを選定する。当該分析および選定の手法は、任意の手法が採用され得る。以下では、当該手法の例が説明されるが、当該手法はこれらの例に限定されない。
【0102】
コメント欄に投稿されたコメントの分析手法の第1例において、特徴決定部16は、コメントの文章に示される感情を推定する。この際、特徴決定部16は、推定部15が意味情報から感情を推定する処理と同じ処理を行うことで、コメントの文章に示される感情を推定してもよい。この場合、特徴決定部16は、感情情報に示される感情と同一または類似の感情を示すコメントを第1コメントに選定してもよいし、感情情報に示される感情とは逆の感情を示すコメントを第1コメントに選定してもよい。
【0103】
コメント欄に投稿されたコメントの分析手法の第2例において、特徴決定部16は、感情情報とコメントとの関連性スコアを算出する。感情情報に示される感情とコメントに示される話題、内容、等との関連が強いほど、関連性スコアは、大きい値となる。特徴決定部16は、コメント欄に投稿された複数のコメントのうち、最も関連性スコアが高いコメントを第1コメントに選定する。なお、特徴決定部16は、関連性スコアが高い複数のコメントを第1コメントに選定してもよい。なお、特徴決定部16は、コメント欄に投稿された複数のコメントのうち、関連性スコアが規定のスコア範囲に収まるコメントを第1コメントに選定してもよい。
【0104】
なお、特徴決定部16は、感情情報に基づいて、第1コメントを選定する頻度、即ち第1コメントを選定してから次の第1コメントを選定するまでの間隔を調節してもよい。具体的には、例えば、特徴決定部16は、感情情報に示される感情がネガティブな感情である場合、第1コメントを選定するまでの間隔を長くしてもよいし、短くしてもよい。
【0105】
統合部17は、対話テキストと特徴決定部16に決定された第1コメントとを統合した音声の出力情報を生成する。当該出力情報には、対話テキストと第1コメントとが区別されて含まれる。
【0106】
出力部13は、出力情報を配信I/Fへ出力する。この場合、AIエージェントは、対話テキストと第1コメントとを区別して読み上げる。具体的には、AIエージェントは、対話テキストと第1コメントとを同時に読み上げないようにする。なお、AIエージェントは、対話テキストを読み上げる音声と、第1コメントを読み上げる音声と、が異なる特徴量を持つようにこれらを読み上げてもよい。また、AIエージェントは、対話テキストを通常通りに読み上げ、第1コメントを読み上げる際には投稿されたコメントである旨の文章を追加してもよい。
【0107】
なお、出力部13は、第1コメントがAIエージェントに読まれるように出力情報を出力する前に、出力情報に含まれる第1コメントを配信I/Fの配信者画面のみに、操作可能な状態で表示させてもよい。配信者端末200aにおいて、第1コメントが操作された場合に、AIエージェントは、当該操作された第1コメントを読み上げてもよい。配信者画面において、コメントを読み上げない旨の操作が可能であってもよい。また、配信者画面に表示される第1コメントは、複数のコメントであってもよい。この場合、配信者端末200aにおいて操作された1以上の第1コメントが、AIエージェントによって読み上げられてもよい。更に、特徴決定部16は、第1コメントの選定と共に、当該第1コメントから予想される話の展開を推測してもよい。この場合、配信者画面には、第1コメントと共に推測された話の展開が併せて表示される。そのため、配信者は、今後の話の展開を予想した上で適切なコメントが読み上げられるように配信者端末200aを操作することができる。
【0108】
なお、統合部17は、対話テキストが応答生成部14によって生成されることを待つことなく、第1コメントが含まれて対話テキストが含まれない出力情報を生成してもよい。この場合、AIエージェントは、第1コメントのみを読み上げてもよい。
【0109】
図7に示されるフローチャートは、AIエージェント機能によって行われる配信者との対話の基本的な動作の一例である。例えば、図7に示されるフローチャートは、配信者が発話した際に開始する。
【0110】
ステップS11において、入力部12は、配信者の発話に対応する表現情報を取得する。
【0111】
その後、ステップS12において、応答生成部14は、表現情報に基づいて対話テキストを生成する。また、ステップS11の後、ステップS12と並行してステップS13の動作が行われる。ステップS13において、推定部15は、表現情報に基づいて、配信者の感情を推定し、感情情報を生成する。
【0112】
ステップS12およびステップS13の後、ステップS14において、特徴決定部16は、感情情報に基づいて、応答特徴として、第1コメントを決定する。
【0113】
その後、ステップS15において、統合部17は、対話テキストと第1コメントとを統合して、出力情報を生成する。
【0114】
その後、ステップS16において、出力部13は、出力情報に基づいて配信I/Fに音声を出力する。この際、AIエージェントは、対話テキストと第1コメントとを区別して読み上げる。その後、フローチャートの動作が終了する。
【0115】
なお、図7のフローチャートは、規定の周期で開始してもよい。この場合、ステップS11からS13の動作は行われなくてもよい。またこの場合、ステップS14において、特徴決定部16は、直前に生成された感情情報に基づいて、第1コメントを決定してもよい。
【0116】
以上で説明した実施の形態2によれば、発話者である配信者とAIエージェントとの対話は、配信インタフェースにおいて行われる。配信インタフェースには、視聴者がコメントを投稿可能なコメント欄が設けられる。ライブ配信では、このようなコメントと配信者との掛け合いが頻繁に行われる。従来技術において、AIエージェントとの対話と並行して、このようなコメントが投稿された順番に読み上げられることがあった。しかしながら、発話者の感情が高ぶっているときであっても、コメントは順番に読み上げられるのみであったため、AIエージェントが読み上げるコメントと、発話者のテンションおよび雰囲気との間にギャップが生じてしまっていた。実施の形態2において、対話システム400の特徴決定部16は、AIエージェントの応答特徴として、コメント欄に投稿されたコメントの中から発話者の感情に対応する第1コメントを選定して、読み上げられるコメントに決定する。このため、発話者は、AIエージェントとの対話の一部である読み上げコメントについて、違和感を覚えることなく配信を進めることができる。
【0117】
また、対話システム400は、応答生成部14を更に備える。AIエージェントを制御する機能において、表現情報に基づいて対話テキストが生成される処理と、感情情報に基づいて第1コメントが選定される処理と、が並行して行われる。AIエージェントは、対話テキストと第1コメントとを区別して読み上げる。このため、発話者および視聴者は、AIエージェントによる対話テキストと第1コメントとを区別して認識することができる。その結果、発話者はライブ配信を円滑に行うことができ、視聴者はライブ配信を誤解なく視聴することができる。
【0118】
なお、特徴決定部16は、実施の形態1と同様に、感情情報等から応答特徴量を更に生成してもよい。この場合、統合部17は、対話コメントおよび第1コメントの少なくとも一方を応答特徴量に基づく音声で読み上げるような出力情報を生成する。
【0119】
なお、第1コメントを選定する際に、特徴決定部16は、対話テキストを補助入力として用いてもよい。即ち、特徴決定部16は、感情情報と対話テキストとに基づいて、第1コメントを選定してもよい。また、第1コメントを選定する際に、特徴決定部16は、表現情報から意味情報を抽出してもよい。特徴決定部16は、意味情報を補助入力として用いてもよい。即ち、特徴決定部16は、感情情報と意味情報とに基づいて、第1コメントを選定してもよい。
【0120】
なお、特徴決定部16がコメント欄のコメントを選定する際の選定条件が予め設定されていてもよい。例えば、選定されやすいコメントの条件が設定されていてもよい。具体的には、アグレッシブなコメントが選定されやすい、落ち着いたコメントが選定されやすい、等の条件が設定されていてもよい。また、NGワードが設定され、NGワードを含むコメントが選定されないような条件が設定されていてもよい。
【0121】
なお、選定された第1コメントが書き言葉、文語調、等である場合、出力部13は、当該第1コメントを話し言葉、口語調、等に修正したものを出力情報としてもよい。この場合、AIエージェントは、話し言葉、口語調、等に修正された第1コメントを読み上げる。
【0122】
実施の形態3.
図8は対話システムの要部の機能ブロック図である。図9は対話システムの動作の一例を示すフローチャートである。なお、実施の形態1または2の部分と同一もしくは相当部分には同一符号が付される。当該部分の説明は省略される。
【0123】
実施の形態3において、AIエージェントは、視聴者からの配信I/Fのコメント欄に投稿されたコメントの一部を読み上げる。この際、AIエージェントは、配信者の感情に基づいてコメントを生成する。その後、AIエージェントは、生成したコメントを視聴者からのコメントであるかのようにコメント欄へ投稿し、かつ音声で読み上げる。なお、AIエージェントは、AIエージェントが生成したコメントであることが分かるようにコメント欄へ投稿し、かつ音声で読み上げてもよい。
【0124】
具体的には、特徴決定部16は、感情情報に基づいて、配信者の感情に対応する第2コメントを応答特徴として生成する。特徴決定部16は、応答特徴として、生成した第2コメントを、AIエージェントに読み上げられるコメントの候補に決定する。特徴決定部16は、感情情報に示される感情と同一または類似の感情を示す第2コメントを生成してもよいし、感情情報に示される感情とは逆の感情を示す第2コメントを生成してもよい。特徴決定部16が第2コメントを生成する手法は、任意の手法が採用され得る。
【0125】
一例として、特徴決定部16は、現在のライブ配信において配信I/Fに投稿されたコメントを教師データとする機械学習によって、コメントの生成モデルを生成してもよい。特徴決定部16は、当該生成モデルに感情情報を少なくとも含む情報を入力することで、第2コメントを生成または更新してもよい。
【0126】
更に、記憶部10には、同一の配信者が行った過去のライブ配信においてコメント欄に投稿された過去コメントの情報が記憶されてもよい。また、記憶部10には、別の配信者が行った過去のライブ配信においてコメント欄に投稿された他配信コメントが記憶されてもよい。特徴決定部16は、現在のライブ配信において投稿されたコメントに加えて、過去コメントおよび他配信コメントのうち少なくとも一方を教師データとする機械学習によって、コメントの生成モデルを生成または更新してもよい。
【0127】
なお、特徴決定部16は、直近に投稿されたコメントの数、直近に生成された感情情報、等に基づいて、第2コメントを生成するための生成指標値を算出して、過去に算出した生成指標値の総和を演算してもよい。生成指標値の総和が規定の生成閾値を超えたとき、特徴決定部16は、第2コメントを生成してもよい。
【0128】
なお、特徴決定部16は、感情情報に基づいて、第2コメントを生成する頻度、即ち第2コメントを生成してから次の第2コメントを生成するまでの間隔を調節してもよい。具体的には、例えば、特徴決定部16は、感情情報に示される感情がネガティブな感情である場合、第2コメントを生成するまでの間隔を長くしてもよいし、短くしてもよい。
【0129】
統合部17は、対話テキストと特徴決定部16に決定された第2コメントとを統合した音声の出力情報を生成する。当該出力情報には、対話テキストと第2コメントとが区別されて含まれる。
【0130】
出力部13は、出力情報を配信I/Fへ出力する。この場合、第2コメントが配信I/Fのコメント欄に投稿される。また、AIエージェントは、対話テキストと第2コメントとを区別して読み上げる。具体的には、AIエージェントは、対話テキストと第2コメントとを同時に読み上げないようにする。なお、AIエージェントは、対話テキストを読み上げる音声と、第2コメントを読み上げる音声と、が異なる特徴量を持つようにこれらを読み上げてもよい。また、AIエージェントは、対話テキストを通常通りに読み上げ、第2コメントを読み上げる際には投稿されたコメントである旨の文章を追加してもよい。
【0131】
なお、出力部13は、第2コメントがAIエージェントに読まれるように出力情報を出力する前に、出力情報に含まれる第2コメントを配信I/Fの配信者画面のみに、操作可能な状態で表示させてもよい。配信者端末200aにおいて、第2コメントが操作された場合に、AIエージェントは、当該操作された第2コメントを読み上げてもよい。この際、第2コメントが配信I/Fのコメント欄に投稿される。
【0132】
また、特徴決定部16によって生成される第2コメントは、複数であってもよい。この場合、配信者画面に表示される第2コメントは、複数のコメントであってもよい。その後、配信者端末200aにおいて操作された1以上の第2コメントが、コメント欄に投稿され、かつAIエージェントによって読み上げられてもよい。
【0133】
また、第2コメントを生成する際に、特徴決定部16は、対話テキストを補助入力として用いてもよい。即ち、特徴決定部16は、感情情報と対話テキストとに基づいて、第2コメントを生成してもよい。
【0134】
また、第2コメントを生成する際に、特徴決定部16は、表現情報から意味情報を抽出してもよい。特徴決定部16は、意味情報を補助入力として用いてもよい。即ち、特徴決定部16は、感情情報と意味情報とに基づいて、第2コメントを生成してもよい。この場合であって、意味情報に配信者からの質問が含まれる場合、特徴決定部16は、当該質問への答えを含む第2コメントを生成してもよい。例えば、ライブ配信中、配信者は、自分がわからないことの質問を発話する。この場合、特徴決定部16は、当該質問の答えとなる情報をインターネット等で検索または生成し、当該答えを含む第2コメントを生成する。この際、当該答えを含む第2コメントが規定の文字数より多くなる場合、特徴決定部16は、当該答えの内容を要約した第2コメントを新たに生成し、コメント欄に投稿するコメントの候補としてもよい。
【0135】
更に、特徴決定部16は、第2コメントと共に、当該第2コメントから予想される話の展開を推測してもよい。この場合、配信者画面には、第2コメントと共に推測された話の展開が併せて表示される。そのため、配信者は、今後の話の展開を予想した上で適切なコメントが読み上げられるように配信者端末200aを操作することができる。
【0136】
なお、統合部17は、対話テキストが応答生成部14によって生成されることを待つことなく、第2コメントが含まれて対話テキストが含まれない出力情報を生成してもよい。この場合、第2コメントがコメント欄に投稿され、かつ、AIエージェントは、第2コメントのみを読み上げてもよい。
【0137】
図9に示されるフローチャートは、AIエージェント機能によって行われる配信者との対話の基本的な動作の一例である。例えば、図9に示されるフローチャートは、配信者が発話した際に開始する。
【0138】
ステップS21において、入力部12は、配信者の発話に対応する表現情報を取得する。
【0139】
その後、ステップS22において、応答生成部14は、表現情報に基づいて対話テキストを生成する。また、ステップS21の後、ステップS22と並行してステップS23の動作が行われる。ステップS23において、推定部15は、表現情報に基づいて、配信者の感情を推定し、感情情報を生成する。
【0140】
ステップS22およびステップS23の後、ステップS24において、特徴決定部16は、感情情報に基づいて、応答特徴として、第2コメントを決定する。
【0141】
その後、ステップS25において、統合部17は、対話テキストと第2コメントとを統合して、出力情報を生成する。
【0142】
その後、ステップS26において、出力部13は、出力情報に基づいて配信I/Fに音声を出力する。この際、AIエージェントは、対話テキストと第2コメントとを区別して読み上げる。また、コメント欄には第2コメントが投稿される。その後、フローチャートの動作が終了する。
【0143】
なお、図9のフローチャートは、規定の周期で開始してもよい。この場合、ステップS21からS23の動作は行われなくてもよい。またこの場合、ステップS24において、特徴決定部16は、直前に生成された感情情報に基づいて、第2コメントを決定してもよい。
【0144】
以上で説明した実施の形態3によれば、発話者である配信者とAIエージェントとの対話は、配信インタフェースにおいて行われる。配信インタフェースには、視聴者がコメントを投稿可能なコメント欄が設けられる。ライブ配信では、このようなコメントと配信者との掛け合いが頻繁に行われる。従来技術において、AIエージェントとの対話と並行して、このようなコメントが投稿された順番に読み上げられることがあった。しかしながら、発話者の感情が高ぶっているときでも、コメント欄に投稿されたコメントが順番に読み上げられるのみであった。この際、コメント欄に発話者の感情とは無関係なコメントしかない場合、AIエージェントの読み上げるコメントと、発話者のテンションおよび雰囲気との間にギャップが生じてしまっていた。実施の形態3において、対話システム400の特徴決定部16は、AIエージェントの応答特徴として、発話者の感情に対応する第2コメントを生成して、読み上げられるコメントに決定する。このため、発話者は、AIエージェントとの対話の一部である読み上げコメントについて、違和感を覚えることなく配信を進めることができる。
【0145】
また、対話システム400は、応答生成部14を更に備える。AIエージェントを制御する機能において、表現情報に基づいて対話テキストが生成される処理と、感情情報に基づいて第2コメントが生成される処理と、が並行して行われる。AIエージェントは、対話テキストと第2コメントとを区別して読み上げる。このため、発話者および視聴者は、AIエージェントによる対話テキストと第2コメントとを区別して認識することができる。その結果、発話者はライブ配信を円滑に行うことができ、視聴者はライブ配信を誤解なく視聴することができる。
【0146】
なお、特徴決定部16は、感情情報に基づいて、他配信コメントと同じ内容の第2コメントを生成してもよい。
【0147】
なお、特徴決定部16は、実施の形態1と同様に、感情情報等から応答特徴量を更に生成してもよい。この場合、統合部17は、対話コメントおよび第2コメントの少なくとも一方を応答特徴量に基づく音声で読み上げるような出力情報を生成する。
【0148】
なお、特徴決定部16は、実施の形態2と同様に、感情情報等に基づいて、コメント欄から第1コメントを選定してもよい。この場合、統合部17は、第1コメントおよび第2コメントを読み上げるような出力情報を生成してもよい。
【0149】
なお、実施の形態2または3において、出力部13によって、配信者画面にAIがコメントを読み上げるタイミングを制御するボタンが表示されてもよい。配信者は、当該ボタンを操作することで、AIが第1コメントまたは第2コメントを読み上げるタイミングを調整することができる。このため、配信者が話出そうとしたタイミングでAIがコメントを読み上げることが抑制される。また、当該ボタンには、コメントを読み上げないことを示すボタンが含まれていてもよい。このため、望まれていないシチュエーションでAIがコメントを読み上げることが回避され得る。その結果、配信者は、ライブ配信の進行をより正確にコントロールすることができる。
【0150】
なお、実施の形態1から3において、サーバ100は、役割設定部を更に備えてもよい。例えば、役割設定部は、サーバ制御手段110によって実現される。役割設定部は、AIエージェント機能に含まれる。役割設定部は、AIエージェントが配信者と対話をする際のAIエージェントの役割を設定する。例えば、AIエージェントの役割は、主に話を聞く相手の役割、主に話題を新しく提示したり配信者に質問したりする主体の役割、話に茶々を入れて盛り上げる役割、等である。応答生成部14は、表現情報に基づいて、役割設定部によって設定された役割に沿った対話テキストを生成する。特徴決定部16は、感情情報に基づいて、役割設定部によって設定された役割に沿った応答特徴を決定する。
【0151】
具体的には、実施の形態1において、特徴決定部16は、役割に応じた基本設定値および設定範囲に沿った応答特徴量を決定してもよい。実施の形態2において、特徴決定部16は、役割に沿った基準で第1コメントを選定してもよい。実施の形態3において、特徴決定部16は、役割に沿った基準で第2コメントを生成してもよい。このように設定された役割に沿った対話がなされるため、配信者とAIエージェントとの対話がより一貫性のある内容になる。また、配信者は、AIエージェントとの対話をよりコントロールし易くすることができる。
【0152】
また、役割設定部は、感情情報に基づいて、役割を変化させてもよい。例えば、配信者が落ち込んでいる感情であると推定されたとき、AIエージェントの役割が配信者の話を聞く相手の役割に変化される。このため、配信者の感情に適した対話が行われ得る。
【0153】
なお、実施の形態1から3において、ライブ配信が終了するとき、出力部13は、配信者画面および視聴者画面のうち少なくとも一方にフィードバック欄を表示させてもよい。配信者または視聴者は、配信者端末200aまたは視聴者端末200bを介して、今回のライブ配信で決定された応答特徴の評価を当該フィードバック欄に入力可能である。特徴決定部16は、応答特徴を決定する際の処理に当該評価を反映してもよい。
【0154】
本開示に係る発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。したがって、これらの変形や修正は本開示に係る発明の範囲に含まれることに留意されたい。例えば、各部、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、あるいは分割したりすることが可能である。また、以上で説明した実施形態に示す構成を適宜組み合わせることとしてもよい。
【0155】
本開示に係る対話システム、プログラムおよび対話方法は、AIエージェントと配信者とが対話を行うライブ動画配信サービスを提供するシステムで活用することができる。
【0156】
以上の説明をまとめると、本開示に係る技術の取りうる構成は、以下に付記として示す各構成などを含む。
(付記1)
発話者と対話を行うAIエージェントを制御するシステムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定する推定部と、
前記推定部によって推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定する特徴決定部と、
を備えた対話システム。
(付記2)
前記表現情報は、前記発話者が発した音声の情報であり、
前記推定部は、前記発話者が発した音声に基づいて前記発話者の感情を推定する付記1に記載の対話システム。
(付記3)
前記表現情報は、前記発話者がうつった画像または映像の情報であり、
前記推定部は、前記画像または前記映像にうつった前記発話者の像に基づいて前記発話者の感情を推定する付記1に記載の対話システム。
(付記4)
前記特徴決定部が決定する応答特徴は、前記AIエージェントが発する音声に関する応答特徴であり、前記AIエージェントが発する音声の音量、声質、および声色のうち少なくとも1つの応答特徴量の設定を含み、
前記特徴決定部は、前記応答特徴として、前記推定部によって推定された前記発話者の感情に対応した前記応答特徴量を決定する付記1から付記3のいずれか一項に記載の対話システム。
(付記5)
前記特徴決定部は、前記推定部によって推定された前記発話者の感情とは逆の感情を示すような前記応答特徴量を生成する付記4に記載の対話システム。
(付記6)
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記応答特徴量の設定に基づく音声で前記対話テキストを読み上げる付記4または付記5に記載の対話システム。
(付記7)
前記特徴決定部は、前記推定部よって推定された前記発話者の感情と前記対話テキストとに基づいて、前記応答特徴量を決定する付記6に記載の対話システム。
(付記8)
前記応答生成部は、前記表現情報に示される意味と前記推定部によって推定された前記発話者の感情とに基づいて、前記対話テキストを生成する付記6または付記7に記載の対話システム。
(付記9)
前記AIエージェントが前記発話者と対話をする際の前記AIエージェントの役割を設定する役割設定部、
を更に備え、
前記特徴決定部は、前記役割設定部によって設定された役割に沿った前記応答特徴を決定する付記1から付記8のいずれか一項に記載の対話システム。
(付記10)
前記役割設定部は、前記推定部に推定された前記発話者の感情に対応して前記AIエージェントの役割を変化させる付記9に記載の対話システム。
(付記11)
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて前記発話者と前記AIエージェントとの対話が行われ、
前記特徴決定部は、前記応答特徴として、前記コメント欄に投稿されたコメントの中から前記推定部によって推定された感情に対応する第1コメントを選定し、前記第1コメントを前記AIエージェントに読み上げられるコメントに決定する付記1から付記10のいずれか一項に記載の対話システム。
(付記12)
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記対話テキストと前記第1コメントとを区別して読み上げる付記11に記載の対話システム。
(付記13)
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて前記発話者と前記AIエージェントとの対話が行われ、
前記特徴決定部は、前記応答特徴として、前記推定部によって推定された前記発話者の感情に対応する第2コメントを生成し、前記コメント欄に投稿されて前記AIエージェントに読み上げられるコメントに決定する付記1から付記12のいずれか一項に記載の対話システム。
(付記14)
前記AIエージェントが発する音声のテキストであって、前記表現情報に示される意味に対する応答となる対話テキストを生成する応答生成部、
を更に備え、
前記AIエージェントは、前記対話テキストと前記第2コメントとを区別して読み上げる付記13に記載の対話システム。
(付記15)
コンピュータに実行され、発話者と対話を行うAIエージェントを制御するためのプログラムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定することと、
推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定することと、
が前記コンピュータに実行されるプログラム。
(付記16)
発話者と対話を行うAIエージェントを制御するためにコンピュータによって行われる方法であって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定することと、
推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴を決定することと、
を含む対話方法。
(付記17)
発話者と対話を行うAIエージェントを制御するシステムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定する推定部と、
前記推定部によって推定された前記発話者の感情に基づいて、前記AIエージェントが応答する際の応答特徴量を決定する特徴決定部と、
を備え、
前記特徴決定部が決定する応答特徴は、前記AIエージェントが発する音声に関する応答特徴であり、前記AIエージェントが発する音声の音量、声質、および声色のうち少なくとも1つの応答特徴量の設定を含む対話システム。
(付記18)
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて発話者と対話を行うAIエージェントを制御するシステムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定する推定部と、
前記推定部によって推定された感情に対応するコメントであって前記AIエージェントに読み上げられる第1コメントを前記コメント欄に投稿されたコメントの中から選定する特徴決定部と、
を備えた対話システム。
(付記19)
視聴者が視聴可能かつ前記視聴者からのコメントが投稿されるコメント欄が設けられた配信インタフェースにおいて発話者と対話を行うAIエージェントを制御するシステムであって、
前記発話者の表現に関する表現情報に基づいて前記発話者の感情を推定する推定部と、
前記推定部によって推定された前記発話者の感情に対応するコメントであって、前記コメント欄に投稿されて前記AIエージェントに読み上げられる第2コメントを生成する特徴決定部と、
を備えた対話システム。
【符号の説明】
【0157】
10 記憶部、 11 配信インタフェース部、 12 入力部、 13 出力部、 14 応答生成部、 15 推定部、 16 特徴決定部、 17 統合部、 18 付加部、 100 サーバ、 110 サーバ制御手段、 120 サーバ記憶手段、 130 サーバ通信手段、 200 ユーザ端末、 200a 配信者端末、 200b 視聴者端末、 210 端末制御手段、 220 端末記憶手段、 230 端末通信手段、 240 入出力手段、 250 表示手段、 260 マイク、 270 スピーカ、 280 カメラ、 300 ネットワーク、 400 対話システム
図1
図2
図3
図4
図5
図6
図7
図8
図9