IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Holocyの特許一覧

<>
  • 特開-対話システムおよびプログラム 図1
  • 特開-対話システムおよびプログラム 図2
  • 特開-対話システムおよびプログラム 図3
  • 特開-対話システムおよびプログラム 図4
  • 特開-対話システムおよびプログラム 図5
  • 特開-対話システムおよびプログラム 図6
  • 特開-対話システムおよびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176062
(43)【公開日】2024-12-19
(54)【発明の名称】対話システムおよびプログラム
(51)【国際特許分類】
   G06T 13/40 20110101AFI20241212BHJP
   G06F 3/16 20060101ALI20241212BHJP
   G06F 3/0484 20220101ALI20241212BHJP
   G10L 13/033 20130101ALI20241212BHJP
【FI】
G06T13/40
G06F3/16 690
G06F3/16 650
G06F3/16 620
G06F3/0484
G10L13/033 102A
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023094276
(22)【出願日】2023-06-07
(71)【出願人】
【識別番号】523217569
【氏名又は名称】株式会社Holocy
(74)【代理人】
【識別番号】100185317
【弁理士】
【氏名又は名称】石井 琢哉
(72)【発明者】
【氏名】畑佐 雄大
(72)【発明者】
【氏名】播磨 祐介
(72)【発明者】
【氏名】マービン バース
(72)【発明者】
【氏名】仲平 光佑
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050BA08
5B050BA12
5B050CA07
5B050EA24
5B050FA02
5B050FA10
5B050FA14
5E555AA25
5E555AA46
5E555AA48
5E555BA02
5E555BA04
5E555BB04
5E555BC04
5E555CA12
5E555CA18
5E555CA42
5E555CA47
5E555CB34
5E555CB64
5E555DA23
5E555DB18
5E555DB32
5E555DB41
5E555DB53
5E555DB57
5E555DC13
5E555DC85
5E555EA02
5E555EA27
5E555FA00
(57)【要約】
【課題】ユーザにとって親近感や没入感を得られる対話システムを提供する。
【解決手段】ユーザが入力した対話用のテキスト又は音声データを言語解析サイトに送信し、言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、アバターの動き、表情、又はエフェクトを演出しつつ、応答コメントをテキスト又は音声でアバターが表現するアバターとの対話システム。
【選択図】図1
【特許請求の範囲】
【請求項1】
1または複数のプロセッサを備え、
前記1または複数のプロセッサは、
ユーザが入力した対話情報を言語解析サイトに送信し、
前記言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、
前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、前記応答コメントをテキスト又は音声で表現させる、
前記アバターとの対話システム。
【請求項2】
前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか1つを含む、
請求項1に記載の対話システム。
【請求項3】
前記1または複数のプロセッサは、
前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントし、
前記対話回数に基づいて、前記アバターの動き、表情、又はエフェクトに関するデータを変化させる、
請求項1に記載の対話システム。
【請求項4】
コンピュータに、
ユーザが入力した対話情報から算出された応答コメント及び感情カテゴリに関する情報を取得する機能と、
前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、応答コメントをテキスト又は音声で表現させる機能と、
を実現させるプログラム。
【請求項5】
前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか1つを含む、
請求項4に記載のプログラム。
【請求項6】
前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントする機能と
前記対話回数に基づいて、前記アバターのモーション、表情、又はエフェクトに関するデータを変化させる機能と、
を実現させる請求項4に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話システムおよびプログラムに関する。
【背景技術】
【0002】
従来の技術として、アバターがユーザの対話相手として表示され、ユーザがアバターと対話することができる対話システムが知られている。
【0003】
特許文献1には、2以上のアバターから1つを選択し、ユーザにより選択されたアバターの情報を端末装置に送信することにより、ユーザがアバターと対話することができるアバター提供装置の発明が記載されている。本アバター提供装置は、機械学習により学習された対話モデルを備え、ユーザとの対話を通じて、購入や店舗の予約などの処理を実行することができる。
【0004】
特許文献2には、ネットワークを介してマッチングサイトにログインできるユーザ端末の画面から、ユーザは選択したエージェントであるアバターと対話し、マッチングのサポートをしてくれる電子御用聞きシステムの発明が記載されている。
【0005】
特許文献1及び特許文献2の対話システムはどちらも、アバターがユーザに対し応答することでユーザとアバターとの対話が成立しているものの、アバターの感情表現の表示を考慮していないために、ユーザはアバターに対する親近感や没入感を得ることができなかった。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2023-1577号公報
【特許文献2】特開2018-116427号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、このような状況に鑑みてなされたものであり、ユーザにとって親近感や没入感を得られる対話システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
請求項1に記載された発明は、1または複数のプロセッサを備え、前記1または複数のプロセッサは、ユーザが入力した対話情報を言語解析サイトに送信し、前記言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、前記応答コメントをテキスト又は音声で表現させる、前記アバターとの対話システムである。
請求項2に記載された発明は、前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか1つを含む、請求項1に記載の対話システムである。
請求項3に記載された発明は、前記1または複数のプロセッサは、前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントし、前記対話回数に基づいて、前記アバターの動き、表情、又はエフェクトに関するデータを変化させる、請求項1に記載の対話システムである。
請求項4に記載された発明は、コンピュータに、ユーザが入力した対話情報から算出された応答コメント及び感情カテゴリに関する情報を取得する機能と、前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、応答コメントをテキスト又は音声で表現させる機能とを実現させるプログラムである。
請求項5に記載された発明は、前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか1つを含む、請求項4に記載のプログラムである。
請求項6に記載された発明は、前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントする機能と前記対話回数に基づいて、前記アバターのモーション、表情、又はエフェクトに関するデータを変化させる機能と、を実現させる請求項4に記載のプログラムである。
【発明の効果】
【0009】
本発明によれば、アバターに感情表現をもたせることにより、ユーザにとって親近感や没入感を得られる対話システムを提供する。
【図面の簡単な説明】
【0010】
図1】本実施の形態が適用される対話システムの全体構成を示す図である。
図2】対話システムの端末装置の機能構成を示す図である。
図3】(A)は、対話システムの画面を示す図であり、(B)は、喜びの感情を表現するアバターを示す図であり、(C)は、怒りの感情を表現するアバターを示す図である。
図4】ユーザとアバターとの対話の履歴を示す図である。
図5】感情カテゴリと動作、エフェクト、表情のデータとを関連付けたデータテーブルを示す図である。
図6】対話の回数を記録したデータを示す図である。
図7】対話システムを構成する端末装置の処理フローを示す図である。
【発明を実施するための形態】
【0011】
本発明に係る対話システムについて、図面を参照しつつ説明する。なお、本発明は下記の実施形態に限定されるものではない。
【0012】
(第一の実施形態)
図1は、本実施の形態が適用される対話システムの全体構成を示す図である。
本実施の形態における対話システム1は、ユーザがアバターと対話するために使われる端末装置10と対話アプリケーションのプログラムを管理するサーバ30と、言語処理サーバ40がネットワーク50を介して繋がったシステムである。ネットワーク50は、例えば、インターネットなどのネットワークであり、ユーザは、端末装置10からインターネットを介して、各種サービス提供サイトや言語処理サーバ40にアクセスすることができる。本実施の形態にて例示している対話システム1は、例えば、ユーザがアバターと対話する際に、ユーザの入力した対話情報を言語処理サーバ40に送信し、言語処理サーバで言語解析が行われた結果を端末装置10が受信することで、対話サービスを提供することができるシステムである。サーバ30は、対話サービスを実行するアプリケーションのプログラムを記憶し、ネットワーク50を介して端末装置10へプログラムを送信する。つまり、ユーザは対話サービスを実行するアプリケーションプログラムを端末装置10にダウンロードすることにより、初めて本実施形態の対話サービスの提供を受けることができる。
【0013】
アバターとは、コンピュータで表示される仮想空間上の人の分身を表す仮想キャラクタである。ただし、外観としては人の分身に限らず、ユーザと対話することができるキャラクタであれば、動物の要素が混じったキャラクタ、動物のキャラクタ、さらにはロボットのキャラクタなどの生物でない無機物キャラクタも本明細書においてはアバターに含まれる。ユーザは、端末装置10に対話情報を入力し、アバターからの応答内容を音声で聞き、表示されたアバターの感情表現を見ながら対話することができる。対話の目的は、お奨めの商品や旅行先などの情報紹介を受ける、知らない情報について教えてもらうなどの目的の他、特定の目的がなくアバターを単なる対話相手として会話を楽しむというものであってもよい。
本実施形態において、対話情報とは、対話に関する言語的情報であり、文章、単語、記号などのテキストでも音声であってもよい。
【0014】
端末装置10は、例えばスマートフォンやタブレットなどであるコンピュータ端末装置で構成される。端末装置10は、装置全体を制御するプロセッサ(CPU(Central Processing Unit))である制御部11と、演算に際して作業エリアとして用いられるRAM(Random Access Memory)などのメモリ12と、プログラムや各種設定データなどの記憶に用いられるHDD(Hard Disk Drive)や半導体メモリ等の記憶装置である記憶部13と、を有している。
また、端末装置10は、ネットワーク50を介して音声やテキストデータの送受信等を行う通信部14を有している。更に、端末装置10側のユーザからの入力操作を受け付けるタッチパネル、キーボード、ポインティングデバイスなどの操作部15と、ユーザに対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部16と、表示部16を制御する表示制御部17とを有している。さらに、端末装置10は、ユーザなどを撮影する撮像部18と、音声の入力や出力を行う音声入出力部19を有している。
【0015】
サーバ30は、例えばワークステーション、デスクトップPC、ノートPCなどであるコンピュータ装置で構成される。サーバ30は、装置全体を制御するプロセッサ(CPU(Central Processing Unit))である制御部31と、演算に際して作業エリアとして用いられるRAM(Random Access Memory)などのメモリ32と、プログラムや各種設定データなどの記憶に用いられるHDD(Hard Disk Drive)や半導体メモリ等の記憶装置である記憶部33と、を有している。また、ネットワーク50を介してデータの送受信を行う通信部34を有している。更に、サーバ30側のユーザからの入力操作を受け付けるキーボード、ポインティングデバイス、タッチパネルなどの操作部35と、サーバ利用者に対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部36と、表示部36を制御する表示制御部37とを有している。
記憶部33には、対話システムのアプリケーションプログラムが格納されており、ユーザからの求めに応じて、ネットワーク50を介して、対話システムのアプリケーションプログラムが端末装置10にダウンロードされる。ここで、対話システムのアプリケーションプログラムは、必ずしもサーバ30の記憶部33に格納されたものをダウンロードする必要はなく、例えば、サーバ30の記憶部33に格納された対話アプリケーションのプログラムを予め、各種アプリケーションをダウンロードすることが可能なサイトにアップロードしておき、ユーザの求めに応じて、アプリケーションのダウンロードサービスを利用して端末装置10にダウンロードすることもできる。
【0016】
言語処理サーバ40は、大規模言語モデル(Large Language Model)を備えている。大規模言語モデルは、入力される会話文のテキストに対して、応答する会話内容(応答コメント)のテキストを生成し、入力テキストに対し感情分析を行うことにより感情カテゴリを生成することができる。大規模言語モデルは、公知の技術を使うことができる。例えば、OpenAI社のChatGPT(Chat Generative Pretrained Transformer)を利用することもできる。
言語処理サーバ40は、入力されたテキストに対して感情分析を行った結果、例えば、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスなどの感情カテゴリのうちのいずれか1つの感情カテゴリを生成する。
【0017】
本実施形態において、対話情報は、言語処理サーバ40に送信され、言語解析が行われるが、通常、言語解析はテキストベースの情報に基づいて行われるため、ユーザの入力した音声データは、言語解析前にテキスト化される。本実施形態において、入力された音声は、端末装置10の機能制御部26(図2参照)においてテキストに変換される。音声からテキストへの変換機能は、公知の変換モデルを使うことができる。例えば、ネットワーク50を介して音声の文字起こしサービスを提供するサイトに、音声データを送信し、テキストデータを受信することができる。音声データのテキストへの変換は、多くの公知技術があり、特に言語処理サーバ40で実行しても、端末装置10で実行しても、ネットワーク50を介してクラウド上で提供している変換サービスを使用しても構わない。例えば、OpenAI社のWhisperを用いることができる。
このため、請求項に記載された「対話情報を言語解析サイトに送信し」とは、ユーザからの入力が音声の場合に、音声データをテキストに変換したデータとしての対話情報を言語処理サイトに送信する場合も、音声データを言語処理サーバに送信する場合も含む。もちろん、ユーザからの入力がテキストの場合は、そのまま言語処理サーバに送信される場合も「対話情報を言語解析サイトに送信し」に含まれる。
【0018】
この端末装置10やサーバ30、端末装置10やサーバ30に接続される各種装置などに用いられるCPUによって、本件における「1または複数のプロセッサ」を構成し、本実施の形態における各種機能を実現している。
また、図1に示す端末装置10やサーバ30の各種構成は、必ずしも筐体を同じくする必要はなく、システムとして把握される態様がある。本体装置と筐体が異なる場合には、有線または無線で接続される。
【0019】
図2は、端末装置10の機能構成を示す図である。端末装置10は、ユーザの入力を受け付ける受付部20と、入力された情報などを記憶する記憶部13と、音声やテキストなどのデータの送受信を行う通信部14と、対話のテキストやアバターなどを表示する表示部16と、ユーザの顔などを撮像する撮像部18と、描画や機能制御を行う機能制御部26と、記憶された情報をデータや音声にて出力する出力部21と、を有している。
【0020】
記憶部13は、動作データ記憶部22、エフェクトデータ記憶部23、表情データ記憶部24、およびプログラム記憶部25を含む。
動作データ記憶部22は、アバターの動作に関する情報を格納し、エフェクトデータ記憶部23は、アバターのエフェクトに関する情報を格納し、表情データ記憶部24は、アバターの顔の表情に関する情報を格納し、プログラム記憶部25は、対話システムのアプリケーションプログラムのデータを格納する。
アバターの「動作に関するデータ」とは、手の上げ下げのジェスチャー、手のひらの動き、お辞儀の動作など、上半身の動作に限らず、アバターの動き全般に関するデータのことである。アバターの「エフェクトに関するデータ」とは、アバターの周囲に表示する音符記号や怒りマークなどアバターの感情を演出する効果のあるマークなどのデータである。アバターの「表情に関するデータ」とは、アバターの顔の表情に関する情報であり、眉の上げ具合、口元の形、眼の開き方など感情を表現する顔の要素のデータである。
【0021】
プログラム記憶部25は、ネットワーク50を介してサーバ30又はアプリケーションダウンロードサイトから通信部14にて受信した対話システムのアプリケーションプログラムを記憶する。その他、ユーザに関する情報は、記憶部13に記憶されている。
【0022】
機能制御部26は、端末装置10の各種の機能を制御する。例えば、機能制御部26は、対話システムのアプリケーションを起動し、アバターを制御する。ここで、対話システムのアプリケーションとは、例えば、ユーザと対話できるソフトウェアであり、端末装置10にインストールされるソフトウェアである。
機能制御部26は、アバター制御部27と対話回数カウント部28とを含む。例えば、アバター制御部27は、アバターの動作に関する情報に基づいてアバターの動作を、アバターの表情のデータに基づいてアバターの顔の表情を制御し、アバターのエフェクトに関するデータに基づいて、アバターを演出する制御を行う。アバター制御部27は、上述のアバターの制御にあたり、言語処理サーバ40から受信した感情カテゴリに基づいてアバターの制御を行う。即ち、言語処理サーバ40から受信した感情カテゴリが悲しみの場合は、アバター制御部27は、悲しみの動作、悲しみの表情、悲しみの演出を行うようにアバターを制御する。
対話回数カウント部28は、ユーザとアバターとの対話の回数をカウントする。この場合、トータルの回数だけでなく、感情カテゴリごとに対話回数をカウントする。対話回数をカウントすることにより、対話回数が増えるにつれアバターの親密さの表現を増大させ、怒りの回数が予め定めた閾値以上になるとアバターが怒りの感情をより強く表現するなどの制御が可能になる。
【0023】
言語処理サーバ40から受信した応答メッセージのテキストデータは、機能制御部26が音声データに変換する。テキストから音声への変換は、公知の技術を用いることができる。必ずしも、端末装置10の機能制御部26が、テキストから音声への変換処理を行う必要はなく、例えば、GoogleのText to Speechなどのサービスを利用することもできる。
音声入出力部19は、応答テキストが音声に変換された音声データを出力する。出力部21は言語処理サーバ40から受信した応答テキストを表示部16に表示させる。
【0024】
図3(A)は、対話システムの画面を示す図であり、(B)は、喜びの感情を表現するアバターを示す図であり、(C)は、怒りの感情を表現するアバターを示す図である。
図3(A)に示すように、対話システムの端末装置の画面上にアバターが表示されると、ユーザは、アバターに対する対話内容を音声又はテキスト入力することができる。画面の下方の左側のアイコンをタッチすると文字入力画面が表示され、ユーザはテキストで会話内容を入力することができる。また、画面の下方の右側のアイコンをタッチすることにより音声のまま入力することができる。
入力された音声は、端末装置10の機能制御部26においてテキストに変換される。音声からテキストへの変換機能は、公知の変換モデルを使うことができる。例えば、ネットワーク50を介して音声の文字起こしサービスを提供するサイトに、音声データを送信し、テキストデータを受信することができる。例えば、OpenAI社のWhisperを用いることができる。
【0025】
ユーザにより入力されたテキスト又は音声から変換されたテキストは、ネットワーク50を介して言語処理サーバ40に送信される。端末装置10は、言語処理サーバ40から、応答用の会話テキスト及び感情カテゴリを受信する。端末装置10が言語処理サーバ40から受信したユーザへの応答用の会話テキストは、機能制御部26がテキストを音声に変換し、それを音声入出力部19が音声出力することにより、ユーザはアバターと会話をしているように感じることができる。
【0026】
さらに、端末装置10は、言語処理サーバ40から、上記の応答用の会話テキストだけでなく、感情カテゴリのデータも取得し、アバター制御部27は、感情カテゴリに基づいてアバターを制御する。例えば、端末装置10が喜びの感情カテゴリを取得した場合、アバター制御部27は、図3(B)に示すように、アバターに喜びのポーズである動作をさせ、アバターの表情を笑顔にし、喜びを表す音符記号をアバターの周囲に表示する。例えば、端末装置10が怒りの感情カテゴリを取得した場合、アバター制御部27は、図3(C)に示すように、アバターに怒りのポーズである動作をさせ、アバターの顔を怒っている表情にし、怒りを表すマークを頭の周囲に表示する。
【0027】
図4は、ユーザとアバターとの対話の履歴を示す図である。ユーザとアバターとの対話が音声によるものであっても、対話内容はテキストとして記憶部13に記憶され、履歴情報として閲覧することもできる。右側からの吹き出しがユーザからの発話の内容であり、右側に記載の内容は、アバターの発話である応答テキストが表示されている。例えば、おすすめのサイトを表示するURLの情報を伝える場合は、音声だけでは伝えにくい場合、履歴の情報からURLを取得して、リンク先にアクセスすることもできる。このように、対話履歴の表示画面は、音声で伝えにくいが、テキストであれば伝えやすい情報に関して、対話履歴を表示する画面から情報を取得することにより、容易に求める情報を取得できるという効果がある。
【0028】
図5は、感情カテゴリと動作、エフェクト、表情のデータとを関連付けたデータテーブルを示す図である。最左の第1列には、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスなどの感情カテゴリが格納されている。第2列には、第1列の感情カテゴリに対応するアバターの動作データに関する情報の所在(リンク先)が記載されている。第3列のエフェクトは、アバターを演出する効果に関する情報の所在が記載されている。第4列の表情に関するデータは、感情カテゴリに対応付けられた表情の情報の所在が格納されている。
上記のように、各感情カテゴリに対して、動作、エフェクト、表情のデータが対応付けられているが、各感情を表現するに際し、必ずしも動作、エフェクト、及び表情の3種類のデータ全てを利用する必要はない。つまり、アバター制御部27は、動作のデータのみ使ってアバターを表現する、エフェクトと表情を使ってアバターを表現するなど、適宜、組み合わせて利用することができる。
【0029】
アバター制御部27は、言語処理サーバ40から受信した感情カテゴリに基づいて、記憶部13に記憶されている図5に示すデータテーブルを参照して、応答すべき感情に対応する、動作、エフェクト、表情のデータの所在(リンク先)を取得して、動作データ記憶部22に格納された動作データ、エフェクトデータ記憶部23に格納されたエフェクトデータ、表情データ記憶部24に記憶された表情データを取得し、感情に対応するアバターの動作、エフェクト、表情を制御する。
動作データ記憶部22に格納された動作データとは、アバターの動作を表現することに関するデータであり、例えば、両手を挙げる喜びの動作、手を腰に当てる怒りのポーズ、など、それぞれの感情に応じたアバターの動作に関連する静止画又は動画データ、あるいは動作を表示するための動作パラメータのデータである。
エフェクトデータ記憶部23に格納されたエフェクトデータとは、アバターの感情を表現する演出効果に関するデータであり、例えば、怒りや悲しみを表現するマークの画像又は動画、あるいは感情マークの表示方法に関するデータなどである。
表情データ記憶部24に格納された表情データとは、アバターの表情を表現するデータであり、例えば、表情そのものの静止画又は動画データ、あるいは、眉、口、眼、頬の形や動きを表現するパラメータファイルのデータである。
図5のテーブルデータは、感情に対応する動作、エフェクト、表情のデータの所在が記載されていると説明したが、データの所在情報だけでなく、直接、動作、エフェクト、表情に関するパラメータが格納されていてもよい。応答する感情に関連付けられた動作、エフェクト、表情のデータを取得できるテーブルであればよい。
【0030】
図6は、対話の回数を記録したデータを示す図である。対話回数カウント部28は、ユーザとアバターとの対話の回数をカウントする。ユーザの発話とアバターの応答を1セットとしてカウントしてもよいし、それぞれの対話数をカウントしても構わない。さらに対話回数カウント部28は、感情カテゴリ別に対話回数をカウントし、対話数の記録として記憶部13に記憶する。対話数は、予め定めた閾値を超えた場合には、アバターは応答する会話内容について親しみをもった応答表現をする、又は、ユーザの発話中に親近のある動作を表現し、又は親近感の湧くようなエフェクトを演出する。また、感情カテゴリの回数が予め定めた閾値を超えた場合には、感情表現を強く直接的にするように制御する。例えば、アバター制御部27は、怒りの感情カテゴリの回数が閾値を超えた場合には、怒りの表情のパラメータを大きめに設定することで、より大きな怒りの感情を表現するように制御する。カウントした回数は、1回のセッションが終了したら対話自体の回数は継続して累積させ感情カテゴリの回数はゼロにリセットして次回の対話を開始してもよく、次回の対話セッションでは一旦ゼロにリセットした状態から対話数のカウントを開始しても構わない。
【0031】
〔対話システムの処理〕
図7は、対話システムを構成する端末装置10の処理フローを示す図である。対話サービスを実行するアプリケーションプログラムをユーザが予め端末装置10にダウンロードしてあることを前提に以下の対話が実行される。アプリケーションプログラムのダウンロード元は、サーバ30であっても、ネットワーク上のアプリケーションプログラムのダウンロードサイトであってもよい。図2に示す機能制御部26は、ユーザからの開始の指定を受けて対話システムの端末装置10にインストールされた対話アプリケーションの処理を開始する(START)。次に、機能制御部26は、登録画面を表示する(ステップ701)。次に、記憶部13は、受付部20が取得したユーザから入力されたユーザ情報を記憶する(ステップ702)。アバター制御部27は、端末装置10の表示部16にアバターを表示する(ステップ703)。そして、ユーザは、アバターに対する対話内容を音声又はテキストで入力する(ステップ704)。機能制御部26は、入力された音声データをテキストに変換する(ステップ705)。通信部14は、言語処理サーバ40に対しテキストデータを送信する(ステップ706)。次に、通信部14は、言語処理サーバ40から応答メッセージのテキストと感情カテゴリを受信する(ステップ707)。機能制御部26は、応答テキストを音声データに変換する(ステップ708)。アバター制御部27は、受信した感情カテゴリに基づいて、動作データ記憶部22、エフェクトデータ記憶部23、表情データ記憶部24、記憶部13にそれぞれ記憶された動作、エフェクト、表情のデータ、対話回数に基づいてアバターを表示部16に表示する(ステップ709)。アバター制御部27は、ステップ709でアバターを表示部16に表示し始めたら、表示とともに出力部21は応答メッセージの音声データを音声出力する(ステップ710)。対話回数カウント部28は、対話回数、感情カテゴリ別の対話回数をカウントする(ステップ711)。対話を継続する場合はステップ704に戻って対話を継続し(ステップ712)、対話を終了する場合、画面上の終了ボタンなどをタッチすることにより対話システムの端末装置10にインストールされた対話アプリケーションの処理は終了する(END)。
【0032】
本実施形態において、音声からテキストへの変換、テキストから音声の変換は、端末装置10の機能制御部26が実行すると説明しているが、特に端末装置内で処理することに限定される必要はなく、ネットワーク50を介してクラウド上の公知の変換サービスを利用することもできる。
【0033】
また、本実施形態においては、対話に用いられる言語の変換についても、適宜行われるものとする。ユーザの入力する言語と言語処理サーバ40で扱う言語が異なっていても、端末装置10、言語処理サーバ40側、その他のクラウド上の翻訳サイトなどのいずれかを利用するものであればよい。
【0034】
また、本実施形態においては、言語処理サーバ40とネットワーク50を介して送受信する実施形態を例に説明したが、サーバ30に応答テキストや感情カテゴリを返すことができる言語処理モデルを具備できるのであれば、言語処理サーバ40とサーバ30とは統合することもできる。
【符号の説明】
【0035】
1…対話システム、10…端末装置、11…制御部、12…メモリ、13…記憶部、14…通信部、15…操作部、16…表示部、17…表示制御部、18…撮像部、19…音声入出力部、20…受付部、21…出力部、22…動作データ記憶部、23…エフェクトデータ記憶部、24…表情データ記憶部、25…プログラム記憶部、26…機能制御部、27…アバター制御部、28…対話回数カウント部、30…サーバ、31…制御部、32…メモリ、33…記憶部、34…通信部、35…操作部、36…表示部、37…表示制御部、40…言語処理サーバ、50…ネットワーク
図1
図2
図3
図4
図5
図6
図7