特開2024-176062 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社Ｈｏｌｏｃｙの特許一覧

特開2024-176062対話システムおよびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024176062

(43)【公開日】2024-12-19

(54)【発明の名称】対話システムおよびプログラム

(51)【国際特許分類】

G06T 13/40 20110101AFI20241212BHJP

G06F 3/16 20060101ALI20241212BHJP

G06F 3/0484 20220101ALI20241212BHJP

G10L 13/033 20130101ALI20241212BHJP

【ＦＩ】

G06T13/40

G06F3/16 690

G06F3/16 650

G06F3/16 620

G06F3/0484

G10L13/033 102A

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023094276

(22)【出願日】2023-06-07

(71)【出願人】

【識別番号】523217569

【氏名又は名称】株式会社Ｈｏｌｏｃｙ

(74)【代理人】

【識別番号】100185317

【弁理士】

【氏名又は名称】石井琢哉

(72)【発明者】

【氏名】畑佐雄大

(72)【発明者】

【氏名】播磨祐介

(72)【発明者】

【氏名】マービンバース

(72)【発明者】

【氏名】仲平光佑

【テーマコード（参考）】

5B050

5E555

【Ｆターム（参考）】

5B050BA08

5B050BA12

5B050CA07

5B050EA24

5B050FA02

5B050FA10

5B050FA14

5E555AA25

5E555AA46

5E555AA48

5E555BA02

5E555BA04

5E555BB04

5E555BC04

5E555CA12

5E555CA18

5E555CA42

5E555CA47

5E555CB34

5E555CB64

5E555DA23

5E555DB18

5E555DB32

5E555DB41

5E555DB53

5E555DB57

5E555DC13

5E555DC85

5E555EA02

5E555EA27

5E555FA00

(57)【要約】

【課題】ユーザにとって親近感や没入感を得られる対話システムを提供する。
【解決手段】ユーザが入力した対話用のテキスト又は音声データを言語解析サイトに送信し、言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、アバターの動き、表情、又はエフェクトを演出しつつ、応答コメントをテキスト又は音声でアバターが表現するアバターとの対話システム。
【選択図】図１

【特許請求の範囲】

【請求項1】

１または複数のプロセッサを備え、
前記１または複数のプロセッサは、
ユーザが入力した対話情報を言語解析サイトに送信し、
前記言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、
前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、前記応答コメントをテキスト又は音声で表現させる、
前記アバターとの対話システム。

【請求項2】

前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか１つを含む、
請求項１に記載の対話システム。

【請求項3】

前記１または複数のプロセッサは、
前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントし、
前記対話回数に基づいて、前記アバターの動き、表情、又はエフェクトに関するデータを変化させる、
請求項１に記載の対話システム。

【請求項4】

コンピュータに、
ユーザが入力した対話情報から算出された応答コメント及び感情カテゴリに関する情報を取得する機能と、
前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、応答コメントをテキスト又は音声で表現させる機能と、
を実現させるプログラム。

【請求項5】

前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか１つを含む、
請求項４に記載のプログラム。

【請求項6】

前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントする機能と
前記対話回数に基づいて、前記アバターのモーション、表情、又はエフェクトに関するデータを変化させる機能と、
を実現させる請求項４に記載のプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、対話システムおよびプログラムに関する。

【背景技術】

【0002】

従来の技術として、アバターがユーザの対話相手として表示され、ユーザがアバターと対話することができる対話システムが知られている。

【0003】

特許文献１には、２以上のアバターから１つを選択し、ユーザにより選択されたアバターの情報を端末装置に送信することにより、ユーザがアバターと対話することができるアバター提供装置の発明が記載されている。本アバター提供装置は、機械学習により学習された対話モデルを備え、ユーザとの対話を通じて、購入や店舗の予約などの処理を実行することができる。

【0004】

特許文献２には、ネットワークを介してマッチングサイトにログインできるユーザ端末の画面から、ユーザは選択したエージェントであるアバターと対話し、マッチングのサポートをしてくれる電子御用聞きシステムの発明が記載されている。

【0005】

特許文献１及び特許文献２の対話システムはどちらも、アバターがユーザに対し応答することでユーザとアバターとの対話が成立しているものの、アバターの感情表現の表示を考慮していないために、ユーザはアバターに対する親近感や没入感を得ることができなかった。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２３－１５７７号公報

【特許文献2】特開２０１８－１１６４２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、このような状況に鑑みてなされたものであり、ユーザにとって親近感や没入感を得られる対話システムを提供することを目的とする。

【課題を解決するための手段】

【0008】

請求項１に記載された発明は、１または複数のプロセッサを備え、前記１または複数のプロセッサは、ユーザが入力した対話情報を言語解析サイトに送信し、前記言語解析サイトが算出した応答コメント及び感情カテゴリに関する情報を受信し、前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、前記応答コメントをテキスト又は音声で表現させる、前記アバターとの対話システムである。
請求項２に記載された発明は、前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか１つを含む、請求項１に記載の対話システムである。
請求項３に記載された発明は、前記１または複数のプロセッサは、前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントし、前記対話回数に基づいて、前記アバターの動き、表情、又はエフェクトに関するデータを変化させる、請求項１に記載の対話システムである。
請求項４に記載された発明は、コンピュータに、ユーザが入力した対話情報から算出された応答コメント及び感情カテゴリに関する情報を取得する機能と、前記感情カテゴリに予め関連付けられたアバターの動き、表情、又はエフェクトに関するデータに基づいて、当該アバターの動き、表情、又はエフェクトを演出しながら、応答コメントをテキスト又は音声で表現させる機能とを実現させるプログラムである。
請求項５に記載された発明は、前記感情カテゴリは、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスのうち少なくともいずれか１つを含む、請求項４に記載のプログラムである。
請求項６に記載された発明は、前記ユーザとの対話回数又は感情カテゴリ別の対話回数をカウントする機能と前記対話回数に基づいて、前記アバターのモーション、表情、又はエフェクトに関するデータを変化させる機能と、を実現させる請求項４に記載のプログラムである。

【発明の効果】

【0009】

本発明によれば、アバターに感情表現をもたせることにより、ユーザにとって親近感や没入感を得られる対話システムを提供する。

【図面の簡単な説明】

【0010】

【図1】本実施の形態が適用される対話システムの全体構成を示す図である。

【図2】対話システムの端末装置の機能構成を示す図である。

【図3】（Ａ）は、対話システムの画面を示す図であり、（Ｂ）は、喜びの感情を表現するアバターを示す図であり、（Ｃ）は、怒りの感情を表現するアバターを示す図である。

【図4】ユーザとアバターとの対話の履歴を示す図である。

【図5】感情カテゴリと動作、エフェクト、表情のデータとを関連付けたデータテーブルを示す図である。

【図6】対話の回数を記録したデータを示す図である。

【図7】対話システムを構成する端末装置の処理フローを示す図である。

【発明を実施するための形態】

【0011】

本発明に係る対話システムについて、図面を参照しつつ説明する。なお、本発明は下記の実施形態に限定されるものではない。

【0012】

（第一の実施形態）
図１は、本実施の形態が適用される対話システムの全体構成を示す図である。
本実施の形態における対話システム１は、ユーザがアバターと対話するために使われる端末装置１０と対話アプリケーションのプログラムを管理するサーバ３０と、言語処理サーバ４０がネットワーク５０を介して繋がったシステムである。ネットワーク５０は、例えば、インターネットなどのネットワークであり、ユーザは、端末装置１０からインターネットを介して、各種サービス提供サイトや言語処理サーバ４０にアクセスすることができる。本実施の形態にて例示している対話システム１は、例えば、ユーザがアバターと対話する際に、ユーザの入力した対話情報を言語処理サーバ４０に送信し、言語処理サーバで言語解析が行われた結果を端末装置１０が受信することで、対話サービスを提供することができるシステムである。サーバ３０は、対話サービスを実行するアプリケーションのプログラムを記憶し、ネットワーク５０を介して端末装置１０へプログラムを送信する。つまり、ユーザは対話サービスを実行するアプリケーションプログラムを端末装置１０にダウンロードすることにより、初めて本実施形態の対話サービスの提供を受けることができる。

【0013】

アバターとは、コンピュータで表示される仮想空間上の人の分身を表す仮想キャラクタである。ただし、外観としては人の分身に限らず、ユーザと対話することができるキャラクタであれば、動物の要素が混じったキャラクタ、動物のキャラクタ、さらにはロボットのキャラクタなどの生物でない無機物キャラクタも本明細書においてはアバターに含まれる。ユーザは、端末装置１０に対話情報を入力し、アバターからの応答内容を音声で聞き、表示されたアバターの感情表現を見ながら対話することができる。対話の目的は、お奨めの商品や旅行先などの情報紹介を受ける、知らない情報について教えてもらうなどの目的の他、特定の目的がなくアバターを単なる対話相手として会話を楽しむというものであってもよい。
本実施形態において、対話情報とは、対話に関する言語的情報であり、文章、単語、記号などのテキストでも音声であってもよい。

【0014】

端末装置１０は、例えばスマートフォンやタブレットなどであるコンピュータ端末装置で構成される。端末装置１０は、装置全体を制御するプロセッサ（ＣＰＵ（Central Processing Unit））である制御部１１と、演算に際して作業エリアとして用いられるＲＡＭ（Random Access Memory）などのメモリ１２と、プログラムや各種設定データなどの記憶に用いられるＨＤＤ（Hard Disk Drive）や半導体メモリ等の記憶装置である記憶部１３と、を有している。
また、端末装置１０は、ネットワーク５０を介して音声やテキストデータの送受信等を行う通信部１４を有している。更に、端末装置１０側のユーザからの入力操作を受け付けるタッチパネル、キーボード、ポインティングデバイスなどの操作部１５と、ユーザに対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部１６と、表示部１６を制御する表示制御部１７とを有している。さらに、端末装置１０は、ユーザなどを撮影する撮像部１８と、音声の入力や出力を行う音声入出力部１９を有している。

【0015】

サーバ３０は、例えばワークステーション、デスクトップＰＣ、ノートＰＣなどであるコンピュータ装置で構成される。サーバ３０は、装置全体を制御するプロセッサ（ＣＰＵ（Central Processing Unit））である制御部３１と、演算に際して作業エリアとして用いられるＲＡＭ（Random Access Memory）などのメモリ３２と、プログラムや各種設定データなどの記憶に用いられるＨＤＤ（Hard Disk Drive）や半導体メモリ等の記憶装置である記憶部３３と、を有している。また、ネットワーク５０を介してデータの送受信を行う通信部３４を有している。更に、サーバ３０側のユーザからの入力操作を受け付けるキーボード、ポインティングデバイス、タッチパネルなどの操作部３５と、サーバ利用者に対して画像やテキスト情報などを表示する液晶ディスプレイなどからなる表示部３６と、表示部３６を制御する表示制御部３７とを有している。
記憶部３３には、対話システムのアプリケーションプログラムが格納されており、ユーザからの求めに応じて、ネットワーク５０を介して、対話システムのアプリケーションプログラムが端末装置１０にダウンロードされる。ここで、対話システムのアプリケーションプログラムは、必ずしもサーバ３０の記憶部３３に格納されたものをダウンロードする必要はなく、例えば、サーバ３０の記憶部３３に格納された対話アプリケーションのプログラムを予め、各種アプリケーションをダウンロードすることが可能なサイトにアップロードしておき、ユーザの求めに応じて、アプリケーションのダウンロードサービスを利用して端末装置１０にダウンロードすることもできる。

【0016】

言語処理サーバ４０は、大規模言語モデル（Large Language Model）を備えている。大規模言語モデルは、入力される会話文のテキストに対して、応答する会話内容（応答コメント）のテキストを生成し、入力テキストに対し感情分析を行うことにより感情カテゴリを生成することができる。大規模言語モデルは、公知の技術を使うことができる。例えば、ＯｐｅｎＡＩ社のＣｈａｔＧＰＴ（Chat Generative Pretrained Transformer）を利用することもできる。
言語処理サーバ４０は、入力されたテキストに対して感情分析を行った結果、例えば、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスなどの感情カテゴリのうちのいずれか１つの感情カテゴリを生成する。

【0017】

本実施形態において、対話情報は、言語処理サーバ４０に送信され、言語解析が行われるが、通常、言語解析はテキストベースの情報に基づいて行われるため、ユーザの入力した音声データは、言語解析前にテキスト化される。本実施形態において、入力された音声は、端末装置１０の機能制御部２６（図２参照）においてテキストに変換される。音声からテキストへの変換機能は、公知の変換モデルを使うことができる。例えば、ネットワーク５０を介して音声の文字起こしサービスを提供するサイトに、音声データを送信し、テキストデータを受信することができる。音声データのテキストへの変換は、多くの公知技術があり、特に言語処理サーバ４０で実行しても、端末装置１０で実行しても、ネットワーク５０を介してクラウド上で提供している変換サービスを使用しても構わない。例えば、ＯｐｅｎＡＩ社のＷｈｉｓｐｅｒを用いることができる。
このため、請求項に記載された「対話情報を言語解析サイトに送信し」とは、ユーザからの入力が音声の場合に、音声データをテキストに変換したデータとしての対話情報を言語処理サイトに送信する場合も、音声データを言語処理サーバに送信する場合も含む。もちろん、ユーザからの入力がテキストの場合は、そのまま言語処理サーバに送信される場合も「対話情報を言語解析サイトに送信し」に含まれる。

【0018】

この端末装置１０やサーバ３０、端末装置１０やサーバ３０に接続される各種装置などに用いられるＣＰＵによって、本件における「１または複数のプロセッサ」を構成し、本実施の形態における各種機能を実現している。
また、図１に示す端末装置１０やサーバ３０の各種構成は、必ずしも筐体を同じくする必要はなく、システムとして把握される態様がある。本体装置と筐体が異なる場合には、有線または無線で接続される。

【0019】

図２は、端末装置１０の機能構成を示す図である。端末装置１０は、ユーザの入力を受け付ける受付部２０と、入力された情報などを記憶する記憶部１３と、音声やテキストなどのデータの送受信を行う通信部１４と、対話のテキストやアバターなどを表示する表示部１６と、ユーザの顔などを撮像する撮像部１８と、描画や機能制御を行う機能制御部２６と、記憶された情報をデータや音声にて出力する出力部２１と、を有している。

【0020】

記憶部１３は、動作データ記憶部２２、エフェクトデータ記憶部２３、表情データ記憶部２４、およびプログラム記憶部２５を含む。
動作データ記憶部２２は、アバターの動作に関する情報を格納し、エフェクトデータ記憶部２３は、アバターのエフェクトに関する情報を格納し、表情データ記憶部２４は、アバターの顔の表情に関する情報を格納し、プログラム記憶部２５は、対話システムのアプリケーションプログラムのデータを格納する。
アバターの「動作に関するデータ」とは、手の上げ下げのジェスチャー、手のひらの動き、お辞儀の動作など、上半身の動作に限らず、アバターの動き全般に関するデータのことである。アバターの「エフェクトに関するデータ」とは、アバターの周囲に表示する音符記号や怒りマークなどアバターの感情を演出する効果のあるマークなどのデータである。アバターの「表情に関するデータ」とは、アバターの顔の表情に関する情報であり、眉の上げ具合、口元の形、眼の開き方など感情を表現する顔の要素のデータである。

【0021】

プログラム記憶部２５は、ネットワーク５０を介してサーバ３０又はアプリケーションダウンロードサイトから通信部１４にて受信した対話システムのアプリケーションプログラムを記憶する。その他、ユーザに関する情報は、記憶部１３に記憶されている。

【0022】

機能制御部２６は、端末装置１０の各種の機能を制御する。例えば、機能制御部２６は、対話システムのアプリケーションを起動し、アバターを制御する。ここで、対話システムのアプリケーションとは、例えば、ユーザと対話できるソフトウェアであり、端末装置１０にインストールされるソフトウェアである。
機能制御部２６は、アバター制御部２７と対話回数カウント部２８とを含む。例えば、アバター制御部２７は、アバターの動作に関する情報に基づいてアバターの動作を、アバターの表情のデータに基づいてアバターの顔の表情を制御し、アバターのエフェクトに関するデータに基づいて、アバターを演出する制御を行う。アバター制御部２７は、上述のアバターの制御にあたり、言語処理サーバ４０から受信した感情カテゴリに基づいてアバターの制御を行う。即ち、言語処理サーバ４０から受信した感情カテゴリが悲しみの場合は、アバター制御部２７は、悲しみの動作、悲しみの表情、悲しみの演出を行うようにアバターを制御する。
対話回数カウント部２８は、ユーザとアバターとの対話の回数をカウントする。この場合、トータルの回数だけでなく、感情カテゴリごとに対話回数をカウントする。対話回数をカウントすることにより、対話回数が増えるにつれアバターの親密さの表現を増大させ、怒りの回数が予め定めた閾値以上になるとアバターが怒りの感情をより強く表現するなどの制御が可能になる。

【0023】

言語処理サーバ４０から受信した応答メッセージのテキストデータは、機能制御部２６が音声データに変換する。テキストから音声への変換は、公知の技術を用いることができる。必ずしも、端末装置１０の機能制御部２６が、テキストから音声への変換処理を行う必要はなく、例えば、ＧｏｏｇｌｅのＴｅｘｔｔｏＳｐｅｅｃｈなどのサービスを利用することもできる。
音声入出力部１９は、応答テキストが音声に変換された音声データを出力する。出力部２１は言語処理サーバ４０から受信した応答テキストを表示部１６に表示させる。

【0024】

図３（Ａ）は、対話システムの画面を示す図であり、（Ｂ）は、喜びの感情を表現するアバターを示す図であり、（Ｃ）は、怒りの感情を表現するアバターを示す図である。
図３（Ａ）に示すように、対話システムの端末装置の画面上にアバターが表示されると、ユーザは、アバターに対する対話内容を音声又はテキスト入力することができる。画面の下方の左側のアイコンをタッチすると文字入力画面が表示され、ユーザはテキストで会話内容を入力することができる。また、画面の下方の右側のアイコンをタッチすることにより音声のまま入力することができる。
入力された音声は、端末装置１０の機能制御部２６においてテキストに変換される。音声からテキストへの変換機能は、公知の変換モデルを使うことができる。例えば、ネットワーク５０を介して音声の文字起こしサービスを提供するサイトに、音声データを送信し、テキストデータを受信することができる。例えば、ＯｐｅｎＡＩ社のＷｈｉｓｐｅｒを用いることができる。

【0025】

ユーザにより入力されたテキスト又は音声から変換されたテキストは、ネットワーク５０を介して言語処理サーバ４０に送信される。端末装置１０は、言語処理サーバ４０から、応答用の会話テキスト及び感情カテゴリを受信する。端末装置１０が言語処理サーバ４０から受信したユーザへの応答用の会話テキストは、機能制御部２６がテキストを音声に変換し、それを音声入出力部１９が音声出力することにより、ユーザはアバターと会話をしているように感じることができる。

【0026】

さらに、端末装置１０は、言語処理サーバ４０から、上記の応答用の会話テキストだけでなく、感情カテゴリのデータも取得し、アバター制御部２７は、感情カテゴリに基づいてアバターを制御する。例えば、端末装置１０が喜びの感情カテゴリを取得した場合、アバター制御部２７は、図３（Ｂ）に示すように、アバターに喜びのポーズである動作をさせ、アバターの表情を笑顔にし、喜びを表す音符記号をアバターの周囲に表示する。例えば、端末装置１０が怒りの感情カテゴリを取得した場合、アバター制御部２７は、図３（Ｃ）に示すように、アバターに怒りのポーズである動作をさせ、アバターの顔を怒っている表情にし、怒りを表すマークを頭の周囲に表示する。

【0027】

図４は、ユーザとアバターとの対話の履歴を示す図である。ユーザとアバターとの対話が音声によるものであっても、対話内容はテキストとして記憶部１３に記憶され、履歴情報として閲覧することもできる。右側からの吹き出しがユーザからの発話の内容であり、右側に記載の内容は、アバターの発話である応答テキストが表示されている。例えば、おすすめのサイトを表示するＵＲＬの情報を伝える場合は、音声だけでは伝えにくい場合、履歴の情報からＵＲＬを取得して、リンク先にアクセスすることもできる。このように、対話履歴の表示画面は、音声で伝えにくいが、テキストであれば伝えやすい情報に関して、対話履歴を表示する画面から情報を取得することにより、容易に求める情報を取得できるという効果がある。

【0028】

図５は、感情カテゴリと動作、エフェクト、表情のデータとを関連付けたデータテーブルを示す図である。最左の第１列には、悲しみ、怒り、驚き、喜び、悩み、恐れ、興奮、混乱、好奇心、好意、不快感、頼りになる、期待、感謝、真面目、緊張、安心、希望、焦り、哀悼、無関心、達成感、批判、同情、理解、謙虚、慎重、肯定、否定、納得、疑念、シャイ、リラックスなどの感情カテゴリが格納されている。第２列には、第１列の感情カテゴリに対応するアバターの動作データに関する情報の所在（リンク先）が記載されている。第３列のエフェクトは、アバターを演出する効果に関する情報の所在が記載されている。第４列の表情に関するデータは、感情カテゴリに対応付けられた表情の情報の所在が格納されている。
上記のように、各感情カテゴリに対して、動作、エフェクト、表情のデータが対応付けられているが、各感情を表現するに際し、必ずしも動作、エフェクト、及び表情の３種類のデータ全てを利用する必要はない。つまり、アバター制御部２７は、動作のデータのみ使ってアバターを表現する、エフェクトと表情を使ってアバターを表現するなど、適宜、組み合わせて利用することができる。

【0029】

アバター制御部２７は、言語処理サーバ４０から受信した感情カテゴリに基づいて、記憶部１３に記憶されている図５に示すデータテーブルを参照して、応答すべき感情に対応する、動作、エフェクト、表情のデータの所在（リンク先）を取得して、動作データ記憶部２２に格納された動作データ、エフェクトデータ記憶部２３に格納されたエフェクトデータ、表情データ記憶部２４に記憶された表情データを取得し、感情に対応するアバターの動作、エフェクト、表情を制御する。
動作データ記憶部２２に格納された動作データとは、アバターの動作を表現することに関するデータであり、例えば、両手を挙げる喜びの動作、手を腰に当てる怒りのポーズ、など、それぞれの感情に応じたアバターの動作に関連する静止画又は動画データ、あるいは動作を表示するための動作パラメータのデータである。
エフェクトデータ記憶部２３に格納されたエフェクトデータとは、アバターの感情を表現する演出効果に関するデータであり、例えば、怒りや悲しみを表現するマークの画像又は動画、あるいは感情マークの表示方法に関するデータなどである。
表情データ記憶部２４に格納された表情データとは、アバターの表情を表現するデータであり、例えば、表情そのものの静止画又は動画データ、あるいは、眉、口、眼、頬の形や動きを表現するパラメータファイルのデータである。
図５のテーブルデータは、感情に対応する動作、エフェクト、表情のデータの所在が記載されていると説明したが、データの所在情報だけでなく、直接、動作、エフェクト、表情に関するパラメータが格納されていてもよい。応答する感情に関連付けられた動作、エフェクト、表情のデータを取得できるテーブルであればよい。

【0030】

図６は、対話の回数を記録したデータを示す図である。対話回数カウント部２８は、ユーザとアバターとの対話の回数をカウントする。ユーザの発話とアバターの応答を１セットとしてカウントしてもよいし、それぞれの対話数をカウントしても構わない。さらに対話回数カウント部２８は、感情カテゴリ別に対話回数をカウントし、対話数の記録として記憶部１３に記憶する。対話数は、予め定めた閾値を超えた場合には、アバターは応答する会話内容について親しみをもった応答表現をする、又は、ユーザの発話中に親近のある動作を表現し、又は親近感の湧くようなエフェクトを演出する。また、感情カテゴリの回数が予め定めた閾値を超えた場合には、感情表現を強く直接的にするように制御する。例えば、アバター制御部２７は、怒りの感情カテゴリの回数が閾値を超えた場合には、怒りの表情のパラメータを大きめに設定することで、より大きな怒りの感情を表現するように制御する。カウントした回数は、１回のセッションが終了したら対話自体の回数は継続して累積させ感情カテゴリの回数はゼロにリセットして次回の対話を開始してもよく、次回の対話セッションでは一旦ゼロにリセットした状態から対話数のカウントを開始しても構わない。

【0031】

〔対話システムの処理〕
図７は、対話システムを構成する端末装置１０の処理フローを示す図である。対話サービスを実行するアプリケーションプログラムをユーザが予め端末装置１０にダウンロードしてあることを前提に以下の対話が実行される。アプリケーションプログラムのダウンロード元は、サーバ３０であっても、ネットワーク上のアプリケーションプログラムのダウンロードサイトであってもよい。図２に示す機能制御部２６は、ユーザからの開始の指定を受けて対話システムの端末装置１０にインストールされた対話アプリケーションの処理を開始する（ＳＴＡＲＴ）。次に、機能制御部２６は、登録画面を表示する（ステップ７０１）。次に、記憶部１３は、受付部２０が取得したユーザから入力されたユーザ情報を記憶する（ステップ７０２）。アバター制御部２７は、端末装置１０の表示部１６にアバターを表示する（ステップ７０３）。そして、ユーザは、アバターに対する対話内容を音声又はテキストで入力する（ステップ７０４）。機能制御部２６は、入力された音声データをテキストに変換する（ステップ７０５）。通信部１４は、言語処理サーバ４０に対しテキストデータを送信する（ステップ７０６）。次に、通信部１４は、言語処理サーバ４０から応答メッセージのテキストと感情カテゴリを受信する（ステップ７０７）。機能制御部２６は、応答テキストを音声データに変換する（ステップ７０８）。アバター制御部２７は、受信した感情カテゴリに基づいて、動作データ記憶部２２、エフェクトデータ記憶部２３、表情データ記憶部２４、記憶部１３にそれぞれ記憶された動作、エフェクト、表情のデータ、対話回数に基づいてアバターを表示部１６に表示する（ステップ７０９）。アバター制御部２７は、ステップ７０９でアバターを表示部１６に表示し始めたら、表示とともに出力部２１は応答メッセージの音声データを音声出力する（ステップ７１０）。対話回数カウント部２８は、対話回数、感情カテゴリ別の対話回数をカウントする（ステップ７１１）。対話を継続する場合はステップ７０４に戻って対話を継続し（ステップ７１２）、対話を終了する場合、画面上の終了ボタンなどをタッチすることにより対話システムの端末装置１０にインストールされた対話アプリケーションの処理は終了する（ＥＮＤ）。

【0032】

本実施形態において、音声からテキストへの変換、テキストから音声の変換は、端末装置１０の機能制御部２６が実行すると説明しているが、特に端末装置内で処理することに限定される必要はなく、ネットワーク５０を介してクラウド上の公知の変換サービスを利用することもできる。

【0033】

また、本実施形態においては、対話に用いられる言語の変換についても、適宜行われるものとする。ユーザの入力する言語と言語処理サーバ４０で扱う言語が異なっていても、端末装置１０、言語処理サーバ４０側、その他のクラウド上の翻訳サイトなどのいずれかを利用するものであればよい。

【0034】

また、本実施形態においては、言語処理サーバ４０とネットワーク５０を介して送受信する実施形態を例に説明したが、サーバ３０に応答テキストや感情カテゴリを返すことができる言語処理モデルを具備できるのであれば、言語処理サーバ４０とサーバ３０とは統合することもできる。

【符号の説明】

【0035】

１…対話システム、１０…端末装置、１１…制御部、１２…メモリ、１３…記憶部、１４…通信部、１５…操作部、１６…表示部、１７…表示制御部、１８…撮像部、１９…音声入出力部、２０…受付部、２１…出力部、２２…動作データ記憶部、２３…エフェクトデータ記憶部、２４…表情データ記憶部、２５…プログラム記憶部、２６…機能制御部、２７…アバター制御部、２８…対話回数カウント部、３０…サーバ、３１…制御部、３２…メモリ、３３…記憶部、３４…通信部、３５…操作部、３６…表示部、３７…表示制御部、４０…言語処理サーバ、５０…ネットワーク

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版