特開2023-72111 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＡＶＩＴＡ株式会社の特許一覧 ▶ 国立大学法人大阪大学の特許一覧

特開2023-72111情報処理装置、制御プログラム、制御方法および情報処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023072111

(43)【公開日】2023-05-24

(54)【発明の名称】情報処理装置、制御プログラム、制御方法および情報処理システム

(51)【国際特許分類】

G06Q 50/10 20120101AFI20230517BHJP

【ＦＩ】

G06Q50/10

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2021184439

(22)【出願日】2021-11-12

(71)【出願人】

【識別番号】521413866

【氏名又は名称】ＡＶＩＴＡ株式会社

(71)【出願人】

【識別番号】504176911

【氏名又は名称】国立大学法人大阪大学

(74)【代理人】

【識別番号】100090181

【弁理士】

【氏名又は名称】山田義人

(74)【代理人】

【識別番号】100168217

【弁理士】

【氏名又は名称】大村和史

(72)【発明者】

【氏名】石黒浩

(72)【発明者】

【氏名】西口昇吾

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049CC11

(57)【要約】

【課題】存在感を増したアバターを表示することができる。
【解決手段】利用者側端末（１２）は、ＣＰＵ（２０）を含み、利用者側端末の利用者と操作者側端末（１６）の操作者がリアルタイムに音声で話し、利用者からの問い合わせに対して操作者が応答すると、利用者側端末のＣＰＵは、操作者の音声の音声データを受信する。受信した音声データには、操作者の音声の音量データが付加されており、利用者側端末のＣＰＵは、音量データに基づいてアバターの画像１２０を拡大または縮小するための比率を算出する。利用者側端末のＣＰＵは、算出した比率で通常時よりも拡大または縮小されたアバターの画像を表示し、受信した音声データを出力する。アバターの画像を拡大すると、アバターの画像が表示枠１５２からはみ出す場合もある。
【選択図】図７

【特許請求の範囲】

【請求項1】

操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、
前記受信手段によって受信された前記音声を出力する音出力手段、
前記受信手段によって受信された所定の情報に基づいて前記操作者に対応するアバターの画像を、前記受信手段によって受信された前記音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および
前記音出力手段によって前記音声を出力するときに、前記比率算出手段によって算出された比率で描画した前記アバターの画像をディスプレイに表示する画像表示手段を備える、情報処理装置。

【請求項2】

前記画像表示手段は、前記通常時に前記アバターの画像が収まる枠画像をさらに表示し、前記枠画像の前面に前記アバターの画像を表示する、請求項１記載の情報処理装置。

【請求項3】

前記所定の情報は、前記操作者が発話した音声の音量であり、
前記比率算出手段は、前記音量に基づいて前記比率を算出する、請求項１または２記載の情報処理装置。

【請求項4】

前記所定の情報は、前記操作者が発話したときの当該操作者の首の動きであり、
前記比率算出手段は、前記操作者の首の動きに基づいて前記比率を算出する、請求項１または２記載の情報処理装置。

【請求項5】

操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信する受信手段、
前記受信手段によって受信された前記音声を出力する音出力手段、および
前記音出力手段によって前記音声を出力するときに、前記受信手段よって受信された比率で描画したアバターの画像をディスプレイに表示する画像表示手段を備え、
前記比率は、前記操作者に対応する前記アバターの画像を、前記受信手段によって受信された前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、情報処理装置。

【請求項6】

操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信する受信手段、
前記受信手段によって受信された前記音声を出力する音出力手段、および
前記音出力手段によって前記音声を出力するときに、前記受信手段よって受信された前記アバターの画像をディスプレイに表示する画像表示手段を備え、
前記比率は、前記操作者に対応する前記アバターの画像を、前記受信手段によって受信された前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、情報処理装置。

【請求項7】

操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、
前記受信手段によって受信された前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力する音出力手段、
前記受信手段によって受信された所定の情報に基づいて前記操作者に対応するアバターの画像を、前記受信手段によって受信された前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および
前記音出力手段によって前記音声を出力するときに、前記比率算出手段によって算出された比率で描画した前記アバターの画像を前記利用者側端末に出力する画像出力手段を備える、情報処理装置。

【請求項8】

操作者が入力したテキストまたは発話した音声を受信する受信手段、
前記受信手段によって受信された前記テキストまたは前記音声を出力する出力手段、および
前記操作者に対応するアバターの画像をディスプレイに表示する画像表示手段を備え、
前記画像表示手段は、前記受信手段によって受信された前記テキストまたは前記音声を出力していない通常時に枠画像に収まる態様で前記アバターの画像を前記ディスプレイに表示し、前記出力手段によって前記テキストまたは前記音声を出力するときに前記枠画像からはみ出す態様で前記アバターの画像を前記ディスプレイに表示する、情報処理装置。

【請求項9】

情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信ステップ、
前記受信ステップにおいて受信した前記音声を出力する音出力ステップ、
前記受信ステップにおいて受信した所定の情報に基づいて前記操作者に対応するアバターの画像を、前記受信ステップにおいて受信した前記音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出ステップ、および
前記音出力ステップにおいて前記音声を出力するときに、前記比率算出ステップにおいて算出した比率で描画した前記アバターの画像をディスプレイに表示する画像表示ステップを実行させる、制御プログラム。

【請求項10】

情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信する受信ステップ、
前記受信ステップにおいて受信した前記音声を出力する音出力ステップ、および
前記音出力ステップにおいて前記音声を出力するときに、前記受信ステップにおいて受信した比率で描画したアバターの画像をディスプレイに表示する画像表示ステップを実行させ、
前記比率は、前記操作者に対応する前記アバターの画像を、前記受信ステップにおいて受信した前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラム。

【請求項11】

情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信する受信ステップ、
前記受信ステップにおいて受信した前記音声を出力する音出力ステップ、および
前記音出力ステップにおいて前記音声を出力するときに、前記受信ステップにおいて受信した前記アバターの画像をディスプレイに表示する画像表示ステップを実行させ、
前記比率は、前記操作者に対応する前記アバターの画像を、前記受信ステップにおいて受信した前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラム。

【請求項12】

情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信ステップ、
前記受信ステップにおいて受信した前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力する音出力ステップ、
前記受信ステップにおいて受信した所定の情報に基づいて前記操作者に対応するアバターの画像を、前記受信ステップにおいて受信した前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出ステップ、および
前記音出力ステップにおいて前記音声を出力するときに、前記比率算出ステップにおいて算出した比率で描画した前記アバターの画像を前記利用者側端末に出力する画像出力ステップを実行させる、制御プログラム。

【請求項13】

情報処理装置で実行される制御プログラムであって、
前記情報処理装置のプロセッサに、
操作者が入力したテキストまたは発話した音声を受信する受信ステップ、
前記受信ステップにおいて受信した前記テキストまたは前記音声を出力する出力ステップ、および
前記操作者に対応するアバターの画像をディスプレイに表示する画像表示ステップを実行させ、
前記画像表示ステップは、前記受信ステップにおいて受信した前記テキストまたは前記音声を出力していない通常時に枠画像に収まる態様で前記アバターの画像を前記ディスプレイに表示し、前記出力ステップにおいて前記テキストまたは前記音声を出力するときに前記枠画像からはみ出す態様で前記アバターの画像を前記ディスプレイに表示する、制御プログラム。

【請求項14】

ディスプレイを備える情報処理装置の制御方法であって、
（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信するステップ、
（ｂ）前記ステップ（ａ）において受信した前記音声を出力するステップ、
（ｃ）前記ステップ（ａ）において受信した所定の情報に基づいて前記操作者に対応するアバターの画像を、前記ステップ（ａ）において受信した前記音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出するステップ、および
（ｄ）前記ステップ（ｂ）において前記音声を出力するときに、前記ステップ（ｃ）において算出した比率で描画した前記アバターの画像を前記ディスプレイに表示するステップを含む、制御方法。

【請求項15】

ディスプレイを備える情報処理装置の制御方法であって、
（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信するステップ、
（ｂ）前記ステップ（ａ）において受信した前記音声を出力するステップ、および
（ｃ）前記ステップ（ｂ）において前記音声を出力するときに、前記ステップ（ａ）において受信した比率で描画したアバターの画像を前記ディスプレイに表示するステップを含み、
前記比率は、前記操作者に対応する前記アバターの画像を、前記ステップ（ｂ）において前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラム。

【請求項16】

ディスプレイを備える情報処理装置の制御方法であって、
（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信するステップ、
（ｂ）前記ステップ（ａ）において受信した前記音声を出力するステップ、および
（ｃ）前記ステップ（ｂ）において前記音声を出力するときに、前記ステップ(ａ)において受信した前記アバターの画像をディスプレイに表示するステップを含み、
前記比率は、前記操作者に対応する前記アバターの画像を、前記ステップ（ｂ）において前記音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御方法。

【請求項17】

情報処理装置の制御方法であって、
（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信するステップ、
（ｂ）前記ステップ（ａ）において受信した前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力するステップ、
（ｃ）前記ステップ（ａ）において受信した所定の情報に基づいて前記操作者に対応するアバターの画像を、前記ステップ（ａ）において受信した前記音声を前記操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出するステップ、および
（ｄ）前記ステップ（ｂ）において前記音声を出力するときに、前記ステップ（ｃ）において算出した比率で描画した前記アバターの画像を前記利用者側端末に出力するステップを含む、制御方法。

【請求項18】

情報処理装置の制御方法であって、
（ａ）操作者が入力したテキストまたは発話した音声を受信するステップ、
（ｂ）前記ステップ（ａ）において受信した前記テキストまたは前記音声を出力するステップ、および
（ｃ）前記操作者に対応するアバターの画像をディスプレイに表示するステップを含み、
前記ステップ（ｃ）は、前記ステップ（ａ）において受信した前記テキストまたは前記音声を出力していない通常時に枠画像に収まる態様で前記アバターの画像を前記ディスプレイに表示し、前記ステップ（ｂ）において前記テキストまたは前記音声を出力するときに前記枠画像からはみ出す態様で前記アバターの画像を前記ディスプレイに表示する、制御方法。

【請求項19】

サーバと、前記サーバと通信可能に接続された利用者側端末および操作者側端末を備える情報処理システムであって、
操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、
前記受信手段によって受信された前記音声を出力する音出力手段、
前記所定の情報に基づいて前記操作者に対応するアバターの画像を、前記受信手段によって受信された前記音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および
前記音出力手段によって前記音声を出力するときに、前記比率算出手段によって算出された比率で描画した前記アバターの画像を前記利用者側端末のディスプレイに表示する画像表示手段を備える、情報処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、情報処理装置、制御プログラム、制御方法および情報処理システムに関し、特にたとえば、利用者と操作者がチャットまたはトークでコミュニケーションを行う、情報処理装置、制御プログラム、制御方法および情報処理システムに関する。

【背景技術】

【0002】

この種の従来の情報処理装置の一例が特許文献１に開示されている。特許文献１に開示されるコミュニケーションシステムでは、テレイグジスタンスモードが設定された状態で、オペレータ端末は、オペレータの表情およびジェスチャを座標データに変換し、応答音声データと共に応対端末へ送信する。応対端末は、オペレータ端末から送られた座標データに基づいてアバターを生成することで、オペレータの表情およびジェスチャがアバターの表情および仕草に反映されたキャラクタ応対情報を生成し、ユーザに向けて表示する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－５６９４０号

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の特許文献１では、オペレータ端末において、キャラクタ応対情報に基づくアバター画像が表示部に表示されるが、表示部の画面は２次元であるため、アバター画像が３次元ＣＧ画像データを用いて生成されたとしても、アバターは平面的に表示され、アバターの存在感を示すためには、改善の余地がある。

【0005】

それゆえに、この発明の主たる目的は、新規な、情報処理装置、制御プログラム、制御方法および情報処理システムを提供することである。

【0006】

また、この発明の他の目的は、存在感を増したアバターを表示できる、情報処理装置、制御プログラム、制御方法および情報処理システムを提供することである。

【課題を解決するための手段】

【0007】

第１の発明は、操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、受信手段によって受信された音声を出力する音出力手段、受信手段によって受信された所定の情報に基づいて操作者に対応するアバターの画像を、受信手段によって受信された音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および音出力手段によって音声を出力するときに、比率算出手段によって算出された比率で描画したアバターの画像をディスプレイに表示する画像表示手段を備える、情報処理装置である。

【0008】

第２の発明は、第１の発明に従属し、画像表示手段は、通常時にアバターの画像が収まる枠画像をさらに表示し、枠画像の前面にアバターの画像を表示する。

【0009】

第３の発明は、第１または第２の発明に従属し、所定の情報は、操作者が発話した音声の音量であり、比率算出手段は、音量に基づいて比率を算出する。

【0010】

第４の発明は、第１または第２の発明に従属し、所定の情報は、操作者が発話したときの当該操作者の首の動きであり、比率算出手段は、操作者の首の動きに基づいて比率を算出する。

【0011】

第５の発明は、操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信する受信手段、受信手段によって受信された音声を出力する音出力手段、および音出力手段によって音声を出力するときに、受信手段よって受信された比率で描画したアバターの画像をディスプレイに表示する画像表示手段を備え、比率は、操作者に対応するアバターの画像を、受信手段によって受信された音声を出力していない通常時の大きさに対して拡大または縮小する比率である、情報処理装置である。

【0012】

第６の発明は、操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信する受信手段、受信手段によって受信された音声を出力する音出力手段、および音出力手段によって音声を出力するときに、受信手段よって受信されたアバターの画像をディスプレイに表示する画像表示手段を備え、比率は、操作者に対応するアバターの画像を、受信手段によって受信された音声を出力していない通常時の大きさに対して拡大または縮小する比率である、情報処理装置である。

【0013】

第７の発明は、操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、受信手段によって受信された音声を操作者と対話する利用者が使用する利用者側端末に出力する音出力手段、受信手段によって受信された所定の情報に基づいて操作者に対応するアバターの画像を、受信手段によって受信された音声を操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および音出力手段によって音声を出力するときに、比率算出手段によって算出された比率で描画したアバターの画像を利用者側端末に出力する画像出力手段を備える、情報処理装置である。

【0014】

第８の発明は、操作者が入力したテキストまたは発話した音声を受信する受信手段、受信手段によって受信されたテキストまたは音声を出力する出力手段、および操作者に対応するアバターの画像をディスプレイに表示する画像表示手段を備え、画像表示手段は、受信手段によって受信されたテキストまたは音声を出力していない通常時に枠画像に収まる態様でアバターの画像をディスプレイに表示し、出力手段によってテキストまたは音声を出力するときに枠画像からはみ出す態様でアバターの画像をディスプレイに表示する、情報処理装置である。

【0015】

第９の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信ステップ、受信ステップにおいて受信した音声を出力する音出力ステップ、受信ステップにおいて受信した所定の情報に基づいて操作者に対応するアバターの画像を、受信ステップにおいて受信した音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出ステップ、および音出力ステップにおいて音声を出力するときに、比率算出ステップにおいて算出した比率で描画したアバターの画像をディスプレイに表示する画像表示ステップを実行させる、制御プログラムである。

【0016】

第１０の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信する受信ステップ、受信ステップにおいて受信した音声を出力する音出力ステップ、および音出力ステップにおいて音声を出力するときに、受信ステップにおいて受信した比率で描画したアバターの画像をディスプレイに表示する画像表示ステップを実行させ、比率は、操作者に対応するアバターの画像を、受信ステップにおいて受信した音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラムである。

【0017】

第１１の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信する受信ステップ、受信ステップにおいて受信した音声を出力する音出力ステップ、および音出力ステップにおいて音声を出力するときに、受信ステップにおいて受信したアバターの画像をディスプレイに表示する画像表示ステップを実行させ、比率は、操作者に対応するアバターの画像を、受信ステップにおいて受信した音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラムである。

【0018】

第１２の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信ステップ、受信ステップにおいて受信した音声を操作者と対話する利用者が使用する利用者側端末に出力する音出力ステップ、受信ステップにおいて受信した所定の情報に基づいて操作者に対応するアバターの画像を、受信ステップにおいて受信した音声を操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出ステップ、および音出力ステップにおいて音声を出力するときに、比率算出ステップにおいて算出した比率で描画したアバターの画像を利用者側端末に出力する画像出力ステップを実行させる、制御プログラムである。

【0019】

第１３の発明は、情報処理装置で実行される制御プログラムであって、情報処理装置のプロセッサに、操作者が入力したテキストまたは発話した音声を受信する受信ステップ、受信ステップにおいて受信したテキストまたは音声を出力する出力ステップ、および操作者に対応するアバターの画像をディスプレイに表示する画像表示ステップを実行させ、画像表示ステップは、受信ステップにおいて受信したテキストまたは音声を出力していない通常時に枠画像に収まる態様でアバターの画像をディスプレイに表示し、出力ステップにおいてテキストまたは音声を出力するときに枠画像からはみ出す態様でアバターの画像をディスプレイに表示する、制御プログラムである。

【0020】

第１４の発明は、ディスプレイを備える情報処理装置の制御方法であって、（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信するステップ、（ｂ）ステップ（ａ）において受信した音声を出力するステップ、（ｃ）ステップ（ａ）において受信した所定の情報に基づいて操作者に対応するアバターの画像を、ステップ（ａ）において受信した音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出するステップ、および（ｄ）ステップ（ｂ）において音声を出力するときに、ステップ（ｃ）において算出した比率で描画したアバターの画像をディスプレイに表示するステップを含む、制御方法である。

【0021】

第１５の発明は、ディスプレイを備える情報処理装置の制御方法であって、（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率を操作者側端末から受信するステップ、（ｂ）ステップ（ａ）において受信した音声を出力するステップ、および（ｃ）ステップ（ｂ）において音声を出力するときに、ステップ（ａ）において受信した比率で描画したアバターの画像をディスプレイに表示するステップを含み、比率は、操作者に対応するアバターの画像を、ステップ（ｂ）において音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御プログラムである。

【0022】

第１６の発明は、ディスプレイを備える情報処理装置の制御方法であって、（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報に基づいて算出した比率で描画したアバターの画像を受信するステップ、（ｂ）ステップ（ａ）において受信した音声を出力するステップ、および（ｃ）ステップ（ｂ）において音声を出力するときに、ステップ(ａ)において受信したアバターの画像をディスプレイに表示するステップを含み、比率は、操作者に対応するアバターの画像を、ステップ（ｂ）において音声を出力していない通常時の大きさに対して拡大または縮小する比率である、制御方法である。

【0023】

第１７の発明は、情報処理装置の制御方法であって、（ａ）操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信するステップ、（ｂ）ステップ（ａ）において受信した音声を操作者と対話する利用者が使用する利用者側端末に出力するステップ、（ｃ）ステップ（ａ）において受信した所定の情報に基づいて操作者に対応するアバターの画像を、ステップ（ａ）において受信した音声を操作者と対話する利用者が使用する利用者側端末に出力していない通常時の大きさに対して拡大または縮小する比率を算出するステップ、および（ｄ）ステップ（ｂ）において音声を出力するときに、ステップ（ｃ）において算出した比率で描画したアバターの画像を利用者側端末に出力するステップを含む、制御方法ある。

【0024】

第１８の発明は、情報処理装置の制御方法であって、（ａ）操作者が入力したテキストまたは発話した音声を受信するステップ、（ｂ）ステップ（ａ）において受信したテキストまたは音声を出力するステップ、および（ｃ）操作者に対応するアバターの画像をディスプレイに表示するステップを含み、ステップ（ｃ）は、ステップ（ａ）において受信したテキストまたは音声を出力していない通常時に枠画像に収まる態様でアバターの画像をディスプレイに表示し、ステップ（ｂ）においてテキストまたは音声を出力するときに枠画像からはみ出す態様でアバターの画像をディスプレイに表示する、制御方法である。

【0025】

第１９の発明は、サーバと、サーバと通信可能に接続された利用者側端末および操作者側端末を備える情報処理システムであって、操作者が発話した音声と、当該操作者が発話したときの所定の情報を操作者側端末から受信する受信手段、受信手段によって受信された音声を出力する音出力手段、所定の情報に基づいて操作者に対応するアバターの画像を、受信手段によって受信された音声を出力していない通常時の大きさに対して拡大または縮小する比率を算出する比率算出手段、および音出力手段によって音声を出力するときに、比率算出手段によって算出された比率で描画したアバターの画像を利用者側端末のディスプレイに表示する画像表示手段を備える、情報処理システムである。

【発明の効果】

【0026】

この発明によれば、存在感を増したアバターを表示することができる。

【0027】

この発明の上述の目的、その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

【図面の簡単な説明】

【0028】

【図1】図１はこの発明の一実施例の情報処理システムを示す図である。

【図2】図２は図１に示す利用者側端末の電気的な構成を示すブロック図である。

【図3】図３は図１に示す操作者側端末の電気的な構成を示すブロック図である。

【図4】図４は利用者側端末の表示装置に表示される画面の一例を示す図である。

【図5】図５は利用者側端末の表示装置に表示される画面の他の例を示す図である。

【図6】図６は利用者側端末の表示装置に表示される画面のその他の例を示す図である。

【図7】図７（Ａ）は通常時のアバターの画像を表示したトーク画面の一例を示す図であり、図７（Ｂ）は拡大したアバターの画像を表示したトーク画面の一例を示す図であり、図７（Ｃ）は縮小したアバターの画像を表示したトーク画面の一例を示す図である。

【図8】図８は図２に示す利用者側端末のＲＡＭのメモリマップの一例を示す図である。

【図9】図９は図２に示す利用者側端末のＣＰＵの制御処理の一例の第１の一部を示すフロー図である。

【図10】図１０は図２に示す利用者側端末のＣＰＵの制御処理の一例の第２の一部であって、図９に後続するフロー図である。

【図11】図１１は図２に示す利用者側端末のＣＰＵの制御処理の一例の第３の一部であって、図９に後続するフロー図である。

【図12】図１２は図２に示す利用者側端末のＣＰＵの比率算出処理を示すフロー図である。

【図13】図１３は第２実施例の操作者側端末の電気的な構成を示すブロック図である。

【図14】図１４（Ａ）は操作者が頷く場合の基準面の移動距離を説明するための図であり、図１４（Ｂ）は操作者が首を振る場合の基準面の移動距離を説明するための図である。

【図15】図１５は第２実施例における利用者側端末のＣＰＵの比率算出処理を示すフロー図である。

【図16】図１６は第３実施例における利用者側端末のＣＰＵの制御処理の一部を示すフロー図である。

【図17】図１７は第３実施例における操作者側端末のＣＰＵのアバターの画像生成処理の一例をフロー図である。

【図18】図１８は第４実施例におけるサーバのＣＰＵの制御処理の一例の第１の一部を示すフロー図である。

【図19】図１９は第４実施例におけるサーバのＣＰＵの制御処理の一例の第２の一部であって、図１８に後続するフロー図である。

【図20】図２０は第４実施例におけるサーバのＣＰＵの制御処理の一例の第３の一部であって、図１８に後続するフロー図である。

【図21】図２１は枠画像からはみ出す態様のアバターの画像の例を示す図である。

【発明を実施するための形態】

【0029】

＜第１実施例＞
図１を参照して、この第１実施例の情報処理システム１０は利用者側端末１２を含み、利用者側端末１２は、ネットワーク１４を介して、操作者側端末１６およびサーバ１８に通信可能に接続される。

【0030】

利用者側端末１２は、サーバ１８によって提供される所定のサービスを利用する利用者によって使用され、操作者側端末１６は、利用者に応対する操作者によって使用される。

【0031】

利用者側端末１２は、情報処理装置であり、一例として、スマートフォンであり、ブラウザ機能を備えている。他の実施例では、利用者側端末１２として、タブレットＰＣ、ノート型ＰＣまたはデスクトップ型ＰＣなどの汎用の端末を用いることもできる。

【0032】

ネットワーク１４は、インターネットを含むＩＰ網（または、ＩＰネットワーク）と、このＩＰ網にアクセスするためのアクセス網（または、アクセスネットワーク）とから構成される。アクセス網としては、公衆電話網、携帯電話網、有線ＬＡＮ、無線ＬＡＮ、ＣＡＴＶ（Cable Television）等を用いることができる。

【0033】

操作者側端末１６は、利用者側端末１２とは異なる他の情報処理装置であり、一例として、ノート型ＰＣまたはデスクトップ型ＰＣであるが、他の実施例では、スマートフォンまたはタブレットＰＣなどの汎用の端末を用いることもできる。

【0034】

サーバ１８は、利用者側端末１２および操作者側端末１６とは異なるその他の情報処理装置であり、汎用のサーバを用いることができる。したがって、サーバ１８は、ＣＰＵ１８ａおよび記憶部（ＨＤＤ、ＲＯＭおよびＲＡＭを含む）１８ｂを備えるとともに、通信インタフェースおよび入出力インタフェースなどのコンポーネントを備える。第１実施例では、サーバ１８は、所定のサービスを提供するサイトを運営するために設けられる。

【0035】

図２は図１に示した利用者側端末１２の電気的な構成を示すブロック図である。図２に示すように、利用者側端末１２はＣＰＵ２０を含み、ＣＰＵ２０は、内部バスを介して、記憶部２２、通信インタフェース（以下、「通信Ｉ／Ｆ」という）２４および入出力インタフェース（以下、「入出力Ｉ／Ｆ」という）２６に接続される。

【0036】

ＣＰＵ２０は、利用者側端末１２の全体的な制御を司る。ただし、ＣＰＵ２０に代えて、ＣＰＵ機能、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）機能等の複数の機能を含むＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－ｃｈｉｐ）を設けてもよい。記憶部２２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0037】

通信Ｉ／Ｆ２４は、ＣＰＵ２０の制御の下、ネットワーク１４を介して、操作者側端末１６およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ２４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

【0038】

入出力Ｉ／Ｆ２６には、入力装置２８、表示装置３０、マイク３２およびスピーカ３４が接続されている。入力装置２８は、タッチパネルおよびハードウェアのボタンである。タッチパネルは、汎用のタッチパネルであり、静電容量方式、電磁誘導方式、抵抗膜方式、赤外線方式など、任意の方式のものを用いることができる。後述する操作者側端末１６についても同様である。

【0039】

ただし、利用者側端末１２として、ノート型ＰＣまたはデスクトップ型ＰＣが用いられる場合には、入力装置２８として、キーボードおよびコンピュータマウスが使用される。

【0040】

また、表示装置３０は、ＬＣＤまたは有機ＥＬディスプレイである。上記のタッチパネルは、表示装置３０の表示面上に設けられてもよいし、タッチパネルが表示装置３０と一体的に形成されたタッチディスプレイが設けられてもよい。このことは、後述する操作者側端末１６についても同様である。

【0041】

入出力Ｉ／Ｆ２６は、マイク３２で検出された利用者の音声をデジタルの音声データに変換してＣＰＵ２０に出力するとともに、ＣＰＵ２０によって出力される音声データをアナログの音声信号に変換してスピーカ３４から出力させる。ただし、ＣＰＵ２０から出力される音声データは、操作者側端末１６から受信した音声データである。また、入出力Ｉ／Ｆ２６は、入力装置２８から入力された操作データ（または、操作情報）をＣＰＵ２０に出力するとともに、ＣＰＵ２０によって生成された画像データを表示装置３０に出力して、画像データに対応する画面または画像を表示装置３０に表示させる。ただし、外部のコンピュータ（たとえば、操作者側端末１６またはサーバ１８）から受信した画像データがＣＰＵ２０によって出力される場合もある。

【0042】

なお、図２に示す利用者側端末１２の電気的な構成は一例であり、限定される必要はない。他の実施例では、利用者側端末１２はカメラを備えていてもよい。

【0043】

また、利用者側端末１２がスマートフォンである場合には、携帯電話通信網、または、携帯電話網および公衆電話網を介して、通話するための通話回路を備えるが、第１実施例では、そのような通話は行わないため、図示は省略してある。このことは、後述する操作者側端末１６がスマートフォンである場合についても同じである。

【0044】

図３は図１に示した操作者側端末１６の電気的な構成を示すブロック図である。図３に示すように、操作者側端末１６はＣＰＵ５０を含み、ＣＰＵ５０は、内部バスを介して、記憶部５２、通信Ｉ／Ｆ５４および入出力Ｉ／Ｆ５６に接続される。

【0045】

ＣＰＵ５０は、操作者側端末１６の全体的な制御を司る。ただし、ＣＰＵ５０に代えて、ＣＰＵ機能、ＧＰＵ機能等の複数の機能を含むＳｏＣを設けてもよい。記憶部５２は、ＨＤＤ、ＲＯＭおよびＲＡＭを含む。ただし、ＨＤＤに代えて、または、ＨＤＤ、ＲＯＭおよびＲＡＭに加えて、ＳＳＤ等の不揮発性メモリが使用されてもよい。

【0046】

通信Ｉ／Ｆ５４は、ＣＰＵ５０の制御の下、ネットワーク１４を介して、利用者側端末１２およびサーバ１８などの外部のコンピュータとの間で、制御信号およびデータの送受信を行うために有線インタフェースを有する。ただし、通信Ｉ／Ｆ５４としては、無線ＬＡＮまたはBluetooth（登録商標）等の無線インタフェースを使用することもできる。

【0047】

入出力Ｉ／Ｆ５６には、入力装置５８および表示装置６０、マイク６２およびスピーカ６４が接続されている。マイク６２およびスピーカ６４は、操作者が利用者との間で音声通話するために使用するマイク付きのヘッドセットを構成する。

【0048】

また、入力装置５８としては、キーボードおよびコンピュータマウスが用いられる。ただし、操作者側端末１６として、スマートフォンまたはタブレットＰＣが用いられる場合には、入力装置５８として、タッチパネルおよびハードウェアのボタンが設けられる。また、表示装置６０は、ＬＣＤまたは有機ＥＬディスプレイである。

【0049】

入出力Ｉ／Ｆ５６は、マイク６２で検出された操作者の音声をデジタルの音声データに変換してＣＰＵ５０に出力するとともに、ＣＰＵ５０によって出力される音声データをアナログの音声信号に変換してスピーカ６４から出力させる。ただし、第１実施例では、ＣＰＵ５０から出力される音声データは、利用者側端末１２から受信した音声データである。また、入出力Ｉ／Ｆ５６は、入力装置５８から入力された操作データ（または、操作情報）をＣＰＵ５０に出力するとともに、ＣＰＵ５０によって生成された画像データを表示装置６０に出力して、画像データに対応する画像を表示装置６０に表示させる。

【0050】

なお、図３に示す操作者側端末１６の電気的な構成は一例であり、限定される必要はない。他の実施例では、操作者側端末１６はカメラを備えていてもよい。

【0051】

このような情報処理システム１０では、利用者が利用者側端末１２を使用して、サーバ１８が提供する所定のサービスのウェブ画面１００を見ている場合に、所定の条件を満たすと、操作者（オペレータ）とチャットまたはトークでコミュニケーションできる、アプリケーション（以下、単に「アプリ」という）が起動される。

【0052】

一例として、所定のサービスは、オンラインショッピングであるが、チャットまたはトークで、利用者の問い合わせに対して対応（応答）することができる、任意のオンラインサービスである。

【0053】

図４は、ウェブ画面１００の前面に、アプリの選択画面１１０が表示された場合の一例を示す。ただし、ウェブ画面１００は、ウェブブラウザを起動し、所定のＵＲＬを入力することにより、表示装置３０に表示される。ウェブ画面１００は、所定のサービスのウェブサイト（または、ウェブページ）の画面である。図４では、或るオンラインショッピングのウェブ画面１００の例が示される。また、選択画面１１０は、アプリが起動されたときなどに表示される初期画面である。

【0054】

上述したように、アプリは、所定の条件を満たす場合に、起動される。この第１実施例では、所定の条件は、所定のサービスのウェブ画面（第１実施例では、ウェブ画面１００）を表示した状態において、利用者がアプリの起動（または、実行）を指示したこと、利用者の操作が第１所定時間（この第１実施例では、３０秒）以上無いこと、当該ウェブ画面において同じ位置または似たような場所（近くの位置）を指示していること、所定のサービスにおいて複数回（たとえば、３回）同じウェブ画面に戻ってくることである。

【0055】

なお、図４では、ウェブ画面１００が、利用者側端末１２がスマートフォンである場合の表示装置６０に表示された例を示してある。また、ウェブ画面１００は一例であり、オンラインショッピング以外の他のサービスについての画面が表示される場合もある。

【0056】

選択画面１１０には、画面の上部に、表示枠１１２が設けられ、表示枠１１２の下方に、ボタン１１４、ボタン１１６およびボタン１１８が縦に並んで設けられる。

【0057】

表示枠１１２はアバターの画像１２０を表示するための枠画像である。この第１実施例では、アバターの画像１２０はチャットまたはトークの相手（対話の相手）である操作者の分身となるキャラクタであり、予め設定されている。したがって、アバターの画像１２０は、人間を模したキャラクタであり、この第１実施例では、頭部および首についての画像である。

【0058】

ただし、アバターの画像１２０は、動物またはロボットを模したキャラクタ、アニメキャラクタ、ゲームキャラクタなどの画像でもよい。また、アバターの画像１２０は、キャラクタの上半身または全身についての画像でもよい。

【0059】

また、この第１実施例では、アバターの画像１２０は、チャットまたはトークする場合に、操作者のチャットにおける応答内容の表示またはトークにおける応答内容（または、発話内容）の音声の出力に合せて発話するまたは発話動作を行う。この第１実施例では、アバターの画像１２０は頭部および首が表示されるため、発話動作では、アバターの画像１２０の口唇部がチャットにおける応答内容のテキストの表示またはトークにおける応答内容の音声の出力に合わせて動かされる。したがって、アバターが実際にしゃべっているように表現される。

【0060】

アバターの画像１２０は、応答内容の音声を出力していない状態、すなわち、アバターが発話していないまたは発話動作を行っていない状態（以下、「通常時」という）において、表示枠１１２に収まる大きさで表示（または、描画）される。

【0061】

また、選択画面１１０においては、アバターは、自然の動作（以下、「無意識動作」という）を行う。無意識動作の代表的な例としては、瞬きや呼吸が該当する。また、このような生理的な動作のみならず、癖による動作も無意識動作に含まれる。たとえば、癖による動作としては、髪の毛を触る動作、顔を触る動作および爪を噛む動作などが該当する。ただし、選択画面１１０が表示されると、アバターの画像１２０は、最初に、静止した状態で表示され、続いて、利用者に対して挨拶する（たとえば、お辞儀する）ように表示される。

【0062】

したがって、選択画面１１０においては、静止した状態のアバターの画像１２０が表示された後に、無意識動作または挨拶の動作を行うアバターの画像１２０が表示される。本願発明の本質的な内容ではないため、詳細な説明は省略するが、一例として、静止した状態のアバターの画像１２０の表示は、予め記憶され静止した状態の画像データを出力（または、再生）することにより行われる。また、無意識動作および挨拶するときの動作を行うアバターの画像１２０の表示については、予め記憶された動画（アニメーション）データを再生することにより行われる。

【0063】

ボタン１１４は、利用者が操作者とチャットするためのボタンである。チャットとは、テキストのやり取りによってリアルタイムに話をすることを意味し、この第１実施例では、利用者および操作者の操作によって、利用者側端末１２と操作者側端末１６の間で、テキストデータが送受信される。

【0064】

ボタン１１６は、利用者が操作者とトークするためのボタンである。トークとは、音声のやり取りによってリアルタイムに話をすることを意味し、この第１実施例では、利用者および操作者の発話によって、利用者側端末１２と操作者側端末１６の間で、音声データが送受信される。

【0065】

ボタン１１８は、アプリを終了するためのボタンである。ボタン１１８がオンされると、アプリが終了され、選択画面１１０が非表示される。

【0066】

図５はウェブ画面１００の前面にチャット画面１３０が表示された状態の一例を示す。選択画面１１０においてボタン１１４がオンされると、図５に示すようなチャット画面１３０が表示される。

【0067】

チャット画面１３０には、画面の上部に、表示枠１３２が設けられ、表示枠１３２内にアバターの画像１２０が表示される。また、表示枠１３２の下方には、表示枠１３４および表示枠１３６が縦に並んで設けられ、表示枠１３６の下方に、ボタン１３８が設けられる。

【0068】

表示枠１３４は、操作者の応答内容を表示するための枠画像である。操作者の応答内容は、利用者の問い合わせ（または、質問）に対して応答（または、回答）する具体的な内容であるが、利用者に対する挨拶および利用者に対する問いかけなども含まれる。つまり、操作者側端末１６から送信されたテキストデータが表示枠１３４に表示される。詳細な説明は省略するが、チャットの場合には、操作者側端末１６から送信されたテキストデータは、操作者が入力装置５８を用いてキー入力した内容についてのデータである。

【0069】

表示枠１３６は、利用者の問い合わせ（質問）内容を表示するための枠画像である。チャットの場合には、利用者の質問内容は、利用者側端末１２の入力装置２８を用いて入力される。図５では省略するが、スマートフォンやタブレットＰＣでは、チャット画面１３０とは別にソフトウェアキーボードが表示され、ソフトウェアキーボードを用いて文字（テキスト）をタッチ入力したり、文字の入力が完了したこと（質問内容の送信）の指示をタッチ入力したりすることができる。質問内容の送信が指示されると、質問内容のテキストデータが操作者側端末１６に送信される。したがって、操作者側端末１６の表示装置６０に質問内容のテキストが表示される。図示は省略するが、チャットにおいては、操作者側端末１６の表示装置６０に、応答内容と質問内容を表示可能なチャット画面が表示される。

【0070】

ボタン１３８は、チャットを終了するためのボタンである。ボタン１３８がオンされると、チャットを終了し、チャット画面１３０が非表示され、選択画面１１０がウェブ画面１００の前面に表示される。

【0071】

図６はウェブ画面１００の前面にトーク画面１５０が表示された状態の一例を示す。選択画面１１０においてボタン１１６がオンされると、図６に示すようなトーク画面１５０が表示される。

【0072】

トーク画面１５０には、画面の上部に、表示枠１５２が設けられ、表示枠１５２内にアバターの画像１２０が表示される。また、トーク画面１５０には、表示枠１５２の下方であり、画面の下部に、ボタン１５４が設けられる。

【0073】

詳細な説明は省略するが、トークの場合には、操作者側端末１６から送信される音声データは、操作者がマイク６２を通して入力した音声についてのデータである。操作者側端末１６から送信された音声データは、利用者側端末１２で受信され、スピーカ３４から出力される。

【0074】

また、トークの場合には、利用者側端末１２から送信される音声データは、利用者がマイク３２を通して入力した音声についてのデータである。また、利用者側端末１２から送信された音声データは、操作者側端末１６で受信され、スピーカ６４から出力される。

【0075】

ボタン１５４は、トークを終了するためのボタンである。ボタン１５４がオンされると、トークを終了し、トーク画面１５０が非表示され、選択画面１１０がウェブ画面１００の前面に表示される。

【0076】

上記のように、操作者の音声に対応する音声データは、利用者側端末１２のスピーカ６４から出力されるが、このとき、アバターは発話動作を行う。この第１実施例では、アバターの画像１２０は、スピーカ６４から出力される音声にリップシンクされる。したがって、アバターの画像１２０が喋っているように表現される。

【0077】

また、操作者側端末１６では、操作者がマイク６２を通して音声を入力したときに、その音声の音量を検出し、検出した音量についてのデータ（以下、「音量データ」）を、音声データに付加して、利用者側端末１２に送信する。

【0078】

ただし、音量データは、マイク６２で検出された音声の音量の第２所定時間（この第１実施例では、１／１０秒程度）分の平均値についてのデータであり、第２所定時間毎に算出される。ただし、平均値は一例であり、第２所定時間における音量の最大値でもよい。

【0079】

利用者側端末１２は、操作者側端末１６から受信した音声データに付加された音量データに基づいてアバターの画像１２０の大きさを決定するための比率ｐを算出する。ただし、比率ｐは、通常時におけるアバターの画像１２０の大きさを１（１００％）とした場合の変化後の大きさの割合である。この第１実施例では、比率ｐは操作者の音声の音量が所定値よりも大きい場合に数１に従って算出される。また、第１実施例では、操作者の音声の音量が所定値よりも大きい場合において、音量が大きくなるにつれてアバターの画像１２０の大きさが大きくされる。ただし、音量が小さく、比率ｐが１よりも小さい場合には、アバターの画像１２０の大きさが通常時よりも小さくされる。

【0080】

ただし、ｍは操作者の音声の音量であり、Ｍは予め設定した音量の最大値であり、Ｐは音量が最大値である場合の比率（たとえば、１．４）である。また、比率ｐの最小値は０．８に設定され、この最小値よりも小さい値になる場合の音量が所定値以下である。なお、比率ｐの初期値は１であり、比率ｐが算出されない場合には、初期値のままである。

【0081】

［数１］
ｐ＝Ｐ（ｍ／Ｍ）
図７（Ａ）は通常時におけるアバターの画像１２０を表示したトーク画面１５０の一例を示し、図７（Ｂ）は比率ｐ＝１．４で通常時から拡大したアバターの画像１２０を表示したトーク画面１５０の一例を示し、図７（Ｃ）は比率ｐ＝０．８で通常時から縮小したアバターの画像１２０を表示したトーク画面１５０の一例を示す。

【0082】

詳細な説明は省略するが、トーク画面１５０（選択画面１１０およびチャット画面１３０も同様）では、アバターの画像１２０とアバターの画像１２０以外の画像（画面の表示枠、画面の背景、画面内の表示枠およびボタンの画像）は別のレイヤーで描画され、アバターの画像１２０が描画されたレイヤーが、アバターの画像１２０以外の画像が描画されたレイヤーの前面に配置される。

【0083】

また、仮想空間において、通常時における、仮想カメラ（視点）の位置およびアバターの位置は予め決定されており、アバターの画像１２０を拡大または縮小する場合には、比率ｐに応じて、仮想カメラの位置または／およびアバターの位置が移動され、仮想カメラとアバターの距離が変更される。

【0084】

ただし、他の実施例では、アバターの画像１２０を拡大または縮小する場合には、描画するアバターの画像１２０の大きさを拡大または縮小してもよいし、仮想カメラの画角を拡大または縮小してもよい。

【0085】

図７（Ａ）に示すように、通常時では、アバターの画像１２０は、上述したように、表示枠１５２に収まる所定の大きさで表示される。通常時では、アバターの頭部と首が表示される。

【0086】

図７（Ｂ）に示すように、アバターの画像１２０が拡大して表示されると、アバターの画像１２０は表示枠１５２からはみ出すことがある。したがって、２次元の画面に表示されたアバターの画像１２０が３次元の現実空間に飛び出そうとしているように見える。

【0087】

図７（Ｃ）に示すように、アバターの画像１２０が縮小して表示されると、アバターの画像１２０は利用者から離れる（または、遠ざかる）ように見える。

【0088】

図示は省略するが、比率ｐは０．８以上１．４以下の間で算出されるため、アバターの画像１２０は、表示枠１５２からはみ出さないで、表示枠１５２内で拡大される場合もある。

【0089】

このように、アバターの画像１２０が発話動作を行う場合には、音量に応じて算出した比率ｐに応じてアバターの画像１２０を拡大または縮小するので、奥行き感を表現することができ、２次元の画面に表示されているにも関わらず、立体感が得られる。つまり、存在感を増したアバターの画像１２０を表示することができる。

【0090】

また、拡大したアバターの画像１２０が表示枠１５２（枠画像）からはみ出すように表示される場合には、３次元の現実空間に飛び出そうとしているように見える。この場合にも、存在感を増したアバターの画像１２０を表示することができる。

【0091】

図８は利用者側端末１２に内蔵される記憶部（ここでは、ＲＡＭ）２２のメモリマップ３００の一例を示す。ＲＡＭは、ＣＰＵ２０のワーク領域およびバッファ領域として使用される。図８に示すように、記憶部２２は、プログラム記憶領域３０２およびデータ記憶領域３０４を含む。プログラム記憶領域３０２には、この実施例の制御プログラムが記憶されている。

【0092】

制御プログラムは、起動判断プログラム３０２ａ、メイン処理プログラム３０２ｂ、操作検出プログラム３０２ｃ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、比率算出プログラム３０２ｈ、音検出プログラム３０２ｉおよび音出力プログラム３０２ｊなどを含む。上述した第１実施例のアプリは、メイン処理プログラム３０２ｂ、操作検出プログラム３０２ｃ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、比率算出プログラム３０２ｈ、音検出プログラム３０２ｉおよび音出力プログラム３０２ｊを含む。

【0093】

ただし、アプリは、利用者側端末１２が端末本体の機能として備える、操作検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラム、音検出プログラムおよび音出力プログラムを利用することもできる。

【0094】

起動判断プログラム３０２ａは、この第１実施例のアプリを起動するかどうかを判断するためのプログラムである。メイン処理プログラム３０２ｂは、この第１実施例のアプリのメインルーチンの処理（全体的な処理）を実行するためのプログラムである。

【0095】

操作検出プログラム３０２ｃは、利用者の操作に従って入力装置２８から入力される操作データ３０４ａを検出し、データ記憶領域３０４に記憶するためのプログラムである。

【0096】

通信プログラム３０２ｄは、外部の機器、この第１実施例では、所定のサービスを提供するサイトを運営するためのサーバおよび操作者側端末１６と有線または無線で通信（データの送信および受信）するためのプログラムである。

【0097】

画像生成プログラム３０２ｅは、表示装置３０に表示するための各種の画面の全部または一部に対応する画像データを、画像生成データ３０４ｄを用いて生成するためのプログラムである。

【0098】

画像出力プログラム３０２ｆは、画像生成プログラム３０２ｅに従って生成した画像データを表示装置３０に出力するためのプログラムである。

【0099】

アバター制御プログラム３０２ｇは、アバターを動作させるためのプログラムである。この第１実施例では、ＣＰＵ２０は、アバター制御プログラム３０２ｇに従って、アバターに発話動作をさせたり、アバターに無意識動作をさせたり、アバターに挨拶の動作（挨拶の音声出力を含む）をさせたりする。

【0100】

比率算出プログラム３０２ｈは、操作者の音声の音量に基づいて比率ｐを算出するためのプログラムである。また、第１実施例では、比率算出プログラム３０２ｈは、操作者の音声の音量が所定値よりも大きいかどうかを判断し、音量が所定値よりも大きい場合に、比率ｐを算出することを決定するためのプログラムでもある。

【0101】

音検出プログラム３０２ｉは、マイク３２から入力される操作者の音声を検出するためのプログラムである。

【0102】

音出力プログラム３０２ｊは、受信した操作者の音声データを出力するためのプログラムである。

【0103】

図示は省略するが、プログラム記憶領域３０２には、利用者側端末１２のオペレーティングシステムなどのミドルウェア、ブラウザ機能を実行するためのプログラム、本願のアプリ以外の他のアプリケーション・プログラムも記憶される。

【0104】

また、データ記憶領域３０４には、操作データ３０４ａ、送信データ３０４ｂ、受信データ３０４ｃ、画像生成データ３０４ｄおよび比率データ３０４ｅなどが記憶される。

【0105】

操作データ３０４ａは、操作検出プログラム３０２ｃに従って検出された操作データである。送信データ３０４ｂは、操作者側端末１６に送信するデータであり、チャットにおける利用者の質問内容についてのテキストデータおよびトークにおける利用者の質問内容についての音声データである。受信データ３０４ｃは、操作者側端末１６から送信され、受信したデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データである。

【0106】

画像生成データ３０４ｄは、利用者側端末１２の表示装置３０に表示される各種の画面を生成するためのデータであり、アバターの画像１２０を生成するためのデータを含む。また、アバターの画像１２０を生成するためのデータは、アバターの画像１２０の静止した状態の画像データ、無意識動作および挨拶の動作についてのアニメーションデータを含む。比率データ３０４ｅは、比率ｐについてのデータである。比率ｐの初期値は１であり、比率算出プログラム３０２ｈに従って算出された比率ｐで更新される。また、操作者の音声を出力していないとき、すなわち、アバターが発話または発話動作を行っていないとき、比率ｐはリセットされ、初期値に戻される。

【0107】

図示は省略するが、データ記憶領域３０４には、制御処理を実行するために必要な他のデータが記憶されたり、タイマ（カウンタ）およびフラグが設けられたりする。

【0108】

また、図示は省略するが、操作者側端末１６は利用者側端末１２との間でチャットまたはトークを行うため、操作者側端末１６の記憶部（ここでは、ＲＡＭ）５２には、利用者側端末１２の記憶部２２に記憶されるプログラムおよびデータと同様のプログラムおよびデータが記憶される。

【0109】

具体的には、操作者側端末１６の記憶部５２のプログラム記憶領域には、メイン処理プログラム、操作検出プログラム、通信プログラム、画像生成プログラム、画像出力プログラム、音検出プログラム、音量検出プログラムおよび音出力プログラムなどが記憶される。

【0110】

メイン処理プログラムは、チャットまたはトークでコミュニケーションを行う操作者側端末１６のアプリケーションのメインルーチンの処理（全体的な処理）を実行するためのプログラムである。

【0111】

操作検出プログラムは、操作者の操作に従って入力装置５８から入力される操作データを検出し、記憶部５２のデータ記憶領域に記憶するためのプログラムである。

【0112】

通信プログラムは、外部の機器、この第１実施例では、利用者側端末１２およびサーバ１８と有線または無線で通信するためのプログラムである。

【0113】

画像生成プログラムは、表示装置６０に表示するための各種の画面に対応する画像データを、画像生成データを用いて生成するためのプログラムである。

【0114】

画像出力プログラムは、画像生成プログラムに従って生成した画像データを表示装置６０に出力するためのプログラムである。

【0115】

ただし、操作者側端末１６では、チャットまたはトークを選択したり、アバターの画像を表示したりする必要はない。このため、選択画面１１０のような画面は表示されず、チャット画面１３０およびトーク画面１５０のような画面では、利用者のアバターの画像は表示されない。ただし、利用者のアバターの画像が表示されるようにしてもよい。

【0116】

音検出プログラムは、マイク６２から入力される操作者の音声を検出するためのプログラムである。

【0117】

音量検出プログラムは、音量検出プログラムに従って検出された音声の音量を検出するためのプログラムである。上述したように、音量は、マイク６２で検出された音声の音量の第２所定時間（この第１実施例では、１／１０秒程度）分の平均値であり、第２所定時間毎に算出される。

【0118】

音出力プログラムは、受信した利用者の音声データを出力するためのプログラムである。

【0119】

また、記憶部５２のデータ記憶領域には、送信データ、受信データ、画像生成データ、音声データおよび音量データなどが記憶される。

【0120】

操作データは、操作検出プログラムに従って検出された操作データである。送信データは、利用者側端末１２に送信するデータであり、チャットにおける操作者の応答についてのテキストデータおよびトークにおける操作者の応答についての音声データである。第１実施例では、音声データに音量データが付加される。受信データは、利用者側端末１２から送信され、受信したデータであり、チャットにおける利用者の質問についてのテキストデータおよびトークにおける利用者の質問についての音声データである。

【0121】

画像生成データは、操作者側端末１６の表示装置６０に表示される各種の画面を生成するためのデータである。音声データは、音検出プログラムに従って検出された操作者の音声に対応するデータである。音量データは、音量検出プログラムに従って検出された音量に対応するデータである。

【0122】

なお、記憶部５２には、利用者とチャットまたはトークを実行するために必要な他のプログラムおよびデータも記憶される。

【0123】

図９－図１１は、利用者側端末１２のＣＰＵ２０の制御処理を示すフロー図である。図示は省略するが、ＣＰＵ２０は、制御処理と並行して、操作データの検出処理を実行するとともに、操作者側端末１６からのデータを受信する処理を実行する。

【0124】

図９に示すように、利用者側端末１２のＣＰＵ２０は、制御処理を開始すると、ステップＳ１で、アプリの起動条件を満たすかどうかを判断する。上述したように、ＣＰＵ２０は、所定のサービスのウェブ画面（第１実施例では、ウェブ画面１００）を表示した状態において、利用者がアプリの起動（または、実行）を指示した場合、利用者の操作が第１所定時間（たとえば、３０秒）以上無い場合、当該ウェブ画面において同じ位置または似たような場所（近くの位置）を指示している場合、所定のサービスにおいて複数回（たとえば、３回）同じウェブ画面に戻ってくる場合に、アプリの起動条件を満たすと判断する。

【0125】

ステップＳ１で“ＮＯ”であれば、つまり、アプリの起動条件を満たしていない場合には、ステップＳ１に戻る。一方、ステップＳ１で“ＹＥＳ”であれば、つまり、アプリの起動条件を満たしていれば、ステップＳ３で、アプリを起動する。なお、制御処理において、ステップＳ３以降がアプリのメインルーチンの処理である。

【0126】

続くステップＳ５では、図４に示したような選択画面１１０をウェブ画面１００の前面に表示する。ステップＳ５では、ＣＰＵ２０は、選択画面１１０についての画像データを生成し、生成した画像データを表示装置３０に出力する。以下、画面を表示する場合について同様である。

【0127】

上述したように、アプリを起動した当初では、すなわち、アプリを起動して最初に選択画面１１０を表示するときに、ＣＰＵ２０は、静止した状態のアバターの画像１２０を表示した後に、アニメーションデータを再生し、アバターに挨拶の動作を行わせる。

【0128】

次のステップＳ７では、アバターの画像１２０に待機動作を実行させる。上述したように、ＣＰＵ２０は、無意識動作を行わせる。ただし、ＣＰＵ２０は、選択画面１１０において利用者の操作が無い場合において、数秒または数十秒毎にアバターに無意識動作を実行させる。

【0129】

続いて、ステップＳ９で、ボタン操作が有るかどうかを判断する。ここでは、ＣＰＵ２０は、操作データ３０４ａを参照して、選択画面１１０のボタン１１４またはボタン１１６がオンされたかどうかを判断する。なお、図示は省略するが、ボタン１１８がオンされた場合には、選択画面１１０を閉じて（非表示して）、アプリを終了する。

【0130】

ステップＳ９で“ＮＯ”であれば、つまり、ボタン操作が無ければ、ステップＳ７に戻る。一方、ステップＳ９で“ＹＥＳ”であれば、つまり、ボタン操作が有れば、ステップＳ１１で、チャットかどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１１４のオンであるかを判断する。

【0131】

ステップＳ１１で“ＮＯ”であれば、つまり、ボタン１１６のオンであれば、図１１に示すステップＳ３１に進む。一方、ステップＳ１１で“ＹＥＳ”であれば、つまり、ボタン１１４のオンであれば、図１０に示すステップＳ１３で、図５に示したようなチャット画面１３０をウェブ画面１００の前面に表示する。

【0132】

なお、利用者側端末１２にハードウェアのキーボードが接続されていない場合には、ソフトウェアキーボードも表示される。また、チャット画面１３０が表示されるときに、選択画面１１０が非表示される。

【0133】

次のステップＳ１５では、質問内容の入力かどうかを判断する。ここでは、ＣＰＵ２０は、質問内容（テキスト）のキー入力があるかどうかを判断する。ステップＳ１５で“ＹＥＳ”であれば、つまり、質問内容の入力であれば、ステップＳ１７で、入力した質問内容を表示枠１３６に表示して、ステップＳ１５に戻る。一方、ステップＳ１５で“ＮＯ”であれば、つまり、質問内容の入力でなければ、ステップＳ１９で、質問内容の送信かどうかを判断する。ここでは、ＣＰＵ２０は、質問内容が確定されたかどうかを判断する。

【0134】

ステップＳ１９で“ＹＥＳ”であれば、つまり、質問内容の送信であれば、ステップＳ２１で、質問内容のテキストデータを操作者側端末１６に送信して、ステップＳ２３に進む。一方、ステップＳ１９で“ＮＯ”であれば、つまり、質問内容の送信でなければ、ステップＳ２３に進む。

【0135】

ステップＳ２３では、応答内容のテキストデータを受信したかどうかを判断する。ステップＳ２３で“ＮＯ”であれば、つまり、応答内容のテキストデータを受信していなければ、ステップＳ２７に進む。一方、ステップＳ２３で“ＹＥＳ”であれば、つまり、応答内容のテキストデータを受信すれば、ステップＳ２５で、応答内容の表示に合せてアバターを発話させて、ステップＳ２７に進む。ステップＳ２５では、ＣＰＵ２０は、応答内容を表示枠１３４に一文字ずつテキストで表示し、その表示に合せてアバターが喋るように口唇部を変化させて発話動作を行うアバターの画像１２０を表示枠１３２に表示する。なお、応答内容をすべて表示枠１３４に表示すると、質問内容を入力可能とするために、表示枠１３６の文字列がすべて消去（つまり、非表示）される。

【0136】

ステップＳ２７では、チャットの終了かどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１３８がオンされたり、操作者側端末１６からチャットの終了が指示されたりしたかどうかを判断する。

【0137】

ステップＳ２７で“ＮＯ”であれば、つまり、チャットの終了でなければ、ステップＳ１５に戻る。一方、ステップＳ２７で“ＹＥＳ”であれば、つまり、チャットの終了であれば、ステップＳ２９で、チャット画面１３０を閉じて、図９に示したステップＳ５に戻る。

【0138】

また、上述したように、ステップＳ１１で“ＮＯ”であれば、図１１に示すステップＳ３１で、図６に示したようなトーク画面１５０をウェブ画面１００の前面に表示する。なお、トーク画面１５０が表示されるときに、選択画面１１０が非表示される。また、トーク画面１５０が表示されるときに、すなわち、トークが開始されるときに、比率ｐが初期値（ｐ＝１）に設定される。

【0139】

続くステップＳ３３では、音声の入力かどうかを判断する。ここでは、ＣＰＵ２０は、マイク３２で音声を検出したかどうかを判断する。ステップＳ３３で“ＮＯ”であれば、つまり、音声の入力でなければ、ステップＳ３７に進む。一方、ステップＳ３３で“ＹＥＳ”であれば、つまり、音声の入力であれば、ステップＳ３５で、入力された音声に対応する音声データ（すなわち、質問内容の音声データ）を操作者側端末１６に送信して、ステップＳ３７に進む。

【0140】

ステップＳ３７では、応答内容の音声データを受信したかどうかを判断する。ステップＳ３７で“ＹＥＳ”であれば、つまり、応答内容の音声データを受信すれば、ステップＳ３９で、後述する比率算出処理(図１２参照)を実行して、ステップＳ４１で、応答内容の音声データを出力し、ステップＳ４３で、比率ｐに応じた大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成し、出力して、ステップＳ３３に戻る。したがって、スピーカ３４から操作者の音声が出力されるとともに、トーク画面１５０において、比率ｐに応じた大きさで、喋っているように表現されるアバターの画像１２０が表示される。

【0141】

また、ステップＳ３７で“ＮＯ”であれば、つまり、応答内容の音声データを受信していなければ、ステップＳ４５で、比率ｐをリセットし、つまり、比率データ３０４ｅが示す比率ｐを初期値（１）に設定し、ステップＳ４７で、通常の大きさでアバターを表示して、ステップＳ４９に進む。つまり、操作者の音声を出力しない場合には、アバターの画像１２０の大きさが通常時の大きさに戻される。

【0142】

ステップＳ４９では、トークの終了かどうかを判断する。ここでは、ＣＰＵ２０は、ボタン１５４がオンされたり、操作者側端末１６からトークの終了が指示されたりしたかどうかを判断する。

【0143】

ステップＳ４９で“ＮＯ”であれば、つまり、トーク終了でなければ、ステップＳ３３に戻る。一方、ステップＳ４９で“ＹＥＳ”であれば、つまり、トーク終了であれば、ステップＳ５１で、トーク画面１５０を閉じて、ステップＳ５に戻る。

【0144】

図１２は、図１１に示したステップＳ３９の比率算出処理を示すフロー図である。図１２に示すように、ＣＰＵ２０は、比率算出処理を開始すると、ステップＳ７１で、音量が所定値よりも大きいかどうかを判断する。ここでは、ＣＰＵ２０は、受信した音声データに付加された音量データが示す音量が所定値を超えているかどうかを判断する。

【0145】

ステップＳ７１で“ＮＯ”であれば、つまり、音量が所定値以下であれば、比率算出処理を終了して、図９－図１１に示した制御処理にリターンする。一方、ステップＳ７１で“ＹＥＳ”であれば、つまり、音量が所定値よりも大きければ、ステップＳ７３で、数１に従って比率ｐを算出する。

【0146】

続いて、ステップＳ７５で、算出した比率ｐを記憶し、つまり、算出した比率ｐで比率データ３０４ｅを更新し、比率算出処理を終了して、制御処理にリターンする。

【0147】

第１実施例によれば、アバターの画像を通常時よりも拡大または縮小して表示することで、奥行き感を表現することができ、２次元の画面に表示されているにも関わらず、立体感が得られる。つまり、存在感を増したアバターを表示することができる。

【0148】

また、第１実施例によれば、拡大したアバターの画像が枠画像からはみ出すように表示される場合には、３次元の現実空間に飛び出そうとしているように見える。つまり、存在感を増したアバターを表示することができる。

【0149】

上記の第１実施例では、利用者側端末１２で比率ｐを算出するようにしたが、これに限定される必要はない。操作者側端末１６で比率ｐを算出し、比率ｐのデータを音声データに付加して利用者側端末１２に送信するようにしてもよい。この場合、操作者側端末１６では、ＣＰＵ５０は、操作者の音声を検出したときに、図１２に示した比率算出処理を実行し、音声データに比率Ｐのデータを付加して利用者側端末１２に送信する。一方、利用者側端末１２では、比率ｐを算出する必要がないため、ステップＳ３９の処理が省略され、ステップＳ４３では、受信した音声データに付加された比率ｐのデータが示す比率ｐに応じた大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成し、出力する。

【0150】

なお、第１実施例では、操作者の音声データの音量に基づいてアバターを拡大または縮小するようにしたが、これに限定される必要はない。他の実施例では、操作者が発話するときの目の開き具合に基づいてアバターを拡大または縮小するようにしてもよい。ただし、操作者の目の開き具合は、操作者の顔画像を撮影し、撮影した顔画像から抽出した複数の特徴点のうち、操作者の目の上瞼と下瞼についての特徴点の距離を算出することにより、検出することができる。たとえば、操作者が発話していないときの目の開き具合と、操作者が発話しているときの目の開き具合との差に基づいて比率ｐが算出される。

【0151】

また、第１実施例では、操作者の音声の音量が所定値よりも大きい場合において、音量が大きくなるにつれてアバターの画像１２０の大きさが大きくされるようにしたが、音量が大きくなるにつれてアバターの画像１２０の大きさが小さくされるようにしてもよい。この場合、音量が小さく、比率ｐが１よりも小さい場合に、アバターの画像１２０の大きさが通常時よりも大きくされる。

【0152】

さらに、第１実施例では、チャットおよびトークにおいては、利用者側端末１２と操作者側端末１６がネットワーク１４を介して通信するようにしたが、サーバ１８を介して通信するようにしてもよい。かかる場合には、サーバ１８が操作者の音声データに付加された音量データが示す音量に基づいて比率ｐを算出し、サーバ１８は、音声データに算出た比率ｐのデータを付加して、利用者側端末１２に送信するようにしてもよい。

【0153】

＜第２実施例＞
第２実施例は、トークにおいて、操作者の音声の音量に基づいて比率ｐを算出することに変えて、操作者が発話するときの操作者の首の動きに基づいて比率ｐを算出するようにした以外は、第１実施例と同じであるため、重複した説明は省略する。

【0154】

図１３は第２実施例の操作者側端末１６の電気的な構成を示すブロック図である。図１３に示すように、第２実施例の操作者側端末１６は、センサインタフェース（センサＩ／Ｆ）６６および慣性センサ６８をさらに備えている。

【0155】

センサＩ／Ｆ６６には、慣性センサ６８が接続されている。この第２実施例では、慣性センサ６８として、角速度センサが用いられる。慣性センサ６８は、マイク６２およびスピーカ６４で構成するヘッドセットに設けられ、操作者の首の縦方向および横方向の動き（この第２実施例では、頷き動作および首振り動作）を検出する。したがって、操作者の首の縦方向の動きを検出するための軸周りと、操作者の首の横方向の動きを検出するための軸周りの角速度を検出可能な角速度センサが用いられる。一例として、操作者の首の縦方向の動きを検出するための軸は、操作者の両耳を通る直線に平行な軸である。また、一例として、操作者の首の横方向の動きを検出するための軸は、操作者の頭頂部を通り延長方向に延びる軸である。

【0156】

ただし、慣性センサ６８としては、３軸の加速度センサを用いるようにしてもよい。この場合、操作者の顔の正面方向、頭部の横方向および頭部の縦方向のそれぞれに延びる軸の加速度が検出される。

【0157】

第２実施例では、トークにおいては、操作者の音声に対応する音声データに、操作者が発話するときに、慣性センサ６８で検出された角速度のデータ（後述する「首の動きデータ」）が付加され、利用者側端末１２に送信される。

【0158】

ただし、首の動きデータは、慣性センサ６８で検出された第３所定時間（この第２実施例では、１／１０秒程度）分の複数の角速度の平均値についてのデータであり、第３所定時間毎に算出される。ただし、平均値は一例であり、第３所定時間における音量の最大値でもよい。また、第３所定時間は第２所定時間と同じでなくてもよい。

【0159】

利用者側端末１２は操作者側端末１６から音声データを受信すると、受信した音声データに付加された慣性データに応じてアバターの画像１２０を拡大または縮小する。

【0160】

この第２実施例では、操作者の首の縦方向の動きに基づいてアバターの画像１２０が拡大され、操作者の首の横方向の動きに基づいてアバターの画像１２０の大きさが縮小される。ただし、これは一例であり、操作者の首の縦方向の動きに基づいてアバターの画像１２０の大きさが縮小され、操作者の首の横方向の動きに基づいてアバターの画像１２０の大きさが拡大されてもよい。

【0161】

図１４（Ａ）は操作者が頷く場合（つまり、顔を下に向けるように操作者の首が動いた場合）の比率ｐの算出方法を説明するための図であり、図１４（Ｂ）は操作者が首を振る場合（つまり、顔を右に向けるように操作者の首が動いた場合）の比率ｐの算出方法を説明するための図である。

【0162】

この第２実施例では、操作者の首の動きについてのデータ（以下、「首の動きデータ」という）を用いて、仮想空間においてアバターの首を動かし、それによって得られる数値（パラメータ）に基づいて比率ｐが算出される。図１４（Ａ）および図１４（Ｂ）では、アバターの頭部および首の画像を示してあるが、実際には、計算のみが実行され、比率ｐを算出するためにアバターの画像１２０が描画される必要はない。

【0163】

したがって、計算においては、アバターの頭部のモデルは、球または楕円球で設定され、球または楕円球において、アバターの目の位置に相当する位置に、アバターの眼球に相当する大きさの球体が設定される。首については、頷く場合の回転軸Ｘと首を振る場合の回転軸Ｙのみが設定される。

【0164】

図１４（Ａ）および図１４（Ｂ）では、左側に記載したアバターの頭部および首の画像は、首を動かしていない状態、すなわち、アバターが仮想カメラに対して正対した状態を示す。ただし、図１４（Ａ）では、アバターを横から見た図であり、図１４（Ｂ）では、アバターを上から見た図である。図示は省略するが、図１４（Ａ）および図１４（Ｂ）では、仮想カメラは、アバターの正面方向であり、所定距離だけ隔てた位置に配置される。また、仮想カメラおよびアバターの上下方向の位置は、仮想カメラの視線がアバターの頭部の中心を通るように設定される。

【0165】

図１４（Ａ）に示すように、操作者が頷く場合には、回転軸Ｘを中心に、アバターの頭部および眼球が前方に（仮想カメラ側に）回転される。アバターの眼球のうち、仮想カメラ側に最も突出した部分（点）を含み、仮想カメラの視線と直交する面を基準面とし、首の動きの前後における基準面の移動距離ｄを用いて比率ｐを算出する。図１４（Ａ）に示すように、操作者が頷く場合には、基準面は移動距離ｄだけ仮想カメラ側に近づく。

【0166】

また、図１４（Ｂ）に示すように、操作者が首を振る場合には、回転軸Ｙを中心に、アバターの頭部および眼球が右向き（図示しないが、左向きでもよい）に回転される。アバターの両目の眼球のうち、仮想カメラ側に最も突出した部分（点）を結ぶ直線の中点を含み、仮想カメラの視線と直交する面を基準面とし、首の動きの前後における移動距離ｄを用いて比率ｐを算出する。図１４（Ｂ）に示すように、操作者が首を振る場合には、基準面は移動距離ｄだけ仮想カメラから遠ざかる。

【0167】

ただし、移動距離ｄは、仮想カメラに対する基準面の移動量の絶対値である。

【0168】

第２実施例では、操作者が頷く場合には、数２に従って比率ｐが算出され、操作者が首を振る場合には、数３に従って比率ｐが算出される。ただし、数２および数３において、Ｄは基準面の最大移動距離であり、Ｐは最大移動距離の場合の比率（拡大率：１．４）であり、Ｑは最大距離の場合の比率（縮小率：０．８）る。ただし、最大移動距離Ｄは、頷く場合には、操作者の顔が水平になるまで頷いたときの移動距離ｄであり、首を振る場合には、操作者の顔が真横になるまで首を振ったときの移動距離ｄである。ただし、操作者が頷く場合には、アバターの画像１２０を拡大する（すなわち、ｐ＞１である）ため、数２では、移動距離ｄはＤ／Ｐよりも大きい。また、操作者が首を振る場合には、アバターの画像１２０を縮小する（すなわち、ｐ＜１である）ため、数３では、移動距離ｄはＤＱよりも大きい。

【0169】

［数２］
ｐ＝Ｐ（ｄ／Ｄ）
ただし、Ｄ／Ｐ＜ｄ≦Ｄである。

【0170】

［数３］
ｐ＝Ｑ（Ｄ／ｄ）
ただし、ＤＱ＜ｄ≦Ｄである。

【0171】

このように、第２実施例では、音量データに代えて、操作者の音声データに操作者の首の動きデータが付加される点と、第１実施例で示した比率算出処理の一部が第１実施例とは異なる。ただし、首の動きデータには、頷きか首振りかを識別する情報も含まれている。

【0172】

したがって、第２実施例では、操作者側端末１６の記憶部５２のプログラム記憶領域では、音量検出プログラムに代えて首の動きを検出するための動き検出プログラムが記憶される。また、第２実施例では、操作者側端末１６の記憶部５２のデータ記憶領域では、音量データに代えて首の動きデータが記憶される。

【0173】

動き検出プログラムは、音検出プログラムに従って利用者の音声を検出しているときに、慣性センサ６８で検出された角速度に対応する角速度データを記憶部５２のデータ記憶部に記憶するためのプログラムである。また、首の動きデータは、動き検出プログラムに従って検出された操作者の首の動きについてのデータである。

【0174】

図１５に示すように、第２実施例の比率算出処理では、ステップＳ７１の処理に代えて、ステップＳ７１ａの処理が実行される。ＣＰＵ２０は、ステップＳ７１ａで、操作者の首の動きを示すパラメータ（この第２実施例では、移動距離ｄ）が所定の範囲内であるかどうかを判断する。つまり、操作者が頷く場合には、移動距離ｄが数２に記載した範囲内であるかどうかを判断する。また、操作者が首を振る場合には、移動距離ｄが数３に記載した範囲内であるかどうかを判断する。

【0175】

ステップＳ７１ａで“ＮＯ”であれば、つまり、操作者の首の動きを示すパラメータが所定の範囲内でなければ、比率算出処理を終了して、制御処理にリターンする。一方、ステップＳ７１ａで“ＹＥＳ”であれば、つまり、操作者の首の動きを示すパラメータが所定の範囲内であれば、ステップＳ７３で、比率ｐを算出する。ただし、操作者が頷く場合には、ＣＰＵ２０は、数２に従って比率ｐ（第２実施例では、拡大率）を算出する。また、操作者が首を振る場合には、ＣＰＵ２０は、数３に従って比率ｐ（第２実施例では、縮小率）を算出する。

【0176】

【0177】

第２実施例においても、アバターの画像を通常時よりも拡大または縮小して表示することで、奥行き感を表現することができ、２次元の画面に表示されているにも関わらず、立体感が得られる。つまり、存在感を増したアバターを表示することができる。

【0178】

また、第２実施例においても、拡大したアバターの画像が枠画像からはみ出すように表示される場合には、３次元の現実空間に飛び出そうとしているように見える。つまり、存在感を増したアバターを表示することができる。

【0179】

なお、第２実施例では、３次元の仮想空間において、アバターの頭部モデルを設定し、操作者の首の動きに基づいてアバターの首を動かし、それによって得られる数値（パラメータ）に基づいて比率ｐを算出するようにしたが、これに限定される必要はない。他の例では、２次元の仮想空間において、アバターの頭部モデルを円または楕円で設定し、頷く場合と首を横に振る場合に分けて、２次元で計算してもよい。つまり、図１４（Ａ）および図１４（Ｂ）に示したように、それぞれに分けて計算される。この場合、基準面に代えて基準線が設定され、移動距離ｄが算出される。

【0180】

また、第２実施例では、操作者の首の動きを頷く場合と振る場合とに分けて比率ｐを算出するようにしてあるが、他の実施例では、単に、操作者の首の動きで、つまり、各軸周りの角速度の大きさ（最大値または平均値）で、比率ｐを算出するようにしてもよい。

【0181】

また、第２実施例では、チャットおよびトークにおいては、利用者側端末１２と操作者側端末１６がネットワーク１４を介して通信するようにしたが、サーバ１８を介して通信するようにしてもよい。かかる場合には、サーバ１８が操作者の音声データに付加された首の動きデータが示す操作者の首の動きに基づいて比率ｐを算出し、サーバ１８は、音声データに算出た比率ｐのデータを付加して、利用者側端末１２に送信するようにしてもよい。

【0182】

さらに、第２実施例では、慣性センサで操作者の首の動きを検出するようにしたが、これに限定される必要はない。他の例では、操作者の顔の向きに基づいて首の動きを検出するようにしてもよい。かかる場合には、慣性センサに代えて、イメージセンサ（ＣＣＤカメラすなわちＷｅｂカメラ）が操作者の顔を撮影可能な位置に設けられる。一例として、表示装置６０の上部にＣＣＤカメラが設けられ、ＣＣＤカメラ（または、表示装置６０）に正対する操作者の顔画像の向きを基準として、現在の顔の向きが現在の顔画像に基づいて算出され、現在の顔の向きに基づいて操作者の首の動きが推定される。ただし、顔の向きは、顔画像から抽出した複数の顔の特徴点の動きで検出することができる。

【0183】

＜第３実施例＞
第３実施例では、操作者側端末１６でアバターの画像１２０に対応する画像データを生成するようにした以外は第１実施例と同じであるため、重複した説明は省略する。

【0184】

簡単に説明すると、第３実施例は、少なくともトークにおいて、操作者側端末１６で、アバターの画像１２０に対応する画像データを生成し、生成した画像データを利用者側端末１２に送信し、利用者側端末１２は受信した画像データを用いてアバターの画像１２０をトーク画面１５０に表示する。

【0185】

第３実施例では、トークにおいて、操作者が発話すると、操作者側端末１６は、操作者が発話した音声およびその音量を検出し、操作者の音声の音量が所定値よりも大きい場合に数１に従って比率ｐを算出する。上述したように、操作者の音声の音量が所定値以下である場合には、比率ｐは算出されず、初期値（ｐ＝１）のままである。

【0186】

続いて、操作者側端末１６は、比率ｐに応じた大きさで、操作者の応答内容の音声に合せて発話動作を行うアバターの画像１２０の画像データを生成する。

【0187】

なお、アバターの画像１２０の画像データを生成する方法は、第１実施例で説明した方法と同じである。

【0188】

操作者側端末１６は、検出した音声の音声データと生成した画像データを利用者側端末１２に送信する。利用者側端末１２は、音声データおよび画像データを受信し、音声データの出力に合せて、画像データを用いてトーク画面１５０のアバターの画像１２０を表示する。つまり、利用者側端末１２では、スピーカ３４から操作者の音声が出力されるとともに、トーク画面１５０において、比率ｐに応じた大きさで、喋っているように表現されるアバターの画像１２０が表示される。

【0189】

したがって、第３実施例では、操作者側端末１６の記憶部（ＲＡＭ）５２に、図８に示したアバター制御プログラム３０２ｇおよび比率算出プログラム３０２ｈと同じプログラムがさらに記憶される。このため、第３実施例では、利用者側端末１２において、比率算出プログラム３０２ｈおよび比率データ３０４ｅが削除される。また、操作者側端末１６の記憶部５２のデータ記憶領域には、図８に示した比率データ３０４ｅと同じデータがさらに記憶される。

【0190】

また、第３実施例の操作者側端末１６では、トークにおいて、利用者側端末１２から送信された音声データを受信して、出力したり、操作者の音声データおよび音量データを検出して、音声データを利用者側端末１２に送信したりする処理に加えて、アバターの画像１２０の画像データを生成する処理（以下、「アバターの画像生成処理」という）が実行される。

【0191】

具体的には、操作者側端末１６は、操作者が発話した音声の音量に基づいて比率ｐを算出し、算出した比率ｐに応じた大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成する。

【0192】

操作者側端末は、検出した音声データと生成した画像データを、利用者側端末１２に送信する。また、第３実施例では、操作者側端末１６がアバターの画像１２０の画像データを生成するため、音量データは音声データに付加されない。

【0193】

以下、具体的な処理について説明する。図１６は、第３実施例における利用者側端末１２のＣＰＵ２０の制御処理の一部を示すフロー図である。図１７は、第３実施例における操作者側端末１６のＣＰＵ５０のアバターの画像生成処理を示すフロー図である。以下、ＣＰＵ２０の制御処理について説明するとともに、ＣＰＵ５０のアバターの画像生成処理について説明するが、既に説明した処理については説明を省略する。

【0194】

図１６に示すように、利用者側端末１２のＣＰＵ２０は、ステップＳ３３で“ＮＯ”である場合に、または、ステップＳ３５の処理を実行した場合に、ステップＳ９１で、応答内容の音声データおよび画像データを受信したかどうかを判断する。

【0195】

ステップＳ９１で“ＮＯ”であれば、つまり、応答内容の音声データおよび画像データを受信していない場合には、ステップＳ４７に進む。一方、ステップＳ９１で“ＹＥＳ”であれば、つまり、応答内容の音声データおよび画像データを受信した場合には、ステップＳ９３で、応答内容の音声データの出力に合せて画像データを出力して、ステップＳ３３に戻る。したがって、操作者の音声が利用者側端末１２で出力されるとともに、出力された音声に合せて、比率ｐに応じた大きさのアバターが喋る動作を行う画像が表示される。

【0196】

次に、図１７を参照して、操作者側端末１６のＣＰＵ５０のアバターの画像生成処理について説明するが、既に説明した処理内容についての説明は省略する。なお、アバターの画像生成処理は、操作者の音声がマイク６２で検出された場合に実行される。

【0197】

図１７に示すように、ＣＰＵ５０は、アバターの画像生成処理を開始すると、ステップＳ１１１で、音量が所定値よりも大きいかどうかを判断する。ステップＳ１１１で“ＮＯ”であれば、つまり、音量が所定値以下であれば、ステップＳ１１５に進む。一方、ステップＳ１１１で“ＹＥＳ”であれば、つまり、音量が所定値よりも大きければ、ステップＳ１１３で、数１に従って比率ｐを算出して、ステップＳ１１５に進む。

【0198】

ステップＳ１１５では、比率ｐに応じた大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成して、アバターの画像生成処理を終了する。

【0199】

このように生成された画像データが、応答内容の音声データとともに、利用者側端末１２に送信される。

【0200】

第３実施例においても、アバターの画像を通常時よりも拡大または縮小して表示することで、奥行き感を表現することができ、２次元の画面に表示されているにも関わらず、立体感が得られる。つまり、存在感を増したアバターを表示することができる。

【0201】

また、第３実施例においても、拡大したアバターの画像が枠画像からはみ出すように表示される場合には、３次元の現実空間に飛び出そうとしているように見える。つまり、存在感を増したアバターを表示することができる。

【0202】

なお、第３実施例では、操作者の音声の音量に基づいてアバターの画像１２０を拡大または縮小するようにしたが、これに限定される必要はない。操作者の目の開き具合に基づいてアバターの画像１２０を拡大または縮小するようにしてもよい。

【0203】

また、第３実施例では、第２実施例で示したように、操作者の首の動きに基づいてアバターの画像１２０を拡大または縮小するようにしてもよい。この場合、図１７に示したアバターの画像生成処理において、操作者が発話するときの音声データのみならず、操作者の首の動きデータが検出される。また、図１７に示したステップＳ１１１の処理に代えて、操作者の首の動きを示すパラメータ（第３実施例では、移動距離ｄ）が所定の範囲内であるかどうかを判断する処理が実行される。つまり、操作者が頷く場合には、移動距離ｄが数２に記載した範囲内であるかどうかを判断する。また、操作者が首を振る場合には、移動距離ｄが数３に記載した範囲内であるかどうかを判断する。操作者の首の動きを示すパラメータが所定の範囲内でなければ、ステップＳ１１５に進み、操作者の首の動きを示すパラメータが所定の範囲内であれば、ステップＳ１１３で、数２または数３に従って比率ｐを算出して、ステップＳ１１５に進む。

【0204】

＜第４実施例＞
第４実施例では、サーバ１８側で制御処理を実行するようにした以外は、第１実施例と同じであるため、重複した説明は省略する。

【0205】

上述したように、第４実施例では、サーバ１８が制御処理を実行するため、制御処理に関しては、利用者側端末１２は入出力装置として機能する。したがって、利用者側端末１２は、制御処理において、利用者の操作または入力に応じた操作データおよび利用者の音声に応じた音声データをサーバ１８に送信し、サーバ１８が送信した画像データ、テキストデータおよび音声データを出力する。

【0206】

第４実施例の情報処理システム１０では、第１実施例で説明したアプリはサーバ１８に記憶されており、サーバ１８で実行される。

【0207】

したがって、第４実施例では、サーバ１８の記憶部（ＲＡＭ）１８ｂのプログラム記憶領域には、図８に示した起動判断プログラム３０２ａ、メイン処理プログラム３０２ｂ、通信プログラム３０２ｄ、画像生成プログラム３０２ｅ、画像出力プログラム３０２ｆ、アバター制御プログラム３０２ｇ、比率算出プログラム３０２ｈおよび音出力プログラム３０２ｊと同じプログラムが記憶される。ただし、第４実施例では、画像出力プログラム３０２ｆは、画像生成プログラム３０２ｅに従って生成した画像データを利用者側端末１２に出力（または、送信）する。また、音出力プログラム３０２ｊは、受信した操作者の応答内容の音声データを利用者側端末１２に出力（または、送信）する。

【0208】

また、サーバ１８の記憶部（ＲＡＭ）１８ｂのデータ記憶領域には、送信データ、受信データ、画像生成データおよび比率データが記憶される。送信データは、利用者側端末１２に送信するデータであり、ウェブ画面１００、選択画面１１０、チャット画面１３０、トーク画面１５０の画像データ、アバターの画像１２０の画像データ、チャットにおける利用者の質問内容についてのテキストデータ、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける利用者の質問内容についての音声データおよび操作者の応答内容についての音声データである。受信データは、操作者側端末１６から送信され、受信したデータであり、チャットにおける操作者の応答内容についてのテキストデータおよびトークにおける操作者の応答内容についての音声データ（第４実施例では、音量データが付加された音声データ）である。

【0209】

画像生成データは、利用者側端末１２の表示装置３０に表示される各種の画面を生成するためのデータであり、アバターの画像１２０を生成するためのデータを含む。また、アバターの画像１２０を生成するためのデータは、アバターの画像１２０についての静止した状態の画像データ、無意識動作および挨拶の動作についてのアニメーションデータを含む。比率データは、比率ｐについてのデータである。

【0210】

また、第４実施例では、サーバ１８が制御処理を実行するため、利用者側端末１２では、起動判断プログラム３０２ａ、アバター制御プログラム３０２ｇおよび比率算出プログラム３０２ｈを省略することができる。同様に、利用者側端末１２には、比率データ３０４ｅは記憶されない。

【0211】

具体的には、サーバ１８のＣＰＵ１８ａが図１８－図２０に示す制御処理を実行する。以下、図１８－図２０を用いてサーバ１８のＣＰＵ１８ａが実行する制御処理について説明するが、既に説明した内容と重複する内容については簡単に説明することにする。

【0212】

図１８に示すように、サーバ１８のＣＰＵ１８ａは、制御処理を開始すると、ステップＳ２０１で、アプリの起動条件を満たすかどうかを判断する。ステップＳ２０１で“ＮＯ”であれば、ステップＳ２０１に戻る。一方、ステップＳ２０１で“ＹＥＳ”であれば、ステップＳ２０３で、アプリを起動する。

【0213】

続くステップＳ２０５では、図４に示したような選択画面１１０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図４に示したような選択画面１１０の画像データを生成して利用者側端末１２に出力（または、送信）する。したがって、利用者側端末１２の表示装置３０において、選択画面１１０がウェブ画面１００の前面に表示される。以下、利用者側端末１２に画面が表示される場合について同様である。

【0214】

ただし、アプリを起動した当初では、ＣＰＵ１８ａは、静止した状態のアバターの画像１２０を表示枠１１２に表示する選択画面１１０の画像データを生成して利用者側端末１２に送信し、次いで、アバターに挨拶の動作を行わせるためのアニメーションデータを利用者側端末１２に出力する。

【0215】

次のステップＳ２０７では、アバターの画像１２０に待機動作を実行させる。ここでは、ＣＰＵ１８ａは、アバターに無意識動作を行わせるためのアニメーションデータを利用者側端末１２に送信する。ただし、ＣＰＵ１８ａは、選択画面１１０において利用者の操作が無い場合において、数秒または数十秒毎にアバターに無意識動作を行わせるためのアニメーションデータを送信する。

【0216】

続いて、ステップＳ２０９で、ボタン操作が有るかどうかを判断する。ここでは、ＣＰＵ１８ａは、選択画面１１０のボタン１１４またはボタン１１６がオンされたことを示す操作データを利用者側端末１２から受信したかどうかを判断する。なお、図示は省略するが、ボタン１１８がオンされたことを示す操作データを受信した場合には、選択画面１１０を閉じる（非表示する）ことを利用者側端末１２に指示して、アプリを終了する。

【0217】

ステップＳ２０９で“ＮＯ”であれば、ステップＳ２０７に戻る。一方、ステップＳ２０９で“ＹＥＳ”であれば、ステップＳ２１１で、チャットかどうかを判断する。ここでは、ＣＰＵ１８ａは、操作データがボタン１１４のオンを示すかどうかを判断する。

【0218】

ステップＳ２１１で“ＮＯ”であれば、つまり、ボタン１１６のオンであれば、図２０に示すステップＳ２３１に進む。一方、ステップＳ２１１で“ＹＥＳ”であれば、つまり、ボタン１１４のオンであれば、図１９に示すステップＳ２１３で、図５に示したようなチャット画面１３０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図５に示したようなチャット画面１３０の画像データを生成して利用者側端末１２に送信する。

【0219】

したがって、利用者側端末１２の表示装置３０では、選択画面１１０が非表示され、ウェブ画面１００の前面にチャット画面１３０が表示される。

【0220】

次のステップＳ２１５では、質問内容の入力かどうかを判断する。ここでは、ＣＰＵ１８ａは、質問内容（テキスト）のキー入力を示す操作データを利用者側端末１２から受信したかどうかを判断する。

【0221】

ステップＳ２１５で“ＹＥＳ”であれば、ステップＳ２１７で、操作データが示すキー入力に対応する文字または文字列を表示枠１３６にテキストで表示する画像データを生成して利用者側端末１２に送信して、ステップＳ２１５に戻る。

【0222】

したがって、利用者側端末１２では、チャット画面１３０の表示枠１３６に、利用者が入力した質問内容についての文字または文字列が順次表示される。

【0223】

一方、ステップＳ２１５で“ＮＯ”であれば、ステップＳ２１９で、質問内容の送信かどうかを判断する。ここでは、ＣＰＵ１８ａは、質問内容が確定したこと（または、質問内容を送信すること）を示す操作データを利用者側端末１２から受信したかどうかを判断する。

【0224】

ステップＳ２１９で“ＹＥＳ”であれば、ステップＳ２２１で、質問内容のテキストデータを操作者側端末１６に送信して、ステップＳ２２３に進む。ただし、質問内容のテキストデータは、今回の質問において、利用者が入力した文字または文字列を時系列に並べたデータである。一方、ステップＳ２１９で“ＮＯ”であれば、ステップＳ２２３に進む。

【0225】

ステップＳ２２３では、応答内容のテキストデータを操作者側端末１６から受信したかどうかを判断する。ステップＳ２２３で“ＮＯ”であれば、ステップＳ２２７に進む。一方、ステップＳ２２３で“ＹＥＳ”であれば、ステップＳ２２５で、応答内容の表示に合せてアバターを発話させて、ステップＳ２２７に進む。ステップＳ２２５では、ＣＰＵ１８ａは、応答内容を表示枠１３４に一文字ずつテキストで表示する画像データを生成して利用者側端末１２に送信するとともに、その表示に合せて喋るように口唇部を変化させて発話動作を行うアバターの画像１２０の画像データを生成して利用者側端末１２に送信する。

【0226】

したがって、利用者側端末１２では、チャット画面１３０の表示枠１３４に応答内容が一文字ずつ表示されるとともに、その応答内容の表示に合せて発話動作を行うアバターの画像１２０が表示枠１３２に表示される。

【0227】

ステップＳ２２７では、チャットの終了かどうかを判断する。ここでは、ＣＰＵ１８ａは、ボタン１３８のオンを示す操作データを受信したり、操作者側端末１６からチャットの終了を指示する操作データを受信したりしたかどうかを判断する。

【0228】

ステップＳ２２７で“ＮＯ”であれば、ステップＳ２１５に戻る。一方、ステップＳ２２７で“ＹＥＳ”であれば、ステップＳ２２９で、チャット画面１３０を閉じることを利用者側端末１２に指示して、図１８に示したステップＳ２０５に戻る。

【0229】

また、上述したように、ステップＳ２１１で“ＮＯ”であれば、図２０に示すステップＳ２３１で、図６に示したようなトーク画面１５０を利用者側端末１２に表示する。つまり、ＣＰＵ１８ａは、図６に示したようなトーク画面１５０の画像データを生成して利用者側端末１２に送信する。

【0230】

したがって、利用者側端末１２の表示装置３０では、選択画面１１０が非表示され、ウェブ画面１００の前面にトーク画面１５０が表示される。

【0231】

続くステップＳ２３３では、利用者の質問内容の音声データを利用者側端末１２から受信したかどうかを判断する。ステップＳ２３３で“ＮＯ”であれば、つまり、質問内容の音声データを受信していなければ、ステップＳ２３７に進む。一方、ステップＳ２３３で“ＹＥＳ”であれば、つまり、質問内容の音声データを受信すれば、ステップＳ２３５で、質問内容の音声データを操作者側端末１６に送信して、ステップＳ２３７に進む。

【0232】

つまり、サーバ１８は受信した質問内容の音声データを操作者側端末１６に送信する。したがって、操作者側端末１６では、スピーカ６４から利用者の音声が出力される。一方、操作者側端末１６は、操作者の応答内容の音声データに音量データを付加して、サーバ１８に送信する。

【0233】

ステップＳ２３７では、操作者の応答内容の音声データを受信したかどうかを判断する。ステップＳ２３７で“ＹＥＳ”であれば、つまり、操作者の応答内容の音声データを受信すれば、ステップＳ２３９で、図１２に示した比率算出処理を実行して、ステップＳ２４１で、比率ｐに応じた大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成する。

【0234】

ただし、ステップＳ２４１で生成されるアバターの画像１２０の画像データは、第３実施例（ステップＳ１１５）と同様であり、比率ｐに応じた大きさで、操作者の音声にリップシンクして発話動作を行うアバターの画像１２０についての画像データである。

【0235】

次のステップＳ２４３では、受信した応答内容の音声データとステップＳ２４１で生成した画像データを利用者側端末１２に送信して、ステップＳ２３３に戻る。したがって、利用者側端末１２では、応答内容の音声がスピーカ３４から出力されるとともに、トーク画面１５０において、比率ｐに応じた大きさで、応答内容の音声にリップシンクして発話動作を行うアバターの画像１２０が表示枠１５２に表示される。

【0236】

また、ステップＳ２３７で“ＮＯ”であれば、ステップＳ２４５で、比率ｐをリセットして、ステップＳ２４７で、通常の大きさでアバターの画像１２０の画像データを利用者側端末１２に送信して、ステップＳ２４９に進む。したがって、利用者側端末１２では、操作者の音声の出力が終了すると、アバターの画像１２０の大きさが通常時の大きさに戻される。

【0237】

ステップＳ２４９では、トークの終了かどうかを判断する。ここでは、ＣＰＵ１８ａは、利用者側端末１２からボタン１５４のオンを示す操作データを受信したり、操作者側端末１６からトークの終了を指示する操作データを受信したりしたかどうかを判断する。

【0238】

ステップＳ２４９で“ＮＯ”であれば、ステップＳ２３３に戻る。一方、ステップＳ２４９で“ＹＥＳ”であれば、ステップＳ２５１で、トーク画面１５０を閉じることを利用者側端末１２に指示して、ステップＳ２０５に戻る。

【0239】

第４実施例においても、アバターの画像を通常時よりも拡大または縮小して表示することで、奥行き感を表現することができ、２次元の画面に表示されているにも関わらず、立体感が得られる。つまり、存在感を増したアバターを表示することができる。

【0240】

また、第４実施例においても、拡大したアバターの画像が枠画像からはみ出すように表示される場合には、３次元の現実空間に飛び出そうとしているように見える。つまり、存在感を増したアバターを表示することができる。

【0241】

なお、第４実施例では、トークにおける利用者の質問内容の音声は、利用者側端末１２からサーバ１８を介して操作者側端末１６に送信されるが、第１実施例と同様に、利用者側端末１２から操作者側端末１６に送信されるようにしてもよい。

【0242】

また、第４実施例では、第２実施例で示したように、操作者の首の動きに基づいてアバターの画像１２０を拡大または縮小するようにしてもよい。この場合、操作者側端末１６は、首の動きデータを付加した音声データをサーバ１８に送信する。そして、ステップＳ４５で、図１５に示した第２実施例の比率算出処理を実行する。

【0243】

上述の各実施例で示したように、情報処理システム１０においては、比率ｐを、利用者側端末１２、操作者側端末１６またはサーバ１８のいずれかで算出することができる。また、情報処理システム１０においては、アバターの画像１２０を、利用者側端末１２、操作者側端末１６またはサーバ１８のいずれかで生成することができる。

【0244】

また、上述の各実施例では、比率ｐに応じた大きさのアバターの画像１２０を表示するとともに、応答内容の音声に合わせて発話動作を行うアバターの画像１２０を表示するようにしたが、発話動作を行わずに、比率ｐに応じた大きさでアバターの画像１２０を表示するだけでも、アバターの存在感を増すことができる。

【0245】

さらに、上述の各実施例では、比率ｐに応じた大きさのアバターの画像１２０を表示するようにしたが、比率ｐを算出せずに、操作者の音声を出力するときに、アバターの画像１２０を表示枠１５２からはみ出す大きさに拡大するようにしてもよい。たとえば、アバターの画像１２０が通常時の１．４倍の大きさにされる。ただし、これは一例であり、表示枠１５２からはみ出す大きさにされればよい。具体的には、第１実施例および第２実施例では、図１１に示すステップＳ３９およびＳ４５が削除され、ステップＳ４３で、ＣＰＵ２０は、１．４倍に拡大した大きさで、応答内容の音声データに合せて発話動作を行うアバー他の画像データを生成および出力する。また、第３実施例では、図１７に示すステップＳ１１１およびＳ１１３が削除され、ステップＳ１１５で、ＣＰＵ５０は、１．４倍に拡大した大きさで、応答内容の音声データに合せて発話動作を行うアバー他の画像データを生成する。さらに、第４実施例では、図２０に示すステップＳ２３９およびＳ２４５が削除され、ステップＳ２４１において、ＣＰＵ１８ａは、１．４倍に拡大した大きさで、応答内容の音声データに合せて発話動作を行うアバターの画像１２０の画像データを生成する。

【0246】

このように、比率ｐを算出しない場合には、操作者側端末１６は、操作者の音声の音声データのみを利用者側端末１２またはサーバ１８に送信し、音量データまたは首の動きデータを送信する必要はなく、音量データまたは首の動きデータを検出する必要もない。

【0247】

また、比率ｐを算出しない場合には、操作者の音声を検出したときの音声の音量または操作者の首の動きは関係無いため、チャットにおいて、操作者の応答内容のテキストを表示するときに、アバターの画像１２０を表示枠１５２からはみ出す大きさに拡大するようにしてもよい。このようにしても、存在感を増したアバターを表示することができる。具体的には、第１実施例、第２実施例および第３実施例において、図１０に示すステップＳ２５において、ＣＰＵ２０は、応答内容を表示枠１３４に一文字ずつテキストで表示し、１．４倍に拡大した大きさで、その表示に合せてアバターが喋るように口唇部を変化させて発話動作を行うアバターの画像１２０を表示枠１３２に表示する。ただし、この場合の「通常時」は、応答内容のテキストを表示していない状態を含む。

【0248】

さらに、比率ｐを算出しない場合には、アバターの画像１２０の大きさを拡大することに代えて、アバターの画像１２０を変化（または、変形）させることで、アバターの画像１２０を表示枠１３２または表示枠１５２からはみ出して表示することもできる。一例として、図２１に示すように、アバターの手と頭部の一部を、枠画像（表示枠１５２）からはみ出したアバターの画像１２０を表示することができる。このようにしても、アバターが３次元の現実空間に飛び出そうとしているように見える。つまり、存在感を増したアバターを表示することができる。

【0249】

ただし、比率ｐを算出する場合であり、かつ、比率ｐが１よりも大きい場合には、比率ｐの大きさに比例して、表示枠１５２からはみ出す度合が大きくなるように、アバターの画像１２０を変化させるようにしてもよい。

【0250】

以上のように、アバターの画像１２０を拡大または縮小したり、アバターの画像１２０を変化（または、変形）させたりして、アバターの態様を変化させることで、存在感を増したアバターを表示することができる。

【0251】

また、比率ｐを算出せずに、アバターの画像１２０を拡大したり変化させたりして、アバターの態様を変化させる場合にも、上述したように、発話動作を行わずに、存在感を増したアバターを表示することができる。

【0252】

なお、上述の各実施例では、チャットでは、操作者との間でテキストをやり取りするようにしたが、利用者側端末は、ネットワーク（クラウド）上のチャットサービスサーバにアクセスし、チャットボットとメッセージをやり取りするようにしてもよい。

【0253】

また、上述の各実施例では、トーク画面において、アバターの画像は、アバターの頭部および首についての画像であり、操作者の音声を出力する場合に、その音量または操作者の首の動きに応じて、アバターの頭部および首の画像を拡大または縮小するようにしたが、アバターの上半身または全身の画像を表示する場合には、アバターの上半身または全身の画像を拡大または縮小するようにしてもよい。この場合には、アバターの発話動作には、上半身または全身を用いた身振り手振りも含まれる。

【0254】

さらに、上述の各実施例では、操作者側端末から送信される音声データに含まれる音量データまたは首の動きデータのように、操作者が発話したときの所定の情報に基づいて、利用者側端末で比率を算出するようにしたが、比率は操作者側端末で算出してもよい。かかる場合には、操作者側端末は、音声データに、算出した比率データを付加して、利用者側端末に送信する。利用者側端末では、受信した音声データに付加された比率データ示す比率でアバターの画像を表示（描画）する。このように、操作者側端末から送信する音声データに比率データを付加する場合には、この比率データが所定の情報である。

【0255】

さらにまた、上述の各実施例では、操作者の音声を利用者側端末のスピーカからそのまま出力するようにしたが、操作者の音声を変換した音声を出力するようにしてもよい。

【0256】

また、上述の各実施例では、チャットまたはトークを実行可能なアプリについて説明したが、これに限定される必要はない。トーク（つまり、音声のやり取り）のみを実行可能なアプリでもよい。また、他の例では、ウェブ会議またはビデオ通話を行う場合にも適用でき、ウェブ会議またはビデオ通話においてアバターの画像を表示する場合に、対応する人間が発話する音声の音量または発話するときの当該人間の首の動きに応じた比率ｐで拡大または縮小される。つまり、本願発明は、或る人間が発話する音声を当該或る人間と対話する他の人間が使用する端末で出力するとともに、当該或る人間に対応するアバターの画像を当該他の人間が使用する端末に表示する場合に適用可能である。

【0257】

さらに、上述の各実施例では、起動条件を満たす場合に、アプリを起動するようにしたが、ウェブ画面が表示されるときに、アプリを起動するようにしてもよい。

【0258】

なお、上述の各実施例で示したフロー図の各ステップは同じ結果が得られる場合には、処理する順番を変更することが可能である。

【0259】

また、上述の各実施例で挙げた各種の画面、角度などの具体的数値はいずれも単なる例示であり、必要に応じて適宜変更可能である。たとえば、トークの場合には、トーク画面を表示することに代えて、アバターの画像および表示枠（枠が像）のみを表示することも可能である。

【符号の説明】

【0260】

１０ …情報処理システム
１２ …利用者側端末
１４ …ネットワーク
１６ …操作者側端末
１８ …サーバ
１８ａ、２０、５０ …ＣＰＵ
１８ｂ、２２、５２ …記憶部
２４、５４ …通信Ｉ／Ｆ
２６、５６ …入出力Ｉ／Ｆ
２８、５８ …入力装置
３０、６０ …表示装置
３２、６２ …マイク
３４、６４ …スピーカ
６６ …センサＩ／Ｆ
６８ …慣性センサ

【図1】