特開2023-30986 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人成蹊学園の特許一覧

特開2023-30986情報処理装置、情報処理システムおよびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023030986

(43)【公開日】2023-03-08

(54)【発明の名称】情報処理装置、情報処理システムおよびプログラム

(51)【国際特許分類】

G06F 3/01 20060101AFI20230301BHJP

G06F 13/00 20060101ALI20230301BHJP

G06F 3/16 20060101ALI20230301BHJP

G06T 13/40 20110101ALI20230301BHJP

【ＦＩ】

G06F3/01 510

G06F13/00 550A

G06F3/16 650

G06F3/16 690

G06F3/16 620

G06F3/16 610

G06T13/40

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021136427

(22)【出願日】2021-08-24

(71)【出願人】

【識別番号】397038037

【氏名又は名称】学校法人成蹊学園

(74)【代理人】

【識別番号】110000420

【氏名又は名称】弁理士法人ＭＩＰ

(72)【発明者】

【氏名】二瓶芙巳雄

(72)【発明者】

【氏名】中野有紀子

【テーマコード（参考）】

5B050

5B084

5E555

【Ｆターム（参考）】

5B050BA08

5B050BA12

5B050CA07

5B050CA08

5B050DA10

5B050EA07

5B050EA13

5B050EA18

5B050EA19

5B050EA24

5B050FA02

5B050FA09

5B050FA10

5B050GA08

5B084AA01

5B084AA12

5B084AB07

5B084AB14

5B084BB17

5B084CA07

5B084DC02

5B084DC03

5B084EA34

5E555AA46

5E555AA47

5E555BA02

5E555BB02

5E555BC08

5E555BD01

5E555CA42

5E555CA47

5E555CB64

5E555CB67

5E555CC22

5E555DA23

5E555DB32

5E555DC21

5E555DC30

5E555DC84

5E555DD06

5E555DD07

5E555EA11

5E555EA22

5E555EA23

5E555FA00

(57)【要約】

【課題】高性能なコンピュータを使用しなくても、仮想エージェントを開発・動作させることが可能となる装置、システムおよびプログラムを提供すること。
【解決手段】情報処理装置は、ユーザと対面して会話を行う仮想エージェントの動作に関連するマルチモーダル情報を、ネットワークを介して受信する通信手段と、通信手段との間で通信を行い、該通信手段が受信したマルチモーダル情報に基づき、仮想エージェントの動作を制御するための制御情報を生成する生成手段とを含む。通信手段は、生成手段により生成された制御情報を、仮想エージェントが表示されるユーザ端末へネットワークを介して送信する。
【選択図】図３

【特許請求の範囲】

【請求項1】

仮想エージェントの動作を制御する情報処理装置であって、
ユーザと対面して会話を行う前記仮想エージェントの動作に関連するマルチモーダル情報を、ネットワークを介して受信する通信手段と、
前記通信手段との間で通信を行い、該通信手段が受信した前記マルチモーダル情報に基づき、前記仮想エージェントの動作を制御するための制御情報を生成する生成手段と
を含み、
前記通信手段は、前記生成手段により生成された前記制御情報を、前記仮想エージェントが表示されるユーザ端末へ前記ネットワークを介して送信する、情報処理装置。

【請求項2】

前記通信手段との間で通信を行い、該通信手段が受信した前記マルチモーダル情報を処理する処理手段を含み、
前記生成手段は、前記通信手段から取得した前記処理手段による処理後のマルチモーダル情報に基づき、前記制御情報を生成する、請求項１に記載の情報処理装置。

【請求項3】

前記通信手段は、前記ユーザ端末から受信したユーザの音声データおよび映像データを前記マルチモーダル情報として受信する、請求項２に記載の情報処理装置。

【請求項4】

前記処理手段は、
前記音声データに基づき、前記ユーザの音声の特徴量を抽出する音声処理手段と、
前記音声処理手段により抽出された前記特徴量に基づき、音声認識処理を実行し、形態素解析を行う音声認識手段と、
前記映像データに基づき、前記ユーザの映像の特徴量を抽出し、抽出した前記特徴量から該ユーザの表情を推定する映像処理手段と
を含む、請求項３に記載の情報処理装置。

【請求項5】

前記生成手段は、前記音声処理手段により抽出された前記特徴量と、前記音声認識手段により実行された音声認識処理および形態素解析の結果と、前記映像処理手段により推定されたユーザの表情情報とに基づき、前記仮想エージェントの表情を変える命令を含む前記制御情報を生成する対話制御手段を含む、請求項４に記載の情報処理装置。

【請求項6】

前記対話制御手段は、前記音声処理手段により抽出された前記特徴量と、前記音声認識手段により実行された音声認識処理および形態素解析の結果と、前記映像処理手段により推定されたユーザの表情情報とに基づき、前記仮想エージェントの表情を変える命令と該仮想エージェントが発話する発話文とを含む前記制御情報を生成する、請求項５に記載の情報処理装置。

【請求項7】

前記生成手段は、前記対話制御手段が生成した前記制御情報に含まれる前記発話文に基づき、前記仮想エージェントに発声させる音声データと、前記音声データに合わせて前記仮想エージェントの口を変形させるリップシンク情報とを生成する音声合成手段を含み、
前記制御情報は、生成された前記音声データおよび前記リップシンク情報、または生成された前記音声データおよび前記リップシンク情報の記憶場所を示すパス情報を含む、請求項６に記載の情報処理装置。

【請求項8】

前記生成手段は、前記仮想エージェントに発声させる音声データと、前記音声データに合わせて前記仮想エージェントの口を変形させるリップシンク情報とを生成する、請求項１に記載の情報処理装置。

【請求項9】

請求項１～８のいずれか１項に記載の情報処理装置と、ユーザと対面して会話を行う仮想エージェントを表示し、前記情報処理装置からネットワークを介して受信した制御情報に基づき、前記仮想エージェントを動作させるユーザ端末とを含む、情報処理システム。

【請求項10】

仮想エージェントの動作の制御をコンピュータに実行させるためのプログラムであって、
ユーザと対面して会話を行う前記仮想エージェントの動作に関連するマルチモーダル情報を、ネットワークを介して受信するステップと、
受信した前記マルチモーダル情報に基づき、前記仮想エージェントの動作を制御するための制御情報を生成するステップと、
生成された前記制御情報を、前記仮想エージェントが表示されるユーザ端末へ前記ネットワークを介して送信するステップと
を実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、仮想エージェントの動作を制御する情報処理装置、情報処理システムおよびその制御をコンピュータに実行させるためのプログラムに関する。

【背景技術】

【0002】

人のマルチモーダルな表現を表出しながら、人とコミュニケーションするＥＣＡ(Embodied Conversation Agent)と呼ばれる、アニメーションエージェントやロボットが知られている。そのＥＣＡを開発するためのフレームワークとして、人のマルチモーダル情報を入力とするＧＥＣＡ(Generic ECA)が知られている（例えば、非特許文献１参照）。マルチモーダル情報は、人がコミュニケーションする際に使用する多様な情報であり、例えば、ジェスチャー、視線、発声に伴う言語情報、韻律情報、表情等がある。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Hung-Hsuan Huang, Toyoaki Nishida, Aleksandra Cerekovic, Igor S. Pandzic, and Yukiko Nakano,“The Design of a Generic Framework for Integrating ECA Components”, Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems, International Foundation for Autonomous Agents and Multiagent Systems, 2008, Vol.1, p.127-134

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来のＧＥＣＡでは、ローカルのコンピュータ上でＥＣＡを開発・動作させなければならないので、ＥＣＡの開発に必要なコンピュータの水準が高く、ユーザに対して高性能なコンピュータの所有を強制することになる。このような問題は、開発者がユーザに対し、高性能なコンピュータを貸し出すことで解決することができるが、コンピュータの貸し出しは手間が多く、開発者にとって稼働中のシステムの変更が容易ではないという問題があった。

【課題を解決するための手段】

【0005】

そこで、本発明の発明者らは、鋭意検討の結果、これまでネットワークを介してＥＣＡにアクセスすることが実現されていないことに鑑み、ユーザがウェブブラウザを通じてアクセスできるＥＣＡ動作のためのプラットフォームを提供することにより、上記の課題を解決することができることを見出した。上記課題は、本発明の装置、システムおよびプログラムを提供することにより解決される。

【0006】

本発明によれば、仮想エージェントの動作を制御する情報処理装置であって、
ユーザと対面して会話を行う仮想エージェントの動作に関連するマルチモーダル情報を、ネットワークを介して受信する通信手段と、
通信手段との間で通信を行い、該通信手段が受信したマルチモーダル情報に基づき、仮想エージェントの動作を制御するための制御情報を生成する生成手段と
を含み、
通信手段は、生成手段により生成された制御情報を、仮想エージェントが表示されるユーザ端末へネットワークを介して送信する、情報処理装置が提供される。

【発明の効果】

【0007】

本発明によれば、高性能なコンピュータを使用しなくても、仮想エージェントを開発・動作させることが可能となる。

【図面の簡単な説明】

【0008】

【図1】情報処理システムの構成例を示した図。

【図2】情報処理装置としてのサーバのハードウェア構成の一例を示した図。

【図3】クライアント装置およびサーバの機能構成の一例を示した図。

【図4】情報処理システムにより実行される処理の一例を示したフローチャート。

【図5】仮想エージェントとユーザの映像を表示した例を示した図。

【図6】表情特徴を推定した推定値の一例を示した図。

【図7】７値の表情の確率分布の推定値の一例を示した図。

【図8】韻律情報の一例を示した図。

【図9】発話開始・終了の状態および音声ファイルのパスを含む、プラットフォームサーバへ返却される情報の一例を示した図。

【図10】音声認識結果の一例を示した図。

【図11】形態素情報の一例を示した図。

【図12】仮想エージェントが表情を変える際に必要な情報の一例を示した図。

【図13】リップシンク情報の一例を示した図。

【図14】発話文と音声ファイルの配置場所とを含むデータの一例を示した図。

【図15】情報処理システムの別の構成例を示した図。

【図16】仮想エージェントが表情を変えるメッセージの一例を示した図。

【発明を実施するための形態】

【0009】

本発明の情報処理システムは、ユーザと会話を行う仮想エージェントを制御するシステムである。仮想エージェントは、マルチモーダルな表現を表出しながら、人と会話を行うＥＣＡである。情報処理システムは、ＥＣＡを開発するためのフレームワークであるＧＥＣＡを１つの装置に実装するのではなく、ネットワークを介して通信可能なクライアント装置と情報処理装置としてのサーバの２つに分けて実装し、ユーザが高性能なコンピュータを使用することなく、ＥＣＡを開発・動作させることを可能にしたシステムである。

【0010】

はじめに、ＧＥＣＡについて説明する。ＧＥＣＡは、大きく分けて、ＧＥＣＡコンポーネントとＧＥＣＡプラットフォームの２つから構成される。ＧＥＣＡコンポーネントには、ユーザの行動を検出するコンポーネント、対話のシナリオを制御するコンポーネント、ユーザに対するシステムの出力のためのコンポーネント等が含まれる。ＧＥＣＡプラットフォームは、ＧＥＣＡコンポーネントから送られるデータを他のコンポーネントに共有するための仕組みをもつ。

【0011】

ＧＥＣＡコンポーネントとＧＥＣＡプラットフォームとの間には、ＧＥＣＡプラグと呼ばれるコネクタが設けられ、このコネクタを経由して通信が行われる。ＧＥＣＡでは、全てのコンポーネントが一意な状態が保証されたデータにアクセスするため、複数のコンポーネントがＧＥＣＡプラットフォームを中心に接続される。

【0012】

ＧＥＣＡの具体的な動作について簡単に説明する。ＧＥＣＡコンポーネントのうち、ユーザの行動を検出するコンポーネントが、ユーザのデータを計測する。計測されたデータは、ＧＥＣＡプラグを経由し、ＧＥＣＡプラットフォームへ送信される。送信されたデータは、ＧＥＣＡプラットフォーム内のブラックボードマネージャに書き込まれる。ブラックボードマネージャに書き込まれたデータは、全てのＧＥＣＡコンポーネントからアクセス可能となる。

【0013】

ＧＥＣＡコンポーネント内の対話のシナリオを制御するコンポーネントが、ＧＥＣＡプラットフォームにアクセスし、対話のシナリオを決定する。対話のシナリオは、ユーザとの会話において、ユーザから質問を受けた場合、その質問に対する回答の内容である。決定されたシナリオは、ＧＥＣＡプラットフォームへ送信される。

【0014】

最後に、ユーザに対して仮想エージェントとしてエージェントのアニメーションを生成するため、ＣＧアニメーションプレーヤが、ＧＥＣＡプラットフォームへ送信されたシナリオに基づき、アニメーションを動作させる。

【0015】

ＧＥＣＡが提案された当時は、コンピュータの計算能力やネットワーク技術が成熟していなかったことから、ローカルのコンピュータ上で、しかも高性能なコンピュータでしか、ＥＣＡを開発・動作させることができなかった。コンピュータの計算能力やネットワーク技術が発展した現在においても、ネットワークを介してＥＣＡにアクセスすることは実現されていない。

【0016】

本発明は、ネットワークを介してＥＣＡにアクセスすることを可能にした装置、システム、プログラムを提供するものである。

【0017】

図１は、情報処理システムの構成例を示した図である。情報処理システムは、インターネット等のネットワーク１０に接続されたクライアント装置１１と情報処理装置としてのサーバ１２とを含んで構成される。なお、クライアント装置１１は、１台に限られるものではなく、複数台であってもよい。サーバ１２は、クラウド上に設置されていてもよい。

【0018】

クライアント装置１１は、ユーザの映像や音声を取得し、取得した映像や音声を、ＥＣＡとしての仮想エージェントの動作に関連するマルチモーダル情報として、ネットワーク１０を介してサーバ１２へ送信する。また、クライアント装置１１は、仮想エージェントを表示し、サーバ１２から送信された制御情報に基づき、仮想エージェントを動作させる。

【0019】

サーバ１２は、クライアント装置１１から受信したマルチモーダル情報から仮想エージェントの動作に必要な情報を生成し、生成した情報を制御情報としてクライアント装置１１へ送信する。

【0020】

図２は、サーバ１２のハードウェア構成の一例を示した図である。なお、クライアント装置１１は、サーバ１２のハードウェア構成と同様であるため、ここではサーバ１２についてのみ説明する。サーバ１２は、一般的なコンピュータと同様のハードウェア構成であり、ＣＰＵ(Central Processing Unit)２０、ＲＯＭ(Read Only Memory)２１、ＲＡＭ(Random Access Memory)２２、ＨＤＤ(Hard Disk Drive)２３、通信Ｉ／Ｆ２４、入出力Ｉ／Ｆ２５、入力装置２６、表示装置２７を含む。なお、入出力Ｉ／Ｆ２５、入力装置２６、表示装置２７は、必要に応じて設けることができる。

【0021】

ＣＰＵ２０は、サーバ１２の動作を制御し、ＧＥＣＡコンポーネントの一部やＧＥＣＡプラットフォームの処理を実行する。なお、ＧＥＣＡコンポーネントの残りの処理は、クライアント装置１１が備えるＣＰＵにより実行される。ＲＯＭ２１は、サーバ１２を起動させるための起動プログラムやファームウェア等を記憶する。ＲＡＭ２２は、ＣＰＵ２０に対して作業領域を提供する。ＨＤＤ２３は、上記のＧＥＣＡコンポーネントの一部やＧＥＣＡプラットフォームの処理を実現するためのプログラムやＯＳ(Operating System)等を記憶する。なお、サーバ１２は、ＨＤＤ２３に代えてＳＳＤ(Solid State Drive)を備えていてもよい。

【0022】

通信Ｉ／Ｆ２４は、ネットワーク１０に接続し、ネットワーク１０を介した通信を制御する。入出力Ｉ／Ｆ２５は、入力装置２６から入力された情報を受け付け、表示装置２７への情報の表示を制御する。入力装置２６は、マウスやキーボード等であり、表示装置２７は、ディスプレイ等である。なお、サーバ１２は、その他のハードウェアを備えていてもよい。

【0023】

図３は、クライアント装置１１およびサーバ１２の機能構成の一例を示したブロック図である。クライアント装置１１は、ＣＰＵがプログラムを実行することにより各機能部を実現し、各機能部を備える。なお、各機能は、その一部や全部が専用の回路等のハードウェアにより実現されてもよい。これは、サーバ１２も同様である。

【0024】

クライアント装置１１は、撮像装置３０、音声入力装置３１が接続され、撮像装置３０により撮像された映像を映像データとして、また、音声入力装置３１へ入力された音声を音声データとして取得するデータ取得部と、取得したデータをサーバ１２へ送信する通信部と、仮想エージェントを生成して表示させ、サーバ１２から通信部により取得した制御情報に基づき、仮想エージェントを動作させるエンジン部とを含む。この例では、クライアント装置１１に撮像装置３０および音声入力装置３１が接続された例を示しているが、これに限られるものではなく、撮像装置３０および音声入力装置３１の一方もしくは両方が、クライアント装置１１に搭載されていてもよい。

【0025】

データ取得部は、映像データ、音声データをマルチモーダル情報として取得する取得コンポーネント３２として実装される。通信部は、マルチモーダル情報をサーバ１２へ送信し、サーバ１２から制御情報を受信する通信コンポーネント３３として実装される。エンジン部は、クライアント装置１１の表示画面に仮想エージェントとしてのアニメーションを表示し、制御情報に基づき、音声を出力し、出力する音声の内容に合わせてアニメーションを動作させるアニメーションエンジン３４として実装される。

【0026】

サーバ１２は、通信部と、処理部と、生成部とを含む。通信部は、プラットフォームサーバ４０として実装される。処理部は、音声処理コンポーネント４１と、映像処理コンポーネント４２と、音声認識コンポーネント４３とを含む。生成部は、対話制御コンポーネント４４と、音声合成(TTS)コンポーネント４５とを含む。サーバ１２は、アプリケーションとして、ｆｆｍｐｅｇ４６、仮想ビデオデバイス４７を含む。

【0027】

プラットフォームサーバ４０は、複数のコンポーネントを制御する。このため、各コンポーネントは、コンポーネント間で直接的に通信を行うことはなく、プラットフォームサーバ４０が１のコンポーネントからのデータを他のコンポーネントへルーティングする。なお、プラットフォームサーバ４０は、データのルーティングにのみ使用される。

【0028】

プラットフォームサーバ４０は、クライアント装置１１から受信したユーザの音声データおよび映像データを、サーバ１２上で実行される動画と音声を記録、変換、再生するためのｆｆｍｐｅｇ４６へ転送する。ｆｆｍｐｅｇ４６は、音声データをＵＤＰ(User Datagram Protocol)通信を使用して音声処理コンポーネント４１へ送信し、映像データを仮想ビデオデバイス４７へ送信する。仮想ビデオデバイス４７は、映像データを蓄積する。

【0029】

音声処理コンポーネント４１は、音声信号処理ソフトウェア４１ａを含み、ユーザの音声の特徴量を抽出する。音声信号処理ソフトウェア４１ａは、ユーザの音声データを基にユーザの発話音声の韻律情報であるピッチとインテンシティを推定する。ピッチは、音の高低の度合いであり、インテンシティは、音の強さである。音声信号処理ソフトウェア４１ａは、推定したピッチとインテンシティとから発話開始、発話終了の状態を推定する。推定した発話開始、発話終了の状態から発話区間が特定される。

【0030】

映像処理コンポーネント４２は、表情特徴量分析ソフトウェア４２ａと、表情推定モデル４２ｂとを含み、仮想ビデオデバイス４７に蓄積された映像データを入力とし、ユーザの映像の特徴量を抽出する。表情特徴量分析ソフトウェア４２ａは、ユーザの顔映像からユーザの表情特徴を推定する。表情特徴は、感情を表す顔の表情を数値化した推定値として出力される。表情推定モデル４２ｂは、推定した表情特徴に基づき、顔の表情の確率分布を出力する。顔の表情は、怒り(anger)、嫌悪(disgust)、恐怖(fear)、幸福(happiness)、悲しみ(sadness)、驚き(surprise)、中性(neutral)の７種類の確率分布として出力される。

【0031】

音声処理コンポーネント４１および映像処理コンポーネント４２は、プラットフォームサーバ４０へ推定された韻律情報、発話区間情報、表情情報を返す。プラットフォームサーバ４０は、音声処理コンポーネント４１からこれらの情報が返されたことに応答して、ユーザの音声データを音声認識コンポーネント４３へルーティングする。

【0032】

音声認識コンポーネント４３は、音声認識ソフトウェア４３ａと、形態素解析器４３ｂとを含む。音声認識ソフトウェア４３ａは、音声データをテキストデータに変換する。形態素解析器４３ｂは、文法や辞書等を基に、変換されたテキストデータを、意味をもつ言語の最小単位（形態素）に分割し、各形態素の品詞等を判別する。

【0033】

音声認識コンポーネント４３は、音声認識および形態素解析を行った結果（音声認識結果および形態素情報）をプラットフォームサーバ４０へ返す。プラットフォームサーバ４０は、ユーザの韻律情報、表情情報、発話区間情報、音声認識結果、形態素情報を受け取ると、これらの全てのデータを対話制御コンポーネント４４へ送信する。

【0034】

対話制御コンポーネント４４は、所定のルールに基づき、受信したデータを用いて、ユーザと対面する仮想エージェントの動作に必要な情報を生成する。必要な情報としては、仮想エージェントの動作を生成する命令が挙げられる。仮想エージェントの動作を生成する命令としては、表情を変える命令等である。必要な情報には、仮想エージェントが発話する場合、発話文が含まれる。対話制御コンポーネント４４は、生成した情報をプラットフォームサーバ４０へ返す。

【0035】

プラットフォームサーバ４０は、発話文が含まれる場合に限り、ＴＴＳコンポーネント４５へ発話文を送信する。ＴＴＳコンポーネント４５は、仮想エージェントが発声するための音声データと、リップシンク情報とを生成する。リップシンク情報は、口の変形と変形すべき時刻のペアが列挙されるテキストデータである。ＴＴＳコンポーネント４５は、音声データとリップシンク情報とを生成した後、これらのデータをプラットフォームサーバ４０へ返す。

【0036】

プラットフォームサーバ４０は、仮想エージェントの動作に必要な情報が揃い次第、それらの情報を、クライアント装置１１へ仮想エージェントの動作を制御するための制御情報として送信する。

【0037】

クライアント装置１１の通信コンポーネント３３は、サーバ１２から制御情報を受信し、アニメーションエンジン３４が、制御情報に基づき、仮想エージェントを動作させ、必要に応じて発話させる。このようにして、ユーザと仮想エージェントとが表情やジェスチャー等を交えて会話することが可能となる。

【0038】

図４を参照して、具体的な処理について説明する。この処理は、上記のプラットフォームサーバ４０および複数のコンポーネントを含むプラットフォームにより実施される。このため、本プラットフォームを使用し、ＥＣＡと会話するためには、サーバ１２上で本プラットフォームのプログラムを起動しておく必要がある。なお、このプログラムは、例えばＪａｖａＳｃｒｉｐｔ（登録商標）を使用して実装される。ＪａｖａＳｃｒｉｐｔ（登録商標）は、動的なウェブページを作成できるプログラミング言語である。

【0039】

この処理は、クライアント側の処理と、サーバ側の処理とが存在する。はじめに、クライアント側の処理について説明する。ユーザは、ウェブブラウザ（例えば、Google Chrome（登録商標））を使用し、クライアント側のＷｅｂページにアクセスすることにより、本プラットフォームにアクセスする。このアクセスを受けて、ステップ１００から処理を開始し、ステップ１０１では、取得コンポーネント３２が、クライアント装置１１に接続された撮像装置３０により撮像された映像を映像データとして、音声入力装置３１に入力された音声を音声データとして取得する。そして、アニメーションエンジン３４が、ウェブブラウザ上に、図５に示すような仮想エージェント４８を描画して表示し、映像データに基づきユーザ４９の映像を表示する。図５では、ユーザ４９の映像を少しぼかした表示としているが、実際にはクリアな表示となる。

【0040】

再び図４を参照して、取得コンポーネント３２によるデータの取得は、本プラットフォームを使用した会話を終了するまで継続して実施され、ユーザの映像の表示も、本プラットフォームを使用した会話を終了するまで継続して実施される。取得コンポーネント３２による撮像装置３０から映像を映像データとして、また、音声入力装置３１から音声を音声データとして取得する処理は、例えばＪａｖａＳｃｒｉｐｔ（登録商標）により実装される。

【0041】

そして、ステップ１０２で、通信コンポーネント３３がサーバ１２との接続を要求し、ステップ１０３でサーバ１２から応答を受け取り、サーバ１２との接続が確立すると、ステップ１０４においてサーバ１２へ映像データおよび音声データの送信を開始する。

【0042】

通信コンポーネント３３によりサーバ１２へ送信される映像データおよび音声データは、動画ファイル形式の１つであるｗｅｂｍ形式のデータとされる。映像の解像度は、６４０×３６０ｄｐｉとされる。なお、データのフォーマットや解像度は、任意に変更することができる。サーバ１２へのデータの送信は、ｗｅｂｓｏｃｋｅｔのＡＰＩ(Application Programming Interface)を使用して実施することができる。ｗｅｂｓｏｃｋｅｔは、一旦接続を確立すると、クライアント側からも、サーバ側からも能動的にデータを送信することを可能にする。ｗｅｂｓｏｃｋｅｔのＡＰＩとしては、例えばｓｏｃｋｅｔ.ｉｏを使用することができる。ｓｏｃｋｅｔ．ｉｏは、チャット等で使用され、送受信されるメッセージの内容を即時に反映するリアルタイムかつ双方向な通信を可能にするＡＰＩである。ｓｏｃｋｅｔ．ｉｏの詳細については、ＵＲＬ(https://socket.io/)を参照されたい。

【0043】

これらのデータの送信後、ステップ１０５へ進み、通信コンポーネント３３は、サーバ１２との接続が続いているかを判定し、続いていると判定した場合、ステップ１０４へ戻り、取得コンポーネント３２が取得した映像データおよび音声データを送信する。一方、ステップ１０５で続いていないと判定した場合、本プラットフォームを使用した会話が終了したものとしてステップ１０９へ進み、処理を終了する。

【0044】

ステップ１０２において通信コンポーネント３３がサーバ１２にアクセスし、サーバ１２へ映像データおよび音声データを送信すると、サーバ１２においてこれらのデータが処理され、制御情報が生成される。ステップ１０６で、通信コンポーネント３３がサーバ１２から制御情報を受信すると、ステップ１０７で、アニメーションエンジン３４が、制御情報に基づき、仮想エージェントを動作させる。

【0045】

アニメーションエンジン３４としては、例えばＵｎｉｔｙ（登録商標）を使用することができる。Ｕｎｉｔｙ（登録商標）は、ゲーム作成を支援するゲームエンジンとして知られており、コンピュータゲームに必要な映像や音等の処理を行うツールである。Ｕｎｉｔｙ（登録商標）の詳細については、ＵＲＬ(https://unity.com/ja)を参照されたい。

【0046】

制御情報には、仮想エージェントの動作命令が含まれ、動作命令は、アニメーションエンジン３４のスクリプトにより解釈される。仮想エージェントの実装は、開発者により様々であり、仮想エージェントの振る舞いは、開発者が各自定義することができる。これは、例えば幸福を表現するにも、開発者によって表現の仕方が異なるため、どのような表現の仕方にするかは、開発者が定義できることを意味する。

【0047】

ステップ１０８では、サーバ１２との接続が続いているかを判定し、続いていると判定した場合、ステップ１０６へ戻り、サーバ１２からの制御情報の受信を待つ。一方、ステップ１０８で続いていないと判定した場合、本プラットフォームを使用した会話が終了したものとしてステップ１０９へ進み、処理を終了する。

【0048】

次に、サーバ側の処理について説明する。サーバ１２に実装された本プラットフォームのプログラムを起動したことを受けて、ステップ２００から処理を開始する。ステップ２０１で、プラットフォームサーバ４０がクライアント装置１１からのアクセス（接続要求）を受け、それに応答する。プラットフォームサーバ４０は、クライアント装置１１からのアクセスを受けたタイミングで、ステップ２０２においてＥＣＡとの対話に必要なコンポーネントやアプリケーションを起動する。

【0049】

起動するコンポーネントは、音声処理コンポーネント４１、映像処理コンポーネント４２、音声認識コンポーネント４３、対話制御コンポーネント４４、ＴＴＳコンポーネント４５であり、起動するアプリケーションは、ｆｆｍｐｅｇ４６、仮想ビデオデバイス４７である。

【0050】

プラットフォームサーバ４０は、クライアント装置１１からユーザの映像データおよび音声データを受信し、それらのデータを処理するため、各コンポーネントへデータをルーティングする。映像データおよび音声データの受信にも、ｗｅｂｓｏｃｋｅｔのＡＰＩが使用される。ここでは、プラットフォームサーバ４０は、ルーティングのみに使用され、実施する処理はルーティングのみであることから、その処理については省略している。

【0051】

音声処理コンポーネント４１、映像処理コンポーネント４２、ｆｆｍｐｅｇ４６、仮想ビデオデバイス４７が起動されると、プラットフォームサーバ４０が受信した映像データおよび音声データは、ｆｆｍｐｅｇ４６にパイプされる。パイプとは、プログラム間でデータを受け渡すプロセス間通信の手法である。ステップ２０３において、ｆｆｍｐｅｇ４６にパイプされた映像データは、仮想ビデオデバイス４７にパイプされ、仮想ビデオデバイス４７から映像処理コンポーネント４２へ入力される。そして、映像処理コンポーネント４２において、表情特徴量分析ソフトウェア４２ａを実行し、ユーザの顔映像からユーザの表情特徴を推定する。そして、表情推定モデル４２ｂを使用し、推定した表情特徴から表情を推定する。

【0052】

表情特徴量分析ソフトウェア４２ａとしては、例えばＯｐｅｎＦａｃｅを使用することができる。ＯｐｅｎＦａｃｅは、顔解析ツールであり、その詳細については、ＵＲＬ(https://github.com/TadasBaltrusaitis/OpenFace)を参照されたい。

【0053】

ここで、ＯｐｅｎＦａｃｅは、人の顔が記録された映像から、顔のランドマークのｘ、ｙ、ｚ座標や、顔のアクションユニット（ＡＵ）等の７０９次元の表情特徴を推定することができる。ランドマークは、目印となる特徴物であり、顔においては瞳孔、鼻先、顎等がランドマークとなる。アクションユニットは、筋肉レベルの顔の動きであり、ほほを持ち上げる、唇の端を水平に引く、眉の内側を持ち上げるなどである。表情特徴の推定値の例を、図６に示す。

【0054】

ユーザ表情の推定には、表情特徴量分析ソフトウェア４２ａが推定した表情特徴に基づく表情推定モデル４２ｂを使用する。表情推定モデル４２ｂは、目標値に対する推定値の誤差を小さくするように機械学習されたモデルであり、勾配ブースティング決定木（GBDT:Gradient Boosting Decision Tree）により作成される。なお、表情推定モデル４２ｂは、ＬｉｇｈｔＧＢＭ等の別の学習アルゴリズムで作成してもよい。

【0055】

表情推定モデル４２ｂは、上記の７種類の表情の確率分布として出力する。出力される各種類の推定値の例を、図７に示す。図７に示した推定された表情のデータが、プラットフォームサーバ４０へ返却される。

【0056】

音声データは、ｆｆｍｐｅｇ４６からＵＤＰ通信により音声処理コンポーネント４１へ送信される。ステップ２０４において、音声処理コンポーネント４１は、音声信号処理ソフトウェア４１ａを実行し、ユーザの発話音声の韻律情報であるピッチとインテンシティを推定する。音声信号処理ソフトウェア４１ａとしては、例えばｓｐｔｋ(Speech Signal Processing Toolkit)を使用することができる。ｓｐｔｋは、音声分析を行うツールであり、その詳細については、ＵＲＬ(http://sptk.sourceforge.net/)を参照されたい。

【0057】

音声処理コンポーネント４１は、推定した韻律情報をプラットフォームサーバ４０へ送信する。推定された韻律情報の一例を、図８に示す。

【0058】

音声処理コンポーネント４１は、推定したピッチとインテンシティとから、発話開始・発話終了の状態を推定する。ここで、発話終了が推定された場合、最後の発話開始から終了までの区間における音声データをサーバ１２上の任意の領域に保存する。音声データは、例えばＰＣＭ(Pulse Code Modulation)フォーマットで保存される。プラットフォームサーバ４０へは、推定した発話開始・終了の状態、発話音声のファイルのパスが送信される。プラットフォームサーバ４０へ返却される情報の一例を、図９に示す。図９に示す情報は、状態、パスを含む。

【0059】

プラットフォームサーバ４０が音声処理コンポーネント４１から発話終了の状態を受信すると、ユーザの発話音声のファイルのパスを音声認識コンポーネント４３へルーティングする。ステップ２０５において、音声認識コンポーネント４３がユーザの発話音声のファイルのパスを受け取ると、音声認識ソフトウェア４３ａを実行し、その音声ファイルの音声認識結果を得る。

【0060】

音声認識ソフトウェア４３ａは、例えばGoogle（登録商標） Cloud Speech APIを使用するプログラムである。音声認識結果の一例を、図１０に示す。Google（登録商標） Cloud Speech APIは、Google（登録商標）の機械学習モデルを使用し、音声をテキストに変換するサービスに繋ぐためのインターフェースであり、その詳細については、ＵＲＬ(https://cloud.google.com/speech-to-text?hl=ja)を参照されたい。

【0061】

音声認識結果は、形態素解析器４３ｂへ送信される。形態素解析器４３ｂは、音声認識結果を形態素情報へパース（構文解析）する。形態素解析器４３ｂとしては、例えば日本語形態素解析システム(mecab)を使用することができる。ｍｅｃａｂの詳細については、ＵＲＬ(https://taku910.github.io/mecab/)を参照されたい。形態素情報の一例を、図１１に示す。図１１に示した形態素情報が、プラットフォームサーバ４０へ返却される。

【0062】

プラットフォームサーバ４０は、ユーザの表情情報、韻律情報、発話区間情報、音声認識結果、形態素情報を受け取ると、これら全ての情報を対話制御コンポーネント４４へ送信する。このとき、プラットフォームサーバ４０は、返却された情報を逐次、対話制御コンポーネント４４へ送信する。このため、プラットフォームサーバ４０は、各情報間の時間的な同期は保証しない。

【0063】

対話制御コンポーネント４４の実装は、仮想エージェントの実装と同様、開発者により様々である。このため、対話制御コンポーネント４４は、何らのルールに基づき、ユーザが対面する仮想エージェントの振る舞いを生成すればよい。すなわち、開発者が独自に決めたルールに基づき、仮想エージェントの振る舞いを生成すればよい。

【0064】

仮想エージェントの動作を制御するための制御情報のフォーマットには、例えばｊｓｏｎやｘｍｌ等のデータ記述言語を使用することができる。仮想エージェントが表情を変える際に必要な情報の一例を、図１２に示す。

【0065】

制御情報は、プラットフォームサーバ４０からクライアント装置１１へ送信される。対話制御コンポーネント４４は、ステップ２０６において、プラットフォームサーバ４０から受け取った情報に基づき、ユーザの行動に基づく対話・仮想エージェントの動作を決定し、制御情報を生成する。制御情報には、仮想エージェントが発話する場合、発話文が含まれる。

【0066】

プラットフォームサーバ４０は、制御情報に発話文が含まれる場合、ＴＴＳコンポーネント４５へ発話文を送信する。発話文が含まれない場合、プラットフォームサーバ４０は、制御情報をクライアント装置１１へ送信する。

【0067】

ＴＴＳコンポーネント４５は、プラットフォームサーバ４０から発話文を受け取ると、ステップ２０７において、仮想エージェントが発声するための音声ファイルと、リップシンク情報の２つを生成する。ＴＴＳコンポーネント４５としては、例えば音声合成ソフトウェアであるＡｌＴａｌｋ（登録商標）を使用することができる。ＡｌＴａｌｋ（登録商標）は、文字を音声に変換するツールであり、その詳細については、ＵＲＬ(https://www.ai-j.jp/products/sdk/)を参照されたい。

【0068】

発話文「嬉しいです」に対応するリップシンク情報の一例を、図１３に示す。発話音声データとリップシンクデータは、インターネットからアクセスできるサーバ１２内の領域にファイルとして配置される。発話文とファイルの配置場所とを含むデータの一例を、図１４に示す。プラットフォームサーバ４０へは、図１４に示すようなデータが返却される。

【0069】

プラットフォームサーバ４０は、ＴＴＳコンポーネント４５から返却されたデータを含め、仮想エージェントの動作に必要な情報が揃い次第、クライアント装置１１へ制御情報を送信する。

【0070】

以上に説明したシステムを利用することで、ＥＣＡの開発者は、ＥＣＡを０から実装する必要がなくなり、ＥＣＡの開発を加速させることができる。また、ユーザがインターネットを経由してＥＣＡにアクセスできるので、ユーザがＥＣＡを動作させるための高性能なコンピュータを所有する必要がなくなる。さらに、クライアントサーバモデルを採用したことにより、システムの運用中でも開発者がシステムの変更が容易になる。

【0071】

本システムは、仮想エージェントをユーザの分身（アバター）とするアバターシステムとして利用することもできる。アバターシステムは、ＥＣＡの振る舞いをシステムが自動的に決定するものではなく、操作者であるユーザが外部から決定することができるものである。アバターシステムは、専門的な分野ではwizard of OZ(WOZ)システムと呼ばれる。

【0072】

アバターシステムを実現するには、ＥＣＡの動作を直接命令するウェブページ（WOZインターフェース）を、ｈｔｍｌとＪａｖａＳｃｒｉｐｔ（登録商標）で実装する。その後、ＷＯＺインターフェースをｓｏｃｋｅｔ．ｉｏを使用し、プラットフォームサーバ４０に接続する。

【0073】

図１５は、アバターシステムとして利用する場合の情報処理システムの構成例を示した図である。クライアント装置１１は、取得コンポーネント３２と、通信コンポーネント３３と、アニメーションエンジン３４とを含む。サーバ１２は、プラットフォームサーバ４０と、ＴＴＳコンポーネント４５とを含む。情報処理システムは、クライアント装置１１とサーバ１２以外に、ＷＯＺインターフェース５０を備える。

【0074】

ＷＯＺインターフェース５０は、ＥＣＡの動作を直接命令するウェブページを表示し、操作者であるユーザが入力等を行うことができる装置であれば、ＰＣ(Personal Computer)等のいかなる装置であってもよい。

【0075】

アバターシステムの具体的な動作について説明する。最初にプラットフォームサーバ４０を起動し、ＷＯＺインターフェース５０とクライアント装置１１のウェブページを任意の順序で起動する。クライアント装置１１がサーバ１２にアクセスし、接続が確立された時点で、サーバ側のコンポーネントであるＴＴＳコンポーネント４５を起動する。このような動作は、自律動作するＥＣＡにアクセスするときと同様である。

【0076】

その後、ＷＯＺインターフェース５０から所定のメッセージを送信することで、プラットフォームサーバ４０がそのメッセージを受信し、そのメッセージをＴＴＳコンポーネント４５へルーティングする。そして、ＴＴＳコンポーネント４５は、メッセージに基づき、リップシンク情報を生成する。なお、ＴＴＳコンポーネント４５は、メッセージに発話文が含まれる場合、発話音声の音声ファイルも生成する。ＴＴＳコンポーネント４５は、生成したリップシンク情報等を制御情報としてプラットフォームサーバ４０へ返却する。

【0077】

プラットフォームサーバ４０は、接続が確立されているクライアント装置１１へ制御情報を送信し、仮想エージェントを表示させているアニメーションエンジン３４に制御情報を渡す。アニメーションエンジン３４は、受け取った制御情報に基づき、仮想エージェントを動作させる。

【0078】

ＷＯＺインターフェース５０からサーバ１２へ送信されるメッセージの一例を、図１６に示す。このメッセージは、仮想エージェントの表情を変えるメッセージの一例である。このメッセージに基づき生成された制御情報をクライアント装置１１へ送信することで、クライアント装置１１のウェブページに表示されている仮想エージェントの表情を変えることができる。なお、このメッセージは、ＥＣＡを自律動作させるときに、対話制御がＥＣＡに向けて送信するメッセージと完全に同一である。すなわち、図１２に示した情報と同一である。

【0079】

これまで本発明の情報処理装置、情報処理システムおよびプログラムについて上述した実施形態をもって詳細に説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態や、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0080】

１０…ネットワーク
１１…クライアント装置
１２…サーバ
２０…ＣＰＵ
２１…ＲＯＭ
２２…ＲＡＭ
２３…ＨＤＤ
２４…通信Ｉ／Ｆ
２５…入出力Ｉ／Ｆ
２６…入力装置
２７…表示装置
３０…撮像装置
３１…音声入力装置
３２…取得コンポーネント
３３…通信コンポーネント
３４…アニメーションエンジン
４０…プラットフォームサーバ
４１…音声処理コンポーネント
４１ａ…音声信号処理ソフトウェア
４２…映像処理コンポーネント
４２ａ…表情特徴量分析ソフトウェア
４２ｂ…表情推定モデル
４３…音声認識コンポーネント
４３ａ…音声認識ソフトウェア
４３ｂ…形態素解析器
４４…対話制御コンポーネント
４５…ＴＴＳコンポーネント
４６…ｆｆｍｐｅｇ
４７…仮想ビデオデバイス
５０…ＷＯＺインターフェース

【図1】