特許7632925 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ デジタルヒューマン株式会社の特許一覧

特許7632925情報処理システム、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-02-10

(45)【発行日】2025-02-19

(54)【発明の名称】情報処理システム、情報処理方法及びプログラム

(51)【国際特許分類】

G06N 3/006 20230101AFI20250212BHJP

G10L 15/00 20130101ALI20250212BHJP

G06T 13/40 20110101ALI20250212BHJP

G06F 3/16 20060101ALI20250212BHJP

H04N 21/234 20110101ALI20250212BHJP

H04N 21/233 20110101ALI20250212BHJP

【ＦＩ】

G06N3/006

G10L15/00 200Z

G06T13/40

G06F3/16 650

G06F3/16 690

H04N21/234

H04N21/233

【請求項の数】 8

(21)【出願番号】P 2024025844

(22)【出願日】2024-02-22

【審査請求日】2024-10-22

【早期審査対象出願】

(73)【特許権者】

【識別番号】520296934

【氏名又は名称】デジタルヒューマン株式会社

(74)【代理人】

【識別番号】110002789

【氏名又は名称】弁理士法人ＩＰＸ

(72)【発明者】

【氏名】荒尾和宏

【審査官】三沢岳志

(56)【参考文献】

【文献】特開２０２２－０５４２９４（ＪＰ，Ａ）

【文献】特開２０１９－０６１１１１（ＪＰ，Ａ）

【文献】特開２０２１－０８６４１５（ＪＰ，Ａ）

【文献】特開２０２２－１８０２８２（ＪＰ，Ａ）

【文献】特表２０２２－５３４７０８（ＪＰ，Ａ）

【文献】特表２０１１－５１９０７９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／００１１７４５（ＵＳ，Ａ１）

【文献】「［デジタルヒューマン株式会社］AI デジタルヒューマンを使ってプロダクトジーニアスをライブで作ろう VOICE & AI 2023」，YouTube [online] [video]，デジタルヒューマン株式会社，2023年11月27日，[2024年11月06日検索]，<https://www.youtube.com/watch?v= xKW63CcJvV4>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００６

Ｇ１０Ｌ１５／００

Ｇ０６Ｔ１３／４０

Ｇ０６Ｆ３／１６

Ｈ０４Ｎ２１／２３４

Ｈ０４Ｎ２１／２３３

(57)【特許請求の範囲】

【請求項1】

情報処理システムであって、
少なくとも１つのプロセッサを備え、前記プロセッサはプログラムを読み出すことで次の各ステップを実行するように構成され、
第１の受付ステップでは、ユーザの発した音声に対応する音声情報を受け付け、
入力ステップでは、前記音声情報を含むプロンプトを人工知能モジュールに入力し、
生成ステップでは、前記人工知能モジュールからの返答を複数のセグメントに分割し、前記複数のセグメントのそれぞれに対応する動画データを順番に生成し、ここで、前記動画データは、前記返答をアバターが発話するアニメーションと、前記返答に対応する合成音声とを含み、
出力ステップでは、前記動画データのそれぞれを順番に出力し、
前記生成ステップと、前記出力ステップとは、並列で実行され、ここで、
前記生成ステップでは、ｎ－１番目のセグメントに対応するｎ－１番目の動画データと連続してｎ番目のセグメントに対応するｎ番目の動画データを出力することができるように、前記ｎ番目の動画データを生成し、
前記生成ステップにおいて、前記ｎ番目の動画データを生成したとき、前記ｎ－１番目の動画データの出力が完了していない場合には、前記プロセッサは、前記出力ステップにおいて前記ｎ番目の動画データの出力をキューイングし、
前記生成ステップでは、前記キューイング中の動画データの数を適正化するように前記動画データを生成する生成速度を調整する、システム。

【請求項2】

請求項１に記載の情報処理システムにおいて、
前記第１の受付ステップでは、前記ユーザの音声をリアルタイムでテキスト化し、前記ユーザの音声が途切れた場合に、それまでにテキスト化した前記ユーザの音声を前記音声情報として受け付ける、システム。

【請求項3】

請求項１に記載の情報処理システムにおいて、
さらに、第２の受付ステップでは、前記人工知能モジュールからストリーミング形式で送信された前記返答を、前記複数のセグメントに分割して受け付け、
前記生成ステップでは、受け付けたセグメントから順番に当該セグメントに対応する動画データを生成する、システム。

【請求項4】

請求項１に記載の情報処理システムにおいて、
前記セグメントは、前記返答が句読記号に基づいて分割されたものである、システム。

【請求項5】

請求項１に記載の情報処理システムにおいて、
前記アニメーションは、前記アバターの発話に合わせた、前記アバターの口の動き、体の動き、及び顔の表情のうちの少なくとも１つを含む、システム。

【請求項6】

請求項１に記載の情報処理システムにおいて、
前記第１の受付ステップでは、さらに前記音声情報とは異なるデータを受け付け、
前記入力ステップでは、前記音声情報と前記音声情報とは異なる前記データとを含む前記プロンプトを前記人工知能モジュールに入力する、システム。

【請求項7】

情報処理方法であって、
請求項１～請求項６までの何れか一つに記載の情報処理システムにおける各ステップを含む、方法。

【請求項8】

プログラムであって、
少なくとも１つのコンピュータに、請求項１～請求項６までの何れか一つに記載の情報処理システムにおける各ステップを実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

特許文献１は、ユーザが質問に関するチャットメッセージを送信した際に、ユーザが期待する回答メッセージを効率よく得ることに関する文献である。この特許文献１に示されたマルチクラウドチャットサービス提供装置１０は、ユーザ端末２０から質問メッセージを受け付けると、ＡＩチャットクラウドサービスシステム３０に対して質問メッセージを送信し、質問メッセージに対する回答メッセージをＡＩチャットクラウドサービスシステム３０から受信する。また、マルチクラウドチャットサービス提供装置１０は、所定の条件を満たしたと判定した場合には、質問メッセージをオペレータによって操作されるオペレータ端末４０Ａに対して送信し、質問メッセージに対する回答メッセージをオペレータ端末４０Ａから受信する。そして、マルチクラウドチャットサービス提供装置１０は、ＡＩチャットクラウドサービスシステム３０又はオペレータ端末４０Ａから受信された回答メッセージをユーザ端末２０に返信する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１２８７３７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、ユーザの発話に対するＡＩを用いた応答システムの技術には、未だ改善の余地がある。

【課題を解決するための手段】

【0005】

本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、少なくとも１つのプロセッサを備え、プロセッサはプログラムを読み出すことで次の各ステップを実行するように構成される。第１の受付ステップでは、ユーザの発した音声に対応する音声情報を受け付ける。入力ステップでは、音声情報を含むプロンプトを人工知能モジュールに入力する。生成ステップでは、人工知能モジュールからの返答を複数のセグメントに分割し、複数のセグメントのそれぞれに対応する動画データを順番に生成する。動画データは、返答をアバターが発話するアニメーションと、返答に対応する合成音声とを含む。出力ステップでは、動画データのそれぞれを順番に出力する。生成ステップと、出力ステップとは、並列で実行される。

【0006】

本発明の一つによれば、ユーザにとってより有益な情報処理システム等を提供することができる。

【図面の簡単な説明】

【0007】

【図1】情報処理システム１を表す構成図である。

【図2】サーバ２のハードウェア構成を示すブロック図である。

【図3】情報処理装置３のハードウェア構成を示すブロック図である。

【図4】情報処理システム１によって実行される処理の概要を示すフローチャートである。

【図5】情報処理システム１の使用態様の一例を示す図である。

【図6】情報処理システム１の情報処理の流れの一例を示す概念図である。

【図7】情報処理システム１によって実行される処理の流れの一例を示すアクティビティ図である。

【図8】返答８を複数のセグメントに分割する一例を示す図である。

【図9】各セグメントに対応する動画データの生成と出力の関係を説明する説明図９である。

【発明を実施するための形態】

【0008】

以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

【0009】

ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体（Ｎｏｎ－ＴｒａｎｓｉｔｏｒｙＣｏｍｐｕｔｅｒ－ＲｅａｄａｂｌｅＭｅｄｉｕｍ）として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

【0010】

また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

【0011】

また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、及びメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（ＳｉｍｐｌｅＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ））等を含むものである。

【0012】

１．ハードウェア構成
本節では、ハードウェア構成について説明する。

【0013】

<情報処理システム１>
図１は、情報処理システム１を表す構成図である。情報処理システム１は、サーバ２と、情報処理装置３とを備える。サーバ２と情報処理装置３とは、電気通信回線（ネットワーク）を通じて通信可能に構成されている。ここで、情報処理システム１に例示されるシステムとは、１つ又はそれ以上の装置又は構成要素からなるものである。したがって、サーバ２単体であっても、あるいはサーバ２と情報処理装置３との何れかであっても、情報処理システム１に含まれることに留意されたい。より詳細には、情報処理システム１は、サーバ２と情報処理装置３とからなる群より選択される要素を備えていてもよい。選択されない要素は、情報処理システム１に含まれずとも、外部の要素として、選択された要素と電気的に接続されていてもよい。以下、これらの構成要素について説明する。

【0014】

<サーバ２>
図２は、サーバ２のハードウェア構成を示すブロック図である。サーバ２は、通信部２１と、記憶部２２と、制御部２３とを備え、これらの構成要素がサーバ２の内部において通信バス２０を介して電気的に接続されている。各構成要素についてさらに説明する。

【0015】

通信部２１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ（登録商標）、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、３Ｇ／ＬＴＥ／５Ｇ等のモバイル通信、ＢＬＵＥＴＯＯＴＨ（登録商標）通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、サーバ２は、通信部２１及びネットワークを介して、外部から種々の情報を通信してもよい。

【0016】

記憶部２２は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部２３によって実行されるサーバ２に係る種々のプログラム等を記憶するソリッドステートドライブ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。記憶部２２は、制御部２３によって実行されるサーバ２に係る種々のプログラムや変数等を記憶している。

【0017】

制御部２３は、サーバ２に関連する全体動作の処理・制御を行う。制御部２３は、例えば不図示の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）である。制御部２３は、記憶部２２に記憶された所定のプログラムを読み出すことによって、サーバ２に係る種々の機能を実現する。すなわち、記憶部２２に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部２３によって具体的に実現されることで、後述の各機能に係る各ステップが実行されうる。これらについては、次節においてさらに詳述する。なお、制御部２３は単一であることに限定されず、機能ごとに複数の制御部２３を有するように実施してもよい。またそれらの組合せであってもよい。

【0018】

<情報処理装置３>
図３は、情報処理装置３のハードウェア構成を示すブロック図である。情報処理装置３は、通信部３１と、記憶部３２と、制御部３３と、表示部３４と、入力部３５と出力部３６を備え、これらの構成要素が情報処理装置３の内部において通信バス３０を介して電気的に接続されている。各構成要素についてさらに説明する。通信部３１、記憶部３２及び制御部３３の説明は、サーバ２における各部の説明と同様のため省略する。

【0019】

表示部３４は、情報処理装置３筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部３４は、ユーザが操作可能なグラフィカルユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ：ＧＵＩ）の画面を表示する。これは例えば、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ及びプラズマディスプレイ等の表示デバイスを、情報処理装置３の種類に応じて使い分けて実施することが好ましい。

【0020】

入力部３５は、情報処理装置３の筐体に含まれるものであってもよいし、外付けされるものであってもよい。入力部３５はユーザによって発せられた音声等を受け付ける。入力部３５は、例えば、マイク等の集音器により構成され、外部の音を集音して、集音した音を示す音信号を出力してもよい。当該音信号が命令信号として、通信バス３０を介して制御部３３に転送され、制御部３３が必要に応じて所定の制御や演算を実行しうる。また、入力部３５が受け付ける情報は上述した音声等に制限されない。具体的に、入力部３５は、表示部３４と一体となってタッチパネル、スイッチボタン、マウス、ＱＷＥＲＴＹキーボード等によるユーザからの入力を受付可能に構成されてもよい。

【0021】

出力部３６は、情報処理装置３筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、スピーカ等により構成され、情報処理システム１にて生成された音声又は信号音等を出力する。

【0022】

情報処理装置３として、スマートフォンやタブレット端末、パーソナルコンピュータ、ウェアラブルデバイス等を利用することができる。

【0023】

２．サーバ２の機能構成
制御部２３は、例えば、以下の各ステップを実行するように構成される。以下のステップは、任意に省略可能である。

【0024】

制御部２３は、受付ステップとして、情報処理装置３又は他のデバイスからの情報を受付可能に構成されている。また、制御部２３は、記憶部２２の少なくとも一部であるストレージ領域に記憶されている種々の情報を読み出し、読み出された情報を記憶部２２の少なくとも一部である作業領域に書き込むことで、種々の情報を受付可能に構成されている。ストレージ領域とは、例えば、記憶部２２のうち、ＳＳＤ等のストレージデバイスとして実施される領域である。作業領域とは、例えば、ＲＡＭ等のメモリとして実施される領域である。受付ステップは、以下の第１のステップや第２の受付ステップであってよい。例えば、第１の受付ステップは、ユーザの発した音声に対応する音声情報を受け付けるステップであってもよい。第２の受付ステップは、人工知能モジュールの返答を、複数のセグメントに分割して受け付けるステップであってもよい。

【0025】

制御部２３は、入力ステップとして、種々の情報を人工知能モジュールに入力する。当該情報は、ユーザの発話を含む情報である。当該情報は、ユーザの発話と予め記憶部２２に記憶された参照情報とに基づき生成される人工知能モジュールに対するプロンプトであってもよい。当該情報は、ユーザの発話以外の情報を含んでもよい。

【0026】

制御部２３は、生成ステップとして、通信部２１及びネットワークを介して、人工知能モジュールから受け付けた返答に基づき、種々の情報を生成する。当該情報は、アバターが発話するアニメーションと、前記返答に対応する合成音声とを含む動画データである。制御部２３は、生成ステップとして、合成音声やアニメーションを生成可能に構成される。例えば、制御部２３は、生成ステップとして、人工知能モジュールからの返答を複数のセグメントに分割し、複数のセグメントのそれぞれに対応する動画データを順番に生成してもよい。

【0027】

制御部２３は、出力ステップとして、種々の情報を出力する。当該情報は、表示部３４又は他のデバイスを介して、ユーザに出力可能である。かかる場合、例えば、制御部２３は画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚情報を、表示部３４に表示させるように制御してもよい。例えば、出力ステップは、動画データのそれぞれを順番に出力するステップであってもよい。

【0028】

制御部２３は、表示制御ステップとして、画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚情報を、表示部３４に表示させるように制御する。制御部２３は、表示部３４に視覚情報を表示させるためのレンダリング情報だけを生成してもよい。制御部２３は、表示制御ステップとしてアバターをユーザに視認可能な態様で表示させてもよい。

【0029】

３．情報処理の流れ
本節では、情報処理システム１が実行する情報処理方法の流れについて説明する。下記に示す通り、情報処理方法は、情報処理システムが実行する各ステップを含む。本実施形態の情報処理プログラムは、コンピュータに、情報処理システムの各ステップを実行させる。なお、処理の順番は適宜入れ替えることができ、複数の処理が同時に実行されてもよいし、一部の処理が省略されてもよい。

【0030】

３．１概要
図４は、情報処理システム１によって実行される処理の概要を示すフローチャートである。かかる処理では、まず、制御部２３は、受付ステップとしてユーザの発した音声に対応する音声情報を受け付ける（ステップＳ００１）。続いて、制御部２３は、入力ステップとして、音声情報を含むプロンプトを人工知能モジュールに入力する（ステップＳ００２）。続いて、制御部２３は、生成ステップとして、人工知能モジュールからの返答を複数のセグメントに分割し、複数のセグメントのそれぞれに対応する動画データを順番に生成する（ステップＳ００３）。続いて、制御部２３は、出力ステップとして、動画データのそれぞれを順番に出力する（ステップＳ００４）。ここで、ステップＳ００３とステップＳ００４はセグメント毎に順番に実行されるため、１番目のセグメントに対応する動画データが出力される間に、並行して、２番目のセグメントに対応する動画データの生成が行われる。

【0031】

以上をまとめると、一実施形態に係る、情報処理システムは、少なくとも１つのプロセッサを備え、プロセッサはプログラムを読み出すことで次の各ステップを実行する。制御部２３は、第１の受付ステップとして、ユーザの発した音声に対応する音声情報を受け付ける。制御部２３は、入力ステップとして、音声情報を含むプロンプトを人工知能モジュールに入力する。制御部２３は、生成ステップとして、人工知能モジュールからの返答を複数のセグメントに分割し、複数のセグメントのそれぞれに対応する動画データを順番に生成する。動画データは、返答をアバターが発話するアニメーションと、返答に対応する合成音声とを含む。制御部２３は、出力ステップとして、動画データのそれぞれを順番に出力する。生成ステップと、出力ステップとは、並列で実行される。このような構成によれば、ユーザから受け付けた音声に対して、人工知能モジュールにより返答を生成させ、その返答をアバターが発話する動画データをユーザに対して出力する情報処理システムにおいて、返答を複数のセグメントに分割し、セグメント毎に動画データを生成するため、動画データの出力までにかかる時間が短くなり、ユーザビリティが向上する。

【0032】

３．２具体例
以下、図５～図９を用いて、上記情報処理の詳細について、一例として説明する。図５は、情報処理システム１の使用態様の一例を示す図である。図５には情報処理装置３とユーザＹとが示されている。情報処理装置３の表示部３４には、アバターＡＶが表示され、ユーザＹは、音声５１を発話している。情報処理装置３の制御部３３は、入力部３５を介して、ユーザＹが発話する音声５１を受け付ける。このように、情報処理システム１は、例えば、ユーザＹが発する音声に対し、アバターＡＶが音声で返答するシステムである。アバターを用いることにより、テキストのみの会話にはない没入感をユーザＹに対して提供することができる。

【0033】

図６は、情報処理システム１の情報処理の流れの一例を示す概念図である。制御部２３は、制御部３３からユーザＹの音声を受け付けると、受け付けた音声に対応する音声情報を会話型ＡＩに入力する。会話型ＡＩは、人工知能モジュールの一例である。ここで、音声情報は、受け付けた音声について音声認識を行うことにより生成する情報であってもよい。次に、制御部２３は、会話型ＡＩから返答を受け付け、当該返答に基づき動画データを生成する。動画データは、返答に基づき生成したアバターが発話するアニメーションと、返答に基づき生成した合成音声とを含む。次に、制御部２３は、動画データを出力する。

【0034】

図７は、情報処理システム１によって実行される処理の流れの一例を示すアクティビティ図である。流れの一例は、前述した概要に規定される範囲に包含されうる。以下、このアクティビティ図の各アクティビティに沿って、説明するものとする。なお、当該情報処理は、図示されない任意の例外処理を含みうる。例外処理は、当該情報処理の中断や、各処理の省略を含む。当該情報処理にて行われる選択又は入力は、ユーザによる操作に基づくものでも、ユーザの操作に依らず自動で行われるものでもよい。

【0035】

まず、制御部２３は、表示部３４に、アバターＡＶを表示させる（アクティビティＡ１０１）。ここで、アバターＡＶは、人間の姿であってもよいし、動物や無生物を擬人化したものを用いてもよい。好ましくは、アバターＡＶは、人間そっくりの姿に作成され、人間に近い動きをするリアルな３Ｄモデルであるとよい。より人間に近い姿であることにより、よりユーザＹの没入感を高め、深い対話を促すことができる。

【0036】

次に、制御部２３は、第１の受付ステップとして、入力部３５を介して、ユーザＹの発した音声を受け付ける（アクティビティＡ１０２）。より典型的な態様においては、制御部２３は、ユーザＹの発話の音声をリアルタイムでテキスト化してもよい。すなわち、制御部２３は、ユーザＹの音声に対応する音声情報を音声認識モデルに入力し、音声情報をテキストデータに変換してもよい。音声認識モデルは、言語モデルや音響モデルなどの要素で構成されるものであってもよく、音声情報とテキストデータにより事前に学習されたモデルを用いてもよい。

【0037】

前述したように制御部２３がユーザＹの発話の音声をリアルタイムでテキスト化した場合、制御部２３は、ユーザＹの発話の音声が途切れた場合に、それまでにテキスト化したユーザの音声を音声情報として受け付けてもよい（アクティビティＡ１０３）。ユーザＹの発話の音声が途切れた場合とは、ユーザＹからの音声が所定の期間途切れた場合であってもよい。具体的には例えば、ユーザＹからの音声が、１秒間以上，２秒間以上，３秒間以上，４秒間以上，もしくは５秒間以上途切れた場合に、制御部２３は、ユーザＹの音声が途切れたと判定してもよい。このような構成によれば、ユーザの発話が途切れたタイミングで、迅速にユーザＹの音声を音声情報として受け付けることができる。なお、後述する人工知能モジュールが所定の情報を出力するにあたって、テキスト化されたプロンプトを要さない場合、ユーザＹの発話の音声のテキスト化（音声の途切れの判定等を含む）は省略されてよい。制御部２３は、例えば、音声認識機能を内部に有する人工知能モジュールに対し、音声そのものを入力してもよい。

【0038】

次に、制御部２３は、入力ステップとして、音声情報を含むプロンプトを人工知能モジュールに入力する（アクティビティＡ１０４）。人工知能モジュールは、典型的には音声情報を含むプロンプトに対する返答を出力するモジュールである。好ましくは、音声情報を含むプロンプトに対して、自然な言語による返答を出力するモジュールであるとよい。さらに、好ましくは、ユーザＹの発話の内容を理解し、その内容に応じた返答をするモジュールであるとよい。したがって、人工知能モジュールは、好ましくは、会話型人工知能モジュールであるとよい。

【0039】

より典型的なものとして、人工知能モジュールは大規模言語モデルを有していてもよい。すなわち、人工知能モジュールは、当該大規模言語モデルに基づいて、入力事項に対する返答を行うものであってよい。なお、大規模言語モデルとは、人間の話す言葉をその出現確率でモデル化した言語モデルについて、膨大なデータから事前学習する深層学習モデルである。なお、人工知能モジュールの有することのできるモデルは上記には制限されない。

【0040】

次に、制御部２３は、第２の受付ステップとして、人工知能モジュールからの返答を複数のセグメントに分割して受け付ける（アクティビティＡ１０５）。この段階で、返答を複数のセグメントに分割しておくことにより、アクティビティＡ１０６以降で対応する動画データの生成等の処理に要する時間を短くすることができる。

【0041】

ここで、人工知能モジュールが返答をストリーミング形式で出力する場合には，制御部２３は、第２の受付ステップとして、人工知能モジュールからストリーミング形式で送信された返答を、複数のセグメントに分割して受け付けてもよい。ストリーミング形式で出力するとは、換言すると、人工知能モジュールが、入力されたプロンプトに対する返答を段階的に連続して出力することである。そのような場合に、制御部２３は、段階的に出力される返答を、複数のセグメントに分割して受け付けてもよい。このような態様により、制御部２３は、全ての返答が出力されてから受け付けるよりも早いタイミングで、第２の受付ステップとして、返答のうちの１番目のセグメントを受け付けることができる。

【0042】

なお、セグメントは、返答が句読記号に基づいて分割されたものであってもよい。句読記号には、句点、読点、カンマ、ピリオド、セミコロン、コロン、ハイフン、括弧等がある。句読記号は、文章を分かりやすく整理し読みやすくするための記号である。このような態様により、制御部２３は、分かりやすく整理されたまとまりごとに返答をセグメントに分割することができる。

【0043】

次に、制御部２３は、生成ステップとして、セグメント毎に返答に対応する動画データを生成する（アクティビティＡ１０６）。ここで、制御部２３は、生成ステップとして、受け付けたセグメントから順番に当該セグメントに対応する動画データを生成してもよい。このような構成によれば、人工知能モジュールからの返答を最後まで待つことなく、受け付けたセグメントから順番に、動画データを生成するため、１番目のセグメントに対応する動画データが生成するまでにかかる時間が短くなり、ユーザビリティが向上する。

【0044】

次に、制御部２３は、出力ステップとして、セグメント毎に順番に動画データを出力する（アクティビティＡ１０７）。ここで、動画データは、返答をアバターＡＶが発話するアニメーションと、返答に対応する合成音声とを含むものである。

【0045】

アバターＡＶが発話するアニメーションは、アバターＡＶの発話に合わせた、アバターＡＶの口の動き、体の動き、及び顔の表情のうちの少なくとも１つを含むものであってもよい。このような構成によれば、アバターＡＶが発話するアニメーションのリアリティがより向上し、ユーザの没入感もさらに向上する。

【0046】

続いて、生成ステップと、出力ステップとが並列で実行されることについて、図８と図９とを用いてさらに詳しく説明する。

【0047】

図８は、返答８を複数のセグメントに分割する一例を示す図である。返答８は、セグメントＳ１と、セグメントＳ２と，セグメントＳ３と，セグメントＳｎとを含む。返答８は、人工知能モジュールからストリーミング形式で送信された返答の一例である。セグメントＳ１～Ｓｎは、返答８が句点によりに分割されたものである。

【0048】

図９は、各セグメントに対応する動画データの生成と出力の関係を説明する説明図９である。図９として示される説明図９はセグメントＳ１～Ｓｎのそれぞれについて、アクティビティＡ１０５～Ａ１０７が実行されるタイミングを説明するものである。制御部２３は、まず、人工知能モジュールからセグメントＳ１を受け付けると、セグメントＳ１に対応する動画データＡＤ１を生成し、セグメントＳ１に対応する動画データＡＤ１を出力する。ここで、制御部２３は、セグメントＳ１に続いてセグメントＳ２を受け付け、セグメントＳ１に対応する動画データＡＤ１を生成した後に続けて、セグメントＳ２に対応する動画データＡＤ２を生成する。制御部２３は、さらに、セグメントＳ２に対応する動画データＡＤ２を生成した後に続けて、セグメントＳ３に対応する動画データＡＤ３を生成する。このように、制御部２３は、生成ステップとして、セグメントＳｎー１に対応する動画データＡＤｎー１を生成した後に続けて、セグメントＳｎに対応する動画データＡＤｎを生成する。一方、制御部２３は、生成ステップとして、セグメントＳ２に対応する動画データＡＤ２を生成することと並行して、セグメントＳ１に対応する動画データＡＤ１を出力する。

【0049】

ところで、セグメントＳ１に対応する動画データＡＤ１を生成するためにかかる時間と、セグメントＳ１に対応する動画データＡＤ１を出力するためにかかる時間は、必ずしも同一とは限らない。

【0050】

もし、生成するためにかかる時間が、出力するためにかかる時間よりも長い場合、動画データＡＤ１を出力したときに、動画データＡＤ２を生成が終わっていないため、動画データＡＤ１を出力したあと、動画データＡＤ２の出力を開始するまでに時間が空いてしまうことになる。そこで、制御部２３は、生成ステップとして、ｎ－１番目のセグメントに対応するｎ－１番目の動画データと連続してｎ番目のセグメントに対応するｎ番目の動画データを出力することができるように、ｎ番目の動画データを生成することが好ましい。このような構成によれば、複数のセグメントに対応する動画データを途切れることなく連続して出力することができる。動画データが途切れることがないため、ユーザＹはストレスなくアバターＡＶと会話をすることができる。

【0051】

一方、もし、生成するためにかかる時間が、出力するためにかかる時間よりも短い場合、動画データＡＤ２の生成が終わったときに、動画データＡＤ１の出力が終わっていないため、すぐに動画データＡＤ２を出力することができない状況が生じ得る。本実施形態においては、制御部２３は、生成ステップにおいてｎ番目の動画データを生成したとき、ｎ－１番目の動画データの出力が完了していない場合には、プロセッサは、出力ステップにおいてｎ番目の動画データの出力をキューイングするように構成されてもよい。このような構成によれば、ｎ－１番目の動画データの出力前に、ｎ番目の動画データが生成された場合には、一旦キューイングした上で順番に出力することができる。

【0052】

ところで、図９に示されるように、生成するためにかかる時間が、出力するためにかかる時間よりも短い場合、セグメントＳ２に対応する動画データＡＤ２を生成した後、動画データＡＤ２を出力するまでにキューイングＱ２が発生し、セグメントＳ３に対応する動画データＡＤ３を生成した後、動画データＡＤ３を出力するまでにキューイングＱ３が発生し、セグメントＳｎに対応する動画データＡＤｎを生成した後、動画データＡＤｎを出力するまでにキューイングＱｎが発生する。このような場合には、キューイング中の動画データの数が増えていくことがある。そこで、制御部２３は、生成ステップとして、キューイング中の動画データの数を適正化するように動画データを生成する生成速度を調整してもよい。このような構成によれば、出力の速度に合わせて、動画データが生成されるため、リソースの適正化を図ることができる。

【0053】

５．変形例
さらに、以下のような態様を採用してもよい。上記情報処理の態様はあくまで一例である。本発明はこれに限定されることなく、その発明の技術的思想を逸脱しない範囲で適宜変更可能である。

【0054】

上記実施形態では、アクティビティＡ１０２において、制御部２３は、第１の受付ステップとして、ユーザＹが発話する音声を受け付けたが、制御部２３は、さらに音声情報とは異なるデータを受け付け、入力ステップとして、音声情報と、当該音声情報とは異なるデータとを含むプロンプトを人工知能モジュールに入力してもよい。このような構成によれば、ユーザから音声以外の情報を受け付け、音声以外の情報に関する会話を行うことができる。

【0055】

ここで、音声情報とは異なるデータとは、撮像データ、文書データ、温度湿度等のセンサにより取得されるデータ等である。例えば、ユーザから「この写真について意見を聞かせてほしい」という音声とともに撮像データを受け付けた場合に、写真に対する意見を含む返答をすることや、ユーザから「この文章を読んだ感想がほしい」という音声とともに文書データを受け付けた場合に、その文章についての感想を返答することや、ユーザから「寒いですね」という音声を受け付けた場合に、温度センサより取得される情報に基づき返答をすることができる。このような場合には、人工知能モジュールとして、マルチモーダルに対応したタイプの人工知能モジュールを用いるとよい。マルチモーダルに対応したタイプの人工知能モジュールとは、テキスト、音声、画像、動画等、複数の異なる形式のデータを統合して処理する人工知能モジュールである。マルチモーダルに対応したタイプの人工知能モジュールを用いることで、例えば、画像と音声の関連付け等を行ったうえで返答することができる。

【0056】

上記実施形態では、アクティビティＡ１０１で表示部３４にアバターを表示させるとして記載したが、アクティビティＡ１０１の段階でアバターは表示部３４に表示されなくてもよい。制御部２３は、ユーザからの発話に応じて、アバターを出力させてもよい。

【0057】

上記実施形態では、アクティビティＡ１０２でユーザＹの発話が途切れたとして記載したが、制御部２３は、ユーザの発話が区切られるかどうかを音声認識システムにより、ユーザＹの発話の文脈を判定し、ユーザＹからの一連の質問が途切れたと判例した場合に、ユーザＹの発話が途切れたと判定してもよい。

【0058】

上記実施形態のアクティビティＡ１０４において、制御部２３は、入力ステップとして、音声情報を人工知能モジュールに入力する際に、人工知能モジュールが出力する言語に関する要求事項を含んでもよい。このような態様により、人工知能モジュールに入力した言語とは異なる言語により返答を得ることができる。言語に関する要求事項は、例えば、言語タグにより指定してもよい。

【0059】

さらに、アクティビティＡ１０５において、制御部２３は、第２の受付ステップとして、人工知能モジュールからの返答を複数のセグメントに分割して受け付ける場合に、返答の言語に応じて、返答を複数のセグメントに分割して受け付けてもよい。換言すると、制御部２３は、返答の言語に応じた句読記号により、返答を分割してもよい。

【0060】

図１に示す全体構成は一例であり、これに限られない。例えば、サーバ２は、２台以上の装置に分散されてもよいし、クラウドコンピューティングシステムに代替されてもよい。また、全ての処理がサーバ２で行われてもよいし、全ての処理が情報処理装置３で行われてもよい。情報処理装置３にアプリケーションをインストールし、情報処理装置３とサーバ２とが連携して上記したような処理を実行するようにしてもよい。

【0061】

サーバ２は、オンプレミス形態であってもよく、クラウド形態であってもよい。クラウド形態のサーバ２としては、例えば、ＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）、クラウドコンピューティングという形態で、上記の機能や処理を提供してもよい。

【0062】

上記実施形態では、サーバ２が種々の記憶・制御を行ったが、サーバ２に代えて、複数の外部装置が用いられてもよい。すなわち、種々の情報やプログラムは、ブロックチェーン技術等を用いて複数の外部装置に分散して記憶されてもよい。

【0063】

次に記載の各態様で提供されてもよい。

【0064】

（１）情報処理システムであって、少なくとも１つのプロセッサを備え、前記プロセッサはプログラムを読み出すことで次の各ステップを実行するように構成され、第１の受付ステップでは、ユーザの発した音声に対応する音声情報を受け付け、入力ステップでは、前記音声情報を含むプロンプトを人工知能モジュールに入力し、生成ステップでは、前記人工知能モジュールからの返答を複数のセグメントに分割し、前記複数のセグメントのそれぞれに対応する動画データを順番に生成し、ここで、前記動画データは、前記返答をアバターが発話するアニメーションと、前記返答に対応する合成音声とを含み、出力ステップでは、前記動画データのそれぞれを順番に出力し、前記生成ステップと、前記出力ステップとは、並列で実行される、システム。

【0065】

このような構成によれば、ユーザから受け付けた音声に対して、人工知能モジュールにより返答を生成させ、その返答をアバターが発話する動画データをユーザに対して出力する情報処理システムにおいて、返答を複数のセグメントに分割し、セグメント毎に動画データを生成するため、動画データの出力までにかかる時間が短くなり、ユーザビリティが向上する。

【0066】

（２）上記（１）に記載の情報処理システムにおいて、前記第１の受付ステップでは、前記ユーザの音声をリアルタイムでテキスト化し、前記ユーザの音声が途切れた場合に、それまでにテキスト化した前記ユーザの音声を前記音声情報として受け付ける、システム。

【0067】

このような構成によれば、ユーザが発話し終えたタイミングで、かつ、迅速にユーザの音声を音声情報として受け付けることができる。

【0068】

（３）上記（１）又は（２）に記載の情報処理システムにおいて、さらに、第２の受付ステップでは、前記人工知能モジュールからストリーミング形式で送信された前記返答を、前記複数のセグメントに分割して受け付け、前記生成ステップでは、受け付けたセグメントから順番に当該セグメントに対応する動画データを生成する、システム。

【0069】

このような構成によれば、人工知能モジュールからの返答を最後まで待つことなく、複数のセグメントに分割して受け付け、受け付けたセグメントから順番に、動画データを生成するため、１番目のセグメントに対応する動画データが生成するまでにかかる時間が短くなり、ユーザビリティが向上する。

【0070】

（４）上記（１）～（３）の何れか一つに記載の情報処理システムにおいて、前記生成ステップでは、ｎ－１番目のセグメントに対応するｎ－１番目の動画データと連続してｎ番目のセグメントに対応するｎ番目の動画データを出力することができるように、前記ｎ番目の動画データを生成する、システム。

【0071】

このような構成によれば、動画データを連続して出力することができる。動画データが途切れることがないため、ユーザはストレスなくアバターと会話をすることができる。

【0072】

（５）上記（４）に記載の情報処理システムにおいて、前記生成ステップにおいて前記ｎ番目の動画データを生成したとき、前記ｎ－１番目の動画データの出力が完了していない場合には、前記プロセッサは、前記出力ステップにおいて前記ｎ番目の動画データの出力をキューイングする、システム。

【0073】

このような構成によれば、n－１番目の動画データの出力前に、n番目の動画データが生成された場合には、一旦キューイングした上で順番に出力することができる。

【0074】

（６）上記（５）に記載の情報処理システムにおいて、前記生成ステップでは、前記キューイング中の動画データの数を適正化するように前記動画データを生成する生成速度を調整する、システム。

【0075】

このような構成によれば、出力の速度に合わせて、動画データが生成されるため、リソースの適正化を図ることができる。

【0076】

（７）上記（１）～（６）の何れか一つに記載の情報処理システムにおいて、前記セグメントは、前記返答が句読記号に基づいて分割されたものである、システム。

【0077】

このような構成によれば、人工知能モジュールから受け付けた返答を、意味のまとまりごとにセグメントに分割することができる。

【0078】

（８）上記（１）～（７）の何れか一つに記載の情報処理システムにおいて、前記アニメーションは、前記アバターの発話に合わせた、前記アバターの口の動き、体の動き、及び顔の表情のうちの少なくとも１つを含む、システム。

【0079】

このような構成によれば、アバターが発話するアニメーションのリアリティがより向上し、ユーザの没入感もさらに向上する。

【0080】

（９）上記（１）～（８）の何れか一つに記載の情報処理システムにおいて、前記第１の受付ステップでは、さらに前記音声情報とは異なるデータを受け付け、前記入力ステップでは、前記音声情報と前記音声情報とは異なる前記データとを含む前記プロンプトを前記人工知能モジュールに入力する、システム。

【0081】

このような構成によれば、ユーザから音声以外の情報を受け付け、音声以外の情報に関する会話を行うことができる。

【0082】

（１０）情報処理方法であって、上記（１）～（９）までの何れか一つに記載の情報処理システムにおける各ステップを含む、方法。

【0083】

【0084】

（１１）プログラムであって、少なくとも１つのコンピュータに、上記（１）～（９）までの何れか一つに記載の情報処理システムにおける各ステップを実行させる、プログラム。

【0085】

【0086】

最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0087】

１：情報処理システム
２：サーバ
２０：通信バス
２１：通信部
２２：記憶部
２３：制御部
３：情報処理装置
３０：通信バス
３１：通信部
３２：記憶部
３３：制御部
３４：表示部
３５：入力部
３６：出力部
５１：音声
８：返答
９：説明図
ＡＤ：動画データ
ＡＤ１：動画データ
ＡＤ２：動画データ
ＡＤ３：動画データ
ＡＤｎ：動画データ
ＡＶ：アバター
Ｑ２：キューイング
Ｑ３：キューイング
Ｑｎ：キューイング
Ｓ１：セグメント
Ｓ２：セグメント
Ｓ３：セグメント
Ｓｎ：セグメント
Ｙ：ユーザ

【要約】（修正有）

【課題】動画データの出力までにかかる時間を短くし、ユーザビリティを向上させる情報処理システム、情報処理方法及びプログラムを提供する。
【解決手段】少なくとも１つのプロセッサを備える情報処理システムにおいて、プロセッサがプログラムを読み出すことで実行する方法は、第１の受付ステップ（音声情報を受け付けるステップ）では、ユーザの発した音声に対応する音声情報を受け付け、入力ステップでは、音声情報を含むプロンプトを人工知能モジュール（会話型ＡＩ）に入力し、生成ステップでは、人工知能モジュールからの返答を複数のセグメントに分割し、複数のセグメントのそれぞれに対応する動画データを順番に生成する。前記動画データは、返答をアバターが発話するアニメーションと、返答に対応する合成音声と、を含む。さらに、生成ステップと並列で実行される出力ステップでは、動画データのそれぞれを順番に出力する。
【選択図】図６