特開2025-25082 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立マクセル株式会社の特許一覧

特開2025-25082応答出力装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
2D
2E
2F
2G
2H
2I
2J
2K
2L
3A
3B
3C
3D
3E
3F
3G
3H
3I
4A
4B
5A
5B
5C
5D
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025025082

(43)【公開日】2025-02-21

(54)【発明の名称】応答出力装置

(51)【国際特許分類】

G06F 40/56 20200101AFI20250214BHJP

G06F 3/16 20060101ALI20250214BHJP

G10L 13/00 20060101ALI20250214BHJP

【ＦＩ】

G06F40/56

G06F3/16 620

G10L13/00 100M

【審査請求】未請求

【請求項の数】27

【出願形態】ＯＬ

(21)【出願番号】P 2023129534

(22)【出願日】2023-08-08

(71)【出願人】

【識別番号】000005810

【氏名又は名称】マクセル株式会社

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】清水拓也

(72)【発明者】

【氏名】鋪田和夫

(57)【要約】

【課題】より好適な人工知能応答出力技術を提供すること。本発明によれば、持続可能な開発目標（ＳＤＧｓ）の「９産業と技術革新の基盤をつくろう」、「１１住み続けられるまちづくりを」に貢献する。
【解決手段】応答出力装置であって、大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、表示部と、音声出力部と、を備え、前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、
表示部と、
音声出力部と、
を備え、
前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある、
応答出力装置。

【請求項2】

請求項１に記載の応答出力装置であって、
ストレージ部を備え、
前記ストレージ部には、応答の元となる定型文が複数格納されたデータベースが格納されており、
前記制御部による制御状態には、前記大規模言語モデルからの応答ではなく、前記データベースに格納された定型文にもとづいて生成した応答を出力する状態がある、
応答出力装置。

【請求項3】

請求項２に記載の応答出力装置であって、
前記表示部は、複数の異なるＡＩアシスタントを表示可能であり、
前記ストレージ部の前記データベースには、前記複数の異なるＡＩアシスタントのそれぞれに対応して異なる応答が生成可能な定型文データが格納されている、
応答出力装置。

【請求項4】

請求項２に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項5】

請求項２に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が所定時間以内に取得可能な場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が前記所定時間以内に取得できない場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項6】

請求項２に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項7】

請求項１に記載の応答出力装置であって、
前記応答出力装置内での大規模言語モデルの処理が可能なローカル大規模言語モデル処理部を備え、
前記制御部による制御状態には、
前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を前記表示部または前記音声出力部を介して出力する状態がある、
応答出力装置。

【請求項8】

請求項１に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得して、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項9】

請求項１に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項10】

請求項１に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が所定時間以内に取得可能な場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が前記所定時間以内に取得できない場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項11】

請求項１に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項12】

請求項１に記載の応答出力装置であって、
通信部を備え、
前記制御部は、
前記通信部を介してネットワーク上のサーバにある第１の大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある前記第１の大規模言語モデルから取得可能であり、
且つ前記通信部を介してネットワーク上のサーバにある第２の大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある前記第２の大規模言語モデルから取得可能である、
応答出力装置。

【請求項13】

請求項１２に記載の応答出力装置であって、
前記制御部による制御状態には、
前記通信部を介して前記ネットワーク上のサーバにある前記第１の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して前記ネットワーク上のサーバにある前記第２の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある、
応答出力装置。

【請求項14】

請求項１２に記載の応答出力装置であって、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある前記第１の大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある前記第１の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある前記第１の大規模言語モデルの利用量が所定の上限に達した場合に、前記ネットワーク上のサーバにある前記第２の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第２の状態と、
がある
応答出力装置。

【請求項15】

請求項１に記載の応答出力装置であって、
通信部と、
操作入力部またはマイクと、
を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して、当該入力に対する応答を出力しない状態となる第２の状態と、
がある、
応答出力装置。

【請求項16】

請求項１に記載の応答出力装置であって、
通信部と、
操作入力部またはマイクと、
を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第１の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して、当該入力に対する応答を出力しない第２の状態と、
がある、
応答出力装置。

【請求項17】

請求項２に記載の応答出力装置であって、
操作入力部またはマイクと、
を備え、
前記制御部は、
前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があった場合に、前記データベースに格納された定型文にもとづいて生成する応答の出力準備を開始し、前記データベースに格納された定型文にもとづいて生成した応答について前記表示部または前記音声出力部を介した出力を開始し、
前記データベースに格納された定型文にもとづいて生成する応答の出力が完了する前に、前記大規模言語モデルへ指示文を送信し、前記大規模言語モデルからの応答の取得を開始し、取得した前記大規模言語モデルからの応答を、前記データベースに格納された定型文にもとづいて生成した応答に続けて、前記表示部または前記音声出力部を介して出力する制御を行う、
応答出力装置。

【請求項18】

請求項２に記載の応答出力装置であって、
前記表示部はＡＩアシスタントを表示可能であり、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による前記表示部のＡＩアシスタントの表示制御状態には、
前記通信部を介した前記ネットワークへの接続が可能であるときの第１の表示制御状態と、
前記通信部を介した前記ネットワークへの接続が不能であるときの第２の表示制御状態と、があり、
前記第２の表示制御状態におけるＡＩアシスタントの表示状態は、前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なり、前記ＡＩアシスタントが眠っている状態で表示される状態である、
応答出力装置。

【請求項19】

請求項１８に記載の応答出力装置であって、
操作入力部またはマイクと、
を備え、
前記第２の表示制御状態において、前記ＡＩアシスタントが眠っている状態での表示状態は、前記通信部を介した前記ネットワークへの接続が不能となった後、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力が入力されるよりも前の時点から開始される、
応答出力装置。

【請求項20】

請求項２に記載の応答出力装置であって、
前記表示部はＡＩアシスタントを表示可能であり、
操作入力部またはマイクを備え、
前記制御部による前記表示部のＡＩアシスタントの表示制御状態には、
前記大規模言語モデルからの応答を用いた出力が、前記表示部または前記音声出力部を介して可能であるときの第１の表示制御状態と、
前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して当該入力に対する応答を出力しないときの第２の表示制御状態と、があり、
前記第２の表示制御状態におけるＡＩアシスタントの表示状態は、前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態である、
応答出力装置。

【請求項21】

請求項２０に記載の応答出力装置であって、
前記第２の表示制御状態において、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態は、前記ＡＩアシスタントが眠っている状態で表示される状態である、
応答出力装置。

【請求項22】

請求項２０に記載の応答出力装置であって、
前記第２の表示制御状態において、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態は、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して当該入力に対する応答を出力しない状態になった後、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力が入力される前の時点から開始される、
応答出力装置。

【請求項23】

請求項２０に記載の応答出力装置であって、
前記操作入力部または前記マイクのうち、少なくとも前記操作入力部を備え、
前記表示部は、前記第２の表示制御状態において所定のマークを表示し、
前記制御部は、
ユーザが前記操作入力部を介して前記所定のマークを選択した場合に、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態となってる要因を説明するための表示を前記表示部に表示させる制御、を行う、
応答出力装置。

【請求項24】

請求項２に記載の応答出力装置であって、
前記表示部はＡＩアシスタントを表示可能であり、
前記制御部による前記表示部のＡＩアシスタントの表示制御状態には、
前記大規模言語モデルからの応答を用いた出力が、前記表示部または前記音声出力部を介して可能であるときの第１の表示制御状態と、
前記応答出力装置から出力可能な応答が、前記大規模言語モデルからの応答を用いた出力よりも低性能な応答の出力であるときの第２の表示制御状態と、があり、
前記第２の表示制御状態におけるＡＩアシスタントの表示状態は、前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態である、
応答出力装置。

【請求項25】

請求項２４に記載の応答出力装置であって、
前記第２の表示制御状態において、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態は、前記ＡＩアシスタントが眠気を感じている状態で表示される状態である、
応答出力装置。

【請求項26】

請求項２４に記載の応答出力装置であって、
操作入力部またはマイクを備え、
前記第２の表示制御状態において、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態は、前記応答出力装置から出力可能な応答が前記大規模言語モデルからの応答を用いた出力よりも低性能な応答の出力である状態になった後、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力が入力されるよりも前の時点から開始される、
応答出力装置。

【請求項27】

請求項２４に記載の応答出力装置であって、
操作入力部を備え、
前記表示部は、前記第２の表示制御状態において所定のマークを表示し、
前記制御部は、
ユーザが前記操作入力部を介して前記所定のマークを選択した場合に、前記ＡＩアシスタントが前記第１の表示制御状態におけるＡＩアシスタントの表示状態とは異なる状態で表示される表示状態となってる要因を説明するための表示を前記表示部に表示させる制御、を行う、
応答出力装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、応答出力装置に関する。

【背景技術】

【0002】

言語モデルなどの人工知能を用いた応答出力技術については、例えば、特許文献１に開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０１９―５２８５１２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１の開示では、人工知能を用いた応答出力技術をユーザにより好適に提供するための構成などについての考慮は十分ではなかった。

【0005】

本発明の目的は、より好適な応答出力技術を提供することにある。

【課題を解決するための手段】

【0006】

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、応答出力装置であって、大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、表示部と、音声出力部と、を備え、前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある、ように構成すればよい。

【発明の効果】

【0007】

本発明によれば、より好適な応答出力技術を提供できる。これ以外の課題、構成および効果は、以下の実施形態の説明において明らかにされる。

【図面の簡単な説明】

【0008】

【図1A】本発明の一実施例に係る人工知能応答出力装置およびシステムの一例を示す図である。

【図1B】本発明の一実施例に係る人工知能応答出力装置の一例を示す図である。

【図1C】本発明の一実施例に係る人工知能応答出力装置およびシステムの動作の一例を示す図である。

【図2A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの一例の説明図である。

【図2B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2C】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2D】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムにける会話の一例の説明図である。

【図2E】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2F】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2G】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2H】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2I】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2J】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2K】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図2L】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの一例の説明図である。

【図3B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3C】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3D】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムにける会話の一例の説明図である。

【図3E】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3F】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3G】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3H】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図3I】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図4A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図4B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。

【図5A】本発明の一実施例に係る人工知能応答出力装置の動作の一例の説明図である。

【図5B】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。

【図5C】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。

【図5D】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。

【図6】本発明の一実施例に係る人工知能応答出力装置の応答生成処理の一例の説明図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、本発明は実施例の説明に限定されるものではなく、本明細書に開示される技術的思想の範囲内において当業者による様々な変更および修正が可能である。また、本発明を説明するための全図において、同一の機能を有するものには、同一の符号を付与し、その繰り返しの説明は省略する場合がある。

【0010】

なお、本発明の各実施例に係る人工知能応答出力装置が表示画面を有する場合は、表示装置と呼んでもよい。人工知能応答出力装置が音声出力機能を有する場合は、音声出力装置と呼んでもよい人工知能応答出力装置は単に情報処理装置と呼んでもよい。人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムを人工知能応答出力システムと呼んでもよい。また、人工知能応答出力装置が人工知能である大規模言語モデルの応答サービスをユーザに提供し、ユーザの助力になる場合は、人工知能応答出力装置または人工知能応答出力装置の表示出力は、ユーザにとって人工知能（ＡＩ）アシスタントとなることができる。よって、この場合、人工知能応答出力装置はＡＩアシスタント装置またはＡＩアシスタント表示装置と呼んでもよい。同様に、この場合、人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムをＡＩアシスタントシステムまたはＡＩアシスタント表示システムと呼んでもよい。また、この場合、人工知能応答出力装置は、ユーザと人工知能の間のインタフェースとなるので、人工知能インタフェース装置と呼んでもよい。この場合、人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムを人工知能インタフェースシステムと呼んでもよい。

【0011】

＜実施例１＞
本発明の実施例１として、大規模言語モデル人工知能からの応答を出力する人工知能応答出力装置およびそのシステムについて、説明する。

【0012】

図１Ａを用いて、本発明の人工知能応答出力装置１００１０の一例について説明する。また、当該人工知能応答出力装置１００１０が大規模言語モデルサーバ１９００１と通信などにより連携する場合について、人工知能応答出力装置１００１０が大規模言語モデルサーバ１９００１および／またはマルチモーダルな大規模言語モデルサーバ２０００１とを含むシステムの一例について説明する。

【0013】

図１Ａの例では、人工知能応答出力装置１００１０は、表示部１００１１を有する。図１Ａの例では、表示部１００１１は、平面ディスプレイでもよく、背面から映像を投影するスクリーンでもよく、光学像を空中に結像する空中浮遊映像でもよい。表示部１００１１はが平面ディスプレイの場合は、液晶パネルとバックライトを有する液晶ディスプレイでもよい。また、表示部１００１１は、プラズマディスプレイでもよい。表示部１００１１は、画素が自発光する有機ＥＬディスプレイでもよい。また、表示部１００１１はタッチ操作入力センサを設け、タッチパネルとして構成してもよい。

【0014】

図１Ａの例では、人工知能応答出力装置１００１０が備える音声出力部１１４０はスピーカで構成されている。また、人工知能応答出力装置１００１０がマイク１１３９を備え、ユーザの声を収音できる。当該マイク１１３９からの音声入力や、後述する操作入力部を介したユーザの操作入力により、人工知能応答出力装置１００１０は、人工知能である大規模言語モデルへの指示文（プロンプト）の元となるユーザ入力を取得することができる。

【0015】

人工知能応答出力装置１００１０は、人工知能応答出力装置１００１０自体にローカルの大規模言語モデルを備えてもよい。この場合、当該大規模言語モデルの応答を上記表示部１００１１の表示出力、および／または、音声出力部１１４０の音声出力として出力してもよい。

【0016】

また、人工知能応答出力装置１００１０は、ローカルの大規模言語モデルを備えず、外部の大規模言語モデルサーバ１９００１と通信し、大規模言語モデルサーバ１９００１から受信する応答を上記表示部１００１１の表示出力、および／または、音声出力部１１４０の音声出力として出力してもよい。

【0017】

または、人工知能応答出力装置１００１０は、ローカルの大規模言語モデルも備え、さらに、大規模言語モデルを有する外部の大規模言語モデルサーバ１９００１またはマルチモーダルな大規模言語モデルを有する外部の大規模言語モデルサーバ２０００１と通信するように構成してもよい。この場合、当該ローカルの大規模言語モデルの応答と、大規模言語モデルサーバ１９００１の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ２０００１のマルチモーダルな大規模言語モデルから受信する応答とを、切り替えて、いずれか一方を、上記表示部１００１１の表示出力、および／または、音声出力部１１４０の音声出力として出力してもよい。または、当該ローカルの大規模言語モデルの応答と、大規模言語モデルサーバ１９００１の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ２０００１のマルチモーダルな大規模言語モデルから受信する応答の両者にもとづいて生成した応答を、上記表示部１００１１の表示出力、および／または、音声出力部１１４０の音声出力として出力してもよい。

【0018】

人工知能応答出力装置１００１０が外部の大規模言語モデルサーバ１９００１または大規模言語モデルサーバ２０００１と通信して連携する場合の構成は、以下のとおりである。人工知能応答出力装置１００１０は、通信部１１３２を介して、インターネット１９０００に接続された通信装置１９０１１と通信可能である。図１Ａの例では、通信部１１３２と通信装置１９０１１との通信は無線の例を示しているが、有線通信でも構わない。通信部１１３２と通信装置１９０１１までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。また、通信部１１３２からインターネット１９０００までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。人工知能応答出力装置１００１０は、通信装置１９０１１およびインターネット１９０００を介して、大規模言語モデルサーバ１９００１と通信可能である。また、人工知能応答出力装置１００１０は、通信装置１９０１１およびインターネット１９０００を介して、大規模言語モデルサーバ１９００１または大規模言語モデルサーバ２０００１、およびこれらのサーバと異なる第２のサーバ１９００２と通信可能である。人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１または大規模言語モデルサーバ２０００１とを含めた構成を一つのシステムとして考えてもよい。

【0019】

以下の説明において、単に「大規模言語モデル」と説明し特に断りがない場合は、人工知能応答出力装置１００１０が備えるローカルの大規模言語モデルと、大規模言語モデルサーバ１９００１が備える大規模言語モデル、および大規模言語モデルサーバ２０００１が備えるマルチモーダルな大規模言語モデルを含めた概念と考えてよい。

【0020】

図１Ａの例では、表示部１００１１が、ユーザから人工知能である大規模言語モデルへの指示文（プロンプト）を入力する指示文表示領域１００５１と、大規模言語モデルからの応答を表示する人工知能応答表示領域１００６１の２つの表示領域に各要素を表示する例を示している。図１Ａの例では、指示文表示領域１００５１には、ユーザを示すアイコン１００５２、指示文の構成要素としての自然言語やソフトウェアコードなどのテキスト１００５３、指示文の構成要素としての画像１００５４、指示文の構成要素としての動画１００５５、などを表示する例を示している。図１Ａの例では、人工知能応答表示領域１００６１には、人工知能または人工知能アシスタントを示すアイコン１００６２、人工知能からの応答の構成要素としての自然言語やソフトウェアコードなどのテキスト１００６３、人工知能からの応答の構成要素としての画像１００６４、人工知能からの応答の構成要素としての動画１００６５、などを表示する例を示している。なお、図１Ａに示す人工知能応答出力装置１００１０の表示部１００１１の表示例は、あくまで一例である。人工知能応答出力装置１００１０が用いられる実装例に応じて、図１Ａに示す例とは異なる表示を行えばよい。

【0021】

ここで、大規模言語モデルについて説明する。大規模言語モデルはＬＬＭ（ＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌ）とも表記される。具体的には、ＧＰＴ－１、ＧＰＴ－２、ＧＰＴ－３、ＩｎｓｔｒｕｃｔＧＰＴ、ＣｈａｔＧＰＴなど様々なモデルが公開されている。本実施例においてもこれらの技術を用いればよい。なお、これらの大規模言語モデルは人間界に存在する数多くの文書、テキストに含まれる自然言語を対象に、大規模な事前学習が行われて生成された人工知能モデルである。人工知能モデルのパラメータ数は億を超える。さらに、これに加えて、人間からのフィードバックにもとづく強化学習を施したモデルもある。ベースとなるモデルの一例はＴｒａｎｓｆｏｒｍｅｒと呼ばれるモデルなどである。これらのモデルの学習の一例として、例えば、参考文献１などが公開されている。

【0022】

［参考文献１］
Long Ouyang, et. al. “Training language models to follow instructions with human feedback”, https://arxiv.org/pdf/2203.02155.pdf

【0023】

これらの大規模言語モデルは、自然言語を対象とした翻訳、自然言語を対象とした文章校正、自然言語を対象とした文章要約、などが可能である。そのうち、高度なものでは、自然言語による質問回答（対話または会話ともよばれる）、自然言語による提案生成、プログラミングコードの生成などが可能である。これらの人工知能モデルのパラメータ数は非常に大きいため、学習には膨大なデータ、計算資源が必要である。よって、特定の用途に限って、このレベルの人工知能の学習を行うことは非常に資源効率が悪い。そこで、様々な用途に応用できる基盤モデル（ＦｏｕｎｄａｔｉｏｎＭｏｄｅｌ）として、大規模な事前学習を行ってモデルが生成されている。例えば、図１Ａに示す大規模言語モデルサーバ１９００１は、このような大規模言語モデルを備え、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を介して、様々な端末で利用できるように構成してもよい。また、図１Ａに示す人工知能応答出力装置１００１０がローカルの大規模言語モデルを備え、人工知能応答出力装置１００１０自身が利用するように構成してもよい。いずれの大規模言語モデルの学習自体は、別途、大規模な事前学習を行って生成し、生成した大規模言語モデルを複製して、大規模言語モデルサーバ１９００１や人工知能応答出力装置１００１０などに備えればよい。このように、用途ごとや端末ごとに事前学習を行うのではなく、大規模な事前学習を行って生成した基盤モデルである大規模言語モデルを複製して個々のサーバや端末で利用すれば、学習に用いる資源消費を共有することができるため資源効率がよい。

【0024】

なお、大規模な事前学習を行って生成した基盤モデルとしての大規模言語モデルであっても、個々のサーバや装置において、用途や目的に応じて転移学習などの追加学習を行うように構成してもよい。

【0025】

また、大規模言語モデルは、自然言語を事前学習し、自然言語を対象とした入出力処理を行うことができる。さらに、自然言語のテキスト情報に加えて自然言語のテキスト情報以外の種類の情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能も本発明の実施例に適用可能である。図１Ａにおいては、マルチモーダルな大規模言語モデルを有するサーバを大規模言語モデルサーバ２０００１を示す。例えば、マルチモーダルな大規模言語モデル人工知能の一例としては、具体的には、ＧＰＴ－４（参考文献２参照）、Ｇａｔｏ（参考文献３参照）などが公開されている。本実施例においてもこれらの技術を用いればよい。なお、これらのマルチモーダルな大規模言語モデルは人間界に存在する数多くの文書、テキストに含まれる自然言語および自然言語のテキスト情報以外の種類の情報（例えば、画像、動画、音声など）を対象に、大規模な事前学習が行われて生成された人工知能モデルである。さらに、これに加えて、人間からのフィードバックにもとづく強化学習を施したモデルもある。以下、画像、動画、音声などの自然言語のテキスト情報以外の種類の情報を非自然言語情報源と称してもよい。

【0026】

［参考文献２］
Open AI “GPT-4 Technical Report”, https://cdn.openai.com/papers/gpt-4.pdf
［参考文献３]
Scott Reed, et. al. “A Generalist Agent”,
https://arxiv.org/pdf/2205.06175.pdf

【0027】

次に、図１Ｂを用いて、これらの大規模言語モデルなどの人工知能に対するユーザからの入力を受け付け、当該ユーザからの入力に対する大規模言語モデルなどの人工知能からの応答を出力する、人工知能応答出力装置１００１０の構成例について説明する。

【0028】

人工知能応答出力装置１００１０は、表示部１００１１、制御部１１１０、メモリ１１０９、不揮発性メモリ１１０８、外部電源入力インタフェース１１１１、操作入力部１１０７、電源１１０６、二次電池１１１２、ストレージ部１１７０、映像制御部１１６０、姿勢センサ１１１３、通信部１１３２、音声出力部１１４０、マイク１１３９、映像信号入力部１１３１、音声信号入力部１１３３、撮像部１１８０、等を備えている。人工知能応答出力装置１００１０は、例えば、いわゆるモニタやテレビなどの大画面を有するものでもよい。

【0029】

表示部１００１１は、平面ディスプレイでもよく、背面から映像を投影するスクリーンでもよく、光学像を空中に結像する空中浮遊映像を表示するものでもよい。表示部１００１１はが平面ディスプレイの場合は、液晶パネルとバックライトを有する液晶ディスプレイでもよい。また、表示部１００１１は、プラズマディスプレイでもよい。表示部１００１１は、画素が自発光する有機ＥＬディスプレイでもよい。表示部１００１１がパネルの場合は、表示パネルと称してもよい。表示部１００１１にタッチ操作入力センサを設け、ユーザ２３０の指によるタッチ操作入力を受け付けるように構成してもよい。この場合、表示部１００１１はタッチパネルとして構成してもよい。当該タッチパネルを介したユーザの操作入力により、人工知能応答出力装置１００１０は、人工知能である大規模言語モデルへの指示文（プロンプト）の元となるユーザ入力を取得することができる。

【0030】

通信部１１３２は、Ｗｉ―Ｆｉ方式の通信インタフェース、Ｂｌｕｅｔｏｏｔｈ（登録商標）方式の通信インタフェース、４Ｇ、５Ｇなどの移動体通信インタフェースなどで構成すればよい。これらの通信方式を用いて、人工知能応答出力装置１００１０の通信部１１３２は、インターネット１９０００に接続された通信装置１９０１１と通信可能である。なお、通信部１１３２と通信装置１９０１１までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。有線の場合は、通信部１１３２は、ハードウェアとしてイーサネットの接続インタフェースを有してＬＡＮ方式の通信方式を用いて通信を行ってもよい。これにより、人工知能応答出力装置１００１０はインターネット１９０００に接続された各種サーバと通信可能である。

【0031】

人工知能応答出力装置１００１０にはＣＰＵなどの制御部１１１０およびメモリ１１０９が備えられており、当該制御部１１１０は、表示部１００１１や通信部１１３２などを制御する。

【0032】

電源１１０６は、外部から外部電源入力インタフェース１１１１を介して入力されるＡＣ電流をＤＣ電流に変換し、人工知能応答出力装置１００１０の各部にそれぞれ必要なＤＣ電流を供給する。二次電池１１１２は、電源１１０６から供給される電力を蓄電する。また、二次電池１１１２は、外部電源入力インタフェース１１１１を介して、外部から電力が供給されない場合に、電力を必要とする各部に対して電力を供給する。

【0033】

操作入力部１１０７は、例えば操作ボタンや、リモートコントローラ等の信号受信部または赤外光受光部であり、表示部１００１１のタッチ操作入力センサへのユーザによるタッチ操作とは異なる操作についての信号を入力する。表示部１００１１のタッチ操作入力センサをタッチ操作するユーザとは別に、操作入力部１１０７は、例えば管理者が人工知能応答出力装置１００１０を操作するために用いられてもよい。当該操作入力部１１０７を介したユーザの操作入力により、人工知能応答出力装置１００１０は、人工知能である大規模言語モデルへの指示文（プロンプト）の元となるユーザ入力を取得することができる。なお、表示部１００１１のタッチ操作入力センサも前記操作入力部１１０７の一部として含む構成とする変形例もあり得る。

【0034】

映像信号入力部１１３１は、外部の映像出力装置を接続して映像データを入力する。映像信号入力部１１３１は、様々なデジタル映像入力インタフェースが考えられる。例えば、ＨＤＭＩ（登録商標）（High―Definition Multimedia Interface）規格の映像入力インタフェース、ＤＶＩ（Digital Visual Interface）規格の映像入力インタフェース、またはＤｉｓｐｌａｙＰｏｒｔ規格の映像入力インタフェースなどで構成すればよい。または、アナログＲＧＢや、コンポジットビデオなどのアナログ映像入力インタフェースを設けてもよい。映像信号入力部１１３１は、各種ＵＳＢインタフェースなどでもよい。

【0035】

音声信号入力部１１３３は、外部の音声出力装置を接続して音声データを入力する。音声信号入力部１１３３は、ＨＤＭＩ規格の音声入力インタフェース、光デジタル端子インタフェース、または、同軸デジタル端子インタフェース、などで構成すればよい。音声信号入力部１１３３は、各種ＵＳＢインタフェースなどでもよい。ＨＤＭＩ規格のインタフェースの場合は、映像信号入力部１１３１と音声信号入力部１１３３とは、端子およびケーブルが一体化したインタフェースとして構成されてもよい。

【0036】

音声出力部１１４０は、音声信号入力部１１３３に入力された音声データに基づいた音声を出力することが可能である。音声出力部１１４０は、ストレージ部１１７０に格納されている音声データに基づいた音声を出力することも可能である。音声出力部１１４０は、スピーカで構成してもよい。また、音声出力部１１４０は、内蔵の操作音やエラー警告音を出力してもよい。または、ＨＤＭＩ規格に規定されるＡｕｄｉｏＲｅｔｕｒｎＣｈａｎｎｅｌ機能のように、外部機器にデジタル信号として音声信号を出力する構成を音声出力部１１４０としてもよい。または、ヘッドホンなどの外部機器にアナログ信号として音声信号を出力する構成を音声出力部１１４０としてもよい。

【0037】

マイク１０３９は、人工知能応答出力装置１００１０の周辺の音を収音し、信号に変換して音声信号を生成するマイクである。ユーザの声など人物の声をマイクが収録して、生成した音声信号を後述する制御部１１１０が音声認識処理を行って、当該音声信号から文字情報を取得するように構成してもよい。当該マイク１１３９からの音声入力により、人工知能応答出力装置１００１０は、人工知能である大規模言語モデルへの指示文（プロンプト）の元となるユーザ入力を取得することができる。

【0038】

撮像部１１８０は、イメージセンサを有するカメラである。人工知能応答出力装置１００１０の表示部１００１１側の前面にカメラを設けてもよく、表示部１００１１側の背面にカメラを設けてもよい。前面のカメラと背面のカメラの両者を設けてもよい。本実施例では、撮像部１１８０は、前面のカメラと背面のカメラの両者を有するものとして説明する。

【0039】

ストレージ部１１７０は、映像データ、画像データ、音声データ等の各種データなどの各種情報を記録する記憶装置である。ストレージ部１１７０は、ハードディスクドライブ（ＨＤＤ）などの磁気記録媒体記録装置や、ソリッドステートドライブ（ＳＳＤ）などの半導体素子メモリで構成してもよい。ストレージ部１１７０には、例えば、製品出荷時に予め映像データ、画像データ、音声データ等の各種データ等の各種情報が記録されていてもよい。また、ストレージ部１１７０は、通信部１１３２を介して外部機器や外部のサーバ等から取得した映像データ、画像データ、音声データ等の各種データ等の各種情報を記録してもよい。ストレージ部１１７０に記録された映像データ、画像データ等は、表示部１００１１に出力される。ストレージ部１１７０に記録された映像データ、画像データ等を、通信部１１３２を介して外部機器や外部のサーバ等に出力してもよい。

【0040】

映像制御部１１６０は、表示部１００１１に入力する映像信号に関する各種制御を行う。映像制御部１１６０は、映像処理回路と称してもよく、例えば、ＡＳＩＣ、ＦＰＧＡ、映像用プロセッサなどのハードウェアで構成されてもよい。なお、映像制御部１１６０は、映像処理部、画像処理部と称してもよい。映像制御部１１６０は、例えば、メモリ１１０９に記憶させる映像信号と、映像信号入力部１１３１に入力された映像信号（映像データ）等のうち、どの映像信号を表示部１００１１に入力するかといった映像切り替えの制御等を行う。また、映像制御部１１６０は、映像信号入力部１１３１から入力された映像信号やメモリ１１０９に記憶させる映像信号等に対して画像処理を行う制御を行ってもよい。画像処理としては、例えば、画像の拡大、縮小、変形等を行うスケーリング処理、輝度を変更するブライト調整処理、画像のコントラストカーブを変更するコントラスト調整処理、画像を光の成分に分解して成分ごとの重みづけを変更するレティネックス処理等がある。

【0041】

姿勢センサ１１１３は、重力センサまたは加速度センサ、またはこれらの組み合わせにより構成されるセンサであり、人工知能応答出力装置１００１０の姿勢を検出することができる。姿勢センサ１１１３の姿勢検出結果に基づいて、制御部１１１０が、接続される各部の動作を制御してもよい。

【0042】

不揮発性メモリ１１０８は、人工知能応答出力装置１００１０で用いる各種データを格納する。不揮発性メモリ１１０８に格納されるデータには、例えば、人工知能応答出力装置１００１０の表示部１００１１に表示する各種操作用のデータ、表示アイコン、ユーザの操作が操作するためのオブジェクトのデータやレイアウト情報等が含まれる。メモリ１１０９は、表示部１００１１に表示する映像データや装置の制御用データ等を記憶する。制御部１１１０がストレージ部１１７０から各種ソフトウェアを読み出して、メモリ１１０９に展開して記憶してもよい。

【0043】

ローカルＬＬＭ処理部１００２８は、大規模言語モデル（ＬＬＭ）を保持できるメモリを備え、制御部１１１０の制御にもとづいて、大規模言語モデルの推論を実行できる。ハードウェアとしてはいわゆるＧＰＵ（Graphics Processing Unit）などで構成すればよい。ローカルＬＬＭ処理部１００２８は、推論のみならず、学習を行ってもよい。なお、人工知能応答出力装置１００１０のローカル環境での大規模言語モデルの推論の実行が不要な場合などは必ずしも、ローカルＬＬＭ処理部１００２８を要しない。

【0044】

制御部１１１０は、接続される各部の動作を制御する。また、制御部１１１０は、メモリ１１０９に記憶されるプログラムと協働して、人工知能応答出力装置１００１０内の各部から取得した情報に基づく演算処理を行ってもよい。制御部１１１０による制御状態には、例えば、ローカルＬＬＭ処理部１００２８の大規模言語モデルからの応答や、通信部１１３２を介して取得した、大規模言語モデルサーバ１９００１の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ２０００１のマルチモーダルな大規模言語モデル大規模言語モデルからの応答を、表示部１００１１またはスピーカ等である音声出力部１１４０を介して出力する状態がある。

【0045】

なお、上述のタッチパネル、マイク１１３９または操作入力部１１０７を介してユーザから入力があった場合に、当該入力にもとづいて指示文を生成し、人工知能応答出力装置１００１０が備えるローカルＬＬＭ処理部１００２８のローカルの大規模言語モデル、大規模言語モデルサーバ１９００１が備える大規模言語モデル、または大規模言語モデルサーバ２０００１が備えるマルチモーダルな大規模言語モデルへ送信し、これらの大規模言語モデルから応答を取得する制御は、いずれも制御部１１１０が行えばよい。

【0046】

また、ストレージ部１１７０には、人工知能応答出力装置１００１０の指示文の応答として定型文を出力するための応答定型文データベース（応答定型文ＤＢと表記してもよい）を格納してもよい。制御部１１１０が当該応答定型文データベースに格納されるデータを用いて出力する応答を生成する制御を行えばよい。図１Ｃに応答定型文データベースの一例を示す。図１Ｃの例では、条件番号が付された各条件について、人工知能応答出力装置１００１０が出力する定型文の応答が格納されている。例えば、条件番号１のように、上述のタッチパネル、マイク１１３９または操作入力部１１０７を介してユーザから「おはようございます」が入力された場合、応答定型文として「おはようございます」または「今日は〇月〇日ですね。」を用いて応答を出力すればよい。「〇月〇日」など〇の部分は、人工知能応答出力装置１００１０が有するメモリ１１０９などに格納される情報を用いて生成すればよい。

【0047】

また、図１Ｃに示すデータベースにおける応答定型文の例において、／で区切られた複数の応答定型文が格納されている場合は、制御部１１１０は、乱数などを用いてランダムに、いずれかの応答定型文を選択して応答が出力されるように制御すればよい。このようにすると、同一の条件における応答が単調になるという状況を解消して改善することができる。条件番号２、３、および４の例についても、条件番号１の例の説明と同様である。図１Ｃに示される各例の条件内容に対して、図１Ｃに示される各例の応答定型文を用いた出力をするように、制御部１１１０が制御を行えばよい。

【0048】

次に、図１Ｃに示される条件番号５の例について説明する。条件番号５は、タッチパネル、マイク１１３９または操作入力部１１０７を介して取得したユーザ入力について、制御部１１１０が自然言語として意味が理解できなかった場合またはユーザ入力に明らかに文法の誤りがある場合に、制御部１１１０が応答定型文として「ちょっと聞き取れませんでした」または「それについてはわからないかもしれません」を用いて応答を出力する制御を行う例である。このように応答することでユーザに再度の入力を促すことができ、修正されたユーザ入力を待つことができる。

【0049】

次に、図１Ｃに示される条件番号６の例について説明する。条件番号６は、図１Ｂに示す人工知能応答出力装置１００１０を構成する各部のいずれかの部においてエラー（異常状態）であることを制御部１１１０が検出している状態で、タッチパネル、マイク１１３９または操作入力部１１０７を介してユーザ入力があった場合の例である。この場合、制御部１１１０は応答定型文として「調子が悪いみたいです」を用いて応答を出力する制御を行う。このように応答することでユーザに人工知能応答出力装置１００１０が不調であることを説明することができ、ユーザにエラー対応などを促すことができる。

【0050】

人工知能応答出力装置１００１０は、人工知能応答出力装置１００１０が備えるローカルの大規模言語モデル、大規模言語モデルサーバ１９００１が備える大規模言語モデル、および大規模言語モデルサーバ２０００１が備えるマルチモーダルな大規模言語モデル、などの大規模言語モデルの応答に替えて、図１Ｃを用いて説明した応答定型文データベース（応答定型文ＤＢ）を用いた応答を出力してもよい。または、これらの大規模言語モデルの応答と応答定型文データベース（応答定型文ＤＢ）を用いた応答を組み合わせた応答を出力してもよい。

【0051】

なお、以上説明した図１Ｃの応答定型文データベース（応答定型文ＤＢ）はストレージ部１１７０に格納され、人工知能応答出力装置１００１０の制御部１１１０がこれを用いればよい。しかしながら、図１Ｃに示す応答定型文データベース（応答定型文ＤＢ）を大規模言語モデルサーバ１９００１側または大規模言語モデルサーバ２０００１側に備えてもよい。この場合は、大規模言語モデルサーバ１９００１が有する制御部または大規模言語モデルサーバ２０００１が有する制御部が、当該応答定型文データベース（応答定型文ＤＢ）を用いた応答を生成すればよい。大規模言語モデルサーバ１９００１が有する制御部または大規模言語モデルサーバ２０００１が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、応答定型文データベース（応答定型文ＤＢ）を用いて生成した応答を、人工知能応答出力装置１００１０へ送信すればよい。このようにすれば、人工知能応答出力装置１００１０に応答定型文データベース（応答定型文ＤＢ）が備えられていない場合でも、応答定型文データベース（応答定型文ＤＢ）を用いた応答の生成が可能となる。

【0052】

なお、上記の説明では、人工知能応答出力装置１００１０は固定画素を用いた表示画面の表示パネルを有すると説明した。当該概念には、固定画素を用いた表示画面の表示パネルのあとに投射光学系を設けて、当該表示画面の表示パネルの映像の光学像をスクリーンや壁に投射する、投射型映像表示装置（プロジェクタ）を含んでもよい。

【0053】

なお、図１Ａおよび図１Ｂの例では、人工知能応答出力装置１００１０が表示部１００１１を備える例を説明した。しかしながら、本発明の実施例にかかる人工知能応答出力装置１００１０は必ずしも表示部１００１１を備えていなくてもよい。例えば、表示部１００１１を備えなくとも、人工知能に対するユーザからの入力を音声信号入力部１１３３またはマイク１１３９を介して受け付け、当該ユーザからの入力に対する大規模言語モデルなどの人工知能からの応答を音声出力部１１４０を介して出力するように構成すればよい。

【0054】

以上説明した本発明の実施例１に係る、人工知能応答出力装置および人工知能応答出力システムによれば、大規模言語モデルなどの人工知能に対するユーザからの入力を受け付け、ネットワーク上のサーバ装置が有する大規模言語モデルまたは人工知能応答出力装置自体が有するローカルの大規模言語モデルなどの人工知能の推論により生成された、当該ユーザからの入力に対する応答を出力することが可能となる。

【0055】

＜実施例２＞
次に、本発明の実施例２として、実施例１で説明した人工知能応答出力装置１００１０をインターネットに接続し、インターネットを介して、大規模言語モデル人工知能を搭載したサーバと接続して動作を行う例について説明する。本実施例では、実施例１との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。

【0056】

図２Ａを用いて、本発明の実施例２の人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１の接続状態の一例について説明する。実施例２に係る人工知能応答出力装置１００１０はキャラクター会話装置、と呼んでもよい。また、実施例２に係る人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１を含むシステムはキャラクター会話システム、と呼んでもよい。人工知能応答出力装置１００１０が表示する表示部１００１１にはキャラクター１９０５１の映像が表示されている。キャラクター１９０５１の映像は、仮想空間上のキャラクターの３Ｄモデルをレンダリングして生成された映像である。

【0057】

また、本実施例におけるキャラクターは、人工知能である大規模言語モデルのサービスをユーザに提供し、ユーザの助力になることができる。よって、当該キャラクターはユーザにとって人工知能（ＡＩ）アシスタントとなることができる。この場合、本実施例におけるキャラクター会話装置や、キャラクター会話システムは、ＡＩアシスタント会話装置、ＡＩアシスタント表示装置、ＡＩアシスタント応答出力装置や、ＡＩアシスタント会話システム、ＡＩアシスタント表示システム、ＡＩアシスタント応答出力システムと称してもよい。

【0058】

図２Ａの例では、人工知能応答出力装置１００１０が備える音声出力部１１４０はスピーカで構成されている。また、人工知能応答出力装置１００１０がマイク１１３９を備え、ユーザの声を収音できる。人工知能応答出力装置１００１０は、通信部１１３２を介して、インターネット１９０００に接続された通信装置１９０１１と通信可能である。図２Ａの例では、通信部１１３２と通信装置１９０１１との通信は無線の例を示しているが、有線通信でも構わない。通信部１１３２からインターネット１９０００までの通信経路において、有線の部分と無線の部分があっても構わない。人工知能応答出力装置１００１０は、通信装置１９０１１およびインターネット１９０００を介して、大規模言語モデルサーバ１９００１と通信可能である。また、人工知能応答出力装置１００１０は、通信装置１９０１１およびインターネット１９０００を介して、大規模言語モデルサーバ１９００１と異なる第２のサーバ１９００２と通信可能である。人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含めた構成を一つのシステムとして考えてもよい。

【0059】

次に、図２Ｂを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。なお、図２Ｂでは、図２Ａに示したインターネット１９０００等の通信経路の図示は省略した。図２Ｂでは、人工知能応答出力装置１００１０のユーザ２３０も図示されている。

【0060】

ここで、人工知能応答出力装置１００１０の動作の一連の流れを説明する。なお、人工知能応答出力装置１００１０は、ストレージ部１１７０などに格納しているキャラクター動作プログラムをメモリ１１０９に展開し、当該キャラクター動作プログラムを制御部１１１０が実行することにより、以下に説明する各種処理が実現可能となる。

【0061】

まず、人工知能応答出力装置１００１０はマイク１１３９を備えており、ユーザ２３０がキャラクター１９０５１に話しかけると、そのユーザの声（ユーザからの言葉）をマイク１１３９で収音し、音声信号に変換する。ここで、制御部１１１０により実行されるキャラクター動作プログラムは、当該音声信号からユーザ２３０が話しかけた言葉のテキストを抽出する。当該テキストは自然言語である。なお、ユーザ２３０が話しかけた言葉のテキストの抽出はすべての言葉を対象に継続して行ってもよいが、トリガーとなるキーワードの後の所定期間にユーザから言葉が発せられた場合に開始してもよい。例えば、トリガーとなるキーワードとは、ユーザから「ハロー」に続けてキャラクター名が発せられた場合などでよい。例えば、キャラクター１９０５１の名前が「Koto」だとすると、「ハロー、Koto！」をトリガーとなるキーワードとすればよい。

【0062】

人工知能応答出力装置１００１０のキャラクター動作プログラムは、ユーザ２３０が話しかけた言葉のテキストにもとづいて、指示文（プロンプト）を作成し、ＡＰＩを用いて当該指示文を大規模言語モデルサーバ１９００１へ送信する。ここで、指示文は、マークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはＪＳＯＮなどの所定のスクリプトのオブジェクト記法、などにより記載された情報が格納されたメタデータなどでよい。当該指示文には、主たるメッセージとして自然言語のテキスト情報が格納されている。人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される指示文の種類としては、初期設定などの指示を格納する設定指示文と、ユーザからの指示を反映するユーザ指示文とがある。指示文が設定指示文であるかユーザ指示文であるかを識別する種類識別情報を、当該指示文の主たるメッセージ以外の部分に格納しておいてもよい。人工知能応答出力装置１００１０のキャラクター動作プログラムが、ユーザ２３０が話しかけた言葉のテキストにもとづいて指示文（プロンプト）を作成するときには、ユーザ指示文を作成し、大規模言語モデルサーバ１９００１に送信する。

【0063】

次に、大規模言語モデルサーバ１９００１の人工知能の大規模言語モデルは、人工知能応答出力装置１００１０から送信された指示文にもとづいて、推論を実行し、その結果に基づいて、自然言語のテキスト情報を含む応答を生成する。大規模言語モデルサーバ１９００１は、ＡＰＩを用いて、当該応答を人工知能応答出力装置１００１０へ送信する。当該応答には、主たるメッセージとして自然言語のテキスト情報が格納されている。ここで、当該応答は、前述の指示文と同じフォーマットの記法（マークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはＪＳＯＮなどの所定のスクリプトのオブジェクト記法、など）により記載された情報が格納されたメタデータでもよい。当該応答において、前述の指示文と同じフォーマットを用いる場合には、前述の初期設定指示文と、ユーザ指示文とは異なる種類の情報であることを示すために種類識別情報を、主たるメッセージ以外の部分に格納してもよい。例えば、大規模言語モデルからの回答文であることを示す情報を格納するなどである。

【0064】

次に、人工知能応答出力装置１００１０は、大規模言語モデルサーバ１９００１からの応答を受信し、当該応答に主たるメッセージとして格納されている自然言語のテキスト情報を抽出する。人工知能応答出力装置１００１０のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、音声合成技術を用いてユーザへの回答となる自然言語の音声を生成して、あたかもキャラクター１９０５１の声として聞こえるように、スピーカである音声出力部１１４０から出力する。この処理をキャラクターの「発話」と表現してもよい。

【0065】

以上説明した、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１の処理により、ユーザ２３０からの言葉に対するキャラクター１９０５１の応答音声の具体的な一例を、図２Ｃの会話例１～５に示す。このように、キャラクター１９０５１があたかも実在する人物かのように、ユーザ２３０は会話を行うことができる。

【0066】

以上説明した、図２Ｂの人工知能応答出力装置１００１０、または人工知能応答出力装置１００１０を含むシステムによれば、学習が膨大なデータ、計算資源が必要な大規模言語モデル自体を、人工知能応答出力装置１００１０自体に搭載する必要はない。そのうえで、ＡＰＩを介して、大規模言語モデルの高度な自然言語処理の能力を利用することができ、ユーザがキャラクターに話しかけた場合に、ユーザへより好適な回答を行い、より好適な会話を行うことが可能となる。

【0067】

次に、図２Ｄを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｄは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。

【0068】

また、図２Ｄでは、表示の設定指示文、ユーザ指示文１巡目とその応答からユーザ指示文４巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。

【0069】

図２Ｄに示すように、設定指示文により、大規模言語モデルサーバ１９００１の人工知能の大規模言語モデルに、大規模言語モデル自体の名前や、演じるべき役割、会話の特徴などを、初期設定の指示することができる。また、ユーザの名前も初期設定として理解させることができる。これにより、大規模言語モデルは、当該役割を守って１巡目以降の応答を生成する。すると、この１巡目以降の応答にもとづくキャラクター１９０５１の音声を聞いたユーザからすると、あたかもキャラクター１９０５１が設定指示文に記載された人物の設定や性格のように感じられる。また、本実施例に係る大規模言語モデルサーバ１９００１は、一連の会話が終了するまで会話の内容を記憶するメモリを備えており、一連のユーザ指示文とその応答を記憶したうえで、応答を生成するように構成されている。これにより、図２Ｄのような会話を実現できる。

【0070】

次に、図２Ｅを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｅは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。

【0071】

図２Ｅは、図２Ｄに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合の一例を示している。図２Ｅでは、ユーザ指示文１巡目とその応答からユーザ指示文３巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。

【0072】

ここで、「一連の会話の継続」の「終了」とは、所定の条件を満たした場合に、大規模言語モデルサーバ１９００１が、一連の会話が継続しているときに保持していた会話の記憶を、大規模言語モデルサーバ１９００１から消去する処理である。所定の条件の一例は、例えば、人工知能応答出力装置１００１０から指示文により大規模言語モデルサーバ１９００１へ「一連の会話の継続」の「終了」を指示した場合が挙げられる。また、所定の条件の別の一例は、例えば、当該一連の会話についての人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１への指示文の送信が無くなって所定時間以上経った場合（タイムアウト）が挙げられる。また、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１との接続において、認証処理を行ったうえで、上記指示文と応答のやり取りを行っているときに通信切断や人工知能応答出力装置１００１０の電源オフ（ＯＦＦ）等の要因で認証処理が外れてしまった場合も挙げられる。

【0073】

なお、「一連の会話の継続」が「終了」してしまうと、大規模言語モデルサーバ１９００１が、一連の会話が継続しているときに保持していた会話の記憶を、大規模言語モデルサーバ１９００１から消去してしまう。よって、図２Ｅに示される会話は、図２Ｄに示した一連の会話後であるにもかかわらず、ユーザ指示文に対するサーバ応答は、図２Ｄに示した設定指示文に含まれていた、大規模言語モデルに設定したキャラクターとしての名前や、演じるべき役割、会話の特徴、ユーザの名前などを全く記憶していない状態の内容の応答となっている。同様に、図２Ｅに示される会話は、図２Ｄに示した一連の会話の記憶も全く無い状態の内容の応答となっている。すなわち、図２Ｄに示す「一連の会話の継続」の「終了」により、図２Ｅの会話は、大規模言語モデルサーバ１９００１の人工知能の大規模言語モデルが初期化された状態から開始されていることになる。

【0074】

これは、ユーザ２３０にとって、あたかもキャラクター１９０５１が自分との記憶を失ってしまったか、まるで別人のように感じる要因となる。ユーザ２３０からすると、このキャラクターの応答は違和感を強く感じるものであり、寂しく残念な気持ちになる体験になる。このような動作では、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１の名前、役割、または会話の特徴、性格などの設定や記憶の同一性が確保できない、という課題があった。

【0075】

次に、図２Ｆを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｆは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。

【0076】

図２Ｆは、図２Ｄに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合の一例を示している。図２Ｅの処理とは異なり、図２Ｆの処理では、新たに会話を開始する際に、人工知能応答出力装置１００１０は、大規模言語モデルサーバ１９００１への最初の指示文として設定指示文を送信する。当該設定指示文には、図２Ｄの初期設定の設定指示文と同じ自然言語テキストを格納する。これを再設定テキストと表現してもよい。当該設定指示文には、続けて、過去の会話の履歴を説明する自然言語テキストを格納する。これを会話履歴テキストと表現してもよい。過去の会話の履歴は、図２Ｄで説明した会話の一連の会話の継続がなされている間に、人工知能応答出力装置１００１０が、その会話の履歴を自然言語テキスト情報としてストレージ部１１７０に会話した日時の情報と紐づけて記録しておけばよい。異なる日付の会話がある場合は、それぞれの会話ごとに日時の情報と紐づけて記録し、会話の履歴を蓄積しておけばよい。図２Ｆのような後日の会話の最初の指示文の設定指示文を生成する際に、ストレージ部１１７０に記録された会話の自然言語テキスト情報とその会話が行われた日時の情報を読み出して、当該設定指示文の生成に用いればよい。

【0077】

なお、当該設定指示文の生成に過去の会話の履歴の自然言語テキスト情報を用いる場合、大規模言語モデルへ送信するデータであるため、フォーマットはある程度自由に決めて問題無いが、図２Ｆに示すように、「私は、〇月〇日に以下の話をしました。」、「あなたは、〇月〇日に以下の話をしました。」など、自然言語による接頭語や接尾語を用意して、記録されている会話の自然言語テキスト情報と融合させて、当該設定指示文の文面を生成する処理を行えばよい。また、ストレージ部１１７０から読み出した会話の日時の情報は、上記「〇月〇日」の部分などと融合させて当該設定指示文の文面の一部としてもよい。

【0078】

一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合であっても、以上説明した図２Ｆの設定指示文の生成処理、および送信処理を行えば、その後のユーザ指示文の応答が以前の会話の時点のキャラクターの役割、名前、会話の特徴、性格、および／または会話の特徴などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。

【0079】

次に、図２Ｇを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｇは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。

【0080】

図２Ｇは、図２Ｆに示した一連の会話における、最初の設定指示文以降に続くユーザ指示文１巡目とその応答からユーザ指示文３巡目とその応答までの一連の会話の一例を示している。図２Ｇでは、時系列に指示文と応答のやり取りがなされているものとして示している。設定指示文の内容は図２Ｆに示したとおりなので、繰り返しの記載は省略する。

【0081】

図２Ｆの表のサーバ応答の自然言語テキストに示されるように、図２Ｆに示した設定指示文を用いることにより、大規模言語モデルサーバ１９００１の大規模言語モデル人工知能によるサーバ応答は、以前の会話の時点のキャラクターの役割、名前、会話の特徴、または性格などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴、または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。なお、これは、ユーザから見てキャラクターが同一視できるというものであるので、ユーザから見たキャラクターの疑似同一性と称してもよい。

【0082】

また、ユーザからすると、当該キャラクターと記憶を共有することができ、より楽しいキャラクター会話体験を得られる。

【0083】

次に、図２Ｈを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０の動作の一例について説明する。これは、人工知能応答出力装置１００１０）と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｈは、人工知能応答出力装置１００１０の表示部１００１１に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示する動作例を示している。人工知能応答出力装置１００１０の制御部１１１０により実行されるキャラクター動作プログラムが、例えば、操作入力部１１０７に入力される操作入力や表示部１００１１のタッチ操作入力センサが検出する操作にもとづいて、表示キャラクターの切り替えを行えばよい。

【0084】

図２Ｈの例では、図２Ａ～図２Ｇの説明で用いたキャラクター１９０５１（名前は「Koto」）に加えて、キャラクター１９０５２（名前は「Tom」）とキャラクター１９０５３（名前は「Necco」）が示されている。キャラクター１９０５１（名前は「Koto」）とキャラクター１９０５２（名前は「Tom」）は人間のキャラクターであり、キャラクター１９０５３（名前は「Necco」）は猫のキャラクターである。表示部１００１１に表示するキャラクターの表示の切り替えは、キャラクターごとに異なる仮想３Ｄ空間上のキャラクターをレンダリングして生成した映像を表示部１００１１に切り替えて表示すればよい。それぞれのキャラクターの３Ｄモデルのレンダリング映像の表示を実現するための処理は、例えば、図１５Ａで説明した第１～第３の処理例のいずれかを行えばよい。また、キャラクターによっては、動的な２Ｄ画像を表示してもよい。

【0085】

また、制御部１１１０により実行されるキャラクター動作プログラムは、表示部１００１１に表示するキャラクターの表示の切り替えを行うときには、キャラクターそれぞれの「発話」に用いる合成音声も変更することが、好適である。これは、予め、それぞれのキャラクターに対応付けられた声色の合成音声のデータをストレージ部１１７０に格納しておき、キャラクターの表示の切り替えのときに合成音声変更処理も行えばよい。

【0086】

なお、図２Ｈの例では、ユーザ２３０がいずれのキャラクターとも会話することができるように、構成されている。図２Ｈの人工知能応答出力装置１００１０では、これらのキャラクターのそれぞれに、異なる役割、名前、会話の特徴、または性格などの設定を行う。また、会話の履歴に基づく各キャラクターの記憶もそれぞれのキャラクターごとに異なるものとして管理する。

【0087】

そこで、人工知能応答出力装置１００１０は、ストレージ部１１７０に、図２Ｉに示すデータベースを構築し、当該データベースにより、キャラクターの設定とキャラクターの会話履歴を管理する。

【0088】

次に、図２Ｉを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図２Ｉは、人工知能応答出力装置１００１０の表示部１００１１に表示する複数のキャラクターについての、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース１９２００の説明図である。

【0089】

人工知能応答出力装置１００１０の制御部１１１０により実行されるキャラクター動作プログラムが、例えば、ストレージ部１１７０に当該データベース１９２００を構築する。キャラクターＩＤは、人工知能応答出力装置１００１０で表示可能な複数のキャラクターのそれぞれを識別する識別番号であり、自然数でもよいしアルファベット等を用いてもよい。名前は、人工知能応答出力装置１００１０で表示可能な複数のキャラクターのそれぞれの名前のデータである。

【0090】

初期設定指示文は、人工知能応答出力装置１００１０で表示可能な複数のキャラクターのそれぞれのキャラクターの役割、名前、会話の特徴、または性格などの設定を説明する自然言語のテキスト情報である。当該初期設定指示文は、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される設定指示文の主たるデータである自然言語のテキスト情報になるので、そのまま大規模言語モデルサーバ１９００１の人工知能の大規模言語モデルが読み取れる記載内容とすることが望ましい。

【0091】

会話履歴１、２、…と続く会話履歴は、それぞれのキャラクターとユーザが会話した記録であり、キャラクターごとに切り分けて記録する。当該会話履歴は、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される設定指示文の主たるデータである自然言語のテキスト情報に含められることになるので、そのまま大規模言語モデルサーバ１９００１の人工知能の大規模言語モデルが読み取れる記載内容とすることが望ましい。

【0092】

人工知能応答出力装置１００１０の制御部１１１０により実行されるキャラクター動作プログラムは、人工知能応答出力装置１００１０の表示部１００１１に表示するキャラクターを切り替えた場合に、図２Ｉのデータベース１９２００を用いて、人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１へ送信される設定指示文の主たるデータである自然言語のテキスト情報に用いる初期設定指示文や会話履歴を、人工知能応答出力装置１００１０の表示部１００１１に表示するキャラクターに対応するように選択して切り替える。また、キャラクター動作プログラムは、ユーザ２３０とキャラクターの会話が行われるたびに、その会話の履歴を、図２Ｉのデータベース１９２００のうち、表示部１００１１に表示するキャラクターに対応する会話履歴の領域に記録していく。

【0093】

人工知能応答出力装置１００１０の制御部１１１０により実行されるキャラクター動作プログラムがこのようにデータベース１９２００を用いることにより、同一の大規模言語モデルサーバ１９００１の同一の人工知能の大規模言語モデルの応答を利用したキャラクターの発話を用いて、ユーザ２３０とキャラクターの会話を成立させているにも関わらず、ユーザからすると、キャラクターのそれぞれの性格等の設定の独自性が守られ、かつキャラクターごとに異なる会話の記憶がキャラクターごとに継続していくように感じられる。ユーザからすると、それぞれのキャラクターにおいて、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴、または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。これは、それぞれのキャラクターについて、ユーザから見たキャラクターの疑似同一性が確保できると表現してもよい。

【0094】

したがって、人工知能応答出力装置１００１０が、表示部１００１１に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示するように構成する場合も、以上説明したデータベース１９２００を用いた動作によれば、ユーザからすると、それぞれのキャラクターとの会話から感じる違和感が少なく、また、複数のキャラクターのそれぞれと記憶を共有することができ、より楽しいキャラクター会話体験を得られる。

【0095】

なお、複数のキャラクターの初期設定指示文をユーザが編集できないようにすれば、それぞれのキャラクターの役割、名前、会話の特徴、または性格などの設定は、人工知能応答出力装置１００１０の提供者や、キャラクターのコンテンツの制作者の意図に近い状態で維持できる。これに対し、キャラクターの初期設定指示文を操作入力部１１０７などの入力に応じてユーザが編集できるようにしてもよい。この場合は、キャラクターの役割、名前、会話の特徴、または性格などの設定を好みの設定にすることができ、ユーザが独自に設定したキャラクターと会話することが可能となる。この場合、これに合わせてキャラクターの３Ｄモデルやそのレンダリング映像、およびキャラクターの合成音声の種類を差し替えてもよい。

【0096】

次に、図２Ｊを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、人工知能応答出力装置１００１０によるキャラクター会話装置や、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１によるキャラクター会話システムによるキャラクター会話サービスをより安価に提供する方法について説明する。

【0097】

図２Ｂにおいて説明したとおり、大規模言語モデルを特定の用途に限ってこのレベルの人工知能の学習を行うことは非常に資源効率が悪い。そのため、様々な用途に応用できる基盤モデル（ＦｏｕｎｄａｔｉｏｎＭｏｄｅｌ）として、大規模な学習を行ってモデルを生成し、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を介して、様々な端末で利用するのが、資源効率がよい。すると、大規模言語モデルの提供元は、大規模言語モデルの学習に用いられたコストを端末のＡＰＩの利用料金として、端末の利用者から回収することが多い。そのとき、自然言語モデルでは、トークンと呼ばれる文章を区切った言葉の単位の処理数でＡＰＩの利用料金が請求される形式が多い。

【0098】

そこで、本発明の実施例２の人工知能応答出力装置１００１０においても、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１の間を、ＡＰＩを用いて伝送される自然言語のテキスト情報内のトークン数の低減を図ることによって、人工知能応答出力装置１００１０によるキャラクター会話装置や、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。

【0099】

例えば、図２Ｊの表に示すような例１～例３の処理や構成とすることにより、人工知能応答出力装置１００１０と大規模言語モデルサーバ１９００１の間を、ＡＰＩを用いて伝送される自然言語のテキスト情報内のトークン数を、技術的に低減することが可能である。

【0100】

例１は、ＡＰＩの設定指示文に格納されて伝送される会話履歴テキストのトークン数を低減する方法のうち、文書要約処理を用いて会話履歴テキストを短くし、トークン数を低減する例である。例えば、ストレージ部１１７０に記録されるキャラクターとの会話履歴の自然言語自体を要約して記録する。文章要約は、次の会話の開始時に行ってもよいが、「一連の会話」の終了時に行った方が、時間的に余裕がある。

【0101】

また、文章要約処理は、大規模言語モデルサーバ１９００１の大規模言語モデル自体に要約を依頼してもよい。ただし、この場合、トークン数の節約効果は低い。よって、例えば、第２のサーバ１９００２において、ＡＰＩを介して、大規模言語モデルサーバ１９００１の大規模言語モデルよりも安価に自然言語の文章要約処理を提供している場合は、ＡＰＩを介して第２のサーバ１９００２に文章要約処理を依頼し、会話履歴の文章要約を大規模言語モデルサーバ１９００１への設定指示文に格納して伝送すればよい。

【0102】

また、文章要約処理だけであれば、端末側の処理でも可能であり、人工知能応答出力装置１００１０のメモリ１１０９に展開する文書要約プログラムを制御部１１１０が実行して文章要約を行ってもよい。この場合、トークン数の節約効果は高い。また、会話の履歴が長くなってきても、文章要約処理において要約後の文字数の上限を指定すれば、会話の履歴の文章長さの上限が決まるので、トークンの上限値を定めることができ、トークンの節約が可能となる。

【0103】

なお、キャラクターの役割、名前、会話の特徴、または性格などのキャラクター初期設定のテキスト情報は、会話の履歴ほど増加しないので、キャラクターの初期設定指示文のテキスト情報の記載は維持し、会話の履歴のテキスト情報のトークン数の低減を図るのが、効率的であり、好ましい。

【0104】

例１で説明した処理は、制御部１１１０により実行されるキャラクター動作プログラムが各部を制御して行えばよい。

【0105】

例２は、ＡＰＩの設定指示文に格納されて伝送される会話履歴テキストのトークン数を低減する他の例である。例えば、ストレージ部１１７０に記録されるキャラクターとの会話履歴のうち、古い方の履歴から消去してトークン数を低減する。会話履歴の文字数の上限を指定すれば、会話の履歴の文章長さの上限が決まるので、トークンの上限値を定めることができ、トークンの節約が可能となる。または、会話履歴の所定の期間を指定して、当該期間を越えた会話履歴を削除する方法でもよい。この場合も、トークンの節約が可能となる。なお、例２においても、キャラクターの役割、名前、会話の特徴、または性格などのキャラクター初期設定のテキスト情報は、会話の履歴ほど増加しないので、キャラクターの初期設定指示文のテキスト情報の記載は維持し、会話の履歴のテキスト情報のトークン数の低減を図るのが、効率的であり、好ましい。

【0106】

例２で説明した処理は、制御部１１１０により実行されるキャラクター動作プログラムが各部を制御して行えばよい。

【0107】

例３は、ＡＰＩを用いた設定指示文の送信頻度を減らしてトークン数を低減する方法である。具体的には、装置電源の立ち上げ後や、表示キャラクターの切り替え後に、表示されるキャラクターの映像設定および合成音声設定が完了した後も、設定指示文の事前送信を行わず、マイク１１３９で収音したユーザの発声に含まれる自然言語のテキスト情報が、人工知能の大規模言語モデルを用いるべきテキスト情報である、と制御部１１１０が判定した場合に、初めて設定指示文を大規模言語モデルサーバ１９００１に送信することで、設定指示文の大規模言語モデルサーバ１９００１への送信頻度を減らしてトークン数を低減する。

【0108】

具体的には、例えば、装置の電源オン（ＯＮ）後や、表示キャラクターの切り替えの操作入力後に、制御部１１１０により実行されるキャラクター動作プログラムの制御による表示部１００１１の表示処理により、図２Ｈのようにキャラクター１９０５１（名前は「Koto」）が表示部１００１１に表示される。このとき、例えば、キャラクター１９０５１に対応する登場時用の合成音声がストレージ部１１７０などに格納されて用意されている場合、「おはようございます。Kotoです。」、「こんにちは。Kotoです。」、「こんばんは。Kotoです。」などの登場時用の合成音声を音声出力部１１４０であるスピーカから出力してもよい。このとき、既に、表示部１００１１に表示されるキャラクターの映像としてキャラクター１９０５１の映像に設定し、音声出力部１１４０であるスピーカから出力される合成音声は、キャラクター１９０５１に対応する合成音声に設定する。

【0109】

ここで、既に説明した大規模言語モデルサーバ１９００１における人工知能の大規模言語モデルの推論処理も、指示文が長くなれば時間がかかる。特に、設定指示文に、過去の会話履歴に関するテキスト情報を含める場合は、指示文のトークン量が多くなるので、特に推論処理時間が長くなる。設定指示文自体およびその応答はユーザ２３０に出力されない。設定指示文後のユーザ指示文の応答から、キャラクタターの「発話」としての合成音声を音声出力部１１４０であるスピーカから出力する。すると、設定指示文は事前に人工知能応答出力装置１００１０から大規模言語モデルサーバ１９００１に送信して、設定指示文に対する大規模言語モデルの推論処理を事前に完了させておいた方が、ユーザ２３０がキャラクタター１９０５１に話しかけた後のキャラクタター１９０５１の「発話」の合成音声の出力の応答が早くなるので、一見好適に思える。

【0110】

しかしながら、ユーザ２３０が言葉を発する前に、大規模言語モデルサーバ１９００１に送信して、設定指示文に対する大規模言語モデルの推論処理を事前に完了させてしまった場合、例えば、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により人工知能応答出力装置１００１０の電源をオフ（ＯＦＦ）してしまう場合や、例えば、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、キャラクタター１９０５１から別のキャラクターへ表示キャラクターを切り替えてしまう場合もあり得る。この場合、事前に設定指示文を大規模言語モデルサーバ１９００１に送信し、大規模言語モデルの推論処理で処理したトークン数は、無駄に利用料金を浪費した処理トークン数となる。これは、人工知能応答出力装置１００１０によるキャラクター会話装置や、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することの、妨げとなる。

【0111】

よって、人工知能応答出力装置１００１０は、装置の電源オン（ＯＮ）後や、表示キャラクターの切り替えの操作入力後に、制御部１１１０により実行されるキャラクター動作プログラムの制御により、表示部１００１１に表示されるキャラクターの映像としてキャラクター１９０５１の映像を設定し、音声出力部１１４０であるスピーカから出力される合成音声をキャラクター１９０５１に対応する合成音声に設定した後でも、ユーザ２３０がキャラクタター１９０５１に話しかけることを認識する時点まで、設定指示文を大規模言語モデルサーバ１９００１に送信しない状態を継続することが望ましい。

【0112】

ここで、ユーザ２３０がキャラクタター１９０５１に話しかけることを認識する時点とは、例えば、図２Ｂで説明したトリガーとなるキーワードを検出する時点まで、または、ユーザ２３０が話しかけた言葉のテキストの抽出が行われる時点などでよい。このようにすれば、無駄に利用料金を浪費する処理トークン数を低減することができ、人工知能応答出力装置１００１０によるキャラクター会話装置や、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。

【0113】

また、続いて、上述のユーザ２３０がキャラクタター１９０５１に話しかけることを認識する時点を超えた後でも、例えば、マイク１１３９で収音したユーザ２３０の音声から抽出したテキスト情報が、大規模言語モデルの推論処理を必要としないプリセットのキーワードに対応するテキスト情報である場合も、設定指示文を大規模言語モデルサーバ１９００１に送信しない状態を継続することが望ましい。具体的には、プリセットのキーワードの例として、「ジャンプしてみて」、「ダンスしてみて」など、ユーザ２３０がキャラクタター１９０５１に対して、キャラクタター１９０５１が動くアニメーションや合成音声を発するなどのリアクションを依頼するキーワードであった場合などが挙げられる。この場合は、制御部１１１０により実行されるキャラクター動作プログラムが、ストレージ部に格納されるキャラクター１９０５１に対応するモーションデータ、アニメーション映像、および／または当該リアクションに対応する合成音声データを読み出して、これらのデータを用いて、表示部１００１１に表示する映像の生成処理や、音声出力部１１４０であるスピーカからの合成音声の出力処理を行えばよい。

【0114】

このような処理は、必ずしも、大規模言語モデルサーバ１９００１の大規模言語モデルの推論処理を要しない。当該処理の後に、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により人工知能応答出力装置１００１０の電源をオフ（ＯＦＦ）してしまう場合や、例えば、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、キャラクタター１９０５１から別のキャラクターへ表示キャラクターを切り替えてしまう場合も、先に設定指示文を大規模言語モデルサーバ１９００１に送信し、大規模言語モデルの推論処理で処理してしまうと、その処理のトークン数は無駄に利用料金を浪費した処理トークン数となってしまう。

【0115】

よって、上述のユーザ２３０がキャラクタター１９０５１に話しかけることを認識する時点を超えた後でも、例えば、マイク１１３９で収音したユーザ２３０の音声から抽出したテキスト情報が、大規模言語モデルの推論処理を必要としないプリセットのキーワードに対応するテキスト情報であるか否かを判定する時点までは、設定指示文を大規模言語モデルサーバ１９００１に送信しない状態を継続することが望ましい。当該判定により、大規模言語モデルの推論処理を必要すると判定された場合に、はじめて、設定指示文を大規模言語モデルサーバ１９００１に送信し、大規模言語モデルの推論処理を進めることが望ましい。

【0116】

なお、例３で説明した処理は、制御部１１１０により実行されるキャラクター動作プログラムが各部を制御して行えばよい。

【0117】

以上説明した、図２Ｊの各例による大規模言語モデルの処理トークン数の低減（節約）方法によれば、人工知能応答出力装置１００１０によるキャラクター会話装置や、人工知能応答出力装置１００１０および大規模言語モデルサーバ１９００１によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。

【0118】

次に、図２Ｋを用いて、本発明の実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）の表示の一例について説明する。図２Ｋの例では、図２Ａ～図２Ｊの各図で説明したユーザからの指示文に対する大規模言語モデルからの応答を、キャラクター会話装置（人工知能応答出力装置１００１０）の表示部１００１１に表示する一例を示している。具体的には、大規模言語モデルからの応答であるテキスト１００６３を、キャラクター１９０５１の映像とともに、表示部１００１１に表示する例である。大規模言語モデルからの応答であるテキスト１００６３は、図２Ｋに示すようにキャラクター１９０５１の映像の手前に重畳して表示してもよい。また、大規模言語モデルからの応答であるテキスト１００６３は、キャラクター１９０５１の映像と重畳せずに、キャラクター１９０５１の映像ともに表示してもよい。

【0119】

図２Ｋの表示は一例であるが、例えば、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、キャラクター会話装置（人工知能応答出力装置１００１０）の音声出力部１１４０の音声出力のボリュームを最小に調整するまたは音声出力をＯＦＦに設定した場合などは、ユーザ２３０は音声で大規模言語モデルからの応答を確認することができない。

【0120】

そこで、この場合、制御部１１１０は、大規模言語モデルからの応答であるテキスト１００６３を図２Ｋに示すように、キャラクター１９０５１の映像ともに表示する表示モードを開始するように制御してもよい。このようにすれば、音声出力を控えたい場合でも、ユーザ２３０がより好適に、キャラクター会話装置（人工知能応答出力装置１００１０）を使用することができる。なお、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、大規模言語モデルからの応答であるテキスト１００６３をキャラクター１９０５１の映像ともに表示する表示モードについてのＯＮ／ＯＦＦを手動で切り替え可能に構成してもよい。

【0121】

次に、図２Ｈおよび図２Ｉで説明した、複数のキャラクターを表示可能なキャラクター会話装置（人工知能応答出力装置１００１０）における、応答定型文データベース（応答定型文ＤＢ）の例について、図２Ｌを用いて説明する。図２Ｌの例では、条件番号および条件内容は、図１Ｃと同一である。これらの条件に対し、図２Ｌの例では、複数のキャラクターのそれぞれについて、個別の応答定型文が設定されている。例えば、図２Ｈおよび図２Ｉで説明した、キャラクター１：Koto、キャラクター２：Tom、キャラクター３：Necco、の３つのキャラクターのそれぞれについて、各条件に対する応答定型文が格納されている。応答定型文の出力制御については、図１Ｃと同様であるため、繰り返しの説明は省略する。

【0122】

図２Ｌの例では、制御部１１１０は、応答定型文データベース（応答定型文ＤＢ）から、キャラクター会話装置（人工知能応答出力装置１００１０）において表示されているキャラクターと、現在の条件とにもとづいて、対応する応答定型文を選択し、キャラクターが発する応答としての出力制御に用いればよい。例えば、図２Ｌの応答定型文データベース（応答定型文ＤＢ）の例では、同一の条件であっても、応答定型文はキャラクターの個性に対応した表現または内容にそれぞれ変えられている。これにより、キャラクター会話装置（人工知能応答出力装置１００１０）は表示されているキャラクターの個性に対応した会話をユーザに提供することができる。ユーザは、それぞれのキャラクターがより一貫性のある個性を持った存在のように感じることができる。これにより、複数のキャラクターに、より実在感を持たせるキャラクター会話装置（人工知能応答出力装置１００１０）を実現できる。

【0123】

なお、以上説明した図２Ｌの応答定型文データベース（応答定型文ＤＢ）はストレージ部１１７０に格納され、人工知能応答出力装置１００１０の制御部１１１０がこれを用いればよい。しかしながら、図２Ｌに示す応答定型文データベース（応答定型文ＤＢ）を大規模言語モデルサーバ１９００１側に備えてもよい。この場合は、大規模言語モデルサーバ１９００１が有する制御部が、当該応答定型文データベース（応答定型文ＤＢ）を用いた応答を生成すればよい。大規模言語モデルサーバ１９００１が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、当該応答定型文データベース（応答定型文ＤＢ）を用いて生成した応答を人工知能応答出力装置１００１０へ送信すればよい。このようにすれば、人工知能応答出力装置１００１０に応答定型文データベース（応答定型文ＤＢ）が備えられていない場合でも、応答定型文データベース（応答定型文ＤＢ）を用いた応答の生成が可能となる。

【0124】

以上説明した、実施例２に係るキャラクター会話装置や、キャラクター会話システムによれば、人工知能応答出力装置１００１０に表示されるキャラクターとの会話からユーザが感じる違和感をより少なくすることができる。また、実施例２に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクター会話サービスをより安価にユーザに提供することができる。

【0125】

なお、実施例２の以上の説明では、大規模言語モデルとして、大規模言語モデルサーバ１９００１が有する大規模言語モデルを用いる例を説明した。これに対し、キャラクター会話装置（人工知能応答出力装置１００１０）が図１Ｂに示すローカルＬＬＭ処理部１００２８を備えるように構成し、大規模言語モデルサーバ１９００１が有する大規模言語モデルに変えて、ローカルＬＬＭ処理部１００２８が有する大規模言語モデルを用いてもよい。この場合、実施例２の以上の説明において、大規模言語モデルサーバ１９００１が有する大規模言語モデルをキャラクター会話装置（人工知能応答出力装置１００１０）のローカルＬＬＭ処理部１００２８が有する大規模言語モデルに読み替えればよい。

【0126】

この場合も、人工知能応答出力装置１００１０に表示されるキャラクターとの会話からユーザが感じる違和感をより少なくすることができる。なお、大規模言語モデルサーバ１９００１が有する大規模言語モデルに変えて、ローカルＬＬＭ処理部１００２８が有する大規模言語モデルを用いる場合は、処理トークン数に応じた利用料金を考慮する必要性は少なくなるが、ローカルＬＬＭ処理部１００２８が有する大規模言語モデルであっても処理トークン数の低減を図ることによって、推論にかかる電力などの消費リソースを低減できる。この場合、より消費電力の少ないキャラクター会話サービスをユーザに提供することができる。

【0127】

なお、実施例２の以上の説明では、キャラクターとの会話履歴をキャラクター会話装置（人工知能応答出力装置１００１０）のストレージ部１１７０に記録し保持する例を説明した。これに対し、キャラクターとの会話履歴は、インターネット１９０００に接続された第２のサーバ１９００２やその他のクラウドサーバに記録し保持してもよい。この場合、キャラクター会話装置（人工知能応答出力装置１００１０）は、新たにユーザとキャラクターが会話を始めるときに、当該第２のサーバ１９００２またはその他のクラウドサーバと通信し、当該キャラクターとユーザの過去の会話履歴を取得（ダウンロード）し、キャラクター会話装置（人工知能応答出力装置１００１０）のストレージ部１１７０やメモリ１１０９に保持して、大規模言語モデルへの指示文の作成に用いればよい。大規模言語モデルへの指示文を過去の会話履歴を用いる具体的な方法は実施例２の各図で説明した通りであるので、繰り返しの説明は省略する。

【0128】

また、キャラクター会話装置（人工知能応答出力装置１００１０）は、ユーザとキャラクターの会話が行われる度、または、ユーザとキャラクターの会話が終了した時点など、所定の時点に当該時点までのキャラクターの会話履歴を上述の第２のサーバ１９００２またはその他のクラウドサーバに対して送信（アップロード）すればよい。すなわち、キャラクター会話装置（人工知能応答出力装置１００１０）がキャラクターとの会話履歴を第２のサーバ１９００２またはその他のクラウドサーバに対して所定のタイミングでアップロードし、キャラクター会話装置（人工知能応答出力装置１００１０）が、ユーザがキャラクターと会話を開始するときに、第２のサーバ１９００２またはその他のクラウドサーバから最新の会話履歴をダウンロードし、大規模言語モデルへの指示文の生成に用いればよい。このようにすれば、ユーザが前日に使用したキャラクター会話装置（人工知能応答出力装置１００１０）と、ユーザが今から使用するキャラクター会話装置（人工知能応答出力装置１００１０）とが異なる個体の装置であって同一のキャラクターを表示可能であり、当該異なる個体の装置間の同一キャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話から当該キャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。

【0129】

以上説明した、キャラクター会話装置（人工知能応答出力装置１００１０）が、キャラクターとの会話履歴を第２のサーバ１９００２またはその他のクラウドサーバに対してアップロードおよびダウンロードして、キャラクターの記憶を疑似的に引き継ぐ処理は、図２Ｈや図２Ｉで説明した複数のキャラクターの会話履歴を含むデータベース１９２００を扱う場合でも有効である。すなわち、図２Ｉで説明したデータベース１９２００を第２のサーバ１９００２またはその他のクラウドサーバに対してアップロードおよびダウンロードするように構成すれば、１つのキャラクターのみならず、複数のキャラクターについて、異なる個体の装置間において、複数のキャラクターのそれぞれのキャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話からそれぞれのキャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。

【0130】

＜実施例３＞
次に、本発明の実施例３は、実施例２の各図で説明したキャラクター会話装置（人工知能応答出力装置１００１０）およびキャラクター会話システムを改良したものである。本実施例では、実施例２との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。

【0131】

実施例２と同様、実施例３におけるキャラクターは、人工知能である大規模言語モデルのサービスをユーザに提供し、ユーザの助力になることができる。よって、当該キャラクターはユーザにとって人工知能（ＡＩ）アシスタントとなることができる。この場合、本実施例におけるキャラクター会話装置や、キャラクター会話システムは、ＡＩアシスタント会話装置、ＡＩアシスタント表示装置、ＡＩアシスタント応答出力装置や、ＡＩアシスタント会話システム、ＡＩアシスタント表示システム、ＡＩアシスタント応答出力システムと称してもよい。

【0132】

図３Ａを用いて、本発明の実施例３のキャラクター会話装置とキャラクター会話システムの一例について説明する。実施例３のキャラクター会話システムでは、図２Ａの大規模言語モデルサーバ１９００１に替えて大規模言語モデルサーバ２０００１が備えられ、インターネット１９０００に接続されている。

【0133】

ここで、大規模言語モデルサーバ２０００１は、大規模言語モデル人工知能を搭載したサーバであるが、大規模言語モデルサーバ１９００１で処理可能であった自然言語のテキスト情報に加えて自然言語のテキスト情報以外の種類の情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能である。

【0134】

また、キャラクター会話装置である人工知能応答出力装置１００１０は、一例として、実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）と同等の構成を有するものとして説明する。

【0135】

実施例３においても、キャラクター会話装置である人工知能応答出力装置１００１０は、ＡＰＩを用いて、インターネット１９０００を介して大規模言語モデルサーバ２０００１の大規模言語モデルと通信可能である。

【0136】

実施例３のキャラクター会話システムには、ユーザ２３０が使用するモバイル情報処理端末２００１０が存在する。モバイル情報処理端末２００１０はいわゆるスマートフォンやタブレット情報処理端末である。

【0137】

ここで、図３Ｂを用いて、モバイル情報処理端末２００１０の一例について説明する。モバイル情報処理端末２００１０は、タッチ操作入力パネルである表示パネル２００１１、制御部２００１２、外部電源入力インタフェース２００１３、電源２００１４、二次電池２００１５、ストレージ部２００１６、映像制御部２００１７、姿勢センサ２００１８、通信部２００２０、音声出力部２００２１、マイク２００２２、映像信号入力部２００２３、音声信号入力部２００２４、撮像部２００２５、等を備えている。

【0138】

表示パネル２００１１は、タッチ操作入力センサが備えられており、ユーザ２３０の指によるタッチ操作入力を受け付けることができる。表示パネル２００１１は、液晶パネルや有機ＥＬパネルで表示を行うものであり、映像を表示することができる。表示パネル２００１１は表示部と称してもよい。

【0139】

通信部２００２０は、Ｗｉ―Ｆｉ方式の通信インタフェース、Ｂｌｕｅｔｏｏｔｈ方式の通信インタフェース、４Ｇ、５Ｇなどの移動体通信インタフェースなどで構成すればよい。これらの通信方式を用いて、モバイル情報処理端末２００１０の通信部２００２０は、キャラクター会話装置（人工知能応答出力装置１００１０）の通信部１１３２と通信可能である。モバイル情報処理端末２００１０にはＣＰＵなどの制御部およびメモリが備えられており、当該制御部は、表示パネル２００１１や通信部２００２０などを制御する。また、通信部２００２０のいずれかの通信方式により、通信部２００２０はインターネット１９０００に接続された通信装置１９０１１と通信可能である。これにより、モバイル情報処理端末２００１０はインターネット１９０００に接続された各種サーバと通信可能である。

【0140】

電源２００１４は、外部から外部電源入力インタフェース２００１３を介して入力されるＡＣ電流をＤＣ電流に変換し、モバイル情報処理端末２００１０の各部にそれぞれ必要なＤＣ電流を供給する。二次電池２００１５は、電源２００１４から供給される電力を蓄電する。また、二次電池２００１５は、外部電源入力インタフェース２００１３を介して、外部から電力が供給されない場合に、電力を必要とする各部に対して電力を供給する。

【0141】

映像信号入力部２００２３は、外部の映像出力装置を接続して映像データを入力する。映像信号入力部２００２３は、様々なデジタル映像入力インタフェースが考えられる。例えば、ＨＤＭＩ（登録商標）（High―Definition Multimedia Interface）規格の映像入力インタフェース、ＤＶＩ（Digital Visual Interface）規格の映像入力インタフェース、またはＤｉｓｐｌａｙＰｏｒｔ規格の映像入力インタフェースなどで構成すればよい。または、アナログＲＧＢや、コンポジットビデオなどのアナログ映像入力インタフェースを設けてもよい。映像信号入力部２００２３は、各種ＵＳＢインタフェースなどでもよい。

【0142】

音声信号入力部２００２４は、外部の音声出力装置を接続して音声データを入力する。音声信号入力部２００２４は、ＨＤＭＩ規格の音声入力インタフェース、光デジタル端子インタフェース、または、同軸デジタル端子インタフェース、などで構成すればよい。音声信号入力部２００２４は、各種ＵＳＢインタフェースなどでもよい。ＨＤＭＩ規格のインタフェースの場合は、映像信号入力部２００２３と音声信号入力部２００２４とは、端子およびケーブルが一体化したインタフェースとして構成されてもよい。

【0143】

音声出力部２００２１は、音声信号入力部２００２４に入力された音声データに基づいた音声を出力することが可能である。音声出力部２００２１は、ストレージ部２００１６に格納されている音声データに基づいた音声を出力することも可能である。音声出力部２００２１は、スピーカで構成してもよい。また、音声出力部２００２１は、内蔵の操作音やエラー警告音を出力してもよい。または、ＨＤＭＩ規格に規定されるＡｕｄｉｏＲｅｔｕｒｎＣｈａｎｎｅｌ機能のように、外部機器にデジタル信号として出力する構成を音声出力部２００２１としてもよい。

【0144】

マイク２００２２は、モバイル情報処理端末２００１０の周辺の音を収音し、信号に変換して音声信号を生成するマイクである。ユーザの声など人物の声をマイクが収録して、生成した音声信号を後述する制御部２００１２が音声認識処理を行って、当該音声信号から文字情報を取得するように構成してもよい。

【0145】

撮像部２００２５は、イメージセンサを有するカメラである。モバイル情報処理端末２００１０の表示パネル２００１１側の前面にカメラを設けてもよく、表示パネル２００１１側の背面にカメラを設けてもよい。前面のカメラと背面のカメラの両者を設けてもよい。本実施例では、撮像部２００２５は、前面のカメラと背面のカメラの両者を有するものとして説明する。

【0146】

ストレージ部２００１６は、映像データ、画像データ、音声データ等の各種データなどの各種情報を記録する記憶装置である。ストレージ部２００１６は、ハードディスクドライブ（ＨＤＤ）などの磁気記録媒体記録装置や、ソリッドステートドライブ（ＳＳＤ）などの半導体素子メモリで構成してもよい。ストレージ部２００１６には、例えば、製品出荷時に予め映像データ、画像データ、音声データ等の各種データ等の各種情報が記録されていてもよい。また、ストレージ部２００１６は、通信部２００２０を介して外部機器や外部のサーバ等から取得した映像データ、画像データ、音声データ等の各種データ等の各種情報を記録してもよい。ストレージ部２００１６に記録された映像データ、画像データ等は、表示パネル２００１１に出力される。ストレージ部２００１６に記録された映像データ、画像データ等を、通信部２００２０を介して外部機器や外部のサーバ等に出力してもよい。

【0147】

映像制御部２００１７は、表示パネル２００１１に入力する映像信号に関する各種制御を行う。映像制御部２００１７は、映像処理回路と称してもよく、例えば、ＡＳＩＣ、ＦＰＧＡ、映像用プロセッサなどのハードウェアで構成されてもよい。なお、映像制御部２００１７は、映像処理部、画像処理部と称してもよい。映像制御部２００１７は、例えば、メモリ２００２６に記憶させる映像信号と、映像信号入力部２００２３に入力された映像信号（映像データ）等のうち、どの映像信号を表示パネル２００１１に入力するかといった映像切り替えの制御等を行う。また、映像制御部２００１７は、映像信号入力部２００２３から入力された映像信号やメモリ２００２６に記憶させる映像信号等に対して画像処理を行う制御を行ってもよい。画像処理としては、例えば、画像の拡大、縮小、変形等を行うスケーリング処理、輝度を変更するブライト調整処理、画像のコントラストカーブを変更するコントラスト調整処理、画像を光の成分に分解して成分ごとの重みづけを変更するレティネックス処理等がある。

【0148】

姿勢センサ２００１８は、重力センサまたは加速度センサ、またはこれらの組み合わせにより構成されるセンサであり、モバイル情報処理端末２００１０の姿勢を検出することができる。姿勢センサ２００１８の姿勢検出結果に基づいて、制御部２００１２が、接続される各部の動作を制御してもよい。

【0149】

不揮発性メモリ２００２７は、モバイル情報処理端末２００１０で用いる各種データを格納する。不揮発性メモリ２００２７に格納されるデータには、例えば、モバイル情報処理端末２００１０の表示パネル２００１１に表示する各種操作用のデータ、表示アイコン、ユーザの操作が操作するためのオブジェクトのデータやレイアウト情報等が含まれる。メモリ２００２６は、表示パネル２００１１に表示する映像データや装置の制御用データ等を記憶する。制御部２００１２がストレージ部２００１６から各種ソフトウェアを読み出して、メモリ２００２６に展開して記憶してもよい。

【0150】

制御部２００１２は、接続される各部の動作を制御する。また、制御部２００１２は、メモリ２００２６に記憶されるプログラムと協働して、モバイル情報処理端末２００１０内の各部から取得した情報に基づく演算処理を行ってもよい。

【0151】

次に、図３Ｃを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。実施例３においても、キャラクター会話装置（人工知能応答出力装置１００１０）は、ストレージ部１１７０などに格納しているキャラクター動作プログラムをメモリ１１０９に展開し、当該キャラクター動作プログラムを制御部１１１０が実行することにより、以下に説明する各種処理が実現可能となる。

【0152】

実施例２では、キャラクター会話装置（人工知能応答出力装置１００１０）に対して、ユーザ２３０が行うアクションは主にユーザ２３０の声による呼びかけであった。実施例２のキャラクター会話装置（人工知能応答出力装置１００１０）では、ユーザ２３０の声をマイクで収音する処理から一連の動作を行っていた。これに対し、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）では、実施例２において説明した、キャラクター会話装置（人工知能応答出力装置１００１０）がユーザ２３０の声をマイクで収音する処理から行う一連の動作も実行できるものとする。これに加えて、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）では、ユーザ２３０が図１Ｂの操作入力部１１０７を介したユーザ操作により、キャラクター会話装置（人工知能応答出力装置１００１０）に対して、ユーザ２３０がアクションを行うことができる。ここで、図１Ｂの操作入力部１１０７の一例としては、マウス、キーボード、タッチパネルなどが挙げられる。

【0153】

また、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）では、ユーザ２３０が図１Ｂの表示部１００１１のタッチ操作入力センサにより検出可能なユーザのタッチ操作により、キャラクター会話装置（人工知能応答出力装置１００１０）に対して、ユーザ２３０がアクションを行うことができる。

【0154】

また、ユーザ２３０が、モバイル情報処理端末２００１０を操作して、キャラクター会話装置（人工知能応答出力装置１００１０）に対してモバイル情報処理端末２００１０から通信を行うことにより、ユーザ２３０の操作入力をキャラクター会話装置（人工知能応答出力装置１００１０）に入力することも可能である。

【0155】

また、モバイル情報処理端末２００１０の表示パネル２００１１に、ユーザがキャラクター会話装置（人工知能応答出力装置１００１０）に伝達したい情報を格納した二次元コードなどの情報格納画像を表示させて、当該表示をキャラクター会話装置（人工知能応答出力装置１００１０）が有する図１Ｂの撮像部１１８０が撮像するようにしてもよい。キャラクター会話装置（人工知能応答出力装置１００１０）の制御部１１１０が、撮像部１１８０が撮像した二次元コードなどの情報格納画像から情報を抽出し、当該情報を得てもよい。また、モバイル情報処理端末２００１０の表示パネル２００１１に、ユーザがキャラクター会話装置（人工知能応答出力装置１００１０）に伝達したい画像を表示させて、当該表示をキャラクター会話装置（人工知能応答出力装置１００１０）が有する図１Ｂの撮像部１１８０が撮像するようにしてもよい。キャラクター会話装置（人工知能応答出力装置１００１０）の制御部１１１０が、撮像部１１８０が撮像した画像に対して画像認識処理を行って、当該画像認識処理の結果を取得してもよい。

【0156】

このように、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）では、実施例２において説明した、キャラクター会話装置（人工知能応答出力装置１００１０）よりも、ユーザ２３０からキャラクター会話装置（人工知能応答出力装置１００１０）に対して、行い得るアクションの種類が増えている。これにより、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）は、ユーザの声以外のユーザ２３０が行うアクションの結果を取得し、それにもとづいて大規模言語モデルサーバ２０００１へ送信する指示文（プロンプト）を生成することができる。これにより、大規模言語モデルサーバ２０００１へ送信する指示文にユーザの声から抽出した自然言語のテキスト情報以外の種類の情報をより好適に含めることができる。ユーザの声から抽出した自然言語のテキスト情報以外の種類の情報とは、例えば、画像、動画、音声などである。

【0157】

次に、本実施例のキャラクター会話装置（人工知能応答出力装置１００１０）はＡＰＩを用いて指示文を大規模言語モデルサーバ２０００１へ送信する。本実施例においても、指示文はマークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはＪＳＯＮなどの所定のスクリプトのオブジェクト記法、などにより記載された情報が格納されたメタデータなどでよい。本実施例においても、指示文の種類としては、初期設定などの指示を格納する設定指示文と、ユーザからの指示を反映するユーザ指示文とがある。指示文が設定指示文であるかユーザ指示文であるかを識別する種類識別情報を、当該指示文の主たるメッセージ以外の部分に格納しておいてもよい。このとき、指示文には、主たるメッセージとして自然言語のテキスト情報が含められている。さらに、本実施例では、指示文の主たるメッセージに、自然言語のテキスト情報以外に、自然言語のテキスト情報以外の種類の情報として、例えば、画像、動画、または音声などの非自然言語情報源を含めることができる。指示文に非自然言語情報源を含める具体的な方法については後述する。

【0158】

本実施例の大規模言語モデルサーバ２０００１は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルを有する。大規模言語モデルサーバ２０００１は、キャラクター会話装置（人工知能応答出力装置１００１０）から指示文を受信する。当該指示文にもとづいて、マルチモーダルな大規模言語モデルが推論を実行し、推論の結果である自然言語のテキスト情報を含む応答を生成する。ここで、当該大規模言語モデルサーバ２０００１の人工知能はマルチモーダルな大規模言語モデルであるので、当該応答に、自然言語のテキスト情報に加えて、画像、動画、または音声などの非自然言語情報源を含めることができる。

【0159】

キャラクター会話装置（人工知能応答出力装置１００１０）は、大規模言語モデルサーバ２０００１からの応答を受信し、当該応答に主たるメッセージとして格納されている自然言語のテキスト情報および画像、動画、または音声などの非自然言語情報源を抽出する。キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、音声合成技術を用いてユーザへの回答となる自然言語の音声を生成して、あたかも表示画面に表示しているキャラクター１９０５１の声として聞こえるように、スピーカである音声出力部１１４０から出力してもよい。

【0160】

また、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、ユーザへの回答となる自然言語の文字を、キャラクター会話装置（人工知能応答出力装置１００１０）の表示画面に表示してもよい。このとき、当該文字は、キャラクター１９０５１とともに表示してもよく、キャラクター１９０５１の映像に重畳して表示してもよく、キャラクター１９０５１の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部１１６０が実行すればよい。

【0161】

また、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の画像の情報にもとづいて、ユーザへ提示するために、当該画像をキャラクター会話装置（人工知能応答出力装置１００１０）の表示画面に表示してもよい。このとき、当該画像は、キャラクター１９０５１とともに表示してもよく、キャラクター１９０５１の映像に重畳して表示してもよく、キャラクター１９０５１の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部１１６０が実行すればよい。

【0162】

また、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の動画の情報にもとづいて、ユーザへ提示するために、当該動画をキャラクター会話装置（人工知能応答出力装置１００１０）の表示画面に表示してもよい。このとき、当該動画は、キャラクター１９０５１とともに表示してもよく、キャラクター１９０５１の映像に重畳して表示してもよく、キャラクター１９０５１の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部１１６０が実行すればよい。

【0163】

また、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の音声の情報にもとづいて生成した音声をスピーカである音声出力部１１４０から出力してもよい。

【0164】

以上説明した、図３Ｃのキャラクター会話装置（人工知能応答出力装置１００１０）、またはキャラクター会話装置（人工知能応答出力装置１００１０）と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムによれば、学習が膨大なデータ、計算資源が必要な大規模言語モデル自体を、キャラクター会話装置（人工知能応答出力装置１００１０）自体に搭載する必要はない。そのうえで、ＡＰＩを介して、マルチモーダルな大規模言語モデルの高度な自然言語処理および非自然言語情報処理の能力を利用することができる。ユーザからのキャラクターに対するアクションに対して、自然言語のテキストに基づく回答以外に、非自然言語情報源に基づく回答を行うことができ、より好適な会話を行うことが可能となる。

【0165】

次に、図３Ｄを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図３Ｄは、キャラクター会話装置（人工知能応答出力装置１００１０）から大規模言語モデルサーバ２０００１へ送信される指示文の主たるメッセージの自然言語テキストと画像などの非自然言語情報源の例と、その応答となるサーバ応答の主たるメッセージの自然言語テキストと画像などの非自然言語情報源の一例である。本実施例において、非自然言語情報源は、画像、動画、音声などを用いることが可能であるが、図３Ｄでは、非自然言語情報源として画像の例を示している。

【0166】

また、図３Ｄでは、設定指示文、ユーザ指示文１巡目とその応答からユーザ指示文２巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。ここで、図３Ｄに示される指示文と応答には、実施例２の図２Ｄには示されていなかった、非自然言語情報源２００６１と非自然言語情報源２００６２が含まれている。図３Ｄの例では、非自然言語情報源２００６１と非自然言語情報源２００６２はいずれも画像である。

【0167】

ここで、図３Ｄでは、説明を簡単にするため、指示文の中に、非自然言語情報源２００６１の画像が貼り付けられた状態で示されている。しかしながら、キャラクター会話装置（人工知能応答出力装置１００１０）から大規模言語モデルサーバ２０００１へ送信する指示文における、非自然言語情報源２００６１のデータの伝送またはデータの指定の方法には、複数の方法がある。キャラクター会話装置（人工知能応答出力装置１００１０）はこれらの複数の方法のいずれか一つを用いる、または切り替えて用いればよい。以下それぞれの方法の一例について、説明する。

【0168】

指示文において非自然言語情報源データの伝送または指定する第１の方法は、例えば、指定したい非自然言語情報源がインターネット等のネットワークに接続されるサーバ等の場所に存在する非自然言語情報源である場合などに用いる。第１の方法の具体的な方法としては、指示文内のタグや記号などの情報を用いてインターネット等のネットワーク上に存在する非自然言語情報源ファイルを、インターネット等のネットワークのロケーション情報（いわゆるＵＲＬなど）とファイル名で指定する方法である。

【0169】

例えば、マークアップ言語などで画像を指定するタグである<img src=“****”>を用いて、****の部分に、画像ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する画像を指定してもよい。また、マークアップ言語などで動画を指定するタグである<video src=“****”>を用いて、****の部分に、動画ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する動画を指定してもよい。また、マークアップ言語などで音声を指定するタグである<audio src=“****”>を用いて、****の部分に、音声ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する音声を指定してもよい。また、ＪＳＯＮ形式の記法であれば、img_srcなどのキーを用意し、値に画像ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する画像を指定してもよい。動画ファイルや音声ファイルの場合も、それぞれのキーと値を用意すればよい。当該フォーマットの具体例は一例であり、他の独自のフォーマットを用いてもよい。いずれの場合も、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。

【0170】

第１の方法のように、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を、指示文に格納する場合は、指示文自体には非自然言語情報源ファイルのデータ自体を格納する必要はない。よって、指示文のデータ量を削減することができる。第１の方法で、非自然言語情報源データが指定された指示文を受信した大規模言語モデルサーバ２０００１は、当該指示文に格納された非自然言語情報源ファイルのロケーション情報およびファイル名情報を用いて、インターネット等のネットワークに接続されるサーバ等の場所にある非自然言語情報源ファイルを取得すればよい。

【0171】

ここで、キャラクター会話装置（人工知能応答出力装置１００１０）が、第１の方法で、指示文において非自然言語情報源データの指定を行う場合、ロケーション情報およびファイル名情報の入力をどのように行うかについて、説明する。図３Ｃにおいて、本実施例では、ユーザ２３０からキャラクター会話装置（人工知能応答出力装置１００１０）に対して、行い得るアクションの種類が、実施例２に比べて、ユーザ２３０の声以外にも増えていることについて説明した。よって、例えば、ユーザ２３０が図１Ｂの操作入力部１１０７を介したユーザ操作（例えば、マウス、キーボード、タッチパネル）により、非自然言語情報源データの指定のためのＵＲＬなどのロケーション情報や、ファイル名情報などを入力してもよい。

【0172】

また、キャラクター会話装置（人工知能応答出力装置１００１０）において、制御部１１１０がメモリ１１０９と協働して、ＷＥＢブラウザプログラムを実行し、キャラクター会話装置（人工知能応答出力装置１００１０）の表示画面に当該ＷＥＢブラウザプログラムのＧＵＩを表示してもよい。当該ＷＥＢブラウザプログラムのＧＵＩに対するユーザ操作を、操作入力部１１０７を介したユーザ操作（例えば、マウス、キーボード、タッチパネル）または表示部１００１１のタッチ操作入力センサにより検出可能なユーザのタッチ操作により受け付けて、ＷＥＢブラウザプログラムのブラウザ画面で選択した、画像、動画、音声などの非自然言語情報源データを、指示文における指定対象のデータとしてもよい。この場合、ＷＥＢブラウザプログラムが、当該非自然言語情報源データのロケーション情報およびファイル名情報を取得し、キャラクター動作プログラムに引き渡せばよい。

【0173】

また、ユーザ２３０が、モバイル情報処理端末２００１０を操作して、キャラクター会話装置（人工知能応答出力装置１００１０）に対してモバイル情報処理端末２００１０から通信を行うことにより、非自然言語情報源データの指定のためのＵＲＬなどのロケーション情報をキャラクター会話装置（人工知能応答出力装置１００１０）に入力してもよい。また、図３Ｃで説明した、モバイル情報処理端末２００１０の表示パネル２００１１に二次元コードなどの情報格納画像を表示して、キャラクター会話装置（人工知能応答出力装置１００１０）の撮像部１１８０が撮像した画像に対して画像認識処理を行って、当該画像認識処理の結果を取得する方式で、非自然言語情報源データの指定のためのＵＲＬなどのロケーション情報や、ファイル名情報などを入力してもよい。

【0174】

なお、指示文において非自然言語情報源データの伝送または指定する第１の方法の使用は、非自然言語情報源ファイルが予めインターネット等のネットワークに接続されるサーバ等の場所に存在する場合に限られない。例えば、キャラクター会話装置（人工知能応答出力装置１００１０）のストレージ部１１７０に格納されている画像、動画、音声などの非自然言語情報源データを指示文に含めたい場合、キャラクター会話装置（人工知能応答出力装置１００１０）は、インターネット１９０００を介して第２のサーバ１９００２に当該非自然言語情報源データをアップロードし、アップロードした第２のサーバ１９００２の当該非自然言語情報源データのインターネット上でのロケーション情報（いわゆるＵＲＬなど）とファイル名を指示文に含めてもよい。この場合、第２のサーバ１９００２はいわゆる中間サーバとして機能する。

【0175】

同様に、モバイル情報処理端末２００１０のストレージ部２００１６に格納されている画像、動画、音声などの非自然言語情報源データを指示文に含めたい場合、モバイル情報処理端末２００１０が、インターネット１９０００を介して第２のサーバ１９００２に当該非自然言語情報源データをアップロードしてもよい。モバイル情報処理端末２００１０または第２のサーバ１９００２から第２のサーバ１９００２の当該非自然言語情報源データのインターネット上でのロケーション情報（いわゆるＵＲＬなど）とファイル名を、キャラクター会話装置（人工知能応答出力装置１００１０）に送信し、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムが、取得した、第２のサーバ１９００２にアップロードされた当該非自然言語情報源データのインターネット上でのロケーション情報（いわゆるＵＲＬなど）とファイル名を指示文に含めてもよい。

【0176】

さらに、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムが、メモリ１１０９、ストレージ部１１７０と協働してインターネット１９０００を介して他のサーバからアクセスできるメディアサーバをキャラクター会話装置（人工知能応答出力装置１００１０）内に構築してもよい。この場合、キャラクター会話装置（人工知能応答出力装置１００１０）は、第１の方法で、指示文において非自然言語情報源データの指定を行う場合に、キャラクター会話装置（人工知能応答出力装置１００１０）自身の内部に構築したメディアサーバ内を示すインターネット上でのロケーション情報（いわゆるＵＲＬなど）と該当する非自然言語情報源データのファイル名を、前記指示文に格納すればよい。

【0177】

次に、指示文において非自然言語情報源データの伝送または指定を指定する第２の方法は、例えば、単純に指示文（プロンプト）に、非自然言語情報源データそのものを格納（添付）して送信する方法である。一般に、画像、動画、音声等の非自然言語情報源データは、自然言語であるテキスト情報に比べてデータ量が大きい。よって、この場合、指示文（プロンプト）自体のデータ量は第１の方法よりも大きくなる。キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムは、指示文（プロンプト）に格納（添付）したい非自然言語情報源データを、一旦メモリ１１０９に格納して、指示文（プロンプト）を送信する際に、メモリ１１０９から通信部１１３２を介して、指示文（プロンプト）に格納（添付）して大規模言語モデルサーバ２０００１へ出力すればよい。キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムがメモリ１１０９に格納する非自然言語情報源データ自体は、インターネット１９０００を介して通信部１１３２が取得してもよく、モバイル情報処理端末２００１０から通信部１１３２が取得してもよく、ストレージ部１１７０から読みだしてメモリ１１０９に格納してもよい。

【0178】

以上説明した方法により、キャラクター会話装置（人工知能応答出力装置１００１０）は、指示文による非自然言語情報源データの伝送または指定を行うことが可能である。

【0179】

大規模言語モデルサーバ２０００１は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、図３Ｄの例に示す、ユーザ指示文１巡目により、非自然言語情報源２００６１であるスイミングプールとプールサイドの画像と、自然言語であるテキスト情報を取得して、その推論結果として、ユーザ指示文１巡目への応答として、図に示すような、自然言語であるテキスト情報を出力することができる。

【0180】

また、大規模言語モデルサーバ２０００１は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、図３Ｄの例に示す、ユーザ指示文２巡目の応答に示すように、大規模言語モデルサーバ２０００１はマルチモーダルな大規模言語モデルの推論により生成した非自然言語情報源２００６２を応答に含めてキャラクター会話装置（人工知能応答出力装置１００１０）へ送信することができる。図３Ｄでは、非自然言語情報源２００６２は、非自然言語情報源２００６１であるスイミングプールとプールサイドの画像に丸の画像を付した画像の例を示している。なお、応答に格納する非自然言語情報源２００６２は図３Ｄに示す画像に限られず、動画でも音声でもよい。

【0181】

大規模言語モデルサーバ２０００１からの応答に、自然言語のテキスト情報以外の非自然言語情報源を含める場合の方法も、上述のキャラクター会話装置（人工知能応答出力装置１００１０）が指示文において非自然言語情報源データの伝送または指定を行う第１の方法にまたは第２の方法に準ずる方法を用いればよい。

【0182】

具体的には、上述の第１の方法に準ずる方法として、大規模言語モデルサーバ２０００１は、応答に、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。画像、動画、音声などの非自然言語情報源２００６２自体は、大規模言語モデルサーバ２０００１に保持しておいてもよいし、中間サーバとして機能させる第２のサーバ１９００２に当該非自然言語情報源２００６２を移送して、保持させておいてもよい。いずれの場合も、大規模言語モデルサーバ２０００１は、応答に、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。応答を取得したキャラクター会話装置（人工知能応答出力装置１００１０）は、指示文に記載される非自然言語情報源ファイルのロケーション情報およびファイル名情報を用いて、大規模言語モデルサーバ２０００１や第２のサーバ１９００２にアクセスして、非自然言語情報源２００６２を取得すればよい。

【0183】

また、具体的には、上述の第２の方法に準ずる方法として、大規模言語モデルサーバ２０００１は、応答に、非自然言語情報源２００６２のファイルデータそのものを格納（添付）してキャラクター会話装置（人工知能応答出力装置１００１０）に送信してもよい。キャラクター会話装置（人工知能応答出力装置１００１０）は、指示文に格納（添付）された非自然言語情報源２００６２のデータを取得して、ユーザ２３０に対する各種出力に用いることできる。

【0184】

以上図３Ｄを用いて説明した、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）およびキャラクター会話システムの動作によれば、キャラクター会話装置（人工知能応答出力装置１００１０）に表示されるキャラクターとユーザ２３０の間において、非自然言語情報である画像、動画、音声を用いた会話を実現するための指示文と応答の送受信を行う。これにより、図３Ｄの各メッセージに示すようなより高度で自然な会話を実現することが可能となる。

【0185】

次に、図３Ｅを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図３Ｅは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ２０００１へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。

【0186】

図３Ｅは、図３Ｄに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合の一例を示している。図３Ｅの例では、実施例２の図２Ｆ、図２Ｇ、図２Ｉで説明したような、会話履歴を用いた処理を行っていない。よって、図３Ｅは、実施例２の図２Ｅと同様に、設定指示文に含まれていた大規模言語モデル自体の名前や、演じるべき役割、会話の特徴、ユーザの名前、会話の履歴などを全く記憶していない状態の内容の応答となっている。

【0187】

次に、図３Ｆを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図３Ｆは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ２０００１へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。

【0188】

図３Ｆは、図３Ｄに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合の一例を示している。ここで、図３Ｆでは、実施例２の図２Ｆで説明した、設定指示文に過去の会話の履歴を説明するメッセージを格納する方法を、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）にも適用したものである。具体的には、図３Ｄの設定指示文の内容となるメッセージを、図３Ｆでは、再設定メッセージとして格納し、再設定メッセージに続いて、過去の会話の履歴を説明するメッセージを会話履歴メッセージとして格納する。

【0189】

実施例３の大規模言語モデルサーバ２０００１は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、過去の指示文および応答において非自然言語情報源データの伝送または指定がなされている場合がある。よって、図３Ｆの例では、当該会話履歴メッセージに、過去の指示文および応答における自然言語のテキスト情報のみならず、過去の指示文および応答における非自然言語情報源データの伝送または指定を反映する。図３Ｆの指示文における、非自然言語情報源データの伝送または指定の具体的な方法は、図３Ｄで説明したように非自然言語情報源データの伝送または指定と同様であるので、繰り返しの説明は省略する。

【0190】

図３Ｄの例では、非自然言語情報源データの伝送または指定の方法には、指示文に非自然言語情報源データそのものを格納（添付）する場合と、指示文に非自然言語情報源データを格納（添付）しない場合がある。この点について、図３Ｆの指示文でも同様である。

【0191】

次に、図３Ｇを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図３Ｇは、人工知能応答出力装置１００１０に表示されるキャラクター１９０５１とユーザ２３０の会話の元となる、人工知能応答出力装置１００１０から大規模言語モデルサーバ２０００１へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。

【0192】

図３Ｇは、図３Ｆに示した一連の会話における、最初の設定指示文以降に続くユーザ指示文１巡目とその応答からユーザ指示文３巡目とその応答までの一連の会話の一例を示している。図３Ｇでは、時系列に指示文と応答のやり取りがなされているものとして示している。設定指示文の内容は図３Ｆに示したとおりなので、繰り返しの記載は省略する。

【0193】

以上説明したように、実施例３の自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルを有する大規模言語モデルサーバ２０００１を用いる場合でも、一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ２３０がキャラクター１９０５１に話しかけて新たに会話を行う場合であっても、図３Ｆの設定指示文の生成処理、および送信処理を行えば、その後のユーザ指示文の応答は、図３Ｇに示すように、以前の会話の時点のキャラクターの役割、名前、会話の特徴、性格、および／または会話の特徴などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。

【0194】

次に、図３Ｈを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の動作の一例について説明する。これは、人工知能応答出力装置１００１０と大規模言語モデルサーバ２０００１とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図３Ｈは、キャラクター会話装置（人工知能応答出力装置１００１０）の表示部１００１１に表示する複数のキャラクターについての、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース２０２００の説明図である。ここで、図３Ｈは、キャラクター会話装置（人工知能応答出力装置１００１０）の表示部１００１１に表示する複数のキャラクターの設定等は、実施例２の図２Ｈで説明した例を用いる。よって複数のキャラクターの設定等についての繰り返しの説明は省略する。

【0195】

また、図３Ｈに示す、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース２０２００は、実施例２の図２Ｉに示すデータベース１９２００と同様のフォーマットを有するものであり、図３Ｈにおいては、図２Ｉに示すデータベース１９２００との差分についてのみ説明する。また、データベース内のキャラクター「Koto」についての内容を説明し、他のキャラクターの内容については省略する。

【0196】

ここで、上述のとおり、実施例３の大規模言語モデルサーバ２０００１は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、キャラクター会話装置（人工知能応答出力装置１００１０）からの指示文にも、大規模言語モデルサーバ２０００１からの応答にも、自然言語のテキスト情報のみならず、非自然言語情報源データの伝送または指定が含まれる。よって、図３Ｈに示す、データベース２０２００では、会話履歴のデータにおいて、これらの指示文や応答に含まれる、自然言語のテキスト情報のみならず、非自然言語情報源データの伝送または指定の情報も記録する。当該会話履歴の記録における、非自然言語情報源データの伝送または指定の具体的な方法は、図３Ｄで説明した非自然言語情報源データの伝送または指定を指定と同様であるので、繰り返しの説明は省略する。

【0197】

図３Ｄの例では、非自然言語情報源データの伝送または指定の方法には、指示文に非自然言語情報源データそのものを格納（添付）する場合と、指示文に非自然言語情報源データを格納（添付）しない場合がある。この点について、図３Ｈの会話履歴でも同様である。ただし、図３Ｈの会話履歴において、非自然言語情報源データの指定方法として、インターネット等のネットワーク上に存在するサーバ（中間サーバとして機能させる第２のサーバ１９００２やその他のクラウドサーバ）の非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する場合、会話履歴の期間が長くなると、当該サーバ上の当該非自然言語情報源ファイルが削除されてしまう可能性もある。すると、当該ロケーション情報およびファイル名情報を用いても当該非自然言語情報源ファイルを後日取得することができなくなり会話記録の情報が欠落する可能性がある。

【0198】

これを防ぐためには、キャラクター会話装置（人工知能応答出力装置１００１０）は、指示文および応答のメッセージを会話履歴に変換して記録する際に、指示文および応答において指定される非自然言語情報源ファイル自体を、当該ロケーション情報およびファイル名情報を用いて、ネットワーク上のサーバ等から取得し、ストレージ部１１７０に格納すればよい。さらに、当該非自然言語情報源ファイルのロケーション情報およびファイル名を、キャラクター会話装置（人工知能応答出力装置１００１０）のキャラクター動作プログラムが、キャラクター会話装置（人工知能応答出力装置１００１０）内に構築するメディアサーバのメディアサーバ内を示すインターネット上でのロケーション情報（いわゆるＵＲＬなど）に書き換えてから、会話記録に記録すればよい。このようにすれば、キャラクター会話装置（人工知能応答出力装置１００１０）自身がストレージ部１１７０から当該非自然言語情報源ファイルを消去しなければ、当該非自然言語情報源は会話記録の情報から欠落しないため、会話記録の保全としてより好適である。

【0199】

以上説明した図３Ｈのデータベースを用いれば、キャラクター会話装置（人工知能応答出力装置１００１０）が、表示部１００１１に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示するように構成する場合も、ユーザからすると、それぞれのキャラクターとの会話から感じる違和感が少なく、また、複数のキャラクターのそれぞれと記憶を共有することができ、より楽しいキャラクター会話体験を得られる、という実施例２の図２Ｉの効果を得ることができ、かつ、大規模言語モデルサーバ２０００１が自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルである場合にも、この効果を発揮することができる。

【0200】

なお、実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）またはキャラクター会話システムにおいては、大規模言語モデルサーバ２０００１において、自然言語のテキスト情報に加えて自然言語のテキスト情報以外の非自然言語情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能を用いる。

【0201】

ここで、キャラクター会話装置（人工知能応答出力装置１００１０）と大規模言語モデルサーバ２０００１との間はＡＰＩを用いて通信される。マルチモーダルな大規模言語モデルでは、自然言語のテキスト情報をトークンと呼ばれる文章を区切った言葉の単位の処理数に加えて、非自然言語情報源のデータ量に応じて、ＡＰＩの利用料金が請求される形式もあり得る。

【0202】

そこで、本実施例に係るキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供するために、以下のような変形例を用いればよい。

【0203】

第１の変形例としては、図３Ｈのデータベースの会話履歴の記録において、非自然言語情報源データの伝送または指定の情報も記録されている。しかしながら、キャラクターとユーザは、当該自然言語情報源データについての会話を自然言語のテキスト情報でやり取りしており、その内容は自然言語のテキスト情報で記録されている。すると、図３Ｈのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略しても、当該自然言語情報源データについての会話自体はある程度自然言語のテキスト情報として記録されることとなる。よって、ある程度の情報の減少を許容すれば、図３Ｈのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略してもよい。この場合、図３Ｆの設定指示文の会話履歴メッセージからも当該自然言語情報源データの伝送または指定の情報が省略される。これにより、ＡＰＩを用いて通信される非自然言語情報源のデータ量を低減することができる。

【0204】

次に、第２の変形例としては、図３Ｈのデータベースの会話履歴の記録において、非自然言語情報源データの伝送または指定の情報の記録の代わりに、非自然言語情報源データの内容を説明する自然言語のテキスト情報を記録する例である。非自然言語情報源データの内容を説明する自然言語のテキスト情報は、例えば、キャラクターとしての会話とは別に、大規模言語モデルサーバ２０００１の大規模言語モデルとキャラクター会話装置（人工知能応答出力装置１００１０）との会話を立上げ、大規模言語モデルサーバ２０００１に非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、大規模言語モデルサーバ２０００１の大規模言語モデルよりも安価に利用できる、他のサーバの他の大規模言語モデルとの会話により、非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、非自然言語情報源データの取得時点から、代替テキストデータが準備されている場合は、当該代替テキストデータを非自然言語情報源データの内容を説明する自然言語のテキスト情報としてもよい。非自然言語情報源データの代替テキストデータの具体例としては、マークアップ言語のタグの＜img src =“”alt="****"＞、＜video src =“”alt="****"＞、＜audio src =“”alt="****"＞などの****の部分に記載されるテキスト情報である。

【0205】

また、ＪＳＯＮ形式の記法であれば、非自然言語情報源データのロケーション情報を示すキーと値である非自然言語情報源データのロケーション情報およびファイル名情報と対応づけられて格納されているオブジェクトにおいて、さらに、代替テキストに対応するキーと、代替テキストデータ自体である値を紐づけて格納すればよい。

【0206】

この場合も、図３Ｈのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略でき、図３Ｆの設定指示文の会話履歴メッセージからも当該自然言語情報源データの伝送または指定の情報が省略される。これにより、ＡＰＩを用いて通信される非自然言語情報源のデータ量を低減することができる。

【0207】

次に、第３の変形例としては、図３Ｄのユーザ指示文1巡目の時点で、非自然言語情報源データの伝送または指定の情報をユーザ指示文に格納せず、非自然言語情報源データの内容を説明する自然言語のテキスト情報に差し替えてしまう例である。例えば、図３Ｄのユーザ指示文1巡目において、非自然言語情報源データ２００６１の伝送または指定の情報をユーザ指示文に替えて、「この画像とは、スイミングプールとプールサイドにあるシートとパラソルの画像です。スイミングプールには、水があります。シートの脇のテーブルにはドリンクがあります」との説明文が自然言語のテキスト情報として格納されるように構成すればよい。このとき、当該説明文は、大規模言語モデルサーバ２０００１の大規模言語モデルよりも安価に利用できる、他のサーバの他の大規模言語モデルとの会話により、非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、当該説明文は、画像、動画、音声などの非自然言語情報源データの概要や内容の説明を取得できるその他各種サービスのサーバから取得してもよい。また、非自然言語情報源データの取得時点から、代替テキストデータが準備されている場合は、当該代替テキストデータを非自然言語情報源データの内容を説明する自然言語のテキスト情報としてもよい。

【0208】

次に、図３Ｉを用いて、本発明の実施例３のキャラクター会話装置（人工知能応答出力装置１００１０）の表示例の一例について説明する。図３Ｉの例では、図３Ａ～図３Ｈの各図で説明したユーザからの指示文に対する大規模言語モデルからの応答を、キャラクター会話装置（人工知能応答出力装置１００１０）の表示部１００１１に表示する例の一例を示している。具体的には、大規模言語モデルからの応答である自然言語情報源データのテキスト１００６３、非自然言語情報源データの画像１００６４、および／または非自然言語情報源データの動画１００６５を、キャラクター１９０５１の映像とともに、表示部１００１１に表示する例である。大規模言語モデルからの応答であるテキスト１００６３、画像１００６４、および／または動画１００６５は、図３Ｉに示すようにキャラクター１９０５１の映像の手前に重畳して表示してもよい。

【0209】

また、大規模言語モデルからの応答であるテキスト１００６３、画像１００６４、および／または動画１００６５は、キャラクター１９０５１の映像と重畳せずに、キャラクター１９０５１の映像ともに表示してもよい。図３Ｉの表示は一例であるが、例えば、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、キャラクター会話装置（人工知能応答出力装置１００１０）の音声出力部１１４０の音声出力のボリュームを最小に調整するまたは音声出力をＯＦＦに設定した場合などは、ユーザ２３０は音声で大規模言語モデルからの応答を確認することができない。そこで、この場合、制御部１１１０は、大規模言語モデルからの応答であるテキスト１００６３、画像１００６４、および／または動画１００６５を図３Ｉに示すように、キャラクター１９０５１の映像ともに表示する表示モードを開始するように制御してもよい。

【0210】

このようにすれば、音声出力を控えたい場合でも、ユーザ２３０がより好適に、キャラクター会話装置（人工知能応答出力装置１００１０）を使用することができる。なお、ユーザ２３０が操作入力部１１０７や表示部１００１１のタッチ操作入力センサを介した操作により、大規模言語モデルからの応答であるテキスト１００６３、画像１００６４、および／または動画１００６５をキャラクター１９０５１の映像ともに表示する表示モードについてのＯＮ／ＯＦＦを手動で切り替え可能に構成してもよい。図３Ｉの表示例によれば、マルチモーダルに対応したキャラクター会話装置（人工知能応答出力装置１００１０）において、より好適に大規模言語モデルからの応答を出力することが可能となる。

【0211】

以上説明した、実施例３に係るキャラクター会話装置や、キャラクター会話システムによれば、実施例２に係るキャラクター会話装置や、キャラクター会話システムにおける効果に加えて、マルチモーダルな大規模言語モデルを用いて、自然言語の情報以外に非自然言語の情報を含めたより高度な会話体験をユーザに提供することができる。また、実施例３に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクター会話サービスをより安価にユーザに提供することができる。

【0212】

なお、実施例３の以上の説明では、大規模言語モデルとして、大規模言語モデルサーバ２０００１が有する大規模言語モデルを用いる例を説明した。これに対し、キャラクター会話装置（人工知能応答出力装置１００１０）が、図１Ｂに示すローカルＬＬＭ処理部１００２８を備え、当該ローカルＬＬＭ処理部１００２８が有するマルチモーダルな大規模言語モデルを用いてもよい。この場合、大規模言語モデルサーバ２０００１が有するマルチモーダルな大規模言語モデルに変えて、ローカルＬＬＭ処理部１００２８が有するマルチモーダルな大規模言語モデルを用いてもよい。

【0213】

この場合、実施例３の以上の説明において、大規模言語モデルサーバ２０００１が有するマルチモーダルな大規模言語モデルをキャラクター会話装置（人工知能応答出力装置１００１０）のローカルＬＬＭ処理部１００２８が有するマルチモーダルな大規模言語モデルに読み替えればよい。この場合も、マルチモーダルな大規模言語モデルを用いて、自然言語の情報以外に非自然言語の情報を含めたより高度な会話体験をユーザに提供することができる。なお、大規模言語モデルサーバ２０００１が有するマルチモーダルな大規模言語モデルに変えて、ローカルＬＬＭ処理部１００２８が有するマルチモーダルな大規模言語モデルを用いる場合は、処理トークン数や非自然言語情報源のデータ量に応じた利用料金を考慮する必要性は少なくなるが、ローカルＬＬＭ処理部１００２８が有するマルチモーダルな大規模言語モデルであっても処理トークン数や非自然言語情報源のデータ量の低減を図ることによって、推論にかかる電力などの消費リソースを低減できる。この場合、より消費電力の少ないキャラクター会話サービスをユーザに提供することができる。

【0214】

なお、実施例２で説明した、キャラクターとの会話履歴や、キャラクターとの会話履歴を含むデータベースのデータを第２のサーバ１９００２またはその他のクラウドサーバに対してアップロードおよびダウンロードする構成は、実施例３で説明した、マルチモーダルな大規模言語モデルを用いる例においても利用できる。この場合も、１つのキャラクターまたは複数のキャラクターについて、異なる個体の装置間において、複数のキャラクターのそれぞれのキャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話からそれぞれのキャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。

【0215】

＜実施例４＞
次に、本発明の実施例４は、実施例２、または実施例３の各図で説明した人工知能応答出力装置１００１０、キャラクター会話装置、またはこれらのシステムを改良したものである。本実施例では、実施例２、または実施例３との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。

【0216】

上述の実施例同様、人工知能応答出力装置１００１０は、人工知能応答出力装置、ＡＩアシスタント装置、ＡＩアシスタント表示装置、人工知能インタフェース装置と称してもよい。人工知能応答出力装置１００１０と大規模言語モデルサーバを含むシステムは、人工知能応答出力システム、ＡＩアシスタントシステム、ＡＩアシスタント表示システム、人工知能インタフェースシステムと称してもよい。

【0217】

図４Ａを用いて、本発明の実施例４のキャラクター会話装置（人工知能応答出力装置１００１０）におけるデータベースを用いた動作の一例について説明する。図４Ａに示す実施例４に係るデータベースは、図２Ｉまたは図３Ｉで説明したデータベースを拡張したものである。図４Ａに示すデータベースは、具体的には、複数の異なるユーザが、同一のキャラクター会話装置（人工知能応答出力装置１００１０）または同一のキャラクター会話システムを利用する場合を想定し、それぞれのユーザとキャラクタに対応する初期設定指示文および会話履歴をデータベースに格納する。

【0218】

図４Ａの例では、ユーザＩＤが1であるユーザ１について、キャラクターＩＤが１であるキャラクターＫｏｔｏ、キャラクターＩＤが２であるキャラクターＴｏｍ、およびキャラクターＩＤが３であるキャラクターＮｅｃｃｏ、のそれぞれのキャラクターの初期設定指示文および会話履歴を格納している。これに加えて、ユーザＩＤが２であるユーザ２、ユーザＩＤが３であるユーザ３のそれぞれについても、キャラクターＩＤが１であるキャラクターＫｏｔｏ、キャラクターＩＤが２であるキャラクターＴｏｍ、およびキャラクターＩＤが３であるキャラクターＮｅｃｃｏ、のそれぞれのキャラクターの初期設定指示文および会話履歴を格納している。

【0219】

これらの初期設定指示文および会話履歴のデータは、ユーザとキャラクターの組み合わせごと、に異なる領域に別のデータとして格納されている。図４Ａでは説明のため、それぞれの領域に格納しているデータをデータ１１、１２、１３、２１、２２、２３、３１、３２、３３と表記して示している。キャラクター会話装置（人工知能応答出力装置１００１０）の制御部１１１０は、現在キャラクター会話装置（人工知能応答出力装置１００１０）またはそのシステムを使用（ログイン）しているユーザに基づき、ユーザとキャラクターの組み合わせごとに異なる領域に格納された初期設定指示文および会話履歴を用いることで、キャラクターの個性の一貫性や記憶の継続性を、異なるユーザのそれぞれに対してより好適に維持することが可能となる。

【0220】

具体的には、キャラクター会話装置（人工知能応答出力装置１００１０）を用いて先にユーザ１がキャラクターＴｏｍと会話しており、その会話をユーザ２が知らなかった場合に、その後にユーザ２がキャラクターＴｏｍと会話する状況について考える。このとき、人工知能応答出力装置１００１０がユーザの識別をしない初期設定指示文または会話履歴のデータベースを用いている場合、人工知能応答出力装置１００１０から出力される応答がユーザ２の記憶にない会話の履歴に基づくものとなり、ユーザ２と人工知能応答出力装置１００１０のキャラクターとの会話が整合しなくなる可能性がある。

【0221】

これに対し、同様の状況であっても、図４Ａに示すデータベースを用いれば、キャラクター会話装置（人工知能応答出力装置１００１０）の制御部１１１０はユーザをＩＤにより識別して、ユーザごとに異なる領域に初期設定指示文および会話履歴を格納し、ユーザごとに異なる領域に格納された初期設定指示文および会話履歴を人工知能応答の生成に使用する。これにより、それぞれのユーザに対する人工知能応答の生成に使用する初期設定指示文および会話履歴は当該ユーザの操作または会話の経緯に基づくものとなり、他のユーザの操作または会話の経緯とは区別して管理される。これにより、それぞれのユーザと人工知能応答出力装置１００１０のそれぞれのキャラクターとの会話の履歴の整合性をより好適にすることができる。

【0222】

なお、図４Ａで説明した、初期設定指示文および／または会話履歴のデータベースは、人工知能応答出力装置１００１０のストレージ部１１７０に格納して、制御部１１１０が用いればよい。また、これに限られず、初期設定指示文および／または会話履歴のデータベースは、ネットワーク上のサーバに格納してもよい。例えば、人工知能応答出力装置１００１０が、人工知能応答の生成において、大規模言語モデルサーバ１９００１の大規模言語モデルまたは大規模言語モデルサーバ２０００１のマルチモーダルな大規模言語モデルを用いる場合はこれらのサーバ自体に、図４Ａで説明した、初期設定指示文および／または会話履歴のデータベースを格納すればよい。このようにすれば、人工知能応答出力装置１００１０からこれらのサーバに対して、初期設定指示文および会話履歴を再度指示文に含めて送信する処理を省略することができ、大規模言語モデルの利用についての送信トークン数を節約することができる。

【0223】

図４Ａで説明した、初期設定指示文および／または会話履歴のデータベースを格納する場合は、人工知能応答出力装置１００１０からこれらのサーバへ、ユーザＩＤ、キャラクターＩＤ、および、その後の会話のためのユーザ指示文を送信すればよい。これらのサーバ上の大規模言語モデルは、人工知能応答出力装置１００１０から取得したユーザＩＤ、キャラクターＩＤを用いて、図４Ａの初期設定指示文および／または会話履歴のデータベースから、該当する初期設定指示文および会話履歴を取得する。これらのサーバ上の大規模言語モデルは、当該初期設定指示文および会話履歴と、人工知能応答出力装置１００１０から送信されたその後の会話のためのユーザ指示文を用いて、推論を実行し、人工知能応答を生成して、人工知能応答出力装置１００１０へ送信すればよい。このようにすれば、キャラクターの個性の一貫性や記憶の継続性を、異なるユーザのそれぞれに対してより好適に維持する効果を、大規模言語モデルの利用についての送信トークン数を節約しながら得ることができる。

【0224】

次に、図４Ｂを用いて、本発明の実施例４のキャラクター会話装置（人工知能応答出力装置１００１０）におけるデータベースを用いた動作の一例について説明する。図４Ｂに示す実施例４に係るデータベースは、図１Ｃまたは図２Ｌで説明したデータベースを拡張したものである。図４Ｂに示すデータベースは、具体的には、複数の異なるユーザが、同一のキャラクター会話装置（人工知能応答出力装置１００１０）または同一のキャラクター会話システムを利用する場合を想定し、それぞれのユーザとキャラクターに対応する応答定型文のデータをデータベースに格納する。

【0225】

図４Ｂの例では、ユーザＩＤが1であるユーザ１について、キャラクターＩＤが１であるキャラクターＫｏｔｏ、キャラクターＩＤが２であるキャラクターＴｏｍ、およびキャラクターＩＤが３であるキャラクターＮｅｃｃｏ、のそれぞれのキャラクターの応答定型文データを格納している。これに加えて、ユーザＩＤが２であるユーザ２、ユーザＩＤが３であるユーザ３のそれぞれについても、キャラクターＩＤが１であるキャラクターＫｏｔｏ、キャラクターＩＤが２であるキャラクターＴｏｍ、およびキャラクターＩＤが３であるキャラクターＮｅｃｃｏ、のそれぞれのキャラクターの応答定型文データを格納している。

【0226】

これらの応答定型文のデータは、ユーザとキャラクターの組み合わせごと、に異なる領域に別のデータとして格納されている。図４Ｂでは説明のため、それぞれの領域に格納しているデータを応答定型文データ１０１、１０２、１０３、２０１、２０２、２０３、３０１、３０２、３０３と表記している。例えば、応答定型文データ１０１には、図２Ｌに示すキャラクター１：Ｋｏｔｏの条件番号１～７に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。図４Ｂのデータ２０１には、図２Ｌに示すキャラクター２：Ｔｏｍの条件番号１～７に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。

【0227】

図４Ｂのデータ３０１には、図２Ｌに示すキャラクター３：Ｎｅｃｃｏの条件番号１～７に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。図４Ｂのデータ１０２、２０２、３０２には、同様のフォーマットで、ユーザ２向けに応答定型文が変更されたものが格納されている。図４Ｂのデータ１０３、２０３、３０３には、同様のフォーマットで、ユーザ３向けに応答定型文が変更されたものが格納されている。キャラクター会話装置（人工知能応答出力装置１００１０）の制御部１１１０は、現在キャラクター会話装置（人工知能応答出力装置１００１０）またはそのシステムを使用（ログイン）しているユーザに基づき、ユーザとキャラクターの組み合わせごとに異なる領域に格納された応答定型文データを用いる。

【0228】

このようにすれば、同一のキャラクターであっても、ユーザごとに異なる応答定型文による応答を行うことが可能となる。すなわち、同一のキャラクターであっても、キャラクターとユーザの関係性によっては、応答定型文の内容を変化させた方が好適であることもあり得る。例えば、キャラクターの設定の年齢と、人工知能応答出力装置１００１０またはシステムに登録されたユーザの年齢との関係により、ユーザがキャラクターに対して年上の場合もあれば、同い年の場合もあれば、年下の場合もある。このとき、年上のユーザに対するキャラクターの応答定型文と、同い年のユーザに対するキャラクターの応答定型文と、年下のユーザに対するキャラクターの応答定型文とで、それぞれ内容を変えた方が、ユーザとキャラクターの会話がより好適または、より自然となる。すなわち、図４Ｂのデータベースを用いた動作を行うことにより、キャラクターとユーザの関係性ごとに、応答定型文の内容を異ならせることにより、より好適または、より自然な会話を演出することが可能となる。

【0229】

なお、以上説明した、図４Ｂの応答定型文データベース（応答定型文ＤＢ）はストレージ部１１７０に格納され、人工知能応答出力装置１００１０の制御部１１１０がこれを用いればよい。しかしながら、図４Ｂに示す応答定型文データベース（応答定型文ＤＢ）を大規模言語モデルサーバ１９００１側または大規模言語モデルサーバ２０００１側に備えてもよい。この場合は、大規模言語モデルサーバ１９００１が有する制御部または大規模言語モデルサーバ２０００１が有する制御部が、当該応答定型文データベース（応答定型文ＤＢ）を用いた応答を生成すればよい。大規模言語モデルサーバ１９００１が有する制御部または大規模言語モデルサーバ２０００１が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、応答定型文データベース（応答定型文ＤＢ）を用いて生成した応答を、人工知能応答出力装置１００１０へ送信すればよい。このようにすれば、人工知能応答出力装置１００１０に応答定型文データベース（応答定型文ＤＢ）が備えられていない場合でも、応答定型文データベース（応答定型文ＤＢ）を用いた応答の生成が可能となる。

【0230】

以上説明した、実施例４に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクターとユーザの関係性や会話履歴などに応じて、より好適または、より自然な会話を演出することが可能となる。

【0231】

＜実施例５＞
次に、本発明の実施例５は、実施例１、実施例２、実施例３の各図で説明した人工知能応答出力装置１００１０、または人工知能応答出力システムを改良したものである。具体的には、人工知能応答出力装置１００１０の応答生成処理を、ネットワーク上の大規模言語モデルによる応答生成処理から、人工知能応答出力装置１００１０が備えるローカルの大規模言語モデル（ローカルＬＬＭ処理部１００２８など）による応答生成処理、または応答定型文データベースによる応答生成処理へ切り替える処理を行う例である。本実施例では、これらの実施例との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。

【0232】

上述の実施例同様、人工知能応答出力装置１００１０は、人工知能応答出力装置、キャラクター会話装置、ＡＩアシスタント装置、ＡＩアシスタント表示装置、人工知能インタフェース装置と称してもよい。人工知能応答出力装置１００１０と大規模言語モデルサーバを含むシステムは、人工知能応答出力システム、キャラクター会話システム、ＡＩアシスタントシステム、ＡＩアシスタント表示システム、人工知能インタフェースシステムと称してもよい。

【0233】

図５Ａを用いて、本発明の実施例５の人工知能応答出力装置１００１における応答生成処理の切替処理の一例について説明する。図５Ａの表には、人工知能応答出力装置１００１における応答生成処理の切替処理の例について、例１～例９まで示している。図５Ａの表において、「切替概要」の列には、各例の切替処理の概要を示している。「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）切替前状態」の列には、図１の大規模言語モデルサーバ１９００１が備える大規模言語モデル、および大規模言語モデルサーバ２０００１が備えるマルチモーダルな大規模言語モデルなどのネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が他の応答生成処理へ切替えられる前の状態を示している。「切替発生条件」の列には、応答生成処理の切替処理が発生する条件を示している。「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」の列には、人工知能応答出力装置１００１０の応答生成処理を、大規模言語モデルサーバ１９００１が備える大規模言語モデル、および大規模言語モデルサーバ２０００１が備えるマルチモーダルな大規模言語モデルなどのネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）から切替える、切替先が示されている。人工知能応答出力装置１００１の制御部１１１０は、図５Ａに示される「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）切替前状態」の状態において「切替発生条件」に示される条件が生じた場合に、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」に示される大規模言語モデル、データベース、または対応に切り替えるように制御を行えばよい。

【0234】

以下、図５Ａの表に示される各例について説明する。例１は、「切替概要」に示すとおり、人工知能応答出力装置１００１のネットワークの接続可否状態に応じて切替を行う例である。例１では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）切替前状態」としては、人工知能応答出力装置１００１のネットワークの接続状態が接続可能状態であることが示されている。ここで、例１では、「切替発生条件」としては「ネットワーク接続不能になった場合」が示されている。すなわち、これは、人工知能応答出力装置１００１とネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）とのネットワークを介した接続が不能となった場合、という意味である。具体的には、当該接続不能は、人工知能応答出力装置１００１からインターネット１９０００への接続経路での通信不能状態に起因する場合もあり得る。または、当該接続不能は、インターネット１９０００における通信不能状態に起因する場合もあり得る。または、当該接続不能は、ネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）自体がインターネット１９０００に接続できない状況に起因する場合もあり得る。また、例１では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」としては「ローカルＬＬＭ」が示されている。これは、具体的には、人工知能応答出力装置１００１０が有するローカルＬＬＭ処理部１００２８による応答生成処理への切替処理を行うことを意味する。すなわち、例１では、なんらかの理由でネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）との接続が不能となって、ネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が利用できない場合であっても、人工知能応答出力装置１００１０が有するローカルＬＬＭ処理部１００２８による応答生成処理に切り替える。これにより、大規模言語モデルとしての性能差はあれど、大規模言語モデルを用いた応答生成処理を継続することは可能である。

【0235】

次に、図５Ａの例２について説明する。例２は、例１における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を「ローカルＬＬＭ」から「応答定型文ＤＢ（データベース）」に変更したものである。当該「応答定型文ＤＢ（データベース）」による応答生成処理は、図１Ｃ、図２Ｌ、または図４Ｂで説明した処理と同様であるので繰り返しの説明は省略する。すなわち、例２では、なんらかの理由でネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）との接続が不能となって、ネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が利用できない場合には、応答定型文データベースを用いた応答生成処理に切り替えることにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。

【0236】

次に、図５Ａの例３について説明する。例３は、例１における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を「ローカルＬＬＭ」から「不応答対応」に変更したものである。当該「不応答対応」とは、タッチパネル、マイク１１３９または操作入力部１１０７を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力があった場合でも、この入力に対する応答を生成しない、または、大規模言語モデルによる応答を求めるユーザ入力があった場合でも、これに対する応答を出力しない対応を意味する。すなわち、例３では、なんらかの理由でネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）との接続が不能となって、ネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が利用できない場合の対応をより簡易にすることが可能となる。

【0237】

次に、図５Ａの例４について説明する。例４は、「切替概要」に示すとおり、ネットワーク上のＬＬＭの応答遅延により切替を行う例である。例４では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）切替前状態」としては、ネットワーク上のＬＬＭからの応答が所定時間以内に得られる状態が示されている。ここで、例４では、「切替発生条件」としてはネットワーク上のＬＬＭからの応答が所定時間以内には得られず、所定時間を超過した場合が示されている。また、例４では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」としては「ローカルＬＬＭ」が示されている。切替先の「ローカルＬＬＭ」は、例１と同様であるので繰り返しの説明を省略する。すなわち、例４では、なんらかの理由でネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）からの応答が所定時間を超過するようになり、ネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が順調に利用できない場合であっても、人工知能応答出力装置１００１０が有するローカルＬＬＭ処理部１００２８による応答生成処理に切り替える。これにより、大規模言語モデルとしての性能差はあれど、大規模言語モデルを用いた応答生成処理を継続することは可能である。

【0238】

次に、図５Ａの例５について説明する。例２は、例４における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を「ローカルＬＬＭ」から「応答定型文ＤＢ（データベース）」に変更したものである。当該「応答定型文ＤＢ（データベース）」による応答生成処理は、図１Ｃ、図２Ｌ、または図４Ｂで説明した処理と同様であるので繰り返しの説明は省略する。すなわち、例５では、なんらかの理由でネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）からの応答が所定時間を超過するようになり、ネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が順調に利用できない場合には、応答定型文データベースを用いた応答生成処理に切り替えることにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。

【0239】

次に、図５Ａの例６～例９について説明する。例６～例９は、「切替概要」に示すとおり、ＡＰＩ利用量または利用料金の上限到達により切替を行う例である。ここで、実施例２において説明したとおり、大規模言語モデルの提供元は、大規模言語モデルの学習に用いられたコストを端末のＡＰＩの利用料金として、端末の利用者から回収することが多い。そのとき、自然言語モデルでは、トークンと呼ばれる文章を区切った言葉の単位の処理数でＡＰＩの利用料金が請求される形式が多い。ここで、ＡＰＩ利用料金には様々な請求方法や制限方法が考えられる。その一案として、ユーザが大規模言語モデルの利用サービスの提供を通常の状態で受けられる量の上限をトークン処理数を用いて規定する例が考えられる。

【0240】

この場合、ユーザは、当該利用量（もしくは対応する利用料金）に達するまでは所定のＡＰＩ利用料金で大規模言語モデルの利用するサービスを受けることができ、利用量（もしくは対応する利用料金）の上限に達すると、大規模言語モデルの利用サービスの提供を通常の状態（性能または頻度）で受けられなくなるなどの一定の制限が発生する、などが考えられる。

【0241】

図５Ａの例６～例９は、大規模言語モデルの利用サービスに、このような制限が発生した場合の、人工知能応答出力装置１００１の制御部１１１０による応答生成処理の切替え制御の例である。具体的には、例６では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）切替前状態」は、ＡＰＩの利用量やＡＰＩの利用料金が所定の上限未達の状態である。これは、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）の利用量が所定の上限に達していない状態を意味する。このとき、ユーザは、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）を通常の状態で利用することができる。

【0242】

ここで、例６では、「切替発生条件」としてはＡＰＩの利用量やＡＰＩの利用料金が所定の上限に達した場合が示されている。これは、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）の利用量が所定の上限に達した場合を意味する。また、例６では、「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」としては、通常状態で利用していたＬＬＭ（第１のＬＬＭと称してもよい）と異なるネットワーク上の第２のＬＬＭが示されている。ネットワーク上の第２のＬＬＭの例としては、通常状態で利用していた第１のＬＬＭよりも、低料金であるＬＬＭなどがあげられる。より低料金なサービスとなるので、第２のＬＬＭの性能は、第１のＬＬＭの性能よりも低性能であることが考えられる。この場合であっても、第１のＬＬＭの利用量／利用料金の上限に達したあとでも安価に大規模言語モデルが利用可能となるのであれば十分利点がある。

【0243】

次に、図５Ａの例７について説明する。例７は、例６における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を、通常状態で利用していたＬＬＭ（第１のＬＬＭと称してもよい）と異なるネットワーク上の第２のＬＬＭから「ローカルＬＬＭ」に変更したものである。例７では、ＡＰＩの利用量やＡＰＩの利用料金が所定の上限に達した場合であっても、すなわち、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）の利用量が所定の上限に達した場合であっても、ネットワーク上のＬＬＭの利用量、ＡＰＩの利用量、またはＡＰＩの利用料金、などによる制限を受けない、ローカルＬＬＭを用いた応答生成処理に切り替えることにより、引き続き大規模言語モデルを用いた応答生成処理を行うことが可能となる。

【0244】

次に、図５Ａの例８について説明する。例８は、例７における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を「ローカルＬＬＭ」から「応答定型文ＤＢ（データベース）」に変更したものである。当該「応答定型文ＤＢ（データベース）」による応答生成処理は、図１Ｃ、図２Ｌ、または図４Ｂで説明した処理と同様であるので繰り返しの説明は省略する。例８では、ＡＰＩの利用量やＡＰＩの利用料金が所定の上限に達した場合であっても、すなわち、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）の利用量が所定の上限に達した場合であっても、ネットワーク上のＬＬＭの利用量、ＡＰＩの利用量、またはＡＰＩの利用料金、などによる制限を受けない、応答定型文データベースを用いた応答生成処理に切り替える。これにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。

【0245】

次に、図５Ａの例９について説明する。例９は、例７における「ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」を「ローカルＬＬＭ」から「不応答対応」に変更したものである。当該「不応答対応」とは、ユーザに対する応答を生成しない、または、ユーザに対する応答を出力しない対応を意味する。例９では、ＡＰＩの利用量やＡＰＩの利用料金が所定の上限に達したこと、すなわち、ネットワーク上のＬＬＭ（ＡＰＩ接続ＬＬＭ）の利用量が所定の上限に達したことにより、ネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が利用できない場合の対応をより簡易にすることが可能となる。

【0246】

以上説明した、図５Ａの例１～例９に示す、人工知能応答出力装置１００１０の応答生成処理の切り替え制御によれば、ネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理が通常どおり利用できない状況であっても、それぞれの状況に応じたより好適な切替え、または対応を行うことができる。

【0247】

なお、図５Ａの例１～例９の切替え制御は、複数の例を組み合わせて制御を行ってもよい。例えば、例１～例３の切替え制御は、それぞれ例４～例９のいずれかの制御と組み合わせてもよい。同様に、例４または例５の制御は、それぞれ例１～例３、または例６～例９のいずれかの制御と組み合わせてもよい。同様に、例６～例９の制御は、それぞれ例１～例５のいずれかの制御と組み合わせてもよい。

【0248】

次に、図５Ｂ～図５Ｄを用いて、実施例５の人工知能応答出力装置１００１０をＡＩアシスタント装置またはキャラクター会話装置として構成する場合の、ＡＩアシスタントまたはキャラクターの表示例の一例について、説明する。

【0249】

まず、図５Ｂは、図５Ａの例３の切替え制御を行う場合の、人工知能応答出力装置１００１０における、ＡＩアシスタントまたはキャラクターの表示例である。図５Ｂの例では、人工知能応答出力装置１００１０のネットワーク接続状態がネットワーク接続可能であるか、ネットワーク不能であるかに応じて、ＡＩアシスタントまたはキャラクターの表示状態を変更する。人工知能応答出力装置１００１０が、ネットワーク接続可能である状態およびネットワーク不能である状態は図５Ａで説明したとおりであるので、繰り返しの説明は行わない。

【0250】

図５Ｂの例では、人工知能応答出力装置１００１０は、（１）ネットワーク接続可能である場合はＡＩアシスタントまたはキャラクターを起きている通常状態で表示するが、（２）ネットワーク接続不能である場合はＡＩアシスタントまたはキャラクターを「眠っている」状態で表示する。図５Ａの例３の切替え制御では、人工知能応答出力装置１００１０がネットワーク接続不能の場合は、ユーザから指示文の入力があっても応答を生成しない、または、応答を出力しない。このとき、人工知能応答出力装置１００１０が表示するＡＩアシスタントまたはキャラクターが起きている通常状態であるとユーザは違和感を感じるが、人工知能応答出力装置１００１０が表示するＡＩアシスタントまたはキャラクターを眠っている状態で表示すれば、ユーザは「当該ＡＩアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することができ、ユーザが感じる違和感をより低減することが可能となる。

【0251】

なお、図５Ｂ（２）の場合、人工知能応答出力装置１００１のタッチパネル、マイク１１３９または操作入力部１１０７を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザが「当該ＡＩアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することが望ましい。よって、図５Ｂの（２）ネットワーク接続不能である場合はＡＩアシスタントまたはキャラクターを「眠っている」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置１００１の制御部１１１０がネットワーク接続不能であると判断した時点の直後であることが望ましい。

【0252】

次に、別の表示例として、図５Ｃの表示例について説明する。図５Ｃの表示例は、図５Ａの切替え制御において、表中の「ネットワーク上のLＬＭ（ＡＰＩ接続ＬＬＭ）からの切替先」の状態に応じて、ＡＩアシスタントまたはキャラクターの表示状態を変更する例である。具体的には、図５Ｃには、（１）人工知能応答出力装置１００１０がネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）との接続が可能であり、かつ、当該ネットワーク上の大規模言語モデルによる応答生成処理を利用可能な状態（本図における通常状態と称する）の場合のＡＩアシスタントまたはキャラクターの表示例と、（２）人工知能応答出力装置１００１０がネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）よりも低性能なＬＬＭまたは応答定型文データベースによる応答生成処理へ切替えた状態におけるＡＩアシスタントまたはキャラクターの表示例と、（３）人工知能応答出力装置１００１０が図５Ａで説明した不応答対応へ切替えた状態におけるＡＩアシスタントまたはキャラクターの表示例が示されている。

【0253】

図５Ｃの例では、例えば、（１）人工知能応答出力装置１００１０が「通常状態」である場合は、人工知能応答出力装置１００１０は、ＡＩアシスタントまたはキャラクターは特に問題ない状態で表示する。なお、図５Ｃにおける「通常状態」とは、（２）、（３）の状態以外の状態と考えてもよい。また、例えば、（２）人工知能応答出力装置１００１０がネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）よりも低性能なＬＬＭまたは応答定型文データベースによるによる応答生成処理へ切替えた状態では、人工知能応答出力装置１００１０は、ＡＩアシスタントまたはキャラクターを「眠い」状態で表示する。なお、「ＡＩアシスタントまたはキャラクターを「眠い」状態で表示する」とは、「ＡＩアシスタントまたはキャラクターが眠気を感じている状態を示す表示」と表現してもよい。

【0254】

（２）の応答生成処理は、（１）の通常状態におけるネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）による応答生成処理よりも性能が低い。よって、ＡＩアシスタントまたはキャラクターを「眠い」状態で表示することにより、ユーザに、ＡＩアシスタントまたはキャラクターの応答性能が低いことを暗に伝えることができる。これにより、低性能な応答に対するユーザが感じる違和感をより低減することが可能となる。なお、人工知能応答出力装置１００１０がネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）よりも低性能なＬＬＭまたは応答定型文データベースによるによる応答生成処理へ切替える切り替え条件は、図５Ａで説明したとおりなので、繰り返しの説明は省略する。

【0255】

また、図５Ｃ（２）の場合、人工知能応答出力装置１００１のタッチパネル、マイク１１３９または操作入力部１１０７を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザに、ＡＩアシスタントまたはキャラクターの応答性能が低いことを暗に伝えることが望ましい。よって、図５Ｃの（２）ＡＩアシスタントまたはキャラクターを「眠い」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置１００１０がネットワーク上の大規模言語モデル（ＡＰＩを用いて接続する大規模言語モデル）よりも低性能なＬＬＭまたは応答定型文データベースによるによる応答生成処理へ切替の時点の直後であることが望ましい。

【0256】

また、例えば、（３）人工知能応答出力装置１００１０が図５Ａで説明した不応答対応へ切替えた状態では、人工知能応答出力装置１００１０は、ＡＩアシスタントまたはキャラクターを「眠っている」状態で表示する。図５Ｂでも説明したとおり、人工知能応答出力装置１００１０が表示するＡＩアシスタントまたはキャラクターが「眠っている」状態で表示することにより、ユーザは「当該ＡＩアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することができ、ユーザが感じる違和感をより低減することが可能となる。なお、人工知能応答出力装置１００１０が図５Ａで説明した不応答対応へ切替える切替発生条件については、図５Ａの例３または例９などで説明した通りであるので、繰り返しの説明は省略する。なお、図５Ｃ（３）の場合、人工知能応答出力装置１００１のタッチパネル、マイク１１３９または操作入力部１１０７を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザが「当該ＡＩアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することが望ましい。よって、図５Ｃの（３）ＡＩアシスタントまたはキャラクターを「眠っている」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置１００１０が図５Ａで説明した不応答対応への切替の時点の直後であることが望ましい。

【0257】

なお、図５Ｃの表示例では、人工知能応答出力装置１００１０は、ユーザに対して、応答生成処理に関する人工知能応答出力装置１００１０の状態の技術的な説明を、直接ユーザに対して行うことなく、ＡＩアシスタントまたはキャラクターの状態の変化として暗に反映させる表示を行う。これにより、応答生成処理に関する人工知能応答出力装置１００１０の状態の技術的な説明を直接ユーザに対して行う場合よりも、ユーザが感じる違和感をより低減することができる。また、応答生成処理に関する人工知能応答出力装置１００１０の状態が変化したにも関わらず、ＡＩアシスタントまたはキャラクターの表示状態を通常状態と同じままの表示とする場合よりも、ユーザが感じる違和感をより低減することができる。

【0258】

しかしながら、ユーザによっては、それぞれの状態における技術的な状態の説明をより正確に知りたい場合もあり得る。そこで、このようなユーザに対応するための表示例について、図５Ｄを用いて説明する。図５Ｄに示す表の行のうち、装置状態、表示状態説明の行は図５Ｃと全く同一であるので、繰り返しの説明は省略する。また、ＡＩアシスタントまたはキャラクターの表示例の行に示される、ＡＩアシスタントまたはキャラクターの表示例は、図５Ｃとほぼ同一であるが、表示例にはてなマーク（？）が表示されている点で相違する。当該はてなマーク（？）は、ユーザが人工知能応答出力装置１００１０に対して説明を要求する場合に操作するマークであり、ヘルプマークと称してもよい。

【0259】

図５Ｄの例では、ユーザが、図１Ｂの操作入力部１１０７または表示部１００１１が有するタッチパネルなどを介したユーザ操作により、当該はてなマーク（？）を選択すると、人工知能応答出力装置１００１０のＡＩアシスタントまたはキャラクターの表示は、ユーザ操作後表示例の行に示される表示例に変更される。具体的には、装置状態が（１）、（２）または（３）のいずれの状態であっても、それぞれの状態における技術的な状態の説明を表示する。例えば、図５Ｄの例では、装置の状態が（１）通常状態であれば、「通常状態です」と技術的に特に制限のない通常の状態であることを説明する表示を行えばよい。また、装置の状態が（２）低性能ＬＬＭまたは応答定型文データベースを使用している状態であれば、「低性能モードです」と、低性能状態であることを技術的に説明する表示を行えばよい。当該表示は、ＡＩアシスタントまたはキャラクターの表示が「眠い」状態で表示している要因を説明する表示と考えてもよい。

【0260】

この場合、さらに技術的に詳細な説明を行ってもよい。具体的には、「低性能ＬＬＭ使用モードです」または「定型文応答モードです」などの表示を行ってもよい。また、装置の状態が（３）不応答対応であれば、「ネットワーク接続不能状態です」と、不応答対応への切替えの要因を技術的に説明する表示を行えばよい。不応答対応への切替えの要因が、ネットワーク上のＬＬＭ（ＡＰＩを用いて接続する大規模言語モデル）からの応答が所定時間を超過していることである場合は、「ＬＬＭからの応答が遅延しています」などと表示してもよい。また、不応答対応への切替えの要因が、ネットワーク上のＬＬＭの利用量、ＡＰＩ利用量またはＡＰＩ利用料金が上限に到達したことである場合は、「ＬＬＭの利用量が上限に達しました」、「ＡＰＩの利用量が上限に達しました」、または、ＡＰＩの利用料金が所定の額に達しました」などと表示してもよい。これらの表示は、ＡＩアシスタントまたはキャラクターの表示が「眠っている」状態で表示している要因を説明する表示と考えてもよい。

【0261】

以上説明した図５Ｄの表示例によれば、人工知能応答出力装置１００１０における応答生成処理に技術的な制約があったとしても、まずは、ユーザに対して直接的な説明を行わず、ＡＩアシスタントまたはキャラクターの表示状態の変化により、暗に装置の状態を示すことにより、ユーザが感じる違和感をより低減することができる。技術的な説明が不要なユーザに対しては当該表示がより好適である。さらに、技術的な状態の説明を行うための操作マークを表示することにより、当該マークを操作したユーザに対しては、人工知能応答出力装置１００１０における応答生成処理の状態（通常状態または技術的制約がある状態）を技術的に説明する表示を行う。これにより、技術的な状態を正確に知りたいユーザにとってもより好適な表示を行うことが可能となる。

【0262】

なお、図５Ｂ、図５Ｃ、図５Ｄ、の例では、「不応答対応」であるときの、ＡＩアシスタントまたはキャラクターの表示状態の例として「眠っている」状態を示しているが、これは一例であり、本実施例の態様はこれに限られない。「眠っている」状態に替えて、「休憩中」など、応答できない状況を暗に示す他の表示状態としてもよい。また、図５Ｃ、図５Ｄ、の例では、低性能ＬＬＭまたは応答定型文データベースを使用している状態であるときの、ＡＩアシスタントまたはキャラクターの表示状態の例として「眠い」状態を示しているが、これは一例であり、本実施例の態様はこれに限られない。「はらぺこ」など、ＡＩアシスタントまたはキャラクターの応答性能が低いことを暗に示す他の表示状態としてもよい。

【0263】

以上説明した、実施例５に係る人工知能応答出力装置や、人工知能応答出力システムによれば、ネットワーク上の大規模言語モデルと人工知能応答出力装置の接続状態、ネットワーク上の大規模言語モデルからの応答遅延状態、またはネットワーク上の大規模言語モデルの利用量などに応じて、人工知能応答出力装置が用いる応答生成処理を、より好適に切替えることが可能となる。また、実施例５に係る人工知能応答出力装置をＡＩアシスタント装置またはキャラクター会話装置として構成する場合に、ユーザにとってより違和感が少ない表示を行うことが可能となる。

【0264】

＜実施例６＞
次に、本発明の実施例６は、実施例１～５の各図で説明した人工知能応答出力装置１００１０、または人工知能応答出力システムを改良したものである。具体的には、人工知能応答出力装置１００１０の応答生成処理を、ネットワーク上の大規模言語モデルによる応答生成処理または人工知能応答出力装置１００１０が備えるローカルの大規模言語モデル（ローカルＬＬＭ処理部１００２８など）による応答生成処理と、応答定型文データベースによる応答生成処理を、より好適に組み合わせて応答出力を生成する例である。本実施例では、これらの実施例との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。

【0265】

【0266】

図６を用いて、本発明の実施例６の人工知能応答出力装置１００１における応答生成処理の一例について説明する。図６は、実施例６に係る、本発明の実施例６の人工知能応答出力装置１００１における応答生成処理のフローチャートの一例が示されている。具体的には、上から下へ時刻が進行する時間軸、処理フロー、応答出力例が示されている。応答出力例に示される応答の出力は、人工知能応答出力装置１００１の表示部１００１１による表示または音声出力部１１４０による音声出力を介して行えばよい。

【0267】

図６の例では、まず、時刻ｔ０において、人工知能応答出力装置１００１のタッチパネル、マイク１１３９または操作入力部１１０７を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力があり、人工知能応答出力装置１００１の制御部１１１０が、当該ユーザ入力を取得する（ステップ６００）。次に、時刻ｔ１において、制御部１１１０が、ストレージ部１１７０に格納される応答定型文データベースを用いた応答出力のための準備を開始し、応答定型文データベースを用いた応答出力を開始する（ステップ６０１）。図６の例では、時刻ｔ２において、応答定型文データベースを用いた応答出力が開始されており、図に示すように、定型文応答が出力中であり、出力完了していない。図中の「おはよう」は、「おはようございます。…」と続く文章の途中までの出力を示したものである。

【0268】

時刻ｔ３において、応答定型文データベースを用いた応答出力が完了する前に、制御部１１１０が、ステップ６００で取得したユーザ入力にもとづいて指示文を生成し、ネットワーク上の大規模言語モデルまたは人工知能応答出力装置１００１０が備えるローカルの大規模言語モデル（ローカルＬＬＭ処理部１００２８など）へ生成した指示文を送信し、大規言語モデルによる応答の要求を開始する（ステップ６０２）。さらに、時刻ｔ４において、応答定型文データベースを用いた応答出力が完了する前に、制御部１１１０は、大規模言語モデルからの応答取得を開始する（ステップ６０３）。

【0269】

時刻ｔ５において、応答定型文データベースを用いた応答出力が完了した応答出力例を示す。例えば、図６には、時刻ｔ５において、応答定型文データベースに格納された定型文とメモリに格納された日付情報などを用いて「おはようございます。本日は〇月〇日ですね。」という応答出力の表示が完了した例を示している。ここで、応答定型文データベースを用いた応答出力が完了する前の時刻ｔ４において、制御部１１１０は、既に、大規模言語モデルからの応答取得を開始している。よって、制御部１１１０は、応答定型文データベースを用いた応答出力表示が完了した時刻ｔ５に続く時刻ｔ６に、当該応答定型文データベースを用いた応答出力に続けて、大規模言語モデルからの応答出力を開始する（ステップ６０４）。その後、時刻ｔ７において、応答定型文データベースを用いた応答出力に続けて大規模言語モデルからの応答が出力される。大規模言語モデルからの応答出力が完了すると、図６に示す処理フローによる応答出力が完了する（ステップ６０５）。

【0270】

次に、本発明の図６に示す処理フローの効果について説明する。大規模言語モデルの処理には多くの計算リソースが必要である。一般的に、学習よりも計算リソースが少なく済む推論をＧＰＵ（Graphics Processing Unit）を用いて処理したとしても、制御部が大規模言語モデルへ応答要求を開始してから大規模言語モデルから応答を取得できるようになるまで数秒～十数秒かかる場合もある。この期間は、図６に示す時刻ｔ３から時刻ｔ４に対応する期間である。また、ユーザ入力のあった時刻ｔ０から時刻ｔ４に至るまでは、制御部１１１０は大規模言語モデルからの応答出力は取得出来ていないため、ユーザへ大規模言語モデルからの応答を出力することは出来ない。

【0271】

よって、図６に示すステップ６０１の応答定型文データベースを用いた応答出力のための準備の開始と、当該応答定型文データベースを用いた応答出力の開始が存在しない処理フローでは、ユーザはユーザ入力を行った時刻ｔ０から時刻ｔ４に至るまで数秒～十数秒を超える期間について、人工知能応答出力装置１００１からの応答がないまま待ち続けることとなる場合がある。例えば、人工知能応答出力装置１００１をＡＩアシスタント装置またはキャラクター会話装置として構成する場合など、当該待ち時間は、ユーザに違和感を与える可能性がある。

【0272】

これに対し、図６に示す本発明の実施例６に係る処理フローでは、制御部１１１０は、大規模言語モデルからの応答取得が開始される前に、大規模言語モデルの処理よりも計算リソースが少なくて済む応答定型文データベースを用いた応答出力の処理を開始する。これにより、ユーザは、時刻ｔ０から時刻ｔ４に至るまでの間、人工知能応答出力装置１００１からの応答がないまま待ち続ける、という状態にならなくて済む。ユーザにとっては、応答定型文データベースを用いた応答出力であっても大規模言語モデルからの応答出力であっても、人工知能応答出力装置１００１からの応答であることには変わりない。

【0273】

よって、図６に示す処理フローでは、ステップ６０３の前に、ステップ６０１を設けることによって、ユーザに対する人工知能応答出力装置１００１の応答を疑似的に早めることができる。これにより、待ち時間の長さに起因するユーザの違和感をより低減することが可能である。また、ステップ６０４により、大規模言語モデルからの応答を、当該応答定型文データベースを用いた応答に続けて出力することにより、あたかもこれらの出力が一連のより自然な出力であるかのようにユーザに認識させることができる。

【0274】

以上説明した、実施例６に係る人工知能応答出力装置や、人工知能応答出力システムによれば、ユーザにとって人工知能応答出力装置からの応答待ち時間を短縮することができ、ユーザの感じる違和感をより低減することができる。

【0275】

また、本実施例に係る技術では、より好適な人工知能応答出力技術を提供することが可能となる。このような人工知能応答出力技術は、より質の高い、より信頼できるインフラへの導入が期待できる。当該技術がインフラへ導入されていくことにより、全ての人々に安価で公平なアクセスに重点を置いた経済発展と人間の福祉の支援に寄与できる。これにより、国連の提唱する持続可能な開発目標（ＳＤＧｓ：Sustainable Development Goals）の「９産業と技術革新の基盤をつくろう」に貢献する。

【0276】

また、本実施例に係る技術では、より好適な人工知能応答出力技術を提供することが可能となる。このような人工知能応答出力技術は、脆弱な立場にある人々の輸送システムへのアクセス性を向上させるために、公共交通機関の設備への導入が期待できる。当該技術が公共交通機関へ導入されていくことにより、公共交通機関の拡大などを通じた交通の安全性改善、および、全ての人々に安全かつ安価で容易に利用できる、持続可能な輸送システムへのアクセスの実現に寄与できる。これにより、国連の提唱する持続可能な開発目標（ＳＤＧｓ：Sustainable Development Goals）の「１１住み続けられるまちづくりを」に貢献する。

【0277】

以上、種々の実施例について詳述したが、しかしながら、本発明は、上述した実施例のみに限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するためにシステム全体を詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【符号の説明】

【0278】

１００１０…人工知能応答出力装置、１００１０…表示部、１００２８…ローカルＬＬＭ処理部、１１０７…操作入力部、１１１０…制御部、１１３２…通信部、１１４０…音声出力部、１１３９…マイク、１１６０…映像制御部、１１７０…ストレージ部、１１８０…撮像部

【図1A】