IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立マクセル株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025025082
(43)【公開日】2025-02-21
(54)【発明の名称】応答出力装置
(51)【国際特許分類】
   G06F 40/56 20200101AFI20250214BHJP
   G06F 3/16 20060101ALI20250214BHJP
   G10L 13/00 20060101ALI20250214BHJP
【FI】
G06F40/56
G06F3/16 620
G10L13/00 100M
【審査請求】未請求
【請求項の数】27
【出願形態】OL
(21)【出願番号】P 2023129534
(22)【出願日】2023-08-08
(71)【出願人】
【識別番号】000005810
【氏名又は名称】マクセル株式会社
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】清水 拓也
(72)【発明者】
【氏名】鋪田 和夫
(57)【要約】
【課題】より好適な人工知能応答出力技術を提供すること。本発明によれば、持続可能な開発目標(SDGs)の「9産業と技術革新の基盤をつくろう」、「11住み続けられるまちづくりを」に貢献する。
【解決手段】応答出力装置であって、大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、表示部と、音声出力部と、を備え、前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある。
【選択図】図1A
【特許請求の範囲】
【請求項1】
大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、
表示部と、
音声出力部と、
を備え、
前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある、
応答出力装置。
【請求項2】
請求項1に記載の応答出力装置であって、
ストレージ部を備え、
前記ストレージ部には、応答の元となる定型文が複数格納されたデータベースが格納されており、
前記制御部による制御状態には、前記大規模言語モデルからの応答ではなく、前記データベースに格納された定型文にもとづいて生成した応答を出力する状態がある、
応答出力装置。
【請求項3】
請求項2に記載の応答出力装置であって、
前記表示部は、複数の異なるAIアシスタントを表示可能であり、
前記ストレージ部の前記データベースには、前記複数の異なるAIアシスタントのそれぞれに対応して異なる応答が生成可能な定型文データが格納されている、
応答出力装置。
【請求項4】
請求項2に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項5】
請求項2に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が所定時間以内に取得可能な場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が前記所定時間以内に取得できない場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項6】
請求項2に記載の応答出力装置であって、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記データベースに格納された定型文にもとづいて生成した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項7】
請求項1に記載の応答出力装置であって、
前記応答出力装置内での大規模言語モデルの処理が可能なローカル大規模言語モデル処理部を備え、
前記制御部による制御状態には、
前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を前記表示部または前記音声出力部を介して出力する状態がある、
応答出力装置。
【請求項8】
請求項1に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得して、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項9】
請求項1に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項10】
請求項1に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が所定時間以内に取得可能な場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルからの応答が前記所定時間以内に取得できない場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項11】
請求項1に記載の応答出力装置であって、
通信部と、
ローカル大規模言語モデル処理部と、を備え、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記ローカル大規模言語モデル処理部の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項12】
請求項1に記載の応答出力装置であって、
通信部を備え、
前記制御部は、
前記通信部を介してネットワーク上のサーバにある第1の大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある前記第1の大規模言語モデルから取得可能であり、
且つ前記通信部を介してネットワーク上のサーバにある第2の大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある前記第2の大規模言語モデルから取得可能である、
応答出力装置。
【請求項13】
請求項12に記載の応答出力装置であって、
前記制御部による制御状態には、
前記通信部を介して前記ネットワーク上のサーバにある前記第1の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して前記ネットワーク上のサーバにある前記第2の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある、
応答出力装置。
【請求項14】
請求項12に記載の応答出力装置であって、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある前記第1の大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある前記第1の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある前記第1の大規模言語モデルの利用量が所定の上限に達した場合に、前記ネットワーク上のサーバにある前記第2の大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第2の状態と、
がある
応答出力装置。
【請求項15】
請求項1に記載の応答出力装置であって、
通信部と、
操作入力部またはマイクと、
を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介した前記ネットワークへの接続が可能である場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介した前記ネットワークへの接続が不能である場合に、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して、当該入力に対する応答を出力しない状態となる第2の状態と、
がある、
応答出力装置。
【請求項16】
請求項1に記載の応答出力装置であって、
通信部と、
操作入力部またはマイクと、
を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による制御状態には、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達していない場合に、前記ネットワーク上のサーバにある大規模言語モデルから取得した応答を、前記表示部または前記音声出力部を介して出力する第1の状態と、
前記通信部を介して接続する前記ネットワーク上のサーバにある大規模言語モデルの利用量が所定の上限に達した場合に、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して、当該入力に対する応答を出力しない第2の状態と、
がある、
応答出力装置。
【請求項17】
請求項2に記載の応答出力装置であって、
操作入力部またはマイクと、
を備え、
前記制御部は、
前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力があった場合に、前記データベースに格納された定型文にもとづいて生成する応答の出力準備を開始し、前記データベースに格納された定型文にもとづいて生成した応答について前記表示部または前記音声出力部を介した出力を開始し、
前記データベースに格納された定型文にもとづいて生成する応答の出力が完了する前に、前記大規模言語モデルへ指示文を送信し、前記大規模言語モデルからの応答の取得を開始し、取得した前記大規模言語モデルからの応答を、前記データベースに格納された定型文にもとづいて生成した応答に続けて、前記表示部または前記音声出力部を介して出力する制御を行う、
応答出力装置。
【請求項18】
請求項2に記載の応答出力装置であって、
前記表示部はAIアシスタントを表示可能であり、
通信部を備え、
前記制御部は、前記通信部を介してネットワーク上のサーバにある大規模言語モデルへ指示文を送信し、当該指示文に対する応答を、前記ネットワーク上のサーバにある大規模言語モデルから取得可能であり、
前記制御部による前記表示部のAIアシスタントの表示制御状態には、
前記通信部を介した前記ネットワークへの接続が可能であるときの第1の表示制御状態と、
前記通信部を介した前記ネットワークへの接続が不能であるときの第2の表示制御状態と、があり、
前記第2の表示制御状態におけるAIアシスタントの表示状態は、前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なり、前記AIアシスタントが眠っている状態で表示される状態である、
応答出力装置。
【請求項19】
請求項18に記載の応答出力装置であって、
操作入力部またはマイクと、
を備え、
前記第2の表示制御状態において、前記AIアシスタントが眠っている状態での表示状態は、前記通信部を介した前記ネットワークへの接続が不能となった後、前記操作入力部または前記マイクを介して、ユーザから大規模言語モデルからの応答を求める入力が入力されるよりも前の時点から開始される、
応答出力装置。
【請求項20】
請求項2に記載の応答出力装置であって、
前記表示部はAIアシスタントを表示可能であり、
操作入力部またはマイクを備え、
前記制御部による前記表示部のAIアシスタントの表示制御状態には、
前記大規模言語モデルからの応答を用いた出力が、前記表示部または前記音声出力部を介して可能であるときの第1の表示制御状態と、
前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して当該入力に対する応答を出力しないときの第2の表示制御状態と、があり、
前記第2の表示制御状態におけるAIアシスタントの表示状態は、前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態である、
応答出力装置。
【請求項21】
請求項20に記載の応答出力装置であって、
前記第2の表示制御状態において、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態は、前記AIアシスタントが眠っている状態で表示される状態である、
応答出力装置。
【請求項22】
請求項20に記載の応答出力装置であって、
前記第2の表示制御状態において、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態は、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力があっても、前記表示部または前記音声出力部を介して当該入力に対する応答を出力しない状態になった後、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力が入力される前の時点から開始される、
応答出力装置。
【請求項23】
請求項20に記載の応答出力装置であって、
前記操作入力部または前記マイクのうち、少なくとも前記操作入力部を備え、
前記表示部は、前記第2の表示制御状態において所定のマークを表示し、
前記制御部は、
ユーザが前記操作入力部を介して前記所定のマークを選択した場合に、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態となってる要因を説明するための表示を前記表示部に表示させる制御、を行う、
応答出力装置。
【請求項24】
請求項2に記載の応答出力装置であって、
前記表示部はAIアシスタントを表示可能であり、
前記制御部による前記表示部のAIアシスタントの表示制御状態には、
前記大規模言語モデルからの応答を用いた出力が、前記表示部または前記音声出力部を介して可能であるときの第1の表示制御状態と、
前記応答出力装置から出力可能な応答が、前記大規模言語モデルからの応答を用いた出力よりも低性能な応答の出力であるときの第2の表示制御状態と、があり、
前記第2の表示制御状態におけるAIアシスタントの表示状態は、前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態である、
応答出力装置。
【請求項25】
請求項24に記載の応答出力装置であって、
前記第2の表示制御状態において、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態は、前記AIアシスタントが眠気を感じている状態で表示される状態である、
応答出力装置。
【請求項26】
請求項24に記載の応答出力装置であって、
操作入力部またはマイクを備え、
前記第2の表示制御状態において、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態は、前記応答出力装置から出力可能な応答が前記大規模言語モデルからの応答を用いた出力よりも低性能な応答の出力である状態になった後、前記操作入力部または前記マイクを介してユーザから大規模言語モデルからの応答を求める入力が入力されるよりも前の時点から開始される、
応答出力装置。
【請求項27】
請求項24に記載の応答出力装置であって、
操作入力部を備え、
前記表示部は、前記第2の表示制御状態において所定のマークを表示し、
前記制御部は、
ユーザが前記操作入力部を介して前記所定のマークを選択した場合に、前記AIアシスタントが前記第1の表示制御状態におけるAIアシスタントの表示状態とは異なる状態で表示される表示状態となってる要因を説明するための表示を前記表示部に表示させる制御、を行う、
応答出力装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、応答出力装置に関する。
【背景技術】
【0002】
言語モデルなどの人工知能を用いた応答出力技術については、例えば、特許文献1に開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2019―528512号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の開示では、人工知能を用いた応答出力技術をユーザにより好適に提供するための構成などについての考慮は十分ではなかった。
【0005】
本発明の目的は、より好適な応答出力技術を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、応答出力装置であって、大規模言語モデルへの指示文に対する応答を大規模言語モデルから取得する制御部と、表示部と、音声出力部と、を備え、前記制御部による制御状態には、前記大規模言語モデルからの応答を、前記表示部または前記音声出力部を介して出力する状態がある、ように構成すればよい。
【発明の効果】
【0007】
本発明によれば、より好適な応答出力技術を提供できる。これ以外の課題、構成および効果は、以下の実施形態の説明において明らかにされる。
【図面の簡単な説明】
【0008】
図1A】本発明の一実施例に係る人工知能応答出力装置およびシステムの一例を示す図である。
図1B】本発明の一実施例に係る人工知能応答出力装置の一例を示す図である。
図1C】本発明の一実施例に係る人工知能応答出力装置およびシステムの動作の一例を示す図である。
図2A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの一例の説明図である。
図2B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2C】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2D】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムにける会話の一例の説明図である。
図2E】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2F】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2G】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2H】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2I】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2J】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2K】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図2L】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの一例の説明図である。
図3B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3C】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3D】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムにける会話の一例の説明図である。
図3E】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3F】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3G】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3H】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図3I】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図4A】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図4B】本発明の一実施例に係るキャラクター会話装置およびキャラクター会話システムの動作の一例の説明図である。
図5A】本発明の一実施例に係る人工知能応答出力装置の動作の一例の説明図である。
図5B】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。
図5C】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。
図5D】本発明の一実施例に係る人工知能応答出力装置の表示例の一例の説明図である。
図6】本発明の一実施例に係る人工知能応答出力装置の応答生成処理の一例の説明図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、本発明は実施例の説明に限定されるものではなく、本明細書に開示される技術的思想の範囲内において当業者による様々な変更および修正が可能である。また、本発明を説明するための全図において、同一の機能を有するものには、同一の符号を付与し、その繰り返しの説明は省略する場合がある。
【0010】
なお、本発明の各実施例に係る人工知能応答出力装置が表示画面を有する場合は、表示装置と呼んでもよい。人工知能応答出力装置が音声出力機能を有する場合は、音声出力装置と呼んでもよい人工知能応答出力装置は単に情報処理装置と呼んでもよい。人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムを人工知能応答出力システムと呼んでもよい。また、人工知能応答出力装置が人工知能である大規模言語モデルの応答サービスをユーザに提供し、ユーザの助力になる場合は、人工知能応答出力装置または人工知能応答出力装置の表示出力は、ユーザにとって人工知能(AI)アシスタントとなることができる。よって、この場合、人工知能応答出力装置はAIアシスタント装置またはAIアシスタント表示装置と呼んでもよい。同様に、この場合、人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムをAIアシスタントシステムまたはAIアシスタント表示システムと呼んでもよい。また、この場合、人工知能応答出力装置は、ユーザと人工知能の間のインタフェースとなるので、人工知能インタフェース装置と呼んでもよい。この場合、人工知能応答出力装置と、大規模言語モデルを保持する大規模言語モデルサーバを含むシステムを人工知能インタフェースシステムと呼んでもよい。
【0011】
<実施例1>
本発明の実施例1として、大規模言語モデル人工知能からの応答を出力する人工知能応答出力装置およびそのシステムについて、説明する。
【0012】
図1Aを用いて、本発明の人工知能応答出力装置10010の一例について説明する。また、当該人工知能応答出力装置10010が大規模言語モデルサーバ19001と通信などにより連携する場合について、人工知能応答出力装置10010が大規模言語モデルサーバ19001および/またはマルチモーダルな大規模言語モデルサーバ20001とを含むシステムの一例について説明する。
【0013】
図1Aの例では、人工知能応答出力装置10010は、表示部10011を有する。図1Aの例では、表示部10011は、平面ディスプレイでもよく、背面から映像を投影するスクリーンでもよく、光学像を空中に結像する空中浮遊映像でもよい。表示部10011はが平面ディスプレイの場合は、液晶パネルとバックライトを有する液晶ディスプレイでもよい。また、表示部10011は、プラズマディスプレイでもよい。表示部10011は、画素が自発光する有機ELディスプレイでもよい。また、表示部10011はタッチ操作入力センサを設け、タッチパネルとして構成してもよい。
【0014】
図1Aの例では、人工知能応答出力装置10010が備える音声出力部1140はスピーカで構成されている。また、人工知能応答出力装置10010がマイク1139を備え、ユーザの声を収音できる。当該マイク1139からの音声入力や、後述する操作入力部を介したユーザの操作入力により、人工知能応答出力装置10010は、人工知能である大規模言語モデルへの指示文(プロンプト)の元となるユーザ入力を取得することができる。
【0015】
人工知能応答出力装置10010は、人工知能応答出力装置10010自体にローカルの大規模言語モデルを備えてもよい。この場合、当該大規模言語モデルの応答を上記表示部10011の表示出力、および/または、音声出力部1140の音声出力として出力してもよい。
【0016】
また、人工知能応答出力装置10010は、ローカルの大規模言語モデルを備えず、外部の大規模言語モデルサーバ19001と通信し、大規模言語モデルサーバ19001から受信する応答を上記表示部10011の表示出力、および/または、音声出力部1140の音声出力として出力してもよい。
【0017】
または、人工知能応答出力装置10010は、ローカルの大規模言語モデルも備え、さらに、大規模言語モデルを有する外部の大規模言語モデルサーバ19001またはマルチモーダルな大規模言語モデルを有する外部の大規模言語モデルサーバ20001と通信するように構成してもよい。この場合、当該ローカルの大規模言語モデルの応答と、大規模言語モデルサーバ19001の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ20001のマルチモーダルな大規模言語モデルから受信する応答とを、切り替えて、いずれか一方を、上記表示部10011の表示出力、および/または、音声出力部1140の音声出力として出力してもよい。または、当該ローカルの大規模言語モデルの応答と、大規模言語モデルサーバ19001の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ20001のマルチモーダルな大規模言語モデルから受信する応答の両者にもとづいて生成した応答を、上記表示部10011の表示出力、および/または、音声出力部1140の音声出力として出力してもよい。
【0018】
人工知能応答出力装置10010が外部の大規模言語モデルサーバ19001または大規模言語モデルサーバ20001と通信して連携する場合の構成は、以下のとおりである。人工知能応答出力装置10010は、通信部1132を介して、インターネット19000に接続された通信装置19011と通信可能である。図1Aの例では、通信部1132と通信装置19011との通信は無線の例を示しているが、有線通信でも構わない。通信部1132と通信装置19011までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。また、通信部1132からインターネット19000までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。人工知能応答出力装置10010は、通信装置19011およびインターネット19000を介して、大規模言語モデルサーバ19001と通信可能である。また、人工知能応答出力装置10010は、通信装置19011およびインターネット19000を介して、大規模言語モデルサーバ19001または大規模言語モデルサーバ20001、およびこれらのサーバと異なる第2のサーバ19002と通信可能である。人工知能応答出力装置10010と大規模言語モデルサーバ19001または大規模言語モデルサーバ20001とを含めた構成を一つのシステムとして考えてもよい。
【0019】
以下の説明において、単に「大規模言語モデル」と説明し特に断りがない場合は、人工知能応答出力装置10010が備えるローカルの大規模言語モデルと、大規模言語モデルサーバ19001が備える大規模言語モデル、および大規模言語モデルサーバ20001が備えるマルチモーダルな大規模言語モデルを含めた概念と考えてよい。
【0020】
図1Aの例では、表示部10011が、ユーザから人工知能である大規模言語モデルへの指示文(プロンプト)を入力する指示文表示領域10051と、大規模言語モデルからの応答を表示する人工知能応答表示領域10061の2つの表示領域に各要素を表示する例を示している。図1Aの例では、指示文表示領域10051には、ユーザを示すアイコン10052、指示文の構成要素としての自然言語やソフトウェアコードなどのテキスト10053、指示文の構成要素としての画像10054、指示文の構成要素としての動画10055、などを表示する例を示している。図1Aの例では、人工知能応答表示領域10061には、人工知能または人工知能アシスタントを示すアイコン10062、人工知能からの応答の構成要素としての自然言語やソフトウェアコードなどのテキスト10063、人工知能からの応答の構成要素としての画像10064、人工知能からの応答の構成要素としての動画10065、などを表示する例を示している。なお、図1Aに示す人工知能応答出力装置10010の表示部10011の表示例は、あくまで一例である。人工知能応答出力装置10010が用いられる実装例に応じて、図1Aに示す例とは異なる表示を行えばよい。
【0021】
ここで、大規模言語モデルについて説明する。大規模言語モデルはLLM(Large Language Model)とも表記される。具体的には、GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPTなど様々なモデルが公開されている。本実施例においてもこれらの技術を用いればよい。なお、これらの大規模言語モデルは人間界に存在する数多くの文書、テキストに含まれる自然言語を対象に、大規模な事前学習が行われて生成された人工知能モデルである。人工知能モデルのパラメータ数は億を超える。さらに、これに加えて、人間からのフィードバックにもとづく強化学習を施したモデルもある。ベースとなるモデルの一例はTransformerと呼ばれるモデルなどである。これらのモデルの学習の一例として、例えば、参考文献1などが公開されている。
【0022】
[参考文献1]
Long Ouyang, et. al. “Training language models to follow instructions with human feedback”, https://arxiv.org/pdf/2203.02155.pdf
【0023】
これらの大規模言語モデルは、自然言語を対象とした翻訳、自然言語を対象とした文章校正、自然言語を対象とした文章要約、などが可能である。そのうち、高度なものでは、自然言語による質問回答(対話または会話ともよばれる)、自然言語による提案生成、プログラミングコードの生成などが可能である。これらの人工知能モデルのパラメータ数は非常に大きいため、学習には膨大なデータ、計算資源が必要である。よって、特定の用途に限って、このレベルの人工知能の学習を行うことは非常に資源効率が悪い。そこで、様々な用途に応用できる基盤モデル(Foundation Model)として、大規模な事前学習を行ってモデルが生成されている。例えば、図1Aに示す大規模言語モデルサーバ19001は、このような大規模言語モデルを備え、API(Application Programming Interface)を介して、様々な端末で利用できるように構成してもよい。また、図1Aに示す人工知能応答出力装置10010がローカルの大規模言語モデルを備え、人工知能応答出力装置10010自身が利用するように構成してもよい。いずれの大規模言語モデルの学習自体は、別途、大規模な事前学習を行って生成し、生成した大規模言語モデルを複製して、大規模言語モデルサーバ19001や人工知能応答出力装置10010などに備えればよい。このように、用途ごとや端末ごとに事前学習を行うのではなく、大規模な事前学習を行って生成した基盤モデルである大規模言語モデルを複製して個々のサーバや端末で利用すれば、学習に用いる資源消費を共有することができるため資源効率がよい。
【0024】
なお、大規模な事前学習を行って生成した基盤モデルとしての大規模言語モデルであっても、個々のサーバや装置において、用途や目的に応じて転移学習などの追加学習を行うように構成してもよい。
【0025】
また、大規模言語モデルは、自然言語を事前学習し、自然言語を対象とした入出力処理を行うことができる。さらに、自然言語のテキスト情報に加えて自然言語のテキスト情報以外の種類の情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能も本発明の実施例に適用可能である。図1Aにおいては、マルチモーダルな大規模言語モデルを有するサーバを大規模言語モデルサーバ20001を示す。例えば、マルチモーダルな大規模言語モデル人工知能の一例としては、具体的には、GPT-4(参考文献2参照)、Gato(参考文献3参照)などが公開されている。本実施例においてもこれらの技術を用いればよい。なお、これらのマルチモーダルな大規模言語モデルは人間界に存在する数多くの文書、テキストに含まれる自然言語および自然言語のテキスト情報以外の種類の情報(例えば、画像、動画、音声など)を対象に、大規模な事前学習が行われて生成された人工知能モデルである。さらに、これに加えて、人間からのフィードバックにもとづく強化学習を施したモデルもある。以下、画像、動画、音声などの自然言語のテキスト情報以外の種類の情報を非自然言語情報源と称してもよい。
【0026】
[参考文献2]
Open AI “GPT-4 Technical Report”, https://cdn.openai.com/papers/gpt-4.pdf
[参考文献3]
Scott Reed, et. al. “A Generalist Agent”,
https://arxiv.org/pdf/2205.06175.pdf
【0027】
次に、図1Bを用いて、これらの大規模言語モデルなどの人工知能に対するユーザからの入力を受け付け、当該ユーザからの入力に対する大規模言語モデルなどの人工知能からの応答を出力する、人工知能応答出力装置10010の構成例について説明する。
【0028】
人工知能応答出力装置10010は、表示部10011、制御部1110、メモリ1109、不揮発性メモリ1108、外部電源入力インタフェース1111、操作入力部1107、電源1106、二次電池1112、ストレージ部1170、映像制御部1160、姿勢センサ1113、通信部1132、音声出力部1140、マイク1139、映像信号入力部1131、音声信号入力部1133、撮像部1180、等を備えている。人工知能応答出力装置10010は、例えば、いわゆるモニタやテレビなどの大画面を有するものでもよい。
【0029】
表示部10011は、平面ディスプレイでもよく、背面から映像を投影するスクリーンでもよく、光学像を空中に結像する空中浮遊映像を表示するものでもよい。表示部10011はが平面ディスプレイの場合は、液晶パネルとバックライトを有する液晶ディスプレイでもよい。また、表示部10011は、プラズマディスプレイでもよい。表示部10011は、画素が自発光する有機ELディスプレイでもよい。表示部10011がパネルの場合は、表示パネルと称してもよい。表示部10011にタッチ操作入力センサを設け、ユーザ230の指によるタッチ操作入力を受け付けるように構成してもよい。この場合、表示部10011はタッチパネルとして構成してもよい。当該タッチパネルを介したユーザの操作入力により、人工知能応答出力装置10010は、人工知能である大規模言語モデルへの指示文(プロンプト)の元となるユーザ入力を取得することができる。
【0030】
通信部1132は、Wi―Fi方式の通信インタフェース、Bluetooth(登録商標)方式の通信インタフェース、4G、5Gなどの移動体通信インタフェースなどで構成すればよい。これらの通信方式を用いて、人工知能応答出力装置10010の通信部1132は、インターネット19000に接続された通信装置19011と通信可能である。なお、通信部1132と通信装置19011までの通信経路において、有線の部分と無線の部分があってもよいし、ルータや中継器を経由してもよい。有線の場合は、通信部1132は、ハードウェアとしてイーサネットの接続インタフェースを有してLAN方式の通信方式を用いて通信を行ってもよい。これにより、人工知能応答出力装置10010はインターネット19000に接続された各種サーバと通信可能である。
【0031】
人工知能応答出力装置10010にはCPUなどの制御部1110およびメモリ1109が備えられており、当該制御部1110は、表示部10011や通信部1132などを制御する。
【0032】
電源1106は、外部から外部電源入力インタフェース1111を介して入力されるAC電流をDC電流に変換し、人工知能応答出力装置10010の各部にそれぞれ必要なDC電流を供給する。二次電池1112は、電源1106から供給される電力を蓄電する。また、二次電池1112は、外部電源入力インタフェース1111を介して、外部から電力が供給されない場合に、電力を必要とする各部に対して電力を供給する。
【0033】
操作入力部1107は、例えば操作ボタンや、リモートコントローラ等の信号受信部または赤外光受光部であり、表示部10011のタッチ操作入力センサへのユーザによるタッチ操作とは異なる操作についての信号を入力する。表示部10011のタッチ操作入力センサをタッチ操作するユーザとは別に、操作入力部1107は、例えば管理者が人工知能応答出力装置10010を操作するために用いられてもよい。当該操作入力部1107を介したユーザの操作入力により、人工知能応答出力装置10010は、人工知能である大規模言語モデルへの指示文(プロンプト)の元となるユーザ入力を取得することができる。なお、表示部10011のタッチ操作入力センサも前記操作入力部1107の一部として含む構成とする変形例もあり得る。
【0034】
映像信号入力部1131は、外部の映像出力装置を接続して映像データを入力する。映像信号入力部1131は、様々なデジタル映像入力インタフェースが考えられる。例えば、HDMI(登録商標)(High―Definition Multimedia Interface)規格の映像入力インタフェース、DVI(Digital Visual Interface)規格の映像入力インタフェース、またはDisplayPort規格の映像入力インタフェースなどで構成すればよい。または、アナログRGBや、コンポジットビデオなどのアナログ映像入力インタフェースを設けてもよい。映像信号入力部1131は、各種USBインタフェースなどでもよい。
【0035】
音声信号入力部1133は、外部の音声出力装置を接続して音声データを入力する。音声信号入力部1133は、HDMI規格の音声入力インタフェース、光デジタル端子インタフェース、または、同軸デジタル端子インタフェース、などで構成すればよい。音声信号入力部1133は、各種USBインタフェースなどでもよい。HDMI規格のインタフェースの場合は、映像信号入力部1131と音声信号入力部1133とは、端子およびケーブルが一体化したインタフェースとして構成されてもよい。
【0036】
音声出力部1140は、音声信号入力部1133に入力された音声データに基づいた音声を出力することが可能である。音声出力部1140は、ストレージ部1170に格納されている音声データに基づいた音声を出力することも可能である。音声出力部1140は、スピーカで構成してもよい。また、音声出力部1140は、内蔵の操作音やエラー警告音を出力してもよい。または、HDMI規格に規定されるAudio Return Channel機能のように、外部機器にデジタル信号として音声信号を出力する構成を音声出力部1140としてもよい。または、ヘッドホンなどの外部機器にアナログ信号として音声信号を出力する構成を音声出力部1140としてもよい。
【0037】
マイク1039は、人工知能応答出力装置10010の周辺の音を収音し、信号に変換して音声信号を生成するマイクである。ユーザの声など人物の声をマイクが収録して、生成した音声信号を後述する制御部1110が音声認識処理を行って、当該音声信号から文字情報を取得するように構成してもよい。当該マイク1139からの音声入力により、人工知能応答出力装置10010は、人工知能である大規模言語モデルへの指示文(プロンプト)の元となるユーザ入力を取得することができる。
【0038】
撮像部1180は、イメージセンサを有するカメラである。人工知能応答出力装置10010の表示部10011側の前面にカメラを設けてもよく、表示部10011側の背面にカメラを設けてもよい。前面のカメラと背面のカメラの両者を設けてもよい。本実施例では、撮像部1180は、前面のカメラと背面のカメラの両者を有するものとして説明する。
【0039】
ストレージ部1170は、映像データ、画像データ、音声データ等の各種データなどの各種情報を記録する記憶装置である。ストレージ部1170は、ハードディスクドライブ(HDD)などの磁気記録媒体記録装置や、ソリッドステートドライブ(SSD)などの半導体素子メモリで構成してもよい。ストレージ部1170には、例えば、製品出荷時に予め映像データ、画像データ、音声データ等の各種データ等の各種情報が記録されていてもよい。また、ストレージ部1170は、通信部1132を介して外部機器や外部のサーバ等から取得した映像データ、画像データ、音声データ等の各種データ等の各種情報を記録してもよい。ストレージ部1170に記録された映像データ、画像データ等は、表示部10011に出力される。ストレージ部1170に記録された映像データ、画像データ等を、通信部1132を介して外部機器や外部のサーバ等に出力してもよい。
【0040】
映像制御部1160は、表示部10011に入力する映像信号に関する各種制御を行う。映像制御部1160は、映像処理回路と称してもよく、例えば、ASIC、FPGA、映像用プロセッサなどのハードウェアで構成されてもよい。なお、映像制御部1160は、映像処理部、画像処理部と称してもよい。映像制御部1160は、例えば、メモリ1109に記憶させる映像信号と、映像信号入力部1131に入力された映像信号(映像データ)等のうち、どの映像信号を表示部10011に入力するかといった映像切り替えの制御等を行う。また、映像制御部1160は、映像信号入力部1131から入力された映像信号やメモリ1109に記憶させる映像信号等に対して画像処理を行う制御を行ってもよい。画像処理としては、例えば、画像の拡大、縮小、変形等を行うスケーリング処理、輝度を変更するブライト調整処理、画像のコントラストカーブを変更するコントラスト調整処理、画像を光の成分に分解して成分ごとの重みづけを変更するレティネックス処理等がある。
【0041】
姿勢センサ1113は、重力センサまたは加速度センサ、またはこれらの組み合わせにより構成されるセンサであり、人工知能応答出力装置10010の姿勢を検出することができる。姿勢センサ1113の姿勢検出結果に基づいて、制御部1110が、接続される各部の動作を制御してもよい。
【0042】
不揮発性メモリ1108は、人工知能応答出力装置10010で用いる各種データを格納する。不揮発性メモリ1108に格納されるデータには、例えば、人工知能応答出力装置10010の表示部10011に表示する各種操作用のデータ、表示アイコン、ユーザの操作が操作するためのオブジェクトのデータやレイアウト情報等が含まれる。メモリ1109は、表示部10011に表示する映像データや装置の制御用データ等を記憶する。制御部1110がストレージ部1170から各種ソフトウェアを読み出して、メモリ1109に展開して記憶してもよい。
【0043】
ローカルLLM処理部10028は、大規模言語モデル(LLM)を保持できるメモリを備え、制御部1110の制御にもとづいて、大規模言語モデルの推論を実行できる。ハードウェアとしてはいわゆるGPU(Graphics Processing Unit)などで構成すればよい。ローカルLLM処理部10028は、推論のみならず、学習を行ってもよい。なお、人工知能応答出力装置10010のローカル環境での大規模言語モデルの推論の実行が不要な場合などは必ずしも、ローカルLLM処理部10028を要しない。
【0044】
制御部1110は、接続される各部の動作を制御する。また、制御部1110は、メモリ1109に記憶されるプログラムと協働して、人工知能応答出力装置10010内の各部から取得した情報に基づく演算処理を行ってもよい。制御部1110による制御状態には、例えば、ローカルLLM処理部10028の大規模言語モデルからの応答や、通信部1132を介して取得した、大規模言語モデルサーバ19001の大規模言語モデルまたはマルチモーダルな大規模言語モデルサーバ20001のマルチモーダルな大規模言語モデル大規模言語モデルからの応答を、表示部10011またはスピーカ等である音声出力部1140を介して出力する状態がある。
【0045】
なお、上述のタッチパネル、マイク1139または操作入力部1107を介してユーザから入力があった場合に、当該入力にもとづいて指示文を生成し、人工知能応答出力装置10010が備えるローカルLLM処理部10028のローカルの大規模言語モデル、大規模言語モデルサーバ19001が備える大規模言語モデル、または大規模言語モデルサーバ20001が備えるマルチモーダルな大規模言語モデルへ送信し、これらの大規模言語モデルから応答を取得する制御は、いずれも制御部1110が行えばよい。
【0046】
また、ストレージ部1170には、人工知能応答出力装置10010の指示文の応答として定型文を出力するための応答定型文データベース(応答定型文DBと表記してもよい)を格納してもよい。制御部1110が当該応答定型文データベースに格納されるデータを用いて出力する応答を生成する制御を行えばよい。図1Cに応答定型文データベースの一例を示す。図1Cの例では、条件番号が付された各条件について、人工知能応答出力装置10010が出力する定型文の応答が格納されている。例えば、条件番号1のように、上述のタッチパネル、マイク1139または操作入力部1107を介してユーザから「おはようございます」が入力された場合、応答定型文として「おはようございます」または「今日は〇月〇日ですね。」を用いて応答を出力すればよい。「〇月〇日」など〇の部分は、人工知能応答出力装置10010が有するメモリ1109などに格納される情報を用いて生成すればよい。
【0047】
また、図1Cに示すデータベースにおける応答定型文の例において、/で区切られた複数の応答定型文が格納されている場合は、制御部1110は、乱数などを用いてランダムに、いずれかの応答定型文を選択して応答が出力されるように制御すればよい。このようにすると、同一の条件における応答が単調になるという状況を解消して改善することができる。条件番号2、3、および4の例についても、条件番号1の例の説明と同様である。図1Cに示される各例の条件内容に対して、図1Cに示される各例の応答定型文を用いた出力をするように、制御部1110が制御を行えばよい。
【0048】
次に、図1Cに示される条件番号5の例について説明する。条件番号5は、タッチパネル、マイク1139または操作入力部1107を介して取得したユーザ入力について、制御部1110が自然言語として意味が理解できなかった場合またはユーザ入力に明らかに文法の誤りがある場合に、制御部1110が応答定型文として「ちょっと聞き取れませんでした」または「それについてはわからないかもしれません」を用いて応答を出力する制御を行う例である。このように応答することでユーザに再度の入力を促すことができ、修正されたユーザ入力を待つことができる。
【0049】
次に、図1Cに示される条件番号6の例について説明する。条件番号6は、図1Bに示す人工知能応答出力装置10010を構成する各部のいずれかの部においてエラー(異常状態)であることを制御部1110が検出している状態で、タッチパネル、マイク1139または操作入力部1107を介してユーザ入力があった場合の例である。この場合、制御部1110は応答定型文として「調子が悪いみたいです」を用いて応答を出力する制御を行う。このように応答することでユーザに人工知能応答出力装置10010が不調であることを説明することができ、ユーザにエラー対応などを促すことができる。
【0050】
人工知能応答出力装置10010は、人工知能応答出力装置10010が備えるローカルの大規模言語モデル、大規模言語モデルサーバ19001が備える大規模言語モデル、および大規模言語モデルサーバ20001が備えるマルチモーダルな大規模言語モデル、などの大規模言語モデルの応答に替えて、図1Cを用いて説明した応答定型文データベース(応答定型文DB)を用いた応答を出力してもよい。または、これらの大規模言語モデルの応答と応答定型文データベース(応答定型文DB)を用いた応答を組み合わせた応答を出力してもよい。
【0051】
なお、以上説明した図1Cの応答定型文データベース(応答定型文DB)はストレージ部1170に格納され、人工知能応答出力装置10010の制御部1110がこれを用いればよい。しかしながら、図1Cに示す応答定型文データベース(応答定型文DB)を大規模言語モデルサーバ19001側または大規模言語モデルサーバ20001側に備えてもよい。この場合は、大規模言語モデルサーバ19001が有する制御部または大規模言語モデルサーバ20001が有する制御部が、当該応答定型文データベース(応答定型文DB)を用いた応答を生成すればよい。大規模言語モデルサーバ19001が有する制御部または大規模言語モデルサーバ20001が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、応答定型文データベース(応答定型文DB)を用いて生成した応答を、人工知能応答出力装置10010へ送信すればよい。このようにすれば、人工知能応答出力装置10010に応答定型文データベース(応答定型文DB)が備えられていない場合でも、応答定型文データベース(応答定型文DB)を用いた応答の生成が可能となる。
【0052】
なお、上記の説明では、人工知能応答出力装置10010は固定画素を用いた表示画面の表示パネルを有すると説明した。当該概念には、固定画素を用いた表示画面の表示パネルのあとに投射光学系を設けて、当該表示画面の表示パネルの映像の光学像をスクリーンや壁に投射する、投射型映像表示装置(プロジェクタ)を含んでもよい。
【0053】
なお、図1Aおよび図1Bの例では、人工知能応答出力装置10010が表示部10011を備える例を説明した。しかしながら、本発明の実施例にかかる人工知能応答出力装置10010は必ずしも表示部10011を備えていなくてもよい。例えば、表示部10011を備えなくとも、人工知能に対するユーザからの入力を音声信号入力部1133またはマイク1139を介して受け付け、当該ユーザからの入力に対する大規模言語モデルなどの人工知能からの応答を音声出力部1140を介して出力するように構成すればよい。
【0054】
以上説明した本発明の実施例1に係る、人工知能応答出力装置および人工知能応答出力システムによれば、大規模言語モデルなどの人工知能に対するユーザからの入力を受け付け、ネットワーク上のサーバ装置が有する大規模言語モデルまたは人工知能応答出力装置自体が有するローカルの大規模言語モデルなどの人工知能の推論により生成された、当該ユーザからの入力に対する応答を出力することが可能となる。
【0055】
<実施例2>
次に、本発明の実施例2として、実施例1で説明した人工知能応答出力装置10010をインターネットに接続し、インターネットを介して、大規模言語モデル人工知能を搭載したサーバと接続して動作を行う例について説明する。本実施例では、実施例1との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。
【0056】
図2Aを用いて、本発明の実施例2の人工知能応答出力装置10010と大規模言語モデルサーバ19001の接続状態の一例について説明する。実施例2に係る人工知能応答出力装置10010はキャラクター会話装置、と呼んでもよい。また、実施例2に係る人工知能応答出力装置10010および大規模言語モデルサーバ19001を含むシステムはキャラクター会話システム、と呼んでもよい。人工知能応答出力装置10010が表示する表示部10011にはキャラクター19051の映像が表示されている。キャラクター19051の映像は、仮想空間上のキャラクターの3Dモデルをレンダリングして生成された映像である。
【0057】
また、本実施例におけるキャラクターは、人工知能である大規模言語モデルのサービスをユーザに提供し、ユーザの助力になることができる。よって、当該キャラクターはユーザにとって人工知能(AI)アシスタントとなることができる。この場合、本実施例におけるキャラクター会話装置や、キャラクター会話システムは、AIアシスタント会話装置、AIアシスタント表示装置、AIアシスタント応答出力装置や、AIアシスタント会話システム、AIアシスタント表示システム、AIアシスタント応答出力システムと称してもよい。
【0058】
図2Aの例では、人工知能応答出力装置10010が備える音声出力部1140はスピーカで構成されている。また、人工知能応答出力装置10010がマイク1139を備え、ユーザの声を収音できる。人工知能応答出力装置10010は、通信部1132を介して、インターネット19000に接続された通信装置19011と通信可能である。図2Aの例では、通信部1132と通信装置19011との通信は無線の例を示しているが、有線通信でも構わない。通信部1132からインターネット19000までの通信経路において、有線の部分と無線の部分があっても構わない。人工知能応答出力装置10010は、通信装置19011およびインターネット19000を介して、大規模言語モデルサーバ19001と通信可能である。また、人工知能応答出力装置10010は、通信装置19011およびインターネット19000を介して、大規模言語モデルサーバ19001と異なる第2のサーバ19002と通信可能である。人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含めた構成を一つのシステムとして考えてもよい。
【0059】
次に、図2Bを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。なお、図2Bでは、図2Aに示したインターネット19000等の通信経路の図示は省略した。図2Bでは、人工知能応答出力装置10010のユーザ230も図示されている。
【0060】
ここで、人工知能応答出力装置10010の動作の一連の流れを説明する。なお、人工知能応答出力装置10010は、ストレージ部1170などに格納しているキャラクター動作プログラムをメモリ1109に展開し、当該キャラクター動作プログラムを制御部1110が実行することにより、以下に説明する各種処理が実現可能となる。
【0061】
まず、人工知能応答出力装置10010はマイク1139を備えており、ユーザ230がキャラクター19051に話しかけると、そのユーザの声(ユーザからの言葉)をマイク1139で収音し、音声信号に変換する。ここで、制御部1110により実行されるキャラクター動作プログラムは、当該音声信号からユーザ230が話しかけた言葉のテキストを抽出する。当該テキストは自然言語である。なお、ユーザ230が話しかけた言葉のテキストの抽出はすべての言葉を対象に継続して行ってもよいが、トリガーとなるキーワードの後の所定期間にユーザから言葉が発せられた場合に開始してもよい。例えば、トリガーとなるキーワードとは、ユーザから「ハロー」に続けてキャラクター名が発せられた場合などでよい。例えば、キャラクター19051の名前が「Koto」だとすると、「ハロー、Koto!」をトリガーとなるキーワードとすればよい。
【0062】
人工知能応答出力装置10010のキャラクター動作プログラムは、ユーザ230が話しかけた言葉のテキストにもとづいて、指示文(プロンプト)を作成し、APIを用いて当該指示文を大規模言語モデルサーバ19001へ送信する。ここで、指示文は、マークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはJSONなどの所定のスクリプトのオブジェクト記法、などにより記載された情報が格納されたメタデータなどでよい。当該指示文には、主たるメッセージとして自然言語のテキスト情報が格納されている。人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される指示文の種類としては、初期設定などの指示を格納する設定指示文と、ユーザからの指示を反映するユーザ指示文とがある。指示文が設定指示文であるかユーザ指示文であるかを識別する種類識別情報を、当該指示文の主たるメッセージ以外の部分に格納しておいてもよい。人工知能応答出力装置10010のキャラクター動作プログラムが、ユーザ230が話しかけた言葉のテキストにもとづいて指示文(プロンプト)を作成するときには、ユーザ指示文を作成し、大規模言語モデルサーバ19001に送信する。
【0063】
次に、大規模言語モデルサーバ19001の人工知能の大規模言語モデルは、人工知能応答出力装置10010から送信された指示文にもとづいて、推論を実行し、その結果に基づいて、自然言語のテキスト情報を含む応答を生成する。大規模言語モデルサーバ19001は、APIを用いて、当該応答を人工知能応答出力装置10010へ送信する。当該応答には、主たるメッセージとして自然言語のテキスト情報が格納されている。ここで、当該応答は、前述の指示文と同じフォーマットの記法(マークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはJSONなどの所定のスクリプトのオブジェクト記法、など)により記載された情報が格納されたメタデータでもよい。当該応答において、前述の指示文と同じフォーマットを用いる場合には、前述の初期設定指示文と、ユーザ指示文とは異なる種類の情報であることを示すために種類識別情報を、主たるメッセージ以外の部分に格納してもよい。例えば、大規模言語モデルからの回答文であることを示す情報を格納するなどである。
【0064】
次に、人工知能応答出力装置10010は、大規模言語モデルサーバ19001からの応答を受信し、当該応答に主たるメッセージとして格納されている自然言語のテキスト情報を抽出する。人工知能応答出力装置10010のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、音声合成技術を用いてユーザへの回答となる自然言語の音声を生成して、あたかもキャラクター19051の声として聞こえるように、スピーカである音声出力部1140から出力する。この処理をキャラクターの「発話」と表現してもよい。
【0065】
以上説明した、人工知能応答出力装置10010および大規模言語モデルサーバ19001の処理により、ユーザ230からの言葉に対するキャラクター19051の応答音声の具体的な一例を、図2Cの会話例1~5に示す。このように、キャラクター19051があたかも実在する人物かのように、ユーザ230は会話を行うことができる。
【0066】
以上説明した、図2Bの人工知能応答出力装置10010、または人工知能応答出力装置10010を含むシステムによれば、学習が膨大なデータ、計算資源が必要な大規模言語モデル自体を、人工知能応答出力装置10010自体に搭載する必要はない。そのうえで、APIを介して、大規模言語モデルの高度な自然言語処理の能力を利用することができ、ユーザがキャラクターに話しかけた場合に、ユーザへより好適な回答を行い、より好適な会話を行うことが可能となる。
【0067】
次に、図2Dを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Dは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。
【0068】
また、図2Dでは、表示の設定指示文、ユーザ指示文1巡目とその応答からユーザ指示文4巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。
【0069】
図2Dに示すように、設定指示文により、大規模言語モデルサーバ19001の人工知能の大規模言語モデルに、大規模言語モデル自体の名前や、演じるべき役割、会話の特徴などを、初期設定の指示することができる。また、ユーザの名前も初期設定として理解させることができる。これにより、大規模言語モデルは、当該役割を守って1巡目以降の応答を生成する。すると、この1巡目以降の応答にもとづくキャラクター19051の音声を聞いたユーザからすると、あたかもキャラクター19051が設定指示文に記載された人物の設定や性格のように感じられる。また、本実施例に係る大規模言語モデルサーバ19001は、一連の会話が終了するまで会話の内容を記憶するメモリを備えており、一連のユーザ指示文とその応答を記憶したうえで、応答を生成するように構成されている。これにより、図2Dのような会話を実現できる。
【0070】
次に、図2Eを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Eは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。
【0071】
図2Eは、図2Dに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合の一例を示している。図2Eでは、ユーザ指示文1巡目とその応答からユーザ指示文3巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。
【0072】
ここで、「一連の会話の継続」の「終了」とは、所定の条件を満たした場合に、大規模言語モデルサーバ19001が、一連の会話が継続しているときに保持していた会話の記憶を、大規模言語モデルサーバ19001から消去する処理である。所定の条件の一例は、例えば、人工知能応答出力装置10010から指示文により大規模言語モデルサーバ19001へ「一連の会話の継続」の「終了」を指示した場合が挙げられる。また、所定の条件の別の一例は、例えば、当該一連の会話についての人工知能応答出力装置10010から大規模言語モデルサーバ19001への指示文の送信が無くなって所定時間以上経った場合(タイムアウト)が挙げられる。また、人工知能応答出力装置10010と大規模言語モデルサーバ19001との接続において、認証処理を行ったうえで、上記指示文と応答のやり取りを行っているときに通信切断や人工知能応答出力装置10010の電源オフ(OFF)等の要因で認証処理が外れてしまった場合も挙げられる。
【0073】
なお、「一連の会話の継続」が「終了」してしまうと、大規模言語モデルサーバ19001が、一連の会話が継続しているときに保持していた会話の記憶を、大規模言語モデルサーバ19001から消去してしまう。よって、図2Eに示される会話は、図2Dに示した一連の会話後であるにもかかわらず、ユーザ指示文に対するサーバ応答は、図2Dに示した設定指示文に含まれていた、大規模言語モデルに設定したキャラクターとしての名前や、演じるべき役割、会話の特徴、ユーザの名前などを全く記憶していない状態の内容の応答となっている。同様に、図2Eに示される会話は、図2Dに示した一連の会話の記憶も全く無い状態の内容の応答となっている。すなわち、図2Dに示す「一連の会話の継続」の「終了」により、図2Eの会話は、大規模言語モデルサーバ19001の人工知能の大規模言語モデルが初期化された状態から開始されていることになる。
【0074】
これは、ユーザ230にとって、あたかもキャラクター19051が自分との記憶を失ってしまったか、まるで別人のように感じる要因となる。ユーザ230からすると、このキャラクターの応答は違和感を強く感じるものであり、寂しく残念な気持ちになる体験になる。このような動作では、人工知能応答出力装置10010に表示されるキャラクター19051の名前、役割、または会話の特徴、性格などの設定や記憶の同一性が確保できない、という課題があった。
【0075】
次に、図2Fを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Fは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。
【0076】
図2Fは、図2Dに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合の一例を示している。図2Eの処理とは異なり、図2Fの処理では、新たに会話を開始する際に、人工知能応答出力装置10010は、大規模言語モデルサーバ19001への最初の指示文として設定指示文を送信する。当該設定指示文には、図2Dの初期設定の設定指示文と同じ自然言語テキストを格納する。これを再設定テキストと表現してもよい。当該設定指示文には、続けて、過去の会話の履歴を説明する自然言語テキストを格納する。これを会話履歴テキストと表現してもよい。過去の会話の履歴は、図2Dで説明した会話の一連の会話の継続がなされている間に、人工知能応答出力装置10010が、その会話の履歴を自然言語テキスト情報としてストレージ部1170に会話した日時の情報と紐づけて記録しておけばよい。異なる日付の会話がある場合は、それぞれの会話ごとに日時の情報と紐づけて記録し、会話の履歴を蓄積しておけばよい。図2Fのような後日の会話の最初の指示文の設定指示文を生成する際に、ストレージ部1170に記録された会話の自然言語テキスト情報とその会話が行われた日時の情報を読み出して、当該設定指示文の生成に用いればよい。
【0077】
なお、当該設定指示文の生成に過去の会話の履歴の自然言語テキスト情報を用いる場合、大規模言語モデルへ送信するデータであるため、フォーマットはある程度自由に決めて問題無いが、図2Fに示すように、「私は、〇月〇日に以下の話をしました。」、「あなたは、〇月〇日に以下の話をしました。」など、自然言語による接頭語や接尾語を用意して、記録されている会話の自然言語テキスト情報と融合させて、当該設定指示文の文面を生成する処理を行えばよい。また、ストレージ部1170から読み出した会話の日時の情報は、上記「〇月〇日」の部分などと融合させて当該設定指示文の文面の一部としてもよい。
【0078】
一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合であっても、以上説明した図2Fの設定指示文の生成処理、および送信処理を行えば、その後のユーザ指示文の応答が以前の会話の時点のキャラクターの役割、名前、会話の特徴、性格、および/または会話の特徴などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。
【0079】
次に、図2Gを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Gは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される指示文の主たるメッセージの自然言語テキストとその応答となるサーバ応答の主たるメッセージの自然言語テキストの一例である。
【0080】
図2Gは、図2Fに示した一連の会話における、最初の設定指示文以降に続くユーザ指示文1巡目とその応答からユーザ指示文3巡目とその応答までの一連の会話の一例を示している。図2Gでは、時系列に指示文と応答のやり取りがなされているものとして示している。設定指示文の内容は図2Fに示したとおりなので、繰り返しの記載は省略する。
【0081】
図2Fの表のサーバ応答の自然言語テキストに示されるように、図2Fに示した設定指示文を用いることにより、大規模言語モデルサーバ19001の大規模言語モデル人工知能によるサーバ応答は、以前の会話の時点のキャラクターの役割、名前、会話の特徴、または性格などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴、または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。なお、これは、ユーザから見てキャラクターが同一視できるというものであるので、ユーザから見たキャラクターの疑似同一性と称してもよい。
【0082】
また、ユーザからすると、当該キャラクターと記憶を共有することができ、より楽しいキャラクター会話体験を得られる。
【0083】
次に、図2Hを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010の動作の一例について説明する。これは、人工知能応答出力装置10010)と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Hは、人工知能応答出力装置10010の表示部10011に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示する動作例を示している。人工知能応答出力装置10010の制御部1110により実行されるキャラクター動作プログラムが、例えば、操作入力部1107に入力される操作入力や表示部10011のタッチ操作入力センサが検出する操作にもとづいて、表示キャラクターの切り替えを行えばよい。
【0084】
図2Hの例では、図2A図2Gの説明で用いたキャラクター19051(名前は「Koto」)に加えて、キャラクター19052(名前は「Tom」)とキャラクター19053(名前は「Necco」)が示されている。キャラクター19051(名前は「Koto」)とキャラクター19052(名前は「Tom」)は人間のキャラクターであり、キャラクター19053(名前は「Necco」)は猫のキャラクターである。表示部10011に表示するキャラクターの表示の切り替えは、キャラクターごとに異なる仮想3D空間上のキャラクターをレンダリングして生成した映像を表示部10011に切り替えて表示すればよい。それぞれのキャラクターの3Dモデルのレンダリング映像の表示を実現するための処理は、例えば、図15Aで説明した第1~第3の処理例のいずれかを行えばよい。また、キャラクターによっては、動的な2D画像を表示してもよい。
【0085】
また、制御部1110により実行されるキャラクター動作プログラムは、表示部10011に表示するキャラクターの表示の切り替えを行うときには、キャラクターそれぞれの「発話」に用いる合成音声も変更することが、好適である。これは、予め、それぞれのキャラクターに対応付けられた声色の合成音声のデータをストレージ部1170に格納しておき、キャラクターの表示の切り替えのときに合成音声変更処理も行えばよい。
【0086】
なお、図2Hの例では、ユーザ230がいずれのキャラクターとも会話することができるように、構成されている。図2Hの人工知能応答出力装置10010では、これらのキャラクターのそれぞれに、異なる役割、名前、会話の特徴、または性格などの設定を行う。また、会話の履歴に基づく各キャラクターの記憶もそれぞれのキャラクターごとに異なるものとして管理する。
【0087】
そこで、人工知能応答出力装置10010は、ストレージ部1170に、図2Iに示すデータベースを構築し、当該データベースにより、キャラクターの設定とキャラクターの会話履歴を管理する。
【0088】
次に、図2Iを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図2Iは、人工知能応答出力装置10010の表示部10011に表示する複数のキャラクターについての、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース19200の説明図である。
【0089】
人工知能応答出力装置10010の制御部1110により実行されるキャラクター動作プログラムが、例えば、ストレージ部1170に当該データベース19200を構築する。キャラクターIDは、人工知能応答出力装置10010で表示可能な複数のキャラクターのそれぞれを識別する識別番号であり、自然数でもよいしアルファベット等を用いてもよい。名前は、人工知能応答出力装置10010で表示可能な複数のキャラクターのそれぞれの名前のデータである。
【0090】
初期設定指示文は、人工知能応答出力装置10010で表示可能な複数のキャラクターのそれぞれのキャラクターの役割、名前、会話の特徴、または性格などの設定を説明する自然言語のテキスト情報である。当該初期設定指示文は、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される設定指示文の主たるデータである自然言語のテキスト情報になるので、そのまま大規模言語モデルサーバ19001の人工知能の大規模言語モデルが読み取れる記載内容とすることが望ましい。
【0091】
会話履歴1、2、…と続く会話履歴は、それぞれのキャラクターとユーザが会話した記録であり、キャラクターごとに切り分けて記録する。当該会話履歴は、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される設定指示文の主たるデータである自然言語のテキスト情報に含められることになるので、そのまま大規模言語モデルサーバ19001の人工知能の大規模言語モデルが読み取れる記載内容とすることが望ましい。
【0092】
人工知能応答出力装置10010の制御部1110により実行されるキャラクター動作プログラムは、人工知能応答出力装置10010の表示部10011に表示するキャラクターを切り替えた場合に、図2Iのデータベース19200を用いて、人工知能応答出力装置10010から大規模言語モデルサーバ19001へ送信される設定指示文の主たるデータである自然言語のテキスト情報に用いる初期設定指示文や会話履歴を、人工知能応答出力装置10010の表示部10011に表示するキャラクターに対応するように選択して切り替える。また、キャラクター動作プログラムは、ユーザ230とキャラクターの会話が行われるたびに、その会話の履歴を、図2Iのデータベース19200のうち、表示部10011に表示するキャラクターに対応する会話履歴の領域に記録していく。
【0093】
人工知能応答出力装置10010の制御部1110により実行されるキャラクター動作プログラムがこのようにデータベース19200を用いることにより、同一の大規模言語モデルサーバ19001の同一の人工知能の大規模言語モデルの応答を利用したキャラクターの発話を用いて、ユーザ230とキャラクターの会話を成立させているにも関わらず、ユーザからすると、キャラクターのそれぞれの性格等の設定の独自性が守られ、かつキャラクターごとに異なる会話の記憶がキャラクターごとに継続していくように感じられる。ユーザからすると、それぞれのキャラクターにおいて、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴、または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。これは、それぞれのキャラクターについて、ユーザから見たキャラクターの疑似同一性が確保できると表現してもよい。
【0094】
したがって、人工知能応答出力装置10010が、表示部10011に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示するように構成する場合も、以上説明したデータベース19200を用いた動作によれば、ユーザからすると、それぞれのキャラクターとの会話から感じる違和感が少なく、また、複数のキャラクターのそれぞれと記憶を共有することができ、より楽しいキャラクター会話体験を得られる。
【0095】
なお、複数のキャラクターの初期設定指示文をユーザが編集できないようにすれば、それぞれのキャラクターの役割、名前、会話の特徴、または性格などの設定は、人工知能応答出力装置10010の提供者や、キャラクターのコンテンツの制作者の意図に近い状態で維持できる。これに対し、キャラクターの初期設定指示文を操作入力部1107などの入力に応じてユーザが編集できるようにしてもよい。この場合は、キャラクターの役割、名前、会話の特徴、または性格などの設定を好みの設定にすることができ、ユーザが独自に設定したキャラクターと会話することが可能となる。この場合、これに合わせてキャラクターの3Dモデルやそのレンダリング映像、およびキャラクターの合成音声の種類を差し替えてもよい。
【0096】
次に、図2Jを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ19001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、人工知能応答出力装置10010によるキャラクター会話装置や、人工知能応答出力装置10010および大規模言語モデルサーバ19001によるキャラクター会話システムによるキャラクター会話サービスをより安価に提供する方法について説明する。
【0097】
図2Bにおいて説明したとおり、大規模言語モデルを特定の用途に限ってこのレベルの人工知能の学習を行うことは非常に資源効率が悪い。そのため、様々な用途に応用できる基盤モデル(Foundation Model)として、大規模な学習を行ってモデルを生成し、API(Application Programming Interface)を介して、様々な端末で利用するのが、資源効率がよい。すると、大規模言語モデルの提供元は、大規模言語モデルの学習に用いられたコストを端末のAPIの利用料金として、端末の利用者から回収することが多い。そのとき、自然言語モデルでは、トークンと呼ばれる文章を区切った言葉の単位の処理数でAPIの利用料金が請求される形式が多い。
【0098】
そこで、本発明の実施例2の人工知能応答出力装置10010においても、人工知能応答出力装置10010と大規模言語モデルサーバ19001の間を、APIを用いて伝送される自然言語のテキスト情報内のトークン数の低減を図ることによって、人工知能応答出力装置10010によるキャラクター会話装置や、人工知能応答出力装置10010および大規模言語モデルサーバ19001によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。
【0099】
例えば、図2Jの表に示すような例1~例3の処理や構成とすることにより、人工知能応答出力装置10010と大規模言語モデルサーバ19001の間を、APIを用いて伝送される自然言語のテキスト情報内のトークン数を、技術的に低減することが可能である。
【0100】
例1は、APIの設定指示文に格納されて伝送される会話履歴テキストのトークン数を低減する方法のうち、文書要約処理を用いて会話履歴テキストを短くし、トークン数を低減する例である。例えば、ストレージ部1170に記録されるキャラクターとの会話履歴の自然言語自体を要約して記録する。文章要約は、次の会話の開始時に行ってもよいが、「一連の会話」の終了時に行った方が、時間的に余裕がある。
【0101】
また、文章要約処理は、大規模言語モデルサーバ19001の大規模言語モデル自体に要約を依頼してもよい。ただし、この場合、トークン数の節約効果は低い。よって、例えば、第2のサーバ19002において、APIを介して、大規模言語モデルサーバ19001の大規模言語モデルよりも安価に自然言語の文章要約処理を提供している場合は、APIを介して第2のサーバ19002に文章要約処理を依頼し、会話履歴の文章要約を大規模言語モデルサーバ19001への設定指示文に格納して伝送すればよい。
【0102】
また、文章要約処理だけであれば、端末側の処理でも可能であり、人工知能応答出力装置10010のメモリ1109に展開する文書要約プログラムを制御部1110が実行して文章要約を行ってもよい。この場合、トークン数の節約効果は高い。また、会話の履歴が長くなってきても、文章要約処理において要約後の文字数の上限を指定すれば、会話の履歴の文章長さの上限が決まるので、トークンの上限値を定めることができ、トークンの節約が可能となる。
【0103】
なお、キャラクターの役割、名前、会話の特徴、または性格などのキャラクター初期設定のテキスト情報は、会話の履歴ほど増加しないので、キャラクターの初期設定指示文のテキスト情報の記載は維持し、会話の履歴のテキスト情報のトークン数の低減を図るのが、効率的であり、好ましい。
【0104】
例1で説明した処理は、制御部1110により実行されるキャラクター動作プログラムが各部を制御して行えばよい。
【0105】
例2は、APIの設定指示文に格納されて伝送される会話履歴テキストのトークン数を低減する他の例である。例えば、ストレージ部1170に記録されるキャラクターとの会話履歴のうち、古い方の履歴から消去してトークン数を低減する。会話履歴の文字数の上限を指定すれば、会話の履歴の文章長さの上限が決まるので、トークンの上限値を定めることができ、トークンの節約が可能となる。または、会話履歴の所定の期間を指定して、当該期間を越えた会話履歴を削除する方法でもよい。この場合も、トークンの節約が可能となる。なお、例2においても、キャラクターの役割、名前、会話の特徴、または性格などのキャラクター初期設定のテキスト情報は、会話の履歴ほど増加しないので、キャラクターの初期設定指示文のテキスト情報の記載は維持し、会話の履歴のテキスト情報のトークン数の低減を図るのが、効率的であり、好ましい。
【0106】
例2で説明した処理は、制御部1110により実行されるキャラクター動作プログラムが各部を制御して行えばよい。
【0107】
例3は、APIを用いた設定指示文の送信頻度を減らしてトークン数を低減する方法である。具体的には、装置電源の立ち上げ後や、表示キャラクターの切り替え後に、表示されるキャラクターの映像設定および合成音声設定が完了した後も、設定指示文の事前送信を行わず、マイク1139で収音したユーザの発声に含まれる自然言語のテキスト情報が、人工知能の大規模言語モデルを用いるべきテキスト情報である、と制御部1110が判定した場合に、初めて設定指示文を大規模言語モデルサーバ19001に送信することで、設定指示文の大規模言語モデルサーバ19001への送信頻度を減らしてトークン数を低減する。
【0108】
具体的には、例えば、装置の電源オン(ON)後や、表示キャラクターの切り替えの操作入力後に、制御部1110により実行されるキャラクター動作プログラムの制御による表示部10011の表示処理により、図2Hのようにキャラクター19051(名前は「Koto」)が表示部10011に表示される。このとき、例えば、キャラクター19051に対応する登場時用の合成音声がストレージ部1170などに格納されて用意されている場合、「おはようございます。Kotoです。」、「こんにちは。Kotoです。」、「こんばんは。Kotoです。」などの登場時用の合成音声を音声出力部1140であるスピーカから出力してもよい。このとき、既に、表示部10011に表示されるキャラクターの映像としてキャラクター19051の映像に設定し、音声出力部1140であるスピーカから出力される合成音声は、キャラクター19051に対応する合成音声に設定する。
【0109】
ここで、既に説明した大規模言語モデルサーバ19001における人工知能の大規模言語モデルの推論処理も、指示文が長くなれば時間がかかる。特に、設定指示文に、過去の会話履歴に関するテキスト情報を含める場合は、指示文のトークン量が多くなるので、特に推論処理時間が長くなる。設定指示文自体およびその応答はユーザ230に出力されない。設定指示文後のユーザ指示文の応答から、キャラクタターの「発話」としての合成音声を音声出力部1140であるスピーカから出力する。すると、設定指示文は事前に人工知能応答出力装置10010から大規模言語モデルサーバ19001に送信して、設定指示文に対する大規模言語モデルの推論処理を事前に完了させておいた方が、ユーザ230がキャラクタター19051に話しかけた後のキャラクタター19051の「発話」の合成音声の出力の応答が早くなるので、一見好適に思える。
【0110】
しかしながら、ユーザ230が言葉を発する前に、大規模言語モデルサーバ19001に送信して、設定指示文に対する大規模言語モデルの推論処理を事前に完了させてしまった場合、例えば、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により人工知能応答出力装置10010の電源をオフ(OFF)してしまう場合や、例えば、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、キャラクタター19051から別のキャラクターへ表示キャラクターを切り替えてしまう場合もあり得る。この場合、事前に設定指示文を大規模言語モデルサーバ19001に送信し、大規模言語モデルの推論処理で処理したトークン数は、無駄に利用料金を浪費した処理トークン数となる。これは、人工知能応答出力装置10010によるキャラクター会話装置や、人工知能応答出力装置10010および大規模言語モデルサーバ19001によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することの、妨げとなる。
【0111】
よって、人工知能応答出力装置10010は、装置の電源オン(ON)後や、表示キャラクターの切り替えの操作入力後に、制御部1110により実行されるキャラクター動作プログラムの制御により、表示部10011に表示されるキャラクターの映像としてキャラクター19051の映像を設定し、音声出力部1140であるスピーカから出力される合成音声をキャラクター19051に対応する合成音声に設定した後でも、ユーザ230がキャラクタター19051に話しかけることを認識する時点まで、設定指示文を大規模言語モデルサーバ19001に送信しない状態を継続することが望ましい。
【0112】
ここで、ユーザ230がキャラクタター19051に話しかけることを認識する時点とは、例えば、図2Bで説明したトリガーとなるキーワードを検出する時点まで、または、ユーザ230が話しかけた言葉のテキストの抽出が行われる時点などでよい。このようにすれば、無駄に利用料金を浪費する処理トークン数を低減することができ、人工知能応答出力装置10010によるキャラクター会話装置や、人工知能応答出力装置10010および大規模言語モデルサーバ19001によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。
【0113】
また、続いて、上述のユーザ230がキャラクタター19051に話しかけることを認識する時点を超えた後でも、例えば、マイク1139で収音したユーザ230の音声から抽出したテキスト情報が、大規模言語モデルの推論処理を必要としないプリセットのキーワードに対応するテキスト情報である場合も、設定指示文を大規模言語モデルサーバ19001に送信しない状態を継続することが望ましい。具体的には、プリセットのキーワードの例として、「ジャンプしてみて」、「ダンスしてみて」など、ユーザ230がキャラクタター19051に対して、キャラクタター19051が動くアニメーションや合成音声を発するなどのリアクションを依頼するキーワードであった場合などが挙げられる。この場合は、制御部1110により実行されるキャラクター動作プログラムが、ストレージ部に格納されるキャラクター19051に対応するモーションデータ、アニメーション映像、および/または当該リアクションに対応する合成音声データを読み出して、これらのデータを用いて、表示部10011に表示する映像の生成処理や、音声出力部1140であるスピーカからの合成音声の出力処理を行えばよい。
【0114】
このような処理は、必ずしも、大規模言語モデルサーバ19001の大規模言語モデルの推論処理を要しない。当該処理の後に、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により人工知能応答出力装置10010の電源をオフ(OFF)してしまう場合や、例えば、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、キャラクタター19051から別のキャラクターへ表示キャラクターを切り替えてしまう場合も、先に設定指示文を大規模言語モデルサーバ19001に送信し、大規模言語モデルの推論処理で処理してしまうと、その処理のトークン数は無駄に利用料金を浪費した処理トークン数となってしまう。
【0115】
よって、上述のユーザ230がキャラクタター19051に話しかけることを認識する時点を超えた後でも、例えば、マイク1139で収音したユーザ230の音声から抽出したテキスト情報が、大規模言語モデルの推論処理を必要としないプリセットのキーワードに対応するテキスト情報であるか否かを判定する時点までは、設定指示文を大規模言語モデルサーバ19001に送信しない状態を継続することが望ましい。当該判定により、大規模言語モデルの推論処理を必要すると判定された場合に、はじめて、設定指示文を大規模言語モデルサーバ19001に送信し、大規模言語モデルの推論処理を進めることが望ましい。
【0116】
なお、例3で説明した処理は、制御部1110により実行されるキャラクター動作プログラムが各部を制御して行えばよい。
【0117】
以上説明した、図2Jの各例による大規模言語モデルの処理トークン数の低減(節約)方法によれば、人工知能応答出力装置10010によるキャラクター会話装置や、人工知能応答出力装置10010および大規模言語モデルサーバ19001によるキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供することができる。
【0118】
次に、図2Kを用いて、本発明の実施例2のキャラクター会話装置(人工知能応答出力装置10010)の表示の一例について説明する。図2Kの例では、図2A図2Jの各図で説明したユーザからの指示文に対する大規模言語モデルからの応答を、キャラクター会話装置(人工知能応答出力装置10010)の表示部10011に表示する一例を示している。具体的には、大規模言語モデルからの応答であるテキスト10063を、キャラクター19051の映像とともに、表示部10011に表示する例である。大規模言語モデルからの応答であるテキスト10063は、図2Kに示すようにキャラクター19051の映像の手前に重畳して表示してもよい。また、大規模言語モデルからの応答であるテキスト10063は、キャラクター19051の映像と重畳せずに、キャラクター19051の映像ともに表示してもよい。
【0119】
図2Kの表示は一例であるが、例えば、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、キャラクター会話装置(人工知能応答出力装置10010)の音声出力部1140の音声出力のボリュームを最小に調整するまたは音声出力をOFFに設定した場合などは、ユーザ230は音声で大規模言語モデルからの応答を確認することができない。
【0120】
そこで、この場合、制御部1110は、大規模言語モデルからの応答であるテキスト10063を図2Kに示すように、キャラクター19051の映像ともに表示する表示モードを開始するように制御してもよい。このようにすれば、音声出力を控えたい場合でも、ユーザ230がより好適に、キャラクター会話装置(人工知能応答出力装置10010)を使用することができる。なお、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、大規模言語モデルからの応答であるテキスト10063をキャラクター19051の映像ともに表示する表示モードについてのON/OFFを手動で切り替え可能に構成してもよい。
【0121】
次に、図2Hおよび図2Iで説明した、複数のキャラクターを表示可能なキャラクター会話装置(人工知能応答出力装置10010)における、応答定型文データベース(応答定型文DB)の例について、図2Lを用いて説明する。図2Lの例では、条件番号および条件内容は、図1Cと同一である。これらの条件に対し、図2Lの例では、複数のキャラクターのそれぞれについて、個別の応答定型文が設定されている。例えば、図2Hおよび図2Iで説明した、キャラクター1:Koto、キャラクター2:Tom、キャラクター3:Necco、の3つのキャラクターのそれぞれについて、各条件に対する応答定型文が格納されている。応答定型文の出力制御については、図1Cと同様であるため、繰り返しの説明は省略する。
【0122】
図2Lの例では、制御部1110は、応答定型文データベース(応答定型文DB)から、キャラクター会話装置(人工知能応答出力装置10010)において表示されているキャラクターと、現在の条件とにもとづいて、対応する応答定型文を選択し、キャラクターが発する応答としての出力制御に用いればよい。例えば、図2Lの応答定型文データベース(応答定型文DB)の例では、同一の条件であっても、応答定型文はキャラクターの個性に対応した表現または内容にそれぞれ変えられている。これにより、キャラクター会話装置(人工知能応答出力装置10010)は表示されているキャラクターの個性に対応した会話をユーザに提供することができる。ユーザは、それぞれのキャラクターがより一貫性のある個性を持った存在のように感じることができる。これにより、複数のキャラクターに、より実在感を持たせるキャラクター会話装置(人工知能応答出力装置10010)を実現できる。
【0123】
なお、以上説明した図2Lの応答定型文データベース(応答定型文DB)はストレージ部1170に格納され、人工知能応答出力装置10010の制御部1110がこれを用いればよい。しかしながら、図2Lに示す応答定型文データベース(応答定型文DB)を大規模言語モデルサーバ19001側に備えてもよい。この場合は、大規模言語モデルサーバ19001が有する制御部が、当該応答定型文データベース(応答定型文DB)を用いた応答を生成すればよい。大規模言語モデルサーバ19001が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、当該応答定型文データベース(応答定型文DB)を用いて生成した応答を人工知能応答出力装置10010へ送信すればよい。このようにすれば、人工知能応答出力装置10010に応答定型文データベース(応答定型文DB)が備えられていない場合でも、応答定型文データベース(応答定型文DB)を用いた応答の生成が可能となる。
【0124】
以上説明した、実施例2に係るキャラクター会話装置や、キャラクター会話システムによれば、人工知能応答出力装置10010に表示されるキャラクターとの会話からユーザが感じる違和感をより少なくすることができる。また、実施例2に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクター会話サービスをより安価にユーザに提供することができる。
【0125】
なお、実施例2の以上の説明では、大規模言語モデルとして、大規模言語モデルサーバ19001が有する大規模言語モデルを用いる例を説明した。これに対し、キャラクター会話装置(人工知能応答出力装置10010)が図1Bに示すローカルLLM処理部10028を備えるように構成し、大規模言語モデルサーバ19001が有する大規模言語モデルに変えて、ローカルLLM処理部10028が有する大規模言語モデルを用いてもよい。この場合、実施例2の以上の説明において、大規模言語モデルサーバ19001が有する大規模言語モデルをキャラクター会話装置(人工知能応答出力装置10010)のローカルLLM処理部10028が有する大規模言語モデルに読み替えればよい。
【0126】
この場合も、人工知能応答出力装置10010に表示されるキャラクターとの会話からユーザが感じる違和感をより少なくすることができる。なお、大規模言語モデルサーバ19001が有する大規模言語モデルに変えて、ローカルLLM処理部10028が有する大規模言語モデルを用いる場合は、処理トークン数に応じた利用料金を考慮する必要性は少なくなるが、ローカルLLM処理部10028が有する大規模言語モデルであっても処理トークン数の低減を図ることによって、推論にかかる電力などの消費リソースを低減できる。この場合、より消費電力の少ないキャラクター会話サービスをユーザに提供することができる。
【0127】
なお、実施例2の以上の説明では、キャラクターとの会話履歴をキャラクター会話装置(人工知能応答出力装置10010)のストレージ部1170に記録し保持する例を説明した。これに対し、キャラクターとの会話履歴は、インターネット19000に接続された第2のサーバ19002やその他のクラウドサーバに記録し保持してもよい。この場合、キャラクター会話装置(人工知能応答出力装置10010)は、新たにユーザとキャラクターが会話を始めるときに、当該第2のサーバ19002またはその他のクラウドサーバと通信し、当該キャラクターとユーザの過去の会話履歴を取得(ダウンロード)し、キャラクター会話装置(人工知能応答出力装置10010)のストレージ部1170やメモリ1109に保持して、大規模言語モデルへの指示文の作成に用いればよい。大規模言語モデルへの指示文を過去の会話履歴を用いる具体的な方法は実施例2の各図で説明した通りであるので、繰り返しの説明は省略する。
【0128】
また、キャラクター会話装置(人工知能応答出力装置10010)は、ユーザとキャラクターの会話が行われる度、または、ユーザとキャラクターの会話が終了した時点など、所定の時点に当該時点までのキャラクターの会話履歴を上述の第2のサーバ19002またはその他のクラウドサーバに対して送信(アップロード)すればよい。すなわち、キャラクター会話装置(人工知能応答出力装置10010)がキャラクターとの会話履歴を第2のサーバ19002またはその他のクラウドサーバに対して所定のタイミングでアップロードし、キャラクター会話装置(人工知能応答出力装置10010)が、ユーザがキャラクターと会話を開始するときに、第2のサーバ19002またはその他のクラウドサーバから最新の会話履歴をダウンロードし、大規模言語モデルへの指示文の生成に用いればよい。このようにすれば、ユーザが前日に使用したキャラクター会話装置(人工知能応答出力装置10010)と、ユーザが今から使用するキャラクター会話装置(人工知能応答出力装置10010)とが異なる個体の装置であって同一のキャラクターを表示可能であり、当該異なる個体の装置間の同一キャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話から当該キャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。
【0129】
以上説明した、キャラクター会話装置(人工知能応答出力装置10010)が、キャラクターとの会話履歴を第2のサーバ19002またはその他のクラウドサーバに対してアップロードおよびダウンロードして、キャラクターの記憶を疑似的に引き継ぐ処理は、図2H図2Iで説明した複数のキャラクターの会話履歴を含むデータベース19200を扱う場合でも有効である。すなわち、図2Iで説明したデータベース19200を第2のサーバ19002またはその他のクラウドサーバに対してアップロードおよびダウンロードするように構成すれば、1つのキャラクターのみならず、複数のキャラクターについて、異なる個体の装置間において、複数のキャラクターのそれぞれのキャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話からそれぞれのキャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。
【0130】
<実施例3>
次に、本発明の実施例3は、実施例2の各図で説明したキャラクター会話装置(人工知能応答出力装置10010)およびキャラクター会話システムを改良したものである。本実施例では、実施例2との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。
【0131】
実施例2と同様、実施例3におけるキャラクターは、人工知能である大規模言語モデルのサービスをユーザに提供し、ユーザの助力になることができる。よって、当該キャラクターはユーザにとって人工知能(AI)アシスタントとなることができる。この場合、本実施例におけるキャラクター会話装置や、キャラクター会話システムは、AIアシスタント会話装置、AIアシスタント表示装置、AIアシスタント応答出力装置や、AIアシスタント会話システム、AIアシスタント表示システム、AIアシスタント応答出力システムと称してもよい。
【0132】
図3Aを用いて、本発明の実施例3のキャラクター会話装置とキャラクター会話システムの一例について説明する。実施例3のキャラクター会話システムでは、図2Aの大規模言語モデルサーバ19001に替えて大規模言語モデルサーバ20001が備えられ、インターネット19000に接続されている。
【0133】
ここで、大規模言語モデルサーバ20001は、大規模言語モデル人工知能を搭載したサーバであるが、大規模言語モデルサーバ19001で処理可能であった自然言語のテキスト情報に加えて自然言語のテキスト情報以外の種類の情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能である。
【0134】
また、キャラクター会話装置である人工知能応答出力装置10010は、一例として、実施例2のキャラクター会話装置(人工知能応答出力装置10010)と同等の構成を有するものとして説明する。
【0135】
実施例3においても、キャラクター会話装置である人工知能応答出力装置10010は、APIを用いて、インターネット19000を介して大規模言語モデルサーバ20001の大規模言語モデルと通信可能である。
【0136】
実施例3のキャラクター会話システムには、ユーザ230が使用するモバイル情報処理端末20010が存在する。モバイル情報処理端末20010はいわゆるスマートフォンやタブレット情報処理端末である。
【0137】
ここで、図3Bを用いて、モバイル情報処理端末20010の一例について説明する。モバイル情報処理端末20010は、タッチ操作入力パネルである表示パネル20011、制御部20012、外部電源入力インタフェース20013、電源20014、二次電池20015、ストレージ部20016、映像制御部20017、姿勢センサ20018、通信部20020、音声出力部20021、マイク20022、映像信号入力部20023、音声信号入力部20024、撮像部20025、等を備えている。
【0138】
表示パネル20011は、タッチ操作入力センサが備えられており、ユーザ230の指によるタッチ操作入力を受け付けることができる。表示パネル20011は、液晶パネルや有機ELパネルで表示を行うものであり、映像を表示することができる。表示パネル20011は表示部と称してもよい。
【0139】
通信部20020は、Wi―Fi方式の通信インタフェース、Bluetooth方式の通信インタフェース、4G、5Gなどの移動体通信インタフェースなどで構成すればよい。これらの通信方式を用いて、モバイル情報処理端末20010の通信部20020は、キャラクター会話装置(人工知能応答出力装置10010)の通信部1132と通信可能である。モバイル情報処理端末20010にはCPUなどの制御部およびメモリが備えられており、当該制御部は、表示パネル20011や通信部20020などを制御する。また、通信部20020のいずれかの通信方式により、通信部20020はインターネット19000に接続された通信装置19011と通信可能である。これにより、モバイル情報処理端末20010はインターネット19000に接続された各種サーバと通信可能である。
【0140】
電源20014は、外部から外部電源入力インタフェース20013を介して入力されるAC電流をDC電流に変換し、モバイル情報処理端末20010の各部にそれぞれ必要なDC電流を供給する。二次電池20015は、電源20014から供給される電力を蓄電する。また、二次電池20015は、外部電源入力インタフェース20013を介して、外部から電力が供給されない場合に、電力を必要とする各部に対して電力を供給する。
【0141】
映像信号入力部20023は、外部の映像出力装置を接続して映像データを入力する。映像信号入力部20023は、様々なデジタル映像入力インタフェースが考えられる。例えば、HDMI(登録商標)(High―Definition Multimedia Interface)規格の映像入力インタフェース、DVI(Digital Visual Interface)規格の映像入力インタフェース、またはDisplayPort規格の映像入力インタフェースなどで構成すればよい。または、アナログRGBや、コンポジットビデオなどのアナログ映像入力インタフェースを設けてもよい。映像信号入力部20023は、各種USBインタフェースなどでもよい。
【0142】
音声信号入力部20024は、外部の音声出力装置を接続して音声データを入力する。音声信号入力部20024は、HDMI規格の音声入力インタフェース、光デジタル端子インタフェース、または、同軸デジタル端子インタフェース、などで構成すればよい。音声信号入力部20024は、各種USBインタフェースなどでもよい。HDMI規格のインタフェースの場合は、映像信号入力部20023と音声信号入力部20024とは、端子およびケーブルが一体化したインタフェースとして構成されてもよい。
【0143】
音声出力部20021は、音声信号入力部20024に入力された音声データに基づいた音声を出力することが可能である。音声出力部20021は、ストレージ部20016に格納されている音声データに基づいた音声を出力することも可能である。音声出力部20021は、スピーカで構成してもよい。また、音声出力部20021は、内蔵の操作音やエラー警告音を出力してもよい。または、HDMI規格に規定されるAudio Return Channel機能のように、外部機器にデジタル信号として出力する構成を音声出力部20021としてもよい。
【0144】
マイク20022は、モバイル情報処理端末20010の周辺の音を収音し、信号に変換して音声信号を生成するマイクである。ユーザの声など人物の声をマイクが収録して、生成した音声信号を後述する制御部20012が音声認識処理を行って、当該音声信号から文字情報を取得するように構成してもよい。
【0145】
撮像部20025は、イメージセンサを有するカメラである。モバイル情報処理端末20010の表示パネル20011側の前面にカメラを設けてもよく、表示パネル20011側の背面にカメラを設けてもよい。前面のカメラと背面のカメラの両者を設けてもよい。本実施例では、撮像部20025は、前面のカメラと背面のカメラの両者を有するものとして説明する。
【0146】
ストレージ部20016は、映像データ、画像データ、音声データ等の各種データなどの各種情報を記録する記憶装置である。ストレージ部20016は、ハードディスクドライブ(HDD)などの磁気記録媒体記録装置や、ソリッドステートドライブ(SSD)などの半導体素子メモリで構成してもよい。ストレージ部20016には、例えば、製品出荷時に予め映像データ、画像データ、音声データ等の各種データ等の各種情報が記録されていてもよい。また、ストレージ部20016は、通信部20020を介して外部機器や外部のサーバ等から取得した映像データ、画像データ、音声データ等の各種データ等の各種情報を記録してもよい。ストレージ部20016に記録された映像データ、画像データ等は、表示パネル20011に出力される。ストレージ部20016に記録された映像データ、画像データ等を、通信部20020を介して外部機器や外部のサーバ等に出力してもよい。
【0147】
映像制御部20017は、表示パネル20011に入力する映像信号に関する各種制御を行う。映像制御部20017は、映像処理回路と称してもよく、例えば、ASIC、FPGA、映像用プロセッサなどのハードウェアで構成されてもよい。なお、映像制御部20017は、映像処理部、画像処理部と称してもよい。映像制御部20017は、例えば、メモリ20026に記憶させる映像信号と、映像信号入力部20023に入力された映像信号(映像データ)等のうち、どの映像信号を表示パネル20011に入力するかといった映像切り替えの制御等を行う。また、映像制御部20017は、映像信号入力部20023から入力された映像信号やメモリ20026に記憶させる映像信号等に対して画像処理を行う制御を行ってもよい。画像処理としては、例えば、画像の拡大、縮小、変形等を行うスケーリング処理、輝度を変更するブライト調整処理、画像のコントラストカーブを変更するコントラスト調整処理、画像を光の成分に分解して成分ごとの重みづけを変更するレティネックス処理等がある。
【0148】
姿勢センサ20018は、重力センサまたは加速度センサ、またはこれらの組み合わせにより構成されるセンサであり、モバイル情報処理端末20010の姿勢を検出することができる。姿勢センサ20018の姿勢検出結果に基づいて、制御部20012が、接続される各部の動作を制御してもよい。
【0149】
不揮発性メモリ20027は、モバイル情報処理端末20010で用いる各種データを格納する。不揮発性メモリ20027に格納されるデータには、例えば、モバイル情報処理端末20010の表示パネル20011に表示する各種操作用のデータ、表示アイコン、ユーザの操作が操作するためのオブジェクトのデータやレイアウト情報等が含まれる。メモリ20026は、表示パネル20011に表示する映像データや装置の制御用データ等を記憶する。制御部20012がストレージ部20016から各種ソフトウェアを読み出して、メモリ20026に展開して記憶してもよい。
【0150】
制御部20012は、接続される各部の動作を制御する。また、制御部20012は、メモリ20026に記憶されるプログラムと協働して、モバイル情報処理端末20010内の各部から取得した情報に基づく演算処理を行ってもよい。
【0151】
次に、図3Cを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。実施例3においても、キャラクター会話装置(人工知能応答出力装置10010)は、ストレージ部1170などに格納しているキャラクター動作プログラムをメモリ1109に展開し、当該キャラクター動作プログラムを制御部1110が実行することにより、以下に説明する各種処理が実現可能となる。
【0152】
実施例2では、キャラクター会話装置(人工知能応答出力装置10010)に対して、ユーザ230が行うアクションは主にユーザ230の声による呼びかけであった。実施例2のキャラクター会話装置(人工知能応答出力装置10010)では、ユーザ230の声をマイクで収音する処理から一連の動作を行っていた。これに対し、実施例3のキャラクター会話装置(人工知能応答出力装置10010)では、実施例2において説明した、キャラクター会話装置(人工知能応答出力装置10010)がユーザ230の声をマイクで収音する処理から行う一連の動作も実行できるものとする。これに加えて、実施例3のキャラクター会話装置(人工知能応答出力装置10010)では、ユーザ230が図1Bの操作入力部1107を介したユーザ操作により、キャラクター会話装置(人工知能応答出力装置10010)に対して、ユーザ230がアクションを行うことができる。ここで、図1Bの操作入力部1107の一例としては、マウス、キーボード、タッチパネルなどが挙げられる。
【0153】
また、実施例3のキャラクター会話装置(人工知能応答出力装置10010)では、ユーザ230が図1Bの表示部10011のタッチ操作入力センサにより検出可能なユーザのタッチ操作により、キャラクター会話装置(人工知能応答出力装置10010)に対して、ユーザ230がアクションを行うことができる。
【0154】
また、ユーザ230が、モバイル情報処理端末20010を操作して、キャラクター会話装置(人工知能応答出力装置10010)に対してモバイル情報処理端末20010から通信を行うことにより、ユーザ230の操作入力をキャラクター会話装置(人工知能応答出力装置10010)に入力することも可能である。
【0155】
また、モバイル情報処理端末20010の表示パネル20011に、ユーザがキャラクター会話装置(人工知能応答出力装置10010)に伝達したい情報を格納した二次元コードなどの情報格納画像を表示させて、当該表示をキャラクター会話装置(人工知能応答出力装置10010)が有する図1Bの撮像部1180が撮像するようにしてもよい。キャラクター会話装置(人工知能応答出力装置10010)の制御部1110が、撮像部1180が撮像した二次元コードなどの情報格納画像から情報を抽出し、当該情報を得てもよい。また、モバイル情報処理端末20010の表示パネル20011に、ユーザがキャラクター会話装置(人工知能応答出力装置10010)に伝達したい画像を表示させて、当該表示をキャラクター会話装置(人工知能応答出力装置10010)が有する図1Bの撮像部1180が撮像するようにしてもよい。キャラクター会話装置(人工知能応答出力装置10010)の制御部1110が、撮像部1180が撮像した画像に対して画像認識処理を行って、当該画像認識処理の結果を取得してもよい。
【0156】
このように、実施例3のキャラクター会話装置(人工知能応答出力装置10010)では、実施例2において説明した、キャラクター会話装置(人工知能応答出力装置10010)よりも、ユーザ230からキャラクター会話装置(人工知能応答出力装置10010)に対して、行い得るアクションの種類が増えている。これにより、実施例3のキャラクター会話装置(人工知能応答出力装置10010)は、ユーザの声以外のユーザ230が行うアクションの結果を取得し、それにもとづいて大規模言語モデルサーバ20001へ送信する指示文(プロンプト)を生成することができる。これにより、大規模言語モデルサーバ20001へ送信する指示文にユーザの声から抽出した自然言語のテキスト情報以外の種類の情報をより好適に含めることができる。ユーザの声から抽出した自然言語のテキスト情報以外の種類の情報とは、例えば、画像、動画、音声などである。
【0157】
次に、本実施例のキャラクター会話装置(人工知能応答出力装置10010)はAPIを用いて指示文を大規模言語モデルサーバ20001へ送信する。本実施例においても、指示文はマークアップ言語のマークアップ形式などのタグを用いた記法や、マークダウン形式などの所定の記号を用いた記法、またはJSONなどの所定のスクリプトのオブジェクト記法、などにより記載された情報が格納されたメタデータなどでよい。本実施例においても、指示文の種類としては、初期設定などの指示を格納する設定指示文と、ユーザからの指示を反映するユーザ指示文とがある。指示文が設定指示文であるかユーザ指示文であるかを識別する種類識別情報を、当該指示文の主たるメッセージ以外の部分に格納しておいてもよい。このとき、指示文には、主たるメッセージとして自然言語のテキスト情報が含められている。さらに、本実施例では、指示文の主たるメッセージに、自然言語のテキスト情報以外に、自然言語のテキスト情報以外の種類の情報として、例えば、画像、動画、または音声などの非自然言語情報源を含めることができる。指示文に非自然言語情報源を含める具体的な方法については後述する。
【0158】
本実施例の大規模言語モデルサーバ20001は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルを有する。大規模言語モデルサーバ20001は、キャラクター会話装置(人工知能応答出力装置10010)から指示文を受信する。当該指示文にもとづいて、マルチモーダルな大規模言語モデルが推論を実行し、推論の結果である自然言語のテキスト情報を含む応答を生成する。ここで、当該大規模言語モデルサーバ20001の人工知能はマルチモーダルな大規模言語モデルであるので、当該応答に、自然言語のテキスト情報に加えて、画像、動画、または音声などの非自然言語情報源を含めることができる。
【0159】
キャラクター会話装置(人工知能応答出力装置10010)は、大規模言語モデルサーバ20001からの応答を受信し、当該応答に主たるメッセージとして格納されている自然言語のテキスト情報および画像、動画、または音声などの非自然言語情報源を抽出する。キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、音声合成技術を用いてユーザへの回答となる自然言語の音声を生成して、あたかも表示画面に表示しているキャラクター19051の声として聞こえるように、スピーカである音声出力部1140から出力してもよい。
【0160】
また、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、前述の応答から抽出した自然言語のテキスト情報にもとづいて、ユーザへの回答となる自然言語の文字を、キャラクター会話装置(人工知能応答出力装置10010)の表示画面に表示してもよい。このとき、当該文字は、キャラクター19051とともに表示してもよく、キャラクター19051の映像に重畳して表示してもよく、キャラクター19051の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部1160が実行すればよい。
【0161】
また、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の画像の情報にもとづいて、ユーザへ提示するために、当該画像をキャラクター会話装置(人工知能応答出力装置10010)の表示画面に表示してもよい。このとき、当該画像は、キャラクター19051とともに表示してもよく、キャラクター19051の映像に重畳して表示してもよく、キャラクター19051の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部1160が実行すればよい。
【0162】
また、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の動画の情報にもとづいて、ユーザへ提示するために、当該動画をキャラクター会話装置(人工知能応答出力装置10010)の表示画面に表示してもよい。このとき、当該動画は、キャラクター19051とともに表示してもよく、キャラクター19051の映像に重畳して表示してもよく、キャラクター19051の映像に替えて表示してもよい。これらの具体的な処理は、映像制御部1160が実行すればよい。
【0163】
また、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、前述の応答から抽出した非自然言語情報源の音声の情報にもとづいて生成した音声をスピーカである音声出力部1140から出力してもよい。
【0164】
以上説明した、図3Cのキャラクター会話装置(人工知能応答出力装置10010)、またはキャラクター会話装置(人工知能応答出力装置10010)と大規模言語モデルサーバ20001とを含むキャラクター会話システムによれば、学習が膨大なデータ、計算資源が必要な大規模言語モデル自体を、キャラクター会話装置(人工知能応答出力装置10010)自体に搭載する必要はない。そのうえで、APIを介して、マルチモーダルな大規模言語モデルの高度な自然言語処理および非自然言語情報処理の能力を利用することができる。ユーザからのキャラクターに対するアクションに対して、自然言語のテキストに基づく回答以外に、非自然言語情報源に基づく回答を行うことができ、より好適な会話を行うことが可能となる。
【0165】
次に、図3Dを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図3Dは、キャラクター会話装置(人工知能応答出力装置10010)から大規模言語モデルサーバ20001へ送信される指示文の主たるメッセージの自然言語テキストと画像などの非自然言語情報源の例と、その応答となるサーバ応答の主たるメッセージの自然言語テキストと画像などの非自然言語情報源の一例である。本実施例において、非自然言語情報源は、画像、動画、音声などを用いることが可能であるが、図3Dでは、非自然言語情報源として画像の例を示している。
【0166】
また、図3Dでは、設定指示文、ユーザ指示文1巡目とその応答からユーザ指示文2巡目とその応答まで、時系列に指示文と応答のやり取りがなされているものとして示している。ここで、図3Dに示される指示文と応答には、実施例2の図2Dには示されていなかった、非自然言語情報源20061と非自然言語情報源20062が含まれている。図3Dの例では、非自然言語情報源20061と非自然言語情報源20062はいずれも画像である。
【0167】
ここで、図3Dでは、説明を簡単にするため、指示文の中に、非自然言語情報源20061の画像が貼り付けられた状態で示されている。しかしながら、キャラクター会話装置(人工知能応答出力装置10010)から大規模言語モデルサーバ20001へ送信する指示文における、非自然言語情報源20061のデータの伝送またはデータの指定の方法には、複数の方法がある。キャラクター会話装置(人工知能応答出力装置10010)はこれらの複数の方法のいずれか一つを用いる、または切り替えて用いればよい。以下それぞれの方法の一例について、説明する。
【0168】
指示文において非自然言語情報源データの伝送または指定する第1の方法は、例えば、指定したい非自然言語情報源がインターネット等のネットワークに接続されるサーバ等の場所に存在する非自然言語情報源である場合などに用いる。第1の方法の具体的な方法としては、指示文内のタグや記号などの情報を用いてインターネット等のネットワーク上に存在する非自然言語情報源ファイルを、インターネット等のネットワークのロケーション情報(いわゆるURLなど)とファイル名で指定する方法である。
【0169】
例えば、マークアップ言語などで画像を指定するタグである<img src=“****”>を用いて、****の部分に、画像ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する画像を指定してもよい。また、マークアップ言語などで動画を指定するタグである<video src=“****”>を用いて、****の部分に、動画ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する動画を指定してもよい。また、マークアップ言語などで音声を指定するタグである<audio src=“****”>を用いて、****の部分に、音声ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する音声を指定してもよい。また、JSON形式の記法であれば、img_srcなどのキーを用意し、値に画像ファイルのロケーション情報およびファイル名情報を記載することによって、インターネット等のネットワーク上に存在する画像を指定してもよい。動画ファイルや音声ファイルの場合も、それぞれのキーと値を用意すればよい。当該フォーマットの具体例は一例であり、他の独自のフォーマットを用いてもよい。いずれの場合も、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。
【0170】
第1の方法のように、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を、指示文に格納する場合は、指示文自体には非自然言語情報源ファイルのデータ自体を格納する必要はない。よって、指示文のデータ量を削減することができる。第1の方法で、非自然言語情報源データが指定された指示文を受信した大規模言語モデルサーバ20001は、当該指示文に格納された非自然言語情報源ファイルのロケーション情報およびファイル名情報を用いて、インターネット等のネットワークに接続されるサーバ等の場所にある非自然言語情報源ファイルを取得すればよい。
【0171】
ここで、キャラクター会話装置(人工知能応答出力装置10010)が、第1の方法で、指示文において非自然言語情報源データの指定を行う場合、ロケーション情報およびファイル名情報の入力をどのように行うかについて、説明する。図3Cにおいて、本実施例では、ユーザ230からキャラクター会話装置(人工知能応答出力装置10010)に対して、行い得るアクションの種類が、実施例2に比べて、ユーザ230の声以外にも増えていることについて説明した。よって、例えば、ユーザ230が図1Bの操作入力部1107を介したユーザ操作(例えば、マウス、キーボード、タッチパネル)により、非自然言語情報源データの指定のためのURLなどのロケーション情報や、ファイル名情報などを入力してもよい。
【0172】
また、キャラクター会話装置(人工知能応答出力装置10010)において、制御部1110がメモリ1109と協働して、WEBブラウザプログラムを実行し、キャラクター会話装置(人工知能応答出力装置10010)の表示画面に当該WEBブラウザプログラムのGUIを表示してもよい。当該WEBブラウザプログラムのGUIに対するユーザ操作を、操作入力部1107を介したユーザ操作(例えば、マウス、キーボード、タッチパネル)または表示部10011のタッチ操作入力センサにより検出可能なユーザのタッチ操作により受け付けて、WEBブラウザプログラムのブラウザ画面で選択した、画像、動画、音声などの非自然言語情報源データを、指示文における指定対象のデータとしてもよい。この場合、WEBブラウザプログラムが、当該非自然言語情報源データのロケーション情報およびファイル名情報を取得し、キャラクター動作プログラムに引き渡せばよい。
【0173】
また、ユーザ230が、モバイル情報処理端末20010を操作して、キャラクター会話装置(人工知能応答出力装置10010)に対してモバイル情報処理端末20010から通信を行うことにより、非自然言語情報源データの指定のためのURLなどのロケーション情報をキャラクター会話装置(人工知能応答出力装置10010)に入力してもよい。また、図3Cで説明した、モバイル情報処理端末20010の表示パネル20011に二次元コードなどの情報格納画像を表示して、キャラクター会話装置(人工知能応答出力装置10010)の撮像部1180が撮像した画像に対して画像認識処理を行って、当該画像認識処理の結果を取得する方式で、非自然言語情報源データの指定のためのURLなどのロケーション情報や、ファイル名情報などを入力してもよい。
【0174】
なお、指示文において非自然言語情報源データの伝送または指定する第1の方法の使用は、非自然言語情報源ファイルが予めインターネット等のネットワークに接続されるサーバ等の場所に存在する場合に限られない。例えば、キャラクター会話装置(人工知能応答出力装置10010)のストレージ部1170に格納されている画像、動画、音声などの非自然言語情報源データを指示文に含めたい場合、キャラクター会話装置(人工知能応答出力装置10010)は、インターネット19000を介して第2のサーバ19002に当該非自然言語情報源データをアップロードし、アップロードした第2のサーバ19002の当該非自然言語情報源データのインターネット上でのロケーション情報(いわゆるURLなど)とファイル名を指示文に含めてもよい。この場合、第2のサーバ19002はいわゆる中間サーバとして機能する。
【0175】
同様に、モバイル情報処理端末20010のストレージ部20016に格納されている画像、動画、音声などの非自然言語情報源データを指示文に含めたい場合、モバイル情報処理端末20010が、インターネット19000を介して第2のサーバ19002に当該非自然言語情報源データをアップロードしてもよい。モバイル情報処理端末20010または第2のサーバ19002から第2のサーバ19002の当該非自然言語情報源データのインターネット上でのロケーション情報(いわゆるURLなど)とファイル名を、キャラクター会話装置(人工知能応答出力装置10010)に送信し、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムが、取得した、第2のサーバ19002にアップロードされた当該非自然言語情報源データのインターネット上でのロケーション情報(いわゆるURLなど)とファイル名を指示文に含めてもよい。
【0176】
さらに、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムが、メモリ1109、ストレージ部1170と協働してインターネット19000を介して他のサーバからアクセスできるメディアサーバをキャラクター会話装置(人工知能応答出力装置10010)内に構築してもよい。この場合、キャラクター会話装置(人工知能応答出力装置10010)は、第1の方法で、指示文において非自然言語情報源データの指定を行う場合に、キャラクター会話装置(人工知能応答出力装置10010)自身の内部に構築したメディアサーバ内を示すインターネット上でのロケーション情報(いわゆるURLなど)と該当する非自然言語情報源データのファイル名を、前記指示文に格納すればよい。
【0177】
次に、指示文において非自然言語情報源データの伝送または指定を指定する第2の方法は、例えば、単純に指示文(プロンプト)に、非自然言語情報源データそのものを格納(添付)して送信する方法である。一般に、画像、動画、音声等の非自然言語情報源データは、自然言語であるテキスト情報に比べてデータ量が大きい。よって、この場合、指示文(プロンプト)自体のデータ量は第1の方法よりも大きくなる。キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムは、指示文(プロンプト)に格納(添付)したい非自然言語情報源データを、一旦メモリ1109に格納して、指示文(プロンプト)を送信する際に、メモリ1109から通信部1132を介して、指示文(プロンプト)に格納(添付)して大規模言語モデルサーバ20001へ出力すればよい。キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムがメモリ1109に格納する非自然言語情報源データ自体は、インターネット19000を介して通信部1132が取得してもよく、モバイル情報処理端末20010から通信部1132が取得してもよく、ストレージ部1170から読みだしてメモリ1109に格納してもよい。
【0178】
以上説明した方法により、キャラクター会話装置(人工知能応答出力装置10010)は、指示文による非自然言語情報源データの伝送または指定を行うことが可能である。
【0179】
大規模言語モデルサーバ20001は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、図3Dの例に示す、ユーザ指示文1巡目により、非自然言語情報源20061であるスイミングプールとプールサイドの画像と、自然言語であるテキスト情報を取得して、その推論結果として、ユーザ指示文1巡目への応答として、図に示すような、自然言語であるテキスト情報を出力することができる。
【0180】
また、大規模言語モデルサーバ20001は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、図3Dの例に示す、ユーザ指示文2巡目の応答に示すように、大規模言語モデルサーバ20001はマルチモーダルな大規模言語モデルの推論により生成した非自然言語情報源20062を応答に含めてキャラクター会話装置(人工知能応答出力装置10010)へ送信することができる。図3Dでは、非自然言語情報源20062は、非自然言語情報源20061であるスイミングプールとプールサイドの画像に丸の画像を付した画像の例を示している。なお、応答に格納する非自然言語情報源20062は図3Dに示す画像に限られず、動画でも音声でもよい。
【0181】
大規模言語モデルサーバ20001からの応答に、自然言語のテキスト情報以外の非自然言語情報源を含める場合の方法も、上述のキャラクター会話装置(人工知能応答出力装置10010)が指示文において非自然言語情報源データの伝送または指定を行う第1の方法にまたは第2の方法に準ずる方法を用いればよい。
【0182】
具体的には、上述の第1の方法に準ずる方法として、大規模言語モデルサーバ20001は、応答に、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。画像、動画、音声などの非自然言語情報源20062自体は、大規模言語モデルサーバ20001に保持しておいてもよいし、中間サーバとして機能させる第2のサーバ19002に当該非自然言語情報源20062を移送して、保持させておいてもよい。いずれの場合も、大規模言語モデルサーバ20001は、応答に、非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する情報を指示文に格納すればよい。応答を取得したキャラクター会話装置(人工知能応答出力装置10010)は、指示文に記載される非自然言語情報源ファイルのロケーション情報およびファイル名情報を用いて、大規模言語モデルサーバ20001や第2のサーバ19002にアクセスして、非自然言語情報源20062を取得すればよい。
【0183】
また、具体的には、上述の第2の方法に準ずる方法として、大規模言語モデルサーバ20001は、応答に、非自然言語情報源20062のファイルデータそのものを格納(添付)してキャラクター会話装置(人工知能応答出力装置10010)に送信してもよい。キャラクター会話装置(人工知能応答出力装置10010)は、指示文に格納(添付)された非自然言語情報源20062のデータを取得して、ユーザ230に対する各種出力に用いることできる。
【0184】
以上図3Dを用いて説明した、実施例3のキャラクター会話装置(人工知能応答出力装置10010)およびキャラクター会話システムの動作によれば、キャラクター会話装置(人工知能応答出力装置10010)に表示されるキャラクターとユーザ230の間において、非自然言語情報である画像、動画、音声を用いた会話を実現するための指示文と応答の送受信を行う。これにより、図3Dの各メッセージに示すようなより高度で自然な会話を実現することが可能となる。
【0185】
次に、図3Eを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図3Eは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ20001へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。
【0186】
図3Eは、図3Dに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合の一例を示している。図3Eの例では、実施例2の図2F図2G図2Iで説明したような、会話履歴を用いた処理を行っていない。よって、図3Eは、実施例2の図2Eと同様に、設定指示文に含まれていた大規模言語モデル自体の名前や、演じるべき役割、会話の特徴、ユーザの名前、会話の履歴などを全く記憶していない状態の内容の応答となっている。
【0187】
次に、図3Fを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図3Fは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ20001へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。
【0188】
図3Fは、図3Dに示した一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合の一例を示している。ここで、図3Fでは、実施例2の図2Fで説明した、設定指示文に過去の会話の履歴を説明するメッセージを格納する方法を、実施例3のキャラクター会話装置(人工知能応答出力装置10010)にも適用したものである。具体的には、図3Dの設定指示文の内容となるメッセージを、図3Fでは、再設定メッセージとして格納し、再設定メッセージに続いて、過去の会話の履歴を説明するメッセージを会話履歴メッセージとして格納する。
【0189】
実施例3の大規模言語モデルサーバ20001は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、過去の指示文および応答において非自然言語情報源データの伝送または指定がなされている場合がある。よって、図3Fの例では、当該会話履歴メッセージに、過去の指示文および応答における自然言語のテキスト情報のみならず、過去の指示文および応答における非自然言語情報源データの伝送または指定を反映する。図3Fの指示文における、非自然言語情報源データの伝送または指定の具体的な方法は、図3Dで説明したように非自然言語情報源データの伝送または指定と同様であるので、繰り返しの説明は省略する。
【0190】
図3Dの例では、非自然言語情報源データの伝送または指定の方法には、指示文に非自然言語情報源データそのものを格納(添付)する場合と、指示文に非自然言語情報源データを格納(添付)しない場合がある。この点について、図3Fの指示文でも同様である。
【0191】
次に、図3Gを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図3Gは、人工知能応答出力装置10010に表示されるキャラクター19051とユーザ230の会話の元となる、人工知能応答出力装置10010から大規模言語モデルサーバ20001へ送信される指示文の主たるメッセージとその応答となるサーバ応答の主たるメッセージの一例である。
【0192】
図3Gは、図3Fに示した一連の会話における、最初の設定指示文以降に続くユーザ指示文1巡目とその応答からユーザ指示文3巡目とその応答までの一連の会話の一例を示している。図3Gでは、時系列に指示文と応答のやり取りがなされているものとして示している。設定指示文の内容は図3Fに示したとおりなので、繰り返しの記載は省略する。
【0193】
以上説明したように、実施例3の自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルを有する大規模言語モデルサーバ20001を用いる場合でも、一連の会話後に当該一連の会話の継続が終了した後に、再びユーザ230がキャラクター19051に話しかけて新たに会話を行う場合であっても、図3Fの設定指示文の生成処理、および送信処理を行えば、その後のユーザ指示文の応答は、図3Gに示すように、以前の会話の時点のキャラクターの役割、名前、会話の特徴、性格、および/または会話の特徴などの設定や会話履歴を反映したものとなる。これにより、ユーザからすると、以前の会話の時点の当該キャラクターの役割、名前、会話の特徴または性格などの設定や記憶の同一性がより確保できているように認識されるため、より好適である。
【0194】
次に、図3Hを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の動作の一例について説明する。これは、人工知能応答出力装置10010と大規模言語モデルサーバ20001とを含むキャラクター会話システムの動作の一例の説明ともいえる。具体的には、図3Hは、キャラクター会話装置(人工知能応答出力装置10010)の表示部10011に表示する複数のキャラクターについての、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース20200の説明図である。ここで、図3Hは、キャラクター会話装置(人工知能応答出力装置10010)の表示部10011に表示する複数のキャラクターの設定等は、実施例2の図2Hで説明した例を用いる。よって複数のキャラクターの設定等についての繰り返しの説明は省略する。
【0195】
また、図3Hに示す、キャラクターの設定とキャラクターの会話履歴を管理するためのデータベース20200は、実施例2の図2Iに示すデータベース19200と同様のフォーマットを有するものであり、図3Hにおいては、図2Iに示すデータベース19200との差分についてのみ説明する。また、データベース内のキャラクター「Koto」についての内容を説明し、他のキャラクターの内容については省略する。
【0196】
ここで、上述のとおり、実施例3の大規模言語モデルサーバ20001は、自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルであるので、キャラクター会話装置(人工知能応答出力装置10010)からの指示文にも、大規模言語モデルサーバ20001からの応答にも、自然言語のテキスト情報のみならず、非自然言語情報源データの伝送または指定が含まれる。よって、図3Hに示す、データベース20200では、会話履歴のデータにおいて、これらの指示文や応答に含まれる、自然言語のテキスト情報のみならず、非自然言語情報源データの伝送または指定の情報も記録する。当該会話履歴の記録における、非自然言語情報源データの伝送または指定の具体的な方法は、図3Dで説明した非自然言語情報源データの伝送または指定を指定と同様であるので、繰り返しの説明は省略する。
【0197】
図3Dの例では、非自然言語情報源データの伝送または指定の方法には、指示文に非自然言語情報源データそのものを格納(添付)する場合と、指示文に非自然言語情報源データを格納(添付)しない場合がある。この点について、図3Hの会話履歴でも同様である。ただし、図3Hの会話履歴において、非自然言語情報源データの指定方法として、インターネット等のネットワーク上に存在するサーバ(中間サーバとして機能させる第2のサーバ19002やその他のクラウドサーバ)の非自然言語情報源ファイルのロケーション情報およびファイル名情報を指定する場合、会話履歴の期間が長くなると、当該サーバ上の当該非自然言語情報源ファイルが削除されてしまう可能性もある。すると、当該ロケーション情報およびファイル名情報を用いても当該非自然言語情報源ファイルを後日取得することができなくなり会話記録の情報が欠落する可能性がある。
【0198】
これを防ぐためには、キャラクター会話装置(人工知能応答出力装置10010)は、指示文および応答のメッセージを会話履歴に変換して記録する際に、指示文および応答において指定される非自然言語情報源ファイル自体を、当該ロケーション情報およびファイル名情報を用いて、ネットワーク上のサーバ等から取得し、ストレージ部1170に格納すればよい。さらに、当該非自然言語情報源ファイルのロケーション情報およびファイル名を、キャラクター会話装置(人工知能応答出力装置10010)のキャラクター動作プログラムが、キャラクター会話装置(人工知能応答出力装置10010)内に構築するメディアサーバのメディアサーバ内を示すインターネット上でのロケーション情報(いわゆるURLなど)に書き換えてから、会話記録に記録すればよい。このようにすれば、キャラクター会話装置(人工知能応答出力装置10010)自身がストレージ部1170から当該非自然言語情報源ファイルを消去しなければ、当該非自然言語情報源は会話記録の情報から欠落しないため、会話記録の保全としてより好適である。
【0199】
以上説明した図3Hのデータベースを用いれば、キャラクター会話装置(人工知能応答出力装置10010)が、表示部10011に表示するキャラクターを複数のキャラクター候補の中から切り替えて表示するように構成する場合も、ユーザからすると、それぞれのキャラクターとの会話から感じる違和感が少なく、また、複数のキャラクターのそれぞれと記憶を共有することができ、より楽しいキャラクター会話体験を得られる、という実施例2の図2Iの効果を得ることができ、かつ、大規模言語モデルサーバ20001が自然言語のテキスト情報と併せて非自然言語情報源を処理できるマルチモーダルな大規模言語モデルである場合にも、この効果を発揮することができる。
【0200】
なお、実施例3のキャラクター会話装置(人工知能応答出力装置10010)またはキャラクター会話システムにおいては、大規模言語モデルサーバ20001において、自然言語のテキスト情報に加えて自然言語のテキスト情報以外の非自然言語情報も併せて処理が可能なマルチモーダルな大規模言語モデル人工知能を用いる。
【0201】
ここで、キャラクター会話装置(人工知能応答出力装置10010)と大規模言語モデルサーバ20001との間はAPIを用いて通信される。マルチモーダルな大規模言語モデルでは、自然言語のテキスト情報をトークンと呼ばれる文章を区切った言葉の単位の処理数に加えて、非自然言語情報源のデータ量に応じて、APIの利用料金が請求される形式もあり得る。
【0202】
そこで、本実施例に係るキャラクター会話システムによるキャラクター会話サービスを、より安価にユーザに提供するために、以下のような変形例を用いればよい。
【0203】
第1の変形例としては、図3Hのデータベースの会話履歴の記録において、非自然言語情報源データの伝送または指定の情報も記録されている。しかしながら、キャラクターとユーザは、当該自然言語情報源データについての会話を自然言語のテキスト情報でやり取りしており、その内容は自然言語のテキスト情報で記録されている。すると、図3Hのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略しても、当該自然言語情報源データについての会話自体はある程度自然言語のテキスト情報として記録されることとなる。よって、ある程度の情報の減少を許容すれば、図3Hのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略してもよい。この場合、図3Fの設定指示文の会話履歴メッセージからも当該自然言語情報源データの伝送または指定の情報が省略される。これにより、APIを用いて通信される非自然言語情報源のデータ量を低減することができる。
【0204】
次に、第2の変形例としては、図3Hのデータベースの会話履歴の記録において、非自然言語情報源データの伝送または指定の情報の記録の代わりに、非自然言語情報源データの内容を説明する自然言語のテキスト情報を記録する例である。非自然言語情報源データの内容を説明する自然言語のテキスト情報は、例えば、キャラクターとしての会話とは別に、大規模言語モデルサーバ20001の大規模言語モデルとキャラクター会話装置(人工知能応答出力装置10010)との会話を立上げ、大規模言語モデルサーバ20001に非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、大規模言語モデルサーバ20001の大規模言語モデルよりも安価に利用できる、他のサーバの他の大規模言語モデルとの会話により、非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、非自然言語情報源データの取得時点から、代替テキストデータが準備されている場合は、当該代替テキストデータを非自然言語情報源データの内容を説明する自然言語のテキスト情報としてもよい。非自然言語情報源データの代替テキストデータの具体例としては、マークアップ言語のタグの<img src =“”alt="****">、<video src =“”alt="****">、<audio src =“”alt="****">などの****の部分に記載されるテキスト情報である。
【0205】
また、JSON形式の記法であれば、非自然言語情報源データのロケーション情報を示すキーと値である非自然言語情報源データのロケーション情報およびファイル名情報と対応づけられて格納されているオブジェクトにおいて、さらに、代替テキストに対応するキーと、代替テキストデータ自体である値を紐づけて格納すればよい。
【0206】
この場合も、図3Hのデータベースの会話履歴の記録において、当該自然言語情報源データの伝送または指定の情報の記録を省略でき、図3Fの設定指示文の会話履歴メッセージからも当該自然言語情報源データの伝送または指定の情報が省略される。これにより、APIを用いて通信される非自然言語情報源のデータ量を低減することができる。
【0207】
次に、第3の変形例としては、図3Dのユーザ指示文1巡目の時点で、非自然言語情報源データの伝送または指定の情報をユーザ指示文に格納せず、非自然言語情報源データの内容を説明する自然言語のテキスト情報に差し替えてしまう例である。例えば、図3Dのユーザ指示文1巡目において、非自然言語情報源データ20061の伝送または指定の情報をユーザ指示文に替えて、「この画像とは、スイミングプールとプールサイドにあるシートとパラソルの画像です。スイミングプールには、水があります。シートの脇のテーブルにはドリンクがあります」との説明文が自然言語のテキスト情報として格納されるように構成すればよい。このとき、当該説明文は、大規模言語モデルサーバ20001の大規模言語モデルよりも安価に利用できる、他のサーバの他の大規模言語モデルとの会話により、非自然言語情報源データの内容を所定の文字数制限を指定して説明させて取得してもよい。また、当該説明文は、画像、動画、音声などの非自然言語情報源データの概要や内容の説明を取得できるその他各種サービスのサーバから取得してもよい。また、非自然言語情報源データの取得時点から、代替テキストデータが準備されている場合は、当該代替テキストデータを非自然言語情報源データの内容を説明する自然言語のテキスト情報としてもよい。
【0208】
次に、図3Iを用いて、本発明の実施例3のキャラクター会話装置(人工知能応答出力装置10010)の表示例の一例について説明する。図3Iの例では、図3A図3Hの各図で説明したユーザからの指示文に対する大規模言語モデルからの応答を、キャラクター会話装置(人工知能応答出力装置10010)の表示部10011に表示する例の一例を示している。具体的には、大規模言語モデルからの応答である自然言語情報源データのテキスト10063、非自然言語情報源データの画像10064、および/または非自然言語情報源データの動画10065を、キャラクター19051の映像とともに、表示部10011に表示する例である。大規模言語モデルからの応答であるテキスト10063、画像10064、および/または動画10065は、図3Iに示すようにキャラクター19051の映像の手前に重畳して表示してもよい。
【0209】
また、大規模言語モデルからの応答であるテキスト10063、画像10064、および/または動画10065は、キャラクター19051の映像と重畳せずに、キャラクター19051の映像ともに表示してもよい。図3Iの表示は一例であるが、例えば、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、キャラクター会話装置(人工知能応答出力装置10010)の音声出力部1140の音声出力のボリュームを最小に調整するまたは音声出力をOFFに設定した場合などは、ユーザ230は音声で大規模言語モデルからの応答を確認することができない。そこで、この場合、制御部1110は、大規模言語モデルからの応答であるテキスト10063、画像10064、および/または動画10065を図3Iに示すように、キャラクター19051の映像ともに表示する表示モードを開始するように制御してもよい。
【0210】
このようにすれば、音声出力を控えたい場合でも、ユーザ230がより好適に、キャラクター会話装置(人工知能応答出力装置10010)を使用することができる。なお、ユーザ230が操作入力部1107や表示部10011のタッチ操作入力センサを介した操作により、大規模言語モデルからの応答であるテキスト10063、画像10064、および/または動画10065をキャラクター19051の映像ともに表示する表示モードについてのON/OFFを手動で切り替え可能に構成してもよい。図3Iの表示例によれば、マルチモーダルに対応したキャラクター会話装置(人工知能応答出力装置10010)において、より好適に大規模言語モデルからの応答を出力することが可能となる。
【0211】
以上説明した、実施例3に係るキャラクター会話装置や、キャラクター会話システムによれば、実施例2に係るキャラクター会話装置や、キャラクター会話システムにおける効果に加えて、マルチモーダルな大規模言語モデルを用いて、自然言語の情報以外に非自然言語の情報を含めたより高度な会話体験をユーザに提供することができる。また、実施例3に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクター会話サービスをより安価にユーザに提供することができる。
【0212】
なお、実施例3の以上の説明では、大規模言語モデルとして、大規模言語モデルサーバ20001が有する大規模言語モデルを用いる例を説明した。これに対し、キャラクター会話装置(人工知能応答出力装置10010)が、図1Bに示すローカルLLM処理部10028を備え、当該ローカルLLM処理部10028が有するマルチモーダルな大規模言語モデルを用いてもよい。この場合、大規模言語モデルサーバ20001が有するマルチモーダルな大規模言語モデルに変えて、ローカルLLM処理部10028が有するマルチモーダルな大規模言語モデルを用いてもよい。
【0213】
この場合、実施例3の以上の説明において、大規模言語モデルサーバ20001が有するマルチモーダルな大規模言語モデルをキャラクター会話装置(人工知能応答出力装置10010)のローカルLLM処理部10028が有するマルチモーダルな大規模言語モデルに読み替えればよい。この場合も、マルチモーダルな大規模言語モデルを用いて、自然言語の情報以外に非自然言語の情報を含めたより高度な会話体験をユーザに提供することができる。なお、大規模言語モデルサーバ20001が有するマルチモーダルな大規模言語モデルに変えて、ローカルLLM処理部10028が有するマルチモーダルな大規模言語モデルを用いる場合は、処理トークン数や非自然言語情報源のデータ量に応じた利用料金を考慮する必要性は少なくなるが、ローカルLLM処理部10028が有するマルチモーダルな大規模言語モデルであっても処理トークン数や非自然言語情報源のデータ量の低減を図ることによって、推論にかかる電力などの消費リソースを低減できる。この場合、より消費電力の少ないキャラクター会話サービスをユーザに提供することができる。
【0214】
なお、実施例2で説明した、キャラクターとの会話履歴や、キャラクターとの会話履歴を含むデータベースのデータを第2のサーバ19002またはその他のクラウドサーバに対してアップロードおよびダウンロードする構成は、実施例3で説明した、マルチモーダルな大規模言語モデルを用いる例においても利用できる。この場合も、1つのキャラクターまたは複数のキャラクターについて、異なる個体の装置間において、複数のキャラクターのそれぞれのキャラクターとユーザが異なるタイミングで複数回にわたって会話を行う場合に、前回の会話からそれぞれのキャラクターの記憶が疑似的に引き継がれたかのような会話を実現することができ、ユーザにとってより好適である。
【0215】
<実施例4>
次に、本発明の実施例4は、実施例2、または実施例3の各図で説明した人工知能応答出力装置10010、キャラクター会話装置、またはこれらのシステムを改良したものである。本実施例では、実施例2、または実施例3との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。
【0216】
上述の実施例同様、人工知能応答出力装置10010は、人工知能応答出力装置、AIアシスタント装置、AIアシスタント表示装置、人工知能インタフェース装置と称してもよい。人工知能応答出力装置10010と大規模言語モデルサーバを含むシステムは、人工知能応答出力システム、AIアシスタントシステム、AIアシスタント表示システム、人工知能インタフェースシステムと称してもよい。
【0217】
図4Aを用いて、本発明の実施例4のキャラクター会話装置(人工知能応答出力装置10010)におけるデータベースを用いた動作の一例について説明する。図4Aに示す実施例4に係るデータベースは、図2Iまたは図3Iで説明したデータベースを拡張したものである。図4Aに示すデータベースは、具体的には、複数の異なるユーザが、同一のキャラクター会話装置(人工知能応答出力装置10010)または同一のキャラクター会話システムを利用する場合を想定し、それぞれのユーザとキャラクタに対応する初期設定指示文および会話履歴をデータベースに格納する。
【0218】
図4Aの例では、ユーザIDが1であるユーザ1について、キャラクターIDが1であるキャラクターKoto、キャラクターIDが2であるキャラクターTom、およびキャラクターIDが3であるキャラクターNecco、のそれぞれのキャラクターの初期設定指示文および会話履歴を格納している。これに加えて、ユーザIDが2であるユーザ2、ユーザIDが3であるユーザ3のそれぞれについても、キャラクターIDが1であるキャラクターKoto、キャラクターIDが2であるキャラクターTom、およびキャラクターIDが3であるキャラクターNecco、のそれぞれのキャラクターの初期設定指示文および会話履歴を格納している。
【0219】
これらの初期設定指示文および会話履歴のデータは、ユーザとキャラクターの組み合わせごと、に異なる領域に別のデータとして格納されている。図4Aでは説明のため、それぞれの領域に格納しているデータをデータ11、12、13、21、22、23、31、32、33と表記して示している。キャラクター会話装置(人工知能応答出力装置10010)の制御部1110は、現在キャラクター会話装置(人工知能応答出力装置10010)またはそのシステムを使用(ログイン)しているユーザに基づき、ユーザとキャラクターの組み合わせごとに異なる領域に格納された初期設定指示文および会話履歴を用いることで、キャラクターの個性の一貫性や記憶の継続性を、異なるユーザのそれぞれに対してより好適に維持することが可能となる。
【0220】
具体的には、キャラクター会話装置(人工知能応答出力装置10010)を用いて先にユーザ1がキャラクターTomと会話しており、その会話をユーザ2が知らなかった場合に、その後にユーザ2がキャラクターTomと会話する状況について考える。このとき、人工知能応答出力装置10010がユーザの識別をしない初期設定指示文または会話履歴のデータベースを用いている場合、人工知能応答出力装置10010から出力される応答がユーザ2の記憶にない会話の履歴に基づくものとなり、ユーザ2と人工知能応答出力装置10010のキャラクターとの会話が整合しなくなる可能性がある。
【0221】
これに対し、同様の状況であっても、図4Aに示すデータベースを用いれば、キャラクター会話装置(人工知能応答出力装置10010)の制御部1110はユーザをIDにより識別して、ユーザごとに異なる領域に初期設定指示文および会話履歴を格納し、ユーザごとに異なる領域に格納された初期設定指示文および会話履歴を人工知能応答の生成に使用する。これにより、それぞれのユーザに対する人工知能応答の生成に使用する初期設定指示文および会話履歴は当該ユーザの操作または会話の経緯に基づくものとなり、他のユーザの操作または会話の経緯とは区別して管理される。これにより、それぞれのユーザと人工知能応答出力装置10010のそれぞれのキャラクターとの会話の履歴の整合性をより好適にすることができる。
【0222】
なお、図4Aで説明した、初期設定指示文および/または会話履歴のデータベースは、人工知能応答出力装置10010のストレージ部1170に格納して、制御部1110が用いればよい。また、これに限られず、初期設定指示文および/または会話履歴のデータベースは、ネットワーク上のサーバに格納してもよい。例えば、人工知能応答出力装置10010が、人工知能応答の生成において、大規模言語モデルサーバ19001の大規模言語モデルまたは大規模言語モデルサーバ20001のマルチモーダルな大規模言語モデルを用いる場合はこれらのサーバ自体に、図4Aで説明した、初期設定指示文および/または会話履歴のデータベースを格納すればよい。このようにすれば、人工知能応答出力装置10010からこれらのサーバに対して、初期設定指示文および会話履歴を再度指示文に含めて送信する処理を省略することができ、大規模言語モデルの利用についての送信トークン数を節約することができる。
【0223】
図4Aで説明した、初期設定指示文および/または会話履歴のデータベースを格納する場合は、人工知能応答出力装置10010からこれらのサーバへ、ユーザID、キャラクターID、および、その後の会話のためのユーザ指示文を送信すればよい。これらのサーバ上の大規模言語モデルは、人工知能応答出力装置10010から取得したユーザID、キャラクターIDを用いて、図4Aの初期設定指示文および/または会話履歴のデータベースから、該当する初期設定指示文および会話履歴を取得する。これらのサーバ上の大規模言語モデルは、当該初期設定指示文および会話履歴と、人工知能応答出力装置10010から送信されたその後の会話のためのユーザ指示文を用いて、推論を実行し、人工知能応答を生成して、人工知能応答出力装置10010へ送信すればよい。このようにすれば、キャラクターの個性の一貫性や記憶の継続性を、異なるユーザのそれぞれに対してより好適に維持する効果を、大規模言語モデルの利用についての送信トークン数を節約しながら得ることができる。
【0224】
次に、図4Bを用いて、本発明の実施例4のキャラクター会話装置(人工知能応答出力装置10010)におけるデータベースを用いた動作の一例について説明する。図4Bに示す実施例4に係るデータベースは、図1Cまたは図2Lで説明したデータベースを拡張したものである。図4Bに示すデータベースは、具体的には、複数の異なるユーザが、同一のキャラクター会話装置(人工知能応答出力装置10010)または同一のキャラクター会話システムを利用する場合を想定し、それぞれのユーザとキャラクターに対応する応答定型文のデータをデータベースに格納する。
【0225】
図4Bの例では、ユーザIDが1であるユーザ1について、キャラクターIDが1であるキャラクターKoto、キャラクターIDが2であるキャラクターTom、およびキャラクターIDが3であるキャラクターNecco、のそれぞれのキャラクターの応答定型文データを格納している。これに加えて、ユーザIDが2であるユーザ2、ユーザIDが3であるユーザ3のそれぞれについても、キャラクターIDが1であるキャラクターKoto、キャラクターIDが2であるキャラクターTom、およびキャラクターIDが3であるキャラクターNecco、のそれぞれのキャラクターの応答定型文データを格納している。
【0226】
これらの応答定型文のデータは、ユーザとキャラクターの組み合わせごと、に異なる領域に別のデータとして格納されている。図4Bでは説明のため、それぞれの領域に格納しているデータを応答定型文データ101、102、103、201、202、203、301、302、303と表記している。例えば、応答定型文データ101には、図2Lに示すキャラクター1:Kotoの条件番号1~7に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。図4Bのデータ201には、図2Lに示すキャラクター2:Tomの条件番号1~7に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。
【0227】
図4Bのデータ301には、図2Lに示すキャラクター3:Neccoの条件番号1~7に対応する応答定型文に対応するテーブルなどのデータベースとして格納されている。図4Bのデータ102、202、302には、同様のフォーマットで、ユーザ2向けに応答定型文が変更されたものが格納されている。図4Bのデータ103、203、303には、同様のフォーマットで、ユーザ3向けに応答定型文が変更されたものが格納されている。キャラクター会話装置(人工知能応答出力装置10010)の制御部1110は、現在キャラクター会話装置(人工知能応答出力装置10010)またはそのシステムを使用(ログイン)しているユーザに基づき、ユーザとキャラクターの組み合わせごとに異なる領域に格納された応答定型文データを用いる。
【0228】
このようにすれば、同一のキャラクターであっても、ユーザごとに異なる応答定型文による応答を行うことが可能となる。すなわち、同一のキャラクターであっても、キャラクターとユーザの関係性によっては、応答定型文の内容を変化させた方が好適であることもあり得る。例えば、キャラクターの設定の年齢と、人工知能応答出力装置10010またはシステムに登録されたユーザの年齢との関係により、ユーザがキャラクターに対して年上の場合もあれば、同い年の場合もあれば、年下の場合もある。このとき、年上のユーザに対するキャラクターの応答定型文と、同い年のユーザに対するキャラクターの応答定型文と、年下のユーザに対するキャラクターの応答定型文とで、それぞれ内容を変えた方が、ユーザとキャラクターの会話がより好適または、より自然となる。すなわち、図4Bのデータベースを用いた動作を行うことにより、キャラクターとユーザの関係性ごとに、応答定型文の内容を異ならせることにより、より好適または、より自然な会話を演出することが可能となる。
【0229】
なお、以上説明した、図4Bの応答定型文データベース(応答定型文DB)はストレージ部1170に格納され、人工知能応答出力装置10010の制御部1110がこれを用いればよい。しかしながら、図4Bに示す応答定型文データベース(応答定型文DB)を大規模言語モデルサーバ19001側または大規模言語モデルサーバ20001側に備えてもよい。この場合は、大規模言語モデルサーバ19001が有する制御部または大規模言語モデルサーバ20001が有する制御部が、当該応答定型文データベース(応答定型文DB)を用いた応答を生成すればよい。大規模言語モデルサーバ19001が有する制御部または大規模言語モデルサーバ20001が有する制御部は、それぞれのサーバに格納される大規模言語モデルにより生成する応答に替えて、応答定型文データベース(応答定型文DB)を用いて生成した応答を、人工知能応答出力装置10010へ送信すればよい。このようにすれば、人工知能応答出力装置10010に応答定型文データベース(応答定型文DB)が備えられていない場合でも、応答定型文データベース(応答定型文DB)を用いた応答の生成が可能となる。
【0230】
以上説明した、実施例4に係るキャラクター会話装置や、キャラクター会話システムによれば、キャラクターとユーザの関係性や会話履歴などに応じて、より好適または、より自然な会話を演出することが可能となる。
【0231】
<実施例5>
次に、本発明の実施例5は、実施例1、実施例2、実施例3の各図で説明した人工知能応答出力装置10010、または人工知能応答出力システムを改良したものである。具体的には、人工知能応答出力装置10010の応答生成処理を、ネットワーク上の大規模言語モデルによる応答生成処理から、人工知能応答出力装置10010が備えるローカルの大規模言語モデル(ローカルLLM処理部10028など)による応答生成処理、または応答定型文データベースによる応答生成処理へ切り替える処理を行う例である。本実施例では、これらの実施例との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。
【0232】
上述の実施例同様、人工知能応答出力装置10010は、人工知能応答出力装置、キャラクター会話装置、AIアシスタント装置、AIアシスタント表示装置、人工知能インタフェース装置と称してもよい。人工知能応答出力装置10010と大規模言語モデルサーバを含むシステムは、人工知能応答出力システム、キャラクター会話システム、AIアシスタントシステム、AIアシスタント表示システム、人工知能インタフェースシステムと称してもよい。
【0233】
図5Aを用いて、本発明の実施例5の人工知能応答出力装置1001における応答生成処理の切替処理の一例について説明する。図5Aの表には、人工知能応答出力装置1001における応答生成処理の切替処理の例について、例1~例9まで示している。図5Aの表において、「切替概要」の列には、各例の切替処理の概要を示している。「ネットワーク上のLLM(API接続LLM)切替前状態」の列には、図1の大規模言語モデルサーバ19001が備える大規模言語モデル、および大規模言語モデルサーバ20001が備えるマルチモーダルな大規模言語モデルなどのネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理が他の応答生成処理へ切替えられる前の状態を示している。「切替発生条件」の列には、応答生成処理の切替処理が発生する条件を示している。「ネットワーク上のLLM(API接続LLM)からの切替先」の列には、人工知能応答出力装置10010の応答生成処理を、大規模言語モデルサーバ19001が備える大規模言語モデル、および大規模言語モデルサーバ20001が備えるマルチモーダルな大規模言語モデルなどのネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)から切替える、切替先が示されている。人工知能応答出力装置1001の制御部1110は、図5Aに示される「ネットワーク上のLLM(API接続LLM)切替前状態」の状態において「切替発生条件」に示される条件が生じた場合に、「ネットワーク上のLLM(API接続LLM)からの切替先」に示される大規模言語モデル、データベース、または対応に切り替えるように制御を行えばよい。
【0234】
以下、図5Aの表に示される各例について説明する。例1は、「切替概要」に示すとおり、人工知能応答出力装置1001のネットワークの接続可否状態に応じて切替を行う例である。例1では、「ネットワーク上のLLM(API接続LLM)切替前状態」としては、人工知能応答出力装置1001のネットワークの接続状態が接続可能状態であることが示されている。ここで、例1では、「切替発生条件」としては「ネットワーク接続不能になった場合」が示されている。すなわち、これは、人工知能応答出力装置1001とネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)とのネットワークを介した接続が不能となった場合、という意味である。具体的には、当該接続不能は、人工知能応答出力装置1001からインターネット19000への接続経路での通信不能状態に起因する場合もあり得る。または、当該接続不能は、インターネット19000における通信不能状態に起因する場合もあり得る。または、当該接続不能は、ネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)自体がインターネット19000に接続できない状況に起因する場合もあり得る。また、例1では、「ネットワーク上のLLM(API接続LLM)からの切替先」としては「ローカルLLM」が示されている。これは、具体的には、人工知能応答出力装置10010が有するローカルLLM処理部10028による応答生成処理への切替処理を行うことを意味する。すなわち、例1では、なんらかの理由でネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)との接続が不能となって、ネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理が利用できない場合であっても、人工知能応答出力装置10010が有するローカルLLM処理部10028による応答生成処理に切り替える。これにより、大規模言語モデルとしての性能差はあれど、大規模言語モデルを用いた応答生成処理を継続することは可能である。
【0235】
次に、図5Aの例2について説明する。例2は、例1における「ネットワーク上のLLM(API接続LLM)からの切替先」を「ローカルLLM」から「応答定型文DB(データベース)」に変更したものである。当該「応答定型文DB(データベース)」による応答生成処理は、図1C図2L、または図4Bで説明した処理と同様であるので繰り返しの説明は省略する。すなわち、例2では、なんらかの理由でネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)との接続が不能となって、ネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理が利用できない場合には、応答定型文データベースを用いた応答生成処理に切り替えることにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。
【0236】
次に、図5Aの例3について説明する。例3は、例1における「ネットワーク上のLLM(API接続LLM)からの切替先」を「ローカルLLM」から「不応答対応」に変更したものである。当該「不応答対応」とは、タッチパネル、マイク1139または操作入力部1107を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力があった場合でも、この入力に対する応答を生成しない、または、大規模言語モデルによる応答を求めるユーザ入力があった場合でも、これに対する応答を出力しない対応を意味する。すなわち、例3では、なんらかの理由でネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)との接続が不能となって、ネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理が利用できない場合の対応をより簡易にすることが可能となる。
【0237】
次に、図5Aの例4について説明する。例4は、「切替概要」に示すとおり、ネットワーク上のLLMの応答遅延により切替を行う例である。例4では、「ネットワーク上のLLM(API接続LLM)切替前状態」としては、ネットワーク上のLLMからの応答が所定時間以内に得られる状態が示されている。ここで、例4では、「切替発生条件」としてはネットワーク上のLLMからの応答が所定時間以内には得られず、所定時間を超過した場合が示されている。また、例4では、「ネットワーク上のLLM(API接続LLM)からの切替先」としては「ローカルLLM」が示されている。切替先の「ローカルLLM」は、例1と同様であるので繰り返しの説明を省略する。すなわち、例4では、なんらかの理由でネットワーク上のLLM(APIを用いて接続する大規模言語モデル)からの応答が所定時間を超過するようになり、ネットワーク上のLLM(APIを用いて接続する大規模言語モデル)による応答生成処理が順調に利用できない場合であっても、人工知能応答出力装置10010が有するローカルLLM処理部10028による応答生成処理に切り替える。これにより、大規模言語モデルとしての性能差はあれど、大規模言語モデルを用いた応答生成処理を継続することは可能である。
【0238】
次に、図5Aの例5について説明する。例2は、例4における「ネットワーク上のLLM(API接続LLM)からの切替先」を「ローカルLLM」から「応答定型文DB(データベース)」に変更したものである。当該「応答定型文DB(データベース)」による応答生成処理は、図1C図2L、または図4Bで説明した処理と同様であるので繰り返しの説明は省略する。すなわち、例5では、なんらかの理由でネットワーク上のLLM(APIを用いて接続する大規模言語モデル)からの応答が所定時間を超過するようになり、ネットワーク上のLLM(APIを用いて接続する大規模言語モデル)による応答生成処理が順調に利用できない場合には、応答定型文データベースを用いた応答生成処理に切り替えることにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。
【0239】
次に、図5Aの例6~例9について説明する。例6~例9は、「切替概要」に示すとおり、API利用量または利用料金の上限到達により切替を行う例である。ここで、実施例2において説明したとおり、大規模言語モデルの提供元は、大規模言語モデルの学習に用いられたコストを端末のAPIの利用料金として、端末の利用者から回収することが多い。そのとき、自然言語モデルでは、トークンと呼ばれる文章を区切った言葉の単位の処理数でAPIの利用料金が請求される形式が多い。ここで、API利用料金には様々な請求方法や制限方法が考えられる。その一案として、ユーザが大規模言語モデルの利用サービスの提供を通常の状態で受けられる量の上限をトークン処理数を用いて規定する例が考えられる。
【0240】
この場合、ユーザは、当該利用量(もしくは対応する利用料金)に達するまでは所定のAPI利用料金で大規模言語モデルの利用するサービスを受けることができ、利用量(もしくは対応する利用料金)の上限に達すると、大規模言語モデルの利用サービスの提供を通常の状態(性能または頻度)で受けられなくなるなどの一定の制限が発生する、などが考えられる。
【0241】
図5Aの例6~例9は、大規模言語モデルの利用サービスに、このような制限が発生した場合の、人工知能応答出力装置1001の制御部1110による応答生成処理の切替え制御の例である。具体的には、例6では、「ネットワーク上のLLM(API接続LLM)切替前状態」は、APIの利用量やAPIの利用料金が所定の上限未達の状態である。これは、ネットワーク上のLLM(API接続LLM)の利用量が所定の上限に達していない状態を意味する。このとき、ユーザは、ネットワーク上のLLM(API接続LLM)を通常の状態で利用することができる。
【0242】
ここで、例6では、「切替発生条件」としてはAPIの利用量やAPIの利用料金が所定の上限に達した場合が示されている。これは、ネットワーク上のLLM(API接続LLM)の利用量が所定の上限に達した場合を意味する。また、例6では、「ネットワーク上のLLM(API接続LLM)からの切替先」としては、通常状態で利用していたLLM(第1のLLMと称してもよい)と異なるネットワーク上の第2のLLMが示されている。ネットワーク上の第2のLLMの例としては、通常状態で利用していた第1のLLMよりも、低料金であるLLMなどがあげられる。より低料金なサービスとなるので、第2のLLMの性能は、第1のLLMの性能よりも低性能であることが考えられる。この場合であっても、第1のLLMの利用量/利用料金の上限に達したあとでも安価に大規模言語モデルが利用可能となるのであれば十分利点がある。
【0243】
次に、図5Aの例7について説明する。例7は、例6における「ネットワーク上のLLM(API接続LLM)からの切替先」を、通常状態で利用していたLLM(第1のLLMと称してもよい)と異なるネットワーク上の第2のLLMから「ローカルLLM」に変更したものである。例7では、APIの利用量やAPIの利用料金が所定の上限に達した場合であっても、すなわち、ネットワーク上のLLM(API接続LLM)の利用量が所定の上限に達した場合であっても、ネットワーク上のLLMの利用量、APIの利用量、またはAPIの利用料金、などによる制限を受けない、ローカルLLMを用いた応答生成処理に切り替えることにより、引き続き大規模言語モデルを用いた応答生成処理を行うことが可能となる。
【0244】
次に、図5Aの例8について説明する。例8は、例7における「ネットワーク上のLLM(API接続LLM)からの切替先」を「ローカルLLM」から「応答定型文DB(データベース)」に変更したものである。当該「応答定型文DB(データベース)」による応答生成処理は、図1C図2L、または図4Bで説明した処理と同様であるので繰り返しの説明は省略する。例8では、APIの利用量やAPIの利用料金が所定の上限に達した場合であっても、すなわち、ネットワーク上のLLM(API接続LLM)の利用量が所定の上限に達した場合であっても、ネットワーク上のLLMの利用量、APIの利用量、またはAPIの利用料金、などによる制限を受けない、応答定型文データベースを用いた応答生成処理に切り替える。これにより、より簡易な処理によって応答を生成して当該応答をユーザに出力することが可能となる。
【0245】
次に、図5Aの例9について説明する。例9は、例7における「ネットワーク上のLLM(API接続LLM)からの切替先」を「ローカルLLM」から「不応答対応」に変更したものである。当該「不応答対応」とは、ユーザに対する応答を生成しない、または、ユーザに対する応答を出力しない対応を意味する。例9では、APIの利用量やAPIの利用料金が所定の上限に達したこと、すなわち、ネットワーク上のLLM(API接続LLM)の利用量が所定の上限に達したことにより、ネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理が利用できない場合の対応をより簡易にすることが可能となる。
【0246】
以上説明した、図5Aの例1~例9に示す、人工知能応答出力装置10010の応答生成処理の切り替え制御によれば、ネットワーク上のLLM(APIを用いて接続する大規模言語モデル)による応答生成処理が通常どおり利用できない状況であっても、それぞれの状況に応じたより好適な切替え、または対応を行うことができる。
【0247】
なお、図5Aの例1~例9の切替え制御は、複数の例を組み合わせて制御を行ってもよい。例えば、例1~例3の切替え制御は、それぞれ例4~例9のいずれかの制御と組み合わせてもよい。同様に、例4または例5の制御は、それぞれ例1~例3、または例6~例9のいずれかの制御と組み合わせてもよい。同様に、例6~例9の制御は、それぞれ例1~例5のいずれかの制御と組み合わせてもよい。
【0248】
次に、図5B図5Dを用いて、実施例5の人工知能応答出力装置10010をAIアシスタント装置またはキャラクター会話装置として構成する場合の、AIアシスタントまたはキャラクターの表示例の一例について、説明する。
【0249】
まず、図5Bは、図5Aの例3の切替え制御を行う場合の、人工知能応答出力装置10010における、AIアシスタントまたはキャラクターの表示例である。図5Bの例では、人工知能応答出力装置10010のネットワーク接続状態がネットワーク接続可能であるか、ネットワーク不能であるかに応じて、AIアシスタントまたはキャラクターの表示状態を変更する。人工知能応答出力装置10010が、ネットワーク接続可能である状態およびネットワーク不能である状態は図5Aで説明したとおりであるので、繰り返しの説明は行わない。
【0250】
図5Bの例では、人工知能応答出力装置10010は、(1)ネットワーク接続可能である場合はAIアシスタントまたはキャラクターを起きている通常状態で表示するが、(2)ネットワーク接続不能である場合はAIアシスタントまたはキャラクターを「眠っている」状態で表示する。図5Aの例3の切替え制御では、人工知能応答出力装置10010がネットワーク接続不能の場合は、ユーザから指示文の入力があっても応答を生成しない、または、応答を出力しない。このとき、人工知能応答出力装置10010が表示するAIアシスタントまたはキャラクターが起きている通常状態であるとユーザは違和感を感じるが、人工知能応答出力装置10010が表示するAIアシスタントまたはキャラクターを眠っている状態で表示すれば、ユーザは「当該AIアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することができ、ユーザが感じる違和感をより低減することが可能となる。
【0251】
なお、図5B(2)の場合、人工知能応答出力装置1001のタッチパネル、マイク1139または操作入力部1107を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザが「当該AIアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することが望ましい。よって、図5Bの(2)ネットワーク接続不能である場合はAIアシスタントまたはキャラクターを「眠っている」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置1001の制御部1110がネットワーク接続不能であると判断した時点の直後であることが望ましい。
【0252】
次に、別の表示例として、図5Cの表示例について説明する。図5Cの表示例は、図5Aの切替え制御において、表中の「ネットワーク上のLLM(API接続LLM)からの切替先」の状態に応じて、AIアシスタントまたはキャラクターの表示状態を変更する例である。具体的には、図5Cには、(1)人工知能応答出力装置10010がネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)との接続が可能であり、かつ、当該ネットワーク上の大規模言語モデルによる応答生成処理を利用可能な状態(本図における通常状態と称する)の場合のAIアシスタントまたはキャラクターの表示例と、(2)人工知能応答出力装置10010がネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)よりも低性能なLLMまたは応答定型文データベースによる応答生成処理へ切替えた状態におけるAIアシスタントまたはキャラクターの表示例と、(3)人工知能応答出力装置10010が図5Aで説明した不応答対応へ切替えた状態におけるAIアシスタントまたはキャラクターの表示例が示されている。
【0253】
図5Cの例では、例えば、(1)人工知能応答出力装置10010が「通常状態」である場合は、人工知能応答出力装置10010は、AIアシスタントまたはキャラクターは特に問題ない状態で表示する。なお、図5Cにおける「通常状態」とは、(2)、(3)の状態以外の状態と考えてもよい。また、例えば、(2)人工知能応答出力装置10010がネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)よりも低性能なLLMまたは応答定型文データベースによるによる応答生成処理へ切替えた状態では、人工知能応答出力装置10010は、AIアシスタントまたはキャラクターを「眠い」状態で表示する。なお、「AIアシスタントまたはキャラクターを「眠い」状態で表示する」とは、「AIアシスタントまたはキャラクターが眠気を感じている状態を示す表示」と表現してもよい。
【0254】
(2)の応答生成処理は、(1)の通常状態におけるネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)による応答生成処理よりも性能が低い。よって、AIアシスタントまたはキャラクターを「眠い」状態で表示することにより、ユーザに、AIアシスタントまたはキャラクターの応答性能が低いことを暗に伝えることができる。これにより、低性能な応答に対するユーザが感じる違和感をより低減することが可能となる。なお、人工知能応答出力装置10010がネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)よりも低性能なLLMまたは応答定型文データベースによるによる応答生成処理へ切替える切り替え条件は、図5Aで説明したとおりなので、繰り返しの説明は省略する。
【0255】
また、図5C(2)の場合、人工知能応答出力装置1001のタッチパネル、マイク1139または操作入力部1107を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザに、AIアシスタントまたはキャラクターの応答性能が低いことを暗に伝えることが望ましい。よって、図5Cの(2)AIアシスタントまたはキャラクターを「眠い」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置10010がネットワーク上の大規模言語モデル(APIを用いて接続する大規模言語モデル)よりも低性能なLLMまたは応答定型文データベースによるによる応答生成処理へ切替の時点の直後であることが望ましい。
【0256】
また、例えば、(3)人工知能応答出力装置10010が図5Aで説明した不応答対応へ切替えた状態では、人工知能応答出力装置10010は、AIアシスタントまたはキャラクターを「眠っている」状態で表示する。図5Bでも説明したとおり、人工知能応答出力装置10010が表示するAIアシスタントまたはキャラクターが「眠っている」状態で表示することにより、ユーザは「当該AIアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することができ、ユーザが感じる違和感をより低減することが可能となる。なお、人工知能応答出力装置10010が図5Aで説明した不応答対応へ切替える切替発生条件については、図5Aの例3または例9などで説明した通りであるので、繰り返しの説明は省略する。なお、図5C(3)の場合、人工知能応答出力装置1001のタッチパネル、マイク1139または操作入力部1107を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力を行う前に、ユーザが「当該AIアシスタントまたはキャラクターが応答しないのは、眠っているからである。」と理解することが望ましい。よって、図5Cの(3)AIアシスタントまたはキャラクターを「眠っている」状態で表示する状態の開始タイミングは、ユーザから大規模言語モデルによる応答を求めるユーザ入力より前の、人工知能応答出力装置10010が図5Aで説明した不応答対応への切替の時点の直後であることが望ましい。
【0257】
なお、図5Cの表示例では、人工知能応答出力装置10010は、ユーザに対して、応答生成処理に関する人工知能応答出力装置10010の状態の技術的な説明を、直接ユーザに対して行うことなく、AIアシスタントまたはキャラクターの状態の変化として暗に反映させる表示を行う。これにより、応答生成処理に関する人工知能応答出力装置10010の状態の技術的な説明を直接ユーザに対して行う場合よりも、ユーザが感じる違和感をより低減することができる。また、応答生成処理に関する人工知能応答出力装置10010の状態が変化したにも関わらず、AIアシスタントまたはキャラクターの表示状態を通常状態と同じままの表示とする場合よりも、ユーザが感じる違和感をより低減することができる。
【0258】
しかしながら、ユーザによっては、それぞれの状態における技術的な状態の説明をより正確に知りたい場合もあり得る。そこで、このようなユーザに対応するための表示例について、図5Dを用いて説明する。図5Dに示す表の行のうち、装置状態、表示状態説明の行は図5Cと全く同一であるので、繰り返しの説明は省略する。また、AIアシスタントまたはキャラクターの表示例の行に示される、AIアシスタントまたはキャラクターの表示例は、図5Cとほぼ同一であるが、表示例にはてなマーク(?)が表示されている点で相違する。当該はてなマーク(?)は、ユーザが人工知能応答出力装置10010に対して説明を要求する場合に操作するマークであり、ヘルプマークと称してもよい。
【0259】
図5Dの例では、ユーザが、図1Bの操作入力部1107または表示部10011が有するタッチパネルなどを介したユーザ操作により、当該はてなマーク(?)を選択すると、人工知能応答出力装置10010のAIアシスタントまたはキャラクターの表示は、ユーザ操作後表示例の行に示される表示例に変更される。具体的には、装置状態が(1)、(2)または(3)のいずれの状態であっても、それぞれの状態における技術的な状態の説明を表示する。例えば、図5Dの例では、装置の状態が(1)通常状態であれば、「通常状態です」と技術的に特に制限のない通常の状態であることを説明する表示を行えばよい。また、装置の状態が(2)低性能LLMまたは応答定型文データベースを使用している状態であれば、「低性能モードです」と、低性能状態であることを技術的に説明する表示を行えばよい。当該表示は、AIアシスタントまたはキャラクターの表示が「眠い」状態で表示している要因を説明する表示と考えてもよい。
【0260】
この場合、さらに技術的に詳細な説明を行ってもよい。具体的には、「低性能LLM使用モードです」または「定型文応答モードです」などの表示を行ってもよい。また、装置の状態が(3)不応答対応であれば、「ネットワーク接続不能状態です」と、不応答対応への切替えの要因を技術的に説明する表示を行えばよい。不応答対応への切替えの要因が、ネットワーク上のLLM(APIを用いて接続する大規模言語モデル)からの応答が所定時間を超過していることである場合は、「LLMからの応答が遅延しています」などと表示してもよい。また、不応答対応への切替えの要因が、ネットワーク上のLLMの利用量、API利用量またはAPI利用料金が上限に到達したことである場合は、「LLMの利用量が上限に達しました」、「APIの利用量が上限に達しました」、または、APIの利用料金が所定の額に達しました」などと表示してもよい。これらの表示は、AIアシスタントまたはキャラクターの表示が「眠っている」状態で表示している要因を説明する表示と考えてもよい。
【0261】
以上説明した図5Dの表示例によれば、人工知能応答出力装置10010における応答生成処理に技術的な制約があったとしても、まずは、ユーザに対して直接的な説明を行わず、AIアシスタントまたはキャラクターの表示状態の変化により、暗に装置の状態を示すことにより、ユーザが感じる違和感をより低減することができる。技術的な説明が不要なユーザに対しては当該表示がより好適である。さらに、技術的な状態の説明を行うための操作マークを表示することにより、当該マークを操作したユーザに対しては、人工知能応答出力装置10010における応答生成処理の状態(通常状態または技術的制約がある状態)を技術的に説明する表示を行う。これにより、技術的な状態を正確に知りたいユーザにとってもより好適な表示を行うことが可能となる。
【0262】
なお、図5B図5C図5D、の例では、「不応答対応」であるときの、AIアシスタントまたはキャラクターの表示状態の例として「眠っている」状態を示しているが、これは一例であり、本実施例の態様はこれに限られない。「眠っている」状態に替えて、「休憩中」など、応答できない状況を暗に示す他の表示状態としてもよい。また、図5C図5D、の例では、低性能LLMまたは応答定型文データベースを使用している状態であるときの、AIアシスタントまたはキャラクターの表示状態の例として「眠い」状態を示しているが、これは一例であり、本実施例の態様はこれに限られない。「はらぺこ」など、AIアシスタントまたはキャラクターの応答性能が低いことを暗に示す他の表示状態としてもよい。
【0263】
以上説明した、実施例5に係る人工知能応答出力装置や、人工知能応答出力システムによれば、ネットワーク上の大規模言語モデルと人工知能応答出力装置の接続状態、ネットワーク上の大規模言語モデルからの応答遅延状態、またはネットワーク上の大規模言語モデルの利用量などに応じて、人工知能応答出力装置が用いる応答生成処理を、より好適に切替えることが可能となる。また、実施例5に係る人工知能応答出力装置をAIアシスタント装置またはキャラクター会話装置として構成する場合に、ユーザにとってより違和感が少ない表示を行うことが可能となる。
【0264】
<実施例6>
次に、本発明の実施例6は、実施例1~5の各図で説明した人工知能応答出力装置10010、または人工知能応答出力システムを改良したものである。具体的には、人工知能応答出力装置10010の応答生成処理を、ネットワーク上の大規模言語モデルによる応答生成処理または人工知能応答出力装置10010が備えるローカルの大規模言語モデル(ローカルLLM処理部10028など)による応答生成処理と、応答定型文データベースによる応答生成処理を、より好適に組み合わせて応答出力を生成する例である。本実施例では、これらの実施例との相違点を説明し、これらの実施例と同様の構成については、繰り返しの説明は省略する。
【0265】
上述の実施例同様、人工知能応答出力装置10010は、人工知能応答出力装置、キャラクター会話装置、AIアシスタント装置、AIアシスタント表示装置、人工知能インタフェース装置と称してもよい。人工知能応答出力装置10010と大規模言語モデルサーバを含むシステムは、人工知能応答出力システム、キャラクター会話システム、AIアシスタントシステム、AIアシスタント表示システム、人工知能インタフェースシステムと称してもよい。
【0266】
図6を用いて、本発明の実施例6の人工知能応答出力装置1001における応答生成処理の一例について説明する。図6は、実施例6に係る、本発明の実施例6の人工知能応答出力装置1001における応答生成処理のフローチャートの一例が示されている。具体的には、上から下へ時刻が進行する時間軸、処理フロー、応答出力例が示されている。応答出力例に示される応答の出力は、人工知能応答出力装置1001の表示部10011による表示または音声出力部1140による音声出力を介して行えばよい。
【0267】
図6の例では、まず、時刻t0において、人工知能応答出力装置1001のタッチパネル、マイク1139または操作入力部1107を介して、ユーザから大規模言語モデルによる応答を求めるユーザ入力があり、人工知能応答出力装置1001の制御部1110が、当該ユーザ入力を取得する(ステップ600)。次に、時刻t1において、制御部1110が、ストレージ部1170に格納される応答定型文データベースを用いた応答出力のための準備を開始し、応答定型文データベースを用いた応答出力を開始する(ステップ601)。図6の例では、時刻t2において、応答定型文データベースを用いた応答出力が開始されており、図に示すように、定型文応答が出力中であり、出力完了していない。図中の「おはよう」は、「おはようございます。…」と続く文章の途中までの出力を示したものである。
【0268】
時刻t3において、応答定型文データベースを用いた応答出力が完了する前に、制御部1110が、ステップ600で取得したユーザ入力にもとづいて指示文を生成し、ネットワーク上の大規模言語モデルまたは人工知能応答出力装置10010が備えるローカルの大規模言語モデル(ローカルLLM処理部10028など)へ生成した指示文を送信し、大規言語モデルによる応答の要求を開始する(ステップ602)。さらに、時刻t4において、応答定型文データベースを用いた応答出力が完了する前に、制御部1110は、大規模言語モデルからの応答取得を開始する(ステップ603)。
【0269】
時刻t5において、応答定型文データベースを用いた応答出力が完了した応答出力例を示す。例えば、図6には、時刻t5において、応答定型文データベースに格納された定型文とメモリに格納された日付情報などを用いて「おはようございます。本日は〇月〇日ですね。」という応答出力の表示が完了した例を示している。ここで、応答定型文データベースを用いた応答出力が完了する前の時刻t4において、制御部1110は、既に、大規模言語モデルからの応答取得を開始している。よって、制御部1110は、応答定型文データベースを用いた応答出力表示が完了した時刻t5に続く時刻t6に、当該応答定型文データベースを用いた応答出力に続けて、大規模言語モデルからの応答出力を開始する(ステップ604)。その後、時刻t7において、応答定型文データベースを用いた応答出力に続けて大規模言語モデルからの応答が出力される。大規模言語モデルからの応答出力が完了すると、図6に示す処理フローによる応答出力が完了する(ステップ605)。
【0270】
次に、本発明の図6に示す処理フローの効果について説明する。大規模言語モデルの処理には多くの計算リソースが必要である。一般的に、学習よりも計算リソースが少なく済む推論をGPU(Graphics Processing Unit)を用いて処理したとしても、制御部が大規模言語モデルへ応答要求を開始してから大規模言語モデルから応答を取得できるようになるまで数秒~十数秒かかる場合もある。この期間は、図6に示す時刻t3から時刻t4に対応する期間である。また、ユーザ入力のあった時刻t0から時刻t4に至るまでは、制御部1110は大規模言語モデルからの応答出力は取得出来ていないため、ユーザへ大規模言語モデルからの応答を出力することは出来ない。
【0271】
よって、図6に示すステップ601の応答定型文データベースを用いた応答出力のための準備の開始と、当該応答定型文データベースを用いた応答出力の開始が存在しない処理フローでは、ユーザはユーザ入力を行った時刻t0から時刻t4に至るまで数秒~十数秒を超える期間について、人工知能応答出力装置1001からの応答がないまま待ち続けることとなる場合がある。例えば、人工知能応答出力装置1001をAIアシスタント装置またはキャラクター会話装置として構成する場合など、当該待ち時間は、ユーザに違和感を与える可能性がある。
【0272】
これに対し、図6に示す本発明の実施例6に係る処理フローでは、制御部1110は、大規模言語モデルからの応答取得が開始される前に、大規模言語モデルの処理よりも計算リソースが少なくて済む応答定型文データベースを用いた応答出力の処理を開始する。これにより、ユーザは、時刻t0から時刻t4に至るまでの間、人工知能応答出力装置1001からの応答がないまま待ち続ける、という状態にならなくて済む。ユーザにとっては、応答定型文データベースを用いた応答出力であっても大規模言語モデルからの応答出力であっても、人工知能応答出力装置1001からの応答であることには変わりない。
【0273】
よって、図6に示す処理フローでは、ステップ603の前に、ステップ601を設けることによって、ユーザに対する人工知能応答出力装置1001の応答を疑似的に早めることができる。これにより、待ち時間の長さに起因するユーザの違和感をより低減することが可能である。また、ステップ604により、大規模言語モデルからの応答を、当該応答定型文データベースを用いた応答に続けて出力することにより、あたかもこれらの出力が一連のより自然な出力であるかのようにユーザに認識させることができる。
【0274】
以上説明した、実施例6に係る人工知能応答出力装置や、人工知能応答出力システムによれば、ユーザにとって人工知能応答出力装置からの応答待ち時間を短縮することができ、ユーザの感じる違和感をより低減することができる。
【0275】
また、本実施例に係る技術では、より好適な人工知能応答出力技術を提供することが可能となる。このような人工知能応答出力技術は、より質の高い、より信頼できるインフラへの導入が期待できる。当該技術がインフラへ導入されていくことにより、全ての人々に安価で公平なアクセスに重点を置いた経済発展と人間の福祉の支援に寄与できる。これにより、国連の提唱する持続可能な開発目標(SDGs:Sustainable Development Goals)の「9産業と技術革新の基盤をつくろう」に貢献する。
【0276】
また、本実施例に係る技術では、より好適な人工知能応答出力技術を提供することが可能となる。このような人工知能応答出力技術は、脆弱な立場にある人々の輸送システムへのアクセス性を向上させるために、公共交通機関の設備への導入が期待できる。当該技術が公共交通機関へ導入されていくことにより、公共交通機関の拡大などを通じた交通の安全性改善、および、全ての人々に安全かつ安価で容易に利用できる、持続可能な輸送システムへのアクセスの実現に寄与できる。これにより、国連の提唱する持続可能な開発目標(SDGs:Sustainable Development Goals)の「11住み続けられるまちづくりを」に貢献する。
【0277】
以上、種々の実施例について詳述したが、しかしながら、本発明は、上述した実施例のみに限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するためにシステム全体を詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0278】
10010…人工知能応答出力装置、10010…表示部、10028…ローカルLLM処理部、1107…操作入力部、1110…制御部、1132…通信部、1140…音声出力部、1139…マイク、1160…映像制御部、1170…ストレージ部、1180…撮像部
図1A
図1B
図1C
図2A
図2B
図2C
図2D
図2E
図2F
図2G
図2H
図2I
図2J
図2K
図2L
図3A
図3B
図3C
図3D
図3E
図3F
図3G
図3H
図3I
図4A
図4B
図5A
図5B
図5C
図5D
図6