(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-07-01
(45)【発行日】2025-07-09
(54)【発明の名称】情報処理システム及び情報処理方法
(51)【国際特許分類】
G16H 80/00 20180101AFI20250702BHJP
【FI】
G16H80/00
(21)【出願番号】P 2025050994
(22)【出願日】2025-03-26
【審査請求日】2025-03-26
【早期審査対象出願】
(73)【特許権者】
【識別番号】520408744
【氏名又は名称】株式会社I’mbesideyou
(74)【代理人】
【識別番号】110002790
【氏名又は名称】One ip弁理士法人
(72)【発明者】
【氏名】神谷 渉三
(72)【発明者】
【氏名】安藤 高太朗
【審査官】梅岡 信幸
(56)【参考文献】
【文献】国際公開第2024/214792(WO,A1)
【文献】特許第7629254(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
ユーザが話す様子を撮影した画像を取得する画像取得部と、
前記ユーザが話した会話内容を取得する会話取得部と、
前記画像を解析して前記ユーザの第1の精神状態を推定し、前記会話内容を解析して前記ユーザの第2の精神状態を推定する精神状態推定部と、
前記第1及び第2の精神状態を表す情報及び前記情報に基づいて
セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により、前記ユーザから共感を得るためのセリフを生成する会話生成部と、
前記セリフを出力する出力部と、
前記ユーザとのセッションの終了時に、前記会話内容の要約を生成して前記ユーザに前記要約を報知する要約報知部と、
を備えることを特徴とする情報処理システム。
【請求項2】
ユーザが話す様子を撮影した画像を取得する画像取得部と、
前記ユーザが話した会話内容を取得する会話取得部と、
前記画像を解析して前記ユーザの第1の精神状態を推定し、前記会話内容を解析して前記ユーザの第2の精神状態を推定する精神状態推定部と、
前記第1及び第2の精神状態を表す情報及び前記情報に基づいて
セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により、前記ユーザから共感を得るためのセリフを生成する会話生成部と、
前記第2の精神状態を示す情報、前記会話内容、前記セリフ、ならびに、前記第2の精神状態及び前記会話内容に基づいて前記セリフの妥当性を判定する指示を含むプロンプトを大規模言語モデルに与えて、前記セリフの妥当性を判定する判定部と、
前記セリフを出力する出力部と、
を備え、
前記会話生成部は、前記妥当性に応じて前記セリフを再作成すること、
ることを特徴とする情報処理システム。
【請求項3】
請求項1又は2に記載の情報処理システムであって、
前記会話生成部は、推定した前記
第1及び第2の精神状態を表す情報及び前記情報に基づいて前記セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により前記セリフを生成すること、
を特徴とする情報処理システム。
【請求項4】
請求項1又は2に記載の情報処理システムであって、
前記ユーザが話した会話内容を取得する会話取得部を備え、
前記精神状態推定部は、前記画像から解析した第1の前記精神状態とは別に、前記会話内容を解析して前記ユーザの第2の精神状態を推定し、
前記会話生成部は、前記第1及び第2の精神状態を表す情報及び前記情報に基づいて前記セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により前記セリフを生成すること、
を特徴とする情報処理システム。
【請求項5】
コンピュータが、
ユーザが話す様子を撮影した画像を取得し、
前記ユーザが話した会話内容を取得し、
前記画像を解析して前記ユーザの第1の精神状態を推定し、前記会話内容を解析して前記ユーザの第2の精神状態を推定し、
前記第1及び第2の精神状態を表す情報及び前記情報に基づいて
セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により、前記ユーザから共感を得るためのセリフを生成し、
前記セリフを出力し、
前記ユーザとのセッションの終了時に、前記会話内容の要約を生成して前記ユーザに前記要約を報知すること、
を特徴とする情報処理方法。
【請求項6】
コンピュータが、
ユーザが話す様子を撮影した画像を取得し、
前記ユーザが話した会話内容を取得し、
前記画像を解析して前記ユーザの第1の精神状態を推定し、前記会話内容を解析して前記ユーザの第2の精神状態を推定し、
前記第1及び第2の精神状態を表す情報及び前記情報に基づいて
セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により、前記ユーザから共感を得るためのセリフを生成し、
前記第2の精神状態を示す情報、前記会話内容、前記セリフ、ならびに、前記第2の精神状態及び前記会話内容に基づいて前記セリフの妥当性を判定する指示を含むプロンプトを大規模言語モデルに与えて、前記セリフの妥当性を判定し、
前記妥当性に応じて前記セリフを再作成し、
前記セリフを出力すること、
を特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
人工知能用いた会話プログラムが提供されている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
精神疾患を有するユーザとの会話をスムーズに行うことは難しい。
【0005】
本発明はこのような背景を鑑みてなされたものであり、ユーザと効果的に対話することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するための本発明の主たる発明は、情報処理システムであって、ユーザが話す様子を撮影した画像を取得する画像取得部と、前記画像を解析して前記ユーザの精神状態を推定する精神状態推定部と、推定した前記精神状態に基づいて前記ユーザから共感を得るためのセリフを生成する会話生成部と、前記セリフを出力する出力部と、を備えることを特徴とする。
【0007】
その他本願が開示する課題やその解決方法については、発明の実施形態の欄及び図面により明らかにされる。
【発明の効果】
【0008】
本発明によれば、ユーザと効果的に対話することができる。
【図面の簡単な説明】
【0009】
【
図1】情報処理システムの全体構成例を示す図である。
【
図2】管理サーバ2のハードウェア構成例を示す図である。
【
図3】管理サーバ2のソフトウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
<システムの概要>
以下、本発明の一実施形態に係る情報処理システムについて説明する。本実施形態の情報処理システムは、ユーザとの対話を行おうとするもので、とくに精神疾患を有するユーザに対するカウンセリングを行うことを想定している。後述するように情報処理システムは、大規模言語モデルを用いてユーザに対して発話するセリフを生成する。本実施形態の情報処理システムでは、次のような流れでユーザとの対話を行うように大規模言語モデルにセリフを作成させている。
(1)アイスブレイク及び情報収集
簡単に回答できるような会話から始めて行き、ユーザに関する情報を収集する。
(2)共感生成
ユーザに共感を生じさせるような会話を行う。
(3)レビュー
セリフの妥当性を大規模言語モデルを用いて判断し、必要に応じてセリフを再生成する。
(4)次の会話の予約
セッションの終了時には、これまでの会話を要約し、次にユーザに会話の通知をするタイミングを大規模言語モデルを用いて決定し、これまでの会話に出てきた個人情報は格納しておく。
【0011】
以下、本実施形態の情報処理システムについて説明する。
【0012】
図1は、情報処理システムの全体構成例を示す図である。本実施形態の情報処理システムは、管理サーバ2を含んで構成される。管理サーバ2は、ユーザ端末1と通信ネットワークを介して通信可能に接続される。通信ネットワークは、たとえばインターネットであり、公衆電話回線網や携帯電話回線網、無線通信路、イーサネット(登録商標)などにより構築される。
【0013】
ユーザ端末1は、ユーザが操作するコンピュータである。ユーザ端末1は、例えば、スマートフォン、タブレットコンピュータ、パーソナルコンピュータなどとすることができる。
【0014】
管理サーバ2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、あるいはクラウド・コンピューティングによって論理的に実現されてもよい。
【0015】
<管理サーバ>
図2は、管理サーバ2のハードウェア構成例を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。管理サーバ2は、CPU201、メモリ202、記憶装置203、通信インタフェース204、入力装置205、出力装置206を備える。記憶装置203は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュメモリなどである。通信インタフェース204は、通信ネットワークに接続するためのインタフェースであり、例えばイーサネット(登録商標)に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのUSB(Universal Serial Bus)コネクタやRS232Cコネクタなどである。入力装置205は、データを入力する、例えばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどである。出力装置206は、データを出力する、例えばディスプレイやプリンタ、スピーカなどである。なお、後述する管理サーバ2の各機能部はCPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現され、管理サーバ2の各記憶部はメモリ202及び記憶装置203が提供する記憶領域の一部として実現される。
【0016】
図3は、管理サーバ2のソフトウェア構成例を示す図である。管理サーバ2は、個人情報記憶部231と、画像取得部211と、精神状態推定部212と、会話生成部213と、出力部214と、会話取得部215と、判定部216と、通知設定部217と、要約報知部218と、個人情報抽出部219と、を備える。
【0017】
<記憶部>
個人情報記憶部231は、ユーザの個人情報を記憶する。個人情報記憶部231は、ユーザを特定する情報(例えば、ユーザID)に対応付けて、個人情報を記憶する。個人情報は、ユーザの氏名や性別、住所などを含む。個人情報は、ユーザの性格、感情表現など、ユーザの属性を広く含む。
【0018】
個人情報記憶部231は、後述する個人情報抽出部219によって抽出された個人情報を受け取り、構造化されたデータとして保存する。個人情報記憶部231は、例えば、リレーショナルデータベース、NoSQLデータベース、キーバリューストア等の形式で実装することができる。個人情報記憶部231に格納された個人情報は、ユーザとの過去の会話履歴と関連付けられ、会話生成部213がより個人化されたセリフを生成する際の参照情報として利用される。また、個人情報記憶部231は、個人情報の更新履歴を保持することができ、ユーザの個人情報の変化を時系列で追跡することが可能である。
【0019】
<機能部>
画像取得部211は、ユーザが話す様子を撮影した画像(本実施形態では動画)を取得する。画像取得部211は、例えば、ユーザ端末1が備えるカメラで撮影した動画をユーザ端末1からストリーミングにより受信することができる。画像取得部211は、画像とともに、ユーザが話した声を集音した音声を取得することができる。画像取得部211は、例えば、ユーザ端末1が備えるマイクロフォンで集音した音声をユーザ端末1からストリーミングにより受信することができる。画像取得部211は、映像と音声の両方を含む動画像をユーザ端末1から受信することができる。
【0020】
精神状態推定部212は、ユーザの精神状態を推定する。本実施形態において、「精神状態」とは、感情状態のみならず、認知状態、思考パターン、注意の状態、意欲レベル、ストレスレベル、疲労度、覚醒度、および精神疾患に関連する症状の発現状態など、ユーザの心理的・精神的状態を広く含む概念である。精神状態は、一時的な状態(状態的側面)と、比較的持続的な特性(特性的側面)の両方を含みうる。
【0021】
精神状態推定部212は、動画像を解析して患者の生体反応の変化を検出することができる。
【0022】
精神状態推定部212は、例えば動画像を画像のセット(フレーム画像の集まり)と音声とに分離し、それぞれから生体反応の変化を解析することができる。例えば、精神状態推定部212は、動画像から分離したフレーム画像を用いてユーザの顔画像を解析することにより、表情、目線、脈拍、顔の動きの少なくとも1つに関する生体反応の変化を解析することができる。また、精神状態推定部212は、動画像から分離した音声を解析することにより、ユーザの発言内容、声質の少なくとも1つに関する生体反応の変化を解析することができる。
【0023】
人は感情が変化すると、それが表情、目線、脈拍、顔の動き、発言内容、声質などの生体反応の変化となって現れる。本実施形態では、ユーザの生体反応の変化を解析することを通じて、ユーザの感情の変化を解析する。本実施形態において解析する感情は、一例として、快/不快の程度である。本実施形態において精神状態推定部212は、生体反応の変化を所定の基準に従って数値化することにより、生体反応の変化の内容を反映させた生体反応指標値を算出することができる。
【0024】
表情の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、事前に機械学習させた画像解析モデルに従って特定した顔の表情を複数に分類する。そして、その分類結果に基づいて、連続するフレーム画像間でポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、その解析結果に応じた表情変化指標値を算出することができる。
【0025】
目線の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から目の領域を特定し、両目の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、目線の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。目線の変化はユーザの集中度にも関連する。精神状態推定部212は、目線の変化の解析結果に応じた目線変化指標値を算出することができる。
【0026】
脈拍の変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定する。そして、顔の色情報(RGBのG)の数値を捉える学習済みの画像解析モデルを用いて、顔表面のG色の変化を解析する。その結果を時間軸に合わせて並べることによって色情報の変化を表した波形を形成し、この波形から脈拍を特定する。人は緊張すると脈拍が速くなり、気持ちが落ち着くと脈拍が遅くなる。生体反応解析部213は、脈拍の変化の解析結果に応じた脈拍変化指標値を算出することができる。
【0027】
顔の動きの変化の解析は、例えば以下のようにして行う。すなわち、フレーム画像ごとに、フレーム画像の中から顔の領域を特定し、顔の向きを解析することにより、ユーザがどこを見ているかを解析する。例えば、表示中の話者の顔を見ているか、表示中の共有資料を見ているか、画面の外を見ているかなどを解析する。また、顔の動きが大きいか小さいか、動きの頻度が多いか少ないかなどを解析するようにしてもよい。顔の動きと目線の動きとを合わせて解析するようにしてもよい。例えば、表示中の話者の顔をまっすぐ見ているか、上目遣いまたは下目使いに見ているか、斜めから見ているかなどを解析するようにしてもよい。精神状態推定部212は、顔の向きの変化の解析結果に応じた顔向き変化指標値を算出することができる。
【0028】
発言内容の解析は、例えば以下のようにして行う。すなわち、生体反応解析部213は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声認識処理を行うことによって音声を文字列に変換し、当該文字列を形態素解析することにより、助詞、冠詞などの会話を表す上で不要なワードを取り除く。そして、残ったワードをベクトル化し、ポジティブな感情変化が起きているか、ネガティブな感情変化が起きているか、およびどの程度の大きさの感情変化が起きているかを解析し、その解析結果に応じた発言内容指標値を算出することができる。
【0029】
声質の解析は、例えば以下のようにして行う。すなわち、生体反応解析部12は、指定した時間(例えば、30~150秒程度の時間)の音声について公知の音声解析処理を行うことによって音声の音響的特徴を特定する。そして、その音響的特徴に基づいて、ポジティブな声質変化が起きているか、ネガティブな声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析し、その解析結果に応じた声質変化指標値を算出することができる。
【0030】
精神状態推定部212は、以上のようにして算出した表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値、声質変化指標値の少なくとも1つを用いて生体反応指標値を算出する。例えば、表情変化指標値、目線変化指標値、脈拍変化指標値、顔向き変化指標値、発言内容指標値および声質変化指標値を重み付け計算することにより、生体反応指標値を算出することができる。
【0031】
精神状態推定部212は、患者からの上記回答と、生体反応の変化(生体反応指標値)とに応じて精神疾患を推定することができる。推定部214は、予め記憶されている疾患モデルに、受け付けた回答及び検出した生体反応の変化を与えて患者が罹患している精神疾患を推定することができる。
【0032】
精神状態推定部212は、疾患モデルによる推論の信頼度に基づいて、複数の精神疾患について患者が罹患している確率を求めることができる。具体的には、疾患モデルの出力層で算出される、各精神疾患のクラスに対する所属確率を利用する。通常、疾患モデルは、入力データ(患者の回答や生体反応指標値)を受け取り、そのデータがどの精神疾患のクラスに属するかを確率的に出力する。例えば、うつ病の確率が70%、双極性障害の確率が20%、統合失調症の確率が10%というように、複数の精神疾患に対する罹患確率が算出される。なお、信頼度を「確率」として用いてもよい。すなわち、線形ではない罹患の可能性を確率といってよい。
【0033】
精神状態推定部212は、推定した精神疾患の確率に基づいて、診断の確からしさの評価を行うことができる。最も確率の高い精神疾患の罹患確率の絶対値によって、推定結果の信頼性を評価することができる。例えば、うつ病の確率が90%以上である場合は、うつ病の可能性が非常に高いと判断できる一方、最も確率の高い精神疾患の確率が50%程度の場合は、診断の確からしさはそれほど高くないと判断できる。
【0034】
精神状態推定部212は、推定した精神疾患の確率に基づいて、併存症の可能性を示唆することができる。2つ以上の精神疾患の罹患確率が共に高い場合は、それらの疾患が併存している可能性が示唆されうる。
【0035】
上記のようにして、精神状態推定部212は、画像から解析した第1の精神状態と、音声から解析した第2の精神状態を推定することができる。
【0036】
会話生成部213は、ユーザに対するシステムからのセリフを生成する。会話生成部213は、精神状態推定部212が推定した精神状態に基づいてユーザから共感を得るためのセリフを生成することができる。会話生成部213は、推定した精神状態を表す情報と、当該情報に基づいてセリフを生成する指示とを含むプロンプトを大規模言語モデルに与える事によりセリフを生成することができる。また、会話生成部213は、第1及び第2の精神状態を表す情報と、これらの情報に基づいてセリフを生成する指示とを含むプロンプトを大規模言語モデルに与える事によりセリフを生成するようにしてもよい。
【0037】
会話生成部213がユーザから共感を得るためのセリフを生成する際には、以下のような具体的な言語パターンや心理学的アプローチを用いることができる。
【0038】
第1に、会話生成部213は、反映的傾聴の技法を用いたセリフを生成することができる。反映的傾聴とは、ユーザの発言内容や感情を言い換えて返すことで、ユーザが理解されていると感じられるようにする技法である。例えば、以下のような言語パターンを用いることができる。
【0039】
(1)単純な反映:ユーザの発言をほぼそのまま繰り返す。例えば、ユーザが「今日はとても疲れている」と言った場合、「今日はとても疲れているんですね」と返す。
【0040】
(2)感情の反映:ユーザの発言から感情を読み取り、それを言語化する。例えば、ユーザが「上司からの要求が多すぎて対応できない」と言った場合、「上司からの要求が多くて、圧倒されている感じがするんですね」と返す。
【0041】
(3)要約的反映:ユーザの複数の発言を要約して返す。例えば、長い会話の後に「つまり、仕事の負担と家庭の問題が重なって、精神的に余裕がなくなっているということですね」と返す。
【0042】
会話生成部213は、検証の技法を用いたセリフを生成することができる。検証とは、ユーザの感情や経験を正当化し、理解可能で自然なものとして認めることである。例えば、以下のような言語パターンを用いることができる。
【0043】
(1)感情の正当化:「そのような状況で不安を感じるのは自然なことです」「あなたがそう感じるのは十分理解できます」などの表現を用いる。
【0044】
(2)普遍化:「多くの人がそのような状況で同じように感じます」「それは珍しい反応ではありません」などの表現を用いる。
【0045】
(3)理解の表明:「あなたの立場だったら、私もそう感じるかもしれません」「その状況の難しさはよく理解できます」などの表現を用いる。
【0046】
会話生成部213は、自己開示の技法を用いたセリフを生成することができる。自己開示とは、システム自身の「経験」や「感情」を適度に共有することで、ユーザとの心理的距離を縮める技法である。ただし、システムの自己開示は架空のものであり、あくまでユーザの共感を得るための手段として用いられる。例えば、以下のような言語パターンを用いることができる。
【0047】
(1)類似経験の共有:「私も以前、似たような状況を経験したことがあります」「多くの方からそのようなお話を伺ったことがあります」などの表現を用いる。
【0048】
(2)感情の共有:「あなたのお話を聞いていて、私も少し悲しい気持ちになりました」「あなたの成功を聞いて、私も嬉しく思います」などの表現を用いる。
【0049】
会話生成部213は、非言語的要素を含むセリフを生成することができる。非言語的要素は、テキストでは「(うなずく)」「(少し間を置く)」などの指示として表現され、音声合成や視覚的表現の際に実際の動作として実現される。例えば、以下のような非言語的要素を指定することができる。
【0050】
(1)相槌や間:「(うなずきながら)なるほど」「(しばらく考えるように間を置いて)そうですね...」などの表現を用いる。
【0051】
(2)声のトーンや速度の指定:「(穏やかな声で)大丈夫ですよ」「(ゆっくりと)一つずつ考えていきましょう」などの表現を用いる。
【0052】
(3)感情表現の指定:「(共感的な表情で)つらかったですね」「(微笑みながら)素晴らしい成果ですね」などの表現を用いる。
【0053】
会話生成部213は、ユーザの精神状態や会話の文脈に応じて、上記の技法を適切に組み合わせてセリフを生成することができる。例えば、ユーザが悲しみや喪失感を表現している場合には、主に反映的傾聴と検証の技法を用いたセリフを生成することができる。また、ユーザが不安や恐怖を表現している場合には、検証の技報と非言語的要素を組み合わせたセリフを生成することができる。
【0054】
また、会話生成部213は、ユーザとの会話の進行段階に応じて異なる技法を用いるようにすることもできる。
【0055】
会話生成部213が生成する「セリフ」は、単なるテキスト情報に限定されなくてよい。セリフには、発話内容を示すテキスト情報に加えて、以下のような非言語的要素や感情表現に関する情報を含めることができる。
(1)音声パターン情報:声の高低、速度、リズム、抑揚、間(ま)の取り方などの情報。例えば、ユーザが落ち込んでいると推定された場合には、ゆっくりと穏やかな口調のセリフを生成するよう指定する情報を含める。
(2)感情表現情報:セリフに込める感情(共感、励まし、安心感など)を指定する情報。この情報は、後段の音声合成処理において感情を反映した音声特性の調整に利用できる。
(3)非言語的表現情報:アバターやロボットなどの物理的な出力装置を用いる場合に、表情、ジェスチャー、姿勢などの身体的表現を指定する情報。例えば、「うなずきながら」「微笑みながら」などの指示を含める。
(4)タイミング情報:セリフを発するタイミングや、複数のセリフ間の間隔を指定する情報。ユーザの発話に対して即座に応答すべきか、少し間を置いて応答すべきかなどを指定できる。
【0056】
会話生成部213は、これらの非言語的要素や感情表現に関する情報を、ユーザの精神状態に応じて適切に調整することができる。例えば、ユーザが不安状態にあると推定された場合には、落ち着いた低めの声調で、適度な間を取りながらゆっくりと話すよう指定したセリフを生成することができる。また、ユーザが悲しみを感じていると推定された場合には、共感を示す温かみのある声調で、適切なタイミングで相槌を打つよう指定したセリフを生成することができる。
【0057】
また、会話生成部213は、ユーザとのセッションの開始時点に近いほど簡単に回答できる内容となるように第2の精神状態を推定するための質問を生成する。この質問に対する回答を解析することにより第2の精神状態を推定することができる。
【0058】
本実施形態で使用する大規模言語モデル(Large Language Model:LLM)は、大量のテキストデータで事前学習された自然言語処理モデルである。大規模言語モデルは、例えば、Transformer型のニューラルネットワークアーキテクチャに基づいており、自己注意機構(Self-Attention Mechanism)を用いて文脈を理解し、テキスト生成を行うことができる。
【0059】
本実施形態で使用可能な大規模言語モデルとしては、例えば、GPT(Generative Pre-trained Transformer)系列モデル、LLaMA(Large Language Model Meta AI)、PaLM(Pathways Language Model)、Claude、Bard、Gemini等が挙げられる。本実施形態では、これらの既存モデルをそのまま利用してもよいし、特定のタスク(例えば、精神状態の理解や共感的な応答の生成)に特化させるためにファインチューニングを施したモデルを利用してもよい。
【0060】
大規模言語モデルへの入力は、プロンプトと呼ばれるテキスト形式の指示である。本実施形態では、プロンプトには、ユーザの精神状態を表す情報、会話の履歴、システムの役割や目的に関する情報、および具体的な指示(例えば、「以下の精神状態に基づいて共感的なセリフを生成してください」など)が含まれうる。
【0061】
大規模言語モデルの実装方法としては、以下の方法が挙げられる。
(1)クラウドベースのAPI利用:外部のクラウドサービスが提供するAPIを通じて大規模言語モデルにアクセスする方法。この方法では、高性能なハードウェアを自前で用意する必要がなく、スケーラビリティも確保できる。
(2)オンプレミス実装:自社のサーバー上に大規模言語モデルを実装する方法。この方法では、データのプライバシーやセキュリティを高いレベルで確保できる。
(3)エッジデバイス上での実装:軽量化された大規模言語モデルをエッジデバイス(ユーザ端末など)上で動作させる方法。この方法では、ネットワーク遅延を最小限に抑え、オフライン環境でも利用可能となる。
【0062】
本実施形態では、上記のいずれの実装方法も採用可能であり、システムの要件や運用環境に応じて適切な方法を選択することができる。
【0063】
本実施形態では、大規模言語モデルの出力を制御するために、温度(Temperature)やトップP(Top-P)、トップK(Top-K)などのパラメータを調整することができる。温度は出力の多様性を制御するパラメータであり、低い値(例えば0.2)では決定論的な応答が、高い値(例えば0.8)ではより創造的な応答が生成される。本実施形態では、セリフの生成時には適度な創造性を持たせるために中程度の温度設定(例えば0.5~0.7)を用い、妥当性判定などの判断を要するタスクでは低い温度設定(例えば0.1~0.3)を用いることが好ましい。
【0064】
出力部214は、セリフを出力する。出力部214は、生成した質問をユーザに出力することができる。出力部214は、例えば、音声合成エンジンにセリフを与えてセリフの音声データを生成し、生成した音声データをユーザ端末1に送信するようにすることができる。
【0065】
出力部214は、アバターやバーチャルキャラクターを用いてセリフを出力することもできる。出力部214は、ユーザの精神状態に合わせて表情や身振りを変化させるバーチャルキャラクターを通じてセリフを出力することで、より人間らしい相互作用を実現することができる。例えば、精神状態推定部212が推定したユーザの精神状態が落ち込んでいると判断された場合には、バーチャルキャラクターに優しい表情や共感を示す身振りをさせながらセリフを発話させることができる。逆に、ユーザの精神状態が高揚していると判断された場合には、バーチャルキャラクターに明るい表情や活発な身振りをさせながらセリフを発話させることができる。
【0066】
出力部214は、キャラクターの外見や性格をユーザの好みや治療目的に合わせてカスタマイズすることもできる。例えば、ユーザが親しみを感じやすい年齢層や性別、外見的特徴を持つキャラクターを選択できるようにしたり、ユーザの治療目的に応じて、より共感的な性格特性を持つキャラクターや、より指導的な性格特性を持つキャラクターなど、複数のキャラクタータイプから選択できるようにしたりすることができる。キャラクターの外見や性格の設定情報は、個人情報記憶部231に記憶させておき、ユーザごとに最適なキャラクター設定を呼び出して使用することができる。
【0067】
出力部214は、バーチャルキャラクターの動作パターンをセリフの内容や意図に合わせて制御することもできる。例えば、質問を発するときには首を傾げるジェスチャーを加えたり、重要なポイントを強調するときには手を動かすジェスチャーを加えたりすることができる。また、セリフの感情的なニュアンスに合わせて、声のトーンや話すスピード、表情の変化などを調整することもできる。これらの非言語的な要素を適切に組み合わせることで、テキストや音声だけでは伝わりにくい微妙なニュアンスや感情を効果的に伝達し、ユーザとの信頼関係構築を促進することができる。
【0068】
会話取得部215は、ユーザが話した会話内容を取得する。会話取得部215は、精神状態推定部212が音声から解析した会話内容を取得するようにしてもよいし、精神状態推定部212に代わって音声を解析して会話内容を取得するようにしてもよい。会話取得部215は、会話生成部213が質問を生成した後の音声から、生成した質問に対する回答を含む会話内容を取得することができる。
【0069】
判定部216は、セリフの妥当性を判定する。判定部216は、第2の精神状態及び会話内容に基づいてセリフの妥当性を判定することができる。判定部216は、第2の精神状態を示す情報と、会話内容と、セリフと、第2の精神状態及び会話内容に基づいてセリフの妥当性を判定する指示とを含むプロンプトを大規模言語モデルに与えて妥当性を生成させることができる。なお、第2の精神状態に代えて又は加えて、第1の精神状態を用いるようにしてもよい。この場合には、第1及び第2の精神状態を示す情報をプロンプトに含めるようにし、指示は、第1及び第2の精神状態と会話内容戸に基づいてセリフの妥当性を判定するようなものにすることができる。
【0070】
判定部216がセリフの妥当性を判定する際の判定基準としては、以下の複数の観点を含むことができる。
(1)心理的安全性:セリフがユーザに心理的な害を与える可能性がないか。例えば、自殺念慮を強めるような表現、過度に否定的な表現、ユーザの状態を悪化させる可能性のある表現などが含まれていないかを評価する。
(2)共感の適切性:セリフがユーザの精神状態に対して適切な共感を示しているか。例えば、ユーザが悲しみを表現しているときに不適切に明るい反応をしていないか、あるいは逆に、軽微な懸念に対して過剰に深刻な反応をしていないかを評価する。
(3)文脈の一貫性:セリフが会話の流れや文脈と一貫しているか。過去の会話内容と矛盾していないか、唐突な話題転換がないかを評価する。
(4)個人化の程度:セリフがユーザの個人情報や過去の会話内容を適切に反映しているか。汎用的すぎる応答ではなく、ユーザ固有の状況に合わせたパーソナライズされた内容になっているかを評価する。
(5)治療的価値:セリフが治療的な観点から価値があるか。単なる共感だけでなく、認知の再構成、問題解決の促進、自己効力感の向上など、治療的な要素が含まれているかを評価する。
(6)文化的適切性:セリフがユーザの文化的背景や価値観に配慮しているか。文化的に不適切な表現や前提が含まれていないかを評価する。
【0071】
例えば、判定部216は、各判定基準について0から10までの数値スコアを算出し、各基準に重み付けを行った上で総合スコアを計算するようにしてもよい。例えば、心理的安全性には高い重み(例えば0.3)を、共感の適切性には中程度の重み(例えば0.2)を、その他の基準にはそれぞれ0.1~0.15程度の重みを割り当てることができる。総合スコアが所定の閾値(例えば7.0)を下回る場合、そのセリフは妥当でないと判定される。
【0072】
判定部216は、大規模言語モデルを用いてセリフの妥当性を判定する際、以下のような構造化されたプロンプトを使用することもできる。
「あなたは精神医療の専門家として、カウンセリングシステムが生成したセリフの妥当性を評価します。以下の情報に基づいて評価してください。
ユーザの精神状態:[精神状態の詳細情報]
会話の履歴:[直近の会話内容]
評価対象のセリフ:[生成されたセリフ]
以下の基準に基づいて、0から10のスケールで評価してください:
1.心理的安全性(重み:0.3):このセリフはユーザに心理的な害を与える可能性がありますか?
2.共感の適切性(重み:0.2):このセリフはユーザの精神状態に対して適切な共感を示していますか?
3.文脈の一貫性(重み:0.15):このセリフは会話の流れや文脈と一貫していますか?
4.個人化の程度(重み:0.15):このセリフはユーザの個人情報や過去の会話を適切に反映していますか?
5.治療的価値(重み:0.1):このセリフは治療的な観点から価値がありますか?
6.文化的適切性(重み:0.1):このセリフはユーザの文化的背景や価値観に配慮していますか?
各基準について評価理由も簡潔に説明し、最後に重み付け総合スコアを計算してください。また、改善が必要な場合は具体的な改善点を提案してください。」
【0073】
なお、判定部216は、1つの判定基準のみに基づいて妥当性を判定するように指示してもよい。例えば、共感の適切性を判断するようにプロンプトに指示を入れることができる。
【0074】
会話生成部213は、妥当性に応じてセリフを再作成することができる。
【0075】
会話生成部213がセリフを再作成する方法としては、以下の複数のアプローチを採用することができる。
【0076】
(1)問題点特定型再生成:判定部216が特定した具体的な問題点に焦点を当てた再生成を行う方法。例えば、「共感の適切性」のスコアが低い場合、会話生成部213は元のセリフに以下のような修正指示を加えたプロンプトを大規模言語モデルに与える。
「以下のセリフは、ユーザの精神状態に対する共感が不足しています。ユーザの[具体的な感情や状況]により深く共感を示すように修正してください:[元のセリフ]」
【0077】
(2)段階的改善型再生成:複数の問題点がある場合に、優先度の高い問題から順に対処する方法。例えば、まず「心理的安全性」の問題を修正したセリフを生成し、次にそのセリフの「共感の適切性」を改善するというように、段階的に改善を行う。
【0078】
(3)完全再生成型:元のセリフを参考にしつつも、新たに一から生成し直す方法。判定部216による評価結果を詳細に反映した新しいプロンプトを作成し、大規模言語モデルに与える。例えば:
「以下の会話履歴とユーザの精神状態に基づいて、新しいセリフを生成してください。前回生成されたセリフには[具体的な問題点]がありました。新しいセリフでは、[改善すべきポイント]に特に注意してください。」
【0079】
(4)複数候補生成型:複数の候補セリフを生成し、それぞれを判定部216で評価して最も高いスコアを得たものを採用する方法。この方法では、会話生成部213は同じプロンプトを用いて複数回(例えば3~5回)セリフを生成し、それぞれの候補に対して判定部216による評価を行う。
【0080】
会話生成部213は、セリフの再作成において、以下のような具体的な改善戦略を適用することができる。
【0081】
(1)言い換えによる改善:問題のある表現や文言を、より適切な表現に言い換える。例えば、「あなたは間違っています」という断定的な表現を「別の見方もあるかもしれません」というように柔らかい表現に変更する。
【0082】
(2)構造の修正:セリフの構造を変更することで、メッセージの伝わり方を改善する。例えば、否定的な内容を先に伝えてから肯定的な内容を伝えるのではなく、肯定的な内容から始めて否定的な内容を慎重に伝える構造に変更する。
【0083】
(3)具体性の調整:抽象的すぎる表現をより具体的にする、あるいは逆に、過度に具体的で限定的な表現をより一般化する。ユーザの状況に応じて適切な抽象度を選択する。
【0084】
(4)感情トーンの調整:セリフ全体の感情的なトーンを調整する。例えば、過度に明るすぎる場合は落ち着いたトーンに、過度に暗すぎる場合は希望を含むトーンに調整する。
【0085】
(5)個人化要素の追加:ユーザの個人情報や過去の会話内容を適切に参照し、セリフに組み込む。例えば、「前回お話しされた〇〇について、その後はいかがですか?」というように過去の会話を参照する。
【0086】
会話生成部213は、再作成したセリフについても判定部216による再評価を行い、妥当性が向上したことを確認することができる。再評価の結果、妥当性が十分に向上していない場合は、異なる再作成アプローチを試みるか、より根本的な問題(例えば、ユーザの精神状態の推定が不正確である可能性)を検討することができる。また、複数回の再作成を試みても妥当性が向上しない場合は、より安全で一般的な応答(例えば、「もう少し詳しくお聞かせいただけますか?」など)にフォールバックする機能を備えることができる。
【0087】
通知設定部217は、ユーザとのセッションの終了時に、会話内容に基づいて次回にユーザに会話を行うことの通知をする予定を設定する。通知設定部217は、例えば、リマインダーアプリケーションやアラームアプリケーションなどに通知の日時を設定することができる。通知設定部217は、会話内容と、会話内容に基づいて次にユーザに声かけをするべき日時を検討する指示とを含むプロンプトを大規模言語モデルに与えることにより通知の予定(日時)を決定させることができる。
【0088】
通知設定部217は、通知のタイミングを決定するために複数の要素を考慮した決定アルゴリズムを用いることができる。例えば、以下の要素に基づいて通知タイミングを算出することができる。
【0089】
(1)ユーザの精神状態の重症度:精神状態推定部212が推定した精神状態の重症度に応じて通知頻度を調整する。例えば、重度のうつ状態と推定された場合は1~2日以内の短期間での通知を設定し、軽度の不安状態と推定された場合は3~7日後の通知を設定する。
【0090】
(2)会話内容から抽出された時間的要素:会話中に言及された予定や出来事(「明日は面接がある」「週末に実家に帰る」など)を考慮し、ユーザの生活リズムに合わせた通知タイミングを設定する。
【0091】
(3)過去の応答パターン:ユーザが過去の通知にどのように反応したかの履歴データを分析し、応答率が高い曜日や時間帯を優先的に選択する。
【0092】
(4)治療プロトコルに基づく最適間隔:特定の精神疾患に対する標準的な治療プロトコルに基づく推奨フォローアップ間隔を参照する。例えば、認知行動療法では週1回のセッションが一般的とされているため、それに準じた間隔を基準値として設定する。
【0093】
通知設定部217は、ユーザの状態に応じて通知頻度を動的に調整する機能も備える。この調整は以下のルールに基づいて行われる:
【0094】
(1)状態悪化時の頻度増加:連続するセッションでユーザの精神状態が悪化傾向を示している場合、通知頻度を自動的に増加させる。例えば、通常週1回の通知を週2~3回に増やす。
【0095】
(2)状態改善時の頻度最適化:ユーザの状態が改善傾向にある場合、急激に通知頻度を減らすのではなく、段階的に間隔を広げていく。例えば、週2回から週1回、その後2週に1回というように徐々に調整する。
【0096】
(3)重要イベント前後の集中サポート:ユーザの会話内容から重要なライフイベント(試験、就職面接、引越しなど)が検出された場合、そのイベントの前後に集中的な通知を行うよう設定する。
【0097】
(4)非応答時の代替戦略:ユーザが一定回数(例えば2回連続)で通知に応答しない場合、通知の方法(テキスト、音声、視覚的アラートなど)や時間帯を変更する代替戦略を実行する。
【0098】
通知設定部217は、通知内容もユーザの状態に応じてパーソナライズする。例えば、前回のセッションで特定の課題や目標が設定された場合、その進捗を尋ねる内容を通知に含める。また、個人情報記憶部231に格納された情報を参照し、ユーザの興味・関心に関連する話題を通知内容に取り入れることで、ユーザの応答意欲を高める工夫を行う。
【0099】
通知設定部217は、通知設定の結果を構造化データとして記録し、時間の経過とともにユーザごとの最適な通知パターンを学習する。この学習データは、機械学習アルゴリズム(例えば、ランダムフォレストや勾配ブースティング決定木)を用いて分析され、通知タイミングの予測精度を継続的に向上させる。学習モデルは、通知に対するユーザの反応(応答までの時間、セッション参加の有無、セッション中の積極性など)を目的変数とし、通知のタイミング、内容、ユーザの状態などを説明変数として構築される。
【0100】
要約報知部218は、ユーザとのセッションの終了時(終了する前)に、会話内容の要約を生成してユーザに要約を報知する。セッションが終了しそうかどうかは、例えば、セリフや会話内容から判定することができる。要約報知部218は、要約を生成して、要約を出力部214に渡して出力部214が出力するようにすることができる。
【0101】
個人情報抽出部219は、ユーザとのセッションの終了時(終了する前)に、会話内容からユーザの個人情報を抽出することができる。個人情報抽出部219は、抽出した個人情報を個人情報記憶部231に登録することができる。
【0102】
個人情報抽出部219は、自然言語処理技術を用いて会話内容を解析し、ユーザの個人情報を特定することができる。個人情報抽出部219は、例えば、名前認識、エンティティ抽出、関係抽出などの技術を用いて、会話内容からユーザの氏名、年齢、職業、家族構成、趣味、好み、生活習慣、過去の経験、健康状態などの情報を抽出することができる。個人情報抽出部219は、抽出した個人情報の確信度を評価し、確信度が所定の閾値を超える情報のみを個人情報記憶部231に登録するようにしてもよい。
【0103】
個人情報抽出部219と個人情報記憶部231の連携により、システムはユーザとの会話を重ねるごとに、より詳細かつ正確なユーザプロファイルを構築することができる。個人情報抽出部219は、新たに抽出した個人情報と個人情報記憶部231に既に格納されている情報との整合性を確認し、矛盾がある場合には、より新しい情報や確信度の高い情報を優先して更新を行うことができる。また、個人情報抽出部219は、会話の文脈から個人情報の時間的変化(例えば、「以前は〇〇だったが、今は△△である」といった変化)を検出し、個人情報記憶部231内の情報を適切に更新することができる。
【0104】
個人情報記憶部231に格納された情報は、次回以降のセッションにおいて会話生成部213によって参照されうる。個人情報記憶部231に格納された情報は、ユーザの個人的背景や過去の会話内容を考慮したパーソナライズされたセリフの生成に活用することができる。例えば、ユーザの趣味や関心事に関連する話題を取り入れたり、過去に言及された問題の進展について尋ねたりするなど、より自然で継続性のある会話を実現することができる。また、精神状態推定部212は、個人情報記憶部231に格納された情報を参照することで、ユーザの通常の状態(ベースライン)と比較した精神状態の変化をより正確に推定するようにすることもできる。
【0105】
<動作>
図4は、管理サーバ2の動作を説明する図である。
【0106】
管理サーバ2は、ユーザの動画を取得し(S301)、映像及び音声からそれぞれ精神状態を推定し(S302)、精神状態に応じたセリフを生成して(S303)、ユーザに対してセリフを出力するようにする(S304)。
【0107】
以上のようにして、本実施形態の情報処理システムによれば、ユーザの精神状態を考慮しながらセリフを自動生成して会話を進めることができる。
【0108】
以上、本実施形態について説明したが、上記実施形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。
【0109】
例えば、上述した管理サーバ2の各機能部による処理は、いずれの機能部により実行されるようにしてもよい。また、上述した各機能部の処理の一部を実行する異なる機能部を追加するようにしてもよい。また、管理サーバ2の機能部は、複数台のコンピュータが分散して備えるようにしてもよい。
【0110】
また、管理サーバ2の各記憶部が記憶する情報は、いずれの記憶部が記憶するようにしてもよい。すなわち、上述した複数の記憶部が記憶する情報を1つの記憶部により記憶するようにしてもよいし、上述したある記憶部が記憶する情報の一部を他の記憶部が記憶するようにしてもよい。
【0111】
<変形例1>
上述した実施形態では、情報処理システムが一体となってユーザとの対話を行う構成について説明したが、本変形例では、複数のエージェントが連携して動作する複数エージェントシステムについて説明する。
【0112】
変形例1では、例えば、管理サーバ2は、画像取得エージェントと、精神状態推定エージェントと、セリフ生成エージェントと、統合管理エージェントとを備えることができる。なお、各エージェントは、独立したコンピュータシステムとして実装されてもよいし、同一のコンピュータシステム上で動作する独立したソフトウェアモジュールとして実装されてもよい。
【0113】
画像取得エージェントは、上述した画像取得部211の機能を担うエージェントであり、ユーザが話す様子を撮影した画像を取得する。画像取得エージェントは、複数のカメラデバイスを管理し、最適な角度や解像度で画像を取得する機能を有することができる。また、画像取得エージェントは、ユーザ端末1と通信し、ユーザ端末1から画像を取得する機能を有することができる。画像取得エージェントは、取得した画像データに前処理(ノイズ除去、解像度調整、フレームレート調整など)を施した上で、精神状態推定エージェントに送信することができる。
【0114】
精神状態推定エージェントは、上述した精神状態推定部212の機能を担うエージェントであり、画像取得エージェントから受信した画像を解析してユーザの精神状態を推定することができる。精神状態推定エージェントは、複数の専門サブエージェントを内部に持つことができる。例えば、表情解析サブエージェント、声質解析サブエージェント、身体動作解析サブエージェントなどである。各サブエージェントは、それぞれの専門領域に特化した解析を行い、その結果を精神状態推定エージェント内の統合サブエージェントに送信する。統合サブエージェントは、各サブエージェントからの解析結果を統合して、最終的な精神状態の推定結果を生成し、セリフ生成エージェントおよび統合管理エージェントに送信する。
【0115】
セリフ生成エージェントは、上述した会話生成部213の機能を担うエージェントであり、精神状態推定エージェントから受信した精神状態の推定結果に基づいて、ユーザから共感を得るためのセリフを生成することができる。セリフ生成エージェントも、複数の専門サブエージェントを内部に持つことができる。例えば、共感生成サブエージェント、問題解決サブエージェント、医学的アドバイスサブエージェントなどである。各サブエージェントは、それぞれの専門領域に特化したセリフを生成し、その結果をセリフ生成エージェント内の選択サブエージェントに送信する。選択サブエージェントは、ユーザの精神状態や会話の文脈に応じて、最も適切なサブエージェントが生成したセリフを選択するか、または複数のサブエージェントが生成したセリフを組み合わせて最終的なセリフを生成し、統合管理エージェントに送信する。
【0116】
統合管理エージェントは、各エージェント間の連携を管理し、システム全体の動作を制御するエージェントである。統合管理エージェントは、ユーザとのセッション全体を管理し、各エージェントの動作タイミングの調整や、エージェント間のデータ転送の管理を行うことができる。また、統合管理エージェントは、上述した出力部214、会話取得部215、判定部216、通知設定部217、要約報知部218、個人情報抽出部219の機能も担うことができる。
【0117】
統合管理エージェントは、セリフ生成エージェントから受信したセリフの妥当性を判定し、必要に応じてセリフの再生成をセリフ生成エージェントに要求することができる。また、統合管理エージェントは、セッションの終了時に、会話内容に基づいて次回にユーザに会話を行うことの通知をする予定を設定したり、会話内容の要約を生成してユーザに報知したり、会話内容からユーザの個人情報を抽出して個人情報記憶部に登録したりすることができる。
【0118】
変形例1の複数エージェントシステムによれば、各エージェントが専門領域に特化した処理を行うことで、システム全体の性能向上が期待できる。また、各エージェントを独立して開発・改良することができるため、システムの拡張性や保守性が向上する。さらに、必要に応じて特定のエージェントのみを置き換えることも容易になる。
【0119】
なお、精神状態推定エージェントやセリフ生成エージェントが内部に複数のサブエージェントを持つ構成を説明したが、これらのサブエージェントを独立したエージェントとして実装することも可能である。例えば、表情解析エージェント、声質解析エージェント、身体動作解析エージェントなどを独立したエージェントとして実装し、これらのエージェントの解析結果を統合するエージェントを別途設けるようにしてもよい。
【0120】
さらに、統合管理エージェントが複数の機能を担う構成としたが、これらの機能を担う複数のエージェントを設けるようにしてもよい。例えば、出力エージェント、会話取得エージェント、判定エージェント、通知設定エージェント、要約報知エージェント、個人情報抽出エージェントなどを独立したエージェントとして実装し、これらのエージェントの動作を調整するマスターエージェントを別途設けるようにしてもよい。
【0121】
<変形例2>
変形例2では、異なる役割や専門性を持つ複数のエージェントを実装し、ユーザの状態や会話の進行に応じて適切なエージェントが対応する複数エージェントシステムを構成する。
【0122】
変形例2の管理サーバ2はさらに、エージェント選択部と、エージェントプロファイル記憶部と、エージェント間連携部とを備えることができる。
【0123】
エージェントプロファイル記憶部は、複数のエージェントのプロファイル情報を記憶する。各エージェントのプロファイル情報には、エージェントの役割、専門性、性格特性、対話スタイル、適用すべき精神状態の条件、外見的特徴などが含まれる。本変形例では、例えば以下のような異なる役割を持つエージェントを用意することができる。
【0124】
(1)共感エージェント:ユーザの感情に共感し、情緒的サポートを提供することに特化したエージェント。温かみのある話し方や、ユーザの感情を肯定・受容する対話スタイルを持つ。
【0125】
(2)問題解決エージェント:ユーザが直面している問題や課題に対して、具体的な解決策や対処法を提案することに特化したエージェント。論理的で構造化された対話スタイルを持つ。
【0126】
(3)医学アドバイスエージェント:精神医学的知識に基づいた専門的なアドバイスや情報提供を行うエージェント。科学的根拠に基づいた説明や、治療法に関する情報提供を行う。
【0127】
(4)動機づけエージェント:ユーザの行動変容や目標達成を支援することに特化したエージェント。励ましや肯定的フィードバックを多用し、ユーザの自己効力感を高める対話スタイルを持つ。
【0128】
エージェント選択部は、精神状態推定部212が推定したユーザの精神状態と、会話取得部215が取得した会話内容に基づいて、複数のエージェントの中から現在の状況に最適なエージェントを選択する。エージェント選択部は、例えば以下のような選択ロジックを用いることができる。
【0129】
(1)精神状態に基づく選択:ユーザが強い不安や悲しみを示している場合は共感エージェントを、問題について具体的に話している場合は問題解決エージェントを、症状や治療について質問している場合は医学アドバイスエージェントを選択する。
【0130】
(2)会話フェーズに基づく選択:会話の初期段階では共感エージェントを、問題の詳細が明らかになった段階では問題解決エージェントを、会話の終盤では動機づけエージェントを選択するなど、会話の進行に応じて適切なエージェントを選択する。
【0131】
(3)ユーザの反応に基づく選択:特定のエージェントに対するユーザの反応(精神状態の変化や会話の活発さなど)を分析し、ポジティブな反応を引き出したエージェントを優先的に選択する。
【0132】
(4)時間経過に基づく選択:長時間同じエージェントが対応している場合、会話に新たな視点や活力を与えるために異なるエージェントに切り替える。
【0133】
エージェント選択部は、上記の選択ロジックを組み合わせた複合的な判断基準を用いることができる。また、エージェント選択部は、機械学習アルゴリズムを用いて、過去の会話データからどのような状況でどのエージェントが最も効果的だったかを学習し、選択精度を向上させることもできる。エージェント選択部は、選択したエージェントのプロファイル情報をエージェントプロファイル記憶部から取得し、会話生成部213に提供することができる。
【0134】
会話生成部213は、エージェント選択部から提供されたエージェントのプロファイル情報に基づいて、そのエージェントの役割、専門性、対話スタイルに合致したセリフを生成する。具体的には、会話生成部213は、精神状態を表す情報、会話内容、およびエージェントのプロファイル情報を含むプロンプトを大規模言語モデルに与えることにより、選択されたエージェントの特性を反映したセリフを生成する。プロンプトには、例えば「あなたは共感を示すことに特化したカウンセラーです。以下の精神状態と会話内容に基づいて、温かみがあり、ユーザの感情を受容するセリフを生成してください」といった指示を含めることができる。
【0135】
エージェント間連携部は、複数のエージェント間の情報共有や連携を管理する。エージェント間連携部は、例えば、以下のような機能を提供することができる。
【0136】
(1)会話履歴の共有:あるエージェントから別のエージェントに切り替わる際に、それまでの会話の文脈や重要なポイントを引き継ぐ。
【0137】
(2)エージェント間の協調:複雑な問題に対して、複数のエージェントが協力して対応するための調整を行う。例えば、共感エージェントが感情的サポートを提供した後、問題解決エージェントが具体的な解決策を提案するといった連携を可能にする。
【0138】
(3)エージェント切替の自然な実現:エージェントが切り替わる際に、自然な会話の流れを維持するための橋渡し的なセリフを生成する。例えば「この問題については、より専門的な視点からアドバイスができる同僚に代わります」といった形で、エージェント切替を会話の中で自然に表現する。
【0139】
エージェント間連携部は、大規模言語モデルを用いて、複数のエージェント間の対話を模擬することもできる。例えば、複雑な問題に対して、共感エージェントと問題解決エージェントが協力して対応する場合、エージェント間連携部は「共感エージェントと問題解決エージェントがユーザの問題について話し合っている」という設定のプロンプトを大規模言語モデルに与え、両エージェントの視点を組み合わせた総合的な応答を生成することができる。
【0140】
出力部214は、選択されたエージェントの特性に合わせた出力形式でセリフを出力することができる。例えば、各エージェントに固有のバーチャルキャラクターの外見、声質、話し方のパターン、ジェスチャーなどを設定し、選択されたエージェントに応じてこれらの出力特性を切り替えることができる。これにより、ユーザは視覚的・聴覚的にも異なるエージェントと対話していることを認識できる。
【0141】
変形例2によれば、ユーザの精神状態や会話の進行に応じて最適なエージェントが対応することで、より柔軟で多面的な支援が可能となる。例えば、強い感情的動揺を示しているユーザには共感エージェントが対応して情緒的サポートを提供し、感情が落ち着いた後は問題解決エージェントが具体的な対処法を提案するといった、状況に応じた適切な支援を提供することができる。また、単一のエージェントでは対応が難しい複雑な問題や多面的な支援が必要な場合でも、複数のエージェントの専門性を組み合わせることで、より包括的な支援が可能となる。
【0142】
また、複数のエージェントを用意することで、ユーザの好みや相性に合わせたパーソナライズも可能となる。例えば、あるユーザは共感的なアプローチに良く反応し、別のユーザは具体的な問題解決アプローチを好むといった個人差に対応することができる。エージェント選択部は、ユーザとの過去の対話データを分析し、特定のユーザに対して効果的だったエージェントを学習することで、ユーザごとに最適化されたエージェント選択を行うことができる。
【0143】
<変形例3>
変形例3では、ユーザの精神状態の長期的な変化パターンを追跡し、将来の状態変化を予測する。
【0144】
変形例3では、管理サーバ2はさらに、精神状態追跡予測部を備える。精神状態追跡予測部は、精神状態推定部212が推定した精神状態の時系列データを蓄積し、分析することで、ユーザの精神状態の長期的な変化パターンを追跡し、将来の状態変化を予測する。また、個人情報記憶部231とは別に、精神状態履歴記憶部を新たに追加する。精神状態履歴記憶部は、ユーザごとの精神状態の時系列データを構造化して保存する。具体的には、精神状態推定部212が推定した第1および第2の精神状態、推定日時、推定時の状況(会話内容の要約など)、および関連する生体反応指標値などを関連付けて記憶する。
【0145】
精神状態追跡予測部は、時系列データの前処理を行うことができる。精神状態履歴記憶部から取得した時系列データに対して、欠損値の補完、外れ値の処理、正規化などの前処理を行う。前処理の方法としては、移動平均法、スプライン補間法、Z-スコア正規化などを用いることができる。
【0146】
また、精神状態追跡予測部は、時系列データから特徴的なパターンを抽出することができる。パターン抽出には、フーリエ変換、ウェーブレット変換、経験的モード分解(EMD)などの信号処理技術を用いることができる。これにより、日内変動、週間変動、季節変動などの周期的パターンや、特定のイベントに関連した非周期的パターンを検出することができる。
【0147】
また、精神状態追跡予測部は、過去の精神状態の時系列データに基づいて、将来の精神状態を予測することができる。予測モデルとしては、例えば、リカレントニューラルネットワーク(RNN)、トランスフォーマーベースの時系列予測モデル、状態空間モデル(カルマンフィルタなど)、ARIMA(自己回帰和分移動平均)モデル、Prophetなどを採用することができる。
【0148】
また、精神状態追跡予測部は、予測された精神状態と実際の精神状態との乖離が大きい場合や、精神状態が急激に悪化する傾向が検出された場合に、異常として検出することができる。異常検出には、例えば、統計的手法(Z-スコア、修正Z-スコア、CUSUM法など)、密度ベースの手法(LOF、DBSCAN、Isolation Forestなど)、予測ベースの手法(予測誤差の監視)などを用いることができる。
【0149】
また、精神状態追跡予測部は、検出された異常や予測された精神状態の悪化に基づいて、介入の必要性を判断することができる。介入の必要性は、異常の程度、持続期間、ユーザの過去の精神状態変化パターン、および医学的知見に基づいて総合的に判断される。
【0150】
また、精神状態追跡予測部は、会話生成部213、通知設定部217、判定部216などと連携して動作することができる。
【0151】
精神状態追跡予測部は、精神状態追跡予測部が予測した将来の精神状態や検出した異常パターンに基づいて、会話生成部213は予防的な介入のためのセリフを生成することができる。例えば、うつ状態への移行が予測された場合、早期に対処するための認知行動療法的アプローチを取り入れたセリフを生成する。
【0152】
精神状態追跡予測部は、精神状態追跡予測部が予測した精神状態の変化に基づいて、通知設定部217は最適な通知タイミングを決定することができる。例えば、精神状態の悪化が予測される時期の前に、より頻繁に通知を設定することができる。
【0153】
精神状態追跡予測部は、精神状態追跡予測部が提供する長期的な精神状態の変化パターンを考慮して、判定部216はセリフの妥当性をより精緻に判断することができる。
【0154】
精神状態追跡予測部は、精神状態履歴記憶部からユーザIDに対応する過去の精神状態時系列データを取得し、データの前処理(欠損値補完、外れ値処理、正規化)を実行し、時系列データから特徴量を抽出(周期性、トレンド、季節性など)し、予測モデル(LSTM、トランスフォーマーなど)に特徴量を入力し、将来の精神状態を予測し、予測された精神状態に対して異常検出アルゴリズムを適用し、検出された異常と予測された精神状態の悪化度に基づいて介入推奨度を算出することができる。
【0155】
<開示事項>
なお、本開示には、以下のような構成も含まれる。
[項目1]
ユーザが話す様子を撮影した画像を取得する画像取得部と、
前記画像を解析して前記ユーザの精神状態を推定する精神状態推定部と、
推定した前記精神状態に基づいて前記ユーザから共感を得るためのセリフを生成する会話生成部と、
前記セリフを出力する出力部と、
を備えることを特徴とする情報処理システム。
[項目2]
項目1に記載の情報処理システムであって、
前記会話生成部は、推定した前記精神状態を表す情報及び前記情報に基づいて前記セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により前記セリフを生成すること、
を特徴とする情報処理システム。
[項目3]
項目1に記載の情報処理システムであって、
前記ユーザが話した会話内容を取得する会話取得部を備え、
前記精神状態推定部は、前記画像から解析した第1の前記精神状態とは別に、前記会話内容を解析して前記ユーザの第2の精神状態を推定し、
前記会話生成部は、前記第1及び第2の精神状態を表す情報及び前記情報に基づいて前記セリフを生成する指示を含むプロンプトを大規模言語モデルに与える事により前記セリフを生成すること、
を特徴とする情報処理システム。
[項目4]
項目3に記載の情報処理システムであって、
前記会話生成部は、前記ユーザとのセッションの開始時点に近いほど簡単に回答できる内容となるように前記第2の精神状態を推定するための質問を生成し、
前記出力部は、生成した前記質問を前記ユーザに出力し、
前記会話取得部は、前記質問に対する回答を含む前記会話内容を取得すること、
を特徴とする情報処理システム。
[項目5]
項目3に記載の情報処理システムであって、
前記第2の精神状態及び前記会話内容に基づいて、前記セリフの妥当性を判定する判定部を備え、
前記会話生成部は、前記妥当性に応じて前記セリフを再作成すること、
を特徴とする情報処理システム。
[項目6]
項目5に記載の情報処理システムであって、
前記判定部は、前記第2の精神状態を示す情報、前記会話内容、前記セリフ、ならびに、前記第2の精神状態及び前記会話内容に基づいて前記セリフの妥当性を判定する指示を含むプロンプトを大規模言語モデルに与えて前記妥当性を生成させること、
を特徴とする情報処理システム。
[項目7]
項目3に記載の情報処理システムであって、
前記ユーザとのセッションの終了時に、前記会話内容に基づいて次回に前記ユーザに会話を行うことの通知をする予定を設定する通知設定部を備えること、
を特徴とする情報処理システム。
[項目8]
項目3に記載の情報処理システムであって、
前記ユーザとのセッションの終了時に、前記会話内容の要約を生成して前記ユーザに前記要約を報知する要約報知部を備えること、
を特徴とする情報処理システム。
[項目9]
項目3に記載の情報処理システムであって、
前記ユーザとのセッションの終了時に、前記会話内容から前記ユーザの個人情報を抽出する個人情報抽出部と、
前記個人情報を記憶する個人情報記憶部と、
を備えることを特徴とする情報処理システム。
[項目10]
コンピュータが、
ユーザが話す様子を撮影した画像を取得し、
前記画像を解析して前記ユーザの精神状態を推定し、
推定した前記精神状態に基づいて前記ユーザから共感を得るためのセリフを生成し、
前記セリフを出力すること、
を特徴とする情報処理方法。
【符号の説明】
【0156】
1 ユーザ端末
2 管理サーバ
【要約】
【課題】ユーザと効果的に対話することができるようにする。
【解決手段】情報処理システムであって、ユーザが話す様子を撮影した画像を取得する画像取得部と、画像を解析してユーザの精神状態を推定する精神状態推定部と、推定した精神状態に基づいてユーザから共感を得るためのセリフを生成する会話生成部と、セリフを出力する出力部と、を備えることを特徴とする。
【選択図】
図1