IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社I’mbesideyouの特許一覧

特許7629254情報処理システム、情報処理方法及びプログラム
<>
  • 特許-情報処理システム、情報処理方法及びプログラム 図1
  • 特許-情報処理システム、情報処理方法及びプログラム 図2
  • 特許-情報処理システム、情報処理方法及びプログラム 図3
  • 特許-情報処理システム、情報処理方法及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-02-04
(45)【発行日】2025-02-13
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
   G10L 13/08 20130101AFI20250205BHJP
   G06F 16/90 20190101ALI20250205BHJP
   G06F 40/56 20200101ALI20250205BHJP
   G10L 13/00 20060101ALN20250205BHJP
【FI】
G10L13/08 122
G06F16/90 100
G06F40/56
G10L13/00 100M
【請求項の数】 6
(21)【出願番号】P 2024568005
(86)(22)【出願日】2024-07-26
(86)【国際出願番号】 JP2024026888
【審査請求日】2024-11-15
【早期審査対象出願】
(73)【特許権者】
【識別番号】520408744
【氏名又は名称】株式会社I’mbesideyou
(74)【代理人】
【識別番号】110002790
【氏名又は名称】One ip弁理士法人
(72)【発明者】
【氏名】神谷 渉三
(72)【発明者】
【氏名】安藤 高太朗
【審査官】中村 天真
(56)【参考文献】
【文献】特開2022-146699(JP,A)
【文献】特開2019-091387(JP,A)
【文献】国際公開第2022/201955(WO,A1)
【文献】LI, Cheng et al.,ChatHaruhi: Reviving Anime Character in Reality via Large Language Model,arXiv [online],2023年08月18日,[retrieved on 2024.09.12], Retrieved from the Internet: <URL: https://arxiv.org/abs/2308.09597>,<DOI: 10.48550/arXiv.2308.09597>
【文献】@akasaki1211,AIキャラ同士の会話に僭越ながら人間1名ほど参加させていただく - Qiita,[online],2023年04月20日,[retrieved on 2024.09.12], Retrieved from the Internet: <URL: https://web.archive.org/web/20230419210059/https://qiita.com/akasaki1211/items/fe5182da2cf88dc87ee5>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
G06F 16/00-16/958
40/20-40/58
A63F 9/24
13/00-13/98
(57)【特許請求の範囲】
【請求項1】
ユーザから第1のキャラクターに対する会話データに応じて、前記第1のキャラクターが応答する応答データを生成する応答データ生成部であって、前記第1のキャラクターが登場する作品に含まれる、前記第1のキャラクターとは異なる第2のキャラクターのセリフを引用するように前記応答データを生成する前記生成部と、
前記応答データを前記ユーザに対して出力する出力部と、
を備えることを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記作品に含まれる前記第2のキャラクターの前記セリフを記憶する作品記憶部と、
前記会話データに関連する前記セリフを前記作品記憶部から検索する検索部と、
を備え、
前記生成部は、前記会話データと、検索された前記セリフと、当該セリフを引用するように前記会話データに対する応答を作成する指示とを含むプロンプトを大規模言語モデルに与えて前記応答データを生成させること、
を特徴とする情報処理システム。
【請求項3】
請求項1に記載の情報処理システムであって、
前記作品のシーン及び前記シーンに含まれる前記第2のキャラクターのセリフを記憶する作品記憶部と、
前記会話データに関連する前記セリフを前記作品記憶部から検索する検索部と、
を備え、
前記出力部は、前記セリフに対応する前記シーンを前記作品記憶部から取得し、取得した前記シーンを前記ユーザに対して出力すること、
を特徴とする情報処理システム。
【請求項4】
請求項1に記載の情報処理システムであって、
前記会話データに関連する前記セリフを検索する検索部を備え、
前記生成部は、前記セリフが検索された場合には、前記セリフを引用するように前記応答データを生成し、前記セリフが検索されない場合には、前記セリフを引用せずに前記会話データに対する応答として前記応答データを生成すること、
を特徴とする情報処理システム。
【請求項5】
ユーザから第1のキャラクターに対する会話データに応じて、前記第1のキャラクターが応答する応答データを生成するステップと、
前記応答データを前記ユーザに対して出力するステップと、
をコンピュータが実行する情報処理方法であって、
前記生成するステップにおいて、前記コンピュータは、前記第1のキャラクターが登場する作品に含まれる、前記第1のキャラクターとは異なる第2のキャラクターのセリフを引用するように前記応答データを生成すること、
を特徴とする情報処理方法。
【請求項6】
ユーザから第1のキャラクターに対する会話データに応じて、前記第1のキャラクターが応答する応答データを生成するステップと、
前記応答データを前記ユーザに対して出力するステップと、
をコンピュータに実行させるためのプログラムであって、
前記生成するステップにおいて、前記コンピュータに、前記第1のキャラクターが登場する作品に含まれる、前記第1のキャラクターとは異なる第2のキャラクターのセリフを引用するように前記応答データを生成させること、
を特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
ユーザとコンピュータとの間の対話が行われている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特許6719747号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
シナリオに基づく対話ではユーザの興味が保てないことがある。
【0005】
本発明はこのような背景を鑑みてなされたものであり、ユーザが興味を持つ会話内容を発することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するための本発明の主たる発明は、ユーザからキャラクターに対する会話データに応じて、前記キャラクターが応答する応答データを生成する応答データ生成部であって、前記キャラクターが登場する作品に含まれるセリフを引用するように前記応答データを生成する前記生成部と、前記応答データを前記ユーザに対して出力する出力部と、を備えることを特徴とする。
【0007】
その他本願が開示する課題やその解決方法については、発明の実施形態の欄及び図面により明らかにされる。
【発明の効果】
【0008】
本発明によれば、ユーザが興味を持つ会話内容を発することができる。
【図面の簡単な説明】
【0009】
図1】情報処理システムの全体構成例を示す図である。
図2】管理サーバ2のハードウェア構成例を示す図である。
図3】管理サーバ2のソフトウェア構成例を示す図である。
図4】管理サーバ2の動作を説明する図である。
【発明を実施するための形態】
【0010】
<システムの概要>
以下、本発明の一実施形態に係る情報処理システムについて説明する。本実施形態の情報処理システムは、ユーザとシステムとの間で会話を行おうとするものであり、特定の作品(例えば、マンガ、アニメ、映画、小説、ゲームなど)に登場するキャラクターが会話を行い、その会話中に、当該作品に含まれるセリフ(当該キャラクターのセリフであってもよいし、他のキャラクターのセリフであってもよい。)を引用するようにしている。
【0011】
なお、本実施形態では、主にテキストを用いた会話を例として説明するが、本発明はこれに限定されるものではない。例えば、以下のような様々な形式での会話も本発明の範囲に含まれる。
(1)音声による会話:ユーザの音声入力を受け付け、音声合成技術を用いてキャラクターの声で応答を出力する。
(2)画像を含む会話:ユーザが送信した画像や絵文字を解析し、それに応じた応答を生成する。また、応答にキャラクターの表情や姿勢を示す画像を含めることもできる。
(3)動画を用いた会話:キャラクターのアニメーションや実写映像と組み合わせて、より臨場感のある会話を実現する。
(4)AR(拡張現実)やVR(仮想現実)を用いた会話:現実空間や仮想空間内にキャラクターを投影し、より没入感のある対話環境を提供する。
(5)マルチモーダル会話:テキスト、音声、画像、動画などの複数の形式を組み合わせて、より豊かな表現を可能にする。
【0012】
これらの様々な形式は、単独で使用することも、組み合わせて使用することも可能である。以降の説明では主にテキストベースでの会話を例に挙げるが、上記の他の形式にも本発明の技術を適用できることは言うまでもない。
【0013】
図1は、情報処理システムの全体構成例を示す図である。本実施形態の情報処理システムは、管理サーバ2を含んで構成される。管理サーバ2は、ユーザ端末1と通信ネットワークを介して通信可能に接続される。通信ネットワークは、たとえばインターネットであり、公衆電話回線網や携帯電話回線網、無線通信路、イーサネット(登録商標)などにより構築される。
【0014】
ユーザ端末1は、ユーザが操作するコンピュータである。ユーザ端末1は、例えば、スマートフォン、タブレットコンピュータ、パーソナルコンピュータなどとすることができる。
【0015】
管理サーバ2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、あるいはクラウド・コンピューティングによって論理的に実現されてもよい。
【0016】
<管理サーバ>
図2は、管理サーバ2のハードウェア構成例を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。管理サーバ2は、CPU201、メモリ202、記憶装置203、通信インタフェース204、入力装置205、出力装置206を備える。記憶装置203は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュメモリなどである。通信インタフェース204は、通信ネットワークに接続するためのインタフェースであり、例えばイーサネット(登録商標)に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのUSB(Universal Serial Bus)コネクタやRS232Cコネクタなどである。入力装置205は、データを入力する、例えばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどである。出力装置206は、データを出力する、例えばディスプレイやプリンタ、スピーカなどである。なお、後述する管理サーバ2の各機能部はCPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現され、管理サーバ2の各記憶部はメモリ202及び記憶装置203が提供する記憶領域の一部として実現される。
【0017】
図3は、管理サーバ2のソフトウェア構成例を示す図である。管理サーバ2は、作品記憶部231と、取得部211と、検索部212と、生成部213と、出力部214と、を備える。
【0018】
作品記憶部231は、様々な形式の作品に含まれるセリフを記憶する。ここでいう作品は、マンガに限定されず、小説、アニメ、映画、テレビドラマ、舞台、ゲーム、詩、歌詞など、キャラクターが登場し、セリフや台詞が存在するあらゆる創作物を含む。作品記憶部231は、作品のシーン及びシーンに含まれるセリフを記憶することができる。本実施形態では、作品のシーンは、マンガのページを表示するための画像データであり、セリフはテキストデータであることを想定する。シーンは、マンガのコマを表示するための画像データであってもよい。
【0019】
作品記憶部231に記憶される情報は、作品の形式に応じて以下のように構造化することができる。
【0020】
(1)マンガの場合
・セリフ:テキストデータ
・シーン:ページまたはコマを表示するための画像データ
・コンテキスト情報:セリフが登場する章や巻の情報
(2)小説の場合
・セリフ:テキストデータ
・コンテキスト:セリフの前後の地の文
・シーン:セリフ及び地の文を含むひとまとまりの文章
・メタデータ:章、ページ番号など
(3)アニメや映画の場合
・セリフ:テキストデータ(字幕やスクリプト)
・音声データ:セリフの音声ファイル
・シーン:該当シーンの静止画または短い動画クリップ
・タイムスタンプ:作品内でのセリフの出現時間
(4)ゲームの場合
・セリフ:テキストデータ
・シーン:セリフが登場するゲーム内の状況やイベントの説明、キャプチャー動画
・キャラクター状態:セリフ発言時のキャラクターの状態(例:体力、感情など)
(5)舞台や演劇の場合:
・セリフ:テキストデータ
・シーン:セリフが登場する場面の説明、キャプチャー動画
・ト書き:セリフに付随する演技指示
・幕場の情報:セリフが登場する幕や場面の情報
【0021】
作品記憶部231は、セリフを埋め込み処理したベクトルデータをセリフに対応付けて記憶することができる。この埋め込み処理は、作品の形式に関わらず適用可能であり、効率的なセリフの検索や類似度計算を可能にする。
【0022】
また、作品記憶部231は、作品やキャラクターに関する付加的な情報を記憶することもできる。例えば、作品記憶部231は、作品のジャンル、制作年、作者情報、キャラクターの特徴、性格、背景設定、作品内の重要なイベントや転機、作品の世界観や設定に関する情報などを記憶することができる。これらの付加的な情報は、よりコンテキストに即した適切なセリフの選択や、キャラクターの特性を反映した応答生成に活用することができる。
【0023】
取得部211は、ユーザからキャラクターに対する会話データを取得する。本実施形態では、会話データは、ユーザがユーザ端末1において入力したテキストデータである。取得部211は、ユーザ端末1から会話データを受信することができる。
【0024】
検索部212は、取得した会話データに関連するセリフを検索する。検索部212は、作品記憶部231から会話データに関連するセリフを検索することができる。セリフの検索方法として、以下のような複数の手法を採用することができる。
【0025】
(1)コサイン類似度:会話データを埋め込み処理したベクトルデータと、作品記憶部231に記憶されているベクトルデータとのコサイン距離を計算し、距離が近いセリフを関連性が高いと判断する。
【0026】
(2)ユークリッド距離:ベクトル空間上での直線距離を計算し、距離が近いセリフを選択する。
【0027】
(3)マンハッタン距離:ベクトルの各次元の差の絶対値の和を計算し、距離が近いセリフを選択する。
【0028】
(4)ジャッカード類似度:会話データとセリフを単語集合として扱い、共通する単語の割合を計算して類似度を判断する。
【0029】
(5)編集距離(レーベンシュタイン距離):会話データとセリフの間の文字列編集操作の最小回数を計算し、距離が近いセリフを選択する。
【0030】
(6)潜在的意味解析(LSA):会話データとセリフの潜在的な意味関係を考慮して類似度を計算する。
【0031】
(7)BM25アルゴリズム:情報検索で広く使用されるランキングアルゴリズムを適用し、関連性の高いセリフを選択する。
【0032】
検索部212は、これらの手法を単独で使用するか、または複数の手法を組み合わせて使用することができる。また、会話の文脈や要求される精度に応じて、適切な手法を動的に選択することも可能である。
【0033】
生成部213は、会話データに対して応答するテキスト(以下、応答データ)を生成する。生成部213は、キャラクターが登場する作品に含まれるセリフを引用するように応答データを生成することができる。なお、生成部213は、セリフそのものを応答データとせず、本文とともに引用としてセリフが含まれるように応答データを生成する。応答データの生成方法として、以下のような複数の手法を採用することができる。
【0034】
(1)大規模言語モデル(LLM):GPT-3、GPT-4、PaLM、LLaMAなどのLLMを使用し、会話データとセリフを含むプロンプトを入力して応答を生成する。
【0035】
(2)ルールベースシステム:予め定義された応答パターンとルールに基づいて、会話データとセリフを組み合わせて応答を生成する。
【0036】
(3)検索ベースシステム:大規模な対話コーパスから、会話データと類似した対話例を検索し、その応答を基に新しい応答を生成する。
【0037】
(4)テンプレートベース生成:予め用意されたテンプレートに、会話データやセリフの情報を埋め込んで応答を生成する。
【0038】
(5)機械翻訳アプローチ:会話データを中間表現に変換し、それをキャラクターの口調や設定に合わせて「翻訳」することで応答を生成する。
【0039】
(6)強化学習モデル:報酬関数を定義し、キャラクターらしさや会話の自然さを最大化するように学習された強化学習モデルを用いて応答を生成する。
【0040】
(7)ニューラル対話モデル:Sequence-to-Sequenceモデルや注意機構を持つモデルなど、対話に特化したニューラルネットワークモデルを使用して応答を生成する。
【0041】
生成部213は、これらの手法を単独で使用するか、または複数の手法を組み合わせて使用することができる。例えば、ルールベースシステムで基本的な応答構造を生成し、その後LLMを使用して応答を洗練させるといった組み合わせが可能である。また、キャラクターの特性や会話の複雑さに応じて、適切な手法を動的に選択することも可能である。
【0042】
生成部213は、検索部212により会話データに関連するセリフが検索された場合には、セリフを引用するように応答データを生成し、セリフが検索されない場合には、セリフを引用せずに会話データに対する応答として応答データを生成することができる。セリフを引用する場合、生成部213は引用方法を適切に選択し、自然な形で応答データにセリフを組み込む。セリフを引用しない場合でも、キャラクターの特性や会話の文脈を考慮した適切な応答を生成する。
【0043】
本実施形態では、生成部213は、会話データと、当該会話データに対する応答を作成する指示とを含むプロンプトを大規模言語モデルに与えて、セリフを引用しない応答データを生成させることができる。また、生成部213は、例えば、会話データと、検索されたセリフと、当該セリフを引用するように会話データに対する応答を作成する指示とを含むプロンプトを大規模言語モデルに与えて、セリフを引用した応答データを生成させることができる。
【0044】
生成部213は、セリフの引用方法として、以下のような方法を採用することができる。(1)直接引用:検索されたセリフをそのまま応答データに挿入する。(2)部分引用:検索されたセリフの一部を抜粋して応答データに挿入する。(3)パラフレーズ:検索されたセリフの意味を保持しつつ、異なる表現で応答データに組み込む。(4)意訳:検索されたセリフの本質的な意味や感情を捉え、現在の会話コンテキストに合わせて表現を変更して応答データに組み込む。生成部213は、会話の流れや検索されたセリフの長さ、ユーザの好みなどに基づいて、これらの引用方法を適切に選択することができる。なお、本実施形態では、セリフの引用方法としては、直接引用を想定する。
【0045】
また、生成部213は、引用するセリフの選択基準として、以下のような基準を用いることができる。(1)関連性:会話データとセリフとの意味的類似度が所定の閾値を超えるものを選択する。(2)感情一致度:会話データから推定されるユーザの感情状態と、セリフの感情表現が一致するものを優先的に選択する。(3)キャラクター一致度:会話中のキャラクターが発したセリフを優先的に選択する。(4)重要度:作品内でのセリフの重要度や印象度が高いものを優先的に選択する。(5)多様性:同じセリフの過度な繰り返しを避けるため、過去の会話で使用されていないセリフを優先的に選択する。生成部213は、これらの基準を組み合わせて用いることで、より適切なセリフの選択を行うことができる。
【0046】
生成部213は、選択したセリフを応答データに自然に組み込むために、以下のような処理を行うことができる。(1)前置き生成:セリフを引用する前に、適切な前置きを生成する(例:「そういえば、こんなセリフがあったな」)。(2)後付け説明:セリフを引用した後に、その引用の意図や関連性を説明する文を生成する。(3)文脈調整:選択したセリフの前後に、会話の流れに合わせた文を生成し、セリフを自然に組み込む。(4)キャラクター性の維持:引用部分以外の応答データにおいても、キャラクターの口調や性格を反映させた文を生成する。これらの処理により、生成部213は、より自然で違和感のない応答データを生成することができる。
【0047】
生成部213が使用する大規模言語モデル(LLM)は、例えばGPT-3、GPT-4、PaLM、LLaMA、またはこれらと同等の性能を持つモデルを用いることができる。LLMの使用方法として、以下のような手順を採用することができる。
【0048】
(1)LLMの初期化:使用するLLMをロードし、必要に応じて微調整(ファインチューニング)を行う。微調整では、キャラクターの特性や作品の世界観を反映させるために、関連するデータセットを用いてモデルを学習させる。なお、本実施形態では、学習済みのLLMをそのまま用いることを想定する。
【0049】
(2)コンテキストの設定:会話の背景情報やキャラクターの設定を含むシステムプロンプトを作成し、LLMに与える。
(3)会話履歴の管理:ユーザとの会話履歴を保持し、各ターンでLLMに入力する。
(4)プロンプトの生成:会話データ、検索されたセリフ、および応答生成の指示を含むプロンプトを動的に生成する。
(5)LLMへの入力:生成したプロンプトをLLMに入力し、応答を取得する。なお、LLMは管理サーバ2が備えるようにしてもよいし、LLMを使用した生成処理を行う外部サーバのAPIを呼び出すことにより応答を取得するようにしてもよい。
(6)後処理:LLMの出力を必要に応じて調整し、最終的な応答データとする。
【0050】
プロンプトの具体例として、以下のようなものが挙げられる。
【0051】
例1:セリフを引用する場合
システム:あなたは[キャラクター名]として振る舞ってください。[キャラクターの簡単な説明]。会話の中で、与えられたセリフを自然に引用してください。
ユーザ:[ユーザの会話データ]
関連セリフ:”[作品内のセリフ]”
指示:上記のセリフを自然に引用しながら、ユーザの会話データに対して[キャラクター名]らしく応答してください。
【0052】
例2:セリフが見つからなかった場合
システム:あなたは[キャラクター名]として振る舞ってください。[キャラクターの簡単な説明]。
ユーザ:[ユーザの会話データ]
指示:ユーザの会話データに対して[キャラクター名]らしく応答してください。作品内のセリフは引用せず、キャラクターの性格や口調を反映させた独自の応答を生成してください。
【0053】
生成部213は、これらのプロンプトをテンプレートとして使用し、実際の会話状況に応じて動的に内容を変更することができる。例えば、キャラクター名、キャラクターの説明、ユーザの会話データ、関連セリフなどを、その都度適切な値に置き換えてLLMに入力する。また、会話の流れや検索されたセリフの特性に応じて、プロンプトの構造や指示内容を柔軟に変更することも可能である。
【0054】
生成部213は、セリフのいくつかをプロンプトに含めてフューショットラーニングによる学習を行わせるようにしてもよい。
【0055】
出力部214は、生成された応答データをユーザに対して出力する。出力部214は、応答データをユーザ端末1に送信し、ユーザ端末1が応答データを表示することができる。出力部214は、作品記憶部231に記憶されている、検索されたセリフに対応するシーンをユーザに対して出力することができる。出力部214は、応答データを出力した後、ユーザからのリクエストに応じてシーンを出力することができる。
【0056】
<動作>
図4は、管理サーバ2の動作を説明する図である。
【0057】
管理サーバ2は、会話データを取得し(S301)、会話データに関連するセリフを検索し(S302)、セリフが検索できれば(S303:YES)、セリフを引用した応答データを生成し(S304)、セリフが検索できなければ(S303:NO)、セリフを引用しない応答データを生成し(S305)、応答データをユーザ端末1に送信する(S306)。管理サーバ2は、ユーザ端末1からのリクエストに応じて、セリフに対応するシーンを作品記憶部231から読み出してユーザ端末1に送信することができる(S307)。
【0058】
以上のようにして、本実施形態の情報処理システムによれば、ユーザとシステムとの間の会話において、ユーザからの会話データに関連する作品のセリフを引用して応答するようにすることができる。
【0059】
以上、本実施形態について説明したが、上記実施形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。
【0060】
例えば、上述した管理サーバ2の各機能部による処理は、いずれの機能部により実行されるようにしてもよい。また、上述した各機能部の処理の一部を実行する異なる機能部を追加するようにしてもよい。また、管理サーバ2の機能部は、複数台のコンピュータが分散して備えるようにしてもよい。
【0061】
また、管理サーバの各記憶部が記憶する情報は、いずれの記憶部が記憶するようにしてもよい。すなわち、上述した複数の記憶部が記憶する情報を1つの記憶部により記憶するようにしてもよいし、上述したある記憶部が記憶する情報の一部を他の記憶部が記憶するようにしてもよい。
【0062】
<変形例1>
変形例1では、上記実施形態の構成に加えて、マルチモーダル入力に対応する機能を有する。以下、上記実施形態と異なる点を中心に説明する。
【0063】
変形例1の管理サーバ2は、上記実施形態の構成に加えて、音声認識部と画像認識部を備えることができる。
【0064】
音声認識部は、ユーザから入力された音声データを解析し、テキストデータに変換する。音声認識部は、例えば深層学習を用いた音声認識モデルを使用し、音声からテキストへの高精度な変換を行う。また、音声の抑揚やトーンなどの韻律情報も抽出し、ユーザの感情状態の推定に利用することができる。
【0065】
画像認識部は、ユーザから入力された画像データを解析し、画像内の物体、表情、状況などを認識する。画像認識部は、畳み込みニューラルネットワーク(CNN)などの深層学習モデルを使用し、画像の特徴を抽出する。認識結果は、テキストデータとして出力される。
【0066】
取得部211は、テキストデータだけでなく、音声データや画像データも入力として受け付けることができる。音声データが入力された場合、取得部211は音声認識部を用いてテキストに変換する。画像データが入力された場合、取得部211は画像認識部を用いて画像の内容をテキスト化する。
【0067】
検索部212は、テキストに変換された音声データや画像データの内容に基づいて、関連するセリフを検索する。例えば、ユーザが悲しそうな表情の画像を送信した場合、検索部212は作品内の悲しい場面や慰めのセリフを優先的に検索することができる。
【0068】
生成部213は、マルチモーダル入力の特性を考慮して応答データを生成する。例えば、ユーザの音声入力から感情を推定し、その感情に合わせたトーンでセリフを引用したり、ユーザが送信した画像の内容に関連するセリフを優先的に使用したりすることができる。
【0069】
出力部214は、生成された応答データをテキストとして出力するだけでなく、音声合成技術を用いてキャラクターの声で応答を読み上げたり、応答に関連する画像や動画を同時に表示したりすることができる。
【0070】
<変形例2>
変形例2では、上記実施形態の構成に加えて、複数のキャラクターと同時に会話する機能を有する。以下、上記実施形態と異なる点を中心に説明する。
【0071】
変形例2の管理サーバ2は、上記実施形態の構成に加えて、キャラクター管理部と対話制御部を備えることができる。
【0072】
キャラクター管理部は、会話に参加する複数のキャラクターの情報を管理する。各キャラクターの設定、性格、他のキャラクターとの関係性などの情報を保持し、会話の文脈に応じて適切なキャラクターを選択する機能を有する。
【0073】
対話制御部は、複数のキャラクター間の対話の流れを制御する。ユーザの発言に対して、どのキャラクターが応答するか、キャラクター間でどのような掛け合いを行うかを決定する。また、会話の自然さや一貫性を保つために、キャラクター間の対話履歴も管理する。
【0074】
作品記憶部231は、上記実施形態の構成に加えて、キャラクター間の掛け合いシーンやグループ会話のシーンも記憶する。これにより、複数のキャラクターが関与する状況に対しても、適切なセリフや対話パターンを引用することが可能となる。
【0075】
検索部212は、ユーザの会話データに関連するセリフを検索する際、単一のキャラクターのセリフだけでなく、複数のキャラクターが関与する対話シーンも検索対象とする。
【0076】
生成部213は、複数のキャラクターの応答を同時に生成する機能を持つ。各キャラクターの特性や関係性を考慮し、自然な掛け合いを再現するように応答データを生成する。また、キャラクター間の対話を生成する際には、以下のような要素を考慮する。
(1)キャラクター間の関係性(友好的、対立的、上下関係など)
(2)各キャラクターの性格や喋り方の特徴
(3)会話の文脈や状況
(4)ユーザの発言内容や意図
(5)過去の対話履歴
【0077】
出力部214は、生成された複数のキャラクターの応答を、各キャラクターを区別できる形式でユーザに提示する。例えば、テキストチャットの場合、各キャラクターの発言を異なる色や吹き出しで表示したり、キャラクターのアイコンを付けたりすることができる。
【0078】
なお、変形例2では、ユーザが直接複数のキャラクターと会話する形式を説明したが、ユーザが特定のキャラクターを操作し、そのキャラクターとして他のキャラクターと会話するロールプレイング形式の対話も可能である。この場合、生成部213は、ユーザが操作するキャラクターの特性を考慮して、適切な応答候補を提案する機能を持たせることができる。
【0079】
<変形例3>
変形例3では、上記実施形態の構成に加えて、過去の会話履歴を考慮してより適切なセリフの引用や応答を生成する機能を有する。以下、上記実施形態と異なる点を中心に説明する。
【0080】
変形例3の管理サーバ2は、上記実施形態の構成に加えて、会話履歴記憶部と文脈解析部を備える。
【0081】
会話履歴記憶部は、ユーザとシステム間の過去の会話履歴を記憶する。各会話セッションにおけるユーザの発言、システムの応答、引用されたセリフ、会話の時間情報などを保存する。また、会話中に言及された重要な情報(例:ユーザの好みや経験)も記録する。
【0082】
文脈解析部は、現在の会話データと過去の会話履歴を分析し、会話の文脈を理解する機能を持つ。具体的には以下のような処理を行う。
(1)話題の推移の追跡
(2)ユーザの感情状態の推定
(3)会話の長期的な目的や方向性の把握
(4)ユーザとキャラクター間の関係性の分析
(5)過去に引用されたセリフの記録と重複回避
【0083】
検索部212は、文脈解析部から得られた情報を利用して、より文脈に適したセリフを検索する。例えば、以下のような検索基準を追加することができる。
(1)現在の話題に関連するセリフの優先
(2)過去に引用されていないセリフの優先
(3)ユーザの現在の感情状態に適合するセリフの選択
(4)会話の長期的な目的に沿ったセリフの選択
【0084】
生成部213は、文脈解析部から得られた情報を考慮して、より適切な応答を生成する。具体的には以下のような機能を実現する。
(1)過去の会話で言及された情報の適切な参照
(2)会話の一貫性の維持(矛盾した発言の回避)
(3)ユーザの興味や反応に基づいた話題の展開
(4)長期的な会話の構造化(導入、展開、結論など)
(5)ユーザとの関係性の進展に応じた応答スタイルの調整
【0085】
以上のように、変形例3によれば、過去の会話履歴を考慮してより適切なセリフの引用や応答を生成することが可能となる。これにより、長期的に一貫性のある、より自然で文脈に即した対話を実現することができる。
【0086】
なお、変形例3では、会話履歴の保持期間や利用範囲を適切に設定し、ユーザのプライバシーに配慮することが重要である。例えば、ユーザの同意を得た上で会話履歴を保存し、一定期間後に自動的に削除する機能を実装することができる。また、会話履歴の利用目的を明確に説明し、ユーザが履歴の削除や利用停止を要求できる仕組みを提供することも考えられる。
【0087】
また、本実施形態の機能は、変形例1や変形例2と組み合わせて実装することも可能である。例えば、マルチモーダル入力の履歴を考慮したり、複数キャラクターとの会話における各キャラクターとの関係性の発展を追跡したりすることで、より高度な対話体験を提供することができる。
【0088】
<変形例4>
変形例4では、上記実施形態の構成に加えて、ユーザの好みや興味を学習し、それに合わせたセリフの選択や応答生成を行う機能を有する。以下、上記実施形態と異なる点を中心に説明する。
【0089】
変形例4の管理サーバ2は、上記実施形態の構成に加えて、ユーザプロファイル記憶部、嗜好学習部、及び嗜好考慮部を備える。
【0090】
ユーザプロファイル記憶部は、各ユーザの嗜好情報を記憶する。具体的には以下のような情報を保存することができる。
(1)好みのキャラクター
(2)興味のあるジャンルや話題
(3)よく引用されるセリフやその特徴
(4)ユーザの反応が良かった会話パターン
(5)ユーザの利用頻度や利用時間帯
(6)ユーザの基本的な属性情報(年齢層、性別など、ユーザの同意を得て収集)
【0091】
嗜好学習部は、ユーザとの会話データやユーザの行動から、ユーザの嗜好を学習する機能を持つ。具体的には以下のような処理を行うことができる。
(1)ユーザの発言内容の分析
(2)ユーザの反応(例:「いいね」ボタンの使用、会話の継続時間)の追跡
(3)ユーザが頻繁に言及するトピックの抽出
(4)ユーザが好む言葉遣いや表現スタイルの分析
(5)ユーザが特定のキャラクターや作品に示す興味の度合いの測定
【0092】
嗜好学習部は、これらの分析結果に基づいて、ユーザプロファイル記憶部の情報を定期的に更新する。
【0093】
嗜好考慮部は、ユーザプロファイル記憶部に記憶された嗜好情報を参照し、セリフの選択や応答生成に反映させる機能を持つ。
【0094】
検索部212は、嗜好考慮部から得られた情報を利用して、ユーザの好みに合ったセリフを優先的に検索する。例えば、以下のような検索基準を追加することができる。
(1)ユーザの好きなキャラクターのセリフの優先
(2)ユーザの興味のあるジャンルや話題に関連するセリフの選択
(3)ユーザが過去に好反応を示したセリフの特徴に類似したセリフの選択
【0095】
生成部213は、嗜好考慮部から得られた情報を考慮して、ユーザの好みに合わせた応答を生成する。具体的には以下のような機能を実現する。
(1)ユーザの好む言葉遣いや表現スタイルの採用
(2)ユーザの興味のあるトピックへの話題の誘導
(3)ユーザの嗜好に合わせたキャラクターの選択(複数キャラクター対応の場合)
(4)ユーザの反応が良かった会話パターンの再現
【0096】
以上のように、変形例4によれば、ユーザの好みや興味を学習し、それに合わせたセリフの選択や応答生成を行うことが可能となる。これにより、ユーザにとってより魅力的で個人化された対話体験を提供することができる。
【0097】
なお、変形例4では、ユーザの嗜好情報の取り扱いに十分な注意を払う必要がある。例えば、以下のような対策を講じることが望ましい。
(1)ユーザの明示的な同意を得た上で嗜好情報の収集と利用を行う
(2)収集する情報の範囲と利用目的を明確に説明する
(3)ユーザが自身の嗜好情報を確認、修正、削除できる機能を提供する
(4)嗜好情報の暗号化やアクセス制御など、適切なセキュリティ対策を実施する
【0098】
また、本実施形態の機能は、前述の他の実施形態と組み合わせて実装することも可能である。例えば、変形例3と組み合わせることで、過去の会話履歴とユーザの嗜好の両方を考慮した、より高度な対話システムを実現することができる。
【0099】
<変形例5>
変形例5では、上記実施形態の構成に加えて、新しい作品や追加されたセリフをリアルタイムで取り込み、最新の情報を反映する機能を有する。以下、上記実施形態と異なる点を中心に説明する。
【0100】
変形例5の管理サーバ2は、上記実施形態の構成に加えて、更新監視部、データ取得部、及び統合処理部を備える。
【0101】
更新監視部は、新しい作品情報や追加セリフの有無を定期的に確認する機能を持つ。具体的には以下のような処理を行う。
(1)外部データソース(出版社のAPI、公式ウェブサイトなど)への定期的なアクセス
(2)RSS feedやWebhookなどを利用した更新通知の受信
(3)作品データベースの更新日時の監視
【0102】
データ取得部は、更新監視部が検出した新しい情報を取得する機能を持つ。具体的には以下のような処理を行う。
(1)新作品のメタデータ(タイトル、作者、発売日など)の取得
(2)新しいセリフデータのダウンロード
(3)更新された作品情報の取得
【0103】
統合処理部は、データ取得部が取得した新しい情報を既存のデータと統合する機能を持つ。具体的には以下のような処理を行う。
(1)作品記憶部231への新作品データの追加
(2)既存作品へのセリフの追加や更新
(3)新しいデータの形式変換(例:テキストデータから埋め込みベクトルへの変換)
(4)データの整合性チェックとエラー処理
【0104】
作品記憶部231は、統合処理部によって常に最新の状態に保たれる。これにより、検索部212と生成部213は、常に最新の作品情報とセリフを利用することができる。
【0105】
以上のように、変形例5によれば、新しい作品や追加されたセリフをリアルタイムで取り込み、常に最新の情報を反映した対話を行うことが可能となる。
【0106】
なお、変形例5では、データの更新頻度や取得タイミングを適切に設定する必要がある。更新処理による過度なシステム負荷を避けるため、更新頻度を調整したり、システムの負荷が低い時間帯に更新処理を実行したりするなどの工夫が考えられる。
【0107】
また、新しく追加されたデータの品質管理も重要である。統合処理部に、新データの妥当性チェックや不適切なコンテンツのフィルタリング機能を実装することで、システムの信頼性と安全性を確保することができる。
【0108】
変形例5の機能は、前述の他の変形例と組み合わせて実装することも可能である。例えば、変形例4と組み合わせることで、ユーザの好みに合った最新のセリフや作品情報を優先的に提供するなど、より魅力的な対話体験を実現することができる。
【0109】
<開示事項>
なお、本開示には、以下のような構成も含まれる。
[項目1]
ユーザからキャラクターに対する会話データに応じて、前記キャラクターが応答する応答データを生成する応答データ生成部であって、前記キャラクターが登場する作品に含まれるセリフを引用するように前記応答データを生成する前記生成部と、
前記応答データを前記ユーザに対して出力する出力部と、
を備えることを特徴とする情報処理システム。
[項目2]
項目1に記載の情報処理システムであって、
前記作品に含まれる前記セリフを記憶する作品記憶部と、
前記会話データに関連する前記セリフを前記作品記憶部から検索する検索部と、
を備え、
前記生成部は、前記会話データと、検索された前記セリフと、当該セリフを引用するように前記会話データに対する応答を作成する指示とを含むプロンプトを大規模言語モデルに与えて前記応答データを生成させること、
を特徴とする情報処理システム。
[項目3]
項目1に記載の情報処理システムであって、
前記作品のシーン及び前記シーンに含まれるセリフを記憶する作品記憶部と、
前記会話データに関連する前記セリフを前記作品記憶部から検索する検索部と、
を備え、
前記出力部は、前記セリフに対応する前記シーンを前記作品記憶部から取得し、取得した前記シーンを前記ユーザに対して出力すること、
を特徴とする情報処理システム。
[項目4]
項目1に記載の情報処理システムであって、
前記会話データに関連する前記セリフを検索する検索部を備え、
前記生成部は、前記セリフが検索された場合には、前記セリフを引用するように前記応答データを生成し、前記セリフが検索されない場合には、前記セリフを引用せずに前記会話データに対する応答として前記応答データを生成すること、
を特徴とする情報処理システム。
[項目5]
項目1に記載の情報処理システムであって、
前記会話データ生成部は、第1の前記キャラクタとは異なる第2のキャラクタによる前記セリフを引用するように前記第2の会話データを生成すること、
を特徴とする情報処理システム。
[項目6]
ユーザからキャラクターに対する会話データに応じて、前記キャラクターが応答する応答データを生成するステップと、
前記応答データを前記ユーザに対して出力するステップと、
をコンピュータが実行する情報処理方法であって、
前記生成するステップにおいて、前記コンピュータは、前記キャラクターが登場する作品に含まれるセリフを引用するように前記応答データを生成すること、
を特徴とする情報処理方法。
[項目7]
ユーザからキャラクターに対する会話データに応じて、前記キャラクターが応答する応答データを生成するステップと、
前記応答データを前記ユーザに対して出力するステップと、
をコンピュータに実行させるためのプログラムであって、
前記生成するステップにおいて、前記コンピュータに、前記キャラクターが登場する作品に含まれるセリフを引用するように前記応答データを生成させること、
を特徴とするプログラム。
【符号の説明】
【0110】
1 ユーザ端末
2 管理サーバ
【要約】
【課題】ユーザが興味を持つ会話内容を発することができるようにする。
【解決手段】ユーザからキャラクターに対する会話データに応じて、キャラクターが応答する応答データを生成する応答データ生成部であって、キャラクターが登場する作品に含まれるセリフを引用するように応答データを生成する生成部と、応答データをユーザに対して出力する出力部と、を備えることを特徴とする。
【選択図】図1
図1
図2
図3
図4