特許7652365 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エクサウィザーズの特許一覧

特許7652365情報処理方法、プログラム及び情報処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-03-18

(45)【発行日】2025-03-27

(54)【発明の名称】情報処理方法、プログラム及び情報処理システム

(51)【国際特許分類】

G10L 13/08 20130101AFI20250319BHJP

G10L 13/00 20060101ALI20250319BHJP

G10L 15/22 20060101ALI20250319BHJP

【ＦＩ】

G10L13/08 110Z

G10L13/00 100M

G10L15/22 300U

【請求項の数】 5

(21)【出願番号】P 2024090846

(22)【出願日】2024-06-04

【審査請求日】2024-06-19

【早期審査対象出願】

(73)【特許権者】

【識別番号】517255566

【氏名又は名称】株式会社エクサウィザーズ

(72)【発明者】

【氏名】サックスマンコーティ

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１２－２１５６４５（ＪＰ，Ａ）

【文献】特開２００７－０７２３３１（ＪＰ，Ａ）

【文献】特開２０１３－０６１５９１（ＪＰ，Ａ）

【文献】特開２０２３－００８９１３（ＪＰ，Ａ）

【文献】特開２０２１－０７１７２３（ＪＰ，Ａ）

【文献】”チャットボットにGPTを連携させるメリットとは？連携サービスも紹介”，[omline]，[2024年8月1日検索]，2024年02月20日，インターネット<URL:https://www.bemotion.co.jp/ondemand/column-list/vhatbot-gpt/#シナリオ外の質問にも回答可能>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

情報処理装置が実行する情報処理方法であって、
会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、
ユーザの音声を取得する取得ステップと、
前記取得した音声をテキスト変換してベクトル変換する変換ステップと、
前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、
前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、
前記生成した回答を発話する発話ステップと、
を含み、
前記記憶ステップでは、前記会話における回答の文章の先頭部分の音声と時間調整用の文章とをさらに記憶し、
前記抽出ステップで抽出したベクトルに対応する会話における回答の文章の先頭部分の音声を発話している間に、残りの回答の文章を生成し、
前記抽出ステップにおいて前記抽出した文章のベクトルが、前記変換したベクトルから所定の範囲内でない場合、前記発話ステップにて前記時間調整用の文章を発話して前記生成ステップにて自然言語処理を用いて新たな回答を生成する
情報処理方法。

【請求項2】

前記記憶ステップでは、前記会話の文章をテーマに応じて記憶し、
前記抽出ステップでは、前記変換したベクトルから前記テーマを判定し、前記判定したテーマの中から前記文章のベクトルを抽出する
請求項１に記載の情報処理方法。

【請求項3】

前記生成ステップで前記新たな回答を生成した場合、前記記憶ステップにおいて、前記変換したベクトルと前記新たな回答のベクトルとを対応付けてさらに記憶する
請求項１に記載の情報処理方法。

【請求項4】

情報処理装置に、
情報処理装置が実行する情報処理方法であって、
会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、
ユーザの音声を取得する取得ステップと、
前記取得した音声をテキスト変換してベクトル変換する変換ステップと、
前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、
前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、
前記生成した回答を発話する発話ステップと、
を含み、
前記記憶ステップでは、前記会話における回答の文章の先頭部分の音声と時間調整用の文章とをさらに記憶し、
前記抽出ステップで抽出したベクトルに対応する会話における回答の文章の先頭部分の音声を発話している間に、残りの回答の文章を生成し、
前記抽出ステップにおいて前記抽出した文章のベクトルが、前記変換したベクトルから所定の範囲内でない場合、前記発話ステップにて前記時間調整用の文章を発話して前記生成ステップにて自然言語処理を用いて新たな回答を生成する
情報処理方法を実行させるためのプログラム。

【請求項5】

情報処理装置が実行する情報処理システムであって、
情報処理装置が実行する情報処理方法であって、
会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、
ユーザの音声を取得する取得ステップと、
前記取得した音声をテキスト変換してベクトル変換する変換ステップと、
前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、
前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、
前記生成した回答を発話する発話ステップと、
を行い、
前記記憶ステップでは、前記会話における回答の文章の先頭部分の音声と時間調整用の文章とをさらに記憶し、
前記抽出ステップで抽出したベクトルに対応する会話における回答の文章の先頭部分の音声を発話している間に、残りの回答の文章を生成し、
前記抽出ステップにおいて前記抽出した文章のベクトルが、前記変換したベクトルから所定の範囲内でない場合、前記発話ステップにて前記時間調整用の文章を発話して前記生成ステップにて自然言語処理を用いて新たな回答を生成する
情報処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理方法、プログラム及び情報処理システムに関する。

【背景技術】

【0002】

特許文献１には、コミュニケーションＡＩが実装された、会話スキルが求められる専門職の教育を支援するためのトレーニングシステムが開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０２２－１４１８８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記先行技術の場合、ユーザの音声をテキストに変換し、変換したテキストを言語処理して回答を生成し、生成した回答を音声に変換するといった処理が必要になる。これらの処理により、ユーザが発話した後、アバターが回答するまでに時間が掛かってしまい、自然な会話が難しい。また、ユーザの発話の複雑さに応じてアバターが発話するまでの時間が変化するため、その時間に応じたアバターのつなぎ言葉等による、より自然な会話が求められる。

【0005】

本発明は、上記事実を考慮し、アバターとより自然な会話をすることができる情報処理方法、プログラム及び情報処理システムを得ることを目的とする。

【課題を解決するための手段】

【0006】

一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、情報処理装置が実行する情報処理方法であって、会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、ユーザの音声を取得する取得ステップと、前記取得した音声をテキスト変換してベクトル変換する変換ステップと、前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、前記生成した回答を発話する発話ステップと、を含む。

【0007】

一実施形態に係るプログラムによれば、情報処理装置に、情報処理装置が実行する情報処理方法であって、会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、ユーザの音声を取得する取得ステップと、前記取得した音声をテキスト変換してベクトル変換する変換ステップと、前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、前記生成した回答を発話する発話ステップと、を含む、情報処理方法を実行させる。

【0008】

一実施形態に係る情報処理システムによれば、情報処理装置が実行する情報処理システムであって、情報処理装置が実行する情報処理方法であって、会話における文章についてベクトル化をし、前記会話の文章と前記文章のベクトルとを対応して記憶する記憶ステップと、ユーザの音声を取得する取得ステップと、前記取得した音声をテキスト変換してベクトル変換する変換ステップと、前記変換したベクトルに相当する前記文章のベクトルを抽出する抽出ステップと、前記抽出した前記文章のベクトルに対応する前記会話の文章を基に前記取得した音声に対する回答を生成する生成ステップと、前記生成した回答を発話する発話ステップと、を含む。

【発明の効果】

【0009】

一実施形態によれば、ユーザが発話した後、アバターが回答するまでの時間を短縮することができ、アバターとより自然な会話をすることができる。

【図面の簡単な説明】

【0010】

【図1】実施形態に係る情報処理システムの構成の一例を示す図である。

【図2】実施形態に係るサーバのハードウェア構成の一例を示す図である。

【図3】実施形態に係る利用者端末のハードウェア構成の一例を示す図である。

【図4】実施形態に係るサーバの機能構成の一例を示す図である。

【図5】実施形態に係る利用者端末の機能構成の一例を示す図である。

【図6】実施形態に係る情報処理システムが実行するアバターが発話するまでの一例を示すフローチャートである。

【図7】実施形態に係る情報処理システムが実行する新たに回答を生成する場合のアバターが発話するまでの一例を示すフローチャートである。

【図8】実施形態に係るロールプレイングシステムの概要を示す図である。

【発明を実施するための形態】

【0011】

以下、図１～図５を用いて、本発明に係る情報処理システムの一実施形態について説明する。なお、各図において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

【0012】

（システム概要）
まず、本実施形態に係る情報処理システム１０の概要について説明する。本実施形態に係る情報処理システム１０は、ロールプレイング環境を提供して、会話スキルが求められる職種の人材教育を支援するシステムである。本実施形態では、情報処理システム１０は、アバターを利用したロールプレイングについて、ユーザが発話した後、アバターが回答するまでの時間を短縮することができるシステムである。これにより、アバターとより自然な会話ができることができるシステムである。

【0013】

（システム構成）
図１は、本実施形態に係る情報処理システム１０の構成の一例を示す図である。図１に示すように、本実施形態に係る情報処理システム１０は、ネットワークＮを介して相互に通信可能に接続された、サーバ装置１と、利用者端末２とを備える。ネットワークＮは、例えば、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮ、インターネット、公衆回線網、モバイルデータ通信網、又はこれらの組み合わせである。図１の例では、情報処理システム１０は、サーバ装置１、利用者端末２それぞれ１つずつ備えるが、それぞれ複数備えてもよい。

【0014】

サーバ装置１は、ロールプレイング環境を提供して、利用者端末２で入力されたユーザの音声から回答を生成し、生成した回答をアバターに発話させる情報処理装置の一例である。サーバ装置１は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、又はこれらの組み合わせであってもよい。サーバ装置１の具体的な構成及び作用については、後述する。

【0015】

利用者端末２は、各種情報の入力及び表示のための操作を行う情報処理装置の一例である。利用者端末２は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレット端末、サーバ装置、マイクロコンピュータ、ウェアラブルデバイス、又はこれらの組み合わせであってもよい。本実施形態では、音声入力機能と撮影機能が搭載された情報処理装置を一例としているが、音声入力機能があれば、その他の機能については限定しない。

【0016】

（ハードウェア構成－サーバ）
図２は、サーバ装置１のハードウェア構成を示すブロック図である。サーバ装置１は、バスＢを介して相互に通信可能に接続された、プロセッサ１０１と、メモリ１０２と、ストレージ１０３と、通信Ｉ／Ｆ１０４と、を備える。

【0017】

プロセッサ１０１は、ストレージ１０３に記憶された各種プログラムをメモリ１０２に展開して実行することにより、サーバ装置１の各構成を制御し、サーバ装置１の機能を実現する。プロセッサ１０１が実行するプログラムは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）及び後述する各種プログラムを含むが、これに限られない。プロセッサ１０１がこれらプログラムを実行することにより、本実施形態に係る状態可視化方法の一部が実現される。プロセッサ１０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、又はこれらの組み合わせである。

【0018】

メモリ１０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、又はこれらの組み合わせである。ＲＯＭは、例えば、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、又はこれらの組み合わせである。ＲＡＭは、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）、ＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）、ＭＲＡＭ（ＭａｇｎｅｔｏｒｅｓｉｓｔｉｖｅＲＡＭ）、又はこれらの組み合わせである。

【0019】

ストレージ１０３は、ＯＳ、後述する各種プログラム、及び各種のデータを記憶する。ストレージ１０３は、例えば、フラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＳＣＭ（ＳｔｏｒａｇｅＣｌａｓｓＭｅｍｏｒｉｅｓ）、又はこれらの組み合わせである。

【0020】

通信Ｉ／Ｆ１０４は、サーバ装置１を、ネットワークＮを介して、利用者端末２を含む外部装置に接続し、通信を制御するためのインタフェースである。通信Ｉ／Ｆ１０４は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）、又は光通信（例えば、ＦｉｂｒｅＣｈａｎｎｅｌ）に準拠したアダプタであるが、これに限られない。

【0021】

（ハードウェア構成－利用者端末）
図３は、利用者端末２のハードウェア構成を示すブロック図である。利用者端末２は、バスＢを介して相互に通信可能に接続された、プロセッサ２０１と、メモリ２０２と、ストレージ２０３と、通信Ｉ／Ｆ２０４と、入出力Ｉ／Ｆ２０５と、入力装置２０６と、出力装置２０７と、を備える。通信Ｉ／Ｆ２０４は、利用者端末２を、ネットワークＮを介して、サーバ装置１を含む外部装置に接続し、通信を制御するためのインタフェースである。通信Ｉ／Ｆ２０４は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ＺｉｇＢｅｅ（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）、又は光通信（例えば、ＦｉｂｒｅＣｈａｎｎｅｌ）に準拠したアダプタであるが、これに限られない。

【0022】

入出力Ｉ／Ｆ２０５は、利用者端末２に入力装置２０６及び出力装置２０７を接続するためのインタフェースである。入力装置２０６は、例えば、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ、各種センサ、操作ボタン、又はこれらの組み合わせである。ユーザインタフェースとしての出力装置２０７は、例えば、ディスプレイ、プロジェクタ、プリンタ、スピーカ、バイブレータ、又はこれらの組み合わせである。本実施形態では、一例として出力装置２０７と入力装置２０６とは、一体的に構成されたタッチパネルディスプレイとされている。

【0023】

なお、本実施形態において、プログラムは、サーバ装置１の製造段階でメモリ２０２又はストレージ２０３に書き込まれてもよく、ネットワークＮを介してサーバ装置１に提供されてもよい。また、図示しないディスクメディアなどの非一時的でコンピュータ読み取り可能な記録媒体を介してサーバ装置１に提供されてもよい。

【0024】

（機能構成－サーバ）
次に、サーバ装置１の機能構成について説明する。図４は、サーバ装置１の機能構成の一例を示す図である。各種プログラムを実行する際に、サーバ装置１は上記のハードウェア資源を用いて、各種の機能を実現する。サーバ装置１は、サーバ装置１が実現する機能構成として、通信部１１と、記憶部１２と、制御部１３と、を有している。各機能構成は、プロセッサ１０１がメモリ１０２又はストレージ１０３に記憶されたプログラムを読み出し、実行することで実現される。また、記憶部１２は、ロールプレイングで利用し得る会話の文章についてベクトル化をし、会話文章１２１と文章のベクトル１２２とを対応して記憶している。さらに、記憶部１２は、ユーザの音声から回答を生成するに際して、所定の時間を要する場合に、アバターに発話をさせる時間調整用文章１２３を記憶している。会話文章１２１は、会話におけるやり取りの組みであって、組となる回答部分における先頭部分の音声も含めて記憶している。また、記憶する会話文章は、テーマごとに設定してよく、例えば、アイスブレイクであったり、クロージングであったり、商品説明であったりと、様々なテーマを設定して、当該テーマに合わせた会話文章１２１をテーマと一緒に記憶する。また、時間調整用文章１２３は、例えば、「ちょっと待ってください」、「ちょっと考えます」等の時間稼ぎができる文章であり、複数のパターンで記憶しておく。また、時刻を調整するための時刻調整用文章は記憶部１２に記憶するのではなく、動的に文章を生成していく。

【0025】

制御部１３は、利用者端末２から送られた音声を取得する取得部１３１と、取得部１３１で取得した音声をテキストに変換し、ベクトル化する変換部１３２と、変換部１３２で変換したベクトルに近い（相当する）文章のベクトル１２２を抽出する抽出部１３３とを含む。また、制御部１３は、抽出部１３３で抽出した文章のベクトル１２２から対応する会話の文章を生成する生成部１３４と、生成した回答をアバターに発話させる発話部１３５と、を含む。なお、これらの詳細については後述する。生成部１３４は、例えば、ＬＬＭ（ＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌｓ：大規模言語モデル）を用いて回答を生成する。

【0026】

（機能構成－利用者端末）
次に、利用者端末２の機能構成について説明する。図５は、利用者端末２の機能構成の一例を示す図である。各種プログラムを実行する際に、利用者端末２は上記のハードウェア資源を用いて、各種の機能を実現する。利用者端末２は、利用者端末２が実現する機能構成として、通信部２１と、プログラム２２１が記憶された記憶部２２と、制御部２３と、を有している。各機能構成は、プロセッサ２０１がメモリ２０２又はストレージ２０３に記憶されたプログラム２２１を読み出し、実行することで実現される。制御部２３は、サーバ装置１から送られる情報を取得する情報取得制御部２３１と、取得した情報を出力装置２０７にて表示する表示部２３２とを含む。

【0027】

次に、図６～図８を用いて本実施形態に係る情報処理システムの処理の流れについて説明する。図６は、本実施形態に係る情報処理システム１０が実行するアバターが発話するまでの一例を示すフローチャートである。図７は、本実施形態に係る情報処理システム１０が実行する新たに回答を生成する場合のアバターが発話するまでの一例を示すフローチャートである。図８は、本実施形態に係るロールプレイングシステムの概要を示す図である。

【0028】

まず、図６を用いてユーザの発話後にアバターが発話するまでの処理について説明する。具体的には、アバターを利用したロールプレイングにおいて、ユーザが発話した後、アバターが回答するまでの処理について説明する。ステップＳ１０１で、取得部１３１は、利用者端末２に入力されたユーザの発話の音声を取得する。次に、ステップＳ１０２で、変換部１３２は、ステップＳ１０１で取得したユーザの音声をテキストに変換する。次に、ステップＳ１０３で、変換部１３２は、変換したテキストをベクトル化する。ここで、音声をテキストに変換するに際しては、例えば、音声認識ソフトウェア等の音声をテキストに変換できるものであればよく、特定のソフトウェアに限定しない。また、テキストのベクトル化については、例えば、自然言語処理のベクトル化であってよく、これに限定することなく、他の方法を用いてもよい。

【0029】

次に、ステップＳ１０４で、抽出部１３３は、ステップＳ１０３で変換したベクトルから、記憶部１２に記憶しているテーマを判定する。次に、ステップＳ１０５で、抽出部１３３は、ステップＳ１０４で判定したテーマにおいて、ステップＳ１０３で変換したベクトル近い（相当する）文章のベクトル１２２を抽出する。次に、ステップＳ１０６で、発話部１３５は、抽出した文章のベクトル１２２に対応する会話文章１２１において、文章のベクトル１２２と組になる会話文章１２１の回答における先頭部分の音声を発話させる。次に、ステップＳ１０７で、生成部１３４は、ステップＳ１０６で回答の先頭部分を発話させている間に、ユーザの音声に対する残りの回答を生成する。このとき、生成部１３４は、例えば、ＬＬＭ（ＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌｓ：大規模言語モデル）を用いて回答を生成するが、これに限定することなく別の方法であってもよい。次に、ステップＳ１０８で、発話部１３５は、ステップＳ１０７で生成した回答の残りの文章をアバターに発話させる。

【0030】

本実施形態では、会話のテーマと会話におけるやり取り（例えば、質問と回答等）を組みとして記憶し、併せて会話文章をベクトル化した文章のベクトルを予め記憶しておくことで、ユーザの発話した音声に対する回答を生成するまでの時間を短縮することができる。このとき、記憶する回答文章について、先頭部分の文章の音声を併せて記憶させておくことで、ユーザの音声に対してすぐに回答の発話が可能となる。そして、先頭部分の文章を先に発話させておくことで、ユーザが発話してからアバターが発話するまでの時間が短縮できる。また、テーマとテーマに対応する会話を予め記憶しておくことで、ユーザの音声のテキスト化したベクトルの抽出に際して、ユーザが現在話しているテーマの中から、相当するベクトルを抽出するので、抽出するまでの時間を早くすることができる。つまり、従来は、ユーザの音声をテキストに変換し、変換したテキストを言語処理して回答を生成し、生成した回答を音声に変換するといった処理が必要になる。これに対して、本実施形態によれば、ユーザの発話からアバターが回答するまでの時間を短縮することができるので、アバターとより自然な会話をすることができる。

【0031】

次に、図６のステップＳ１０５で抽出した文章のベクトル１２２がユーザの音声のベクトルから所定の範囲内に含まれない場合について、図７のフローチャートを用いて説明する。図７のステップＳ１０１～ステップＳ１０５までの処理は図６のステップＳ１０１～ステップＳ１０４と同様の処理であるため、その説明を省略する。ステップＳ１０５の後、ステップＳ１０９で、抽出部１３３は、ステップＳ１０５で抽出した文章のベクトル１２２がユーザの音声のベクトルから所定の範囲内であるか否かを判定する。所定の範囲内である場合（ＹＥＳ）、図６のステップＳ１０６～ステップＳ１０８と同様の処理であるため、その説明を省略する。

【0032】

一方、所定の範囲内でない場合（ＮＯ）、ステップＳ１１０に進み、発話部１３５は、時間調整用文章１２３を発話させる。そして、ステップＳ１１１で、生成部１３４は、音声に対する回答を新たに生成する。このとき、例えば、ＬＬＭ（大規模言語モデル）を利用してステップＳ１０２で変換したテキストを基に回答を生成する。抽出した文章のベクトル１２２が所定の範囲内でない場合は、ユーザの音声に対する回答として適切でない場合があるため、新たに回答を生成する必要がある。なお、ステップＳ１０４で会話のテーマが判定されているため、ユーザの音声に対して当該テーマに沿った回答を生成することができる。新たな回答を生成する場合には、ステップＳ１０６で、発話部１３５は、新たな回答の生成途中であっても、先頭部分を先に発話させる。そして、ステップＳ１０７で生成部１３４が残りの回答の生成をする。

【0033】

このように、ステップＳ１０５で抽出した文章のベクトル１２２がユーザの音声のベクトルから所定の範囲内に含まれない場合であっても、適切でない（ズレた）回答することなく、適した新たな回答を生成してアバターに発話させることができる。また、新たな回答の生成に時間が掛かったとしても、予め時間調整用文章１２３を記憶して、その間にアバターに発話させることにより、より自然な会話が可能となる。つまり、新たな回答に時間が掛かると、沈黙が続き、適切にロールプレイングが進んでいるのか否かがユーザには分かりづらい。そこで、時間調整用文章１２３を予め用意することで、新たな回答の生成に時間が掛かる場合であっても、時間稼ぎができる文章を発話することで、ロールプレイングが途中で止まっているわけではないことが分かる。また、新たな回答の生成に時間が掛かっていることをユーザに感じさせないようにすることができ、より自然な会話をすることができる。

【0034】

次に、図８を用いて本実施形態に係るロールプレイングシステムの画面の一例を示す。ロールプレイングシステムの画面には、領域Ａ１と領域Ａ２があり、領域Ａ１には、アバター画面ｉｍ０１と、ユーザ画面ｉｍ０２、進捗画面ｉｍ０３が配置される。領域Ａ２には、リトライボタンＢ１と、一時停止ボタンＢ２と、完了ボタンＢ３が配置される。ロールプレイングが開始されると、図８に示す画面になり、アバター画面ｉｍ０１に表示されるアバターとの会話が始まる。会話中、ユーザ自身がユーザ画面ｉｍ０２に表示される。進捗画面ｉｍ０３には、アバターとどのような会話をしているのか等の進捗の情報であったり、会話のリアルタイムの評価等を表示してよい。どのような会話がなされているかについては、ユーザとアバターの会話の音声をテキスト変換して、変換したテキストをベクトル変換したベクトルと、記憶部１２の文章のベクトル１２２からベクトルの近いものを抽出することで判断してもよい。

【0035】

また、アバターとの会話を最初からやり直したい場合にはリトライボタンＢ１を押下することで、やり直しが可能となり、一時停止したい場合には一時停止ボタンＢ２を押下することで、一時停止が可能となる。ロールプレイングが完了する場合には完了ボタンＢ３を押下する。図示しないが、完了ボタンＢ３を押下してロールプレイングを完了した後には、ロールプレイング全体の評価として、必要なスキルの提示、会話の抜け漏れ、良かったポイント、改善点等のロールプレイング全体を表示する画面を提示してもよい。

【0036】

このように、本実施形態では、会話のテーマと会話におけるやり取り組みとして記憶し、併せて会話文章のベクトルを予め記憶しておくことで、アバターを利用したロールプレイングについて、ユーザが発話した後、アバターが回答するまでの時間を短縮することができる。また、記憶する会話の回答文章について、先頭部分の文章の音声を併せて記憶させておくことで、ユーザの音声に対してすぐに回答の発話が可能となる。さらに、時間調整用文章１２３を記憶しておくことで、回答を生成するまでに時間が掛かったとしても、アバターの発話が不自然に止まる、とった違和感なく、アバターとより自然な会話をすることができる。

【0037】

以上、本実施形態によれば、アバターを利用したロールプレイングについて、ユーザが発話した後、アバターが回答するまでの時間を短縮することができる。

【0038】

以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。

【0039】

また例えば、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。換言すると、機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に限定されない。また、機能ブロックの存在場所も、特に限定されず、任意でよい。例えば、サーバの機能ブロックを利用者端末等に移譲させてもよい。逆に利用者端末の機能ブロックをサーバ等に移譲させてもよい。また、１つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。

【0040】

また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。

【0041】

また例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。

【0042】

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。

【符号の説明】

【0043】

１０情報処理システム
１サーバ
２利用者端末
１３１取得部
１３２変換部
１３３抽出部
１３４生成部
１３５発話部

【要約】

【課題】アバターとより自然な会話をすることができる。
【解決手段】
一実施形態に係る情報処理方法によれば、情報処理装置が実行する情報処理方法であって、会話における文章についてベクトル化をし、会話の文章と文章のベクトルとを対応して記憶する記憶ステップと、ユーザの音声を取得する取得ステップと、取得した音声をテキスト変換してベクトル変換する変換ステップと、変換したベクトルに相当する文章のベクトルを抽出する抽出ステップと、抽出した文章のベクトルに対応する会話の文章を基に取得した音声に対する回答を生成する生成ステップと、生成した回答を発話する発話ステップと、を含む。
【選択図】図６