(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025062863
(43)【公開日】2025-04-15
(54)【発明の名称】情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体
(51)【国際特許分類】
G06F 3/16 20060101AFI20250408BHJP
G06F 3/01 20060101ALI20250408BHJP
G06T 19/00 20110101ALI20250408BHJP
【FI】
G06F3/16 540
G06F3/01 510
G06T19/00 A
【審査請求】未請求
【請求項の数】24
【出願形態】OL
(21)【出願番号】P 2023172214
(22)【出願日】2023-10-03
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100125254
【弁理士】
【氏名又は名称】別役 重尚
(72)【発明者】
【氏名】中村 友宣
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050BA12
5B050CA07
5B050CA08
5B050EA12
5B050FA05
5B050FA10
5E555AA27
5E555AA46
5E555BA02
5E555BB38
5E555BD07
5E555BE17
5E555CA42
5E555CA47
5E555CB64
5E555CB65
5E555CB66
5E555DA08
5E555DA23
5E555DB32
5E555DB57
5E555DC85
5E555FA00
(57)【要約】
【課題】仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話が成立させることができる情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体を提供する。
【解決手段】
情報処理システム1において、第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、第2のユーザ端末に紐づく第2のアバターと関連すると判定され、且つ、第2のユーザ端末に送信される音声データのうち、第1の音声データと、第1の音声データを除く第2の音声データとを分析した結果、第2の音声データが第1の音声データを阻害すると分析された場合に、第2のユーザ端末に送信される音声データの音量を調整する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する3以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、
前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、
前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、
前記複数のユーザ端末のうちの第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、前記複数のユーザ端末のうちの第2のユーザ端末に紐づく第2のアバターと関連するか否かを判定する関連判定手段と、
前記音声データ送信手段により前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データと、前記第1の音声データを除く第2の音声データとを分析する音声データ分析手段と、
前記関連判定手段で、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記第2のユーザ端末に送信される音声データの、前記第2のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、
を備えることを特徴とする、情報処理システム。
【請求項2】
前記音量調整手段は、前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データの音量を大きくすることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記音量調整手段は、前記第2のユーザ端末に送信される音声データのうち、前記第2の音声データの音量を小さくすることを特徴とする請求項1に記載の情報処理システム。
【請求項4】
前記関連判定手段は、前記第2のアバターが前記第1のアバターに向けて耳に手を当てている場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする請求項1に記載の情報処理システム。
【請求項5】
前記複数のユーザ端末は、
夫々を利用するユーザの手の動きを検知する第1の検知部と、
夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、
を更に有し、
前記情報処理システムは、
前記第2のユーザ端末の前記第1の検知部で前記手の動きが検知された場合、その検知結果に応じて前記第2のアバターの手を動かすアバター動作制御手段を更に備え、
前記関連判定手段は、前記設定された前記第1及び第2のアバターの位置、及び前記アバター動作制御手段により制御された前記第2のアバターの手の動きに応じて、前記第2のアバターが前記第1のアバターに向けて耳に手を当てているか否かを判定することを特徴とする請求項4記載の情報処理システム。
【請求項6】
前記関連判定手段は、前記第1のアバターと前記第2のアバターとが友好関係にある場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする請求項1に記載の情報処理システム。
【請求項7】
前記複数のユーザ端末の夫々に紐づくアバターの間の友好関係の有無を示すデータを取得する取得手段を更に備え、
前記関連判定手段は、前記データに基づき、前記第1のアバターと前記第2のアバターとが友好関係にあるか否かを判定することを特徴とする請求項6記載の情報処理システム。
【請求項8】
前記関連判定手段は、前記第1のアバターが前記第2のアバターの方向を向いている場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする請求項1に記載の情報処理システム。
【請求項9】
前記関連判定手段は、前記第1のアバターの顔の前方の延長線上に前記第2のアバターが存在する場合、前記第1のアバターが前記第2のアバターの方向を向いていると判定する請求項8記載の情報処理システム。
【請求項10】
前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部を更に有し、
前記関連判定手段は、前記設定された前記第1及び第2のアバターの位置に応じて、前記第1のアバターの顔の前方の延長線上に前記第2のアバターが存在するか否かを判定することを特徴とする請求項9に記載の情報処理システム。
【請求項11】
前記関連判定手段は、前記第1のアバターの視線方向に前記第2のアバターが存在する場合、前記第1のアバターが前記第2のアバターの方向を向いていると判定する請求項8記載の情報処理システム。
【請求項12】
前記複数のユーザ端末は、
夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、
夫々を利用するユーザの視線を検知する第2の検知部と、
を更に有し、
前記情報処理システムは、
前記設定された前記第1のアバターの位置、及び前記第1のユーザ端末の前記第2の検知部で検知された前記視線に応じて、前記第1のアバターの視線方向を設定する視線方向設定手段を更に備え、
前記関連判定手段は、前記設定された前記第2のアバターの位置に応じて、前記設定された前記第1のアバターの視線方向に前記第2のアバターが存在するか否かを判定することを特徴とする請求項11に記載の情報処理システム。
【請求項13】
前記関連判定手段は、前記第1の音声データに前記第2のアバターの名前が含まれている場合に、第1の音声データが第2のアバターと関連すると判定することを特徴とする請求項1に記載の情報処理システム。
【請求項14】
前記音声データ分析手段は、前記第2の音声データの音量が前記第1の音声データの音量より大きい場合に、前記第2の音声データが前記第1の音声データを阻害すると分析することを特徴とする請求項1に記載の情報処理システム。
【請求項15】
前記音量調整手段は、前記第2のユーザ端末に送信される音声データの音量を調整したことを記憶し、前記第1及び第2のユーザ端末の夫々に、前記音量を調整したことを通知することを特徴とする請求項1に記載の情報処理システム。
【請求項16】
前記音量調整手段は、
前記関連判定手段で、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記音量を調整するか否かの問合せを第2のユーザ端末に行い、
前記問合せに対し、前記音量を調整する旨のユーザ選択が前記第2のユーザ端末でなされた場合に前記音量を調整することを特徴とする請求項1に記載の情報処理システム。
【請求項17】
前記複数のユーザ端末は、夫々を利用するユーザが装着するHMDを有することを特徴とする請求項1記載の情報処理システム。
【請求項18】
請求項1記載の情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、
前記音量調整手段を有することを特徴とするエッジデバイス。
【請求項19】
請求項1記載の情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、
前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とするサーバ。
【請求項20】
ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する3以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムの制御方法であって、
前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成ステップと、
前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信ステップと、
前記複数のユーザ端末のうちの第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、前記複数のユーザ端末のうちの第2のユーザ端末に紐づく第2のアバターと関連するか否かを判定する関連判定ステップと、
前記音声データ送信ステップにおいて前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データと、前記第1の音声データを除く第2の音声データとを分析する音声データ分析ステップと、
前記関連判定ステップで、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析ステップで、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記第2のユーザ端末に送信される音声データの、前記第2のユーザ端末の前記音声出力部で出力される音量を調整する音量調整ステップと、
を備えることを特徴とする制御方法。
【請求項21】
コンピュータに読みこませ実行させることで、前記コンピュータを請求項18記載の前記エッジデバイスとして機能させるためのプログラム。
【請求項22】
コンピュータに読みこませ実行させることで、前記コンピュータを請求項19記載の前記サーバとして機能させるためのプログラム。
【請求項23】
請求項21に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【請求項24】
請求項22に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体に関し、特に、仮想空間でのアバターのコミュニケーションを制御する情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体に関する。
【背景技術】
【0002】
複数のユーザが夫々HMD(Head Mounted Display)を装着して、VR(Virtual Reality)による仮想空間上でアバターと呼ばれる自身の分身を介してコミュニケーションを取ることが盛んに行われている。HMDを装着した状態でのユーザ間のコミュニケーション手段としては、ボイスチャットがよく使われている。
【0003】
特許文献1には、第1アバターの音源オブジェクトから出力される音声に指向性を持たせ、第2アバターの集音オブジェクトの位置に応じて、その出力される音声の音量パラメータを設定する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
例えば、仮想空間上で開催される音楽ライブイベントに、ユーザが知人と2人で夫々HMDを装着し観客として参加する状況を考えてみる。音楽ライブイベントは通常、出演者の歌声や演奏、他観客の歓声などで自分たちの周囲が騒がしい。そのため、その仮想空間上の音楽ライブイベントへの参加中に、その知人がユーザに話しかけてきても、知人の声が聞こえ辛く会話が成立しにくい、という課題がある。
【0006】
この状況で特許文献1の技術を適用した場合、複数の問題が想定される。1つ目の問題は、音量パラメータの設定は音源オブジェクト側でしか制御できないため、第2アバターのユーザ(集音オブジェクト側)が「第1アバター(音源オブジェクト側)から出力された音声を聞き取れない」と思っても、解決できないことである。2つ目の問題は、音量パラメータの設定を変える必要があるか否かを、第1アバターのユーザ(音源オブジェクト側)が判断しなければいけないことである。3つ目の問題は、目的の知人(第2アバター)の近くに他の観客のアバターが存在する場合、その他の観客にも第1アバターの音源オブジェクトから出力された大きな声が届いてしまい迷惑になることである。
【0007】
よって本発明は、仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話を成立させることができる情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の請求項1に係る情報処理システムは、ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する3以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、前記複数のユーザ端末のうちの第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、前記複数のユーザ端末のうちの第2のユーザ端末に紐づく第2のアバターと関連するか否かを判定する関連判定手段と、前記音声データ送信手段により前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データと、前記第1の音声データを除く第2の音声データとを分析する音声データ分析手段と、前記関連判定手段で、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記第2のユーザ端末に送信される音声データの、前記第2のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、を備えることを特徴とする。
【0009】
上記課題を解決するため、本発明の請求項18に係るエッジデバイスは、前記情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、前記音量調整手段を有することを特徴とする。
【0010】
上記課題を解決するため、本発明の請求項19に係るサーバは、前記情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とする。
【発明の効果】
【0011】
本発明によれば、仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話を成立させることができる。
【図面の簡単な説明】
【0012】
【
図1A】本実施形態に係るエッジデバイスとしてのユーザ端末のハードウェア構成の一例を示すブロック図である。
【
図1B】本実施形態に係るサーバのハードウェア構成の一例を示すブロック図である。
【
図1C】ユーザ端末とサーバを有する、本実施形態に係る情報処理システムの全体の機能構成の一例を示すブロック図である。
【
図2】情報処理システムにおいて実行される仮想空間上の状況に応じた音声データの音量調整処理の一例を示すフローチャートである。
【
図3A】
図2のステップS204の音声調整処理の一例を示すフローチャートである。
【
図3B】
図3AのステップS301の関連判定処理の一例を示すフローチャートである。
【
図3C】
図3AのステップS30の音声データ分析処理の一例を示すフローチャートである。
【
図4】サーバが提供するVRによる仮想空間の一場面の一例を示した図である。
【
図5】サーバが予めデータとして登録している、アバター間のフレンド登録状況リストの一例を示す表である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0014】
図1A~
図1Cは、本実施形態に係るサーバ111と、これと接続する本実施形態に係るエッジデバイスとしての複数のユーザ端末(以下、総称する場合「ユーザ端末100」という)の構成の一例を示すブロック図である。
【0015】
図1Aは、ユーザ端末100のハードウェア構成の一例を示すブロック図である。本実施形態に係るユーザ端末100は、CPU101a、ROM102a、RAM103a、及びHDD104aを含み、各機能部がバス105aで通信可能に接続されている情報処理装置である。
【0016】
CPU101aは、Central Processing Unitであり、RAM103a又はROM102aに格納されているプログラムやデータを用いて各種の処理を実行する。これによりCPU101aは、ユーザ端末100全体の動作制御を行うと共に、ユーザ端末100が行うものとして説明した各種の処理を実行もしくは制御する。
【0017】
ROM102aは、Read-Only Memoryであり、ユーザ端末100の設定データやその起動に係るコンピュータプログラム若しくはデータ、又はユーザ端末100の基本動作に係るコンピュータプログラム若しくはデータなどを格納する。
【0018】
RAM103aは、Random Access Memoryであり、ROM102aやHDD(Hard Disk Drive)104aからロードされたコンピュータプログラム又はデータを格納するためのエリアを有する。またRAM103aは、CPU101aが各種の処理を実行する際に用いるワークエリアを有する。このようにRAM103aは、各種のエリアを適宜提供することができる。
【0019】
HDD104aは、大容量情報記憶装置の一例である。HDD104aには、OS(Operating System)、又はユーザ端末100が行うものとして説明した各種の処理をCPU101aに実行及び制御させるためのコンピュータプログラム若しくはデータが保存されている。また、上記の説明において、各種の情報の登録及び保持は、HDD104aが行ってもよく、RAM103aが行ってもよい。HDD104aに保存されているコンピュータプログラム又はデータは、CPU101aによる制御に従って適宜RAM103aにロードされ、CPU101aによる処理対象となる。
【0020】
なお、HDD104aに加えて、若しくは代えて、メディア(記録媒体)と、該メディアに対するコンピュータプログラムやデータの読み書きを行うドライブ装置と、を設けてもよい。このようなメディアとしては、例えば、フレキシブルディスク(FD)、CD-ROM、DVD、USBメモリ、MO、フラッシュメモリ等が知られている。
【0021】
ユーザ端末100に適用可能な情報処理装置のハードウェア構成は
図1Aに示した構成に限らず、適宜変形/変更が可能である。また、ユーザ端末100は、さらに、HMD106、マイク107、スピーカ108、コントローラ109、及びネットワーク110を含む外部装置と通信可能に接続されている。しかし、これらの外部装置の機能の一部又は全てをユーザ端末100が有していてもよい。例えば、
図1Aでは、HMD106とユーザ端末100とを別個の装置としているが、HMD106とユーザ端末100とを一体化させて1台のユーザ端末100を構成しても良い。
【0022】
HMD106は、サーバ111が提供するVRによる仮想空間における視野画像を表示する機能を持つ。また、HMD106は、HMD106自体の傾きやHMD106を装着するユーザ(以下、装着ユーザ)の視線及び手の動き等を検知するための各種センサ(第1,第2の検知部)を内蔵している。CPU101(視線方向設定手段)は、装着ユーザのアバターの位置及びHMD106で検知された装着ユーザの視線に基づき、装着ユーザのアバターの視線方向を設定し、その視線方向に応じてHMD106により表示される視野画像を決定する。さらにCPU101(アバター動作制御手段)は、HMD106で検知された装着ユーザの手の動きに応じて、仮想空間内に表示される装着ユーザのアバターの手を動かす。尚、HMD106の各種センサでの検知結果に基づき、サーバ111側で仮想空間における装着ユーザの視線方向の設定、視野画像の決定、及び装着ユーザのアバターの手の動きの制御を行うようにしてもよい。
【0023】
マイク107(音声入力部・音声生成手段)は装着ユーザの声の入力を受け付けると、その音声データを生成してCPU101aに送信する。CPU101aはマイク107からの音声データを、ユーザ端末100に紐づくアバターを音源とする音声データとしてサーバ111に送信する。尚、装着ユーザが仮想空間上での音楽ライブイベントの出演者である場合、その歌声や演奏の音の入力をマイク107は受け付ける。スピーカ108(音声出力部)は仮想空間で収集された音声データを出力する。
【0024】
コントローラ109(設定部)は装着ユーザからの入力を受け付け、その入力内容を、仮想空間上での装着ユーザの分身であるアバターの位置の移動や、仮想空間上に表示されたUI(User Interface)の操作に反映する。
【0025】
図1Bは、サーバ111のハードウェア構成の一例を示すブロック図である。
【0026】
サーバ111は、ユーザ端末100とは異なり、HMD106、マイク107、スピーカ108、及びコントローラ109等の外部装置は接続されていないが、それ以外のハードウェア構成はユーザ端末100と同様の情報処理装置である。すなわち、サーバ111は、CPU101b、ROM102b、RAM103b、及びHDD104bを含み、各機能部がバス105bで通信可能に接続されている。
図1Bに示すハードウェア構成は、末尾の記号(a,b)を除く付番が
図1Aと同一のものは上述した
図1Aに示すハードウェア構成と同様であるため、重複した説明は省略する。
【0027】
また、以下に説明する実施形態で使用する数値、処理タイミング、処理順、処理の主体、及びデータ(情報)の送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
【0028】
図1Cは、ユーザ端末100とサーバ111を有する、本実施形態に係る情報処理システム1の全体の機能構成の一例を示すブロック図である。
【0029】
図1Cに示すように、ユーザ端末100は、同一のハードウェア構成及び機能部を有するが、異なるユーザにより利用される、第1のユーザ端末100-1,第2のユーザ端末100-2、及び不図示のユーザ端末100-3~n(n≧3)により構成される。以下、ユーザ端末100が有する機能部については、第1のユーザ端末100-1を使って説明し、第2のユーザ端末100-2及び不図示のユーザ端末100-3~nの機能部についての重複した説明は省略する。
【0030】
第1のユーザ端末100-1は、入出力部112-1、及び送受信部(ユーザ端末)113-1を備え、本実施形態に係るサーバ111は、送受信部(サーバ)114、関連判定部115、音声データ分析部116、及び音量調整部117を備える。
【0031】
図1Cに示した第1のユーザ端末100-1とサーバ111の各機能部はハードウェアで実装しても良いし、ソフトウェア(コンピュータプログラム)で実装しても良い。後者の場合、このコンピュータプログラムを実行可能な情報処理装置は、ユーザ端末100とサーバ111に適用可能である。
【0032】
入出力部112-1は、第1のユーザ端末100-1に接続された外部装置(HMD106-1、マイク107-1、スピーカ108-1、コントローラ109-1等)から入力されたデータの受け付けと、それら外部装置へのデータの出力を行う。
【0033】
送受信部(ユーザ端末)113-1は、第1のユーザ端末100-1が保持するデータ(例えば、マイク107-1で生成された音声データ、装着ユーザのアバターの位置やその手の動きなど)をネットワーク110経由でサーバ111に送信する。また、送受信部(ユーザ端末)113-1は、ネットワーク110経由でサーバ111から送信されてきたデータを受信する。
【0034】
送受信部(サーバ)114(音声データ送信手段)は、サーバ111が保持するデータ(例えば、仮想空間上の各アバターを音源とする音声データ、その位置や手の動きなど)を、ネットワーク110経由で送信先となるユーザ端末100に送信する。また、送受信部(サーバ)114は、ネットワーク110経由で送信元となるユーザ端末100から送信されてきたデータを受信する。
【0035】
このような構成により、サーバ111及びユーザ端末100の間で、各アバターを音源とする音声データや仮想空間上の各アバターの位置の情報やその手の動きの情報が共有される。
【0036】
関連判定部115(関連判定手段)は、第1のユーザ端末100-1から送信された音声データが、第2のユーザ端末100-2に紐づくアバターと関連するか否かを判定する。
【0037】
音声データ分析部116(音声データ分析手段)は、関連判定部115で関連すると判定された場合に、第2のユーザ端末100-2に送信される音声データを分析する。
【0038】
音量調整部117(音量調整手段)は、第2のユーザ端末100-2に送信される音声データの、スピーカ108-2で出力される音量を調整する。
【0039】
以下、
図2及び
図3A~
図3Cを参照して、本実施形態に係る第1のユーザ端末100-1、第2のユーザ端末100-2、及びサーバ111において実行される、仮想空間上の状況に応じて音声データの音量を調整する処理について説明を行う。
【0040】
まず
図2のフローチャートを用いて、情報処理システム1において実行される本実施形態に係る仮想空間上の状況に応じた音声データの音量調整処理の一例を説明する。
【0041】
図2において、ステップS201,S202は第1のユーザ端末100-1において実行され、ステップS203~S205はサーバ111において実行され、ステップS206,S207は第2のユーザ端末100-2において実行される。
【0042】
ステップS201で入出力部112-1は、ユーザがマイク107-1に向けて発した声を第1の音声データとして受け付ける。
【0043】
ステップS202で送受信部(ユーザ端末)113-1は、ステップS201で受け付けた第1の音声データをネットワーク110経由でサーバ111に送信して、第1のユーザ端末100-1側における本処理を終了する。
【0044】
ステップS203で送受信部(サーバ)114は、ステップS202で送信された第1の音声データをネットワーク110経由で受信する。
【0045】
ステップS204で関連判定部115、音声データ分析部116、及び音量調整部117は、第2のユーザ端末100-2に送信される音声データの音量を調整する音量調整処理を実行する。音量調整処理の詳細は
図3Aを用いて後述する。
【0046】
ステップS205で送受信部(サーバ)114は、ステップS204で音量を調整した音声データを、ネットワーク110経由で第2のユーザ端末100-2に送信して、サーバ111側における本処理を終了する。
【0047】
ステップS206で送受信部(ユーザ端末)113-2は、ステップS205でサーバ111からネットワーク110経由で送信されてきた音声データを受信する。
【0048】
ステップS207で入出力部112-2は、ステップS206で受信した音声データをステップS204で調整された音量でスピーカ108-2により出力して、第2のユーザ端末100-2側における本処理を終了する。
【0049】
次いで、サーバ111で実行される
図2のステップS204の音量調整処理の一例について、
図3Aのフローチャートを用いて説明を行う。
【0050】
図3Aにおいてまず、ステップS301で関連判定部115は、ステップS203で第1のユーザ端末100-1から受信した第1の音声データが、第2のユーザ端末100-2に紐づく第2のアバターと関連するか否かを判定する関連判定処理を実行する。関連判定処理の詳細は
図3Bを用いて後述する。尚、第2のアバターとは、HMD106-2の装着ユーザのアバターを指す。すなわち、第1の音声データが第2のアバターに関連するとは、つまり、第1のユーザ端末100-1のユーザが、第2のユーザ端末100-2のユーザに話しかけていることを意味する。
【0051】
ステップS302で関連判定部115は、ステップS301の関連判定処理の結果が、第1の音声データが第2のアバターに関連するという判定結果であった場合、ステップS303に進み、そうでない場合には本処理(音量調整処理)を終了する。
【0052】
ステップS303で音声データ分析部116は、第2のユーザ端末100-2に送信される音声データのうち、第1の音声データと、第1の音声データを除く第2の音声データとを分析する音声データ分析処理を実行する。音声データ分析処理の詳細は
図3Cを用いて後述する。尚、第2の音声データとは、例えば仮想空間上で音楽ライブイベントが開催されている場合、不図示のユーザ端末100-3~nを利用する、出演者の歌声や演奏、他観客の歓声といった、第1の音声データを除いた他の全ての音声データを指す。
【0053】
ステップS304で音声データ分析部116は、ステップS303の音声データ分析処理の結果が、第2の音声データが第1の音声データを阻害するという分析結果であった場合、ステップS305に進む。一方、そうでない場合には本処理(音量調整処理)を終了する。第2の音声データが第1の音声データを阻害するとは、第2の音声データのせいで、第1の音声データが聞こえない、または非常に聞こえにくい状況を意味する。
【0054】
ステップS305で音量調整部117は、第2のユーザ端末100-2に送信される音声データの音量を調整して、本処理(音量調整処理)を終了する。音量の調整方法は、サーバ111または第2のユーザ端末100-2の設定に従い、第1の音声データの音量を大きくする、または第2の音声データの音量を小さくする。このように、第2の音声データが第1の音声データを阻害する場合、第1の音声データの音量を大きくすることで、第1の音声データが聞こえるようになる。または、第2の音声データが第1の音声データを阻害する場合に、第2の音声データの音量を小さくすることで、相対的に、第1の音声データが聞こえるようになる。
【0055】
次いで、サーバ111で実行される
図3AのステップS301の関連判定処理の一例について、
図3Bのフローチャートを用いて説明を行う。
【0056】
図3Bにおいてまず、ステップS306で関連判定部115は、第2のアバターが、第1の音声データの音源である第1のアバター(HMD106-1の装着ユーザのアバター)に向けて耳に手を当てているか否かを判定する。第1のアバターに向けて耳に手を当てている場合(ステップS306でYES)、ステップS307に進み、そうでない場合(ステップS306でNO)、ステップS308に進む。尚、関連判定部115は、コントローラ109-2へのユーザ入力により設定された第2のアバターの位置及びHMD106-2が検知した装着ユーザの手の動きから、第2のアバターが第1のアバターに向けて耳に手を当てているか否かを判定する。ここで第2のアバターが耳に手を当てている状態とは、HMD106-2の装着ユーザが自分の手を耳に当てている状態を意味する。すなわち、仮に第2のアバター自体に耳に相当する器官が存在しなくても、第2のアバターの顔の側面に手が位置する状態である場合、関連判定部115は第2のアバターが耳に手を当てていると判断する。つまり、耳に手を当てる仕草は、現実空間において、特定方向の音を聞こえやすくするために行われる仕草であるため、特定方向が第1のアバターの方向であれば、第1の音声データが第2のアバターと関連すると判断される。
【0057】
ステップS307で関連判定部115は、第1の音声データが第2のアバターと関連すると判定して、本処理(関連判定処理)を終了する。
【0058】
ステップS308で関連判定部115は、第1のアバターと第2のアバターとが友好関係にあるか否かを判定する。友好関係にある場合(ステップS308でYES)、ステップS307に進み、そうでない場合(ステップS308でNO)、ステップS309に進む。友好関係にある場合とは、例えば第1のアバターと第2のアバターが互いをフレンドとしてサーバ111に登録されている場合である。この判定方法の詳細については
図5を用いて後述する。
【0059】
ステップS309で関連判定部115は、第1のアバターが第2のアバターの方向を向いているか否かを判定する。第1のアバターが第2のアバターの方向を向いている場合(ステップS309でYES)、ステップS307に進み、そうでない場合(ステップS309でNO)、処理はステップS310に進む。第1のアバターが第2のアバターの方向を向いている場合とは、例えば第1のアバターの視線方向や顔の前方の延長線上に第2のアバターが存在する場合が例示される。上述の通り、コントローラ109-1,109-2の夫々に対するユーザ操作により設定される第1及び第2のアバターの位置により、第1のアバターの顔の前方の延長線上に第2のアバターが存在するか否かが判定される。
【0060】
ステップS310で関連判定部115は、第1の音声データに第2のアバターの名前が含まれているか否かを判定する。具体的には、関連判定部115は、第1の音声データに対し音声認識処理及び自然言語処理を行い、
図4で後述する第2のアバターの頭上に表示される「Bさん」という名前が第1の音声データに含まれるか否かを判定する。
第2のアバターの名前が含まれている場合(ステップS310でYES)、ステップS307に進み、そうでない場合(ステップS310でNO)、ステップS311に進む。
【0061】
ステップS311で関連判定部115は、第1の音声データが第2のアバターと関連しないと判定して、本処理(関連判定処理)を終了する。
【0062】
次いで、サーバ111で実行される
図3AのステップS303の音声データ分析処理の一例について、
図3Cのフローチャートを用いて説明を行う。
【0063】
図3Cにおいてまず、ステップS312で音声データ分析部116は、第2の音声データの音量が第1の音声データの音量より大きいか否かを判定する。第2の音声データの音量が第1の音声データの音量より大きい場合(ステップS312でYES)、ステップS313に進み、そうでない場合(ステップS312でNO)、ステップS314に進む。音声データの音量の比較には、例えばデシベルの大きさが用いられる。
【0064】
ステップS313で音声データ分析部116は、第2の音声データが第1の音声データを阻害すると判定して、本処理(音声データ分析処理)を終了する。
【0065】
ステップS314で音声データ分析部116は、第2の音声データが第1の音声データを阻害しないと判定して、本処理(音声データ分析処理)を終了する。
【0066】
【0067】
図4は、サーバ111が提供するVRによる仮想空間の一場面の一例を示した図である。
図5はサーバ111が予めデータとして登録している、アバター間の友好関係の有無を示すデータであるフレンド登録状況リストの一例を示す表である。ここで本実施形態ではフレンド登録状況リストは、ROM102bまたはHDD104bに予め登録されているが、ステップS308の判定処理の際、CPU101b(取得手段)がフレンド登録状況リストを取得できればこれに限定されない。
【0068】
図4(a)は、仮想空間上で開催される音楽ライブイベントに観客として参加している第1のアバター401及び第2のアバター402を正面から捉えた様子を表している。
【0069】
図4(a)において、第1のアバター401及び第2のアバター402は真横に並んでおり、その眼前には、開催中の音楽ライブイベントのステージが広がっており、出演者の歌声や演奏、他観客の歓声などでその周囲は騒がしい状況である。上述の通り、第1のアバター401は、第1のユーザ端末100-1のユーザが操作しているアバターであり、第2のアバター402は、第2のユーザ端末100-2のユーザが操作しているアバターである。
【0070】
また
図4(a)に示すように、第1のアバター401の頭上には「Aさん」という、第1のアバター401の名前403が、他のアバターから見える状態で表示されている。同様に、第2のアバター402の頭上には「Bさん」という、第2のアバター402の名前404が、他のアバターから見える状態で表示されている。
【0071】
図4(b)は、
図4(a)の状態から、第1のユーザ端末100-1のユーザがマイク107-1に向けて声を発して、ステップS201~ステップS203まで処理が進み、関連判定処理(
図3B)をステップS306から実行しようとしている場面である。
【0072】
破線吹き出し405は第1のユーザ端末100-1のユーザが発した声「…」に相当する音声データが、第1のアバター401を音源として発生していることを表している。破線吹き出し405は説明のために
図4(b)に表示しているだけであり、仮想空間上では表示されない。手406は第2のアバター402の右手である。
【0073】
ステップS306で関連判定部115は、第2のアバター402が、第1の音声データの音源である第1のアバター401に向けて耳に手を当てているか否かを判定する。
図4(b)では、第2のアバター402の手406が、第2のアバター402の顔の右側面に位置し、且つ第2のアバター402からみて右に第1のアバター401が位置する。よって、関連判定部115は、第2のアバター402が第1のアバター401に向けて耳に手を当てていると判定し、ステップS307に進む。
【0074】
図4(c)は、
図4(a)の状態から、第1のユーザ端末100-1のユーザがマイク107-1に向けて声を発して、ステップS201~ステップS203まで処理が進み、関連判定処理(
図3B)をステップS306から実行しようとしている場面である。
【0075】
ステップS306で関連判定部115は、第2のアバター402が、第1の音声データの音源である第1のアバター401に向けて耳に手を当てているか否かを判定する。
図4(c)では、第2のアバター402は手406(不図示)を下ろしているため、関連判定部115は、第2のアバター402が第1のアバター401に向けて耳に手を当てていないと判定し、ステップS308に進む。
【0076】
ステップS308で関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあるか否かを判定する。
図5で第1のアバター401を表すアバターの名前「Aさん」と、第2のアバター402を表すアバターの名前「Bさん」は、互いにフレンドとして登録されている。このため、関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあると判定し、ステップS307に進む。
【0077】
図4(d)は、
図4(a)の状態から、第1のユーザ端末100-1のユーザがマイク107-1に向けて声を発して、ステップS201~ステップS203まで処理が進み、関連判定処理(
図3B)をステップS306から実行しようとしている場面である。
【0078】
ステップS306で関連判定部115は、第2のアバター402が、第1の音声データの音源である第1のアバター401に向けて耳に手を当てているか否かを判定する。
図4(d)では、第2のアバター402は
図4(c)と同様、第2のアバター402は手406(不図示)を下ろしているため、ステップS308に進む。
【0079】
ステップS308で関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあるか否かを判定する。但しここでは
図5に示すアバター間のフレンド登録状況とは異なるフレンド登録状況がサーバ111に登録されている。具体的には、この例においては、フレンド登録状況として、第1のアバター401を表すアバターの名前「Aさん」と、第2のアバター402を表すアバターの名前「Bさん」は、互いにフレンドとしての登録がされていない。このため、関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあると判定し、ステップS307に進む。このため、関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にないと判定し、ステップS309に進む。
【0080】
ステップS309で関連判定部115は、第1のアバター401が第2のアバター402の方向を向いているか否かを判定する。
図4(d)で第1のアバター401の眼前、すなわちその視線方向の延長線上に第2のアバター402が存在するため、関連判定部115は、第1のアバター401が第2のアバター402の方向を向いていると判定し、ステップS307に進む。
【0081】
図4(e)は、
図4(a)の状態から、第1のユーザ端末100-1のユーザがマイク107-1に向けて声を発して、ステップS201~ステップS203まで処理が進み、関連判定処理(
図3B)をステップS306から実行しようとしている場面である。
【0082】
ステップS306で関連判定部115は、第2のアバター402が、第1の音声データの音源である第1のアバター401に向けて耳に手を当てているか否かを判定する。
図4(d)では、第2のアバター402は
図4(c)と同様、第2のアバター402は手406(不図示)を下ろしているため、ステップS308に進む。
【0083】
ステップS308で関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあるか否かを判定する。但しここでは
図5に示すアバター間のフレンド登録状況とは異なるフレンド登録状況がサーバ111に登録されている。具体的には、この例においては、フレンド登録状況として、第1のアバター401を表すアバターの名前「Aさん」と、第2のアバター402を表すアバターの名前「Bさん」は、互いにフレンドとしての登録がされていない。このため、関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にあると判定し、ステップS307に進む。このため、関連判定部115は、第1のアバター401と第2のアバター402とが友好関係にないと判定し、ステップS309に進む。
【0084】
ステップS309で関連判定部115は、第1のアバター401が第2のアバター402の方向を向いているか否かを判定する。
図4(e)で第1のアバター401の眼前、すなわちその視線方向の延長線上に第2のアバター402は存在しないため、関連判定部115は、第1のアバター401が第2のアバター402の方向を向いていないと判定し、ステップS310に進む。
【0085】
ステップS310で関連判定部115は、第1のアバター401を音源とする第1の音声データに第2のアバター402の名前404が含まれているか否かを判定する。
図4(e)に示すように第1の音声データには第2のアバター402の名前404「Bさん」が含まれているため、処理はステップS307に進む。
【0086】
このように、本実施形態によれば、第1の音声データが第2のアバターと関連すると判定され、且つ、第2の音声データが第1の音声データを阻害すると分析された場合に、第2のユーザ端末100-2に送信される音声データの音量を調整する。これにより、仮想空間上で周囲が騒がしい状況であっても、ユーザAは目的の人であるユーザBとの会話を成立することができる。
【0087】
以上の説明では、第2のユーザ端末100-2に送信される音声データの音量の調整は、サーバ111により自動で行われ、ユーザは音量が調整されたか否かを知ることは無かった。しかし、音量調整部117が第2のユーザ端末100-2に送信される音声データの音量を調整したことを記憶し、第1のユーザ端末100-1と第2のユーザ端末100-2に、音量を調整したことを通知するようにしても良い。これにより、第1のユーザ端末100-1のユーザは、自身の発した声の音量が調整されて、第2のユーザ端末100-2のユーザに聞こえやすくなったことを知ることができる。また、第2のユーザ端末100-2のユーザは、ステップS305で第2の音声データの音量が小さくなった場合に、何故第2の音声データの音量が小さくなったかの理由を知ることができる。
【0088】
また、以上の説明では、第1の音声データが第2のアバターと関連すると判定され、且つ、第2の音声データが第1の音声データを阻害すると分析された場合に、必ず、第2のユーザ端末100-2に送信される音声データの音量を調整した。しかし、音量調整部117は、自動で必ず音量を調整するのではなく、音量を調整するか否かを第2のユーザ端末100-2のユーザに問合せを送信し、音量を調整するか否かをユーザに選択させるようにしても良い。この場合、ステップS305で音量調整部117は、第2のユーザ端末100-2に送信される音声データの音量を調整するのではなく、音量を調整すべきであることと、音声データの音量の調整量を記憶する。その後、第2のユーザ端末100-2に、音量未調整の音声データと、音量を調整するか否かの選択をユーザに求めるための問合せを送信する。この問合せに応じて、第2のユーザ端末100-2の入出力部112-2は、HMD106-2に音量を調整するか否かの選択をユーザに求めるダイアログを表示させ、ユーザがコントローラ109-2で音量を調整するか否かを選択可能とする。ユーザが音量を選択することを選んだ場合、音量調整要求がサーバ111に送信され、音量調整部117は記憶していた調整量で音声データの音量を調整し、第2のユーザ端末100-2に送信する。
【0089】
また、以上の説明では、関連判定処理のステップS306~ステップS310は、ステップの順に判定が行われたが、同時に判定を行い、何れかのステップでの判定が成立した場合にステップS307に進む「OR条件」であってもよい。また、何れかが同時に成立した場合にステップS307に進む「AND条件」であっても良い。例えば、ステップS308とステップS309のAND条件であれば、第1のアバターと第2のアバターとが友好関係にあり、且つ、第1のアバターが第2のアバターの方向を向いている場合にステップS307に進むようにしても良い。
【0090】
また以上の説明では、サーバ111で第2のユーザ端末100-2に送信される音声データの音量の調整を行っていたが、音量の調整を第2のユーザ端末100-2で行うようにしても良い。その場合、サーバ111は第2のユーザ端末100-2に、音量未調整の音声データと、各音声データの音量の調整量を送信する。
【0091】
また以上の説明では、サーバ111が存在するクライアント・サーバ方式で説明したが、ピア・ツー・ピア方式であっても良い。その場合、サーバ111は存在せず、サーバ111の機能構成や処理はユーザ端末100が代わりを担う。
【0092】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0093】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【0094】
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
【0095】
本実施形態の開示は、以下の構成、方法、並びにプログラムを含む。
(構成1)ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する3以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、前記複数のユーザ端末のうちの第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、前記複数のユーザ端末のうちの第2のユーザ端末に紐づく第2のアバターと関連するか否かを判定する関連判定手段と、前記音声データ送信手段により前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データと、前記第1の音声データを除く第2の音声データとを分析する音声データ分析手段と、前記関連判定手段で、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記第2のユーザ端末に送信される音声データの、前記第2のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、を備えることを特徴とする、情報処理システム。
(構成2)前記音量調整手段は、前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データの音量を大きくすることを特徴とする構成1に記載の情報処理システム。
(構成3)前記音量調整手段は、前記第2のユーザ端末に送信される音声データのうち、前記第2の音声データの音量を小さくすることを特徴とする構成1に記載の情報処理システム。
(構成4)前記関連判定手段は、前記第2のアバターが前記第1のアバターに向けて耳に手を当てている場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする構成1乃至3のいずれか1つに記載の情報処理システム。
(構成5)前記複数のユーザ端末は、夫々を利用するユーザの手の動きを検知する第1の検知部と、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、を更に有し、前記情報処理システムは、前記第2のユーザ端末の前記第1の検知部で前記手の動きが検知された場合、その検知結果に応じて前記第2のアバターの手を動かすアバター動作制御手段を更に備え、前記関連判定手段は、前記設定された前記第1及び第2のアバターの位置、及び前記アバター動作制御手段により制御された前記第2のアバターの手の動きに応じて、前記第2のアバターが前記第1のアバターに向けて耳に手を当てているか否かを判定することを特徴とする構成4記載の情報処理システム。
(構成6)前記関連判定手段は、前記第1のアバターと前記第2のアバターとが友好関係にある場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする構成1乃至5のいずれか1つに記載の情報処理システム。
(構成7)前記複数のユーザ端末の夫々に紐づくアバターの間の友好関係の有無を示すデータを取得する取得手段を更に備え、前記関連判定手段は、前記データに基づき、前記第1のアバターと前記第2のアバターとが友好関係にあるか否かを判定することを特徴とする構成6記載の情報処理システム。
(構成8)前記関連判定手段は、前記第1のアバターが前記第2のアバターの方向を向いている場合に、前記第1の音声データが前記第2のアバターと関連すると判定することを特徴とする構成1乃至7のいずれか1つに記載の情報処理システム。
(構成9)前記関連判定手段は、前記第1のアバターの顔の前方の延長線上に前記第2のアバターが存在する場合、前記第1のアバターが前記第2のアバターの方向を向いていると判定する構成8記載の情報処理システム。
(構成10)前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部を更に有し、前記関連判定手段は、前記設定された前記第1及び第2のアバターの位置に応じて、前記第1のアバターの顔の前方の延長線上に前記第2のアバターが存在するか否かを判定することを特徴とする構成9に記載の情報処理システム。
(構成11)前記関連判定手段は、前記第1のアバターの視線方向に前記第2のアバターが存在する場合、前記第1のアバターが前記第2のアバターの方向を向いていると判定する構成8記載の情報処理システム。
(構成12)前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、夫々を利用するユーザの視線を検知する第2の検知部と、を更に有し、前記情報処理システムは、前記設定された前記第1のアバターの位置、及び前記第1のユーザ端末の前記第2の検知部で検知された前記視線に応じて、前記第1のアバターの視線方向を設定する視線方向設定手段を更に備え、前記関連判定手段は、前記設定された前記第2のアバターの位置に応じて、前記設定された前記第1のアバターの視線方向に前記第2のアバターが存在するか否かを判定することを特徴とする構成11に記載の情報処理システム。
(構成13)前記関連判定手段は、前記第1の音声データに前記第2のアバターの名前が含まれている場合に、第1の音声データが第2のアバターと関連すると判定することを特徴とする構成1乃至12のいずれか1つに記載の情報処理システム。
(構成14)前記音声データ分析手段は、前記第2の音声データの音量が前記第1の音声データの音量より大きい場合に、前記第2の音声データが前記第1の音声データを阻害すると分析することを特徴とする構成1乃至13のいずれか1つに記載の情報処理システム。
(構成15)前記音量調整手段は、前記第2のユーザ端末に送信される音声データの音量を調整したことを記憶し、前記第1及び第2のユーザ端末の夫々に、前記音量を調整したことを通知することを特徴とする構成1乃至14のいずれか1つに記載の情報処理システム。
(構成16)前記音量調整手段は、前記関連判定手段で、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記音量を調整するか否かの問合せを第2のユーザ端末に行い、前記問合せに対し、前記音量を調整する旨のユーザ選択が前記第2のユーザ端末でなされた場合に前記音量を調整することを特徴とする構成1乃至15のいずれか1つに記載の情報処理システム。
(構成17)前記複数のユーザ端末は、夫々を利用するユーザが装着するHMDを有することを特徴とする構成1乃至16のいずれか1つに記載の情報処理システム。
(構成18)構成1乃至17のいずれか1つに記載の情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、前記音量調整手段を有することを特徴とするエッジデバイス。
(構成19)構成1乃至17のいずれか1つに記載の情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とするサーバ。
(方法1)ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する3以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムの制御方法であって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成ステップと、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信ステップと、前記複数のユーザ端末のうちの第1のユーザ端末に紐づく第1のアバターを音源とした第1の音声データが、前記複数のユーザ端末のうちの第2のユーザ端末に紐づく第2のアバターと関連するか否かを判定する関連判定ステップと、前記音声データ送信ステップにおいて前記第2のユーザ端末に送信される音声データのうち、前記第1の音声データと、前記第1の音声データを除く第2の音声データとを分析する音声データ分析ステップと、前記関連判定ステップで、前記第1の音声データが前記第2のアバターと関連すると判定され、且つ、前記音声データ分析ステップで、前記第2の音声データが前記第1の音声データを阻害すると分析された場合に、前記第2のユーザ端末に送信される音声データの、前記第2のユーザ端末の前記音声出力部で出力される音量を調整する音量調整ステップと、を備えることを特徴とする制御方法。
(プログラム1)コンピュータに読みこませ実行させることで、前記コンピュータを構成18記載の前記エッジデバイスとして機能させるためのプログラム。
(プログラム2)コンピュータに読みこませ実行させることで、前記コンピュータを構成19記載の前記サーバとして機能させるためのプログラム。
(記憶媒体1)構成21に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
(記憶媒体2)構成22に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
【符号の説明】
【0096】
1 情報処理システム
100 ユーザ端末
106 HMD
107 マイク
108 スピーカ
110 ネットワーク
112 入出力部
113 送受信部(ユーザ端末)
114 送受信部(サーバ)
115 関連判定部
116 音声データ分析部
117 音量調整部