特開2025-62863 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2025-62863情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3A
3B
3C
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025062863

(43)【公開日】2025-04-15

(54)【発明の名称】情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体

(51)【国際特許分類】

G06F 3/16 20060101AFI20250408BHJP

G06F 3/01 20060101ALI20250408BHJP

G06T 19/00 20110101ALI20250408BHJP

【ＦＩ】

G06F3/16 540

G06F3/01 510

G06T19/00 A

【審査請求】未請求

【請求項の数】24

【出願形態】ＯＬ

(21)【出願番号】P 2023172214

(22)【出願日】2023-10-03

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】中村友宣

【テーマコード（参考）】

5B050

5E555

【Ｆターム（参考）】

5B050BA12

5B050CA07

5B050CA08

5B050EA12

5B050FA05

5B050FA10

5E555AA27

5E555AA46

5E555BA02

5E555BB38

5E555BD07

5E555BE17

5E555CA42

5E555CA47

5E555CB64

5E555CB65

5E555CB66

5E555DA08

5E555DA23

5E555DB32

5E555DB57

5E555DC85

5E555FA00

(57)【要約】

【課題】仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話が成立させることができる情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体を提供する。
【解決手段】
情報処理システム１において、第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、第２のユーザ端末に紐づく第２のアバターと関連すると判定され、且つ、第２のユーザ端末に送信される音声データのうち、第１の音声データと、第１の音声データを除く第２の音声データとを分析した結果、第２の音声データが第１の音声データを阻害すると分析された場合に、第２のユーザ端末に送信される音声データの音量を調整する。
【選択図】図２

【特許請求の範囲】

【請求項1】

ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する３以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、
前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、
前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、
前記複数のユーザ端末のうちの第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、前記複数のユーザ端末のうちの第２のユーザ端末に紐づく第２のアバターと関連するか否かを判定する関連判定手段と、
前記音声データ送信手段により前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データと、前記第１の音声データを除く第２の音声データとを分析する音声データ分析手段と、
前記関連判定手段で、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記第２のユーザ端末に送信される音声データの、前記第２のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、
を備えることを特徴とする、情報処理システム。

【請求項2】

前記音量調整手段は、前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データの音量を大きくすることを特徴とする請求項１に記載の情報処理システム。

【請求項3】

前記音量調整手段は、前記第２のユーザ端末に送信される音声データのうち、前記第２の音声データの音量を小さくすることを特徴とする請求項１に記載の情報処理システム。

【請求項4】

前記関連判定手段は、前記第２のアバターが前記第１のアバターに向けて耳に手を当てている場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする請求項１に記載の情報処理システム。

【請求項5】

前記複数のユーザ端末は、
夫々を利用するユーザの手の動きを検知する第１の検知部と、
夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、
を更に有し、
前記情報処理システムは、
前記第２のユーザ端末の前記第１の検知部で前記手の動きが検知された場合、その検知結果に応じて前記第２のアバターの手を動かすアバター動作制御手段を更に備え、
前記関連判定手段は、前記設定された前記第１及び第２のアバターの位置、及び前記アバター動作制御手段により制御された前記第２のアバターの手の動きに応じて、前記第２のアバターが前記第１のアバターに向けて耳に手を当てているか否かを判定することを特徴とする請求項４記載の情報処理システム。

【請求項6】

前記関連判定手段は、前記第１のアバターと前記第２のアバターとが友好関係にある場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする請求項１に記載の情報処理システム。

【請求項7】

前記複数のユーザ端末の夫々に紐づくアバターの間の友好関係の有無を示すデータを取得する取得手段を更に備え、
前記関連判定手段は、前記データに基づき、前記第１のアバターと前記第２のアバターとが友好関係にあるか否かを判定することを特徴とする請求項６記載の情報処理システム。

【請求項8】

前記関連判定手段は、前記第１のアバターが前記第２のアバターの方向を向いている場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする請求項１に記載の情報処理システム。

【請求項9】

前記関連判定手段は、前記第１のアバターの顔の前方の延長線上に前記第２のアバターが存在する場合、前記第１のアバターが前記第２のアバターの方向を向いていると判定する請求項８記載の情報処理システム。

【請求項10】

前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部を更に有し、
前記関連判定手段は、前記設定された前記第１及び第２のアバターの位置に応じて、前記第１のアバターの顔の前方の延長線上に前記第２のアバターが存在するか否かを判定することを特徴とする請求項９に記載の情報処理システム。

【請求項11】

前記関連判定手段は、前記第１のアバターの視線方向に前記第２のアバターが存在する場合、前記第１のアバターが前記第２のアバターの方向を向いていると判定する請求項８記載の情報処理システム。

【請求項12】

前記複数のユーザ端末は、
夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、
夫々を利用するユーザの視線を検知する第２の検知部と、
を更に有し、
前記情報処理システムは、
前記設定された前記第１のアバターの位置、及び前記第１のユーザ端末の前記第２の検知部で検知された前記視線に応じて、前記第１のアバターの視線方向を設定する視線方向設定手段を更に備え、
前記関連判定手段は、前記設定された前記第２のアバターの位置に応じて、前記設定された前記第１のアバターの視線方向に前記第２のアバターが存在するか否かを判定することを特徴とする請求項１１に記載の情報処理システム。

【請求項13】

前記関連判定手段は、前記第１の音声データに前記第２のアバターの名前が含まれている場合に、第１の音声データが第２のアバターと関連すると判定することを特徴とする請求項１に記載の情報処理システム。

【請求項14】

前記音声データ分析手段は、前記第２の音声データの音量が前記第１の音声データの音量より大きい場合に、前記第２の音声データが前記第１の音声データを阻害すると分析することを特徴とする請求項１に記載の情報処理システム。

【請求項15】

前記音量調整手段は、前記第２のユーザ端末に送信される音声データの音量を調整したことを記憶し、前記第１及び第２のユーザ端末の夫々に、前記音量を調整したことを通知することを特徴とする請求項１に記載の情報処理システム。

【請求項16】

前記音量調整手段は、
前記関連判定手段で、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記音量を調整するか否かの問合せを第２のユーザ端末に行い、
前記問合せに対し、前記音量を調整する旨のユーザ選択が前記第２のユーザ端末でなされた場合に前記音量を調整することを特徴とする請求項１に記載の情報処理システム。

【請求項17】

前記複数のユーザ端末は、夫々を利用するユーザが装着するＨＭＤを有することを特徴とする請求項１記載の情報処理システム。

【請求項18】

請求項１記載の情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、
前記音量調整手段を有することを特徴とするエッジデバイス。

【請求項19】

請求項１記載の情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、
前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とするサーバ。

【請求項20】

ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する３以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムの制御方法であって、
前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成ステップと、
前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信ステップと、
前記複数のユーザ端末のうちの第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、前記複数のユーザ端末のうちの第２のユーザ端末に紐づく第２のアバターと関連するか否かを判定する関連判定ステップと、
前記音声データ送信ステップにおいて前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データと、前記第１の音声データを除く第２の音声データとを分析する音声データ分析ステップと、
前記関連判定ステップで、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析ステップで、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記第２のユーザ端末に送信される音声データの、前記第２のユーザ端末の前記音声出力部で出力される音量を調整する音量調整ステップと、
を備えることを特徴とする制御方法。

【請求項21】

コンピュータに読みこませ実行させることで、前記コンピュータを請求項１８記載の前記エッジデバイスとして機能させるためのプログラム。

【請求項22】

コンピュータに読みこませ実行させることで、前記コンピュータを請求項１９記載の前記サーバとして機能させるためのプログラム。

【請求項23】

請求項２１に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【請求項24】

請求項２２に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体に関し、特に、仮想空間でのアバターのコミュニケーションを制御する情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体に関する。

【背景技術】

【0002】

複数のユーザが夫々ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）を装着して、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）による仮想空間上でアバターと呼ばれる自身の分身を介してコミュニケーションを取ることが盛んに行われている。ＨＭＤを装着した状態でのユーザ間のコミュニケーション手段としては、ボイスチャットがよく使われている。

【0003】

特許文献１には、第１アバターの音源オブジェクトから出力される音声に指向性を持たせ、第２アバターの集音オブジェクトの位置に応じて、その出力される音声の音量パラメータを設定する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第６２８９７０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

例えば、仮想空間上で開催される音楽ライブイベントに、ユーザが知人と２人で夫々ＨＭＤを装着し観客として参加する状況を考えてみる。音楽ライブイベントは通常、出演者の歌声や演奏、他観客の歓声などで自分たちの周囲が騒がしい。そのため、その仮想空間上の音楽ライブイベントへの参加中に、その知人がユーザに話しかけてきても、知人の声が聞こえ辛く会話が成立しにくい、という課題がある。

【0006】

この状況で特許文献１の技術を適用した場合、複数の問題が想定される。１つ目の問題は、音量パラメータの設定は音源オブジェクト側でしか制御できないため、第２アバターのユーザ（集音オブジェクト側）が「第１アバター（音源オブジェクト側）から出力された音声を聞き取れない」と思っても、解決できないことである。２つ目の問題は、音量パラメータの設定を変える必要があるか否かを、第１アバターのユーザ（音源オブジェクト側）が判断しなければいけないことである。３つ目の問題は、目的の知人（第２アバター）の近くに他の観客のアバターが存在する場合、その他の観客にも第１アバターの音源オブジェクトから出力された大きな声が届いてしまい迷惑になることである。

【0007】

よって本発明は、仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話を成立させることができる情報処理システム、エッジデバイス、サーバ、制御方法、プログラム、及び記憶媒体を提供することを目的とする。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明の請求項１に係る情報処理システムは、ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する３以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、前記複数のユーザ端末のうちの第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、前記複数のユーザ端末のうちの第２のユーザ端末に紐づく第２のアバターと関連するか否かを判定する関連判定手段と、前記音声データ送信手段により前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データと、前記第１の音声データを除く第２の音声データとを分析する音声データ分析手段と、前記関連判定手段で、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記第２のユーザ端末に送信される音声データの、前記第２のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、を備えることを特徴とする。

【0009】

上記課題を解決するため、本発明の請求項１８に係るエッジデバイスは、前記情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、前記音量調整手段を有することを特徴とする。

【0010】

上記課題を解決するため、本発明の請求項１９に係るサーバは、前記情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とする。

【発明の効果】

【0011】

本発明によれば、仮想空間上で周囲が騒がしい状況であっても、ユーザ間でアバターにより目的の人との会話を成立させることができる。

【図面の簡単な説明】

【0012】

【図1A】本実施形態に係るエッジデバイスとしてのユーザ端末のハードウェア構成の一例を示すブロック図である。

【図1B】本実施形態に係るサーバのハードウェア構成の一例を示すブロック図である。

【図1C】ユーザ端末とサーバを有する、本実施形態に係る情報処理システムの全体の機能構成の一例を示すブロック図である。

【図2】情報処理システムにおいて実行される仮想空間上の状況に応じた音声データの音量調整処理の一例を示すフローチャートである。

【図3A】図２のステップＳ２０４の音声調整処理の一例を示すフローチャートである。

【図3B】図３ＡのステップＳ３０１の関連判定処理の一例を示すフローチャートである。

【図3C】図３ＡのステップＳ３０の音声データ分析処理の一例を示すフローチャートである。

【図4】サーバが提供するＶＲによる仮想空間の一場面の一例を示した図である。

【図5】サーバが予めデータとして登録している、アバター間のフレンド登録状況リストの一例を示す表である。

【発明を実施するための形態】

【0013】

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0014】

図１Ａ～図１Ｃは、本実施形態に係るサーバ１１１と、これと接続する本実施形態に係るエッジデバイスとしての複数のユーザ端末（以下、総称する場合「ユーザ端末１００」という）の構成の一例を示すブロック図である。

【0015】

図１Ａは、ユーザ端末１００のハードウェア構成の一例を示すブロック図である。本実施形態に係るユーザ端末１００は、ＣＰＵ１０１ａ、ＲＯＭ１０２ａ、ＲＡＭ１０３ａ、及びＨＤＤ１０４ａを含み、各機能部がバス１０５ａで通信可能に接続されている情報処理装置である。

【0016】

ＣＰＵ１０１ａは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔであり、ＲＡＭ１０３ａ又はＲＯＭ１０２ａに格納されているプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ１０１ａは、ユーザ端末１００全体の動作制御を行うと共に、ユーザ端末１００が行うものとして説明した各種の処理を実行もしくは制御する。

【0017】

ＲＯＭ１０２ａは、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙであり、ユーザ端末１００の設定データやその起動に係るコンピュータプログラム若しくはデータ、又はユーザ端末１００の基本動作に係るコンピュータプログラム若しくはデータなどを格納する。

【0018】

ＲＡＭ１０３ａは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙであり、ＲＯＭ１０２ａやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０４ａからロードされたコンピュータプログラム又はデータを格納するためのエリアを有する。またＲＡＭ１０３ａは、ＣＰＵ１０１ａが各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ１０３ａは、各種のエリアを適宜提供することができる。

【0019】

ＨＤＤ１０４ａは、大容量情報記憶装置の一例である。ＨＤＤ１０４ａには、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）、又はユーザ端末１００が行うものとして説明した各種の処理をＣＰＵ１０１ａに実行及び制御させるためのコンピュータプログラム若しくはデータが保存されている。また、上記の説明において、各種の情報の登録及び保持は、ＨＤＤ１０４ａが行ってもよく、ＲＡＭ１０３ａが行ってもよい。ＨＤＤ１０４ａに保存されているコンピュータプログラム又はデータは、ＣＰＵ１０１ａによる制御に従って適宜ＲＡＭ１０３ａにロードされ、ＣＰＵ１０１ａによる処理対象となる。

【0020】

なお、ＨＤＤ１０４ａに加えて、若しくは代えて、メディア（記録媒体）と、該メディアに対するコンピュータプログラムやデータの読み書きを行うドライブ装置と、を設けてもよい。このようなメディアとしては、例えば、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、ＵＳＢメモリ、ＭＯ、フラッシュメモリ等が知られている。

【0021】

ユーザ端末１００に適用可能な情報処理装置のハードウェア構成は図１Ａに示した構成に限らず、適宜変形／変更が可能である。また、ユーザ端末１００は、さらに、ＨＭＤ１０６、マイク１０７、スピーカ１０８、コントローラ１０９、及びネットワーク１１０を含む外部装置と通信可能に接続されている。しかし、これらの外部装置の機能の一部又は全てをユーザ端末１００が有していてもよい。例えば、図１Ａでは、ＨＭＤ１０６とユーザ端末１００とを別個の装置としているが、ＨＭＤ１０６とユーザ端末１００とを一体化させて１台のユーザ端末１００を構成しても良い。

【0022】

ＨＭＤ１０６は、サーバ１１１が提供するＶＲによる仮想空間における視野画像を表示する機能を持つ。また、ＨＭＤ１０６は、ＨＭＤ１０６自体の傾きやＨＭＤ１０６を装着するユーザ（以下、装着ユーザ）の視線及び手の動き等を検知するための各種センサ（第１，第２の検知部）を内蔵している。ＣＰＵ１０１（視線方向設定手段）は、装着ユーザのアバターの位置及びＨＭＤ１０６で検知された装着ユーザの視線に基づき、装着ユーザのアバターの視線方向を設定し、その視線方向に応じてＨＭＤ１０６により表示される視野画像を決定する。さらにＣＰＵ１０１（アバター動作制御手段）は、ＨＭＤ１０６で検知された装着ユーザの手の動きに応じて、仮想空間内に表示される装着ユーザのアバターの手を動かす。尚、ＨＭＤ１０６の各種センサでの検知結果に基づき、サーバ１１１側で仮想空間における装着ユーザの視線方向の設定、視野画像の決定、及び装着ユーザのアバターの手の動きの制御を行うようにしてもよい。

【0023】

マイク１０７（音声入力部・音声生成手段）は装着ユーザの声の入力を受け付けると、その音声データを生成してＣＰＵ１０１ａに送信する。ＣＰＵ１０１ａはマイク１０７からの音声データを、ユーザ端末１００に紐づくアバターを音源とする音声データとしてサーバ１１１に送信する。尚、装着ユーザが仮想空間上での音楽ライブイベントの出演者である場合、その歌声や演奏の音の入力をマイク１０７は受け付ける。スピーカ１０８（音声出力部）は仮想空間で収集された音声データを出力する。

【0024】

コントローラ１０９（設定部）は装着ユーザからの入力を受け付け、その入力内容を、仮想空間上での装着ユーザの分身であるアバターの位置の移動や、仮想空間上に表示されたＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）の操作に反映する。

【0025】

図１Ｂは、サーバ１１１のハードウェア構成の一例を示すブロック図である。

【0026】

サーバ１１１は、ユーザ端末１００とは異なり、ＨＭＤ１０６、マイク１０７、スピーカ１０８、及びコントローラ１０９等の外部装置は接続されていないが、それ以外のハードウェア構成はユーザ端末１００と同様の情報処理装置である。すなわち、サーバ１１１は、ＣＰＵ１０１ｂ、ＲＯＭ１０２ｂ、ＲＡＭ１０３ｂ、及びＨＤＤ１０４ｂを含み、各機能部がバス１０５ｂで通信可能に接続されている。図１Ｂに示すハードウェア構成は、末尾の記号（ａ，ｂ）を除く付番が図１Ａと同一のものは上述した図１Ａに示すハードウェア構成と同様であるため、重複した説明は省略する。

【0027】

また、以下に説明する実施形態で使用する数値、処理タイミング、処理順、処理の主体、及びデータ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

【0028】

図１Ｃは、ユーザ端末１００とサーバ１１１を有する、本実施形態に係る情報処理システム１の全体の機能構成の一例を示すブロック図である。

【0029】

図１Ｃに示すように、ユーザ端末１００は、同一のハードウェア構成及び機能部を有するが、異なるユーザにより利用される、第１のユーザ端末１００－１，第２のユーザ端末１００－２、及び不図示のユーザ端末１００－３～ｎ（ｎ≧３）により構成される。以下、ユーザ端末１００が有する機能部については、第１のユーザ端末１００－１を使って説明し、第２のユーザ端末１００－２及び不図示のユーザ端末１００－３～ｎの機能部についての重複した説明は省略する。

【0030】

第１のユーザ端末１００－１は、入出力部１１２－１、及び送受信部（ユーザ端末）１１３－１を備え、本実施形態に係るサーバ１１１は、送受信部（サーバ）１１４、関連判定部１１５、音声データ分析部１１６、及び音量調整部１１７を備える。

【0031】

図１Ｃに示した第１のユーザ端末１００－１とサーバ１１１の各機能部はハードウェアで実装しても良いし、ソフトウェア（コンピュータプログラム）で実装しても良い。後者の場合、このコンピュータプログラムを実行可能な情報処理装置は、ユーザ端末１００とサーバ１１１に適用可能である。

【0032】

入出力部１１２－１は、第１のユーザ端末１００－１に接続された外部装置（ＨＭＤ１０６－１、マイク１０７－１、スピーカ１０８－１、コントローラ１０９－１等）から入力されたデータの受け付けと、それら外部装置へのデータの出力を行う。

【0033】

送受信部（ユーザ端末）１１３－１は、第１のユーザ端末１００－１が保持するデータ（例えば、マイク１０７－１で生成された音声データ、装着ユーザのアバターの位置やその手の動きなど）をネットワーク１１０経由でサーバ１１１に送信する。また、送受信部（ユーザ端末）１１３－１は、ネットワーク１１０経由でサーバ１１１から送信されてきたデータを受信する。

【0034】

送受信部（サーバ）１１４（音声データ送信手段）は、サーバ１１１が保持するデータ（例えば、仮想空間上の各アバターを音源とする音声データ、その位置や手の動きなど）を、ネットワーク１１０経由で送信先となるユーザ端末１００に送信する。また、送受信部（サーバ）１１４は、ネットワーク１１０経由で送信元となるユーザ端末１００から送信されてきたデータを受信する。

【0035】

このような構成により、サーバ１１１及びユーザ端末１００の間で、各アバターを音源とする音声データや仮想空間上の各アバターの位置の情報やその手の動きの情報が共有される。

【0036】

関連判定部１１５（関連判定手段）は、第１のユーザ端末１００－１から送信された音声データが、第２のユーザ端末１００－２に紐づくアバターと関連するか否かを判定する。

【0037】

音声データ分析部１１６（音声データ分析手段）は、関連判定部１１５で関連すると判定された場合に、第２のユーザ端末１００－２に送信される音声データを分析する。

【0038】

音量調整部１１７（音量調整手段）は、第２のユーザ端末１００－２に送信される音声データの、スピーカ１０８－２で出力される音量を調整する。

【0039】

以下、図２及び図３Ａ～図３Ｃを参照して、本実施形態に係る第１のユーザ端末１００－１、第２のユーザ端末１００－２、及びサーバ１１１において実行される、仮想空間上の状況に応じて音声データの音量を調整する処理について説明を行う。

【0040】

まず図２のフローチャートを用いて、情報処理システム１において実行される本実施形態に係る仮想空間上の状況に応じた音声データの音量調整処理の一例を説明する。

【0041】

図２において、ステップＳ２０１，Ｓ２０２は第１のユーザ端末１００－１において実行され、ステップＳ２０３～Ｓ２０５はサーバ１１１において実行され、ステップＳ２０６，Ｓ２０７は第２のユーザ端末１００－２において実行される。

【0042】

ステップＳ２０１で入出力部１１２－１は、ユーザがマイク１０７－１に向けて発した声を第１の音声データとして受け付ける。

【0043】

ステップＳ２０２で送受信部（ユーザ端末）１１３－１は、ステップＳ２０１で受け付けた第１の音声データをネットワーク１１０経由でサーバ１１１に送信して、第１のユーザ端末１００－１側における本処理を終了する。

【0044】

ステップＳ２０３で送受信部（サーバ）１１４は、ステップＳ２０２で送信された第１の音声データをネットワーク１１０経由で受信する。

【0045】

ステップＳ２０４で関連判定部１１５、音声データ分析部１１６、及び音量調整部１１７は、第２のユーザ端末１００－２に送信される音声データの音量を調整する音量調整処理を実行する。音量調整処理の詳細は図３Ａを用いて後述する。

【0046】

ステップＳ２０５で送受信部（サーバ）１１４は、ステップＳ２０４で音量を調整した音声データを、ネットワーク１１０経由で第２のユーザ端末１００－２に送信して、サーバ１１１側における本処理を終了する。

【0047】

ステップＳ２０６で送受信部（ユーザ端末）１１３－２は、ステップＳ２０５でサーバ１１１からネットワーク１１０経由で送信されてきた音声データを受信する。

【0048】

ステップＳ２０７で入出力部１１２－２は、ステップＳ２０６で受信した音声データをステップＳ２０４で調整された音量でスピーカ１０８－２により出力して、第２のユーザ端末１００－２側における本処理を終了する。

【0049】

次いで、サーバ１１１で実行される図２のステップＳ２０４の音量調整処理の一例について、図３Ａのフローチャートを用いて説明を行う。

【0050】

図３Ａにおいてまず、ステップＳ３０１で関連判定部１１５は、ステップＳ２０３で第１のユーザ端末１００－１から受信した第１の音声データが、第２のユーザ端末１００－２に紐づく第２のアバターと関連するか否かを判定する関連判定処理を実行する。関連判定処理の詳細は図３Ｂを用いて後述する。尚、第２のアバターとは、ＨＭＤ１０６－２の装着ユーザのアバターを指す。すなわち、第１の音声データが第２のアバターに関連するとは、つまり、第１のユーザ端末１００－１のユーザが、第２のユーザ端末１００－２のユーザに話しかけていることを意味する。

【0051】

ステップＳ３０２で関連判定部１１５は、ステップＳ３０１の関連判定処理の結果が、第１の音声データが第２のアバターに関連するという判定結果であった場合、ステップＳ３０３に進み、そうでない場合には本処理（音量調整処理）を終了する。

【0052】

ステップＳ３０３で音声データ分析部１１６は、第２のユーザ端末１００－２に送信される音声データのうち、第１の音声データと、第１の音声データを除く第２の音声データとを分析する音声データ分析処理を実行する。音声データ分析処理の詳細は図３Ｃを用いて後述する。尚、第２の音声データとは、例えば仮想空間上で音楽ライブイベントが開催されている場合、不図示のユーザ端末１００－３～ｎを利用する、出演者の歌声や演奏、他観客の歓声といった、第１の音声データを除いた他の全ての音声データを指す。

【0053】

ステップＳ３０４で音声データ分析部１１６は、ステップＳ３０３の音声データ分析処理の結果が、第２の音声データが第１の音声データを阻害するという分析結果であった場合、ステップＳ３０５に進む。一方、そうでない場合には本処理（音量調整処理）を終了する。第２の音声データが第１の音声データを阻害するとは、第２の音声データのせいで、第１の音声データが聞こえない、または非常に聞こえにくい状況を意味する。

【0054】

ステップＳ３０５で音量調整部１１７は、第２のユーザ端末１００－２に送信される音声データの音量を調整して、本処理（音量調整処理）を終了する。音量の調整方法は、サーバ１１１または第２のユーザ端末１００－２の設定に従い、第１の音声データの音量を大きくする、または第２の音声データの音量を小さくする。このように、第２の音声データが第１の音声データを阻害する場合、第１の音声データの音量を大きくすることで、第１の音声データが聞こえるようになる。または、第２の音声データが第１の音声データを阻害する場合に、第２の音声データの音量を小さくすることで、相対的に、第１の音声データが聞こえるようになる。

【0055】

次いで、サーバ１１１で実行される図３ＡのステップＳ３０１の関連判定処理の一例について、図３Ｂのフローチャートを用いて説明を行う。

【0056】

図３Ｂにおいてまず、ステップＳ３０６で関連判定部１１５は、第２のアバターが、第１の音声データの音源である第１のアバター（ＨＭＤ１０６－１の装着ユーザのアバター）に向けて耳に手を当てているか否かを判定する。第１のアバターに向けて耳に手を当てている場合（ステップＳ３０６でＹＥＳ）、ステップＳ３０７に進み、そうでない場合（ステップＳ３０６でＮＯ）、ステップＳ３０８に進む。尚、関連判定部１１５は、コントローラ１０９－２へのユーザ入力により設定された第２のアバターの位置及びＨＭＤ１０６－２が検知した装着ユーザの手の動きから、第２のアバターが第１のアバターに向けて耳に手を当てているか否かを判定する。ここで第２のアバターが耳に手を当てている状態とは、ＨＭＤ１０６－２の装着ユーザが自分の手を耳に当てている状態を意味する。すなわち、仮に第２のアバター自体に耳に相当する器官が存在しなくても、第２のアバターの顔の側面に手が位置する状態である場合、関連判定部１１５は第２のアバターが耳に手を当てていると判断する。つまり、耳に手を当てる仕草は、現実空間において、特定方向の音を聞こえやすくするために行われる仕草であるため、特定方向が第１のアバターの方向であれば、第１の音声データが第２のアバターと関連すると判断される。

【0057】

ステップＳ３０７で関連判定部１１５は、第１の音声データが第２のアバターと関連すると判定して、本処理（関連判定処理）を終了する。

【0058】

ステップＳ３０８で関連判定部１１５は、第１のアバターと第２のアバターとが友好関係にあるか否かを判定する。友好関係にある場合（ステップＳ３０８でＹＥＳ）、ステップＳ３０７に進み、そうでない場合（ステップＳ３０８でＮＯ）、ステップＳ３０９に進む。友好関係にある場合とは、例えば第１のアバターと第２のアバターが互いをフレンドとしてサーバ１１１に登録されている場合である。この判定方法の詳細については図５を用いて後述する。

【0059】

ステップＳ３０９で関連判定部１１５は、第１のアバターが第２のアバターの方向を向いているか否かを判定する。第１のアバターが第２のアバターの方向を向いている場合（ステップＳ３０９でＹＥＳ）、ステップＳ３０７に進み、そうでない場合（ステップＳ３０９でＮＯ）、処理はステップＳ３１０に進む。第１のアバターが第２のアバターの方向を向いている場合とは、例えば第１のアバターの視線方向や顔の前方の延長線上に第２のアバターが存在する場合が例示される。上述の通り、コントローラ１０９－１，１０９－２の夫々に対するユーザ操作により設定される第１及び第２のアバターの位置により、第１のアバターの顔の前方の延長線上に第２のアバターが存在するか否かが判定される。

【0060】

ステップＳ３１０で関連判定部１１５は、第１の音声データに第２のアバターの名前が含まれているか否かを判定する。具体的には、関連判定部１１５は、第１の音声データに対し音声認識処理及び自然言語処理を行い、図４で後述する第２のアバターの頭上に表示される「Ｂさん」という名前が第１の音声データに含まれるか否かを判定する。
第２のアバターの名前が含まれている場合（ステップＳ３１０でＹＥＳ）、ステップＳ３０７に進み、そうでない場合（ステップＳ３１０でＮＯ）、ステップＳ３１１に進む。

【0061】

ステップＳ３１１で関連判定部１１５は、第１の音声データが第２のアバターと関連しないと判定して、本処理（関連判定処理）を終了する。

【0062】

次いで、サーバ１１１で実行される図３ＡのステップＳ３０３の音声データ分析処理の一例について、図３Ｃのフローチャートを用いて説明を行う。

【0063】

図３Ｃにおいてまず、ステップＳ３１２で音声データ分析部１１６は、第２の音声データの音量が第１の音声データの音量より大きいか否かを判定する。第２の音声データの音量が第１の音声データの音量より大きい場合（ステップＳ３１２でＹＥＳ）、ステップＳ３１３に進み、そうでない場合（ステップＳ３１２でＮＯ）、ステップＳ３１４に進む。音声データの音量の比較には、例えばデシベルの大きさが用いられる。

【0064】

ステップＳ３１３で音声データ分析部１１６は、第２の音声データが第１の音声データを阻害すると判定して、本処理（音声データ分析処理）を終了する。

【0065】

ステップＳ３１４で音声データ分析部１１６は、第２の音声データが第１の音声データを阻害しないと判定して、本処理（音声データ分析処理）を終了する。

【0066】

次に、図２，図３Ａ～図３Ｃのフローチャートに示す各処理の具体例を、図４と図５を用いて説明する。

【0067】

図４は、サーバ１１１が提供するＶＲによる仮想空間の一場面の一例を示した図である。図５はサーバ１１１が予めデータとして登録している、アバター間の友好関係の有無を示すデータであるフレンド登録状況リストの一例を示す表である。ここで本実施形態ではフレンド登録状況リストは、ＲＯＭ１０２ｂまたはＨＤＤ１０４ｂに予め登録されているが、ステップＳ３０８の判定処理の際、ＣＰＵ１０１ｂ（取得手段）がフレンド登録状況リストを取得できればこれに限定されない。

【0068】

図４（ａ）は、仮想空間上で開催される音楽ライブイベントに観客として参加している第１のアバター４０１及び第２のアバター４０２を正面から捉えた様子を表している。

【0069】

図４（ａ）において、第１のアバター４０１及び第２のアバター４０２は真横に並んでおり、その眼前には、開催中の音楽ライブイベントのステージが広がっており、出演者の歌声や演奏、他観客の歓声などでその周囲は騒がしい状況である。上述の通り、第１のアバター４０１は、第１のユーザ端末１００－１のユーザが操作しているアバターであり、第２のアバター４０２は、第２のユーザ端末１００－２のユーザが操作しているアバターである。

【0070】

また図４（ａ）に示すように、第１のアバター４０１の頭上には「Ａさん」という、第１のアバター４０１の名前４０３が、他のアバターから見える状態で表示されている。同様に、第２のアバター４０２の頭上には「Ｂさん」という、第２のアバター４０２の名前４０４が、他のアバターから見える状態で表示されている。

【0071】

図４（ｂ）は、図４（ａ）の状態から、第１のユーザ端末１００－１のユーザがマイク１０７－１に向けて声を発して、ステップＳ２０１～ステップＳ２０３まで処理が進み、関連判定処理（図３Ｂ）をステップＳ３０６から実行しようとしている場面である。

【0072】

破線吹き出し４０５は第１のユーザ端末１００－１のユーザが発した声「…」に相当する音声データが、第１のアバター４０１を音源として発生していることを表している。破線吹き出し４０５は説明のために図４（ｂ）に表示しているだけであり、仮想空間上では表示されない。手４０６は第２のアバター４０２の右手である。

【0073】

ステップＳ３０６で関連判定部１１５は、第２のアバター４０２が、第１の音声データの音源である第１のアバター４０１に向けて耳に手を当てているか否かを判定する。図４（ｂ）では、第２のアバター４０２の手４０６が、第２のアバター４０２の顔の右側面に位置し、且つ第２のアバター４０２からみて右に第１のアバター４０１が位置する。よって、関連判定部１１５は、第２のアバター４０２が第１のアバター４０１に向けて耳に手を当てていると判定し、ステップＳ３０７に進む。

【0074】

図４（ｃ）は、図４（ａ）の状態から、第１のユーザ端末１００－１のユーザがマイク１０７－１に向けて声を発して、ステップＳ２０１～ステップＳ２０３まで処理が進み、関連判定処理（図３Ｂ）をステップＳ３０６から実行しようとしている場面である。

【0075】

ステップＳ３０６で関連判定部１１５は、第２のアバター４０２が、第１の音声データの音源である第１のアバター４０１に向けて耳に手を当てているか否かを判定する。図４（ｃ）では、第２のアバター４０２は手４０６（不図示）を下ろしているため、関連判定部１１５は、第２のアバター４０２が第１のアバター４０１に向けて耳に手を当てていないと判定し、ステップＳ３０８に進む。

【0076】

ステップＳ３０８で関連判定部１１５は、第１のアバター４０１と第２のアバター４０２とが友好関係にあるか否かを判定する。図５で第１のアバター４０１を表すアバターの名前「Ａさん」と、第２のアバター４０２を表すアバターの名前「Ｂさん」は、互いにフレンドとして登録されている。このため、関連判定部１１５は、第１のアバター４０１と第２のアバター４０２とが友好関係にあると判定し、ステップＳ３０７に進む。

【0077】

図４（ｄ）は、図４（ａ）の状態から、第１のユーザ端末１００－１のユーザがマイク１０７－１に向けて声を発して、ステップＳ２０１～ステップＳ２０３まで処理が進み、関連判定処理（図３Ｂ）をステップＳ３０６から実行しようとしている場面である。

【0078】

ステップＳ３０６で関連判定部１１５は、第２のアバター４０２が、第１の音声データの音源である第１のアバター４０１に向けて耳に手を当てているか否かを判定する。図４（ｄ）では、第２のアバター４０２は図４（ｃ）と同様、第２のアバター４０２は手４０６（不図示）を下ろしているため、ステップＳ３０８に進む。

【0079】

ステップＳ３０８で関連判定部１１５は、第１のアバター４０１と第２のアバター４０２とが友好関係にあるか否かを判定する。但しここでは図５に示すアバター間のフレンド登録状況とは異なるフレンド登録状況がサーバ１１１に登録されている。具体的には、この例においては、フレンド登録状況として、第１のアバター４０１を表すアバターの名前「Ａさん」と、第２のアバター４０２を表すアバターの名前「Ｂさん」は、互いにフレンドとしての登録がされていない。このため、関連判定部１１５は、第１のアバター４０１と第２のアバター４０２とが友好関係にあると判定し、ステップＳ３０７に進む。このため、関連判定部１１５は、第１のアバター４０１と第２のアバター４０２とが友好関係にないと判定し、ステップＳ３０９に進む。

【0080】

ステップＳ３０９で関連判定部１１５は、第１のアバター４０１が第２のアバター４０２の方向を向いているか否かを判定する。図４（ｄ）で第１のアバター４０１の眼前、すなわちその視線方向の延長線上に第２のアバター４０２が存在するため、関連判定部１１５は、第１のアバター４０１が第２のアバター４０２の方向を向いていると判定し、ステップＳ３０７に進む。

【0081】

図４（ｅ）は、図４（ａ）の状態から、第１のユーザ端末１００－１のユーザがマイク１０７－１に向けて声を発して、ステップＳ２０１～ステップＳ２０３まで処理が進み、関連判定処理（図３Ｂ）をステップＳ３０６から実行しようとしている場面である。

【0082】

【0083】

【0084】

ステップＳ３０９で関連判定部１１５は、第１のアバター４０１が第２のアバター４０２の方向を向いているか否かを判定する。図４（ｅ）で第１のアバター４０１の眼前、すなわちその視線方向の延長線上に第２のアバター４０２は存在しないため、関連判定部１１５は、第１のアバター４０１が第２のアバター４０２の方向を向いていないと判定し、ステップＳ３１０に進む。

【0085】

ステップＳ３１０で関連判定部１１５は、第１のアバター４０１を音源とする第１の音声データに第２のアバター４０２の名前４０４が含まれているか否かを判定する。図４（ｅ）に示すように第１の音声データには第２のアバター４０２の名前４０４「Ｂさん」が含まれているため、処理はステップＳ３０７に進む。

【0086】

このように、本実施形態によれば、第１の音声データが第２のアバターと関連すると判定され、且つ、第２の音声データが第１の音声データを阻害すると分析された場合に、第２のユーザ端末１００－２に送信される音声データの音量を調整する。これにより、仮想空間上で周囲が騒がしい状況であっても、ユーザＡは目的の人であるユーザＢとの会話を成立することができる。

【0087】

以上の説明では、第２のユーザ端末１００－２に送信される音声データの音量の調整は、サーバ１１１により自動で行われ、ユーザは音量が調整されたか否かを知ることは無かった。しかし、音量調整部１１７が第２のユーザ端末１００－２に送信される音声データの音量を調整したことを記憶し、第１のユーザ端末１００－１と第２のユーザ端末１００－２に、音量を調整したことを通知するようにしても良い。これにより、第１のユーザ端末１００－１のユーザは、自身の発した声の音量が調整されて、第２のユーザ端末１００－２のユーザに聞こえやすくなったことを知ることができる。また、第２のユーザ端末１００－２のユーザは、ステップＳ３０５で第２の音声データの音量が小さくなった場合に、何故第２の音声データの音量が小さくなったかの理由を知ることができる。

【0088】

また、以上の説明では、第１の音声データが第２のアバターと関連すると判定され、且つ、第２の音声データが第１の音声データを阻害すると分析された場合に、必ず、第２のユーザ端末１００－２に送信される音声データの音量を調整した。しかし、音量調整部１１７は、自動で必ず音量を調整するのではなく、音量を調整するか否かを第２のユーザ端末１００－２のユーザに問合せを送信し、音量を調整するか否かをユーザに選択させるようにしても良い。この場合、ステップＳ３０５で音量調整部１１７は、第２のユーザ端末１００－２に送信される音声データの音量を調整するのではなく、音量を調整すべきであることと、音声データの音量の調整量を記憶する。その後、第２のユーザ端末１００－２に、音量未調整の音声データと、音量を調整するか否かの選択をユーザに求めるための問合せを送信する。この問合せに応じて、第２のユーザ端末１００－２の入出力部１１２－２は、ＨＭＤ１０６－２に音量を調整するか否かの選択をユーザに求めるダイアログを表示させ、ユーザがコントローラ１０９－２で音量を調整するか否かを選択可能とする。ユーザが音量を選択することを選んだ場合、音量調整要求がサーバ１１１に送信され、音量調整部１１７は記憶していた調整量で音声データの音量を調整し、第２のユーザ端末１００－２に送信する。

【0089】

また、以上の説明では、関連判定処理のステップＳ３０６～ステップＳ３１０は、ステップの順に判定が行われたが、同時に判定を行い、何れかのステップでの判定が成立した場合にステップＳ３０７に進む「ＯＲ条件」であってもよい。また、何れかが同時に成立した場合にステップＳ３０７に進む「ＡＮＤ条件」であっても良い。例えば、ステップＳ３０８とステップＳ３０９のＡＮＤ条件であれば、第１のアバターと第２のアバターとが友好関係にあり、且つ、第１のアバターが第２のアバターの方向を向いている場合にステップＳ３０７に進むようにしても良い。

【0090】

また以上の説明では、サーバ１１１で第２のユーザ端末１００－２に送信される音声データの音量の調整を行っていたが、音量の調整を第２のユーザ端末１００－２で行うようにしても良い。その場合、サーバ１１１は第２のユーザ端末１００－２に、音量未調整の音声データと、各音声データの音量の調整量を送信する。

【0091】

また以上の説明では、サーバ１１１が存在するクライアント・サーバ方式で説明したが、ピア・ツー・ピア方式であっても良い。その場合、サーバ１１１は存在せず、サーバ１１１の機能構成や処理はユーザ端末１００が代わりを担う。

【0092】

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0093】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【0094】

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

【0095】

本実施形態の開示は、以下の構成、方法、並びにプログラムを含む。
（構成１）ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する３以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムであって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成手段と、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信手段と、前記複数のユーザ端末のうちの第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、前記複数のユーザ端末のうちの第２のユーザ端末に紐づく第２のアバターと関連するか否かを判定する関連判定手段と、前記音声データ送信手段により前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データと、前記第１の音声データを除く第２の音声データとを分析する音声データ分析手段と、前記関連判定手段で、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記第２のユーザ端末に送信される音声データの、前記第２のユーザ端末の前記音声出力部で出力される音量を調整する音量調整手段と、を備えることを特徴とする、情報処理システム。
（構成２）前記音量調整手段は、前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データの音量を大きくすることを特徴とする構成１に記載の情報処理システム。
（構成３）前記音量調整手段は、前記第２のユーザ端末に送信される音声データのうち、前記第２の音声データの音量を小さくすることを特徴とする構成１に記載の情報処理システム。
（構成４）前記関連判定手段は、前記第２のアバターが前記第１のアバターに向けて耳に手を当てている場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする構成１乃至３のいずれか１つに記載の情報処理システム。
（構成５）前記複数のユーザ端末は、夫々を利用するユーザの手の動きを検知する第１の検知部と、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、を更に有し、前記情報処理システムは、前記第２のユーザ端末の前記第１の検知部で前記手の動きが検知された場合、その検知結果に応じて前記第２のアバターの手を動かすアバター動作制御手段を更に備え、前記関連判定手段は、前記設定された前記第１及び第２のアバターの位置、及び前記アバター動作制御手段により制御された前記第２のアバターの手の動きに応じて、前記第２のアバターが前記第１のアバターに向けて耳に手を当てているか否かを判定することを特徴とする構成４記載の情報処理システム。
（構成６）前記関連判定手段は、前記第１のアバターと前記第２のアバターとが友好関係にある場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする構成１乃至５のいずれか１つに記載の情報処理システム。
（構成７）前記複数のユーザ端末の夫々に紐づくアバターの間の友好関係の有無を示すデータを取得する取得手段を更に備え、前記関連判定手段は、前記データに基づき、前記第１のアバターと前記第２のアバターとが友好関係にあるか否かを判定することを特徴とする構成６記載の情報処理システム。
（構成８）前記関連判定手段は、前記第１のアバターが前記第２のアバターの方向を向いている場合に、前記第１の音声データが前記第２のアバターと関連すると判定することを特徴とする構成１乃至７のいずれか１つに記載の情報処理システム。
（構成９）前記関連判定手段は、前記第１のアバターの顔の前方の延長線上に前記第２のアバターが存在する場合、前記第１のアバターが前記第２のアバターの方向を向いていると判定する構成８記載の情報処理システム。
（構成１０）前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部を更に有し、前記関連判定手段は、前記設定された前記第１及び第２のアバターの位置に応じて、前記第１のアバターの顔の前方の延長線上に前記第２のアバターが存在するか否かを判定することを特徴とする構成９に記載の情報処理システム。
（構成１１）前記関連判定手段は、前記第１のアバターの視線方向に前記第２のアバターが存在する場合、前記第１のアバターが前記第２のアバターの方向を向いていると判定する構成８記載の情報処理システム。
（構成１２）前記複数のユーザ端末は、夫々に紐づくアバターの前記仮想空間における位置をユーザ操作に応じて設定する設定部と、夫々を利用するユーザの視線を検知する第２の検知部と、を更に有し、前記情報処理システムは、前記設定された前記第１のアバターの位置、及び前記第１のユーザ端末の前記第２の検知部で検知された前記視線に応じて、前記第１のアバターの視線方向を設定する視線方向設定手段を更に備え、前記関連判定手段は、前記設定された前記第２のアバターの位置に応じて、前記設定された前記第１のアバターの視線方向に前記第２のアバターが存在するか否かを判定することを特徴とする構成１１に記載の情報処理システム。
（構成１３）前記関連判定手段は、前記第１の音声データに前記第２のアバターの名前が含まれている場合に、第１の音声データが第２のアバターと関連すると判定することを特徴とする構成１乃至１２のいずれか１つに記載の情報処理システム。
（構成１４）前記音声データ分析手段は、前記第２の音声データの音量が前記第１の音声データの音量より大きい場合に、前記第２の音声データが前記第１の音声データを阻害すると分析することを特徴とする構成１乃至１３のいずれか１つに記載の情報処理システム。
（構成１５）前記音量調整手段は、前記第２のユーザ端末に送信される音声データの音量を調整したことを記憶し、前記第１及び第２のユーザ端末の夫々に、前記音量を調整したことを通知することを特徴とする構成１乃至１４のいずれか１つに記載の情報処理システム。
（構成１６）前記音量調整手段は、前記関連判定手段で、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析手段で、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記音量を調整するか否かの問合せを第２のユーザ端末に行い、前記問合せに対し、前記音量を調整する旨のユーザ選択が前記第２のユーザ端末でなされた場合に前記音量を調整することを特徴とする構成１乃至１５のいずれか１つに記載の情報処理システム。
（構成１７）前記複数のユーザ端末は、夫々を利用するユーザが装着するＨＭＤを有することを特徴とする構成１乃至１６のいずれか１つに記載の情報処理システム。
（構成１８）構成１乃至１７のいずれか１つに記載の情報処理システムが備える前記複数のユーザ端末の一つとして機能するエッジデバイスであって、前記音量調整手段を有することを特徴とするエッジデバイス。
（構成１９）構成１乃至１７のいずれか１つに記載の情報処理システムが備える、前記ネットワークを介して前記複数のユーザ端末と接続するサーバであって、前記音声データ送信手段、前記関連判定手段、及び前記音声データ分析手段を備えることを特徴とするサーバ。
（方法１）ネットワークを介して接続する、夫々が音声入力部及び音声出力部を有する３以上の複数のユーザ端末を備え、前記複数のユーザ端末の夫々に紐づくアバターを含む仮想空間を提供する情報処理システムの制御方法であって、前記複数のユーザ端末の夫々の前記音声入力部に入力された音声に基づき、前記複数のユーザ端末の夫々に紐づく各アバターを音源とした音声データを生成する音声生成ステップと、前記各アバターを音源とする音声データを前記複数のユーザ端末に送信する音声データ送信ステップと、前記複数のユーザ端末のうちの第１のユーザ端末に紐づく第１のアバターを音源とした第１の音声データが、前記複数のユーザ端末のうちの第２のユーザ端末に紐づく第２のアバターと関連するか否かを判定する関連判定ステップと、前記音声データ送信ステップにおいて前記第２のユーザ端末に送信される音声データのうち、前記第１の音声データと、前記第１の音声データを除く第２の音声データとを分析する音声データ分析ステップと、前記関連判定ステップで、前記第１の音声データが前記第２のアバターと関連すると判定され、且つ、前記音声データ分析ステップで、前記第２の音声データが前記第１の音声データを阻害すると分析された場合に、前記第２のユーザ端末に送信される音声データの、前記第２のユーザ端末の前記音声出力部で出力される音量を調整する音量調整ステップと、を備えることを特徴とする制御方法。
（プログラム１）コンピュータに読みこませ実行させることで、前記コンピュータを構成１８記載の前記エッジデバイスとして機能させるためのプログラム。
（プログラム２）コンピュータに読みこませ実行させることで、前記コンピュータを構成１９記載の前記サーバとして機能させるためのプログラム。
（記憶媒体１）構成２１に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。
（記憶媒体２）構成２２に記載されたプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【符号の説明】

【0096】

１情報処理システム
１００ユーザ端末
１０６ＨＭＤ
１０７マイク
１０８スピーカ
１１０ネットワーク
１１２入出力部
１１３送受信部（ユーザ端末）
１１４送受信部（サーバ）
１１５関連判定部
１１６音声データ分析部
１１７音量調整部

【図1A】