特開2024-94743 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＣＲＩ・ミドルウェアの特許一覧

特開2024-94743システム、方法、プログラム、情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024094743

(43)【公開日】2024-07-10

(54)【発明の名称】システム、方法、プログラム、情報処理装置

(51)【国際特許分類】

H04M 3/56 20060101AFI20240703BHJP

H04N 21/233 20110101ALI20240703BHJP

H04S 7/00 20060101ALI20240703BHJP

【ＦＩ】

H04M3/56 B

H04N21/233

H04S7/00 300

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022211485

(22)【出願日】2022-12-28

【新規性喪失の例外の表示】新規性喪失の例外適用申請有り

(71)【出願人】

【識別番号】304012596

【氏名又は名称】株式会社ＣＲＩ・ミドルウェア

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】押見正雄

(72)【発明者】

【氏名】杉本（及川）進

【テーマコード（参考）】

5C164

5D162

5K201

【Ｆターム（参考）】

5C164PA41

5C164SB04P

5D162CD07

5D162EG02

5K201BA20

5K201BB09

5K201CA01

5K201CC04

5K201DC06

5K201EB07

5K201EC06

5K201ED05

5K201ED07

(57)【要約】

【課題】音声データの通信において、ミキシング処理を行うことなく、データ通信量を抑える技術を提供する。
【解決手段】複数の端末装置と、サーバとを備え、複数のユーザ間での音声コミュニケーションを実行するシステムであって、複数の端末装置と、サーバは、ＳＦＵ（Selective Forwarding Unit）方式で通信し、端末装置は、ユーザから受け付けた音声データをサーバへ送信し、サーバは、複数の端末装置から受信した音声データを連結し、連結した音声データを端末装置へ送信する、システムが提供される。
【選択図】図８

【特許請求の範囲】

【請求項1】

複数の端末装置と、サーバとを備え、複数のユーザ間での音声コミュニケーションを実行するシステムであって、
前記複数の端末装置と、前記サーバは、ＳＦＵ（Selective Forwarding Unit）方式で通信し、
前記端末装置は、ユーザから受け付けた音声データを前記サーバへ送信し、
前記サーバは、前記複数の端末装置から受信した音声データを連結し、連結した音声データを前記端末装置へ送信する、システム。

【請求項2】

前記サーバは、
前記複数の端末装置から受信した音声データについて、宛先として指定されるユーザ宛ての複数のセグメントを特定し、
特定された前記複数のセグメントにおける音声データを連結し、連結された音声データをセグメントに格納して、前記宛先として指定されるユーザの端末装置へ送信する、請求項１に記載のシステム。

【請求項3】

前記サーバは、所定の時間内に前記複数の端末装置から受信した音声データを、連結対象の音声データとする、請求項２に記載のシステム。

【請求項4】

前記端末装置は、
前記サーバから受信したデータのセグメント内に格納された音声データについて、当該音声データにおける話者それぞれに位置情報を割り当て、
前記音声データに、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声データを生成し、
生成された音声データを聴取者に対して出力する、請求項１に記載のシステム。

【請求項5】

前記端末装置は、前記話者それぞれに仮想の位置に関する位置情報を割り当てる、請求項４に記載のプログラム。

【請求項6】

前記端末装置と、前記サーバは、ＵＤＰ（User Datagram Protocol）プロトコルで通信を行い、
前記サーバは、前記連結した音声データをデータグラムに格納する、請求項１～請求項５のいずれか１項に記載のプログラム。

【請求項7】

前記端末装置は、受け付けたユーザの音声を圧縮音声に変換して、前記サーバへ送信する、請求項１～請求項５のいずれか１項に記載のプログラム。

【請求項8】

複数の端末装置と、サーバとに、複数のユーザ間での音声コミュニケーションを実行させる方法であって、
前記複数の端末装置と、前記サーバとを、ＳＦＵ（Selective Forwarding Unit）方式で通信させるステップと、
前記端末装置に、ユーザから受け付けた音声データを前記サーバへ送信させるステップと、
前記サーバに、前記複数の端末装置から受信した音声データを連結させ、連結した音声データを前記端末装置へ送信させるステップと、を含む、方法。

【請求項9】

複数の端末装置と、サーバとに、複数のユーザ間での音声コミュニケーションを実行させるプログラムであって、
前記複数の端末装置と、前記サーバとに、ＳＦＵ（Selective Forwarding Unit）方式で通信させるステップを実行させ、
前記端末装置に、ユーザから受け付けた音声データを前記サーバへ送信させるステップを実行させ、
前記サーバに、前記複数の端末装置から受信した音声データを連結させ、連結した音声データを前記端末装置へ送信させるステップを実行させる、プログラム。

【請求項10】

複数のユーザ間での音声コミュニケーションを実行する情報処理装置であって、
前記複数のユーザの端末装置と、ＳＦＵ（Selective Forwarding Unit）方式で通信し、
前記端末装置から、ユーザから受け付けた音声データを受信し、
前記端末装置から受信した音声データを連結し、連結した音声データを前記端末装置へ送信する、情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、システム、方法、プログラム、情報処理装置に関する。

【背景技術】

【0002】

昨今、オンラインでの音声コミュニケーションを円滑に行うためにデータ通信量を抑える技術が開発されている。例えば特許文献１には、サーバで受信した音声データのミキシングを行い、ユーザ端末ごとのバッファに格納して一定量毎に取り出す技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００３－０２３４９９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方、上記技術では、受信した音声データのミキシングをおこなっているため、受信したデータからそれぞれのユーザに対応する音声データを取り出して後続の処理を行いたい場合には使用できないという不具合が生じていた。

【0005】

本開示の目的は、音声データの通信において、ミキシング処理を行うことなく、データ通信量を抑えることである。

【課題を解決するための手段】

【0006】

本開示では、複数の端末装置と、サーバとを備え、複数のユーザ間での音声コミュニケーションを実行するシステムであって、複数の端末装置と、サーバは、ＳＦＵ（Selective Forwarding Unit）方式で通信し、端末装置は、ユーザから受け付けた音声データをサーバへ送信し、サーバは、複数の端末装置から受信した音声データを連結し、連結した音声データを端末装置へ送信する、システムが提供される。

【発明の効果】

【0007】

本開示によれば、音声データの通信において、ミキシング処理を行うことなく、データ通信量を抑えることが可能となる。

【図面の簡単な説明】

【0008】

【図1】システム１の概要を説明する図である。

【図2】システム１のハードウェア構成を示すブロック図である。

【図3】端末装置１０の機能構成を示すブロック図である。

【図4】サーバ２０の機能構成を示すブロック図である。

【図5】図５Ａは音源Ｓと聴取者Ｌの関係を示す図である。図５Ｂは頭部伝達関数における左伝達関数と右伝達関数を示す図である。図５Ｃは音声への頭部伝達関数の適用を示す図である。

【図6】図６Ａは通信されるデータの伝送単位を示す図である。図６Ｂはサーバ２０における音声データの連結について説明するための図である。

【図7】端末装置１０の記憶部１８０に記憶されるデータベースの構造を示す図である。

【図8】システム１の処理の流れを説明するフロー図である。

【図9】音声生成処理（Ｓ２００）の流れを説明するフロー図である。

【図10】ユーザごとに仮想的な位置を割り当てる処理を説明するための図である。

【図11】第２実施形態における端末装置１０の機能構成を示すブロック図である。

【図12】第２実施形態における音声生成処理（Ｓ２００）の流れを説明するフロー図である。

【図13】図１３Ａは、仮想空間Ｗ内でのユーザに対応するアバターの位置の一例を示す図である。図１３Ｂは、ユーザごとに仮想的な位置を割り当てる処理を説明するための図である。

【発明を実施するための形態】

【0009】

以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

【0010】

＜１．第１実施形態＞
（１－１．システム１の概要）
図１を参照して、システム１が提供する機能（以下、本機能ともいう）の概要を説明する。図１に示すように、システム１は、複数のユーザがそれぞれ使用する複数の端末装置１０と、サーバ２０を備え、複数のユーザによる会話での同期コミュニケーション（以下、ボイスチャットともいう）を実行する。

【0011】

端末装置１０は、ユーザが発する音声を受け付けて、サーバ２０へ送信する。サーバ２０は、複数の端末装置１０から音声を受信すると、受信した音声データを連結して１つのセグメント（送受信データにおけるデータのまとまり。一例としてＵＤＰにおけるデータグラム）に格納して、端末装置１０へ送信する。端末装置１０は、生成された音声をサーバ２０から受信し、ユーザに対して出力する。

【0012】

このように、システム１では、ユーザ同士の音声での同期コミュニケーションにおいて、複数のユーザから受け付けた音声データをサーバ２０で連結して、１つのデータグラムに格納して端末装置１０へ送信する。当該連結された音声データは、端末装置１０から出力される。このような構成とすることで、データグラムにおけるヘッダーに関するオーバーヘッド（付加的な処理）を低減ことができる。また、データグラムにおけるヘッダーを省くことができ、通信リソースを節約して効率よく通信を行うことが可能となる。以下、各構成を詳細に説明する。

【0013】

（１－２．システム１のハードウェア構成）
図２は、システム１のハードウェア構成の例を示すブロック図である。システム１は、複数の端末装置１０と、サーバ２０とを備える。端末装置１０およびサーバ２０は、ネットワーク３０を介して通信可能に接続されている。ここで、端末装置１０と、サーバ２０は、ＳＦＵ（Selective Forwarding Unit）方式で通信されている。また、端末装置１０と、サーバ２０は、ＵＤＰ（User Datagram Protocol）プロトコルで通信することが好ましい。なお、図２に示す例では、システム１は３つの端末装置１０を備えているが、端末装置１０の数はこの例に限定されることはなく、２つ以下であってもよく、４つ以上であってもよい。

【0014】

本実施形態において、複数の装置の集合体を１つのサーバ２０としてもよい。１つ又は複数のハードウェアに対して本実施形態に係るサーバ２０を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び／又はサーバ２０に求められる仕様等に鑑みて適宜決定することができる。

【0015】

端末装置１０は、一例として、デスクトップ型またはラップトップ型のＰＣ（Personal Computer）であってもよい。また、端末装置１０は、タブレット端末、又はスマートフォン等の携帯端末として実現してもよい。端末装置１０は、通信ＩＦ（Interface）１２と、入力装置１３と、出力装置１４と、メモリ１５と、ストレージ１６と、プロセッサ１９とを備える。

【0016】

通信ＩＦ１２は、端末装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

【0017】

入力装置１３は、ユーザからの入力操作を受け付けるための装置（例えば、タッチパネル、マイク等）である。

【0018】

出力装置１４は、ユーザに対して情報を提示するための装置（ディスプレイ、スピーカ等）である。

【0019】

メモリ１５は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

【0020】

ストレージ１６は、データを保存するためのものであり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

【0021】

プロセッサ１９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。

【0022】

サーバ２０は、インターネットなどのネットワーク３０を介して端末装置１０と通信可能なコンピュータであり、いわゆるクラウドサーバとして実現される。サーバ２０は、通信ＩＦ２２と、入出力ＩＦ２３と、メモリ２５と、ストレージ２６と、プロセッサ２９とを備える。

【0023】

入出力ＩＦは、サーバ２０に対して何らかの入力操作を行う場合、または、サーバ２０から情報を出力する場合に、入出力装置を接続するためのインタフェースである。

【0024】

通信ＩＦ２２、メモリ２５、ストレージ２６およびプロセッサ２９は、端末装置１０の通信ＩＦ１２、メモリ１５、ストレージ１６およびプロセッサ１９と同様に構成されるため、説明は繰り返さない。

【0025】

（１－３．端末装置１０の機能構成）
図３は、端末装置１０の機能構成の例を示すブロック図である。図３に示すように、端末装置１０は、入力装置１３と、出力装置１４と、通信部１５０と、音声処理部１７０と、記憶部１８０と、制御部２００を備える。図３において端末装置１０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

【0026】

通信部１５０は、端末装置１０が他の装置と通信するための変復調処理等の処理を行う。通信部１５０は、制御部２００で生成された信号に送信処理を施し、外部（例えば、他の端末装置１０）へ送信する。通信部１５０は、外部から受信した信号に受信処理を施し、制御部２００へ出力する。

【0027】

入力装置１３は、端末装置１０を操作するユーザが指示、又は情報を入力するための装置である。入力装置１３は、例えば、キーボード１３１およびマウス１３２を含む。また、入力装置１３は、操作面へ触れることで指示が入力されるタッチセンシティブデバイスを備えていてもよい。入力装置１３は、ユーザから入力される指示、又は情報を電気信号へ変換し、電気信号を制御部２００へ出力する。また、入力装置１３には、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。

【0028】

出力装置１４は、端末装置１０を操作するユーザへ情報を提示するための装置である。出力装置１４は、例えば、ディスプレイ１４１等により実現される。ディスプレイ１４１は、制御部２００の制御に応じたデータを表示する。ディスプレイ１４１は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。

【0029】

音声処理部１７０は、例えば、音声のデジタル－アナログ変換処理を行う。音声処理部１７０は、マイク１７１から与えられる音声のアナログ信号をデジタル信号に変換して、変換後のデジタル信号を制御部２００へ与える。また、音声処理部１７０は、音声の信号をスピーカ１７２へ与える。音声処理部１７０は、例えば音声処理用のプロセッサによって実現される。マイク１７１は、音声入力を受け付けて、当該音声入力に対応する信号を音声処理部１７０へ与える。スピーカ１７２は、音声処理部１７０から与えられる信号を音声に変換して当該音声を端末装置１０の外部へ出力する。なお、スピーカ１７２は、例えば７．１ｃｈスピーカを用いて実現してもよいし、ステレオヘッドホンを用いて実現してもよい。

【0030】

記憶部１８０は、例えば、メモリ１５、及びストレージ１６等により実現され、端末装置１０が使用するデータ、及びプログラムを記憶する。記憶部１８０は、一例として、伝達関数データベース（ＤＢ：DataBase）１８１を記憶する。

【0031】

頭部伝達関数データベース１８１は、頭部伝達関数の情報を記憶するデータベースである。頭部伝達関数とは、音源から出力された音声が聴取者の左右の耳で聴き取られるまでに変化する特性を表した伝達関数である。頭部伝達関数データベース１８１は、端末装置１０の記憶部１８０にあらかじめ記憶されるのが好ましいが、必要に応じて適宜レコードの追加および更新をしてもよい。頭部伝達関数データベース１８１のデータ構造の詳細は後述する。

【0032】

図５Ａおよび図５Ｂを参照して、頭部伝達関数について説明する。音源Ｓから出力された音声が聴取者Ｌに聴き取られる際、聴取者Ｌの左耳で聴き取られる音声と、聴取者Ｌの右耳で聴き取られる音声には変化が生じる。これは、音源Ｓから出力された音声は、聴取者Ｌの頭部の形状、聴取者Ｌの耳殻の構造、および聴取者Ｌの位置を基準とした音源Ｓの位置の方向などの影響を受けるためである。ここで、図５Ａに示すように、聴取者Ｌの位置を基準とした音源Ｓの位置の方向は、極座標における鉛直角θと水平角φを用いて一意に特定される。

【0033】

一例として、図５Ｂに示すように、音源Ｓから出力された音声が聴取者Ｌの左耳Ｅ１に到達するまでの変化の特性を左耳用の頭部伝達関数（以下、左伝達関数ともいう）Ｈleftとして表現でき、音源Ｓから出力された音声が聴取者Ｌの右耳Ｅ２に到達するまでの変化の特性を右耳用の頭部伝達関数（以下、右伝達関数ともいう）Ｈrightとして表現できる。なお、左伝達関数Ｈleftおよび右伝達関数Ｈrightは、いずれも鉛直角θと水平角φを変数として保持し得る。

【0034】

図３に戻って、端末装置１０の機能構成について説明を続ける。制御部２００は、プロセッサ１９が記憶部１８０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２００は、端末装置１０の動作を制御する。制御部２００は、プログラムに従って動作することにより、操作受付部２０１と、送受信部２０２と、表示制御部２０３と、音声受付部２０４と、位置割当部２０５と、関数選択部２０６と、音声生成部２０７と、音声出力部２０８としての機能を発揮する。

【0035】

操作受付部２０１は、入力装置１３から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部２０１は、キーボード１３１等から入力される指示に基づく情報を受け付ける。

【0036】

送受信部２０２は、端末装置１０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

【0037】

表示制御部２０３は、ユーザに対する情報のディスプレイ１４１に代表される出力装置１４への表示を制御する。

【0038】

音声受付部２０４は、ユーザが発する音声を受け付ける。具体的には、例えば、ユーザが発する音声の入力を端末装置１０のマイク１７１で検出し、音声処理部１７０におけるデジタル－アナログ変換処理を行うことにより、音声受付部２０４によってユーザが発した音声が受け付けられる仕様としてもよい。

【0039】

位置割当部２０５は、サーバ２０から受信した音声データの話者それぞれに仮想の位置情報を割り当てる。仮想の位置情報の割り当てについての詳細は後述する。

【0040】

関数選択部２０６は、位置割当部２０５が割り当てた話者の仮想の位置情報に基づき、頭部伝達関数データベース１８１を参照して、音声データに適用する頭部伝達関数を選択する。頭部伝達関数の選択についての詳細は後述する。

【0041】

音声生成部２０７は、関数選択部２０６によって選択された頭部伝達関数を受信した音声に適用して、出力用の音声を生成する。図５Ｃに示すように、音声生成部２０７は、受信した音声の信号に対して、左伝達関数Ｈleftと右伝達関数Ｈrightをそれぞれ適用して、左耳用の左チャンネル信号と、右耳用の右チャンネル信号を生成する。

【0042】

音声出力部２０８は、音声生成部２０７が生成した音声を出力する。具体的には、例えば、音声出力部２０８は、音声生成部２０７が生成した音声を、音声処理部１７０へ与える。音声処理部１７０は、受け付けた音声に対応する信号をスピーカ１７２へ与える。スピーカ１７２は、音声処理部１７０から与えられる信号を音声に変換して、端末装置１０の外部へ出力する。

【0043】

（１－４．サーバ２０の機能構成）
図４は、サーバ２０は、通信部２１０と、記憶部２２０と、制御部２３０を備える。図４においてサーバ２０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

【0044】

通信部２１０は、サーバ２０が外部の装置と通信するための処理を行う。

【0045】

記憶部２２０は、例えば、メモリ２５、及びストレージ２６等により実現され、サーバ２０が使用するデータ、及びプログラムを記憶する。

【0046】

制御部２３０は、プロセッサ２９が記憶部２２０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２３０は、プログラムに従って動作することにより、送受信モジュール２３１、連結モジュール２３２を備える。

【0047】

送受信モジュール２３１は、サーバ２０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

【0048】

連結モジュール２３２は、複数の端末装置１０から受信した音声データを連結する処理を行う。図６Ａは、ネットワーク３０において通信される通信データの伝送単位を示す図である。送受信モジュール２３１が受信した通信データにおいて、音声データはアプリケーションデータＤ１内に格納されている。図６Ａに示すように、アプリケーションデータＤ１は、データグラムＤ２のペイロードに格納されており、データグラムＤ２は、ＩＰパケットＤ３のペイロードに格納されている。また、データグラムＤ２はヘッダー情報Ｈ２を有しており、ＩＰパケットＤ３はヘッダー情報Ｈ１を有している。

【0049】

図６Ｂに示すように、ユーザＵ２およびユーザＵ３から送信されるＩＰパケットＤ３は、ヘッダー情報Ｈ１と、データグラムＤ２を有する。データグラムＤ２のペイロードには、送信ユーザを識別する情報と、音声情報が含まれる。送信ユーザを示す情報は、端末装置１０から送信される際に、送受信部２０２によって付与される仕様としてもよい。または、サーバ２０がデータを受信した際に、ＩＰパケットＤ３における送信元のＩＰアドレスおよびポート番号に基づいて、サーバ２０側で送信ユーザを特定し、送信ユーザを識別する情報を付与する仕様としてもよい。

【0050】

サーバ２０の連結モジュール２３２は、ユーザＵ２およびユーザＵ３から音声データを受信すると、宛先として指定されるユーザ（この場合はユーザＵ１）宛てのデータグラムＤ２を特定して、特定されたデータグラムにおける音声データ（音声Ｖ２およびＶ３）を連結する。ここで、図６Ｂに示すように、送信ユーザを識別する情報も、音声データに付随して連結される。連結モジュール２３２は、連結された音声データを送信用のデータグラムＤ２に格納する。

【0051】

ここで、連結モジュール２３２は、所定の時間内に複数の端末装置から受信した音声データを、連結対象の音声データとする仕様としてもよい。一例として、所定の時間としては、２０ミリ秒以内としてもよい。このようにすることで、ほぼ同じタイミングで受信した音声データを連結して１つのデータグラムのペイロードに格納して送信することができる。

【0052】

（１－５．データ構造）
図７を参照し、システム１で使用されるデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。

【0053】

図７は、端末装置１０の記憶部１８０が記憶する頭部伝達関数データベース１８１のデータ構造の一例を示す図である。

【0054】

図７に示すように、頭部伝達関数データベース１８１のレコードは、項目「関数ＩＤ」と、項目「鉛直角θ」と、項目「水平角φ」と、項目「左伝達関数」と、項目「右伝達関数」等を含む。

【0055】

項目「関数ＩＤ」は、頭部伝達関数を識別するための識別情報であり、頭部伝達関数データベース１８１におけるレコードを一意に特定するための主キーである

【0056】

項目「鉛直角θ」は、聴取者の位置を基準とした音源の位置に対する鉛直角を意味する（図５Ａ参照）。一例として、鉛直角θは、０度～３５０度までを１０度間隔で保持する仕様としてもよい。すなわち、図７において、θ１＝０度、θ２＝１０度として、θ３６＝３５０度までのデータを保持する仕様としてもよい。ただし、この態様に限定されることはなく、より細かい間隔（例えば５度）、または粗い間隔（例えば２０度）で保持してもよい。

【0057】

項目「水平角φ」は、聴取者の位置を基準とした音源の位置に対する水平角を意味する（図５Ａ参照）。一例として、水平角φは、０度～３５０度までを１０度間隔で保持する仕様としてもよい。すなわち、図７において、φ１＝０度、φ２＝１０度として、φ３６＝３５０度までのデータを保持する仕様としてもよい。ただし、この態様に限定されることはなく、より細かい間隔（例えば５度）、または粗い間隔（例えば２０度）で保持してもよい。

【0058】

項目「左伝達関数」は、音源から出力された音声が聴取者の左耳に到達するまでの変化の特性を表す関数であり、鉛直角θと水平角φを変数として保持されている。すなわち、ある鉛直角θと水平角φが求まると、項目「左伝達関数」を参照することで、対応する左伝達関数Ｈleft（θ、φ）を求めることができる。

【0059】

項目「右伝達関数」は、音源から出力された音声が聴取者の右耳に到達するまでの変化の特性を表す関数であり、鉛直角θと水平角φを変数として保持されている。すなわち、ある鉛直角θと水平角φが求まると、項目「右伝達関数」を参照することで、対応する右伝達関数Ｈright（θ、φ）を求めることができる。

【0060】

頭部伝達関数データベース１８１は、ユーザが端末装置１０に本機能を提供するアプリケーションをインストールする際に、記憶部１８０に記憶されることが好ましい。また、頭部伝達関数データベース１８１は、必要に応じて、例えば当該アプリケーションのアップデートのタイミングで、レコードの追加または変更が可能な仕様としてもよい。

【0061】

（１－６．処理の流れ）
以下、図８および図９を参照して、システム１の処理の一例を説明する。なお、以下において、システム１はユーザＵ１が使用する端末装置１０Ａと、ユーザＵ２が使用する端末装置１０Ｂと、ユーザＵ３が使用する端末装置１０Ｃの３台を備える構成で説明するが、この例に限定されることはない。

【0062】

図８のステップＳ１１１において、端末装置１０Ａの音声受付部２０４は、ボイスチャットを行うユーザＵ１の音声を受け付けて、圧縮音声に変換する。ステップＳ１３１において、端末装置１０Ｂの音声受付部２０４は、ボイスチャットを行うユーザＵ２の音声を受け付けて、圧縮音声に変換する。ステップＳ１４１において、端末装置１０Ｃの音声受付部２０４は、ボイスチャットを行うユーザＵ３の音声を受け付けて、圧縮音声に変換する。

【0063】

ステップＳ１１２において、端末装置１０Ａの送受信部２０２は、ユーザＵ１から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ａが送信したユーザＵ１の音声を受信する。

【0064】

ステップＳ１３２において、端末装置１０Ｂの送受信部２０２は、ユーザＵ２から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ｂが送信したユーザＵ２の音声を受信する。

【0065】

ステップＳ１４２において、端末装置１０Ｃの送受信部２０２は、ユーザＵ３から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ｃが送信したユーザＵ３の音声を受信する。

【0066】

ステップＳ１２４において、連結モジュール２３２は、複数の端末装置１０から受信した音声データを連結する処理を行う。具体的には、連結モジュール２３２は、受信したデータについて、宛先として指定されるユーザ宛てのデータグラムを特定して、特定されたデータグラムにおける音声データを連結する。連結モジュール２３２は、連結した音声データを送信用のデータグラムに格納する。

【0067】

ステップＳ１２５において、サーバ２０の送受信モジュール２３１は、連結された音声を端末装置１０Ａ～１０Ｃへ送信する。ステップＳ１１３において、端末装置１０Ａの送受信部２０２は、連結された音声を受信する。ステップＳ１３３において、端末装置１０Ｂの送受信部２０２は、連結された音声を受信する。ステップＳ１４３において、端末装置１０Ｃの送受信部２０２は、連結された音声を受信する。

【0068】

ステップＳ２００において、端末装置１０Ａ～１０Ｃは、音声生成処理を実行する。音声生成処理（Ｓ２００）では、図９に示すとおり、ステップＳ２１０～ステップＳ２３０が実行される。

【0069】

ステップ２１０において、端末装置１０Ａ～１０Ｃの位置割当部２０５は、サーバ２０から受信した通信データのデータグラム内の連結された音声データの話者それぞれに仮想の位置情報を割り当てる。図１０に示す例では、位置割当部２０５は、ユーザＵ１～ユーザＵ３が、仮想のテーブルＴ１をはさんで座っている想定での位置情報を割り当てる。具体的には、所定の原点Оに対して、ユーザＵ１に位置（ｘ１，ｙ１）、ユーザＵ２に位置（ｘ２，ｙ２）、ユーザＵ３に位置（ｘ３，ｙ３）を割り当てる。このように、ユーザに対して二次元空間での位置を割り当てることにより、後続の音声処理（Ｓ２２０およびＳ２３０）を簡略にすることができ、処理速度が向上する。

【0070】

ステップＳ２２０において、端末装置１０Ａ～１０Ｃの関数選択部２０６は、位置割当部２０５が割り当てたユーザＵ１～ユーザＵ３の位置情報に基づき、頭部伝達関数データベース１８１を参照して、話者それぞれに対応する音声データに適用する頭部伝達関数を選択する。

【0071】

具体的には、例えばユーザＵ１が発した音声をユーザＵ２が使用する端末装置１０Ｂで出力させるために、関数選択部２０６は、ユーザＵ１の位置（ｘ１，ｙ１）とユーザＵ２の位置（ｘ２，ｙ２）から、聴取者Ｕ２の位置（ｘ２，ｙ２）を基準にした話者（音源）Ｕ１の位置（ｘ１，ｙ１）の水平角φ２１を算出する。そして、関数選択部２０６は、頭部伝達関数データベース１８１を参照して、水平角φ２１に最も近い「水平角φ」を持つレコードを特定し、当該レコードにおける項目「左伝達関数Ｈleft」を左伝達関数Ｈleft（φ２１）として選択し、項目「右伝達関数Ｈright」を右伝達関数Ｈright（φ２１）として選択する。このように、図１０に示す例においては、ユーザＵ１～ユーザＵ３に二次元空間（すなわち、同一平面上）での位置を割り当てる仕様となっているため、鉛直角θは定数となり算出する必要がなくなる。この場合、頭部伝達関数データベース１８１では、水平角φを変数にして左伝達関数Ｈleftおよび右伝達関数Ｈrightを規定すればよい。

【0072】

また、例えばユーザＵ１が発した音声をユーザＵ３が使用する端末装置１０Ｃで出力させるために、関数選択部２０６は、ユーザＵ１の位置（ｘ１，ｙ１）とユーザＵ３の位置（ｘ３，ｙ３）から、聴取者Ｕ３の位置（ｘ３，ｙ３）を基準にした話者（音源）Ｕ１の位置（ｘ１，ｙ１）の水平角φ３１を算出する。そして、関数選択部２０６は、頭部伝達関数データベース１８１を参照して、水平角φ３１に最も近い「水平角φ」を持つレコードを特定し、当該レコードにおける項目「左伝達関数Ｈleft」を左伝達関数Ｈleft（φ３１）として選択し、項目「右伝達関数Ｈright」を右伝達関数Ｈright（φ３１）として選択する。このようにして、ユーザＵ２が発した音声およびユーザＵ３が発した音声に対しても同様の処理を行う。

【0073】

ステップＳ２３０において、端末装置１０Ａ～１０Ｃの音声生成部２０７は、関数選択部２０６によって選択された頭部伝達関数を受信した音声に適用して、出力用の音声を生成する。

【0074】

具体的には、例えばユーザＵ１が発した音声をユーザＵ２が使用する端末装置１０Ｂで出力させるために、サーバ２０から受信した音声に対して、左伝達関数Ｈleft（θ２１，φ２１）と右伝達関数Ｈright（θ２１，φ２１）を適用して、出力用の音声を生成する。また、ユーザＵ１が発した音声をユーザＵ３が使用する端末装置１０Ｃで出力させるために、端末装置１０から受信した音声に対して、左伝達関数Ｈleft（θ３１，φ３１）と右伝達関数Ｈright（θ３１，φ３１）を適用して、出力用の音声を生成する。

【0075】

図８に戻って説明を続ける。音声生成処理（ステップＳ２００）が終了すると、ステップＳ１１４において、端末装置１０Ａの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１３４において、端末装置１０Ｂの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１４４において、端末装置１０Ｃの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。

【0076】

（１－７．小括）
以上のようにして、本実施形態におけるシステム１は、複数の端末装置１０と、サーバ２０とを備え、複数の端末装置１０とサーバ２０は、ＳＦＵ（Selective Forwarding Unit）方式で通信し、端末装置１０は、ユーザから受け付けた音声データをサーバ２０へ送信し、サーバ２０は、複数の端末装置１０から受信した音声データを連結し、連結した音声データを端末装置１０へ送信する。

【0077】

このような構成とすることにより、音声データの通信において、ミキシング処理を行うことなく、データ通信量を抑えることが可能となる。

【0078】

具体的には、サーバ２０は、複数の端末装置１０から所定の時間内に受信した音声データについて、宛先として指定されるユーザ宛ての複数のデータグラムを特定し、特定された複数のデータグラムにおける音声データを連結し、連結された音声データを送信用のデータグラムに格納して、宛先として指定されるユーザの端末装置１０へ送信する仕様としてもよい。

【0079】

このような構成とすることにより、通信データにおけるデータグラムのヘッダーに関するオーバーヘッド（付加的な処理）を低減することができる。また、データグラムにおけるヘッダーを省くことができ、通信リソースを節約して効率よく通信を行うことが可能となる。

【0080】

また、端末装置１０は、サーバ２０から受信したデータのデータグラム内に格納された音声データについて、当該音声データにおける話者それぞれに位置情報を割り当て、音声データに、割り当てられた位置情報に基づいた頭部伝達関数を適用した音声データを生成し、生成された音声データを聴取者に対して出力する仕様としてもよい。すなわち、本実施形態では、受信した音声データに対するミキシング処理をおこなっていないため、連結した音声データからそれぞれのユーザに対応する音声データを取り出して、頭部伝達関数を適用することが可能となっている。

【0081】

このような構成とすることにより、ボイスチャットなどの音声での同期コミュニケーションにおいて、話者の周りの空間的な広がりを聴取者が感知できるような、反響成分および／または残響成分を含んだ音声を出力することが可能となり、話者の分離度が向上する。すなわち、いわゆるカクテルパーティ効果（音声の選択的聴取効果）が発生して、複数の話者が同時に発話していても聞き分けることが容易となる。また、複数の話者が発話することで、聴取者は話者の周りの空間を認識し、コミュニケーションの雰囲気を感じ取ることができるようになる。これにより、音声での同期コミュニケーションにおいて、ユーザ間のコミュニケーションを円滑に行うことが可能となる。

【0082】

＜２．第２実施形態＞
図１１～図１３を参照し、本開示の第２実施形態におけるシステム１を説明する。第２実施形態では、端末装置１０は話者に対応付けられた位置情報を取得する点が第１実施形態と異なる。以下、上記実施形態との相違点を中心に説明する。

【0083】

（２－１．端末装置１０の機能構成）
図１１は、第２実施形態における端末装置１０の機能構成の例を示すブロック図である。図１１に示すように、端末装置１０の制御部２００は、第１実施形態の構成に加えて、コンテンツ提供部２０９をさらに備える。

【0084】

コンテンツ提供部２０９は、一例として、ゲームなどのコンテンツを提供する。より具体的には、記憶部１８０に記憶されているプログラムおよびデータを用いて、複数のユーザがそれぞれの端末装置１０で音声での同期コミュニケーションを行いながらプレイ可能なオンラインゲームを提供する。

【0085】

コンテンツ提供部２０９が提供するゲームでは、仮想空間内をユーザに対応したアバターが行動することによりゲームが進行する。アバターとは、ユーザの分身としての役割を備える仮想のキャラクタを意味する。ユーザは、仮想空間内でアバターを操作することにより、ゲームにおいて求められているミッション（またはクエスト）を攻略したり、他のユーザに対応したアバターを介して、他のユーザとコミュニケーションをとったりすることが可能となっている。

【0086】

コンテンツ提供部２０９は、音声受付部２０４がユーザの音声を受け付けたタイミングで、当該ユーザに対応づけられたアバターと他のアバターの位置情報を位置割当部２０５に与える。

【0087】

位置割当部２０５は、一例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報を、ユーザの位置情報として割り当てる。また、位置割当部２０５は、他の例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報を割り当てる。位置割当部２０５の処理の詳細は後述する。

【0088】

（２－２．処理の流れ）
図１２を参照し、第２実施形態における音声生成処理（ステップＳ２００）の流れを説明する。なお、第１実施形態と同様の処理については説明を繰り返さない。

【0089】

第２実施形態における音声生成処理（ステップＳ２００）では、ステップＳ２０５～ステップＳ２３０が実行される。ステップＳ２０５において、位置割当部２０５は、コンテンツ提供部２０９からアバターの仮想空間での位置情報を取得する。

【0090】

図１３Ａは、端末装置１０のコンテンツ提供部２０９が提供するゲームにおける仮想空間Ｗを示す図である。位置割当部２０５は、ユーザＵ１に対応するアバターＡ１の仮想空間Ｗにおける位置（Ｘ１，Ｙ１，Ｚ１）と、ユーザＵ２に対応するアバターＡ２の仮想空間Ｗにおける位置（Ｘ２，Ｙ２，Ｚ２）と、ユーザＵ３に対応するアバターＡ３の仮想空間Ｗにおける位置（Ｘ３，Ｙ３，Ｚ３）を取得する。

【0091】

ステップＳ２１０において、位置割当部２０５は、一例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報を、ユーザの位置情報として割り当てる。すなわち、アバターＡ１の位置（Ｘ１，Ｙ１，Ｚ１）をユーザＵ１の位置情報として割り当て、アバターＡ２の位置（Ｘ２，Ｙ２，Ｚ２）をユーザＵ１の位置情報として割り当て、アバターＡ３の位置（Ｘ３，Ｙ３，Ｚ３）をユーザＵ３の位置情報として割り当てる。ステップＳ２２０において、関数選択部２０６は、当該割り当てられた位置情報に基づいて、頭部伝達関数を選択する。

【0092】

このような構成とすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、仮想空間内のアバター同士の相対位置に応じて他のユーザが発した音声が聞こえてくることとなり、ゲームプレイにおける臨場感を向上させることができる。なお、この場合において、端末装置１０の音声出力部２０８は、音声を出力させる際に、仮想空間における前記アバター同士の距離に応じて、出力される音声の大きさを調整する仕様としてもよい。このようにすることで、アバター同士の方向だけでなく距離感も反映した音声を出力することができ、ゲームプレイにおける臨場感を一層向上させることができる。

【0093】

または、位置割当部２０５は、他の例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報をユーザに割り当ててもよい。例えば、図１３Ｂに示すように、仮想のテーブルＴ２を挟むようにユーザＵ１～Ｕ３が配置されており、所定の原点Оを基準として位置（ｘ１，ｙ１，ｚ１）をユーザＵ１の位置情報として割り当て、位置（ｘ２，ｙ２，ｚ２）をユーザＵ２の位置情報として割り当て、位置（ｘ３，ｙ３，ｚ３）をユーザＵ３の位置情報として割り当ててもよい。ステップＳ２２０において、関数選択部２０６は、当該割り当てられた位置情報に基づいて、頭部伝達関数を選択する。

【0094】

このような構成とすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、ユーザの位置情報が仮想空間内におけるアバターの位置とは無関係に設定され、当該設定されたユーザの位置情報に応じた音声を聴き取ることができる。すなわち、特定のユーザとの相対位置を常に固定することが可能となり、どのユーザが発言しているかを容易に識別することが可能となる。

【0095】

（２－３．小括）
このようにして、第２実施形態では、端末装置１０はコンテンツ提供部２０９を備え、コンテンツ提供部２０９は、提供するゲーム等のコンテンツにおけるアバターの仮想空間内での位置情報を位置割当部２０５に与える。位置割当部２０５は、一例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報を、ユーザの位置情報として割り当てる。このようにすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、仮想空間内のアバター同士の相対位置に応じて他のユーザが発した音声が聞こえてくることとなり、ゲームプレイにおける臨場感を向上させることができる。

【0096】

なお、本実施形態において、コンテンツ提供部２０９は、当該コンテンツにおいて同期をとるためのタイムスロット情報を管理しており、音声受付部２０４がユーザの音声を受け付けたタイミングで、当該タイムスロット情報を音声受付部２０４に与える仕様としてもよい。この場合、送受信部２０２は、当該タイムスロット情報を、音声データと対応づけてデータグラム内に格納してサーバ２０へ送信してもよい。

【0097】

この場合、サーバ２０の連結モジュール２３２は、連結された音声データのそれぞれに対応づけてタイムスロット情報を送信用のデータグラムに格納し、端末装置１０へ送信する。端末装置１０の音声出力部２０８は、受信した音声データそれぞれに対応づけられたタイムスロット情報に基づいて、当該音声データを出力させる。このような仕様とすることにより、端末装置１０がユーザから音声を受け付けたタイミングに基づいて音声が出力されることとなり、ボイスチャットでのコミュニケーションにおけるリアルタイム性をより向上させることができる。

【0098】

また、他の例として、位置割当部２０５は、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報をユーザに割り当てる。このようにすることで、特定のユーザとの相対位置を常に固定することが可能となり、どのユーザが発言しているかを容易に識別することが可能となる。

【0099】

なお、位置割当部２０５が、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報をユーザの位置情報として割り当てるか否かは、ユーザが適宜設定可能な仕様としてもよい。また、位置割当部２０５が、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報と異なる位置情報をユーザに割り当てる場合には、他のユーザとの相対位置をユーザが適宜設定可能な仕様としてもよい。

【0100】

＜３他の実施形態＞
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。

【0101】

例えば、上記実施形態では、頭部伝達関数は鉛直角θと水平角φを変数として保持していたが、この仕様に限定されることはない。例えば、音源と聴取者の距離をさらに変数として保持する仕様としてもよい。または、極座標以外の座標系（例えば直交座標）における変数を保持してもよい。

【0102】

また、上記実施形態では、ボイスチャットを想定しているため、話者と聴取者が同じとなっているが、この態様に限定されることはなく、話者と聴取者が異なってもよい。一例として、ポッドキャストのようなインターネットを利用した音声配信において、複数の話者が参加する場合に、本開示の技術的思想を適用してもよい。この場合、位置割当部２０５は、複数の話者それぞれに位置情報を割り当てて、関数選択部２０６は、所定の場所（例えば座標系における原点）に聴取者がいるとして頭部伝達関数を選択する仕様としてもよい。また、ｅスポーツ（Electronic Sports）の観戦などにおいて、観客が話者であり、プレイヤーが聴取者である仕様も想定される。この場合、話者としての位置を観客としてのユーザが適宜設定可能な仕様とすることで、プレイヤーに対して声援が届く位置で観戦するか否かを観客としてのユーザが選択可能な仕様としてもよい。

【0103】

また、上記実施形態では、話者としてのユーザが存在する音声での同期コミュニケーションを想定しているが、この態様に限定されることはない。例えば、話者として対応するユーザが存在しない仮想のキャラクタが複数存在し、当該キャラクタが発する音声は、コンピュータが合成した音声であってもよい。この場合、複数のキャラクタの位置情報の設定をユーザから受け付ける仕様としてもよい。また、キャラクタが発する音声の生成にあたっては、規則合成、波形接続型音声合成、統計的パラメトリック音声合成といった周知の音声合成技術を利用してもよい。

【0104】

また上記実施形態では、位置割当部２０５は、受信した音声に対応づけられたユーザに対して、仮想の位置情報を割り当てているが、この仕様に限定されることはない。例えば、オンラインでのビデオミーティングなどの動画を伴う同期コミュニケーションにおいて、当該動画に映るユーザ同士の位置情報を割り当てる仕様としてもよい。または、位置割当部２０５は、ボイスチャットを行うにあたり予めユーザが設定した位置情報を割り当てる仕様としてもよい。

【0105】

また上記実施形態において、音声データと合わせて、アバターの口の動きを再現するためのリップシンク情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、口の動きに関するリップシンク情報を生成する。具体的には、リップシンク情報には、入力音声に対する口形の幅や高さに関する情報、および／または入力音声に含まれる各音素の割合に関する情報が含まれ得る。また、音声データと合わせて、音声に対応する字幕情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、字幕情報を生成する。音声データの解析に基づくリップシンク情報の生成、または字幕情報の生成については、周知の技術を用いて行うことができる。サーバ２０は、受信したリップシンク情報または字幕情報を端末装置１０へ送信し、端末装置１０において、音声データの出力に合わせてアバターの口の動きが再現され、または字幕が表示される。

【0106】

また、上記実施形態では、頭部伝達関数についての情報は、端末装置１０の記憶部１８０に保持されているが、この仕様に限定されることはない。例えば、サーバ２０の記憶部２２０に保持されていてもよいし、外付けのハードディスクなどに保持させておき、必要に応じて参照する仕様としてもよい。

【0107】

また、通信回線を介した所定情報の共有は、主にインターネットなどのＷＡＮを介して行われるが、情報処理装置間では、ＷＡＮを介さずにＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離の無線通信、及び赤外線通信等のみを介して行われてもよい。

【0108】

また、上記実施形態では、各機能を端末装置１０またはサーバ２０が備える態様の一例について説明したが、この形態に限定されることはなく、一部または全部の機能について上記実施形態と異なる態様で端末装置１０、サーバ２０、又は端末装置１０とサーバ２０の両方が備える構成としてもよい。

【0109】

また、上記実施形態において端末装置１０に実行させるものとして記載されていた各ステップをサーバ２０に実行させてもよく、サーバ２０に実行させるものとして記載されていた各ステップを端末装置１０に実行させてもよい。

【0110】

さらに、本発明は、上述した端末装置１０またはサーバ２０が備える機能を情報処理装置に実行させるプログラムとして実現してもよいし、当該プログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として実現してもよい。

【0111】

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。
（付記１）
複数の端末装置と、サーバとを備え、複数のユーザ間での音声コミュニケーションを実行するシステムであって、前記複数の端末装置と、前記サーバは、ＳＦＵ（Selective Forwarding Unit）方式で通信し、前記端末装置は、ユーザから受け付けた音声データを前記サーバへ送信し、前記サーバは、前記複数の端末装置から受信した音声データを連結し、連結した音声データを前記端末装置へ送信する、システム。
（付記２）
前記サーバは、前記複数の端末装置から受信した音声データについて、宛先として指定されるユーザ宛ての複数のセグメントを特定し、特定された前記複数のセグメントにおける音声データを連結し、連結された音声データをセグメントに格納して、前記宛先として指定されるユーザの端末装置へ送信する、付記１に記載のシステム。
（付記３）
前記サーバは、所定の時間内に前記複数の端末装置から受信した音声データを、連結対象の音声データとする、付記２に記載のシステム。
（付記４）
前記端末装置は、前記サーバから受信したデータのセグメント内に格納された音声データについて、当該音声データにおける話者それぞれに位置情報を割り当て、前記音声データに、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声データを生成し、生成された音声データを聴取者に対して出力する、付記１に記載のシステム。
（付記５）
前記端末装置は、前記話者それぞれに仮想の位置に関する位置情報を割り当てる、付記４に記載のプログラム。
（付記６）
前記端末装置と、前記サーバは、ＵＤＰ（User Datagram Protocol）プロトコルで通信を行い、前記サーバは、前記連結した音声データをデータグラムに格納する、付記１～付記５のいずれか１項に記載のプログラム。
（付記７）
前記端末装置は、受け付けたユーザの音声を圧縮音声に変換して、前記サーバへ送信する、付記１～付記５のいずれか１項に記載のプログラム。

【0112】

以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。

【符号の説明】

【0113】

１：システム、１０：端末装置、１３：入力装置、１４：出力装置、１５：メモリ、１６：ストレージ、１９：プロセッサ、２０：サーバ、２５：メモリ、２６：ストレージ、２９：プロセッサ、３０：ネットワーク、１３１：キーボード、１３２：マウス、１４１：ディスプレイ、１５０：通信部、１７０：音声処理部、１７１：マイク、１７２：スピーカ、１８０：記憶部、１８１：頭部伝達関数データベース、２００：制御部、２０１：操作受付部、２０２：送受信部、２０３：表示制御部、２０４：音声受付部、２０５：位置割当部、２０６：関数選択部、２０７：音声生成部、２０８：音声出力部、２０９：コンテンツ提供部、２１０：通信部、２２０：記憶部、２３０：制御部、２３１：送受信モジュール、２３２：連結モジュール。

【図1】