特開2024-94741 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＣＲＩ・ミドルウェアの特許一覧

特開2024-94741システム、方法、プログラム、情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024094741

(43)【公開日】2024-07-10

(54)【発明の名称】システム、方法、プログラム、情報処理装置

(51)【国際特許分類】

H04S 7/00 20060101AFI20240703BHJP

G06F 3/16 20060101ALI20240703BHJP

G06F 3/01 20060101ALI20240703BHJP

【ＦＩ】

H04S7/00 300

G06F3/16 640

G06F3/16 500

G06F3/16 690

G06F3/01 510

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022211483

(22)【出願日】2022-12-28

【新規性喪失の例外の表示】新規性喪失の例外適用申請有り

(71)【出願人】

【識別番号】304012596

【氏名又は名称】株式会社ＣＲＩ・ミドルウェア

(74)【代理人】

【識別番号】110002815

【氏名又は名称】ＩＰＴｅｃｈ弁理士法人

(72)【発明者】

【氏名】押見正雄

(72)【発明者】

【氏名】郷原亮

【テーマコード（参考）】

5D162

5E555

【Ｆターム（参考）】

5D162CA01

5D162CA26

5D162CC08

5D162CD07

5D162EG02

5E555AA27

5E555AA46

5E555AA76

5E555BA02

5E555BA03

5E555BA05

5E555BA06

5E555BA20

5E555BA88

5E555BB02

5E555BB03

5E555BB05

5E555BB06

5E555BB20

5E555BC01

5E555CA47

5E555CB64

5E555CB74

5E555DA23

5E555DB32

5E555DD06

5E555EA05

5E555EA07

5E555EA23

5E555FA00

(57)【要約】

【課題】ユーザの位置についての視覚的なヒントが得られない状況においても、話者の識別を容易にしてユーザ間のコミュニケーションを円滑に行う技術を提供する。
【解決手段】プロセッサに、複数の話者それぞれが発した音声を受け付けるステップと、音声の話者それぞれに位置情報を割り当てるステップと、受け付けた音声に、割り当てられた位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、生成された音声を聴取者に対して出力するステップと、を実行させるプログラムが提供される。
【選択図】図７

【特許請求の範囲】

【請求項1】

プロセッサを備えるコンピュータに、所定の処理を実行させるプログラムであって、
前記プロセッサに、
複数の話者それぞれが発した音声を受け付けるステップと、
前記音声の話者それぞれに位置情報を割り当てるステップと、
前記音声に、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、
生成された音声を聴取者に対して出力するステップと、を実行させる、プログラム。

【請求項2】

前記位置情報を割り当てるステップでは、前記複数の話者それぞれに仮想の位置に関する位置情報を割り当てる、請求項１に記載のプログラム。

【請求項3】

前記位置情報を割り当てるステップでは、ネットワークを介して取得した話者に対応づけられた位置情報を割り当てる、請求項１に記載のプログラム。

【請求項4】

前記位置情報を割り当てるステップでは、前記話者に対応づけられたアバターの仮想空間における位置情報とは異なる位置情報を割り当てる、請求項１に記載のプログラム。

【請求項5】

前記出力するステップでは、仮想空間における前記話者に対応づけられたアバター同士の距離に応じて、出力される音声の大きさを調整する、請求項２に記載のプログラム。

【請求項6】

前記複数の話者は、対応するユーザが存在しない仮想のキャラクタであり、前記音声は前記コンピュータが合成した音声である、請求項１に記載のプログラム。

【請求項7】

前記キャラクタの位置情報の設定を、ユーザから受け付けるステップを実行させる、請求項６に記載のプログラム。

【請求項8】

プロセッサを備えるコンピュータに、所定の処理を実行させる方法であって、
複数の話者それぞれが発した音声を受け付けるステップと、
前記音声の話者それぞれに位置情報を割り当てるステップと、
前記音声に、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、
生成された音声を聴取者に対して出力するステップと、を含む、方法。

【請求項9】

プロセッサを備えるコンピュータを備え、所定の処理を実行するシステムであって、
複数の話者それぞれが発した音声を受け付けるステップと、
前記音声の話者それぞれに位置情報を割り当てるステップと、
前記音声に、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、
生成された音声を聴取者に対して出力するステップと、を実行する、システム。

【請求項10】

プロセッサを備える情報処理装置であって、
複数の話者それぞれが発した音声を受け付けるステップと、
前記音声の話者それぞれに位置情報を割り当てるステップと、
前記音声に、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、
生成された音声を聴取者に対して出力するステップと、を実行する、情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、システム、方法、プログラム、情報処理装置に関する。

【背景技術】

【0002】

昨今、オンラインでのコミュニケーションを行うための技術が開発されている。例えば特許文献１には、オンラインでのビデオコミュニケーションツールにおいて、ユーザが表示される画面位置に応じて、音声の出力パラメータを基づく指向性を音声に付与する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１６－１３９９７２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方、上記技術では、表示される画面位置に基づく位置をユーザに割り当てているため、音声での同期コミュニケーション（以下、ボイスチャットともいう）のように、ユーザの位置を視覚的に把握できない場合に適用できないといった問題があった。

【0005】

本開示の目的は、ユーザの位置についての視覚的なヒントが得られない状況においても、話者の識別を容易にしてユーザ間のコミュニケーションを円滑に行う技術を提供することである。

【課題を解決するための手段】

【0006】

本開示では、プロセッサに、複数の話者それぞれが発した音声を受け付けるステップと、音声の話者それぞれに位置情報を割り当てるステップと、受け付けた音声に、割り当てられた位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、生成された音声を聴取者に対して出力するステップと、を実行させるプログラムが提供される。

【発明の効果】

【0007】

本開示によれば、ユーザの位置についての視覚的なヒントが得られない状況においても、話者の識別を容易にしてユーザ間のコミュニケーションを円滑に行うことが可能となる。

【図面の簡単な説明】

【0008】

【図1】システム１の概要を説明する図である。

【図2】システム１のハードウェア構成を示すブロック図である。

【図3】端末装置１０の機能構成を示すブロック図である。

【図4】サーバ２０の機能構成を示すブロック図である。

【図5】図５Ａは音源Ｓと聴取者Ｌの関係を示す図である。図５Ｂは頭部伝達関数における左伝達関数と右伝達関数を示す図である。図５Ｃは音声への頭部伝達関数の適用を示す図である。

【図6】端末装置１０の記憶部１８０に記憶されるデータベースの構造を示す図である。

【図7】システム１の処理の流れを説明するフロー図である。

【図8】音声生成処理（Ｓ２００）の流れを説明するフロー図である。

【図9】ユーザごとに仮想的な位置を割り当てる処理を説明するための図である。

【図10】変形例における端末装置１０の機能構成を示すブロック図である。

【図11】変形例におけるサーバ２０の機能構成を示すブロック図である。

【図12】変形例におけるシステム１の処理の流れを説明するフロー図である。

【図13】第２実施形態における端末装置１０の機能構成を示すブロック図である。

【図14】第２実施形態における音声生成処理（Ｓ２００）の流れを説明するフロー図である。

【図15】図１５Ａは、仮想空間Ｗ内でのユーザに対応するアバターの位置の一例を示す図である。図１５Ｂは、ユーザごとに仮想的な位置を割り当てる処理を説明するための図である。

【発明を実施するための形態】

【0009】

以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

【0010】

＜１．第１実施形態＞
（１－１．システム１の概要）
図１を参照して、システム１が提供する機能（以下、本機能ともいう）の概要を説明する。図１に示すように、システム１は、複数のユーザがそれぞれ使用する複数の端末装置１０と、サーバ２０を備え、複数のユーザによる会話での同期コミュニケーション（以下、ボイスチャットともいう）を実行する。

【0011】

端末装置１０は、ユーザが発する音声を受け付けて、サーバ２０へ送信する。サーバ２０は、端末装置１０から受信した音声データを他の端末装置１０へ送信する。端末装置１０は、音声データを受信すると、音声に対応づけられたユーザに仮想の位置情報を割り当てて、当該位置情報に基づく頭部伝達関数を適用した音声を生成する。端末装置１０は、生成された音声をユーザに対して出力する。

【0012】

このように、システム１では、ユーザ同士の音声での同期コミュニケーションにおいて、ユーザから受け付けた音声に対して、ユーザの仮想の位置情報に基づく頭部伝達関数を適用した音声を生成し、当該生成された音声が端末装置１０から出力される。これにより、複数の話者が発言した音声の分離度を向上させることが可能となり、音声での同期コミュニケーションを円滑に行うことが可能となる。以下、各構成を詳細に説明する。

【0013】

（１－２．システム１のハードウェア構成）
図２は、システム１のハードウェア構成の例を示すブロック図である。システム１は、複数の端末装置１０と、サーバ２０とを備える。端末装置１０およびサーバ２０は、ネットワーク３０を介して通信可能に接続されている。ここで、端末装置１０と、サーバ２０は、ＳＦＵ（Selective Forwarding Unit）方式で通信されている。また、端末装置１０と、サーバ２０は、ＵＤＰ（User Datagram Protocol）プロトコルで通信することが好ましい。なお、図２に示す例では、システム１は３つの端末装置１０を備えているが、端末装置１０の数はこの例に限定されることはなく、２つ以下であってもよく、４つ以上であってもよい。

【0014】

本実施形態において、複数の装置の集合体を１つのサーバ２０としてもよい。１つ又は複数のハードウェアに対して本実施形態に係るサーバ２０を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び／又はサーバ２０に求められる仕様等に鑑みて適宜決定することができる。

【0015】

端末装置１０は、一例として、デスクトップ型またはラップトップ型のＰＣ（Personal Computer）であってもよい。また、端末装置１０は、タブレット端末、又はスマートフォン等の携帯端末として実現してもよい。端末装置１０は、通信ＩＦ（Interface）１２と、入力装置１３と、出力装置１４と、メモリ１５と、ストレージ１６と、プロセッサ１９とを備える。

【0016】

通信ＩＦ１２は、端末装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

【0017】

入力装置１３は、ユーザからの入力操作を受け付けるための装置（例えば、タッチパネル、マイク等）である。

【0018】

出力装置１４は、ユーザに対して情報を提示するための装置（ディスプレイ、スピーカ等）である。

【0019】

メモリ１５は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

【0020】

ストレージ１６は、データを保存するためのものであり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

【0021】

プロセッサ１９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。

【0022】

サーバ２０は、インターネットなどのネットワーク３０を介して端末装置１０と通信可能なコンピュータであり、いわゆるクラウドサーバとして実現される。サーバ２０は、通信ＩＦ２２と、入出力ＩＦ２３と、メモリ２５と、ストレージ２６と、プロセッサ２９とを備える。

【0023】

入出力ＩＦは、サーバ２０に対して何らかの入力操作を行う場合、または、サーバ２０から情報を出力する場合に、入出力装置を接続するためのインタフェースである。

【0024】

通信ＩＦ２２、メモリ２５、ストレージ２６およびプロセッサ２９は、端末装置１０の通信ＩＦ１２、メモリ１５、ストレージ１６およびプロセッサ１９と同様に構成されるため、説明は繰り返さない。

【0025】

（１－３．端末装置１０の機能構成）
図３は、端末装置１０の機能構成の例を示すブロック図である。図３に示すように、端末装置１０は、入力装置１３と、出力装置１４と、通信部１５０と、音声処理部１７０と、記憶部１８０と、制御部２００を備える。図３において端末装置１０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

【0026】

通信部１５０は、端末装置１０が他の装置と通信するための変復調処理等の処理を行う。通信部１５０は、制御部２００で生成された信号に送信処理を施し、外部（例えば、他の端末装置１０）へ送信する。通信部１５０は、外部から受信した信号に受信処理を施し、制御部２００へ出力する。

【0027】

入力装置１３は、端末装置１０を操作するユーザが指示、又は情報を入力するための装置である。入力装置１３は、例えば、キーボード１３１およびマウス１３２を含む。また、入力装置１３は、操作面へ触れることで指示が入力されるタッチセンシティブデバイスを備えていてもよい。入力装置１３は、ユーザから入力される指示、又は情報を電気信号へ変換し、電気信号を制御部２００へ出力する。また、入力装置１３には、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。

【0028】

出力装置１４は、端末装置１０を操作するユーザへ情報を提示するための装置である。出力装置１４は、例えば、ディスプレイ１４１等により実現される。ディスプレイ１４１は、制御部２００の制御に応じたデータを表示する。ディスプレイ１４１は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。

【0029】

音声処理部１７０は、例えば、音声のデジタル－アナログ変換処理を行う。音声処理部１７０は、マイク１７１から与えられる音声のアナログ信号をデジタル信号に変換して、変換後のデジタル信号を制御部２００へ与える。また、音声処理部１７０は、音声の信号をスピーカ１７２へ与える。音声処理部１７０は、例えば音声処理用のプロセッサによって実現される。マイク１７１は、音声入力を受け付けて、当該音声入力に対応する信号を音声処理部１７０へ与える。スピーカ１７２は、音声処理部１７０から与えられる信号を音声に変換して当該音声を端末装置１０の外部へ出力する。なお、スピーカ１７２は、例えば７．１ｃｈスピーカを用いて実現してもよいし、ステレオヘッドホンを用いて実現してもよい。

【0030】

記憶部１８０は、例えば、メモリ１５、及びストレージ１６等により実現され、端末装置１０が使用するデータ、及びプログラムを記憶する。記憶部１８０は、一例として、伝達関数データベース（ＤＢ：DataBase）１８１を記憶する。

【0031】

頭部伝達関数データベース１８１は、頭部伝達関数の情報を記憶するデータベースである。頭部伝達関数とは、音源から出力された音声が聴取者の左右の耳で聴き取られるまでに変化する特性を表した伝達関数である。頭部伝達関数データベース１８１は、端末装置１０の記憶部１８０にあらかじめ記憶されるのが好ましいが、必要に応じて適宜レコードの追加および更新をしてもよい。頭部伝達関数データベース１８１のデータ構造の詳細は後述する。

【0032】

図５Ａおよび図５Ｂを参照して、頭部伝達関数について説明する。音源Ｓから出力された音声が聴取者Ｌに聴き取られる際、聴取者Ｌの左耳で聴き取られる音声と、聴取者Ｌの右耳で聴き取られる音声には変化が生じる。これは、音源Ｓから出力された音声は、聴取者Ｌの頭部の形状、聴取者Ｌの耳殻の構造、および聴取者Ｌの位置を基準とした音源Ｓの位置の方向などの影響を受けるためである。ここで、図５Ａに示すように、聴取者Ｌの位置を基準とした音源Ｓの位置の方向は、極座標における鉛直角θと水平角φを用いて一意に特定される。

【0033】

一例として、図５Ｂに示すように、音源Ｓから出力された音声が聴取者Ｌの左耳Ｅ１に到達するまでの変化の特性を左耳用の頭部伝達関数（以下、左伝達関数ともいう）Ｈleftとして表現でき、音源Ｓから出力された音声が聴取者Ｌの右耳Ｅ２に到達するまでの変化の特性を右耳用の頭部伝達関数（以下、右伝達関数ともいう）Ｈrightとして表現できる。なお、左伝達関数Ｈleftおよび右伝達関数Ｈrightは、いずれも鉛直角θと水平角φを変数として保持し得る。

【0034】

図３に戻って、端末装置１０の機能構成について説明を続ける。制御部２００は、プロセッサ１９が記憶部１８０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２００は、端末装置１０の動作を制御する。制御部２００は、プログラムに従って動作することにより、操作受付部２０１と、送受信部２０２と、表示制御部２０３と、音声受付部２０４と、位置割当部２０５と、関数選択部２０６と、音声生成部２０７と、音声出力部２０８としての機能を発揮する。

【0035】

操作受付部２０１は、入力装置１３から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部２０１は、キーボード１３１等から入力される指示に基づく情報を受け付ける。

【0036】

送受信部２０２は、端末装置１０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

【0037】

表示制御部２０３は、ユーザに対する情報のディスプレイ１４１に代表される出力装置１４への表示を制御する。

【0038】

音声受付部２０４は、ユーザが発する音声を受け付ける。具体的には、例えば、ユーザが発する音声の入力を端末装置１０のマイク１７１で検出し、音声処理部１７０におけるデジタル－アナログ変換処理を行うことにより、音声受付部２０４によってユーザが発した音声が受け付けられる仕様としてもよい。

【0039】

位置割当部２０５は、サーバ２０から受信した音声データの話者それぞれに仮想の位置情報を割り当てる。仮想の位置情報の割り当てについての詳細は後述する。

【0040】

関数選択部２０６は、位置割当部２０５が割り当てた話者の仮想の位置情報に基づき、頭部伝達関数データベース１８１を参照して、音声データに適用する頭部伝達関数を選択する。頭部伝達関数の選択についての詳細は後述する。

【0041】

音声生成部２０７は、関数選択部２０６によって選択された頭部伝達関数を受信した音声に適用して、出力用の音声を生成する。図５Ｃに示すように、音声生成部２０７は、受信した音声の信号に対して、左伝達関数Ｈleftと右伝達関数Ｈrightをそれぞれ適用して、左耳用の左チャンネル信号と、右耳用の右チャンネル信号を生成する。

【0042】

ここで、音声生成部２０７は、頭部伝達関数を適用するにあたって、受信した音声を、より高いサンプリング周波数でリサンプリングした上で、頭部伝達関数（具体的には、左伝達関数Ｈleftおよび右伝達関数Ｈright）を適用するのが好ましい。より具体的には、エイリアシングなどで高周波成分を疑似的に生成して、リサンプリングすることが好ましい。このような処理を行うことにより、高周波数でリサンプリングしたことで確保できた高周波帯域において、頭部伝達関数を適用することによる空間または聴取者の耳殻における反響音成分、および／または残響音成分が発生することとなり、高周波数の音声成分を生成することができ、音質が向上する。

【0043】

音声出力部２０８は、音声生成部２０７が生成した音声を出力する。具体的には、例えば、音声出力部２０８は、音声生成部２０７が生成した音声を、音声処理部１７０へ与える。音声処理部１７０は、受け付けた音声に対応する信号をスピーカ１７２へ与える。スピーカ１７２は、音声処理部１７０から与えられる信号を音声に変換して、端末装置１０の外部へ出力する。

【0044】

（１－４．サーバ２０の機能構成）
図４は、サーバ２０は、通信部２１０と、記憶部２２０と、制御部２３０を備える。図４においてサーバ２０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

【0045】

通信部２１０は、サーバ２０が外部の装置と通信するための処理を行う。

【0046】

記憶部２２０は、例えば、メモリ２５、及びストレージ２６等により実現され、サーバ２０が使用するデータ、及びプログラムを記憶する。

【0047】

制御部２３０は、プロセッサ２９が記憶部２２０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２３０は、プログラムに従って動作することにより、送受信モジュール２３１として機能する。

【0048】

送受信モジュール２３１は、サーバ２０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

【0049】

（１－５．データ構造）
図６を参照し、システム１で使用されるデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。

【0050】

図６は、端末装置１０の記憶部１８０が記憶する頭部伝達関数データベース１８１のデータ構造の一例を示す図である。

【0051】

図６に示すように、頭部伝達関数データベース１８１のレコードは、項目「関数ＩＤ」と、項目「鉛直角θ」と、項目「水平角φ」と、項目「左伝達関数」と、項目「右伝達関数」等を含む。

【0052】

項目「関数ＩＤ」は、頭部伝達関数を識別するための識別情報であり、頭部伝達関数データベース１８１におけるレコードを一意に特定するための主キーである

【0053】

項目「鉛直角θ」は、聴取者の位置を基準とした音源の位置に対する鉛直角を意味する（図５Ａ参照）。一例として、鉛直角θは、０度～３５０度までを１０度間隔で保持する仕様としてもよい。すなわち、図６において、θ１＝０度、θ２＝１０度として、θ３６＝３５０度までのデータを保持する仕様としてもよい。ただし、この態様に限定されることはなく、より細かい間隔（例えば５度）、または粗い間隔（例えば２０度）で保持してもよい。

【0054】

項目「水平角φ」は、聴取者の位置を基準とした音源の位置に対する水平角を意味する（図５Ａ参照）。一例として、水平角φは、０度～３５０度までを１０度間隔で保持する仕様としてもよい。すなわち、図６において、φ１＝０度、φ２＝１０度として、φ３６＝３５０度までのデータを保持する仕様としてもよい。ただし、この態様に限定されることはなく、より細かい間隔（例えば５度）、または粗い間隔（例えば２０度）で保持してもよい。

【0055】

項目「左伝達関数」は、音源から出力された音声が聴取者の左耳に到達するまでの変化の特性を表す関数であり、鉛直角θと水平角φを変数として保持されている。すなわち、ある鉛直角θと水平角φが求まると、項目「左伝達関数」を参照することで、対応する左伝達関数Ｈleft（θ、φ）を求めることができる。

【0056】

項目「右伝達関数」は、音源から出力された音声が聴取者の右耳に到達するまでの変化の特性を表す関数であり、鉛直角θと水平角φを変数として保持されている。すなわち、ある鉛直角θと水平角φが求まると、項目「右伝達関数」を参照することで、対応する右伝達関数Ｈright（θ、φ）を求めることができる。

【0057】

頭部伝達関数データベース１８１は、ユーザが端末装置１０に本機能を提供するアプリケーションをインストールする際に、記憶部１８０に記憶されることが好ましい。また、頭部伝達関数データベース１８１は、必要に応じて、例えば当該アプリケーションのアップデートのタイミングで、レコードの追加または変更が可能な仕様としてもよい。

【0058】

（１－６．処理の流れ）
以下、図７および図８を参照して、システム１の処理の一例を説明する。なお、以下において、システム１はユーザＵ１が使用する端末装置１０Ａと、ユーザＵ２が使用する端末装置１０Ｂと、ユーザＵ３が使用する端末装置１０Ｃの３台を備える構成で説明するが、この例に限定されることはない。

【0059】

図７のステップＳ１１１において、端末装置１０Ａの音声受付部２０４は、ボイスチャットを行うユーザＵ１の音声を受け付けて、圧縮音声に変換する。ステップＳ１３１において、端末装置１０Ｂの音声受付部２０４は、ボイスチャットを行うユーザＵ２の音声を受け付けて、圧縮音声に変換する。ステップＳ１４１において、端末装置１０Ｃの音声受付部２０４は、ボイスチャットを行うユーザＵ３の音声を受け付けて、圧縮音声に変換する。

【0060】

ステップＳ１１２において、端末装置１０Ａの送受信部２０２は、ユーザＵ１から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ａが送信したユーザＵ１の音声を受信する。

【0061】

ステップＳ１３２において、端末装置１０Ｂの送受信部２０２は、ユーザＵ２から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ｂが送信したユーザＵ２の音声を受信する。

【0062】

ステップＳ１４２において、端末装置１０Ｃの送受信部２０２は、ユーザＵ３から受け付けて圧縮した圧縮音声をサーバ２０へ送信する。サーバ２０の送受信モジュール２３１は、端末装置１０Ｃが送信したユーザＵ３の音声を受信する。

【0063】

ステップＳ１２４において、サーバ２０の送受信モジュール２３１は、音声を端末装置１０Ａ～１０Ｃへ送信する。ステップＳ１１３において、端末装置１０Ａの送受信部２０２は、音声を受信する。ステップＳ１３３において、端末装置１０Ｂの送受信部２０２は、音声を受信する。ステップＳ１４３において、端末装置１０Ｃの送受信部２０２は、音声を受信する。

【0064】

ステップＳ２００において、端末装置１０Ａ～１０Ｃは、音声生成処理を実行する。音声生成処理（Ｓ２００）では、図８に示すとおり、ステップＳ２１０～ステップＳ２３０が実行される。

【0065】

ステップＳ２１０において、端末装置１０Ａ～１０Ｃの位置割当部２０５は、サーバ２０から受信した通信データのデータグラム内の音声データの話者それぞれに仮想の位置情報を割り当てる。図９に示す例では、位置割当部２０５は、ユーザＵ１～ユーザＵ３が、仮想のテーブルＴ１をはさんで座っている想定での位置情報を割り当てる。具体的には、所定の原点Оに対して、ユーザＵ１に位置（ｘ１，ｙ１）、ユーザＵ２に位置（ｘ２，ｙ２）、ユーザＵ３に位置（ｘ３，ｙ３）を割り当てる。このように、ユーザに対して二次元空間での位置を割り当てることにより、後続の音声処理（Ｓ２２０およびＳ２３０）を簡略にすることができ、処理速度が向上する。

【0066】

ステップＳ２２０において、端末装置１０Ａ～１０Ｃの関数選択部２０６は、位置割当部２０５が割り当てたユーザＵ１～ユーザＵ３の位置情報に基づき、頭部伝達関数データベース１８１を参照して、話者それぞれに対応する音声データに適用する頭部伝達関数を選択する。

【0067】

具体的には、例えばユーザＵ１が発した音声をユーザＵ２が使用する端末装置１０Ｂで出力させるために、関数選択部２０６は、ユーザＵ１の位置（ｘ１，ｙ１）とユーザＵ２の位置（ｘ２，ｙ２）から、聴取者Ｕ２の位置（ｘ２，ｙ２）を基準にした話者（音源）Ｕ１の位置（ｘ１，ｙ１）の水平角φ２１を算出する。そして、関数選択部２０６は、頭部伝達関数データベース１８１を参照して、水平角φ２１に最も近い「水平角φ」を持つレコードを特定し、当該レコードにおける項目「左伝達関数Ｈleft」を左伝達関数Ｈleft（φ２１）として選択し、項目「右伝達関数Ｈright」を右伝達関数Ｈright（φ２１）として選択する。このように、図９に示す例においては、ユーザＵ１～ユーザＵ３に二次元空間（すなわち、同一平面上）での位置を割り当てる仕様となっているため、鉛直角θは定数となり算出する必要がなくなる。この場合、頭部伝達関数データベース１８１では、水平角φを変数にして左伝達関数Ｈleftおよび右伝達関数Ｈrightを規定すればよい。

【0068】

また、例えばユーザＵ１が発した音声をユーザＵ３が使用する端末装置１０Ｃで出力させるために、関数選択部２０６は、ユーザＵ１の位置（ｘ１，ｙ１）とユーザＵ３の位置（ｘ３，ｙ３）から、聴取者Ｕ３の位置（ｘ３，ｙ３）を基準にした話者（音源）Ｕ１の位置（ｘ１，ｙ１）の水平角φ３１を算出する。そして、関数選択部２０６は、頭部伝達関数データベース１８１を参照して、水平角φ３１に最も近い「水平角φ」を持つレコードを特定し、当該レコードにおける項目「左伝達関数Ｈleft」を左伝達関数Ｈleft（φ３１）として選択し、項目「右伝達関数Ｈright」を右伝達関数Ｈright（φ３１）として選択する。このようにして、ユーザＵ２が発した音声およびユーザＵ３が発した音声に対しても同様の処理を行う。

【0069】

ステップＳ２３０において、端末装置１０Ａ～１０Ｃの音声生成部２０７は、関数選択部２０６によって選択された頭部伝達関数を受信した音声に適用して、出力用の音声を生成する。

【0070】

具体的には、例えばユーザＵ１が発した音声をユーザＵ２が使用する端末装置１０Ｂで出力させるために、サーバ２０から受信した音声に対して、左伝達関数Ｈleft（θ２１，φ２１）と右伝達関数Ｈright（θ２１，φ２１）を適用して、出力用の音声を生成する。また、ユーザＵ１が発した音声をユーザＵ３が使用する端末装置１０Ｃで出力させるために、端末装置１０から受信した音声に対して、左伝達関数Ｈleft（θ３１，φ３１）と右伝達関数Ｈright（θ３１，φ３１）を適用して、出力用の音声を生成する。

【0071】

ここで、音声生成部２０７は、頭部伝達関数を適用するにあたって、受信した音声を、より高いサンプリング周波数でリサンプリングした上で、頭部伝達関数（具体的には、左伝達関数Ｈleftおよび右伝達関数Ｈright）を適用するのが好ましい。具体的には、例えば端末装置１０から受信した音声のサンプリング周波数が１６ｋＨｚである場合に、４８ｋＨｚのサンプリング周波数でリサンプリングを行い、その後に左伝達関数Ｈleftおよび右伝達関数Ｈrightを適用する。このような処理を行うことにより、高周波数でリサンプリングしたことで確保できた高周波帯域において、空間または聴取者の耳殻における反響音成分および／または残響音成分が発生することとなり、高周波数の音声成分を生成することができ、音質が向上する。

【0072】

図７に戻って説明を続ける。音声生成処理（ステップＳ２００）が終了すると、ステップＳ１１４において、端末装置１０Ａの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１３４において、端末装置１０Ｂの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１４４において、端末装置１０Ｃの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。

【0073】

（１－７．小括）
以上のようにして、本実施形態では、システム１は、複数の話者それぞれが発した音声を受け付けるステップ（Ｓ１１１，Ｓ１３１，Ｓ１４１）と、音声の話者それぞれに位置情報を割り当てるステップ（Ｓ２１０）と、受け付けた音声に、割り当てられた位置情報に基づいた頭部伝達関数を適用した音声を生成するステップ（Ｓ２３０）と、生成された音声を聴取者に対して出力するステップ（Ｓ１１４，Ｓ１３４，Ｓ１４４）と、を実行する。

【0074】

このような構成とすることにより、ボイスチャットなどの音声での同期コミュニケーションにおいて、話者の周りの空間的な広がりを聴取者が感知できるような、反響成分および／または残響成分を含んだ音声を出力することが可能となり、話者の分離度が向上する。すなわち、いわゆるカクテルパーティ効果（音声の選択的聴取効果）が発生して、複数の話者が同時に発話していても聞き分けることが容易となる。また、複数の話者が発話することで、聴取者は話者の周りの空間を認識し、コミュニケーションの雰囲気を感じ取ることができるようになる。これにより、ユーザの位置についての視覚的なヒントが得られない状況においても、話者の識別を容易にしてユーザ間のコミュニケーションを円滑に行うことが可能となる。

【0075】

（１－８．変形例）
図１０～図１２を参照し、上記実施形態の変形例を説明する。変形例では、サーバ２０が音声生成処理（Ｓ２００）を行う点が上記実施形態と異なる。以下、相違点を中心に説明する。

【0076】

図１０に示すように、変形例における端末装置１０の制御部２００は、操作受付部２０１と、送受信部２０２と、表示制御部２０３と、音声受付部２０４と、音声出力部２０８を備える。

【0077】

図１１に示すように、変形例におけるサーバ２０の制御部２３０は、送受信モジュール２３１に加えて、位置割当モジュール２３２と、関数選択モジュール２３３と、音声生成モジュール２３４を備える。

【0078】

位置割当モジュール２３２は、上記実施形態における位置割当部２０５と同様の処理を行う。関数選択モジュール２３３は、上記実施形態における関数選択部２０６と同様の処理を行う。音声生成モジュール２３４は、上記実施形態における音声生成部２０７と同様の処理を行う。このように、変形例においては、上記実施形態における端末装置１０が行っていた処理の一部を、サーバ２０が行う仕様となっている。

【0079】

図１２を参照して、変形例における処理の流れを説明する。図１２に示すように、変形例では、ステップＳ１２１～ステップＳ１２４においてサーバ２０が音声情報を受信した後に、サーバ２０が音声生成処理（Ｓ２００）を実行する。音声生成処理（Ｓ２００）の処理の内容は上記実施形態と同様であるため説明は繰り返さない。

【0080】

音声生成処理（Ｓ２００）が実行されると、ステップＳ１２４において、サーバ２０の送受信モジュール２３１は、生成された音声を端末装置１０Ａ～１０Ｃへ送信する。ステップＳ１１３において、端末装置１０Ａの送受信部２０２は、生成された音声を受信する。ステップＳ１３３において、端末装置１０Ｂの送受信部２０２は、生成された音声を受信する。ステップＳ１４３において、端末装置１０Ｃの送受信部２０２は、生成された音声を受信する。

【0081】

ステップＳ１１４において、端末装置１０Ａの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１３４において、端末装置１０Ｂの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。ステップＳ１４４において、端末装置１０Ｃの音声出力部２０８は、生成された音声をスピーカ１７２から出力する。

【0082】

このように、変形例として、サーバ２０において音声生成処理（Ｓ２００）を行う仕様としてもよく、この場合においても上記実施形態と同様の効果を得ることができる。

【0083】

＜２．第２実施形態＞
図１３～図１５を参照し、本開示の第２実施形態におけるシステム１を説明する。第２実施形態では、端末装置１０は話者に対応付けられた位置情報を取得する点が第１実施形態と異なる。以下、上記実施形態との相違点を中心に説明する。

【0084】

（２－１．端末装置１０の機能構成）
図１３は、第２実施形態における端末装置１０の機能構成の例を示すブロック図である。図１３に示すように、端末装置１０の制御部２００は、第１実施形態の構成に加えて、コンテンツ提供部２０９をさらに備える。

【0085】

コンテンツ提供部２０９は、一例として、ゲームなどのコンテンツを提供する。より具体的には、記憶部１８０に記憶されているプログラムおよびデータを用いて、複数のユーザがそれぞれの端末装置１０で音声での同期コミュニケーションを行いながらプレイ可能なオンラインゲームを提供する。

【0086】

コンテンツ提供部２０９が提供するゲームでは、仮想空間内をユーザに対応したアバターが行動することによりゲームが進行する。アバターとは、ユーザの分身としての役割を備える仮想のキャラクタを意味する。ユーザは、仮想空間内でアバターを操作することにより、ゲームにおいて求められているミッション（またはクエスト）を攻略したり、他のユーザに対応したアバターを介して、他のユーザとコミュニケーションをとったりすることが可能となっている。

【0087】

コンテンツ提供部２０９は、音声受付部２０４がユーザの音声を受け付けたタイミングで、当該ユーザに対応づけられたアバターと他のアバターの位置情報を位置割当部２０５に与える。

【0088】

位置割当部２０５は、一例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報を、ユーザの位置情報として割り当てる。また、位置割当部２０５は、他の例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報を割り当てる。位置割当部２０５の処理の詳細は後述する。

【0089】

（２－２．処理の流れ）
図１４を参照し、第２実施形態における音声生成処理（ステップＳ２００）の流れを説明する。なお、第１実施形態と同様の処理については説明を繰り返さない。

【0090】

第２実施形態における音声生成処理（ステップＳ２００）では、ステップＳ２０５～ステップＳ２３０が実行される。ステップＳ２０５において、位置割当部２０５は、コンテンツ提供部２０９からアバターの仮想空間での位置情報を取得する。

【0091】

図１５Ａは、端末装置１０のコンテンツ提供部２０９が提供するゲームにおける仮想空間Ｗを示す図である。位置割当部２０５は、ユーザＵ１に対応するアバターＡ１の仮想空間Ｗにおける位置（Ｘ１，Ｙ１，Ｚ１）と、ユーザＵ２に対応するアバターＡ２の仮想空間Ｗにおける位置（Ｘ２，Ｙ２，Ｚ２）と、ユーザＵ３に対応するアバターＡ３の仮想空間Ｗにおける位置（Ｘ３，Ｙ３，Ｚ３）を取得する。

【0092】

ステップＳ２１０において、位置割当部２０５は、一例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報を、ユーザの位置情報として割り当てる。すなわち、アバターＡ１の位置（Ｘ１，Ｙ１，Ｚ１）をユーザＵ１の位置情報として割り当て、アバターＡ２の位置（Ｘ２，Ｙ２，Ｚ２）をユーザＵ１の位置情報として割り当て、アバターＡ３の位置（Ｘ３，Ｙ３，Ｚ３）をユーザＵ３の位置情報として割り当てる。ステップＳ２２０において、関数選択部２０６は、当該割り当てられた位置情報に基づいて、頭部伝達関数を選択する。

【0093】

このような構成とすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、仮想空間内のアバター同士の相対位置に応じて他のユーザが発した音声が聞こえてくることとなり、ゲームプレイにおける臨場感を向上させることができる。なお、この場合において、端末装置１０の音声出力部２０８は、音声を出力させる際に、仮想空間における前記アバター同士の距離に応じて、出力される音声の大きさを調整する仕様としてもよい。このようにすることで、アバター同士の方向だけでなく距離感も反映した音声を出力することができ、ゲームプレイにおける臨場感を一層向上させることができる。

【0094】

または、位置割当部２０５は、他の例として、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報をユーザに割り当ててもよい。例えば、図１５Ｂに示すように、仮想のテーブルＴ２を挟むようにユーザＵ１～Ｕ３が配置されており、所定の原点Оを基準として位置（ｘ１，ｙ１，ｚ１）をユーザＵ１の位置情報として割り当て、位置（ｘ２，ｙ２，ｚ２）をユーザＵ２の位置情報として割り当て、位置（ｘ３，ｙ３，ｚ３）をユーザＵ３の位置情報として割り当ててもよい。ステップＳ２２０において、関数選択部２０６は、当該割り当てられた位置情報に基づいて、頭部伝達関数を選択する。

【0095】

このような構成とすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、ユーザの位置情報が仮想空間内におけるアバターの位置とは無関係に設定され、当該設定されたユーザの位置情報に応じた音声を聴き取ることができる。すなわち、特定のユーザとの相対位置を常に固定することが可能となり、どのユーザが発言しているかを容易に識別することが可能となる。

【0096】

（２－３．小括）
このようにして、第２実施形態では、端末装置１０はコンテンツ提供部２０９を備え、コンテンツ提供部２０９は、提供するゲーム等のコンテンツにおけるアバターの仮想空間内での位置情報を位置割当部２０５に与える。位置割当部２０５は、一例として、コンテンツ提供部２０９からネットワークを介して取得したアバターの仮想空間での位置情報（すなわち、話者であるユーザに対応づけられた位置情報）を、ユーザの位置情報として割り当てる。このようにすることで、複数のユーザでゲームをプレイしながらボイスチャットでコミュニケーションをとる場合において、仮想空間内のアバター同士の相対位置に応じて他のユーザが発した音声が聞こえてくることとなり、ゲームプレイにおける臨場感を向上させることができる。

【0097】

なお、本実施形態において、コンテンツ提供部２０９は、当該コンテンツにおいて同期をとるためのタイムスロット情報を管理しており、音声受付部２０４がユーザの音声を受け付けたタイミングで、当該タイムスロット情報を音声受付部２０４に与える仕様としてもよい。この場合、送受信部２０２は、当該タイムスロット情報を、音声データと対応づけてデータグラム内に格納してサーバ２０へ送信してもよい。

【0098】

また、他の例として、位置割当部２０５は、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報とは異なる位置情報をユーザに割り当てる。このようにすることで、特定のユーザとの相対位置を常に固定することが可能となり、どのユーザが発言しているかを容易に識別することが可能となる。

【0099】

なお、位置割当部２０５が、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報をユーザの位置情報として割り当てるか否かは、ユーザが適宜設定可能な仕様としてもよい。また、位置割当部２０５が、コンテンツ提供部２０９から取得したアバターの仮想空間での位置情報と異なる位置情報をユーザに割り当てる場合には、他のユーザとの相対位置をユーザが適宜設定可能な仕様としてもよい。

【0100】

＜３他の実施形態＞
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。

【0101】

例えば、上記実施形態では、頭部伝達関数は鉛直角θと水平角φを変数として保持していたが、この仕様に限定されることはない。例えば、音源と聴取者の距離をさらに変数として保持する仕様としてもよい。または、極座標以外の座標系（例えば直交座標）における変数を保持してもよい。

【0102】

また、上記実施形態では、ボイスチャットを想定しているため、話者と聴取者が同じとなっているが、この態様に限定されることはなく、話者と聴取者が異なってもよい。一例として、ポッドキャストのようなインターネットを利用した音声配信において、複数の話者が参加する場合に、本開示の技術的思想を適用してもよい。この場合、位置割当部２０５は、複数の話者それぞれに位置情報を割り当てて、関数選択部２０６は、所定の場所（例えば座標系における原点）に聴取者がいるとして頭部伝達関数を選択する仕様としてもよい。また、ｅスポーツ（Electronic Sports）の観戦などにおいて、観客が話者であり、プレイヤーが聴取者である仕様も想定される。この場合、話者としての位置を観客としてのユーザが適宜設定可能な仕様とすることで、プレイヤーに対して声援が届く位置で観戦するか否かを観客としてのユーザが選択可能な仕様としてもよい。

【0103】

また、上記実施形態では、話者としてのユーザが存在する音声での同期コミュニケーションを想定しているが、この態様に限定されることはない。例えば、話者として対応するユーザが存在しない仮想のキャラクタが複数存在し、当該キャラクタが発する音声は、コンピュータが合成した音声であってもよい。この場合、複数のキャラクタの位置情報の設定をユーザから受け付ける仕様としてもよい。また、キャラクタが発する音声の生成にあたっては、規則合成、波形接続型音声合成、統計的パラメトリック音声合成といった周知の音声合成技術を利用してもよい。

【0104】

また上記実施形態では、位置割当部２０５は、受信した音声に対応づけられたユーザに対して、仮想の位置情報を割り当てているが、この仕様に限定されることはない。例えば、オンラインでのビデオミーティングなどの動画を伴う同期コミュニケーションにおいて、当該動画に映るユーザ同士の位置情報を割り当てる仕様としてもよい。または、位置割当部２０５は、ボイスチャットを行うにあたり予めユーザが設定した位置情報を割り当てる仕様としてもよい。

【0105】

また上記実施形態において、音声データと合わせて、アバターの口の動きを再現するためのリップシンク情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、口の動きに関するリップシンク情報を生成する。具体的には、リップシンク情報には、入力音声に対する口形の幅や高さに関する情報、および／または入力音声に含まれる各音素の割合に関する情報が含まれ得る。また、音声データと合わせて、音声に対応する字幕情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、字幕情報を生成する。音声データの解析に基づくリップシンク情報の生成、または字幕情報の生成については、周知の技術を用いて行うことができる。サーバ２０は、受信したリップシンク情報または字幕情報を端末装置１０へ送信し、端末装置１０において、音声データの出力に合わせてアバターの口の動きが再現され、または字幕が表示される。

【0106】

また、上記実施形態では、頭部伝達関数についての情報は、端末装置１０の記憶部１８０に保持されているが、この仕様に限定されることはない。例えば、サーバ２０の記憶部２２０に保持されていてもよいし、外付けのハードディスクなどに保持させておき、必要に応じて参照する仕様としてもよい。

【0107】

また、通信回線を介した所定情報の共有は、主にインターネットなどのＷＡＮを介して行われるが、情報処理装置間では、ＷＡＮを介さずにＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離の無線通信、及び赤外線通信等のみを介して行われてもよい。

【0108】

また、上記実施形態では、各機能を端末装置１０またはサーバ２０が備える態様の一例について説明したが、この形態に限定されることはなく、一部または全部の機能について上記実施形態と異なる態様で端末装置１０、サーバ２０、又は端末装置１０とサーバ２０の両方が備える構成としてもよい。

【0109】

また、上記実施形態において端末装置１０に実行させるものとして記載されていた各ステップをサーバ２０に実行させてもよく、サーバ２０に実行させるものとして記載されていた各ステップを端末装置１０に実行させてもよい。

【0110】

さらに、本発明は、上述した端末装置１０またはサーバ２０が備える機能を情報処理装置に実行させるプログラムとして実現してもよいし、当該プログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として実現してもよい。

【0111】

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。
（付記１）
プロセッサを備えるコンピュータに、所定の処理を実行させるプログラムであって、前記プロセッサに、複数の話者それぞれが発した音声を受け付けるステップと、前記音声の話者それぞれに位置情報を割り当てるステップと、前記音声に、割り当てられた前記位置情報に基づいた頭部伝達関数を適用した音声を生成するステップと、生成された音声を聴取者に対して出力するステップと、を実行させる、プログラム。
（付記２）
前記位置情報を割り当てるステップでは、前記複数の話者それぞれに仮想の位置に関する位置情報を割り当てる、付記１に記載のプログラム。
（付記３）
前記位置情報を割り当てるステップでは、ネットワークを介して取得した話者に対応づけられた位置情報を割り当てる、付記１に記載のプログラム。
（付記４）
前記位置情報を割り当てるステップでは、前記話者に対応づけられたアバターの仮想空間における位置情報とは異なる位置情報を割り当てる、付記１に記載のプログラム。
（付記５）
前記出力するステップでは、仮想空間における前記話者に対応づけられたアバター同士の距離に応じて、出力される音声の大きさを調整する、付記２に記載のプログラム。
（付記６）
前記複数の話者は、対応するユーザが存在しない仮想のキャラクタであり、前記音声は前記コンピュータが合成した音声である、付記１に記載のプログラム。
（付記７）
前記キャラクタの位置情報の設定を、ユーザから受け付けるステップを実行させる、付記６に記載のプログラム。

【0112】

以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。

【符号の説明】

【0113】

１：システム、１０：端末装置、１３：入力装置、１４：出力装置、１５：メモリ、１６：ストレージ、１９：プロセッサ、２０：サーバ、２５：メモリ、２６：ストレージ、２９：プロセッサ、３０：ネットワーク、１３１：キーボード、１３２：マウス、１４１：ディスプレイ、１５０：通信部、１７０：音声処理部、１７１：マイク、１７２：スピーカ、１８０：記憶部、１８１：頭部伝達関数データベース、２００：制御部、２０１：操作受付部、２０２：送受信部、２０３：表示制御部、２０４：音声受付部、２０５：位置割当部、２０６：関数選択部、２０７：音声生成部、２０８：音声出力部、２０９：コンテンツ提供部、２１０：通信部、２２０：記憶部、２３０：制御部、２３１：送受信モジュール、２３２：位置割当モジュール、２３３：関数選択モジュール、２３４：音声生成モジュール。

【図1】