(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-12
(45)【発行日】2024-04-22
(54)【発明の名称】オンライン通話管理装置及びオンライン通話管理プログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20240415BHJP
G10K 15/00 20060101ALI20240415BHJP
G10K 15/02 20060101ALI20240415BHJP
G10K 15/12 20060101ALI20240415BHJP
H04M 3/56 20060101ALI20240415BHJP
【FI】
H04S7/00 320
G10K15/00 L
G10K15/02
G10K15/12
H04M3/56 Z
(21)【出願番号】P 2021151457
(22)【出願日】2021-09-16
【審査請求日】2023-03-15
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】江波戸 明彦
(72)【発明者】
【氏名】西村 修
(72)【発明者】
【氏名】蛭間 貴博
(72)【発明者】
【氏名】穂坂 倫佳
(72)【発明者】
【氏名】後藤 達彦
【審査官】中嶋 樹理
(56)【参考文献】
【文献】特開2006-279492(JP,A)
【文献】米国特許第5757927(US,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
G10K 15/00
G10K 15/02
G10K 15/12
H04M 3/56
(57)【特許請求の範囲】
【請求項1】
再生機器を介して音像を再生する少なくとも1つの端末から前記再生機器の音響の再生環境に係る情報である再生環境情報をネットワーク経由で取得する第1の取得部と、
前記端末のユーザに対する前記音像の定位方向の情報である方位情報を取得する第2の取得部と、
前記再生環境情報と前記方位情報とに基づいて前記端末毎の音像の再生のための制御をする制御部と、
を具備するオンライン通話管理装置。
【請求項2】
前記制御部は、
前記端末において前記再生環境情報と前記方位情報とに基づく音像フィルタ係数が畳み込まれた音像信号を前記端末から受信し、
受信した音像信号をそれぞれの端末向けの音像信号に分離し、
同一の端末向けの音像信号を重ね合わせ、
重ね合わせた前記音像信号を対応する端末に送信する、
請求項1に記載のオンライン通話管理装置。
【請求項3】
前記制御部は、
前記再生環境情報と前記方位情報とに基づいて前記端末毎の前記音像の再生のための音像フィルタ係数を決定し、
前記端末から送信された音声信号から、決定した前記端末毎の音像フィルタ係数に基づいて前記端末毎の音像信号を生成し、
生成した前記端末毎の音像信号を対応する端末に送信する、
請求項1に記載のオンライン通話管理装置。
【請求項4】
前記端末は複数であり、
複数の前記端末のうちの1つはホストの端末に設定され、
前記第1の取得部は、それぞれの前記端末についての前記再生環境情報をそれぞれの前記端末から取得し、
前記第2の取得部は、それぞれの前記端末についての前記方位情報を前記ホストの端末から一括して取得する、
請求項
1に記載のオンライン通話管理装置。
【請求項5】
前記第1の取得部は、それぞれの前記端末に前記再生環境情報を入力させるための第1の入力画面を表示させ、前記第1の入力画面における入力に応じてそれぞれの前記端末からそれぞれの前記端末についての前記再生環境情報を取得し、
前記第2の取得部は、前記ホストの端末にさらにそれぞれの前記端末についての前記方位情報を入力させるための第2の入力画面を表示させ、前記第2の入力画面における入力に応じて前記ホストの端末からそれぞれの前記端末についての前記方位情報を取得する、
請求項4に記載のオンライン通話管理装置。
【請求項6】
前記端末は複数であり、
前記第1の取得部は、それぞれの前記端末についての前記再生環境情報をそれぞれの前記端末から取得し、
前記第2の取得部は、それぞれの前記端末についての前記方位情報をそれぞれの前記端末から取得する、
請求項1に記載のオンライン通話管理装置。
【請求項7】
前記第1の取得部は、それぞれの前記端末に前記再生環境情報を入力させるための第1の入力画面を表示させ、前記第1の入力画面における入力に応じてそれぞれの前記端末からそれぞれの前記端末についての前記再生環境情報を取得し、
前記第2の取得部は、それぞれの前記端末にさらにそれぞれの前記端末についての前記方位情報を入力させるための第2の入力画面を表示させ、前記第2の入力画面における入力に応じてそれぞれの前記端末からそれぞれの前記端末についての前記方位情報を取得する、
請求項6に記載のオンライン通話管理装置。
【請求項8】
前記第1の入力画面は、前記再生機器のリストを含む、請求項5又は7に記載のオンライン通話管理装置。
【請求項9】
前記第2の入力画面は、前記音像としてそれぞれのユーザから発話される音声を定位させる方位を入力する入力欄を含む、請求項5又は7に記載のオンライン通話管理装置。
【請求項10】
前記第2の入力画面は、会議室を模した配置図におけるそれぞれの席にマーカを配置することで前記音像としてそれぞれのユーザから発話される音声を定位させる方位を入力する入力画面を含む、請求項5又は7に記載のオンライン通話管理装置。
【請求項11】
前記第2の入力画面は、前記マーカをドラッグすることによって前記席にマーカを配置するように構成されている、請求項10に記載のオンライン通話管理装置。
【請求項12】
前記第2の入力画面は、前記端末のユーザの位置を中心とした円周上に他のユーザの位置を指定することで前記音像としてそれぞれのユーザから発話される音声を定位させる方位を入力する入力画面を含む、請求項5又は7に記載のオンライン通話管理装置。
【請求項13】
前記端末のユーザの前記音像の活用に関わる情報である活用情報を取得する第3の取得部をさらに具備し、
前記制御部は、前記活用情報にさらに基づいて前記端末毎の音像の再生のための制御をする請求項1乃至12の何れか1項に記載のオンライン通話管理装置。
【請求項14】
前記第3の取得部は、それぞれの前記端末に前記活用情報を入力させるための第3の入力画面を表示させ、前記第3の入力画面における入力に応じてそれぞれの前記端末からそれぞれの前記端末についての前記活用情報を取得する請求項13に記載のオンライン通話管理装置。
【請求項15】
前記活用情報は、それぞれのユーザに割り当てられる属性の情報を含み、
前記制御部は、前記属性の情報にさらに応じて前記端末毎の音像の再生のための制御をする請求項14に記載のオンライン通話管理装置。
【請求項16】
前記活用情報は、前記端末のユーザ毎のグループの設定を含み、
前記制御部は、前記グループの設定にさらに応じて前記端末毎の音像の再生のための制御をする請求項14又は15に記載のオンライン通話管理装置。
【請求項17】
前記第3の入力画面は、前記活用情報に基づく前記音像の再生の設定を受け付けるための第1の入力部と、前記活用情報に基づく前記音像の再生の開始の指示を受け付けるための第2の入力部と、前記活用情報に基づく前記音像の再生の一時停止又は再開の指示を受け付けるための第3の入力部と、前記活用情報に基づく前記音像の再生の停止の指示を受け付けるための第4の入力部とを含む請求項14乃至16の何れか1項に記載のオンライン通話管理装置。
【請求項18】
前記活用情報は、前記音像の利用が想定される仮想的な環境の情報を含み、
前記制御部は、前記仮想的な環境の情報に応じた残響を前記端末毎の音像に付加する請求項13乃至17の何れか1項に記載のオンライン通話管理装置。
【請求項19】
前記制御部は、前記仮想的な環境に対応した実際の環境において予め計測された残響のテーブルデータに基づいて前記残響を前記端末毎の音像に付加する請求項18に記載のオンライン通話管理装置。
【請求項20】
前記活用情報は、前記音像が再生される仮想的な音源と前記端末のユーザとの距離の情報を含み、
前記制御部は、前記距離に応じたレベル減衰を前記端末毎の音像に付加する請求項13乃至19の何れか1項に記載のオンライン通話管理装置。
【請求項21】
前記制御部は、無響室において予め測定されたレベル減衰のテーブルデータに基づいて前記レベル減衰を前記端末毎の音像に付加する請求項20に記載のオンライン通話管理装置。
【請求項22】
再生機器を介して音像を再生する少なくとも1つの端末からネットワーク経由で、前記再生機器の音響の再生環境に係る情報である再生環境情報を取得することと、
前記端末のユーザに対する前記音像の定位方向の情報である方位情報を取得することと、
前記再生環境情報と前記方位情報とに基づいて前記端末毎の音像の再生のための制御をすることと、
をコンピュータに実行させるためのオンライン通話管理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、オンライン通話管理装置及びオンライン通話管理プログラムに関する。
【背景技術】
【0002】
ユーザの前方に配置された2チャンネルのスピーカ、ユーザの耳部に装着されたイヤホン、ユーザの頭部に装着されたヘッドホン等の各種の音響の再生環境の異なる再生機器を利用してユーザの頭部の周囲の空間に音像を定位させる音像定位技術が知られている。音像定位技術により、本来の再生機器がある方向とは異なる方向から音が聞こえているかのようにユーザに錯覚させることができる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、音像定位技術をオンライン通話に利用しようとする試みがなされている。例えば、オンライン会議の場においては、複数の発話者の音声が集中してしまって聞き分けることが困難な場合がある。これに対し、ユーザの頭部の周囲の空間の異なる方向にそれぞれの発話者の音像を定位させることで、ユーザは、それぞれの発話者の音声を聞き分けることができる。
【0005】
ここで、それぞれのユーザの頭部の周囲の空間に音像を定位させるためには、それぞれのユーザの再生機器の音響の再生環境の情報が既知である必要がある。ユーザ毎の音声再生機器の音響の再生環境が異なる場合、あるユーザに対しては適切に音像が定位され、別のユーザに対しては適切に音像が定位されないといったことが起こり得る。
【0006】
実施形態は、オンライン通話の場においてユーザ毎の音声再生機器の音響の再生環境が異なる場合であっても、ユーザ毎に適切に定位された音像が再生されるオンライン通話管理装置及びオンライン通話管理プログラムを提供する。
【課題を解決するための手段】
【0007】
実施形態のオンライン通話管理装置は、第1の取得部と、第2の取得部と、制御部とを有する。第1の取得部は、再生機器を介して音像を再生する少なくとも1つの端末から再生機器の音響の再生環境に係る情報である再生環境情報をネットワーク経由で取得する。第2の取得部は、端末のユーザに対する音像の定位方向の情報である方位情報を取得する。制御部は、再生環境情報と方位情報とに基づいて端末毎の音像の再生のための制御をする。
【図面の簡単な説明】
【0008】
【
図1】
図1は、第1の実施形態に係るオンライン通話管理装置を備えたオンライン通話システムの一例の構成を示す図である。
【
図3】
図3は、ホストの端末のオンライン通話時の一例の動作を示すフローチャートである。
【
図4】
図4は、ゲストの端末のオンライン通話時の一例の動作を示すフローチャートである。
【
図5】
図5は、再生環境情報及び方位情報の入力画面の一例を示す図である。
【
図6】
図6は、再生環境情報の入力画面の一例を示す図である。
【
図7A】
図7Aは、複数のユーザの音声が集中して聴こえてしまっている状態の模式図である。
【
図7B】
図7Bは、正しく音像定位がされている状態の模式図である。
【
図8】
図8は、第2の実施形態に係るオンライン通話管理装置を備えたオンライン通話システムの一例の構成を示す図である。
【
図9】
図9は、サーバの一例の構成を示す図である。
【
図10】
図10は、サーバのオンライン通話時の第1の例の動作を示すフローチャートである。
【
図11】
図11は、サーバのオンライン通話時の第2の例の動作を示すフローチャートである。
【
図12】
図12は、方位情報の入力画面の別の例を示す図である。
【
図13】
図13は、方位情報の入力画面の別の例を示す図である。
【
図15】
図15は、方位情報の入力画面の別の例を示す図である。
【
図16】
図16は、方位情報の入力画面の別の例を示す図である。
【
図17】
図17は、方位情報の入力画面の別の例を示す図である。
【
図18】
図18は、第2の実施形態の変形例2において、オンライン講演の際にそれぞれの端末に表示される表示画面の例である。
【
図19】
図19は、発表者補助ボタンが選択された場合に端末に表示される画面の一例を示す図である。
【
図20】
図20は、聴講者間議論ボタンが選択された場合に端末に表示される画面の一例を示す図である。
【
図21】
図21は、第3の実施形態におけるサーバの一例の構成を示す図である。
【
図22A】
図22Aは、残響データに関わる活用情報を入力するための画面の例である。
【
図22B】
図22Bは、残響データに関わる活用情報を入力するための画面の例である。
【
図22C】
図22Cは、残響データに関わる活用情報を入力するための画面の例である。
【
図22D】
図22Dは、残響データに関わる活用情報を入力するための画面の例である。
【発明を実施するための形態】
【0009】
以下、図面を参照して実施形態について説明する。
[第1の実施形態]
図1は、第1の実施形態に係るオンライン通話管理装置を備えたオンライン通話システムの一例の構成を示す図である。
図1に示すオンライン通話システムでは、複数の端末、
図1では4台の端末HT、GT1、GT2、GT3が互いにネットワークNWを介して通信できるように接続され、それぞれの端末のユーザHU、GU1、GU2、GU3は、端末HT、GT1、GT2、GT3を介して通話を実施する。第1の実施形態では、端末HTがオンライン通話を主催するホストのユーザHUが操作するホストの端末であり、端末GT1、GT2、GT3はオンライン通話にゲストとして参加するゲストのユーザGU1、GU2、GU3がそれぞれ操作するゲストの端末である。端末HTは、自身を含む各端末HT、GT1、GT2、GT3を用いた通話の際のそれぞれのユーザHU、GU1、GU2、GU3の頭部の周囲の空間に音像を定位させるための制御を一括して行う。ここで、
図1では、端末の数は4台であるが、これに限定されない。端末の数は、2台以上であればよい。端末が2台の場合、それらの2台の端末は、オンライン通話に用いられ得る。または、端末が2台の場合、1つの端末は音声の再生をせずに、他の1つの端末のユーザの頭部の周囲の空間に音像を定位させるための制御をするために用いられ得る。
【0010】
図2は、
図1で示した端末の一例の構成を示す図である。以下では、端末HT、GT1、GT2、GT3は、基本的には同様の要素を有しているものとして説明がされる。
図2に示すように、端末は、プロセッサ1と、メモリ2と、ストレージ3と、音声再生機器4と、音声検出機器5と、表示装置6と、入力装置7と、通信装置8とを有している。端末は、例えばパーソナルコンピュータ(PC)、タブレット端末、スマートフォン等の通信できる各種の端末が想定される。なお、それぞれの端末は、必ずしも
図2で示した要素と同一の要素を有している必要はない。それぞれの端末は、
図2で示した一部の要素を有していなくてもよいし、
図2で示した以外の要素を有していてもよい。
【0011】
プロセッサ1は、端末の全体的な動作を制御するプロセッサである。例えばホストの端末HTのプロセッサ1は、例えばストレージ3に記憶されているプログラムを実行することによって、第1の取得部11と、第2の取得部12と、制御部13として動作する。第1の実施形態では、ゲストの端末GT1、GT2、GT3のプロセッサ1は、必ずしも第1の取得部11と、第2の取得部12と、制御部13として動作できる必要はない。プロセッサ1は、例えばCPUである。プロセッサ1は、MPU、GPU、ASIC、FPGA等であってもよい。プロセッサ1は、単一のCPU等であってもよいし、複数のCPU等であってもよい。
【0012】
第1の取得部11は、オンライン通話に参加している端末HT、GT1、GT2、GT3のそれぞれにおいて入力された再生環境情報を取得する。再生環境情報は、端末HT、GT1、GT2、GT3のそれぞれで使用される音声再生機器4の音響の再生環境に係る情報である。音響の再生環境に係る情報は、音声再生機器4として何が使用されるかを示す情報を含む。音声再生機器4として何が使用されるかを示す情報は、音声再生機器4として例えばステレオスピーカ、ヘッドホン、イヤホンの何れが使用されるかを示す情報である。また、音声再生機器4としてステレオスピーカが使用される場合、音響の再生環境に係る情報は、さらに例えば左右のスピーカの間隔を示す情報を含む。
【0013】
第2の取得部12は、オンライン通話に参加している端末HTにおいて入力された方位情報を取得する。方位情報は、端末HTのユーザHUを含むそれぞれの端末のユーザに対する音像の定位方向の情報である。
【0014】
制御部13は、再生環境情報及び方位情報に基づいて端末HTを含むそれぞれの端末における音像の再生のための制御をする。例えば、制御部13は、再生環境情報及び方位情報に基づいて、それぞれの端末に適した音像フィルタ係数を生成し、生成した音像フィルタ係数をそれぞれの端末に送信する。音像フィルタ係数は、音声再生機器4に入力される左右の音声信号に畳み込まれる係数であり、例えば、音声再生機器4とユーザの頭部(両耳)との間の音声の伝達特性である頭部伝達関数Cと、方位情報に応じて特定される仮想音源とユーザの頭部(両耳)との間の音声の伝達特性である頭部伝達関数dとに基づいて生成される。例えば、ストレージ3には、再生環境情報毎の頭部伝達関数Cのテーブル及び方位情報毎の頭部伝達関数dのテーブルが記憶されている。制御部13は、第1の取得部11で取得されたそれぞれの端末の再生環境情報及び第2の取得部12で取得されたそれぞれの端末の方位情報に応じて頭部伝達関数C及び頭部伝達関数dを取得し、端末毎の音像フィルタ係数を生成する。
【0015】
メモリ2は、ROM及びRAMを含む。ROMは、不揮発性のメモリである。ROMは、端末の起動プログラム等を記憶している。RAMは、揮発性のメモリである。RAMは、例えばプロセッサ1における処理の際の作業メモリとして用いられる。
【0016】
ストレージ3は、例えばハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ3は、オンライン通話管理プログラム31等のプロセッサ1によって実行される各種のプログラムを記憶している。オンライン通話管理プログラム31は、例えば所定のダウンロードサーバからダウンロードされるアプリケーションプログラムであり、オンライン通話システムにおけるオンライン通話に関わる各種の処理を実行するためのプログラムである。ここで、ゲストの端末GT1、GT2、GT3のストレージ3は、オンライン通話管理プログラム31を記憶していなくてもよい。
【0017】
音声再生機器4は、音声を再生する機器である。実施形態における音声再生機器4は、ステレオ音声を再生できる機器であって、例えばステレオスピーカ、ヘッドホン、イヤホンを含み得る。音声信号に前述の音像フィルタ係数が畳み込まれた音声信号である音像信号が音声再生機器4によって再生されることにより、ユーザの頭部の周囲の空間に音像が定位される。実施形態では、それぞれの端末の音声再生機器4は、同一であってもよいし、異なっていてもよい。また、音声再生機器4は、端末に内蔵されている機器であってもよいし、端末と通信できる外部の機器であってもよい。
【0018】
音声検出機器5は、端末を操作するユーザの音声の入力を検出する。音声検出機器5は、例えばマイクロホンである。音声検出機器5のマイクロホンは、ステレオマイクロホンであってもよいし、モノラルマイクロホンであってもよい。また、音声検出機器5は、端末に内蔵されている機器であってもよいし、端末と通信できる外部の機器であってもよい。
【0019】
表示装置6は、液晶ディスプレイ、有機ELディスプレイ等の表示装置である。表示装置6には、後で説明する入力画面等の各種の画面が表示される。また、表示装置6は、端末に内蔵されている表示装置であってもよいし、端末と通信できる外部の表示装置であってもよい。
【0020】
入力装置7は、タッチパネル、キーボード、マウス等の入力装置である。入力装置7の操作がされた場合、操作内容に応じた信号がプロセッサ1に入力される。プロセッサ1は、この信号に応じて各種の処理を行う。
【0021】
通信装置8は、端末がネットワークNWを介して相互に通信するための通信装置である。通信装置8は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。
【0022】
次に、第1の実施形態におけるオンライン通話システムの動作を説明する。
図3は、ホストの端末HTのオンライン通話時の一例の動作を示すフローチャートである。
図4は、ゲストの端末GT1、GT2、GT3のオンライン通話時の一例の動作を示すフローチャートである。
図3の動作は、ホストの端末HTのプロセッサ1によって実行される。また、
図4の動作は、ゲストの端末GT1、GT2、GT3のプロセッサ1によって実行される。
【0023】
まず、端末HTの動作を説明する。ステップS1において、端末HTのプロセッサ1は、再生環境情報及び方位情報の入力画面を表示装置6に表示する。再生環境情報及び方位情報の入力画面を表示するためのデータは、例えば端末HTのストレージ3に予め記憶されていてよい。
図5は、端末HTの表示装置6に表示される再生環境情報及び方位情報の入力画面の一例を示す図である。
【0024】
図5に示すように、再生環境情報の入力画面は、音声再生機器4としての使用が想定される機器のリスト2601を含む。端末HTのユーザHUは、リスト2601から自身が用いる音声再生機器4を選択する。
【0025】
また、
図5に示すように、方位情報の入力画面は、ユーザHU自身を含むそれぞれのユーザの方位の入力欄2602を含む。
図5では、例えば「Aさん」がユーザHU、「Bさん」がユーザGU1、「Cさん」がユーザGU2、「Dさん」がユーザGU3である。なお、方位は、所定の基準方向、例えばそれぞれのユーザの正面方向を0度とした方位である。第1の実施形態では、ホストのユーザHUが他のユーザGU1、GU2、GU3の方位情報も入力する。ここで、ユーザHUは、0度から359度の範囲でそれぞれのユーザの方位情報を指定することができる。ただし、方位情報が重複してしまうと、複数のユーザの音像が同一の方向に定位されることになる。したがって、複数のユーザについて同一の方位が入力された場合に、プロセッサ1は、表示装置6にエラーメッセージ等を表示してもよい。
【0026】
ここで、
図5では、再生環境情報の入力画面と方位情報の入力画面は、1つの画面で構成されている。再生環境情報の入力画面と方位情報の入力画面は、別々の画面で構成されていてもよい。この場合、例えば最初に再生環境情報の入力画面が表示され、再生環境情報の入力が完了した後で、方位情報の入力画面が表示される。
【0027】
ステップS2において、プロセッサ1は、ユーザHUによる再生環境情報及び方位情報の入力又は他の端末GT1、GT2、GT3からの再生環境情報の受信があったか否かを判定する。ステップS2において、ユーザHUによる再生環境情報及び方位情報の入力又は他の端末GT1、GT2、GT3からの再生環境情報の受信があったと判定されたときには、処理はステップS3に移行する。ステップS2において、ユーザHUによる再生環境情報及び方位情報の入力及び他の端末GT1、GT2、GT3からの再生環境情報の受信がないと判定されたときには、処理はステップS4に移行する。
【0028】
ステップS3において、プロセッサ1は、入力又は受信された情報をメモリ2の例えばRAMに記憶する。
【0029】
ステップS4において、プロセッサ1は、情報の入力が完了したか否か、すなわちそれぞれの端末についての再生環境情報及び方位情報を例えばRAMに記憶し終えたか否かを判定する。ステップS4において、情報の入力が完了していないと判定されたときには、処理はステップS2に戻る。ステップS4において、情報の入力が完了したと判定されたときには、処理はステップS5に移行する。
【0030】
ステップS5において、プロセッサ1は、それぞれの端末についての再生環境情報及び方位情報に基づいて、それぞれの端末毎の、すなわちそれぞれの端末のユーザ向けの音像フィルタ係数を生成する。
【0031】
例えば、ユーザHU向けの音像フィルタ係数は、ユーザGU1によって入力された端末GT1の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数とを含む。
【0032】
また、ユーザGU1向けの音像フィルタ係数は、ユーザHUによって入力された端末HTの音声再生機器4の再生環境情報とユーザHUによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数とを含む。
【0033】
ユーザGU2向けの音像フィルタ係数及びユーザGU3向けの音像フィルタ係数も同様にして生成され得る。つまり、ユーザGU2向けの音像フィルタ係数は、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報を除く他の端末の再生環境情報と、ユーザHUによって指定されたユーザGU2の方位情報とに基づいて生成される。また、ユーザGU3向けの音像フィルタ係数は、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報を除く他の端末の再生環境情報と、ユーザHUによって指定されたユーザGU3の方位情報とに基づいて生成される。
【0034】
ステップS6において、プロセッサ1は、ユーザHU向けに生成した音像フィルタ係数を例えばストレージ3に記憶させる。また、プロセッサ1は、通信装置8を用いて、ユーザGU1、GU2、GU3向けに生成した音像フィルタ係数をそれぞれの端末に送信する。これにより、オンライン通話のための初期設定が完了する。
【0035】
ステップS7において、プロセッサ1は、音声検出機器5を介してユーザHUの音声の入力があるか否かを判定する。ステップS7において、ユーザHUの音声の入力があると判定されたときには、処理はステップS8に移行する。ステップS7において、ユーザHUの音声の入力がないと判定されたときには、処理はステップS10に移行する。
【0036】
ステップS8において、プロセッサ1は、音声検出機器5を介して入力されたユーザHUの音声に基づく音声信号に、ユーザHU向けの音像フィルタ係数を畳み込んで他のユーザ向けの音像信号を生成する。
【0037】
ステップS9において、プロセッサ1は、通信装置8を用いて、他のユーザ向けの音像信号を端末GT1、GT2、GT3に送信する。その後、処理はステップS13に移行する。
【0038】
ステップS10において、プロセッサ1は、通信装置8を介して他の端末からの音像信号の受信があるか否かを判定する。ステップS10において、他の端末からの音像信号の受信があると判定されたときには、処理はステップS11に移行する。ステップS10において、他の端末からの音像信号の受信がないと判定されたときには、処理はステップS13に移行する。
【0039】
ステップS11において、プロセッサ1は、受信した音像信号からユーザHU向けの音像信号を分離する。例えば、端末GT1から音像信号が受信された場合、プロセッサ1は、ユーザHUによって入力された端末HTの音声再生機器4の再生環境情報とユーザHUによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数が畳み込まれた音像信号を分離する。
【0040】
ステップS12において、プロセッサ1は、音声再生機器4により、音像信号を再生する。その後、処理はステップS13に移行する。
【0041】
ステップS13において、プロセッサ1は、オンライン通話を終了するか否かを判定する。例えば、ユーザHUの入力装置7の操作によってオンライン通話の終了が指示された場合には、オンライン通話を終了すると判定される。ステップS13において、オンライン通話を終了しないと判定された場合には、処理はステップS2に戻る。この場合、オンライン通話中に再生環境情報又は方位情報の変更があった場合には、プロセッサ1は、その変更を反映して音像フィルタ係数を再生成してオンライン通話を継続する。ステップS13において、オンライン通話を終了すると判定された場合には、プロセッサ1は、
図3の処理を終了させる。
【0042】
次に、端末GT1、GT2、GT3の動作を説明する。ここで、端末GT1、GT2、GT3の動作は同一であるので、以下では端末GT1の動作が代表して説明される。
【0043】
ステップS101において、端末GT1のプロセッサ1は、再生環境情報の入力画面を表示装置6に表示する。再生環境情報の入力画面を表示するためのデータは、端末GT1のストレージ3に予め記憶されていてもよい。
図6は、端末GT1、GT2、GT3の表示装置6に表示される再生環境情報の入力画面の一例を示す図である。
図6に示すように、再生環境情報の入力画面は、音声再生機器4としての使用が想定される機器のリスト2601を含む。つまり、端末HTの再生環境情報の入力画面と端末GT1、GT2、GT3の再生環境情報の入力画面とは同じでよい。ここで、端末GT1の再生環境情報の入力画面のデータは、端末HTのストレージ3に記憶されていてもよい。この場合、
図3のステップS1において、端末HTのプロセッサ1は、端末GT1、GT2、GT3の再生環境情報の入力画面のデータを端末GT1、GT2、GT3に送信する。この場合、再生環境情報の入力画面を表示するためのデータは、端末GT1、GT2、GT3のストレージ3に予め記憶されていなくてもよい。
【0044】
ステップS102において、プロセッサ1は、ユーザGU1による再生環境情報の入力があったか否かを判定する。ステップS102において、ユーザGU1による再生環境情報の入力があったと判定されたときには、処理はステップS103に移行する。ステップS102において、ユーザGU1による再生環境情報の入力がないと判定されたときには、処理はステップS104に移行する。
【0045】
ステップS103において、プロセッサ1は、通信装置8を用いて、入力された再生環境情報を端末HTに送信する。
【0046】
ステップS104において、プロセッサ1は、端末HTからユーザGU1向けの音像フィルタ係数を受信したか否かを判定する。ステップS104において、ユーザGU1向けの音像フィルタ係数を受信していないと判定されたときには、処理はステップS102に戻る。ステップS104において、ユーザGU1向けの音像フィルタ係数を受信したと判定されたときには、処理はステップS105に移行する。
【0047】
ステップS105において、プロセッサ1は、受信したユーザGU1向けの音像フィルタ係数を例えばストレージ3に記憶させる。
【0048】
ステップS106において、プロセッサ1は、音声検出機器5を介してユーザGU1の音声の入力があるか否かを判定する。ステップS106において、ユーザGU1の音声の入力があると判定されたときには、処理はステップS107に移行する。ステップS106において、ユーザGU1の音声の入力がないと判定されたときには、処理はステップS109に移行する。
【0049】
ステップS107において、プロセッサ1は、音声検出機器5を介して入力されたユーザGU1の音声に基づく音声信号に、ユーザGU1向けの音像フィルタ係数を畳み込んで他のユーザ向けの音像信号を生成する。
【0050】
ステップS108において、プロセッサ1は、通信装置8を用いて、他のユーザ向けの音像信号を端末HT、GT2、GT3に送信する。その後、処理はステップS112に移行する。
【0051】
ステップS109において、プロセッサ1は、通信装置8を介して他の端末からの音像信号の受信があるか否かを判定する。ステップS109において、他の端末からの音像信号の受信があると判定されたときには、処理はステップS110に移行する。ステップS109において、他の端末からの音像信号の受信がないと判定されたときには、処理はステップS112に移行する。
【0052】
ステップS110において、プロセッサ1は、受信した音像信号からユーザGU1向けの音像信号を分離する。例えば、端末HTから音像信号が受信された場合、プロセッサ1は、ユーザGU1によって入力された端末GT1の音声再生機器4の再生環境情報とユーザHUによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数が畳み込まれた音像信号を分離する。
【0053】
ステップS111において、プロセッサ1は、音声再生機器4により、音像信号を再生する。その後、処理はステップS112に移行する。
【0054】
ステップS112において、プロセッサ1は、オンライン通話を終了するか否かを判定する。例えば、ユーザGU1の入力装置7の操作によってオンライン通話の終了が指示された場合には、オンライン通話を終了すると判定される。ステップS112において、オンライン通話を終了しないと判定された場合には、処理はステップS102に戻る。この場合、オンライン通話中に再生環境情報の変更があった場合には、プロセッサ1は、その再生環境情報を端末HTに送信してオンライン通話を継続する。ステップS112において、オンライン通話を終了すると判定された場合には、プロセッサ1は、
図4の処理を終了させる。
【0055】
以上説明したように第1の実施形態では、再生環境情報及び方位情報に基づいて、ホストの端末HTにおいてそれぞれの端末のユーザ向けの音像フィルタ係数が生成される。これにより、それぞれの端末における音声再生機器4の再生環境に応じて他のユーザの音像が定位され得る。例えば、複数の端末の間のオンライン通話の際に、複数のユーザが同時に発話してしまった場合に、本来であれば
図7Aに示すように複数のユーザの音声VA、VB、VC、VDが集中して聴こえてしまう。これに対し、第1の実施形態では、ホストのユーザHUの指定によって複数のユーザの音声VA、VB、VC、VDがそれぞれのユーザの頭部の周囲における異なる方位に定位される。これにより、
図7Bに示すように複数のユーザの音声VA、VB、VC、VDが異なる方位から聴こえたかのようにユーザに錯覚させることができる。したがって、ユーザは、複数のユーザの音声VA、VB、VC、VDを聴き分けることができる。
【0056】
音像フィルタ係数の生成には再生環境情報及び方位情報が必要である。一方で、ホストの端末からはそれぞれのゲストの端末の音声再生機器の再生環境を直接的には確認することができない。これに対し、第1の実施形態では、ゲストの端末からホストの端末に再生環境情報を送信してもらい、それに基づいて、ホストの端末は、それぞれの端末毎の音像フィルタ係数を生成する。このように、第1の実施形態は、1つの端末で音像フィルタ係数を一括して管理するオンライン通話環境において特に好適である。
【0057】
ここで、実施形態では、ホストの端末は、再生環境情報及び方位情報を取得する毎に新たに音像フィルタ係数を生成している。これに対し、予め利用が想定される複数の音像フィルタ係数がホストの端末とゲストの端末とで共有されていて、ホストの端末は、再生環境情報及び方位情報を取得する毎にその予め共有されている音像フィルタ係数の中から必要な音像フィルタ係数を決定してもよい。そして、ホストの端末は、音像フィルタ係数をそれぞれのゲストの端末に送信する代わりに、決定した音像フィルタ係数を表すインデックスの情報だけをそれぞれのゲストの端末に送信してもよい。この場合、オンライン通話中に逐次に音像フィルタ係数が生成される必要はない。
【0058】
また、第1の実施形態では、オンライン通話中の音声以外の情報の送受信については特に言及されていない。第1の実施形態において、音声以外の例えば動画像の送受信が行われてもよい。
【0059】
また、第1の実施形態では、ホストの端末が音像フィルタ係数の生成をしている。これに対し、音像フィルタ係数の生成は、必ずしもホストの端末によって行われる必要はない。音像フィルタ係数の生成は、何れかのゲストの端末によって行われてもよいし、オンライン通話に参加する端末とは別の機器、例えばサーバ等で行われてもよい。この場合、ホストの端末は、それぞれのゲストの端末から取得した再生環境情報を含む、オンライン通話に参加するそれぞれの端末の再生環境情報及び方位情報をサーバ等に送信する。
【0060】
[第2の実施形態]
次に第2の実施形態を説明する。
図8は、第2の実施形態に係るオンライン通話管理装置を備えたオンライン通話システムの一例の構成を示す図である。
図8に示すオンライン通話システムでは、
図1と同様に複数の端末、
図8では4台の端末HT、GT1、GT2、GT3が互いにネットワークNWを介して通信できるように接続され、それぞれの端末のユーザHU、GU1、GU2、GU3は、端末HT、GT1、GT2、GT3を介して通話を実施する。第2の実施形態においても、端末HTがオンライン通話を主催するホストのユーザHUが操作するホストの端末であり、端末GT1、GT2、GT3はオンライン通話にゲストとして参加するゲストのユーザGU1、GU2、GU3がそれぞれ操作するゲストの端末である。
【0061】
第2の実施形態では、さらに、サーバSvが端末HT、GT1、GT2、GT3とネットワークNWを介して通信できるように接続されている。第2の実施形態では、サーバSvが、端末HT、GT1、GT2、GT3を用いた通話の際のそれぞれのユーザHU、GU1、GU2、GU3の頭部の周囲の空間に音像を定位させるための制御を一括して行う。ここで、
図8におけるサーバSvは、クラウドサーバとして構成されていてもよい。
【0062】
図8で示した第2の実施形態のオンライン通話システムは、例えばオンライン会議又はオンライン講演における適用が想定される。
【0063】
図9は、サーバSvの一例の構成を示す図である。なお、端末HT、GT1、GT2、GT3は、
図2で示した構成を有していてよい。したがって、端末HT、GT1、GT2、GT3の構成については説明が省略される。
図9に示すように、サーバSvは、プロセッサ101と、メモリ102と、ストレージ103と、通信装置104とを有している。なお、サーバSvは、必ずしも
図9で示した要素と同一の要素を有している必要はない。サーバSvは、
図9で示した一部の要素を有していなくてもよいし、
図9で示した以外の要素を有していてもよい。
【0064】
プロセッサ101は、サーバSvの全体的な動作を制御するプロセッサである。サーバSvのプロセッサ101は、例えばストレージ103に記憶されているプログラムを実行することによって、第1の取得部11と、第2の取得部12と、第3の取得部14と、制御部13として動作する。第2の実施形態では、ホストの端末HT、ゲストの端末GT1、GT2、GT3のプロセッサ1は、必ずしも第1の取得部11と、第2の取得部12と、第3の制御部14と、制御部13として動作できる必要はない。プロセッサ101は、例えばCPUである。プロセッサ101は、MPU、GPU、ASIC、FPGA等であってもよい。プロセッサ101は、単一のCPU等であってもよいし、複数のCPU等であってもよい。
【0065】
第1の取得部11及び第2の取得部12は、第1の実施形態と同様である。したがって、説明は省略される。また、制御部13は、第1の実施形態で説明したのと同様に再生環境情報及び方位情報に基づいて端末HTを含むそれぞれの端末における音像の再生のための制御をする。
【0066】
第3の取得部14は、オンライン通話に参加している端末HT、GT1、GT2、GT3のそれぞれにおける活用情報を取得する。活用情報は、端末HT、GT1、GT2、GT3のそれぞれで使用される音像の活用に関わる情報である。活用情報は、例えば、オンライン通話に参加するユーザに割り当てられる属性の情報を含む。また、活用情報は、オンライン通話に参加するユーザのグループ設定の情報を含む。活用情報は、その他の種々の音像の活用に関わる情報を含み得る。
【0067】
メモリ102は、ROM及びRAMを含む。ROMは、不揮発性のメモリである。ROMは、サーバSvの起動プログラム等を記憶している。RAMは、揮発性のメモリである。RAMは、例えばプロセッサ101における処理の際の作業メモリとして用いられる。
【0068】
ストレージ103は、例えばハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ103は、オンライン通話管理プログラム1031等のプロセッサ101によって実行される各種のプログラムを記憶している。オンライン通話管理プログラム1031は、オンライン通話システムにおけるオンライン通話に関わる各種の処理を実行するためのプログラムである。
【0069】
通信装置104は、サーバSvがネットワークNWを介してそれぞれの端末と通信するための通信装置である。通信装置104は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。
【0070】
次に、第2の実施形態におけるオンライン通話システムの動作を説明する。
図10は、サーバSvのオンライン通話時の第1の例の動作を示すフローチャートである。ホストの端末HT、ゲストの端末GT1、GT2、GT3の動作については、基本的には
図4で示した動作に準じている。
【0071】
ステップS201において、プロセッサ101は、再生環境情報及び方位情報の入力画面のデータをそれぞれの端末HT、GT1、GT2、GT3に送信する。つまり、第2の実施形態では、ホストの端末HTだけでなく、ゲストの端末GT1、GT2、GT3においても
図5で示した再生環境情報及び方位情報の入力画面が表示される。これにより、ゲストのユーザGU1、GU2、GU3も音像の定位方向を指定できる。なお、プロセッサ101は、さらに活用情報の入力画面のデータをそれぞれの端末HT、GT1、GT2、GT3に送信してもよい。
【0072】
ステップS202において、プロセッサ101は、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信があったか否かを判定する。ステップS202において、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信があったと判定されたときには、処理はステップS203に移行する。ステップS202において、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信がないと判定されたときには、処理はステップS207に移行する。
【0073】
ステップS203において、プロセッサ101は、受信された情報をメモリ102の例えばRAMに記憶する。
【0074】
ステップS204において、プロセッサ101は、情報の入力が完了したか否か、すなわちそれぞれの端末についての再生環境情報及び方位情報を例えばRAMに記憶し終えたか否かを判定する。ステップS204において、情報の入力が完了していないと判定されたときには、処理はステップS202に戻る。ステップS204において、情報の入力が完了したと判定されたときには、処理はステップS205に移行する。
【0075】
ステップS205において、プロセッサ101は、それぞれの端末についての再生環境情報及び方位情報に基づいて、それぞれの端末毎の、すなわちそれぞれの端末のユーザ向けの音像フィルタ係数を生成する。
【0076】
例えば、ユーザHU向けの音像フィルタ係数は、ユーザGU1によって入力された端末GT1の音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数とを含む。
【0077】
また、ユーザGU1向けの音像フィルタ係数は、ユーザHUによって入力された端末HTの音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数と、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザGU1の方位情報とに基づいて生成される音像フィルタ係数とを含む。
【0078】
ユーザGU2向けの音像フィルタ係数及びユーザGU3向けの音像フィルタ係数も同様にして生成され得る。つまり、ユーザGU2向けの音像フィルタ係数は、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報を除く再生環境情報と、ユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザGU2の方位情報とに基づいて生成される。また、ユーザGU3向けの音像フィルタ係数は、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報を除く再生環境情報と、ユーザHU、GU1、GU2、GU3のそれぞれによって指定されたユーザGU3の方位情報とに基づいて生成される。
【0079】
ステップS206において、プロセッサ101は、通信装置104を用いて、ユーザHU、GU1、GU2、GU3向けに生成した音像フィルタ係数をそれぞれの端末に送信する。これにより、オンライン通話のための初期設定が完了する。
【0080】
ステップS207において、プロセッサ101は、通信装置104を介して端末HT、GU1、GU2、GU3の少なくとも何れかからの音像信号の受信があるか否かを判定する。ステップS207において、何れかの端末からの音像信号の受信があると判定されたときには、処理はステップS208に移行する。ステップS207において、何れの端末からも音像信号の受信がないと判定されたときには、処理はステップS210に移行する。
【0081】
ステップS208において、プロセッサ101は、受信した音像信号からそれぞれのユーザ向けの音像信号を分離する。例えば、端末HTから音像信号が受信された場合、プロセッサ101は、ユーザGU1によって入力された端末GT1の音声再生機器4の再生環境情報とユーザGU1によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数が畳み込まれた音像信号をユーザGU1向けの音像信号として分離する。同様に、プロセッサ101は、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザGU2によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数が畳み込まれた音像信号をユーザGU2向けの音像信号として分離する。また、プロセッサ101は、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザGU2によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数が畳み込まれた音像信号をユーザGU3向けの音像信号として分離する。
【0082】
ステップS209において、プロセッサ101は、通信装置104を用いて、それぞれの分離された音像信号を、対応する端末に送信する。その後、処理はステップS210に移行する。なお、それぞれの端末では、
図4のステップS12で示した処理と同様にして受信された音像信号が再生される。サーバSvにおいて音像信号が分離されているので、ステップS11の処理は行われる必要はない。また、複数の音声信号が同一のタイミングで受信された場合、プロセッサ101は、同一の端末向けの音像信号を重ね合わせて送信する。
【0083】
ステップS210において、プロセッサ101は、オンライン通話を終了するか否かを判定する。例えば、すべてのユーザの入力装置7の操作によってオンライン通話の終了が指示された場合には、オンライン通話を終了すると判定される。ステップS210において、オンライン通話を終了しないと判定された場合には、処理はステップS202に戻る。この場合、オンライン通話中に再生環境情報又は方位情報の変更があった場合には、プロセッサ101は、その変更を反映して音像フィルタ係数を再生成してオンライン通話を継続する。ステップS210において、オンライン通話を終了すると判定された場合には、プロセッサ101は、
図10の処理を終了させる。
【0084】
図11は、サーバSvのオンライン通話時の第2の例の動作を示すフローチャートである。第2の例では、サーバSvにおいて音像フィルタ係数の生成が行われるだけでなく、それぞれの端末毎の音像信号が生成される。なお、ホストの端末HT、ゲストの端末GT1、GU2、GU3の動作については、基本的には
図4で示した動作に準じている。
【0085】
ステップS301において、プロセッサ101は、再生環境情報及び方位情報の入力画面のデータをそれぞれの端末HT、GT1、GT2、GT3に送信する。なお、プロセッサ101は、さらに活用情報の入力画面のデータをそれぞれの端末HT、GT1、GT2、GT3に送信してもよい。
【0086】
ステップS302において、プロセッサ101は、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信があったか否かを判定する。ステップS302において、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信があったと判定されたときには、処理はステップS303に移行する。ステップS302において、端末HT、GT1、GT2、GT3からの再生環境情報及び方位情報の受信がないと判定されたときには、処理はステップS307に移行する。
【0087】
ステップS303において、プロセッサ101は、受信された情報をメモリ102の例えばRAMに記憶する。
【0088】
ステップS304において、プロセッサ101は、情報の入力が完了したか否か、すなわちそれぞれの端末についての再生環境情報及び方位情報を例えばRAMに記憶し終えたか否かを判定する。ステップS304において、情報の入力が完了していないと判定されたときには、処理はステップS302に戻る。ステップS304において、情報の入力が完了したと判定されたときには、処理はステップS305に移行する。
【0089】
ステップS305において、プロセッサ101は、それぞれの端末についての再生環境情報及び方位情報に基づいて、それぞれの端末毎の、すなわちそれぞれのユーザ向けの音像フィルタ係数を生成する。ステップS305において生成される音像フィルタ係数は、第1の例のステップS205において生成される音像フィルタ係数と同一であってよい。
【0090】
ステップS306において、プロセッサ101は、それぞれのユーザ向けの音像フィルタ係数を例えばストレージ103に記憶させる。
【0091】
ステップS307において、プロセッサ101は、通信装置104を介して端末HT、GT1、GT2、GT3の少なくとも何れかからの音声信号の受信があるか否かを判定する。ステップS307において、何れかの端末からの音声信号の受信があると判定されたときには、処理はステップS308に移行する。ステップS307において、何れの端末からも音声信号の受信がないと判定されたときには、処理はステップS310に移行する。
【0092】
ステップS308において、プロセッサ101は、受信した音声信号からそれぞれのユーザ向けの音像信号を生成する。例えば、端末HTから音声信号が受信された場合、プロセッサ101は、ユーザGU1によって入力された端末GT1の音声再生機器4の再生環境情報とユーザGU1によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数を受信された音声信号に畳み込んでユーザGU1向けの音像信号を生成する。同様に、プロセッサ101は、ユーザGU2によって入力された端末GT2の音声再生機器4の再生環境情報とユーザGU2によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数を受信された音声信号に畳み込んでユーザGU2向けの音像信号を生成する。また、プロセッサ101は、ユーザGU3によって入力された端末GT3の音声再生機器4の再生環境情報とユーザGU2によって指定されたユーザHUの方位情報とに基づいて生成される音像フィルタ係数を受信された音声信号に畳み込んでユーザGU3向けの音像信号を生成する。また、プロセッサ101は、活用情報がある場合には、活用情報に応じて生成した音像信号を調整してもよい。この調整については後で説明される。
【0093】
ステップS309において、プロセッサ101は、通信装置104を用いて、それぞれの生成された音像信号を、対応する端末に送信する。その後、処理はステップS310に移行する。なお、それぞれの端末では、
図4のステップS12で示した処理と同様にして受信された音像信号が再生される。サーバSvにおいて音像信号が分離されているので、ステップS11の処理は行われる必要はない。また、複数の音声信号が同一のタイミングで受信された場合、プロセッサ101は、同一の端末向けの音像信号を重ね合わせて送信する。
【0094】
ステップS310において、プロセッサ101は、オンライン通話を終了するか否かを判定する。例えば、すべてのユーザの入力装置7の操作によってオンライン通話の終了が指示された場合には、オンライン通話を終了すると判定される。ステップS310において、オンライン通話を終了しないと判定された場合には、処理はステップS302に戻る。この場合、オンライン通話中に再生環境情報又は方位情報の変更があった場合には、プロセッサ101は、その変更を反映して音像フィルタ係数を再生成してオンライン通話を継続する。ステップS310において、オンライン通話を終了すると判定された場合には、プロセッサ101は、
図11の処理を終了させる。
【0095】
ここで、第2の実施形態の第1の例においても、予め利用が想定される複数の音像フィルタ係数がサーバと、ホストの端末と、ゲストの端末とで共有されていて、サーバは、再生環境情報及び方位情報を取得する毎にその予め共有されている音像フィルタ係数の中から必要な音像フィルタ係数を決定してもよい。そして、サーバは、音像フィルタ係数をホストの端末及びそれぞれのゲストの端末に送信する代わりに、決定した音像フィルタ係数を表すインデックスの情報だけをホストの端末及びそれぞれのゲストの端末に送信してもよい。また、第2の実施形態の第2の例において、サーバは、再生環境情報及び方位情報を取得される毎に予め利用が想定される複数の音像フィルタ係数の中から必要な音像フィルタ係数を決定してもよい。そして、サーバは、決定した音像フィルタ係数を音声信号に畳み込んでよい。
【0096】
以上説明したように第2の実施形態では、再生環境情報及び方位情報に基づいて、サーバSvにおいてそれぞれの端末のユーザ向けの音像フィルタ係数が生成される。これにより、それぞれの端末の音声再生機器4の再生環境に応じて他のユーザの音像が定位され得る。また、第2の実施形態では、ホストの端末HTではなく、サーバSvにおいて音像フィルタ係数が生成される。したがって、オンライン通話の際のホストの端末HTの負荷は低減され得る。
【0097】
また、第2の実施形態では、ホストの端末HTだけでなく、ゲストの端末GT1、GT2、GT3においても再生環境情報と方位情報とが指定され、それらの再生環境情報と方位情報とに基づいて音像フィルタ係数が生成される。このため、オンライン通話の参加者のそれぞれが、自身の周囲の音像を再生したい方位を決めることができる。
【0098】
[第2の実施形態の変形例1]
次に、第2の実施形態の変形例1を説明する。前述した第1の実施形態及び第2の実施形態では、方位情報の入力画面として
図5の方位の入力欄2602を含む入力画面が例示されている。これに対し、特にオンライン会議に適した方位情報の入力画面として、
図12等に示す入力画面が用いられてもよい。
【0099】
図12に示す方位情報の入力画面は、オンライン会議の参加者のリスト2603を含む。参加者のリスト2603においては、それぞれの参加者を示すマーカ2604が配列されている。
【0100】
さらに、
図12に示す方位情報の入力画面は、会議室の模式
図2605を含む。会議室の模式
図2605は、会議机の模式
図2606と、会議机の模式
図2606の周囲に配置された椅子の模式
図2607とを含む。ユーザは、マーカ2604を椅子の模式
図2607にドラッグアンドドロップすることで配置する。これを受けて、サーバSvのプロセッサ101は、そのユーザに対する他のユーザの方位を決定する。つまり、プロセッサ101は、「自分」のマーカ2604と「他のユーザ」のマーカ2604との位置関係によって他のユーザの方位を決定する。これにより、方位情報が入力され得る。
図12に示した方位情報の入力画面への入力に従って音像が定位されることにより、ユーザは、あたかも実際の会議室で会議をしているかのような感覚で他のユーザの音声を聴くことができる。
【0101】
ここで、
図12では、椅子の数には限りがあるので、例えば会議のキーマンを個々のユーザが判断してそれに対応したマーカ2604を配置してよい。サーバSvのプロセッサ101は、椅子に配置されていないユーザの音声については定位の無いモノラル音声信号のままでそれぞれの端末に送信してよい。この場合において、椅子に配置されていない他のユーザの音声であっても重要そうな話をしていると判断したら、ユーザは、適宜にマーカを入れ替えることにより、他のユーザの音声を定位された状態で聴くことができる。
【0102】
また、
図12に示す方位情報の入力画面は、オンライン会議中も表示されてよい。オンライン会議中においてもユーザは、マーカ2604の配置を変更して他のユーザの方位を決定してよい。これにより、例えばユーザの周囲の環境の変化によって、特定の方位からの音声が聞きづらくなった場合等であっても対応ができる。さらに、
図12に示すように、発話をしたユーザのマーカが参照符号2608で示すように発光する等されてもよい。
【0103】
図12は、ユーザが自由に他のユーザの配置を決める例である。これに対し、
図13、
図14A及び
図14Bに示すように、予め決められた複数の配置の中からユーザが所望の配置を選択するような方位情報の入力画面が用いられてもよい。
【0104】
図13は、オンライン会議の参加者が2名であり、会議机の模式
図2609を挟んで2人のユーザ2610、2611が向かい合うように配置される例である。例えば、ユーザ2610が「自分」である。
図13の配置が選択された場合、プロセッサ101は、ユーザ2611の方位を「0度」に設定する。
【0105】
図14Aは、オンライン会議の参加者が3名であり、会議机の模式
図2609を挟んで「自分」を示すユーザ2610と、2人の他のユーザ2611が向かい合うように配置される例である。
図14Aの配置が選択された場合、プロセッサ101は、2人のユーザ2611の方位をそれぞれ「0度」、「θ度」に設定する。
【0106】
図14Bは、オンライン会議の参加者が3名であり、会議机の模式
図2609を挟んで「自分」を示すユーザ2610に対して±θ度の方位に2人の他のユーザ2611が配置される例である。
図14Bの配置が選択された場合、プロセッサ101は、2人のユーザ2611の方位をそれぞれ「-θ度」、「θ度」に設定する。
【0107】
なお、オンライン会議の参加者が2名又は3名の場合のそれぞれのユーザの配置は、
図13、
図14A、
図14Bで示したものに限るものではない。また、
図13、
図14A、
図14Bと同様の入力画面が、オンライン会議の参加者が4名以上の場合についても用意されていてよい。
【0108】
また、会議机の模式
図2609の形状は、必ずしも四角形に限るものではない。例えば、
図15に示すように、円卓状の会議机の模式
図2609に対して「自分」を示すユーザ2610及びその他のユーザ2611が配置されるものであってもよい。
図15は、
図12と同様にユーザがマーカ2604を配置できるような方位情報の入力画面であってもよい。
【0109】
また、
図12に会議室を模したものではなく、例えば
図16に示すように音声を聴くユーザ2612を中心とした円周上に他のユーザの模式
図2613が配置され、この他のユーザの模式
図2613に対してマーカ2604を配置することで方位情報の入力が行われるような入力画面であってもよい。この場合においても、発話をしたユーザのマーカが発光する等されてもよい。
【0110】
さらには、2次元ではなく、
図17に示すような3次元の模式図上で方位情報の入力が行われてもよい。例えば、音声を聴くユーザ2614の頭部を中心とした円周上に他のユーザの模式
図2615が3次元的に配置され、この他のユーザの模式
図2615に対してマーカ2604を配置することで方位情報の入力が行われるような入力画面であってもよい。この場合においても、発話をしたユーザのマーカが参照符号2616で示すようにして発光する等されてもよい。特に、ヘッドホンやイヤホンでは前方の定位精度が劣化しやすい。そこで、視覚を用いて発話をしたユーザの方向を誘導することにより定位精度の劣化が改善され得る。
【0111】
[第2の実施形態の変形例2]
次に、第2の実施形態の変形例2を説明する。第2の実施形態の変形例2は、オンライン講演の際に好適な例であり、活用情報が用いられる具体例である。
図18は、第2の実施形態の変形例2において、オンライン講演の際にそれぞれの端末に表示される表示画面の例である。ここで、オンライン講演中のサーバSvの動作は、
図10で示した第1の例と
図11で示した第2の例の何れで行われてもよい。
【0112】
図18に示すように、第2の実施形態の変形例2においてオンライン講演中に表示される表示画面は、動画表示領域2617を含む。動画表示領域2617は、オンライン講演中に配信される動画像が表示される領域である。動画表示領域2617の表示は、ユーザが任意にオン又はオフできる。
【0113】
図18に示すように、第2の実施形態の変形例2においてオンライン講演中に表示される表示画面は、さらに、自分に対する他のユーザの定位方向を示す模式
図2618と、他のユーザを表すマーカ2619a、2619b、2619cとを含む。第2の実施形態の変形例1と同様に、ユーザは、マーカ2619a、2619b、2619cを模式
図2618上にドラッグアンドドロップすることで配置する。さらに、第2の実施形態の変形例2においては、それぞれのマーカ2619a、2619b、2619cに対して活用情報としての属性が割り当てられる。属性は、例えばオンライン講演におけるそれぞれのユーザの役割であって、例えばホストのユーザHUが任意に指定できる。属性が割り当てられた場合、その属性を表す名称2620が表示画面に表示される。
図18では、マーカ2619aの属性は「発表者」であり、マーカ2619bの属性は「共同発表者」であり、マーカ2619cの属性は呼び鈴の音等の「機械音」である。このように、第2の実施形態の変形例2においては、ユーザは必ずしも人に限らない。また、属性は、
図18で示したもの以外に、「タイムキーパー」等、種々に指定され得る。
【0114】
例えばホストのユーザHUによって属性が指定された場合、サーバSvのプロセッサ101は、属性毎に音像の再生を調整してよい。例えば、「発表者」の音声信号とその他のユーザの音声信号とが同時に入力された場合に、プロセッサ101は、「発表者」の音声だけをそれぞれの端末に送信したり、「発表者」の音声が良く聴こえるように音像を定位させたりする等してもよい。また、この他、プロセッサ101は、「機械音」、「タイムキーパー」等の音声を「発表者」の端末にだけ送信したり、他の端末で聴こえないように音像を定位させたりする等してもよい。
【0115】
図18に示すように、第2の実施形態の変形例2においてオンライン講演中に表示される表示画面は、さらに、発表者補助ボタン2621及び聴講者間議論ボタン2622を含む。発表者補助ボタン2621は、主にタイムキーパー等の発表者の補助者によって選択されるボタンである。発表者補助ボタン2621は、発表者の補助者の端末以外には表示されないように設定されていてもよい。聴講者間議論ボタン2622は、発表者の発表を聴いている聴講者間での議論を実施する際に選択されるボタンである。
【0116】
図19は、発表者補助ボタン2621が選択された場合に端末に表示される画面の一例を示す図である。発表者補助ボタン2621が選択された場合、
図19に示すように、新たに、タイムキーパー設定ボタン2623と、スタートボタン2624と、停止ボタン2625と、一時停止/再開ボタン2626とが表示される。
【0117】
タイムキーパー設定ボタン2623は、発表の残り時間の設定、呼び鈴の間隔の設定等のタイムキーパーに必要とされる各種の設定をするためのボタンである。スタートボタン2624は、例えば発表の開始時に選択され、発表の残り時間の計測、呼び鈴を鳴らすといったタイムキープ処理を開始させるためのボタンである。停止ボタン2625は、タイムキープ処理を停止させるためのボタンである。一時停止/再開ボタン2626は、タイムキープ処理の一時停止/再開を切り替えるためのボタンである。
【0118】
図20は、聴講者間議論ボタン2622が選択された場合に端末に表示される画面の一例を示す図である。聴講者間議論ボタン2622が選択された場合、
図20に示す画面に遷移する。
図20に示す画面は、自分に対する他のユーザの定位方向を示す模式
図2618と、他のユーザを表すマーカ2627a、2627bとを含む。第2の実施形態の変形例1と同様に、ユーザは、マーカ2627a、2627bを模式
図2618上にドラッグアンドドロップすることで配置する。さらに、それぞれのマーカ2627a、2627bに対して活用情報としての属性が割り当てられる。聴講者間議論ボタン2622が選択された場合の属性は、それぞれのユーザが任意に指定できる。属性が割り当てられた場合、その属性を表す名称が表示画面に表示される。
図20では、マーカ2627aの属性は「発表者」であり、マーカ2627bの属性は「Dさん」である。
【0119】
また、
図20に示すように、第2の実施形態の変形例2において聴講者間議論ボタン2622が選択された場合に表示される表示画面は、さらに、グループ設定欄2628を含む。グループ設定欄2628は、聴講者間でのグループを設定するための表示欄である。グループ設定欄2628には、現在の設定済みのグループのリストが表示される。グループのリストは、グループの名称と、そのグループに属しているユーザの名称とを含む。グループの名称は、最初にグループを設定したユーザによって決められてもよいし、予め決められていてもよい。また、グループ設定欄2628において、それぞれのグループの名称の近傍には参加ボタン2629が表示される。参加ボタン2629が選択された場合、プロセッサ101は、そのユーザを該当するグループに所属させる。
【0120】
また、聴講者間議論ボタン2622が選択された場合に表示される表示画面は、さらに、グループ新規作成ボタン2630を含む。グループ新規作成ボタン2630は、グループ設定欄2628において表示されていない新たなグループを設定する際に選択されるボタンである。グループ新規作成ボタン2630を選択した場合、ユーザは、例えばグループの名称を設定する。また、グループの新規作成において、グループに参加させたくないユーザを指定できるように構成されていてもよい。グループに参加させないと設定されたいユーザについては、プロセッサ101は、表示画面において例えば参加ボタン2629を表示させないように制御する。
図20では、「グループ2」への参加が不可とされている。
【0121】
また、聴講者間議論ボタン2622が選択された場合に表示される表示画面は、スタートボタン2631と、停止ボタン2632とを含む。スタートボタン2631は、聴講者間議論を開始させるためのボタンである。停止ボタン2632は、聴講者間議論を停止させるためのボタンである。
【0122】
さらに、聴講者間議論ボタン2622が選択された場合に表示される表示画面は、音量バランスボタン2633を含む。音量バランスボタン2633は、「発表者」のユーザとグループに属している他のユーザとの音量バランスを指定するためのボタンである。
【0123】
例えばグループが設定され、スタートボタン2631が選択された場合、サーバSvのプロセッサ101は、グループに属しているユーザの間でだけ音声が聴こえるように音像を定位させる。また、プロセッサ101は、音量バランスの指定に従って、「発表者」のユーザの音量とその他のユーザの音量との調整をする。
【0124】
ここで、グループ設定欄2628は、例えば最初にグループを設定したユーザによってグループのアクティブ/非アクティブが切り替えできるように構成されていてもよい。この場合において、グループ設定欄2628において、アクティブのグループと非アクティブのグループが色分けして表示されてもよい。
【0125】
[第3の実施形態]
次に第3の実施形態を説明する。
図21は、第3の実施形態におけるサーバSvの一例の構成を示す図である。ここで、
図21において、
図9と同一の構成についての説明は省略される。第3の実施形態においては、ストレージ103に残響テーブル1032が記憶されている点が異なる。残響テーブル1032は、音像信号に対して所定の残響効果を付加するための残響情報のテーブルである。残響テーブル1032は、小規模会議室、大規模会議室、半無響室において予め計測された残響データをテーブルデータとして有している。サーバSvのプロセッサ101は、ユーザによって指定された活用情報としての音像の利用が想定される仮想的な環境に対応した残響データを残響テーブル1032から取得し、取得した残響データに基づく残響を音像信号に付加した上で、それぞれの端末に送信する。
【0126】
【0127】
図22Aは、最初に表示される画面2634である。
図22Aに示す画面2634は、ユーザが自身で残響を選択するための「選びたい」欄2635及びサーバSvが残響を選択するための「おまかせ」欄2636を含む。例えばホストのユーザHTは、「選びたい」欄2635及び「おまかせ」欄2636のうち、自身の望むほうを選択する。「おまかせ」欄2636が選択された場合、サーバSvは自動的に残響を選択する。例えば、サーバSvは、オンライン会議の参加者の数に応じて小規模会議室において計測された残響データ、大規模会議室において計測された残響データ、半無響室において計測された残響データの何れかを選択する。
【0128】
図22Bは、「選びたい」欄2636が選択された場合に表示される画面2637である。
図22Bに示す画面2637は、部屋の種類に応じた残響を選択するための「部屋種類で選ぶ」欄2638及び会話規模に応じた残響を選択するための「会話規模で選ぶ」欄2639を含む。例えばホストのユーザHTは、「部屋種類で選ぶ」欄2638及び「会話規模で選ぶ」欄2639のうち、自身の望むほうを選択する。
【0129】
図22Cは、「部屋種類で選ぶ」欄2638が選択された場合に表示される画面2640である。
図22Cに示す画面2640は、ミーティングルーム、すなわち小規模会議室に応じた残響を選択するための「ミーティングルーム」欄2641、カンファレンスルーム、すなわち大規模会議室に応じた残響を選択するための「カンファレンスルーム」欄2642、あまり響かない部屋、すなわち無響室に応じた残響を選択するための「あまり響かない部屋」欄2643を含む。例えばホストのユーザHTは、「ミーティングルーム」欄2641、「カンファレンスルーム」欄2642及び「あまり響かない部屋」欄2643のうち、自身の望むものを選択する。
【0130】
サーバSvのプロセッサ101は、ユーザによって「ミーティングルーム」欄2641が選択された場合には、小規模会議室において予め計測された残響データを残響テーブル1032から取得する。また、プロセッサ101は、ユーザによって「カンファレンスルーム」欄2642が選択された場合には、大規模会議室において予め計測された残響データを残響テーブル1032から取得する。さらに、プロセッサ101は、ユーザによって「あまり響かない部屋」欄2643が選択された場合には、無響室において予め計測された残響データを残響テーブル1032から取得する。
【0131】
図22Dは、「会話規模で選ぶ」欄2639が選択された場合に表示される画面2644である。
図22Dに示す画面2644は、中程度の会話規模に応じた残響を選択するための「メンバー内ミーティング」欄2645、比較的に大きな会話規模に応じた残響を選択するための「報告会など」欄2646、小さな会話規模に応じた残響を選択するための「極秘会議」欄2647を含む。例えばホストのユーザHTは、「メンバー内ミーティング」欄2645、「報告会など」欄2646及び「極秘会議」欄2647のうち、自身の望むものを選択する。
【0132】
サーバSvのプロセッサ101は、ユーザによって「メンバー内ミーティング」欄2645が選択された場合には、小規模会議室において予め計測された残響データを残響テーブル1032から取得する。また、プロセッサ101は、ユーザによって「報告会など」欄2646が選択された場合には、大規模会議室において予め計測された残響データを残響テーブル1032から取得する。さらに、プロセッサ101は、ユーザによって「極秘会議」欄2647が選択された場合には、無響室において予め計測された残響データを残響テーブル1032から取得する。
【0133】
以上説明したように第3の実施形態によれば、部屋の広さ、利用目的、ミーティングの雰囲気に対応させた残響情報がテーブルとしてサーバSvに保持されている。サーバSvはそれぞれのユーザに対する音声信号に残響テーブルから選択した残響を付加する。これにより、それぞれのユーザの音声が同レベルの音量で聴こえることによって生じる疲労感が軽減され得る。
【0134】
ここで、第3の実施形態では、残響テーブルは、3種類の残響データを含むとされている。残響テーブルは、1種類又は2種類の残響データだけを含んでいてもよいし、4種類以上の残響データを含んでいてもよい。
【0135】
[第3の実施形態の変形例]
第3の実施形態において、ストレージ103には、さらにレベル減衰テーブル1033が記憶されていてもよい。レベル減衰テーブル1033は、無響室で予め計測された音量の距離に応じたレベル減衰データをテーブルデータとして有している。この場合において、サーバSvのプロセッサ101は、音像の利用が想定される仮想音源とユーザとの仮想的な距離に応じたレベル減衰データを取得し、取得したレベル減衰データに応じたレベル減衰を音像信号に付加してよい。これによってもそれぞれのユーザの音声が同レベルの音量で聴こえることによって生じる疲労感が軽減され得る。
【0136】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0137】
1 プロセッサ、2 メモリ、3 ストレージ、4 音声再生機器、5 音声検出機器、6 表示装置、7 入力装置、8 通信装置、11 第1の取得部、12 第2の取得部、13 制御部、14 第3の取得部、31 オンライン通話管理プログラム、101 プロセッサ、102 メモリ、103 ストレージ、104 通信装置、1031 オンライン通話管理プログラム、1032 残響テーブル、1033 レベル減衰テーブル。