(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-18
(45)【発行日】2024-03-27
(54)【発明の名称】音声処理装置、音声処理システム、音声処理方法及びプログラム
(51)【国際特許分類】
H04R 3/00 20060101AFI20240319BHJP
【FI】
H04R3/00 310
H04R3/00 320
(21)【出願番号】P 2022510606
(86)(22)【出願日】2021-03-24
(86)【国際出願番号】 JP2021012288
(87)【国際公開番号】W WO2021193734
(87)【国際公開日】2021-09-30
【審査請求日】2022-09-07
(31)【優先権主張番号】P 2020056340
(32)【優先日】2020-03-26
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】皆川 暢徹
(72)【発明者】
【氏名】大橋 一範
【審査官】大野 弘
(56)【参考文献】
【文献】特開2016-033764(JP,A)
【文献】特開2019-033497(JP,A)
【文献】特開平08-205278(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定する位置関係特定手段と、
前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得する音声取得手段と、
前記ユーザの向いている方向を判定する方向判定手段と、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定する注視位置判定手段と、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う音声提供手段と、
を有
し、
前記注視位置が前記フィールドの外の特定領域に対応する場合に、前記音声提供手段は、前記特定領域に対応し前記集音装置から取得された音声とは異なる予め定められた音声を、前記ユーザに提供するための処理を行う、
音声処理装置。
【請求項2】
前記音声取得手段は、前記複数の領域それぞれについて設けられた複数の前記集音装置から音声を取得する、
請求項1に記載の音声処理装置。
【請求項3】
前記注視位置が隣り合う2つ以上の前記領域の境界近傍に設けられた境界部分に対応する場合に、前記境界部分に対応する前記2つ以上の前記領域に関する前記音声を合成し、合成された音声である合成音声を生成する音声合成手段、
をさらに有し、
前記注視位置が前記境界部分に対応する場合に、前記音声提供手段は、前記合成音声を前記ユーザに提供するための処理を行う、
請求項1又は2に記載の音声処理装置。
【請求項4】
前記音声合成手段は、前記境界部分に対応する前記2つ以上の前記領域のうち、前記境界部分において前記注視位置に近い前記領域に関する音声の割合が大きくなるように、前記合成音声を生成する、
請求項3に記載の音声処理装置。
【請求項5】
前記特定領域に対応する音声は、前記フィールドで行われている前記イベントに関する音声である、
請求項
1から4のいずれか1項に記載の音声処理装置。
【請求項6】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定する位置関係特定手段と、
前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得する音声取得手段と、
前記ユーザの向いている方向を判定する方向判定手段と、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定する注視位置判定手段と、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う音声提供手段と、
を有し、
予め定められた数以上の前記ユーザである第1のユーザの注視位置が前記複数の領域のうちの第1の領域に対応する場合に、前記音声提供手段は、前記第1のユーザ以外の前記ユーザに対して、前記第1の領域に関する音声を提供するための処理を行う、
音声処理装置。
【請求項7】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置と、
音声処理装置と、
を有し、
前記音声処理装置は、
前記フィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定する位置関係特定手段と、
前記集音装置から音声を取得する音声取得手段と、
前記ユーザの向いている方向を判定する方向判定手段と、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定する注視位置判定手段と、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う音声提供手段と、
を有
し、
前記注視位置が前記フィールドの外の特定領域に対応する場合に、前記音声提供手段は、前記特定領域に対応し前記集音装置から取得された音声とは異なる予め定められた音声を、前記ユーザに提供するための処理を行う、
音声処理システム。
【請求項8】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定し、
前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得し、
前記ユーザの向いている方向を判定し、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定し、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行
い、
前記注視位置が前記フィールドの外の特定領域に対応する場合に、前記特定領域に対応し前記集音装置から取得された音声とは異なる予め定められた音声を、前記ユーザに提供するための処理を行う、
音声処理方法。
【請求項9】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定し、
前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得し、
前記ユーザの向いている方向を判定し、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定し、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行い、
予め定められた数以上の前記ユーザである第1のユーザの注視位置が前記複数の領域のうちの第1の領域に対応する場合に、前記第1のユーザ以外の前記ユーザに対して、前記第1の領域に関する音声を提供するための処理を行う、
音声処理方法。
【請求項10】
イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定するステップと、
前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得するステップと、
前記ユーザの向いている方向を判定するステップと、
特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定するステップと、
判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行うステップと、
前記注視位置が前記フィールドの外の特定領域に対応する場合に、前記特定領域に対応し前記集音装置から取得された音声とは異なる予め定められた音声を、前記ユーザに提供するための処理を行うステップと、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理システム、音声処理方法及びプログラムに関する。
【背景技術】
【0002】
ある方向の音源から音声を収集する技術がある。この技術に関連し、特許文献1は、指向方向を持つアレイマイクを有し、アレイマイクによって収音された音声を録音する電子機器を開示する。特許文献1にかかる電子機器は、アレイマイクによって収音された音声に基づいて音源方向を推定し、推定された音源方向に基づき、その音源方向を示す画像を表示部に表示する。また、特許文献1にかかる電子機器は、画像に対する入力操作を受け付けたとき、音源方向を特定し、特定された音源方向に基づいて、アレイマイクの指向方向を設定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
スポーツイベント等のイベントが開催される大会場には、イベントが行われるフィールドと、その周囲に観客席とが設けられている。フィールドでは、複数のプレイヤーによって複数の音源が発生し得る。また、観客席では、複数の観客によって大きな歓声が発生し得る。大会場ではこのような状況であるので、特許文献1にかかる技術では、フィールドにおいてユーザが聴取することを望む領域にかかる音声を、適切にユーザに提供することは困難である。
【0005】
本開示の目的は、このような課題を解決するためになされたものであり、大会場のフィールドにおける所望の領域にかかる音声を適切にユーザに提供することが可能な音声処理装置、音声処理システム、音声処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示にかかる音声処理装置は、イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定する位置関係特定手段と、前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得する音声取得手段と、前記ユーザの向いている方向を判定する方向判定手段と、特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定する注視位置判定手段と、判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う音声提供手段と、を有する。
【0007】
また、本開示にかかる音声処理システムは、イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置と、音声処理装置と、を有し、前記音声処理装置は、前記フィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定する位置関係特定手段と、前記集音装置から音声を取得する音声取得手段と、前記ユーザの向いている方向を判定する方向判定手段と、特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定する注視位置判定手段と、判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う音声提供手段と、を有する。
【0008】
また、本開示にかかる音声処理方法は、イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定し、前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得し、前記ユーザの向いている方向を判定し、特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定し、判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行う。
【0009】
また、本開示にかかるプログラムは、イベントが行われ、周囲に複数の観客のための観客席が設けられたフィールドと、前記観客席にいる少なくとも1人のユーザとの位置関係を特定するステップと、前記フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得するステップと、前記ユーザの向いている方向を判定するステップと、特定された前記位置関係と、判定された前記方向とに基づいて、前記ユーザが見ている位置である注視位置を判定するステップと、判定された前記注視位置に対応する前記領域に関する前記音声を前記ユーザに提供するための処理を行うステップと、をコンピュータに実行させる。
【発明の効果】
【0010】
本開示によれば、大会場のフィールドにおける所望の領域にかかる音声を適切にユーザに提供することが可能な音声処理装置、音声処理システム、音声処理方法及びプログラムを提供できる。
【図面の簡単な説明】
【0011】
【
図1】本開示の実施の形態にかかる音声処理装置の概要を示す図である。
【
図2】本開示の実施の形態にかかる音声処理装置によって実行される音声処理方法を示すフローチャートである。
【
図3】実施の形態1にかかる音声処理システムを示す図である。
【
図4】実施の形態1にかかる音声処理装置の構成を示す図である。
【
図5】実施の形態1にかかる音声処理システムが適用されるフィールドを例示する図である。
【
図6】実施の形態1にかかる音声処理装置によって実行される音声処理方法を示すフローチャートである。
【
図7】実施の形態1にかかる、フィールド画像情報を用いて、フィールドと観客席にいるユーザとの位置関係を特定する方法を説明するための図である。
【
図8】実施の形態1にかかる音声処理システムを用いて、ユーザが音声を聴取することを説明するための図である。
【
図9】実施の形態2にかかる音声処理装置によって実行される音声処理方法を示すフローチャートである。
【
図10】実施の形態2にかかるフィールドの外の特定領域を説明するための図である。
【
図11】実施の形態3にかかる音声処理装置によって実行される音声処理方法を示すフローチャートである。
【発明を実施するための形態】
【0012】
(本開示にかかる実施の形態の概要)
本開示の実施形態の説明に先立って、本開示にかかる実施の形態の概要について説明する。
図1は、本開示の実施の形態にかかる音声処理装置1の概要を示す図である。音声処理装置1は、例えば、サーバ等のコンピュータである。
【0013】
音声処理装置1は、ユーザの向いている方向に応じて、大会場におけるフィールドの各領域にかかる音声をユーザに提供する。ここで、「大会場」とは、イベントが行われるフィールドと、フィールドの周囲に複数の観客のための観客席とが設けられた大規模なイベント会場である。大会場は、スタジアム、競技場、サッカー場、野球場であるが、これに限られない。また、フィールドは、例えば、グラウンド、コート等であるがこれに限られない。また、フィールドは、屋外である必要はなく、屋内であってもよい。また、フィールドで行われるイベントは、例えばスポーツイベントであるが、スポーツイベントに限られない。
【0014】
音声処理装置1は、位置関係特定部2と、音声取得部4と、方向判定部6と、注視位置判定部8と、音声提供部10とを有する。位置関係特定部2は、位置関係特定手段としての機能を有する。音声取得部4は、音声取得手段としての機能を有する。方向判定部6は、方向判定手段としての機能を有する。注視位置判定部8は、注視位置判定手段としての機能を有する。音声提供部10は、音声提供手段としての機能を有する。
【0015】
図2は、本開示の実施の形態にかかる音声処理装置1によって実行される音声処理方法を示すフローチャートである。位置関係特定部2は、イベントが行われ、周囲に複数の観客のための観客席(スタンド等)が設けられたフィールドと、観客席にいる少なくとも1人のユーザとの位置関係を特定する(ステップS2)。つまり、本実施の形態において、「ユーザ」とは、観客であり得る。なお、位置関係を特定する方法については後述する。
【0016】
音声取得部4は、フィールドに関する予め定められた複数の領域それぞれの音声を収集する少なくとも1つの集音装置から音声を取得する(ステップS4)。つまり、音声取得部4は、フィールドの複数の領域の音声を取得する。なお、集音装置は、フィールドの複数の領域ごとに設置されていてもよい。また、フィールドの複数の領域については後述する。
【0017】
方向判定部6は、ユーザの向いている方向を判定する(ステップS6)。ここで、ユーザの向いている方向とは、例えば、ユーザの顔の向きであってもよいし、ユーザの視線の方向であってもよいし、これらの少なくとも一方から得られた方向であってもよい。注視位置判定部8は、S2の処理で特定された位置関係と、S6の処理で判定された方向とに基づいて、ユーザが見ている位置である注視位置を判定する(ステップS8)。
【0018】
音声提供部10は、S8の処理で判定された注視位置に対応する領域に関する音声をユーザに提供するための処理を行う(ステップS10)。ここで、「音声をユーザに提供するための処理」とは、例えば、ユーザに対して音声を出力する音声出力装置に対して、音声を示す音声データを送信する処理であってもよい。また、音声出力装置は、例えば、ユーザの近傍にあるスピーカ又はイヤホン等である。
【0019】
上述したように、大会場では、フィールドにおいて複数の音源が発生し、さらに観客席からも大きな歓声等が発生し得る。このような大会場のフィールドの特定の領域における音声を、個々のユーザが聴取したいことがある。しかしながら、上記のように、大会場では複数の音源があるので、個々のユーザが聴取したい領域の音声をユーザが聴取することは、困難である。
【0020】
これに対し、本開示にかかる音声処理装置1は、上記のように構成されているので、大会場のフィールドにおいてユーザが注視している領域に関する音声を、ユーザに提供することができる。ここで、ユーザが注視している領域は、そのユーザが興味を持った領域であり、その領域における音声を聴取したい可能性が高い。したがって、大会場のフィールドにおける所望の領域にかかる音声を、適切にユーザに提供することが可能である。つまり、個々のユーザが所望する領域の音声を、そのユーザに提供することができる。
【0021】
なお、音声処理装置1と、少なくとも1つの集音装置と、音声出力装置とを有する音声処理システムを用いても、大会場のフィールドにおける所望の領域にかかる音声を、適切にユーザに提供することが可能である。また、音声処理装置1で実行される音声処理方法及び音声処理方法を実行するプログラムを用いても、大会場のフィールドにおける所望の領域にかかる音声を、適切にユーザに提供することが可能である。
【0022】
(実施の形態1)
以下、実施形態について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
【0023】
図3は、実施の形態1にかかる音声処理システム50を示す図である。音声処理システム50は、少なくとも1つのユーザ機器60と、少なくとも1つの集音装置70と、音声処理装置100とを有する。音声処理装置100は、
図1に示した音声処理装置1に対応する。ユーザ機器60と音声処理装置100とは、有線又は無線のネットワーク52を介して、通信可能に接続されている。また、集音装置70と音声処理装置100とは、有線又は無線を介して、通信可能に接続されている。なお、集音装置70と音声処理装置100とがネットワーク52を介して通信可能に接続されていてもよい。
【0024】
音声処理システム50は、イベントが行われ周囲に複数の観客のための観客席(スタンド等)が設けられたフィールドの、予め定められた複数の領域の音声を収集する。そして、音声処理システム50は、あるユーザの注視位置に対応する領域に関する音声を、そのユーザに提供する。
【0025】
集音装置70は、例えばマイクロフォンである。集音装置70は、フィールドの予め定められた複数の領域のそれぞれに設置され得る。つまり、好ましくは、複数の集音装置70が、それぞれ、複数の領域のそれぞれに設置される。集音装置70は、対応する領域の音声を収集する。集音装置70は、対応する領域の音声を適切に収集するため、指向性マイクであることが好ましい。また、集音装置70は、音声処理装置100に対して、収集された音声に対応する音声信号を送信する。
【0026】
音声処理装置100は、例えばサーバ等のコンピュータである。音声処理装置100は、集音装置70から各領域の音声を取得し、ユーザの注視位置に対応する領域に関する音声をユーザに提供するための処理を行う。具体的には、音声処理装置100は、ユーザの注視位置に対応する領域に関する音声の音声データを、ユーザ機器60に送信する。音声処理装置100の詳細については後述する。
【0027】
ユーザ機器60は、音声処理システム50の各ユーザに装着され得るデバイスである。ユーザ機器60は、例えば、AR(Augmented Reality)グラス等のスマートグラスで構成されてもよい。あるいは、ユーザ機器60は、スマートフォン等の情報処理端末であってもよいし、情報処理端末を有する機器であってもよい。ユーザ機器60は、ユーザの頭部に装着され得る。ユーザ機器60は、少なくとも通信部61及び音声出力装置62を有する。また、ユーザ機器60は、撮影装置64、姿勢検出部66、視線検出部68、及び表示部69を有してもよい。特に、ユーザ機器60は、姿勢検出部66及び視線検出部68のいずれか一方を有さなくてもよい。また、ユーザ機器60のこれらの構成要素は、互いに物理的に別個であってもよい。
【0028】
通信部61は、ネットワーク52を介して音声処理装置100と通信を行うための処理を行う。音声出力装置62は、音声処理装置100から受信された音声データを再生する。音声出力装置62は、例えば、イヤホン又はスピーカ等である。撮影装置64は、例えば撮像素子又はカメラである。撮影装置64は、ユーザの前方を撮影し、得られた撮影画像情報を、音声処理装置100に送信する。撮影装置64は、例えば、自身の席にいるユーザがユーザ機器60を装着した状態で、フィールドを撮影してもよい。
【0029】
姿勢検出部66は、例えばジャイロセンサである。姿勢検出部66は、ユーザ機器60の姿勢(傾き)を検出する。具体的には、姿勢検出部66は、XYZの3次元座標系(3次元座標空間)における、ユーザ機器60の傾き(角度)を検出する。姿勢検出部66は、検出された姿勢を示す姿勢情報を、音声処理装置100に送信する。
【0030】
視線検出部68は、ユーザの視線方向を検出(推定)する。なお、視線方向の推定は、既存の手法によって実現できる。例えば、視線検出部68は、ユーザの目及び瞳孔を検出することで、ユーザの視線方向を検出してもよい。視線検出部68は、検出された視線方向を示す視線情報を、音声処理装置100に送信する。
【0031】
表示部69は、所定の画像を、ユーザが視認可能に出力する。例えば、表示部69は、スマートグラスのグラス部分に、画像を投影してもよい。あるいは、表示部69は、それ自身が画像を表示するディスプレイで構成されてもよい。
【0032】
図4は、実施の形態1にかかる音声処理装置100の構成を示す図である。音声処理装置100は、主要なハードウェア構成として、制御部102と、記憶部104と、通信部106と、インタフェース部108(IF;Interface)とを有する。制御部102、記憶部104、通信部106及びインタフェース部108は、データバスなどを介して相互に接続されている。なお、
図3に示したユーザ機器60も、
図4に示したハードウェア構成を有し得る。
【0033】
制御部102は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部102は、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部104は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部104は、例えばROM(Read Only Memory)又はRAM(Random Access Memory)等である。記憶部104は、制御部102によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部104は、処理データ等を一時的に記憶するための機能を有する。記憶部104は、データベースを含み得る。
【0034】
通信部106は、ユーザ機器60及び集音装置70と通信を行うために必要な処理を行う。通信部106は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部108(IF;Interface)は、例えばユーザインタフェース(UI)である。インタフェース部108は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部108は、システム管理者によるデータの入力の操作を受け付け、システム管理者に対して情報を出力する。
【0035】
実施の形態1にかかる音声処理装置100は、構成要素として、ユーザ情報格納部112、フィールド情報格納部114、位置関係特定部120、音声取得部130、及び、方向判定部140を有する。また、実施の形態1にかかる音声処理装置100は、構成要素として、注視位置判定部150、音声合成部152、及び音声提供部160を有する。
【0036】
ユーザ情報格納部112は、ユーザ情報格納手段としての機能を有する。フィールド情報格納部114は、フィールド情報格納手段としての機能を有する。位置関係特定部120は、
図1に示した位置関係特定部2に対応する。位置関係特定部120は、位置関係特定手段としての機能を有する。音声取得部130は、
図1に示した音声取得部4に対応する。音声取得部130は、音声取得手段としての機能を有する。方向判定部140は、
図1に示した方向判定部6に対応する。方向判定部140は、方向判定手段としての機能を有する。
【0037】
注視位置判定部150は、
図1に示した注視位置判定部8に対応する。注視位置判定部150は、注視位置判定手段としての機能を有する。音声合成部152は、音声合成手段としての機能を有する。音声提供部160は、
図1に示した音声提供部10に対応する。音声提供部160は、音声提供手段としての機能を有する。
【0038】
なお、上述した各構成要素は、例えば、制御部102の制御によって、プログラムを実行させることによって実現できる。より具体的には、各構成要素は、記憶部104に格納されたプログラムを、制御部102が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。以上のことは、後述する他の実施の形態においても同様である。なお、ユーザ情報格納部112及びフィールド情報格納部114以外の構成要素の具体的な機能については、
図6を用いて後述する。
【0039】
ユーザ情報格納部112は、ユーザに関する情報(ユーザ情報)を格納する。ユーザ情報は、自己の席にいる1人以上のユーザ(又はユーザ機器60)の識別情報と、対応するユーザ(又はユーザ機器60)の位置を示すユーザ位置情報とを含み得る。ユーザ位置情報は、3次元座標系におけるユーザの位置を示し得る。ユーザ位置情報の生成方法については後述する。また、ユーザ情報は、後述する処理によって判定された、対応するユーザが現在注視している領域の、識別情報を含んでもよい。
【0040】
フィールド情報格納部114は、イベントが行われるフィールドに関する情報(フィールド情報)を格納する。フィールド情報は、フィールドの複数の領域の識別情報と、各領域の位置(範囲)を示す領域位置情報と、各領域に対応する集音装置70の識別情報とを含み得る。
【0041】
図5は、実施の形態1にかかる音声処理システム50が適用されるフィールド90を例示する図である。
図5の例では、サッカーグラウンドであるフィールド90が示されている。フィールド90は、9個の領域92A~92Iに区分されている。また、領域92A~92Iには、それぞれ、集音装置70(70A~70I)が設けられている。集音装置70A~70Iは、それぞれ、領域92A~92Iの音声を収集し得る。集音装置70は、対応する領域92の音声を収集可能な位置に設置されている。例えば、集音装置70は、対応する領域92の地面(又は床)に設置されていてもよい。あるいは、集音装置70は、対応する領域92の上空に設置されていてもよい。
【0042】
また、領域92A~92Iの位置(範囲)は、フィールド情報格納部114に格納されている領域位置情報によって、予め定められている。領域位置情報は、各領域92について、XYZの3次元座標系における範囲を示し得る。これにより、フィールド90において、ある位置を指定すると、その位置が領域92A~92Iのどの領域92に対応するのか、つまり、その位置がどの領域92に含まれるのかを、把握することができる。
【0043】
また、隣り合う2つ以上の領域92の境界94の近傍に境界部分を設けてもよい。境界部分の範囲は、予め定められている。例えば、境界部分は、境界から5m~数十m程度の範囲を、境界部分としてもよい。フィールド情報格納部114は、境界部分について、3次元座標系における範囲を示す境界部分情報を格納してもよい。境界部分情報は、領域位置情報に含まれてもよい。例示として、
図5には、領域92Hと領域92Iとの境界94HIの近傍に設けられた境界部分96HIが破線で示されている。このように、各境界94の近傍には、境界部分96が設けられ得る。なお、境界部分96は、全ての境界94に設けられている必要はない。
【0044】
図6は、実施の形態1にかかる音声処理装置100によって実行される音声処理方法を示すフローチャートである。観客席に複数のユーザがいる場合、音声処理装置100は、複数のユーザそれぞれについて、
図6に示す処理を行う。
【0045】
位置関係特定部120は、フィールドとユーザとの位置関係を特定する(ステップS100)。具体的には、位置関係特定部120は、ネットワーク52を介して、フィールド90と自己の席にいるユーザとの位置関係を特定するための情報を取得(受信)する。そして、位置関係特定部120は、取得された情報を用いて、フィールド90と観客席にいるユーザとの位置関係を特定する。これにより、位置関係特定部120は、3次元座標系におけるユーザの位置を特定し、ユーザ位置情報を生成する。そして、位置関係特定部120は、ユーザ位置情報を、ユーザ情報格納部112に格納する。
【0046】
例えば、位置関係特定部120は、ユーザのチケット情報を、ユーザの識別情報とともに取得(受信)してもよい。チケット情報は、例えば、撮影装置64によって撮影されたチケットの画像情報であってもよい。この場合、位置関係特定部120は、チケットの画像情報から、ユーザの座席番号を例えばOCR(Optical Character Recognition)によって認識する。これにより、位置関係特定部120は、フィールド90と観客席にいるユーザとの位置関係を特定する。また、ユーザがオンライン決済によってチケットを購入した場合は、位置関係特定部120は、オンライン決済情報から、チケット情報を取得してもよい。
【0047】
また、位置関係特定部120は、自身の席にいるユーザがユーザ機器60を装着した状態で撮影装置64がフィールド90を撮影して得られたフィールド画像情報を、ユーザの識別情報とともにユーザ機器60から取得(受信)してもよい。この場合、位置関係特定部120は、フィールド画像情報を用いて、フィールド90と観客席にいるユーザとの位置関係を特定する。
【0048】
図7は、実施の形態1にかかる、フィールド画像情報を用いて、フィールド90と観客席にいるユーザとの位置関係を特定する方法を説明するための図である。
図7には、撮影装置64によって撮影されて得られた撮影画像Imが例示されている。撮影画像Imには、フィールド90の画像であるフィールド画像90Imが示されている。ここで、フィールド90の形状は主に矩形であるが、ユーザ(ユーザの席)の位置によって、撮影画像Imにおけるフィールド画像90Imの形状が異なる。
図7の例では、フィールド画像90Imの形状は台形である。また、ユーザの位置によっては、フィールド画像90Imの形状は、矩形でも台形でもない四辺形となり得る。
【0049】
したがって、位置関係特定部120は、撮影画像Imからフィールド画像90Imを認識し、認識されたフィールド画像90Imの形状から、フィールド90とユーザとの位置関係を特定する。例えば、位置関係特定部120は、撮影画像Imからフィールド90に描かれた線の交点を認識し、交点間の距離から、フィールド画像90Imの形状を特定する。そして、例えば、位置関係特定部120は、3次元空間において視点をどこにすれば特定されたフィールド画像90Imの形状となるかを分析(シミュレーション)することで、フィールド90とユーザとの位置関係を特定する。また、位置関係特定部120は、観客席の画像である観客席画像80Im等の、フィールド90の外の画像を用いて、フィールド90とユーザとの位置関係を特定してもよい。また、位置関係特定部120は、撮影画像Imから、機械学習アルゴリズムを用いて、フィールド90とユーザとの位置関係を特定してもよい。
【0050】
図6の説明に戻る。音声取得部130は、フィールド90の複数の領域92それぞれの音声を取得する(ステップS102)。なお、S102の処理は、音声処理システム50の動作中、ユーザの動作に関わらず、継続して行われ得る。言い換えると、S102の処理は、以降の処理に関わらず、継続して行われ得る。さらに言い換えると、S102の処理は、以降の処理とは独立して行われ得る。
【0051】
具体的には、音声取得部130は、領域92A~92Iに設けられた集音装置70A~70Iから、収集された音声に対応する音声信号を、集音装置70の識別情報とともに取得(受信)する。なお、音声処理装置100と集音装置70とがそれぞれ別個のケーブルで接続されている場合、音声取得部130は、集音装置70の識別情報を受信する必要はない。なお、音声取得部130は、受信された音声信号がアナログ信号である場合、音声信号をデジタル信号に変換してもよい。これにより、音声取得部130は、PCM(pulse code modulation)音源を生成してもよい。
【0052】
方向判定部140は、3次元座標系における、ユーザの向いている方向を判定する(ステップS104)。具体的には、方向判定部140は、ユーザ機器60から、姿勢情報を取得(受信)する。ここで、ユーザ機器60がユーザの顔に装着されている場合、ユーザの顔の向きが変化することに伴って、ユーザ機器60の姿勢も変化する。したがって、方向判定部140は、姿勢情報を用いて、ユーザの顔の向きを、ユーザの向いている方向(ユーザ方向)として判定してもよい。つまり、方向判定部140は、ユーザ機器60つまりユーザの顔が3次元座標空間においてどの方向を向いているかを検出する。
【0053】
あるいは、方向判定部140は、ユーザ機器60から、視線情報を取得(受信)する。方向判定部140は、視線情報を用いて、ユーザの視線の向きを、ユーザの向いている方向(ユーザ方向)として判定してもよい。つまり、方向判定部140は、ユーザの視線が3次元座標空間においてどの方向を向いているかを検出する。あるいは、方向判定部140は、ユーザ機器60から、姿勢情報及び視線情報を取得(受信)し、これらの少なくとも一方を用いて、ユーザ方向を判定してもよい。例えば、方向判定部140は、姿勢情報を優先して用いることで、ユーザ方向を判定してもよい。このとき、方向判定部140は、姿勢情報を用いて判定されたユーザ方向を、視線情報を用いて補正してもよい。
【0054】
注視位置判定部150は、ユーザの注視位置を判定する(ステップS106)。具体的には、注視位置判定部150は、S100の処理で特定された位置関係と、S104の処理で判定された方向とを用いて、注視位置を判定する。さらに具体的には、注視位置判定部150は、幾何学的手法によって、3次元座標系において、ユーザ位置情報で示されたユーザ位置を始点として、ユーザ方向に延長された直線が、フィールド90又はフィールド90の周囲のどこに交差するかを判定する。これにより、注視位置判定部150は、注視位置に対応する座標(注視座標)を判定する。
【0055】
注視位置判定部150は、注視位置がT秒間移動しないか否かを判定する(ステップS108)。このS108の処理は、ユーザに音声を提供するトリガとなり得る。ここで、Tは、予め定められた時間である。例えば、T=2[秒]であるが、これに限られない。また、注視位置判定部150は、注視位置の移動範囲が予め定められた範囲以内であれば、注視位置が移動しないと判定してもよい。
【0056】
注視位置がT秒間の間に移動したと判定された場合(S108のNO)、注視位置判定部150は、ユーザは特定の位置を注視していないと判定する。この場合、注視位置判定部150は、音声を提供しないと判定する。したがって、処理フローはS104に戻る。これにより、ユーザが音声の提供を望まないときに、音声を提供することを抑制することができる。
【0057】
一方、注視位置がT秒間移動しないと判定された場合(S108のYES)、注視位置判定部150は、ユーザは特定の位置を注視していると判定する。この場合、注視位置判定部150は、注視位置がフィールド90に対応するか否かを判定する(ステップS110)。このS110の処理は、ユーザに音声を提供するトリガとなり得る。具体的には、注視位置判定部150は、領域位置情報を用いて、注視位置に対応する注視座標がフィールド90の領域92A~92Iのいずれかに含まれるか否かを判定する。
【0058】
注視位置がフィールド90に対応しないと判定された場合(S110のNO)、注視位置判定部150は、ユーザがフィールド90を注視していないと判定する。この場合、注視位置判定部150は、フィールド90の音声をユーザに提供しないと判定する。この場合、実施の形態1では、処理フローはS104に戻る。これにより、ユーザが音声の提供を望まないときに、音声を提供することを抑制することができる。
【0059】
一方、注視位置がフィールド90に対応すると判定された場合(S110のYES)、注視位置判定部150は、ユーザがフィールド90を注視していると判定する。この場合、注視位置判定部150は、フィールド90の音声をユーザに提供すると決定する。そして、注視位置判定部150は、注視位置が境界部分96に対応するか否かを判定する(ステップS120)。具体的には、注視位置判定部150は、境界部分情報を用いて、注視位置に対応する注視座標が境界部分96に含まれるか否かを判定する。
【0060】
注視位置が境界部分96に対応しないと判定された場合(S120のNO)、注視座標は、境界部分96以外の領域92A~92Iのいずれかに含まれ得る。したがって、注視位置判定部150は、領域位置情報を用いて、注視位置が境界部分96以外の領域92A~92Iのいずれに対応するかを判定する。
【0061】
そして、音声提供部160は、注視位置に対応する領域92の音声をユーザに提供する(ステップS122)。具体的には、音声提供部160は、注視位置に対応する領域92に関する集音装置70で収集された音声に対応する音声信号を、ユーザ情報を用いてユーザ機器60に送信する。これにより、ユーザは、音声出力装置62を用いて、注視位置に対応する領域92に関する音声を聴取することができる。
【0062】
図8は、実施の形態1にかかる音声処理システム50を用いて、ユーザが音声を聴取することを説明するための図である。注視位置P1が領域92Bに対応する場合、方向判定部140は、ユーザ方向D1を判定する。そして、注視位置判定部150は、ユーザ方向D1からフィールド90上の注視位置P1を判定し、注視位置P1が領域92Bに対応すると判定する。音声提供部160は、領域92Bに対応する集音装置70Bによって収集された音声を提供する。これにより、ユーザは、領域92Bにある仮想音源Sbから出力された音声を聴取しているような体験をすることができる。
【0063】
これにより、ユーザの周囲に多数の観客の歓声が発生している場合であっても、ユーザが注目したフィールド90上の領域92の音声を、適切に聴取することができる。また、ユーザの周囲に多数の観客の歓声が発生していない場合であっても、フィールド90上のユーザが注目していない領域92以外の領域92からの音声は、歓声と同様に雑音のように聴こえる可能性がある。これに対し、本実施の形態では、フィールド90の複数の領域92それぞれから音声が発生している場合であっても、ユーザが注目したフィールド90上の領域92の音声を、適切に聴取することができる。
【0064】
例えば、
図8の例において、ユーザの席が領域92Cの近くであるとする。そして、領域92Cと、ユーザから遠い領域92Bとから、音声が発生しているとする。この場合、本実施の形態にかかるシステムを用いないと、ユーザが領域92Bの音声を聴取したい場合であっても、領域92Cで発生した音声にかき消されて、領域92Bの音声を適切に聴取できない可能性がある。これに対し、本実施の形態にかかるシステムを用いることで、ユーザに近い領域92Cで音声が発生している場合であっても、ユーザから遠い領域92Bの音声を、適切に聴取することが可能となる。
【0065】
さらに、ユーザAは領域92Bにいる人物(例えば審判等)の音声を聴取したいと望み、ユーザBは領域92Dにいる人物(例えばゴールキーパー等)の音声を聴取したいと望みことがあり得る。この場合、音声提供部160は、ユーザAには領域92Bの音声を提供し、ユーザBには領域92Dの音声を提供することができる。このように、本実施の形態にかかるシステムを用いることで、個々のユーザが所望する領域の音声を、そのユーザに提供することができる。
【0066】
図6の説明に戻る。注視位置が境界部分96に対応すると判定された場合(S120のYES)、音声合成部152は、境界部分96に関する音声を合成する(ステップS130)。具体的には、音声合成部152は、境界部分96に対応する2つ以上の領域92に関する音声を合成し、合成された音声である合成音声を生成する。さらに具体的には、音声合成部152は、境界部分96に対応する2つ以上の領域92に関する集音装置70から取得された音声を合成する。このとき、音声合成部152は、2つ以上の領域92のうち、境界部分96において注視位置に近い領域92に関する音声の割合が大きくなるように、合成音声を生成してもよい。
【0067】
そして、音声提供部160は、境界部分96に対応する合成音声をユーザに提供する(ステップS132)。具体的には、音声提供部160は、合成音声に対応する音声信号を、ユーザ情報を用いてユーザ機器60に送信する。これにより、ユーザは、音声出力装置62を用いて、注視位置に対応する境界部分96に関する合成音声を聴取することができる。そして、注視位置が境界近傍にある場合に合成音声を聴取することで、ユーザは、注視位置に対応する音声を、より適切に聴取することができる。すなわち、境界94の近傍では、境界94に接する2つ以上の領域92に関する音声が聴取され得る可能性が高い。したがって、ユーザは、境界近傍において違和感のない聴取体験をすることができる。
【0068】
S130~S132の処理について
図8を用いて具体例を説明する。
図8において、ユーザ方向D2の先の注視位置P2が、領域92Hと領域92Iとの間の境界部分96HIにあるとする。そして、注視位置P2が境界94HI上にある場合、音声合成部152は、領域92Hに対応する集音装置70Hから取得された音声と、領域92Iに対応する集音装置70Iから取得された音声とを、1:1の割合で合成する。
【0069】
一方、注視位置P2が境界部分96HIの領域92H側(つまり
図8において境界部分96HIの左側の部分)にある場合、音声合成部152は、集音装置70Hから取得された音声と、集音装置70Iから取得された音声とを、2:1の割合で合成する。あるいは、音声合成部152は、境界部分96HIにおいて注視位置P2が境界94HIから離れて領域92H側に近づくにつれて、集音装置70Hから取得された領域92Hの音声の割合を徐々に増加させるように、合成音声を生成してもよい。例えば、音声合成部152は、境界部分96HIにおいて境界94HIから注視位置P2までの距離に比例して、集音装置70Hから取得された領域92Hの音声の割合を増加させるように、合成音声を生成してもよい。
【0070】
このような処理を行うケースにおいて、例えば、注視位置P2が領域92Iから境界94を超えて領域92Hに移動するとする。この場合、注視位置P2が境界部分96HIの外側の領域92Iにあるときは、ユーザは、領域92Iに関する音声のみを聴取する。そして、注視位置P2が境界部分96HIに進入すると、ユーザに提供される音声において、徐々に、領域92Hに関する音声の割合が大きくなっていく。そして、注視位置P2が境界94HI上に到達すると、ユーザに提供される音声において、領域92Iに関する音声と領域92Hに関する音声との割合が同じとなる。そして、さらに注視位置P2が領域92H側に移動すると、ユーザに提供される音声において、領域92Hに関する音声の割合の方が、領域92Iに関する音声の割合よりも大きくなる。そして、ユーザに提供される音声において、徐々に、領域92Hに関する音声の割合がさらに大きくなっていき、注視位置P2が境界部分96HIを脱出すると、ユーザは、領域92Hに関する音声のみを聴取することとなる。このように、注視位置が境界部分96にある場合に合成音声をユーザに提供することによって、注視位置が境界94を跨いで移動するときに、ユーザが聴取している音声が急に変化するといった違和感を抑制することができる。
【0071】
図6の説明に戻る。ユーザに音声を提供した(S122又はS132)後、音声処理装置100は、S104~S106の処理を行う(ステップS140)。つまり、方向判定部140は、ユーザの向いている方向を判定し(S104)、注視位置判定部150は、ユーザの注視位置を判定する(S106)。そして、注視位置判定部150は、注視位置が移動したか否かを判定する(ステップS142)。具体的には、注視位置判定部150は、今回のS106の処理で判定された注視位置が前回のS106の処理で判定された注視位置から変化したか否かを判定する。なお、注視位置判定部150は、注視位置の移動範囲が予め定められた範囲以内であれば、注視位置が移動していないと判定してもよい。
【0072】
注視位置が移動していないと判定された場合(S142のNO)、音声提供部160は、前回の処理で判定された注視位置に対応する音声を、引き続き、ユーザに提供する(ステップS144)。つまり、前回の処理で注視位置が境界部分96にないと判定された場合(S120のNO)は、音声提供部160は、注視位置に対応する領域92の音声をユーザに提供する(S122)。一方、前回の処理で注視位置が境界部分96にあると判定された場合(S120のYES)、音声提供部160は、境界部分96に対応する合成音声をユーザに提供する(S132)。そして、処理フローはS140に戻る。
【0073】
一方、注視位置が移動したと判定された場合(S142のYES)、処理フローはS110に戻る。つまり、注視位置判定部150は、注視位置がフィールド90に対応するか否かを判定する(S110)。注視位置がフィールド90に対応しないと判定された場合(S110のNO)、注視位置判定部150は、フィールド90の音声をユーザに提供しないと判定する。一方、注視位置がフィールド90に対応すると判定された場合(S110のYES)、注視位置判定部150は、フィールド90の音声をユーザに提供すると決定する。そして、S120以降の処理が繰り返される。このようにして、ユーザは、フィールド90を注視している場合は、注視位置に対応する音声を、継続して聴取することができる。
【0074】
(実施の形態2)
次に、実施の形態2について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。なお、実施の形態2にかかるシステム構成については、
図3に示したものと実質的に同様であるので、説明を省略する。また、実施の形態2にかかる音声処理装置100の構成は、
図4に示したものと実質的に同様であるので、説明を省略する。実施の形態2は、ユーザがフィールド90の外の特定の領域を注視した場合でもユーザに特定の音声を提供する点で、実施の形態1と異なる。
【0075】
図9は、実施の形態2にかかる音声処理装置100によって実行される音声処理方法を示すフローチャートである。なお、S200~S244の処理は、それぞれ、
図6に示したS100~S144の処理と実質的に同様であるので、説明を省略する。S210のNOの場合の処理が、実施の形態1の場合の処理と異なる。
【0076】
注視位置がフィールド90に対応しないと判定された場合(S210のNO)、注視位置判定部150は、ユーザがフィールド90を注視していないと判定する。この場合、注視位置判定部150は、フィールド90の音声をユーザに提供しないと判定する。ここで、実施の形態2では、注視位置判定部150は、さらに、注視位置がフィールド90の外の特定領域に対応するか否かを判定する(ステップS212)。具体的には、注視位置判定部150は、特定領域の位置(範囲)を示す特定領域位置情報を用いて、注視位置に対応する注視座標が特定領域に含まれるか否かを判定する。
【0077】
注視位置がフィールド90の外の特定領域に対応すると判定された場合(S212のYES)、注視位置判定部150は、ユーザがフィールド90の外の特定領域を注視していると判定する。この場合、注視位置判定部150は、注視している特定領域に対応する音声をユーザに提供すると決定する。音声提供部160は、特定領域に対応する音声をユーザに提供する(ステップS214)。そして、処理フローはS240に進む。
【0078】
ここで、特定領域に対応する音声は、集音装置70から取得された音声とは異なる予め定められた音声であり得る。特定領域に対応する音声は、例えば、現在、フィールド90で行われているイベントの解説に関する音声であってもよい。フィールド90で行われているイベントがスポーツである場合、特定領域に対応する音声は、スポーツの解説、実況、試合経過、チーム紹介等を示す音声であってもよい。あるいは、特定領域に対応する音声は、例えば、イベントに関連しない広告等に関する音声であってもよい。
【0079】
一方、注視位置がフィールド90の外の特定領域に対応しないと判定された場合(S212のNO)、注視位置判定部150は、ユーザがフィールド90も特定領域も注視していないと判定する。この場合、注視位置判定部150は、フィールド90及び特定領域に対応する音声をユーザに提供しないと判定する。この場合、処理フローはS204に戻る。
【0080】
図10は、実施の形態2にかかるフィールド90の外の特定領域を説明するための図である。
図10には、フィールド90と、フィールド90の周囲に設けられたスタンドの観客席80(80A~80C)とが示されている。この場合、特定領域位置情報は、観客席80の少なくとも一部を含む範囲を、特定領域82(82A~82C)としてもよい。したがって、フィールド90の外のある位置を指定すると、その位置が特定領域82A~82Cのいずれかに対応するか否かを、把握することができる。そして、ユーザが特定領域82A~82Cのいずれかを注視すると、集音装置70によって収集された音声とは異なる音声を聴取することができる。なお、特定領域は、観客席80に対応するものである必要はない。
【0081】
なお、特定領域82A~82Cについて同じ音声が対応付けられてもよいし、特定領域82A~82Cそれぞれについて別の音声が対応付けられていてもよい。例えば、イベントがサッカーの試合である場合、特定領域82Aには、試合の途中経過を説明するための音声、又は実況の音声が対応付けられていてもよい。また、特定領域82Bには、一方のチームの紹介又はそのチームの試合成績を説明するための音声が対応付けられていてもよい。一方、特定領域82Cには、他方のチームの紹介又はそのチームの試合成績を説明するための音声が対応付けられていてもよい。また、
図10には示されていないが、フィールド90の外に掲示された広告板の少なくとも一部を含む範囲を特定領域82としてもよく、その特定領域82には、その広告板に対応する広告を示す音声が対応付けられていてもよい。また、ユーザ機器60がARグラスである場合、ユーザ機器60は、ユーザが特定領域82A~82Cを注視したときに、注視した特定領域82に対応する音声とともに、注視した特定領域82に対応する映像を表示してもよい。
【0082】
実施の形態2にかかる音声処理装置100は、フィールド90の外の特定領域82をユーザが注視している場合に、その特定領域82に対応する音声をユーザに提供するように構成されている。これにより、ユーザは、フィールド90の各領域92の音声以外の、イベントの解説等の音声を聴取することができる。したがって、ユーザは、注視位置を変えるだけで、イベントの解説等の音声を選択的に聴取することができる。
【0083】
(実施の形態3)
次に、実施の形態3について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。なお、実施の形態3にかかるシステム構成については、
図3に示したものと実質的に同様であるので、説明を省略する。また、実施の形態3にかかる音声処理装置100の構成は、
図4に示したものと実質的に同様であるので、説明を省略する。実施の形態3は、多数のユーザが注視している領域の音声を他のユーザにも提供する点で、他の実施の形態と異なる。
【0084】
図11は、実施の形態3にかかる音声処理装置100によって実行される音声処理方法を示すフローチャートである。音声処理装置100は、複数のユーザについて、
図6に示したS100~S144の処理を行う(ステップS302)。次に、音声処理装置100の音声提供部160(又は注視位置判定部150)は、ある任意の領域92X(領域X;第1の領域)を注視するユーザがN人以上であるか否かを判定する(ステップS304)。つまり、音声提供部160(又は注視位置判定部150)は、N人以上のユーザが注視する領域92が存在するか否かを判定する。ここで、Nは、予め定められた数である。Nは、固定値であってもよいし、観客数又は収容可能人数に応じて設定されてもよい。例えば、Nは、観客席の全観客数の50%以上の数であり得る。つまり、Nは、イベントの観客数の半数以上の数であり得る。
【0085】
全ての領域92X(領域X)について注視するユーザがN人未満である場合、つまりN人以上のユーザが注視する領域92が存在しない場合(S304のNO)、後述するS306の処理は実行されず、処理フローは終了する。この場合、処理フローはS302の処理に戻ってもよい。一方、ある領域92Xを注視するユーザがN人以上である場合(S304のYES)、音声提供部160は、領域92Xを注視していない他のユーザに対して、領域92Xに関する音声を提供する(ステップS306)。つまり、予め定められた数以上のユーザである第1のユーザの注視位置が複数の領域92のうちの領域92X(第1の領域)に対応する場合に、音声提供部160は、第1のユーザ以外のユーザに対して、領域92Xに関する音声を提供するための処理を行う。
【0086】
例えば、
図5の例において、N人以上のユーザが領域92Bを注視していて、ユーザYがフィールド90を注視していないとする。また、この場合にユーザZが領域92Hを注視しているとする。この場合、音声提供部160は、ユーザY及びユーザZに対して、領域92Bの音声を提供する。ここで、ユーザY及びユーザZの音声出力装置62に複数のスピーカ又はイヤホン(右側及び左側のスピーカ又はイヤホン等)が備わっている場合、1つのスピーカ又はイヤホンから領域92Bの音声が出力されるようにしてもよい。
【0087】
実施の形態3にかかる音声処理装置100は、多数のユーザが注視している領域92の音声を他のユーザにも提供するように構成されている。ここで、多数のユーザが注視している領域92では、注目度が高く、極めて興味深い出来事が起こっている可能性が高い。したがって、実施の形態3にかかる構成により、注目度が高く、極めて興味深い出来事を見ていないユーザにも、その出来事に関する音声を提供することができる。
【0088】
(変形例)
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述した複数の実施の形態は、相互に適用可能である。例えば、実施の形態3にかかる構成を実施の形態2に組み合わせてもよい。他の実施の形態についても同様である。
【0089】
また、上述したフローチャートにおいて、各処理(ステップ)の順序は、適宜、変更可能である。また、複数ある処理(ステップ)のうちの1つ以上は、省略されてもよい。例えば、
図6のS108の処理はなくてもよい。また、
図6のS120,S130,S132の処理はなくてもよい。つまり、注視位置が境界部分96である場合でも合成音声をユーザに提供する必要はない。
図9においても同様である。
【0090】
また、
図6のS142の処理で、注視位置が移動したと判定された場合、その移動加速度が予め定められた値よりも大きい場合に、音声の提供を停止してもよい。注視位置の移動加速度が大きい場合、ユーザが音声の提供を望まない可能性があるからである。
【0091】
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0092】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0093】
この出願は、2020年3月26日に出願された日本出願特願2020-56340を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【符号の説明】
【0094】
1 音声処理装置
2 位置関係特定部
4 音声取得部
6 方向判定部
8 注視位置判定部
10 音声提供部
50 音声処理システム
52 ネットワーク
60 ユーザ機器
61 通信部
62 音声出力装置
64 撮影装置
66 姿勢検出部
68 視線検出部
69 表示部
70 集音装置
80 観客席
82 特定領域
90 フィールド
92 領域
94 境界
96 境界部分
100 音声処理装置
112 ユーザ情報格納部
114 フィールド情報格納部
120 位置関係特定部
130 音声取得部
140 方向判定部
150 注視位置判定部
152 音声合成部
160 音声提供部