(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023116109
(43)【公開日】2023-08-22
(54)【発明の名称】情報処理装置、情報処理システムおよび情報処理方法
(51)【国際特許分類】
B06B 1/04 20060101AFI20230815BHJP
G06F 3/01 20060101ALI20230815BHJP
G10L 25/21 20130101ALI20230815BHJP
G10L 21/16 20130101ALI20230815BHJP
G10L 25/51 20130101ALI20230815BHJP
H04R 1/00 20060101ALI20230815BHJP
H04N 21/439 20110101ALI20230815BHJP
H04R 3/00 20060101ALI20230815BHJP
【FI】
B06B1/04 S
G06F3/01 560
G10L25/21
G10L21/16
G10L25/51
H04R1/00 310G
H04N21/439
H04R3/00 310
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022018701
(22)【出願日】2022-02-09
(71)【出願人】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】広見 怜
(72)【発明者】
【氏名】塩津 真一
(72)【発明者】
【氏名】三木 好州
(72)【発明者】
【氏名】中条 井紅
【テーマコード(参考)】
5C164
5D017
5D107
5D220
5E555
【Fターム(参考)】
5C164GA07
5C164MA07S
5C164PA41
5C164UB01S
5C164UB08P
5C164UB41S
5C164YA21
5D017AA12
5D107AA20
5D107BB08
5D107CC01
5D107CC09
5D107CD03
5D107CD08
5D220AA34
5E555AA08
5E555AA76
5E555BA02
5E555BA15
5E555BA16
5E555BA17
5E555BA87
5E555BA88
5E555BA89
5E555BB15
5E555BB16
5E555BB17
5E555BC13
5E555CB74
5E555CC01
5E555DA24
5E555DC84
5E555DD06
5E555DD08
5E555EA14
5E555EA25
5E555FA00
(57)【要約】
【課題】コンテンツの臨場感の向上に関する臨場感パラメータの設定の効率化を図ること。
【解決手段】実施形態に係る情報処理装置は、入力されたコンテンツに応じた振動信号を出力する。また、情報処理装置は、コンテンツから振動の発生源とする振動発生対象物を選定する。また、情報処理装置は、コンテンツにおける選定した振動発生対象物に対応する音響信号を加工して振動信号を生成する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
入力されたコンテンツに応じた振動信号を出力する情報処理装置であって、制御部を有し、
前記制御部は、
コンテンツから振動の発生源とする振動発生対象物を選定し、
コンテンツにおける前記選定した振動発生対象物に対応する音響信号を加工して振動信号を生成する
情報処理装置。
【請求項2】
前記制御部は、
コンテンツにおける振動発生対象物が発生する音声の低域特性を推定し、
前記推定した低域特性に基づき振動発生対象物を選定する
請求項1に記載の情報処理装置。
【請求項3】
前記音声の低域特性は、低域信号レベルであり、
前記制御部は、推定した低域信号レベルが閾値を超える振動発生対象物を選定する
請求項2に記載の情報処理装置。
【請求項4】
前記閾値は、コンテンツ種別に応じて設定される
請求項3に記載の情報処理装置。
【請求項5】
前記制御部は、
振動発生対象物が登場するシーンにおけるシーン種別を判定し、
振動発生対象物に対応する音響信号を、判定したシーン種別に応じて加工して振動信号を生成する
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記制御部は、
前記振動発生対象物の候補となる対象物候補から発生する振動信号への影響が大きい対象物候補を推定し、前記振動発生対象物として選定する、
請求項1から5のいずれか1項に記載の情報処理装置。
【請求項7】
XRコンテンツを再生する情報処理装置と、
前記情報処理装置から出力される映像信号に応じて映像を表示する表示装置と、
前記情報処理装置から出力される音声信号に応じて音声を発生させる音声出力デバイスと、
前記情報処理装置から出力される振動信号に応じた振動をユーザに印加する振動デバイスと
を備え、
前記情報処理装置は、
コンテンツから振動の発生源とする振動発生対象物を選定し、
コンテンツにおける前記選定した振動発生対象物に対応する音響信号を加工して振動信号を生成する
情報処理システム。
【請求項8】
入力されたコンテンツに応じた振動信号を出力する情報処理方法であって、
コンテンツから振動の発生源とする振動発生対象物を選定し、
コンテンツにおける前記選定した振動発生対象物に対応する音響信号を加工して振動信号を生成する
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システムおよび情報処理方法に関する。
【背景技術】
【0002】
従来、HMD(Head Mounted Display)等を用いてユーザに対し、VR(Virtual Reality)やAR(Augmented Reality)、MR(Mixed Reality)といった仮想空間体験を含むデジタルコンテンツ、いわゆるXR(Cross Reality)コンテンツを提供する技術が知られている。XRは、VR、AR、MRのほか、SR(Substitutional Reality)、AV(Audio/Visual)等を含むすべての仮想空間技術をまとめた表現である。
【0003】
また、例えば、ユーザが視聴する映像に応じた振動をユーザへ与えることで、映像に対する臨場感の向上を図る技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、臨場感に関する臨場感パラメータは人手によって予め設定しておかなければならず、臨場感パラメータの設定に際し、人手による膨大な工数の作業を必要としていた。
【0006】
本発明は、上記に鑑みてなされたものであって、コンテンツの臨場感の向上に関する臨場感パラメータの設定の効率化を図ることができる情報処理装置、情報処理システムおよび情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、入力された信号に応じた振動をユーザに印加する振動デバイスを制御する制御部を備える。制御部は、入力されたコンテンツから、対象物から音声が発生しているシーンを検出する。制御部は、前記シーンに対応するパラメータであって、前記振動デバイスを制御するパラメータを抽出する。制御部は、前記対象物から発生する音声の信号を加工して得られた信号を、前記パラメータを用いて強調処理した信号を前記振動デバイスへ出力する。
【発明の効果】
【0008】
本発明によれば、コンテンツの臨場感の向上に関する臨場感パラメータの設定の効率化を図ることができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、情報処理システムの概要を示す図である。
【
図2】
図2は、情報処理システムにおけるデータの流れを示す図である。
【
図3】
図3は、情報処理方法の概要を示す図である。
【
図5】
図5は、シーン情報DBの一例を示す図である。
【
図6】
図6は、シーン情報DBの一例を示す図である。
【
図7】
図7は、シーン情報DBの一例を示す図である。
【
図8】
図8は、優先順位情報DBの一例を示す図である。
【
図9】
図9は、パラメータ情報DBの一例を示す図である。
【
図12】
図12は、優先する対象物の決定方法の例を示す図である。
【
図15】
図15は、情報処理装置が実行する処理手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して、本願の開示する情報処理装置、情報処理システムおよび情報処理方法の実施形態を詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。
【0011】
まず、
図1、
図2および
図3を用いて、実施形態に係る情報処理システムおよび情報処理方法の概要について説明する。
図1は、情報処理システムの概要を示す図である。
図2は、情報処理システムにおけるデータの流れを示す図である。
図3は、情報処理方法の概要を示す図である。なお、以下では、XR空間(仮想空間)がVR空間である場合について説明する。
【0012】
図1に示すように、情報処理システム1は、表示装置3と、スピーカ4と、振動デバイス5とを含む。
【0013】
図2に示すように、情報処理装置10は、表示装置3に映像データを提供する。また、情報処理装置10は、スピーカ4に音声データを提供する。また、情報処理装置10は、振動デバイス5に振動データを提供する。
【0014】
図1に示すように、表示装置3は、例えば、ヘッドマウントディスプレイである。表示装置3は、ユーザに対し、情報処理装置10から提供されるXRコンテンツに関する映像データを提示し、ユーザにVR体験を享受させるための情報処理端末である。
【0015】
なお、表示装置3は、視界を完全に覆う非透過型であってもよいし、ビデオ透過型や光学透過型であってもよい。また、表示装置3は、センサ部によってユーザの内外の状況の変化を検知するデバイス、例えばカメラやモーションセンサ等を有する。
【0016】
スピーカ4は、音声を出力する音声出力デバイスで、例えばヘッドフォン型に設けられ、ユーザの耳に装着される。スピーカ4は、情報処理装置10から提供される音声データを音声として発生させる。なお、スピーカ4は、ヘッドフォン型に限らず、箱型(床等に設置)のものであってもよい。また、スピーカ4は、ステレオオーディオや、マルチチャンネルオーディオ型であってもよい。
【0017】
振動デバイス5は、電気磁気回路や圧電素子から構成される電気振動変換器から構成され、例えば、ユーザが着座するシートに設けられ、情報処理装置10から提供される振動データにあわせて振動する。なお、例えば、シートに対して複数の振動デバイス5が設けられ、情報処理装置10は、各振動デバイス5を個別に制御する。
【0018】
これらスピーカ4による音声や、振動デバイス5の振動、つまり波動デバイスによる波動を再生映像に適合させてコンテンツユーザに印加することにより、映像再生に関してより臨場感を増すことが可能となる。
【0019】
情報処理装置10は、コンピュータにより構成されており、有線または無線で表示装置3と接続され、表示装置3に対し、XRコンテンツの映像を提供する。また、情報処理装置10は、例えば、表示装置3に設けられたセンサ部によって検知された状況の変化を随時取得し、かかる状況の変化をXRコンテンツに反映させる。
【0020】
例えば、情報処理装置10は、センサ部によって検知されたユーザの頭部や視線の変化に応じて、XRコンテンツの仮想空間における視界の向きを変化させることが可能である。
【0021】
ところで、XRコンテンツを提供するにあたり、スピーカ4から発生する音声をシーンにあわせて強調する、あるいは、シーンにあわせて振動デバイス5を振動させることで、XRコンテンツの臨場感の向上を図ることができる。
【0022】
しかしながら、これら臨場感の向上を図るための臨場感制御に用いるパラメータ(以下、臨場感パラメータ)は、XRコンテンツの制作後に、人手で設定する必要があり、臨場感パラメータの設定に膨大な作業を必要としていた。
【0023】
そこで、情報処理方法では、これら臨場感パラメータの設定の自動化を図ることとした。例えば、
図3に示すように、まず、実施形態に係る情報処理方法では、XRコンテンツに関する映像データおよび音声データから所定条件を満たすシーンを検出する(ステップS1)。
【0024】
ここでの所定条件とは、例えば、対応する映像データまたは音声データが臨場感パラメータの設定を要するシーンであるか否かに関する条件であり、例えば、XRコンテンツ内部の状況に関する条件式によって定義される。
【0025】
すなわち、情報処理方法では、XRコンテンツ内部の状況が条件式によって定義される条件を満たした場合に、所定条件を満たすシーンとして検出する。これにより、情報処理方法では、映像データを詳細に解析するなどといった処理を不要とするので、シーン検出の処理負荷の軽減を図ることができる。
【0026】
つづいて、情報処理方法では、シーン検出によって検出したシーンに対して優先順位を設定する(ステップS2)。ここで、優先順位とは、どのシーンの臨場感パラメータを優先すべきかといった順位を示す。すなわち、情報処理方法では、複数のシーンが時間的に重複する場合に、どのシーンの臨場感パラメータを優先すべきかをシーン毎に予め定義しておく。
【0027】
これにより、複数のシーンが重複する場合においても、ユーザに対し適切な臨場感を提供することができる。なお、後述するように、情報処理方法では、音声に関する優先順位と、振動に関する優先順位とをそれぞれ個別に設定する。
【0028】
つづいて、情報処理方法では、シーン毎に臨場感パラメータを抽出する(ステップS3)。例えば、情報処理方法では、シーンと臨場感パラメータとの関係性が予め定義されたパラメータ情報を用いて、シーン毎に臨場感パラメータを抽出する。
【0029】
この際、情報処理方法では、優先順位に応じて、対応する臨場感パラメータを抽出する。具体的には、例えば、情報処理方法では、優先順位が低いシーンと、優先順位が高いシーンとが重複する場合、優先順位が高いシーンの臨場感パラメータを抽出することになる。
【0030】
情報処理方法では、抽出した臨場感パラメータのうち、音声強調パラメータを用いて、音声データを強調する音声強調処理を行い(ステップS4)、スピーカ4へ出力する。また、情報処理方法では、音声データを振動データへ変換する振動変換処理を行い、抽出した臨場感パラメータのうち、振動パラメータを用いて振動データを強調したうえで(ステップS5)、振動デバイス5へ出力する。
【0031】
これにより、情報処理方法では、ユーザが視聴するシーンにあわせて強調された音声や、シーンに応じた振動をユーザに対し提供することができる。
【0032】
このように、実施形態に係る情報処理方法では、XRコンテンツからシーンを検出し、優先順位を設定したうえで、シーンに対して音声処理と振動処理を含む波動制御に関する臨場感パラメータを抽出する。したがって、実施形態に係る情報処理方法によれば、コンテンツの臨場感の向上に関する臨場感パラメータの設定を自動化することができる。
【0033】
次に、
図4を用いて、実施形態に係る情報処理装置10の構成例について説明する。
図4は、情報処理装置10のブロック図である。
図4に示すように、情報処理装置10は、制御部120と、記憶部130とを備える。
【0034】
記憶部130は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
図4の例では、記憶部130は、XRコンテンツDB(Database)131と、シーン情報DB132と、優先順位情報DB133と、パラメータ情報DB134とを有する。
【0035】
XRコンテンツDB131は、表示装置3へ表示されるXRコンテンツ群が格納されたデータベースである。シーン情報DB132は、検出するシーンに関する各種情報を記憶するデータベースである。
【0036】
図5~
図7は、シーン情報DB132の一例を示す図である。
図5に示すように、例えば、シーン情報DB132は、「検出シーン」、「条件カテゴリ」、「対象物」、「条件パラメータ」、「閾値」および「条件式」といった項目の情報を互いに対応付けて記憶する。
【0037】
「検出シーン」は、検出するシーンの名称を示す。なお、「検出シーン」は識別記号の働きを行うもので、数値等のコードが通常利用されるが、本例では説明を分かりやすくするため名称(重複禁止)を用いている。「条件カテゴリ」は、どのような情報を根拠にシーンを検出するかといったカテゴリを示す。同図に示す例では、ユーザと対象物の位置関係、ユーザの動作、ユーザが存在する空間情報、ユーザが存在する時間情報あるいは対象物から音声が発生などとったカテゴリに大別される。なお、ここでのユーザは、XR空間内の操作者自身を示す。
【0038】
「対象物」は、シーン検出のための対象物を示す。同図に示す例では、物体1、物体2、ユーザ、空間1、空間1+物体3、コンテンツ1、物体4、物体5、物体6などといった情報が対象物に対応する。ここで、物体1、物体2、物体3、物体4、物体5、物体6は、それぞれXR空間内の異なるオブジェクトを示す。また、空間1は、例えば、ユーザが存在するXR空間内の空間を示し、コンテンツ1は、例えば、XR空間内における所定のイベントを示す。
【0039】
「条件パラメータ」は、シーン検出を行うにあたり、どのパラメータを用いるかといったパラメータに関する条件を示す。同図に示すように、例えば、距離、角度、速度、加速度、回転速度、空間の中、物体の存在、数量、開始時刻~終了時刻、音声パターンなどといった情報が対応付けられる。
【0040】
「閾値」は、条件パラメータに対応する閾値を示す。また、「条件式」は、検出シーンを検出するための条件式を示し、例えば、条件パラメータと閾値との関係が条件式として定義される。
【0041】
図5では、説明のため、「シーンW」、「物体4」、「パターンw」のように、各項目値は「W」、「4」、「w」といった符号を用いて表記されているが、実際には、各項目値は具体的な意味が理解可能な態様のデータが記憶されることになる。
【0042】
例えば、「シーンW」、「シーンX」、「シーンY」、「シーンZ」は、実際には、それぞれ例えば「象の歩行シーン」、「馬の歩行シーン」、「車の走行シーン」、「車の急旋回シーン」と言ったデータとなる。
【0043】
その場合、「物体4」、「物体5」、「物体6」は、実際には、それぞれ例えばそれぞれ「馬」、「象」、「車」と言ったデータとなる。
【0044】
さらに、「パターンw」、「パターンx」、「パターンy」、「パターンz」は、実際には、それぞれ例えば「馬の歩行音のパターン」、「象の歩行音のパターン」、「車の走行音のパターン」、「タイヤのスキール音のパターン」と言ったデータとなる。
【0045】
なお、音声パターンは、例えば音声の特徴量を要素とする特徴量ベクトル等によって表される。例えば、特徴量は、音声信号に対してスペクトル分解を行うことによって得られるものであってもよい(例えば、メルフィルタバンクまたはケプストラム)。
【0046】
そして、2つの音声パターンのそれぞれに対応する特徴量ベクトル間の類似度(例えば、コサイン類似度、ユークリッド距離)が閾値以上である場合に、当該2つの音声パターンは類似しているということができる。
【0047】
例えば、「音声パターンがパターンwに類似」は、シーンにおいて発生している音声から算出された特徴量ベクトルと、パターンwに相当する音声の特徴量ベクトルとの類似度が閾値以上であることを意味する。
【0048】
なお、音声パターンの類似に関する閾値についても、シーン情報DB132の「閾値」に含まれていてよい。
【0049】
また、情報処理装置10では、例えば、
図5に示した条件カテゴリあるいは条件パラメータを組み合わせてシーンを検出することにしてもよい。例えば、
図6に示すように、複数シーンの条件カテゴリを組み合わせて検出シーンを設定することにしてもよく、また、
図7に示すように、複数シーンの条件パラメータを組み合わせて検出シーンを設定することにしてもよい。
【0050】
例えば、このように、条件カテゴリや条件パラメータを組み合わせることで、新たな検出シーンの設定を簡略化することができる。
【0051】
図4の説明に戻り、優先順位情報DB133について説明する。例えば、実施形態に係る情報処理装置10では、各シーンに対してルールベースで優先順位を設定する。優先順位情報DB133は、臨場感パラメータの優先順位に関する各種情報を記憶する。
図8は、優先順位情報DB133の一例を示す図である。
【0052】
図8に示すように、例えば、優先順位情報DB133は、「ルール番号」および「優先順位ルール」といった項目の情報を互いに対応付けて記憶する。「ルール番号」は、優先順位ルールを識別するための番号を示し、「優先順位ルール」は、優先順位に関するルールを示す。
【0053】
同図に示す「先に検出したシーンを優先」および「後に検出したシーンを優先(後のシーンになったら切替)」は、それぞれ時間的に先あるいは後にくるシーンの臨場感パラメータを優先することを示す。これにより、例えば、シーンの優先度の設定に際し、ルールを容易化することができる。
【0054】
また、「特定のパラメータの重みが大きい方を優先」は、臨場感パラメータのうち、音声強調パラメータあるいは振動パラメータのいずれかが大きい方のシーンの臨場感パラメータを優先することを示す。
【0055】
すなわち、この場合においては、音声強調パラメータあるいは振動パラメータが大きい方のシーンに対して抽出された臨場感パラメータが設定されるので、強調すべき音声データあるいは振動データに連動した臨場感パラメータを提供することができる。
【0056】
また、「パラメータそれぞれの重みが大きい方を優先」は、臨場感パラメータのうち、音声強調パラメータ同士あるいは振動パラメータ同士で大きい方のシーンの臨場感パラメータそれぞれを優先することを示す。このルールの場合、音声強調パラメータと、振動パラメータでそれぞれ異なるシーンのパラメータが用いられる場合もある。
【0057】
すなわち、この場合においては、振動データおよび音声データそれぞれについて、値の大きい臨場感パラメータで強調することができるので、振動データおよび音声データそれぞれの臨場感を向上させることができる。なお、ここでの重みの大小は、例えば、パラメータの値の大小を示す。
【0058】
また、「シーンが短い方のパラメータを優先」は、時間長が短いシーンの臨場感パラメータを優先することを示す。時間が長いシーンの再生時において、時間が短いシーンが割り込みしてきた場合、時間が短いシーンの間は、当該シーンの臨場感パラメータが優先的に設定されることになる。
【0059】
これにより、例えば、時間が短いシーンを適切に強調することができる。なお、シーンが長い方のパラメータを優先するようなルールを設定することにしてもよい。
【0060】
また、「低域の振幅が大きい方を優先」は、対象物が音声を発生させているシーンが同時発生した場合に、低域(例えば、500Hz未満)の振幅が大きい音声を発生させている対象物に対応するシーンを優先することを示す。
【0061】
一般的に、生物が大型であるほど、当該生物の歩行音の低域の振幅が大きくなることが考えられる。このため、例えば、象の歩行シーンと馬の歩行シーンが検出された場合、「低域の振幅が大きい方を優先」というルールに従って、象の歩行シーンが優先されることになる。
【0062】
また、「音や映像の時間変動が大きいシーンを優先」は、対象物が発生させている音声の音量、または映像中における対象物の位置の、単位時間における変動が大きいシーンを優先することを示す。
【0063】
また、「視野の中心に近い対象物のシーンを優先」は、コンテンツの映像において、画面の中心に近い位置に位置する対象物に対応するシーンを優先することを示す。このルールについては、後に
図12を用いて説明する。
【0064】
また、「シーンWよりもシーンXを優先」は、シーンWとシーンXが検出された場合に、シーンXを優先することを示す。このように、特定の2つ以上のシーンについて、人(デザイナー、開発者)が事前に手動で優先ルールを定めておいてもよい。
【0065】
図4の説明に戻り、パラメータ情報DB134について説明する。パラメータ情報DB134は、シーン毎の臨場感パラメータに関する情報を記憶するデータベースである。
図9は、パラメータ情報DB134の一例を示す図である。
【0066】
図9に示すように、パラメータ情報DB134は、例えば、「シーン名」、「音声強調パラメータ」および「振動パラメータ」といった項目の情報を互いに対応付けて記憶する。
【0067】
「シーン名」は、上述した検出シーンの名称を示し、例えば、
図5等に示した「検出シーン」に対応する。なお、ここでは、説明を分かりやすくする観点から「シーン名」を爆発シーン、コンサートホールシーン、象の歩行シーン、馬の歩行シーン、車の走行シーン、車の急旋回シーンとして示している。
【0068】
「音声強調パラメータ」は、対応するシーンにおいて設定する音声強調パラメータを示す。例えば、
図9に示すように、音声強調パラメータは、「スピーカ1用」、「スピーカ2用」などのように、スピーカ4の個数に応じて、それぞれ各スピーカ4に対して個別のパラメータを記憶する。
【0069】
また、各スピーカ4に対しては、例えば、「ディレイ」、「帯域強調・減衰」といった音声処理に関する項目のパラメータの値を記憶する。例えば、「ディレイ」は、遅延させる時間に関するパラメータを示し、「帯域強調・減衰」は、どの帯域の音をどの程度、強調あるいは減衰させるかといったパラメータを示す。
【0070】
「振動パラメータ」は、対応するシーンにおいて設定する振動のパラメータを示し、「音声強調パラメータ」と同様に振動デバイス5の個数に応じて、それぞれ各振動デバイス5に対して個別のパラメータが記憶される。「振動パラメータ」として、例えば、「LPF(Low Pass Filter)」、「ディレイ」および「増幅」といった項目のパラメータがそれぞれ記憶される。
【0071】
「LPF」は、ローパスフィルタに関するパラメータ(ローパスフィルタのカットオフ周波数)を示し、「ディレイ」は、遅延させる時間に関するパラメータを示す。また、「増幅」は、どの程度、増幅あるいは減衰させるかといった振動処理に関するパラメータを示す。
【0072】
図4の説明に戻り、制御部120について説明する。制御部120は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部11に記憶されている図示略の各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部120は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することもできる。
【0073】
制御部120は、コンテンツ生成部121と、レンダリング処理部122と、シーン検出部123と、優先順位設定部124と、パラメータ抽出部125と、出力部126とを有し、以下に説明する情報処理の機能や作用を実現または実行する。
【0074】
コンテンツ生成部121は、XRコンテンツ内の空間に関する3Dモデルを生成する。例えば、コンテンツ生成部121は、XRコンテンツDB131を参照し、ユーザの現在のXRコンテンツ内の視野にあわせて、XRコンテンツ内の空間の3Dモデルを生成する。コンテンツ生成部121は、生成した3Dモデルをレンダリング処理部122へ渡す。
【0075】
レンダリング処理部122は、コンテンツ生成部121から受け取った3Dモデルから映像データや音声データへ変換するレンダリング処理を行う。レンダリング処理部122は、変換した映像データを表示装置3(
図2参照)へ出力するとともに、シーン検出部123へ渡す。また、レンダリング処理部122は、変換した音声データを出力部126およびシーン検出部123へ渡す。なお、コンテンツ生成部121およびレンダリング処理部122は、コンテンツから条件式の項目に対する条件データを算出する算出部としての機能を担う。
【0076】
シーン検出部123は、入力されたコンテンツから所定条件を満たすシーンを検出する。例えば、シーン検出部123は、レンダリング処理部122から入力される映像データおよびシーン情報DB132に記憶される条件式を用いて、臨場感パラメータを設定すべきシーンを検出する。
【0077】
この際、例えば、シーン検出部123は、例えば、レンダリング処理部122からXR空間内のオブジェクトの座標情報およびオブジェクト種別に関する情報を受け取り、条件式を用いて、臨場感パラメータを設定すべきシーンを検出する。
【0078】
なお、シーン検出部123は、例えば、XRコンテンツがMRコンテンツである場合には、例えば、MR空間内を撮影した画像に対する画像解析を行うことで、MR空間内のオブジェクトの認識あるいはオブジェクトの座標の算出を行うようにしてもよい。
【0079】
図10は、シーン検出部123のブロック図である。
図10に示すように、例えば、シーン検出部123は、シーン判定部123aおよび条件設定部123bを備える。シーン判定部123aは、シーン情報DB132に記憶されるシーン判定のための各条件データ(条件式)を用いて、映像データ内の状況が各シーンの検出条件を満たすか否かを判定する。
【0080】
より具体的には、例えば、
図5に示したように、シーン判定部123aは、ユーザと対象物(XR空間内のオブジェクト)との位置関係、ユーザの動作、ユーザが存在する空間情報等の条件式の項目に対するデータ(コンテンツからコンテンツ生成部121あるいはレンダリング処理部122によって算出)に基づき、現在のXR空間の状況が予め定義された各検出シーンに対応するか否かを判定する。
【0081】
ここで、シーン判定部123aは、XR空間内のユーザの動き、オブジェクトの座標情報およびオブジェクト種別に関する情報、空間情報などといったコンテンツ生成部121あるいはレンダリング処理部122によって既に算出されたテキスト情報的なデータを用いて、シーン検出処理を行う。
【0082】
これにより、例えば、CPUの性能が比較的低い場合であっても、レンダリング処理部122によるレンダリング処理等の比較的処理負荷が重い処理と並列してシーン検出~臨場感パラメータの抽出処理等の処理を行うことが可能となる。
【0083】
また、この際、例えば、シーン判定部123aは、例えば、
図6に示したように、条件カテゴリの組みあわせ、あるいは、
図7に示したように、条件パラメータの組み合わせをも含むシーン判定用情報に基づいて、現在のXR空間の状況が各検出シーンに対応するか否かを判定することにしてもよい。
【0084】
そして、シーン判定部123aは、検出シーンに対応すると判定した場合、当該映像データに対する検出シーン情報を、優先順位設定部124(
図4参照)へ渡す。なお、シーン判定部123aによっていずれの検出シーンにも対応しないと判定された場合には、該当の検出シーンで無いとして臨場感パラメータは初期状態(該当の検出シーンで無い場合の臨場感パラメータ)に戻されることになる。また、シーン判定部123aは、現在のXR空間の状況が複数の検出シーンに対応すると判定した場合、判定された複数の検出シーンを優先順位設定部124へ渡す。
【0085】
また、ここでは、シーン判定部123aが映像データに基づいて、検出シーンか否かを判定する場合について説明したが、シーン判定部123aは、音声データに基づいて検出シーンか否かを判定することにしてもよい。
【0086】
例えば、シーン判定部123aは、入力されたコンテンツにおいて対象物から音声が発生しているシーンを検出する。この場合の検出されたシーンは、条件カテゴリが「対象物から音声が発生」であるので、
図5のシーンW、シーンX、シーンY、シーンZ(象の歩行シーン、馬の歩行シーン、車の走行シーン、車の急旋回シーン)が候補シーンとなる。
【0087】
そして更に、シーン判定部123aは、コンテンツの音声信号から得られた特徴量ベクトルと、候補シーンにおける予め定められた音声の特徴量ベクトル(例えば、パターンw等)との類似度を算出し、当該類似度が閾値以上であるか否かを判定し、音声パターンが候補シーンの音声パターン条件を満足するか判断する。更に、シーン判定部123aは、入力されたコンテンツにおける対象物の距離が候補シーンにおける閾値以下(例えば、20m以下)かを判定し、対象物までの距離が候補シーンの閾値条件を満足するか判断する。そして、これら条件が満たされれば、シーン判定部123aは、候補シーンが検出シーン(例えば、シーンW)として決定される。
【0088】
条件設定部123bは、シーン検出のための各種条件式を設定する。条件設定部123bは、例えば、XRコンテンツの制作者や、ユーザにから入力される情報に基づいて、条件式を設定する。
【0089】
例えば、条件設定部123bは、制作者あるいはユーザからどのようなシーンに対してどのような臨場感を設定したいといった情報の入力を受け付け、かかるシーンの状況を条件式に落とし込む。そして、条件設定部123bは、条件式の設定毎に、条件式に関する情報をシーン情報DB132に書き込むとともに、対応する臨場感パラメータをパラメータ情報DB134へ書き込む。
【0090】
また、クラウドサーバ等にコンテンツ毎にシーン情報DB132およびパラメータ情報DB134を登録・保存しておき、条件設定部123bは、ユーザが視聴するコンテンツの情報を基に当該クラウドサーバ等から、コンテンツ視聴前にシーン情報およびパラメータ情報34を検索して取りこみ、シーン情報DB132およびパラメータ情報DB134に設定してもよい。
【0091】
条件設定部123bは、対象物が指定された低周波領域の音声を発生させるシーンを検出するための条件を設定することができるが、具体的には次のように設定する。例えば、20m以内に存在する象の歩行音(低周波領域の音声を含む)が含まれるシーンを検出する条件として、条件設定部123bは、「条件カテゴリ」が「対象物から音声が発生」、「対象物」が「象」、「条件パラメータ」が「距離」と「音声パターン」、「閾値」が「20m」と図示は省略するが「基準音声パターン(ここでは象)と音声パターン差に対する許容閾値(類似と判断できる差の最大)」、「条件式」が「距離が閾値より小」と「音声パターン差が許容閾値以下(音声パターンが類似)」を設定し、当該設定したデータのレコードを、シーン情報DB132に追加する(
図5のシーンWのレコードに相当)。
【0092】
なお、上記例では、条件設定部123bは、コンテンツにおけるシーンに対象物(例えば象)が存在していることを音声パターンを用いて判断する場合の条件を設定したが、映像解析を用いて(映像パターンを用いて)判断する場合の条件(例えば、「条件パラメータ」が「映像パターン」、「閾値」が「基準映像パターン(ここでは象)と映像パターン差に対する許容閾値(類似と判断できる差の最大)」、「条件式」が「映像パターン差が許容閾値以下(映像パターンが類似)」となる)を設定することにより、同様にシーンに対象物(例えば象)が存在しているシーンを映像で判断することができる。
【0093】
また、条件設定部123bは、パラメータ情報DB134の「振動パラメータ」の値を設定(初期設定・変更)する。主な設定方法は、上述の制作者あるいはユーザによる入力情報に基づくパラメータの設定方法と、コンテンツ種別等に基づく自動設定方法がある。
【0094】
具体的には、ユーザによる入力情報に基づくパラメータの設定方法は、ユーザがパラメータを設定(変更)するシーンおよび設定(調整)するパラメータ種別を選択し、アップダウン操作ボタン等の操作により当該シーンにおける設定対象のパラメータを変更する。なお、設定の際にはパラメータ設定対象シーンのテスト画像を表示し、また設定中のパラメータに基づく振動を発生することにより、振動を実感しながら設定するのが好ましい。
【0095】
また、コンテンツ種別等に基づく自動設定方法は、例えば再生するコンテンツの種別を検出し(コンテンツ情報に付与されたコンテンツ名称・種別情報等により判定、あるいはコンテンツ映像・音声の一部を解析して推測する)、検出されたコンテンツの種別に応じて各パラメータを補正する。尚、補正値はコンテンツ種別に応じて予め設定された補正値情報(装置設計者等が設定した装置内のメモリ等に記憶、あるいはサーバ(各装置から補正値情報を収集し、統計的処理を施すなどしてコンテンツ種別に応じた適切な補正値を記憶)から取得する)から取得する。
【0096】
これにより、シーン情報DB132およびパラメータ情報DB134の設定をより適切なものにすることができる。
【0097】
また、条件設定部123bは、コンテンツのシーンのうち、対象物から発生する低周波領域の音声の振幅が閾値を超えているシーンに対して、条件を設定するのが効率的である。
【0098】
つまり、ユーザ(人)が感じる臨場感に対して影響が大きい振動は低周波領域の振動であるので、このような低周波領域の振動がある程度大きい(例えば、振動に関してノイズと感じられる強度閾値(適度なオフセットを加えるのが好ましい)を超える振動)シーンに対して振動制御対象のシーンとして選定し、当該シーンにおけるパラメータを設定する。
【0099】
なお、このようなシーンはユーザ、コンテンツ創作者が設定する、あるいはサーバ(各装置から各種コンテンツのシーン情報、パラメータ情報等を収集し、統計的処理を施すなどして適切なシーン情報およびパラメータ情報を記憶)から取得する方法等が考えられる。
【0100】
また、上述の強度閾値は、コンテンツの種類(内容)によって定められてもよい。具体的には、コンテンツの種類(内容)と強度閾値のデータテーブルを予め作成しておき、条件を設定するシーン選択時に、対象のコンテンツに対応する強度閾値をデータテーブルから検索して、検索された強度閾値を用いて条件設定のシーンを選択する。
【0101】
例えば、コンテンツの種類には、ユーザに主として音楽を聴かせるためのミュージックビデオ、動物の生体を解説するための動物ドキュメンタリー等がある。
【0102】
ミュージックビデオにおける象の歩行シーンでは、音楽の妨げにならないようにするため、過度に振動を発生させない方がよい場合が多い。一方で、動物ドキュメンタリーにおける象の歩行シーンでは、臨場感を出すために振動を発生させた方がよい場合が多い。
【0103】
このため、ミュージックビデオにおける閾値を、動物ドキュメンタリーにおける閾値よりも低く設定する。この結果、条件設定部123bは、ミュージックビデオにおける象の歩行シーンを、動物ドキュメンタリーにおける象の歩行シーンより、振動を発生させる対象のシーンと設定されにくくなり、ミュージックビデオにおける象の歩行シーンにおいて不要な振動の印加が抑止されることになる。
【0104】
これにより、各シーンについて当該シーンを含むコンテンツに適した振動を発生させることが可能になる。
【0105】
なお、上記のシーン情報DB132およびパラメータ情報DB134の設定処理は、ユーザがコンテンツ視聴中に実際に行った振動の各種調整(ディレィ値等)に基づき新たなパラメータ値(たとえば、調整値自体あるいはオフセット等を加えた値)を設定する等により行われてもよい。
【0106】
これにより、情報処理装置10では、制作者あるいはユーザが要望したシーンを検出することが可能となり、検出したシーンに対して制作者あるいはユーザが要望した臨場感パラメータを設定することが可能となる。
【0107】
図4の説明に戻り、優先順位設定部124について説明する。優先順位設定部124は、シーン検出部123によって検出されたシーンに対して優先順位を設定する。
【0108】
例えば、優先順位設定部124は、優先順位情報DB133を参照し、シーン検出部123にて同時に複数種のシーンが検出判定された場合にどのシーンに対する処理を優先するかを選択する。なお、シーン検出部123が1つのシーンしか検出判定されなかった場合は、そのシーンが優先順位最上位となる。
【0109】
図11は、優先順位設定部124のブロック図である。例えば、
図11に示すように、優先順位設定部124は、タイミング検出部124aと、ルール設定部124bとを有する。
【0110】
タイミング検出部124aは、シーン検出部123にて検出したシーンの発生するタイミングとその終了するタイミングを検出する。例えば、タイミング検出部124aは、シーン検出部123からの各時点のシーン情報に基づき、各時点で存在する各シーン(重複状態も把握)、存在するシーンの発生タイミング、存在したシーンが消去したタイミング等を検出する。つまり、タイミング検出部124aは、各時点では存在している全シーンの状態をその発生順位も含めて把握することになる。
【0111】
ルール設定部124bは、シーン検出部123にて検出されたシーンに対して、臨場感パラメータの決定に使用するシーンの優先順位を設定する。つまり、タイミング検出部124aで把握された存在する全シーンの状態に基づき、その時点で用いる臨場感パラメータをどのシーンに紐づけられたパラメータを優先的に用いるか決定するため、検出シーンについて優先順位を設定する。これにより、情報処理装置10では、当該優先順位に応じた臨場感パラメータを設定することができる。
【0112】
すなわち、情報処理装置10では、予め各シーンに対して優先順位条件を設定しておくことで、シーンAとシーンBとが時間的に重複する場合において、どちらのシーンの臨場感パラメータを優先して使用すべきかを適切に決定することができる。
【0113】
例えば、ルール設定部124bは、優先順位情報DB133を参照し、音声強調パラメータおよび振動パラメータのそれぞれに対し、使用するパラメータの決めるシーンの優先順位を設定する。この際、ルール設定部124bは、例えば、スピーカ4毎、振動デバイス5毎にそれぞれ独立した優先順位ルールに基づきパラメータ選択に使用するシーンを設定することにしてもよい。
【0114】
これにより、それぞれのスピーカ4およびそれぞれの振動デバイス5では、独自のルールにしたがって臨場感パラメータが設定されるので、一律に臨場感パラメータを設定する場合に比べて、さらなる臨場感の向上を図ることができる。
【0115】
また、ルール設定部124bは、設定したルールに関する情報を映像データおよび音声データに対応付けてパラメータ抽出部125(
図4参照)へ渡す。
【0116】
図4の説明に戻り、パラメータ抽出部125について説明する。パラメータ抽出部125は、シーン検出部123によって検出されたシーンに対して臨場感パラメータを抽出する。
【0117】
図13は、パラメータ抽出部125のブロック図である。
図13に示すように、パラメータ抽出部125は、振動パラメータ抽出部125aと、音声強調パラメータ抽出部125bと、学習部125cとを有する。
【0118】
振動パラメータ抽出部125aは、パラメータ情報DB134を参照し、優先順位設定部124により優先順位最上位とされたシーンに対応する振動パラメータを抽出する。例えば、振動パラメータ抽出部125aは、優先順位設定部124から受け取った優先順位最上位の「検出シーン」に対応する振動パラメータをパラメータ情報DB134から抽出することで、シーンに対応する振動パラメータを抽出する。
【0119】
つまり、シーン検出部123が音声を発生させる対象物が互いに異なる時間的に重複する複数のシーンを検出した場合に、パラメータ抽出部125は、優先度の高い、すなわち振動によりユーザがより臨場感を感じると推定されるシーンを選択し、当該シーンに対応する振動生成のパラメータを抽出することが可能となる。その結果、複数のシーンが重複するコンテンツ再生期間においても、適切なパラメータによる臨場感豊かな振動を生成することができる。
【0120】
具体的には、
図8に示した優先順位情報DBの優先順位ルール、各シーンに対する優先順位条件(
図5に示したシーン情報DBに設定記憶しておく)の設定内容により、シーン検出部123がこのようなシーン選択処理を行なうことを実現できる。
【0121】
例えば、シーン検出部123は、象が歩行音を発生させるシーン(象の歩行シーン)と、馬が歩行音を発生させるシーン(馬の歩行シーン)とが検出された場合、パラメータ抽出部125は、「低域の振幅が大きい方を優先」というルールに従い、象の歩行シーンを優先する。これにより、現実世界でも主に感じる振動である象の歩行による振動を再現する振動がコンテンツ再生(例えば仮想空間)でもユーザに印加され、ユーザは臨場感豊かな、つまり現実に近い振動感を得ることができる。
【0122】
また、シーン検出部123が音声を発生させる対象物が互いに異なる時間的に重複する複数のシーンを検出した場合に、パラメータ抽出部125は、コンテンツに含まれる画像における、複数のシーンのそれぞれに対応する対象物の種別、および位置に基づいて複数のシーンの中から選択したシーンに対応するパラメータを抽出する方法を適用することもできる。
【0123】
具体的には、
図8に示した優先順位情報DBの優先順位ルール、各シーンに対する優先順位条件(
図5に示したシーン情報DBに設定記憶しておく)の設定内容(本例の場合は、優先順位条件に対象物の種別(m)と対象物までの距離(d)の関数値F(M、d)を加え、優先順位ルールに関数値F(M、d)による条件(例えば、関数値「F(M、d)」が大きい方を優先とする))を設定することにより、シーン検出部123がこのようなシーン選択処理を行なうことを実現できる。
【0124】
図12に示す具体例を用いて、対象物の位置に基づいて優先するシーンを決定する方法を説明する。
図12は、優先する対象物の決定方法の例を示す図である。
【0125】
図12に示すように、表示装置3には、再生中のコンテンツの画像31が表示されているものとする。画像31には、オブジェクト311(馬)およびオブジェクト312(象)が映っている。このとき、シーン検出部123は、振動制御の対象シーンとして条件を満たす馬の歩行シーンと象の歩行シーンの両方を検出したものとする。
【0126】
また、基準位置(コンテンツ画像に対するユーザ位置、例えばXRコンテンツにおけるユーザに対応するアバターの位置)からオブジェクト311までの距離はL1であったとする。一方、基準位置からオブジェクト312までの距離はL2であったとする。また、オブジェクト311およびオブジェクト312の基準振動強度(コンテンツにおける物体の音声信号の低周波数成分強度)が、それぞれV1、V2とする。さらに、優先条件が「関数F(Ln,Vn)=Vn/(Ln・Ln)の値が大きい方を優先」と設定されていた場合を例とする。
【0127】
なお、基準位置からオブジェクトまでの距離は、コンテンツに付加された情報等により算出される(例えば、XRコンテンツにおける映像生成に用いられる各オブジェクトの位置情報により算出される)。また、オブジェクトの基準振動強度は、オブジェクト種別毎に予め設定された基準振動強度が記憶されたデータテーブルから対象オブジェクトの種別に応じて読み取ることにより決定する方法、コンテンツ情報としてコンテンツに付加しておく方法等により実現できる。また、コンテンツには音声再生のために音声データが付加されている場合が多いので、当該音声データにおける低域特性(音声強度レベル、低域信号レベル等)に基づき基準振動強度を算出すること(振動態様は音声の低域成分と相関が高かく、また音声の低域成分に基づき振動を生成する場合が多い)が可能である。
【0128】
このように、情報処理装置10は、コンテンツにおける振動発生対象物が発生する音声の低域特性を推定することができる。その場合、情報処理装置10は、推定した低域特性に基づき振動発生対象物を選定する。これにより、より適切な振動発生対象物の選定が可能になる。
【0129】
例えば、音声の低域特性は、低域信号レベルである。その場合、情報処理装置10は、推定した低域信号レベルが閾値を超える振動発生対象物を選定する。情報処理装置10は、音声データから低域信号レベルを抽出することができる。これにより、音声データに含まれる低域信号レベルを用いて、振動発生対象物を容易に選定することが可能になる。
【0130】
また、低域信号レベルの閾値は、コンテンツ種別に応じて設定される。前述の通り、ミュージックビデオは、動物ドキュメンタリーと比べて、同じ対象物であっても振動を発生させた方がよい場合が多い。このように、コンテンツ種別(ミュージックビデオ、動物ドキュメンタリー等)に適した振動対象物の選定が可能になる。
【0131】
この場合、オブジェクト311(馬)とオブジェクト312(象)の関数値の関係が関数F(L1,V1)>関数F(L2,V2)であれば、オブジェクト311が音声(振動)を発生させているシーン、すなわち馬の歩行シーンが優先的に選択され、パラメータ抽出部125は馬の歩行シーンに対応する振動パラメータを抽出する。そして、馬の歩行シーンに対応する振動がユーザに印加されることになる。その後、例えばオブジェクト312(象)が基準位置に接近し、関数F(L1,V1)<関数F(L2,V2)の関係に変化すれば、オブジェクト311が音声(振動)を発生させているシーン、すなわち象の歩行シーンが優先的に選択され、パラメータ抽出部125は、象の歩行シーンに対応する振動パラメータを抽出する。そして、象の歩行シーンに対応する振動がユーザに印加されることになる。
【0132】
なお、関数F(Ln,Vn)が予め定められた所定閾値より小さい場合、つまりコンテツンツ(ゲームの仮想空間等)におけるユーザ位置における対象物による振動が小さい(ユーザがあまり感じない、すなわち振動を印加する必要があまり無い)場合には、振動を発生する対象物として選択しない方法も有効である。換言すれば、コンテツンツ(ゲームの仮想空間等)におけるユーザ位置における対象物による振動がある程度大きい(振動を再現すれば臨場感の向上が感じられる程度)コンテンツの物体だけを振動を発生する対象物として選択する方法も有効である。つまり、振動発生対象物の候補となる対象物候補から発生する振動信号への影響が大きい対象物(ユーザがその振動を強く感じる振動対象物)を選択する。
【0133】
これにより、情報処理装置10は、振動発生対象物の候補となる対象物候補から発生する振動信号への影響が大きい対象物候補を推定し、振動発生対象物として選定することができる。その結果、ユーザの実空間での感覚に合致した振動をユーザに印加することとなり、臨場感豊かなコンテンツに再生が可能になる。
【0134】
この場合、振動を発生する対象物として選択する場合の閾値については、コンテンツ種別に基づき変更するのが好ましい。つまり、コンテンツの内容によっては、コンテンツに登場する物体による振動の再現を控えたり、あるいは強調したりするのが好ましいものがあり、振動を発生する対象物の決定内容(判断レベル)を調整するのが好ましいためである。
【0135】
つまり、振動の生成原理としては次のようになる。コンテンツの内容に基づきコンテンツ(の各場面)において振動を発生する対象物を決定する。そして、決定した対象物に対応する音響信号(コンテンツに含まれる対象物の音声データ、あるいは当該シーンにおける音声データから生成した対象物の音声データ(例えば、低周波領域をフィルタリングして取り出す))に基づき振動信号(振動データ)を生成する(対象物の音声信号の低周波数成分を取り出し、適当に増幅するなどして生成する)。
【0136】
また、振動を発生する対象物を決定する方法としては、コンテンツにおける音声発生物体における発声音の低域特性(例えば、音量レベル)を推定し(上述の例の場合は、物体(オブジェクト)の種別に基づく基準振動強度と、基準位置(コンテンツの仮想空間におけるユーザ存在位置等)と物体(オブジェクト)との距離とに基づき推定)、対象物を決定する(音声発生物体における発声音の低域音量レベルが大きい方を、振動を発生する対象物として決定)。
【0137】
このように、対象物の位置に基づいて優先するシーンを決定することで、ユーザの視覚的な直感により適合した振動、つまりユーザの実空間での感覚に合致した振動をユーザに印加することとなり、臨場感豊かなコンテンツに再生が可能になる。
【0138】
この際、振動パラメータ抽出部125aは、各振動デバイス5それぞれに対して、それぞれ対応する振動パラメータを抽出する。これにより、一律に振動パラメータを抽出する場合に比べて、臨場感のさらなる向上を図ることができる。
【0139】
音声強調パラメータ抽出部125bは、パラメータ情報DB134を参照し、優先順位設定部124により優先順位最上位とされたシーンに対応する音声強調パラメータを抽出する。音声強調パラメータ抽出部125bは、各スピーカ4に対して個別に音声強調パラメータを抽出するとともに、振動パラメータ抽出部125aと同様に優先順位設定部124にて設定された優先順位に基づいて(優先順位最上位のシーンに基づき)抽出する音声強調パラメータを決定する。
【0140】
学習部125cは、パラメータ情報DB134に記憶されたシーンと臨場感パラメータとの関係性を学習する。例えば、学習部125cは、パラメータ情報DB134に記憶された各シーンと、対応する各臨場感パラメータとを、当該パラメータによる臨場感制御に対するユーザの反応等を学習データとして機械学習を行うことで、シーンと臨場感パラメータとの関係性を学習する。
【0141】
この際、例えば、学習部125cは、臨場感パラメータに対するユーザ評価(臨場感制御後のユーザの調整操作や、アンケート等のユーザ入力)を学習データとして用いることにしてもよい。すなわち、学習部125cは、どのようなシーンに対してどのような臨場感パラメータを設定すると、高いユーザ評価(すなわち、高い臨場感が得られたか)が得られるかといった視点でシーンと臨場感パラメータとの関係性を学習することにしてもよい。
【0142】
さらに、学習部125cは、新たなシーンが入力された場合に、どのような臨場感パラメータを設定すべきかを学習結果から決定することもできる。具体的な例として、例えば、爆発シーン等の類似状況の臨場感制御の学習結果を用いて、花火シーンの臨場感パラメータを決定することができる。また、臨場感制御後のユーザの調整操作や、アンケート等のユーザ入力に、優先順位を変更するような要素の有無・程度(ユーザの調整操作が同時に存在する他のシーンに対応するパラメータに近づくものであった場合や、アンケートで他シーンを優先すべき回答があった場合等)に基づき、優先順位に関するルールを学習することも可能である。
【0143】
これにより、情報処理装置10では、例えば、優先順位に関するルールや、臨場感パラメータの最適化を自動的に行うことが可能となる。
【0144】
図4の説明に戻り、出力部126について説明する。出力部126は、パラメータ抽出部125によって抽出された臨場感パラメータをスピーカ4および振動デバイス5に対し出力する。
【0145】
図14は、出力部126のブロック図である。
図14に示すように、出力部126は、音声強調処理部126aと、音声振動変換処理部126bとを有する。
【0146】
音声強調処理部126aは、レンダリング処理部122から受け取った音声データをパラメータ抽出部125によって抽出された音声強調パラメータを用いた強調処理を行う。例えば、音声強調処理部126aは、音声強調パラメータに基づいて、ディレイあるいは帯域強調・減衰処理を行うことで、音声データに対する強調処理を行う。
【0147】
この際、音声強調処理部126aは、スピーカ4毎に音声強調処理を行い、音声強調処理を施した音声データを対応する各スピーカ4に対して出力する。
【0148】
音声振動変換処理部126bは、レンダリング処理部122から受け取った音声データをLPF等の振動に適した帯域制限処理等を行って振動データへ変換する。また、音声振動変換処理部126bは、変換した振動パラメータをパラメータ抽出部125によって抽出された振動パラメータに応じて強調処理を行う。
【0149】
例えば、音声振動変換処理部126bは、振動データに対し、振動パラメータに応じて低域強調等の周波数特性付加処理、ディレイおよび増幅といった強調処理を行うことで、振動データに対する強調処理を行う。このように、音声振動変換処理部126bは、対象物から発生する音声の信号を加工して得られた振動に適した信号を、振動パラメータを用いて強調処理した信号(振動データ)を振動デバイスへ出力する。
【0150】
この際、音声振動変換処理部126bは、振動デバイス5毎に振動強調処理を行い、振動強調処理を施した振動データを対応する各振動デバイス5に対して出力する。
【0151】
なお、振動パラメータは
図9に示すようにシーン(例えば、「象の歩行シーン」)に応じて設定されているが、さらに当該シーンにおける詳細の状況(詳細シーン種別とも言える)に応じて補正を行うことも有効である。たとえば、コンテンツ(仮想空間)におけるユーザと象との距離に応じて(距離別の詳細シーンに応じて)、振動生成のためのパラメータ「IPF(カットオフ周波数)」、「ディレイ時間」、「増幅度」の値を増減し、振動の特性を調整する。
【0152】
これにより、情報処理装置10は、振動発生対象物が登場するシーンにおけるシーン種別を判定し、振動発生対象物に対応する音響信号を、判定したシーン種別に応じて加工して振動信号を生成することができる。その結果、各シーンに細やかに適応させた振動信号の生成が可能になる。
【0153】
次に、
図15を用いて、実施形態に係る情報処理装置10が実行する処理手順について説明する。
図15は、情報処理装置10が実行する処理手順を示すフローチャートである。なお、以下に示す処理手順は、制御部120によって繰り返し実行される。
【0154】
図15に示すフローチャートの処理は情報処理システム1の電源オンになると実行される。先ずXRコンテンツ設定処理を実行する(ステップS101)。なお、ここでのXRコンテンツ設定処理とは、例えば、XRコンテンツ再生のための装置の各初期設定、ユーザによるXRコンテンツの選択等に関する各種処理が含まれる。
【0155】
つづいて、情報処理装置10は、XRコンテンツの再生を開始し(ステップS102)、再生中のXRコンテンツに対しシーン検出処理を行う(ステップS103)。つづいて、情報処理装置10は、シーン検出処理の結果に対して優先順位設定処理を行い(ステップS104)、優先順位設定内容に基づき振動制御対象のシーンについて臨場感パラメータ抽出処理を実行する(ステップS105)。
【0156】
そして、情報処理装置10は、抽出された臨場感パラメータに基づき生成された各種振動データあるいは音声データの出力処理を実行する(ステップS106)。これにより、臨場感を提供する振動が振動デバイス5から出力され、音声がスピーカ4から出力されることになる。
【0157】
そして、情報処理装置10は、XRコンテンツが終了したか否かを判定し(ステップS107)、XRコンテンツが終了したと判定した場合(ステップS107;Yes)、処理を終了する。
【0158】
また、情報処理装置10は、ステップS107の判定において、XRコンテンツが終了していないと判定した場合には(ステップS107;No)、再び、ステップS103の処理へ移行する。
【0159】
上述したように、実施形態に係る情報処理装置10は、コンテンツから振動の発生源とする振動発生対象物を選定し、選定した振動発生対象物に対応する音響信号を加工して振動信号を生成して、当該生成した振動信号を、コンテンツに応じた振動信号として出力する。
【0160】
従って、コンテンツ再生時における振動提供に適した振動源に基づく振動制御が行われることになるので、効率的に臨場感の向上を図ることができる。
【0161】
ところで、上述した実施形態では、コンテンツがXRコンテンツである場合について説明したが、これに限定されるものではない。すなわち、コンテンツは、2Dの映像および音声、あるいは、映像のみ、または、音声のみであってもよい。
【0162】
さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。
【符号の説明】
【0163】
1 情報処理システム
3 表示装置
4 スピーカ
5 振動デバイス
10 情報処理装置
31 画像
311、312 オブジェクト
121 コンテンツ生成部
122 レンダリング処理部
123 シーン検出部
123a シーン判定部
123b 条件設定部
124 優先順位設定部
124a タイミング検出部
124b ルール設定部
125 パラメータ抽出部
125a 振動パラメータ抽出部
125b 音声強調パラメータ抽出部
125c 学習部
126 出力部
126a 音声強調処理部
126b 音声振動変換処理部
131 XRコンテンツDB
132 シーン情報DB
133 優先順位情報DB
134 パラメータ情報DB