(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-21
(45)【発行日】2024-10-29
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラムを記載した記録媒体
(51)【国際特許分類】
H04R 3/00 20060101AFI20241022BHJP
G10K 15/04 20060101ALI20241022BHJP
A63F 13/428 20140101ALI20241022BHJP
A63F 13/54 20140101ALI20241022BHJP
【FI】
H04R3/00 310
G10K15/04 302F
A63F13/428
A63F13/54
(21)【出願番号】P 2020569505
(86)(22)【出願日】2020-01-17
(86)【国際出願番号】 JP2020001428
(87)【国際公開番号】W WO2020158440
(87)【国際公開日】2020-08-06
【審査請求日】2022-11-28
(31)【優先権主張番号】P 2019014705
(32)【優先日】2019-01-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110003339
【氏名又は名称】弁理士法人南青山国際特許事務所
(74)【代理人】
【識別番号】100104215
【氏名又は名称】大森 純一
(74)【代理人】
【識別番号】100196575
【氏名又は名称】高橋 満
(74)【代理人】
【識別番号】100168181
【氏名又は名称】中村 哲平
(74)【代理人】
【識別番号】100117330
【氏名又は名称】折居 章
(74)【代理人】
【識別番号】100160989
【氏名又は名称】関根 正好
(74)【代理人】
【識別番号】100168745
【氏名又は名称】金子 彩子
(74)【代理人】
【識別番号】100176131
【氏名又は名称】金山 慎太郎
(74)【代理人】
【識別番号】100197398
【氏名又は名称】千葉 絢子
(74)【代理人】
【識別番号】100197619
【氏名又は名称】白鹿 智久
(72)【発明者】
【氏名】高橋 慧
(72)【発明者】
【氏名】古賀 康之
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2010-239245(JP,A)
【文献】国際公開第2017/098772(WO,A1)
【文献】特開2018-109835(JP,A)
【文献】特開2014-211808(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10K 15/04
A63F 13/428
A63F 13/54
(57)【特許請求の範囲】
【請求項1】
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する再生制御部
を具備し、
前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
前記第2の再生方法は、前記アタック音の再生を規制する
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
情報処理装置。
【請求項5】
請求項1に記載の情報処理装置であって、さらに、
ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備し、
前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項6】
請求項5に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
【請求項7】
請求項5に記載の情報処理装置であって、
前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
情報処理装置。
【請求項8】
請求項5に記載の情報処理装置であって、
前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
情報処理装置。
【請求項9】
請求項1に記載の情報処理装置であって、さらに、
前記実物体に対するユーザの関心度を判定する第2の判定部を具備し、
前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項10】
請求項9に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第2
の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
【請求項11】
請求項1に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項12】
請求項11に記載の情報処理装置であって、
前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項13】
請求項11に記載の情報処理装置であって、
前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項14】
請求項1に記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項15】
請求項
14に記載の情報処理装置であって、
前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択する
情報処理装置。
【請求項16】
請求項1に記載の情報処理装置であって、
前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
情報処理装置。
【請求項17】
請求項1に記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
【請求項18】
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する
ことをコンピュータシステムが実行する情報処理方法。
【請求項19】
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ
をコンピュータシステムに実行させるプログラムが記録された記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、音声AR(Augmented Reality)等の音声制御に適用可能な情報処理装置、情報処理方法、及びプログラムを記載した記録媒体に関する。
【背景技術】
【0002】
特許文献1に記載の音声出力方法では、カメラで撮影された画像をもとに、プレイヤーの操作するオブジェクトが第1進入領域から第2進入領域に到達するまでの移動時間が計算される。計算された移動時間が参照され、オブジェクトが第2侵入領域に到達するのと実質的に同時にプレイヤーが音声を聴取するように、音声の出力タイミングが調節される。これにより、視覚および聴覚の両方を通してアクションが認識されたことをプレイヤーに知らしめることが図られている(特許文献1の明細書段落[0052][0055]
図8、9等)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような音声AR等の音声制御について、高品質な仮想体験を提供することを可能とする技術が求められている。
【0005】
以上のような事情に鑑み、本技術の目的は、高品質な仮想体験を提供することを可能とする情報処理装置、情報処理方法、及びプログラムを記載した記録媒体を提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本技術の一形態に係る情報処理装置は、再生制御部を具備する。
前記再生制御部は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する。
【0007】
この情報処理装置では、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、実物体の動きに応じた音声コンテンツの再生が制御される。具体的には、時間情報が所定の時間範囲内である場合には第1の再生方法で音声コンテンツの再生が制御される。時間情報が所定の時間範囲外である場合には第2の再生方法で音声コンテンツの再生が制御される。これにより、高品質な仮想体験を提供することを可能となる。
【0008】
前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信されてもよい。
【0009】
前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間であってもよい。
【0010】
前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含んでもよい。この場合、前記第2の再生方法は、前記アタック音の再生を規制してもよい。
【0011】
前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含んでもよい。
【0012】
前記情報処理装置は、さらに、ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備してもよい。この場合、前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。
【0013】
前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。
【0014】
前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行してもよい。
【0015】
前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行してもよい。
【0016】
前記情報処理装置は、さらに、前記実物体に対するユーザの関心度を判定する第2の判定部を具備してもよい。この場合、前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。
【0017】
前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第2の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。
【0018】
前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御してもよい。
【0019】
前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御してもよい。
【0020】
前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御してもよい。
【0021】
前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御してもよい。
【0022】
前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択してもよい。
【0023】
前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定してもよい。
【0024】
前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御してもよい。
【0025】
本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御することを含む。
【0026】
本技術の一形態に係るプログラムが記録された記録媒体は、コンピュータシステムに以下のステップを実行させる。
実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ。
【図面の簡単な説明】
【0027】
【
図1】本技術の第1の実施形態に係る音声ARシステムの概要を説明するための模式図である。
【
図3】音声ARシステムの機能的な構成例を示すブロック図である。
【
図4】実物体の動きが開始してから、音声コンテンツを通信端末で出力するまでに生じる遅延を説明するための模式図である。
【
図5】音声コンテンツの再生の制御例を示すフローチャートである。
【
図6】遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。
【
図7】アタック音とアタック音が規制された音の一例を説明するための模式図である。
【
図8】本実施形態に係る音声ARシステムの概要を説明するための模式図である。
【
図9】本技術の第3の実施形態に係る音声ARシステムの概要を説明するための模式図である。
【
図10】通信端末とヘッドフォンとの協働による音声コンテンツの再生制御例を示すフローチャートである。
【
図11】第4の実施形態に係る音声ARシステムの概要を説明するための模式図である。
【
図12】関心度に基づいてセンサ情報が規制される制御を示す模式図である。
【
図13】他の実施形態に係るセンサ情報の通信制御を示す模式図である。
【
図14】様々な場面に応じた音声コンテンツの例を示す図である。
【発明を実施するための形態】
【0028】
以下、本技術に係る実施形態を、図面を参照しながら説明する。
【0029】
<第1の実施形態>
[音声ARシステム]
図1は、本技術の第1の実施形態に係る音声ARシステムの概要を説明するための模式図である。音声ARシステムは、本技術に係る情報処理システムの一実施形態に相当する。
【0030】
音声ARシステム100は、ユーザに、聴覚的な拡張現実(AR:Augmented Reality)体験を提供することが可能である。例えば現実には発生していない仮想的な音声コンテンツを、ユーザが装着するヘッドフォン等から出力する。これによりユーザは、様々な仮想体験を楽しむことが可能となる。
【0031】
なお本技術の適用が、仮想的な音声コンテンツのみが再生されるARシステムに限定される訳ではない。音声コンテンツに加えて、画像コンテンツや、触覚(ハプティクス)フィードバック等を提供可能なARシステムに対して、本技術を適用可能である。すなわち聴覚的なAR体験のみならず、視覚的なAR体験や触覚的なAR体験を提供可能なARシステムに対しても、本技術は適用可能である。
【0032】
本実施形態では、
図1に示すように、ドア1の開閉に応じた音声ARの提供を例に挙げる。すなわち本実施形態では、実物体及び実物体の動きとして、ドア1の開閉を例に挙げて説明を行う。
【0033】
もちろん実物体及び実物体の動きは限定されない。例えば、実物体の動きの例として、実物体の開閉、実物体のスライド、実物体の回転動作、実物体の移動等が挙げられる。具体例としては、ぬいぐるみやロボット等を動かす、ボタン、レバー、ハンドル等の操作デバイスを操作する、車等の移動体を操作する、といった例が挙げられる。これ以外にも、実空間とゲーム等のコンテンツが連動している特定の場所のアイテムや水道の蛇口等の実物体の小道具の操作等も挙げられる。種々の実物体及び実物体の動きに応じた仮想的な音声コンテンツの再生に対して、本技術を広く適用することが可能である。
【0034】
音声ARシステム100は、ドア1に設置される通信端末20、ユーザ2に携帯される通信端末40、及びユーザ2に装着されるヘッドフォン3を含む。通信端末40は、本技術に係る情報処理装置の一実施形態に相当する。ドア1に設置される通信端末20は、本技術に係るセンサ装置の一実施形態に相当する。
【0035】
ユーザ2によりドア1が開けられると、通信端末20によりドア1の動きがセンシングされ、ドア1の動きに基づいたセンサ情報が生成される。そして通信端末20により、ドア1の動きに基づいたセンサ情報が通信端末40へ送信される。
【0036】
センサ情報は、ドア1の動きに基づいた任意の情報を含む。本実施形態では、ドア1が開かれたイベントを表すイベントIDが、センサ情報として用いられる。もちろんドア1が開かれたイベントを表す情報として、イベントIDとは異なる情報が用いられてもよい。またセンサ情報として、ドア1が開かれたイベントを表す情報とは異なる情報が用いられてもよい。例えば、通信端末20が備えるセンサ部25(
図2参照)により、ドア1の動きに基づいて検出される加速度等の生値(検出値)が、センサ情報として用いられてもよい。
【0037】
通信端末40は、通信端末20から送信されたドア1の動きに基づいたセンサ情報に基づいて、ドア1の開く動きに応じた音声コンテンツの再生を制御する。例えばドア1が開く際に実際に発生する音に類似した「ガチャ!」「ギー」というような仮想的な音を含む音声コンテンツの再生が制御される。
【0038】
もちろんドア1が開く際に実際に発生する音とは異なる音声が、仮想的な音声として再生されてもよい。例えば「ワ!ハ!ハ!ようこそホラーランドへ」等の音声が出力されてもよい。
【0039】
通信端末40は、ヘッドフォン3による音声コンテンツの再生を制御する。すなわちユーザ3に装着されたヘッドフォン3から出力される音声が適宜制御される。ヘッドフォン3としては、例えば開放型ヘッドフォンや首掛けヘッドフォン等が用いられる。もちろんこれに限定されず、他の任意の構成を有するヘッドフォンが用いられてもよい。
【0040】
またスマートウォッチ等のウェアラブルデバイスやスマートフォン等に内蔵されるスピーカが用いられる場合でも、本技術は適用可能である。例えば通信端末40に内蔵されたスピーカにより、ドア1の動きに応じた音声コンテンツが再生されてもよい。その他、任意の音声出力デバイスに対して、本技術は適用可能である。
【0041】
また例えば、通信端末40自体がヘッドフォンとして構成されてもよい。すなわち通信端末40の機能を搭載するヘッドフォンが、本技術に係る情報処理装置として用いられてもよい。もちろん開放型ヘッドフォンとして構成されてもよい。
【0042】
また透過型のディスプレイを備えたメガネ型のHMD(Head Mounted Display)が、本技術に係る情報処理装置として構成されてもよい。この場合、HMDに搭載されるスピーカ等から様々な音声コンテンツが再生される。また実空間に対して仮想オブジェクトの画像を重畳することで、視覚的なARを体験することも可能となる。これにより高品質な仮想体験が実現される。その他、種々の装置により本技術に係る情報処理装置を実現することが可能である。
【0043】
なお通信端末20、通信端末40、及びヘッドフォン3を通信可能に接続する方法は限定されない。例えばWiFi等の無線LAN通信や、Bluetooth(登録商標)等の近距離無線通信を利用することが可能である。その他、無線及び有線による任意の接続形態が用いられてもよい。
【0044】
このような音声ARを提供することで、例えばユーザ2は実物体の操作に応じて、ホラーシーンや山小屋のドア等の仮想的な音を聞くことができる。この結果、ユーザ2は、日常から離れた音声AR体験を得ることが可能となる。
【0045】
図2は、通信端末20及び40の構成例を示すブロック図である。本実施形態では、説明を簡素化するために、通信端末20及び40が互いに等しい構成を有するものとする。もちろんこれに限定されず、通信端末20及び40の構成が互いに異なっていてもよい。
【0046】
通信端末20及び通信端末40は、コントローラ21、スピーカ22、マイク23、カメラ24、及びセンサ部25を有する。また通信端末20及び通信端末40は、表示部26、操作部27、I/F(インタフェース)部28、通信部29、及び記憶部30を有する。
【0047】
スピーカ22は、種々の音を出力可能である。スピーカ22の具体的な構成は限定されない。
【0048】
マイク23は、周辺で発生する音声を取得することが可能である。例えば、通信端末20のマイク23は、ドア1の開閉に応じて発生する音声や、周囲の環境音を検出して取得することが可能である。
【0049】
通信端末40のマイク23は、ユーザ2の周囲の環境音や、ユーザ2が発する音声を検出して取得することが可能である。またユーザ2がドア1を操作する場合には、その操作に応じて発生する音声を検出することが可能である。マイク23の具体的な構成は限定されない。
【0050】
カメラ24は、周囲を撮影し周囲の画像(画像データ)を生成することが可能である。例えば通信端末20のカメラ24は、ドア1の周囲を撮影することが可能であり、ドア1を操作する人物の顔や全身等を撮影することが可能である。以下、カメラ24により対象物を撮影し対象物の画像を生成することを、対象物の画像を撮影すると記載する場合がある。
【0051】
通信端末40のカメラ24は、ユーザの周囲の画像を撮影することが可能である。例えば、ユーザ2がドア1を操作する場合には、操作されたドア2の状態を撮影することが可能である。例えばドア1が開けられた状態や、ドア1が閉められた状態が撮影される。
【0052】
カメラ24として、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線LED等の赤外線照明を搭載した赤外線カメラが用いられてもよい。
【0053】
センサ部25は、9軸センサ31、及びGPS32を含む。9軸センサ31は、3軸加速度センサ、3軸ジャイロセンサ、及び3軸コンパスセンサを含む。9軸センサ31により、通信端末20(40)の角度、移動、及び向きの変化を検出することが可能である。GPS32は、通信端末20(40)の位置情報を出力することが可能である。
【0054】
例えば通信端末20のセンサ部25により、ドア1の動き、姿勢、向き等を検出することが可能である。またGPS32により通信端末20が付随したドア1の位置情報を検出することが可能である。通信端末40のセンサ部25により、ユーザ2の動き、姿勢、向き等を検出することが可能である。またユーザ2の位置情報を検出することが可能である。
【0055】
センサ部25として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばユーザ2の体温及び脈拍数等を検出可能な生体センサ等が設けられてもよい。また周囲の環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。なお
図2に示すマイク23及びカメラ24がセンサ部25として機能してもよい。
【0056】
表示部26は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスであり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。操作部27は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部27がタッチパネルを含む場合、そのタッチパネルは表示部26と一体となり得る。
【0057】
I/F部28は、USB(Universal Serial Bus)端子やHDMI(登録商標)(High-Definition Multimedia Interface)端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。
【0058】
通信部29は、他のデバイスと通信するための通信モジュールであり、例えばWiFi等の無線LAN(Local Area Network)モジュールや、Bluetooth(登録商標)等の近距離無線通信用の通信モジュールが用いられる。本実施形態では、通信部29を介して、通信端末20と通信端末40との通信が実行される。
【0059】
コントローラ21は、通信端末20及び通信端末40が有する各ブロックの動作を制御する。コントローラ21は、例えばCPU(プロセッサ)、ROM、RAM、及びHDD等のコンピュータの構成に必要なハードウェアを有する。CPUがROM等に予め記録されている本技術に係るプログラム(例えばアプリケーションプログラム)をRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
【0060】
コントローラ21の具体的な構成は限定されず、例えばGPU、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の任意のハードウェアが用いられてもよい。
【0061】
プログラムは、例えば種々の記録媒体を介して通信端末20及び通信端末40にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。もちろん通信端末20へのプログラムのインストール方法と、通信端末40へのプログラムのインストール方法が同じである必要はなく、互いに異なる方法が用いられてもよい。
【0062】
本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。
【0063】
通信端末20及び通信端末40は、例えばスマートフォン、タブレット端末、ウェアラブル装置、センサ装置等により実現することが可能である。もちろんこれに限定されず、任意のコンピュータ装置が用いられてよい。例えば通信端末20として、ドア1の動きをセンシング可能であり、そのセンサ情報を送信可能な任意の装置が用いられてよい。また通信端末40として、センサ情報を受信可能であり、受信したセンサ情報に基づいてドア1の動きに応じた音声コンテンツンの再生を制御可能な任意の装置が用いられてよい。
【0064】
もちろんセンシング機能を有する装置、及び通信機能を有する装置が協働することで、通信端末20が実現されてもよい。また通信機能を有する装置、及び音声コンテンツの再生を制御する機能を有する装置が協働することで、通信端末40が実現されてもよい。
【0065】
以下の説明において、
図2に示す各ブロックについて、通信端末20が有するブロックについては符号に「a」を添えて記載する場合がある。また通信端末40が有するブロックについては符号に「b」を添えて記載する場合がある。例えば通信端末20が有するスピーカ22については、「スピーカ22a」と記載する場合がある。通信端末40が有するスピーカ22については、「スピーカ22b」と記載する場合がある。
【0066】
図3は、音声ARシステム100の機能的な構成例を示すブロック図である。
【0067】
本実施形態では、通信端末20のコントローラ21aのCPU等が、本実施形態に係るプログラムを実行することで、機能ブロックとして動き認識部34、時間取得部35、及び通信制御部36が実現される。各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
【0068】
また、通信端末40のコントローラ21bのCPU等が、本実施形態に係るプログラムを実行することで、機能ブロックとして通信制御部54、情報処理部55、遅延算出部56、及び再生制御部57が実現される。各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
【0069】
動き認識部34は、通信端末20のセンサ部25aによる検出結果に基づいて、ドア1の動きを認識する。例えば加速度の変化等に基づいて、ドア1の開く動き、ドア1の閉まる動き、動きの速度、等を認識することが可能である。またドア1がノックされたこと等を認識することも可能である。もちろん通信端末20のカメラ24aにより撮影される画像や、マイク23aにより取得される音声等に基づいて、ドア1の動きが認識されてもよい。
【0070】
動き認識部34は、認識したドア1の動きに応じたイベントIDを生成し、通信制御部36に供給する。例えばドア1が開いた場合はイベントID「001」が供給され、ドア1が閉められた場合は、イベントID「001」が供給される。ドア1の開く速度に応じて異なるイベントIDが生成されてもよい。
【0071】
ドア1の動きを認識するための具体的な方法は限定されず、任意の技術が用いられてよい。例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、ドア1の動きの認識精度を向上させることが可能となる。
【0072】
時間取得部35は、動き認識部34により認識されたドア1の動きに応じたイベントIDを、通信制御部36が他のデバイス(通信端末40)に送信する際の時間情報を取得する。時間情報としては、例えばタイムスタンプ等が用いられる。タイムスタンプとして実際の時間情報が用いられてもよいし、共通の基準時間を基準として一意に増加するクロックの情報が用いられてもよい。時間情報を取得する方法は限定されず、任意の方法が採用されてよい。例えば携帯網(LTE:Long Term Evolution)等からの時刻が利用されてもよい。
【0073】
なお、通信端末20にてイベントIDが生成される際のタイムスタンプが、イベントIDとともに送信されてもよい。この場合、通信端末20によりセンサ情報(本実施形態では、イベントID)が生成された時間から、通信端末20によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。
【0074】
通信制御部36は、通信端末40との通信を制御する。本実施形態では、通信制御部36により、
図2に示す通信部29の動作が制御され、種々の情報(データ)を通信端末40に送信することが可能である。
【0075】
本実施形態では、通信制御部36により、ドア1の動きに応じたイベントID、及びタイムスタンプがセットで通信端末40に送信される。
【0076】
上記でも述べたが本実施形態では、動き認識部34により認識されたドア1の動きに応じたイベントIDが、実物体の動きに基づいて生成されるセンサ情報に相当する。もちろんこれに限定されず、他の情報が用いられてもよい。例えば動き認識部34に入力されるセンサ部25aの生値(検出値)等が、センサ情報として通信端末40に送信されてもよい。そして通信端末40側で、ドア1の動きの認識が実行されてもよい。
【0077】
通信端末40の通信制御部54は、通信端末20との通信を制御する。本実施形態では、通信制御部54により、通信端末40の通信部29bの動作が制御され、種々の情報(データ)を通信端末20から受信することが可能である。もちろん通信端末40から通信端末20に種々の情報(データ)に送信することも可能である。
【0078】
通信制御部54は、通信端末20から受信したイベントID及びタイムスタンプを情報処理部55に供給する。
【0079】
情報処理部55は、ユーザ状態検出部61と、状況検出部62と、イベント認識部63と、イベントDB64と、時間取得部65と、関心度判定部66と、ユーザ判定部67とを有する。
【0080】
ユーザ状態検出部61は、通信端末40のセンサ部25bによる検出結果(センシング結果)、マイク23bにより取得された音声(音声データ)、カメラ24bにより撮影された画像(画像データ)等に基づいて、ユーザ2の状態に関する状態情報を検出することが可能である。
【0081】
ユーザ2の状態情報として、例えばユーザ2の姿勢、動き、位置、発話内容等のユーザ2に関する種々の情報を検出することが可能である。例えば歩行中、走行中、電車にて移動中、運転中等の情報や運動しているスポーツの種類等の情報が、ユーザ2の状態情報として検出される。またユーザ2のジェスチャーや視線方向等を検出することも可能である。
【0082】
例えば、ドア1に対する操作、ユーザ2の足音、ユーザ2の発話内容、ドア1を注視しているかどうか、他の人物に対するコミュニケーションの有無等を検出することが可能である。これに限定されず、ユーザ2のあらゆる行動を検出することが可能である。
【0083】
状況検出部62は、センサ部25bによる検出結果(センシング結果)、マイク23bにより取得された音声(音声データ)、カメラ24bにより撮影された画像(画像データ)等に基づいて、周囲の状況に関する状況情報を検出することが可能である。例えばユーザ2がいる場所の種類、周囲の環境音、周囲に存在する実物体の種類、実物体とユーザ2との距離、実物体の動き、実物体が発する音声等を検出することが可能である。
【0084】
例えば、ドア1の動き、ドア1から発せられる音、周囲にいる他の人物の動き、他の人物の発話内容、他の人物の足音、屋内であるか屋外であるか、周囲の明るさ、天候等、種々の状況情報を検出することが可能である。
【0085】
これら種々のユーザ2の状態情報や周囲の状況情報は、例えば機械学習を用いた行動解析等の、任意の技術により検出可能である。
【0086】
なお、通信端末20により取得されたセンシング結果、音声データ、及び画像データが、通信制御部36及び54を介して、ユーザ状態検出部61及び状況検出部62に入力されてもよい。そして入力された各情報に基づいて、ユーザの状態情報や周囲の状況情報が検出されてもよい。
【0087】
また通信端末20にもユーザ状態検出部61及び状況検出部62が備えられてもよい。そして通信端末20により検出されたユーザ2の状態情報や、周囲の状況情報が、通信端末40に送信されてもよい。
【0088】
本実施形態において、ユーザの状態情報、及び周囲の状況情報は、検出情報に含まれる。ユーザの状態情報のみが検出される構成や、周囲の状況情報のみが検出される構成が採用されてもよい。またユーザの状態情報と周囲の状況情報とが明確に区分される必要は必ずしもない。ユーザの状態に関する情報、及び周囲の状況に関する情報が包括的に検出情報として検出されてよい。
【0089】
本実施形態において、ユーザ状態検出部61、及び状況検出部62は、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部として機能する。
【0090】
イベント認識部63は、通信制御部54により供給されたイベントIDからイベントの内容を認識する。例えば、イベントDB64に記憶されるイベントIDと供給されたイベントIDとが一致した場合に、そのイベントが実空間で起きたと認識される。
【0091】
またイベント認識部63は、センサ部25による検出結果(センシング結果)、マイク23により取得された音声(音声データ)、カメラ24により撮影された画像(画像データ)等に基づいて、実空間で起きたイベントを認識することも可能である。例えばドア1が開く音に基づいて、ドア1が開いたイベントが認識される。イベント認識部63を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。
【0092】
イベントDB64は、イベントの内容と紐づいたイベントIDが記憶される。記憶されるイベントIDは限定されない。本実施形態では、コントローラ21内のHDD等によりイベントDB64が構築される。これに限定されず、コントローラ21の外部に設けられた記憶デバイス等により、イベントDB64が構築されてもよい。
【0093】
イベントDB64に、イベントの順序に関する情報が記憶されてもよい。例えば、弾丸の発射のイベントIDと、弾丸が対象物に着弾するイベントIDとがある場合、弾丸の発射のイベントの後に、弾丸が着弾するイベントが続く旨の情報が記憶されてもよい。また例えば、イベントIDの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定されてもよい。
【0094】
時間取得部65は、通信端末20からイベントIDとタイムスタンプとを受信した際の時間情報を取得する。本実施形態では、タイムスタンプが用いられる。すなわちイベントIDとタイムスタンプとを受信した際のタイムスタンプが取得される。
【0095】
関心度判定部66は、実物体に対するユーザ2の関心度を判定する。関心度は、ユーザ2が実物体に対してどのぐらい注目しているか、又は実物体に対して関わっているかを示すパラメータである。本実施形態では、例えばドア1に対するユーザ2の関心度が判定される。関心度判定部66による判定については、後に詳しく説明する。
【0096】
本実施形態において、関心度判定部66は、第2の判定部として機能する。関心度判定部66を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。この場合、関心度判定部66は、取得部としても機能する。
【0097】
ユーザ判定部67は、ユーザ2によりドア1が操作されたか否かを判定する。例えば、ユーザ判定部67は、例えば検出情報として検出されたドア1とユーザ2との距離に基づいて、ユーザ2によりドア1が操作されたか否かを判定する。もちろん他の判定方法が用いられてもよい。
【0098】
本実施形態において、ユーザ判定部67は、第1の判定部として機能する。ユーザ判定部67を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。この場合、ユーザ判定部67は、取得部としても機能する。
【0099】
遅延算出部56は、時間取得部35及び時間取得部65から供給される時間情報に基づいて、通信端末20から送信されるセンサ情報(本実施形態では、イベントID)が通信端末40に受信されるまでの遅延量(レイテンシ)を算出する。
【0100】
本実施形態では、イベントIDとともに送信されるタイムスタンプと、イベントIDの受信の際のタイムスタンプとにより、遅延量が算出される。すなわち本実施形態では、通信端末20によりセンサ情報が通信端末40に送信された時間から、通信端末20によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。
【0101】
本実施形態において、遅延量(到達時間)は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に相当する。
【0102】
再生制御部57は、イベント認識部63により認識されたイベントに応じた音声コンテンツの再生を制御する。本実施形態では、遅延量(到達時間)に基づいて、ドア1の動きに応じた音声コンテンツの再生が制御される。
【0103】
例えば再生制御部57は、第1の再生制御として、遅延量(到達時間)が所定の時間範囲内であるときに、第1の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。また第2の再生制御として、遅延量(到達時間)が所定の時間範囲外であるときに、第1の再生方法とは異なる第2の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。
【0104】
すなわち再生制御部57は、算出された遅延量が所定の時間範囲内のときと、所定の時間範囲外であるときとで異なる再生方法で、イベントに応じた音声コンテンツの再生を制御することが可能である。遅延量に応じた再生方法の具体例は後に詳しく説明する。
【0105】
また再生制御部57は、ユーザの状態情報及び周囲の状況情報を含む検出情報、関心度判定部66による判定結果、及びユーザ判定部67による判定結果に基づいて、音声コンテンツの再生を制御することも可能である。
【0106】
また再生制御部57は、イベントDBに記憶されたイベントの順序に基づいて、音声コンテンツの再生を制御することも可能である。
【0107】
なおイベントIDが用いられる場合に限定される訳ではなく、イベントIDがなくても実物体の動きに応じた音声コンテンツの再生を実行させることも可能である。例えば上記したように、イベントIDの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定される構成が採用されるとする。この場合、当該センサ端末や専用線からの信号に基づいて、特定された実物体の動きに応じた音声コンテンツを再生することが可能である。またイベントIDに基づいた音声コンテンツの再生と、イベントIDを用いない音声コンテンツの再生の両方が実行可能であってもよい。
【0108】
図4は、実物体の動きが開始してから、音声コンテンツを通信端末40で出力するまでに生じる遅延を説明するための模式図である。
【0109】
直線70は、通信端末20の時間軸であり、矢印方向に沿って時間が経過する。直線80は、通信端末40の時間軸であり、矢印方向に沿って時間が経過する。
【0110】
星マーク71は、ドア1の動きがあったタイミングを表現している。ここではドア1が開かれた場合を例に挙げる。ドア1の開く動きに応じて、通信端末20のセンサ部25によりセンシング72が実行される。
【0111】
図4の処理73は、動き認識部34、時間取得部35、及び通信制御部36により行われる処理を1つの処理として示す。すなわち、動き認識部34によりドア1の開きが認識され、ドア1の開きに応じたイベントIDが通信制御部36に供給される。時間取得部35により、通信制御部36による送信タイミングのタイムスタンプが取得される。通信制御部36により、イベントID及びタイムスタンプが送信される。
【0112】
図4の通信75は、イベントID及びタイムスタンプが通信中であることを表現している。すなわち通信端末20から送信されたイベントID及びタイムスタンプが、通信端末40に到達するまでの通信処理が表現されている。
【0113】
図4の処理81は、通信端末40の通信制御部54、情報処理部55、遅延算出部56、及び再生制御部57により行われる処理を1つの処理として示す。
【0114】
本実施形態では、通信制御部54は、イベントIDをイベント認識部63に供給し、タイムスタンプを時間取得部65に供給する。イベント認識部63は、供給されたイベントIDに基づいて、ドア1が開かれた旨のイベントを認識する。時間取得部65は、供給されたタイムスタンプ(処理73が実行された時間)を受信した際のタイムスタンプ(処理81が実行された時間)を取得する。
【0115】
遅延算出部56は、送信された際のタイムスタンプと受信された際のタイムスタンプから、遅延量を算出する。すなわち、通信75に掛かる時間が遅延量として算出される。
【0116】
再生制御部57は、遅延量とイベントに基づいて、ドア1の動きに応じた再生コンテンツの再生を制御する。これによりユーザ2に装着されたヘッドフォン3から、ドア1の開く動きに応じた音声コンテンツが再生される(
図4の再生82)。
【0117】
星マーク83は、ユーザ2が音声コンテンツの音を知覚した時間を示す。
図4に示すように、音声コンテンツの再生が開始してから、人間が音を知覚するまでには多少の時間が掛かる。
【0118】
図4の遅延85は、ドアが動いた星マーク71からユーザ2が音を知覚した星マーク83までの時間を示す。遅延85の要因として、通信端末20及び通信端末40にて実行される処理に掛かる時間や、通信端末20と通信端末40との通信75に掛かる時間(遅延量)等が挙げられる。本実施形態では、通信75の時間(遅延量)に基づいて、音声コンテンツの再生が制御される。
【0119】
もちろん通信端末20及び通信端末40にて実行される処理に掛かる時間に基づいて、音声コンテンツの再生を制御することも可能である。例えば、無線方式とは異なる他の通信方式が採用される場合等において、通信端末20及び通信端末40にて実行される処理に掛かる時間を遅延量として、本技術を適用することも可能である。
【0120】
遅延量は、通信端末20及び通信端末40による無線通信の環境に応じて変化する。例えば、通信端末20と通信可能な通信端末の数が多い場合、遅延量は大きくなる。また例えば、通信端末20と通信端末40との通信量が多い場合も、遅延量は大きくなる。また通信端末20及び40の通信部29の性能等によっても、遅延量は変わってくる。
【0121】
以下に説明するように、遅延量に応じて音声コンテンツの制御を実行することで、ユーザ2に高品質な仮想体験を提供することが可能となる。すなわち遅延量に応じた高品質な音AR体験を提供することが可能となる。例えばユーザ2自身の動作やユーザ2が観察した動作に付随する、納得のできる視聴体験を提供することが可能となる。また音と映像のクロスモーダル効果を発揮することも可能となる。
【0122】
図5は、音声コンテンツの再生の制御例を示すフローチャートである。
図6は、遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。
図6Aは、遅延量が所定の時間範囲内であるときの再生制御を示す模式図である。
図6Bは、遅延量が所定の時間範囲外であるときの再生制御を示す模式図である。以下、
図5及び
図6を参照しながら説明を行う。
【0123】
図6A及びBの星マーク71に示すように、ドア1が開かれる。そうすると通信端末20のセンサ部25等により、ドア1が開く動きに基づいたセンシング結果が検出される(ステップ101)。動き認識部34により、ドア1が開かれたイベントが認識され、イベントIDが生成される(ステップ102)。
【0124】
通信端末20の通信制御部36は、イベントIDと、時間取得部35により取得されたタイムスタンプts0とを、通信端末40に送信する(ステップ103)。
【0125】
通信端末40の通信制御部54は、通信端末20から送信されたドア1が開かれたことを示すイベントIDと送信時のタイムスタンプts0を受信する。イベント認識部63は、ドアが開かれたことを示すイベントIDから、実空間で起きたイベントとしてドア1が開かれたことを認識する。また時間取得部65は、イベントIDを受信した時間を示すタイムスタンプts1を取得する(ステップ104)。
【0126】
遅延算出部56は、受信した時間を示すタイムスタンプts1と送信した時間を示すタイムスタンプts0とから遅延量を算出する。
【0127】
再生制御部57は、算出された遅延量が、所定の時間範囲内であるか否かを判定する。本実施形態では、所定の時間範囲として0.2秒が設定される。従って再生制御部により、算出された遅延量が0.2秒以内であるか否かが判定される(ステップ105)。もちろんステップ105の判定の基準となる所定の時間範囲は限定されず、任意に設定されてよい。例えば、0.05秒等のさらに短い時間範囲が設定されてもよいし、0.5秒等のさらに長い時間範囲が設定されてもよい。
【0128】
図6Aに示すように、通信75に掛かる時間である遅延量85が0.2秒未満であった場合(ステップ105のYES)、再生制御部57は、第1の再生方法により、ドア1の動きに応じた音声コンテンツの再生の制御を実行する。
【0129】
本実施形態では、まずドア1の動きに応じたアタック音として、ドア1が開いた瞬間の「ガチャ!」という音が再生される(ステップ106)。そして、アタック音が再生された後に、アタック音を含まない音として、ドア1が開く動きに応じた「ギー」という音が再生される(ステップ107)。
【0130】
図6Bに示すように、通信75に掛かる時間である遅延量85が0.2秒以上であった場合(ステップ105のNO)、再生制御部57は、第2の再生方法により、ドア1の動きに応じた音声コンテンツの再生の制御を実行する。
【0131】
本実施形態では、ドア1の動きに応じたアタック音である「ガチャ!」は再生されず、アタック音を含まない「ギー」という音が再生される。またアタック音を含まない「ギー」という音は、フェードインにより再生される。
【0132】
このように本実施形態に係る第1の再生方法は、実物体の動きに応じたアタック音を含む。また第2の再生方法は、実物体の動きに応じたアタック音の再生が規制される。アタック音の再生の規制は、アタック音として規定された音の再生の停止、及びアタック音として規定された音以外の音の再生を含む。またアタック音の再生の規制は、アタック音が規制された音の再生を含む。アタック音及びアタック音が規制された音については、後に詳しく説明する。
【0133】
また第2の再生方法は、音声コンテンツのフェードインを含む。なおステップ108にて再生された「ギー」という音が、そのままフェードアウトされてもよい。すなわち第2の再生方法として、音声コンテンツのフェードアウトが含まれてもよい。
【0134】
もちろん第1の再生方法及び第2の再生方法が、このような再生方法に限定される訳ではない。例えば第1の再生方法がアタック音を含まない場合もあり得る。また第2の再生方法が音声コンテンツンのフェードインやフェードアウトを含まない場合もあり得る。高品質の視聴体験を実現するために、第1の再生方法及び第2の再生方法が任意に設定されてよい。
【0135】
図6に示す遅延量85が大きい場合に、音声ARとして、「ガチャ!」等のアタック音が再生されるとする。この場合、実際のドア1の動きと、仮想的な音声との連動性が損なわれてしまい、仮想体験の品質が大きく低減してしまう可能性が高い。例えばユーザ2がドアノブを捻ってドア1を大きく開いた後に、「ガチャ!」という音が聞えてしまい、ユーザ2にとって大きな違和感となってしまう。
【0136】
本実施形態では、遅延量85が所定範囲内の場合に、アタック音の再生が実行される。一方、遅延量が所定の範囲外の場合には、アタック音の再生が規制される。これにより、ドア1の実際の動きと、仮想的な音声の再生との連動性が高く維持される。この結果、高品質な仮想体験を提供することが可能となる。
【0137】
また遅延量が所定範囲外の場合には、音声コンテンツのフェードインやフェードアウトが実行される。これにより、実際のドア1の動きと仮想的な音声とのずれの影響をさらに抑制することが可能となり、仮想体験の品質を向上させることが可能となる。また音声コンテンツのフェードイン及びフェードアウトを用いることで、事前に多数の音源を用意することなく、実物体の動きと音との連動感が出せる。
【0138】
なお、
図6に示す例では、ステップ108において、アタック音の再生が規制されている。これに限定されず、遅延量が所定範囲内の場合には、音声コンテンツの後半であっても、アタック音が再生されてもよい。
【0139】
図7は、アタック音とアタック音が規制された音の一例を説明するための模式図である。
図7Aは、アタック音の一例を示す模式図である。
図7Bは、アタック音が規制された音の一例を示す模式図である。
【0140】
図7のグラフは、横軸が時間であり、縦軸が波形の振幅を示す。例えば音の波形に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。
【0141】
例えば、一定時間における振幅の変化に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。
図7Aに示すように、一定時間における振幅の減衰が大きい音を、アタック音として規定することが可能である。一定時間、及び減衰が大きいか否かを判定する基準となる閾値等は、任意に設定されてよい。もちろん振幅のピークからの減衰量(減衰率)や、ピーク値等が、アタック音を規定するためのパラメータとして用いられてもよい。
【0142】
図7Aに例示する波形の形状に着目して、類似した波形が繰り返されない音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。
【0143】
アタック音としては、例えば、「ガチャッ」というドアを開ける瞬間に発生する音、「バン」という銃の発射音、及び「ガチャン」という物同士が衝突した際に発生する音等が挙げられる。もちろんこれらの音に限定される訳ではない。
【0144】
図7Bに示すように、一定時間における振幅の変化率(変化量)が所定の範囲内となる音を、アタック音が規制された音として規定することが可能である。また一定時間において振幅が略一定となる音を、アタック音が規制された音として規定することが可能である。一定時間、及び所定の範囲、略一定であるか否かを定める閾値等は、任意に設定されてよい。もちろん、振幅のピークからの減衰量(減衰率)を用いて、減衰量(減衰率)が所定の閾値よりも小さい場合に、アタック音が規制された音として規定されてもよい。またピーク値等が、判定パラメータとして用いられてもよい。
【0145】
図7Bに例示する波形の形状に着目して、類似した波形が繰り返される音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。
【0146】
アタック音が規制された音としては、例えば、「キー」というドアが開いている間の音、「シャラシャラ」という落ち葉が擦れる音、「ヒュー」という窓を開けたときの風切り音、及び「ザー」という雨の音等の連続的な音が挙げられる。もちろんこれらの音に限定される訳ではない。
【0147】
例えば他の人物が落ち葉を強く踏みつけた後に、静かに落ち葉の上を歩いたとする。他の人物が携帯する通信端末により、他の人物の動きに基づいてイベントIDが生成され、タイムスタンプとともにユーザ2の通信端末40に送信される。
【0148】
イベントIDを受信するまでの遅延量が所定の時間範囲内の場合には、落ち葉を強く踏みつける仮想的なアタック音が再生された後に、落ち葉を静かに歩く仮想的な音が再生される。遅延量が所定の時間範囲外の場合は、落ち葉を強く踏みつける仮想的なアタック音の音は再生されず、落ち葉を静かに歩く仮想的な音がフェードンイン/フェードアウトされる。例えばこのような再生制御を実行することが可能である。なおこの例では、他の人物が実物体に相当する。
【0149】
なお、アタック音、及びアタック音が規制された音を規定する方法として、他の方法が採用されてよい。例えば所定の時間範囲内(例えば0.5秒以内)に音の再生が終了され、その後繰り返されない音がアタック音として規定されてもよい。また所定の時間範囲内(例えば0.5秒以内)に音圧レベル(振幅)が最大値の半分以下になる音が、アタック音として規定されてもよい。
【0150】
あるいは、類似した波形が繰り返される場合でも、その振幅が所定の値よりも大きい場合には、複数のアタック音として規定されてもよい。
【0151】
またその音が発生するタイミングを強くユーザに認識させる音を、アタック音として規定することも可能である。すなわちその音を聞いたユーザが、その音がいつ発生したかを強く認識させてしまう音を、アタック音として規定することが可能である。例えば突発的な音、短くて強い音と表現され得る音等が含まれる。例えば単位時間当たりの振幅の増加量が大きな音や振幅のピーク値が所定の閾値よりも大きい音等を、アタック音として規定することが可能である。
【0152】
また、実物体の動きとの関連性(連動性)により、アタック音が規定されてもよい。例えば、実物体の動きに対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。この場合、アタック音とは異なる表現、例えば時間的に関連性が高い音や、動きとのずれが許容されない音といった表現で、その音を規定することも可能である。
【0153】
実物体へのユーザの操作との関連性(連動性)により、アタック音が規定されてもよい。例えばユーザの操作に対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。例えば操作関連音といった表現で、その音を規定することも可能である。
【0154】
また1回の動き(1回の操作)に対して、1回発生する音が、アタック音として規定されてもよい。
【0155】
また例えば、音圧レベルの変化がなだらかな音等が、アタック音が規制された音として規定されてもよい。もちろんこれに限定されず、様々な音がアタック音が規制された音として定義されてよい。例えば、ユーザの1回の動作又は実物体の動きに対して、繰り返し再生されてもユーザが違和感を覚えない音が挙げられる。もちろんアタック音として規定された音以外の音が、アタック音が規制された音として規定されてもよい。
【0156】
なお
図5のステップ105の判定の基準となる所定の時間範囲を設定する方法の1つとして、アタック音として規定された音を実際に再生して、どのくらいまでの遅延量であれば違和感を覚えないかを実験的に確認してもよい。これにより高品質な仮想体験を実現することが可能となる。
【0157】
以上、本実施形態に係る音声ARシステム100では、ドア1の動きに基づいて生成されるセンサ情報の取得に関する遅延量(到達時間)に基づいて、遅延量が所定の時間範囲内であるときに、第1の再生方法でドア1の動きに応じた音声コンテンツの再生が制御され、遅延量が所定の時間範囲外であるときに、第2の再生方法でドア1の動きに応じた音声コンテンツの再生が制御される。これにより、遅延量を考慮して音声コンテンツを再生することができるため、高品質な仮想体験を提供することを可能となる。
【0158】
実物体の動きをセンシングしてヘッドフォンで効果音等の仮想的な音声コンテンツを再生する場合、実物体で検知した動きの情報が小さい遅延量でヘッドフォンに伝わらないと良い仮想体験を作れない。一方で、無線帯域や処理のリソースには限りがあるので、混雑した状況だと遅延量を保証するのは難しい。
【0159】
そこで、本技術では、通信の遅延量に基づいて、音声コンテンツの再生を制御する。遅延量が小さい場合は、注意を向けやすいアタック音のような音を再生し、遅延量が大きい場合は、遅れることによって仮想体験を大きく損なう可能性の高いアタック音を規制するように音声コンテンツの再生を制御する。これにより、高品質な仮想体験を提供することを可能となる。
【0160】
本技術では、通信の遅延量に基づいて音声コンテンツの再生が制御されるため、他のユーザが多く無線帯域が混んで遅延が多い環境下でも、違和感の少ない音声AR体験が可能となる。
【0161】
また遅延量が大きい場合でも体験が大きく損なわれないため、BLE(Bluetooth Low Energy)等の低消費電力なプロトコルを使用でき、実物体側及びユーザが持つ通信端末の充電回数を減らすことが可能となる。
【0162】
<第2の実施形態>
本技術に係る第2の実施形態の音声ARシステムについて説明する。これ以降の説明では、上記の実施形態で説明した音声ARシステム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
【0163】
図8は、本実施形態に係る音声ARシステムの概要を説明するための模式図である。本実施形態では、実物体であるドア1に、センサ装置として、複数の通信端末20a及び20bが設置される。なお、通信端末20a及び通信端末20bのセンサ部25の構成は限定されず、互いに同じ構成であってもよいし異なる構成でもよい。
【0164】
通信端末20a及び20bの構成は、互いに同じであってもよいし、異なっていてもよい。またドア1の動きを検出する方法も限定されず、任意の方法が採用されてよい。すなわち通信端末20a及び20bが、同じ検出方法で、ドア1の動きを検出可能であってもよい。あるいは、通信端末20a及び20bが、互いに異なる検出方法で、ドア1の動きを検出可能であってもよい。
【0165】
本実施形態では、通信端末20a及び20bの各々から、ドア1の動きに応じたセンサ情報(イベントID)が生成され、タイムスタンプとともに、通信端末40に送信される。
【0166】
通信端末40では、最も早く取得したイベントID及びタイムスタンプを基準として、
図5に例示する音声コンテンツの再生制御を実行する。これにより、遅延量に応じた高品質な仮想体験を提供することが可能である。
【0167】
なお、通信端末20a及び20bの両方からのセンサ情報(イベントID)の到着を待って、音声コンテンツの再生が実行されてもよい。この場合、典型的には、最も遅く取得したイベントID及びタイムスタンプを基準として、音声コンテンツの再生が制御される。この場合、遅延量(到達時間)が大きくなる可能性が高くなるが、第1の再生方法及び第2の再生方法が適宜選択されて音声コンテンツの制御が実行されるので、仮想体験が損なわれることが抑えられる。
【0168】
例えば、実物体の動きの検出精度を優先する場合や、実物体の動きに応じた音声コンテンツにアタック音が含まれない場合等では、全てのセンサ装置からのセンサ情報を待ってから音声コンテンツの再生制御を実行する。このように条件等に応じて設定を適宜選択することで、さらに高品質な仮想体験を実現することが可能である。また複数のセンサ情報を用いることで、高い精度で実物体の動きの検出をすることができ、精度の悪いセンサでも遅延量の改善に寄与できる。
【0169】
本実施形態において、通信端末20a及び20bの両方からのセンサ情報(イベントID)は、実物体の動きに基づいて生成される複数のセンサ情報に相当する。この複数の再生情報のうち、再生制御の基準となる1以上のセンサ情報が選択され、選択された1以上のセンサ情報の取得に関する時間情報に基づいて、音声コンテンツの再生が制御される。
【0170】
上記したように、複数のセンサ情報のうち、最も早く取得されたセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。あるいは、全てのセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。
【0171】
<第3の実施形態>
図9は、本技術の第3の実施形態に係る音声ARシステムの概要を説明するための模式図である。本実施形態では、第1及び第2の実施形態において説明した通信端末40の機能が備えられたヘッドフォン140が用いられる。
【0172】
ヘッドフォン140は、
図2及び
図3に示す通信端末40の各ブロックを有する。
図9では、マイク23と、カメラ24とが図示されている。なおスピーカ22は、耳に装着される部分に配置される。またコントローラ21やセンサ部25等は、ヘッドフォン140の任意の位置に設けられる。
【0173】
例えば、ドア1に設置された通信端末20と、ユーザにより装着されるヘッドフォン140とが協働することで、ドア1の動きに応じた音声コンテンツの再生制御が実行されてもよい。
【0174】
図10は、通信端末20とヘッドフォン140との協働による音声コンテンツの再生制御例を示すフローチャートである。まず通信端末20から通信端末40に、ドア1の動きに応じたイベントIDが送信される。
【0175】
ヘッドフォン140により、通信端末20から送信されたイベントIDが受信される(ステップ201)。ヘッドフォン140により、マイク23がイベントIDに対応するドア1の動きの音声を検出した時間情報が取得される。
【0176】
例えば、マイク23により検出された音声データが解析され、イベントIDに対応するドア1の動きの音声が検出された場合には、タイムスタンプts0が取得され記憶される。ステップ202では、通信端末20からイベントIDを受信した場合に、そのイベントIDに対応するドア1の動きの音声が検出された際のタイムスタンプts0が取得される。
【0177】
例えば、通信端末20からドア1が開いた旨のイベントIDが送信されたとする。ヘッドフォン140側では、ドア1が開いた音が検出されたタイムスタンプts0が記憶されている。ステップ202では、その記憶されたタイムスタンプts0が取得される。
【0178】
ヘッドフォン140は、現在のタイムスタンプts1を取得する(ステップ203)。そしてイベントIDに対応するドア1の動きの音が検出された際のタイムスタンプts0と、現在のタイムスタンプts1との遅延量に基づいて、ドア1の動きに応じた音声コンテンツの再生が制御される(ステップ204、205、206、207)。
【0179】
このように、実物体に設置されている通信端末20からのイベントIDの受信をトリガーとして、イベントIDに対応するドア1の動きの音声の検出タイミングと、現在時間との遅延量が算出されてもよい。そして遅延量に基づいて、音声コンテンツの再生が制御されてもよい。
【0180】
この場合、ヘッドフォン140は、本技術に係るセンサ装置としても機能する。またヘッドフォン140にて検出される音声データや、イベントIDに対応するドア1の動きの音であるという判定結果が、実物体の動きに基づいて生成されるセンサ情報に含まれる。そしてイベントIDに対応するドア1の動きの音声の検出タイミングと、現在時間との遅延量が、センサ情報の取得に関する時間情報に相当する。
【0181】
なお、マイク23により検出された音声データに基づいて、ドア1の動きを認識し、音声コンテンツの再生を認識することも可能である。一方、本実施形態のように、実物体に設置されている通信端末20からのイベントIDの受信をトリガーとすることで、ドア1の動きの認識精度を向上させつつ、遅延量に応じた音声コンテンツの再生制御が可能となる。この結果、高品質な仮想体験を実現することが可能となる。
【0182】
なお、ヘッドフォン140のマイク23により検出される音声データのみならず、ヘッドフォン140のカメラ24により撮影される撮影画像を用いて、通信端末20との協働処理が実行されてもよい。すなわち撮影画像を用いて、受信したイベントIDに対応するドア1の動きの検出が実行され、現在時間との遅延量が算出されてもよい。
【0183】
<第4の実施形態>
図11は、第4の実施形態に係る音声ARシステムの概要を説明するための模式図である。
【0184】
上記の第1~第3の実施形態では、センサ情報の遅延量に基づいて、音声コンテンツの再生の制御が行われた。これに加えて、あるいはこれに代えて、様々な条件に基づいた音声コンテンツの再生制御が実行されてもよい。
【0185】
例えば、本実施形態では、ドア等の実物体に対して、ユーザ以外の他人が操作を行った場合や、ユーザの実物体に対する関心度に基づいて、音声コンテンツの再生の制御が実行される例を説明する
【0186】
図11に示すように、ドア1の付近にユーザ2とユーザ4とがいるとする。ユーザ2から見れば、ユーザ4は他の人物に相当する。ユーザ4から見れば、ユーザ2は他の人物に相当する。ユーザ4により、ドア1が開かれる場合を例に挙げる。
【0187】
ユーザ4がドア1を開けた場合、通信端末20のセンサ部25は、ドア1の動きをセンシングする。動き認識部34は、センシング結果に基づいて、ドア1が開いたイベントを認識する。通信制御部36は、認識されたドア1の動きに応じたイベントIDと、タイムスタンプとをユーザ2の通信端末40aと、ユーザ4の通信端末40bに送信する。なお、ユーザ2の通信端末40b、及びユーザ4の通信端末40aの構成は限定されず、互いに同じ構成であってもよいし異なる構成であってもよい。もちろん通信端末40a及び40bとして、同じデバイスが用いられてもよい。
【0188】
本実施形態では、ユーザ2の通信端末40aのユーザ判定部67により、ユーザ2によりドア1が操作されたか否かが判定される。同様に、ユーザ4の通信端末40bのユーザ判定部67により、ユーザ4によりドア1が操作されたか否かが判定される。例えば各ユーザ判定部67は、ユーザ2(4)とドア1との距離に基づいて、ユーザ2(4)によりドア1が操作されたか否かを判定する。
【0189】
ユーザ4の通信端末40bでは、ユーザ4によりドア1が操作されたと判定される。この場合、例えば
図5に示す処理が実行され、音声ARが実現される。
【0190】
ユーザ2の通信端末40aでは、ユーザ2によりドア1が操作されていないと判定される。すなわち他の人物により、ドア1が操作されたと判定される。この場合、センサ情報(イベントID)の遅延量にかかわらず、アタック音の再生が規制される。または音声コンテンツのボリュームが十分に抑えられる。または、音声コンテンツの再生自体が規制されてもよい(例えばコンテンツ再生の停止やボリュームの制限等が含まれる)。
【0191】
例えば、遅延量に基づいて選択的に実行される第1の再生方法及び第2の再生方法が実行されてもよい。すなわち、通信端末のユーザによりドア1が操作されたと判定された場合に、第1の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。他の人物によりドア1が操作されたと判定された場合に、第2の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。このような処理が実行されてもよい。
【0192】
このように実物体とユーザとの距離の差に応じた音声コンテンツの再生制御が行われることで、ユーザはよりリアルに近くで起こっているイベントに集中して体験ができる。また遠くのイベントに関して通信内容を減らせることから、音声ARシステム100に用いられる必要なシステムを少なくできる。
【0193】
なお、ユーザ判定部67の判定方法は限定されない。例えば、カメラ24がユーザ4によりドア1が操作される画像が撮影された場合でも、実物体への操作がユーザ2以外の人物に行われたと判定してもよい。また例えば、ドア1の加速度等のセンサ部25の取得するセンサ値から判定されてもよい。
【0194】
また再生制御部57の音声コンテンツの再生の制御も限定されない。例えば、実物体への操作がユーザ2以外の人物に行われた場合、音声コンテンツの再生を規制してもよい。
【0195】
実物体とユーザとの距離が、ドア1を操作する人物の判定に用いられる場合に限定される訳ではない。実物体とユーザとの距離自体に基づいて、音声コンテンツの再生制御が実行されてもよい。例えば実物体からの距離が一定範囲であるか否か、実物体に近い所定の範囲内であるか否か、実物体から離れた所定の範囲内であるか否か等に基づいて、音声コンテンツの再生が制御されてもよい。これにより様々な仮想体験を実現することが可能となり、ユーザを楽しませることが可能となる。
【0196】
次に、ユーザ2がドア1に対する関心度に基づいて、音声コンテンツの再生の制御が行われる説明を行う。
【0197】
関心度判定部66は、マイク23、カメラ24、及びセンサ部25により取得される検出情報に基づいて、ユーザ2がドア1に対してどのくらいの関心度を持っているか判定する。
【0198】
関心度が判定される方法の例としては、ユーザ2がドア1を操作しているか、ドア1を操作しているユーザ4がユーザ2とグループ関係か、ユーザ2がドア1を操作した際に出力される音声コンテンツを既に体験しているか、ユーザ2がドア1を見ているか、ユーザ2がドア1の近くでドア1の方向を向いているか等が挙げられる。
【0199】
グループ関係は、ユーザ4がユーザ2と同じグループに属しているか、ユーザ4と家族か、ユーザ4と友人か、又はユーザ4とSNS(Social Networking-Service)上の知り合いかの少なくとも1つを含んでもよい。もちろんこれに限定されず、様々なユーザ2との関係性に基づいてグループ関係が設定されてよい。
【0200】
再生制御部57は、関心度判定部66による判定結果に基づいて、音声コンテンツの再生を制御する。例えば、再生制御部57は、ユーザ2の友人であるユーザ4がドア1を操作する姿を見ている場合等のユーザ2のドア1に対する関心度が高い場合、アタック音を再生する。また再生制御部57は、ユーザ2のドア1に対する関心度が低い場合、アタック音が規制された音を再生する。
【0201】
例えばユーザの関心度が高い場合には、他に人物が操作している場合でも、ユーザ2が操作している場合と同様の再生制御を実行する。一方で、ユーザの関心度が低い場合には、ユーザ2が操作している場合でも、他の人物が操作している場合と同様の再生制御を実行する。例えばユーザ2が他の方向を注視したり、他の人物と話しながらドア1を開けた場合には、ユーザの関心度が低いと判定され、アタック音の再生が規制される。あるいは音声コンテンツ自身の再生が規制される。
【0202】
なお、関心度が判定される方法は限定されない。例えば、ユーザ2が移動中や停止中に基づいて関心度が判定されてもよい。また例えば、ユーザ2が音楽等の様々な音や他の音声コンテンツがスピーカ22から出力されている場合、ドア1の動きに応じた音声コンテンツの再生が規制されてもよい。
【0203】
また関心度に基づいて音声コンテンツの再生の制御も限定されない。例えば、各関心度に数値を紐づけて、閾値を超えた場合に音声コンテンツの再生が制御されてもよい。また例えば、複数の関心度の測定方法が任意に組み合わされて実行されてもよい。
【0204】
すなわち、ユーザ4がドア1を操作した場合、上記の第4の実施形態ではアタック音が規制された音が再生された。この場合でも、ユーザ2がドア1に対して高い関心度があると判定された場合は、再生制御部57は、アタック音を再生してもよい。例えば、ドア1を操作するユーザ4とユーザ2とがグループ関係ではないが、ユーザ2がドア1の近くでドア1を凝視しており、ユーザ2がドア1を操作した際に出力される音声コンテンツを未体験の場合、再生制御部57は、アタック音を再生してもよい。
【0205】
また例えば、再生制御部57は、ユーザ2のドア1に対する関心度が低い場合にアタック音を再生してもよい。
【0206】
図12は、関心度に基づいてセンサ情報が規制される制御を示す模式図である。
【0207】
直線110は、ドアの動きに関する加速度等のセンサ値を示し、矢印方向に沿って時間が経過する。直線120は、通信端末40で出力される音声コンテンツの波形を示し、矢印方向に沿って時間が経過する。
【0208】
センサ部25により取得されるドア1の動きは、通信端末40に送信される。通信端末40は、送信されたドア1の動きに基づいて、音声コンテンツの再生を制御する。
【0209】
図12Aに示すように、ドア1の動きが短い時間間隔で頻繁に送信されることで、ユーザ2は、ドア1の動きに関する音声コンテンツを細かく聞くことができる。例えば、ドア1が勢いよく開けられた場合やドア1がゆっくりと開けられた場合に、再生制御部57は、ドア1の加速度に応じて音声コンテンツを制御する。これにより、ユーザ2は、高品質な仮想体験が体験できる。
【0210】
第4の実施形態では、ユーザ2がドア1に対する関心度に基づいて、センサ部25から送信されるドア1の動きに基づいて生成されるセンサ情報の情報量が規制される。
【0211】
図12Aに示すように、関心度判定部66がユーザ2のドア1に対する関心度が高いと判定した場合、通信制御部54は、センサ部25が取得したセンサ情報の情報量を規制せずに受信する。
【0212】
また
図12Bに示すように、関心度判定部66がユーザ2のドア1に対する関心度が低いと判定した場合、通信制御部54は、センサ部25が取得したセンサ情報の情報量を規制する。具体的なセンサ情報の情報量の規制の例としては、通信制御部54は、ドア1が開いた最初のセンサ情報111と、ドア1の動きが停止した最後のセンサ情報112のみを受信する。
【0213】
ユーザ2のドア1に対する関心度が低いと判定した場合、送信側である通信制御部36により、送信するセンサ情報の情報量が規制されてもよい。もちろん送信側及び受信側の両方で、センサ情報の情報量が規制されてもよい。
【0214】
なお、センサ情報の情報量の規制する方法は限定されない。例えば、通信端末20及び通信端末40の通信環境に基づいて、情報量が規制されてもよい。また例えば、ユーザ2がドア1に対して高い関心度を持つ場合、より多くのセンサ情報が送信されてもよい。
【0215】
ドアの動きのセンサ情報が頻繁に送信されると実物体の動きにあったリアルな音表現が可能となる分、通信や処理のリソースがかかる。例えば、通信端末20が配置された実物体がドア以外にも複数ある場合、それらのセンサ情報を頻繁に送信されると遅延量が大きくなる可能性がある。
【0216】
このため、第4の実施形態では、ユーザの関心度が判定されることで、ユーザが実物体を見たり操作している時のみにセンサ情報が頻繁に送られ、見ていない時のセンサ情報の送信頻度は低減される。これにより、遅延量を減らすことで、高品質な仮想体験が体験できる。
【0217】
また、ユーザが実物体を主体的に操作した音のみ、高い音や音量の大きい音、単位時間当たりの振幅の変化が大きな音等のいわゆる目立つ音(アタック音)で再生されることで、他のユーザが多くいる混んだ環境でも、最も注目したい音が最も目立つように再生される。また、他人が操作したユーザの関心が低い実物体のアタック音が規制される。これにより、他のユーザの操作の音が目立たないため自分の体験に集中できる。またユーザの周りで様々な出来事(イベント)が起こっている状況において、一番関心のある出来事に関する音を聞くことが可能となり、大事な体験により集中することが可能となる。
【0218】
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
【0219】
上記の第1~第4の実施形態では、通信端末20が設置される実物体はドア1だった。これに限定されず、実物体は、ユーザ2により操作される実空間内に存在する物体であってもよい。例えば、いす、カバン、車、スイッチ、及びペン等が挙げられる。また例えば、ユーザが操作を行えない物体でもよい。例えば、駅の広告を表示する液晶ディスプレイ等にも本技術は適用可能である。またユーザ2の実物体の操作は、ユーザ2の動きとも言える。
【0220】
上記の第1~第4の実施形態では、音声コンテンツの再生の制御は、遅延量及び関心度等に基づいて制御された。これに限定されず、音声コンテンツの再生の制御は、ユーザ2の周囲の環境や周囲の環境音に基づいて、音声コンテンツの再生が制御されてもよい。例えば、人の密集度、照明の明るさ、電波の混雑状況、友人の有無等に基づいて、音声コンテンツの再生が制御されてもよい。また周囲の環境音がうるさい又は静かであるか否か(環境音の音量の大小)、音声コンテンツと同じような音が流れているか否か、ユーザ自身が会話しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。またユーザが別のコンテンツに集中しているか否か、スマートフォン等により映像を視聴しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。また例えば、ドア1に対するユーザ2の操作の回数に基づいて、音声コンテンツの再生が制御されてもよい。
【0221】
また上記の第1~第4の実施形態では、音声コンテンツの再生の制御は、イベントの到達する順番に基づいて再生された。これに限定されず、イベントIDの到達順序の同期が取られてもよい。例えば、弾丸が壁に着弾する音を示すイベントIDが到達した場合、弾丸の発射音を示すイベントIDが到達するまで音声コンテンツの再生が規制されてもよい。これにより、再生される音声コンテンツの順番が正しく制御されることで、ユーザの仮想体験が損なわれることを防ぐことが可能となる。
【0222】
図13は、他の実施形態に係るセンサ情報の通信制御を示す模式図である。
図13に示すように、直線130は、矢印方向に沿って時間が経過し、ドア1の動きに関する加速度等のセンサ値を示す波形の時間軸を示す。直線140は、矢印方向に沿って時間が経過し、通信端末40で出力される音声コンテンツの波形を示す波形の時間軸を示す。
【0223】
上記の第1~第4の実施形態では、ドア1の開く動きに基づいて生成されるセンサ情報が通信端末40に送信されることにより音声コンテンツが再生された。これに限定されず、ドア1の開く動きに基づいて生成されるセンサ情報が段階的に分かれて送信されてもよい。
【0224】
図13Aは、通信端末20からのセンサ情報に基づいて音声コンテンツが再生されることを示す模式図である。
【0225】
図13Aに示すように、通信端末20によりドアの動きがセンシングされる。この時通信制御部36は、ドアが動き始めたことを示すセンサ情報131を通信端末40の通信制御部54に送信する。再生制御部57は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。
【0226】
次にドアが更に開かれた場合、通信制御部36は、ドアが動いていることを示すセンサ情報132を通信制御部54に送信する。再生制御部57は、ドアが動いている動きに応じた音声コンテンツの再生を制御する。
【0227】
すなわち、再生制御部57は、センサ情報の取得に応じて音声コンテンツの再生を開始し、音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、音声コンテンツの再生を継続するか否かを決定する。なお、本実施形態において、センサ情報131、132、及び133は、音声コンテンツの再生の継続に関する情報に相当する。
【0228】
再生制御部57がドアの動きに応じた音声コンテンツの再生を制御するためには、ドアが開いたという動作を示すセンサ情報を数ミリ秒蓄える必要がある。しかし、上記の実施形態に示すように、再生制御部57は、通信の遅延量に基づいて音声コンテンツの再生を制御するため、センサ情報を数ミリ秒蓄えると遅延量が大きくなってしまう場合があり得る。
【0229】
本実施形態のようにセンサ情報が段階的に送信されることで、実物体が動いたと認識できるまでの遅延量を減らすことができる。これにより、高品質な仮想体験が体験できる。
【0230】
図13Bは、通信端末20からのセンサ情報に基づいて音声コンテンツの再生が停止されることを示す模式図である。
【0231】
図13Bに示すように、通信端末20によりドアの動きがセンシングされ、通信制御部36は、ドアが動き始めたことを示すセンサ情報131を通信端末40の通信制御部54に送信する。再生制御部57は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。
【0232】
次にドアの動きが停止した場合、通信制御部36は、ドアが停止したことを示すセンサ情報133を通信制御部54に送信する。再生制御部57は、ドアが停止したセンサ情報に基づいて、音声コンテンツの再生を制御する。例えば、ドアが動き始めた際に再生された「ガチャッ」という音をフェードアウトすることで音声コンテンツの再生を停止させる。
【0233】
すなわち、
図13Bでは、ドアが開いたという動きに応じた音声コンテンツが再生された後にドアの動きが停止した場合、音声コンテンツの再生を停止するように制御が行われる。この結果、ユーザによる意図しない実物体の動きに応じた音声コンテンツの再生を防ぐことが可能となる。
【0234】
図14は、様々な場面に応じた音声コンテンツの例を示す図である。
【0235】
上記の第1~第4の実施形態では、ドア等の実物体を動かす際に発生する音が仮想的な音に設定された。これに限定されず、様々な場面に応じて仮想的な音が設定されてよい。
【0236】
1つの例として、場所や空間に紐づけられた音声コンテンツが再生されてもよい。例えば、ユーザが鳥や川の絵が飾られている場所に近づいた場合に、鳥の声や川の音が再生されてもよい。また例えば、雨が降っている空間(映像)をユーザが視聴している場合に、雨音が再生されてもよい。
【0237】
1つの例として、ユーザの動きによって変わる音声コンテンツが再生されてもよい。例えば、ユーザが走っている時や歩いている時等に応じて足音が変わる様に音声コンテンツが再生されてもよい。
【0238】
1つの例として、他のユーザの動きにより変わる音声コンテンツが再生されてもよい。例えば、他のユーザが近くで歩いている場合に、足音が再生されてもよい。
【0239】
1つの例として、実空間内の実物体の動きにより変わる音声コンテンツが再生されてもよい。例えば、実世界でゲーム体験ができるイベント等で、実空間にある宝箱を開けるときの音が通信端末40を使用しているユーザにのみ再生されてもよい。これ以外にも、窓、スイッチ、リモコン等の操作にも様々な音声コンテンツが再生されてもよい。
【0240】
1つの例として、シナリオ内の仮想的なイベントで変わる音声コンテンツが再生されてもよい。例えば、ユーザの視野にお化けを模した仮想オブジェクトが現れた場合に、仮想のお化けの叫び声が再生されてもよい。
【0241】
もちろんこれらに限定されず、様々な場面が想定されてよい。例えば、車が雨の降ってない道路を走っている場合に、車載スピーカから雨が降っている道路を車が走っている際の音声コンテンツが再生されてもよい。
【0242】
上記の第1~第4の実施形態では、実物体の動きに応じた音声コンテンツの再生が制御された。これに限定されず、通信端末40や専用の装置等が振動をしてもよい。
【0243】
上記の第1~第4の実施形態では、通信端末20から実物体の動きに基づいて生成されたセンサ情報が送信された。これに限定されず、通信端末20から音声コンテンツを再生する旨の制御信号が送信されてもよい。
【0244】
上記の第1~第4の実施形態では、ドア1が開いた場合等の実物体の動きに対してすぐに音が発生する場合に第1の及び第2の再生方法で音声コンテンツの再生の制御が行われた。これに限定されず、実物体の動きに対して少し遅れて発生する音にも音声コンテンツの再生の制御が行われてもよい。例えば、開いているドアが閉まる場合、遅延量に基づいてドアが閉まるよりも早めに音声コンテンツが再生されてもよい。
【0245】
また上記の第1~第4の実施形態では、取得されたタイムスタンプの時間差から遅延量が算出された。これに限定されず、タイムスタンプではなく遅延量の情報そのものが取得されてもよい。
【0246】
上記の第1~第4の実施形態では、通信端末40を所持しているユーザ全員に音声コンテンツが再生された。これに限定されず、通信端末40を所持している一部ユーザにのみ聞こえるようにスピーカ22から音声コンテンツが出力されてもよい。例えば、駅の券売機や情報案内板等の音声指示を必要としている特定のユーザのスピーカ22にのみ音声が再生されてもよい。
【0247】
上記の第1~第4の実施形態では、ユーザの実物体に対する関心度に応じて音声コンテンツの再生が制御された。これに限定されず、周囲の環境や他のユーザ又は実物体との距離等に応じて音声コンテンツの音量が制御されてもよい。例えば、10人以降の他のユーザの操作による実物体の動きの音声コンテンツの再生が規制されてもよい。
【0248】
上記の第1~第4の実施形態では、遅延量に基づいて、音声コンテンツの再生が制御された。これに限定されず、通信端末40側の遅延が大きい場合に、出力される音声コンテンツが軽量なファイルに制御されてもよい。例えば、遅延が大きい場合、wave(RIFF waveform audio format)等の軽量な固定のファイルが用いられてもよう。また例えば、遅延が小さい場合は、リアルタイムで音声合成されたファイルが用いられてもよい。
【0249】
上記の第1~第4の実施形態では、アタック音を規制する方法として、アタック音が規制された音が再生された。これに限定されず、様々なアタック音を規制する方法が採用されてもよい。例えば、音声コンテンツのアタック音の部分をフェードインすることでユーザが知覚しづらいように隠してもよい。またアタック音が再生される時に雑踏の音等の別の音が重ねられてもよい。
【0250】
通信端末に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータとが連動することにより、あるいはHMDと通信可能な他のコンピュータにより、本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
【0251】
すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
【0252】
コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、イベントの認識、遅延量の算出、及び音声コンテンツの再生の制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。
【0253】
すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
【0254】
各図面を参照して説明した情報処理部、イベント認識部、遅延算出部、再生制御部等の各構成、通信システムの制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
【0255】
なお、本開示中に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。上記の複数の効果の記載は、それらの効果が必ずしも同時に発揮されるということを意味しているのではない。条件等により、少なくとも上記した効果のいずれかが得られることを意味しており、もちろん本開示中に記載されていない効果が発揮される可能性もある。
【0256】
以上説明した各形態の特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。
【0257】
なお、本技術は以下のような構成も採ることができる。
(1)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する再生制御部
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
情報処理装置。
(3)(2)に記載の情報処理装置であって、
前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
前記第2の再生方法は、前記アタック音の再生を規制する
情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
情報処理装置。
(6)(1)から(5)のうちいずれか1つに記載の情報処理装置であって、さらに、
ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備し、
前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(7)(6)に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
(8)(6)又は(7)に記載の情報処理装置であって、
前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
情報処理装置。
(9)(6)から(8)のうちいずれか1つに記載の情報処理装置であって、
前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記実物体に対するユーザの関心度を判定する第2の判定部を具備し、
前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(11)(10)に記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記第2の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行する
情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、さらに、
ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(13)(12)に記載の情報処理装置であって、
前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(14)(12)又は(13)に記載の情報処理装置であって、
前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(16)(15)に記載の情報処理装置であって、
前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択する
情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、
前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
情報処理装置。
(19)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する
ことをコンピュータシステムが実行する情報処理方法。
(20)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ
をコンピュータシステムに実行させるプログラムが記録された記録媒体。
(21)(1)から(18)のうちいずれか1つに記載の情報処理装置であって、
開放型ヘッドフォンによる前記音声コンテンツの再生を制御する
情報処理装置。
(22)(1)から(18)及び(21)のうちいずれか1つに記載の情報処理装置であって、
開放型ヘッドフォンとして構成されている
情報処理装置。
(23)(1)から(18)のうちいずれか1つに記載の情報処理装置であって、
前記音声コンテンツを出力するヘッドフォンを具備し、
HMD(Head Mounted Display)として構成されている
情報処理装置。
【符号の説明】
【0258】
20…通信端末
21…コントローラ
34…動き認識部
35…時間取得部
40…通信端末
56…遅延算出部
57…再生制御部
61…ユーザ状態検出部
62…状況検出部
63…イベント認識部
65…時間取得部
66…関心度判定部
67…ユーザ判定部