(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、AR技術を利用した様々なデバイスやシステムが開発されているが、ユーザがさらに楽しめるような工夫や改善が求められる。
【0006】
本開示の目的は、ユーザの興趣の向上を図ることができる情報処理装置、情報処理方法およびそのプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、一形態に係る情報処理装置は、認識部と、処理部とを具備する。
前記認識部は、実空間の物体を認識するように構成される。
前記処理部は、音楽の特徴量に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成される。
【0008】
これにより、ユーザは、実空間の物体が音楽に連動するように表示される画像を観て楽しむことができ、ユーザの興趣の向上を図ることができる。
【0009】
前記処理部は、前記物体の種類に関連付けられた視覚エフェクト処理を実行するように構成されていてもよい。
【0010】
前記処理部は、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成されていてもよい。これにより、ユーザは、周波数帯域ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。
【0011】
前記処理部は、前記特徴量として前記音楽の音源の位置情報を取得し、前記音源の位置ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成されていてもよい。これにより、ユーザは、音源の位置ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。
【0012】
前記処理部は、前記複数の対象物体画像に異なる複数の視覚エフェクト処理をそれぞれ実行するように構成されていてもよい。これにより、ユーザは、周波数帯域ごと、または、音源の位置ごとに異なる視覚エフェクトを体感することができる。
【0013】
前記処理部は、前記特徴量として前記音楽のテンポの情報を取得し、前記テンポに応じて前記視覚エフェクト処理を実行するように構成されていてもよい。
【0014】
前記処理部は、前記特徴量として前記音楽の調の情報を取得し、前記調に応じて前記視覚エフェクト処理を実行するように構成されていてもよい。
【0015】
前記処理部は、前記音楽のデータに付随するメタ情報を取得し、前記メタ情報に基づき、前記視覚エフェクト処理を実行するように構成されていてもよい。
【0016】
前記メタ情報は、前記視覚エフェクト処理に関する設定の情報である視覚エフェクト設定情報を含んでいてもよい。
【0017】
前記情報処理装置は、前記音楽のデータから前記特徴量を抽出する特徴量抽出部をさらに具備してもよい。すなわち、この情報処理装置は、音楽のデータから特徴量を動的に抽出して視覚エフェクト処理を実行することができる。
【0018】
前記情報処理装置は、前記特徴量、前記物体、および前記視覚エフェクト処理の内容のうち少なくとも1つを、ユーザに設定させる処理を実行するように構成された設定部をさらに具備してもよい。
【0019】
前記情報処理装置は、前記情報処理装置の周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備してもよい。前記処理部は、前記周辺環境の情報に基づき、前記視覚エフェクト処理をさらに実行するように構成されていてもよい。これにより、情報処理装置は、情報処理装置の周辺の環境に応じた視覚エフェクト表示が可能となる。
【0020】
前記周辺環境取得部は、前記情報処理装置の位置情報、前記情報処理装置が置かれる自然環境情報、または、ユーザの生体情報を、前記周辺環境の情報として取得するように構成されていてもよい。
【0021】
他の形態に係る情報処理装置は、上記認識部と、処理部とを具備する。
前記処理部は、音楽のデータに付随するメタ情報に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成される。
【0022】
一形態に係る情報処理方法は、実空間の物体を認識することを含む。
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理が実行される。
【0023】
他の形態に係る情報処理方法は、実空間の物体を認識することを含む。
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理が実行される。
【0024】
一形態に係るプログラムは、上記情報処理方法を、情報処理装置(コンピュータ)に実行させるものである。
【発明の効果】
【0025】
以上、本技術によれば、ユーザの興趣の向上を図ることができる。
【0026】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
【発明を実施するための形態】
【0028】
以下、本技術に係る実施形態を、図面を参照しながら説明する。
【0030】
1.1)情報処理装置の構成
図1は、本技術の実施形態1に係る情報処理装置の構成を示すブロック図である。情報処理装置100は、例えば、スマートフォン、タブレット型コンピュータ、ヘッドマウントディスプレイデバイス、また、その他の携帯型、ウェアラブル型、または非携帯型のコンピュータである。あるいは、情報処理装置100は、本技術に最適化された専用のデバイスであってもよい。
【0031】
情報処理装置100は、例えば、カメラ10、画像認識部11、音楽データ記憶部15、再生処理部16、特徴量抽出部17、処理部13、表示部14、スピーカー18、操作部19を備える。
【0032】
画像認識部(認識部)11は、カメラ10でリアルタイムで撮影されている画像、または、過去に撮影された画像、すなわち実空間を映した画像(以下、実空間画像と言う。)を解析し、実空間内にある物体を認識する機能を有する。カメラ10で撮影される実空間画像は、静止画または動画のどちらでもよい。
【0033】
画像認識部11は、実空間画像を公知のアルゴリズムで処理および解析することで、実空間画像内の物体を特定し、認識する。公知のアルゴリズムとしては、例えばブロック処理、フィルタ処理、コントラスト処理、セグメンテーション、フーリエ変換、離散コサイン変換、オブジェクト解析、テクスチャ解析等が挙げられる。
【0034】
また、画像認識部11は、解析された物体を、物体の種類に分類して特定する機能を有する。物体の種類とは、例えば建築物、橋、街灯、光源、車両、人間、山、川、海、花、机、椅子、本、ペン、カップ、皿などであり、物体の種類ごとに予め識別子(ID)が対応する。以下、これを物体IDと言う。この物体IDは、情報処理装置100が持つ図示しないメモリに予め記憶されていてもよいし、情報処理装置100がアクセス可能なクラウド上のサーバに記憶されていてもよい。
【0035】
音楽データ記憶部15は、音楽(曲)のデータを記憶する機能を有する。
【0036】
再生処理部16は、音楽データ記憶部15に記憶された音楽データを再生してスピーカー18に出力する機能を有する。
【0037】
例えば再生処理部16は、デコード部161や図示しないDAC(DA変換部)163を有する。デコード部161で所定のコーデックでコード化された音楽データをデコードし、DAC163を介してスピーカー18にアナログ信号を出力する。
【0038】
情報処理装置100は、スピーカー18の代わりに、またはこれに加えて、音声出力端子を備えていてもよい。音声出力端子には、ヘッドフォンやイヤフォンが接続可能とされる。
【0039】
特徴量抽出部17は、デコードされた音楽データから音楽の特徴量を抽出する機能を有する。特徴量とは、周波数帯域(または周波数帯域ごとの信号レベル)、音源の位置、テンポ、または調(長調、短調などのキー)が挙げられる。
【0040】
処理部13は、上記特徴量抽出部17で抽出された音楽の特徴量に応じて、画像認識部11で認識された物体の画像である対象物体画像に視覚エフェクト処理を実行する機能を有する。処理部13は、例えばエフェクト画像生成部131および重畳部133を有する。
【0041】
エフェクト画像生成部131は、画像認識部11により認識された対象物体画像(に対応する物体ID)に基づき、視覚エフェクト処理のためのエフェクト画像を生成する。エフェクト画像は、静止画でも動画でもどちらでもよい。
【0042】
重畳部133は、エフェクト画像生成部131で生成されたエフェクト画像を実空間画像に重畳し、それにより得られる合成画像を生成する。例えば、認識された物体IDとエフェクト画像の種類は、予め関連付けられていればよい。
【0043】
あるいは、情報処理装置100が、上記物体IDとエフェクト画像の種類の関連付けを示すテーブルをクラウド上のサーバからダウンロードしてもよい。
【0044】
物体IDの使用は必須の要素ではない。この場合、エフェクト画像生成部131は、対象物体画像(物体)の形態(形状、大きさ、または色等)に基づき公知のARのアルゴリズムでエフェクト画像を生成することができる。
【0045】
表示部14は、処理部13で生成された合成画像を表示する。操作部19は、ユーザによる操作情報を受け付ける機能を有する。操作部19は、タッチパネルのように表示部14と一体型であってもよいし、あるいは、表示部14とは別体であってもよい。
【0046】
情報処理装置100は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等の図示しないハードウェアを備えている。情報処理装置100は、FPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等の他のハードウェアを備えていてもよい。これらハードウェアと、メモリに記憶されたソフトウェアとの協働により、情報処理装置100の各機能が実現される。
【0048】
図2は、情報処理装置100の動作を示すフローチャートである。例えばユーザの操作により、音楽データ記憶部15から音楽データが選択され、再生処理部16により再生される(ステップ101)。特徴量抽出部17により音楽の特徴量が抽出される(ステップ102)。カメラ10による撮像(または撮影開始)により実空間画像が取得される(または取得が開始される)(ステップ103)と、画像認識部11により実空間画像内の物体が認識される(ステップ104)。この物体の画像が、視覚エフェクト処理の対象となる対象物体画像とされる。
【0049】
ステップ101−102と、ステップ103−104の順序は逆でも同時でもよい。すなわち、ステップ103が先でステップ101が後でもよく、あるいは同時でもよい。
【0050】
処理部13は、抽出された特徴量に応じて、エフェクト画像を生成し、生成されたエフェクト画像を、上記対象物体画像を含む実空間画像に重畳して合成画像を生成し、これを表示する(ステップ105)。
【0051】
例えば、後述するように対象物体画像が複数ある場合、処理部13は、特徴量の値ごとに複数の対象物体画像を割り当て、それら複数の対象物体画像に視覚エフェクト処理を実行する。
【0052】
なお、本実施形態1では、特徴量抽出部17は、典型的には、音楽データの再生中にリアルタイムでその特徴量を抽出する。情報処理装置100は、その音楽データについて、一度抽出した特徴量をストレージに保存しておく機能を有していてもよい。これにより、2度目以降にその音楽データの再生する場合に、特徴量の抽出処理を省略することができる。
【0053】
1.3)視覚エフェクト処理による合成画像の例
【0054】
1.3.1)例1
図3は、視覚エフェクト処理による合成画像の例1を示す。例1に係る実空間画像は夜の道路の風景である。音楽の特徴量は、例えば周波数帯域ごとの信号レベルである。画像認識部11は、街灯や照明(あるいは、所定の面積以上の光源70)の画像を対象物体画像として認識する。処理部13は、再生されている音楽の周波数帯域に応じて、光源70の周囲にエフェクト画像としてリング72を重畳する。すなわち、処理部13は、周波数帯域ごとに複数の異なる光源(対象物体画像)70a、70b、70cを割り当て、それら複数の対象物体画像に視覚エフェクト処理を実行する。
【0055】
例1では、例えば光源の面積が小さい場合(第1の閾値以下の場合)、高音域(第1の周波数帯域)に応じたエフェクト画像として1つのリング72の画像が生成される(光源70a参照)。光源の面積が中ぐらいの場合(第1の閾値を超え、それより大きい第2の閾値以下の場合)、中音域(第2の周波数帯域)に応じたエフェクト画像として2つのリング72の画像が生成される(光源70b参照)。光源の面積が大きい場合(第2の閾値を超える場合)、低音域(第3の周波数帯域)に応じたエフェクト画像として3つのリング72の画像が生成される(光源70c参照)。
【0056】
これらのリング72によるエフェクト画像は、例えば、高音域の光源周囲の1つリング72が点滅したり、低音域および中音域の複数の同心のリング72が内側から順に点灯したりするなどのアニメーション画像により構成される。
【0057】
あるいは、リング72の数、大きさ、色濃度等が、周波数帯域ごとの信号レベルに応じて変わるようなエフェクト画像が生成されてもよい。対象物体画像が街灯や光源の場合に、エフェクト画像はリングに限られず、塗りつぶしの円や、その他の形態であってもよい。
【0058】
画像認識部11は、対象物体画像の光源としての認識基準として、光源の面積に代えて、あるいはこれに加えて、光源の輝度または明度を用いてもよい。
【0059】
以上のように、この情報処理装置100は、ユーザが現在聴いている音楽に連動したリズミカルなエフェクト画像を含む合成画像をユーザに提示することができる。ユーザはその合成画像を観て楽しむことができ、ユーザの興趣の向上を図ることができる。
【0060】
また、情報処理装置100は特徴量抽出部17を備えるので、再生される音楽のデータから特徴量を動的に抽出して視覚エフェクト処理を実行することができる。
【0061】
また、ユーザは、特徴量として周波数帯域ごとに割り当てられたそれぞれの対象物体画像の視覚エフェクトを体感することができる。
【0062】
1.3.2)例2
図4は、視覚エフェクト処理による合成画像の例2を示す。例2に係る実空間画像は、ビルディング群の風景である。音楽の特徴量は、例えば周波数帯域ごとの信号レベルである。画像認識部11は、建物75を認識する。処理部13は、再生されている音楽の周波数帯域に応じて、エフェクト画像として、当該建物75の外形またはそれに似た外形を持つ画像77を建物に重畳する。エフェクト画像は、例えば上下に伸縮するようなアニメーション画像で構成される。
【0063】
例2では、例えば高音域には小さいフットプリントの建物75aの画像(対象物体画像)、低音域には大きいフットプリントの建物75bの画像が割り当てられ、これらの建物の画像にそれぞれエフェクト画像が重畳される。
【0064】
処理部13は、エフェクト画像77に加えて、建物75の対象物体画像の視認性を下げるような視覚エフェクト処理も実行してもよい。これにより、エフェクト画像77の視認性が相対的に高まる。
【0065】
1.3.3)例3
図5は、視覚エフェクト処理による合成画像の例3を示す。例3に係る実空間画像は、主に夜空の風景である。画像認識部11は、実空間画像の輝度(または明度)、色、およびその他の条件に基づき夜空を認識する。処理部13は、再生されている音楽の周波数帯域に応じて、エフェクト画像として、異なる大きさの花火80のアニメーションを夜空の画像(対象物体画像)に重畳する。例えば、低音なら大きい花火、高音なら小さい花火のエフェクト画像が生成される。花火80を観る観客の対象物体画像にも、音楽に連動する動く視覚エフェクト処理が実行されてもよい。
【0066】
画像認識部11による認識の結果、空の輝度(または明度)が閾値を超える場合(例えば明るい昼空などの場合)、処理部13は、その空の明度を下げる、つまり昼空を夜空に変えるエフェクト画像を生成してもよい。そして処理部はその夜空に花火80のエフェクト画像を重畳してもよい。これにより、ユーザは昼空であっても花火の視覚エフェクトを楽しむことができる。
【0067】
1.3.4)例4
図6は、視覚エフェクト処理による合成画像の例4を示す。例4に係る実空間画像は、
図3と同様に、対象物体画像として光源70の画像を含む。特徴量抽出部17は、音楽の特徴量として、音源の位置を抽出する。処理部13は、それら音源の位置ごとに光源70の画像(対象物体画像)を割り当て、視覚エフェクト処理を実行する。
【0068】
例えば、音楽データがステレオのデータである場合において、
図6に示すように、実空間画像内で、左および右側にそれぞれ配置された光源70a、70bにエフェクト画像がそれぞれ重畳される。例えば再生されている音楽が左側のみのデータである場合、左側の光源70aにのみエフェクト画像(リング72)が重畳され、再生されている音楽が右側のみのデータである場合、右側の光源70bにのみエフェクト画像が重畳される。
【0069】
また、特徴量抽出部17は、音源の位置ごとの信号レベルも抽出し、処理部13は、それらの信号レベルに応じて、対象物体画像に視覚エフェクト処理を実行してもよい。例えば処理部13は、それらの信号レベルに応じて、それぞれのリング72の数を変化させることができる。この場合、処理部13は、信号レベルが大きいほど、リング72の数を多くするようなエフェクト画像を生成すればよい。
【0070】
また、音楽データが5.1chサラウンドシステムを採用する場合、処理部13は、さらに多くの音源の位置を、実空間画像を奥行きも含めた3次元空間内で割り当てる。これにより、奥行きを含めた3次元空間内の各位置に配置された対象物体画像に、音楽に連動した視覚エフェクト処理が可能となる。
【0071】
1.3.5)例5
特徴量抽出部17は、音楽の特徴量として、テンポ(スピード)を抽出してもよい。
図3のような光源70を含む実空間画像を例に挙げると、処理部13は、スローテンポな曲の場合には、大きな面積(または高い輝度)の光源70cにもにリング72を重畳する。一方、処理部13は、アップテンポな曲の場合には、光源70の面積(または輝度)の大小を問わず、それらの光源70にリング72を重畳する。
【0072】
あるいは、スローテンポな曲の場合には、遅い動きのアニメーション、アップテンポな曲の場合には、速い動きのアニメーションのエフェクト画像が生成されてもよい。
【0075】
図7は、本技術の実施形態2に係る情報処理装置の構成を示すブロック図である。これ以降の説明では、
図1等に示した実施形態に係る情報処理装置100が含む機能について実質的に同様の要素については同一の符号を付し、その説明を簡略化または省略し、異なる点を中心に説明する。
【0076】
実施形態2に係る情報処理装置200は、メタ情報を記憶するメタ情報記憶部20を備える。メタ情報記憶部20は、例えば音楽のデータに付随するメタ情報を記憶する。音楽データに付随するメタ情報として、例えば曲のタイトル、歌詞、歌手などの書誌情報が挙げられる。あるいは、メタ情報として、その音楽データに予め関連付けられた物体IDが挙げられる。
【0077】
また、メタ情報記憶部20は、視覚エフェクト処理を設定するための視覚エフェクト設定情報を、メタ情報として記憶することもできる。
【0078】
処理部13は、メタ情報記憶部20に記憶されたメタ情報を取得し、取得したメタ情報に基づき、視覚エフェクト処理を実行するように構成される。
【0080】
図8は、実施形態2に係る情報処理装置200の動作を示すフローチャートである。ステップ201〜204は、
図2に示したステップ101〜104と同じである。
【0081】
処理部13はメタ情報を取得する(ステップ205)。処理部13は、メタ情報に基づき、再生される音楽の特徴量に応じて、このエフェクト画像を、対象物体画像を含む実空間画像に重畳して合成画像を生成し、これを表示する(ステップ206)。以下、このステップ206の処理について、いくつかの例を挙げて説明する。
【0082】
2.2.1)動作例1
処理部13は、メタ情報として歌詞またはタイトルを取得したとする。処理部13は、歌詞またはタイトル内のワードに、予め決められたキーワードがあるか否かを判定する。キーワードがあれば、処理部13は、そのキーワードに対応するエフェクト画像を生成する。例えば、キーワードとして「花」がある場合、予め決められた花のエフェクト画像を生成する。処理部13は、その花のエフェクト画像を、任意の実空間画像内に重畳して表示する。
【0083】
2.2.2)動作例2
処理部13は、上記処理例1と同様に、メタ情報として歌詞またはタイトルを取得し、かつ、物体IDを取得したとする。処理部13は、この歌詞またはタイトル内のワードに、予め決められたキーワードがあるか否かを判定する。また処理部13は、画像認識部11により認識される対象物体画像の物体の種類が、取得した物体IDと一致するか否かを判定する。歌詞またはタイトル内にキーワードがあり、かつ、対象物体画像の物体の種類が物体IDと一致する場合、処理部13は、キーワードに対応するエフェクト画像を生成する。そして処理部13は、そのエフェクト画像を、その対象物体画像を含む実空間画像に重畳して表示する。
【0084】
例えばキーワードが「花」である場合であって、物体IDに対応する物体として、画像認識部11により花が認識された場合、処理部13は、その花に関する視覚エフェクト処理を、花として認識された対象物体画像に実行する。
【0085】
2.2.3)動作例3
処理部13は、歌詞やタイトル等の音楽データに関する情報の他、視覚エフェクト処理に関する設定情報(視覚エフェクト設定情報)を含むメタ情報を取得する。視覚エフェクト設定情報は、例えば、視覚エフェクトの強度(表示の大きさや面積)、表示スピード、表示頻度、表示色など、視覚エフェクト処理を設定するめの情報である。
【0086】
例えば処理部13は、動作例2と同様に、歌詞またはタイトル内にキーワードがあり、かつ、対象物体画像の物体の種類が物体IDと一致する場合、その視覚エフェクト設定情報にしたがって、視覚エフェクト処理を実行する。
【0087】
処理部13は、視覚エフェクト設定情報として、例えば曲の時系列のパートごとに使用されるエフェクト画像(そのエフェクト画像がどのようなものであるか)を示す情報を取得するようにしてもよい。例えばこの場合、視覚エフェクト設定情報は、1曲中の、イントロ部分、第1パート部分、第2パート部分、およびサビにそれぞれ使用されるエフェクト画像を示す情報である。あるいは、視覚エフェクト設定情報は、パートによっては視覚エフェクト処理を停止する、といった情報でもよい。
【0088】
なお、動作例2、3においても、実施形態1で説明したように物体IDの使用は必須の要素ではない。
【0089】
2.2.4)他の動作例
例えば、メタ情報に「灯り」のキーワードが含まれている場合、画像認識部11は、そのキーワードに応じて実空間画像内の光源領域を認識してもよい。
【0090】
以上のように、情報処理装置200はメタ情報を利用することで、音楽に連動して、メタ情報に基づく多彩な視覚エフェクト処理を実行することができる。
【0092】
図9は、本技術の実施形態3に係る情報処理装置の構成を示すブロック図である。この情報処理装置300は、特徴量抽出部17(
図1、7参照)を有していない。また、情報処理装置300は、
図7に示す情報処理装置200と同様に、メタ情報記憶部20を備える。
【0093】
図10は、この情報処理装置300の動作を示すフローチャートである。ステップ301〜304は、
図2に示したステップ201、203〜205と同じである。処理部13は、メタ情報に基づき、対象物体画像を含む実空間画像にエフェクト画像を重畳して合成画像を生成し、これを表示する(ステップ305)。この場合、処理部13は特徴量に関係なく、例えば音楽が再生されている間、あるいは、音楽の再生音量に連動して、視覚エフェクト処理を実行すればよい。
【0095】
本技術の実施形態4に係る情報処理装置は、図示しないが、例えばユーザが操作部19(
図1等参照)を介して操作入力を行うための設定機能(設定部)を備えている。設定内容としては、例えば音楽の特徴量の種類、物体(物体ID)、および/または、視覚エフェクト処理の内容である。
【0096】
例えば当該設定部は、図示しない設定画面を表示部14に表示させる。ユーザの操作部19を介した入力操作により、音楽の特徴量の種類、物体、および/または、視覚エフェクト処理の内容が選択され、設定される。すなわち、ユーザが望む特徴量、物体、および/または、視覚エフェクト処理内容が設定される。視覚エフェクト処理内容とは、例えばどのようなエフェクト画像を使用するか、および/または、上述した視覚エフェクト設定情報である。
【0097】
例えば、物体の選択方法として、タッチパネル式の表示部14に表示された物体の画像にユーザがタップすることにより、物体を選択することができる。
【0098】
視覚エフェクト処理内容の選択方法として、ユーザは、例えば1つの物体に対応する複数種類のエフェクト画像から1以上のエフェクト画像を選択する。例えば上述した視覚エフェクト設定情報についても同様である。
【0099】
本実施形態4によれば、ユーザは、自身が好む視覚エフェクトを楽しむことができる。例えば、ユーザは、自身の性格や好みに応じて、動きが少ない控えめなエフェクト画像を設定したり、動きが激しく大きいエフェクト画像を設定することができる。
【0101】
実施形態5に係る情報処理装置は、図示しないが、周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備する。実施形態4に関連するこの実施形態5として、情報処理装置は、例えば上記周辺環境の情報に基づき設定された1以上の視覚エフェクト処理内容を優先的にユーザに提示するように構成される。ユーザは、操作部19を介してその1以上の視覚エフェクト処理内容を選択することができる。
【0102】
周辺環境の情報とは、例えば情報処理装置の位置情報、情報処理装置が置かれる自然環境情報、または、ユーザの生体情報である。位置情報には、マップ上の2次元位置に限られず、高度を含む3次元位置や、方位の情報が含まれていてもよい。自然環境情報としては、例えば天候、気圧、花粉量、方位が挙げられる。ユーザの生体情報としては、例えば体温、血圧、心拍数、ランニングスピードなどが挙げられる。
【0103】
本実施形態5に係る情報処理装置は、自然環境情報またはユーザの生体情報を検出するセンサを備えていればよい。例えば天候や花粉量などの情報は、サーバから取得されるようにすればよい。
【0104】
本実施形態5によれば、ユーザは、周辺環境または自身の生体情報に適した、効果的な視覚エフェクトを楽しむことができる。
【0106】
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。なお、以下に示す各種の例では、実施形態3で説明したように、音楽の特徴量の使用は必須ではない。特徴量を使用しない場合、音楽が再生されている間、または、音楽の再生音量に連動して、視覚エフェクト処理が実行され得る。
【0107】
6.1)例1
情報処理装置は、上述した周辺環境として、ユーザの動きの情報を取得し、その動きの情報、および/または、特徴量に応じて、視覚エフェクトを処理を実行してもよい。ユーザの動きの情報として、例えば心拍数、腕振り、ランニングスピードなどが挙げられる。
【0108】
例えば、心拍数が大きい場合、暖色(例えば赤色)系のエフェクト画像が生成される。逆に、心拍数が小さい場合、寒色(例えば青色)系のエフェクト画像が生成れる。
【0109】
6.2)例2
情報処理装置が適用されるデバイスは、上述したスマートフォン等だけでなく、プロジェクタであってもよい。プロジェクタにより、窓やドアにプロジェクションマッピングするような視覚エフェクト処理が実行され得る。
【0110】
6.3)例3
ユーザは、情報処理装置を利用して音楽を聴きく傾向が高い場所では、予め設定された視覚エフェクト処理が実行されてもよい。当該場所も予め設定されていてもよい。すなわち、所定の場所でユーザがこの情報処理装置で音楽を聴くと、所定の視覚エフェクト処理が実行される。
【0111】
ユーザは、その場所で効果的な視覚エフェクト処理内容の情報を登録し、または他のユーザとシェアできるシステムが構築されてもよい。このシステムの具体例として、ユーザは、視覚エフェクト処理内容の情報を、マップ上の店舗の位置に関連付けて、情報処理装置またはサーバに登録(記憶)できるシステムが挙げられる。あるいは、マップ上の店舗位置に限られず、その店内の対象物体画像に視覚エフェクト処理内容の情報が関連付けられてもよい。
【0112】
6.4)例4
例えば、本技術は広告等に利用されるデジタルサイネージにも適用され得る。この場合、情報処理装置の表示部14は、デジタルサイネージに利用される表示部14である。処理部13は、その表示部14に映っている実空間画像に対して、音楽に基づく視覚エフェクト処理が実行される。音楽データは、例えばその広告主や店舗が提供する音楽、あるいは、そのデジタルサイネージのディスプレイの周囲からマイクロフォンで検出される音楽であってもよい。
【0113】
6.5)例5
例えば、音楽はユーザの歌声であってもよい。この場合、情報処理装置は、ユーザの歌声を検出するマイクロフォンと、音楽データとして記憶する記憶部とを備える。記憶部は、クラウド上のサーバにあってもよい。
【0114】
6.6)例6
情報処理装置は、音楽の歌詞内容やタイトル内容を解析する解析部を備えていてもよい。解析部は、その解析に基づき、ストーリーの要約や、キーワードを生成するように構成される。例えば生成された要約やキーワードに「灯り」が含まれる場合であって、かつ、対象物体画像として光源の画像が実空間画像に含まれる場合、処理部13は、その光源の画像に視覚エフェクト処理を実行できる。
【0115】
6.7)他の各種の例
上記各実施形態に係る情報処理装置において、例えば画像認識部11、音楽データ記憶部15、デコード部161、特徴量抽出部17、処理部13、メタ情報記憶部20、および上記6.6)例6で説明した解析部のうち少なくとも1つは、情報処理装置がアクセス可能なクラウド上のサーバが有する機能であってもよい。
【0116】
例えば、上記サーバが特徴量抽出部17の機能を有する場合、処理部13は、サーバから音楽の特徴量データをダウンロードするように構成される。この場合、情報処理装置100は、ユーザにより選択された個々の音楽データを識別する識別情報をサーバに送信し、サーバはその識別情報に対応する音楽の特徴量を抽出し、これを情報処理装置に送信する。この場合、サーバが、音楽データ記憶部15の機能を有し、音楽データおよびその識別情報を関連付けて記憶しておいてもよい。
【0117】
あるいは、上記サーバがメタ情報記憶部20の機能を有する場合、処理部13は、サーバからメタ情報をダウンロードするように構成される。この場合、情報処理装置は、ユーザにより選択された音楽データを識別する識別情報をサーバに送信し、サーバはその識別情報に対応するメタ情報を、情報処理装置に送信する。この場合、サーバが、音楽データ記憶部15の機能を有し、音楽データ、その識別情報、およびメタ情報を関連付けて記憶しておいてもよい。
【0118】
上記各実施形態では、処理部13は、1つの種類の特徴量に応じて、視覚エフェクト処理を実行したが、複数種類の特徴量に応じて処理を実行してもよい。すなわち、処理部13は、周波数帯域、音源の位置、テンポ、および調のうち少なくとも2つの組み合わせに応じて処理を実行してもよい。
【0119】
上記各実施形態における認識部(画像認識部)は、実空間を映した画像内の物体を認識するように構成された。しかし、認識部は、実空間を計測して物体を認識するように構成されていてもよい。例えばこの場合、認識部は、レーザ、電波、および/または超音波を利用して物体の認識を行うことができる。あるいは、認識部は、実空間の計測による物体認識と、画像認識による物体認識の両方を行うようにしてもよい。
【0120】
以上説明した各形態の特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。
【0121】
なお、本技術は以下のような構成もとることができる。
(1)
実空間の物体を認識するように構成された認識部と、
音楽の特徴量に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成された処理部と
を具備する情報処理装置。
(2)
前記(1)に記載の情報処理装置であって、
前記処理部は、前記物体の種類に関連付けられた視覚エフェクト処理を実行するように構成される
情報処理装置。
(3)
前記(1)または(2)に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の周波数帯域を取得し、前記周波数帯域ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成される
情報処理装置。
(4)
前記(1)または(2)に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の音源の位置情報を取得し、前記音源の位置ごとに、複数の物体に対応する複数の対象物体画像を割り当て、それら複数の対象物体画像に前記視覚エフェクト処理を実行するように構成される
情報処理装置。
(5)
前記(3)または(4)に記載の情報処理装置であって、
前記処理部は、前記複数の対象物体画像に異なる複数の視覚エフェクト処理をそれぞれ実行するように構成される
情報処理装置。
(6)
前記(1)または(2)に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽のテンポの情報を取得し、前記テンポに応じて前記視覚エフェクト処理を実行するように構成される
情報処理装置。
(7)
前記(1)または(2)に記載の情報処理装置であって、
前記処理部は、前記特徴量として前記音楽の調の情報を取得し、前記調に応じて前記視覚エフェクト処理を実行するように構成される
情報処理装置。
(8)
前記(1)から(7)のうちいずれか1項に記載の情報処理装置であって、
前記処理部は、前記音楽のデータに付随するメタ情報を取得し、前記メタ情報に基づき、前記視覚エフェクト処理を実行するように構成される
情報処理装置。
(9)
前記(8)に記載の情報処理装置であって、
前記メタ情報は、前記視覚エフェクト処理に関する設定の情報である視覚エフェクト設定情報を含む
情報処理装置。
(10)
前記(1)から(9)のうちいずれか1項に記載の情報処理装置であって、
前記音楽のデータから前記特徴量を抽出する特徴量抽出部をさらに具備する情報処理装置。
(11)
前記(1)から(10)のうちいずれか1項に記載の情報処理装置であって、
前記特徴量、前記物体、および前記視覚エフェクト処理の内容のうち少なくとも1つを、ユーザーに設定させる処理を実行するように構成された設定部をさらに具備する情報処理装置。
(12)
前記(1)から(10)のうちいずれか1項に記載の情報処理装置であって、
前記情報処理装置の周辺環境の情報を取得するように構成された周辺環境情報取得部をさらに具備し、
前記処理部は、前記周辺環境の情報に基づき、前記視覚エフェクト処理をさらに実行するように構成される
情報処理装置。
(13)
前記(12)に記載の情報処理装置であって、
前記周辺環境取得部は、前記情報処理装置の位置情報、前記情報処理装置が置かれる自然環境情報、または、ユーザーの生体情報を、前記周辺環境の情報として取得するように構成される
情報処理装置。
(14)
実空間の物体を認識するように構成された認識部と、
音楽のデータに付随するメタ情報に応じて、前記認識部により認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行するように構成された処理部と
を具備する情報処理装置。
(15)
実空間の物体を認識し、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
を具備する情報処理方法。
(16)
実空間の物体を認識し、
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
を具備する情報処理方法。
(17)
実空間の物体を認識し、
音楽の特徴量に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
ことを情報処理装置に実行させるプログラム。
(18)
実空間の物体を認識し、
音楽のデータに付随するメタ情報に応じて、認識された前記物体の画像である対象物体画像に視覚エフェクト処理を実行する
ことを情報処理装置に実行させるプログラム。