(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0014】
<本発明について>
従来では、触覚(例えば、物体に触れたときに感じる振動や加速度等の感覚)提示を含むマルチモーダルなコンテンツ制作のノウハウが確立されておらず、ユーザの心情に沿うのが難しいだけでなく、コンテンツ制作者の意図を十分に反映することも困難な状況となっている。ユーザが振動として体験したい信号や成分は、視覚情報や聴覚情報との関係や、コンテンツの文脈(例えば、どのようなドラマのシーンで何が重要であるか等)、ユーザの主観的な視点、ユーザの注意の状況、ユーザの動作等によって変わるため、ユーザが求めていない触覚提示は、かえってコンテンツのリアリティや臨場感を損なう可能性がある。
【0015】
そこで、本発明では、例えばマルチモーダルコンテンツとして、例えば振動等を用いた受動的な触覚情報を含むコンテンツをユーザに提供する場合に、ユーザが使用したり、受容できる感覚の種類、コンテンツの文脈、ユーザの主観的な視点、ユーザの注意の状況、及びユーザのインタラクティブな動作等のうち、少なくとも1つの情報に基づいて、提示対象の情報(例えば、振動成分等)を選択して提示制御する。これにより、例えばリアリティや臨場感を高めたり、視覚障害者や聴覚障害者等がコンテンツをより楽しむことができる。
【0016】
次に、上述したような特徴を有する本発明における感覚提示装置を好適に実施した形態について、図面等を用いて詳細に説明する。
【0017】
<感覚提示システムの機能構成例>
図1は、本実施形態における感覚提示システムの機能構成の一例を示す図である。
図1の例に示す感覚提示システム10は、送信側(番組制作者側)の一例としての番組等のコンテンツを提供する番組提供装置11と、番組提供装置11からのコンテンツを受信する受信側(番組視聴者側)の一例としての感覚提示装置12とを有する。
【0018】
番組提供装置11と、感覚提示装置12とは、例えば番組(コンテンツ)を受信するための放送波(伝送波)13−1や、受信側でユーザに感覚を提示するための情報を送信するインターネットやLAN(Local Area Network)等に代表される通信ネットワーク13−2によりデータの送受信が可能な状態で接続されている。また、
図1の例では、番組提供装置11と感覚提示装置12とは、1対1の関係になっているが、これに限定されるものではなく、m対n(m≧1,n≧1)の関係でもよい。したがって、例えば1つの番組提供装置11が、複数の感覚提示装置12に対して番組コンテンツや感覚提示情報を送信してもよい。
【0019】
<番組提供装置11の機能構成例>
番組提供装置11は、1又は複数の映像情報取得部21−1〜21−n(以下、必要に応じて「映像情報取得部21」と総称する)と、音声情報取得部22−1〜22−n(以下、必要に応じて「音声情報取得部22」と総称する)と、振動情報取得部23−1〜23−n(以下、必要に応じて「振動情報取得部23」と総称する)と、記憶部24と、通信部25とを有する。
【0020】
映像情報取得部21は、ユーザに提供するコンテンツ又は制作するコンテンツに対応する映像を取得する。映像情報取得部21は、例えばカメラ等であるが、これに限定されるものではない。映像情報取得部21は、例えば放送波13−1により視聴者(感覚提示装置12)に提供する番組コンテンツ(映像、音声を含む)31とは別に、例えば複数のカメラにより同一の番組に対する異なる視点や対象(被写体)を撮影して映像信号を取得する。ここで、被写体とは、選手や観客、主人公等の登場人物の各種人物だけでなく、例えばボールやラケット、ネット、椅子(観客席)、床(コート、地面)、壁等の実空間上の物体(オブジェクト)を含む。また、被写体は、1又は複数の物体であってもよい。
【0021】
音声情報取得部22は、映像コンテンツに対応する現場環境(例えば、番組(スタジオ)のセット、スポーツ等の試合会場、テーマパーク、コンサートやアトラクション等の各イベント会場等から得られる音声情報である。音声情報取得部22は、例えばマイク等であり、被写体(例えば、選手の靴や洋服、ラケット、ボール内部、床、椅子(観客席))等に設置される。
【0022】
振動情報取得部23は、例えば映像コンテンツ等に映し出される被写体等が他の被写体等と接触したり、被写体が動作することにより生じる振動を取得する。振動情報取得部23は、コンテンツの制作時に予め被写体等の所定の位置に設置される。振動情報取得部23は、異なる被写体等に設置してもよく、1つの被写体に複数の振動情報取得部23を設置してもよい。振動情報取得部23は、例えば振動検知センサや圧力検知センサ、加速度センサ、熱センサ等であるが、これに限定されるものではない。振動情報取得部23は、各センサからそれぞれの振動情報を取得してもよく、各センサの結果を組み合わせて振動情報を生成してもよい。また、振動情報取得部23は、例えば制作者側が映像情報(映像コンテンツ)を見ながら設定することで、振動情報を取得してもよい。
【0023】
なお、上述した映像情報取得部21、音声情報取得部22、及び振動情報取得部23は、制作している同一のコンテンツ(例えば、スポーツ中継やドラマ、バラエティ等の番組コンテンツ31等)に対する映像、音声、及び振動の各情報を取得する。これらの各情報は、番組コンテンツ31と共に時系列情報(例えば、タイムスタンプ)32等で同期が取られた状態で、マルチモーダル情報24−1に記憶される。
【0024】
記憶部24は、本実施形態における感覚提示処理を実現するために必要な各種情報を記憶する。記憶部24は、例えばマルチモーダル情報24−1と、被写体−映像対応情報24−2と、被写体−音声対応情報24−3と、被写体−振動対応情報24−4と、デフォルトコンテンツ情報24−5とを含む感覚提示情報を有する。
【0025】
マルチモーダル情報24−1は、上述した映像情報取得部21、音声情報取得部22、及び振動情報取得部23により取得した各情報を、被写体の識別情報と共に、時系列情報32で同期させて記憶された情報である。
【0026】
被写体−映像対応情報24−2は、マルチモーダル情報24−1に基づき、番組等のコンテンツに対応する映像情報と、その映像に登場する被写体とを対応付けた情報である。被写体−音声対応情報24−3は、マルチモーダル情報24−1に基づき、番組等のコンテンツに対応する音声情報と、その音声情報に対応する被写体情報とを対応付けた情報である。被写体−振動対応情報24−4は、マルチモーダル情報24−1に基づき、番組等のコンテンツに対応する被写体と、その振動情報とを対応付けた情報である。例えば被写体−振動対応情報24−4は、例えば各映像情報取得部21−1〜21−nのそれぞれに対して、時系列情報(タイムコード)に基づく振動のOn/Off情報等が設定されるが、これに限定されるものではない。なお、上述した被写体−映像対応情報24−2、被写体−音声対応情報24−3、及び被写体−振動対応情報24−4は、マルチモーダル情報24−1から得られる情報であり、例えば映像情報に対して特徴抽出等の画像解析処理を行ったり、制作者が映像を見ながら抽出した各被写体を基準にして、映像、音声、振動のそれぞれを対応付けた情報である。
【0027】
デフォルトコンテンツ情報24−5は、制作者側で予め設定されたコンテンツ情報であり、時系列情報に対応させて被写体毎の提示内容が設定されている。コンテンツ情報としては、例えばコンテンツの内容が「テニスの試合」の映像であり、対戦カードは「選手A」vs「選手B」であり、被写体としては「01」〜「07」がある等の情報である。また、コンテンツ情報は、例えば映像情報取得部21、音声情報取得部22、及び振動情報取得部23のうち、どの情報がどの程度取得されるかといった情報である。また、デフォルトコンテンツ情報24−5は、映像コンテンツ中のどの被写体に対して、どのような振動による触覚を与えるかといった情報を設定してもよい。
【0028】
なお、記憶部24により記憶される情報は、上述した例に限定されるものではなく、例えば各種設定情報やエラー情報等、各処理の実行に対するログ情報等を記憶してもよい。
【0029】
通信部25は、番組コンテンツ31を放送波等により感覚提示装置12に出力する。また、通信部25は、記憶部24に記憶された各種情報(例えば、マルチモーダル情報24−1、被写体−映像対応情報24−2、被写体−音声対応情報24−3、被写体−振動対応情報24−4、デフォルトコンテンツ情報24−5等)を通信ネットワーク13−2等により感覚提示装置12に出力する。通信部41が通信する情報としては、これらに限定されるものではない。
【0030】
ここで、上述した例では、放送番組(番組コンテンツ31)と、記憶部24に記憶された感覚提示情報とを同一の番組提供装置11から送信しているが、これに限定されるものではなく、放送番組の制作と、感覚提示情報の制作とを異なる装置で行ってもよい。
【0031】
<感覚提示装置12の機能構成例>
感覚提示装置12は、通信部41と、記憶部42と、ユーザ情報取得部43と、デバイス情報取得部44と、マルチモーダル情報制御部(制御部)45と、マルチモーダル情報合成部(合成部)46と、映像情報提示部(視覚情報提示部)47と、音声情報提示部(聴覚情報提示部)48と、振動情報提示部(触覚情報提示部)49とを有する。なお、上述した映像情報提示部47、音声情報提示部48、及び振動情報提示部49は、一つの提示部として構成されていてもよい。
【0032】
通信部41は、番組提供装置11は、放送波13−1により放送番組(番組コンテンツ31)を受信する。また、通信部41は、通信ネットワーク13−2により、番組提供装置11から感覚提示情報(例えば、マルチモーダル情報24−1、被写体−映像対応情報24−2、被写体−音声対応情報24−3、被写体−振動対応情報24−4、及びデフォルトコンテンツ情報24−5)を受信する。なお、通信部41が通信する情報としては、これに限定されるものではない。
【0033】
記憶部42は、通信部41から受信した番組コンテンツ31や感覚提示情報等を記憶する。記憶部42が記憶する内容については、これに限定されるものではなく、例えばユーザ情報やデバイス情報等を記憶してもよい。
【0034】
ユーザ情報取得部43は、コンテンツを視聴するユーザの状態から得られる情報を取得する。ユーザの状態から得られる情報とは、例えばユーザがコンテンツを表示している画面の方を向いているか否か、画面を注視しているか(どこを注視しているか)又は注視していないか(目を閉じている状態か)等の情報である。例えば、ユーザ情報取得部43は、カメラ(撮像部)等により画面を見るユーザを撮影し、撮影した映像からユーザの顔の向き、視線情報(例えば、注視点)等を取得するが、取得される情報については、これに限定されるものではなく、例えばユーザが発声した音声情報等を取得してもよい。また、ユーザの状態から得られる情報として、上記以外にも、例えばユーザが感覚提示装置12を手に持って視聴しているか(感覚提示装置12の持ち方や触り方)や、ユーザの周囲の環境(騒音レベル、明るさ、車や電車等で移動中か否か)等であってもよい。
【0035】
デバイス情報取得部44は、ユーザによる感覚提示装置12への所定の操作から情報を取得する。デバイス情報取得部44は、例えば感覚提示装置12の表示画面(映像情報提示部47)等に対するユーザのタッチ位置座標や、感覚提示装置12に設けられたボタンに対して操作した内容等を取得する。なお、デバイス情報取得部44が取得する情報は、これに限定されるものではなく、例えばユーザによる所定の操作から、感覚提示装置12が映像表示ができるか否かや音声出力ができるか否か等の情報を取得でもよい。
【0036】
例えばデバイス情報取得部44は、例えば映像情報提示部47に表示されている各被写体のうち、ユーザが振動等による触覚提示を受けたい被写体の選択を受け付ける。
【0037】
また、デバイス情報取得部44は、使用中のデバイス(感覚提示装置12)について、映像情報提示部47、音声情報提示部48、及び振動情報提示部49の有無及び各提示部の使用の可否を取得してもよい。このとき、各提示部の使用の可否については、ユーザ情報取得部43により取得してもよい。
【0038】
マルチモーダル情報制御部45は、ユーザ情報取得部43及びデバイス情報取得部44から得られる各情報から、映像コンテンツに対応する被写体のうち、どの被写体に対してどの感覚を提供するかの制御を行う。なお、ユーザ情報取得部43及びデバイス情報取得部44から得られる各情報に対応して提示する被写体に対する映像情報、音声情報、及び振動情報があるか否かは、記憶部42に記憶された被写体−映像対応情報24−2と、被写体−音声対応情報24−3と、被写体−振動対応情報24−4とから取得することができる。また、マルチモーダル情報制御部45は、ユーザ情報取得部43及びデバイス情報取得部44からの情報がない場合や、指定項目がない場合、初期化の指示等があった場合には、記憶部42に記憶されたデフォルトコンテンツ情報24−5で設定された情報で感覚提示を行うように制御する。
【0039】
また、マルチモーダル情報制御部45は、ユーザにコンテンツに登場する被写体のうち、少なくとも1つの被写体を選択させるための画面情報(画面インタフェース)等を生成し、生成した画面情報を映像情報提示部47に提示させてもよい。
【0040】
マルチモーダル情報合成部46は、マルチモーダル情報制御部45により得られる制御情報に基づいて、対応する感覚提示情報をマルチモーダル情報24−1から取得し、それぞれ提示する情報を合成する。例えば、ユーザからある被写体のみが指定された場合には、マルチモーダル情報合成部46は、その被写体に対する映像情報、音声情報、及び振動情報を取得し、取得した各情報を同期して合成する。
【0041】
また、マルチモーダル情報合成部46は、提示する感覚情報(視覚、聴覚、触覚)に対応させて、映像情報、音声情報、及び振動情報の合成信号を出力する。例えば、マルチモーダル情報合成部46は、提示する情報に視覚情報を含む場合には、映像情報提示部47に映像情報を出力する。また、マルチモーダル情報合成部46は、提示する情報に聴覚情報を含む場合には、音声情報提示部48に音声情報を出力する。また、マルチモーダル情報合成部46は、提示する情報に聴覚情報を含む場合には、振動情報提示部49に振動情報を出力する。
【0042】
映像情報提示部47は、記憶部42に記憶された番組コンテンツ31の映像情報を画面等に表示する。また、映像情報提示部47は、記憶部42に記憶された感覚提示情報に含まれる情報(映像情報取得部21−1〜21−nで取得した情報)から、マルチモーダル情報合成部46により抽出された映像情報を画面等に表示する。また、映像情報提示部47は、マルチモーダル情報制御部45から得られた被写体をユーザに選択させるための画面情報を表示してもよい。映像情報提示部47は、例えばモニタやディスプレイ等であるが、これに限定されるものではない。
【0043】
音声情報提示部48は、記憶部42に記憶された番組コンテンツ31の音声情報を出力する。また、音声情報提示部48は、記憶部42に記憶された感覚提示情報に含まれる情報(音声情報取得部22−1〜22−nで取得した情報)から、マルチモーダル情報合成部46により抽出された音声情報を出力する。音声情報提示部48は、例えばスピーカやイヤフォン等であるが、これに限定されるものではない。
【0044】
振動情報提示部49は、記憶部42に記憶された感覚提示情報に含まれる情報(振動情報取得部23−1〜23−nで取得した情報)からマルチモーダル情報合成部46により抽出された振動情報を出力する。ユーザは、振動情報提示部49に触れることで、振動情報による触覚を取得することができる。なお、振動情報提示部49の一例としては、例えばボイスコイルモータや偏心モータ、リニア共振アクチュエータ(LRA;Linear Resonant Actuator)であるが、これに限定されるものではない。
【0045】
振動情報提示部49は、触覚情報として周波数等を変更することで、触覚(振動)の内容、種類を変えることができる。また、振動情報提示部49は、感覚提示装置12内に内蔵されていてもよく、感覚提示装置12と着脱自在な外付けデバイス等であってもよい。
【0046】
また、本実施形態の感覚提示装置12における触覚を提示するデバイスとしては振動に限定されるものではなく、例えば触覚ディスプレイ等のような専用デバイスや、熱や風等を利用した触覚情報提示部でもよい。
【0047】
<他の実施形態の一例>
ここで、上述した
図1に示す感覚提示システム10において、上述した番組提供装置11の一部を感覚提示装置12に設けてもよく、感覚提示装置12の構成の一部を番組提供装置11に設けてもよい。
【0048】
例えば、別の他の実施形態として、振動情報提示機能を有する感覚提示装置12が一式であるような場合、上述した番組提供装置11における記憶部24を有していなくてもよく、映像情報取得部21、音声情報取得部22、及び振動情報取得部23から得られた情報を通信ネットワーク13−2を介して感覚提示装置12に送信し、感覚提示装置12の記憶部42が、番組コンテンツ31に対応する映像情報と、音声情報と、振動情報とを、番組コンテンツ31に含まれる各被写体に対応付けて時系列情報32と共に記憶してもよい。
【0049】
例えば、他の実施形態では、上述した感覚提示装置12のマルチモーダル情報制御部45及びマルチモーダル情報合成部46を番組提供装置11に有してもよい。この場合、感覚提示装置12は、ユーザ情報取得部43及びデバイス情報取得部44から得られる情報を、通信ネットワーク13−2を介して番組提供装置11に送信する。番組提供装置11は、感覚提示装置12から得られるユーザ情報及びデバイス情報と、記憶部24に記憶された情報とに基づいて、マルチモーダル情報制御部45及びマルチモーダル情報合成部46によりユーザに提供するマルチモーダル情報(映像情報、音声情報、振動情報)を生成し、生成した情報を通信ネットワーク13−2を介して対象の感覚提示装置12に送信する。これにより、感覚提示装置12は、番組提供装置11側で合成されたマルチモーダル情報をユーザに提示するため、マルチモーダル情報の制御や合成処理による負荷を軽減することができる。
【0050】
また、他の実施形態において、例えば上述した記憶部24,42に記憶される各種情報を、通信ネットワーク13−2を介して接続可能な他の装置(例えば、データベースサーバ)等に管理させてもよい。
【0051】
上述した感覚提示システム10において、番組提供装置11は、例えば放送局やコンテンツサービス提供者等であってもよいが、これに限定されるものではない。また、番組提供装置11は、例えば汎用のPC(Personal Computer)でもよく、少なくとも一以上の情報処理装置からなるクラウドコンピューティングにより構成されるクラウドサーバであってもよい。また、上述した感覚提示装置12は、タブレット端末やスマートフォン、PC、家庭に設置されたテレビ受像機等でもよいが、これに限定されるものではない。
【0052】
<感覚提示処理の一例>
次に、上述した本実施形態の感覚提示装置12における感覚提示処理の一例について、フローチャートを用いて説明する。
図2は、本実施形態における感覚提示処理の一例を示すフローチャートである。
図2に示す感覚提示処理において、感覚提示装置12は、番組提供装置11等から、ユーザに提示するコンテンツ(例えば、番組コンテンツ31)と、コンテンツに対応する映像情報、音声情報、振動情報等の触覚提示情報とを取得する(S01)。なお、S01の処理により取得した触覚提示情報は、上述した記憶部42等に記憶されてもよく、番組提供装置11が取得してもよい。
【0053】
次に、感覚提示装置12は、記憶部42等からデフォルトコンテンツ情報を取得する(S02)。また、感覚提示装置12は、ユーザ情報取得部43からユーザ情報を取得し(S03)、デバイス情報取得部44からデバイス情報を取得する(S04)。
【0054】
次に、感覚提示装置12のマルチモーダル情報制御部45は、S03、S04の処理でそれぞれ得られた情報から、提示されるコンテンツに対して指定項目があるか否かを判断する(S05)。指定項目とは、例えばコンテンツに含まれる被写体の情報や、被写体毎に設定される感覚情報等であるが、これに限定されるものではない。
【0055】
マルチモーダル情報制御部45は、指定された項目がない場合(S05において、NO)、マルチモーダル情報合成部46は、S02の処理で取得したデフォルトコンテンツ情報に基づいて、例えば全ての被写体に対する全てのマルチモーダル情報を合成する(S06)。
【0056】
また、感覚提示装置12は、S05の処理において、指定項目がある場合(S05において、YES)、S01の処理で取得した各情報(例えば、映像情報、音声情報、振動情報等)の中から、指定された被写体等に対応するマルチモーダル情報を合成する(S07)。次に、感覚提示装置12は、S06又はS07の処理で合成されたマルチモーダル情報を対応する各情報提示部(映像情報提示部47、音声情報提示部48、振動情報提示部49)から提示する(S08)。
【0057】
次に、感覚提示装置12は、ユーザの指示やコンテンツの終了等により感覚提示処理を終了するか否かを判断し(S09)、終了しない場合(S09において、NO)、S03の処理に戻る。また、S09の処理において、処理を終了する場合(S09において、YES)、感覚提示装置12は、感覚提示処理を終了する。
【0058】
<本実施形態における感覚提示処理の概要>
次に、本実施形態における感覚提示処理の概要について、図を用いて説明する。
図3は、本実施形態における感覚提示処理の概要例を示す図である。
図3の例では、コンテンツの一例として、テニスの試合中継の番組コンテンツを示している。また、
図3(A)は、マルチモーダルコンテンツ制作時における各情報の取得の様子を示している。また、
図3(B)は、マルチモーダル情報と被写体(オブジェクト)との対応付けの例を示している。
【0059】
マルチモーダルコンテンツの制作時において、映像情報取得部21は、映像情報を取得するカメラ等であり、
図3(A)における映像情報取得部21−1,21−2に相当する。音声情報取得部22は、音声情報を取得するマイク等であり、
図3(A)における音声情報取得部22−1,22−2に相当する。また、振動情報取得部23は、触覚情報として振動情報を取得するセンサであり、
図3(A)における振動情報取得部23−1〜23−7に相当する。例えば、振動情報取得部23−1は、選手Aのラケットに設けられた振動センサや加速度センサである。振動情報取得部23−2は、選手Aの靴に設けられた振動センサや加速度センサ、位置センサである。振動情報取得部23−3は、観客席に設けられた振動センサである。振動情報取得部23−4は、ボール内に設けられた振動センサや加速度センサ、位置センサである。振動情報取得部23−5は、ネットに設けられた振動センサである。振動情報取得部23−6は、選手Bのラケットに設けられた振動センサや加速度センサである。振動情報取得部23−7は、選手Bの靴に設けられた振動センサや加速度センサ、位置センサである。振動情報取得部23は、
図3(A)に示すように、必要に応じて被写体(人物やボール、ラケット、ネット等)等に予め配置される。
【0060】
マルチモーダル情報24−1は、上述した各取得部からの情報を時系列情報(タイムスタンプ)に同期させて、
図3(B)に示すように、全て個別のチャンネル(トラック)として記憶される。なお、
図3(B)の例では、映像情報取得部21や音声情報取得部22から被写体毎に映像や音声を抽出しているが、これに限定されるものではない。
【0061】
被写体−映像対応情報24−2は、選手Aや選手B、ボール等の被写体50とその被写体50が映っている映像情報51(又は映像情報51に一切映っていない被写体50からの主観映像であってもよい)とを対応付けた情報である。また、被写体−音声対応情報24−3は、被写体50とその被写体から発生する音声情報52とを対応付けた情報である。被写体50から発生する音声情報52とは、例えば被写体50が人物である場合には、人物の発声音や動作により発生する音であり、被写体50がボールである場合には、ボールがバウンドする音等であるが、これに限定されるものではない。被写体−振動対応情報24−4は、各振動情報取得部23を配置した被写体50と、取得された振動情報53とを対応付けた情報である。これらの情報は、
図3(B)に示すように各被写体50(被写体01〜05・・・)毎に管理される。また、本実施形態における映像情報51と、音声情報52と、振動情報53との対応付けは、被写体の識別情報等で相互に関連付けることができるが、予め関連を明確にした一つのテーブルとして構成してもよい。
【0062】
上述した各情報は,マルチモーダルコンテンツの制作者が人手により構築してもよいが、これに限定されるものではなく、例えば画像解析処理等を用いて特徴情報から被写体を抽出したり、予め設定された映像やタイムスタンプに関連付けられたメタデータ付加情報からその時間に映像に映っている被写体を抽出したり、振動情報取得部23である各種センサからの位置情報や運動情報(加速度情報)等を取得して、映像のカット毎に被写体との対応付けを行ってもよい。
【0063】
また、デフォルトコンテンツ情報24−5は、標準となるマルチモーダル情報の合成制御に関する情報であり、例えば制作者側で予め制作意図を反映して作成された初期値(標準化)のコンテンツの提示情報(感覚情報)である。なお、デフォルトコンテンツ情報24−5は、予め複数パターン用意してもよい。その場合には、複数パターンに対応する内容を画面(映像情報提示部47)等に表示して、どのパターンで感覚提示を行うかをユーザに選択させてもよい。
【0064】
<本実施形態における感覚提示の画面インタフェースについて>
次に、本実施形態における感覚提示の画面インタフェースについて図を用いて説明する。
図4は、本実施形態における感覚提示の画面インタフェース例を示す図である。なお、本実施形態における感覚提示の画面インタフェースは、
図4の例に限定されるものではない。
【0065】
図4の例において、感覚提示装置12は、例えばタッチパネル搭載型のタブレット端末等である。感覚提示装置12は、
図4の例に限定されるものではなく、例えばデスクトップ型やノート型のPCでもよく、スマートフォン等の通信端末でもよい。感覚提示装置12において、映像情報提示部47は、映像情報を出力するディスプレイ等である。また、音声情報提示部48は、例えば音声情報を出力するスピーカやイヤフォン等である。また、振動情報提示部49は、手60等のユーザの部位に振動を提示する振動子であり、例えばボイスコイルモータや偏心モータ等のアクチュエータを用いて、各振動周波数等を調整することで振動のタイミングや種類、強さ等を制御することができる。
【0066】
図4の例では、感覚提示装置12の画面上に、映像情報に含まれる被写体又は振動情報を提供可能な被写体の情報(例えば動画又は静止画)が、それぞれ小画面61として表示されており、各小画面61には、指定項目として被写体を選択するためのチェックボックス(被写体選択部)62等が設けられている。
【0067】
ユーザは、例えば感覚提示装置12から振動情報を含むマルチモーダル情報を提示させたい被写体のチェックボックス62をチェック(表示部分をタッチ)することで、1又は複数の被写体を選択する。デバイス情報取得部44は、そのチェックした情報を受け取り、受け取った情報をマルチモーダル情報制御部45に出力する。マルチモーダル情報制御部45は、指定項目に基づいて、振動情報を含むマルチモーダル情報の提示を制御し、マルチモーダル情報合成部46により合成された振動情報を振動情報提示部49により提示する。なお、ユーザから選択される指定項目に基づいて映像情報提示部47や、音声情報提示部48から出力される情報を変更してもよい。
【0068】
また、ユーザ情報取得部43は、内部カメラ(撮像部)63等で画面を見るユーザを撮影し、撮影した映像に対して特徴情報等の解析処理に基づく視線計測を行い、映像に含まれるユーザの顔の向き、眼球の位置や動きから、ユーザの視線情報の一例としての注視点64を抽出する。マルチモーダル情報制御部45は、注視点64の位置に基づいて、例えば触覚情報を提示する被写体を選択してもよい。マルチモーダル情報制御部45は、例えば
図4に示す注視点64の位置から、その位置近い被写体(例えば、
図3(B)に示す被写体01、被写体03)を選択し、選択した被写体に対応付けられた映像、音声、振動が提示されるように制御を行う。
【0069】
また、ユーザ情報取得部43は、デバイス(感覚提示装置12)の持ち方や触り方等といったユーザの情報を取得するセンサ及び処理機構を有していてもよい。例えばユーザ情報取得部43は、タッチパネル等に触覚センサ65を有し、触覚センサ65により得られるユーザの手60や指先の位置情報を取得し、取得した位置情報に応じたマルチモーダル情報の制御を行ってもよい。
【0070】
マルチモーダル情報制御部45は、ユーザ情報取得部43及びデバイス情報取得部44からの情報に基づいて、上述した
図3(B)に示すマルチモーダル情報24−1が記憶したマルチモーダル情報のうち、どのチャンネル(トラック)の情報を合成して提示するかを随時決定する。ユーザ情報取得部43及びデバイス情報取得部44からの情報がない場合や、初期化の指示があった場合には、記憶部42に記憶されたデフォルトコンテンツ情報24−5に基づいてどのチャンネルの情報を合成して提示するかを決定する。マルチモーダル情報合成部46は、マルチモーダル情報制御部45からの制御情報により、マルチモーダル情報を合成し各提示部(映像情報提示部47、音声情報提示部48、振動情報提示部49)に出力する。
【0071】
<本実施形態におけるマルチモーダルコンテンツをユーザ視聴する場合の実施例>
ここで、
図3に示すようなテニスの試合の様子を伝えるマルチモーダルコンテンツをユーザ視聴する場合の実施例を説明する。ここで、触覚情報として提示される振動情報は、コンテンツのあらゆる場所で発生しているが、
図3(A)に示すように振動センサ等の振動情報取得部23を配置することができる被写体は、有限(
図3(A)の例では7つ)である。したがって、例えば、
図3(B)に示す「被写体01」のように、コンテンツ制作者により特定して識別することができる。更に、「被写体01」がカメラ等の映像情報取得部21−1,21−2の映像に映っているシーン(カット)を特定し、「被写体01」から発生したと考えられる音声を特定することで、「被写体01」に関する映像情報、音声情報、振動情報をそれぞれ対応付けることができる。この情報は、人手で構築してもよく、既存の解析手法を組み合わせて用いて自動的に行なってもよい。同様に,被写体02〜被写体05等についても対応付けを行い、被写体−映像対応情報24−2、被写体−音声対応情報24−3、被写体−振動対応情報24−4を構築していく。
【0072】
また、本実施例において、ユーザはマルチモーダルコンテンツを、例えば
図4に示すようなタブレット端末で視聴してもよく、また据え置き型のテレビ受像機で視聴してもよい。また、コンテンツは、予め収録されたものでもよく、リアルタイム処理によるライブ制作のコンテンツであってもよい。
【0073】
次に、ユーザの状態やニーズに応じたマルチモーダルコンテンツの制御例を具体的に説明する。
【0074】
<実施例1:デフォルトコンテンツ情報による制御例>
実施例1では、コンテンツに対応する映像情報、音声情報、及び振動情報が、制作者等により予め設定されたデフォルトコンテンツ情報24−5により制御されてユーザに提示される。例えば、上述したテニスの試合の例では、デフォルトコンテンツ情報24−5に基づき、全ての収録情報を合成して常にユーザに提示してもよく、また選手のラケットに設けられた振動情報取得部23−1,23−6により得られるボールを打つ際の振動や、ネットに設けられた振動情報取得部23−5により得られるボールがあたった際の振動だけを提示することができる。
【0075】
実施例1に示すように、制作者が意図的にコンテンツの文脈(例えばコンテンツ上、重要な要素となる被写体)に適した振動を提示する場合には、デフォルトコンテンツ情報24−5として、例えば時系列情報(タイムスタンプ、タイムコード)に対応させて合成する振動情報のON/OFFが設定される。コンテンツの文脈による振動制御とは、例えばあるコンテンツ(例えば、ドラマ)等に登場する同一の被写体(例えば、携帯電話)に対して、携帯電話の着信に主人公が気づいて、その電話に出るシーンの場合には、着信に対応する振動情報が設定されるが、主人公が着信に気づかないような場合には、着信に対応する振動情報が設定されない等のように、各シーン等における被写体の重要度に応じて設定される振動制御である。
【0076】
図5は、デフォルトコンテンツ情報の第1の例を示す図である。
図5の例に示すデフォルトコンテンツ情報は、時系列情報(タイムスタンプ)(hh:mm:ss)に対応する各振動情報取得部23−1〜23−5(例えば、振動1〜5)に対するOn/Off制御が設定されている。「On」が振動を行い、「Off」が停止(何もしない)状態を示す。また、
図5中の「−」は、何も制御が行われない(何もしない)状態を示す。
【0077】
例えば、タイムスタンプ「10:01:12」のように振動情報が複数ある場合には、マルチモーダル情報合成部46により、その時間に対応する複数の振動情報(例えば、振動1、振動2、振動5)が合成され、合成された振動情報が振動情報提示部49から出力される。
【0078】
なお、「On」による振動制御については、周波数等を変更することで、振動のタイミングを変化させてもよい。その場合には、「On1」、「On2」、「On3」等の識別情報を設定し、各識別情報に対して予め設定された周波数で振動センサ(振動情報提示部49)を駆動させてもよい。
【0079】
図5に示すように予め設定されたデフォルトコンテンツ情報24−5を用いて、例えば制作者側の設定で振動のOn/Off制御を容易に行うことができる。また、デフォルトコンテンツ情報24−5は、例えば予め番組提供装置11等から取得することができる。また、
図5の例では、タイムスタンプが1秒間隔のデータ例になっているが、これに限定されるものではなく、1秒より短い間隔でもよく、長い間隔でもよい。
【0080】
また、
図6は、デフォルトコンテンツ情報の第2の例を示す図である。
図6に示す第2の例では、時系列情報(タイムスタンプ)に対応させて、合成する振動情報の識別番号を記載している。例えば、タイムスタンプ「10:01:10」のように、振動情報が複数ある場合には、マルチモーダル情報合成部46により、その時間に対応する複数の振動情報(例えば、振動4、振動1、振動5)が合成され、合成された振動情報が振動情報提示部49から出力される。
【0081】
例えば、映像情報や音声情報がすでに編集済みのコンテンツに対して、振動情報を付加的に制御する場合には、デフォルトコンテンツ情報の第1、第2の例に示すように振動の制御情報だけを記載してもよいが、映像、音声も含めたマルチモーダル情報をデフォルトコンテンツ情報24−5として設定してもよい。
【0082】
図7は、デフォルトコンテンツ情報の第3の例を示す図である。
図7に示す第3の例では、時系列情報(タイムスタンプ)に対応させて映像番号、音声番号、振動番号が設定されている。
【0083】
つまり、
図7の例では、振動情報だけでなく、映像情報や音声情報に対してもデフォルトコンテンツ情報24−5を用いて提示制御することができる。
図7の例では、各映像情報取得部21や各音声情報取得部22毎に識別情報(例えば、映像番号、音声番号)が設定されており、タイムスタンプの時間毎に識別情報を設定することで、その識別情報に対応する映像情報取得部21や音声情報取得部22からの映像、音声を出力することができる。
【0084】
例えば、タイムスタンプ「10:01:10」では、音声番号1,2が設定されている。このような場合には、音声番号1と音声番号2とにそれぞれ対応する音声情報取得部22から取得した音声を合成し、合成した音声を音声情報提示部48から出力する。
【0085】
また、デフォルトコンテンツ情報24−5の例は、上述した例に限定されるものではなく、例えば上述した「被写体01」〜「被写体05」のうち、何れかの被写体が映像情報に含まれており、かつ振動情報の振幅が予め設定した閾値以上の場合に、提示対象とする等のより細かな条件を設定してもよい。
【0086】
更に、実施例1では、デフォルトコンテンツ情報24−5を用いて、ユーザに注目してほしい被写体の振動を順次提示していく制御を行うことで、振動に対応する被写体を注視するようにユーザの主観的な視点をコントロールして感情移入を促すことができる。
【0087】
<実施例2:ユーザのニーズに応じた制御例>
実施例2では、映像情報と音声情報は、制作者等が予め設定したデフォルトコンテンツ情報24−5に対応させて制御されるが、振動情報については提示させたい被写体をユーザが選択する。
【0088】
例えば、テニスの試合において、一方的にどちらかの選手を応援したい場合等に、その選手(例えば、被写体01等)が発生する振動のみが提示されるように被写体01を画面ユーザインターフェース上で選択(指定)状態とする。
【0089】
選択する画面インターフェースは、例えば
図4に示すように小画面61に被写体の動画又は静止画を表示して、チェックボックス62等により設定してもよいが、これに限定されるものではなく、例えばメニュー形式として表示された被写体一覧の中から選択してもよく、またタッチパネルの機能を用いてユーザの指で画面に表示された被写体をタッチすることで選択されたと判定してもよい。
【0090】
上述したユーザ操作により、制作者が設定した標準(デフォルト)の映像音声に加えて、応援する選手(例えば、被写体01)に対応する振動センサ(振動情報取得部23)の振動情報のみを、映像に映っているかどうかに関わらず(例えば、映像に映っておらずフレームアウトしていた場合でも)常に体感することができる。また、実施例2では、被写体が映像に映っている場合に限定して振動情報を提示してもよい。
【0091】
また、実施例2では、ユーザが指定した被写体が映像に映っている間、ずっと振動を提示するのではなく、例えばラケットとボールの接触や、コートとボールとの接触等をの所定のイベントを、画像解析により検出したり、音声情報のピーク値を利用して検出してもよい。また、実施例2では、振動情報に予め閾値を設けることにより、振動を提示すべき場合(例えば閾値以上の振動レベルの場合)にのみ提示することもできる。
【0092】
<実施例3:ユーザの状態及びデバイスの状態等に応じた制御例>
実施例3では映像情報と音声情報は、制作者等が予め設定したデフォルトコンテンツ情報24−5に対応させて制御されるが、ユーザ情報取得部43から得られるユーザの状態、及びデバイス情報取得部44から得られるデバイスの状態等に応じて、マルチモーダル情報制御部45により、振動を提示する被写体や振動のタイミングを制御する。
【0093】
例えば、ユーザ情報取得部43が取得したユーザの注視点(視線情報)から、ユーザが注目している被写体を特定し、注目している被写体の振動だけを提示することができる。
【0094】
また、実施例3において、マルチモーダル情報制御部45は、ユーザ情報取得部43から取得したユーザの視線情報等から、ユーザが映像(画面)を見ていない状態であることを取得すると、例えばその時点(タイムスタンプ)で取得可能な全ての被写体に対する振動情報を提示するように制御してもよい。映像を見ていない状態とは、例えばユーザを撮影したカメラ映像の解析結果から、ユーザの注視点を特定できない場合や、ユーザの顔の向きが表示画面の方を向いていない場合、目を閉じていると判断された場合等があるが、これに限定されるものではない。また、マルチモーダル情報制御部45は、上述した実施例2に示すように、ユーザが明示的に提示する振動情報を指定している場合には、指定項目(被写体)の振動を優先するような制御を行ってもよい。
【0095】
<実施例4:音声情報が利用できない場合の制御例>
実施例4では、例えばユーザが聴覚に障害がある場合やヘッドフォン等がなく周囲に配慮して音が出せない場合等、ユーザの状態によって音声情報(聴覚情報)が利用できない場合に、振動情報取得部23−1〜23−7からの振動情報に加えて、音声情報の一部又は全部を振動情報に合成して提示する。
【0096】
なお、実施例4では、ユーザ操作により、感覚提示装置12がマナーモードに設定されている場合や、音声情報の一部又は全部を振動情報に変更する旨の指示があった場合に、マルチモーダル情報制御部45は、出力対象の音声情報を振動情報に変換してもよい。音声情報の振動情報に変換する場合には、音声信号の振幅や周波数に対応させて振動の周波数や強さを設定することができるが、これに限定されるものではない。
【0097】
また、マルチモーダル情報制御部45は、ユーザが音声を聞いていない又は聞こえていない状態であることを取得すると、例えばその時点(タイムスタンプ)で取得可能な全ての被写体の音声に対する振動情報を提示するように制御してもよい。ユーザが音声を聞いていない又は聞こえていない状態としては、例えばユーザを撮影した映像から、ユーザが誰かと会話している状態であると判断した場合や、目を閉じている時間が所定時間以上であるため寝ている状態であると判断した場合等があるが、これに限定されるものではない。上述した実施例4に示す手法を用いることで、音声情報の欠如によるリアリティの減少を補うことができる。
【0098】
<実施例5:映像情報が利用できない場合の制御例>
実施例5では、ユーザが視覚に障害がある場合やユーザが運転中等で画面(映像)を見ることができない場合等のように、ユーザの注意の状況によって映像情報(視覚情報)が利用できないときに、振動情報取得部23−1〜23−7からの振動情報を合成するにあたり、例えばその時点で映像に映っている被写体に対応する振動情報を提示するよう制御する。
【0099】
なお、実施例5では、ユーザ操作により映像情報に含まれる被写体に対する振動情報を提示させる指示があった場合に、その被写体に対応する振動情報を提示してもよい。
【0100】
上述した実施例5に示す手法を用いることで、例えば視覚情報の欠如によるリアリティの減少を補うことができる。このとき、上述した実施例1に示したようにコンテンツの文脈に応じて適した振動情報を提示することで、リアリティを補うだけでなく、コンテンツの内容自体に関する視覚情報を補ってもよい。
【0101】
例えば、テニスの試合であれば、全ての振動を提示する代わりに、特定の選手のラケットの振動のみを提示することで、視覚情報がない場合においても試合の状況をより分かり易く伝えることができる。
【0102】
上述した実施例4や実施例5に示すようなコンテンツの内容自体の補完については、例えば上述した実施例3に示したようにユーザの状態に応じて、ユーザが映像を見ていない場合等に適用することができる。
【0103】
<実行プログラム>
ここで、上述した感覚提示装置12は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置(格納装置)、ROM(Read Only Memory)等の不揮発性の記憶装置(格納装置)、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
【0104】
したがって、感覚提示装置12が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
【0105】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(感覚提示プログラム)を生成し、例えば汎用のPCやサーバ、タブレット端末、スマートフォン等にそのプログラムをインストールすることにより、上述した感覚提示処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、これに限定されるものではない。
【0106】
上述したように、本発明によれば、コンテンツの内容に対応させて適切な感覚情報の提示を行うことができる。これにより、例えば振動提示が使える環境において、視覚障害者に対しては視覚情報を補うように、聴覚障害者に対しては聴覚情報を補うように振動等による触覚提示をすることができる。
【0107】
また、本発明によれば、ユーザがその時点で利用できる感覚の種類、ユーザの主観的な視点、ユーザの注意の状況、及びユーザのインタラクティブな動作や反応等のうち、少なくとも1つの情報をユーザが入力する手段やセンサ等により、センシングする手段を提供し、そこから得られる情報を用いて提示対象の情報を選択し、選択した情報を用いてユーザに応じて適切なタイミングで振動等の触覚情報を提示することができる。
【0108】
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。また、上述した各実施例の一部又は全部を組み合わせることも可能である。