特開2024-179305 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＮＴＴドコモの特許一覧

特開2024-179305情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024179305

(43)【公開日】2024-12-26

(54)【発明の名称】情報処理装置

(51)【国際特許分類】

H04N 21/439 20110101AFI20241219BHJP

H04N 21/432 20110101ALI20241219BHJP

H04N 21/44 20110101ALI20241219BHJP

G10L 19/00 20130101ALI20241219BHJP

H04S 7/00 20060101ALI20241219BHJP

【ＦＩ】

H04N21/439

H04N21/432

H04N21/44

G10L19/00 312F

H04S7/00 300

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023098047

(22)【出願日】2023-06-14

(71)【出願人】

【識別番号】392026693

【氏名又は名称】株式会社ＮＴＴドコモ

(74)【代理人】

【識別番号】110000752

【氏名又は名称】弁理士法人朝日特許事務所

(72)【発明者】

【氏名】阿部桃子

【テーマコード（参考）】

5C164

5D162

【Ｆターム（参考）】

5C164MA07S

5C164PA46

5C164UB01P

5C164UB08P

5C164UB31P

5C164UB36S

5C164UB41S

5C164YA21

5D162AA15

5D162CD11

(57)【要約】

【課題】動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させる。
【解決手段】記憶部２２は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、動画データに含まれ、その画像オブジェクトに対応する音声データとを紐づけて記憶する。位置判定部２３は、記憶部２２に記憶されている或るオブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する。音声処理部２４は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部２２に記憶されている音声データに応じた音声を発生させるための処理を行う。
【選択図】図４

【特許請求の範囲】

【請求項1】

動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、前記動画データに含まれ、当該画像オブジェクトに対応する音声データとを紐づけて記憶する記憶部と、
前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する位置判定部と、
前記或る画像オブジェクトについて判定された前記動画内の位置から、当該或る画像オブジェクトのオブジェクトデータに紐づけて前記記憶部に記憶されている前記音声データに応じた音声を発生させるための処理を行う音声処理部と
を備えることを特徴とする情報処理装置。

【請求項2】

前記記憶部は、複数の動画データで汎用される画像オブジェクトである汎用画像オブジェクトの特徴を示す汎用オブジェクトデータと、当該汎用画像オブジェクトに対応する汎用音声データとを紐づけて記憶しており、
前記位置判定部は、前記記憶部に記憶されている前記汎用オブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記汎用オブジェクトデータと類似する画像オブジェクトの前記動画内の位置を判定し、
前記音声処理部は、前記汎用画像オブジェクトについて判定された前記動画内の位置から、当該汎用画像オブジェクトの汎用オブジェクトデータに紐づけて前記記憶部に記憶されている汎用音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項3】

前記記憶部は、１の前記汎用オブジェクトデータに紐づけて複数の前記汎用音声データを紐づけて記憶しており、
前記音声処理部は、前記１の前記汎用オブジェクトデータに紐づけて記憶されている複数の前記汎用音声データから操作者により選択された汎用音声データを、当該１の前記汎用画像オブジェクトの前記動画内の位置から発生させる処理を行う
ことを特徴とする請求項２記載の情報処理装置。

【請求項4】

前記位置判定部は、時間軸内の第１の時点において前記動画データが示す動画に出現していないが音声が発生し、且つ、当該第１の時点よりも後の第２の時点において前記動画データが示す動画に出現する画像オブジェクトが存在する場合に、当該第２の時点において当該画像オブジェクトが出現する前記動画内の位置を判定し、
前記音声処理部は、前記第１の時点において、判定された前記位置から、前記画像オブジェクトの画像オブジェクトデータに紐づけて記憶されている音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項5】

前記記憶部は、第１の画像オブジェクトのオブジェクトデータ及び第２の画像オブジェクトのオブジェクトデータに紐づけて、当該第１の画像オブジェクト及び当該第２の画像オブジェクトに対応する１の音声データを記憶しており、
前記音声処理部は、前記第１の画像オブジェクト及び前記第２の画像オブジェクトについて前記位置判定部により判定された位置が所定の関係を満たす場合には、当該第１の画像オブジェクト及び当該第２の画像オブジェクトに対応する前記１の音声データを、前記第１の画像オブジェクト又は前記第２の画像オブジェクトの前記動画内の位置から発生させる処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項6】

前記位置判定部によって判定される前記画像オブジェクトの位置は、前記動画の視聴者から見たときの奥行方向における位置を含み、
前記音声処理部は、前記奥行方向の位置に応じた音量で前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項7】

前記画像オブジェクトの前記動画内における挙動を解析する挙動解析部を備え、
前記音声処理部は、前記画像オブジェクトに対する前記解析の結果に応じた音量で前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項8】

前記記憶部に記憶された音声データの内容を解析する音声解析部を備え、
前記音声処理部は、前記音声データに対する前記解析の結果に応じた音量で当該音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項9】

前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトが前記動画内において向いている方向を判定する方向判定部を備え、
前記音声処理部は、前記或る画像オブジェクトについて判定された前記動画内の位置から判定された前記方向に音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【請求項10】

前記音声処理部は、同時に複数の音声データに応じた音声を発生させるための処理を行う場合に、各々の前記音声データについて決められた優先順位に応じた音量で各々の前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項１記載の情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、動画における音像定位の技術に関する。

【背景技術】

【0002】

動画コンテンツに含まれるキャラクタの音像をその動画コンテンツにおけるそのキャラクタの表示位置に定位させることで、３次元的な知覚効果を実現する技術が知られている。例えば特許文献１には、動画像データを再生する場合に、動画像内のキャラクタの位置と音の発生場所との位置関係に応じた音量、音質、音を発するタイミングを含む再生態様データに基づいて音データを再生することが開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第６８８２５８４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述した特許文献１に記載の技術では、再生態様データなるものを予め作成して用意しておかなければならない。そのような再生態様データを各動画コンテンツに含まれる各キャラクタについてそれぞれ作成するためには、多大なコストと時間を要する。

【0005】

一方、過去において平面ディスプレイや平面スクリーンに表示するために製作された動画コンテンツは多数存在する。このような２次元平面に表示するための動画データを用いて３次元的な知覚効果を実現することができれば、コストや時間の削減を大いに期待し得る。

【0006】

そこで、本発明の目的は、動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能な技術を提供することである。

【課題を解決するための手段】

【0007】

上記課題を解決するため、本発明は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、前記動画データに含まれ、当該画像オブジェクトに対応する音声データとを紐づけて記憶する記憶部と、前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する位置判定部と、前記或る画像オブジェクトについて判定された前記動画内の位置から、当該或る画像オブジェクトのオブジェクトデータに紐づけて前記記憶部に記憶されている前記音声データに応じた音声を発生させるための処理を行う音声処理部とを備えることを特徴とする情報処理装置を提供する。

【発明の効果】

【0008】

本発明によれば、動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能となる。

【図面の簡単な説明】

【0009】

【図1】本発明の一実施形態に係る情報処理システム１の全体構成を例示する図である。

【図2】同実施形態に係るユーザ端末１０のハードウェア構成の一例を示すブロック図である。

【図3】同実施形態に係るサーバ装置２０のハードウェア構成の一例を示すブロック図である。

【図4】同実施形態に係るサーバ装置２０の機能構成の一例を示すブロック図である。

【図5】同実施形態に係るサーバ装置２０の記憶部２２に記憶されているデータを例示する図である。

【図6】同実施形態に係るユーザ端末１０における表示画面の一例を示す図である。

【図7】同実施形態に係るサーバ装置２０の動作の一例を示すフローチャートである。

【図8】変形例に係るサーバ装置２０の記憶部２２に記憶されているデータを例示する図である。

【図9】変形例に係るユーザ端末１０における表示画面の一例を示す図である。

【図10】変形例に係るユーザ端末１０における表示画面の一例を示す図である。

【図11】変形例に係るサーバ装置２０の記憶部２２に記憶されているデータを例示する図である。

【図12】変形例に係るサーバ装置２０の記憶部２２に記憶されているデータを例示する図である。

【図13】変形例に係るサーバ装置２０の機能構成の一例を示すブロック図である。

【図14】変形例に係るサーバ装置２０の機能構成の一例を示すブロック図である。

【図15】変形例に係るサーバ装置２０の機能構成の一例を示すブロック図である。

【発明を実施するための形態】

【0010】

［構成］
図１は、本実施形態の情報処理システム１の一例を示す図である。情報処理システム１は、例えばアニメーション、ドラマ、映画等の様々な動画コンテンツを表示する端末としてユーザにより利用されるユーザ端末１０と、動画コンテンツにおいて音声の発生源であるオブジェクトの動画内での位置を判定し、判定した位置にそのオブジェクトの音像を定位させるための処理を行う情報処理装置として機能するサーバ装置２０とを備えている。ユーザ端末１０とサーバ装置２０はネットワーク２により通信可能に接続される。ネットワーク２は、例えばＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいる。

【0011】

ユーザ端末１０は、例えばスマートホン又はタブレットなどの携帯型コンピュータであるが、これに限らず、据え置き型のプロジェクタやディスプレイであってもよいし、ユーザの身体に装着される、例えば眼鏡型や時計型のウェアラブル端末であってもよい。ユーザ端末１０は、任意の立体音響方式に従って、動画内の様々な音声が３次元空間で発せられているようなリアリティのある知覚効果を実現するものである。

【0012】

図２は、ユーザ端末１０のハードウェア構成を例示する図である。ユーザ端末１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、表示装置１００７、放音装置１００８及びこれらを接続するバスなどを含むコンピュータとして構成されている。なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。ユーザ端末１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

【0013】

ユーザ端末１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信、表示装置１００７による表示及び放音装置１００８による放音を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

【0014】

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。また、例えばベースバンド信号処理部や呼処理部などがプロセッサ１００１によって実現されてもよい。

【0015】

プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、後述する動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。ユーザ端末１０の機能ブロックは、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。各種の処理は、１つのプロセッサ１００１によって実行されてもよいが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワーク２からユーザ端末１０に送信されてもよい。

【0016】

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本実施形態に係る方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

【0017】

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。

【0018】

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。本実施形態においては、動画コンテンツを表す動画データがサーバ装置２０からユーザ端末１０にストリーミング配信され、ユーザ端末１０においてその動画データに基づいた動画及び音声が出力されるようになっている。通信装置１００４は、この動画データをサーバ装置２０から受信する。なお、通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency Division Duplex）及び時分割複信（ＴＤＤ：Time Division Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、送受信アンテナ、アンプ部、送受信部、伝送路インターフェースなどは、通信装置１００４によって実現されてもよい。送受信部は、送信部と受信部とで、物理的に、または論理的に分離された実装がなされてもよい。

【0019】

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キー、マイクロホン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えばＬＥＤランプなど）である。

【0020】

表示装置１００７は、例えば液晶素子及びその駆動回路を含み、上述した動画データに基づいて液晶素子を駆動して動画を表示する。

【0021】

放音装置１００８は、例えばスピーカ及びその駆動回路を含み、上述した動画データに基づいてスピーカを駆動して音声を出力する。放音装置１００８は、音像定位を実現するため、少なくとも２組以上のスピーカ及びその駆動回路を含む。

【0022】

プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバスによって接続される。バスは、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

【0023】

また、ユーザ端末１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

【0024】

図３は、サーバ装置２０のハードウェア構成を示す図である。サーバ装置２０のハードウェア構成は、図３に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。また、それぞれ筐体が異なる複数の装置が通信接続されて、サーバ装置２０を構成してもよい。

【0025】

サーバ装置２０は、物理的には、プロセッサ２００１、メモリ２００２、ストレージ２００３、通信装置２００４、及びこれらを接続するバスなどを含むコンピュータ装置として構成されている。サーバ装置２０における各機能は、プロセッサ２００１、メモリ２００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ２００１が演算を行い、通信装置２００４による通信を制御したり、メモリ２００２及びストレージ２００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。プロセッサ２００１、メモリ２００２、ストレージ２００３、通信装置２００４、及びこれらを接続するバスは、ユーザ端末１０について説明したプロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、及びこれらを接続するバスと、ハードウェアとしては同様であるため、その説明を省略する。ただし、通信装置２００４は、無線通信の通信規格に従って通信を行うためのハードウェアである必要はなく、任意の有線通信の通信規格に従ってネットワーク２を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であってもよい。

【0026】

図４は、サーバ装置２０の機能構成の一例を示すブロック図である。図４に示すように、サーバ装置２０は、入力部２１，記憶部２２、位置判定部２３、音声処理部２４及び出力部２５という機能を実現する。

【0027】

入力部２１は、サーバ装置２０に対して各種データを入力する手段であり、例えば前述した動画データをサーバ装置２０に入力する。この動画データは、例えば過去に平面ディスプレイや平面スクリーンに表示するために製作された動画コンテンツを表すデータである。

【0028】

また、入力部２１は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、動画データに含まれ、その画像オブジェクトに対応する音声データとを紐づけた状態でサーバ装置２０に入力する。ここでいう画像オブジェクトとは、動画データに含まれる各音声の発生源となり得る画像の単位のことであり、例えばアニメーションに登場するキャラクタ、ドラマに登場する登場人物、或いは、動画コンテンツで頻出する特定のアイコン等である。

【0029】

オブジェクトデータは、後述する位置判定部２３による画像の比較が可能な程度に画像オブジェクトの特徴を示すデータであればよく、例えば動画において画像オブジェクトを表示するための画像データそのものであってもよいし、その画像オブジェクトの特徴部分のみを数値化して表現したデータであってもよい。各画像オブジェクトのオブジェクトデータは、その画像オブジェクトに対応する音声データを紐づけられている。このため、画像オブジェクトが特定されると、その画像オブジェクトが発生源となる音声を特定し得ることになる。これらのオブジェクトデータの作成と、オブジェクトデータ及び音声データの紐づけは、入力部２１による入力を行うための前処理として、例えばサーバ装置２０の管理者の操作に応じて行われる。

【0030】

記憶部２２は、図４に例示するように、入力部２１により入力された動画データと、互いに紐づけられたオブジェクトデータ及び音声データとを記憶する。

【0031】

位置判定部２３は、記憶部２２に記憶されている或るオブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する。動画内の位置とは、例えばその動画の表示範囲に設定された座標軸に基づく座標値で表現される。

【0032】

音声処理部２４は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部２２に記憶されている音声データに応じた音声を発生させるための音声処理を行う。ここでいう音声処理は、ユーザ端末１０において表示される動画において上記の或る画像オブジェクトを発生源としたときの音像をその或る画像オブジェクトの表示位置に定位させるための処理であり、具体的には、ユーザ端末１０の各スピーカから出力される音声の位相差及び音量を指定するパラメータを動画データに対して設定する処理である。

【0033】

出力部２５は、音声処理部２４による音声処理が施された動画データ、つまり、ユーザ端末１０の各スピーカから出力される音声の位相差及び音量を指定するパラメータが設定された動画データをネットワーク２経由でユーザ端末１０に出力する。ユーザ端末１０は動画データを再生するときに、その動画データに設定されたパラメータに基づいて音声出力を行う。

【0034】

図６は、ユーザ端末１０における表示画面の一例を示す図である。ユーザ端末１０の表示領域Ｄにおいて或るタイミングで表示される動画内に画像オブジェクトＯ１，Ｏ２が含まれる場合、ユーザ端末１０が設定されたパラメータに基づいて音声出力を行う。これにより、ユーザは、画像オブジェクトＯ１の表示位置からその画像オブジェクトＯ１の音声が発せられ、画像オブジェクトＯ２の表示位置からその画像オブジェクトＯ２の音声が発せられているかのように感じることになる。

【0035】

［動作］
図７を参照して、サーバ装置２０の動作例について説明する。この処理が開始される前に、前述した前処理を経て動画データと、互いに紐づけられたオブジェクトデータ及び音声データとが入力部２１によりサーバ装置２０に入力されて記憶部２２に記憶されているものとする。

【0036】

位置判定部２３は、所定の画像認識アルゴリズムを用いて、動画データに含まれる各画像オブジェクトの特徴を抽出する（ステップＳ１０）。

【0037】

次に、位置判定部２３は、記憶部２２に記憶されているオブジェクトデータが示す特徴と、動画データから抽出した各画像オブジェクトの特徴とを比較する（ステップＳ１０）。

【0038】

次に、位置判定部２３は、動画データにおいて、記憶部２２に記憶されているオブジェクトデータが示す特徴に一致した特徴を持つ画像オブジェクトの位置を判定する（ステップＳ１３）。なお、画像オブジェクトの位置の具体的な決め方として、例えばその画像オブジェクトに外接する外接矩形の重心をその画像オブジェクトの位置とする等の所定の規則に基づいて決める方法が考えられる。

【0039】

音声処理部２４は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部２２に記憶されている音声データに応じた音声を発生させるための音声処理を行う（ステップＳ１３）。これらのステップＳ１０～ステップＳ１３の処理が、動画データの全てにわたって実行される。そして、音声処理が施された動画データはいったん記憶部２２に記憶されて保存される。この後、ユーザ端末１０から再生要求に応じて、出力部２５は、音声処理部２４による音声処理が施された動画データを記憶部２２から読み出してネットワーク２経由でユーザ端末１０に出力する。

【0040】

以上説明した実施形態によれば、比較的簡易な作業で、動画データに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能となる。また、過去に製作された多数の２次元平面表示用の動画データを用いることで、３次元的な知覚効果を低コスト及び低工数で実現することも可能となる。

【0041】

［変形例］
本発明は、上述した実施形態に限定されない。上述した実施形態を以下のように変形してもよい。また、以下の２つ以上の変形例を組み合わせて実施してもよい。
［変形例１］
上述した実施形態では、各動画コンテンツにおいて常時乃至定期的に登場する画像オブジェクトを処理対象として想定してしたが、そのような常時乃至定期的に登場する画像オブジェクトではない補助的な画像オブジェクトを処理対象としてもよい。補助的な画像オブジェクトとは、何らかの音声の発生源として動画に登場する車両、動物、風に揺れる木の葉っぱなどのように、動画コンテンツの主要なストーリにおいて必須ではない画像オブジェクトである。そこで、このような補助的な画像オブジェクトについては、その画像オブジェクトが意味するものとして汎用される代表的な画像（汎用画像オブジェクト）とその画像オブジェクトの音声として汎用される代表的な音声（汎用音声データ）を対応付けて記憶しておき、動画コンテンツにおいて汎用画像オブジェクトに画像上で類似する画像オブジェクトが登場したときにその画像オブジェクトの位置から汎用音声データに応じた音声を出力するようにしてもよい。

【0042】

具体的には、記憶部２２は、図８に例示するように、図５の記憶内容に加えて、複数の動画データで汎用される画像オブジェクトである汎用画像オブジェクトの特徴（例えば代表的な車両を表す画像の特徴）を示す汎用オブジェクトデータと、その汎用画像オブジェクトに対応する汎用音声データ（例えば車両の代表的なクラクション音や走行音を表す音声データ）とを紐づけて記憶する。そして、位置判定部２３は、記憶部２２に記憶されている汎用オブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、汎用オブジェクトデータと類似する（つまり画像上の特徴の差が閾値以内の）画像オブジェクトの動画内の位置を判定する。そして、音声処理部２４は、汎用画像オブジェクトについて判定された動画内の位置から、その汎用画像オブジェクトの汎用オブジェクトデータに紐づけて記憶部２２に記憶されている汎用音声データに応じた音声を発生させるための処理を行う。

【0043】

本変形例によれば、補助的な画像オブジェクトについてそれぞれ固有の音声データを用意しておかなくても、そのような補助的な画像オブジェクトに対して汎用される音声を出力することが可能となる。

【0044】

［変形例２］
さらに、補助的な画像オブジェクトのそれぞれについて汎用される音声の候補を複数用意しておき、サーバ装置２０の管理者がこれらの候補の中から選択できるようにしてもよい。例えば補助的な画像オブジェクトである犬の鳴き声を意味する汎用音声を複数種類用意しておくといった具合である。具体的には、記憶部２２は、１の汎用オブジェクトデータに紐づけて複数の汎用音声データを紐づけて記憶しており、音声処理部２４は、１の汎用オブジェクトデータに紐づけて記憶されている複数の汎用音声データから操作者により選択された汎用音声データを、その１の汎用画像オブジェクトの動画内の位置から発生させる処理を行う。

【0045】

本変形例によれば、補助的な画像オブジェクトについて複数用意した汎用音声から任意のものを選択することが可能となる。

【0046】

［変形例３］
動画コンテンツにおいて、或る再生タイミングでは出現していない画像オブジェクトの音声がそのタイミングで発せられ、その次の再生タイミングでその画像オブジェクトが出現する場合がある。具体的には、図９に例示するように、或る再生タイミングでは画像オブジェクトＯ３のみが出現しているが、このタイミングでは未出現の画像オブジェクトＯ４によって画像オブジェクトＯ３に掛けられた音声が発せられ、その後、図１０に例示するように画像オブジェクトＯ４が表示領域Ｄの左方から出現するような場合である。このように、将来に出現する予定であるがまだ出現していない画像オブジェクトの音声を出力する場合に、その画像オブジェクトが現れる方向から音声を出力するようにしてもよい。

【0047】

具体的には、位置判定部２３は、時間軸内の第１の時点において動画データが示す動画に出現していないが音声が発生し、且つ、その第１の時点よりも後の第２の時点において動画データが示す動画に出現する画像オブジェクトが存在する場合に、その第２の時点においてその画像オブジェクトが出現する動画内の位置を判定する。そして、音声処理部２４は、第１の時点において、位置判定部２３により判定された位置から、画像オブジェクトの画像オブジェクトデータに紐づけて記憶されている音声データに応じた音声を発生させるための処理を行う。

【0048】

本変形例によれば、画像オブジェクトが出現する方向からその音声が聞こえているかのような効果を奏することができる。

【0049】

［変形例４］
動画コンテンツ内の画像オブジェクト間の位置関係に応じた音声を出力するようにしてもよい。例えば第１の画像オブジェクトであるキャラクタが第２の画像オブジェクトである草むらの中を移動しているような動画の場合に、そのキャラクタとその草とが擦れて発声するような音声を出力するといった例が考えられる。具体的には、記憶部２２は、図１１に例示するように、図５の記憶内容に加えて、第１の画像オブジェクトのオブジェクトデータ及び第２の画像オブジェクトのオブジェクトデータに紐づけて、その第１の画像オブジェクト及びその第２の画像オブジェクトの組に対応する音声データを記憶する。そして、音声処理部２４は、第１の画像オブジェクト及び第２の画像オブジェクトについて位置判定部２３により判定された位置が所定の関係を満たす場合には、その第１の画像オブジェクト及びその第２の画像オブジェクトの組に対応する音声データを、第１の画像オブジェクト又は第２の画像オブジェクトの動画内の位置から発生させる処理を行う。ここでいう所定の関係を満たす場合とは、例えば第１の画像オブジェクト及び第２の画像オブジェクトの距離が閾値以内であるとか、第１の画像オブジェクト及び第２の画像オブジェクトの距離が閾値以内である状態で第１の画像オブジェクト又は第２の画像オブジェクトの位置が移動している場合とか、第１の画像オブジェクトの一部と第２の画像オブジェクトの一部が重なっている場合とか、第１の画像オブジェクトの一部と第２の画像オブジェクトの一部が重なった状態で第１の画像オブジェクト又は第２の画像オブジェクトの位置が移動している場合等である。

【0050】

本変形例によれば、画像オブジェクト間の位置関係に応じた音声をその位置関係に応じた位置から出力することができる。

【0051】

［変形例５］
動画における画像オブジェクトの奥行方向の位置に応じてその画像オブジェクトの音声の音量を制御するようにしてもよい。具体的には、或る画像オブジェクトについて、その画像オブジェクトの大きさ又は他の画像オブジェクトとの位置関係からその画像オブジェクトが視聴者から遠い位置に存在する場合には相対的に音量を小さくし、その画像オブジェクトが視聴者から近い位置に存在する場合には相対的に音量を大きくするといった例が考えられる。具体的には、位置判定部２３は、或る画像オブジェクトについて、その画像オブジェクトの大きさ又は他の画像オブジェクトとの位置関係からその画像オブジェクトの奥行方向の位置を判定する。つまり、位置判定部２３によって判定される画像オブジェクトの位置は、動画の視聴者から見たときの奥行方向における位置を含む。そして、音声処理部２４は、図１２に例示するように、画像オブジェクトの奥行方向の位置と音量レベルとを対応付けて記憶しており、判定された奥行方向の位置に応じた音量で音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部２４は、ユーザ端末１０の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。

【0052】

本変形例によれば、動画における画像オブジェクトの奥行方向の位置に応じた音量で音声を出力することができる。

【0053】

［変形例６］
画像オブジェクトの挙動に応じて音量を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタの口が大きく開くと大きな音量にするといった例が考えられる。これを実現するため、サーバ装置２０は、図１３に例示するように、画像オブジェクトの動画内における挙動を解析する挙動解析部を備える。そして、音声処理部２４は、画像オブジェクトに対する解析の結果に応じた音量で音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部２４は、ユーザ端末１０の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。

【0054】

本変形例によれば、画像オブジェクトの挙動に応じた音量で音声を出力することができる。

【0055】

［変形例７］
画像オブジェクトの音声内容に応じて音量を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタの驚いた声などの特定の音声については大きな音量にするといった例が考えられる。これを実現するため、サーバ装置２０は、図１４に例示するように、記憶部２２に記憶された音声データの内容を解析する音声解析部を備える。そして、音声処理部２４は、音声データに対する解析の結果に応じた音量でその音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部２４は、ユーザ端末１０の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。

【0056】

本変形例によれば、画像オブジェクトの音声内容に応じた音量で音声を出力することができる。

【0057】

［変形例８］
画像オブジェクトの向いている方向に応じて音の指向性を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタが或る方向を向いて音声を発した場合には、その画像オブジェクトの位置からその或る方向に音声を発するといった例が考えられる。これを実現するため、サーバ装置２０は、図１５に例示するように、記憶部２２に記憶されている或る画像オブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或る画像オブジェクトデータに対応する画像オブジェクトが動画内において向いている方向を判定する方向判定部を備える。そして、音声処理部２４は、或る画像オブジェクトについて判定された動画内の位置から判定された方向に音声を発生させるための処理を行う。具体的には、音声処理部２４は、ユーザ端末１０の各スピーカから出力される音声の指向性を指定するパラメータを動画データに対して設定する。一方、ユーザ端末１０は、放音装置１００８として、指向性を有する音声を出力可能な放音装置を備えており、上記パラメータに従って音声の指向性を制御する。

【0058】

本変形例によれば、画像オブジェクトの向いている方向に応じて音の指向性を制御することができる。

【0059】

［変形例９］
動画コンテンツに出現する画像オブジェクトから発せられる音声に対して、例えば拍手、歓声、風、雨等の、対応する画像オブジェクトが存在しない音声が重複して再生される場合がある。そこで、画像オブジェクトの音声と、拍手等の画像オブジェクト以外の音声とが重複する場合、優先すべき音声を選択して各音声の音量を制御するようにしてもよい。具体的には、記憶部２２に記憶された音声データには予め優先順位が決められており、記憶部２２はその優先順位の規則を記憶している。この規則は、例えば、対応する画像オブジェクトが存在する音声の優先順位を、対応する画像オブジェクトが存在しない音声の優先順位よりも高くするといった例が考えられる。そして、音声処理部２４は、同時に複数の音声データに応じた音声を発生させるための処理を行う場合に、各々の音声データについて決められた優先順位に応じた音量で各々の音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部２４は、ユーザ端末１０の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。

【0060】

本変形例によれば、対応する画像オブジェクトが存在する音声と、対応する画像オブジェクトが存在しない音声とをそれぞれ適切な音量で出力することができる。

【0061】

［そのほかの変形例］
本実施形態においては、動画コンテンツを表す動画データがサーバ装置２０からユーザ端末１０にストリーミング配信されるようになっていたが、このようなストリーミング配信は必須ではなく、例えば動画データがサーバ装置２０からユーザ端末１０にダウンロードされて保存された後、ユーザ端末１０においていわゆるオフラインで再生されるものであってもよい。

【0062】

上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。例えばサーバ装置２０の機能の少なくとも一部が、その外部にあるコンピュータに実装されてもよい。また、ユーザ端末１０が、サーバ装置２０が行う処理の全てを行ってもよい。

【0063】

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

【0064】

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、その所定の情報の通知を行わない）ことによって行われてもよい。

【0065】

本明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

【0066】

本明細書で説明した情報又はパラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスで指示されるものであってもよい。

【0067】

上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。様々なチャネル（例えば、ＰＵＣＣＨ、ＰＤＣＣＨなど）及び情報要素（例えば、ＴＰＣなど）は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的なものではない。

【0068】

本明細書で使用する「判定（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判定」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判定」「決定」したとみなす事などを含み得る。また、「判定」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判定」「決定」したとみなす事などを含み得る。また、「判定」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判定」「決定」したとみなす事を含み得る。つまり、「判定」「決定」は、何らかの動作を「判定」「決定」したとみなす事を含み得る。

【0069】

本発明は、サーバ装置２０において行われる処理のステップを備える情報処理方法として提供されてもよい。また、本発明は、サーバ装置２０において実行されるプログラムとして提供されてもよい。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。

【0070】

ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

【0071】

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

【0072】

本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及び／又はシンボルは信号（シグナル）であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア（ＣＣ）は、キャリア周波数、セルなどと呼ばれてもよい。

【0073】

本明細書で使用する「第１」、「第２」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１及び第２要素への参照は、２つの要素のみがそこで採用され得ること、又は何らかの形で第１要素が第２要素に先行しなければならないことを意味しない。

【0074】

上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。

【0075】

「含む（ｉｎｃｌｕｄｉｎｇ）」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、及びそれらの変形が、本明細書或いは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

【0076】

本開示の全体において、例えば、英語でのa、an、及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。

【0077】

以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。

【符号の説明】

【0078】

１…情報処理システム、２…ネットワーク、１０…ユーザ端末、２０…サーバ装置、２１…入力部、２２…記憶部、２３…位置判定部、２４…音声処理部、２５…出力部、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…表示装置、１００８…放音装置、２００１…プロセッサ、２００２…メモリ、２００３…ストレージ、２００４…通信装置、Ｄ…表示領域、Ｏ１，Ｏ２，Ｏ３，Ｏ４…画像オブジェクト。

【図1】