IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特開-情報処理装置 図1
  • 特開-情報処理装置 図2
  • 特開-情報処理装置 図3
  • 特開-情報処理装置 図4
  • 特開-情報処理装置 図5
  • 特開-情報処理装置 図6
  • 特開-情報処理装置 図7
  • 特開-情報処理装置 図8
  • 特開-情報処理装置 図9
  • 特開-情報処理装置 図10
  • 特開-情報処理装置 図11
  • 特開-情報処理装置 図12
  • 特開-情報処理装置 図13
  • 特開-情報処理装置 図14
  • 特開-情報処理装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024179305
(43)【公開日】2024-12-26
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
   H04N 21/439 20110101AFI20241219BHJP
   H04N 21/432 20110101ALI20241219BHJP
   H04N 21/44 20110101ALI20241219BHJP
   G10L 19/00 20130101ALI20241219BHJP
   H04S 7/00 20060101ALI20241219BHJP
【FI】
H04N21/439
H04N21/432
H04N21/44
G10L19/00 312F
H04S7/00 300
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023098047
(22)【出願日】2023-06-14
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】阿部 桃子
【テーマコード(参考)】
5C164
5D162
【Fターム(参考)】
5C164MA07S
5C164PA46
5C164UB01P
5C164UB08P
5C164UB31P
5C164UB36S
5C164UB41S
5C164YA21
5D162AA15
5D162CD11
(57)【要約】
【課題】動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させる。
【解決手段】記憶部22は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、動画データに含まれ、その画像オブジェクトに対応する音声データとを紐づけて記憶する。位置判定部23は、記憶部22に記憶されている或るオブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する。音声処理部24は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部22に記憶されている音声データに応じた音声を発生させるための処理を行う。
【選択図】図4
【特許請求の範囲】
【請求項1】
動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、前記動画データに含まれ、当該画像オブジェクトに対応する音声データとを紐づけて記憶する記憶部と、
前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する位置判定部と、
前記或る画像オブジェクトについて判定された前記動画内の位置から、当該或る画像オブジェクトのオブジェクトデータに紐づけて前記記憶部に記憶されている前記音声データに応じた音声を発生させるための処理を行う音声処理部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記記憶部は、複数の動画データで汎用される画像オブジェクトである汎用画像オブジェクトの特徴を示す汎用オブジェクトデータと、当該汎用画像オブジェクトに対応する汎用音声データとを紐づけて記憶しており、
前記位置判定部は、前記記憶部に記憶されている前記汎用オブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記汎用オブジェクトデータと類似する画像オブジェクトの前記動画内の位置を判定し、
前記音声処理部は、前記汎用画像オブジェクトについて判定された前記動画内の位置から、当該汎用画像オブジェクトの汎用オブジェクトデータに紐づけて前記記憶部に記憶されている汎用音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記記憶部は、1の前記汎用オブジェクトデータに紐づけて複数の前記汎用音声データを紐づけて記憶しており、
前記音声処理部は、前記1の前記汎用オブジェクトデータに紐づけて記憶されている複数の前記汎用音声データから操作者により選択された汎用音声データを、当該1の前記汎用画像オブジェクトの前記動画内の位置から発生させる処理を行う
ことを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記位置判定部は、時間軸内の第1の時点において前記動画データが示す動画に出現していないが音声が発生し、且つ、当該第1の時点よりも後の第2の時点において前記動画データが示す動画に出現する画像オブジェクトが存在する場合に、当該第2の時点において当該画像オブジェクトが出現する前記動画内の位置を判定し、
前記音声処理部は、前記第1の時点において、判定された前記位置から、前記画像オブジェクトの画像オブジェクトデータに紐づけて記憶されている音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項5】
前記記憶部は、第1の画像オブジェクトのオブジェクトデータ及び第2の画像オブジェクトのオブジェクトデータに紐づけて、当該第1の画像オブジェクト及び当該第2の画像オブジェクトに対応する1の音声データを記憶しており、
前記音声処理部は、前記第1の画像オブジェクト及び前記第2の画像オブジェクトについて前記位置判定部により判定された位置が所定の関係を満たす場合には、当該第1の画像オブジェクト及び当該第2の画像オブジェクトに対応する前記1の音声データを、前記第1の画像オブジェクト又は前記第2の画像オブジェクトの前記動画内の位置から発生させる処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項6】
前記位置判定部によって判定される前記画像オブジェクトの位置は、前記動画の視聴者から見たときの奥行方向における位置を含み、
前記音声処理部は、前記奥行方向の位置に応じた音量で前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項7】
前記画像オブジェクトの前記動画内における挙動を解析する挙動解析部を備え、
前記音声処理部は、前記画像オブジェクトに対する前記解析の結果に応じた音量で前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項8】
前記記憶部に記憶された音声データの内容を解析する音声解析部を備え、
前記音声処理部は、前記音声データに対する前記解析の結果に応じた音量で当該音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項9】
前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトが前記動画内において向いている方向を判定する方向判定部を備え、
前記音声処理部は、前記或る画像オブジェクトについて判定された前記動画内の位置から判定された前記方向に音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【請求項10】
前記音声処理部は、同時に複数の音声データに応じた音声を発生させるための処理を行う場合に、各々の前記音声データについて決められた優先順位に応じた音量で各々の前記音声データに応じた音声を発生させるための処理を行う
ことを特徴とする請求項1記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画における音像定位の技術に関する。
【背景技術】
【0002】
動画コンテンツに含まれるキャラクタの音像をその動画コンテンツにおけるそのキャラクタの表示位置に定位させることで、3次元的な知覚効果を実現する技術が知られている。例えば特許文献1には、動画像データを再生する場合に、動画像内のキャラクタの位置と音の発生場所との位置関係に応じた音量、音質、音を発するタイミングを含む再生態様データに基づいて音データを再生することが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6882584号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した特許文献1に記載の技術では、再生態様データなるものを予め作成して用意しておかなければならない。そのような再生態様データを各動画コンテンツに含まれる各キャラクタについてそれぞれ作成するためには、多大なコストと時間を要する。
【0005】
一方、過去において平面ディスプレイや平面スクリーンに表示するために製作された動画コンテンツは多数存在する。このような2次元平面に表示するための動画データを用いて3次元的な知覚効果を実現することができれば、コストや時間の削減を大いに期待し得る。
【0006】
そこで、本発明の目的は、動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能な技術を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本発明は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、前記動画データに含まれ、当該画像オブジェクトに対応する音声データとを紐づけて記憶する記憶部と、前記記憶部に記憶されている或るオブジェクトデータが示す特徴と、前記動画データに含まれる各画像オブジェクトの特徴とを比較して、前記或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する位置判定部と、前記或る画像オブジェクトについて判定された前記動画内の位置から、当該或る画像オブジェクトのオブジェクトデータに紐づけて前記記憶部に記憶されている前記音声データに応じた音声を発生させるための処理を行う音声処理部とを備えることを特徴とする情報処理装置を提供する。
【発明の効果】
【0008】
本発明によれば、動画コンテンツに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能となる。
【図面の簡単な説明】
【0009】
図1】本発明の一実施形態に係る情報処理システム1の全体構成を例示する図である。
図2】同実施形態に係るユーザ端末10のハードウェア構成の一例を示すブロック図である。
図3】同実施形態に係るサーバ装置20のハードウェア構成の一例を示すブロック図である。
図4】同実施形態に係るサーバ装置20の機能構成の一例を示すブロック図である。
図5】同実施形態に係るサーバ装置20の記憶部22に記憶されているデータを例示する図である。
図6】同実施形態に係るユーザ端末10における表示画面の一例を示す図である。
図7】同実施形態に係るサーバ装置20の動作の一例を示すフローチャートである。
図8】変形例に係るサーバ装置20の記憶部22に記憶されているデータを例示する図である。
図9】変形例に係るユーザ端末10における表示画面の一例を示す図である。
図10】変形例に係るユーザ端末10における表示画面の一例を示す図である。
図11】変形例に係るサーバ装置20の記憶部22に記憶されているデータを例示する図である。
図12】変形例に係るサーバ装置20の記憶部22に記憶されているデータを例示する図である。
図13】変形例に係るサーバ装置20の機能構成の一例を示すブロック図である。
図14】変形例に係るサーバ装置20の機能構成の一例を示すブロック図である。
図15】変形例に係るサーバ装置20の機能構成の一例を示すブロック図である。
【発明を実施するための形態】
【0010】
[構成]
図1は、本実施形態の情報処理システム1の一例を示す図である。情報処理システム1は、例えばアニメーション、ドラマ、映画等の様々な動画コンテンツを表示する端末としてユーザにより利用されるユーザ端末10と、動画コンテンツにおいて音声の発生源であるオブジェクトの動画内での位置を判定し、判定した位置にそのオブジェクトの音像を定位させるための処理を行う情報処理装置として機能するサーバ装置20とを備えている。ユーザ端末10とサーバ装置20はネットワーク2により通信可能に接続される。ネットワーク2は、例えばLAN(Local Area Network)又はWAN(Wide Area Network)、若しくはこれらの組み合わせであり、有線区間又は無線区間を含んでいる。
【0011】
ユーザ端末10は、例えばスマートホン又はタブレットなどの携帯型コンピュータであるが、これに限らず、据え置き型のプロジェクタやディスプレイであってもよいし、ユーザの身体に装着される、例えば眼鏡型や時計型のウェアラブル端末であってもよい。ユーザ端末10は、任意の立体音響方式に従って、動画内の様々な音声が3次元空間で発せられているようなリアリティのある知覚効果を実現するものである。
【0012】
図2は、ユーザ端末10のハードウェア構成を例示する図である。ユーザ端末10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、表示装置1007、放音装置1008及びこれらを接続するバスなどを含むコンピュータとして構成されている。なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。ユーザ端末10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0013】
ユーザ端末10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信、表示装置1007による表示及び放音装置1008による放音を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
【0014】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。また、例えばベースバンド信号処理部や呼処理部などがプロセッサ1001によって実現されてもよい。
【0015】
プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、後述する動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。ユーザ端末10の機能ブロックは、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。各種の処理は、1つのプロセッサ1001によって実行されてもよいが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワーク2からユーザ端末10に送信されてもよい。
【0016】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本実施形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0017】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。
【0018】
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。本実施形態においては、動画コンテンツを表す動画データがサーバ装置20からユーザ端末10にストリーミング配信され、ユーザ端末10においてその動画データに基づいた動画及び音声が出力されるようになっている。通信装置1004は、この動画データをサーバ装置20から受信する。なお、通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、送受信アンテナ、アンプ部、送受信部、伝送路インターフェースなどは、通信装置1004によって実現されてもよい。送受信部は、送信部と受信部とで、物理的に、または論理的に分離された実装がなされてもよい。
【0019】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キー、マイクロホン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えばLEDランプなど)である。
【0020】
表示装置1007は、例えば液晶素子及びその駆動回路を含み、上述した動画データに基づいて液晶素子を駆動して動画を表示する。
【0021】
放音装置1008は、例えばスピーカ及びその駆動回路を含み、上述した動画データに基づいてスピーカを駆動して音声を出力する。放音装置1008は、音像定位を実現するため、少なくとも2組以上のスピーカ及びその駆動回路を含む。
【0022】
プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバスによって接続される。バスは、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
【0023】
また、ユーザ端末10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
【0024】
図3は、サーバ装置20のハードウェア構成を示す図である。サーバ装置20のハードウェア構成は、図3に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。また、それぞれ筐体が異なる複数の装置が通信接続されて、サーバ装置20を構成してもよい。
【0025】
サーバ装置20は、物理的には、プロセッサ2001、メモリ2002、ストレージ2003、通信装置2004、及びこれらを接続するバスなどを含むコンピュータ装置として構成されている。サーバ装置20における各機能は、プロセッサ2001、メモリ2002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ2001が演算を行い、通信装置2004による通信を制御したり、メモリ2002及びストレージ2003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。プロセッサ2001、メモリ2002、ストレージ2003、通信装置2004、及びこれらを接続するバスは、ユーザ端末10について説明したプロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、及びこれらを接続するバスと、ハードウェアとしては同様であるため、その説明を省略する。ただし、通信装置2004は、無線通信の通信規格に従って通信を行うためのハードウェアである必要はなく、任意の有線通信の通信規格に従ってネットワーク2を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であってもよい。
【0026】
図4は、サーバ装置20の機能構成の一例を示すブロック図である。図4に示すように、サーバ装置20は、入力部21,記憶部22、位置判定部23、音声処理部24及び出力部25という機能を実現する。
【0027】
入力部21は、サーバ装置20に対して各種データを入力する手段であり、例えば前述した動画データをサーバ装置20に入力する。この動画データは、例えば過去に平面ディスプレイや平面スクリーンに表示するために製作された動画コンテンツを表すデータである。
【0028】
また、入力部21は、動画データに含まれる画像オブジェクトの特徴を示すオブジェクトデータと、動画データに含まれ、その画像オブジェクトに対応する音声データとを紐づけた状態でサーバ装置20に入力する。ここでいう画像オブジェクトとは、動画データに含まれる各音声の発生源となり得る画像の単位のことであり、例えばアニメーションに登場するキャラクタ、ドラマに登場する登場人物、或いは、動画コンテンツで頻出する特定のアイコン等である。
【0029】
オブジェクトデータは、後述する位置判定部23による画像の比較が可能な程度に画像オブジェクトの特徴を示すデータであればよく、例えば動画において画像オブジェクトを表示するための画像データそのものであってもよいし、その画像オブジェクトの特徴部分のみを数値化して表現したデータであってもよい。各画像オブジェクトのオブジェクトデータは、その画像オブジェクトに対応する音声データを紐づけられている。このため、画像オブジェクトが特定されると、その画像オブジェクトが発生源となる音声を特定し得ることになる。これらのオブジェクトデータの作成と、オブジェクトデータ及び音声データの紐づけは、入力部21による入力を行うための前処理として、例えばサーバ装置20の管理者の操作に応じて行われる。
【0030】
記憶部22は、図4に例示するように、入力部21により入力された動画データと、互いに紐づけられたオブジェクトデータ及び音声データとを記憶する。
【0031】
位置判定部23は、記憶部22に記憶されている或るオブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或るオブジェクトデータに対応する画像オブジェクトの動画内の位置を判定する。動画内の位置とは、例えばその動画の表示範囲に設定された座標軸に基づく座標値で表現される。
【0032】
音声処理部24は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部22に記憶されている音声データに応じた音声を発生させるための音声処理を行う。ここでいう音声処理は、ユーザ端末10において表示される動画において上記の或る画像オブジェクトを発生源としたときの音像をその或る画像オブジェクトの表示位置に定位させるための処理であり、具体的には、ユーザ端末10の各スピーカから出力される音声の位相差及び音量を指定するパラメータを動画データに対して設定する処理である。
【0033】
出力部25は、音声処理部24による音声処理が施された動画データ、つまり、ユーザ端末10の各スピーカから出力される音声の位相差及び音量を指定するパラメータが設定された動画データをネットワーク2経由でユーザ端末10に出力する。ユーザ端末10は動画データを再生するときに、その動画データに設定されたパラメータに基づいて音声出力を行う。
【0034】
図6は、ユーザ端末10における表示画面の一例を示す図である。ユーザ端末10の表示領域Dにおいて或るタイミングで表示される動画内に画像オブジェクトO1,O2が含まれる場合、ユーザ端末10が設定されたパラメータに基づいて音声出力を行う。これにより、ユーザは、画像オブジェクトO1の表示位置からその画像オブジェクトO1の音声が発せられ、画像オブジェクトO2の表示位置からその画像オブジェクトO2の音声が発せられているかのように感じることになる。
【0035】
[動作]
図7を参照して、サーバ装置20の動作例について説明する。この処理が開始される前に、前述した前処理を経て動画データと、互いに紐づけられたオブジェクトデータ及び音声データとが入力部21によりサーバ装置20に入力されて記憶部22に記憶されているものとする。
【0036】
位置判定部23は、所定の画像認識アルゴリズムを用いて、動画データに含まれる各画像オブジェクトの特徴を抽出する(ステップS10)。
【0037】
次に、位置判定部23は、記憶部22に記憶されているオブジェクトデータが示す特徴と、動画データから抽出した各画像オブジェクトの特徴とを比較する(ステップS10)。
【0038】
次に、位置判定部23は、動画データにおいて、記憶部22に記憶されているオブジェクトデータが示す特徴に一致した特徴を持つ画像オブジェクトの位置を判定する(ステップS13)。なお、画像オブジェクトの位置の具体的な決め方として、例えばその画像オブジェクトに外接する外接矩形の重心をその画像オブジェクトの位置とする等の所定の規則に基づいて決める方法が考えられる。
【0039】
音声処理部24は、或る画像オブジェクトについて判定された動画内の位置から、その或る画像オブジェクトのオブジェクトデータに紐づけて記憶部22に記憶されている音声データに応じた音声を発生させるための音声処理を行う(ステップS13)。これらのステップS10~ステップS13の処理が、動画データの全てにわたって実行される。そして、音声処理が施された動画データはいったん記憶部22に記憶されて保存される。この後、ユーザ端末10から再生要求に応じて、出力部25は、音声処理部24による音声処理が施された動画データを記憶部22から読み出してネットワーク2経由でユーザ端末10に出力する。
【0040】
以上説明した実施形態によれば、比較的簡易な作業で、動画データに含まれる画像オブジェクトとその画像オブジェクトから発生する音声の位置とを対応させることが可能となる。また、過去に製作された多数の2次元平面表示用の動画データを用いることで、3次元的な知覚効果を低コスト及び低工数で実現することも可能となる。
【0041】
[変形例]
本発明は、上述した実施形態に限定されない。上述した実施形態を以下のように変形してもよい。また、以下の2つ以上の変形例を組み合わせて実施してもよい。
[変形例1]
上述した実施形態では、各動画コンテンツにおいて常時乃至定期的に登場する画像オブジェクトを処理対象として想定してしたが、そのような常時乃至定期的に登場する画像オブジェクトではない補助的な画像オブジェクトを処理対象としてもよい。補助的な画像オブジェクトとは、何らかの音声の発生源として動画に登場する車両、動物、風に揺れる木の葉っぱなどのように、動画コンテンツの主要なストーリにおいて必須ではない画像オブジェクトである。そこで、このような補助的な画像オブジェクトについては、その画像オブジェクトが意味するものとして汎用される代表的な画像(汎用画像オブジェクト)とその画像オブジェクトの音声として汎用される代表的な音声(汎用音声データ)を対応付けて記憶しておき、動画コンテンツにおいて汎用画像オブジェクトに画像上で類似する画像オブジェクトが登場したときにその画像オブジェクトの位置から汎用音声データに応じた音声を出力するようにしてもよい。
【0042】
具体的には、記憶部22は、図8に例示するように、図5の記憶内容に加えて、複数の動画データで汎用される画像オブジェクトである汎用画像オブジェクトの特徴(例えば代表的な車両を表す画像の特徴)を示す汎用オブジェクトデータと、その汎用画像オブジェクトに対応する汎用音声データ(例えば車両の代表的なクラクション音や走行音を表す音声データ)とを紐づけて記憶する。そして、位置判定部23は、記憶部22に記憶されている汎用オブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、汎用オブジェクトデータと類似する(つまり画像上の特徴の差が閾値以内の)画像オブジェクトの動画内の位置を判定する。そして、音声処理部24は、汎用画像オブジェクトについて判定された動画内の位置から、その汎用画像オブジェクトの汎用オブジェクトデータに紐づけて記憶部22に記憶されている汎用音声データに応じた音声を発生させるための処理を行う。
【0043】
本変形例によれば、補助的な画像オブジェクトについてそれぞれ固有の音声データを用意しておかなくても、そのような補助的な画像オブジェクトに対して汎用される音声を出力することが可能となる。
【0044】
[変形例2]
さらに、補助的な画像オブジェクトのそれぞれについて汎用される音声の候補を複数用意しておき、サーバ装置20の管理者がこれらの候補の中から選択できるようにしてもよい。例えば補助的な画像オブジェクトである犬の鳴き声を意味する汎用音声を複数種類用意しておくといった具合である。具体的には、記憶部22は、1の汎用オブジェクトデータに紐づけて複数の汎用音声データを紐づけて記憶しており、音声処理部24は、1の汎用オブジェクトデータに紐づけて記憶されている複数の汎用音声データから操作者により選択された汎用音声データを、その1の汎用画像オブジェクトの動画内の位置から発生させる処理を行う。
【0045】
本変形例によれば、補助的な画像オブジェクトについて複数用意した汎用音声から任意のものを選択することが可能となる。
【0046】
[変形例3]
動画コンテンツにおいて、或る再生タイミングでは出現していない画像オブジェクトの音声がそのタイミングで発せられ、その次の再生タイミングでその画像オブジェクトが出現する場合がある。具体的には、図9に例示するように、或る再生タイミングでは画像オブジェクトO3のみが出現しているが、このタイミングでは未出現の画像オブジェクトO4によって画像オブジェクトO3に掛けられた音声が発せられ、その後、図10に例示するように画像オブジェクトO4が表示領域Dの左方から出現するような場合である。このように、将来に出現する予定であるがまだ出現していない画像オブジェクトの音声を出力する場合に、その画像オブジェクトが現れる方向から音声を出力するようにしてもよい。
【0047】
具体的には、位置判定部23は、時間軸内の第1の時点において動画データが示す動画に出現していないが音声が発生し、且つ、その第1の時点よりも後の第2の時点において動画データが示す動画に出現する画像オブジェクトが存在する場合に、その第2の時点においてその画像オブジェクトが出現する動画内の位置を判定する。そして、音声処理部24は、第1の時点において、位置判定部23により判定された位置から、画像オブジェクトの画像オブジェクトデータに紐づけて記憶されている音声データに応じた音声を発生させるための処理を行う。
【0048】
本変形例によれば、画像オブジェクトが出現する方向からその音声が聞こえているかのような効果を奏することができる。
【0049】
[変形例4]
動画コンテンツ内の画像オブジェクト間の位置関係に応じた音声を出力するようにしてもよい。例えば第1の画像オブジェクトであるキャラクタが第2の画像オブジェクトである草むらの中を移動しているような動画の場合に、そのキャラクタとその草とが擦れて発声するような音声を出力するといった例が考えられる。具体的には、記憶部22は、図11に例示するように、図5の記憶内容に加えて、第1の画像オブジェクトのオブジェクトデータ及び第2の画像オブジェクトのオブジェクトデータに紐づけて、その第1の画像オブジェクト及びその第2の画像オブジェクトの組に対応する音声データを記憶する。そして、音声処理部24は、第1の画像オブジェクト及び第2の画像オブジェクトについて位置判定部23により判定された位置が所定の関係を満たす場合には、その第1の画像オブジェクト及びその第2の画像オブジェクトの組に対応する音声データを、第1の画像オブジェクト又は第2の画像オブジェクトの動画内の位置から発生させる処理を行う。ここでいう所定の関係を満たす場合とは、例えば第1の画像オブジェクト及び第2の画像オブジェクトの距離が閾値以内であるとか、第1の画像オブジェクト及び第2の画像オブジェクトの距離が閾値以内である状態で第1の画像オブジェクト又は第2の画像オブジェクトの位置が移動している場合とか、第1の画像オブジェクトの一部と第2の画像オブジェクトの一部が重なっている場合とか、第1の画像オブジェクトの一部と第2の画像オブジェクトの一部が重なった状態で第1の画像オブジェクト又は第2の画像オブジェクトの位置が移動している場合等である。
【0050】
本変形例によれば、画像オブジェクト間の位置関係に応じた音声をその位置関係に応じた位置から出力することができる。
【0051】
[変形例5]
動画における画像オブジェクトの奥行方向の位置に応じてその画像オブジェクトの音声の音量を制御するようにしてもよい。具体的には、或る画像オブジェクトについて、その画像オブジェクトの大きさ又は他の画像オブジェクトとの位置関係からその画像オブジェクトが視聴者から遠い位置に存在する場合には相対的に音量を小さくし、その画像オブジェクトが視聴者から近い位置に存在する場合には相対的に音量を大きくするといった例が考えられる。具体的には、位置判定部23は、或る画像オブジェクトについて、その画像オブジェクトの大きさ又は他の画像オブジェクトとの位置関係からその画像オブジェクトの奥行方向の位置を判定する。つまり、位置判定部23によって判定される画像オブジェクトの位置は、動画の視聴者から見たときの奥行方向における位置を含む。そして、音声処理部24は、図12に例示するように、画像オブジェクトの奥行方向の位置と音量レベルとを対応付けて記憶しており、判定された奥行方向の位置に応じた音量で音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部24は、ユーザ端末10の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。
【0052】
本変形例によれば、動画における画像オブジェクトの奥行方向の位置に応じた音量で音声を出力することができる。
【0053】
[変形例6]
画像オブジェクトの挙動に応じて音量を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタの口が大きく開くと大きな音量にするといった例が考えられる。これを実現するため、サーバ装置20は、図13に例示するように、画像オブジェクトの動画内における挙動を解析する挙動解析部を備える。そして、音声処理部24は、画像オブジェクトに対する解析の結果に応じた音量で音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部24は、ユーザ端末10の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。
【0054】
本変形例によれば、画像オブジェクトの挙動に応じた音量で音声を出力することができる。
【0055】
[変形例7]
画像オブジェクトの音声内容に応じて音量を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタの驚いた声などの特定の音声については大きな音量にするといった例が考えられる。これを実現するため、サーバ装置20は、図14に例示するように、記憶部22に記憶された音声データの内容を解析する音声解析部を備える。そして、音声処理部24は、音声データに対する解析の結果に応じた音量でその音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部24は、ユーザ端末10の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。
【0056】
本変形例によれば、画像オブジェクトの音声内容に応じた音量で音声を出力することができる。
【0057】
[変形例8]
画像オブジェクトの向いている方向に応じて音の指向性を制御するようにしてもよい。具体的には、画像オブジェクトであるキャラクタが或る方向を向いて音声を発した場合には、その画像オブジェクトの位置からその或る方向に音声を発するといった例が考えられる。これを実現するため、サーバ装置20は、図15に例示するように、記憶部22に記憶されている或る画像オブジェクトデータが示す特徴と、動画データに含まれる各画像オブジェクトの特徴とを比較して、或る画像オブジェクトデータに対応する画像オブジェクトが動画内において向いている方向を判定する方向判定部を備える。そして、音声処理部24は、或る画像オブジェクトについて判定された動画内の位置から判定された方向に音声を発生させるための処理を行う。具体的には、音声処理部24は、ユーザ端末10の各スピーカから出力される音声の指向性を指定するパラメータを動画データに対して設定する。一方、ユーザ端末10は、放音装置1008として、指向性を有する音声を出力可能な放音装置を備えており、上記パラメータに従って音声の指向性を制御する。
【0058】
本変形例によれば、画像オブジェクトの向いている方向に応じて音の指向性を制御することができる。
【0059】
[変形例9]
動画コンテンツに出現する画像オブジェクトから発せられる音声に対して、例えば拍手、歓声、風、雨等の、対応する画像オブジェクトが存在しない音声が重複して再生される場合がある。そこで、画像オブジェクトの音声と、拍手等の画像オブジェクト以外の音声とが重複する場合、優先すべき音声を選択して各音声の音量を制御するようにしてもよい。具体的には、記憶部22に記憶された音声データには予め優先順位が決められており、記憶部22はその優先順位の規則を記憶している。この規則は、例えば、対応する画像オブジェクトが存在する音声の優先順位を、対応する画像オブジェクトが存在しない音声の優先順位よりも高くするといった例が考えられる。そして、音声処理部24は、同時に複数の音声データに応じた音声を発生させるための処理を行う場合に、各々の音声データについて決められた優先順位に応じた音量で各々の音声データに応じた音声を発生させるための処理を行う。具体的には、音声処理部24は、ユーザ端末10の各スピーカから出力される音量を指定するパラメータを動画データに対して設定する。
【0060】
本変形例によれば、対応する画像オブジェクトが存在する音声と、対応する画像オブジェクトが存在しない音声とをそれぞれ適切な音量で出力することができる。
【0061】
[そのほかの変形例]
本実施形態においては、動画コンテンツを表す動画データがサーバ装置20からユーザ端末10にストリーミング配信されるようになっていたが、このようなストリーミング配信は必須ではなく、例えば動画データがサーバ装置20からユーザ端末10にダウンロードされて保存された後、ユーザ端末10においていわゆるオフラインで再生されるものであってもよい。
【0062】
上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。例えばサーバ装置20の機能の少なくとも一部が、その外部にあるコンピュータに実装されてもよい。また、ユーザ端末10が、サーバ装置20が行う処理の全てを行ってもよい。
【0063】
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
【0064】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、その所定の情報の通知を行わない)ことによって行われてもよい。
【0065】
本明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
【0066】
本明細書で説明した情報又はパラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスで指示されるものであってもよい。
【0067】
上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素(例えば、TPCなど)は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的なものではない。
【0068】
本明細書で使用する「判定(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判定」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判定」「決定」したとみなす事などを含み得る。また、「判定」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判定」「決定」したとみなす事などを含み得る。また、「判定」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判定」「決定」したとみなす事を含み得る。つまり、「判定」「決定」は、何らかの動作を「判定」「決定」したとみなす事を含み得る。
【0069】
本発明は、サーバ装置20において行われる処理のステップを備える情報処理方法として提供されてもよい。また、本発明は、サーバ装置20において実行されるプログラムとして提供されてもよい。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。
【0070】
ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0071】
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0072】
本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及び/又はシンボルは信号(シグナル)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC)は、キャリア周波数、セルなどと呼ばれてもよい。
【0073】
本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1及び第2要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1要素が第2要素に先行しなければならないことを意味しない。
【0074】
上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
【0075】
「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書或いは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書或いは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
【0076】
本開示の全体において、例えば、英語でのa、an、及びtheのように、翻訳により冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数のものを含むものとする。
【0077】
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
【符号の説明】
【0078】
1…情報処理システム、2…ネットワーク、10…ユーザ端末、20…サーバ装置、21…入力部、22…記憶部、23…位置判定部、24…音声処理部、25…出力部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…表示装置、1008…放音装置、2001…プロセッサ、2002…メモリ、2003…ストレージ、2004…通信装置、D…表示領域、O1,O2,O3,O4…画像オブジェクト。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15