(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022036998
(43)【公開日】2022-03-08
(54)【発明の名称】映像音響処理装置および方法、並びにプログラム
(51)【国際特許分類】
G10L 19/00 20130101AFI20220301BHJP
G10L 21/0272 20130101ALI20220301BHJP
H04N 5/232 20060101ALI20220301BHJP
G06T 7/00 20170101ALI20220301BHJP
G06T 7/70 20170101ALI20220301BHJP
【FI】
G10L19/00 312F
G10L21/0272 100B
H04N5/232 930
H04N5/232 945
G06T7/00 P
G06T7/70 A
G06T7/00 660A
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2021190720
(22)【出願日】2021-11-25
(62)【分割の表示】P 2018520782の分割
【原出願日】2017-05-17
(31)【優先権主張番号】P 2016107042
(32)【優先日】2016-05-30
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】本間 弘幸
(72)【発明者】
【氏名】山本 優樹
(57)【要約】
【課題】より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにする。
【解決手段】映像音響処理装置は、映像信号に基づく映像オブジェクトを表示させる表示制御部と、1または複数の映像オブジェクトのなかから、所定の映像オブジェクトを選択するオブジェクト選択部と、オブジェクト選択部により選択された映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部とを備える。本技術は映像音響処理装置に適用することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
映像信号に基づく映像オブジェクトを表示させる表示制御部と、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、
前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部と
を備える映像音響処理装置。
【請求項2】
前記抽出部は、前記オーディオ信号から前記オーディオオブジェクト信号を抽出する
請求項1に記載の映像音響処理装置。
【請求項3】
前記抽出部は、前記オーディオ信号から、前記選択された前記映像オブジェクトのオーディオオブジェクト信号以外の信号を背景音信号として抽出する
請求項2に記載の映像音響処理装置。
【請求項4】
前記オブジェクト選択部は、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成し、
前記抽出部は、前記オブジェクト位置情報に基づいて、前記オーディオオブジェクト信号を抽出する
請求項1に記載の映像音響処理装置。
【請求項5】
前記抽出部は、前記オブジェクト位置情報を用いた音源分離により前記オーディオオブジェクト信号を抽出する
請求項4に記載の映像音響処理装置。
【請求項6】
前記抽出部は、前記音源分離として固定ビームフォーミングを行う
請求項5に記載の映像音響処理装置。
【請求項7】
前記映像信号に基づいて、前記映像オブジェクトを認識する映像オブジェクト認識部をさらに備え、
前記表示制御部は、前記映像オブジェクトとともに、前記映像オブジェクトの認識結果に基づく画像を表示させる
請求項1に記載の映像音響処理装置。
【請求項8】
前記映像オブジェクト認識部は、顔認識により前記映像オブジェクトを認識する
請求項7に記載の映像音響処理装置。
【請求項9】
前記表示制御部は、前記画像として、前記映像オブジェクトの領域に枠を表示させる
請求項7に記載の映像音響処理装置。
【請求項10】
前記オブジェクト選択部は、ユーザによる選択操作に応じて、前記映像オブジェクトを選択する
請求項1に記載の映像音響処理装置。
【請求項11】
前記オブジェクト選択部は、前記選択された前記映像オブジェクトのメタデータを生成する
請求項1に記載の映像音響処理装置。
【請求項12】
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成する
請求項11に記載の映像音響処理装置。
【請求項13】
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの処理優先度を生成する
請求項11に記載の映像音響処理装置。
【請求項14】
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの領域の広がり具合を示すスプレッド情報を生成する
請求項11に記載の映像音響処理装置。
【請求項15】
前記オーディオオブジェクト信号および前記メタデータを符号化するオーディオ符号化部をさらに備える
請求項11に記載の映像音響処理装置。
【請求項16】
前記映像信号を符号化する映像符号化部と、
前記映像信号の符号化により得られた映像ビットストリームと、前記オーディオオブジェクト信号および前記メタデータの符号化により得られたオーディオビットストリームとを多重化する多重化部と
をさらに備える請求項15に記載の映像音響処理装置。
【請求項17】
撮影を行って前記映像信号を得る撮像部をさらに備える
請求項1に記載の映像音響処理装置。
【請求項18】
収音を行って前記オーディオ信号を得る収音部をさらに備える
請求項1に記載の映像音響処理装置。
【請求項19】
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む映像音響処理方法。
【請求項20】
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は映像音響処理装置および方法、並びにプログラムに関し、特に、より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにした映像音響処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
近年、映画やゲーム等でオブジェクトオーディオ技術が用いられ、オブジェクトオーディオを扱える符号化方式も開発されている。例えばオブジェクトオーディオの符号化に関する規格として、国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
【0003】
このような符号化方式では、従来の2チャネルステレオ方式や、5.1チャネル等のマルチチャネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオーディオオブジェクトの位置情報をメタデータとして符号化することができる。このようにすることで、従来の符号化方式では困難であった、再生時における特定の音源の加工を容易に行うことができる。具体的には、例えば特定の音源の加工として、音量調整やエフェクトの追加などをオーディオオブジェクトごとに行うことが可能である。
【0004】
このようなオブジェクトオーディオ符号化を、例えばカムコーダやスマートフォン等で動画像を撮影するときに用いれば、撮影対象となっている家族の音声はオブジェクト音として記録し、それ以外の音は背景音とすることで、撮影後、再生時や編集時に独立して家族の声を操作することができる。
【0005】
しかし、カムコーダやスマートフォン等のモバイル機器でオブジェクト音を収音する場合、何をオブジェクト音とし、何を背景音とすべきかを自動的に決定することは、計算リソースやユーザインターフェースの都合上、容易ではない。
【0006】
また、オブジェクト音を分離する手法として、従来、種々の音源分離技術が提案されており、例えば複数のマイクロホンと独立主成分分析を用いて音源を分離する手法などが提案されている(例えば、特許文献1参照)。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
【特許文献】
【0008】
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、これらの音源分離技術はマイクロホンからの入力音声信号から適応的に音源を分離するものであり、実用上は撮影対象者以外の音が含まれてしまう場合の方が多く、精度よく所望のオブジェクト音を分離させることは困難であった。
【0010】
本技術は、このような状況に鑑みてなされたものであり、より簡単かつ高精度に所望のオブジェクト音を分離させることができるようにするものである。
【課題を解決するための手段】
【0011】
本技術の一側面の映像音響処理装置は、映像信号に基づく映像オブジェクトを表示させる表示制御部と、1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部とを備える。
【0012】
本技術の一側面の映像音響処理方法またはプログラムは、映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップとを含む。
【0013】
本技術の一側面においては、映像信号に基づく映像オブジェクトが表示され、1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトが選択され、選択された前記映像オブジェクトのオーディオ信号がオーディオオブジェクト信号として抽出される。
【発明の効果】
【0014】
本技術の一側面によれば、より簡単かつ高精度に所望のオブジェクト音を分離させることができる。
【0015】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
【図面の簡単な説明】
【0016】
【
図3】符号化処理を説明するフローチャートである。
【
図4】オーディオオブジェクトの選択と矩形枠画像の表示について説明する図である。
【
図5】オブジェクト位置情報の座標系について説明する図である。
【
図6】被写体とレンズと撮像面の関係について説明する図である。
【
図7】オブジェクト位置情報の算出について説明する図である。
【
図8】オブジェクト位置情報を含むメタデータのシンタックスを示す図である。
【
図9】処理優先度を含むメタデータのシンタックスを示す図である。
【
図10】処理優先度の設定について説明する図である。
【
図11】スプレッド情報を含むメタデータのシンタックスを示す図である。
【
図12】スプレッド情報について説明する図である。
【
図13】スプレッド情報の算出について説明する図である。
【発明を実施するための形態】
【0017】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0018】
〈第1の実施の形態〉
〈映像音響処理装置の構成例〉
本技術では、動画像を対象とした顔認識技術などのオブジェクト認識技術を用い、その認識結果を表示デバイス上で機器使用者に提示させ、機器使用者が認識結果より選択したオブジェクトに対応した方向の音をオブジェクト音として分離し、それ以外の音を背景音としてオブジェクトオーディオ符号化技術によって符号化するものである。
【0019】
図1は、本技術を適用した映像音響処理装置の一実施の形態の構成例を示す図である。
【0020】
図1に示す映像音響処理装置11は、撮像部21、映像オブジェクト認識部22、映像オブジェクト認識結果表示制御部23、映像表示部24、オブジェクト選択部25、収音部26、音源分離部27、オーディオ符号化部28、映像符号化部29、および多重化部30を有している。
【0021】
撮像部21は、例えば撮像素子やレンズ等から構成される撮像ユニットからなり、被写体を撮影して、その結果得られた動画像の映像信号を映像オブジェクト認識部22および映像符号化部29に供給する。
【0022】
映像オブジェクト認識部22は、撮像部21から供給された映像信号に基づいて、動画像上の映像オブジェクトを認識し、その認識結果を映像信号とともに映像オブジェクト認識結果表示制御部23に供給する。
【0023】
映像オブジェクト認識部22では、顔認識や物体認識、モーションキャプチャなどにより、動画像上の映像オブジェクトが認識(検出)される。
【0024】
例えば特許第4492036号公報には、既知画像を用いた物体認識技術について詳細に記載されている。このような既知画像を用いた物体認識技術は、近年の機械学習技術とクラウドネットワークの進化に伴い現実的に利用可能なレベルになっている。こうした物体認識技術を利用することで、任意の物体を認識し、その認識結果を機器使用者に提示して、機器使用者が選択した物体の位置から発せられるオーディオ信号をオーディオオブジェクトの信号として抽出することが可能となる。
【0025】
映像オブジェクト認識結果表示制御部23は、映像オブジェクト認識部22から供給された映像オブジェクトの認識結果および映像信号に基づいて、映像表示部24における動画像の表示を制御する。すなわち、映像オブジェクト認識結果表示制御部23は、映像表示部24に映像信号を供給して動画像を表示させるとともに、映像オブジェクトの認識結果に基づいて、動画像上に映像オブジェクトの位置を示す情報を重畳表示させる。
【0026】
また、映像オブジェクト認識結果表示制御部23は、映像オブジェクトの認識結果をオブジェクト選択部25に供給する。
【0027】
映像表示部24は、例えば液晶表示パネルなどからなり、映像オブジェクト認識結果表示制御部23の制御に従って動画像等の画像を表示する。
【0028】
また、映像表示部24に動画像(映像)とともに映像オブジェクトの認識結果、つまり映像オブジェクトの位置を示す情報が表示されると、機器使用者は、所望の映像オブジェクトを指定する操作を行う。すると、機器使用者による指定操作の結果を示す信号がオブジェクト選択部25に供給される。
【0029】
オブジェクト選択部25は、映像オブジェクト認識結果表示制御部23から供給された映像オブジェクトの認識結果と、機器使用者による映像オブジェクトの指定操作に応じて供給された信号とに基づいて、機器使用者により選択された映像オブジェクトの3次元空間上の位置を示すオブジェクト位置情報を生成する。オブジェクト選択部25は、得られたオブジェクト位置情報を、音源分離部27およびオーディオ符号化部28に供給する。
【0030】
収音部26は、例えばマイクロホンからなり、映像音響処理装置11の周囲の音を収音し、その結果得られたオーディオ信号を音源分離部27に供給する。映像音響処理装置11では、撮像部21により撮影された動画像と、収音部26により収音された音声とからなるコンテンツが得られることになる。すなわち、収音部26で得られるオーディオ信号は、撮像部21で得られる映像信号に付随する音声の信号である。
【0031】
音源分離部27は、オブジェクト選択部25から供給されたオブジェクト位置情報に基づいて、収音部26から供給されたオーディオ信号に対して音源分離を行う。
【0032】
音源分離部27での音源分離によって、収音部26で得られたオーディオ信号が、機器使用者により選択された映像オブジェクトの音声の信号であるオーディオオブジェクト信号と、機器使用者により選択された映像オブジェクトの音声以外の音声の信号、つまり背景音の信号である背景音信号とに分離される。ここでは、機器使用者により選択された映像オブジェクトの音声の信号が、オブジェクト音、つまりオーディオオブジェクトの音声信号であるオーディオオブジェクト信号として分離(抽出)される。
【0033】
音源分離部27は、音源分離により得られたオーディオオブジェクト信号と背景音信号とをオーディオ符号化部28に供給する。
【0034】
オーディオ符号化部28は、音源分離部27から供給されたオーディオオブジェクト信号および背景音信号と、オブジェクト選択部25から供給されたオブジェクト位置情報とを符号化し、その結果得られたオーディオビットストリームを多重化部30に供給する。
【0035】
映像符号化部29は、撮像部21から供給された映像信号を符号化し、その結果得られた映像ビットストリームを多重化部30に供給する。多重化部30は、映像符号化部29から供給された映像ビットストリームと、オーディオ符号化部28から供給されたオーディオビットストリームとを多重化し、最終的な出力となる出力ビットストリームを得る。多重化部30は、このようにして得られた出力ビットストリームを出力する。
【0036】
〈映像音響処理装置の構成例〉
図1に示した映像音響処理装置11は、一般的な実施の形態を示すものであるが、以下では、より具体的な説明を行うために、映像オブジェクト認識部22における映像オブジェクトの認識手法として、顔認識技術が用いられる場合を具体例として説明を行う。
【0037】
そのような場合、映像音響処理装置は、例えば
図2に示すように構成される。なお、
図2において
図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0038】
図2に示す映像音響処理装置61は、撮像部21、顔認識部71、顔認識結果表示制御部72、映像表示部73、人物選択部74、収音部26、音源分離部27、オーディオ符号化部28、映像符号化部29、および多重化部30を有している。
【0039】
この映像音響処理装置61の構成は、映像オブジェクト認識部22乃至オブジェクト選択部25に代えて、顔認識部71乃至人物選択部74が設けられている点で映像音響処理装置11の構成と異なり、その他の点では映像音響処理装置11と同じ構成となっている。
【0040】
顔認識部71は、
図1に示した映像オブジェクト認識部22に対応する。顔認識部71は、撮像部21から供給された映像信号に対して顔認識処理を行って動画像上の人の顔を認識し、その認識結果を映像信号とともに顔認識結果表示制御部72に供給する。すなわち、顔認識部71では、映像信号に基づいて、映像オブジェクトとして人の顔が認識(検出)される。
【0041】
顔認識結果表示制御部72は、
図1に示した映像オブジェクト認識結果表示制御部23に対応する。顔認識結果表示制御部72は、顔認識部71から供給された顔認識結果および映像信号に基づいて、映像表示部73における動画像の表示を制御する。すなわち、顔認識結果表示制御部72は、映像表示部73に映像信号を供給してコンテンツの動画像を表示させるとともに、顔認識結果に基づいて、動画像上に映像オブジェクトとしての人の顔の位置を示す情報を重畳表示させる。
【0042】
また、顔認識結果表示制御部72は、顔認識結果を人物選択部74に供給する。
【0043】
映像表示部73は、例えば液晶表示パネルなどからなり、
図1に示した映像表示部24に対応する。映像表示部73は、顔認識結果表示制御部72の制御に従って動画像等の画像を表示する。
【0044】
また、映像表示部73は表示画面に重畳されて設けられたタッチパネル81を有しており、タッチパネル81は機器使用者による操作に応じた信号を人物選択部74に供給する。なお、ここでは機器使用者がタッチパネル81を操作することにより各種の入力を行う例について説明するが、その他、マウスやボタン、キーボードなどの入力機器が用いられて入力が行われるようにしてもよい。
【0045】
映像表示部73に動画像(映像)とともに顔認識の結果、つまり映像オブジェクトとしての人の顔の位置を示す情報が表示されると、機器使用者は、タッチパネル81を操作して、所望の人物を指定する。すると、タッチパネル81から人物選択部74には、機器使用者による人物(顔)の選択結果が供給される。
【0046】
人物選択部74は、
図1に示したオブジェクト選択部25に対応する。人物選択部74は、顔認識結果表示制御部72から供給された顔認識の結果と、タッチパネル81から供給された人物の選択結果とに基づいて、機器使用者により選択された人物、つまり映像オブジェクトを選択し、その映像オブジェクトの3次元空間上の位置を示すオブジェクト位置情報を生成する。
【0047】
また、人物選択部74は、機器使用者による人物の選択結果を映像表示部73に供給して所定の表示を行わせ、機器使用者が自身で行った人物の選択結果を確認できるようにさせる。
【0048】
人物選択部74は、機器使用者により選択された人物について得られたオブジェクト位置情報を、音源分離部27およびオーディオ符号化部28に供給する。
【0049】
〈符号化処理の説明〉
次に、映像音響処理装置61の動作について説明する。すなわち、以下、
図3のフローチャートを参照して、映像音響処理装置61により行われる符号化処理について説明する。
【0050】
この符号化処理は、例えば機器使用者により映像音響処理装置61が操作され、コンテンツとしての音声付きの画像の撮影が指示されたときに開始される。なお、ここでは、コンテンツの画像として動画像(映像)が撮影される場合を例として説明するが、以下では、動画像を単にコンテンツの画像とも称することとする。
【0051】
撮影が開始されると、撮像部21は被写体を撮影し、その結果得られた映像信号を、順次、顔認識部71および映像符号化部29に供給する。また、収音部26は、音声を収音し、その結果得られたオーディオ信号を、順次、音源分離部27に供給する。
【0052】
ステップS11において、顔認識部71は、撮像部21から供給された映像信号に基づいて、映像信号に基づくコンテンツの画像上から人の顔を検出し、その検出結果と映像信号とを顔認識結果表示制御部72に供給する。
【0053】
例えば顔認識部71は、映像信号に対して特徴量や辞書などを利用した顔認識処理を行うことにより画像から人の顔を検出する。ここでは、例えば画像上における人の顔の位置と、その人の顔の領域の大きさなどが認識(検出)される。このようにして検出された、コンテンツの画像上の人、より詳細には人の顔が映像オブジェクトとされる。
【0054】
ステップS12において、顔認識結果表示制御部72は、顔認識部71から供給された顔の検出結果および映像信号に基づいて、コンテンツの画像上における検出された各顔の領域に、それらの各顔を囲む矩形枠を表示させるための矩形枠画像の信号を生成する。
【0055】
なお、矩形枠画像は、映像オブジェクトである人の顔の領域に、その顔の少なくとも一部の領域を囲む枠を表示させる画像であればよく、必ずしも顔の全領域が矩形枠により囲まれる必要はない。
【0056】
また、顔認識結果表示制御部72は、人の顔ごとに生成した矩形枠画像の表示位置と大きさ、つまり画像上における人の顔の領域の位置と大きさを示す顔位置情報を人物選択部74に供給する。
【0057】
ステップS13において、顔認識結果表示制御部72は、生成した矩形枠画像の信号と、コンテンツの映像信号とを映像表示部73に供給するとともに、映像表示部73を制御し、人の顔の領域に矩形枠画像が重畳表示されたコンテンツの画像を表示させる。
【0058】
これにより、映像表示部73の表示画面には、コンテンツの画像、つまり映像信号に基づく映像オブジェクトとともに、映像オブジェクトの認識結果に基づく画像である矩形枠画像が表示されることになる。
【0059】
なお、コンテンツの画像から人の顔を検出する顔認識技術については、様々な手法が提案されており、例えば、特許第4264663号公報(以下、参照文献1とも称する)などに詳細に記載されている。参照文献1では、顔認識を行って、その認識結果に基づいて矩形枠画像を重畳表示させることが記載されている。
【0060】
顔認識部71における顔認識処理の手法や、顔認識結果表示制御部72による矩形枠画像の重畳表示の手法は、参照文献1に記載の手法と同様の手法としてもよいが、人の顔を認識し、認識された顔領域を囲む表示を行うことができれば、どのような手法でもよい。また、例えばここでは矩形枠画像を表示する例について説明するが、顔認識の結果をコンテンツの画像上、特に顔の位置に表示することができれば、矩形枠画像に限らず、人の顔の輪郭を強調表示したり、他の形状の図形画像を重畳表示したりするようにしてもよい。
【0061】
このようにして映像表示部73にコンテンツの画像が表示されるとともに、その画像上の人の顔の領域に矩形枠画像が表示されると、機器使用者、つまり映像音響処理装置61を操作するユーザはタッチパネル81を操作し、所望の人物をオーディオオブジェクトとして選択する。
【0062】
例えば所望の人物の選択は、その人物の顔領域に表示されている矩形枠画像を指定することにより行われる。また、ユーザは、映像表示部73に表示されている1または複数の人物(映像オブジェクト)のなかから、1人のみ人物を選択することもできるし、複数の人物を選択することもできる。
【0063】
映像音響処理装置61では、このようにして選択された人物、つまり映像オブジェクトから発せられる音声が、オブジェクト音であるとされる。そして、そのオブジェクト音の信号がオーディオオブジェクト信号としてオーディオ信号から抽出される。したがって、映像オブジェクトである人物を選択することは、所望の人物をオーディオオブジェクトとして選択する操作であるということができる。
【0064】
機器使用者により所望の人物が選択されると、タッチパネル81から人物選択部74には、機器使用者の選択操作に応じた信号が供給される。
【0065】
ステップS14において、人物選択部74は、タッチパネル81から供給された機器使用者による選択操作に応じた信号と、顔認識結果表示制御部72から供給された顔位置情報とに基づいて、機器使用者により指定されたオーディオオブジェクトを選択する。
【0066】
ステップS15において、人物選択部74は、ステップS14におけるオーディオオブジェクトの選択結果に基づいて映像表示部73を制御し、オーディオオブジェクトとするものとして選択された人の顔の領域に表示されている矩形枠画像、つまり選択された矩形枠画像をハイライト表示させる。
【0067】
例えば
図4に示すように、映像表示部73に3名の人物HM11乃至人物HM13が被写体として含まれているコンテンツの画像が表示されているとする。
【0068】
この例では、ステップS11において、人物HM11乃至人物HM13の顔が検出され、ステップS13では、それらの人物の顔の領域に、矩形枠画像FR11乃至矩形枠画像FR13が重畳表示される。
【0069】
このような状態で、例えば機器使用者が人物HM11の顔領域の部分に表示されている矩形枠画像FR11を指で押すなどして選択したとする。この選択操作により、ステップS14では、矩形枠画像FR11が表示されている人物HM11がオーディオオブジェクトとして選択されることになる。すると、ステップS15では、選択された人物HM11の顔領域に表示されている矩形枠画像FR11がハイライト表示される。
【0070】
この例では、矩形枠画像FR11が実線で描かれており、矩形枠画像FR11がハイライト表示されていることを表している。これに対して、選択されていない人物の矩形枠画像FR12および矩形枠画像FR13は点線で描かれており、ハイライト表示されていない、つまり通常の表示とされていることを表している。
【0071】
したがって矩形枠画像FR11が選択されると、矩形枠画像FR11は点線で描かれた通常表示の状態から、実線で描かれたハイライト表示された状態へと表示状態が変化する。
【0072】
このように機器使用者により選択された人物の矩形枠画像を、他の矩形枠画像と異なる表示形式で表示することで、機器使用者は、自身の選択操作が正しく反映されたかを容易に確認することができる。
【0073】
なお、ここでは選択された人物の矩形枠画像がハイライト表示される場合を例として説明したが、これに限らず、選択された人物の矩形枠画像と、他の矩形枠画像とが異なる表示形式で表示されるようにすればよい。例えば選択された人物の矩形枠画像を、それ以外の矩形枠画像と異なる色や形状で表示させたり、点滅表示させたりしてもよい。
【0074】
また、顔認識部71に、予め家族等の特定の人物の辞書を保持しておき、顔認識部71において特定の人物が検出された場合には、人物選択部74が機器使用者の選択操作なしにその特定の人物をオーディオオブジェクトとして選択するようにしてもよい。
【0075】
そのような場合、顔認識部71から顔認識結果表示制御部72を介して人物選択部74には、特定の人物を示す情報も供給される。そして、映像表示部73にコンテンツの画像と矩形枠画像が表示された時点で、映像表示部73は人物選択部74からの制御に応じて、特定人物の矩形枠画像をハイライト表示させる。
【0076】
このように、予め特定の人物がオーディオオブジェクトとして選択されるようにしておくことで、機器使用者による選択操作の手間を省くことが可能となる。また、この場合、その後の機器使用者の操作に応じて、特定の人物の選択が解除されるようにすることが可能となっている。
【0077】
さらに、コンテンツの画像に重畳表示される矩形枠画像は、例えば参照文献1に記載されている例と同様に、人物の移動や、撮影対象領域の移動、すなわち撮影方向の変化などに伴い自動的に追従するような処理が行われる。
【0078】
一般的なカムコーダやデジタルスチルカメラでは、タッチパネルで触れた領域にフォーカスを合わせるような機構を備えたものがあるが、このオーディオオブジェクトの選択処理とフォーカス対象の選択処理を同時に行うことも可能である。一度、選択されたオーディオオブジェクトは、前述の矩形枠画像の自動的な追従と同様に、人物の移動や撮影対象領域の移動に伴い自動的に追従するようになされる。
【0079】
図3のフローチャートの説明に戻り、ステップS16において人物選択部74は、顔認識結果表示制御部72から供給された顔位置情報に基づいて、ステップS14で選択されたオーディオオブジェクトの空間上の位置を示すオブジェクト位置情報を生成する。
【0080】
一般的に、MPEG-H Part 3:3D audio規格などに代表される各規格でのオーディオオブジェクトのオブジェクト位置情報は、例えば
図5に示す球面座標系で符号化される。
【0081】
図5では、原点Oを通り、互いに垂直なX軸、Y軸、およびZ軸が3次元直交座標系の軸となっている。例えば3次元直交座標系では、空間上のオーディオオブジェクトOB11の位置は、X軸方向の位置を示すX座標であるx、Y軸方向の位置を示すY座標であるy、およびZ軸方向の位置を示すZ座標であるzが用いられて(x,y,z)と表される。
【0082】
これに対して球面座標系では方位角、仰角、および半径が用いられて空間上のオーディオオブジェクトOB11の位置が表される。
【0083】
いま、原点Oと空間上のオーディオオブジェクトOB11の位置とを結ぶ直線を直線rとし、この直線rをXY平面上に投影して得られた直線を直線Lとする。
【0084】
このとき、X軸と直線Lとのなす角θがオーディオオブジェクトOB11の位置を示す方位角とされる。また、直線rとXY平面とのなす角φがオーディオオブジェクトOB11の位置を示す仰角とされ、直線rの長さがオーディオオブジェクトOB11の位置を示す半径とされる。
【0085】
以下では、空間上のオーディオオブジェクトの位置を球面座標で表すこととし、その位置を示す方位角、仰角、および半径を、それぞれposition_azimuth、position_elevation、およびposition_radiusと記すこととする。
【0086】
一般的に、動画像から物体の大きさや撮影者からの実距離を測定することは困難である。また、カムコーダなどの撮像装置においては、オートフォーカス機構など物体との距離を複数の点で測定できるものも存在するが、ここでは顔認識処理を用いて被写体の位置、つまりオーディオオブジェクトの実空間上の位置を計算する場合を例として説明する。
【0087】
すなわち、以下、
図6を参照して、一般的な撮像装置において被写体の形状が既知である場合の被写体距離の測定方法を説明する。
【0088】
図6では、撮像面101を有する撮像素子と、レンズ102とからなる撮像ユニットにより被写体103が撮影される。ここで、撮像素子とレンズ102からなる撮像ユニットは撮像部21に対応し、被写体103は、ステップS14でオーディオオブジェクトとして選択された画像上の人物に対応する、実空間上の人物である。
【0089】
この例では、被写体103の図中、縦方向の幅である被写体幅がW2となっており、その被写体103を撮影したときの撮像面101上における被写体103の像の図中、縦方向の幅である撮像被写体幅がW1となっている。
【0090】
さらに、レンズ102から被写体103までの空間上の図中、横方向の距離を被写体距離dとし、撮像面101からレンズ102までの空間上の図中、横方向の距離を焦点距離Dとする。
【0091】
なお、より詳細には、レンズ102の主点から被写体103までの図中、横方向の距離が被写体距離dであり、撮像面101からレンズ102の主点までの図中、横方向の距離が焦点距離Dである。また、レンズ102が複数のレンズから構成されるときには、合成レンズの主点がレンズ102の主点となる。
【0092】
人物選択部74では、焦点距離D、撮像面101の大きさ(サイズ)や画素数など、撮像部21に関する情報が予め保持されている。
【0093】
また、人物選択部74は、顔認識結果表示制御部72から供給された顔位置情報と、予め保持している撮像部21に関する情報とから、画像上の被写体の位置および大きさと、撮像面101上の被写体(の像)の位置および大きさとの関係を特定することができる。したがって、人物選択部74は、顔位置情報と撮像部21に関する情報とから撮像被写体幅W1を得ることができる。
【0094】
人物選択部74は、既知の物理量である焦点距離D、撮像被写体幅W1、および被写体幅W2に基づいて次式(1)を計算し、未知の物理量である被写体距離dを算出する。
【0095】
【0096】
なお、被写体幅W2は厳密には未知の物理量であるが、個々の人間の顔の大きさのばらつきは被写体距離dに比べて十分小さいとみなし、平均的な人間の顔の大きさを被写体幅W2として用いることができる。すなわち、被写体幅W2を既知の物理量とみなすことができる。
【0097】
例えば、人の顔の幅については平均値が約16センチメートルで、顔の長さについては平均値が約23.5センチメートルであるので、それらの値を被写体幅として用いることができる。これらの顔幅や顔の長さの平均値は、男女の差や年齢等で多少変化するが、例えばコンテンツの画像から検出された顔から、画像認識等により、検出された人物の性別や、おおよその年齢を推定することは可能であるので、性別や年代別の平均値を用いて被写体幅の補正を行ってもよい。
【0098】
また、被写体距離dの算出にあたっては、被写体である人の顔の縦方向の幅(長さ)と横方向の幅の何れか一方、または縦方向の幅と横方向の幅の両方を用いることができる。ここでは説明を簡単にするため、人の顔の縦方向の幅が被写体幅W2として用いられ、被写体幅W2のみが用いられて被写体距離dが算出される場合を例として説明する。
【0099】
図6においては、レンズ102の主点位置が
図5に示した原点Oに対応し、
図6における縦方向および横方向が、それぞれ
図5におけるZ軸方向およびX軸方向に対応する。特に、
図6中、右方向が
図5における手前方向、つまりX軸方向の正の方向に対応する。
【0100】
したがって、以上の計算により算出された被写体距離dは、
図5に示した3次元直交座標系における原点Oからみた、X軸方向におけるオーディオオブジェクトとして選択された人物までの距離を示している。
【0101】
さらに、空間上における、オーディオオブジェクトとして選択された人物の顔の位置についても同様に、顔の平均的な大きさを既知の物理量として用いることで、求めることができる。
【0102】
例えば
図7に示すように映像表示部73に表示されたコンテンツの画像上で、人物HM11がオーディオオブジェクトとして選択され、その人物HM11の顔の領域を囲む矩形枠画像FR11が重畳表示されているとする。なお、
図7において
図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0103】
図7では、オーディオオブジェクトとして選択された人物HM11の顔部分が、
図6に示した被写体103に対応している。
【0104】
図7において、コンテンツの画像の中心位置を位置A11’とし、人物HM11について表示されている矩形枠画像FR11の中心位置を位置A12’とする。例えば人物選択部74では、顔認識結果表示制御部72から供給された顔位置情報から位置A12’を得ることができる。
【0105】
いま、コンテンツの画像上における図中、縦方向および横方向を、それぞれZ軸方向(Z方向)およびY軸方向(Y方向)とする。また、コンテンツ画像上における位置A11’からみたY軸方向における位置A12’の位置を画像被写体水平位置Y1’とし、位置A11’からみたZ軸方向における位置A12’の位置を画像被写体垂直位置Z1’とする。
【0106】
これに対して、撮像面101上の中心位置を位置A11とし、撮像面101上における位置A12’に対応する位置を位置A12とする。さらに撮像面101上における位置A11からみたY軸方向における位置A12の位置を撮像面被写体水平位置Y1とし、位置A11からみたZ軸方向における位置A12の位置を撮像面被写体垂直位置Z1とする。
【0107】
ここで、撮像面101におけるY軸方向およびZ軸方向は、
図6にける手前方向および縦方向である。人物選択部74では、顔認識結果表示制御部72から供給された顔位置情報から位置A12’を得ることができるので、その位置A12’から画像被写体水平位置Y1’および画像被写体垂直位置Z1’を求めることができる。
【0108】
さらに、人物選択部74では、撮像面101の大きさ(サイズ)を示す情報が既知の情報として予め保持されているので、画像被写体水平位置Y1’および画像被写体垂直位置Z1’から、撮像面被写体水平位置Y1および撮像面被写体垂直位置Z1を求めることができる。つまり、撮像面被写体水平位置Y1および撮像面被写体垂直位置Z1が既知の物理量となる。
【0109】
したがって、人物選択部74は、これらの撮像面被写体水平位置Y1および撮像面被写体垂直位置Z1と、上述した撮像被写体幅W1および被写体幅W2とから、空間上の被写体103、つまり人物HM11のY軸方向およびZ軸方向の位置を求めることができる。
【0110】
ここで、被写体103、つまり人物の顔の空間上におけるY軸方向およびZ軸方向のそれぞれの位置を被写体水平位置yおよび被写体垂直位置zとする。このとき、被写体水平位置yおよび被写体垂直位置zは、撮像面被写体水平位置Y1および撮像面被写体垂直位置Z1と、撮像被写体幅W1および被写体幅W2とから、それぞれ以下の式(2)および式(3)を計算することで求めることができる。
【0111】
【0112】
【0113】
人物選択部74は、式(2)および式(3)を計算することで、実際の空間上におけるオーディオオブジェクトとして選択された人物の顔の被写体水平位置yおよび被写体垂直位置zを求める。
【0114】
さらに、人物選択部74は、このようにして得られた被写体水平位置yおよび被写体垂直位置zと、上述した被写体距離dとに基づいて以下の式(4)乃至(6)を計算し、実際の人物の顔の球面座標系における位置を算出する。
【0115】
【0116】
【0117】
【0118】
すなわち、式(4)の計算により、オーディオオブジェクトとされた人物の空間上における位置を示す半径position_radiusを得ることができる。
【0119】
また、式(5)の計算により、オーディオオブジェクトとされた人物の空間上における位置を示す方位角position_azimuthを得ることができる。さらに、式(6)の計算により、オーディオオブジェクトとされた人物の空間上における仰角position_elevationを得ることができる。
【0120】
ここで、式(5)におけるatan2(y,d)は、以下の式(7)により定義される。
【0121】
【0122】
但し、被写体距離dは、以下の式(8)に示すように、最小値dminにより制限されているものとする。すなわち、人物選択部74は、上述した式(1)により求められた被写体距離dの絶対値が最小値dmin未満であるときには、最小値dminを被写体距離dの値として用いるようにする。
【0123】
【0124】
人物選択部74は、以上の処理により求めた方位角position_azimuth、仰角position_elevation、および半径position_radiusにより表現される、オーディオオブジェクトとして選択された人物の空間上の位置を示す情報をオブジェクト位置情報とする。
【0125】
このように人物選択部74では、顔認識部71における顔認識の結果に基づいて、オブジェクト位置情報を求めることができる。しかし、一般的に撮像部21では光の変化が生じたり、手振れ等によって微小な振動が発生したりするので、オブジェクト位置情報に対してフィルタ等で平滑化が行われることが望ましい。
【0126】
人物選択部74は、求めたオブジェクト位置情報を音源分離部27およびオーディオ符号化部28に供給して、処理はステップS17へと進む。なお、以上において説明した処理において、複数のオーディオオブジェクトが選択された場合には、それらのオーディオオブジェクトごとにオブジェクト位置情報が生成される。
【0127】
ステップS17において、音源分離部27は、人物選択部74から供給されたオブジェクト位置情報に基づいて、収音部26から供給されたオーディオ信号に対する音源分離を行い、オーディオ信号をオーディオオブジェクト信号と背景音信号とに分離させる。
【0128】
例えば、ここではオーディオオブジェクトの空間上の位置、つまり音源位置は、オブジェクト位置情報により示される位置であり、既知となっている。
【0129】
そこで、例えば音源分離部27は固定ビームフォーミング技術を用いて、オーディオ信号を、オーディオオブジェクトの信号であるオーディオオブジェクト信号と、オーディオオブジェクト以外の音源の信号である背景音信号とに分離させる。
【0130】
具体的には、例えば収音部26が複数のマイクロホンから構成されるマイクアレイである場合、収音部26で得られたオーディオ信号に対して、指向性の制御を行うことでオーディオオブジェクト信号と背景音信号とへの分離を行うことができる。つまり、オーディオ信号から、オーディオオブジェクト信号と、背景音信号とを抽出することができる。
【0131】
換言すれば、固定ビームフォーミングでは、空間上におけるオーディオオブジェクトとして選択された映像オブジェクトの位置の音声の信号が、オーディオ信号からオーディオオブジェクト信号として抽出される。より詳細には、空間上におけるオーディオオブジェクトとして選択された映像オブジェクトのある方向から到来する音声の信号が、オーディオ信号からオーディオオブジェクト信号として抽出される。そして、オーディオ信号から、オーディオオブジェクトの音声以外の音声の信号が背景音信号として抽出される。
【0132】
なお、音源分離部27での音源分離の手法は、固定ビームフォーミングに限らず、例えば特開2010-233173号公報に記載された手法を用いるなど、どのような手法とされてもよい。
【0133】
また、ここでは、映像音響処理装置61がカムコーダなどの携帯型の機器であることを想定して説明を行ってきたが、本技術はこれに限定されるものではなく、テレビ会議システムやスタジオ収録など、ある程度規模の大きなシステムにも適用することができる。そのような場合には、収音部26として大規模なマイクアレイを用いれば、音源の分離性能を向上させることができる。
【0134】
また、例えば収音部26として指向性マイクロホンを含む複数のマイクロホンを用いるようにしてもよい。そのような場合、音源分離部27が指向性マイクロホンの向きをオブジェクト位置情報により示される方向に変更することで、指向性マイクロホンからオーディオオブジェクト信号を得ることができ、他のマイクロホンから背景音信号を得ることができる。すなわち、指向性マイクロホンによりオーディオオブジェクト信号を抽出することができ、他のマイクロホンにより背景音信号を抽出することができる。
【0135】
ステップS18において、オーディオ符号化部28は、人物選択部74から供給されたオブジェクト位置情報と、音源分離部27から供給されたオーディオオブジェクト信号および背景音信号とを符号化し、その結果得られたオーディオビットストリームを多重化部30に供給する。
【0136】
例えば、オーディオオブジェクト信号と背景音信号は、それぞれ独立して符号化された後、多重化されてオーディオビットストリームが生成される。
【0137】
オーディオオブジェクト信号や背景音信号の符号化方式として、例えばリニアPCM(Pulse Code Modulation)方式や、「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」(以下、参照文献2とも称する)に記載されているような非可逆な圧縮方式が用いられてもよい。
【0138】
また、オブジェクト位置情報は、一般的にはメタデータと呼ばれるデータであり、所定の時間間隔ごとに、例えば
図8に示すような形式で符号化される。
【0139】
図8は、オブジェクト位置情報を含むメタデータのシンタックス(符号化フォーマット)の一例を示す図である。
図8に示すメタデータにおいて、「num_objects」は、オーディオビットストリームに含まれているオーディオオブジェクトの数を示している。
【0140】
また、「tcimsbf」は「Two’s complement integer, most significant(sign) bit first」の略であり、符号ビットが先頭の2の補数を示している。「uimsbf」は「Unsigned integer, most significant bit first」の略であり、最上位ビットが先頭の符号なし整数を示している。
【0141】
さらに、「position_azimuth[i]」、「position_elevation[i]」、および「position_radius[i]」は、それぞれオーディオビットストリームに含まれているi番目のオーディオオブジェクトのオブジェクト位置情報を示している。
【0142】
具体的には、「position_azimuth[i]」は球面座標系におけるオーディオオブジェクトの位置の方位角position_azimuthを示しており、「position_elevation[i]」は球面座標系におけるオーディオオブジェクトの位置の仰角position_elevationを示している。また、「position_radius[i]」は球面座標系におけるオーディオオブジェクトの位置までの距離、すなわち半径position_radiusを示している。
【0143】
また、「gain_factor[i]」は、オーディオビットストリームに含まれているi番目のオーディオオブジェクトのゲイン情報を示している。
【0144】
このように、人物選択部74では、オーディオオブジェクトのメタデータとされるオブジェクト位置情報が生成され、オーディオ符号化部28では、このオブジェクト位置情報とゲイン情報がメタデータとして符号化される。
【0145】
図3のフローチャートの説明に戻り、ステップS19において、映像符号化部29は、撮像部21から供給された映像信号を符号化し、その結果得られた映像ビットストリームを多重化部30に供給する。
【0146】
なお、映像信号の符号化方式は、MPEG-HEVCやMPEG-AVC等のよく知られている映像符号化方式の他、様々な映像符号化方式を用いるようにすることができる。
【0147】
ステップS20において、多重化部30は、映像符号化部29から供給された映像ビットストリームと、オーディオ符号化部28から供給されたオーディオビットストリームとを、これらの同期を行うためのシステム情報などとともに多重化し、出力ビットストリームを生成する。多重化部30は、このようにして得られた出力ビットストリームを出力し、符号化処理は終了する。
【0148】
以上のようにして映像音響処理装置61は、映像信号に対して顔認識を行い、顔認識の結果を示す矩形枠画像をコンテンツの画像とともに表示させる。また、映像音響処理装置61は、機器使用者の選択操作に応じてオーディオオブジェクトを選択し、そのオーディオオブジェクトのオブジェクト位置情報を生成する。
【0149】
これにより、より簡単かつ高精度に所望のオブジェクト音の信号を分離させることができる。すなわち、機器使用者は、コンテンツの画像上のどの映像オブジェクト(被写体)をオーディオオブジェクトとするかを、映像表示部73の表示を見ながら簡単かつ直感的に選択することができる。さらに、選択されたオーディオオブジェクトのオブジェクト位置情報を求めることで、より高精度に所望のオーディオオブジェクトの信号を分離させることができるようになる。
【0150】
このようにして選択された人物の音声をオーディオオブジェクト信号として符号化すれば、再生時に音声の音量や、音源位置、音質等をオーディオオブジェクトごとに変更することができる。
【0151】
なお、以上においてした説明では、映像音響処理装置61がコンテンツの画像を撮影しながら、機器使用者がオーディオオブジェクトとする人物を選択する例について説明したが、撮影後にオーディオオブジェクトとする人物を選択するようにしてもよい。
【0152】
そのような場合、コンテンツの画像の撮影時には、例えば撮影により得られた映像信号と、収音により得られたオーディオ信号とが符号化されずに記録される。そして、撮影後、コンテンツの再生が指示されたときに、映像信号とオーディオ信号に基づいてコンテンツが再生され、
図3を参照して説明した符号化処理が行われる。
【0153】
次に、以上の処理により得られた出力ビットストリームを受信してコンテンツの再生、特にコンテンツの音声の再生を行う方法について説明する。
【0154】
出力ビットストリームを非多重化して得られるオーディオビットストリームに含まれている背景音信号に関しては、例えば従来の2チャネルや5.1チャネル等のいわゆるマルチチャネルステレオ方式での再生が行われる。
【0155】
一方、オーディオオブジェクト信号に関しては、参照文献2にオーディオオブジェクトのレンダリング方式が記述されており、このレンダリング方式に従ってレンダリングが行われて再生される。
【0156】
より具体的には、VBAP(Vector Base Amplitude Panning)と呼ばれる方式で再生環境のスピーカにオーディオオブジェクト信号がマッピングされて再生される。
【0157】
これは、オブジェクト位置情報により示される、オーディオオブジェクトの空間上の位置に最も近い3個のスピーカの出力を用いて、オーディオオブジェクトの空間上の位置に音を定位させる技術である。参照文献2では、スピーカの個数は3個であるが4個以上のスピーカ数で音を定位させることも勿論可能である。
【0158】
また、以上においては、背景音信号はマルチチャネルステレオ方式で符号化および復号される例について説明したが、参照文献2の規格に記述されているHOA(Higher Order Ambisonic)と呼ばれる視聴者近傍の空間を、球面調和関数を直交基底として表現するような方式を用いるようにしてもよい。
【0159】
さらに、第1の実施の形態においては、機器使用者、すなわち撮影者はオーディオオブジェクト抽出の対象となる被撮影者が常に画面内に収まるよう撮影を行う場合がほとんどである。しかし、オーディオオブジェクトとして選択された人物が画面の外に移動した場合の対策として、一般的に知られている話者識別技術などを用いてオブジェクト位置情報を生成するようにしてもよい。
【0160】
〈第2の実施の形態〉
〈オーディオオブジェクトの処理優先度について〉
上述した第1の実施の形態では、機器使用者がオーディオオブジェクトとして音声を収音したい人物を映像表示部73上に表示された候補から選択する操作を行っていた。
【0161】
しかし、映像音響処理装置61で得られた出力ビットストリームを復号してコンテンツを再生する機器によっては、計算処理能力の都合上、全てのオーディオオブジェクト信号の復号処理およびレンダリング処理を行うことができない場合がある。
【0162】
ところで、符号化装置側でオーディオオブジェクトごとに処理優先度「priority」をビットストリーム中のメタデータとして付加する手法が提案されており、この手法は参照文献2の規格でも採用されている。
【0163】
そこで、本技術を適用した第2の実施の形態では、機器使用者がオーディオオブジェクトとして音声を収音したい人物を映像表示部73上に表示された候補から選択するとともに、その選択した人物の処理優先度を設定することができるようにした。
【0164】
この場合、オブジェクト位置情報が格納されるメタデータは、例えば
図9に示すようになる。
図9は、メタデータのシンタックスの一例を示す図である。
【0165】
図9に示すメタデータでは、
図8に示したメタデータに含まれる各情報に加えて、さらにi番目のオーディオオブジェクト、つまりオーディオオブジェクト信号の処理優先度「object_priority[i]」が含まれている。
【0166】
この例では、処理優先度object_priority[i]は、3ビットのデータとされ、0から7までの値をとることができるようになされている。
【0167】
例えば処理優先度object_priority[i]の値が0である場合、オーディオオブジェクトの処理優先度は最も低く、処理優先度object_priority[i]の値が7である場合、オーディオオブジェクトの処理優先度は最も高い。
【0168】
いま、例えば処理優先度object_priority[i]の値が、それぞれ7、3、および0である3つのオーディオオブジェクトのオーディオオブジェクト信号を含む出力ビットストリームが再生側の機器に供給されたとする。また、再生側の機器では、3つのオーディオオブジェクト全てをレンダリングすることができないとする。
【0169】
このような場合、例えば再生側の機器は、処理優先度object_priority[i]の値が0であるオーディオオブジェクトについては、音質を犠牲にした簡易的なレンダリングをしたり、そのオーディオオブジェクトのレンダリングを行わなかったりするようにすることができる。これにより、処理能力の低い再生機器でもコンテンツのリアルタイム再生を実現することができるようになる。
【0170】
以上のようにメタデータにオブジェクト位置情報とともに処理優先度が格納される場合、映像音響処理装置61の人物選択部74は、タッチパネル81から供給される機器使用者の操作に応じた信号に基づいて、オーディオオブジェクトとする人物を選択するとともに、処理優先度の設定を行う。そして人物選択部74は、オブジェクト位置情報を音源分離部27およびオーディオ符号化部28に供給するとともに、得られた処理優先度をオーディオ符号化部28に供給する。
【0171】
これにより、オーディオ符号化部28では、オブジェクト位置情報だけでなく処理優先度も符号化され、それらのオブジェクト位置情報および処理優先度を含むメタデータが格納されたオーディオビットストリームが生成される。
【0172】
このように機器使用者により処理優先度が指定される場合、例えば
図3のステップS15では、
図10に示すように、映像表示部73にコンテンツの画像とともに矩形枠画像が表示される。なお、
図10において、
図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0173】
図10は、撮影対象領域に入っている3名の人物HM11乃至人物HM13に対して、機器使用者が処理優先度を設定するときの様子を示している。
【0174】
この例では、矩形枠画像FR11乃至矩形枠画像FR13がハイライト表示されており、それらの矩形枠画像に対応する人物HM11乃至人物HM13が、オーディオオブジェクトとして選択されている。
【0175】
また、人物HM11の矩形枠画像FR11近傍には、その人物HM11に対して設定された処理優先度を示す文字情報「P=7」が表示されており、人物HM11の処理優先度の値が最も高い7であることが示されている。
【0176】
同様に、人物HM13の矩形枠画像FR13近傍には、その人物HM13に対して設定された処理優先度を示す文字情報「P=0」が表示されており、人物HM13の処理優先度の値が最も低い0であることが示されている。
【0177】
さらに、
図10の例では、人物HM12の矩形枠画像FR12の近傍には、人物HM12の処理優先度を設定するための処理優先度設定画像CF11が表示されている。
【0178】
この処理優先度設定画像CF11は、例えば機器使用者が矩形枠画像FR12の部分を指で触れると表示される。
【0179】
さらに、処理優先度設定画像CF11内には、処理優先度の値「0」乃至「7」が記された枠が表示されており、機器使用者は所望の処理優先度の値が記された枠を指で触れることにより、人物HM12の処理優先度を設定することができる。
【0180】
例えば機器使用者が「3」が記された枠を押すと、人物選択部74は、機器使用者の操作に応じてタッチパネル81から供給された信号に基づいて、オーディオオブジェクトとしての人物HM12の処理優先度の値を「3」とする。
【0181】
なお、処理優先度の決定方法は上述した方法に限らず、どのような方法であってもよい。例えば機器使用者により選択された矩形枠画像に対応する人物の処理優先度を7とし、矩形枠画像が選択されなかった人物の処理優先度は0とされるような簡易的な方法とされてもよい。
【0182】
また、例えば顔認識で検出された人物全てがオーディオオブジェクトとされる場合等には、符号化処理のステップS14においてオーディオオブジェクトとして選択された人物以外の人物(映像オブジェクト)の処理優先度が、その人物の画像上における顔の大きさ、すなわち矩形枠画像の大きさに応じて6以下の値のなかから選択されるようにしてもよい。
【0183】
符号化処理では、ステップS16において人物選択部74は、機器使用者の操作に応じてオーディオオブジェクトのオブジェクト位置情報を生成するとともに、各オーディオオブジェクトの処理優先度を決定する。つまり、オーディオオブジェクトのメタデータとして、オブジェクト位置情報および処理優先度が生成される。
【0184】
そして、人物選択部74は、オブジェクト位置情報を音源分離部27に供給するとともに、オブジェクト位置情報および処理優先度をオーディオ符号化部28に供給する。
【0185】
さらに、ステップS18では、オーディオ符号化部28は、オブジェクト位置情報、処理優先度、オーディオオブジェクト信号、および背景音信号の符号化を行い、オーディオビットストリームを生成する。
【0186】
以上のようにオーディオオブジェクトの処理優先度を生成することで、再生側の機器において、自身の計算処理能力等に応じてオーディオオブジェクトに対する処理等を選択的に変更することができるようになる。これにより、例えばリアルタイムにコンテンツを再生するなど、適切なコンテンツ再生を実現することができる。
【0187】
〈第3の実施の形態〉
〈スプレッド情報について〉
また、オーディオオブジェクトをレンダリングする際には、オブジェクト位置情報により示される位置に点音源があるとみなしてVBAPによりレンダリングが行われる。
【0188】
しかし、実際にはオブジェクトは大きさを持ち、ある一定の面積を持つ面から音が発生しているとみなしたほうが自然である。そこで、spread(以下、スプレッド情報と称する)と呼ばれるデータをメタデータに加えて、レンダリング時にこのデータを用いることで、オブジェクトのある領域、つまり面から音が発生しているようにする手法が提案され、参照文献2の規格でも採用されている。
【0189】
本技術を適用した第3の実施の形態では、人の顔などの映像オブジェクトを認識する際に、映像オブジェクトの認識結果である矩形枠の大きさを用いて、映像音響処理装置61側においてスプレッド情報を自動的に設定することができるようにした。
【0190】
この場合、人物選択部74において、タッチパネル81から供給される機器使用者の操作に応じた信号に基づいて、オーディオオブジェクトとする人物を選択するとともに、スプレッド情報の設定を行う。そして人物選択部74は、オブジェクト位置情報を音源分離部27およびオーディオ符号化部28に供給するとともに、得られたスプレッド情報をオーディオ符号化部28に供給する。なお、第2の実施の形態と同様に、人物選択部74において、さらに処理優先度も生成されるようにしてもよい。
【0191】
例えばオブジェクト位置情報とともに、処理優先度とスプレッド情報がメタデータに含まれる場合、メタデータは
図11に示すようになる。
図11は、メタデータのシンタックスの一例を示す図である。
【0192】
図11に示すメタデータでは、
図9に示したメタデータに含まれる各情報に加えて、さらにi番目のオーディオオブジェクト、つまりオーディオオブジェクト信号のスプレッド情報「spread[i]」が含まれている。
【0193】
この例では、スプレッド情報spread[i]は、8ビットのデータとされ、空間上におけるオーディオオブジェクトの領域を表す角度情報、つまりオーディオオブジェクトの領域の広がり具合を示す角度情報とされている。
【0194】
出力ビットストリームを受信する再生側の機器である再生装置では、このようなスプレッド情報spread[i]が用いられてレンダリングが行われる。なお、スプレッド情報spread[i]の具体的な算出方法については後述する。
【0195】
ここで、参照文献2の規格に準拠してスプレッド情報を再生装置で利用する方法について、
図12を参照して説明する。
【0196】
例えば空間上の原点Oに対して、ベクトルp0により示される位置にオーディオオブジェクトが位置しているとする。ここで、ベクトルp0は原点Oを始点とするベクトルであり、ベクトルp0により示される位置は、オブジェクト位置情報により示される位置である。また、以下、ベクトルp0により示される位置を、位置p0とも称することとする。
【0197】
このような場合、人物選択部74では、ベクトルp0に対する角度情報がスプレッド情報spread[i]として生成される。
【0198】
再生装置では、原点Oから位置p0を正面に見て、スプレッド情報spread[i]で与えられた角度をもとに得られた円C11内の位置を終点とし、原点Oを始点とする18個のベクトルp1乃至ベクトルp18がスプレッドベクトルとして求められる。
【0199】
円C11は位置p0を中心とする円であり、この例では、ベクトルp1やベクトルp4は、円C11の円周上の位置を終点とするベクトルとなっている。なお、
図12では、円C11内の点は各スプレッドベクトルの終点位置を表している。
【0200】
例えば円C11の円周上の位置を終点とするベクトルp1と、ベクトルp0とのなす角度が、スプレッド情報spread[i]により示される角度となる。
【0201】
なお、オブジェクト位置情報とスプレッド情報spread[i]に基づいて、スプレッドベクトルであるベクトルp1乃至ベクトルp18を算出する方法については、例えば参照文献2に詳細に記載されているので、その説明は省略する。
【0202】
スプレッドベクトルが得られると、再生装置では、スプレッドベクトルとして求めたこれらのベクトルp1乃至ベクトルp18のそれぞれについて、VBAPによりオーディオオブジェクト信号のゲインがスピーカごとに求められて、それらのゲインが正規化される。そして、正規化されたゲインが乗算されたオーディオオブジェクト信号がスピーカにマッピングされて、コンテンツの音声が再生される。
【0203】
このようにスプレッド情報を用いてレンダリングを行うことで、空間方向に広がりのあるオーディオオブジェクトを表現することができるようになる。
【0204】
映像音響処理装置61の人物選択部74においてスプレッド情報が算出される場合、人物選択部74は、例えば
図13に示すように、顔認識による映像オブジェクトの認識結果、より詳細には顔認識の結果から得られた矩形枠画像を用いてスプレッド情報を算出する。
【0205】
図13に示す例では、映像表示部73上に表示されたコンテンツの画像からは、2名の人物HM31および人物HM32が検出されている。また、コンテンツの画像には、人物HM31の顔部分に矩形枠画像FR31が重畳表示されるとともに、人物HM32の顔部分に矩形枠画像FR32が重畳表示されている。
【0206】
特に、
図13では、コンテンツの画像が空間上に投影された状態を表しており、矩形枠画像FR31の中心位置、および矩形枠画像FR32の中心位置は、それぞれ対応するオーディオオブジェクトのオブジェクト位置情報により示される位置となっている。
【0207】
人物選択部74は、
図3のステップS16において、各オーディオオブジェクトについて、オブジェクト位置情報および処理優先度を生成すると、さらに各オーディオオブジェクトのスプレッド情報も生成する。すなわち、オーディオオブジェクトのメタデータとして、オブジェクト位置情報、処理優先度、およびスプレッド情報が生成される。
【0208】
具体的には、例えばオーディオオブジェクトとしての人物HM31について説明すると、人物選択部74は空間上の原点Oを始点とし、オブジェクト位置情報により示される位置、つまり矩形枠画像FR31の中心位置を終点とするベクトルVB11を求める。そして、人物選択部74は、このようにして求めたベクトルVB11を、
図12を参照して説明したベクトルp0とする。このようなベクトルVB11は、人物HM31について生成されたオブジェクト位置情報から求めることができる。
【0209】
また、人物選択部74は、空間上の原点Oを始点とし、矩形枠画像FR31の図中、右側の辺上にある、矩形枠画像FR31の中心位置と図中、縦方向(Z軸方向)の高さが同じである位置を終点とするベクトルVB12を求め、このベクトルVB12を
図12を参照して説明したベクトルp1とする。
【0210】
ここで、空間上におけるベクトルVB12の終点位置は、例えば人物HM31について生成されたオブジェクト位置情報、矩形枠画像FR31、撮像面101とコンテンツの画像の関係、焦点距離D、および被写体距離dなどを用いて求めることができる。
【0211】
さらに、人物選択部74は、このようにして求めたベクトルp0としてのベクトルVB11と、ベクトルp1としてのベクトルVB12とのなす角AG11を、人物HM31についてのスプレッド情報spread[i]として算出する。より詳細には、人物選択部74は次式(9)を計算することでスプレッド情報spread[i]を算出する。
【0212】
【0213】
なお、式(9)において、p0およびp1は、それぞれベクトルp0およびベクトルp1を示している。
【0214】
同様に、人物選択部74は、空間上の原点Oを始点とし、人物HM32についてのオブジェクト位置情報により示される位置、つまり矩形枠画像FR32の中心位置を終点とするベクトルVB13を求め、ベクトルp0とする。
【0215】
また、人物選択部74は、空間上の原点Oを始点とし、矩形枠画像FR32の図中、右側の辺上にある、矩形枠画像FR32の中心位置と図中、縦方向の高さが同じである位置を終点とするベクトルVB14を求め、ベクトルp1とする。
【0216】
そして、人物選択部74は、式(9)を計算することでベクトルVB13とベクトルVB14とのなす角度AG12を求めて、人物HM32についてのスプレッド情報spread[i]とする。
【0217】
なお、ここではベクトルp0およびベクトルp1のみを用いてスプレッド情報を算出する方法について説明した。しかし、映像音響処理装置61の計算処理能力等に余裕があるときには、矩形枠画像の図中、上端、下端、左端、および右端を終点位置とするスプレッドベクトルのそれぞれと、ベクトルp0とのなす角を求め、それらのなす角の平均値をスプレッド情報spread[i]として用いるようにしてもよい。
【0218】
以上のようにしてスプレッド情報が算出されると、人物選択部74は、オブジェクト位置情報を音源分離部27に供給するとともに、オブジェクト位置情報、処理優先度、およびスプレッド情報をオーディオ符号化部28に供給する。
【0219】
さらに、ステップS18では、オーディオ符号化部28は、オブジェクト位置情報、処理優先度、スプレッド情報、オーディオオブジェクト信号、および背景音信号の符号化を行い、オーディオビットストリームを生成する。
【0220】
以上のようにオーディオオブジェクトのスプレッド情報を生成することで、機器使用者がスプレッド情報に関する指定を行うことなく、再生側の機器において、オーディオオブジェクトの空間的な広がりを表現したコンテンツ再生を行うことができるようになる。
【0221】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
【0222】
図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0223】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0224】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0225】
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0226】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0227】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0228】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0229】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0230】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0231】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0232】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0233】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0234】
さらに、本技術は、以下の構成とすることも可能である。
【0235】
(1)
映像信号に基づく映像オブジェクトを表示させる表示制御部と、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択部と、
前記オブジェクト選択部により選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出部と
を備える映像音響処理装置。
(2)
前記抽出部は、前記オーディオ信号から前記オーディオオブジェクト信号を抽出する
(1)に記載の映像音響処理装置。
(3)
前記抽出部は、前記オーディオ信号から、前記選択された前記映像オブジェクトのオーディオオブジェクト信号以外の信号を背景音信号として抽出する
(2)に記載の映像音響処理装置。
(4)
前記オブジェクト選択部は、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成し、
前記抽出部は、前記オブジェクト位置情報に基づいて、前記オーディオオブジェクト信号を抽出する
(1)乃至(3)の何れか一項に記載の映像音響処理装置。
(5)
前記抽出部は、前記オブジェクト位置情報を用いた音源分離により前記オーディオオブジェクト信号を抽出する
(4)に記載の映像音響処理装置。
(6)
前記抽出部は、前記音源分離として固定ビームフォーミングを行う
(5)に記載の映像音響処理装置。
(7)
前記映像信号に基づいて、前記映像オブジェクトを認識する映像オブジェクト認識部をさらに備え、
前記表示制御部は、前記映像オブジェクトとともに、前記映像オブジェクトの認識結果に基づく画像を表示させる
(1)乃至(6)の何れか一項に記載の映像音響処理装置。
(8)
前記映像オブジェクト認識部は、顔認識により前記映像オブジェクトを認識する
(7)に記載の映像音響処理装置。
(9)
前記表示制御部は、前記画像として、前記映像オブジェクトの領域に枠を表示させる
(7)または(8)に記載の映像音響処理装置。
(10)
前記オブジェクト選択部は、ユーザによる選択操作に応じて、前記映像オブジェクトを選択する
(1)乃至(9)の何れか一項に記載の映像音響処理装置。
(11)
前記オブジェクト選択部は、前記選択された前記映像オブジェクトのメタデータを生成する
(1)乃至(10)の何れか一項に記載の映像音響処理装置。
(12)
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの空間上の位置を示すオブジェクト位置情報を生成する
(11)に記載の映像音響処理装置。
(13)
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの処理優先度を生成する
(11)または(12)に記載の映像音響処理装置。
(14)
前記オブジェクト選択部は、前記メタデータとして、前記選択された前記映像オブジェクトの領域の広がり具合を示すスプレッド情報を生成する
(11)乃至(13)の何れか一項に記載の映像音響処理装置。
(15)
前記オーディオオブジェクト信号および前記メタデータを符号化するオーディオ符号化部をさらに備える
(11)乃至(14)の何れか一項に記載の映像音響処理装置。
(16)
前記映像信号を符号化する映像符号化部と、
前記映像信号の符号化により得られた映像ビットストリームと、前記オーディオオブジェクト信号および前記メタデータの符号化により得られたオーディオビットストリームとを多重化する多重化部と
をさらに備える(15)に記載の映像音響処理装置。
(17)
撮影を行って前記映像信号を得る撮像部をさらに備える
(1)乃至(16)の何れか一項に記載の映像音響処理装置。
(18)
収音を行って前記オーディオ信号を得る収音部をさらに備える
(1)乃至(17)の何れか一項に記載の映像音響処理装置。
(19)
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む映像音響処理方法。
(20)
映像信号に基づく映像オブジェクトを表示させる表示制御ステップと、
1または複数の前記映像オブジェクトのなかから、所定の前記映像オブジェクトを選択するオブジェクト選択ステップと、
前記オブジェクト選択ステップにより選択された前記映像オブジェクトのオーディオ信号をオーディオオブジェクト信号として抽出する抽出ステップと
を含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0236】
11 映像音響処理装置, 22 映像オブジェクト認識部, 23 映像オブジェクト認識結果表示制御部, 24 映像表示部, 25 オブジェクト選択部, 26 収音部, 27 音源分離部, 28 オーディオ符号化部, 71 顔認識部, 72 顔認識結果表示制御部, 73 映像表示部, 74 人物選択部, 81 タッチパネル