(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-22
(45)【発行日】2024-07-30
(54)【発明の名称】情報処理装置、提案装置、情報処理方法および提案方法
(51)【国際特許分類】
G06T 13/20 20110101AFI20240723BHJP
G06T 15/20 20110101ALI20240723BHJP
【FI】
G06T13/20 500
G06T15/20 500
(21)【出願番号】P 2021554296
(86)(22)【出願日】2020-10-12
(86)【国際出願番号】 JP2020038522
(87)【国際公開番号】W WO2021085105
(87)【国際公開日】2021-05-06
【審査請求日】2023-08-28
(31)【優先権主張番号】P 2019195579
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】島川 真人
【審査官】松永 隆志
(56)【参考文献】
【文献】特開2010-267069(JP,A)
【文献】特開2010-44484(JP,A)
【文献】特開2005-56101(JP,A)
【文献】特開2008-5167(JP,A)
【文献】特開2000-285242(JP,A)
【文献】特開平11-266428(JP,A)
【文献】特開2004-159331(JP,A)
【文献】Ferda Ofli ほか3名,Learn2Dance: Learning Statistical Music-to-Dance Mappings for Choreography Synthesis,IEEE Transactions on Multimedia,2012年06月,Vol.14 No.3,p.747-759,[令和6年6月12日検索],インターネット <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6112231>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-19/20
(57)【特許請求の範囲】
【請求項1】
与えられた音の特徴量と、オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて前記分割シーンの接続順序を決定する決定部と、
前記決定部によって決定された前記接続順序で前記分割シーンを接続した自由視点コンテンツを生成する生成部と
を備える、情報処理装置。
【請求項2】
前記自由視点映像は、
前記オブジェクトが演者であり、当該演者が収録曲にあわせて踊るダンス映像である、
請求項1に記載の情報処理装置。
【請求項3】
前記音は、
楽曲である、
請求項2に記載の情報処理装置。
【請求項4】
前記接続フレームそれぞれにおける前記オブジェクトの3次元モデルに基づいて、前記接続フレーム間の類似度を判定する判定部
を備える、
請求項2に記載の情報処理装置。
【請求項5】
前記判定部は、
前記演者の関節位置を示すボーンモデルに基づいて前記類似度を判定する、
請求項4に記載の情報処理装置。
【請求項6】
前記判定部は、
前記演者の表面形状に対応する点群データに基づいて前記類似度を判定する、
請求項4に記載の情報処理装置。
【請求項7】
前記決定部は、
前記音の開始から終了までを前記分割シーンで接続した複数の接続経路を設定し、前記接続経路ごとに算出される前記分割シーン間の前記類似度に応じた接続スコアの累積値に基づいて、前記接続順序を決定する、
請求項4に記載の情報処理装置。
【請求項8】
前記判定部は、
前記決定部によって前記接続順序が決定された場合に、前記接続フレームに加え、前記接続フレームの周辺フレーム間の前記類似度を前記分割シーン間で判定し、
前記生成部は、
前記周辺フレームのうち、前記類似度が最も高いフレーム同士を繋げて前記分割シーンを接続する、
請求項4に記載の情報処理装置。
【請求項9】
前記生成部は、
前記音の休符区間において、前記分割シーンを接続する、
請求項1に記載の情報処理装置。
【請求項10】
前記楽曲の特徴量と、前記分割シーンの収録曲の特徴量とに基づいて、前記楽曲と前記収録曲との適合度を示す楽曲スコアを算出する算出部
を備え、
前記決定部は、
前記楽曲スコアに基づいて、前記接続順序を決定する、
請求項3に記載の情報処理装置。
【請求項11】
前記算出部は、
前記楽曲を分割したパートそれぞれの曲調と、前記分割シーンそれぞれの曲調とに基づいて、前記楽曲スコアを算出する、
請求項10に記載の情報処理装置。
【請求項12】
前記算出部は、
前記楽曲を分割したパートそれぞれの時間長と、前記分割シーンそれぞれの時間長とに基づいて、前記楽曲スコアを算出する、
請求項10に記載の情報処理装置。
【請求項13】
前記決定部は、
前記楽曲の休符区間に対して、当該休符区間の時間長に応じて、時間長を調整した前記分割シーンを割り当てる、
請求項12に記載の情報処理装置。
【請求項14】
前記決定部は、
前記分割シーンのフレームを間引くことで、前記分割シーンの前記時間長を調整する、
請求項13に記載の情報処理装置。
【請求項15】
オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンをそれぞれの接続フレーム間の類似度に基づいて、前記自由視点映像を追加撮影時のポーズに関する提案データを生成する提案データ生成部
を備える、提案装置。
【請求項16】
前記提案データ生成部は、
蓄積した前記分割シーンにおける前記オブジェクトである演者の終了ポーズを開始ポーズとし、他の前記分割シーンにおける前記演者の開始ポーズを終了ポーズとする前記提案データを生成する、
請求項15に記載の提案装置。
【請求項17】
コンピュータが、
与えられた音の特徴量と、オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて前記分割シーンの接続順序を決定し、
決定した前記接続順序で前記分割シーンを接続した自由視点コンテンツを生成する、
情報処理方法。
【請求項18】
コンピュータが、
オブジェクトを撮影した自由視点映像を分割した分割シーンをそれぞれの接続フレーム間の類似度に基づいて、前記自由視点映像を追加撮影時のポーズに関する提案データを生成する、
提案方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、提案装置、情報処理方法および提案方法に関する。
【背景技術】
【0002】
例えば、予め収集したダンスの動きに関する情報の断片と楽曲の対応関係をモデル化し、与えられた楽曲にあわせてダンス映像を生成する技術がある。かかる技術によれば、楽曲にあわせたCG映像を自動的に生成することが可能である(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】F.Ofli,E.Erzin,Y.Yemez and A.M.Tekalp:IEEE Transactions on Multimedia Vol.14,No.3(2012)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、CG映像を生成することを前提としているため、実写の自由視点映像を繋ぎ合わせて新たな自由視点コンテンツを生成することについては考慮されていなかった。また、実写の自由視点映像から新たな自由視点コンテンツを生成する場合には、自由視点映像に写るオブジェクトの動きを如何に滑らかに接続するかが重要な課題となる。
【0005】
そこで、本願は、上記に鑑みてなされたものであって、オブジェクトの動きを滑らかに繋いだ自由視点コンテンツを生成することができる情報処理装置、提案装置、情報処理方法および提案方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、実施形態の一態様に係る情報処理装置は、決定部と、生成部とを備える。前記決定部は、与えられた音の特徴量と、オブジェクトを撮像した多視点映像に基づく実写の自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて前記分割シーンの接続順序を決定する。前記生成部は、前記決定部によって決定された前記接続順序で前記分割シーンを接続した自由視点コンテンツを生成する。
【0007】
実施形態の一態様によれば、実写によるオブジェクトの動きを滑らかに繋いだ自由視点コンテンツを生成することができる。
【図面の簡単な説明】
【0008】
【
図1】実施形態に係る提供システムの概要を示す図である。
【
図2】実施形態に係る提供システムの構成例を示すブロック図である。
【
図3】実施形態に係る分割シーンの生成例を示す図である。
【
図4】分割シーンのバリエーションの一例を示す図である。
【
図5】実施形態に係るシーン情報DBの一例を示す図である。
【
図7】接続スコアと楽曲スコアの対応関係を示す図である。
【
図8】休符区間と接続用シーンとの対応関係を示す模式図である。
【
図10】実施形態に係るシーン情報生成装置が実行する処理手順を示すフローチャートである。
【
図11】実施形態に係る情報処理装置が実行する処理手順を示すフローチャートである。
【
図12】
図11に示したステップS204の処理手順を示すフローチャート(その1)である。
【
図13】
図11に示したステップS204の処理手順を示すフローチャート(その2)である。
【
図14】
図11に示したステップS207の処理手順を示すフローチャートである。
【
図15】第2の実施形態に係る提供システムの構成例を示す図である。
【
図16】実施形態に係る提案装置の構成例を示すブロック図である。
【
図17】実施形態に係る提案装置が実行する処理手順を示すフローチャートである。
【
図18】情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0010】
[第1の実施形態]
まず、
図1を用いて、実施形態に係る提供システムの概要について説明する。
図1は、実施形態に係る提供システムの一例を示す図である。なお、以下では、オブジェクトが演者であり、音が楽曲である場合を例に挙げて説明する。
【0011】
実施形態に係る提供システムSは、例えば、演者によるダンス映像の自由視点コンテンツを提供するシステムである。具体的には、本実施形態に係る提供システムSでは、演者を撮影した多視点映像に基づく自由視点映像から、例えば、ユーザによって指定された楽曲にあわせたダンス映像の自由視点コンテンツを生成する。なお、演者は、例えば、ダンサー、アイドル、芸能人などであるが、一般人(ユーザ)を含むようにしてもよい。
【0012】
ここで、自由視点映像とは、現実世界の演者の姿を3Dモデル化した映像であり、演者が収録曲にあわせて踊るダンス映像である。つまり、実施形態に係る提供システムSは、演者が収録曲にあわせて踊るダンス映像から与えられた楽曲にあった実写のボリュメトリック映像を生成する。
【0013】
具体的には、提供システムSでは、上記の自由視点映像を分割し、分割した分割シーンの接続順序を与えられた楽曲に対して組み換えを行うことで、自由視点映像から成る自由視点コンテンツを生成する。
【0014】
これにより、実施形態に係る提供システムSでは、例えば、CGベースでは再現できない演者の実際の動きを忠実に反映させた自由視点コンテンツを生成することが可能となる。
【0015】
図1に示すように、実施形態に係る提供システムSは、シーン情報生成装置1と、情報処理装置10と、ユーザ端末50とを備える。シーン情報生成装置1は、例えば、スタジオなどに設置され、演者の多視点映像に基づく自由視点映像を生成する。また、シーン情報生成装置1は、生成した自由視点映像を分割し、分割シーンを生成する。
【0016】
本実施形態において、シーン情報生成装置1は、演者が収録曲にあわせて踊るダンス映像の自由視点映像および自由視点映像に基づく分割シーンを生成する。そして、シーン情報生成装置1は、分割シーンに関するシーン情報を生成し、情報処理装置10へ送信する(ステップS1)。
【0017】
情報処理装置10は、シーン情報生成装置1から送信されたシーン情報を格納するシーン情報DBを有し、上記の自由視点コンテンツを生成する。具体的には、例えば、情報処理装置10は、ユーザ端末50から選曲情報を取得すると(ステップS2)、シーン情報DBを参照し、選曲情報によって指定された楽曲にあわせて自由視点コンテンツを生成する(ステップS3)。
【0018】
そして、情報処理装置10は、生成した自由視点コンテンツをユーザ端末50へ提供する(ステップS4)。
図1に示す例において、ユーザ端末50は、AR(Augment Reality;拡張現実)や、VR(Virtual Reality;仮想現実)に対応したヘッドマウントディスプレイである。ユーザ端末50は、情報処理装置10から提供された自由視点コンテンツをユーザの視点情報にあわせて再生する。
【0019】
以下、実施形態に係る提供システムSについてさらに詳細に説明する。
【0020】
次に、
図2を用いて、実施形態に係る提供システムSの構成例について説明する。
図2は、実施形態に係る提供システムSの構成例を示すブロック図である。まず、シーン情報生成装置1について説明する。
【0021】
図2に示すように、シーン情報生成装置1は、通信部11と、記憶部12と、制御部13とを備える。通信部11は、情報処理装置10と、所定のネットワークを介して通信を行う通信モジュールである。
【0022】
記憶部12は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、制御部13の各種処理に必要となる情報を記憶する。
【0023】
制御部13は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、シーン情報生成装置1内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部13は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0024】
図2に示すように、制御部13は、3Dモデル生成部13aと、音楽解析部13bと、シーン情報生成部13cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部13の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。なお、制御部13は、例えばNIC(Network Interface Card)等を用いて所定のネットワークと有線又は無線で接続し、ネットワークを介して、種々の情報を外部サーバ等から受信してもよい。
【0025】
3Dモデル生成部13aは、図示しない複数のカメラから入力されるカメラ映像、すなわち、演者の多視点映像に基づいて、多視点映像のフレーム毎に演者の3次元モデルを生成する。つまり、3Dモデル生成部13aは、多視点映像に基づいて、実写の自由視点映像を生成する。
【0026】
例えば、3Dモデル生成部13aは、全てのカメラ映像から一度に3次元モデルを生成する多眼視による手法や、2台のカメラペアから順次3次元モデルを統合するステレオ視による手法等を用いることで、演者のダンス映像から3次元モデルを生成することができる。
【0027】
音楽解析部13bは、演者のダンス映像の収録曲を解析する。音楽解析部13bは、収録曲の休符区間を検出し、休符区間に基づいて、収録曲のパート分けを行うとともに、各パートの特徴量を解析する。
【0028】
ここで、特徴量とは、テンポ、曲調等を含む概念である。また、曲調の一例としては、楽しい曲、暗い曲、元気な曲、静かな曲等が挙げられる。例えば、音楽解析部13bは、機械学習によって生成されたモデルに収録曲の楽曲データを入力することで、収録曲の特徴量を得ることができる。
【0029】
シーン情報生成部13cは、3Dモデル生成部13aによって生成された3次元モデル、すなわち、自由視点映像を音楽解析部13bによって解析された収録曲に基づいて分割した分割データを生成する。
【0030】
上述のように、自由視点コンテンツは、各分割シーンの組み換えを行ったコンテンツである。そのため、自由視点コンテンツにおいては、分割シーン間で演者の動きを滑らかに接続することが好ましい。換言すれば、ユーザに対して分割シーン間の区切りを感じさせにくくすることが好ましい。
【0031】
このため、シーン情報生成部13cは、自由視点映像において、演者の動きが停止する区間で自由視点映像を分割する。また、一般的に、ダンスにおいては、休符区間において、演者がポージングを行うなどの演者の動きが停止する場面が多く発生する。
【0032】
そのため、シーン情報生成部13cは、収録曲の休符区間に着目し、自由視点映像を分割する。ここで、
図3を用いて、分割シーンの一例について説明する。
図3は、実施形態に係る分割シーンの生成例を示す図である。
図3に示すように、まず、シーン情報生成部13cは、収録曲の休符区間Tにおける自由視点映像の各フレームを抽出する。
【0033】
図3に示す例では、自由視点映像のうち、休符区間TにフレームF1~F4が含まれる場合を示す。そして、シーン情報生成部13cは、各フレームF1~F4について前後のフレームとの類似度を判定する。
【0034】
すなわち、フレームF2においては、1つ前のフレームF1と、1つ後のフレームF3との類似度を判定することになる。なお、類似度の判定は、各フレームの3次元モデルを比較することで行われる。
【0035】
シーン情報生成部13cは、類似度が最も高いフレーム間で自由視点映像を分割し、各分割シーンを生成する。言い換えれば、シーン情報生成部13cは、演者が静止している区間で自由視点映像を分割する。
【0036】
図3に示す例では、フレームF2と、フレームF3との類似度が最も高かった場合を示し、フレームF2と、フレームF3との間で、自由視点映像を分割した場合を示す。シーン情報生成部13cは、各分割シーンを生成すると、分割シーンごとに収録曲の特徴量などを付与したシーン情報を生成する。シーン情報生成部13cによって生成されたシーン情報は、
図2に示した通信部11を介して、情報処理装置10へ送信される。
【0037】
この際、シーン情報生成部13cは、同一の分割シーンから時間長が異なる分割シーンを生成することにしてもよい。これにより、1つの分割シーンについて、時間的なバリエーションを拡充させることができる。
【0038】
ここで、
図4を用いて、分割シーンの時間的なバリエーションについて説明する。
図4は、分割シーンのバリエーションの一例を示す図である。なお、ここでは、240fps(frames per second)の分割シーンから60fpsの分割シーンを生成する場合について説明する。
【0039】
シーン情報生成部13cは、240fpsの分割シーンのフレームを間引くことで、時間長が異なる複数の分割シーンを生成する。具体的には、シーン情報生成部13cは、元の分割シーンに対して、時間長が1/2倍、3/4倍、1倍、1.5倍・・・となるように分割シーンの間引き処理を行う。
【0040】
例えば、時間長が1/2倍の分割シーンを生成する場合、元の分割シーンから8フレームごとにフレームを抽出し、抽出したフレームを繋ぎ合わせることで新たな分割シーンを生成する。同様に、時間長が3/4倍の分割シーンを生成する場合、元の分割シーンから6フレームごとにフレームを抽出し、抽出したフレームを繋ぎ合わせる。
【0041】
このように、シーン情報生成部13cは、時間長の倍率に応じて、抽出するフレームの間隔を変えることで、時間長の異なる分割シーンを生成する。これにより、1つの分割シーンについて時間的なバリエーションを増やすことができる。したがって、少ない自由視点映像で自由視点コンテンツのバリエーションを増やすことができる。
【0042】
また、シーン情報生成部13cは、接続用の分割シーン(以下、接続用シーンと記載)を生成し、上記の処理を接続用シーンに対して行うことにしてもよい。ここで、接続用シーンとは、例えば、与えられた楽曲の休符区間に対して優先的に割り当てられる分割シーンである。すなわち、接続用シーンは、自由視点コンテンツにおいて、分割シーン間における演者の動きを滑らかに接続するための分割シーンとも言える。
【0043】
上述のように、シーン情報生成部13cは、収録曲の休符区間Tにおいて、自由視点映像を分割し、後述するように、情報処理装置10は、与えられた楽曲の休符区間において分割シーンを接続する。
【0044】
そのため、接続用シーンにおける演者の開始ポーズと終了ポーズとのバリエーションおよび時間長のバリエーションを充実させておくことで、各分割シーンの接続を容易にすることができる。
【0045】
図2に戻り、情報処理装置10について説明する。
図2に示すように、情報処理装置10は、通信部21と、記憶部22と、制御部23とを備える。通信部21は、シーン情報生成装置1や、ユーザ端末50と通信を行う通信モジュールである。
【0046】
記憶部22は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
図2に示す例では、記憶部22は、シーン情報DB22aを備える。
【0047】
ここで、
図5を用いて、シーン情報DB22aについて説明する。
図5は、実施形態に係るシーン情報DB22aの一例を示す図である。
図5に示すように、シーン情報DB22aは、「演者ID」、「シーンID」、「音楽特徴量」、「時間長」および「3次元モデル」などを互いに対応付けて記憶するデータベースである。
【0048】
「演者ID」は、自由視点映像の演者を識別する識別子を示す。「シーンID」は、上記の各分割シーンを識別する識別子である。「音楽特徴量」は、対応する分割シーンにおける収録曲の特徴量を示す。
【0049】
「時間長」は、対応する分割シーンの時間長であり、「3次元モデル」は、対応する分割シーンの自由視点映像本体である。なお、3次元モデルには、自由視点映像に加え、演者の関節位置を示すボーンモデルや演者の表面形状を示す点群データが含まれる。また、
図5に示すシーン情報DB22aは、一例であり、その他の情報をあわせて記憶するようにしてもよい。具体的には、シーン情報DB22aに、各分割シーンとの接続のしやすさ(後述する接続コストに対応)などを併せて記憶しておくことにしてもよい。
【0050】
図2の説明に戻り、制御部23について説明する。制御部23は、与えられた楽曲の特徴量に応じて、上記の分割シーンを並び替えて自由視点コンテンツを生成する。
【0051】
制御部23は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、シーン情報生成装置1内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部3は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0052】
図2に示すように、制御部23は、取得部23aと、音楽解析部23bと、判定部23cと、算出部23dと、決定部23eと、生成部23fとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部23の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。なお、制御部23は、例えばNIC(Network Interface Card)等を用いて所定のネットワークと有線又は無線で接続し、ネットワークを介して、種々の情報を外部サーバ等から受信してもよい。
【0053】
取得部23aは、例えば、ユーザ端末50から選曲情報を取得する。選曲情報には、楽曲に関する情報に加え、演者IDなどに関する情報が含まれる。なお、選曲情報は、ダンスのイメージに関する情報などを含むようにしてもよい。
【0054】
すなわち、ユーザは、踊って欲しい演者や、楽曲を指定することができ、さらに、ダンスのイメージ(雰囲気)を指定することもできる。また、選曲情報は、楽曲を録音した音楽データであってもよいし、楽曲を指定する情報(歌手や曲名など)であってもよい。
【0055】
取得部23aは、楽曲を指定する情報を取得する場合、かかる情報に基づいて外部サーバから楽曲データを取得することにしてもよい。また、選曲情報は、楽曲の楽譜に関する情報を含むようにしてもよい。さらに、取得部23aが取得する選曲情報に、自由視点コンテンツに追加する分割シーンを指定する情報を含むようにしてもよい。また、取得部23aは、ユーザが自作した楽曲データを選曲情報として取得するにしてもよい。
【0056】
音楽解析部23bは、与えられた楽曲(例えば、選曲情報が示す楽曲)を解析する。例えば、音楽解析部23bは、音楽解析部13bが収録曲に対して行った処理を選曲情報によって指定された楽曲に対して行う。
【0057】
具体的には、音楽解析部23bは、楽曲から休符区間を検出し、休符区間に基づいて、楽曲のパート分けを行い、パートごとに曲調を付与する。
【0058】
判定部23cは、後述する決定部23eが分割シーンの接続順序の決定処理を行う際に、分割シーンそれぞれの接続フレームの類似度を判定する。具体的には、判定部23cは、接続フレームにおける演者の3次元モデルを比較することで、接続フレーム間の類似度を算出する。なお、接続フレームとは、例えば、各分割シーンにおける開始フレームと終了フレームである。
【0059】
例えば、判定部23cは、接続フレームにおける演者の関節位置を示すボーンモデルや、接続フレームにおける演者の表面形状を示す点群データに基づいて接続フレーム間の類似度を判定する。ここでの類似度は、演者の動きを滑らかに接続するための指標となる。
【0060】
より詳細には、判定部23cは、ボーンモデルにおいて対応する関節それぞれの距離や、点群データにおいて対応する点群データの頂点座標のハウスルドルフ距離を算出することで、接続フレーム間の類似度を判定することができる。
【0061】
そして、判定部23cは、判定した類似度に応じて接続フレーム間の接続スコアを決定する。なお、以下では、接続スコアの上限を10点、下限を0点として、接続フレーム間の類似度が高いほど、すなわち、接続フレーム間の演者のポーズが似ているほど、接続スコアが高いものとする。
【0062】
また、判定部23cは、決定部23eによって分割シーンの接続順序が決定されると、接続フレームの周辺フレームの類似度を判定する。なお、この点については、
図9を用いて後述する。
【0063】
算出部23dは、与えられた楽曲の特徴量と、分割シーンの収録曲の特徴量とに基づいて、楽曲を分割した各パートと各分割シーンとの適合度を示す楽曲スコアを算出する。例えば、算出部23dは、楽曲を分割したパートそれぞれの曲調と、分割シーンそれぞれの曲調との双方の曲調の類似性に基づいて、楽曲スコアを算出する。
【0064】
楽曲スコアは、双方の曲調が類似しているほど高い値となり、双方の曲調が乖離しているほど低い値をとる。例えば、算出部23dは、双方の曲調の関係性と、楽曲スコアとの関係性とを示す関数に対して、双方の曲調を入力することで、曲調に応じた楽曲スコアを算出する。
【0065】
この際、算出部23dは、選曲情報にダンスのイメージ(雰囲気)を指定する情報が含まれる場合、かかるイメージに基づいて、楽曲スコアを算出することにしてもよい。
【0066】
すなわち、例えば、パートにおける曲調がアップテンポでありながら、指定されたダンスのイメージがスローテンポである場合には、かかるパートに対して、アップテンポの分割シーンに比べて、曲調がスローテンポの分割シーンの楽曲スコアを高く算出することにしてもよい。
【0067】
また、算出部23dは、楽曲のパートそれぞれの時間長と、分割シーンの時間長とに基づいて、楽曲スコアを算出するようにしてもよい。この場合、楽曲スコアは、パートの時間長と、分割シーンの時間長とが近いほど高い値となる。
【0068】
この際、算出部23dは、曲調に基づいて算出した楽曲スコアと、時間長に基づいて算出した楽曲スコアとをそれぞれ重み付けして最終的な楽曲スコアを算出するようにしてもよい。
【0069】
決定部23eは、与えられた楽曲の特徴量と、記憶部22に記憶された分割シーンそれぞれの接続フレーム間の類似度とに基づいて分割シーンの接続順序を決定する。
【0070】
例えば、決定部23eは、上記の接続スコアおよび楽曲スコアに基づいて、いわゆるViterbiアルゴリズムを用いて、与えられた楽曲に対する各分割シーンの接続順序を決定する。なお、Viterbiアルゴリズムを用いて決定した接続順序は、Viterbi経路と称される場合もある。
【0071】
具体的には、決定部23eは、楽曲の開始から終了までを分割シーンで繋いだ分割シーン間の類似度に応じた接続スコアの累積スコアに基づいて、接続順序を決定する。
【0072】
まず、決定部23eは、楽曲の開始から終了までを分割シーンで繋いだ候補経路を生成する。
図6は、候補経路の模式図である。
図6に示すように、各候補経路は、複数の分割シーンによって構成される。
【0073】
例えば、楽曲の再生時刻が終了するまでに取り得る分割シーンの接続パターンそれぞれが候補経路となり得る。まず、決定部23eは、候補経路を生成するにあたり、楽曲の開始時刻(再生時刻t=0)に対して、各分割パターンをそれぞれ割り当てる。このとき、分割シーンの数に応じた候補経路が生成されることになる。
【0074】
次いで、決定部23eは、生成した候補経路に対して、各分割パターンをそれぞれ追加し、楽曲が終了するまで上記の処理を繰り返すことで、各候補経路を生成する。このように生成された各候補経路は、再生時刻が進むにつれて、分岐を繰り返していくことになる。
【0075】
決定部23eは、候補経路に対して分割パターンの追加毎に候補経路に関する情報を判定部23cおよび算出部23dへ通知する。これにより、判定部23cによって各候補経路における接続フレーム間の接続スコアが付与され、算出部23dによって各候補経路における楽曲と収録曲とに基づく楽曲スコアが付与されることになる。
【0076】
図7は、接続スコアと楽曲スコアの対応関係を示す図である。なお、
図7に示す例では、接続スコアを「Scc」、楽曲スコアを「Scm」として示す。接続スコアSccは、候補経路において分割シーンを接続するごとに分割シーン間の類似度に応じて算出される値であり、楽曲スコアScmは、分割シーン自体に対して算出される値である。
【0077】
決定部23eは、候補経路ごとに接続スコアSccおよび楽曲スコアScmの累積値である累積コストを算出し、累積スコアが最大となる候補経路を選択する。決定部23eは、選択した候補経路の末尾の分割シーンを注目シーンに設定し、注目シーンよりも前に接続している各分割シーンのうち、累積スコアが最大となる分割シーンを追加していく。
【0078】
決定部23eは、注目シーンに対して分割シーンを追加すると、追加した分割シーンを注目シーンに追加し、上記の処理を繰り返すことで、注目経路を決定する。すなわち、決定部23eは、楽曲の終わりから始まりに向けて、再度、接続順序の最適化を行う。決定部23eは、かかる注目経路から分割シーンを逆順(楽曲の初めから終わりに向かう順序)に取り出した並び順を接続順序として決定する。
【0079】
これにより得られる接続順序は、演者の動きが滑らかに繋がる分割シーンが時間的に連続するとともに、楽曲のパートごとに曲調にマッチする分割シーンが割り当てられた接続順序となる。
【0080】
また、決定部23eは、例えば、与えられた楽曲の休符区間に上記の接続用シーンを優先的に割り当てることにしてもよい。
図8は、休符区間と接続用シーンとの対応関係を示す模式図である。
【0081】
図8に示すように、決定部23eは、休符区間において、接続用シーンFcを優先的に割り当てる。これにより、各分割シーンの演者の動きを接続用シーンにおいて滑らかに繋げることができる。
【0082】
この際、決定部23eは、休符区間の時間長に応じて、接続用シーンFcの時間長を調節することにしてもよい。なお、接続用シーンFcの時間長の調節については、
図4にて説明した手法を適用することができる。
【0083】
この際、算出部23dは、休符区間に対して接続用シーンFcが割り当てられた場合には、接続用シーンFcに対する楽曲スコアを、休符区間に対して接続用シーンFc以外の他の分割シーンが割り当てられた場合に比べて高く算出することにしてもよい。
【0084】
つまり、休符区間については、接続用シーンFcと、接続用シーンFc以外の分割シーンとで楽曲スコアの重み付けを変更することにしてもよい。言い換えれば、算出部23dは、休符区間に対して接続用シーンFcを優先的に割り当てた接続順序となるように、楽曲スコアを算出することにしてもよい。これにより、与えられた楽曲と、自由視点コンテンツにおける演者のダンスとのズレを緩和することができる。
【0085】
その後、決定部23eは、接続順序を決定すると、接続順序に関する情報を判定部23cおよび生成部23fへ通知する。これにより、判定部23cは、上記の接続フレーム間の類似度に加え、接続フレームの周辺フレームの類似度の判定を行う。
【0086】
ここで、
図9を用いて、周辺フレームの具体例について説明する。
図9は、周辺フレームの一例を示す図である。なお、
図9では、分割シーンAに分割シーンBが接続される場合を例に挙げて説明する。
【0087】
図9に示すように、判定部23cは、分割シーンAの接続フレームKeの周辺フレームと、分割シーンBの接続フレームKsの周辺フレームとをそれぞれ総当たりで類似度を判定する。
【0088】
そして、実施形態に係る情報処理装置10は、総当たりの類似度の判定の結果、最も類似度が高いフレーム間で分割シーンAと、分割シーンBとを接続した自由視点コンテンツを生成する。
【0089】
言い換えれば、実施形態に係る情報処理装置10は、演者の動きが最も滑らかに接続されるフレーム間で分割シーンAおよび分割シーンBを接続した自由視点コンテンツを生成する。
【0090】
つまり、実施形態に係る情報処理装置10は、接続スコアSccや楽曲スコアScmに基づいて、分割シーンの接続順序を決定したのちに、かかる接続順序で分割シーンを繋いだ場合に、演者の動きが最も滑らかに接続するフレームを決定する。これにより、分割フレーム間における演者の動きのズレを抑制することができる。換言すれば、演者の動きを滑らかに繋げることができる。
【0091】
なお、
図9に示す例では、接続フレームKeが分割シーンの終了フレームであり、接続フレームKsが分割フレームの開始フレームである場合について示したが、これに限定されるものではない。すなわち、接続フレームKeを終了フレームの周辺フレーム、接続フレームKsを開始フレームの周辺フレームとすることにしてもよい。なお、周辺フレームの数については、例えば、フレームレート等に基づき、適宜設定することにしてもよい。また、接続フレームをどのフレームにするかについても、接続する分割シーンに応じて適宜変更することにしてもよい。
【0092】
図2の説明に戻り、生成部23fについて説明する。生成部23fは、決定部23eによって決定された接続順序に沿って各分割フレームを繋げることで自由視点コンテンツを生成し、ユーザ端末50へ送信する。
【0093】
この際、生成部23fは、判定部23cの判定結果に基づき、周辺フレームのうち、類似度が最も高いフレーム同士を繋げて分割シーンを接続する。この際、生成部23fは、楽曲の休符区間において、各分割フレームを繋げた自由視点コンテンツを生成することになる。また、生成部23fは、自由視点コンテンツの演者に対する影の付与や、背景画像の差し替えを行うことにしてもよい。
【0094】
次に、
図10を用いて、実施形態に係るシーン情報生成装置1が実行する処理手順について説明する。
図10は、実施形態に係るシーン情報生成装置1が実行する処理手順を示すフローチャートである。なお、以下に示す処理手順は、演者を撮影した多視点映像の取得毎にシーン情報生成装置1の制御部13によって繰り返し実行される。
【0095】
図10に示すように、まず、シーン情報生成装置1は、多視点映像に基づいて自由視点映像を生成し(ステップS101)、多視点映像の収録曲の解析を行う(ステップS102)。
【0096】
続いて、シーン情報生成装置1は、収録曲の解析結果に基づいて、自由視点映像の境界候補区間を決定する(ステップS103)。なお、境界候補区間は、
図3に示した休符区間Tに対応する。
【0097】
続いて、シーン情報生成装置1は、境界候補区間内における前後フレーム間の類似度を判定し(ステップS104)、ステップS104における類似度判定の結果に基づいて自由視点映像を分割する(ステップS105)。
【0098】
そして、シーン情報生成装置1は、分割シーンごとに音楽特徴量を付与して(ステップS106)、処理を終了する。
【0099】
次に、
図11を用いて、実施形態に係る情報処理装置10が実行する処理手順について説明する。
図11は、実施形態に係る情報処理装置10が実行する処理手順を示すフローチャートである。なお、以下に示す処理手順は、選曲情報の取得毎に、情報処理装置10の制御部23によって繰り返し実行される。
【0100】
図11に示すように、情報処理装置10は、選曲情報を取得すると(ステップS201)、選曲情報が示す楽曲の解析を行う(ステップS202)。続いて、情報処理装置10は、楽曲の再生時刻t=0に設定する(ステップS203)。
【0101】
続いて、情報処理装置10は、候補経路ごとに分割シーンを選択し(ステップS204)、再生時刻tに1を加算する(ステップS205)。続いて、情報処理装置10は、再生時刻t+1が再生時刻終了か否かを判定し(ステップS206)、再生時刻が終了する場合(ステップS206,Yes)、接続順序の決定処理へ移行する(ステップS207)。
【0102】
そして、情報処理装置10は、ステップS207にて決定した接続順序に沿って、分割シーンを接続した自由視点コンテンツを生成し(ステップS208)、処理を終了する。また、情報処理装置10は、ステップS206の判定処理において、再生時刻t+1が再生時刻の終了に満たない場合(ステップS206,No)、ステップS204の処理へ移行する。
【0103】
続いて、
図12および
図13を用いて、
図11に示したステップS204の処理手順の詳細について説明する。
図12および
図13は、
図11に示したステップS204の処理手順を示すフローチャートである。
【0104】
図12に示すように、情報処理装置10は、再生時刻tに分割シーンを追加すると(ステップS211)、追加した分割シーンの音楽の特徴量に基づいて、楽曲スコアScmを算出する(ステップS212)。次いで、情報処理装置10は、追加した分割シーンに基づいて、接続スコアSccを算出し(ステップS213)、対応する候補経路の累積スコアを更新する(ステップS214)。
【0105】
そして、情報処理装置10は、候補経路に対して未追加の分割シーンがあれば(ステップS215,Yes)、ステップS211へ移行し、各候補経路に対して全ての分割シーンの追加を終了した場合(ステップS215,No)、処理を終了する。
【0106】
また、ステップS204の処理について、休符区間を考慮した場合のフローチャートが
図13となる。
図13に示すように、情報処理装置10は、再生時刻tは休符区間であるか否かを判定し(ステップS221)、再生時刻tが休符区間であると判定した場合(ステップS221,Yes)、再生時刻tに対して未選択の接続用シーンFcを選択する(ステップS222)。
【0107】
続いて、情報処理装置10は、休符区間に基づいてステップS222にて選択した接続用シーンFcの時間長を調節し(ステップS223)、候補経路に対して、接続用シーンFcを追加する(ステップS224)。
【0108】
その後、情報処理装置10は、未選択の接続用シーンFcがあるか否かを判定し(ステップS225)、未選択の接続用シーンFcがあった場合(ステップS225,Yes)、ステップS222の処理へ移行する。
【0109】
また、情報処理装置10は、ステップS225の判定において、全ての接続用シーンの選択が終了していた場合(ステップS225,No)、処理を終了する。また、情報処理装置10は、ステップS221の判定において、再生時刻tが休符区間でなかった場合(ステップS221,No)、候補経路に対して接続用シーンFc以外の分割シーンを追加し(ステップS226)、処理を終了する。なお、ここでの図示を省略したが、ステップS224の処理に引き続き、
図12に示したステップS212~ステップS214の処理を行うものとする。
【0110】
次に、
図14を用いて、
図11に示したステップS207の処理の処理手順について説明する。
図14は、
図11に示したステップS207の処理手順を示すフローチャートである。
【0111】
図14に示すように、情報処理装置10は、末尾の分割シーンを注目シーンに追加すると(ステップS231)、注目シーンの前に分割シーンがあるか否か判定し(ステップS232)、注目シーンの前に分割シーンがあった場合(ステップS232,Yes)、累積コストが最大となる分割シーンを追加し(ステップS233)、ステップS231へ移行する。
【0112】
また、情報処理装置10は、ステップS232の判定処理において、注目シーンの前に分割シーンがなかった場合(ステップS232,No)、すなわち、ステップS233の全ての処理が終了した場合、分割シーンを逆順に取り出したものを接続順序として決定し(ステップS234)、処理を終了する。
【0113】
[第2の実施形態]
続いて、
図15を用いて、第2の実施形態に係る提供システムについて説明する。
図15は、第2の実施形態に係る提供システムの構成例を示す図である。上述の実施形態では、演者の動きが滑らかに繋がるように、各分割シーンを接続して自由視点コンテンツを生成する場合について説明した。
【0114】
しかしながら、例えば、十分な分割シーンがない場合には、自由視点コンテンツのバリエーションが乏しく、魅力的なコンテンツを提供することができないおそれもある。かといって、単に分割シーンを増やしたとしても、他の分割シーンと接続できなければ、自由視点コンテンツに活用することができない。
【0115】
このため、
図15に示すように、第2の実施形態に係る提供システムS1は、演者に対して多視点映像を撮像する際の演者のポーズを提案する提案装置100をさらに備える。
【0116】
具体的には、提案装置100は、開始ポーズおよび終了ポーズを演者に提案する装置である。演者は、追加撮影時において、提案装置100によって提案された開始ポーズおよび終了ポーズを含むダンスを踊ることで、各分割シーンの汎用性を向上させることができる。
【0117】
つまり、提案装置100は、既存(撮影済み)の分割シーンを補完するための新たな分割シーンの撮影を提案する。これにより、各分割シーンを組み合わせた自由視点コンテンツの生成が可能となる。
【0118】
次に、
図16を用いて、提案装置100の構成例について説明する。
図16は、実施形態に係る提案装置100の構成例を示す図である。
図16に示すように、提案装置100は、通信部31と、記憶部32と、制御部33とを備える。
【0119】
通信部31は、シーン情報生成装置1や、情報処理装置10と、所定のネットワークを介して通信を行う通信モジュールである。
【0120】
記憶部32は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部32は、制御部33が各種処理に必要な情報を記憶する。また、記憶部32は、情報処理装置10と同様に、シーン情報DBを備えるものとする。
【0121】
制御部33は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、提案装置100内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部33は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0122】
図16に示すように、制御部33は、選択部33aと、提案データ生成部33bとを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部33の内部構成は、
図16に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。なお、制御部33は、例えばNIC(Network Interface Card)等を用いて所定のネットワークと有線又は無線で接続し、ネットワークを介して、種々の情報を外部サーバ等から受信してもよい。
【0123】
選択部33aは、シーン情報DBを参照し、新たに撮影する分割シーンの開始ポーズおよび終了ポーズを選択する。例えば、選択部33aは、シーン情報DBから任意の分割シーンを選択し、選択した分割シーンの後ろに接続可能な分割シーンが所定数以上か否かを判定する。
【0124】
選択部33aは、選択した分割シーンの後ろに接続可能な分割シーンが所定数以上ある場合に、他の分割シーンを選択する。ここで、接続可能な分割シーンとは、選択した分割シーンに対して上記の接続スコアSccが閾値以上である分割シーンを指す。
【0125】
また、選択部33aは、接続可能な分割シーンが所定数に満たない場合、選択した分割シーンの終了フレームにおける演者のポーズを開始ポーズとして選択する。
【0126】
続いて、選択部33aは、選択した分割シーンに対して接続スコアSccが閾値以下の分割シーンを選択する。この際、選択部33aは、接続スコアSccが閾値以下の全ての分割シーンを選択することにしてもよいし、接続スコアSccが閾値以下の分割シーンのうち、一部の分割シーンを選抜することにしてもよい。
【0127】
この場合、選択部33aは、例えば、接続可能な分割シーンが多い分割シーンを他の分割シーンに比べて優先的に選抜することにしてもよい。すなわち、提案装置100は、汎用性の高い分割シーンへ接続可能にする分割シーンの撮影を提案することで、追加撮影の負荷を抑えつつ、自由視点コンテンツのバリエーションを拡充させることができる。
【0128】
このように、選択部33aは、これまで後ろに接続する分割シーンが乏しかった分割シーンに対して、これまで接続候補とならなかった分割シーンとを補完するための開始ポーズおよび終了ポーズを選択する。これにより、自由視点コンテンツの生成する場合に、各分割データを利用することが可能となる。
【0129】
なお、選択部33aは、例えば、シーン情報DBを参照し、接続フレームにおける演者の3次元モデルが所定値を超えて類似する2つの分割シーンを選択し、開始ポーズと終了ポーズとを決定することにしてもよい。また、選択部33aは、ユーザが選択した分割シーンに基づいて開始ポーズと終了ポーズとを選択することにしてもよい。
【0130】
提案データ生成部33bは、多視点映像の追加撮影時のポーズに関する提案データを生成する。提案データ生成部33bは、開始ポーズと、終了ポーズとの3次元モデルに関する情報を提案データとして生成する。
【0131】
この際、提案データ生成部33bは、追加撮影時の収録曲や、開始ポーズから終了ポーズまでの時間長を指定することにしてもよい。さらに、提案データ生成部33bは、開始ポーズから終了ポーズまでの一連の振り付けを提案することにしてもよい。
【0132】
提案データ生成部33bは、複数の開始ポーズおよび複数の終了ポーズが選択部33aによって選択された場合、複数の開始ポーズと、複数の終了ポーズとを一覧表示することにしてもよい。
【0133】
提案データ生成部33bによって生成された提案データは、例えば、スタジオに設定されたモニタに表示される。これにより、演者は、開始ポーズおよび終了ポーズを視聴することができる。
【0134】
次に、
図17を用いて、実施形態に係る提案装置100が実行する処理手順について説明する。
図17は、実施形態に係る提案装置100が実行する処理手順を示すフローチャートである。
【0135】
図17に示すように、実施形態に係る提案装置100は、まず、シーン情報DBから分割シーンを選択し(ステップS301)、選択した分割シーンに接続可能なシーン数が閾値より大きいか否かを判定する(ステップS302)。
【0136】
提案装置100は、接続可能なシーン数が閾値よりも大きい場合(ステップS302,Yes)、ステップS301の処理へ移行し、他の分割シーンを選択することになる。また、提案装置100は、ステップS302の判定処理において、接続可能なシーン数が閾値よりも小さい場合(ステップS302,No)、ステップS301において選択した分割シーンの最終フレームのポーズを開始ポーズとして決定する(ステップS303)。
【0137】
続いて、提案装置100は、ステップS301において選択した分割シーンとの接続スコアSccが閾値以下である他の分割シーンを選択し(ステップS304)、ステップS304にて選択した開始フレームのポーズを終了ポーズとして決定する(ステップS305)。
【0138】
そして、提案装置100は、ステップS303にて決定した開始ポーズおよびステップS305にて決定した終了ポーズに基づいて、提案データを生成し(ステップS306)、処理を終了する。
【0139】
[変形例]
上述した実施形態では、情報処理装置10がユーザ端末50から選曲情報を取得し、かかる選曲情報に基づいて自由視点コンテンツを生成する場合について説明した。しかしながら、これに限定されるものではない。すなわち、情報処理装置10は、楽曲を管理する楽曲サーバから所定周期で選曲情報を取得し、自由視点コンテンツを生成することにしてもよい。すなわち、例えば、新曲がリリースされた場合などにおいて、新曲に対して自動的に自由視点コンテンツを生成することにしてもよい。
【0140】
また、例えば、ユーザ端末50は、スマートフォンやスピーカから流れてくる楽曲を判定し、かかる楽曲の選曲情報を情報処理装置10へ送信することにしてもよい。この場合、例えば、現在流れている楽曲に対して、リアルタイムで自由視点コンテンツを再生することも可能である。
【0141】
また、例えば、SNS上で自由視点コンテンツを公開する場合、部分的に自由視点コンテンツを公開し、残りの自由視点コンテンツ(全編)については、各ユーザ端末50が情報処理装置10へアクセスした場合に、提供することにしてもよい。
【0142】
また、情報処理装置10は、ユーザがカラオケで選曲した楽曲を選曲情報として取得し、自由視点コンテンツを生成することにしてもよい。この場合、例えば、ユーザは、自身の歌にあわせて、自由視点コンテンツを視聴することができる。すなわち、ユーザの歌にあわせて演者が躍るアプリケーションを提供することができる。
【0143】
また、上述した実施形態では、楽曲にあわせたダンス映像の自由視点コンテンツを生成する場合について説明したが、これに限定されるものではない。すなわち、プロジェクションマッピングに代表される照明演出に基づいて、ダンス映像の自由視点コンテンツを生成することにしてもよい。
【0144】
また、自由視点映像は、ダンス映像に限られず、3次元の映像であれば、その他の自由視点映像を適宜、自由視点コンテンツに組み込むことにしてもよい。また、上述した実施形態では、シーン情報生成装置1、情報処理装置10および提案装置100をそれぞれ異なる装置として説明した。しかしながら、これに限定されるものではなく、各機能を適宜、統合および分散することにしてもよい。
【0145】
また、上述した実施形態では、オブジェクトを演者、音を楽曲として説明したが、これに限定されるものではない。具体的には、例えば、動物や、ロボット、機械などをコンテンツとすることにしてもよいし、楽曲以外の様々な音声を音とすることにしてもよい。
【0146】
つまり、自由視点コンテンツは、演者のダンス映像に限られず、多様なオブジェクトと、音とを組み合わせたものであってもよい。
【0147】
上述してきた各実施形態に係る情報処理装置等の情報機器は、例えば
図18に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る情報処理装置10を例に挙げて説明する。
図18は、情報処理装置10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
【0148】
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
【0149】
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0150】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るプログラムを記録する記録媒体である。
【0151】
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
【0152】
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0153】
例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、取得部23a等の機能を実現する。また、HDD1400には、本開示に係るプログラムや、記憶部22内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
【0154】
なお、本技術は以下のような構成も取ることができる。
(1)
与えられた音の特徴量と、オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて前記分割シーンの接続順序を決定する決定部と、
前記決定部によって決定された前記接続順序で前記分割シーンを接続した自由視点コンテンツを生成する生成部と
を備える情報処理装置。
(2)
前記自由視点映像は、
前記オブジェクトが演者であり、当該演者が収録曲にあわせて踊るダンス映像である、
上記(1)に記載の情報処理装置。
(3)
前記音は、
楽曲である、
上記(1)または(2)に記載の情報処理装置。
(4)
前記接続フレームそれぞれにおける前記演者の3次元モデルに基づいて、前記接続フレーム間の類似度を判定する判定部
を備える、
上記(1)~(3)のいずれか一つに記載の情報処理装置。
(5)
前記判定部は、
前記演者の関節位置を示すボーンモデルに基づいて前記類似度を判定する、
上記(4)に記載の情報処理装置。
(6)
前記判定部は、
前記演者の表面形状に対応する点群データに基づいて前記類似度を判定する、
上記(4)または(5)に記載の情報処理装置。
(7)
前記決定部は、
前記楽曲の開始から終了までを前記分割シーンで接続した接続経路ごとに前記分割シーン間の前記類似度に応じた接続スコアの累積値に基づいて、前記接続順序を決定する、
上記(1)~(6)のいずれか一つに記載の情報処理装置。
(8)
前記判定部は、
前記決定部によって前記接続順序が決定された場合に、前記接続フレームに加え、前記接続フレームの周辺フレーム間の前記類似度を判定し、
前記生成部は、
前記周辺フレームのうち、前記類似度が最も高いフレーム同士を繋げて前記分割シーンを接続する、
上記(1)~(7)のいずれか一つに記載の情報処理装置。
(9)
前記生成部は、
前記楽曲の休符区間において、前記分割シーンを接続する、
上記(1)~(8)のいずれか一つに記載の情報処理装置。
(10)
前記楽曲の特徴量と、前記分割シーンの収録曲の特徴量とに基づいて、前記楽曲と前記収録曲との適合度を示す楽曲スコアを算出する算出部
を備え、
前記決定部は、
前記楽曲スコアに基づいて、前記接続順序を決定する、
上記(1)~(9)のいずれか一つに記載の情報処理装置。
(11)
前記算出部は、
前記楽曲を分割したパートそれぞれの曲調と、前記分割シーンそれぞれの曲調とに基づいて、前記楽曲スコアを算出する、
上記(10)に記載の情報処理装置。
(12)
前記算出部は、
前記楽曲を分割したパートそれぞれの時間長と、前記分割シーンそれぞれの時間長とに基づいて、前記楽曲スコアを算出する、
上記(10)または(11)に記載の情報処理装置。
(13)
前記決定部は、
前記楽曲の休符区間に対して、当該休符区間の時間長に応じて、時間長を調整した前記分割シーンを割り当てる、
上記(1)~(12)のいずれか一つに記載の情報処理装置。
(14)
前記決定部は、
前記分割シーンのフレームを間引くことで、前記分割シーンの前記時間長を調整する、
上記(13)に記載の情報処理装置。
(15)
オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンをそれぞれの接続フレーム間の類似度に基づいて、前記自由視点映像を追加撮影時のポーズに関する提案データを生成する提案データ生成部
を備える、提案装置。
(16)
前記提案データ生成部は、
前記記憶部に記憶された前記分割シーンにおける前記オブジェクトである演者の終了ポーズを開始ポーズとし、他の前記分割シーンにおける前記演者の開始ポーズを終了ポーズとする前記提案データを生成する、
上記(17)に記載の提案装置。
(17)
コンピュータが、
与えられた音の特徴量と、オブジェクトを撮影した多視点映像に基づく自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて前記分割シーンの接続順序を決定し、
決定した前記接続順序で前記分割シーンを接続した自由視点コンテンツを生成する、
情報処理方法。
(18)
コンピュータが、
与えられた音の特徴量と、オブジェクトを撮影した多視点映像に基づく実写の自由視点映像を分割した分割シーンそれぞれの接続フレーム間の類似度とに基づいて、前記多視点映像を追加撮影のポーズに関する提案データを生成する、
提案方法。
【符号の説明】
【0155】
1 シーン情報生成装置
10 情報処理装置
13a 3Dモデル生成部
13b 音楽解析部
13c シーン情報生成部
23a 取得部
23b 音楽解析部
23c 判定部
23d 算出部
23e 決定部
23f 生成部
33a 選択部
33b 提案データ生成部
50 ユーザ端末
100 提案装置
S、S1 提供システム