(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172864
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理装置、学習装置および映像生成方法
(51)【国際特許分類】
G10G 3/04 20060101AFI20241205BHJP
G06T 7/00 20170101ALI20241205BHJP
H04N 5/262 20060101ALI20241205BHJP
【FI】
G10G3/04
G06T7/00 P
G06T7/00 350B
H04N5/262
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023090872
(22)【出願日】2023-06-01
(71)【出願人】
【識別番号】522382406
【氏名又は名称】メタバーサルネイチャーテクノロジーズ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】山崎 亮
【テーマコード(参考)】
5C023
5D182
5L096
【Fターム(参考)】
5C023AA11
5C023BA12
5D182AB03
5D182AC01
5D182AD10
5L096DA01
5L096HA11
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
【課題】楽曲のイメージに適合した映像を効率的に生成する。
【解決手段】情報処理装置1は、楽曲を示す楽曲データDMを取得する取得部11と、楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルMJを用いて、楽曲データDMに基づいて、楽曲データDMの示す楽曲に対応する画像の特徴量を所定期間ごとに推定する推定部12と、推定部12の推定結果に基づいて、楽曲データDMの示す楽曲に同期した映像を示す映像データDMVを生成する生成部13と、を備え、当該所定期間は、楽曲データDMの示す楽曲の拍期間の整数倍の期間である。
【選択図】
図2
【特許請求の範囲】
【請求項1】
楽曲を示す楽曲データを取得する取得部と、
楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルを用いて、前記楽曲データの示す楽曲の特徴量に基づいて、前記楽曲データの示す楽曲に対応する画像の特徴量を所定期間ごとに推定する推定部と、
前記推定部の推定結果に基づいて、前記楽曲データの示す楽曲に同期した映像を示す映像データを生成する生成部と、を備え、
前記所定期間は、前記楽曲データの示す楽曲の拍期間の整数倍の期間である、
情報処理装置。
【請求項2】
前記所定期間は、前記楽曲データの示す楽曲の小節に対応した期間以上の期間である、
請求項1に記載の情報処理装置。
【請求項3】
前記所定期間は、前記楽曲データの示す楽曲の小節に対応した期間の整数倍である、
請求項2に記載の情報処理装置。
【請求項4】
前記推定部は、前記所定期間の長さを変化させる、
請求項1または2に記載の情報処理装置。
【請求項5】
前記推定部は、前記楽曲データの示す楽曲の休符期間に応じて前記所定期間の長さを変化させる、
請求項4に記載の情報処理装置。
【請求項6】
前記楽曲データの示す楽曲は、歌声を含んでおり、
前記推定部は、前記楽曲データの示す楽曲の歌詞の文章、文節または単語に基づいて、前記所定期間の長さを変化させる、
請求項4に記載の情報処理装置。
【請求項7】
前記推定部は、
前記楽曲データの示す楽曲の楽譜の特徴量を前記所定期間ごとに抽出する楽譜特徴量抽出部12dと、
前記楽曲データの示す楽曲の歌詞の特徴量を前記所定期間ごとに抽出する歌詞特徴量抽出部と、を含み、
前記学習済モデルは、楽譜の特徴量と歌詞の特徴量と画像の特徴量との関係を機械学習したモデルである、
請求項1または2に記載の情報処理装置。
【請求項8】
前記推定部は、前記楽曲データを解析することにより、前記楽曲データの示す楽曲の楽譜を示す楽譜データを生成する楽曲解析部を含み、
前記楽曲解析部は、前記楽譜データに基づいて、前記所定期間を示す期間データを生成する、
請求項1または2に記載の情報処理装置。
【請求項9】
前記学習済モデルは、楽曲の特徴量と画像の特徴量と属性の特徴量との関係を機械学習したモデルであり、
前記推定部は、前記学習済モデルを用いて、前記楽曲データのほか、前記楽曲データの示す楽曲の属性を示す属性データに基づいて、前記楽曲データの示す楽曲に対応する画像の特徴量を前記所定期間ごとに推定する、
請求項1または2に記載の情報処理装置。
【請求項10】
前記取得部は、前記楽曲データのほか、前記属性データを取得可能である、
請求項9に記載の情報処理装置。
【請求項11】
前記生成部は、前記楽曲データの示す楽曲の休符期間に応じて、前記映像データの示す映像の切り替わりタイミングを調整する、
請求項1または2に記載の情報処理装置。
【請求項12】
楽曲と当該楽曲に同期した映像とを示す複数のミュージックビデオデータを取得する取得部と、
前記複数のミュージックビデオデータに基づいて、楽曲の特徴量と画像の特徴量との所定期間ごとの関係を機械学習することにより、学習済モデルを生成する学習部と、を備え、
前記所定期間は、前記複数のミュージックビデオデータのそれぞれの示す楽曲の拍期間の整数倍の期間である、
学習装置。
【請求項13】
楽曲を示す楽曲データを取得することと、
楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルを用いて、前記楽曲データに基づいて、前記楽曲データの示す楽曲に対応する画像の特徴量を所定期間ごとに推定することと、
推定した特徴量に基づいて、前記楽曲データの示す楽曲に同期した映像を示す映像データを生成することと、を含み、
前記所定期間は、前記楽曲データの示す楽曲の拍期間の整数倍の期間である、
映像生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、学習装置および映像生成方法に関する。
【背景技術】
【0002】
楽曲を示す楽曲データに基づいて、当該楽曲データの示す楽曲に同期した映像を生成する技術が知られている。例えば、特許文献1に記載の装置は、音楽データの分析結果に基づく属性値を取得し、その属性値を用いて画像を取得し、その画像を出力する。ここで、音楽データの分析は、音の波形における振幅の変化、音の波形を構成する周波数成分の変化等の特徴量を取得することにより行われる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1には、音楽データの分析をどのような期間ごとに行うのか具体的な記載がない。このため、特許文献1に記載の装置では、取得した画像が楽曲のイメージからずれやすいという問題がある。
【0005】
以上の事情を考慮して、本開示のひとつの態様は、楽曲のイメージに適合した映像を効率的に生成することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る情報処理装置は、楽曲を示す楽曲データを取得する取得部と、楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルを用いて、前記楽曲データの示す楽曲の特徴量に基づいて、前記楽曲データの示す楽曲に対応する画像の特徴量を所定期間ごとに推定する推定部と、前記推定部の推定結果に基づいて、前記楽曲データの示す楽曲に同期した映像を示す映像データを生成する生成部と、を備え、前記所定期間は、前記楽曲データの示す楽曲の拍期間の整数倍の期間である。
【0007】
本開示の一態様に係る学習装置は、楽曲と当該楽曲に同期した映像とを示す複数のミュージックビデオデータを取得する取得部と、前記複数のミュージックビデオデータに基づいて、楽曲の特徴量と画像の特徴量との所定期間ごとの関係を機械学習することにより、学習済モデルを生成する学習部と、を備え、前記所定期間は、前記複数のミュージックビデオデータのそれぞれの示す楽曲の拍期間の整数倍の期間である。
【0008】
本開示の一態様に係る映像生成方法は、楽曲を示す楽曲データを取得することと、楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルを用いて、前記楽曲データに基づいて、前記楽曲データの示す楽曲に対応する画像の特徴量を所定期間ごとに推定することと、推定した特徴量に基づいて、前記楽曲データの示す楽曲に同期した映像を示す映像データを生成することと、を含み、前記所定期間は、前記楽曲データの示す楽曲の拍期間の整数倍の期間である。
【発明の効果】
【0009】
本開示によれば、楽曲のイメージに適合した映像を効率的に生成することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係る情報処理装置のブロック図である。
【
図2】推定部および生成部の詳細を説明するためのブロック図である。
【
図3】実施形態に係る映像生成方法の流れを示す図である。
【
図4】実施形態に係る学習装置のブロック図である。
【
図5】学習部の詳細を説明するためのブロック図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本開示に係る好適な実施形態を説明する。なお、図面において各部の寸法および縮尺は実際のものと適宜異なり、理解を容易にするために模式的に示している部分もある。また、本開示の範囲は、以下の説明において特に本開示を限定する旨の記載がない限り、これらの形態に限られるものではない。
【0012】
1.実施形態
1-1.情報処理装置の概略
図1は、実施形態に係る情報処理装置1のブロック図である。情報処理装置1は、入力される楽曲に対応する画像の特徴量を推定し、その推定結果に基づいて、当該楽曲に同期した映像を生成するコンピューターまたはコンピューターシステムである。当該推定は、後述の学習済モデルMJを用いて、当該楽曲の拍期間の整数倍の所定期間ごとに行われる。これにより、当該楽曲のイメージに適合した映像が効率的に生成される。
【0013】
図1に示すように、情報処理装置1は、処理装置10と記憶装置20と通信装置30と入力装置40と表示装置50とを備える。これらは、単体または複数のバスで相互に通信可能に接続される。以下、
図1に基づいて、情報処理装置1の各部の概略を説明する。
【0014】
処理装置10は、情報処理装置1の各部を制御する装置である。処理装置10は、CPU(Central Processing Unit)等の単一または複数のプロセッサーで構成される。なお、処理装置10の機能の一部または全部は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアで実現されてもよい。処理装置10は、各種の処理を並列的または逐次的に実行する。
【0015】
記憶装置20は、処理装置10が読取可能なプログラムおよびデータ等の情報を記憶する装置である。記憶装置20は、例えば、ハードディスクドライブで構成されるか、または、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の半導体メモリーで構成される。なお、記憶装置20の一部または全部は、情報処理装置1に通信可能に接続される外部のコンピューターまたはサーバー等の装置に設けてもよい。
【0016】
記憶装置20には、プログラムPR1と楽曲データDMと学習済モデルMJと画像群データDGGと映像データDMVとが記憶される。
【0017】
プログラムPR1は、情報処理装置1の動作を制御するためのプログラムであり、映像データDMVの生成のための後述の各種機能を実現する。プログラムPR1は、ユーザーによるインストール作業等により、記憶装置20に予め記憶される。
【0018】
楽曲データDMは、楽曲を示すデータである。楽曲データDMは、後述の取得部11による取得により取得される。楽曲とは、音楽における声楽曲、器楽曲および管弦楽曲等の総称である。楽曲データDMの示す楽曲は、演奏および歌声のうちの一方または両方を含んでいればよい。本実施形態では、楽曲データDMの示す楽曲が演奏および歌声の両方を含む態様が例示される。楽曲データDMの形式は、特に限定されないが、例えば、AAC(Advanced Audio Coding)、MP3(MPEG-1 Audio Layer-3)等の音声ファイルフォーマットである。なお、楽曲データDMの形式は、デジタル形式に限定されず、アナログ形式であってもよい。
【0019】
学習済モデルMJは、楽曲の特徴量と画像の特徴量との関係を機械学習することにより得られる推定モデルである。具体的には、学習済モデルMJは、楽曲の特徴量から画像の特徴量を生成する演算を処理装置10に実行させるプログラムと、当該演算に適用される複数の係数との組合せで実現される。当該プログラムは、例えば、人工知能ソフトウェアを構成するプログラムモジュールである。当該複数の係数は、例えば、複数の教師データを利用した深層学習により設定されて記憶装置20に格納される。学習済モデルMJとしては、例えば、深層ニューラルネットワーク等の数理モデルが好適に利用される。学習済モデルMJは、後述の推定部12による推定に用いられる。学習済モデルMJは、後述の学習装置100により得られる。
【0020】
画像群データDGGは、画像を示す複数の画像データを含むデータ群である。画像群データDGGは、ユーザーによるインストール作業等により、記憶装置20に予め記憶される。画像群データDGGに含まれる画像データの示す画像は、静止画であってもよいし、動画であってもよい。ただし、当該画像データの示す画像が動画である場合、その動画の長さは、一般的な楽曲の数泊から数小節程度の長さ、具体的には、数秒から数十秒程度であることが好ましい。当該画像データの形式は、特に限定されないが、例えば、JPEG(Joint Photographic Experts Group)またはPNG(Portable Network Graphics)等の静止画ファイル形式であるか、または、AVI(Audio Video Interleave)またはMP4等の動画ファイル形式である。
【0021】
映像データDMVは、楽曲データDMの示す楽曲に同期した映像を示すデータである。映像データDMVは、後述の生成部13により生成される。映像データDMVの形式は、特に限定されないが、例えば、AVI(Audio Video Interleave)またはMP4等の動画ファイル形式である。なお、映像データDMVは、楽曲データDMの示す楽曲に同期した映像を示す動画データを含んでいればよいが、楽曲データDM等の音声データを含んでもよい。すなわち、映像データDMVは、楽曲データDMとは個別に映像のみを示す動画データであってもよいし、楽曲データDMを含む音声付動画データ(ミュージックビデオデータ)であってもよい。
【0022】
通信装置30は、他装置と通信する機器である。通信装置30は、例えば、LTE4G、5G等の移動通信方式の通信回路、Wi-Fi(登録商標)またはBluetooth(登録商標)等の無線通信方式の通信回路、または、USB(Universal Serial Bus)等の有線通信方式の通信回路を有する。
【0023】
入力装置40は、外部からの入力を受け付ける入力デバイスである。入力装置40は、例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサ等である。なお、入力装置40は、必要に応じて設けられ、省略されてもよい。
【0024】
表示装置50は、外部に対して情報を表示する表示デバイスである。表示装置50は、例えば、液晶パネル、有機ELパネル等の各種の表示パネルを含む。なお、表示装置50は、必要に応じて設けられ、省略されてもよい。
【0025】
以上の概略の情報処理装置1では、処理装置10が記憶装置20からプログラムPR1を読み取って実行する。この実行により、処理装置10は、取得部11、推定部12および生成部13として機能する。このように、情報処理装置1は、取得部11と推定部12と生成部13とを備える。なお、処理装置10は、これらの機能のほか、適宜の処理を行う。
【0026】
取得部11は、楽曲データDMを取得する。具体的には、取得部11は、例えば、ユーザーによる入力装置40の操作に基づいて、通信装置30を介して楽曲データDMを取得する。本実施形態では、取得部11は、楽曲データDMのほか、後述するように、属性データDATを取得する。
【0027】
推定部12は、学習済モデルMJを用いて、楽曲データDMの示す楽曲に対応する画像の特徴量を所定期間ごとに推定する。当該所定期間は、当該推定のための単位期間であり、後に詳述するが、楽曲データDMの示す楽曲の拍期間の整数倍の期間である。拍期間とは、拍間の期間である。当該所定期間としては、後述の機械学習を好適に行う観点から、一般に、楽曲データDMの示す楽曲の小節に対応した期間以上の期間が好ましく、より具体的には、4拍以上の期間であることが好ましく、8拍以上16拍以下の期間であることがより好ましい。なお、以下では、楽曲データDMの示す楽曲の拍期間の整数倍の期間として、楽曲データDMの示す楽曲の小節に対応する期間の整数倍の期間を用いる場合が例示される。
【0028】
推定部12による推定のための単位期間は、楽曲データDMの示す1つの楽曲内で固定であっても変化してもよい。変化する場合、例えば、楽曲の内容と映像のマッチングとが不自然とならないように、当該単位期間を楽曲データDMの示す楽曲の曲調等に応じて動的に変化させることが好ましい。
【0029】
このような観点から、推定部12は、推定部12による推定の単位期間である所定期間の長さを変化させることが好ましい。この場合、当該所定期間の長さが一定である態様に比べて、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすいという利点がある。
【0030】
ここで、推定部12は、楽曲データDMの示す楽曲の休符期間に応じて当該所定期間の長さを変化させることが好ましい。休符期間は、休符間の期間、すなわち、休符で区切られた期間である。このように当該所定期間の長さを休符期間に応じて変化させることにより、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすい。これは、一般的なミュージックビデオの映像が楽曲の曲調とともに休符期間ごとに大きく変化するからである。
【0031】
本実施形態では、後述するように楽曲データDMの示す楽曲が歌声を含むので、推定部12による推定の単位期間である所定期間の長さを変化させる場合、推定部12は、楽曲データDMの示す楽曲の歌詞の文章、文節または単語に基づいて、当該所定期間の長さを変化させることが好ましい。この場合、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすいという利点がある。
【0032】
生成部13は、推定部12の推定結果に基づいて、映像データDMVを生成する。本実施形態では、生成部13は、推定部12の推定結果に基づいて、画像群データDGGに含まれる複数の画像データから所定期間ごとに1以上の画像データを選択し、選択された画像データを用いて映像データDMVを生成する。
【0033】
映像データDMVの示す映像の切り替わりの期間は、前述の推定部12による推定のための単位期間と同じであっても異なっていてもよい。ただし、映像データDMVの示す楽曲の内容と映像のマッチングとが不自然とならないように、当該期間を楽曲データDMの示す楽曲の曲調等に応じて動的に変化させることが好ましい。
【0034】
このような観点から、生成部13は、楽曲データDMの示す楽曲の休符期間に応じて、映像データDMVの示す映像の切り替わりタイミングを調整することが好ましい。これにより、楽曲の内容と映像のマッチングとが不自然とならないように、映像データDMVの示す映像の切り替えることができる。これは、前述のように、一般的なミュージックビデオの映像が楽曲の曲調とともに休符期間ごとに大きく変化するからである。なお、生成部13が映像データDMVの示す映像を切り替える複数のタイミングは、楽曲データDMに示す楽曲の休符期間で区切られたタイミングのみを含んでもよいし、当該タイミングに加えて、拍期間で区切られたタイミング等の他のタイミングを含んでもよい。
【0035】
1-2.推定部および生成部の詳細
図2は、推定部12および生成部13の詳細を説明するためのブロック図である。
図2に示すように、取得部11は、楽曲データDMおよび属性データDATを取得する。取得部11による属性データDATの取得は、例えば、ユーザーによる入力装置40の操作に基づいて行われる。この取得は、予め作成された属性データDATを通信装置30を介して入力することにより行ってもよいし、ユーザーによる入力装置40の操作に基づいて属性データDATを作成することにより行ってもよい。
【0036】
属性データDATは、楽曲データDMの示す楽曲の属性を示すデータである。楽曲の属性には、ジャンル、歌手の性別、ソロまたはグループの別等が含まれる。ジャンルには、バラード、クラシック、ジャズ、ロック、パンク、メタル、アールアンドビー、ポップ、ファンク、レゲエ、ヒップホップ、トラップ、ディスコ、ハウス、テクノ、フューチャーベース、デーディーエム等が含まれる。属性データDATは、例えば、属性ごとの要素の特徴量を特徴量ベクトルで示す。なお、情報処理装置1において、属性データDATは、ユーザーによる入力装置40の操作に基づいて取得される態様に限定されず、例えば、後述の楽曲解析部12bの解析により取得される態様であってもよい。
【0037】
推定部12は、分離部12aと楽曲解析部12bと音声認識部12cと楽譜特徴量抽出部12dと歌詞特徴量抽出部12eと入出力部12fとを含む。
【0038】
分離部12aは、楽曲データDMからボーカルデータDVを分離する。具体的には、分離部12aは、例えば、楽曲データDMの示す楽曲の周波数成分から音声帯域の周波数成分を抽出することにより、ボーカルデータDVを生成する。ボーカルデータDVは、楽曲データDMの示す楽曲に含まれる歌声を示すデータである。なお、分離部12aにおいて楽曲データDMからボーカルデータDVを分離する方法は、前述の例に限定されず、公知の各種方法を用いてもよい。また、分離部12aは、楽曲データDMをボーカルデータDVと楽曲データDMからボーカルデータDVを減算した差分データとに分離してもよい。この場合、後述の楽曲解析部12bは、当該差分データに基づいて楽譜データDMSおよび期間データDMMを生成する。
【0039】
楽曲解析部12bは、楽曲データDMに基づいて楽譜データDMSおよび期間データDMMを生成する。具体的には、楽曲解析部12bは、例えば、楽曲データDMの示す楽曲を解析することにより、当該楽曲の主旋律(メインメロディ)を抽出することにより、楽譜データDMSを生成する。また、楽曲解析部12bは、楽譜データDMSに基づいて期間データDMMを生成する。
【0040】
本実施形態では、楽曲解析部12bは、楽譜データDMSのほか、後述の歌詞データDLYに基づいて、期間データDMMを生成する。ここで、歌詞データDLYの示す歌詞の文章、文節または単語に基づいて、期間データDMMの示す期間の長さを調整することにより、前述の推定部12による推定の単位期間である所定期間の長さを変化させることができる。
【0041】
楽譜データDMSは、楽曲データDMの示す楽曲の楽譜を示すデータである。楽譜データDMSの示す楽譜には、楽曲の主旋律(メインメロディ)のビート、調性、コード等の要素が含まれる。なお、楽譜データDMSの示す楽譜は、主旋律のほか、当該楽曲を構成する楽器ごとのリズムまたはメロディ等の要素が含まれてもよい。楽譜データDMSは、楽曲データDMの示す楽曲の拍および小節に関するデータを含んでおり、期間データDMMを兼ねてもよい。
【0042】
期間データDMMは、楽曲データDMの示す楽曲の小節に対応する期間の整数倍の期間を示すデータである。楽曲の小節は、楽譜が読みやすいように適当な長さに区切られた時間の区分であり、楽曲が拍子を有する場合、拍子のひとまとまりの時間長さで規定される。ここで、拍子とは、拍のひとまとまりであり、2拍子、3拍子、4拍子等の一般的な拍子だけでなく、理論的にあり得る2分の1拍子等の拍子も含む。期間データDMMの示す期間は、楽曲データDMの示す楽曲の休符期間、後述の歌詞データDLYの示す歌詞の文節等に基づいて変化し得る。なお、小節に対応する期間の整数倍の期間とは、休符期間を含む概念である。
【0043】
音声認識部12cは、ボーカルデータDVに基づいて歌詞データDLYを生成する。具体的には、音声認識部12cは、例えば、ボーカルデータDVに音声認識処理を施すことにより、歌詞データDLYを生成する。
【0044】
歌詞データDLYは、楽曲データDMの示す楽曲の歌詞を示すデータである。歌詞データDLYは、例えば、歌詞を記述したテキストデータである。
【0045】
楽譜特徴量抽出部12dは、期間データDMMの示す期間ごとに、楽譜データDMSに基づいて、楽譜特徴量データDF1を生成する。具体的には、楽譜特徴量抽出部12dは、例えば、期間データDMMの示す期間ごとに、楽譜データDMSの示す楽譜のビート、調性、コード等の要素の特徴量を抽出することにより、楽譜特徴量データDF1を生成する。
【0046】
楽譜特徴量データDF1は、期間データDMMの示す期間ごとに、楽譜データDMSの示す楽譜の特徴量を特徴量ベクトルで示すデータである。楽譜の特徴量ベクトルの要素としては、例えば、ビート、調性、コード等の要素が挙げられる。
【0047】
歌詞特徴量抽出部12eは、期間データDMMの示す期間ごとに、歌詞データDLYに基づいて、歌詞特徴量データDF2を生成する。具体的には、歌詞特徴量抽出部12eは、例えば、期間データDMMの示す期間ごとに、歌詞データDLYの示す歌詞の喜怒哀楽、風景等の要素の特徴量を抽出することにより、歌詞特徴量データDF2を生成する。
【0048】
歌詞特徴量データDF2は、期間データDMMの示す期間ごとに、歌詞データDLYの示す歌詞の特徴量を特徴量ベクトルで示すデータである。歌詞の特徴量ベクトルの要素としては、例えば、喜怒哀楽等の感情、また、都会、山、川、海等の風景等の要素が挙げられる。
【0049】
入出力部12fは、学習済モデルMJを用いて、属性データDATと楽譜特徴量データDF1と歌詞特徴量データDF2とに基づいて、画像特徴量データDF3を生成する。すなわち、入出力部12fは、属性データDATと楽譜特徴量データDF1と歌詞特徴量データDF2とを学習済モデルMJに対する入力データとすることにより、画像特徴量データDF3を学習済モデルMJの出力データとして取得する。
【0050】
画像特徴量データDF3は、期間データDMMの示す期間ごとに、画像の特徴量を特徴量ベクトルで示すデータである。画像の特徴量ベクトルの要素としては、例えば、喜怒哀楽等の感情、また、都会、山、川、海等の風景等の要素が挙げられる。
【0051】
生成部13は、マッチング部13aと画像取得部13bとを含む。
【0052】
マッチング部13aは、画像特徴量データDF3に基づいて画像IDを出力する。本実施形態では、画像群データDGGは、画像を示す複数の画像データDGのほか、複数の画像データDGの画像IDと画像の特徴量ベクトルとの対応関係を示す画像属性テーブルGTを含む。そして、マッチング部13aは、画像特徴量データDF3の示す特徴量ベクトルと画像属性テーブルGT中の複数の特徴量ベクトルのそれぞれとの類似度を算出し、最も類似度の高い特徴量ベクトルの画像IDを出力する。
【0053】
画像取得部13bは、画像群データDGGから画像IDに対応する画像データDGを取得する。そして、画像取得部13bは、取得した画像データDGに基づいて、映像データDMVを生成する。このとき、画像取得部13bは、画像データDGのトリミング、フレーム数の調整等の処理を適宜に行うことにより、映像データDMVを生成する。
【0054】
ここで、画像取得部13bは、期間データDMMに基づいて、楽曲データDMの示す楽曲の休符期間に応じて、映像データDMVの示す映像の切り替わりタイミングを調整してもよい。
【0055】
1-3.映像生成方法
図3は、実施形態に係る映像生成方法の流れを示す図である。当該映像生成方法は、前述の情報処理装置1を用いて実行される。当該映像生成方法では、
図3に示すように、まず、ステップST10において、前述の取得部11による楽曲データDMの取得が実行される。
【0056】
次に、ステップST20において、前述の取得部11による属性データDATの取得が実行される。なお、ステップST20は、ステップST10の前に実行されてもよい。
【0057】
ステップST10およびステップST20の実行後、ステップST30において、前述の推定部12による画像の特徴量の推定が行われる。
【0058】
具体的には、ステップST30は、ステップST31からステップST36を含む。ステップST31において、楽曲データDMに基づいて、前述の分離部12aによるボーカルデータDVの生成が実行される。
【0059】
次に、ステップST32において、ボーカルデータDVに基づいて、前述の音声認識部12cによる歌詞データDLYの生成が実行される。
【0060】
次に、ステップST33において、楽曲データDMに基づいて、前述の楽曲解析部12bによる楽譜データDMSの生成が実行される。なお、ステップST33は、ステップST31とステップST32との間で実行されてもよい。
【0061】
次に、ステップST34において、歌詞データDLYおよび楽譜データDMSに基づいて、前述の楽曲解析部12bによる期間データDMMの生成が実行される。
【0062】
次に、ステップST35において、期間データDMMの示す期間ごとに、楽譜データDMSの示す楽譜の特徴量が前述の楽譜特徴量抽出部12dにより抽出されるとともに、歌詞データDLYの示す歌詞の特徴量が前述の歌詞特徴量抽出部12eにより抽出される。このように、ステップST35において、前述の楽譜特徴量抽出部12dによる楽譜特徴量データDF1の生成と前述の歌詞特徴量抽出部12eによる歌詞特徴量データDF2の生成とが実行される。
【0063】
次に、ステップST36において、学習済モデルMJを用いて、楽譜特徴量データDF1および歌詞特徴量データDF2に基づいて、前述の入出力部12fによる画像特徴量データDF3の取得が実行される。
【0064】
以上のステップST30により、推定部12による画像の特徴量の推定結果として、画像特徴量データDF3が取得される。
【0065】
ステップST30の実行後、ステップST40において、前述の生成部13による映像の生成が実行される。
【0066】
具体的には、ステップST40は、ステップST41とステップST42とを含む。ステップST41において、画像特徴量データDF3に基づいて、画像のマッチングが行われる。すなわち、ステップST41において、前述のマッチング部13aによる画像IDの取得が実行される。
【0067】
次に、ステップST42において、画像IDに基づいて、前述の画像取得部13bによる画像データDGの取得が実行される。そして、画像取得部13bは、取得した画像データDGに基づいて、映像データDMVを生成する。
【0068】
以上のように、映像生成方法は、ステップST10とステップST30とステップST40とを含む。ここで、前述のように、ステップST10は、楽曲を示す楽曲データDMを取得する。ステップST30は、楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルMJを用いて、楽曲データDMに基づいて、楽曲データDMの示す楽曲に対応する画像の特徴量を所定期間ごとに推定する。ステップST40は、推定した特徴量に基づいて、楽曲データDMの示す楽曲に同期した映像を示す映像データDMVを生成する。当該所定期間は、楽曲データDMの示す楽曲の拍期間(本実施形態では小節に対応する期間)の整数倍の期間である。
【0069】
以上の映像生成方法では、楽曲のイメージに適合した映像を効率的に生成することができる。
【0070】
以上の情報処理装置1では、楽曲の特徴量と画像の特徴量との関係を機械学習した学習済モデルMJを用いて推定部12による推定が行われるので、未知の楽曲データDMであっても、過去のミュージックビデオ等の楽曲の特徴量と画像の特徴量との間に潜在する傾向のもとで統計的に妥当な映像データDMVを効率的に生成することができる。また、楽曲データDMの示す楽曲の小節に対応した期間の整数倍の期間ごとに推定部12による推定が行われるので、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすい。これは、小節が楽曲のイメージを表す時間的な最小単位であるとともに、一般的なミュージックビデオの映像が楽曲の曲調とともに小節の整数倍、例えば、1小節、8小節、16小節等で大きく変化するからである。以上から、楽曲のイメージに適合した映像を効率的に生成することができる。
【0071】
なお、推定部12による推定の単位期間は、楽曲データDMの示す楽曲の小節に対応した期間よりも短くてもよい。この場合、楽曲データDMの示す楽曲の拍期間の整数倍の期間ごとに推定部12による推定が行われる。これにより、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけることができる。これは、拍期間が楽曲を構成する時間的な最小単位であるからである。
【0072】
また、前述のように、推定部12による推定の単位期間である所定期間の長さを変化させることにより、当該所定期間の長さが一定である態様に比べて、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすいという利点がある。
【0073】
ここで、前述のように、推定部12は、楽曲データDMの示す楽曲の休符期間に応じて当該所定期間の長さを変化させることにより、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすい。
【0074】
本実施形態では、前述のように、楽曲データDMの示す楽曲が歌声を含む。このため、歌詞の文章、文節または単語に基づいて当該所定期間の長さを変化させることにより、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけやすいという利点がある。
【0075】
また、前述のように、推定部12は、楽譜特徴量抽出部12dと歌詞特徴量抽出部12eとを含む。楽譜特徴量抽出部12dは、楽曲データDMの示す楽曲の楽譜の特徴量を当該所定期間ごとに抽出する。歌詞特徴量抽出部12eは、楽曲データDMの示す楽曲の歌詞の特徴量を当該所定期間ごとに抽出する。本実施形態の学習済モデルMJは、楽譜の特徴量と歌詞の特徴量と画像の特徴量との関係を機械学習したモデルである。このように、楽曲データDMの示す楽曲の楽譜および歌詞の両方を考慮して、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけることができる。
【0076】
さらに、前述のように、推定部12は、楽曲解析部12bを含む。楽曲解析部12bは、楽曲データDMを解析することにより、楽曲データDMの示す楽曲の楽譜を示す楽譜データDMSを生成する。そして、楽曲解析部12bは、楽譜データDMSに基づいて、当該所定期間を示す期間データDMMを生成する。このため、期間データDMMを用いることにより、楽曲データDMの示す楽曲の楽譜に基づく期間ごとに推定部12による推定を行うことができる。
【0077】
また、前述のように、学習済モデルMJは、楽曲の特徴量と画像の特徴量と属性の特徴量との関係を機械学習したモデルである。推定部12は、学習済モデルMJを用いて、楽曲データDMのほか、楽曲データDMの示す楽曲の属性を示す属性データDATに基づいて、楽曲データDMの示す楽曲に対応する画像の特徴量を当該所定期間ごとに推定する。このため、楽曲データDMの示す楽曲の楽譜に現れない属性を考慮して、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけることができる。
【0078】
さらに、前述のように、取得部11は、楽曲データDMのほか、属性データDATを取得可能である。このため、ユーザーの意図に応じた属性を考慮して、推定部12の推定結果を楽曲データDMの示す楽曲のイメージに近づけることができる。
【0079】
また、前述のように、生成部13が楽曲データDMの示す楽曲の休符期間に応じて映像データDMVの示す映像の切り替わりタイミングを調整することにより、楽曲の内容と映像のマッチングとが不自然とならないように、映像データDMVの示す映像の切り替えることができる。
【0080】
1-4.学習装置の概略
図4は、実施形態に係る学習装置100のブロック図である。学習装置100は、複数のミュージックビデオデータDMV0を教師データとして用いて学習済モデルMJを作成するコンピューターまたはコンピューターシステムである。ミュージックビデオデータDMV0は、楽曲と当該楽曲に同期した映像とを示すデータである。ミュージックビデオデータDMV0には、例えば、既存のミュージックビデオ等が利用される。
【0081】
図4に示すように、学習装置100は、処理装置110と記憶装置120と通信装置130と入力装置140と表示装置150とを備える。これらは、単体または複数のバスで相互に通信可能に接続される。以下、
図4に基づいて、情報処理装置1の各部の概略を説明する。
【0082】
処理装置110は、学習装置100の各部を制御する装置である。処理装置110は、CPU等の単一または複数のプロセッサーで構成される。なお、処理装置110の機能の一部または全部は、DSP、ASIC、PLD、FPGA等のハードウェアで実現されてもよい。処理装置110は、各種の処理を並列的または逐次的に実行する。
【0083】
記憶装置120は、処理装置110が読取可能なプログラムおよびデータ等の情報を記憶する装置である。記憶装置120は、例えば、ハードディスクドライブで構成されるか、または、ROM、EPROM、EEPROM、RAM等の半導体メモリーで構成される。なお、記憶装置120の一部または全部は、学習装置100に通信可能に接続される外部のコンピューターまたはサーバー等の装置に設けてもよい。
【0084】
記憶装置120には、プログラムPR2と複数のミュージックビデオデータDMV0と学習済モデルMJとが記憶される。
【0085】
プログラムPR2は、学習装置100の動作を制御するためのプログラムであり、学習済モデルMJの生成のための後述の各種機能を実現する。プログラムPR2は、ユーザーによるインストール作業等により、記憶装置120に予め記憶される。
【0086】
通信装置130は、他装置と通信する機器である。通信装置130は、例えば、LTE4G、5G等の移動通信方式の通信回路、Wi-Fi(登録商標)またはBluetooth(登録商標)等の無線通信方式の通信回路、または、USB等の有線通信方式の通信回路を有する。
【0087】
入力装置140は、外部からの入力を受け付ける入力デバイスである。入力装置140は、例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサ等である。なお、入力装置140は、必要に応じて設けられ、省略されてもよい。
【0088】
表示装置150は、外部に対して情報を表示する表示デバイスである。表示装置150は、例えば、液晶パネル、有機ELパネル等の各種の表示パネルを含む。なお、表示装置150は、必要に応じて設けられ、省略されてもよい。
【0089】
以上の概略の学習装置100では、処理装置110が記憶装置120からプログラムPR2を読み取って実行する。この実行により、処理装置110は、取得部111および学習部112として機能する。このように、学習装置100は、取得部111と学習部112とを備える。なお、処理装置110は、これらの機能のほか、適宜の処理を行う。
【0090】
取得部111は、複数のミュージックビデオデータDMV0を取得する。具体的には、取得部111は、例えば、ユーザーによる入力装置140の操作に基づいて、通信装置130を介して複数のミュージックビデオデータDMV0を取得する。本実施形態では、取得部111は、複数のミュージックビデオデータDMV0のほか、後述するように、ミュージックビデオデータDMV0ごとの属性データDAT0を取得する。
【0091】
学習部112は、複数のミュージックビデオデータDMV0に基づいて、楽曲の特徴量と画像の特徴量との所定期間ごとの関係を機械学習することにより、学習済モデルMJを生成する。当該所定期間は、当該機械学習に用いられる複数のミュージックビデオデータDMV0のそれぞれの示す楽曲の小節に対応した期間の整数倍の期間である。
【0092】
1-5.学習部の詳細
図5は、学習部112の詳細を説明するためのブロック図である。
図5に示すように、取得部111は、ミュージックビデオデータDMV0および属性データDAT0を取得する。取得部111による属性データDAT0の取得は、例えば、ユーザーによる入力装置140の操作に基づいて行われる。この取得は、予め作成された属性データDAT0を通信装置130を介して入力することにより行ってもよいし、ユーザーによる入力装置140の操作に基づいて属性データDAT0を作成することにより行ってもよい。
【0093】
属性データDAT0は、ミュージックビデオデータDMV0の示す楽曲の属性を示すデータである。属性データDAT0は、属性データDAT0と同様、例えば、属性ごとの要素の特徴量を特徴量ベクトルで示す。なお、学習装置100において、属性データDAT0は、ユーザーによる入力装置140の操作に基づいて取得される態様に限定されず、例えば、楽曲解析部12bの解析により取得される態様であってもよい。
【0094】
学習部112は、分離部12aおよび入出力部12fに代えて分離部12gおよび訓練部12kを含むとともに、画像抽出部12hおよび画像特徴量抽出部12iを含むこと以外は、前述の情報処理装置1の推定部12と同様である。なお、以下では、学習部112について推定部12と同様の事項については、その説明を適宜に省略する。
【0095】
分離部12gは、ミュージックビデオデータDMV0を楽曲データDMとボーカルデータDVと動画データDMOとに分離する。なお、分離部12gは、動画データDMOを分離する機能を追加したこと以外は、前述の分離部12aと同様である。
【0096】
画像抽出部12hは、期間データDMMの示す期間ごとに、動画データDMOに基づいて画像データDGを抽出する。これにより、複数の画像データDGが得られる。このようにして得られた複数の画像データDGは、例えば、前述の画像群データDGGに用いられる。
【0097】
画像特徴量抽出部12iは、画像データDGに基づいて、画像特徴量データDF3を生成する。具体的には、画像特徴量抽出部12iは、例えば、画像データDGの示す画像の喜怒哀楽、風景等の要素の特徴量を抽出することにより、画像特徴量データDF3を生成する。
【0098】
訓練部12kは、属性データDAT0と楽譜特徴量データDF1と歌詞特徴量データDF2と画像特徴量データDF3との組を教師データとして用いた深層学習等の機械学習により、学習済モデルMJを訓練する。具体的には、訓練部12kは、教師データに用いる属性データDAT0と楽譜特徴量データDF1と歌詞特徴量データDF2との入力に対して暫定的な学習済モデルMJが出力する画像特徴量データDF3と、教師データに用いる画像特徴量データDF3との相違が低減されるように、学習済モデルMJの複数の係数を更新する。例えば、訓練部12kは、当該相違を表す評価関数が最小化されるように、誤差逆伝播法により学習済モデルMJの複数の係数を反復的に更新する。以上の機械学習により設定された学習済モデルMJの複数の係数は、記憶装置120に記憶される。
【0099】
以上の機械学習後の学習済モデルMJは、当該教師データにおける属性データDAT0と楽譜特徴量データDF1と歌詞特徴量データDF2と画像特徴量データDF3との間に潜在する傾向のもとで、未知の属性データDAT0と楽譜特徴量データDF1と歌詞特徴量データDF2とに対して統計的に妥当な画像特徴量データDF3を出力する。
【0100】
1-6.学習装置の動作
図6は、学習装置100の動作を説明するための図である。学習装置100は、
図6に示すように、まず、ステップST110において、前述の取得部111によるミュージックビデオデータDMV0の取得が実行される。
【0101】
次に、ステップST120において、前述の取得部111による属性データDAT0の取得が実行される。なお、ステップST120は、ステップST110の前に実行されてもよい。
【0102】
ステップST110およびステップST120の実行後、ステップST130において、前述の学習部112による学習済モデルMJの生成が行われる。
【0103】
具体的には、ステップST130は、ステップST131からステップST137を含む。ステップST131において、ミュージックビデオデータDMV0に基づいて、前述の分離部12gによる楽曲データDMとボーカルデータDVと動画データDMOとの生成が実行される。
【0104】
次に、ステップST132において、ボーカルデータDVに基づいて、前述の音声認識部12cによる歌詞データDLYの生成が実行される。
【0105】
次に、ステップST133において、楽曲データDMに基づいて、前述の楽曲解析部12bによる楽譜データDMSの生成が実行される。なお、ステップST133は、ステップST131とステップST132との間で実行されてもよい。
【0106】
次に、ステップST134において、歌詞データDLYおよび楽譜データDMSに基づいて、前述の楽曲解析部12bによる期間データDMMの生成が実行される。
【0107】
次に、ステップST135において、動画データDMOに基づいて、前述の画像抽出部12hによる画像データDGの生成が実行される。なお、ステップST135は、ステップST131とステップST134との間で実行されてもよい。
【0108】
次に、ステップST136において、期間データDMMの示す期間ごとに、楽譜データDMSの示す楽譜の特徴量が前述の楽譜特徴量抽出部12dにより抽出されるとともに、歌詞データDLYの示す歌詞の特徴量が前述の歌詞特徴量抽出部12eにより抽出される。また、ステップST136において、画像データDGの示す画像の特徴量が前述の画像特徴量抽出部12iにより抽出される。このように、ステップST136において、前述の楽譜特徴量抽出部12dによる楽譜特徴量データDF1の生成と前述の歌詞特徴量抽出部12eによる歌詞特徴量データDF2の生成と前述の画像特徴量抽出部12iによる画像特徴量データDF3の生成とが実行される。
【0109】
次に、ステップST137において、楽譜特徴量データDF1と歌詞特徴量データDF2と画像特徴量データDF3とに基づいて、前述の訓練部12kによる学習済モデルMJの生成が実行される。
【0110】
以上のように、学習装置100は、取得部111と学習部112とを備える。ここで、前述のように、取得部111は、楽曲と当該楽曲に同期した映像とを示す複数のミュージックビデオデータDMV0を取得する。学習部112は、複数のミュージックビデオデータDMV0に基づいて、楽曲の特徴量と画像の特徴量との所定期間ごとの関係を機械学習することにより、学習済モデルMJを生成する。当該所定期間は、ミュージックビデオデータDMV0の示す楽曲の拍期間(本実施形態では小節に対応した期間)の整数倍の期間である。
【0111】
以上の学習装置100では、楽曲のイメージに適合した映像の効率的な生成に利用可能な学習済モデルMJを得ることができる。
【0112】
2.変形例
本開示は、前述の実施形態に限定されるものではない。また、本開示の各部の構成は、前述した実施形態の同様の機能を発揮する任意の構成のものに置換することができ、また、任意の構成を付加することもできる。
【0113】
2-1.変形例1
前述の形態では、楽曲データDMおよびミュージックビデオデータDMV0のそれぞれがボーカルデータDVを含む態様が例示されるが、この態様に限定されず、楽曲データDMおよびミュージックビデオデータDMV0のそれぞれがボーカルデータDVを含まなくてもよい。この場合、情報処理装置1および学習装置100のボーカルデータDVに関する構成が省略されてもよい。
【0114】
2-2.変形例2
前述の形態では、情報処理装置1の生成部13が画像特徴量データDF3に基づいて複数の画像データDGから1つの画像データDGを選択する態様が例示されるが、この態様に限定されず、例えば、生成部13が画像特徴量データDF3に基づいて新たな画像データDGを生成したり外部から画像データDGを取得したりしてもよい。
【符号の説明】
【0115】
1…情報処理装置、10…処理装置、11…取得部、12…推定部、12a…分離部、12b…楽曲解析部、12c…音声認識部、12d…楽譜特徴量抽出部、12e…歌詞特徴量抽出部、12f…入出力部、12g…分離部、12h…画像抽出部、12i…画像特徴量抽出部、12k…訓練部、13…生成部、13a…マッチング部、13b…画像取得部、20…記憶装置、30…通信装置、40…入力装置、50…表示装置、100…学習装置、110…処理装置、111…取得部、112…学習部、120…記憶装置、130…通信装置、140…入力装置、150…表示装置、DAT…属性データ、DAT0…属性データ、DF1…楽譜特徴量データ、DF2…歌詞特徴量データ、DF3…画像特徴量データ、DG…画像データ、DGG…画像群データ、DLY…歌詞データ、DM…楽曲データ、DMM…期間データ、DMO…動画データ、DMS…楽譜データ、DMV…映像データ、DMV0…ミュージックビデオデータ、DV…ボーカルデータ、GT…画像属性テーブル、MJ…学習済モデル、PR1…プログラム、PR2…プログラム、ST10…ステップ、ST110…ステップ、ST120…ステップ、ST130…ステップ、ST131…ステップ、ST132…ステップ、ST133…ステップ、ST134…ステップ、ST135…ステップ、ST136…ステップ、ST137…ステップ、ST20…ステップ、ST30…ステップ、ST31…ステップ、ST32…ステップ、ST33…ステップ、ST34…ステップ、ST35…ステップ、ST36…ステップ、ST40…ステップ、ST41…ステップ、ST42…ステップ。