IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-動画処理方法 図1
  • 特開-動画処理方法 図2
  • 特開-動画処理方法 図3
  • 特開-動画処理方法 図4
  • 特開-動画処理方法 図5
  • 特開-動画処理方法 図6
  • 特開-動画処理方法 図7
  • 特開-動画処理方法 図8
  • 特開-動画処理方法 図9
  • 特開-動画処理方法 図10
  • 特開-動画処理方法 図11
  • 特開-動画処理方法 図12
  • 特開-動画処理方法 図13
  • 特開-動画処理方法 図14
  • 特開-動画処理方法 図15
  • 特開-動画処理方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024128243
(43)【公開日】2024-09-24
(54)【発明の名称】動画処理方法
(51)【国際特許分類】
   G10H 1/00 20060101AFI20240913BHJP
   G10G 7/00 20060101ALI20240913BHJP
【FI】
G10H1/00 Z
G10G7/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023037114
(22)【出願日】2023-03-10
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】前澤 陽
【テーマコード(参考)】
5D182
5D478
【Fターム(参考)】
5D182CC10
5D478KK12
(57)【要約】
【課題】所望の演奏者が所望の鍵盤楽器を演奏しているかのような動画を簡便に生成する。
【解決手段】動画処理システムは、演奏者による第1鍵盤楽器の演奏を表す演奏動画Xから演奏者の手を含む第1参照部分R1を抽出し(Sa3)、第2鍵盤楽器の鍵盤部分Byに第1参照部分R1を重畳することで合成動画Yを生成する(Sa6)。
【選択図】図7
【特許請求の範囲】
【請求項1】
演奏者による第1鍵盤楽器の演奏を表す演奏動画から前記演奏者の手を含む第1参照部分を抽出し、
第2鍵盤楽器の鍵盤部分に前記第1参照部分を重畳することで合成動画を生成する
コンピュータシステムにより実現される動画処理方法。
【請求項2】
前記第1参照部分は、さらに、前記第1鍵盤楽器の鍵盤を含む
請求項1の動画処理方法。
【請求項3】
さらに、前記演奏者による演奏の内容を表す第2参照部分を前記演奏動画から抽出し、
前記合成動画の生成においては、さらに、前記第2参照部分を前記第2鍵盤楽器に重畳する
請求項1の動画処理方法。
【請求項4】
さらに、前記演奏者の手の表面における深度を表す深度情報を前記演奏動画から生成し、
前記合成動画の生成においては、前記第1参照部分における前記演奏者の手の表面の深度を前記深度情報に応じて制御する
請求項1の動画処理方法。
【請求項5】
前記合成動画の生成においては、仮想空間内に設置された仮想的な前記第2鍵盤楽器に前記第1参照部分を重畳する
請求項1の動画処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、動画を処理する技術に関する。
【背景技術】
【0002】
鍵盤楽器の演奏の様子を表す動画を提供する各種の技術が従来から提案されている。例えば特許文献1には、演奏者が楽器を演奏する動作の解析により生成された関節動作画像と、演奏時の身体変化を表す身体変化画像とを含む仮想画像を、利用者が視認する視界画像に重畳して表示装置に表示する構成が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2017/029915号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば所望の演奏者が所望の鍵盤楽器により演奏する動画を視聴したいという要求がある。特許文献1においては、演奏者による演奏を各種のセンサにより検出する必要があるから、前述の要求に沿う動画を生成することは現実的には困難である。以上の事情を考慮して、本開示のひとつの態様は、所望の演奏者が所望の鍵盤楽器を演奏しているかのような動画を簡便に生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本開示のひとつの態様に係る動画処理方法は、演奏者による第1鍵盤楽器の演奏を表す演奏動画から前記演奏者の手を含む第1参照部分を抽出し、第2鍵盤楽器の鍵盤部分に前記第1参照部分を重畳することで合成動画を生成する。
【図面の簡単な説明】
【0006】
図1】第1実施形態における映像システムのブロック図である。
図2】表示システムのブロック図である。
図3】演奏動画の模式図である。
図4】動画処理システムの機能的な構成を例示するブロック図である。
図5】合成動画の模式図である。
図6】仮想空間の模式図である。
図7】動画生成処理のフローチャートである。
図8】第2実施形態における演奏動画の模式図である。
図9】第2実施形態における合成動画の模式図である。
図10】第2実施形態における仮想空間の模式図である。
図11】第2実施形態における動画生成処理のフローチャートである。
図12】深度情報を利用した深度制御の説明図である。
図13】第3実施形態における動画生成処理のフローチャートである。
図14】第4実施形態における表示ユニットのブロック図である。
図15】第4実施形態における動画生成処理のフローチャートである。
図16】変形例における合成動画の模式図である。
【発明を実施するための形態】
【0007】
A:第1実施形態
図1は、第1実施形態に係る映像システム100の構成を例示するブロック図である。第1実施形態の映像システム100は、特定の演奏者(以下「目標演奏者P」という)が鍵盤楽器を演奏する動画(以下「合成動画Y」という)を利用者Uに提供するためのコンピュータシステムである。映像システム100は、動画処理システム10と表示ユニット20とを具備する。
【0008】
表示ユニット20は、利用者Uの頭部に装着される映像機器(HMD:Head Mounted Display)である。例えばゴーグル型またはメガネ型のHMDが、表示ユニット20として利用される。図2は、表示ユニット20の構成を例示するブロック図である。第1実施形態の表示ユニット20は、通信装置21と検出装置22と表示装置23とを具備する。
【0009】
検出装置22は、表示ユニット20の方向に応じた検出信号Qを出力するセンサである。具体的には、検出装置22は、角速度を検知するジャイロセンサ、または加速度を検知する加速度センサ等のセンサで構成される。前述の通り、表示ユニット20は利用者Uの頭部に装着されるから、検出装置22が生成する検出信号Qは、利用者Uの頭部の方向を表す信号とも表現される。
【0010】
通信装置21は、動画処理システム10との間で有線または無線により通信する。例えば、通信装置21は、検出装置22が生成した検出信号Qを動画処理システム10に送信する。また、通信装置21は、合成動画Yを表す動画データVyを動画処理システム10から受信する。
【0011】
表示装置23は、動画処理システム10による制御のもとで画像を表示する。具体的には、表示装置23は、通信装置21が受信した動画データVyを処理することで合成動画Yを表示する。例えば、液晶表示パネルまたは有機EL(Electroluminescence)パネル等の各種の表示パネルが、表示装置23として利用される。表示装置23は、現実空間からの到来光が透過しない非透過型の表示パネルであり、利用者Uの両眼の前方に設置される。合成動画Yは、右眼用画像と左眼用画像とで構成される立体視動画である。表示装置23が合成動画Yを表示することで、利用者Uは立体感を知覚可能である。
【0012】
図1の動画処理システム10は、合成動画Yを生成するためのコンピュータシステムである。動画処理システム10は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報装置により実現される。動画処理システム10は、制御装置11と記憶装置12と通信装置13と操作装置14とを具備する。なお、動画処理システム10は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現される。動画処理システム10は、表示ユニット20に搭載されてもよい。また、表示ユニット20を動画処理システム10の構成要素と解釈してもよい。
【0013】
制御装置11は、動画処理システム10の各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。
【0014】
記憶装置12は、制御装置11が実行するプログラムと、制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として利用される。なお、例えば、動画処理システム10に着脱される可搬型の記録媒体、または、制御装置11が通信網を介してアクセス可能な記録媒体(例えばクラウドストレージ)が、記憶装置12として利用されてもよい。
【0015】
操作装置14は、利用者Uからの指示を受付ける入力機器である。操作装置14は、例えば、利用者Uが操作する操作子またはタッチパネルである。なお、動画処理システム10とは別体の操作装置14が、動画処理システム10に対して有線または無線により接続されてもよい。
【0016】
通信装置13は、外部装置との間で有線または無線により通信する。具体的には、通信装置13は、表示ユニット20と通信する。例えば、通信装置13は、検出装置22が生成した検出信号Qを表示ユニット20から受信する。また、通信装置13は、合成動画Yを表す動画データVyを表示ユニット20に送信する。
【0017】
また、通信装置13は、例えばインターネット等の通信網(図示略)を介して動画配信システム200と通信する。動画配信システム200は、合成動画Yの素材として利用される動画(以下「演奏動画」という)Xを配信する配信サーバ装置である。具体的には、動画配信システム200は、演奏動画Xを表す動画データVxを送信する。通信装置13は、動画配信システム200から送信された動画データVxを受信する。なお、動画データVxの形式は任意である。
【0018】
図3は、演奏動画Xの模式図である。演奏動画Xは、目標演奏者Pが鍵盤楽器Kxを演奏している様子を表す動画である。例えば、現実空間において現実の目標演奏者Pおよび鍵盤楽器Kxを撮像することで演奏動画Xが収録される。具体的には、演奏動画Xは、鍵盤楽器Kxの鍵盤Bxと目標演奏者Pの右手HRおよび左手HLとを含む。演奏動画Xは、動画配信システム200に蓄積された既存の動画(例えばいわゆる「演奏してみた」動画)である。なお、鍵盤楽器Kxは「第1鍵盤楽器」の一例である。動画処理システム10は、演奏動画Xを処理することで合成動画Yを生成する。
【0019】
図4は、動画処理システム10の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、合成動画Yを生成するための複数の機能(動画抽出部51、動画生成部52および表示制御部53)を実現する。
【0020】
動画抽出部51は、図3に例示される通り、動画データVxが表す演奏動画Xから第1参照部分R1を抽出する。第1参照部分R1は、演奏動画Xの一部を構成する動画である。具体的には、第1参照部分R1は、演奏動画Xにおける目標演奏者Pの右手HRおよび左手HLと、鍵盤楽器Kxの鍵盤Bxとを含む動画である。動画抽出部51は、例えば、演奏動画Xのうち右手HRおよび左手HLと鍵盤Bxとで構成される領域以外の領域を透過画像に置換する。第1参照部分R1の抽出には、例えば深層ニューラルネットワーク等の訓練済モデルを利用した物体検出(Semantic Segmentation)等、公知の技術が任意に採用される。
【0021】
図4の動画生成部52は、第1参照部分R1を利用して合成動画Yを生成する。図5は、合成動画Yの模式図である。第1実施形態の合成動画Yは、仮想空間Zを表す動画である。なお、合成動画Yは、実際には右眼用画像と左眼用画像とで構成される立体視動画であるが、図5においては便宜的にひとつの画像として図示されている。
【0022】
図6は、仮想空間Zの模式図である。仮想空間Zには仮想カメラ(図示略)が設置される。仮想カメラは、仮想空間Zを撮像する仮想的な撮像装置である。合成動画Yは、仮想カメラにより仮想空間Zを撮像した動画である。
【0023】
図6に例示される通り、仮想空間Zには仮想的な鍵盤楽器(以下「目標鍵盤楽器Ky」という)が設置される。目標鍵盤楽器Kyは、自然楽器のグランドピアノを模擬した外観の仮想的な表示オブジェクトである。例えば、相異なる型式の鍵盤楽器に対応する複数の表示オブジェクトが記憶装置12に事前に記憶される。動画生成部52は、記憶装置12に事前に記憶された複数の表示オブジェクトのうち、操作装置14に対する操作で利用者Uが選択した表示オブジェクトを、目標鍵盤楽器Kyとして仮想空間Zに設置する。目標鍵盤楽器Kyは「第2鍵盤楽器」の一例である。
【0024】
図6に例示される通り、目標鍵盤楽器Kyは鍵盤部分Byを含む。鍵盤部分Byは、目標鍵盤楽器Kyのうち鍵盤に対応する部分である。なお、目標鍵盤楽器Kyに鍵盤は設置されない。すなわち、鍵盤部分Byは、自然楽器において鍵盤が存在すべき仮想的な平面である。
【0025】
図5および図6に例示される通り、動画生成部52は、仮想空間Z内において目標鍵盤楽器Kyの鍵盤部分Byに第1参照部分R1を重畳することで合成動画Yを生成する。第1参照部分R1は、仮想空間Z内の表示オブジェクトとして鍵盤部分Byに設置される。すなわち、鍵盤部分Byに第1参照部分R1が設置された状態の目標鍵盤楽器Kyが、仮想空間Z内において仮想カメラにより撮像される。したがって、目標演奏者Pが目標鍵盤楽器Kyを演奏しているかのような合成動画Yが表示装置23に表示される。
【0026】
動画生成部52は、通信装置13が受信した検出信号Qに応じて仮想空間Z内の仮想カメラの位置および方向を制御する。したがって、検出装置22が検出した利用者Uの頭部の方向に応じて、合成動画Yにおける仮想的な視線が制御される。合成動画Yの生成には、例えば3Dレンダリング等の公知の画像処理が利用される。
【0027】
図4の表示制御部53は、合成動画Yを表示装置23に表示する。具体的には、表示制御部53は、合成動画Yを表す動画データVyを通信装置13から表示ユニット20に送信する。なお、動画データVyの形式は任意である。以上の説明から理解される通り、第1実施形態の表示ユニット20は、仮想現実(VR:Virtual Reality)により合成動画Yを表示する。
【0028】
図7は、合成動画Yを生成する処理(以下「動画生成処理」という)のフローチャートである。例えば演奏動画Xのフレーム毎に動画生成処理が実行される。
【0029】
動画生成処理が開始されると、制御装置11(動画抽出部51)は、演奏動画Xを取得する(Sa1)。具体的には、制御装置11は、動画データVxを通信装置13により受信する。制御装置11(動画抽出部51)は、演奏動画Xに対して画像処理を実行する(Sa2)。画像処理は、演奏動画Xにおける鍵盤Bxを所定のサイズおよび形状に補正する補正処理を含む。補正処理は、例えば公知の台形補正である。制御装置11(動画抽出部51)は、補正後の演奏動画Xから第1参照部分R1を抽出する(Sa3)。
【0030】
制御装置11(動画生成部52)は、仮想空間Zに設定された目標鍵盤楽器Kyの鍵盤部分Byに第1参照部分R1を設置する(Sa4)。また、制御装置11(動画生成部52)は、検出信号Qが表す方向に応じて仮想空間Zにおける仮想カメラの位置および方向を設定する(Sa5)。そして、制御装置11(動画生成部52)は、仮想空間Z内の目標鍵盤楽器Kyおよび第1参照部分R1を仮想カメラにより撮像した合成動画Yを生成する(Sa6)。制御装置11(表示制御部53)は、合成動画Yを表す動画データVyを通信装置13から表示ユニット20に送信することで、合成動画Yを表示装置23に表示する(Sa7)。
【0031】
以上に説明した通り、第1実施形態においては、演奏動画Xから抽出された第1参照部分R1が目標鍵盤楽器Kyの鍵盤部分Byに重畳される。したがって、演奏動画Xにおける目標演奏者Pが目標鍵盤楽器Kyを演奏しているかのような合成動画Yを簡便に生成できる。
【0032】
第1実施形態においては、鍵盤楽器Kxの鍵盤Bxが目標演奏者Pの右手HRおよび左手HLとともに第1参照部分R1として抽出され、第1参照部分R1が目標鍵盤楽器Kyの鍵盤部分Byに重畳される。したがって、目標演奏者Pの右手HRおよび左手HLと第1参照部分R1の鍵盤Bxとが自然な位置関係にある合成動画Yを生成できる。
【0033】
第1実施形態においては特に、仮想空間Z内の目標鍵盤楽器Kyに第1参照部分R1が重畳される。したがって、現実的には存在しない鍵盤楽器を含む多様な目標鍵盤楽器Kyを、目標演奏者Pが恰も演奏しているかのような合成動画Yを生成できる。すなわち、利用者Uの所望の目標演奏者Pが所望の外観の目標鍵盤楽器Kyで演奏する様子を鑑賞するという特有の顧客体験を、利用者Uに提供できる。
【0034】
B:第2実施形態
第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
【0035】
図8は、第2実施形態における演奏動画Xの模式図である。第2実施形態の演奏動画Xは、第1実施形態と同様の第1参照部分R1(HR,HL,Bx)に加えて第2参照部分R2を含む。第2参照部分R2は、目標演奏者Pによる演奏の内容を表す動画である。具体的には、第2参照部分R2は、目標演奏者Pが演奏する楽曲の楽譜を含む。
【0036】
第2実施形態の動画抽出部51は、第1参照部分R1に加えて第2参照部分R2を演奏動画Xから抽出する。第2参照部分R2の抽出には、第1参照部分R1の抽出と同様に公知の技術が任意に採用される。
【0037】
図9は、第2実施形態における合成動画Yの模式図であり、図10は、第2実施形態における仮想空間Zの模式図である。図9および図10に例示される通り、第2実施形態の動画生成部52は、仮想空間Z内の目標鍵盤楽器Kyに第1参照部分R1と第2参照部分R2とを重畳する。第1参照部分R1は、第1実施形態と同様に、目標鍵盤楽器Kyの鍵盤部分Byに設置される。他方、第2参照部分R2は、仮想空間Z内において目標鍵盤楽器Kyの譜面台部分Mに設置される。
【0038】
譜面台部分Mは、目標鍵盤楽器Kyのうち譜面台に対応する部分である。具体的には、譜面台部分Mは、鍵盤部分Byの奥側かつ上方において鉛直方向に沿う仮想的な平面である。したがって、鍵盤部分Byと譜面台部分Mとは相互に交差する。
【0039】
図11は、第2実施形態における動画生成処理のフローチャートである。動画生成処理が開始されると、制御装置11(動画抽出部51)は、第1実施形態と同様に、演奏動画Xの取得(Sa1)と演奏動画Xに対する画像処理(Sa2)とを実行する。制御装置11(動画抽出部51)は、演奏動画Xから第1参照部分R1および第2参照部分R2を抽出する(Sb3)。
【0040】
制御装置11(動画生成部52)は、仮想空間Zに設定された目標鍵盤楽器Kyの鍵盤部分Byに第1参照部分R1を設置し、目標鍵盤楽器Kyの譜面台部分Mに第2参照部分R2を設置する(Sb4)。制御装置11(動画生成部52)は、第1実施形態と同様に、仮想カメラの設定(Sa5)と合成動画Yの生成(Sa6)とを実行する。また、制御装置11(表示制御部53)は、合成動画Yの動画データVyを通信装置13から表示ユニット20に送信する(Sa7)。
【0041】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、目標演奏者Pによる演奏の内容を表す第2参照部分R2が目標鍵盤楽器Kyとともに表示されるから、利用者Uは、第2参照部分R2を視認しながら目標演奏者Pによる演奏の様子を鑑賞できる。例えば、演奏中の楽曲の楽譜を随時に確認しながら目標演奏者Pによる演奏を鑑賞するという特有の顧客体験を、利用者Uに提供できる。
【0042】
第2実施形態においては特に、演奏動画Xから第2参照部分R2が抽出される。したがって、例えば演奏動画Xとは別個に第2参照部分R2が用意される形態と比較して、合成動画Yの生成のための構成および処理が簡素化される。
【0043】
C:第3実施形態
第3実施形態の動画抽出部51は、第1実施形態と同様に演奏動画Xから第1参照部分R1を抽出するほか、第1参照部分R1の深度情報Dを生成する。深度情報Dは、第1参照部分R1における目標演奏者Pの右手HRおよび左手HLの表面における深度を表すデータである。例えば、深度情報Dは、第1参照部分R1の画素毎に、目標演奏者Pの右手HRおよび左手HLの表面における深度を含む。深度は、例えば特定の基準面(例えば演奏動画Xにおける鍵盤Bxの表面)からの距離で表現される。
【0044】
動画抽出部51による深度情報Dの生成には公知の技術が任意に採用される、具体的には、深度情報Dの生成には、例えば深層ニューラルネットワーク等の訓練済モデル(例えばMiDaS)を利用した深度推定が利用される。
【0045】
第3実施形態における動画生成部52は、図12に例示される通り、第1参照部分R1における目標演奏者Pの右手HRおよび左手HLの表面の深度を深度情報Dに応じて制御する。具体的には、図12の例示から理解される通り、右手HRおよび左手HLの表面F1は、鍵盤Bxの表面F2と比較して高い位置に設定される。すなわち、目標演奏者Pの右手HRおよび左手HLが表面F2から突出する。
【0046】
図13は、第3実施形態における動画生成処理のフローチャートである。第1実施形態と同様に演奏動画Xの取得(Sa1)と演奏動画Xに対する画像処理(Sa2)とを実行すると、制御装置11(動画抽出部51)は、演奏動画Xから第1参照部分R1を抽出する(Sa3)。制御装置11(動画抽出部51)は、第1参照部分R1の深度情報Dを生成する(Sc1)。
【0047】
制御装置11(動画生成部52)は、第1参照部分R1における目標演奏者Pの右手HRおよび左手HLの表面F1の深度を深度情報Dに応じて制御する(Sc2)。制御装置11(動画生成部52)は、深度制御後の第1参照部分R1を、仮想空間Z内の目標鍵盤楽器Kyの鍵盤部分Byに設置する(Sa4)。以降の動作(Sa5~Sa7)は第1実施形態と同様である。
【0048】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、第1参照部分R1における目標演奏者Pの手H(HR,HL)に深度情報Dに応じた深度が付与されるから、目標演奏者Pの手Hが現実の演奏に近い立体感で表示される合成動画Yを生成できる。すなわち、高い現実感をもって目標演奏者Pの手Hを確認しながら目標演奏者Pによる演奏を鑑賞するという特有の顧客体験を、利用者Uに提供できる。なお、目標鍵盤楽器Kyに第2参照部分R2を重畳する第2実施形態の構成は、第3実施形態にも同様に適用されてよい。
【0049】
D:第4実施形態
図14は、第4実施形態における表示ユニット20のブロック図である。第4実施形態の表示ユニット20は、第1実施形態における検出装置22が、撮像装置24に置換された構成である。すなわち、第4実施形態においては、表示装置23と撮像装置24とが利用者Uの頭部に装着される。なお、表示装置23は、第1実施形態と同様に非透過型の表示パネルである。
【0050】
撮像装置24は、利用者Uが所在する現実空間を撮像することで撮像データVgを生成する。撮像データVgは、現実空間の動画(以下「収録動画G」という)を表す任意の形式のデータである。具体的には、撮像装置24は、例えば、撮影レンズ等の光学系と、光学系からの入射光を受光する撮像素子と、撮像素子による受光量に応じた撮像データVgを生成する処理回路とを具備する。
【0051】
撮像装置24は、利用者Uの頭部の前方(すなわち視線の方向)を撮像する。利用者Uは、現実空間内に設置された鍵盤楽器に頭部を向けた状態を維持する。したがって、収録動画Gは現実空間内の鍵盤楽器を含む。第4実施形態においては、収録動画Gに含まれる現実の鍵盤楽器を目標鍵盤楽器Kyとして合成動画Yが生成される。すなわち、制御装置11(動画生成部52)は、収録動画Gに含まれる目標鍵盤楽器Kyの鍵盤部分Byに第1参照部分R1を重畳することで合成動画Yを生成する。第4実施形態の鍵盤部分Byは、現実空間に設置された現実の鍵盤楽器の鍵盤である。
【0052】
図15は、第4実施形態における動画生成処理のフローチャートである。例えば演奏動画Xのフレーム毎に動画生成処理が実行される。
【0053】
動画生成処理が開始されると、制御装置11(動画抽出部51)は、第1実施形態と同様に演奏動画Xの取得(Sa1)と演奏動画Xに対する画像処理(Sa2)とを実行する。また、制御装置11(動画抽出部51)は、第1実施形態と同様に、演奏動画Xから第1参照部分R1を抽出する(Sa3)。
【0054】
制御装置11(動画抽出部51)は、現実空間の目標鍵盤楽器Kyを含む収録動画Gを取得する(Sd1)。具体的には、制御装置11は、表示ユニット20から送信された撮像データVgを通信装置13により受信する。
【0055】
制御装置11(動画抽出部51)は、撮像データVgが表す収録動画Gから目標鍵盤楽器Kyの鍵盤部分Byを検出する(Sd2)。目標鍵盤楽器Kyの検出には、例えば深層ニューラルネットワーク等の訓練済モデルを利用した物体検出等、公知の技術が任意に採用される。なお、第1参照部分R1の抽出(Sa1~Sa3)と鍵盤部分Byの抽出(Sd1,Sd2)との順番は反転されてもよい。
【0056】
制御装置11(動画生成部52)は、収録動画Gの鍵盤部分Byに第1参照部分R1を重畳することで合成動画Yを生成する(Sd3)。すなわち、収録動画Gを背景として第1参照部分R1が鍵盤部分Byに配置された合成動画Yが生成される。制御装置11(表示制御部53)は、第1実施形態と同様に、合成動画Yを表す動画データVyを通信装置13から表示ユニット20に送信する(Sa7)。以上の説明から理解される通り、第4実施形態の表示ユニット20は、拡張現実(AR:Augmented Reality)または複合現実(MR:Mixed Reality)により合成動画Yを表示する。
【0057】
以上に説明した通り、第4実施形態においては、撮像装置24が設置された現実空間内の目標鍵盤楽器Kyの鍵盤部分Byに第1参照部分R1が重畳される。したがって、例えば利用者Uが所有する鍵盤楽器等、現実空間内の目標鍵盤楽器Kyを、演奏動画Xの目標演奏者Pが演奏しているかのような合成動画Yを生成できる。
【0058】
第4実施形態においては特に、表示装置23および撮像装置24が利用者Uの頭部に装着される。以上の構成においては、利用者Uの頭部の位置および角度に応じて表示装置23および撮像装置24の位置および角度が変化する。すなわち、利用者Uの頭部の動作に連動して、表示装置23に表示される合成動画Yにおける目標鍵盤楽器Kyの位置および角度も変化する。したがって、利用者Uは、自身が所在する現実空間に恰も目標演奏者Pが存在するかのような感覚を知覚できる。すなわち、目標演奏者Pが利用者Uの近傍に存在するかのような特有の顧客体験を、利用者Uに提供できる。
【0059】
なお、目標鍵盤楽器Kyに第2参照部分R2を重畳する第2実施形態の構成は、第4実施形態にも同様に適用される。すなわち、収録動画Gに含まれる目標鍵盤楽器Kyの譜面台部分Mに演奏動画Xの第2参照部分R2が重畳される。また、深度情報Dを利用して第1参照部分R1の深度を調整する第3実施形態の構成も、第4実施形態に同様に適用される。例えば、第4実施形態において、目標演奏者Pの右手HRおよび左手HLの表面F1の深度が深度情報Dに応じて制御された第1参照部分R1が、目標鍵盤楽器Kyの鍵盤部分Byに重畳されてもよい。
【0060】
E:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0061】
(1)前述の各形態においては、第1参照部分R1が目標演奏者Pの右手HRおよび左手HLに加えて鍵盤楽器Kxの鍵盤Bxを含む形態を例示したが、鍵盤Bxは第1参照部分R1から省略されてよい。すなわち、動画抽出部51による鍵盤Bxの抽出が省略され、目標演奏者Pの右手HRおよび左手HLで構成される第1参照部分R1が目標鍵盤楽器Kyの鍵盤部分Byに重畳されてもよい。第1参照部分R1が鍵盤Bxを含まない形態においては、仮想空間Zの目標鍵盤楽器Kyが鍵盤を含む構成が好適である。以上の構成によれば、仮想空間Z内の目標鍵盤楽器Kyにおける仮想的な鍵盤を目標演奏者Pが演奏する合成動画Yが生成される。
【0062】
(2)演奏動画Xは、現実空間において収録された動画に限定されない。例えば、仮想空間に所在する仮想的な目標演奏者Pおよび仮想的な目標鍵盤楽器Kyを仮想カメラにより撮像した動画が、演奏動画Xとして利用されてもよい。
【0063】
(3)前述の各形態においては、合成動画Yが表示装置23に表示される形態を例示したが、合成動画Yの出力方法は以上の例示に限定されない。例えば、合成動画Yの動画データVyが動画配信システム200に送信および保存されてもよい。動画配信システム200は、例えばスマートフォン等の情報装置からの要求に応じて当該情報装置に動画データVyを配信する。
【0064】
(4)例えば表示ユニット20との間で通信網を介して通信するサーバ装置により動画処理システム10が実現されてもよい。動画処理システム10により生成された合成動画Yの動画データVyが通信網を介して表示ユニット20に送信され、合成動画Yが表示装置23に表示される。
【0065】
(5)前述の各形態においては、非透過型の表示パネルを表示装置23として利用したが、現実空間からの到来光が透過する透過型の表示パネルが表示装置23として利用されてもよい。透過型の表示パネルが表示装置23として利用される形態においては、表示装置23を介して利用者Uが視認可能な現実の鍵盤楽器(すなわち光学像)を背景の目標鍵盤楽器Kyとして、第1参照部分R1(さらには第2参照部分R2)が重畳される。
【0066】
(6)前述の各形態においては、利用者が直接的に視認する直視型の表示装置23を例示したが、例えば投射面に画像を投射する投射型の表示装置により合成動画Yを表示してもよい。例えば、投射型の表示装置は、現実空間に位置する鍵盤楽器(目標鍵盤楽器Ky)の鍵盤部分Byに第1参照部分R1および第2参照部分R2を投射する。
【0067】
(7)第2実施形態においては、演奏動画Xから第2参照部分R2を抽出したが、第2参照部分R2を取得する方法は、以上の例示に限定されない。例えば、演奏動画Xにおいて演奏されている楽曲の楽譜を表す第2参照部分R2が、演奏動画Xとは別個に用意され、例えば記憶装置12に記憶されてもよい。動画生成部52は、記憶装置12に記憶された第2参照部分R2を目標鍵盤楽器Kyの鍵盤部分Byに重畳することで合成動画Yを生成する。
【0068】
(8)第2実施形態においては、楽曲の楽譜を第2参照部分R2として例示したが、第2参照部分R2は楽譜に限定されない。例えば、図16に例示される通り、目標演奏者Pによる演奏の内容を表す案内画像が、第2参照部分R2として合成動画Yに含まれてもよい。案内画像は、第2実施形態の楽譜と同様に、例えば演奏動画Xから抽出される。
【0069】
図16の案内画像は、相異なる音高に対応する複数の単位領域Aを含む。複数の単位領域Aは、鍵盤Bxにおける複数の鍵の配列に沿って横方向に配列する。各単位領域Aは、縦方向に長尺な領域である。各音高の単位領域Aには、当該音高の演奏の時点を案内する指示子Nが表示される。各音高の指示子Nは、当該音高が演奏されるべき時点において下端に到達するように単位領域Aの上端から下端に向けて移動する。縦方向における指示子Nの表示長は、各音高の発音が維持されるべき継続長に相当する。したがって、利用者Uは、案内画像を視認することで、各音高の発音時点と継続長とを把握できる。
【0070】
(9)以上に例示した動画処理システム10の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと、記憶装置12に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶媒体が、前述の非一過性の記録媒体に相当する。
【0071】
F:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0072】
本開示のひとつの態様(態様1)に係る動画処理方法は、演奏者による第1鍵盤楽器の演奏を表す演奏動画から前記演奏者の手を含む第1参照部分を抽出し、第2鍵盤楽器の鍵盤部分に前記第1参照部分を重畳することで合成動画を生成する。以上の態様によれば、演奏動画から抽出された第1参照部分が第2鍵盤楽器の鍵盤部分に重畳されるから、演奏動画における演奏者が第2鍵盤楽器を演奏しているかのような合成動画を簡便に生成できる。
【0073】
「第2鍵盤楽器」は、第1鍵盤楽器とは別個の鍵盤楽器である。例えば、仮想空間に設置された仮想的な鍵盤楽器が第2鍵盤楽器の典型例である。すなわち、第2鍵盤楽器は、仮想現実(VR:Virtual Reality)により画像として表示されてよい。また、第2鍵盤楽器は、現実空間において画像として撮像された現実の鍵盤楽器でもよい。第2鍵盤楽器は、拡張現実(AR:Augmented Reality)または複合現実(MR:Mixed Reality)により第1参照部分とともに表示される。現実空間において光学像として観測される現実の鍵盤楽器が、拡張現実または複合現実により、第2鍵盤楽器として第1参照部分とともに表示されてもよい。
【0074】
鍵盤部分は、第2鍵盤楽器のうち鍵盤に対応する部分である。例えば、第2鍵盤楽器が仮想空間内の仮想的な鍵盤楽器である形態では、第2鍵盤楽器のうち鍵盤が配置されるべき部位が「鍵盤部分」に相当する。仮想的な鍵盤楽器が鍵盤を具備するか否かは不問である。第2鍵盤楽器が現実空間の鍵盤楽器である形態では、第2鍵盤楽器のうち実際に鍵盤が存在する部分が「鍵盤部分」である。
【0075】
態様1の具体例(態様2)において、前記第1参照部分は、さらに、前記第1鍵盤楽器の鍵盤を含む。以上の態様によれば、第1鍵盤楽器の鍵盤が演奏者の手とともに第1参照部分として抽出され、当該第1参照部分が第2鍵盤楽器の鍵盤部分に重畳される。したがって、演奏者の手と鍵盤とが自然な位置関係にある動画を生成できる。
【0076】
態様1または態様2の具体例(態様3)において、前記合成動画の生成においては、さらに、前記演奏者による演奏の内容を表す第2参照部分を前記第2鍵盤楽器に重畳する。以上の態様によれば、演奏者による演奏の内容を表す第2参照部分が第2鍵盤楽器とともに表示されるから、利用者は、第2参照部分を視認することで演奏の内容を確認しながら演奏者による演奏の様子を鑑賞できる。
【0077】
態様3の具体例(態様4)において、さらに、前記演奏動画から前記第2参照部分を抽出する。以上の態様においては、第2参照部分が第1参照部分とともに演奏動画から抽出される。したがって、例えば演奏動画とは別個に第2参照部分が用意される形態と比較して、合成動画の生成のための構成および処理が簡素化される。
【0078】
態様1から態様4の何れかの具体例(態様5)において、さらに、前記演奏者の手の表面における深度を表す深度情報を前記演奏動画から生成し、前記合成動画の生成においては、前記第1参照部分における前記演奏者の手の表面の深度を前記深度情報に応じて制御する。以上の態様によれば、第1参照部分における演奏者の手に深度情報に応じた深度が付与されるから、演奏者の手が現実の演奏に近い立体感で表示される合成動画を生成できる。
【0079】
態様1から態様5の何れかの具体例(態様6)において、さらに、現実空間の前記第2鍵盤楽器を含む収録動画を撮像装置から取得し、前記合成動画の生成においては、前記収録動画における前記第2鍵盤楽器の前記鍵盤部分に前記第1参照部分を重畳する。以上の態様においては、撮像装置が設置された現実空間内の第2鍵盤楽器に演奏者の手を重畳した合成動画が生成される。したがって、例えば利用者が所有する鍵盤楽器等、所望の第2鍵盤楽器を演奏者が演奏しているかのような合成動画を生成できる。
【0080】
態様6の具体例(態様7)において、さらに、前記合成動画を表示装置に表示し、前記表示装置および前記撮像装置は、利用者の頭部に装着される。以上の態様においては、利用者の頭部の位置および角度に応じて撮像装置および表示装置の位置および角度が変化する。すなわち、利用者の頭部の動作に連動して、表示装置に表示される合成画像における第2鍵盤楽器の位置および角度が変化する。したがって、利用者は、自身が所在する空間に恰も演奏者が存在するかのような感覚を知覚できる。
【0081】
態様1から態様5の何れかの具体例(態様8)において、前記合成動画の生成においては、仮想空間内に設置された仮想的な前記第2鍵盤楽器に前記第1参照部分を重畳する。以上の態様においては、仮想空間内の第2鍵盤楽器に第1参照部分が重畳される。したがって、現実には存在しない鍵盤楽器を含む多様な第2鍵盤楽器を演奏者が恰も演奏しているかのような合成動画を生成できる。
【0082】
本開示のひとつの態様(態様9)に係る動画処理システムは、演奏者による第1鍵盤楽器の演奏を表す演奏動画から前記演奏者の手を含む第1参照部分を抽出する動画抽出部と、第2鍵盤楽器の鍵盤部分に前記第1参照部分を重畳することで合成動画を生成する動画生成部と、を具備する。
【0083】
本開示のひとつの態様(態様10)に係るプログラムは、演奏者による第1鍵盤楽器の演奏を表す演奏動画から前記演奏者の手を含む第1参照部分を抽出する動画抽出部、および、第2鍵盤楽器の鍵盤部分に前記第1参照部分を重畳することで合成動画を生成する動画生成部、としてコンピュータシステムを機能させる。
【符号の説明】
【0084】
100…映像システム、200…動画配信システム、10…動画処理システム、11…制御装置、12…記憶装置、13…通信装置、14…操作装置、20…表示ユニット、21…通信装置、22…検出装置、23…表示装置、24…撮像装置、51…動画抽出部、52…動画生成部、53…表示制御部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16