IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7652255装置、合奏システム、音再生方法、及びプログラム
<>
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図1
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図2
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図3
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図4
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図5
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図6
  • 特許-装置、合奏システム、音再生方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-18
(45)【発行日】2025-03-27
(54)【発明の名称】装置、合奏システム、音再生方法、及びプログラム
(51)【国際特許分類】
   G10K 15/02 20060101AFI20250319BHJP
   G10K 15/04 20060101ALN20250319BHJP
【FI】
G10K15/02
G10K15/04 302D
【請求項の数】 7
(21)【出願番号】P 2023529312
(86)(22)【出願日】2021-06-23
(86)【国際出願番号】 JP2021023765
(87)【国際公開番号】W WO2022269796
(87)【国際公開日】2022-12-29
【審査請求日】2023-12-20
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100134359
【弁理士】
【氏名又は名称】勝俣 智夫
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(74)【代理人】
【識別番号】100206391
【弁理士】
【氏名又は名称】柏野 由布子
(72)【発明者】
【氏名】前澤 陽
(72)【発明者】
【氏名】水野 賀文
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2016-206575(JP,A)
【文献】特開2010-112981(JP,A)
【文献】特開2011-242560(JP,A)
【文献】特開2005-077485(JP,A)
【文献】特開2010-091794(JP,A)
【文献】中国特許出願公開第112447155(CN,A)
【文献】北原 鉄朗 TETSURO KITAHARA,BayesianBand:ユーザとシステムが相互に予測し合うジャムセッションシステム BayesianBand: Jam Session System Where User and System Mutually Predict Each Other's Performance,情報処理学会論文誌 論文誌ジャーナル Vol.50 No.12 [CD-ROM] IPSJ Journal,日本,社団法人情報処理学会,2010年01月18日,第50巻、第12号,pp.2949-2953
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/02
G10K 15/04
(57)【特許請求の範囲】
【請求項1】
第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられる装置であって、
前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、
を有し、
前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
装置。
【請求項2】
前記演奏音推定モデルは、前記演奏音に対応するリハーサル音源を学習する、
請求項1に記載の装置。
【請求項3】
第1会場と第2会場での遠隔合奏を実現させる合奏システムであって、前記第1会場に設けられる第1端末装置と、前記第2会場に設けられる第2端末装置とを備え、
前記第1端末装置は、
前記第1会場における第1演奏音を取得する第1取得部と、
前記第1演奏音を、前記第2端末装置に送信する第1送信部と、
前記第2会場における第2演奏音を前記第2端末装置から受信する第1受信部と、
前記第1受信部により受信された前記第2演奏音を、第2演奏音推定モデルに入力することにより、前記第2演奏音における未来の第2演奏推定音を推定する第1推定部と、
前記第2演奏推定音を出力する第1音出力部と
を有し、
前記第2端末装置は、
前記第2演奏音を取得する第2取得部と、
前記第2演奏音を前記第1端末装置に送信する第2送信部と、
前記第1演奏音を前記第1端末装置から受信する第2受信部と、
前記第2受信部によって受信された第1演奏音を、第1演奏音推定モデルに入力することにより、前記第1演奏音における未来の第1演奏推定音を推定する第2推定部と、
前記第1演奏推定音を出力する第2音出力部と
を有し、
前記第1演奏音推定モデルは、前記第1演奏音に対応する第1音信号を学習することによって、入力された前記第1演奏音から、前記第1演奏推定音を推定するように学習された学習済モデルであり、
前記第2演奏音推定モデルは、前記第2演奏音に対応する第2音信号を学習することによって、入力された前記第2演奏音から、前記第2演奏推定音を推定するように学習された学習済モデルである、
合奏システム。
【請求項4】
第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置が行う音再生方法であって、
前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、
前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
音再生方法。
【請求項5】
前記演奏音推定モデルは、前記演奏音に対応するリハーサル音源を学習する、
請求項4に記載の音再生方法。
【請求項6】
第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置に、
前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させる、
プログラムであって、
前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
プログラム。
【請求項7】
前記演奏音推定モデルは、前記演奏音に対応するリハーサル音源を学習する、
請求項6に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、装置、合奏システム、音再生方法、及びプログラムに関する。
【背景技術】
【0002】
歌唱や演奏の様子を撮影した映像をライブ配信するシステムがある(例えば特許文献1)。このシステムでは、歌唱者や演奏者等の演者は、それぞれ別の場所において演奏する。演奏場所にはそれぞれカメラが設けられている。センターは、各カメラから得られた映像を合成し、配信映像として受信端末に配信する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2008-131379号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、演者同士が遠隔にいる場合には、互いの音を、通信回線を介して受信して聴かなければならない。通信回線を介すると伝送に係る遅延が生じる場合があり、相手の音が遅れて聴こえることがある。このため、演者同士が遠隔にいる場合には、自然に合奏することが困難な場合があった。
【0005】
本発明は、このような事情に鑑みてなされたもので、その目的は、通信回線を介して受信した音を遅延なく再生することである。
【課題を解決するための手段】
【0006】
本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられる装置であって、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、を有し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、装置である。
【0007】
本発明の一態様は、第1会場と第2会場での遠隔合奏を実現させる合奏システムであって、前記第1会場に設けられる第1端末装置と、前記第2会場に設けられる第2端末装置とを備え、前記第1端末装置は、前記第1会場における第1演奏音を取得する第1取得部と、前記第1演奏音を、前記第2端末装置に送信する第1送信部と、前記第2会場における第2演奏音を前記第2端末装置から受信する第1受信部と、前記第1受信部により受信された前記第2演奏音を、第2演奏音推定モデルに入力することにより、前記第2演奏音における未来の第2演奏推定音を推定する第1推定部と、前記第2演奏推定音を出力する第1音出力部と、を有し、前記第2端末装置は、前記第2演奏音を取得する第2取得部と、前記第2演奏音を前記第1端末装置に送信する第2送信部と、前記第1演奏音を前記第1端末装置から受信する第2受信部と、前記第2受信部によって受信された第1演奏音を、第1演奏音推定モデルに入力することにより、前記第1演奏音における未来の第1演奏推定音を推定する第2推定部と、前記第1演奏推定音を出力する第2音出力部と、を有し、前記第1演奏音推定モデルは、前記第1演奏音に対応する第1音信号を学習することによって、入力された前記第1演奏音から、前記第1演奏推定音を推定するように学習された学習済モデルであり、前記第2演奏音推定モデルは、前記第2演奏音に対応する第2音信号を学習することによって、入力された前記第2演奏音から、前記第2演奏推定音を推定するように学習された学習済モデルである合奏システムである。
【0008】
また、本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置が行う音再生方法であって、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、音再生方法である。
【0009】
また、本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置に、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させるプログラムであって、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、プログラムである。
【発明の効果】
【0010】
通信回線を介して受信した音を遅延なく再生することができる。
【図面の簡単な説明】
【0011】
図1】実施形態に係る合奏システム1の概略を示す概略図である。
図2】実施形態に係る合奏システム1の構成の例を示すブロック図である。
図3】実施形態に係る学習済モデル120の例を示す図である。
図4】実施形態に係る学習済モデル120の例を示す図である。
図5】実施形態に係る学習済モデル120の例を示す図である。
図6】実施形態に係る合奏システム1が行う処理の流れを説明するシーケンス図である。
図7】実施形態に係る演奏者端末10が行う処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0012】
以下、実施形態に係る合奏システム1について図面を参照して説明する。以下では、合奏システム1を用いて遠隔にいる演者同士がセッション(遠隔合奏)する場合を例に説明する。これに限定されることはなく、音以外の任意のコンテンツを合成する場合に本実施形態に係る合奏システム1を適用することが可能である。
【0013】
図1は、実施形態に係る合奏システム1の概略を示す概略図である。合奏システム1は、演者による演奏音を、遠隔にいる他の演者に対してリアルタイムに送信するシステムである。
【0014】
図1に示すように、合奏システム1では、会場E1における演奏に係る音(第1演奏音)がマイクMC1により収音され、通信ネットワークNWを介して、セッション相手となる会場E2に送信される。
【0015】
会場E2では、通信ネットワークNWを介して受信された第1演奏音がスピーカSP2から出力される。また、会場E2では、会場E2における演奏音(第2演奏音)がマイクMC2により収音され、通信ネットワークNWを介して、会場E1に送信される。そして、会場E1では、通信ネットワークNWを介して受信された第2演奏音がスピーカSP1から出力される。また、合奏システム1では、第1演奏音と、第2演奏音とが、配信サーバ20に送信されてミキシングされ、配信サーバ20を介して視聴者端末30に配信される。
【0016】
合奏システム1では、通信ネットワークNWを介して受信したセッション相手の演奏音から、その未来の演奏音が推定される。ここで未来の演奏音とは、受信したセッション相手の演奏音における演奏位置Tよりも未来の演奏位置(T+Δt)において演奏される音である。
【0017】
具体的には、会場E1において第2演奏音が受信され、受信された第2演奏音に基づいて、その第2演奏音における未来の演奏音が推定される。また、会場E2において第1演奏音が受信され、受信された第1演奏音に基づいて、その第1演奏音における未来の演奏音が推定される。
【0018】
推定には、学習済モデルが利用される。学習済モデルは、演奏音に係る音信号を学習したモデルである。学習済モデルは、入力された演奏音から、その演奏音の未来の演奏音を推定するように学習される。
【0019】
具体的に、学習済モデルは、演奏音の音信号を学習データとして、学習モデルの機械学習(例えばディープラーニング)が実行されることにより作成される。学習モデルは、例えば、ニューラルネットワークまたは多分木等のモデルである。
【0020】
学習データの音信号は、例えば、楽器の演奏音をマイクで収音した音響信号である。音信号には、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データが含まれる。指示データは、音高(ノートナンバ)と強度(ベロシティ)とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔(デルタタイム)を指定する。
【0021】
つまり、合奏システム1では、通信ネットワークNWを介して受信した演奏音が、学習済モデルに入力される。学習済モデルは、入力された演奏音における未来の演奏音を推定して出力する。学習済モデルによって推定された未来の演奏音が、スピーカから出力される。
【0022】
具体的には、会場E1において第2演奏音が受信され、受信された第2演奏音が学習済モデル(第2演奏音推定モデル)に入力される。第2演奏音推定モデルは、第2演奏音に関する音信号を学習したモデルである。第2演奏音推定モデルは、入力された第2演奏音における未来の演奏音を推定する。第2演奏音推定モデルによって推定された演奏音は、スピーカSP1から出力される。
【0023】
会場E2において第1演奏音が受信され、受信された第1演奏音が学習済モデル(第1演奏音推定モデル)に入力される。第1演奏音推定モデルは、第1演奏音に関する音信号を学習したモデルである。第1演奏音推定モデルは、入力された第1演奏音における未来の演奏音を推定する。第1演奏音推定モデルによって推定された演奏音は、スピーカSP2から出力される。
【0024】
これにより、本実施形態の合奏システム1では、通信ネットワークNWを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置(T+Δt)よりも遅れた演奏位置Tの演奏音が受信された場合であっても、実際の演奏位置(T+Δt)における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。
【0025】
ここで、学習に用いられる学習データの音信号は、任意に決定されてよい。学習データの音信号は、少なくとも、推定対象とする演奏音に対応する音信号であればよいが、推定対象とする演奏音に似た演奏態様にて演奏された音であることが好ましい。演奏態様が似た演奏音を学習させることにより、推定の精度を向上させることが可能となるためである。
【0026】
例えば、学習データの音信号は、本番の遠隔合奏において、実際に演奏する演奏者による演奏音であることが好ましい。また、学習データの音信号は、本番の遠隔合奏において、実際に演奏される楽器を用いて演奏音であることが好ましい。学習データの音信号は、例えば、リハーサルにて演奏された演奏音(リハーサル音源)である。リハーサル音源を用いることによって、本番の遠隔合奏における演奏音を精度よく推定することができる。
【0027】
図2は、実施形態に係る合奏システム1の構成の例を示すブロック図である。ここでは、三つの演奏者端末10-1~10-3が遠隔演奏を行う場合を例示して説明する。しかしながらこれに限定されることはない。合奏システム1は、複数の演奏者端末10(演奏者端末10-1~10-N、Nは1とは異なる自然数)が遠隔演奏を行う場合に適用可能である。
【0028】
図1に示すように、合奏システム1は、例えば、三つの演奏者端末10-1~10-3と、配信サーバ20と、視聴者端末30を備える。なお、合奏システム1において、視聴者端末30が複数設けられていてもよい。
【0029】
演奏者端末10-1は、図1における会場E1に設けられるスマートフォンや携帯端末、タブレット、或いはPC(Personal Computer)などのコンピュータ装置である。演奏者端末10-1が備えるスピーカ部15は、図1のスピーカSP1に相当する。演奏者端末10-1が備えるマイク部16は、図1のマイクMC1に相当する。
【0030】
演奏者端末10-2は、図1における会場E2に設けられるスマートフォンや携帯端末、タブレット、或いはPCなどのコンピュータ装置である。演奏者端末10-2が備えるスピーカ部15は、図1のスピーカSP2に相当する。演奏者端末10-2が備えるマイク部16は、図1のマイクMC2に相当する。図1では省略されているが、演奏者端末10-3についても同様である。以下の説明では、演奏者端末10-1~10-3を区別しない場合には、単に、「演奏者端末10」と称する。
【0031】
合奏システム1において、演奏者端末10と、配信サーバ20と、視聴者端末30とは通信ネットワークNWを介して通信可能に接続される。通信ネットワークNWは、例えば、広域回線網、すなわちWAN(Wide Area Network)やインターネット、或いはこれらの組合せである。
【0032】
演奏者端末10は、例えば、通信部11と、記憶部12と、制御部13と、表示部14と、スピーカ部15と、マイク部16を備える。
【0033】
通信部11は、配信サーバ20と通信を行う。記憶部12は、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、演奏者端末10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。記憶部12は、例えば、学習済モデル120を記憶する。学習済モデル120は、学習済モデルを構築するために必要な情報である。学習済モデルを構築するために必要な情報とは、学習済モデルの構成や、使用するパラメータの設定値等である。例えば、学習済モデルが、入力層、中間層、出力層の各層を備えるCNN(Convolutional Neural Network)の構成である場合、学習済モデルの構成は、その各層のユニット数、中間層の層数、活性化関数などを示す情報である。使用するパラメータは、各階層のノードを結合する結合係数や重みを示す情報である。
【0034】
学習済モデル120について、図3図5を用いて説明する。図3は、演奏者端末10-1が記憶する学習済モデル120-1の例を示す図である。図4は、演奏者端末10-2が記憶する学習済モデル120-2の例を示す図である。図5は、演奏者端末10-3が記憶する学習済モデル120-3の例を示す図である。以下の説明では、学習済モデル120-1~120-3を区別しない場合には、単に、「学習済モデル120」と称する。
【0035】
図3図5に示すように、学習済モデル120は、例えば、対象会場No、演奏種別、及び学習済モデルなどの項目を備える。対象会場Noは、演奏される会場を一意に特定する番号などの識別情報である。演奏種別は、対象会場Noにて特定される会場にて行われる演奏の種別、例えば、演奏される楽器を示す情報である。学習済モデルは、対象会場Noにて特定される会場にて行われる演奏の演奏音に対応する学習済モデルである。
【0036】
図3の例では、学習済モデル120-1に、第2学習済モデルと、第3学習済モデルとが記憶されていることが示されている。第2学習済モデルは、対象会場No(2)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第3学習済モデルは、対象会場No(3)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(1)で特定される会場が、演奏者端末10-1が設けられる会場に相当する。対象会場No(2)、或いは対象会場No(3)で特定される会場は、セッション相手がいる会場に相当する。
【0037】
図4の例では、学習済モデル120-2に、第1学習済モデルと、第3学習済モデルとが記憶されていることが示されている。第1学習済モデルは、対象会場No(1)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第3学習済モデルは、対象会場No(3)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(2)で特定される会場が、演奏者端末10-2が設けられる会場に相当する。対象会場No(1)、或いは対象会場No(3)で特定される会場は、セッション相手がいる会場に相当する。
【0038】
図5の例では、学習済モデル120-3に、第1学習済モデルと、第2学習済モデルとが記憶されていることが示されている。第1学習済モデルは、対象会場No(1)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第2学習済モデルは、対象会場No(2)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(3)で特定される会場が、演奏者端末10-3が設けられる会場に相当する。対象会場No(1)、或いは対象会場No(2)で特定される会場は、セッション相手がいる会場に相当する。
【0039】
図3図5に示すように、学習済モデル120には、セッション相手となる演奏音を推定する学習済モデルが記憶される。
【0040】
図1の説明に戻り、制御部13は、演奏者端末10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、演奏者端末10を統括的に制御する。制御部13は、通信部11、記憶部12、表示部14、スピーカ部15、及びマイク部16のそれぞれを制御する。
【0041】
制御部13は、例えば、取得部130と、推定部131と、出力部132と、配信部133とを備える。取得部130は、セッション相手の演奏音を取得する。取得部130は、取得した演奏音を、推定部131に出力する。
【0042】
推定部131は、取得部130から取得した演奏音を、学習済モデルに入力させることにより、未来の演奏音を推定する。推定部131は、推定した演奏音を出力部132に出力する。
【0043】
出力部132は、推定部131から取得した演奏音を、スピーカ部15に出力させる。これにより、セッション相手の未来の演奏音が、スピーカ部15から放音される。
【0044】
なお、セッション相手が複数いる場合には、出力部132は、それぞれセッション相手の演奏音における未来の演奏音をミキシングした音を出力するようにしてもよい。
【0045】
配信部133は、マイク部16により収音された演奏音を、通信部11を介して、セッション相手の演奏者端末10、及び配信サーバ20に送信する。
【0046】
表示部14は、液晶ディスプレイなどの表示装置を含み、制御部13の制御に応じて、セッション相手の演奏に係る映像等の画像を表示する。スピーカ部15は、制御部13の制御に応じて、セッション相手の演奏音を出力する。
【0047】
配信サーバ20は、演奏に係る映像や音を配信するコンピュータ装置である。配信サーバ20は、例えば、サーバ装置、クラウド、PCなどである。
【0048】
配信サーバ20は、例えば、通信部21と、記憶部22と、制御部23とを備える。通信部21は、演奏者端末10のそれぞれと、視聴者端末30と通信を行う。
【0049】
記憶部22は、例えば、HDD、フラッシュメモリ、EEPROM、RAM、ROMなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部22は、配信サーバ20の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
【0050】
記憶部22は、例えば、配信情報220を記憶する。配信情報220は、配信される音に関する情報である。配信情報220は、例えば、配信先の視聴者端末30のリストや配信する内容を示す情報である。
【0051】
制御部23は、配信サーバ20がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部23は、例えば、取得部230と、合成部231と、配信部232とを備える。
【0052】
取得部230は、演奏者端末10それぞれから演奏音を取得する。取得部230は、取得したそれぞれの演奏音を示す情報を合成部231に出力する。
【0053】
合成部231は、取得部230から取得した、それぞれの演奏音をミキシングした合成音(合奏音)を生成する。合成部231は、例えば、各音源を圧縮し、圧縮した音源を加算することにより、合成音を生成する。合成部231は、生成した合成音を、配信部232に出力する。
【0054】
配信部232は、合成部231から取得した合成音を、視聴者端末30に配信する。
【0055】
視聴者端末30は、視聴者のコンピュータ装置である。視聴者端末30は、例えば、スマートフォン、PC、タブレット端末などである。視聴者端末30は、例えば、通信部31と、記憶部32と、制御部33と、表示部34と、スピーカ部35とを備える。
【0056】
通信部31は、配信サーバ20と通信を行う。記憶部32は、HDD、フラッシュメモリ、EEPROM、RAM、ROMなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部32は、視聴者端末30の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
【0057】
制御部33は、視聴者端末30がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部33は、視聴者端末30を統括的に制御する。制御部33は、通信部31、記憶部32、表示部34、スピーカ部35のそれぞれを制御する。
【0058】
表示部34は、液晶ディスプレイなどの表示装置を含み、制御部33の制御に応じて、遠隔合奏に係るライブ演奏の映像等の画像を表示する。
【0059】
スピーカ部35は、制御部33の制御に応じて、遠隔合奏に係るライブ演奏の合奏音を出力する。
【0060】
図6は、実施形態に係る合奏システム1が行う処理の流れを説明するシーケンス図である。以下のシーケンス図では、二つの演奏者端末10-1、10-2が遠隔演奏を行う場合を例示して説明する。
【0061】
演奏者端末10-1は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末10-2、及び配信サーバ20に送信する(ステップS10)。ここでの自会場は、演奏者端末10-1が設けられている会場である。
【0062】
演奏者端末10-2は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う(ステップS11)。ここでの他会場は、演奏者端末10-1が設けられている会場である。音処理の流れについては後で詳しく説明する。一方、演奏者端末10-2は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末10-1、及び配信サーバ20に送信する(ステップS12)。ここでの自会場は、演奏者端末10-2が設けられている会場である。演奏者端末10-2は、ステップS11、S12に示す処理を、セッションが終了するまで繰り返し実行する。
【0063】
演奏者端末10-1は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う(ステップS13)。ここでの他会場は、演奏者端末10-2が設けられている会場である。演奏者端末10-1は、ステップS10、S13に示す処理を、セッションが終了するまで繰り返し実行する。
【0064】
配信サーバ20は、第1会場の演奏音を受信する(ステップS14)。ここでの第1会場は、演奏者端末10-1が設けられている会場である。また、配信サーバ20は、第2会場の演奏音を受信する(ステップS15)。ここでの第2会場は、演奏者端末10-2が設けられている会場である。配信サーバ20は、第1会場の演奏音と、第2会場の演奏音とをミキシングする(ステップS16)。配信サーバ20は、ミキシングした合奏音を視聴者端末30に送信する(ステップS17)。視聴者端末30は、配信サーバ20から配信された合奏音を受信し、受信した合奏音をスピーカ部35に出力して再生する(ステップS18)。
【0065】
図7は、実施形態に係る演奏者端末10が行う音処理の流れを説明するフローチャートである。演奏者端末10は、別会場の演奏音を受信する(ステップS20)。演奏者端末10は、受信した演奏音の演奏位置Tから時間Δt進めた演奏位置(T+Δt)の演奏音を推定する(ステップS21)。演奏者端末10は、推定した演奏音をスピーカ部15から出力する(ステップS22)。演奏者端末10は、自会場の演奏音をマイク部16により収音する(ステップS23)。演奏者端末10は、自会場にて収音された演奏音を、セッション相手の演奏者端末10、及び配信サーバ20に送信する(ステップS24)。
【0066】
以上説明したように、実施形態の演奏者端末10は、会場E1と会場E2で遠隔合奏を行う場合において会場E1に設けられる。演奏者端末10は、推定部131を備える。推定部131は、演奏音における未来の演奏推定音を推定する。演奏音は、会場E2に設けられる装置(例えば、演奏者端末10-2)が収音した音である。推定部131は、演奏音を演奏音推定モデルに入力して演奏推定音を推定する。演奏音推定モデルは、入力された演奏音から、演奏推定音を推定する学習済モデルである。演奏音推定モデルは、演奏音に対応する音信号を学習した学習済モデルである。
【0067】
ここで、演奏者端末10は、「装置」の一例である。上述した実施形態では、会場Eに設けられた演奏者端末10が他会場の演奏音を推定して出力する場合を例示して説明した。しかしながらこれに限定されることはない。少なくとも会場Eに設けられている任意の装置によって、他会場の演奏音が推定されて出力されるように構成されてよい。会場Eに設けられている装置は、例えば、合奏音を配信する配信用のサーバ装置、或いは各会場の音をミキシングするミキサーなどのコンピュータ装置である。
【0068】
また、実施形態の合奏システム1は、演奏者端末10-1と10-2とを備える。演奏者端末10-1は会場E1に設けられる。演奏者端末10-2は、会場E2に設けられる。演奏者端末10は、取得部130と、通信部11と、推定部131と、出力部132とを備える。演奏者端末10-1の取得部130は、会場E1における第1演奏音を取得する。演奏者端末10-1の通信部11は、第1演奏音を、演奏者端末10-2に送信する。演奏者端末10-1の通信部11は、会場E2における第2演奏音を演奏者端末10-2から受信する。演奏者端末10-1の推定部131は、通信部11が受信した第2演奏音における未来の演奏音(第2演奏推定音)を推定する。推定部131は、学習済モデル(第2演奏音推定モデル)を用いて推定を行う。演奏者端末10-1の出力部132は、推定された音を出力する。
【0069】
演奏者端末10-2の取得部130は、会場E2における第2演奏音を取得する。演奏者端末10-2の通信部11は、第2演奏音を、演奏者端末10-1に送信する。演奏者端末10-2の通信部11は、第1演奏音を演奏者端末10-1から受信する。演奏者端末10-2の推定部131は、通信部11が受信した第1演奏音における未来の演奏音(第1演奏推定音)を推定する。推定部131は、学習済モデル(第1演奏音推定モデル)を用いて推定を行う。演奏者端末10-2の出力部132は、推定された音を出力する。
【0070】
学習済モデル(第1演奏音推定モデル)は、演奏音(第1演奏音)に係る音信号を学習したモデルである。学習済モデル(第2演奏音推定モデル)は、演奏音(第2演奏音)に係る音信号を学習したモデルである。これにより、実施形態の合奏システム1では、通信ネットワークNWを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置(T+Δt)よりも遅れた演奏位置Tの演奏音が受信された場合であっても、実際の演奏位置(T+Δt)における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。
【0071】
また、実施形態の演奏者端末10では、学習済モデルは、リハーサル音源に係る音信号を学習したモデルであってもよい。これにより、演奏音を精度よく推定することができる。
【0072】
また、図1における処理部(制御部13)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより施工管理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0073】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、サーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、上記のプログラムを所定のサーバに記憶させておき、他の装置からの要求に応じて、当該プログラムを、通信回線を介して配信(ダウンロード等)させるようにしてもよい。
【0074】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0075】
1・・・合奏システム、10・・・演奏者端末、11・・・通信部、12・・・記憶部、13・・・制御部、14・・・表示部、15・・・スピーカ部、16・・・マイク部、20・・・配信サーバ、30・・・視聴者端末、130・・・取得部、131・・・推定部、132・・・出力部、133・・・配信部
図1
図2
図3
図4
図5
図6
図7