(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-06-18
(45)【発行日】2025-06-26
(54)【発明の名称】音楽処理装置及び音楽処理アプリケーション
(51)【国際特許分類】
G10G 1/00 20060101AFI20250619BHJP
【FI】
G10G1/00
(21)【出願番号】P 2024187457
(22)【出願日】2024-10-24
【審査請求日】2024-11-01
【早期審査対象出願】
(73)【特許権者】
【識別番号】524392168
【氏名又は名称】株式会社raw
(73)【特許権者】
【識別番号】524392179
【氏名又は名称】西性 大輝
(74)【代理人】
【識別番号】100130029
【氏名又は名称】永井 道雄
(74)【代理人】
【識別番号】100185270
【氏名又は名称】原田 貴史
(72)【発明者】
【氏名】林 件頼
(72)【発明者】
【氏名】中野 雄太
【審査官】中村 天真
(56)【参考文献】
【文献】特開2010-134790(JP,A)
【文献】国際公開第2022/269796(WO,A1)
【文献】国際公開第2019/156091(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00-3/04
G10H 1/00-1/46
(57)【特許請求の範囲】
【請求項1】
音楽データを取得して処理を実行するプロセッサを有する音楽処理装置であって、
前記プロセッサは、
音楽の音楽データを第1所定時点から取得するデータ取得処理と、
取得した音楽データを処理することにより、前記第1所定時点より後の推測対象時点に音楽会場で発生する音楽の特徴を推測する推測処
理と、
前記推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、
を実行
し、
前記プロセッサが実行する推測処理は、
取得した音楽データを処理する第1処理と、
前記第1処理より後に行われ、かつ、取得した音楽データを学習済みモデルで処理することにより、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する第2処理と、
を含み、
前記プロセッサが実行する前記第1処理は、
前記第1所定時点から前記推測対象時点に至る合計所定時間の範囲の時間軸方向の位置が異なる複数の音楽データをクリッピング処理して複数の分析用データを生成する処理と、
生成された複数の分析用データのそれぞれについて、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する学習前又は学習中のモデルで処理して得られる出力データと、前記第1所定時点から前記推測対象時点以降の未来区間に至る音楽データを含む正解データとを比較し、比較結果である音楽の特徴の誤差を利用して前記学習前又は学習中のモデルを機械学習し、複数の分析用データのそれぞれに対応する、複数の前記学習済みモデルを生成する処理と、
を含む構成である、音楽処理装置。
【請求項2】
請求項1記載の音楽処理装置であって、
前記プロセッサが推測する音楽の特徴は、無音であるか否か、パート判別、楽器の種類、曲調、音楽が表現する人間の感情、のうち何れか1つ以上の項目を含む、音楽処理装置。
【請求項3】
請求項
1記載の音楽処理装置であって、
前記プロセッサが実行する前記第1処理は、前記第1所定時点から所定時間に亘って無音の音楽データを付加した
分析用データを前記学習前又は学習中のモデルで処理して、前記学習前又は学習中のモデルを機械学習することにより、1つの前記学習済みモデルを生成する処理を含む、音楽処理装置。
【請求項4】
請求項
1記載の音楽処理装置であって、
前記プロセッサが実行する前記推測処理は、前記第1所定時点より後であり、かつ、前記推測対象時点より前の第2所定時点において、前記音楽の特徴を推測する処理を含み、
前記第2所定時点から前記推測対象時点までの所定時間は、前記演出処理装置が、音楽の特徴の推測結果を取得する時点から、音楽の特徴に応じて人間が認識可能な演出を選択する時点までのタイムラグに相当する時間である、音楽処理装置。
【請求項5】
音楽データを取得するコンピュータに処理を実行させる非一時的な音楽処理アプリケーションであって、
前記コンピュータに、
音楽の音楽データを
第1所定時点から取得するデータ取得処理と、
取得した音楽データを処理することにより、前記
第1所定時点より後の
推測対象時点に音楽会場で発生する音楽の特徴を推測する推測処
理と、
前記推測処
理で得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、
を実行させ、
前記コンピュータに実行させる推測処理は、
取得した音楽データを処理する第1処理と、
前記第1処理より後に行われ、かつ、取得した音楽データを学習済みモデルで処理することにより、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する第2処理と、
を含み、
前記コンピュータに実行させる前記第1処理は、
前記第1所定時点から前記推測対象時点に至る合計所定時間の範囲の時間軸方向の位置が異なる複数の音楽データをクリッピング処理して複数の分析用データを生成する処理と、
生成された複数の分析用データのそれぞれについて、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する学習前又は学習中のモデルで処理して得られる出力データと、前記第1所定時点から前記推測対象時点以降の未来区間に至る音楽データを含む正解データとを比較し、比較結果である音楽の特徴の誤差を利用して前記学習前又は学習中のモデルを機械学習し、複数の分析用データのそれぞれに対応する、複数の前記学習済みモデルを生成する処理と、
を含む構成である、音楽処理アプリケーション。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、演奏される音楽の音楽データを処理する音楽処理装置及び音楽処理アプリケーションに関する。
【背景技術】
【0002】
演奏される音楽の音楽データを処理する音楽処理装置(音楽画像出力装置)及び音楽処理アプリケーション(プログラム)の一例が、特許文献1に記載されている。特許文献1に記載されている音楽画像出力装置は、音楽が格納される音楽格納部と、音楽の出力指示を受け付ける出力指示受付部と、出力指示に応じて、音楽を出力する音楽出力部と、音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、1以上の属性値を用いて、画像を取得する画像取得部と、画像を出力する画像出力部とを具備する。
【0003】
また、特許文献1において、コンピュータがアクセス可能な記録媒体は、「音楽が格納される音楽格納部を具備し、前記コンピュータを、音楽が格納される音楽格納部と、音楽の出力指示を受け付ける出力指示受付部と、前記出力指示に応じて、前記音楽を出力する音楽出力部と、前記音楽の分析結果に基づく1以上の属性値を取得する属性値取得部と、前記1以上の属性値を用いて、画像を取得する画像取得部と、前記画像を出力する画像出力部として機能させるためのプログラム。」が記載されている。
【0004】
さらに、特許文献1には、「属性値取得部は、音楽の分析結果に基づく1以上の属性値を取得する。また、音楽の分析とは、例えば、音の分析でもよいし、歌詞の分析でもよい。音楽の分析は、音および歌詞の両方の分析であることは好適である。音の分析とは、例えば、音の特徴量を取得することであってもよい。特徴量とは、例えば、音の波形における振幅の変化、音の波形を構成する周波数成分の変化などである。特徴量は、例えば、音響特徴量ベクトルで表現されてもよい。音響特徴量ベクトルとは、振幅の変化、周波数成分の変化といった2以上の特徴量を成分とするベクトルである。ただし、特徴量の表現形式は問わない。」と記載されている。
【0005】
さらに、特許文献1には、「歌詞の分析とは、例えば、深層学習やSVMや決定木等の機械学習、形態素解析等を用いた自然言語処理によって、歌詞から自立語を取得することであってもよい。・・・表面的画面を特定する情報は、例えば、「海岸」、「花火」、「クリスマス」、「卒業式」などの用語である。また、内面的場面とは、ユーザの内面に関する場面であり、主観的場面といってもよい。」と記載されている。
【0006】
さらに、特許文献1には、「内面的場面を特定する情報は、例えば、「デート」、「恋人」、「緊張」、「リラックス」などの用語である。印象とは、ユーザの抱く印象である。印象を特定する情報は、例えば、「嬉しい」、「悲しい」、「寂しい」、「楽しい」などの用語である。・・・そして、属性値取得部は、例えば、格納部の学習情報を用いて、歌詞を構成する文章または当該文章を形態素解析し取得された文章のベクトルを、用語ごとの学習情報に適用し、各用語に対応するか否かを判断し、対応すると判断された1以上の用語を属性値として取得する。」と記載されている。さらに、特許文献1には、「かかる構成により、音楽の出力中に、当該音楽に応じた画像を出力できる。」と記載されている。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
本願発明者は、特許文献1に記載されている「音楽画像出力装置及びプログラム」では、演奏される音楽の所定時間後の展開に応じた画像の出力を支援できない、という課題を認識した。
【0009】
本実施形態の目的は、所定時間後に発生する音楽の展開に応じた演出を支援することの可能な、音楽処理装置及び音楽処理アプリケーションを提供することである。
【課題を解決するための手段】
【0010】
本実施形態は、音楽データを取得して処理を実行するプロセッサを有する音楽処理装置であって、前記プロセッサは、音楽の音楽データを第1所定時点から取得するデータ取得処理と、取得した音楽データを処理することにより、前記第1所定時点より後の推測対象時点に音楽会場で発生する音楽の特徴を推測する推測処理と、前記推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、を実行し、前記プロセッサが実行する推測処理は、取得した音楽データを処理する第1処理と、前記第1処理より後に行われ、かつ、取得した音楽データを学習済みモデルで処理することにより、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する第2処理と、を含み、前記プロセッサが実行する前記第1処理は、前記第1所定時点から前記推測対象時点に至る合計所定時間の範囲の時間軸方向の位置が異なる複数の音楽データをクリッピング処理して複数の分析用データを生成する処理と、生成された複数の分析用データのそれぞれについて、前記推測対象時点に音楽会場で発生する音楽の特徴を推測する学習前又は学習中のモデルで処理して得られる出力データと、前記第1所定時点から前記推測対象時点以降の未来区間に至る音楽データを含む正解データとを比較し、比較結果である音楽の特徴の誤差を利用して前記学習前又は学習中のモデルを機械学習し、複数の分析用データのそれぞれに対応する、複数の前記学習済みモデルを生成する処理と、を含む構成である、音楽処理装置を設けた。
【発明の効果】
【0011】
本実施形態によれば、第1時点における音楽の展開に応じた演出を支援することが可能である。
【図面の簡単な説明】
【0012】
【
図1】音楽処理装置を含むシステムの具体例1を示す模式図である。
【
図2】システム全体で実行される処理例を示すフローチャートである。
【
図3】
図3(A)は、表示装置に表示される画面の一例を示す模式図、
図3(B)は、音楽データのクリッピング処理例を示す図である。
【
図4】
図4(A)及び
図4(B)は、学習済みモデルの生成例を示す図である。
【
図5】
図5(A)及び
図5(B)は、学習済みモデルの生成例を示す図である。
【
図6】
図6(A)及び
図6(B)は、学習済みモデルの生成例を示す図である。
【
図7】
図7(A)は、音楽処理装置を含むシステムの具体例2を示す模式図、
図7(B)は、音楽処理装置を含むシステムの具体例3を示す模式図である。
【発明を実施するための形態】
【0013】
(概要)
システムは、音楽処理装置及び演出処理装置を有し、音楽処理装置は、演奏会場で演奏される音楽の音楽データを処理する。音楽処理装置は、音楽に対応する演出を行なうために必要な情報を生成し、演出処理装置に対し、リアルタイム、かつ、自動的に提供する構成である。また、本実施形態には、システム及び音楽処理装置のいくつかの具体例、及び音楽処理アプリケーションのいくつかの具体例が、図面を参照して開示されている。
【0014】
(具体例1)
(1)全体構成
図1のように、システム10は、音楽処理装置11及び演出処理装置12を有する。
図1に示す具体例1は、音楽処理装置11及び演出処理装置12が演奏会場A1へ配置されている例である。演奏会場A1には、音楽の生演奏を聴覚で認識する人間(聴衆)が居る。音楽処理装置11は、ネットワーク13へ通信可能に接続されている。また、音楽処理装置11は、ネットワーク15を介して演出処理装置12へ通信可能に接続されている。マイクロフォン14は、音楽の演奏会場A1に設けられる機器である。マイクロフォン14は、演奏会場A1で実際に演奏される音楽の音を取得し、かつ、電気信号に変換して出力する。
【0015】
演奏会場A1は、コンサートホール、音楽スタジオ、多目的ホール、公会堂、体育館、野外劇場、等のうちの何れであってもよい。演奏会場A1で演奏される音楽の音源16は、人間(歌手)、楽器を含む。楽器は、通常楽器、電子楽器の何れであってもよい。通常楽器は、機械的な振動部分を備える楽器である。電子楽器は、機械的な振動部分を備えておらず、電子回路による発振音を用いる楽器である。
【0016】
さらに、演奏会場A1にコンピュータ62が設けられており、コンピュータ62のスピーカ62Aで音楽が再生される構成でもよい。コンピュータ62のスピーカ62Aで再生した演奏の音楽データは、ループバック機能によりコンピュータ62へ戻され、戻された音楽データが、マイクロフォン14を経由せずにネットワーク13を経由して音楽処理装置11へ送られる。なお、音楽処理装置11で取り扱われる音楽のジャンルは、ポップス、ロック、ダンス、ラテン、クラシック、行進曲、声楽、邦楽、等のうちの何れであってもよい。
【0017】
ネットワーク13,15は、無線通信システムまたは有線通信システムのうち、1以上の通信システムによりそれぞれ構成される。無線通信システムは、電波通信、光通信、赤外線通信、ラジオ波通信、衛星通信、等を含む。有線通信システムは、通信回路、通信ケーブル、アンテナ、を含む。ネットワークは、インターネット、イントラネット、ワイドエリアネットワーク、イントラネットのうち、1以上のネットワークを含む。ネットワーク13,15は、近距離無線通信を含む。近距離無線通信は、例えば、無線LAN(Wi-Fi(登録商標))、ブルートゥース(登録商標)を含む。
【0018】
音楽処理装置11は、ネットワーク13を通して音楽を取得し、かつ、各種の処理を実行することができる。音楽処理装置11は、演奏会場A1で演奏または再生される音楽に合わせて、演出設備50で演出を行なうための前処理を実行する。演出処理装置12は、演出設備50で実行する演出を、音楽処理装置11から取得した推測結果に基づいて、自動的に選択及び管理する構成である。演出設備50は、演奏会場A1で演奏または再生される音楽に合わせて、リアルタイムで演出を実行する構成である。演出設備50が実行する演出内容は、人間(聴衆)が視覚、触覚、嗅覚、等で認識可能なものである。
【0019】
(2)音楽処理装置の構成
音楽処理装置11は、本体(ケーシング)、プロセッサ17、主メモリ18、補助メモリ19、操作装置20、表示装置21、通信装置22等を備えたコンピュータである。プロセッサ17は、本体の内部に設けられ、かつ、演算装置(演算回路)と制御装置(制御回路)とが統合された中央演算処理装置(CPU(Central Processing Unit))により構成されている。プロセッサ17は、バス23を介して主メモリ18、補助メモリ19、操作装置20、表示装置21、通信装置22等へ通信可能に接続されている。
【0020】
プロセッサ17は、本体の内部に設けられた他の装置及び回路、本体の外部に設けられた装置及び回路を包括して制御する。また、プロセッサ17は、中央演算処理装置に加え、デジタルシグナルプロセッサ、特定用途向け集積回路(ASIC: Application Specific Integrated Circuit)、GPU等の演算処理回路を有している。
【0021】
GPUとは、(Graphics Processing Unit)の略であり、GPUは、3次元グラフィックの画像処理、等を行う際に必要な演算処理を行うグラフィックコントローラである。また、GPUは、音楽データの処理及び分析の段階において、音響モデルの構築を行なう機械学習、具体的には、ディープラーニングを実行する構成を有する。
【0022】
プロセッサ17は、補助メモリ19に記憶されている非一時的なアプリケーションを動作させることにより、各種の処理を実行する。プロセッサ17が実行する処理は、プロセッサ17内で行う処理自体、判断、分析、推測、他の要素に対する制御及び指示、他の要素からの情報及び信号の取得、補助メモリ19への情報の記憶処理、等を含む。
【0023】
主メモリ18は、揮発性の記憶装置であり、主メモリ18は、プロセッサ17が処理を実行する場合に、ワーク領域及びバッファ領域として機能する。補助メモリ19は、不揮発性の記憶装置、つまり、非一時的な記憶媒体である。補助メモリ19には、非一時的なアプリケーションが記憶されている。アプリケーションは、プログラム、設定ファイル、データを保管するファイル、各種ライブラリ等を含む。
【0024】
また、補助メモリ19には、プロセッサ17が各種の処理を実行するために用いる各種の情報、プロセッサ17が各種の処理を実行した結果としての各種の情報、等が記憶される。補助メモリ19に記憶される各種の情報は、ここで、各種の情報は、情報自体、データ、グラフ、マップ、図表、等を含む。
【0025】
補助メモリ19は、主メモリ18より大容量であり、補助メモリ19は、プロセッサ17による入力命令及び出力命令により動作する。非一時的な記憶媒体である補助メモリ19は、例えば、磁気ディスク、光ディスク、フラッシュメモリ、等により構成される。磁気ディスクとしては、ハードディスクドライブが例示される。光ディスクとしては、コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、等が例示される。
【0026】
フラッシュメモリは、半導体メモリの一種であり、フラッシュメモリとしては、SDメモリーカード、USBフラッシュドライブ、ソリッドステートドライブ、等が例示される。補助メモリ19に含まれる1以上の要素は、本体へ取り付け及び取り外しができる記憶媒体19Aとして定義可能である。
【0027】
操作装置20は、音楽処理装置11を利用する“音楽処理管理者”により操作される。操作装置20は、音楽処理装置11の動作及び停止を切り替える場合、プロセッサ17で各種の処理を実行させる場合、表示装置21で情報を表示させる場合、ネットワーク13を介して音楽データを含む信号を取得する場合、演出処理装置12へ情報を送る場合、等において操作される。
【0028】
操作装置20は、例えば、キーボード、タッチパッド、マウス、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイ、等のうち、少なくとも何れか1つの要素を含む。これらの要素は、音楽処理装置11が、携帯型コンピュータであるか固定型コンピュータであるかにより、適宜、選択され、かつ、本体への取り付け構造が、適宜、選択される。つまり、操作装置20は、本体へ直接に取り付けられる構造、または、本体へケーブルを介して接続される構造を有する。
【0029】
表示装置21は、本体へ直接に取り付けられるか、または、本体へケーブルを介して接続される。表示装置21は、“音楽処理管理者”により目視されるディスプレイであり、ディスプレイは、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイ、等の構造を含む。これらのディスプレイは、音楽処理装置11が携帯型コンピュータであるか固定型コンピュータであるかにより、本体への接続構造が、適宜、選択される。なお、ディスプレイは、モニタと定義してもよい。表示装置21の画面には、各種の情報が表示される。また、表示装置21は、画面に操作ボタン、操作タブ、等を表示できる。つまり、表示装置21は、操作装置20の機能を兼ねることができる。
【0030】
通信装置22は、音楽処理装置11を、無線通信システムまたは有線通信システムのうち、少なくとも何れか一方の通信システムにより、ネットワーク13,15へそれぞれ接続する装置、機器及び規格を含む。通信装置22は、通信回路、ケーブル、アンテナ、通信用ポート、通信用コネクタ、通信用ハブ、等を含む。
【0031】
プロセッサ17の構成を具体的に説明する。プロセッサ17は、補助メモリ19に記憶されている非一時的なアプリケーションを動作させることにより、音楽データ処理部24、展開推測部27、人工知能部28として機能する構成である。
【0032】
音楽データ処理部24は、ネットワーク13を経由して取得した音楽の音楽データの分類及び分析、音楽データのクリッピング処理、分析用データの生成、分析用データの分析、等を行なう構成である。具体的に説明すると、音楽データ処理部24は、取得した音楽データ及び補助メモリ19に記憶されている情報に基づいて、音楽データの処理を行う。音楽データ処理部24が行う音楽データの処理は、音楽の特徴を分類及び分析することを含み、具体的には、音楽の状態、パートの判定、楽器の種類、音楽が表現する人間の感情、曲調、のうち1つ以上の項目を推定する処理を含む。なお、音楽データ処理部24が行うクリッピング処理、分析用データの生成、分析用データの分析、後述する。
【0033】
また、音楽データ処理部24は、音楽データの分析結果、及び補助メモリ19に記憶されている情報に基づき、人工知能部28と協働することにより、推測用データを生成する。推測用データは、展開推測部27が、演奏されている音楽の所定時間後の展開、つまり、音楽の特徴を推測する場合に利用されるデータである。
【0034】
展開推測部27は、推測用データ、及び補助メモリ19に記憶されている情報に基づき、人工知能部28と協働することにより、音楽の未来、つまり、所定時間後の展開を推測する。展開推測部27が行う処理の詳細は、後述する。
【0035】
人工知能部28は、プロセッサ17が取得した各種の情報、補助メモリ19に記憶されている各種の情報に基づいて、音楽データ処理部24と協働して音楽データの分析及び、学習前又は学習中のモデルの機械学習を行なって学習済みモデルを生成し、かつ、学習済みモデルを用いて音楽の所定時間後の展開を推測する構成を有する。
【0036】
人工知能部28は、トランスフォーマ、及びニューラルネットワーク等の言語モデル等を備え、かつ、生成的人工知能としての処理を行なうことができる。トランスフォーマは、GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)、等を含む。ニューラルネットワークは、例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)で構成されている。畳み込みニューラルネットワークは、主として畳み込み層、プーリング層、全結合層、等を有する。
【0037】
言語モデルは、機械学習アルゴリズムによる学習モデルの一例である。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン、ニューラルネットワークを利用した深層学習、等が挙げられる。人工知能部28は、上記のアルゴリズムを適宜適用することができる。
【0038】
人工知能部28が実行する機械学習は、教師あり学習、教師なし学習、半教師あり学習、強化学習の3種類を含む。教師あり学習は、教師データを含む学習データを用いて機械に学習を行わせる。教師データは、学習用の音楽データ(入力データ)と、正解データを含む音楽データ(出力データ)と、を使って機械(プロセッサ17)に学習させる方法で、音楽データセット(標本データ)に基づいた学習済みモデルを形成する。教師あり学習は、分類及び回帰の学習モデルを含む。分類は、取得した音楽データの特徴を分類(識別)することであり、回帰は、取得した音楽データの将来の特徴を推測(予測)することであり、時系列分析のタスクともいえる。教師なし学習は、正解の情報が付与されていない音楽データを使って学習させる方法で、音楽データセットの規則性や類似性に基づいて機械が学習済みモデルを形成する。また、教師なし学習は、音楽データに含まれる音楽の特徴の分類(識別)も含む。
【0039】
半教師あり学習は、教師あり学習と教師なし学習を組み合わせた機械学習の一つである。半教師あり学習は、ラベル付けされた音楽データと、ラベル付けされていない音楽データの両方を使用して、分類および回帰タスクのための人工知能モデルをトレーニングする。ラベルは、音楽データに対して付けられるタグや目印であり、ラベルは、音楽の特徴を含む。強化学習は、目的として設定した「スコア(音楽の特徴の推測結果)」を最大化できるように、機械に自ら試行錯誤しながら学習させる方法である。
【0040】
人工知能部28は、補助メモリ19に記憶されている各種の情報及びデータ、新たに取得する情報及びデータを、分析及び処理して機械学習を実行する。機械学習では、例えば、ニューラルネットワークを用いたディープラーニング(深層学習)が行なわれて、学習済みモデルが生成される。生成された学習済みモデルは、補助メモリ19へ記憶される。なお、音楽処理装置11は、複数の単数のコンピュータにより構成されていてもよいし、複数のコンピュータにより構成されていてもよい。
【0041】
音楽処理装置11が複数のコンピュータにより構成されていると、音楽データ処理部24を、異なるコンピュータに分離して設け、音楽データをクリッピング処理するコンピュータと、分析用データを生成するコンピュータとを、別々に構成することもできる。また、プロセッサ17が有する、音楽データ処理部24、展開推測部27、人工知能部28のうちの少なくとも1つの機能部が、ネットワーク13のウェブサイト上で動作するアプリケーション・プログラミング・インタフェースで構成されてもよい。例えば、音楽処理装置11から、ネットワーク13における指定URL(:Uniform Resource Locator)へ音楽データを送信(POST)すると、そのレスポンスとして、指定URLから、JSON(JavaScript Object Notation)形式のパラメータの一覧、及び演出処理内容等が、音楽処理装置11へ返却される構成でもよい。
【0042】
(3)演出処理装置の構成
演出処理装置12は、演出設備50で実行される演出を管理する“演出処理者”により操作されるコンピュータである。演出処理装置12は、例えば、可搬型コンピュータ、固定型コンピュータを含む。演出処理装置12は、ネットワークを介して演出設備50へ接続される。演出処理装置12は、本体(ケーシング)、プロセッサ30、メモリ31、操作装置32、表示装置33、通信装置34等を備えている。プロセッサ30は、本体の内部に設けられ、かつ、演算装置(演算回路)と制御装置(制御回路)とが統合された中央演算処理装置(CPU(Central Processing Unit))により構成されている。
【0043】
プロセッサ30は、バス35を介してメモリ31、操作装置32、表示装置33、通信装置34等へ通信可能に接続されている。プロセッサ30は、本体の内部に設けられた他の装置及び回路、本体の外部に設けられた装置及び回路を包括して制御する構成を有する。
【0044】
プロセッサ30は、取得した情報に基づいて処理を実行する。プロセッサ30が実行する処理は、メモリ31から情報を読み出す処理、音楽処理装置11から取得した情報の処理、操作装置32の操作内容の処理、表示装置33で表示する情報の処理、演出設備50に対する制御信号の出力、等を含む。メモリ31には、非一時的なアプリケーションが記憶されている。プロセッサ30は、非一時的なアプリケーションを読み込んで処理を実行する。また、メモリ31には、プロセッサ30により処理される情報が記憶されている。
【0045】
さらに、メモリ31には、音楽処理装置11から取得する“音楽の展開の推測結果”に基づき、演出処理装置12が演出処理を選択するための情報を含む。この情報は、音楽の特徴である各種のパラメータを示すラベルと、演出処理とを関連付けた情報を含む。これらの情報は、音楽の特徴の種類毎に、分類してメモリ31へ記憶されている。ここで、プロセッサ30が人工知能部を備えていると、プロセッサ30が、人工知能部の機能により、分類処理を自動的に行うことができる。また、演出処理者が操作装置32を操作して、例えば、演出内容に対して事前に音楽の特徴である各種パラメータを指定すると、プロセッサ30の人工知能部が、分類処理のデータとして利用することもできる。例えば、マルチモーダルAIであると、パラメータの指定に際し、各種パラメータの説明及び利用する演出内容を入力すると、パラメータ毎の一致度を表すJSONファイルが出力される。プロセッサ30は、JSONファイルを、分類処理のデータとして利用できる。
【0046】
通信装置34は、演出処理装置12を、無線通信システムまたは有線通信システムのうち、少なくとも何れか一方の通信システムにより、ネットワーク15及び演出設備50へ接続する装置、機器及び規格を含む。通信装置34は、通信回路、ケーブル、アンテナ、通信用ポート、通信用コネクタ、通信用ハブ、等を含む。
【0047】
操作装置32は、演出処理装置12へ情報及び指令等の入力を行なう場合、演出処理装置12で各種の処理を実行させる場合、演出処理装置12から演出設備50へ各種の情報を送る場合、演出処理装置12がネットワーク15を介して各種の情報を取得する場合、等において操作される。操作装置32は、例えば、キーボード、タッチパッド、マウス、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイ、等のうち、少なくとも何れか1つの要素を含む。
【0048】
表示装置33は、本体へ直接に取り付けられるか、または、本体へケーブルを介して接続されている。表示装置33は、“演出処理者”により目視されるディスプレイであり、ディスプレイは、液晶ディスプレイ、有機エレクトロルミネッセンスディスプレイ、等の構造を含む。なお、ディスプレイは、モニタと定義してもよい。表示装置33の画面には、操作ボタン、操作タブ、等を表示できる。つまり、表示装置33は、操作装置32の機能を兼ねることができる。
【0049】
(4)演出設備の構成
演出設備50は、演奏会場A1に配置されるか、または、演奏会場A1に居る人間(聴衆)から目視できる場所に配置される。演出設備50は、演出処理装置12から送られる制御信号で動作することにより、演奏会場A1で生演奏される音楽に適した演出を、自動的に行なう設備である。音楽に適した演出とは、演奏会場A1で演奏される音楽を聴く人間により目視可能であり、かつ、音楽の特徴にふさわしい演出、音楽の特徴と似た演出、音楽を盛り上げる演出、等を意味する。
【0050】
演出設備50は、例えば、ディスプレイ、レーザ光発射装置、煙幕生成装置、花火打ち上げ装置、水噴射装置、振動装置、照明装置、香り発生装置、等により構成される。ディスプレイは、音楽の特徴に応じた映像、例えば、静止画、動画、イラスト、等を表示できる。レーザ光射装置は、音楽の特徴に応じた色、方向、数、等のレーザ光を発射できる。煙幕生成装置は、音楽に応じた色、量、方向、等の煙幕を生成できる。花火打ち上げ装置は、音楽に応じた種類、方向、色、等の花火を打ち上げることができる。水噴射装置は、音楽の特徴に応じた色、方向、数、等の水を噴射できる。
【0051】
振動装置は、音楽の特徴に応じた振動を付与する電動モータを有する。振動装置は、演奏会場A1に設けられて聴衆が着席する椅子、演奏会場A1で聴衆へ配布されるデバイス、聴衆が所有している携帯型端末、例えば、スマートフォンまたはタブレット端末、等に設けられる。そして、携帯型端末に予めインストールされたアプリケーション、または、携帯型端末が接続されたウェブサイト上で動作するアプリケーションにより、音楽の特徴に応じて振動装置を動作させることができる。照明装置は、演奏会場A1に設けられており、音楽の特徴に合わせて照明の色等を調整できる。香り発生装置は、音楽の特徴に合わせて芳香ミストを噴射できる。演出設備50は、演出処理装置12から出力された制御信号に基づいて演出を実行する。
【0052】
(5)システムで実行される全体的な処理例
図2は、システム10で実行される処理例、つまり、音楽処理方法を示すフローチャートである。音楽処理装置11は、ステップS10で音楽データを取得
し、かつ、学習前又は学習中のモデルを機械学習して学習済みモデルを生成する処理を行なう。また、音楽処理装置11は、ステップS20で所定時間後における音楽の展開を推測する処理を行なう。さらに、音楽処理装置11は、音楽の展開の推測結果を、ステップS30で演出処理装置12へ提供、つまり、出力する。
【0053】
演出処理装置12は、取得した音楽の展開の推測結果に基づき、ステップS40で音楽の展開に応じた演出を選択する。音楽処理装置11は、学習処理を行なうために、ステップS10の処理を、所定の時間間隔で複数回(多数回)、繰り返して実行することができる。また、音楽処理装置11は、演奏会場A1で音楽が生演奏、または再生されている間、ステップS20の処理を複数回、繰り返し実行できる。このため、音楽処理装置11は、今回、ステップS20の処理を実行する場合、過去にステップS20で行った処理の結果を、ステップS10の処理結果として取り扱う。
【0054】
(6)音楽処理装置で実行される学習制御の一例
音楽処理装置11が行うステップS10の処理は、学習対象である音楽を分析して音楽データを取得する処理と、音楽データを分析して分析用データを生成する処理と、分析用データを分析する処理と、分析用データの分析結果に基づき推測用データを生成する処理と、を含む。学習対象である音楽データを分析する処理、分析用データを生成する処理、推測用データを生成する処理は、ステップS20で行う「音楽の展開を推測する処理」に必要な情報及びデータを得るために行われる。推測用データの意味は、後述する。
【0055】
また、音楽処理装置11は、第1の環境及び第2の環境の何れにおいても、ステップS10の処理を行なうことができる。第1の環境は、
図1に示す演奏会場A1で音楽が生演奏され、その音楽データがマイクロフォン14及びネットワーク13を介して音楽処理装置11へ送られる環境である。第2の環境は、コンピュータ62で再生される音楽の音楽テータが、ネットワーク13を介して音楽処理装置11へ送られる環境である。例えば、
図1に示すコンピュータ62の記録媒体に記録されている音楽が、スピーカ62Aで再生される環境を含む。また、ネットワーク13のウェブサイトで音楽が提供されており、コンピュータ62がウェブサイトから音楽を取得してスピーカ62Aで再生する環境を含む。第2の環境では、コンピュータ62のスピーカ62Aで再生した演奏の音楽データが、ループバック機能によりコンピュータ62へ戻される。コンピュータ62は、戻された音楽データを、マイクロフォン14を経由せずにネットワーク13を経由して音楽処理装置11へ送る。
【0056】
音楽処理装置11は、ネットワーク13を介して音楽(音声)を取得し、取得した音楽をステップS11で補助メモリ19へ録音、つまり、記憶する。また、音楽処理装置11の音楽データ処理部24は、ステップS12で補助メモリ19と協働し、音楽の音楽データに含まれる特徴をそれぞれ分析してパラメータ化(数値化)する。
図3(A)には、音楽データの特徴の一例を示す画面61が示されている。
【0057】
この画面61は、表示装置21へ表示できる。音楽データの特徴は、複数の大項目63を有し、各大項目63は、それぞれ小項目64に細分化されている。各小項目64に含まれるパラメータのレベルが、横軸のグラフ65で示されている。大項目63は、音楽の状態、パート判別、曲調、楽器、感情を含む。また、画面61には、音楽の指定ジャンルのパラメータ割合を示す円グラフ66、指定ジャンルに含まれる複数のパラメータの時系列の推移を示す線グラフ67も含まれている。
【0058】
音楽の状態は、無音であるか否かの推定、楽曲であるか否かの推定、等の小項目64を含む。パート判別は、前奏、間奏、後奏、Aパート、Bパート、Cパート、Dパート、Eパート、等の小項目64の判別を含む。曲調は、曲の調子から人間の感性に伝わる雰囲気であり、曲調は、例えば、ハイテンポ、ローテンポ、ブレイク、会話、語り、ノイズ、等の小項目64を含む。楽器は、人間の声の有無、楽器の種類の小項目64を含む。楽器の種類は、例えば、弦楽器、木管楽器、金管楽器、打楽器、シンセサイザ、鍵盤楽器、等である。感情は、例えば、無感情、喜び、怒り、哀しみ、楽しさ、安堵、恐怖、気分が良い、気分が悪い、盛り上がっている(高揚、または興奮)、落ち着いている、等の小項目64を含む。音楽データの分析中、小項目64に含まれるパラメータのレベル(数値)は、グラフ65で横軸方向に変化、つまり、増減する。また、画面61を表示装置21へ表示する場合、各小項目64のパラメータは、レベルの変化に応じて色が変化する。
【0059】
音楽処理装置11が音楽データを分析して曲調を推定する技術は、特許第7176133号公報、特開2006-23524号公報、特開2008-250113号公報、等に記載されているように公知であるため、詳細な説明を省略する。また、音楽処理装置11は、音楽の曲調を音楽のジャンルから推定することもできる。音楽データを分析して音楽のジャンルを推定する技術は、前述したように公知である。
【0060】
音楽処理装置11が行う楽器の推定は、人間の声の有無、楽器の種類の推定である。楽器の種類は、例えば、弦楽器、木管楽器、金管楽器、打楽器、シンセサイザ、鍵盤楽器、等の小項目を含む。なお、音楽データを分析して使用されている楽器の種類を推定する技術は、特開2003-15684公報、特開2005-49859公報、特表2006-508390公報、等に記載されているように公知であるため、詳細な説明を省略する。
【0061】
音楽処理装置11が推定する人間的な感情である喜びは、音楽の曲調がハイテンポであること、音楽が相対的に高音の領域、つまり、所定の周波数以上であること、等から推定可能である。怒りは、音楽が激しいこと、音楽が力強いこと、音楽が重低音であること、音楽のジャンルがロックであること、等から推定可能である。哀しみは、音楽がローテンポであること、楽器の種類、等から推定可能である。
【0062】
楽しさは、音楽の曲調がローテンポであること、音楽が相対的に高音の領域であること、音楽のジャンルがバラードであること、等から推定可能である。盛り上がりは、音楽の音量が相対的に大きいこと、音楽が相対的に高音であること、等から推定可能である。落ち着きは、音楽の周波数の変化に規則性があること、過度に高音または低音でないこと、音楽の音量が相対的に小さいこと、等から推定可能である。また、音楽処理装置11は、音楽のジャンルから感情を推定することも可能である。
【0063】
なお、音楽データから感情に関する情報を求める技術は、特開平9-230857号公報、特開2002-366173号公報、特開2004-61666号公報、特開2006-23524号公報、等に記載されているように公知であるため、詳細な説明を省略する。また、音楽処理装置11は、音楽に含まれる感情を、音楽のジャンルから推定することもできる。音楽データを分析して音楽のジャンルを推定する技術は、特開2002-215195号公報、特開2015-79110号公報、特開2017-54121号公報、等に記載されているように公知であるため、詳細な説明を省略する。
【0064】
また、音楽処理装置11は、上記のように分析した音楽データを、ステップS12で更にクリッピング処理し、かつ、分析用データを生成する。音楽処理装置11が分析データを生成する一例が、
図3(B)に示されている。
図3(B)に示す音楽データ60は前述した小項目に含まれる複数のパラメータのうち、何れか1つのパラメータに対応して作成されている。音楽データ60は、横軸に時間が示され、縦軸にパラメータのレベルが示されている。縦軸で起点P10から相対的に離れることに伴い、パラメータの数値が相対的に高いことを意味する。表示装置21は、音楽データ60を表示することができる。
【0065】
クリッピング処理では、音楽データが、時間領域の異なる複数種類の分析層、例えば、
図3(B)のように、所定時間(所定区間)TM1,TM2,TM3に区切られる。所定時間TM1は、開始時点T0(0秒)から、15秒後の時点T12までの区間である。所定時間TM1には、音楽データの全体の特徴が含まれる。開始時点T0は、音楽データの取得を開始する時点である。時点T1は、開始時点T0から、例えば、12秒が経過した時点である。所定時間TM2は、時点T1から時点T2までの区間であり、所定時間TM2は、例えば、3秒である。所定時間TM2には、音楽データの直近の展開が含まれる。時点T4は、音楽の特徴を推定する対象となる時点である。時点TY以後は未来区間であり、時点T2と時点TYとが同時に設定されている。時点T4は、時点T2から、例えば、3秒が経過した時点である。所定時間TM1に含まれる音楽データが、分析用データである。所定時間TM5に含まれる音楽データが、学習処理に用いられる正解データである。
【0066】
所定時間TM3は、時点T2から時点T4までの区間であり、かつ、未来区間(未来時間)である。また、開始時点T0から時点T4までの所定時間TM5は、音楽データを取得可能な限界時間(最大時間)であり、所定時間TM5は、例えば、18秒である。このため、時点T4より後では、音楽データが取得されない。なお、音楽データをクリッピング処理する場合、所定時間TM5に対応する範囲B1を、基準時点TXに対し時間軸で異なる位置に設定することができる。
図3(B)に示す例では、開始時点T0が時点TXと同時に設定されている。ステップS12においては、音楽データに含まれる全てのパラメータのうち、1以上のパラメータについて、分析用データが生成される。
【0067】
音楽処理装置11は、人工知能部28及び補助メモリ19と協働してステップS13の処理を実行する。音楽処理装置11が、ステップS13で行う処理は、ステップS12で得た各種の音楽データを処理及び分析して学習処理を行ない、推測用データを生成することである。学習処理は、学習前又は学習中のモデルの機械学習であり、推測用データは、人工知能部28が生成する学習済みモデルである。音楽処理装置11がステップS13で生成する推測用データは、音楽処理装置11がステップS20の処理を実行する場合に用いられる。音楽処理装置11は、ステップS10を繰り返し実行できるため、ステップS13で生成される推測用データは、最新の学習済みモデルに更新(差し替え)される。音楽処理装置11は、ステップS13の処理を実行するにあたり、ニューラルネットワークにおける多層構成、例えば、5層構成の畳み込み層を用いる。
【0068】
音楽処理装置11がステップS13において行う学習処理は、未来時間を含む正解データ、及び、未来時間を含まない分析用データ、の両方をセットとする大量のデータを作成する処理を含む。また、音楽処理装置11がステップS13において行う学習処理は、分析用データを学習前又は学習中のモデルで処理して得られる出力データと、正解データとを比較し、その比較結果、言い換えると、音楽の特徴の誤差を利用して学習済みモデルを生成する処理を含む。ステップS13の処理で用いる分析用データは、ステップS12で取得したものである。
【0069】
音楽処理装置11は、ステップS13において、音楽データに含まれる全てのパラメータのうち、少なくとも1以上のパラメータについて
分析用データを用意する。そして、分析用データを学習前又は学習中のモデルへ入力し、学習前又は学習中のモデルの出力データと正解データとを比較することで学習前又は学習中のモデルを機械学習し、学習済みモデルを生成する。
学習前又は学習中のモデルを機械学習して、複数の学習済みモデルを生成する例を、図4(A)、
図4(B)、
図5(A)、
図5(B)、
図6(A)、
図6(B)を参照し
て説明する。学習済みモデルの各生成例において、所定時間TM2,TM3に用いる分析層は、畳み込み層の最低一部を共有するが、最終層のみ共有しない構成である。なお、
図3(B)、
図4(A)、
図4(B)、
図5(A)、
図5(B)、
図6(A)、
図6(B)において、共通する技術事項には、同じ符号を付してある。
【0070】
図4(A)に示学習済みモデルの生成例では、開始時点T0が、基準時点TXより後に設定されている。そして、時点T1と時点T2との間に、時点T3が設定されている。また、時点T3と時点TYとが同時に設定されている。時点T3は、
学習前又は学習中のモデルが音楽データの特徴の推測を行なう時点である。時点T3から所定時間TM4後に時点T4が設定されている。所定時間TM4は、所定時間TM2または所定時間TM3のそれぞれを超え、かつ、所定時間TM1未満である。
学習前又は学習中のモデルは、時点T3において、時点T4の音楽データの特徴を推測するが、時点T4では音楽用データが無い。このため、
図4(A)の例では、事実上、
学習前又は学習中のモデルは、音楽データの特徴を推測できない。
【0071】
図4(B)に示す学習済みモデルの生成例では、基準時点TX及び開始時点T0が同時に設定され、かつ、時点T2,T3,TYが同時に設定されている。また、所定時間TM3,TM4が同じ長さである。
図4(B)に示す例では、
学習前又は学習中のモデルは、時点T3において、時点T4の音楽データの特徴を推測
して出力データを出力する。所定時間TM3は、全て未来区間である。
【0072】
図5(A)に示す学習済みモデルの生成例では、開始時点T0が、基準時点TXより前に設定されている。時点T3が時点T2と時点T4との間に設定されている。つまり、時点T3は、所定時間TM3の範囲内に位置する。また、時点T3,TYが同時に設定されている。
図5(A)に示す例では、
学習前又は学習中のモデルは、時点T3から、所定時間TM4後における時点T4の音楽データの特徴を推測
して出力データを出力する。なお、所定時間TM4は、所定時間TM3未満である。所定時間TM3は、一部に未来区間を含む。
【0073】
図5(B)に示す学習済みモデルの生成例では、開始時点T0が、基準時点TXより前に設定されている。また、時点T3,T4,TYが同時に設定されている。所定時間TM3には、未来区間が含まれない。
図5(B)に示す例では、
学習前又は学習中のモデルは、時点T3において、時点T4の音楽データの特徴をリアルタイムで判断
して出力データを出力する。
【0074】
図6(A)に示す学習済みモデルの生成例では、開始時点T0が、基準時点TXより前に設定されている。
図6(A)に示す開始時点T0は、
図5(B)に示す開始時点T0より前である。また、時点T3,T4が同時に設定され、時点T3,T4は、時点TYより前に設定されている。このため、所定時間TM3には、未来区間が含まれない。
図6(A)に示す例では、時点T4が時点TYより前に設定されている。その意味において、
学習前又は学習中のモデルは、時点TYより前、つまり、過去における音楽の特徴を推測しているという見方もできる。
【0075】
図6(B)の例は、取得できる音楽データの時間軸が、所定時間TM5未満である場合を示す。この場合は、開始時点T0より前に無音の音楽データを付加(挿入)して、基準時点TXを、仮想の開始時点T00を設定する。この処理により、開始時点T00から時点T4の間に所定時間TM5を確保できる。そして、時点T2,T3,TYを同時に設定し、
学習前又は学習中のモデルは、時点T3から時点T4における音楽の特徴を推定
し、学習前又は学習中のモデルの出力データと正解データとを比較して、学習済みモデルを生成する。このように、時間軸方向における範囲B1の位置が異なる複数の分析データを用いて
学習前又は学習中のモデルを機械学習し、複数の分析データのそれぞれに対応する、複数の学習済みモデルを生成することができる。
【0076】
なお、音楽データ処理部24が、ステップS12の処理を実行する場合、例えば、スペクトログラム、メルスペクトログラム、MFCC(メル周波数ケプストラム係数)等のうち、何れか1以上の手段を用いることができる。
【0077】
(7)音楽処理装置で実行される推測処理の一例
音楽処理装置11が、
図2のステップS20で音楽の展開を推測する具体例を説明する。音楽処理装置11は、ステップS21において“推測対象である音楽”を取得する。また、音楽処理装置11は、ステップS22において、推定対象である音楽の音楽データを分析及びクリッピング処理し、推定対象である音楽の分析用データ(今回データ・推定対象データ)を生成する。ステップS22の処理は、ステップS12の処理と略同様である。なお、ステップS22で生成される分析用データは、所定時間TM3に音楽データが無い、という点が、ステップS12で生成される分析用データ(過去データ)と相違する。
【0078】
音楽処理装置11は、ステップS22に次ぐステップS23において、推測対象時点における音楽の展開、つまり、音楽の特徴を推測する。音楽処理装置11は、ステップS22で得た音楽データの分析結果、及び前述のステップS13で生成された推測用データ、に基づいて、ステップS23の処理を行なう。音楽処理装置11は、ステップS23において、先ず、展開の推定対象である音楽の特徴、つまり、分析用データの分析結果と、推測用データとを比較する。音楽処理装置11は、次に、推定対象である音楽の分析用データにおける音楽の特徴と、複数の推測用データのうち、推定対象である音楽の分析用データにおける音楽の特徴に最も近似する音楽の特徴を有する推測用データに基づいて、推測対象時点における音楽の特徴を推測する。音楽処理装置11は、ステップS23の処理を実行して得られた音楽の特徴の推測結果を、ステップS30で演出処理装置12へ出力する。
【0079】
(8)演出処理装置が行う処理例
演出処理装置12は、
図2のステップS40において、音楽の特徴の推測結果を取得し、かつ、音楽の特徴の推測結果に基づいて、音楽の特徴に応じた演出を選択し、選択した演出を実行するように、演出設備50へ制御信号を送る。演出処理装置12が選択する演出は、人間が視覚で認識可能なものである。演出処理装置12がステップS40で行う演出の選択は、演出設備50のディスプレイで映像を表示させること、演出設備50のレーザ光射装置でレーザ光を発射させること、を含む。
【0080】
演出設備50のディスプレイで表示される映像のうち、喜びを表す映像は、例えば、紙吹雪、結婚式、山頂、朝日、等を含む映像が例示される。怒りを表す映像は、例えば、火山の噴火、拳、火炎、等の映像が例示される。哀しみを表す映像は、落ち葉、過疎地、人が天を仰ぐ、等の映像を含む。楽しさは、人の笑顔、球技でのゴールシーン、等の映像を含む。盛り上がりは、飛行機の上昇、雲の流れ、等の映像を含む。落ち着きは、凪の海、砂漠、等の映像を含む。さらに、ハイテンポを表す映像は、陸上競技の短距離走の映像が例示される。ローテンポを表す映像は、マラソン競技の映像が例示される。
【0081】
また、演出処理装置12がステップS40で行う演出の選択は、演出設備50の煙幕生成装置で煙幕を生成させること、演出設備50の花火打ち上げ装置で花火を打ち上げさせること、演出設備50の水噴射装置で水を噴射させること、を含む。
【0082】
(具体例2)
システム10の具体例2が、
図4(A)に示されている。音楽処理装置11は、演奏会場A1に配置されていてもよいし、演奏会場A1とは異なる環境に設けられていてもよい。音楽処理装置11は、ネットワーク41を介してサーバ42へ接続される。ネットワーク41は、ネットワーク13と同様に構成される。
【0083】
サーバ42は、プロセッサ42A、非一時的なメモリ42B、通信装置、等を有するコンピュータである。サーバ42は、ネットワーク41へウェブサイトを提供する構成である。サーバ42のメモリ42Bには、音楽処理装置11が
図2のステップS10及びステップS20及びステップS30を実行するために動作される非一時的なアプリケーションが記憶されている。
【0084】
図4(A)に示すシステム10において、音楽処理装置11は、ウェブブラウザを動作させて、サーバ42が提供しているウェブサイトへ接続できる。そして、音楽処理装置11は、ウェブブラウザ上でアプリケーションを動作させることができる。また、音楽処理装置11は、サーバ42からアプリケーションをダウンロードし、かつ、インストールすることにより、音楽処理装置11内でアプリケーションを動作させることもできる。音楽処理装置11は、アプリケーションを動作させることにより、
図2に示されたステップS10及びステップS20及びステップS30を実行することができる。
【0085】
このように、音楽処理装置11が、
図2の処理を実行するために動作されるアプリケーションは、音楽処理装置11へインストールされて動作するネイティブアプリケーション、ウェブブラウザ上で動作されるウェブアプリケーション、ハイブリッドアプリケーションのうちの何れであってもよい。ハイブリッドアプリケーションは、ネイティブアプリケーション及びウェブアプリケーションの両方の性質を備えている。つまり、前述したように、プロセッサ17がアプリケーションを動作させて機能する、音楽データ処理部24、展開推測部27、人工知能部28のうちの少なくとも1つの機能部が、ネットワーク13のウェブサイトに提供されて動作するアプリケーション・プログラミング・インタフェースで構成されてもよい。
【0086】
(具体例3)
システム10の具体例3が、
図4(B)に示されている。音楽処理装置11は、
図1の演奏会場A1に配置されるコンピュータ、または、演奏会場A1とは異なる環境に配置されるサーバの何れであってもよい。演出処理装置12は、複数のユーザ端末12Aを有する。複数のユーザ端末12Aは、演奏会場A1とは異なる環境、例えば、ユーザの自宅にそれぞれ設けられている。
【0087】
複数のユーザ端末12Aは、ネットワーク15を介して音楽処理装置11へ、それぞれ単独で接続できる構成である。複数のユーザ端末12Aは、プロセッサ、メモリ、操作装置、音声出力装置43、表示装置44、通信装置、等をそれぞれ単独で有するコンピュータである。音声出力装置43は、スピーカ、ヘッドホン、イヤホン等のように、電気信号を音声に変換して出力する。表示装置44は、表示装置33の構成と同様である。
【0088】
また、複数のユーザ端末12Aは、それぞれが有する表示装置44へ映像を表示することができる。音楽処理装置11は、演奏会場A1から取得した音声データを、ネットワーク15を介してユーザ端末12Aへそれぞれ送信する構成を有する。ユーザ端末12Aは、音楽処理装置11から取得した音声データを取得すると、音声出力装置43から音楽を出力できる。ユーザは、演奏会場A1で生演奏されている音楽を、ユーザ端末12Aに接続された音声出力装置43から聴くことができる。
【0089】
音楽処理装置11が
図2のステップS10及びステップS20及びステップS30を実行すると、各ユーザ端末12Aは、ステップS40を実行する。つまり、音楽の展開に応じた映像を表示装置44で表示することを選択する。
【0090】
(本実施形態の効果)
音楽処理装置11は、演奏会場A1で演奏される音楽の所定時間後の展開に応じた演出を支援することが可能である。また、音楽処理装置11は、畳み込みニューラルネットワークにより、時点T3以降における音楽の展開を推測する。このため、逐次推定モデルで音楽データを分析する場合に比べて、時点T3以降における音楽の特徴の全てを推測せずに済み、逐次推定モデルに比べて少ないデータ量で、時点T3以降における音楽の展開を推測できる。したがって、補助メモリ19に蓄積するデータ量の増加を抑制でき、かつ、分析処理の迅速化及び推定精度の向上を図ることができる。
【0091】
音楽処理装置11は、
図4(B)または
図6(B)のように、時点T3において、時点T4における音楽の特徴を推定することができる。ここで、所定時間TM3は、“演出処理装置12が推測結果を取得する時点T3から、音楽の展開の推測結果に応じた演出を選択する時点”までの間のタイムラグに相当する。したがって、時点T3以降における音楽の展開と、演出設備50が行う演出のタイミングとが、整合し易くなる。
【0092】
(他の説明)
本実施形態において、開始時点T0から時点T1までの時間間隔は、12秒に限定されない。また、開始時点T0から時点T2までの時間間隔は、15秒に限定されない。さらに、所定時間TM5は、18秒に限定されない。また、本実施形態で説明した事項の技術的意味の一例は、次の通りである。音楽処理装置11は、音楽処理装置及びコンピュータの一例である。プロセッサ17は、プロセッサの一例である。開始時点T0,T00は、第1所定時点の一例である。時点T4は、推測対象時点の一例である。ステップS10は、第1処理(学習段階)の一例であり、ステップS20は、第2処理(推測段階)の一例である。所定時間TM5は、合計所定時間の一例である。範囲B1は、範囲の一例である。所定時間TM3は、所定時間の一例である。所定時点T3は、第2所定時点の一例である。演奏会場A1は、音楽会場の一例である。音楽の状態、パート、楽器の種類、音楽が表現する人間の感情、曲調、等が、音楽の特徴の一例である。
【0093】
本実施形態に記載されているアプリケーションは、“アプリケーション製品”として把握することもできる。また、発生する音楽は、生演奏、及びスピーカから出力される音楽を含む。さらに、
図1に示す操作装置20及び表示装置21は、設けられていなくてもよい。所定時間TM1は、15秒間に限定されない。また、所定時間TM2,TM4は、それぞれ3秒間に限定されない。所定時間TM5は、例えば、3秒間に設定することが可能である。
【0094】
本実施形態には、下記の主題も記載されている。例えば、音楽データを取得して処理を実行する音楽処理装置と、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置と、を有するシステムであって、前記音楽処理装置は、音楽の音楽データを所定時点から取得するデータ取得処理と、取得した音楽データを処理することにより、前記所定時点より後の第1時点に音楽会場で発生する音楽の特徴を推測する推測処理ステップと、前記推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、を実行する構成のシステムが記載されている。
【0095】
また、音楽データを取得する音楽処理装置が実行する音楽処理方法であって、音楽処理装置が、音楽の音楽データを所定時点から取得するデータ取得処理と、取得した音楽データを処理することにより、前記所定時点より後の第1時点に音楽会場で発生する音楽の特徴を推測する推測処理ステップと、前記推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、を実行する音楽処理方法が記載されている。
【0096】
さらに、音楽データを取得するコンピュータに処理を実行させる非一時的な音楽処理アプリケーションが記録された記録媒体であって、前記音楽処理アプリケーションは、前記コンピュータに、音楽の音楽データを所定時点から取得するデータ取得処理と、取得した音楽データを処理することにより、前記所定時点より後の第1時点に音楽会場で発生する音楽の特徴を推測する推測処理ステップと、前記推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置へ提供する提供処理と、を実行させる音楽処理アプリケーションが記録された記録媒体が記載されている。
【産業上の利用可能性】
【0097】
本実施形態は、音楽データを処理する音楽処理装置、及びコンピュータに処理を実行させる音楽処理アプリケーションとして利用可能である。
【符号の説明】
【0098】
10…システム、11…音楽処理装置、12…演出処理装置、17…プロセッサ、A1…演奏会場、B1…範囲、T0,T00…開始時点、T3,T4…時点、TM3,TM5…所定時間
【要約】
【課題】音楽会場で発生する音楽の第1所定時点以降における展開に応じた演出を支援することの可能な音楽処理装置を提供する。
【解決手段】音楽データを取得して処理を実行するプロセッサ17を有する音楽処理装置11であって、プロセッサ17は、音楽の音楽データを第1所定時点から取得するデータ取得処理と、取得した音楽データを処理することにより、第1所定時点より後の推測対象時点に音楽会場で発生する音楽の特徴を推測する推測処理ステップと、推測処理ステップで得られた音楽の特徴の推測結果を、音楽の特徴に応じて人間が認識可能な演出を選択する演出処理装置12へ提供する提供処理と、を実行する構成である。
【選択図】
図1