特許7033365 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＴＭＩＫの特許一覧

特許7033365音楽処理システム、音楽処理プログラム、及び音楽処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-03-02

(45)【発行日】2022-03-10

(54)【発明の名称】音楽処理システム、音楽処理プログラム、及び音楽処理方法

(51)【国際特許分類】

G10G 1/04 20060101AFI20220303BHJP

【ＦＩ】

G10G1/04

【請求項の数】 4

(21)【出願番号】P 2021192834

(22)【出願日】2021-11-29

(62)【分割の表示】P 2020125761の分割

【原出願日】2020-07-22

(65)【公開番号】P2022022294

(43)【公開日】2022-02-03

【審査請求日】2021-11-29

【早期審査対象出願】

(73)【特許権者】

【識別番号】520275010

【氏名又は名称】株式会社ＴＭＩＫ

(74)【代理人】

【識別番号】100180275

【弁理士】

【氏名又は名称】吉田倫太郎

(74)【代理人】

【識別番号】100161861

【弁理士】

【氏名又は名称】若林裕介

(74)【代理人】

【識別番号】100194836

【弁理士】

【氏名又は名称】長谷部優一

(72)【発明者】

【氏名】玉井健二

【審査官】中村天真

(56)【参考文献】

【文献】国際公開第２０２１／１４５２１３（ＷＯ，Ａ１）

【文献】国際公開第２０２０／０８０２３９（ＷＯ，Ａ１）

【文献】特開２０２０－００３５３５（ＪＰ，Ａ）

【文献】韓国公開特許第１０－２０１９－００１０１３５（ＫＲ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｇ１／００－３／０４

Ｇ１０Ｈ１／００－１／４６

(57)【特許請求の範囲】

【請求項1】

１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された楽曲データと前記楽曲データの楽曲を構成する要素の属性を示す構成情報とを含む入力データに基づいて機械学習した学習モデルを用いて、楽曲を生成する楽曲生成手段を有し、
前記楽曲生成手段は、
入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、
前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、
前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し、
前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、
前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させる
ことを特徴とする音楽処理システム。

【請求項2】

前記楽曲生成手段が生成した生成楽曲を音楽的に調和した内容に整形する整形手段をさらに有することを特徴とする請求項１に記載の音楽処理システム。

【請求項3】

コンピュータを、
１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された学習用楽曲データを有する学習用データに基づいて機械学習した学習モデルを用いて、楽曲を生成する楽曲生成手段として機能させ、
前記楽曲生成手段は、
入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、
前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、
前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し、
前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、
前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させることを特徴とする音楽処理プログラム。

【請求項4】

音楽処理システムが行う音楽処理方法において、
前記音楽処理システムは、楽曲生成手段を備え、
前記楽曲生成手段は、１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された学習用楽曲データを有する学習用データに基づいて機械学習した学習モデルを用いて、楽曲を生成し、
前記楽曲生成手段は、
入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、
前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、
前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し、
前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、
前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させる
ことを特徴とする音楽処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音楽処理装置、音楽処理プログラム、及び音楽処理方法に関し、例えば、新たな楽曲の作曲に適用し得る。

【背景技術】

【0002】

従来、楽曲を作曲するための知識を有しないユーザについでも、容易に楽曲を生成することを支援するシステムとして、例えば、特許文献１の記載技術が存在する。

【0003】

特許文献１に記載されたシステムでは、ユーザの操作により、原曲に対するアレンジの程度を変えながら原曲の編曲を支援するシステムである。特許文献１に記載されたシステムでは、発音タイミングを除いた３つの属性（音高、音長、音の大きさ）のうちの少なくとも１つの属性によって音の状態を定義するとき、或る状態から次の状態への遷移確率を設定した遷移確率データを複数保持している。そして、特許文献１に記載されたシステムでは、選択する遷移確率データを選択することによって原曲をアレンジの程度を変えることができるため、音楽に関する知識を殆ど有しない利用者であっても、アレンジの程度を変えながら、原曲の編曲を行うことができる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００９－２０３２３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１の記載技術において、遷移確率データの属性からは発音タイミングが除かれているため、あくまで原曲をアレンジしたというだけで、作曲しているとは言い難い。

【0006】

そのため、原曲を入力としつつ、新たに作曲された曲を生成することができる音楽処理システム、音楽処理プログラム、及び音楽処理方法が望まれている。

【課題を解決するための手段】

【0007】

第１の本発明の音楽処理システムは、１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された楽曲データと前記楽曲データの楽曲を構成する要素の属性を示す構成情報とを含む入力データに基づいて機械学習した学習モデルを用いて、楽曲を生成する楽曲生成手段を有し、前記楽曲生成手段は、入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させることを特徴とする。

【0008】

第２本発明の音楽処理プログラムは、コンピュータを、１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された学習用楽曲データを有する学習用データに基づいて機械学習した学習モデルを用いて、楽曲を生成する楽曲生成手段として機能させ、前記楽曲生成手段は、入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させることを特徴とする。

【0009】

第３の本発明は、音楽処理システムが行う音楽処理方法において、前記音楽処理システムは、楽曲生成手段を備え、前記楽曲生成手段は、１チャンネル以上のメロディと１チャンネル以上のコードで構成された楽曲の譜面が記述された学習用楽曲データを有する学習用データに基づいて機械学習した学習モデルを用いて、楽曲を生成し、前記楽曲生成手段は、入力データに基づいて前記学習モデルを用いて入力データに対応する潜在変数の平均ベクトルと分散ベクトルを出力するエンコーダと、前記平均ベクトルと分散ベクトルを処理して潜在変数を生成する潜在変数処理手段と、前記学習モデルを用いて、前記潜在変数処理手段が生成した潜在変数に応じた入力データと同じ形式の出力データを出力するデコーダとを有し、前記楽曲生成手段は、入力データと共に、生成される楽曲の性質を操作するための操作パラメータの入力を受け付け、前記潜在変数処理手段は、前記潜在変数に、前記分散ベクトルと前記操作パラメータの組合せに応じたノイズを混入させることを特徴とする。

【発明の効果】

【0010】

本発明によれば、原曲を入力としつつ、新たに作曲された曲を生成することができる。

【図面の簡単な説明】

【0011】

【図1】第１の実施形態に係る音楽処理装置の機能的構成について示したブロック図である。

【図2】第１の実施形態に係る生成処理部に適用するＡＩの学習時の構成例について示したブロック図である。

【図3】第１の実施形態に係る生成処理部における楽曲生成時の構成例について示したブロック図である。

【図4】第１の実施形態に係る入力楽曲の例をスコア形式の譜面で表した例について示している。

【図5】第１の実施形態に係る入力楽曲の例におけるメロディチャンネルの譜面をＩＤ（数値）に変換した内容を表形式で示した図である。

【図6】第１の実施形態に係る入力楽曲の例におけるコードチャンネルの譜面をＩＤ（数値）に変換した内容を表形式で示した図である。

【図7】第１の実施形態に係るメロディチャンネルの各音符についてＩＤに変換するための変換表について示した図である。

【図8】第１の実施形態に係るコードチャンネルの各コードについてＩＤに変換するための変換表について示した図である。

【図9】第１の実施形態に係る整形処理部が行う整形処理の流れについて示したフローチャートである。

【図10】第１の実施形態で処理される整形前楽曲（生成楽曲）の例について示した図である。

【図11】第１の実施形態で処理される整形前楽曲の例におけるコード進行について示した図である。

【図12】第１の実施形態に係る整形処理部による各調のカウント結果について示した図である。

【図13】第１の実施形態で処理されるコード整形済楽曲の例について示した図である。

【図14】第１の実施形態で処理されるメロディ整形済楽曲の例について示した図である。

【図15】第１の実施形態で［操作パラメータ＝０］とした場合における生成楽曲の例について示した図である。

【図16】第１の実施形態で［操作パラメータ＝１０］とした場合における生成楽曲の例について示した図である。

【図17】第１の実施形態で［操作パラメータ＝２０］とした場合における生成楽曲の例について示した図である。

【図18】第２の実施形態に係る音楽処理装置の機能的構成について示したブロック図である。

【図19】第２の実施形態に係る生成処理部における楽曲生成時の構成例について示したブロック図である。

【発明を実施するための形態】

【0012】

（Ａ）第１の実施形態
以下、本発明による音楽処理システム、音楽処理プログラム、及び音楽処理方法の第１の実施形態を、図面を参照しながら詳述する。

【0013】

（Ａ－１）第１の実施形態の構成
図１は、この実施形態の音楽処理システム１０の全体構成を示すブロック図である。

【0014】

音楽処理システム１０は、新たに楽曲を生成して出力するシステムである。

【0015】

音楽処理システム１０は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。音楽処理システム１０は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の音楽処理プログラムを含む）をインストールすることにより構成するようにしてもよい。また、音楽処理システム１０を構成するコンピュータの数は限定されないものであり、複数台のコンピュータにプログラムやデータを分散して配置することにより実現するようにしてもよい。

【0016】

音楽処理システム１０は、入力楽曲データ、構成情報を含むデータ（以下、「入力データ」とも呼ぶ）と操作パラメータが入力されると、その入力データを利用して新たな楽曲を生成して出力する処理を行う。以下では、音楽処理システム１０が出力する楽曲データを、「出力楽曲データ」と呼ぶものとする。

【0017】

次に、入力楽曲データ／出力楽曲データについて説明する。

【0018】

この実施形態において、入力楽曲データ／出力楽曲データのデータ形式（入出力される音楽データの形式）は、スタンダードＭＩＤＩファイル（ＳｔａｎｄａｒｄＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅＦｉｌｅ；以下、「ＳＭＦ」と呼ぶ）の形式であるものとして説明するが入力楽曲データ／出力楽曲データに適用するデータ形式はスタンダードＭＩＤＩファイルの形式に限定されず種々の演奏情報（譜面データ）の形式のデータを適用することができる。また、音楽処理システム１０において、入力楽曲データ／出力楽曲データに適用するデータ形式として、ＳＭＦのような演奏情報の形式ではなく、ＷＡＶやＭＰ３等の直接的な音響信号の形式であってもよい。音楽処理システム１０において、入力楽曲データ／出力楽曲データが音響信号の形式である場合には、入力される入力楽曲データをＳＭＦ等の演奏情報の形式のデータに変換して処理し、出力楽曲データとして音響信号の形式に変換したデータを出力することになる。音楽処理システム１０において音響信号の形式のデータを演奏情報の形式のデータに変換する処理、及び演奏情報の形式のデータを音響信号の形式のデータに変換する処理（音楽再生処理）については種々の処理を適用することができるので、詳細については説明を省略する。

【0019】

なお、この実施形態では、入力楽曲データと出力楽曲データは、同じデータ形式（ＳＭＦの形式）であるものとして説明するが、それぞれ異なる形式としてもよいことは当然である。

【0020】

この実施形態において、音楽処理システム１０で処理される楽曲の単位（例えば、長さやチャンネル（ＭＩＤＩ上のチャンネル）の数等）は、限定されないものである。すなわち、この実施形態において、音楽処理システム１０で処理される楽曲の単位の長さは、固定長（例えば、所定の小節数）としてもよいし可変長としてもよい。この実施形態では、音楽処理システム１０で処理される楽曲の単位の長さは４／４拍子の換算で８小節（３２拍；２／２拍子の場合は１６小節）の固定長であるものとして説明する。また、この実施形態において、音楽処理システム１０で処理される楽曲のチャンネル数はメロディ１チャンネルとコード（メロディに対する伴奏の和音）１チャンネルの合計２チャンネルで構成されるものとして説明する。以下では、楽曲を構成するメロディのチャンネルを「メロディチャンネル」、コードのチャンネルを「コードチャンネル」と呼ぶものとする。なお、音楽処理システムで処理される楽曲においてメロディチャンネル及びコードチャンネルは、それぞれ複数（２以上）としてもよい。

【0021】

次に、「構成情報」について説明する。

【0022】

構成情報は、入力楽曲における各区間の要素の属性（種類）を示すパラメータである。この実施形態の例では、入力楽曲の要素としてイントロ、Ａメロ、Ｂメロ又はサビのいずれかの属性を適用するものとする。適用可能な要素の属性は、上記に限らず種々の形式（例えば、第１主題、第２主題等の形式）を適用するようにしてもよい。

【0023】

構成情報は、入力楽曲データとは別のデータとして構成もよいが、ＳＭＦのマーカ（ｍａｒｋｅｒ）に構成情報に対応する情報を埋め込むことで実現するようにしてもよい。ＳＭＦでは、ユーザにより任意のテキストを書き込むことが可能なフィールドとしてマーカが用意されている。そこで、入力楽曲データ（ＳＭＦデータ）のマーカに、構成情報に対応するテキスト（例えば、イントロ、Ａメロ、Ｂメロ、サビのようなテキスト）を書き込む形式としてもよい。

【0024】

例えば、入力楽曲データとして供給されたＳＭＦデータにおいて、１小節目の先頭のタイミング（ポジション）のマーカに「イントロ」、５小節目の先頭のタイミングのマーカに「Ａメロ」と設定されていた場合、音楽処理システム１０では、１～４小節目の区間を「イントロ」と認識し、５小節目以後（５～８小節目）の区間をＡメロと認識する。また、例えば、入力楽曲データとして供給されたＳＭＦデータにおいて、１小節目の先頭のタイミング（ポジション）のマーカに「Ａメロ」設定されており、それ以外のマーカが設定されていない場合、音楽処理システム１０では、全ての区間（１～８小節目）を「Ａメロ」と認識する。以上のように、ＳＭＦデータでは、区間ごとの要素の属性をマーカに書き込むことが可能となっている。

【0025】

ＳＭＦデータとは別に構成情報を記述する場合の具体的な形式は限定されないものであり、入力楽曲の区間ごとの要素の属性が記述されていればよい。例えば、ＳＭＦのマーカと同様にタイミング（ポジション）と要素の属性を示す情報（例えば、Ａメロ、Ｂメロ、イントロに対応するテキストや数値）を対とした情報の列により構成情報を記述するようにしてもよい。また、入力楽曲の全区間について同じ属性を適用する場合は、構成情報にはタイミングに関する情報は必要無く、単に属性に対応するパラメータやテキストを設定するようにしてもよい。

【0026】

次に、「操作パラメータ」について説明する。

【0027】

操作パラメータは、音楽処理システム１０において、ユーザから生成される楽曲の特性の操作を受け付けるためのインタフェースとして利用可能なパラメータである。この実施形態において、操作パラメータは１つの数値（１次元のパラメータ）で表されるものとして説明する。ただし、操作パラメータは、限定されないものであり、複数の数値（多次元のパラメータ）で表すようにしてもよいし、数値以外の形式（例えば、ＴＲＵＥ／ＦＡＬＳＥのようなフラグ形式）で表わすようにしてもよい。操作パラメータの詳細については後述する。

【0028】

次に、音楽処理システム１０の内部構成について説明する。

【0029】

図１に示すように、音楽処理システム１０は、ベクトル化処理部１０１、生成処理部１０２、整形処理部１０３、及び復元処理部１０４を有している。

【0030】

ベクトル化処理部１０１は、入力楽曲データ及び構成情報を含むデータについて後段の生成処理部１０２での処理に適した形式のベクトルデータ（以下、「入力楽曲ベクトルデータ」と呼ぶ）に変換する処理を行う。そして、ベクトル化処理部１０１は、取得した入力楽曲ベクトルデータを生成処理部１０２に供給する。入力楽曲ベクトルデータの具体的な形式については後述する。

【0031】

生成処理部１０２は、ＡＩを用いた生成モデルの処理により、入力楽曲ベクトルデータと操作パラメータに基づき新たな楽曲（以下、「生成楽曲」と呼ぶ）に対応するベクトルデータ（入力楽曲ベクトルデータと同様の形式のデータ；以下「生成楽曲ベクトルデータ」と呼ぶ）を生成して出力する。生成処理部１０２は、生成楽曲ベクトルデータを整形処理部１０３に供給する。生成処理部１０２の詳細構成については後述する。

【0032】

整形処理部１０３は、生成楽曲ベクトルデータの楽曲について、音楽的に調和した内容に整形する処理（例えば、全体的な調の統一や、メロディとコードとの間のスケールの調整等）を行い、「整形済楽曲ベクトルデータ」として出力する。

【0033】

生成楽曲ベクトルデータの楽曲は、ＡＩ（生成処理部１０２）から出力されたままの内容であるため、調が揃っていない場合や、メロディとコードとの間でスケールが合っていない場合等、音楽的（音楽理論的）に見て調和していない場合があり得る。そこで、音楽処理システム１０では、整形処理部１０３を備えることで、音楽的に整形された楽曲を出力するようにしている。なお、ＡＩ（生成処理部１０２）から出力される生成楽曲ベクトルデータについて整形することが必要でない場合（例えば、ユーザ側で必要でない場合や、最初から音楽的に整った内容が生成される場合）には、整形処理部１０３の構成を除外して、生成楽曲ベクトルデータをそのまま復元処理部１０４に供給するようにしてもよい。

【0034】

復元処理部１０４は、整形済楽曲ベクトルデータについて、所定の形式の音楽データ（この実施形態では、ＳＭＦの形式）に復元（変換）して「出力楽曲データ」として出力する。

【0035】

次に、生成処理部１０２に適用するＡＩの構成例について説明する。

【0036】

生成処理部１０２では、ディープラーニングベースで機械学習した学習モデルをもとにＡＩが構成されている。具体的には、生成処理部１０２では、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）の枠組みで学習を行った学習モデルを取得する。

【0037】

生成処理部１０２に用いられるＡＩを構成するプラットフォーム（ミドルウェア）については限定されないものであり種々のプラットフォームを適用することができる。この実施形態の例では、生成処理部１０２は、Ｐｙｔｈｏｎ（登録商標）及びその周辺のライブラリを用いて構成されるものとして以下の説明を行う。

【0038】

図２は、生成処理部１０２に適用するＡＩの学習時（学習モデルを取得する際）の構成例について示した図である。

【0039】

図２に示すように、生成処理部１０２では、学習時において少なくとも、エンコーダ２０１（符号化器）、デコーダ２０２（復号器）、ディスクリミネータ２０３（識別器）、及び潜在変数処理部２０４が動作する。

【0040】

エンコーダ２０１は、入力楽曲ベクトルデータに基づいて、潜在変数の平均ベクトルμと確立分布を示す分散ベクトルσを取得して出力する。

【0041】

学習時において、潜在変数処理部２０４は、ＶＡＥの枠組みに従い、平均ベクトルμに対して標準偏差σに応じたノイズを加算した値を潜在変数ｚ（潜在変数のサンプル）として取得してデコーダ２０２に供給する。このとき、潜在変数処理部２０４は、例えば、以下の（１）式に従って潜在変数ｚを取得するようにしてもよい。例えば、（１）式において、Ｉ＝１としてもよい。
ｚ＝μ＋εσ（ε～Ｎ（０，Ｉ）） …（１）

【0042】

例えば、潜在変数ｚが２５６次元のベクトルである場合、潜在変数処理部２０４が学習時において潜在変数ｚを取得するためのソースコード（Ｐｙｔｈｏｎで記述した場合のコード）は、「μ＋ｎｕｍｐｙ．ｒａｎｄｏｍ．ｎｏｒｍａｌ（ｌｏｃ＝０．０，ｓｃａｌｅ＝１＊σ，ｓｉｚｅ＝２５６）」とすることができる。

【0043】

デコーダ２０２は潜在変数ｚを復元処理したベクトルデータ（以下、「復元楽曲ベクトルデータ」と呼ぶ）を出力する。図２に示すＶＡＥの枠組みにおいては、エンコーダ２０１及びデコーダ２０２によりジェネレータ（生成器）が構成されている。ディスクリミネータ２０３は、復元楽曲ベクトルデータがジェネレータにより生成されたデータかそうでないかを識別する。生成処理部１０２では、ジェネレータは、ディスクリミネータ２０３にジェネレータが生成したベクトルデータであることを見破られないように学習が行われる。図２では、説明を簡易とするため図示を省略しているが、図２の学習時には、ディスクリミネータ２０３の識別結果や、ＬＯＳＳ（入力楽曲ベクトルデータと復元楽曲ベクトルデータとの差分）を用いてジェネレータが学習処理を行うことになる。

【0044】

生成処理部１０２の学習時には、ベクトル化処理部１０１から学習に用いられるサンプル（入力楽曲ベクトルデータ）が逐次供給されるようにしてもよい。生成処理部１０２の学習に用いられるサンプル数は限定されないものであるが、１０００～３０００程度のサンプル数を適用するようにしてもよい。また、生成処理部１０２の学習において、各サンプル（１つの入力楽曲ベクトルデータ）について１０００回転程度の学習処理（１０００回程度、潜在変数ｚに基づき復元楽曲ベクトルデータを生成するまでの学習処理）を行うようにしてもよい。

【0045】

また、生成処理部１０２の学習に用いるサンプル（入力楽曲ベクトルデータ）の元となる楽曲の種類（例えば、ポップス、ジャズ等）やアーティスト等について比率を変化することにより、ジェネレータで生成される楽曲の特徴についても変化させることができる。基本的にＶＡＥの枠組みによりＡＩの学習を行う場合、潜在変数ｚの分布する範囲は学習に用いたサンプルに応じた分布となるためである。

【0046】

この実施形態では、潜在変数ｚは、２５６次元の固定サイズであるものとするが、ｚのサイズはこれに限定されないものである。潜在変数ｚのサイズは、処理されるベクトルデータ（入力楽曲ベクトルデータ／復元楽曲ベクトルデータ）のサイズに応じて変更することが望ましい。

【0047】

図３は、生成処理部１０２に適用するＡＩで学習したモデルを用いて生成楽曲ベクトルデータを生成する時（以下、「楽曲生成時」と呼ぶ）の構成例について示した図である。

【0048】

図３では、上述の図２と同一部分又は対応する部分に、同一の符号又は対応する符号を付している。

【0049】

図３に示すように、生成処理部１０２では、楽曲生成時において少なくとも、エンコーダ２０１、デコーダ２０２、及び潜在変数処理部２０４が動作する。

【0050】

エンコーダ２０１とデコーダ２０２自体の動作は学習時と同様であるため詳しい説明を省略する。

【0051】

潜在変数処理部２０４は、楽曲生成時においては、分散ベクトルσ及び操作パラメータｃに応じたノイズを潜在変数ｚに混入（加算）させる点で学習時と異なる。

【0052】

具体的には、潜在変数処理部２０４は、楽曲生成時においては、上記の（１）式において、Ｉ＝ｃとすることで、ノイズを潜在変数ｚに操作パラメータｃを反映させた値に補正することができる。操作パラメータｃについて設定可能な範囲は限定されないものであり、ユーザにより調整可能としてもよい。例えば、操作パラメータｃとしては、０～１０の範囲で設定可能とするようにしてもよいし、０～５０の範囲で所定のグリッド幅（例えば、１０）ずつ変更可能とするようにしてもよい。また、潜在変数処理部２０４において、操作パラメータｃの値についてユーザから入力を受け付ける方式（例えば、入力を受け付けるデバイスや操作画面の構成）については限定されないものである。

【0053】

例えば、潜在変数ｚが２５６次元のベクトルである場合、潜在変数処理部２０４が、楽曲生成時に潜在変数ｚを取得するためのソースコード（Ｐｙｔｈｏｎで記述した場合のコード）は、「μ＋ｎｕｍｐｙ．ｒａｎｄｏｍ．ｎｏｒｍａｌ（ｌｏｃ＝０．０，ｓｃａｌｅ＝ｃ＊σ，ｓｉｚｅ＝２５６）」とすることができる。

【0054】

（Ａ－２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態における音楽処理システム１０の動作（実施形態に係る音楽処理方法）を説明する。

【0055】

まず、ベクトル化処理部１０１の処理の詳細について説明する。

【0056】

上述の通り、音楽処理システム１０では、２チャンネルで８小節（３２拍）の楽曲単位で処理される。

【0057】

図４は、入力楽曲の例をスコア形式の譜面で表した例について示している。

【0058】

なお、図４に示す入力楽曲は、アレクサンドル・ボロディン作曲の「韃靼人の踊り」（ポロヴェツ人の踊り）からの一節である。

【0059】

図４では、入力楽曲のメロディチャンネルとコードチャンネルの譜面を、スコア形式で表している。なお、ここでは、各楽曲のチャンネルの楽器（ＭＩＤＩ上の楽器名）はピアノ系のものであるものとする。

【0060】

まず、ベクトル化処理部１０１は、入力楽曲データの各チャンネルの音符の配列について４８分音符単位（１２分の１拍単位）で符号化（数列化）する。ここでは、入力楽曲データは８小節（３２拍）であるので、各チャンネルについて符号化すると、８×４８＝３８４個の符号列が発生することになる。ここでは、各符号は、１つの数値（以下、単に「ＩＤ」と呼ぶ）で表されるものとする。

【0061】

図５は、図４に示す入力楽曲のうちメロディチャンネルの譜面をＩＤに変換（符号化）した内容を表形式で図示している。

【0062】

図６は、図４に示す入力楽曲のうちコードチャンネルの譜面をＩＤに変換（符号化）した内容を表形式図示している。

【0063】

図５、図６の表では、１列で１小節（４拍）分のＩＤ（４８個のＩＤを設定するスロット）が配置されている。

【0064】

図７は、メロディチャンネルの各音符についてＩＤに変換するための変換表の例について示している。

【0065】

図５、図７に示すように、メロディチャンネルでは、各音符の頭のタイミング（スロット）に、ピッチの高さに対応するＩＤ（２以後のＩＤ）が設定され、休符の頭のタイミング（スロット）には「１」のＩＤが設定されている。また、図５、図７に示すように、メロディチャンネルでは、音符又は休符の頭のタイミング以外のタイミング（スロット）に、直前の状態を継続するための「０」の符号が設定される。具体的には、「０」のＩＤは、図７に示すように、「直前のＩＤの状態が継続している状態」、「直前のＩＤの状態が継続している状態。」、「直前のＩＤが０の場合は、さらにその直前の状態が継続している状態。」、「直前のＩＤが１の場合は、音が鳴っていない状態。」、「それ以外の場合は、該当するピッチの音が鳴り続けている状態。」という処理を意味している。

【0066】

図８は、コードチャンネルの各コードについてＩＤに変換するための変換表について示している。

【0067】

図６、図８に示すように、コードチャンネルでは、各コード（和音）の頭のタイミング（スロット）に、コードの種類（和音の組合せ）に対応するＩＤ（２以後のＩＤ）が設定され、休符の頭のタイミング（スロット）には「１」のＩＤが設定される。コードチャンネルでは、ピッチの最低音は、ＭＩＤＩにおける国際式のＣ２、最高音はＢ５に相当する音となる。また、図６、図８に示すように、コードチャンネルでは、音符又は休符の頭のタイミング以外のタイミング（スロット）に、直前の状態を継続するための「０」の符号が設定される。具体的には、「０」の符号は、図８に示すように、「直前のＩＤの状態が継続している状態」、「直前のＩＤの状態が継続している状態。」、「直前のＩＤが０の場合は、さらにその直前の状態が継続している状態。」、「直前のＩＤが１の場合は、音が鳴っていない状態。」、「それ以外の場合は、該当するコードの音が鳴り続けている状態。」という処理を意味している。

【0068】

以上のように、ベクトル化処理部１０１は、入力楽曲データの各チャンネルについて数列に変換することで、各チャンネルに対応するＯｎｅ－ＨｏｔＶｅｃｔｏｒ（ＡＩの処理に好適なデータ形式のデータ）を得ることができる。以下では、各チャンネルについて符号化（ＩＤ化／数列化／Ｏｎｅ－ＨｏｔＶｅｃｔｏｒ化）したデータの塊を、「符号化済入力楽曲データ」と呼ぶものとする。符号化済入力楽曲データには、メロディチャンネルの数列（３８４のＩＤの列／符号列／Ｏｎｅ－ＨｏｔＶｅｃｔｏｒ）と、コードチャンネルの数列（３８４個のＩＤの列／数列／Ｏｎｅ－ＨｏｔＶｅｃｔｏｒ）が含まれるデータとなる。以下では、メロディチャンネルの数列の各数値をＭｉ（ｉは１～３８４のスロット番号（時系列の順序）を示す）、コードチャンネルの数列の各数値をＣｉと表すものとする。具体的には、メロディチャンネルの数列をＭ１、Ｍ２、Ｍ３、…、Ｍ３８４と表し、コードチャンネルの数列をＣ１、Ｃ２、Ｃ３、…、Ｃ３８４と表すものとする。

【0069】

次に、ベクトル化処理部１０１が構成情報を符号化（数列化）する処理について説明する。

【0070】

上述の通り、ベクトル化処理部１０１では構成情報により、入力楽曲の区間ごとの要素の属性（例えば、イントロ、Ａメロ、Ｂメロ、サビ等）を把握することができる。そこで、ベクトル化処理部１０１は、入力楽曲の各スロットに対応する要素の属性を把握し、各スロットに要素（要素の属性）に対応する数値（符号）を設定した数列を取得する。

【0071】

各要素の属性に対応する数値（符号）の割り振りは限定されないものである。この実施形態では、各要素に対応する数値は０～５０の範囲で割り振られているものとする。具体的には、この実施形態の例では、Ａメロに対応する数値として１０～１９のいずれか、Ｂメロに対応する数値として２０～２９のいずれか、サビに対応する数値として３０～３９のいずれか、イントロに対応する数値として４０～４９のいずれかが割り振られているものとして説明する。例えば、ベクトル化処理部１０１では、Ａメロに対応する数値を１０、Ｂメロに対応する数値を２０、サビに対応する数値を３０、イントロに対応する数値を４０とするようにしてもよい。要素の属性が異なる場合は、ある程度数値の間隔をあけることでＡＩに要素の属性による特徴を区別させやすくすることができる。また、入力楽曲で、同じ要素の区間が複数発生する場合（例えば、Ａメロ、Ｂメロ、Ａメロと続くような場合）、ベクトル化処理部１０１は、重複して発生する区間について異なる数値を設定するようにしてもよい。例えば、Ａメロ、Ｂメロ、Ａメロと続くような場合、１回目のＡメロの区間については３０、２回目のＡメロの区間については３１を設定するようにしてもよい。なお、この実施形態では、構成要素に対応するパラメータは１次元としているが多次元で構成するようにしてもよい。例えば、構成要素に対応するパラメータとして３つのパラメータＦ、Ｇ、Ｈを設定したと仮定した場合、Ａメロを「Ｆ＝１、Ｇ＝０、Ｈ＝０」、Ｂメロを「Ｆ＝０、Ｇ＝１、Ｈ＝０」、サビを「Ｆ＝０、Ｇ＝０、Ｈ＝１」と定義するようにしてもよい。

【0072】

以上のように、ベクトル化処理部１０１では、構成情報に基づき、入力楽曲の各スロット（３８４個のスロット）に対して、要素の属性に対応する数値を設定することができる。以下では、構成情報に基づく数列の各数値をＥｉと表すものとする。具体的には、構成情報に基づく各スロットの数列をＥ１～Ｅ３８４と表すものとする。

【0073】

そして、ベクトル化処理部１０１は、符号化済入力楽曲データを構成する数列（メロディチャンネル及びコードチャンネルの数列）と構成情報に基づく数列についてＡＩ処理に適したベクトルデータ（行列式）に組み立てる処理を行う。

【0074】

この場合、ベクトル化処理部１０１が生成する以下の（２）式のような行列式をベクトルデータとして取得するようにしてもよい。（２）式では、１スロット分（４８分音符分）のデータを１行とした行列式となっている。つまり、（２）式において、ｉ行目（ｉは１～３８４のいずれかの整数）は、（Ｍｉ、Ｃｉ、Ｅｉ）で構成されている。

【数1】

【0075】

なお、この実施形態では、音楽処理システム１０のＡＩ（生成処理部１０２）で処理されるベクトルデータ（入力楽曲ベクトルデータ、復元楽曲ベクトルデータ等）は、全て（２）式のような形式であるものとして説明する。ベクトルデータの形式は、（２）に限らず、同じ数列で構成されていれば具体的な配列の順序や各行の構成についてはその他の形式（例えば、２４分音符単位で１行を構成する形式）としてもよい。

【0076】

また、上述の通り、この実施形態において、入力楽曲ベクトルデータにおいてメロディチャンネルとコードチャンネルの数列は、４８部音符単位で数列化（ＩＤ化）されてはいるが、実質的には、元の入力楽曲データ（ＳＭＦデータ）と同様に譜面（演奏情報）の形式のデータであると言える。したがって、音楽処理システム１０において、最初から入力楽曲データとして、メロディチャンネルとコードチャンネルのデータについて数列化されたデータの供給を受けるようにしてもよい。また、音楽処理システム１０において、最初から入力楽曲ベクトルデータの形式で、供給を受けるようにしてもよい。その場合、音楽処理システム１０において、ベクトル化処理部１０１を除外するようにしてもよい。

【0077】

次に、整形処理部１０３による整形処理の詳細について説明する。

【0078】

上述の通り、整形処理部１０３は、生成楽曲ベクトルデータについて整形処理を行って整形済楽曲ベクトルデータとして出力する。また、以下では、生成楽曲ベクトルデータに対応する楽曲を「整形前楽曲」と呼び、整形済楽曲ベクトルデータの楽曲を「整形済楽曲」と呼ぶものとする。

【0079】

この実施形態では、整形前楽曲は８小節（３２拍）程度の長さであるため、整形処理部１０３は、整形前楽曲に対し、整形処理として全体にわたって調を統一する処理を行うものとする。なお、整形処理部１０３は、整形前楽曲を複数の区間に分け、それぞれの区間について別個に統一調を決定して、その後の整形処理を行うようにしてもよい。

【0080】

この実施形態では、整形処理部１０３は、ベクトルデータの状態（生成楽曲ベクトルデータ）で整形処理を行うものとして説明するが、整形処理部１０３と復元処理部１０４の順序を入れ替えて、ＳＭＦデータの形式に復元してから整形処理を行うようにしてもよい。

【0081】

図９は、整形処理部１０３が行う整形処理の流れについて示したフローチャートである。

【0082】

まず、整形処理部１０３は、整形前楽曲について統一する調として適した調を推定する処理（以下、「調推定処理」と呼ぶ）を行い、調推定処理の結果に従って統一する調（以下、「統一調」と呼ぶ）を決定する（Ｓ１０１）。

【0083】

次に、整形処理部１０３は、整形前楽曲のコードチャンネルについて統一調で一般的に使用されるコードのみになるように整形する処理（以下、「コード整形処理」と呼ぶ）を行う（Ｓ１０２）。以下では、整形前楽曲についてコード整形処理を行った後の楽曲を「コード整形済楽曲」と呼ぶものとする。

【0084】

次に、整形処理部１０３は、コード整形済楽曲のメロディチャンネルの各音符について、コードチャンネルのコードと調和するように整形する処理（以下、「メロディ整形処理」と呼ぶ）を行い、整形済楽曲として取得する（Ｓ１０３）。具体的には、整形処理部１０３は、コード整形済楽曲のメロディチャンネルの各音符について、同時に鳴っている（同じ時系列で鳴っている）コードチャンネルのコード（以下、「対応コード」と呼ぶ）に対応するスケール（以下、「コードスケール」と呼ぶ）に合うようにピッチを調整（整形）する処理を行う。

【0085】

次に、ステップＳ１０１の調推定処理の詳細について説明する。

【0086】

整形処理部１０３は、調推定処理において、整形前楽曲について、全２４調（（長調×１２音）＋（短調×１２音）＝２４）のうち、どの調が統一調として適しているかを推定する。

【0087】

この実施形態では、整形処理部１０３は、整形前楽曲に含まれるコードが、各調で使用されるコードとどれだけ一致するかを数え上げ、最もそれらのコードとの一致数が多い調を、最適な統一調として推定（決定）する。

【0088】

図１０は、整形前楽曲（生成楽曲）の例についてスコア形式で示した図である。

【0089】

図１１は、図１０に示す整形前楽曲におけるコード進行について示した図である。

【0090】

図１１では、整形前楽曲を構成する１４個の各コードに対して先頭から順に、Ｃ０１～Ｃ１４という符号を付している。そして、図１０では、コードＣ０１～Ｃ１４に対して、コード名を付記している。図１０に示すように、コードＣ０１～Ｃ１４のコードは［ＤＭ７］，［Ａ７］，［Ａｍ７］，［Ｅ］，［Ｂｍ７］，［Ｅｓｕｓ４］，［Ｄ７］，［Ｂ７］，［Ａｍ７］，［Ｅ７］，［Ｅｍ７］，［Ａ７］，［Ｅｍ］，［Ｅｍ７］となっている。

【0091】

整形処理部１０３は、整形前楽曲の各コードを構成する各音について、各調（全２４調の各調）のダイアトニックコードにどのくらい含まれているかをカウントする。このときの整形処理部１０３によるカウント結果を図１２に示す。

【0092】

図１２は、整形処理部１０３が、各調のダイアトニックコードが、整形前楽曲の各コードを構成する各音にいくつ含まれているかをカウントした結果について示した図である。

【0093】

図１２の表では、調ごとに含まれるダイアトニックコードの数（以下、「カウント数」と呼ぶ）を示している。

【0094】

例えば、図１１、図１２に示すように、Ｅｍｉｎｏｒのダイアトニックコードは、計８つのコード（Ｃ０３［Ａｍ７］，Ｃ０５［Ｂｍ７］，Ｃ０７［Ｄ７］，Ｃ０８［Ｂ７］，Ｃ０９［Ａｍ７］，Ｃ１１［Ｅｍ７］，Ｃ１３［Ｅｍ］，Ｃ１４［Ｅｍ７］）に含まれることになるので、Ｅｍｉｎｏｒのカウント数は８となる。

【0095】

そして、この場合、図１２に示すように、Ｅｍｉｎｏｒのカウント数が８と最も多くなっている。したがって、この場合、整形処理部１０３は、当該整形前楽曲に対する統一調としてＥｍｉｎｏｒが最適であると推定することになる。

【0096】

次に、ステップＳ１０２のコード整形処理の詳細について説明する。

【0097】

上述の通り、整形処理部１０３は、コード整形処理において、整形前楽曲のコードチャンネルについて統一調で一般的に使用されるコードのみになるようにコード整形処理を行って、コード整形済楽曲を生成する。

【0098】

まず、整形処理部１０３は、整形前楽曲のコードチャンネルを構成する各コードについて、統一調で使用されるコードと一致するコード（以下、「一致コード」と呼ぶ）であるか、そうでないコード（以下、「不一致コード」と呼ぶ）であるかを判断する。

【0099】

そして、整形処理部１０３は、整形前楽曲のコードチャンネルを構成する各コードのうち、不一致コードについて統一調のダイアトニックコード（以下、「統一調コード」と呼ぶ）となるようにコードを調整（整形）する。

【0100】

このとき、整形処理部１０３が、各不一致コードについて修正する先の統一調コード（以下、「調整先コード」と呼ぶ）を選択する方法については限定されないものであるが、以下のようなポリシーで選択するようにしてもよい。

【0101】

基本的に、整形処理では、変更する量（ピッチを変更する音符の数）はできるだけ少ないことが望ましい。整形処理部１０３は、以下のポリシーに従って調整先コードを選択するようにしてもよい。

【0102】

［第１のポリシー］
各不一致コードについて、統一調コードのうち最も一致する構成音の多いものを調整先コードとして選択する。

【0103】

［第２のポリシー］
第１のポリシーに該当する統一調コードが複数存在する不一致コードについては、当該不一致コードと最も構成音数の差が小さい（最も一致する構成音数が多い）統一調コードを調整先コードとして選択する。

【0104】

［第３のポリシー］
第２のポリシーに該当する統一調コードも複数存在する不一致コードについては、実装内のインデックス（例えば、実装上付与される各コードの管理番号（ＩＤ番号））が最も若いコードを調整先コードとして選択する。なお、この場合は、複数の統一調コードから、ランダムで選択したコードを調整先コードとしてもよい。

【0105】

図１０に示す整形前楽曲において、統一調をＥｍｉｎｏｒとすると、一致コードは、Ｃ０３［Ａｍ７］，Ｃ０５［Ｂｍ７］，Ｃ０７［Ｄ７］，Ｃ０８［Ｂ７］，Ｃ０９［Ａｍ７］，Ｃ１１［Ｅｍ７］，Ｃ１３［Ｅｍ］，Ｃ１４［Ｅｍ７］であり、不一致コードは、Ｃ０１［ＤＭ７］，Ｃ０２［Ａ７］、Ｃ０４［Ｅ］，Ｃ０６［Ｅｓｕｓ４］，Ｃ１０［Ｅ７］，Ｃ１２［Ａ７］となる。

【0106】

図１３は、図１０に示す整形前楽曲についてコード整形処理を行った結果（コード整形済楽曲）について示した図である。

【0107】

図１３では、当該整形前楽曲において、統一調をＥｍｉｎｏｒとし、上記のポリシーに従って、不一致コードＣ０１［ＤＭ７］，Ｃ０２［Ａ７］、Ｃ０４［Ｅ］，Ｃ０６［Ｅｓｕｓ４］，Ｃ１０［Ｅ７］，Ｃ１２［Ａ７］を統一調コードに修正した結果について示している。

【0108】

例えば、１小節目のコードＣ０１［ＤＭ７］（構成音ＤＦ＃ＡＣ＃）について上記のポリシーにあてはめると、Ｅｍｉｎｏｒのダイアトニックコードで最も一致する構成音が多い統一調コードであるＦ＃ｍ７ｂ５（構成音Ｆ＃ＡＣＥ）に変更することになる。

【0109】

次に、ステップＳ１０３のメロディ整形処理の詳細について説明する。

【0110】

上述の通り、メロディ整形処理において、整形処理部１０３は、コード整形済楽曲のメロディチャンネルの各音符について、対応コードのスケール（以下、「対応コードスケール」と呼ぶ）の構成音となるように調整（整形）する処理を行う。以下では、メロディチャンネルにおいて、対応コードスケールの構成音でないために、調整対象となる音符を「調整対象音符」と呼ぶものとする。

【0111】

なお、対向コードスケールは、基本的に対応コードのスケール（例えば、対応コードがＡｍ７であれば対応コードスケールはＡｍｉｎｏｒのスケールとなる）が、対応コードがａｄｄ９コードの場合は、当該対応コードのルート音に対応するリディアンスケールを対応コードスケールとして取り扱うようにしてもよい。

【0112】

このとき、整形処理部１０３が、調整対象音符（メロディチャンネルの各音符）のピッチを調整する方法については限定されないものであるが、以下のようなポリシーで行うようにしてもよい。なお、音符としては分かれていても、スラーでつながった同じピッチの音符については１つの音符（調整対象音符）とみなして、以下の各ポリシーに適用するようにしてもよい。

【0113】

［第１のポリシー］
調整対象音符については、対応コードスケールの構成音のみで構成されるようにピッチを調整する。

【0114】

［第２のポリシー］
複数のコードの区間にまたがった調整対象音符（以下、「複数コード対応音符」と呼ぶ）は、それらの複数のコードのすべての対応コードスケールで共通する音のみで構成されるようにピッチを調整する。例えば、複数コード対応音符の区間で、１回コードが切り替わる場合対応コードは２つとなり、２回コードが切り替わる場合対応コードは３つとなる。

【0115】

［第３のポリシー］
第２のポリシーを満たすピッチが存在しない複数コード対応音符については、コードの切れ目（コードの切り替わりのタイミング）で分割し、分割した各音符について、それぞれ別個の調整対象音符として、最初からピッチ整形処理（第１のポリシーから適用する処理）を行う。

【0116】

［第４のポリシー］
調整対象音符のピッチを調整する際、整形前楽曲における当該調整対象音符の直前の音符（以下、「直前音符」と呼ぶ）及び直後の音符（以下、「直後音符」と呼ぶ）との相対的なピッチの上下関係（「ピッチが上がっている」、「ピッチが下がっている」、「ピッチが同じ」の３つのパターンのいずれか）を保つ。

【0117】

以下では、当該調整対象音符のピッチをＰＴ、直前音符のピッチをＰＢ、直後音符のピッチをＰＡと表すものとする。例えば、直前音符のピッチＰＢと当該調整対象音符のピッチＰＴとの関係では、ＰＢ＝ＰＴ（ピッチが同じ）、ＰＢ＞ＰＴ（ピッチが下がっている）、ＰＢ＜ＰＴ（ピッチが上がっている）のパターンが存在する。また、例えば、当該調整対象音符のピッチＰＴと直後音符のピッチＰＡとの関係では、ＰＴ＝ＰＡ（ピッチが同じ）、ＰＴ＞ＰＡ（ピッチが下がっている）、ＰＴ＞ＰＡ（ピッチが上がっている）のパターンが存在する。

【0118】

［第５のポリシー］
当該調整対象音符のピッチ調整だけでは第４のポリシーを満たすことができない場合、直後音符についてもピッチ調整を行う前提で、第４のポリシーを満たすピッチの調整パターンを決定する。

【0119】

［第６のポリシー］
当該調整対象音符のピッチ調整を行う際、調整前後のピッチの差分を所定以下（例えば、±１オクターブ以下）に収める。

【0120】

整形処理部１０３は、以上のようなポリシーで調整対象音符を、対応コードスケールの構成音のみで構成されるように調整することが望ましい。なお、第４及び第５のポリシーについて、守ることができない状態である場合は、この２つのポリシーを除外して調整するようにしてもよい。また、第４及び第５のポリシーを守ると第６のポリシーを満たすことができない状態である場合は、「第６のポリシーを除外する」又は「第４又は第５のポリシーを除外する」のいずれかを適用するようにしてもよい。

【0121】

図１４は、図１３に示すコード整形済楽曲についてメロディ整形処理を行った結果（メロディ整形済楽曲）について示した図である。

【0122】

図１４に示すように、メロディ整形処理により、１小節目Ｆの音が、上記のポリシーに従いＦ＃（Ｅｍｉｎｏｒスケール構成音であり、前後の音との高さの関係が変わらない音）に変更されている。

【0123】

（Ａ－３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

【0124】

第１の実施形態の音楽処理システム１０では、ＡＩを用いた生成モデルにより、入力楽曲データ（原曲）を入力としつつ、新た作曲された楽曲を生成することができる。

【0125】

また、第１の実施形態の音楽処理システム１０では、操作パラメータｃに応じたノイズを潜在変数ｚに混入（加算）させることができる。操作パラメータｃには、任意の値を設定することが可能であるため、ユーザは、操作パラメータｃの値を変動させて複数の楽曲を生成させることで、生成された楽曲の中から、生成楽曲について入力楽曲データ（原曲）を入力としつつ新たに作曲したといえる内容を選んで取得することが可能となる。

【0126】

次に、操作パラメータの変動に伴い、生成楽曲が変化する具体例について図１５～図１７を用いて説明する。

【0127】

図１５～図１７は、それぞれ入力楽曲を図４の楽曲とし、操作パラメータの値を０、１０、２０と変動させた場合における生成楽曲を譜面（五線譜）の形式で表した図である。

【0128】

図１５に示すように、操作パラメータの値を０とした場合、原曲（図４）と同じ調（Ｆ＃ｍｉｎｏｒ）もしくはその平行調（Ａｍａｊｏｒ）と推定できる曲が生成されている。また、図１５の譜面では、原曲（図４）と同じく４小節単位でひとまとまりのようなメロディの構成が見られる。

【0129】

図１６に示すように、操作パラメータの値を１０とした場合、原曲（図４）と同じ調ではなく、その下属調（Ｄｍａｊｏｒ）と推定される曲が生成されている。

【0130】

図１７に示すように、操作パラメータの値を２０とした場合、原曲（図４）と調が大きく異なるだけでなく、使用されている音符の種類やテンポ感も全く違う曲になっている。

【0131】

以上のように、第１の実施形態の音楽処理システム１０では、操作パラメータｃの値を変動させることで、生成楽曲について、入力楽曲データ（原曲）からを入力としつつ新たに作曲したといえる内容とすることが可能となる。

【0132】

（Ｂ）第２の実施形態
以下、本発明による音楽処理システム、音楽処理プログラム、及び音楽処理方法の第２の実施形態を、図面を参照しながら詳述する。

【0133】

（Ｂ－１）第２の実施形態の構成及び動作
図１８は、第２の実施形態の音楽処理システム１０Ａの全体構成を示すブロック図である。

【0134】

図１８では、上述の図１と同一部分又は対応する部分に、同一の符号又は対応する符号を付している。

【0135】

以下では、第２の実施形態について第１の実施形態との差異を説明する。

【0136】

第２の実施形態の音楽処理システム１０Ａでは、生成処理部１０２が生成処理部１０２Ａに置き換わっている点で第１の実施形態と異なっている。

【0137】

第２の実施形態の生成処理部１０２Ａは、ＡＩの学習時の構成は第１の実施形態と同じであるが、その後の楽曲生成時における構成が異なる。

【0138】

図１９は、第２の実施形態の生成処理部１０２Ａにおける楽曲生成時の構成例について示した図である。

【0139】

図１９では、上述の図３と上述の図１と同一部分又は対応する部分に、同一の符号又は対応する符号を付している。

【0140】

図１９に示すように、第２の実施形態の生成処理部１０２Ａでは、楽曲生成時に、潜在変数処理部２０４Ａとデコーダ２０２のみが動作する。

【0141】

潜在変数処理部２０４Ａは、楽曲生成時において、エンコーダ２０１からのデータによらず、所定の手段で取得する数値（例えば、乱数等）に基づき独自にデコーダ２０２へ供給する潜在変数ｚを生成する点で第１の実施形態と異なっている。

【0142】

例えば、上記の（１）式において、μ＝０、σ＝１、Ｉ＝１とすることで、分散が１の乱数に基づいた潜在変数ｚを取得するようにしてもよい。例えば、潜在変数ｚが２５６次元のベクトルである場合、潜在変数処理部２０４Ａが潜在変数ｚを取得するためのソースコード（Ｐｙｔｈｏｎで記述した場合のコード）は、「ｎｕｍｐｙ．ｒａｎｄｏｍ．ｎｏｒｍａｌ（ｌｏｃ＝０．０，ｓｃａｌｅ＝１．０，ｓｉｚｅ＝２５６）」とすることができる。

【0143】

なお、第２の実施形態において、σ及びＩに設定する具体的な値は上記の例に限定されず、種々の値を適用することができる。

【0144】

（Ｂ－２）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

【0145】

第２の実施形態の音楽処理システム１０Ａでは、入力楽曲によらず、潜在変数処理部２０４Ａが乱数に基づいて取得する潜在変数ｚを用いて楽曲を生成する。これにより、第２の実施形態の音楽処理システム１０Ａでは、入力楽曲を入力せずに新たな楽曲を生成することができる。

【0146】

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

【0147】

（Ｃ－１）第１の実施形態では、音楽処理システムが入力楽曲ベクトルデータ（入力楽曲データ）及び操作パラメータに基づいて楽曲生成する動作モード（以下、「リファレンスモード」と呼ぶ）について説明し、第２の実施形態では、音楽処理システムが乱数に基づき楽曲生成する動作モード（以下、「ランダムモード」と呼ぶ）について説明したが、この２つの動作モードの両方に対応し、ユーザの操作等に基づいて動作モードを変更可能な音楽処理システムを構築するようにしてもよい。

【0148】

（Ｃ－２）上記の各実施形態では、生成処理部１０２は、学習時の構成と、楽曲生成時の構成の両方を備えるものとして説明したが、学習の処理がすでに済んだ状態であれば学習時の構成（例えば、ディスクリミネータ２０３等）は備えなくてもよい。

【符号の説明】

【0149】

１０…音楽処理システム、１０１…ベクトル化処理部、１０２…生成処理部、１０３…整形処理部、１０４…復元処理部、２０１…エンコーダ、２０２…デコーダ、２０３…ディスクリミネータ、２０４…潜在変数処理部。

【図1】