特開2023-130095 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2023-130095音響生成方法、音響生成システムおよびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023130095

(43)【公開日】2023-09-20

(54)【発明の名称】音響生成方法、音響生成システムおよびプログラム

(51)【国際特許分類】

G10H 5/00 20060101AFI20230912BHJP

G06N 20/00 20190101ALI20230912BHJP

【ＦＩ】

G10H5/00

G06N20/00 130

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022034567

(22)【出願日】2022-03-07

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110003177

【氏名又は名称】弁理士法人旺知国際特許事務所

(72)【発明者】

【氏名】西村方成

【テーマコード（参考）】

5D478

【Ｆターム（参考）】

5D478AA03

(57)【要約】

【課題】音符列に対して適切なアタックが付与された楽器音の音響データ列を生成する。
【解決手段】音響生成システムは、音符列の特徴を表す第１制御データ列Ｘと、音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列Ｙとを取得する制御データ列取得部３１と、第１制御データ列Ｘと第２制御データ列Ｙとを訓練済の生成モデルＭbにより処理することで、第２制御データ列Ｙが表す演奏動作に対応するアタックを有する音符列の楽器音を表す音響データ列Ｚを生成する音響データ列生成部３３とを具備する。
【選択図】図２

【特許請求の範囲】

【請求項1】

音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得し、
前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する、
コンピュータシステムにより実現される音響生成方法。

【請求項2】

前記第１生成モデルは、
参照音符列の特徴を表す第１訓練用制御データ列、および、前記参照音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２訓練用制御データ列と、
前記参照音符列の楽器音を表す訓練用音響データ列と、
を含む訓練データを利用して訓練されたモデルである
請求項１の音響生成方法。

【請求項3】

前記第１制御データ列および前記第２制御データ列の取得においては、
前記音符列を表す音符データ列から前記第１制御データ列を生成し、
訓練済の第２生成モデルにより前記音符データ列を処理することで、前記第２制御データ列を生成する
請求項１または請求項２の音響生成方法。

【請求項4】

前記第２制御データ列は、管楽器のタンギングに関する特徴を表す
請求項１から請求項３の何れかの音響生成方法。

【請求項5】

前記第２制御データ列は、管楽器の吹奏における呼気または吸気に関する特徴を表す
請求項１から請求項３の何れかの音響生成方法。

【請求項6】

前記第２制御データ列は、擦弦楽器のボウイングに関する特徴を表す
請求項１から請求項３の何れかの音響生成方法。

【請求項7】

時間軸上の複数の単位期間の各々において、
前記第１制御データ列および第２制御データ列の取得と、
前記音響データ列の生成とが実行される
請求項１から請求項６の何れかの音響生成方法。

【請求項8】

音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部と、
前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部と
を具備する音響生成システム。

【請求項9】

音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部、および、
前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部、
としてコンピュータシステムを機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、楽器音を表す音響データを生成する技術に関する。

【背景技術】

【0002】

所望の音を合成する技術が従来から提案されている。例えば非特許文献１には、訓練済の生成モデルを利用して、ユーザが供給する音符列に対応する合成音を生成する技術が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Blaauw, Merlijn, and Jordi Bonada. "A NEURAL PARAMETRIC SINGING SYNTHESIZER." arXiv preprint arXiv: 1704.03809v3 (2017)

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、従前の合成技術では、音符列に対して適切なアタックを有する合成音を生成することが困難である。例えば、音符列の音楽的な特徴からは明瞭なアタックで発音されるべきであるのに、実際にはアタックが曖昧な楽音が生成される場合がある。以上の事情を考慮して、本開示のひとつの態様は、音符列に対して適切なアタックが付与された楽器音の音響データ列を生成することを目的とする。

【課題を解決するための手段】

【0005】

以上の課題を解決するために、本開示のひとつの態様に係る音響生成方法は、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得し、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する。

【0006】

本開示のひとつの態様に係る音響生成システムは、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部と、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部とを具備する。

【0007】

本開示のひとつの態様に係るプログラムは、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部、および、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部、としてコンピュータシステムを機能させる。

【図面の簡単な説明】

【0008】

【図1】第１実施形態における情報システムの構成を例示するブロック図である。

【図2】音響生成システムの機能的な構成を例示するブロック図である。

【図3】第２制御データ列の模式図である。

【図4】合成処理の詳細な手順を例示するフローチャートである。

【図5】機械学習システムの機能的な構成を例示するブロック図である。

【図6】第１学習処理の詳細な手順を例示するフローチャートである。

【図7】第１学習処理の詳細な手順を例示するフローチャートである。

【図8】第４実施形態における音響生成システムの機能的な構成を例示するブロック図である。

【図9】第５実施形態における第２制御データ列の模式図である。

【図10】変形例における第２制御データ列の模式図である。

【図11】変形例における第２制御データ列の模式図である。

【図12】変形例における第２制御データ列の模式図である。

【図13】変形例における生成モデルの説明図である。

【発明を実施するための形態】

【0009】

Ａ：第１実施形態
図１は、第１実施形態に係る情報システム１００の構成を例示するブロック図である。情報システム１００は、音響生成システム１０と機械学習システム２０とを具備する。音響生成システム１０と機械学習システム２０とは、例えばインターネット等の通信網２００を介して相互に通信する。

【0010】

［音響生成システム１０］
音響生成システム１０は、当該システムのユーザから供給される特定の楽曲の演奏音（以下「目標音」という）を生成するコンピュータシステムである。第１実施形態の目標音は、管楽器の音色を有する楽器音である。

【0011】

音響生成システム１０は、制御装置１１と記憶装置１２と通信装置１３と放音装置１４とを具備する。音響生成システム１０は、例えばスマートフォン、タブレット端末またはパーソナルコンピュータ等の情報端末により実現される。なお、音響生成システム１０は、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。

【0012】

制御装置１１は、音響生成システム１０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置１１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより構成される。制御装置１１は、目標音の波形を表す音響信号Ａを生成する。

【0013】

記憶装置１２は、制御装置１１が実行するプログラムと、制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。複数種の記録媒体の組合せにより記憶装置１２が構成されてもよい。なお、音響生成システム１０に対して着脱される可搬型の記録媒体、または制御装置１１が通信網２００を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置１２として利用されてもよい。

【0014】

記憶装置１２は、ユーザが供給した楽曲を表す楽曲データＤを記憶する。具体的には、楽曲データＤは、楽曲を構成する複数の音符の各々について音高と発音期間とを指定する。発音期間は、例えば音符の始点と継続長とにより指定される。例えば、ＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した音楽ファイルが楽曲データＤとして利用される。なお、ユーザは、音楽的な表情を表す演奏記号等の情報を、楽曲データＤに含めてもよい。

【0015】

通信装置１３は、通信網２００を介して機械学習システム２０と通信する。なお、音響生成システム１０とは別体の通信装置１３を、音響生成システム１０に対して有線または無線により接続してもよい。

【0016】

放音装置１４は、音響信号Ａが表す目標音を再生する。放音装置１４は、例えば、ユーザに音を提供するスピーカまたはヘッドホンである。なお、音響信号Ａをデジタルからアナログに変換するＤ/Ａ変換器と、音響信号Ａを増幅する増幅器とについては、便宜的に図示が省略されている。また、音響生成システム１０とは別体の放音装置１４を、音響生成システム１０に対して有線または無線により接続してもよい。

【0017】

図２は、音響生成システム１０の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ａを生成するための複数の機能（制御データ列取得部３１、音響データ列生成部３２および信号生成部３３）を実現する。

【0018】

制御データ列取得部３１は、第１制御データ列Ｘと第２制御データ列Ｙとを取得する。具体的には、制御データ列取得部３１は、時間軸上の複数の単位期間の各々において、第１制御データ列Ｘおよび第２制御データ列Ｙを取得する。各単位期間は、楽曲の各音符の継続長と比較して充分に短い時間長の期間（フレーム窓のホップサイズ）である。例えば、窓サイズはホップサイズの２～２０倍であり（窓の方が長い）、ホップサイズは２～２０ミリ秒であり、窓サイズは２０～６０ミリ秒である。第１実施形態の制御データ列取得部３１は、第１処理部３１１と第２処理部３１２とを具備する。

【0019】

第１処理部３１１は、単位期間毎に音符データ列Ｎから第１制御データ列Ｘを生成する。音符データ列Ｎは、楽曲データＤのうち各単位期間に対応する部分である。任意の１個の単位期間に対応する音符データ列Ｎは、楽曲データＤのうち当該単位期間を含む期間（以下「処理期間」という）内の部分である。処理期間は、単位期間の前方の期間と後方の期間とを含む期間である。すなわち、音符データ列Ｎは、楽曲データＤが表す楽曲のうち処理期間内の音符の時系列（以下「音符列」という）を指定する。

【0020】

第１制御データ列Ｘは、音符データ列Ｎが指定する音符列の特徴を表す任意の形式のデータである。任意の１個の単位期間における第１制御データ列Ｘは、楽曲の複数の音符のうち当該単位期間を含む音符（以下「対象音符」という）の特徴を示す情報である。例えば、制御データ列Ｘの示す特徴は、当該単位区間を含む音符の特徴（例えば、音高、オプションで時間長）を含む。また、第１制御データ列Ｘは、処理期間内における対象音符以外の音符の特徴を示す情報を含む。例えば、第１制御データ列Ｘは、当該単位区間を含む音符の前の音符と後の音符の少なくとも一方の音符の特徴（例えば、音高）を含む。また、第１制御データ列Ｘは、対象音符とその直前または直後の音符との音高差を含んでもよい。

【0021】

第１処理部３１１は、音符データ列Ｎに対する所定の演算処理により第１制御データ列Ｘを生成する。なお、第１処理部３１１は、深層ニューラルネットワーク（DNN：Deep Neural Network）等で構成される生成モデルを利用して第１制御データ列Ｘを生成してもよい。生成モデルは、音符データ列Ｎと第１制御データ列Ｘとの関係を機械学習により学習した統計的推定モデルである。第１制御データ列Ｘは、音響生成システム１０が生成すべき目標音の音楽的な条件を指定するデータである。

【0022】

第２処理部３１２は、単位期間毎に音符データ列Ｎから第２制御データ列Ｙを生成する。第２制御データ列Ｙは、管楽器の演奏動作を表す任意の形式のデータである。具体的には、第２制御データ列Ｙは、管楽器の演奏時の各音符のタンギングに関する特徴を表す。タンギングは、演奏者の舌の運動により気流を制御（例えば遮断または解放）する演奏動作である。管楽器の楽音のアタックに関する強度または明瞭性等の音響特性が、タンギングにより制御される。すなわち、第２制御データ列Ｙは、各音符に対応する楽器音のアタックを制御する演奏動作を表すデータである。

【0023】

図３は、第２制御データ列Ｙの模式図である。第１実施形態における第２制御データ列Ｙは、タンギングの種類（以下「タンギング種類」という）を指定する。タンギング種類は、以下に例示する６種類（Ｔ，Ｄ，Ｌ，Ｗ，Ｐ，Ｂ）のタンギングの何れか、またはタンギングが発生しないことである。タンギング種類は、管楽器の演奏の方法および楽器音の特性に着目した分類である。Ｔ型、Ｄ型およびＬ型のタンギングは、演奏者の舌を利用するタンギングである。他方、Ｗ型、Ｐ型およびＢ型のタンギングは、利用者の舌と唇とを併用するタンギングである。

【0024】

Ｔ型のタンギングは、楽器音のアタックとサステインとの音量差が大きいタンギングである。Ｔ型のタンギングは、例えば無声子音の発音に近似する。すなわち、Ｔ型のタンギングによれば、楽器音の発音の直前に気流が舌により遮断されるため、発音前に明瞭な無音区間が存在する。

【0025】

Ｄ型のタンギングは、楽器音におけるアタックとサステインとの音量差がＴ型と比較して小さいタンギングである。Ｄ型のタンギングは、例えば有声子音の発音に近似する。すなわち、Ｄ型のタンギングによれば、Ｔ型のタンギングと比較して発音前の無音区間が短いため、相前後する楽器音が短い間隔で連続するレガートタンギングに好適である。

【0026】

Ｌ型のタンギングは、楽器音におけるアタックおよびディケイの変化が殆ど観測されないタンギングである。Ｌ型のタンギングにより発音される楽器音は、サステインのみで構成される。

【0027】

Ｗ型のタンギングは、演奏者が唇を開閉するタンギングである。Ｗ型のタンギングにより発音される楽器音は、アタックおよびディケイの期間内において唇の開閉に起因した音高の変化が観測される。

【0028】

Ｐ型のタンギングは、Ｗ型のタンギングと同様に唇を開閉するタンギングである。Ｐ型のタンギングは、Ｗ型のタンギングと比較して強い発音時に使用される。Ｂ型のタンギングは、Ｐ型のタンギングと同様に唇を開閉させるタンギングである。Ｂ型のタンギングは、Ｐ型のタンギングを有声子音の発音に近似させた関係にある。

【0029】

第２制御データ列Ｙは、以上に例示した６種類のタンギングの何れか、またはタンギングが発生しないことを指定する。具体的には、第２制御データ列Ｙは、相異なる種類のタンギングに対応する６個の要素Ｅ_1～Ｅ_6で構成される。任意の１種類のタンギングを指定する第２制御データ列Ｙは、６個の要素Ｅ_1～Ｅ_6のうち当該種類に対応する１個の要素Ｅが数値「１」に設定され、残余の５個の要素Ｅが「０」に設定されたone-hotベクトルである。例えば、Ｔ型のタンギングを表す第２制御データ列Ｙにおいては、１個の要素Ｅ_1が「１」に設定され、残余の５個の要素Ｅ_2～Ｅ_6が「０」に設定される。また、全部の要素Ｅ_1～Ｅ_6が「０」に設定された第２制御データ列Ｙは、タンギングが発生しないことを意味する。なお、図３における「１」と「０」とを置換したone-cold形式により、第２制御データ列Ｙが設定されてもよい。

【0030】

図２に例示される通り、第２処理部３１２による第２制御データ列Ｙの生成には、生成モデルＭaが利用される。生成モデルＭaは、入力としての音符データ列Ｎと出力としてのタンギング種類との間の関係を機械学習により学習した訓練済モデルである。すなわち、生成モデルＭaは、音符データ列Ｎに対して統計的に妥当なタンギング種類を出力する。第２処理部３１２は、訓練済の生成モデルＭaを用いて音符データ列Ｎを処理することで、各音符の奏法データを推定し、さらに、その奏法データに基づいて第２制御データ列Ｙを単位期間毎に生成する。具体的には、第２処理部３１２は、生成モデルＭaを用いて、各音符毎に、その音符を含む音符データ列Ｎを処理することで、その音符のタンギング種類を示す奏法データＰを推定し、その音符に対応する単位期間の各々に、その奏法データＰが示すのと同じタンギング種類を示す第２制御データＹを出力する。つまり、第２処理部３１２は、各単位期間に、その単位期間を含む音符について推定されたタンギング種類を指定する第２制御データＹを出力する。

【0031】

生成モデルＭaは、音符毎に、音符データＮからタンギング種類を示す奏法データＰを推定する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（加重値およびバイアス）との組合せで実現される。生成モデルＭaを実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。生成モデルＭaの複数の変数は、機械学習により事前に設定される。生成モデルＭaは「第２生成モデル」の一例である。

【0032】

生成モデルＭaは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク（RNN：Recurrent Neural Network）、または畳込ニューラルネットワーク（CNN：Convolutional Neural Network）等の任意の形式の深層ニューラルネットワークが生成モデルＭaとして利用される。複数種の深層ニューラルネットワークの組合せで生成モデルＭaが構成されてもよい。また、長短期記憶（LSTM：Long Short-Term Memory）またはAttention等の付加的な要素が生成モデルＭaに搭載されてもよい。

【0033】

図２に例示される通り、制御データ列取得部３１による以上の処理により、制御データ列Ｃが単位期間毎に生成される。各単位期間の制御データ列Ｃは、当該単位期間について第１処理部３１１が生成した第１制御データ列Ｘと、当該単位期間について第２処理部３１２が生成した第２制御データ列Ｙとを含む。制御データ列Ｃは、例えば第１制御データ列Ｘと第２制御データ列Ｙとを相互に連結（concatenate）したデータである。

【0034】

図２の音響データ列生成部３２は、制御データ列Ｃ（第１制御データ列Ｘおよび第２制御データ列Ｙ）を利用して音響データ列Ｚを生成する。音響データ列Ｚは、目標音を表す任意の形式のデータである。具体的には、音響データ列Ｚは、第１制御データ列Ｘが表す音符列に対応し、かつ、第２制御データ列Ｙが表す演奏動作に対応するアタックを有する目標音を表す。すなわち、第２制御データ列Ｙが表す演奏動作により音符データ列Ｎの音符列を演奏した場合に管楽器から発音される楽音が、目標音として生成される。

【0035】

具体的には、各音響データＺは、目標音の周波数スペクトルの包絡を表すデータである。具体的には、各単位期間の制御データＣに応じて、当該単位期間に対応する音響データＺが生成される。音響データ列Ｚは、単位期間よりも長い１フレーム窓分の波形サンプル系列に対応する。以上の説明の通り、制御データ列取得部３１による制御データＣの取得と、音響データ列生成部３２による音響データＺの生成とは、単位期間毎に実行される。

【0036】

音響データ列生成部３２による音響データ列Ｚの生成には、生成モデルＭbが利用される。生成モデルＭbは、単位期間毎に、その単位期間の制御データＣに基づいて、その単位期間の音響データＺを推定する。生成モデルＭbは、入力としての制御データ列Ｃと出力としての音響データ列Ｚとの間の関係を機械学習により学習した訓練済モデルである。すなわち、生成モデルＭbは、制御データ列Ｃに対して統計的に妥当な音響データ列Ｚを出力する。音響データ列生成部３２は、生成モデルＭbにより制御データ列Ｃを処理することで、音響データ列Ｚを生成する。

【0037】

生成モデルＭbは、制御データ列Ｃから音響データ列Ｚを生成する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（加重値およびバイアス）との組合せで実現される。生成モデルＭbを実現するプログラムおよび複数の変数は、記憶装置１２に記憶される。生成モデルＭbの複数の変数は、機械学習により事前に設定される。生成モデルＭbは「第１生成モデル」の一例である。

【0038】

生成モデルＭbは、例えば深層ニューラルネットワークで構成される。例えば、再帰型ニューラルネットワーク、または畳込ニューラルネットワーク等の任意の形式の深層ニューラルネットワークが生成モデルＭbとして利用される。複数種の深層ニューラルネットワークの組合せで生成モデルＭbが構成されてもよい。また、長短期記憶（LSTM）等の付加的な要素が生成モデルＭbに搭載されてもよい。

【0039】

信号生成部３３は、音響データ列Ｚの時系列から目標音の音響信号Ａを生成する。信号生成部３３は、例えば離散逆フーリエ変換を含む演算により音響データ列Ｚを時間領域の波形信号に変換し、相前後する単位期間について当該波形信号を連結することで音響信号Ａを生成する。なお、例えば音響データ列Ｚと音響信号Ａの各サンプルとの関係を学習した深層ニューラルネットワーク（いわゆるニューラルボコーダ）を利用して、信号生成部３３が音響データ列Ｚから音響信号Ａを生成してもよい。信号生成部３３が生成した音響信号Ａが放音装置１４に供給されることで、目標音が放音装置１４から再生される。

【0040】

図４は、制御装置１１が音響信号Ａを生成する処理（以下「合成処理」という）Ｓの詳細な手順を例示するフローチャートである。複数の単位期間の各々において合成処理Ｓが実行される。

【0041】

合成処理Ｓが開始されると、制御装置１１（第１処理部３１１）は、楽曲データＤのうち単位期間に対応する音符データ列Ｎから当該単位期間の第１制御データ列Ｘを生成する（Ｓ1）。また、制御装置１１（第２処理部３１２）は、単位期間の進行に先行して、もうすぐ始まる音符について、予め音符データ列Ｎの情報を生成モデルＭaにより処理することで、その音符のタンギング種類を示す奏法データＰを推定しておき、各単位期間毎に、当該単位期間の第２制御データ列Ｙを、推定済みの奏法データＰに基づいて生成する（Ｓ2）。推定の先行のさせ方は、具体的には、１～数単位期間先に始まる音符について奏法データＰを推定してもよいし、或いは、ある音符の単位期間に入ったとき、その次の音符の奏法データを推定してもよい。なお、第１制御データ列Ｘの生成（Ｓ1）と第２制御データ列Ｙの生成（Ｓ2）との順序は逆転されてもよい。

【0042】

制御装置１１（音響データ列生成部３２）は、第１制御データ列Ｘと第２制御データ列Ｙとを含む制御データ列Ｃを生成モデルＭbにより処理することで、単位期間の音響データ列Ｚを生成する（Ｓ3）。制御装置１１（信号生成部３３）は、単位期間の音響信号Ａを音響データ列Ｚから生成する（Ｓ4）。各単位期間の音響データＺからは、単位期間より長い１フレーム窓分の波形信号が生成され、それらをオーバーラップ加算することで音響信号Ａが生成される。前後フレーム窓間の時間差(ホップサイズ)が、単位期間に相当する。制御装置１１は、音響信号Ａを放音装置１４に供給することで、目標音を再生する（Ｓ5）。

【0043】

以上の通り、第１実施形態においては、音符列の特徴を表す第１制御データ列Ｘに加えて、楽器音のアタックを制御する演奏動作（具体的にはタンギング）を表す第２制御データ列Ｙが、音響データ列Ｚの生成に利用される。したがって、第１制御データ列Ｘのみから音響データ列Ｚを生成する形態と比較すると、音符列に対して適切なアタックが付与された目標音の音響データ列Ｚを生成できる。第１実施形態においては特に、管楽器のタンギングに関する特徴を表す第２制御データ列Ｙが音響データ列Ｚの生成に利用される。したがって、タンギングの特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列Ｚを生成できる。

【0044】

［機械学習システム２０］
図１の機械学習システム２０は、音響生成システム１０が使用する生成モデルＭaおよび生成モデルＭbを機械学習により確立するコンピュータシステムである。機械学習システム２０は、制御装置２１と記憶装置２２と通信装置２３とを具備する。

【0045】

制御装置２１は、機械学習システム２０の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置２１は、ＣＰＵ、ＧＰＵ、ＳＰＵ、ＤＳＰ、ＦＰＧＡ、またはＡＳＩＣ等の１種類以上のプロセッサにより構成される。

【0046】

記憶装置２２は、制御装置２１が実行するプログラムと、制御装置２１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置２２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。複数種の記録媒体の組合せにより記憶装置２２が構成されてもよい。なお、機械学習システム２０に対して着脱される可搬型の記録媒体、または制御装置２１が通信網２００を介してアクセス可能な記録媒体（例えばクラウドストレージ）が、記憶装置２２として利用されてもよい。

【0047】

通信装置２３は、通信網２００を介して音響生成システム１０と通信する。なお、機械学習システム２０とは別体の通信装置２３を、機械学習システム２０に対して有線または無線により接続してもよい。

【0048】

図５は、機械学習システム２０が生成モデルＭaおよび生成モデルＭbを確立する機能の説明図である。記憶装置２２は、相異なる楽曲に対応する複数の基礎データＢを記憶する。複数の基礎データＢの各々は、楽曲データＤと奏法データＰtと参照信号Ｒとを含む。

【0049】

楽曲データＤは、参照信号Ｒの表す波形で演奏されている、特定の楽曲（以下「参照楽曲」という）の音符列を表すデータである。具体的には、楽曲データＤは、前述の通り、参照楽曲の音符毎に音高と発音期間とを指定する。奏法データＰtは、参照信号Ｒの表す波形で行われている、音符毎の演奏動作を指定する。具体的には、奏法データＰtは、前述の６種類のタンギングの何れか、またはタンギングが発生しないことを、参照楽曲の音符毎に指定する。例えば、奏法データＰtは、各種類のタンギングまたはタンギングが発生しないことを意味する符号が、音符毎に配列された時系列データである。例えば、管楽器の演奏に熟練した演奏者が、参照信号Ｒが表す音を聴取することで、参照楽曲の音符毎に、当該音符の演奏時におけるタンギングの有無と適切なタンギングの種類とを指示する。演奏者の指示に応じて奏法データＰtが生成される。なお、参照信号Ｒから各音符のタンギングを判定する判定モデルを、奏法データＰtの生成に利用してもよい。

【0050】

参照信号Ｒは、奏法データＰtが指定する演奏動作により参照楽曲を演奏したときに、管楽器から発音される楽器音の波形を表す信号である。例えば、管楽器の演奏に熟練した演奏者が、奏法データＰtが指定する演奏動作により、実際に参照楽曲を演奏する。演奏者による楽器音を収録することで、参照信号Ｒが生成される。参照信号Ｒの収録後に、演奏者か関係者が、参照信号Ｒの時間軸上の位置を調整する。その際に、奏法データＰtも付与される。したがって、参照信号Ｒにおける各音符の楽器音は、奏法データＰtが当該音符について指定した種類のタンギングに応じたアタックで発音される。

【0051】

制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、生成モデルＭaおよび生成モデルＭbを生成するための複数の機能（訓練データ取得部４０、第１学習処理部４１および第２学習処理部４２）を実現する。

【0052】

訓練データ取得部４０は、複数の基礎データＢから複数の訓練データＴaと複数の訓練データＴbとを生成する。１個の参照楽曲の単位期間毎に訓練データＴaと訓練データＴbとが生成される。したがって、相異なる参照楽曲に対応する複数の基礎データＢの各々から、複数の訓練データＴaと複数の訓練データＴbとが生成される。第１学習処理部４１は、複数の訓練データＴaを利用した機械学習により生成モデルＭaを確立する。第２学習処理部４２は、複数の訓練データＴbを利用した機械学習により生成モデルＭbを確立する。

【0053】

複数の訓練データＴaの各々は、訓練用の音符データ列Ｎtと訓練用の奏法データ列Ｐt（タンギング種類）との組合せで構成される。なお、生成モデルＭａによる各音符の奏法データＰの推定には、参照楽曲の音符データＮｔのうちのその音符を含むフレーズの複数の音符に関する情報が用いられる。フレーズは、上述した処理期間より長い期間とされ、複数の音符に関する情報には、その音符のフレーズ内での位置が含まれていてもよい。

【0054】

１個の音符の第２制御データ列Ｙtは、参照楽曲のうち当該音符について奏法データＰtが指定する演奏動作（タンギング種類）を表す。訓練データ取得部４０は、各音符の奏法データＰtから第２制御データ列Ｙtを生成する。個々の奏法データＰt（又は個々の第２制御データＹt）は、相異なる種類のタンギングに対応する６個の要素Ｅ_1～Ｅ_6で構成される。奏法データＰt（又は第２制御データＹt）は、６種類のタンギングの何れか、またはタンギングが発生しないことを指定する。以上の説明から理解される通り、各訓練データＴaの奏法データ列Ｐtは、当該訓練データＴaの音符データ列Ｎt内の各音符に対して適切な演奏動作を表す。すなわち、奏法データ列Ｐtは、音符データ列Ｎtの入力に対して生成モデルＭaが出力すべき奏法データ列Ｐの正解（Ground Truth）である。

【0055】

複数の訓練データＴbの各々は、訓練用の制御データ列Ｃtと訓練用の音響データ列Ｚtとの組合せで構成される。制御データ列Ｃtは、訓練用の第１制御データ列Ｘtと訓練用の第２制御データ列Ｙtとの組合せで構成される。第１制御データ列Ｘtは「第１訓練用制御データ列」の一例であり、第２制御データ列Ｙtは「第２訓練用制御データ列」の一例である。また、音響データ列Ｚtは、「訓練用音響データ列」の一例である。

【0056】

第１制御データ列Ｘtは、前述の第１制御データ列Ｘと同様に、音符データ列Ｎtが表す参照音符列の特徴を表すデータである。訓練データ取得部４０は、第１処理部３１１と同様の処理により、音符データ列Ｎtから第１制御データ列Ｘtを生成する。第２制御データ列Ｙtは、参照楽曲のうち当該単位期間を含む音符について奏法データＰtが指定する演奏動作を表す。訓練データ生成部が生成した第２制御データ列Ｙtが、訓練データＴaおよび制御データ列Ｃtに共用される。

【0057】

１個の単位期間の音響データ列Ｚtは、参照信号Ｒのうち当該単位期間内の部分である。訓練データ取得部４０は、参照信号Ｒから音響データ列Ｚtを生成する。以上の説明から理解される通り、音響データ列Ｚtは、第１制御データ列Ｘtに対応する参照音符列を、第２制御データ列Ｙtが表す演奏動作により演奏したときに、管楽器から発音される楽器音の波形を表す。すなわち、音響データ列Ｚtは、制御データ列Ｃtの入力に対して生成モデルＭbが出力すべき音響データ列Ｚの正解（Ground Truth）である。

【0058】

図６は、制御装置２１が機械学習により生成モデルＭaを確立する処理（以下「第１学習処理」という）Ｓaのフローチャートである。例えば、機械学習システム２０の運営者による指示を契機として第１学習処理Ｓaが開始される。制御装置２１が第１学習処理Ｓaを実行することで、図５の第１学習処理部４１が実現される。

【0059】

第１学習処理Ｓaが開始されると、制御装置２１は、複数の訓練データＴaの何れか（以下「選択訓練データＴa」という）を選択する（Ｓa1）。制御装置２１は、図５に例示される通り、初期的または暫定的な生成モデルＭa（以下「暫定モデルＭa0」という）により選択訓練データＴaの音符データ列Ｎtを各音符について処理することで、その音符の奏法データ列Ｐを生成する（Ｓa2）。

【0060】

制御装置２１は、暫定モデルＭa0が生成する奏法データ列Ｐと選択訓練データＴaの奏法データ列Ｐtとの誤差を表す損失関数を算定する（Ｓa3）。制御装置２１は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭa0の複数の変数を更新する（Ｓa4）。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。

【0061】

制御装置２１は、所定の終了条件が成立したか否かを判定する（Ｓa5）。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓa5：NO）、制御装置２１は、未選択の訓練データＴaを新たな選択訓練データＴaとして選択する（Ｓa1）。すなわち、終了条件の成立（Ｓa5：YES）まで、暫定モデルＭa0の複数の変数を更新する処理（Ｓa1～Ｓa4）が反復される。終了条件が成立した場合（Ｓa5：YES）、制御装置２１は、第１学習処理Ｓaを終了する。終了条件が成立した時点における暫定モデルＭa0が、訓練済の生成モデルＭaとして確定される。

【0062】

以上の説明から理解される通り、生成モデルＭaは、複数の訓練データＴaにおける入力としての音符データ列Ｎtと出力としてのタンギング種類（奏法データＰt）との間に潜在する関係を学習する。したがって、訓練済の生成モデルＭaは、その関係の観点から未知の音符データ列Ｎに対して統計的に妥当な奏法データ列Ｐを推定し出力する。

【0063】

図７は、制御装置２１が機械学習により生成モデルＭbを確立する処理（以下「第２学習処理」という）Ｓbのフローチャートである。例えば、機械学習システム２０の運営者による指示を契機として第２学習処理Ｓbが開始される。制御装置２１が第２学習処理Ｓbを実行することで、図５の第２学習処理部４２が実現される。

【0064】

第２学習処理Ｓbが開始されると、制御装置２１は、複数の訓練データＴbの何れか（以下「選択訓練データＴb」という）を選択する（Ｓb1）。制御装置２１は、図５に例示される通り、初期的または暫定的な生成モデルＭb（以下「暫定モデルＭb0」という）により選択訓練データＴbの制御データ列Ｃtを各単位時間について処理することで、その単位時間の音響データ列Ｚを生成する（Ｓb2）。

【0065】

制御装置２１は、暫定モデルＭb0が生成する音響データ列Ｚと選択訓練データＴbの音響データ列Ｚtとの誤差を表す損失関数を算定する（Ｓb3）。制御装置２１は、損失関数が低減（理想的には最小化）されるように、暫定モデルＭb0の複数の変数を更新する（Ｓb4）。損失関数に応じた各変数の更新には、例えば誤差逆伝播法が利用される。

【0066】

制御装置２１は、所定の終了条件が成立したか否かを判定する（Ｓb5）。終了条件は、損失関数が所定の閾値を下回ること、または、損失関数の変化量が所定の閾値を下回ることである。終了条件が成立しない場合（Ｓb5：NO）、制御装置２１は、未選択の訓練データＴbを新たな選択訓練データＴbとして選択する（Ｓb1）。すなわち、終了条件の成立（Ｓb5：YES）まで、暫定モデルＭb0の複数の変数を更新する処理（Ｓb1～Ｓb4）が反復される。終了条件が成立した場合（Ｓb5：YES）、制御装置２１は、第２学習処理Ｓbを終了する。終了条件が成立した時点における暫定モデルＭb0が、訓練済の生成モデルＭbとして確定される。

【0067】

以上の説明から理解される通り、生成モデルＭbは、複数の訓練データＴbにおける入力としての制御データ列Ｃtと出力としての音響データ列Ｚtとの間に潜在する関係を学習する。したがって、訓練済の生成モデルＭbは、その関係の観点から未知の制御データ列Ｃに対して統計的に妥当な音響データ列Ｚを推定し出力する。

【0068】

制御装置２１は、第１学習処理Ｓaにより確立された生成モデルＭaと第２学習処理Ｓbにより確立された生成モデルＭbとを、通信装置２３から音響生成システム１０に送信する。具体的には、生成モデルＭaを規定する複数の変数と、生成モデルＭbを規定する複数の変数とが、音響生成システム１０に送信される。音響生成システム１０の制御装置１１は、機械学習システム２０から送信された生成モデルＭaおよび生成モデルＭbを通信装置１３により受信し、当該生成モデルＭaおよび生成モデルＭbを記憶装置１２に保存する。

【0069】

Ｂ：第２実施形態
第２実施形態を説明する。なお、以下に例示する各態様において機能が第１実施形態と同様である要素については、第１実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。

【0070】

第１実施形態においては、管楽器のタンギングに関する特徴を第２制御データ列Ｙ（及び奏法データＰ）が表す形態を例示した。第２実施形態においては、第２制御データ列Ｙ（及び奏法データＰ）が、管楽器の吹奏における呼気または吸気に関する特徴を表す。具体的には、第２実施形態の第２制御データ列Ｙ（及び奏法データＰ）は、吹奏時の呼気または吸気の強度に関する数値（以下「吹奏パラメータ」という）を表す。例えば、吹奏パラメータは、呼気量、呼気速度、吸気量および吸気速度を含む。管楽器の楽器音のアタックに関する音響特性は、吹奏パラメータに応じて変化する。すなわち、第２実施形態の第２制御データ列Ｙ（及び奏法データＰ）は、第１実施形態の第２制御データ列Ｙと同様に、楽器音のアタックを制御する演奏動作を表すデータである。

【0071】

第１学習処理Ｓaに使用される奏法データＰtは、参照楽曲の音符毎に吹奏パラメータを指定する。各単位期間の第２制御データ列Ｙtは、当該単位期間を含む音符について奏法データＰtが指定する吹奏パラメータを表す。したがって、第１学習処理Ｓaにより確立された生成モデルＭaは、音符データ列Ｎに対して統計的に妥当な吹奏パラメータを表す奏法データＰを推定し出力する。

【0072】

第２学習処理Ｓbに使用される参照信号Ｒは、奏法データＰtが指定する吹奏パラメータにより参照楽曲を演奏したときに、管楽器から発音される楽器音の波形を表す信号である。したがって、第２学習処理Ｓbにより確立された生成モデルＭbは、第２制御データ列Ｙが表す吹奏パラメータがアタックに適切に反映された目標音の音響データ列Ｚを生成する。

【0073】

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態においては、管楽器の吹奏パラメータを表す第２制御データ列Ｙが音響データ列Ｚの生成に利用される。したがって、管楽器の吹奏動作の特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列Ｚを生成できる。

【0074】

Ｃ：第３実施形態
第１実施形態および第２実施形態においては、管楽器の楽器音を表す音響データ列Ｚを生成する形態を例示した。第３実施形態の音響生成システム１０は、擦弦楽器の楽器音を目標音として表す音響データ列Ｚを生成する。擦弦楽器は、弓を利用して弦を摩擦する動作（すなわち擦弦）により発音する弦楽器である。擦弦楽器は、例えばバイオリン、ビオラまたはチェロである。

【0075】

第３実施形態における第２制御データ列Ｙ（及び奏法データＰ）は、擦弦楽器の弓を弦に対して如何に運動させるか（すなわちボウイング）に関する特徴（以下「擦弦パラメータ」という）を表す。例えば、擦弦パラメータは、擦弦方向（アップボウ／ダウンボウ）および擦弦速度を含む。擦弦楽器の楽器音のアタックに関する音響特性は、擦弦パラメータに応じて変化する。すなわち、第３実施形態の第２制御データ列Ｙ（及び奏法データＰ）は、第１実施形態および第２実施形態の第２制御データ列Ｙと同様に、楽器音のアタックを制御する演奏動作を表すデータである。

【0076】

第１学習処理Ｓaに使用される奏法データＰtは、参照楽曲の音符毎に擦弦パラメータを指定する。各単位期間の第２制御データ列Ｙtは、当該単位期間を含む音符について奏法データＰtが指定する擦弦パラメータを表す。したがって、第１学習処理Ｓaにより確立された生成モデルＭaは、音符データ列Ｎに対して統計的に妥当な擦弦パラメータを表す奏法データＰを出力する。

【0077】

第２学習処理Ｓbに使用される参照信号Ｒは、奏法データＰtが指定する擦弦パラメータにより参照楽曲を演奏したときに、擦弦楽器から発音される楽器音の波形を表す信号である。したがって、第２学習処理Ｓbにより確立された生成モデルＭbは、第２制御データ列Ｙが表す擦弦パラメータがアタックに適切に反映された目標音の音響データ列Ｚを生成する。

【0078】

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態においては、擦弦楽器の擦弦パラメータを表す第２制御データ列Ｙが音響データ列Ｚの生成に利用される。したがって、擦弦楽器のボウイングの特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列Ｚを生成できる。

【0079】

なお、目標音に対応する楽器は、以上に例示した管楽器および擦弦楽器に限定されず任意である。また、第２制御データ列Ｙが表す演奏動作は、目標音に対応する楽器の種類に応じた各種の動作である。

【0080】

Ｄ：第４実施形態
図８は、第４実施形態における音響生成システム１０の機能的な構成を例示するブロック図である。制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、第１実施形態と同様の機能（制御データ列取得部３１、音響データ列生成部３２および信号生成部３３）を実現する。

【0081】

第４実施形態の記憶装置１２には、第１実施形態と同様の楽曲データＤだけでなく奏法データＰも記憶される。奏法データＰは、音響生成システム１０のユーザにより指定され、記憶装置１２に記憶される。奏法データＰは、前述の通り、楽曲データＤが表す楽曲の音符毎に演奏動作を指定する。具体的には、奏法データＰは、前述の６種類のタンギングの何れか、またはタンギングが発生しないことを、参照楽曲の音符毎に指定する。なお、奏法データＰは楽曲データＤに含まれてもよい。また、記憶装置１２に記憶される奏法データＰは、楽曲データＤの全音符の各々について、生成モデルＭａを用いて対応する音符データ列を処理し、推定された全音符の奏法データＰであってもよい。

【0082】

第１処理部３１１は、第１実施形態と同様に、単位期間毎に音符データ列Ｎから第１制御データ列Ｘを生成する。第２処理部３１２は、奏法データＰから第２制御データ列Ｙtを単位期間毎に生成する。具体的には、第２処理部３１２は、各単位期間において、当該単位期間を含む音符について奏法データＰが指定する演奏動作を表す第２制御データ列Ｙを生成する。第２制御データ列Ｙの形式は第１実施形態と同様である。また、音響データ列生成部３２および信号生成部３３の動作は第１実施形態と同様である。

【0083】

第４実施形態においても第１実施形態と同様の効果が実現される。第４実施形態においては、各音符の演奏動作が奏法データＰにより指定されるから、第２制御データ列Ｙの生成に生成モデルＭaは不要である。他方、第４実施形態においては、奏法データＰを楽曲毎に用意する必要がある。他方、前述の第１実施形態においては、生成モデルＭaにより音符データ列Ｎから奏法データＰが推定され、その奏法データＰから第２制御データ列Ｙが生成される。したがって、奏法データＰを楽曲毎に用意する必要がない。また、第１実施形態によれば、奏法データＰが生成されていない新規な楽曲についても、音符列に対して適切な演奏動作を指定する第２制御データ列Ｙを生成できるという利点がある。

【0084】

なお、第４実施形態においては第１実施形態を基礎とした形態を例示したが、第２制御データ列Ｙが管楽器の吹奏パラメータを表す第２実施形態、および、第２制御データ列Ｙが擦弦楽器の擦弦パラメータを表す第３実施形態においても、第４実施形態は同様に適用される。

【0085】

Ｅ：第５実施形態
第１実施形態においては、第２制御データ列Ｙ（及び奏法データＰ）が、相異なる種類のタンギングに対応する６個の要素Ｅ_1～Ｅ_6で構成される形態を例示した。すなわち、第２制御データ列Ｙの１個の要素Ｅが１種類のタンギングに対応する。第５実施形態においては、第２制御データ列Ｙの形式が第１実施形態とは相違する。第５実施形態においては、第１実施形態の６種類に加えて、以下の５種類（ｔ，ｄ，ｌ．Ｍ，Ｎ）のタンギングを想定する。

【0086】

ｔ型のタンギングは、演奏時の舌の挙動はＴ型と同様であるが、Ｔ型と比較してアタックが弱いタンギングである。ｔ型のタンギングは、Ｔ型と比較して立上がりの傾斜が緩やかなタンギングとも表現される。ｄ型のタンギングは、演奏時の舌の挙動はＤ型と同様であるが、Ｄ型と比較してアタックが弱いタンギングである。ｄ型のタンギングは、Ｄ型と比較して立上がりの傾斜が緩やかなタンギングとも表現される。ｌ型のタンギングは、演奏時の舌の挙動はＬ型と同様であるが、Ｌ型と比較して立上がりの傾斜が緩やかなタンギングである。Ｍ型のタンギングは、口腔内または唇の形状を変化させることで音を区切るタンギングである。Ｎ型のタンギングは、音が途切れない程度に充分に弱いタンギングである。

【0087】

図９は、第５実施形態における第２制御データ列Ｙの模式図である。第５実施形態の第２制御データ列Ｙ（及び奏法データＰ）は、７個の要素Ｅ_1～Ｅ_7で構成される。

【0088】

要素Ｅ_1は、Ｔ型およびｔ型のタンギングに対応する。具体的には、Ｔ型のタンギングを表す第２制御データ列Ｙにおいては、要素Ｅ_1が「１」に設定され、残余の６個の要素Ｅ_2～Ｅ_7が「０」に設定される。他方、ｔ型のタンギングを表す第２制御データ列Ｙにおいては、要素Ｅ_1が「０．５」に設定され、残余の６個の要素Ｅ_2～Ｅ_7が「０」に設定される。以上の通り、２種類のタンギングが割当てられた１個の要素Ｅは、当該２種類の各々に対応する相異なる数値に設定される。

【0089】

要素Ｅ_2は、Ｄ型およびｄ型のタンギングに対応し、要素Ｅ_3は、Ｌ型およびｌ型のタンギングに対応する。要素Ｅ_4～Ｅ_6は第１実施形態と同様に、１種類のタンギング（Ｗ，Ｐ，Ｂ）に対応する。また、要素Ｅ_7は、Ｍ型およびＮ型のタンギングに対応する。

【0090】

第５実施形態においても第１実施形態と同様の効果が実現される。また、第５実施形態においては、第２制御データ列Ｙ（及び奏法データＰ）の１個の要素が、相異なる種類のタンギングに対応する複数の数値の何れかに設定される。したがって、第２制御データ列Ｙを構成する要素Ｅの個数を低減しながら、多様なタンギングを表現できるという利点がある。

【0091】

Ｆ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

【0092】

（１）前述の各形態においては、第２制御データ列Ｙ（及び奏法データＰ）が、１種類以上のタンギングに対応する複数の要素Ｅで構成される形態を例示したが、第２制御データ列Ｙの形式は以上の例示に限定されない。例えば、図１０に例示される通り、タンギングの有無を表す１個の要素Ｅ_aを、第２制御データ列Ｙが含む形態も想定される。任意の１種類のタンギングを表す第２制御データ列Ｙにおいては、要素Ｅ_aが「１」に設定され、タンギングの発生がないことを表す第２制御データ列Ｙにおいては、要素Ｅ_aが「０」に設定される。

【0093】

また、図１１に例示される通り、前述の各形態で例示した種類の何れにも分類されない未分類のタンギングに対応する要素Ｅ_bを、第２制御データ列Ｙが含んでもよい。未分類のタンギングを表す第２制御データ列Ｙにおいては、要素Ｅ_bが「１」に設定され、残余の要素Ｅが「０」に設定される。

【0094】

なお、第２制御データ列Ｙ（及び奏法データＰ）は、複数の要素Ｅで構成される形式のデータに限定されない。例えば、複数種のタンギングの各々を識別するための識別情報が、第２制御データ列Ｙとして利用されてもよい。

【0095】

（２）前述の各形態においては、第２制御データ列Ｙ（及び奏法データＰ）の複数の要素Ｅのうちの何れかが択一的に「１」に設定され、残余の要素Ｅが「０」に設定される形態を例示したが、複数の要素Ｅのうち２個以上の要素Ｅが「０」以外の正数に設定されてもよい。

【0096】

例えば、２種類のタンギング（以下「対象タンギング」という）の中間的な性質を有するタンギングは、複数の要素Ｅのうち対象タンギングに対応する２個の要素Ｅが正数に設定された第２制御データ列Ｙにより表現される。図１２に例１として図示された第２制御データ列Ｙは、Ｔ型の対象タンギングとＤ型の対象タンギングとの中間的なタンギングを指定する。例１においては、要素Ｅ_1と要素Ｅ_2とが「０．５」に設定され、残余の要素Ｅ（Ｅ_3～Ｅ_6）が「０」に設定される。以上の形態によれば、複数種のタンギングが反映された第２制御データ列Ｙを生成できる。

【0097】

また、２種類の対象タンギングに対して相異なる度合で類似するタンギングは、対象タンギングに対応する２個の要素Ｅが相異なる数値に設定された第２制御データ列Ｙにより表現される。図１２に例２として図示された第２制御データ列Ｙは、Ｔ型の対象タンギングとＤ型の対象タンギングとの中間的なタンギングを指定する。ただし、第２制御データ列Ｙが指定するタンギングは、Ｄ型の対象タンギングよりもＴ型の対象タンギングに類似する。したがって、Ｔ型の対象タンギングの要素Ｅ_1は、Ｄ型の対象タンギングの要素Ｅ_2よりも大きい数値に設定される。具体的には、要素Ｅ_1は「０．７」に設定され、要素Ｅ_2は「０．３」に設定される。すなわち、各タンギングに対応する要素Ｅは、当該タンギングに該当する尤度（すなわち当該タンギングに類似する度合）に設定される。以上の形態によれば、複数種のタンギングの関係が精緻に反映された第２制御データ列Ｙを生成できる。

【0098】

図１２においては２種類の対象タンギングの中間的なタンギングを想定したが、３種類以上の対象タンギングの中間的なタンギングも、同様の方法により表現される。例えば、図１２に例３として例示される通り、４種類の対象タンギング（Ｔ，Ｄ，Ｌ，Ｗ）の中間的なタンギングは、各対象タンギングに対応する４個の要素Ｅが正数に設定された第２制御データ列Ｙにより表現される。

【0099】

なお、複数種の対象タンギングのうち、尤度の降順で上位に位置する所定個の対象タンギングの要素Ｅのみが、正数に設定されてもよい。例えば、図１２に例４aまたは例４bとして図示される通り、４種類の対象タンギング（Ｔ，Ｄ，Ｌ，Ｗ）のうち尤度の降順で選択された２種類の対象タンギングの要素Ｅ（Ｅ_1，Ｅ_2）のみが正数に設定されてもよい。例４aは、尤度の降順で上位に位置する２個の要素Ｅ（Ｅ_1，Ｅ_2）のみが正数に設定され、残余の４個の要素Ｅ（Ｅ_3～Ｅ_6）は「０」に設定された形態である。他方、例４bは、例４aにおいて複数の要素Ｅ（Ｅ_1～Ｅ_6）の合計が「１」となるように各要素Ｅの数値が調整された形態である。

【0100】

なお、第２制御データ列Ｙの複数の要素Ｅの合計が「１」となる形態においては、生成モデルＭaの損失関数として、例えばSoftmax関数が利用される。生成モデルＭbについても同様に、損失関数としてSoftmax関数を利用した機械学習により確立される。

【0101】

（３）前述の各形態においては、音響データ列Ｚが目標音の周波数スペクトルの包絡を表す形態を例示したが、音響データ列Ｚが表す情報は以上の例示に限定されない。例えば、音響データ列Ｚが目標音の各サンプルを表す形態も想定される。以上の形態では、音響データ列Ｚの時系列が音響信号Ａを構成する。したがって、信号生成部３３は省略される。

【0102】

（４）前述の各形態においては、制御データ列取得部３１が第１制御データ列Ｘおよび第２制御データ列Ｙを生成する形態を例示したが、制御データ列取得部３１の動作は以上の例示に限定されない。例えば、制御データ列取得部３１は、外部装置が生成した第１制御データ列Ｘおよび第２制御データ列Ｙを、通信装置１３により当該外部装置から受信してもよい。また、第１制御データ列Ｘおよび第２制御データ列Ｙが記憶装置１２に記憶された形態においては、制御データ列取得部３１は、第１制御データ列Ｘおよび第２制御データ列Ｙを記憶装置１２から読出する。以上の例示から理解される通り、制御データ列取得部３１による「取得」は、第１制御データ列Ｘおよび第２制御データ列Ｙの生成、受信および読出等、第１制御データ列Ｘおよび第２制御データ列Ｙを取得する任意の動作を包含する。訓練データ取得部４０による第１制御データ列Ｘtおよび第２制御データ列Ｙtの「取得」も同様に、第１制御データ列Ｘtおよび第２制御データ列Ｙtを取得する任意の動作（例えば生成、受信および読出）を包含する。

【0103】

（５）前述の各形態においては、第１制御データ列Ｘと第２制御データ列Ｙとを連結した制御データ列Ｃが生成モデルＭbに供給される形態を例示したが、生成モデルＭbに対する第１制御データ列Ｘおよび第２制御データ列Ｙの入力の形態は、以上の例示に限定されない。

【0104】

例えば、図１３に例示される通り、生成モデルＭbが第１部分Ｍb1と第２部分Ｍb2とで構成される形態を想定する。第１部分Ｍb1は、生成モデルＭbの入力層と中間層の一部とで構成される部分である。第２部分Ｍb2は、生成モデルＭbの中間層の他の一部と出力層とで構成される部分である。以上の形態においては、第１制御データ列Ｘが第１部分Ｍb1（入力層）に供給され、第２制御データ列Ｙが、第１部分Ｍb1から出力されるデータとともに第２部分Ｍb2に供給されてもよい。以上の例示から理解される通り、第１制御データ列Ｘと第２制御データ列Ｙとの連結は、本開示において必須ではない。

【0105】

（６）前述の各形態においては、記憶装置１２に事前に記憶された楽曲データＤから音符データ列Ｎを生成したが、演奏装置から順次に供給される音符データ列Ｎを利用してもよい。演奏装置は、利用者による演奏を受付けるＭＩＤＩキーボード等の入力装置であり、利用者の演奏に応じた音符データ列Ｎを順次に出力する。音響生成システム１０は、演奏装置から供給される音符データ列Ｎを利用して音響データ列Ｚを生成する。演奏装置に対する利用者の演奏に並行して実時間的に、前述の合成処理Ｓが実行されてよい。具体的には、演奏装置に対する利用者からの操作に並行して、第２制御データ列Ｙおよび音響データ列Ｚが生成されてもよい。

【0106】

（７）前述の各形態においては、演奏者からの指示に応じて奏法データＰtを生成したが、例えばブレスコントローラ等の入力装置を利用して奏法データＰtを生成してもよい。入力装置は、演奏者の息量（呼気量，吸気量）または息速度（呼気速度，吸気速度）等の吹奏パラメータを検出する検出器である。吹奏パラメータはタンギングの種類に依存する。したがって、吹奏パラメータを利用して奏法データＰtが生成される。例えば、呼気速度が低速である場合には、Ｌ型のタンギングを指定する奏法データＰtが生成される。また、呼気速度が高速であり、かつ、呼気量の変化が高速である場合には、Ｔ型のタンギングを指定する奏法データＰtが生成される。吹奏パラメータに限定されず、収録音の言語的な特徴に応じてタンギングの種類が特定されてもよい。例えば、タ行の文字が認識された場合にはＴ型のタンギングが特定され、濁音の文字が認識された場合にはＤ型のタンギングが特定され、ラ行の文字が認識された場合にはＬ型のタンギングが特定される。

【0107】

（８）前述の各形態においては深層ニューラルネットワークを例示したが、生成モデルＭaおよび生成モデルＭbは深層ニューラルネットワークに限定されない。例えば、ＨＭＭ（Hidden Markov Model）またはＳＶＭ（Support Vector Machine）等の任意の形式および種類の統計モデルが、生成モデルＭaまたは生成モデルＭbとして利用されてもよい。

【0108】

（９）前述の各形態においては、音符データ列Ｎとタンギング種類（奏法データＰ）との関係を学習した生成モデルＭaを利用したが、音符データ列Ｎからタンギング種類を生成するための構成および方法は、以上の例示に限定されない。例えば、複数の音符データ列Ｎの各々にタンギング種類が対応付けられた参照テーブルが、第２処理部３１２による第２制御データ列Ｙの生成に利用されてもよい。参照テーブルは、音符データ列Ｎとタンギング種類との対応が登録されたデータテーブルであり、例えば記憶装置１２に記憶される。第２処理部３１２は、音符データ列Ｎに対応するタンギング種類を参照テーブルから検索し、当該タンギング種類を指定する第２制御データ列Ｙを単位期間毎に出力する。

【0109】

（１０）前述の各形態においては、機械学習システム２０が生成モデルＭaおよび生成モデルＭbを確立したが、生成モデルＭaを確立する機能（訓練データ取得部４０および第１学習処理部４１）と、生成モデルＭbを確立する機能（訓練データ取得部４０および第２学習処理部４２）との一方または双方は、音響生成システム１０に搭載されてもよい。

【0110】

（１１）例えばスマートフォンまたはタブレット端末等の情報装置と通信するサーバ装置により、音響生成システム１０が実現されてもよい。例えば、音響生成システム１０は、情報装置から音符データ列Ｎを受信し、当該音符データ列Ｎを適用した合成処理Ｓにより音響信号Ａを生成する。音響生成システム１０は、合成処理Ｓにより生成した音響信号Ａを、情報装置に送信する。なお、信号生成部３３が情報装置に搭載された形態では、音響データ列Ｚの時系列が情報装置に送信される。すなわち、音響生成システム１０から信号生成部３３は省略される。

【0111】

（１２）音響生成システム１０の機能（制御データ列取得部３１、音響データ列生成部３２、信号生成部３３）は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。また、機械学習システム２０の機能（訓練データ取得部４０、第１学習処理部４１、第２学習処理部４２）は、前述の通り、制御装置２１を構成する単数または複数のプロセッサと、記憶装置２２に記憶されたプログラムとの協働により実現される。

【0112】

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網２００を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。

【0113】

Ｇ：付記
以上に例示した形態から、例えば以下の構成が把握される。

【0114】

ひとつの態様（態様１）に係る音響生成方法は、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得し、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する。以上の態様においては、音符列の特徴を表す第１制御データ列に加えて、音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列が、音響データ列の生成に利用される。したがって、第１制御データ列のみから音響データ列を生成する構成と比較すると、音符列に対して適切なアタックが付与された楽器音の音響データ列を生成できる。

【0115】

「第１制御データ列」は、音符列の特徴を表す任意の形式のデータ（第１制御データ）であり、例えば音符列を表す音符データ列から生成される。また、電子楽器等の入力装置に対する操作に応じてリアルタイムに生成される音符データ列から第１制御データ列が生成されてもよい。「第１制御データ列」は、合成目的となる楽器音の条件を指定するデータとも換言される。例えば、「第１制御データ列」は、音符列を構成する各音符の音高または継続長、１個の音符の音高と当該音符の周囲に位置する他の音符の音高との関係等、音符列を構成する各音符に関する各種の条件を指定する。

【0116】

「楽器音」は、楽器の演奏により当該楽器から発生する楽音である。楽器音の「アタック」は、当該楽器音における立ち上がりの部分である。「第２制御データ列」は、楽器音のアタックに影響する演奏動作を表す任意の形式のデータ（第２制御データ）である。第２制御データ列は、例えば、音符データ列に付加されたデータ、音符データ列に対する処理により生成されるデータ、または利用者からの指示に応じたデータである。

【0117】

「第１生成モデル」は、第１制御データ列および第２制御データ列と、音響データ列との関係を機械学習により学習した学習済モデルである。第１生成モデルの機械学習には複数の訓練データが利用される。各訓練データは、第１訓練用制御データ列および第２訓練用制御データ列の組と、訓練用音響データ列とを含む。第１訓練用制御データ列は、参照音符列の特徴を表すデータであり、第２訓練用制御データ列は、参照音符列の演奏に好適な演奏動作を表すデータである。訓練用音響データ列は、第１訓練用制御データ列に対応する参照音符列を、第２訓練用制御データ列に対応する演奏動作で演奏した場合に発音される楽器音を表す。例えば深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）、またはＳＶＭ（Support Vector Machine）等の各種の統計的推定モデルが、「第１生成モデル」として利用される。

【0118】

第１生成モデルに対する第１制御データ列および第２制御データ列の入力の形態は任意である。例えば、第１制御データ列と第２制御データ列とを含む入力データが第１生成モデルに入力される。また、第１生成モデルが入力層と複数の中間層と出力層とを含む構成においては、第１制御データ列が入力層に入力され、第２制御データ列が中間層に入力される形態も想定される。すなわち、第１制御データ列と第２制御データ列との結合は必須ではない。

【0119】

「音響データ列」は、楽器音を表す任意の形式のデータ（音響データ）である。例えば、強度スペクトル、メルスペクトル、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）等の音響特性（周波数スペクトル包絡）を表すデータが、「音響データ列」の一例である。また、楽器音の波形を表すサンプル系列が「音響データ列」として生成されてもよい。

【0120】

態様１の具体例（態様２）において、前記第１生成モデルは、参照音符列の特徴を表す第１訓練用制御データ列、および、前記参照音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２訓練用制御データ列と、前記参照音符列の楽器音を表す訓練用音響データ列と、を含む訓練データを利用して訓練されたモデルである。以上の態様によれば、参照音符列の第１訓練用制御データ列および第２訓練用制御データ列と、当該参照音符列の楽器音を表す訓練用音響データ列との関係の観点から、統計的に妥当な音響データ列を生成できる。

【0121】

態様１または態様２の具体例（態様３）において、前記第１制御データ列および前記第２制御データ列の取得においては、前記音符列を表す音符データ列から前記第１制御データ列を生成し、訓練済の第２生成モデルにより前記音符データ列を処理することで、前記第２制御データ列を生成する。以上の態様によれば、第２生成モデルにより音符データ列を処理することで第２制御データ列が生成される。したがって、楽器音の演奏動作を表す奏法データを楽曲毎に用意する必要がない。また、新規な楽曲についても適切な演奏動作を表す第２制御データ列を生成できる。

【0122】

態様１から態様３の何れかの具体例（態様４）において、前記第２制御データ列は、管楽器のタンギングに関する特徴を表す。以上の態様においては、管楽器のタンギングに関する特徴を表す第２制御データ列が、音響データ列の生成に利用される。したがって、タンギングの特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列を生成できる。

【0123】

「管楽器のタンギングに関する特徴」は、例えば、タンギングに舌および唇の何れが使用されるか等の特徴である。舌を使用するタンギングについては、さらに、アタックのピークとサステインとの音量差が大きいタンギング（無声子音）、当該音量差が小さいタンギング（有声子音）、または、アタックおよびディケイの変化が観測されないタンギング等、タンギングの手法に関する特徴が第２制御データ列により指定されてもよい。また、唇を使用するタンギングについては、さらに、唇自体の開閉を利用したタンギング、唇自体の開閉を利用して大きい音量を発音するタンギング、または、唇自体の開閉を利用して有声子音と同様に発音するタンギング等、タンギングの手法に関する特徴が第２制御データ列により指定されてもよい。

【0124】

態様１から態様３の何れかの具体例（態様５）において、前記第２制御データ列は、管楽器の吹奏における呼気または吸気に関する特徴を表す。以上の態様によれば、管楽器の吹奏における呼気または吸気に関する特徴を表す第２制御データ列が、音響データ列の生成に利用される。したがって、吹奏の特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列を生成できる。なお、「管楽器の吹奏における呼気または吸気に関する特徴」は、例えば、呼気または吸気の強度（例えば呼気量、呼気速度、吸気量、吸気速度）である。

【0125】

態様１から態様３の何れかの具体例（態様６）において、前記第２制御データ列は、擦弦楽器のボウイングに関する特徴を表す。以上の態様によれば、擦弦楽器のボウイングに関する特徴を表す第２制御データ列が、音響データ列の生成に利用される。したがって、ボウイングの特徴に応じたアタックの相違が適切に反映された自然な楽器音の音響データ列を生成できる。なお、「擦弦楽器のボウイングに関する特徴」は、例えば擦弦方向（アップボウ／ダウンボウ）または擦弦速度である。

【0126】

態様１から態様６の何れかの具体例（態様７）において、時間軸上の複数の単位期間の各々において、前記第１制御データ列および第２制御データ列の取得と、前記音響データ列の生成とが実行される。

【0127】

ひとつの態様（態様８）に係る音響生成システムは、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部と、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部とを具備する。

【0128】

ひとつの態様（態様９）に係るプログラムは、音符列の特徴を表す第１制御データ列と、前記音符列の各音符に対応する楽器音のアタックを制御する演奏動作を表す第２制御データ列とを取得する制御データ列取得部、および、前記第１制御データ列と前記第２制御データ列とを訓練済の第１生成モデルにより処理することで、前記第２制御データ列が表す演奏動作に対応するアタックを有する前記音符列の楽器音を表す音響データ列を生成する音響データ列生成部、としてコンピュータシステムを機能させる。

【符号の説明】

【0129】

１００…情報システム、１０…音響生成システム、１１…制御装置、１２…記憶装置、１３…通信装置、１４…放音装置、２０…機械学習システム、２１…制御装置、２２…記憶装置、２３…通信装置、３１…制御データ列取得部、３１１…第１処理部、３１２…第２処理部、３２…音響データ列生成部、３３…信号生成部、４０…訓練データ取得部、４１…第１学習処理部、４２…第２学習処理部。

【図1】