(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-13
(45)【発行日】2022-06-21
(54)【発明の名称】音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
(51)【国際特許分類】
G10L 13/06 20130101AFI20220614BHJP
G10L 13/00 20060101ALI20220614BHJP
G10L 13/033 20130101ALI20220614BHJP
【FI】
G10L13/06 120Z
G10L13/06 230Z
G10L13/00 100Y
G10L13/033 102B
(21)【出願番号】P 2021501995
(86)(22)【出願日】2020-02-18
(86)【国際出願番号】 JP2020006160
(87)【国際公開番号】W WO2020171034
(87)【国際公開日】2020-08-27
【審査請求日】2021-06-29
(31)【優先権主張番号】P 2019028682
(32)【優先日】2019-02-20
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】特許業務法人旺知国際特許事務所
(72)【発明者】
【氏名】ボナダ ジョルディ
(72)【発明者】
【氏名】ブラアウ メルレイン
(72)【発明者】
【氏名】大道 竜之介
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2012/053150(WO,A1)
【文献】欧陽江卉 他,“WaveNetボコーダにおけるfew-shot話者適応の検討”,日本音響学会 2019年 春季研究発表会講演論文集CD-ROM[CD-ROM],一般社団法人日本音響学会,pp.1117-1118
【文献】WANG Xin,et al.,“NEURAL SOURCE-FILTER-BASED WAVEFORM MODEL FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS”,arXiv preprint,2018年10月29日,arXiv:1810.11946vl,URL:http://arxiv.org/pdf/1810.11946vl.pdf,[検索日2021.11.29]
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
(57)【特許請求の範囲】
【請求項1】
生成すべき音信号の音源スペクトルとスペクトル包絡とを取得し、
参照信号の音源スペクトルおよびスペクトル包絡に対する前記参照信号の関係を学習した波形生成モデルを用いて、前記取得した音源スペクトルおよびスペクトル包絡
から、前記音信号のサンプルを示す断片データを推定する
コンピュータにより実現される音信号生成方法。
【請求項2】
前記スペクトル包絡は、前記音信号の波形スペクトルの包絡である
請求項
1に記載の音信号生成方法。
【請求項3】
前記音源スペクトルは、前記スペクトル包絡を用いて、前記波形スペクトルを白色化したスペクトルである
請求項
2に記載の音信号生成方法。
【請求項4】
参照信号の波形スペクトルからスペクトル包絡を算出し、
前記スペクトル包絡を用いて前記波形スペクトルを白色化して音源スペクトルを算出し、
前記音源スペクトルと前記スペクトル包絡とに応じて、音信号のサンプルを示す断片データを推定するよう、波形生成モデルを訓練する
コンピュータにより実現される生成モデルの訓練方法。
【請求項5】
1以上のプロセッサを具備する音信号生成システムであって、
前記1以上のプロセッサは、プログラムを実行することで、
生成すべき音信号の音源スペクトルとスペクトル包絡とを取得し、
参照信号の音源スペクトルおよびスペクトル包絡に対する前記参照信号の関係を学習した波形生成モデルを用いて、前記取得した音源スペクトルおよびスペクトル包絡
から、前記音信号のサンプルを示す断片データを推定する
音信号生成システム。
【請求項6】
前記スペクトル包絡は、前記音信号の波形スペクトルの包絡である
請求項
5に記載の音信号生成システム。
【請求項7】
前記音源スペクトルは、前記スペクトル包絡を用いて、前記波形スペクトルを白色化したスペクトルである
請求項
6に記載の音信号生成システム。
【請求項8】
生成すべき音信号の音源スペクトルとスペクトル包絡とを取得する取得部、および、
参照信号の音源スペクトルおよびスペクトル包絡に対する前記参照信号の関係を学習した波形生成モデルを用いて、前記取得した音源スペクトルおよびスペクトル包絡
から、前記音信号のサンプルを示す断片データを推定する波形生成部
としてコンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、周波数領域の音響特徴量から波形を生成するボコーダ技術に関する。
【背景技術】
【0002】
周波数領域の音響特徴量に基づき、時間領域の波形を生成する種々のボコーダが知られている。例えば、非特許文献1に記載のWORLDボコーダは、音響特徴量として波形スペクトルのピッチ(F0)と、スペクトル包絡(Spectral envelope)と、非周期パラメータ(Aperiodic parameter)とを受け取り、その音響特徴量に対応する波形を生成する。
【0003】
近年、ニューラルネットワークを用いたニューラルボコーダが提案されている。例えば、非特許文献2に記載のWaveNetボコーダは、メルスペクトログラム、またはWORLDボコーダが波形の生成に使用する音響特徴量と類似の音響特徴量を受け取り、受け取った音響特徴量に応じて品質の高い波形を生成できる。
【先行技術文献】
【非特許文献】
【0004】
【文献】Masanori Morise, Fumiya Yokomori, and Kenji Ozawa. "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications." IEICE Transactions on Information and Systems, 99:18771884, 2016.
【文献】Tamamori, Akira, et al. "Speaker-dependent WaveNet vocoder." Proc. Interspeech. Vol. 2017. 2017.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献2のニューラルボコーダは、非特許文献1に例示される通常のボコーダより高品質の波形を生成できる。通常のボコーダまたはニューラルボコーダが受け取る音響特徴量には、主に、WORLD特徴量のような波形スペクトルの調波成分をスペクトル包絡とピッチで表す第1のタイプか、メルスペクトログラム等の波形スペクトルを直接表す第2のタイプがあった。
【0006】
第1のタイプの音響特徴量は、その方式上、各調波成分の基本周波数の倍数からのずれを表現できず、また、調波外成分を示す非周期パラメータ等の情報が不十分であり、生成できる波形の質を上げるのが難しかった。
【0007】
第2のタイプの音響特徴量には、特徴量を容易に変更できないという欠点があった。自然界の音の生成メカニズムでは、音声における声帯と声道、木管楽器におけるリードと管体のように、音源とフィルタで構成されているケースが多い。したがって、音源とフィルタのそれぞれに対応する特性を変更することが有用な場合がある。例えば、音源の特性の一つであるピッチの変更、または、フィルタの特性のひとつであるエンベロープの変更が、これに該当する。第2のタイプの音響特徴量においては音源とフィルタの特性が分離されていないために、これらを個別に変更することが容易ではない。以上の事情を考慮して、本開示は、高品質な音信号を生成することを目的とする。
【課題を解決するための手段】
【0008】
本開示のひとつの態様に係る音信号生成方法は、生成すべき音信号の音源スペクトルとスペクトル包絡とを取得し、前記取得した音源スペクトルおよびスペクトル包絡に応じて、前記音信号のサンプルを示す断片データを推定する。
【0009】
本開示のひとつの態様に係る生成モデルの訓練方法は、参照信号の波形スペクトルからスペクトル包絡を算出し、前記スペクトル包絡を用いて前記波形スペクトルを白色化して音源スペクトルを算出し、前記音源スペクトルと前記スペクトル包絡とに応じて、音信号のサンプルを示す断片データを推定するよう、波形生成モデルを訓練する。
【0010】
本開示のひとつの態様に係る音信号生成システムは、1以上のプロセッサを具備する音信号生成システムであって、前記1以上のプロセッサは、プログラムを実行することで、生成すべき音信号の音源スペクトルとスペクトル包絡とを取得し、前記取得した音源スペクトルおよびスペクトル包絡に応じて、前記音信号のサンプルを示す断片データを推定する。
【0011】
本開示のひとつの態様に係るプログラムは、生成すべき音信号の音源スペクトルとスペクトル包絡とを取得する取得部、および、前記取得した音源スペクトルおよびスペクトル包絡に応じて、前記音信号のサンプルを示す断片データを推定する波形生成部としてコンピュータを機能させる。
【図面の簡単な説明】
【0012】
【
図1】音信号生成装置のハードウェア構成を示すブロック図である。
【
図2】音信号生成装置の機能構成を示すブロック図である。
【
図5】ある音高の音信号の波形スペクトルの例である。
【
図9】ST表現の時系列を生成する自動演奏機能を説明する図である。
【発明を実施するための形態】
【0013】
A:第1実施形態
図1は、本開示の音信号生成システム100の構成を例示するブロック図である。音信号生成システム100は、制御装置11と記憶装置12と表示装置13と入力装置14と放音装置15とを具備するコンピュータシステムで実現される。音信号生成システム100は、例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末である。音信号生成システム100は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(例えばサーバ-クライアントシステム)でも実現される。
【0014】
制御装置11は、音信号生成システム100を構成する各要素を制御する単数または複数のプロセッサである。具体的には、例えばCPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより、制御装置11が構成される。制御装置11は、合成音の波形を表す時間領域の音信号Vを生成する。
【0015】
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。なお、音信号生成システム100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12は音信号生成システム100から省略されてもよい。
【0016】
表示装置13は、制御装置11が実行したプログラムの演算結果を表示する。表示装置13は、例えばディスプレイである。表示装置13は音信号生成システム100から省略されてもよい。
【0017】
入力装置14は、ユーザの入力を受け付ける。入力装置14は、例えばタッチパネルである。入力装置14は音信号生成システム100から省略されてもよい。
【0018】
放音装置15は、制御装置11が生成した音信号Vが表す音声を再生する。放音装置15は、例えばスピーカまたはヘッドホンである。なお、制御装置11が生成した音信号Vをデジタルからアナログに変換するD/A変換器と音信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、
図1では、放音装置15を音信号生成システム100に搭載した構成を例示したが、音信号生成システム100とは別体の放音装置15を音信号生成システム100に有線または無線で接続してもよい。
【0019】
図2は、制御装置11の機能構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで、波形生成モデルを用いて、周波数領域の音響特徴量に応じた音波形を表す時間領域の音信号Vを生成する生成機能(取得部121、加工部122,および波形生成部123)を実現する。また、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、その音信号Vの生成に用いる波形生成モデルの準備を行う準備機能(解析部111、抽出部112、白色化部113、および訓練部114)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
【0020】
まず、音源音色表現(Source Timbre Representation、以下、ST表現と呼ぶ)と、そのST表現に応じた音信号Vを生成する波形生成モデルとを説明する。ST表現は、音信号Vを表現する周波数領域の特徴量を表すデータである。具体的には、ST表現は、音源スペクトル(source)とスペクトル包絡(timbre)との組み合わせからなるデータである。音源から発生する音に特定の音色が付加される場面を想定すると、音源スペクトルは、音源から発生する音の周波数特性であり、スペクトル包絡は、当該音に付加される音色を表す周波数特性(当該音を処理するフィルタの応答特性)である。
【0021】
波形生成モデルは、生成されるべき音信号Vの音響特徴量であるST表現の時系列に応じて、その音信号Vを生成するための統計的モデルである。統計的モデルの生成特性は、記憶装置12に記憶された複数の変数(係数およびバイアスなど)により規定される。統計的モデルは、ST表現に応じて、サンプリング周期ごとに、音信号Vのサンプルを示す断片データを推定するニューラルネットワークである。ニューラルネットワークは、例えば、WaveNet (TM)のような、音信号Vの過去の複数のサンプルに基づいて、現在のサンプルの確率密度分布を推定する回帰的なタイプでもよい。また、そのアルゴリズムも任意であり、例えば、CNNタイプでもRNNタイプでよいし、その組み合わせでもよい。さらに、LSTMまたはATTENTIONなどの付加的要素を備えるタイプでもよい。波形生成モデルの複数の変数は、後述する準備機能による訓練データを用いた訓練により確立される。複数の変数が確立された波形生成モデルは、後述する生成機能で音信号Vの生成に使用される。
【0022】
記憶装置12は、波形生成モデルの訓練のために、時間領域の波形を示す複数の音信号(以下、「参照信号」と呼ぶ)Rを記録する。各参照信号Rは、数秒程度の時間長にわたる信号であり、サンプリング周期(例えば、48kHz)ごとのサンプルの時系列で構成される。波形生成モデルは、一般的に、訓練に用いた音信号に似た音信号を上手く合成する傾向がある。したがって、音信号の品質の向上のためには、その音信号と特徴の類似する充分な個数の音信号を用意する必要がある。波形生成モデルに種々の音信号を生成させたければ、それに応じて種々の音信号を用意する必要がある。用意された複数の音信号は、それぞれ参照信号Rとして記憶装置12に記憶される。
【0023】
次に、波形生成モデルを訓練する準備機能について説明する。準備機能は、制御装置11が、
図3のフローチャートに例示される準備処理を実行することで実現される。準備処理は、例えば音信号生成システム100の利用者からの指示を契機として開始される。
【0024】
準備処理を開始すると、制御装置11(解析部111)は、複数の参照信号Rの各々から周波数領域のスペクトル(以下、波形スペクトルと呼ぶ)を生成する(Sa1)。波形スペクトルは、例えば参照信号Rの振幅スペクトルである。制御装置11(抽出部112)は、各波形スペクトルからスペクトル包絡を生成する(Sa2)。また、制御装置11(白色化部113)は、各スペクトル包絡を用いて、当該スペクトル包絡に対応する波形スペクトルを白色化することで音源スペクトルを生成する(Sa3)。白色化は、波形スペクトルにおける周波数ごとの強度の相違を低減する処理である。次に、制御装置11(訓練部114)は、各参照信号Rと当該参照信号Rに対応する音源スペクトルと当該参照信号Rに対応するスペクトル包絡との組み合わせを用いて波形生成モデルを訓練し、波形生成モデルの複数の変数を確立する(Sa4)。続いて、準備処理の各機能の詳細を説明する。
【0025】
図2の解析部111は、複数の参照信号Rの各々について、時間軸上のフレームごとに波形スペクトルを算定する。波形スペクトルの算定には、例えば離散フーリエ変換等の公知の周波数解析が用いられる。フーリエ変換の窓幅は、例えば20秒程度であり、相前後するフレームの間隔は、例えば5ミリ秒程度である。
【0026】
抽出部112は、各参照信号Rの波形スペクトルからスペクトル包絡を抽出する。スペクトル包絡の抽出には公知の技術が任意に採用される。例えば、抽出部112は、波形スペクトルから調波成分のピークを抽出し、そのピーク振幅をスプライン補間することで、参照信号Rのスペクトル包絡を算出する。或いは、抽出部112は、波形スペクトルをケプストラム係数に変換し、その低次成分を逆変換することで得られる振幅スペクトルをスペクトル包絡としてもよい。
【0027】
白色化部113は、各スペクトル包絡に応じて、対応する参照信号Rを白色化(フィルタリング)することで音源スペクトルを算出する。白色化には公知の種々の方法が用いられる。例えば、最も簡単な白色化の方法としては、対数スケールにおいて、参照信号Rの波形スペクトルから当該参照信号Rのスペクトル包絡を減算することで、音源スペクトルが算出される。
【0028】
図4には、参照信号Rから算出された波形スペクトルと、その波形スペクトルから算出されたST表現(すなわちスペクトル包絡と音源スペクトルとの組み合わせ)とが例示されている。このST表現を構成する音源スペクトルおよびスペクトル包絡は、周波数軸にメル尺度またはバーク尺度などを用いて、次元が削減されていてもよい。次元が削減されたST表現を訓練に用いると、波形生成モデルは、次元が削減されたST表現に応じて音信号Vを生成するように訓練される。これにより、所望の品質の音生成に必要な波形生成モデルの規模を小さくでき、かつ、学習効率を上げられる。メル尺度における、ある音信号の波形スペクトルの時系列の例を
図5に示し、メル尺度における、その音信号のST表現の時系列の例を
図6に示す。
図6における上段が音源スペクトルの時系列であり、下段がスペクトル包絡の時系列である。
【0029】
図2の訓練部114は、波形生成モデルを訓練する。その訓練に用いる各単位データは、1つの参照信号Rと、当該参照信号Rから算出された音源スペクトルおよびスペクトル包絡とで構成される。記憶装置12に記憶された複数の参照信号Rから複数の単位データが準備される。訓練部114は、まず、複数の単位データを、波形生成モデルの訓練のための訓練データと、波形生成モデルのテストのためのテストデータとに分ける。複数の単位データの大部分が訓練データとされ、一部がテストデータにされる。
【0030】
訓練部114は、
図7の上段に例示するように、複数の訓練データを用いて、波形生成モデルを訓練する。この実施形態の波形生成モデルは、ST表現を受け取り、サンプリング周期(時刻t)ごとに、音信号Vのサンプルを示す断片データを推定する。ここで、推定される断片データは、サンプルの確率密度分布であってもよいし、サンプルの値であってもよい。
【0031】
訓練部114は、時刻tにおける訓練データのST表現を波形生成モデルに順次入力することで、そのST表現に応じた断片データを推定させる。訓練部114は、推定された断片データと参照信号Rにおける時刻tのサンプルとに基づいて損失関数Lを計算する。訓練部114は、所定の期間内における一連の損失関数Lの和が最小化されるように波形生成モデルの複数の変数を最適化する。断片データが確率密度分布である場合、損失関数Lは、当該確率密度分布の対数尤度の符号を反転したものである。断片データがサンプルである場合、損失関数Lは、例えば、当該サンプルと参照信号Rのサンプルとの二乗誤差である。訓練部114は、訓練データによる訓練を、テストデータについて算出される損失関数Lの値が十分に小さくなるか、或いは、繰り返し毎のその損失関数Lの変化が十分に小さくなるまで繰り返し行う。こうして確立された波形生成モデルは、複数の単位データにおけるST表現の時系列と、参照信号Rとの間に潜在する関係を学習している。この波形生成モデルを用いることで、未知のST表現の時系列についても、品質の良い音信号Vを生成できる。
【0032】
次に、前述した波形生成モデルを用いて音信号Vを生成する生成機能について説明する。生成機能は、制御装置11が、
図8のフローチャートに例示される音生成処理を実行することで実現される。音生成処理は、例えば音信号生成システム100の利用者からの指示を契機として開始される。
【0033】
音生成処理を開始すると、制御装置11(取得部121)は、ST表現(音源スペクトルとスペクトル包絡)を取得する(Sb1)。ステップSb1において、制御装置11(加工部122)は、ST表現を加工してもよい。次に、波形生成部123は、波形生成モデルを用いて、そのST表現に応じた音信号Vを生成する(Sb3)。続いて、音生成処理の各機能の詳細を説明する。
【0034】
取得部121は、生成すべき音信号VのST表現の時系列を取得する。取得部121は、例えば、
図9に例示する楽譜データの自動演奏機能によりST表現を取得する。
【0035】
図9は、自動演奏機能により楽譜データに対応するST表現の時系列を生成する処理の説明図である。この自動演奏機能は、外部の自動演奏装置に搭載されてもよいし、制御装置11が自動演奏ソフトウェアを実行することで実現されてもよい。自動演奏ソフトウェアは、例えばマルチタスクにより音生成処理とパラレルに実行されるアプリケーションプログラムである。
【0036】
自動演奏機能は、楽譜データの自動演奏により当該楽譜データに対応するST表現の時系列を生成する機能であり、条件供給部211とST表現生成部212とにより実現される。条件供給部211は、音符の時系列を含む楽譜データに基づき、その各音符に対応する音信号Vの発音条件(音高、開始、停止等)を示す制御データを順次生成する。ST表現生成モデルは、1または複数のニューラルネットワークを含む確率的モデルである。ST表現生成モデルは、訓練データによる事前の訓練により、種々の音符に対応する制御データと、各音符に応じて演奏される音信号VのST表現との間に潜在する関係を学習している。ST表現生成部212は、このST表現生成モデルを用いて、条件供給部211から供給される制御データの時系列に応じたST表現の時系列を生成する。
【0037】
第1実施形態の取得部121は加工部122を含む。加工部122は、自動演奏機能により生成された初期的なST表現の時系列を加工する。例えば、加工部122は、ST表現のある音高の音源スペクトルをピッチ変換することで、別の音高の音源スペクトルを含むST表現を出力する。或いは、加工部122は、ST表現のスペクトル包絡に高域を強調するフィルタをかけて、高域が強調されたスペクトル包絡を含むST表現を出力する。
【0038】
波形生成部123は、取得部121が取得したST表現の時系列を受け取り、
図7の下段に例示するように、波形生成モデルを用いて、サンプリング周期(時刻t)ごとに、各ST表現(音源スペクトルとスペクトル包絡)に応じた断片データを推定する。断片データが確率密度分布である場合、波形生成部123は、その確率密度分布に従う乱数を生成し、当該乱数を時刻tの音信号Vのサンプルとして出力する。推定される断片データがサンプルである場合は、当該サンプルをそのまま時刻tの音信号Vのサンプルとして出力する。
【0039】
以上のようにして、楽譜データから生成されたST表現の時系列に応じて、その楽譜データの楽譜の音符の時系列を演奏した音を表す音信号Vが生成される。ここで生成される音信号Vは、取得したST表現(音源スペクトルとスペクトル包絡)の時系列から推定されたものである。したがって、調波成分の周波数のずれが再現され、かつ、高品質な調波外成分を有する音信号Vが生成される。メルスペクトログラム等の波形スペクトルに比べ、ST表現の特性の制御は容易である。波形生成モデルは、ST表現の音源スペクトルとスペクトル包絡の組み合わせから(両者を合成することなく)直接的に音信号Vを推定するので、音源とフィルタを有する生成機構により生成される自然界の音を効率よく生成できる。
【0040】
B:第2実施形態
第1実施形態の音信号生成システム100は、楽譜データの音符の時系列から生成されたST表現の時系列に応じて、音信号Vを生成したが、鍵盤で演奏された音符の時系列からST表現を生成するなど、他の方法で生成されたST表現に応じて音信号Vを生成してもよい。
【0041】
第2実施形態として、入力されるある音高の音信号(以下、入力音信号と呼ぶ)のピッチを変換して別の音高の音信号Vを出力する、いわゆるピッチシフタに、音信号生成システム100を応用した例を説明する。第2実施形態の機能的構成は第1実施形態と同じ(
図2)だが、取得部121が、ST表現の時系列を、
図9の自動演奏機能の代わりに、
図10のピッチシフタ機能から取得する点が第1実施形態とは異なる。
【0042】
図10に例示されるピッチシフタ機能において、解析部221、抽出部222、および白色化部223の機能は、既に説明した解析部111、抽出部112、および白色化部113とそれぞれ同じである。解析部221は、入力音信号からその入力音信号の波形スペクトルを推定する。抽出部222は、その波形スペクトルから入力音信号のスペクトル包絡を算出する。白色化部223は、そのスペクトル包絡でその波形スペクトルを白色化することで入力音信号の音源スペクトルを算出する。
【0043】
ピッチシフタ機能の変換部224は、加工部122と同様に、白色化部223から音源スペクトルを受け取り、ある音高(以下、第1音高と呼ぶ)の音源スペクトルを別の音高(以下、第2音高と呼ぶ)の音源スペクトルにピッチ変換する。ピッチ変換の具体的な方法は任意であるが、例えば、変換部224は、特許第5772739号公報(対応する米国特許:米国特許第9286906号明細書)に記載されたピッチ変換が利用される。具体的には、変換部224は、第1音高の音源スペクトルを、各調波の周辺成分を保ったままピッチ変換することで、第2音高の音源スペクトルを算出する。すなわち、この方法によれば、周波数変調あるいは振幅変調に伴いスペクトルの各調波成分の周辺に発生する側帯波スペクトル成分(サブハーモニクス)の周波数は、当該調波成分の周波数との差が第1音高の音源スペクトルのまま保持されるので、絶対的な変調周波数を維持したピッチ変換に相当する音源スペクトルを算出できる。或いは、別の方法として、まず、第1音高の部分波形をリサンプリングして第2音高の部分波形とし、その部分波形を短時間フーリエ変換してフレーム毎のスペクトルを算出し、そのスペクトルにリサンプリングによる時間伸縮を打ち消す逆伸縮を行い、さらにそのスペクトル包絡を用いて白色化してもよい。この方法によれば、ピッチ変換と同じ比率で変調周波数も変換されるため、ピッチ周期と変調周期が定数倍の関係にある波形において、その倍数関係を維持したピッチ変換に相当する音源スペクトルを算出できる。ピッチ変換された音源スペクトルと、抽出部222からのスペクトル包絡との組み合わせで、ピッチ変換されたST表現が得られる。
図6のST表現をより高い音高にピッチ変換したST表現を、
図11に例示する。
【0044】
第2実施形態の取得部121は、以上に説明したピッチ変換機能によりピッチ変換された入力音信号のST表現の時系列を取得する。波形生成部123は、波形生成モデルを用いて、そのST表現の時系列に応じた音信号Vを生成する。ここで生成される音信号Vは、入力音信号を第1音高から第2音高にピッチシフトした信号である。このピッチシフトでは、第1音高の入力音信号の各調波の変調成分が失われていない、第2音高の入力音信号が得られる。
【0045】
C:第3実施形態
図2の第1実施形態の生成機能では、楽譜データから生成されたST表現の時系列に基づいて、音信号Vを生成したが、条件供給部211とST表現生成部212をリアルタイム化して、鍵盤で演奏された音符の時系列からリアルタイムに生成されるST表現の時系列に応じて、生成部117が音信号Vをリアルタイムに生成するようにしてもよい。
【0046】
なお、音信号生成システム100が生成する音信号Vは、楽器音または音声の合成に限らず、動物の鳴き声の合成、または、風音および波音のような自然界の音の合成など、その音の生成過程に確率的な要素が含まれるあらゆる音の合成に適用できる。
以上に例示した音信号生成システム100の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと記憶装置12に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされてもよい。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
【符号の説明】
【0047】
100…音信号生成システム、11…制御装置、12…記憶装置、13…表示装置、14…入力装置、15…放音装置、111…解析部、112…抽出部、113…白色化部、114…訓練部、121…取得部、122…加工部、123…波形生成部、211…条件供給部、212…ST表現生成部、221…解析部、222…抽出部、223…白色化部、224…変換部。