IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴァイスカウント インターナショナル エス.ピー.エー.の特許一覧 ▶ ウニベルシタ ポリテクニカ デッレ マルシェの特許一覧

<>
  • 特許-楽器の合成音の生成システム 図1
  • 特許-楽器の合成音の生成システム 図1A
  • 特許-楽器の合成音の生成システム 図1B
  • 特許-楽器の合成音の生成システム 図2
  • 特許-楽器の合成音の生成システム 図3
  • 特許-楽器の合成音の生成システム 図3A
  • 特許-楽器の合成音の生成システム 図4
  • 特許-楽器の合成音の生成システム 図5A
  • 特許-楽器の合成音の生成システム 図5B
  • 特許-楽器の合成音の生成システム 図5C
  • 特許-楽器の合成音の生成システム 図6A
  • 特許-楽器の合成音の生成システム 図6B
  • 特許-楽器の合成音の生成システム 図7
  • 特許-楽器の合成音の生成システム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-05
(45)【発行日】2023-09-13
(54)【発明の名称】楽器の合成音の生成システム
(51)【国際特許分類】
   G10H 7/00 20060101AFI20230906BHJP
   G10H 1/00 20060101ALI20230906BHJP
【FI】
G10H7/00
G10H1/00 Z
【請求項の数】 2
(21)【出願番号】P 2021507520
(86)(22)【出願日】2019-07-18
(65)【公表番号】
(43)【公表日】2021-12-09
(86)【国際出願番号】 EP2019069339
(87)【国際公開番号】W WO2020035255
(87)【国際公開日】2020-02-20
【審査請求日】2022-06-03
(31)【優先権主張番号】102018000008080
(32)【優先日】2018-08-13
(33)【優先権主張国・地域又は機関】IT
(73)【特許権者】
【識別番号】521057659
【氏名又は名称】ヴァイスカウント インターナショナル エス.ピー.エー.
(73)【特許権者】
【識別番号】521057660
【氏名又は名称】ウニベルシタ ポリテクニカ デッレ マルシェ
(74)【代理人】
【識別番号】100091683
【弁理士】
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【弁理士】
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】スクアーティニ,ステファノ
(72)【発明者】
【氏名】トマセッティ,ステファノ
(72)【発明者】
【氏名】ガブリエッリ,レオナルド
【審査官】中村 天真
(56)【参考文献】
【文献】特開2019-219569(JP,A)
【文献】特開平04-255898(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/02- 3/10
G10H 1/00- 7/12
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
楽器の合成音の生成システム(100)であって、前記生成システム(100)は、第1の段階(1)、第2の段階(2)、及び第3の段階(3)を含み、
前記第1の段階(1)は、
特性(F)を入力生音(SIN)から抽出するように構成される特性抽出手段(10)と、
複数のニューラルネットワーク(11)であって、各ニューラルネットワークは、前記特性(F)のパラメータを評価し、出力された評価パラメータ(P ,....P )を発するように構成される、複数のニューラルネットワーク(11)と、を含み、
前記第2の段階(2)は、
複数の物理モデル作成手段(20)であって、前記物理モデル作成手段(20)のそれぞれは、音(S,...S)を出力として生成するように構成される複数の物理モデル(M,...M)を取得するために、前記評価パラメータ(P ,....P )を入力として受信する、複数の物理モデル作成手段(20)と、
複数の測定値評価手段(21)であって、前記測定値評価手段(21)のそれぞれは、前記物理モデルの音を入力として受信し、前記物理モデルの音を標的音(S)と比較することによって、前記物理モデルの前記音と前記標的音との間の距離(d,....d)を出力として生成する、複数の測定値評価手段(21)と、
前記測定値評価手段(21)によって計算された前記距離(d,....d)を入力として受信し、前記物理モデルの前記パラメータ(P )を選択する、選択手段(22)であって、前記物理モデルの音は前記標的音からの最低距離を有する、選択手段(22)と、を含み、
前記第3の段階(3)は、
前記第2の段階で選択された前記パラメータ(P )を記憶する、メモリ(30)と、
前記パラメータ(P )を前記メモリ(30)から受信し、音(S)を発する物理モデル(M)を作成する、物理モデル作成手段(31)と、
前記第3の段階の前記物理モデルの前記音を受信し、前記物理モデルの前記音を標的音(S)と比較することによって、前記第3の段階の前記物理モデルの前記音と前記標的音との間の距離(d)を計算する、測定値評価手段(32)と、
前記メモリ(30)に記憶された前記パラメータを修正することによって、前記物理モデル作成手段(31)に送信される摂動パラメータ(P’)を取得し、前記摂動パラメータを有する物理モデルを作成する、摂動手段(34)と、
前記第3の段階の前記測定値評価手段(32)によって計算された前記距離を入力として受信し、前記最低距離を有する前記物理モデルの最終パラメータ(P)を選択する、選択手段(33)と、を含み、
前記生成システム(100)は、また、前記最終パラメータ(P)を受信し、合成音(SOUT)を出力として生成する、音生成器(106)を備える、生成システム(100)。
【請求項2】
楽器の合成音の生成方法であって、
特性(F)を入力生音(SIN)から抽出するステップと、
評価パラメータ(P ,....P )を出力として生成するように、複数のニューラルネットワーク(11)によって、前記特性(F)のパラメータを評価するステップと、
前記評価パラメータ(P ,....P )によって、複数の物理モデル(M,...M)を作成するステップと、各物理モデルは音(S,...S)を出力として発する、ステップと、
各物理モデルによって発せられた各音(S,...S)の測定値評価(21)を行い、標的音(S)との比較を行うことによって、前記物理モデルの前記音と前記標的音との間の距離(d,...d)を取得するステップと、
最低距離(d)を計算し、前記物理モデルの前記パラメータ(P )を選択するステップであって、前記物理モデルの音は前記標的音からの前記最低距離を有する、ステップと、
前記選択パラメータ(P )を記憶するステップと、
前記記憶済パラメータ(P )によって物理モデル(M)を作成するステップであって、前記物理モデル(M)は音(S)を発する、ステップと、
標的音(S)と比較される前記物理モデルの前記音(S)の測定値評価を行うことによって、前記物理モデルの前記音と前記標的音との間で距離(d)を計算するステップと、
メモリ(30)に記憶された前記パラメータを摂動させることによって、摂動パラメータ(P’)を取得し、前記摂動パラメータを有する物理モデルを作成するステップと、
前記摂動パラメータを有する前記物理モデルの前記音の測定値評価を行うことによって、摂動パラメータを有する前記物理モデルの前記音と前記標的音との間の前記距離を計算するステップと、
前記最低距離を計算し、前記最低距離を有する前記物理モデルの最終パラメータ(P)を選択するステップと、
前記最終パラメータ(P)を受信する音生成器(106)によって、合成音(Sout)を出力として生成するステップと、
を含む、生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽器(具体的には、教会オルガン)の合成音の生成システムに関する。物理モデルのパラメータ化を利用して、合成音を生成する。本発明は、音を生成するために使用される物理モデルのパラメータ化システムに関する。
【0002】
物理モデルは、自然過程または現象の数学的表現である。本発明では、モデリングはオルガンパイプに適用され、したがって、楽器の忠実な物理的表現を達成する。係る方法は、音を再生するだけではなく、関連付けられる音生成プロセスを再現することも可能である楽器を取得することが可能になる。
【背景技術】
【0003】
米国特許第7442869号明細書(本発明と同じ出願人の氏名)では、教会オルガンのための基準物理モデルが開示されている。
【0004】
しかしながら、それは、物理モデルは音の生成及び楽器の使用に正確には関係ないが、また、現実世界から、いずれかのシステムの数学的表現であり得ることを考慮する必要がある。
【0005】
先行技術に従った物理モデルのパラメータ化の方法は、ほとんど試行錯誤的であり、音質は、大体、音楽嗜好及びサウンドデザイナーの経験によって決まる。上記を考慮すると、音の特徴及び構成は、サウンドデザイナーのセンスが表われる。さらに、パラメータ化が人的時間で発生することを考えると、平均して、音が実現するのに長期間かかる。
【0006】
物理モデルのパラメータ化のためのいくつかの方法は、以下の資料等の文献で既知である。
-Carlo Drioli及びDavide Rocchesso,「A generalized musical-tone generator with application to sound compression and synthesis」Acoustics,Speech,and Signal Processing,1997 IEEE International Conference,volume1,pages431~434.IEEE,1997。
-Katsutoshi Itoyama及びHiroshi G Okuno,「Parameter estimation of virtual musical instrument synthesizers」Proc.of the International Computer Music Conference(ICMC),2014。
-Thomas J Mitchell及びDavid P Creasey,「Evolutionary sound matching:A test methodology and comparative study」Machine Learning and Applications,2007.ICMLA2007。Sixth International Conference,pages229~234。IEEE,2007。
-Thomas Mitchell,「Automated evolutionary synthesis matching」Soft Computing,16(12):2057~2070,2012。
-Janne Riionheimo及びVesa Valimaki,「Parameter estimation of a plucked string synthesis model using a genetic algorithm with perceptual fitness calculation」EURASIP Journal on Advances in Signal Processing,2003(8),2003。
-Ali Taylan Cemgil及びCumhur Erkut,「Calibration of physical models using artificial neural networks with application to plucked string instruments」Proc.Intl.Symposium on Musical Acoustics(ISMA),19:213~218,1997。
-Alvin WY Su及びLiang San-Fu,「Synthesis of plucked-string tones by physical modeling with recurrent neural networks」Multimedia Signal Processing,1997。IEEE First Workshop,pages71~76。IEEE,1997。
【0007】
しかしながら、これらの資料では、所与の物理モデルまたは物理モデルのいくつかのパラメータを指すアルゴリズムが開示されている。
【0008】
Leonardo Gabrielli、Stefano Tomassetti、Carlo Zinato、及びStefano Squartiniによる「Introducing deep machine learning for parameter estimation in physical modeling」等(Digital Audio Effects(DAFX),2017)のニューラルネットワークの使用に関する出版物は既知である。係る資料では、ニューラルネットワークの層内のニューラルネットワークから学習した音響特性の抽出を組み込むエンドツーエンドアプローチ(コンボリューショナルニューラルネットワークを使用する)が開示されている。しかしながら、係るシステムは、楽器で使用されるのに適切ではない事実によって正常に機能しない。
【先行技術文献】
【特許文献】
【0009】
【文献】米国特許第7442869号明細書
【非特許文献】
【0010】
【文献】Carlo Drioli及びDavide Rocchesso,「A generalized musical-tone generator with application to sound compression and synthesis」Acoustics,Speech,and Signal Processing,1997 IEEE International Conference,volume1,pages431~434.IEEE,1997。
【文献】Katsutoshi Itoyama及びHiroshi G Okuno,「Parameter estimation of virtual musical instrument synthesizers」Proc.of the International Computer Music Conference(ICMC),2014。
【文献】Thomas J Mitchell及びDavid P Creasey,「Evolutionary sound matching:A test methodology and comparative study」Machine Learning and Applications,2007.ICMLA2007。Sixth International Conference,pages229~234。IEEE,2007。
【文献】Thomas Mitchell,「Automated evolutionary synthesis matching」Soft Computing,16(12):2057~2070,2012。
【文献】Janne Riionheimo及びVesa Valimaki,「Parameter estimation of a plucked string synthesis model using a genetic algorithm with perceptual fitness calculation」EURASIP Journal on Advances in Signal Processing,2003(8),2003。
【文献】Ali Taylan Cemgil及びCumhur Erkut,「Calibration of physical models using artificial neural networks with application to plucked string instruments」Proc.Intl.Symposium on Musical Acoustics(ISMA),19:213~218,1997。
【文献】Alvin WY Su及びLiang San-Fu,「Synthesis of plucked-string tones by physical modeling with recurrent neural networks」Multimedia Signal Processing,1997。IEEE First Workshop,pages71~76。IEEE,1997。
【文献】Leonardo Gabrielli、Stefano Tomassetti、Carlo Zinato、及びStefano Squartini,「Introducing deep machine learning for parameter estimation in physical modeling」Digital Audio Effects(DAFX),2017
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、楽器の合成音の生成システムを開示することによって、先行技術の欠点をなくすことであり、当該生成システムは複数の物理モデルに適用でき、その検証で使用された物理モデルの固有構造に依存しない。
【0012】
別の目的は、目的の音響測定プロセス及び反復最適化の発見的プロセスを開発及び使用することを可能にし、基準音に従って選択された物理モデルを正確にパラメータ化することが可能である、係るシステムを開示することである。
【課題を解決するための手段】
【0013】
これらの目的は、独立請求項の請求項1の特徴によって、本発明に従って達成される。
【0014】
本発明の利点をもたらす実施形態は、従属請求項に現れる。
【0015】
本発明に従った楽器の合成音の生成システムは、請求項1に定義されている。
【0016】
本発明の追加特性は、以下の詳細な説明から明らかに現れ、その説明は、単なる例証に言及し、添付図に示されるような実施形態を限定していない。
【図面の簡単な説明】
【0017】
図1】本発明による、楽器の音生成システムを図で示すブロック図である。
図1A図1のシステムの第1の2段階を詳細に示すブロック図である。
図1B図1のシステムの最終段階を図で示すブロック図である。
図2】教会オルガンに適用される本発明に従ったシステムのブロック図である。
図3】本発明に従ったシステムに導入される生音声信号から抽出された特性を示す図である。
図3A】生音声信号から抽出された特徴の一部を詳細に示す図である。
図4】本発明に従ったシステムに使用されるMLPニューラルネットワークのベースにおける人工ニューロンの図である。
図5A】各々、波形の立ち上がりを抽出するためのエンベロープ及びその導関数を示す2つのチャートを示す。
図5B】各々、試験対象の信号の第1の倍音の立ち上がりを抽出するための第1の倍音のエンベロープ及びその導関数を示す、2つのチャートを示す。
図5C】各々、試験対象の信号の第2の倍音の立ち上がりを抽出するための第2の倍音のエンベロープ及びその導関数を示す、2つのチャートを示す。
図6A】各々、倍音部をフィルタリングすることによって抽出されたノイズと、エンベロープの導関数とを示す、2つのチャートを示す。
図6B】ノイズ粒度の抽出を示すチャートである。
図7】モリスアルゴリズムの公式である。
図8】音のセットに関する距離の変化パターンを示すチャートであり、軸Xは音の指標を示し、軸Yは距離値の合計を示す。
【発明を実施するための形態】
【0018】
図を参照して、本発明に従った楽器の合成音の生成システムを説明し、生成システムは、全体的に、符号(100)によって示される。
【0019】
システム(100)は、楽器の物理モデルを制御するパラメータを推定することを可能にする。具体的には、システム(100)は教会オルガンのモデルに適用されるが、一般的に、複数の種類の物理モデルに使用できる。
【0020】
図1を参照すると、生音声信号(SIN)がシステム(100)に入力され、システム(100)によって発せられる合成音声信号(Sout)を取得するように処理される。
【0021】
図1A及び図1Bを参照すると、システム(100)は、
-生信号(SIN)のいくつかの特性(F)を抽出し、特性(F)のパラメータを評価することによって、複数の評価パラメータ(P ,...P )を取得する、第1の段階(1)と、
-評価パラメータ(P ,...P )を使用して、最良の物理モデルのパラメータ(P )を選択するように評価される複数の物理モデル(M,...M)を取得する、第2の段階(2)と、
-第2の段階で選択されるパラメータ(P )を使用して、ランダム反復検索を行うことによって、合成音声信号(SOUT)を発する音生成器(106)に送信される最終パラメータ(P)を取得する、第3の段階(3)と、を含む。
【0022】
図2を参照すると、生音声信号(SIN)は、教会オルガンのパイプ(102)の出口に配置されたマイクロホン(101)からもたらされ得る。生音声信号(SIN)は、音声ボードが設けられたコンピューティングデバイス(103)によって獲得される。
【0023】
コンピューティングデバイス(103)の内部のシステム(100)によって、生音声信号(SIN)を分析する。システム(100)は、合成信号(SOUT)を再構成するために、最終パラメータ(P)を抽出する。最終パラメータ(P)は、ユーザコントロール(105)によって制御されるストレージ(104)に記憶される。最終パラメータは(P)、オルガンの音楽キーボード(107)によって制御される音生成器(106)に伝達される。受信したパラメータに従って、音生成器(106)は、音を発するラウドスピーカー(108)に送信される合成音声信号(SOUT)を生成する。
【0024】
音生成器(106)は電子デバイスであり、電子デバイスは、システム(100)から取得されたパラメータに従って、マイクロホン(101)によって検出された音とかなり同様である音を再生することが可能である。音生成器は、米国特許第7442869号明細書に開示されている。
【0025】
第1の段階(1)
【0026】
第1の段階(1)は、いくつかの特性(F)を生信号(SIN)から抽出する抽出手段(10)と、特性(F)から取得されたパラメータを評価するニューラルネットワーク(11)のセットとを含む。
【0027】
オルガン音に基づいて特性(F)が選択されており、正常でない区別されない特性のセットを作成し、特性(F)は、パラメータ化される生信号(SIN)の異なる態様に関する複数の係数から成る。
【0028】
図3を参照すると、以下の特性(F)を使用する。
-第1のNの倍音(F1)の振幅:第1のNの倍音(または部分的に、基本波の倍数ではない場合がある)の振幅に対する係数Nは、周波数領域のピークを正確に検出することによって計算される。例えば、N=20。
-SNR(F2):倍音のエネルギーと信号の全エネルギーとの比率として計算される信号ノイズ。
【0029】
【数1】
【0030】
-ログメルスペクトル(F3):ログメルスペクトルは、先行技術に従った技術によって128点で計算される。
-エンベロープに関する係数(F4):音楽文献のADSRとして定義されるスキームに従って、音の立ち上がり(A)、減衰(D)、サステイン(S)、及び放音(R)の時間に関する係数であり、音のエンベロープ(時間振幅の傾向)を生成する物理モデルでも使用される。
【0031】
係数(F4)が抽出され、係数(F4)は、生音声信号(SIN)のエンベロープの分析によって抽出され、すなわち、先行技術の技術に従ったエンベロープ検出器を使用して抽出される。
【0032】
図3Aを参照すると、20の係数(F4)が抽出されている。この理由として、生信号(SIN)と、第1の倍音及び第2の倍音(第1の倍音及び第2の倍音のそれぞれは、適切なバンドパスフィルタによって信号をフィルタリングすることによって抽出される)と、倍音部をなくすためにコムフィルタリングによって抽出されたノイズ成分とに対して抽出が行われるためである。
【0033】
5つの係数は、分析される信号の部分ごとに抽出される。分析される信号として、
-T1:初期時間から、先行技術で既知である信号のヒルベルト変換によって抽出されたエンベロープの導関数の最大点までの第1の立ち上がりランプ時間(2つの立ち上がりランプの除算は、2つの立ち上がりランプの構成として、教会オルガン音の入力が説明されている米国特許第7442869号明細書で示される物理モデルの使用からもたらされる)と、
-A1:瞬時のT1に対する振幅と、
-T2:T1から、エンベロープの導関数が0の周辺で振幅の値を安定させる点までの第2の立ち上がりランプ時間と、
-A2:瞬時のT2に対する振幅と、
-S:一時的な立ち上がり後の信号のRMSサステイン振幅と、が挙げられる。
【0034】
さらに、偶然的成分及び/または非周期成分(F5)を信号から抽出する。偶然的成分及び/または非周期成分(F5)は、ノイズに関する指示的情報を提供する6つの係数である。また、生信号(S)の倍音部を除去するために、コムフィルタリング及びノッチフィルタリングのセットによって、これらの成分の抽出を行うことができる。抽出された有用情報は、偶然的成分のRMS値、そのデューティサイクル(ノイズデューティサイクルとして定義される)、ゼロ交差率、ゼロ交差の標準偏差、及びエンベロープ係数(立ち上がり及びサステイン)であり得る。
【0035】
図5Aは、各々、波形の立ち上がりを抽出するためのエンベロープ及びその導関数を示す2つのチャートを示す。図5Aは以下の信号の特性を示し、信号の特性は以下の番号によって示される。
-300:生音の時間波形図及びその時間的エンベロープ
-301:信号の平均時間推移
-302:信号の時間波形
-303:経時的な信号エンベロープの導関数
-304:第1の立ち上がりランプに関する時刻T1
-305:第2の立ち上がりランプに関する時刻T2
-306:時間T1に対応する波形の振幅A1
-307:時間T2に対応する波形の振幅A2
【0036】
図5Bは、各々、試験対象の信号の第1の倍音の立ち上がりを抽出するためのエンベロープ及びその導関数を示す、2つのチャートを示す。図5Bは以下の信号の第1の倍音の特性を示し、その特性は以下の番号によって示される。
-310:第1の倍音に関する時間波形図及びその時間的エンベロープ
-311:第1の倍音の平均時間エンベロープ
-312:第1の倍音の時間波形
-313:第1の倍音のエンベロープの時間導関数
-314:第1の倍音の第1の立ち上がりランプに関する時刻T1
-315:第1の倍音の第2の立ち上がりランプに関する時刻T2
-316:第1の倍音の時間T1の波形振幅A1
-317:第1の倍音の時間T2の波形振幅A2
【0037】
図5Cは、各々、信号の第2の倍音の立ち上がりを抽出するためのエンベロープ及びその導関数を示す、2つのチャートを示す。図5Cは以下の第2の倍音に関する特性を示し、その特性は以下の番号によって示される。
-320:第2の倍音に関する時間波形図及びその時間的エンベロープ
-321:第2の倍音の平均時間エンベロープ
-322:第2の倍音の時間波形
-323:第2の倍音のエンベロープの時間導関数
-324:第2の倍音の第1の立ち上がりランプに関する時刻T1
-325:第2の倍音の第2の立ち上がりランプに関する時刻T2
-326:第2の倍音の時間T1の波形振幅A1
-327:第2の倍音の時間T2の波形振幅A2
【0038】
図6Aは、各々、倍音部をフィルタリングすることによって抽出されたノイズと、エンベロープの導関数とを示す、2つのチャートを示す。図6Aは、以下の番号によって示される以下の信号の偶然的成分の特性を示す。
-330:ノイズ成分に関する時間波形図及びその時間的エンベロープ
-331:ノイズ成分の平均時間エンベロープ
-332:ノイズ成分の時間波形
-333:ノイズ成分のエンベロープの時間導関数
【0039】
図6Bは、ノイズ粒度の抽出を示すチャートである。図6Bは、粒度分析が行われるノイズ波形図(200)である。
【0040】
偶然部に対する時間波形は、201に示される。ノイズによりその粒度特徴を明らかにするTon及びToffの分析は、先行技術の技法に基づいて、2つの許容閾値(203,204)の間で行われる。係る分析は、202に示される可変デューティサイクルがある方形波を観察することを可能にする。方形波(202)は音に存在する実際の波形に一致しないが、方形波(202)は、当該方形波のデューティサイクル特性を使用して行われるノイズの断続的特性及び粒度特性を分析するための概念的表現であることに留意する必要がある。
【0041】
図6Bのチャートは、Toff(205)として定義される、ノイズがゼロである時間間隔を示す。数字(206)は、完全な「オンオフ」のサイクルがある全期間のノイズ、ひいては、ノイズが断続的に発生する期間を示す。1対の許容閾値を有するデューティサイクルの計算と同様に、ノイズがある時間とノイズがない時間との比率を分析する。適切な周期数の平均化を行うことによって、ノイズ粒度を取得する。
【0042】
図6Bに示されるように、オルガンのノイズが振幅変調するため、ノイズが実質的にゼロである期間(Toff(205)として定義される)の範囲内における段階がある。この情報の一部は、ノイズデューティサイクル係数に含まれる。
【0043】
ノイズの特徴付けた4つの係数を以下に示す。
-デューティサイクル:Toff(205)と全体期間(206)との比率として計算した値。
-ゼロ交差率:1秒に等しい周期数に対して平均化された1周期におけるゼロ交差の平均数。ゼロ交差率は偶然部の平均周波数を表す。
-ゼロ交差の標準偏差:ゼロ交差の標準偏差は、周期ごとのゼロ交差率の測定で評価されたゼロ交差の平均数の標準偏差に一致する。
-RMSノイズ:1秒で計算された偶然的成分の二乗平均平方根
【0044】
特性(F)を生信号(SIN)から抽出した後、当該特性のパラメータは、パラメータ化された同じ音と同時に動作するニューラルネットワーク(11)のセットによって評価され、ネットワークごとの小さな差により、ニューラルネットワークごとにわずかに異なるパラメータを推定する。
【0045】
すべてのニューラルネットワークは入力特性(F)を取り込み、音を生成するために物理モデルに送信されるのに適切である全部のパラメータのセット(P ,....P )を提供する。
【0046】
ニューラルネットワークは、事前処理された入力特性(多層パーセプトロン、再帰型ニューラルネットワーク等)を受け入れる先行技術に含まれる全ての種類であり得る。
【0047】
ニューラルネットワーク(11)の数は変わる可能性があり、異なるネットワークによって行われる同じ特性の複数の評価を生成させる。評価は音響精度の点で異なり、これは、最良の物理モデルを選択するために、第2の段階(2)の使用を要求する。評価の全ては特性の全セットに対して行われ、音響精度は第2の段階(2)によって評価され、第2の段階(2)では、最高性能のニューラルネットワークによって評価されるパラメータのセットを選択する。
【0048】
以下の説明は、具体的に、ある種類の多層パーセプトロン(MLP)ネットワークを指すが、本発明は、また、異なる種類のニューラルネットワークにも適用される。MLPネットワークでは、すべての層はニューロンから成る。
【0049】
図4を参照して、k番目のニューロンの数学的記述を以下に説明する。
【0050】
【数2】
【0051】
=(u+b
;X:Xは入力であり、第1の段階の場合に、生信号(SIN)から抽出された特性(F)である。
k1;Wk2:Wkmは各入力の重みである。
は、入力と重みとの線形結合である。
はバイアスである。
()は活性化関数(非線形)である。
はニューロンの出力である。
【0052】
単純な訓練の特徴による及びテスト中に到達できる速度による、MLPの使用が考えれる。かなり多くのニューラルネットワークと同時に使用することを考えると、これらの特徴が必要である。別の基本特徴は、特性(すなわち、評価される音の情報を使用することを可能にする音声特徴)を要望に合わせて自ら作ることが可能である。
【0053】
MLPニューラルネットワークについて、特性(F)の抽出はDSPアルゴリズムで即興に作られ、エンドツーエンドニューラルネットワークと比較して、より優れた性能を達成することを考慮する必要がある。
【0054】
誤差逆伝搬の先行技術に従って、誤差最小化アルゴリズムを使用することによって、MLPネットワークを訓練する。上記を考慮して、最適条件が見つかるまで、各ニューロンの係数(重み)を反復的に修正し、これにより、訓練ステップ中に使用されるデータセットで最小誤差を取得することを可能にする。
【0055】
使用される誤差は、範囲[-1;1]で正規化された物理モデルの係数に対して計算される平均2乗誤差である。ネットワークパラメータ(層の数、層あたりのニューロンの数)は、表1で与えられる範囲におけるランダム検索で調べたものである。
【0056】
【表1】
【0057】
以下のステップに従って、ニューラルネットワークの訓練を行う。
前方伝播
1.前方伝搬及び出力生成y
2.コスト関数計算
【0058】
【数3】
【0059】
3.訓練エポックごとに重みを更新するために、適用されるデルタを生成するための誤差逆伝搬
重みの更新
1.重みに対する誤差勾配を計算する
【0060】
【数4】
【0061】
2.重みは下式のように更新される
【0062】
【数5】
【0063】
この式から、学習率が求められる。
【0064】
学習のために、音声のデータセットの例を提供する必要がある。音声の例のそれぞれは、音声の例を生成するために必要な物理モデルのパラメータのセットに関連付けられる。したがって、ニューラルネットワーク(11)は、音の特性を、音を生成するために必要なパラメータと関連付ける方法を学習する。
【0065】
これらの音とパラメータとのペアを取得し、物理モデルによって音を生成し、入力パラメータを提供し、パラメータに関連付けられる音を取得する。
【0066】
第2の段階(2)
第2の段階(2)は物理モデル(11)の構築手段を含み、物理モデル(11)は、物理モデル(M,...M)を構築するためにニューラルネットワークによって評価されたパラメータ(P ,...P )を使用する。そうでなければ、構築される物理モデルの数は、使用されるニューラルネットワークの数に等しい。
【0067】
物理モデル(M,...M)のそれぞれは、測定値評価手段(21)によって標的音(S)と比較された音(S,...S)を発する。2つの音の間の音響距離(d,...d)は、測定値評価手段(21)のそれぞれの出力において取得される。標的音(S)からの最低音響距離を有する物理モデル(M)のパラメータ(P )を選択するために、最低距離に対する指標(i)を選択する選択手段(22)によって、全ての音響距離(d,...d)を比較する。選択手段(21)は、当該指標のパラメータを選択するために最低距離の指標(i)を見つけるように、測定値評価手段によって生成された音響距離(d1,...d)を個々に検証する反復法に基づくアルゴリズムを含む。
【0068】
測定値評価手段(21)は、2つの音の間の距離を測定するために使用されるデバイスである。距離が短くなるほど、2つの音はより類似するようになる。測定値評価手段(21)は、時間的エンベロープを分析するために、2つの倍音の測定値と1つの測定値とを使用するが、この基準は、全ての種類の使用可能な測定値に適用できる。
【0069】
音響測定は、2つのスペクトルの類似度を客観的に評価することを可能にする。調和平均2乗誤差(HMSE)の確率変数を使用する。それは、類似する倍音の間の距離(d,...d)を評価するように、標的音(S)と比較された物理モデルによって生成された音(S,...S)のFFTのピークに関して計算されるMSEである(標的音の第1の倍音は、物理モデル等によって生成された音の第1の倍音と比較される)。
【0070】
2つの比較法が可能である。
【0071】
第1の比較法では、2つの類似する倍音の間の距離は、全て、同じように重み付けされる。
【0072】
第2の比較法では、より高い重みが倍音の差に与えられ、標的信号におけるその倍音に対応するものは、より高い振幅を有する。基本的な音響心理学的要素を使用して、その音響心理学的要素に従って、より高い振幅を有するスペクトルの倍音をより重要なものとして把握する。その結果、標的音の同じ倍音の振幅を有する類似する倍音の差を掛ける。このように、標的音のi番目の倍音の振幅が極めて低い場合、評価された信号の倍音の評価誤差の重要性が少なくなる。したがって、この第2の比較法では、倍音で生じる誤差の重要性は限定され、この誤差は、強度の減少により、生信号(SIN)に既にある心理音響的な重要性が少なくなる。
【0073】
RSD及びLSD等の先行技術の他の分光測定は、下記に数学的に説明される。
【0074】
時間的特性を評価するために、生入力信号(SIN)の波形のエンベロープに基づく測定を計算する。標的信号に対する評価信号の2乗モジュールの差を使用する。
【0075】
以下の測定基準を使用して、計算が行われる。
【0076】
【数6】
【0077】
【数7】
【0078】
式中において、下付きのLは考慮する倍音の数であり、上付きのWはHMSEの重み付けされた確率変数を識別するものである。
【0079】
【数8】
【0080】
式中において、Tは過度的な立ち上がりの端である。
Hは、エンベロープを抽出するために使用される信号のヒルベルト変換であり、
sは経時的な信号であり、
Sは経時的な信号DFTのモジュールである。
【0081】
【数9】
【0082】
【数10】
【0083】
【数11】
【0084】
倍音距離測定について、H(全スペクトルに対する値)、H10、及びH 10(最初の10個の倍音に対する値)を使用した。
【0085】
エンベロープ測定について、E、E1、及びE2を使用したものであり、その数字は倍音の数を指し、エンベロープの差を計算する。重み付けされた測定値の合計は個々の測定値の重み付けられた合計によって構成され、プロセスを作動させる人間のオペレータによって重みを設定する。
【0086】
第2の段階(2)は以下のステップを含むアルゴリズムによって実施できる。
1.第1の物理モデル(M)を生成するための第1の評価パラメータ(P )の選択と、第1の物理モデルの音(S)と標的音(S)との間の第1の距離(d)の計算とを行うステップ。
2.第2の物理モデル(M)を生成するための第2の評価パラメータ(P )の選択と、第2の物理モデルの音(S)と標的音(S)との間の第2の距離(d)の計算とを行うステップ。
3.第2の距離(d)が第1の距離(d)よりも短い場合、第2の物理モデルのパラメータを選択し、そうでなければ、第2の物理モデルのパラメータを破棄するステップ。
4.第1の段階(1)によって生成された全ての物理モデルの全ての評価パラメータが検証されるまで、ステップ4及びステップ3を繰り返すステップ。
【0087】
第3の段階(3)
第3の段階(3)は、第2の段階(2)によって選択されたパラメータ(P )を記憶するメモリ(30)と、第2の段階(2)によって選択され、メモリ(30)から来るパラメータ(P )に従って、物理モデル(M)を構築するのに適切な物理モデル作成手段(31)とを含む。
【0088】
第3の段階の物理モデル(M)から音(S)が発せられ、音(S)は、第2の段階(2)の測定値評価手段(21)と同一の測定値評価手段(32)によって標的音(S)と比較される。第3の段階の測定値評価手段(32)は、物理モデルの音(S)と標的音(S)との間の距離(d)を計算する。係る距離(d)は選択手段(33)に送信され、選択手段(33)は、入力された距離の中から最小距離を見つけるのに適切である。
【0089】
また、第3の段階(3)は摂動手段(34)を含み、摂動手段(34)はメモリ(30)に記憶されたパラメータを修正するのに適切であり、摂動パラメータを有する物理モデルを作成する物理モデル作成手段(31)に送信される摂動パラメータ(P’)を生成する。したがって、測定値評価手段(32)は、摂動パラメータを有する物理モデルによって生成された音と標的音との間の距離を見つける。選択手段(33)は、受信した距離の中から最小距離を選択する。
【0090】
第3の段階(3)は物理モデルのパラメータをランダムに調べる段階的検索を提供し、物理モデルのパラメータを摂動させ、対応する音を生成する。
【0091】
セットに対する全てのパラメータが反復のそれぞれにおいて摂動しないため、若干多い摂動の移動が必要になる。この目的は、使用される測定値を最小にし、パラメータを摂動させ、全てのパラメータセットを破棄し、最良のパラメータセットだけを維持することである。
【0092】
第3の段階(3)は、以下のことを提供することによって実施できる。
-第2の段階の出力と、メモリ(30)の入力と、パラメータ摂動手段(34)の出力とを切り替える、第1のスイッチ(W1)、
-メモリ(30)の出力と、物理モデル作成手段(31)の入力と、音声生成器の入力とを切り替える、第2のスイッチ(W2)、
-選択手段(33)の入力に対する出力を後退して接続する遅延ブロック(Z-1)。
【0093】
アルゴリズムは、第3の段階(3)の動作のために実装できる。係るアルゴリズムはパラメータの正常範囲[-1;1]で働き、以下のステップを含む。
1.反復0のパラメータ(P )に対する音(S)を生成するステップ(すなわち、P は、第2の段階(2)からのパラメータ)。
2.標的音(S)からの音(S)の第1の距離を計算するステップ。
3.摂動パラメータ(P’)を取得するためのパラメータ(P )を摂動させるステップ。
4.摂動パラメータ(P’)の新しいセットからの音を生成するステップ。
5.標的音からの摂動パラメータ(P”)によって生成された音の第2の距離を計算するステップ。
6.距離が減少する場合(すなわち、第2の距離が第1の距離よりも短い場合)、過去のパラメータセットを破棄し、そうでなければ、そのパラメータを維持するステップ。
7.プロセスが終了するまで、ステップ3、4、及び5を繰り返し、以下のイベントの1つが発生するときに状況に応じて終了するステップ。
-プロセスの開始においてユーザによって設定される最大数の反復の達成、
-最大数の忍耐的な反復の達成(すなわち、プロセスの開始においてユーザによって設定された目的距離の評価に関して改善がない)、
-プロセスの開始においてユーザによって設定された最小誤差閾値の達成(及び/または最小誤差閾値を超過)
【0094】
アルゴリズムの自由パラメータは以下のとおりである。
-反復数、
-忍耐的な反復:アルゴリズムは、事前設定された反復数の改善がない場合に停止する、
-アルゴリズムが停止する最小誤差閾値、
-個々のパラメータの摂動確率、
-距離乗数:続けて起きる反復中にパラメータに適用される摂動の本質を取得するために、現在の実現値に関して計算された距離の値をランダム項に掛けるために使用される乗算係数、
-測定値の重み:提示された音と標的音との間の合計距離の計算において、個々の測定値に適用される乗算係数
【0095】
以下の方程式に従って、新しいパラメータを計算する。
【0096】
【数12】
【0097】
式中において、は計算のモーメントで取得された最良のパラメータセットであり、
<1は、ステップiにおける距離の収束を改善及び/または加速するために、適切に設定される距離乗数であり、
rはと同じ範囲の値[0;1]を有する確率ベクトルであり、
gはガウス分布に従うランダム摂動ベクトルであり、と同じ範囲を有する。
【0098】
図7は、モリスアルゴリズムの公式を示す。MORRISアルゴリズムは、最良の過去のステップdで生じた誤差によって重み付けられたランダム摂動に基づくものである。全てのパラメータはすべての反復で摂動しない。
【0099】
図8は、標的音に対するパラメータセットの距離の変化パターンを示し、反復が進むにつれて、パラメータセットと標的音との間の距離は、収束するように、パラメータの調節により徐々に小さくなるステップで減少することを示す。
図1
図1A
図1B
図2
図3
図3A
図4
図5A
図5B
図5C
図6A
図6B
図7
図8