特許7394411 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7394411音信号処理システム、及び、音信号処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-30

(45)【発行日】2023-12-08

(54)【発明の名称】音信号処理システム、及び、音信号処理方法

(51)【国際特許分類】

G10L 21/007 20130101AFI20231201BHJP

G10L 25/36 20130101ALI20231201BHJP

【ＦＩ】

G10L21/007

G10L25/36

【請求項の数】 9

(21)【出願番号】P 2022547424

(86)(22)【出願日】2021-07-19

(86)【国際出願番号】 JP2021027054

(87)【国際公開番号】W WO2022054414

(87)【国際公開日】2022-03-17

【審査請求日】2022-09-02

(31)【優先権主張番号】P 2020150215

(32)【優先日】2020-09-08

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】吹野美和

【審査官】山下剛史

(56)【参考文献】

【文献】国際公開第２００８／１４９５４７（ＷＯ，Ａ１）

【文献】特開２００８－１１６５８８（ＪＰ，Ａ）

【文献】国際公開第２００８／１０２５９４（ＷＯ，Ａ１）

【文献】特開平１０－９７２６７（ＪＰ，Ａ）

【文献】特許第６４７４５１８（ＪＰ，Ｂ１）

【文献】欧州特許出願公開第３２００１８８（ＥＰ，Ａ１）

【文献】澤井賢一他，時系列解析手法を用いた楽曲間類似度，情報処理学会研究報告，2008年08月，Vol.2008, No.78，pp.63-68

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

第一の音の特性を示すリカレンスプロット情報を取得する第一取得部と、
前記第一の音と異なる第二の音の音信号を取得する第二取得部と、
前記第一取得部によって取得された前記リカレンスプロット情報に基づいて、前記第二取得部によって取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成部と、
生成された前記音信号を出力する出力部とを備える
音信号処理システム。

【請求項2】

さらに、複数の前記第二の音の音信号が記憶された第一記憶部を備え、
前記第二取得部は、複数の前記第二の音の音信号のうちユーザが選択した前記第二の音の音信号を前記第一記憶部から取得する
請求項１に記載の音信号処理システム。

【請求項3】

さらに、
複数の前記リカレンスプロット情報が感性語と対応付けて記憶された第二記憶部と、
ユーザが指定した感性語を示す感性語情報を取得する第三取得部とを備え、
前記第一取得部は、複数の前記リカレンスプロット情報のうち、前記第三取得部によって取得された前記感性語情報が示す感性語に対応付けられた前記リカレンスプロット情報を前記第二記憶部から取得する
請求項１または２に記載の音信号処理システム。

【請求項4】

前記リカレンスプロット情報は、前記第一の音の音信号を階層的にリカレンスプロットすることで得られる情報である
請求項１～３のいずれか１項に記載の音信号処理システム。

【請求項5】

前記第一の音は、自然音である
請求項１～４のいずれか１項に記載の音信号処理システム。

【請求項6】

前記第二の音は、自然音である
請求項１～５のいずれか１項に記載の音信号処理システム。

【請求項7】

マイクロコンピュータと、
メモリとを備え、
前記マイクロコンピュータは、前記メモリに記憶されたコンピュータプログラムを実行することにより、
第一の音の特性を示すリカレンスプロット情報を取得し、
前記第一の音と異なる第二の音の音信号を取得し、
取得された前記リカレンスプロット情報に基づいて、取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成し、
生成された前記音信号を出力する
音信号処理システム。

【請求項8】

第一の音の特性を示すリカレンスプロット情報を取得する第一取得ステップと、
前記第一の音と異なる第二の音の音信号を取得する第二取得ステップと、
前記第一取得ステップにおいて取得された前記リカレンスプロット情報に基づいて、前記第二取得ステップにおいて取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成ステップと、
生成された前記音信号を出力する出力ステップとを含む
音信号処理方法。

【請求項9】

請求項８に記載の音信号処理方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音信号処理システム、及び、音信号処理方法に関する。

【背景技術】

【0002】

従来、音信号の処理に関する様々な技術が提案されている。特許文献１には、品質の劣化が抑制された合成音を生成することができる合成音生成装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１６８６２０号公報

【非特許文献】

【0004】

【文献】Fukino, Miwa, et al. “Coarse-Graining Time Series Data : Recurrence Plot of Recurrence Plots and Its Application for Music.”Chaos: An Interdisciplinary Journal of Nonlinear Science, vol. 2, no. 26, 2016, pp. 0-12, doi:10.1063/1.4941371.

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、ある音に別の音の特性を反映した新たな音の音信号を出力することができる音信号処理システム、及び、音信号処理方法を提供する。

【課題を解決するための手段】

【0006】

本開示の一態様に係る音信号処理システムは、第一の音の特性を示すリカレンスプロット情報を取得する第一取得部と、前記第一の音と異なる第二の音の音信号を取得する第二取得部と、前記第一取得部によって取得された前記リカレンスプロット情報に基づいて、前記第二取得部によって取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成部と、生成された前記音信号を出力する出力部とを備える。

【発明の効果】

【0007】

本開示の一態様に係る音信号処理システム、及び、音信号処理方法は、ある音に別の音の特性を反映した新たな音の音信号を出力することができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。

【図2】図２は、縦軸及び横軸にサイン波を対応させた場合のリカレンスプロット情報の一例を示す図である。

【図3】図３は、縦軸及び横軸にホワイトノイズを対応させた場合のリカレンスプロット情報の一例を示す図である。

【図4】図４は、リカレンスプロット情報が示す時系列データの特性を説明するための図である。

【図5】図５は、自然音からＵｐｐｅｒＲＰを生成する方法を示す図である。

【図6】図６は、記憶部に記憶されるＵｐｐｅｒＲＰを示す図である。

【図7】図７は、記憶部に記憶されるシード音の音信号を示す図である。

【図8】図８は、実施の形態に係る音信号処理システムの動作例１のシーケンス図である。

【図9】図９は、シード音及び感性語の選択画面の一例を示す図である。

【図10】図１０は、音信号の生成方法のフローチャートである。

【図11】図１１は、実施の形態に係る音信号処理システムの動作例２のシーケンス図である。

【図12】図１２は、シード音及びシード音に付与したい特性を有する自然音の選択画面の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

【0010】

なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

【0011】

（実施の形態）
［構成］
まず、実施の形態に係る音信号処理システムの構成について説明する。図１は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。

【0012】

図１に示されるように、音信号処理システム１０は、サーバ装置２０と、情報端末３０とを備える。音信号処理システム１０は、具体的には、ユーザの所望の自然音に、他の自然音の特性（言い換えれば、規則性）を反映して出力することができる。自然音とは、具体的には、水の音、虫の鳴き声、及び、動物の声などの自然界において発生する音を意味する。

【0013】

まず、サーバ装置２０について説明する。サーバ装置２０は、具体的には、通信部２１と、信号処理部２２と、記憶部２３とを備える。

【0014】

通信部２１は、サーバ装置２０が、情報端末３０と、インターネットなどの広域通信ネットワーク４０を介して通信を行うための通信回路（言い換えれば、通信モジュール）である。通信部２１が行う通信の通信規格については特に限定されない。

【0015】

信号処理部２２は、音信号を処理することにより、ユーザの所望の自然音に他の自然音の特徴が反映された音の音信号を生成し、出力する。信号処理部２２は、例えば、マイクロコンピュータによって実現されるが、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等のプロセッサによって実現されてもよい。信号処理部２２は、機能的な構成要素として、第一取得部２４、第二取得部２５、第三取得部２６、生成部２７、及び、出力部２８を備える。第一取得部２４、第二取得部２５、第三取得部２６、生成部２７、及び、出力部２８の各機能は、信号処理部２２を構成するマイクロコンピュータ等が記憶部２３に記憶されたコンピュータプログラムを実行することにより実現される。これらの構成要素の詳細な機能については後述される。

【0016】

記憶部２３は、信号処理部２２が音信号の処理を行うために必要な各種情報、及び、コンピュータプログラムなどが記憶される記憶装置（メモリ）である。記憶部２３は、第一記憶部及び第二記憶部の一例である。記憶部２３は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）によって実現されるが、半導体メモリによって実現されてもよい。

【0017】

情報端末３０は、ユーザがサーバ装置２０にアクセスするために操作する情報端末である。情報端末３０は、例えば、ノート型のパーソナルコンピュータ、スマートフォン、及び、タブレット端末などの携帯型の情報端末であるが、デスクトップ型のパーソナルコンピュータなどの据え置き型の情報端末であってもよい。情報端末３０は、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）部３１と、スピーカ３２と、情報処理部３３と、記憶部３４とを備える。

【0018】

ＵＩ部３１は、ユーザの操作を受け付け、かつ、ユーザへ画像を提示するユーザインタフェース装置である。ＵＩ部３１は、タッチパネル又はキーボードなどの操作受付部、及び、表示パネルなどの表示部によって実現される。

【0019】

スピーカ３２は、サーバ装置２０から提供される音信号を再生する（つまり、音を出力する）出音装置である。

【0020】

情報処理部３３は、表示部への画像の表示、及び、スピーカ３２からの音の出力などに関する情報処理を行う。情報処理部３３は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。画像の表示機能、及び、音の出力機能などは、情報処理部３３を構成するマイクロコンピュータ等が記憶部３４に記憶されたコンピュータプログラムを実行することにより実現される。

【0021】

記憶部３４は、情報処理部３３が音信号の処理を行うために必要な各種情報、及び、コンピュータプログラムなどが記憶される記憶装置（メモリ）である。記憶部３４は、例えば、半導体メモリによって実現される。

【0022】

［リカレンスプロット］
上述のように、音信号処理システム１０は、ユーザの所望の自然音に、他の自然音の特性を反映して出力することができる。音信号処理システム１０においては、このように音信号を処理するための手段として、リカレンスプロットが用いられる。

【0023】

リカレンスプロットは、非線形時系列解析の手法の一つであり、リカレンスプロットによって得られるリカレンスプロット情報は、平面図によって表現される。リカレンスプロット情報は、二次元の配列情報であるといえる。

【0024】

リカレンスプロットでは、縦軸及び横軸に同一の時系列データが対応させられる。２つの時系列データの距離が近い場所に点がプロットされ（つまり、デジタル値の１に相当）、２つの時系列データの距離が遠い場所には点がプロットされない（つまり、デジタル値の０に相当）ことでリカレンスプロット情報が生成される。ここでの距離は、時系列データがベクトル（又はスカラ）で表現される場合には、ユークリッド距離等で定義できる。図２は、縦軸及び横軸にサイン波を対応させた場合のリカレンスプロット情報の一例を示す図であり、図３は、縦軸及び横軸にホワイトノイズを対応させた場合のリカレンスプロット情報の一例を示す図である。図２及び図３において、黒色の部分はプロット有りに対応し、白色の部分はプロット無しに対応する。

【0025】

また、図４は、リカレンスプロット情報が示す時系列データの特性を説明するための図である。リカレンスプロット情報は、中央線（ＬｉｎｅＯｆＩｄｅｎｔｉｔｙ）に平行な線が並んでいる場合に、時系列データに周期性があることを示す。中央線までの距離（図４の幅Ｗ１、幅Ｗ２など）は周期を示す。

【0026】

なお、リカレンスプロット、及び、後述の階層的リカレンスプロットについては、非特許文献１（Fukino, Miwa, et al. “Coarse-Graining Time Series Data : Recurrence Plot of Recurrence Plots and Its Application for Music.”Chaos: An Interdisciplinary Journal of Nonlinear Science, vol. 2, no. 26, 2016, pp. 0-12, doi:10.1063/1.4941371.）に、より詳細に記載されている。非特許文献１の記載内容も本開示に含まれる。

【0027】

［階層的リカレンスプロット］
音信号処理システム１０は、階層的リカレンスプロットによって得られるリカレンスプロット情報であるＵｐｐｅｒＲＰ（ＲｅｃｕｒｒｅｎｃｅＰｌｏｔ）を用いて、ユーザの所望の自然音に、他の自然音の特性を反映して出力する。ＵｐｐｅｒＲＰは、他の自然音（以下、単に自然音とも記載する）に基づいて生成される。以下、自然音（第一の音の一例）からＵｐｐｅｒＲＰを生成する方法について説明する。図５は、自然音からＵｐｐｅｒＲＰを生成する方法を示す図である。なお、以下の説明では、サーバ装置２０の生成部２７が自然音からＵｐｐｅｒＲＰを生成する処理を行うものとして説明が行われるが、この処理は、サーバ装置２０以外の装置によって行われてもよい。最終的に記憶部２３に複数のＵｐｐｅｒＲＰが記憶されればよい。

【0028】

まず、生成部２７は、自然音の音信号（音の時間波形）を窓幅Ｔ１、シフト幅Ｔ２によって規定されるｎ個の処理単位に分割する（図５の（ａ））。窓幅Ｔ１は、例えば、２．０ｓｅｃであり、シフト幅Ｔ２は、例えば、０．５ｓｅｃであり、処理単位の数ｎは、例えば、数十～数百程度である。窓幅Ｔ１、シフト幅Ｔ２、及び、処理単位の数ｎの具体的な数値については特に限定されない。

【0029】

次に、生成部２７は、ｎ個の処理単位のそれぞれからＳｈｏｒｔｔｅｒｍＲＰ（以下ＳＲＰとも記載される）を生成する（図５の（ｂ））。例えば、１つの処理単位に相当する音信号の時系列データを縦軸及び横軸に対応させ、縦軸におけるｉ番目の状態（具体的には、音信号の振幅）をｓ（ｉ）とし、横軸におけるｊ番目の状態をｓ（ｊ）とすると、ＳＲＰ（ｉ、ｊ）＝ｄ（ｓ（ｉ）、ｓ（ｊ））となる。なお、１≦ｉ，ｊ≦ｍ（ｍは２以上の自然数）である。ｄは、距離を示す関数であり、例えば、ｄ＝｜ｓ（ｉ）－ｓ（ｊ）｜である。このようにＳＲＰは、例えば、ｍ×ｍ個の要素によって構成される行列データである。図５の（ｂ）では、ＳＲＰはグレースケールで模式的に図示されている。

【0030】

次に、生成部２７は、ｎ個の処理単位のそれぞれから生成されたｎ個のＳＲＰを縦軸、及び、横軸に対応させることで、ＵｐｐｅｒＲＰを生成する（図５の（ｃ））。ＵｐｐｅｒＲＰは、例えば、ｎ×ｎ個の行列データである。図５の（ｃ）では、ＵｐｐｅｒＲＰは、グレースケールで模式的に図示されている。

【0031】

ＵｐｐｅｒＲＰをＵＲＰ（ｉ、ｊ）と表すと、ＵＲＰ（ｉ、ｊ）＝Ｄ（ＳＲＰ（ｉ）、ＳＲＰ（ｊ））となる。なお、１≦ｉ，ｊ≦ｎ（ｎは２以上の自然数）である。Ｄは、距離を示す関数であり、例えば、ＳＲＰ同士（つまり、行列同士）のユークリッド距離を求める関数である。

【0032】

なお、生成部２７は、ＵｐｐｅｒＲＰに対して閾値処理することにより、閾値処理後のＵｐｐｅｒＲＰを生成することもできる（図５の（ｄ））。信号処理部２２は、ＵｐｐｅｒＲＰの元データのｎ×ｎ個の各要素が閾値未満である場合にはその位置をプロットし、閾値以上である場合にはその位置に対してはプロットを行わない。これにより、閾値処理後のＵｐｐｅｒＲＰが生成される。

【0033】

［ＵｐｐｅｒＲＰと音の特徴の対応付け］
このようなＵｐｐｅｒＲＰは、サーバ装置２０の記憶部２３に記憶される。図６は、記憶部２３に記憶されるＵｐｐｅｒＲＰを示す図である。図６に示されるように、記憶部２３には複数のＵｐｐｅｒＲＰが記憶され、複数のＵｐｐｅｒＲＰのそれぞれは、当該ＵｐｐｅｒＲＰの元となる自然音に対する感性語が対応付けられている。感性語は、例えば、「激しい」、「穏やか」など、音の印象を表現するための単語（例えば、修飾語）であり、言い換えれば、印象語である。感性語は、自然音を聞いた複数のユーザの主観評価結果（複数のユーザのアンケート結果等）に基づいて定められたものである。なお、記憶部２３には、複数のユーザの主観評価結果により快適であると判断された自然音に基づくＵｐｐｅｒＲＰのみが記憶されてもよい。

【0034】

また、図６に示されるように、複数のＵｐｐｅｒＲＰのそれぞれは、当該ＵｐｐｅｒＲＰの元となる自然音の音信号に対応付けられていてもよい。この音信号の時間長は、比較的短時間であり、例えば、数秒～１０秒程度である。

【0035】

［シード音の音信号］
また、サーバ装置２０の記憶部２３には、シード音の音信号（時間波形）も記憶されている。図７は、記憶部２３に記憶されるシード音の音信号を示す図である。

【0036】

シード音は、第二の音の一例であり、最終的に出力される音の元（種）となる音（音源）を意味する。シード音は、例えば、自然音である。シード音の音信号の時間長は、比較的短時間であり、例えば、数秒～１０秒程度である。シード音の音信号には、「風の音」「鳥のさえずり」などのラベル（識別情報）が付与されている。

【0037】

［動作例１］
音信号処理システム１０は、サーバ装置２０の記憶部２３に記憶されたＵｐｐｅｒＲＰ及びシード音の音信号を用いて、ユーザの所望のシード音に、ＵｐｐｅｒＲＰが示す特性（ＵｐｐｅｒＲＰの元の自然音が有する特性）を反映した音を出力することができる。以下、このような音信号処理システム１０の動作例１について説明する。図８は、音信号処理システム１０の動作例１のシーケンス図である。

【0038】

まず、情報端末３０の情報処理部３３は、ＵＩ部３１（表示部）に、シード音及び感性語の選択画面を表示する（Ｓ１０）。図９は、シード音及び感性語の選択画面の一例を示す図である。

【0039】

このような選択画面が表示されているときに、ユーザは、情報端末３０のＵＩ部３１に、所望のシード音の選択操作と、所望の感性語の選択操作とを行い、ＵＩ部３１は、この操作を受け付ける（Ｓ１１）。ＵＩ部３１によってこのような操作が受け付けられると、情報端末３０は、音信号の要求をサーバ装置２０へ送信する（Ｓ１２）。音信号の要求には、ユーザが選択したシード音を示すシード音情報、及び、ユーザが選択した感性語を示す感性語情報が含まれる。

【0040】

サーバ装置２０の通信部２１は、音信号の要求を受信する。第二取得部２５は、受信された音信号の要求に含まれるシード音情報に基づいて、複数のシード音の音信号（図７）のうち、シード音情報が示すシード音（つまり、ユーザが選択したシード音）の音信号を記憶部２３から取得する（Ｓ１３）。

【0041】

また、第三取得部２６は、受信された音信号の要求に含まれる感性語情報を取得する（Ｓ１４）。第一取得部２４は、第三取得部２６によって取得された感性語情報に基づいて、複数のＵｐｐｅｒＲＰ（図６）のうち、感性語情報が示す感性語に対応付けられたＵｐｐｅｒＲＰ（リカレンスプロット情報）を記憶部２３から取得する（Ｓ１５）。

【0042】

生成部２７は、第一取得部２４によって取得されたＵｐｐｅｒＲＰに基づいて、第二取得部２５によって取得されたシード音の音信号に、第一取得部２４によって取得されたＵｐｐｅｒＲＰの元の音の特性を反映した音信号を生成する（Ｓ１６）。音信号の生成方法の詳細については後述する。

【0043】

出力部２８は、生成された音信号を出力する（Ｓ１７）。通信部２１は、出力された音信号を情報端末３０へ送信する（Ｓ１８）。

【0044】

情報端末３０は、音信号を受信する。情報処理部３３はスピーカ３２を用いて音信号を再生する（Ｓ１９）。この結果、ユーザの所望のシード音に、ユーザが選択した感性語の特徴（より詳細には、感性語に対応付けられた自然音の特徴（特性））が反映された音がスピーカ３２から出力される。

【0045】

［音信号の生成方法の詳細］
次に、ステップＳ１６における音信号の生成方法の詳細について説明する。図１０は、音信号の生成方法のフローチャートである。

【0046】

まず、生成部２７は、ステップＳ１５において第一取得部２４によって取得されたＵｐｐｅｒＲＰの各要素をＵｐｐｅｒＲＰ内の最大値で正規化し、（１－正規化されたＵｐｐｅｒＲＰの要素）を要素とする配列ＮＵを生成する（Ｓ１６ａ）。配列ＮＵは、非類似度行列を意味する。

【0047】

次に、生成部２７は、配列ＮＵを使って多次元尺度構成法等で次元縮約を行い、Ｕｐｐｅｒに含まれるＳＲＰ（１）、ＳＲＰ（２）、・・・、ＳＲＰ（ｎ）の各時刻における要素の合計値の増減関係を示すＹＵ（１）、ＹＵ（２）、・・・、ＹＵ（ｎ）を算出する（Ｓ１６ｂ）。

【0048】

次に、生成部２７は、ステップＳ１３において第二取得部２５によって取得されたシード音の音信号に基づいて、ＳＲＰ（以下、シード音ＳＲＰとも記載される）を少なくとも１つ生成する（Ｓ１６ｃ）。音信号からＳＲＰを生成する方法については、図５の（ａ）及び（ｂ）を用いて説明した方法と同様である。ＳＲＰは、例えば、１つ生成される。

【0049】

次に、生成部２７は、生成したシード音ＳＲＰと、ＹＵ（１）、ＹＵ（２）、・・・、ＹＵ（ｎ）に基づいて、シード音ＳＲＰ（１）～（ｎ）を生成する（Ｓ１６ｄ）。生成部２７は、例えば、生成したシード音ＳＲＰがＵｐｐｅｒＲＰのＳＲＰ（１）に相当するとみなし（つまり、生成したシード音ＳＲＰをシード音ＳＲＰ（１）とし）、シード音ＳＲＰ（１）からシード音ＳＲＰ（２）への変化がＹＵ（１）からＹＵ（２）への変化に合うように、シード音ＳＲＰ（１）の各要素を変化させることでシード音ＳＲＰ（２）を生成する。

【0050】

シード音ＳＲＰ（１）からシード音ＳＲＰ（２）を生成する方法（シード音ＳＲＰ（１）の各要素をどのように変化させてＹＵ（１）からＹＵ（２）への変化に合わせるか）については様々な方法が考えられる。例えば、シード音ＳＲＰ（１）の全ての要素を同じように増減させる方法もあるし、シード音ＳＲＰ（１）において斜めの線が存在する位置の要素のみ、値を増減させる方法もある。また、主観評価で求めた快適な音から増減方法のテンプレート群をあらかじめ作成しておき、これを参照して増減させる方法も考えられる。生成部２７は、シード音ＳＲＰ（３）～（ｎ）についてもシード音ＳＲＰ（２）と同様の方法で生成する。

【0051】

次に、生成部２７は、生成されたシード音ＳＲＰ（１）～（ｎ）に基づいて音信号を生成する（Ｓ１６ｅ）。生成部２７は、音信号の生成（波形合成）においても、多次元尺度構成法等を用いて波形の合成を行う。

【0052】

まず、生成部２７は、シード音ＳＲＰ（１）～（ｎ）のそれぞれにおいて、各要素をシード音ＳＲＰ内の最大値で正規化し、（１－正規化されたシード音ＳＲＰの要素）を要素とする配列ＮＳ（１）～（ｎ）を生成する。配列ＮＳは、非類似度行列を意味する。

【0053】

次に、生成部２７は、配列ＮＳ（１）～（ｎ）を使って多次元尺度構成法等で次元縮約を行い、シード音ＳＲＰ（１）～（ｎ）の各時刻の音の波形の時系列データであるＹＮ（１）～（ｎ）を算出する。なお、期間Ｔ３（図５に図示）に相当する、隣り合うＹＮ同士が重なる部分については、フェードイン／フェードアウト処理をしたり、平均化処理を行うなど、隣り合うＹＮ同士がなめらかにつながるような処理を行う。このように、生成部２７は、シード音ＳＲＰ（１）～（ｎ）から音信号を生成することができる。

【0054】

［動作例２］
動作例１においては、ユーザは、シード音（所望の自然音）と感性語とを選択したが、シード音とシード音に付与したい特性を有する自然音とを選択してもよい。図６に示されるように、複数のＵｐｐｅｒＲＰのそれぞれに当該ＵｐｐｅｒＲＰの元となる自然音がラベル付けされていれば、ユーザは、感性語に代えて、ＵｐｐｅｒＲＰの元となる自然音を選択することができる。図１１は、音信号処理システム１０の動作例２のシーケンス図である。

【0055】

まず、情報端末３０の情報処理部３３は、ＵＩ部３１（表示部）に、シード音及びシード音に付与したい特性を有する自然音の選択画面を表示する（Ｓ２０）。図１２は、シード音及びシード音に付与したい特性を有する自然音の選択画面の一例を示す図である。動作例２では、複数のＵｐｐｅｒＲＰのそれぞれが感性語に対応付けられる必要はない。

【0056】

このような選択画面が表示されているときに、ユーザは、情報端末３０のＵＩ部３１に、所望のシード音の選択操作と、所望の感性語の選択操作とを行い、ＵＩ部３１は、この操作を受け付ける（Ｓ２１）。ＵＩ部３１によってこのような操作が受け付けられると、情報端末３０は、音信号の要求をサーバ装置２０へ送信する（Ｓ２２）。音信号の要求には、ユーザが選択したシード音を示すシード音情報、及び、ユーザが選択した自然音を示す自然音情報が含まれる。

【0057】

サーバ装置２０の通信部２１は、音信号の要求を受信する。第二取得部２５は、受信された音信号の要求に含まれるシード音情報に基づいて、複数のシード音の音信号（図７）のうち、シード音情報が示すシード音（つまり、ユーザが選択したシード音）の音信号を記憶部２３から取得する（Ｓ２３）。

【0058】

また、第三取得部２６は、受信された音信号の要求に含まれる自然音情報を取得する（Ｓ２４）。第一取得部２４は、第三取得部２６によって取得された自然音情報に基づいて、複数のＵｐｐｅｒＲＰ（図６）のうち、自然音情報が示す自然音に対応付けられたＵｐｐｅｒＲＰ（リカレンスプロット情報）を記憶部２３から取得する（Ｓ２５）。

【0059】

生成部２７は、第一取得部２４によって取得されたＵｐｐｅｒＲＰに基づいて、第二取得部２５によって取得されたシード音の音信号に、第一取得部２４によって取得されたＵｐｐｅｒＲＰの元の音の特性を反映した音信号を生成する（Ｓ２６）。

【0060】

出力部２８は、生成された音信号を出力する（Ｓ２７）。通信部２１は、出力された音信号を情報端末３０へ送信する（Ｓ２８）。

【0061】

情報端末３０は、音信号を受信する。情報処理部３３はスピーカ３２を用いて音信号を再生する（Ｓ２９）。この結果、ユーザの所望のシード音に、ユーザが選択した自然音の特徴（特性）が反映された音がスピーカ３２から出力される。

【0062】

［変形例］
また、上記実施の形態では、シード音は、自然音であったが、人工音（楽曲または電子音など）であってもよいし、自然音及び人工音の両方を含んでもよい。同様に、上記実施の形態では、複数のＵｐｐｅｒＲＰの元となる音は自然音であったが、人工音であってもよいし、自然音及び人工音の両方を含んでもよい。また、シード音と複数のＵｐｐｅｒＲＰの元となる音とは同種の音である必要は無く、例えば、シード音が自然音であり、複数のＵｐｐｅｒＲＰの元となる音が人工音であってもよい。

【0063】

また、上記実施の形態では、リカレンスプロット情報としてＵｐｐｅｒＲＰが用いられた。言い換えると、リカレンスプロット情報は、２階層の階層的リカレンスプロットによって生成された。しかしながら、リカレンスプロット情報は、１階層のリカレンスプロット（つまり、非階層のリカレンスプロット）によって生成されてもよいし、２階層以上の多階層のリカレンスプロットによって生成されてもよい。

【0064】

［効果等］
以上説明したように、音信号処理システム１０は、第一の音の特性を示すリカレンスプロット情報を取得する第一取得部２４と、第一の音と異なる第二の音の音信号を取得する第二取得部２５と、第一取得部２４によって取得されたリカレンスプロット情報に基づいて、第二取得部２５によって取得された第二の音の音信号に第一の音の特性を反映した音信号を生成する生成部２７と、生成された音信号を出力する出力部２８とを備える。上記実施の形態では、リカレンスプロット情報は、ＵｐｐｅｒＲＰであり、第一の音は、ＵｐｐｅｒＲＰの元となる音であり、第二の音は、シード音である。

【0065】

このような音信号処理システム１０は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。例えば、多数の楽曲を学習した機械学習モデルを用いて新たな楽曲を生成する手法（例えば、https://openai.com/blog/jukebox/などを参照）が知られているが、このような手法では、膨大な学習データが必要であり、機械学習モデルを構築するために時間がかかる。また、楽曲を生成するときの情報処理量も多い。これに対し、音信号処理システム１０は、リカレンスプロット情報を使用することにより情報処理量を低減しつつ新たな音の音信号を出力することができる。

【0066】

また、例えば、音信号処理システム１０は、さらに、複数の第二の音の音信号が記憶された記憶部２３を備える。第二取得部２５は、複数の第二の音の音信号のうちユーザが選択した第二の音の音信号を記憶部２３から取得する。この場合の記憶部２３は、第一記憶部の一例である。

【0067】

このような音信号処理システム１０は、ユーザの所望の第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。

【0068】

また、例えば、音信号処理システム１０は、さらに、複数のリカレンスプロット情報が感性語と対応付けて記憶された記憶部２３と、ユーザが指定した感性語を示す感性語情報を取得する第三取得部２６とを備える。第一取得部２４は、複数のリカレンスプロット情報のうち、第三取得部２６によって取得された感性語情報が示す感性語に対応付けられたリカレンスプロット情報を記憶部２３から取得する。この場合の記憶部２３は、第二記憶部の一例である。

【0069】

このような音信号処理システム１０は、第二の音にユーザ所望の感性語に対応する第一の音の特性を反映した新たな音の音信号を出力することができる。

【0070】

また、例えば、リカレンスプロット情報は、第一の音の音信号を階層的にリカレンスプロットすることで得られる情報である。

【0071】

このような音信号処理システム１０は、第一の音の音信号を階層的にリカレンスプロットすることで得られるリカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。

【0072】

また、例えば、第一の音は、自然音である。

【0073】

このような音信号処理システム１０は、第二の音に第二の音と異なる自然音の特性を反映した新たな音の音信号を出力することができる。

【0074】

また、例えば、第二の音は、自然音である。

【0075】

このような音信号処理システム１０は、自然音に第一の音の特性を反映した新たな音の音信号を出力することができる。

【0076】

また、音信号処理システム１０は、マイクロコンピュータと、メモリとを備え、マイクロコンピュータは、メモリに記憶されたコンピュータプログラムを実行することにより、第一の音の特性を示すリカレンスプロット情報を取得し、前記第一の音と異なる第二の音の音信号を取得し、取得された前記リカレンスプロット情報に基づいて、取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成し、生成された前記音信号を出力する。

【0077】

このような音信号処理システム１０は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。

【0078】

また、音信号処理システム１０などのコンピュータによって実行される音信号処理方法は、第一の音の特性を示すリカレンスプロット情報を取得する第一取得ステップＳ１５と、第一の音と異なる第二の音の音信号を取得する第二取得ステップＳ１３と、第一取得ステップＳ１５において取得されたリカレンスプロット情報に基づいて、第二取得ステップＳ１３において取得された第二の音の音信号に第一の音の特性を反映した音信号を生成する生成ステップＳ１６と、生成された音信号を出力する出力ステップＳ１７とを含む。

【0079】

このような音信号処理方法は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。

【0080】

（その他の実施の形態）
以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。

【0081】

例えば、上記実施の形態において、リカレンスプロット情報（ＵｐｐｅｒＲＰ）は、音信号に基づいて生成されたが、音信号以外の時系列データに基づいて生成されてもよい。例えば、リカレンスプロット情報（ＵｐｐｅｒＲＰ）は、株価の変動データまたは気温の変動データなどに基づいて生成されてもよい。

【0082】

また、上記実施の形態において、音信号処理システムは、複数の装置によって実現されたが、単一の装置として実現されてもよい。例えば、音信号処理システムは、情報端末に相当する単一の装置として実現されてもよいし、サーバ装置に相当する単一の装置として実現されてもよい。音信号処理システムが複数の装置によって実現される場合、音信号処理システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。例えば、サーバ装置が備える機能的な構成要素の一部または全部を情報端末が備えてもよい。

【0083】

また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において２つの装置が通信を行う場合、２つの装置間には図示されない中継装置が介在してもよい。

【0084】

また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。

【0085】

また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

【0086】

また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

【0087】

また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、音信号処理システムなどのコンピュータが実行する音信号処理方法として実行されてもよいし、このような音信号処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の情報端末を上記実施の形態の情報端末として機能させるためのアプリケーションプログラムが含まれる。

【0088】

その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

【産業上の利用可能性】

【0089】

本開示の音信号処理システムは、ある音に別の音の特性を反映した新たな音の音信号を出力することができるシステムとして有用である。

【符号の説明】

【0090】

１０音信号処理システム
２０サーバ装置
２１通信部
２２信号処理部
２３記憶部（第一記憶部、第二記憶部）
２４第一取得部
２５第二取得部
２６第三取得部
２７生成部
２８出力部
３０情報端末
３１ＵＩ部
３２スピーカ
３３情報処理部
３４記憶部
４０広域通信ネットワーク

【図1】