(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-30
(45)【発行日】2023-12-08
(54)【発明の名称】音信号処理システム、及び、音信号処理方法
(51)【国際特許分類】
G10L 21/007 20130101AFI20231201BHJP
G10L 25/36 20130101ALI20231201BHJP
【FI】
G10L21/007
G10L25/36
(21)【出願番号】P 2022547424
(86)(22)【出願日】2021-07-19
(86)【国際出願番号】 JP2021027054
(87)【国際公開番号】W WO2022054414
(87)【国際公開日】2022-03-17
【審査請求日】2022-09-02
(31)【優先権主張番号】P 2020150215
(32)【優先日】2020-09-08
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】吹野 美和
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2008/149547(WO,A1)
【文献】特開2008-116588(JP,A)
【文献】国際公開第2008/102594(WO,A1)
【文献】特開平10-97267(JP,A)
【文献】特許第6474518(JP,B1)
【文献】欧州特許出願公開第3200188(EP,A1)
【文献】澤井賢一他,時系列解析手法を用いた楽曲間類似度,情報処理学会研究報告,2008年08月,Vol.2008, No.78,pp.63-68
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
第一の音の特性を示すリカレンスプロット情報を取得する第一取得部と、
前記第一の音と異なる第二の音の音信号を取得する第二取得部と、
前記第一取得部によって取得された前記リカレンスプロット情報に基づいて、前記第二取得部によって取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成部と、
生成された前記音信号を出力する出力部とを備える
音信号処理システム。
【請求項2】
さらに、複数の前記第二の音の音信号が記憶された第一記憶部を備え、
前記第二取得部は、複数の前記第二の音の音信号のうちユーザが選択した前記第二の音の音信号を前記第一記憶部から取得する
請求項1に記載の音信号処理システム。
【請求項3】
さらに、
複数の前記リカレンスプロット情報が感性語と対応付けて記憶された第二記憶部と、
ユーザが指定した感性語を示す感性語情報を取得する第三取得部とを備え、
前記第一取得部は、複数の前記リカレンスプロット情報のうち、前記第三取得部によって取得された前記感性語情報が示す感性語に対応付けられた前記リカレンスプロット情報を前記第二記憶部から取得する
請求項1または2に記載の音信号処理システム。
【請求項4】
前記リカレンスプロット情報は、前記第一の音の音信号を階層的にリカレンスプロットすることで得られる情報である
請求項1~3のいずれか1項に記載の音信号処理システム。
【請求項5】
前記第一の音は、自然音である
請求項1~4のいずれか1項に記載の音信号処理システム。
【請求項6】
前記第二の音は、自然音である
請求項1~5のいずれか1項に記載の音信号処理システム。
【請求項7】
マイクロコンピュータと、
メモリとを備え、
前記マイクロコンピュータは、前記メモリに記憶されたコンピュータプログラムを実行することにより、
第一の音の特性を示すリカレンスプロット情報を取得し、
前記第一の音と異なる第二の音の音信号を取得し、
取得された前記リカレンスプロット情報に基づいて、取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成し、
生成された前記音信号を出力する
音信号処理システム。
【請求項8】
第一の音の特性を示すリカレンスプロット情報を取得する第一取得ステップと、
前記第一の音と異なる第二の音の音信号を取得する第二取得ステップと、
前記第一取得ステップにおいて取得された前記リカレンスプロット情報に基づいて、前記第二取得ステップにおいて取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成ステップと、
生成された前記音信号を出力する出力ステップとを含む
音信号処理方法。
【請求項9】
請求項8に記載の音信号処理方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音信号処理システム、及び、音信号処理方法に関する。
【背景技術】
【0002】
従来、音信号の処理に関する様々な技術が提案されている。特許文献1には、品質の劣化が抑制された合成音を生成することができる合成音生成装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】Fukino, Miwa, et al. “Coarse-Graining Time Series Data : Recurrence Plot of Recurrence Plots and Its Application for Music.”Chaos: An Interdisciplinary Journal of Nonlinear Science, vol. 2, no. 26, 2016, pp. 0-12, doi:10.1063/1.4941371.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、ある音に別の音の特性を反映した新たな音の音信号を出力することができる音信号処理システム、及び、音信号処理方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様に係る音信号処理システムは、第一の音の特性を示すリカレンスプロット情報を取得する第一取得部と、前記第一の音と異なる第二の音の音信号を取得する第二取得部と、前記第一取得部によって取得された前記リカレンスプロット情報に基づいて、前記第二取得部によって取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成する生成部と、生成された前記音信号を出力する出力部とを備える。
【発明の効果】
【0007】
本開示の一態様に係る音信号処理システム、及び、音信号処理方法は、ある音に別の音の特性を反映した新たな音の音信号を出力することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。
【
図2】
図2は、縦軸及び横軸にサイン波を対応させた場合のリカレンスプロット情報の一例を示す図である。
【
図3】
図3は、縦軸及び横軸にホワイトノイズを対応させた場合のリカレンスプロット情報の一例を示す図である。
【
図4】
図4は、リカレンスプロット情報が示す時系列データの特性を説明するための図である。
【
図5】
図5は、自然音からUpperRPを生成する方法を示す図である。
【
図6】
図6は、記憶部に記憶されるUpperRPを示す図である。
【
図7】
図7は、記憶部に記憶されるシード音の音信号を示す図である。
【
図8】
図8は、実施の形態に係る音信号処理システムの動作例1のシーケンス図である。
【
図9】
図9は、シード音及び感性語の選択画面の一例を示す図である。
【
図10】
図10は、音信号の生成方法のフローチャートである。
【
図11】
図11は、実施の形態に係る音信号処理システムの動作例2のシーケンス図である。
【
図12】
図12は、シード音及びシード音に付与したい特性を有する自然音の選択画面の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0010】
なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
【0011】
(実施の形態)
[構成]
まず、実施の形態に係る音信号処理システムの構成について説明する。
図1は、実施の形態に係る音信号処理システムの機能構成を示すブロック図である。
【0012】
図1に示されるように、音信号処理システム10は、サーバ装置20と、情報端末30とを備える。音信号処理システム10は、具体的には、ユーザの所望の自然音に、他の自然音の特性(言い換えれば、規則性)を反映して出力することができる。自然音とは、具体的には、水の音、虫の鳴き声、及び、動物の声などの自然界において発生する音を意味する。
【0013】
まず、サーバ装置20について説明する。サーバ装置20は、具体的には、通信部21と、信号処理部22と、記憶部23とを備える。
【0014】
通信部21は、サーバ装置20が、情報端末30と、インターネットなどの広域通信ネットワーク40を介して通信を行うための通信回路(言い換えれば、通信モジュール)である。通信部21が行う通信の通信規格については特に限定されない。
【0015】
信号処理部22は、音信号を処理することにより、ユーザの所望の自然音に他の自然音の特徴が反映された音の音信号を生成し、出力する。信号処理部22は、例えば、マイクロコンピュータによって実現されるが、DSP(Digital Signal Processor)等のプロセッサによって実現されてもよい。信号処理部22は、機能的な構成要素として、第一取得部24、第二取得部25、第三取得部26、生成部27、及び、出力部28を備える。第一取得部24、第二取得部25、第三取得部26、生成部27、及び、出力部28の各機能は、信号処理部22を構成するマイクロコンピュータ等が記憶部23に記憶されたコンピュータプログラムを実行することにより実現される。これらの構成要素の詳細な機能については後述される。
【0016】
記憶部23は、信号処理部22が音信号の処理を行うために必要な各種情報、及び、コンピュータプログラムなどが記憶される記憶装置(メモリ)である。記憶部23は、第一記憶部及び第二記憶部の一例である。記憶部23は、例えば、HDD(Hard Disc Drive)によって実現されるが、半導体メモリによって実現されてもよい。
【0017】
情報端末30は、ユーザがサーバ装置20にアクセスするために操作する情報端末である。情報端末30は、例えば、ノート型のパーソナルコンピュータ、スマートフォン、及び、タブレット端末などの携帯型の情報端末であるが、デスクトップ型のパーソナルコンピュータなどの据え置き型の情報端末であってもよい。情報端末30は、UI(User Interface)部31と、スピーカ32と、情報処理部33と、記憶部34とを備える。
【0018】
UI部31は、ユーザの操作を受け付け、かつ、ユーザへ画像を提示するユーザインタフェース装置である。UI部31は、タッチパネル又はキーボードなどの操作受付部、及び、表示パネルなどの表示部によって実現される。
【0019】
スピーカ32は、サーバ装置20から提供される音信号を再生する(つまり、音を出力する)出音装置である。
【0020】
情報処理部33は、表示部への画像の表示、及び、スピーカ32からの音の出力などに関する情報処理を行う。情報処理部33は、例えば、マイクロコンピュータによって実現されるが、プロセッサによって実現されてもよい。画像の表示機能、及び、音の出力機能などは、情報処理部33を構成するマイクロコンピュータ等が記憶部34に記憶されたコンピュータプログラムを実行することにより実現される。
【0021】
記憶部34は、情報処理部33が音信号の処理を行うために必要な各種情報、及び、コンピュータプログラムなどが記憶される記憶装置(メモリ)である。記憶部34は、例えば、半導体メモリによって実現される。
【0022】
[リカレンスプロット]
上述のように、音信号処理システム10は、ユーザの所望の自然音に、他の自然音の特性を反映して出力することができる。音信号処理システム10においては、このように音信号を処理するための手段として、リカレンスプロットが用いられる。
【0023】
リカレンスプロットは、非線形時系列解析の手法の一つであり、リカレンスプロットによって得られるリカレンスプロット情報は、平面図によって表現される。リカレンスプロット情報は、二次元の配列情報であるといえる。
【0024】
リカレンスプロットでは、縦軸及び横軸に同一の時系列データが対応させられる。2つの時系列データの距離が近い場所に点がプロットされ(つまり、デジタル値の1に相当)、2つの時系列データの距離が遠い場所には点がプロットされない(つまり、デジタル値の0に相当)ことでリカレンスプロット情報が生成される。ここでの距離は、時系列データがベクトル(又はスカラ)で表現される場合には、ユークリッド距離等で定義できる。
図2は、縦軸及び横軸にサイン波を対応させた場合のリカレンスプロット情報の一例を示す図であり、
図3は、縦軸及び横軸にホワイトノイズを対応させた場合のリカレンスプロット情報の一例を示す図である。
図2及び
図3において、黒色の部分はプロット有りに対応し、白色の部分はプロット無しに対応する。
【0025】
また、
図4は、リカレンスプロット情報が示す時系列データの特性を説明するための図である。リカレンスプロット情報は、中央線(Line Of Identity)に平行な線が並んでいる場合に、時系列データに周期性があることを示す。中央線までの距離(
図4の幅W1、幅W2など)は周期を示す。
【0026】
なお、リカレンスプロット、及び、後述の階層的リカレンスプロットについては、非特許文献1(Fukino, Miwa, et al. “Coarse-Graining Time Series Data : Recurrence Plot of Recurrence Plots and Its Application for Music.”Chaos: An Interdisciplinary Journal of Nonlinear Science, vol. 2, no. 26, 2016, pp. 0-12, doi:10.1063/1.4941371.)に、より詳細に記載されている。非特許文献1の記載内容も本開示に含まれる。
【0027】
[階層的リカレンスプロット]
音信号処理システム10は、階層的リカレンスプロットによって得られるリカレンスプロット情報であるUpperRP(Recurrence Plot)を用いて、ユーザの所望の自然音に、他の自然音の特性を反映して出力する。UpperRPは、他の自然音(以下、単に自然音とも記載する)に基づいて生成される。以下、自然音(第一の音の一例)からUpperRPを生成する方法について説明する。
図5は、自然音からUpperRPを生成する方法を示す図である。なお、以下の説明では、サーバ装置20の生成部27が自然音からUpperRPを生成する処理を行うものとして説明が行われるが、この処理は、サーバ装置20以外の装置によって行われてもよい。最終的に記憶部23に複数のUpperRPが記憶されればよい。
【0028】
まず、生成部27は、自然音の音信号(音の時間波形)を窓幅T1、シフト幅T2によって規定されるn個の処理単位に分割する(
図5の(a))。窓幅T1は、例えば、2.0secであり、シフト幅T2は、例えば、0.5secであり、処理単位の数nは、例えば、数十~数百程度である。窓幅T1、シフト幅T2、及び、処理単位の数nの具体的な数値については特に限定されない。
【0029】
次に、生成部27は、n個の処理単位のそれぞれからShort term RP(以下SRPとも記載される)を生成する(
図5の(b))。例えば、1つの処理単位に相当する音信号の時系列データを縦軸及び横軸に対応させ、縦軸におけるi番目の状態(具体的には、音信号の振幅)をs(i)とし、横軸におけるj番目の状態をs(j)とすると、SRP(i、j)=d(s(i)、s(j))となる。なお、1≦i,j≦m(mは2以上の自然数)である。dは、距離を示す関数であり、例えば、d=|s(i)-s(j)|である。このようにSRPは、例えば、m×m個の要素によって構成される行列データである。
図5の(b)では、SRPはグレースケールで模式的に図示されている。
【0030】
次に、生成部27は、n個の処理単位のそれぞれから生成されたn個のSRPを縦軸、及び、横軸に対応させることで、UpperRPを生成する(
図5の(c))。UpperRPは、例えば、n×n個の行列データである。
図5の(c)では、UpperRPは、グレースケールで模式的に図示されている。
【0031】
UpperRPをURP(i、j)と表すと、URP(i、j)=D(SRP(i)、SRP(j))となる。なお、1≦i,j≦n(nは2以上の自然数)である。Dは、距離を示す関数であり、例えば、SRP同士(つまり、行列同士)のユークリッド距離を求める関数である。
【0032】
なお、生成部27は、UpperRPに対して閾値処理することにより、閾値処理後のUpperRPを生成することもできる(
図5の(d))。信号処理部22は、UpperRPの元データのn×n個の各要素が閾値未満である場合にはその位置をプロットし、閾値以上である場合にはその位置に対してはプロットを行わない。これにより、閾値処理後のUpperRPが生成される。
【0033】
[UpperRPと音の特徴の対応付け]
このようなUpperRPは、サーバ装置20の記憶部23に記憶される。
図6は、記憶部23に記憶されるUpperRPを示す図である。
図6に示されるように、記憶部23には複数のUpperRPが記憶され、複数のUpperRPのそれぞれは、当該UpperRPの元となる自然音に対する感性語が対応付けられている。感性語は、例えば、「激しい」、「穏やか」など、音の印象を表現するための単語(例えば、修飾語)であり、言い換えれば、印象語である。感性語は、自然音を聞いた複数のユーザの主観評価結果(複数のユーザのアンケート結果等)に基づいて定められたものである。なお、記憶部23には、複数のユーザの主観評価結果により快適であると判断された自然音に基づくUpperRPのみが記憶されてもよい。
【0034】
また、
図6に示されるように、複数のUpperRPのそれぞれは、当該UpperRPの元となる自然音の音信号に対応付けられていてもよい。この音信号の時間長は、比較的短時間であり、例えば、数秒~10秒程度である。
【0035】
[シード音の音信号]
また、サーバ装置20の記憶部23には、シード音の音信号(時間波形)も記憶されている。
図7は、記憶部23に記憶されるシード音の音信号を示す図である。
【0036】
シード音は、第二の音の一例であり、最終的に出力される音の元(種)となる音(音源)を意味する。シード音は、例えば、自然音である。シード音の音信号の時間長は、比較的短時間であり、例えば、数秒~10秒程度である。シード音の音信号には、「風の音」「鳥のさえずり」などのラベル(識別情報)が付与されている。
【0037】
[動作例1]
音信号処理システム10は、サーバ装置20の記憶部23に記憶されたUpperRP及びシード音の音信号を用いて、ユーザの所望のシード音に、UpperRPが示す特性(UpperRPの元の自然音が有する特性)を反映した音を出力することができる。以下、このような音信号処理システム10の動作例1について説明する。
図8は、音信号処理システム10の動作例1のシーケンス図である。
【0038】
まず、情報端末30の情報処理部33は、UI部31(表示部)に、シード音及び感性語の選択画面を表示する(S10)。
図9は、シード音及び感性語の選択画面の一例を示す図である。
【0039】
このような選択画面が表示されているときに、ユーザは、情報端末30のUI部31に、所望のシード音の選択操作と、所望の感性語の選択操作とを行い、UI部31は、この操作を受け付ける(S11)。UI部31によってこのような操作が受け付けられると、情報端末30は、音信号の要求をサーバ装置20へ送信する(S12)。音信号の要求には、ユーザが選択したシード音を示すシード音情報、及び、ユーザが選択した感性語を示す感性語情報が含まれる。
【0040】
サーバ装置20の通信部21は、音信号の要求を受信する。第二取得部25は、受信された音信号の要求に含まれるシード音情報に基づいて、複数のシード音の音信号(
図7)のうち、シード音情報が示すシード音(つまり、ユーザが選択したシード音)の音信号を記憶部23から取得する(S13)。
【0041】
また、第三取得部26は、受信された音信号の要求に含まれる感性語情報を取得する(S14)。第一取得部24は、第三取得部26によって取得された感性語情報に基づいて、複数のUpperRP(
図6)のうち、感性語情報が示す感性語に対応付けられたUpperRP(リカレンスプロット情報)を記憶部23から取得する(S15)。
【0042】
生成部27は、第一取得部24によって取得されたUpperRPに基づいて、第二取得部25によって取得されたシード音の音信号に、第一取得部24によって取得されたUpperRPの元の音の特性を反映した音信号を生成する(S16)。音信号の生成方法の詳細については後述する。
【0043】
出力部28は、生成された音信号を出力する(S17)。通信部21は、出力された音信号を情報端末30へ送信する(S18)。
【0044】
情報端末30は、音信号を受信する。情報処理部33はスピーカ32を用いて音信号を再生する(S19)。この結果、ユーザの所望のシード音に、ユーザが選択した感性語の特徴(より詳細には、感性語に対応付けられた自然音の特徴(特性))が反映された音がスピーカ32から出力される。
【0045】
[音信号の生成方法の詳細]
次に、ステップS16における音信号の生成方法の詳細について説明する。
図10は、音信号の生成方法のフローチャートである。
【0046】
まず、生成部27は、ステップS15において第一取得部24によって取得されたUpperRPの各要素をUpperRP内の最大値で正規化し、(1-正規化されたUpperRPの要素)を要素とする配列NUを生成する(S16a)。配列NUは、非類似度行列を意味する。
【0047】
次に、生成部27は、配列NUを使って多次元尺度構成法等で次元縮約を行い、Upperに含まれるSRP(1)、SRP(2)、・・・、SRP(n)の各時刻における要素の合計値の増減関係を示すYU(1)、YU(2)、・・・、YU(n)を算出する(S16b)。
【0048】
次に、生成部27は、ステップS13において第二取得部25によって取得されたシード音の音信号に基づいて、SRP(以下、シード音SRPとも記載される)を少なくとも1つ生成する(S16c)。音信号からSRPを生成する方法については、
図5の(a)及び(b)を用いて説明した方法と同様である。SRPは、例えば、1つ生成される。
【0049】
次に、生成部27は、生成したシード音SRPと、YU(1)、YU(2)、・・・、YU(n)に基づいて、シード音SRP(1)~(n)を生成する(S16d)。生成部27は、例えば、生成したシード音SRPがUpperRPのSRP(1)に相当するとみなし(つまり、生成したシード音SRPをシード音SRP(1)とし)、シード音SRP(1)からシード音SRP(2)への変化がYU(1)からYU(2)への変化に合うように、シード音SRP(1)の各要素を変化させることでシード音SRP(2)を生成する。
【0050】
シード音SRP(1)からシード音SRP(2)を生成する方法(シード音SRP(1)の各要素をどのように変化させてYU(1)からYU(2)への変化に合わせるか)については様々な方法が考えられる。例えば、シード音SRP(1)の全ての要素を同じように増減させる方法もあるし、シード音SRP(1)において斜めの線が存在する位置の要素のみ、値を増減させる方法もある。また、主観評価で求めた快適な音から増減方法のテンプレート群をあらかじめ作成しておき、これを参照して増減させる方法も考えられる。生成部27は、シード音SRP(3)~(n)についてもシード音SRP(2)と同様の方法で生成する。
【0051】
次に、生成部27は、生成されたシード音SRP(1)~(n)に基づいて音信号を生成する(S16e)。生成部27は、音信号の生成(波形合成)においても、多次元尺度構成法等を用いて波形の合成を行う。
【0052】
まず、生成部27は、シード音SRP(1)~(n)のそれぞれにおいて、各要素をシード音SRP内の最大値で正規化し、(1-正規化されたシード音SRPの要素)を要素とする配列NS(1)~(n)を生成する。配列NSは、非類似度行列を意味する。
【0053】
次に、生成部27は、配列NS(1)~(n)を使って多次元尺度構成法等で次元縮約を行い、シード音SRP(1)~(n)の各時刻の音の波形の時系列データであるYN(1)~(n)を算出する。なお、期間T3(
図5に図示)に相当する、隣り合うYN同士が重なる部分については、フェードイン/フェードアウト処理をしたり、平均化処理を行うなど、隣り合うYN同士がなめらかにつながるような処理を行う。このように、生成部27は、シード音SRP(1)~(n)から音信号を生成することができる。
【0054】
[動作例2]
動作例1においては、ユーザは、シード音(所望の自然音)と感性語とを選択したが、シード音とシード音に付与したい特性を有する自然音とを選択してもよい。
図6に示されるように、複数のUpperRPのそれぞれに当該UpperRPの元となる自然音がラベル付けされていれば、ユーザは、感性語に代えて、UpperRPの元となる自然音を選択することができる。
図11は、音信号処理システム10の動作例2のシーケンス図である。
【0055】
まず、情報端末30の情報処理部33は、UI部31(表示部)に、シード音及びシード音に付与したい特性を有する自然音の選択画面を表示する(S20)。
図12は、シード音及びシード音に付与したい特性を有する自然音の選択画面の一例を示す図である。動作例2では、複数のUpperRPのそれぞれが感性語に対応付けられる必要はない。
【0056】
このような選択画面が表示されているときに、ユーザは、情報端末30のUI部31に、所望のシード音の選択操作と、所望の感性語の選択操作とを行い、UI部31は、この操作を受け付ける(S21)。UI部31によってこのような操作が受け付けられると、情報端末30は、音信号の要求をサーバ装置20へ送信する(S22)。音信号の要求には、ユーザが選択したシード音を示すシード音情報、及び、ユーザが選択した自然音を示す自然音情報が含まれる。
【0057】
サーバ装置20の通信部21は、音信号の要求を受信する。第二取得部25は、受信された音信号の要求に含まれるシード音情報に基づいて、複数のシード音の音信号(
図7)のうち、シード音情報が示すシード音(つまり、ユーザが選択したシード音)の音信号を記憶部23から取得する(S23)。
【0058】
また、第三取得部26は、受信された音信号の要求に含まれる自然音情報を取得する(S24)。第一取得部24は、第三取得部26によって取得された自然音情報に基づいて、複数のUpperRP(
図6)のうち、自然音情報が示す自然音に対応付けられたUpperRP(リカレンスプロット情報)を記憶部23から取得する(S25)。
【0059】
生成部27は、第一取得部24によって取得されたUpperRPに基づいて、第二取得部25によって取得されたシード音の音信号に、第一取得部24によって取得されたUpperRPの元の音の特性を反映した音信号を生成する(S26)。
【0060】
出力部28は、生成された音信号を出力する(S27)。通信部21は、出力された音信号を情報端末30へ送信する(S28)。
【0061】
情報端末30は、音信号を受信する。情報処理部33はスピーカ32を用いて音信号を再生する(S29)。この結果、ユーザの所望のシード音に、ユーザが選択した自然音の特徴(特性)が反映された音がスピーカ32から出力される。
【0062】
[変形例]
また、上記実施の形態では、シード音は、自然音であったが、人工音(楽曲または電子音など)であってもよいし、自然音及び人工音の両方を含んでもよい。同様に、上記実施の形態では、複数のUpperRPの元となる音は自然音であったが、人工音であってもよいし、自然音及び人工音の両方を含んでもよい。また、シード音と複数のUpperRPの元となる音とは同種の音である必要は無く、例えば、シード音が自然音であり、複数のUpperRPの元となる音が人工音であってもよい。
【0063】
また、上記実施の形態では、リカレンスプロット情報としてUpperRPが用いられた。言い換えると、リカレンスプロット情報は、2階層の階層的リカレンスプロットによって生成された。しかしながら、リカレンスプロット情報は、1階層のリカレンスプロット(つまり、非階層のリカレンスプロット)によって生成されてもよいし、2階層以上の多階層のリカレンスプロットによって生成されてもよい。
【0064】
[効果等]
以上説明したように、音信号処理システム10は、第一の音の特性を示すリカレンスプロット情報を取得する第一取得部24と、第一の音と異なる第二の音の音信号を取得する第二取得部25と、第一取得部24によって取得されたリカレンスプロット情報に基づいて、第二取得部25によって取得された第二の音の音信号に第一の音の特性を反映した音信号を生成する生成部27と、生成された音信号を出力する出力部28とを備える。上記実施の形態では、リカレンスプロット情報は、UpperRPであり、第一の音は、UpperRPの元となる音であり、第二の音は、シード音である。
【0065】
このような音信号処理システム10は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。例えば、多数の楽曲を学習した機械学習モデルを用いて新たな楽曲を生成する手法(例えば、https://openai.com/blog/jukebox/などを参照)が知られているが、このような手法では、膨大な学習データが必要であり、機械学習モデルを構築するために時間がかかる。また、楽曲を生成するときの情報処理量も多い。これに対し、音信号処理システム10は、リカレンスプロット情報を使用することにより情報処理量を低減しつつ新たな音の音信号を出力することができる。
【0066】
また、例えば、音信号処理システム10は、さらに、複数の第二の音の音信号が記憶された記憶部23を備える。第二取得部25は、複数の第二の音の音信号のうちユーザが選択した第二の音の音信号を記憶部23から取得する。この場合の記憶部23は、第一記憶部の一例である。
【0067】
このような音信号処理システム10は、ユーザの所望の第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。
【0068】
また、例えば、音信号処理システム10は、さらに、複数のリカレンスプロット情報が感性語と対応付けて記憶された記憶部23と、ユーザが指定した感性語を示す感性語情報を取得する第三取得部26とを備える。第一取得部24は、複数のリカレンスプロット情報のうち、第三取得部26によって取得された感性語情報が示す感性語に対応付けられたリカレンスプロット情報を記憶部23から取得する。この場合の記憶部23は、第二記憶部の一例である。
【0069】
このような音信号処理システム10は、第二の音にユーザ所望の感性語に対応する第一の音の特性を反映した新たな音の音信号を出力することができる。
【0070】
また、例えば、リカレンスプロット情報は、第一の音の音信号を階層的にリカレンスプロットすることで得られる情報である。
【0071】
このような音信号処理システム10は、第一の音の音信号を階層的にリカレンスプロットすることで得られるリカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。
【0072】
また、例えば、第一の音は、自然音である。
【0073】
このような音信号処理システム10は、第二の音に第二の音と異なる自然音の特性を反映した新たな音の音信号を出力することができる。
【0074】
また、例えば、第二の音は、自然音である。
【0075】
このような音信号処理システム10は、自然音に第一の音の特性を反映した新たな音の音信号を出力することができる。
【0076】
また、音信号処理システム10は、マイクロコンピュータと、メモリとを備え、マイクロコンピュータは、メモリに記憶されたコンピュータプログラムを実行することにより、第一の音の特性を示すリカレンスプロット情報を取得し、前記第一の音と異なる第二の音の音信号を取得し、取得された前記リカレンスプロット情報に基づいて、取得された前記第二の音の音信号に前記第一の音の特性を反映した音信号を生成し、生成された前記音信号を出力する。
【0077】
このような音信号処理システム10は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。
【0078】
また、音信号処理システム10などのコンピュータによって実行される音信号処理方法は、第一の音の特性を示すリカレンスプロット情報を取得する第一取得ステップS15と、第一の音と異なる第二の音の音信号を取得する第二取得ステップS13と、第一取得ステップS15において取得されたリカレンスプロット情報に基づいて、第二取得ステップS13において取得された第二の音の音信号に第一の音の特性を反映した音信号を生成する生成ステップS16と、生成された音信号を出力する出力ステップS17とを含む。
【0079】
このような音信号処理方法は、リカレンスプロット情報を使用して第二の音に第一の音の特性を反映した新たな音の音信号を出力することができる。
【0080】
(その他の実施の形態)
以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。
【0081】
例えば、上記実施の形態において、リカレンスプロット情報(UpperRP)は、音信号に基づいて生成されたが、音信号以外の時系列データに基づいて生成されてもよい。例えば、リカレンスプロット情報(UpperRP)は、株価の変動データまたは気温の変動データなどに基づいて生成されてもよい。
【0082】
また、上記実施の形態において、音信号処理システムは、複数の装置によって実現されたが、単一の装置として実現されてもよい。例えば、音信号処理システムは、情報端末に相当する単一の装置として実現されてもよいし、サーバ装置に相当する単一の装置として実現されてもよい。音信号処理システムが複数の装置によって実現される場合、音信号処理システムが備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。例えば、サーバ装置が備える機能的な構成要素の一部または全部を情報端末が備えてもよい。
【0083】
また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において2つの装置が通信を行う場合、2つの装置間には図示されない中継装置が介在してもよい。
【0084】
また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。
【0085】
また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
【0086】
また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
【0087】
また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、音信号処理システムなどのコンピュータが実行する音信号処理方法として実行されてもよいし、このような音信号処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の情報端末を上記実施の形態の情報端末として機能させるためのアプリケーションプログラムが含まれる。
【0088】
その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
【産業上の利用可能性】
【0089】
本開示の音信号処理システムは、ある音に別の音の特性を反映した新たな音の音信号を出力することができるシステムとして有用である。
【符号の説明】
【0090】
10 音信号処理システム
20 サーバ装置
21 通信部
22 信号処理部
23 記憶部(第一記憶部、第二記憶部)
24 第一取得部
25 第二取得部
26 第三取得部
27 生成部
28 出力部
30 情報端末
31 UI部
32 スピーカ
33 情報処理部
34 記憶部
40 広域通信ネットワーク