IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許7439433表示制御方法、表示制御装置およびプログラム
<>
  • 特許-表示制御方法、表示制御装置およびプログラム 図1
  • 特許-表示制御方法、表示制御装置およびプログラム 図2
  • 特許-表示制御方法、表示制御装置およびプログラム 図3
  • 特許-表示制御方法、表示制御装置およびプログラム 図4
  • 特許-表示制御方法、表示制御装置およびプログラム 図5
  • 特許-表示制御方法、表示制御装置およびプログラム 図6
  • 特許-表示制御方法、表示制御装置およびプログラム 図7
  • 特許-表示制御方法、表示制御装置およびプログラム 図8
  • 特許-表示制御方法、表示制御装置およびプログラム 図9
  • 特許-表示制御方法、表示制御装置およびプログラム 図10
  • 特許-表示制御方法、表示制御装置およびプログラム 図11
  • 特許-表示制御方法、表示制御装置およびプログラム 図12
  • 特許-表示制御方法、表示制御装置およびプログラム 図13
  • 特許-表示制御方法、表示制御装置およびプログラム 図14
  • 特許-表示制御方法、表示制御装置およびプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-19
(45)【発行日】2024-02-28
(54)【発明の名称】表示制御方法、表示制御装置およびプログラム
(51)【国際特許分類】
   G10L 21/10 20130101AFI20240220BHJP
   G10L 21/0308 20130101ALI20240220BHJP
【FI】
G10L21/10
G10L21/0308 Z
【請求項の数】 9
(21)【出願番号】P 2019177966
(22)【出願日】2019-09-27
(65)【公開番号】P2021056319
(43)【公開日】2021-04-08
【審査請求日】2022-07-21
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【弁理士】
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】水野 賀文
(72)【発明者】
【氏名】高橋 祐
(72)【発明者】
【氏名】近藤 多伸
(72)【発明者】
【氏名】石塚 健治
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2013-066079(JP,A)
【文献】特開2006-337415(JP,A)
【文献】特開2019-159012(JP,A)
【文献】特開平06-102877(JP,A)
【文献】特表2006-510017(JP,A)
【文献】国際公開第2008/133097(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/02-25/93
H04R 3/00
G10H 1/00-7/12
(57)【特許請求の範囲】
【請求項1】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得し、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる
コンピュータにより実現される表示制御方法。
【請求項2】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得し、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる
コンピュータにより実現される表示制御方法。
【請求項3】
前記複数の音源の各々について、当該音源からの音と他の音源からの被り音との混合比を配列した第3画像を、前記表示装置に表示させる
請求項1または請求項2の表示制御方法。
【請求項4】
前記複数の音源のうち一の音源について、
前記一の音源の観測包絡線のレベルと、当該一の音源の出力包絡線のレベルとを表す第4画像を、前記表示装置に表示させる
請求項1から請求項3の何れかの表示制御方法。
【請求項5】
前記観測包絡線における1個のレベルが算定される単位期間毎に、当該単位期間における前記観測包絡線のレベルと、当該単位期間における前記出力包絡線のレベルとを、表示装置に表示させる
請求項4の表示制御方法。
【請求項6】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得する推定処理部と、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部と
を具備する表示制御装置。
【請求項7】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得する推定処理部と、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部と
を具備する表示制御装置。
【請求項8】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得する推定処理部、および、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部
としてコンピュータを機能させるプログラム。
【請求項9】
相異なる複数の音源の各々について、
当該音源からの音を収音した音信号の時間軸上における波形の概形を表す観測包絡線と、
前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、
前記観測包絡線における当該音源からの音の時間軸上における波形の概形を表す出力包絡線と
を取得する推定処理部、および、
前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、
当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部
としてコンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、例えば楽器等の音源からの音を収音した音信号を処理する技術に関する。
【背景技術】
【0002】
例えば複数の楽器の演奏音を収録する場面では、楽器毎に別個の収音機器が設置される場合がある。収音機器により収音される音には、当該収音機器が設置された楽器からの音が優勢に含まれるが、当該楽器以外の楽器から到達する音(いわゆる被り音)も含まれる。特許文献1には、複数の音源の相互間で発生する被り音の伝達特性を推定し、収音機器により収音される音から他の音源からの被り音を除去する構成が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-66079号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えばミキシング等を含む音楽制作の場面では、利用者は、各収音機器が収音した音に対する被り音の影響を考慮する必要がある。しかし、特許文献1の技術では、各音源からの音に対する被り音の影響を利用者が把握することはできない。以上の事情を考慮して、本開示のひとつの態様は、各音源からの音に対する他の音源からの被り音の影響を視覚的に把握できるようにすることを目的とする。
【課題を解決するための手段】
【0005】
本開示のひとつの態様に係る表示制御方法は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得し、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる。
【0006】
本開示の他の態様に係る表示制御方法は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得し、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる。
【0007】
本開示のひとつの態様に係る表示制御装置は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得する推定処理部と、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部とを具備する。
【0008】
本開示のひとつの態様に係る表示制御装置は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得する推定処理部と、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部とを具備する。
【0009】
本開示のひとつの態様に係るプログラムは、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得する推定処理部、および、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部としてコンピュータを機能させる。
【0010】
本開示の他の態様に係るプログラムは、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得する推定処理部、および、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる表示制御部としてコンピュータを機能させる。
【図面の簡単な説明】
【0011】
図1】音響処理システムの構成を例示するブロック図である。
図2】音響処理装置の構成を例示するブロック図である。
図3】制御装置の機能的な構成を例示するブロック図である。
図4】観測包絡線の説明図である。
図5】推定処理部による推定処理の説明図である。
図6】推定処理の具体的な手順を例示するフローチャートである。
図7】学習処理の具体的な手順を例示するフローチャートである。
図8】解析画像の模式図である。
図9】解析画像の模式図である。
図10】解析画像の模式図である。
図11】解析画像の模式図である。
図12】音響処理装置の全体的な動作の手順を例示するフローチャートである。
図13】第2実施形態における推定処理の説明図である。
図14】第3実施形態における推定処理の説明図である。
図15】変形例における解析画像の模式図である。
【発明を実施するための形態】
【0012】
A:第1実施形態
図1は、本開示の第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、N個(Nは2以上の自然数)の音源S[1]~S[N]から発生する音響を収音および処理する音楽制作用の録音システムである。各音源S[n](n=1~N)は、例えば演奏により発音する楽器である。例えばドラムセットを構成する複数の打楽器(例えばシンバル,キックドラム,スネアドラム,ハイハットおよびフロアタム等)の各々が音源S[n]に相当する。N個の音源S[1]~S[N]は、ひとつの音響空間内に相互に近接して設置される。なお、2個以上の楽器の組合せを音源S[n]としてもよい。
【0013】
音響処理システム100は、N個の収音装置D[1]~D[N]と音響処理装置10と再生装置20とを具備する。各収音装置D[n]は、有線または無線により音響処理装置10に接続される。再生装置20も同様に、有線または無線により音響処理装置10に接続される。なお、音響処理装置10と再生装置20とを一体に構成してもよい。
【0014】
N個の収音装置D[1]~D[N]の各々は、N個の音源S[1]~S[N]の何れかに対応する。すなわち、N個の収音装置D[1]~D[N]とN個の音源S[1]~S[N]とは1対1に対応する。各収音装置D[n]は、周囲の音を収音するマイクロホンである。例えば、収音装置D[n]は、音源S[n]に指向する指向性のマイクロホンである。収音装置D[n]は、周囲の音の波形を表す音信号A[n]を生成する。Nチャネルの音信号A[1]~A[N]が音響処理装置10に並列に供給される。
【0015】
各収音装置D[n]は、音源S[n]から発生した音(以下「目的音」という)の収音を目的として音源S[n]の近傍に設置される。したがって、収音装置D[n]には音源S[n]からの目的音が優勢に到達する。ただし、各音源S[n]は相互に近接して設置されるから、各収音装置D[n]には、当該収音装置D[n]に対応する音源S[n]以外の音源S[n'](n'=1~N,n'≠n)から発生した音(以下「被り音」という)も到達する。すなわち、収音装置D[n]が生成する音信号A[n]は、音源S[n]から到達する目的音の成分を優勢に含むほか、当該音源S[n]の周囲に位置する他の音源S[n']から到達する被り音(spill,bleed,leakage)の成分も含む。なお、各音信号A[n]をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
【0016】
音響処理装置10は、Nチャネルの音信号A[1]~A[N]を処理するためのコンピュータシステムである。具体的には、音響処理装置10は、Nチャネルの音信号A[1]~A[N]に対する音響処理により複数のチャネルの音信号Bを生成する。再生装置20は、音信号Bが表す音を再生する。具体的には、再生装置20は、音信号Bをデジタルからアナログに変換するD/A変換器と、音信号Bを増幅する増幅器と、音信号Bに応じた音響を放音する放音装置とを具備する。
【0017】
図2は、音響処理装置10の構成を例示するブロック図である。音響処理装置10は、制御装置11と記憶装置12と表示装置13と操作装置14と通信装置15とを具備するコンピュータシステムで実現される。なお、音響処理装置10は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(すなわちシステム)でも実現される。
【0018】
制御装置11は、音響処理装置10の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサで構成される。通信装置15は、N個の収音装置D[1]~D[N]および再生装置20との間で通信する。例えば、通信装置15は、各収音装置D[n]が接続される入力ポートと、再生装置20が接続される出力ポートとを具備する。
【0019】
表示装置13は、制御装置11から指示された画像を表示する。表示装置13は、例えば液晶表示パネルまたは有機EL表示パネルである。操作装置14は、利用者による操作を受付ける。操作装置14は、例えば表示装置13の表示面に対する接触を検知するタッチパネル、または、利用者が操作する操作子である。
【0020】
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用するデータとを記憶する単数または複数のメモリである。具体的には、記憶装置12は、推定処理プログラムP1と学習処理プログラムP2と表示制御プログラムP3と音響処理プログラムP4とを記憶する。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響処理装置10に着脱可能な可搬型の記録媒体、または、音響処理装置10が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
【0021】
図3は、音響処理装置10の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで複数の機能(推定処理部31,学習処理部32,表示制御部33,音響処理部34)を実現する。制御装置11が実現する各機能について以下に詳述する。
【0022】
[1]推定処理部31
制御装置11は、推定処理プログラムP1を実行することで推定処理部31として機能する。推定処理部31は、Nチャネルの音信号A[1]~A[N]を解析する。具体的には、推定処理部31は、包絡線取得部311と信号処理部312とを具備する。
【0023】
包絡線取得部311は、Nチャネルの音信号A[1]~A[N]の各々について観測包絡線Ex[n](Ex[1]~Ex[N])を生成する。各音信号A[n]の観測包絡線Ex[n]は、時間軸上における当該音信号A[n]の波形の概形(エンベロープ)を表す時間領域の信号である。
【0024】
図4は、観測包絡線Ex[n]の説明図である。時間軸上の所定長の期間(以下「解析期間」という)Ta毎にNチャネルの観測包絡線Ex[1]~Ex[N]が生成される。各解析期間Taは、時間軸上のM個(Mは2以上の自然数)の単位期間Tu[1]~Tu[M]で構成される。各単位期間Tu[m](m=1~M)は、音信号A[n]を構成する信号値(サンプル)のU個分に相当する時間長の期間である。包絡線取得部311は、単位期間Tu[m]毎に観測包絡線Ex[n]のレベルx[n,m]を音信号A[n]から算定する。1個の解析期間Taにおける第nチャネルの観測包絡線Ex[n]は、当該解析期間Ta内のM個のレベルx[n,1]~x[n,M]の時系列で表現される。観測包絡線Ex[n]における任意の1個のレベルx[n,m]は、例えば以下の数式(1)で表現される。
【数1】
【0025】
数式(1)の記号a[n,u]は、単位期間Tu[m]内における第nチャネルの音信号A[n]を構成するU個の信号値a[n,1]~a[n,U]のうち第u番目(u=1~U)の1個の信号値を意味する。数式(1)から理解される通り、観測包絡線Ex[n]の各レベルx[n,m]は、音信号A[n]の2乗平均平方根(RMS:Root Mean Square)に相当する非負の実効値である。以上の説明から理解される通り、包絡線取得部311は、Nチャネルの各々について、単位期間Tu[m]毎にレベルx[n,m]を生成し、当該レベルx[n,m]のM個分の時系列(レベルx[n,1]~x[n,M])を観測包絡線Ex[n]とする。すなわち、各チャネルの観測包絡線Ex[n]は、M個のレベルx[n,1]~x[n,M]を要素とするM次元ベクトルで表現される。
【0026】
図5は、推定処理部31の動作の説明図である。以上に説明した観測包絡線Ex[n]が、Nチャネルの音信号A[1]~A[N]の各々について生成される。したがって、N個の観測包絡線Ex[1]~Ex[N]を縦方向に配列したN行M列の非負行列(以下「観測行列」という)Xが解析期間Ta毎に生成される。観測行列Xにおける第n行第m列の要素は、第nチャネルの観測包絡線Ex[n]における第m番目のレベルx[n,m]である。なお、以下の各図面においては、音信号A[n]のチャネルの総数Nが3である場合が例示されている。
【0027】
図3の信号処理部312は、Nチャネルの観測包絡線Ex[1]~Ex[N]からNチャネルの出力包絡線Ey[1]~Ey[N]を生成する。図5に例示される通り、観測包絡線Ex[n]に対応する出力包絡線Ey[n]は、当該観測包絡線Ex[n]における音源S[n]からの目的音を強調(理想的には抽出)した時間領域信号である。すなわち、出力包絡線Ey[n]においては、音源S[n]以外の各音源S[n']からの被り音のレベルが低減(理想的には除去)される。以上の説明から理解される通り、出力包絡線Ey[n]は、音源S[n]から発生した目的音のレベルの時間的な変化を表す。したがって、第1実施形態によれば、各音源S[n]からの目的音のレベルの時間的な変化を利用者が正確に把握できるという利点がある。
【0028】
信号処理部312は、各解析期間TaにおけるNチャネルの観測包絡線Ex[1]~Ex[N]から当該解析期間TaにおけるNチャネルの出力包絡線Ey[1]~Ey[N]を生成する。すなわち、Nチャネルの出力包絡線Ey[1]~Ey[N]は解析期間Ta毎に生成される。1個の解析期間Taにおける第nチャネルの出力包絡線Ey[n]は、当該解析期間Ta内の相異なる単位期間Tu[m]に対応するM個のレベルy[n,1]~y[n,M]の時系列で表現される。すなわち、各出力包絡線Ey[n]は、M個のレベルy[n,1]~y[n,M]を要素とするM次元ベクトルで表現される。信号処理部312が生成するNチャネルの出力包絡線Ey[1]~Ey[N]は、N行M列の非負行列(以下「係数行列」という)Yを構成する。係数行列Y(アクティベーション行列)における第n行第m列の要素は、出力包絡線Ey[n]における第m番目のレベルy[n,m]である。
【0029】
1個の解析期間Taにおいて、信号処理部312は、既知の混合行列Q(基底行列)を利用した非負値行列因子分解(NMF:Non-negative Matrix Factorization)により、観測行列Xから係数行列Yを生成する。混合行列Qは、複数の混合比q[n1,n2](n1=1~N,n2=1~N)を配列したN行N列の正方行列である。混合行列Qは、機械学習により事前に生成されたうえで記憶装置12に記憶される。混合行列Qの対角要素である各混合比q[n,n](n1=n2=n)は、基準値(具体的には1)に設定される。
【0030】
各観測包絡線Ex[n]は以下の数式(2)で表現される。

Ex[n]≒q[n,1]Ey[1]+q[n,2]Ey[2]+…+q[n,N]Ey[N] (2)

すなわち、観測包絡線Ex[n]に対応するN個の混合比q[n,1]~q[n,N]は、当該観測包絡線Ex[n]をNチャネルの出力包絡線Ey[1]~Ey[N]の加重和で近似的に表現した場合における各出力包絡線Ey[n]の加重値に相当する。
【0031】
すなわち、混合行列Qの各混合比q[n1,n2]は、観測包絡線Ex[n1]において音源S[n2]からの被り音が混合された度合を表す指標である。混合比q[n1,n2]は、収音装置D[n1]に対して音源S[n2]から到達する被り音の到達率(ないし減衰率)に関する指標とも換言される。具体的には、混合比q[n1,n2]は、収音装置D[n1]が音源S[n1]から収音した目的音の音量を1(基準値)とした場合に、当該収音装置D[n1]が他の音源S[n2]から収音した被り音の音量の比率である。したがって、混合比q[n1,n2]と出力包絡線Ey[n2]のレベルy[n2,m]との積q[n1,n2]y[n2,m]は、音源S[n2]から収音装置D[n1]に到達する被り音の音量に相当する。
【0032】
例えば、図5の混合行列Qにおける混合比q[1,2]は0.1であるから、観測包絡線Ex[1]においては、音源S[1]からの目的音に対して音源S[2]からの被り音が0.1の割合で混合されていることを意味する。また、混合比q[1,3]は0.2であるから、観測包絡線Ex[1]においては、音源S[1]からの目的音に対して音源S[3]からの被り音が0.2の割合で混合されていることを意味する。同様に、例えば混合比[3,1]は0.2であるから、観測包絡線Ex[3]においては、音源S[3]からの目的音に対して音源S[1]からの被り音が0.2の割合で混合されていることを意味する。すなわち、混合比q[n1,n2]が大きいほど、音源S[n2]から収音装置D[n1]に到達する被り音が大きいことを意味する。
【0033】
第1実施形態の信号処理部312は、混合行列Qと係数行列Yとの積QYが観測行列Xに近付くように係数行列Yを反復的に更新する。例えば、信号処理部312は、観測行列Xと積QYとの距離を表す評価関数F(X|QY)が最小となるように係数行列Yを算定する。評価関数F(X|QY)は、例えばユークリッド距離,KL(Kullback-Leibler)ダイバージェンス,板倉齋藤距離,またはβダイバージェンス等の任意の距離規範である。
【0034】
N個の音源S[1]~S[N]のうち任意の2個の音源S[k1]および音源S[k2]に着目する(k1=1~N,k2=1~N,k1≠k2)。Nチャネルの観測包絡線Ex[1]~Ex[N]は、観測包絡線Ex[k1]と観測包絡線Ex[k2]とを含む。観測包絡線Ex[k1]は、音源S[k1]からの目的音を収音した音信号A[k1]の概形である。観測包絡線Ex[k1]は「第1観測包絡線」の一例であり、音源S[k1]は「第1音源」の一例であり、音信号A[k1]は「第1音信号」の一例である。他方、観測包絡線Ex[k2]は、音源S[k2]からの目的音を収音した音信号A[k2]の概形である。観測包絡線Ex[k2]は「第2観測包絡線」の一例であり、音源S[k2]は「第2音源」の一例であり、音信号A[k2]は「第2音信号」の一例である。
【0035】
混合行列Qは、混合比q[k1,k2]と混合比q[k2,k1]とを含む。混合比q[k1,k2]は、観測包絡線Ex[k1]における音源S[k2]からの被り音の混合比であり、混合比q[k2,k1]は、観測包絡線Ex[k2]における音源S[k1]からの被り音の混合比である。Nチャネルの出力包絡線Ey[1]~Ey[N]は、出力包絡線Ey[k1]と出力包絡線Ey[k2]とを含む。出力包絡線Ey[k1]は、「第1出力包絡線」の一例であり、観測包絡線Ex[k1]における音源S[k1]からの目的音の概形を表す信号を意味する。他方、出力包絡線Ey[k2]は、「第2出力包絡線」の一例であり、観測包絡線Ex[k2]における音源S[k2]からの目的音の概形を表す信号を意味する。
【0036】
図6は、制御装置11が係数行列Yを生成する処理(以下「推定処理」という)Saの具体的な手順を例示するフローチャートである。推定処理Saは、操作装置14に対する利用者からの指示を契機として開始され、N個の音源S[1]~S[N]による発音に並行して実行される。例えば、音響処理システム100の利用者は、音源S[n]としての楽器を演奏する。複数の利用者による演奏に並行して推定処理Saが実行される。推定処理Saは、解析期間Ta毎に実行される。
【0037】
推定処理Saを開始すると、包絡線取得部311は、Nチャネルの音信号A[1]~A[N]からNチャネルの観測包絡線Ex[1]~Ex[N](すなわち観測行列X)を生成する(Sa1)。具体的には、包絡線取得部311は、前掲の数式(1)の演算により各観測包絡線Ex[n]におけるレベルx[n,m]を算定する。
【0038】
信号処理部312は、係数行列Yを初期化する(Sa2)。例えば、信号処理部312は、直前の解析期間Taにおける観測行列Xを現在の解析期間Taにおける係数行列Yの初期値として設定する。なお、係数行列Yの初期化の方法は以上の例示に限定されない。例えば、信号処理部312は、現在の解析期間Taについて生成した観測行列Xを、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。また、信号処理部312は、直前の解析期間Taにおける観測行列Xまたは係数行列Yの各要素に乱数を加算した行列を、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。
【0039】
信号処理部312は、既知の混合行列Qと現在の係数行列Yとの積QYと、現在の解析期間Taの観測行列Xとの距離を表す評価関数F(X|QY)を算定する(Sa3)。信号処理部312は、所定の終了条件が成立したか否かを判定する(Sa4)。終了条件は、例えば評価関数F(X|QY)が所定の閾値を下回ること、または、係数行列Yを更新した回数が所定の閾値に到達したことである。
【0040】
終了条件が成立していない場合(Sa4:NO)、信号処理部312は、評価関数F(X|QY)が減少するように係数行列Yを更新する(Sa5)。終了条件が成立するまで(Sa4:YES)、評価関数F(X|QY)の算定(Sa3)と係数行列Yの更新(Sa5)とが反復される。係数行列Yは、終了条件が成立した段階(Sa4:YES)の数値で確定される。
【0041】
Nチャネルの観測包絡線Ex[1]~Ex[N]の生成(Sa1)と複数の出力包絡線Ey[1]~Ey[N]の生成(Sa2~Sa5)とは、N個の音源S[1]~S[N]からの収音に並行して解析期間Ta毎に実行される。
【0042】
以上の説明から理解される通り、第1実施形態においては、各音信号A[n]の概形を表す観測包絡線Ex[n]に対する処理で出力包絡線Ey[n]が生成されるから、各音信号A[n]を解析する構成と比較して、音源S[n]毎の目的音(出力包絡線Ey[n])のレベルを推定する推定処理Saの負荷を軽減することが可能である。
【0043】
[2]学習処理部32
図3に例示される通り、制御装置11は、学習処理プログラムP2を実行することで学習処理部32として機能する。学習処理部32は、推定処理Saに使用される混合行列Qを生成する。混合行列Qは、推定処理Saの実行前の任意の時点において生成(ないし訓練)される。具体的には、初期的な混合行列Qが新規に生成されるほか、生成済の混合行列Qが訓練(再訓練)される。学習処理部32は、包絡線取得部321と信号処理部322とを具備する。
【0044】
包絡線取得部321は、訓練用に準備されたNチャネルの音信号A[1]~A[N]の各々について観測包絡線Ex[n](Ex[1]~Ex[N])を生成する。訓練用の音信号A[n]の時間長は、M個の単位期間Tu[1]~Tu[M]の時間長(すなわち解析期間Taの時間長)に相当する。すなわち、Nチャネルの観測包絡線Ex[1]~Ex[N]を含むN行M列の観測行列Xが生成される。包絡線取得部321による動作は包絡線取得部311による動作と同様である。
【0045】
信号処理部322は、解析期間TaにおけるNチャネルの観測包絡線Ex[1]~Ex[N]から混合行列QとNチャネルの出力包絡線Ey[1]~Ey[N]とを生成する。すなわち、観測行列Xから混合行列Qと係数行列Yとが生成される。Nチャネルの観測包絡線Ex[1]~Ex[N]を利用して混合行列Qを更新する処理を1エポックとして、所定の終了条件が成立するまで当該エポックを複数回にわたり反復することで、推定処理Saに使用される混合行列Qが確定される。終了条件は、前述の推定処理Saの終了条件とは相違してよい。信号処理部322が生成した混合行列Qは記憶装置12に記憶される。
【0046】
信号処理部322は、非負値行列因子分解により観測行列Xから混合行列Qと係数行列Yとを生成する。すなわち、信号処理部322は、エポック毎に、混合行列Qと係数行列Yとの積QYが観測行列Xに近付くように係数行列Yを更新する。信号処理部322は、係数行列Yの更新を複数のエポックにわたり反復し、観測行列Xと積QYとの距離を表す評価関数F(X|QY)が徐々に減少するように係数行列Yを算定する。
【0047】
図7は、制御装置11が混合行列Qを生成(すなわち訓練)する処理(以下「学習処理」という)Sbの具体的な手順を例示するフローチャートである。学習処理Sbは、操作装置14に対する利用者からの指示を契機として開始される。例えば、推定処理Saが実行される正式な演奏の開始前(例えばリハーサル)に音源S[n]としての楽器を演奏者が演奏する。音響処理システム100の利用者は、演奏音を収音することで訓練用のNチャネルの音信号A[1]~A[N]を取得する。
【0048】
なお、音源S[n]の位置、収音装置D[n]の位置、または音源S[n]と収音装置D[n]の相対的な位置関係等の収音条件が変化すると、各収音装置D[n]に他の音源S[n']から到達する被り音の程度も変化する。したがって、収音条件が変更されるたびに、利用者からの指示に応じて学習処理Sbが実行されることで混合行列Qが更新される。
【0049】
なお、各楽器の演奏に並行した推定処理Saの実行中に収音条件の変化または推定結果の誤差に気付いた場合、利用者は、音響処理システム100に対して混合行列Qの再訓練を指示する。音響処理システム100は、利用者からの指示に応じて、現時点の混合行列Qを利用した推定処理Saを実行しながら、現在の演奏を収録することで訓練用の音信号A[n]を取得する。学習処理部32は、訓練用の音信号A[n]を利用した学習処理Sbにより混合行列Qを再訓練する。推定処理部31は、再訓練後の混合行列Qを、以後の演奏に対する推定処理Saに利用する。すなわち、演奏の途中で混合行列Qが更新される。
【0050】
学習処理Sbを開始すると、包絡線取得部321は、訓練用のNチャネルの音信号A[1]~A[N]からNチャネルの観測包絡線Ex[1]~Ex[N]を生成する(Sb1)。具体的には、包絡線取得部321は、前掲の数式(1)の演算により各観測包絡線Ex[n]におけるレベルx[n,m]を算定する。
【0051】
信号処理部322は、混合行列Qおよび係数行列Yを初期化する(Sb2)。例えば、信号処理部322は、対角要素(q[n,n])を1に設定し、対角要素以外の各要素を乱数に設定する。なお、混合行列Qの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Sbで生成された混合行列Qを、今回の学習処理Sbにおける初期的な混合行列Qとして再訓練してもよい。また、信号処理部322は、例えば観測行列Xを係数行列Yの初期値として設定する。なお、係数行列Yの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Sbにおいて今回と同じ音信号A[n]が利用される場合、信号処理部322は、その学習処理Sbにより生成した係数行列Yを、今回の学習処理Sbにおける係数行列Yの初期値としてもよい。また、信号処理部322は、以上に例示した観測行列Xまたは係数行列Yの各要素に乱数を加算した行列を、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。
【0052】
信号処理部322は、混合行列Qと係数行列Yとの積QYと、現在の解析期間Taの観測行列Xとの距離を表す評価関数F(X|QY)を算定する(Sb3)。信号処理部322は、所定の終了条件が成立したか否かを判定する(Sb4)。学習処理Sbの終了条件は、例えば、評価関数F(X|QY)が所定の閾値を下回ること、または、係数行列Yを更新した回数が所定の閾値に到達したことである。
【0053】
終了条件が成立していない場合(Sb4:NO)、信号処理部322は、評価関数F(X|QY)が減少するように混合行列Qおよび係数行列Yを更新する(Sb5)。混合行列Qおよび係数行列Yの更新(Sb5)と評価関数F(X|QY)の算定(Sb3)とを1エポックとして、終了条件が成立するまで(Sb4:YES)、当該エポックが反復される。混合行列Qは、終了条件が成立した段階(Sb4:YES)の数値で確定される。
【0054】
以上の説明から理解される通り、第1実施形態においては、各観測包絡線Ex[n]における他の音源S[n']からの被り音の混合比q[n,n']を含む混合行列Qが、訓練用のNチャネルの観測包絡線Ex[1]~Ex[N]から事前に生成される。混合行列Qは、各音源S[n]に対応する音信号A[n]に他の音源S[n']からの被り音が含まれる度合(音被りの度合)を表す。ここでは、音信号A[n]の概形を表す観測包絡線Ex[n]が処理されるから、音信号A[n]を処理する構成と比較して、混合行列Qを生成する学習処理Sbの負荷を軽減することが可能である。
【0055】
なお、推定処理Saと学習処理Sbとの相違点は、推定処理Saでは混合行列Qが固定されるのに対して学習処理Sbでは混合行列Qが係数行列Yとともに更新される点である。すなわち、混合行列Qの更新の有無以外の点については推定処理Saと学習処理Sbとは共通する。したがって、学習処理部32の機能を推定処理部31として利用してもよい。すなわち、学習処理部32による学習処理Sbにおいて混合行列Qを固定し、かつ、単位期間Tu[m]のM個分にわたる観測包絡線Ex[n]を纏めて処理することで推定処理Saが実現される。前述の例示では、推定処理部31と学習処理部32とを別個の要素として説明したが、推定処理部31と学習処理部32とを1個の要素として音響処理装置10に搭載してもよい。
【0056】
[3]表示制御部33
図3に例示される通り、制御装置11は、表示制御プログラムP3を実行することで表示制御部33として機能する。表示制御部33は、推定処理Saまたは学習処理Sbによる処理の結果を表す画像(以下「解析画像」という)Zを表示装置13に表示させる。具体的には、表示制御部33は、複数の解析画像Z(Za~Zd)の何れかを、例えば操作装置14に対する利用者からの指示に応じて表示装置13に表示させる。表示装置13による解析画像Zの表示は、操作装置14に対する利用者からの指示を契機として開始され、N個の音源S[1]~S[N]による発音に並行して実行される。すなわち、音響処理システム100の利用者は、N個の音源S[1]~S[N]による発音(例えば楽器の演奏)に並行して実時間的に解析画像Zを視認することが可能である。なお、解析画像Zにおける各数値は、例えばデシベル値で表示される。
【0057】
[3A]解析画像Za
図8は、解析画像Zaの模式図である。解析画像Zaは、相異なるチャネル(CH)に対応するN個の単位画像Ga[1]~Ga[N]を含む。各単位画像Ga[n]は、音量を表す画像である。具体的には、各単位画像Ga[n]は、最小値Lminを表す下端と最大値Lmaxを表す上端とにわたる帯状の画像である。最小値Lminは無音(-∞dB)を意味する。なお、解析画像Zaは「第4画像」の一例である。
【0058】
任意の1個の音源S[n]に対応する単位画像Ga[n]は、時間軸上の1個の時点における観測包絡線Ex[n]のレベルx[n,m]と出力包絡線Ey[n]のレベルy[n,m]とを表す画像である。具体的には、各単位画像Ga[n]は、範囲Raと範囲Rbとを含む。範囲Raと範囲Rbとは相異なる態様で表示される。なお、本明細書において画像の「態様」とは、観察者が視覚的に弁別可能な画像の性状を意味する。例えば、色の3属性である色相(色調)、彩度および明度(階調)のほか、サイズおよび画像内容(例えば模様または形状)も、「態様」の概念に包含される。
【0059】
単位画像Ga[n]における範囲Raの上端は、出力包絡線Ey[n,m]のレベルy[n,m]を表す。他方、範囲Rbの上端は、観測包絡線Ex[n]のレベルx[n,m]を表す。したがって、範囲Raは、収音装置D[n]が音源S[n]から収音した目的音のレベルを意味し、範囲Rbは、収音装置D[n]が他の(N-1)個の音源S[n']から収音した被り音によるレベルの増加比を意味する。収音装置D[n]に対する目的音および被り音のレベルは時間的に変動するから、各単位画像Ga[n]は、時間の経過(具体的には演奏の進行)とともに刻々と変化する。
【0060】
以上の説明から理解される通り、利用者は、解析画像Zaを視認することで、収音装置D[n]に到達する目的音に対する被り音の程度を、収音装置D[n]毎(チャネル毎)に視覚的に比較することが可能である。例えば図8に例示された解析画像Zaからは、収音装置D[1]には目的音と同等のレベルの被り音が到達し、収音装置D[2]には目的音よりも充分に小さいレベルの被り音が到達していることを把握できる。そして、収音装置D[n]に対する被り音の程度が大きい場合、利用者は、当該収音装置D[n]の位置または方向を調整できる。収音装置D[n]の調整後には前述の学習処理Sbが実行される。
【0061】
[3B]解析画像Zb
図9は、解析画像Zbの模式図である。解析画像Zbは、相異なるチャネル(CH)に対応するN個の単位画像Gb[1]~Gb[N]を含む。各チャネルは音源S[n]に対応するから、N個の単位画像Gb[1]~Gb[N]は、相異なる音源S[n]に対応する画像とも換言される。各単位画像Gb[n]は、単位画像Ga[n]と同様に、最小値Lminを表す下端と最大値Lmaxを表す上端とにわたる帯状の画像である。なお、解析画像Zbは「第1画像」の一例である。
【0062】
利用者は、操作装置14を適宜に操作することでN個の音源S[1]~S[N]の何れかを選択できる。N個の音源S[1]~S[N]のうち利用者が選択した1個の音源S[n]を以下では第1音源S[k1]と表記し、第1音源S[k1]以外の(N-1)個の音源S[n]を以下では第2音源S[k2]と表記する。図9においては、音源S[1]が第1音源S[k1]として選択され、音源S[2]および音源S[3]の各々が第2音源S[k2]である場合が例示されている。N個の単位画像Gb[1]~Gb[N]のうち第1音源S[k1]に対応する単位画像Gb[k1]の態様は、解析画像Zaにおける単位画像Ga[n]と同様である。すなわち、単位画像Gb[k1]は、観測包絡線Ex[k1]のレベルx[k1,m]と出力包絡線Ey[k1]のレベルy[k1,m]とを表す。
【0063】
N個の単位画像Gb[1]~Gb[N]のうち各第2音源S[k2]に対応する単位画像Gb[k2]は、第1音源S[k1]の観測包絡線Ex[k1]における当該第2音源S[k2]からの被り音のレベル(以下「被り量」という)Lb[k2]を表す。被り量Lb[k2]は、第2音源S[k2]から収音装置D[k1]に到達する被り音のレベルを意味する。具体的には、単位画像Gb[k2]には範囲Rbが表示される。単位画像Gb[k2]における範囲Rbの上端が、被り量Lb[k2]を意味する。表示制御部33は、混合行列Qにおける混合比q[k1,k2]と出力包絡線Ey[k2]のレベルy[k2,m]とを乗算することで被り量Lb[k2](Lb[k2]=q[k1,k2]y[k2,m])を算定する。
【0064】
例えば、図9における被り量Lb[2]は、収音装置D[1]に対する音源S[2]からの被り音のレベルを意味し、混合行列Qにおける混合比q[1,2]と出力包絡線Ey[2]のレベルy[2,m]とを乗算することで算定される(Lb[2]=q[1,2]y[2,m])。また、図9における被り量Lb[3]は、収音装置D[1]に対する音源S[3]からの被り音のレベルを意味し、混合行列Qにおける混合比q[1,3]と出力包絡線Ey[3]のレベルy[3,m]とを乗算することで算定される(Lb[3]=q[1,3]y[3,m])。
【0065】
以上の説明から理解される通り、(N-1)個の第2音源S[k2]にわたる被り量Lb[k2]の合計は、当該(N-1)個の第2音源S[k2]から収音装置D[k1]に到達する被り音の合計レベル(すなわち単位画像Gb[k1]の範囲Rb)に相当する。収音装置D[k1]に対する被り音のレベルは時間的に変動するから、単位画像Gb[k1]および各単位画像Gb[k2]は、時間の経過(具体的には演奏の進行)とともに刻々と変化する。
【0066】
以上の説明から理解される通り、利用者は、解析画像Zbを視認することで、第1音源S[k1]からの目的音を収音した音信号A[k1]に対して各第2音源S[k2]からの被り音が影響する度合を視覚的に把握できる。例えば、図9に例示された解析画像Zbからは、収音装置D[1]に対して音源S[2]から到達する被り音のレベルが、音源S[3]から到達する被り音のレベルを上回ることを把握できる。そして、第2音源S[k2]からの被り音の程度が大きい場合、利用者は、第2音源S[k2]からの被り音が低減されるように、各収音装置D[n]の位置または方向を調整できる。収音装置D[n]の調整後には前述の学習処理Sbが実行される。
【0067】
[3C]解析画像Zc
図10は、解析画像Zcの模式図である。解析画像Zcは、相異なるチャネル(CH)に対応するN個の単位画像Gc[1]~Gc[N]を含む。N個の単位画像Gc[1]~Gc[N]は、相異なる音源S[n]に対応する画像とも換言される。各単位画像Gc[n]は、単位画像Ga[n]と同様に、最小値Lminを表す下端と最大値Lmaxを表す上端とにわたる帯状の画像である。なお、解析画像Zcは「第2画像」の一例である。
【0068】
利用者は、操作装置14を適宜に操作することでN個の音源S[1]~S[N]の何れかを第1音源S[k1]として選択できる。N個の音源S[1]~S[N]のうち第1音源S[k1]以外の(N-1)個の音源S[n]は第2音源S[k2]である。図10においては、音源S[2]が第1音源S[k1]として選択され、音源S[1]および音源S[3]の各々が第2音源S[k2]である場合が例示されている。N個の単位画像Gc[1]~Gc[N]のうち第1音源S[k1]に対応する単位画像Gc[k1]の態様は、解析画像Zaにおける単位画像Ga[n]と同様である。すなわち、単位画像Gc[k1]は、観測包絡線Ex[k1]のレベルx[k1,m]と出力包絡線Ey[k1]のレベルy[k1,m]とを表す。
【0069】
N個の単位画像Gc[1]~Gc[N]のうち各第2音源S[k2]に対応する単位画像Gc[k2]は、当該第2音源S[k2]の観測包絡線Ex[k2]における第1音源S[k1]からの被り量Lc[k1]を表す。被り量Lc[k2]は、第1音源S[k1]から各収音装置D[k2]に到達する被り音のレベルを意味する。具体的には、単位画像Gc[k2]には範囲Rbが表示される。単位画像Gc[k2]における範囲Rbの上端が、被り量Lc[k2]を意味する。表示制御部33は、混合行列Qにおける混合比q[k2,k1]と出力包絡線Ey[k1]のレベルy[k1,m]とを乗算することで被り量Lc[k2](Lc[k2]=q[k2,k1]y[k1,m])を算定する。
【0070】
例えば、図10における被り量Lc[1]は、収音装置D[1]に対する音源S[2]からの被り音のレベルを意味し、混合行列Qにおける混合比q[1,2]と出力包絡線Ey[2]のレベルy[2,m]とを乗算することで算定される(Lc[1]=q[1,2]y[2,m])。また、図10における被り量Lc[3]は、収音装置D[3]に対する音源S[2]からの被り音のレベルを意味し、混合行列Qにおける混合比q[3,2]と出力包絡線Ey[2]のレベルy[2,m]とを乗算することで算定される(Lc[3]=q[3,2]y[2,m])。
【0071】
収音装置D[k1]に対する被り音のレベルは時間的に変動するから、単位画像Gc[k1]および各単位画像Gc[k2]は、時間の経過(具体的には演奏の進行)とともに刻々と変化する。
【0072】
以上の説明から理解される通り、利用者は、解析画像Zcを視認することで、各第2音源S[k2]からの目的音を収音した音信号A[k2]に対して第1音源S[k1]からの被り音が影響する度合を視覚的に把握できる。例えば、図10に例示された解析画像Zcからは、収音装置D[1]に対して音源S[2]から到達する被り音のレベルが、収音装置D[3]に対して音源S[2]から到達する被り音のレベルを下回ることを把握できる。
【0073】
[3D]解析画像Zd
図11は、解析画像Zdの模式図である。解析画像Zdは、混合行列Qを表す画像である。具体的には、解析画像Zdは、混合行列Qと同様にN行N列に行列状に配列されたN2個の単位画像Gd[1,1]~Gd[N,N]を含む。
【0074】
解析画像Zdにおける任意の1個の単位画像Gd[n1,n2]は、混合行列Qにおける第n1行第n2列に位置する混合比q[n1,n2]を表す。具体的には、単位画像Gd[n1,n2]は、混合比q[n1,n2]に応じた態様(例えば色相または明度)で表示される。例えば、混合比q[n1,n2]が大きいほど単位画像Gd[n1,n2]が長波長側の色相で表示される構成、または、混合比q[n1,n2]が大きいほど単位画像Gd[n1,n2]が高明度(淡い階調)で表示される構成が想定される。すなわち、解析画像Zdは、N個の音源S[1]~S[N]の各々について、当該音源S[n]からの目的音と他の音源S[n']からの被り音との混合比q[n,n']を配列した画像である。解析画像Zdは「第3画像」の一例である。
【0075】
以上の説明から理解される通り、利用者は、N個の音源S[1]~S[N]のうち任意の2個の音源(S[n],S[n'])の組合せについて、音源S[n]が音源S[n']に影響する度合を視覚的に把握できる。
【0076】
[4]音響処理部34
図3に例示される通り、制御装置11は、音響処理プログラムP4を実行することで音響処理部34として機能する。音響処理部34は、Nチャネルの音信号A[1]~A[N]の各々に対して音響処理を実行することで音信号B[n](B[1]~B[N])を生成する。具体的には、音響処理部34は、推定処理部31が生成した出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理を、音信号A[n]に対して実行する。出力包絡線Ey[n]は、前述の通り、音信号A[n]における音源S[n]からの目的音の概形を表す包絡線である。具体的には、音響処理部34は、出力包絡線Ey[n]のレベルy[n,m]に応じて音信号A[n]に設定された複数の処理期間Hの各々について音響処理を実行する。
【0077】
音響処理部34は、Nチャネルの音信号B[1]~B[N]から音信号Bを生成する。具体的には、音響処理部34は、Nチャネルの音信号B[1]~B[N]の各々に係数を乗算したうえでNチャネル分を混合することで音信号Bを生成する。各音信号B[n]の係数(すなわち加重値)は、例えば操作装置14に対する利用者からの指示に応じて設定される。
【0078】
図12は、音響処理装置10の制御装置11が実行する全体的な動作を例示するフローチャートである。例えばN個の音源S[1]~S[N]の発音に並行して、解析期間Ta毎に図12の処理が実行される。
【0079】
制御装置11(推定処理部31)は、前述の推定処理Saにより、Nチャネルの観測包絡線Ex[1]~Ex[N]と、混合行列Qとから、Nチャネルの出力包絡線Ey[1]~Ey[N]を生成する(S1)。具体的には、制御装置11は、第1に、Nチャネルの音信号A[1]~A[N]から観測包絡線Ex[1]~Ex[N]を生成する。第2に、制御装置11は、Nチャネルの出力包絡線Ey[1]~Ey[N]を図6の推定処理Saにより生成する。
【0080】
制御装置11(表示制御部33)は、解析画像Zを表示装置13に表示させる(S2)。例えば、制御装置11は、Nチャネルの観測包絡線Ex[1]~Ex[N]とNチャネルの出力包絡線Ey[1]~Ey[N]とに応じた解析画像Zaを表示装置13に表示させる。また、制御装置11は、混合行列QとNチャネルの出力包絡線Ey[1]~Ey[N]とに応じた解析画像Zbまたは解析画像Zcを表示装置13に表示させる。制御装置11は、混合行列Qに応じた解析画像Zdを表示装置13に表示させる。解析画像Zは解析期間Ta毎に順次に更新される。
【0081】
制御装置11(音響処理部34)は、Nチャネルの音信号A[1]~A[N]の各々に対して出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理を実行する(S3)。具体的には、制御装置11は、出力包絡線Ey[n]のレベルy[n,m]に応じて音信号A[n]に設定される各処理期間Hについて音響処理を実行する。
【0082】
以上に説明した通り、第1実施形態においては、観測包絡線Ex[n]における音源S[n]からの目的音の概形を表す出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理が音信号A[n]に対して実行されるから、音信号A[n]に含まれる被り音の影響を低減して適切な音響処理を音信号A[n]に対して実行することが可能である。
【0083】
B:第2実施形態
第2実施形態について説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0084】
第1実施形態においては、複数の単位期間Tu[m](Tu[1]~Tu[M])を含む解析期間Ta毎に推定処理Saが実行される。第2実施形態においては、単位期間Tu[m]毎に推定処理Saが実行される。すなわち、第2実施形態は、第1実施形態における1個の解析期間Taに含まれる単位期間Tu[m]の個数Mを1に限定した形態である。
【0085】
図13は、第2実施形態における推定処理Saの説明図である。第2実施形態においては、時間軸上の単位期間Tu[i]毎(iは自然数)毎にNチャネルのレベルx[1,i]~x[N,i]が生成される。観測行列Xは、1個の単位期間Tu[i]に対応するNチャネルのレベルx[1,i]~x[N,i]を縦方向に配列したN行1列の非負行列である。したがって、複数の単位期間Tu[i]にわたる観測行列Xの時系列が、Nチャネルの観測包絡線Ex[1]~Ex[N]に相当する。すなわち、第nチャネルの観測包絡線Ex[n]は、複数の単位期間Tu[i]にわたるレベルx[n,i]の時系列で表現される。同様に、係数行列Yは、1個の単位期間Tu[i]に対応するNチャネルのレベルy[1,i]~y[N,i]を縦方向に配列したN行1列の非負行列である。したがって、複数の単位期間Tu[i]にわたる係数行列Yの時系列が、Nチャネルの出力包絡線Ey[1]~Ey[N]に相当する。混合行列Qは、第1実施形態と同様に、複数の混合比q[n1,n2]を配列したN行N列の正方行列である。
【0086】
第1実施形態においては、M個の単位期間Tu[1]~Tu[M]を含む解析期間Ta毎に図6の推定処理Saが実行される。第2実施形態においては、単位期間Tu[i]毎に推定処理Saが実行される。すなわち、N個の音源S[1]~S[N]による発音に並行して実時間的に推定処理Saが実行される。なお、推定処理Saの内容は第1実施形態と同様である。他方、学習処理Sbは、第1実施形態と同様に、M個の単位期間Tu[1]~Tu[m]を含むう1個の解析期間Taについて実行される。すなわち、第2実施形態においては、推定処理Saが単位期間Tu[i]毎のレベルy[n,i]を算定するリアルタイム処理であるのに対し、学習処理Sbは、複数の単位期間Tu[1]~Tu[M]にわたる出力包絡線Ey[n]を算定するノンリアルタイム処理である。
【0087】
以上の説明から理解される通り、第2実施形態によれば、N個の音源S[1]~S[N]による発音に対する出力包絡線Ey[n]の遅延が低減される。すなわち、N個の音源S[1]~S[N]による発音に並行して実時間的に各出力包絡線Ey[n]を生成できる。
【0088】
図12に例示した処理(S1~S3)は、単位期間Tu[i]毎に実行される。したがって、制御装置11(表示制御部33)は、表示装置13に表示された解析画像Z(Za,Zb,Zc,Zd)を単位期間Tu[i]毎に更新する(S2)。すなわち、解析画像Zは、N個の音源S[1]~S[N]による発音に並行して実時間的に更新される。以上の説明から理解される通り、第2実施形態によれば、N個の音源S[1]~S[N]の発音に対して遅延なく解析画像Zが更新される。したがって、利用者は、各チャネルにおける被り音の変化を実時間的に視認できる。例えば、解析画像Zaにおいては、1個の単位期間Tu[i]における観測包絡線Ex[n]のレベルx[n,i]と出力包絡線Ey[n]のレベルy[n,i]とがチャネル毎に表示装置13に表示され、当該解析画像Zaが単位期間Tu[i]毎に順次に更新される。
【0089】
また、制御装置11(音響処理部34)は、音信号A[n]に対する音響処理を単位期間Tu[i]毎に実行する(S3)。したがって、N個の音源S[1]~S[N]の発音に対して遅延なく各音信号A[n]を処理できる。
【0090】
C:第3実施形態
図14は、第3実施形態における推定処理Saの説明図である。第1実施形態の推定処理部31における包絡線取得部311は、相異なる音源S[n]に対応するNチャネルの観測包絡線Ex[1]~Ex[N]を生成する。第3実施形態の包絡線取得部311は、相異なる周波数帯域に対応する3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をチャネル毎に生成する。観測包絡線Ex[n]_Lは低周波数帯域に対応し、観測包絡線Ex[n]_Mは中周波数帯域に対応し、観測包絡線Ex[n]_Hは高周波数帯域に対応する。低周波数帯域は中周波数帯域の低域側に位置し、高周波数帯域は中周波数帯域の高域側に位置する。具体的には、低周波数帯域は中周波数帯域の下端値を下回る周波数帯域であり、高周波数帯域は中周波数帯域の上端値を上回る周波数帯域である。なお、観測包絡線Ex[n]が算定される周波数帯域の総数は3に限定されず任意である。なお、低周波数帯域と中周波数帯域と高周波数帯域とは、部分的に相互に重複してもよい。
【0091】
包絡線取得部311は、各音信号A[n]を低周波数帯域と中周波数帯域と高周波数帯域の3個の周波数帯域に分割し、第1実施形態と同様の方法により周波数帯域毎に観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)生成する。以上の説明から理解される通り、観測行列Xは、3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルにわたり配列した3N行M列の非負行列である。また、混合行列Qは、相異なる周波数帯域に対応する3個の要素をNチャネルにわたり配列した3N行3N列の正方行列である。
【0092】
信号処理部312は、相異なる周波数帯域に対応する3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルの各々について生成する。出力包絡線Ey[n]_Lは低周波数帯域に対応し、出力包絡線Ey[n]_Mは中周波数帯域に対応し、出力包絡線Ey[n]_Hは高周波数帯域に対応する。したがって、係数行列Yは、3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルにわたり配列した3N行M列の非負行列である。信号処理部312は、既知の混合行列Qを利用した非負値行列因子分解により、観測行列Xから係数行列Yを生成する。
【0093】
以上の説明では推定処理Saに着目したが、学習処理Sbについても同様である。具体的には、学習処理部32の包絡線取得部321は、相異なる周波数帯域に対応する3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルの各々の音信号A[n]から生成する。すなわち、包絡線取得部321は、3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルにわたり配列した3N行N列の観測行列Xを生成する。混合行列Qは、相異なる周波数帯域に対応する3個の要素をNチャネルにわたり配列した9行9列の正方行列である。係数行列Yは、相異なる周波数帯域に対応する3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルにわたり配列した3N行N列の非負行列である。信号処理部322は、非負値行列因子分解により観測行列Xから混合行列Qと係数行列Yとを生成する。
【0094】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、各チャネルの観測包絡線Ex[n]および出力包絡線Ey[n]が複数の周波数帯域に分離されるから、音源S[n]の目的音を高精度に反映した観測包絡線Ex[n]および出力包絡線Ey[n]を生成できるという利点がある。なお、図14においては第1実施形態を基礎とした構成を例示したが、単位期間Tu[i]毎に推定処理Saを実行する第2実施形態にも、第3実施形態の構成は同様に適用される。
【0095】
D:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0096】
(1)前述の各形態では、前掲の数式(1)の演算により各音信号A[n]の観測包絡線Ex[n]を生成したが、包絡線取得部311または包絡線取得部321が観測包絡線Ex[n]を生成する方法は以上の例示に限定されない。例えば、音信号A[n]の正側の各ピークから経時的に減衰する曲線または直線により観測包絡線Ex[n]を構成してもよい。また、音信号A[n]の正側の成分を平滑化することで観測包絡線Ex[N]を生成してもよい。
【0097】
(2)前述の各形態では、音響処理装置10の包絡線取得部311および包絡線取得部321が各音信号A[n]から観測包絡線Ex[n]を生成したが、外部装置で生成された観測包絡線Ex[n]を包絡線取得部311または包絡線取得部321が受信してもよい。すなわち、包絡線取得部311または包絡線取得部321は、音信号A[n]に対する処理で観測包絡線Ex[n]を生成する要素と、外部装置により生成された観測包絡線Ex[n]を受信する要素との双方を含む。
【0098】
(3)前述の各形態では非負値行列因子分解を例示したが、Nチャネルの観測包絡線Ex[1]~Ex[N]からNチャネルの出力包絡線Ey[1]~Ey[N]を生成するための方法は以上の例示に限定されない。例えば、非負拘束最小2乗法(NNLS:Non-Negative Least Squares)を利用して各出力包絡線Ey[n]を生成してもよい。すなわち、混合行列Qと係数行列Yとにより観測行列Xを近似する任意の最適化手法が利用される。
【0099】
(4)前述の各形態では、時間軸上の1個の時点における観測包絡線Ex[n]のレベルx[n,m]と出力包絡線Ey[n]のレベルy[n,m]とを表す解析画像Zaを例示したが、解析画像Zaの内容は以上の例示に限定されない。例えば、図15に例示される通り、観測包絡線Ex[n]と出力包絡線Ey[n]とを共通の時間軸のもとで配置した解析画像Zaを表示制御部33が表示装置13に表示させてもよい。観測包絡線Ex[n]と出力包絡線Ey[n]との差分が、音源S[n]以外の音源S[n']から収音装置D[n]に到達した被り音の音量に相当する。以上の例示から理解される通り、解析画像Za(第4画像)は、音源S[n]と観測包絡線Ex[n]のレベルx[n,m]と当該音源S[n]の出力包絡線Ey[n]のレベルy[n,m]とを表す画像として包括的に表現される。
【0100】
(5)携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音響処理装置10を実現してもよい。例えば、音響処理装置10は、端末装置から受信したNチャネルの音信号A[1]~A[N]に対する推定処理Saまたは学習処理Sbにより、Nチャネルの出力包絡線Ey[1]~Ey[N]を生成する。なお、Nチャネルの観測包絡線Ex[1]~Ex[N]が端末装置から送信される構成では、包絡線取得部311または包絡線取得部321がNチャネルの観測包絡線Ex[1]~Ex[N]を端末装置から受信する。
【0101】
音響処理装置10の表示制御部33は、Nチャネルの観測包絡線Ex[1]~Ex[N]と混合行列QとNチャネルの出力包絡線Ey[1]~Ey[N]に応じた解析画像Zを表す画像データを生成し、当該画像データを端末装置に送信することで当該解析画像Zを端末装置に表示させる。音響処理装置10の音響処理部34は、各音信号A[n]に対する音響処理で生成した音信号Bを端末装置に送信する。
【0102】
(6)前述の各形態においては、推定処理部31と学習処理部32と表示制御部33と音響処理部34とを具備する音響処理装置10を例示したが、音響処理装置10の一部の要素を省略してもよい。例えば、外部装置により生成された混合行列Qが音響処理装置10に供給される構成では学習処理部32が省略される。表示制御部33および音響処理部34の一方または双方を省略してもよい。また、混合行列Qを生成する学習処理部32を具備する装置は、機械学習装置とも換言される。解析画像Zを表示させる表示制御部33を具備する装置は、表示制御装置とも換言される。
【0103】
(7)以上に例示した音響処理装置10の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと記憶装置12に記憶されたプログラム(P1~P4)との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
【0104】
E:付記
以上に例示した形態から、例えば以下の構成が把握される。
【0105】
本開示のひとつの態様(態様1)に係る表示制御方法は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得し、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、前記第1音源の観測包絡線における当該第2音源からの被り音のレベルを表す第1画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる。
【0106】
以上の態様では、各第2音源について、第1音源の観測包絡線における第2音源からの被り音のレベルを表す第1画像が、表示装置に表示される。したがって、第1音源からの音を収音した音信号に対して各第2音源からの被り音が影響する度合を利用者が視覚的に把握できる。
【0107】
なお、「観測包絡線の取得」は、音信号に対する信号処理で観測包絡線を生成する動作と、他装置により生成された観測包絡線を受信する動作との双方を含む。「混合比の取得」および「出力包絡線の取得」についても同様に、信号処理により生成する動作と他装置から受信する動作との双方を含む。また、「観測包絡線における音源からの音の概形を表す出力包絡線」とは、観測包絡線における音源以外の音源からの被り音が抑圧(理想的には除去)された包絡線を意味する。
【0108】
本開示のひとつの態様(態様2)に係る表示制御方法は、相異なる複数の音源の各々について、当該音源からの音を収音した音信号の概形を表す観測包絡線と、前記観測包絡線における当該音源からの音に対する他の音源からの被り音の混合比と、前記観測包絡線における当該音源からの音の概形を表す出力包絡線とを取得し、前記複数の音源のうち第1音源以外の1以上の第2音源の各々について、当該第2音源の観測包絡線における前記第1音源からの被り音のレベルを表す第2画像を、前記複数の音源の各々について取得した前記混合比および前記出力包絡線に応じて、表示装置に表示させる。
【0109】
以上の態様では、各第2音源について、当該第2音源の観測包絡線における第1音源からの被り音のレベルを表す第2画像が、表示装置に表示される。したがって、各第2音源からの音を収音した音信号に対して第1音源からの被り音が影響する度合を利用者が視覚的に把握できる。
【0110】
態様1または態様2の具体例(態様3)において、前記複数の音源の各々について、当該音源からの音と他の音源からの被り音との混合比を配列した第3画像を、前記表示装置に表示させる。以上の態様では、複数の音源の各々について、当該音源からの音と他の音源からの被り音との混合比を配列した第3画像が表示される。したがって、複数の音源のうち任意の2個の音源の組合せについて、当該組合せの一方の音源が他方の音源に影響する度合を、利用者が視覚的に把握できる。
【0111】
態様1から態様3の何れかの具体例(態様4)において、前記複数の音源のうち一の音源について、前記一の音源の観測包絡線のレベルと、当該一の音源の出力包絡線のレベルとを表す第4画像を、前記表示装置に表示させる。以上の態様では、複数の音源のうち一の音源について観測包絡線のレベルと出力包絡線のレベルとを表す第4画像が表示される。したがって、一の音源からの音のレベルと他の音源からの被り音のレベルとを視覚的に比較することが可能である。
【0112】
態様4の具体例(態様5)において、前記観測包絡線における1個のレベルが算定される単位期間毎に、当該単位期間における前記観測包絡線のレベルと、当該単位期間における前記出力包絡線のレベルとを、表示装置に表示させる。以上の態様によれば、音源による発音に対して遅延なく、第1観測包絡線のレベルと第1出力包絡線のレベルとの関係を利用者が視認できる。
【0113】
本開示のひとつの態様に係る表示制御装置は、以上に例示した各態様の表示制御方法を実行する。また、本開示のひとつの態様に係るプログラムは、以上に例示した各態様の表示制御方法をコンピュータに実行させる。
【符号の説明】
【0114】
100…音響処理システム、10…音響処理装置、20…再生装置、D[n](D[1]~D[N])…収音装置、11…制御装置、12…記憶装置、13…表示装置、14…操作装置、15…通信装置、31…推定処理部、311…包絡線取得部、312…信号処理部、32…学習処理部、321…包絡線取得部、322…信号処理部、33…表示制御部、34…音響処理部、Z(Za,Zb,Zc,Zd)…解析画像。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15