IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-6611音処理方法、音処理装置、およびプログラム
<>
  • 特開-音処理方法、音処理装置、およびプログラム 図1
  • 特開-音処理方法、音処理装置、およびプログラム 図2
  • 特開-音処理方法、音処理装置、およびプログラム 図3
  • 特開-音処理方法、音処理装置、およびプログラム 図4
  • 特開-音処理方法、音処理装置、およびプログラム 図5
  • 特開-音処理方法、音処理装置、およびプログラム 図6
  • 特開-音処理方法、音処理装置、およびプログラム 図7
  • 特開-音処理方法、音処理装置、およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024006611
(43)【公開日】2024-01-17
(54)【発明の名称】音処理方法、音処理装置、およびプログラム
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240110BHJP
【FI】
H04R3/00
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022107675
(22)【出願日】2022-07-04
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】白木原 太
(72)【発明者】
【氏名】松田 遼
(72)【発明者】
【氏名】中村 吉就
(72)【発明者】
【氏名】竹中 雄耶
(72)【発明者】
【氏名】石川 克己
(72)【発明者】
【氏名】大谷 明央
(72)【発明者】
【氏名】山本 和彦
(72)【発明者】
【氏名】藤島 琢哉
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220EE21
5D220EE25
5D220EE27
5D220EE34
5D220EE47
(57)【要約】
【課題】仮想空間上の複数の演者の音量バランスを適切に調整することができる音処理方法を提供する。
【解決手段】音処理方法は、仮想空間内に複数の演者のオブジェクトと、前記複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置し、前記複数の演者にそれぞれ対応する複数の音信号を受信し、利用者から、前記複数の音量調整用インタフェースに対応する、前記複数の演者に対するそれぞれの音量調整パラメータを受け付けて、前記複数の音信号の各演者に対応する音信号と、該音信号に対応する前記音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求めて、前記訓練済モデルで求めた該音量調整パラメータに基づいて前記複数の音信号の音量を調整して混合する。
【選択図】 図4
【特許請求の範囲】
【請求項1】
仮想空間内に複数の演者のオブジェクトと、前記複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置し、
前記複数の演者にそれぞれ対応する複数の音信号を受信し、
利用者から、前記複数の音量調整用インタフェースに対応する、前記複数の演者に対するそれぞれの音量調整パラメータを受け付けて、
前記複数の音信号の各演者に対応する音信号と、該音信号に対応する前記音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求めて、
前記訓練済モデルで求めた該音量調整パラメータに基づいて前記複数の音信号の音量を調整して混合する、
音処理方法。
【請求項2】
前記訓練済モデルは、前記複数の音信号の各演者に対応する音信号と、該音信号に施すエフェクト処理のエフェクトパラメータと、の関係を訓練され、
前記訓練済モデルを用いて、前記複数の演者に対するそれぞれのエフェクトパラメータを求めて、
前記訓練済モデルで求めた該エフェクトパラメータに基づいて前記複数の音信号にエフェクト処理を施す、
請求項1に記載の音処理方法。
【請求項3】
前記複数の演者でそれぞれ利用される複数の音響機器の情報を受信し、
受信した前記複数の音響機器の情報に基づいて前記複数の演者に対するそれぞれのエフェクトパラメータを求める、
請求項2に記載の音処理方法。
【請求項4】
前記複数の演者でそれぞれ利用される複数の音響機器の情報を取得し、
取得した前記複数の音響機器の情報に基づいて、前記複数の音信号の音量を調整する、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項5】
前記複数の演者のオブジェクトの第1位置情報と、視聴者の第2位置情報と、を取得し、
前記第1位置情報および前記第2位置情報に基づいて前記複数の音信号の音量を調整する、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項6】
前記複数の利用者は、演者を含む、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項7】
前記訓練済モデルで求めた前記音量調整パラメータは、受信した前記複数の音信号を混合する受信側機器で用いられる音量調整パラメータである、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項8】
前記訓練済モデルで求めた前記音量調整パラメータは、前記複数の演者でそれぞれ利用される複数の機器で用いられる音量調整パラメータであり、
前記複数の機器は、それぞれ、前記音量調整パラメータに基づいて前記複数の音信号の音量を調整し、
受信側の機器は、前記複数の機器で音量を調整された後の前記複数の音信号を受信して混合する、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項9】
前記複数の演者にそれぞれ対応する複数の音信号を、ネットワークを介して受信する、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項10】
第1の利用者の第1の情報処理装置から、前記音量調整パラメータを受け付けて所定のモデルを訓練して前記訓練済モデルを生成し、
前記訓練済モデルを第2の利用者の第2の情報処理装置に送信し、
前記第2の情報処理装置が、前記訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求める、
請求項1乃至請求項3のいずれか1項に記載の音処理方法。
【請求項11】
前記第1の情報処理装置または前記第2の情報処理装置から前記音量調整パラメータを受け付けて、前記訓練済モデルを再訓練する、
請求項10に記載の音処理方法。
【請求項12】
サーバが、前記第2の利用者に対して課金処理を行い、前記第1の利用者に対して報酬の支払い処理を行う、
請求項10に記載の音処理方法。
【請求項13】
仮想空間内に複数の演者のオブジェクトと、前記複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置し、
前記複数の演者にそれぞれ対応する複数の音信号を受信し、
利用者から、前記複数の音量調整用インタフェースに対応する、前記複数の演者に対するそれぞれの音量調整パラメータを受け付けて、
前記複数の音信号の各演者に対応する音信号と、該音信号に対応する前記音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求めて、
前記訓練済モデルで求めた該音量調整パラメータに基づいて前記複数の音信号の音量を調整して混合する、
プロセッサを備えた、
音処理装置。
【請求項14】
仮想空間内に複数の演者のオブジェクトと、前記複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置し、
前記複数の演者にそれぞれ対応する複数の音信号を受信し、
利用者から、前記複数の音量調整用インタフェースに対応する、前記複数の演者に対するそれぞれの音量調整パラメータを受け付けて、
前記複数の音信号の各演者に対応する音信号と、該音信号に対応する前記音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求めて、
前記訓練済モデルで求めた該音量調整パラメータに基づいて前記複数の音信号の音量を調整して混合する、
音処理を情報処理装置に実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音処理方法、音処理装置、およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、オーディオ・ミキサーB2,C3からネットワークを介してパフォーマンスに係る音信号を受信し、オーディオ・ミキサーB2,C3との間の通信遅延時間を測定し、測定された通信遅延時間に応じてオーディオ・ミキサーB2,C3の音信号をミキシングする、オーディオ・ミキサーが開示されている。
【0003】
特許文献2には、プリフェーダとポストフェーダの音量差を補正することで、プリフェーダとポストフェーダの切り替えをスムーズにする構成が開示されている。
【0004】
特許文献3には、スピーカからマイクに至るインパルス応答を測定し、間接音成分を考慮して音量調整を行うことで、間接音成分を考慮した適切な音量に調整する構成が開示されている。
【0005】
特許文献4には、近端側の直接音の音量測定結果とスピーカとマイクの距離を遠端側にフィードバックする構成が開示されている。これにより、遠端側ユーザは、自身の声が正しく拡声されていることを知ることができる。
【0006】
特許文献5には、近端側のマイクで取得した音響特徴量に基づいて遠端側から受信した音信号の音量調整を行う構成が開示されている。これにより特許文献5の発明は、聴取環境を考慮した音量調整を行うことができる。
【0007】
特許文献6には、ステージ上の異なる場所に位置する複数演者に複数のアンプを配置し、ミキサで各アンプの音信号の音量を調整して供給する構成が開示されている。これにより、特許文献6のミキサは、複数のモニタ用スピーカの音量バランスを一括して調整することができる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2005-128296号公報
【特許文献2】国際公開第2018/21402号公報
【特許文献3】特開2021-129145号公報
【特許文献4】特開2010-103853号公報
【特許文献5】特開2020-202448号公報
【特許文献6】特開2009-100185号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
先行技術文献に開示された構成は、いずれも仮想空間上の複数の演者の音量バランスを調整するものではない。
【0010】
本発明の一実施形態は、仮想空間上の複数の演者の音量バランスを適切に調整することができる音処理方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明の一実施形態に係る音処理方法は、仮想空間内に複数の演者のオブジェクトと、前記複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置し、前記複数の演者にそれぞれ対応する複数の音信号を受信し、利用者から、前記複数の音量調整用インタフェースに対応する、前記複数の演者に対するそれぞれの音量調整パラメータを受け付けて、前記複数の音信号の各演者に対応する音信号と、該音信号に対応する前記音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、前記複数の演者に対するそれぞれの音量調整パラメータを求めて、前記訓練済モデルで求めた該音量調整パラメータに基づいて前記複数の音信号の音量を調整して混合する。
【発明の効果】
【0012】
本発明の一実施形態によれば、仮想空間上の複数の演者の音量バランスを適切に調整することができる。
【図面の簡単な説明】
【0013】
図1】音処理システム1の構成を示すブロック図である。
図2】PC12Cの構成を示すブロック図である。
図3】ある仮想3次元空間R1の一例を示す斜視図である。
図4】訓練段階におけるPC12Cおよびサーバ30の動作を示すフローチャートである。
図5】実行段階におけるPC12Cの動作を示すフローチャートである。
図6】変形例1に係るPC12A(またはPC12B)の動作を示すフローチャートである。
図7】変形例2に係る仮想3次元空間R1の一例を示す斜視図である。
図8】変形例4に係る音処理システム1Aの構成を示すブロック図である。
【発明を実施するための形態】
【0014】
図1は、音処理システム1の構成を示すブロック図である。図1に係る音処理システム1は、第1会場3に設置されたPC(パーソナルコンピュータ)12A、第2会場5に設置されたPC12B、第3会場7に設置されたPC12C、およびサーバ30を含む。PC12A、PC12B、PC12C、およびサーバ30は、ネットワーク9を介して接続される。PC12A、PC12B、およびPC12Cは、本発明の音処理装置の一例である。
【0015】
第1会場3のPC12Aは、ギターアンプ11Aおよびモーションセンサ13Aに接続される。ギターアンプ11Aは、エレキギター10と接続される。
【0016】
エレキギター10は、音響機器の一例である。ギターアンプ11Aは、オーディオケーブルを介してエレキギター10に接続される。ギターアンプ11Aも音響機器の一例である。また、ギターアンプ11Aは、例えばUSBケーブルによりPC12Aに接続される。無論、ギターアンプ11Aは、無線通信によりPC12Aに接続してもよい。エレキギター10は、演奏音に係るアナログ音信号をギターアンプ11Aに出力する。
【0017】
ギターアンプ11Aは、アナログオーディオ端子を有する。ギターアンプ11Aは、オーディオケーブルを介してエレキギター10からアナログ音信号を受け付ける。ギターアンプ11Aは、受け付けたアナログ音信号をデジタル音信号に変換する。ギターアンプ11Aは、当該デジタル音信号にエフェクト等の各種の信号処理を施す。ギターアンプ11Aは、信号処理後のデジタル音信号をアナログ音信号に変換する。ギターアンプ11Aは、当該アナログ音信号を増幅する。ギターアンプ11Aは、内蔵スピーカを介して増幅されたアナログ音信号に基づいて、エレキギター10の演奏音を出力する。また、ギターアンプ11Aは、信号処理後のデジタル音信号を、PC12Aに送信する。
【0018】
PC12Aのユーザは、エレキギター10の演奏者である。エレキギター10の演奏者は、PC12Aを用いて、自身の演奏音を配信するとともに仮想空間内で仮想的に演奏を行う自身の分身となる3Dモデルのオブジェクトを動作させる。ただし、演奏音の配信を行うユーザと演奏者とは同じ人物である必要はない。PC12Aは、当該オブジェクトの動作を制御するためのモーションデータを制御する。
【0019】
モーションセンサ13Aは、演奏者のモーションをキャプチャするためのセンサであり、例えば光学式、慣性式、あるいは画像式等のセンサである。モーションセンサ13Aは、例えばUSBケーブルによりPC12Aに接続される。PC12Aは、モーションセンサ13Aから受け付けたセンサ情報に基づいてモーションデータを制御する。無論、モーションセンサ13Aは、無線通信によりPC12Aに接続してもよい。
【0020】
PC12Aは、ギターアンプ11Aから受信したギター演奏音に係るデジタル音信号、およびモーションセンサ13Aのセンサ情報に基づいて制御したモーションデータをサーバ30に送信する。
【0021】
第2会場5のPC12Bは、マイク19およびモーションセンサ13Bに接続される。
【0022】
マイク19は、音響機器の一例である。マイク19は、オーディオケーブルあるいはUSBケーブル等を介してPC12Bに接続される。PC12Bは、オーディオケーブルを介してマイク19からアナログオーディオ信号を受信する。PC12Bは、受信したアナログ音信号をデジタル音信号に変換する。あるいは、マイク19は、USBケーブル等を介してデジタルオーディオ信号をPC12Bに出力してもよい。
【0023】
PC12Bのユーザは、歌唱者である。歌唱者は、PC12Bを用いて、自身の歌唱音を配信するとともに仮想空間内で仮想的に歌唱を行う自身の分身となるオブジェクトを動作させる。PC12Bは、当該オブジェクトの動作を制御するためのモーションデータを制御する。ただし、歌唱音の配信を行うユーザと歌唱者とは同じ人物である必要はない。
【0024】
モーションセンサ13Bは、歌唱者のモーションをキャプチャするためのセンサであり、例えば光学式、慣性式、あるいは画像式等のセンサである。モーションセンサ13Bは、例えばUSBケーブルによりPC12Bに接続される。PC12Bは、モーションセンサ13Bから受け付けたセンサ情報に基づいてモーションデータを制御する。無論、モーションセンサ13Bは、無線通信によりPC12Bに接続してもよい。
【0025】
PC12Bは、マイク19から受信した歌唱音に係るデジタル音信号、およびモーションセンサ13Bのセンサ情報に基づいて制御したモーションデータをサーバ30に送信する。
【0026】
第3会場7のPC12Cは、ヘッドフォン20に接続される。ヘッドフォン20も音響機器の一例である。PC12Cのユーザは、仮想空間内で仮想的に行われる演者のパフォーマンスを視聴する視聴者である。
【0027】
図2は、PC12Cの構成を示すブロック図である。PC12Cは、汎用の情報処理装置である。図2では、PC12Cの構成を示すが、PC12AおよびPC12Bの主要構成も、図2に示す構成と同じである。
【0028】
PC12Cは、通信部11、プロセッサ12、RAM13、フラッシュメモリ14、表示器15、ユーザI/F16、およびオーディオI/F17を備えている。
【0029】
通信部11は、例えばBluetooth(登録商標)またはWi-Fi(登録商標)等の無線通信機能、USBまたはLAN等の有線通信機能を有する。
【0030】
表示器15は、LCDやOLED等からなる。表示器15は、プロセッサ12の出力した映像を表示する。
【0031】
ユーザI/F16は、操作部の一例である。ユーザI/F16は、マウス、キーボード、あるいはタッチパネル等からなる。ユーザI/F16は、利用者の操作を受け付ける。なお、タッチパネルは、表示器15に積層されていてもよい。
【0032】
オーディオI/F17は、アナログオーディオ端子またはデジタルオーディオ端子等を有し、音響機器を接続するためのインタフェースである。本実施形態では、PC12CのオーディオI/F17は、音響機器の一例としてヘッドフォン20を接続し、ヘッドフォン20に音信号を出力する。
【0033】
プロセッサ12は、CPU、DSP、またはSoC(System on a Chip)等からなる。プロセッサ12は、記憶媒体であるフラッシュメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。なお、プログラムは、フラッシュメモリ14に記憶している必要はない。プロセッサ12は、例えば、サーバ等の他装置から必要な場合にダウンロードしてRAM13に一時記憶してもよい。
【0034】
プロセッサ12は、通信部11を介して、サーバ30から音信号およびモーションデータを受信する。サーバ30から受信する音信号は、第1会場3の演奏者の演奏音に係る第1音信号および第2会場5の歌唱者の歌唱音に係る第2音信号を含む。サーバ30から受信するモーションデータは、第1会場3の演奏者のモーションおよび第2会場5の歌唱者のモーションを含む。また、プロセッサ12は、通信部11を介して、サーバ30から空間情報、モデルデータ、および位置情報等も受信する。
【0035】
空間情報は、例えばライブハウスやコンサートホール等のライブ会場に対応する3次元空間の形状を示す情報であり、ある位置を原点とした3次元の座標で表される。空間情報は、実在のコンサートホール等のライブ会場の3DCADデータに基づく座標情報であってもよいし、ある架空のライブ会場の論理的な座標情報(0~1で正規化された情報)であってもよい。
【0036】
モデルデータは、3Dモデルのオブジェクトを構成するための3次元CG画像データであり、複数の画像パーツからなる。モデルデータは、演者毎に指定される。例えば第1会場3の演奏者は、自身の分身となるモデルデータを指定する。サーバ30は、指定されたモデルデータを配信する。
【0037】
位置情報は、3次元空間内におけるモデルデータの位置を示す情報である。位置情報は、上記仮想空間内の3次元の座標で表される。位置情報は、スピーカ等の機器の様に位置変化のないモデルデータに対応する位置情報である場合もあるし、演者の様に位置変化するモデルデータに対応する位置情報である場合もある。
【0038】
図3は、ある仮想3次元空間R1の一例を示す斜視図である。図3の仮想3次元空間R1は、一例として直方体形状の空間を示しているが、空間の形状はどの様なものであってもよい。
【0039】
プロセッサ12は、サーバ30から受信した空間情報および位置情報に基づいて、図3に示す様な仮想3次元空間R1にオブジェクトを配置する。また、プロセッサ12は、仮想3次元空間R1内に、PC12Cの利用者の位置を設定する。PC12Cの利用者の位置は、仮想3次元空間R1内の視点位置50に対応する。図3では、仮想3次元空間R1を俯瞰して示すが、PC12Cは、プロセッサ12は、空間情報、モデルデータ、位置情報、およびオブジェクトのモーションデータ、および設定した視点位置の情報に基づいて、モデルデータをレンダリングして、設定した視点位置50から仮想3次元空間R1を見た映像を生成する。生成した映像は、表示器15を介して表示する。これにより、PC12Cの視聴者は、設定した視点位置50から仮想3次元空間R1を見た映像を視認することができる。PC12Cのユーザは、ユーザI/F16を介して、仮想3次元空間R1内の視点位置50を変更することができる。プロセッサ12は、変更された視点位置50から仮想3次元空間R1を見た映像を生成する。これにより、PC12Cのユーザは、仮想3次元空間R1内で自身が移動しているように知覚することができる。
【0040】
PC12Cのプロセッサ12は、サーバ30から受信した複数の音信号の音量を調整して混合し、例えばステレオ(L,R)チャンネルの音信号を生成する。この例では、プロセッサ12は、第1会場3の第1音信号および第2会場5の第2音信号を混合する。プロセッサ12は、オーディオI/F17を介してヘッドフォン20にステレオチャンネルの音信号を出力する。
【0041】
なお、プロセッサ12は、第1音信号および第2音信号のそれぞれにイコライザやリバーブ処理等のエフェクト処理を行ってもよい。また、プロセッサ12は、第1音信号および第2音信号に対し、それぞれの対応するオブジェクトの位置に音が定位する様な定位処理を行ってもよい。
【0042】
PC12Cは、各演者に対応する音信号と、該音信号に対応する音量調整パラメータと、の関係を訓練された訓練済モデルを用いて、複数の演者に対するそれぞれの音量調整パラメータを求めて、複数の音信号の音量を調整して混合する。
【0043】
図4は、訓練段階におけるPC12Cおよびサーバ30の動作を示すフローチャートである。サーバ30は、第1音信号および第2音信号を配信する(S21)。PC12Cのプロセッサ12は、サーバ30から第1音信号および第2音信号を受信する(S11)。
【0044】
プロセッサ12は、仮想空間内に複数の演者のオブジェクトと、複数の演者のオブジェクトに対応する複数の音量調整用インタフェースと、を配置する(S12)。
【0045】
具体的には、プロセッサ12は、図3に示す様に、遠隔地である第1会場3に存在する演奏者31に対応する第1オブジェクト51を配置する。プロセッサ12は、別の遠隔地である第2会場5に存在する歌唱者32に対応する第2オブジェクト52を仮想3次元空間R1内に配置する。さらに、プロセッサ12は、第1オブジェクト51に対応する第1音量調整用インタフェース71および第2オブジェクト52に対応する第2音量調整用インタフェース72を配置する。なお、本実施形態では、プロセッサ12は、第1会場3および第2会場5の2つの会場の演者に対応するオブジェクトおよび音量調整用インタフェースを配置しているが、会場の数は2つに限らない。プロセッサ12は、さらに多数の会場の演者のオブジェクトおよび音量調整用インタフェースを配置してもよい。
【0046】
次に、プロセッサ12は、PC12Cのユーザから、複数の音量調整用インタフェースに対応する、複数の演者に対するそれぞれの音量調整パラメータを受け付ける(S13)。PC12Cのユーザは、図3に示した様に、仮想3次元空間R1内に配置された第1音量調整用インタフェース71および第2音量調整用インタフェース72を操作して、音量調整操作を行う。PC12Cのユーザは、例えば、第1オブジェクト51に対応する演奏音が大きすぎると感じた場合に、第1音量調整用インタフェース71を操作して音量を下げる操作を行う。図3の例では、第1音量調整用インタフェース71および第2音量調整用インタフェース72は、スライダの操作子になっている。したがって、PC12Cのユーザは、第1オブジェクト51に対応する演奏音が大きすぎると感じた場合に、第1音量調整用インタフェース71を下方向に移動させる。また、PC12Cのユーザは、例えば、第2オブジェクト52に対応する歌唱音が小さすぎると感じた場合に、第2音量調整用インタフェース72を上方向に移動させ、音量を上げる操作を行う。
【0047】
PC12Cは、受け付けた音量調整パラメータをサーバ30に送信する(S14)。サーバ30は、PC12Cから音量調整パラメータを受信する(S22)。この例では、サーバ30は、PC12Cから音量調整パラメータを受信しているが、他にも多数の情報処理装置から音量調整パラメータを受信する。サーバ30は、受信した多数の音量調整パラメータを用いて、所定のモデルに、所定のアルゴリズムを用いて配信した複数の演者に対応する音信号と音量調整パラメータとの関係を訓練させる(S23)。
【0048】
本実施形態において、モデルを訓練させるためのアルゴリズムは限定されず、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の任意の機械訓練アルゴリズムを用いることができる。機械訓練アルゴリズムは、教師あり訓練、教師なし訓練、半教師訓練、強化訓練、逆強化訓練、能動訓練、あるいは転移訓練等であってもよい。また、サーバ30は、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械訓練モデルを用いてモデルを訓練させてもよい。
【0049】
例えば、ある特定の演者(例えば第1会場3の演奏者31)の演奏音が、多数の視聴者で音量が大きすぎると感じられた場合、多数の視聴者が音量を下げる操作を行う。この場合、所定のモデルは、第1会場3の演奏音の音信号に対して、音量を下げる様な音量調整パラメータを出力するように訓練される。この様に、複数の演者のそれぞれの音信号と、それぞれの音量調整パラメータは、相関関係を有する。したがって、サーバ30は、所定のモデルに、複数の演者のそれぞれの音信号と、それぞれの音量調整パラメータと、の関係を訓練させ、訓練済モデルを生成することができる。
【0050】
図5は、実行段階におけるPC12Cの動作を示すフローチャートである。PC12Cのプロセッサ12は、サーバ30から第1音信号、第2音信号、および訓練済モデルを受信する(S31)。なお、訓練済モデルは、第1音信号および第2音信号とは別に事前に受信してもよい。
【0051】
プロセッサ12は、仮想空間内に複数の演者のオブジェクトを配置する(S32)。具体的には、プロセッサ12は、第1オブジェクト51および第2オブジェクト52を仮想3次元空間R1内に配置する。この例では、実行段階においてプロセッサ12は第1音量調整用インタフェース71および第2音量調整用インタフェース72を配置しない。
【0052】
プロセッサ12は、訓練済モデルを用いて、複数の演者に対するそれぞれの音量調整パラメータを求める(S33)。上述の様に、訓練済モデルは、複数の演者のそれぞれの音信号と、それぞれの音量調整パラメータと、の関係を訓練されている。したがって、プロセッサ12は、訓練済モデルを用いて、第1オブジェクト51に対応する第1音信号および第2オブジェクト52に対応する第2音信号にそれぞれ対応する第1音量調整パラメータおよび第2音量調整パラメータを求める。
【0053】
プロセッサ12は、訓練済モデルで求めた音量調整パラメータに基づいて複数の音信号の音量を調整して混合する(S34)。具体的には、プロセッサ12は、第1音信号の音量を第1音量調整パラメータで調整し、第2音信号の音量を第2音量調整パラメータで調整し、音量調整後の第1音信号および第2音信号を混合する。
【0054】
この様に、PC12Cは、複数の利用者から受け付けた音量調整パラメータで訓練された訓練済モデルを用いて複数の演者の音信号を適切な音量バランスに調整して混合することで、仮想3次元空間R1内で仮想的に歌唱または演奏を行う複数の演者の音量バランスを適切に調整することができる。これにより、仮想3次元空間R1で仮想的に行われる演者のパフォーマンスを視聴する視聴者は、音量バランスの調整操作を行う必要なく、仮想空間内における仮想的な演奏をより良い音量バランスで簡単に視聴できるという顧客体験を享受できる。
【0055】
なお、この例では、実行段階においてプロセッサ12は、第1音量調整用インタフェース71および第2音量調整用インタフェース72を配置しなかったが、第1音量調整用インタフェース71および第2音量調整用インタフェース72を配置してもよい。この場合、PC12Cのユーザは、プロセッサ12が訓練済モデルを用いて求めた第1音量調整パラメータおよび第2音量調整パラメータをさらに微調整することができる。また、PC12Cは、微調整を行った音量調整パラメータもサーバ30に送信してもよい。サーバ30は、微調整を行った音量調整パラメータも受信して、訓練済モデルをさらに再訓練してもよい。これにより、仮想3次元空間R1内で行われるパフォーマンスの進行に伴って音量調整パラメータが更新される。そのため、パフォーマンスを視聴する視聴者は、仮想3次元空間R1内で行われるパフォーマンスの進行に合わせて常に適切な音量バランスで視聴できるという顧客体験を享受できる。
【0056】
(変形例1)
図6は、変形例1に係るPC12A(またはPC12B)の動作を示すフローチャートである。
【0057】
上記実施形態では、PC12Cがサーバ30から訓練済モデルを受信し、第1音信号の音量を第1音量調整パラメータで調整し、第2音信号の音量を第2音量調整パラメータで調整し、音量調整後の第1音信号および第2音信号を混合する例を示した。つまり、訓練済モデルで求めた音量調整パラメータは、受信した複数の音信号を混合する受信側機器で用いられる音量調整パラメータであった。
【0058】
変形例1の音処理システム1では、送信側の機器であるPC12AおよびPC12Bがそれぞれ訓練済モデルを受信し、第1音信号の音量を第1音量調整パラメータで調整し、第2音信号の音量を第2音量調整パラメータで調整する。
【0059】
具体的には、PC12Aは、まずサーバ30から訓練済モデルを受信する(S41)。PC12Aは、受信した訓練済モデルを用いて、送信する音信号の音量調整パラメータを求める(S42)。上述の様に、訓練済モデルは、複数の演者のそれぞれの音信号と、それぞれの音量調整パラメータと、の関係を訓練されている。したがって、PC12Aは、訓練済モデルを用いて、第1音信号に対応する第1音量調整パラメータを求めることができる。PC12Aは、訓練済モデルで求めた第1音量調整パラメータに基づいて第1音信号の音量を調整する(S43)。PC12Aは、調整後の第1音信号をサーバ30に送信する(S44)。PC12Bも同様に、訓練済モデルに基づいて第2音信号の音量を第2音量調整パラメータで調整する。
【0060】
つまり、変形例1において、訓練済モデルで求めた音量調整パラメータは、複数の演者でそれぞれ利用される複数の機器で用いられる音量調整パラメータであり、複数の機器は、それぞれ、音量調整パラメータに基づいて複数の音信号の音量を調整し、受信側の機器は、複数の機器で音量を調整された後の複数の音信号を受信して混合する。
【0061】
これにより、変形例1の音処理システム1でも、仮想3次元空間R1で仮想的に行われる演者のパフォーマンスを視聴する視聴者は、音量バランスの調整操作を行う必要なく、仮想空間内における仮想的な演奏をより良い音量バランスで簡単に視聴できるという顧客体験を享受できる。
【0062】
なお、変形例1では、PC12A(またはPC12B)が音信号の音量を調整する例を示したが、例えばギターアンプ11Aが訓練済モデルに基づいて音信号の音量を調整してもよいし、エレキギター10が訓練済モデルに基づいて音信号の音量を調整してもよい。あるいは、PC12Aが訓練済モデルに基づいてギターアンプ11Aにおける音量調整パラメータを求めて、該音量調整パラメータをギターアンプ11Aに入力し、ギターアンプ11Aが音信号の音量を調整してもよい。あるいは、PC12Aが訓練済モデルに基づいてエレキギター10における音量調整パラメータを求めて、該音量調整パラメータをエレキギター10に入力し、エレキギター10が音信号の音量を調整してもよい。
【0063】
(変形例2)
訓練済モデルは、音量調整パラメータだけでなく、複数の音信号の各演者に対応する音信号と、該音信号に施すエフェクト処理のエフェクトパラメータとの関係を訓練されてもよい。
【0064】
図7は、変形例2に係る仮想3次元空間R1の一例を示す斜視図である。図3と共通する構成については同一の符号を付し、説明を省略する。
【0065】
PC12Cのプロセッサ12は、訓練段階として、仮想空間内に複数の演者のオブジェクトと、複数の演者のオブジェクトに対応する複数のエフェクト調整用インタフェースと、を配置する。具体的には、プロセッサ12は、図7に示す様に、第1オブジェクト51に対応する第1エフェクト調整用インタフェース71Aおよび第2オブジェクト52に対応する第2エフェクト調整用インタフェース72Aと、を配置する。
【0066】
この例では、第1エフェクト調整用インタフェース71Aおよび第2エフェクト調整用インタフェース72Aは、それぞれイコライザのエフェクトパラメータを調整するための操作子である。第1エフェクト調整用インタフェース71Aおよび第2エフェクト調整用インタフェース72Aは、それぞれ高音域(High)、中音域(Mid)、および低音域(Low)のレベルを調整する操作子を含む。
【0067】
PC12Cのユーザは、第1エフェクト調整用インタフェース71Aおよび第2エフェクト調整用インタフェース72Aを操作して、エフェクトパラメータの調整操作を行う。
【0068】
PC12Cは、受け付けたエフェクトパラメータをサーバ30に送信する。サーバ30は、PC12Cを含む多数の情報処理装置からエフェクトパラメータを受信する。サーバ30は、受信した多数のエフェクトパラメータを用いて、所定のモデルに、所定のアルゴリズムを用いて配信した複数の演者に対応する音信号とエフェクトパラメータとの関係を訓練させる。
【0069】
実行段階において、PC12Cのプロセッサ12は、サーバ30から第1音信号、第2音信号、および訓練済モデルを受信する。プロセッサ12は、訓練済モデルを用いて、複数の演者の音信号に施すそれぞれのエフェクトパラメータを求める。プロセッサ12は、訓練済モデルで求めたエフェクトパラメータに基づいて複数の音信号にエフェクト処理を施す。また、プロセッサ12は、エフェクト処理後の複数の音信号の音量を調整して混合する。
【0070】
この様に、変形例2のPC12Cは、複数の利用者から受け付けたエフェクトパラメータで訓練された訓練済モデルを用いて複数の演者の音信号に適切なエフェクト処理を施して混合することで、仮想3次元空間R1内で仮想的に歌唱または演奏を行う複数の演者の音質を適切に調整することができる。これにより、仮想3次元空間R1で仮想的に行われる演者のパフォーマンスを視聴する視聴者は、エフェクトパラメータの調整操作を行う必要なく、仮想空間内における仮想的な演奏をより良い音質で簡単に視聴できるという顧客体験を享受できる。
【0071】
なお、エフェクトは、上記の例で示したイコライザに限らない。エフェクトは、コンプレッサ、あるいはリバーブ等その他のエフェクトであってもよい。例えば、PC12Cのユーザは、第1会場3の演奏音に響きがないと感じた場合に、第1会場3の演奏音に強いリバーブ処理をかけるように、エフェクトパラメータを調整する。サーバ30は、PC12Cを含む多数の情報処理装置からエフェクトパラメータを受信し、第1会場3の演奏音に強いリバーブ処理をかける様な訓練済モデルを生成する。これにより、第1会場3の演奏音には、自動的に強いリバーブ処理が施されるため、視聴者は、改めて第1会場3の演奏音に強いリバーブ処理をかけるエフェクトパラメータを調整する必要なく、仮想空間内における仮想的な演奏をより良い音質で簡単に視聴できるという顧客体験を享受できる。
【0072】
なお、エフェクト処理は、受信側のPC12Cではなく、送信側のPC12A、PC12B、あるいはギターアンプ11Aやエレキギター10、マイク19等で行ってもよい。この場合、送信側のPC12AおよびPC12Bが、訓練済モデルをサーバ30から受信して、該訓練済モデルに基づいてエフェクトパラメータを求めて、エフェクト処理を施す。また、ギターアンプ11Aが訓練済モデルに基づいてエフェクトパラメータを求めてエフェクト処理を行ってもよいし、エレキギター10が訓練済モデルに基づいてエフェクトパラメータを求めてエフェクト処理を行ってもよい。あるいは、PC12Aが訓練済モデルに基づいてギターアンプ11Aにおけるエフェクト処理のエフェクトパラメータを求めて、該エフェクトパラメータをギターアンプ11Aに入力し、ギターアンプ11Aが入力したエフェクトパラメータに基づいてエフェクト処理を行ってもよい。あるいは、PC12Aが訓練済モデルに基づいてエレキギター10におけるエフェクト処理のエフェクトパラメータを求めて、該エフェクトパラメータをエレキギター10に入力し、エレキギター10がエフェクト処理を行ってもよい。
【0073】
(変形例3)
変形例3に係る音処理システム1は、複数の演者でそれぞれ利用される複数の音響機器の情報を取得し、取得した複数の音響機器の情報に基づいて、複数の音信号に施すエフェクト処理のエフェクトパラメータを調整する。
【0074】
例えば、PC12Aは、エレキギター10およびギターアンプ11Aの情報をサーバ30に送信する。エレキギター10およびギターアンプ11Aの情報とは、例えばエレキギター10およびギターアンプ11Aのそれぞれの機種名、あるいは製造番号等の情報を含む。同様に、PC12Bは、マイク19の情報をサーバ30に送信し、PC12Cは、ヘッドフォン20の情報をサーバ30に送信する。
【0075】
サーバ30は、複数の音響機器の情報とそれぞれの音響機器に対応する適切なイコライザ等のエフェクトパラメータをテーブルとして記憶している。サーバ30は、PC12A、PC12B、またはPC12Cから受信した音響機器の情報に対応するエフェクトパラメータをテーブルから読み出して、読み出したエフェクトパラメータをPC12A、PC12B、またはPC12Cに送信する。
【0076】
PC12A、PC12B、またはPC12Cは、サーバ30からエフェクトパラメータを受信して、対応する音響機器の音信号に施すエフェクト処理のエフェクトパラメータを調整する。例えば、PC12Cは、サーバ30から受信したエフェクトパラメータに基づいて、ヘッドフォン20に出力する音信号のイコライザのパラメータを調整する。
【0077】
これにより、各会場の利用者は、利用する音響機器のイコライザ等のエフェクトパラメータを手動で調整する必要なく、適切なエフェクトパラメータに簡単に調整できるという顧客体験を享受できる。例えば、ある演者がある音響機器(例えばあるマイク)を用いて歌唱音を配信する場合と、別のある音響機器(別のあるマイク)を用いて歌唱音を配信する場合と、で音質が異なる場合がある。この様に、音響機器の違いによる収録環境の差により、配信される歌唱音の音質が異なる場合がある。しかし、変形例3の音処理システム1では、この様な音響機器の違いによる収録環境の差を補正することができる。
【0078】
なお、サーバは、複数の音響機器の情報とそれぞれの音響機器に対応する適切なエフェクトパラメータとの関係を訓練した訓練済モデルを用いて、対応する音響機器のエフェクトパラメータを求めてもよい。
【0079】
(変形例4)
図8は、変形例4に係る音処理システム1Aの構成を示すブロック図である。図1と同じ構成については同じ符号を付し、説明を省略する。音処理システム1Aは、第1会場3の演者および第2会場5の演者が、互いに演奏音または歌唱音に係る音信号を送信し、リモートセッションを行う。
【0080】
PC12Aは、第2会場5の演者の歌唱音に係る音信号を受信し、音量を調整してヘッドフォン20Aに出力する。第1会場3の演者は、ヘッドフォン20Aを介して第2会場5の演者の歌唱音を聴く。また、第1会場3の演者は、PC12Aを用いて第2会場5の演者の歌唱音の音量を調整して、当該歌唱音に合わせた演奏を行う。
【0081】
PC12Bは、第1会場3の演者の演奏音に係る音信号を受信し、音量を調整してヘッドフォン20Bに出力する。第2会場5の演者は、ヘッドフォン20Bを介して第1会場3の演者の演奏音を聴く。また、第2会場5の演者は、PC12Bを用いて第1会場3の演者の演奏音の音量を調整して、当該演奏音に合わせた演奏を行う。
【0082】
サーバ30は、PC12AおよびPC12Bでそれぞれ調整された音量調整パラメータを受信し、所定のモデルを訓練する。これにより、サーバ30は、
当該バンド用に訓練した訓練済モデルを生成することができる。バンドメンバーは、次にリモートセッションを行う場合、情報処理装置を用いてサーバ30から訓練済モデルを受信し、訓練済モデルを用いて音量調整を行う。
【0083】
これにより、PC12AおよびPC12Bの演者は、音量の調整操作を行う必要なく、過去に調整したより良い音量でリモートセッションを行うことができるという顧客体験を享受できる。
【0084】
なお、上記の音処理システム1Aは、第1会場3および第2会場5でリモートセッションを行う例である。しかし、音処理システム1Aは、さらに多数の会場で演奏音または歌唱音に係る音信号を送受信し、それぞれの演者が他の演者に合わせて演奏を行う、リモート合奏を行うこともできる。
【0085】
(変形例5)
変形例5のPC12Cは、複数の演者のオブジェクトの第1位置情報と、視聴者の第2位置情報とに基づいて受信した複数の音信号の音量を調整して混合する。
【0086】
例えば、PC12Cのプロセッサ12は、仮想3次元空間R1内のユーザの視点位置50と第1オブジェクト51の距離、および視点位置50と第2オブジェクト52の距離に基づいて、第1音信号および第2音信号の音量を調整する。PC12Cのプロセッサ12は、視点位置50との距離の近いオブジェクトに対応する音信号の音量を大きくし、視点位置50との距離の遠いオブジェクトに対応する音信号の音量を小さくする。
【0087】
これにより、仮想3次元空間R1で仮想的に行われる演者のパフォーマンスを視聴する視聴者は、仮想3次元空間R1における自身と演者との距離感を認識しながら視聴できるという顧客体験を享受できる。
【0088】
(変形例6)
変形例6のPC12Cは、視点位置50、第1オブジェクト51の位置、および第2オブジェクト52の位置に基づいて視点位置50を受聴点とした音響処理を施す。視点位置50を受聴とした音響処理とは、例えば定位処理である。
【0089】
PC12Cのプロセッサ12は、例えば、視点位置50から見て第1オブジェクト51および第2オブジェクト52の位置に第1オブジェクト51および第2オブジェクト52の音が定位する様な定位処理を行う。
【0090】
プロセッサ12は、例えばHRTF(Head Related Transfer Function)に基づく定位処理を行う。HRTFは、ある仮想の音源位置から利用者の右耳および左耳に至る伝達関数を表す。例えば、図3に示す様に、第1オブジェクト51の位置は、視点位置50から見て前方左側である。プロセッサ12は、第1オブジェクト51に対応する音信号に、ユーザの前方左側の位置に定位する様なHRTFを畳み込むバイノーラル処理を行う。これにより、PC12Cのユーザは、仮想3次元空間R1内の視点位置50に居て、自身の前方左側の第1オブジェクト51の音を聴いている様に知覚することができる。
【0091】
(変形例7)
上記実施形態では、いずれも訓練段階において、サーバ30が多数の情報処理装置から音量調整パラメータを受信し、所定のモデルを訓練する例を示した。しかし、サーバ30は、ある1つの情報処理装置から音量調整パラメータを受信し、所定のモデルを訓練してもよい。例えば熟練のオペレータが音量バランスの調整操作を行った場合、サーバ30は、当該熟練のオペレータの音量調整操作を訓練した訓練済モデルを生成し、当該訓練済モデルを配信する。これにより、当該訓練済モデルは、多数の情報処理装置で共有される。他の情報処理装置は、配信された訓練済モデルを用いて音量調整を行う。
【0092】
これにより、仮想3次元空間R1で仮想的に行われる演者のパフォーマンスを視聴する視聴者は、音量バランスの調整操作を行う必要なく、熟練のオペレータにより調整されたより良い音量バランスで仮想的な演奏をより簡単に視聴できるという顧客体験を享受できる。
【0093】
また、サーバ30は、あるバンドのメンバーでリモートセッションを行う場合に、当該バンドのメンバーで調整された音量調整パラメータを受信し、所定のモデルを訓練してもよい。これにより、サーバ30は、当該バンド用に訓練した訓練済モデルを生成することができる。バンドメンバーは、次にリモートセッションを行う場合、情報処理装置を用いてサーバ30から訓練済モデルを受信し、訓練済モデルを用いて音量調整を行う。
【0094】
これにより、リモートセッションを行うバンドのメンバーは、音量バランスの調整操作を行う必要なく、過去に調整されたより良い音量バランスでリモートセッションを行うことができるという顧客体験を享受できる。
【0095】
なお、サーバ30は、ある1つの情報処理装置から受信した音量調整パラメータで訓練した訓練済モデルを再訓練してもよい。サーバ30は、当該1つの情報処理装置から再度、音量調整パラメータを受信して訓練済モデルを再訓練してもよいし、別の情報処理装置から音量調整パラメータを受信して、訓練済モデルを再訓練してもよい。
【0096】
(その他の例)
ユーザは、スライダ等の操作子ではなく、「第1演者の音量を大きくする」等の音声入力により音量調整パラメータを入力してもよい。
【0097】
サーバ30を含む音処理システムの運営者は、仮想3次元空間R1内のパフォーマンスの環境を提供するとともに、訓練済モデルを販売してもよい。例えば、サーバ30は、特定の訓練済モデルに課金処理を行い、課金確認後に訓練済モデルをダウンロードするように構成する。課金処理は、サーバ30ではなく、別の課金用のサーバで行ってもよい。サーバ30は、あるユーザに所定の金額を課金した後、例えばある熟練のオペレータの音量調整操作により訓練された訓練済モデルを当該ユーザにダウンロードさせる。この場合、サーバ30は、当該熟練のオペレータに、訓練済モデルがダウンロードされる毎に報酬を支払う支払い処理を行ってもよい。この様に、サーバ30を含む音処理システムの運営者は、オペレータにインセンティブを与えてもよい。これにより、オペレータは、自身の音量調整の技術を販売することができる。したがって、運営者は、多数のユーザに対して音処理システムを利用するモチベーションを高めることができる。
【0098】
なお、サーバ30は、複数のオペレータの音量調整パラメータで訓練した複数の訓練済モデルを蓄積してもよい。サーバ30は、複数の訓練済モデルのうち、視聴者から指定された任意の訓練済モデルを該視聴者の利用する情報処理装置にダウンロードさせる。この場合、サーバ30は、ダウンロードされた訓練済モデルを訓練したオペレータに対して報酬を支払う処理を行ってもよい。これにより、運営者は、多数のオペレータに対して音処理システムを利用するモチベーションを高めることができる。
【0099】
なお、課金処理は、ダウンロード毎の課金ではなく、1ヶ月あるいは1年単位の課金(サブスクリプション)であってもよい。
【0100】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0101】
1,1A :音処理システム
3 :第1会場
5 :第2会場
7 :第3会場
9 :ネットワーク
10 :エレキギター
11 :通信部
11A :ギターアンプ
12 :プロセッサ
13 :RAM
13A,13B :モーションセンサ
14 :フラッシュメモリ
15 :表示器
16 :ユーザI/F
17 :オーディオI/F
19 :マイク
20,20A,20B :ヘッドフォン
30 :サーバ
31 :演奏者
32 :歌唱者
50 :視点位置
51 :第1オブジェクト
52 :第2オブジェクト
71 :第1音量調整用インタフェース
71A :第1エフェクト調整用インタフェース
72 :第2音量調整用インタフェース
72A :第2エフェクト調整用インタフェース
図1
図2
図3
図4
図5
図6
図7
図8