(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024137004
(43)【公開日】2024-10-04
(54)【発明の名称】音変換方法およびプログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20240927BHJP
G10L 21/013 20130101ALI20240927BHJP
G10L 25/30 20130101ALI20240927BHJP
G10L 19/018 20130101ALI20240927BHJP
【FI】
G10L21/007
G10L21/013
G10L25/30
G10L19/018
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023048335
(22)【出願日】2023-03-24
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000408
【氏名又は名称】弁理士法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】大道 竜之介
(72)【発明者】
【氏名】才野 慶二郎
(72)【発明者】
【氏名】藤島 琢哉
(57)【要約】
【課題】音変換技術を用いて音質を変換するとともに、変換後の音高を制御すること
【解決手段】音変換方法は、音高指定データと入力音信号の第1音響特徴データとを訓練済モデルに提供することと、所定の音質および音高指定データに基づく音高を有する変換音信号を生成するための第2音響特徴データを訓練済モデルから取得することと、を含む。訓練済モデルは、第1音響特徴データと音高指定データとを用いて第2音響特徴データを出力するモデルである。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音高指定データと入力音信号の第1音響特徴データとを訓練済モデルに提供することと、
所定の音質および前記音高指定データに基づく音高を有する変換音信号を生成するための第2音響特徴データを前記訓練済モデルから取得することと、
を含み、
前記訓練済モデルは、前記第1音響特徴データと前記音高指定データとを用いて前記第2音響特徴データを出力するモデルである、
音変換方法。
【請求項2】
前記入力音信号を分析して前記第1音響特徴データを生成する分析部と前記訓練済モデルとを含む音変換部に対して、前記入力音信号と前記音高指定データとを提供することをさらに含み、
前記訓練済モデルに提供される前記第1音響特徴データは、前記分析部によって前記入力音信号から得られ、
前記音変換部に提供された前記音高指定データが前記訓練済モデルに提供される、
請求項1に記載の音変換方法。
【請求項3】
前記音高指定データは、操作要素に対する操作に応じて取得される、
請求項1または請求項2に記載の音変換方法。
【請求項4】
前記音高指定データは、時系列に音高が特定された曲の進行に応じて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項5】
前記音高指定データは、前記入力音信号とは異なる音信号の音高に基づいて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項6】
前記入力音信号は、マイクロフォンから出力された録音信号から抽出した第1特徴量を有する音信号を含み、
前記音高指定データは、前記録音信号から抽出した第2特徴量を有する音信号の音高に基づいて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項7】
前記入力音信号は、第1マイクロフォンから出力された音信号を含み、
前記音高指定データは、前記第1マイクロフォンとは異なる第2マイクロフォンから出力された音信号の音高に基づいて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項8】
前記訓練済モデルは、さらに音質指定データが提供され、
前記音高指定データは、さらに前記音質指定データに関連付けられた音域に基づいて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項9】
前記音質指定データは、前記変換音信号に付与するための音響効果を指定する情報が関連付けられている、
請求項8に記載の音変換方法。
【請求項10】
前記音高指定データは、予め決められた複数の音高のいずれかを示す、
請求項1または請求項2に記載の音変換方法。
【請求項11】
前記音高指定データは、画像データに基づいて生成される、
請求項1または請求項2に記載の音変換方法。
【請求項12】
前記変換音信号には、NFT(Non-Fungible Token)が関連付けられる、
請求項1または請求項2に記載の音変換方法。
【請求項13】
請求項1または請求項2に記載の音変換方法を、コンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音を変換する技術に関する。
【背景技術】
【0002】
所望の歌唱者の声質を再現する技術が開発されている(例えば、特許文献1、2)。機械学習モデルに設定される変数、および機械学習モデルに提供されるベクトルによって、再現される歌唱者の声質が決定される。特許文献1によれば、自らの音声を他の歌唱者の声質を模した音声に変換する技術も実現されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2022/080395号
【特許文献2】国際公開第2020/095950号
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の音変換技術によれば、変換後の音声と入力した音声とが同じ音高を有するため、入力された音声が他の歌唱者の声質に変換されたとしても、変換前後によって歌唱の巧拙が大きく変化することはない。そこで、入力された音声の音高を用いるのではなく、別の方法で変換後の音声の音高を制御することが求められている。音高の制御を要するのは、音声、すなわち人の声を示す音に限られず、様々な音に対しても同様である。例えば、楽器の音であれば、演奏の巧拙に影響する。
【0005】
本発明の目的の一つは、音変換技術を用いて音質を変換するとともに、変換後の音高を制御することにある。
【課題を解決するための手段】
【0006】
一実施形態における音変換方法は、音高指定データと入力音信号の第1音響特徴データとを訓練済モデルに提供することと、所定の音質および音高指定データに基づく音高を有する変換音信号を生成するための第2音響特徴データを訓練済モデルから取得することと、を含む。訓練済モデルは、第1音響特徴データと音高指定データとを用いて第2音響特徴データを出力するモデルである。
【発明の効果】
【0007】
本発明によれば、音変換技術を用いて音質を変換するとともに、変換後の音高を制御することができる。
【図面の簡単な説明】
【0008】
【
図1】一実施形態における音変換装置のハードウエア構成を示す図である。
【
図2】一実施形態における音変換機能の構成を示す図である。
【
図3】一実施形態における音変換方法を示すフローチャートである。
【
図4】一実施形態におけるモデル訓練機能の構成を示す図である。
【
図5】一実施形態における音変換機能の構成を示す図である。
【
図6】一実施形態における音変換機能の構成を示す図である。
【
図7】一実施形態における音変換機能の構成を示す図である。
【
図8】一実施形態における音変換機能の構成を示す図である。
【
図9】一実施形態における音変換機能の構成を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面を参照しながら詳細に説明する。以下に示す実施形態は一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。以下に説明する複数の実施形態で参照する図面において、同一部分または類似の機能を有する部分には同一の符号または類似の符号(数字の後にA、Bなど付しただけの符号)を付し、その繰り返しの説明は省略する場合がある。図面は、説明を明確にするために、構成の一部が図面から省略されたりして、模式的に説明される場合がある。
【0010】
[概要]
一実施形態における音変換装置は、マイクロフォンに入力された音信号を、他の音質に変換して出力するための機能を有する。例えば、音変換装置は、マイクロフォンに入力された歌唱音声を、他の歌唱者の声質を有する音声に変換する。以下の説明では、マイクロフォンに入力される音および変換によって出力される音は、歌唱音声として例示されるが、歌唱音声に限らず楽器の音など他の音であってもよく、口述、会話など、歌唱以外の音声であってもよい。したがって、以下の説明における声質は音質の一例であることが理解される。音変換装置は、音声変換処理に付随して、様々な機能を付加されることがある。以下に示す各実施形態において、付加される機能の一例を説明する。
【0011】
<第1実施形態>
従来の音変換装置は、入力音声を他の歌唱者の声質を有する音声に変換するときには、入力音声の音高が変換後の音声に再現される。第1実施形態では、音変換装置に付加される機能の一例が、変換後の音声における音高を音高設定装置によって設定する機能である場合について説明する。
【0012】
[音変換装置の構成]
図1は、一実施形態における音変換装置のハードウエア構成を示す図である。第1実施形態における音変換装置10は、制御部11、記憶部12、表示部13、操作部14、通信部18およびインターフェース19を含む。
【0013】
制御部11は、CPUなどのプロセッサおよびRAM等の記憶装置を備えるコンピュータの一例である。制御部11は、CPUによりプログラムを実行することによって、様々な処理を実行するための機能を音変換装置10において実現する。CPUにより実行されるプログラムは、記憶部12に記憶されたプログラム12aを含む。音変換装置10において実現される機能は、後述する音変換機能を含み、この例では、モデル訓練機能もさらに含む。
【0014】
記憶部12は、不揮発性メモリ、ハードディスクドライブなどの記憶装置である。記憶部12は、プログラム12a、音合成モデル12b、モデル変数12cおよび音源ID12dなど、各種のデータを記憶する。記憶部12に記憶される各種データは、外部サーバからネットワーク経由でダウンロードされ、記憶部12に記憶されることによって、音変換装置に提供されてもよい。これらのデータは、非一過性のコンピュータに読み取り可能な記録媒体(例えば、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリ等)に記録した状態で提供されてもよい。この場合、音変換装置10は、この記録媒体を読み取る装置を備えていればよい。記憶部12も記録媒体の一例といえる。
【0015】
音合成モデル12bは、歌唱音声の声質を他の声質に変換するときに用いられる演算モデルである。この例では、音合成モデル12bは、2つの演算モデルを有する。2つの演算モデルは、後述する音響エンコーダ121および音響デコーダ125に対応する(
図2参照)。それぞれの演算モデルとして、公知の機械学習モデルが適用される。2つの演算モデルは、互いに異なるモデルが適用されてもよい。公知の機械学習モデルは、例えば、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)などを利用したニューラルネットワークを用いたモデルである。
【0016】
モデル変数12cおよび音源ID12dは、音合成モデル12bにおいて歌唱音声の声質を機械学習させることによって得られた情報を含む。したがって、音合成モデル12bは、モデル変数12cおよび音源ID12dを適用することによって、所定の歌唱者の声質を有する音声を合成するための学習済モデルとして用いることができる。学習済モデルは、所定の歌唱者の声質を有する音声を合成するための訓練が実行されることによって得られたモデルであるから、訓練済モデルということもできる。
【0017】
音合成モデル12bは、国際公開第2022/080395号(以下の説明では、単に「特許文献1」という)における音響エンコーダおよび音響デコーダを含む構成に相当する。モデル変数12cは、機械学習モデルに適用される変数を含み、例えばニューラルネットワークにおける係数に相当する情報を含む。モデル変数12cは、特許文献1におけるモデル変数に対応する。音源ID12dは、機械学習モデルの入力層に提供されるベクトルを含み、例えば多次元空間における埋込ベクトルに相当する情報を含む。音源ID12dは、特許文献1における音源IDに対応し、国際公開第2020/095950号(以下の説明では、単に「特許文献2」という)における歌唱者データに対応する。音合成モデル12b、モデル変数12cおよび音源ID12dの詳細については、後述する。
【0018】
表示部13は、制御部11の制御に応じて様々な画面を表示する表示領域を有するディスプレイである。操作部14は、ユーザの操作に応じた信号を制御部11に出力する操作装置である。通信部18は、制御部11の制御により、インターネットなどのネットワークに接続された他の装置と通信をするための通信モジュールである。インターフェース19は、無線または有線によって他の装置と接続するためのモジュールを含む。この例では、インターフェース19に接続される装置は、マイクロフォン91、スピーカ95および音高設定装置98を含む。
【0019】
マイクロフォン91は、入力された音を電気信号に変換して音信号として出力する。マイクロフォン91から出力された音信号は、インターフェース19を介して制御部11に提供される。スピーカ95は、入力された音信号を音として空間に放出する。スピーカ95に入力される音信号は、制御部11によってインターフェース19を介して提供される。
【0020】
音高設定装置98は、上述したように、声質変換後の音声における音高を設定するために用いられる装置である。この例では、音高設定装置98は、それぞれ音高が関連付けられた複数の操作要素を有し、操作された操作要素に応じた音高情報を出力する。各操作要素は、例えば、ピアノの鍵に相当する形状を有してもよい。この場合には、音高設定装置98は、複数の鍵が配置された鍵盤を有する。音高設定装置98から出力された音高情報は、インターフェース19を介して制御部11に提供される。
【0021】
[音変換機能]
続いて、制御部11がプログラム12aを実行することによって実現される音変換機能について説明する。以下に説明する音変換機能のうち少なくとも一部の機能が音変換装置10とネットワークを介して接続された他の装置によって実現されてもよい。ネットワークを介して接続された複数の装置が協働することによって音変換機能が実現されてもよい。
【0022】
図2は、一実施形態における音変換機能の構成を示す図である。音変換機能800は、音変換部100、音提供部811、音高指定部881および音取得部851を含む。
【0023】
音提供部811は、マイクロフォン91から出力された音信号を音変換部100に提供する。以下、マイクロフォン91から出力される音信号を録音信号ASxといい、音提供部811が音変換部100に提供する音信号を入力音信号ASaという。入力音信号ASaは、録音信号ASxと同じであってもよいし、録音信号ASxに対して所定の信号処理を施すことによって得られた音信号であってもよい。
【0024】
音高指定部881は、音高設定装置98から出力された音高情報Pdを取得して、音高情報Pdに基づいて音高指定データFbを生成して音変換部100に提供する。音高指定データFbは、各時点での音高を示すデータである。音高指定データFbが示す音高は、音高情報Pdが示す音高であってもよいし、音高情報Pdが示す音高を所定の演算によって変換することによって得られる音高であってもよい。
【0025】
音取得部851は、音変換部100から出力された音信号を取得して、スピーカ95に提供する。以下、音変換部100から出力される音信号を変換音信号ASbといい、音取得部851から出力される音信号を出力音信号ASzという。
【0026】
音変換部100は、入力音信号ASaが示す音声を所定の歌唱者の声質に変換した変換音信号ASbを合成する。このとき、音変換部100は、音高指定データFbを取得することによって、変換音信号ASbの音高を、音高指定データFbによって示される音高に制御することができる。変換後の音声における声質は、上述したように、音変換部100に含まれる音合成モデル12bに対して、モデル変数12cおよび音源ID12dを適用することによって設定される。音変換部100は、特許文献1に開示されている音声合成器の機能に類似した構成を有している。したがって、以下の音変換部100の構成の説明において、一部の構成については詳細の説明については省略される。
【0027】
音変換部100は、音合成モデル12b、分析部110およびボコーダ180を含む。音合成モデル12bは、音響エンコーダ121および音響デコーダ125を含む。
【0028】
分析部110は、入力音信号ASaを分析して、各時点での音響特徴データAFを出力する。この例では、音響特徴データAFは、所定フレームを用いた周波数解析によって入力音信号ASaから得られる周波数スペクトルに対応する。分析部110は、公知の方法を用いて入力音信号ASaから得られる基本周波数を示す音高指定データFaを出力してもよい。音高指定データFaが示す基本周波数は、入力音信号ASaの音高に対応する。したがって、音高指定データFaは、音高指定データFbと同様に音高を示すデータである。分析部110が音高指定データFaを出力する構成を有する場合には、ユーザによって選択された音高指定データFbまたは音高指定データFaのいずれかが音響デコーダ125に対して提供されればよい。
【0029】
ユーザによって変換後の声質が指定されると、モデル変数12cにおける変数Ve、Vdと、音源ID12dにおけるベクトルXaとが特定される。変数Ve、VdとベクトルXaとは、変換後の声質を指定するものであるから、音質指定データの一例である。以下の説明では、変数Ve、VdとベクトルXaの少なくとも一つの意味として音質指定データという場合がある。特定された変数Ve、Vdが、音合成モデル12bの音響エンコーダ121、音響デコーダ125にそれぞれ設定される。特定されたベクトルXaが、音響デコーダ125の入力層に提供される。
【0030】
音響エンコーダ121は、入力層に提供された音響特徴データAFに基づいて、各時点の中間特徴データMFを生成して出力層に出力する。中間特徴データMFは、音素に相当する情報を含む。音響エンコーダ121は、周波数スペクトルと音素との相関関係を学習した機械学習モデルである。音響エンコーダ121には、学習の結果として得られた変数Veが設定される。変数Veは、後述する変数Vdとともにモデル変数12cに含まれる。
【0031】
音響デコーダ125は、入力層に提供された中間特徴データMFおよび音高指定データFbに基づいて、各時点の音響特徴データAFsを生成して出力層に出力する。音響特徴データAFsは、周波数スペクトルを生成することができる情報を含み、この例では、スペクトル包絡SEおよび音高指定データFbを含む。出力層にはスペクトル包絡SEが出力され、音高指定データFbは入力層に提供されたものがそのまま用いられてもよい。音響特徴データAFsは、スペクトル包絡SEおよび音高指定データFbに基づいて生成された周波数スペクトルであってもよい。音響デコーダ125は、ベクトルXaと音高と音素との組み合わせと、スペクトル包絡と、の相関関係を学習した機械学習モデルである。音響デコーダ125には、学習の結果として得られた変数Vdが設定される。音響デコーダ125では、設定される変数Vdが変更されなくても、入力層に提供されるベクトルXaが変更されることで、変換後の声質を変更することもできる。
【0032】
ボコーダ180は、音響特徴データAFsに基づいて、変換音信号ASbを生成する。変換音信号ASbは、音響特徴データAFsから得られる周波数スペクトルを時間領域の音信号に変換することによって生成される。変換音信号ASbが示す声質は、入力音信号ASaが示す声質を音変換部100に設定された声質に変換したものである。変換音信号ASbが示す音高は、音高指定データFbが示す音高である。音高指定データFbに代えて音合成モデル12bに音高指定データFaが提供された場合には、変換音信号ASbが示す音高は、入力音信号Asaが示す音高がそのまま維持される。
【0033】
続いて、音変換機能800において実行される音変換方法について説明する。ここで、説明する音変換方法は、プログラム12aが制御部11によって実行されると開始される。
【0034】
図3は、一実施形態における音変換方法を示すフローチャートである。音提供部811がマイクロフォン91から録音信号ASxを取得して入力音信号ASaを音変換部100に提供する(ステップS111)。音高指定部881が音高設定装置98から音高情報Pdを取得して音高指定データFbを音変換部100に提供する(ステップS111)。音変換部100への入力音信号ASaの提供と音高指定データFbの提供とは、並行して実行される。音変換部100は、入力音信号ASaと音高指定データFbとに基づいて、スペクトル包絡SEを生成する(ステップS150)。音変換部100は、スペクトル包絡SEと音高指定データFbとに基づいて変換音信号ASbを生成する(ステップS170)。音取得部851は、音変換部100から変換音信号ASbを取得する(ステップS190)。
【0035】
以上の処理によって、入力音信号ASaは、その声質が他の歌唱者の声質に変換された音声、かつ、音高指定データFbに応じた音高を有する音声を示す変換音信号ASbに変換される。変換音信号ASbが出力音信号ASzとしてスピーカ95に供給されることによって、マイクロフォン91に入力された音声が他の歌唱者の声質に変換されてスピーカ95から出力される。このとき、スピーカ95から出力される音声は、マイクロフォン91に入力された音声の音高とは関係なく、音高設定装置98によって設定された音高に制御される。
【0036】
[モデル訓練機能]
続いて、制御部11が記憶部12に記憶された所定のプログラムを実行することによって実現されるモデル訓練機能について説明する。以下に説明するモデル訓練機能のうち少なくとも一部の機能が音変換装置10とネットワークを介して接続された他の装置によって実現されてもよい。ネットワークを介して接続された複数の装置が協働することによってモデル訓練機能が実現されてもよい。モデル訓練機能は、所定の歌唱者の音声を合成できるように音合成モデル12bを訓練するための機能を含み、この例では、音合成モデル12bにおいて設定される変数Ve、Vdを更新することを含む。
【0037】
以下に説明する音合成モデル12bの訓練方法については、公知の方法を用いることができるが、例えば、特許文献1および特許文献2に開示された方法を用いることができる。音変換部100の構成、特に音合成モデル12bの構成が、これらの文献に開示されている機械学習モデルと同一でなくても、当業者であれば文献を参照することでモデル訓練機能の詳細の処理を理解できる。したがって、以下では、モデル訓練機能について簡単に説明する。
【0038】
図4は、一実施形態におけるモデル訓練機能の構成を示す図である。モデル訓練機能900は、音変換部100x、音提供部591、楽譜提供部593および訓練処理部910を含む。
【0039】
楽譜提供部593は、訓練に用いる歌唱曲に対応する楽譜データSDtを音変換部100xに提供する。楽譜データSDtは、歌唱曲のメロディを構成する音および歌詞に関する情報を含み、例えば、各音の音高、発音期間、強度に関する情報、各音に対応する音素に関する情報を含む。音提供部591は、訓練用の音信号AStを音変換部100xに提供する。音信号AStは、学習すべき声質の歌唱者による歌唱音声を含み、音合成モデル12bの訓練に用いられる。この歌唱音声は、楽譜データSDtに示される歌唱曲を歌唱することによって得られた音声である。楽譜データSDtおよび音信号AStは、例えば、記憶部12に記憶されていてもよい。
【0040】
音変換部100xは、分析部110、変換部130および音合成モデル12bを含む。分析部110は、音変換部100における分析部110と同様に、音信号AStを分析して、各時点での音響特徴データAFおよび音高指定データFaを出力する。変換部130は、楽譜データSDtを取得して、各時点での楽譜特徴データSFおよび音高指定データFsを出力する。楽譜特徴データSFは、楽譜データSDtから得られる各時点での音高、強度および音素などを示す情報を含む。音高指定データFsは、楽譜データSDtから得られる各時点での音高を示す情報を含む。
【0041】
音響エンコーダ121は、音変換部100における音響エンコーダ121と同様に、音響特徴データAFに基づいて、中間特徴データMF2を生成する。中間特徴データMF2は、中間特徴データMFと同様に、各時点における音素を示す情報を含む。
【0042】
楽譜エンコーダ123は、音響エンコーダ121と同様に公知の機械学習モデルによって、楽譜特徴データSFに基づいて、中間特徴データMF1を生成する。中間特徴データMF1は、中間特徴データMFと同様に、各時点における音素を示す情報を含む。楽譜エンコーダ123は、訓練によって、楽譜特徴データSFに含まれる情報と中間特徴データMF1に含まれる情報との相関関係を学習する機械学習モデルである。楽譜エンコーダ123には、学習の結果として得られた変数Vsが設定される。音合成モデル12bにおいて、特許文献1および特許文献2と同様に、楽譜データに基づいて音声を合成する機能をさらに有するようにしてもよく、その場合には、変数Vsが、変数Ve,Vdとともにモデル変数12cに含まれてもよい。
【0043】
音響デコーダ125は、ベクトルXa、中間特徴データMF2(MF1でもあってもよい)および音高指定データFa(Fsであってもよい)に基づいて、音響特徴データAFsを生成する。ベクトルXaは、学習すべき声質の歌唱者に対応する識別情報である。
【0044】
訓練処理部910は、中間特徴データMF1と中間特徴データMF2とが一致するように、かつ音響特徴データAFと音響特徴データAFsから得られる周波数スペクトルとが一致するように、変数Ve、Vs、Vdを決定する。このように変数Ve、Vs、Vdが決定および更新されることによって、音合成モデル12bが訓練される。
【0045】
上述したモデル訓練方法は、特許文献1に示される基本訓練に相当する例であるが、特許文献1に記載されている補助訓練に相当する方法を適用することもできる。また、特許文献2に示される補充処理に相当する方法を適用することもできる。補充処理によれば、モデル変数12cにおける変数Ve、Vs、Vdを変更せずに音源ID12dにおけるベクトルXaを変更することで、新規の歌唱者の声質への変換も対応することができる。この場合には、訓練処理部910は、変数Ve、Vs、Vdを決定するのではなく、音源IDにおけるベクトルXaを決定する処理を含んでもよい。
【0046】
このように、モデル訓練機能900は、楽譜データSDtと音信号AStとを用いて、音合成モデル12bを訓練することによって、音合成モデル12bに所定の歌唱者の声質を有する音声を合成するための訓練済モデルを生成することができる。
【0047】
第1実施形態における音変換装置10は、以上のように訓練された音合成モデル12bを含む音変換部100を用いることによって、マイクロフォン91を介して入力された歌唱音声を、他の歌唱者の声質に変換して出力するとともに、出力される音高を音高設定装置98によって設定された音高に制御することができる。このように音変換技術において音高を制御するという技術によれば、変換前の音高に制限を受けずに変換後の音高を制御できるといった新たな顧客体験価値を創造することができる。
【0048】
音変換装置10で用いる音信号は、この例では、歌唱者の音声を想定して説明したが、上述したように、楽器の音など歌唱者の声ではない音であってもよい。音変換装置10で用いる音信号が楽器の音を示す場合には、音質が変換されるのではなく、楽器の種類が変換されてもよい。変換前後の楽器の種類は、同種の楽器であってもよいし、異種の楽器であってもよい。同種の楽器管での音変換とは、例えば、ある管楽器の音から他の管楽器の音へ変換することであってもよい。具体的には、縦笛の音がトランペットの音に変換されることが例示される。異種の楽器での変換とは、例えば、管楽器の音から弦楽器の音へ変換することであってもよい。具体的には、サクスフォンの音がギターの音に変換されることが例示される。声質の変換および楽器の種類の変換については、音質の変換の一例ということができる。
【0049】
<第2実施形態>
第1実施形態では、音高設定装置98において、音高が関連付けられた複数の操作要素への操作によって、声質変換後の音声における音高を設定することができる。第2実施形態では、マイクロフォン91とは別のマイクロフォンによって入力された音声の音高に基づいて、声質変換後の音声における音高を設定する例について説明する。以下に説明する各実施形態において、第1実施形態と同様の構成については説明を省略する。
【0050】
図5は、一実施形態における音変換機能の構成を示す図である。第2実施形態では、音高を設定するために音変換装置10に音高設定装置98が接続されるのではなく、マイクロフォン98Aが接続される。マイクロフォン98Aは、入力された音を電気信号に変換して音信号として出力する。マイクロフォン98Aから出力された音信号(以下、録音信号ASyという)は、インターフェース19を介して制御部11に提供される。
【0051】
第2実施形態における音変換機能800Aは、第1実施形態における音変換機能800に加えて音高特定部882を含む。音高特定部882は、録音信号ASyにおける音高を特定し、その音高を示す音高情報Pdを音高指定部881に出力する。音高は、公知の方法を用いて録音信号ASyから得られる基本周波数に基づいて特定される。音高指定部881は、第1実施形態と同様に、音高情報Pdが示す音高に応じた音高指定データFbを生成して音変換部100に提供する。
【0052】
このように、音変換機能800Aは、変換対象の録音信号ASxとは異なる録音信号ASyに基づいて、変換音信号ASbの音高を制御することができる。この例では、録音信号ASyは、マイクロフォン98Aに入力された音声に基づいて生成される。したがって、2人の歌唱者がそれぞれ異なるマイクロフォン91、98Aを用いて音声を入力することによって、音変換機能800Aは、一方の歌唱者の音声について声質を変換し、声質が変換された音声の音高を他方の歌唱者の音声によって制御することができる。
【0053】
<第3実施形態>
第2実施形態では、マイクロフォン91とは別のマイクロフォン98Aに入力された音声を示す録音信号ASyに基づいて、変換音信号ASbの音高が制御することができる。第3実施形態では録音信号ASyが、マイクロフォン91に入力された複数人の歌唱者による音声から分離された一の歌唱者の音声を示す例について説明する。この例では、マイクロフォン91に対して2人の歌唱者による音声が入力される。
【0054】
図6は、一実施形態における音変換機能の構成を示す図である。第3実施形態では、マイクロフォン91から出力され、2人の歌唱者の音声を含む音信号(この実施形態において、録音信号ASwという)が、インターフェース19を介して制御部11に提供される。
【0055】
第3実施形態における音変換機能800Bは、第2実施形態における音変換機能800Aに加えて音分離部883を含む。音分離部883は、録音信号ASwを解析し、2人の歌唱者(この例では、歌唱者X、Yという)の音声を分離する。歌唱者X、Yの音声のそれぞれの特徴量が音分離部883に対して予め登録されている。このとき、歌唱者Xの音声は変換対象の音声として登録され、歌唱者Yの音声は音高制御に用いる音声として登録される。
【0056】
音分離部883は、録音信号ASwを解析して歌唱者Xに対応する特徴量を有する音声を抽出し、録音信号ASxとして音提供部811に出力する。音分離部883は、録音信号ASwを解析して歌唱者Yに対応する特徴量を有する音声を抽出し、録音信号ASyとして音高特定部882に出力する。
【0057】
このように、音変換機能800Bは、変換対象の録音信号ASxとは異なる録音信号ASyに基づいて、変換音信号ASbの音高を制御することができる。この例では、録音信号ASxと録音信号ASyとは、マイクロフォン91に入力された音声に基づいて生成される。音変換機能800Bは、予め、変換対象の音声の特徴量と音高制御用の音声の特徴量とが登録されることによって、マイクロフォン91に入力された音声に基づく録音信号ASwから録音信号ASxと録音信号ASyとを抽出することができる。したがって、2人の歌唱者がそれぞれ異なるマイクロフォンを用いるのではなく1つのマイクロフォン91を用いたとしても、音変換機能800Bは、一方の歌唱者の音声について声質を変換し、声質が変換された音声の音高を他方の歌唱者の音声によって制御することができる。
【0058】
<第4実施形態>
第4実施形態では、時系列に音高が特定されたデータに基づいて、声質変換後の音声における音高を設定する例について説明する。このデータは、この例では、曲の発音内容を規定する曲データである。
【0059】
図7は、一実施形態における音変換機能の構成を示す図である。第4実施形態では、音高を設定するために音変換装置10に音高設定装置98が用いられるのではなく、曲データ12eが用いられる。曲データ12eは、例えはMIDI形式のデータであって、時系列に音高が特定されることによって、曲の進行に伴う発音内容を規定するデータである。この例では、曲データ12eは、歌唱曲のメロディを構成する音(以下、メロディ音という)および伴奏を構成する音(以下、伴奏音という)に関する情報を含み、例えば、各音の音高、発音期間、強度に関する情報に関する情報を含む。メロディ音および伴奏音に関する情報は、発音タイミングに応じて時系列に並ぶ発音制御データMdによって規定される。曲データ12eは、記憶部12に記憶されていればよいが、インターフェース19を介して接続される装置から提供されてもよい。
【0060】
第4実施形態における音変換機能800Cは、第1実施形態における音変換機能800に加えてデータ読出部884および伴奏生成部885を含む。データ読出部884は、ユーザからの操作等によって曲データ12eの読み出し指示を制御部11において受け取ると、曲データ12eにおける発音制御データMdを順次読み出す。データ読出部884は、発音制御データMdに基づいて、メロディ音の音高を示す音高情報Pdとして音高指定部881に出力し、伴奏音に対応する発音制御データMbを伴奏生成部885に出力する。
【0061】
伴奏生成部885は、発音制御データMbに基づいて伴奏音を示す音信号を生成する。伴奏生成部885が生成した音信号は、スピーカ95などの放音装置に出力される。音高指定部881は、音高情報Pdを取得することによって、曲の進行に応じた各時点での音高を示す音高指定データFbを生成する。
【0062】
このように、音変換機能800Cは、曲の進行に応じて、変換音信号ASbの音高を制御することができる。したがって、伴奏音にあわせて歌唱された音声がマイクロフォン91に入力されると、音変換機能800Cは、声質変換後の音声の音高を曲の進行に応じた音高、すなわちメロディ音と同じ音高にすることができる。
【0063】
<第5実施形態>
第5実施形態では、カメラ等の撮像装置によって得られた画像データに基づいて、声質変換後の音声における音高を設定する例について説明する。この画像データは、この例では、人物を撮像することによって得られる。撮像される人物は、歌唱者であってもよいし、歌唱者とは別の人であってもよい。
【0064】
図8は、一実施形態における音変換機能の構成を示す図である。第5実施形態では、音高を設定するために音変換装置10に音高設定装置98が接続されるのではなく、カメラ98Dが接続される。カメラ98Dは、撮像によって得られるデータを、画像データGdとして出力する。画像データは、動画像のデータであってもよいし、所定時間毎に生成される静止画像のデータであってもよい。画像データGdは、インターフェース19を介して制御部11に提供される。
【0065】
第5実施形態における音変換機能800Dは、第1実施形態における音変換機能800に加えて、画像解析部886を含む。画像解析部886は、カメラ98Dから出力された画像データGdを解析し、画像データGdに含まれる人物の動きを検出する。画像解析部886は、検出した動きの種類に基づいて音高を特定し、その音高を示す音高情報Pdを音高指定部881に出力する。動きの種類と音高との関係は予めテーブル等で規定されていればよい。検出される情報は、ジェスチャなど動きを示す動的な情報に限らず、ハンドサインなど特定のタイミングにおける静的な情報であってもよい。音高指定部881は、第1実施形態と同様に、音高情報Pdが示す音高に応じた音高指定データFbを生成して音変換部100に提供する。
【0066】
このように、音変換機能800Dは、カメラ98Dによって撮像された人物の動きに基づいて、変換音信号ASbの音高を制御することができる。したがって、カメラ98Dに撮像される人物から得られる情報によって、声質変換後の音声の音高を制御することができる。
【0067】
<第6実施形態>
第6実施形態では、音高情報Pdの音高と変換後の声質との関係によって、音高情報Pdの音高を調整して音高指定データFbとする例について説明する。例えば、変換後の声質が女性であり、音高情報Pdの音高が男性の音域である場合には、音高情報Pdの音高を1オクターブ上げた音高を示す音高指定データFbが生成される。
【0068】
図9は、一実施形態における音変換機能の構成を示す図である。第6実施形態における音変換機能800Eは、第1実施形態における音変換機能800に加えて、音質指定部817および音高調整部887を含む。音質指定部817は、ユーザからの指示等に応じて、変換後の声質を示す音質指示Xqにより、この声質に対応する音質指定データを音合成モデル12bに提供する。音質指定データは、上述したように、変数Ve、Vd、および音源ID12dに含まれるベクトルXaを含む。
【0069】
音質指定部817は、さらに、音域設定Xsを音高調整部887に出力する。音域設定Xsは、変換後の声質に対応する歌唱者の音域を示す情報である。声質と音域との対応関係は予め登録されている。言い換えると、音域設定Xsは、声質によって特定される音質指定データに予め関連付けられている。
【0070】
音高調整部887は、音域設定Xsが示す音域(この実施形態において、設定音域という)と音高設定装置98から出力される音高情報Pdが示す音高(この実施形態において、入力音高という)との関係に基づいて、入力音高を調整して音高情報Pdaとして出力する。音高調整部887は、入力音高が設定音域に含まれる場合には、入力音高をそのまま音高情報Pdaとして出力する。一方、音高調整部887は、入力音高が設定音域に含まれない場合には、入力音高を1オクターブ単位で高くまたは低くすることによって設定音域に含まれるように調整し、調整後の音高を音高情報Pdaとして出力する。音高情報Pdaは、音高指定部881に提供される。
【0071】
例えば、設定音高が女性の歌唱者の音域に対応する場合であっても、男性の歌唱者の音域のように入力音高が設定音域に対して1オクターブ程度低くなることがある。このような場合には、音高指定データFbは、入力音高を1オクターブ高く調整した音高を示す。これによって、男性の歌唱者の音域に含まれる入力音高であっても、音響デコーダ125に入力される音高指定データFbおよび音響特徴データAFsに含まれる音高指定データFbを、女性の歌唱者の音域に含まれる音高にすることができるため、女性の歌唱者の声質に変換したときの変換の品質を向上させることができる。
【0072】
音高調整部887における音高の調整量は、音声の変換処理の間は入力音高に応じて変動されるようにしてもよいし、一部の期間において入力音高に応じて変動され、それ以外の期間は調整量が固定されてもよい。一部の期間は、例えば変換処理が開始されてから所定時間が経過するまでの期間など、変換処理が行われている期間に含まれてもよい。一部の期間は、変換処理が開始される前の期間であってもよい。すなわち、調整量を決めるために用いられる音信号は、変換対象の音信号の少なくとも一部に対応してもよいし、変換対象ではない音信号であってもよい。調整量が固定される場合には、調整量が変動できる期間の最後の調整量が適用されてもよいし、その期間において最も長い期間における調整量が適用されてもよい。音声の変換処理の間、継続的に音高が調整される場合には、調整量を変更した後の所定時間は、入力音高にかかわらず調整量を固定してもよい。
【0073】
<変形例>
本発明は上述した実施形態に限定されるものではなく、他の様々な変形例が含まれる。例えば、上述した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備える場合に限定されない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることがあり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。以下、一部の変形例について説明する。以下に説明する変形例は、特に断りのない限り、第1実施形態を変形した例として説明するが、他の実施形態を変形する例としても適用することができる。複数の変形例を組み合わせて各実施形態に適用することもできる。
【0074】
(1)音変換機能800のうち音変換部100は、音変換装置10において実現される代わりに外部装置において実現されてもよい。外部装置は、例えば、音変換装置10にネットワークを介して接続された装置であってもよいし、インターフェース19を介して接続された装置であってもよい。この場合には、音変換機能800は、音提供部811、音高指定部881および音取得部851を含んでいればよい。
【0075】
(2)マイクロフォン91、スピーカ95および音高設定装置98のうち少なくとも一つは、音変換装置10に接続される代わりに外部装置に接続されてもよい。外部装置は、例えば、音変換装置10にネットワークを介して接続された装置であってもよい。マイクロフォン91、スピーカ95および音高設定装置98は、それぞれ異なる外部装置に接続されてもよい。
【0076】
スピーカ95が外部装置に接続されている場合には、音変換装置10に他のスピーカを接続することによって、マイクロフォン91から出力される録音信号ASxをそのスピーカから出力することで、モニタ音として聴取されるようにしてもよい。このようなモニタ音を出力することで、変換音信号ASbを生成するために遅延が生じる場合であっても、遅延がほとんど生じない録音信号ASxを歌唱者に聴取させることができるため、歌唱者に対して歌唱時の違和感が生じないようにすることができる。
【0077】
マイクロフォン91とスピーカ95とがネットワークを介して互いに異なる装置に接続されている場合、変換後の声質または音高を指定するための装置は、マイクロフォン91が接続された装置またはスピーカ95が接続された装置のいずれかであってもよい。すなわち、声質または音高を指定することができるのは、歌唱者に限らず聴取者であってもよい。
【0078】
(3)ユーザによって変換後の声質が指定されることによって、音変換部100に対して声質に応じた音質指定データが設定されるときに、変換音信号ASbに対して声質に応じた音響効果が付与されてもよい。この場合には、声質を指定するためのデータ、すなわち音質指定データに対して、付与される音響効果を指定する情報が関連付けられていればよい。音取得部958は、音変換部100に対して音質指定データが設定されると、その音質指定データに関連付けられた音響効果を変換音信号ASbに対して付与して、出力音信号ASzとして出力する。
【0079】
音質指定データに関連付けられる情報(関連情報)は、音響効果を指定する情報とは異なる情報であってもよい。関連情報は、例えば、音質指定データに応じた声質に関連する情報であるとよい。関連情報は、入力音信号Asaから変換音信号ASbを生成するための処理(音変換部100において実行される処理)とは異なる処理(関連処理)を制御部11が実行するために用いられてもよい。以下に、関連情報および関連処理について、複数の例を示す。
【0080】
音質指定データに応じた声質が所定の著名人(例えば、声優、アナウンサ、芸能人、仮想キャラクタなど)の声質を示す場合、関連情報は、その著名人に関連する情報を含んでいてもよい。著名人に関連する情報は、例えば、著名人の画像、著名人の説明、および著名人の関連商品を販売するウェブサイトのURLなどでもよい。このような関連情報は、例えば、表示部13に表示されることによってユーザに提供されてもよい。
【0081】
関連情報は、その著名人に使用料金を支払うための情報(固定料金、単位時間あたりの料金などの使用料金情報、支払先情報など)でもよいし、所定金額の支払いによりまたは無料で使用可能な時間でもよい。この場合には、関連情報に基づいて、金銭の授受が行われてもよい。
【0082】
音質指定データに応じた声質が、プライバシ保護などを想定して、できるだけ一般化した声質であってもよい。一般化した声質とは、例えば、複数の人の声を平均化した声質でもよい。このような声質への変換は、コールセンタのオペレータの音声を変換するときに用いられるとよい。このような場合を想定すると、関連情報は、オペレータの会話をサポートするための情報、例えば、会話に用いる文章のリスト、確認事項のリストなどを含んでもよい。このような関連情報は、例えば、表示部13に表示されることによってユーザに提供されてもよい。
【0083】
(4)音高指定部881は、音高情報Pdが示す音高を予め決められた複数の音高のいずれかに調整し、調整した音高を示す音高指定データFbを出力してもよい。予め決められた複数の音高とは、例えば、音名で表せる半音単位で決められた音高である。例えば、音高情報Pdが「B3」と「C4」との間に対応する音高を示す場合には、音高指定データFbが示す音高は、音高情報Pdが示す音高に対して「B3」と「C4」とのいずれか近い方を示すように調整される。
【0084】
(5)第4実施形態に示される曲データに対して音質指定データが関連付けられていてもよい。音質指定データは、曲データにおける最初のメロディ音のタイミングより前に音変換部100に設定されればよい。曲の進行に応じて音質指定データが変更されるようにしてもよい。
【0085】
(6)上述したように、第1実施形態においてユーザが変換後の声質を指定することができてもよい。音変換機能800において声質を指定する機能については、詳細の説明が省略されている。声質を指定する機能を実現するための一例として、音変換機能800が、第5実施形態における音質指定部817のうち少なくとも一部の機能を有していればよい。少なくとも一部の機能は、音質指示Xqにより音質指定データを音合成モデル12bに提供する機能である。
【0086】
ユーザが指定した声質が、歌唱以外の音声(以下、口述音声という場合がある)に変換することを想定した声質の場合には、音響デコーダ125には、音高指定データFbではなく音高指定データFaが提供されるようにしてもよい。この場合には、音高指定データFaが音響デコーダ125に提供されるように、音質指定部817が音変換部100を設定すればよい。ユーザが指定可能な声質が、口述音声に変換することを想定した声質のみである場合には、音変換機能800は、音高指定データFbに関連する機能を有していなくてもよい。
【0087】
(7)変換音信号ASbまたは出力音信号ASzは、音データとして記憶部12などの記憶装置に記憶されてもよい。この際に、音データは、NFT(Non-Fungible Token)に関連付けられてもよい。この場合には、NFTは、例えば、音データを識別する情報、NFTの所有者および所有者の履歴などの情報を含み、ブロックチェーンネットワークにおいて記録される。これによって、音データを生成したユーザの出所、変換に用いたデータ(例えば、音質指定データ)が明らかにして音データの真贋を判断したり、音データの使用時間に制限をかけたりすることもできる。
【符号の説明】
【0088】
10:音変換装置、11:制御部、12:記憶部、12a:プログラム、12b:音合成モデル、12c:モデル変数、12d:歌唱者データ、12e:曲データ、13:表示部、14:操作部、18:通信部、19:インターフェース、91:マイクロフォン、95:スピーカ、98:音高設定装置、98A:マイクロフォン、98D:カメラ、100,100x:音変換部、110:分析部、121:音響エンコーダ、123:楽譜エンコーダ、125:音響デコーダ、130:変換部、180:ボコーダ、591:音提供部、593:楽譜提供部、800,800A,800B,800C,800D,800E:音変換機能、811:音提供部、817:音質指定部、851:音取得部、881:音高指定部、882:音高特定部、883:音分離部、884:データ読出部、885:伴奏生成部、886:画像解析部、887:音高調整部、900:モデル訓練機能、910:訓練処理部