(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-12
(45)【発行日】2022-12-20
(54)【発明の名称】情報処理方法、情報処理システムおよびプログラム
(51)【国際特許分類】
G10L 13/033 20130101AFI20221213BHJP
G10L 13/00 20060101ALI20221213BHJP
G10L 13/047 20130101ALI20221213BHJP
【FI】
G10L13/033 102B
G10L13/00 100Y
G10L13/047 Z
(21)【出願番号】P 2020133036
(22)【出願日】2020-08-05
(62)【分割の表示】P 2018209288の分割
【原出願日】2018-11-06
【審査請求日】2021-09-21
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】大道 竜之介
(72)【発明者】
【氏名】メルレイン ブラアウ
(72)【発明者】
【氏名】ジョルディ ボナダ
【審査官】大野 弘
(56)【参考文献】
【文献】特開2017-032839(JP,A)
【文献】特表2021-511534(JP,A)
【文献】リン イクカン、,DNN音声合成のための話者情報の表現方法の検討 A Study on Representation of Speaker Information for DNN Speech Synthesis,電子情報通信学会技術研究報告 Vol.118 No.198,第118巻 第198号,一般社団法人電子情報通信学会,2018年08月20日,PP15~18
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/033
G10L 13/00
G10L 13/047
(57)【特許請求の範囲】
【請求項1】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理方法。
【請求項2】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。
【請求項3】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理方法。
【請求項4】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する、
コンピュータにより実現される情報処理方法であって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理方法。
【請求項5】
さらに、
新規発音源を表す新規発音源データと前記新規発音源に対応する発音スタイルを表すスタイルデータと前記新規発音源による発音の発音条件を表す新規合成データと、を前記合成モデルに入力することで、前記新規発音源の発音スタイルおよび前記新規発音源による発音の発音条件のもとで前記新規発音源が発音する音響の音響的な特徴を表す新規特徴データを生成し、
前記新規合成データが表す発音条件のもとで前記新規発音源が発音した音響に関する既知特徴データと、前記新規特徴データとの差異が減少するように、前記新規発音源データおよび前記合成モデルを更新する
請求項1から請求項
4の何れかの情報処理方法。
【請求項6】
前記合成モデルに入力される前記発音源データは、相異なる発音源に対応する複数の発音源データのうち利用者が選択した発音源データである
請求項1から請求項
5の何れかの情報処理方法。
【請求項7】
前記合成モデルに入力されるスタイルデータは、相異なる発音スタイルに対応する複数のスタイルデータのうち利用者が選択したスタイルデータである
請求項1から請求項
6の何れかの情報処理方法。
【請求項8】
前記発音条件は、前記合成音の音韻を含む
請求項1から請求項7の何れかの情報処理方法。
【請求項9】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理システム。
【請求項10】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理システム。
【請求項11】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
情報処理システム。
【請求項12】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備し、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
情報処理システム。
【請求項13】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
プログラム。
【請求項14】
発音源を表す発音源データと
歌唱の仕方に関する特徴である発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
プログラム。
【請求項15】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記発音源データは、相異なる複数の発音源により発音される音響の特徴に関する前記複数の発音源の間の関係を表す第1空間におけるベクトルを表す
プログラム。
【請求項16】
発音源を表す発音源データと発音スタイルを表すスタイルデータと
音符毎の音高を含む発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音すべき合成音の音響的な特徴を表す特徴データを生成する合成処理部
としてコンピュータを機能させるプログラムであって、
前記スタイルデータは、相異なる複数の発音スタイルにより発音される音響の特徴に関する前記複数の発音スタイルの間の関係を表す第2空間におけるベクトルを表す
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声等の音響を合成する技術に関する。
【背景技術】
【0002】
任意の音韻の音声を合成する音声合成技術が従来から提案されている。例えば特許文献1には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで合成音を生成する素片接続型の音声合成技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年の音声合成技術には、多様な発声者が多様な発音スタイルで発音した合成音を合成することが要求される。しかし、素片接続型の音声合成技術で以上の要求に対応するには、発声者と発音スタイルとの組合せ毎に複数の音声素片の集合を個別に用意する必要がある。したがって、音声素片の用意に過大な労力が必要であるという問題がある。以上の事情を考慮して、本発明は、音声素片を必要とすることなく発音源(例えば発声者)と発音スタイルとの組合せを相違させた多様な合成音を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する。
【0006】
本発明の好適な態様に係る情報処理装置は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する合成処理部を具備する。
【図面の簡単な説明】
【0007】
【
図1】本発明の実施形態に係る情報処理装置の構成を例示するブロック図である。
【
図2】情報処理装置の機能的な構成を例示するブロック図である。
【
図3】合成処理の具体的な手順を例示するフローチャートである。
【
図5】学習処理の具体的な手順を例示するフローチャートである。
【
図7】補充処理の具体的な手順を例示するフローチャートである。
【
図8】第2実施形態における合成モデルの構成を例示するブロック図である。
【
図9】第3実施形態における合成モデルの構成を例示するブロック図である。
【発明を実施するための形態】
【0008】
<第1実施形態>
図1は、本発明の第1実施形態に係る情報処理装置100の構成を例示するブロック図である。情報処理装置100は、特定の歌唱者が特定の歌唱スタイルで楽曲を仮想的に歌唱した音声(以下「合成音」という)を生成する音声合成装置である。歌唱スタイル(発音スタイルの例示)は、例えば歌唱の仕方に関する特徴を意味する。例えばラップ,R&B(rhythm and blues)またはパンク等の各種の音楽ジャンルの楽曲に好適な歌い廻しが歌唱スタイルの好適例である。
【0009】
図1に例示される通り、第1実施形態の情報処理装置100は、制御装置11と記憶装置12と入力装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理装置100として好適に利用される。
【0010】
制御装置11は、例えばCPU(Central Processing Unit)等の単数または複数の処理回路で構成され、情報処理装置100の各要素を統括的に制御する。入力装置13は、利用者による操作を受付ける。例えば利用者が操作する操作子、または利用者による接触を検知するタッチパネルが、入力装置13として好適に利用される。また、音声入力が可能な収音装置を入力装置13として利用してもよい。放音装置14は、制御装置11からの指示に応じた音響を再生する。例えばスピーカまたはヘッドホンが放音装置14の典型例である。
【0011】
記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された単数または複数のメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、情報処理装置100に対して着脱可能な可搬型の記録媒体、または情報処理装置100が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。第1実施形態の記憶装置12は、複数(Na個)の歌唱者データXaと複数(Nb個)のスタイルデータXbと合成データXcとを記憶する(NaおよびNbの各々は2以上の自然数)。なお、歌唱者データXaの個数NaとスタイルデータXbの個数Nbとの異同は不問である。
【0012】
第1実施形態の記憶装置12は、相異なる歌唱者に対応するNa個の歌唱者データXa(発音源データの例示)を記憶する。各歌唱者の歌唱者データXaは、当該歌唱者が発音する歌唱音の音響的な特徴(例えば声質)を表すデータである。第1実施形態の歌唱者データXaは、多次元の第1空間における埋込ベクトル(embedding vector)である。第1空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱者の位置が決定される連続空間である。歌唱者間で歌唱音の音響的な特徴が類似するほど、第1空間内における当該歌唱者間のベクトルの距離は小さい数値となる。以上の説明から理解される通り、第1空間は、歌唱音の特徴に関する歌唱者間の関係を表す空間と表現される。利用者は、入力装置13を適宜に操作することで、記憶装置12に記憶されたNa個の歌唱者データXaの何れか(すなわち所望の歌唱者)を選択する。なお、歌唱者データXaの生成については後述する。
【0013】
第1実施形態の記憶装置12は、相異なる歌唱スタイルに対応するNb個のスタイルデータXbを記憶する。各歌唱スタイルのスタイルデータXbは、当該歌唱スタイルで発音される歌唱音の音響的な特徴を表すデータである。第1実施形態のスタイルデータXbは、多次元の第2空間における埋込ベクトルである。第2空間は、歌唱音の音響的な特徴に応じて空間内における各歌唱スタイルの位置が決定される連続空間である。歌唱スタイル間で歌唱音の音響的な特徴が類似するほど、第2空間内における当該歌唱スタイル間のベクトルの距離は小さい数値となる。すなわち、以上の説明から理解される通り、第2空間は、歌唱音の特徴に関する歌唱スタイル間の関係を表す空間と表現される。利用者は、入力装置13を適宜に操作することで、記憶装置12に記憶されたNb個のスタイルデータXbの何れか(すなわち所望の歌唱スタイル)を選択する。スタイルデータXbの生成については後述する。
【0014】
合成データXcは、合成音の歌唱条件を指定する。第1実施形態の合成データXcは、楽曲を構成する複数の音符の各々について音高と音韻(発音文字)と発音期間とを指定する時系列データである。音符毎の音量等の制御パラメータの数値を合成データXcが指定してもよい。例えばMIDI(Musical Instrument Digital Interface)規格に準拠した形式のファイル(SMF:Standard MIDI File)が合成データXcとして好適である。
【0015】
図2は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される機能を例示するブロック図である。
図2に例示される通り、第1実施形態の制御装置11は、合成処理部21と信号生成部22と学習処理部23とを実現する。なお、相互に別体で構成された複数の装置により制御装置11の機能を実現してもよい。制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
【0016】
<合成処理部21および信号生成部22>
合成処理部21は、合成音の音響的な特徴を表す特徴データQの時系列を生成する。第1実施形態の特徴データQは、例えば合成音の基本周波数(ピッチ)Qaとスペクトル包絡Qbとを含む。スペクトル包絡Qbは、合成音の周波数スペクトルの概形である。特徴データQは、所定長(例えば5ミリ秒)の単位期間毎に順次に生成される。すなわち、第1実施形態の合成処理部21は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを生成する。
【0017】
信号生成部22は、特徴データQの時系列から音響信号Vを生成する。特徴データQの時系列を利用した音響信号Vの生成には、例えば公知のボコーダ技術が利用される。具体的には、信号生成部22は、基本周波数Qaに対応する周波数スペクトルにおける周波数毎の強度をスペクトル包絡Qbに応じて調整し、調整後の周波数スペクトルを時間領域に変換することで音響信号Vを生成する。信号生成部22が生成した音響信号Vが放音装置14に供給されることで、合成音が音波として放音装置14から放射される。なお、音響信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
【0018】
図2に例示される通り、第1実施形態では、合成処理部21による特徴データQの生成に合成モデルMが利用される。合成処理部21は、入力データZを合成モデルMに入力する。入力データZは、Na個の歌唱者データXaのうち利用者が選択した歌唱者データXaと、Nb個のスタイルデータXbのうち利用者が選択したスタイルデータXbと、記憶装置12に記憶された合成データXcとを含む。
【0019】
合成モデルMは、入力データZと特徴データQとの関係を学習した統計的予測モデルである。第1実施形態の合成モデルMは、深層ニューラルネットワーク(DNN:Deep Neural Network)で構成される。具体的には、合成モデルMは、入力データZから特徴データQを生成する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。合成モデルMを規定する複数の係数は、複数の学習データを利用した機械学習(特に深層学習)により設定されて記憶装置12に保持される。合成モデルMの機械学習については後述する。
【0020】
図3は、第1実施形態の制御装置11が音響信号Vを生成する処理(以下「合成処理」という)の具体的な手順を例示するフローチャートである。例えば入力装置13に対する利用者からの指示を契機として
図3の合成処理が開始される。
【0021】
合成処理を開始すると、合成処理部21は、歌唱者データXaおよびスタイルデータXbの選択を利用者から受付ける(Sa1)。相異なる楽曲に対応する複数の合成データXcが記憶装置12に記憶されている場合、合成処理部21は、合成データXcの選択を利用者から受付けてもよい。合成処理部21は、利用者が選択した歌唱者データXaおよびスタイルデータXbと記憶装置12に記憶された合成データXcとを含む入力データZを合成モデルMに入力することで特徴データQの時系列を生成する(Sa2)。信号生成部22は、合成処理部21が生成した特徴データQの時系列から音響信号Vを生成する(Sa3)。
【0022】
以上に説明した通り、第1実施形態では、歌唱者データXaとスタイルデータXbと合成データXcとを合成モデルMに入力することで特徴データQが生成される。したがって、音声素片を必要とせずに合成音を生成できる。また、歌唱者データXaと合成データXcとに加えてスタイルデータXbが合成モデルMに入力される。したがって、歌唱者データXaと合成データXcとに応じた特徴データQを生成する構成と比較して、歌唱者データXaを歌唱スタイル毎に用意することなく、歌唱者と歌唱スタイルとの組合せに対応した多様な音声の特徴データQを生成できるという利点がある。例えば、歌唱者データXaとともに選択するスタイルデータXbを変更することで、特定の歌唱者が相異なる複数種の歌唱スタイルで発音した合成音の特徴データQを生成できる。また、スタイルデータXbとともに選択する歌唱者データXaを変更することで、複数の歌唱者の各々が共通の歌唱スタイルで発音した合成音の特徴データQを生成できる。
【0023】
<学習処理部23>
図2の学習処理部23は、機械学習により合成モデルMを生成する。学習処理部23による機械学習後の合成モデルMが、
図3における特徴データQの生成(以下「推定処理」という)Sa2に利用される。
図4は、学習処理部23による機械学習を説明するためのブロック図である。
図4に例示される通り、合成モデルMの機械学習には複数の学習データLが利用される。複数の学習データLは記憶装置12に記憶される。また、機械学習の終了判定に利用される評価用の学習データ(以下「評価用データ」という)Lも記憶装置12に記憶される。
【0024】
複数の学習データLの各々は、識別情報Faと識別情報Fbと合成データXcと音響信号Vとを含む。識別情報Faは、特定の歌唱者を識別するための数値列である。例えば、相異なる歌唱者に対応する複数の要素のうち特定の歌唱者に対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱者の識別情報Faとして好適に利用される。また、識別情報Fbは、特定の歌唱スタイルを識別するための数値列である。例えば、相異なる歌唱スタイルに対応する複数の要素のうち特定の歌唱スタイルに対応する要素が数値1に設定され、残余の要素が数値0に設定されたone-hot表現の数値列が、当該特定の歌唱スタイルの識別情報Fbとして好適に利用される。なお、識別情報Faまたは識別情報Fbについては、one-hot表現における数値1と数値0とを置換したone-cold表現を採用してもよい。識別情報Faと識別情報Fbと合成データXcとの組合せは学習データL毎に相違する。ただし、識別情報Faと識別情報Fbと合成データXcとの一部は、2個以上の学習データLについて共通してもよい。
【0025】
任意の1個の学習データLに含まれる音響信号Vは、識別情報Faが表す歌唱者が、識別情報fbが表す歌唱スタイルで、合成データXcが表す楽曲を歌唱した場合における歌唱音の波形を表す信号である。例えば歌唱者が実際に発音した歌唱音を収録することで音響信号Vが事前に用意される。
【0026】
図4に例示される通り、第1実施形態の学習処理部23は、機械学習の本来の目的である合成モデルMとともに符号化モデルEaおよび符号化モデルEbを一括的に訓練する。符号化モデルEaは、歌唱者の識別情報Faを当該歌唱者の歌唱者データXaに変換するエンコーダである。符号化モデルEbは、歌唱スタイルの識別情報Fbを当該歌唱スタイルのスタイルデータXbに変換するエンコーダである。符号化モデルEaおよび符号化モデルEbは、例えば深層ニューラルネットワークで構成される。符号化モデルEaが生成する歌唱者データXaと符号化モデルEbが生成するスタイルデータXbと学習データLの合成データXcとが合成モデルMに供給される。前述の通り、合成モデルMは、歌唱者データXaとスタイルデータXbと合成データXcとに応じた特徴データQの時系列を出力する。
【0027】
図4に例示される特徴解析部24は、各学習データLの音響信号Vから特徴データQを生成する。特徴データQは、例えば基本周波数Qaとスペクトル包絡Qbとを含む。特徴データQの生成は、所定長(例えば5ミリ秒)の単位期間毎に反復される。すなわち、特徴解析部24は、基本周波数Qaの時系列とスペクトル包絡Qbの時系列とを音響信号Vから生成する。特徴データQは、合成モデルMの出力に関する既知の正解値に相当する。
【0028】
学習処理部23は、合成モデルMと符号化モデルEaと符号化モデルEbとの各々について複数の係数を反復的に更新する。
図5は、学習処理部23が実行する処理(以下「学習処理」という)の具体的な手順を例示するフローチャートである。例えば入力装置13に対する利用者からの指示を契機として学習処理が開始される。
【0029】
学習処理を開始すると、学習処理部23は、記憶装置12に記憶された複数の学習データLの何れかを選択する(Sb1)。学習処理部23は、記憶装置12から選択した学習データLの識別情報Faを暫定的な符号化モデルEaに入力するとともに当該学習データLの識別情報Fbを暫定的な符号化モデルEbに入力する(Sb2)。符号化モデルEaは、識別情報Faに対応する歌唱者データXaを生成する。符号化モデルEbは、識別情報Fbに対応するスタイルデータXbを生成する。
【0030】
学習処理部23は、符号化モデルEaが生成した歌唱者データXaおよび符号化モデルEbが生成したスタイルデータXbと、学習データLの合成データXcとを含む入力データZを、暫定的な合成モデルMに入力する(Sb3)。合成モデルMは、入力データZに応じた特徴データQを生成する。
【0031】
学習処理部23は、合成モデルMが生成した特徴データQと、学習データLの音響信号Vから特徴解析部24が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sb4)。例えばベクトル間距離または交差エントロピー等の指標が評価関数として好適に利用される。学習処理部23は、評価関数が所定値(典型的にはゼロ)に近付くように、合成モデルMと符号化モデルEaと符号化モデルEbとの各々の複数の係数を更新する(Sb5)。評価関数に応じた複数の係数の更新には、例えば誤差逆伝播法が好適に利用される。
【0032】
学習処理部23は、以上に説明した更新処理(Sb2~Sb5)を所定の回数にわたり反復したか否かを判定する(Sb61)。更新処理の反復の回数が所定値を下回る場合(Sb61:NO)、学習処理部23は、記憶装置12から次の学習データLを選択(Sb1)したうえで、当該学習データLについて更新処理(Sb2~Sb5)を実行する。すなわち、複数の学習データLの各々について更新処理が反復される。
【0033】
更新処理(Sb2~Sb5)の回数が所定値に到達した場合(Sb61:YES)、学習処理部23は、更新処理後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sb62)。特徴データQの品質の評価には、記憶装置12に記憶された前述の評価用データLが利用される。具体的には、学習処理部23は、合成モデルMが評価用データLから生成した特徴データQと評価用データLの音響信号Vから特徴解析部24が生成した特徴データQ(正解値)との誤差を算定する。学習処理部23は、特徴データQ間の誤差が所定の閾値を下回るか否かに応じて、特徴データQが所定の品質に到達したか否かを判定する。
【0034】
特徴データQが所定の品質に到達していない場合(Sb62:NO)、学習処理部23は、所定の回数にわたる更新処理(Sb2~Sb5)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる更新処理の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sb62:YES)、学習処理部23は、当該時点における合成モデルMを最終的な合成モデルMとして確定する(Sb7)。すなわち、最新の更新後の複数の係数が記憶装置12に記憶される。以上の手順で確定された学習済の合成モデルMが、前述の推定処理Sa2に利用される。
【0035】
以上の説明から理解される通り、学習済の合成モデルMは、各学習データLに対応する入力データZと当該学習データLの音響信号Vに対応する特徴データQとの間に潜在する傾向のもとで、未知の入力データZに対して統計的に妥当な特徴データQを生成することが可能である。すなわち、合成モデルMは、入力データZと特徴データQとの関係を学習する。
【0036】
また、符号化モデルEaは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報Faと歌唱者データXaとの関係を学習する。学習処理部23は、学習済の符号化モデルEaにNa個の識別情報Faの各々を順次に入力することでNa個の歌唱者データXaを生成する(Sb8)。以上の手順で符号化モデルEaが生成したNa個の歌唱者データXaが、推定処理Sa2のために記憶装置12に記憶される。Na個の歌唱者データXaが記憶された段階では、学習済の符号化モデルEaは不要である。
【0037】
同様に、符号化モデルEbは、合成モデルMが統計的に妥当な特徴データQを入力データZから生成できるように識別情報FbとスタイルデータXbとの関係を学習する。学習処理部23は、学習済の符号化モデルEbにNb個の識別情報Fbの各々を順次に入力することでNb個のスタイルデータXbを生成する(Sb9)。以上の手順で符号化モデルEbが生成したNb個のスタイルデータXbが、推定処理Sa2のために記憶装置12に記憶される。Nb個のスタイルデータXbが記憶された段階では、学習済の符号化モデルEbは不要である。
【0038】
<新規な歌唱者の歌唱者データXaの生成>
学習済の符号化モデルEaを利用してNa個の歌唱者データXaが生成されると、当該符号化モデルEaは不要である。したがって、符号化モデルEaはNa個の歌唱者データXaの生成後に破棄される。しかし、歌唱者データXaが生成されていない新規な歌唱者(以下「新規歌唱者」という)について歌唱者データXaを生成する必要が事後的に発生し得る。第1実施形態の学習処理部23は、新規歌唱者に対応する複数の学習データLnewと学習済の合成モデルMとを利用して、新規歌唱者の歌唱者データXaを生成する。
【0039】
図6は、学習処理部23が新規歌唱者の歌唱者データXaを生成する処理(以下「補充処理」という)の説明図である。
図6に例示される通り、複数の学習データLnewの各々は、新規歌唱者が特定の歌唱スタイルで楽曲を歌唱したときの歌唱音を表す音響信号Vと、当該楽曲の合成データXcとを含む。学習データLnewの音響信号Vは、新規歌唱者が実際に発音した歌唱音を収録することで事前に用意される。特徴解析部24は、各学習データLnewの音響信号Vから特徴データQの時系列を生成する。また、学習対象の変数として歌唱者データXaが合成モデルMに供給される。
【0040】
図7は、補充処理の具体的な手順を例示するフローチャートである。補充処理を開始すると、学習処理部23は、記憶装置12に記憶された複数の学習データLnewの何れかを選択する(Sc1)。学習処理部23は、初期値に設定された歌唱者データXaと、新規歌唱者の歌唱スタイルに対応する既存のスタイルデータXbと、記憶装置12から選択した学習データLnewの合成データXcとを学習済の合成モデルMに入力する(Sc2)。歌唱者データXaの初期値は、例えば乱数に設定される。合成モデルMは、
歌唱者データXaとスタイルデータXbと合成データXcとに応じた特徴データQを生成する。
【0041】
学習処理部23は、合成モデルMが生成した特徴データQと、学習データLnewの音響信号Vから特徴解析部24が生成した特徴データQ(すなわち正解値)との誤差を表す評価関数を算定する(Sc3)。学習処理部23は、評価関数が所定値(典型的にはゼロ)に近付くように、歌唱者データXaと合成モデルMの複数の係数とを更新する(Sc4)。なお、合成モデルMの複数の係数を固定したまま、評価関数が所定値に近付くように歌唱者データXaを更新してもよい。
【0042】
学習処理部23は、以上に説明した追加更新(Sc2~Sc4)を所定の回数にわたり反復したか否かを判定する(Sc51)。追加更新の回数が所定値を下回る場合(Sc51:NO)、学習処理部23は、記憶装置12から次の学習データLnewを選択したうえで(Sc1)、当該学習データLnewについて追加更新(Sc2~Sc4)を実行する。すなわち、複数の学習データLnewの各々について追加更新が反復される。
【0043】
追加更新(Sc2~Sc4)の回数が所定値に到達した場合(Sc51:YES)、学習処理部23は、追加更新後の合成モデルMにより生成される特徴データQが所定の品質に到達したか否かを判定する(Sc52)。特徴データQの品質の評価には、前述の例示と同様に評価用データLが利用される。特徴データQが所定の品質に到達していない場合(Sc52:NO)、学習処理部23は、所定の回数にわたる追加更新(Sc2~Sc4)の反復を開始する。以上の説明から理解される通り、所定の回数にわたる追加更新の反復毎に特徴データQの品質が評価される。特徴データQが所定の品質に到達した場合(Sc52:YES)、学習処理部23は、学習処理部23は、最新の更新後の複数の係数と歌唱者データXaとを確定値として記憶装置12に格納する(Sc6)。新規歌唱者の歌唱者データXaは、新規歌唱者が発生した歌唱音を合成するための合成処理に適用される。
【0044】
なお、補充処理前の合成モデルMは、多様な歌唱者の学習データLを利用して学習済であるから、新規歌唱者について充分な個数の学習データLnewを用意できない場合でも、新規歌唱者の多様な合成音を生成することが可能である。例えば、新規歌唱者について学習データLnewが存在しない音韻や音高についても、学習済の合成モデルMを利用することで、高品質な合成音を頑健に生成することが可能である。すなわち、新規歌唱者について充分な学習データLnew(例えば全種類の音素の発音を含む学習データ)を必要とせずに当該新規歌唱者の合成音を生成できるという利点がある。
【0045】
また、1人の歌唱者の学習データLのみを利用して訓練された合成モデルMについて、他の新規歌唱者の学習データLnewを利用して再学習を実行すると、合成モデルMの複数の係数が大幅に変化する場合がある。第1実施形態の合成モデルMは、多数の歌唱者の学習データLを利用して学習済である。したがって、新規歌唱者の学習データLnewを利用した再学習を実行しても、合成モデルMの複数の係数は大幅には変化しない。
【0046】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0047】
図8は、第2実施形態における合成モデルMの構成を例示するブロック図である。
図8に例示される通り、第2実施形態の合成モデルMは、第1学習済モデルM1と第2学習済モデルM2とを含む。第1学習済モデルM1は、例えば長短期記憶(LSTM:Long Short Term Memory)等の再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)で構成される。第2学習済モデルM2は、例えば畳込ニューラルネットワーク(CNN:Convolutional Neural Network)で構成される。第1学習済モデルM1および第2学習済モデルM2は、複数の学習データLを利用した機械学習により複数の係数が更新された学習済モデルである。
【0048】
第1学習済モデルM1は、歌唱者データXaとスタイルデータXbと合成データXcとを含む入力データZに応じて中間データYを生成する。中間データYは、楽曲の歌唱に関する複数の要素の各々の時系列を表すデータである。具体的には、中間データYは、音高(例えば音名)の時系列と歌唱中の音量の時系列と音素の時系列とを表す。すなわち、歌唱者データXaが表す歌唱者が、スタイルデータXbが表す歌唱スタイルにより合成データXcの楽曲を歌唱したときの、音高と音量と音素との時間的な変化が、中間データYにより表現される。
【0049】
第2実施形態の第1学習済モデルM1は、第1生成モデルG1と第2生成モデルG2とを具備する。第1生成モデルG1は、歌唱者データXaとスタイルデータXbとから表情データD1を生成する。表情データD1は、歌唱音の音楽的な表情の特徴を表すデータである。以上の説明から理解される通り、表情データD1は、歌唱者データXaとスタイルデータXbとの組合せに応じて生成される。第2生成モデルG2は、記憶装置12に記憶された合成データXcと第1生成モデルG1が生成した表情データD1とに応じて中間データYを生成する。
【0050】
第2学習済モデルM2は、記憶装置12に記憶された歌唱者データXaと第1学習済モデルM1が生成した中間データYとに応じて特徴データQ(基本周波数Qaおよびスペクトル包絡Qb)を生成する。
図8に例示される通り、第2学習済モデルM2は、第3生成モデルG3と第4生成モデルG4と第5生成モデルG5とを具備する。
【0051】
第3生成モデルG3は、歌唱者データXaに応じた発音データD2を生成する。発音データD2は、歌唱者の発音機構(例えば声帯)および調音機構(例えば声道)の特徴を表すデータである。例えば、歌唱者の発音機構および調音機構により歌唱音に付与される周波数特性が発音データD2により表現される。
【0052】
第4生成モデルG4(第1生成モデルの例示)は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2とに応じて特徴データQの基本周波数Qaの時系列を生成する。
【0053】
第5生成モデルG5(第2生成モデルの例示)は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2と第4生成モデルG4が生成した基本周波数Qaの時系列とに応じて特徴データQのスペクトル包絡Qbの時系列を生成する。すなわち、第5生成モデルG5は、第4生成モデルG4が生成した基本周波数Qaの時系列に応じて合成音のスペクトル包絡Qbの時系列を生成する。第4生成モデルG4が生成した基本周波数Qaと第5生成モデルG5が生成したスペクトル包絡Qbとを含む特徴データQの時系列が信号生成部22に供給される。
【0054】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、基本周波数Qaの時系列を生成する第4生成モデルG4とスペクトル包絡Qbの時系列を生成する第5生成モデルG5とを合成モデルMが含む。したがって、入力データZと基本周波数Qaの時系列との関係を明示的に学習できるという利点がある。
【0055】
<第3実施形態>
図9は、第3実施形態における合成モデルMの構成を例示するブロック図である。
図9に例示される通り、第3実施形態における合成モデルMの構成は第2実施形態と同様である。すなわち、第3実施形態の合成モデルMは、基本周波数Qaの時系列を生成する第4生成モデルG4と、スペクトル包絡Qbの時系列を生成する第5生成モデルG5とを含む。
【0056】
第3実施形態の制御装置11は、第1実施形態と同様の要素(合成処理部21,信号生成部22および学習処理部23)に加えて、
図9の編集処理部26としても機能する。編集処理部26は、第4生成モデルG4が生成した基本周波数Qaの時系列を、入力装置13に対する利用者からの指示に応じて編集する。
【0057】
第5生成モデルG5は、第1学習済モデルM1が生成した中間データYと第3生成モデルG3が生成した発音データD2と編集処理部26による編集後の基本周波数Qaの時系列とに応じて特徴データQのスペクトル包絡Qbの時系列を生成する。編集処理部26による編集後の基本周波数Qaと第5生成モデルG5が生成したスペクトル包絡Qbとを含む特徴データQの時系列が信号生成部22に供給される。
【0058】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、利用者からの指示に応じた編集後の基本周波数Qaの時系列に応じてスペクトル包絡Qbの時系列が生成されるから、基本周波数Qaの時間的な遷移に利用者の意図が反映された合成音を生成することが可能である。
【0059】
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
【0060】
(1)前述の各形態では、合成モデルMの学習後に符号化モデルEaおよび符号化モデルEbを破棄したが、
図10に例示される通り、符号化モデルEaおよび符号化モデルEbを合成モデルMとともに合成処理に利用してもよい。
図10の構成では、入力データZが、歌唱者の識別情報Faと歌唱スタイルの識別情報Fbと合成データXcとを含む。符号化モデルEaが識別情報Faから生成した歌唱者データXaと、符号化モデルEbが識別情報Fbから生成したスタイルデータXbと、入力データZの合成データXcとが、合成モデルMに入力される。
(2)前述の各形態では、特徴データQが基本周波数Qaとスペクトル包絡Qbとを含む構成を例示したが、特徴データQの内容は以上の例示に限定されない。周波数スペクトルの特徴(以下「スペクトル特徴」という)を表す各種のデータが特徴データQとして好適である。特徴データQとして利用可能なスペクトル特徴としては、前述のスペクトル包絡Qbのほか、例えばメルスペクトル、メルケプストラム、メルスペクトログラムまたはスペクトログラムが例示される。なお、基本周波数Qaを特定可能なスペクトル特徴を特徴データQとして利用する構成では、特徴データQから基本周波数Qaを省略してもよい。
【0061】
(3)前述の各形態では、新規歌唱者について補充処理により歌唱者データXaを生成したが、歌唱者データXaを生成する方法は以上の例示に限定されない。例えば、複数の歌唱者データXaを補間または補外することで、新規な歌唱者データXaを生成してもよい。歌唱者Aの歌唱者データXaと歌唱者Bの歌唱者データXaとを補間することで、歌唱者Aと歌唱者Bとの中間の声質で発声する仮想的な歌唱者の歌唱者データXaが生成される。
【0062】
(4)前述の各形態では、合成処理部21(および信号生成部22)と学習処理部23との双方を具備する情報処理装置100を例示したが、合成処理部21と学習処理部23とを別個の情報処理装置に搭載してもよい。合成処理部21および信号生成部22を具備する情報処理装置は、入力データZから音響信号Vを生成する音声合成装置として実現される。音声合成装置において学習処理部23の有無は不問である。また、学習処理部23を具備する情報処理装置は、複数の学習データLを利用した機械学習で合成モデルMを生成する機械学習装置として実現される。機械学習装置において合成処理部21の有無は不問である。端末装置と通信可能なサーバ装置により機械学習装置を実現し、機械学習装置が生成した合成モデルMを端末装置に配信してもよい。端末装置は、機械学習装置から配信された合成モデルMを利用して合成処理を実行する合成処理部21を具備する。
【0063】
(5)前述の各形態では、歌唱者が発音した歌唱音を合成したが、歌唱音以外の音響の合成にも本発明は適用される。例えば、音楽を要件としない会話音等の一般的な発話音の合成、または楽器の演奏音の合成にも、本発明は適用される。歌唱者データXaは、歌唱者のほかに発話者または楽器等を含む発音源を表す発音源データの一例に相当する。また、スタイルデータXbは、歌唱スタイルのほかに発話スタイルまたは演奏スタイル等を含む発音スタイルを表すデータとして包括的に表現される。合成データXcは、歌唱条件のほかに発話条件(例えば音韻)または演奏条件(例えば音高および音量)を含む発音条件を表すデータとして包括的に表現される。
【0064】
(6)前述の各形態に係る情報処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
【0065】
(7)合成モデルMを実現するための人工知能ソフトウェアの実行主体はCPUに限定されない。例えば、Tensor Processing UnitもしくはNeural Engine等のニューラルネットワーク専用の処理回路、または、人工知能に専用されるDSP(Digital Signal Processor)が、人工知能ソフトウェアを実行してもよい。また、以上の例示から選択された複数種の処理回路が協働して人工知能ソフトウェアを実行してもよい。
【0066】
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
【0067】
本発明の好適な態様(第1態様)に係る情報処理方法は、発音源を表す発音源データと発音スタイルを表すスタイルデータと発音条件を表す合成データと、を機械学習により生成された合成モデルに入力することで、前記発音スタイルおよび前記発音条件のもとで前記発音源が発音した合成音の音響的な特徴を表す特徴データを生成する。以上の態様では、発音源データと合成データとスタイルデータとを機械学習済の合成モデルに入力することで合成音の音響的な特徴を表す特徴データが生成される。したがって、音声素片を必要とすることなく合成音を生成できる。また、発音源データと合成データとに加えてスタイルデータが合成モデルに入力される。したがって、発音源データと合成データとを学習済モデルに入力することで特徴データを生成する構成と比較して、発音源データを発音スタイル毎に用意することなく、発音源と発音スタイルとの組合せに対応した多様な音声の特徴データを生成できるという利点がある。
【0068】
第1態様の好適例(第2態様)において、前記発音源データは、音響の特徴に関する発音源間の関係を表す第1空間におけるベクトルを表し、前記スタイルデータは、音響の特徴に関する発音スタイル間の関係を表す第2空間におけるベクトルを表す。以上の態様によれば、音響の特徴に関する発音源間の関係という観点で表現された発音源データと、音響の特徴に関する発音スタイル間の関係という観点で表現されたスタイルデータとを利用して、発音源と発音スタイルとの組合せに対応した適切な合成音の特徴データを生成できる。
【0069】
第1態様または第2態様の好適例(第3態様)において、前記合成モデルは、前記合成音の基本周波数の時系列を生成する第1生成モデルと、前記第1生成モデルが生成した基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する第2生成モデルとを含む。以上の態様によれば、合成音の基本周波数の時系列を生成する第1生成モデルと合成音のスペクトル包絡の時系列を生成する第2生成モデルとを合成モデルが含むから、発音源データとスタイルデータと合成データとを含む入力と、基本周波数の時系列との関係を明示的に学習できるという利点がある。
【0070】
第3態様の好適例(第4態様)において、前記第1生成モデルが生成した基本周波数の時系列を利用者からの指示に応じて編集し、前記第2生成モデルは、前記編集後の基本周波数の時系列に応じて前記合成音のスペクトル包絡の時系列を生成する。以上の態様によれば、利用者からの指示に応じた編集後の基本周波数の時系列に応じてスペクトル包絡の時系列が生成されるから、基本周波数の時間的な遷移に利用者の意図が反映された合成音を生成することが可能である。
【0071】
以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本発明の好適な態様は実現される。
【符号の説明】
【0072】
100…情報処理装置、11…制御装置、12…記憶装置、13…入力装置、14…放音装置、21…合成処理部、22…信号生成部、23…学習処理部、24…特徴解析部、26…編集処理部、M…合成モデル、Xa…歌唱者データ、Xb…スタイルデータ、Xc…合成データ、Z…入力データ、Q…特徴データ、V…音響信号、Fa,Fb…識別情報、Ea,Eb…符号化モデル、L,Lnew…学習データ。