【解決手段】音声加工装置は、文章の言語特徴量と第一のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて時系列のフレーム単位の音響特徴量である第一音響特徴量生成値を取得し、文章の言語特徴量と第二のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて時系列のフレーム単位の音響特徴量である第二音響特徴量生成値を得る。音声加工装置は、第一音響特徴量生成値と第二音響特徴量生成値のフレームを対応付け、対応付けられたフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分により加工情報を生成する。音声加工装置は、文章を読み上げた音声データの音響特徴量と第一音響特徴量生成値のフレームを対応付け、音声データの各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値から生成された加工情報に基づき加工する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1〜4の技術は、いずれもテキストから音声を合成する方法であり、音声を変換するものではない。
また、特許文献1、2及び非特許文献5は、ピッチ及びスペクトルなどの音響特徴量を変換する基本的な技術に関するものであり、音声を所望のスタイルに変換するには、目標値を何らかの方法で与えなければならない。
また、非特許文献6の技術は、人手により生成された簡単な規則によって音声の加工を制御するため、時間的に複雑に変化する音響特徴量を十分に制御することは困難である。加えて、非特許文献6の技術は、ピッチ、パワー、話速といった韻律に関する制御のみを行い、スペクトルを制御することはできない。
また、特許文献3の技術は、感情に関連するパラメータの学習にニューラルネットワークを用いており、その学習には膨大な学習データと学習時間が必要である。
また、非特許文献7の技術は、聞こえに大きな影響を与える母音についてスペクトルを加工して平静音声を感情音声に変換するものであるが、子音については感情音声に変換するための加工を行っていない。
【0008】
本発明は、このような事情を考慮してなされたもので、音声のスタイル変換を簡易かつ精度良く行うことができる音声加工装置、及びプログラムを提供する。
【課題を解決するための手段】
【0009】
本発明の一態様は、テキストデータが示す文章の言語特徴量を取得する言語解析部と、前記言語解析部が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成部と、前記言語解析部が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成部と、前記第一音響特徴量生成部が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成部が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成部と、前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析部と、前記音響分析部が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成部が生成した前記加工情報に基づいて加工する音声加工処理部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、原音声のテキストの言語特徴量と、第一のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量である第一音響特徴量生成値を得る。さらに、音声加工装置は、原音声のテキストの言語特徴量と、第二のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量である第二音響特徴量生成値を得る。音声加工装置は、第一音響特徴量生成値のフレームと第二音響特徴量生成値のフレームとを値の類似性によって対応付け、対応付けられたフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分により加工情報を生成する。音声加工装置は、原音声の音声データから時系列のフレーム単位の音響特徴量を取得し、原音声の音響特徴量のフレームと、第一音響特徴量生成値のフレームを値の類似性に基づいて対応付ける。音声加工装置は、原音声の各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値を用いて生成された加工情報に基づいて加工する。
これにより、音声加工装置は、原音声の音韻性や自然性を良好に保持したまま、原音声のスタイルを簡易に変換する。
【0010】
本発明の一態様は、上述する音声加工装置であって、前記音響特徴量は、ピッチに関する情報と周波数スペクトルに関する情報とのうち少なくとも一方を含む、ことを特徴とする。
この発明によれば、音声加工装置は、原音声のピッチと周波数スペクトルとの一方または両方を加工してスタイルを変更する。
これにより、音声加工装置は、原音声のピッチを変更し、原音声の音韻性や自然性を良好に保持したまま、イントネーションやアクセントを変化させてスタイルを変換することができる。また、音声加工装置は、原音声の周波数スペクトルを変更し、原音声の音韻性や自然性を良好に保持したまま、声質を変化させてスタイルを変換することができる。あるいは、音声加工装置は、原音声のピッチ及び周波数スペクトルを変化させて、原音声の音韻性や自然性を良好に保持したまま、イントネーションやアクセント、ならびに、声質を変化させて、原音声のスタイルを変換することができる。
【0011】
本発明の一態様は、上述する音声加工装置であって、前記テキストデータが示す前記文章の前記音声データのスタイルは、前記第一のスタイルである、ことを特徴とする。
この発明によれば、音声加工装置は、原音声と同じスタイルの発話から生成された統計モデル、及び、所望のスタイルの発話から生成された統計モデルのそれぞれを用いて、原音声のテキストから第一音響特徴量生成値及び第二音響特徴量生成値を生成し、それらの差分により加工情報を生成する。
これにより、音声加工装置は、原音声を所望のスタイルに精度よく変換することができる。
【0012】
本発明の一態様は、上述する音声加工装置であって、前記音声加工処理部は、加工された前記音響特徴量に基づいて音声データを合成する、ことを特徴とする。
この発明によれば、音声加工装置は、スタイル変換のための加工がなされた音響特徴量から、音声を合成する。
これにより、音声加工装置は、原音声のスタイルを変換して生成した音声を出力することができる。
【0013】
本発明の一態様は、コンピュータを、テキストデータが示す文章の言語特徴量を取得する言語解析手段と、前記言語解析手段が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成手段と、前記言語解析手段が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成手段と、前記第一音響特徴量生成手段が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成手段が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成手段と、前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析手段と、前記音響分析手段が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成手段が生成した前記加工情報に基づいて加工する音声加工処理手段と、を具備する音声加工装置として機能させるためのプログラムである。
【発明の効果】
【0014】
本発明によれば、音声のスタイル変換を簡易かつ精度良く行うことができる。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の音声加工装置は、入力した音声を一時記録し、その音響特徴量を変換して異なるスタイルの音声として再び出力する。スタイルには、例えば、怒り、喜び、などの感情や、ニュース調、丁寧、ぞんざい、フォーマル、カジュアルなどの発話表現がある。本実施形態の音声加工装置は、入力音声のスタイル及び所望のスタイルのそれぞれについて事前に作成しておいた音響特徴量に関する統計モデルを利用して、入力音声のテキストから、入力音声のスタイル及び所望のスタイルのそれぞれについてフレーム単位の音響特徴量を生成する。本実施形態の音声加工装置は、入力音声のスタイルについて生成された音響特徴量及び所望のスタイルについて生成された音響特徴量のフレームを対応付け、この対応付けに従って、入力音声のスタイルの音響特徴量と所望のスタイルの音響特徴量との差分値を算出する。本実施形態の音声加工装置は、入力音声から求めたフレーム単位の音響特徴量と、入力音声のテキストから入力音声のスタイルについて生成したフレーム単位の音響特徴量とを対応付ける。本実施形態の音声加工装置は、入力音声の各フレームの音響特徴量に、対応するフレームの音響特徴量を用いて算出した差分値を加算して、入力音声の音響特徴量を変更し、変更を反映した音声を出力する。これにより、本実施形態の音声加工装置は、原音声の音韻性や自然性を良好に保持したまま、スタイル変換を可能にする。
【0017】
図1は、本発明の一実施形態による音声加工装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置1は、1台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置1を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置1は、学習部2と、記憶部3と、音声加工部4とを備えて構成される。
【0018】
学習部2は、第一音声記憶部21と、第一音響分析部22と、第一学習用言語解析部23と、第一統計モデル学習部24と、第二音声記憶部25と、第二音響分析部26と、第二学習用言語解析部27と、第二統計モデル学習部28とを備えて構成される。また、記憶部3は、第一統計モデル記憶部31と、第二統計モデル記憶部32とを備えて構成される。
【0019】
第一音声記憶部21は、第一学習用音声データを記憶する。第一学習用音声データは、変換前スタイル(第一のスタイル)によって、第一学習用テキストデータが示す文章を読み上げたときの学習用の音声データである。変換前スタイルは、音声加工部4に入力される入力音声データのスタイルであり、この入力音声データは、スタイル変換を行う対象の音声データである。なお、変換前スタイルが複数ある場合、第一学習用音声データには、スタイルの種類(例えば、「平静」など)を示す情報を付加しておく。
第一音響分析部22は、第一音声記憶部21から第一学習用音声データを読み出し、読み出した第一学習用音声データから時系列のフレーム単位の音響特徴量を取得する。
第一学習用言語解析部23は、第一学習用テキストデータが示す文章の言語特徴量を取得する。
【0020】
第一統計モデル学習部24は、第一音響分析部22が第一学習用音声データから取得した音響特徴量と、第一学習用言語解析部23が第一学習用テキストデータから取得した言語特徴量とを用いて、変換前スタイルの統計モデルを生成し、生成した統計モデルを第一統計モデル記憶部31に書き込む。変換前スタイルの種類が複数ある場合、第一統計モデル学習部24は、その種類ごとに統計モデルを生成する。例えば、第一統計モデル学習部24は、「平静」のラベルが付与された第一学習用音声データの音響特徴量と、第一学習用テキストデータの言語特徴量とを用いて、スタイルが「平静」の統計モデルを生成する。第一統計モデル学習部24は、スタイルの種類ごとに生成した統計モデルに、スタイルの種類を示す情報を付加して第一統計モデル記憶部31に書き込む。
【0021】
第二音声記憶部25は、第二学習用音声データを記憶する。第二学習用音声データは、変換後スタイル(第二のスタイル)によって、第二学習用テキストデータが示す文章を読み上げたときの学習用の音声データである。なお、第二学習用テキストデータは、第一学習用テキストデータと同一でもよく、異なっていてもよい。変換後スタイルは、音声加工部4において音声データを加工した結果として得たい音声データのスタイルである。なお、変換後スタイルが複数ある場合、第二学習用音声データには、スタイルの種類(例えば、「怒り」、「驚き」、「喜び」など)を示す情報を付加しておく。
第二音響分析部26は、第二音声記憶部25から第二学習用音声データを読み出し、読み出した第二学習用音声データから時系列のフレーム単位の音響特徴量を取得する。
第二学習用言語解析部27は、第一学習用言語解析部23と同様の処理により、第二学習用テキストデータが示す文章の言語特徴量を取得する。
【0022】
第二統計モデル学習部28は、第二音響分析部26が第二学習用音声データから取得した音響特徴量と、第二学習用言語解析部27が第二学習用テキストデータから取得した言語特徴量とを用いて、変換後スタイルの統計モデルを生成し、生成した統計モデルを第二統計モデル記憶部32に書き込む。変換後スタイルの種類が複数ある場合、第二統計モデル学習部28は、その種類ごとに統計モデルを生成する。例えば、第二統計モデル学習部28は、「怒り」のラベルが付与された第二学習用音声データの音響特徴量と、第二学習用テキストデータの言語特徴量とを用いて、スタイルが「怒り」の統計モデルを生成する。第二統計モデル学習部28は、スタイルの種類ごとに生成した統計モデルに、スタイルの種類を示す情報を付加して第二統計モデル記憶部32に書き込む。
【0023】
第一統計モデル学習部24が生成する統計モデル及び第二統計モデル学習部28が生成する統計モデルは、音響特徴量に関する統計モデルである。統計モデルには、例えば、3状態HMM(Hidden Markov Model、隠れマルコフモデル)を用いた音響モデルを用いることができる。この音響モデルは、言語特徴量を反映した音素を適切な決定木を用いてクラスタリングにより分類した単位(以下、「音素クラスタリング単位」と記載する。)ごとに作成される。
【0024】
音声加工部4は、音声加工用言語解析部41(言語解析部)と、第一統計モデル選択部42と、第一音響特徴量生成部43と、第二統計モデル選択部44と、第二音響特徴量生成部45と、加工情報生成部46と、音声加工用音響分析部47(音響分析部)と、音声加工処理部48とを備えて構成される。
【0025】
音声加工用言語解析部41は、第一学習用言語解析部23及び第二学習用言語解析部27と同様の処理により、入力音声テキストデータが示す文章の言語特徴量を取得する。入力音声テキストデータは、入力音声データの発話の内容を示す文章のテキストデータである。
第一統計モデル選択部42は、変換前スタイルデータが示すスタイルに対応した統計モデルを第一統計モデル記憶部31から読み出す。変換前スタイルデータは、入力音声データのスタイルを示す。
第一音響特徴量生成部43は、第一統計モデル選択部42が読み出した統計モデルと、音声加工用言語解析部41から出力された言語特徴量とを用いて、時系列のフレーム単位の音響特徴量を生成する。生成された音響特徴量を、第一音響特徴量生成値と記載する。
【0026】
第二統計モデル選択部44は、変換後スタイルデータが示すスタイルに対応した統計モデルを第二統計モデル記憶部32から読み出す。変換後スタイルデータは、入力音声データを加工した結果として得たい音声データのスタイルを示す。
第二音響特徴量生成部45は、第二統計モデル選択部44が読み出した統計モデルと、音声加工用言語解析部41から出力された言語特徴量とを用いて、時系列のフレーム単位の音響特徴量を生成する。生成された音響特徴量を、第二音響特徴量生成値と記載する。
【0027】
加工情報生成部46は、第一対応フレーム検出部461と、加工情報算出部462とを備える。第一対応フレーム検出部461は、第一音響特徴量生成部43が生成した第一音響特徴量生成値と、第二音響特徴量生成部45が生成した第二音響特徴量生成値とを、値の類似性に基づいてフレーム単位で対応させる。加工情報算出部462は、対応するフレームごとに、第一音響特徴量生成値と第二音響特徴量生成値との差分に基づいて、音響特徴量の加工情報を作成する。
【0028】
音声加工用音響分析部47は、入力音声データの音響特徴量を取得する。
音声加工処理部48は、第二対応フレーム検出部481と、加工情報付加部482と、音声合成部483とを備える。第二対応フレーム検出部481は、第一音響特徴量生成部43が生成した第一音響特徴量生成値と、音声加工用音響分析部47が取得した音響特徴量とを、値の類似性に基づいてフレーム単位で対応させる。加工情報付加部482は、音声加工用音響分析部47が取得した各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値を用いて加工情報生成部46が生成した音響特徴量の加工情報に基づいて加工する。音声合成部483は、加工情報付加部482における加工により得られた音響特徴量の音声データを合成し、出力音声データとして出力する。
【0029】
なお、学習部2における第一統計モデル及び第二統計モデルの学習処理、学習処理により生成される第一統計モデル及び第二統計モデル、音声加工用言語解析部41における言語解析処理、第一音響特徴量生成部43及び第二音響特徴量生成部45における音響特徴量生成処理には、HTS(HMM-based speech synthesis system)などの既存の音声合成技術を利用することができる。
【0030】
図2は、本実施形態において用いる音響特徴量を説明するための図である。同図では、音声波形と音素表記とを対応付けて示している。音声波形からは、フレームごとに、ピッチ(基本周波数)、及び、周波数スペクトル(以下、「スペクトル」と記載する。)が得られる。音声波形からピッチや周波数スペクトルを取得する方法には、任意の従来技術を用いることができる。本実施形態では、フレーム長を25ms(ミリ秒)、フレームシフトを5msとする。
【0031】
図3は、本実施形態において用いる音響特徴量を示す図である。同図に示す音響特徴量は、静特性及び動特性を含む153次元の情報であり、例えば、非特許文献1や、HTSなどを含む従来技術においても使用されている一般的なものである。あるフレームの静特性は、そのフレームの音声波形から得られた1次元のピッチ及び50次元のスペクトル係数からなる51次元の情報である。動特性の音響特徴量は、静特性の1次差分(51次元)及び静特性の2次差分(51次元)の情報を含む。あるフレームの静特性の1次差分は、そのフレームの静特性と隣接するフレームの静特性との差分である。あるフレームの静特性の2次差分(51次元)は、そのフレームの1次差分と隣接するフレームの1次差分との差分である。
【0032】
図4は、本実施形態において用いる言語特徴量を示す図である。漢字仮名交じりの文からは、形態素解析により、アクセント句の区切り、呼気段落の区切り、アクセントの情報、及び品詞情報が得られる。さらに、漢字仮名交じりの文章は、単音素表記に変換された後、形態素解析により得られたアクセントの情報と併せて、単音素アクセント表記に変換される。単音素アクセント表記と、形態素解析で得られた品詞情報からは、言語特徴量として用いる文脈依存音素表記が得られる。この文脈依存音素表記は、例えば、HTSなどを含む従来技術においても一般的に使用されている言語特徴量である。
【0033】
文脈依存音素表記は、単音素表記で示される時系列の各音素の音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、及び音節数情報を含む。音素情報は、現在の音素を中心とした5つ分の音素の並びを示す。アクセント情報は、アクセント句における位置をモーラによって示す。品詞情報は、現在の単語や前後の単語の品詞を示す。アクセント句情報は、現在のアクセント句や前後のアクセント句のアクセントの種類、現在のアクセント句の位置を示す。呼気段落情報は、現在の呼気段落と前後の呼気段落のアクセント句の数やモーラの数、現在の呼気段落の位置を示す。音節数情報は、呼気段落、アクセント句、モーラの数を示す。
【0034】
次に、音声加工装置1の動作について説明する。以下では、変換前スタイルが「平静」であり、変換後スタイルが「怒り」である場合を例に説明する。
図5は、音声加工装置1による事前学習の処理フローを示す図である。
まず、第一音声記憶部21には、スタイルが「平静」の学習用音声データである第一学習用音声データを記憶させておき、第二音声記憶部25には、スタイルが「怒り」の学習用音声データである第二学習用音声データを記憶させておく。第一学習用音声データ及び第二学習用音声データはそれぞれ、同じ人物が文章を「平静」及び「怒り」のスタイルで読み上げたときの音声データである。「平静」のスタイルで読み上げる文章と、「怒り」のスタイルで読み上げ文章とは、同一でもよく、異なっていてもよい。各音素の音響特徴量は、その音素の前後の音素の影響を受ける。そこで、第一学習用音声データや第二学習用音声データには、様々な音素の並びがバランスよく含まれる音素バランス文の発話を用いることが望ましい。例えば、読み上げる文章として、以下の参考文献1、2で提案されている音素バランス503文を利用することができる。
【0035】
(参考文献1)磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、p.89−90、1988年3月
(参考文献2)匂坂芳典、浦谷則好、「ATR音声・言語データベース」、音響誌、48巻、12号、p.878−882、1992年
【0036】
第一音響分析部22は、第一音声記憶部21からスタイル「平静」の情報が付加された第一学習用音声データを読み出す。第一音響分析部22は、読み出した第一学習用音声データが示す音声波形から各文章のフレーム単位の音響特徴量を取得する(ステップS110)。第一学習用言語解析部23は、第一学習用テキストデータが示す第一学習用音声データの発話内容の各文章から文脈依存音素表記を取得し、言語特徴量とする(ステップS120)。第一学習用テキストデータが示す読み上げ文章から求めた文脈依存音素表記は、実際に文章が読み上げられたときの音声波形と、ポーズの位置、アクセント区切り、アクセントの位置などが異なる場合がある。そこで、第一学習用言語解析部23が取得した文脈依存音素表記を、人手で確認して修正する。
【0037】
第一統計モデル学習部24は、各文章についてステップS110において得られた音響特徴量及びステップS120において得られた言語特徴量を用いて統計モデル機械学習により統計モデルを生成する(ステップS130)。統計モデル機械学習には、非特許文献1や参考文献3の技術を用いることができるが、任意の従来技術を用いてもよい。例えば、第一統計モデル学習部24は、音素クラスタリング単位ごとに153次元の音響特徴量の平均、分散、各状態間の遷移確率、出力確率を求め、統計モデル機械学習により3状態HMMの音響モデルを求める。第一統計モデル学習部24は、生成した音素クラスタリング単位ごとの音響モデルからなる統計モデルに、スタイル「平静」を示す情報を付加して第一統計モデル記憶部31に書き込む。
【0038】
(参考文献3)Takayoshi Yoshimura,外4名,"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis",in Proc. EUROSPEECH,p.2347-2350,1999年
【0039】
第二音響分析部26は、第二音声記憶部25からスタイル「怒り」の情報が付加された第二学習用音声データを読み出す。第二音響分析部26は、読み出した第二学習用音声データが示す音声波形から各文章のフレーム単位の音響特徴量を取得する(ステップS140)。第二学習用言語解析部27は、第一学習用言語解析部23と同様の処理により、第二学習用テキストデータが示す第二学習用音声データの発話内容の各文章から文脈依存音素表記を取得し、言語特徴量とする(ステップS150)。第二学習用言語解析部27が取得した文脈依存音素表記については、人手で確認して修正する。
【0040】
第二統計モデル学習部28は、各文章についてステップS140において得られた音響特徴量及びステップS150において得られた言語特徴量を用いて、第一統計モデル学習部24と同様の機械学習により統計モデルを生成する(ステップS160)。第二統計モデル学習部28は、生成した統計モデルに、スタイル「怒り」を示す情報を付加して第二統計モデル記憶部32に書き込む。
【0041】
なお、音声加工装置1は、ステップS110の処理とステップS120の処理を並行して、あるいは、入れ替えて実行してもよい。同様に、音声加工装置1は、ステップS140の処理とステップS150の処理を並行して、あるいは、入れ替えて実行してもよい。また、音声加工装置1は、ステップS110〜ステップS130の処理と、ステップS140〜ステップS160の処理を並行して実行してもよく、順番を入れ替えて実行してもよい。また、変換前スタイル、及び、変換後スタイルがそれぞれ1つである場合、第一学習用音声データ、第二学習用音声データ、及び、統計モデルにスタイルを示す情報を付加しなくてもよい。
また、「平静」のスタイルで読み上げる文章と、「怒り」のスタイルで読み上げ文章とが同一である場合、第一学習用テキストデータまたは第二学習用テキストデータのいずれかのみを音声加工装置1に入力してもよい。第一学習用言語解析部23または第二学習用言語解析部27は、得られた言語特徴量を、第一統計モデル学習部24及び第二統計モデル学習部28に出力する。
【0042】
図6は、音声加工装置1による音声加工処理の処理フローを示す図である。
音声加工装置1には、入力音声データと、入力音声データの発話の内容を示す入力音声テキストデータと、変換前スタイルデータと、変換後スタイルデータとが入力される。入力音声データのスタイルや、変換により得たい音声データのスタイルが予め決められている場合には、変換前スタイルデータや、変換後スタイルデータの入力を省略することができる。入力音声データの話者と第一学習用音声データ及び第二学習用音声データの話者は、異なっていてもよい。
【0043】
音声加工用言語解析部41は、第一学習用言語解析部23及び第二学習用言語解析部27と同様の処理により、入力音声テキストデータが示す文章の言語特徴量を取得する(ステップS210)。
【0044】
第一統計モデル選択部42は、変換前スタイルデータが示すスタイル「平静」の統計モデルを第一統計モデル記憶部31から読み出す(ステップS220)。第一音響特徴量生成部43は、第一統計モデル選択部42が読み出した統計モデルと、音声加工用言語解析部41から出力された言語特徴量とを用いて、時系列の音響特徴量である第一音響特徴量生成値を生成する(ステップS230)。
【0045】
第二統計モデル選択部44は、変換後スタイルデータが示すスタイル「怒り」の統計モデルを第二統計モデル記憶部32から読み出す(ステップS240)。第二音響特徴量生成部45は、第二統計モデル選択部44が読み出した統計モデルと、音声加工用言語解析部41から出力された言語特徴量とを用いて、時系列の音響特徴量である第二音響特徴量生成値を生成する(ステップS250)。
【0046】
加工情報生成部46の第一対応フレーム検出部461は、第一音響特徴量生成部43が生成した第一音響特徴量生成値と、第二音響特徴量生成部45が生成した第二音響特徴量生成値とを値の類似性に基づいてフレーム単位で対応させる(ステップS260)。この対応付けには、例えば、動的計画法(DTW)が用いられる。加工情報算出部462は、対応するフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分を算出し、音響特徴量の加工情報とする(ステップS270)。
【0047】
音声加工用音響分析部47は、入力音声データが示すが示す音声波形の音響特徴量を取得する(ステップS280)。音声加工処理部48の第二対応フレーム検出部481は、第一音響特徴量生成部43が生成した第一音響特徴量生成値と、音声加工用音響分析部47が取得した音響特徴量とを値の類似性に基づいてフレーム単位で対応させる(ステップS290)。加工情報付加部482は、音声加工用音響分析部47が取得した各フレームの音響特徴量に、対応するフレームの第一音響特徴量生成値を用いて加工情報生成部46が生成した音響特徴量の加工情報を加算する(ステップS300)。音声合成部483は、加工情報が加算された入力音声データの音響特徴量の音声データを合成し、加工音声データとする。音声合成部483は、生成した加工音声データを、音声加工装置1からの出力音声データとして出力する(ステップS310)。
【0048】
なお、音声加工装置1は、ステップS220〜ステップS230の処理と、ステップS240〜ステップS250の処理を並行して、あるいは入れ替えて実行してもよい。また、音声加工装置1は、ステップS210〜ステップS270の処理と、ステップS280の処理を並行して、あるいは、入れ替えて実行してもよい。
【0049】
図6に示す音声加工処理を、データの図を用いて説明する。
図7は、音声加工装置1におけるテキストからの音響特徴量取得処理を説明するための図である。同図は、
図6のステップS210〜ステップS250の処理を示す。この処理により、入力音声テキストデータが示す漢字仮名交じりの文章から、第一音響特徴量生成値や第二音響特徴量生成値が生成される。
【0050】
図6のステップS210において、音声加工用言語解析部41は、入力音声テキストデータが示す漢字仮名交じりの文章から、文脈依存音素表記の言語特徴量を得る。
図6のステップS230において、第一音響特徴量生成部43は、文脈依存音素の並びに応じて、スタイル「平静」の統計モデルが示す各音素クラスタリング単位の音響モデルを接続する。第一音響特徴量生成部43は、接続確率が最小となる組み合わせを選択することにより、5msのフレームシフトごとの音響特徴量を生成する。ここで生成される各フレームの音響特徴量は、1次元のピッチ及び50次元のスペクトル係数からなる51次元の静特性である。この音響特徴量の生成には、例えば、非特許文献1の方法を用いることができるが、テキストデータと音響モデルから音響特徴量を得るための任意の既存技術を用いてもよい。生成された音響特徴量は、スタイルが「平静」の時系列のフレームごとの第一音響特徴量生成値となる。
【0051】
同様に、
図6のステップS250において、第二音響特徴量生成部45は、スタイルが「怒り」の時系列のフレームごとの第二音響特徴量生成値を得る。つまり、第二音響特徴量生成部45は、文脈依存音素の並びに応じて、スタイル「怒り」の統計モデルが示す各音素クラスタリング単位の音響モデルを接続する。第二音響特徴量生成部45は、接続確率が最小となる組み合わせを選択し、5msのフレームシフトごとの51次元の音響特徴量を生成する。生成された音響特徴量は、スタイルが「怒り」の時系列のフレームごとの第二音響特徴量生成値となる。
【0052】
図8は、音声加工装置1における加工情報生成処理を説明するための図である。同図は、
図6のステップS260〜ステップS270の処理を示す。
図7に示す処理により、第一音響特徴量生成部43は、スタイルが「平静」の5msのフレームシフトごとの第一音響特徴量生成値を生成し、第二音響特徴量生成部45は、スタイルが「怒り」の5msのフレームシフトごとの第一音響特徴量生成値を生成する。i番目(iは1以上の整数)のフレームの第一音響特徴量生成値をAiと記載し、i番目(iは1以上の整数)のフレームの第二音響特徴量生成値をBiと記載する。
図6のステップS260において、加工情報生成部46の第一対応フレーム検出部461は、第一音響特徴量生成値A1、A2、…と、第二音響特徴量生成値B1、B2、…とを、50次元のスペクトル係数による距離尺度を用いて、動的計画法(DTW)などにより対応付ける。第一対応フレーム検出部461は、この対応付を文章全体で行う。
【0053】
図6のステップS270において、加工情報算出部462は、対応付けられたフレームの第一音響特徴量生成値と第二音響特徴量生成値との差分を算出し、加工情報とする。加工情報算出部462は、1フレームの第一音響特徴量生成値と複数のフレームの第二音響特徴量生成値とが対応する場合、第一音響特徴量生成値のフレームが、対応する第二音響特徴量生成値のフレーム数分あるものとして、加工情報を生成する。また、加工情報算出部462は、複数のフレームの第一音響特徴量生成値と1つのフレームの第二音響特徴量生成値とが対応する場合、それら複数のフレームの第一音響特徴量生成値のそれぞれについて、対応するフレームの第二音響特徴量生成値との差分により加工情報を生成する。i番目のフレームの加工情報をCiと記載する。
【0054】
例えば、第一音響特徴量生成値A1と第二音響特徴量生成値B1とが対応するため、加工情報算出部462は、それらの差分を算出して加工情報C1とする。つまり、加工情報C1=第二音響特徴量生成値B1−第一音響特徴量生成値A1である。
第一音響特徴量生成値A2は、第二音響特徴量生成値B2及び第二音響特徴量生成値B3と対応しているため、第二音響特徴量生成値B2と第二音響特徴量生成値B3のそれぞれに対応する2フレーム分の第一音響特徴量生成値A2があるものとする。加工情報算出部462は、第一音響特徴量生成値A2と第二音響特徴量生成値B2との差分を算出して加工情報C2とし、第一音響特徴量生成値A2と第二音響特徴量生成値B3との差分を算出して加工情報C3とする。つまり、加工情報C2=第二音響特徴量生成値B2−第一音響特徴量生成値A2であり、加工情報C3=第二音響特徴量生成値B3−第一音響特徴量生成値A2である。
第一音響特徴量生成値A3は第二音響特徴量生成値B4と対応するため、加工情報算出部462は、それらの差分を算出して加工情報C4とする。つまり、加工情報C4=第二音響特徴量生成値B4−第一音響特徴量生成値A3である。
第一音響特徴量生成値A4及び第一音響特徴量生成値A5は、第二音響特徴量生成値B5と対応している。そこで、加工情報算出部462は、第一音響特徴量生成値A4と第二音響特徴量生成値B5との差分を算出して加工情報C5とし、第一音響特徴量生成値A5と第二音響特徴量生成値B5との差分を算出して加工情報C6とする。つまり、加工情報C5=第二音響特徴量生成値B5−第一音響特徴量生成値A4であり、加工情報C6=第二音響特徴量生成値B5−第一音響特徴量生成値A5である。
第一音響特徴量生成値A6は、第二音響特徴量生成値B6及び第二音響特徴量生成値B7と対応している。従って、加工情報C7=第二音響特徴量生成値B6−第一音響特徴量生成値A6であり、加工情報C8=第二音響特徴量生成値B7−第一音響特徴量生成値A6である。
加工情報算出部462は、同様の処理を繰り返して加工情報C1、C2、…を生成する。
【0055】
図9は、音声加工装置1における入力音声の加工処理を説明するための図である。同図は、
図6のステップS280〜ステップS300の処理を示す。
図6のステップS280において、音声加工用音響分析部47は、スタイルが「平静」の入力音声データから、フレーム長25ms、フレームシフト5msの音響特徴量を得る。ここで得られる音響特徴量は、1次元のピッチ及び50次元のスペクトル係数からなる51次元の静特性である。入力音声データから得られたi番目のフレームの音響特徴量を、音響特徴量Diと記載する。
【0056】
図6のステップS290において、音声加工処理部48の第二対応フレーム検出部481は、入力音声データの音響特徴量D1、D2、…と、第一音響特徴量生成値A1、A2、…とを、第一対応フレーム検出部461と同様に、50次元のスペクトル係数による距離尺度を用いて、動的計画法(DTW)などにより対応付ける。
【0057】
なお、フレームの対応付は、文章全体で行うが、音素ごとにおこなってもよい。音素ごとに対応付を行う場合は、入力音声とその音素列を用いてアラインメント処理を行うことにより、音声のどの部分がどの音素に対応するかを求めておく。
【0058】
図6のステップ300において、加工情報付加部482は、入力音声データの各フレームの音響特徴量に、その音響特徴量に対応付けられた第一音響特徴量生成値から生成された音響特徴量の加工情報を加算する。加工情報付加部482は、入力音声データの1フレームの音響特徴量と複数のフレームの第一音響特徴量生成値とが対応する場合、その入力音声データの音響特徴量に、対応する複数の第一音響特徴量生成値のそれぞれから生成された加工情報の平均を加算する。また、加工情報付加部482は、入力音声データの複数のフレームの音響特徴量と1つのフレームの第一音響特徴量生成値とが対応する場合、それら複数のフレームの音響特徴量それぞれに、対応する第一音響特徴量生成値から生成された加工情報を加算する。加工により得られたi番目のフレームの音響特徴量をEiと記載する。
【0059】
例えば、音響特徴量D1と第一音響特徴量生成値A1とが対応するため、加工情報付加部482は、音響特徴量D1に、第一音響特徴量生成値A1から生成された加工情報C1を加算し、音響特徴量E1とする。つまり、音響特徴量E1=音響特徴量D1+加工情報C1である。
音響特徴量D2及びD3は、第一音響特徴量生成値A2と対応し、第一音響特徴量生成値A2からは加工情報C2及びC3が生成されている。そのため、加工情報付加部482は、音響特徴量D2に、第一音響特徴量生成値A2を用いて生成された1つ目の加工情報C2を加算して音響特徴量E2とし、音響特徴量D3に、第一音響特徴量生成値A2を用いて生成された2つめの加工情報C3を加算して音響特徴量E3とする。つまり、音響特徴量E2=音響特徴量D2+加工情報C2であり、音響特徴量E3=音響特徴量D3+加工情報C3である。
音響特徴量D4は、第一音響特徴量生成値A3と対応するため、加工情報付加部482は、音響特徴量D4に、第一音響特徴量生成値A3を用いて生成された加工情報C4を加算して音響特徴量E4とする。つまり、音響特徴量E4=音響特徴量D4+加工情報C4である。
音響特徴量D5は、第一音響特徴量生成値A4及びA5との2フレーム分に対応するため、加工情報付加部482は、音響特徴量D5に、第一音響特徴量生成値A4から生成された加工情報C5と第一音響特徴量生成値A5から生成された加工情報C6との平均を加算して音響特徴量E5とする。つまり、音響特徴量E5=音響特徴量D5+Avg(加工情報C5+加工情報C6)である。なお、Avg(x+y)は、xとyの平均を示す。
音響特徴量D6は、第一音響特徴量生成値A6と対応し、第一音響特徴量生成値A6からは加工情報C7及び加工情報C8が生成されている。加工情報付加部482は、音響特徴量D6に、加工情報C7と加工情報C8の平均を加算して音響特徴量E6とする。つまり、音響特徴量E6=音響特徴量D6+Avg(加工情報C7+加工情報C8)である。
加工情報算出部462は、同様の処理を繰り返し、入力音声データの時系列の音響特徴量を、音響特徴量E1、E2、…に変更する。
【0060】
図6のステップS310において、音声合成部483は、音響特徴量E1、E2、…からなる音声データを合成し、入力音声データのピッチ及びスペクトルを変換した加工音声データを得る。この変換には、例えば、特許文献1、2の方法を用いることができるが、任意の音声合成の従来技術を用いてもよい。音声合成部483は、加工音声データの時間長が、第二音響特徴量生成値のフレーム数に対応した時間長となるように圧縮し、出力音声データとして出力する。これにより、「怒り」の感情にスタイル変換された音声波形が得られる。
【0061】
図10は、音声加工装置1を用いてスタイル変換した入力音声データと加工音声データを示す図である。同図では、上から順にピッチ、スペクトル、音素ラベル、及び音声波形を示している。横軸は時間であり、縦軸は、ピッチとスペクトルでは周波数、音声波形では音量であり、それぞれ時間変化を示している。
【0062】
上述した実施形態では、音響特徴量に、ピッチ及びスペクトルを使用したが、いずれか一方のみを使用してもよい。
【0063】
また、話者ごとに感情表現は異なる。そこで、話者毎に変換前スタイル及び変換後スタイルの統計モデルを作成しておき、音声加工処理においていずれの話者の学習用音声データから学習した統計モデルを用いるかを指定してもよい。これにより、入力音声データにいずれの話者の感情表現を付与するかを指定することができる。
【0064】
図11は、音声加工装置1について行った主観評価実験の諸元を示す図である。
事前実験により文意が無感情と判定された10文を「平静」のスタイルで読み上げ、入力音声データとした。この入力音声データを、音声加工装置1により、「喜び」、「怒り」、「悲哀」のそれぞれスタイルに変換し、30文の音声データに加工した。被験者は、男性5名、女性5名であり、一般的な実験室においてスピーカーにより変換後の音声データを被験者に呈示した。
実験方法は以下のとおりである。すなわち、音声加工装置1により加工された30文の全ての音声データからランダムに選択して被験者に呈示した。被験者は、呈示された音声データがどのような感情表現に聞こえるかを、「喜び」、「驚き」、「怒り」、「嫌悪」、「悲哀」、「恐れ」の6感情と、「無感情」及び「不明」とを合わせた8つのカテゴリーの中から選択した。1つの音声データについて、10名の被験者が判定した。
【0065】
図12は、音声加工装置1について行った主観評価実験において使用した統計モデルを生成するために用いた学習データに対する判定感情を示す図である。学習用音声データの話者は、入力音声データの話者と同一である。
スタイル「無感情」の統計モデルを生成するために第一学習用音声データとして用いた音声データについては、スタイルが「無感情」であると判定した被験者は85.65%であった。
また、スタイル「喜び」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「喜び」であると判定した被験者は80.92%であった。
同様に、スタイル「怒り」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「怒り」であると判定した被験者は78.00%であった。
そして、変換後スタイル「悲哀」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「悲哀(悲しみ)」であると判定した被験者は61.12%であった。
このように、学習データに対してスタイルが正しく判定される割合は、61.12%〜85.65%であった。
【0066】
図13は、音声加工装置1について行った主観評価実験の評価結果を示す図である。
音声加工装置1が変換前スタイル「無感情」の統計モデルと、変換後スタイル「喜び」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、49%の被験者がスタイルを「喜び」と判定した。
また、音声加工装置1が変換前スタイル「無感情」の統計モデルと、変換後スタイル「怒り」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、71.0%の被験者がスタイルを「怒り」と判定した。
また、音声加工装置1が変換前スタイル「無感情」の統計モデルと、変換後スタイル「悲哀」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、77.0%の被験者がスタイルを「悲哀」と判定した。
上記によれば、正答率は、「喜び」が49.0%、「怒り」が71.0%、「悲哀」が77.0%であり、平均の正答率は65.7%となった。
このように、特定の話者が発声した音声に対して、同じ話者から抽出した感情を付与した場合の主観評価の正答率は60%以上となり、本実施形態の有効性が確認された。
【0067】
以上説明した実施形態によれば、音声加工装置1は、音声のスタイル変換を簡易かつ精度良く行うことが可能となる。
【0068】
なお、上述の音声加工装置1は、内部にコンピュータシステムを有している。そして、音声加工装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0069】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。