特開2016-151736 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2016-151736音声加工装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
3
4
5
6
7
8
9
11
12
13
2
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2016-151736(P2016-151736A)

(43)【公開日】2016年8月22日

(54)【発明の名称】音声加工装置、及びプログラム

(51)【国際特許分類】

G10L 21/007 20130101AFI20160725BHJP

G10L 13/033 20130101ALI20160725BHJP

G06F 3/16 20060101ALI20160725BHJP

【ＦＩ】

G10L21/007

G10L13/033 102A

G06F3/16 330B

G06F3/16 330H

G06F3/16 330K

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

【全頁数】21

(21)【出願番号】特願2015-30459(P2015-30459)

(22)【出願日】2015年2月19日

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100064908

【弁理士】

【氏名又は名称】志賀正武

(74)【代理人】

【識別番号】100108578

【弁理士】

【氏名又は名称】高橋詔男

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】齋藤礼子

(72)【発明者】

【氏名】今井篤

(72)【発明者】

【氏名】都木徹

(57)【要約】

【課題】音声のスタイル変換を簡易かつ精度良く行う。
【解決手段】音声加工装置は、文章の言語特徴量と第一のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて時系列のフレーム単位の音響特徴量である第一音響特徴量生成値を取得し、文章の言語特徴量と第二のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて時系列のフレーム単位の音響特徴量である第二音響特徴量生成値を得る。音声加工装置は、第一音響特徴量生成値と第二音響特徴量生成値のフレームを対応付け、対応付けられたフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分により加工情報を生成する。音声加工装置は、文章を読み上げた音声データの音響特徴量と第一音響特徴量生成値のフレームを対応付け、音声データの各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値から生成された加工情報に基づき加工する。
【選択図】図１

【特許請求の範囲】

【請求項1】

テキストデータが示す文章の言語特徴量を取得する言語解析部と、
前記言語解析部が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成部と、
前記言語解析部が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成部と、
前記第一音響特徴量生成部が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成部が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成部と、
前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析部と、
前記音響分析部が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成部が生成した前記加工情報に基づいて加工する音声加工処理部と、
を備えることを特徴とする音声加工装置。

【請求項2】

前記音響特徴量は、ピッチに関する情報と周波数スペクトルに関する情報とのうち少なくとも一方を含む、
ことを特徴とする請求項１に記載の音声加工装置。

【請求項3】

前記テキストデータが示す前記文章の前記音声データのスタイルは、前記第一のスタイルである、
ことを特徴とする請求項１または請求項２に記載の音声加工装置。

【請求項4】

前記音声加工処理部は、加工された前記音響特徴量に基づいて音声データを合成する、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の音声加工装置。

【請求項5】

コンピュータを、
テキストデータが示す文章の言語特徴量を取得する言語解析手段と、
前記言語解析手段が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成手段と、
前記言語解析手段が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成手段と、
前記第一音響特徴量生成手段が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成手段が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成手段と、
前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析手段と、
前記音響分析手段が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成手段が生成した前記加工情報に基づいて加工する音声加工処理手段と、
を具備する音声加工装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声加工装置、及びプログラムに関する。

【背景技術】

【0002】

近年、統計モデルを利用して、テキストから音声を合成する方法が開発されている（例えば、非特許文献１参照）。この方法に基づく研究は盛んに進められており、スタイルを付与した音声を合成する方法も提案されている（例えば、非特許文献２、３、４参照）。

【0003】

一方、音声のピッチやスペクトルなどの音響特徴量を変換する方法が提案されている（例えば、特許文献１、２、非特許文献５参照）。さらには、音声のスタイルのうち、例えば、感情を制御する方法も提案されている。この方法の一つとして、以下がある。すなわち、無感情な発声と感情を伴った発声により同一文章を読み上げたものを音響分析してピッチ、パワー、話速を求め、それらの分析結果を人手で観察して対比することにより、それぞれについて簡単な変換規則を作成する。そして、作成した変換規則を別の無感情な発声に適用して感情を付与する（例えば、非特許文献６参照）。

【0004】

また、音声のスタイルのうち感情を制御する他の方法として、以下がある。すなわち、事前に、無感情な発声と感情を伴った発声により同一文章を読み上げたものを音響分析してピッチやスペクトルなどの音響特徴量の時系列を求め、それらの対応付けを得る。そして、得られた対応関係に基づいて、無感情な発声の音響特徴量の時系列及び感情の種別を入力とし、感情を伴った音響特徴量の時系列が出力となるようなニューラルネットワークを学習する。この学習したニューラルネットワークに、任意の文章の無感情な発声を音響分析して求めた音響特徴量の時系列、ならびに所望の感情の種別を入力することにより、音響特徴量の時系列を得る。得られた音響特徴量の時系列に基づいて音声を合成することにより、所望の感情を付与した発生が得られる（例えば、特許文献３参照）。
さらに他の方法として、平静音声と感情音声の間のスペクトル変化を母音ごとに学習し、学習した母音のスペクトル変化を任意の発話の平静音声に与える技術もある（例えば、非特許文献７参照）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特許第２６１２８６７号公報

【特許文献2】特許第２６１２８６９号公報

【特許文献3】特開平７−７２９００号公報

【非特許文献】

【0006】

【非特許文献1】Keiichi Tokuda，外４名，"Speech parameter generation algorithms for HMM-based speech synthesis"，IEEE，in Proc. ICASSP，2000年

【非特許文献2】Makoto Tachibana，外３名，"Speech synthesis with various emotional expressions and speaking styles by style interpolation and morphing"，一般社団法人電子情報通信学会，IEICE transactions on information and systems，E88-D(11)，p.2484-2491，2005年

【非特許文献3】Takashi Nose，外３名，"A style Control Technique for HMM-Based Expressive Speech Synthesis"，一般社団法人電子情報通信学会，IEICE transactions on information and systems，E90-D(9)，p.1406-1413，2007年

【非特許文献4】大谷大和，外５名，"HMM音声合成における加算モデルに基づく任意話者への感情付与法の検討"，日本音響学会講演論文集，2-7-2，p.233-236，2014年

【非特許文献5】Hideki Kawahara，外２名，"Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds"，Speech Communication, 27(3)，1999年

【非特許文献6】Yoshinori Kitahara，外１名，"Prosodic Control to Express Emotions for Man-Machine Speech Interaction"，一般社団法人電子情報通信学会，IEICE transactions on fundamentals of electronics，Communications and Computer Sciences，Vol.E75-A，No.2，p.155-163，1992年

【非特許文献7】今井篤，外２名，"母音のスペクトル変化に基づく感情音声加工方法の検討"，一般社団法人映像情報メディア学会，映像情報メディア学会 2014年年次大会講演予稿集，2014年

【発明の概要】

【発明が解決しようとする課題】

【0007】

非特許文献１〜４の技術は、いずれもテキストから音声を合成する方法であり、音声を変換するものではない。
また、特許文献１、２及び非特許文献５は、ピッチ及びスペクトルなどの音響特徴量を変換する基本的な技術に関するものであり、音声を所望のスタイルに変換するには、目標値を何らかの方法で与えなければならない。
また、非特許文献６の技術は、人手により生成された簡単な規則によって音声の加工を制御するため、時間的に複雑に変化する音響特徴量を十分に制御することは困難である。加えて、非特許文献６の技術は、ピッチ、パワー、話速といった韻律に関する制御のみを行い、スペクトルを制御することはできない。
また、特許文献３の技術は、感情に関連するパラメータの学習にニューラルネットワークを用いており、その学習には膨大な学習データと学習時間が必要である。
また、非特許文献７の技術は、聞こえに大きな影響を与える母音についてスペクトルを加工して平静音声を感情音声に変換するものであるが、子音については感情音声に変換するための加工を行っていない。

【0008】

本発明は、このような事情を考慮してなされたもので、音声のスタイル変換を簡易かつ精度良く行うことができる音声加工装置、及びプログラムを提供する。

【課題を解決するための手段】

【0009】

本発明の一態様は、テキストデータが示す文章の言語特徴量を取得する言語解析部と、前記言語解析部が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成部と、前記言語解析部が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成部と、前記第一音響特徴量生成部が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成部が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成部と、前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析部と、前記音響分析部が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成部が生成した前記加工情報に基づいて加工する音声加工処理部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、原音声のテキストの言語特徴量と、第一のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量である第一音響特徴量生成値を得る。さらに、音声加工装置は、原音声のテキストの言語特徴量と、第二のスタイルについて生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量である第二音響特徴量生成値を得る。音声加工装置は、第一音響特徴量生成値のフレームと第二音響特徴量生成値のフレームとを値の類似性によって対応付け、対応付けられたフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分により加工情報を生成する。音声加工装置は、原音声の音声データから時系列のフレーム単位の音響特徴量を取得し、原音声の音響特徴量のフレームと、第一音響特徴量生成値のフレームを値の類似性に基づいて対応付ける。音声加工装置は、原音声の各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値を用いて生成された加工情報に基づいて加工する。
これにより、音声加工装置は、原音声の音韻性や自然性を良好に保持したまま、原音声のスタイルを簡易に変換する。

【0010】

本発明の一態様は、上述する音声加工装置であって、前記音響特徴量は、ピッチに関する情報と周波数スペクトルに関する情報とのうち少なくとも一方を含む、ことを特徴とする。
この発明によれば、音声加工装置は、原音声のピッチと周波数スペクトルとの一方または両方を加工してスタイルを変更する。
これにより、音声加工装置は、原音声のピッチを変更し、原音声の音韻性や自然性を良好に保持したまま、イントネーションやアクセントを変化させてスタイルを変換することができる。また、音声加工装置は、原音声の周波数スペクトルを変更し、原音声の音韻性や自然性を良好に保持したまま、声質を変化させてスタイルを変換することができる。あるいは、音声加工装置は、原音声のピッチ及び周波数スペクトルを変化させて、原音声の音韻性や自然性を良好に保持したまま、イントネーションやアクセント、ならびに、声質を変化させて、原音声のスタイルを変換することができる。

【0011】

本発明の一態様は、上述する音声加工装置であって、前記テキストデータが示す前記文章の前記音声データのスタイルは、前記第一のスタイルである、ことを特徴とする。
この発明によれば、音声加工装置は、原音声と同じスタイルの発話から生成された統計モデル、及び、所望のスタイルの発話から生成された統計モデルのそれぞれを用いて、原音声のテキストから第一音響特徴量生成値及び第二音響特徴量生成値を生成し、それらの差分により加工情報を生成する。
これにより、音声加工装置は、原音声を所望のスタイルに精度よく変換することができる。

【0012】

本発明の一態様は、上述する音声加工装置であって、前記音声加工処理部は、加工された前記音響特徴量に基づいて音声データを合成する、ことを特徴とする。
この発明によれば、音声加工装置は、スタイル変換のための加工がなされた音響特徴量から、音声を合成する。
これにより、音声加工装置は、原音声のスタイルを変換して生成した音声を出力することができる。

【0013】

本発明の一態様は、コンピュータを、テキストデータが示す文章の言語特徴量を取得する言語解析手段と、前記言語解析手段が取得した前記言語特徴量と、第一のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第一音響特徴量生成手段と、前記言語解析手段が取得した前記言語特徴量と、第二のスタイルの発話の音声データから生成された音響特徴量に関する統計モデルとに基づいて、時系列のフレーム単位の音響特徴量を生成する第二音響特徴量生成手段と、前記第一音響特徴量生成手段が生成した前記音響特徴量である第一音響特徴量生成値と、前記第二音響特徴量生成手段が生成した前記音響特徴量である第二音響特徴量生成値との類似性に基づいて、前記第一音響特徴量生成値のフレームと前記第二音響特徴量生成値のフレームとを対応付け、対応付けられた前記フレームごとに、前記第一音響特徴量生成値と前記第二音響特徴量生成値との差分により加工情報を生成する加工情報生成手段と、前記テキストデータが示す前記文章の音声データから時系列のフレーム単位の音響特徴量を取得する音響分析手段と、前記音響分析手段が取得した前記音響特徴量と、前記第一音響特徴量生成値との類似性に基づいて、前記音響特徴量のフレームと前記第一音響特徴量生成値のフレームとを対応付け、各フレームの前記音響特徴量を、対応するフレームの前記第一音響特徴量生成値を用いて前記加工情報生成手段が生成した前記加工情報に基づいて加工する音声加工処理手段と、を具備する音声加工装置として機能させるためのプログラムである。

【発明の効果】

【0014】

本発明によれば、音声のスタイル変換を簡易かつ精度良く行うことができる。

【図面の簡単な説明】

【0015】

【図1】本発明の一実施形態による音声加工装置の機能ブロック図である。

【図2】同実施形態による音声加工装置が用いる音響特徴量を説明するための図である。

【図3】同実施形態による音声加工装置が用いる音響特徴量を示す図である。

【図4】同実施形態による音声加工装置が用いる言語特徴量を示す図である。

【図5】同実施形態による音声加工装置における学習処理を示す処理フローである。

【図6】同実施形態による音声加工装置における音声加工処理を示す処理フローである。

【図7】同実施形態による音声加工装置におけるテキストからの音響特徴量取得処理を説明するための図である。

【図8】同実施形態による音声加工装置における加工情報生成処理を説明するための図である。

【図9】同実施形態による音声加工装置における入力音声の加工処理を説明するための図である。

【図10】同実施形態による音声加工装置を用いてスタイル変換した入力音声と加工音声を示す図である。

【図11】同実施形態による音声加工装置について行った主観評価実験の諸元を示す図である。

【図12】同実施形態による音声加工装置について行った主観評価実験において使用した統計モデルを生成するために用いた学習データに対する判定感情を示す図である。

【図13】同実施形態による音声加工装置について行った主観評価実験の評価結果を示す図である。

【発明を実施するための形態】

【0016】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の音声加工装置は、入力した音声を一時記録し、その音響特徴量を変換して異なるスタイルの音声として再び出力する。スタイルには、例えば、怒り、喜び、などの感情や、ニュース調、丁寧、ぞんざい、フォーマル、カジュアルなどの発話表現がある。本実施形態の音声加工装置は、入力音声のスタイル及び所望のスタイルのそれぞれについて事前に作成しておいた音響特徴量に関する統計モデルを利用して、入力音声のテキストから、入力音声のスタイル及び所望のスタイルのそれぞれについてフレーム単位の音響特徴量を生成する。本実施形態の音声加工装置は、入力音声のスタイルについて生成された音響特徴量及び所望のスタイルについて生成された音響特徴量のフレームを対応付け、この対応付けに従って、入力音声のスタイルの音響特徴量と所望のスタイルの音響特徴量との差分値を算出する。本実施形態の音声加工装置は、入力音声から求めたフレーム単位の音響特徴量と、入力音声のテキストから入力音声のスタイルについて生成したフレーム単位の音響特徴量とを対応付ける。本実施形態の音声加工装置は、入力音声の各フレームの音響特徴量に、対応するフレームの音響特徴量を用いて算出した差分値を加算して、入力音声の音響特徴量を変更し、変更を反映した音声を出力する。これにより、本実施形態の音声加工装置は、原音声の音韻性や自然性を良好に保持したまま、スタイル変換を可能にする。

【0017】

図１は、本発明の一実施形態による音声加工装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置１は、１台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置１を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置１は、学習部２と、記憶部３と、音声加工部４とを備えて構成される。

【0018】

学習部２は、第一音声記憶部２１と、第一音響分析部２２と、第一学習用言語解析部２３と、第一統計モデル学習部２４と、第二音声記憶部２５と、第二音響分析部２６と、第二学習用言語解析部２７と、第二統計モデル学習部２８とを備えて構成される。また、記憶部３は、第一統計モデル記憶部３１と、第二統計モデル記憶部３２とを備えて構成される。

【0019】

第一音声記憶部２１は、第一学習用音声データを記憶する。第一学習用音声データは、変換前スタイル（第一のスタイル）によって、第一学習用テキストデータが示す文章を読み上げたときの学習用の音声データである。変換前スタイルは、音声加工部４に入力される入力音声データのスタイルであり、この入力音声データは、スタイル変換を行う対象の音声データである。なお、変換前スタイルが複数ある場合、第一学習用音声データには、スタイルの種類（例えば、「平静」など）を示す情報を付加しておく。
第一音響分析部２２は、第一音声記憶部２１から第一学習用音声データを読み出し、読み出した第一学習用音声データから時系列のフレーム単位の音響特徴量を取得する。
第一学習用言語解析部２３は、第一学習用テキストデータが示す文章の言語特徴量を取得する。

【0020】

第一統計モデル学習部２４は、第一音響分析部２２が第一学習用音声データから取得した音響特徴量と、第一学習用言語解析部２３が第一学習用テキストデータから取得した言語特徴量とを用いて、変換前スタイルの統計モデルを生成し、生成した統計モデルを第一統計モデル記憶部３１に書き込む。変換前スタイルの種類が複数ある場合、第一統計モデル学習部２４は、その種類ごとに統計モデルを生成する。例えば、第一統計モデル学習部２４は、「平静」のラベルが付与された第一学習用音声データの音響特徴量と、第一学習用テキストデータの言語特徴量とを用いて、スタイルが「平静」の統計モデルを生成する。第一統計モデル学習部２４は、スタイルの種類ごとに生成した統計モデルに、スタイルの種類を示す情報を付加して第一統計モデル記憶部３１に書き込む。

【0021】

第二音声記憶部２５は、第二学習用音声データを記憶する。第二学習用音声データは、変換後スタイル（第二のスタイル）によって、第二学習用テキストデータが示す文章を読み上げたときの学習用の音声データである。なお、第二学習用テキストデータは、第一学習用テキストデータと同一でもよく、異なっていてもよい。変換後スタイルは、音声加工部４において音声データを加工した結果として得たい音声データのスタイルである。なお、変換後スタイルが複数ある場合、第二学習用音声データには、スタイルの種類（例えば、「怒り」、「驚き」、「喜び」など）を示す情報を付加しておく。
第二音響分析部２６は、第二音声記憶部２５から第二学習用音声データを読み出し、読み出した第二学習用音声データから時系列のフレーム単位の音響特徴量を取得する。
第二学習用言語解析部２７は、第一学習用言語解析部２３と同様の処理により、第二学習用テキストデータが示す文章の言語特徴量を取得する。

【0022】

第二統計モデル学習部２８は、第二音響分析部２６が第二学習用音声データから取得した音響特徴量と、第二学習用言語解析部２７が第二学習用テキストデータから取得した言語特徴量とを用いて、変換後スタイルの統計モデルを生成し、生成した統計モデルを第二統計モデル記憶部３２に書き込む。変換後スタイルの種類が複数ある場合、第二統計モデル学習部２８は、その種類ごとに統計モデルを生成する。例えば、第二統計モデル学習部２８は、「怒り」のラベルが付与された第二学習用音声データの音響特徴量と、第二学習用テキストデータの言語特徴量とを用いて、スタイルが「怒り」の統計モデルを生成する。第二統計モデル学習部２８は、スタイルの種類ごとに生成した統計モデルに、スタイルの種類を示す情報を付加して第二統計モデル記憶部３２に書き込む。

【0023】

第一統計モデル学習部２４が生成する統計モデル及び第二統計モデル学習部２８が生成する統計モデルは、音響特徴量に関する統計モデルである。統計モデルには、例えば、３状態ＨＭＭ（Hidden Markov Model、隠れマルコフモデル）を用いた音響モデルを用いることができる。この音響モデルは、言語特徴量を反映した音素を適切な決定木を用いてクラスタリングにより分類した単位（以下、「音素クラスタリング単位」と記載する。）ごとに作成される。

【0024】

音声加工部４は、音声加工用言語解析部４１（言語解析部）と、第一統計モデル選択部４２と、第一音響特徴量生成部４３と、第二統計モデル選択部４４と、第二音響特徴量生成部４５と、加工情報生成部４６と、音声加工用音響分析部４７（音響分析部）と、音声加工処理部４８とを備えて構成される。

【0025】

音声加工用言語解析部４１は、第一学習用言語解析部２３及び第二学習用言語解析部２７と同様の処理により、入力音声テキストデータが示す文章の言語特徴量を取得する。入力音声テキストデータは、入力音声データの発話の内容を示す文章のテキストデータである。
第一統計モデル選択部４２は、変換前スタイルデータが示すスタイルに対応した統計モデルを第一統計モデル記憶部３１から読み出す。変換前スタイルデータは、入力音声データのスタイルを示す。
第一音響特徴量生成部４３は、第一統計モデル選択部４２が読み出した統計モデルと、音声加工用言語解析部４１から出力された言語特徴量とを用いて、時系列のフレーム単位の音響特徴量を生成する。生成された音響特徴量を、第一音響特徴量生成値と記載する。

【0026】

第二統計モデル選択部４４は、変換後スタイルデータが示すスタイルに対応した統計モデルを第二統計モデル記憶部３２から読み出す。変換後スタイルデータは、入力音声データを加工した結果として得たい音声データのスタイルを示す。
第二音響特徴量生成部４５は、第二統計モデル選択部４４が読み出した統計モデルと、音声加工用言語解析部４１から出力された言語特徴量とを用いて、時系列のフレーム単位の音響特徴量を生成する。生成された音響特徴量を、第二音響特徴量生成値と記載する。

【0027】

加工情報生成部４６は、第一対応フレーム検出部４６１と、加工情報算出部４６２とを備える。第一対応フレーム検出部４６１は、第一音響特徴量生成部４３が生成した第一音響特徴量生成値と、第二音響特徴量生成部４５が生成した第二音響特徴量生成値とを、値の類似性に基づいてフレーム単位で対応させる。加工情報算出部４６２は、対応するフレームごとに、第一音響特徴量生成値と第二音響特徴量生成値との差分に基づいて、音響特徴量の加工情報を作成する。

【0028】

音声加工用音響分析部４７は、入力音声データの音響特徴量を取得する。
音声加工処理部４８は、第二対応フレーム検出部４８１と、加工情報付加部４８２と、音声合成部４８３とを備える。第二対応フレーム検出部４８１は、第一音響特徴量生成部４３が生成した第一音響特徴量生成値と、音声加工用音響分析部４７が取得した音響特徴量とを、値の類似性に基づいてフレーム単位で対応させる。加工情報付加部４８２は、音声加工用音響分析部４７が取得した各フレームの音響特徴量を、対応するフレームの第一音響特徴量生成値を用いて加工情報生成部４６が生成した音響特徴量の加工情報に基づいて加工する。音声合成部４８３は、加工情報付加部４８２における加工により得られた音響特徴量の音声データを合成し、出力音声データとして出力する。

【0029】

なお、学習部２における第一統計モデル及び第二統計モデルの学習処理、学習処理により生成される第一統計モデル及び第二統計モデル、音声加工用言語解析部４１における言語解析処理、第一音響特徴量生成部４３及び第二音響特徴量生成部４５における音響特徴量生成処理には、ＨＴＳ（HMM-based speech synthesis system）などの既存の音声合成技術を利用することができる。

【0030】

図２は、本実施形態において用いる音響特徴量を説明するための図である。同図では、音声波形と音素表記とを対応付けて示している。音声波形からは、フレームごとに、ピッチ（基本周波数）、及び、周波数スペクトル（以下、「スペクトル」と記載する。）が得られる。音声波形からピッチや周波数スペクトルを取得する方法には、任意の従来技術を用いることができる。本実施形態では、フレーム長を２５ｍｓ（ミリ秒）、フレームシフトを５ｍｓとする。

【0031】

図３は、本実施形態において用いる音響特徴量を示す図である。同図に示す音響特徴量は、静特性及び動特性を含む１５３次元の情報であり、例えば、非特許文献１や、ＨＴＳなどを含む従来技術においても使用されている一般的なものである。あるフレームの静特性は、そのフレームの音声波形から得られた１次元のピッチ及び５０次元のスペクトル係数からなる５１次元の情報である。動特性の音響特徴量は、静特性の１次差分（５１次元）及び静特性の２次差分（５１次元）の情報を含む。あるフレームの静特性の１次差分は、そのフレームの静特性と隣接するフレームの静特性との差分である。あるフレームの静特性の２次差分（５１次元）は、そのフレームの１次差分と隣接するフレームの１次差分との差分である。

【0032】

図４は、本実施形態において用いる言語特徴量を示す図である。漢字仮名交じりの文からは、形態素解析により、アクセント句の区切り、呼気段落の区切り、アクセントの情報、及び品詞情報が得られる。さらに、漢字仮名交じりの文章は、単音素表記に変換された後、形態素解析により得られたアクセントの情報と併せて、単音素アクセント表記に変換される。単音素アクセント表記と、形態素解析で得られた品詞情報からは、言語特徴量として用いる文脈依存音素表記が得られる。この文脈依存音素表記は、例えば、ＨＴＳなどを含む従来技術においても一般的に使用されている言語特徴量である。

【0033】

文脈依存音素表記は、単音素表記で示される時系列の各音素の音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、及び音節数情報を含む。音素情報は、現在の音素を中心とした５つ分の音素の並びを示す。アクセント情報は、アクセント句における位置をモーラによって示す。品詞情報は、現在の単語や前後の単語の品詞を示す。アクセント句情報は、現在のアクセント句や前後のアクセント句のアクセントの種類、現在のアクセント句の位置を示す。呼気段落情報は、現在の呼気段落と前後の呼気段落のアクセント句の数やモーラの数、現在の呼気段落の位置を示す。音節数情報は、呼気段落、アクセント句、モーラの数を示す。

【0034】

次に、音声加工装置１の動作について説明する。以下では、変換前スタイルが「平静」であり、変換後スタイルが「怒り」である場合を例に説明する。
図５は、音声加工装置１による事前学習の処理フローを示す図である。
まず、第一音声記憶部２１には、スタイルが「平静」の学習用音声データである第一学習用音声データを記憶させておき、第二音声記憶部２５には、スタイルが「怒り」の学習用音声データである第二学習用音声データを記憶させておく。第一学習用音声データ及び第二学習用音声データはそれぞれ、同じ人物が文章を「平静」及び「怒り」のスタイルで読み上げたときの音声データである。「平静」のスタイルで読み上げる文章と、「怒り」のスタイルで読み上げ文章とは、同一でもよく、異なっていてもよい。各音素の音響特徴量は、その音素の前後の音素の影響を受ける。そこで、第一学習用音声データや第二学習用音声データには、様々な音素の並びがバランスよく含まれる音素バランス文の発話を用いることが望ましい。例えば、読み上げる文章として、以下の参考文献１、２で提案されている音素バランス５０３文を利用することができる。

【0035】

（参考文献１）磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論（春）、ｐ．８９−９０、１９８８年３月
（参考文献２）匂坂芳典、浦谷則好、「ＡＴＲ音声・言語データベース」、音響誌、４８巻、１２号、ｐ．８７８−８８２、１９９２年

【0036】

第一音響分析部２２は、第一音声記憶部２１からスタイル「平静」の情報が付加された第一学習用音声データを読み出す。第一音響分析部２２は、読み出した第一学習用音声データが示す音声波形から各文章のフレーム単位の音響特徴量を取得する（ステップＳ１１０）。第一学習用言語解析部２３は、第一学習用テキストデータが示す第一学習用音声データの発話内容の各文章から文脈依存音素表記を取得し、言語特徴量とする（ステップＳ１２０）。第一学習用テキストデータが示す読み上げ文章から求めた文脈依存音素表記は、実際に文章が読み上げられたときの音声波形と、ポーズの位置、アクセント区切り、アクセントの位置などが異なる場合がある。そこで、第一学習用言語解析部２３が取得した文脈依存音素表記を、人手で確認して修正する。

【0037】

第一統計モデル学習部２４は、各文章についてステップＳ１１０において得られた音響特徴量及びステップＳ１２０において得られた言語特徴量を用いて統計モデル機械学習により統計モデルを生成する（ステップＳ１３０）。統計モデル機械学習には、非特許文献１や参考文献３の技術を用いることができるが、任意の従来技術を用いてもよい。例えば、第一統計モデル学習部２４は、音素クラスタリング単位ごとに１５３次元の音響特徴量の平均、分散、各状態間の遷移確率、出力確率を求め、統計モデル機械学習により３状態ＨＭＭの音響モデルを求める。第一統計モデル学習部２４は、生成した音素クラスタリング単位ごとの音響モデルからなる統計モデルに、スタイル「平静」を示す情報を付加して第一統計モデル記憶部３１に書き込む。

【0038】

（参考文献３）Takayoshi Yoshimura，外４名，"Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis"，in Proc. EUROSPEECH，p.2347-2350，1999年

【0039】

第二音響分析部２６は、第二音声記憶部２５からスタイル「怒り」の情報が付加された第二学習用音声データを読み出す。第二音響分析部２６は、読み出した第二学習用音声データが示す音声波形から各文章のフレーム単位の音響特徴量を取得する（ステップＳ１４０）。第二学習用言語解析部２７は、第一学習用言語解析部２３と同様の処理により、第二学習用テキストデータが示す第二学習用音声データの発話内容の各文章から文脈依存音素表記を取得し、言語特徴量とする（ステップＳ１５０）。第二学習用言語解析部２７が取得した文脈依存音素表記については、人手で確認して修正する。

【0040】

第二統計モデル学習部２８は、各文章についてステップＳ１４０において得られた音響特徴量及びステップＳ１５０において得られた言語特徴量を用いて、第一統計モデル学習部２４と同様の機械学習により統計モデルを生成する（ステップＳ１６０）。第二統計モデル学習部２８は、生成した統計モデルに、スタイル「怒り」を示す情報を付加して第二統計モデル記憶部３２に書き込む。

【0041】

なお、音声加工装置１は、ステップＳ１１０の処理とステップＳ１２０の処理を並行して、あるいは、入れ替えて実行してもよい。同様に、音声加工装置１は、ステップＳ１４０の処理とステップＳ１５０の処理を並行して、あるいは、入れ替えて実行してもよい。また、音声加工装置１は、ステップＳ１１０〜ステップＳ１３０の処理と、ステップＳ１４０〜ステップＳ１６０の処理を並行して実行してもよく、順番を入れ替えて実行してもよい。また、変換前スタイル、及び、変換後スタイルがそれぞれ１つである場合、第一学習用音声データ、第二学習用音声データ、及び、統計モデルにスタイルを示す情報を付加しなくてもよい。
また、「平静」のスタイルで読み上げる文章と、「怒り」のスタイルで読み上げ文章とが同一である場合、第一学習用テキストデータまたは第二学習用テキストデータのいずれかのみを音声加工装置１に入力してもよい。第一学習用言語解析部２３または第二学習用言語解析部２７は、得られた言語特徴量を、第一統計モデル学習部２４及び第二統計モデル学習部２８に出力する。

【0042】

図６は、音声加工装置１による音声加工処理の処理フローを示す図である。
音声加工装置１には、入力音声データと、入力音声データの発話の内容を示す入力音声テキストデータと、変換前スタイルデータと、変換後スタイルデータとが入力される。入力音声データのスタイルや、変換により得たい音声データのスタイルが予め決められている場合には、変換前スタイルデータや、変換後スタイルデータの入力を省略することができる。入力音声データの話者と第一学習用音声データ及び第二学習用音声データの話者は、異なっていてもよい。

【0043】

音声加工用言語解析部４１は、第一学習用言語解析部２３及び第二学習用言語解析部２７と同様の処理により、入力音声テキストデータが示す文章の言語特徴量を取得する（ステップＳ２１０）。

【0044】

第一統計モデル選択部４２は、変換前スタイルデータが示すスタイル「平静」の統計モデルを第一統計モデル記憶部３１から読み出す（ステップＳ２２０）。第一音響特徴量生成部４３は、第一統計モデル選択部４２が読み出した統計モデルと、音声加工用言語解析部４１から出力された言語特徴量とを用いて、時系列の音響特徴量である第一音響特徴量生成値を生成する（ステップＳ２３０）。

【0045】

第二統計モデル選択部４４は、変換後スタイルデータが示すスタイル「怒り」の統計モデルを第二統計モデル記憶部３２から読み出す（ステップＳ２４０）。第二音響特徴量生成部４５は、第二統計モデル選択部４４が読み出した統計モデルと、音声加工用言語解析部４１から出力された言語特徴量とを用いて、時系列の音響特徴量である第二音響特徴量生成値を生成する（ステップＳ２５０）。

【0046】

加工情報生成部４６の第一対応フレーム検出部４６１は、第一音響特徴量生成部４３が生成した第一音響特徴量生成値と、第二音響特徴量生成部４５が生成した第二音響特徴量生成値とを値の類似性に基づいてフレーム単位で対応させる（ステップＳ２６０）。この対応付けには、例えば、動的計画法（ＤＴＷ）が用いられる。加工情報算出部４６２は、対応するフレームごとに第一音響特徴量生成値と第二音響特徴量生成値との差分を算出し、音響特徴量の加工情報とする（ステップＳ２７０）。

【0047】

音声加工用音響分析部４７は、入力音声データが示すが示す音声波形の音響特徴量を取得する（ステップＳ２８０）。音声加工処理部４８の第二対応フレーム検出部４８１は、第一音響特徴量生成部４３が生成した第一音響特徴量生成値と、音声加工用音響分析部４７が取得した音響特徴量とを値の類似性に基づいてフレーム単位で対応させる（ステップＳ２９０）。加工情報付加部４８２は、音声加工用音響分析部４７が取得した各フレームの音響特徴量に、対応するフレームの第一音響特徴量生成値を用いて加工情報生成部４６が生成した音響特徴量の加工情報を加算する（ステップＳ３００）。音声合成部４８３は、加工情報が加算された入力音声データの音響特徴量の音声データを合成し、加工音声データとする。音声合成部４８３は、生成した加工音声データを、音声加工装置１からの出力音声データとして出力する（ステップＳ３１０）。

【0048】

なお、音声加工装置１は、ステップＳ２２０〜ステップＳ２３０の処理と、ステップＳ２４０〜ステップＳ２５０の処理を並行して、あるいは入れ替えて実行してもよい。また、音声加工装置１は、ステップＳ２１０〜ステップＳ２７０の処理と、ステップＳ２８０の処理を並行して、あるいは、入れ替えて実行してもよい。

【0049】

図６に示す音声加工処理を、データの図を用いて説明する。
図７は、音声加工装置１におけるテキストからの音響特徴量取得処理を説明するための図である。同図は、図６のステップＳ２１０〜ステップＳ２５０の処理を示す。この処理により、入力音声テキストデータが示す漢字仮名交じりの文章から、第一音響特徴量生成値や第二音響特徴量生成値が生成される。

【0050】

図６のステップＳ２１０において、音声加工用言語解析部４１は、入力音声テキストデータが示す漢字仮名交じりの文章から、文脈依存音素表記の言語特徴量を得る。
図６のステップＳ２３０において、第一音響特徴量生成部４３は、文脈依存音素の並びに応じて、スタイル「平静」の統計モデルが示す各音素クラスタリング単位の音響モデルを接続する。第一音響特徴量生成部４３は、接続確率が最小となる組み合わせを選択することにより、５ｍｓのフレームシフトごとの音響特徴量を生成する。ここで生成される各フレームの音響特徴量は、１次元のピッチ及び５０次元のスペクトル係数からなる５１次元の静特性である。この音響特徴量の生成には、例えば、非特許文献１の方法を用いることができるが、テキストデータと音響モデルから音響特徴量を得るための任意の既存技術を用いてもよい。生成された音響特徴量は、スタイルが「平静」の時系列のフレームごとの第一音響特徴量生成値となる。

【0051】

同様に、図６のステップＳ２５０において、第二音響特徴量生成部４５は、スタイルが「怒り」の時系列のフレームごとの第二音響特徴量生成値を得る。つまり、第二音響特徴量生成部４５は、文脈依存音素の並びに応じて、スタイル「怒り」の統計モデルが示す各音素クラスタリング単位の音響モデルを接続する。第二音響特徴量生成部４５は、接続確率が最小となる組み合わせを選択し、５ｍｓのフレームシフトごとの５１次元の音響特徴量を生成する。生成された音響特徴量は、スタイルが「怒り」の時系列のフレームごとの第二音響特徴量生成値となる。

【0052】

図８は、音声加工装置１における加工情報生成処理を説明するための図である。同図は、図６のステップＳ２６０〜ステップＳ２７０の処理を示す。図７に示す処理により、第一音響特徴量生成部４３は、スタイルが「平静」の５ｍｓのフレームシフトごとの第一音響特徴量生成値を生成し、第二音響特徴量生成部４５は、スタイルが「怒り」の５ｍｓのフレームシフトごとの第一音響特徴量生成値を生成する。ｉ番目（ｉは１以上の整数）のフレームの第一音響特徴量生成値をＡｉと記載し、ｉ番目（ｉは１以上の整数）のフレームの第二音響特徴量生成値をＢｉと記載する。図６のステップＳ２６０において、加工情報生成部４６の第一対応フレーム検出部４６１は、第一音響特徴量生成値Ａ１、Ａ２、…と、第二音響特徴量生成値Ｂ１、Ｂ２、…とを、５０次元のスペクトル係数による距離尺度を用いて、動的計画法（ＤＴＷ）などにより対応付ける。第一対応フレーム検出部４６１は、この対応付を文章全体で行う。

【0053】

図６のステップＳ２７０において、加工情報算出部４６２は、対応付けられたフレームの第一音響特徴量生成値と第二音響特徴量生成値との差分を算出し、加工情報とする。加工情報算出部４６２は、１フレームの第一音響特徴量生成値と複数のフレームの第二音響特徴量生成値とが対応する場合、第一音響特徴量生成値のフレームが、対応する第二音響特徴量生成値のフレーム数分あるものとして、加工情報を生成する。また、加工情報算出部４６２は、複数のフレームの第一音響特徴量生成値と１つのフレームの第二音響特徴量生成値とが対応する場合、それら複数のフレームの第一音響特徴量生成値のそれぞれについて、対応するフレームの第二音響特徴量生成値との差分により加工情報を生成する。ｉ番目のフレームの加工情報をＣｉと記載する。

【0054】

例えば、第一音響特徴量生成値Ａ１と第二音響特徴量生成値Ｂ１とが対応するため、加工情報算出部４６２は、それらの差分を算出して加工情報Ｃ１とする。つまり、加工情報Ｃ１＝第二音響特徴量生成値Ｂ１−第一音響特徴量生成値Ａ１である。
第一音響特徴量生成値Ａ２は、第二音響特徴量生成値Ｂ２及び第二音響特徴量生成値Ｂ３と対応しているため、第二音響特徴量生成値Ｂ２と第二音響特徴量生成値Ｂ３のそれぞれに対応する２フレーム分の第一音響特徴量生成値Ａ２があるものとする。加工情報算出部４６２は、第一音響特徴量生成値Ａ２と第二音響特徴量生成値Ｂ２との差分を算出して加工情報Ｃ２とし、第一音響特徴量生成値Ａ２と第二音響特徴量生成値Ｂ３との差分を算出して加工情報Ｃ３とする。つまり、加工情報Ｃ２＝第二音響特徴量生成値Ｂ２−第一音響特徴量生成値Ａ２であり、加工情報Ｃ３＝第二音響特徴量生成値Ｂ３−第一音響特徴量生成値Ａ２である。
第一音響特徴量生成値Ａ３は第二音響特徴量生成値Ｂ４と対応するため、加工情報算出部４６２は、それらの差分を算出して加工情報Ｃ４とする。つまり、加工情報Ｃ４＝第二音響特徴量生成値Ｂ４−第一音響特徴量生成値Ａ３である。
第一音響特徴量生成値Ａ４及び第一音響特徴量生成値Ａ５は、第二音響特徴量生成値Ｂ５と対応している。そこで、加工情報算出部４６２は、第一音響特徴量生成値Ａ４と第二音響特徴量生成値Ｂ５との差分を算出して加工情報Ｃ５とし、第一音響特徴量生成値Ａ５と第二音響特徴量生成値Ｂ５との差分を算出して加工情報Ｃ６とする。つまり、加工情報Ｃ５＝第二音響特徴量生成値Ｂ５−第一音響特徴量生成値Ａ４であり、加工情報Ｃ６＝第二音響特徴量生成値Ｂ５−第一音響特徴量生成値Ａ５である。
第一音響特徴量生成値Ａ６は、第二音響特徴量生成値Ｂ６及び第二音響特徴量生成値Ｂ７と対応している。従って、加工情報Ｃ７＝第二音響特徴量生成値Ｂ６−第一音響特徴量生成値Ａ６であり、加工情報Ｃ８＝第二音響特徴量生成値Ｂ７−第一音響特徴量生成値Ａ６である。
加工情報算出部４６２は、同様の処理を繰り返して加工情報Ｃ１、Ｃ２、…を生成する。

【0055】

図９は、音声加工装置１における入力音声の加工処理を説明するための図である。同図は、図６のステップＳ２８０〜ステップＳ３００の処理を示す。
図６のステップＳ２８０において、音声加工用音響分析部４７は、スタイルが「平静」の入力音声データから、フレーム長２５ｍｓ、フレームシフト５ｍｓの音響特徴量を得る。ここで得られる音響特徴量は、１次元のピッチ及び５０次元のスペクトル係数からなる５１次元の静特性である。入力音声データから得られたｉ番目のフレームの音響特徴量を、音響特徴量Ｄｉと記載する。

【0056】

図６のステップＳ２９０において、音声加工処理部４８の第二対応フレーム検出部４８１は、入力音声データの音響特徴量Ｄ１、Ｄ２、…と、第一音響特徴量生成値Ａ１、Ａ２、…とを、第一対応フレーム検出部４６１と同様に、５０次元のスペクトル係数による距離尺度を用いて、動的計画法（ＤＴＷ）などにより対応付ける。

【0057】

なお、フレームの対応付は、文章全体で行うが、音素ごとにおこなってもよい。音素ごとに対応付を行う場合は、入力音声とその音素列を用いてアラインメント処理を行うことにより、音声のどの部分がどの音素に対応するかを求めておく。

【0058】

図６のステップ３００において、加工情報付加部４８２は、入力音声データの各フレームの音響特徴量に、その音響特徴量に対応付けられた第一音響特徴量生成値から生成された音響特徴量の加工情報を加算する。加工情報付加部４８２は、入力音声データの１フレームの音響特徴量と複数のフレームの第一音響特徴量生成値とが対応する場合、その入力音声データの音響特徴量に、対応する複数の第一音響特徴量生成値のそれぞれから生成された加工情報の平均を加算する。また、加工情報付加部４８２は、入力音声データの複数のフレームの音響特徴量と１つのフレームの第一音響特徴量生成値とが対応する場合、それら複数のフレームの音響特徴量それぞれに、対応する第一音響特徴量生成値から生成された加工情報を加算する。加工により得られたｉ番目のフレームの音響特徴量をＥｉと記載する。

【0059】

例えば、音響特徴量Ｄ１と第一音響特徴量生成値Ａ１とが対応するため、加工情報付加部４８２は、音響特徴量Ｄ１に、第一音響特徴量生成値Ａ１から生成された加工情報Ｃ１を加算し、音響特徴量Ｅ１とする。つまり、音響特徴量Ｅ１＝音響特徴量Ｄ１＋加工情報Ｃ１である。
音響特徴量Ｄ２及びＤ３は、第一音響特徴量生成値Ａ２と対応し、第一音響特徴量生成値Ａ２からは加工情報Ｃ２及びＣ３が生成されている。そのため、加工情報付加部４８２は、音響特徴量Ｄ２に、第一音響特徴量生成値Ａ２を用いて生成された１つ目の加工情報Ｃ２を加算して音響特徴量Ｅ２とし、音響特徴量Ｄ３に、第一音響特徴量生成値Ａ２を用いて生成された２つめの加工情報Ｃ３を加算して音響特徴量Ｅ３とする。つまり、音響特徴量Ｅ２＝音響特徴量Ｄ２＋加工情報Ｃ２であり、音響特徴量Ｅ３＝音響特徴量Ｄ３＋加工情報Ｃ３である。
音響特徴量Ｄ４は、第一音響特徴量生成値Ａ３と対応するため、加工情報付加部４８２は、音響特徴量Ｄ４に、第一音響特徴量生成値Ａ３を用いて生成された加工情報Ｃ４を加算して音響特徴量Ｅ４とする。つまり、音響特徴量Ｅ４＝音響特徴量Ｄ４＋加工情報Ｃ４である。
音響特徴量Ｄ５は、第一音響特徴量生成値Ａ４及びＡ５との２フレーム分に対応するため、加工情報付加部４８２は、音響特徴量Ｄ５に、第一音響特徴量生成値Ａ４から生成された加工情報Ｃ５と第一音響特徴量生成値Ａ５から生成された加工情報Ｃ６との平均を加算して音響特徴量Ｅ５とする。つまり、音響特徴量Ｅ５＝音響特徴量Ｄ５＋Ａｖｇ（加工情報Ｃ５＋加工情報Ｃ６）である。なお、Ａｖｇ（ｘ＋ｙ）は、ｘとｙの平均を示す。
音響特徴量Ｄ６は、第一音響特徴量生成値Ａ６と対応し、第一音響特徴量生成値Ａ６からは加工情報Ｃ７及び加工情報Ｃ８が生成されている。加工情報付加部４８２は、音響特徴量Ｄ６に、加工情報Ｃ７と加工情報Ｃ８の平均を加算して音響特徴量Ｅ６とする。つまり、音響特徴量Ｅ６＝音響特徴量Ｄ６＋Ａｖｇ（加工情報Ｃ７＋加工情報Ｃ８）である。
加工情報算出部４６２は、同様の処理を繰り返し、入力音声データの時系列の音響特徴量を、音響特徴量Ｅ１、Ｅ２、…に変更する。

【0060】

図６のステップＳ３１０において、音声合成部４８３は、音響特徴量Ｅ１、Ｅ２、…からなる音声データを合成し、入力音声データのピッチ及びスペクトルを変換した加工音声データを得る。この変換には、例えば、特許文献１、２の方法を用いることができるが、任意の音声合成の従来技術を用いてもよい。音声合成部４８３は、加工音声データの時間長が、第二音響特徴量生成値のフレーム数に対応した時間長となるように圧縮し、出力音声データとして出力する。これにより、「怒り」の感情にスタイル変換された音声波形が得られる。

【0061】

図１０は、音声加工装置１を用いてスタイル変換した入力音声データと加工音声データを示す図である。同図では、上から順にピッチ、スペクトル、音素ラベル、及び音声波形を示している。横軸は時間であり、縦軸は、ピッチとスペクトルでは周波数、音声波形では音量であり、それぞれ時間変化を示している。

【0062】

上述した実施形態では、音響特徴量に、ピッチ及びスペクトルを使用したが、いずれか一方のみを使用してもよい。

【0063】

また、話者ごとに感情表現は異なる。そこで、話者毎に変換前スタイル及び変換後スタイルの統計モデルを作成しておき、音声加工処理においていずれの話者の学習用音声データから学習した統計モデルを用いるかを指定してもよい。これにより、入力音声データにいずれの話者の感情表現を付与するかを指定することができる。

【0064】

図１１は、音声加工装置１について行った主観評価実験の諸元を示す図である。
事前実験により文意が無感情と判定された１０文を「平静」のスタイルで読み上げ、入力音声データとした。この入力音声データを、音声加工装置１により、「喜び」、「怒り」、「悲哀」のそれぞれスタイルに変換し、３０文の音声データに加工した。被験者は、男性５名、女性５名であり、一般的な実験室においてスピーカーにより変換後の音声データを被験者に呈示した。
実験方法は以下のとおりである。すなわち、音声加工装置１により加工された３０文の全ての音声データからランダムに選択して被験者に呈示した。被験者は、呈示された音声データがどのような感情表現に聞こえるかを、「喜び」、「驚き」、「怒り」、「嫌悪」、「悲哀」、「恐れ」の６感情と、「無感情」及び「不明」とを合わせた８つのカテゴリーの中から選択した。１つの音声データについて、１０名の被験者が判定した。

【0065】

図１２は、音声加工装置１について行った主観評価実験において使用した統計モデルを生成するために用いた学習データに対する判定感情を示す図である。学習用音声データの話者は、入力音声データの話者と同一である。
スタイル「無感情」の統計モデルを生成するために第一学習用音声データとして用いた音声データについては、スタイルが「無感情」であると判定した被験者は８５．６５％であった。
また、スタイル「喜び」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「喜び」であると判定した被験者は８０．９２％であった。
同様に、スタイル「怒り」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「怒り」であると判定した被験者は７８．００％であった。
そして、変換後スタイル「悲哀」の統計モデルを生成するために第二学習用音声データとして用いた音声データについては、スタイルが「悲哀（悲しみ）」であると判定した被験者は６１．１２％であった。
このように、学習データに対してスタイルが正しく判定される割合は、６１．１２％〜８５．６５％であった。

【0066】

図１３は、音声加工装置１について行った主観評価実験の評価結果を示す図である。
音声加工装置１が変換前スタイル「無感情」の統計モデルと、変換後スタイル「喜び」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、４９％の被験者がスタイルを「喜び」と判定した。
また、音声加工装置１が変換前スタイル「無感情」の統計モデルと、変換後スタイル「怒り」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、７１．０％の被験者がスタイルを「怒り」と判定した。
また、音声加工装置１が変換前スタイル「無感情」の統計モデルと、変換後スタイル「悲哀」の統計モデルを使用して、スタイルが「平静」の入力音声データを変換して得られた音声データに対しては、７７．０％の被験者がスタイルを「悲哀」と判定した。
上記によれば、正答率は、「喜び」が４９．０％、「怒り」が７１．０％、「悲哀」が７７．０％であり、平均の正答率は６５．７％となった。
このように、特定の話者が発声した音声に対して、同じ話者から抽出した感情を付与した場合の主観評価の正答率は６０％以上となり、本実施形態の有効性が確認された。

【0067】

以上説明した実施形態によれば、音声加工装置１は、音声のスタイル変換を簡易かつ精度良く行うことが可能となる。

【0068】

なお、上述の音声加工装置１は、内部にコンピュータシステムを有している。そして、音声加工装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

【0069】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0070】

１音声加工装置
２学習部
３記憶部
４音声加工部
２１第一音声記憶部
２２第一音響分析部
２３第一学習用言語解析部
２４第一統計モデル学習部
２５第二音声記憶部
２６第二音響分析部
２７第二学習用言語解析部
２８第二統計モデル学習部
３１第一統計モデル記憶部
３２第二統計モデル記憶部
４１音声加工用言語解析部（言語解析部）
４２第一統計モデル選択部
４３第一音響特徴量生成部
４４第二統計モデル選択部
４５第二音響特徴量生成部
４６加工情報生成部
４７音声加工用音響分析部（音響分析部）
４８音声加工処理部
４６１第一対応フレーム検出部
４６２加工情報算出部
４８１第二対応フレーム検出部
４８２加工情報付加部
４８３音声合成部

【図1】