特開2016-151715 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2016-151715音声加工装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2016-151715(P2016-151715A)

(43)【公開日】2016年8月22日

(54)【発明の名称】音声加工装置、及びプログラム

(51)【国際特許分類】

G10L 21/007 20130101AFI20160725BHJP

【ＦＩ】

G10L21/007

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

【全頁数】13

(21)【出願番号】特願2015-29995(P2015-29995)

(22)【出願日】2015年2月18日

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100064908

【弁理士】

【氏名又は名称】志賀正武

(74)【代理人】

【識別番号】100108578

【弁理士】

【氏名又は名称】高橋詔男

(72)【発明者】

【氏名】齋藤礼子

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】今井篤

(72)【発明者】

【氏名】都木徹

(57)【要約】

【課題】コストを低減しながら、任意の話者の任意の発話の平静音声を感情音声に加工する。
【解決手段】音声加工装置１の音声分析部１４は、変換対象話者の平静音声の音声データからフレーム単位の音響特徴量を取得する。第一変換部１５１は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための規則を用いて、音声分析部１４が取得した各フレームの音響特徴量を変換する。第二変換部１５２は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための規則を用いて、音声分析部１４が取得した各フレームの音響特徴量を変換する。差分取得部１５３は、フレーム単位で、第二変換部１５２が得た音響特徴量について、第一変換部１５１が得た音響特徴量に対する差分を算出する。加工部１５４は、フレーム単位で、音声分析部１４が取得した音響特徴量に、差分取得部１５３が算出した差分を加算する。
【選択図】図１

【特許請求の範囲】

【請求項1】

変換対象話者の平静音声の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析部と、
変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第一変換部と、
変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第二変換部と、
フレーム単位で、前記第二変換部が変換により得た前記音響特徴量について、前記第一変換部が変換により得た前記音響特徴量に対する差分を算出する差分取得部と、
フレーム単位で、前記音声分析部が取得した前記音響特徴量に、前記差分取得部が算出した差分を加算する加工部と、
を備えることを特徴とする音声加工装置。

【請求項2】

前記差分取得部は、前記第一変換部が変換により得た前記音響特徴量と前記第二変換部が変換により得た前記音響特徴量とを正規化した後、フレーム単位で差分を算出する、
ことを特徴とする請求項１に記載の音声加工装置。

【請求項3】

前記変換対象話者の学習用の平静音声のデータである第一音声データと、前記第一音声データと同じ発話内容の参照話者の学習用の平静音声のデータである第二音声データとに基づいて前記第一変換規則を取得する処理と、前記第一音声データと、前記第一音声データと同じ発話内容の前記参照話者の学習用の感情音声のデータである第三音声データとに基づいて前記第二変換規則を取得する処理とを行う変換規則学習部をさらに備える、
ことを特徴とする請求項１または請求項２に記載の音声加工装置。

【請求項4】

前記音響特徴量は、周波数スペクトルに関する特徴量である、
ことを特徴とする請求項１から請求項３のいずれか1項に記載の音声加工装置。

【請求項5】

コンピュータを、
変換対象話者の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析手段と、
変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第一変換手段と、
変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第二変換手段と、
フレーム単位で、前記第二変換手段が変換により得た前記音響特徴量について、前記第一変換手段が変換により得た前記音響特徴量に対する差分を算出する差分取得手段と、
フレーム単位で、前記音声分析手段が取得した前記音響特徴量に、前記差分取得手段が算出した差分を加算する加工手段と、
を具備する音声加工装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声加工装置、及びプログラムに関する。

【背景技術】

【0002】

音声に多様な発話スタイルを付与する音声加工方法は、コンテンツ制作や音声によるインターフェースなどで必要とされる音声表現のバリエーションを拡大できる。多様な発話スタイルとしては、特に感情表現への音声加工方法が多く検討されている。
平静音声を感情表現に変換する方法として、確率モデルによる声質変換を応用する方法が考案されている（例えば、非特許文献１参照）。しかし、確率モデルの構築には、変換したい変換対象話者の平静音声と感情音声のパラレルデータが必要となる。よって、事前に変換対象話者の感情音声が存在しない場合は利用できない。
また、テキストから任意話者の感情音声を合成する方法として、ＨＭＭ音声合成を用いて、学習話者の平静音声モデルと感情音声とから学習した感情付与モデルを、任意話者の平静音声モデルに付与する方法が考案されている（例えば、非特許文献２参照）。しかし、この技術は、任意話者についても事前に平静音声のデータベースを用意する必要がある。このデータベースは、音響特徴量だけでなく、言語情報なども含まれるため、新規作成にはコストがかかる。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】岩見洋平、外４名、「ＧＭＭに基づく声質変換を用いた感情音声合成」、一般社団法人電子情報通信学会、電子情報通信学会技術研究報告.ＳＰ、音声１０２（６１９）、２００３年、ｐ．１１−１６

【非特許文献2】大谷大和、外５名、「ＨＭＭ音声合成における加算モデルに基づく任意話者への感情付与法の検討」、日本音響学会講演論文集２０１４春季、２−７−２、２０１４年、ｐ.２３３−２３６

【発明の概要】

【発明が解決しようとする課題】

【0004】

様々なシチュエーションの音声に対し、多様な発話スタイルを付与できる音声加工方法を実現するためには、任意の話者の任意の発話内容の音声に対して、事前に感情音声のデータがなく、平静音声のデータも小規模しか与えられない場合でも、感情表現を付与できることが必要である。

【0005】

本発明は、このような事情を考慮してなされたもので、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる音声加工装置、及びプログラムを提供する。

【課題を解決するための手段】

【0006】

本発明の一態様は、変換対象話者の平静音声の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析部と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第一変換部と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析部が取得した各フレームの前記音響特徴量を変換する第二変換部と、フレーム単位で、前記第二変換部が変換により得た前記音響特徴量について、前記第一変換部が変換により得た前記音響特徴量に対する差分を算出する差分取得部と、フレーム単位で、前記音声分析部が取得した前記音響特徴量に、前記差分取得部が算出した差分を加算する加工部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の平静音声の音響特徴量を得る。さらに、音声加工装置は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、変換対象話者の平静音声の音声データの音響特徴量を変換して参照話者の感情音声の音響特徴量を得る。音声加工装置は、参照話者の感情音声の音声データの音響特徴量について、参照話者の平静音声の音声データの音響特徴量に対する差分を得ると、得られた差分を変換対象話者の平静音声の音響特徴量に加算して、変換対象話者の感情音声の音響特徴量を得る。
これにより、音声加工装置は、変換対象話者の感情音声を事前に用意することなく、簡易な処理によって、任意の話者の任意の発話の平静音声を感情音声に加工することができる。

【0007】

本発明の一態様は、上述する音声加工装置であって、前記差分取得部は、前記第一変換部が変換により得た前記音響特徴量と前記第二変換部が変換により得た前記音響特徴量とを正規化した後、フレーム単位で差分を算出する、ことを特徴とする。
この発明によれば、音声加工装置は、第一変換規則を用いて変換対象話者の平静音声の音声データを変換して得た参照話者の平静音声の音響特徴量と、第二変換規則を用いて変換対象話者の平静音声の音声データの音響特徴量を変換して得た参照話者の感情音声の音響特徴量とに正規化を行ってからそれらの差分を算出し、変換対象話者の平静音声の音響特徴量に加算する。
これにより、音声加工装置は、変換対象話者の任意発話を、変換対象話者の感情音声に精度よく変換することができる。

【0008】

本発明の一態様は、上述する音声加工装置であって、前記変換対象話者の学習用の平静音声のデータである第一音声データと、前記第一音声データと同じ発話内容の参照話者の学習用の平静音声のデータである第二音声データとに基づいて前記第一変換規則を取得する処理と、前記第一音声データと、前記第一音声データと同じ発話内容の前記参照話者の学習用の感情音声のデータである第三音声データとに基づいて前記第二変換規則を取得する処理とを行う変換規則学習部をさらに備える、ことを特徴とする。
この発明によれば、音声加工装置は、同じ発話内容の変換対象話者の平静音声の音声データと、参照話者の平静音声及び感情音声の音声データとを用いて、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則及び変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を学習する。
これにより、音声加工装置は、変換対象話者の感情音声がなくとも、変換対象話者の平静音声と、参照話者の平静音声及び感情音声との少量の学習データを用いて、コストを低減しながら、変換規則を得ることができる。

【0009】

本発明の一態様は、上述する音声加工装置であって、前記音響特徴量は、周波数スペクトルに関する特徴量である、ことを特徴とする。
この発明によれば、音声加工装置は、音響特徴量として、音声波形から得られる周波数スペクトルに関する特徴量を用いる。
これにより、音声加工装置は、変換対象話者の任意発話の声質を変換して、変換対象話者の感情音声に変換することができる。

【0010】

本発明の一態様は、コンピュータを、変換対象話者の音声データを音響分析してフレーム単位の音響特徴量を取得する音声分析手段と、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための第一変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第一変換手段と、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための第二変換規則を用いて、前記音声分析手段が取得した各フレームの前記音響特徴量を変換する第二変換手段と、フレーム単位で、前記第二変換手段が変換により得た前記音響特徴量について、前記第一変換手段が変換により得た前記音響特徴量に対する差分を算出する差分取得手段と、フレーム単位で、前記音声分析手段が取得した前記音響特徴量に、前記差分取得手段が算出した差分を加算する加工手段と、を具備する音声加工装置として機能させるためのプログラムである。

【発明の効果】

【0011】

本発明によれば、コストを低減しながら、事前に感情音声を用意していない任意話者の任意発話の平静音声を感情音声に加工することができる。

【図面の簡単な説明】

【0012】

【図1】本発明の一実施形態による音声加工装置の機能ブロック図である。

【図2】同実施形態による音声加工装置の変換規則学習処理を示す処理フローである。

【図3】同実施形態による音声加工装置の変換規則学習処理を説明するための図である。

【図4】同実施形態による音声加工装置の音声加工処理を示す処理フローである。

【図5】同実施形態による音声加工装置の音声加工処理における参照話者の音響特徴量への変換を説明するための図である。

【図6】同実施形態による音声加工装置の音声加工処理における音響特徴量の差分の取得を説明するための図である。

【図7】同実施形態による音声加工装置の音声加工処理における変換対象話者の変換対象音声の音響特徴量の加工を説明するための図である。

【発明を実施するための形態】

【0013】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本発明の一実施形態による音声加工装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。音声加工装置１は、１台または複数台のコンピュータ装置により実現される。複数台のコンピュータ装置により音声加工装置１を実現する場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。同図に示すように、音声加工装置１は、学習用音声分析部１１と、変換規則学習部１２と、変換規則記憶部１３と、音声分析部１４と、スペクトル変換部１５と、音声合成部１６とを備えて構成される。

【0014】

学習用音声分析部１１は、学習用音声データが示す音声波形を分析し、所定のフレームシフト及びフレーム長により、フレーム単位の音響特徴量を取得する。音響特徴量には、周波数スペクトルに関する特徴量を用いることができる。本実施形態では、音響特徴量として、音声波形の周波数スペクトルから得られる５０次元のスペクトルパラメータ（例えば、メルケプストラム）を用いる。音声波形から周波数スペクトルを取得する方法や、周波数スペクトルに関する特徴量を取得する方法には、任意の従来技術を用いることができる。学習用音声データは、同じ発話内容の変換対象話者の学習用平静音声データ（第一音声データ）と、参照話者の学習用平静音声データ（第二音声データ）及び学習用感情音声データ（第三音声データ）である。変換対象話者は、任意発話の平静音声の音声データを感情音声の音声データに変換する対象の話者であり、参照話者は、学習用の音声データを提供する、変換対象話者とは異なる話者である。学習用平静音声データは、学習用の平静音声の音声データであり、学習用感情音声データは、学習用の感情音声の音声データである。また、平静音声は、感情が込められていない音声であり、感情音声は、感情が込められた音声である。参照話者の学習用感情音声データは、変換対象話者の任意発話の平静音声に対して付加したい感情が込められた音声である。

【0015】

変換規則学習部１２は、学習用音声分析部１１が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用平静音声データの音響特徴量とに基づいて第一変換規則を取得する。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための規則である。また、変換規則学習部１２は、学習用音声分析部１１が取得した変換対象話者の学習用平静音声データの音響特徴量と、参照話者の学習用感情音声データの音響特徴量とに基づいて第二変換規則を取得する。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための規則である。
変換規則記憶部１３は、変換規則学習部１２が取得した第一変換規則及び第二変換規則を記憶する。

【0016】

音声分析部１４は、変換対象話者の変換対象音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する。変換対象音声データは、変換対象話者の任意発話の平静音声の音声データである。
スペクトル変換部１５は、変換対象話者の任意発話の平静音声のスペクトルを、感情音声のスペクトルに変換する。スペクトル変換部１５は、第一変換部１５１、第二変換部１５２、差分取得部１５３、及び加工部１５４を備えて構成される。
第一変換部１５１は、音声分析部１４が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部１３に記憶されている第一変換規則を用いて変換する。
第二変換部１５２は、音声分析部１４が変換対象音声データから得た各フレームの音響特徴量を、変換規則記憶部１３に記憶されている第二変換規則を用いて変換する。
差分取得部１５３は、フレーム単位で、第二変換部１５２が変換により得た音響特徴量について、第一変換部１５１が変換により得た音響特徴量に対する差分を算出する。
加工部１５４は、フレーム単位で、音声分析部１４が取得した音響特徴量に、差分取得部１５３が算出した差分を加算する加工をする。
音声合成部１６は、加工部１５４が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する。

【0017】

なお、学習用音声分析部１１、変換規則学習部１２、及び、変換規則記憶部１３を外部の装置が備え、事前に第一変換規則及び第二変換規則を学習して変換規則記憶部１３に記憶しておき、必要な都度、第一変換部１５１、第二変換部１５２がそれぞれ、変換規則記憶部１３から第一変換規則、第二変換規則を取り込むようにしてもよい。

【0018】

図２は、音声加工装置１の変換規則学習処理を示す処理フローである。
まず、音声加工装置１に、同じ文章を読み上げた変換対象話者の学習用平静音声データと、参照話者の学習用平静音声データ及び学習用感情音声データとが入力される。この文章には、様々な音素と、その音素の様々な並びがバランスよく含まれる音素バランス文を用いることが望ましい。

【0019】

学習用音声分析部１１は、変換対象話者の学習用平静音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する（ステップＳ１１０）。同様に、学習用音声分析部１１は、参照話者の学習用平静音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得し（ステップＳ１２０）、参照話者の学習用感情音声データが示す音声波形を音響分析してフレーム単位の音響特徴量を取得する（ステップＳ１３０）。

【0020】

変換規則学習部１２は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用平静音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける（ステップＳ１４０）。変換規則学習部１２は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用平静音声データの音響特徴量に基づいて第一変換規則を算出する（ステップＳ１５０）。第一変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の平静音声の音響特徴量に変換するための関数である。この第一変換規則として得られた関数を、「第一変換関数」と記載する。変換規則学習部１２は、算出した第一変換関数を変換規則記憶部１３に書き込む。

【0021】

さらに、変換規則学習部１２は、変換対象話者の学習用平静音声データから得られた音響特徴量と、参照話者の学習用感情音声データから得られた音響特徴量とを、それらの値の類似性に基づいてフレーム単位で対応付ける（ステップＳ１６０）。変換規則学習部１２は、対応付けられたフレームにおける変換対象話者の学習用平静音声データの音響特徴量及び参照話者の学習用感情音声データの音響特徴量に基づいて第二変換規則を算出する（ステップＳ１７０）。第二変換規則は、変換対象話者の平静音声の音響特徴量を参照話者の感情音声の音響特徴量に変換するための関数である。この第二変換規則として得られた関数を、「第二変換関数」と記載する。この第二変換関数には、第一変換関数と同様に算出される。変換規則学習部１２は、算出した第二変換関数を変換規則記憶部１３に書き込む。

【0022】

なお、音声加工装置１は、ステップＳ１１０〜ステップＳ１３０の各処理を、並行して実行してもよく、任意の順番で実行してもよい。また、音声加工装置１は、ステップＳ１４０〜ステップＳ１５０の処理とステップＳ１６０〜ステップＳ１７０の処理とを、並行して実行してもよく、任意の順番で実行してもよい。

【0023】

図３は、音声加工装置１の図２に示す変換規則学習処理を説明するための図である。
図２のステップＳ１１０において、学習用音声分析部１１は、変換対象話者の学習用平静音声データからフレーム単位の音響特徴量Ａ１、Ａ２、Ａ３、…を取得する。Ａｉ（ｉは１以上の整数）は、変換対象話者の学習用平静音声データが示す音声波形から得られたｉ番目のフレームの音響特徴量である。
また、図２のステップＳ１２０において、学習用音声分析部１１は、参照話者の学習用平静音声データからフレーム単位の音響特徴量Ｂ１、Ｂ２、Ｂ３、…を取得する。Ｂｊ（ｊは１以上の整数）は、参照話者の学習用平静音声データが示す音声波形から得られたｊ番目のフレームの音響特徴量である。
また、図２のステップＳ１３０において、学習用音声分析部１１は、参照話者の学習用感情音声データからフレーム単位の音響特徴量Ｃ１、Ｃ２、Ｃ３、…を取得する。Ｃｋ（ｋは１以上の整数）は、参照話者の学習用感情音声データが示す音声波形から得られたｋ番目のフレームの音響特徴量である。

【0024】

図２のステップＳ１４０において、変換規則学習部１２は、音響特徴量Ａ１、Ａ２、Ａ３、…と、音響特徴量Ｂ１、Ｂ２、Ｂ３、…とを、５０次元のスペクトルパラメータによる距離尺度を用いて、動的計画法（ＤＴＷ）などにより対応付ける。
図２のステップＳ１５０において、変換規則学習部１２は、対応付けられた音響特徴量Ａｉと音響特徴量Ｂｊの組から第一変換関数を算出する。この第一変換関数には、例えば、以下の参考文献１に記載の技術により算出される変換関数を用いることができる。この技術によれば、ある話者の音響特徴量と、他の話者の音響特徴量との結合確率密度をＧＭＭ（Gaussian Mixture Model、ガウス混合分布）で表現した確率モデルが変換関数として得られる。

【0025】

（参考文献１）Tomoki Toda、外２名、"Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory"、IEEE Trans. ASLP、Vol.15、No.8、p.2222-2235、2007年

【0026】

図２のステップＳ１６０において、変換規則学習部１２は、音響特徴量Ａ１、Ａ２、Ａ３、…と、音響特徴量Ｃ１、Ｃ２、Ｃ３、…とを、ステップＳ１４０の処理と同様に、動的計画法（ＤＴＷ）などにより対応付ける。図２のステップＳ１７０において、変換規則学習部１２は、ステップＳ１５０の処理と同様に、対応付けられた音響特徴量Ａｉと音響特徴量Ｃｋの組から第二変換規則を算出する。

【0027】

図４は、音声加工装置１の音声加工処理を示す処理フローである。
音声加工装置１に、変換対象話者の任意発話の平静音声のデータである変換対象音声データが入力される。音声分析部１４は、変換対象音声データが示す音声波形を音響分析し、フレーム単位の音響特徴量を取得する（ステップＳ２１０）。

【0028】

スペクトル変換部１５の第一変換部１５１は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部１３に記憶されている第一変換関数により変換する（ステップＳ２２０）。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の平静音声の音響特徴量を表すスペクトルパラメータに変換される。

【0029】

第二変換部１５２は、変換対象音声データから得られた各フレームの音響特徴量を、変換規則記憶部１３に記憶されている第二変換関数により変換する（ステップＳ２３０）。これにより、既存技術の確率モデルによる声質変換を利用して、変換対象音声データから得られた各フレームの音響特徴量を表すスペクトルパラメータが、参照話者の感情音声の音響特徴量を表すスペクトルパラメータに変換される。

【0030】

差分取得部１５３は、第一変換部１５１が変換により得た参照話者の平静音声の音響特徴量と、第二変換部１５２が変換により得た参照話者の感情音声の音響特徴量とを、例えば、Cepstrum Mean Normalization（ケプストラム平均正規化）により正規化する（ステップＳ２４０）。差分取得部１５３は、フレーム単位で、正規化された参照話者の感情音声の音響特徴量について、正規化された参照話者の平静音声の音響特徴量に対する差分を算出する（ステップＳ２５０）。加工部１５４は、フレーム単位で、音声分析部１４により取得した音響特徴量が示すスペクトルパラメータに、差分取得部１５３が算出した差分を加算することにより加工する（ステップＳ２６０）。音声合成部１６は、加工部１５４が加工して得たフレーム単位の音響特徴量に基づいて音声データを合成し、出力する（ステップＳ２７０）。

【0031】

なお、音声加工装置１は、ステップＳ２２０及びステップＳ２３０の処理を、並行して実行してもよく、任意の順番で実行してもよい。

【0032】

図５は、音声加工装置１の音声加工処理における参照話者の音響特徴量への変換を説明するための図である。同図は、図４のステップＳ２１０〜ステップＳ２３０の処理を示す。
図４のステップＳ２１０において、音声分析部１４は、変換対象音声データからフレーム単位の音響特徴量Ｄ１、Ｄ２、Ｄ３、…を取得する。Ｄｉ（ｉは１以上の整数）は、変換対象音声データが示す音声波形から得られたｉ番目のフレームの音響特徴量である。
図４のステップＳ２２０において、第一変換部１５１は、音響特徴量Ｄ１、Ｄ２、Ｄ３、…のそれぞれを第一変換関数により変換し、参照話者の平静音声の音響特徴量Ｅ１、Ｅ２、Ｅ３、…を得る。音響特徴量Ｄｉから変換により、音響特徴量Ｅｉが得られる。
図４のステップＳ２３０において、第二変換部１５２は、音響特徴量Ｄ１、Ｄ２、Ｄ３、…のそれぞれを第二変換関数により変換し、参照話者の感情音声の音響特徴量Ｆ１、Ｆ２、Ｆ３、…を得る。音響特徴量Ｄｉから変換により、音響特徴量Ｆｉが得られる。

【0033】

図６は、音声加工装置１の音声加工処理における音響特徴量の差分の取得を説明するための図である。同図は、図４のステップＳ２４０〜Ｓ２５０の処理を示す。
図４のステップＳ２４０において、差分取得部１５３は、変換対象音声データの音響特徴量を第一変換関数により変換して得た参照話者の平静音声の音響特徴量Ｅ１、Ｅ２、Ｅ３、…を正規化し、音響特徴量Ｅ１’、Ｅ２’、Ｅ３’、…を得る。さらに、差分取得部１５３は、変換対象音声データの音響特徴量を第二変換関数により変換して得た参照話者の感情音声の音響特徴量Ｆ１、Ｆ２、Ｆ３、…を正規化し、音響特徴量Ｆ１’、Ｆ２’、Ｆ３’、…を得る。図４のステップＳ２５０において、差分取得部１５３は、参照話者の感情音声の音響特徴量Ｆｉ’について、参照話者の平静音声の音響特徴量Ｅｉ’に対する差分Ｇｉを算出する。つまり、差分取得部１５３は、差分Ｇｉ＝音響特徴量Ｆｉ’−音響特徴量Ｅｉ’を算出する。

【0034】

図７は、音声加工装置１の音声加工処理における変換対象話者の変換対象音声の音響特徴量の加工を説明するための図である。同図は、図４のステップＳ２６０の処理を示す。
図４のステップＳ２６０において、加工部１５４は、変換対象音声データの音響特徴量Ｄｉに、差分取得部１５３が算出した差分Ｇｉを加算し、変換対象話者の感情音声の音響特徴量Ｈｉに加工する。つまり、加工部１５４は、音響特徴量Ｈｉ＝音響特徴量Ｄｉ＋差分Ｇｉを算出する。図４のステップＳ２７０において、音声合成部１６は、音響特徴量Ｈ１、Ｈ２、Ｈ３、…に基づいて音声データを合成し、出力する。

【0035】

上述した実施形態によれば、音声加工装置１は、事前学習に、数十文の変換対象話者の平静音声と、参照話者の平静音声及び感情音声のパラレルデータを利用できればよい。従って、ＨＭＭ音声合成のような音声データベースを利用する従来技術と比較して、事前学習のために必要なデータ数も少なく、学習のためのコストも低減することができる。また、複数の変換対象話者がいる場合でも、それぞれの変換対象話者について数十文の平静音声のデータのみがあればよく、事前の準備が容易である。また、学習に変換対象話者の感情音声が不要であるため、テキストデータから音声合成された音声データを、変換対象話者の音声データとして用いることができる。

【0036】

また、上述した実施形態によれば、音声加工装置１は、事前学習に得られた変換規則を利用して、変換対象話者の任意発話の平静音声のスペクトルを参照話者の平静音声のスペクトル及び感情音声のスペクトルに加工し、それらの差分をフレーム毎に算出する。音声加工装置１は、フレーム毎に、変換対象話者の任意発話の平静音声のスペクトルに、算出した差分を加算して、変換対象話者の感情音声のスペクトルを得る。変換対象話者の任意発話の平静音声から得られたスペクトルのフレームと、加算すべき差分のフレームとは、時刻順に１対１で対応しているため、フレーム間の対応付けなどの処理を行う必要なく、簡易な処理により加工を行うことができる。このように、音声加工装置１は、変換対象話者の任意発話の平静音声のスペクトルに、参照話者の感情音声のスペクトルの特徴を付与し、変換対象話者の平静音声の声質を感情表現の声質に変換することができる。

【0037】

なお、上述の音声加工装置１は、内部にコンピュータシステムを有している。そして、音声加工装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

【0038】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0039】

１音声加工装置
１１学習用音声分析部
１２変換規則学習部
１３変換規則記憶部
１４音声分析部
１５スペクトル変換部
１５１第一変換部
１５２第二変換部
１５３差分取得部
１５４加工部
１６音声合成部

【図1】