(58)【調査した分野】(Int.Cl.,DB名)
第1素材音声のうち先行音素から対象音素に対する遷移部に対応する第1音声素片と、前記対象音素の持続時間が前記第1素材音声と比較して長い第2素材音声のうち前記先行音素から前記対象音素に対する遷移部に対応する第2音声素片と、前記対象音素が定常的に持続する持続部に対応する持続素片とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、前記第1音声素片を使用して合成音を生成する第1合成動作と、前記第2音声素片に前記持続素片を後続させて合成音を生成する第2合成動作とを実行可能な音声合成手段
を具備する音声合成装置。
前記音声合成手段は、対象音素の持続時間が前記第2素材音声と比較して長い第3素材音声のうち前記先行音素から前記対象音素に対する遷移部に対応する第3音声素片と、前記第3素材音声のうち前記第3音声素片に対応する遷移部と前記対象音素が定常的に持続する持続部との間の中間遷移部に対応する第4音声素片とを利用可能であり、前記第1合成動作および前記第2合成動作と、前記第3音声素片に前記第4音声素片を後続させるとともに前記第4音声素片に前記持続素片を後続させて合成音を生成する第3合成動作とを実行可能である
請求項1の音声合成装置。
第1素材音声のうち対象音素から後行音素に対する遷移部に対応する第1音声素片と、前記対象音素の持続時間が前記第1素材音声と比較して長い第2素材音声のうち前記対象音素から前記後行音素に対する遷移部に対応する第2音声素片と、前記対象音素が定常的に持続する持続部に対応する持続素片とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、前記第1音声素片を使用して合成音を生成する第1合成動作と、前記持続素片に前記第2音声素片を後続させて合成音を生成する第2合成動作とを実行可能な音声合成手段
を具備する音声合成装置。
前記音声合成手段は、前記対象音素の持続時間が前記第2素材音声と比較して長い第3素材音声のうち前記対象音素から前記後行音素に対する遷移部に対応する第3音声素片と、前記第3素材音声のうち前記対象音素が定常的に持続する持続部と前記第3音声素片に対応する遷移部との間の中間遷移部に対応する第4音声素片とを利用可能であり、前記第1合成動作および前記第2合成動作と、前記持続素片に前記第4音声素片を後続させるとともに前記第4音声素片に前記第3音声素片を後続させて合成音を生成する第3合成動作とを実行可能である
請求項3の音声合成装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、素材音声の各音素の音響特性(波形)は、素材音声のうち時間的に持続可能な音素(例えば母音等)の持続時間に応じて変動する。例えば、前掲の遷移部[s-a]の音声素片に着目すると、後続の音素/a/が充分な時間にわたり持続された素材音声から抽出された音声素片と、音素/a/が充分に持続されない素材音声から抽出された音声素片とでは音響特性が相違する。したがって、合成音に指定された継続長に関わらず共通の音声素片を使用する構成では、聴感的に自然な合成音を生成することが困難である。例えば、音素/a/が充分な時間にわたり持続された素材音声から抽出された音声素片を使用した場合には短時間の合成音が聴感的に不自然な印象となり、音素/a/が充分に持続されない素材音声から抽出された音声素片を使用した場合、長時間の合成音が聴感的に不自然な印象となる。以上の事情を考慮して、本発明は、合成音の継続長に関わらず聴感的に自然な合成音を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の第1態様に係る音声合成装置は、第1素材音声(例えば素材音声M1)のうち先行音素から対象音素に対する遷移部に対応する第1音声素片(例えば音声素片PA1)と、対象音素の持続時間が第1素材音声と比較して長い第2素材音声(例えば素材音声M2)のうち先行音素から対象音素に対する遷移部に対応する第2音声素片(例えば音声素片PA2)と、対象音素が定常的に持続する持続部に対応する持続素片(例えば持続素片PC)とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、第1音声素片を使用して合成音を生成する第1合成動作と、第2音声素片に持続素片を後続させて合成音を生成する第2合成動作とを実行可能な音声合成手段(例えば音声合成部24)とを具備する。以上の構成では、第1素材音声から抽出された第1音声素片を使用する第1合成動作と、第1素材音声と比較して対象音素の持続時間が長い第2素材音声から抽出された第2音声素片を使用する第2合成動作とが実行されるから、合成音に指定される継続長の長短に関わらず聴感的に自然な合成音を生成することが可能である。
【0007】
第1態様に係る音声合成装置の好適例において、音声合成手段は、対象音素の持続時間が第2素材音声と比較して長い第3素材音声(例えば素材音声M3)のうち先行音素から対象音素に対する遷移部に対応する第3音声素片(例えば音声素片PA3)と、第3素材音声のうち第3音声素片に対応する遷移部と
対象音素が定常的に持続する持続部との間の中間遷移部に対応する第4音声素片(例えば音声素片PA4)とを利用可能であり、第1合成動作および第2合成動作と、第3音声素片に第4音声素片を後続させるとともに第4音声素片に持続素片を後続させて合成音を生成する第3合成動作とを実行可能である。以上の態様では、第1合成動作および第2合成動作に加えて、第1素材音声や第2素材音声と比較して対象音素の持続時間が長い第3素材音声から抽出された第3音声素片および第4音声素片を使用する第3合成動作が実行されるから、合成音に指定される継続長の長短に関わらず聴感的に自然な合成音を生成できるという効果は格別に顕著である。
【0008】
本発明の第2態様に係る音声合成装置は、第1素材音声(例えば素材音声M1)のうち対象音素から後行音素に対する遷移部に対応する第1音声素片(例えば音声素片PB1)と、対象音素の持続時間が第1素材音声と比較して長い第2素材音声(例えば素材音声M2)のうち対象音素から後行音素に対する遷移部に対応する第2音声素片(例えば音声素片PB2)と、対象音素が定常的に持続する持続部に対応する持続素片(例えば持続素片PC)とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、第1音声素片を使用して合成音を生成する第1合成動作と、持続素片に第2音声素片を後続させて合成音を生成する第2合成動作とを実行可能な音声合成手段(例えば音声合成部24)とを具備する。以上の構成では、第1素材音声から抽出された第1音声素片を使用する第1合成動作と、第1素材音声と比較して対象音素の持続時間が長い第2素材音声から抽出された第2音声素片を使用する第2合成動作とが実行されるから、合成音に指定される継続長の長短に関わらず聴感的に自然な合成音を生成することが可能である。
【0009】
第2態様に係る音声合成装置の好適例において、音声合成手段は、対象音素の持続時間が第2素材音声と比較して長い第3素材音声(例えば素材音声M3)のうち対象音素から後行音素に対する遷移部に対応する第3音声素片(例えば音声素片PB3)と、第3素材音声のうち対象音素が定常的に持続する持続部と第3音声素片に対応する遷移部との間の中間遷移部に対応する第4音声素片(例えば音声素片PB4)とを利用可能であり、第1合成動作および第2合成動作と、持続素片に第4音声素片を後続させるとともに第4音声素片に第3音声素片を後続させて合成音を生成する第3合成動作とを実行可能である。以上の態様では、第1合成動作および第2合成動作に加えて、第1素材音声や第2素材音声と比較して対象音素の持続時間が長い第3素材音声から抽出された第3音声素片および第4音声素片を使用する第3合成動作が実行されるから、合成音に指定される継続長の長短に関わらず聴感的に自然な合成音を生成できるという効果は格別に顕著である。
【0010】
第1態様および第2態様に係る音声合成装置の好適例において、音声合成手段は、合成音に指定された継続長が短い場合(例えば所定値を下回る場合)に第1合成動作を実行し、合成音に指定された継続長が長い場合(例えば所定値を上回る場合)に第2合成動作を実行する。以上の態様では、合成音に指定される継続長に応じて音声合成手段の動作が選択されるから、合成音に指定される継続長の長短に関わらず聴感的に自然な合成音を生成できる。ただし、例えば利用者からの指示に応じて第1合成動作と第2合成動作とを選択することも可能である。
【0011】
以上の各態様に係る音声合成装置は、合成音の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
【0012】
第1態様に係るプログラムは、第1素材音声のうち先行音素から対象音素に対する遷移部に対応する第1音声素片と、対象音素の持続時間が第1素材音声と比較して長い第2素材音声のうち先行音素から対象音素に対する遷移部に対応する第2音声素片と、対象音素が定常的に持続する持続部に対応する持続素片とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、第1音声素片を使用して合成音を生成する第1合成動作と、第2音声素片に持続素片を後続させて合成音を生成する第2合成動作とを実行する音声合成手段としてコンピュータを機能させる。以上のプログラムによれば、本発明の第1態様に係る音声合成装置と同様の作用および効果が実現される。
【0013】
第2態様に係るプログラムは、第1素材音声のうち対象音素から後行音素に対する遷移部に対応する第1音声素片と、対象音素の持続時間が第1素材音声と比較して長い第2素材音声のうち対象音素から後行音素に対する遷移部に対応する第2音声素片と、対象音素が定常的に持続する持続部に対応する持続素片とを含む複数の音声素片を利用して合成音を生成する音声合成手段であって、第1音声素片を使用して合成音を生成する第1合成動作と、持続素片に第2音声素片を後続させて合成音を生成する第2合成動作とを実行可能な音声合成手段としてコンピュータを機能させる。以上のプログラムによれば、本発明の第2態様に係る音声合成装置と同様の作用および効果が実現される。
【発明を実施するための形態】
【0015】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、素片接続型の音声合成で歌唱音の音声信号Sを生成する信号処理装置であり、
図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。例えば据置型の情報処理装置(パーソナルコンピュータ)や携帯型の情報処理装置(携帯電話機や携帯情報端末)で音声合成装置100が実現される。
【0016】
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで、音声信号Sを生成するための複数の機能(情報取得部22,音声合成部24)を実現する。なお、演算処理装置12の機能を複数の装置に分散した構成や、演算処理装置12の機能の一部を専用の電子回路(DSP)が実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号Sに応じた音響を放音する。
【0017】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。第1実施形態の記憶装置14は、音声素片群DAと合成情報DBとを記憶する。
【0018】
音声素片群DAは、音声合成の素材として使用される複数種の音声素片Pを含む音声合成ライブラリである。各音声素片Pは、例えば時間領域での音声素片Pの波形のサンプル系列や周波数領域での音声素片Pのスペクトルを規定するデータで表現される。各音声素片Pは、言語的な観点から音声を区分した最小単位である音素(例えば母音や子音)の単体(モノフォン)、または、複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。記憶装置14に記憶される各音声素片Pは、例えば事前に収録された音声(素材音声)から抽出される。なお、以下の説明では、SAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠した記号で各音素を表記する。なお、X-SAMPA(eXtended - SAMPA)でも同様の表記である。また、無音を便宜的に1個の音素として記号/#/で表記する。
【0019】
図2は、素材音声と各音声素片Pとの関係を示す模式図である。特定の発声者が英単語“fun”を発音した素材音声M1と素材音声M2とが
図2には例示されている。素材音声M2のうち母音の音素/V/の持続時間は、素材音声M1のうちその音素/V/の持続時間と比較して長い。すなわち、発音内容は素材音声M1と素材音声M2とで共通するが、素材音声M2は素材音声M1と比較して音素/V/を伸長して発音した音声である。以下の説明では、素材音声のうち発音が時間的に持続され得る任意の1個の音素(以下「対象音素」という)に便宜的に着目し、対象音素の直前の音素を「先行音素」と表記するとともに対象音素の直後の音素を「後行音素」と表記する。例えば、
図2に例示された単語“fun”のうち母音の音素/V/を対象音素とした場合には、音素/f/が先行音素に該当し、音素/n/が後行音素に該当する。
【0020】
図2に示すように、音声素片PE1と音声素片PA1と音声素片PB1と音声素片PE2とが素材音声M1から抽出されて記憶装置14に記憶される。音声素片PE1は、素材音声M1のうち無音の音素/#/から音素/f/に発音が遷移する遷移部(音素連鎖)[#-f]に対応する。音声素片PA1は、素材音声M1のうち先行音素/f/から対象音素/V/に対する遷移部[f-V]に対応し、音声素片PB1は、素材音声M1のうち対象音素/V/から後行音素/n/に対する遷移部[V-n]に対応する。また、音声素片PE2は、素材音声M1のうち音素/n/から無音の音素/#/に対する遷移部[n-#]に対応する。
【0021】
他方、素材音声M2からは、音声素片PE1と音声素片PA2と音声素片PCと音声素片PB2と音声素片PE2とが抽出されて記憶装置14に記憶される。音声素片PE1および音声素片PE2の音響特性は素材音声M1と素材音声M2とで略同等である。
【0022】
図2の音声素片PCは、素材音声M2のうち対象音素/V/が時間的に定常に持続された持続部[V]に対応する音声素片P(以下では特に「持続素片」という場合がある)である。すなわち、持続素片PC内では対象音素/V/の音響特性が安定的に維持されて経時的な変動が充分に少ない。以上の説明から理解されるように、素材音声M2は持続部[V]を包含するのに対し、素材音声M1は持続部[V]を包含しない(あるいは充分に短い)という相違がある。
【0023】
音声素片PA2は、素材音声M2のうち先行音素/f/から対象音素/V/に対する遷移部[f-V]に対応し、音声素片PB2は、素材音声M2のうち対象音素/V/から後行音素/n/に対する遷移部[V-n]に対応する。持続部[V]を含まない素材音声M1から抽出された音声素片PA1と持続部[V]を含む素材音声M2から抽出された音声素片PA2とは、各々を構成する音素の種類(受聴者が知覚する発音内容)は共通するが音響特性(波形)は相違する。同様に、素材音声M1から抽出された音声素片PB1と素材音声M2から抽出された音声素片PB2とは、音素の種類は共通するが音響特性が相違する。
【0024】
図2の例示のように各素材音声(M1,M2)から抽出された音声素片P(PE1,PE2,PA1,PA2,PB1,PB2,PC)が記憶装置14に記憶される。すなわち、先行音素/f/から対象音素/V/に遷移する遷移部[f-V]については、素材音声M1から抽出された音声素片PA1と素材音声M2から抽出された音声素片PA2との双方が記憶装置14に記憶される。同様に、対象音素/V/から後行音素/n/に対する遷移部[V-n]については、素材音声M1から抽出された音声素片PB1と素材音声M2から抽出された音声素片PB2との双方が記憶装置14に記憶される。なお、以上の例示では音素/V/を対象音素とした場合を例示したが、時間的に持続可能な他の音素についても同様に、伸長の度合が相違する素材音声M1および素材音声M2の各々から抽出された音声素片Pが記憶装置14に記憶される。
【0025】
図1の記憶装置14に記憶された合成情報DBは、音声合成の単位となる単位音(音符)を時系列に指定するデータ(スコアデータ)であり、
図3に示すように、相異なる単位音に対応する複数の単位情報Uを含んで構成される。各単位情報Uは、音高情報XAと時間情報XBと発音情報XCとを指定する。ただし、以上に例示した要素以外の情報(例えば音量やビブラート等の各単位音の音楽的な表情を制御するための変数)を単位情報Uに含ませることも可能である。
図1の情報取得部22は、例えば利用者からの指示に応じて合成情報DBを生成および編集する。
【0026】
図3の音高情報XAは、単位音の音高(各音高に対応するノートナンバ)を指定する。なお、単位音の音高に対応する周波数を音高情報XAで指定することも可能である。時間情報XBは、時間軸上での単位音の発音期間を指定する。例えば時間情報XBは、
図3に示すように、単位音の発音が開始する時刻を意味する発音時点XB1と、単位音の発音が継続する時間長(音価)を意味する継続長XB2とを指定する。なお、各単位音の発音時点XB1と消音時点とで継続長XB2を指定することも可能である。発音情報XCは、単位音の発音内容(音韻)を指定する。具体的には、発音情報XCは、各単位音の発音内容を表現する発音文字(書記素)や発音内容に対応する音素記号を指定する。例えば1音節分の発音文字が1個の単位音に指定される。なお、発音情報XCによる発音文字の指定は各単位音の合成に必須の要素ではなく省略することも可能である。
【0027】
図1の音声合成部24は、合成情報DBが時系列に指定する各単位音の発音情報XCに対応する複数の音声素片Pを時間軸上で相互に接続することで合成音の音声信号Sを生成する。具体的には、音声合成部24は、第1に、各単位音の発音情報XC(発音内容の各音素)および継続長XB2(音価)に対応した音声素片Pを記憶装置14の音声素片群DAから順次に選択し、第2に、各音声素片Pを、単位情報Uの音高情報XAが指定する音高と時間情報XBの継続長XB2が指定する時間長とに調整する。第3に、音声合成部24は、音高および時間長が調整された各音声素片Pを、時間情報XBの発音時点XB1が指定する時刻に配置して相互に連結することで音声信号Sを生成する。音声合成部24が生成した音声信号Sが放音装置16に供給されて音波として放音される。
【0028】
音声素片Pの選択に着目して音声合成部24の動作を以下に詳述する。音声合成部24は、第1合成動作と第2合成動作とを単位音毎に選択的に実行する。具体的には、単位音の継続長XB2が所定の基準長XREF1を下回る場合(XB2<XREF1)には第1合成動作が実行され、継続長XB2が基準長XREF1を上回る場合(XB2≧XREF1)には第2合成動作が実行される。なお、以下の説明では、
図2に例示した単語“fun”が発音情報XCとして指定された単位音を合成する場合を例示する。
【0029】
第1合成動作は、
図4の部分(A)に示すように、素材音声M1から抽出された音声素片PA1および音声素片PB1を使用して合成音を生成する動作である。具体的には、音声合成部24は、音声素片PE1(遷移部[#-f])と音声素片PA1(遷移部[f-V])と音声素片PB1(遷移部[V-n])と音声素片PE2(遷移部[n-#])とを以上の順番で相互に連結することで継続長XB2の単位音の音声信号Sを生成する。
【0030】
他方、第2合成動作は、
図4の部分(B)に示すように、素材音声M2から抽出された音声素片PA2と音声素片PB2と持続素片PCとを使用して合成音を生成する動作である。具体的には、音声合成部24は、音声素片PE1(遷移部[#-f])と音声素片PA2(遷移部[f-V])と持続素片PC(持続部[V])と音声素片PB2(遷移部[V-n])と音声素片PE2(遷移部[n-#])とを以上の順番で相互に連結することで単位音の音声信号Sを生成する。すなわち、音声合成部24は、音声素片PA2に持続素片PCを後続させ、持続素片PCに音声素片PB2を後続させる。持続素片PCを継続長XB2に応じて伸縮することで継続長XB2の単位音が合成される。持続素片PCの伸縮には公知の技術が任意に採用される。
【0031】
以上に説明したように、第1実施形態では、素材音声M1から抽出された音声素片P(PA1,PB1)を使用する第1合成動作と、素材音声M1と比較して対象音素(/V/)の持続時間が長い素材音声M2から抽出された音声素片P(PA2,PB2)を使用する第2合成動作とが選択的に実行される。具体的には、単位音の継続長XB2が短い場合には、対象音素の持続時間が短い素材音声M1の音声素片P(PA1,PB1)が使用され、単位音の継続長XB2が長い場合には、対象音素の持続時間が長い素材音声M2の音声素片P(PA2,PB2)が使用される。したがって、継続長XB2が長い場合および継続長XB2が短い場合の双方について聴感的に自然な合成音を生成することが可能である。
【0032】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0033】
図5は、第2実施形態における素材音声と各音声素片Pとの関係を示す模式図である。特定の発声者が単語“fun”を発音した素材音声M3が、第1実施形態(
図2)と同様の素材音声M1および素材音声M2とともに
図5に例示されている。素材音声M3のうち母音の音素/V/の持続時間は、素材音声M1内の音素/V/や素材音声M2内の音素/V/の持続時間と比較して長い。すなわち、素材音声M3は、発音内容は素材音声M1や素材音声M2と共通するが、素材音声M1および素材音声M2と比較して音素(対象音素)/V/を伸長して発音した音声である。
【0034】
素材音声M1および素材音声M2から抽出される音声素片Pは第1実施形態と同様である。他方、素材音声M3からは、
図5に示すように、音声素片PE1と音声素片PA3と音声素片PA4と持続素片PCと音声素片PB4と音声素片PB3と音声素片PE2とが抽出される。音声素片PE1および音声素片PE2は、素材音声M1と素材音声M2と素材音声M3とで共通する。持続素片PCは、素材音声M3のうち対象音素/V/が時間的に定常に維持された持続部[V]に対応する。第2実施形態では、持続素片PCが素材音声M2と素材音声M3とで共通する場合を例示するが、素材音声M2の持続素片PCと素材音声M3の持続素片PCとを区別することも可能である。
【0035】
音声素片PA3は、素材音声M3のうち先行音素/f/から対象音素/V/に対する遷移部[f-V]に対応する。他方、音声素片PA4は、素材音声M3のうち音声素片PA3に対応する遷移部[f-V]と持続素片PCに対応する持続部[V]との間に位置する中間遷移部[V-V]に対応する。中間遷移部は、発声者が発音する音素は変化しないが発音の状態(発声者の口の形状等)が経時的に変化する区間である。具体的には、素材音声M3のうち先行音素/f/の発音から対象音素/V/の発音に遷移した直後までの区間が音声素片PA3として抽出され、対象音素/V/の発音に遷移した直後の非定常な状態から持続部[V]の定常的な状態に遷移するまでの区間が音声素片PA4として抽出される。例えば、発声者が先行音素/f/の発音から口を開いて対象音素/V/の発音を開始した直後までの区間が音声素片PA3に対応し、発声者が口を開き始めた直後から完全に口を開き切るまで(持続部[V]が開始するまで)の区間が音声素片PA4に対応する。
【0036】
他方、音声素片PB3は、素材音声M3のうち対象音素/V/から後行音素/n/に対する遷移部[V-n]に対応し、音声素片PB4は、素材音声M3のうち持続素片PCに対応する持続部[V]と音声素片PB3に対応する遷移部[V-n]との間に位置する中間遷移部[V-V]に対応する。具体的には、素材音声M3のうち対象音素/V/の持続部[V]内の定常的な状態が終了して後行音素/n/の発音に遷移する直前までの区間が音声素片PB4として抽出され、後行音素/n/の発音が開始される直前から後行音素/n/の発音に遷移した直後までの区間が音声素片PA4として抽出される。例えば、発声者が対象音素/V/の発音から経時的に口を閉じて完全に閉じ切る直前までの区間が音声素片PB4に対応し、発声者が口を完全に閉じ切る直前から後行音素/n/の発音に遷移するまでの区間が音声素片PB3に対応する。
【0037】
対象音素/V/の持続時間が長い素材音声M3から抽出された音声素片PA3と、対象音素/V/の持続時間が短い素材音声M2から抽出された音声素片PA2や対象音素/V/の持続部[V]が存在しない素材音声M1から抽出された音声素片PA1とは、各々を構成する音素の種類(受聴者が知覚する発音内容)は共通するが音響特性は相違する。同様に、素材音声M3から抽出された音声素片PB3と、素材音声M2から抽出された音声素片PB2や素材音声M1から抽出された音声素片PB1とは、音素の種類は共通するが音響特性は相違する。
【0038】
第2実施形態の音声合成部24は、
図6に示すように、第1実施形態と同様の第1合成動作および第2合成動作と、素材音声M3から抽出された音声素片P(PA3,PA4,PB3,PB4)を使用して合成音を生成する第3合成動作とを選択的に実行する。具体的には、音声合成部24は、各単位音に指定された継続長XB2を基準長XREF1および基準長XREF2(XREF1<XREF2)と比較し、継続長XB2が基準長XREF1を下回る場合(XB2<XREF1)には第1合成動作を実行し、基準長XB2が基準長XREF1と基準長XREF2との間の数値である場合(XREF1≦XB2<XREF2)には第2合成動作を実行し、基準長XB2が基準長XREF2を上回る場合(XB2≧XREF2)には第3合成動作を実行する。
【0039】
図6に示すように、第3合成動作では、音声素片PE1(遷移部[#-f])と音声素片PA3(遷移部[f-V])と音声素片PA4(中間遷移部[V-V])と持続素片PCと音声素片PB4(中間遷移部[V-V])と音声素片PB3(遷移部[V-n])と音声素片PE2(遷移部[n-#])とを以上の順番で相互に連結することで単位音の音声信号Sを生成する。すなわち、音声合成部24は、音声素片PA3に音声素片PA4を後続させるとともに音声素片PA4に持続素片PCを後続させ、持続素片PCに音声素片PB4を後続させるとともに音声素片PB4に音声素片PB3を後続させる。持続素片PCを継続長XB2に応じて伸縮する動作は第1実施形態と同様である。
【0040】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、第1実施形態と同様の第1合成動作および第2合成動作に加えて、素材音声M1や素材音声M2と比較して対象音素の持続時間が長い素材音声M3から抽出された音声素片P(PA3,PA4,PB3,PB4)を使用する第3合成動作が実行される。具体的には、単位音の継続長XB2が短い場合には、対象音素の持続時間が短い素材音声M1の音声素片P(PA1,PB1)が使用され、継続長XB2が中程度の場合には、対象音素の持続時間が中程度の素材音声M2の音声素片P(PA2,PB2)が使用され、継続長XB2が長い場合には、対象音素の持続時間が長い素材音声M3の音声素片P(PA3,PA4,PB3,PB4)が使用される。したがって、継続長XB2の長短に関わらず聴感的に自然な合成音を生成できるという効果は格別に顕著である。
【0041】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0042】
(1)前述の各形態では、時間的に持続可能な1個の対象音素に着目したが、複数の対象音素を含む発音内容が指定された単位音も前述の各形態と同様に合成される。例えば、単語“fun”を構成する複数の音素のうち母音の音素/V/と子音(鼻音)の音素/n/とを対象音素とした場合には
図7のように合成音が生成される。
【0043】
図7に示すように、音素/V/を対象音素とした動作と音素/n/を対象音素とした動作とが前述の各形態と同様に実行される。例えば第2合成動作では、素材音声M2のうち対象音素/n/から後行音素/#/に対する遷移部[n-#]の音声素片PB2が対象音素/n/の持続素片PCに連結される。また、第3合成動作では、素材音声M3のうち対象音素/n/の前方の中間遷移部[n-n]に対応する音声素片PA4が対象音素/n/の持続素片PCの直前に配置され、素材音声M3のうち対象音素/n/の持続部[n]の後方に位置する中間遷移部[n-n]の音声素片PB4と、素材音声M3のうち対象音素/n/から後方音素/#/に対する遷移部[n-#]の音声素片PB3とが対象音素/n/の持続素片PCの直後に配置される。
【0044】
(2)前述の各形態では、単位音に指定された継続長XB2に応じて音声合成部24の動作(第1合成動作/第2合成動作/第3合成動作)を選択したが、音声合成部24の動作を選択する条件は任意に変更される。例えば、入力装置(図示略)に対する利用者からの指示(合成動作の指定)に応じて各単位音の合成動作を選択することも可能である。また、各単位音に指定された継続長XB2以外の変数に応じて音声合成部24の動作を選択することも可能である。具体的には、単位音に指定された速度(強度に相当するベロシティ)に応じて音声合成部24の動作を制御する構成が採用される。例えば、単位音に指定された速度が高い場合(速度が所定値を上回る場合)に第1合成動作を実行し、単位音に指定された速度が低い場合(速度が所定値を下回る場合)に第2合成動作を実行する構成(更に速度が低い場合に第3合成動作を実行する構成)が好適である。
【0045】
(3)前述の各形態では、英語を発音した合成音を生成する場合を例示したが、合成音の言語は任意である。例えば、日本語,スペイン語,中国語,韓国語等の各種の言語の合成音も前述の各形態と同様に生成される。
【0046】
(4)前述の各形態では、情報取得部22が合成情報DBを生成および編集する構成を例示したが、情報取得部22が例えば通信網を介して外部装置から合成情報DBを取得する構成や、情報取得部22が可搬型の記録媒体から合成情報DBを取得する構成も採用され得る。合成情報DBが記憶装置14に事前に記憶された構成では情報取得部22を省略することも可能である。また、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群DAを保持する構成も採用される。音声合成装置100の音声合成部24は、例えば通信網を介して外部装置から音声素片Pを取得して合成音の音声信号Sを生成する。以上の説明から理解されるように、音声素片群DAを記憶する要素(記憶装置14)は音声合成装置100の必須の要件ではない。