特許6561499 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6561499音声合成装置および音声合成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6561499

(24)【登録日】2019年8月2日

(45)【発行日】2019年8月21日

(54)【発明の名称】音声合成装置および音声合成方法

(51)【国際特許分類】

G10L 13/033 20130101AFI20190808BHJP

G10L 13/00 20060101ALI20190808BHJP

G10L 13/10 20130101ALI20190808BHJP

【ＦＩ】

G10L13/033 102B

G10L13/00 100Y

G10L13/10 111C

G10L13/10 113Z

【請求項の数】5

【全頁数】12

(21)【出願番号】特願2015-43918(P2015-43918)

(22)【出願日】2015年3月5日

(65)【公開番号】特開2016-161919(P2016-161919A)

(43)【公開日】2016年9月5日

【審査請求日】2018年1月25日

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100125689

【弁理士】

【氏名又は名称】大林章

(74)【代理人】

【識別番号】100128598

【弁理士】

【氏名又は名称】高田聖一

(74)【代理人】

【識別番号】100121108

【弁理士】

【氏名又は名称】高橋太朗

(72)【発明者】

【氏名】才野慶二郎

(72)【発明者】

【氏名】ジョルディボナダ

(72)【発明者】

【氏名】メルレインブラアウ

【審査官】千本潤介

(56)【参考文献】

【文献】特開２００４−０６１７９３（ＪＰ，Ａ）

【文献】特開２００７−２４０５６４（ＪＰ，Ａ）

【文献】特開２００３−３４５４００（ＪＰ，Ａ）

【文献】特開２０１５−０３４９２０（ＪＰ，Ａ）

【文献】特開２０１２−０３７７２２（ＪＰ，Ａ）

【文献】特開２００６−０１０９０７（ＪＰ，Ａ）

【文献】特開２０１０−００９０３４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−１３／１０

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

参照音声から抽出された音声素片の接続で音声信号を生成する音声合成装置であって、
音声素片を順次に選択する素片選択手段と、
前記参照音声の発音の基準である基準音高と前記素片選択手段が選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定する音高設定手段と、
前記素片選択手段が選択した音声素片の音高を前記音高設定手段が生成した音高遷移に応じて調整して前記音声信号を生成する音声合成手段とを具備し、
前記音高設定手段は、前記差分値が特定の数値である場合と比較して、前記差分値が前記特定の数値を上回る場合のほうが、前記音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、前記音高遷移を設定する
音声合成装置。

【請求項2】

前記音高設定手段は、
合成対象の音高の時系列に応じた基礎遷移を設定する基礎遷移設定手段と、
前記基準音高と前記観測音高との差分値に応じた調整値を前記基準音高と前記観測音高との差分値に乗算することで変動成分を生成する変動生成手段と、
前記変動成分を前記基礎遷移に付加する変動付加手段とを含む
請求項１の音声合成装置。

【請求項3】

前記変動生成手段は、前記差分値が、第１閾値を下回る第１範囲内の数値である場合に最小値となり、前記差分値が、前記第１閾値を超える第２閾値を上回る第２範囲内の数値である場合に最大値となり、前記差分値が前記第１閾値と前記第２閾値との間の数値である場合に、前記最小値と前記最大値との間の範囲内で当該差分値に応じて変動する数値となるように、前記調整値を設定する
請求項２の音声合成装置。

【請求項4】

前記変動生成手段は、前記変動成分を平滑化する平滑処理手段を含み、
前記変動付加手段は、前記平滑化後の変動成分を前記基礎遷移に付加する
請求項２または請求項３の音声合成装置。

【請求項5】

参照音声から抽出された音声素片の接続で音声信号を生成する音声合成方法であって、
音声素片を順次に選択し、
前記参照音声の発音の基準である基準音高と前記選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定し、
前記選択した音声素片の音高を前記音高遷移に応じて調整して前記音声信号を生成し、
前記音高遷移の設定においては、前記差分値が特定の数値である場合と比較して、前記差分値が前記特定の数値を上回る場合のほうが、前記音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、前記音高遷移を設定する
コンピュータにより実現される音声合成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、合成対象の音声の音高の時間的な変動（以下「音高遷移」という）を制御する技術に関する。

【背景技術】

【0002】

利用者が時系列に指定した任意の音高の歌唱音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、合成対象として指定された複数の音符の時系列に対応する音高遷移（ピッチカーブ）を設定し、発音内容に対応する音声素片の音高を音高遷移に沿って調整したうえで相互に連結することで歌唱音声を合成する構成が開示されている。

【0003】

音高遷移を生成する技術としては、例えば非特許文献１に開示された藤崎モデルを利用する構成や、多数の音声を適用した機械学習で生成されたＨＭＭを利用する非特許文献２の構成も存在する。また、文章とフレーズと単語と音節と音素との５階層に音高遷移を分解してＨＭＭの機械学習を実行する構成も非特許文献３に開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１４−０９８８０２号公報

【非特許文献】

【0005】

【非特許文献1】Fujisaki,"Dynamic characteristics of voice fundamental frequency in speech and singing," In: MacNeilage, P.F. (Ed.), The Production of Speech, Springer-Verlag, New York, USA. pp. 39-55.

【非特許文献2】徳田恵一,「HMM に基づく音声合成の基礎」，電子情報通信学会技術研究報告，Vol. 100, No. 392, SP2000-74, p. 43-50，（2000）

【非特許文献3】Suni, A. S., Aalto, D., Raitio, T., Alku, P., Vainio, M., et al.," Wavelets for intonation modeling in hmm speech synthesis," In 8th isca workshop on speech synthesis, proceedings, Barcelona, august 31-september 2, 2013.

【発明の概要】

【発明が解決しようとする課題】

【0006】

ところで、実際に人間が発音した音声には、発音対象の音素に依存して音高が短時間で顕著に変動する現象（以下「音素依存変動」という）が観測される。例えば図９に例示される通り、有声子音の区間（図９の例示では音素[m]および音素[g]の区間）や、無声子音および母音の一方から他方に遷移する区間（図９の例示では音素[k]から音素[i]に遷移する区間）に、音素依存変動（いわゆるマイクロプロソディ）を確認できる。

【0007】

非特許文献１の技術では、文章のような長時間にわたる音高の変動が想定されるから、音素単位で発生する音素依存変動を再現することは困難である。他方、非特許文献２や非特許文献３の技術では、機械学習用の多数の音声に音素依存変動を含ませることで、実際の音素依存変動を忠実に再現した音高遷移の生成が期待される。しかし、音素依存変動以外の単純な音高の誤差まで音高遷移に反映されるから、音高遷移を利用して合成された音声が、聴感的に調子はずれ（すなわち、適正な音高から乖離した音痴な歌声）と知覚される可能性がある。以上の事情を考慮して、本発明は、調子はずれと知覚される可能性を低減しながら音素依存変動を反映した音高遷移を生成することを目的とする。

【課題を解決するための手段】

【0008】

以上の課題を解決するために、本発明の好適な態様に係る音声合成装置は、参照音声から抽出された音声素片の接続で音声信号を生成する音声合成装置であって、音声素片を順次に選択する素片選択手段と、参照音声の発音の基準である基準音高と素片選択手段が選択した音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移を設定する音高設定手段と、素片選択手段が選択した音声素片の音高を音高設定手段が生成した音高遷移に応じて調整して音声信号を生成する音声合成手段とを具備する。以上の構成では、参照音声の発音の基準である基準音高と音声素片の観測音高との差分値に応じた度合で当該音声素片の観測音高の変動が反映された音高遷移が設定される。例えば、差分値が特定の数値である場合と比較して、差分値が特定の数値を上回る場合のほうが、音声素片の観測音高の変動が音高遷移に反映される度合が大きくなるように、音高設定手段は音高遷移を設定する。したがって、聴感的に調子はずれ（すなわち音痴）と知覚される可能性を低減しながら、音素依存変動を再現した音高遷移を生成できるという利点がある。

【0009】

本発明の好適な態様において、音高設定手段は、合成対象の音高の時系列に応じた基礎遷移を設定する基礎遷移設定手段と、基準音高と観測音高との差分値に応じた調整値を基準音高と観測音高との差分値に乗算することで変動成分を生成する変動生成手段と、変動成分を基礎遷移に付加する変動付加手段とを含む。以上の態様では、基準音高と観測音高との差分値に応じた調整値を当該差分値に乗算した変動成分が合成対象の音高の時系列に応じた基礎遷移に付加されるから、合成対象の音高の遷移（例えば楽曲の旋律）を維持しながら音素依存変動を再現できるという利点がある。

【0010】

本発明の好適な態様において、変動生成手段は、差分値が、第１閾値を下回る第１範囲内の数値である場合に最小値となり、差分値が、第１閾値を超える第２閾値を上回る第２範囲内の数値である場合に最大値となり、差分値が第１閾値と第２閾値との間の数値である場合に、最小値と最大値との間の範囲内で当該差分値に応じて変動する数値となるように、調整値を設定する。以上の態様では、差分値と調整値との関係が簡便に定義されるから、調整値の設定（ひいては変動成分の生成）が簡素化されるという利点がある。

【0011】

本発明の好適な態様において、変動生成手段は、変動成分を平滑化する平滑処理手段を含み、変動付加手段は、平滑化後の変動成分を基礎遷移に付加する。以上の態様では、変動成分が平滑化されるから、合成音声の音高の急激な変動が抑制される。したがって、聴感的に自然な印象の合成音声を生成できるという利点がある。以上の態様の具体例は例えば第２実施形態として後述される。

【0012】

本発明の好適な態様において、変動生成手段は、差分値と調整値との関係を可変に制御する。具体的には、変動生成手段は、素片選択手段が選択する音声素片の音素の種別に応じて差分値と調整値との関係を制御する。以上の態様によれば、音声素片の観測音高の変動を音高遷移に反映させる度合を適宜に調整できるという利点がある。以上の態様の具体例は例えば第３実施形態として後述される。

【0013】

以上の各態様に係る音声合成装置は、ＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成装置の動作方法（音声合成方法）としても特定される。

【図面の簡単な説明】

【0014】

【図1】第１実施形態における音声合成装置の構成図である。

【図2】音高設定部の構成図である。

【図3】音高設定部の動作の説明図である。

【図4】基準音高および観測音高の差分値と調整値との関係の説明図である。

【図5】変動解析部の動作のフローチャートである。

【図6】第２実施形態における音高設定部の構成図である。

【図7】平滑処理部の動作の説明図である。

【図8】第３実施形態における差分値と調整値との関係の説明図である。

【図9】音素依存変動の説明図である。

【発明を実施するための形態】

【0015】

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００の構成図である。第１実施形態の音声合成装置１００は、任意の楽曲（以下「対象楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置であり、演算処理装置１２と記憶装置１４と放音装置１６とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の情報処理装置やパーソナルコンピュータ等の可搬型または据置型の情報処理装置が音声合成装置１００として利用され得る。

【0016】

記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。第１実施形態の記憶装置１４は、音声素片群Ｌと合成情報Ｓとを記憶する。

【0017】

音声素片群Ｌは、特定の発声者が発音した音声（以下「参照音声」という）から事前に抽出された複数の音声素片Ｐの集合（いわゆる音声合成用ライブラリ）である。各音声素片Ｐは、音素単体（例えば母音や子音）、または複数の音素が連続する音素連鎖（例えばダイフォンやトライフォン）である。各音声素片Ｐは、時間領域での音声波形のサンプル系列や周波数領域でのスペクトルの時系列として表現される。

【0018】

参照音声は、所定の音高（以下「基準音高」という）ＦRを基準として発音された音声である。具体的には、発声者は、自身の音声が基準音高ＦRとなるように参照音声を発音する。したがって、各音声素片Ｐの音高は、基本的には基準音高ＦRに合致するが、音素依存変動等に起因した基準音高ＦRからの変動を含有し得る。図１に例示される通り、第１実施形態の記憶装置１４は基準音高ＦRを記憶する。

【0019】

合成情報Ｓは、音声合成装置１００による合成対象となる音声を指定する。第１実施形態の合成情報Ｓは、対象楽曲を構成する複数の音符の時系列を指定する時系列データであり、図１に例示される通り、音高Ｘ1と発音期間Ｘ2と発音内容（発音文字）Ｘ3とを対象楽曲の音符毎に指定する。音高Ｘ1は例えばMIDI（Musical Instrument Digital Interface）規格に準拠したノートナンバーで指定される。発音期間Ｘ2は、音符の発音が継続される期間であり、例えば発音の開始点と継続長（音価）とで指定される。発音内容Ｘ3は、合成音声の音韻（具体的には対象楽曲の歌詞の音節）である。

【0020】

第１実施形態の演算処理装置１２は、記憶装置１４に記憶されたプログラムを実行することで、記憶装置１４に記憶された音声素片群Ｌと合成情報Ｓとを利用して音声信号Ｖを生成する合成処理部２０として機能する。具体的には、第１実施形態の合成処理部２０は、音声素片群Ｌのうち合成情報Ｓで時系列に指定される発音内容Ｘ3に対応した各音声素片Ｐを、音高Ｘ1および発音期間Ｘ2に応じて調整したうえで相互に接続することで音声信号Ｖを生成する。なお、演算処理装置１２の機能を複数の装置に分散した構成や、音声合成専用の電子回路が演算処理装置１２の機能の一部または全部を実現する構成も採用され得る。図１の放音装置１６（例えばスピーカやヘッドホン）は、演算処理装置１２が生成した音声信号Ｖに応じた音響を放射する。なお、音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

【0021】

図１に例示される通り、第１実施形態の合成処理部２０は、素片選択部２２と音高設定部２４と音声合成部２６とを包含する。素片選択部２２は、合成情報Ｓで時系列に指定される発音内容Ｘ3に対応した各音声素片Ｐを記憶装置１４の音声素片群Ｌから順次に選択する。音高設定部２４は、合成音声の音高の時間的な遷移（以下「音高遷移」という）Ｃを設定する。概略的には、合成情報Ｓで音符毎に指定される音高Ｘ1の時系列に沿うように合成情報Ｓの音高Ｘ1および発音期間Ｘ2に応じて音高遷移（ピッチカーブ）Ｃが設定される。音声合成部２６は、素片選択部２２が順次に選択する音声素片Ｐの音高を、音高設定部２４が生成した音高遷移Ｃに応じて調整し、調整後の各音声素片Ｐを時間軸上で相互に連結することで音声信号Ｖを生成する。

【0022】

第１実施形態の音高設定部２４は、発音対象の音素に依存して音高が短時間で変動する音素依存変動が、受聴者に調子はずれと知覚されない範囲内で反映された音高遷移Ｃを設定する。図２は、音高設定部２４の具体的な構成図である。図２に例示される通り、第１実施形態の音高設定部２４は、基礎遷移設定部３２と変動生成部３４と変動付加部３６とを包含する。

【0023】

基礎遷移設定部３２は、合成情報Ｓが音符毎に指定する音高Ｘ1に対応する音高の時間的な遷移（以下「基礎遷移」という）Ｂを設定する。基礎遷移Ｂの設定には公知の技術が任意に採用され得る。具体的には、時間軸上で相前後する音符間で音高が連続的に変動するように基礎遷移Ｂが設定される。すなわち、基礎遷移Ｂは、対象楽曲の旋律を構成する複数の音符にわたる音高の概略的な軌跡に相当する。参照音声に観測される音高の変動（例えば音素依存変動）は基礎遷移Ｂには反映されない。

【0024】

変動生成部３４は、音素依存変動を示す変動成分Ａを生成する。具体的には、第１実施形態の変動生成部３４は、素片選択部２２が順次に選択する音声素片Ｐに含有される音素依存変動が反映されるように変動成分Ａを生成する。他方、各音声素片Ｐのうち音素依存変動以外の音高の変動（具体的には受聴者に調子はずれと知覚され得る音高変動）は変動成分Ａに反映されない。

【0025】

変動付加部３６は、基礎遷移設定部３２が設定した基礎遷移Ｂに、変動生成部３４が生成した変動成分Ａを付加することで音高遷移Ｃを生成する。したがって、各音声素片Ｐの音素依存変動を反映した音高遷移Ｃが生成される。

【0026】

音素依存変動以外の変動（以下「誤差変動」という）と比較すると、音素依存変動は音高の変動量が大きいという概略的な傾向がある。以上の傾向を考慮して、第１実施形態では、音声素片Ｐのうち基準音高ＦRに対する音高差（後掲の差分値Ｄ）が大きい区間の音高変動を音素依存変動と推定して音高遷移Ｃに反映させる一方、基準音高ＦRに対する音高差が小さい区間の音高変動を音素依存変動以外の誤差変動と推定して音高遷移Ｃには反映させない。

【0027】

図２に例示される通り、第１実施形態の変動生成部３４は、音高解析部４２と変動解析部４４とを包含する。音高解析部４２は、素片選択部２２が選択する各音声素片Ｐの音高（以下「観測音高」という）ＦVを順次に特定する。観測音高ＦVは、音声素片Ｐの時間長に対して充分に短い周期で順次に特定される。観測音高ＦVの特定には、公知のピッチ検出技術が任意に採用される。

【0028】

図３は、スペイン語で発音された参照音声の複数の音素の時系列（[n],[a],[B],[D],[o]）を便宜的に想定して観測音高ＦVと基準音高ＦR（-700cent）との関係を図示したグラフである。図３には参照音声の音声波形が便宜的に併記されている。図３を参照すると、観測音高ＦVが音素毎に相異なる度合で基準音高ＦRに対して低下するという傾向が確認できる。具体的には、有声子音の音素[B],[D]の区間では、他の有声子音の音素[n]や母音の音素[a],[o]と比較して、基準音高ＦRに対する観測音高ＦVの変動が顕著に観測される。音素[B],[D]の区間における観測音高ＦVの変動は音素依存変動であり、音素[n],[a],[o]の区間における観測音高ＦVの変動は音素依存変動以外の誤差変動である。すなわち、誤差変動と比較して音素依存変動の変動量が大きいという前述の傾向が図３からも確認できる。

【0029】

図２の変動解析部４４は、音声素片Ｐの音素依存変動を推定した変動成分Ａを生成する。具体的には、第１実施形態の変動解析部４４は、記憶装置１４に記憶された基準音高ＦRと音高解析部４２が特定した観測音高ＦVとの差分値Ｄを算定し（Ｄ＝ＦR−ＦV）、調整値αを差分値Ｄに乗算することで変動成分Ａを生成する（Ａ＝αＤ＝α(ＦR−ＦV)）。差分値Ｄが大きい区間の音高変動を音素依存変動と推定して音高遷移Ｃに反映させる一方、差分値Ｄが小さい区間の音高変動を音素依存変動以外の誤差変動と推定して音高遷移Ｃに反映させない、という前述の傾向を再現するために、第１実施形態の変動解析部４４は、差分値Ｄに応じて調整値αを可変に設定する。概略的には、差分値Ｄが大きい（すなわち音高変動が音素依存変動である可能性が高い）ほど調整値αが増加する（すなわち音高遷移Ｃに優勢に反映される）ように、変動解析部４４は調整値αを算定する。

【0030】

図４は、差分値Ｄと調整値αとの関係の説明図である。図４に例示される通り、差分値Ｄの数値範囲は、所定の閾値ＤTH1および閾値ＤTH2を境界として第１範囲Ｒ1と第２範囲Ｒ2と第３範囲Ｒ3とに区分される。閾値ＤTH2は閾値ＤTH1を上回る所定値である。第１範囲Ｒ1は閾値ＤTH1を下回る範囲であり、第２範囲Ｒ2は閾値ＤTH2を上回る範囲である。第３範囲Ｒ3は閾値ＤTH1と閾値ＤTH2との間の範囲である。観測音高ＦVの変動が音素依存変動である場合に差分値Ｄが第２範囲Ｒ2内の数値となり、観測音高ＦVの変動が音素依存変動以外の誤差変動である場合に差分値Ｄが第１範囲Ｒ1内の数値となるように、閾値ＤTH1および閾値ＤTH2は実験的または統計的に事前に選定される。図４の例示では、閾値ＤTH1が約170centに設定され、閾値ＤTH2が220centに設定された場合が想定されている。差分値Ｄが200cent（第３範囲Ｒ3内）である場合、調整値αは0.6に設定される。

【0031】

図４から理解される通り、基準音高ＦRと観測音高ＦVとの差分値Ｄが第１範囲Ｒ1内の数値である場合（すなわち、観測音高ＦVの変動が誤差変動であると推定される場合）に調整値αは最小値０に設定される。他方、差分値Ｄが第２範囲Ｒ2内の数値である場合（すなわち、観測音高ＦVの変動が音素依存変動であると推定される場合）に調整値αは最大値１に設定される。また、差分値Ｄが第３範囲Ｒ3内の数値である場合、調整値αは、０以上かつ１以下の範囲内で差分値Ｄに応じた数値に設定される。具体的には、第３範囲Ｒ3内では調整値αは差分値Ｄに正比例する。

【0032】

第１実施形態の変動解析部４４は、前述の通り、以上の条件で設定された調整値αを差分値Ｄに乗算することで変動成分Ａを生成する。したがって、差分値Ｄが第１範囲Ｒ1内の数値である場合には調整値αが最小値０に設定されることで変動成分Ａは０となり、観測音高ＦVの変動（誤差変動）は音高遷移Ｃに反映されない。他方、差分値Ｄが第２範囲Ｒ2内の数値である場合には調整値αが最大値１に設定されるから、観測音高ＦVの音素依存変動に相当する差分値Ｄが変動成分Ａとして生成され、結果的に観測音高ＦVの変動が音高遷移Ｃに反映される。以上の説明から理解される通り、調整値αの最大値１は、観測音高ＦVの変動を変動成分Ａに反映させる（音素依存変動として抽出する）ことを意味し、調整値αの最小値０は、観測音高ＦVの変動を変動成分Ａに反映させない（誤差変動として無視する）ことを意味する。なお、母音の音素については観測音高ＦVと基準音高ＦRとの差分値Ｄが閾値ＤTH1を下回る。したがって、母音の観測音高ＦVの変動（音素依存変動以外の変動）は音高遷移Ｃに反映されない。

【0033】

図２の変動付加部３６は、以上の手順で変動生成部３４（変動解析部４４）が生成した変動成分Ａを基礎遷移Ｂに付加することで音高遷移Ｃを生成する。具体的には、第１実施形態の変動付加部３６は、基礎遷移Ｂから変動成分Ａを減算することで音高遷移Ｃを生成する（Ｃ＝Ｂ−Ａ）。図３には、基礎遷移Ｂを基準音高ＦRと便宜的に仮定した場合の音高遷移Ｃが破線で併記されている。図３から理解される通り、音素[n],[a],[o]の区間の大部分では基準音高ＦRと観測音高ＦVとの差分値Ｄが閾値ＤTH1を下回るから、観測音高ＦVの変動（すなわち誤差変動）は音高遷移Ｃでは充分に抑制される。他方、音素[B],[D]の区間の大部分では差分値Ｄが閾値ＤTH2を上回るから、観測音高ＦVの変動（すなわち音素依存変動）は音高遷移Ｃでも忠実に維持される。以上の説明から理解される通り、差分値Ｄが第１範囲Ｒ1内の数値である場合と比較して、差分値Ｄが第２範囲Ｒ2内の数値である場合のほうが、音声素片Ｐの観測音高ＦVの変動が音高遷移Ｃに反映される度合が大きくなるように、第１実施形態の音高設定部２４は音高遷移Ｃを設定する。

【0034】

図５は、変動解析部４４の動作のフローチャートである。素片選択部２２が順次に選択する音声素片Ｐの観測音高ＦVを音高解析部４２が特定するたびに図５の処理が実行される。図５の処理を開始すると、変動解析部４４は、記憶装置１４に記憶された基準音高ＦRと音高解析部４２が特定した観測音高ＦVとの差分値Ｄを算定する（Ｓ1）。

【0035】

変動解析部４４は、差分値Ｄに応じた調整値αを設定する（Ｓ2）。具体的には、図４を参照して説明した差分値Ｄと調整値αとの関係を表現する関数（閾値ＤTH1や閾値ＤTH2等の変数）が記憶装置１４に格納され、変動解析部４４は、記憶装置１４に格納された関数を利用して差分値Ｄに応じた調整値αを設定する。そして、変動解析部４４は、調整値αを差分値Ｄに乗算することで変動成分Ａを生成する（Ｓ3）。

【0036】

以上に説明した通り、第１実施形態では、基準音高ＦRと観測音高ＦVとの差分値Ｄに応じた度合で観測音高ＦVの変動を反映させた音高遷移Ｃが設定されるから、合成音声が調子はずれと知覚される可能性を低減しながら、参照音声の音素依存変動を忠実に再現した音高遷移を生成することができる。第１実施形態では特に、合成情報Ｓが時系列に指定する音高Ｘ1に対応する基礎遷移Ｂに変動成分Ａが付加されるから、対象楽曲の旋律を維持しながら音素依存変動を再現できるという利点がある。

【0037】

また、第１実施形態では、調整値αの設定に適用される差分値Ｄに当該調整値αを乗算するという簡便な処理で変動成分Ａを生成できるという格別な効果が実現される。第１実施形態では特に、第１範囲Ｒ1内で最小値０となり、第２範囲Ｒ2内で最大値１となり、両者間の第３範囲Ｒ3内で差分値Ｄに応じて変動する数値となるように、調整値αが設定されるから、例えば指数関数等の各種の関数を調整値αの設定に適用する構成と比較して、変動成分Ａの生成処理が簡素化されるという前述の効果は格別に顕著である。

【0038】

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

【0039】

図６は、第２実施形態における音高設定部２４の構成図である。図６に例示される通り、第２実施形態の音高設定部２４は、第１実施形態の変動生成部３４に平滑処理部４６を追加した構成である。平滑処理部４６は、変動解析部４４が生成する変動成分Ａを時間軸上で平滑化する。変動成分Ａの平滑化（時間的な変動の抑制）には公知の技術が任意に採用され得る。他方、変動付加部３６は、平滑処理部４６による平滑化後の変動成分Ａを基礎遷移Ｂに付加することで音高遷移Ｃを生成する。

【0040】

図７には、図３と同様の音素の時系列を想定して、第１実施形態の変動成分Ａにより各音声素片Ｐの観測音高ＦVが補正される度合（補正量）の時間変化が破線で図示されている。すなわち、図７の縦軸の補正量は、参照音声の観測音高ＦVと基礎遷移Ｂを基準音高ＦRに維持した場合の音高遷移Ｃとの差分値に相当する。したがって、図３と図７との対比により把握される通り、誤差変動が推定される音素[n],[a],[o]の区間では補正量が増加し、音素依存変動が推定される音素[B],[D]の区間では補正量が０付近まで抑制される。

【0041】

図７に例示される通り、第１実施形態の構成では、各音素の始点の直後に補正量が急峻に変動し得るから、音声信号Ｖを再生した合成音声が聴感的に不自然な印象と知覚される可能性がある。他方、図７の実線は、第２実施形態における補正量の時間変化に相当する。図７から理解される通り、第２実施形態では変動成分Ａが平滑処理部４６により平滑化されるから、音高遷移Ｃの急激な変動が第１実施形態と比較して抑制される。したがって、合成音声が聴感的に不自然な印象と知覚される可能性が低減されるという利点がある。

【0042】

＜第３実施形態＞
図８は、第３実施形態における差分値Ｄと調整値αとの関係の説明図である。図８に矢印で例示される通り、第３実施形態の変動解析部４４は、差分値Ｄの範囲を確定する閾値ＤTH1と閾値ＤTH2とを可変に設定する。第１実施形態の説明から理解される通り、閾値ＤTH1および閾値ＤTH2が小さいほど調整値αは大きい数値（例えば最大値１）に設定され易いから、音声素片Ｐの観測音高ＦVの変動（音素依存変動）が音高遷移Ｃに反映される可能性は上昇する。他方、閾値ＤTH1および閾値ＤTH2が大きいほど調整値αは小さい数値（例えば最小値０）に設定され易いから、音声素片Ｐの観測音高ＦVが音高遷移Ｃに反映される可能性は低下する。

【0043】

ところで、聴感的に調子はずれ（音痴）と知覚される度合は音素の種別に応じて相違する。例えば、音素[n]等の有声子音は、対象楽曲の本来の音高Ｘ1に対して僅かに音高が相違するだけで調子はずれと知覚されるのに対し、音素[v],[z],[j]等の有声摩擦音は、音高が本来の音高Ｘ1とは相違しても調子はずれとは知覚され難い、という傾向がある。

【0044】

音素の種別に応じた聴感的な知覚特性の相違を考慮して、第３実施形態の変動解析部４４は、素片選択部２２が順次に選択する音声素片Ｐの各音素の種別に応じて差分値Ｄと調整値αとの関係（具体的には閾値ＤTH1や閾値ＤTH2）を可変に設定する。具体的には、調整はずれと知覚され易い傾向がある種別の音素（例えば[n]）については、閾値ＤTH1および閾値ＤTH1を大きい数値に設定することで、観測音高ＦVの変動（誤差変動）が音高遷移Ｃに反映される度合を低下させ、調子はずれと知覚され難い傾向がある種別の音素（例えば[v],[z],[j]）については、閾値ＤTH1および閾値ＤTH2を小さい数値に設定することで、観測音高ＦVの変動（音素依存変動）が音高遷移Ｃに反映される度合を上昇させる。音声素片Ｐを構成する各音素の種別は、例えば音声素片群Ｌの各音声素片Ｐに付加される属性情報（各音素の種別を指定する情報）を参照することで変動解析部４４が特定し得る。

【0045】

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、差分値Ｄと調整値αとの関係が可変に制御されるから、各音声素片Ｐの観測音高ＦVの変動を音高遷移Ｃに反映させる度合を適宜に調整できるという利点がある。また、第３実施形態では、音声素片Ｐの各音素の種別に応じて差分値Ｄと調整値αとの関係が制御されるから、合成音声が調子はずれと知覚される可能性を低減しながら参照音声の音素依存変動を忠実に再現できるという前述の効果は格別に顕著である。なお、第２実施形態の構成を第３実施形態に適用することも可能である。

【0046】

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

【0047】

（１）前述の各形態では、音高解析部４２が各音声素片Ｐの観測音高ＦVを特定する構成を例示したが、観測音高ＦVを音声素片Ｐ毎に記憶装置１４に事前に記憶することも可能である。観測音高ＦVを記憶装置１４に記憶した構成では、前述の各形態で例示した音高解析部４２は省略され得る。

【0048】

（２）前述の各形態では、差分値Ｄに応じて直線的に調整値αが変動する構成を例示したが、差分値Ｄと調整値αとの関係は任意である。例えば、差分値Ｄに対して調整値αが曲線的に変動する構成も採用され得る。調整値αの最大値や最小値も任意に変更され得る。また、第３実施形態では、音声素片Ｐの音素の種別に応じて差分値Ｄと調整値αとの関係を制御したが、例えば利用者からの指示に応じて変動解析部４４が差分値Ｄと調整値αとの関係を変更することも可能である。

【0049】

（３）移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で音声合成装置１００を実現することも可能である。具体的には、音声合成装置１００は、端末装置から通信網を介して受信した合成情報Ｓで指定される合成音声の音声信号Ｖを第１実施形態と同様の方法で生成して通信網から端末装置に送信する。また、例えば音声合成装置１００とは別体のサーバ装置に音声素片群Ｌを記憶し、合成情報Ｓの発音内容Ｘ3に対応する各音声素片Ｐを音声合成装置１００がサーバ装置から取得する構成も採用され得る。すなわち、音声合成装置１００が音声素片群Ｌを保持する構成は必須ではない。

【符号の説明】

【0050】

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……放音装置、２２……素片選択部、２４……音高設定部、２６……音声合成部、３２……基礎遷移設定部、３４……変動生成部、３６……変動付加部、４２……音高解析部、４４……変動解析部、４６……平滑処理部。

【図1】