特許6331470 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6331470ブレス音設定装置およびブレス音設定方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6331470

(24)【登録日】2018年5月11日

(45)【発行日】2018年5月30日

(54)【発明の名称】ブレス音設定装置およびブレス音設定方法

(51)【国際特許分類】

G10L 13/033 20130101AFI20180521BHJP

G10L 13/00 20060101ALI20180521BHJP

【ＦＩ】

G10L13/033 101B

G10L13/033 102B

G10L13/00 100Z

【請求項の数】6

【全頁数】15

(21)【出願番号】特願2014-37291(P2014-37291)

(22)【出願日】2014年2月27日

(65)【公開番号】特開2015-161822(P2015-161822A)

(43)【公開日】2015年9月7日

【審査請求日】2016年12月19日

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100125689

【弁理士】

【氏名又は名称】大林章

(74)【代理人】

【識別番号】100121108

【弁理士】

【氏名又は名称】高橋太朗

(72)【発明者】

【氏名】橘誠

(72)【発明者】

【氏名】マイケル・ウィルソン

【審査官】堀洋介

(56)【参考文献】

【文献】特開２００４−１４４８１４（ＪＰ，Ａ）

【文献】特開２００８−１１６８２６（ＪＰ，Ａ）

【文献】特開２０００−０６６６９６（ＪＰ，Ａ）

【文献】特開平０９−２３０８８４（ＪＰ，Ａ）

【文献】特開２００４−０６１７５３（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／０３３

Ｇ１０Ｌ１３／００

(57)【特許請求の範囲】

【請求項1】

楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、
前記第１参照区間に含まれる音符数と、前記第２参照区間に含まれる音符数との少なくとも一方を含む特徴情報を特定する特徴特定手段と
前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段と、
を具備するブレス音設定装置。

【請求項2】

前記特徴特定手段は、前記第１参照区間の音高の最高値と、前記第２参照区間の音高の最高値との少なくとも一方を含む前記特徴情報を特定する
請求項１のブレス音設定装置。

【請求項3】

前記特徴特定手段は、前記第１参照区間の最終音の音高と、前記第２参照区間の開始音の音高との少なくとも一方を含む特徴情報を特定する
請求項１または請求項２のブレス音設定装置。

【請求項4】

前記特徴特定手段は、前記第１参照区間における音高の最高値と最低値との差分値と、前記第２参照区間における音高の最高値と最低値との差分値との少なくとも一方を含む前記特徴情報を特定する
請求項１から請求項３の何れかのブレス音設定装置。

【請求項5】

前記変数設定手段は、特徴情報とブレス音の強度または時間長との相関を規定する回帰モデルに、前記特徴特定手段が特定した前記特徴情報を適用することで、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する
請求項１から請求項４の何れかのブレス音設定装置。

【請求項6】

コンピュータが、
楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定し、
前記第１参照区間に含まれる音符数と、前記第２参照区間に含まれる音符数との少なくとも一方を含む特徴情報を特定し、
前記特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する
ブレス音設定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、発声に付随する息継ぎ（ブレス）音を制御する技術に関する。

【背景技術】

【0002】

楽曲の歌唱音を合成する技術（音声合成技術）が従来から提案されている。音声合成技術においては、自然で人間らしい歌唱音を合成するために、強度を調整した息継ぎ（ブレス）音を挿入することがある。例えば、特許文献１には、ブレス音が挿入されるべき区間に先行する音素と後続する音素との組合せに対応するブレス音の波形データを、後続する音素に応じて振幅変調する構成が開示されている。また、特許文献２には、後続のフレーズの時間長に応じてブレス強度を制御する構成が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００４−０６１７５３号公報

【特許文献2】特開２００４−１４４８１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

後続の音素の種類や後続のフレーズの時間長に応じてブレス音の強度を設定する前述の技術では、実際のブレス音の傾向を反映した聴感的に自然なブレス音を必ずしも適切に設定できない場合がある。以上の事情を考慮して、本発明は、ブレス音と楽曲の特徴との関係に応じて適切にブレス音の強度を設定することを目的とする。

【課題を解決するための手段】

【0005】

上述した課題を解決するために、本発明の第１態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、前記第１参照区間に含まれる音符数と、前記第２参照区間に含まれる音符数との少なくとも一方を含む特徴情報を特定する特徴特定手段と、前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段とを具備する。以上の構成では、挿入区間の直前の第１参照区間に含まれる音符数と、挿入区間の直後の第２参照区間に含まれる音符数との少なくとも一方に応じてブレス音の強度や時間長が設定されるから、ブレス音に先行する区間、または、ブレス音に後続する区間における音符数（リズム）と、ブレス音の強度や時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。

【0006】

本発明の第２態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、前記第１参照区間の音高の最高値と、前記第２参照区間の音高の最高値との少なくとも一方を含む特徴情報を特定する特徴特定手段と、前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段とを具備する。以上の構成では、挿入区間の直前の第１参照区間の音高の最高値と、挿入区間の直後の第２参照区間の音高の最高値との少なくとも一方に応じてブレス音の強度や時間長が設定されるから、ブレス音に先行する区間、または、ブレス音に後続する区間における音高の最高値と、ブレス音の強度や時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。

【0007】

本発明の第３態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、前記第１参照区間の最終音の音高と、前記第２参照区間の最終音の音高との少なくとも一方を含む特徴情報を特定する特徴特定手段と、前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段とを具備する。以上の構成では、挿入区間の直前の第１参照区間の最終音の音高と、挿入区間の直後の第２参照区間の開始音の音高との少なくとも一方に応じてブレス音の強度や時間長が設定されるから、ブレス音の直前や直後に発音される音高とブレス音の強度や時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。具体的には、第１参照区間の最終音の音高が高いほどブレス音の強度が高くなるように、ブレス音の強度やブレス音の時間長が設定される。

【0008】

本発明の第４態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、前記第１参照区間における音高の最高値と最低値との差分値と、前記第２参照区間における音高の最高値と最低値との差分値との少なくとも一方を含む特徴情報を特定する特徴特定手段と、前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段とを具備する。以上の構成では、挿入区間の直前の第１参照区間における音高の最高値と最低値との差分値と、挿入区間の直後の第２参照区間における音高の最高値と最低値との差分値との少なくとも一方に応じて、ブレス音の強度や時間長が設定されるから、ブレス音に先行する区間の音域、または、ブレス音に後続する区間における音域と、ブレス音の強度や時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。

【0009】

本発明の第５態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方と、を設定する区間設定手段と、前記第１参照区間に含まれる音符の各々に対応する音高の分布を示す指標値と、前記第２参照区間に含まれる音符の各々に対応する音高の分布を示す指標値との少なくとも一方を含む特徴情報を特定する特徴特定手段と、前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段とを具備する。以上の構成では、挿入区間の直前の第１参照区間に含まれる音符の各々に対応する音高の分布を示す指標値と、挿入区間の直後の第２参照区間に含まれる音符の各々に対応する音高の分布を示す指標値との少なくとも一方に応じて、ブレス音の強度や時間長が設定されるから、ブレス音に先行する区間、または、ブレス音に後続する区間における音高の分布（例えば、高音が占める割合や低音が占める割合など）と、ブレス音の強度や時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。
なお、ブレス音の強度や時間長の設定に利用される特徴情報の種類は各態様の例示に限定されない。例えば、各参照区間(第１参照区間、第２参照区間)における各音符の音高と、当該音符の発音期間の時間長との積を、参照区間内の全部の音符について累積した数値（音高‐時間指標）を包含する特徴情報を、ブレス音の強度や時間長の設定に利用することも可能である。

【0010】

本発明の第６態様に係るブレス音設定装置は、楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第１参照区間と前記挿入区間の直後で複数の音符を含む第２参照区間との少なくとも一方を設定する区間設定手段と、前記第１参照区間および前記第２参照区間の少なくとも一方の特徴を示す特徴情報を特定する特徴特定手段と、特徴情報とブレス音の強度または時間長との相関を規定する回帰モデルに、前記特徴特定手段が特定した特徴情報を適用することで、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段と、を具備する。以上の構成では、特徴情報とブレス音の強度または時間長との相関を規定する回帰モデルを利用してブレス音の強度および時間長の少なくとも一方が設定されるから、現実のブレス音の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。

【0011】

以上の各態様に係るブレス音設定装置は、音響信号の生成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係るブレス音設定装置の動作方法（ブレス音設定方法）としても特定される。

【図面の簡単な説明】

【0012】

【図1】第１実施形態に係るブレス音設定装置のブロック図である。

【図2】ブレス音設定部のブロック図である。

【図3】特徴情報の説明図である。

【図4】強度および時間長の各々に対する各特徴情報の寄与度の説明図である。

【図5】回帰モデルによる予測性能の評価結果を示す図である。

【図6】ブレス音情報の説明図（表示例）である。

【図7】音声合成装置の動作のフローチャートである。

【図8】第２実施形態に係るブレス音設定装置のブロック図である。

【図9】初期的なブレス波形および学習データの強度の分布図である。

【図10】調整後のブレス波形の強度と学習データの強度との分布図である。

【発明を実施するための形態】

【0013】

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲（以下、「合成楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置である。音声信号Ｖには、合成楽曲の音楽的な特徴に応じて強度および時間長が調整されたブレス（息継ぎ）音が付加される。

【0014】

図１に示されるとおり、音声合成装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。なお、音声信号Ｖをデジタルからアナログに変換するＤ／Ａ変換器の図示は便宜的に省略した。

【0015】

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、以下に例示する通り、音声素片群Ｌとブレス波形群Ｂと合成情報Ｓと回帰モデル情報ＲＭとを記憶する。

【0016】

音声素片群Ｌは、特定の発声者の発声音から事前に採取された複数の音声素片の集合（音声合成用ライブラリ）である。音声素片は、例えば、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または、複数の音素を連結した音素連鎖（ダイフォンやトライフォン）である。各音声素片は、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。

【0017】

合成情報Ｓは、合成楽曲の歌唱音声を指定する時系列データであり、図１に例示される通り、合成楽曲を構成する音符毎に音高（例えばノートナンバー）Ｘ1と発音期間Ｘ2と音声符号Ｘ3とを時系列に指定する。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻と継続長（または終了時刻）とで規定される。以上の説明から理解される通り、合成情報Ｓは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号Ｘ3は、合成対象の音声の発音内容（すなわち合成楽曲の歌詞）を指定する。具体的には、音声符号Ｘ3は、合成楽曲の１個の音符について発音される音声単位（例えば音節やモーラ）を指定する。

【0018】

ブレス波形群Ｂは、特定の発声者の発声音から採取されたブレス（息継ぎ）音のブレス波形Ｗの集合である。強度（平均パワーや振幅）と時間長とが相違する複数種のブレス波形Ｗがブレス波形群Ｂに包含される。本実施形態では、例えば、相異なる３種類の強度（大／中／小）と相異なる３種類の時間長（長／中／短）との全通りの組み合わせに対応する９種類（３×３＝９通り）のブレス波形Ｗが用意される。

【0019】

回帰モデル情報ＲＭは、歌唱音声に付与されるブレス音の強度および時間長の統計的な傾向を表現する回帰モデルを規定する。

【0020】

図１の演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムを実行することで、合成情報Ｓの編集や音声信号Ｖの生成のための複数の機能（表示制御部２４，ブレス音設定部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。表示制御部２４は、楽曲編集用のソフトウェア（エディタ）で実現され、音声合成部２８は、音声合成用のソフトウェア（音声合成エンジン）で実現される。また、ブレス音設定部２６は、例えば、楽曲編集用または音声合成用のソフトウェアに対するプラグインソフトウェアで実現される。もっとも、各機能に対応するソフトウェアの切分けは任意であり、例えば、楽曲編集用のソフトウェアのひとつの機能としてブレス音設定部２６の機能を内包することも可能である。

【0021】

表示制御部２４は、各種の画像を表示装置１４に表示させる。具体的には、表示制御部２４は、合成情報Ｓが指定する合成楽曲の内容を利用者が確認するための図３の編集画面６０を表示装置１４に表示させる。編集画面６０は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面である。

【0022】

表示制御部２４は、合成情報Ｓが指定する音符毎に音符図像６２を編集画面６０に配置する。音符図像６２は、合成楽曲の各音符を表象する図像である。具体的には、音高軸の方向における音符図像６２の位置は、合成情報Ｓが指定する音高Ｘ1に応じて設定され、時間軸の方向における音符図像６２の位置および表示長は、合成情報Ｓが指定する発音期間Ｘ2に応じて設定される。実際には、音符図像６２の各々に対応して音声符号Ｘ3が配置されるが、図３では図示を省略している。また、表示制御部２４は、編集画面６０に対する利用者からの指示に応じて合成情報Ｓを生成および編集する。

【0023】

ブレス音設定部２６は、合成楽曲の音楽的な特徴に応じて強度および時間長が調整されたブレス音を付加する。図２は、ブレス音設定部２６のブロック図である。図２に示されるように、ブレス音設定部２６は、区間設定部３２と特徴特定部３４と変数設定部３６と波形選択部４２と波形処理部４４とを含んで構成される。区間設定部３２は、合成楽曲のうちブレス音を挿入すべき区間（以下「挿入区間」という）ＴBを設定する。

【0024】

図３は、挿入区間ＴBの設定の説明図である。第１実施形態の区間設定部３２は、挿入区間ＴBと、相前後する挿入区間ＴBの間の区間（以下「参照区間」という）ＴRとを設定する。具体的には、区間設定部３２は、図３から理解される通り、合成楽曲内の相前後する２個の音符の区間であって所定の閾値ｔ0を上回る時間長の区間を挿入区間ＴBとして設定し、合成楽曲内で相前後する各挿入区間ＴBの間の区間を参照区間ＴRとして設定する。以上の説明から理解される通り、合成楽曲内の任意の１個の参照区間ＴRは、複数の音符を包含する区間（典型的には音楽的な纏まりが知覚される複数の音符の時系列で構成されるフレーズ）である。他方、挿入区間ＴBは、合成楽曲のうち閾値ｔ0を上回る時間長にわたり音符が存在しない無音区間である。なお、閾値ｔ0は例えば事前に採取された発声者のブレス音の分析結果に応じて実験的または統計的に選定される。閾値ｔ0は、例えば２５０ｍｓｅｃに設定される。

【0025】

特徴特定部３４は、区間設定部３２が設定した複数の挿入区間ＴBの各々について特徴情報Ｆを特定する。特徴情報Ｆは、各挿入区間の直前の参照区間ＴR（以下では特に「参照区間ＴR1」と表記する）および直後の参照区間ＴR（以下では特に「参照区間ＴR2」と表記する）の音楽的な特徴を示す情報である。第１実施形態の特徴情報Ｆは、以下に例示する複数種の特徴量を包含する。以下の特徴量の符号において、添字1は直前の参照区間ＴR1から抽出される要素を意味し、添字2は直後の参照区間ＴR2から抽出される要素を意味する。
（１）直前の参照区間ＴR1内の最終音の音高ｅ1
（２）直後の参照区間ＴR2内の開始音の音高ｂ2
（３）直前の参照区間ＴR1における音高の最高値ｈ1
（４）直後の参照区間ＴR2における音高の最高値ｈ2
（５）直前の参照区間ＴR1における音高の最低値ｌ1
（６）直後の参照区間ＴR2における音高の最低値ｌ2
（７）直前の参照区間ＴR1における音高の最高値ｈ1と最低値ｌ1との差分値ｒ1
（８）直後の参照区間ＴR2における音高の最高値ｈ2と最低値ｌ2との差分値ｒ2
（９）直前の参照区間ＴR1における音符数ｎ1
（10）直後の参照区間ＴR2における音符数ｎ2
（11）直前の参照区間ＴR1における音高の分布（以下「音高分布」という）Ｓ1
（12）直後の参照区間ＴR2における音高の分布（以下「音高分布」という）Ｓ2
（13）直前の参照区間ＴR1の時間長ｔR1
（14）直後の参照区間ＴR2の時間長ｔR2
（15）挿入区間ＴBの時間長ｔB

【0026】

音高分布Ｓj（ｊ＝１,２）は、参照区間ＴRj（ＴR1，ＴR2）に含まれる音符の各々に対応する音高の分布を示す指標値（具体的には、高音の占める割合を示す指標値）である。具体的には、参照区間ＴRjにおける各音符の音高ｐと音高の最低値ｌjとの差分値(ｐ−ｌj)と当該音符の時間長ｔとの乗算値ｔ(ｐ−ｌj)を基準値Ｓ0_jで正規化した数値を参照区間ＴR内の全部の音符について合計した数値（Ｓj＝Σ｛ｔ(ｐ−ｌj)／Ｓ0_j｝）である。基準値Ｓ0は、例えば、参照区間ＴR1内の音高の最高値ｈ1と最低値ｌ1との差分値ｒ1に参照区間ＴR1の時間長ｔR1を乗算した数値に設定される。以上の説明から理解される通り、音高分布Ｓjは、参照区間ＴRjにおける高音の割合が高いほど大きい数値となる（低音の割合が高いほど小さい数値となる）ように０以上かつ１以下の範囲内で変動する。

【0027】

図２の変数設定部３６は、区間設定部３２が設定した各挿入区間ＴBに挿入されるべきブレス音の強度αと時間長βとを、特徴特定部３４が特定した特徴情報Ｆに応じて設定する。第１実施形態の変数設定部３６は、記憶装置１２に記憶された回帰モデル情報ＲＭで規定される回帰モデルに特徴情報Ｆを適用することで強度αと時間長βとを設定する。

【0028】

回帰モデルは、特徴情報Ｆとブレス音の強度αおよび時間長βとの統計的な相関を表現する統計モデル（相関モデル）であり、事前に収集された多数のブレス音を学習データとして利用した機械学習により設定される。回帰モデルの機械学習には公知の技術が任意に採用され得るが、例えば、回帰木を利用したＲＦＲ（Random Forest Regression）が好適である。具体的には、事前に収集されたブレス音の強度および時間長と、当該ブレス音に関する前述の特徴情報Ｆ（（１）〜（15））とを含む多数の学習データを利用した機械学習で回帰モデルが設定される。

【0029】

前述のＲＦＲを利用した機械学習で生成された回帰モデルは、特徴情報Ｆの各変数とブレス音の強度αおよび時間長βの各々との相関の度合を示す指標値（以下「寄与度」という）を算出することが可能である。

【0030】

図４は、強度αおよび時間長βの各々に対する各特徴情報Ｆの寄与度の説明図である。図４から理解される通り、ブレス音の強度αは、参照区間ＴR1の時間長ｔR1や挿入区間ＴBの時間長ｔBに加えて、各参照区間ＴR内の音高に関する特徴情報Ｆ（前掲の(１)〜(12)）にも依存することが図４から理解できる。具体的には、参照区間ＴR1の最終音の音高ｅ1および音高の最高値ｈ1と参照区間ＴR2の音高の最高値ｈ2とは特に強度αに影響する。したがって、（１）〜(15)の特徴量を包含する特徴情報Ｆを回帰モデルに適用してブレス音の強度αを算定する第１実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な強度αを設定することが可能である。

【0031】

図５は、第１実施形態の回帰モデル情報ＲＭで規定される回帰モデルの予測性能の評価結果を示す散布図である。具体的には、図５の縦軸は、回帰モデルで算定される強度αの数値（予測値）を意味し、図５の横軸は、実際の歌唱音声から抽出された約３００個のブレス音の強度の数値（実測値）を意味する。図５の通り、第１実施形態の回帰モデルによれば単独の特徴情報に基づく予測値と比較して高い精度でブレス音の強度αを設定できることが確認された。すなわち、音高に関連する特徴情報Ｆ（前掲の(1)〜(12)）に応じてブレス音の強度αを算定する第１実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な強度αを設定できることが、図５からも確認できる。

【0032】

他方、図４におけるブレス音の時間長βに着目すると、挿入区間ＴBの時間長ｔBが支配的ではあるが、各参照区間ＴR内の音高に関する特徴情報Ｆ（前掲の(1)〜(12)）も時間長βに影響することが確認できる。具体的には、参照区間ＴR1の最終音の音高ｅ1および音高分布Ｓ1と参照区間ＴR2の音高の最高値ｈ2とは特に時間長βに影響する。したがって、（１）〜(15)の特徴量を包含する特徴情報Ｆを回帰モデルに適用してブレス音の時間長βを算定する第１実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な時間長βを設定することが可能である。

【0033】

図２の波形選択部４２は、以上に説明した方法で変数設定部３６が設定した強度αおよび時間長βに応じたブレス波形Ｗを記憶装置１２のブレス波形群Ｂから挿入区間ＴB毎に選択する。具体的には、波形選択部４２は、変数設定部３６が設定した強度αおよび時間長βに近似する強度および時間長のブレス波形Ｗをブレス波形群Ｂから選択する。

【0034】

波形処理部４４は、波形選択部４２が選択したブレス波形Ｗの強度および時間長を調整した複数のブレス波形を各挿入区間ＴBに配列した音響ファイル（以下「ブレス音情報ＢＩ」と表記する）を生成する。具体的には、波形処理部４４は、ブレス波形群Ｂから選択したブレス波形Ｗの強度を変数設定部３６が設定した強度αに調整するとともに、ブレス波形Ｗの時間長を変数設定部３６が設定した時間長βに調整する。波形処理部４４が生成するブレス音情報ＢＩは、強度および時間長の調整後のブレス波形Ｗを時間軸上の各挿入区間ＴBに配置した音響の時間波形を示すファイル（例えばＷＡＶ形式のファイル）である。強度および時間長の調整の方法は任意であるが、例えば以下の処理が好適である。例えば、ブレス波形Ｗの平均パワーが予測値αと等しくなるように振幅を調整する方法が採用され得る。また、時間長の調整は、時間長βを上回るブレス波形Ｗが選択された場合に、ブレス波形Ｗの始点側や終点側の区間を削除する方法（例えばフェードイン／フェードアウト）や、ブレス波形Ｗをタイムコンプレッション（例えばリサンプリング）する方法が好適である。

【0035】

第１実施形態の表示制御部２４は、編集画面６０とともにブレス音画面７０を表示装置１４に表示させる。ブレス音画面７０には、波形処理部４４が生成したブレス音情報ＢＩが示す音響（すなわち、強度および時間長の調整後のブレス波形Ｗが各挿入区間ＴBに挿入された音響）の時間波形が配置される。図６から理解される通り、第１実施形態では、各参照区間ＴR（ＴR1，ＴR2）から抽出された特徴情報Ｆに応じて各挿入区間ＴBのブレス音の強度および時間長が適切に設定されたブレス音情報ＢＩが生成される。なお、図６では合成楽曲の全体にわたるブレス音情報ＢＩの一部を例示したが、実際は合成楽曲の先頭から後尾までに含まれる全ての挿入区間ＴBにブレス音が挿入され、利用者はスクロール等の操作により、全ての挿入区間ＴBに付加されたブレス音を確認することが可能である。

【0036】

図１の音声合成部２８は、記憶装置１２に記憶された音声素片群Ｌと合成情報Ｓとブレス音情報ＢＩとを利用して音声信号Ｖを生成する。具体的には、音声合成部２８は、合成情報Ｓが指定する音符毎の音声符号Ｘ3に応じた音声素片を音声素片群Ｌから順次に選択し、各音声素片を音高Ｘ1および発音期間Ｘ2に調整して相互に連結することで歌唱音声の音声信号を生成し、ブレス音情報ＢＩが示すブレス音を歌唱音声の音声信号に合成することで音声信号Ｖを生成する。音声合成部２８が生成した音声信号Ｖが放音装置１８に供給されることで、合成楽曲の歌唱音声が再生される。

【0037】

図７は、第１実施形態に係る音声合成装置１００がブレス音情報ＢＩを生成する処理（以下「ブレス音生成処理」という）の動作を示すフローチャートである。ブレス音生成処理は、例えば編集画面６０において利用者からの処理の開始を指示する操作を契機として開始する。利用者から処理の開始が指示されると（ＳA11：YES）、区間設定部３２は、合成楽曲を各挿入区間ＴBと各参照区間ＴRとに区分する（ＳA12）。

【0038】

特徴特定部３４は、合成楽曲内の１個の挿入区間（以下「選択挿入区間」という）ＴBを順次に選択し（ＳA13）、選択挿入区間ＴBの直前の参照区間ＴR1および直後の参照区間ＴR2の特徴情報Ｆを特定する（ＳA14）。変数設定部３６は、特徴特定部３４が特定した特徴情報Ｆを回帰モデル情報ＲＭの回帰モデルに適用することで、選択挿入区間ＴBに挿入すべきブレス音の強度αおよび時間長βを設定し（ＳA15）、波形選択部４２は、強度αおよび時間長βに近いブレス波形Ｗをブレス波形群Ｂから選択する（ＳA16）。そして、波形処理部４４は、波形選択部４２が選択したブレス波形Ｗの強度および時間長を調整する（ＳA17）。

【0039】

区間設定部３２が設定した複数の挿入区間ＴBの各々について以上の処理（ＳA14〜ＳA17）が実行される（ＳA18：NO）。合成楽曲の全部の挿入区間ＴBについて処理が完了すると（ＳA18：YES）、波形処理部４４は、調整後のブレス波形Ｗを各挿入区間ＴBに配置した音響を示すブレス音情報ＢＩを生成し（ＳA19）、表示制御部２４は、ブレス音情報ＢＩに応じたブレス音画面７０を編集画面６０とともに表示装置１４に表示させる（ＳA20）。以上の処理が完了することでブレス音生成処理は終了する。

【0040】

以上に説明したとおり、第１実施形態では、複数の挿入区間ＴBの各々について、各挿入区間ＴBの直前の参照区間ＴR1および直後の参照区間ＴR2の音楽的な特徴を示す特徴情報Ｆに基づいてブレス音の強度αおよび時間長βが設定される。したがって、第１実施形態によれば、楽曲の音楽的な特徴とブレス音との強度および時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。また、第１実施形態では音楽的な特徴情報Ｆに基づいてブレス音の強度αおよび時間長βを設定するので、歌詞情報が入力されていない場合でも挿入区間ＴBに適切なブレス音を設定することが可能である。

【0041】

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

【0042】

図８は、本発明の第２実施形態に係る音声合成装置１００のブロック図である。第２実施形態の音声合成装置１００は、第１実施形態の音声合成装置１００にサンプル調整部４６を追加した構成である。サンプル調整部４６は、予め用意された複数のブレス波形Ｗ0の強度を、回帰モデルの生成（機械学習）に利用された学習用のブレス音（学習データ）の強度に適合させることで、ブレス波形群Ｂの各ブレス波形Ｗを生成する。

【0043】

図９は、初期的なブレス波形Ｗ0および学習データの強度の分布図である。図９の符号Ａtargetは、予め用意された９種類のブレス波形Ｗ0の強度ｄiの平均であり、符号Ａtrainは、回帰モデルの学習処理に適用された複数の学習データの強度の平均である。図９から理解される通り、複数のブレス波形Ｗ0の強度ｄiの平均Ａtargetと学習データの強度の平均Ａtrainとは相違する。以上の事情を考慮して、第２実施形態のサンプル調整部４６は、各ブレス波形Ｗ0の強度ｄiを、以下の数式(1)の演算で強度Ｄiに調整することで、ブレス波形群Ｂのブレス波形Ｗを生成する。
Ｄi＝Ａtrain＋ω（ｄi−Ａtarget） ……(1)

【0044】

数式(1)の符号ωは、複数のブレス波形Ｗ0の強度ｄiの分散を、学習データの強度の分散に適合させる調整値（加重値）である。図１０は、数式(1)で算定された各ブレス波形Ｗの強度Ｄiと学習データの強度との分布図である。数式(1)および図１０から理解される通り、数式(1)の演算は、調整後の各ブレス波形Ｗの強度Ｄiの平均と分散を学習データの強度の平均Ａtrainと分散に近似（理想的には合致）するように調整する演算に相当する。すなわち、サンプル調整部４６による処理後のブレス波形Ｗの強度の分布は、学習データの強度の分布に適合するように調整される。なお、調整値ωを１に設定すれば、複数のブレス波形Ｗ0の強度ｄiの平均Ａtargetを、ブレス波形Ｗの分散を維持したまま学習データの強度の平均Ａtrainに適合させることが可能である。図１０では調整値ωを１に設定した場合が例示されている。サンプル調整部４６が生成したブレス波形Ｗ（ブレス波形群Ｂ）を利用したブレス音生成処理（図７）の内容は第１実施形態と同様である。

【0045】

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、ブレス波形Ｗにおける強度の分布が学習データの強度の分布に近似するようにブレス波形Ｗ0の強度が調整される。したがって、事前に用意されたブレス波形Ｗ0の強度と学習データの強度とが乖離する場合でも、回帰モデルを利用して適切なブレス波形Ｗを選択できるという利点がある。換言すると、回帰モデルの機械学習に利用される学習データとは無関係に用意された既存のブレス波形Ｗ0を流用できるという利点がある

【0046】

なお、事前に用意されたブレス波形Ｗ0の時間長については学習データとの乖離が少ないと仮定し、前述の説明では強度の調整のみに言及した。ただし、各ブレス波形Ｗ0と学習データとで時間長が乖離する場合に、第２実施形態と同様の方法で、調整後の時間長の平均値が学習データの時間長の平均値に近似するように各ブレス波形Ｗ0の時間長を調整することも可能である。

【0047】

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

【0048】

（１）前述の各形態において、合成楽曲の開始から歌唱開始（最初の音符）までの区間が挿入区間ＴBとして設定され得る。ただし、当該挿入区間ＴBには直前の参照区間ＴR1が存在しない。そこで、例えば当該挿入区間ＴBの直後の参照区間ＴR2から抽出された特徴情報Ｆを参照区間ＴR1の特徴情報Ｆとして流用する構成や、参照区間ＴR2の音符列を時間軸上で反転させた音符列を参照区間ＴR1として特徴情報Ｆを抽出する構成が採用され得る。

【0049】

（２）前述の各形態では、特徴特定部３４が特定した特徴情報Ｆに応じて変数設定部３６がブレス音の強度αと時間長βとを設定する構成を例示したが、ブレス音の強度αや時間長β以外の特性を設定することも可能である。例えば、ブレス波形の形状や周波数特性（スペクトルのピークや傾斜等）を設定することも可能である。

【0050】

（３）前述の各形態では、(1)〜(15)の各特徴量を包含する特徴情報Ｆを例示したが、特徴情報Ｆに包含される特徴量の種類は各態様の例示に限定されない。例えば、各参照区間ＴRj(ＴR1,ＴR2)における各音符の音高ｐ（ノートナンバー）と、当該音符の発音期間の時間長ｔとの積を、参照区間内ＴRjの全部の音符について累積した数値（音高‐時間指標）を包含する特徴情報Ｆを強度αや時間長βの設定に利用することも可能である。

【0051】

（４）前述の各形態では、合成楽曲の音楽的な特徴を示す情報（特徴量）を特徴情報Ｆとして利用したが、これ以外の特徴量を強度αや時間長βの設定に利用することも可能である。例えば、挿入区間ＴBに前後する参照区間ＴR1および参照区間ＴR2の音素に関係する特徴量を特徴情報Ｆとして利用する構成としてもよい。音素に関係する特徴量としては例えば音素記号や音素の種類等を例示することができる。

【0052】

（５）複数種の回帰モデルを選択的に利用することも可能である。例えば、歌手別やジャンル別に複数の回帰モデルを個別に作成し、合成楽曲の歌手やジャンルに応じて回帰モデルを選択する構成が採用される。

【0053】

もっとも、前述の各形態で例示した回帰モデルの採用は本発明において必須ではない。例えば、特徴情報Ｆと強度αまたは時間長βとの相関を規定する関数の演算で強度αまたは時間長βを算定する構成や、特徴情報Ｆの各数値と強度αまたは時間長βの各数値とを対応付けるテーブルを利用して特徴情報Ｆに応じた強度αまたは時間長βを特定する構成も採用され得る。

【0054】

（６）前述の各形態では、(1)〜(15)の全部の特徴量を特徴情報Ｆとして利用して強度αおよび時間長βを設定したが、寄与度が高い特徴量を特徴情報Ｆとして、回帰モデルの生成や回帰モデルを適用した強度αおよび時間長βの設定に利用することも可能である。以上の構成によれば、処理負荷を軽減することが可能である。

【0055】

（７）前述の各形態では、強度および時間長の調整後の各ブレス波形Ｗを各挿入区間ＴBに配列したブレス音情報ＢＩを生成したが、調整後のブレス波形をブレス波形群Ｂに追加する構成としてもよい。かかる構成によれば、ブレス波形Ｗの種類を多様化することが可能になる。

【0056】

（８）前述の各形態では、変数設定部３６が設定した強度αおよび時間長βに応じたブレス波形を配列したブレス音情報ＢＩを生成したが、ブレス波形の発音を指示する情報（イベントデータ）を合成情報Ｓに付加することも可能である。また、波形選択部４２が選択したブレス波形Ｗ（ファイル名）を順次に指定する時系列データ（ブレス音のパートデータ）をブレス音情報ＢＩに代えて生成することも可能である。各ブレス波形Ｗの強度αや時間長βは、時系列データの付加情報として指定される。以上の説明から理解される通り、前述の各形態のブレス音設定部２６は、楽曲のブレス音を設定する要素として包括的に表現され、設定されたブレス音の利用の方法は任意である。

【0057】

（９）波形選択部４２が選択したブレス波形Ｗの時間長が挿入区間ＴBの時間長ｔBに対して短い場合に、ブレス波形Ｗの終端が参照区間ＴR2の始点に対して所定の時間長Ｔだけ前方の時点となるように、ブレス波形Ｗを挿入区間ＴBに配列してもよい。なお、子音（特に無声子音）の音素に母音の音素が後続する音声符号Ｘ3の合成音を生成する場合、発音期間Ｘ2の開始前に子音の発音を開始するとともに発音期間Ｘ2の始点で母音の発音を開始すると、聴感的に自然な印象の合成音を生成することが可能である。以上の事情を考慮すると、発音期間Ｘ2の開始前に発音される子音と重ならないように時間長Ｔを設定した構成が好適である。例えば、参照区間ＴR2の先頭の音素の種類に応じて時間長Ｔを可変に設定する構成が採用され得る。また、時間長Ｔを所定値（例えば５０ｍｓｅｃ）に設定した構成や、回帰モデルを利用して時間長Ｔを可変に設定することも可能である。

【0058】

（１０）前述の各形態では、変数設定部３６が設定した強度αおよび時間長βに近似する強度および時間長のブレス波形Ｗをブレス波形群Ｂから選択したが、ブレス波形Ｗの選択の方法は以上の例示に限定されない。例えば、時間長βが近似するブレス波形Ｗを波形選択部４２がブレス波形群Ｂから選択し、当該ブレス波形Ｗの強度を波形処理部４４が強度αに調整することも可能である。また、１個のブレス波形Ｗが連続して選択されて聴感的に単調な印象のブレス音になることを防ぐため、直前に選択したブレス音を選択対象から除外する構成としてもよい。また、ブレス波形群Ｂの各ブレス波形Ｗが選択された頻度を算出し、頻度が低い（または頻度が高い）ブレス波形Ｗを優先的に選択することも可能である。

【0059】

（１１）前述の各形態では、変数設定部３６が強度αおよび時間長βの双方を設定したが、強度αおよび時間長βの一方のみを設定することも可能である。

【0060】

（１２）前述の各形態では、複数の音声素片を相互に接続する素片接続型の音声合成を例示したが、音声合成の方式は以上の例示に限定されない。例えば、ＨＭＭ（Hidden Markov Model）を利用して推定された音高の時間変化に対して音声符号Ｘ3に応じたフィルタ処理を実行する統計モデル型の音声合成で音声信号Ｖを生成することも可能である。

【0061】

（１３）移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で音声合成装置１００を実現することも可能である。具体的には、音声合成装置１００は、端末装置から通信網を介して受信した合成情報Ｓを利用してブレス音情報ＢＩを生成し、ブレス音情報ＢＩを通信網から端末装置に送信する。以上の説明から理解される通り、音声合成の機能は省略され得る。すなわち、本発明は、楽曲のブレス音を設定するブレス音設定装置としても特定され得る。

【符号の説明】

【0062】

１００…音声合成装置、１０…演算処理装置、１２…記憶装置、１４…表示装置、１６…入力装置、１８…放音装置、２２…指示受付部、２４…表示制御部、２６…ブレス音設定部、２８…音声合成部、３２…区間設定部、３４…特徴特定部、３６…変数設定部、４２…波形選択部、４４…波形処理部、４６…サンプル調整部。

【図1】