IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社テクノスピーチの特許一覧

<>
  • 特開-音声合成装置 図1
  • 特開-音声合成装置 図2
  • 特開-音声合成装置 図3
  • 特開-音声合成装置 図4
  • 特開-音声合成装置 図5
  • 特開-音声合成装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024018853
(43)【公開日】2024-02-08
(54)【発明の名称】音声合成装置
(51)【国際特許分類】
   G10L 13/00 20060101AFI20240201BHJP
   G10L 13/10 20130101ALI20240201BHJP
   G10L 13/033 20130101ALI20240201BHJP
   G10G 3/04 20060101ALI20240201BHJP
【FI】
G10L13/00 100Y
G10L13/10 111F
G10L13/10 111A
G10L13/033 102B
G10G3/04
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022185640
(22)【出願日】2022-11-21
(62)【分割の表示】P 2022121070の分割
【原出願日】2022-07-29
(71)【出願人】
【識別番号】515327133
【氏名又は名称】株式会社テクノスピーチ
(74)【代理人】
【識別番号】110000028
【氏名又は名称】弁理士法人明成国際特許事務所
(72)【発明者】
【氏名】徳田 恵一
(72)【発明者】
【氏名】大浦 圭一郎
(72)【発明者】
【氏名】中村 和寛
【テーマコード(参考)】
5D182
【Fターム(参考)】
5D182AA13
5D182AA18
(57)【要約】
【課題】容易にラップの合成音声を生成可能な技術を提供する。
【解決手段】音声合成装置は、ユーザによるデバイスの操作を取得する取得部と、合成音声の発語対象を予め定められた拍子毎に入力することを促す発語誘導部と、発語対象を予め定めた表示領域に表示する表示制御部と、発語対象について、予め定められた基準音高を含む音設定情報を用いて合成音声を合成する合成部と、を備える。合成部は、ユーザが音節の音の長さを指定しない場合において、合成音声における一つの音節の音の長さを他の少なくとも一つの音節の音の長さと異なるように決定でき、ユーザが音節の音高を指定しない場合において、基準音高に基づいて合成音声における発語対象の各音高を決定し、拍子毎に入力された発語対象の合成音声の再生の開始のタイミングである開始位置が各拍子内に位置するように合成音声を合成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声合成装置であって、
ユーザによるデバイスの操作を取得する取得部と、
合成する合成音声の発語対象を、前記ユーザに前記デバイスを介して予め定められた拍子毎に入力することを促す発語誘導部と、
前記発語対象を予め定めた表示領域に表示する表示制御部と、
前記発語対象について、予め定められた基準音高を含む音設定情報を用いて前記合成音声を合成する合成部と、を備え、
前記合成部は、
前記ユーザが前記合成音声における前記発語対象が含む音節の音の長さを指定しない場合において、前記合成音声における一つの前記音節の音の長さを他の少なくとも一つの前記音節の音の長さと異なるように決定でき、
前記ユーザが前記合成音声における前記音節の音高を指定しない場合において、前記基準音高に基づいて前記合成音声における前記発語対象の各音高を決定し、
前記拍子毎に入力された前記発語対象の前記合成音声の再生の開始のタイミングである開始位置が前記各拍子内に位置するように前記合成音声を合成する、音声合成装置。
【請求項2】
請求項1に記載の音声合成装置であって、
前記発語誘導部は、前記ユーザに前記音節の音高を指定させずに、前記発語対象を入力することを促す、音声合成装置。
【請求項3】
請求項1または請求項2に記載の音声合成装置であって、
前記音設定情報は、前記発語対象に対して予め定められた音高の抑揚とアクセントとの少なくともいずれか一つを含み、
前記表示制御部は、
前記抑揚と前記アクセントの少なくともいずれか一つを示す装飾記号を前記表示領域に表示することができ、
前記ユーザによる前記デバイスの操作に応じて前記装飾記号の追加と削除の少なくとも一方を行うことができる、音声合成装置。
【請求項4】
請求項1または請求項2に記載の音声合成装置であって、
前記表示制御部は、
前記合成音声における前記音節の再生の開始のタイミングを表す境界線を前記拍子に対応する位置に前記表示領域内に表示し、
前記表示領域内において、前記デバイスを介して前記ユーザによって指定された位置に、前記境界線を移動し、
前記合成部は、前記境界線の位置に基づいて前記音節の音の長さを決定して前記合成音声を合成する、音声合成装置。
【請求項5】
請求項4に記載の音声合成装置であって、
前記表示制御部は、前記ユーザによる前記デバイスの操作に応じて前記境界線の追加と削除の少なくとも一方を行うことができる、音声合成装置。
【請求項6】
請求項1または請求項2に記載の音声合成装置であって、
前記合成部は、
前記合成音声における前記発語対象の各音の長さと前記開始位置とを決定し、
その後、前記合成音声における前記発語対象の各音高を決定する、音声合成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声合成装置の技術に関する。
【背景技術】
【0002】
従来の音声合成装置として、発語対象であるテキスト情報に基づいて音声合成を行うものが知られている。例えば、特許文献1には、テキスト情報を入力すると、そのテキストのモーラを解析し、一つの拍子に同じ数のモーラ数が割り付けられるように音声合成を行う技術が記載されている。モーラとは、音韻の単位であり、基本的に日本語の仮名1文字が1モーラとして数えられる。なお、「ゃ」や「ょ」といった拗音は、その前の仮名と一体になって1モーラとして数えられ、長音や促音、撥音は、独立して1モーラとして数えられる。これにより、例えば、音楽を聴取しながら行われる運動において音声によりインストラクションが行われる場合に、音楽のテンポに合わせた自然な発音で、インストラクションの音声合成が可能となる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015-102727号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ラップを音声合成によって生成したいという要望がある。ラップは、拍子に割り付けられるモーラ数が一定ではない。そのため、特許文献1に記載の技術によりラップの合成音声を生成することは困難であった。
【課題を解決するための手段】
【0005】
本開示は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。
【0006】
(1)本開示の一形態によれば、音声合成装置が提供される。この音声合成装置は、ユーザによるデバイスの操作を取得する取得部と、合成する合成音声の発語対象を、前記ユーザに前記デバイスを介して予め定められた拍子毎に入力することを促す発語誘導部と、前記発語対象を予め定めた表示領域に表示する表示制御部と、前記発語対象について、予め定められた基準音高を含む音設定情報を用いて前記合成音声を合成する合成部と、を備える。前記合成部は、前記ユーザが前記合成音声における前記発語対象が含む音節の音の長さを指定しない場合において、前記合成音声における一つの前記音節の音の長さを他の少なくとも一つの前記音節の音の長さと異なるように決定でき、前記ユーザが前記合成音声における前記音節の音高を指定しない場合において、前記基準音高に基づいて前記合成音声における前記発語対象の各音高を決定し、前記拍子毎に入力された前記発語対象の前記合成音声の再生の開始のタイミングである開始位置が前記各拍子内に位置するように前記合成音声を合成する。
この形態の音声合成装置によれば、音高を指定することなく、発語対象を入力するだけで、発語対象の開始位置が指定した拍子内に位置する合成音声を生成できる。そのため、容易にラップの音声を合成できる。
(2)上記形態の音声合成装置において、前記発語誘導部は、前記ユーザに前記音節の音高を指定させずに、前記発語対象を入力することを促してもよい。
この形態の音声合成装置によれば、ユーザに音節の音高を指定させることなく、発語対象を入力することを促すことができる。
(3)上記形態の音声合成装置において、前記音設定情報は、前記発語対象に対して予め定められた音高の抑揚とアクセントとの少なくともいずれか一つを含み、前記表示制御部は、前記抑揚と前記アクセントの少なくともいずれか一つを示す装飾記号を前記表示領域に表示することができ、前記ユーザによる前記デバイスの操作に応じて前記装飾記号の追加と削除の少なくとも一方を行ってもよい。
この形態の音声合成装置によれば、音高の抑揚とアクセントの少なくともいずれか一つを表示することができる。
(4)上記形態の音声合成装置において、前記表示制御部は、前記合成音声における前記音節の再生の開始のタイミングを表す境界線を前記拍子に対応する位置に前記表示領域内に表示し、前記表示領域内において、前記デバイスを介して前記ユーザによって指定された位置に、前記境界線を移動し、前記合成部は、前記境界線の位置に基づいて前記音節の音の長さを決定して音声合成を行ってもよい。
この形態の音声合成装置によれば、音節の再生の開始のタイミングが境界線によって表されるため、ユーザが音節の再生の開始のタイミングや音節の長さを視覚によって認識することができる。また、境界線を移動することによって、音節の再生の開始のタイミングや音節の長さを変更できるため、容易に合成音声を編集できる。
(5)上記形態の音声合成装置において、前記表示制御部は、前記ユーザによる前記デバイスの操作に応じて前記境界線の追加と削除の少なくとも一方を行ってもよい。
この形態の音声合成装置によれば、境界線を追加することにより、音節の再生の開始のタイミングや音節の長さを詳細に変更できる。また、境界線を削除することにより、音節の再生の開始のタイミングや音節の長さをユーザが指定することなく、合成部に決定させることができる。
(6)上記形態の音声合成装置において、前記合成部は、前記合成音声における前記発語対象の各音の長さと前記開始位置とを決定し、その後、前記合成音声における前記発語対象の各音高を決定してもよい。
この形態の音声合成装置によれば、合成部は、各音節の音の長さと再生の開始のタイミングとに基づき、各音高を決定できる。
【0007】
なお、本開示は、種々の態様で実現することが可能である。例えば、この形態の音声合成装置を利用した音声合成システム、音声合成装置や音声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。
【図面の簡単な説明】
【0008】
図1】音声合成システムの概要を示す説明図である。
図2】音声合成装置を用いた合成音声生成処理の一例を表すフローチャートである。
図3】ステップS120における発語対象の入力範囲の指定の説明図である。
図4】ステップS120における発語対象の入力の説明図である。
図5】ステップS140における表示領域の説明図である。
図6】第2実施形態における、表示領域の説明図である。
【発明を実施するための形態】
【0009】
A.第1実施形態:
図1は、本開示の一実施形態における音声合成システム1000の概要を示す説明図である。音声合成システム1000は、音声を合成する音声合成を行う。音声合成システム1000は、音声合成装置100と、入力デバイス200と、ディスプレイ300と、スピーカ400と、を備える。
【0010】
本実施形態において、音声合成装置100は、ラップを音声合成によって生成する。音声合成装置100は、取得部10と、発語誘導部20と、表示制御部30と、合成部40と、再生部50と、を備える。音声合成装置100は、ハードウエアとしての中央処理装置(CPU)や、RAM、ROMにより構成されたマイクロコンピュータ等からなり、予めインストールされたプログラムをマイクロコンピュータが実行することによって、これらの各部の機能を実現する。ただし、これらの各部の機能の一部又は全部をハードウエア回路で実現してもよい。
【0011】
取得部10は、ユーザによる入力デバイス200の操作を取得する。取得部10は、プログラムをマイクロコンピュータが実行することによって実現される機能である。入力デバイス200は、例えば、マウスやキーボードやタッチパネルである。入力デバイス200は本願における「デバイス」に相当する。取得部10は、音声合成装置100が有する入力デバイスの操作を取得する。
【0012】
発語誘導部20は、合成する合成音声の発語対象を、ユーザに入力デバイス200を介して予め定められた拍子毎に入力することを促す。本実施形態において、発語誘導部20は、後述する表示制御部30を制御して、ユーザに発語対象を拍子毎に入力するようディスプレイ300に表示する。発語誘導部20は、プログラムをマイクロコンピュータが実行することによって実現される機能である。発語対象は、合成したい音声のテキストであり、本実施形態においては、ラップのリリックである。発語対象は、ユーザによって入力デバイス200を介して拍子毎に直接入力されることで取得部10に取得されてもよく、予め作成された歌詞データを取得部10に取得されてもよい。取得部10は、音声合成装置100の記憶領域や外部記憶装置等に記憶された歌詞データを取得してもよい。
【0013】
表示制御部30は、合成音声の発語対象を予め定めた表示領域に表示する。表示制御部30は、プログラムをマイクロコンピュータが実行することによって実現される機能である。本実施形態において、表示領域は予め用意されたデバイスであるディスプレイ300が有する。なお、表示制御部30は、音声合成装置100が有するディスプレイに表示してもよい。
【0014】
合成部40は、音響モデル41と、合成エンジン42と、を含む。合成部40は、発語対象であるテキスト情報に基づいて音声合成を行う。合成部40は、プログラムをマイクロコンピュータが実行することによって実現される機能である。本実施形態において、合成エンジン42は、統計的手法により対数基本周波数やメルケプストラム等の音響パラメータを学習した音響モデル41と音設定情報とを用いて音声合成を行う。より具体的には、隠れマルコフモデル(以下、HMM(Hidden Markov Model)とも記載する)や、ディープニューラルネットワーク(以下、DNN(Deep Neural Network)とも記載する)を用いて、合成音声を生成する。音設定情報の詳細については後述する。
【0015】
再生部50は、合成部40によって生成された合成音声をスピーカ400に出力する。再生部50は、プログラムをマイクロコンピュータが実行することによって実現される機能である。
【0016】
図2は、本実施形態における音声合成装置100を用いた合成音声生成処理の一例を表すフローチャートである。まず、ステップS100において、音声合成装置100は、生成する合成音声の基準となる音高である基準音高を取得する。本実施形態において、基準音高は、ユーザによって入力デバイス200であるキーボードを介して直接指定される。その結果、取得部10が基準音高を取得する。
【0017】
ステップS110において、音声合成装置100は、生成する合成音声の速さであるテンポを取得する。テンポは1分あたりの拍の数(Beats Per Minute(BPM))である。本実施形態において、拍の数としてのテンポは、ユーザによって入力デバイス200であるキーボードを介して直接指定される。その結果、取得部10がテンポを取得する。
【0018】
ステップS120において、取得部10は、生成する合成音声の発語対象を取得する。本実施形態において、発語対象は、テキストとしてユーザによって入力デバイス200であるキーボードを介して直接入力される。なお、ステップS100~S120は、この順に限らず、任意の順序で行うことができ、並行して行ってもよい。
【0019】
図3および図4は、ステップS120における表示領域31の説明図である。表示領域31は、縦軸が音高に相当し、横軸が音の長さと時間軸上の前後を表す。表示領域31は、破線で表される区切線Lnにより、拍子Mt毎に画面が分割される。音高は半音毎に表され、基準音高は太線で表される。図3に示すように、ユーザは、入力デバイス200であるマウスを操作することによって、発語対象全体の入力範囲を示す領域A1を選択する。その結果、取得部10は、表示領域31における特定の範囲を、ユーザによる発語対象の入力範囲の指定として取得する。
【0020】
図4に示すように、発語誘導部20は、ユーザに、音高を指定させずに発語対象を入力することを促すよう、表示制御部30を制御する。ユーザは、入力デバイス200を介して拍子毎に発語対象を入力する。より具体的には、ユーザは音高を指定することなく、発語対象のみを音声合成システム1000に入力する。表示制御部30は、ユーザに合成音声におけるいずれの小節のいずれの拍子目に、いずれの発語対象が対応するかが視認できるように表示領域31を表示する。図4に示すボタンB1~B3についての詳細な説明は他の実施形態において説明する。
【0021】
ステップS130(図2参照)において、合成部40は、音声合成の準備を行う。より具体的には、合成部40は、音設定情報を用いて、ステップS120で取得した発語対象の合成音声の各パラメータを決定する。音設定情報は、ステップS100で取得した基準音高を含む情報である。各パラメータは、合成音声における各音節の音高と、音の長さと、再生の開始のタイミングを含む情報である。本実施形態において、音節は、撥音や促音、長音を1つの音節とは扱わない概念である。合成部40は、例えば、周知の技術である形態素解析によって、発語対象を音節に分割する。
【0022】
また、本実施形態において、音設定情報は、予め定められた音高の抑制とアクセントとを含む。予め定められた音高の抑揚は、例えば、グリッサンド(glissando)と呼ばれる演奏技法のように、徐々に音高が上昇していくパターンと、音高が下降していくパターンと、を含む。アクセントは、例えば、スタッカート(staccato)と呼ばれる演奏技法のように、強勢があることを示す。本実施形態において、合成部40が、予め作成されたテーブルや機械学習されたモデルを用いて、音高の抑揚やアクセントを決定する。
【0023】
合成部40は、ユーザが合成音声における音節の音の長さを指定しない場合において、合成音声における一つの音節の音の長さを他の少なくとも一つの音節の音の長さと異なるように決定する。これにより、合成部40は、合成音声における全ての音節の音の長さを同じ長さに決定する場合よりも、よりラップらしい合成音声を生成できる。また、合成部40は 、拍子毎に入力された発語対象の合成音声の再生の開始のタイミングである開始位置を各拍子内に位置するように決定する。
【0024】
また、合成部40は、ユーザが合成音声における音節の音高を指定しない場合において、基準音高に基づいて合成音声における発語対象の各音高を決定する。本実施形態において、合成部40は、各音節の音の長さと再生の開始のタイミングとに基づき、予め作成されたテーブルや機械学習されたモデルを用いて各音高を決定する。
【0025】
本実施形態において、合成部40は、発語対象を音節毎に分割し、分割した各音節の合成音声における音の長さと再生の開始のタイミングとを決定し、その後、各音節の音高を決定する。なお、この順に限らず、任意の順で決定してもよく、並行して決定してもよい。
【0026】
ステップS140において、表示制御部30は、ステップS130で準備した合成音声について、表示領域31に表示する。より具体的には、表示制御部30は、合成部40が決定した各パラメータに基づいて音声合成される合成音声について表示領域31に表示する。
【0027】
図5は、ステップS140における表示領域31の説明図である。本実施形態において、表示制御部30は、表示領域31内において、合成音声における発語対象の各音節を略矩形形状内に表示する。この矩形形状を音符ともいう。音符は、合成音声における発語対象の音節と音高と音の長さを表す。また、表示制御部30は、表示領域31内において、合成音声における発語対象の音節の再生の開始のタイミングを表す境界線BL1、BL2を拍子に対応する位置に表示する。音節の「お」の開始のタイミングを表す第1境界線BL1はタイミングt1位置に表示される。音節の「れ」の開始のタイミングを表す第2境界線BL2はタイミングt2位置に表示される。すなわち「お」はタイミングt1からタイミングt2までの期間L1再生される。なお、表示制御部30は、第1境界線BL1および第2境界線BL2を、拍子との関係が示される位置に表示していればよく、厳密に時間軸に対応させた位置に表示しても、おおよその位置に表示してもよい。例えば、タイミングt1からタイミングt2までの期間L1に音符があった際に、合成部40は、タイミングt1よりも遅いタイミングで再生が開始され、タイミングt2よりも早いタイミングで再生が終了される合成音声を合成してもよい。
【0028】
本実施形態において、表示制御部30は、音高の抑揚とアクセントとを示す装飾記号を表示領域31に表示する。図5に示すように、表示制御部30は、音高が上昇する抑揚を、左下から右上へカーブして上がる矢印である第1装飾記号M1によって表示し、音高が下降する抑揚を、左上から右下へカーブして下がる矢印である第2装飾記号M2によって表示する。表示制御部30は、抑揚が開始するタイミングに装飾記号M1、M2を表示する。より具体的には、第1装飾記号M1は発語対象である「きょー」の開始のタイミングであるタイミングt4の直前に表示されている。すなわち、「とー」が再生されるタイミングt3からタイミングt4までの期間L2において途中から音高の上昇が開始する。第2装飾記号M2は「う」の開始のタイミングであるタイミングt5の直前に表示されている。すなわち、「きょー」が再生されるタイミングt4からタイミングt5までの期間L3において途中から音高の下降が開始する。なお、表示制御部30は、第1装飾記号M1および第2装飾記号M2を、音高の上昇や下降が開始するタイミングを厳密に時間軸に対応させた位置に表示してもよく、音高の上昇や下降の対象の音符を特定するのみで時間軸に対応しない位置に表示してもよい。
【0029】
また、表示制御部30は、アクセントを丸である第3装飾記号M3によって表示する。本実施形態において、期間が同じ長さの場合、長音が含まれない音節と長音が含まれる音節とは同じように発音される。より具体的には、図5における期間L2の長さの「とー」の合成音声と、「とー」から長音を削除した場合の期間L2の長さの「と」の合成音声は同じように発音される。なお、期間が同じ長さの場合、長音が含まれない音節と長音が含まれる音節とは異なるように発音されてもよい。
【0030】
図5に示すように、合成部40は、合成音声における一つの音節の音の長さを他の少なくとも一つの音節の音の長さと異なるように決定しているため、期間L1と期間L2とは異なる長さである。また、合成部40は 、拍子毎に入力された発語対象の合成音声の開始位置が各拍子内に位置するように合成音声を合成するため、タイミングt1は、2小節目の4拍子目内に位置し、タイミングt3は3小節目の1拍子目が開始するタイミングに位置している。
【0031】
合成部40は、ステップS150(図2参照)においてステップS130で決定したパラメータに基づいて音声合成をする。なお、ステップS140とステップS150とは、この順に限らず、任意の順序で行うことができ、並行して行ってもよい。その場合、ステップS130とステップS150とを併せて行ってもよい。
【0032】
以上で説明した本実施形態の音声合成装置100によれば、音高を指定することなく、発語対象を入力するだけで、発語対象の開始位置が指定した拍子内に位置する音声合成を生成できる。そのため、容易にラップの音声を合成できる。
【0033】
B.第2実施形態:
第2実施形態は、表示制御部30が、表示領域31において、入力デバイス200を介してユーザによって指定された位置に境界線を移動し、合成部40が、境界線の位置に基づいて音節の音の長さを決定して音声合成を行う点が第1実施形態と異なる。第2実施形態の音声合成装置の構成は、第1実施形態の音声合成装置の構成と同一であるため、音声合成装置の構成の説明は省略する。
【0034】
図6は、第2実施形態における、表示領域31の説明図である。図6は、取得部10がユーザによる入力デバイス200の操作によって「きょー」の開始のタイミングを表す境界線をタイミングt4からタイミングt4aの位置に移動したことを取得した場合を示す。この場合、合成部40は、「とー」の音節の再生の終了のタイミングをタイミングt4からタイミングt4aに延ばすように音声合成を行う。すなわち、「とー」の音節の長さをタイミングt3からタイミングt4の期間L2よりも長い、タイミングt3からタイミングt4aの期間L2aとするように音声合成を行う。また、合成部40は、「きょー」の音節の再生の開始のタイミングをタイミングt4からタイミングt4aに延ばすように音声合成を行う。すなわち、「きょー」の音節の長さをタイミングt4からタイミングt5の期間L3よりも短い、タイミングt4aからタイミングt5の期間L3aとするように音声合成を行う。
【0035】
以上で説明した本実施形態の音声合成装置100によれば、音節の再生の開始のタイミングが境界線によって表されるため、ユーザが音節の再生の開始のタイミングや音節の長さを視覚によって認識することができる。また、境界線を移動することによって、音節の再生の開始のタイミングや音節の長さを変更できるため、容易に合成音声を編集できる。
【0036】
C.他の実施形態:
(C1)上記実施形態において、音節は、撥音や促音、長音を1つの音節とは扱わない概念である。これに限らず、音節は、モーラや音韻を示す概念であってもよい。また、音節は、日本語の音節だけでなく、英語等の様々な言語の音節を含む。
【0037】
(C2)上記実施形態において、発語対象として日本語のテキストが入力されている。これに限らず、発語対象として英語等の様々な言語のテキストが入力されもよい。発語対象として英語のテキストが入力される場合、表示制御部30は、X-SAMPA(Extended SAM Phonetic Alphabet、拡張SAM音声記号)やIPA(国際音声記号)等の他の規格に沿った発音記号を表示領域31に表示してもよい。
【0038】
(C3)上記実施形態において、発語対象として日本語のテキストがひらがなで入力されている。これに限らず、日本語のテキストが漢字やカタカナ混じりで入力されてもよく、発語対象として英語等の様々な言語のテキストが入力されもよい。また、表示制御部30は、表示領域31内にひらがなによって発語対象を表示しているが、漢字やカタカナ混じりで発語対象を表示しても良く、IPA等の規格に沿った発音記号によって発語対象を表示してもよい。
【0039】
(C4)上記実施形態において、発語誘導部20は、ユーザに音節の音高を指定させずに、発語対象を入力することを促している。これに限らず、発語誘導部20は、発語対象の入力と共に、ユーザに音節の音高を指定させてもよい。
【0040】
(C5)上記実施形態において、表示制御部30は、表示領域31において、ユーザが入力デバイス200を介して拍子毎に発語対象を入力できるように表示領域31を表示している。これに限らず、表示制御部30は、ユーザが入力デバイス200を介して発語対象毎に拍子の区切り位置を入力できるように表示領域31を表示してもよい。
【0041】
(C6)上記実施形態において、表示制御部30は、ステップS140(図2参照)において、表示領域31内において、合成音声における発語対象の各音節を略矩形形状で表示している。これに限らず、表示制御部30は、表示領域31内において、例えば、各音節を略円形状で表示してもよい。また、表示制御部30は、表示領域31内において、合成音声の波形を表示してもよい。
【0042】
(C7)上記実施形態において、合成部40は、統計的手法により音響パラメータを学習した音響モデル41を用いて音声合成を行っている。この代わりに、合成部40は、波形接続方式を用いて音声合成を行ってもよい。
【0043】
(C8)上記実施形態において、基準音高およびテンポは、ユーザが直接指定している。これに限らず、合成部40が、予め作成されたテーブルや機械学習されたモデルを用いて、基準音高やテンポを決定してもよい。また、合成部40は、ユーザが指定した調やコードから基準音高を決定してもよい。また、音高の抑制やアクセントは、合成部40が、予め作成されたテーブルや機械学習されたモデルを用いて決定している。これに限らず、ユーザが直接音高の抑制やアクセントを指定してもよい。
【0044】
(C9)上記実施形態において、取得部10は、ステップS120(図2参照)において、表示領域31における特定の範囲を、ユーザによる発語対象の入力範囲の指定として取得している。これに限らず、取得部10は、ユーザが入力デバイス200であるマウスを操作することによって指定した位置を、発語対象の入力開始位置として取得してもよい。
【0045】
(C10)上記実施形態において、音設定情報は、予め定められた音高の抑制とアクセントとを含んでいる。これに限らず、音設定情報は基準音高のみを含んでいればよく、音高の抑制とアクセントは省略してもよい。また、音設定情報は、例えば、ビブラート等の他の要素を含んでいてもよい。
【0046】
(C11)上記実施形態において、合成部40は、発語対象であるテキスト情報に基づいて、発語対象の各音高や音の長さを決定して、音声合成を行っている。これに限らず、合成部40は、ラップのトラックに基づいて、発語対象の各音高や音の長さを決定して、音声合成を行ってもよい。トラックとは、ラップと合成されるインストゥルメンタルの音源である。合成部40は、例えば、トラックのテンポや音高に基づいて、発語対象の各音高や音の長さを決定して、音声合成を行う。
【0047】
(C12)上記実施形態において、合成部40は、再生部50を介して合成した合成音声の再生と同時にトラックや伴奏を再生してもよい。
【0048】
(C13)上記実施形態において、合成部40は、拍子毎に入力された発語対象の合成音声の再生の開始のタイミングである開始位置が拍子の再生の開始のタイミングと一致するように音声合成を行ってもよい。この形態によれば、発語対象の開始位置を拍子の再生の開始のタイミングと一致させることができる。
【0049】
(C14)上記実施形態において、合成部40は、ユーザが合成音声における音節の音の長さを指定しない場合において、合成音声における一つの音節の音の長さを他の少なくとも一つの音節の音の長さと異なるように決定している。これに限らず、合成部40は、ユーザが合成音声における音節の音の長さを指定しない場合において、合成音声における全ての音節の音の長さを同じ長さに決定してもよい。
【0050】
(C15)上記実施形態において、取得部10がユーザによる入力デバイス200の操作によって第1ボタンB1(図4参照)を押したことを取得した場合、合成部40は、ステップS130の処理を実行し、表示制御部30は、ステップS140の処理を実行する。また、取得部10がユーザによる入力デバイス200の操作によって第2ボタンB2を押したことを取得した場合、音声合成装置100は、直前に合成部40が合成した合成音声を再生する。すなわち、表示制御部30は、ステップS140の処理を実行しない。また、取得部10がユーザによる入力デバイス200の操作によって第3ボタンB3を押したことを取得した場合、合成部40は、ステップS130の処理を実行する。取得部10がユーザによる入力デバイス200の操作によって第3ボタンB3を押したことを取得した場合、合成部40は、直前に準備した合成音声の各パラメータと異なるパラメータを準備することが好ましい。
【0051】
(C16)上記実施形態において、表示制御部30は、ユーザによる入力デバイス200の操作に応じて装飾記号の追加と削除の少なくとも一方を行うことができてもよい。これにより、合成部40は、例えば、ユーザの指定したタイミングで音高の上昇や下降が開始するように合成音声を生成できる。また、表示制御部30は、装飾記号の表示を省略してもよい。
【0052】
(C17)上記実施形態において、表示制御部30は、表示領域31において、一つの音符である矩形形状内に一つの音節を表示している。これに限らず表示制御部30は、表示領域31において、一つの音符に複数の音節を表示してもよい。
【0053】
(C18)上記実施形態において、合成部40は、ステップS130(図2参照)の音声合成準備とステップS150の音声合成とを実行している。これに限らず、ステップS130を、合成部40と異なる、例えば合成準備部が実行してもよい。
【0054】
(C19)上記第2実施形態において、表示制御部30は、ユーザによる入力デバイス200の操作に応じて境界線の追加と削除の少なくとも一方を行うことができてもよい。この形態によれば、例えば、境界線を追加することにより、音節の再生の開始のタイミングや音節の長さを詳細に変更できる。また、境界線を削除することにより、音節の再生の開始のタイミングや音節の長さをユーザが指定することなく、合成部40に決定させることができる。例えば、ユーザにより、第1音節と第2音節との境界線が削除された場合、合成部40は、第1音節と第2音節の境界線の位置を、削除される前の境界線の位置と異なるように、第1音節と第2音節の音の長さを決定できる。また、合成部40は、第1音節の再生の終了のタイミングと第2音節の再生の開始のタイミングとを曖昧にしてもよい。より具体的には、合成部40は、第1音節の再生をフェードアウトさせながら、第2音節の再生をフェードインする、クロスフェードによって第1音節の合成音声と第2音節の合成音声とをつなぎ合わせてもよい。
【0055】
本開示は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。
【符号の説明】
【0056】
10…取得部、20…発語誘導部、30…表示制御部、31…表示領域、40…合成部、41…音響モデル、42…合成エンジン、50…再生部、100…音声合成装置、200…入力デバイス、300…ディスプレイ、400…スピーカ、1000…音声合成システム
図1
図2
図3
図4
図5
図6