(58)【調査した分野】(Int.Cl.,DB名)
前記アクセント付与部は、前記形態素の組み合わせに含まれる各形態素にアクセントを付与することで前記テキストデータ全体の読み及びアクセントの位置を表す表音文字列を生成し、
前記表音文字列に基づいて前記テキストデータの音声波形を表す合成音声信号を生成する音声合成部をさらに有する、請求項1に記載の音声合成装置。
前記アクセント付与部は、前記ルビが振られた語句に含まれる形態素が前記複合語を形成し、かつ、当該複合語が前記言語辞書に登録されていない場合、前記言語辞書に登録されている、当該複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを当該複合語に付与する、請求項3に記載の音声合成装置。
【発明を実施するための形態】
【0010】
以下、図を参照しつつ、音声合成装置について説明する。
この音声合成装置は、入力された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、ルビが振られた形態素を抽出する。そしてこの音声合成装置は、抽出した、ルビが振られた形態素と、その前後の形態素とで複合語が形成されるか否かを判定し、複合語が形成される場合、言語辞書から、その複合語のアクセントを検索して利用する。また、この音声合成装置は、ルビが振られた形態素を含む複合語が形成されない場合には、そのルビが振られた形態素に対応するアクセントを、言語辞書から検索する。これにより、この音声合成装置は、ルビが振られた語句を含むテキストデータについて生成される合成音声信号に適切なアクセントを付与することができる。
【0011】
図1は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、操作部2と、表示部3と、通信インターフェース部4と、記憶部5と、処理部6と、音声出力部7とを有する。音声合成装置1は、例えば、携帯電話機あるいはいわゆるタブレットコンピュータといった携帯機器、デスクトップコンピュータ、あるいはウェブサーバなどとすることができる。
【0012】
操作部2は、例えば、キーボードと、マウスといったポインティングデバイスとを有する。そして操作部2は、例えば、ユーザによる操作に従って、記憶部5に保存されているテキストデータの中から、音声合成の対象となるテキストデータを指定し、その指定されたテキストデータを指定する信号を処理部6へ渡す。本実施形態では、音声合成の対象となるテキストデータは、ルビが振られた語句を含む。ただし、音声合成の対象となるテキストデータが、ルビが振られた語句を含まない場合も、この音声合成装置は、そのテキストデータについての合成音声信号を生成できる。
【0013】
表示部3は、液晶ディスプレイといった表示装置を有する。そして表示部3は、検出された同義語などを表示する。なお、操作部2と表示部3とは、タッチパネルディスプレイとして一体的に形成されてもよい。
【0014】
通信インターフェース部4は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有し、通信ネットワークを介して様々な情報を取得する。例えば、通信インターフェース部4は、音声合成対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワークを介して音声合成装置1と接続された他の機器から取得する。
【0015】
また、通信インターフェース部4は、処理部6から受け取った、音声合成対象となるテキストデータについて生成された合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の機器へ出力してもよい。あるいは、通信インターフェース部4は、そのテキストデータに対する読み及びアクセントの位置など、合成音声信号を生成するための情報が付与された表音文字列を、通信ネットワークを介して音声合成装置1と接続された他の機器へ出力してもよい。
【0016】
記憶部5は、例えば、不揮発性の読み出し専用の半導体メモリ、及び、揮発性の読み書き可能な半導体メモリといった半導体メモリ回路を有する。記憶部5は、磁気記憶装置または光記憶装置をさらに有してもよい。そして記憶部5は、処理部6で用いられる各種コンピュータプログラム、音声合成処理に用いられる各種のデータを記憶する。
記憶部5は、音声合成処理に用いられるデータとして、例えば、各形態素及び各複合語の読み、アクセント及び品詞情報を表す言語辞書、形態素間の接続コストを表す接続規則、及び、複合語の生成規則などを記憶する。
【0017】
処理部6は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部6は、操作部2を介して指定されたテキストデータに対して音声合成処理を実行する。なお、音声合成処理の詳細については後述する。
【0018】
音声出力部7は、例えば、スピーカを有し、テキストデータに対して生成された合成音声信号を音声(すなわち、合成音声)として出力する。
【0019】
図2は、処理部6の機能ブロック図である。処理部6は、テキスト解析部11と、抽出部12と、結合判定部13と、アクセント付与部14と、音声合成部15とを有する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部6が有するこれらの各部は、その各部の機能を実現する一つまたは複数の集積回路として、処理部6が有するプロセッサとは別個に、音声合成装置1に実装されてもよい。
【0020】
テキスト解析部11は、操作部2を介して指定された、音声合成対象となる、ルビが振られた語句を含むテキストデータに対して形態素解析を実行して、そのテキストデータを形態素の組み合わせに分割する。なお、音声合成対象となるテキストデータは、例えば、ルビを含む文字列を記述することが可能な様々なフォーマットの何れかに従ったデータとすることができる。
【0021】
本実施形態では、テキスト解析部11は、テキストデータに対して、例えば、言語辞書を参照して形態素解析を実行することにより、そのテキストデータを形態素ごとに分割したときの取り得る全ての形態素の組み合わせを求める。そしてテキスト解析部11は、形態素の組み合わせのそれぞれに対して、その組み合わせの確からしさを表す評価値を算出する。その際、テキスト解析部11は、着目する形態素の組み合わせについて、その組み合わせに含まれる連続する形態素のそれぞれについて、その連続する形態素間に適用される接続規則を参照して、その連続する形態素間のコストを求める。そしてテキスト解析部11は、着目する形態素の組み合わせに含まれる連続する形態素のそれぞれについて求められたコストの合計を、その着目する形態素の組み合わせに対する評価値とする。そしてテキスト解析部11は、得られた形態素の組み合わせのうち、評価値が最小となる組み合わせを、そのテキストデータに対する形態素解析結果として選択する。なお、テキスト解析部11は、評価値が最小となる形態素の組み合わせを特定するために、ビタビアルゴリズムといった動的計画法による手法を利用することで、評価値の算出に要する演算量を削減してもよい。
【0022】
図3は、形態素解析の一例を示す図である。この例では、「今日は晴れ」とのテキストデータ300が入力される。テキストデータ300に対して、言語辞書301を参照した形態素解析が行われることにより、取り得る形態素の組み合わせを表すラティス構造302が得られる。このラティス構造302において、個々のブロック303は、一つの形態素を表し、個々の矢印304は、形態素間で可能な接続を表す。そして形態素の組み合わせごとに評価値が算出され、その評価値が最小となる形態素の組み合わせとして、「今日」(名詞)、は(助詞)、「晴れ」(名詞)の組が得られる。
【0023】
なお、テキスト解析部11は、上記以外の様々な形態素解析手法の何れかにしたがって、音声合成の対象となるテキストデータを形態素の組み合わせに分割してもよい。
【0024】
テキスト解析部11は、特定した形態素の組み合わせに含まれる各形態素の読み及び品詞と各形態素の並び順とを、抽出部12、結合判定部13及びアクセント付与部14へ通知する。
【0025】
抽出部12は、テキストデータについて特定された形態素の組み合わせにおいて、ルビに対応する形態素を抽出する。例えば、抽出部12は、特定された形態素の組み合わせに含まれる形態素のそれぞれについて、その形態素を含む、元のテキストデータの語句にルビが振られているか否かを判定する。そして抽出部12は、形態素を含む語句にルビが振られていれば、その形態素を、ルビに対応する形態素とし、一方、形態素を含む語句にルビが振られていなければ、その形態素を、ルビに対応しない形態素とする。
抽出部12は、ルビに対応する形態素のそれぞれを、結合判定部13へ通知する。
【0026】
結合判定部13は、ルビに対応する形態素のそれぞれについて、複合語に含まれるか否かを判定する。そのために、結合判定部13は、ルビに対応する形態素の品詞と、その形態素の前または後ろの形態素の品詞との関係が、複合語の生成規則に表される、複合語となる品詞の関係を満たすか否かを判定する。そして結合判定部13は、ルビに対応する形態素の品詞と、その前または後ろの形態素の品詞との関係が、複合語となる品詞の関係を満たす場合、ルビに対応する形態素と、その前または後ろの形態素とを、一つの複合語とする。一方、ルビに対応する形態素の品詞と、その前及び後ろの何れの形態素の品詞との関係も、複合語となる品詞の関係を満たさない場合、結合判定部13は、ルビに対応する形態素は複合語を形成しないと判定する。
【0027】
なお、複合語の生成規則に表される、複合語となる品詞の関係は、例えば、接頭語+名詞、名詞+接尾語、名詞+名詞の何れかとすることができる。
【0028】
結合判定部13は、ルビに対応する形態素のそれぞれについて、複合語を形成するか否かの判定結果と、複合語を形成する形態素について、その形態素を含む複合語とを、アクセント付与部14へ通知する。
【0029】
アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとにアクセントを付与する。その際、アクセント付与部14は、ルビに対応する形態素について、その形態素が複合語を形成し、かつ、その複合語が言語辞書に登録されている場合には、複合語全体について、言語辞書に登録されているその複合語のアクセントを付与する。例えば、アクセント付与部14は、着目する複合語の表記及びルビを参照して特定される読みと一致する表記及び読みを持つ複合語を言語辞書から検索し、その一致する表記及び読みに対応するアクセントを、その着目する複合語に付与すればよい。
【0030】
図4は、言語辞書に登録されている複合語の一例を示す図である。言語辞書400は、複合語の表記ごとに、その表記に対応する読みとアクセントの位置を表す表音文字列と、複合語の品詞とを含む。例えば、複合語「日本橋駅」に対して、二つの表音文字列「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が対応付けられており、何れの読みの場合も、「シ」の音にアクセントがあることが示されている。なお、アクセントの位置は、記号「‘」で示されている。また、複合語「日本橋駅」の品詞が名詞であることが示されている。したがって、例えば、テキストデータについて特定された形態素の組み合わせに、複合語「日本橋駅」が含まれており、かつ、その読みが「ニッポンバシエキ」であるとする。この場合、アクセント付与部14は、言語辞書400を参照することで、その複合語「日本橋駅」に対して、「シ」の音にアクセントを付与することができる。
【0031】
なお、複合語の読み及びアクセントは、複合語を形成可能な形態素ごとに、その形態素に適用されるアクセント結合規則を表した参照テーブルを利用して予め決定され、言語辞書に登録される。なお、複合語以外の形態素が登録される言語辞書に複合語が追加的に登録されてもよく、あるいは、複合語以外の形態素が登録される言語辞書とは別個に、複合語が登録される言語辞書が用意され、記憶部5に保存されてもよい。
【0032】
図5は、言語辞書に複合語を登録するために利用される参照テーブルの一例を示す図である。参照テーブル500は、複合語を形成可能な形態素ごとに、その形態素の表記と、読みと、アクセントの位置と、品詞と、アクセント結合の様式とを表す。例えば、形態素「手続」に関して、読みが「テツヅキ」であり、アクセントが「ツ」にあり、品詞が名詞であり、結合様式がC1であることが示されている。
【0033】
なお、この例では、結合様式として、非特許文献1(匂坂 芳典、佐藤 大和、「日本語単語連鎖のアクセント規則」、電子情報通信学会論文誌 D、Vol.J66-D、No.7、pp.849-856, July 1983)を参考にして、C1〜C5の5種類の結合様式が示されている。以下、結合において前の形態素を「先行語」、後ろの形態素を「後続語」として説明する。
結合様式C1は、先行語のアクセントが無くなることを表す。例えば、形態素「転居(テ‘ンキョ)」と形態素「手続(テツ‘ヅキ)」を結合することにより複合語「転居手続」が形成される場合、その複合語の読み及びアクセントは「テンキョテツ‘ヅキ」となる。
【0034】
結合様式C2は、先行語のアクセントが無くなり、後続語の先頭にアクセントが位置することを表す。例えば、形態素「天気(テ‘ンキ)」と形態素「予報(ヨホー)」を結合することにより複合語「天気予報」が形成される場合、その複合語の読み及びアクセントは「テンキヨ‘ホー」となる。
【0035】
結合様式C3は、先行語の末尾にアクセントが位置することを表す。例えば、形態素「品川(シナガワ)」と形態素「駅(エキ)」を結合することにより複合語「品川駅」が形成される場合、その複合語の読み及びアクセントは「シナガワ‘エキ」となる。
【0036】
結合様式C4は、アクセントが無くなることを表す。例えば、形態素「利尻(リ‘シリ)」と形態素「島(トー)」を結合することにより複合語「利尻島」が形成される場合、その複合語の読み及びアクセントは「リシリトー」となる。
【0037】
結合様式C5は、後続語のアクセントが無くなることを表す。例えば、形態素「佐藤(サ‘トー)」と形態素「殿(ド‘ノ)」を結合することにより複合語「佐藤殿」が形成される場合、その複合語の読み及びアクセントは「サ‘トードノ」となる。
【0038】
図6は、アクセント付与部14により実行されるアクセント付与処理の動作フローチャートである。アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる形態素ごとに、下記の動作フローチャートに従ってアクセントを付与する。
【0039】
アクセント付与部14は、着目する形態素がルビが振られた語句に含まれる形態素か否か判定する(ステップS101)。着目する形態素がルビが振られた語句に含まれなければ(ステップS101−No)、アクセント付与部14は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する(ステップS102)。
【0040】
一方、着目する形態素がルビが振られた語句に含まれていれば(ステップS101−Yes)、アクセント付与部14は、着目する形態素が複合語に含まれる形態素か否か判定する(ステップS103)。着目する形態素が複合語に含まれれば(ステップS103−Yes)、アクセント付与部14は、着目する形態素を含む複合語が言語辞書に登録されているか否か判定する(ステップS104)。
【0041】
着目する形態素を含む複合語が言語辞書に登録されていれば(ステップS104−Yes)、アクセント付与部14は、言語辞書を参照して、その複合語に、言語辞書に登録されているその複合語のアクセントを付与する(ステップS105)。一方、着目する形態素を含む複合語が言語辞書に登録されていなければ(ステップS104−No)、アクセント付与部14は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されているか否か判定する(ステップS106)。その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されている場合(ステップS106−Yes)、アクセント付与部14は、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語のアクセントを特定する。そしてアクセント付与部14は、その特定したアクセントをその複合語に付与する(ステップS107)。なお、そのような他の語が言語辞書に複数登録されている場合、アクセント付与部14は、それら複数の他の語のアクセントのうち、最頻出となるアクセントを、その複合語に付与してもよい。
【0042】
一方、その複合語の読み及び品詞と一致する読み及び品詞を持つ他の語が言語辞書に登録されていない場合(ステップS106−No)、アクセント付与部14は、着目する形態素が言語辞書に登録されているか否か判定する(ステップS108)。また、ステップS103にて、着目する形態素が複合語に含まれない場合(ステップS103−No)も、アクセント付与部14は、着目する形態素が言語辞書に登録されているか否か判定する(ステップS108)。
【0043】
着目する形態素が言語辞書に登録されていれば(ステップS108−Yes)、アクセント付与部14は、着目する形態素に、言語辞書に登録されているその形態素のアクセントを付与する(ステップS109)。一方、着目する形態素が言語辞書に登録されていなければ(ステップS108−No)、アクセント付与部14は、着目する形態素にデフォルトのアクセントを付与する(ステップS110)。なお、デフォルトのアクセントは、例えば、アクセント無しとすることができる。
【0044】
ステップS102、S105、S107、S109またはS110の後、アクセント付与部14は、アクセント付与処理を終了する。なお、変形例によれば、ステップS106及びS107の処理は省略されてもよい。この場合には、ステップS104にて複合語が言語辞書に登録されていない場合、アクセント付与部14は、ステップS108以降の処理を実行すればよい。
【0045】
アクセント付与部14は、テキストデータについて特定された形態素の組み合わせに含まれる各形態素にアクセントを付与する。そしてアクセント付与部14は、形態素の並び順に従って、各形態素の読み及びアクセントの位置を表す表音文字列を並べることで、テキストデータ全体の読み及びアクセントの位置を表す表音文字列を作成する。そしてアクセント付与部14は、そのテキストデータの表音文字列を音声合成部15へ出力する。
【0046】
音声合成部15は、テキストデータの表音文字列に基づいて、テキストデータの音声波形を表す合成音声信号を生成する。
音声合成部15は、様々な音声合成方式の何れに従ってテキストデータの合成音声信号を生成してもよい。例えば、音声合成部15は、表音文字列に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部15は、記憶部5から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部15は、複数の韻律モデルのうち、表音文字列に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部15は、選択した韻律モデル及び合成音声信号を生成するために参照される各種のパラメータに従って、表音文字列に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
【0047】
音声合成部15は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部15は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部15は、記憶部5から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、音素単位の波形信号である。
さらに、音声合成部15は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部15は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
【0048】
音声合成部15は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部5から読み込む。そして音声合成部15は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部15は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成してもよい。
【0049】
音声合成部15は、生成した合成音声信号を音声出力部7へ出力する。あるいは、音声合成部15は、生成した合成音声信号を記憶部5に保存したり、通信インターフェース部4を介して他の機器へ出力してもよい。
【0050】
図7は、音声合成処理の動作フローチャートである。
テキスト解析部11は、操作部2を介して指定された、ルビが振られた語句を含むテキストデータに対して形態素解析を行って、そのテキストデータを形態素の組み合わせに分割する(ステップS201)。そして抽出部12は、形態素の組み合わせに含まれる形態素のうち、ルビが振られた語句に含まれる形態素を抽出する(ステップS202)。
【0051】
結合判定部13は、ルビが振られた語句に含まれる形態素のうち、複合語に含まれる形態素を特定する(ステップS203)。アクセント付与部14は、各形態素にアクセントを付与することで、テキストデータの表音文字列を作成する(ステップS204)。そして音声合成部15は、その表音文字列に基づいて、テキストデータの合成音声信号を生成する(ステップS205)。そして処理部6は、音声合成処理を終了する。
【0052】
図8は、本実施形態による処理結果の一例を示す図である。この例では、入力されたテキストデータ800に、ルビが振られた語句「プロ野球(ヤキュウ)は」及び「日本橋(ニッポンバシ)駅の」が含まれている。なお、括弧内に示された読みは、ルビを表す。これらの語句は、形態素解析により、それぞれ、「プロ/野球/は」、「日本橋/駅/の」と分割される。このうち、形態素「野球」及び「日本橋」が、ルビに対応する形態素として抽出され、そしてこれらの形態素は、それぞれ、複合語「プロ野球」、「日本橋駅」を形成すると結合判定される。そして言語辞書801に登録されている、複合語「プロ野球」のアクセント「プロヤ‘キュー」が、テキストデータ800中のルビが振られた語句に対応する形態素を含む複合語「プロ野球」に付与される。同様に、言語辞書801に登録されている、複合語「日本橋駅」のアクセント「ニッポンバシ‘エキ」が、テキストデータ800中のルビが振られた語句に対応する形態素を含む複合語「日本橋駅」に付与される。なお、この例では、言語辞書801には、複合語「日本橋駅」に対して、二通りの読み及びアクセント「ニホンバシ‘エキ」及び「ニッポンバシ‘エキ」が登録されている。しかし、テキストデータ800では、語句「日本橋駅の」に対してルビ(ニッポンバシ)が振られているので、そのルビに対応する読み及びアクセント「ニッポンバシ‘エキ」が選択される。
【0053】
以上に説明したように、この音声合成装置は、ルビが振られた語句に含まれる形態素について、その前後の形態素とともに複合語を形成するか否か判定し、複合語を形成する場合、その複合語単位でアクセントを付与する。そのため、この音声合成装置は、ルビが振られた語句に含まれる形態素について、複合語の形成によるアクセント結合が生じても、適切なアクセントを付与することができる。その結果として、この音声合成装置は、ユーザにとって自然に聞こえる合成音声信号を生成できる。
【0054】
変形例によれば、音声合成装置は、音声合成の対象となるテキストデータの表音文字列を、通信インターフェース部4を介して他の機器へ出力してもよい。そして他の機器において、その表音文字列に基づいて、そのテキストデータの合成音声信号が生成されてもよいこの場合には、音声合成部15は省略されてもよい。
【0055】
また他の変形例によれば、結合判定部13は、ルビが振られていない形態素についても、その前後の形態素とともに複合語を形成するか否か判定してもよい。そしてアクセント付与部14は、ルビが振られていない形態素を含む複合語についても、その複合語が言語辞書に登録されている場合、その複合語に対して、言語辞書に登録されているその複合語のアクセントを付与してもよい。
【0056】
さらに他の変形例によれば、この音声合成装置は、クライアントサーバシステムにおいて実装されてもよい。
【0057】
図9は、この変形例による、音声合成装置が実装されるクライアントサーバシステムの概略構成図である。クライアントサーバシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、クライアントサーバシステム100が有する端末110は複数存在してもよい。同様に、クライアントサーバシステム100が有するサーバ120は複数存在してもよい。
【0058】
端末110は、入力部111と、記憶部112と、通信部113と、制御部114と、音声出力部115とを有する。入力部111、記憶部112、通信部113及び音声出力部115は、制御部114とバスを介して接続されている。
【0059】
入力部111は、例えば、キーボードといった、テキストデータを入力するための入力装置を有し、音声合成の対象となる、ルビが振られた語句を含むテキストデータを取得する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報などを記憶する。
【0060】
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取ったテキストデータを通信ネットワーク130を介してサーバ120へ送信する。また通信部113は、入力部の他の一例であり、音声合成の対象となる、ルビが振られた語句を含むテキストデータを、通信ネットワーク130に接続された他の機器140、例えば、Webサーバから受信し、制御部114に渡してもよい。
さらに、通信部113は、サーバ120からテキストデータに対応する合成音声信号を受信して、制御部114に渡す。
【0061】
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと、端末110の識別情報を含む送信信号を生成する。そして制御部114は、その送信信号を、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
また制御部114は、サーバ120から通信ネットワーク130及び通信部113を介して受信した合成音声信号を、音声出力部115を介して合成音声として出力する。
【0062】
音声出力部115は、例えば、スピーカを有し、制御部114から受け取った合成音声信号を合成音声として出力する。
【0063】
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
【0064】
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、音声合成の対象となる、ルビが振られた語句を含むテキストデータと端末110の識別情報とを含む送信信号を端末110から通信ネットワーク130を介して受信して処理部123に渡す。また通信部121は、端末110の識別情報に基づいて、処理部123から受け取った合成音声信号を通信ネットワーク130を介して端末110へ送信する。
【0065】
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラム、音声合成用コンピュータプログラム、及び音声合成処理で使用される各種のデータなどを記憶する。
【0066】
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を実現する。すなわち、処理部123は、端末110から受信した、ルビが振られたテキストデータを形態素の組み合わせに分割する。処理部123は、その形態素の組み合わせに含まれる各形態素のうち、ルビが振られた語句に含まれる形態素を抽出し、その抽出した形態素について、複合語を形成するか否か判定する。そして処理部123は、ルビに対応する形態素が複合語を形成する場合、言語辞書に登録されているその複合語のアクセントをその複合語に付与する。また処理部123は、他の各形態素についても、言語辞書を参照してアクセントを付与することで、テキストデータ全体についての表音文字列を作成する。そして処理部123は、その表音文字列に基づいて合成音声信号を生成する。そして処理部123は、生成した合成音声信号を、通信部121及び通信ネットワーク130を介して端末110へ送信する。
【0067】
この実施形態によれば、個々の端末110は、音声合成の対象となるテキストデータをサーバ120へ送信するだけで、そのテキストデータの合成音声信号を得ることができる。そのため、個々の端末110は、言語辞書などを記憶する必要が無い。また個々の端末110は、合成音声信号の生成にサーバ120を利用することで、リアルタイムに音声合成の対象となるテキストデータの合成音声信号を得ることができる。
【0068】
また変形例によれば、複数のサーバ120が協働して、一つのテキストデータに対する音声合成処理を実行してもよい。この場合、複数のサーバ120のそれぞれが、上記の各実施形態または変形例による、音声合成装置の処理部の各機能を分担して実行すればよい。例えば、複数のサーバ120のうちの一つのサーバの処理部123が、音声合成装置の処理部の機能のうち、テキスト解析部11、抽出部12、結合判定部13及びアクセント付与部14の処理を実行して、対象となるテキストデータの表音文字列を生成する。そしてそのサーバが、複数のサーバ120のうちの他のサーバへその表音文字列を送信する。他のサーバの処理部123は、音声合成装置の処理部の機能のうち、音声合成部15の処理を実行して、受け取った表音文字列に基づいて合成音声信号を生成する。そして他のサーバは、生成した合成音声信号をその一つのサーバへ返信する。そしてその一つのサーバが、その合成音声信号を端末110へ送信する。あるいは、他のサーバ自体が、生成した合成音声信号を端末110へ送信してもよい。
【0069】
上記の各実施形態または変形例による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な記録媒体に記録された形で提供されてもよい。そのような記録媒体は、例えば、磁気記録媒体、光記録媒体または半導体メモリとすることができる。
【0070】
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。