特許第6181921号(P6181921)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許6181921音声再生装置および音声合成再生装置ならびにこれらのプログラム
<>
  • 特許6181921-音声再生装置および音声合成再生装置ならびにこれらのプログラム 図000002
  • 特許6181921-音声再生装置および音声合成再生装置ならびにこれらのプログラム 図000003
  • 特許6181921-音声再生装置および音声合成再生装置ならびにこれらのプログラム 図000004
  • 特許6181921-音声再生装置および音声合成再生装置ならびにこれらのプログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6181921
(24)【登録日】2017年7月28日
(45)【発行日】2017年8月16日
(54)【発明の名称】音声再生装置および音声合成再生装置ならびにこれらのプログラム
(51)【国際特許分類】
   G10L 21/043 20130101AFI20170807BHJP
   G10L 13/04 20130101ALI20170807BHJP
【FI】
   G10L21/043 100
   G10L13/04 Z
【請求項の数】6
【全頁数】14
(21)【出願番号】特願2012-254292(P2012-254292)
(22)【出願日】2012年11月20日
(65)【公開番号】特開2014-102379(P2014-102379A)
(43)【公開日】2014年6月5日
【審査請求日】2015年10月1日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(74)【代理人】
【識別番号】100064414
【弁理士】
【氏名又は名称】磯野 道造
(74)【代理人】
【識別番号】100111545
【弁理士】
【氏名又は名称】多田 悦夫
(72)【発明者】
【氏名】世木 寛之
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開平10−011092(JP,A)
【文献】 特開平07−129190(JP,A)
【文献】 特開平10−301598(JP,A)
【文献】 特開平09−073299(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10,
19/00−19/26,
21/04−21/057
(57)【特許請求の範囲】
【請求項1】
音声を信号処理して再生する音声再生装置であって、
入力された音声を保存する入力音声バッファリング手段と、
前記入力音声バッファリング手段に保存されている音声を信号処理する音声信号処理手段と、
前記音声信号処理手段によって信号処理された音声を保存する出力音声バッファリング手段と、
前記出力音声バッファリング手段に保存されている音声を再生する音声再生手段と、
前記出力音声バッファリング手段に保存されている音声の量を検出する出力音声バッファー検出手段と、
前記出力音声バッファー検出手段によって検出された音声の量が予め定められた閾値未満であるか否かを判定し、当該閾値未満である場合に、前記入力音声バッファリング手段に保存されている音声を信号処理する旨の制御信号を前記音声信号処理手段に対して出力する音声信号処理制御手段と、を備え、
前記音声信号処理手段によって、予め定められたテスト音声を信号処理し、
前記出力音声バッファリング手段によって、前記音声信号処理手段によって信号処理されたテスト音声を保存し、
前記音声再生手段によって、前記出力音声バッファリング手段に保存されているテスト音声を再生し、
前記出力音声バッファー検出手段によって、前記出力音声バッファリング手段に保存されているテスト音声の量を検出した場合において、
前記音声信号処理制御手段において用いられる前記閾値は、当該出力音声バッファー検出手段によって検出されたテスト音声の量の最小値に、前記音声再生装置の処理性能の安定性を示す予め定められた信頼率を乗じたものであり、
前記音声信号処理手段は、前記音声信号処理制御手段から前記制御信号が入力された場合に、前記入力音声バッファリング手段に保存されている音声を信号処理することを特徴とする音声再生装置。
【請求項2】
音声を信号処理して再生する音声再生装置であって、
入力された音声を保存する入力音声バッファリング手段と、
前記入力音声バッファリング手段に保存されている音声を信号処理する音声信号処理手段と、
前記音声信号処理手段によって信号処理された音声を保存する出力音声バッファリング手段と、
前記出力音声バッファリング手段に保存されている音声を再生する音声再生手段と、
前記出力音声バッファリング手段に保存されている音声の量を検出する出力音声バッファー検出手段と、
前記出力音声バッファー検出手段によって検出された音声の量が予め定められた閾値未満であるか否かを判定し、当該閾値未満である場合に、前記入力音声バッファリング手段に保存されている音声を信号処理する旨の制御信号を前記音声信号処理手段に対して出力する音声信号処理制御手段と、を備え、
前記音声信号処理手段は、前記音声信号処理制御手段から前記制御信号が入力された場合に、前記入力音声バッファリング手段に保存されている音声の話速を変換する信号処理を行うことを特徴とする音声再生装置。
【請求項3】
前記音声信号処理手段は、前記入力音声バッファリング手段に保存されている音声の話速を変換する信号処理を行うことを特徴とする請求項1に記載の音声再生装置。
【請求項4】
請求項1から請求項3のいずれか一項に記載の音声再生装置を備える音声合成再生装置であって、
入力文に対応する音声を合成する音声合成手段と、
前記入力音声バッファリング手段に保存されている音声の量を検出する入力音声バッファー検出手段と、
前記入力音声バッファー検出手段によって検出された音声の量が予め定められた閾値未満であるか否かを判定し、当該閾値未満である場合に、前記入力文に対応する音声を合成する旨の制御信号を前記音声合成手段に対して出力する音声合成制御手段と、
を備え、
前記音声合成手段は、前記音声合成制御手段から前記制御信号が入力された場合に、前記入力文に対応する音声を合成し、
前記入力音声バッファリング手段は、前記音声合成手段によって合成された音声を保存
することを特徴とする音声合成再生装置。
【請求項5】
コンピュータを、請求項1から請求項3のいずれか一項に記載の音声再生装置として機能させるための音声再生プログラム。
【請求項6】
コンピュータを、請求項4に記載の音声合成再生装置として機能させるための音声合成再生プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を信号処理して再生する音声再生装置およびそのプログラム、合成した音声を信号処理して再生する音声合成再生装置およびそのプログラムに関する。
【背景技術】
【0002】
従来、入力音声の話速を変換することで、音声の長さをリアルタイムで変えながら再生する音声再生方法が提案されている(特許文献1参照)。特許文献1で提案された音声再生方法は、人が発声した音声を加工してリアルタイムで発話速度を変換しながら再生するものであり、受聴音声の話速を変換する際に、入力音声のデータ長と、事前に与えられた伸縮倍率に関する変換関数によって予め計算された出力データ長と、実際に出力されている音声のデータ長とを一定の処理単位で常に監視することで、情報の欠落を生じさせることなく一連の処理を行うことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許3220043号公報(特開平10−301598号公報)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1で提案された音声再生方法は入力音声に対してリアルタイムで話速を変換し、話速変換後の音声を再生することは可能であるが、入力音声の話速変換にかかる時間が、変換後の音声を再生する時間と比べて長いと、再生音が途切れてしまう可能性がある。例えば、特許文献1で提案された音声再生方法は、話速変換済の音声Aの再生中に、当該音声Aの次に再生する音声Bの話速変換を並行して行う際に、音声Aの再生時間が5秒、音声Bの話速変換時間が10秒であるとすると、音声Aの再生が終わってから5秒間は何も再生されないことになる。
【0005】
本発明はかかる点に鑑みてなされたものであって、信号処理した音声を途切れさせることなく再生することができる安定性の高い音声再生装置および音声合成再生装置ならびにこれらのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するために請求項1に係る音声再生装置は、音声を信号処理して再生する音声再生装置であって、入力音声バッファリング手段と、音声信号処理手段と、出力音声バッファリング手段と、音声再生手段と、出力音声バッファー検出手段と、音声信号処理制御手段と、を備える構成とした。
【0007】
このような構成を備える音声再生装置は、入力音声バッファリング手段によって、入力された音声を保存し、音声信号処理手段によって、音声信号処理制御手段から制御信号が入力された場合に、入力音声バッファリング手段に保存されている音声を信号処理する。すなわち、音声信号処理手段は、出力音声バッファリング手段に保存されている信号処理済の音声の量が閾値を下回る場合に音声を信号処理する。これにより、出力音声バッファリング手段に保存されている音声、すなわち音声再生手段によって再生される信号処理済の音声の量が常に一定量に保たれることになる。
【0008】
また、音声再生装置は、出力音声バッファリング手段によって、音声信号処理手段において信号処理された音声を保存し、音声再生手段によって、出力音声バッファリング手段に保存されている音声を再生する。そして、音声再生装置は、出力音声バッファー検出手段によって、出力音声バッファリング手段に保存されている音声の量を検出し、音声信号処理制御手段によって、出力音声バッファー検出手段において検出された音声の量が予め定められた閾値未満であるか否かを判定し、当該閾値未満である場合に、入力音声バッファリング手段に保存されている音声を信号処理する旨の制御信号を音声信号処理手段に対して出力する。
【0009】
また、音声再生装置において、音声信号処理手段によって、予め定められたテスト音声を信号処理し、出力音声バッファリング手段によって、音声信号処理手段において信号処理されたテスト音声を保存し、音声再生手段によって、出力音声バッファリング手段に保存されているテスト音声を再生し、出力音声バッファー検出手段によって、出力音声バッファリング手段に保存されているテスト音声の量を検出した場合において、音声信号処理制御手段で用いられる閾値が、出力音声バッファー検出手段によって検出されたテスト音声の量の最小値に、音声再生装置の処理性能の安定性を示す予め定められた信頼率を乗じたものである構成とした。この信頼率は、音声再生装置の各手段を例えばコンピュータによって具現化する場合において、性能の良いCPUや並列して動作するプログラムが少ない場合には例えば「1.0」をとり、性能の悪いCPUや並列して複数のプログラムが動作している場合には例えば「2.0」や「3.0」をとる、ユーザーが予め定める設定値のことである。すなわち、音声再生装置は、テスト音声を入力して処理を行うことで得られた出力音声バッファー検出手段の出力から求めた値を、音声信号処理制御手段における閾値として用いることができる。
【0010】
請求項3に係る音声再生装置は、請求項1に係る音声再生装置において、音声信号処理手段が、入力音声バッファリング手段に保存されている音声の話速を変換する信号処理を行う構成とした。すなわち、音声信号処理手段は、出力音声バッファリング手段に保存されている話速変換済の音声の量が閾値を下回る場合に音声を話速変換する。これにより、出力音声バッファリング手段に保存されている音声、すなわち音声再生手段によって再生される話速変換済の音声の量が常に一定量に保たれることになる。
【0011】
前記課題を解決するために請求項4に係る音声合成再生装置は、請求項1から請求項3のいずれか一項に係る音声再生装置を備える音声合成再生装置であって、音声合成手段と、入力音声バッファー検出手段と、音声合成制御手段と、備える構成とした。
【0012】
このような構成を備える音声合成再生装置は、音声合成手段によって、音声合成制御手段から制御信号が入力された場合に、入力文に対応する音声を合成し、入力音声バッファリング手段によって、音声合成手段において合成された音声を保存する。すなわち、音声合成手段は、入力音声バッファリング手段に保存されている合成音声の量が閾値を下回る場合に音声を合成する。これにより、入力音声バッファリング手段に保存されている合成音声、すなわち音声信号処理手段によって信号処理される合成音声の量が常に一定量に保たれることになる。
【0013】
そして、音声合成再生装置は、入力音声バッファー検出手段によって、入力音声バッファリング手段に保存されている音声の量を検出し、音声合成制御手段によって、入力音声バッファー検出手段において検出された音声の量が予め定められた閾値未満であるか否かを判定し、当該閾値未満である場合に、入力文に対応する音声を合成する旨の制御信号を音声合成手段に対して出力する。
【0014】
前記課題を解決するために請求項5に係る音声再生プログラムは、コンピュータを、請求項1から請求項3のいずれか一項に記載の音声再生装置として機能させることとした。
【0015】
前記課題を解決するために請求項6に係る音声合成再生プログラムは、コンピュータを、請求項4に記載の音声合成再生装置として機能させることとした。
【発明の効果】
【0016】
請求項1、請求項2および請求項5に係る発明によれば、信号処理済の音声の量を常に管理しながら音声を信号処理して再生するため、当該信号処理済の音声を途切れさせることなく安定的に再生することができる。
【0017】
請求項2、請求項3に係る発明によれば、話速変換済の音声の量を常に管理しながら音声を話速変換して再生するため、当該話速変換済の音声を途切れさせることなく安定的に再生することができる。
【0018】
請求項4および請求項6に係る発明によれば、合成音声の量を常に管理しながら音声を合成するとともに、信号処理済の合成音声の量を常に管理しながら合成音声を信号処理して再生するため、当該信号処理済の合成音声を途切れさせることなく安定的に再生することができる。
【図面の簡単な説明】
【0019】
図1】本発明に係る音声再生装置の全体構成を示すブロック図である。
図2】本発明に係る音声再生装置の処理手順を示すフローチャートである。
図3】本発明に係る音声合成再生装置の全体構成を示すブロック図である。
図4】本発明に係る音声合成再生装置の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0020】
本発明の実施形態に係る音声再生装置および音声合成再生装置ならびにこれらのプログラムについて、図面を参照しながら説明する。なお、以下の説明において、同一の構成については同一の名称及び符号を付し、詳細説明を省略する。また、以下の説明では、まず音声再生装置について説明した後、音声合成再生装置およびこれらのプログラムについて説明することとする。
【0021】
[音声再生装置の構成]
本発明に係る音声再生装置の構成について、図1を参照しながら説明する。音声再生装置1は、入力音声に信号処理を行って再生するものであり、具体的には図1に示すように、外部から入力される音声に対して、予め定められた音声信号処理用パラメータに基づいて信号処理を行い、信号処理済の音声(以下、信号処理済音声という)を再生するものである。この音声再生装置1は、例えば一般家庭でテレビ番組を視聴する視聴者が、リモコン操作などによってリアルタイムに音声の話速や声の高さなどを調整する場合に用いられる。
【0022】
音声再生装置1は、ここでは図1に示すように、入力音声バッファリング手段11と、音声信号処理手段12と、出力音声バッファリング手段13と、音声再生手段14と、出力音声バッファー検出手段15と、音声信号処理制御手段16と、を備えている。
【0023】
入力音声バッファリング手段11は、信号処理前の音声を保存するものである。この入力音声バッファリング手段11は、図1に示すように、外部から入力された信号処理前の音声を保存するとともに、後記する音声信号処理手段12の求めに応じて当該音声を出力する。入力音声バッファリング手段11は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、入力音声バッファリング手段11は、ここでは図1に示すように、音声再生装置1の内部に設けられているが、音声再生装置1の外部に設けられた構成としても構わない。
【0024】
音声信号処理手段12は、音声を信号処理するものである。音声信号処理手段12は、図1に示すように、入力音声バッファリング手段11に保存されている音声を、予め定められた音声信号処理用パラメータに基づいて信号処理する。そして、音声信号処理手段12は、図1に示すように、信号処理済音声を出力音声バッファリング手段13に出力する。なお、この音声信号処理手段12における信号処理の具体例としては、例えば音声の話速変換処理、声質を変換する処理、声の高さを変える処理、音声の感情成分を変える処理などが挙げられる。
【0025】
音声信号処理手段12は、信号処理として音声の話速変換処理を行う場合、外部から音声信号処理用パラメータとして音声の伸縮率が入力される。これを受けて音声信号処理手段12は、音声データのパワー、零交差数、自己相関関数を用いて音声区間を検出するとともに、音声区間についてピッチ周期の抽出を行う。そして、音声信号処理手段12は、ピッチ周期と伸縮率とによって規定される時間長に基づいて、音声波形の基本周期の間引き/繰り返しを行い、音声波形同士を適切な時間長で重ね合わせて接続することで、話速変換を行う。なお、このような話速変換手法については、公知の技術を用いることができる(例えば、特許第3327936号、特許第2955247号)。
【0026】
また、音声信号処理手段12は、信号処理として音声の感情成分を変える処理を行う場合、外部から音声信号処理用パラメータとして、例えば喜怒哀楽に応じた感情パラメータが入力される。そして、音声信号処理手段12は、当該感情パラメータに基づいて音声波形の基本周波数やスペクトルを調整することで、音声の感情成分を変更する。
【0027】
ここで、音声信号処理手段12は、入力音声バッファリング手段11に保存されている音声を単に信号処理するのではなく、自身が既に信号処理を行った音声の量に応じて信号処理を行う。すなわち、音声信号処理手段12は、図1に示すように、出力音声バッファリング手段13に既に保存されている信号処理済音声の量が予め定められた閾値未満である場合に、入力音声バッファリング手段11に保存されている音声を信号処理する。
【0028】
より具体的には、音声信号処理手段12には、図1に示すように、出力音声バッファリング手段13に保存されている信号処理済音声が前記した閾値未満である場合、音声信号処理制御手段16から、信号処理を行う旨の制御信号が入力される。そして、音声信号処理手段12は、この制御信号が入力された場合のみ、入力音声バッファリング手段11に保存されている音声を古いものから順番に必要な個数だけ取得して話速変換などの信号処理を行い、信号処理済音声を出力音声バッファリング手段13に出力する。なお、音声信号処理手段12は、ここでは後記する音声再生手段14による信号処理済音声の再生と並行して音声の信号処理を行う。
【0029】
出力音声バッファリング手段13は、信号処理済音声を保存するものである。この出力音声バッファリング手段13は、図1に示すように、音声信号処理手段12から入力された信号処理済音声を保存するとともに、後記する音声再生手段14の求めに応じて当該信号処理済音声を出力する。出力音声バッファリング手段13は、具体的にはデータを記憶することができるハードディスクまたはフラッシュメモリなどで構成される。なお、出力音声バッファリング手段13は、ここでは図1に示すように、音声再生装置1の内部に設けられているが、音声再生装置1の外部に設けられた構成としても構わない。
【0030】
音声再生手段14は、信号処理済音声を再生するものである。音声再生手段14は、図1に示すように、出力音声バッファリング手段13に保存されている信号処理済音声を古いものから順番に必要な個数だけ取得し、スピーカなどの図示しない音声デバイスに対して出力して再生する。なお、音声再生手段14は、ここでは前記した音声信号処理手段12による信号処理と並行して信号処理済音声を再生する。
【0031】
出力音声バッファー検出手段15は、信号処理済音声の量を検出するものである。出力音声バッファー検出手段15は、図1に示すように、出力音声バッファリング手段13に保存されている信号処理済音声の量を所定のサンプリング周期で常時検出し、当該信号処理済音声の量を音声信号処理制御手段16に対して出力する。
【0032】
音声信号処理制御手段16は、音声信号処理手段12における信号処理を制御するものである。音声信号処理制御手段16には、図1に示すように、出力音声バッファー検出手段15から出力音声バッファリング手段13に保存されている信号処理済音声の量が入力される。そして、音声信号処理制御手段16は、当該信号処理済音声の量が予め定められた閾値未満であるかを判定し、当該閾値未満である場合に、入力音声バッファリング手段11に保存されている音声を信号処理する旨の制御信号を音声信号処理手段12に対して出力する。このように、音声再生装置1は、音声信号処理制御手段16によって、出力音声バッファリング手段13に保存されている音声の量に応じて、音声信号処理手段12における信号処理の要否を判定して音声の信号処理を制御することができる。
【0033】
ここで、前記した閾値は、予め経験的および実験的に求めた値であり、本発明を具現あるいは実現するハードウェアの性能(例えばCPUやデータの転送速度など)に応じて決定される。また、前記した閾値は、次のような条件の場合において、出力音声バッファー検出手段15によって検出されたテスト音声の量の最小値に、音声再生装置1の処理性能の安定性を示す予め定められた信頼率を乗じたものとすることができる。この信頼率は、音声再生装置1の各手段を例えばコンピュータによって具現化する場合において、性能の良いCPUや並列して動作するプログラムが少ない場合には「1.0」をとり、性能の悪いCPUや並列して複数のプログラムが動作している場合には「2.0」や「3.0」をとる、ユーザーが予め定める設定値のことである。
【0034】
すなわち、前記した条件とは、音声信号処理手段12によって、予め定められたテスト音声を信号処理し、出力音声バッファリング手段13によって、音声信号処理手段12において信号処理されたテスト音声を保存し、音声再生手段14によって、出力音声バッファリング手段13に保存されているテスト音声を再生し、出力音声バッファー検出手段15によって、出力音声バッファリング手段13に保存されているテスト音声の量を検出した場合である。
【0035】
以上のような構成を備える音声再生装置1は、音声信号処理手段12が、出力音声バッファリング手段13に保存されている信号処理済音声(例えば話速変換済の音声)の量が閾値を下回る場合に音声を信号処理(例えば話速変換)する。これにより、出力音声バッファリング手段13に保存されている音声、すなわち音声再生手段14によって再生される信号処理済音声の量が常に一定量に保たれることになる。従って、音声再生装置1によれば、信号処理済音声の量を常に管理しながら音声を信号処理して再生するため、当該信号処理済音声を途切れさせることなく安定的に再生することができる。
【0036】
なお、本発明に係る音声再生装置1のように、入力音声に対してリアルタイムで話速を変換して話速変換済音声を再生するのではなく、例えば事前に音声をまとめて話速変換し、全ての音声の話速変換が完了した後に話速変換済音声を再生すれば、再生音が途切れることはない。しかしこの場合は、話速変換を行った時刻と話速変換後の音声を再生した時刻とがずれるため、話速変換を行う際に指定された伸縮率と、話速変換後の音声が再生される際に指定される伸縮率とにずれが生じることになる。すなわち、事前に伸縮率を「2倍」として話速変換した音声は、当然ながら、再生時に「2倍」以外の話速に変更することはできない。
【0037】
このように従来は、音声の話速変換と再生とを並行して行って話速変換の倍率(伸縮率)指定のレスポンスを良くすると、再生音が途切れる可能性があり、音声の話速変換と再生と別個に行って再生音が途切れないようにすると、話速変換の倍率指定のレスポンスが悪くなるという相関関係があったが、本発明に係る音声再生装置1は、前記したような構成を備えることで、話速変換の倍率指定のレスポンスの良さと、再生音の途切れなさを両立することができる。
【0038】
[音声再生装置の処理手順]
本発明に係る音声再生装置1の処理手順について、図2を参照(適宜図1を参照)しながら説明する。
【0039】
音声再生装置1は、まず外部から入力音声バッファリング手段11に対して信号処理前の音声を入力する(ステップS1)。次に、音声再生装置1は、出力音声バッファー検出手段15によって、出力音声バッファリング手段13に保存されている信号処理済音声の量を検出する(ステップS2)。次に、音声再生装置1は、音声信号処理制御手段16によって、信号処理済音声の量が閾値未満であるか否かを判定する(ステップS3)。
【0040】
音声再生装置1は、信号処理済音声の量が閾値未満である場合(ステップS3においてYes)、音声信号処理手段12によって、入力音声バッファリング手段11に保存されている音声を信号処理し(ステップS4)、出力音声バッファリング手段13によって、信号処理済音声を保存する(ステップS5)。次に、音声再生装置1は、音声再生手段14によって、スピーカなどの音声デバイスを介して、出力音声バッファリング手段13に保存されている信号処理済音声を再生する(ステップS6)。そして、音声再生装置1は、外部からの音声の入力が終了した場合(ステップS7においてYes)はステップS8に進み、外部からの音声の入力が終了していない場合(ステップS7においてNo)はステップS1に戻って前記した処理を繰り返す。
【0041】
音声再生装置1は、全ての信号処理済音声の再生が終了した場合(ステップS8においてYes)は処理を終了し、全ての信号処理済音声の再生が終了していない場合(ステップS8においてNo)はステップS2に戻って前記した処理を繰り返す。なお、ステップS8において、全ての信号処理済音声の再生が終了したか否かを判定する方法としては、例えば音声信号処理手段12および音声再生手段14によって、入力音声バッファリング手段11内および出力音声バッファリング手段13内の音声が残っているか否かをそれぞれ検出する方法などを用いることができる。
【0042】
一方、音声再生装置1は、出力音声バッファリング手段13内の信号処理済音声の量が閾値を超える場合(ステップS3においてNo)、信号処理を行わずに待機し(ステップS9)、ステップS6以降の処理を行う。音声再生装置1は、以上のような手順を経て信号処理済音声を再生する。
【0043】
[音声合成再生装置の構成]
本発明に係る音声合成再生装置2の構成について、図3を参照しながら説明する。音声合成再生装置2は、合成した音声に信号処理を行って再生するものであり、具体的には図3に示すように、外部から入力される入力文(テキスト)に従って音声を合成し、当該合成した音声に対して、予め定められた音声信号処理用パラメータに基づいて信号処理を行い、信号処理済の合成音声(以下、信号処理済合成音声という)を再生するものである。この音声合成再生装置2は、前記した音声再生装置1と同様の用途に用いられる。
【0044】
音声合成再生装置2は、ここでは図3に示すように、前記した音声再生装置1の構成である入力音声バッファリング手段11と、音声信号処理手段12と、出力音声バッファリング手段13と、音声再生手段14と、出力音声バッファー検出手段15と、音声信号処理制御手段16とに加えて、音声合成手段21と、入力音声バッファー検出手段22と、音声合成制御手段23と、を備えている。なお、以下の説明では音声再生装置1と重複する構成については、詳細な説明を省略する。
【0045】
音声合成手段21は、入力文(テキスト)に対応する音声を合成するものである。音声合成手段21は、図3に示すように、外部から入力されたテキストに基づいて、音声データおよび音声合成用パラメータを利用して音声合成を行う。なお、音声合成手段21は、例えばHMM音声合成方式、波形編集方式、波形接続方式などの一般的な方法を利用して音声合成を行うことができる。また、前記した音声合成用パラメータとしては、例えば声量、発話速度、ピッチ(基本周波数)、スペクトルなどのパラメータが挙げられる。
【0046】
ここで、音声合成手段21は、入力文から単に音声合成を行うのではなく、自身が既に合成した音声の量に応じて音声合成を行う。すなわち、音声合成手段21は、図3に示すように、入力音声バッファリング手段11に既に保存されている合成済の音声(以下、合成音声という)の量が予め定められた閾値未満である場合に、入力文から音声合成を行う。
【0047】
より具体的には、音声合成手段21には、図3に示すように、入力音声バッファリング手段11に保存されている合成音声が前記した閾値未満である場合、音声合成制御手段23から、音声合成を行う旨の制御信号が入力される。そして、音声合成手段21は、この制御信号が入力された場合のみ、入力文から音声合成を行い、合成音声を入力音声バッファリング手段11に出力する。なお、音声合成手段21は、ここでは音声信号処理手段12により合成音声の信号処理や、音声再生手段14による信号処理済合成音声の再生と並行して音声の合成を行う。また、音声合成手段21における音声合成の単位は特に限定されず、例えばフレーズ単位、文単位で音声合成を行うことができる。
【0048】
ここで、入力音声バッファリング手段11は、前記した音声再生装置1におけるものと同様の構成を備えているが、ここでは外部から入力された音声ではなく、音声合成手段21によって合成された音声を保存する。
【0049】
入力音声バッファー検出手段22は、合成音声の量を検出するものである。入力音声バッファー検出手段22は、図3に示すように、入力音声バッファリング手段11に保存されている合成音声の量を所定のサンプリング周期で常時検出し、当該合成音声の量を音声合成制御手段23に対して出力する。
【0050】
音声合成制御手段23は、音声合成手段21における音声合成を制御するものである。音声合成制御手段23には、図3に示すように、入力音声バッファー検出手段22から入力音声バッファリング手段11に保存されている合成音声の量が入力される。そして、音声合成制御手段23は、当該合成音声の量が予め定められた閾値未満であるかを判定し、当該閾値未満である場合に、入力文から音声を合成する旨の制御信号を音声合成手段21に対して出力する。このように、音声合成再生装置2は、音声合成制御手段23によって、入力音声バッファリング手段11に保存されている合成音声の量に応じて、音声合成手段21における合成の要否を判定して音声の合成を制御することができる。
【0051】
ここで、前記した閾値は、予め経験的および実験的に求めた値であり、本発明を具現あるいは実現するハードウェアの性能(例えばCPUやデータの転送速度など)に応じて決定される。
【0052】
以上のような構成を備える音声合成再生装置2は、音声合成手段21が、入力音声バッファリング手段11に保存されている合成音声の量が閾値を下回る場合に音声を合成する。これにより、入力音声バッファリング手段11に保存されている合成音声、すなわち音声信号処理手段12によって信号処理(例えば話速変換)される合成音声の量が常に一定量に保たれることになる。また、音声合成再生装置2は、音声信号処理手段12が、出力音声バッファリング手段13に保存されている信号処理済合成音声(例えば話速変換済の合成音声)の量が閾値を下回る場合に合成音声を信号処理する。これにより、出力音声バッファリング手段13に保存されている合成音声、すなわち音声再生手段14によって再生される信号処理済合成音声の量が常に一定量に保たれることになる。従って、音声合成再生装置2によれば、合成音声の量を常に管理しながら音声を合成するとともに、信号処理済合成音声の量を常に管理しながら合成音声を信号処理して再生するため、当該信号処理済合成音声を途切れさせることなく安定的に再生することができる。
【0053】
[音声合成再生装置の処理手順]
本発明に係る音声合成再生装置2の処理手順について、図4を参照(適宜図3を参照)しながら説明する。
【0054】
音声合成再生装置2は、まず外部から音声合成手段21に対してテキストを入力する(ステップS11)。次に、音声合成再生装置2は、入力音声バッファー検出手段22によって、入力音声バッファリング手段11に保存されている合成音声の量を検出する(ステップS12)。次に、音声合成再生装置2は、音声合成制御手段23によって、合成音声の量が閾値未満であるか否かを判定する(ステップS13)。
【0055】
音声合成再生装置2は、合成音声の量が閾値未満である場合(ステップS13においてYes)、音声合成手段21によって、テキストに対応した音声を合成し(ステップS14)、入力音声バッファリング手段11によって、合成音声を保存する(ステップS15)。次に、音声合成再生装置2は、出力音声バッファー検出手段15によって、出力音声バッファリング手段13に保存されている信号処理済合成音声の量を検出する(ステップS16)。次に、音声合成再生装置2は、音声信号処理制御手段16によって、信号処理済合成音声の量が閾値未満であるか否かを判定する(ステップS17)。
【0056】
音声合成再生装置2は、信号処理済合成音声の量が閾値未満である場合(ステップS17においてYes)、音声信号処理手段12によって、入力音声バッファリング手段11に保存されている合成音声を信号処理し(ステップS18)、出力音声バッファリング手段13によって、信号処理済合成音声を保存する(ステップS19)。次に、音声合成再生装置2は、音声再生手段14によって、スピーカなどの音声デバイスを介して、出力音声バッファリング手段13に保存されている信号処理済合成音声を再生する(ステップS20)。そして、音声合成再生装置2は、外部からのテキストの入力が終了した場合(ステップS21においてYes)はステップS22に進み、外部からのテキストの入力が終了していない場合(ステップS21においてNo)はステップS11に戻って前記した処理を繰り返す。
【0057】
音声再生装置1は、全ての信号処理済合成音声の再生が終了した場合(ステップS22においてYes)は処理を終了し、全ての信号処理済合成音声の再生が終了していない場合(ステップS22においてNo)はステップS12に戻って前記した処理を繰り返す。なお、ステップS22において、全ての信号処理済合成音声の再生が終了したか否かを判定する方法としては、例えば音声信号処理手段12および音声再生手段14によって、入力音声バッファリング手段11内および出力音声バッファリング手段13内の音声が残っているか否かをそれぞれ検出する方法などを用いることができる。
【0058】
一方、音声合成再生装置2は、入力音声バッファリング手段11内の合成音声の量が閾値を超える場合(ステップS13においてNo)、音声の合成を行わずに待機し(ステップS23)、ステップS16以降の処理を行う。また、音声合成再生装置2は、出力音声バッファリング手段13内の信号処理済合成音声の量が閾値を超える場合(ステップS17においてNo)、信号処理を行わずに待機し(ステップS24)、ステップS20以降の処理を行う。音声合成再生装置2は、以上のような手順を経て信号処理済合成音声を再生する。
【0059】
[音声合成再生処理の具体例]
本発明に係る音声合成再生装置2による処理の具体例について、図3を参照しながら説明する。ここでは一例として、「自分だけ費用を負担しないということであれば、かなり失礼ではないですかね?」という入力文を音声合成して話速変換することを考える。また、以下の例では、入力音声バッファリング手段11および出力音声バッファリング手段13には、最初はデータが保存されていない状態とする。
【0060】
まず、入力音声バッファー検出手段22は、入力音声バッファリング手段11内に存在する合成音声の量を検出し、音声合成制御手段23に対して「0」を出力する。次に、音声合成制御手段23は、入力音声バッファー検出手段22の出力「0」を受けて、閾値を下回っているため、音声合成手段21に対して入力文から音声を合成する旨の制御信号を出力する。次に、音声合成手段21は、入力文に対応する合成音声を生成し、入力音声バッファリング手段11に対して出力する。なお、音声合成手段21は、このとき、前記した入力文における「自分だけ」に対応する合成音声を生成して出力したものとする。次に、入力音声バッファリング手段11は、音声合成手段21から入力された合成音声を保存する。
【0061】
続いて先ほどと同様に、入力音声バッファー検出手段22は、入力音声バッファリング手段11内に存在する合成音声の量を検出し、先ほど入力された「自分だけ」の合成音声の長さを音声合成制御手段23に出力する。次に、音声合成制御手段23は、入力音声バッファー検出手段22の出力を受けて、閾値を下回っている場合は、音声合成手段21に対して入力文から音声を合成する旨の制御信号を出力し、閾値以上である場合は何も行わない。
【0062】
一方、出力音声バッファー検出手段15は、出力音声バッファリング手段13内に存在する信号処理済合成音声の量を検出し、音声信号処理制御手段16に対して「0」を出力する。次に、音声信号処理制御手段16は、出力音声バッファー検出手段15の出力「0」を受けて、閾値を下回っているため、音声信号処理手段12に対して合成音声を信号処理する旨の制御信号を出力する。次に、音声信号処理手段12は、入力音声バッファリング手段11に保存されている合成音声を古いものから順番に必要な個数だけ取得して話速変換を行って信号処理済合成音声を生成し、出力音声バッファリング手段13に対して出力する。次に、音声再生手段14は、出力音声バッファリング手段13に保存されている信号処理済合成音声を古いものから順番に必要な個数だけ取得し、スピーカなどの図示しない音声デバイスに対して出力して再生する。
【0063】
続いて先ほどと同様に、出力音声バッファー検出手段15は、出力音声バッファリング手段13内に存在する信号処理済合成音声の量を検出し、音声信号処理制御手段16に対して出力する。次に、音声信号処理制御手段16は、出力音声バッファー検出手段15の出力を受けて、閾値を下回っている場合は、音声信号処理手段12に対して合成音声を信号処理する旨の制御信号を出力し、閾値以上である場合は何も行わない。
【0064】
しばらくすると、信号処理済合成音声が再生されていくことで、出力音声バッファー検出手段15の出力が閾値を下回るため、音声信号処理手段12は、入力音声バッファリング手段11に保存されている合成音声を話速変換し、出力音声バッファリング手段13に対して出力する。また、同時に入力音声バッファー検出手段22の出力も閾値を下回ってくるため、音声合成手段21は入力文の音声合成を行い、入力音声バッファリング手段11に対して合成音声を出力する。なお、上記の処理においては、音声合成や話速変換の動作のタイミングが重要であり、音声合成制御手段23および音声信号処理制御手段16で用いられる閾値を、動作が安定となる最小限の値に設定することで、直近の感情などの音声合成パラメータや、話速変換の伸縮率などの信号処理パラメータを音声に反映させることが可能となる。
【0065】
[音声再生プログラムおよび音声合成再生プログラム]
ここで、前記した音声再生装置1および音声合成再生装置2は、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
【0066】
具体的には、音声再生プログラムは、入力された音声を保存する入力音声バッファリング手段11と、音声信号処理手段12によって信号処理された音声を保存する出力音声バッファリング手段13とを備え、音声を信号処理して再生する音声再生装置1のコンピュータを、前記した音声信号処理手段12および前記した音声再生手段14、として機能させることができる。また、音声合成再生プログラムは、音声合成手段21によって合成された合成音声を保存する入力音声バッファリング手段11と、音声信号処理手段12によって信号処理された信号処理済合成音声を保存する出力音声バッファリング手段13とを備え、合成音声を信号処理して再生する音声合成再生装置2のコンピュータを、前記した音声合成手段21、前記した音声信号処理手段12および前記した音声再生手段14、として機能させることができる。
【0067】
以上、本発明に係る音声再生装置および音声合成再生装置ならびにこれらのプログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
【符号の説明】
【0068】
1 音声再生装置
11 入力音声バッファリング手段
12 音声信号処理手段
13 出力音声バッファリング手段
14 音声再生手段
15 出力音声バッファー検出手段
16 音声信号処理制御手段
2 音声合成再生装置
21 音声合成手段
22 入力音声バッファー検出手段
23 音声合成制御手段
図1
図2
図3
図4