特許第6405653号(P6405653)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許6405653-音声出力装置および音声出力方法 図000002
  • 特許6405653-音声出力装置および音声出力方法 図000003
  • 特許6405653-音声出力装置および音声出力方法 図000004
  • 特許6405653-音声出力装置および音声出力方法 図000005
  • 特許6405653-音声出力装置および音声出力方法 図000006
  • 特許6405653-音声出力装置および音声出力方法 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6405653
(24)【登録日】2018年9月28日
(45)【発行日】2018年10月17日
(54)【発明の名称】音声出力装置および音声出力方法
(51)【国際特許分類】
   G10L 21/043 20130101AFI20181004BHJP
   G10L 21/057 20130101ALI20181004BHJP
   G10L 15/02 20060101ALI20181004BHJP
   G10L 15/00 20130101ALI20181004BHJP
【FI】
   G10L21/043 100
   G10L21/057
   G10L15/02 300K
   G10L15/00 200Z
【請求項の数】4
【全頁数】13
(21)【出願番号】特願2014-47776(P2014-47776)
(22)【出願日】2014年3月11日
(65)【公開番号】特開2015-172622(P2015-172622A)
(43)【公開日】2015年10月1日
【審査請求日】2017年2月15日
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100124154
【弁理士】
【氏名又は名称】下坂 直樹
(72)【発明者】
【氏名】松村 孝和
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開平5−27792(JP,A)
【文献】 特開平8−297499(JP,A)
【文献】 特開2010−139571(JP,A)
【文献】 特開2009−53581(JP,A)
【文献】 特開2003−150194(JP,A)
【文献】 特開2006−317768(JP,A)
【文献】 特開2004−212665(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−15/34,
21/04−21/057
(57)【特許請求の範囲】
【請求項1】
入力される音声データの話速度を文節毎に認識する音声認識部と、
前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、
前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えた音声出力装置。
【請求項2】
前記音声認識部は、入力される音声データの話速度および音声レベルを文節毎に認識し、
前記音声調整部は、前記音声認識部により認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
前記音声出力部は、前記音声調整部により設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項1に記載の音声出力装置。
【請求項3】
入力される音声データの話速度を文節毎に認識する音声認識ステップと、
前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度と比較し、比較結果に基づいて前記基準話速度に近づけるように調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、
前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含む音声出力方法。
【請求項4】
前記音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識し、
前記音声調整ステップでは、前記音声認識ステップにより認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルと比較し、比較結果に基づいて前記基準話速度および前記基準音声レベルに近づけるように調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、
前記音声出力ステップでは、前記音声調整ステップにより設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項3に記載の音声出力方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声出力装置等に関し、例えば、市町村防災放送など屋外で拡声放送するシステムに使用されるものに関する。
【背景技術】
【0002】
市町村防災放送などの同報通信システムで使用される拡声放送は、屋外に設置された複数の音声出力装置(受信拡声装置)によって、同時に行われる。その際、拡声放送の聴取者は、複数の音声出力装置から出力された音声(拡声音声)を同時に聞く。このときに聴取者が聞く音声は、複数の音声出力装置各々から聴取者までの距離の違いに基づく伝搬遅延や、建物等により反射などの影響を受けた複数の音声が合成されたものとなる。このため、言葉が重なって聞こえたり、文節ごとの切れ目が不明確になったりするなど、複数の音声出力装置から出力された音声が聴取者にとって聞こえにくい音声になる。
【0003】
そこで、音声出力装置に音声を入力する話者は、話す速度や、文節の長さや、文節間に無音時間を設けるなど、複数の音声出力装置から出力された音声が聴取者にとって聞きやすくなるように工夫をしている。
【0004】
なお、本発明の参考技術が、特許文献1および特許文献2に記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010−151965号公報
【特許文献2】特開平04−06999号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、前述の話者による工夫では、音声の聞きやすさが、放送毎に異なるという問題があった。その原因として、放送内容を話す速度や、文節の長さや、文節間の無音時間の長さが、話者毎に異なる点と、同一の話者であっても毎回同じ速度や間隔で話すことが難しいという点が、挙げられている。
【0007】
本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる音声出力装置等を供することにある。
【課題を解決するための手段】
【0008】
本発明の音声出力装置は、入力される音声データの話速度を文節毎に認識する音声認識部と、前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えている。
【0009】
本発明の音声出力方法は、入力される音声データの話速度を文節毎に認識する音声認識ステップと、前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含んでいる。
【発明の効果】
【0010】
本発明にかかる音声出力装置等によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
【図面の簡単な説明】
【0011】
図1】本発明の第1の実施の形態における音声出力装置の構成を示すブロック図である。
図2】本発明の第1の実施の形態における音声出力装置の動作の流れを示すフロー図である。
図3】音声認識部がメモリに記憶するデータ例を示す図である。
図4】本発明の第2の実施の形態における音声出力装置の構成を示すブロック図である。
図5】本発明の第2の実施の形態における音声出力装置の動作の流れを示すフロー図である。
図6】音声認識部がメモリに記憶するデータ例を示す図である。
【発明を実施するための形態】
【0012】
<第1の実施の形態>
本発明の第1の実施の形態における音声出力装置100の構成について説明する。
【0013】
図1は、音声出力装置100の構成を示すブロック図である。図1に示されるように、音声出力装置100は、MIC(Microphone:マイク)101と、A/D(Analog Digital:アナログデジタル)変換部102と、音声認識部103と、メモリ104と、音声調整部105と、音声出力部106と、システム値設定部107とを備えている。
【0014】
MIC101は、A/D変換部102に接続されている。MIC101は、音声入力手段として機能する。MIC101は、話者の音声データを集音する。
【0015】
A/D変換部102は、MIC101および音声認識部103に接続されている。A/D変換部102は、MIC101に入力される音声データを、アナログ信号からデジタル信号へ変換する。A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
【0016】
音声認識部103は、A/D変換部102およびメモリ104に接続されている。音声認識部103は、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103は、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103は、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。
【0017】
メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されている。メモリ104は、入力される音声データ等を記憶する。メモリ104の機能の詳細は、動作説明中で詳しく説明する。
【0018】
音声調整部105は、メモリ104および音声出力部106に接続されている。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。ここで、基準話速度は、システム値設定部107に予め設定された話速度の基準値である。基準音声レベルは、システム値設定部107に予め設定された音声レベルの基準値である。また、併せて、音声調整部105は、複数の文節間の無音時間を調整して出力用無音時間を設定する。出力用無音時間は、音声出力部106が出力する際の文節間の無音時間である。
【0019】
音声出力部106は、音声調整部105に接続されている。音声出力部106は、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力(拡声放送)する。
【0020】
システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルを設定して、メモリ104に入力する。
【0021】
以上、音声出力装置100の構成について説明した。
【0022】
次に、音声出力装置100の動作を説明する。図2は、音声出力装置100の動作の流れを示すフロー図である。
【0023】
図2に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。
【0024】
次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。すなわち、A/D変換部103は、MIC101から入力される音声データのアナログ信号を、音声データのデジタル信号へ変換する。ここで、デジタル信号に変換する際の条件(例えば、ビット数、サンプリング周波数)は、放送システム毎に適したものが採用される。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
【0025】
音声認識部103は、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節を認識する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して分割する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。
【0026】
ここで、図3は、音声認識部103がメモリ104に記憶するデータ例を示す図である。図3に示されるように、音声データ、話速度(話速情報)および音声レベルが、文節毎に、1つのデータとして記憶されている。
【0027】
図2に戻って、次に、音声調整部105は、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4)。
【0028】
ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104に登録されている。また、システム値設定部107は、音声出力部106が音声データを出力する際の複数の文節間の無音時間である出力用無音時間も設定し、これをメモリ104に登録する。なお、メモリ104に登録されている基準話速度、基準音声レベルおよび出力用無音時間は、システム値設定部107により、いつでも自由に変更することができる。
【0029】
次に、音声調整部105の具体的な処理を説明する。まず、音声調整部105は、メモリ104から、基準話速度、基準音声レベルおよび出力用無音時間を読み出す。また、音声調整部105は、音声認識部103により文節毎に認識された話速度および音声レベルと、文節間の無音時間とをメモリ104等から読み出す。
【0030】
音声調整部105は、図3の文節1に対応する各種データ(音声データ、話速情報、音声レベル)を読み出す。
【0031】
音声調整部105は、文節1の話速度と、基準話速度とを比較する。文節1の話速度から基準話速度を引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の話速度の調整は不要であると判定し、文節1の話速度の調整を行わず、出力話速度を設定する。この場合、音声調整部105は、出力話速度として、元のままの話速度で、そのままの音声データを音声出力部106へ出力する。
【0032】
一方、文節1の話速度から基準話速度を引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の話速度の調整は必要であると判定し、文節1の話速度を基準話速度へ調整して、出力話速度を設定する。この場合、音声調整部105は、出力話速度に速度調整を行いながら音声データを音声出力部106へ出力する。
【0033】
同様に、音声調整部105は、文節1の音声レベルと、基準音声レベルとを比較する。文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の音声レベルの調整は不要であると判定し、文節1の音声レベルの調整を行わず、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルとして、元のままの音声レベルで、そのままの音声データを音声出力部106へ出力する。
【0034】
一方、文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の音声レベルの調整は必要であると判定し、文節1の音声レベルを基準音声レベルへ調整して、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルに音量調整を行いながら音声データを音声出力部106へ出力する。
【0035】
なお、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力する。
【0036】
同様に、音声調整部105は、文節2、3・・・、nまで、順次、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定して、音声データを音声出力部106へ出力する。
【0037】
音声調整部105から音声出力部106への文節2の音声データの出力は、文節1の音声データの出力が終了した時間から、システム値設定部107により設定された出力用無音時間が経過した後に、開始される。これにより、文節1の音声再生と、文節2の音声再生の間に所定の無音時間を設けることができる。
【0038】
最後に、音声出力部106が、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する(S5)。このとき、音声出力部106は、音声データを、放送を行うシステムに適した信号形態に変換して出力する。例えば、音声データをシステムにアナログ信号として入力する必要がある場合、音声出力部106は、音声データをデジタル信号からアナログ信号へ変換して出力する。
【0039】
なお、本実施の形態では、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力すると説明した。一方、音声調整部105は、話速度のみを調整しながら、音声データを音声出力部106へ出力してもよい。
【0040】
以上の通り、本発明の第1の実施の形態における音声出力装置100は、音声認識部103と、音声調整部105と、音声出力部106とを備えている。音声認識部103は、入力される音声データの話速度を文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部105により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。
【0041】
このように、音声調整部105は、話速度を基準話速度に基づいて調整しつつ、複数の文節間の無音時間を調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度および文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度および文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
【0042】
また、本発明の第1の実施の形態における音声出力装置100において、音声認識部103は、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部103により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。
【0043】
このように、音声調整部105は、話速度および無音時間に加えて、音声レベルも調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度、音声レベルおよび文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度、音声レベルおよび文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
【0044】
本発明の第1の実施の形態における音声出力方法は、音声認識ステップと、音声調整ステップと、音声出力ステップとを含んでいる。音声認識ステップでは、入力される音声データの話速度を文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。
【0045】
本発明の第1の実施の形態における音声出力方法において、音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。
【0046】
<第2の実施の形態>
本発明の第2の実施の形態における音声出力装置100Aの構成について説明する。
【0047】
図4は、音声出力装置100Aの構成を示すブロック図である。なお、図4では、図1で示した各構成要素と同等の構成要素には、図1に示した符号と同等の符号を付している。
【0048】
図4に示されるように、音声出力装置100は、MIC101と、A/D変換部102と、音声認識部103Aと、メモリ104Aと、音声調整部105Aと、音声出力部106Aと、システム値設定部107とを備えている。
【0049】
ここで、図1図4を対比する。図1では、メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されていた。これに対して、図4では、メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。この点で、図1および図4は互いに相違する。
【0050】
音声認識部103Aは、A/D変換部102およびメモリ104Aに接続されている。音声認識部103Aは、第1の実施の形態と同様に、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103Aは、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103Aは、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。
【0051】
メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。メモリ104Aは、入力される音声データ等を記憶する。また、メモリ104は、システム値設定部107により予め設定される基準無音時間を記憶する。基準無音時間は、前述の通り、文節間の無音時間の基準値である。メモリ104Aの機能の詳細は、動作説明中で詳しく説明する。
【0052】
音声調整部105Aは、メモリ104Aに接続されている。音声調整部105Aは、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。
【0053】
なお、第1の実施の形態では、音声調整部105は、音声認識部103により認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間をも設定していた。一方、本実施形態では、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。
【0054】
音声出力部106Aは、メモリ104Aに接続されている。音声出力部106Aは、音声調整部105により設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間(メモリ104Aに記憶)とに基づいて、音声データを出力(拡声放送)する。
【0055】
システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルや出力用無音時間を設定して、メモリ104に入力する。
【0056】
以上、音声出力装置100Aの構成について説明した。
【0057】
次に、音声出力装置100Aの動作を説明する。
【0058】
図5は、音声出力装置100Aの動作の流れを示すフロー図である。
【0059】
図5に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。
【0060】
次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。
【0061】
音声認識部103Aは、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3A)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節に分割する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して認識する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。
【0062】
ここで、図6は、音声認識部103Aがメモリ104Aに記憶するデータ例を示す図である。図6に示されるように、音声データ、話速度(話速情報)、音声レベルおよび処理済みフラグが、文節毎に、1つのデータとして記憶されている。なお、音声認識部103Aがメモリ104Aに音声データ、話速度(話速情報)および音声レベルを記憶する時には、処理済みフラグは、未処理状態を示している。
【0063】
図5に戻って、次に、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4A)。
【0064】
ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104Aに登録されている。また、システム値設定部107は、複数の文節間の無音時間の基準値である基準無音時間も設定し、これをメモリ104Aに登録する。なお、メモリ104Aに登録されている基準話速度、基準音声レベルおよび基準無音時間は、システム値設定部107により、いつでも自由に変更することができる。
【0065】
次に、音声調整部105Aの具体的な処理を説明する。音声調整部105Aは、システム値での文節間の基準無音時間を考慮しないで、話速度および音声レベルの調整処理のみを行う。
【0066】
すなわち、まず、音声調整部105Aは、メモリ104Aから、基準話速度および基準音声レベルを読み出す。また、音声調整部105Aは、音声認識部103により文節毎に認識された話速度および音声レベルをメモリ104等から読み出す。そして、音声調整部105Aは、文節毎に、音声データの話速度および音声レベルを調整して、調整後の出力用話速度および出力用音声レベルを順次、メモリ4上の文節毎のデータ記憶領域に書き戻す。調整後の出力用話速度および出力用音声レベルがメモリ104Aに書き戻されると、メモリ104Aは当該文節に対応する処理済みフラグを処理済み状態に変更する。音声調整部105Aは、メモリ104Aに記憶されている全ての文節について、処理済みフラグを処理済み状態に設定できるまで、この動作を繰り返す。
【0067】
そして、音声出力部106Aが、音声調整部105Aにより設定された出力用話速度および出力用音声レベルと、予めメモリ104Aに設定された基準無音時間に基づいて、音声データを出力する(S5A)。このとき、音声出力部106Aは、まず、最初にメモリ104Aに登録されているシステムとして使用する文節と、基準無音時間の値を読み出す。次に、音声出力部106Aは、文節1の処理済みフラグを監視し、処理済みフラグが処理済み状態になるまで待つ。そして、処理済みフラグが処理済み状態になると、音声出力部106Aは、メモリ104Aから、音声データを読み出して出力する。
【0068】
次に、音声出力部106Aは、文節1の音声データの出力を完了した後、次の文節2の処理済みフラグの状態を確認する。
【0069】
文節2の処理済みフラグが未処理状態である場合、音声出力部106Aは、文節2の処理済みフラグが処理済み状態になるまで、待機する。文節2の処理済みフラグが処理済み状態になった場合、文節1の音声再生完了後の経過時間が、メモリ104Aから読み出した基準無音時間以上の時間を経過しているとき、そのまま文節2の音声データをメモリ104Aから読み出して出力する。
【0070】
文節1の音声データの出力が完了した後の経過時間が、メモリ104Aに記憶されている基準無音時間(システムで設定)以下の場合、音声出力部106Aは、基準無音時間が経過するまで待って、文節2の音声データを出力し始める。そして、音声出力部106Aは、全ての文節の音声データを出力し終えるまで、この動作を繰り返す。
【0071】
なお、本実施の形態では、音声調整部105Aは、話速度および音声レベルの双方をあわせて調整しながら、音声データをメモリ104Aに記憶すると説明した。一方、音声調整部105Aは、話速度のみを調整して、調整後の出力用話速度をメモリ104Aに記憶してもよい。
【0072】
以上の通り、本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部106Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。
【0073】
このように、音声出力装置100Aでは、第1の実施の形態における音声出力装置100と異なり、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。このため、音声出力部106Aが、予め設定された基準無音時間に基づいて、音声データを出力する際の文節間の無音時間を調整する。このような構成であっても、音声出力装置100Aによれば、第1の実施の形態における音声出力装置100と同様に、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
【0074】
本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部105Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。
【0075】
このように、音声調整部105Aは、話速度に加えて、音声レベルも調整している。これにより、音声レベルの点においても、適切な音声レベルで音声を聴取者へ提供することができる。したがって、本発明の第2の実施の形態における音声出力装置100Aによれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。
【0076】
以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、上述各実施の形態に対して、さまざまな変更、増減、組合せを加えてもよい。これらの変更、増減、組合せが加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。
【符号の説明】
【0077】
100、100A 音声出力装置
101 MIC
102 A/D変換部
103、103A 音声認識部
104 メモリ
105、105A 音声調整部
106、106A 音声出力部
107 システム値設定部
図1
図2
図3
図4
図5
図6