(58)【調査した分野】(Int.Cl.,DB名)
前記削除区間探索手段は、前記音声区間の終了時刻から遡って前記削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする請求項1または請求項2に記載の話速変換装置。
前記削除区間探索手段は、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに前記音声コンテンツの削除区間とすることを特徴とする請求項1または請求項2に記載の話速変換装置。
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記した特許文献1の手法では、概ね3倍速再生が人が聞き取れる限界とされており、それよりも高速に再生すると、内容を把握することができないという問題がある。
一方、人が目視で文章を読む場合、いわゆる斜め読みを行うことで、文章を3倍速で音声再生する場合よりも、さらに早く文章の内容を把握することができる。特に、視覚障害者からは、少なくとも斜め読みと同程度の速さで、音声コンテンツを高速に聞きたいという要望がある。
【0008】
また、前記した特許文献2の手法によって、高速再生時の聞き取り易さを改善することは可能である。しかし、再生速度は3倍速で十分であるという人であっても、長時間視聴は疲れてしまう。そこで、この手法に対して、さらなる聞き取り易さの改善が望まれていた。
また、前記した特許文献3の手法では、リングバッファを超過する音声信号を無条件に削除してしまう。そのため、この手法では、重要な意味内容を持つ音声が音声信号から削除されてしまうことがあり、内容を把握することが困難であるという問題がある。
【0009】
本発明は、以上のような問題、要望に鑑みてなされたものであり、文章を斜め読みするかのように、音声コンテンツをその内容を把握しつつ高速に再生するとともに、高速再生時においても聞き取り易くすることが可能な話速変換装置を提供することを課題とする。
【課題を解決するための手段】
【0010】
本発明は、前記課題を解決するために創案されたものであり、まず、本発明の話速変換装置は、音声コンテンツを部分的に削除し、指定された再生倍率で再生させる話速変換装置であって、音声コンテンツ記憶手段と、音響特徴量記憶手段と、区間情報記憶手段と、削除区間探索手段と、出力時間長調整手段と、を備える構成とした。
【0011】
かかる構成において、話速変換装置は、音声コンテンツ記憶手段に、話速変換する対象となる音声コンテンツを予め記憶する。また、話速変換装置は、音響特徴量記憶手段に、音声コンテンツの時刻ごとの音響特徴量を時刻に対応付けて予め記憶する。この音響特徴量は、音声の音響としての物理的特徴量であって
、ピッチ(物理的な声の高さ)
およびパワー(物理的な声の大きさ)
、またはピッチもしくはパワーである。
【0012】
また、話速変換装置は、区間情報記憶手段に、音声コンテンツの音声区間および非音声区間を音声コンテンツの時刻に対応付けて予め記憶する。この音声区間および非音声区間は、例えば、音声のパワーが予め定めた閾値より大きいか小さいかによって、区分することができる。ここで、音声区間は、話者が発話した区間をいい、非音声区間は、話者が発話していない区間をいう。また、この非音声区間には、話者が発話していない区間に加え、ノイズや無音等も含まれる。
【0013】
そして、話速変換装置は、削除区間探索手段によって、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する。すなわち、削除区間探索手段は、非音声区間の直前で、音声の大きさの変化が少ない場合等、音響特徴量の変化が少ない音声区間については、音声コンテンツから削除する区間として設定する。このように、音響特徴量の変化が少ない音声区間は、発話者が相手に伝える意思が弱いと判断し、本発明においては削除する。
【0014】
そして、話速変換装置は、出力時間長調整手段によって、削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する。このとき、削除区間が設定されていることから、出力すべき音声は、その削除された分だけ余分に再生時間が確保されることになる。これにより、元の音声コンテンツをそのまま話速変換する場合に比べ、出力すべき音声がゆっくり再生されることになる。
【0015】
また、本発明の話速変換装置は、音響特徴量抽出手段と、区間情報検出手段と、をさらに備えることを特徴とする。
【0016】
かかる構成において、話速変換装置は、音響特徴量抽出手段によって、音声コンテンツから音響特徴量を抽出し、時刻に対応付けて音響特徴量記憶手段に書き込む。この音響特徴量は、パワー、ピッチ等の物理的特徴量である。
また、話速変換装置は、区間情報検出手段によって、音声コンテンツにおいて、音声区間および非音声区間を検出し、時刻に対応付けて当該音声区間および当該非音声区間を区間情報記憶手段に書き込む。
【0017】
このように、音響特徴量抽出手段および区間情報検出手段は、音響特徴に基づいて音声コンテンツを予め分析し、時刻ごとの音響特徴量や、音声区間および非音声区間といった特徴を抽出し、削除区間を探索するための準備を行う。これによって、本発明の話速変換装置は、任意の音声コンテンツを入力として、話速変換を行うことができる。
【0018】
また、本発明の話速変換装置は、音響特徴量が、声の高さを示すピッチおよび声の大きさを示すパワーで
あるときは、削除区間探索手段が、ピッチ参照探索手段と、パワー参照探索手段と、削除区間決定手段と、を備える
。
【0019】
かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。また、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。すなわち、話速変換装置は、同じ音声区間において、ピッチとパワーとで、終了時刻からの時間長が異なる削除区間をそれぞれ探索する。
【0020】
そして、話速変換装置は、削除区間決定手段によって、ピッチ参照探索手段で探索された削除区間とパワー参照探索手段で探索された削除区間とから、予め定めたピッチおよびパワーの重みの比率に応じて、音声区間における削除区間を決定する。すなわち、ピッチの重みが大きければ、ピッチ参照探索手段で探索された削除区間に近い区間が設定され、パワーの重みが大きければ、パワー参照探索手段で探索された削除区間に近い区間が設定されることになる。
【0021】
これによって、本発明の話速変換装置は、ピッチとパワーとの重みに応じて、削除区間を定めることができる。また、本発明の話速変換装置は、各国の言語の特性に応じて、予め重みを変更することで、言語に適した話速変換を行うことができる。例えば、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。
【0022】
また
、音響特徴量が声の高さを示すピッチで
あるときは、削除区間探索手段
は、ピッチ参照探索手段を備える
。
【0023】
かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。
【0024】
また
、音響特徴量が声の大きさを示すパワーで
あるときは、削除区間探索手段
は、パワー参照探索手段を備える
。
【0025】
かかる構成において、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。
【0026】
また、本発明の話速変換装置は、削除区間探索手段が音声区間の終了時刻から遡って削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする。
【0027】
かかる構成において、話速変換装置は、削除区間探索手段によって、音声区間において、削除区間を探索する際に、その時間長を制限することで、当該音声区間の音声をすべて削除区間とすることなく、少なくとも先頭から予め定めた時間長が削除されない区間となる。これによって、本発明の話速変換装置は、音響特徴量の変化によらず、少なくとも一連の発話間隔(呼気段落)の先頭から所定の時間長が確保される。そのため、本発明の話速変換装置は、音声を部分的に削除しても、利用者が意味内容を把握することが容易になる。
【0028】
また、本発明の話速変換装置は、削除区間探索手段が、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに音声コンテンツの削除区間とすることを特徴とする。
【0029】
かかる構成において、話速変換装置は、削除区間探索手段によって、非音声区間の一部を削除区間とすることで、当該削除区間を音声の再生時間に割り当てる。
これによって、本発明の話速変換装置は、音声区間と非音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そして、本発明の話速変換装置は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。
【0030】
また、本発明
は、コンピュータを、
上記記載のいずれかの話速変換装置として機能させるためのプログラムである。
【発明の効果】
【0031】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音声コンテンツの音声区間の一部を削除することで、音声コンテンツを高速に再生することができる。これによって、利用者は、文章を斜め読みするかのように、音声コンテンツを部分的に高速に聞くことができる。また、本発明によれば、音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そのため、本発明は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。
【発明を実施するための形態】
【0033】
以下、本発明の実施形態について図面を参照して説明する。
[話速変換装置の構成]
まず、
図1を参照して、本発明の実施形態に係る話速変換装置1の構成について説明する。この話速変換装置1は、音声コンテンツ(音声信号)を1倍速再生よりも高速に再生する際に、無音等の非音声区間のみならず、音声区間を部分的に削除して、話速変換を行うものである。すなわち、話速変換装置1は、人が活字で表された文章を目視で斜め読みするかのように、音声コンテンツを部分再生するものである。
なお、話速変換装置1は、一連の発話のかたまりである、吸気で区切られた呼気段落の終了部分において、音響特徴量の変化が少なくなった箇所を削除することで、発話の意味内容の欠落を極力防止する。
ここでは、話速変換装置1は、音響分析手段10と、記憶手段20と、削除区間探索手段30と、出力時間長調整手段40と、を備えている。
【0034】
音響分析手段10は、入力された音声コンテンツを音響分析し、時間ごとの音響特徴量(音響特徴情報)や、音声区間、非音声区間(無音区間を含む)の区間情報を抽出するものである。この音響分析手段10は、分析によって抽出した音響特徴情報、区間情報を記憶手段20に書き込み、分析が完了した旨を削除区間探索手段30に通知する。
ここでは、音響分析手段10は、パワー抽出手段11と、ピッチ抽出手段12と、音声区間検出手段13と、を備えている。
【0035】
パワー抽出手段(音響特徴量抽出手段)11は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出するものである。このパワー抽出手段11におけるパワー抽出の手法は、一般的な手法を用いればよい。例えば、パワー抽出手段11は、音声コンテンツを、所定の時間間隔ごとに、所定のフレーム幅で周波数変換(FFT)し、振幅値を2乗することで、パワー(パワースペクトル)を算出する。
【0036】
なお、パワー抽出手段11は、パワーの時間経過に伴う信号レベルをスムージング(平滑化)しておく。例えば、パワー抽出手段11は、パワーの逐次変化を、カットオフ周波数6〜10Hz程度でスムージングする。これによって、パワー抽出手段11は、音声コンテンツから、パワーの変化を滑らかにして、ノイズの影響を抑えた、時間経過に伴うパワーの変化を抽出することができる。
【0037】
このパワー抽出手段11は、抽出した時間経過に伴うパワーの値(dB)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、パワー抽出手段11は、パワーのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。
【0038】
ピッチ抽出手段(音響特徴量抽出手段)12は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるピッチ(音の高さ)を抽出するものである。このピッチ抽出手段12におけるピッチ抽出の手法は、一般的な手法を用いればよい。例えば、ピッチ抽出手段12は、パワー抽出手段11で抽出されたパワースペクトルの自己相関関数を求め、その自己相関関数の係数の極大値の周期間隔として、ピッチ(基本周波数)を抽出する。
【0039】
なお、ピッチ抽出手段12は、パワー抽出手段11と同様に、ピッチの時間経過に伴う信号レベルをスムージング(平滑化)しておく。例えば、ピッチ抽出手段12は、ピッチの逐次変化を、カットオフ周波数10Hz程度でスムージングする。これによって、ピッチ抽出手段12は、音声コンテンツから、一般的な会話音声において知覚されない音響成分を除外して、時間経過に伴うピッチの変化を抽出することができる。
【0040】
このピッチ抽出手段12は、抽出した時間経過に伴うピッチの値(Hz)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、ピッチ抽出手段12は、ピッチのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。
【0041】
音声区間検出手段(区間情報検出手段)13は、外部から入力された音声コンテンツ(音声信号)から、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出するものである。
【0042】
この音声区間検出手段13における音声/非音声区間の検出手法は、一般的な手法を用いればよい。
例えば、音声区間検出手段13は、パワー抽出手段11で抽出されたパワーが、予め定めた閾値よりも大きい場合に当該時間区間を音声区間と判別し、それ以外を非音声区間とする。なお、この閾値は、音声信号のレベルに応じて適応的に変化させてもよく、特開平10−301593号公報に記載された手法を用いることとしてもよい。
【0043】
すなわち、音声区間検出手段13は、入力された音声コンテンツに対して、過去の所定の時間内のパワーの最大値および最小値を図示を省略したメモリ等に保持し、その保持されている最大値より予め定めた値だけ小さいパワーに関する閾値を決定する。そして、音声区間検出手段13は、パワーの最大値と最小値との差が予め定めた基準値より小さくなった場合には、その差に応じて閾値を大きくする。これによって、音声レベルの変化に逐次適応させながら、音声区間と非音声区間とを判別することができる。
【0044】
この音声区間検出手段13は、検出した音声区間および非音声区間(無音区間を含む)のそれぞれの開始時刻および終了時刻を、区間情報として、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。なお、区間情報は、開始時刻および終了時刻以外に、当該区間が、音声区間であるか非音声区間であるかを示す種類情報や、音声コンテンツの最初から何番目の区間であるかを示す識別情報(例えば、シリアル番号等)を含んでいる。
【0045】
また、ここでは、音響分析手段10は、入力された音声コンテンツから、逐次、音響分析を行うこととした。しかし、音響分析手段10は、音声コンテンツが予め記憶手段20に書き込まれた後、記憶手段20に記憶されている音声コンテンツに対して、音響分析を行うこととしてもよい。
【0046】
記憶手段(音声コンテンツ記憶手段、音響特徴量記憶手段、区間情報記憶手段)20は、外部から入力された音声コンテンツや、音響分析手段10によって分析された音響特徴情報(パワー、ピッチ)、区間情報(音声区間、非音声区間)を記憶するものである。この記憶手段20は、ハードディスク等の一般的な記憶装置を用いることができる。
この記憶手段20に記憶される音響特徴情報および区間情報は、削除区間探索手段30によって参照され、音声コンテンツの削除区間を探索する際に用いられる。
【0047】
また、記憶手段20には、削除区間探索手段30によって探索された音声コンテンツの削除区間(削除区間情報)が書き込まれるものとする。
この記憶手段20に記憶される音声コンテンツ、区間情報および削除区間情報は、出力時間長調整手段40によって参照され、部分的に削除した音声コンテンツの出力時間長を調整する際に用いられる。
【0048】
削除区間探索手段30は、外部から入力される削除条件に基づいて、音声コンテンツの音声区間および非音声区間において、削除する区間を探索するものである。
この削除区間探索手段30は、削除条件により、非音声区間において、予め定めた時間長以上の区間を削除区間とする。また、削除区間探索手段30は、削除条件により、音声区間において、音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間とする。この削除条件については、後で詳細に説明する。
この削除区間探索手段30は、削除すべき区間を示す削除区間情報を記憶手段20に書き込み、削除区間を探索し終わった旨を出力時間長調整手段40に通知する。
ここでは、削除区間探索手段30は、非音声区間探索手段31と、非音声区間部分削除手段32と、音声削除区間探索手段33と、音声区間部分削除手段34と、を備えている。
【0049】
非音声区間探索手段31は、記憶手段20に記憶されている区間情報に基づいて、予め定めた時間長以上の非音声区間(対象非音声区間)を探索するものである。
この非音声区間探索手段31は、区間情報として記憶されている開始時刻と終了時刻との差が、削除条件として予め定められた時間長よりも長い非音声区間を探索する。この予め定めた時間長は、呼気段落内の短い非音声区間を削除対象とすることを除外するための時間長であって、例えば、300msとする。
この非音声区間探索手段31は、探索した対象非音声区間の識別情報(シリアル番号)を、非音声区間部分削除手段32と、音声削除区間探索手段33とに出力する。
【0050】
非音声区間部分削除手段32は、非音声区間探索手段31で探索された対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して、区間を部分的に削除するものである。例えば、この最低限残す非音声区間の時間長は、100msとする。
【0051】
すなわち、非音声区間部分削除手段32は、記憶手段20に記憶されている区間情報の対象非音声区間において、開始時刻から、最低限残す時間長を加算した時刻を終了時刻とし、識別情報(シリアル番号)に対応した新たな区間情報(削除区間情報)として記憶手段20に書き込む。なお、対象非音声区間において、削除する部分区間は、必ずしも対象非音声区間の終端側である必要はなく、始端側であっても構わない。
【0052】
音声削除区間探索手段33は、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間(対象音声区間)において、予め定めた条件に基づいて、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間を探索するものである。
このように、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間を探索対象とすることで、呼気段落の途中で音声が削除されてしまうことを防止することができる。
ここでは、音声削除区間探索手段33は、パワー参照探索手段331と、ピッチ参照探索手段332と、削除区間決定手段333と、を備えている。
【0053】
パワー参照探索手段331は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるパワーの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。
【0054】
すなわち、パワー参照探索手段331は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているパワー値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているパワー値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、パワー参照探索手段331は、その求めた区間の開始時刻を、パワー値により求めた削除区間の開始時刻(パワー参照削除開始時刻)とする。
【0055】
ここで、パワー参照探索手段331が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、パワー参照探索手段331は、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、パワー参照探索手段331は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このパワー参照探索手段331は、音声区間における削除区間の開始時刻(パワー参照削除開始時刻)を削除区間決定手段333に出力する。
なお、パワー参照探索手段331が探索する削除区間の例については、後でさらに具体的に説明する。
【0056】
ピッチ参照探索手段332は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるピッチの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。
【0057】
すなわち、ピッチ参照探索手段332は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているピッチ値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているピッチ値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、ピッチ参照探索手段332は、その求めた区間の開始時刻を、ピッチ値により求めた削除区間の開始時刻(ピッチ参照削除開始時刻)とする。
【0058】
ここで、ピッチ参照探索手段332が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、ピッチ参照探索手段332は、パワー参照探索手段331と同様に、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、ピッチ参照探索手段332は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このピッチ参照探索手段332は、音声区間における削除区間の開始時刻(ピッチ参照削除開始時刻)を削除区間決定手段333に出力する。
なお、ピッチ参照探索手段332が探索する削除区間の例については、後でさらに具体的に説明する。
【0059】
削除区間決定手段333は、パワー参照探索手段331で探索されたパワー参照削除開始時刻と、ピッチ参照探索手段332で探索されたピッチ参照削除開始時刻とに基づいて、対応する音声区間における削除区間(開始時刻)を決定するものである。なお、削除区間の終了時刻は、当該音声区間の終了時刻と同じである。
【0060】
ここでは、削除区間決定手段333は、パワーとピッチとでいずれに重みをおくかを予め設定し、その重み(比率)に応じて削除区間を決定する。例えば、パワーの重みをm、ピッチの重みをnとし、パワー参照削除開始時刻がt
pw、ピッチ参照削除開始時刻がt
piであった場合、削除区間決定手段333は、以下の(1)式によって、削除区間の開始時刻t
dを算出する。
【0062】
この削除区間決定手段333は、決定した削除区間(開始時刻)を音声区間部分削除手段34に出力する。
なお、ここでは、削除区間決定手段333は、パワーとピッチとの重み(比率)に応じて、削除区間を決定したが、パワー参照削除開始時刻またはピッチ参照削除開始時刻の早い方の時間区間を当該音声区間における削除区間としてもよいし、パワー参照削除開始時刻またはピッチ参照削除開始時刻の遅い方の時間区間を当該音声区間における削除区間としてもよい。
【0063】
この削除区間決定手段333において、パワーとピッチとにより、どのように削除区間を決定するかは、例えば、音声コンテンツの言語の種類によって予め定めておくこととしてもよい。例えば、各国の言語の特性に応じて、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。あるいは、ピッチの変化が少ない言語であれば、パワーの重みを大きくすることで、パワーを優先させた削除区間を設定することができる。
【0064】
音声区間部分削除手段34は、対象非音声区間の直前の音声区間から、音声削除区間探索手段33で探索された削除区間を部分的に削除するものである。
すなわち、音声区間部分削除手段34は、記憶手段20に記憶されている区間情報の対応する音声区間の終了時刻を、音声削除区間探索手段33で探索された削除区間の開始時刻の直前の時刻に設定し、新たな区間情報(削除区間情報)として記憶手段20に書き込む。
【0065】
ここで、
図2,
図3を参照(適宜
図1参照)して、削除区間探索手段30が音声コンテンツ内で削除する区間を探索する手法の具体例について説明する。
【0066】
〔非音声区間の削除区間〕
まず、
図2を参照して、非音声区間において削除する区間について説明する。
図2に示すように、削除区間探索手段30は、区間長が予め定めた時間長以上の非音声区間(無音区間を含む)を対象非音声区間Seg1とし、予め定めた最低限残す時間長leaveS1だけを残して、残りの区間を削除区間とする。例えば、対象非音声区間Seg1の時間長は300ms以上とし、最低限残す時間長leaveS1は100msとする。
【0067】
すなわち、非音声区間探索手段31が、音声コンテンツから、区間長が300ms以上の非音声区間を対象非音声区間Seg1として探索する。そして、非音声区間部分削除手段32が、対象非音声区間Seg1の開始時刻t
1sに最低限残す時間長leaveS1を加算した時刻(t
1s+leaveS1)から、対象非音声区間Seg1の終了時刻t
1eまでの区間を削除区間とする。
これによって、対象非音声区間Seg1の開始時刻t
1sから、leaveS1の時間長分の非音声区間が削除されずに残されることになる。
【0068】
〔音声区間の削除区間〕
次に、
図3を参照して、音声区間において削除する区間について説明する。なお、部分的に削除する対象となる音声区間は、
図2で説明した対象非音声区間Seg1の直前の音声区間(対象音声区間Seg2)である。この対象音声区間Seg2は、予め定めた最低限残す時間長leaveS2よりも長い区間とする。
【0069】
図3に示すように、削除区間探索手段30は、対象非音声区間Seg1の直前であって、最低限残す時間長leaveS2よりも長い音声区間である対象音声区間Seg2において、対象非音声区間Seg1の開始時刻t
1sにおける音響特徴を基準に、終了時刻t
2eから、当該音響特徴との変化量が予め定めた基準よりも多くなる探索最終時刻t
stopまで遡り、音響特徴の変化量が予め定めた基準より少ない区間を削除区間とする。このとき、探索最終時刻t
stopと終了時刻t
2eとの時間長は、最大でも予め定めた最大削除時間長cutMaxを超過しないこととし、削除区間探索手段30は、対象音声区間Seg2の冒頭から最低限残す時間長leaveS2の時間区間までは探索を行わないこととする。例えば、最大削除時間長cutMaxは250ms、最低限残す時間長leaveS2は50msとする。
【0070】
すなわち、音声削除区間探索手段33のパワー参照探索手段331およびピッチ参照探索手段332は、対象音声区間Seg2の終了時刻t
2eから遡って削除区間を探索する時刻が、対象音声区間Seg2の開始時刻t
2sから予め定めた時刻(t
2s+leaveS2)を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長(最大削除時間長cutMax)を超えない範囲で、対象非音声区間Seg1の先頭の基準となる音響特徴に対して、変化が少ない区間を削除区間とする。
【0071】
以下、対象音声区間Seg2において、探索を継続する条件、すなわち、音響特徴の変化が予め定めた基準より少ない条件(削除条件)について、例を挙げて説明する。
【0072】
(パワーを参照する場合)
まず、パワー参照探索手段331が、対象音声区間Seg2において、パワーを参照して、削除区間を探索する条件について説明する。なお、以下の条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。
【0073】
<例1>
例1として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t
1sにおけるパワー値(時刻t
1sにおけるスムージング波形の瞬時値)をPW
BASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPW
NOWとしたとき、以下の(2)式の条件を満たす間、探索を続ける。
【0075】
ここで、th1は、予め定めた閾値であって、例えば、10(dB)とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻t
stopとする。
この例1によれば、音声区間の終端部分のパワーと、非音声区間の先頭のパワーとを比較して、その差が小さいことを条件に、削除する区間を特定する。
【0076】
<例2>
例2として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t
1sにおけるパワー値(時刻t
1sにおけるスムージング波形の瞬時値)をPW
BASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPW
NOW、対象音声区間Seg2におけるパワー値の最大値をPW
MAX、最小値をPW
MINとしたとき、以下の(3)式の条件を満たす間、探索を続ける。
【0078】
ここで、th2は、閾値を調整する予め定めた係数であって、例えば、0.1とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻t
stopとする。
この例2によれば、音声区間の終端部分のパワーが、非音声区間の先頭のパワーと比較して、その差が小さいことを条件とする点においては、例1と同じである。しかし、その差が発話者によって異なることに鑑み、音声区間内のパワーに応じて閾値を変化させることとした。これによって、音声コンテンツにおいて発話者が変化する場合であっても、適宜最適な削除区間を特定することができる。
【0079】
(ピッチを参照する場合)
次に、ピッチ参照探索手段332が、対象音声区間Seg2において、ピッチを参照して、削除区間を探索する条件について説明する。
ピッチ参照探索手段332は、対象非音声区間Seg1の開始時刻t
1sにおけるピッチ値(時刻t
1sにおけるピッチ波形のスムージング周波数)をPT
BASE、探索時点におけるピッチ値(探索時刻におけるピッチ波形のスムージング周波数)をPT
NOWとしたとき、以下の(4)式の条件を満たす間、探索を続ける。
【0081】
ここで、th3は、予め定めた閾値であって、例えば、2とする。
ピッチ参照探索手段332は、この条件を満たさなくなった探索時刻を、探索最終時刻t
stopとする。
この例によれば、音声区間の終端部分のピッチが、非音声区間の先頭のピッチの所定倍数よりも小さいことを条件に、削除する区間を特定する。
なお、この条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。
図1に戻って、話速変換装置1の構成について説明を続ける。
【0082】
出力時間長調整手段40は、削除区間探索手段30によって探索された、音声区間および非音声区間の削除する区間(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整するものである。ここでは、出力時間長調整手段40は、伸縮率算出手段41と、出力時間長変更手段42と、を備えている。
【0083】
伸縮率算出手段41は、削除区間探索手段30によって探索された削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出するものである。なお、非音声区間については、伸縮率を“1”として、伸縮を行わないこととする。
【0084】
具体的には、伸縮率算出手段41は、削除前の音声コンテンツにおける音声区間の総時間長をP
O、非音声区間の総時間長をQ
O、指定された再生速度(再生倍率)をR
O、削除区間削除後の音声コンテンツにおける音声区間の総時間長をP
D、非音声区間の総時間長をQ
D、としたとき、以下の(5)式によって、音声区間の伸縮率R
Dを算出する。
【0086】
この伸縮率算出手段41は、算出した音声区間の伸縮率を、出力時間長変更手段42に出力する。
なお、音声コンテンツを高速再生する場合、基本的には、伸縮率算出手段41は、音声区間を短くする方向に伸縮率を算出することになる。しかし、再生倍率が小さく、また、音声区間内の削除区間が長い場合、伸縮率算出手段41は、残った音声区間を伸ばす方向に伸縮率を算出する場合もあり得る。
【0087】
出力時間長変更手段42は、伸縮率算出手段41で算出された伸縮率に基づいて、削除区間探索手段30で探索された削除区間を削除した音声コンテンツの出力時間長を変更するものである。すなわち、出力時間長変更手段42は、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、出力時間長を調整する。
【0088】
ここで、出力時間長変更手段42は、音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。
また、出力時間長変更手段42は、削除区間が定められていない音声区間については、そのまま音声区間分の音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。
【0089】
ここで、伸縮率に応じて音声データを伸縮させるには、ピッチの周期に応じて音声波形の間引き/繰り返しを行い、音声波形どうしを伸縮率に応じた時間長で重ね合わせて接続すればよい。このような音声データの伸縮には、一般的な話速変換手法を用いればよく、例えば、特許第3327936号、特許第2955247等の技術を用いることができる。
【0090】
また、出力時間長変更手段42は、非音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。
また、出力時間長変更手段42は、削除区間が定められていない非音声区間については、非音声区間分の音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。
【0091】
このように、話速変換装置1は、非音声区間のみならず、音声区間においても削除区間を設けて出力時間長を調整することで、従来の話速変換と同じ再生速度であっても、部分的に再生する音声に対する時間長を、従来よりも長く割り当てることができ、再生時において、音声を聞き取り易くすることができる。
【0092】
ここで、
図4を参照(適宜
図1参照)して、話速変換装置1における音声コンテンツの話速変換処理を模式的に説明する。
図4(a)は、話速変換前の音声コンテンツのデータを示し、音声区間と非音声区間とが含まれた状態を示している。なお、非音声区間は、所定時間長以上の削除の対象となる対象非音声区間とする。また、音声区間には、非音声区間の前に音響特徴量の変化が少ない区間Bが含まれていることとする。
すなわち、話速変換装置1は、音響分析手段10によって、音声コンテンツを音響分析することで、音声区間や非音声区間(無音区間を含む)の区間情報や、区間A,Bを特定ためのパワーやピッチ等の音響特徴情報を生成する。
【0093】
図4(b)は、
図4(a)の音声コンテンツにおいて、削除区間を設定した状態を示している。すなわち、話速変換装置1は、
図4(b)に示すように、削除区間探索手段30によって、
図4(a)で示した音響特徴量の変化が少ない区間Bを削除区間D1として特定するとともに、非音声区間についても所定時間長以上の区間を削除区間D2として特定する。そして、話速変換装置1は、音声区間において、区間Aのみを再生対象とする。
【0094】
図4(c)は、話速変換装置1が、
図4(a)の音声コンテンツを話速変換した後のデータを示している。ここでは、一例として再生速度を3倍としている。
すなわち、話速変換装置1は、出力時間長調整手段40によって、音声コンテンツから削除区間D1,D2を削除して、総時間長が、
図4(a)の音声コンテンツに対して3倍速となるように、音声区間の出力時間長を調整する。ここでは、
図4(a)の音声コンテンツの音声区間のうちで区間Aのみが、(c)の区間A1に変換されたことを示している。
【0095】
図4(d)は、従来の話速変換によって、
図4(a)の音声コンテンツを話速変換した後のデータを示している。なお、従来手法においても、非音声区間から部分的にデータ(D2)を削除しているものとする。この従来手法では、
図4(a)の音声コンテンツの音声区間の区間Aと区間Bとが、(d)の区間A2と区間B2とにそれぞれ変換されたことを示している。すなわち、この従来手法では、話速変換装置1が音声区間から削除する音響特徴量の変化が少ない区間Bに対しても話速変換を行っている。
【0096】
この
図4(c)と
図4(d)を比較しても分かるように、同じ再生速度であっても、
図4(a)に示した音声区間のうち、部分的に再生したい区間Aの音声データの時間長が、(c)では区間A1、(d)では区間A2の時間長となり、
図4(c)の方が長い時間長を確保することができる。このように、話速変換装置1によって話速変換された音声は、従来手法によって話速変換された音声よりもゆっくり再生されることになり、聞き取り易くなる。
以上、話速変換装置1の構成について説明したが、この話速変換装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(話速変換プログラム)により動作させることができる。また、このプログラムは、コンピュータで読み取り可能なCD−ROM等の記録媒体に記録して配布することもできる。
【0097】
以上説明したように、話速変換装置1は、音響特徴の変化が少ない音声を削除して、高速再生が可能な音声コンテンツを生成することができる。これによって、話速変換装置1は、従来では3倍速が限界であった再生速度をさらに早めることができ、人が目視で文章を斜め読みするのと同様に、音声コンテンツを聞くことができる。
また、話速変換装置1は、従来と同じ再生速度で再生する場合であっても、再生音声に割り当てる時間が相対的に長いため、従来よりも聞き取り易い音声コンテンツに変換することができる。
【0098】
[話速変換装置の動作]
次に、
図5を参照(構成については適宜
図1参照)して、話速変換装置1の動作について説明する。
まず、話速変換装置1は、音響分析手段10によって、入力された音声コンテンツについて、音響分析を行う(ステップS1)。すなわち、話速変換装置1は、音響分析手段10のパワー抽出手段11によって、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出し、ピッチ抽出手段12によって、ピッチ(音の高さ)を抽出する。さらに、話速変換装置1は、音響分析手段10の音声区間検出手段13によって、音声コンテンツから、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出する。これらの音響特徴量や区間情報は、記憶手段20に記憶される。また、入力された音声コンテンツも記憶手段20に記憶される。
【0099】
そして、話速変換装置1は、削除区間探索手段30の非音声区間探索手段31によって、記憶手段20に記憶されている区間情報を参照して、予め定めた時間長以上の非音声区間(対象非音声区間)を探索する(ステップS2)。そして、話速変換装置1は、削除区間探索手段30の非音声区間部分削除手段32によって、対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して区間を部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS3)。
【0100】
そして、話速変換装置1は、ステップS2で探索された対象非音声区間の直前の音声区間において、音声削除区間探索手段33によって、記憶手段20に記憶されている音響特徴情報を参照して、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間(削除区間)を探索する(ステップS4)。
【0101】
すなわち、話速変換装置1は、音声削除区間探索手段33のパワー参照探索手段331によって、対象非音声区間の直前の音声区間(対象音声区間)において、パワーの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。また、話速変換装置1は、音声削除区間探索手段33のピッチ参照探索手段332によって、同じ音声区間において、ピッチの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。そして、話速変換装置1は、音声削除区間探索手段33の削除区間決定手段333によって、パワーおよびピッチに基づいてそれぞれで独立して探索した削除区間から、予め定めたパワーとピッチとの重みに基づいて削除区間を決定する。
【0102】
そして、話速変換装置1は、音声区間部分削除手段34によって、ステップS4で探索された削除区間を音声区間から部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS5)。
そして、話速変換装置1は、区間情報において、対象非音声区間をすべて探索していない場合(ステップS6でNo)、ステップS2に戻って、次の対象非音声区間を探索する。
【0103】
一方、対象非音声区間をすべて探索し終わった場合(ステップS6でYes)、話速変換装置1は、出力時間長調整手段40によって、記憶手段20に記憶されている新たな区間情報(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整する。
【0104】
すなわち、話速変換装置1は、出力時間長調整手段40の伸縮率算出手段41によって、削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出する(ステップS7)。そして、話速変換装置1は、出力時間長調整手段40の出力時間長変更手段42によって、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、伸縮率に基づいて出力時間長を調整する(ステップS8)。
以上の動作によって、話速変換装置1は、音声区間においても音声データを削除することで、高速に再生可能な音声コンテンツを出力することができる。
【0105】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、話速変換装置1が音響分析手段10を備える構成としたが、予め外部の分析装置において、音声コンテンツに対応したデータ(音響特徴情報、区間情報)が分析されているのであれば、そのデータのみを入力し、記憶手段20に記憶する形態でも構わない。
【0106】
また、本発明は、音声区間を部分的に削除することに特徴があり、非音声区間部分削除手段32は必須の構成ではない。ただし、非音声区間部分削除手段32を備えることで、削除した非音声区間に、音声の再生時間を割り当てることができるため、当該手段を備えることはより好ましい形態であるといえる。
【0107】
また、ここでは、話速変換装置1において、音響分析手段10のパワー抽出手段11やピッチ抽出手段12が、それぞれの音響特徴をスムージングして、記憶手段20に書き込むこととした。しかし、パワー抽出手段11やピッチ抽出手段12は、抽出した時刻における音響特徴をそのまま書き込むこととしてもよい。
その場合、音声削除区間探索手段33は、記憶手段20に記憶されている音響特徴を順次スムージングし、時刻ごとの瞬時値を用いて削除区間を探索することとすればよい。
【0108】
また、ここでは、話速変換装置1が、音響特徴としてパワーおよびピッチの両方を用いることとしたが、いずれか一方であっても構わない。
例えば、
図6の話速変換装置1Bの構成として示すように、話速変換装置1(
図1)の構成から、パワー抽出手段11、パワー参照探索手段331および削除区間決定手段333を省略して構成することで、音響特徴としてピッチのみを用いて話速変換を行うこととしてもよい。
【0109】
また、例えば、
図7の話速変換装置1Cの構成として示すように、話速変換装置1(
図1)の構成から、ピッチ抽出手段12、ピッチ参照探索手段332および削除区間決定手段333を省略して構成することで、音響特徴としてパワーのみを用いて話速変換を行うこととしてもよい。