(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-28
(45)【発行日】2022-08-05
(54)【発明の名称】発話末タイミング予測装置およびプログラム
(51)【国際特許分類】
G10L 15/04 20130101AFI20220729BHJP
【FI】
G10L15/04 300B
G10L15/04 300A
(21)【出願番号】P 2018197605
(22)【出願日】2018-10-19
【審査請求日】2021-09-16
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】一木 麻乃
(72)【発明者】
【氏名】都木 徹
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
【審査官】大石 剛
(56)【参考文献】
【文献】特開平08-179792(JP,A)
【文献】特開2000-250568(JP,A)
【文献】特開2000-330581(JP,A)
【文献】藤江 真也 他,音声対話システムのためのユーザ発話終了タイミングの逐次予測,日本音響学会 2018年 春季研究発表会,2018年03月15日,p. 167-168
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/04
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置。
【請求項2】
前記特徴量は、前記音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含む、
請求項1に記載の発話末タイミング予測装置。
【請求項3】
前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第1閾値より小さい状態から前記第1閾値より大きい状態に移ったときに発話末が到来すると予測する、
請求項2に記載の発話末タイミング予測装置。
【請求項4】
前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、
前記判定部は、前記発話末評価値が所定の第3閾値より小さい状態から、所定の第2閾値(ただし、第2閾値は前記第3閾値よりも大きい)より大きい状態に移ったときに発話末が到来すると予測する、
請求項2に記載の発話末タイミング予測装置。
【請求項5】
コンピューターを、
外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、
前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、
算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、
を具備する発話末タイミング予測装置、として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話末タイミング予測装置およびプログラムに関する。
【背景技術】
【0002】
入力される音声を基に、人の発話の有無を判定したり、人の発話の終了を検出したりする技術が研究されている。音声認識の分野では発話区間推定の技術が研究されている。また、音声対話の分野では、話者交代について研究されている。
【0003】
発話区間推定の技術では、入力される音声における音声らしさの特徴量を算出し、区間ごとの音声らしさを判定する方法を用いている。発話区間推定の研究は広く行われている。
【0004】
特許文献1には、入力された音声に基づいて、入力された音声に対応した応答を行う応答タイミングを予測する技術が記載されている(例えば、請求項1に記載されている「予測手段」)。同文献に記載された技術では、予測手段は、単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも1つを取得し、これと、算出された話速とに基づいて、応答タイミングになるまでの応答タイミング到達時間を算出する。
つまり、特許文献1に記載された技術では、応答タイミングを予測するために、少なくとも音声認識処理を行い、また、音声認識処理の結果である音素列(文字列)に対して必要に応じて形態素解析を行っている。
【0005】
非特許文献1には、日本語話し言葉コーパスを分析した結果として、韻律の情報、即ち基本周波数F0の変化の情報と、自発発話の継続・終了との関係が記載されている。また、同文献の第4節には、「F0値から発話長の予測は困難であることがわかった。」と記載されている。
【0006】
非特許文献2では、「相手の発話の終わりを人間がどうやって知ることができるのかを音声の特徴を基に調べ,人間が自然に行っている会話の仕組みを明らかにする」ための研究について記載されている。また、同文献では、アクセント句と声の特徴との関係として、「最終アクセント句付近で声が低く,速度が遅く,大きさが急激に小さくなる」ことが記載されている。また、同文献では、聞き手(人)は、「話し手の声の高さが落ち着く先を予測することで,発話の終わりがいつ来るのかを判断している」可能性を示唆している。
【先行技術文献】
【特許文献】
【0007】
【非特許文献】
【0008】
【文献】石本祐一,小磯花絵,“日本語話し言葉コーパスに基づく自発発話の継続・終了に関わる韻律情報の分析”,日本音響学会講演論文集,2016年3月,1-R-43,p.345-346
【文献】石本祐一,“発話末の到来を告げる韻律情報”,[online],国立情報学研究所,[平成30年(西暦2018年)9月7日検索],インターネット<URL:https://www.nii.ac.jp/userimg/openhouse/2012/214.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上で説明した従来技術では、いずれも、簡単な計算処理でリアルタイムに発話末を予測することができないという問題がある。
【0010】
例えば、発話区間推定の技術では、音声における音声らしさの特徴量を算出し、区間ごとの音声らしさを判定する。つまり、発話末を検出するためには、上記の特徴量に基づき、音声らしくない区間を特定する必要がある。即ち、発話末の後の区間の特徴量を分析する必要がある。したがって、発話区間推定の技術を用いても、発話末が到来する前に発話末のタイミングを予測することはできない。
【0011】
また、特許文献1に記載された技術では、応答タイミングを予測するためには、少なくとも音声認識処理を行う必要があり、複雑な計算(計算量の多い計算)を実行する必要がある。また、さらに、形態素解析処理を必要とする場合もある。つまり、特許文献1の技術を用いて応答タイミングを予測するためには、多くの計算資源を要する。また、その理由により、応答タイミングを予測するためのリアルタイム性が損なわれるという問題もある。
【0012】
また、非特許文献1によれば、基本周波数F0の変化の情報を基に発話長の予測をすることは困難であるとされている。
【0013】
また、非特許文献2によれば、人の脳の処理として、声の高さや、発話速度や、声の大きさ等といった要素の変化に基づいて発話の終わりを予測していることが示唆されているものの、機械(コンピューター等)の処理・動作として、発話の終わりを予測するための具体的な手法等は一切記載されていない。
【0014】
一方で、例えば、コンテンツ(音声を含むコンテンツ)の制作や、人の音声に反応する自動応答システム等において、簡単な計算処理で発話末を予測することができれば、そのメリットは大きく、そういった技術の確立が望まれる。
【0015】
本発明は、上記のような事情を考慮して為されたものであり、入力される音声を基にした簡単な計算処理で、未到来の発話末のタイミングを予測することのできる発話末タイミング予測装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0016】
[1]上記の課題を解決するため、本発明の一態様による発話末タイミング予測装置は、外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、を具備する。
【0017】
[2]また、本発明の一態様は、上記の発話末タイミング予測装置において、前記特徴量は、前記音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含む、ものである。
【0018】
[3]また、本発明の一態様は、上記の発話末タイミング予測装置において、 前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、前記判定部は、前記発話末評価値が所定の第1閾値より小さい状態から前記第1閾値より大きい状態に移ったときに発話末が到来すると予測する、ものである。
【0019】
[4]また、本発明の一態様は、上記の発話末タイミング予測装置において、前記発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値であり、前記判定部は、前記発話末評価値が所定の第3閾値より小さい状態から、所定の第2閾値(ただし、第2閾値は前記第3閾値よりも大きい)より大きい状態に移ったときに発話末が到来すると予測する、ものである。
【0020】
[5]また、本発明の一態様は、コンピューターを、外部から取得した音声の特徴を表す特徴量を算出する要素算出部と、前記要素算出部が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する発話末評価値算出部と、算出された前記発話末評価値の時間推移に基づいて発話末の到来を予測するとともに発話末が到来すると予測したときに当該予測のタイミングを示す出力信号を出力する判定部と、を具備する発話末タイミング予測装置、として機能させるためのプログラムである。
【発明の効果】
【0021】
本発明によれば、音声認識処理などといった複雑な計算を行わず、音声に基づいて発話末のタイミングを予測することができる。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施形態による発話末タイミング予測装置の概略機能構成を示すブロック図である。
【
図2】同実施形態による発話末タイミング予測装置内のデータ記憶部が記憶するデータの構成を示す概略図である。
【
図3】同実施形態による発話末評価値算出部が算出した長期移動平均値Lnと短期移動平均値Snの時間的推移の一例を示すグラフである。
【
図4】同実施形態による発話末評価値算出部が算出した発話末評価値Cnの時間的推移の一例を示すグラフである。
【
図5】同実施形態による発話末評価値算出部が算出した発話末評価値Cnの時間的推移の一例を示すグラフ(変形例による判定方法のための閾値の設定を含む)である。
【
図6】同実施形態による発話末タイミング予測装置の処理手順を示すフローチャートである。
【
図7】同実施形態による発話末タイミング予測装置の応用例として構成された第1応用システムの構成を示すブロック図である。
【
図8】同実施形態による発話末タイミング予測装置の応用例として構成された第2応用システムの構成を示すブロック図である。
【発明を実施するための形態】
【0023】
[第1実施形態]
【0024】
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による発話末タイミング予測装置の概略機能構成を示すブロック図である。図示するように、発話末タイミング予測装置1は、入力部21と、要素算出部22と、発話末評価値算出部23と、判定部24とを含んで構成される。上記の各部は、例えば電子回路を用いて実現される。また、その一形態として、上記の各部が、コンピューターとプログラムとを用いて実現されてもよい。また、発話末タイミング予測装置1は、データを記憶するためのデータ記憶部(不図示)を備える。データ記憶部の構成および使い方についても、後で説明する。
【0025】
入力部21は、外部から音声を取得する。入力部21は、例えば、音声のアナログ波形データを取得し、適切なサンプリング周波数により波形のサンプリングを行い、その音声を表すデジタルデータを保存する。あるいは、入力部21は、外部からデジタルデータの形式で音声のデータを取得し保存してもよい。
【0026】
要素算出部22は、外部から取得した音声の特徴を表す特徴量を算出する。言い換えれば、要素算出部22は、入力部21が取得した音声に基づき、発話末評価値算出部23が発話末評価値を算出するために用いる要素の数値を算出する。具体的には、要素算出部22は、所定の長さのフレームごとにピッチ周波数PnおよびパワーWnを算出する。ここで,第n番目のフレームにおいて、既存技術による方法で求めた基本周期の逆数をピッチ周波数Pnとする。基本周期を求める方法の一例は、次の通りである。即ち、取り込んだ入力音声波形から、複数の異なる分析窓幅により自己相関関数R(τ)を求め、各々の自己相関関数について、τ>0における最大値をR(τ)max として、V=R(τ)max /R(0) とその時の時間遅れτの値を求めていき、Vの大きさとτの値のばらつきを考慮して、最も信頼できるτの値をピッチ周期τpとする。特許第3,219,868号公報には、この技術の詳細が記載されている。なお、フレーム長は、10ミリ秒以下であることが望ましく、例えば5ミリ秒とする。なお、後述する発話末評価値算出部23が発話末評価値を算出するために、ピッチ周波数PnとパワーWnのいずれか一方のみしか使用しない場合には、要素算出部22は、そのいずれか一方のみを算出するようにしてもよい。つまり、要素算出部22が算出する特徴量は、入力される音声に含まれる声の基本周波数とパワーとの少なくともいずれか一方を含むものである。
【0027】
また、要素算出部22は、入力された音声データに含まれる声の属性を判定する機能を有する。声の属性とは、声の音響的特徴に基づいて区別される属性であり、例えば、V/B/F/S/Pの5種類である。ここで、「V」は母音(有声音)を表し、「B」は破裂音を表し、「F」は摩擦音を表し、「S」はサイレンス(silence)を表し、「P」はポーズ(pause)を表す。サイレンスおよびポーズは、入力された音声内に発話による声が含まれない状態である。声が含まれない状態が450ミリ秒以上続く場合には、要素算出部22は、属性がサイレンスであると判定する。声が含まれない状態の継続時間が450ミリ秒未満である場合には、要素算出部22は、属性がポーズであると判定する。なお、要素算出部22は、既存技術を用いて声の属性を判定する。
【0028】
発話末評価値算出部23は、要素算出部22が算出した前記特徴量に基づいて前記音声に含まれる声の発話末を予測するための量である発話末評価値を算出する。つまり、発話末評価値算出部23は、要素算出部22が算出した特徴量に基づいて、発話末を予測するための量(数値)である発話末評価値(Cn)を算出する。具体的には、発話末評価値Cnは、音声のピッチ周波数PnとパワーWnとに基づいて計算されるものであり、下に説明する長期移動平均値Lnと短期移動平均値Snとの差分である。即ち、Cn=Ln-Snである。
【0029】
つまり、下にも説明するように、発話末評価値算出部23が算出する発話末評価値は、前記基本周波数の所定期間長の移動平均値と前記パワーの前記所定期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第1関数値として算出される長期移動平均から、前記基本周波数の前記所定期間長よりは短い期間長である第2期間長の移動平均値と前記パワーの前記第2期間長の移動平均値とのそれぞれに対して広義単調増加関数値である第2関数値として算出される短期移動平均を減じた値である。
なお、広義単調増加関数の定義は次の通りである。即ち、実関数f(・・・,x,・・・)に関して、定義域に属する任意のx1,x2に関して、x1<x2ならばf(・・・,x1,・・・)≦f(・・・,x2,・・・)である場合に、且つその場合にのみ、関数f()は、xに対して広義単調増加関数である。
【0030】
ここで、ピッチ周波数とパワーの各々の長期移動平均値をPl,Wlとし、短期移動平均値をPs,Wsとする。lおよびsは、第n番目のフレームを終端とし、それぞれあらかじめ定められた所定の長さを有する期間である。期間lの長さは、期間sの長さよりも長い。なお、lおよびsは、第n番目のフレームを終端とする期間とする代わりに、第n番目のフレームを含む期間としてもよい。
【0031】
より具体的には、発話末評価値算出部23は、(a・log(Pl)+b・Wl)の値(第1関数値)を長期移動平均の値として算出し、Lnとする。ここで、長期とは、例えば4.0秒である。4.0秒は、概ね、平均的な1センテンス分の長さに相当する。例えば1フレームの長さが5ミリ秒である場合、4.0秒は800フレーム分である。つまり、発話末評価値算出部23は、直近の800フレーム分のピッチ周波数PnおよびパワーWnの値に基づいて、長期移動平均値Lnを求める。発話末評価値算出部23は、(c・log(Ps)+d・Ws)の値(第2関数値)を短期移動平均の値として算出し、Snとする。ここで、短期とは、例えば1.0秒である。1.0秒は、概ね、平均的な1ワード(語)程度の長さに相当する。例えば1フレームの長さが5ミリ秒である場合、1.0秒は200フレーム分である。つまり、発話末評価値算出部23は、直近の200フレーム分のピッチ周波数PnおよびパワーWnの値に基づいて、短期移動平均値Snを求める。
【0032】
ここで、a,b,c,dは、それぞれゼロ以上の実数である。ただし、a,bの少なくともいずれか一方は非零である。また、d,cの少なくともいずれか一方は非零である。
例えば、a=0の場合、発話末評価値算出部23は、ピッチ周波数Plに依らず、パワーWlのみに基づいて長期移動平均Lnを算出する。また、b=0の場合、発話末評価値算出部23は、パワーWlに依らず、ピッチ周波数Plのみに基づいて長期移動平均Lnを算出する。aもbも非零である場合には、発話末評価値算出部23は、ピッチ周波数PlとパワーWlの両方に基づいて長期移動平均Lnを算出する。また、c=0の場合、発話末評価値算出部23は、ピッチ周波数Psに依らず、パワーWsのみに基づいて短期移動平均Snを算出する。また、d=0の場合、発話末評価値算出部23は、パワーWsに依らず、ピッチ周波数Psのみに基づいて短期移動平均Snを算出する。cもdも非零である場合には、発話末評価値算出部23は、ピッチ周波数PsとパワーWsの両方に基づいて短期移動平均Snを算出する。
また、発話末評価値算出部23は、長期移動平均Lnや短期移動平均Snを計算する際に、Log(Pl)やWl,Log(Ps)やWsの値が0.0以上且つ1.0以下になるように正規化する。
【0033】
ピッチ周波数は発話末予測の主要な要素であるが、ピッチ周期抽出時に誤検出が生じることがあり、発話末予測の誤りにつながる場合があるため、有声音・無声音に関係なく正確な値を得ることができ、また時間的な変動の仕方が、ピッチ周波数と相関が高いパワーにより補間する。
ここでパラメーターは、主要な要素であるピッチ周波数の係数a,cの値を大きく、パワーの係数b,dは小さい値とする。割合の一例としては、ピッチ周波数:パワーで8:2とする。例えば、ピッチ周波数の最小値が20Hz(log20=1.3)、最大値は600Hz(log600=2.8)とし、入力音声の平均値が80Hz(log80=1.9)とすると、入力音声の平均値を正規化した場合は、0.4となる。一方で、パワーの最小値を-80、最大値を-20、入力音声の平均値を-30とし、正規化した場合、0.83となる。このように通常パワーの方の値が大きくなる傾向も加味して、a,b,c,dを調整する。
また、ピッチ周波数とパワーの比率は影響があるが、長期移動平均、短期移動平均について一方に重みをつける必要はない。
【0034】
なお、上で説明したように、a,b,c,dは、それぞれゼロ以上の実数であるので、次のことが言える。
即ち、(a・log(Pl)+b・Wl)の値(第1関数値)は、基本周波数の長期移動平均値Plとパワーの長期移動平均値Wlのそれぞれに対して広義単調増加関数値である。
また、(c・log(Ps)+d・Ws)の値(第2関数値)は、基本周波数の短期移動平均値Psとパワーの短期移動平均値Wsのそれぞれに対して広義単調増加関数値である。
【0035】
判定部24は、発話末評価値算出部23が算出した発話末評価値Cnの時間推移に基づいて、発話末の到来を予測する。判定部24は、予測結果に基づき、発話末が到来する状態であるか否かを表す信号を出力する。この出力信号は、発話末が到来すると判定部24が予測したときに当該予測のタイミングを示すものである。また、発話末が到来すると判定部24が予測しないときには、その出力信号は、発話末が到来しないことを示す。
【0036】
具体的には、判定部24は、発話末評価値Cnが所定の第1閾値より小さい状態からその第1閾値より大きい状態に移ったときに発話末が到来すると予測する。
または、変形例として、判定部24は、発話末評価値Cnが所定の第3閾値より小さい状態から、所定の第2閾値(ただし、第2閾値は前記第3閾値よりも大きい)より大きい状態に移ったときに発話末が到来すると予測する。
これら2つの場合について、判定部24による具体的な判定方法については、それぞれ、
図4および
図5を参照しながら、後で詳しく説明する。
【0037】
図2は、発話末タイミング予測装置1内のデータ記憶部が記憶するデータの構成を示す概略図である。発話末タイミング予測装置1は、内部の記憶装置(例えば、磁気ハードディスク装置や、半導体メモリー装置等)にこのデータを記憶し、適切なタイミングで更新する。図示するように、このデータは表形式の時系列データである。このデータは、時刻(Tn)、声属性(An)、ピッチ周波数(Pn)、パワー(Wn)、長期移動平均値(Ln)、短期移動平均値(Sn)、評価値(Cn)の各項目を有する。この表の各行はフレームに対応する。フレームは、例えば1ミリ秒(ms)以上10ミリ秒以下程度の長さを有する。同図に示す例では、1フレームの長さは5ミリ秒である。
【0038】
時刻(Tn)は、そのフレームを表す時刻である。例えば、時刻は、所定の時点を起点とした相対時刻(単位は、ミリ秒(ms))で表される。
声属性(An)は、その時点における声属性である。前述の通り、要素算出部22が声属性を判定し、その判定結果を当欄に書き込む。
ピッチ周波数(Pn)は、その時点における声のピッチ周波数である。要素算出部22が入力される音声を基にピッチ周波数を算出し、その値を当欄に書き込む。
パワー(Wn)は、その時点における声のパワーである。要素算出部22が入力される音声を基にパワーを算出し、その値を当欄に書き込む。
長期移動平均(Ln)は、その時点から遡った所定期間長の移動平均値である。発話末評価値算出部23が要素算出部22により出力されるピッチ周波数PnおよびパワーWnに基づいて算出し、その値を当欄に書き込む。
短期移動平均(Sn)は、その時点から遡った、長期移動平均よりは短い所定期間長の移動平均値である。発話末評価値算出部23が要素算出部22により出力されるピッチ周波数PnおよびパワーWnに基づいて算出し、その値を当欄に書き込む。
発話末評価値(Cn)は、その時点における発話末評価値である。前述の通り、発話末評価値算出部23が長期移動平均Lnと短期移動平均Snに基づいて算出し発話末評価値を当欄に書き込む。
【0039】
次に、判定部24が発話末の到来を予測する際の判定方法について説明する。
図3は、発話末評価値算出部23が算出した長期移動平均値Lnと短期移動平均値Snの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻(フレーム)に対応する。図示するように、長期移動平均値Lnと短期移動平均値Snは、時間の経過とともに変化する。Ln<Snとなる区間もあり、Ln>Snとなる区間もあり、Ln=Snとなるときもある。
【0040】
図4は、発話末評価値算出部23が算出した発話末評価値Cnの時間的推移の一例を示すグラフである。本実施形態における発話末評価値Cnは、前述の通り、(Ln-Sn)として算出される。このグラフにおける横軸は時刻(フレーム)に対応する。
【0041】
判定部24は、発話末評価値Cnの推移により、発話末の到来を予測する。具体的には、Cnの値が、負から正に移るときに、判定部24は発話末が到来することを予測する。つまり、図示する例では、時刻TA,TB,TCのそれぞれのタイミングで、判定部24は発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部24は、発話末の到来がないと判定する。
【0042】
つまり、判定部24による判定方法を一般化すると、次の通りである。
発話末評価値Cnに関する所定の第1閾値をTH1とする。Cn<TH1の状態からCn>TH1の状態に移るタイミングで、判定部24は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部24は、発話末の到来がないと判定する。
例えば、TH1=0としてよい。また、第1閾値TH1を0以外の値としてもよい。
【0043】
このように、判定部24は、発話末のタイミングを予測してそのタイミングを表す信号を出力する。つまり、判定部24は、入力音声内の発話末を検出することができる。但し、判定部24は、偽の発話末のタイミングを検出する場合もある。例えば、判定部24は、
図4に示した時刻T
A,T
B,T
Cのそれぞれを発話末として検出し、それらの発話末に応じたタイミング信号を出力する。しかしながら、これらのタイミングのうち、時刻T
A,T
Bは、偽の発話末のタイミングである場合がある。つまり、判定部24は、発話末を過検出する場合がある。こういった時刻T
A,T
Bのようなタイミングの過検出は、例えば、発話長(時間長)が比較的長くなった場合に起こり得る。このような場合でも、判定部24が検出する発話末のうちのいずれかは真の発話末であり、本実施形態のように簡単な計算でそのタイミングを自動的に検出できることは有用である。
なお、判定部24は、実際の発話末が到来する前に、発話末の到来を検出(予測)する。
【0044】
判定部24による判定方法として、次に説明する変形例を用いてもよい。
図5は、発話末評価値算出部23が算出した発話末評価値Cnの時間的推移の一例を示すグラフである。このグラフにおける横軸は時刻(フレーム)に対応する。また、同図では、第2閾値および第3閾値の、2つの閾値を示している。第2閾値をTH
2とし、第3閾値をTH
3とする。ただし、TH
2>TH
3である。この変形例において、判定部24は、これら2つの閾値に基づく判定を行う。図示するグラフでは、時刻T
Dが到来する前において、Cn<TH
3である。時刻T
Dにおいて、Cn=TH
3となる。また、時刻T
Dより後では、Cn>TH
3である。このように、発話末評価値Cnは、時刻T
Dを境として、第3閾値TH
3よりも小さい状態から、第3閾値TH
3よりも大きい状態に移る。また、時刻T
Eが到来する前において、Cn<TH
2である。時刻T
Eにおいて、Cn=TH
2となる。また、時刻T
Eより後では、Cn>TH
2である。このように、発話末評価値Cnは、時刻T
Eを境として、第2閾値TH
2よりも小さい状態から、第2閾値TH
2よりも大きい状態に移る。
【0045】
本変形例では、判定部24は、発話末評価値Cnが、まず第3閾値TH
3よりも小さい状態から第3閾値TH
3よりも大きい状態に移行し、且つ、その後に、第2閾値TH
2よりも小さい状態から第2閾値TH
2よりも大きい状態に移行する事象が生じたか否かを判定する。そのような事象が生じたとき、発話末評価値Cnが第2閾値TH
2よりも小さい状態から第2閾値TH
2よりも大きい状態に移行したタイミングにおいて、判定部24は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。その他のタイミングにおいては、判定部24は、発話末の到来がないと判定する。具体例として、
図5における時刻T
Eにおいて、判定部24は、発話末の到来があることを予測し、発話末の到来を表す信号を出力する。
【0046】
なお、例えば、TH2=dとし、TH3=-dとする。ただし、dは所定の正定数である。ただし、TH2やTH3を、その他の値としてもよい。
【0047】
この変形例によれば、発話末評価値Cnが、第3閾値よりも小さい領域から、第2閾値よりも大きい領域まで変化したときに、発話末のタイミングを検出(予測)する。つまり、
図4に示した例においける過検出(
図4における時刻T
A,T
B)を防止することができる。このように本変形例による判定部24は、より精度よく、発話末を検出(予測)する。
【0048】
次に、発話末タイミング予測装置1の処理手順について説明する。
図6は、発話末タイミング予測装置1による処理の手順を示すフローチャートである。発話末タイミング予測装置1は、フレームごとに、ステップS11からS19までの処理を行う。
ステップS11において、発話末タイミング予測装置1は、処理を継続するか否かを判断する。処理を継続する場合(ステップS11:YES)には次のステップS12に進む。処理を継続しない場合(ステップS11:NO)にはステップS11からS19までの処理のループを抜け出し、本フローチャート全体の処理を終了する。
【0049】
次にステップS12において、入力部21は、外部から音声を取得する。具体的には、入力部21は、1フレーム分の音声データを取得する。
次にステップS13において、要素算出部22は、ステップS12で取得された音声データと、蓄積されていた前のフレームまでのデータとを用いて、音響特徴量を算出する。ここで算出される音響特徴量は、ピッチ周波数(Pn)とパワー(Wn)とを含む。要素算出部22は、算出したピッチ周波数PnおよびパワーWnの値を、前述のデータ記憶部に書き込む。
【0050】
次にステップS14において、要素算出部22は、当該フレームにおける声の属性(An)を判定する。ここでは、要素算出部22は、声の属性がV/B/F/S/Pのいずれであるかを判定する。要素算出部22が求める声の属性については、既に述べた通りである。
次にステップS15において、要素算出部22は、ステップS14で判定した声属性がV/B/Fのいずれかであるか否かにより、処理を分岐する。声の属性がV/B/Fのいずれかである場合(ステップS14:YES)には、ステップS17に飛ぶ。声の属性がV/B/Fのいずれでもない(即ち、SまたはPである)場合(ステップS14:NO)には、ステップS16の処理に移る。
【0051】
ステップS16に移った場合、同ステップにおいて、要素算出部22は、ピッチ周波数Pnの値を固定値(例えば、50Hz)で置き換える。つまり、声の属性がS(サイレンス)またはP(ポーズ)である場合に、要素算出部22は、当該フレームにおけるピッチ周波数Pnの欄に上記固定値を書き込む。本ステップの処理の終了後は、ステップS17に移る。
【0052】
ステップS17において、発話末評価値算出部23は、ピッチ周波数PnおよびパワーWnの両者を加味した値の、長期移動平均値Lnおよび短期移動平均値Snを求める。長期移動平均値Lnおよび短期移動平均値Snの算出の仕方は、既に説明した通りである。
次にステップS18において、発話末評価値算出部23は、上記の長期移動平均値Lnと短期移動平均値Snとに基づいて、発話末評価値Cnを算出する。発話末評価値算出部23は、長期移動平均値Ln、短期移動平均値Sn、および算出した発話末評価値Cnを、前述のデータ記憶部に書き込む。
次に、ステップS19において、発話末評価値算出部23は、当該フレームまでの発話末評価値Cnの時系列に基づき、発話末の到来を予測する。この予測の方法については、すでに説明した。発話末評価値算出部23は、予測結果に対応する信号を外部に出力する。出力される信号は、発話末の到来が予測される状況であるか否かを表す信号である。本ステップの処理を終了すると、次のフレームを処理するために、ステップS11に戻る。
【0053】
以上説明したように、本実施形態(変形例を含む)によれば、発話末タイミング予測装置1は、発話末が生じそうなタイミングを予測できる。
また、本実施形態によれば、音声認識処理や形態素解析処理といった複雑で計算量の多い処理を行うことなく、比較的単純な計算(音声の音響的な特徴量の抽出と、それらの特徴量の数値の和積の算出と、数値(閾値を含む)同士の単純な比較等)で、発話末タイミングを予測することができる。
実際に人が発話する声においては、文法的に発話の終了とみなせる箇所であってもその直後に発話が開始されることがあるが、本実施形態による発話末のタイミングの予測方法を用いる場合には、発話が連続しそうな特徴量を有する限りは、発話末タイミング予測装置1は、発話末が到来するという判定をくださない。
図5を用いて説明した判定方法(複数の閾値を用いて、閾値間の幅を持たせる判定方法)を用いる場合には、発話末の過検出を防止ないしは軽減することができる。
【0054】
[応用例]
次に、発話末タイミング予測装置1の応用例について説明する。
図7は、発話末タイミング予測装置1を応用して構築された第1応用システムの構成を示すブロック図である。図示するように、第1応用システムは、発話末タイミング予測装置1と、コンテンツ合成装置31とを含んで構成される。発話末タイミング予測装置1の機能および動作は、既に説明した通りである。コンテンツ合成装置31は、タイミングに関する入力信号に基づき、複数の音声コンテンツを合成する機能を有する。本システムにおいて、発話末タイミング予測装置1は、第1音声を入力音声として取得し、この第1音声の発話末のタイミングを予測する。発話末タイミング予測装置1は、予測結果を出力信号として出力する。コンテンツ合成装置31は、第1音声を受け、そのまま出力するとともに、発話末タイミング予測装置1から出力される信号に基づいて、第1音声内の発話末のタイミングで、別に供給される第2音声の信号を合成し、第1音声と、第1音声の発話末の箇所に挿入された第2音声とからなるコンテンツを外部に出力する。一例として、第1音声はテレビ番組(例えば、スポーツ中継番組)等の映像コンテンツ(映像および音声とで構成される)の音声であり、第2音声は当該映像コンテンツに含まれる映像の解説音声である。なお、この解説音声は、元のコンテンツ(映像等)に基づいて自動的に生成されるものであってもよい。本システムによると、コンテンツ合成装置31は、第2音声を、第1音声の発話末のタイミングで挿入し出力する。これにより、コンテンツ合成装置31は、第1音声と第2音声との間で時間的な重なりのない(または少ない)合成コンテンツを出力することができる。また、第1音声、第2音声のそれぞれは、人の声に限らず合成音声も含めた組み合わせも考えられる。一例として、人々が集まり、あるいは行き交う場所等(例えば、公共スペースや、店舗内や、施設内等。より具体的には、鉄道の駅や、バスターミナルや、空港や、乗船場や、観光案内所や、美術館あるいは博物館や、ホールや、スポーツ競技施設や、トイレや、喫煙所等。ただし、ここに例示した場所に限定されない。)において、人の肉声による案内と合成音声による案内との両方が行われる場合が多く見られる。そういった状況において、肉声による音声情報(第1音声)の発話末を予測して、比較的緊急度の低い音声情報(第2音声)を発するようにすることもできる。これにより、第1音声と第2音声との時間的な被りを抑制することも可能となる。
【0055】
図8は、発話末タイミング予測装置1を応用して構築された第2応用システムの構成を示すブロック図である。図示するように、第2応用システムは、発話末タイミング予測装置1と、応答装置32とを含んで構成される。発話末タイミング予測装置1の機能および動作は、既に説明した通りである。応答装置32は、外部から入力音声を取得するとともに、入力音声に応じた応答を出力する。この応答は、例えば音声であってもよいし、画像あるいは映像であってもよい。あるいはこの応答は、任意の電気信号等であってもよい。応答装置32は、入力音声の内容に応じて可変の応答、あるいは入力音声の内容に関わらず一定の応答を出力する。このとき、応答装置32は、発話末タイミング予測装置1から供給される出力信号が示すタイミングに応じて、応答を出力する。発話末タイミング予測装置1は、入力音声を取得するとともに、すでに説明した動作により、当該入力音声に含まれる声の発話末のタイミングを予測し、そのタイミングを示す出力信号を出力する。つまり、応答装置32は、発話末タイミング予測装置1と協調動作することにより、入力音声の発話末のタイミングに基づいて、応答を出力することができる。これにより、本システムは、入力音声に含まれる声の発話末のタイミングで応答(音声による応答、またはその他の形態の応答)を返す自動応答システムとして機能することができる。
【0056】
なお、上述した実施形態における発話末タイミング予測装置やコンテンツ合成装置や応答装置等の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0057】
上記実施形態では、要素算出部22は、音声の特徴量として、ピッチ周波数PnおよびパワーWnを算出したが、音声の他の要素を特徴量として用いてもよい。その場合も、発話末評価値算出部23は、要素算出部22によって算出された数値に基づき、発話末評価値を算出する。
【0058】
以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0059】
本発明は、例えば、音声を含むコンテンツの制作や、音声入力に対する応答システムとして利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0060】
1 発話末タイミング予測装置
21 入力部
22 要素算出部
23 発話末評価値算出部
24 判定部
31 コンテンツ合成装置
32 応答装置