(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】音声区間検出装置、音声区間検出方法及びプログラム
(51)【国際特許分類】
G10L 15/04 20130101AFI20241106BHJP
G10L 15/10 20060101ALI20241106BHJP
【FI】
G10L15/04 300Z
G10L15/10 400R
(21)【出願番号】P 2023014052
(22)【出願日】2023-02-01
(62)【分割の表示】P 2019025686の分割
【原出願日】2019-02-15
【審査請求日】2023-03-02
(31)【優先権主張番号】P 2018053927
(32)【優先日】2018-03-22
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001443
【氏名又は名称】カシオ計算機株式会社
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(72)【発明者】
【氏名】富田 寛基
【審査官】中村 天真
(56)【参考文献】
【文献】特許第7222265(JP,B2)
【文献】特開2018-005122(JP,A)
【文献】特開2005-241997(JP,A)
【文献】国際公開第2015/059947(WO,A1)
【文献】国際公開第2011/077924(WO,A1)
【文献】国際公開第2010/070840(WO,A1)
【文献】国際公開第2009/078093(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が音声コーパスにおける各音素の継続長の平均値に基づいて得られる判定時間以上である区間を、発話音声区間として検出する、制御部を備えることを特徴とする音声区間検出装置。
【請求項2】
前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする請求項
1に記載の音声区間検出装置。
【請求項3】
前記制御部はさらに、
前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする請求項1
または2に記載の音声区間検出装置。
【請求項4】
音声区間検出装置の音声区間検出方法であって、
ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が音声コーパスにおける各音素の継続長の平均値に基づいて得られる判定時間以上である区間を、発話音声区間として検出するステップを含むことを特徴とする音声区間検出方法。
【請求項5】
コンピュータに、
ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が音声コーパスにおける各音素の継続長の平均値に基づいて得られる判定時間以上である区間を、発話音声区間として検出する手順を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声区間検出装置、音声区間検出方法及びプログラムに関する。
【背景技術】
【0002】
音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出する技術が知られている。
【0003】
例えば、非特許文献1は、音声信号から、DBN(Deep Belief Network)を用いて発話音声区間を検出する手法を開示している。
【先行技術文献】
【非特許文献】
【0004】
【文献】Zhang, X.-L., Wu, J., "Deep Belief Networks Based Voice Activity Detection", IEEE Transactions on Audio, Speech, and Language Processing, Vol.21, No.4, pp 697-710, (2013)
【文献】藤田悠哉,磯健一,“音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出”,研究報告音声言語情報処理(SLP),Vol.2016-SLP-112,No.9,pp.1-6,(2016.7)
【文献】大淵康成,武田龍,神田直之,“統計的雑音抑圧法の強調的適用による雑音環境下音声区間検出”,電子情報通信学会技術研究報告:信学技報,Vol.2012-SLP-94,No.18,pp.101-106,(2012.12)
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1に開示された手法を用いて音声信号から発話音声区間を検出したときに、当該音声信号中の区間であり、話者以外の音源によって発音された雑音音声を表す雑音音声信号を含む一方で発話音声信号を含まない区間が、発話音声区間として誤って検出されてしまう場合がある。
【0006】
発話音声区間が誤って検出されてしまうことで、次のような問題が生じていた。例えば、長時間録音した音声データの中から、人が話している部分だけを検出し、検出された音声データだけを再生したい場合に、発話音声区間が誤って検出されてしまうと、不必要な音声データまで再生する必要が生じてしまう。また、例えば、音声を録音(入力)しながら、リアルタイムで発話音声の音声認識を実行したい場合、発話音声区間が誤って検出されてしまうことで、発話音声ではないときも音声認識を実行してしまうこととなり、必要以上にリソース(計算量)を多く消費することとなる。
【0007】
また、発話音声区間の検出精度が低い場合には、次のような問題が生じていた。例えば、検出した対象が音声ではなく雑音や環境音だけになることがあるので、検出された音声データの聞き直し時に、無駄な時間を使うことになる。また、例えば、音声を喋っている部分が検出されずに検出結果より抜け落ちてしまい、聞き直しが必要な音声データを聞き逃してしまうことになる。さらに、発話音声区間の検出精度が低いために、発話区間の先頭や一部が検出されずに検出結果より抜け落ちてしまうことがあり、その場合、その検出結果の音声データを入力データとして音声認識を行ったときに、認識精度が低下してしまう理由の一つとなっていた。
そのため、発話音声区間の検出精度を向上させることが求められていた。
【0008】
本発明は、上記事情に鑑み、音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出するときの検出精度を向上させる音声区間検出装置、音声区間検出方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明に係る音声区間検出装置の一態様は、ターゲット音声信号の候補区間における、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号が含まれる区間以外であって、時間長が音声コーパスにおける各音素の継続長の平均値に基づいて得られる判定時間以上である区間を、発話音声区間として検出する、制御部を備えることを特徴とする。
【発明の効果】
【0010】
本発明によれば、音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出するときの検出精度を向上させる音声区間検出装置、音声区間検出方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態に係る音声区間検出装置の物理的構成を示す図である。
【
図2】本発明の実施形態に係る音声区間検出装置の機能的構成を示す図である。
【
図3】本発明の実施形態に係る音声区間検出装置が実行するフレームの設定及び候補区間の設定を説明するための図である。
【
図4】本発明の実施形態に係るNN(Neural Network)の構成例を示す図である。
【
図5】本発明の実施形態に係る音声区間検出装置が実行する特定音声区間の検出及び発話音声区間の検出を説明するための図である。
【
図6】本発明の実施形態に係る音声区間検出装置が実行する検出情報の出力を説明するための図である。
【
図7】本発明の実施形態に係る音声区間検出装置が実行する音声区間検出処理を説明するためのフローチャートである。
【
図8】本発明の実施形態に係る音声区間検出装置が実行する候補区間取得処理を説明するためのフローチャートである。
【
図9】本発明の実施形態に係る音声区間検出装置が実行する発話音声区間取得処理を説明するためのフローチャートである。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態に係る音声区間検出装置について、図面を参照しながら説明する。図中、互いに同一又は同等の構成には、互いに同一の符号を付す。
【0013】
図1に示す音声区間検出装置1は、ターゲット音声信号から、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を検出する。ターゲット音声信号の具体例としては、会議の音声を表す音声信号、講演の音声を表す音声信号、テレビ放送の音声を表す音声信号、ラジオ放送の音声を表す音声信号等が挙げられる。
【0014】
音声区間検出装置1は、制御部10と、記憶部11と、入力部12と、出力部13と、通信部14と、電源部15と、を備えている。
【0015】
制御部10は、CPU(Central Processing Unit)を備え、記憶部11に記憶されたプログラム及びデータに従って、後述する音声区間検出処理を含む各種処理を実行する。制御部10は、コマンド及びデータの伝送経路である図示しないシステムバスを介して音声区間検出装置1の各部に接続されており、音声区間検出装置1全体を統括制御する。
【0016】
記憶部11は、ROM(Read Only Memory)と、RAM(Random Access Memory)と、HDD(Hard Disk Drive)、フラッシュメモリ等の不揮発性の外部記憶装置と、を備え、制御部10が各種処理を実行するために用いるプログラム及びデータを記憶すると共に、制御部10が各種処理を実行することによって生成又は取得したデータを記憶する。具体的に、記憶部11は、制御部10が実行する制御プログラムを記憶している。また、記憶部11は、ターゲット音声信号を表すターゲット音声データを記憶している。音声区間検出装置1は、PC(Personal Computer)、スマートフォン等の外部の情報処理装置が、マイクロフォンを用いてターゲット音声信号を録音することにより生成したターゲット音声データを当該情報処理装置から取得し、記憶部11が備える外部記憶装置に格納する。
【0017】
記憶部11が備えるRAMは、制御部10のワークエリアとして機能する。すなわち、制御部10は、記憶部11に記憶されたプログラム及びデータをRAMへ読み出し、読み出されたプログラム及びデータを参照することによって各種処理を実行する。
【0018】
入力部12は、キーボード、タッチパネル、操作ボタン等の入力装置を備え、ユーザによる操作に従って各種指示を受け付け、受け付けた指示を制御部10へ供給する。具体的に、入力部12は、ターゲット音声データを指定するための指示や、発話音声区間の検出を開始させるための指示を、ユーザによる操作に従って受け付ける。
【0019】
出力部13は、ディスプレイ13aと、スピーカ13bと、を備え、制御部10による制御に従い、発話音声区間の検出結果に対応する検出情報を含む各種情報を、ユーザが認識可能な形態で出力する。具体的に、出力部13は、制御部10による制御に従い、ディスプレイ13aに、検出情報として、発話音声区間の検出結果を表す検出画像を表示し、スピーカ13bから、検出情報として、検出された発話音声区間が含む音声信号を出力する。
【0020】
通信部14は、制御部10による制御に従い、PC、スマートフォン等の外部の情報処理装置との間で、LAN(Local Area Network)、インターネット等の通信網を介して無線通信を行い、当該外部の情報処理装置との間でデータを送受信する。具体的に、通信部14は、PC、スマートフォン等の外部の情報処理装置によって生成されたターゲット音声データを、当該情報処理装置から受信し、受信したターゲット音声データを記憶部11へ供給する。
【0021】
電源部15は、蓄電池等の電源と、当該電源を制御する電源制御回路と、を備え、制御部10による制御に従い、音声区間検出装置1の各部へ電力を供給する。
【0022】
上述した物理的構成を備える音声区間検出装置1は、機能的に、
図2に示すように、ターゲット音声データ取得部100と、フレーム設定部101と、候補区間取得部102と、NN記憶部103と、確率情報記憶部104と、発話音声区間取得部105と、検出情報出力部106と、を備えている。
【0023】
ターゲット音声データ取得部100、フレーム設定部101、候補区間取得部102、発話音声区間取得部105及び検出情報出力部106は、制御部10によって実現される。具体的に、制御部10は、記憶部11に記憶された制御プログラムを実行して音声区間検出装置1を制御することにより、これらの各部として機能する。NN記憶部103及び確率情報記憶部104は、記憶部11によって実現される。具体的に、NN記憶部103及び確率情報記憶部104は、記憶部11が備える外部記憶装置の記憶領域に構築される。
【0024】
ターゲット音声データ取得部100は、記憶部11が備える外部記憶装置から、当該外部記憶装置によって記憶されたターゲット音声データを取得する。
【0025】
フレーム設定部101は、ターゲット音声データ取得部100によって取得されたターゲット音声データが表すターゲット音声信号中に、時間的に連続する複数のフレームを設定する。フレームは、時間長がフレーム長の時間窓である。フレーム長は、予め設定された時間長である。以下、フレーム設定部101が実行するフレームの設定について
図3を参照して説明する。
【0026】
図3には、ターゲット音声信号の音声波形を表す波形図が示されている。
図3に示す波形図において、縦軸は音声波形の振幅の大きさを表し、横軸は時間tを表している。以下、
図3に示すように、ターゲット音声信号の先頭から末尾までの時間長がTである場合を例に用いて説明する。
【0027】
フレーム設定部101は、開始時刻がターゲット音声信号の先頭と一致し、時間長がフレーム長Fである時間窓を、ターゲット音声信号中の最初のフレームである第0フレームとして設定する。ターゲット音声信号中の最初のフレームは、当該ターゲット音声信号中のフレームのうち開始時刻が最も古いフレームである。第0フレームを設定した後、フレーム設定部101は、開始時刻が一のフレームの開始時刻よりシフト長Gだけ後の時刻であり、時間長がフレーム長Fである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であるか否かを判定し、当該終了時刻がターゲット音声信号の末尾よりも後の時刻ではないと判定したときに、当該時間窓を当該一のフレームの直後のフレームとして設定する処理を、当該終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定されるまで繰り返し実行することにより、ターゲット音声信号中に、時間的に連続する複数のフレームを設定する。フレーム設定部101は、開始時刻が一のフレームの開始時刻よりシフト長Gだけ後の時刻であり、時間長がフレーム長Fである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定したときに、ターゲット音声信号中にフレームを設定する処理を終了する。シフト長Gは、予め設定された時間長である。ターゲット音声信号中の一のフレームの直後のフレームは、当該ターゲット音声信号中のフレームのうち当該一のフレームに次いで開始時刻が新しいフレームである。
【0028】
以下、
図3に示すように、フレーム設定部101によって、ターゲット音声信号中に、第0フレーム~第(M-1)フレームのM個のフレームが設定された場合を例に用いて説明する。第0フレーム~第(M-1)フレームは、何れも、時間長がフレーム長Fである。
図3に示すように、第1フレーム~第(M-1)フレームの各フレームは、開始時刻が、直前のフレームの開始時刻よりもシフト長Gだけ後の時刻である。ターゲット音声信号中の一のフレームの直前のフレームは、当該ターゲット音声信号中のフレームのうち当該一のフレームに次いで開始時刻が古いフレームである。例えば、第1フレームの開始時刻は、第1フレームの直前のフレームである第0フレームの開始時刻よりもシフト長Gだけ後の時刻である。
【0029】
フレーム長F及びシフト長Gは、実験等の任意の手法を用いて、フレーム長Fがシフト長Gよりも長くなるように予め設定されている。本実施形態では、フレーム長Fは、25msに設定されており、シフト長Gは、10msに設定されている。フレーム長Fがシフト長Gよりも長いため、各フレームは、直後のフレームと時間長(F-G)だけ重複している。
【0030】
図2に戻り、候補区間取得部102は、ターゲット音声信号中に、候補区間を設定する。後述するように、音声区間検出装置1は、候補区間取得部102によって設定された候補区間から発話音声区間を検出する。候補区間取得部102は、
図2に示すように、事後確率取得部102aと、第1フレーム判定部102bと、候補区間設定部102cと、を備えている。
【0031】
事後確率取得部102aは、フレーム設定部101によって設定されたフレーム毎に、フレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する。
【0032】
音素の状態は、音素を時間方向に細分化した単位である。音素毎に、音素の状態の数が予め設定されている。以下、各音素の状態の数が3に設定されている場合を例に用いて設定する。例えば、音素「a」は、当該音素の発音開始時を含む第1状態「a1」と、当該音素の発音終了時を含む第3状態「a3」と、当該第1状態「a1」と当該第3状態「a3」との中間状態である第2状態「a2」と、の3つの状態に分けられる。
【0033】
以下、音響モデルとしてモノフォンモデルを用いる場合を例に説明する。音響モデルは、音素の周波数特性をモデル化したものである。モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素の状態との状態遷移を固定化した音響モデルである。事後確率取得部102aは、フレーム毎に、フレームに含まれる音声信号が、モノフォンモデルにおける各音素の3状態それぞれを表している事後確率を取得する。モノフォンモデルで利用される全音素の数をQ個とした場合、(3×Q)個の状態が存在する。事後確率取得部102aは、(3×Q)個の状態それぞれに対応する事後確率を取得する。
【0034】
本実施形態では、各音素の各状態に、識別子であるインデックスが一意的に対応付けられている。
【0035】
事後確率取得部102aは、NN記憶部103によって記憶された、
図4に示すNN103aを用いて事後確率を取得する。NN103aは、音声信号がモノフォンモデルにおける各音素の各状態を表している事後確率を出力する。具体的に、NN103aの入力層の各ユニットIN1~INvは、それぞれ、MFCC(Mel-Frequency Cepstrum Coefficient)の各次元に予め対応付けられており、NN103aの出力層の各ユニットIO1~IOwは、それぞれ、モノフォンモデルにおける各音素の各状態に対応付けられている。NN103aは、音声信号の音響特徴量としてMFCCが入力層に入力されたことに応答して、出力層から、当該音声信号が各音素の各状態を表している事後確率を出力する。
【0036】
事後確率取得部102aは、一のフレームに含まれる音声信号をMFCCへ変換し、当該MFCCを当該音声信号の音響特徴量として取得し、取得したMFCCの各次元の値を、各次元に対応付けられたNN103aの入力層のユニットIN1~INvにそれぞれ入力し、当該入力に応答してNN103aの出力層の各ユニットIO1~IOwによって出力された出力値をソフトマックス関数に入力することにより、当該音声信号がモノフォンモデルにおける各音素の各状態を表している事後確率を取得する。
【0037】
事後確率取得部102aは、各フレームに含まれる音声信号が各音素の各状態を表している事後確率を示す確率情報を、確率情報記憶部104へ供給し、記憶させる。また、事後確率取得部102aは、確率情報を、第1フレーム判定部102bへ供給する。
【0038】
図2に戻り、第1フレーム判定部102bは、ターゲット音声信号中のフレーム毎に、予め設定された第1判定条件がフレームにおいて成立しているか否かを判定する。第1判定条件は、フレームに含まれる音声信号が音声に対応する各音素の各状態を表している事後確率の総和が、当該音声信号が無音に対応する各音素の各状態を表している事後確率の総和より大きい場合に成立する。すなわち、第1判定条件は、下記の式(1)が成立している場合に成立する。第1フレーム判定部102bは、式(1)が成立しているか否かを判定することにより、第1判定条件が成立しているか否かを判定する。非特許文献2に記載されているように、一のフレームにおいて第1判定条件が成立している場合、当該一のフレームに発話音声信号が含まれている可能性が高い。一方、一のフレームにおいて第1判定条件が成立していない場合、当該一のフレームに発話音声信号が含まれている可能性は低い。
【0039】
【0040】
式(1)中、Sは、各音素の各状態に識別子として対応付けられたインデックスのうち、音声に対応する音素の状態に対応付けられたインデックスを要素として有する集合を表す。Nは、各音素の各状態に識別子として対応付けられたインデックスのうち、無音に対応する音素の状態に対応付けられたインデックスを要素として有する集合を表す。p(i|x(tj))は、音響特徴量x(tj)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(tj)は、開始時刻が時刻tjであるフレームに含まれる音声信号の音響特徴量を表す。
【0041】
第1フレーム判定部102bは、事後確率取得部102aから供給された確率情報に基づいて事後確率p(i|x(tj))を取得し、取得した事後確率p(i|x(tj))に基づいて式(1)が成立しているか否かを判定する。式(1)中の音響特徴量x(tj)は、事後確率取得部102aが、開始時刻が時刻tjであるフレームに含まれる音声信号を変換することによって取得したMFCCであり、事後確率p(i|x(tj))は、事後確率取得部102aが、当該MFCCをNN103aに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。第1フレーム判定部102bは、判定結果を示す情報を、候補区間設定部102cへ供給する。
【0042】
候補区間設定部102cは、ターゲット音声信号中に、候補区間を設定する。具体的に、候補区間設定部102cは、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第1判定条件が成立していると第1フレーム判定部102bによって判定された区間を、候補区間として設定する。なお、非特許文献3に記載された手法を用いて候補区間の先頭及び末尾を設定してもよい。
【0043】
上述したように、一のフレームにおいて第1判定条件が成立している場合、当該一のフレームに発話音声信号が含まれている可能性が高く、当該一のフレームにおいて第1判定条件が成立していない場合、当該一のフレームに発話音声信号が含まれている可能性は低い。候補区間に含まれているフレームは、何れも、第1判定条件が成立していると第1フレーム判定部102bによって判定されているため、候補区間には発話音声信号が含まれている可能性が高い。一方、ターゲット音声信号中の候補区間以外の区間に発話音声信号が含まれている可能性は低い。
【0044】
以下、
図3に示すように、候補区間設定部102cが、ターゲット音声信号中に、第1候補区間~第P候補区間のP個の候補区間を設定した場合を例に用いて説明する。第1候補区間~第P候補区間に含まれているフレームは、何れも、当該フレームにおいて第1フレーム判定部102bによって第1判定条件が成立していると判定されたフレームである。例えば、第1候補区間は、
図3に示すように、第1フレーム~第KフレームのK個のフレームを含んでおり、第1フレーム~第Kフレームは、何れも、第1判定条件が成立していると第1フレーム判定部102bによって判定されたフレームである。
【0045】
図2に戻り、NN記憶部103は、NN103aを表すデータを記憶する。NN103aは、PC、スマートフォン等の外部の情報処理装置において、音声コーパスを教師データとして用いて、誤差逆伝搬法等の任意の手法による機械学習を行うことによって生成される。音声コーパスは、複数の話者によって発音された音声を表す大量の音声データの集合体である。音声区間検出装置1は、外部の情報処理装置によって生成されたNN103aを表すデータを、通信部14を介して当該外部の情報処理装置から受信し、受信したデータをNN記憶部103に格納する。
【0046】
確率情報記憶部104は、事後確率取得部102aから供給された確率情報を記憶する。確率情報記憶部104は、記憶している確率情報を、発話音声区間取得部105へ供給する。
【0047】
発話音声区間取得部105は、候補区間取得部102によって取得された候補区間から、発話音声区間を検出する。
【0048】
上述したように、候補区間には発話音声信号が含まれている可能性が高い一方、ターゲット音声信号中の候補区間以外の区間に発話音声信号が含まれている可能性は低い。発話音声区間取得部105は、候補区間から発話音声区間を検出することにより、ターゲット音声信号全体から発話音声区間を検出する場合に比べて、検出精度の低下を抑制しつつ、処理負荷を軽減することができる。
【0049】
候補区間には、発話音声信号が含まれている可能性が高い一方、話者以外の音源によって発音された雑音音声を表す雑音音声信号が含まれている可能性がある。雑音音声の具体例としては、換気扇の動作音、空調装置の動作音、冷蔵庫の動作音等が挙げられる。
【0050】
発話音声区間取得部105は、候補区間中の、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い区間以外の区間を発話音声区間として検出する。
【0051】
具体的に、発話音声区間取得部105は、候補区間から、予め設定された特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を検出し、候補区間中の検出された特定音声区間以外の区間を発話音声区間として検出する。
【0052】
特定時間は、任意の手法により、各子音の音素の各状態の継続長の平均値に応じて予め設定されている。各子音の音素の各状態の継続長は、各子音の音素の各状態が話者によって発音される時間長である。具体的に、特定時間は、下記の式(2)に従って設定されている。
L=AA+2×SD ・・・(2)
【0053】
式(2)中、Lは、特定時間を表す。AAは、各子音の音素の各状態の継続長の平均値を表す。SDは、各子音の音素の各状態の継続長の標準偏差を表す。各子音の音素の各状態の継続長の平均値AA及び各子音の音素の各状態の継続長の標準偏差SDは、音声コーパスにおける各子音の音素の各状態の継続長の分布に従って取得される。
【0054】
候補区間に雑音音声信号が含まれている場合、当該雑音音声信号は、子音の音素である可能性が高く、母音の音素である可能性は低い。また、話者が子音の音素を発音する場合、話者が、当該子音の音素を、特定時間より長い時間にわたって継続して発音する可能性は低い。従って、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号は、雑音音声信号である可能性が高く、特定音声区間は、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い。発話音声区間取得部105は、候補区間中の特定音声区間以外の区間を発話音声区間として検出することにより、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。
【0055】
発話音声区間取得部105は、候補区間中の特定音声区間以外の区間のうち、時間長が予め設定された判定時間以上である区間を、発話音声区間として検出する。
【0056】
判定時間は、実験等の任意の手法によって予め設定されている。具体的に、本実施形態では、各音素の継続長の平均値に0.1を乗じることによって得られた時間長が、判定時間として設定されている。各音素の継続長の平均値は、音声コーパスにおける各音素の継続長の分布に従って取得される。
【0057】
話者が発話音声を発音する場合、話者が、当該発音音声を、判定時間よりも短い時間にわたって発音する可能性は低い。従って、候補区間中の特定音声区間以外の区間のうち、時間長が判定時間よりも短い区間は、発音音声区間である可能性は低く、雑音音声信号を含む一方で発話音声信号を含んでいない可能性が高い。発話音声区間取得部105は、候補区間中の特定音声以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出することにより、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。
【0058】
図2に示すように、発話音声区間取得部105は、相関係数算出部105aと、第2フレーム判定部105bと、特定音声区間検出部105cと、発話音声区間検出部105dと、を備えている。
【0059】
相関係数算出部105aは、各候補区間中のフレーム毎に、フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を算出する。具体的に、相関係数算出部105aは、下記の式(3)に従って相関係数を算出する。なお、各候補区間中の最初のフレームについては、当該最初のフレームの直前のフレームが存在しないため、相関係数算出部105aによる相関係数の算出対象から除外される。
【0060】
【0061】
式(3)中、ρ(tj)は、開始時刻が時刻tjであるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数である。Cは、各音素の各状態に識別子として対応付けられたインデックスのうち、子音の音素の状態に対応付けられたインデックスを要素として有する集合を表す。p(i|x(tj))は、音響特徴量x(tj)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(tj)は、開始時刻が時刻tjであるフレームに含まれる音声信号の音響特徴量を表す。AV(p(tj))は、開始時刻が時刻tjであるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の相加平均を表す。p(i|x(tj-1))は、音響特徴量x(tj-1)を有する音声信号が、インデックスiに対応付けられた音素の状態を表している事後確率を表す。音響特徴量x(tj-1)は、開始時刻が時刻tj-1であるフレームに含まれる音声信号の音響特徴量を表す。時刻tj-1は、開始時刻がtjであるフレームの直前のフレームの開始時刻である。すなわち、開始時刻が時刻tj-1であるフレームは、開始時刻がtjであるフレームの直前のフレームである。AV(p(tj-1))は、開始時刻が時刻tj-1であるフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の相加平均を表す。
【0062】
相関係数算出部105aは、確率情報記憶部104によって記憶された確率情報を確率情報記憶部104から取得し、取得した確率情報に基づいて事後確率p(i|x(tj))、事後確率p(i|x(tj-1))、相加平均AV(p(tj-1))及び相加平均AV(p(tj))を取得し、相関係数を算出する。
【0063】
具体的に、音響特徴量x(tj)は、事後確率取得部102aが、開始時刻が時刻tjであるフレームに含まれる音声信号を変換することによって取得したMFCCであり、事後確率p(i|x(tj))は、事後確率取得部102aが、当該MFCCをNN103aに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。また、音響特徴量x(tj-1)は、事後確率取得部102aが、開始時刻が時刻tj-1であるフレームに含まれる音声信号を変換することによって取得したMFCCであり、事後確率p(i|x(tj-1))は、事後確率取得部102aが、当該MFCCをNN103aに入力することによって取得した、当該音声信号がインデックスiに対応付けられた音素の状態を表している事後確率である。
【0064】
相加平均AV(p(tj))は、事後確率取得部102aが、開始時刻が時刻tjであるフレームに含まれる音声信号を変換することによって取得したMFCCをNN103aに入力することで取得した、当該音声信号が各子音の音素の各状態を表している事後確率の相加平均を算出することによって取得される。相加平均AV(p(tj-1))は、事後確率取得部102aが、開始時刻が時刻tj-1であるフレームに含まれる音声信号を変換することによって取得したMFCCをNN103aに入力することで取得した、当該音声信号が各子音の音素の各状態を表している事後確率の相加平均を算出することによって取得される。
【0065】
相関係数算出部105aは、算出した相関係数を示す情報を、第2フレーム判定部105bへ供給する。
【0066】
第2フレーム判定部105bは、各候補区間中のフレーム毎に、フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含むか否かを、予め設定された第2判定条件が成立しているか否かに基づいて判定する。第2判定条件は、相関係数算出部105aによって算出された相関係数が、予め設定された判定閾値以上である場合に成立する。判定閾値は、実験等の任意の手法によって予め設定されている。一のフレームにおいて第2判定条件が成立している場合、当該一のフレームは、当該一のフレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいる。一方、一のフレームにおいて第2判定条件が成立していない場合、当該一のフレームは、当該一のフレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいない。
【0067】
なお、相関係数算出部105aによる相関係数の算出対象から除外された各候補区間中の最初のフレームは、第2フレーム判定部105bによる判定の対象から除外される。第2フレーム判定部105bは、判定結果を示す情報を、特定音声区間検出部105cへ供給する。
【0068】
特定音声区間検出部105cは、候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第2判定条件が成立していると第2フレーム判定部105bによって判定された区間のうち、予め設定された特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する。特定個数は、下記の式(4)に従い、特定時間に応じて予め設定されている。
L=F+(Y-1)×G ・・・(4)
【0069】
式(4)中、Yは、特定個数を表す。Lは、特定時間を表す。Fは、フレーム長を表す。Gは、シフト長を表す。特定個数は、特定時間の時間長を有する区間に含まれる時間的に連続するフレームの数に相当する。従って、候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第2判定条件が成立していると第2フレーム判定部105bによって判定された区間が、特定個数よりも多い個数のフレームを含んでいる場合、当該区間は、特定時間よりも長い時間にわたって継続して発音された同一の子音の状態を表す特定音声信号を含んでいる。
【0070】
以下、
図5に示すように、候補区間取得部102によって設定された第1候補区間~第P候補区間に、第2判定条件が成立していると判定された特定個数よりも多い個数のフレームを含む区間と、第2判定条件が成立していると判定された特定個数以下の個数のフレームを含む区間と、が含まれている場合を例に用いて説明する。特定音声区間検出部105cは、
図5に示すように、これらの区間のうち、第2判定条件が成立していると判定された特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する。
【0071】
図2に戻り、発話音声区間検出部105dは、候補区間中の特定音声区間検出部105cによって検出された特定音声区間以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出する。
【0072】
以下、
図5に示すように、第1候補区間~第P候補区間中の特定音声以外の区間が、時間長が判定時間以上である区間と、時間長が判定時間よりも短い区間と、を含んでいる場合を例に用いて説明する。発話音声区間検出部105dは、
図5に示すように、これらの区間のうち、時間長が判定時間以上である区間を特定音声区間として検出する。
【0073】
図2に戻り、検出情報出力部106は、出力部13に、発話音声区間検出部105dによる発話音声区間の検出結果に対応する検出情報を出力させる。具体的に、検出情報出力部106は、
図6に示すように、出力部13が備えるディスプレイ13aに、検出情報として、発話音声区間検出部105dによる発話音声区間の検出結果を表す検出画像WWを表示させ、出力部13が備えるスピーカ13bに、検出情報として、発話音声区間検出部105dによって検出された発話音声区間が含む音声信号を出力させる。
【0074】
図6に示すように、検出画像WWは、ターゲット音声信号の音声波形を表す画像と、検出された発話音声区間を表す画像と、を含んでいる。発話音声区間検出部105dによって複数の発話音声区間が検出された場合、検出情報出力部106は、スピーカ13bに、検出された各発話音声区間が含む音声信号を、開始時刻が新しい発話音声区間が含む音声信号から順に、連続して出力させる。
【0075】
なお、発話音声区間検出部105dによって発話音声区間が検出されなかった場合、検出情報出力部106は、出力部13に、発話音声区間が検出されなかった旨を報知する非検出情報を出力させる。具体的に、検出情報出力部106は、ディスプレイ13aに、非検出情報として、「発話音声区間が検出されませんでした。」というメッセージを表す画像を表示させ、スピーカ13bに、非検出情報として、「発話音声区間が検出されませんでした。」というメッセージを表す音声信号を出力させる。
【0076】
以下、上述した物理的・機能的構成を備える音声区間検出装置1が実行する音声区間検出処理について、
図7~
図9のフローチャートを参照して説明する。
【0077】
音声区間検出装置1は、PC、スマートフォン等の外部の情報処理装置によって生成されたターゲット音声データを、当該外部の情報処理装置から通信部14を介して受信し、記憶部11に予め記憶している。
【0078】
この状態において、ユーザが、入力部12を操作することによって発話音声区間の検出開始を指示すると、制御部10は、
図7のフローチャートに示す音声区間検出処理を開始する。
【0079】
音声区間検出処理が開始されると、まず、ターゲット音声データ取得部100が、記憶部11に記憶されたターゲット音声データを取得する(ステップS101)。フレーム設定部101は、ステップS101で取得されたターゲット音声データが表すターゲット音声信号中に、時間的に連続する複数のフレームを設定する(ステップS102)。具体的に、ステップS102において、フレーム設定部101は、開始時刻がターゲット音声信号の先頭と一致し、時間長がフレーム長Fである時間窓を、ターゲット音声信号中の最初のフレームである第0フレームとして設定した後、開始時刻が一のフレームの開始時刻よりシフト長Gだけ後の時刻であり、時間長がフレーム長Fである時間窓の終了時刻がターゲット音声信号の末尾よりも後の時刻であるか否かを判定し、当該終了時刻がターゲット音声信号の末尾よりも後の時刻ではないと判定したときに、当該時間窓を当該一のフレームの直後のフレームとして設定する処理を、当該終了時刻がターゲット音声信号の末尾よりも後の時刻であると判定されるまで繰り返し実行することにより、ターゲット音声信号中に、時間的に連続する複数のフレームを設定する。
【0080】
ステップS102の処理が実行された後、候補区間取得部102が、候補区間取得処理を実行する(ステップS103)。以下、ステップS103の候補区間取得処理について、
図8のフローチャートを参照して説明する。
【0081】
候補区間取得処理が開始されると、まず、候補区間取得部102が、ステップS101において取得されたターゲット音声データが表すターゲット音声信号中の最初のフレームを処理対象のフレームとして指定する(ステップS201)。
【0082】
ステップS201の処理が実行された後、事後確率取得部102aが、指定された処理対象のフレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する(ステップS202)。具体的に、事後確率取得部102aは、処理対象のフレームに含まれる音声信号をMFCCへ変換し、当該MFCCをNN記憶部103によって記憶されたNN103aの入力層に入力し、当該入力に応答してNN103aの出力層の各ユニットIO1~IOwによって出力された出力値をソフトマックス関数に入力することによって当該処理対象のフレームに含まれる音声信号が各音素の各状態を表している事後確率を取得する。事後確率取得部102aは、取得した事後確率を表す確率情報を確率情報記憶部104に記憶させる。
【0083】
第1フレーム判定部102bは、指定された処理対象のフレームにおいて第1判定条件が成立しているか否かを、上述した式(1)が成立しているか否かをステップS202で取得された事後確率に基づいて判定することによって判定する(ステップS203)。
【0084】
ステップS203の処理が実行された後、候補区間取得部102が、ステップS101において取得されたターゲット音声データが表すターゲット音声信号中の全てのフレームを処理対象のフレームとして指定済みであるか否かを判定する(ステップS204)。ターゲット音声信号中のフレームのうち処理対象のフレームとして未だ指定されていないフレームがあると判定すると(ステップS204;No)、候補区間取得部102は、ターゲット音声信号中のフレームのうち処理対象のフレームとして現在指定されているフレームの直後のフレームを処理対象のフレームとして指定し(ステップS206)、処理はステップS202へ戻る。
【0085】
候補区間取得部102は、処理対象のフレームとして指定されるフレームを変更しつつ、ステップS204においてYesと判定されるまでステップS202~S204の処理を繰り返すことにより、ターゲット音声信号中のフレーム毎に、フレームに含まれる音声信号が各音素の各状態を表している事後確率を取得し、フレームにおいて第1判定条件が成立しているか否かを判定する。
【0086】
ステップS204において、ターゲット音声信号中の全てのフレームを処理対象のフレームとして指定済みであると判定されると(ステップS204;Yes)、候補区間設定部102cが、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第1判定条件が成立しているとステップS203において判定された区間を、候補区間として設定し(ステップS205)、候補区間取得処理を終了する。なお、ターゲット音声信号中の区間であり、当該区間に含まれている全てのフレームにおいて第1判定条件が成立していると判定された区間が存在しない場合、候補区間設定部102cは、発話音声区間が検出されなかったと判定して、音声区間検出処理を終了する。
【0087】
図7に戻り、ステップS103において候補区間取得処理が実行された後、発話音声区間取得部105が、発話音声区間取得処理を実行する(ステップS104)。以下、ステップS104の発話音声区間取得処理について、
図9のフローチャートを参照して説明する。
【0088】
発話音声区間取得処理が開始されると、まず、発話音声区間取得部105が、ステップS205においてターゲット音声信号中に設定された候補区間のうち最初の候補区間を処理対象の候補区間として指定する(ステップS301)。ターゲット音声信号中の候補区間のうち最初の候補区間は、当該ターゲット音声信号中の候補区間のうち開始時刻が最も古い候補区間である。ステップS301の処理が実行された後、発話音声区間取得部105が、指定された処理対象の候補区間中のフレームのうち最初のフレームの直後のフレームを処理対象のフレームとして指定する(ステップS302)。
【0089】
ステップS302の処理が実行された後、相関係数算出部105aが、指定された処理対象のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該処理対象のフレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を、上述した式(3)に従って算出する(ステップS303)。
【0090】
ステップS303の処理が実行された後、第2フレーム判定部105bが、指定された処理対象のフレームにおいて第2判定条件が成立しているか否かを、ステップS303において算出された相関係数が判定閾値以上であるか否かを判定することによって判定する(ステップS304)。
【0091】
ステップS304の処理が実行された後、発話音声区間取得部105は、指定された処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外の全てのフレームを処理対象のフレームとして指定済みであるか否かを判定する(ステップS305)。処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外に処理対象のフレームとして未だ指定されていないフレームがあると判定すると(ステップS305;No)、発話音声区間取得部105は、当該処理対象の候補区間中のフレームのうち処理対象のフレームとして現在指定されているフレームの直後のフレームを処理対象のフレームとして指定し(ステップS309)、処理はステップS303へ戻る。
【0092】
発話音声区間取得部105は、処理対象のフレームとして指定されるフレームを変更しつつ、ステップS305においてYesと判定されるまでステップS303~S305の処理を繰り返すことにより、指定された処理対象の候補区間中の最初のフレーム以外のフレーム毎に、フレームに係る相関係数を算出し、フレームにおいて第2判定条件が成立しているか否かを判定する。
【0093】
ステップS305において、指定された処理対象の候補区間中のフレームのうち、当該処理対象の候補区間中の最初のフレーム以外の全てのフレームを処理対象のフレームとして指定済みであると判定されると(ステップS305;Yes)、特定音声区間検出部105cが、当該処理対象の候補区間中の区間であり、当該区間に含まれる全てのフレームにおいて第2判定条件が成立しているとステップS304において判定され、特定個数よりも多い個数のフレームを含む区間を、特定音声区間として検出する(ステップS306)。
【0094】
ステップS306の処理が実行された後、発話音声区間検出部105dは、指定された処理対象の候補区間中のステップS306において検出された特定音声区間以外の区間のうち、時間長が判定時間より長い区間を発話音声区間として検出する(ステップS307)。
【0095】
ステップS307の処理が実行された後、発話音声区間取得部105は、ステップS205において設定された候補区間のうち全ての候補区間を処理対象の候補区間として指定済みであるか否かを判定する(ステップS308)。ステップS205において設定された候補区間のうち処理対象の候補区間として未だ指定されていない候補区間があると判定すると(ステップS308;No)、発話音声区間取得部105は、ステップS205において設定された候補区間のうち、処理対象の候補区間として現在指定されている候補区間の直後の候補区間を処理対象の候補区間として指定し(ステップS310)、処理はステップS302へ戻る。一の候補区間の直後の候補区間は、当該一の候補区間に次いで開始時刻が新しい候補区間である。
【0096】
発話音声区間取得部105は、処理対象の候補区間として指定される候補区間を変更しつつ、ステップS308においてYesと判定されるまでステップS302~S308の処理を繰り返すことにより、ステップS205において設定された候補区間毎に、候補区間に含まれる発話音声区間を検出する。
【0097】
ステップS308において、ステップS205において設定された全ての候補区間を処理対象の候補区間として指定済みであると判定すると(ステップS308;Yes)、発話音声区間取得部105は、発話音声区間取得処理を終了する。
【0098】
図7に戻り、ステップS104において発話音声区間取得処理が実行された後、検出情報出力部106が、出力部13に、ステップS104における発話音声区間の検出結果に対応する検出情報を出力させ(ステップS105)、音声区間検出処理を終了する。具体的に、ステップS105において、検出情報出力部106は、出力部13が備えるディスプレイ13aに、検出情報として、ステップS104における発話音声区間の検出結果を表す検出画像WWを表示させ、出力部13が備えるスピーカ13bに、検出情報として、ステップS104において検出された発話音声区間が含む音声信号を出力させる。なお、ステップS104において発話音声区間が検出されなかった場合、検出情報出力部106は、出力部13に、非検出情報を出力させる。
【0099】
以上説明したとおり、音声区間検出装置1は、ターゲット音声信号中の候補区間から、特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を検出し、候補区間中の検出された特定音声区間以外の区間を発話音声区間として検出する。このような構成によれば、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。
【0100】
また、音声区間検出装置1は、候補区間中の特定音声区間以外の区間のうち、時間長が判定時間以上である区間を発話音声区間として検出する。このような構成によれば、雑音音声信号を含む一方で発話音声信号を含まない区間を発話音声区間として誤って検出してしまう可能性を低減し、発話音声区間の検出精度を向上させることができる。
【0101】
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
【0102】
例えば、上記実施形態では、ターゲット音声データ取得部100が、記憶部11に予め記憶されたターゲット音声データを、記憶部11から取得するものとして説明した。しかし、これは一例に過ぎず、ターゲット音声データ取得部100は、任意の方法によってターゲット音声データを取得できる。例えば、音声区間検出装置1が、マイクロフォンを備えるように構成し、ターゲット音声データ取得部100が、当該マイクロフォンに、ターゲット音声信号を録音することによってターゲット音声データを生成させ、生成されたターゲット音声データを当該マイクロフォンから取得するようにしてもよい。
【0103】
また、上記実施形態では、事後確率取得部102aが、NN記憶部103によって記憶されたNN103aを用いて事後確率を取得するものとして説明した。しかし、これは一例に過ぎず、事後確率取得部102aは、任意の方法によって事後確率を取得できる。例えば、事後確率取得部102aは、HMM(Hidden Markov Model)を用いて事後確率を取得してもよい。HMMは、音声信号に基づいて、当該音声信号が出力される元になった音素の状態を確率的に推定するためのモデルである。HMMは、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された音響特徴量を出力する事後確率と、をパラメータとした標準パターンを用いる。HMMは、フレームに含まれる音声信号の音響特徴量が入力されると、当該音響特徴量が各音素の各状態から出力される事後確率の確率分布を、複数のガウス分布を重み付きで加算した混合ガウス分布の形式で出力する。
【0104】
また、上記実施形態では、音響モデルとしてモノフォンモデルを用いるものとして説明した。しかし、これは一例に過ぎず、任意の音響モデルを用いることができる。例えば、音響モデルとして、バイフォンモデルを用いてもよい。バイフォンモデルは、2音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。バイフォンモデルは、前後片方の音素の状態との状態遷移を考慮した音響モデルである。或いは、音響モデルとして、トライフォンモデルを用いてもよい。トライフォンモデルは、3音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。トライフォンモデルは、前後両方の音素の状態との状態遷移を考慮した音響モデルである。
【0105】
また、上記実施形態では、事後確率取得部102aは、フレーム毎に、フレームに含まれる音声信号が、モノフォンモデルにおける各音素の3状態それぞれを表している事後確率を取得するものとして説明した。しかし、これは一例に過ぎず、事後確率取得部102aは、各フレームに含まれる音声信号が、バイフォンモデルにおける各音素の3状態それぞれを表している事後確率を取得してもよい。なお、この場合、NN103aの出力層の各ユニットIO1~IOwを、それぞれ、バイフォンモデルにおける各音素の各状態に対応付けておけばよい。或いは、事後確率取得部102aは、各フレームに含まれる音声信号が、トライフォンモデルにおける各音素の3状態それぞれを表している事後確率を取得してもよい。なお、この場合、NN103aの出力層の各ユニットIO1~IOwを、それぞれ、トライフォンモデルにおける各音素の各状態に対応付けておけばよい。或いは、事後確率取得部102aは、各フレームに含まれる音声信号が、各音素を表している事後確率を取得してもよい。なお、この場合、NN103aの出力層の各ユニットIO1~IOwを、それぞれ、各音素に対応付けておけばよい。
【0106】
また、上記実施形態では、特定時間が、上述した式(2)に従って設定されるものとして説明した。しかし、これは一例に過ぎず、特定時間は、各子音の音素の各状態の継続長の平均値に応じて、任意の方法で設定できる。例えば、各子音の音素の各状態の継続長の平均値の2倍の時間長を特定時間として設定してもよい。
【0107】
また、上記実施形態では、相関係数算出部105aが、候補区間中のフレーム毎に、フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該フレームの直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数を、上述した式(3)に従って算出するものとして説明した。しかし、これは一例に過ぎず、相関係数算出部105aは、任意の方法で相関係数を算出することができる。
【0108】
また、上記実施形態では、検出情報出力部106が、ディスプレイ13aに、検出情報として検出画像WWを表示させ、スピーカ13bに、検出情報として、検出された発話音声区間が含む音声信号を出力させるものとして説明した。しかし、これは一例に過ぎず、検出情報出力部106は、任意の方法によって検出情報を出力することができる。例えば、音声区間検出装置1が、紙、プラスチック等の印刷媒体に印刷画像を印刷する印刷装置を備えるように構成し、検出情報出力部106が、当該印刷装置に、検出情報として、発話音声区間検出部105dによる発話音声区間の検出結果を表す印刷画像を印刷媒体に印刷させることにより、検出情報を出力するようにしてもよい。発話音声区間検出部105dによる発話音声区間の検出結果を表す印刷画像の具体例としては、ターゲット音声信号の音声波形を表す画像と、検出された発話音声区間を表す画像と、を含む印刷画像が挙げられる。
【0109】
また、上記実施形態では、音声区間検出装置1は、発話音声区間の検出を行った後、当該検出の結果に対応する検出情報を出力するものとして説明した。しかし、これは一例に過ぎず、音声区間検出装置1は、発話音声区間の検出を行った後、当該検出の結果に応じた任意の処理を実行できる。例えば、音声区間検出装置1は、発話音声区間の検出を行った後、検出された発話音声区間に含まれた音声信号を対象として音声認識を実行してもよい。或いは、音声区間検出装置1は、発話音声区間の検出を行った後、検出された発話音声区間に含まれた音声信号を対象として、音声信号に基づく話者の感情認識を実行してもよい。
【0110】
なお、本発明に係る機能を実現するための構成を予め備えた音声区間検出装置として提供できることはもとより、プログラムの適用により、PC、スマートフォン等の既存の情報処理装置を、本発明に係る音声区間検出装置として機能させることもできる。すなわち、本発明に係る音声区間検出装置の各機能構成を実現させるためのプログラムを、既存の情報処理装置を制御するCPU等が実行できるように適用することで、当該既存の情報処理装置を本発明に係る音声区間検出装置として機能させることができる。
【0111】
なお、このようなプログラムの適用方法は任意である。プログラムを、例えば、フレキシブルディスク、CD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM、メモリーカード等のコンピュータ読み取り可能な記憶媒体に格納して適用できる。さらに、プログラムを搬送波に重畳し、インターネットなどの通信媒体を介して適用することもできる。例えば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)にプログラムを掲示して配信してもよい。そして、このプログラムを起動し、OS(Operating System)の制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。
【0112】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
【0113】
(付記1)
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段と、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段と、
を備えることを特徴とする音声区間検出装置。
【0114】
(付記2)
前記特定音声区間検出手段は、前記特定音声区間を、前記ターゲット音声信号中の候補区間から検出し、
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間を、前記発話音声区間として検出することを特徴とする付記1に記載の音声区間検出装置。
【0115】
(付記3)
前記発話音声区間検出手段は、前記候補区間中の前記特定音声区間検出手段によって検出された前記特定音声区間以外の区間のうち時間長が判定時間以上である区間を、前記発話音声区間として検出することを特徴とする付記2に記載の音声区間検出装置。
【0116】
(付記4)
前記ターゲット音声信号中の時間的に連続する複数のフレームの各々について、各フレームが、当該フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいるか否かを、当該フレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、当該直前のフレームに含まれる音声信号が各子音の音素の各状態を表している事後確率の確率分布と、の相関の程度を表す相関係数が閾値以上であるか否かに基づいて判定するフレーム判定手段をさらに備え、
前記特定音声区間検出手段は、前記ターゲット音声信号中の区間であり、特定個数より多い個数のフレームを含み、かつ、当該区間に含まれる全てのフレームの各々が、各フレームの直前のフレームに含まれる子音の音素の状態を表す音声信号と同一の音声信号を含んでいると前記フレーム判定手段によって判定された区間を、前記特定音声区間として検出することを特徴とする付記1乃至3の何れか一つに記載の音声区間検出装置。
【0117】
(付記5)
前記特定時間は、各子音の音素の各状態が話者によって発音される時間長の平均値に応じた時間であることを特徴とする付記1乃至4の何れか一つに記載の音声区間検出装置。
【0118】
(付記6)
前記発話音声区間検出手段による前記発話音声区間の検出の結果に対応する検出情報を出力装置より出力することを特徴とする付記1乃至5の何れか一つに記載の音声区間検出装置。
【0119】
(付記7)
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出ステップと、
前記特定音声区間検出ステップにおける検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出ステップと、
を備えることを特徴とする音声区間検出方法。
【0120】
(付記8)
コンピュータを、
特定時間より長い時間にわたって継続して発音された同一の子音の音素の状態を表す特定音声信号を含む特定音声区間を、ターゲット音声信号から検出する特定音声区間検出手段、
前記特定音声区間検出手段による検出の結果に従って、話者によって発音された発話音声を表す発話音声信号を含む発話音声区間を、前記ターゲット音声信号から検出する発話音声区間検出手段、
として機能させることを特徴とするプログラム。
【符号の説明】
【0121】
1…音声区間検出装置、10…制御部、11…記憶部、12…入力部、13…出力部、13a…ディスプレイ、13b…スピーカ、14…通信部、15…電源部、100…ターゲット音声データ取得部、101…フレーム設定部、102…候補区間取得部、102a…事後確率取得部、102b…第1フレーム判定部、102c…候補区間設定部、103…NN記憶部、103a…NN、104…確率情報記憶部、105…発話音声区間取得部、105a…相関係数算出部、105b…第2フレーム判定部、105c…特定音声区間検出部、105d…発話音声区間検出部、106…検出情報出力部、F…フレーム長、G…シフト長、T…ターゲット音声信号の時間長、WW…検出画像、IN1~INv…NNの入力層のユニット、IO1~IOw…NNの出力層のユニット