(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023055554
(43)【公開日】2023-04-18
(54)【発明の名称】解説音声挿入タイミング学習装置およびそのプログラム、ならびに、解説音声挿入タイミング検出装置およびそのプログラム
(51)【国際特許分類】
G10L 13/02 20130101AFI20230411BHJP
G10L 25/30 20130101ALI20230411BHJP
【FI】
G10L13/02 130C
G10L25/30
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021165031
(22)【出願日】2021-10-06
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】一木 麻乃
(72)【発明者】
【氏名】都木 徹
(57)【要約】
【課題】番組の音声に対して、文意を損なわないで音声重複を許容した解説音声の挿入タイミングを学習することが可能な解説音声挿入タイミング学習装置を提供する。
【解決手段】解説音声挿入タイミング学習装置1は、音声から音声フレームごとの音響特徴量を抽出する音響特徴量抽出手段10と、音声フレームの区間ごとに解説音声の挿入可否を示す種別を判定する種別判定モデルに音響特徴量を時系列に入力し、音声フレームの種別を確率値として算出する種別判定手段12と、確率値と教師データとに基づいて種別判定の誤差を算出する誤差算出手段13と、誤差に基づいて種別判定モデルのパラメータを更新するパラメータ更新手段14と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における前記音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルを学習する解説音声挿入タイミング学習装置であって、
前記音声から前記音声フレームごとに音響特徴量を抽出する音響特徴量抽出手段と、
前記種別判定モデルに、前記音響特徴量抽出手段で抽出された音響特徴量を時系列に入力し、前記音声フレームの種別の確率値を種別判定結果として算出する種別判定手段と、
前記種別判定手段で算出された確率値と前記教師データとに基づいて、種別判定の誤差を算出する誤差算出手段と、
前記誤差算出手段で算出された誤差に基づいて、前記種別判定モデルのパラメータを更新することで、前記種別判定モデルを学習するパラメータ更新手段と、
を備えることを特徴とする解説音声挿入タイミング学習装置。
【請求項2】
前記重複挿入許可区間は、前記発話区間の終端位置から予め定めた時間区間だけ遡った時間区間であることを特徴とする請求項1に記載の解説音声挿入タイミング学習装置。
【請求項3】
前記種別判定手段は、前記種別判定モデルを用いて、時系列に入力される前記音響特徴量に対して、リカレントニューラルネットのLSTMと全結合層との演算を行い、前記種別の数のノードの出力値をソフトマックス関数により正規化して出力することを特徴とする請求項1または請求項2に記載の解説音声挿入タイミング学習装置。
【請求項4】
前記音響特徴量抽出手段は、ピッチ周波数を前記音響特徴量として抽出することを特徴とする請求項1から請求項3のいずれか一項に記載の解説音声挿入タイミング学習装置。
【請求項5】
コンピュータを、請求項1から請求項4のいずれか一項に記載の解説音声挿入タイミング学習装置として機能させるための解説音声挿入タイミング学習プログラム。
【請求項6】
音声から解説音声の挿入タイミングを検出する解説音声挿入タイミング検出装置であって、
前記音声から音声フレームごとに音響特徴量を抽出する音響特徴量抽出手段と、
前記音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を判定する予め学習されたニューラルネットワークの種別判定モデルに、前記音響特徴量を時系列に入力し、前記音声フレームの種別の確率値を種別判定結果として算出する種別判定手段と、
前記種別判定手段で算出された最大の確率値の種別を前記音声フレームの種別として決定する種別決定手段と、
を備えることを特徴とする解説音声挿入タイミング検出装置。
【請求項7】
コンピュータを、請求項6に記載の解説音声挿入タイミング検出装置として機能させるための解説音声挿入タイミング検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、主音声に対して副音声で挿入する解説音声の挿入タイミングを学習する解説音声挿入タイミング学習装置およびそのプログラム、ならびに、挿入タイミングを検出する解説音声挿入タイミング検出装置およびそのプログラムに関する。
【背景技術】
【0002】
現在、視覚障害者向けの放送サービスとして、放送本線の番組音声に対して、映像に関する説明を音声で解説する解説放送が実施されている。
通常、解説放送は、主音声で放送される番組音声と副音声で放送される解説音声とが重なって同時に聞こえることがないように、番組音声のない区間(「間」)に解説音声が収まるように編集されている。
従来、音響特徴量であるピッチ周波数の短期・長期の移動平均を利用し、発話末を「間」の先頭として検出する手法が開示されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
解説音声を挿入する必要のある番組シーンの多くは、番組音声と重なる(以降、音声重複)可能性が高い。
この解説音声自体を短く生成し、番組音声の「間」に挿入することが可能な場合もあるが、番組音声とまったく重ならないように解説音声を挿入することは困難である。
特許文献1に記載の手法を用いて発話末を検出できたとしても、番組音声の「間」に解説音声を挿入する困難な状況を解決することはできない。
また、特許文献1に記載の手法は、短期・長期の移動平均を利用するため、発話末を検出するタイミングに遅れが発生する場合がある。
【0005】
本発明は、このような問題に鑑みてなされたもので、番組の音声に対して、文意を損なわないで音声重複を許容した解説音声の挿入タイミングを学習することが可能な解説音声挿入タイミング学習装置およびそのプログラム、ならびに、挿入タイミングの遅れを軽減して検出することが可能な解説音声挿入タイミング検出装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するため、本発明に係る解説音声挿入タイミング学習装置は、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における前記音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルを学習する解説音声挿入タイミング学習装置であって、音響特徴量抽出手段と、種別判定手段と、誤差算出手段と、パラメータ更新手段と、を備える構成とした。
【0007】
かかる構成において、解説音声挿入タイミング学習装置は、音響特徴量抽出手段によって、音声から予め定めた時間長である音声フレームごとに、ピッチ周波数等の音響特徴量を抽出する。
そして、解説音声挿入タイミング学習装置は、種別判定手段によって、音響特徴量抽出手段で抽出された音響特徴量を種別判定モデルに時系列に入力し、音声フレームの種別の確率値を種別判定結果として算出する。
さらに、解説音声挿入タイミング学習装置は、誤差算出手段によって、種別判定手段で算出された確率値と教師データとに基づいて、種別判定の誤差を算出する。
そして、解説音声挿入タイミング学習装置は、パラメータ更新手段によって、誤差算出手段で算出された誤差に基づいて種別判定モデルのパラメータを更新する。誤差を小さくする方向にパラメータを更新することで、種別判定モデルが学習されることになる。
【0008】
このように、解説音声挿入タイミング学習装置は、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間を学習することで、番組の音声に対して、文意を損なわないで、解説音声を挿入する区間を拡げることが可能になる。
なお、解説音声挿入タイミング学習装置は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング学習プログラムで動作させることができる。
【0009】
また、前記課題を解決するため、本発明に係る解説音声挿入タイミング検出装置は、音声から解説音声の挿入タイミングを検出する解説音声挿入タイミング検出装置であって、音響特徴量抽出手段と、種別判定手段と、種別決定手段と、を備える構成とした。
【0010】
かかる構成において、解説音声挿入タイミング検出装置は、音響特徴量抽出手段によって、音声から予め定めた時間長である音声フレームごとに、ピッチ周波数等の音響特徴量を抽出する。
そして、解説音声挿入タイミング検出装置は、種別判定手段によって、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を判定する予め学習されたニューラルネットワークの種別判定モデルに、音響特徴量を時系列に入力し、音声フレームの種別の確率値を種別判定結果として算出する。
そして、解説音声挿入タイミング検出装置は、種別決定手段によって、種別判定手段で算出された最大の確率値の種別を前記音声フレームの種別として決定する。
【0011】
これによって、解説音声挿入タイミング検出装置は、番組の音声に対して、文意を損なわないで、解説音声を挿入する区間を拡げた挿入区間を検出することができる。
また、解説音声挿入タイミング検出装置は、音声フレーム単位で挿入区間の先頭を検出することができるため、リアルタイムで解説音声を挿入する場合でも、素早く解説音声の挿入タイミングを検出することができる。
なお、解説音声挿入タイミング検出装置は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング検出プログラムで動作させることができる。
【発明の効果】
【0012】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、番組の音声に対して、文意を損なわない音声重複を許容した解説音声の挿入タイミングを検出することができる。
これによって、本発明は、番組内の解説音声を挿入する時間を従来のよりも長く確保することができる。また、本発明は、リアルタイムで解説音声を挿入する場合に、解説音声の挿入タイミングを素早く検出することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の第1実施形態に係る解説音声挿入タイミング学習装置の構成を示すブロック構成図である。
【
図2】本発明の第1実施形態に係る解説音声挿入タイミング学習装置に入力する教師データの内容を説明するための説明図である。
【
図3】音響特徴量から発話区間の種別を判定する種別判定モデルのニューラルネットワークの構成例を示すネットワーク図である。
【
図4】種別判定モデルの出力データを説明するための説明図である。
【
図5】本発明の第1実施形態に係る解説音声挿入タイミング学習装置の動作を示すフローチャートである。
【
図6】本発明の第2実施形態に係る解説音声挿入タイミング検出装置の構成を示すブロック構成図である。
【
図7】本発明の第2実施形態に係る解説音声挿入タイミング検出装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。ただし、本発明はテレビ音声に解説をつけることを目的としているが、テレビ音声に限らずロボットやスマートスピーカーなどの機械と会話する場合に、人への機械の応答において、音声を返すタイミングを早期に決めることにも応用できる。これにより、機械からの応答時に少しの「間」を空けることなく人との会話に近い形で実現することが可能になる。
【0015】
[解説音声挿入タイミング学習装置の構成]
最初に、
図1を参照して、本発明の第1実施形態に係る解説音声挿入タイミング学習装置1の構成について説明する。
【0016】
解説音声挿入タイミング学習装置1は、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルNを学習するものである。
【0017】
音声Vは、人物の発話区間の音声を含んだデータ(デジタルデータ)である。解説音声挿入タイミング学習装置1が音声に解説音声を挿入するタイミングを学習するものであるため、音声Vは、実際に予測したい音声と同じ話者であるか、話者に似た音声であると精度は上がるが、用いるデータ量が多ければ、不特定の音声を用いたり、複数話者での音声でもよい。
【0018】
種別ラベルLは、音声Vに対応する所定時間区間ごとの音声フレーム(以下、単にフレームという)の種別を表したラベル(数値、符号等)である。この種別ラベルLは、所定時間区間(例えば、10ms〔ミリ秒〕)のフレームごとに、少なくとも解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間とを識別可能ならラベルとする。なお、種別ラベルLは、音声Vに対応して予め生成された教師データである。
【0019】
ここで、
図2を参照して、教師データである種別ラベルLの具体例について説明する。
図2では、説明を分かりやすくするため、音声Vを音声波形で表し、発話テキストを参考として記載している。
ここでは、音声Vを区分する種別として、種別ラベルL1~L5の5つの種別を用いることとする。1つの発話区間(全発話区間ALL)の終端位置Eを基準として、終端位置Eから所定時間遡った区間に、「語尾」を示す種別ラベルL3を付与する。「語尾」(種別ラベルL3)からさらに所定時間遡った区間に、「終端間近」を示す種別ラベルL2を付与する。例えば、「語尾」(種別ラベルL3)は、終端位置Eから200ms遡った区間、「終端間近」(種別ラベルL3)は、「語尾」の先頭からさらに200ms遡った区間とする。これは、「終端間近」や「語尾」がそれぞれ2モーラ(200~300ms)であることが多いためであるが、厳密な時間ではない。
【0020】
種別ラベルL1は、全発話区間ALLから、種別ラベルL2,L3の区間を除いた区間に付与するラベルである。この種別ラベルL1の発話によって、発話内容を概ね把握することが可能である。
【0021】
種別ラベルL4は、終端位置Eから次の発話の先頭までの「間」の区間に付与するラベルである。なお、種別ラベルL4は、解説音声を挿入可能な非発話区間(例えば、200ms以上)に対して付与する。
解説音声を挿入できない短い非発話区間(例えば、200ms未満)に対しては、種別ラベルL5を付与する。なお、解説音声を挿入可能な時間があっても、種別ラベルL1に続く非発話区間については、種別ラベルL5を付与することとする。これは、例えば、ピッチ周波数が高い状態で発話の継続性が高いにも関わらず、種別ラベルL4を設定することで、発話の継続性が低く解説音声を挿入可能であると誤って学習されてしまうことを防止するためである。
【0022】
教師データとなる種別ラベルLは、音声Vを区分する種別を、所定時間長(例えば、10ms)のフレームごとに設定したラベル列である。
例えば、種別ラベルLは、音声Vの種別ラベルL1の時間区間において、10msごとに数値“1”を連続して設定する。また、種別ラベルLは、音声Vの種別ラベルL2の時間区間において、10msごとに数値“2”を連続して設定する。種別ラベルL3~L5についても同様である。すなわち、種別ラベルLの意味は、以下の表に示すとおりである。
【0023】
【0024】
ただし、非発話(所定時間以上)であっても、直前が種別ラベルL1であれば、種別ラベルL5とする。
種別ラベルL1,L2,L5の区間が、解説音声の挿入を禁止する挿入禁止区間に相当する。また、種別ラベルL3の区間が、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間に相当する。また、種別ラベルL4の区間が、非発話区間において解説音声の挿入を許可する挿入許可区間に相当する。
【0025】
図1に戻って説明を続ける。
図1に示すように、解説音声挿入タイミング学習装置1は、音響特徴量抽出手段10と、記憶手段11と、種別判定手段12と、誤差算出手段13と、パラメータ更新手段14と、を備える。
【0026】
音響特徴量抽出手段10は、音声Vからフレームごとの音響特徴量を抽出するものである。ここでは、音響特徴量抽出手段10は、音声Vを所定のフレーム長(例えば、10ms)、所定のシフト幅(例えば、10ms)で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。例えば、音響特徴量抽出手段10は、音声Vからフレームごとのピッチ周波数を抽出する。
なお、音響特徴量抽出手段10は、音響特徴量としてピッチ周波数以外に、パワー、MFCC(メル周波数ケプストラム係数)、フィルタバンク等を抽出することとしてもよい。これらの音響特徴量は、一般的な音響解析により求めることができるため、解析手法についての詳細な説明を省略する。
音響特徴量抽出手段10は、抽出したフレームごとの音響特徴量を種別判定手段12に出力する。
【0027】
記憶手段11は、ニューラルネットワークのモデルを記憶するものである。この記憶手段11は、半導体メモリ等の一般的な記憶媒体で構成することができる。ここでは、記憶手段11は、種別判定モデルNを記憶する。
種別判定モデルNは、音響特徴量を時系列に入力し、音声のフレームごとの種別を判定するニューラルネットワーク、具体的にはそのパラメータである。種別判定モデルNは、学習対象のモデルであって、パラメータには、予め初期値を設定しておく。
【0028】
種別判定モデルNの入力は、予め定めた数の音響特徴量である。この種別判定モデルNに入力される音響特徴量は、時系列に順次、1フレームずつシフトして入力される。
種別判定モデルNの出力は、予め定めた種別ラベルの総数分のノードの出力値である。各ノードの出力は、正規化された確率値を示し、その合計は“1”となる。
【0029】
この種別判定モデルNのニューラルネットワークの構造は、前記したデータの入出力を満たせば何でもよい。具体的には、種別判定モデルNは、時系列データを扱うRNN(Recurrent Neural Network)の一種であるLSTM(Long Short Term Memory)と、全結合層と、ソフトマックス(softmax)関数とを組み合わせて実現することができる。
【0030】
例えば、種別判定モデルNは、
図3に示すように、入力層IL、中間層MLおよび出力層OLを有するニューラルネットワークで実現することができる。
入力層ILは、1フレームごとに音響特徴量を入力する層である。ここでは、音響特徴量を300個(f1~f300)が時系列に順次、1フレームずつシフトして入力される。
中間層MLは、2層のLSTM層ML1である順方向のLSTMおよび逆方向のLSTMと、全結合層ML2である順伝播型ニューラルネットワーク(FFNN)とで構成される層である。順方向のLSTMは、入力される先頭の音響特徴量f1から最後の音響特徴量f300までLSTMの演算を繰り返す。また、逆方向のLSTMは、最後の音響特徴量f300から先頭の音響特徴量f1までLSTMの演算を繰り返す。そして、中間層MLは、2層のLSTM層ML1の演算結果であるそれぞれのベクトルを連結したベクトルを、さらに、全結合層ML2を介して出力ベクトルとする。
出力層OLは、中間層MLから出力される出力ベクトルの各要素の値に重みを付加して加算し正規化することで、出力ノードにおける比率(確率値)を計算する層である。この確率値が最大となるノードに対応する種別が判定結果となる。
【0031】
なお、出力層OLは、
図4に示すように、中間層MLから出力される出力ベクトル(中間層出力MLout)に対して、ノード数を、種別ラベルの数(ここでは5個)とする。
この出力層OLは、ノード(n1~n5)ごとに入力される値を、ソフトマックス関数を用いて正規化することで、種別ラベルL1~L5に対する確率値P1~P5を算出する。
図1に戻って、解説音声挿入タイミング学習装置1の構成について説明を続ける。
【0032】
種別判定手段12は、種別判定モデルNに、音響特徴量抽出手段10で抽出された音響特徴量を時系列に入力し、フレームごとの種別の確率値を種別判定結果として算出するものである。
ここでは、種別判定手段12は、時系列に抽出されるフレームごとの音響特徴量を順次シフトし、最大300個分の音響特徴量を種別判定モデルN(
図3参照)に入力し、種別判定モデルNの演算を行うことで、種別ラベルL1~L5に対する確率値P1~P5を算出する(
図4参照)。
種別判定手段12は、算出した種別ラベルL1~L5に対する確率値P1~P5を種別判定結果として、誤差算出手段13に出力する。
【0033】
誤差算出手段13は、種別判定手段12で算出された確率値と教師データとに基づいて、種別判定の誤差を算出するものである。
ここでは、誤差算出手段13は、種別判定手段12で算出された種別判定結果において、教師データである種別ラベルLで示される種別に対応する確率値と、“1”との差分を誤差として算出する。例えば、誤差算出手段13は、種別ラベルLでフレームに対応する種別としてL3(語尾)が設定されていた場合、種別判定手段12で算出された種別ごとの確率値のうちで、種別ラベルL3に対応する確率値と、“1”との差分を誤差として算出する。
誤差算出手段13は、算出した誤差をパラメータ更新手段14に出力する。
【0034】
パラメータ更新手段14は、誤差算出手段13で算出された誤差に基づいて、種別判定モデルNのパラメータを更新するものである。すなわち、パラメータ更新手段14は、誤差を小さくする方向にパラメータを更新する。
パラメータ更新手段14におけるパラメータの更新には、例えば、確率的勾配降下法(SGD:Stochastic Gradient Descent)、Adam(Adaptive moment estimation)等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段14は、確率的勾配降下法等によって、記憶手段11に記憶されている種別判定モデルNのパラメータを更新する。
なお、パラメータ更新手段14は、パラメータ更新の終了条件に達するまで、パラメータを更新とともに、種別判定手段12に対して、同じ音響特徴量による種別判定を繰り返し指示する。
【0035】
また、パラメータ更新手段14は、パラメータ更新の終了条件に達した段階で、種別判定手段12に対して、次のフレームの音響特徴量が存在する場合、フレームをシフトして、新たなフレームに対する種別判定を指示する。
このパラメータ更新の終了条件は、例えば、誤差の変化量が予め定めた閾値未満となった場合、同じ音響特徴量に対するパラメータ更新の回数が予め定めた回数を超過した場合等である。
これによって、解説音声挿入タイミング学習装置1は、音声Vの入力が終了するまで、種別判定モデルNの学習を継続する。
【0036】
以上説明したように構成することで、解説音声挿入タイミング学習装置1は、任意の音声における所定時間区間のフレームごとの種別ラベルを判定するための種別判定モデルNを学習することができる。
なお、解説音声挿入タイミング学習装置1は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング学習プログラムで動作させることができる。
【0037】
〔解説音声挿入タイミング学習装置の動作〕
次に、
図5を参照(構成については適宜
図1参照)して、本発明の第1実施形態に係る解説音声挿入タイミング学習装置1の動作について説明する。なお、記憶手段11には、初期値が設定された種別判定モデルNが記憶されているものとする。
【0038】
ステップS1において、音響特徴量抽出手段10は、音声Vを所定のフレーム長(例えば、10ms)、所定のシフト幅(例えば、10ms)で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。
ステップS2において、種別判定手段12は、ステップS1で抽出された音響特徴量を、記憶手段11に記憶されている種別判定モデルNに順次入力し、フレームごとの種別の確率値を種別判定結果として算出する。
【0039】
ステップS3において、誤差算出手段13は、教師データである種別ラベルLで示されるフレームごとの種別に基づいて、ステップS2で算出された種別判定結果の誤差を算出する。ここでは、誤差算出手段13は、ステップS2で算出された種別判定結果において、教師データである種別ラベルLで示される種別に対応する確率値と、“1”との差分を誤差として算出する。
ステップS4において、パラメータ更新手段14は、誤差の変化量が予め定めた閾値未満となった場合、同じ音響特徴量に対するパラメータ更新の回数が予め定めた回数を超過した場合等のパラメータ更新の終了条件に達したか否かを判定する。
【0040】
ここで、まだ、パラメータ更新の終了条件に達していない場合(ステップS4でNo)、ステップS5において、パラメータ更新手段14は、確率的勾配降下法等によって、記憶手段11に記憶されている種別判定モデルNのパラメータを更新する。そして、ステップS2に戻って、種別判定手段12が、同じ音響特徴量による種別判定結果を算出することで、パラメータ更新を繰り返す。
一方、パラメータ更新の終了条件に達した場合(ステップS4でYes)、ステップS6において、種別判定手段12に新規の音響特徴量が存在するか否かによって、学習の完了を判定する。
【0041】
ここで、学習が完了していないと判定された場合(ステップS6でNo)、種別判定手段12は、ステップS7においてフレームをシフトし、ステップS2において、シフトした音響特徴量による種別判定結果を算出することで、学習を繰り返す。
一方、学習が完了したと判定された場合(ステップS6でYes)、解説音声挿入タイミング学習装置1は動作を終了する。
以上の動作によって、解説音声挿入タイミング学習装置1は、種別判定モデルNを学習することができる。
【0042】
[解説音声挿入タイミング検出装置の構成]
次に、
図6を参照して、本発明の第2実施形態に係る解説音声挿入タイミング検出装置2の構成について説明する。
【0043】
解説音声挿入タイミング検出装置2は、音声から解説音声の挿入タイミングを検出するものである。ここでは、解説音声挿入タイミング検出装置2は、音声における所定時間区間ごとのフレームの種別を検出することで解説音声の挿入タイミングを検出する。なお、種別は、所定時間区間(例えば、10ms)のフレームごとに、少なくとも解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間とを識別ものである。ここでは、種別として、
図2で説明した種別ラベルL1~L5とする。
図6に示すように、解説音声挿入タイミング検出装置2は、音響特徴量抽出手段20と、記憶手段21と、種別判定手段22と、種別決定手段23と、を備える。
【0044】
音響特徴量抽出手段20は、音声Vからフレームごとの音響特徴量を抽出するものである。なお、音響特徴量抽出手段20は、
図1で説明した音響特徴量抽出手段10と同じものであって、音響特徴量を抽出するフレーム長、シフト幅および抽出する音響特徴量(ピッチ周波数)の種類は、音響特徴量抽出手段10と同じとする。
音響特徴量抽出手段20は、抽出したフレームごとの音響特徴量を種別判定手段22に出力する。
【0045】
記憶手段21は、ニューラルネットワークのモデルを記憶するものである。この記憶手段21は、半導体メモリ等の一般的な記憶媒体で構成することができる。ここでは、記憶手段21は、解説音声挿入タイミング学習装置1(
図1参照)で学習した種別判定モデルNを予め記憶しておく。
【0046】
種別判定手段22は、種別判定モデルNに、音響特徴量抽出手段20で抽出された音響特徴量を時系列に入力し、フレームごとの種別の確率値を種別判定結果として算出するものである。なお、種別判定手段22は、
図1で説明した種別判定手段12と同じものである。
すなわち、種別判定手段22は、時系列に抽出されるフレームごとの音響特徴量を順次シフトし、最新の300個分の音響特徴量を種別判定モデルN(
図3参照)に入力し、種別判定モデルNの演算を行うことで、種別ラベルL1~L5に対する確率値P1~P5を算出する(
図4参照)。
種別判定手段22は、算出した種別ラベルL1~L5に対する確率値P1~P5を種別判定結果として、種別決定手段23に出力する。
【0047】
種別決定手段23は、種別判定手段22で算出された最大の確率値の種別をフレームの種別として決定するものである。
種別決定手段23は、フレームごとに決定した種別ラベルLを順次外部に出力する。もちろん、種別決定手段23は、音声Vに対する種別ラベルLを1つのデータファイルとしてまとめて記録し、出力することとしてもよい。
【0048】
以上説明したように構成することで、解説音声挿入タイミング検出装置2は、任意の音声におけるフレームごとの種別を検出することができる。
このフレームごとの種別によって、音声に対して、非発話区間において解説音声の挿入を許可する挿入許可区間に加えて、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間を検出することができ、音声に対して、文意を損なわずに音声重複を許容した解説音声の挿入タイミングを検出することができる。
また、解説音声挿入タイミング検出装置2は、フレーム単位で挿入区間の先頭を検出することができるため、リアルタイムで解説音声を挿入する場合でも、素早く解説音声の挿入タイミングを検出することができる。
なお、解説音声挿入タイミング検出装置2は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング検出プログラムで動作させることができる。
【0049】
〔解説音声挿入タイミング検出装置の動作〕
次に、
図7を参照(構成については適宜
図6参照)して、本発明の第2実施形態に係る解説音声挿入タイミング検出装置2の動作について説明する。なお、記憶手段21には、解説音声挿入タイミング学習装置1(
図1参照)で学習された種別判定モデルNが記憶されているものとする。
【0050】
ステップS10において、音響特徴量抽出手段20は、音声Vを所定のフレーム長(例えば、10ms)、所定のシフト幅(例えば、10ms)で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。
ステップS11において、種別判定手段22は、ステップS10で抽出された音響特徴量を、記憶手段21に記憶されている種別判定モデルNに順次入力し、フレームごとの種別の確率値を種別判定結果として算出する。
ステップS12において、種別決定手段23は、ステップS11で算出された種別判別結果から、確率値が最大となる種別ラベルをフレームに対する種別として決定し、外部に出力する。
【0051】
ステップS13において、種別判定手段22は、新規の音響特徴量が存在するか否かによって、音声の解析の終了を判定する。
ここで、音声の解析が終了していないと判定された場合(ステップS13でNo)、種別判定手段22は、ステップS14においてフレームをシフトし、ステップS11において、シフトした音響特徴量による種別判定結果を算出することで、判定動作を繰り返す。
一方、音声の解析が終了したと判定された場合(ステップS13でYes)、解説音声挿入タイミング検出装置2は動作を終了する。
以上の動作によって、解説音声挿入タイミング検出装置2は、音声に対して、文意を損なわずに音声重複を許容した解説音声の挿入タイミングを検出することができる。
【0052】
以上、本発明の実施形態に係る解説音声挿入タイミング学習装置1および解説音声挿入タイミング検出装置2のそれぞれの構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
【0053】
ここでは、発話区間の終端間近を示す種別ラベルL2を設けたが、このラベルは必須ではなく、種別ラベルL1の「発話」に含ませることとしてもよい。あるいは、種別ラベルL2を音声に重複して解説音声を挿入してもよい区間として、種別ラベルL3の「語尾」に含ませることとしてもよい。
また、ここでは、種別判定モデルNの中間層にLSTMを用いたが、時系列データを扱うニューラルネットワークであれば何でもよく、一般的なRNNを用いることとしてもよい。
【符号の説明】
【0054】
1 解説音声挿入タイミング学習装置
10 音響特徴量抽出手段
11 記憶手段
12 種別判定手段
13 誤差算出手段
14 パラメータ更新手段
2 解説音声挿入タイミング検出装置
20 音響特徴量抽出手段
21 記憶手段
22 種別判定手段
23 種別決定手段