特開2023-55554 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2023-55554解説音声挿入タイミング学習装置およびそのプログラム、ならびに、解説音声挿入タイミング検出装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023055554

(43)【公開日】2023-04-18

(54)【発明の名称】解説音声挿入タイミング学習装置およびそのプログラム、ならびに、解説音声挿入タイミング検出装置およびそのプログラム

(51)【国際特許分類】

G10L 13/02 20130101AFI20230411BHJP

G10L 25/30 20130101ALI20230411BHJP

【ＦＩ】

G10L13/02 130C

G10L25/30

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021165031

(22)【出願日】2021-10-06

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】一木麻乃

(72)【発明者】

【氏名】都木徹

(57)【要約】

【課題】番組の音声に対して、文意を損なわないで音声重複を許容した解説音声の挿入タイミングを学習することが可能な解説音声挿入タイミング学習装置を提供する。
【解決手段】解説音声挿入タイミング学習装置１は、音声から音声フレームごとの音響特徴量を抽出する音響特徴量抽出手段１０と、音声フレームの区間ごとに解説音声の挿入可否を示す種別を判定する種別判定モデルに音響特徴量を時系列に入力し、音声フレームの種別を確率値として算出する種別判定手段１２と、確率値と教師データとに基づいて種別判定の誤差を算出する誤差算出手段１３と、誤差に基づいて種別判定モデルのパラメータを更新するパラメータ更新手段１４と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における前記音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルを学習する解説音声挿入タイミング学習装置であって、
前記音声から前記音声フレームごとに音響特徴量を抽出する音響特徴量抽出手段と、
前記種別判定モデルに、前記音響特徴量抽出手段で抽出された音響特徴量を時系列に入力し、前記音声フレームの種別の確率値を種別判定結果として算出する種別判定手段と、
前記種別判定手段で算出された確率値と前記教師データとに基づいて、種別判定の誤差を算出する誤差算出手段と、
前記誤差算出手段で算出された誤差に基づいて、前記種別判定モデルのパラメータを更新することで、前記種別判定モデルを学習するパラメータ更新手段と、
を備えることを特徴とする解説音声挿入タイミング学習装置。

【請求項2】

前記重複挿入許可区間は、前記発話区間の終端位置から予め定めた時間区間だけ遡った時間区間であることを特徴とする請求項１に記載の解説音声挿入タイミング学習装置。

【請求項3】

前記種別判定手段は、前記種別判定モデルを用いて、時系列に入力される前記音響特徴量に対して、リカレントニューラルネットのＬＳＴＭと全結合層との演算を行い、前記種別の数のノードの出力値をソフトマックス関数により正規化して出力することを特徴とする請求項１または請求項２に記載の解説音声挿入タイミング学習装置。

【請求項4】

前記音響特徴量抽出手段は、ピッチ周波数を前記音響特徴量として抽出することを特徴とする請求項１から請求項３のいずれか一項に記載の解説音声挿入タイミング学習装置。

【請求項5】

コンピュータを、請求項１から請求項４のいずれか一項に記載の解説音声挿入タイミング学習装置として機能させるための解説音声挿入タイミング学習プログラム。

【請求項6】

音声から解説音声の挿入タイミングを検出する解説音声挿入タイミング検出装置であって、
前記音声から音声フレームごとに音響特徴量を抽出する音響特徴量抽出手段と、
前記音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を判定する予め学習されたニューラルネットワークの種別判定モデルに、前記音響特徴量を時系列に入力し、前記音声フレームの種別の確率値を種別判定結果として算出する種別判定手段と、
前記種別判定手段で算出された最大の確率値の種別を前記音声フレームの種別として決定する種別決定手段と、
を備えることを特徴とする解説音声挿入タイミング検出装置。

【請求項7】

コンピュータを、請求項６に記載の解説音声挿入タイミング検出装置として機能させるための解説音声挿入タイミング検出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、主音声に対して副音声で挿入する解説音声の挿入タイミングを学習する解説音声挿入タイミング学習装置およびそのプログラム、ならびに、挿入タイミングを検出する解説音声挿入タイミング検出装置およびそのプログラムに関する。

【背景技術】

【0002】

現在、視覚障害者向けの放送サービスとして、放送本線の番組音声に対して、映像に関する説明を音声で解説する解説放送が実施されている。
通常、解説放送は、主音声で放送される番組音声と副音声で放送される解説音声とが重なって同時に聞こえることがないように、番組音声のない区間（「間」）に解説音声が収まるように編集されている。
従来、音響特徴量であるピッチ周波数の短期・長期の移動平均を利用し、発話末を「間」の先頭として検出する手法が開示されている（特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－６４２４８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

解説音声を挿入する必要のある番組シーンの多くは、番組音声と重なる（以降、音声重複）可能性が高い。
この解説音声自体を短く生成し、番組音声の「間」に挿入することが可能な場合もあるが、番組音声とまったく重ならないように解説音声を挿入することは困難である。
特許文献１に記載の手法を用いて発話末を検出できたとしても、番組音声の「間」に解説音声を挿入する困難な状況を解決することはできない。
また、特許文献１に記載の手法は、短期・長期の移動平均を利用するため、発話末を検出するタイミングに遅れが発生する場合がある。

【0005】

本発明は、このような問題に鑑みてなされたもので、番組の音声に対して、文意を損なわないで音声重複を許容した解説音声の挿入タイミングを学習することが可能な解説音声挿入タイミング学習装置およびそのプログラム、ならびに、挿入タイミングの遅れを軽減して検出することが可能な解説音声挿入タイミング検出装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0006】

前記課題を解決するため、本発明に係る解説音声挿入タイミング学習装置は、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における前記音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルを学習する解説音声挿入タイミング学習装置であって、音響特徴量抽出手段と、種別判定手段と、誤差算出手段と、パラメータ更新手段と、を備える構成とした。

【0007】

かかる構成において、解説音声挿入タイミング学習装置は、音響特徴量抽出手段によって、音声から予め定めた時間長である音声フレームごとに、ピッチ周波数等の音響特徴量を抽出する。
そして、解説音声挿入タイミング学習装置は、種別判定手段によって、音響特徴量抽出手段で抽出された音響特徴量を種別判定モデルに時系列に入力し、音声フレームの種別の確率値を種別判定結果として算出する。
さらに、解説音声挿入タイミング学習装置は、誤差算出手段によって、種別判定手段で算出された確率値と教師データとに基づいて、種別判定の誤差を算出する。
そして、解説音声挿入タイミング学習装置は、パラメータ更新手段によって、誤差算出手段で算出された誤差に基づいて種別判定モデルのパラメータを更新する。誤差を小さくする方向にパラメータを更新することで、種別判定モデルが学習されることになる。

【0008】

このように、解説音声挿入タイミング学習装置は、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間を学習することで、番組の音声に対して、文意を損なわないで、解説音声を挿入する区間を拡げることが可能になる。
なお、解説音声挿入タイミング学習装置は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング学習プログラムで動作させることができる。

【0009】

また、前記課題を解決するため、本発明に係る解説音声挿入タイミング検出装置は、音声から解説音声の挿入タイミングを検出する解説音声挿入タイミング検出装置であって、音響特徴量抽出手段と、種別判定手段と、種別決定手段と、を備える構成とした。

【0010】

かかる構成において、解説音声挿入タイミング検出装置は、音響特徴量抽出手段によって、音声から予め定めた時間長である音声フレームごとに、ピッチ周波数等の音響特徴量を抽出する。
そして、解説音声挿入タイミング検出装置は、種別判定手段によって、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を判定する予め学習されたニューラルネットワークの種別判定モデルに、音響特徴量を時系列に入力し、音声フレームの種別の確率値を種別判定結果として算出する。
そして、解説音声挿入タイミング検出装置は、種別決定手段によって、種別判定手段で算出された最大の確率値の種別を前記音声フレームの種別として決定する。

【0011】

これによって、解説音声挿入タイミング検出装置は、番組の音声に対して、文意を損なわないで、解説音声を挿入する区間を拡げた挿入区間を検出することができる。
また、解説音声挿入タイミング検出装置は、音声フレーム単位で挿入区間の先頭を検出することができるため、リアルタイムで解説音声を挿入する場合でも、素早く解説音声の挿入タイミングを検出することができる。
なお、解説音声挿入タイミング検出装置は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング検出プログラムで動作させることができる。

【発明の効果】

【0012】

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、番組の音声に対して、文意を損なわない音声重複を許容した解説音声の挿入タイミングを検出することができる。
これによって、本発明は、番組内の解説音声を挿入する時間を従来のよりも長く確保することができる。また、本発明は、リアルタイムで解説音声を挿入する場合に、解説音声の挿入タイミングを素早く検出することができる。

【図面の簡単な説明】

【0013】

【図1】本発明の第１実施形態に係る解説音声挿入タイミング学習装置の構成を示すブロック構成図である。

【図2】本発明の第１実施形態に係る解説音声挿入タイミング学習装置に入力する教師データの内容を説明するための説明図である。

【図3】音響特徴量から発話区間の種別を判定する種別判定モデルのニューラルネットワークの構成例を示すネットワーク図である。

【図4】種別判定モデルの出力データを説明するための説明図である。

【図5】本発明の第１実施形態に係る解説音声挿入タイミング学習装置の動作を示すフローチャートである。

【図6】本発明の第２実施形態に係る解説音声挿入タイミング検出装置の構成を示すブロック構成図である。

【図7】本発明の第２実施形態に係る解説音声挿入タイミング検出装置の動作を示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態について図面を参照して説明する。ただし、本発明はテレビ音声に解説をつけることを目的としているが、テレビ音声に限らずロボットやスマートスピーカーなどの機械と会話する場合に、人への機械の応答において、音声を返すタイミングを早期に決めることにも応用できる。これにより、機械からの応答時に少しの「間」を空けることなく人との会話に近い形で実現することが可能になる。

【0015】

［解説音声挿入タイミング学習装置の構成］
最初に、図１を参照して、本発明の第１実施形態に係る解説音声挿入タイミング学習装置１の構成について説明する。

【0016】

解説音声挿入タイミング学習装置１は、音声フレームの区間ごとに、解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間と、を識別する種別を設定した教師データから、任意の音声における音声フレームの区間ごとの種別を判定するためのニューラルネットワークの種別判定モデルＮを学習するものである。

【0017】

音声Ｖは、人物の発話区間の音声を含んだデータ（デジタルデータ）である。解説音声挿入タイミング学習装置１が音声に解説音声を挿入するタイミングを学習するものであるため、音声Ｖは、実際に予測したい音声と同じ話者であるか、話者に似た音声であると精度は上がるが、用いるデータ量が多ければ、不特定の音声を用いたり、複数話者での音声でもよい。

【0018】

種別ラベルＬは、音声Ｖに対応する所定時間区間ごとの音声フレーム（以下、単にフレームという）の種別を表したラベル（数値、符号等）である。この種別ラベルＬは、所定時間区間（例えば、１０ｍｓ〔ミリ秒〕）のフレームごとに、少なくとも解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間とを識別可能ならラベルとする。なお、種別ラベルＬは、音声Ｖに対応して予め生成された教師データである。

【0019】

ここで、図２を参照して、教師データである種別ラベルＬの具体例について説明する。
図２では、説明を分かりやすくするため、音声Ｖを音声波形で表し、発話テキストを参考として記載している。
ここでは、音声Ｖを区分する種別として、種別ラベルＬ１～Ｌ５の５つの種別を用いることとする。１つの発話区間（全発話区間ＡＬＬ）の終端位置Ｅを基準として、終端位置Ｅから所定時間遡った区間に、「語尾」を示す種別ラベルＬ３を付与する。「語尾」（種別ラベルＬ３）からさらに所定時間遡った区間に、「終端間近」を示す種別ラベルＬ２を付与する。例えば、「語尾」（種別ラベルＬ３）は、終端位置Ｅから２００ｍｓ遡った区間、「終端間近」（種別ラベルＬ３）は、「語尾」の先頭からさらに２００ｍｓ遡った区間とする。これは、「終端間近」や「語尾」がそれぞれ２モーラ（２００～３００ｍｓ）であることが多いためであるが、厳密な時間ではない。

【0020】

種別ラベルＬ１は、全発話区間ＡＬＬから、種別ラベルＬ２，Ｌ３の区間を除いた区間に付与するラベルである。この種別ラベルＬ１の発話によって、発話内容を概ね把握することが可能である。

【0021】

種別ラベルＬ４は、終端位置Ｅから次の発話の先頭までの「間」の区間に付与するラベルである。なお、種別ラベルＬ４は、解説音声を挿入可能な非発話区間（例えば、２００ｍｓ以上）に対して付与する。
解説音声を挿入できない短い非発話区間（例えば、２００ｍｓ未満）に対しては、種別ラベルＬ５を付与する。なお、解説音声を挿入可能な時間があっても、種別ラベルＬ１に続く非発話区間については、種別ラベルＬ５を付与することとする。これは、例えば、ピッチ周波数が高い状態で発話の継続性が高いにも関わらず、種別ラベルＬ４を設定することで、発話の継続性が低く解説音声を挿入可能であると誤って学習されてしまうことを防止するためである。

【0022】

教師データとなる種別ラベルＬは、音声Ｖを区分する種別を、所定時間長（例えば、１０ｍｓ）のフレームごとに設定したラベル列である。
例えば、種別ラベルＬは、音声Ｖの種別ラベルＬ１の時間区間において、１０ｍｓごとに数値“１”を連続して設定する。また、種別ラベルＬは、音声Ｖの種別ラベルＬ２の時間区間において、１０ｍｓごとに数値“２”を連続して設定する。種別ラベルＬ３～Ｌ５についても同様である。すなわち、種別ラベルＬの意味は、以下の表に示すとおりである。

【0023】

【表1】

【0024】

ただし、非発話（所定時間以上）であっても、直前が種別ラベルＬ１であれば、種別ラベルＬ５とする。
種別ラベルＬ１，Ｌ２，Ｌ５の区間が、解説音声の挿入を禁止する挿入禁止区間に相当する。また、種別ラベルＬ３の区間が、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間に相当する。また、種別ラベルＬ４の区間が、非発話区間において解説音声の挿入を許可する挿入許可区間に相当する。

【0025】

図１に戻って説明を続ける。
図１に示すように、解説音声挿入タイミング学習装置１は、音響特徴量抽出手段１０と、記憶手段１１と、種別判定手段１２と、誤差算出手段１３と、パラメータ更新手段１４と、を備える。

【0026】

音響特徴量抽出手段１０は、音声Ｖからフレームごとの音響特徴量を抽出するものである。ここでは、音響特徴量抽出手段１０は、音声Ｖを所定のフレーム長（例えば、１０ｍｓ）、所定のシフト幅（例えば、１０ｍｓ）で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。例えば、音響特徴量抽出手段１０は、音声Ｖからフレームごとのピッチ周波数を抽出する。
なお、音響特徴量抽出手段１０は、音響特徴量としてピッチ周波数以外に、パワー、ＭＦＣＣ（メル周波数ケプストラム係数）、フィルタバンク等を抽出することとしてもよい。これらの音響特徴量は、一般的な音響解析により求めることができるため、解析手法についての詳細な説明を省略する。
音響特徴量抽出手段１０は、抽出したフレームごとの音響特徴量を種別判定手段１２に出力する。

【0027】

記憶手段１１は、ニューラルネットワークのモデルを記憶するものである。この記憶手段１１は、半導体メモリ等の一般的な記憶媒体で構成することができる。ここでは、記憶手段１１は、種別判定モデルＮを記憶する。
種別判定モデルＮは、音響特徴量を時系列に入力し、音声のフレームごとの種別を判定するニューラルネットワーク、具体的にはそのパラメータである。種別判定モデルＮは、学習対象のモデルであって、パラメータには、予め初期値を設定しておく。

【0028】

種別判定モデルＮの入力は、予め定めた数の音響特徴量である。この種別判定モデルＮに入力される音響特徴量は、時系列に順次、１フレームずつシフトして入力される。
種別判定モデルＮの出力は、予め定めた種別ラベルの総数分のノードの出力値である。各ノードの出力は、正規化された確率値を示し、その合計は“１”となる。

【0029】

この種別判定モデルＮのニューラルネットワークの構造は、前記したデータの入出力を満たせば何でもよい。具体的には、種別判定モデルＮは、時系列データを扱うＲＮＮ（Recurrent Neural Network）の一種であるＬＳＴＭ（Long Short Term Memory）と、全結合層と、ソフトマックス（softmax）関数とを組み合わせて実現することができる。

【0030】

例えば、種別判定モデルＮは、図３に示すように、入力層ＩＬ、中間層ＭＬおよび出力層ＯＬを有するニューラルネットワークで実現することができる。
入力層ＩＬは、１フレームごとに音響特徴量を入力する層である。ここでは、音響特徴量を３００個（ｆ１～ｆ３００）が時系列に順次、１フレームずつシフトして入力される。
中間層ＭＬは、２層のＬＳＴＭ層ＭＬ１である順方向のＬＳＴＭおよび逆方向のＬＳＴＭと、全結合層ＭＬ２である順伝播型ニューラルネットワーク（ＦＦＮＮ）とで構成される層である。順方向のＬＳＴＭは、入力される先頭の音響特徴量ｆ１から最後の音響特徴量ｆ３００までＬＳＴＭの演算を繰り返す。また、逆方向のＬＳＴＭは、最後の音響特徴量ｆ３００から先頭の音響特徴量ｆ１までＬＳＴＭの演算を繰り返す。そして、中間層ＭＬは、２層のＬＳＴＭ層ＭＬ１の演算結果であるそれぞれのベクトルを連結したベクトルを、さらに、全結合層ＭＬ２を介して出力ベクトルとする。
出力層ＯＬは、中間層ＭＬから出力される出力ベクトルの各要素の値に重みを付加して加算し正規化することで、出力ノードにおける比率（確率値）を計算する層である。この確率値が最大となるノードに対応する種別が判定結果となる。

【0031】

なお、出力層ＯＬは、図４に示すように、中間層ＭＬから出力される出力ベクトル（中間層出力ＭＬｏｕｔ）に対して、ノード数を、種別ラベルの数（ここでは５個）とする。
この出力層ＯＬは、ノード（ｎ１～ｎ５）ごとに入力される値を、ソフトマックス関数を用いて正規化することで、種別ラベルＬ１～Ｌ５に対する確率値Ｐ１～Ｐ５を算出する。
図１に戻って、解説音声挿入タイミング学習装置１の構成について説明を続ける。

【0032】

種別判定手段１２は、種別判定モデルＮに、音響特徴量抽出手段１０で抽出された音響特徴量を時系列に入力し、フレームごとの種別の確率値を種別判定結果として算出するものである。
ここでは、種別判定手段１２は、時系列に抽出されるフレームごとの音響特徴量を順次シフトし、最大３００個分の音響特徴量を種別判定モデルＮ（図３参照）に入力し、種別判定モデルＮの演算を行うことで、種別ラベルＬ１～Ｌ５に対する確率値Ｐ１～Ｐ５を算出する（図４参照）。
種別判定手段１２は、算出した種別ラベルＬ１～Ｌ５に対する確率値Ｐ１～Ｐ５を種別判定結果として、誤差算出手段１３に出力する。

【0033】

誤差算出手段１３は、種別判定手段１２で算出された確率値と教師データとに基づいて、種別判定の誤差を算出するものである。
ここでは、誤差算出手段１３は、種別判定手段１２で算出された種別判定結果において、教師データである種別ラベルＬで示される種別に対応する確率値と、“１”との差分を誤差として算出する。例えば、誤差算出手段１３は、種別ラベルＬでフレームに対応する種別としてＬ３（語尾）が設定されていた場合、種別判定手段１２で算出された種別ごとの確率値のうちで、種別ラベルＬ３に対応する確率値と、“１”との差分を誤差として算出する。
誤差算出手段１３は、算出した誤差をパラメータ更新手段１４に出力する。

【0034】

パラメータ更新手段１４は、誤差算出手段１３で算出された誤差に基づいて、種別判定モデルＮのパラメータを更新するものである。すなわち、パラメータ更新手段１４は、誤差を小さくする方向にパラメータを更新する。
パラメータ更新手段１４におけるパラメータの更新には、例えば、確率的勾配降下法（ＳＧＤ：Stochastic Gradient Descent）、Ａｄａｍ（Adaptive moment estimation）等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段１４は、確率的勾配降下法等によって、記憶手段１１に記憶されている種別判定モデルＮのパラメータを更新する。
なお、パラメータ更新手段１４は、パラメータ更新の終了条件に達するまで、パラメータを更新とともに、種別判定手段１２に対して、同じ音響特徴量による種別判定を繰り返し指示する。

【0035】

また、パラメータ更新手段１４は、パラメータ更新の終了条件に達した段階で、種別判定手段１２に対して、次のフレームの音響特徴量が存在する場合、フレームをシフトして、新たなフレームに対する種別判定を指示する。
このパラメータ更新の終了条件は、例えば、誤差の変化量が予め定めた閾値未満となった場合、同じ音響特徴量に対するパラメータ更新の回数が予め定めた回数を超過した場合等である。
これによって、解説音声挿入タイミング学習装置１は、音声Ｖの入力が終了するまで、種別判定モデルＮの学習を継続する。

【0036】

以上説明したように構成することで、解説音声挿入タイミング学習装置１は、任意の音声における所定時間区間のフレームごとの種別ラベルを判定するための種別判定モデルＮを学習することができる。
なお、解説音声挿入タイミング学習装置１は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング学習プログラムで動作させることができる。

【0037】

〔解説音声挿入タイミング学習装置の動作〕
次に、図５を参照（構成については適宜図１参照）して、本発明の第１実施形態に係る解説音声挿入タイミング学習装置１の動作について説明する。なお、記憶手段１１には、初期値が設定された種別判定モデルＮが記憶されているものとする。

【0038】

ステップＳ１において、音響特徴量抽出手段１０は、音声Ｖを所定のフレーム長（例えば、１０ｍｓ）、所定のシフト幅（例えば、１０ｍｓ）で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。
ステップＳ２において、種別判定手段１２は、ステップＳ１で抽出された音響特徴量を、記憶手段１１に記憶されている種別判定モデルＮに順次入力し、フレームごとの種別の確率値を種別判定結果として算出する。

【0039】

ステップＳ３において、誤差算出手段１３は、教師データである種別ラベルＬで示されるフレームごとの種別に基づいて、ステップＳ２で算出された種別判定結果の誤差を算出する。ここでは、誤差算出手段１３は、ステップＳ２で算出された種別判定結果において、教師データである種別ラベルＬで示される種別に対応する確率値と、“１”との差分を誤差として算出する。
ステップＳ４において、パラメータ更新手段１４は、誤差の変化量が予め定めた閾値未満となった場合、同じ音響特徴量に対するパラメータ更新の回数が予め定めた回数を超過した場合等のパラメータ更新の終了条件に達したか否かを判定する。

【0040】

ここで、まだ、パラメータ更新の終了条件に達していない場合（ステップＳ４でＮｏ）、ステップＳ５において、パラメータ更新手段１４は、確率的勾配降下法等によって、記憶手段１１に記憶されている種別判定モデルＮのパラメータを更新する。そして、ステップＳ２に戻って、種別判定手段１２が、同じ音響特徴量による種別判定結果を算出することで、パラメータ更新を繰り返す。
一方、パラメータ更新の終了条件に達した場合（ステップＳ４でＹｅｓ）、ステップＳ６において、種別判定手段１２に新規の音響特徴量が存在するか否かによって、学習の完了を判定する。

【0041】

ここで、学習が完了していないと判定された場合（ステップＳ６でＮｏ）、種別判定手段１２は、ステップＳ７においてフレームをシフトし、ステップＳ２において、シフトした音響特徴量による種別判定結果を算出することで、学習を繰り返す。
一方、学習が完了したと判定された場合（ステップＳ６でＹｅｓ）、解説音声挿入タイミング学習装置１は動作を終了する。
以上の動作によって、解説音声挿入タイミング学習装置１は、種別判定モデルＮを学習することができる。

【0042】

［解説音声挿入タイミング検出装置の構成］
次に、図６を参照して、本発明の第２実施形態に係る解説音声挿入タイミング検出装置２の構成について説明する。

【0043】

解説音声挿入タイミング検出装置２は、音声から解説音声の挿入タイミングを検出するものである。ここでは、解説音声挿入タイミング検出装置２は、音声における所定時間区間ごとのフレームの種別を検出することで解説音声の挿入タイミングを検出する。なお、種別は、所定時間区間（例えば、１０ｍｓ）のフレームごとに、少なくとも解説音声の挿入を禁止する挿入禁止区間と、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間と、非発話区間において解説音声の挿入を許可する挿入許可区間とを識別ものである。ここでは、種別として、図２で説明した種別ラベルＬ１～Ｌ５とする。
図６に示すように、解説音声挿入タイミング検出装置２は、音響特徴量抽出手段２０と、記憶手段２１と、種別判定手段２２と、種別決定手段２３と、を備える。

【0044】

音響特徴量抽出手段２０は、音声Ｖからフレームごとの音響特徴量を抽出するものである。なお、音響特徴量抽出手段２０は、図１で説明した音響特徴量抽出手段１０と同じものであって、音響特徴量を抽出するフレーム長、シフト幅および抽出する音響特徴量（ピッチ周波数）の種類は、音響特徴量抽出手段１０と同じとする。
音響特徴量抽出手段２０は、抽出したフレームごとの音響特徴量を種別判定手段２２に出力する。

【0045】

記憶手段２１は、ニューラルネットワークのモデルを記憶するものである。この記憶手段２１は、半導体メモリ等の一般的な記憶媒体で構成することができる。ここでは、記憶手段２１は、解説音声挿入タイミング学習装置１（図１参照）で学習した種別判定モデルＮを予め記憶しておく。

【0046】

種別判定手段２２は、種別判定モデルＮに、音響特徴量抽出手段２０で抽出された音響特徴量を時系列に入力し、フレームごとの種別の確率値を種別判定結果として算出するものである。なお、種別判定手段２２は、図１で説明した種別判定手段１２と同じものである。
すなわち、種別判定手段２２は、時系列に抽出されるフレームごとの音響特徴量を順次シフトし、最新の３００個分の音響特徴量を種別判定モデルＮ（図３参照）に入力し、種別判定モデルＮの演算を行うことで、種別ラベルＬ１～Ｌ５に対する確率値Ｐ１～Ｐ５を算出する（図４参照）。
種別判定手段２２は、算出した種別ラベルＬ１～Ｌ５に対する確率値Ｐ１～Ｐ５を種別判定結果として、種別決定手段２３に出力する。

【0047】

種別決定手段２３は、種別判定手段２２で算出された最大の確率値の種別をフレームの種別として決定するものである。
種別決定手段２３は、フレームごとに決定した種別ラベルＬを順次外部に出力する。もちろん、種別決定手段２３は、音声Ｖに対する種別ラベルＬを１つのデータファイルとしてまとめて記録し、出力することとしてもよい。

【0048】

以上説明したように構成することで、解説音声挿入タイミング検出装置２は、任意の音声におけるフレームごとの種別を検出することができる。
このフレームごとの種別によって、音声に対して、非発話区間において解説音声の挿入を許可する挿入許可区間に加えて、発話区間の終端直前において解説音声を重複して挿入することを許可する重複挿入許可区間を検出することができ、音声に対して、文意を損なわずに音声重複を許容した解説音声の挿入タイミングを検出することができる。
また、解説音声挿入タイミング検出装置２は、フレーム単位で挿入区間の先頭を検出することができるため、リアルタイムで解説音声を挿入する場合でも、素早く解説音声の挿入タイミングを検出することができる。
なお、解説音声挿入タイミング検出装置２は、コンピュータを、前記した各手段として機能させるための解説音声挿入タイミング検出プログラムで動作させることができる。

【0049】

〔解説音声挿入タイミング検出装置の動作〕
次に、図７を参照（構成については適宜図６参照）して、本発明の第２実施形態に係る解説音声挿入タイミング検出装置２の動作について説明する。なお、記憶手段２１には、解説音声挿入タイミング学習装置１（図１参照）で学習された種別判定モデルＮが記憶されているものとする。

【0050】

ステップＳ１０において、音響特徴量抽出手段２０は、音声Ｖを所定のフレーム長（例えば、１０ｍｓ）、所定のシフト幅（例えば、１０ｍｓ）で、順次、音響分析を行うことで、フレームごとの音響特徴量を抽出する。
ステップＳ１１において、種別判定手段２２は、ステップＳ１０で抽出された音響特徴量を、記憶手段２１に記憶されている種別判定モデルＮに順次入力し、フレームごとの種別の確率値を種別判定結果として算出する。
ステップＳ１２において、種別決定手段２３は、ステップＳ１１で算出された種別判別結果から、確率値が最大となる種別ラベルをフレームに対する種別として決定し、外部に出力する。

【0051】

ステップＳ１３において、種別判定手段２２は、新規の音響特徴量が存在するか否かによって、音声の解析の終了を判定する。
ここで、音声の解析が終了していないと判定された場合（ステップＳ１３でＮｏ）、種別判定手段２２は、ステップＳ１４においてフレームをシフトし、ステップＳ１１において、シフトした音響特徴量による種別判定結果を算出することで、判定動作を繰り返す。
一方、音声の解析が終了したと判定された場合（ステップＳ１３でＹｅｓ）、解説音声挿入タイミング検出装置２は動作を終了する。
以上の動作によって、解説音声挿入タイミング検出装置２は、音声に対して、文意を損なわずに音声重複を許容した解説音声の挿入タイミングを検出することができる。

【0052】

以上、本発明の実施形態に係る解説音声挿入タイミング学習装置１および解説音声挿入タイミング検出装置２のそれぞれの構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。

【0053】

ここでは、発話区間の終端間近を示す種別ラベルＬ２を設けたが、このラベルは必須ではなく、種別ラベルＬ１の「発話」に含ませることとしてもよい。あるいは、種別ラベルＬ２を音声に重複して解説音声を挿入してもよい区間として、種別ラベルＬ３の「語尾」に含ませることとしてもよい。
また、ここでは、種別判定モデルＮの中間層にＬＳＴＭを用いたが、時系列データを扱うニューラルネットワークであれば何でもよく、一般的なＲＮＮを用いることとしてもよい。

【符号の説明】

【0054】

１解説音声挿入タイミング学習装置
１０音響特徴量抽出手段
１１記憶手段
１２種別判定手段
１３誤差算出手段
１４パラメータ更新手段
２解説音声挿入タイミング検出装置
２０音響特徴量抽出手段
２１記憶手段
２２種別判定手段
２３種別決定手段

【図1】