特許7481894 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7481894発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-01

(45)【発行日】2024-05-13

(54)【発明の名称】発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法

(51)【国際特許分類】

G10L 15/00 20130101AFI20240502BHJP

G10L 13/06 20130101ALI20240502BHJP

G10L 15/06 20130101ALI20240502BHJP

【ＦＩ】

G10L15/00 200Z

G10L13/06 230Z

G10L15/06 300Y

【請求項の数】 6

(21)【出願番号】P 2020083244

(22)【出願日】2020-05-11

(65)【公開番号】P2021179468

(43)【公開日】2021-11-18

【審査請求日】2023-04-12

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】栗原清

(72)【発明者】

【氏名】伊藤均

(72)【発明者】

【氏名】清山信正

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０２０－０３０３６７（ＪＰ，Ａ）

【文献】特開２００５－０２５４１３（ＪＰ，Ａ）

【文献】特開２００９－１３０４１１（ＪＰ，Ａ）

【文献】国際公開第２０１８／０３７９５６（ＷＯ，Ａ１）

【文献】栗原清他，"ラベリング作業を必要としないsequence-to-sequence音響特徴量推定手法の有効性"，情報処理学会研究報告，2019年11月29日，2019-SLP-130

【文献】清水渚佐他，"語学学習番組を教材利用するための会話音声とテキストの対応付け"，第11回情報科学技術フォーラム，2012年08月21日，pp.603-604

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を検出する音声区切り検出手段と、
前記区間音声データごとに音声認識を行う音声認識手段と、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとをマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するマッチング手段と、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成するコンテキスト情報生成手段と、
音素列の前記コンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第２の区間テキストデータに変換する変換手段と、
を備えることを特徴とする発話音声テキスト生成装置。

【請求項2】

複数の発話音声と前記発話音声に対応する字幕とを含んだ字幕付きデータから、前記音声データと、前記テキストデータとなる字幕データとを分離する分離手段をさらに備えることを特徴とする請求項１に記載の発話音声テキスト生成装置。

【請求項3】

前記区間音声データの前記区切り位置を操作者の操作に基づいて修正する音声区切り修正手段をさらに備えることを特徴とする請求項１または請求項２に記載の発話音声テキスト生成装置。

【請求項4】

前記区間テキストデータを操作者の操作に基づいて修正するテキスト修正手段をさらに備えることを特徴とする請求項１から請求項３のいずれか一項に記載の発話音声テキスト生成装置。

【請求項5】

コンピュータを、請求項１から請求項４のいずれか一項に記載の発話音声テキスト生成装置として機能させるための発話音声テキスト生成プログラム。

【請求項6】

複数の発話音声からなる音声データから、発話ごとの区間音声データの区切り位置を音声区切り検出手段により検出するステップと、
前記区間音声データごとに音声認識手段により音声認識を行うステップと、
前記音声認識手段の認識結果と、前記音声データの発話内容であるテキストデータとを
マッチング手段によりマッチングすることで、前記区間音声データの時間に対応する区間テキストデータを推定するステップと、
前記区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報をコンテキスト情報生成手段により生成するステップと、
音素列の前記コンテキスト情報を、変換手段により、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含む第２の区間テキストデータに変換するステップと、
を含むことを特徴とする発話音声テキスト生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法に関する。

【背景技術】

【0002】

近年、音声合成や音声認識の分野では、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いて、音声合成や音声認識を行う手法が一般化している。
例えば、ＤＮＮで構成された統計モデルを用いて、テキストデータから音声データを生成する音声合成手法が、特許文献１等に開示されている。
また、ＤＮＮで構成された音響モデル等を用いて、音声データからテキストデータを生成する音声認識手法が、特許文献２等に開示されている。
このようなＤＮＮを用いた手法では、ＤＮＮのモデルを学習するための膨大な学習データが必要となる。
従来、この学習データを生成する手法として、放送番組の音声データと字幕データ（テキストデータ）とから、時刻に対応した音声データとテキストデータとを対応付けて学習データを生成する手法が、特許文献３等に開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－２１９５９０号公報

【文献】特開２０１９－０２０５９７号公報

【文献】特許第６４２６９７１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

放送番組のような字幕データ（クローズドキャプション）が重畳された放送データから、従来手法によって、音声データとテキストデータである字幕データとを対応付けて抽出する場合、以下に示す問題がある。
放送番組が生放送の場合、字幕作成者が、送出された音声を聞いた後にキーボードによって字幕を付加するため、実際の音声に対して字幕が遅延して放送されることになる。そのため、従来手法では、音声データと字幕データとに時間のずれが生じ、正しく学習データを生成することができないという問題がある。
また、生放送では、字幕の付加に人手が介在し、音声データと字幕データとの時間のずれが一定ではないため、音声データと字幕データとを調相して対応付けることは困難である。

【0005】

そこで、本発明は、複数の発話音声を含んだ音声データと対応するテキストデータとから、発話区間ごとの音声データとテキストデータとを生成することが可能な発話音声テキスト生成装置、発話音声テキスト生成プログラムおよび発話音声テキスト生成方法を提供することを課題とする。

【課題を解決するための手段】

【0008】

前記課題を解決するため、本発明に係る発話音声テキスト生成装置は、音声区切り検出手段と、音声認識手段と、マッチング手段と、コンテキスト情報生成手段と、変換手段と、を備える構成とした。

【0009】

かかる構成において、発話音声テキスト生成装置は、音声区切り検出手段によって、複数の発話音声からなる音声データから、パワー等の音響特徴によって、発話ごとの区間音声データの区切り位置を検出する。
そして、発話音声テキスト生成装置は、音声認識手段によって、発話区間の区間音声データごとに音声認識を行う。
そして、発話音声テキスト生成装置は、マッチング手段によって、音声認識手段の認識結果と、音声データの発話内容であるテキストデータとをＤＰマッチング等のマッチング手法でマッチングすることで、区間音声データの時間に対応する区間テキストデータを推定する。

【0010】

さらに、発話音声テキスト生成装置は、コンテキスト情報生成手段によって、区間テキストデータから、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとのコンテキスト情報を生成する。このコンテキスト情報によって、音素ごとのアクセントの状態を認識することが可能になる。
そして、発話音声テキスト生成装置は、変換手段によって、音素列のコンテキスト情報を、音素の出現順の読みを表す文字とアクセントの状態を示す韻律を表す予め定めた文字とを含む第２の区間テキストデータに変換する。これによって、発話者が発した区間音声データの時間に対応する区間テキストデータ、第２の区間テキストデータを生成することができる。

【0011】

また、前記課題を解決するため、本発明に係る発話音声テキスト生成プログラムは、コンピュータを、前記した各手段として機能させるためのプログラムとして実現することができる。
また、前記課題を解決するため、本発明に係る発話音声テキスト生成方法は、前記した各手段の動作をステップとして含む手順として実現することができる。

【発明の効果】

【0012】

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、複数の発話音声からなる音声データとその音声データに対応するテキストデータとに時間的にずれがある場合でも、発話ごとの音声データとテキストデータとを対応付けて抽出することができる。

【図面の簡単な説明】

【0013】

【図1】参考例の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。

【図2】アップロード端末において字幕付きデータのファイルを選択する選択画面の例を示す図である。

【図3】編集端末において音声の区切り位置およびテキストデータを修正する編集画面の例を示す図である。

【図4】参考例の実施形態に係る学習データ生成システムの動作を示すフローチャートである。

【図5】本発明の実施形態に係る発話音声テキスト生成装置を含む学習データ生成システムの構成を示すブロック構成図である。

【図6】発話音声テキスト生成装置が生成する読み仮名と韻律記号とを含むＰＬＰデータの例を説明するための説明図である。

【図7】韻律記号の例を説明するための説明図である。

【図8】コンテキスト情報の各ラベルの特徴を示す図（その１）である。

【図9】コンテキスト情報の各ラベルの特徴を示す図（その２）である。

【図10】コンテキスト情報の形式の例を示す図である。

【図11】韻律記号を挿入する条件を説明するための説明図である。

【図12】コンテキスト情報からＰＬＰデータを生成する流れを説明するための説明図である。

【図13】編集端末において音声の区切り位置およびテキストデータ（ＰＬＰデータ）を修正する編集画面の例を示す図である。

【図14】編集端末において音声の区切り位置およびテキストデータ（仮名漢字交じり文、ＰＬＰデータ）を修正する編集画面の例を示す図である。

【図15】本発明の実施形態に係る学習データ生成システムの動作を示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、参考例および本発明の実施形態について図面を参照して説明する。
≪参考例の実施形態≫
＜学習データ生成システムの構成＞
最初に、図１を参照して、参考例の実施形態に係る学習データ生成システム１００の構成について説明する。

【0015】

学習データ生成システム１００は、音声合成または音声認識に用いるディープニューラルネットワーク（ＤＮＮ）のモデルを学習するための発話単位の音声データおよびその音声データに対応するテキストデータを学習データとして生成するものである。
学習データ生成システム１００は、字幕付きデータ記憶装置１と、アップロード端末２と、発話音声テキスト生成装置３と、編集端末４と、を備える。

【0016】

〔字幕付きデータ記憶装置〕
字幕付きデータ記憶装置１は、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータを記憶するものである。字幕付きデータは、例えば、ＸＤＣＡＭ（登録商標）等のデータ形式の映像音声コンテンツ等である。なお、字幕付きデータは、少なくとも音声データとそれに対応する字幕データとを含んだものであればよく、映像データを含まないデータであってもよい。
字幕付きデータ記憶装置１には、字幕付きデータを１つのファイルとして予め複数記憶しておく。

【0017】

〔アップロード端末〕
アップロード端末２は、字幕付きデータ記憶装置１に記憶されている字幕付きデータ、または、現在放送中の字幕付きデータ（放送データ）から、音声データと字幕データ（テキストデータ）とを分離して、発話音声テキスト生成装置３に送信するクライアント端末である。
アップロード端末２は、ファイル選択手段２０と、ファイル分離手段２１と、放送データ受信手段２２と、放送データ分離手段２３と、を備える。

【0018】

ファイル選択手段２０は、字幕付きデータ記憶装置１に記憶されている複数の字幕付きデータの各ファイルから、学習データを生成するためのファイルを選択するものである。
例えば、アップロード端末２は、ファイル選択手段２０によって、図２に示すような、ファイルを選択する選択画面Ｇ１を表示装置（不図示）に表示し、操作者によるマウス等の入力手段（不図示）の操作によって、ファイルを選択する。

【0019】

図２に示した選択画面Ｇ１は、実行ｇ１、識別名ｇ２、日時ｇ３、ファイルパスｇ４、チャンネルｇ５、ステータスｇ６の欄と、開始ボタンＢを表示した例を示している。
実行ｇ１の欄は、選択対象のファイルを選択するチェック欄である。ここでは、ファイル選択手段２０は、実行ｇ１の欄を選択されることで、レ点を表示し、当該ファイルが選択されたことを示す。
識別名ｇ２の欄は、字幕付きデータを識別する名称を表示する欄である。例えば、字幕付きデータのファイル名である。
日時ｇ３は、字幕付きデータの時間情報を表示する欄である。この時間情報は、字幕付きデータを録音、録画した日時、あるいは、字幕付きデータ記憶装置１に字幕付きデータを記憶した日時である。
ファイルパスｇ４の欄は、字幕付きデータを記憶している字幕付きデータ記憶装置１のファイルパスを表示する欄である。

【0020】

チャンネルｇ５の欄は、チャンネル番号を指定する欄である。例えば、字幕付きデータがＸＤＣＡＭの場合、最大８チャンネルの中から抽出したい音声チャンネルを選択する。
ステータスｇ６の欄は、選択された字幕付きデータのアップロードの状態を表示する欄である。例えば、ここでは、ファイルが選択されただけで、まだ、アップロードされていない（未送信）状態を示している。このステータスｇ６の欄は、後記するファイル分離手段２１によって、音声データおよび字幕データが分離され、発話音声テキスト生成装置３にアップロードされた段階で、送信完了に更新される。
開始ボタンＢは、選択されたファイルのアップロードを指示するボタンである。アップロード端末２は、ファイルを選択された後、マウス等の入力手段によって開始ボタンＢを押下されることで、ファイルのアップロードを開始する。

【0021】

図１に戻って、アップロード端末２の構成について説明を続ける。
ファイル選択手段２０は、選択された字幕付きデータを字幕付きデータ記憶装置１から読み出して、ファイル分離手段２１に出力する。

【0022】

ファイル分離手段（分離手段）２１は、ファイル選択手段２０で選択された字幕付きデータから、音声データと字幕データとを分離するものである。
例えば、字幕付きデータがＸＤＣＡＭの動画コンテンツの場合、映像データ、音声データおよび字幕データは、ＭＸＦ（Material eXchange Format）の形式でコンテンツ内に格納されている。
そこで、ファイル分離手段２１は、ＭＸＦの字幕付きデータから、音声ストリームを抽出し、ＷＡＶファイルに変換することで、音声データを分離する。
また、字幕データは、ＭＸＦの形式でＡＲＩＢ（Association of Radio Industries and Businesses：一般社団法人電波産業会）字幕ファイルとしてコンテンツ内に格納されている。
そこで、ファイル分離手段２１は、ＭＸＦの字幕付きデータから、ＡＲＩＢ字幕ファイルを抽出し、ＡＲＩＢ字幕を文字コード（例えば、ＵＴＦ－８）に変換することで、テキストデータとして字幕データを分離する。

【0023】

ファイル分離手段２１は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置３にアップロードする。
ここでは、ファイル分離手段２１は、図示を省略した通信手段によって、ネットワークＮ，Ｎ_１を介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置３に送信する。
なお、ファイル分離手段２１は、音声データおよびテキストデータを、発話音声テキスト生成装置３にアップロードした後、図２に示した選択画面Ｇ１のステータスｇ６の欄を「送信完了」に更新する。
これによって、操作者は、選択したファイルのアップロード状況を確認することができる。

【0024】

放送データ受信手段２２は、デジタル放送で放送中の字幕付きデータ（放送データ）を受信し、ストリームデータ（トランスポートストリーム〔ＴＳ：Transport Stream〕）に復調するものである。
放送データ受信手段２２は、例えば、外部から、字幕付きの放送データを放送しているチャンネルを指定されることで、復調したストリームデータ中のＰＳＩ／ＳＩ（Program Specific Information〔番組特定情報〕／Service Information〔番組配列情報〕）を解析し、指定されたチャンネルに対応するストリームデータを抽出する。
放送データ受信手段２２は、抽出したストリームデータを放送データ分離手段２３に出力する。

【0025】

放送データ分離手段（分離手段）２３は、放送データ受信手段２２で受信したストリームデータから、音声データと字幕データ（テキストデータ）とを分離するものである。
放送データ分離手段２３は、ストリームデータに多重化されている音声データと、ストリームデータにクローズドキャプションとして多重化されているテキストデータである字幕データとをそれぞれ抽出する。
放送データ分離手段２３は、分離した音声データおよびテキストデータを、発話音声テキスト生成装置３にアップロードする。
ここでは、放送データ分離手段２３は、図示を省略した通信手段によって、ネットワークＮ，Ｎ_１を介して、音声データおよびテキストデータを対応付けて発話音声テキスト生成装置３に送信する。

【0026】

以上、アップロード端末２の構成について説明したが、アップロード端末２は、この構成に限定されるものではない。例えば、アップロード端末２は、放送データ受信手段２２および放送データ分離手段２３を省略し、字幕付きデータ記憶装置１に記憶されている字幕付きデータから、音声データとテキストデータとを分離して、発話音声テキスト生成装置３に送信するものとして構成してもよい。また、例えば、アップロード端末２は、ファイル選択手段２０およびファイル分離手段２１を省略し、現在放送中の放送データから、音声データとテキストデータとを分離して、発話音声テキスト生成装置３に送信するものとして構成してもよい。

【0027】

〔発話音声テキスト生成装置〕
発話音声テキスト生成装置３は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ（区間音声データ）と、その音声データに対応するテキストデータ（区間テキストデータ）とを学習データとして生成するサーバである。
発話音声テキスト生成装置３は、音声テキスト記憶手段３０と、音声区切り検出手段３１と、音声認識手段３２と、マッチング手段３３と、を備える。

【0028】

音声テキスト記憶手段３０は、複数の発話音声からなる音声データとその音声データに対応するテキストデータとを対応付けて記憶するものである。この音声テキスト記憶手段３０は、ハードディスク等の一般的な記憶媒体で構成することができる。
音声テキスト記憶手段３０に記憶する音声データおよびテキストデータは、図示を省略した通信手段によって、ネットワークＮ，Ｎ_１を介して、アップロード端末２からアップロードされた音声データおよびテキストデータを受信して記憶されたデータである。

【0029】

音声区切り検出手段３１は、複数の発話音声からなる音声データから、発話ごとの音声データ（区間音声データ）の区切り位置を検出するものである。
音声区切り検出手段３１は、音声テキスト記憶手段３０に記憶されている音声データから、発話区間を検出し、発話区間同士の間の位置（例えば、中間位置）を音声データの区切り位置として検出する。
音声区切り検出手段３１における発話区間の検出手法は、一般的な手法を用いればよい。例えば、音声区切り検出手段３１は、音声データから音響特徴量であるパワー（パワースペクトル）を抽出し、パワーが、予め定めた閾値よりも大きい場合に当該時間区間を発話区間とし、それ以外を非発話区間とする。
音声区切り検出手段３１は、音声データと音声データの区切り位置とを音声認識手段３２およびマッチング手段３３に出力する。

【0030】

音声認識手段３２は、音声区切り検出手段３１で検出された区切り位置で区分される音声データ（区間音声データ）ごとに音声認識を行うものである。
音声認識手段３２における音声認識手法は、一般的な手法を用いればよい。音声認識手段３２は、図示を省略した言語モデル、音響モデルおよび発音辞書により、音声データの音声認識を行う。
音声認識手段３２は、区間音声データごとの認識結果（漢字仮名交じり文）をマッチング手段３３に出力する。

【0031】

マッチング手段３３は、音声認識手段３２で音声認識された認識結果と、音声テキスト記憶手段３０に記憶されている音声データに対応するテキストデータとをマッチングするものである。
このマッチング手段３３は、例えば、動的計画法(Dynamic Programming)によるマッチング手法（ＤＰマッチング）により、単語または文字単位で認識結果とテキストデータとをマッチングすることで、認識結果に対応するテキストデータ（区間テキストデータ）を推定する。このとき、マッチング手段３３は、類似の度合いとして、認識結果と推定した区間テキストデータとの間で、認識誤り、記号の挿入、書き換えを含んだ不一致率（matching error rate：ＭＥＲ）を算出する。
マッチング手段３３は、不一致率が予め定めた閾値未満の区間テキストデータを、区切り位置で区切られた音声データ（区間音声データ）に対応するテキストデータとする。
そして、マッチング手段３３は、区切り位置で区切った区間音声データと、マッチングした区間テキストデータとを対応付ける。

【0032】

マッチング手段３３は、対応付けた区間音声データと区間テキストデータとを、図示を省略した通信手段によって、ネットワークＮ，Ｎ_２を介して、編集端末４に送信する。
なお、マッチング手段３３は、認識結果との不一致率が予め定めた閾値未満の区間テキストデータについては、対応する区間音声データとともに、編集端末４に送信を行わないこととする。あるいは、マッチング手段３３は、区間音声データとともに、区間テキストデータをＮＵＬＬデータとして、編集端末４に送信することとしてもよい。

【0033】

以上説明したように構成することで、発話音声テキスト生成装置３は、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間テキストデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置３は、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間テキストデータに対応付けることができる。
なお、発話音声テキスト生成装置３は、図示を省略したコンピュータを、前記した各手段として機能させるための発話音声テキスト生成プログラムで動作させることができる。

【0034】

〔編集端末〕
編集端末４は、発話音声テキスト生成装置３で対応付けられた発話区間ごとの音声データ（区間音声データ）とテキストデータ（区間テキストデータ）とを修正するクライアント端末である。
編集端末４は、学習データ記憶手段４０と、修正手段４１と、を備える。

【0035】

学習データ記憶手段４０は、発話音声テキスト生成装置３で生成された学習データである発話区間ごとの区間音声データと区間テキストデータとを対応付けて記憶するものである。この学習データ記憶手段４０は、ハードディスク等の一般的な記憶媒体で構成することができる。
学習データ記憶手段４０に記憶する区間音声データおよび区間テキストデータは、図示を省略した通信手段によって、ネットワークＮ，Ｎ_２を介して、発話音声テキスト生成装置３から受信して記憶されたデータである。

【0036】

修正手段４１は、操作者の操作によって、学習データ（区間音声データおよび区間テキストデータ）を修正するものである。
修正手段４１は、図３に示すような編集画面Ｇ２を表示し、操作者の操作によって、区間音声データおよび区間テキストデータを修正する。

【0037】

図３では、編集画面Ｇ２を、区間音声データの区切り位置を修正する区切り位置修正画面ｇ１０と、区間テキストデータを修正するテキスト修正画面ｇ１１とで構成した例を示している。
区切り位置修正画面ｇ１０は、修正対象の区間音声データの音声波形ｗを、前後の区間音声データの音声波形ｗｆ，ｗｂとともに時系列に表示するとともに、修正対象の区間音声データの前後の区切り位置ｐｆ，ｐｂを表示する画面である。
区切り位置修正画面ｇ１０は、操作者のマウス等の操作により、区切り位置ｐｆ，ｐｂを修正するインタフェースを有する。
また、区切り位置修正画面ｇ１０は、さらに、再生ボタンｂ１、停止ボタンｂ２、一時停止ボタンｂ３、１０秒戻るボタンｂ４、１０秒進むボタンｂ５を備え、操作者が所望する位置からの音声データの再生の指示を受け付けるインタフェースを有する。

【0038】

テキスト修正画面ｇ１１は、修正対象の区間テキストデータを表示する画面である。
テキスト修正画面ｇ１１は、キーボード等の操作により、テキストデータを編集するインタフェースを有する。
また、編集画面Ｇ２は、修正対象を前の区間の文章（区間音声データ、区間テキストデータ）に切り替える戻るボタンｂ６、修正内容を保存して修正対象を次の区間に進める進むボタンｂ７、修正内容を保存せず、あるいは、修正を行わずに次の区間に進める進むボタンｂ８を備え、操作者が所望する修正対象の切り替えを行うインタフェースを有する。

【0039】

図１に戻って、編集端末４の構成について説明を続ける。
修正手段４１は、音声区切り修正手段４１０と、テキスト修正手段４１１と、を備える。

【0040】

音声区切り修正手段４１０は、学習データ記憶手段４０に記憶されている区間音声データの区切り位置を修正するものである。
音声区切り修正手段４１０は、図３に示した編集画面Ｇ２の区切り位置修正画面ｇ１０において、修正対象の区間音声データの音声波形ｗを、前後の区間音声データの音声波形ｗｆ，ｗｂとともに時系列に表示する。
また、音声区切り修正手段４１０は、修正対象の区間音声データの区切り位置ｐｆ，ｐｂを表示する。

【0041】

音声区切り修正手段４１０は、再生ボタンｂ１、停止ボタンｂ２、一時停止ボタンｂ３、１０秒戻るボタンｂ４、１０秒進むボタンｂ５を操作者によって指示されることで、操作者が所望する位置からの音声データの再生、停止等を行う。これによって、操作者は、最適な音声データの区切り位置を判断することができる。
音声区切り修正手段４１０は、操作者の操作によって、例えば、マウス等で区切り位置ｐｆ，ｐｂの線を左右にドラッグすることで、区切り位置ｐｆ，ｐｂを修正する。

【0042】

なお、音声区切り修正手段４１０は、前の区切り位置ｐｆを後ろ修正する、あるいは、後の区切り位置ｐｂを前に修正する場合、修正対象の区間音声データの音声波形ｗにおいて指定された位置で音声波形を削除すればよい。また、音声区切り修正手段４１０は、前の区切り位置ｐｆをさらに前に修正する、あるいは、後の区切り位置ｐｂをさらに後ろに修正する場合、修正対象の区間音声データの音声波形ｗに前後の区間音声データの音声波形の一部を付加すればよい。

【0043】

テキスト修正手段４１１は、学習データ記憶手段４０に記憶されている区間テキストデータを修正するものである。
テキスト修正手段４１１は、図３に示した編集画面Ｇ２のテキスト修正画面ｇ１１に、修正対象の区間テキストデータを表示する。
そして、テキスト修正手段４１１は、操作者のキーボード等の操作によって、区間テキストデータを一般的なテキスト編集によって修正する。
修正手段４１は、図３に示した編集画面Ｇ２の戻るボタンｂ６、進むボタンｂ８をマウス等の入力手段によって押下されることで、修正対象を時系列で前または後に変更する。
また、修正手段４１は、進むボタンｂ７をマウス等の入力手段によって押下されることで、修正した区間音声データおよび区間テキストデータで、学習データ記憶手段４０のデータを更新する。

【0044】

以上説明したように、学習データ生成システム１００は、字幕付きデータ（放送データ）から、音声合成または音声認識に用いるＤＮＮのモデルを学習するための発話単位の音声データ（区間音声データ）およびその音声データに対応するテキストデータ（区間テキストデータ）を学習データとして生成することができる。
なお、学習データ生成システム１００において、編集端末４は必ずしも必須構成ではない。しかし、学習データの精度を高める点において、編集端末４を備えることが好ましい。
また、学習データ生成システム１００は、アップロード端末２と、発話音声テキスト生成装置３と、編集端末４と、を一体化した発話音声テキスト生成装置として構成してもよい。

【0045】

＜学習データ生成システムの動作＞
次に、図４を参照（構成については適宜図１参照）して、参考例の実施形態に係る学習データ生成システム１００の動作（発話音声テキスト生成方法）について説明する。
なお、字幕付きデータ記憶装置１には、複数の発話音声からなる音声データとその音声データに対応する字幕データとを含んだ字幕付きデータが予め記憶されているものとする。

【0046】

ステップＳ１において、アップロード端末２は、字幕付きデータを取得する。ここでは、アップロード端末２は、字幕付きデータ記憶装置１から、ファイル選択手段２０によって、操作者が選択した字幕付きデータを取得する。あるいは、アップロード端末２は、放送データ受信手段２２によって、放送データを受信し、指定されたチャンネルに対応するストリームデータを抽出する。

【0047】

ステップＳ２において、アップロード端末２は、字幕付きデータから、音声データとテキストデータ（字幕データ）とを分離する。
ステップＳ３において、アップロード端末２は、分離した音声データとテキストデータとを、発話音声テキスト生成装置３にアップロードする。

【0048】

ステップＳ４において、発話音声テキスト生成装置３は、ステップＳ３でアップロードされた音声データとテキストデータとを対応付けて音声テキスト記憶手段３０に記憶する。
ステップＳ５において、発話音声テキスト生成装置３は、音声区切り検出手段３１によって、複数の発話音声からなる音声データにおいて、発話ごとの音声データの区切り位置を検出する。
ステップＳ６において、発話音声テキスト生成装置３は、音声認識手段３２によって、ステップＳ５で検出された区切り位置で区分される音声データである区間音声データごとに音声認識を行う。これによって、発話単位の音声データに対応する音声認識結果が生成される。

【0049】

ステップＳ７において、発話音声テキスト生成装置３は、マッチング手段３３によって、ステップＳ６で音声認識された区間音声データの認識結果と、複数の発話音声からなる音声データに対応付けられているテキストデータとをマッチングすることで、認識結果に対応するテキストデータ（区間テキストデータ）を推定する。
ステップＳ８において、発話音声テキスト生成装置３は、生成した学習データ（区間音声データ、区間テキストデータ）を編集端末４に送信し、編集端末４は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段４０に記憶する。

【0050】

ステップＳ９において、編集端末４は、修正手段４１によって、区間音声データの区切り位置と、区間テキストデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末４は、音声区切り修正手段４１０によって、区間音声データの区切り位置を修正し、テキスト修正手段４１１によって、区間テキストデータを修正する。
以上の動作によって、学習データ生成システム１００は、音声合成または音声認識に用いるＤＮＮのモデルを学習するための学習データを生成することができる。

【0051】

≪本発明の実施形態≫
＜学習データ生成システムの構成＞
次に、図５を参照して、本発明の実施形態に係る学習データ生成システム１００Ｂの構成について説明する。
以下の参考文献に記載されている音声合成方式において、音声合成に用いるＤＮＮは、音声データと、それに対応する読み仮名および韻律記号とを学習データとして学習したものである。
（参考文献）栗原清、清山信正、熊野正、今井篤、“読み仮名と韻律記号を入力とする日本語End-to-End 音声合成方式の検討”、日本音響学会秋季研究発表会、1-4-1、Sep．2018．
この参考文献では、学習データとして、漢字仮名交じり文や片仮名のみのテキストデータよりも、読み仮名および韻律記号を用いる方が、音声合成結果の品質が向上する旨が記載されている。

【0052】

図５に示す学習データ生成システム１００Ｂは、参考文献に記載の手法に対しても学習データを生成することを可能にするシステムである。
学習データ生成システム１００Ｂは、音声合成または音声認識に用いるディープニューラルネットワーク（ＤＮＮ）のモデルを学習するための発話単位の音声データおよびその音声データに対応する読み仮名および韻律記号を学習データとして生成するものである。

【0053】

ここで、図６および図７を参照して、学習データ生成システム１００Ｂが生成する読み仮名および韻律記号について説明する。
図６は、「こんにちは正午のニュースです」（漢字仮名交じり文）に対応する読み仮名と韻律記号とを記載した例を示している。
ここでは、「コンニチワショーゴノニュースデス」が読み仮名で、読み仮名の途中や末尾に付加されている記号が韻律記号である。
なお、読み仮名は、
読みを表す文字であればよく、片仮名以外にも、平仮名、音素記号、発音記号、ローマ字等であってもよい。
韻律記号は、韻律を表す予め定めた文字であって、アクセント、句・フレーズの区切り、文末イントネーション、ポーズ等の位置や状態を示す記号である。

【0054】

図７に韻律記号の例を示す。アクセント位置の指定には、アクセント上昇を表す韻律記号「″」や、アクセント下降を表す韻律記号「＆」が用いられる。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「＃」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「（」や、疑問の文末を表す韻律記号「？」が用いられる。ポーズの指定には韻律記号「＿」が用いられる。なお、これらの韻律記号は例であり、他の記号を用いてもよい。また、これらの例では、韻律記号を１字で表しているが、２字以上で表してもよい。また、図７に示す韻律に加えて他の韻律の韻律記号を用いることもできる。

【0055】

図５に戻って説明を続ける。
学習データ生成システム１００Ｂは、字幕付きデータ記憶装置１と、アップロード端末２と、発話音声テキスト生成装置３Ｂと、編集端末４と、を備える。
字幕付きデータ記憶装置１、アップロード端末２および編集端末４は、図１で説明した構成と同じであるため、説明を省略する。

【0056】

〔発話音声テキスト生成装置〕
発話音声テキスト生成装置３Ｂは、複数の発話音声からなる音声データとその音声データに対応するテキストデータとから、発話区間の音声データ（区間音声データ）と、その音声データに対応するテキストデータである読み仮名および韻律記号とを学習データとして生成するサーバである。なお、読み仮名および韻律記号を、ＰＬＰ（Symbols of phoneme and linguistic phonological features）データと記載する場合がある。

【0057】

発話音声テキスト生成装置３Ｂは、音声テキスト記憶手段３０と、音声区切り検出手段３１と、音声認識手段３２と、マッチング手段３３と、コンテキスト情報生成手段３４と、変換手段３５と、を備える。
音声テキスト記憶手段３０、音声区切り検出手段３１、音声認識手段３２およびマッチング手段３３は、図１で説明した構成と同じであるため、説明を省略する。なお、ここでは、マッチング手段３３は、区間テキストデータをコンテキスト情報生成手段３４に出力し、区間音声データを変換手段３５に出力することとする。

【0058】

コンテキスト情報生成手段３４は、マッチング手段３３で区間音声データに対応付けられた区間テキストデータ（漢字仮名交じり文）から、コンテキスト情報（コンテキストラベルデータ）を生成するものである。
コンテキスト情報は、音素の情報と、当該音素が含まれるアクセント句および当該アクセント句に隣接するアクセント句に関する特徴を示すアクセント句情報とを少なくとも含む音素ごとの情報（コンテキスト）を、予め定めた指標（ラベル）ごとに表した情報である。

【0059】

図８および図９にコンテキスト情報の各ラベルの特徴を示す。ｎは、先頭の音素を１番目としたときの音素の順番を表す。ラベルｐ_ｎ、ａ_ｎ～ｋ_ｎは、ｎ番目の音素を現在位置としたときの特徴を示す。
ｐ_ｎは現在（ｎ番目）の音素を中心とした音素の並びを表す。ｐ_ｎ，１は２つ前の音素（先先行音素）、ｐ_ｎ，２は１つ前の音素（先行音素）、ｐ_ｎ，３は現在（ｎ番目）の音素、ｐ_ｎ，４は１つ後の音素（後続音素）、ｐ_ｎ，５は２つ後の音素（後後続音素）を表す。ａ_ｎは、アクセント型と位置に関する情報を示す。ｂ_ｎは、先行単語の品詞、活用形および活用型に関する情報を示す。ｃ_ｎは、現在の単語の品詞、活用形および活用型に関する情報を示す。ｄ_ｎは、後続単語の品詞、活用形および活用型に関する情報を示す。ｅ_ｎは、先行アクセント句の情報を示す。ｆ_ｎは、現在のアクセント句の情報を示す。ｇ_ｎは、後続アクセント句の情報を示す。ｈ_ｎは、先行呼気段落の情報を示す。ｉ_ｎは、現在の呼気段落の情報を示す。ｊ_ｎは、後続呼気段落の情報を示す。ｋ_ｎは、発話における呼気段落、アクセント句およびモーラ（音の分節）の数を示す。

【0060】

このように、コンテキスト情報は、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報等を含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、および、当該アクセント句に隣接するアクセント句に関する特徴等を示す。なお、位置は、現在の音素の位置を”０”として、現在の音素よりも前の位置は負の値により、現在の音素のよりも後の位置は正の値により表される。
図１０に、コンテキスト情報の形式例を示す。図１０のコンテキスト情報Ｌ_ｎは、音素列の中のｎ番目の音素の情報を示す。

【0061】

図５に戻って説明を続ける。
コンテキスト情報生成手段３４は、区間テキストデータ（漢字仮名交じり文）から、音素ごとに、図１０に示すコンテキスト情報Ｌ_ｎ（ｎ＝１～Ｎ，Ｎ：音素数）を生成する。
漢字仮名交じり文のテキストデータからコンテキスト情報を生成する手法は、一般的な手法を用いればよい。例えば、参考文献「“Open JTalk”，[online]，[2020年3月6日検索]，インターネット<http://open-jtalk.sourceforge.net/>」に記載の技術を用いることができる。この技術の手法は、形態素解析の機能とアクセント辞典の機能やその他の言語処理の機能を持ち、漢字仮名交じり文からコンテキストラベルの形式で各ラベルに情報を反映する。
コンテキスト情報生成手段３４は、生成した音素列のコンテキスト情報を、変換手段３５に出力する。

【0062】

変換手段３５は、コンテキスト情報生成手段３４で生成された音素列のコンテキスト情報を、音素の出現順の読みを表す文字と韻律を表す予め定めた文字とを含むテキストデータ（第２の区間テキストデータ）に変換するものである。
ここでは、変換手段３５は、コンテキスト情報を、ＰＬＰデータ（読み仮名および韻律記号）に変換する。
変換手段３５は、音素列のコンテキスト情報Ｌ_１，…，Ｌ_ｎ，…，Ｌ_Ｎ（Ｎ：音素数）から、ｐ_ｎ，３（ｎ＝１～Ｎ，Ｎ：音素数）の音素（図８参照）を順番に抽出して、音素列を生成する。
そして、変換手段３５は、予め定めた条件に合致したとき、ｐ_ｎ，３の後ろに、予め定めた韻律記号を挿入する。
具体的には、変換手段３５は、図１１に示す条件（１）～（６）に合致する場合（適宜図８，図９参照）、所定の韻律記号を挿入する。

【0063】

条件（１）は、コンテキスト情報Ｌ_ｎのａ_ｎ，３＝１、かつ、コンテキスト情報Ｌ_ｎ＋１のａ_{ｎ＋１，２}＝１という条件である。ａ_ｎ，３は、現在のアクセント句における現在のモーラの後ろからの位置を意味する。つまり、ａ_ｎ，３＝１とは、現在のモーラ位置が現在のアクセント句内において最も後ろであることを示す。ａ_ｎ，２は、現在のアクセント句における現在のモーラの先頭からの位置を意味する。つまり、ａ_{ｎ＋１，２}＝１とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。
この条件（１）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の後ろに、アクセント句の区切りを示す韻律記号（“＃”）を挿入する。

【0064】

条件（２）は、コンテキスト情報Ｌ_ｎのａ_ｎ，１＝０、かつ、ａ_ｎ，２≠ｆ_ｎ，１という条件である。ａ_ｎ，１＝０は、現在のアクセント句においてアクセント型（アクセント核の位置）と現在のモーラ位置とが一致することを示す。ａ_ｎ，２≠ｆ_ｎ，１は、現在のアクセント句のモーラ数と現在のアクセント句における現在のモーラの先頭からの位置とが不一致であることを示す。つまり、コンテキスト情報Ｌ_ｎの音素は、現在のアクセント句における最後のモーラではないことを示す。
この条件（２）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の後ろに、アクセント下降を示す韻律記号（「＆」）を挿入する。

【0065】

条件（３）は、コンテキスト情報Ｌ_ｎのａ_ｎ，２＝１、かつ、コンテキスト情報Ｌ_ｎ＋１のａ_{ｎ＋１，２}＝２という条件である。ａ_ｎ，２は、現在のアクセント句における現在のモーラの先頭からの位置を表す。ａ_ｎ，２＝１とは、現在のモーラ位置が現在のアクセント句内において先頭であることを示す。また、ａ_{ｎ＋１，２}＝２とは、後続音素の位置を現在位置としたときに、現在のモーラ位置が現在のアクセント句内において２番目であることを示す。
この条件（３）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の後ろに、アクセント上昇を示す韻律記号（「”」）を挿入する。

【0066】

条件（４）は、コンテキスト情報Ｌ_ｎの音素ｐ_ｎ，３がポーズを表す「ｐａｕ」であるという条件である。
この条件（４）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の「ｐａｕ」を削除し、ポーズを表す韻律記号（「＿」）を挿入する。

【0067】

条件（５）は、コンテキスト情報Ｌ_ｎの音素ｐ_ｎ，３が無音を表す「ｓｉｌ」であり、かつ、ｎ＝Ｎであり、かつ、ｅ_ｎ，３＝０であるという条件である。ｎ＝Ｎとは、現在の音素が発話における最後の音素であることを示す。ｅ_ｎ，３＝０とは、文末イントネーションが疑問形ではない通常のイントネーションであることを示す。
この条件（５）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の「ｓｉｌ」を削除し、文末（通常）を表す韻律記号（「（」）を挿入する。

【0068】

条件（６）は、コンテキスト情報Ｌ_ｎの音素ｐ_ｎ，３が無音を表す「ｓｉｌ」であり、かつ、ｎ＝Ｎであり、かつ、ｅ_ｎ，３＝１であるという条件である。ｎ＝Ｎとは、現在の音素が発話における最後の音素であることを示す。ｅ_ｎ，３＝１とは、文末イントネーションが疑問形のイントネーションであることを示す。
この条件（６）を満たす場合、変換手段３５は、音素ｐ_ｎ，３の「ｓｉｌ」を削除し、文末（疑問）を表す韻律記号（「？」）を挿入する。

【0069】

これによって、変換手段３５は、図１２に示すように、コンテキスト情報Ｌ_１，…，Ｌ_ｎ，…，Ｌ_Ｎ（Ｎ：音素数）を、音素列ｐ_１，３，ｐ_２，３，…，ｐ_Ｎ，３に韻律記号を挿入したテキストデータであるＰＬＰデータ（ＰＬＰ_Ｎ）に変換する。
なお、ここでは、ＰＬＰデータの読み仮名を音素記号（ｐ_１，３等を示す音素記号）で表した例で示しているが、変換手段３５は、音素記号を、平仮名、片仮名、発音記号、ローマ字等に変換してもよい。片仮名に変換した場合、図６に示したＰＬＰデータとなる。

【0070】

図５に戻って説明を続ける。
変換手段３５は、マッチング手段３３で区切られた区間音声データとその区間に対応するＰＬＰデータである区間ＰＬＰデータ（第２の区間テキストデータ）とを、図示を省略した通信手段によって、ネットワークＮ，Ｎ_２を介して、編集端末４に送信する。

【0071】

以上説明したように構成することで、発話音声テキスト生成装置３Ｂは、音声データとテキストデータとから、発話ごとに対応付けた区間音声データと区間ＰＬＰデータとを学習データとして生成することができる。このとき、発話音声テキスト生成装置３Ｂは、音声データに含まれる発話音声である区間音声データを、時間のずれに関係なく字幕データに対応した区間ＰＬＰデータに対応付けることができる。
なお、発話音声テキスト生成装置３Ｂは、図示を省略したコンピュータを、前記した各手段として機能させるための学習宇データ生成プログラムで動作させることができる。

【0072】

学習データ生成システム１００Ｂでは、編集端末４は、発話区間ごとの音声データ（区間音声データ）とテキストデータ（ＰＬＰデータ）とを学習データ記憶手段４０に記憶する。そして、編集端末４は、図１３に示すように、編集画面Ｇ２のテキスト修正画面ｇ１１に、区間ＰＬＰデータを表し、修正を行う。
なお、発話音声テキスト生成装置３Ｂは、区間音声データと区間ＰＬＰデータとともに、区間テキストデータを編集端末４に送信することとしてもよい。
この場合、編集端末４は、修正手段４１によって、図１４に示すように編集画面Ｇ２Ｂを表示し、区間テキストデータと区間ＰＬＰデータとを修正対象とることができる。
図１４の例では、テキスト修正手段４１１が、テキスト修正画面を２つ（ｇ１１ａ，ｇ１１ｂ）表示し、テキスト修正画面ｇ１１ａにおいて区間テキストデータを修正し、テキスト修正画面ｇ１１ｂにおいて区間ＰＬＰデータを修正すればよい。

【0073】

＜学習データ生成システムの動作＞
次に、図１５を参照（構成については適宜図５参照）して、本発明の実施形態に係る学習データ生成システム１００Ｂの動作（発話音声テキスト生成方法）について説明する。
なお、ステップＳ１からＳ７までの動作は、図４で説明した学習データ生成システム１００と同じ動作であるため説明を省略する。

【0074】

ステップＳ７Ａにおいて、発話音声テキスト生成装置３Ｂは、コンテキスト情報生成手段３４によって、ステップＳ７で区間音声データに対応付けられた区間テキストデータ（漢字仮名交じり文）に対して、形態素解析および言語解析を行うことで、区間テキストデータから、音素ごとのコンテキスト情報（コンテキストラベルデータ）を生成する。
ステップＳ７Ｂにおいて、発話音声テキスト生成装置３Ｂは、変換手段３５によって、ステップ７Ａで生成されたコンテキスト情報から音素列を抽出するとともに、図１１に示した条件に従って、韻律記号を付加することで、区間音声データに対応した音素列のコンテキスト情報をＰＬＰデータ（区間ＰＬＰデータ；第２の区間テキストデータ）に変換する。

【0075】

ステップ８Ａにおいて、発話音声テキスト生成装置３Ｂは、生成した学習データ（区間音声データ、区間ＰＬＰデータ）を編集端末４に送信し、編集端末４は、区間音声データと区間テキストデータとを対応付けて学習データ記憶手段４０に記憶する。
ステップＳ９Ｂにおいて、編集端末４は、修正手段４１によって、区間音声データの区切り位置と、区間ＰＬＰデータの文字列とを、操作者の判断により必要に応じて修正する。
ここでは、編集端末４は、音声区切り修正手段４１０によって、区間音声データの区切り位置を修正し、テキスト修正手段４１１によって、区間ＰＬＰデータを修正する。
以上の動作によって、学習データ生成システム１００Ｂは、音声合成または音声認識に用いるＤＮＮのモデルを学習するための学習データを生成することができる。

【符号の説明】

【0076】

１００，１００Ｂ学習データ生成システム
１字幕付きデータ記憶装置
２アップロード端末
２０ファイル選択手段
２１ファイル分離手段（分離手段）
２２放送データ受信手段
２３放送データ分離手段（分離手段）
３，３Ｂ発話音声テキスト生成装置
３０音声テキスト記憶手段
３１音声区切り検出手段
３２音声認識手段
３３マッチング手段
３４コンテキスト情報生成手段
３５変換手段
４編集端末
４０学習データ記憶手段
４１修正手段
４１０音声区切り修正手段
４１１テキスト修正手段

【図1】