特開2022-73807 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ＴＢＳテレビの特許一覧

特開2022-73807音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022073807

(43)【公開日】2022-05-17

(54)【発明の名称】音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20220510BHJP

G10L 21/043 20130101ALI20220510BHJP

G06F 3/16 20060101ALI20220510BHJP

G06F 3/0488 20220101ALI20220510BHJP

G06F 3/0484 20220101ALI20220510BHJP

【ＦＩ】

G10L15/22 460

G10L21/043

G06F3/16 650

G06F3/16 620

G06F3/16 610

G06F3/0488

G06F3/0484

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2020184011

(22)【出願日】2020-11-02

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和元年１１月１３日乃至１１月１５日株式会社ＴＢＳテレビが、ＩｎｔｅｒＢＥＥ２０１９にて、音声認識テキストデータ出力制御技術の要旨について公開した。令和２年５月１日株式会社ＴＢＳテレビが、映像情報メディア学会誌２０２０にて、音声認識テキストデータ出力制御技術の要旨について公開した。令和２年９月１６日株式会社ＴＢＳテレビが、ＡＩ分科会にて、音声認識テキストデータ出力制御技術の要旨について公開した。令和２年１０月２６日株式会社ＴＢＳテレビが、ソニービジネスソリューション社の取材にて、音声認識テキストデータ出力制御技術の要旨について公開した。

(71)【出願人】

【識別番号】509137087

【氏名又は名称】株式会社ＴＢＳテレビ

(74)【代理人】

【識別番号】100205523

【弁理士】

【氏名又は名称】木村浩也

(72)【発明者】

【氏名】木村浩也

(72)【発明者】

【氏名】小沢冬平

(72)【発明者】

【氏名】小林祥子

(72)【発明者】

【氏名】松本隆矢

(72)【発明者】

【氏名】清家喜夫

(72)【発明者】

【氏名】山中雄一郎

(72)【発明者】

【氏名】永田六郎

(72)【発明者】

【氏名】明日大喜

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA04

5E555AA13

5E555AA76

5E555BA02

5E555BA03

5E555BA05

5E555BA06

5E555BA41

5E555BA82

5E555BB02

5E555BB03

5E555BB05

5E555BB06

5E555BC17

5E555BC18

5E555BC19

5E555CA12

5E555CA18

5E555CB15

5E555CB16

5E555CB44

5E555CB55

5E555CB64

5E555CB74

5E555CC15

5E555CC16

5E555CC17

5E555CC18

5E555CC19

5E555DA23

5E555DB25

5E555DB41

5E555DC11

5E555DC19

5E555DC40

5E555DC53

5E555DC83

5E555DD06

5E555DD07

5E555EA07

5E555EA13

5E555EA23

5E555FA00

(57)【要約】

【課題】音声認識処理を正確に認識し、且つ、迅速に修正を行うこと。
【解決手段】音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御部と、を備えることによって、音声認識処理の認識率向上が期待できる。
【選択図】図１

【特許請求の範囲】

【請求項1】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項2】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
タッチパネルに表示された前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、
前記１ブロック以降のブロックは前記１ブロックよりも下段に表示する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項3】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
タッチパネルに表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックに該当するテキストを削除するテキスト編集部と、
前記１ブロックを消去して表示する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項4】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
タッチパネルに表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項5】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
タッチパネルに表示された前記ブロック表示の１ブロックを左横スワイプアクションした際に、前記１ブロックの前に句読点、または区切り記号を挿入するテキスト編集部と、
前記１ブロックの前に選択された句読点、または区切り記号をブロック表示する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項6】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
タッチパネルに表示された前記ブロック表示の１ブロックをタップアクションした際に、前記１ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示する表示制御部と、
前記表示制御部に表示された前記テキスト修正エリアを使ってキーボードから入力されたテキストを、前記１ブロックに表示されたテキストと差し替えるテキスト編集部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項7】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
音声認識処理を行う映像データ、または音声データを収録する第一収録部と、
タッチパネルに表示された前記ブロック表示の１ブロックをダブルタップアクションした際に、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、
前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項8】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、
通常時は前記第二収録部に収録された映像データ、または音声データを一定時間遅延させて等倍再生し、一定時間以上遅延していた場合は規定の倍速再生をする再生部と、
前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、
前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項9】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
前記テキスト編集部で編集されたテキストデータを放送字幕データとして出力するテキストデータ出力部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項10】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御ステップと、
を備えることを特徴とした音声認識テキストデータ出力制御方法。

【請求項11】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御手段、
を備えることを特徴とした音声認識テキストデータ出力制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識テキストデータ出力制御技術に関する。

【背景技術】

【0002】

現在、聴覚障がい者向けサービスのひとつとして、テレビ放送の音声をすべてテキスト化し、映像音声データと一緒にテキストをデータとして圧縮して放送をする、字幕放送が行われている。

【0003】

近年、テレビ放送の視聴スタイルが変化し、家事を行いながらといった、いわゆる「ながら視聴」が増え、聴覚障がい者以外でも、字幕を表示しながらの視聴できる字幕放送の需要が高まっている。さらにスマートフォン、タブレットの普及により、音を出力できない環境でのテレビ視聴も増加、字幕放送の需要が急激に高まってきており、国をあげて字幕付与率の向上に努めている。

【0004】

字幕番組用のテキストデータは、ドラマやバラエティといった事前収録番組の場合、あらかじめ準備をすることができるが、報道番組などの生放送では、放送しながらテキスト化をする必要があり、リアルタイムで音声をテキスト化する技術が求められている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００１ー６０１９２号公報

【特許文献2】特開２００４ー７２７０５号公報

【特許文献3】特開２００４ー２２６９１０号公報

【特許文献4】特開２００４ー２４０９２０号公報

【特許文献5】特開２０１４ー１４９４９０号公報

【特許文献6】特開２０１４ー２１９５６９号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

特許文献１、３の発明では、音声認識システムを利用した音声認識テキストをタッチパネル上にて、画面上に表示される認識結果をタッチして特定し、認識誤りの種別に応じて、必要であれば修正のための文字列を、キーボードを用いて入力している。この操作では画面タッチとキーボードの操作を行き来するため、修正手順だけでなくその動きにも習熟が必要で、迅速な修正作業が困難となる。

【0007】

特許文献２に記載されている従来のリアルタイム字幕制作システムでは、特殊訓練された数人の入力オペレータが音声を聞きながら高速タイピングを行う必要がある。この方式はオペレータコストが増加するだけではなく、聞き取り、タイピングによる遅延が発生、リアルタイム字幕放送にも関わらず字幕が実際の放送より遅れて表示されている。

【0008】

特許文献４に記載されている従来の校正システムは、数人オペレータが音声認識結果を確認しながら高速で修正を行う必要がある。特許文献２と同じくオペレータコストが増加するだけではなく、修正オペレーションよる遅延が発生し、リアルタイム字幕放送にも関わらず字幕が非常に遅れて表示されている。

【0009】

特許文献５に記載されている従来の誤り修正システムは、仮説ラティスを用いて認識スコアを導き、不明瞭な発音や言い間違いといった音響的な理由場合は手書き文字認識で素早く正確に修正可能としているが、各スコアに関してはオペレータは確認することができず、最終的にはオペレータの熟練度によってオペレーションスピードが左右されてしまう。

【0010】

特許文献６に記載されている辞書作成装置は、統計学的音響モデルを用いてエントロピー計算を行い、言い間違い直し等の認識を中心に辞書作成（言語モデル更新）を行っているが、最新のニュースで使われている固有名詞の出現回数などを使った言語モデル更新には何ら言及しておらず、トレンドのニュース単語の認識率は上がらない。

【0011】

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、自由に再生コントロールできる映像音声再生装置で映像音声を確認することによって、音声認識処理テキストデータを、より正確に、且つ、少ない人数のオペレータで迅速に修正することが可能な音声認識テキストデータ出力制御技術を提供することを目的とする。

【課題を解決するための手段】

【0012】

上記の課題を解決するために、請求項１の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御部と、を備えることを特徴としている。

【0013】

請求項２の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、タッチパネルに表示された前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示する表示制御部と、を備えることを特徴としている。

【0014】

請求項３の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、タッチパネルに表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックに該当するテキストを削除するテキスト編集部と、前記１ブロックを消去して表示する表示制御部と、を備えることを特徴としている。

【0015】

請求項４の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、タッチパネルに表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示する表示制御部と、を備えることを特徴としている。

【0016】

請求項５の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、タッチパネルに表示された前記ブロック表示の１ブロックを左横スワイプアクションした際に、前記１ブロックの前に句読点、または区切り記号を挿入するテキスト編集部と、前記１ブロックの前に選択された句読点、または区切り記号をブロック表示する表示制御部と、を備えることを特徴としている。

【0017】

請求項６の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、タッチパネルに表示された前記ブロック表示の１ブロックをタップアクションした際に、前記１ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示する表示制御部と、前記表示制御部に表示された前記テキスト修正エリアを使ってキーボードから入力されたテキストを、前記１ブロックに表示されたテキストと差し替えるテキスト編集部と、を備えることを特徴としている。

【0018】

請求項７の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、音声認識処理を行う映像データ、または音声データを収録する第一収録部と、タッチパネルに表示された前記ブロック表示の１ブロックをダブルタップアクションした際に、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、を備えることを特徴ととしている。

【0019】

請求項８の発明は請求項１に記載の音声認識テキストデータ出力制御装置であって、音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、通常時は前記第二収録部に収録された映像データ、または音声データを一定時間遅延させて等倍再生し、一定時間以上遅延していた場合は規定の倍速再生をする再生部と、前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、を備えることを特徴としている。

【0020】

請求項９の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、前記テキスト編集部で編集されたテキストデータを放送字幕データとして出力するテキストデータ出力部と、を備えることを特徴としている。

【発明の効果】

【0021】

本発明によれば、修正が容易に行うことができるため、オペレータコストを抑えつつ、正確、且つ、迅速に修正することが可能となるため、音声認識テキストデータ出力制御技術を提供することができる。

【図面の簡単な説明】

【0022】

【図1】本発明の実施形態に係る情報処理システムの概略構成（システム構成）の一例を示す図である。

【図2】本発明の実施形態に係る音声認識処理サーバの一例を示す概略構成図（ブロック図）である。

【図3】本発明の実施形態に係る音声認識テキストデータ出力制御サーバ一例を示す概略構成図（ブロック図）である。

【図4】本発明の実施形態に係る形態素解析処理サーバの一例を示す概略構成図（ブロック図）である。

【図5】本発明の実施形態に係る情報処理装置の一例を示す概略構成図（ブロック図）である。

【図6】本発明の実施形態に係る映像・音声再生装置の一例を示す概略構成図（ブロック図）である。

【図7】本発明の辞書生成処理例１に係る辞書生成処理制御の一例を示すフローチャートである。

【図8】本発明の辞書生成処理例１に係る辞書生成処理制御のテキスト選択過程の解説図と選択するための数式例である。

【図9】本発明の辞書生成処理例１に係る情報処理装置に表示される画面の一例を示す図である。

【図10】本発明の辞書生成処理例２に係る辞書生成処理制御の一例を示すフローチャートである。

【図11】本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。

【図12】情報処理装置５に表示されるテキスト修正画面の一例を示す図である。

【図13】情報処理装置５に表示されるテキスト修正画面の一例で、エリア変更ボタンのタッチアクションを示す図である。

【図14】情報処理装置５に表示されるテキスト修正画面の一例で、下スワイプのタッチアクションを示す図である。

【図15】情報処理装置５に表示されるテキスト修正画面の一例で、右スワイプのタッチアクションを示す図である。

【図16】情報処理装置５に表示されるテキスト修正画面の一例で、左スワイプのタッチアクションを示す図である。

【図17】情報処理装置５に表示されるテキスト修正画面の一例で、シングルタッチアクションを示す図である。

【図18】情報処理装置５に表示される音声認識確度正答率の一例を示す画面の図である。

【図19】本発明の映像・音声再生装置の動作の一例を示すフローチャートである。

【図20】本発明の映像・音声再生装置の動作の一例を示すフローチャートである。

【発明を実施するための形態】

【0023】

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。

【0024】

図１は、本発明の実施形態に係る情報処理システム１００の一実施形態を示す概略構成図（システム構成図）である。図１に示すように、本発明の実施の形態に係る情報処理システム１００は、例示的にリアルタイム音声入力処理装置１、音声認識処理サーバ２、音声認識テキストデータ出力制御サーバ３、形態素解析処理サーバ４、情報処理装置５、映像・音声再生装置６及びを備えて構成されている。

【0025】

リアルタイム音声入力処理装置１は、アナログ音声データ及びデジタル音声データをリアルタイムで受信することができる装置である。リアルタイム音声入力処理装置１は、リアルタイム音声データとして受信された音声データを、情報処理システム１００内で処理を可能とする形式のデータに変更する機能を有し、例えば、人の声以外の周波数を取り除くノイズキャンセルや、無音区間で区切るなどのデータ処理を行う装置である。

【0026】

音声認識処理サーバ２は、リアルタイム音声入力処理装置１と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識処理サーバ２は、音声認識処理方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識処理装置として機能するものである。具体的に、音声認識処理サーバ２は、リアルタイム音声入力処理装置１から送信される音声データを受信し、音声認識処理を実行し、音声認識させた結果であるテキストデータ、および音声データを後段のサーバに送信する。また、音声認識処理の精度を向上させるために、辞書データとなるテキストデータ群を受信する機能を有するものである。さらに、誤った音声認識をした際に、後段の装置で修正を行った場合、その修正の記録を受信する機能も有している。音声認識処理サーバ２は記憶領域を有しており、音声認識処理を実行する際に使用される、単数又は複数の、音声認識プログラム、各種データベース、及び各種モデルが格納されている。なお、本実施形態においては、日本語のみならず、英語等の外国語についても対象としてもよい。音声認識処理サーバ２のさらに具体的な構成及び動作については、後述する。

【0027】

音声認識テキストデータ出力制御サーバ３は、音声認識処理サーバ２、及び後述する形態素解析処理サーバ４はと通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識テキストデータ出力制御サーバ３は、本実施形態に係る音声認識テキストデータ出力制御に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識テキストデータ出力制御装置として機能を有するものである。具体的に、音声認識テキストデータ出力制御サーバ３は、音声認識処理サーバ２から受信した音声認識テキストデータと音声データを後述する情報処理装置５に送信しながら、情報処理装置５から受信した修正結果であるテキストデータの出力を制御する。音声認識テキストデータ出力制御サーバ３のさらに具体的な構成及び動作については、後述する。

【0028】

形態素解析処理サーバ４は、音声認識処理サーバ２と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。形態素解析処理サーバ４は、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ったテキストデータ群を受信し、本実施形態に係る形態素解析処理に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、辞書データを生成する機能を有するものである。辞書データとなるテキストデータを生成後は音声認識処理サーバ２、もしくは音声認識テキストデータ出力制御サーバ３に辞書データを送信する機能も有する。形態素解析処理サーバ４は記憶領域を有しており、形態素解析処理を実行する際に使用される、単数又は複数の、形態素解析処理プログラム、各種データベースが格納されている。形態素解析処理サーバ４のさらに具体的な構成及び動作については、後述する。

【0029】

情報処理装置５は、形態素解析処理サーバ４から辞書データとなるテキストデータ群を受信し、辞書編集後に再度形態素解析処理サーバ４へ辞書を送信する機能、及び、音声認識テキストデータ出力制御サーバ３から取得したテキストデータを受信及び修正したテキストを音声認識テキストデータ出力制御サーバ３へ出力する機能を有する装置である。情報処理装置５は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。

【0030】

映像・音声再生装置６は、音声認識テキストデータ出力制御サーバ３から制御を受ける機能を有するサーバ用コンピュータ、もしくは専用装置である。映像・音声再生装置６は、外部システムから映像・音声データを受信、一定時間後に映像・音声を再生する。通常は決められた再生速度で再生されているが、音声認識テキストデータ出力制御サーバ３の制御で、再生を停止させたり、少し戻して再生をしたり、倍速再生などを行う装置である。映像・音声再生装置６のさらに具体的な構成及び動作については、後述する。

【0031】

音声認識プログラムは、音声認識処理サーバ２のメインプログラムである上述したサーバ用プログラム等である。音声認識プログラムは、リアルタイム音声入力処理装置１から送信されてくる音声データを基に、情報処理を行うため、記憶領域から呼び出されて実行される。各種データベースは、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。各種モデルは、音声認識に使用する音響モデルAMDや言語モデル等を含む。またこの辞書は形態素解析処理サーバ４から受信した辞書データとなるテキストデータ群を受信、もしくは誤った音声認識結果を情報処理装置５で修正した修正データを音声認識テキストデータ出力制御サーバ３経由で受信し、辞書をアップデートする機能を有する。

【0032】

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、リアルタイム音声入力処理装置１と音声認識処理サーバ２との間、音声認識処理サーバ２と音声認識テキストデータ出力制御サーバ３との間、音声認識処理サーバ２と形態素解析処理サーバ４との間、音声認識テキストデータ出力制御サーバ３と情報処理装置５との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。

【0033】

なお、情報処理システム１００は、本実施形態では、リアルタイム音声入力処理装置１、音声認識処理サーバ２、音声認識テキストデータ出力制御サーバ３、形態素解析処理サーバ４、情報処理装置５、及び映像・音声再生装置６を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、リアルタイム音声入力処理装置１に関しては、情報処理システム１００が扱える音声データ形式で各装置に入力されていれば、設置しなくてもよい。また、情報処理装置５に関しては、複数台設置して、同時に音声認識テキストデータ出力制御サーバ３と通信を行ってもよい。また、音声認識処理サーバ２の機能と音声認識テキストデータ出力制御サーバ３の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。

【0034】

図２は、本発明の実施形態に係る音声認識処理サーバ２の一例を示す概略構成図（ブロック図）である。図２に示すように、音声認識処理サーバ２は、例示的に、各種データ及び各種情報を送受信する送受信部２１と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部２２と、各種情報及び各種データを記録する記憶部２３と、を備えて構成される。なお、情報処理部２２は、例えば、不図示であるが、記憶部２３に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

【0035】

送受信部２１は機能的に、リアルタイム音声データ受信部２１１と、辞書テキストデータ受信部２１２と、修正結果テキストデータ受信部２１３と、音声認識結果テキストデータ／音声データ送信部２１４と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）をも含む。

【0036】

リアルタイム音声データ受信部２１１は、図１に示すリアルタイム音声入力処理装置１からリアルタイム音声データを受信する。例えば、リアルタイム音声データ受信部２１１は、図１に示すリアルタイム音声入力処理装置１が区間分割、及び適正化し、音声が入力された時刻を時刻情報化し、タグ付けされた音声データを受信する。

【0037】

辞書テキストデータ受信部２１２は、図１に示す形態素解析処理サーバ４から辞書データとなるテキストデータを受信する。例えば、辞書テキストデータ受信部２１２は、図１に示す形態素解析処理サーバ４が外部テキストの形態素解析を実施し、生成した辞書テキストデータ適正なタイミングで受信する。

【0038】

修正結果テキストデータ受信部２１３は、図１に示す情報処理装置５からテキスト修正結果データを音声認識テキストデータ出力制御サーバ３経由で受信する。例えば、修正結果テキストデータ受信部２１３は、図１に示す情報処理装置５が、字幕を送出する直前で修正したテキストを時刻情報と共に辞書化したテキスト修正結果データを音声認識テキストデータ出力制御サーバ３へ送信し、音声認識テキストデータ出力制御サーバ３から修正結果を受信する。

【0039】

音声認識結果テキストデータ／音声データ送信部２１４は、音声認識結果であるテキストデータを図１に示す音声認識テキストデータ出力制御サーバ３へ送信する。例えば、リアルタイム音声データ受信部２１１で受信したリアルタイム音声データを情報処理部２２による音声認識処理でテキスト化し、結果であるテキストデータに音声時刻情報をタグ付けして図１に示す音声認識テキストデータ出力制御サーバ３へ送信する。また、テキストデータ送信と同時に音声データも送信する。音声認識テキストデータには認識候補が他にある場合、音声認識テキストデータに認識候補テキストを候補順にタグづけして送信する。その認識候補には音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。

【0040】

情報処理部２２は機能的に、音声認識部２２１と、辞書データ生成部２２２と、テキスト出力部２２３と、を含んで構成されている。

【0041】

音声認識部２２１は、リアルタイム音声データ受信部２１１から受信した音声データを記憶部２３に記憶されている音声認識プログラム（不図示）を使って、音声認識処理を行う。音声認識をする際に、認識候補テキストが他にある場合、認識候補テキストの候補順を認識テキストにタグづけしてもよい。その認識候補テキストには音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。例えば、このプログラム処理を行う際、記憶部２３に記憶されている各モデル、辞書を使うことによって、音声認識の効率を上げている。なお、音声認識部２２１は受信したリアルタイム音声データに時刻情報のタグ付けを行い、記憶部２３に保存する。

【0042】

辞書データ生成部２２２は、辞書テキストデータ受信部２１２から受信したテキストデータ、もしくは修正結果テキストデータ受信部２１３から受信した時刻情報付きテキストデータを、記憶部２３に記憶されている辞書に格納できる形式に辞書テキストデータへ変換する処理を行う。

【0043】

テキスト出力部２２３は、記憶部２３に記憶されている辞書を使って、音声認識部２２１が音声認識データから音声認識処理を行い、音声データをテキスト化した後、そのテキストを出力する処理を行う。

【0044】

記憶部２３は、あらかじめ定義された音響モデルＡＭＤと、言語モデルデータＬＭＤと、を記録し、保存されている。音響モデルＡＭＤと、言語モデルデータＬＭＤはあらかじめ定義されており、情報処理システム１００内では自動アップデートはされなくてもよいが、外部からのデータ受信（不図示）にてアップデートすることは可能である。音響モデルＡＭＤと、言語モデルデータＬＭＤは、図１に示す情報処理装置５から修正結果テキストデータ受信部２１３を通じて受信したテキスト修正結果データを利用し、自動アップデートはされてもよい。

【0045】

記憶部２３は、情報処理システム１００内で自動アップデートされる辞書データＤＩＤと、を記録し、保存されている。辞書データは辞書データ生成部２２２によって生成された辞書テキストデータにて自動アップデートされ、適宜辞書テキストデータが音声認識部２２１の処理を支援する。

【0046】

記憶部２３は、リアルタイム音声データ受信部２１１で受信したリアルタイム音声データに音声認識部２２１にて時刻情報をタグ付けされた、時刻付き音声データＡＴＤ２が記録されている。修正結果テキストデータ受信部２１３で受信したテキスト修正結果データと、最初に受信したリアルタイム音声データに時刻情報をタグ付けした時刻付き音声データＡＴＤ２を使って、音声認識部２２１の認識率向上に貢献する。

【0047】

図３は、本発明の実施形態に係る音声認識テキストデータ出力制御サーバ３の一例を示す概略構成図（ブロック図）である。図３に示すように、音声認識テキストデータ出力制御サーバ３は、例示的に、各種データ及び各種情報を送受信する送受信部３１と、テキストデータの修正制御するための各種処理を実行する情報処理部３２と、各種情報及び各種データを記録する記憶部３３と、を備えて構成される。なお、情報処理部３２は、例えば、不図示であるが、記憶部３３に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

【0048】

送受信部３１は機能的に、音声認識結果テキスト／音声データ受信部３１１と、放送用テキストデータ送信部３１２と、辞書テキストデータ受信部３１３と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）をも含む。

【0049】

音声認識結果テキスト／音声データ受信部３１１は、図１に示す音声認識処理サーバ２から音声認識結果である音声認識結果テキストデータと音声データを受信する。受信した音声認識結果テキストデータと音声データは音声認識処理サーバ２で時刻情報がタグ付けされ、音声認識結果テキストデータを生成した時間が判別できるようにしておく。

【0050】

放送用テキストデータ送信部３１２は、音声認識結果テキスト／音声データ受信部３１１で受信した音声認識結果テキストデータを修正した放送用テキストデータを外部システムに送信する。外部システムは放送用字幕を送出するデータに変換するシステムなどが考えられる。

【0051】

辞書テキストデータ受信部３１３は、図１に示す形態素解析処理サーバ４から辞書データとなるテキストデータを受信する。例えば、辞書テキストデータ受信部３１３は、図１に示す形態素解析処理サーバ４が外部テキストの形態素解析を実施し、生成した辞書テキストデータ適正なタイミングで受信する。

【0052】

辞書用修正結果テキストデータ送信部３１４は、音声認識結果テキスト／音声データ受信部３１１で受信した音声認識結果テキストデータを、正しいテキストに修正したテキストデータを図１に示す音声認識処理サーバ２へ、修正結果テキストデータとして送信する。例えば、修正したテキストデータには、修正前の音声認識結果テキストデータにタグ付けされていた時刻情報を基に時刻情報をタグ付け、もしくは情報処理システム１００内で管理されている固有のシステムＩＤをタグ付けするなどで、修正したデータが特定できるようにしておく。

【0053】

修正前テキスト／音声送信部３１５は、音声認識結果テキスト／音声データ受信部３１１で受信した音声認識結果テキストデータと音声データを、図１に示す情報処理装置５へ、修正前データとして送信する。例えば、受信した音声認識結果テキストデータと音声データを情報処理装置５に送信し、情報処理装置５で音声認識が正しかったか確認ができるようにする。

【0054】

情報処理部３２は機能的に、形態素解析部３２１と、表示制御部３２２と、テキスト編集部３２３と、修正結果辞書生成部３２４と、放送用テキスト出力部３２５と、を含んで構成されている。

【0055】

形態素解析部３２１は、音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、後述する表示制御部３２２で形態素毎にブロック表示制御を行う。

【0056】

表示制御部３２２は、形態素解析部３２１で解析したテキストをブロック表示制御を行なって、図１に示す情報処理装置５へ表示の指示を行う。また情報処理装置５からスワイプアクションや、修正内容にしたがって指示を受けた内容の表示制御を行ない、情報処理装置５へ表示の指示を行う。

【0057】

テキスト編集部３２３は、音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、情報処理装置５からスワイプアクションや、修正内容にしたがって修正を行う。修正されたテキストは表示制御部３２２に送られ、修正された内容で情報処理装置５へ表示の指示を行う。

【0058】

修正結果辞書生成部３２４は、テキスト編集部３２３で修正した内容を時刻情報と共に記憶部３３へ記録可能な形式に生成を行う。例えば、誤った認識結果テキストと、修正後のテキストが時刻情報と共に辞書として記録されることで、同様の誤った認識の防止を支援することができる。

【0059】

放送用テキスト出力部３２５は、テキスト編集部３２３で修正を行なったテキスト、またはテキスト編集部３２３で修正を行わなかったテキストを、放送用テキストとして、情報処理装置５から指示で放送用テキストを出力する。

【0060】

記憶部３３は、音声認識結果データテキスト／音声データ受信部３１１で受信した受信テキストログＲＴＬと、放送用テキストデータ送信部３１２から送信した送信テキストログＳＴＬと、修正結果辞書生成部３２４で生成された修正結果である辞書データＭＤＤと、を記録し、保存されている。

【0061】

記憶部３３は、音声認識結果データテキスト／音声データ受信部３１１で受信した音声データに時刻情報がタグ付けされた、時刻付き音声データＡＴＤ３が記録されている。例えば、受信テキストログＲＴＬと、送信テキストログＳＴＬと、ＡＴＤ３を送信部（不図示）から情報処理装置５に送信することによって、情報処理装置５で音声認識エンジンが認識しやすい音声を、発声した本人が確認をすることが可能となる。

【0062】

図４は、本発明の実施形態に係る形態素解析処理サーバ４の一例を示す概略構成図（ブロック図）である。図４に示すように、形態素解析処理サーバ４は、例示的に、各種データ及び各種情報を送受信する送受信部４１と、テキストデータ群の解析、及び生成を制御するための各種処理を実行する情報処理部４２と、各種情報及び各種データを記録する記憶部４３と、を備えて構成される。なお、情報処理部４２は、例えば、不図示であるが、記憶部４３に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

【0063】

送受信部４１は機能的に、外部テキスト受信部４１１と、辞書データ送信部４１２と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）をも含む。

【0064】

外部テキスト受信部４１１は、外部システム、もしくは形態素解析処理サーバ４内の記憶部４３に記録されているテキストを受信する。例えば、前記テキストはインターネット上でＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）等から収集し受信したテキスト、もしくはＬＡＮ内でニュース原稿システムといった他システム等から収集し、受信したものでもよい。

【0065】

辞書データ送信部４１２は、情報処理部４２で生成した辞書データを図１に示す音声認識処理サーバ２へ送信する。例えば、前記辞書データはＳＮＳ、及び内部システムから取り込んだ比較的新しい辞書であると、ニュース番組等の音声認識率が上がると期待できる。

【0066】

情報処理部４２は機能的に、形態素解析部４２１と、読みデータ生成部４２２と、辞書生成部４２３と、出現スコア計算部４２４と、を含んで構成されている。

【0067】

形態素解析部４２１は、外部テキスト受信部４１１で受信したテキストを形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、記憶部４３に記録、保存をする。

【0068】

読みデータ生成部４２２は、形態素解析部４２１で形態素毎の列に分割されたテキストにルビと呼ばれる読み仮名を関連づける。例えば、記憶部４３に記録されている読み組み合わせツール４３２などを利用してルビを検索し、該当するルビを形態素解析部４２１で形態素毎の列に分割されたテキストにタグ付け等をして、記憶部４３に記録、保存をする。

【0069】

辞書生成部４２３は、読みデータ生成部４２２でタグ付けされたテキストを、図１に示す音声認識処理サーバ２へ送信した際に辞書として登録できる形式に整形、生成をする。例えば、形態素解析部４２１にて品詞毎に分割されたテキストと、読みデータ生成部４２２でタグ付け等をされた読み仮名を図１に示す音声認識処理サーバ２が読み込み可能な辞書形式にデータベース化等を行う。

【0070】

出現スコア計算部４２４は、形態素解析部４２１で形態素毎の列に分割されたテキストがどの頻度で出現し、分割されたテキストごとにその出現率を付与し、定量評価する出現スコアを計算する。出現スコアの計算例は後述する。

【0071】

記憶部４３は、外部テキスト受信部４１１で受信したテキストを形態素解析部４２１にて形態素解析をする際に使用する形態素解析ツールＭＤＴと、前記形態素解析を行ったテキストの読み仮名を定義する際に使用する読み合わせツールＲＢＴと、を記録し、保存されている。

【0072】

記憶部４３は、外部テキスト受信部４１１で受信した外部テキストデータＯＤＴと、形態素解析部４２１にて品詞毎に分割されたテキストと、読みデータ生成部４２２でタグ付け等をされた読み仮名を図１に示す音声認識処理サーバ２が読み込み可能な辞書形式にデータベース化等を行った辞書生成データＤＭＤと、を記録し、保存されている。

【0073】

図５は、本発明の実施形態に係る情報処理装置５の一例を示す概略構成図（ブロック図）である。図５に示すように、情報処理装置５は、例示的に、各種情報を送受信する送受信部５１と、モニタ等に表示を行う表示部５２、各種制御するための各種処理を実行する情報処理部５３と、プログラムを記録する記憶部５４と、を備えて構成される。情報処理装置５は、汎用のコンピュータ装置であるため、送受信部５１と、モニタ等に表示を行う表示部５２に特徴は必要なく、一般の汎用のコンピュータ装置と同等のものである。表示部５２は内蔵されるタッチパネルでもよいし、外部モニタに出力する出力ポートでも良い。

【0074】

情報処理部５３は機能的に、表示制御部５３１と、テキスト編集部５３２と、を含んで構成されている。

【0075】

表示制御部５３１は、音声認識テキストデータ出力制御サーバ３等で形態素解析された形態素ごとのテキストを後述するブロック表示にしたり、スワイプアクションにあわせてブロックを移動させたり、修正エリア５２ｄを表示するよう、表示部５２の制御をおこなう。なお、ブロックの移動はブロック操作に好奇心が湧くようにアニメーション表示制御をしてもよい。

【0076】

テキスト編集部５３２は、表示制御部５３１の表示、操作に合わせてブロック内のテキストの編集を行う。たとえばブロックを下スワイプアクションした際にはテキストの後ろに改行コードを挿入したり、ブロックを上スワイプアクションした際にはブロック内テキストを削除したり、ブロックを左横スワイプアクションをした際には、選択した句読点や区切記号などを挿入したり、ブロックをタップアクションした際には表示制御部５３１によって表示指示された表示部５２に表示されている修正エリア５２ｄのテキストとブロック内のテキストを差し替えたりして、テキストの編集を行っていく。

【0077】

記憶部５４は、汎用のコンピュータブラウザなどのアプリケーションや各種プログラムが保存されている。

【0078】

図６は、本発明の実施形態に係る映像・音声再生装置６の一例を示す概略構成図（ブロック図）である。図６に示すように、映像・音声再生装置６は、例示的に、映像・音声データ及び各種情報を送受信する送受信部６１と、映像・音声の収録、再生制御するための各種処理を実行する情報処理部６２と、収録した映像・音声データ及び設定データを記録する記憶部６３と、を備えて構成される。なお、情報処理部６２は、例えば、不図示であるが、記憶部６３に格納されているプログラムをＣＰＵ等が実行したりすることにより実現することができる。

【0079】

送受信部６１は機能的に、映像音声データ受信部６１１と、映像音声データ再生部６１２と、外部制御受信部６１３と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部（不図示）、及び、各種データ及び各種情報を受信する受信部（不図示）をも含む。

【0080】

映像音声データ受信部６１１は、情報処理システム１００を利用して字幕放送を行う映像音声データを受信する。この映像音声データの音声データを使って情報処理システム１００は音声認識処理を行うが、この映像音声データもオペレータが修正するときに必要なモニタに利用するデータである。

【0081】

映像音声データ再生部６１２は、映像モニタ、スピーカーなどに接続し、映像音声データを再生する。音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正を行う際に、修正箇所を確認するために参考とする映像・音声を再生するものである。

【0082】

外部制御受信部６１３は、映像音声データ再生部６１２で映像音声データを再生する際に、再生スピードや再生モード（動画や静止画）をコントローする信号を受信する。音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正を行う際に、修正に合わせた制御信号が出力されて、修正箇所を確認するために参考とする映像・音声の再生スピード等を制御するものである。

【0083】

情報処理部６２は機能的に、収録制御部６２１と、音声再生部６２２と、画像再生部６２３と、スロー再生指示部６２４と、倍速再生指示部６２５と、を含んで構成されている。

【0084】

収録制御部６２１は、映像音声データ受信部６１１で受信した字幕放送を行う映像音声データ収録するコントロールを行う。例えば、情報処理システム１００が稼働した際に自動で入力された映像音声データの収録を開始したり、情報処理システム１００が終了した際に、収録を終了させるコントロールを収録制御部６２１から行う。

【0085】

音声再生部６２２は、映像音声データ受信部６１１で受信した字幕放送を行う映像音声データの音声部分のみを再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正する際、音声を聞き直したい場合に、外部制御受信部６１３から受信した聞き直しの制御信号がタイムコードとともに送られ、音声再生部６２２は指定されたタイムコードから音声の再生を行う。

【0086】

画像再生部６２３は、映像音声データ受信部６１１で受信した字幕放送を行う映像音声データの映像を静止画として取り出した部分のみを再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正する際、音声を聞き直したい場合に、外部制御受信部６１３から受信した聞き直しの制御信号がタイムコードとともに送られ、音声再生部６２２は指定されたタイムコードから映像部分の画像再生を行う。

【0087】

スロー再生指示部６２４は、映像音声データ受信部６１１で受信した字幕放送を行う映像音声データの再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正する際、映像音声再生している場面が修正箇所よりも先にいかないように、映像音声データ再生部６１２に対し、スロー再生指示を行う。

【0088】

倍速再生指示部６２５は、映像音声データ受信部６１１で受信した字幕放送を行う映像音声データの再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ３の音声認識結果データテキスト／音声データ受信部３１１で受信した音声認識結果データテキストを、テキスト編集部３２３で情報処理装置５からスワイプアクションや、修正内容にしたがって修正を行った後で、映像音声再生している場面が確認箇所から遅れている場合は、映像音声データ再生部６１２に対し、倍速再生指示を行う。倍速再生指示は２倍という意味ではなく、１．２倍、１．３倍といったｎ倍速を表す。

【0089】

記憶部６３は、映像音声データ受信部６１１で受信した映像・音声データＶＡＤと、再生コントロール設定値等のデータＳＵＤと、を記録し、保存されている。

【0090】

＜辞書生成処理例１＞
図７、図８、及び図９を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例１として説明する。図６は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。

【0091】

（ステップＳ１）
形態素解析処理サーバ４は、外部システム、もしくは形態素解析処理サーバ４内の図４に示す記憶部４３に記録されているテキストを受信する。例えば、前記テキストはインターネット上でＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）等から収集し受信したテキスト、もしくはＬＡＮ内でニュース原稿システムといった他システム等から収集し受信したものでもよい。

【0092】

（ステップＳ２）
形態素解析処理サーバ４は、前記受信したテキストを形態素解析する。形態素解析とは前記同様の解析を意味し、文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。

【0093】

（ステップＳ３）
図４に示す形態素解析部４２１で形態素毎の列に分割されたテキスト（以下辞書単語）にルビと呼ばれる読み仮名を関連づける。例えば、図４に示す記憶部４３に記録されている読み合わせツールＲＢＴなどを利用してルビを検索し、該当するルビを形態素解析部４２１で形態素毎の列に分割された辞書単語にタグ付け等をして、記憶部４３に記録、保存をする。もしく前記受信テキストにルビを振るルールが定義されていれば、それを基にルビを振ってもよい。

【0094】

（ステップＳ４）
図４に示す出現スコア計算部４２４で辞書単語の出現率を定量評価する出現スコアを計算する。図８を参照して出現スコアの計算方法を説明する。ＴＬは時刻の流れを表す軸タイムラインであり、どのタイミングでそのテキストが取り込まれたかをタイムライン上で表している。またこの出現スコアを作成する開始タイミングをＡＳｔとし、このＡＳｔの数値を変更しながら音声認識の制度を高めていく。ｔｐが現在時刻を表し、時刻を数値化した場合、ｔ１＜ｔ８＜ｔｐという関係が成り立つ。このような条件とした場合、たとえば以下のような式で出現スコアを定義しても良い。
（出現スコア式）

現在時刻から離れた時間ほど、ｔｐ－ｔｋは大きな値となり、その逆数は小さくなる。この数値の総和の対数を取ることにより、出現スコアは多く出現すれば大きくなり、時刻が過ぎればすぎるほど小さくなる数値となる。
例えば「国会会期末」といったテキストがｔ１のタイミングでＷ１として、ｔ２のタイミングでＷ２として、ｔ４のタイミングでｗ３として、ｔ６のタイミングでＷ６として、ｔ８のタイミングでＷ８として出現していた場合、計算式はＣＳ内のような式が成り立つ。「労働災害」「原辰徳」といったワードも同様である。出現回数も多く、現在時刻直近で出現した「国会会期末」の出現スコアＡＳ１と、「労働災害」の出現スコアＡＳ２は通常ＡＳ１＞ＡＳ２といった関係になるが、「原辰徳」の出現スコアＡＳ３と前記ＡＳ２の関係は双方の出現時間によって関係が変わってくる。前記出現スコアは定量評価値として、音声認識処理の際に認識結果確率の増減に利用する。

【0095】

（ステップＳ５ａ）
情報処理装置５は形態素解析処理サーバ４に対し、辞書単語表示の要求を行う。

【0096】

（ステップＳ５ｂ）
辞書単語表示の要求に対し、形態素解析処理サーバ４は前記形態素毎の列に分割されたルビに当たる辞書単語にタグ付け等された辞書を情報処理装置５に送信して辞書の表示をする。図９は情報処理装置５に表示される画面の一例を示す図である。図９を参照しながら、図１に示す情報処理装置５の表示部５２に表示される、辞書登録画面について説明する。辞書登録表示画面は、例えば入力された原稿テキストの放送番組名５０１が放送時間と共に表示される。どの辞書単語群、もしくは辞書単語を登録するか、選択ボタン５０２、５０３が用意されている。表には形態素解析によって、分割された辞書単語となるテキスト５０４、それに対する読み表示５０５、その元となるテキストが登録された時間５０６などが表示されている。なお、出現スコアはここに表記しなくてもよいし、してもよい。

【0097】

（ステップＳ６）
登録される放送番組名５０１、もしくは辞書単語となるテキスト５０４をボタン５０２、もしくは５０３を選択した後、辞書登録ボタン５０７を押下する。押下後は図７に戻り、選択された辞書単語を外部に送信する処理の準備を行う。また、図８に示した出現スコアＡＳｔは出現スコア作成タイミング表示エリア５０８に表示され、手動で変更することができる。

【0098】

（ステップＳ７）
情報処理装置５上で選択された辞書単語送信処理により、形態素解析処理サーバ４に辞書単語群の送信指示が送信される。辞書単語群は辞書単語の選択はカテゴリ毎に送信されてもよいし、受信した時間毎に単語群毎に送信してもよい。

【0099】

（ステップＳ８）
送信指示を受けた形態素解析処理サーバ４は図４の辞書生成部４２３を使って、読みデータ生成部４２２でタグ付けされたテキストを、音声認識処理サーバ２へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。

【0100】

（ステップＳ９ａ）
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ２へ送信する。

【0101】

（ステップＳ９ｂ）
ステップＳ９ａと同様に変換処理をした辞書単語群は音声認識テキストデータ出力制御サーバ３へ送信する。

【0102】

（ステップＳ１０ａ）
辞書単語群を受信した音声認識処理サーバ２は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップＳ２３と同様である。

【0103】

（ステップＳ１０ｂ）
辞書単語群を受信した音声認識テキストデータ出力制御サーバ３は、この辞書を利用してテキスト修正処理を行う。テキスト修正処理は後述するステップＳ２８と同様である。

【0104】

＜辞書生成処理例２＞
次に図１０を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例２として説明する。図９は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。

【0105】

（ステップＳ１１）から（ステップＳ１４）
上記ステップは図７のステップＳ１からステップＳ４のステップと同様である。

【0106】

（ステップＳ１５）
形態素解析処理サーバ４は自動で辞書単語登録を行う辞書単語を選択する。自動選択の選択基準はステップＳ１９で後述する。

【0107】

（ステップＳ１６）
自動で辞書単語を選択した形態素解析処理サーバ４は図４の辞書生成部４２３を使って、読みデータ生成部４２２でタグ付けされたテキストを、音声認識処理サーバ２へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。

【0108】

（ステップＳ１７）
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ２へ送信する。

【0109】

（ステップＳ１８）
辞書単語群を受信した音声認識処理サーバ２は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップＳ２３と同様である。

【0110】

（ステップＳ１９）
音声認識処理サーバ２は、音声認識テキストデータ出力制御サーバ３から受信した時刻情報付き音声認識確度正答率を形態素解析処理サーバ４に送信をする。音声認識確度正答率とは、音声認識をした際に、音声認識結果であるテキストの他にその認識確率の高さである音声認識確度データを送信するが、音声認識確度と実際の認識正答がどの程度マッチングしていたかを表す確率のことをいう。形態素解析処理サーバ４は自動で選択した辞書と前記音声認識確度正答率を対比しデータベース化等を行う。生成されたデータベースから深層学習を行い、最適値を自動で算出していく仕組みを導入してもよい。具体例に関しては後述する（ステップＳ３２）、（ステップＳ３３）にて説明する。

【0111】

＜音声認識テキストデータ出力実施例＞
次に図１１乃至図１７を参照して、音声認識処理、テキスト出力制御処理、及びテキストの修正処理を実施例として説明する。図１１は、本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。

【0112】

（ステップＳ２１）
リアルタイム音声入力処理装置１は、音声データを受信する。例えば、映像データからＤＥＭＵＸした音声データであってもよいし、デジタル音声データはもちろん、アナログ音声データでもよい。リアルタイム音声入力処理装置１はリアルタイム音声を処理することを前提としているため、受信方法はストリーム、もしくは連続したアナログ音声を想定している。

【0113】

（ステップＳ２２）
リアルタイム音声入力処理装置１は、前記受信音声データの音声認識精度を上げるための処理を行う。例えば、前記音声データにおける無音区間を特定し、当該区間において音声データを区切る処理や、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。また、例えば、音声データから人間の声に近い周波数以外の周波数音域を低減させるノイズキャンセルなどの処理を実行してもよい。処理をした際には音声データの受信時刻を処理済み音声データに紐づけるようにタグづけなどの処理をしておく。

【0114】

（ステップＳ２３）
リアルタイム音声入力処理装置１１は、前記処置を行った処置済音声データを、音声認識処理サーバ２へ送信する。

【0115】

（ステップＳ２４）
音声認識処理サーバ２は、前記処理済音声データを受診後、前記処理済音声データを音声認識する。音声認識処理サーバ２は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）（隠れマルコフモデル）により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、ＤＰマッチングやニューラルネットワーク等を採用してもよい。また、ステップＳ９やＳ１７で受け取った出現スコアを使って、言語モデルの絶えずアップデート行い、辞書単語をその都度増やしたり減らしたりしてもよい。この際、ステップＳ９、ステップＳ１７の音声認識処理と同様の処理となるが、ステップＳ９、ステップＳ１７では受信した辞書を利用しての音声認識となるため、音声認識確度の上昇が期待できる。

【0116】

（ステップＳ２５）
音声認識処理サーバ２は、音声認識処理をした後、認識候補テキストそれぞれの音声認識精度の確率の高さを表す、音声認識確度を計算する。その後、音声認識処理サーバ２は前記音声認識結果であるテキスト等を送信する。例えば、送信するテキスト等とは、認識候補テキストと、その区間の音声データ、他に認識候補テキストがあればその認識候補テキスト、それぞれの認識候補テキストの音声認識確度の高さを表す音声認識確度データ等である。

【0117】

（ステップＳ２６）
音声認識テキストデータ出力制御サーバ３は、受信したテキスト等を同時に、もしくは別ルートで受信した音声データ再生と共に表示できるように、処理を行う。例えば、テキスト修正を行いやすくするために、音声再生よりもテキストを早く表示させる処理を行っておく。

【0118】

（ステップＳ２７）
情報処理装置５の要求を受けた音声認識テキストデータ出力制御サーバ３は、処理を行ったテキスト群と音声データを情報処理装置５に送信を行う。

【0119】

（ステップＳ２８）
情報処理装置５は受信した音声認識テキストデータの修正を行う。図１２は情報処理装置５に表示されるテキスト修正画面の一例を示す図である。図１２を参照しながら、図５に示す情報処理装置５の表示部５２に表示される、テキストデータ群を含む画面の一例を説明する。表示部５２はタッチパネル画面を前提にタッチパネル操作で説明するが、通常のモニタをマウス操作で行っても良い。音声認識テキストデータ出力制御サーバ３は音声認識結果テキスト／音声データ受信部３１１で受信した音声認識結果テキストを形態素解析部３２１で形態素解析を行う。形態素解析とは前記同様の解析を意味し、文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析されたテキストは形態素ごとに、情報処理装置５に送られ、表示部５２には修正エリア５２ａの中に５１１乃至５１６のようにブロックごとに分けられて表示される。

【0120】

修正エリア５２ａに入らなかった前記音声認識結果テキストは待機エリア５２ｂに表示される。待機エリア５２ｂは前記のようなブロック表示をしても良いし、しなくても良い。修正エリア５２ａにまだテキストが入る余地がある場合は、図１３のようにエリア変更ボタン５２ｃをタッチアクション、もしくは選択することで待機エリア５２ｂの最上段のテキストを修正エリア５２ａに入れることができる。

【0121】

修正エリア５２ａではブロックを自由に動かすことができる。例えばブロック５１６「より」を下段に改行したい場合は、図１４のようにしたタッチパネル上でブロック５１６を選択し、下スワイプすることによって改行を行うことが可能となる。

【0122】

また修正エリア５２ａでブロックをまとめて編集や削除したい場合には、図１５のように例えばブロック５１１を選択して、ブロック５１１からブロック５１３まで右スワイプすることにより、新たに結合されたブロック５１１ａが生まれる。これにより、後述するこのブロックをまとめて編集したり、削除をしたりすることが可能となる。

【0123】

さらに修正エリア５２ａでブロック間に、テキストを挿入したい場合には、図１６のように例えばブロック５１５を選択して、ブロック５１５を左スワイプすることにより、ブロック５１４とブロック５１５がぶつかったイメージで、間に隙間が生まれ、あらかじめ用意されたテキスト群の１つのテキストを挿入することができる。

【0124】

上記のアクションの他に、テキスト自体を修正したい場合には、図１７のように例えばブロック５１３をシングルタッチすることにより、待機エリア５２ｂが修正エリア５２ｄに変わり、キーボード等で入力することが可能となり、文字自体を修正することができる。

【0125】

これらのアクションで正しく修正された音声認識テキストデータは、図１２の修正エリア５２ａ内のＴＡＫＥボタン５１７をシングルタップ、もしくはダブルタップ、及び押下することによって確定する。

【0126】

（ステップＳ２９）
図１１に戻り、ステップＳ２８で確定した字幕用テキストは字幕システムで受信可能なフォーマットに変換して、後段の前記字幕システムに送信する。テキストのフォーマットは放送規格ＡＲＩＢフォーマットＢ３７形式でもよいし、Ｗｅｂ配信形式であるＷｅｂＶｔｔ（ＷｅｂＶｉｄｅｏＴｅｘｔＴｒａｃｋｓ）形式でもよい。

【0127】

（ステップＳ３０）
ステップＳ２８で確定した字幕用テキストが修正されていた場合は、選択された認識候補テキストにタグづけされていた音声認識確度データと共に確定した修正テキストを前段の音声認識テキストデータ出力制御サーバ３へ送信する。

【0128】

（ステップＳ３１）
ステップＳ３０で修正テキストを受信した音声認識テキストデータ出力制御サーバ３は音声認識確度正答率を計算する。図１８は情報処理装置５に表示される音声認識確度正答率の一例を示す画面の図である。音声認識後に確定させたテキストがｃｎ個とする。最初の確定テキストは「高速道路の」が正答であり、音声認識確度が９０％だったとすると、音声認識正答確度ＣＰの数値０．９に正答係数ｙを乗じ、それ以外のテキストは音声認識誤答確度ＩＰの数値と誤答係数ｚを乗じ、その総和を計算し、そのテキストの音声認識確度正答率Ｍ１とする。同様にＭ２、Ｍ３と計算を実施し、Ｍｋの総和に正答率変数ｗを乗じて、確定させたテキスト数ｃｎで割ると、音声認識確度正答率が求められる。変数ｙ、ｚ、ｗはそれぞれ深層学習で適切な数値に変更を加えていってもよい。

【0129】

（ステップＳ３２）
図１１に戻り説明する。認識候補テキスト、及び修正テキストを受信した音声認識テキストデータ出力制御サーバ３は、辞書化する。例えば、音声認識確度正答率が高いテキストは音声認識確度が高いと判断し辞書化しなくてもよいが、音声認識確度正答率が低いテキストは優先的に辞書化を実施していく。全体の音声認識確度の数値が上がらない場合は、辞書を作成し始めるタイミングに１たる図８に示した出現スコア作成タイミングASｔを深層学習によって進めてもよいし、戻してもよい。

【0130】

（ステップＳ３３）
音声認識テキストデータ出力制御サーバ３は、ステップＳ３１で辞書化した辞書データと、計算した音声認識確度正答率を、音声認識プログラムを有する音声認識処理サーバ２へ送信する。

【0131】

（ステップＳ３４）
音声認識処理サーバ２は受信した辞書データと、音声認識確度正答率を音声認識プログラムに組み込み、図２に図示した記憶部２３内の辞書データＤＩＤに辞書データを記憶する。例えば、この辞書データ、音声認識確度正答率を基に記憶部２３内の言語モデルデータＬＭＤのアップデートを行ってもよい。

【0132】

＜映像音声モニタ実施例１＞
音声認識によって得られたテキストが正しかったかもう一度聴きたい際に、映像音声を確認するためのモニタ環境としての映像・音声再生装置６の動作例について図１９を参照しながら説明する。図１９は、本発明の映像・音声再生装置６の動作の一例を示すフローチャートである。

【0133】

（ステップＳ４１）
映像・音声再生装置６は、図６に示す映像音声データ受信部６１１を使って映像音声を受信する。

【0134】

（ステップＳ４２）
映像・音声再生装置６は、図６に示す映像音声データ受信部６１１で受信したデータの収録制御部６２１を使って、記憶部６３へ映像・音声収録データとして収録を行う。この際、映像音声データは圧縮処理を行っても良いし、しなくても良い。

【0135】

（ステップＳ４３）
映像・音声再生装置６は自動再生を行う。この時の再生は遅延再生をしても良いし、しなくても良い。

【0136】

（ステップＳ４４）
情報処理装置５は、音声認識によって得られたテキストが正しかったかどうかを確認する際に、図１１に示すブロック５２１乃至ブロック５１６をダブルタップアクションする。その際に情報処理装置５はその音声認識テキストのブロックに対応する音声のタイムコードを読み出す。

【0137】

（ステップＳ４５）
情報処理装置５は、音声認識テキストデータ出力制御サーバ３に対して、ダブルタップされた音声認識テキストのブロックに対応するタイムコード（TC）を付与して、戻し再生指示を伝える。

【0138】

（ステップＳ４６）
情報処理装置５から戻し再生指示を受け取った音声認識テキストデータ出力制御サーバ３は、戻し再生モードに切り替える。

【0139】

（ステップＳ４７）
音声認識テキストデータ出力制御サーバ３は、映像・音声再生装置６に対して、戻し再生モードを伝えるため、戻し再生指示を出力する。

【0140】

（ステップＳ４８）
音声認識テキストデータ出力制御サーバ３から戻し指示を、図６に記載の外部制御受信部６１３で受けた映像・音声再生装置６は音声再生部６２２、画像再生部６２３から映像音声データ再生部６１２に戻し再生の指示を出し、映像音声データ再生部６１２は一旦再生をストップし、対応するタイムコードの映像部分の映像の静止画像を再生するとともに、音声の再生を行う。

【0141】

（ステップＳ４９）
音声認識テキストデータ出力制御サーバ３は一定時間の再生を終えると、通常再生に追いつくまで倍速再生を行う。倍速再生とは前述したとおり２倍という意味ではなく、１．２倍、１．３倍といったｎ倍速を表す。

【0142】

（ステップＳ５０）
映像・音声再生装置６は映像音声データ再生部６１２で映像・音声の倍速再生処理を行うが、規定のディレイ値に追い付いたかどうかを判断し、追いついていれば映像音声データ再生部６１２に倍速再生指示はストップし、ステップＳ４３の通常再生に戻す。戻っていなければステップＳ４９のとおり倍速再生を続ける。このステップを続けながら音声認識テキスト修正を行っていき、放送字幕のテキストを作成していく。

【0143】

＜映像音声モニタ実施例２＞
音声認識によって得られたテキストを修正する際（ステップＳ２８）に、映像音声を確認するためのモニタ環境としての映像・音声再生装置６の動作例について図２０を参照しながら説明する。図２０は、本発明の映像・音声再生装置の動作の一例を示すフローチャートである。

【0144】

（ステップＳ５１）
映像・音声再生装置６は、図６に示す映像音声データ受信部６１１を使って映像音声を受信する。

【0145】

（ステップＳ５２）
映像・音声再生装置６は、図６に示す映像音声データ受信部６１１で受信したデータの収録制御部６２１を使って、記憶部６３へ映像・音声収録データとして収録を行う。この際、映像音声データは圧縮処理を行っても良いし、しなくても良い。

【0146】

（ステップＳ５３）
映像・音声再生装置６は、ステップＳ５２の数秒後にディレイ再生（遅延再生）を行う。遅延秒数は図６に示す記憶部６３の設定データＳＵＤで設定されている値によって決定されるが、音声認識テキストが表示されてから、モニタの映像音声が再生されることが好ましく、音声認識処理が行われる平均時間を遅延量として設定していることが望ましい。

【0147】

（ステップＳ５４）
情報処理装置５は、音声認識によって得られたテキストが誤っているとオペレータが判断した場合、テキストを修正する（ステップＳ２８）。その際に修正アクション行う、例えば図１７のように修正エリア５２ｄを登場させるが、キーボードで修正が行われる際、この時間は修正オペレータの聞き取り作業ができなくなるため、再生を止めるか再生を止めたり、遅くしたりする必要が出てくる。

【0148】

（ステップＳ５５）
情報処理装置５は、音声認識テキストデータ出力制御サーバ３に対して、修正中であることを伝えるため、修正中ステータスを出力する。

【0149】

（ステップＳ５６）
情報処理装置５から修正中ステータスを受け取った音声認識テキストデータ出力制御サーバ３は、スロー再生制御ステータスに切り替える。

【0150】

（ステップＳ５７）
音声認識テキストデータ出力制御サーバ３は、映像・音声再生装置６に対して、スロー再生制御ステータスを伝えるため、スロー再生指示を出力する。

【0151】

（ステップＳ５８）
音声認識テキストデータ出力制御サーバ３からスロー再生指示を、図６に記載の外部制御受信部６１３で受けた映像・音声再生装置６はスロー再生指示部６２４から映像音声データ再生部６１２にスロー再生指示を出し、映像音声データ再生部６１２は映像・音声のスロー再生処理を行う。

【0152】

（ステップＳ５９）
情報処理装置５は、修正が完了した場合、例えば図１２のＴＡＫＥボタン５１７を押下した際には修正が完了したことを示し、再生が規定ディレイ値に追いつくために倍速再生にする必要がある。

【0153】

（ステップＳ６０）
情報処理装置５は、音声認識テキストデータ出力制御サーバ３に対して、修正が終了したことを伝えるため、通常ステータスを出力する。

【0154】

（ステップＳ６１）
情報処理装置５から通常ステータスを受け取った音声認識テキストデータ出力制御サーバ３は、倍速再生制御ステータスに切り替える。

【0155】

（ステップＳ６２）
音声認識テキストデータ出力制御サーバ３は、映像・音声再生装置６に対して、倍速再生制御ステータスを伝えるため、倍速再生指示を出力する。

【0156】

（ステップＳ６３）
音声認識テキストデータ出力制御サーバ３から倍速再生指示を、図６に記載の外部制御受信部６１３で受けた映像・音声再生装置６は倍速再生指示部６２５から映像音声データ再生部６１２に倍速再生指示を出し、映像音声データ再生部６１２は映像・音声の倍速再生処理を行う。倍速再生とは前述したとおり２倍という意味ではなく、１．２倍、１．３倍といったｎ倍速を表す。

【0157】

（ステップＳ６４）
映像・音声再生装置６は映像音声データ再生部６１２で映像・音声の倍速再生処理を行うが、規定のディレイ値に追い付いたかどうかを判断し、追いついていれば映像音声データ再生部６１２に倍速再生指示はストップし、ステップＳ５３の通常再生に戻す。戻っていなければステップＳ６３のとおり倍速再生を続ける。このステップを続けながら音声認識テキスト修正を行っていき、放送字幕のテキストを作成していく。

【符号の説明】

【0158】

１リアルタイム音声入力処理装置
２音声認識処理サーバ
３音声認識テキストデータ出力制御サーバ
４形態素解析サーバ
５情報処理装置
６映像・音声再生装置
２１音声認識処理サーバ送受信部
２２音声認識処理サーバ情報処理部
２３音声認識処理サーバ記憶部
３１音声認識テキストデータ出力制御サーバ送受信部
３２音声認識テキストデータ出力制御サーバ情報処理部
３３音声認識テキストデータ出力制御サーバ記憶部
５１情報処理装置送受信部
５２情報処理装置表示部
５３情報処理装置情報処理
５４情報処理装置記憶部
４１形態素解析サーバ送受信部
４２形態素解析サーバ情報処理部
４３形態素解析サーバ記憶部
６１映像・音声再生装置送受信部
６２映像・音声再生装置情報処理部
６３映像・音声再生装置記憶部
１００情報処理システム
２１１リアルタイム音声データ受信部
２１２辞書テキストデータ受信部
２１３修正結果テキストデータ受信部
２１４音声認識結果テキストデータ／音声データ送信部
２２１音声認識部
２２２辞書データ生成部
２２３テキスト出力部
３１１音声認識結果テキスト／音声データ受信部
３１２放送用テキストデータ送信部
３１３辞書用修正結果テキストデータ送信部
３１４修正前テキスト／音声送信部
３２１音声認識結果修正処理部
３２２修正結果辞書生成部
３２３放送用テキスト出力部
３２４修正前テキスト／音声出力部
４１１外部テキスト受信部
４１２辞書データ送信部
４２１形態素解析部
４２２読みデータ生成部
４２３辞書生成部
４２４出現スコア計算部
６１１映像音声データ受信部
６１２映像音声再生部
６１３外部制御受信部
６２１収録制御部
６２２音声再生部
６２３画像再生部
６２４スロー再生指示部
６２５倍速再生指示部
ＡＭＤ音響モデルデータ
ＡＴＤ２時刻付音声データ
ＡＴＤ３時刻付音声データ
ＤＩＤ辞書データ
ＤＭＤ辞書生成データ
ＬＭＤ言語モデルデータ
ＭＤＤ修正結果辞書データ
ＭＤＴ形態素解析ツール
ＯＴＤ外部テキストデータ
ＲＢＴ読み合わせツール
ＲＴＬ受信テキストログ
ＳＴＬ送信テキストログ
ＳＵＬ設定データ
ＶＡＤ映像・音声収録データ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【手続補正書】

【提出日】2021-05-11

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

請求項１に記載の音声認識テキストデータ出力制御装置であって、
音声認識処理を行う映像データ、または音声データを収録する第一収録部と、
前記表示制御で表示された前記ブロック表示の１ブロックをダブルタップアクションした際に、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、
前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項3】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御部と、
前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項4】

請求項３に記載の音声認識テキストデータ出力制御装置であって、
前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項5】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックをタップアクションした際に、前記１ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示制御する表示制御部と、
音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、
通常時は前記第二収録部に収録された映像データ、または音声データを映像音声データ受信時から設定した時間を遅延させて等倍再生し、前記設定した時間以上遅延していた場合は規定の倍速再生をする再生部と、
前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、
前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項6】

請求項５に記載の音声認識テキストデータ出力制御装置であって、
前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項7】

【請求項8】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、
前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御ステップと、
前記表示制御ステップで表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと、
を備えることを特徴とした音声認識テキストデータ出力制御方法。

【請求項9】

【請求項10】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御手段、
前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及びブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集手段、
を備えることを特徴とした音声認識テキストデータ出力制御プログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００１２

【補正方法】変更

【補正の内容】

【0012】

上記課題を解決するために、請求項１に記載の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】００１３

【補正方法】変更

【補正の内容】

【0013】

請求項２の発明は、請求項１に記載の音声認識テキストデータ出力制御装置であって、音声認識処理を行う映像データ、または音声データを収録する第一収録部と、前記表示制御で表示された前記ブロック表示の１ブロックをダブルタップアクションした際に、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、前記１ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、を備えることを特徴としている。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正の内容】

【0014】

請求項３の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御部と、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、を備えることを特徴としている。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００１５

【補正方法】変更

【補正の内容】

【0015】

請求項４の発明は、請求項３に記載の音声認識テキストデータ出力制御装置であって、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】００１６

【補正方法】変更

【補正の内容】

【0016】

請求項５の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックをタップアクションした際に、前記１ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示制御する表示制御部と、音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、通常時は前記第二収録部に収録された映像データ、または音声データを映像音声データ受信時から設定した時間を遅延させて等倍再生し、前記設定した時間以上遅延していた場合は規定の倍速再生をする再生部と、前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、を備えることを特徴としている。

【手続補正7】

【補正対象書類名】明細書

【補正対象項目名】００１７

【補正方法】変更

【補正の内容】

【0017】

請求項６の発明は、請求項５に記載の音声認識テキストデータ出力制御装置であって、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。

【手続補正8】

【補正対象書類名】明細書

【補正対象項目名】００１８

【補正方法】変更

【補正の内容】

【0018】

請求項７の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御ステップと、を備えることを特徴としている。

【手続補正9】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正の内容】

【0019】

請求項８の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御ステップと、前記表示制御ステップで表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと、を備えることを特徴としている。

【手続補正10】

【補正対象書類名】明細書

【補正対象項目名】００２０

【補正方法】変更

【補正の内容】

【0020】

請求項９の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを１ブロックにまとめてブロック表示制御する表示制御手段、を備えることを特徴としており、請求項１０の発明は、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下スワイプアクションした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御手段、前記表示制御で表示された前記ブロック表示の１ブロックを上スワイプアクションし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及びブロック表示の１ブロックを下スワイプアクションし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集手段、を備えることを特徴としている。

【手続補正書】

【提出日】2021-09-29

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックした際に、前記１ブロックを消去して表示、及び前記ブロック表示の１ブロックを下フリックした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御部と、
前記表示制御で表示された前記ブロック表示の１ブロックを上フリックし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下フリックし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、
前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下フリックした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御ステップと、
前記表示制御ステップで表示された前記ブロック表示の１ブロックを上フリックし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下フリックし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと、
を備えることを特徴とした音声認識テキストデータ出力制御方法。

【請求項9】

【請求項10】

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下フリックした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御手段、
前記表示制御で表示された前記ブロック表示の１ブロックを上フリックし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及びブロック表示の１ブロックを下フリックし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集手段、
を備えることを特徴とした音声認識テキストデータ出力制御プログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００１４

【補正方法】変更

【補正の内容】

【0014】

請求項３の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックした際に、前記１ブロックを消去して表示、及び前記ブロック表示の１ブロックを下フリックした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御部と、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下フリックし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、を備えることを特徴としている。

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正の内容】

【0019】

請求項８の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の１ブロックを上フリックした際に、前記１ブロックを消去して表示制御する、及び前記ブロック表示の１ブロックを下フリックした際に、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御する表示制御ステップと、前記表示制御ステップで表示された前記ブロック表示の１ブロックを上フリックし、前記１ブロックを消去して表示したと同時に、前記１ブロックに該当するテキストを削除する、及び前記ブロック表示の１ブロックを下フリックし、前記１ブロック以降のブロックは前記１ブロックよりも下段に表示制御すると同時に、前記１ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと、を備えることを特徴としている。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００２２

【補正方法】変更

【補正の内容】

【0022】

【図1】本発明の実施形態に係る情報処理システムの概略構成（システム構成）の一例を示す図である。

【図2】本発明の実施形態に係る音声認識処理サーバの一例を示す概略構成図（ブロック図）である。

【図3】本発明の実施形態に係る音声認識テキストデータ出力制御サーバ一例を示す概略構成図（ブロック図）である。

【図4】本発明の実施形態に係る形態素解析処理サーバの一例を示す概略構成図（ブロック図）である。

【図5】本発明の実施形態に係る情報処理装置の一例を示す概略構成図（ブロック図）である。

【図6】本発明の実施形態に係る映像・音声再生装置の一例を示す概略構成図（ブロック図）である。

【図7】本発明の辞書生成処理例１に係る辞書生成処理制御の一例を示すフローチャートである。

【図8】本発明の辞書生成処理例１に係る辞書生成処理制御のテキスト選択過程の解説図と選択するための数式例である。

【図9】本発明の辞書生成処理例１に係る情報処理装置に表示される画面の一例を示す図である。

【図10】本発明の辞書生成処理例２に係る辞書生成処理制御の一例を示すフローチャートである。

【図11】本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。

【図12】情報処理装置５に表示されるテキスト修正画面の一例を示す図である。

【図13】情報処理装置５に表示されるテキスト修正画面の一例で、エリア変更ボタンのタッチアクションを示す図である。

【図14】情報処理装置５に表示されるテキスト修正画面の一例で、下フリックのタッチアクションを示す図である。

【図15】情報処理装置５に表示されるテキスト修正画面の一例で、右スワイプのタッチアクションを示す図である。

【図16】情報処理装置５に表示されるテキスト修正画面の一例で、左スワイプのタッチアクションを示す図である。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００７６

【補正方法】変更

【補正の内容】

【0076】

テキスト編集部５３２は、表示制御部５３１の表示、操作に合わせてブロック内のテキストの編集を行う。たとえばブロックを下フリックした際にはテキストの後ろに改行コードを挿入したり、ブロックを上フリックアクションした際にはブロック内テキストを削除したり、ブロックを左横スワイプアクションした際には、選択した句読点や区切記号などを挿入したり、ブロックをタップアクションした際には表示制御部５３１によって表示指示された表示部５２に表示されている修正エリア５２ｄのテキストとブロック内のテキストを差し替えたりして、テキストの編集を行っていく。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】０１２１

【補正方法】変更

【補正の内容】

【0121】

修正エリア５２ａではブロックを自由に動かすことができる。例えばブロック５１６「より」を下段に改行したい場合は、図１４のようにしたタッチパネル上でブロック５１６を選択し、下フリックすることによって改行を行うことが可能となる。

【手続補正書】

【提出日】2021-10-13

【手続補正1】

【補正対象書類名】手続補正書

【補正対象項目名】手続補正４

【補正方法】変更

【補正の内容】

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００２２

【補正方法】変更

【補正の内容】

【0022】

【図1】本発明の実施形態に係る情報処理システムの概略構成（システム構成）の一例を示す図である。

【図2】本発明の実施形態に係る音声認識処理サーバの一例を示す概略構成図（ブロック図）である。

【図3】本発明の実施形態に係る音声認識テキストデータ出力制御サーバ一例を示す概略構成図（ブロック図）である。

【図4】本発明の実施形態に係る形態素解析処理サーバの一例を示す概略構成図（ブロック図）である。

【図5】本発明の実施形態に係る情報処理装置の一例を示す概略構成図（ブロック図）である。

【図6】本発明の実施形態に係る映像・音声再生装置の一例を示す概略構成図（ブロック図）である。

【図7】本発明の辞書生成処理例１に係る辞書生成処理制御の一例を示すフローチャートである。

【図8】本発明の辞書生成処理例１に係る辞書生成処理制御のテキスト選択過程の解説図と選択するための数式例である。

【図9】本発明の辞書生成処理例１に係る情報処理装置に表示される画面の一例を示す図である。

【図10】本発明の辞書生成処理例２に係る辞書生成処理制御の一例を示すフローチャートである。

【図11】本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。

【図12】情報処理装置５に表示されるテキスト修正画面の一例を示す図である。

【図13】情報処理装置５に表示されるテキスト修正画面の一例で、エリア変更ボタンのタッチアクションを示す図である。

【図14】情報処理装置５に表示されるテキスト修正画面の一例で、下フリックのタッチアクションを示す図である。

【図15】情報処理装置５に表示されるテキスト修正画面の一例で、右スワイプのタッチアクションを示す図である。

【図16】情報処理装置５に表示されるテキスト修正画面の一例で、左スワイプのタッチアクションを示す図である。

【図17】情報処理装置５に表示されるテキスト修正画面の一例で、シングルタッチアクションを示す図である。

【図18】情報処理装置５に表示される音声認識確度正答率の一例を示す画面の図である。

【図19】本発明の映像・音声再生装置の動作の一例を示すフローチャートである。

【図20】本発明の映像・音声再生装置の動作の一例を示すフローチャートである

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版