特許7481863 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫサービスセンターの特許一覧

特許7481863音声認識誤り修正支援装置、プログラムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-01

(45)【発行日】2024-05-13

(54)【発明の名称】音声認識誤り修正支援装置、プログラムおよび方法

(51)【国際特許分類】

G10L 15/22 20060101AFI20240502BHJP

【ＦＩ】

G10L15/22 460Z

G10L15/22 470Z

【請求項の数】 6

(21)【出願番号】P 2020039124

(22)【出願日】2020-03-06

(65)【公開番号】P2021140084

(43)【公開日】2021-09-16

【審査請求日】2023-02-15

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(73)【特許権者】

【識別番号】399060908

【氏名又は名称】一般財団法人ＮＨＫ財団

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】三島剛

(72)【発明者】

【氏名】佐藤庄衛

(72)【発明者】

【氏名】小森智康

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２００４－１９１６１６（ＪＰ，Ａ）

【文献】特開２０１９－１９７２１０（ＪＰ，Ａ）

【文献】特開２０００－２５９１８１（ＪＰ，Ａ）

【文献】特開２００５－２７５９２５（ＪＰ，Ａ）

【文献】特開２００６－１３３４７８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

音声認識の誤りを修正する音声認識誤り修正支援装置であって、
編集手段を備え、
前記編集手段は、
音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記単語または前記記号を更新する誤り修正手段と、を備え、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。

【請求項2】

音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶する記憶手段と、
前記複数の修正端末に対応した複数の編集手段と、を備え、
前記編集手段は、
前記音声認識結果を構成する単語と、前記未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する前記修正端末に表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を対応する前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新する誤り修正手段と、を備え、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。

【請求項3】

前記未認識区間の記号は、前記未認識区間を予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号であって、当該記号に時間情報が対応付けられていることを特徴とする請求項１または請求項２に記載の音声認識誤り修正支援装置。

【請求項4】

コンピュータを、請求項１から請求項３のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。

【請求項5】

音声認識の誤りを修正する音声認識誤り修正支援方法であって、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記単語または前記記号を更新するステップと、
を含み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。

【請求項6】

音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援方法であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶するステ
ップと、
前記複数の修正端末において、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新するステップと、
を含み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置に関する。

【背景技術】

【0002】

番組取材等で収録した音声コンテンツ（映像と音声のコンテンツを含む）の音声を文字として利用する場合、音声の書き起こし作業が必須の作業となっている。通常、この作業は、作業者が、収録したコンテンツの音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であってもコンテンツの収録時間に対して約４倍の作業時間がかかるとも言われている。
従来の音声の書き起こし作業を支援する技術として、単語単位で音声の再生を可能とし、音声認識の完了済みまたは音声認識中のコンテンツであっても、複数の修正端末での待ち時間を抑えて、迅速に音声認識の誤りを修正することが可能な音声認識誤り修正支援装置の技術が開示されている（特許文献１，２参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－１８０５１９号公報

【文献】特開２０１９－１９７２１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１，２で開示されている従来技術は、修正端末において、認識結果の単語をマウス等でクリックするだけで、その単語に同期した音声を再生することができる。そのため、従来技術は、指定した単語の音声を素早く再生し、効率よく音声認識の誤りを修正することができる。
一方、この従来技術は、音声のない区間や音声認識が困難で認識結果が出力されない区間（未認識区間）を修正端末の作業者が認識できない。そのため、従来技術は、未認識区間において、音声の再生位置を指定することができない。例えば、作業者が未認識区間の後半部分の音声を確認したくても、従来技術は、未認識区間の直前の単語から音声を再生し、所望の確認位置まで待たなければならない。
このような従来技術に対して、未認識区間であっても、指定した位置の音声を再生して、効率よく修正作業を行いたいという要望がある。

【0005】

そこで、本発明は、音声の未認識区間を視覚化し、未認識区間においても、指定した位置の音声を再生し修正作業を行うことが可能な音声認識誤り修正支援装置、プログラムおよび方法を提供することを課題とする。

【課題を解決するための手段】

【0006】

前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを修正する音声認識誤り修正支援装置であって、編集手段を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。

【0007】

かかる構成において、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。また、作業者は、未認識区間において指定の位置まで音声再生を飛ばして音声を確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、単語または記号を更新する。

【0008】

また、前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、記憶手段と、複数の編集手段と、を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。

【0009】

かかる構成において、音声認識誤り修正支援装置は、音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶する。

【0010】

そして、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する修正端末に表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を対応する修正端末に出力する。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、記憶手段に記憶されている単語または記号を後書き優先で更新する。
また、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る音声認識誤り修正支援方法は、前記した各手段の動作をステップとして含む手順で動作させることができる。

【発明の効果】

【0012】

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、コンテンツを音声認識した結果として、音声認識されなかった時間区間を予め定めた記号で可視化することができる。
これによって、本発明は、音声認識されなかった時間区間において、コンテンツの音声の再生位置を指定することができるとともに、音声認識結果に対する修正と同様に、テキスト編集を行うことができる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施形態に係る音声認識誤り修正システムの構成を示すブロック構成図である。

【図2】本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。

【図3】コンテンツ情報記憶手段が記憶する記憶内容を説明するための説明図である。

【図4】音声認識情報の内容を説明するための説明図である。

【図5】セグメント情報の内容を説明するための説明図である。

【図6】コンテンツを選択する画面の例を示す図であって、（ａ）は選択画面例、（ｂ）はリストボックス例、（ｃ）は現時間設定ボタンを押下された際の選択画面例を示す。

【図7】コンテンツを選択する際の開始時刻および終了時刻を説明するための説明図である。

【図8】コンテンツの音声認識結果を分割したセグメントの一覧を示すセグメント一覧画面の一例を示す画面構成図である。

【図9】セグメント一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。

【図10】異なる修正端末での編集画面を示し、同じ対象を修正している状態を説明するための説明図である。

【図11】編集領域における音声認識結果に対する編集作業の一例を説明するための説明図である。

【図12】編集領域における音声の未認識区間に対する音声再生処理の一例を説明するための説明図である。

【図13】編集領域における音声の未認識区間に対する文字列置換処理の一例を説明するための説明図である。

【図14】編集領域における音声の未認識区間に対するコメント追加処理の一例を説明するための説明図である。

【図15】修正結果出力手段が生成する修正結果の一例を説明するための説明図である。

【図16】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。

【図17】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で修正端末に提示するセグメント情報提示動作を示すフローチャートである。

【図18】本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。

【図19】本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。

【図20】コンテキストメニューを表示したセグメント一覧画面の一例を示す画面構成図である。

【図21】本発明の実施形態に係る音声認識装置の構成を示すブロック構成図である。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態について図面を参照して説明する。
［音声認識誤り修正システムの概要］
最初に、図１を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１を含んだ音声認識誤り修正システムＳの概要について説明する。

【0015】

音声認識誤り修正システムＳは、少なくとも音声を含んだコンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材コンテンツとして説明するが、音声を含むコンテンツであれば、放送用素材コンテンツに限るものではない。
音声認識誤り修正システムＳは、音声認識誤り修正支援装置１と、複数の修正端末２（２，…，２）と、を備える。

【0016】

音声認識誤り修正支援装置１は、コンテンツの音声認識の誤りを修正するものである。
この音声認識誤り修正支援装置１は、コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末２において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置１は、複数の修正端末２による修正を逐次反映し、複数の修正端末２で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。

【0017】

修正端末２は、音声認識誤り修正支援装置１が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末２は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置１と修正端末２とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置１は、同じコンテンツに対して、排他制御を行わずに、複数の修正端末２により音声認識の誤りを修正する。

【0018】

これによって、音声認識誤り修正システムＳは、音声認識中のコンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末２によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置１の構成および動作について説明する。

【0019】

［音声認識誤り修正支援装置の構成］
まず、図２を参照して、音声認識誤り修正支援装置１の構成について説明する。
音声認識誤り修正支援装置１は、図２に示すように、コンテンツ入力手段１０と、音声認識手段１１と、セグメント分割手段１２と、未認識区間分割手段１３と、セグメント内情報抽出手段１４と、コンテンツ情報記憶手段１５と、編集手段１６（１６，…，１６）と、情報削除手段１７と、を備える。

【0020】

コンテンツ入力手段１０は、コンテンツを入力するものである。
コンテンツ入力手段１０は、例えば、外部の記憶媒体からコンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
このコンテンツ入力手段１０は、入力したコンテンツのうち、音声については、音声認識手段１１に出力する。また、コンテンツ入力手段１０は、入力したコンテンツ（映像・音声）を、後記する編集手段１６における修正作業に使用するため、コンテンツ情報記憶手段１５に書き込み記憶する。

【0021】

音声認識手段１１は、コンテンツ入力手段１０が入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段１１は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の開始時間（単語開始時間）および時間長を示す時間情報とを生成する。音声認識手段１１は、生成した認識結果の単語と時間情報とを、順次、セグメント分割手段１２に通知するとともに、コンテンツ情報記憶手段１５に書き込み記憶する。
なお、音声認識手段１１における音声認識の手法は、例えば、特開２０１０－１７５７６５等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。

【0022】

セグメント分割手段１２は、音声認識手段１１で音声認識された単語列を、予め定めた基準で分割するものである。以下、セグメント分割手段１２で生成された分割結果のそれぞれのかたまり（単語列）をセグメントとよぶ。
セグメント分割手段１２が用いる分割の基準は、任意の基準を予め定めることができる。例えば、分割の基準として、音声の無音区間を用いることができる。この場合、セグメント分割手段１２は、音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。

【0023】

また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、セグメント分割手段１２は、コンテンツ情報記憶手段１５に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。

【0024】

また、例えば、分割の基準として、コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、ＧＰＳ（Global Positioning System）の位置情報（ジオタグ）等がある。この場合、セグメント分割手段１２は、位置情報によって、コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。

【0025】

セグメント分割手段１２は、分割したセグメントを、未認識区間分割手段１３およびセグメント内情報抽出手段１４に出力する。また、セグメント分割手段１２は、セグメントごとに、単語とその時間情報とをコンテンツ情報記憶手段１５に書き込み記憶する。

【0026】

未認識区間分割手段１３は、セグメント分割手段１２で分割されたセグメントごとに、認識されなかった音声の未認識区間を、予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号と当該記号に対応する時間情報とを対応付けるものである。
ここで、未認識区間とは、無音、音量が極端に低い音声、音楽等の背景音が過大に重畳されている音声、認識対象ではない外国語等の音声、複数人が同時に発話した音声等で音声認識されなかった区間である。
未認識区間分割手段１３は、音声認識手段１１で認識された単語と時間情報とに基づいて、認識された単語から次の単語までの経過時間が予め定めた時間以上の区間を未認識区間として、順次分割する。また、未認識区間分割手段１３は、セグメントの先頭から、認識された単語までの区間、あるいは、認識された単語の終了時間からセグメントの最後までの区間を、未認識区間として、順次分割する。

【0027】

未認識区間分割手段１３は、未認識区間について、予め定めた時間間隔（例えば、２秒）ごとに、分割した未認識区間を示す記号（未認識区間記号）とその開始時間および時間長を時間情報として、認識単語と同様に、コンテンツ情報記憶手段１５に書き込み記憶する。
未認識区間記号は、音声認識結果として用いられる文字以外の予め定めた文字であれば何でもよく、例えば、“＞”等の記号を用いることができる。

【0028】

セグメント内情報抽出手段１４は、セグメント分割手段１２で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、セグメント内情報抽出手段１４は、ＴＦ－ＩＤＦ法（ＴＦ：Term Frequency、単語の出現頻度、ＩＤＦ:Inverse Document Frequency、逆文書頻度）によりセグメントを特徴付ける単語を抽出する。ＴＦ－ＩＤＦは、文書（本実施形態では、セグメント）中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
なお、セグメント内情報抽出手段１４は、セグメントに含まれる未認識区間記号については、特徴単語を抽出する演算からは除外する。
具体的には、セグメント内情報抽出手段１４は、セグメントｓ内の単語ｗの出現頻度ｔｆ（ｗ，ｓ）を、以下の式（１）で算出する。

【0029】

【数1】

【0030】

この式（１）で、ｎ_ｗ，ｓは、ある単語ｗ（未認識区間記号は除く；以下同じ）のセグメントｓ内での出現回数、Σ_ｔ∈ｓｎ_ｔ，ｓは、セグメントｓ内のすべての単語の出現回数の和を示す。
また、セグメント内情報抽出手段１４は、ある単語ｗの逆文書頻度ｉｄｆ（ｗ）を、以下の式（２）で算出する。

【0031】

【数2】

【0032】

この式（２）で、Ｎは、コンテンツ内の全セグメント数、ｄｆ（ｗ）は、ある単語ｗが出現するコンテンツのセグメントの数（総セグメント数〔総文書数〕）を示す。
そして、セグメント内情報抽出手段１４は、セグメント内の各単語について、以下の式（３）に示すように、式（１）のｔｆ値と式（２）のｉｄｆ値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。

【0033】

【数3】

【0034】

セグメント内情報抽出手段１４は、抽出した特徴単語を、セグメントに対応付けてコンテンツ情報記憶手段１５に書き込み記憶する。
なお、セグメント内情報抽出手段１４は、ＴＦ－ＩＤＦ法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。

【0035】

また、セグメント内情報抽出手段１４は、コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、セグメント内情報抽出手段１４は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。セグメント内情報抽出手段１４は、抽出したサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段１５に書き込み記憶する。

【0036】

コンテンツ情報記憶手段（記憶手段）１５は、音声認識の誤りを修正する対象となるコンテンツと、コンテンツをセグメントに分割した各種情報とを記憶するものである。このコンテンツ情報記憶手段１５は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。

【0037】

ここで、図３～図５を参照（適宜図２参照）して、コンテンツ情報記憶手段１５が記憶するコンテンツ情報について具体的に説明する。
図３に示すように、コンテンツ情報記憶手段１５は、音声認識誤りを修正する対象となるコンテンツ（映像・音声）Ｃｏｎを記憶する。コンテンツ（映像・音声）Ｃｏｎは、コンテンツ入力手段１０によって、記憶されたものである。

【0038】

また、図３に示すように、コンテンツ情報記憶手段１５は、コンテンツＣｏｎごとに、音声認識情報Ｒｅｃとセグメント情報Ｓｅｇとを対応付けて記憶する。なお、コンテンツＣｏｎには、当該コンテンツＣｏｎの識別情報（ＩＤ等）および時間情報を付加（不図示）しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置１に入力された時間（入力開始時間（年月日時分等））等である。

【0039】

音声認識情報Ｒｅｃは、音声認識手段１１で認識され、対応付けられた単語および時間情報である。なお、音声認識情報Ｒｅｃには、未認識区間分割手段１３で分割された未認識区間の記号（未認識区間記号）についても、単語と同様に時間情報を対応付けられている。
例えば、図４に示すように、音声認識情報Ｒｅｃは、コンテンツを識別する識別情報（コンテンツ識別情報）に対応付けて、単語ｗごとに、時間情報tと修正フラグｆとを対応付ける。ここで、修正フラグｆは、修正端末２によって修正が加えられたか否かを示す情報である（例えば、修正あり“１”、修正なし“０”）。
なお、図４中、単語ｗの欄の記号“＞”は、未認識区間を予め定めた時間（ここでは、２秒）で分割した区間に対応付けた記号（未認識区間記号）を示す。

【0040】

セグメント情報Ｓｅｇは、音声認識情報Ｒｅｃを、セグメント分割手段１２でセグメントに分割した内容を示す情報である。
例えば、図５に示すように、セグメント情報Ｓｅｇは、コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報（番号等）ごとに、開始時間ｔｓと、終了時間ｔｅと、特徴単語ｋと、サムネイル画像ｇとを対応付ける。
ここで、開始時間ｔｓおよび終了時間ｔｅは、セグメントの時間区間を示す。特徴単語ｋは、セグメント内情報抽出手段１４が抽出した単語である。サムネイル画像ｇは、セグメント内情報抽出手段１４が当該セグメントの先頭の時間情報に対応した、コンテンツの映像から抽出したフレーム画像である。

【0041】

なお、図３の例では、コンテンツＣｏｎ３については、音声認識がすべて終了しておらず、セグメント情報Ｓｅｇが確定していない状態を示している。
また、ここでは、コンテンツＣｏｎと、音声認識情報Ｒｅｃおよびセグメント情報Ｓｅｇとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

【0042】

編集手段１６は、外部に接続された修正端末２を用いて、作業者が、コンテンツ情報記憶手段１５に記憶されている音声認識結果を修正するものである。この編集手段１６は、複数の修正端末２ごとに複数存在する。なお、編集手段１６は、修正端末２に対する１つのプロセスとして動作し、修正端末２が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段１６は、図２に示すように、修正対象選択手段１６０と、編集画面制御手段１６１と、誤り修正手段１６２と、映像／音声再生手段１６３と、修正結果出力手段１６４と、を備える。

【0043】

修正対象選択手段１６０は、音声認識誤りを修正する対象のコンテンツを選択するものである。修正対象選択手段１６０は、修正端末２に修正対象のコンテンツを選択する画面を表示し、修正端末２からの選択を受け付ける。
ここで、図６を参照して、コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段１６０は、図６（ａ）に示すような選択画面３０を表示する。

【0044】

選択画面３０は、時間区間を特定することで、修正対象となるコンテンツを特定する画面である。選択画面３０は、時間設定領域３０１と、現時間設定ボタン３０２と、修正開始ボタン３０３と、を備える。

【0045】

時間設定領域３０１は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域３０１は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域３０１は、例えば、図６（ｂ）に示すように、ボタン３０１ａを押下されることで、候補となるリストをスクロールバー３０１ｂ付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となるコンテンツが特定される。

【0046】

現時間設定ボタン３０２は、現在の時刻から現在入力中（あるいは、それ以降）のコンテンツを修正対象とするための設定ボタンである。
例えば、図６（ｃ）に示すように、現時間設定ボタン３０２を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中（あるいは、それ以降）のコンテンツを修正対象とする。
修正開始ボタン３０３は、時間設定領域３０１または現時間設定ボタン３０２により時刻を設定した後、修正対象となるコンテンツの修正を開始するためのボタンである。

【0047】

ここで、図７を参照して、修正対象選択手段１６０で選択された開始時刻および終了時刻で特定されるコンテンツの時間区間について説明する。
図７は、本日のｎ日（予め定めた日数）前から本日までの時間を時系列で示したものである。

【0048】

時間区間Ｔ１は、本日から２日前のある時刻を開始時刻とし、本日から１日前のある時刻を終了時刻としたときの例である。なお、時間区間Ｔ１は、開始時刻については、設定された時刻よりも予め定めた時間ｂｔ（例えば、数十秒～数分）だけ早い時刻とする。これによって、修正端末２の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。

【0049】

時間区間Ｔ２は、コンテンツ情報記憶手段１５に記憶されているコンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間Ｔ２は、設定された時刻よりも予め定めた時間ｂｔだけ早い時間のコンテンツが存在しない場合、開示時刻を、最も古いコンテンツに対応する時刻とする。

【0050】

時間区間Ｔ３は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間Ｔ３も、設定された時刻よりも予め定めた時間ｂｔだけ早い時刻を開始時刻とする。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。
修正対象選択手段１６０は、設定されたコンテンツのファイル名等の識別情報を、編集画面制御手段１６１に出力する。

【0051】

編集画面制御手段１６１は、コンテンツの音声の認識結果を構成する単語と未認識区間の予め定めた時間間隔ごとの記号とを含んだ編集画面を修正端末２に表示するものである。ここでは、編集画面制御手段１６１は、セグメントごとに、特徴単語と当該セグメントに含まれる単語列（単語、未認識区間記号）を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御する。

【0052】

ここで、図８および図９を参照（適宜図２参照）して、編集画面制御手段１６１が表示する画面例について、その制御内容とともに説明する。
図８に示すように、編集画面制御手段１６１は、編集画面制御手段１６１に対応する修正端末２の画面上にセグメント一覧画面３１を表示する。

【0053】

セグメント一覧画面３１は、選択ボタン３１１と、特徴単語表示欄３１２と、サムネイル画像表示領域３１３と、タイムテーブル表示欄３１４と、スクロールバー表示欄３１５と、修正結果取得ボタン３１６と、で構成される。

【0054】

選択ボタン３１１は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
特徴単語表示欄３１２は、セグメント内で抽出された特徴単語を表示する領域である。編集画面制御手段１６１は、コンテンツ情報記憶手段１５から、当該セグメントに対応する特徴単語（図５の特徴単語ｋ）を読み出して、特徴単語表示欄３１２に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段１６１は、特徴単語表示欄３１２を空欄とする。

【0055】

サムネイル画像表示領域３１３は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段１６１は、コンテンツ情報記憶手段１５から、当該セグメントに対応するサムネイル画像（図５のサムネイル画像ｇ）を読み出して、サムネイル画像表示領域３１３に表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１６１は、対応するコンテンツの先頭フレームをサムネイル画像として表示する。

【0056】

タイムテーブル表示欄３１４は、コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段１６１は、コンテンツ情報記憶手段１５のセグメントの時間情報（図５の開始時間ｔｓおよび終了時間ｔｅ）を参照して、タイムテーブルを生成し表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１６１は、対応するコンテンツの先頭の単語と最後の単語の時間情報ｔ（図４参照）を参照する。
スクロールバー表示欄３１５は、セグメント一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段１６１は、スクロールバーの上下によって、画面上のセグメント一覧を更新する。

【0057】

修正結果取得ボタン３１６は、修正対象選択手段１６０で選択した修正対象のコンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン３１６を押下された場合、編集画面制御手段１６１は、修正対象選択手段１６０で選択された修正対象のコンテンツの識別情報（コンテンツ識別情報）を修正結果出力手段１６４に出力する。
このように、セグメント一覧画面３１を表示することで、作業者は、セグメントを確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。

【0058】

このセグメント一覧画面３１において、作業者が行う修正端末２のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン（図８中、「ｏｐｅｎ」）３１１の押下により、編集画面制御手段１６１は、セグメント一覧画面３１において、セグメントの単語列の修正を行う編集領域３１７（図９参照）を表示する。

【0059】

図９は、編集領域３１７を表示したセグメント一覧画面３１Ｂを示す画面例である。
このセグメント一覧画面３１Ｂには、図８で説明したセグメント一覧画面３１に対して、選択されたセグメントにおいて、動画表示領域３１３Ｂと、編集領域３１７とが表示される。

【0060】

動画表示領域３１３Ｂは、セグメントに対応するコンテンツを再生する領域である。編集画面制御手段１６１は、当該セグメントが選択されたタイミングで、コンテンツ情報記憶手段１５のセグメントの時間情報（図５の開始時間ｔｓおよび終了時間ｔｅ）を参照して、対応するコンテンツの映像区間の先頭フレームを動画表示領域３１３Ｂに表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段１６１は、対応するコンテンツの先頭の単語の時間情報ｔ（図４参照）を参照して、対応するコンテンツの先頭フレームを動画表示領域３１３Ｂに表示する。
この動画表示領域３１３Ｂの画像領域をマウス等でクリック、あるいは再生開始ボタンｓｔを押下されることで、編集画面制御手段１６１は、映像／音声再生手段１６３に当該コンテンツの再生を指示する。

【0061】

編集領域３１７は、セグメントに対応する単語列を表示し、修正等の編集を行う領域である。編集画面制御手段１６１は、編集領域３１７に、コンテンツ情報記憶手段１５に記憶されている当該セグメントに対応する単語列を展開する。
このとき、編集画面制御手段１６１は、セグメントに対応する単語として、認識された単語以外に未認識区間記号（“＞”）ＳＣを表示する。図９の例では、未認識区間記号（“＞”）が１１個連続している。これは未認識区間が１１個に分割されたことを示しているため、予め定めた時間間隔が２秒であれば、音声認識で認識されなかった時間が少なくとも２２秒間は続いていることがわかる。これによって、音声認識誤り修正支援装置１は、音声中に、未認識区間が存在することやその未認識区間がどの程度継続しているかを、作業者に認識させることができるとともに、未認識区間を編集対象とすることができる。

【0062】

なお、編集画面制御手段１６１は、編集領域３１７を表示している場合、音声認識情報Ｒｅｃ（図３参照）の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段１６１は、編集領域３１７を拡大していく。これによって、音声認識誤り修正支援装置１は、リアルタイムにコンテンツの音声認識に対する誤りを修正することができる。
編集領域３１７の編集は、後記する誤り修正手段１６２によって行われる。なお、編集領域３１７において任意の単語をマウス等でクリックされることで、編集画面制御手段１６１は、クリックされた単語の時間に対応するコンテンツの再生を映像／音声再生手段１６３に指示する。
また、編集画面制御手段１６１は、選択ボタン（図９中、「ｃｌｏｓｅ」）３１１の押下により、編集領域３１７を非表示とし、動画表示領域３１３Ｂをサムネイル画像表示領域３１３として、図８のセグメント一覧画面３１に表示を戻す。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

【0063】

誤り修正手段１６２は、修正端末２の作業者の編集操作により、編集領域３１７（図９）において、セグメントの単語列の誤りを修正するものである。この誤り修正手段１６２は、単語列を修正する編集動作においては、一般的なテキストエディタ（スクリーンエディタ）として機能する。したがって、単語列の誤りを修正するだけでなく、その場の状況、感想等をコメントとして付加することもできる。また、未認識区間記号は単なる単語として、他の単語列と全く同じように編集することができる。
また、誤り修正手段１６２は、修正内容を、他の修正端末２に対応する編集手段１６（別プロセスで起動した編集手段）に対して通知することで、他の修正端末２の編集領域３１７に反映させる。逆に、他の編集手段１６から修正内容を通知された場合、誤り修正手段１６２は、自身の修正端末２の編集領域３１７に修正内容を反映させる。

【0064】

この誤り修正手段１６２は、修正が行われた場合、音声認識情報Ｒｅｃ（図４）の単語を上書きして修正するとともに、修正フラグｆをセットする。この誤り修正手段１６２は、他の編集手段１６の誤り修正手段１６２が同じ修正対象に対して修正を行う場合でも、上書き（後書き優先）で更新することで、複雑な排他制御を行わないこととする。
また、誤り修正手段１６２は、単語の置換ではなく、単語を削除あるいは挿入することもできる。誤り修正手段１６２は、単語を削除する場合、音声認識情報Ｒｅｃ（図４）の対応する単語の行を削除する。また、誤り修正手段１６２は、単語を挿入する場合、挿入位置に最も近い（挿入単語の直前または直後）の単語と結合し、音声認識情報Ｒｅｃ（図４）において、挿入位置に最も近い単語と同じ行の単語と結合した単語(単語列)で置き換え、修正フラグｆをセットする。
なお、この誤り修正手段１６２における単語列の修正処理は、未認識区間記号についても同様である。

【0065】

そして、誤り修正手段１６２は、他の編集手段１６に対して修正を行ったことを通知することで、対応する誤り修正手段１６２が、音声認識情報Ｒｅｃ（図４）を参照して、修正内容を反映させる。あるいは、誤り修正手段１６２は、変更前の単語と変更後の単語や、削除された単語、あるいは、挿入された単語を通知することとしてもよい。
このとき、誤り修正手段１６２は、修正が行われた単語を修正が行われていない単語とは異なる色属性（例えば、赤色）で表示する。
これによって、誤り修正手段１６２は、他の修正端末２で修正された内容を作業者に視認させることができる。

【0066】

例えば、図１０に示すように、編集領域３１７において、同じ修正対象を異なる修正端末２_１，２_２で修正が行われるとする。
この場合、図１０（ａ）に示すように、修正端末２_１の作業者は、編集領域３１７において「京」を「今日」に修正する。また、図１０（ｂ）に示すように、修正端末２_２の作業者は、編集領域３１７において「ハタ」を「肌」に修正する。
そして、修正端末２_１，２_２に対応するそれぞれの誤り修正手段１６２が、それぞれの修正内容を通知しあうことで、他の修正端末で行った修正内容を反映させる。
これによって、修正状況が作業者全員に共有され、作業の競合を抑制して効率よく音声認識の誤りを修正することができる。

【0067】

また、誤り修正手段１６２は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段１６２は、編集領域３１７（図９）において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段１６２は、音声の再生を停止する。

【0068】

図１１は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図１１の編集領域３１７において、マウスクリック等で「３月」が選択された場合、誤り修正手段１６２は、コンテンツ情報記憶手段１５のセグメントに含まれる単語の時間情報（図４の時間情報ｔ）を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像／音声再生手段１６３に指示する。なお、このとき、音声に連動して、動画表示領域３１３Ｂにおいて、音声再生の時間に対応する映像を再生することとしてもよい。

【0069】

そして、誤り修正手段１６２は、図１１に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段１６２は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。

【0070】

また、例えば、図１２に示すように、編集領域３１７において、マウスクリック等で未認識区間記号ＳＣが選択された場合も、図１１で説明した音声認識された単語と同様に、誤り修正手段１６２は、コンテンツ情報記憶手段１５のセグメントに含まれる選択された位置の未認識区間記号の時間情報（図４の時間情報ｔ）を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像／音声再生手段１６３に指示する。
これによって、作業者は、未認識区間であっても、音声を再生させる位置を指定することができる。

【0071】

また、作業者は、再生された音声や映像を確認し、作業者が音声を聞き取れた場合、図１３に示すように、１以上の未認識区間記号ＳＣ（図１２）を選択し、作業者が聞き取った置換文字列ＣＣ_１で置き換えることとしてもよい。
図１３では、図１２の１１個連続した未認識区間記号（“＞”）について、最初の３個の未認識区間記号をそのまま残し、続く３個の未認識区間記号を選択して「コートが必要でした。」という置換文字列ＣＣ_１に置き換え、さらに続く５個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が２秒であれば、６秒の未認識区間のあとに、「コートが必要でした」という音声があり、その後は未認識区間が続いていることを示している。例えば、音量が極端に低い音声や背景音が過大に重畳されて、音声認識手段１１では音声認識できなかった部分を作業者が聞き取れた場合には、このように、聞き取れた時間に相当する未認識区間を選択して文字列を置換することが有効である。
なお、音声認識手段１１で音声認識されなかった部分を作業者が聞き取れた場合でも、繰り返し同じ音声が流れている等、音声と文字列とのタイミングを合わせることがそれほど重要ではないと考えられる場合には、未認識区間記号（“＞”）をそのまま残して、未認識区間記号（“＞”）で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。このようにすると、未認識区間の継続している長さは、未認識区間記号（“＞”）の数として残ることになる。

【0072】

また、作業者は、図１４に示すように、未認識区間記号（“＞”）を選択し、その場の状況、感想等のコメントとなる置換文字列ＣＣ_２で置き換えることとしてもよい。
図１４では、図１２の１１個連続した未認識区間記号（“＞”）について、最初の３個の未認識区間記号をそのまま残し、続く３個の未認識区間記号を選択して「（編集コメント：山田）背景音に風の音あり」という置換文字列ＣＣ_２に置き換え、さらに続く５個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が２秒であれば、６秒の未認識区間のあとに、背景音に風の音がある状態であることを示している。また、このとき、置換文字列ＣＣ_２が、発話音声ではなく、コメントであること（図１４では、「編集コメント」）や、誰がコメントを追加したか（図１４では、作業者である山田）を追記しておくことが好ましい。
なお、コメントの文字列と音声とのタイミングがそれほど重要ではないと考えられる場合には、未認識区間記号（“＞”）をそのまま残して、未認識区間記号（“＞”）で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。
このように、編集領域３１７において、作業者は、未認識区間記号（“＞”）を、音声認識された結果の単語列と全く区別することなく扱うことができる。
図２に戻って、音声認識誤り修正支援装置１の構成について説明を続ける。

【0073】

映像／音声再生手段１６３は、コンテンツの映像および音声を修正端末２に出力するものである。この映像／音声再生手段１６３は、編集画面制御手段１６１または誤り修正手段１６２により指定された位置に基づいて、コンテンツ情報記憶手段１５から映像／音声を読み出して、修正端末２に出力する

【0074】

修正結果出力手段１６４は、誤り修正手段１６２で修正された音声認識結果（書き起こし結果）を、外部に出力するものである。
この修正結果出力手段１６４は、編集画面制御手段１６１から出力される修正対象のコンテンツに対する修正後の音声認識結果を、コンテンツ情報記憶手段１５から読み出して、対応する修正端末２に出力する。

【0075】

例えば、修正結果出力手段１６４は、図１５に示すように、タイトルＴと、時間情報・特徴単語Ｋと、修正結果Ｗとを含んだテキストデータを生成する。なお、時間情報・特徴単語Ｋと、修正結果Ｗとは、セグメントの数だけ複数存在する。

【0076】

タイトルＴには、例えば、修正日を記載する。
時間情報・特徴単語Ｋには、例えば、セグメントの開始時間ｔｓと、当該セグメントに対応付けられた特徴単語ｋ（図５参照）を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段１６４は、時間情報には、先頭単語の時間情報ｔ（図４参照）を記載し、特徴単語を空欄とする。

【0077】

修正結果Ｗには、例えば、セグメントに対応する修正後の単語ｗ列（図４参照）を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段１６４は、現在入力中のコンテンツに対応する音声認識情報の現時点までの単語ｗ列（図４参照）を記載する。
ただし、修正結果Ｗには、単語ｗのうち、未認識区間記号については記載を省くこととする。

【0078】

この修正結果出力手段１６４は、修正後の音声認識結果を、テキストデータとして、修正端末２に出力することとしてもよいし、音声認識情報に修正フラグｆ（図４参照）が設定されている単語（未認識区間記号は除く）については、色情報を付加した予め定めたフォーマット、例えば、ＰＤＦ（Portable Document Format）等のデータとして出力することとしてもよい。

【0079】

情報削除手段１７は、コンテンツ情報記憶手段１５に記憶されている情報を定期的に削除するものである。例えば、情報削除手段１７は、予め保存日数等が設定され、当該日数を超過した情報（コンテンツＣｏｎ、音声認識情報Ｒｅｃ、セグメント情報Ｓｅｇ（図３参照））を削除する。

【0080】

以上説明したように音声認識誤り修正支援装置１を構成することで、音声認識誤り修正支援装置１は、複数の修正端末２によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置１は、ある修正端末２で行った修正を他の修正端末２に通知することができるため、複数の修正端末２で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力されるコンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置１は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
また、音声認識誤り修正支援装置１は、音声認識結果が出力されない時間区間において、音声の再生位置を指定して再生させることができ、作業者は、指定した位置から音声を確認することができる。これによって、音声認識誤り修正支援装置１は、未認識区間であっても、文字列を追加するように修正を行うことができる。
なお、音声認識誤り修正支援装置１は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

【0081】

［音声認識誤り修正支援装置の動作］
次に、図１６～図１８を参照して、本発明の実施形態に係る音声認識誤り修正支援装置１の動作（音声認識誤り修正支援方法）について説明する。なお、ここでは、音声認識誤り修正支援装置１の動作として、コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末２に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。

【0082】

（セグメント情報生成動作）
まず、図１６を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント情報生成動作について説明する。

【0083】

ステップＳ１において、コンテンツ入力手段１０は、音声認識を行うコンテンツを入力する。このとき、コンテンツ入力手段１０は、入力したコンテンツをコンテンツ情報記憶手段１５に書き込み記憶する。
ステップＳ２において、音声認識手段１１は、ステップＳ１で入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、セグメント分割手段１２に通知するとともに、コンテンツ情報記憶手段１５に書き込み記憶する。

【0084】

ステップＳ３において、セグメント分割手段１２は、ステップＳ２で認識された単語列を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。

【0085】

ステップＳ４において、未認識区間分割手段１３は、ステップＳ３で分割されたセグメントごとに、認識されなかった音声の未認識区間を分割する。このとき、未認識区間分割手段１３は、未認識区間について、予め定めた時間間隔（例えば、２秒）ごとに分割し、分割した未認識区間を示す記号（未認識区間記号）とその開始時間および時間長を、コンテンツ情報記憶手段１５に書き込み記憶する。

【0086】

ステップＳ５において、セグメント内情報抽出手段１４は、ステップＳ３で分割されたセグメントごとに、セグメントに含まれる特徴単語を抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、セグメント内情報抽出手段１４は、抽出した特徴単語およびサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段１５に書き込み記憶する。
ここで、コンテンツの入力が完了していない場合（ステップＳ６でＮｏ）、音声認識誤り修正支援装置１は、ステップＳ１に戻って、コンテンツの入力を続ける。
一方、コンテンツの入力が完了した場合（ステップＳ６でＹｅｓ）、音声認識誤り修正支援装置１は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置１は、図３に示すように、コンテンツ情報記憶手段１５に、コンテンツと、音声認識情報およびセグメント情報とを対応付ける。

【0087】

（セグメント情報提示動作）
次に、図１７を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末２との接続が開始された後の編集手段１６の動作である。

【0088】

ステップＳ１０において、修正対象選択手段１６０は、コンテンツ情報記憶手段１５に記憶されている音声認識誤りを修正する対象のコンテンツを選択する選択画面３０(図６参照)を修正端末２に表示する。
ステップＳ１１において、修正対象選択手段１６０は、画面上で、修正対象のコンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する（ステップＳ１１でＮｏ）。そして、修正開始ボタンが押下された場合（ステップＳ１１でＹｅｓ）、修正対象選択手段１６０は、ステップＳ１２以降の制御を行う編集画面制御手段１６１に制御を移す。

【0089】

ステップＳ１２において、編集画面制御手段１６１は、コンテンツ情報記憶手段１５に記憶されている各種の情報に基づいて、セグメントごとに、特徴単語と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだセグメント一覧画面３１（図８参照）を修正端末２に表示する。

【0090】

ステップＳ１３において、編集画面制御手段１６１は、セグメント一覧画面で選択ボタン（ｏｐｅｎ）が押下されるまで待機する（ステップＳ１３でＮｏ）。
一方、選択ボタン（ｏｐｅｎ）が押下された場合（ステップＳ１３でＹｅｓ）、ステップＳ１４において、編集画面制御手段１６１は、図９に示すように、選択されたセグメントに対応して編集領域３１７を表示し、コンテンツ情報記憶手段１５に記憶されている当該セグメントに対応する認識結果である単語列を編集領域３１７に展開する。なお、このとき、編集画面制御手段１６１は、認識結果である単語とともに、未認識区間記号（“＞”）ＳＣを表示する。

【0091】

この動作以降、編集手段１６は、作業者が修正端末２の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン（ｏｐｅｎ）の押下により編集領域３１７を表示した場合、編集画面制御手段１６１は、任意のタイミングで、選択ボタン（ｃｌｏｓｅ）の押下により編集領域３１７を非表示とすることができるが、この非表示の動作については図示を省略した。また、セグメント一覧画面３１Ｂ（図９参照）の動画表示領域３１３Ｂにおけるコンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置１は、コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。

【0092】

（セグメント修正動作）
次に、図１８を参照（適宜図２参照）して、音声認識誤り修正支援装置１のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。

【0093】

ステップＳ２０において、誤り修正手段１６２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域３１７（図９）内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段１６２は、映像／音声再生手段１６３を介して、コンテンツ情報記憶手段１５のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末２に出力する。これによって、修正端末２で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。
なお、このステップＳ２０において、編集領域３１７（図９）内の未認識区間記号または未認識区間記号列を選択された場合も、誤り修正手段１６２は、単語または単語列と同様に、映像／音声再生手段１６３を介して、対応する音声を修正端末２に出力する。

【0094】

ステップＳ２１において、誤り修正手段１６２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段１６２は、音声が再生中であれば、修正端末２への出力を停止する。これによって、音声の再生が停止される。

【0095】

ステップＳ２２において、誤り修正手段１６２は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段１６２は、コンテンツ情報記憶手段１５の単語あるいは未認識区間記号を修正結果で更新する。
ステップＳ２３において、誤り修正手段１６２は、他の編集手段１６に修正内容を通知することで、他の編集手段１６の誤り修正手段１６２が、対応する修正端末２に表示する内容を反映する。

【0096】

ステップＳ２４において、誤り修正手段１６２は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段１６２は、映像／音声再生手段１６３を介して、コンテンツ情報記憶手段１５のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末２に出力する。これによって、修正端末２で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。

【0097】

なお、図示を省略しているが、ステップＳ２４における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップＳ２２に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置１は、複数の修正端末２で迅速に音声認識の誤りを修正することができる。

【0098】

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、コンテンツを、映像および音声を含んだものとして説明したが、音声のみのコンテンツであっても構わない。
その場合、セグメント内情報抽出手段１４は、特徴単語のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像／音声再生手段１６３は、音声のみを出力する音声出力手段とすればよい。

【0099】

また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了したコンテンツと、現在音声認識中のコンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中のコンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置１は、セグメント分割手段１２、未認識区間分割手段１３、セグメント内情報抽出手段１４および修正対象選択手段１６０を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段１６０は、コンテンツを記憶した日時を基準として、修正対象のコンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、コンテンツが、放送素材コンテンツとして、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、コンテンツを選択することとしてもよい。あるいは、コンテンツに当該コンテンツを収録した際のイベント情報が付加されている場合、イベントを指定して、コンテンツを選択することとしてもよい。

【0100】

また、音声認識誤り修正支援装置１は、音声認識手段１１を外部に備えてもよい。
例えば、図１９に示す音声認識誤り修正支援装置１Ｂの構成としてもよい。音声認識誤り修正支援装置１Ｂは、音声認識誤り修正支援装置１（図２）の音声認識手段１１を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段１８が単語および時間情報を対応付けてコンテンツ情報記憶手段１５に記憶するとともに、セグメント分割手段１２に通知することとすればよい。
なお、音声認識誤り修正支援装置１Ｂも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。

【0101】

また、誤り修正手段１６２は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、図２０に示すように、誤り修正手段１６２は、マウスの右クリックキー等によって、コンテキストメニュー３１８を表示する。
コンテキストメニュー３１８には、機能（コピー等）とショートカットキー（Ｃｔｒｌ＋Ｃ等）とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段１６２は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段１６２は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。

【0102】

また、ここでは、編集画面制御手段１６１が、編集領域３１７（図９参照）において、音声が認識されない区間に未認識区間記号（“＞”）ＳＣを表示することとした。
しかし、この未認識区間記号は、作業者の操作によって、表示と非表示とを切り替えることとしてもよい。
例えば、初期状態では、未認識区間記号を非表示とし、編集画面制御手段１６１は、図２０に示したコンテキストメニュー３１８で「未認識区間の＞＞＞表示」を選択するか、ショートカットキー（ここでは、Ｃｔｒｌ＋Ｄ）を押下されることで、未認識区間記号を表示する。
また、未認識区間記号を表示した状態で、編集画面制御手段１６１は、コンテキストメニューで「未認識区間の＞＞＞非表示」（不図示）を選択するか、対応するショートカットキーを押下されることで、未認識区間記号を非表示にする。
これによって、編集画面制御手段１６１は、修正端末２ごとに、未認識区間記号の表示と非表示とを切り替えることができる。

【0103】

なお、ここでは、未認識区間記号（“＞”）の表示と非表示とを切り替える例で説明したが、未認識区間であるか否かによって未認識区間の単語列（未認識区間記号を含む）の表示と非表示とを切り替えることとしてもよい。例えば、音声認識情報Ｒｅｃ（図４）において、単語Ｗが未認識区間記号（“＞”）の単語だけでなく、未認識区間記号（“＞”）を含んだ単語列を、表示および非表示の切り替え対象としてもよい。また、未認識区間の単語であるか否かの判定は、未認識区間記号（“＞”）の有無以外に、音声認識情報Ｒｅｃ（図４）に単語ｗに対応付けて認識フラグ（不図示）を設け、その値（例えば、認識単語“１”、未認識単語“０”）によって、未認識区間の単語であるか否かの判定を行ってもよい。この認識フラグの値は、音声認識手段１１および未認識区間分割手段１３によって設定することができる。例えば、音声認識手段１１は、認識した単語については、認識単語を示す値（例えば、“１”）を認識フラグに設定し、未認識区間分割手段１３は、未認識区間記号に対応する単語については、未認識単語を示す値（例えば、“０”）を認識フラグに設定すればよい。

【0104】

また、ここでは、音声認識誤り修正支援装置１，１Ｂが、複数の修正端末２によって、音声認識の誤りを修正することとした。
しかし、この修正端末２は、１台であってもよい。その場合、音声認識誤り修正支援装置１，１Ｂは、編集手段１６を１つ備える構成とすればよい。

【0105】

また、ここでは、音声認識誤り修正支援装置１，１Ｂに、未認識区間分割手段１３を備える構成とした。
しかし、未認識区間分割手段１３は、音声認識手段１１を有する音声認識装置に備えることとしてもよい。
例えば、図２１に示すように、音声を認識する音声認識装置３を、音声認識手段１１と未認識区間分割手段１３とを備える構成とし、音声認識誤り修正支援装置１，１Ｂの音声認識手段１１と置き換えればよい。なお、音声認識手段１１および未認識区間分割手段１３は、図２で説明した音声認識誤り修正支援装置１と同じ構成であるため、説明を省略する。

【符号の説明】

【0106】

１，１Ｂ音声認識誤り修正支援装置
１０コンテンツ入力手段
１１音声認識手段（音声認識装置）
１２セグメント分割手段
１３未認識区間分割手段
１４セグメント内情報抽出手段
１５コンテンツ情報記憶手段（記憶手段）
１６編集手段
１６０編集対象選択手段
１６１編集画面制御手段
１６２誤り修正手段
１６３映像／音声再生手段（音声出力手段）
１６４修正結果出力手段
１７情報削除手段
１８認識結果入力手段
２修正端末
３音声認識装置

【図1】