特許第6949075号(P6949075)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許6949075音声認識誤り修正支援装置およびそのプログラム
<>
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000005
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000006
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000007
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000008
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000009
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000010
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000011
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000012
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000013
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000014
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000015
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000016
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000017
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000018
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000019
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000020
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000021
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000022
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000023
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000024
  • 特許6949075-音声認識誤り修正支援装置およびそのプログラム 図000025
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6949075
(24)【登録日】2021年9月24日
(45)【発行日】2021年10月13日
(54)【発明の名称】音声認識誤り修正支援装置およびそのプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20210930BHJP
【FI】
   G10L15/22 470Z
   G10L15/22 460Z
【請求項の数】9
【全頁数】23
(21)【出願番号】特願2019-81066(P2019-81066)
(22)【出願日】2019年4月22日
(65)【公開番号】特開2019-197210(P2019-197210A)
(43)【公開日】2019年11月14日
【審査請求日】2021年4月7日
(31)【優先権主張番号】特願2018-89633(P2018-89633)
(32)【優先日】2018年5月8日
(33)【優先権主張国】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】三島 剛
(72)【発明者】
【氏名】佐藤 庄衛
(72)【発明者】
【氏名】一木 麻乃
(72)【発明者】
【氏名】伊藤 均
(72)【発明者】
【氏名】所澤 愛子
【審査官】 中村 天真
(56)【参考文献】
【文献】 特開2015−184564(JP,A)
【文献】 特開2004−226910(JP,A)
【文献】 特開2014−146066(JP,A)
【文献】 国際公開第2010/146869(WO,A1)
【文献】 特開2000−089786(JP,A)
【文献】 特開2014−134640(JP,A)
【文献】 特開2006−330170(JP,A)
【文献】 特開2011−076540(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−25/93
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末を介して修正する音声認識誤り修正支援装置であって、
テキストデータである前記音声の認識結果を発話内容の切り替わりごとのセグメントに分割する認識結果分割手段と、
前記セグメントと前記認識結果を構成する単語ごとの時間情報とを記憶する記憶手段と、
前記修正端末が接続されるたびに前記修正端末に対するプロセスとして複製され、記修正端末を介して修正内容を取得し、音声認識の誤りを修正する編集手段と、を備え、
前記編集手段は、
項目情報とともに前記セグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、前記ボタンの選択により、編集画面を表示して前記セグメントの単語列を展開するか、前記編集画面を非表示とするかの制御を行う編集画面制御手段と、
前記編集画面上で指定されたテキスト内における単語の前記時間情報に基づいて、対応する音声を、前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容を用いて、前記記憶手段に記憶されている前記認識結果を後書き優先で更新するとともに、前記認識結果が後書きされた旨の更新通知を他の編集手段に通知して前記修正端末に対応する前記修正内容を反映させる誤り修正手段と、
を備えることを特徴とする音声認識誤り修正支援装置。
【請求項2】
前記誤り修正手段は、修正を行っていないテキストと異なる色属性で、前記修正内容を表示することを特徴とする請求項1に記載の音声認識誤り修正支援装置。
【請求項3】
前記編集手段は、対象となるコンテンツを1以上選択する修正対象選択画面を前記修正端末に表示する修正対象選択手段をさらに備え、
前記編集画面制御手段は、前記修正対象選択手段で選択された1以上の修正対象の前記認識結果を含んだ編集画面を前記修正端末に表示することを特徴とする請求項1または請求項2に記載の音声認識誤り修正支援装置。
【請求項4】
前記編集手段は、前記修正端末からの修正結果の取得指示に対して、前記修正対象選択手段で選択された修正対象の修正結果を前記修正端末に出力する修正結果出力手段をさらに備えることを特徴とする請求項に記載の音声認識誤り修正支援装置。
【請求項5】
前記修正結果出力手段は、前記編集画面上で選択された文字列から、前記文字列をテキストとするQRコード(登録商標)を生成し、前記修正端末に表示することを特徴とする請求項に記載の音声認識誤り修正支援装置。
【請求項6】
前記時間情報は、前記コンテンツに付加されているタイムコードの情報であることを特徴とする請求項1から請求項5のいずれか一項に記載の音声認識誤り修正支援装置。
【請求項7】
前記編集画面制御手段は、対象となるコンテンツの認識結果に対応付けて、前記認識結果の先頭単語の時間情報を前記修正端末に表示することを特徴とする請求項1から請求項6のいずれか一項に記載の音声認識誤り修正支援装置。
【請求項8】
前記編集画面制御手段は、前記音声出力手段が出力する音声の再生時間に対応して、前記修正端末に表示する時間情報を更新することを特徴とする請求項7に記載の音声認識誤り修正支援装置。
【請求項9】
コンピュータを、請求項1から請求項8のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置およびそのプログラムに関する。
【背景技術】
【0002】
番組取材等で収録した音声素材(映像・音声素材を含む)の音声を文字として利用する場合、音声の書き起こし作業が必須の作業となっている。通常、この作業は、作業者が、収録した素材の音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であっても素材の収録時間に対して約6倍の作業時間がかかるとも言われている。
【0003】
従来の音声の書き起こし作業を支援する技術として、ライブストリーミングのコンテンツをリアルタイムに音声認識し、不特定多数の複数のユーザが音声認識結果中の誤りに対して正しい文字列を入力する技術が開示されている(特許文献1参照)。
また、書き起こし作業を支援する技術として、入力された音声を任意の単位に区切った文(セル)ごとに音声認識処理を施し、作業者が、音声認識処理された認識結果と、これに対応する音声とを比較し、音声認識処理の誤りを修正する技術が開示されている(特許文献2参照)。この技術は、音声認識処理においてセル単位で音声を再生し、作業者がセル単位で認識結果を修正し、セルの修正を一般的なテキストエディタの操作で行う。また、この技術では、作業者は、セルの修正後、セルの先頭から音声を再生して、認識結果を正しく修正したか否かを確認する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013−29684号公報
【特許文献2】特開2015−184564号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1で開示されている技術は、書き起こしの対象がライブストリーミングのコンテンツであるため、過去に遡ってコンテンツの内容を確認することができない。そのため、この技術は、音声認識誤りが多い場合、発話内容が不明瞭で何度も聞き直す必要がある場合等、誤りが残存してしまうという問題がある。
特許文献2で開示されている技術は、セル単位で音声の再生および認識結果の修正を行うため、修正箇所が少なくても、修正箇所の音声と修正結果が合致するか否かを確認するために、セルの先頭から音声を再生する必要がある。そのため、この技術は、セルの途中にある修正対象箇所の音声が再生されるまで、待ち時間が発生してしまうという問題があった。
【0006】
そこで、本発明は、単語単位で音声の再生を可能とし、音声認識の完了済みまたは音声認識中のコンテンツであっても、複数の修正端末での待ち時間を抑えて、迅速に音声認識の誤りを修正することが可能な音声認識誤り修正支援装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末を介して修正する音声認識誤り修正支援装置であって、認識結果分割手段と、記憶手段と、複数の編集手段と、を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。
【0008】
かかる構成において、音声認識誤り修正支援装置は、認識結果分割手段によって、テキストデータである音声の認識結果を発話内容の切り替わりごとのセグメントに分割する。
また、音声認識誤り修正支援装置は、セグメントと認識結果を構成する単語ごとの時間情報とを記憶手段に記憶する。
そして、音声認識誤り修正支援装置は、修正端末が接続されるたびに修正端末に対するプロセスとして複製される編集手段によって、修正端末を介して修正内容を取得し、音声認識の誤りを修正する。
【0009】
ここで、編集手段は、編集画面制御手段によって、項目情報とともにセグメントに含まれる単語列を表示するか否かを指定するボタンを表示し、ボタンの選択により、編集画面を表示してセグメントの単語列を展開するか、編集画面を非表示とするかの制御を行う。
また、編集手段は、編集画面上で指定されたテキスト内における単語の時間情報に基づいて、対応する音声を修正端末に出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容を用いて、記憶手段に記憶されている認識結果を後書き優先(上書き)で更新するとともに、認識結果が後書きされた旨の更新通知を他の編集手段に通知して修正端末に対応する修正内容を反映させる。これによって、作業者は、他の修正端末で修正された修正箇所を認識することが可能になる。
【0010】
た、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【発明の効果】
【0011】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、素材コンテンツを音声認識した認識結果を、修正端末の編集画面上に表示し、任意の単語位置で音声を再生して認識結果を把握することができるとともに、複数の修正端末で修正内容を共有して認識誤りを修正することができる。
また、本発明によれば、複数の修正端末による修正を後書き優先で行うことで、修正端末間で排他制御を行うことなく、修正端末の待ち時間を減らすことができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態に係る音声認識誤り修正システムの構成を示すブロック構成図である。
図2】本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。
図3】素材情報記憶手段が記憶する記憶内容を説明するための説明図である。
図4】音声認識情報の内容を説明するための説明図である。
図5】セグメント情報の内容を説明するための説明図である。
図6】素材コンテンツを選択する画面の例を示す図であって、(a)は選択画面例、(b)はリストボックス例、(c)は現時間設定ボタンを押下された際の選択画面例を示す。
図7】素材コンテンツを選択する際の開始時刻および終了時刻を説明するための説明図である。
図8】素材コンテンツの音声認識結果を分割した項目の一覧を示す項目一覧画面の一例を示す画面構成図である。
図9】項目一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。
図10】異なる修正端末での編集画面を示し、同じ対象を修正している状態を説明するための説明図である。
図11】編集領域における編集作業の一例を説明するための説明図である。
図12】修正結果出力手段が生成する修正結果の一例を説明するための説明図である。
図13】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。
図14】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で修正端末に提示するセグメント情報提示動作を示すフローチャートである。
図15】本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。
図16】本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。
図17】項目一覧画面で編集領域に時間情報を表示した例を示す画面構成図である。
図18】タイムコードの有無による表示時間の違いを説明するための説明図である。
図19】項目一覧画面の一例を示す画面構成図であって、(a)はタイムコードがない例、(b)はタイムコードがある場合の例を示す。
図20】コンテキストメニューを表示した項目一覧画面の一例を示す画面構成図である。
図21】選択文字列を2次元コードで符号化して表示する例を示す画面構成図であって、(a)は2次元コードを表示した画面、(b)は符号化された文字列の内容を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正システムの概要]
最初に、図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1を含んだ音声認識誤り修正システムSの概要について説明する。
【0014】
音声認識誤り修正システムSは、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。
音声認識誤り修正システムSは、音声認識誤り修正支援装置1と、複数の修正端末2(2,…,2)と、を備える。
【0015】
音声認識誤り修正支援装置1は、素材コンテンツを入力し、当該素材コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末2を介して修正するものである。
この音声認識誤り修正支援装置1は、素材コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末2において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置1は、複数の修正端末2による修正を逐次反映し、複数の修正端末2で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。
【0016】
修正端末2は、音声認識誤り修正支援装置1が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末2は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置1と修正端末2とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置1は、同じ素材コンテンツに対して、排他制御を行わずに、複数の修正端末2により音声認識の誤りを修正する。
【0017】
これによって、音声認識誤り修正システムSは、音声認識中の素材コンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末2によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置1の構成および動作について説明する。
【0018】
[音声認識誤り修正支援装置の構成]
まず、図2を参照して、音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、図2に示すように、素材コンテンツ入力手段10と、音声認識手段11と、認識結果分割手段12と、項目情報抽出手段13と、素材情報記憶手段14と、編集手段15(15,…,15)と、情報削除手段16と、を備える。
【0019】
素材コンテンツ入力手段10は、素材コンテンツを入力するものである。
素材コンテンツ入力手段10は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段10は、入力した素材コンテンツのうち、音声については、音声認識手段11に出力する。また、素材コンテンツ入力手段10は、入力した素材コンテンツ(映像・音声)を、後記する編集手段15における修正作業に使用するため、素材情報記憶手段14に書き込み記憶する。
【0020】
音声認識手段11は、素材コンテンツ入力手段10が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを、順次、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
なお、音声認識手段11における音声認識の手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
【0021】
認識結果分割手段12は、音声認識手段11で認識された認識結果(単語列)を、予め定めた基準で分割するものである。以下、認識結果分割手段12で生成された分割認識結果のそれぞれのかたまり(単語列)をセグメントとよぶ。
認識結果分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段12は、音声認識手段11から取得する音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。
【0022】
また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。
【0023】
また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、認識結果分割手段12は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。
【0024】
認識結果分割手段12は、音声認識結果を分割したセグメントを、項目情報抽出手段13に出力する。また、認識結果分割手段12は、セグメントごとに、単語とその時間情報とを素材情報記憶手段14に書き込み記憶する。
【0025】
項目情報抽出手段13は、認識結果分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段13は、TF−IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF−IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段13は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
【0026】
【数1】
【0027】
この式(1)で、nw,sは、ある単語wのセグメントs内での出現回数、Σt∈st,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段13は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
【0028】
【数2】
【0029】
この式(2)で、Nは、素材コンテンツ内の全セグメント数、df(w)は、ある単語wが出現する素材コンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、項目情報抽出手段13は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
【0030】
【数3】
【0031】
項目情報抽出手段13は、抽出した項目を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
なお、項目情報抽出手段13は、TF−IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
【0032】
また、項目情報抽出手段13は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段13は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段13は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
【0033】
素材情報記憶手段(記憶手段)14は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0034】
ここで、図3図5を参照(適宜図2参照)して、素材情報記憶手段14が記憶する素材情報について具体的に説明する。
図3に示すように、素材情報記憶手段14は、音声認識誤りを修正する対象となる素材コンテンツ(映像・音声)Conを記憶する。素材コンテンツ(映像・音声)Conは、素材コンテンツ入力手段10によって、記憶されたものである。
【0035】
また、図3に示すように、素材情報記憶手段14は、素材コンテンツConごとに、音声認識情報Recとセグメント情報Segとを対応付けて記憶する。なお、素材コンテンツConには、当該素材コンテンツConの識別情報(ID等)および時間情報を付加(不図示)しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置1に入力された時間(入力開始時間(年月日時分等))等である。
【0036】
音声認識情報Recは、音声認識手段11で認識され、対応付けられた単語および時間情報である。
例えば、図4に示すように、音声認識情報Recは、素材コンテンツを識別する識別情報(素材コンテンツ識別情報)に対応付けて、単語wごとに、時間情報tと修正フラグfとを対応付ける。ここで、修正フラグfは、修正端末2によって修正が加えられたか否かを示す情報である(例えば、修正あり“1”、修正なし“0”)。
【0037】
セグメント情報Segは、音声認識情報Recを、認識結果分割手段12でセグメントに分割した内容を示す情報である。
例えば、図5に示すように、セグメント情報Segは、素材コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報(番号等)ごとに、開始時間tsと、終了時間teと、項目kと、サムネイル画像gとを対応付ける。
ここで、開始時間tsおよび終了時間teは、セグメントの時間区間を示す。項目kは、項目情報抽出手段13が抽出した特徴単語である。サムネイル画像gは、項目情報抽出手段13が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
【0038】
なお、図3の例では、素材コンテンツCon3については、音声認識がすべて終了しておらず、セグメント情報Segが確定していない状態を示している。
また、ここでは、素材コンテンツConと、音声認識情報Recおよびセグメント情報Segとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0039】
編集手段15は、外部に接続された修正端末2を用いて、作業者が、素材情報記憶手段14に記憶されている音声認識結果を修正するものである。この編集手段15は、複数の修正端末2ごとに複数存在する。なお、編集手段15は、修正端末2に対する1つのプロセスとして動作し、修正端末2が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段15は、図2に示すように、修正対象選択手段150と、編集画面制御手段151と、誤り修正手段152と、映像/音声再生手段153と、修正結果出力手段154と、を備える。
【0040】
修正対象選択手段150は、音声認識誤りを修正する対象の素材コンテンツを選択するものである。修正対象選択手段150は、修正端末2に修正対象の素材コンテンツを選択する画面を表示し、修正端末2からの選択を受け付ける。
ここで、図6を参照して、素材コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段150は、図6(a)に示すような選択画面30を表示する。
【0041】
選択画面30は、時間区間を特定することで、修正対象となる素材コンテンツを特定する画面である。選択画面30は、時間設定領域301と、現時間設定ボタン302と、修正開始ボタン303と、を備える。
【0042】
時間設定領域301は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域301は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域301は、例えば、図6(b)に示すように、ボタン301aを押下されることで、候補となるリストをスクロールバー301b付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となる素材コンテンツが特定される。
【0043】
現時間設定ボタン302は、現在の時刻から現在入力中(あるいは、それ以降)の素材コンテンツを修正対象とするための設定ボタンである。
例えば、図6(c)に示すように、現時間設定ボタン302を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中(あるいは、それ以降)の素材コンテンツを修正対象とする。
修正開始ボタン303は、開始時刻および終了時刻を設定した後、修正対象となる素材コンテンツの修正を開始するためのボタンである。
【0044】
ここで、図7を参照して、修正対象選択手段150で選択された開始時刻および終了時刻で特定される素材コンテンツの時間区間について説明する。
図7は、本日のn日(予め定めた日数)前から本日までの時間を時系列で示したものである。
【0045】
時間区間T1は、本日から2日前のある時刻を開始時刻とし、本日から1日前のある時刻を終了時刻としたときの例である。なお、時間区間T1は、開始時刻については、設定された時刻よりも予め定めた時間bt(例えば、数十秒〜数分)だけ早い時刻とする。これによって、修正端末2の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。
【0046】
時間区間T2は、素材情報記憶手段14に記憶されている素材コンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間T2は、設定された時刻よりも予め定めた時間btだけ早い時間の素材コンテンツが存在しない場合、開示時刻を、最も古い素材コンテンツに対応する時刻とする。
【0047】
時間区間T3は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間T3も、設定された時刻よりも予め定めた時間btだけ早い時刻を開始時刻とする。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
修正対象選択手段150は、設定された素材コンテンツのファイル名等の識別情報を、編集画面制御手段151に出力する。
【0048】
編集画面制御手段151は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。
【0049】
ここで、図8および図9を参照(適宜図2参照)して、編集画面制御手段151が表示する画面例について、その制御内容とともに説明する。
図8に示すように、編集画面制御手段151は、編集画面制御手段151が表示する修正端末2の画面上に表示する。
【0050】
項目一覧画面31は、選択ボタン311と、項目表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、修正結果取得ボタン316と、で構成される。
【0051】
選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄312は、セグメント内で抽出された項目を表示する領域である。編集画面制御手段151は、素材情報記憶手段14から、当該セグメントに対応する項目(図5の項目k)を読み出して、項目表示欄312に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段151は、項目表示欄312を空欄とする。
【0052】
サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段151は、素材情報記憶手段14から、当該セグメントに対応するサムネイル画像(図5のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭フレームをサムネイル画像として表示する。
【0053】
タイムテーブル表示欄314は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段151は、素材情報記憶手段14のセグメントの時間情報(図5の開始時間tsおよび終了時間te)を参照して、タイムテーブルを生成し表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭の単語と最後の単語の時間情報t(図4参照)を参照する。
スクロールバー表示欄315は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段151は、スクロールバーの上下によって、画面上の項目一覧を更新する。
【0054】
修正結果取得ボタン316は、修正対象選択手段150で選択した修正対象の素材コンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン316を押下された場合、編集画面制御手段151は、修正対象選択手段150で選択された修正対象の素材コンテンツの識別情報(素材コンテンツ識別情報)を修正結果出力手段154に出力する。
このように、項目一覧画面31を表示することで、作業者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
【0055】
この項目一覧画面31において、作業者が行う修正端末2のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン(図8中、「open」)311の押下により、編集画面制御手段151は、項目一覧画面31において、セグメントの単語列の修正を行う編集領域317(図9参照)を表示する。
【0056】
図9は、編集領域317を表示した項目一覧画面31Bを示す画面例である。
この項目一覧画面31Bは、図8で説明した項目一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域317とが表示される。
【0057】
動画表示領域313Bは、セグメントに対応する素材コンテンツを再生する領域である。編集画面制御手段151は、当該セグメントが選択されたタイミングで、素材情報記憶手段14のセグメントの時間情報(図5の開始時間tsおよび終了時間te)を参照して、対応する素材コンテンツの映像区間の先頭フレームを動画表示領域313Bに表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭の単語の時間情報t(図4参照)を参照して、対応する素材コンテンツの先頭フレームを動画表示領域313Bに表示する。
この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、編集画面制御手段151は、映像/音声再生手段153に当該素材コンテンツの再生を指示する。
【0058】
編集領域317は、セグメントに対応する単語列を表示し、修正を行う編集領域である。編集画面制御手段151は、編集領域317に、素材情報記憶手段14に記憶されている当該セグメントに対応する単語列を展開する。
【0059】
なお、編集画面制御手段151は、編集領域317表示している場合、音声認識情報Rec(図3参照)の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段151は、編集領域317を拡大していく。これによって、音声認識誤り修正支援装置1は、リアルタイムに素材コンテンツの音声認識に対する誤りを修正することができる。
編集領域317の編集は、後記する誤り修正手段152によって行われる。なお、編集領域317において任意の単語をマウス等でクリックされることで、編集画面制御手段151は、クリックされた単語の時間に対応する素材コンテンツの再生を映像/音声再生手段153に指示する。
また、編集画面制御手段151は、選択ボタン(図9中、「close」)311の押下により、編集領域317を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、図8の項目一覧画面31に表示を戻す。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0060】
誤り修正手段152は、修正端末2の作業者の編集操作により、編集領域317(図9)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段152は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。
また、誤り修正手段152は、修正内容を、他の修正端末2に対応する編集手段15(別プロセスで起動した編集手段)に対して通知することで、他の修正端末2の編集領域317に反映させる。逆に、他の編集手段15から修正内容を通知された場合、誤り修正手段152は、自身の修正端末2の編集領域317に修正内容を反映させる。
【0061】
この誤り修正手段152は、修正が行われた場合、音声認識情報Rec(図4)の単語を上書きして修正するとともに、修正フラグfをセットする。この誤り修正手段152は、他の編集手段15の誤り修正手段152が同じ修正対象に対して修正を行う場合でも、上書き(後書き優先)で更新することで、複雑な排他制御を行わないこととする。
そして、誤り修正手段152は、他の編集手段15に対して修正を行ったことを通知することで、対応する誤り修正手段152が、音声認識情報Rec(図4)を参照して、修正内容を反映させる。あるいは、誤り修正手段152は、変更前の単語と変更後の単語とを通知することとしてもよい。
このとき、誤り修正手段152は、修正が行われた単語を修正が行われていない単語とは異なる色属性(例えば、赤色)で表示する。
これによって、誤り修正手段152は、他の修正端末2で修正された内容を作業者に視認させることができる。
【0062】
例えば、図10に示すように、編集領域317において、同じ修正対象を異なる修正端末2,2で修正が行われるとする。
この場合、図10(a)に示すように、修正端末2の作業者は、編集領域317において「京」を「今日」に修正する。また、図10(b)に示すように、修正端末2の作業者は、編集領域317において「ハタ」を「肌」に修正する。
そして、修正端末2,2に対応するそれぞれの誤り修正手段152が、それぞれの修正内容を通知しあうことで、他の修正内容を反映させる。
これによって、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
【0063】
また、誤り修正手段152は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段152は、編集領域317(図9)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段152は、音声の再生を停止する。
【0064】
図11は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図11の編集領域317において、マウスクリック等で「3月」が選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントに含まれる単語の時間情報(図4の時間情報t)を参照して、対応する素材セグメントの位置から音声を再生するように、映像/音声再生手段153に指示する。なお、このとき、音声に連動して、動画表示領域313Bにおいて、音声再生の時間に対応する映像を再生することとしてもよい。
【0065】
そして、誤り修正手段152は、図11に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段152は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0066】
映像/音声再生手段153は、素材コンテンツの映像および音声を修正端末2に出力するものである。この映像/音声再生手段153は、編集画面制御手段151または誤り修正手段152により指定された位置に基づいて、素材情報記憶手段14から映像/音声を読み出して、修正端末2に出力する
【0067】
修正結果出力手段154は、誤り修正手段152で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この修正結果出力手段154は、編集画面制御手段151から出力される修正対象の素材コンテンツに対する修正後の音声認識結果を、素材情報記憶手段14から読み出して、対応する修正端末2に出力する。
【0068】
例えば、修正結果出力手段154は、図12に示すように、タイトルTと、時間情報・項目Kと、修正結果Wとを含んだテキストデータを生成する。なお、時間情報・項目Kと、修正結果Wとは、セグメントの数だけ複数存在する。
【0069】
タイトルTには、例えば、修正日を記載する。
時間情報・項目Kには、例えば、セグメントの開始時間tsと、当該セグメントに対応付けられた項目k(図5参照)を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段154は、時間情報には、先頭単語の時間情報t(図4参照)を記載し、項目を空欄とする。
【0070】
修正結果Wには、例えば、セグメントに対応する修正後の単語w列(図4参照)を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段154は、現在入力中の素材コンテンツに対応する音声認識情報の現時点までの単語w列(図4参照)を記載する。
【0071】
この修正結果出力手段154は、修正後の音声認識結果を、テキストデータとして、修正端末2に出力することとしてもよいし、音声認識情報に修正フラグf(図4参照)が設定されている単語については、色情報を付加した予め定めたフォーマット、例えば、PDF(Portable Document Format)等のデータとして出力することとしてもよい。
【0072】
情報削除手段16は、素材情報記憶手段14に記憶されている情報を定期的に削除するものである。例えば、情報削除手段16は、予め保存日数等が設定され、当該日数を超過した情報(素材コンテンツCon、音声認識情報Rec、セグメント情報Seg(図3参照))を削除する。
【0073】
以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、複数の修正端末2によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置1は、ある修正端末2で行った修正を他の修正端末2に通知することができるため、複数の修正端末2で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力される素材コンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0074】
[音声認識誤り修正支援装置の動作]
次に、図13図15を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末2に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
【0075】
(セグメント情報生成動作)
まず、図13を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
【0076】
ステップS1において、素材コンテンツ入力手段10は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段10は、入力した素材コンテンツを素材情報記憶手段14に書き込み記憶する。
ステップS2において、音声認識手段11は、ステップS1で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
【0077】
ステップS3において、認識結果分割手段12は、ステップS2で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。
【0078】
ステップS4において、項目情報抽出手段13は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段13は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
ここで、素材コンテンツの入力が完了していない場合(ステップS5でNo)、音声認識誤り修正支援装置1は、ステップS1に戻って、素材コンテンツの入力を続ける。
一方、素材コンテンツの入力が完了した場合(ステップS5でYes)、音声認識誤り修正支援装置1は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置1は、図3に示すように、素材情報記憶手段14に、素材コンテンツと、音声認識情報およびセグメント情報とを対応付ける。
【0079】
(セグメント情報提示動作)
次に、図14を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末2との接続が開始された後の編集手段15の動作である。
【0080】
ステップS10において、修正対象選択手段150は、素材情報記憶手段14に記憶されている音声認識誤りを修正する対象の素材コンテンツを選択する選択画面30(図6参照)を修正端末2に表示する。
ステップS11において、修正対象選択手段150は、画面上で、修正対象の素材コンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する(ステップS11でNo)。そして、修正開始ボタンが押下された場合(ステップS11でYes)、修正対象選択手段150は、ステップS12以降の制御を行う編集画面制御手段151に制御を移す。
【0081】
ステップS12において、編集画面制御手段151は、素材情報記憶手段14に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面31(図8参照)を修正端末2に表示する。
【0082】
ステップS13において、編集画面制御手段151は、項目一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、編集画面制御手段151は、図9に示すように、選択されたセグメントに対応して編集領域317を表示し、素材情報記憶手段14に記憶されている当該セグメントに対応する認識結果である単語列を編集領域317に展開する。
【0083】
この動作以降、編集手段15は、作業者が修正端末2の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域317を表示した場合、編集画面制御手段151は、任意のタイミングで、選択ボタン(close)の押下により編集領域317を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面31B(図9参照)の動画表示領域313Bにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
【0084】
(セグメント修正動作)
次に、図15を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
【0085】
ステップS20において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域317(図9)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。
【0086】
ステップS21において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、音声が再生中であれば、修正端末2への出力を停止する。これによって、音声の再生が停止される。
【0087】
ステップS22において、誤り修正手段152は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段152は、素材情報記憶手段14の単語を修正結果で更新する。
ステップS23において、誤り修正手段152は、他の編集手段15に修正内容を通知することで、他の編集手段15の誤り修正手段152が、対応する修正端末2に表示する内容を反映する。
【0088】
ステップS24において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。
【0089】
なお、図示を省略しているが、ステップS24における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS22に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
【0090】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段13は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段153は、音声のみを出力する音声出力手段とすればよい。
【0091】
また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了した素材コンテンツと、現在音声認識中の素材コンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中の素材コンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置1は、認識結果分割手段12、項目情報抽出手段13および修正対象選択手段150を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段150は、素材コンテンツを記憶した日時を基準として、修正対象の素材コンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、素材コンテンツが、放送素材として、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、素材コンテンツを選択することとしてもよい。あるいは、素材コンテンツに当該素材を収録した際のイベント情報が付加されている場合、イベントを指定して、素材コンテンツを選択することとしてもよい。
【0092】
また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、図16に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(図2)の音声認識手段11を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段19が単語および時間情報を対応付けて素材情報記憶手段14に記憶するとともに、認識結果分割手段12に通知することとすればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0093】
また、編集画面制御手段151は、項目一覧画面31,31B(図8図9参照)で表示する各項目に対応付けて時間情報を表示することとしてもよい。
例えば、図17に示すように、編集画面制御手段151は、項目ごとに、時間情報318,318Bを表示する。これによって、複数表示されている項目の中から、参照したい時間の項目に対して容易にアクセスすることができる。
このとき、編集画面制御手段151は、選択ボタンが「open」の項目については、素材コンテンツの先頭単語の時間情報である開始時間ts(図5参照)を、固定的に時間情報318として表示する。また、編集画面制御手段151は、選択ボタンが「close」の項目については、素材コンテンツの開始時間から映像/音声再生手段153(音声出力手段)が出力する音声の再生時間に対応する時間を、可変的に時間情報318Bとして表示する。
【0094】
また、ここでは、時間情報として音声認識誤り修正支援装置1に入力された時間を用いたが、図17に示すような時間情報を表示する場合、素材コンテンツに付加されているタイムコードを用いてもよい。
その場合、素材コンテンツ入力手段10は、素材情報記憶手段14の先頭の項目の開始時間ts(図5参照)に、「00:00:00:00」を設定する。そして、素材コンテンツにタイムコードがタグ情報として付加されている場合、例えば、XDCAM(登録商標)等の動画フォーマットの素材コンテンツの場合、素材コンテンツ入力手段10は、タイムコードを素材コンテンツごとに素材情報記憶手段14に記憶する。
【0095】
そして、編集画面制御手段151は、図18に示すように、タイムコードが付加されている素材コンテンツについては、タイムコードが付加されていない時間情報を基準として、タイムコード分の時間を加算する。なお、図18では、タイムコードのうち、「時:分:秒」のみを表示している。
【0096】
例えば、編集画面制御手段151は、タイムコードが付加されていない素材コンテンツについては、図19(a)に示すように、タイムテーブル表示欄314に素材コンテンツの先頭開始時間314aを表示するとともに、各項目に時間情報318を表示する。
また、編集画面制御手段151は、タイムコードが付加されている素材コンテンツについては、図19(b)に示すように、タイムテーブル表示欄314に素材コンテンツの先頭開始時間とタイムコードの時間とを加算した時間を先頭開始時間314aとして表示するとともに、各項目の時間情報318についてもそれぞれの項目の時間情報にタイムコードの時間を加算して表示する。
これによって、発話内容とタイムコードとの対応を明確にすることができる。
【0097】
また、誤り修正手段152は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、図20に示すように、誤り修正手段152は、マウスの右クリックキー等によって、コンテキストメニュー319を表示する。
コンテキストメニュー319には、機能(コピー等)とショートカットキー(Ctrl+C等)とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段152は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段152は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。
【0098】
また、ここでは、修正結果出力手段154が、修正後の音声認識結果を修正端末2に出力することとした。
しかし、修正結果出力手段154は、修正時において、任意の文字列を他のデバイスに表示可能な形態で出力することとしてもよい。
例えば、編集画面制御手段151は、編集領域317(図9参照)を編集中に、マウスにより、2次元コード(例えば、QRコード〔登録商標〕)で出力したい文字列を選択し、修正結果出力手段154に2次元コードで文字列を出力することを指示する。
【0099】
この場合、編集画面制御手段151は、文字列を選択し、図20に示したコンテキストメニュー319で「選択文字列のQR表示」を選択するか、ショートカットキー(ここでは、Ctrl+Q)を押下されることで、選択文字列を修正結果出力手段154に出力する。なお、このとき、編集画面制御手段151は、選択文字列とともに、選択文字列の先頭の単語に対応する時間情報も修正結果出力手段154に出力する。
【0100】
そして、修正結果出力手段154は、図21(a)に示すように、時間情報と選択文字列とをテキストとするQRコードを生成し、例えば、モーダルウインドウ320としてQRコードを表示する。なお、編集画面制御手段151は、モーダルウインドウ320の任意の場所をマウスでクリックされるまで、モーダルウインドウ320を表示し、クリック後、モーダルウインドウ320を非表示とする。
これによって、QRコードを読み込み可能な機器(スマートフォン、タブレット等)はQR読み込み機能によってQRコードを読み込み復号することで、選択文字列を表示することができる。
例えば、スマートフォンの画面には、図21(b)に示すように、選択文字列と、先頭単語(ここでは、「東北」)に対応する時間情報とが表示される。
これによって、修正結果出力手段154は、音声認識結果(書き起こし結果)を、ネットワークに接続されていない機器に伝達することができる。
【符号の説明】
【0101】
1,1B 音声認識誤り修正支援装置
10 素材コンテンツ入力手段
11 音声認識手段
12 認識結果分割手段
13 項目情報抽出手段
14 素材情報記憶手段(記憶手段)
15 編集手段
150 編集対象選択手段
151 編集画面制御手段
152 誤り修正手段
153 映像/音声再生手段(音声出力手段)
154 修正結果出力手段
19 認識結果入力手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21