【文献】
荒井 孝,”字幕放送 ニュース字幕用音声認識システムの整備”,放送技術 第65巻 第12号,西村 瓊江 兼六館出版株式会社,2012年11月29日,第65巻,139〜142
(58)【調査した分野】(Int.Cl.,DB名)
前記誤り修正手段は、前記コンテンツの音声再生中に前記編集領域の任意の単語位置を指定されることで、前記音声再生手段における音声の再生を停止することを特徴とする請求項1から請求項3のいずれか一項に記載の音声認識誤り修正支援装置。
前記誤り修正手段は、前記編集領域で指定された単語または指定区間の単語列の前記時間情報に対応する前記コンテンツの音声を、前記音声再生手段により、繰り返して再生することを特徴とする請求項1から請求項6のいずれか一項に記載の音声認識誤り修正支援装置。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正支援装置の構成]
最初に、
図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りの修正を支援するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。
【0018】
音声認識誤り修正支援装置1は、
図1に示すように、素材コンテンツ入力手段10と、音声認識手段11と、認識結果分割手段12と、項目情報抽出手段13と、素材情報記憶手段14と、編集手段15と、書き起こし結果出力手段16と、を備える。
【0019】
素材コンテンツ入力手段10は、素材コンテンツを入力するものである。
素材コンテンツ入力手段10は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段10は、入力した素材コンテンツのうち、音声については、音声認識手段11に出力する。また、素材コンテンツ入力手段10は、入力した素材コンテンツ(映像・音声)を、後記する編集手段15における修正作業に使用するため、素材情報記憶手段14に書き込み記憶する。
【0020】
なお、素材コンテンツ入力手段10は、素材情報記憶手段14に素材コンテンツを書き込んだ後、音声認識手段11に対して、素材コンテンツの書き込み完了を通知し、音声認識手段11が素材情報記憶手段14から音声を読み出すこととしてもよい。
【0021】
音声認識手段11は、素材コンテンツ入力手段10が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを認識結果分割手段12に出力する。なお、音声認識手段11における音声認識の手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
【0022】
認識結果分割手段12は、音声認識手段11で認識された認識結果(単語列)を、予め定めた基準で分割するものである。以下、認識結果分割手段12で生成された分割認識結果のそれぞれのかたまりをセグメントとよぶ。
認識結果分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている音声から音響特徴量であるパワー等によって無音区間を検出し、音声認識手段11による認識結果を、無音区間の前後で分割する。
【0023】
また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。
【0024】
また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、認識結果分割手段12は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。
【0025】
認識結果分割手段12は、音声認識結果を分割したセグメントを、項目情報抽出手段13に出力する。また、認識結果分割手段12は、セグメントごとに、単語とその時間情報とを素材情報記憶手段14に書き込み記憶する。
【0026】
項目情報抽出手段13は、認識結果分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段13は、TF−IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF−IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段13は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
【0028】
この式(1)で、n
w,sは、ある単語wのセグメントs内での出現回数、Σ
t∈sn
t,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段13は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
【0030】
この式(2)で、Nは、素材コンテンツ内の全セグメント数、df(w)は、ある単語wが出現する素材コンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、項目情報抽出手段13は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
【0032】
項目情報抽出手段13は、抽出した項目を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
なお、項目情報抽出手段13は、TF−IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
【0033】
また、項目情報抽出手段13は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段13は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段13は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
【0034】
素材情報記憶手段(記憶手段)14は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0035】
ここで、
図2を参照(適宜
図1参照)して、素材情報記憶手段14が記憶する素材情報について具体的に説明する。
図2に示すように、素材情報記憶手段14は、音声認識誤りを修正する対象となる素材コンテンツ(映像・音声)A,B…を記憶する。この素材コンテンツ(映像・音声)A,B…は、素材コンテンツ入力手段10によって、記憶されたものである。
【0036】
また、
図2に示すように、素材情報記憶手段14は、素材コンテンツごとに、音声認識結果をセグメントに分割した情報を記憶する。
図2の例では、素材コンテンツの識別情報(ここでは、ファイル名A,B,…)ごとに、セグメント(識別情報a1,a2,…,b1,…)を対応付けている。
各セグメントは、単語wと時間情報tとを複数含み、それぞれは対応付けられている。
このセグメントごとの単語wおよび時間情報tは、音声認識手段11で対応付けられた単語および時間情報を、認識結果分割手段12が分割した情報である。
【0037】
また、各セグメントは、項目kとサムネイル画像gとを含む。項目kは、項目情報抽出手段13が抽出した特徴単語である。サムネイル画像gは、項目情報抽出手段13が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
なお、ここでは、素材コンテンツと、素材コンテンツの音声認識結果を分割したセグメントとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0038】
編集手段15は、外部に接続された修正端末(入力装置2、表示装置3、スピーカ4)を用いて、操作者が、素材情報記憶手段14に記憶されている音声認識結果を修正するものである。なお、修正端末の表示装置3は、タッチパネルを備える構成としてもよい。
編集手段15は、
図1に示すように、素材コンテンツ選択手段150と、認識結果表示制御手段151と、誤り修正手段152と、映像/音声再生手段153と、を備える。
【0039】
素材コンテンツ選択手段150は、修正対象となる素材コンテンツを選択するものである。例えば、素材コンテンツ選択手段150は、
図3に示すように、素材情報記憶手段14に記憶されている素材コンテンツA,B,Cのいずれかを選択するための選択ボタン301を含んだ素材コンテンツ選択画面30を表示装置3に表示する。そして、素材コンテンツ選択手段150は、素材コンテンツ選択画面30上の選択ボタン301の押下により、修正対象となる素材コンテンツを選択する。素材コンテンツ選択手段150は、選択された素材コンテンツのファイル名等の識別情報を、認識結果表示制御手段151に出力する。
【0040】
認識結果表示制御手段151は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。
【0041】
ここで、
図4および
図5を参照(適宜
図1参照)して、認識結果表示制御手段151が表示する画面例について、その制御内容とともに説明する。
図4に示すように、認識結果表示制御手段151は、項目一覧画面31を表示装置3の画面上に表示する。
項目一覧画面31は、選択ボタン311と、項目表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、で構成される。
【0042】
選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄312は、セグメント内で抽出された項目を表示する領域である。認識結果表示制御手段151は、素材情報記憶手段14から、当該セグメントに対応する項目(
図2の項目k)を読み出して、項目表示欄312に表示する。
サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。認識結果表示制御手段151は、素材情報記憶手段14から、当該セグメントに対応するサムネイル画像(
図2のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。
【0043】
タイムテーブル表示欄314は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。認識結果表示制御手段151は、素材情報記憶手段14のセグメントの時間情報(
図2の時間情報t)を参照して、タイムテーブルを生成し表示する。
スクロールバー表示欄315は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。認識結果表示制御手段151は、スクロールバーの上下によって、画面上の項目一覧を更新する。
このように、項目一覧画面31を表示することで、操作者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
【0044】
この項目一覧画面31において、操作者が行う入力装置2のマウスのクリック、あるいは、表示装置3のタッチパネルへのタッチによる選択ボタン(
図4中、「open」)311の押下により、認識結果表示制御手段151は、項目一覧画面31において、セグメントの単語列の修正を行う編集領域316(
図5参照)を表示する。
【0045】
図5は、編集領域316を表示した項目一覧画面31Bを示す画面例である。
この項目一覧画面31Bは、
図4で説明した項目一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域316とが表示される。
【0046】
動画表示領域313Bは、セグメントに対応する素材コンテンツを再生する領域である。認識結果表示制御手段151は、当該セグメントが選択されたタイミングで、素材情報記憶手段14のセグメントの時間情報(
図2の時間情報t)を参照して、対応する素材コンテンツの映像の先頭フレームを動画表示領域313Bに表示する。この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、認識結果表示制御手段151は、映像/音声再生手段153に当該素材コンテンツの再生を指示する。
【0047】
編集領域316は、セグメントに対応する単語列を表示し、編集対象となる領域である。認識結果表示制御手段151は、編集領域316に、素材情報記憶手段14に記憶されている当該セグメントに対応する単語列(
図2の単語wの列)を展開する。
なお、このとき、認識結果表示制御手段151は、選択ボタン311を、編集領域316を非表示とするボタン(
図4中、「close」)とする。そして、選択ボタン(
図4中、「close」)311の押下により、認識結果表示制御手段151は、編集領域316を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、
図4の項目一覧画面31に表示を戻す。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0048】
誤り修正手段152は、操作者の編集操作により、編集領域316(
図5)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段152は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。ただし、誤り修正手段152は、単語列を修正する際に、音声を再生する機能を有する。
【0049】
具体的には、誤り修正手段152は、編集領域316(
図5)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段152は、音声の再生を停止する。
【0050】
図6は、編集領域における編集作業の一例を説明するための説明図である。
例えば、
図6の編集領域316において、「3月」が選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントの時間情報(
図2の時間情報t)を参照して、対応する素材セグメントの位置から音声を再生するように、映像/音声再生手段153に指示する。なお、このとき、音声に連動して、動画表示領域313B(
図5)において、音声再生の時間に対応する映像を再生することとしてもよい。
ここで、操作者が、誤り(ここでは、「ハタ寒い」)を発見して修正箇所をマウスでクリック等することで、誤り修正手段152は、音声再生を停止してカーソルCを表示する。そして、誤り修正手段152は、操作者の編集操作により、誤りである「ハタ寒い」を「肌寒い」と修正する。そして、誤り修正手段152は、素材情報記憶手段14に記憶されている誤りのあった単語を、修正後の単語に置き換える。これによって、音声認識誤り修正支援装置1は、操作者による修正後の保存操作を省略することができる。
【0051】
また、誤り修正手段152は、マウスクリック等で指定された単語位置から音声を再生する。
図7は、音声再生に連動して編集領域の単語の表示属性を変更する例を説明するための説明図である。例えば、
図7に示すように、編集領域316において、音声の再生を開始したい箇所をマウス等で選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントの時間情報(
図2の時間情報t)を参照し、選択した単語から再生停止の指示があるまで音声を再生するように、映像/音声再生手段153に指示する。
そして、誤り修正手段152は、
図7に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段152は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
【0052】
このとき、誤り修正手段152は、操作者が行った操作のフィードバック情報を画面上に提示する。例えば、
図8に示すように、誤り修正手段152は、選択された単語位置に音声の再生開始を示すポップアップメッセージpop1を表示し、音声が停止した単語位置に音声の再生終了を示すポップアップメッセージpop2を表示する。これによって、操作者が不慣れであっても、自身の操作内容を把握することができ、安心して操作を行うことができる。
【0053】
また、誤り修正手段152は、指定された単語または単語列に対応する音声を繰り返し再生することもできる。
例えば、
図9に示すように、編集領域316において、音声を再生したい単語または単語列をマウス等で選択(図中、白黒反転領域)することで、誤り修正手段152は、ポップアップメニューpmを表示し、「繰り返し再生」を選択されることで、対応する単語または単語列の音声を繰り返し再生する。
図1に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0054】
映像/音声再生手段153は、素材コンテンツの映像および音声を再生するものである。この映像/音声再生手段153は、認識結果表示制御手段151または誤り修正手段152から指定された位置から、素材コンテンツ(映像・音声)を再生する。
【0055】
書き起こし結果出力手段16は、編集手段15で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この書き起こし結果出力手段16は、素材コンテンツのファイル名、または、素材コンテンツ内のセグメントの識別番号を指定されることで、素材情報記憶手段14に記憶されている該当する素材コンテンツまたはセグメントの単語列を読み出して出力する。
【0056】
以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。また、音声認識誤り修正支援装置1は、素材コンテンツに対して、セグメント単位で部分的に誤り修正を行うことができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0057】
[音声認識誤り修正支援装置の動作]
次に、
図10〜
図12を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で表示装置3に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
【0058】
(セグメント情報生成動作)
まず、
図10を参照(適宜
図1参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
ステップS1において、素材コンテンツ入力手段10は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段10は、入力した素材コンテンツを素材情報記憶手段14に書き込み記憶する。
【0059】
ステップS2において、音声認識手段11は、ステップS1で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて生成する。
【0060】
ステップS3において、認識結果分割手段12は、ステップS2で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。このとき、認識結果分割手段12は、セグメント単位で、認識結果の単語と時間情報とを対応付けて、素材コンテンツを素材情報記憶手段14に書き込み記憶する。
【0061】
ステップS4において、項目情報抽出手段13は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段13は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
以上の動作によって、音声認識誤り修正支援装置1は、
図2に示すように、素材情報記憶手段14に、素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶する。
【0062】
(セグメント情報提示動作)
次に、
図11を参照(適宜
図1参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。
ステップS10において、素材コンテンツ選択手段150は、素材情報記憶手段14に記憶されている素材コンテンツのいずれかを選択するための選択ボタンを含んだ素材コンテンツ選択画面30(
図3参照)を表示装置3に表示する。
【0063】
ステップS11において、素材コンテンツ選択手段150は、画面上で選択ボタンが押下されるまで待機し(ステップS11でNo)、選択ボタンが押下された場合(ステップS11でYes)、ステップS12以降の制御を行う認識結果表示制御手段151に制御を移す。
【0064】
ステップS12において、認識結果表示制御手段151は、素材情報記憶手段14に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面31(
図4参照)を表示装置3に表示する。
【0065】
ステップS13において、認識結果表示制御手段151は、項目一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、認識結果表示制御手段151は、
図5に示すように、選択されたセグメントに対応して編集領域316を表示し、素材情報記憶手段14に記憶されている当該セグメントに対応する認識結果である単語列を編集領域316に展開する。
【0066】
この動作以降、音声認識誤り修正支援装置1は、操作者が画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域316を表示した場合、認識結果表示制御手段151は、任意のタイミングで、選択ボタン(close)の押下により編集領域316を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面31B(
図5参照)の動画表示領域313Bにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
【0067】
(セグメント修正動作)
次に、
図12を参照(適宜
図1参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、操作者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
【0068】
ステップS20において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域316(
図5)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、音声と音声認識された単語列とを対比して確認することができる。
【0069】
ステップS21において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、音声が単語列の末尾まで再生されていない、あるいは、繰り返し再生中で、音声が再生中であれば、音声の再生を停止する。
【0070】
ステップS22において、誤り修正手段152は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の操作者の編集作業により、認識誤りを修正する。ここで、誤り修正手段152は、素材情報記憶手段14の単語を修正結果で更新する。
【0071】
ステップS23において、誤り修正手段152は、操作者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を再生する。これによって、操作者は、修正結果が正しいか否かを確認することができる。
【0072】
なお、図示を省略しているが、ステップS23における操作者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS21に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、音声認識の誤りを修正する際に、修正対象箇所の音声を素早く再生し、簡易な操作で音声認識の誤り修正することができる。
【0073】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段13は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段153は、音声のみを再生する音声再生手段とすればよい。
【0074】
また、ここでは、音声認識誤り修正支援装置1に、直接、修正端末(入力装置2、表示装置3、スピーカ4)を接続する構成としたが、これらは、ネットワークを介して接続する形態であっても構わない。
【0075】
また、音声認識誤り修正支援装置1は、修正端末を複数備える構成であっても構わない。その場合、認識結果表示制御手段151は、ある修正端末が修正を行っているセグメントについて、他の修正端末が修正対象として選択しないように排他制御し、例えば、他の修正端末において、選択ボタンを表示しないようにする。
【0076】
また、音声認識誤り修正支援装置1の編集手段15は、認識結果を修正するサーバとして、画面制御を行うユーザインタフェースを提供し、ネットワークを介して接続された複数の修正端末が、当該ユーザインタフェースを介して動作するクライアントとして機能させることとしてもよい。これによって、ネットワークを介して、複数の地点で、音声認識の誤りを修正することができる。
【0077】
また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、
図13に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(
図1)の音声認識手段11を音声認識装置として外部に備える。この場合、認識結果分割手段12は、音声認識手段11から出力される音声の認識結果と当該認識結果を構成する単語ごとの時間情報とを、入力インタフェースである認識結果入力手段17を介して入力すればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。