(58)【調査した分野】(Int.Cl.,DB名)
前記編集手段は、前記修正端末からの修正結果の取得指示に対して、前記修正対象選択手段で選択された修正対象の修正結果を前記修正端末に出力する修正結果出力手段をさらに備えることを特徴とする請求項3に記載の音声認識誤り修正支援装置。
前記修正結果出力手段は、前記編集画面上で選択された文字列から、前記文字列をテキストとするQRコード(登録商標)を生成し、前記修正端末に表示することを特徴とする請求項4に記載の音声認識誤り修正支援装置。
前記編集画面制御手段は、前記音声出力手段が出力する音声の再生時間に対応して、前記修正端末に表示する時間情報を更新することを特徴とする請求項7に記載の音声認識誤り修正支援装置。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正システムの概要]
最初に、
図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1を含んだ音声認識誤り修正システムSの概要について説明する。
【0014】
音声認識誤り修正システムSは、少なくとも音声を含んだ素材コンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、素材コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材とする。
音声認識誤り修正システムSは、音声認識誤り修正支援装置1と、複数の修正端末2(2,…,2)と、を備える。
【0015】
音声認識誤り修正支援装置1は、素材コンテンツを入力し、当該素材コンテンツに含まれる音声に対する音声認識の誤りを複数の修正端末2を介して修正するものである。
この音声認識誤り修正支援装置1は、素材コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末2において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置1は、複数の修正端末2による修正を逐次反映し、複数の修正端末2で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。
【0016】
修正端末2は、音声認識誤り修正支援装置1が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末2は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置1と修正端末2とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置1は、同じ素材コンテンツに対して、排他制御を行わずに、複数の修正端末2により音声認識の誤りを修正する。
【0017】
これによって、音声認識誤り修正システムSは、音声認識中の素材コンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末2によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置1の構成および動作について説明する。
【0018】
[音声認識誤り修正支援装置の構成]
まず、
図2を参照して、音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、
図2に示すように、素材コンテンツ入力手段10と、音声認識手段11と、認識結果分割手段12と、項目情報抽出手段13と、素材情報記憶手段14と、編集手段15(15,…,15)と、情報削除手段16と、を備える。
【0019】
素材コンテンツ入力手段10は、素材コンテンツを入力するものである。
素材コンテンツ入力手段10は、例えば、外部の記憶媒体から素材コンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
この素材コンテンツ入力手段10は、入力した素材コンテンツのうち、音声については、音声認識手段11に出力する。また、素材コンテンツ入力手段10は、入力した素材コンテンツ(映像・音声)を、後記する編集手段15における修正作業に使用するため、素材情報記憶手段14に書き込み記憶する。
【0020】
音声認識手段11は、素材コンテンツ入力手段10が入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の先頭からの経過時間を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを、順次、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
なお、音声認識手段11における音声認識の手法は、例えば、特開2010−175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
【0021】
認識結果分割手段12は、音声認識手段11で認識された認識結果(単語列)を、予め定めた基準で分割するものである。以下、認識結果分割手段12で生成された分割認識結果のそれぞれのかたまり(単語列)をセグメントとよぶ。
認識結果分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。
例えば、分割の基準として、音声の無音区間を用いることができる。この場合、認識結果分割手段12は、音声認識手段11から取得する音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。
【0022】
また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、認識結果分割手段12は、素材情報記憶手段14に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。
【0023】
また、例えば、分割の基準として、素材コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、認識結果分割手段12は、位置情報によって、素材コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。
【0024】
認識結果分割手段12は、音声認識結果を分割したセグメントを、項目情報抽出手段13に出力する。また、認識結果分割手段12は、セグメントごとに、単語とその時間情報とを素材情報記憶手段14に書き込み記憶する。
【0025】
項目情報抽出手段13は、認識結果分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を項目として抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、項目情報抽出手段13は、TF−IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF−IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
具体的には、項目情報抽出手段13は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
【0027】
この式(1)で、n
w,sは、ある単語wのセグメントs内での出現回数、Σ
t∈sn
t,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、項目情報抽出手段13は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
【0029】
この式(2)で、Nは、素材コンテンツ内の全セグメント数、df(w)は、ある単語wが出現する素材コンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、項目情報抽出手段13は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
【0031】
項目情報抽出手段13は、抽出した項目を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
なお、項目情報抽出手段13は、TF−IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
【0032】
また、項目情報抽出手段13は、素材コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、項目情報抽出手段13は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。項目情報抽出手段13は、抽出したサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
【0033】
素材情報記憶手段(記憶手段)14は、音声認識の誤りを修正する対象となる素材コンテンツと、素材コンテンツをセグメントに分割した各種情報とを記憶するものである。この素材情報記憶手段14は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0034】
ここで、
図3〜
図5を参照(適宜
図2参照)して、素材情報記憶手段14が記憶する素材情報について具体的に説明する。
図3に示すように、素材情報記憶手段14は、音声認識誤りを修正する対象となる素材コンテンツ(映像・音声)Conを記憶する。素材コンテンツ(映像・音声)Conは、素材コンテンツ入力手段10によって、記憶されたものである。
【0035】
また、
図3に示すように、素材情報記憶手段14は、素材コンテンツConごとに、音声認識情報Recとセグメント情報Segとを対応付けて記憶する。なお、素材コンテンツConには、当該素材コンテンツConの識別情報(ID等)および時間情報を付加(不図示)しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置1に入力された時間(入力開始時間(年月日時分等))等である。
【0036】
音声認識情報Recは、音声認識手段11で認識され、対応付けられた単語および時間情報である。
例えば、
図4に示すように、音声認識情報Recは、素材コンテンツを識別する識別情報(素材コンテンツ識別情報)に対応付けて、単語wごとに、時間情報tと修正フラグfとを対応付ける。ここで、修正フラグfは、修正端末2によって修正が加えられたか否かを示す情報である(例えば、修正あり“1”、修正なし“0”)。
【0037】
セグメント情報Segは、音声認識情報Recを、認識結果分割手段12でセグメントに分割した内容を示す情報である。
例えば、
図5に示すように、セグメント情報Segは、素材コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報(番号等)ごとに、開始時間tsと、終了時間teと、項目kと、サムネイル画像gとを対応付ける。
ここで、開始時間tsおよび終了時間teは、セグメントの時間区間を示す。項目kは、項目情報抽出手段13が抽出した特徴単語である。サムネイル画像gは、項目情報抽出手段13が当該セグメントの先頭の時間情報に対応した、素材コンテンツの映像から抽出したフレーム画像である。
【0038】
なお、
図3の例では、素材コンテンツCon3については、音声認識がすべて終了しておらず、セグメント情報Segが確定していない状態を示している。
また、ここでは、素材コンテンツConと、音声認識情報Recおよびセグメント情報Segとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0039】
編集手段15は、外部に接続された修正端末2を用いて、作業者が、素材情報記憶手段14に記憶されている音声認識結果を修正するものである。この編集手段15は、複数の修正端末2ごとに複数存在する。なお、編集手段15は、修正端末2に対する1つのプロセスとして動作し、修正端末2が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段15は、
図2に示すように、修正対象選択手段150と、編集画面制御手段151と、誤り修正手段152と、映像/音声再生手段153と、修正結果出力手段154と、を備える。
【0040】
修正対象選択手段150は、音声認識誤りを修正する対象の素材コンテンツを選択するものである。修正対象選択手段150は、修正端末2に修正対象の素材コンテンツを選択する画面を表示し、修正端末2からの選択を受け付ける。
ここで、
図6を参照して、素材コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段150は、
図6(a)に示すような選択画面30を表示する。
【0041】
選択画面30は、時間区間を特定することで、修正対象となる素材コンテンツを特定する画面である。選択画面30は、時間設定領域301と、現時間設定ボタン302と、修正開始ボタン303と、を備える。
【0042】
時間設定領域301は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域301は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域301は、例えば、
図6(b)に示すように、ボタン301aを押下されることで、候補となるリストをスクロールバー301b付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となる素材コンテンツが特定される。
【0043】
現時間設定ボタン302は、現在の時刻から現在入力中(あるいは、それ以降)の素材コンテンツを修正対象とするための設定ボタンである。
例えば、
図6(c)に示すように、現時間設定ボタン302を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中(あるいは、それ以降)の素材コンテンツを修正対象とする。
修正開始ボタン303は、開始時刻および終了時刻を設定した後、修正対象となる素材コンテンツの修正を開始するためのボタンである。
【0044】
ここで、
図7を参照して、修正対象選択手段150で選択された開始時刻および終了時刻で特定される素材コンテンツの時間区間について説明する。
図7は、本日のn日(予め定めた日数)前から本日までの時間を時系列で示したものである。
【0045】
時間区間T1は、本日から2日前のある時刻を開始時刻とし、本日から1日前のある時刻を終了時刻としたときの例である。なお、時間区間T1は、開始時刻については、設定された時刻よりも予め定めた時間bt(例えば、数十秒〜数分)だけ早い時刻とする。これによって、修正端末2の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。
【0046】
時間区間T2は、素材情報記憶手段14に記憶されている素材コンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間T2は、設定された時刻よりも予め定めた時間btだけ早い時間の素材コンテンツが存在しない場合、開示時刻を、最も古い素材コンテンツに対応する時刻とする。
【0047】
時間区間T3は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間T3も、設定された時刻よりも予め定めた時間btだけ早い時刻を開始時刻とする。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
修正対象選択手段150は、設定された素材コンテンツのファイル名等の識別情報を、編集画面制御手段151に出力する。
【0048】
編集画面制御手段151は、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御するものである。
【0049】
ここで、
図8および
図9を参照(適宜
図2参照)して、編集画面制御手段151が表示する画面例について、その制御内容とともに説明する。
図8に示すように、編集画面制御手段151は、編集画面制御手段151が表示する修正端末2の画面上に表示する。
【0050】
項目一覧画面31は、選択ボタン311と、項目表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、修正結果取得ボタン316と、で構成される。
【0051】
選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
項目表示欄312は、セグメント内で抽出された項目を表示する領域である。編集画面制御手段151は、素材情報記憶手段14から、当該セグメントに対応する項目(
図5の項目k)を読み出して、項目表示欄312に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段151は、項目表示欄312を空欄とする。
【0052】
サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段151は、素材情報記憶手段14から、当該セグメントに対応するサムネイル画像(
図5のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭フレームをサムネイル画像として表示する。
【0053】
タイムテーブル表示欄314は、素材コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段151は、素材情報記憶手段14のセグメントの時間情報(
図5の開始時間tsおよび終了時間te)を参照して、タイムテーブルを生成し表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭の単語と最後の単語の時間情報t(
図4参照)を参照する。
スクロールバー表示欄315は、項目一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段151は、スクロールバーの上下によって、画面上の項目一覧を更新する。
【0054】
修正結果取得ボタン316は、修正対象選択手段150で選択した修正対象の素材コンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン316を押下された場合、編集画面制御手段151は、修正対象選択手段150で選択された修正対象の素材コンテンツの識別情報(素材コンテンツ識別情報)を修正結果出力手段154に出力する。
このように、項目一覧画面31を表示することで、作業者は、項目を確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
【0055】
この項目一覧画面31において、作業者が行う修正端末2のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン(
図8中、「open」)311の押下により、編集画面制御手段151は、項目一覧画面31において、セグメントの単語列の修正を行う編集領域317(
図9参照)を表示する。
【0056】
図9は、編集領域317を表示した項目一覧画面31Bを示す画面例である。
この項目一覧画面31Bは、
図8で説明した項目一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域317とが表示される。
【0057】
動画表示領域313Bは、セグメントに対応する素材コンテンツを再生する領域である。編集画面制御手段151は、当該セグメントが選択されたタイミングで、素材情報記憶手段14のセグメントの時間情報(
図5の開始時間tsおよび終了時間te)を参照して、対応する素材コンテンツの映像区間の先頭フレームを動画表示領域313Bに表示する。なお、素材コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段151は、対応する素材コンテンツの先頭の単語の時間情報t(
図4参照)を参照して、対応する素材コンテンツの先頭フレームを動画表示領域313Bに表示する。
この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、編集画面制御手段151は、映像/音声再生手段153に当該素材コンテンツの再生を指示する。
【0058】
編集領域317は、セグメントに対応する単語列を表示し、修正を行う編
集領域である。編集画面制御手段151は、編集領域317に、素材情報記憶手段14に記憶されている当該セグメントに対応する単語列を展開する。
【0059】
なお、編集画面制御手段151は、編集領域317
を表示している場合、音声認識情報Rec(
図3参照)の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段151は、編集領域317を拡大していく。これによって、音声認識誤り修正支援装置1は、リアルタイムに素材コンテンツの音声認識に対する誤りを修正することができる。
編集領域317の編集は、後記する誤り修正手段152によって行われる。なお、編集領域317において任意の単語をマウス等でクリックされることで、編集画面制御手段151は、クリックされた単語の時間に対応する素材コンテンツの再生を映像/音声再生手段153に指示する。
また、編集画面制御手段151は、選択ボタン(
図9中、「close」)311の押下により、編集領域317を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、
図8の項目一覧画面31に表示を戻す。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0060】
誤り修正手段152は、修正端末2の作業者の編集操作により、編集領域317(
図9)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段152は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。
また、誤り修正手段152は、修正内容を、他の修正端末2に対応する編集手段15(別プロセスで起動した編集手段)に対して通知することで、他の修正端末2の編集領域317に反映させる。逆に、他の編集手段15から修正内容を通知された場合、誤り修正手段152は、自身の修正端末2の編集領域317に修正内容を反映させる。
【0061】
この誤り修正手段152は、修正が行われた場合、音声認識情報Rec(
図4)の単語を上書きして修正するとともに、修正フラグfをセットする。この誤り修正手段152は、他の編集手段15の誤り修正手段152が同じ修正対象に対して修正を行う場合でも、上書き(後書き優先)で更新することで、複雑な排他制御を行わないこととする。
そして、誤り修正手段152は、他の編集手段15に対して修正を行ったことを通知することで、対応する誤り修正手段152が、音声認識情報Rec(
図4)を参照して、修正内容を反映させる。あるいは、誤り修正手段152は、変更前の単語と変更後の単語とを通知することとしてもよい。
このとき、誤り修正手段152は、修正が行われた単語を修正が行われていない単語とは異なる色属性(例えば、赤色)で表示する。
これによって、誤り修正手段152は、他の修正端末2で修正された内容を作業者に視認させることができる。
【0062】
例えば、
図10に示すように、編集領域317において、同じ修正対象を異なる修正端末2
1,2
2で修正が行われるとする。
この場合、
図10(a)に示すように、修正端末2
1の作業者は、編集領域317において「京」を「今日」に修正する。また、
図10(b)に示すように、修正端末2
2の作業者は、編集領域317において「ハタ」を「肌」に修正する。
そして、修正端末2
1,2
2に対応するそれぞれの誤り修正手段152が、それぞれの修正内容を通知しあうことで、他の修正内容を反映させる。
これによって、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
【0063】
また、誤り修正手段152は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段152は、編集領域317(
図9)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段152は、音声の再生を停止する。
【0064】
図11は、編集領域における編集作業の一例を説明するための説明図である。
例えば、
図11の編集領域317において、マウスクリック等で「3月」が選択された場合、誤り修正手段152は、素材情報記憶手段14のセグメントに含まれる単語の時間情報(
図4の時間情報t)を参照して、対応する素材セグメントの位置から音声を再生するように、映像/音声再生手段153に指示する。なお、このとき、音声に連動して、動画表示領域313Bにおいて、音声再生の時間に対応する映像を再生することとしてもよい。
【0065】
そして、誤り修正手段152は、
図11に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段152は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0066】
映像/音声再生手段153は、素材コンテンツの映像および音声を修正端末2に出力するものである。この映像/音声再生手段153は、編集画面制御手段151または誤り修正手段152により指定された位置に基づいて、素材情報記憶手段14から映像/音声を読み出して、修正端末2に出力する
【0067】
修正結果出力手段154は、誤り修正手段152で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この修正結果出力手段154は、編集画面制御手段151から出力される修正対象の素材コンテンツに対する修正後の音声認識結果を、素材情報記憶手段14から読み出して、対応する修正端末2に出力する。
【0068】
例えば、修正結果出力手段154は、
図12に示すように、タイトルTと、時間情報・項目Kと、修正結果Wとを含んだテキストデータを生成する。なお、時間情報・項目Kと、修正結果Wとは、セグメントの数だけ複数存在する。
【0069】
タイトルTには、例えば、修正日を記載する。
時間情報・項目Kには、例えば、セグメントの開始時間tsと、当該セグメントに対応付けられた項目k(
図5参照)を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段154は、時間情報には、先頭単語の時間情報t(
図4参照)を記載し、項目を空欄とする。
【0070】
修正結果Wには、例えば、セグメントに対応する修正後の単語w列(
図4参照)を記載する。なお、現在入力中の素材コンテンツで、セグメント情報が確定していない場合、修正結果出力手段154は、現在入力中の素材コンテンツに対応する音声認識情報の現時点までの単語w列(
図4参照)を記載する。
【0071】
この修正結果出力手段154は、修正後の音声認識結果を、テキストデータとして、修正端末2に出力することとしてもよいし、音声認識情報に修正フラグf(
図4参照)が設定されている単語については、色情報を付加した予め定めたフォーマット、例えば、PDF(Portable Document Format)等のデータとして出力することとしてもよい。
【0072】
情報削除手段16は、素材情報記憶手段14に記憶されている情報を定期的に削除するものである。例えば、情報削除手段16は、予め保存日数等が設定され、当該日数を超過した情報(素材コンテンツCon、音声認識情報Rec、セグメント情報Seg(
図3参照))を削除する。
【0073】
以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、複数の修正端末2によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置1は、ある修正端末2で行った修正を他の修正端末2に通知することができるため、複数の修正端末2で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力される素材コンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0074】
[音声認識誤り修正支援装置の動作]
次に、
図13〜
図15を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、素材コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末2に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
【0075】
(セグメント情報生成動作)
まず、
図13を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
【0076】
ステップS1において、素材コンテンツ入力手段10は、音声認識を行う素材コンテンツを入力する。このとき、素材コンテンツ入力手段10は、入力した素材コンテンツを素材情報記憶手段14に書き込み記憶する。
ステップS2において、音声認識手段11は、ステップS1で入力した素材コンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、認識結果分割手段12に通知するとともに、素材情報記憶手段14に書き込み記憶する。
【0077】
ステップS3において、認識結果分割手段12は、ステップS2で認識された認識結果を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。
【0078】
ステップS4において、項目情報抽出手段13は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を項目として抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、項目情報抽出手段13は、抽出した項目およびサムネイル画像を、セグメントに対応付けて素材情報記憶手段14に書き込み記憶する。
ここで、素材コンテンツの入力が完了していない場合(ステップS5でNo)、音声認識誤り修正支援装置1は、ステップS1に戻って、素材コンテンツの入力を続ける。
一方、素材コンテンツの入力が完了した場合(ステップS5でYes)、音声認識誤り修正支援装置1は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置1は、
図3に示すように、素材情報記憶手段14に、素材コンテンツと、音声認識情報およびセグメント情報とを対応付ける。
【0079】
(セグメント情報提示動作)
次に、
図14を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末2との接続が開始された後の編集手段15の動作である。
【0080】
ステップS10において、修正対象選択手段150は、素材情報記憶手段14に記憶されている音声認識誤りを修正する対象の素材コンテンツを選択する選択画面30(
図6参照)を修正端末2に表示する。
ステップS11において、修正対象選択手段150は、画面上で、修正対象の素材コンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する(ステップS11でNo)。そして、修正開始ボタンが押下された場合(ステップS11でYes)、修正対象選択手段150は、ステップS12以降の制御を行う編集画面制御手段151に制御を移す。
【0081】
ステップS12において、編集画面制御手段151は、素材情報記憶手段14に記憶されている各種の情報に基づいて、セグメントごとに、項目と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだ項目一覧画面31(
図8参照)を修正端末2に表示する。
【0082】
ステップS13において、編集画面制御手段151は、項目一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、編集画面制御手段151は、
図9に示すように、選択されたセグメントに対応して編集領域317を表示し、素材情報記憶手段14に記憶されている当該セグメントに対応する認識結果である単語列を編集領域317に展開する。
【0083】
この動作以降、編集手段15は、作業者が修正端末2の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域317を表示した場合、編集画面制御手段151は、任意のタイミングで、選択ボタン(close)の押下により編集領域317を非表示とすることができるが、この非表示の動作については図示を省略した。また、項目一覧画面31B(
図9参照)の動画表示領域313Bにおける素材コンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、素材コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
【0084】
(セグメント修正動作)
次に、
図15を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
【0085】
ステップS20において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域317(
図9)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。
【0086】
ステップS21において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、音声が再生中であれば、修正端末2への出力を停止する。これによって、音声の再生が停止される。
【0087】
ステップS22において、誤り修正手段152は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段152は、素材情報記憶手段14の単語を修正結果で更新する。
ステップS23において、誤り修正手段152は、他の編集手段15に修正内容を通知することで、他の編集手段15の誤り修正手段152が、対応する修正端末2に表示する内容を反映する。
【0088】
ステップS24において、誤り修正手段152は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段152は、映像/音声再生手段153を介して、素材情報記憶手段14のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。
【0089】
なお、図示を省略しているが、ステップS24における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS22に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
【0090】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、素材コンテンツを、映像および音声を含んだものとして説明したが、音声のみの素材コンテンツであっても構わない。
その場合、項目情報抽出手段13は、項目のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段153は、音声のみを出力する音声出力手段とすればよい。
【0091】
また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了した素材コンテンツと、現在音声認識中の素材コンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中の素材コンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置1は、認識結果分割手段12、項目情報抽出手段13および修正対象選択手段150を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段150は、素材コンテンツを記憶した日時を基準として、修正対象の素材コンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、素材コンテンツが、放送素材として、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、素材コンテンツを選択することとしてもよい。あるいは、素材コンテンツに当該素材を収録した際のイベント情報が付加されている場合、イベントを指定して、素材コンテンツを選択することとしてもよい。
【0092】
また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、
図16に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(
図2)の音声認識手段11を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段19が単語および時間情報を対応付けて素材情報記憶手段14に記憶するとともに、認識結果分割手段12に通知することとすればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0093】
また、編集画面制御手段151は、項目一覧画面31,31B(
図8,
図9参照)で表示する各項目に対応付けて時間情報を表示することとしてもよい。
例えば、
図17に示すように、編集画面制御手段151は、項目ごとに、時間情報318,318Bを表示する。これによって、複数表示されている項目の中から、参照したい時間の項目に対して容易にアクセスすることができる。
このとき、編集画面制御手段151は、選択ボタンが「open」の項目については、素材コンテンツの先頭単語の時間情報である開始時間ts(
図5参照)を、固定的に時間情報318として表示する。また、編集画面制御手段151は、選択ボタンが「close」の項目については、素材コンテンツの開始時間から映像/音声再生手段153(音声出力手段)が出力する音声の再生時間に対応する時間を、可変的に時間情報318Bとして表示する。
【0094】
また、ここでは、時間情報として音声認識誤り修正支援装置1に入力された時間を用いたが、
図17に示すような時間情報を表示する場合、素材コンテンツに付加されているタイムコードを用いてもよい。
その場合、素材コンテンツ入力手段10は、素材情報記憶手段14の先頭の項目の開始時間ts(
図5参照)に、「00:00:00:00」を設定する。そして、素材コンテンツにタイムコードがタグ情報として付加されている場合、例えば、XDCAM(登録商標)等の動画フォーマットの素材コンテンツの場合、素材コンテンツ入力手段10は、タイムコードを素材コンテンツごとに素材情報記憶手段14に記憶する。
【0095】
そして、編集画面制御手段151は、
図18に示すように、タイムコードが付加されている素材コンテンツについては、タイムコードが付加されていない時間情報を基準として、タイムコード分の時間を加算する。なお、
図18では、タイムコードのうち、「時:分:秒」のみを表示している。
【0096】
例えば、編集画面制御手段151は、タイムコードが付加されていない素材コンテンツについては、
図19(a)に示すように、タイムテーブル表示欄314に素材コンテンツの先頭開始時間314aを表示するとともに、各項目に時間情報318を表示する。
また、編集画面制御手段151は、タイムコードが付加されている素材コンテンツについては、
図19(b)に示すように、タイムテーブル表示欄314に素材コンテンツの先頭開始時間とタイムコードの時間とを加算した時間を先頭開始時間314aとして表示するとともに、各項目の時間情報318についてもそれぞれの項目の時間情報にタイムコードの時間を加算して表示する。
これによって、発話内容とタイムコードとの対応を明確にすることができる。
【0097】
また、誤り修正手段152は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、
図20に示すように、誤り修正手段152は、マウスの右クリックキー等によって、コンテキストメニュー319を表示する。
コンテキストメニュー319には、機能(コピー等)とショートカットキー(Ctrl+C等)とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段152は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、
誤り修正手段152は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。
【0098】
また、ここでは、修正結果出力手段154が、修正後の音声認識結果を修正端末2に出力することとした。
しかし、修正結果出力手段154は、修正時において、任意の文字列を他のデバイスに表示可能な形態で出力することとしてもよい。
例えば、編集画面制御手段151は、編集領域317(
図9参照)を編集中に、マウスにより、2次元コード(例えば、QRコード〔登録商標〕)で出力したい文字列を選択し、修正結果出力手段154に2次元コードで文字列を出力することを指示する。
【0099】
この場合、編集画面制御手段151は、文字列を選択し、
図20に示したコンテキストメニュー319で「選択文字列のQR表示」を選択するか、ショートカットキー(ここでは、Ctrl+Q)を押下されることで、選択文字列を修正結果出力手段154に出力する。なお、このとき、編集画面制御手段151は、選択文字列とともに、選択文字列の先頭の単語に対応する時間情報も修正結果出力手段154に出力する。
【0100】
そして、修正結果出力手段154は、
図21(a)に示すように、時間情報と選択文字列とをテキストとするQRコードを生成し、例えば、モーダルウインドウ320としてQRコードを表示する。なお、編集画面制御手段151は、モーダルウインドウ320の任意の場所をマウスでクリックされるまで、モーダルウインドウ320を表示し、クリック後、モーダルウインドウ320を非表示とする。
これによって、QRコードを読み込み可能な機器(スマートフォン、タブレット等)はQR読み込み機能によってQRコードを読み込み復号することで、選択文字列を表示することができる。
例えば、スマートフォンの画面には、
図21(b)に示すように、選択文字列と、先頭単語(ここでは、「東北」)に対応する時間情報とが表示される。
これによって、修正結果出力手段154は、音声認識結果(書き起こし結果)を、ネットワークに接続されていない機器に伝達することができる。