(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-01
(45)【発行日】2024-05-13
(54)【発明の名称】音声認識誤り修正支援装置、プログラムおよび方法
(51)【国際特許分類】
G10L 15/22 20060101AFI20240502BHJP
【FI】
G10L15/22 460Z
G10L15/22 470Z
(21)【出願番号】P 2020039124
(22)【出願日】2020-03-06
【審査請求日】2023-02-15
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】三島 剛
(72)【発明者】
【氏名】佐藤 庄衛
(72)【発明者】
【氏名】小森 智康
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2004-191616(JP,A)
【文献】特開2019-197210(JP,A)
【文献】特開2000-259181(JP,A)
【文献】特開2005-275925(JP,A)
【文献】特開2006-133478(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声認識の誤りを修正する音声認識誤り修正支援装置であって、
編集手段を備え、
前記編集手段は、
音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記単語または前記記号を更新する誤り修正手段と、を備え
、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。
【請求項2】
音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶する記憶手段と、
前記複数の修正端末に対応した複数の編集手段と、を備え、
前記編集手段は、
前記音声認識結果を構成する単語と、前記未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する前記修正端末に表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を対応する前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新する誤り修正手段と、を備え
、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。
【請求項3】
前記未認識区間の記号は、前記未認識区間を予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号であって、当該記号に時間情報が対応付けられていることを特徴とする請求項1または請求項2に記載の音声認識誤り修正支援装置。
【請求項4】
コンピュータを、請求項1から請求項
3のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。
【請求項5】
音声認識の誤りを修正する音声認識誤り修正支援方法であって、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記単語または前記記号を更新するステップと、
を含
み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。
【請求項6】
音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援方法であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶するステ
ップと、
前記複数の修正端末において、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新するステップと、
を含
み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置に関する。
【背景技術】
【0002】
番組取材等で収録した音声コンテンツ(映像と音声のコンテンツを含む)の音声を文字として利用する場合、音声の書き起こし作業が必須の作業となっている。通常、この作業は、作業者が、収録したコンテンツの音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であってもコンテンツの収録時間に対して約4倍の作業時間がかかるとも言われている。
従来の音声の書き起こし作業を支援する技術として、単語単位で音声の再生を可能とし、音声認識の完了済みまたは音声認識中のコンテンツであっても、複数の修正端末での待ち時間を抑えて、迅速に音声認識の誤りを修正することが可能な音声認識誤り修正支援装置の技術が開示されている(特許文献1,2参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-180519号公報
【文献】特開2019-197210号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1,2で開示されている従来技術は、修正端末において、認識結果の単語をマウス等でクリックするだけで、その単語に同期した音声を再生することができる。そのため、従来技術は、指定した単語の音声を素早く再生し、効率よく音声認識の誤りを修正することができる。
一方、この従来技術は、音声のない区間や音声認識が困難で認識結果が出力されない区間(未認識区間)を修正端末の作業者が認識できない。そのため、従来技術は、未認識区間において、音声の再生位置を指定することができない。例えば、作業者が未認識区間の後半部分の音声を確認したくても、従来技術は、未認識区間の直前の単語から音声を再生し、所望の確認位置まで待たなければならない。
このような従来技術に対して、未認識区間であっても、指定した位置の音声を再生して、効率よく修正作業を行いたいという要望がある。
【0005】
そこで、本発明は、音声の未認識区間を視覚化し、未認識区間においても、指定した位置の音声を再生し修正作業を行うことが可能な音声認識誤り修正支援装置、プログラムおよび方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを修正する音声認識誤り修正支援装置であって、編集手段を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。
【0007】
かかる構成において、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。また、作業者は、未認識区間において指定の位置まで音声再生を飛ばして音声を確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、単語または記号を更新する。
【0008】
また、前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、記憶手段と、複数の編集手段と、を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。
【0009】
かかる構成において、音声認識誤り修正支援装置は、音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶する。
【0010】
そして、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する修正端末に表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を対応する修正端末に出力する。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、記憶手段に記憶されている単語または記号を後書き優先で更新する。
また、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る音声認識誤り修正支援方法は、前記した各手段の動作をステップとして含む手順で動作させることができる。
【発明の効果】
【0012】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、コンテンツを音声認識した結果として、音声認識されなかった時間区間を予め定めた記号で可視化することができる。
これによって、本発明は、音声認識されなかった時間区間において、コンテンツの音声の再生位置を指定することができるとともに、音声認識結果に対する修正と同様に、テキスト編集を行うことができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態に係る音声認識誤り修正システムの構成を示すブロック構成図である。
【
図2】本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。
【
図3】コンテンツ情報記憶手段が記憶する記憶内容を説明するための説明図である。
【
図4】音声認識情報の内容を説明するための説明図である。
【
図5】セグメント情報の内容を説明するための説明図である。
【
図6】コンテンツを選択する画面の例を示す図であって、(a)は選択画面例、(b)はリストボックス例、(c)は現時間設定ボタンを押下された際の選択画面例を示す。
【
図7】コンテンツを選択する際の開始時刻および終了時刻を説明するための説明図である。
【
図8】コンテンツの音声認識結果を分割したセグメントの一覧を示すセグメント一覧画面の一例を示す画面構成図である。
【
図9】セグメント一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。
【
図10】異なる修正端末での編集画面を示し、同じ対象を修正している状態を説明するための説明図である。
【
図11】編集領域における音声認識結果に対する編集作業の一例を説明するための説明図である。
【
図12】編集領域における音声の未認識区間に対する音声再生処理の一例を説明するための説明図である。
【
図13】編集領域における音声の未認識区間に対する文字列置換処理の一例を説明するための説明図である。
【
図14】編集領域における音声の未認識区間に対するコメント追加処理の一例を説明するための説明図である。
【
図15】修正結果出力手段が生成する修正結果の一例を説明するための説明図である。
【
図16】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。
【
図17】本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で修正端末に提示するセグメント情報提示動作を示すフローチャートである。
【
図18】本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。
【
図19】本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。
【
図20】コンテキストメニューを表示したセグメント一覧画面の一例を示す画面構成図である。
【
図21】本発明の実施形態に係る音声認識装置の構成を示すブロック構成図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正システムの概要]
最初に、
図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1を含んだ音声認識誤り修正システムSの概要について説明する。
【0015】
音声認識誤り修正システムSは、少なくとも音声を含んだコンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材コンテンツとして説明するが、音声を含むコンテンツであれば、放送用素材コンテンツに限るものではない。
音声認識誤り修正システムSは、音声認識誤り修正支援装置1と、複数の修正端末2(2,…,2)と、を備える。
【0016】
音声認識誤り修正支援装置1は、コンテンツの音声認識の誤りを修正するものである。
この音声認識誤り修正支援装置1は、コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末2において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置1は、複数の修正端末2による修正を逐次反映し、複数の修正端末2で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。
【0017】
修正端末2は、音声認識誤り修正支援装置1が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末2は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置1と修正端末2とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置1は、同じコンテンツに対して、排他制御を行わずに、複数の修正端末2により音声認識の誤りを修正する。
【0018】
これによって、音声認識誤り修正システムSは、音声認識中のコンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末2によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置1の構成および動作について説明する。
【0019】
[音声認識誤り修正支援装置の構成]
まず、
図2を参照して、音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、
図2に示すように、コンテンツ入力手段10と、音声認識手段11と、セグメント分割手段12と、未認識区間分割手段13と、セグメント内情報抽出手段14と、コンテンツ情報記憶手段15と、編集手段16(16,…,16)と、情報削除手段17と、を備える。
【0020】
コンテンツ入力手段10は、コンテンツを入力するものである。
コンテンツ入力手段10は、例えば、外部の記憶媒体からコンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
このコンテンツ入力手段10は、入力したコンテンツのうち、音声については、音声認識手段11に出力する。また、コンテンツ入力手段10は、入力したコンテンツ(映像・音声)を、後記する編集手段16における修正作業に使用するため、コンテンツ情報記憶手段15に書き込み記憶する。
【0021】
音声認識手段11は、コンテンツ入力手段10が入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の開始時間(単語開始時間)および時間長を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを、順次、セグメント分割手段12に通知するとともに、コンテンツ情報記憶手段15に書き込み記憶する。
なお、音声認識手段11における音声認識の手法は、例えば、特開2010-175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
【0022】
セグメント分割手段12は、音声認識手段11で音声認識された単語列を、予め定めた基準で分割するものである。以下、セグメント分割手段12で生成された分割結果のそれぞれのかたまり(単語列)をセグメントとよぶ。
セグメント分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。例えば、分割の基準として、音声の無音区間を用いることができる。この場合、セグメント分割手段12は、音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。
【0023】
また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、セグメント分割手段12は、コンテンツ情報記憶手段15に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。
【0024】
また、例えば、分割の基準として、コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、セグメント分割手段12は、位置情報によって、コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。
【0025】
セグメント分割手段12は、分割したセグメントを、未認識区間分割手段13およびセグメント内情報抽出手段14に出力する。また、セグメント分割手段12は、セグメントごとに、単語とその時間情報とをコンテンツ情報記憶手段15に書き込み記憶する。
【0026】
未認識区間分割手段13は、セグメント分割手段12で分割されたセグメントごとに、認識されなかった音声の未認識区間を、予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号と当該記号に対応する時間情報とを対応付けるものである。
ここで、未認識区間とは、無音、音量が極端に低い音声、音楽等の背景音が過大に重畳されている音声、認識対象ではない外国語等の音声、複数人が同時に発話した音声等で音声認識されなかった区間である。
未認識区間分割手段13は、音声認識手段11で認識された単語と時間情報とに基づいて、認識された単語から次の単語までの経過時間が予め定めた時間以上の区間を未認識区間として、順次分割する。また、未認識区間分割手段13は、セグメントの先頭から、認識された単語までの区間、あるいは、認識された単語の終了時間からセグメントの最後までの区間を、未認識区間として、順次分割する。
【0027】
未認識区間分割手段13は、未認識区間について、予め定めた時間間隔(例えば、2秒)ごとに、分割した未認識区間を示す記号(未認識区間記号)とその開始時間および時間長を時間情報として、認識単語と同様に、コンテンツ情報記憶手段15に書き込み記憶する。
未認識区間記号は、音声認識結果として用いられる文字以外の予め定めた文字であれば何でもよく、例えば、“>”等の記号を用いることができる。
【0028】
セグメント内情報抽出手段14は、セグメント分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、セグメント内情報抽出手段14は、TF-IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF-IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
なお、セグメント内情報抽出手段14は、セグメントに含まれる未認識区間記号については、特徴単語を抽出する演算からは除外する。
具体的には、セグメント内情報抽出手段14は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
【0029】
【0030】
この式(1)で、nw,sは、ある単語w(未認識区間記号は除く;以下同じ)のセグメントs内での出現回数、Σt∈snt,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、セグメント内情報抽出手段14は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
【0031】
【0032】
この式(2)で、Nは、コンテンツ内の全セグメント数、df(w)は、ある単語wが出現するコンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、セグメント内情報抽出手段14は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
【0033】
【0034】
セグメント内情報抽出手段14は、抽出した特徴単語を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。
なお、セグメント内情報抽出手段14は、TF-IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
【0035】
また、セグメント内情報抽出手段14は、コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、セグメント内情報抽出手段14は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。セグメント内情報抽出手段14は、抽出したサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。
【0036】
コンテンツ情報記憶手段(記憶手段)15は、音声認識の誤りを修正する対象となるコンテンツと、コンテンツをセグメントに分割した各種情報とを記憶するものである。このコンテンツ情報記憶手段15は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0037】
ここで、
図3~
図5を参照(適宜
図2参照)して、コンテンツ情報記憶手段15が記憶するコンテンツ情報について具体的に説明する。
図3に示すように、コンテンツ情報記憶手段15は、音声認識誤りを修正する対象となるコンテンツ(映像・音声)Conを記憶する。コンテンツ(映像・音声)Conは、コンテンツ入力手段10によって、記憶されたものである。
【0038】
また、
図3に示すように、コンテンツ情報記憶手段15は、コンテンツConごとに、音声認識情報Recとセグメント情報Segとを対応付けて記憶する。なお、コンテンツConには、当該コンテンツConの識別情報(ID等)および時間情報を付加(不図示)しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置1に入力された時間(入力開始時間(年月日時分等))等である。
【0039】
音声認識情報Recは、音声認識手段11で認識され、対応付けられた単語および時間情報である。なお、音声認識情報Recには、未認識区間分割手段13で分割された未認識区間の記号(未認識区間記号)についても、単語と同様に時間情報を対応付けられている。
例えば、
図4に示すように、音声認識情報Recは、コンテンツを識別する識別情報(コンテンツ識別情報)に対応付けて、単語wごとに、時間情報tと修正フラグfとを対応付ける。ここで、修正フラグfは、修正端末2によって修正が加えられたか否かを示す情報である(例えば、修正あり“1”、修正なし“0”)。
なお、
図4中、単語wの欄の記号“>”は、未認識区間を予め定めた時間(ここでは、2秒)で分割した区間に対応付けた記号(未認識区間記号)を示す。
【0040】
セグメント情報Segは、音声認識情報Recを、セグメント分割手段12でセグメントに分割した内容を示す情報である。
例えば、
図5に示すように、セグメント情報Segは、コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報(番号等)ごとに、開始時間tsと、終了時間teと、特徴単語kと、サムネイル画像gとを対応付ける。
ここで、開始時間tsおよび終了時間teは、セグメントの時間区間を示す。特徴単語kは、セグメント内情報抽出手段14が抽出した単語である。サムネイル画像gは、セグメント内情報抽出手段14が当該セグメントの先頭の時間情報に対応した、コンテンツの映像から抽出したフレーム画像である。
【0041】
なお、
図3の例では、コンテンツCon3については、音声認識がすべて終了しておらず、セグメント情報Segが確定していない状態を示している。
また、ここでは、コンテンツConと、音声認識情報Recおよびセグメント情報Segとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0042】
編集手段16は、外部に接続された修正端末2を用いて、作業者が、コンテンツ情報記憶手段15に記憶されている音声認識結果を修正するものである。この編集手段16は、複数の修正端末2ごとに複数存在する。なお、編集手段16は、修正端末2に対する1つのプロセスとして動作し、修正端末2が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段16は、
図2に示すように、修正対象選択手段160と、編集画面制御手段161と、誤り修正手段162と、映像/音声再生手段163と、修正結果出力手段164と、を備える。
【0043】
修正対象選択手段160は、音声認識誤りを修正する対象のコンテンツを選択するものである。修正対象選択手段160は、修正端末2に修正対象のコンテンツを選択する画面を表示し、修正端末2からの選択を受け付ける。
ここで、
図6を参照して、コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段160は、
図6(a)に示すような選択画面30を表示する。
【0044】
選択画面30は、時間区間を特定することで、修正対象となるコンテンツを特定する画面である。選択画面30は、時間設定領域301と、現時間設定ボタン302と、修正開始ボタン303と、を備える。
【0045】
時間設定領域301は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域301は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域301は、例えば、
図6(b)に示すように、ボタン301aを押下されることで、候補となるリストをスクロールバー301b付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となるコンテンツが特定される。
【0046】
現時間設定ボタン302は、現在の時刻から現在入力中(あるいは、それ以降)のコンテンツを修正対象とするための設定ボタンである。
例えば、
図6(c)に示すように、現時間設定ボタン302を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中(あるいは、それ以降)のコンテンツを修正対象とする。
修正開始ボタン303は、時間設定領域301または現時間設定ボタン302により時刻を設定した後、修正対象となるコンテンツの修正を開始するためのボタンである。
【0047】
ここで、
図7を参照して、修正対象選択手段160で選択された開始時刻および終了時刻で特定されるコンテンツの時間区間について説明する。
図7は、本日のn日(予め定めた日数)前から本日までの時間を時系列で示したものである。
【0048】
時間区間T1は、本日から2日前のある時刻を開始時刻とし、本日から1日前のある時刻を終了時刻としたときの例である。なお、時間区間T1は、開始時刻については、設定された時刻よりも予め定めた時間bt(例えば、数十秒~数分)だけ早い時刻とする。これによって、修正端末2の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。
【0049】
時間区間T2は、コンテンツ情報記憶手段15に記憶されているコンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間T2は、設定された時刻よりも予め定めた時間btだけ早い時間のコンテンツが存在しない場合、開示時刻を、最も古いコンテンツに対応する時刻とする。
【0050】
時間区間T3は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間T3も、設定された時刻よりも予め定めた時間btだけ早い時刻を開始時刻とする。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
修正対象選択手段160は、設定されたコンテンツのファイル名等の識別情報を、編集画面制御手段161に出力する。
【0051】
編集画面制御手段161は、コンテンツの音声の認識結果を構成する単語と未認識区間の予め定めた時間間隔ごとの記号とを含んだ編集画面を修正端末2に表示するものである。ここでは、編集画面制御手段161は、セグメントごとに、特徴単語と当該セグメントに含まれる単語列(単語、未認識区間記号)を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御する。
【0052】
ここで、
図8および
図9を参照(適宜
図2参照)して、編集画面制御手段161が表示する画面例について、その制御内容とともに説明する。
図8に示すように、編集画面制御手段161は、編集画面制御手段161に対応する修正端末2の画面上にセグメント一覧画面31を表示する。
【0053】
セグメント一覧画面31は、選択ボタン311と、特徴単語表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、修正結果取得ボタン316と、で構成される。
【0054】
選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
特徴単語表示欄312は、セグメント内で抽出された特徴単語を表示する領域である。編集画面制御手段161は、コンテンツ情報記憶手段15から、当該セグメントに対応する特徴単語(
図5の特徴単語k)を読み出して、特徴単語表示欄312に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段161は、特徴単語表示欄312を空欄とする。
【0055】
サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段161は、コンテンツ情報記憶手段15から、当該セグメントに対応するサムネイル画像(
図5のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭フレームをサムネイル画像として表示する。
【0056】
タイムテーブル表示欄314は、コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段161は、コンテンツ情報記憶手段15のセグメントの時間情報(
図5の開始時間tsおよび終了時間te)を参照して、タイムテーブルを生成し表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭の単語と最後の単語の時間情報t(
図4参照)を参照する。
スクロールバー表示欄315は、セグメント一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段161は、スクロールバーの上下によって、画面上のセグメント一覧を更新する。
【0057】
修正結果取得ボタン316は、修正対象選択手段160で選択した修正対象のコンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン316を押下された場合、編集画面制御手段161は、修正対象選択手段160で選択された修正対象のコンテンツの識別情報(コンテンツ識別情報)を修正結果出力手段164に出力する。
このように、セグメント一覧画面31を表示することで、作業者は、セグメントを確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
【0058】
このセグメント一覧画面31において、作業者が行う修正端末2のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン(
図8中、「open」)311の押下により、編集画面制御手段161は、セグメント一覧画面31において、セグメントの単語列の修正を行う編集領域317(
図9参照)を表示する。
【0059】
図9は、編集領域317を表示したセグメント一覧画面31Bを示す画面例である。
このセグメント一覧画面31Bには、
図8で説明したセグメント一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域317とが表示される。
【0060】
動画表示領域313Bは、セグメントに対応するコンテンツを再生する領域である。編集画面制御手段161は、当該セグメントが選択されたタイミングで、コンテンツ情報記憶手段15のセグメントの時間情報(
図5の開始時間tsおよび終了時間te)を参照して、対応するコンテンツの映像区間の先頭フレームを動画表示領域313Bに表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭の単語の時間情報t(
図4参照)を参照して、対応するコンテンツの先頭フレームを動画表示領域313Bに表示する。
この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、編集画面制御手段161は、映像/音声再生手段163に当該コンテンツの再生を指示する。
【0061】
編集領域317は、セグメントに対応する単語列を表示し、修正等の編集を行う領域である。編集画面制御手段161は、編集領域317に、コンテンツ情報記憶手段15に記憶されている当該セグメントに対応する単語列を展開する。
このとき、編集画面制御手段161は、セグメントに対応する単語として、認識された単語以外に未認識区間記号(“>”)SCを表示する。
図9の例では、未認識区間記号(“>”)が11個連続している。これは未認識区間が11個に分割されたことを示しているため、予め定めた時間間隔が2秒であれば、音声認識で認識されなかった時間が少なくとも22秒間は続いていることがわかる。これによって、音声認識誤り修正支援装置1は、音声中に、未認識区間が存在することやその未認識区間がどの程度継続しているかを、作業者に認識させることができるとともに、未認識区間を編集対象とすることができる。
【0062】
なお、編集画面制御手段161は、編集領域317を表示している場合、音声認識情報Rec(
図3参照)の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段161は、編集領域317を拡大していく。これによって、音声認識誤り修正支援装置1は、リアルタイムにコンテンツの音声認識に対する誤りを修正することができる。
編集領域317の編集は、後記する誤り修正手段162によって行われる。なお、編集領域317において任意の単語をマウス等でクリックされることで、編集画面制御手段161は、クリックされた単語の時間に対応するコンテンツの再生を映像/音声再生手段163に指示する。
また、編集画面制御手段161は、選択ボタン(
図9中、「close」)311の押下により、編集領域317を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、
図8のセグメント一覧画面31に表示を戻す。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0063】
誤り修正手段162は、修正端末2の作業者の編集操作により、編集領域317(
図9)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段162は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。したがって、単語列の誤りを修正するだけでなく、その場の状況、感想等をコメントとして付加することもできる。また、未認識区間記号は単なる単語として、他の単語列と全く同じように編集することができる。
また、誤り修正手段162は、修正内容を、他の修正端末2に対応する編集手段16(別プロセスで起動した編集手段)に対して通知することで、他の修正端末2の編集領域317に反映させる。逆に、他の編集手段16から修正内容を通知された場合、誤り修正手段162は、自身の修正端末2の編集領域317に修正内容を反映させる。
【0064】
この誤り修正手段162は、修正が行われた場合、音声認識情報Rec(
図4)の単語を上書きして修正するとともに、修正フラグfをセットする。この誤り修正手段162は、他の編集手段16の誤り修正手段162が同じ修正対象に対して修正を行う場合でも、上書き(後書き優先)で更新することで、複雑な排他制御を行わないこととする。
また、誤り修正手段162は、単語の置換ではなく、単語を削除あるいは挿入することもできる。誤り修正手段162は、単語を削除する場合、音声認識情報Rec(
図4)の対応する単語の行を削除する。また、誤り修正手段162は、単語を挿入する場合、挿入位置に最も近い(挿入単語の直前または直後)の単語と結合し、音声認識情報Rec(
図4)において、挿入位置に最も近い単語と同じ行の単語と結合した単語(単語列)で置き換え、修正フラグfをセットする。
なお、この誤り修正手段162における単語列の修正処理は、未認識区間記号についても同様である。
【0065】
そして、誤り修正手段162は、他の編集手段16に対して修正を行ったことを通知することで、対応する誤り修正手段162が、音声認識情報Rec(
図4)を参照して、修正内容を反映させる。あるいは、誤り修正手段162は、変更前の単語と変更後の単語や、削除された単語、あるいは、挿入された単語を通知することとしてもよい。
このとき、誤り修正手段162は、修正が行われた単語を修正が行われていない単語とは異なる色属性(例えば、赤色)で表示する。
これによって、誤り修正手段162は、他の修正端末2で修正された内容を作業者に視認させることができる。
【0066】
例えば、
図10に示すように、編集領域317において、同じ修正対象を異なる修正端末2
1,2
2で修正が行われるとする。
この場合、
図10(a)に示すように、修正端末2
1の作業者は、編集領域317において「京」を「今日」に修正する。また、
図10(b)に示すように、修正端末2
2の作業者は、編集領域317において「ハタ」を「肌」に修正する。
そして、修正端末2
1,2
2に対応するそれぞれの誤り修正手段162が、それぞれの修正内容を通知しあうことで、他の修正端末で行った修正内容を反映させる。
これによって、修正状況が作業者全員に共有され、作業の競合を抑制して効率よく音声認識の誤りを修正することができる。
【0067】
また、誤り修正手段162は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段162は、編集領域317(
図9)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段162は、音声の再生を停止する。
【0068】
図11は、編集領域における編集作業の一例を説明するための説明図である。
例えば、
図11の編集領域317において、マウスクリック等で「3月」が選択された場合、誤り修正手段162は、コンテンツ情報記憶手段15のセグメントに含まれる単語の時間情報(
図4の時間情報t)を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像/音声再生手段163に指示する。なお、このとき、音声に連動して、動画表示領域313Bにおいて、音声再生の時間に対応する映像を再生することとしてもよい。
【0069】
そして、誤り修正手段162は、
図11に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段162は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。
【0070】
また、例えば、
図12に示すように、編集領域317において、マウスクリック等で未認識区間記号SCが選択された場合も、
図11で説明した音声認識された単語と同様に、誤り修正手段162は、コンテンツ情報記憶手段15のセグメントに含まれる選択された位置の未認識区間記号の時間情報(
図4の時間情報t)を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像/音声再生手段163に指示する。
これによって、作業者は、未認識区間であっても、音声を再生させる位置を指定することができる。
【0071】
また、作業者は、再生された音声や映像を確認し、作業者が音声を聞き取れた場合、
図13に示すように、1以上の未認識区間記号SC(
図12)を選択し、作業者が聞き取った置換文字列CC
1で置き換えることとしてもよい。
図13では、
図12の11個連続した未認識区間記号(“>”)について、最初の3個の未認識区間記号をそのまま残し、続く3個の未認識区間記号を選択して「コートが必要でした。」という置換文字列CC
1に置き換え、さらに続く5個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が2秒であれば、6秒の未認識区間のあとに、「コートが必要でした」という音声があり、その後は未認識区間が続いていることを示している。例えば、音量が極端に低い音声や背景音が過大に重畳されて、音声認識手段11では音声認識できなかった部分を作業者が聞き取れた場合には、このように、聞き取れた時間に相当する未認識区間を選択して文字列を置換することが有効である。
なお、音声認識手段11で音声認識されなかった部分を作業者が聞き取れた場合でも、繰り返し同じ音声が流れている等、音声と文字列とのタイミングを合わせることがそれほど重要ではないと考えられる場合には、未認識区間記号(“>”)をそのまま残して、未認識区間記号(“>”)で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。このようにすると、未認識区間の継続している長さは、未認識区間記号(“>”)の数として残ることになる。
【0072】
また、作業者は、
図14に示すように、未認識区間記号(“>”)を選択し、その場の状況、感想等のコメントとなる置換文字列CC
2で置き換えることとしてもよい。
図14では、
図12の11個連続した未認識区間記号(“>”)について、最初の3個の未認識区間記号をそのまま残し、続く3個の未認識区間記号を選択して「(編集コメント:山田)背景音に風の音あり」という置換文字列CC
2に置き換え、さらに続く5個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が2秒であれば、6秒の未認識区間のあとに、背景音に風の音がある状態であることを示している。また、このとき、置換文字列CC
2が、発話音声ではなく、コメントであること(
図14では、「編集コメント」)や、誰がコメントを追加したか(
図14では、作業者である山田)を追記しておくことが好ましい。
なお、コメントの文字列と音声とのタイミングがそれほど重要ではないと考えられる場合には、未認識区間記号(“>”)をそのまま残して、未認識区間記号(“>”)で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。
このように、編集領域317において、作業者は、未認識区間記号(“>”)を、音声認識された結果の単語列と全く区別することなく扱うことができる。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
【0073】
映像/音声再生手段163は、コンテンツの映像および音声を修正端末2に出力するものである。この映像/音声再生手段163は、編集画面制御手段161または誤り修正手段162により指定された位置に基づいて、コンテンツ情報記憶手段15から映像/音声を読み出して、修正端末2に出力する
【0074】
修正結果出力手段164は、誤り修正手段162で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この修正結果出力手段164は、編集画面制御手段161から出力される修正対象のコンテンツに対する修正後の音声認識結果を、コンテンツ情報記憶手段15から読み出して、対応する修正端末2に出力する。
【0075】
例えば、修正結果出力手段164は、
図15に示すように、タイトルTと、時間情報・特徴単語Kと、修正結果Wとを含んだテキストデータを生成する。なお、時間情報・特徴単語Kと、修正結果Wとは、セグメントの数だけ複数存在する。
【0076】
タイトルTには、例えば、修正日を記載する。
時間情報・特徴単語Kには、例えば、セグメントの開始時間tsと、当該セグメントに対応付けられた特徴単語k(
図5参照)を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段164は、時間情報には、先頭単語の時間情報t(
図4参照)を記載し、特徴単語を空欄とする。
【0077】
修正結果Wには、例えば、セグメントに対応する修正後の単語w列(
図4参照)を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段164は、現在入力中のコンテンツに対応する音声認識情報の現時点までの単語w列(
図4参照)を記載する。
ただし、修正結果Wには、単語wのうち、未認識区間記号については記載を省くこととする。
【0078】
この修正結果出力手段164は、修正後の音声認識結果を、テキストデータとして、修正端末2に出力することとしてもよいし、音声認識情報に修正フラグf(
図4参照)が設定されている単語(未認識区間記号は除く)については、色情報を付加した予め定めたフォーマット、例えば、PDF(Portable Document Format)等のデータとして出力することとしてもよい。
【0079】
情報削除手段17は、コンテンツ情報記憶手段15に記憶されている情報を定期的に削除するものである。例えば、情報削除手段17は、予め保存日数等が設定され、当該日数を超過した情報(コンテンツCon、音声認識情報Rec、セグメント情報Seg(
図3参照))を削除する。
【0080】
以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、複数の修正端末2によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置1は、ある修正端末2で行った修正を他の修正端末2に通知することができるため、複数の修正端末2で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力されるコンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
また、音声認識誤り修正支援装置1は、音声認識結果が出力されない時間区間において、音声の再生位置を指定して再生させることができ、作業者は、指定した位置から音声を確認することができる。これによって、音声認識誤り修正支援装置1は、未認識区間であっても、文字列を追加するように修正を行うことができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0081】
[音声認識誤り修正支援装置の動作]
次に、
図16~
図18を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作(音声認識誤り修正支援方法)について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末2に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
【0082】
(セグメント情報生成動作)
まず、
図16を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
【0083】
ステップS1において、コンテンツ入力手段10は、音声認識を行うコンテンツを入力する。このとき、コンテンツ入力手段10は、入力したコンテンツをコンテンツ情報記憶手段15に書き込み記憶する。
ステップS2において、音声認識手段11は、ステップS1で入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、セグメント分割手段12に通知するとともに、コンテンツ情報記憶手段15に書き込み記憶する。
【0084】
ステップS3において、セグメント分割手段12は、ステップS2で認識された単語列を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。
【0085】
ステップS4において、未認識区間分割手段13は、ステップS3で分割されたセグメントごとに、認識されなかった音声の未認識区間を分割する。このとき、未認識区間分割手段13は、未認識区間について、予め定めた時間間隔(例えば、2秒)ごとに分割し、分割した未認識区間を示す記号(未認識区間記号)とその開始時間および時間長を、コンテンツ情報記憶手段15に書き込み記憶する。
【0086】
ステップS5において、セグメント内情報抽出手段14は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、セグメント内情報抽出手段14は、抽出した特徴単語およびサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。
ここで、コンテンツの入力が完了していない場合(ステップS6でNo)、音声認識誤り修正支援装置1は、ステップS1に戻って、コンテンツの入力を続ける。
一方、コンテンツの入力が完了した場合(ステップS6でYes)、音声認識誤り修正支援装置1は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置1は、
図3に示すように、コンテンツ情報記憶手段15に、コンテンツと、音声認識情報およびセグメント情報とを対応付ける。
【0087】
(セグメント情報提示動作)
次に、
図17を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末2との接続が開始された後の編集手段16の動作である。
【0088】
ステップS10において、修正対象選択手段160は、コンテンツ情報記憶手段15に記憶されている音声認識誤りを修正する対象のコンテンツを選択する選択画面30(
図6参照)を修正端末2に表示する。
ステップS11において、修正対象選択手段160は、画面上で、修正対象のコンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する(ステップS11でNo)。そして、修正開始ボタンが押下された場合(ステップS11でYes)、修正対象選択手段160は、ステップS12以降の制御を行う編集画面制御手段161に制御を移す。
【0089】
ステップS12において、編集画面制御手段161は、コンテンツ情報記憶手段15に記憶されている各種の情報に基づいて、セグメントごとに、特徴単語と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだセグメント一覧画面31(
図8参照)を修正端末2に表示する。
【0090】
ステップS13において、編集画面制御手段161は、セグメント一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、編集画面制御手段161は、
図9に示すように、選択されたセグメントに対応して編集領域317を表示し、コンテンツ情報記憶手段15に記憶されている当該セグメントに対応する認識結果である単語列を編集領域317に展開する。なお、このとき、編集画面制御手段161は、認識結果である単語とともに、未認識区間記号(“>”)SCを表示する。
【0091】
この動作以降、編集手段16は、作業者が修正端末2の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域317を表示した場合、編集画面制御手段161は、任意のタイミングで、選択ボタン(close)の押下により編集領域317を非表示とすることができるが、この非表示の動作については図示を省略した。また、セグメント一覧画面31B(
図9参照)の動画表示領域313Bにおけるコンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
【0092】
(セグメント修正動作)
次に、
図18を参照(適宜
図2参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
【0093】
ステップS20において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域317(
図9)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段162は、映像/音声再生手段163を介して、コンテンツ情報記憶手段15のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。
なお、このステップS20において、編集領域317(
図9)内の未認識区間記号または未認識区間記号列を選択された場合も、誤り修正手段162は、単語または単語列と同様に、映像/音声再生手段163を介して、対応する音声を修正端末2に出力する。
【0094】
ステップS21において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段162は、音声が再生中であれば、修正端末2への出力を停止する。これによって、音声の再生が停止される。
【0095】
ステップS22において、誤り修正手段162は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段162は、コンテンツ情報記憶手段15の単語あるいは未認識区間記号を修正結果で更新する。
ステップS23において、誤り修正手段162は、他の編集手段16に修正内容を通知することで、他の編集手段16の誤り修正手段162が、対応する修正端末2に表示する内容を反映する。
【0096】
ステップS24において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段162は、映像/音声再生手段163を介して、コンテンツ情報記憶手段15のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。
【0097】
なお、図示を省略しているが、ステップS24における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS22に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
【0098】
以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、コンテンツを、映像および音声を含んだものとして説明したが、音声のみのコンテンツであっても構わない。
その場合、セグメント内情報抽出手段14は、特徴単語のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段163は、音声のみを出力する音声出力手段とすればよい。
【0099】
また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了したコンテンツと、現在音声認識中のコンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中のコンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置1は、セグメント分割手段12、未認識区間分割手段13、セグメント内情報抽出手段14および修正対象選択手段160を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段160は、コンテンツを記憶した日時を基準として、修正対象のコンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、コンテンツが、放送素材コンテンツとして、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、コンテンツを選択することとしてもよい。あるいは、コンテンツに当該コンテンツを収録した際のイベント情報が付加されている場合、イベントを指定して、コンテンツを選択することとしてもよい。
【0100】
また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、
図19に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(
図2)の音声認識手段11を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段18が単語および時間情報を対応付けてコンテンツ情報記憶手段15に記憶するとともに、セグメント分割手段12に通知することとすればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
【0101】
また、誤り修正手段162は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、
図20に示すように、誤り修正手段162は、マウスの右クリックキー等によって、コンテキストメニュー318を表示する。
コンテキストメニュー318には、機能(コピー等)とショートカットキー(Ctrl+C等)とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段162は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段162は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。
【0102】
また、ここでは、編集画面制御手段161が、編集領域317(
図9参照)において、音声が認識されない区間に未認識区間記号(“>”)SCを表示することとした。
しかし、この未認識区間記号は、作業者の操作によって、表示と非表示とを切り替えることとしてもよい。
例えば、初期状態では、未認識区間記号を非表示とし、編集画面制御手段161は、
図20に示したコンテキストメニュー318で「未認識区間の>>>表示」を選択するか、ショートカットキー(ここでは、Ctrl+D)を押下されることで、未認識区間記号を表示する。
また、未認識区間記号を表示した状態で、編集画面制御手段161は、コンテキストメニューで「未認識区間の>>>非表示」(不図示)を選択するか、対応するショートカットキーを押下されることで、未認識区間記号を非表示にする。
これによって、編集画面制御手段161は、修正端末2ごとに、未認識区間記号の表示と非表示とを切り替えることができる。
【0103】
なお、ここでは、未認識区間記号(“>”)の表示と非表示とを切り替える例で説明したが、未認識区間であるか否かによって未認識区間の単語列(未認識区間記号を含む)の表示と非表示とを切り替えることとしてもよい。例えば、音声認識情報Rec(
図4)において、単語Wが未認識区間記号(“>”)の単語だけでなく、未認識区間記号(“>”)を含んだ単語列を、表示および非表示の切り替え対象としてもよい。また、未認識区間の単語であるか否かの判定は、未認識区間記号(“>”)の有無以外に、音声認識情報Rec(
図4)に単語wに対応付けて認識フラグ(不図示)を設け、その値(例えば、認識単語“1”、未認識単語“0”)によって、未認識区間の単語であるか否かの判定を行ってもよい。この認識フラグの値は、音声認識手段11および未認識区間分割手段13によって設定することができる。例えば、音声認識手段11は、認識した単語については、認識単語を示す値(例えば、“1”)を認識フラグに設定し、未認識区間分割手段13は、未認識区間記号に対応する単語については、未認識単語を示す値(例えば、“0”)を認識フラグに設定すればよい。
【0104】
また、ここでは、音声認識誤り修正支援装置1,1Bが、複数の修正端末2によって、音声認識の誤りを修正することとした。
しかし、この修正端末2は、1台であってもよい。その場合、音声認識誤り修正支援装置1,1Bは、編集手段16を1つ備える構成とすればよい。
【0105】
また、ここでは、音声認識誤り修正支援装置1,1Bに、未認識区間分割手段13を備える構成とした。
しかし、未認識区間分割手段13は、音声認識手段11を有する音声認識装置に備えることとしてもよい。
例えば、
図21に示すように、音声を認識する音声認識装置3を、音声認識手段11と未認識区間分割手段13とを備える構成とし、音声認識誤り修正支援装置1,1Bの音声認識手段11と置き換えればよい。なお、音声認識手段11および未認識区間分割手段13は、
図2で説明した音声認識誤り修正支援装置1と同じ構成であるため、説明を省略する。
【符号の説明】
【0106】
1,1B 音声認識誤り修正支援装置
10 コンテンツ入力手段
11 音声認識手段(音声認識装置)
12 セグメント分割手段
13 未認識区間分割手段
14 セグメント内情報抽出手段
15 コンテンツ情報記憶手段(記憶手段)
16 編集手段
160 編集対象選択手段
161 編集画面制御手段
162 誤り修正手段
163 映像/音声再生手段(音声出力手段)
164 修正結果出力手段
17 情報削除手段
18 認識結果入力手段
2 修正端末
3 音声認識装置