(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022059732
(43)【公開日】2022-04-14
(54)【発明の名称】情報処理装置、制御方法、プログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20220407BHJP
G10L 15/00 20130101ALI20220407BHJP
G06F 3/16 20060101ALI20220407BHJP
G06F 3/0484 20220101ALI20220407BHJP
【FI】
G10L15/22 460Z
G10L15/00 200B
G06F3/16 650
G06F3/0484
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020167499
(22)【出願日】2020-10-02
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】下郡山 敬己
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA22
5E555AA25
5E555AA26
5E555AA46
5E555BA02
5E555BB02
5E555BC01
5E555CA02
5E555CA47
5E555CB05
5E555DB39
5E555DB41
5E555DB53
5E555DC13
5E555DC31
5E555EA23
5E555FA00
(57)【要約】
【課題】音声認識の結果を短時間で確認、修正する技術を提供することを目的とする。
【解決手段】本発明は、音声データの音声認識結果である認識データと、前記音声データに対応するテキストデータとを取得する情報処理装置であって、前記認識データまたは前記テキストデータの中で着目する箇所を特定する特定手段と、前記認識データと前記テキストデータとを比較した結果を表示する際に、前記特定した箇所を識別表示する表示制御手段とを備えることを特徴とする。
【選択図】
図3
【特許請求の範囲】
【請求項1】
音声データの音声認識結果である認識データと、前記音声データに対応するテキストデータとを取得する情報処理装置であって、
前記認識データまたは前記テキストデータの中で着目する箇所を特定する特定手段と、
前記認識データと前記テキストデータとを比較した結果を表示する際に、前記特定した箇所を識別表示する表示制御手段と
を備えることを特徴とする情報処理装置。
【請求項2】
前記特定手段は、データに含まれる文字列の属性に従って前記箇所を特定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記表示制御手段は、前記特定した箇所における前記認識データと前記テキストデータとを比較した結果に基づいて、前記箇所の表示方法を制御することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記表示制御手段は、前記特定した箇所において前記認識データと前記テキストデータとに差異がある場合、当該テキストデータの当該箇所のデータを通知することを特徴とする請求項1~3に記載の情報処理装置。
【請求項5】
前記前記特定した箇所において、前記認識データの修正を受け付ける受付手段を備えることを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
前記テキストデータは、前記音声データの原稿のテキストデータであることを特徴とする請求項1~5のいずれか1項に記載の情報処理装置。
【請求項7】
音声データの音声認識結果である認識データと、前記音声データに対応するテキストデータとを取得する情報処理装置の制御方法であって、
特定手段が、前記認識データまたは前記テキストデータの中で着目する箇所を特定する特定ステップと、
表示制御手段が、前記認識データと前記テキストデータとを比較した結果を表示する際に、前記特定した箇所を識別表示する表示制御ステップと
を備えることを特徴とする情報処理装置の制御方法。
【請求項8】
音声データの音声認識結果である認識データと、前記音声データに対応するテキストデータとを取得する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
前記認識データまたは前記テキストデータの中で着目する箇所を特定する特定手段と、
前記認識データと前記テキストデータとを比較した結果を表示する際に、前記特定した箇所を識別表示する表示制御手段
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識エンジンの認識結果を修正する技術に関する。
【背景技術】
【0002】
ろう者が聴者と同様に情報を得ることができるよう支援する方法として、話者の発話内容をテキストで表示する方法がある。例えば、テレビの字幕放送、講演会などでの要約筆記、さらに音声認識により発話を自動的に文字列に変換し、PCの画面などに表示する方法もある。
【0003】
しかし、いずれも実際に発話されてから、ろう者がそれを文字として読むことができるまでには、かなりの時間差がある。テレビの文字放送では発話から10~15秒程度遅れて、字幕が表示されることがある。
【0004】
例えば「お天気コーナー」を想定すると、「明日の予報」についての説明が終わり、「今後1週間の予報」に場面が変わってからやっと前の「明日の予報」での天気予報士の発話が字幕として表示されることになり、その字幕の内容を理解するためには前の図を記憶しておく必要がある。
【0005】
また報道の映像が次の事件のものに変わってから、前の事件の映像に関する字幕が表示されることもあり非常に分かりにくい。
【0006】
この問題を解決するために、できる限りリアルタイムに近いタイミングで字幕を提供する方法が検討されている。
【0007】
特許文献1に記載の技術では、ニュース番組などの原稿を事前にテキスト修正装置に登録し、アナウンサー等の発話を音声認識で得られた認識結果と比較する。具体的には次の方法による。
【0008】
まずN形態素分の認識結果にある程度の誤認識が含まれることを想定した上で、原稿のどのN形態素に対応するのか位置を特定する。さらに誤認識した形態素がある場合には、原稿にある形態素に置き換えて提示する。
【0009】
さらに第2の方法として認識結果の形態素が誤りであるとは決めつけず、認識結果と原稿の形態素の読みを比較し、読みが大きく異なると判定した場合には、誤認識ではなく音声認識が出力した形態素を正しいものとして修正しない。
【先行技術文献】
【特許文献】
【0010】
【発明の概要】
【発明が解決しようとする課題】
【0011】
特許文献1の技術では、認識結果の形態素列と事前に作成した原稿の形態素列との類似度が最も高く、またその類似度が事前に指定した閾値を超える場合には両者を比較し、原稿に合わせて修正する(
図6のステップS16など)、また修正しない(
図10のステップS28で“NO”となった場合)を判断することになる。
【0012】
すなわち、修正するかしないかが判断されるのはあくまで「認識結果の形態素列が、原稿の中にある」ということが前提となり、話者が原稿にない発言をした場合は、類似度が閾値を超えないと判断されるため(
図6のステップS15で“NO”、
図10のステップS25で“NO”)、そのまま出力されることになる。さらに、認識結果と原稿との類似度は、形態素列を比較した機械的な手法で算出している。そしてその結果に基づく修正は、全て原稿を基準とした自動的なものである。
【0013】
しかし、やはり人間の校正者による確認は重要なものである。リアルタイム性を重視するため字幕の候補となる文字列の全てを人間が確認、修正することはしないが、重要な部分に限定して校正者に対応させる。字幕の目的にもよるが、内容によって微妙なニュアンスさえ誤ってはいけない場合や、数値などが正確に伝われば比較的問題が少ない場合など、原稿の内容によって限定すべき確認のポイントも異なってくる。
【0014】
日本語の場合、付属語(例えば文末に付加される助詞や助動詞、感嘆詞など)でニュアンスが大きく変わることがあり、そのような形態素も人手によるチェックをした方が良い場合もある。
【0015】
本発明の目的は、音声認識の結果を短時間で確認、修正する技術を提供することである。
【課題を解決するための手段】
【0016】
本発明は、音声データの音声認識結果である認識データと、前記音声データに対応するテキストデータとを取得する情報処理装置であって、前記認識データまたは前記テキストデータの中で着目する箇所を特定する特定手段と、前記認識データと前記テキストデータとを比較した結果を表示する際に、前記特定した箇所を識別表示する表示制御手段とを備えることを特徴とする。
【発明の効果】
【0017】
本発明により、音声認識の結果を短時間で確認、修正する技術を提供することが可能となる。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施形態に係るシステム構成の一例を示す図である。
【
図2】本発明の実施形態に係る音声認識サーバ、情報処理端末のハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態に係る機能構成の一例を示す図である。
【
図4】本発明の実施形態に係る原稿記憶部に記憶される原稿および関連する情報の一例である。
【
図5】本発明の実施形態に係る確認ルール記憶部に記憶されるルールの一例である。
【
図6】本発明の実施形態に係る設定情報記憶部に記憶される設定項目の一例である。
【
図7】本発明の実施形態に係る音声認識結果を校正者用に表示する処理のフローチャートの一例を示す図である。
【
図8】本発明の実施形態に係る音声認識結果に確認情報を付与する処理のフローチャートの一例を示す図である。
【
図9】本発明の実施形態に係る本発明の実施形態に係る音声認識結果、確認情報を付与した表示情報の一例である。(校正者画面)
【
図10】本発明の実施形態に係る本発明の実施形態に係る校正者用表示画面の一例である(校正者画面)。
【
図11】本発明の実施形態に係る本発明の実施形態に係る音声認識結果を字幕として表示する画面の一例である(テレビなどの画面)。
【発明を実施するための形態】
【0019】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
【0020】
図1は、本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に係るシステムは、音声認識サーバ101、情報処理端末102(発話者用102a、校正者用102b、表示用102cとする)で構成される。
【0021】
ユーザは情報処理端末102aに接続されたマイク104で音声を入力する。情報処理端末102aは、前記音声を音声認識サーバ101に送信して文字列に変換し情報処理端末102b(校正者用)に送り、情報処理端末102b(校正者用)で表示、校正者に提示する。
【0022】
情報処理端末102a~cは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。ここで出力される情報処理端末102においては、後述する表示用102cと校正者用102bが兼ねられていてもよいし、またそれぞれ専用の情報処理端末であってもよい。また出力は情報処理端末102に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に係るシステム構成とする。プロジェクタを使う場合であれば、情報処理端末102は発話者用の一台のみで、当該情報処理端末102aに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を全員が読んでもよい。その場合、発話者用の前記情報処理端末102aで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。
【0023】
さらに音声認識サーバ101は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ101上の機能を、クラウドサービスにより利用する形態であってもよい。すなわち、後述する音声認識部322は音声認識サーバ101から呼び出す他のサーバ上の機能またはクラウド上のサービスであってもよい。すなわちこれらのサービスを他のサーバあるいはクラウドサービスとして利用する形態であっても、本発明の実施形態に係るシステム構成とする。
【0024】
構成例で説明した情報処理端末102a~cは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。
【0025】
音声認識サーバ101と情報処理端末102a~cは同一筐体であってもよい。すなわち、
図1における情報処理端末102a~cのうちの1つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ101を兼ねていてもよい。
【0026】
図2は、本発明の実施形態に係る音声認識サーバ101、情報処理端末102に適用可能なハードウェア構成の一例を示すブロック図である。
【0027】
図2に示すように、情報処理サーバ100、認識サーバ101、情報処理端末102は、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)203、ROM(Read Only Memory)202、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。
【0028】
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0029】
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。
【0030】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0031】
また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。
【0032】
ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。
【0033】
メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0034】
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。
【0035】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。
【0036】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。
【0037】
図3は、本発明の実施形態に係る機能構成の一例を示す図である。なお、
図1で説明したように情報処理端末102は、発話者用102a、校正者用102b、表示用102cの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。
【0038】
音声取得部311は、情報処理端末102が内蔵している、あるいは接続されたマイクなどから話者の音声による発話を音声データとして入力し、音声データ送信部312により音声認識サーバ101に送信する。
【0039】
音声認識サーバ101は、音声データ受信部321で受信した音声データを音声認識部322に渡して音声データを文字列に変換し、当該文字列を確認情報付加部323により校正者に提示する確認情報を付与する。その際に、原稿記憶部331に記憶された原稿(
図4で詳述)と、確認ルール記憶部332に記憶されたルール、パターン(
図5で詳述)を参照する。さらに確認情報を付与した結果を確認情報送信部324により情報処理端末102に送付する。
【0040】
情報処理端末102の確認情報受信部313は、前述の確認情報が付与された音声認識の結果を受信し、校正用表示部314により情報処理端末102に接続された表示装置に表示し、校正部315は校正者による操作を受け付け、校正結果を校正結果送信部316により音声認識サーバ101に送付する。
【0041】
音声認識サーバ101の校正結果受付部325により校正結果を受信し、音声認識結果、確認情報、校正結果に基づき字幕を生成、字幕配布部326により、表示するために送信する。
【0042】
情報処理端末102では、字幕配布部326により送信された前記の字幕を字幕受信部216により受信し、表示装置に表示する。実際にはこの情報処理端末102で表示しなくとも良い。例えばニュースや天気予報の映像などとの重ね合わせるための装置に更に送信したり、またテレビ放送の場合であれば家庭等に映像を配信するための機器に対して送信する、などであってもよい。即ち、字幕受信部216で受信した字幕の最終的な表示先は、対応する情報処理端末102から更に送信(配信)されるものであってもよいことは言うまでもない。
【0043】
図4は、本発明の実施形態に係る原稿記憶部に記憶される原稿および関連する情報の一例である。本図においては、原稿例400は発話者(アナウンサーなど)が読み上げる予定の原稿である。この原稿に含まれる文章を予め何らかの基準で区切り、原稿記憶部331に格納する。
【0044】
原稿の文章を区切る基準は本願発明においては特に限定しておらず規程を示してはいないが、周知の技術としては形態素解析した際の形態素の数、文字列の長さなどがある。一般的に音声認識結果と比較して有意な類似度を算出可能な長さであれば良い。
【0045】
原稿記憶部331は、前記文章を区切った単位を1行として格納している(内容405)。原稿番号401は、各行がいずれの原稿に属したものであるかを示しており、原稿2(原稿例400)で示した原稿が格納されている複数行をまとめて原稿番号401に「2」と記載している。
図4の原稿記憶部331には原稿番号が1から5に対応する原稿の情報が登録されている。
【0046】
また、ルール番号402も同様にまとめられているが、原稿番号2に対応する確認ルールは、後述する
図5のルール番号501「1」が対応することを示しており、この番号のルールに従って校正者用の確認情報が付与されることになる。また時刻403は、当該原稿を読み上げることを想定している時刻が記載されている。実際にはずれが生じることもあるが、似たようなニュースが複数ある場合には、何れのニュースの原稿を読んでいるのか判断する場合に使用する。
【0047】
情報種別404は、内容405に記載の文字列が「原稿内」であるか「原稿外」であるかを示している。「原稿内」とは、原稿例400から区切って得たものであることを示している。一方「原稿外」とは、アナウンサーなどが読み上げる原稿(原稿例400)には含まれないが、音声認識結果を字幕として表示して読むろう者以外の視聴者にもニュースの概要を1~2行で示すものであり、例えば
図11の原稿外表示文字列1102のように、画面の映像と重ねて表示するものである。本願発明では音声認識結果から書き起こした字幕とは区別する。
【0048】
状態406は、各行がアナウンサーなどによって既に読み上げられたものであるかどうかを示す記載である。「完了」、「使用中」、「未使用」の3種類を記載しているが、「完了」になっているからといって、それ以降絶対に同じ発話はなされない、という厳しい判定はしない。原稿にある部分をアナウンサーが独自の判断で(例えば現場のレポーターと通信がつながらない間に)既に一度読んだ原稿を再度読み上げることもある。ただし「完了」となっているものは読み上げられる確率はやはり低くなり、例えば他のニュースにある類似の発言とどちらを採用するか、によりニュース自体が別の原稿番号のものに移行しているかどうかの判断にも参考となる情報である。
【0049】
図5は、本発明の実施形態に係る確認ルール記憶部332に記憶されるルールの一例である。原稿と音声認識結果の差分がある場合であっても全ての情報が重要なものとは限らないため、リアルタイム性を重視する観点から、音声認識結果の文字列内から重要な部分を特定して、確認を促す情報(確認情報)を付与し校正者に提示可能とするものである。本実施形態では、校正者に提供する音声認識結果の文字列に対してルールを適用し、確認情報を付与していくものとするが、実際の処理では原稿側に付与しても良い。原稿側に付与する場合は、音声認識結果と同時ではなく、原稿を原稿記憶部331に登録する際に事前に付与可能な情報もある。例えば後述する品詞、付属語に関する情報などを原稿側に事前に付与しておき、音声認識結果との比較時に確認情報を音声認識結果の文字列側に転記しても良い。いかなる方法でも情報処理端末102b(校正者用)に提供できるのであればよい。
【0050】
幾つかのルールを上げて説明するが、本実施形態はあくまで技術的な例であり、実際のニュースの内容や現場の状況に応じて適切なルールを作成する必要があることは言うまでもない。
【0051】
ルール番号501は、
図4のルール番号402に紐付けるための識別番号である。識別表示条件502は、原稿と音声認識の対応部分が不一致の場合のみ校正者に確認を促すのか(不一致のみ)、一致していても確認を促すのか(一致含む)を指定する。例えば、ニュースにおいて人名を間違えると人権問題に関わる場合もあるため人名に関しては原稿と音声認識結果が一致していても校正者に確認する、などが考えられる。原稿と音声認識結果が一致しているとは言っても、あくまで登録されている原稿は複数のニュースであり、音声認識結果が原稿の他の部分と一致している可能性なども考えられるからである。
【0052】
適用ルール503は、後述するルール詳細500のルール名504と対応づけるものである。例えば「数値表現(日付、時刻、金額)」という記載は、ルール詳細500のルール名504が「数値表現(日付)」、「数値表現(時刻)」、「数値表現(金額)」の全てを文字列に適用することを意味する。
【0053】
パターン505は、原稿または音声認識結果の文字列から、形態素の品詞情報、文字のパターンなどを利用して特徴的な表現を抽出するものである。音声認識サービスによっては形態素毎に品詞を付与するものがある。あるいは結果の文字列を本実施例の処理の中で形態素解析して品詞を付与しても良い。文字のパターンとは、例えば文字種別(漢字、平仮名、カタカナ、数値など)や人名の接頭語、接尾語などである。また辞書(不図示)に都道府県名などを登録し、文字列一致でもよい。これらの品詞や文字パターンを正規表現などを用いて特定する方法は周知の技術である(例として特開2001-125911号公報)。
【0054】
また、校正者の確認すべき項目として付属語も重要な場合がある。打ち消しの助動詞が誤っていると完全に逆の事実を伝えてしまうし、時制が誤っていると誤解を与える。それほどではないにしても刑事事件などで「~ですね」などの表現はカジュアルで不適切な印象を与えることもある。一方、インタビューや天気予報などであればカジュアルな表現が含まれていてもさほど不適切ではなく、校正者の負担を軽減するために確認しなくとも良い場合もある。付属語については、その並びから誤解を与える程度を判定しその程度に従って「確認重要度」(前述の特許文献ではクレームなどの表現の「危険度」であるがこれを重要度として考える)を算出することなども周知の技術である(例として特開2004-133714)。付属語が1つでも複数の並びであっても良い。複数の並びである場合は、前述のパターン同様、品詞や文字の並びを正規表現などでパターンとして表しても良い。この危険度の許容範囲を識別表示条件502に記載して、その危険度を上回る場合には校正者に提示するようにしても良い。また、
図6の付属語判断閾値として指定しても良い。
【0055】
図6は、本発明の実施形態に係る設定情報記憶部に記憶される設定項目の一例である。個々の設定について説明をしていく。
【0056】
音声認識において一定時間入力がなければ(人の声が入力されなければ)、文章として区切れたと認識する。そのための区切り時間を指定する値が、発話区切り時間であり、例では0.5秒としている。例えばこの区切りによって音声認識結果としての1文が指定され、その文字列を
図4の「内容」と比較して類似しているか否かの判定をしても良い。ただし、この場合、原稿作成者と発話者の区切りに関する認識が異なれば、文字列の位置的なずれにより、原稿記憶部331の特定の内容と一致しない場合がある。そのため、類似比較形態素数で指定された形態素の数、あるいは文字列の長さを設定としても良い。特許文献1においては、常に4つの形態素で1行となし、またある行の後半の2形態素と次の行の2形態素に同一のものを指定する。すなわち少しずつずらしていくが、本発明の実施の形態でも同様の方法を用いても良い。本発明の実施の形態としては、類似しているかどうかを判定するために格納する方法であれば、どのような方法でも良い。
【0057】
次に原稿確認範囲について説明する。例では10行となっている。
図4の原稿記憶部331で現在使用中の行(原稿番号2の2行目)である時に、次に発話者の音声認識結果が、10行以上離れた行と類似している場合、原稿の位置として不適切ではないか、と判断するものである。
【0058】
次の行に進むのであれば「市内に住む女性の銀行口座から」という文に類似した認識結果が得られるはずであるが「警察の調べによりますと」に類似したとする。この場合、可能性としては次のことが考えられる。何らかの事情で現在読み上げている原稿2を最初から繰り返した場合、あるいは原稿2を飛ばして原稿3に移行し、その3行目に相当する発話をした場合、また緊急のニュースが入り、原稿2、3の何れでもない(原稿にはない)ニュースをアナウンサーが発話している場合、などである。
【0059】
この場合、いずれが正しいのかを確認するため、この音声認識結果に原稿番号を確認する情報を付与して、情報処理装置102b(校正者用)に送付しても良い。
図10では、その状況を示している。校正者操作画面1000に校正対象文字列1001とともに、操作パネル1002を表示し校正者に原稿3に切り替えるか等確認させるようにしても良い。緊急ニュース(原稿なし)の場合は「校正者は全てを確認してください」という指示が提示されても良い。また、原稿の切り替えが選択された場合には、それ以降の処理では、切り替えた後の原稿とその行を中心にして後続の処理を継続するようにしても良い。
【0060】
いずれにしても一定の基準を満たさなかった場合にはその認識結果は使用できないと言うことではなく、その認識結果をどのように利用するか校正者が判断可能なようにするものである。
【0061】
また
図4の原稿では原稿番号401に数字のみ記載していたが、
図10のように内容が分かるタイトルを付与しても良い。
【0062】
次に
図7、
図8のフローチャートを用いて、本願発明の実施形態に係る処理の流れを説明する。
【0063】
ステップS701においては、情報処理端末102a(発話者用)に接続されたマイク104から、発話者が入力した音声を受け付けて、ステップS702で当該音声データを音声認識サーバ101に送信する。
【0064】
音声認識サーバ101は、前記情報処理端末102aから送信された音声データをステップS703で受信し、ステップS704にて音声認識処理をして文字列に変換する。このとき、連続して入力された音声データの無音状態が
図6の「発話区切り時間」より長い部分を検知して、無音状態の部分で音声データを区切ってから音声認識処理に渡しても良い。また、音声認識エンジンによっては無音状態で自動的に区切った結果を出力するものもありその結果に基づき、文字列を原稿の1行に対応するように区切っても良い。
【0065】
ステップS705については、
図8のフローチャートで説明する。ステップS801においては、このフローチャートが何れのステップから呼び出されたかを判断する。現在の説明では、ステップS704から続いて呼び出されているので、ステップS802に進む。
【0066】
ステップS802においては、音声認識した結果の文字列に基づき、原稿記憶部331の何れの行の内容(文字列)が類似しているかをリストアップする。現時点で原稿2に着目していても原稿3など他の部分からリストアップしても良い。また、文字列ではなく形態素解析をして、形態素列として類似する行をリストアップしても良い。なお後述するが
図8のフローチャートを完了した後、
図7のフローチャートに戻り、校正者の判断により再び
図8に戻ってくる場合がある。その場合には、ステップS710に続く処理としての呼び出しとなり、ステップS801の分岐でステップS803に進むことになるので、ステップS802が実行されるのは最初の1回だけである。即ち、原稿の中から類似の行をリストアップする処理は最初だけである。
【0067】
ステップS803においては、ステップS802にてリストアップした原稿の類似行のうち、最も類似しているものを選択し、着目する行とする。前述の通り、
図8のフローチャートは繰り返し呼び出されることがあるが、2回目の実行では1回目に選択された行は候補から外されているので、常に最も類似するものを選択すればよい。最初にリストアップしたものを基準にすると、
図8のフローチャートが呼び出された回数に合わせて、1位、2位、3位と次の候補行に順次着目することになる。
【0068】
ステップS804においては、音声認識結果の文字列と、原稿からリストアップした類似行の文字列との差分を抽出し、差分を示す情報を記憶する。
【0069】
ステップS805においては、確認ルール記憶部332に格納された原稿と対応するルールに従って、校正者に確認させたい部分を抽出し、確認情報を付与する。さらにステップS806においては、確認情報が付与された付属語(付属語列)の確認重要度を算出し、付属語判断閾値を超えている等を判定して必要なら確認情報を付与する。
【0070】
ステップS807においては、現在着目している行が、直前に完了した原稿の行から進行する範囲としては遠い位置にあるか否かを判断する。例えば、原稿2の最後にいる場合に原稿3の最初の行を類似行として着目しても進行としては自然である。これは
図6の原稿確認範囲(10行)を基準にして判断することが可能である。しかしながら原稿2の最初にいる場合に、原稿3の後方を類似行として着目した場合、誤りの可能性がある。またさらに原稿記憶部331の状態406が「未」の行に進行することは自然であるが「完」の行に進行することは自然ではない。勿論、実際に原稿を読み返すことなどもあり、正しいか否かは校正者の判断が必要であるため、ここでは範囲外であるマークを付与し、校正者が判断可能な識別子とするだけである。その識別子を付与するか否かを判断する。付与する必要があると判断する場合には、ステップS808に進む。付与する必要がないと判断した場合には、
図8のフローチャートを終了する。
【0071】
ステップS808において、現時点での音声認識結果は、直前に完了した原稿の行から進行する範囲としては非常に遠い位置で範囲外である旨の情報を付与する。これで
図8のフローチャートを完了し、
図7のフローチャートのステップS705が終わった状態に戻る。
【0072】
図7のフローチャートの説明に戻る。ステップS706においては、音声認識結果及び付与された確認情報を情報処理端末102b(校正者用)に送信する。
【0073】
ステップS707においては、情報処理端末102b(校正者用)が音声認識結果及び付与された確認情報を受信し、ステップS708において校正者が作業可能なように接続された表示装置に表示する。表示された例は
図9を用いて後述する。
【0074】
ステップS709においては、
図9の表示情報に基づいて校正者が音声認識結果に対して行った修正、判断などの操作を受け付ける。この判断には、
図10を用いて既に説明した原稿の切り替えを認めるか否かの判断も含む。
【0075】
ステップS710は、ステップS709の操作の結果として原稿の切り替えをするか否かの判断が含まれている場合に、続く処理の流れを分岐させるための判定である。校正者によって原稿の切り替えを認められた場合には、ステップS803で着目している原稿内の候補の行を使用して良いことになり処理は後続のステップS711に進む(YESの場合)。そうでなければ候補の行を選択し治す必要があるため処理を音声認識サーバ101のステップS705に戻す(NOの場合)。ステップS705の説明は
図8のフローチャートとして前述したものと同じだが、ステップS802は最初の実行時に既に類似行を原稿からリストアップしているのでスキップし(ステップS801の分岐で「S710の続き」となり)、類似行の候補となる行から次の順位のものに着目して処理を進めていく。
【0076】
ステップS711においては、ステップS709において校正者が行った校正結果(最終的な表示文字列)を情報処理端末102c(表示用)に送信する。
【0077】
ステップS712において、情報処理端末102c(表示用)は校正結果(最終的な表示文字列)を受信し、ステップS713において情報処理端末102c(表示用)に接続された表示装置に表示する。
【0078】
以上で、
図7、
図8のフローチャートを用いて本願発明の実施形態における処理フローの一例に関する説明を完了する。
【0079】
図9は、本発明の実施形態に係る本発明の実施形態に係る音声認識結果、確認情報を付与した表示情報の一例である(校正者画面)。比較するために原稿2の文字列(原稿例400)と音声認識結果の例(音声認識結果901)を図示している。音声認識結果901では、矩形で囲んだ部分が原稿例400との差分である。
【0080】
校正者用の表示は校正者用表示902のように902a~eまで
図4の原稿2の各行と対応する文字列が表示される。1行分の認識が完了した時点で受信、表示されるため、これらの行は全て同時に表示されているわけではなく1つずつ表示されている(
図10の校正者操作画面1000を参照)。902a~eを一つずつ説明していく。
【0081】
902aは、音声認識結果と原稿が一致しているため文字列のみが表示される。
【0082】
902bでは、921と922の2ヵ所が原稿と音声認識結果の差分であり、それぞれ
図5のルール番号1の固有名詞(人名)、数値表現(日付)が適用されているので、校正者に識別可能に強調表示され(実線の矩形)、また原稿側に含まれる正解(それぞれ「稲川」、「7月」)が吹き出しで表示されている。ここで校正者が確認した後、例えば吹き出し部分をマウスでクリックするなどの操作により、音声認識結果中の文字列を吹き出し内の文字列に置き換えることができる。あるいは直接、音声認識結果の文字列を編集しても良い。また何らかの事情により音声認識結果の文字列が正しければ置き換える必要はない。
【0083】
921の固有名詞(人名)は、
図5のルールでは「仮に一致していたとしても校正者に確認させる」ために確認情報が付与される。一致していた場合は吹き出しは表示されなくとも良いが、実線の矩形は表示される。
【0084】
また、923の「9月」は原稿と一致しており、
図5のルールにも数値表現(日付)は不一致の場合のみ校正者に提示されることになっているが、
図5のルールと一致した部分のみを識別可能に表示しても良い(点線の矩形)。
【0085】
902cの924は、原稿の「口座」が音声認識結果で「講座」となっているため実線の矩形で確認情報が表示されている。
図5に普通名詞であっても不一致なら確認情報を付与するようルールがあるからである。重要度が低く、校正者の作業効率を重視するならば、
図5のルールから削除せず、表示しなくとも良い。またその場合でも原稿と差異があると言うことで、点線の矩形を付与するなどして一段階レベルの低い確認を校正者に促しても良い。
【0086】
902dは原稿と差分がないため、確認情報は表示されていない。ただし「70万円」(数値情報(金額))に一段階レベルの低い確認情報が表示されていても良い。
【0087】
902eには2ヵ所の差分がある。926「の」は
図5のルールには含まれていないため表示されない。927の「した」は原稿では「す」であり、この文章が現在形か過去形かという時制の違いは、字幕を読む人にとって大きな誤解を生むため確認情報が実線の矩形で表示されている。
【0088】
以上、校正者はこれらの情報を確認しながら、短時間で校正することが可能となる。以上で
図9の説明を完了する。
【0089】
図11は、本発明の実施形態に係る音声認識結果を字幕として表示する画面の一例である(テレビなどの画面)。例えばテレビのニュース番組でアナウンサーが原稿を読み上げている場面が表示されている。
【0090】
音声認識結果文字列1101は、校正まで完了した結果を情報処理端末102bから受け取り、そのまま表示したものである。行頭に「>>」を付与して音声認識結果の字幕であることを分かりやすく示している。
【0091】
またニュースなどの画面では、本願発明のアナウンサーの音声を音声認識結果を用いた字幕とは別に、ニュースの要約などを大きくテロップとして表示することが多い。これを音声認識結果の字幕と区別するため、原稿外表示文字列1102と呼ぶことにする。
【0092】
音声認識結果文字列1101と原稿外表示文字列1102が両方表示されると、文字が重なって非常に読みにくくなったり、また短時間で大量の文字を読むことができなかったりするなどの問題が発生する。
【0093】
そこで、音声認識結果を表示しない方法を説明する。
図4の原稿記憶部331の原稿番号2、最後の行に「原稿外」として「稲川容疑者、業務上横領の疑い」が登録されている。原稿外というのは、
図11の原稿外表示文字列1102として、アナウンサーの発話とは関係なく表示されることが決まっているものを意味する。
【0094】
この原稿外表示文字列1102が表示されれば、原稿内の「業務上横領の疑いがもたれています」という行に対応する音声認識結果が表示されなくとも視聴者には十分な情報が伝わると考えられる。そこで
図7、
図8のフローチャートに追加の説明をする。
【0095】
図8のステップS802で音声認識結果に類似する行をリストアップした際に、その行が「原稿外」のものが上位あるいは非常に高い類似度で含まれていれば、原稿外の表示がテレビにされると判断し、当該音声認識結果に対する処理を中断する、すなわち、ステップS701に戻り、次の音声入力の処理を開始するということが考えられる。これにより対応する音声認識結果は後続の処理に送られず、存在しなかったものとなる。
【0096】
あるいは、ステップS802の処理で「原稿外の表示が存在する」という確認情報を付与した後で、従来の説明と同様の処理を継続し、校正者に前記「原稿外の表示が存在する」旨を表示し、校正者の判断で表示しないようにする、ということも可能である。
【0097】
いずれにしても、表示しないことを自動的、あるいは校正者が簡単な操作で決定可能となり、よりリアルタイムな字幕表示が可能になるという効果を得ることが可能となる。また視聴者から見て画面にある大量の文字を読まなければならないこと自体を回避するという効果を得ることが可能となる。以上で、
図11の説明を完了する。
【0098】
以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0099】
また、本発明におけるコンピュータプログラムは、
図7、
図8に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は
図7、
図8の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは
図7、
図8の各装置の処理方法ごとのコンピュータプログラムであってもよい。
【0100】
以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0101】
この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。
【0102】
コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
【0103】
また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0104】
さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0105】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0106】
さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0107】
101 音声認識サーバ
102 情報処理端末
311 音声取得部
312 音声データ送信部
313 確認情報受信部
314 校正用表示部
315 校正部
316 校正結果送信部
317 字幕受信部
321 音声データ受信部
322 音声認識部
323 確認情報付与部
324 確認情報送信部
325 校正結果受信部
326 字幕配布部
331 原稿記憶部
332 確認ルール記憶部