(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-21
(45)【発行日】2023-03-02
(54)【発明の名称】情報処理装置、情報処理システム、制御方法、およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20230222BHJP
【FI】
G10L15/22 470Z
G10L15/22 460Z
(21)【出願番号】P 2018026120
(22)【出願日】2018-02-16
【審査請求日】2021-02-16
(73)【特許権者】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(73)【特許権者】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】下郡山 敬己
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2017-040856(JP,A)
【文献】特開2009-210747(JP,A)
【文献】特開2010-282083(JP,A)
【文献】特開2015-206998(JP,A)
【文献】特開2009-015148(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備
え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置。
【請求項2】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備
え、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが個体名を示すかの判定に基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置。
【請求項3】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置であって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備
え、
前記出力制御手段は、発話から経過した時間に基づいて前記一連のテキストデータの校正が不要である旨の情報を表示装置に表示させることを特徴とする情報処理装置。
【請求項4】
前記一連のテキストデータとは、発話の区切りによって区分された音声データの認識により得られる少なくとも1つの文字データを含むテキストデータであることを特徴とする請求項1~
3のいずれか1項に記載の情報処理装置。
【請求項5】
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え
、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理システム。
【請求項6】
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え
、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが個体名を示すかの判定に基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理システム。
【請求項7】
連続する音声データから所定の条件で区分された一連の音声データの認識に基づくテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置と表示装置とを含む情報処理システムであって、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を前記表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
を備え
、
前記出力制御手段は、発話から経過した時間に基づいて前記一連のテキストデータの校正が不要である旨の情報を表示装置に表示させることを特徴とする情報処理システム。
【請求項8】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置の制御方法であって、
出力制御手段が、前記区分された音声データごとの前記一連のテキストデータに対し、
前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御ステップと、
受付手段が、前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付ステップと
を備え
、
前記出力制御ステップでは、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする情報処理装置の制御方法。
【請求項9】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、
前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段と
として機能させ、
前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識結果の誤り校正するための支援に関する技術であって、認識誤りのある文字列を校正する際に、重要な部分から校正するための優先度を提示して、最終的な結果を目にする読者の情報保障の精度を高める技術に関する。
【背景技術】
【0002】
従来から、人間の発話を文字列に変換する音声認識の研究開発が行われていた。実際の応用として、テレビ放送に字幕をつける、ろう者が他者の発話を理解する、などの目的で使用されてきた。
【0003】
特に近年、機械学習の進展などもあり実用的な認識精度が実現されるようになってきている。とはいえ、まだ十分な認識精度が達成されているわけではなく、特に発話者の話し方にも注意する必要がある。例えばマイクと口との距離、発話の明確さなどにより認識精度は大きく変わる。
【0004】
そのため、音声認識結果の文字列をパソコン上などで正しく修正するためのソフトウェアも実現されている。
【0005】
もともと“パソコン要約筆記”として、発話者の発話を聞きパソコンに入力してろう者に提供するサービスがあったが、音声認識技術を利用したソフトウェアの出現により入力する人の作業を支援することが可能になってきている。
【0006】
それらのソフトウェアは、一般的には発話が途切れたタイミングなどで区切って、音声認識結果(文字列)もその区切りの単位で時系列に画面に表示する。それらの文字列をパソコン要約筆記として訓練をされた校正者が修正することになる。
【0007】
しかしながら通常、発話は認識結果を修正する作業、すなわち情報処理装置におけるキーボード入力作業よりも高速であるため、修正作業を行う校正者の負担は、まだ十分に軽減されてはいない。
【0008】
特許文献1は、音声認識の誤認識を正しく修正する校正者の作業を支援する音声認識結果編集装置を提供している。
【0009】
特許文献1の技術では、マイクから入力された発話を音声認識部により単語毎に信頼度を付与された文字列に変換する。この際、最も信頼度の高い単語だけではなく所定の条件を満たす単語、例えば一定の値以上の確信度を持つ単語を文字列に変換し音声認識結果集合として含むため、校正者は複数の単語の正解候補から正しい認識結果を選択・修正することが出来る(特許文献1の段落0013、
図8)。
【先行技術文献】
【特許文献】
【0010】
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら1つの発話には複数の単語が含まれるため、特許文献1の技術では、単語の数が多いときには認識結果は膨大な数になり表示装置に分かりやすく表示することが困難になる。特に前記パソコン要約筆記の場合、文脈から判断して分かりやすく修正していくため、修正中の発話より前の発話の文字列も確認することがあるが、その領域がない可能性もある。すなわち単に認識結果の候補を表示するだけでは校正者にとって効率的な支援とはならない場合がある。
【0012】
また校正者の数が足りない場合には、全ての音声認識誤りを修正不可能な場合もある。この場合には修正する部分を優先的に判断する必要があるが、特許文献1に記載の技術では、修正しないまま一定時間が経過してしまった音声認識結果は、その重要度にかかわらず修正しない(特許文献1の段落0022、
図5に記載のタイムアウト処理)と判断するだけであり、重要な情報であっても一定時間が経過すれば破棄、または未修正のまま表示されるという問題がある。
【0013】
また、全ての発話に対応する文字列が校正者によって修正されることが理想ではあるが、現実には不可能な場合もある。不可能な場合には適切な優先順位をつけて校正者に修正させることで、修正結果を見る人(例えばろう者)に可能な限り分かりやすい情報を提供することが必要である。
【0014】
本発明の目的は、前記の問題に鑑み、連続する音声データから区分された音声データの認識結果である一連のテキストデータに対し、校正すべき優先順位を示す情報を表示してユーザに効率的に修正させるための技術を提供することである。
【課題を解決するための手段】
【0015】
連続する音声データから所定の条件で区分された音声データの認識に基づく一連のテキストデータと、前記一連のテキストデータの認識の確からしさを示す第1確信度を取得する情報処理装置であって、前記区分された音声データごとの前記一連のテキストデータに対し、前記一連のテキストデータの第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させる出力制御手段と、前記情報が表示されたテキストデータを更新すべく、当該テキストデータの修正を受け付ける受付手段とを備え、前記出力制御手段は、前記一連のテキストデータに含まれる文字データが所定の品詞であるかに基づいて調整される前記第1確信度に基づいて当該一連のテキストデータを校正すべき優先順位を示す情報を表示装置に表示させることを特徴とする。
【発明の効果】
【0016】
本発明により、前記の問題に鑑み、連続する音声データから区分された音声データの認識結果である一連のテキストデータに対し、校正すべき優先順位を示す情報を表示してユーザに効率的に修正させるための技術を提供することが可能となる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態に係るシステム構成の一例を示す図である。
【
図2】本発明の実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図3】本発明の実施形態に係る機能構成の一例を示す図である。
【
図4】本発明の実施形態に係る音声認識結果を表示する画面の一例を示す図である。
【
図5】本発明の実施形態に係る音声人入力から校正の配布までの処理の一例を示す図である。
【
図6】本発明の実施形態に係る認識結果と認識結果の確信度のデータ形式の一例を示す図である。
【
図7】本発明の実施形態に係る音声認識結果の解析と校正のための優先順位付けまでの処理を説明するフローチャートの一例を示す図である。
【
図8】本発明の実施形態に係る校正のための優先順位付けの処理を説明するフローチャートの一例を示す図である。
【
図9】本発明の実施形態に係る優先順位の処理に用いる情報を記憶する記憶部の一例を示すための図である。
【
図10】本発明の実施形態に係る音声認識結果の確信度を再計算した結果の一例を示すための図である。
【
図11】本発明の実施形態に係る音声認識結果を表示するユーザインタフェースの一例を示すための図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係るシステム構成の一例を示す図である。
<システム構成例1>
【0019】
本発明の実施形態に拘わるシステムは、音声認識サーバ101、情報処理端末102(発話者用102a、校正者用102b、読者用102cとする)で構成される。ユーザは情報処理端末102aに接続されたマイク104で音声を入力する。情報処理端末102aは、前記音声を音声認識サーバ101に送信して文字列に変換し情報処理端末102a~cに送り、情報処理端末102a~cで表示、ユーザに提示する。すなわち、情報処理端末102a~cは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。ここで出力される情報処理端末102においては、後述する読者用102cと校正者用102bが兼ねられていてもよいし、またそれぞれ専用の情報処理端末であってもよい。また出力は情報処理端末102に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に拘わるシステム構成とする。プロジェクタを使う場合であれば、情報処理端末102は発話者用の一台のみで、当該情報処理端末102aに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を読者全員が読んでもよい。その場合、発話者用の前記情報処理端末102aで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。
【0020】
さらに音声認識サーバ101は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ101上の機能を、クラウドサービスする形態であってもよい。これらのサービスを利用する形態であっても、本発明の実施形態に拘わるシステム構成とする。
<システム構成例2>
【0021】
構成例1で説明した情報処理端末102a~cは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。
<システム構成例3>
【0022】
音声認識サーバ101と情報処理端末102a~cは同一筐体であってもよい。すなわち、
図1における情報処理端末102a~cのうちの1つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ101を兼ねていてもよい。
【0023】
図2は、本発明の実施形態に係る音声認識サーバ101、情報処理端末102a~cに適用可能なハードウェア構成の一例を示すブロック図である。
【0024】
図2に示すように、音声認識サーバ101、情報処理端末102a~cは、システムバス204を介してCPU(Central Processing Unit)201、RAM(Random Access Memory)202、ROM(Read Only Memory)203、入力コントローラ205、ビデオコントローラ206、メモリコントローラ207、通信I/Fコントローラ208等が接続された構成を採る。 CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
【0025】
また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、各サーバあるいは各PCが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。
【0026】
RAM202は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0027】
また、入力コントローラ205は、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。
【0028】
ビデオコントローラ206は、ディスプレイ210等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。
【0029】
メモリコントローラ207は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、あるいは、PCMCIA(Personal Computer Memory Card International Association)カードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0030】
通信I/Fコントローラ208は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いた通信等が可能である。
【0031】
尚、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上に表示することが可能である。また、CPU201は、ディスプレイ210上のマウスカーソル(図示しない)等によるユーザ指示を可能とする。
【0032】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。
図3は、本発明の実施形態に係る機能構成の一例を示す図である。
【0033】
なお、情報処理端末102は、発話者用102a、校正者用102b、読者用103bの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。
【0034】
音声取得部311は、情報処理端末102が内蔵している、あるいは接続されたマイクなどから話者の音声による発話を音声データとして入力し、音声データ送信部312により音声認識サーバ101に送信する。
【0035】
音声認識サーバ101は、音声データ受信部321で受信した音声データを音声認識部322に渡して音声データを文字列に変換し、当該文字列を認識結果送信部323により情報処理端末102に認識結果として送り返す。また、前述の認識結果を認識結果管理部324により認識結果記憶部320に格納する。
【0036】
情報処理端末102は、前記文字列を認識結果受信部313にて受信し、表示部314により表示することで読者(情報処理端末102のユーザ)に提示する。
【0037】
優先順位決定部325は、情報処理端末102を用いて音声認識の誤りを校正するための校正者が、優先的に校正すべき文字列を識別可能とするため認識結果記憶部320に格納された認識結果に優先順位を付与する。
【0038】
優先順位付けされた文字列は、情報処理端末102に送信され、情報処理端末102の表示部314によって前記の通り校正者が校正すべき優先順位を識別可能に表示する。認識結果校正部315は、校正者が文字列を編集することで、認識結果の誤りを校正するための機能を提供する。
【0039】
前記校正結果は、情報処理端末102の校正結果送信部316により、音声認識サーバ101に送信され、音声認識サーバ101の校正結果受信部326が受信し、認識結果記憶部320に格納されている認識結果を更新する。
【0040】
前記更新された認識結果は、校正結果配布部327により、校正者が校正するために使用した情報処理端末102以外の情報処理端末102にも配布され、読者が校正結果を見ることが出来るように提示される。
図4は、本発明の実施形態に係る音声認識結果を表示する画面の一例を示す図である。
【0041】
発話例400は、会議や講演会などにおける発話者の発話例である。発話者は1人に特定する必要はなく、例えば会議であれば議長以外にも発言の可能性があり、また講演会などにおいては講演者の他に司会者や質問者などの発話があってもよい。
【0042】
発話例400においては、A~Kに区分されているが、これらは発話者の発話の区切りである。例えば、発話に一定時間の空白(無音の状態)があった場合などを示している。
【0043】
これに対して、音声認識結果表示画面401においても前記A~Kに対応して区切られているが(複数の表示枠404A~K)、これらは音声認識サーバ101の音声認識部322が前記無音の状態を認識するなどして認識結果の文字列を区切るものである。これらを区切った状態で認識結果記憶部320に格納し、また、情報処理端末102の表示部314が、読者に分かりやすく区切って表示するものである。これは例であって、必ずしも404を区切らなくてもよく、設計事項に過ぎない。あくまで後述する校正のための優先順位が認識可能に表示されていればよい。
【0044】
開始ボタン402は、発話を音声認識サーバ101にて認識させる際に押下するものである。システム構成図(
図1)に複数の情報処理端末102とそれらに接続したマイクの図を記しているが、いずれの情報処理端末102に接続しているマイクに向かって発話しているかを指定するためのものである。1つの情報処理端末102だけに発話を入力可能としてもよいし、複数の情報処理端末102に同時に発話を入力してもよく、システムの設計によるものである。また、開始ボタン402に対応して発話を入力していない旨を情報処理端末102に通知するための終了ボタン403があってもよい。
【0045】
前記404A~Kのうち404A~Jは前記の“一定時間の空白(無音の状態)”が過ぎた状態を示している。一方で、404Kは認識結果の出力継続中として、まだ音声認識部322が発言者の発話が継続していると判定している状態である。図においては、発話の一部が既に認識済みであるとして、当該一部を表示しているが、区切りが出現した後で、その発言の音声認識結果をまとめて表示してもよい。
【0046】
図5は、本発明の実施形態に係る音声人入力から校正の配布までの処理の一例を示す図である。
図5のフローチャートの各ステップは、音声認識サーバ101上のCPU201、および、情報処理端末102a~c上のCPU201で実行される。
【0047】
ステップS501においては、情報処理端末102aに接続されたマイクなどを通して発話者の発話を受け付け、音声データに変換する。
【0048】
ステップS502においては、情報処理端末102aは、前記音声データを音声認識サーバ101に送信し、ステップS503により音声認識サーバ101にて受信する。
【0049】
ステップS504においては、音声認識サーバ101は、前記音声データにおける発話者の発話を音声認識により文字列に変換する。認識結果の文字列は、前述のとおり発話単位で区切られているが、さらに例えば形態素などの言語的単位で識別可能に区切られている。音声認識の結果には文字列だけではなく、その認識結果を音声認識部322がどの程度の確率で正しいと推定しているか確信度が付与されている。また、形態素などの言語的単位で分割されている場合には、各々の形態素に確信度と詳細の品詞がタグとして付与されていてもよい。形態素解析による品詞づけについては
図10で例をあげて説明するが、いわゆる学校で習う学校文法は“固有名詞”などおおざっぱであるが情報処理においては、例えば固有名詞を“人名”、“地名”などと細かく分類する場合がある。形態素解析、音声認識については周知の技術であり詳細な説明は割愛する。
【0050】
ステップS505においては、音声認識サーバ101は、ステップS504における変換結果の文字列を情報処理端末102に送信する。システム内に複数の情報処理端末102が接続されている場合には、発話を入力した情報処理端末102aのみではなく全ての情報処理端末102に前記文字列を送信する。発話者が使用し音声データを入力した情報処理端末102aに対しても発話者自身が音声認識結果を確認するため送信してもよい。前記情報処理端末102においては、ステップS506において前記文字列を受信する。
【0051】
ステップS507においては、音声認識サーバ101は、音声認識の結果を認識結果記憶部320に格納する。認識結果が格納される形式については
図6を用いて詳細に説明する。
【0052】
図6は、本発明の実施の形態にかかわる認識結果と認識結果の確信度のデータ形式の一例を示す図である。一例として認識結果が認識結果情報600の構造に格納されているとして説明する。
【0053】
601A~Jは、
図4の発話A~Jに対応したデータである。前述したとおりの発話の区切りに対応し、音声認識部322の結果である文字列を認識文字列603に格納する。602A~Jは、発話601A~Jの各々に対応した確信度である。各々の認識結果は、認識文字列603の他に後述する形態素表記604と各々の形態素の認識結果の確信度605から構成される。
【0054】
また形態素表記604の枠内の背景が濃いもの(606など)については
図8~
図10を用いて後述するが、特に音声認識結果が誤認識されていると読者にとって分かりにくくなるため、優先的にどの部分を校正するかを判断するために使用する。
【0055】
ステップS508においては、音声認識サーバ101は、発話が新しく入力され前述のステップS507までの処理で認識結果記憶部320に格納された1または複数のデータを管理する、校正の優先順位を決定する、などの管理を行う。すなわち
図6の認識結果情報600を管理する。これらの処理は
図7、
図8で詳細に説明する。
【0056】
音声認識サーバ101における処理とは非同期に、校正者用の情報処理端末102bにおいては、ステップS506で受信した文字列を当該情報処理端末102bの表示装置にて校正者に提示し、ステップS509において、校正者の校正作業を受け付ける。校正者の校正作業とは、情報処理端末102bの表示装置に表示された、識別可能な優先順位に従いながら発話に対応する文字列の編集作業を行うことである。校正をしている状態の画面は
図11を用いて後述する。また、ステップS509において校正作業が始まった時点でその旨を音声認識サーバ101に通知し、認識結果記憶部320に格納されているデータの修正状態を“校正中”に変更する。
【0057】
ステップS510においては、前述の校正が終了した結果の文字列を情報処理端末102bから送信し、ステップS511においては音声認識サーバ101がその結果を受信して、認識結果記憶部320に格納されているデータを更新する。その際に修正状態は“完了”、修正要否は“不要”に変更する。
【0058】
ステップS512において音声認識サーバ101の校正結果配布部327は、校正が完了した文字列、すなわち音声認識での誤認識部分が校正された文字列を、情報処理端末102に送信する。
【0059】
前記誤りを校正した校正者用の情報処理端末102bは、校正した時点ですでに正しい文字列が表示されているが、設計事項として当該情報処理端末102b、すなわち自分自身にも正しい文字列を送信してもよい。また、
図5のフローチャートでは校正が終了された文字列は、いったん音声認識サーバ101を経由して情報処理端末102に配布されているが、校正用の情報処理端末102bから直接、他の情報処理端末102に配布してもよい。この違いは設計事項に過ぎず、直接配布する場合も本願発明の請求項の範囲に含むものとする。
【0060】
ステップS513においては、情報処理端末102は、校正された文字列を受信し、情報処理端末102の表示装置に既に表示されている“誤認識を含む文字列”を“校正された文字列”に置き換える。
【0061】
なお
図4の表示枠404A~Kが発言ごとに別々の編集対象となっていてもよいし、合わせて一つの編集対象であってもよい。また同時に1つの表示枠404を複数の校正者が同時に校正しないように、1つの情報処理端末102bで構成中の表示枠404は、他の情報処理端末102bでは校正できないようになっていてもよい。また
図4の一番下の表示枠404は、音声認識が区切れていない文字列の表示が継続しているため、校正できないようになっていてもよい。これらはあくまで設計事項である。
【0062】
図7は、本発明の実施形態にかかわる音声認識結果の解析と校正のための優先順位付けまでの処理(
図5のステップS508)を説明するフローチャートの一例を示す図である。
図7のフローチャートの各ステップは、音声認識サーバ101上のCPU201で実行される。
【0063】
ステップS701においては、新しい発話の音声データの認識結果が認識結果記憶部520に登録されたか否かをチェックする。具体的には
図6の601Jまでが前回のチェックで存在したとして、次の601Kが新たに追加されたか否かをチェックする。登録された場合(“Yes”の場合)には、ステップS702に進む。登録されていない場合(“No”の場合)には、ステップS704に進む。
【0064】
ステップS702においては、新たに追加された音声認識結果の文字列に対して形態素解析を行う。ステップS702の処理により
図10の例に示されているように文字列を区分して品詞が付与されることになる。これにより形態素列を生成する。ただし音声認識結果自体に形態素解析による品詞が付与されている場合にはステップS702は不要であり省略する。
【0065】
ステップS703においては、前記形態素列から個体名を抽出する。個体名抽出の技術については、特開2002-288190などにより周知の技術であるため詳細の説明は割愛する。
【0066】
ステップS704においては、認識結果である文字列(たとえば
図6の601A~J)のうち、校正が未処理であるものに対して、校正すべき優先順位を設定する。詳細は
図8、
図9を用いて後述する。
【0067】
ステップS705においては、音声認識システムの実行が継続している場合(“Yes”の場合)には、ステップS701に戻る。音声認識システムの実行が終了している(“No”の場合)には
図7のフローチャートの処理を完了し、
図5のフローチャートの処理に戻る。すなわち
図5のステップS508を終わった状態に戻る。
【0068】
図8は、本発明の実施形態にかかわる優先順位付けの処理(
図7のステップS704)を説明するフローチャートの一例を示す図である。
図8のフローチャートの各ステップは、音声認識サーバ101上のCPU201で実行される。
【0069】
ステップS801からステップS808は、認識結果記憶部に格納されている結果、すなわち全発話音声データに基づき音声認識された結果(例えば
図6の601A~Jなら10の発話データ)に対する繰り返し処理である。
【0070】
ステップS802においては、1つの音声認識結果に着目する。具体的には前記601A~Jの先頭から順にそのうちの1つに着目する。
【0071】
ステップS803においては、着目中の音声認識結果の優先順位を判定する必要があるか否かを判定する。既に校正済みであるか否か、または
図9の発話後経過条件901に記載されている条件を満たすか否か、により分岐する。この判定は、2種類の判定のOR条件となっているため、いずれかの条件が満たされていれば“Yes”となり、ステップS804にすすむ。何れの条件も満たされていない場合には“No”となり、ステップS805に進む。
【0072】
前記2つの条件のうち校正済みであるか否かついて、具体的に
図10(
図6の一部の認識結果を例として認識状態を付与している)を用いて詳細に説明する。ある一区切りの発話を音声認識した後に最初に
図8のフローチャート(即ち
図7のステップS704)を実行する際には、当該発話の
図10の“修正要否”はまだ何も判断していないため記載がない空白状態であるため条件を満たさない(“No”)。既に校正済みの認識結果については、前記S510の説明にて、校正終了後に
図10の“修正要否”を“不要”としているため条件を満たす(“Yes”)。ただしこの部分は設計事項であり、一度校正終了した認識結果も優先順位をつけ直す対象としてもよい。その場合には、S510において“不要”とはしない。
【0073】
また前記2つのうち発話後経過条件901を条件とする場合を説明する。この条件の意図は、発話が完了した後、時系列的に一定の期間が経過してしまっていると思われるものは、遡って校正しても有用ではないという判断をするためのものである。具体的に
図9の901に記載している3つの例を用いて説明する。
【0074】
発話後経過条件901は、発話されてから一定時間が経過した、ということをどのように判定するかという条件が記載されている。
図9に記載の条件はあくまで例であり、これら3つの方法以外であっても時間経過を判定するいかなる方法であれば本願発明に含むものとする。例を1つずつ説明する。
【0075】
例1は、
図4の発話例400におけるA~Jなど各発話において、その発話が完了した、と見なされる区切りからの実際の時間を測定するものである。例では、終了してから180秒以上経過したものは、校正を不要とする条件になっている。経過時間は
図10の例では“経過時間”フィールドに格納されている。
【0076】
例2は、時間ではないが文字数でカウントするものであり、発話が完了した、と見なされ区切られた後、続く発話の文字が500文字以上認識結果として提示されれば、その時点で校正不要とする。
図6の603を用いて説明すると、603Aの後に603B以降の文字数を合計して500文字に達すれば、601Aの発話の優先順位を計算せず校正不要となる。
【0077】
例3は、読者からの見え方により判断するものである。音声認識結果の文字列は、読者の情報処理端末102の上では時間が経過するに従って、表示されなくなることが通常である。例えば
図4、
図11の音声認識結果表示画面401は発話の区切りで上から時系列順に表示され、画面が一杯になると最新のものが最下行に追加され、そのため最上行のもの(最も古い発話を文字列化したもの)は、スクロールされて上方に消えていく、というユーザインタフェースが考えられる(例えば
図11の1101点線内の部分)。
【0078】
異なる方法であって、時系列順ではなく、即ち新旧に拘わらず画面に残るもの/画面から消えていくものがある場合であっても、消えてしまったものの誤りを校正しても何れの読者も読むことが出来ないため無意味である。従って校正を不要としていくことが考えられる。
【0079】
ここでは3つの例を挙げたが、これら以外の方法であってもよい。またこれらの組み合わせ条件(AND条件、OR条件)であってもよい。
【0080】
ステップS804においては、校正を不要とするため
図10に格納されている情報の“修正要否”を“不要”とする。
【0081】
ステップS805においては、校正のステータスにおける“修正要否”を校正する必要がある場合として“要”、“修正状態”をまだ校正されていないとして“未”とする。
【0082】
ちなみに既に説明している通り、
図5のステップS509において校正を開始した段階で、“修正状態”を“校正中”、校正が終了し校正結果が音声認識サーバ101に送信された段階でステップS511にて修正状態は“完了”、修正要否は“不要”に変更される。
【0083】
次にステップS806においては、例えば
図9の902に従って、確信度を再計算するか否かを判定する。902には例として3つの条件を記載しているがこの条件に限定されるものではない。
【0084】
例えば902の例1では、着目中の音声認識結果に要確認品詞の形態素や個体名が含まれるかを判定する。例えば
図10のBにおいては、“数詞”が含まれており、これが
図9の903において要確認品詞として登録されている。一般に数詞あるいは数値を含む特定のパターンは、会社の売上げや契約上の金額、日付などになるため、誤りがあった場合に読者にとって重要な情報が保障されないことになる。また
図10のEには個体名抽出の結果である数的表現(1002)が含まれている。複数の形態素から校正される、特定の人物、組織、数的な表現を含む場合も誤りがないことを確認必要な個体名である(
図9の904)。
【0085】
902の2つめの例としては、音声認識結果の中に特に確信度が低い形態素が多く含まれている場合、3つめの例としては、発話全体の認識結果の確信度が低い場合を上げている。認識の確信度が低い場合には、誤認識された形態素が多く含まれている可能性が高く、従って個別に重要な情報がある例1とは異なる意味で校正の優先順位が高くなる。
【0086】
形態素解析/個体名抽出などの処理と、902などに記載されている規則に従って、確信度を再計算するものである。確信度の再計算方法は、例として確信度再計算方法905に記載されている。すなわち前述の処理で重要な情報が含まれていれば認識結果の確信度を変更することで校正の優先順位を変更するものである。例えば、要確認品詞903に登録されている単語、個体名抽出条件904で指定された情報がある場合に、どのように確信度を再計算するかが記載されている(905の例1,例2)。
【0087】
なお、ここに
図8のフローチャート形態素解析の処理は記載していないが、音声認識結果自体が、形態素単位に分割されていることが多く、また品詞を音声認識結果の情報として含んでいてもよい。含んでいない場合には、形態素解析や他の方式(辞書を用いるなど)による品詞付けを別途行ってもよい。
【0088】
個体名抽出についても同様である。本発明の実施の形態の一部として含んでいてもよいし、音声認識側で個体名抽出した結果を音声認識結果として含んでいるものの何れであってもよい。
【0089】
ステップS807においては、発話が終わってからの時間によって構成の優先順位を変更するための計算を行う。ステップS803の判定および901の例1において、一定時間経過したものは校正不要としたが、ここではその一定時間が経過する前の認識結果に対する対応である。すなわち、例えば一定時間が経過していない(901の例1)、まだ画面内に表示されている(901の例3)認識結果であれば、校正が“不要”となる状態に近づいているものほど、校正のために残されたタイムリミットが少ないため優先順位を上げて校正させる必要がある。905の例3の式は時間が経過しているほどその認識結果の確信度を下げるものである。
【0090】
ステップS809においては、前述で確信度を再計算した結果を受けて、校正が“要”であるものに対して、確信度でソートを行い、確信度が低いものほど優先的に校正するよう情報処理端末102の表示装置に提示するものである。
【0091】
以上で
図8のフローチャートによる処理の説明を完了する。ここでは確信度を一定のルールに応じて変更したが、必ずしも確信度を変更する必要はない。例えばどの 程度“減点”したかを記憶する別の数値(マイナス・スコアなど)を用いてもよい。確信度を変更したのはあくまで例であり、設計事項である。
【0092】
図8の処理をしたことによって、校正すべき優先順位が決定し、
図10においては、例えば認識結果のEが優先順位1、認識結果のIが優先順位2となった例を記載している。校正者はこの識別可能な情報に基づき、校正する優先順位を判断する。あるいは、優先順位が高いものからしか編集できないように制御してもよい。
【0093】
図11は、本発明の実施形態に係る音声認識結果を表示するユーザインタフェースの一例を示すための図である。本質的には
図4と同じ図であるが、次の点が異なる。
【0094】
1103eは、校正者のいずれかが、この認識結果を校正している旨を表す“中”(校正中)を表示している。また1103g~1103jには優先順位1~4をしている。これにより校正者は校正すべき優先順位を識別可能となる。
【0095】
また1103kは現在発話中の音声認識結果が途中まで認識されその結果が表示されているため“現”と表示されている。この表示枠は校正可能であっても、発話が区切れ次の1103lが表示されるまでは校正できないように制御されていてもよい。
以上で、図面を用いた本願発明に関する説明を完了する。
【0096】
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
【0097】
以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0098】
また、本発明におけるコンピュータプログラムは、
図5、
図7、
図8に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は
図5、
図7、
図8の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは
図5、
図7、
図8の各装置の処理方法ごとのコンピュータプログラムであってもよい。
【0099】
以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0100】
この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。
【0101】
コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
【0102】
また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0103】
さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0104】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0105】
さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0106】
101 音声認識サーバ
102 情報処理端末
320 認識結果記憶部
321 音声データ受信部
322 音声認識部
323 認識結果送信部
324 認識結果管理部
325 優先順位決定部
326 校正結果受信部
327 校正結果配布部