IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2024-118841文書校正装置、方法およびプログラム
<>
  • 特開-文書校正装置、方法およびプログラム 図1
  • 特開-文書校正装置、方法およびプログラム 図2
  • 特開-文書校正装置、方法およびプログラム 図3
  • 特開-文書校正装置、方法およびプログラム 図4
  • 特開-文書校正装置、方法およびプログラム 図5
  • 特開-文書校正装置、方法およびプログラム 図6
  • 特開-文書校正装置、方法およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118841
(43)【公開日】2024-09-02
(54)【発明の名称】文書校正装置、方法およびプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240826BHJP
【FI】
G10L15/22 470F
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023025385
(22)【出願日】2023-02-21
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】足羽 憲一朗
(72)【発明者】
【氏名】武川 さゆみ
(72)【発明者】
【氏名】金子 優太
(57)【要約】
【課題】音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする。
【解決手段】音声認識装置の後段に文書校正装置を配置する。そして、この文書校正装置により、先ず校正辞書生成モードが設定された状態で、音声認識装置から出力される誤認識単語列に対しその出現頻度を表す情報と正解単語列とを対応付けた誤認識パターン情報を生成すると共に、誤認識パターン情報に対しその用途を識別する情報を対応付けた用途パターン情報を生成して、これらを校正辞書として記憶する。そして、文書校正モードが設定された状態で、音声データの入力に応じて音声認識装置から出力される単語列と上記音声データの用途を表す情報とをもとに、上記校正辞書の誤認識パターン情報および用途パターン情報を参照して、上記単語列に対応する正解単語列を選択し出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
入力された音声データを単語列に変換する音声認識装置から出力される前記単語列を校正する文書校正装置であって、
前記音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する校正辞書生成処理部と、
前記音声データの入力に応じて前記音声認識装置から出力される前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を校正済単語列として出力する校正処理部と
を備える文書校正装置。
【請求項2】
前記校正処理部は、
入力された前記音声データの用途を表す情報を取得し、取得した前記用途を表す情報をもとに前記用途パターン情報を参照して対応する前記誤認識パターン情報を少なくとも1つ特定する処理と、
特定された前記誤認識パターン情報のうち、前記音声認識装置から出力される前記単語列を含みかつその出現頻度が最も高い前記誤認識パターン情報を選択する処理と、
選択された前記誤認識パターン情報から前記正解単語列を読み出し、読み出した前記正解単語列を前記校正済単語列として出力する処理と
を行う、請求項1に記載の文書校正装置。
【請求項3】
前記校正辞書生成処理部は、予め用意された複数の用途の一覧リストにおいて、前記誤認識パターン情報に対応する用途にフラグを設定したものを前記用途パターン情報とする、請求項1に記載の文書校正装置。
【請求項4】
情報処理装置が実行する文書校正方法であって、
音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する校正辞書生成過程と、
音声データの入力に応じて前記音声認識装置から出力される前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を校正済単語列として出力する校正過程と
を備える文書校正方法。
【請求項5】
請求項1乃至3のいずれかに記載の文書校正装置が備える各部が実行する処理の少なくとも1つを、前記文書校正装置が備えるプロセッサに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一態様は、例えば音声認識により言語化された文書を校正するために使用される文書校正装置、方法およびプログラムに関する。
【背景技術】
【0002】
例えば、会議や、コールセンター等の接客現場等において、発言者や来客の音声データをテキストデータ等の文書データに変換して保存することは、後に会議内容や接客内容を確認する上で非常に重要である。
【0003】
音声データを文書化する手法のうち、最も一般的な手法は人が音声を聞いて手作業で文書を書き起こす手法である。この手法は、品質が良好な文書データを作成することができる反面、人手による作業であるため作成に時間を要し、人件費が発生するという課題がある。また、人手を要することで情報の秘匿性が損なわれることが懸念される。
【0004】
一方、音声データを文書化する別の手法として、音声認識技術を用いる手法がある。音声認識技術を用いる手法は、例えば特許文献1に記載されるように、マイクロフォンにより収音された音声信号から一定時間長ごとに音声特徴量を抽出し、予め用意された音響モデルおよび言語モデルを用いて、上記音声特徴量に対し最も類似度の高い単語列を生成し、生成した単語列を所定の形式、例えばテキスト形式の文書データとして出力するものである。この手法は、人手を要しないことから、音声データを短時間で効率良く安価に文書化することができ、かつ情報の秘匿性を高く維持できるという利点がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2019-35786号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、音声認識技術を用いる既存の手法は、用途(ユースケース)によっては、音声の認識率が低下して、必要とされる品質の文書データを作成することができない。また、どのような用途でも高品質の文書データを作成しようとすると、高精度の言語モデルを用意する必要があり、言語モデルの作成に多大な開発コストが掛かる。
【0007】
この発明は上記事情に着目してなされたもので、音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする技術を提供しようとするものである。
【課題を解決するための手段】
【0008】
上記課題を解決するためにこの発明に係る文書校正装置または方法の一態様は、入力された音声データを単語列に変換する音声認識装置から出力される前記単語列を校正する際に、先ず校正辞書生成モードにおいて、前記音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する。次に、文書校正モードにおいて、前記音声データの入力に応じて前記音声認識装置から出力される前記単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記単語列に対応する正解単語列を選択し、選択した前記正解単語列を前記校正済単語列として出力するようにしたものである。
【0009】
この発明の一態様によれば、誤認識単語列に対し正解単語列を対応付けた誤認識パターン情報を生成し、これらの誤認識パターン情報に対しその用途を表す用途パターン情報を紐付けておくことで、用途ごとにその用途で発生しやすい誤認識単語列を適切に特定して正解単語列に置換することができる。このため、音声認識装置がすべての用途に対応可能な高精度の言語モデルを備えていなくても、用途に応じた適切な品質の単語列からなる文書データを作成することが可能となる。
【発明の効果】
【0010】
すなわちこの発明の一態様によれば、音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする技術を提供することができる。
【図面の簡単な説明】
【0011】
図1図1は、この発明の一実施形態に係る文書校正装置を備えた音声認識システムの構成の一例を示すブロック図である。
図2図2は、この発明の一実施形態に係る文書校正装置のハードウェア構成の一例を示すブロック図である。
図3図3は、この発明の一実施形態に係る文書校正装置のソフトウェア構成の一例を示すブロック図である。
図4図4は、図3に示した文書校正装置の制御部が実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。
図5図5は、図2に示した文書校正装置の制御部が実行する校正処理の全体の処理手順と処理内容の一例を示すフローチャートである。
図6図6は、図5に示した校正処理のうち誤認識フレーズ校正処理の処理手順と処理内容の一例を示すフローチャートである。
図7図7は、図4に示した文書校正装置に設けられる校正辞書の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照してこの発明に係わる実施形態を説明する。
【0013】
[一実施形態]
(構成例)
(1)システム
図1は、この発明の一実施形態に係る文書校正装置を備える音声認識システムの構成の一例を示すブロック図である。
【0014】
このシステムは、マイクロフォンMCと、このマイクロフォンMCから入力された音声データを単語列に変換する音声認識装置VRと、この音声認識装置VRの後段に配置された文書校正装置PRとにより校正される。
【0015】
音声認識装置VRは、音声データ入力部1と、音声特徴量抽出部2と、音声認識部3と、音響モデル4と、言語モデル5と、モデル管理部6とを備える。音声データ入力部1は、マイクロフォンMCから入力される音声信号を所定の周期でサンプリングして音声データに変換する。
【0016】
音声特徴量抽出部2は、上記音声データ入力部1から出力される音声データから音声特徴量を抽出する。より具体的には、音声特徴量抽出部2は、音声データに対して一定長の時間間隔ごとに音声特徴量を抽出し、音声の時系列特徴量を出力する。時系列特徴量とは、例えば音声の周波数成分分布の時間変化パターンであり、数十次元のベクトルが数十ミリ秒に1個の割合で時間方向に並んだ特徴量系列からなる。また音声特徴量抽出部2は、抽出した上記音声特徴量をもとに音声区間と非音声区間とを判定し、音声区間における音声特徴量のみを抽出する。音声区間と非音声区間の判定は、例えば、音声信号のパワー(エネルギー)が閾値以上の場合を音声区間、閾値未満の場合を非音声区間とする。
【0017】
音声認識部3は、言語モデル5および音響モデル4を用い、上記音声特徴量抽出部2から出力される音声特徴量に対応する単語列、つまりフレーズを生成する。より具体的には、音声認識部3は、言語モデルおよび音響モデルに基づいて、上記音声特徴量抽出部2により抽出された音声特徴量に対して最も確率の高い、つまり類似度が最も高いフレーズを生成する。
【0018】
なお、音響モデル4としては、例えば、ある音素のある状態からある音声特徴量が出力される確率を表すモデルが用いられる。なお、音素とは音声の最小単位であり、音素の状態とは音素の連なりを表す。音響モデルとしては、例えば、GMM(Gaussian Mixture Model)を用いたGMMモデル、DNN(Deep Neural Network)を用いたDNNモデル等を用いることができる。
【0019】
一方、言語モデル5としては、単語の連なりの確率を表したモデルが用いられる。例えば、単語列の出現確率をN個の単語単位の共起関係によって近似的に計算した単語Nグラムモデルが用いられる。なお、単語Nグラムモデルは、例えば、音声認識の対象となる言語資源を大量に集めた学習コーパス(教師データ)に基づいて最尤推定を行うことで生成される。
【0020】
モデル管理部6は、上記音響モデル4および言語モデル5のうち特に言語モデルについて、図示しないモデル生成装置からの要求に応じて、登録、更新または削除等の管理を行う。
【0021】
(2)文書校正装置PR
図2はこの発明の一実施形態に係る文書校正装置PRのハードウェア構成の一例を示すブロック図、図3はこの発明の一実施形態に係る文書校正装置PRのソフトウェア構成の一例を示すブロック図である。
【0022】
文書校正装置PRは、例えばパーソナルコンピュータ等の情報処理装置に設けられる。なお、文書校正装置PRは、スマートフォンやタブレット型端末等の携帯端末に設けられてもよいし、またWeb上またはクラウド上に設けられたサーバコンピュータに設けられてもよい。
【0023】
文書校正装置PRは、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを使用した制御部10を備え、この制御部10に対し、バス50を介して、プログラム記憶部20およびデータ記憶部30を有する記憶ユニットと、入出力インタフェース(以後インタフェースをI/Fと略称する)部40を接続したものとなっている。
【0024】
入出力I/F部40には、入力デバイス51および表示デバイス52が接続される。入力デバイス51および表示デバイス52は、主に校正辞書の生成モードにおいて、管理者が校正辞書の生成に必要な種々のデータを入力するために使用される。
【0025】
プログラム記憶部20は、例えば、記憶媒体としてSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したもので、OS(Operating System)等のミドルウェアに加えて、一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後OSと各アプリケーション・プログラムとをまとめてプログラムと称する。
【0026】
データ記憶部30は、例えば、記憶媒体として、SSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたもので、記憶領域には、認識フレーズ記憶部31と、校正辞書記憶部32と、校正済フレーズ記憶部33が設けられている。
【0027】
認識フレーズ記憶部31は、音声認識装置VRから出力される、音声データを音声認識することにより生成された認識フレーズを一時保存するために用いられる。校正辞書記憶部32には校正辞書が記憶される。校正辞書の一例については後述する。校正済フレーズ記憶部33は、校正済のフレーズを保存するために用いられる。
【0028】
制御部10は、一実施形態を実施するために必要な処理機能として、認識フレーズ取得処理部11と、校正辞書生成処理部12と、認識フレーズ校正処理部13と、校正済文書データ出力処理部14とを備えている。これらの処理部11~14は、何れもプログラム記憶部20に格納されたアプリケーション・プログラムを制御部10のハードウェアプロセッサに実行させることにより実現される。
【0029】
なお、上記処理部11~14の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
【0030】
認識フレーズ取得処理部11は、音声認識装置VRから出力される認識フレーズを入出力I/F部40を介して取得し、取得した認識フレーズを認識フレーズ記憶部31に順次保存する。
【0031】
校正辞書生成処理部12は、校正辞書生成モードにおいて、認識フレーズ記憶部31から誤認識フレーズを読み込み、この誤認識フレーズに対し、例えば管理者が入力した正解フレーズと上記誤認識フレーズの出現回数とを対応付けることで、誤認識パターン情報を生成する。
【0032】
また校正辞書生成処理部12は、生成した上記誤認識パターン情報に対し、その用途(以後ジャンルとも云う)を識別するためのフラグを付すことにより、用途パターン情報を生成する。
【0033】
そして校正辞書生成処理部12は、生成した上記誤認識パターン情報および用途パターン情報を相互に対応付けた状態で、校正辞書記憶部32に記憶する。なお、校正辞書生成処理の一例は動作例において説明する。
【0034】
認識フレーズ校正処理部13は、文書校正モードにおいて、音声認識装置VRから出力された誤認識フレーズを認識フレーズ記憶部31から読み込む。そして、読み込んだ上記誤認識フレーズについて、この誤認識フレーズの用途であるジャンルと、その出現回数とをもとに、校正辞書記憶部32に記憶される誤認識パターン情報および用途パターン情報を参照して、上記誤認識フレーズに対応する正解フレーズを特定する。そして、選択した上記正解フレーズを校正済フレーズとして校正済フレーズ記憶部33に記憶する。なお、この誤認識フレーズに対する校正処理の一例についても動作例で説明する。
【0035】
校正済文書データ出力処理部14は、上記校正済フレーズ記憶部33から校正済フレーズを順次読み込んで文書データを生成し、生成した文書データを入出力I/F部40から例えば表示デバイス52へ出力する。
【0036】
(動作例)
次に、以上のように構成された文書校正装置PRの動作例を説明する。
【0037】
(1)校正辞書生成モード
図4は、文書校正装置PRの制御部10が校正辞書生成モードにおいて実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。
【0038】
校正辞書を生成するには、利用が想定される用途(ジャンル)別に、話者の音声を実際に音声認識装置VRで音声認識することにより生成される、一定数以上の認識フレーズを取得する必要がある。
【0039】
(1-1)認識フレーズの収集
文書校正装置PRの制御部10は、例えば入力デバイス51から校正辞書生成モードの実行要求が入力され、この要求をステップS10により検知すると、先ずステップS11において、マイクロフォンMCにより収音された音声を音声認識装置VRにより音声認識して言語化された認識フレーズを、音声認識装置VRから入出力I/F部40を介して取得する。そして、取得した上記認識フレーズをステップS12により認識フレーズ記憶部31に保存する。
【0040】
文書校正装置PRの制御部10は、上記認識フレーズの取得・保存処理を行いながら、ステップS13において、校正辞書の生成に必要な一定量以上の認識フレーズが取得されたか否かを判定する。この判定の結果、上記必要量に達していなければ、ステップS11に戻って上記ステップS11~ステップS13による認識フレーズの取得・保存処理を続ける。
【0041】
(1-2)校正辞書の生成
一方、必要量以上の認識フレーズが取得されたと判定されると、文書校正装置PRの制御部10は、校正辞書生成処理部12の制御の下、次のように校正辞書の生成処理を実行する。
【0042】
すなわち、校正辞書生成処理部12は、先ずステップS14により認識フレーズ記憶部31から認識フレーズを一定数ずつ読み出し、読み出した認識フレーズを入出力I/F部40から表示デバイス52へ出力し表示する。なお、一度に読み出す認識フレーズの数は任意である。
【0043】
これに対し管理者は、表示された上記認識フレーズの各々について音声認識結果が正しいか誤っているかを判断し、誤っている場合には入力デバイス51により正解フレーズを入力する。校正辞書生成処理部12は、ステップS15において、入力された上記正解フレーズを入出力I/F部40を介して取得し、取得した上記正解フレーズを上記誤認識フレーズに対応付けることで誤認識パターン情報を生成する。
【0044】
またそれと共に、校正辞書生成処理部12は、ステップS16において、上記誤認識フレーズについて、Nグラムコーパスを生成し、生成したNグラムコーパスを上記誤認識パターン情報に付加する。そして、この誤認識パターン情報を校正辞書記憶部34に記憶する。
【0045】
ここで、Nグラムコーパスには、誤認識フレーズを構成するN個の単語の列と、当該列ごとの出現頻度(例えば出現回数)を表す統計データが含まれる。例えば、2グラムの場合には、2個の単語の列と、2個の連続する単語が誤認識フレーズ中に現れた回数の統計データが含まれる。
【0046】
図7に誤認識パターン情報の一例を示す。この例では、FPが誤認識フレーズと正解フレーズとを対応付けた情報を示し、ONがNグラムコーパスとして2グラムの場合を示している。
【0047】
さらに、校正辞書生成処理部12は、ステップS17において、上記誤認識フレーズに対するジャンルの一覧を示す用途パターン情報のテンプレートデータを、入出力I/F部40から表示デバイス52へ出力し表示する。これに対し管理者は、表示された上記ジャンルの一覧に対し、上記誤認識フレーズが発生したジャンルにフラグを設定するために、入力デバイス51においてフラグ設定情報を入力する。
【0048】
校正辞書生成処理部12は、ステップS17において、上記フラグ設定情報を入出力I/F40を介して受け取ると、上記用途パターン情報中の該当するジャンルにフラグを設定する。そして、フラグが設定された上記用途パターン情報を、先に生成した誤認識パターン情報と対応付けて、校正辞書記憶部32に記憶する。
【0049】
図7に示した例では、用途パターン情報GPとして「あいさつ」、「コールセンター」、「接客」などの複数のジャンルが用意され、これらのジャンルのうち誤認識フレーズが発生したジャンルに対しフラグ“1”が設定された場合を示している。なお、誤認識フレーズが発生していないジャンルに対しては、フラグ“0”が設定される。
【0050】
校正辞書生成処理部12は、認識フレーズ記憶部31に記憶されたすべての認識フレーズに対する設定入力処理が終了したか否かを、ステップS18により判定する。そして、この判定の結果、未設定の誤認識フレーズが残っている場合には、ステップS14に戻って未設定の次の認識フレーズを読み出し、この認識フレーズに対しステップS14~ステップS18による一連の設定処理を繰り返し実行する。
【0051】
一方、すべての認識フレーズに対する設定処理が終了すると、校正辞書生成処理部12は、ステップS19において辞書生成モードが終了したか否かを判定する。この判定の結果、まだ終了していない場合、例えば認識フレーズの収集が行われていないジャンルが残っている場合には、ステップS11に戻る。そして、ステップS11~ステップS19により、未設定のジャンルについて認識フレーズの収集から校正辞書の生成までの一連の処理を繰り返し実行する。
【0052】
そして、対象となるすべてのジャンルについての処理が終了すると、文書校正装置PRの制御部10は、校正辞書生成モードを終了する。
【0053】
(2)文書校正モード
図5は、文書校正装置PRの制御部10が文書校正モードにおいて実行する、誤認識フレーズの校正処理の処理手順と処理内容の一例を示すフローチャートである。
【0054】
ここでは、例えば店舗やオフィスの受付において、受付担当者が来客に対し「接客」を行う場合に、客の発話音声と共に受付担当者の応答音声を音声認識して、その文書データを作成する場合を例にとって説明する。
【0055】
(2-1)認識フレーズの取得
入力デバイス51から音声認識モードの実行要求が入力されると、文書校正装置PRの制御部10は上記実行要求をステップS30により検知し、以後以下のように文書校正処理を実行する。
【0056】
すなわち、文書校正装置PRの制御部10は、先ずステップS31において、マイクロフォンMCにより収音された音声を言語化した認識フレーズを、音声認識装置VRから入出力I/F部40を介して取得する。そして、取得した上記認識フレーズを認識フレーズ記憶部31に保存する。
【0057】
(2-2)認識フレーズの校正
上記認識フレーズが取得されると、文書校正装置PRの制御部10は、次にステップS33において、認識フレーズ校正処理部13の制御の下、誤認識フレーズに対する校正処理を以下のように実行する。
【0058】
図6は、認識フレーズ校正処理部13が実行する校正処理の処理手順と処理内容の一例を示すフローチャートである。
【0059】
認識フレーズ校正処理部13は、先ずステップS40において、入力デバイス51から管理者が入力するジャンルを表す情報を取得する。なお、ジャンルを表す情報は、文書校正装置PRの用途が決まった時点で、管理者が入力するジャンル情報をデータ記憶部30内に保存しておいてもよいし、文書校正装置PRが音声認識システムに接続された時点で、システムからジャンル情報を自動取得してもよい。
【0060】
認識フレーズ校正処理部13は、次にステップS41において、校正辞書記憶部32から上記ジャンルに対応する誤認識パターン情報をもれなく選択する。例えば、図7に示す例では、「接客」にフラグ“1”が設定されている項番「1」、「2」、「x」の誤認識パターン情報を選択する。
【0061】
そして認識フレーズ校正処理部13は、ステップS42において、選択した上記複数の誤認識パターン情報の中から、上記認識フレーズを含む誤認識パターン情報を選択する。例えば、認識フレーズが「とうござました」であれば、図7に示す例では、項番「2」が選択される。また、同一の認識フレーズが登録されている項番が他にもある場合には、その誤認識パターン情報も同様に選択される。
【0062】
なお、上記認識フレーズが正しく認識されたフレーズであれば、該当する誤認識パターン情報は存在しない。従って、この場合には誤認識パターン情報は選択されない。
【0063】
誤認識パターン情報が選択されると、認識フレーズ校正処理部13は、次にステップS43において、選択された上記誤認識パターン情報のうち、誤認識フレーズの2グラムコーパスONにより表される出現回数が最も多い誤認識パターン情報を選択する。そして、認識フレーズ校正処理部13は、ステップS44において、選択した上記誤認識パターン情報から、誤認識フレーズに対応する正解フレーズを読み出し、読み出した正解フレーズを校正済フレーズ記憶部33に記憶する。
【0064】
例えば、図7に示す例では、認識フレーズ校正処理部13は、項番「2」の誤認識パターン情報から、正解フレーズ「ありがとうございました」を読み出し、校正済フレーズ記憶部33に記憶する。なお、上記認識フレーズが正しいフレーズだった場合には、この正しい認識フレーズがそのまま校正済フレーズ記憶部33に記憶される。
【0065】
以後同様に、認識フレーズ校正処理部13では、音声認識装置VRから新たな認識フレーズが取得されるごとに、当該認識フレーズに対する校正処理が行われる。
【0066】
(2-3)文書データの出力
文書校正装置PRの制御部10は、例えば、認識フレーズ記憶部31に一定量の校正済フレーズが記憶されるごとに、校正済文書データ出力処理部14の制御の下、ステップS34において、認識フレーズ記憶部31から校正済フレーズを読み込み、読み込んだ上記校正済フレーズをもとに文書データを編集する。そして、編集した上記文書データを入出力I/F部40から表示デバイス52へ出力し表示する。
【0067】
なお、上記文書データの編集処理は、例えば一定の時間ごとに、或いは1日の営業時間が終了した時点で行われるようにしてもよい。また、編集後の文書データは、例えば管理者の出力要求の入力に応じて出力されるようにしてもよく、またその出力先は外部記憶媒体でもよいし、通信回線を介して遠隔地にある端末等に送信するようにしてもよい。
【0068】
(2-4)音声認識モードの終了
文書校正装置PRの制御部10は、ステップS35により音声認識モードの終了要求の入力を監視する。そして、終了要求が入力されていない状態では、ステップS31に戻り、ステップS31~ステップS35による一連の認識フレーズの校正処理を繰り返し実行する。
【0069】
一方、文書校正モードの終了要求の入力がステップS35で検知されると、文書校正装置PRの制御部10はは、上記一連の処理を終了して待機状態に戻る。
【0070】
(効果)
以上述べたように一実施形態では、音声認識装置VRの後段に、文書校正装置PRを設けている。そして、文書校正装置PRにおいて、先ず校正辞書生成モードが設定された状態で、校正辞書生成処理部12の制御の下で、誤認識フレーズと正解フレーズとの対応関係、および誤認識フレーズの出現回数を表す情報を付加した誤認識パターン情報を生成すると共に、この誤認識パターン情報のジャンルを示す用途パターン情報を生成し、生成した上記誤認識パターン情報および用途パターン情報を校正辞書として校正辞書記憶部32に記憶する。次に、校正モードが設定された状態で、認識フレーズ校正処理部13の制御の下で、音声認識装置VRから出力された誤認識フレーズについて、そのジャンルと出現回数をもとに、上記校正辞書から該当する誤認識パターン情報を選択し、この誤認識パターン情報に定義された正解フレーズを校正済フレーズとして出力するようにしている。
【0071】
従って一実施形態によれば、誤認識フレーズに対し正解フレーズを対応付けた誤認識パターン情報を生成し、これらの誤認識パターン情報に対しそのジャンルを表す用途パターン情報を紐付けておくことで、ジャンルごとにそのジャンルで発生しやすい誤認識フレーズを適切に特定して正解フレーズに置換することができる。このため、音声認識装置がすべてのジャンルに対応可能な高精度の言語モデルを備えていなくても、ジャンルに応じた適切な品質の単語列からなる文書データを作成することが可能となる。
【0072】
[その他の実施形態]
(1)一実施形態では、校正辞書を生成する際に、正解フレーズおよびジャンルを管理者が入力設定する場合を例にとって説明したが、それに限るものではない。例えば、校正辞書生成用にジャンル別に事前に生成したトレーニング用の文書データがある場合には、校正辞書生成処理部が、音声認識装置から出力される認識フレーズを上記トレーニング用の文書データと照合することで正解フレーズを探索し、当該正解フレーズを誤認識フレーズと対応付けるようにしてもよい。このようにすることで、校正辞書を自動生成することが可能となる。
【0073】
(2)一実施形態では、文書校正装置の機能をパーソナルコンピュータやスマートフォン等の情報処理端末に設けた場合を例にとって説明したが、Webまたはクラウド上に配置されたサーバコンピュータに設けるようにしてもよい。また、文書校正装置の機能を音声認識装置内に設けるようにしてもよい。
【0074】
(3)一実施形態では、話者の生の音声をマイクロフォンMCで収音し、その音声データを音声認識装置VRにより音声認識して言語化し、この音声認識装置VRから出力される認識フレーズを文書校正装置PRにより校正する場合を例にとって説明した。しかし、それに限らず、録音音声を音声認識装置VRに入力するようにしてもよい。このようにすると、例えば映画の出演者の音声や講演における講師の音声を録音しておき、この録音音声を後日文書データに変換することが可能となる。
【0075】
(4)その他、文書校正装置の構成、その各処理部の処理手順と処理内容、ジャンルの種類等については、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
【0076】
以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0077】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0078】
MC…マイクロフォン
VR…音声認識装置
PR…文書校正装置
10…制御部
20…プログラム記憶部
30…データ記憶部
40…入出力I/F部
50…バス
11…認識フレーズ取得処理部
12…校正辞書生成処理部
13…認識フレーズ校正処理部
14…校正済文書データ出力処理部
31…認識フレーズ記憶部
32…校正辞書記憶部
33…校正済フレーズ記憶部
51…入力デバイス
52…表示デバイス
図1
図2
図3
図4
図5
図6
図7