(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118839
(43)【公開日】2024-09-02
(54)【発明の名称】音声認識装置、方法およびそのプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240826BHJP
【FI】
G10L15/22 470F
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023025382
(22)【出願日】2023-02-21
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】足羽 憲一朗
(72)【発明者】
【氏名】武川 さゆみ
(72)【発明者】
【氏名】金子 優太
(57)【要約】
【課題】音声データを人手を用いずに効率良く安価に言語化でき、かつ高精度の言語モデルを必要とすることなく用途に応じた適切な品質の文書データを作成できるようにする。
【解決手段】音声認識により生成された単語列に対し校正処理を行う校正部を新たに備える。校正部では、辞書生成時に、複数の誤認識単語列の各々に対しその出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、前記誤認識パターン情報の各々に対しその用途を対応付けた用途パターン情報を生成して、校正用辞書記憶部に記憶する。そして、運用時に、音声認識により生成された単語列とその用途を表す情報とをもとに、前記誤認識パターン情報および用途パターン情報を参照して前記単語列に対応する正解単語列を選択し、選択した正解単語列を校正済単語列として出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
入力された音声データから一定時間長ごとに音声特徴量を抽出する特徴量抽出部と、
予め記憶された言語モデルおよび音響モデルをもとに、前記音声特徴量に対し所定の類似度条件を満たす単語列を生成する音声認識処理部と、
生成された前記単語列に対し校正処理を行って校正済単語列を出力する校正部と、
前記校正済単語列をもとに文書データを生成し出力する出力部と
を具備し、
前記校正部は、
前記音声認識処理部により生成された複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正用辞書として記憶する校正用辞書生成処理部と、
前記音声データの入力に応じて前記音声認識処理部により生成された前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正用辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を前記校正済単語列として出力する校正処理部と
を備える音声認識装置。
【請求項2】
前記校正処理部は、
入力された前記音声データの用途を表す情報を取得し、取得した前記用途を表す情報をもとに前記用途パターン情報を参照して対応する前記誤認識パターン情報を少なくとも1つ特定する処理と、
特定された前記誤認識パターン情報のうち、前記音声認識処理部により生成された前記誤認識単語列を含みかつその出現頻度が最も高い前記誤認識パターン情報を選択する処理と、
選択した前記誤認識パターン情報から前記正解単語列を読み出し、読み出した前記正解単語列を前記校正済単語列として出力する処理と
を行う、請求項1に記載の音声認識装置。
【請求項3】
前記校正用辞書生成処理部は、予め用意された複数の用途の一覧リストにおいて、前記誤認識パターン情報に対応する用途にフラグを設定したものを前記用途パターン情報とする、請求項1に記載の音声認識装置。
【請求項4】
情報処理装置が実行する音声認識方法であって、
入力された音声データから一定時間長ごとに音声特徴量を抽出する第1の過程と、
予め記憶された言語モデルおよび音響モデルをもとに、前記音声特徴量に対し所定の類似度条件を満たす単語列を生成する第2の過程と、
生成された前記単語列に対し校正処理を行って校正済単語列を出力する第3の過程と、
前記校正済単語列をもとに文書データを生成し出力する第4の過程と
を具備し、
前記第3の過程は、
前記第2の過程により生成された複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正用辞書として記憶する校正用辞書生成過程と、
前記音声データの入力に応じて前記第2の過程において生成された前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正用辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を前記校正済単語列として出力する校正処理過程と
を備える音声認識方法。
【請求項5】
請求項1乃至3のいずれかに記載の音声認識装置が備える各部が実行する処理の少なくとも1つを、前記音声認識装置が備えるプロセッサに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明の一態様は、例えば来客の音声データを文書化するために使用される音声認識装置と、この装置により実行される音声認識方法およびプログラムに関する。
【背景技術】
【0002】
例えば、会議や、コールセンター等の接客現場等において、発言者や来客の音声データをテキストデータ等の文書データに変換して保存することは、後に会議内容や接客内容を確認する上で非常に重要である。
【0003】
音声データを文書化する手法のうち、最も一般的な手法は人が音声を聞いて手作業で文書を書き起こす手法である。この手法は、品質が良好な文書データを作成することができる反面、人手による作業であるため作成に時間を要し、人件費が発生するという課題がある。また、人手を要することで情報の秘匿性が損なわれることが懸念される。
【0004】
一方、音声データを文書化する別の手法として、音声認識技術を用いる手法がある。音声認識技術を用いる手法は、例えば特許文献1に記載されるように、マイクロフォンにより収音された音声信号から一定時間長ごとに音声特徴量を抽出し、予め用意された音響モデルおよび言語モデルを用いて、上記音声特徴量に対し最も類似性の高い単語列を生成し、生成した単語列を所定の形式、例えばテキスト形式の文書データとして出力するものである。この手法は、人手を要しないことから、音声データを短時間で効率良く安価に文書化することができ、かつ情報の秘匿性を高く維持できるという利点がある。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、音声認識技術を用いる既存の手法は、用途(ユースケース)によっては、音声の認識率が低下して、必要とされる品質の文書データを作成することができない。また、どのような用途でも高品質の文書データを作成しようとすると、高精度の言語モデルを用意する必要があり、言語モデルの作成に多大な開発コストが掛かる。
【0007】
この発明は上記事情に着目してなされたもので、音声データを、人手を用いずに効率良く安価に言語化でき、かつ高精度の言語モデルを必要とすることなく用途に応じた適切な品質の文書データを作成できるようにする技術を提供しようとするものである。
【課題を解決するための手段】
【0008】
上記課題を解決するためにこの発明に係る音声認識装置の一態様は、入力された音声データから一定時間長ごとに音声特徴量を抽出する特徴量抽出部と、予め記憶された言語モデルおよび音響モデルをもとに、前記音声特徴量に対し所定の類似度条件を満たす単語列を生成する音声認識処理部とを備える音声認識装置にあって、生成された前記単語列に対し校正処理を行って校正済単語列を出力する校正部と、前記校正済単語列をもとに文書データを生成し出力する出力部とをさらに備える。
【0009】
前記校正部は、校正用辞書生成処理部と、校正処理部とを備える。校正用辞書生成処理部は、音声認識処理部により生成された複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正用辞書記憶部に記憶する。校正処理部は、前記音声データの入力に応じて前記音声認識処理部により生成された前記単語列と、前記音声データの用途を表す情報とをもとに、前記校正用辞書記憶部に記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記単語列に対応する正解単語列を選択し、選択した前記正解単語列を前記校正済単語列として出力する。
【0010】
この発明の一態様によれば、音声認識技術を用いるため人手が不要となり、音声データを効率良く安価に言語化することができ、また情報の秘匿性を高めることができる。さらに、誤認識単語列に対し正解単語列を対応付けた誤認識パターン情報を予め複数生成し、これらの誤認識パターン情報に対しその用途を表す用途パターン情報を紐付けておくことで、用途ごとにその用途で発生しやすい誤認識単語列を適切に特定して正解単語列に置換することができる。このため、すべての用途に対応可能な高精度の言語モデルを必要とすることなく、用途に応じた適切な品質の単語列からなる文書データを作成することが可能となる。また、高精度の言語モデルを用意する必要がないので、開発コストを抑えて安価なシステムを提供することが可能となる。
【発明の効果】
【0011】
すなわちこの発明の一態様によれば、音声データを、人手を用いずに効率良く安価に言語化でき、かつ高精度の言語モデルを必要とすることなく用途に応じた適切な品質の文書データを作成できるようにする技術を提供することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、この発明の一実施形態に係る音声認識装置のハードウェア構成の一例を示すブロック図である。
【
図2】
図2は、この発明の一実施形態に係る音声認識装置のソフトウェア構成の一例を示すブロック図である。
【
図3】
図3は、
図2に示した音声認識装置の制御部が実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。
【
図4】
図4は、
図2に示した音声認識装置の制御部が実行する音声認識処理の処理手順と処理内容の一例を示すフローチャートである。
【
図5】
図5は、
図4に示した音声認識処理のうち誤認識フレーズ校正処理の処理手順と処理内容の一例を示すフローチャートである。
【
図6】
図6は、
図3に示した音声認識処理装置に設けられる校正辞書の一例を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照してこの発明に係わる実施形態を説明する。
【0014】
[一実施形態]
(構成例)
図1はこの発明の一実施形態に係る音声認識装置のハードウェア構成の一例を示すブロック図、
図2はこの発明の一実施形態に係る音声認識装置のソフトウェア構成の一例を示すブロック図である。
【0015】
音声認識装置VRは、例えばパーソナルコンピュータ等の情報処理装置に設けられる。なお、音声認識装置VRは、スマートフォンやタブレット型端末等の携帯端末に設けられてもよいし、またWeb上またはクラウド上に設けられたサーバコンピュータに設けられてもよい。
【0016】
音声認識装置VRは、中央処理ユニット(Central Processing Unit:CPU)等のハードウェアプロセッサを使用した制御部1を備え、この制御部1に対し、バス6を介して、プログラム記憶部2およびデータ記憶部3を有する記憶ユニットと、音声インタフェース(以後インタフェースをI/Fと略称する)部4と、入出力I/F部5を接続したものとなっている。
【0017】
音声I/F部4には、マイクロフォン40が接続される。マイクロフォン40は、認識対象となる例えば顧客の音声を収音するために使用される。音声I/F部4は、音声符号化回路を備え、上記マイクロフォン40から出力される音声信号を所定の周期でサンプリングして音声データに変換する。
【0018】
入出力I/F部5には、入力デバイス51および表示デバイス52が接続される。入力デバイス51および表示デバイス52は、主に校正辞書の生成モードにおいて、管理者が校正辞書の生成に必要な種々のデータを入力するために使用される。
【0019】
プログラム記憶部2は、例えば、記憶媒体としてSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したもので、OS(Operating System)等のミドルウェアに加えて、一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後OSと各アプリケーション・プログラムとをまとめてプログラムと称する。
【0020】
データ記憶部3は、例えば、記憶媒体として、SSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたもので、記憶領域には、音響モデル記憶部31と、言語モデル記憶部32と、認識フレーズ記憶部33と、校正辞書記憶部34と、校正済フレーズ記憶部35が設けられている。
【0021】
音響モデル記憶部31には、音響モデルが記憶される。音響モデルとしては、例えば、ある音素のある状態からある音声特徴量が出力される確率を表すモデルが用いられる。なお、音素とは音声の最小単位であり、音素の状態とは音素の連なりを表す。音響モデルとしては、例えば、GMM(Gaussian Mixture Model)を用いたGMMモデル、DNN(Deep Neural Network)を用いたDNNモデル等を用いることができる。
【0022】
言語モデル記憶部32には、言語モデルが記憶される。言語モデルとしては、単語の連なりの確率を表したモデルが用いられる。例えば、単語列の出現確率をN個の単語単位の共起関係によって近似的に計算した単語Nグラムモデルが用いられる。なお、単語Nグラムモデルは、例えば、音声認識の対象となる言語資源を大量に集めた学習コーパス(教師データ)に基づいて最尤推定を行うことで生成される。
【0023】
認識フレーズ記憶部33は、音声認識処理により得られた認識フレーズを、校正辞書の生成処理や、認識されたフレーズの校正処理のために一時保存するために用いられる。校正辞書記憶部34には校正辞書が記憶される。校正辞書の一例については後述する。校正済フレーズ記憶部35は、校正済のフレーズを保存するために用いられる。
【0024】
制御部1は、一実施形態を実施するために必要な処理機能として、音声特徴量抽出処理部11と、音声認識処理部12と、校正処理部13と、文書データ出力処理部14とを備える。これらの処理部11~14は、何れもプログラム記憶部2に格納されたアプリケーション・プログラムを制御部1のハードウェアプロセッサに実行させることにより実現される。
【0025】
なお、上記処理部11~14の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
【0026】
音声特徴量抽出処理部11は、音声I/F部4から音声データを取り込み、当該音声データから音声特徴量を抽出する処理を行う。
【0027】
音声認識処理部12は、言語モデルおよび音響モデルを用い、音声特徴量抽出処理部11から出力される音声特徴量に対応するフレーズを生成する処理を行う。なお、言語モデルと音響モデルは、必ずしも独立している必要はなく、一つのモデルに合成した状態で用いられてもよい。
【0028】
校正処理部13は、その処理機能として、校正辞書生成処理部131と、認識フレーズ校正処理部132とを備える。
【0029】
校正辞書生成処理部131は、校正辞書生成モードにおいて、認識フレーズ記憶部33から誤認識フレーズを読み込み、この誤認識フレーズに対し、例えば管理者が入力した正解フレーズと上記誤認識フレーズの出現回数とを対応付けることで、誤認識パターン情報を生成する。
【0030】
また校正辞書生成処理部131は、生成した上記誤認識パターン情報に対し、その用途(以後ジャンルとも云う)を識別するためのフラグを付すことにより、用途パターン情報を生成する。
【0031】
そして校正辞書生成処理部131は、生成した上記誤認識パターン情報および用途パターン情報を相互に対応付けた状態で、校正辞書記憶部34に記憶する。なお、校正辞書生成処理の一例は動作例において説明する。
【0032】
認識フレーズ校正処理部132は、音声認識モードにおいて、音声認識処理部12により認識された誤認識フレーズを認識フレーズ記憶部33から読み込む。そして、読み込んだ上記誤認識フレーズについて、この誤認識フレーズの用途であるジャンルと、その出現回数とをもとに、校正辞書記憶部34に記憶される誤認識パターン情報および用途パターン情報を参照して、上記誤認識フレーズに対応する正解フレーズを特定する。そして、選択した上記正解フレーズを校正済フレーズとして校正済フレーズ記憶部35に記憶する。なお、この誤認識フレーズに対する校正処理の一例についても動作例で説明する。
【0033】
文書データ出力処理部14は、上記校正済フレーズ記憶部35から校正済フレーズを順次読み込んで文書データを生成し、生成した文書データを入出力I/F部5から例えば表示デバイス52へ出力する。
【0034】
(動作例)
次に、以上のように構成された音声認識装置VRの動作例を説明する。
【0035】
(1)校正辞書生成モード
図3は、音声認識装置VRの制御部1が校正辞書生成モードにおいて実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。
【0036】
校正辞書を生成するには、利用が想定される用途(ジャンル)別に、話者の音声を実際に音声認識処理部12で音声認識することにより生成される、一定数以上の認識フレーズを取得する必要がある。
【0037】
(1-1)認識フレーズの収集
音声認識装置VRの制御部1は、例えば入力デバイス51から校正辞書生成モードの実行要求が入力され、この要求をステップS10により検知すると、先ずステップS11において、マイクロフォン40に入力された音声に対応する音声データを音声I/F部4から取得する。
【0038】
音声認識装置VRの制御部1は、次にステップS12において、音声特徴量抽出処理部11により、上記音声データから音声特徴量を抽出する処理を実行する。
【0039】
例えば、音声特徴量抽出処理部11は、取得された音声データに対して一定長の時間間隔ごとに音声特徴量を抽出し、音声の時系列特徴量を出力する。時系列特徴量とは、例えば音声の周波数成分分布の時間変化パターンであり、数十次元のベクトルが数十ミリ秒に1個の割合で時間方向に並んだ特徴量系列からなる。
【0040】
また音声特徴量抽出処理部11は、抽出した上記音声特徴量をもとに音声区間と非音声区間とを判定し、音声区間における音声特徴量のみを抽出する。音声区間と非音声区間の判定は、例えば、音声信号のパワー(エネルギー)が閾値以上の場合を音声区間、閾値未満の場合を非音声区間とする。
【0041】
音声認識装置VRの制御部1は、次にステップS13において、音声認識処理部12の制御の下、抽出された上記音声特徴量に基づいて、単語列、つまりフレーズを認識する処理を以下のように実行する。
【0042】
すなわち、音声認識処理部12は、言語モデル記憶部32に記憶される言語モデルおよび音響モデル記憶部31に記憶される音響モデルを用い、上記音声特徴量抽出処理部11により抽出された音声特徴量に対して最も確率の高い、つまり類似度が最も高いフレーズを生成する。そして音声認識処理部12は、生成した上記認識フレーズを時系列順に認識フレーズ記憶部33に保存する。
【0043】
音声認識装置VRの制御部1は、上記した音声認識処理を行いながら、ステップS14において、校正辞書の生成に必要な一定量以上の認識フレーズが取得されたか否かを判定する。この判定の結果、上記必要量に達していなければ、ステップS11に戻って上記ステップS11~ステップS13による音声認識処理を続ける。
【0044】
(1-2)校正辞書の生成
一方、必要量以上の認識フレーズが取得されたと判定されると、音声認識装置VRの制御部1は、校正辞書生成処理部131の制御の下、次のように校正辞書の生成処理を実行する。
【0045】
すなわち、校正辞書生成処理部131は、先ずステップS15により認識フレーズ記憶部33から認識フレーズを一定数ずつ読み出し、読み出した認識フレーズを入出力I/F部5から表示デバイス52へ出力し表示する。なお、一度に読み出す認識フレーズの数は任意である。
【0046】
これに対し管理者は、表示された上記認識フレーズの各々について音声認識結果が正しいか誤っているかを判断し、誤っている場合には入力デバイス51により正解フレーズを入力する。校正辞書生成処理部131は、ステップS16において、入力された上記正解フレーズを入出力I/F部5を介して取得し、取得した上記正解フレーズを上記誤認識フレーズに対応付けることで誤認識パターン情報を生成する。
【0047】
またそれと共に、校正辞書生成処理部131は、ステップS17において、上記誤認識フレーズについて、Nグラムコーパスを生成し、生成したNグラムコーパスを上記誤認識パターン情報に加える。そして、上記誤認識パターン情報を校正辞書記憶部34に記憶する。
【0048】
ここで、Nグラムコーパスには、誤認識フレーズを構成するN個の単語の列と、当該列ごとの出現頻度(例えば出現回数)を表す統計データが含まれる。例えば、2グラムの場合には、2個の単語の列と、2個の連続する単語が誤認識フレーズ中に現れた回数の統計データが含まれる。
【0049】
図6に誤認識パターン情報の一例を示す。この例では、FPが誤認識フレーズと正解フレーズとを対応付けた情報を示し、ONがNグラムコーパスとして2グラムの場合を示している。
【0050】
さらに、校正辞書生成処理部131は、ステップS18において、上記誤認識フレーズに対するジャンルの一覧を示す用途パターン情報のテンプレートデータを、入出力I/F部5から表示デバイス52へ出力し表示する。これに対し管理者は、表示された上記ジャンルの一覧に対し、上記誤認識フレーズが発生したジャンルにフラグを設定するために、入力デバイス51においてフラグ設定情報を入力する。
【0051】
校正辞書生成処理部131は、ステップS18において、上記フラグ設定情報を入出力I/F5を介して受け取ると、上記用途パターン情報中の該当するジャンルにフラグを設定する。そして、フラグが設定された上記用途パターン情報を、先に生成した誤認識パターン情報と対応付けて、校正辞書記憶部34に記憶する。
【0052】
図6に示した例では、用途パターン情報GPとして「あいさつ」、「コールセンター」、「接客」などの複数のジャンルが用意され、これらのジャンルのうち誤認識フレーズが発生したジャンルに対しフラグ“1”が設定された場合を示している。なお、誤認識フレーズが発生していないジャンルに対しては、フラグ“0”が設定される。
【0053】
校正辞書生成処理部131は、認識フレーズ記憶部33に記憶されたすべての認識フレーズに対する設定入力処理が終了したか否かを、ステップS19により判定する。そして、この判定の結果、未設定の誤認識フレーズが残っている場合には、ステップS15に戻って未設定の次の認識フレーズを読み出し、この認識フレーズに対しステップS15~ステップS19による一連の設定処理を繰り返し実行する。
【0054】
一方、すべての認識フレーズに対する設定処理が終了すると、校正辞書生成処理部131は、ステップS20において辞書生成モードが終了したか否かを判定する。この判定の結果、まだ終了していない場合、例えば認識フレーズの収集が行われていないジャンルが残っている場合には、ステップS11に戻る。そして、ステップS11~ステップS19により、未設定のジャンルについて音声データの収集から校正辞書生成までの一連の処理を繰り返し実行する。
【0055】
そして、対象となるすべてのジャンルについての処理が終了すると、音声認識装置VRの制御部1は、校正辞書生成モードを終了する。
【0056】
(2)音声認識モード
図4は、音声認識装置VRの制御部1が音声認識モードにおいて実行する、誤認識フレーズの校正処理を含む音声認識処理の処理手順と処理内容の一例を示すフローチャートである。
【0057】
ここでは、例えば店舗やオフィスの受付において、受付担当者が来客に対し「接客」を行う場合に、客の発話音声と共に受付担当者の応答音声を音声認識して、その文書データを作成する場合を例にとって説明する。
【0058】
(2-1)音声認識処理
入力デバイス51から音声認識モードの実行要求が入力されると、音声認識装置VRの制御部1は上記実行要求をステップS30により検知し、以後以下のように音声認識処理を実行する。
【0059】
すなわち、音声認識装置VRの制御部1は、先ずステップS31において、マイクロフォン40に入力された音声に対応する音声データを音声I/F部4から取得する。音声認識装置VRの制御部1は、次にステップS32において、音声特徴量抽出処理部11により、取得された上記音声データから一定の時間間隔で音声特徴量を抽出する。この音声特徴量の抽出処理は、先に述べた校正辞書生成モードの場合と同様に行われる。
【0060】
音声認識装置VRの制御部1は、続いてステップS33において、音声認識処理部12の制御の下、抽出された上記音声特徴量に基づいて、話者が発したフレーズを認識する処理を実行する。そして音声認識処理部12は、生成した上記認識フレーズを時系列順に認識フレーズ記憶部33に保存する。なお、この音声認識処理についても、先に述べた校正辞書生成モードの場合と同様に行われる。
【0061】
(2-2)認識フレーズの校正
上記音声認識処理において認識フレーズが得られると、音声認識装置VRの制御部1は、次にステップS34において、認識フレーズ校正処理部132の制御の下、誤認識フレーズに対する校正処理を以下のように実行する。
【0062】
図5は、認識フレーズ校正処理部132が実行する校正処理の処理手順と処理内容の一例を示すフローチャートである。
【0063】
認識フレーズ校正処理部132は、先ずステップS40において、入力デバイス51から管理者が入力するジャンルを表す情報を取得する。なお、ジャンルを表す情報は、音声認識装置VRの用途が決まった時点で、管理者が入力するジャンル情報をデータ記憶部3内に保存しておいてもよいし、音声認識装置VRが接客システムに接続された時点で、システムからジャンル情報を自動取得してもよい。
【0064】
認識フレーズ校正処理部132は、次にステップS41において、校正辞書記憶部34から上記ジャンルに対応する誤認識パターン情報をもれなく選択する。例えば、
図6に示す例では、「接客」にフラグ“1”が設定されている項番「1」、「2」、「x」の誤認識パターン情報を選択する。
【0065】
そして認識フレーズ校正処理部132は、ステップS42において、選択した上記複数の誤認識パターン情報の中から、上記認識フレーズを含む誤認識パターン情報を選択する。例えば、認識フレーズが「とうござました」であれば、
図6に示す例では、項番「2」が選択される。また、同一の認識フレーズが登録されている項番が他にもある場合には、その誤認識パターン情報も同様に選択される。
【0066】
なお、上記認識フレーズが正しく認識されたフレーズであれば、該当する誤認識パターン情報は存在しない。従って、この場合には誤認識パターン情報は選択されない。
【0067】
誤認識パターン情報が選択されると、認識フレーズ校正処理部132は、次にステップS43において、選択された上記誤認識パターン情報のうち、誤認識フレーズの2グラムコーパスONにより表される出現回数が最も多い誤認識パターン情報を選択する。そして、認識フレーズ校正処理部132は、ステップS44において、選択した上記誤認識パターン情報から、誤認識フレーズに対応する正解フレーズを読み出し、読み出した正解フレーズを校正済フレーズ記憶部35に記憶する。
【0068】
例えば、
図6に示す例では、認識フレーズ校正処理部132は、項番「2」の誤認識パターン情報から、正解フレーズ「ありがとうございました」を読み出し、校正済フレーズ記憶部35に記憶する。なお、上記認識フレーズが正しいフレーズだった場合には、この正しい認識フレーズがそのまま校正済フレーズ記憶部35に記憶される。
【0069】
以後同様に、認識フレーズ校正処理部132では、音声認識処理部12により新たな認識フレーズが得られるごとに、当該認識フレーズに対する校正処理が行われる。
【0070】
(2-3)文書データの出力
音声認識装置VRの制御部1は、例えば、校正済フレーズ記憶部35に一定量の校正済フレーズが記憶されるごとに、文書データ出力処理部14の制御の下、ステップS35において、校正済フレーズ記憶部35から校正済フレーズを読み込み、読み込んだ上記校正済フレーズをもとに文書データを編集する。そして、編集した上記文書データを入出力I/F部5から表示デバイス52へ出力し表示する。
【0071】
なお、上記文書データの編集処理は、例えば一定の時間ごとに、或いは1日の営業時間が終了した時点で行われるようにしてもよい。また、編集後の文書データは、例えば管理者の出力要求の入力に応じて出力されるようにしてもよく、またその出力先は外部記憶媒体でもよいし、通信回線を介して遠隔地にある端末等に送信するようにしてもよい。
【0072】
(2-4)音声認識モードの終了
音声認識装置VRの制御部1は、ステップS36により音声認識モードの終了要求の入力を監視する。そして、終了要求が入力されていない状態では、ステップS31に戻り、ステップS31~ステップS36による一連の音声認識処理と認識フレーズの校正処理を繰り返し実行する。
【0073】
一方、音声認識モードの終了要求の入力がステップS36で検知されると、音声認識装置VRの制御部1は、上記一連の処理を終了して待機状態に戻る。
【0074】
(効果)
以上述べたように一実施形態では、音声認識処理部12の後段に、校正辞書生成処理部131と認識フレーズ校正処理部132とを備える校正処理部13を設けている。そして、校正辞書生成モードにおいて、校正辞書生成処理部131の制御の下で、誤認識フレーズと正解フレーズとの対応関係、および誤認識フレーズの出現回数を表す情報を付加した誤認識パターン情報を生成すると共に、この誤認識パターン情報のジャンルを示す用途パターン情報を生成し、生成した上記誤認識パターン情報および用途パターン情報を校正辞書として校正辞書記憶部34に記憶する。また、音声認識モードにおいては、上記認識フレーズ校正処理部132の制御の下で、音声認識処理により得られた誤認識フレーズについて、そのジャンルと出現回数をもとに、上記校正辞書から該当する誤認識パターン情報を選択し、この誤認識パターン情報に定義された正解フレーズを校正済フレーズとして出力するようにしている。
【0075】
従って一実施形態によれば、誤認識フレーズに対し正解フレーズとその出現回数を対応付けた誤認識パターン情報と、この誤認識パターン情報のジャンルを表す用途パターン情報とを相互に対応付けた校正辞書を用いて誤認識フレーズを校正することで、ジャンルごとにこのジャンルにおいて高い頻度で出現する誤認識フレーズを精度良く特定して正解フレーズに置換することができる。このため、音声認識のためにすべてのジャンルに対応可能な高精度の言語モデルを必要とすることなく、ジャンルに応じた適切な品質を有するフレーズからなる文書データを作成することが可能となる。また、音声認識処理用に高精度の言語モデルを用意する必要がないので、開発コストを抑えて安価なシステムを提供することが可能となる。
【0076】
[その他の実施形態]
(1)一実施形態では、校正辞書を生成する際に、正解フレーズおよびジャンルを管理者が入力設定する場合を例にとって説明したが、それに限るものではない。例えば、校正辞書生成用にジャンル別に事前に生成したトレーニング用の文書データがある場合には、校正辞書生成処理部が、音声認識処理部により得られた認識フレーズを上記トレーニング用の文書データと照合することで正解フレーズを探索し、当該正解フレーズを誤認識フレーズと対応付けるようにしてもよい。このようにすることで、校正辞書を自動生成することが可能となる。
【0077】
(2)一実施形態では、音声認識装置の機能をパーソナルコンピュータやスマートフォン等の情報処理端末に備えた場合を例にとって説明したが、Webまたはクラウド上に配置されたサーバコンピュータに備えるようにしてもよい。また、音声認識装置の機能を複数の情報処理端末または情報処理端末とサーバコンピュータとに分散配置するようにしてもよい。この場合、特に音声認識処理用の言語モデルおよび音響モデルと音声認識処理部をサーバコンピュータに配置することで、情報処理端末の記憶容量の削減と処理負荷の軽減を図ることができ、また情報処理端末を安価にすることが可能となる。
【0078】
(3)一実施形態では、話者の生の音声をマイクロフォンMCで収音し、その音声データを音声認識装置VRにリアルタイムに入力して文書データに変換する場合を例にとって説明した。しかし、それに限らず、録音音声を音声認識装置VRに入力するようにしてもよい。このようにすると、例えば映画の出演者の音声や講演における講師の音声を録音しておき、この録音音声を後日文書データに変換することが可能となる。
【0079】
(4)その他、音声認識装置の構成、各処理部の処理手順と処理内容、ジャンルの種類等については、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
【0080】
以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
【0081】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0082】
VR…音声認識装置
1…制御部
2…プログラム記憶部
3…データ記憶部
4…音声I/F部
5…入出力I/F部
6…バス
11…音声特徴量抽出処理部
12…音声認識処理部
13…校正処理部
131…校正辞書生成処理部
132…認識フレーズ校正処理部
14…文書データ出力処理部
31…音響モデル記憶部
32…言語モデル記憶部
33…認識フレーズ記憶部
34…校正辞書記憶部
35…校正済フレーズ記憶部
40…マイクロフォン
51…入力デバイス
52…表示デバイス