特開2024-118841 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2024-118841文書校正装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024118841

(43)【公開日】2024-09-02

(54)【発明の名称】文書校正装置、方法およびプログラム

(51)【国際特許分類】

G10L 15/22 20060101AFI20240826BHJP

【ＦＩ】

G10L15/22 470F

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2023025385

(22)【出願日】2023-02-21

(71)【出願人】

【識別番号】399035766

【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】足羽憲一朗

(72)【発明者】

【氏名】武川さゆみ

(72)【発明者】

【氏名】金子優太

(57)【要約】

【課題】音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする。
【解決手段】音声認識装置の後段に文書校正装置を配置する。そして、この文書校正装置により、先ず校正辞書生成モードが設定された状態で、音声認識装置から出力される誤認識単語列に対しその出現頻度を表す情報と正解単語列とを対応付けた誤認識パターン情報を生成すると共に、誤認識パターン情報に対しその用途を識別する情報を対応付けた用途パターン情報を生成して、これらを校正辞書として記憶する。そして、文書校正モードが設定された状態で、音声データの入力に応じて音声認識装置から出力される単語列と上記音声データの用途を表す情報とをもとに、上記校正辞書の誤認識パターン情報および用途パターン情報を参照して、上記単語列に対応する正解単語列を選択し出力する。
【選択図】図３

【特許請求の範囲】

【請求項1】

入力された音声データを単語列に変換する音声認識装置から出力される前記単語列を校正する文書校正装置であって、
前記音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する校正辞書生成処理部と、
前記音声データの入力に応じて前記音声認識装置から出力される前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を校正済単語列として出力する校正処理部と
を備える文書校正装置。

【請求項2】

前記校正処理部は、
入力された前記音声データの用途を表す情報を取得し、取得した前記用途を表す情報をもとに前記用途パターン情報を参照して対応する前記誤認識パターン情報を少なくとも１つ特定する処理と、
特定された前記誤認識パターン情報のうち、前記音声認識装置から出力される前記単語列を含みかつその出現頻度が最も高い前記誤認識パターン情報を選択する処理と、
選択された前記誤認識パターン情報から前記正解単語列を読み出し、読み出した前記正解単語列を前記校正済単語列として出力する処理と
を行う、請求項１に記載の文書校正装置。

【請求項3】

前記校正辞書生成処理部は、予め用意された複数の用途の一覧リストにおいて、前記誤認識パターン情報に対応する用途にフラグを設定したものを前記用途パターン情報とする、請求項１に記載の文書校正装置。

【請求項4】

情報処理装置が実行する文書校正方法であって、
音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する校正辞書生成過程と、
音声データの入力に応じて前記音声認識装置から出力される前記誤認識単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記誤認識単語列に対応する正解単語列を選択し、選択した前記正解単語列を校正済単語列として出力する校正過程と
を備える文書校正方法。

【請求項5】

請求項１乃至３のいずれかに記載の文書校正装置が備える各部が実行する処理の少なくとも１つを、前記文書校正装置が備えるプロセッサに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明の一態様は、例えば音声認識により言語化された文書を校正するために使用される文書校正装置、方法およびプログラムに関する。

【背景技術】

【0002】

例えば、会議や、コールセンター等の接客現場等において、発言者や来客の音声データをテキストデータ等の文書データに変換して保存することは、後に会議内容や接客内容を確認する上で非常に重要である。

【0003】

音声データを文書化する手法のうち、最も一般的な手法は人が音声を聞いて手作業で文書を書き起こす手法である。この手法は、品質が良好な文書データを作成することができる反面、人手による作業であるため作成に時間を要し、人件費が発生するという課題がある。また、人手を要することで情報の秘匿性が損なわれることが懸念される。

【0004】

一方、音声データを文書化する別の手法として、音声認識技術を用いる手法がある。音声認識技術を用いる手法は、例えば特許文献１に記載されるように、マイクロフォンにより収音された音声信号から一定時間長ごとに音声特徴量を抽出し、予め用意された音響モデルおよび言語モデルを用いて、上記音声特徴量に対し最も類似度の高い単語列を生成し、生成した単語列を所定の形式、例えばテキスト形式の文書データとして出力するものである。この手法は、人手を要しないことから、音声データを短時間で効率良く安価に文書化することができ、かつ情報の秘匿性を高く維持できるという利点がある。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１９－３５７８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

ところが、音声認識技術を用いる既存の手法は、用途（ユースケース）によっては、音声の認識率が低下して、必要とされる品質の文書データを作成することができない。また、どのような用途でも高品質の文書データを作成しようとすると、高精度の言語モデルを用意する必要があり、言語モデルの作成に多大な開発コストが掛かる。

【0007】

この発明は上記事情に着目してなされたもので、音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする技術を提供しようとするものである。

【課題を解決するための手段】

【0008】

上記課題を解決するためにこの発明に係る文書校正装置または方法の一態様は、入力された音声データを単語列に変換する音声認識装置から出力される前記単語列を校正する際に、先ず校正辞書生成モードにおいて、前記音声認識装置から出力される複数の誤認識単語列の各々に対し、その出現頻度を表す情報と正解単語列とを対応付けた複数の誤認識パターン情報を生成すると共に、生成した前記誤認識パターン情報の各々に対し、その用途を識別するための情報を対応付けた用途パターン情報を生成し、生成した前記誤認識パターン情報および前記用途パターン情報を校正辞書として記憶する。次に、文書校正モードにおいて、前記音声データの入力に応じて前記音声認識装置から出力される前記単語列と、前記音声データの用途を表す情報とをもとに、前記校正辞書として記憶された前記誤認識パターン情報および前記用途パターン情報を参照して、前記単語列に対応する正解単語列を選択し、選択した前記正解単語列を前記校正済単語列として出力するようにしたものである。

【0009】

この発明の一態様によれば、誤認識単語列に対し正解単語列を対応付けた誤認識パターン情報を生成し、これらの誤認識パターン情報に対しその用途を表す用途パターン情報を紐付けておくことで、用途ごとにその用途で発生しやすい誤認識単語列を適切に特定して正解単語列に置換することができる。このため、音声認識装置がすべての用途に対応可能な高精度の言語モデルを備えていなくても、用途に応じた適切な品質の単語列からなる文書データを作成することが可能となる。

【発明の効果】

【0010】

すなわちこの発明の一態様によれば、音声認識装置により言語化されたデータから、用途に応じた適切な品質の文書データを作成できるようにする技術を提供することができる。

【図面の簡単な説明】

【0011】

【図1】図１は、この発明の一実施形態に係る文書校正装置を備えた音声認識システムの構成の一例を示すブロック図である。

【図2】図２は、この発明の一実施形態に係る文書校正装置のハードウェア構成の一例を示すブロック図である。

【図3】図３は、この発明の一実施形態に係る文書校正装置のソフトウェア構成の一例を示すブロック図である。

【図4】図４は、図３に示した文書校正装置の制御部が実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。

【図5】図５は、図２に示した文書校正装置の制御部が実行する校正処理の全体の処理手順と処理内容の一例を示すフローチャートである。

【図6】図６は、図５に示した校正処理のうち誤認識フレーズ校正処理の処理手順と処理内容の一例を示すフローチャートである。

【図7】図７は、図４に示した文書校正装置に設けられる校正辞書の一例を示す図である。

【発明を実施するための形態】

【0012】

以下、図面を参照してこの発明に係わる実施形態を説明する。

【0013】

［一実施形態］
（構成例）
（１）システム
図１は、この発明の一実施形態に係る文書校正装置を備える音声認識システムの構成の一例を示すブロック図である。

【0014】

このシステムは、マイクロフォンＭＣと、このマイクロフォンＭＣから入力された音声データを単語列に変換する音声認識装置ＶＲと、この音声認識装置ＶＲの後段に配置された文書校正装置ＰＲとにより校正される。

【0015】

音声認識装置ＶＲは、音声データ入力部１と、音声特徴量抽出部２と、音声認識部３と、音響モデル４と、言語モデル５と、モデル管理部６とを備える。音声データ入力部１は、マイクロフォンＭＣから入力される音声信号を所定の周期でサンプリングして音声データに変換する。

【0016】

音声特徴量抽出部２は、上記音声データ入力部１から出力される音声データから音声特徴量を抽出する。より具体的には、音声特徴量抽出部２は、音声データに対して一定長の時間間隔ごとに音声特徴量を抽出し、音声の時系列特徴量を出力する。時系列特徴量とは、例えば音声の周波数成分分布の時間変化パターンであり、数十次元のベクトルが数十ミリ秒に１個の割合で時間方向に並んだ特徴量系列からなる。また音声特徴量抽出部２は、抽出した上記音声特徴量をもとに音声区間と非音声区間とを判定し、音声区間における音声特徴量のみを抽出する。音声区間と非音声区間の判定は、例えば、音声信号のパワー（エネルギー）が閾値以上の場合を音声区間、閾値未満の場合を非音声区間とする。

【0017】

音声認識部３は、言語モデル５および音響モデル４を用い、上記音声特徴量抽出部２から出力される音声特徴量に対応する単語列、つまりフレーズを生成する。より具体的には、音声認識部３は、言語モデルおよび音響モデルに基づいて、上記音声特徴量抽出部２により抽出された音声特徴量に対して最も確率の高い、つまり類似度が最も高いフレーズを生成する。

【0018】

なお、音響モデル４としては、例えば、ある音素のある状態からある音声特徴量が出力される確率を表すモデルが用いられる。なお、音素とは音声の最小単位であり、音素の状態とは音素の連なりを表す。音響モデルとしては、例えば、ＧＭＭ（Gaussian Mixture Model）を用いたＧＭＭモデル、ＤＮＮ（Deep Neural Network）を用いたＤＮＮモデル等を用いることができる。

【0019】

一方、言語モデル５としては、単語の連なりの確率を表したモデルが用いられる。例えば、単語列の出現確率をＮ個の単語単位の共起関係によって近似的に計算した単語Ｎグラムモデルが用いられる。なお、単語Ｎグラムモデルは、例えば、音声認識の対象となる言語資源を大量に集めた学習コーパス（教師データ）に基づいて最尤推定を行うことで生成される。

【0020】

モデル管理部６は、上記音響モデル４および言語モデル５のうち特に言語モデルについて、図示しないモデル生成装置からの要求に応じて、登録、更新または削除等の管理を行う。

【0021】

（２）文書校正装置ＰＲ
図２はこの発明の一実施形態に係る文書校正装置ＰＲのハードウェア構成の一例を示すブロック図、図３はこの発明の一実施形態に係る文書校正装置ＰＲのソフトウェア構成の一例を示すブロック図である。

【0022】

文書校正装置ＰＲは、例えばパーソナルコンピュータ等の情報処理装置に設けられる。なお、文書校正装置ＰＲは、スマートフォンやタブレット型端末等の携帯端末に設けられてもよいし、またＷｅｂ上またはクラウド上に設けられたサーバコンピュータに設けられてもよい。

【0023】

文書校正装置ＰＲは、中央処理ユニット（Central Processing Unit：ＣＰＵ）等のハードウェアプロセッサを使用した制御部１０を備え、この制御部１０に対し、バス５０を介して、プログラム記憶部２０およびデータ記憶部３０を有する記憶ユニットと、入出力インタフェース（以後インタフェースをＩ／Ｆと略称する）部４０を接続したものとなっている。

【0024】

入出力Ｉ／Ｆ部４０には、入力デバイス５１および表示デバイス５２が接続される。入力デバイス５１および表示デバイス５２は、主に校正辞書の生成モードにおいて、管理者が校正辞書の生成に必要な種々のデータを入力するために使用される。

【0025】

プログラム記憶部２０は、例えば、記憶媒体としてＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて構成したもので、ＯＳ（Operating System）等のミドルウェアに加えて、一実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後ＯＳと各アプリケーション・プログラムとをまとめてプログラムと称する。

【0026】

データ記憶部３０は、例えば、記憶媒体として、ＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリと組み合わせたもので、記憶領域には、認識フレーズ記憶部３１と、校正辞書記憶部３２と、校正済フレーズ記憶部３３が設けられている。

【0027】

認識フレーズ記憶部３１は、音声認識装置ＶＲから出力される、音声データを音声認識することにより生成された認識フレーズを一時保存するために用いられる。校正辞書記憶部３２には校正辞書が記憶される。校正辞書の一例については後述する。校正済フレーズ記憶部３３は、校正済のフレーズを保存するために用いられる。

【0028】

制御部１０は、一実施形態を実施するために必要な処理機能として、認識フレーズ取得処理部１１と、校正辞書生成処理部１２と、認識フレーズ校正処理部１３と、校正済文書データ出力処理部１４とを備えている。これらの処理部１１～１４は、何れもプログラム記憶部２０に格納されたアプリケーション・プログラムを制御部１０のハードウェアプロセッサに実行させることにより実現される。

【0029】

なお、上記処理部１１～１４の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアを用いて実現されてもよい。

【0030】

認識フレーズ取得処理部１１は、音声認識装置ＶＲから出力される認識フレーズを入出力Ｉ／Ｆ部４０を介して取得し、取得した認識フレーズを認識フレーズ記憶部３１に順次保存する。

【0031】

校正辞書生成処理部１２は、校正辞書生成モードにおいて、認識フレーズ記憶部３１から誤認識フレーズを読み込み、この誤認識フレーズに対し、例えば管理者が入力した正解フレーズと上記誤認識フレーズの出現回数とを対応付けることで、誤認識パターン情報を生成する。

【0032】

また校正辞書生成処理部１２は、生成した上記誤認識パターン情報に対し、その用途（以後ジャンルとも云う）を識別するためのフラグを付すことにより、用途パターン情報を生成する。

【0033】

そして校正辞書生成処理部１２は、生成した上記誤認識パターン情報および用途パターン情報を相互に対応付けた状態で、校正辞書記憶部３２に記憶する。なお、校正辞書生成処理の一例は動作例において説明する。

【0034】

認識フレーズ校正処理部１３は、文書校正モードにおいて、音声認識装置ＶＲから出力された誤認識フレーズを認識フレーズ記憶部３１から読み込む。そして、読み込んだ上記誤認識フレーズについて、この誤認識フレーズの用途であるジャンルと、その出現回数とをもとに、校正辞書記憶部３２に記憶される誤認識パターン情報および用途パターン情報を参照して、上記誤認識フレーズに対応する正解フレーズを特定する。そして、選択した上記正解フレーズを校正済フレーズとして校正済フレーズ記憶部３３に記憶する。なお、この誤認識フレーズに対する校正処理の一例についても動作例で説明する。

【0035】

校正済文書データ出力処理部１４は、上記校正済フレーズ記憶部３３から校正済フレーズを順次読み込んで文書データを生成し、生成した文書データを入出力Ｉ／Ｆ部４０から例えば表示デバイス５２へ出力する。

【0036】

（動作例）
次に、以上のように構成された文書校正装置ＰＲの動作例を説明する。

【0037】

（１）校正辞書生成モード
図４は、文書校正装置ＰＲの制御部１０が校正辞書生成モードにおいて実行する校正辞書生成処理の処理手順と処理内容の一例を示すフローチャートである。

【0038】

校正辞書を生成するには、利用が想定される用途（ジャンル）別に、話者の音声を実際に音声認識装置ＶＲで音声認識することにより生成される、一定数以上の認識フレーズを取得する必要がある。

【0039】

（１－１）認識フレーズの収集
文書校正装置ＰＲの制御部１０は、例えば入力デバイス５１から校正辞書生成モードの実行要求が入力され、この要求をステップＳ１０により検知すると、先ずステップＳ１１において、マイクロフォンＭＣにより収音された音声を音声認識装置ＶＲにより音声認識して言語化された認識フレーズを、音声認識装置ＶＲから入出力Ｉ／Ｆ部４０を介して取得する。そして、取得した上記認識フレーズをステップＳ１２により認識フレーズ記憶部３１に保存する。

【0040】

文書校正装置ＰＲの制御部１０は、上記認識フレーズの取得・保存処理を行いながら、ステップＳ１３において、校正辞書の生成に必要な一定量以上の認識フレーズが取得されたか否かを判定する。この判定の結果、上記必要量に達していなければ、ステップＳ１１に戻って上記ステップＳ１１～ステップＳ１３による認識フレーズの取得・保存処理を続ける。

【0041】

（１－２）校正辞書の生成
一方、必要量以上の認識フレーズが取得されたと判定されると、文書校正装置ＰＲの制御部１０は、校正辞書生成処理部１２の制御の下、次のように校正辞書の生成処理を実行する。

【0042】

すなわち、校正辞書生成処理部１２は、先ずステップＳ１４により認識フレーズ記憶部３１から認識フレーズを一定数ずつ読み出し、読み出した認識フレーズを入出力Ｉ／Ｆ部４０から表示デバイス５２へ出力し表示する。なお、一度に読み出す認識フレーズの数は任意である。

【0043】

これに対し管理者は、表示された上記認識フレーズの各々について音声認識結果が正しいか誤っているかを判断し、誤っている場合には入力デバイス５１により正解フレーズを入力する。校正辞書生成処理部１２は、ステップＳ１５において、入力された上記正解フレーズを入出力Ｉ／Ｆ部４０を介して取得し、取得した上記正解フレーズを上記誤認識フレーズに対応付けることで誤認識パターン情報を生成する。

【0044】

またそれと共に、校正辞書生成処理部１２は、ステップＳ１６において、上記誤認識フレーズについて、Ｎグラムコーパスを生成し、生成したＮグラムコーパスを上記誤認識パターン情報に付加する。そして、この誤認識パターン情報を校正辞書記憶部３４に記憶する。

【0045】

ここで、Ｎグラムコーパスには、誤認識フレーズを構成するＮ個の単語の列と、当該列ごとの出現頻度（例えば出現回数）を表す統計データが含まれる。例えば、２グラムの場合には、２個の単語の列と、２個の連続する単語が誤認識フレーズ中に現れた回数の統計データが含まれる。

【0046】

図７に誤認識パターン情報の一例を示す。この例では、ＦＰが誤認識フレーズと正解フレーズとを対応付けた情報を示し、ＯＮがＮグラムコーパスとして２グラムの場合を示している。

【0047】

さらに、校正辞書生成処理部１２は、ステップＳ１７において、上記誤認識フレーズに対するジャンルの一覧を示す用途パターン情報のテンプレートデータを、入出力Ｉ／Ｆ部４０から表示デバイス５２へ出力し表示する。これに対し管理者は、表示された上記ジャンルの一覧に対し、上記誤認識フレーズが発生したジャンルにフラグを設定するために、入力デバイス５１においてフラグ設定情報を入力する。

【0048】

校正辞書生成処理部１２は、ステップＳ１７において、上記フラグ設定情報を入出力Ｉ／Ｆ４０を介して受け取ると、上記用途パターン情報中の該当するジャンルにフラグを設定する。そして、フラグが設定された上記用途パターン情報を、先に生成した誤認識パターン情報と対応付けて、校正辞書記憶部３２に記憶する。

【0049】

図７に示した例では、用途パターン情報ＧＰとして「あいさつ」、「コールセンター」、「接客」などの複数のジャンルが用意され、これらのジャンルのうち誤認識フレーズが発生したジャンルに対しフラグ“１”が設定された場合を示している。なお、誤認識フレーズが発生していないジャンルに対しては、フラグ“０”が設定される。

【0050】

校正辞書生成処理部１２は、認識フレーズ記憶部３１に記憶されたすべての認識フレーズに対する設定入力処理が終了したか否かを、ステップＳ１８により判定する。そして、この判定の結果、未設定の誤認識フレーズが残っている場合には、ステップＳ１４に戻って未設定の次の認識フレーズを読み出し、この認識フレーズに対しステップＳ１４～ステップＳ１８による一連の設定処理を繰り返し実行する。

【0051】

一方、すべての認識フレーズに対する設定処理が終了すると、校正辞書生成処理部１２は、ステップＳ１９において辞書生成モードが終了したか否かを判定する。この判定の結果、まだ終了していない場合、例えば認識フレーズの収集が行われていないジャンルが残っている場合には、ステップＳ１１に戻る。そして、ステップＳ１１～ステップＳ１９により、未設定のジャンルについて認識フレーズの収集から校正辞書の生成までの一連の処理を繰り返し実行する。

【0052】

そして、対象となるすべてのジャンルについての処理が終了すると、文書校正装置ＰＲの制御部１０は、校正辞書生成モードを終了する。

【0053】

（２）文書校正モード
図５は、文書校正装置ＰＲの制御部１０が文書校正モードにおいて実行する、誤認識フレーズの校正処理の処理手順と処理内容の一例を示すフローチャートである。

【0054】

ここでは、例えば店舗やオフィスの受付において、受付担当者が来客に対し「接客」を行う場合に、客の発話音声と共に受付担当者の応答音声を音声認識して、その文書データを作成する場合を例にとって説明する。

【0055】

（２－１）認識フレーズの取得
入力デバイス５１から音声認識モードの実行要求が入力されると、文書校正装置ＰＲの制御部１０は上記実行要求をステップＳ３０により検知し、以後以下のように文書校正処理を実行する。

【0056】

すなわち、文書校正装置ＰＲの制御部１０は、先ずステップＳ３１において、マイクロフォンＭＣにより収音された音声を言語化した認識フレーズを、音声認識装置ＶＲから入出力Ｉ／Ｆ部４０を介して取得する。そして、取得した上記認識フレーズを認識フレーズ記憶部３１に保存する。

【0057】

（２－２）認識フレーズの校正
上記認識フレーズが取得されると、文書校正装置ＰＲの制御部１０は、次にステップＳ３３において、認識フレーズ校正処理部１３の制御の下、誤認識フレーズに対する校正処理を以下のように実行する。

【0058】

図６は、認識フレーズ校正処理部１３が実行する校正処理の処理手順と処理内容の一例を示すフローチャートである。

【0059】

認識フレーズ校正処理部１３は、先ずステップＳ４０において、入力デバイス５１から管理者が入力するジャンルを表す情報を取得する。なお、ジャンルを表す情報は、文書校正装置ＰＲの用途が決まった時点で、管理者が入力するジャンル情報をデータ記憶部３０内に保存しておいてもよいし、文書校正装置ＰＲが音声認識システムに接続された時点で、システムからジャンル情報を自動取得してもよい。

【0060】

認識フレーズ校正処理部１３は、次にステップＳ４１において、校正辞書記憶部３２から上記ジャンルに対応する誤認識パターン情報をもれなく選択する。例えば、図７に示す例では、「接客」にフラグ“１”が設定されている項番「１」、「２」、「ｘ」の誤認識パターン情報を選択する。

【0061】

そして認識フレーズ校正処理部１３は、ステップＳ４２において、選択した上記複数の誤認識パターン情報の中から、上記認識フレーズを含む誤認識パターン情報を選択する。例えば、認識フレーズが「とうござました」であれば、図７に示す例では、項番「２」が選択される。また、同一の認識フレーズが登録されている項番が他にもある場合には、その誤認識パターン情報も同様に選択される。

【0062】

なお、上記認識フレーズが正しく認識されたフレーズであれば、該当する誤認識パターン情報は存在しない。従って、この場合には誤認識パターン情報は選択されない。

【0063】

誤認識パターン情報が選択されると、認識フレーズ校正処理部１３は、次にステップＳ４３において、選択された上記誤認識パターン情報のうち、誤認識フレーズの２グラムコーパスＯＮにより表される出現回数が最も多い誤認識パターン情報を選択する。そして、認識フレーズ校正処理部１３は、ステップＳ４４において、選択した上記誤認識パターン情報から、誤認識フレーズに対応する正解フレーズを読み出し、読み出した正解フレーズを校正済フレーズ記憶部３３に記憶する。

【0064】

例えば、図７に示す例では、認識フレーズ校正処理部１３は、項番「２」の誤認識パターン情報から、正解フレーズ「ありがとうございました」を読み出し、校正済フレーズ記憶部３３に記憶する。なお、上記認識フレーズが正しいフレーズだった場合には、この正しい認識フレーズがそのまま校正済フレーズ記憶部３３に記憶される。

【0065】

以後同様に、認識フレーズ校正処理部１３では、音声認識装置ＶＲから新たな認識フレーズが取得されるごとに、当該認識フレーズに対する校正処理が行われる。

【0066】

（２－３）文書データの出力
文書校正装置ＰＲの制御部１０は、例えば、認識フレーズ記憶部３１に一定量の校正済フレーズが記憶されるごとに、校正済文書データ出力処理部１４の制御の下、ステップＳ３４において、認識フレーズ記憶部３１から校正済フレーズを読み込み、読み込んだ上記校正済フレーズをもとに文書データを編集する。そして、編集した上記文書データを入出力Ｉ／Ｆ部４０から表示デバイス５２へ出力し表示する。

【0067】

なお、上記文書データの編集処理は、例えば一定の時間ごとに、或いは１日の営業時間が終了した時点で行われるようにしてもよい。また、編集後の文書データは、例えば管理者の出力要求の入力に応じて出力されるようにしてもよく、またその出力先は外部記憶媒体でもよいし、通信回線を介して遠隔地にある端末等に送信するようにしてもよい。

【0068】

（２－４）音声認識モードの終了
文書校正装置ＰＲの制御部１０は、ステップＳ３５により音声認識モードの終了要求の入力を監視する。そして、終了要求が入力されていない状態では、ステップＳ３１に戻り、ステップＳ３１～ステップＳ３５による一連の認識フレーズの校正処理を繰り返し実行する。

【0069】

一方、文書校正モードの終了要求の入力がステップＳ３５で検知されると、文書校正装置ＰＲの制御部１０はは、上記一連の処理を終了して待機状態に戻る。

【0070】

（効果）
以上述べたように一実施形態では、音声認識装置ＶＲの後段に、文書校正装置ＰＲを設けている。そして、文書校正装置ＰＲにおいて、先ず校正辞書生成モードが設定された状態で、校正辞書生成処理部１２の制御の下で、誤認識フレーズと正解フレーズとの対応関係、および誤認識フレーズの出現回数を表す情報を付加した誤認識パターン情報を生成すると共に、この誤認識パターン情報のジャンルを示す用途パターン情報を生成し、生成した上記誤認識パターン情報および用途パターン情報を校正辞書として校正辞書記憶部３２に記憶する。次に、校正モードが設定された状態で、認識フレーズ校正処理部１３の制御の下で、音声認識装置ＶＲから出力された誤認識フレーズについて、そのジャンルと出現回数をもとに、上記校正辞書から該当する誤認識パターン情報を選択し、この誤認識パターン情報に定義された正解フレーズを校正済フレーズとして出力するようにしている。

【0071】

従って一実施形態によれば、誤認識フレーズに対し正解フレーズを対応付けた誤認識パターン情報を生成し、これらの誤認識パターン情報に対しそのジャンルを表す用途パターン情報を紐付けておくことで、ジャンルごとにそのジャンルで発生しやすい誤認識フレーズを適切に特定して正解フレーズに置換することができる。このため、音声認識装置がすべてのジャンルに対応可能な高精度の言語モデルを備えていなくても、ジャンルに応じた適切な品質の単語列からなる文書データを作成することが可能となる。

【0072】

［その他の実施形態］
（１）一実施形態では、校正辞書を生成する際に、正解フレーズおよびジャンルを管理者が入力設定する場合を例にとって説明したが、それに限るものではない。例えば、校正辞書生成用にジャンル別に事前に生成したトレーニング用の文書データがある場合には、校正辞書生成処理部が、音声認識装置から出力される認識フレーズを上記トレーニング用の文書データと照合することで正解フレーズを探索し、当該正解フレーズを誤認識フレーズと対応付けるようにしてもよい。このようにすることで、校正辞書を自動生成することが可能となる。

【0073】

（２）一実施形態では、文書校正装置の機能をパーソナルコンピュータやスマートフォン等の情報処理端末に設けた場合を例にとって説明したが、Ｗｅｂまたはクラウド上に配置されたサーバコンピュータに設けるようにしてもよい。また、文書校正装置の機能を音声認識装置内に設けるようにしてもよい。

【0074】

（３）一実施形態では、話者の生の音声をマイクロフォンＭＣで収音し、その音声データを音声認識装置ＶＲにより音声認識して言語化し、この音声認識装置ＶＲから出力される認識フレーズを文書校正装置ＰＲにより校正する場合を例にとって説明した。しかし、それに限らず、録音音声を音声認識装置ＶＲに入力するようにしてもよい。このようにすると、例えば映画の出演者の音声や講演における講師の音声を録音しておき、この録音音声を後日文書データに変換することが可能となる。

【0075】

（４）その他、文書校正装置の構成、その各処理部の処理手順と処理内容、ジャンルの種類等については、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

【0076】

以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

【0077】

要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

【符号の説明】

【0078】

ＭＣ…マイクロフォン
ＶＲ…音声認識装置
ＰＲ…文書校正装置
１０…制御部
２０…プログラム記憶部
３０…データ記憶部
４０…入出力Ｉ／Ｆ部
５０…バス
１１…認識フレーズ取得処理部
１２…校正辞書生成処理部
１３…認識フレーズ校正処理部
１４…校正済文書データ出力処理部
３１…認識フレーズ記憶部
３２…校正辞書記憶部
３３…校正済フレーズ記憶部
５１…入力デバイス
５２…表示デバイス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版