【文献】
山崎裕紀 他,”講義音声認識における講義スライド情報の活用”,情報処理学会研究報告,Vol.2006,No.136,日本,2006年12月22日,pp.221−226
(58)【調査した分野】(Int.Cl.,DB名)
前記辞書格納部は、前記文字情報に含まれる単語がいずれの前記音声認識辞書に記録されていない新たな単語である場合、所定の係数に基づいて前記新たな単語の優先度を決定して記録する、請求項1乃至3のいずれか一項に記載の音声認識システム。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記のような従来の音声認識システムを用いて、実際の企業で日常的に行われる社内的なプレゼンテーションや会議(以下「会議等」)においてユーザの発表を音声認識させる場合、抽出キーワードに基づいて音声認識をさせることになる。
【0007】
しかし、会議等で実際に話される語彙には偏りがあることが多く、音声認識の精度が必ずしも向上しないことがあった。このような語彙の偏りは、ユーザやプロジェクト、会社に依存するものであった。
【0008】
そこで、本発明は、音声認識の精度を向上させることができる音声認識システム及び音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様に係る音声認識システムは、音声情報を認識して文字情報へと変換する音声認識システムであって、音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計する文字情報解析部と、集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定する単語優先度設定部と、前記優先度が設定された単語の音声認識辞書への登録又は更新を管理する辞書格納部と、登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力する音声認識変換部と、を備え、前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、前記辞書格納部は、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。
【0010】
また本発明の一態様に係る音声認識方法は、音声情報を認識して文字情報へと変換する音声認識方法であって、音声認識の対象となる文書内の文字情報を読み込んで前記文字情報に含まれる単語の出現頻度を集計するステップと、集計した前記単語の出現頻度に基づいて単語ごとの優先度を設定するステップと、前記優先度が設定された単語の音声認識辞書への登録又は更新を管理するステップと、登録又は更新された前記音声認識辞書を参照しながら新たに入力される音声情報を認識して前記音声情報に対応する文字情報へと変換して出力するステップと、を備え、前記音声認識辞書は、前記単語の使用範囲に対応させて複数種類が設けられており、前記登録又は更新を管理するステップでは、複数種類の前記音声認識辞書を参照して、前記単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。
【0011】
前記複数種類の音声認識辞書は、1)〜3)の中から複数選択されるようにしてもよい。
1)前記文書を使用するユーザに対応づけられたユーザ用語辞書;
2)前記文書を使用するユーザが所属するプロジェクトに対応づけられたプロジェクト用語辞書;及び
3)前記文書を使用するユーザが所属する会社に対応付けられた会社用語辞書。
【0012】
前記音声認識変換部は、参照する前記音声認識辞書の種類に対応させて前記優先度を決定するための係数を変更するようにしてもよい。
【0013】
前記単語ごとの優先度は、入力されている前記音声情報に対応する前記文書内の相対位置を基準として定められる重み付け特性に基づいて動的に変更されるようにしてもよい。
【0014】
前記辞書格納部は、前記文字情報に含まれる単語がいずれの前記音声認識辞書に記録されていない新たな単語である場合、所定の係数に基づいて前記新たな単語の優先度を決定して記録するようにしてもよい。
【0015】
前記音声認識変換部から出力された文字情報が手動で修正された場合に、修正された内容に基づいて音声認識間違いを学習する誤認識学習部をさらに備えるようにしてもよい。
【発明の効果】
【0016】
本発明によれば、音声認識の精度を向上させることができる。
【発明を実施するための形態】
【0018】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
〔音声認識システムの構成〕
【0019】
図1を参照して、本発明の一実施の形態に係る音声認識システムについて説明する。
図1は、本実施形態に係る音声認識システムの基本システム図である。
【0020】
図1に示すように、本実施形態に係る音声認識システム100は、音声情報を認識して文字情報へと変換する音声認識システムである。音声認識システム100は、辞書格納部40、文字情報解析部50、単語優先度設定部60、及び音声認識変換部70を備える。また、音声認識システム100には、ユーザインターフェース30及び画像表示装置80が接続されている。
【0021】
ユーザインターフェース30は、ユーザ10が音声認識システム100へ所定の情報を入力するためのインターフェースである。ユーザインターフェース30は、例えば、キーボード等の文字入力インターフェース31、スキャナ等の文書読み取りインターフェース32及びマイク等の音声入力インターフェース33等を備える。
【0022】
文字情報解析部50は、音声認識の対象となる文書内の文字情報を読み込んで文字情報に含まれる単語の出現頻度を集計する機能を有する。具体的に、文字情報解析部50は、文書内の文字情報を読み込んで形態素解析(Morphological Analysis)して単語ごとに切り出し、文書内における単語ごとの出現頻度を集計する。ここで、「文書」とは、例えば、会議で使用するテキスト文書、印刷用に作成される文書、ワードプロセッサ・ソフトで作成した文書及びプレゼンテーション・ソフトで作成した文書等の文字情報を含む文書を意味する。また、「形態素解析」とは、コンピュータの自然言語処理の一つであり、文法的な情報の注記のない自然言語のテキストデータから、対象言語の文法や、単語の品詞等の情報に基づいて、形態素(Morpheme)の単位に区切り、形態素毎に品詞等を判別する解析処理をいう。文字情報解析部50は、読み込む文書20ごとに出現単語の回数をカウントする。
【0023】
また、文字情報解析部50は、音声認識辞書41〜43に登録されていない単語の読み方を推定する機能を有する。単語を新規に追加するか否かは、音声認識辞書41〜43の既登録内容を参照して判断する。新規追加する単語は、文字情報解析部50が過去の音声認識結果に基づいて、読み方を推定処理する。
【0024】
単語優先度設定部60は、集計した単語の出現頻度に基づいて単語ごとの優先度を設定する機能を有する。また、単語優先度設定部60は、前記文字情報に含まれる単語がいずれの音声認識辞書41〜43にも記録されていない新たな単語である場合、所定の係数に基づいて新たな単語の優先度を決定して設定する機能を有する。
【0025】
辞書格納部40は、優先度が設定された単語の複数の音声認識辞書41〜43への登録又は更新を管理する機能ブロックである。音声認識辞書としては、汎用の一般語辞書の他に、単語の使用範囲に対応させて作成される専用辞書、具体的には、プロジェクト用語辞書41、会社用語辞書42、及びユーザ用語辞書43が登録される。
【0026】
プロジェクト用語辞書41は、特定の目的を達成するために所定期間設置されるプロジェクト毎に特化したプロジェクト用語を登録するための辞書である。プロジェクト用語辞書41は、プロジェクトの識別情報、例えばプロジェクト名に対応させてプロジェクトごとに作成される。会社用語辞書42は、ユーザの所属する会社に特化した会社用語を登録するための辞書である。会社用語辞書42は、会社の識別情報、例えば会社名に対応させて会社ごとに作成される。ユーザ用語辞書43は、発表者であるユーザに対応づけられたユーザ用語を登録するための辞書である。ユーザ用語辞書43は、ユーザの識別情報、例えばユーザ名に対応させてユーザごとに作成される。なお、辞書格納部40には、特定の業界で用いられる業界用語辞書を登録してもよい。
【0027】
特に本実施形態では、辞書格納部40は、複数種類の音声認識辞書41〜43を参照して、単語の使用範囲に対応する音声認識辞書に対して登録又は更新する。具体的には、音声認識の対象となる文書内の文字情報に含まれる単語が特定のプロジェクトのみに使用され、他のプロジェクトに使用されていないものである場合、この特定のプロジェクトに対応付けてプロジェクト用語辞書41として登録する。また、音声認識の対象となる文書内の文字情報に含まれる単語が複数のプロジェクトに跨って使用され、特定のユーザに限定されて使用されるものでない場合、ユーザの所属する会社に対応付けて会社用語辞書42として登録する。さらに、音声認識の対象となる文書内の文字情報に含まれる単語が特定のユーザに限定的に使用され、他のユーザに使用されていないものである場合、この特定のユーザに対応付けてユーザ用語辞書43として登録する。
【0028】
音声認識変換部70は、音声認識辞書41〜43を参照しながら新たに入力される音声情報を認識して音声情報に対応する文字情報へ変換して出力する機能を有する。変換された文字情報は、画像表示装置80へと出力される。特に本実施形態では、音声認識変換部70は、入力されている音声情報に対応する文書20内の相対位置を基準として定められる重み付け特性に基づいて単語ごとの優先度を動的に変更可能に構成されている。「動的に変更」とは、音声認識のために読み込まれている文書の参照箇所をリアルタイムに検出し、重み付け特性の適用を更新していくことを意味する。ここで「相対位置」とは、文書20のページや冒頭からの行数、段落数など、任意の指標が採用される。画像表示装置80としては、例えば、ディスプレイパネルやプロジェクタ等のコンピュータ用の表示装置が挙げられる。
【0029】
図2は、本実施形態に係る音声認識システムの変形態様のシステム図である。
図2に示すように、音声認識システム100は、オプショナルな構成要素として、さらに誤認識学習部80を備えていてもよい。誤認識学習部90は、音声認識変換部70から出力された文字情報が手動修正された場合に、修正された内容に基づいて音声認識間違いを学習する機能を有する。誤認識学習部90は、音声認識間違いの学習機能により、出力された文字情報の手動修正が繰り返される度に音声認識精度が向上する。
【0030】
図3は、スタンドアロン構成の音声認識システムのシステム図である。
図3に示すように、本実施形態に係る音声認識システム100をスタンドアロンとして構成する場合、ユーザインターフェース30、文字情報解析部50、単語優先度設定部60及び音声認識変換部70と共に、システム内部に辞書格納部40を専有することが可能である。
【0031】
図4は、共有システム構成の音声認識システムのシステム図である。
図4に示すように、本実施形態に係る音声認識システムを共有システムとして構成する場合、ユーザインターフェース30、文字情報解析部50、単語優先度設定部60及び音声認識変換部70を備える各システム200の外部に辞書格納部40を設置し、この辞書格納部40を複数のシステム200,200で共用することが可能である。辞書格納部40は、例えば、サーバ(クラウド)上に設置することが考えられる。
【0032】
〔音声認識システムの作用、音声認識方法及び音声認識プログラム〕
次に、本実施形態に係る音声認識システム100の作用とともに、本実施形態に係る音声認識方法について説明する。
【0033】
本実施形態に係る音声認識方法は、音声認識の対象となる文書内の文字情報を読み込んで文字情報に含まれる単語の出現頻度を文書内の相対位置に対応付けて集計するステップと、集計した単語の出現頻度に基づいて単語ごとの優先度を設定するステップと、優先度が設定された単語の音声認識辞書41〜43への登録又は更新を管理するステップと、登録又は更新された音声認識辞書41〜43を参照しながら新たに入力される音声情報を認識して音声情報に対応する文字情報へと変換して出力するステップと、を備え、音声認識辞書41〜43は、単語の使用範囲に対応させて複数種類が設けられており、登録又は更新を管理するステップでは、複数種類の音声認識辞書41〜43を参照して、単語の使用範囲に対応する音声認識辞書に対して登録又は更新することに特徴を有する。本実施形態に係る音声認識方法は、本方法を具現化するための手順が記述された音声認識プログラムをコンピュータが実行することにより実現される。
【0034】
図5は、音声認識方法の手順を示すフローチャートである。
図6は、本実施形態に係る音声認識方法の処理工程図である。なお、このフローチャート及び処理工程図には、説明の便宜上、ユーザの操作手順も含まれている。
【0035】
まず、ユーザ10は、会議開始前に会議で使用する資料(文書)20を音声認識システム100に読み込む(S310)。文書20が電子ファイルにより用意されているのであれば、当該文書20である電子ファイルを音声認識システム100に読み込ませる。文書20が印刷物として用意されているなら、スキャナ等の文書読み取りインターフェース32を介して読み込む。文書読み取りインターフェース32は、光学的に文書20を読み込んで得られた画像情報から公知のOCR技術を利用して変換した文字情報を出力する。なお、ステップS310において、会議のプロジェクト名があれば、ユーザ10は、キーボード等の文字入力インターフェース31を介して、プロジェクト名を併せて入力する。
【0036】
次に、辞書格納部40に登録する文章情報、例えば、会議資料情報について説明する。
図7は、辞書格納部40に登録する会議資料情報の説明図である。
【0037】
図7に示すように、辞書格納部40には、文書20内のヘッダ21とボディ22に分けて、各種情報が項目ごとに登録される。ヘッダ21の資料情報には、例えば、資料名、資料の形式及び頁数等が登録される。資料作成者情報には、例えば、資料作成者の氏名や所属先等が登録される。会議情報には、会議の開催日時、参加人数及び参加者名が登録される。プロジェクト情報には、例えば、プロジェクト名(ID)等が登録される。ヘッダ21の項目や各項目における登録情報は例示であって、列挙した情報に限られない。
【0038】
また、文書20内のボディ22には、出現単語及び回数が登録される。出現単語及び回数は、各プロジェクトにおいて、文書20に対応させて登録される。
【0039】
また、入力されたプロジェクト名及び/又はユーザ名に基づいて、辞書格納部40が管理する既登録のプロジェクト用語辞書41及び/又は会社用語辞書42を検索し、該当する用語辞書があれば、辞書格納部40から読み出す(S320)。この既登録辞書の読み出し手順は、既登録辞書が存在する場合にのみ行われるので、オプショナルな手順である。
【0040】
文字情報解析部50は、文書20内の文字情報を読み込んで形態素解析を行う(S330)。文字情報解析部50による形態素解析は、文字情報を頁ごとに形態素の単位に区切り、形態素ごとに品詞等を判別する解析処理を行う。
【0041】
また、文字情報解析部50は、形態素解析した単語の出現頻度を抽出する(S340)。単語の出現頻度は、
図7において説明したように、各プロジェクトにおいて、文書20ごとに登録される。
【0042】
さらに、文字情報解析部50は、辞書格納部40が管理する音声認識辞書41〜43のいずれにも登録されていない単語を新規に追加し、新規追加する単語の読み方を推定する(S350)。音声認識辞書41〜43に単語を新規に追加するか否かは、辞書格納部40が管理する音声認識辞書41〜43の既登録内容を参照して判断する。新規追加する単語は、文字情報解析部50が過去の音声認識結果に基づいて、読み方を推定処理する。
【0043】
ここで、
図8を参照して、使用範囲ごとの音声認識辞書41〜43の構築について説明する。
図8は、会社用語、プロジェクト用語及びユーザ用語の構築の説明図である。
【0044】
図8に示すように、会社においては、プロジェクトごとに複数の会議が存在する。本実施形態の辞書格納部40は、プロジェクト用語辞書41、会社用語辞書42及びユーザ用語辞書43を管理する(
図1及び
図2参照)。会社用語は、複数のプロジェクトを跨いで使用される単語である。プロジェクト用語は、同一のプロジェクトで複数回開催される会議において横断的に使用される単語である。ユーザ用語は、当該ユーザが出席する会議や当該ユーザが所属するプロジェクトで横断的に使用される単語である。
【0045】
辞書格納部40は、新たに登録しようとしている単語が既存のいずれの音声認識辞書にも登録されていない場合、当該単語を使用するユーザに対応付けた新たなユーザ用語辞書43に当該単語を優先度と共に登録する。一方、辞書格納部40は、登録しようとしている単語が既存のユーザ用語辞書43のみに登録されている場合、この既存のユーザ用語辞書43に登録されたこの単語の優先度を更新する。
【0046】
辞書格納部40は、入力された文書がプロジェクト用語辞書41に登録されたいずれのプロジェクトにも該当しない新たなプロジェクトに関するものである場合、当該プロジェクトに対応付けた新たなプロジェクト用語辞書43に当該単語を優先度と共に登録する。一方、辞書格納部40は、入力された文書がプロジェクト用語辞書41に登録された既存のプロジェクトに該当するものである場合、この既存のプロジェクト用語辞書41に登録されたこの単語の優先度を更新する。
【0047】
辞書格納部40は、登録しようとしている単語がプロジェクト用語辞書41に登録された複数のプロジェクトに既に登録されている場合、当該単語を会社用語辞書42に優先度と共に登録する。一方、辞書格納部40は、登録しようとしている単語が既に会社用語辞書42に登録されている場合、この会社用語辞書42に登録されたこの単語の優先度を更新する。
【0048】
次に、単語優先度設定部60は、文字情報解析部50の単語の出現頻度を集計し、単語ごとの優先度を設定する(S360)。新たに設定された優先度は、辞書格納部40によりいずれかの音声認識辞書41〜43へ登録又は更新される(S370)。
【0049】
次に、
図9を参照して、重み付けに相当する単語ごとの優先度の算出法について説明する。
図9は、単語ごとの優先度の算出法の説明図である。
【0050】
図9に示すように、単語優先度設定部60は、会議資料内に出現した単語(形態素)の出現頻度を集計する。出現単語の集計処理は、会議ID、単語、該当する辞書及び頻度の項目ごとに行われる。
図9において、例えば、1段目は、会議IDが182で、出現単語が「インバウンド」、該当辞書が「一般語」及び出現頻度が1である。2段目は、会議IDが182で、出現単語が「ワークサイズ」、該当辞書が「会社用語」及び出現頻度が4である。3段目は、会議IDが182で、出現単語が「Aプロ」、該当辞書が「プロジェクト用語」及び出現頻度が2である。4段目は、会議IDが182で、出現単語が「XXX」、該当辞書が「なし」及び出現頻度が2である。このような手順で、会議前に単語ごとの出現頻度を更新する。
【0051】
単語優先度設定部60が実行する優先度の更新演算は、種々の考え方が適用可能であるが、単語ごとに、更新前の優先度に対し、新たに取得された出現頻度に所定の重み付け、例えば、係数を乗じたものを加算して、更新後の優先度とすることが考えられる。例えば、一般語、会社用語及びプロジェクト用語の場合、「更新後の語彙優先度」は「更新前の語彙優先度+辞書固有に設定された係数×文書内の単語出現頻度」として計算できる。ここで、辞書固有の係数は、例えば、一般語を0.1、会社用語を0.2及びプロジェクト用語を0.3とする。したがって、狭い範囲で用いられる単語ほど(ここでは、プロジェクト用語>会社用語>一般語の順)係数が高くなり、優先度が高くなる。また、文書内に頻繁に出てくる単語ほど優先度が高くなる。
【0052】
単語が上記に含まれない新しい単語である場合は、所定の係数をかけて暫定的な優先度を決定する。例えば、「優先度」=「初期値(定数)×文書内の単語出現頻度」で新たな優先度を設定可能である。ここで、初期値は、単語の出現頻度に応じて決定可能である。実際は、単語の出現頻度が2倍になると優先度が2倍になるわけではないので、対数をとることも考えられる。
【0053】
図10を参照して、入力されている音声情報に対応する文書内の相対位置を基準として定められる重み付け特性について説明する。
図10は、文書20として会議中に投影されるプレゼンテーション用資料を用いた場合に、文書内の相対位置として現在表示しているプレゼンテーションスライドの頁を基準として重み付けを定めるための重み付け特性を例示している。
【0054】
図10に示すように、会議で用いられる文書において、現在参照されている、すなわち発表者が話している箇所を基準として重み付けが設定される。プレゼンテーション文書中、現在n(nは自然数)頁目のスライドを表示しているものとする。現在表示中のn頁目25に出現する単語は、この頁を投影しながら会議を進めている発表者が喋る可能性が最も高いものと考えられる。そのため当該頁に出現する単語に対しては重み付けを最大に設定する。以前に話した内容、すなわち、1頁目から(n−1)頁目26の表示済みの内容は、既に触れたものであるため、今後の発言にも登場する可能性があるため、重み付けを高めに設定する必要がある。また、直近の頁に出現した単語ほど発表者が言及する可能性が高くなるため、直近の頁ほど高く、過去に遡るほどに低くなるように、重み付けを変化させる。現時点で未表示の単語、すなわちn頁目後27の単語は、発表中に出てくる可能が低く、現時点における重み付けを低く設定する。なお、この重み付け特性の設定は、最終的な優先度を決定する演算する際の重み付け係数として反映される。
【0055】
具体的に、会議中は、発表者が参照している表示中のスライドの頁に応じて、最終的な単語ごとの優先頻度を算出する。この演算は、音声認識辞書に設定された優先度にユーザ固有の係数及び重み付け特性によって定まる重み付け係数を乗じて計算することができる。例えば、「優先度(最終)」=「辞書によって予め設定されている優先度×ユーザ固有の係数×表示中のスライドの頁に設定されている係数」となる。ここで、ユーザ固有の係数は、発表者に対応付けて作成されているユーザ用語辞書43に含まれる場合は大きい係数、含まれない場合は小さい係数とする。例えば発表者に対応付けられているユーザ用語辞書43に含まれる場合は1.5、それ以外は1.0とする。表示中のスライドの頁に設定されている係数は、
図10の重み付け特性を参照して決定する。
【0056】
次に、ユーザ10の音声は、マイク等の音声入力インターフェース33を介して、音声認識システム100へ入力される(S380)。また、ユーザ10が参照している文書中の相対位置についての情報も文書内の相対位置情報として、例えば頁数といった数値で音声認識システム100へ入力される。音声及び相対位置情報が入力されると、音声認識変換部70は、作成された音声認識辞書を参照しながら、最終的な単語ごとの優先度を決定し、最終的な単語ごとの優先度に基づいて音声情報を文字情報へと変換(テキスト化)する(S390)。出力された文字情報は、画像表示装置80へと出力表示される。
【0057】
出力された文字情報に音声認識間違いがあった場合、ユーザ10は、キーボード等の文字入力インターフェース31を介して、出力された文字情報を手動修正する(S400)。
図2で説明した音声認識システム100の変形態様によれば、オプショナルな構成要素として誤認識学習部90を備えている。この変形態様の場合、誤認識学習部90は、手動修正された内容から音声認識間違いを学習する(S410)。
【0058】
単語優先度設定部60は、使用範囲を跨いで用いられる単語をそれぞれの用途の音声認識辞書に登録する(S420)。上述したように、「使用歯に」とは、会議用語やプロジェクト用語等の単語が用いられる用途を意味する(
図1、
図2及び
図8参照)。即ち、ステップS420において、複数のブロジェクト間で横断して用いられる単語や、複数のプロジェクトを跨いで用いられる単語を抽出し、それぞれプロジェクト用語や会社用語として登録する。
【0059】
以上説明したように、本実施形態に係る音声認識システム100は、ユーザに特化したユーザ用語辞書、プロジェクトに特化したプロジェクト用語辞書、及び会社に特化した会社用語辞書が用いられるので、音声認識の精度を向上させることができる。また、発音される文書内の相対位置が変化していっても、すなわち、会議等の進行に応じて話題が変化していっても、文入力されている音声情報に対応する文書内の相対位置を基準として定められる重み付け特性に基づいて単語ごとの優先度が動的に変更されるので、音声認識の精度を常に高く維持することができる。
【0060】
上述したように、本実施形態の辞書格納部40が管理する音声認識辞書には、一般用語辞書の他、例えば、プロジェクトごとのプロジェクト用語辞書41、会議ごとの会議用語辞書42及び資料作成者(発表者)ごとのユーザ用語辞書43等が登録される。その他、辞書格納部40には、特定の業界で用いられる業界用語辞書が登録される。
【0061】
したがって、ユーザ10が特定のプロジェクトに所属し、そのプロジェクト特有の「プロジェクト用語」を発言しても、プロジェクト用語辞書41が参照されるので、音声認識の精度を高く維持することができる。また、ユーザ10が社内でのみ用いられるいわゆる「社内用語」を発言しても、会社用語辞書42が参照されるので、音声認識の精度を高く維持することができる。さらに、ユーザ10の発言に言葉の癖があったとしても、ユーザの性向に依存する「ユーザ用語」を登録したユーザ辞書43が参照されるので、音声認識の精度を高く維持することができる。加えて、ユーザ10が業界に特化したいわゆる「業界用語」を発言しても、業界用語辞書が参照される、音声認識の精度を高く維持することができる。