(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024056265
(43)【公開日】2024-04-23
(54)【発明の名称】評価プログラム、評価方法、評価装置
(51)【国際特許分類】
G10L 15/01 20130101AFI20240416BHJP
G10L 15/06 20130101ALI20240416BHJP
【FI】
G10L15/01
G10L15/06 300J
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022163026
(22)【出願日】2022-10-11
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】小椋 仁成
(72)【発明者】
【氏名】三小田 聡
(57)【要約】 (修正有)
【課題】辞書データを評価する評価プログラム、評価方法及び評価装置を提供する。
【解決手段】方法は、音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する処理を、コンピュータに実行させる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する、処理をコンピュータに実行させる、評価プログラム。
【請求項2】
前記第一の認識結果データのみが前記正解データと一致する箇所が連続して検出された場合に、前記評価点に対して追加加点を行い、
前記第二の認識結果データのみが前記正解データと一致する箇所が連続して検出された場合に、前記評価点に対して追加減点を行う、処理を前記コンピュータに実行させる、請求項1記載の評価プログラム。
【請求項3】
前記評価点は、前記形態素毎の比較結果に応じて、前記形態素に対応付けられる値であり、
対応付けられた前記評価点が基準値未満である形態素と対応する登録語を、前記辞書データから削除する、処理を前記コンピュータに実行させる、請求項1又は2記載の評価プログラム。
【請求項4】
前記音声データの入力を受け付けて、前記辞書データを用いた音声認識を行って前記第一の認識結果データを取得し、
前記辞書データを用いない音声認識を行って前記第二の認識結果データを取得し、
前記第一の認識結果データ又は前記第二の認識結果データが修正された正解データを取得し、前記第一の認識結果データと前記第二の認識結果データと、前記正解データとを記憶部に格納する、処理を前記コンピュータに実行させる、請求項3記載の評価プログラム。
【請求項5】
コンピュータによる評価方法であって、前記コンピュータが、
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する、評価方法。
【請求項6】
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較する比較部と、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する評価部と、を有する評価装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、評価プログラム、評価方法、評価装置に関する。
【背景技術】
【0002】
近年では、発話音声と書き起こし文等に基づき作成された辞書データを参照して音声データをテキストデータに変換する音声認識技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した従来の音声認識技術では、例えば、辞書データに同音異義語が含まれる場合等に、音声データが意図しない内容に変換される可能性があり、辞書データが音声認識の精度の向上に貢献しているか否かを評価することが困難であった。
【0005】
1つの側面では、本発明は、辞書データを評価することを目的とする。
【課題を解決するための手段】
【0006】
一つの態様では、音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する、処理をコンピュータに実行させる、評価プログラムである。
【発明の効果】
【0007】
辞書データを評価できる。
【図面の簡単な説明】
【0008】
【
図1】評価システムのシステム構成の一例を示す図である。
【
図2】評価装置のハードウェア構成の一例を示す図である
【
図5】辞書評価部の処理を説明する第一のフローチャートである。
【
図6】辞書評価部の処理を説明する第二のフローチャートである。
【発明を実施するための形態】
【0009】
以下に図面を参照して、実施形態について説明する。
図1は、評価システムのシステム構成の一例を示す図である。
【0010】
本実施形態の評価システム100は、評価装置200と、端末装置300とを含む。評価装置200と端末装置300とは、ネットワーク等を介して接続される。
【0011】
本実施形態の評価装置200は、辞書データベース210、音声認識部220、辞書評価部230を有する。
【0012】
本実施形態の辞書データベース210は、音声認識部220による音声認識の際に参照される辞書データが格納される。辞書データは、例えば、端末装置300の利用者等によって作成され、辞書データベース210に格納されたものであってもよいし、会議等で録音された音声データと、使用された文書データ等とから自動的に作成されたデータであってもよい。
【0013】
本実施形態の音声認識部220は、評価装置200に入力された音声データに対する音声認識を行い、認識結果データを出力する。認識結果データとは、具体的には、テキストデータである。
【0014】
本実施形態の音声認識部220は、辞書評価部230の指示に応じて、辞書データベース210に格納された辞書データを参照した音声認識を行ってもよいし、辞書データベース210に格納された辞書データを参照せずに音声認識を行ってもよい。
【0015】
以下の説明では、辞書データを参照した音声認識により取得された認識結果データを辞書あり結果データと呼び、辞書データを参照しない音声認識により取得された認識結果データを辞書なし結果データと呼ぶ場合がある。辞書あり結果データと辞書なし結果データの変換元となる音声データは、同一の音声データである。
【0016】
辞書あり結果データは、第一の認識結果データの一例であり、辞書なし結果データは、第二の認識結果データの一例である。
【0017】
本実施形態の辞書評価部230は、音声認識部220を用いて辞書あり結果データと辞書なし結果データを取得する。また、辞書評価部230は、正解データを取得する。正解データとは、辞書あり結果データと辞書なし結果データの何れかを、辞書あり結果データと辞書なし結果データの変換元である音声データに基づき、人手で修正したテキストデータである。
【0018】
本実施形態の辞書評価部230は、辞書あり結果データと、辞書なし結果データと、正解データとを用いて、辞書データベース210に格納された辞書データが音声認識に対して有効であるか否かを評価する。言い換えれば、辞書評価部230は、辞書データが、音声認識の精度の向上に貢献しているか否かを評価する。
【0019】
本実施形態の端末装置300は、例えば、辞書データの作成に用いられてもよい。また、端末装置300は、辞書データの評価を評価装置200に対して要求してもよい。
【0020】
なお、
図1の例では、辞書データベース210、音声認識部220、辞書評価部230が1台の評価装置200に設けられるものとしたが、これに限定されない。評価装置200は、複数台の情報処理装置によって実現されてよい。また、辞書データベース210、音声認識部220、辞書評価部230は、それぞれが通信可能な別々の情報処理装置に設けられていてもよい。
【0021】
また、
図1の例では、評価システム100に含まれる端末装置300は1台とされているが、これに限定されない。評価システム100には、任意の台数の端末装置300が含まれてよい。
【0022】
次に、評価装置200について説明する。
図2は、評価装置のハードウェア構成の一例を示す図である。
【0023】
本実施形態の評価装置200は、それぞれバスBで相互に接続されている入力装置21、出力装置22、ドライブ装置23、補助記憶装置24、メモリ装置25、演算処理装置26及びインターフェース装置27を含むコンピュータである。
【0024】
入力装置21は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置22は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。インターフェース装置27は、LANカード等を含み、ネットワークに接続するために用いられる。
【0025】
評価装置200が有する辞書評価部230を実現させる評価プログラムは、評価装置200を制御する各種プログラムの少なくとも一部である。評価プログラムは、例えば、記録媒体28の配布やネットワークからのダウンロード等によって提供される。評価プログラムを記録した記録媒体28は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
【0026】
記録媒体28に記録された評価プログラムは、評価プログラムを記録した記録媒体28がドライブ装置23にセットされると、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた評価プログラムは、インターフェース装置27を介して補助記憶装置24にインストールされる。
【0027】
補助記憶装置24は、評価装置200の有する辞書データベース210等を実現するものであり、評価装置200にインストールされた評価プログラムを格納すると共に、評価装置200による各種の必要なファイル、データ等を格納する。メモリ装置25は、評価装置200の起動時に補助記憶装置24から評価プログラムを読み出して格納する。そして、演算処理装置26はメモリ装置25に格納された評価プログラムに従って、後述するような各種処理を実現している。
【0028】
なお、本実施形態の端末装置300も、演算処理装置と記憶装置とを有するコンピュータであり、その基本的なハードウェア構成は、評価装置200と同様であるから、説明を省略する。
【0029】
次に、
図3を参照して、本実施形態の辞書データベース210について説明する。
図3は、辞書データベースの一例を示す図である。
【0030】
図3に示す辞書データベース210は、辞書データベース210に格納された辞書データに対して、辞書評価部230による処理が実行された後の状態を示している。
【0031】
本実施形態の辞書データは、情報の項目として、項番、変換語、読取結果情報、評価点を含み、項目「項番」とその他の項目とが対応付けられている。
【0032】
項目「項番」の値は、辞書データにおける変換語と読みの対応付けを特定するための識別情報である。言い換えれば、項目「項番」の値は、辞書データに含まれるレコードを特定するための識別情報である。
【0033】
項目「変換語」の値は、対応する項目「読み」の値と対応する単語を示す。項目「読み」の値は、単語の読み方を示す文字列を示す。項目「評価点」の値は、辞書評価部230による単語毎の評価結果を示す。
【0034】
なお、辞書データでは、項目「変換語」の値と項目「読み」の値を対応付けたデータのみが端末装置300の利用者によって格納されてよい。その場合、評価装置200は、変換語と読みとを対応付けたデータに対して自動的に項番を付与してもよい。また、項目「評価点」の値は、辞書データに対して辞書評価部230による評価が行われた後に、格納されてよい。
【0035】
次に、
図4を参照して、本実施形態の評価装置200の機能について説明する。
図4は、評価装置の機能を説明する図である。
【0036】
本実施形態の評価装置200の有する音声認識部220は、音声認識モデル等によって実現される。
【0037】
音声認識部220は、入力された音声データに対して辞書データベース210を参照した音声認識処理を行い、辞書あり結果データを出力する。また、音声認識部220は、入力された音声データに対して辞書データベース210を参照せずに音声認識処理を行い、辞書なし結果データを出力する。
【0038】
本実施形態の辞書評価部230は、入力受付部231、事前処理部232、データ保持部233、評価部234、辞書更新部235、出力部236を有する。
【0039】
入力受付部231は、評価装置200に対する各種の入力を受け付ける。具体的には、入力受付部231は、評価装置200に対する音声データの入力や、変換語と読みを対応付けたデータの入力等を受け付けてもよい。
【0040】
事前処理部232は、辞書データの評価を行うための事前処理を行う。具体的には、事前処理部232は、入力受付部231が音声データの入力を受け付けると、音声認識部220により、辞書あり結果データと辞書なし結果データとを取得する。また、事前処理部232は、辞書あり結果データ又は辞書なし結果データの何れかが人手で修正された正解データを取得する。事前処理部232により取得されたデータは、データ保持部233に保持される。事前処理部232の処理の詳細は後述する。
【0041】
データ保持部233は、評価部234の処理に用いる評価用データを保持する。評価用データは、辞書あり結果データ、辞書なし結果データ、正解データを含む。
【0042】
また、評価用データは、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれに対して形態素解析を行い、音声データにおける出現時間が一致する形態素同士を対応付けたデータを含む。つまり、本実施形態のデータ保持部233は、評価用データを格納する記憶部の一例である。評価用データの詳細は後述する。
【0043】
評価部234は、辞書あり結果データ、辞書なし結果データ、正解データにおいて、音声データにおける出現時間が一致する形態素同士を比較し、比較した結果に応じて辞書データを評価する。つまり、本実施形態の評価部234は、辞書あり結果データと正解データの比較、辞書なし結果データと正解データとの比較を行う比較部の一例でもある。評価部234の処理の詳細は後述する。
【0044】
辞書更新部235は、評価部234による辞書データの評価結果に応じて、辞書データを更新する。
【0045】
出力部236は、評価部234による評価結果や、更新された辞書データ等を端末装置300に出力する。なお、出力部236により出力されるデータの出力先は、端末装置300に限定されない。出力部236は、端末装置300以外の装置や、記録媒体等に対してデータを出力してもよい。
【0046】
次に、
図5を参照して、本実施形態の事前処理部232の処理について説明する。
図5は、辞書評価部の処理を説明する第一のフローチャートである。
【0047】
評価装置200において、辞書評価部230の事前処理部232は、入力受付部231が音声データの入力を受け付けると、この音声データを取得する(ステップS501)。
【0048】
続いて、事前処理部232は、音声データを音声認識部220に入力し、音声認識処理を実行させる(ステップS502)。ここでは、事前処理部232は、音声認識部220に対して、辞書データベース210を参照した音声認識処理と、辞書データベース210を参照しない音声認識処理とを実行させ、辞書あり結果データと辞書なし結果データを取得する。
【0049】
続いて、事前処理部232は、取得した辞書あり結果データと辞書なし結果データを出力する(ステップS503)。辞書あり結果データと辞書なし結果データの出力先は、例えば、音声認識処理の正解データを作成する作業者が利用する端末等であってよい。また、事前処理部232は、音声認識部220に入力した音声データも、辞書あり結果データ及び辞書なし結果データと共に出力してもよい。
【0050】
続いて、事前処理部232は、正解データを取得する(ステップS504)。具体的には、事前処理部232は、作業者により、音声データに基づき、辞書あり結果データ又は辞書なし結果データの何れかを修正する作業が行われ、修正された結果データが評価装置200に入力されると、修正後の結果データを正解データとして取得する。
【0051】
続いて、事前処理部232は、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれに対して、形態素解析を行う(ステップS505)。
【0052】
続いて、事前処理部232は、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれについて形態素解析を行った結果のデータを、評価用データとしてデータ保持部233に格納し(ステップS507)、事前処理を終了する。このとき、事前処理部232は、形態素解析を行った結果のデータのみを評価用データとして、データ保持部233に保持してもよい。
【0053】
本実施形態では、
図5に示す事前処理は、
図6に示す評価部234の処理が行われる前に実行されていればよい。
【0054】
次に、
図6を参照して、本実施形態の評価部234の処理について説明する。
図6は、辞書評価部の処理を説明する第二のフローチャートである。本実施形態の評価装置200は、例えば、辞書データの作成者等から、辞書データの評価を指示された場合に、
図6に示す処理を実行してもよい。辞書データの作成者とは、例えば、端末装置300の利用者であってもよい。
【0055】
本実施形態の評価装置200は、辞書データの評価の指示を受け付けると、データ保持部233に保持された評価用データを取得する(ステップS601)。
【0056】
続いて、評価部234は、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれから抽出した形態素のうちN番目の形態素を選択する(ステップS602)。ここで選択される形態素は、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれにおいて、音声データにおける出現時間が一致する形態素である。
【0057】
続いて、評価部234は、正解データから抽出した形態素と、辞書あり結果データから抽出した形態素とを比較する(ステップS603)。続いて、評価部234は、正解データから抽出した形態素と、辞書なし結果データから抽出した形態素とを比較する(ステップS604)。
【0058】
続いて、評価部234は、正解データから抽出した形態素と、辞書あり結果データから抽出した形態素とが一致し、且つ、正解データから抽出した形態素と、辞書なし結果データから抽出した形態素とが不一致であるか否かを判定する(ステップS605)。
【0059】
言い換えれば、評価部234は、辞書あり結果データから抽出した形態素のみが正解データから抽出した形態素と一致するか否かを判定する。
【0060】
なお、以下の説明では、辞書あり結果データ、辞書なし結果データのそれぞれから抽出した形態素と、正解データから抽出した形態素とを比較した結果、辞書あり結果データから抽出した形態素のみが正解であることを、比較結果が加点条件を満たす、と表現する場合がある。
【0061】
ステップS605において、辞書あり結果データから抽出した形態素のみが正解である場合、つまり、比較結果が加点条件を満たす場合、評価部234は、辞書あり結果データ、辞書なし結果データのそれぞれにおけるN+1番目の形態素と、正解データにおけるN+1番目形態素とを比較する(ステップS606)。
【0062】
続いて、評価部234は、辞書あり結果データから抽出したN+1番目の形態素のみが正解であるか否かを判定する(ステップS607)。言い換えれば、評価部234は、ステップS607における比較結果が加点条件を満たすか否かを判定する。
【0063】
ステップS607において、辞書あり結果データから抽出したN+1番目の形態素が加点条件を満たさない場合、評価部234は、辞書データに対する評価点として、+1点を付与(加点)し(ステップS608)、後述するステップS620へ進む。
【0064】
ステップS607において、辞書あり結果データから抽出したN+1番目の形態素が加点条件を満たす場合、評価部234は、辞書データに対する評価点として+2点を付与し(ステップS609)、後述するステップS620へ進む。
【0065】
本実施形態において、辞書あり結果データから抽出されたN番目の形態素が加点条件を満たす場合とは、辞書データが、音声認識の精度の向上させたことを示す。そこで、本実施形態では、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれにおけるN番目の形態素の比較結果が加点条件を満たす場合に、辞書データに対する評価点として、1点を加点する。
【0066】
また、本実施形態では、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれにおけるN+1番目の形態素が加点条件を満たす場合、辞書データに対する評価点として、2点を加点する。
【0067】
言い換えれば、本実施形態では、比較結果が連続して加点条件を満たす場合に、辞書データに対して、通常の評価点である+1点に、ボーナス点(追加加点)である+1点が加算された+2点が、評価点として付与(加点)される。
【0068】
比較結果が連続して加点条件を満たす場合とは、例えば、複数の単語を含む熟語が正しく変換されていることを示す。したがって、本実施形態では、比較結果が連続して加点条件を満たす場合には、辞書データの評価点として、通常の評価点にボーナス点を加算した評価点を付与する。
【0069】
ステップS605において、比較結果が加点条件を満たさない場合、評価部234は、正解データから抽出した形態素と、辞書あり結果データから抽出した形態素とが不一致であり、且つ、正解データから抽出した形態素と、辞書なし結果データから抽出した形態素とが一致するか否かを判定する(ステップS610)。
【0070】
言い換えれば、評価部234は、辞書なし結果データから抽出した形態素のみ正解であるか否かを判定する。
【0071】
以下の説明では、辞書あり結果データ、辞書なし結果データのそれぞれから抽出した形態素と、正解データから抽出した形態素とを比較した結果、辞書なし結果データから抽出した形態素のみが正解であることを、比較結果が第一の減点条件を満たす、と表現する場合がある。
【0072】
ステップS610において、比較結果が第一の減点条件を満たす場合、評価部234は、辞書あり結果データ、辞書なし結果データのそれぞれにおけるN+1目の形態素と、正解データにおけるN+1目の形態素とを比較する(ステップS611)。
【0073】
続いて、評価部234は、辞書なし結果データから抽出したN+1番目の形態素のみが正解であるか否か判定する(ステップS612)。言い換えれば、評価部234は、ステップS611における比較の結果が第一の減点条件を満たすか否かを判定する。
【0074】
ステップS612において、比較結果が第一の減点条件を満たさない場合、評価部234は、辞書データに対する評価点として、-1点を付与(減点)し(ステップS613)、後述するステップS620へ進む。
【0075】
ステップS612において、比較結果が第一の減点条件を満たす場合、評価部234は、辞書データに対する評価点として、-2点(減点)を付与し(ステップS614)、後述するステップS620へ進む。
【0076】
本実施形態において、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれから抽出された形態素の比較結果が減点条件を満たす場合とは、辞書データを用いることで、音声認識結果に誤りが生じた場合である。言い換えれば、比較結果が減点条件を満たす場合とは、辞書データが、音声認識結果の精度の低下させていることを示す。
【0077】
本実施形態では、このような場合に、辞書データに対する評価点として、通常の評価点である-1点に、ペナルティ点(追加減点)が加算された-2点が付与される。
【0078】
ステップS610において、3つの形態素の比較結果が第一の減点条件を満たさない場合、評価部234は、辞書あり結果データから抽出されたN番目の形態素と、辞書なし結果データから抽出されたN番目の形態素との両方が、正解データから抽出されたN番目の形態素と不一致であるか否かを判定する(ステップS615)。
【0079】
言い換えれば、評価部234は、辞書あり結果データから抽出されたN番目の形態素と、辞書なし結果データから抽出されたN番目の形態素との両方が、不正解であるかい否かを判定している。
【0080】
以下の説明では、辞書あり結果データ、辞書なし結果データのそれぞれから抽出した形態素と、正解データから抽出した形態素とを比較した結果、辞書あり結果データ、辞書なし結果データのそれぞれから抽出した形態素が不正解であることを、比較結果が第二の減点条件を満たす、と表現する場合がある。
【0081】
ステップS615において、比較結果が第二の減点条件を満たす場合、評価部234は、辞書あり結果データ、辞書なし結果データ、正解データのそれぞれにおけるN-1番目の形態素と、正解データにおけるN-1番目の形態素とを比較する(ステップS616)。
【0082】
続いて、評価部234は、ステップS616の比較結果が、第二の減点条件を満たすか否かを判定する(ステップS617)。
【0083】
ステップS617において、比較結果が第二の減点条件を満たさない場合、評価部234は、辞書データに対する評価点として、-1点を付与し(ステップS618)、後述するステップS620へ進む。
【0084】
また、ステップS617において、比較結果が第二の減点条件を満たす場合、評価部234は、辞書データに対する評価点として、-2点を付与し(ステップS619)、後述するステップS620へ進む。
【0085】
ステップS615において、比較結果が第二の減点条件を満たさない場合、評価部234は、全ての形態素について処理を行ってか否かを判定する(ステップS620)。
【0086】
ステップS620において、全ての形態素について処理を行っていない場合、評価部234は、次の形態素をN番目の形態素として(ステップS621)、ステップS603へ戻る。
【0087】
ステップS620において、全ての形態素について処理を行っていた場合、評価部234は、処理を終了する。
【0088】
なお、
図6におけるステップS616からステップS619までの処理は、N=2以上の場合に実行されればよい。
【0089】
次に、
図7及び
図8を参照して、本実施形態の評価部234の処理について、具体的に説明する。
図7は、音声認識の結果の一例を示す図である。
【0090】
図7に示すテキストデータ71は、音声認識部220において、辞書データベース210を参照せずに音声認識を行った結果である辞書なし結果データである。
【0091】
また、テキストデータ72は、音声認識部220において、辞書データベース210を参照せずに音声認識を行った結果である辞書あり結果データである。また、テキストデータ73は、テキストデータ71又はテキストデータ72に対して人手で修正を加えた正解データである。
【0092】
以下の説明では、テキストデータ71を辞書なし結果データ71とし、テキストデータ72を辞書あり結果データと、テキストデータ73を正解データ73として説明する。
【0093】
本実施形態の評価部234は、辞書なし結果データ71、辞書あり結果データ72、正解データ73のそれぞれについて、形態素解析を行い、出現時間が一致する形態素同士を対応付けた評価用データを生成する。
【0094】
図8は、評価用データの一例を示す図である。本実施形態の評価用データ80は、辞書なし結果データ71から抽出された形態素データ81と、辞書あり結果データ72から抽出された形態素データ82と、正解データ73から抽出された形態素データ83とを含む。
【0095】
形態素データ81、82、83のそれぞれに含まれる形態素群は、音声データから抽出された形態素と、各形態素と対応する音声の出現時間を示す出現時間情報とが含まれる。出現時間情報は、形態素と対応する発話の開始時刻と終了時刻とを含む。
【0096】
また、評価用データ80では、形態素データ81、82、83のそれぞれに含まれる形態素のうち、出現時間が一致する形態素同士が、評価部234による比較対象とされる。
【0097】
例えば、N=1とした場合の評価部234の処理について説明する。評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、1番目の形態素を抽出する。
図8の場合、形態素データ81、82、83のそれぞれから抽出される1番目の形態素は、全て「ここ」である。
【0098】
この場合、辞書あり結果データの形態素と、辞書なし結果データの形態素の両方が正解であり、比較結果は、加点条件、第一の減点条件、第二の減点条件の何れも満たさない。このため、辞書データに対する評価点は、加点も減点もされず、評価用データ80における項目「評価点」の値は空欄となる。
【0099】
次に、N=3とした場合の評価部234の処理について説明する。評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、3番目の形態素を抽出する。
図8の場合、形態素データ81と、形態素データ83から抽出される3番目の形態素は「未来」であり、形態素データ82から抽出される4番目の形態素は「××」である。
【0100】
この場合、3つの形態素の比較結果は、辞書なし結果データのみが正解であるため、比較結果は第一の減点条件を満たす。したがって、評価部234は、N+1番目である4番目の形態素の比較を行う。
【0101】
評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、4番目の形態素を抽出する。
図8の場合、形態素データ81と、形態素データ83から抽出される4番目の形態素は「的」であり、形態素データ82から抽出される4番目の形態素は「壁」である。
【0102】
この場合、3つの形態素の比較結果は、辞書なし結果データのみが正解であるため、比較結果は、連続して第一の減点条件を満たす。したがって、評価部234は、評価用データ80において、4番目の形態素と対応する項目「評価点」の値として、ペナルティ点を含む「-2」を付与する。言い換えれば、評価部234は、辞書データに対する評価点から2点減点する。
【0103】
次に、N=4とした場合の評価部234の処理について説明する。評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、4番目の形態素を抽出する。
図8の場合、形態素データ81と、形態素データ83から抽出される4番目の形態素は「的」であり、形態素データ82から抽出される5番目の形態素は「壁」であり、3つの形態素の比較結果は第一の減点条件を満たす。したがって、評価部234は、N+1番目である5番目の形態素の比較を行う。
【0104】
評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、5番目の形態素を抽出する。
図8の場合、形態素データ81と、形態素データ82と、形態素データ83とから抽出される5番目の形態素は「な」である。したがって、3つの形態素の比較結果は第一の減点条件を満たさない。
【0105】
したがって、評価部234は、評価用データ80において、6番目の形態素と対応する項目「評価点」の値として、「-1」を付与する。言い換えれば、評価部234は、辞書データに対する評価点から1点減点する。
【0106】
次に、N=8とした場合の評価部234の処理について説明する。評価部234は、評価用データ80における形態素データ82における8番目の形態素と、形態素データ83における8番目の形態素とが「××」であり、形態素データ81における8番目の形態素は「ZZ」である。
【0107】
この場合、3つの形態素の比較結果は、辞書あり結果データのみが正解となり、加点条件を満たす。したがって、評価部234は、N+1番目である9番目の形態素の比較を行う。
【0108】
評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、9番目の形態素を抽出する。
図8の場合、形態素データ81と、形態素データ82と、形態素データ83のそれぞれから抽出される11番目の形態素は「。」である。したがって、3つ形態素の比較結果は、加点条件を満たさない。
【0109】
このため、評価部234は、8番目の形態素と対応する項目「評価点」の値に「+1」を付与する。言い換えれば、評価部234は、辞書データに対する評価点に1点加点する。
【0110】
次に、N=18とした場合の評価部234の処理について説明する。評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、18番目の形態素を抽出する。
図8の場合、形態素データ82と、形態素データ83とから抽出される18番目の形態素が「××」であり、形態素データ81から抽出される18番目の形態素は「深大寺」である。
【0111】
この場合、辞書あり結果データのみが正解となり、比較結果は加点条件を満たす。したがって、評価部234は、N+1番目である19番目の形態素の比較を行う。
【0112】
評価部234は、評価用データ80における形態素データ81、82、83のそれぞれにおいて、出現時間が一致する形態素のうち、19番目の形態素を抽出する。
図8の場合、形態素データ82と、形態素データ83とから抽出される21番目の形態素は「ディープラーニング」であり、形態素データ81から抽出される21番目の形態素は「プラニング」である。
【0113】
したがって、19番目の形態素の比較においても、辞書あり結果データのみが正解となり、比較結果が連続して加点条件を満たす。
【0114】
このため、評価部234は、18番目の形態素と対応する項目「評価点」の値に「+2」を付与する。言い換えれば、評価部234は、辞書データに対する評価点に、ボーナス点を含む2点を加点する。
【0115】
本実施形態では、以上のように、辞書あり結果データ及び辞書なし結果データのそれぞれと、正解データとを出現時間が一致いる形態素毎に比較する。そして、本実施形態では、辞書あり結果データのみが正解している箇所を検出した場合に評価点を加点し、辞書なし結果データのみが正解している箇所を検出した場合に評価点を減点する。
【0116】
このため、本実施形態によれば、音声認識部220が提供する機能の利用者等が作成した辞書データが、音声認識の精度の向上に貢献しているか否かを評価することができる。
【0117】
また、本実施形態では、辞書あり結果データのみが正解した箇所が連続した場合には、ボーナス点を評価点に加点し、辞書なし結果データのみが正解した箇所が連続した場合には、ペナルティ点を評価点から減点する。
【0118】
このため、本実施形態によれば、辞書データに対し、2つ以上の形態素を含む熟語等の音声認識の精度の向上に貢献しているか否かを含めた評価を行うことができる。
【0119】
なお、本実施形態において、辞書評価部230の辞書更新部235は、評価部234による評価結果に応じて、辞書データベース210に格納された辞書データを更新してもよい。
【0120】
具体的には、辞書更新部235は、評価用データ80における項目「評価点」が、マイナスの値となっている形態素について、この形態素と対応する文言(登録語)と、文言と対応する音声データとの対応付けを、辞書データから削除してもよい。言い換えれば、辞書更新部235は、評価点が所定の基準値未満である形態素と対応する文言について、辞書データから、この文言と音声データとの対応付けを削除してもよい。
【0121】
また、辞書更新部235は、例えば、評価部234による処理を複数回実施し、統計処理を行った結果に基づき、辞書データから、形態素と対応する音声データとの対応付けを、辞書データから削除してもよい。
【0122】
具体的には、例えば、辞書更新部235は、同一の音声データに対して、複数回辞書あり結果データと辞書なし結果データとを取得し、評価部234による処理を複数回実施し、評価点が複数回マイナスとなった形態素と対応する文言を辞書データから削除してもよい。
【0123】
本実施形態では、このように辞書データを更新することで、辞書データを、音声認識の精度の向上に貢献できる有用な辞書データとすることができる。
【0124】
また、本実施形態の辞書評価部230の出力部236は、評価部234による評価結果を、端末装置300等に対して出力してもよい。言い換えれば、出力部236は、辞書データの評価を要求した利用者に対し、評価部234による評価結果を出力してもよい。
【0125】
具体的には、出力部236は、
図6の処理が実行された後の評価用データ80を、辞書データの評価結果として出力してもよい。また、出力部236は、例えば、評価点がマイナスの点数であった形態素の一覧等を、評価結果として出力してもよい。
【0126】
本実施形態では、このように、辞書データの評価結果を出力することで、辞書データの作成者等に対し、辞書データの有効性を把握させることができる。
【0127】
開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する、処理をコンピュータに実行させる、評価プログラム。
(付記2)
前記第一の認識結果データのみが前記正解データと一致する箇所が連続して検出された場合に、前記評価点に対して追加加点を行い、
前記第二の認識結果データのみが前記正解データと一致する箇所が連続して検出された場合に、前記評価点に対して追加減点を行う、処理を前記コンピュータに実行させる、付記1記載の評価プログラム。
(付記3)
前記評価点は、前記形態素毎の比較結果に応じて、前記形態素に対応付けられる値であり、
対応付けられた前記評価点が基準値未満である形態素と対応する登録語を、前記辞書データから削除する、処理を前記コンピュータに実行させる、付記1又は2記載の評価プログラム。
(付記4)
前記音声データの入力を受け付けて、前記辞書データを用いた音声認識を行って前記第一の認識結果データを取得し、
前記辞書データを用いない音声認識を行って前記第二の認識結果データを取得し、
前記第一の認識結果データ又は前記第二の認識結果データが修正された正解データを取得し、前記第一の認識結果データと前記第二の認識結果データと、前記正解データとを記憶部に格納する、処理を前記コンピュータに実行させる、付記1乃至3の何れか一項に記載の評価プログラム。
(付記5)
前記第一の認識結果データと、第二の認識結果データと、の両方が前記正解データと不一致となる箇所の検出に応じて、前記辞書データに対する評価点から減点する、付記1乃至4の何れか一項に記載の評価プログラム。
(付記6)
前記第一の認識結果データと前記第二の認識結果データと、の両方が前記正解データと一致する箇所が連続して検出された場合に、前記評価点に対して追加減点を行う、処理を前記コンピュータに実行させる、付記5記載の評価プログラム。
(付記7)
コンピュータによる評価方法であって、前記コンピュータが、
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較し、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する、評価方法。
(付記8)
音声データに対し、辞書データを用いた音声認識を行った第一の認識結果データと、前記辞書データを用いない音声認識を行った第二の認識結果データと、第一の認識結果データ又は第二の認識結果データが修正された正解データと、において、前記音声データにおける出現時間が一致する形態素毎に比較する比較部と、
前記第一の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点に加点し、前記第二の認識結果データのみが前記正解データと一致する箇所の検出に応じて、前記辞書データに対する評価点から減点する評価部と、を有する評価装置。
本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から脱することなく、種々の変形や変更が可能である。
【符号の説明】
【0128】
100 評価システム
200 評価装置
210 辞書データベース
220 音声認識部
230 辞書評価部
231 入力受付部
232 事前処理部
233 データ保持部
234 評価部
235 辞書更新部
236 出力部
300 端末装置