(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-11
(45)【発行日】2024-11-19
(54)【発明の名称】情報処理装置、プログラム、および情報処理方法
(51)【国際特許分類】
G10L 15/01 20130101AFI20241112BHJP
【FI】
G10L15/01 200
(21)【出願番号】P 2021007078
(22)【出願日】2021-01-20
【審査請求日】2023-11-08
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】福江 尚史
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2005-84102(JP,A)
【文献】特開2002-328696(JP,A)
【文献】特開2005-258215(JP,A)
【文献】特開2003-280678(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
音声出力の条件に基づいて、音声出力装置からの音声の出力を制御する音声出力制御部と、
前記音声出力装置から出力された前記音声を認識した音声認識装置から、前記音声の認識結果を示す認識結果テキスト情報を取得する取得部と、
前記音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、前記試験用テキスト情報と前記認識結果テキスト情報とに基づいて、前記認識結果の認識精度を算出する算出部と、
前記算出された認識精度と前記条件とを対応付けて出力する出力部と、を備え、
前記音声出力制御部は、前記算出部により算出された前記認識精度に基づいて前記条件を変更して、変更された前記条件に基づいて前記音声出力装置からの音声の出力を制御
し、
前記音声出力装置による音声出力と、前記音声出力に対する前記音声認識装置による音声認識と、は複数回実行され、
前記条件は、前記音声出力に関する複数のパラメータを含み、
前記音声出力装置は、複数存在し、
前記音声出力装置に出力させる音声の音声データは、前記試験音声の試験音声データと、雑音を発する雑音データと、を含み、
前記複数のパラメータは、前記複数回のそれぞれの回で、前記音声出力装置ごとに前記試験音声と前記雑音のいずれを出力させるかを指定する装置指定情報を含み、
前記音声出力制御部は、前記装置指定情報にさらに基づいて、前記複数の音声出力装置それぞれに出力させる音声を、前記試験音声と前記雑音とで前記それぞれの回で切り替えて前記音声出力を制御する、
情報処理装置。
【請求項2】
前記音声出力制御部は、前
記それぞれの回で、前記複数のパラメータの中で使用する一以上のパラメータを変更して前記音声出力を制御する、
請求項1に記載の情報処理装置。
【請求項3】
前記出力部は、前記複数回実行された音声認識それぞれの認識精度を、前記それぞれの回で前記音声出力の制御に使用された一以上のパラメータと対応付けて出力する、
請求項2に記載の情報処理装置。
【請求項4】
前記出力部は、前記音声認識装置を利用する利用場面ごとの前記複数のパラメータそれぞれの閾値を示す閾値情報を記憶する閾値記憶部を参照して、前記閾値情報にさらに基づいて、前記利用
場面ごとに、前記認識精度が、所定の精度以上のもの、かつ前記対応付けられたパラメータが前記閾値を超えないものを抽出して出力する、
請求項3に記載の情報処理装置。
【請求項5】
前記複数のパラメータは、前記音声出力装置に出力させる音声の音源定位位置、音声の発話速度、音声の音量または音声の発声者に関する情報の少なくともいずれか二つを含み、
前記音声出力制御部は、前記パラメータの値を変更させて前記音声出力を制御する、
請求項
1から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記パラメータは、前記それぞれの回で、前記複数の音声出力装置の中で出力をオンする装置を選択する装置選択情報を含み、
前記音声出力制御部は、前記装置選択情報にさらに基づいて、前記複数の音声出力装置それぞれの音声出力のオン/オフを前記それぞれの回で切り替えて前記音声出力を制御する、
請求項
1から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記パラメータは、前記音声出力装置に出力させる音声の長さを含み、
前記試験音声データは、第1試験音声の第1試験音声データと、前記第1試験音声と長さが異なる第2試験音声の第2試験音声データとを含み、
前記音声出力制御部は、前記音声出力装置それぞれに出力させる音声を、前記第1試験音声と前記第2試験音声とで前記それぞれの回で切り替えて前記音声出力を制御する、
請求項
1から6のいずれか一項に記載の情報処理装置。
【請求項8】
コンピュータに、
音声出力の条件に基づいて、音声出力装置からの音声の出力を制御する音声出力制御機能と、
前記音声出力装置から出力された前記音声を認識した音声認識装置から、前記音声の認識結果を示す認識結果テキスト情報を取得する取得機能と、
前記音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、前記試験用テキスト情報と前記認識結果テキスト情報とに基づいて、前記認識結果の認識精度を算出する算出機能と、
前記算出された認識精度と前記条件とを対応付けて出力する出力機能と、を実現させ、
前記音声出力制御機能は、前記算出機能により算出された前記認識精度に基づいて前記条件を変更して、変更された前記条件に基づいて前記音声出力装置からの音声の出力を制御
し、
前記音声出力装置による音声出力と、前記音声出力に対する前記音声認識装置による音声認識と、は複数回実行され、
前記条件は、前記音声出力に関する複数のパラメータを含み、
前記音声出力装置は、複数存在し、
前記音声出力装置に出力させる音声の音声データは、前記試験音声の試験音声データと、雑音を発する雑音データと、を含み、
前記複数のパラメータは、前記複数回のそれぞれの回で、前記音声出力装置ごとに前記試験音声と前記雑音のいずれを出力させるかを指定する装置指定情報を含み、
前記音声出力制御機能は、前記装置指定情報にさらに基づいて、前記複数の音声出力装置それぞれに出力させる音声を、前記試験音声と前記雑音とで前記それぞれの回で切り替えて前記音声出力を制御する、
プログラム。
【請求項9】
コンピュータが、
音声出力の条件に基づいて、音声出力装置からの音声の出力を制御し、
前記音声出力装置から出力された前記音声を認識した音声認識装置から、前記音声の認識結果を示す認識結果テキスト情報を取得し、
前記音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、前記試験用テキスト情報と前記認識結果テキスト情報とに基づいて、前記認識結果の認識精度を算出し、
前記算出された認識精度と前記条件とを対応付けて出力し、
前記算出された前記認識精度に基づいて前記条件を変更し、
前記変更された前記条件に基づいて前記音声出力装置からの音声の出力を制御
し、
前記音声出力装置による音声出力と、前記音声出力に対する前記音声認識装置による音声認識と、は複数回実行され、
前記条件は、前記音声出力に関する複数のパラメータを含み、
前記音声出力装置は、複数存在し、
前記音声出力装置に出力させる音声の音声データは、前記試験音声の試験音声データと、雑音を発する雑音データと、を含み、
前記複数のパラメータは、前記複数回のそれぞれの回で、前記音声出力装置ごとに前記試験音声と前記雑音のいずれを出力させるかを指定する装置指定情報を含み、
前記装置指定情報にさらに基づいて、前記複数の音声出力装置それぞれに出力させる音声を、前記試験音声と前記雑音とで前記それぞれの回で切り替えて前記音声出力を制御する、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム、および情報処理方法に関する。
【背景技術】
【0002】
従来、音声認識精度を評価するための技術が存在する。例えば、下記特許文献1に開示されている音声認識精度推定装置では、音声を認識した結果に対する評価として、入力された音声を音声認識し、正解である確率などを示す単語アライメントネットワークに基づいて認識された単語ごとの音声認識精度を推定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、音声認識装置が利用される場面(以下、「利用場面」ともいう)は、会議での議事録作成や自宅でのデバイス制御など様々な利用場面が考えられる。そして、利用場面ごとに、発声者がどの位置にいてどのように発声するかなど、認識対象の音声の出力の状態が異なってくることが考えられる。しかしながら、上記特許文献では、この音声出力の複数の状態をふまえて音声認識精度を評価させることができないという問題がある。
【0005】
そこで、本発明は、上記課題に鑑みて、音声出力の複数の状態をふまえて音声認識精度を評価させることができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る情報処理装置は、音声出力の条件に基づいて、音声出力装置からの音声の出力を制御する音声出力制御部と、音声出力装置から出力された音声を認識した音声認識装置から、音声の認識結果を示す認識結果テキスト情報を取得する取得部と、音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、試験用テキスト情報と認識結果テキスト情報とに基づいて、認識結果の認識精度を算出する算出部と、算出された認識精度と条件とを対応付けて出力する出力部と、を備え、音声出力制御部は、算出部により算出された認識精度に基づいて条件を変更して、変更された条件に基づいて音声出力装置からの音声の出力を制御する。
【0007】
本発明の一態様に係るプログラムは、コンピュータに、音声出力の条件に基づいて、音声出力装置からの音声の出力を制御する音声出力制御機能と、音声出力装置から出力された音声を認識した音声認識装置から、音声の認識結果を示す認識結果テキスト情報を取得する取得機能と、音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、試験用テキスト情報と認識結果テキスト情報とに基づいて、認識結果の認識精度を算出する算出機能と、算出された認識精度と条件とを対応付けて出力する出力機能と、を実現させ、音声出力制御機能は、算出機能により算出された認識精度に基づいて条件を変更して、変更された条件に基づいて音声出力装置からの音声の出力を制御する。
【0008】
本発明の一態様に係る情報処理方法は、コンピュータが、音声出力の条件に基づいて、音声出力装置からの音声の出力を制御し、音声出力装置から出力された音声を認識した音声認識装置から、音声の認識結果を示す認識結果テキスト情報を取得し、音声に含まれる試験音声の内容を示す試験用テキスト情報を記憶するテキスト記憶部を参照して、試験用テキスト情報と認識結果テキスト情報とに基づいて、認識結果の認識精度を算出し、算出された認識精度と条件とを対応付けて出力し、算出された認識精度に基づいて条件を変更し、変更された条件に基づいて音声出力装置からの音声の出力を制御する。
【発明の効果】
【0009】
本発明によれば、音声出力の複数の状態をふまえて音声認識精度を評価させることができる情報処理装置、プログラム、および情報処理方法を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態に係る評価システムのシステム構成例を説明するための図である。
【
図2】本実施形態に係る評価システムの概要を説明するための図である。
【
図3】本実施形態に係る制御装置の機能構成の一例を示す図である。
【
図4】本実施形態に係る評価システムの複数のパラメータを含む出力条件の一例を示す表である。
【
図5】本実施形態に係る評価システムの画面例を示す図である。
【
図6】本実施形態に係る評価システムの画面例を示す図である。
【
図7】本実施形態に係る評価システムの認識精度と音声出力装置の音量との関係の一例を示す図である。
【
図8】本実施形態に係る評価システムの認識精度と音声出力装置との距離との関係の一例を示す図である。
【
図9】本実施形態に係る制御装置の動作例を示す図である。
【
図10】本実施形態に係る制御装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
添付図面を参照して、本発明の好適な実施形態(以下、「本実施形態」という)について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。
【0012】
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されてもよい。また、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。
【0013】
<1.システム構成>
図1を参照して、本実施形態に係わる評価システム1のシステム構成例を説明する。評価システム1は、音声認識装置の音声認識精度を開発者や顧客などのユーザが評価するためのシステムである。評価システム1は、例えば、音声認識装置の開発において、同一モデルの現行製品と次期製品の精度をそれぞれ評価して認識精度が改善されているかを確認するために用いることができる。また、評価システム1は、例えば、自社の音声認識装置の認識精度と他社の音声認識装置の認識精度とをそれぞれ評価して比較するために用いることもできる。
【0014】
図1に示すように、評価システム1は、制御装置100と、評価対象の音声認識装置200と、音声を出力する音声出力装置300a~300cとを含む。また評価システム1は、例えば、ネットワークNを介して音声認識システム500と接続されていてもよい。なお、音声出力装置300a~300cは、特に区別の必要がない場合、総称して「音声出力装置300」ともいう。
【0015】
ネットワークNは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、PHS(Personal Handy-phone System)網、無線LAN(Local Area Network)、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)、WiMax(登録商標)、赤外線通信、Bluetooth(登録商標)、有線LAN、電話線、電灯線ネットワーク、IEEE1394等に準拠したネットワークがある。
【0016】
制御装置100は、音声出力装置300からの音声の出力を制御する情報処理装置である。また、制御装置100は、例えば、有線(例えば、USBやHDMI(登録商標)、プラグ・ジャックなど)や無線(例えば、WifiやBluetoothなど)により音声出力装置300と接続されていてもよい。また、制御装置100は、音声認識装置200から、認識結果テキスト情報を取得する。なお、説明を簡単にするために、制御装置100を1台の端末装置とする例を説明するが、制御装置100をこれに限る趣旨ではない。制御装置100は、例えば、搭載する機能を複数台の端末装置に分散させて構成されていてもよい。
【0017】
「認識結果テキスト情報」とは、音声出力装置300から出力された音声の認識結果をテキスト(文字列)により示す情報である。
【0018】
音声認識装置200は、評価システム1による評価対象の装置である。音声認識装置200は、例えば、制御装置100や音声認識システム500との通信が可能な情報処理装置である。音声認識装置200は、発声者の音声を取得して、取得した音声を音声認識によりテキストに変換して記録する。
【0019】
音声認識装置200は、例えば、取得した音声に対話などで応答する、いわゆるスマートスピーカーであってもよい。音声認識装置200は、他の例として、汎用のタブレット端末やスマートフォンなどであってもよい。音声認識装置200は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、この汎用のタブレット端末を音声認識装置200として使用してもよい。
【0020】
音声出力装置300は、アンプ回路およびスピーカを含む装置であり、音声を出力する装置である。音声出力装置300は、制御装置100から制御されて音声を出力する。音声出力装置300は、例えば、スピーカ装置であってもよいし、制御装置100との通信が可能なスマートフォンやラップトップ端末などの情報処理装置であってもよい。音声出力装置300は、1つでもよいし、複数存在してもよい。制御装置100が音声出力装置300に出力させる音声の音声データ(以下、単に「音声データ」ともいう)は、制御の際に制御装置100から連携させてもよいし、音声出力装置300の記憶部(不図示)や外部の記憶装置が記憶していてもよい。
【0021】
制御装置100が音声出力装置300に出力させる音声は、認識精度を評価するための試験音声を含む。言い換えると、評価システム1は、試験音声の内容を音声認識装置200がどの程度認識できたかを評価する。また、この出力させる音声は、例えば、試験音声の他に、雑音を含んでもよい。また、試験音声は、第1音声と、第2音声とを含んでもよい。第2音声とは、その長さや音量、周波数などが第1音声と異なる音声である。
【0022】
音声認識システム500は、音声認識装置200と通信の通信が可能なシステムである。音声認識システム500は、音声認識装置200から取得した音声のデータを受信し、受信したデータに基づいて音声を認識する。
【0023】
<2.システム概要>
図2を参照して、評価システム1の概要を説明する。本例では、評価対象の音声認識装置200に対して、その周囲に複数の音声出力装置300を設置し、複数の音声出力装置300から出力される音声の認識精度を評価する試験を行う例を説明する。また、評価システム1での試験の実施において、外部からの音声が音声認識装置200に極力入らないように、評価のための部屋(本例では、計測室とする)に音声認識装置200や音声出力装置300を設置してもよい。
【0024】
(1)
図2に示すように、まず、制御装置100が音声出力装置300に対して、音声出力の条件(以下、「出力条件」ともいう)に基づいて、音声出力を指示する。
【0025】
(2)音声出力装置300は、この指示に基づいて、音声を出力する。
【0026】
「音声出力の条件(出力条件)」とは、例えば、音声出力装置300から音声をどのように出力させるかという条件である。音声出力の条件は、例えば、音声出力に関する複数のパラメータ(以下、単に「複数のパラメータ」または「パラメータ」ともいう)を含んでもよい。パラメータの詳細については、後述する。
【0027】
(3)音声認識装置200は、音声出力装置300から出力された音声を取得し、取得した音声を認識する。この音声認識の処理は、音声認識装置200自身の機能が実行してもよいし、音声認識システム500に一部または全部を委譲してもよい。音声認識装置200は、音声認識の結果を、認識結果テキスト情報として記録する。
【0028】
(4)制御装置100は、音声認識装置200のAPIを介して、記録された認識結果テキスト情報を取得する。
【0029】
(5)制御装置100は、試験用テキスト情報と認識結果テキスト情報とに基づいて、認識結果の認識精度を算出する。ここで「試験用テキスト情報」とは、音声出力装置300に出力させる音声に含まれる試験音声の内容をテキストにより示す情報である。
【0030】
(6)制御装置100は、上記(5)で算出された認識精度と上記(1)で適用された出力条件とを対応付けて画面やファイルなどに出力する。
【0031】
(7)制御装置100は、上記(5)で算出された認識精度をフィードバックして、音声出力装置300に対して再度音声出力を指示する。具体的には、制御装置100は、この認識精度に基づいて出力条件を変更し、変更した出力条件に基づいて音声出力装置300に対して音声出力を指示する。
【0032】
評価システム1では、上記(1)~(7)を所定回数繰り返し実施してもよい。具体的には、音声出力装置300による音声出力と、この音声出力に対する音声認識装置200による音声認識と、は複数回実行されてもよい。そして、制御装置100は、複数回実行される際に、その都度出力条件を変更しながら音声認識装置200の認識精度を評価する。
【0033】
上記構成によれば、制御装置100は、音声認識精度の評価にあたって、出力条件を変更することで複数の音声出力の状態をつくることができる。このため、上記構成によれば、制御装置100は、音声出力の複数の状態をふまえて音声認識精度をユーザに評価させることができる。したがって、制御装置100は、様々な音声出力の状態をつくることで音声認識装置200の様々な利用場面を想定した環境で音声認識精度の評価をユーザにさせることができる。
【0034】
<3.機能構成>
図3を参照して、本実施形態に係る制御装置100の機能構成を説明する。
図3に示すように、制御装置100は、制御部110と、記憶部130と、通信部140と、を備える。
【0035】
制御部110は、音声出力制御部111と、取得部112と、算出部113と、出力部114と、生成部115と、を備える。
【0036】
<音声出力制御部>
音声出力制御部111は、出力条件に基づいて、音声出力装置300からの音声の出力を制御する。音声出力制御部111は、例えば、出力条件が「音声データAを出力させる」である場合、音声データAを記憶する記憶部130を参照して、通信部140を介して音声出力装置300にこの音声データAを送信してもよい。音声出力制御部111は、例えば、出力条件が「音量〇〇[db]で音声の長さが〇〇[s]の音声データを、再生速度は1倍速で、yy/mm/dd h1h1:m1m1とh1h1:m2m2の2回出力させる」である場合、出力条件に合致する音声データを記憶部130から取得し、音声出力装置300と通信可能に接続して、取得した音声データと音声を出力させる指示(出力条件に含まれるパラメータ(本例の場合、出力のタイミング、出力回数、および再生速度)を含む)とを音声出力装置300に送信してもよい。
【0037】
出力条件は、例えば、条件情報として記憶部130に記憶されていてもよい。また、出力条件は、試験シナリオとして複数の出力条件を組みあわせて条件情報として記憶されていてもよい。
【0038】
音声データは、例えば、試験音声の試験音声データと、雑音を発する雑音データと、を含んでもよい。試験音声データと雑音データとは、例えば、それぞれ異なる個別のデータであってもよいし、混合(ミキシング)させてもよい。また、試験音声データは、第1試験音声の第1試験音声データと、第1試験音声と長さが異なる第2試験音声の第2試験音声データとを含んでもよい。
【0039】
音声出力制御部111は、算出部113により算出された認識精度に基づいて出力条件を変更する。そして、音声出力制御部111は、変更された出力条件に基づいて、音声出力装置300からの音声の出力を制御する。
【0040】
上記構成によれば、音声出力制御部111は、音声認識精度の評価にあたって、出力条件を変更することで複数の音声出力の状態をつくることができる。このため、上記構成によれば、音声出力制御部111は、音声出力の複数の状態をふまえて音声認識精度をユーザに評価させることができる。したがって、音声出力制御部111は、様々な音声出力の状態をつくることで音声認識装置200の様々な利用場面を想定した環境で音声認識精度をユーザに評価させることができる。
【0041】
音声出力制御部111は、例えば、音声出力装置300による音声出力と、この音声出力に対する音声認識装置200による音声認識と、が複数回実行される際に、この複数回のそれぞれの回で、複数のパラメータの中で使用する一以上のパラメータを変更して音声出力を制御してもよい。
【0042】
上記構成によれば、音声出力制御部111は、音声出力に関する複数のパラメータの中で使用するパラメータを変更することで、各出力条件に対してどこで差異をつけるかバリエーションをもたせて制御することができる。このため、上記構成によれば、音声出力制御部111は、バリエーションをもたせた環境で音声認識精度の評価をユーザにさせることができる。
【0043】
複数のパラメータは、例えば、音声出力装置300に出力させる音声の音声データを特定するための情報、音声の音源定位位置(音声認識装置200を基準として音声出力装置300それぞれからの距離および方向を含む)、音声の発話速度(試験音声の内容を発声者が読んで発話した際の速度の他に音声の再生速度も含む)、音声の音量、音声の長さ、音声の発声者に関する情報(例えば、性別や年代、人声か合成音声かを特定するための情報など)、出力のタイミング、または出力の回数)などの少なくともいずれか二つを含んでもよい。この「音声データを特定するための情報」とは、例えば、音声データを記憶するファイルのファイル名やこのファイルにアクセスするための情報(URLなど)などである。複数のパラメータは、例えば、
図4に示すように、出力条件ごとに組み合わされていてもよい。
【0044】
パラメータは、例えば、装置選択情報を含んでもよい。ここで「装置選択情報」とは、複数回それぞれの回で、複数の音声出力装置300の中で出力をオンする装置を選択する情報である。
【0045】
パラメータは、例えば、装置指定情報を含んでもよい。ここで「装置指定情報」とは、複数回それぞれの回で、音声出力装置300ごとに試験音声と雑音のいずれを出力させるかを指定する情報である。
【0046】
パラメータは、例えば、音声出力装置300に出力させる音声の長さを含んでもよい。
【0047】
例えば、音声データが試験音声データと雑音データとを混合させたデータの場合、パラメータは、この混合に関するパラメータ(以下、「混合パラメータ」ともいう)であってもよい。
【0048】
パラメータは、例えば、試験音声の音量と雑音の音量との差であってもよい。また、パラメータは、例えば、第1試験音声の音量と第2試験音声の音量との差であってもよい。
【0049】
音声出力制御部111は、例えば、各パラメータの値を変更させて音声出力を制御してもよい。音声出力制御部111は、例えば、予め設定された値ごとに各パラメータの値を変更させて(例えば、音量であれば5[db]ずつ順次あげていくなど)音声出力を制御してもよい。音声出力制御部111は、例えば、閾値情報の閾値や基準値情報の基準値ごとに各パラメータの値を変更させていってもよい。
【0050】
音声出力制御部111は、例えば、装置選択情報にさらに基づいて、複数の音声出力装置300それぞれの音声出力のオン/オフをそれぞれの回で切り替えて音声出力を制御してもよい。
【0051】
上記構成によれば、音声出力制御部111は、複数の音声出力装置300それぞれの音声出力のオン/オフを切り替えることで音源定位にバリエーションをもたせて認識精度の評価をさせることができる。
【0052】
音声出力制御部111は、例えば、装置指定情報にさらに基づいて、複数の音声出力装置300それぞれに出力させる音声を、試験音声と雑音とでそれぞれの回で切り替えて音声出力を制御してもよい。
【0053】
例えば、屋外や商業施設など利用場面によっては周囲の騒音などの雑音が音声認識装置200に認識精度に影響をあたえることも考えられる。上記構成によれば、音声出力制御部111は、このような雑音の影響をふまえたうえで認識精度を評価させることができる。このため、上記構成によれば、音声出力制御部111は、雑音が多い場面を含む様々な利用場面を想定した評価をさせることができる。
【0054】
音声出力制御部111は、例えば、音声出力装置300それぞれに出力させる音声を、第1試験音声と第2試験音声とで複数回のそれぞれの回で切り替えて音声出力を制御してもよい。
【0055】
例えば、会議室での会話では複数の発声者がそれぞれの席から発言するなど複数の音声がそれぞれ異なる音源から発声する場面で音声認識装置200が利用されることが考えられる。上記構成によれば、音声出力制御部111は、このような利用場面にそくした出力条件で出力させるよう制御することができる。
【0056】
<取得部>
取得部112は、音声出力装置300から出力された音声を認識した音声認識装置200から、この音声の認識結果を示す認識結果テキスト情報を取得する。取得部112の取得の態様は、どのような態様でもよく、例えば、音声出力装置300から送信された認識結果テキスト情報のテキストファイルを受信してもよい。また、取得部112が認識結果テキスト情報を取得する態様は、他の例として、音声認識装置200にリモートアクセスして認識結果テキスト情報のテキストファイルを取得してもよいし、音声認識装置200が実装するAPIに認識結果テキスト情報の参照を指示してその結果として認識結果テキスト情報を取得してもよい。
【0057】
<算出部>
算出部113は、試験用テキスト情報を記憶するテキスト記憶部131を参照して、この試験用テキスト情報と取得部112により取得された認識結果テキスト情報とに基づいて、認識結果の認識精度を算出する。算出部113は、算出した認識精度を精度情報として記憶部130に記憶する。算出部113は、例えば、算出した認識精度と適用した出力条件とを対応付けて精度情報として記憶部130に記憶してもよい。算出部113は、例えば、試験用テキスト情報のテキストと認識結果テキスト情報のテキストとが一致している度合いを認識精度として算出してもよい。例えば、試験用テキスト情報のテキストと認識結果テキスト情報のテキストとが8割一致した場合には、算出部113は、認識精度を「0.8」または「80%」と算出してもよい。
【0058】
算出部113は、例えば、所定の学習期間において適用した出力条件と当該出力条件下で算出された認識精度との組み合わせに基づいて、複数のパラメータそれぞれの閾値または基準値を特定してもよい。算出部113は、特定した閾値を閾値情報として閾値記憶部132に記憶する。また、算出部113は、例えば、特定した基準値を基準値情報として記憶部130に記憶してもよい。
【0059】
<音量の閾値または基準値>
算出部113は、例えば、音量の閾値を特定するにあたって、所定の学習期間における音声の音量とそれに対応する音声の認識精度を学習データとして入力することにより
図7に示すような音量と認識精度の第1パターンモデルを構築してもよい。算出部113は、例えば、音量を説明変数(特徴量)とし認識精度を目的変数(特徴量)として、回帰分析による統計処理を用いて第1パターンモデルを構築してもよい。算出部113は、構築した第1パターンモデルに音声の音量を入力して、認識精度を算出してもよい。算出部113は、例えば、利用場面ごとの音量の取りうる範囲を、複数の認識精度の値(本例では、十分な認識精度(0.9)と許容できる認識精度(0.7)とする)により複数の段階(「高:十分な認識精度が得られる音量」「中:許容できる認識精度が得られる音量」)に区分けする。算出部113は、例えば、区分けした2つの範囲(R1またはR2)のうちいずれかの範囲の上限値および/または下限値を、音量の閾値として特定してもよい。また、算出部113は、例えば、第1パターンモデルにおける認識精度が最大となる音量の値(d1)を音量の基準値として特定してもよい。
【0060】
<距離の閾値または基準値>
算出部113は、例えば、所定の学習期間における音声認識装置200と音声出力装置300との距離とそれに対応する認識精度を学習データとして入力することにより
図8に示すような音声出力装置300との距離と認識精度の第2パターンモデルを構築してもよい。算出部113は、例えば、音声出力装置300との距離を説明変数(特徴量)とし認識精度を目的変数(特徴量)として、回帰分析による統計処理を用いて第2パターンモデルを構築してもよい。算出部113は、構築した第2パターンモデルに音声出力装置300との距離を入力して、認識精度を算出してもよい。算出部113は、例えば、発声者との距離の取りうる範囲を、上記音量の例と同様に、複数の認識精度の値により複数の段階に区分けする。算出部113は、例えば、区分けした2つの範囲(R3またはR4)のうちいずれかの範囲の上限値および/または下限値を、音声出力装置300との距離の閾値として特定してもよい。また、算出部113は、例えば、第2パターンモデルにおける認識精度が最大となる音量の値(d2)を距離の基準値として特定してもよい。
【0061】
<周波数の閾値または基準値>
算出部113は、例えば、所定の学習期間における音声出力装置300に出力させた音声の周波数に基づいて、認識精度を算出してもよい。算出部113は、例えば、周波数の統計値(平均値や中央値)を算出し、算出した統計値を周波数の基準値として特定してもよい。また、算出部113は、例えば、周波数帯域を算出し、算出した周波数帯域の上限値もしくは下限値を周波数の閾値として特定してもよい。
【0062】
算出部113は、例えば、所定の学習期間における音声データの音声に含まれる、子音または所定の閾値以上の高周波数域の少なくともいずれかのパワー(または音圧レベル)を特徴量として抽出してもよい。ここでいう「パワー」とは、いわゆる音響パワーであり、音の周波数分析において、周波数ごとの重み(パワー)を示し、人の聴覚が感じる音の大きさや強さ(音量)とは相違する。パワーは、子音または所定の閾値以上の高周波数域の音声の強さとする。算出部113は、抽出した特徴量に基づいて、認識精度を算出してもよい。算出部113は、例えば、子音のパワーにより上記で算出した認識精度に重み付けを行い、重み付けを行った複数の認識精度により上記の音量の例と同様に2つの段階(「高」「中」)に区分けしてもよい。
【0063】
算出部113は、例えば、音声の音圧レベルと周波数とについて、縦軸を音圧レベルとし横軸を周波数とするグラフにプロットしてもよい。算出部113は、上記音量の例と同様に、プロットしたデータが取りうる範囲を、2つの認識精度のエリア(「高」「中」)に区分けする。算出部113は、例えば、音声の音圧レベルと周波数とが区分けした二つのエリアのいずれに属するかによって、認識精度を算出してもよい。
【0064】
算出部113は、例えば、上記のように(ア)音量、(イ)発声者との距離、(ウ)周波数、(エ)子音または所定の閾値以上の高周波数域のパワー、の少なくともいずれかにより算出した認識精度の組み合わせに基づいて、複合的な認識精度(以下、「複合認識精度」ともいう)を算出してもよい。算出部113は、複合的な認識精度に基づいて、各パラメータの閾値または基準値を特定してもよい。例えば、算出部113は、複合認識精度が最大となるときの各パラメータの値を閾値または基準値として特定してもよい。
【0065】
算出部113は、例えば、上記(ア)~(オ)それぞれの認識精度の加重平均を算出して、算出した加重平均を複合認識精度として算出してもよい。算出部113は、例えば、この加重平均にあたって、上記の(ア)と(イ)の重要度を他の(ウ)~(オ)より高く設定してもよい。算出部113は、例えば、この重要度に比例した係数をそれぞれの認識精度にかけて重み付けをしてもよい。算出部113は、具体的には、以下の式によって複合認識精度を算出してもよい。
【0066】
複合認識精度=(α×上記(オ)の認識精度+β×上記(ア)の認識精度+θ×上記(イ)の認識精度+δ・上記(ウ)の認識精度)/(α+β+θ+δ)
【0067】
「α」は、上記(オ)の重み係数であり、「β」は、上記(ア)、すなわち音量の重み係数であり、「θ」は上記(イ)、すなわち距離の重み係数であり、「δ」は、上記(ウ)、すなわち周波数の重み係数である。βとθは、設定した重要度に応じて、αおよびδより大きい値としてもよい。
【0068】
算出部113は、例えば、複数のパラメータの中で少なくとも二以上のパラメータの間の相関関係の度合いを示す相関度(相関係数)を算出してもよい。算出部113は、例えば、音量と認識精度との相関度として、音量と認識精度との共分散を音量の標準偏差と認識精度の標準偏差との積で割って、音量と認識精度の相関係数を算出してもよい。算出部113は、他の例として、多変量解析の技術(重回帰分析やロジスティック回帰など)を用いて、二以上のパラメータの間の相関度として、二以上のパラメータの間の相関係数を算出してもよい。
【0069】
算出部113は、例えば、認識結果の信頼度を算出してもよい。算出部113は、例えば、認識結果に含まれる単語ごとの信頼度を算出し、算出した単語ごとの信頼度を集計して認識結果の認識精度を算出してもよい。
【0070】
単語ごとの信頼度は、例えば、所定の範囲の値(例えば、0.0~1.0の範囲)を有してもよい。この所定の範囲の値の中で数値が1.0、すなわち上限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に少ないことを示す。他方、この所定の範囲の値の中で数値が0.0、すなわち下限に近いほど、単語ごとの信頼度は、その単語に似たスコアをもつ他の競合候補が相対的に多いことを示す。すなわち、所定の範囲の中で数値が上限に近ければ近いほど、単語ごとの信頼度は、認識結果の一位候補の単語に近い他の候補がなく、信頼(確信)をもってその認識結果を出力したということがいえる。
【0071】
単語の信頼度の算出方法は、いくつかの方法が考えられるが、例えば、駒谷、河原著「音声認識結果の信頼度を用いた効率的な確認・誘導を行う対話処理」(情報処理学会論文誌、Vol.43、No.10、pp3078-3086)が知られている。
【0072】
<出力部>
出力部114は、精度情報を記憶する記憶部130を参照して、算出部113により算出された認識精度と出力条件とを対応付けて出力する。出力部114がこの対応付けを出力する態様はどのような態様であってもよく、例えば、画面に出力してもよいし、csvファイルや表形式のファイルに出力してもよい。
【0073】
ここで
図5および
図6を参照して、出力部114の出力の一例を説明する。
【0074】
図5に示すように、出力部114は、認識精度評価画面A1を、評価対象の音声認識装置200ごとに、ユーザ端末(不図示)に出力(表示)させてもよい。認識精度評価画面A1は、評価対象の音声認識装置200に適用する出力条件ごとに、出力条件を識別するための情報(本例ではNo)と、出力条件の内容と、出力条件に対応する認識精度と、出力条件による音声出力させるための実行ボタンと、が含まれている。この実行ボタンがユーザにより押下されると、制御装置100から音声出力装置300に対して音声出力が指示される。
【0075】
図6に示すように、出力部114は、認識精度評価画面A2を、評価対象の音声認識装置ごと、かつ利用場面(本例では、「会議室(小規模)での議事録作成」とする)ごとに、ユーザ端末に出力させてもよい。認識精度評価画面A2では、評価対象の音声認識装置200および利用場面に適用する出力条件として、この利用場面のパラメータの閾値を超えないものを抽出して出力される。認識精度評価画面A2は、抽出された出力条件ごとに、出力条件を識別するための情報(本例ではNo)と、出力条件の内容と、出力条件に対応する認識精度と、出力条件による音声出力させるための実行ボタンと、が含まれている。この実行ボタンがユーザにより押下されると、制御装置100から音声出力装置300に対して音声出力が指示される。
【0076】
出力部114は、例えば、閾値情報を記憶する閾値記憶部132を参照して、閾値情報に基づいて、利用画面ごとに、認識精度が、所定の精度以上のもの、かつ対応付けられたパラメータが閾値を超えないものを抽出して出力してもよい。また、出力部114は、例えば、閾値情報に基づいて、利用画面ごとに、認識精度に対応付けられたパラメータが閾値を超えないものを抽出して出力してもよい。「利用場面」とは、音声認識装置200を利用する場面である。
【0077】
「閾値情報」とは、利用場面ごとの複数のパラメータそれぞれの閾値を示す情報である。閾値情報に示される閾値は、例えば、予め設定された値(固定値)であってもよいし、算出部113により特定された値であってもよい。
【0078】
一般的に音量をあげれば認識精度もよくなる傾向にあるが、利用場面によっては、例えば会議など大きい音量が相応しくないまたは許容できない場面もある。上記構成によれば、出力部114は、このように利用場面に応じて、各パラメータを適切なまたは許容できる範囲におさまるもののみ抽出してユーザに対して出力させることができる。このため、上記構成によれば、ユーザは、評価したい利用場面ごとに効率的に評価することができる。
【0079】
出力部114は、例えば、基準値情報を記憶する基準値記憶部(不図示)を参照して、基準値情報に基づいて、利用画面ごとに、認識精度が、所定の精度以上のもの、かつ対応付けられたパラメータが基準値から所定範囲内のものを抽出して出力してもよい。また、出力部114は、例えば、基準値情報に基づいて、利用画面ごとに、認識精度に対応付けられたパラメータが基準値から所定範囲内のものを抽出して出力してもよい。
【0080】
「基準値情報」とは、利用場面ごとの複数のパラメータそれぞれの基準値を示す情報である。基準値情報に示される閾値は、例えば、予め設定された値(固定値)であってもよいし、算出部113により特定された値であってもよい。
【0081】
一般的に音量をあげれば認識精度もよくなる傾向にあるが、利用場面によっては、例えば会議など大きい音量が相応しくないまたは許容できない場面もある。上記構成によれば、出力部114は、このように利用場面に応じて、各パラメータを基準となる値に基づいて抽出してユーザに対して出力させることができる。このため、上記構成によれば、ユーザは、評価したい利用場面ごとに効率的に評価することができる。
【0082】
出力部114は、例えば、出力条件を出力するにあたって、出力条件に含まれる複数のパラメータを認識精度との相関度の大きい順に並べ替えて(ソートして)出力してもよい。また、出力部114は、例えば、出力条件を出力するにあたって、出力条件に含まれる複数のパラメータの中で認識精度と相関度が最大のパラメータを識別可能に(例えば、協調表示など)出力してもよい。このような構成によれば、出力部114は、どのパラメータが認識精度により影響をあたえたかをユーザに把握させつつ、評価させることができる。
【0083】
<生成部>
生成部115は、音声合成処理を用いて、試験用テキスト情報に基づいて、試験音声を含む音声データを生成してもよい。
【0084】
生成部115は、例えば、第1試験音声データおよび第2試験音声データを、ステレオ音声データに加工してもよい。ここで「ステレオ音声データ」とは、第1試験音声と、第2試験音声とをステレオフォニック再生するための音声データである。生成部115は、例えば、ステレオ音声データの加工の前処理として、第1試験音声データまたは第2試験音声データの音声の音像を定位させてもよい。加工部122は、例えば、第1試験音声データについて、発声者(チャンネル)ごとに仮想音源の位置に第1試験音声の音像を定位させてもよい。この仮想音源の位置は、例えば、出力条件の音源定位位置にあわせて設定してもよい。
【0085】
<記憶部>
記憶部130は、音声データや基準値情報、精度情報を記憶する。記憶部130は、データベースマネジメントシステム(DBMS)を利用して上記の各種情報・データを記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。また記憶部130は、テキスト記憶部131と、閾値記憶部132と、を備える。
【0086】
テキスト記憶部131は、試験用テキスト情報や認識結果テキスト情報を記憶する。閾値記憶部132は、閾値情報を記憶する。
【0087】
<通信部>
通信部140は、有線ネットワークや無線ネットワークを介して、音声認識装置200や音声出力装置300などとの間で音声データやテキスト情報などの各種情報・データを送受信する。
【0088】
<4.動作例>
図8を参照して、制御装置100の動作例を説明する。なお、以下に示す
図8の動作例の処理の順番は一例であって、適宜、変更されてもよい。本例では、試験シナリオとして1~N(Nは自然数)番目の出力条件に順次基づいて、複数回音声出力と音声認識とを実行し、音声認識装置200の認識精度をそれぞれの回で算出していく例を説明する。
【0089】
図8に示すように、制御装置100の音声出力制御部111は、N番目の出力条件に基づいて、音声出力装置300からの音声の出力を制御する(S10)。次に、取得部112は、音声出力装置300から出力された音声を認識した音声認識装置200から、この音声の認識結果を示す認識結果テキスト情報を取得する(S11)。
【0090】
次に、算出部113は、試験用テキスト情報を記憶するテキスト記憶部131を参照して、試験用テキスト情報と認識結果テキスト情報とに基づいて、認識結果の認識精度を算出する(S12)。次に、出力部114は、算出された認識精度とN番目の出力条件とを対応付けて出力する(S13)。
【0091】
次に、試験シナリオにN+1番目の出力条件が存在する場合(S14のYes)、音声出力制御部111はNをインクリメントする(S15)。フローはステップS10の前に戻る。
【0092】
次に、試験シナリオにN+1番目の出力条件が存在しない場合(S14のNo)、フローは終了する。
【0093】
<5.ハードウェア構成>
図9を参照して、上述してきた制御装置100をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
【0094】
図9に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、および表示装置813を含む。
【0095】
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、制御装置100の制御部110が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
【0096】
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0097】
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、テキスト情報(試験用テキスト情報や認識結果テキスト情報)、閾値情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
【0098】
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
【0099】
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
【0100】
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
【0101】
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
【0102】
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、上記に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。
【0103】
[変形例]
なお、本発明を上記実施形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。
【0104】
[変形例1]
上記実施形態に係る制御装置100おける各構成の少なくとも一部は、音声認識装置200に搭載させる評価システム1専用のプログラムが備えてもよい。例えば、このプログラムに制御装置100の制御部110の各機能部を備えさせて、評価システム1を、制御装置100を個別に設けずに音声認識装置200と音声出力装置300で構成してもよい。
【0105】
[変形例2]
上記実施形態に係るテキスト記憶部と閾値記憶部とについて、制御装置100の記憶部130が備える例を説明したが、テキスト記憶部と閾値記憶部をこれに限る趣旨ではない。上記実施形態に係るテキスト記憶部と閾値記憶部とは、例えば、音声認識装置200が備えてもよいし、外部システムの装置が備えてもよい。
【0106】
[変形例3]
上記実施形態では示していないが、音声出力装置300の配置において、人の手によって配置してもよいし、制御装置100と音声出力装置300とをアームなどで連携させて配置してもよい。評価システム1では、適用する出力条件に基づいて音声出力制御部111がこのアームを制御(例えば、回転または伸縮)することによって、音声出力装置300を配置してもよい。
【符号の説明】
【0107】
1…評価システム、100…制御装置、110…制御部、111…音声出力制御部、112…取得部、113…算出部、114…出力部、115…生成部、130…記憶部、140…通信部、200…音声認識装置、300…音声出力装置、500…音声認識システム、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。