(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181759
(43)【公開日】2022-12-08
(54)【発明の名称】音声品質評価装置、音声品質評価方法、および音声品質評価プログラム
(51)【国際特許分類】
G10L 25/69 20130101AFI20221201BHJP
G10L 13/00 20060101ALI20221201BHJP
G10L 15/00 20130101ALI20221201BHJP
H04M 3/00 20060101ALI20221201BHJP
【FI】
G10L25/69
G10L13/00 100Z
G10L15/00 200A
H04M3/00 Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021088897
(22)【出願日】2021-05-27
(71)【出願人】
【識別番号】518370172
【氏名又は名称】グリーン株式会社
(74)【代理人】
【識別番号】100103872
【弁理士】
【氏名又は名称】粕川 敏夫
(74)【代理人】
【識別番号】100088856
【弁理士】
【氏名又は名称】石橋 佳之夫
(74)【代理人】
【識別番号】100149456
【弁理士】
【氏名又は名称】清水 喜幹
(74)【代理人】
【識別番号】100194238
【弁理士】
【氏名又は名称】狩生 咲
(74)【代理人】
【識別番号】100205648
【弁理士】
【氏名又は名称】森田 真一
(72)【発明者】
【氏名】大辻 尚
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201CA01
5K201CA07
5K201DC02
5K201DC05
5K201DC06
5K201ED05
5K201ED07
5K201FA02
(57)【要約】 (修正有)
【課題】ネットワークを介して伝送される音声データにおいて、伝送の品質評価を簡便に行う音声品質評価装置、音声品質評価方法及び音声品質評価プログラムを提供する。
【解決手段】音声品質評価装置1は、参照テキストを参照音声データに変換する音声生成部12と、音声生成部により生成される参照音声データをネットワークNWを介して再生装置50に送信する参照音声送信部13と、再生装置から再生される評価対象音声データを取得する評価対象音声取得部14と、評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識部15と、評価対象テキストに基づいてネットワークを介して受信される音声の品質評価を行う評価部16と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
参照テキストを参照音声データに変換する音声生成部と、
前記音声生成部により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信部と、
前記再生装置から再生される評価対象音声データを取得する評価対象音声取得部と、
前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識部と、
前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価部と、
を備える、
音声品質評価装置。
【請求項2】
前記評価部は、前記評価対象テキストと前記参照テキストを比較して、前記品質評価を行う、
請求項1記載の音声品質評価装置。
【請求項3】
前記音声認識部は、前記参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、
前記評価部は、前記評価対象テキストと前記第2参照テキストを比較して、前記品質評価を行う、
請求項1又は2記載の音声品質評価装置。
【請求項4】
前記音声認識部は、前記参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、
前記評価部は、前記参照テキストと前記第2参照テキストを比較して第1評価を行い、前記参照テキストと前記評価対象テキストを比較して第2評価を行い、前記第1評価および前記第2評価の結果に基づいて、前記品質評価を行う、
請求項1乃至3のいずれかに記載の音声品質評価装置。
【請求項5】
参照テキストを参照音声データに変換する音声生成処理と、
前記音声生成処理により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信処理と、
前記再生装置から再生される評価対象音声データを取得する評価対象音声取得処理と、
前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識処理と、
前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価処理と、
を含む、
音声品質評価方法。
【請求項6】
参照テキストを参照音声データに変換する音声生成命令と、
前記音声生成命令により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信命令と、
前記再生装置から再生される評価対象音声データを取得する評価対象音声取得命令と、
前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識命令と、
前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価命令と、
をコンピュータに実行させる、
音声品質評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声品質を評価する技術に関する。
【背景技術】
【0002】
近年、通信ネットワークを介して、ビデオ会議や遠隔授業等を行う機会が増加している。そこで、この音声の品質を簡便に評価できる技術が必要とされている。
【0003】
例えば、特許文献1では、入力された音声の誤り訂正及びフィルタ処理後のサンプルの初期音声認識結果とフィルタ処理後の原文を比較し、音声評価点数を算出する音声評価方法等が提案されている。
また、特許文献2では、入力された音声認識データを記憶部に記録させ、検索部により音声認識データと辞書データをマッチングして、音声認識結果を作成する技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016-51179号公報
【特許文献2】特開2018-54717号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
電話システムの音声品質評価は、古くからMOS(Mean Opinion Score)と呼ばれる主観品質評価方法が用いられてきた。また、コンピュータを用いてMOSによる主観評価の結果を推測する客観的品質手法POLQA(Perceptual Objective Listening Quality Assessment:知覚客観受話品質評価)が知られている。POLQAは、リファレンス音声と呼ばれる原音声と、それを受話側で録音した音声とを比較し、MOS値を算出する手法である。
【0006】
ここで、ビデオ会議や遠隔授業等における音声品質評価においては、数十分から数時間等に渡って、話者の発話内容を受話側で正確に聞き取れるか否かが肝要である。しかしながら、POLQAは、長時間に渡って伝送される音声の品質評価には適していない。POLQAにはリファレンス音声、リファレンス映像に対する基準が定められており、基準を満たさない通常の会話、音声に対する評価は対象にされていない。また、POLQAは音声データ同士を比較する手法であるので、長い音声データを評価しようとする場合にはデータ量が大きくなり、処理コストが膨大である。そのため、例えば「パケット化された音声や映像がネットワーク状態の変化によりどのような影響受けるか」といった時間的変化の評価は困難である。
【0007】
また、POLQAは、原音声と受話側音声との差異を評価する手法であるため、受話側で聞き取れる発話内容の正確性を適切に評価しているとはいえない。例えば、POLQAは、イコライジング処理等の音声品質を向上させる処理を行った場合であっても、音声に差異があると判断された結果、低い評価がなされる。同様に、ビデオ会議や遠隔授業等、収音データに空間雑音や音の反響が含まれるような状況において、雑音を除去する処理を行って再生した場合であっても、音声に差異があると判断され、評価が低くなってしまう。
【0008】
そこで、本発明は、ネットワークを介して伝送される音声データにおいて、伝送の品質評価を簡便に行うことを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明の一の観点に係る音声品質評価装置は、参照テキストを参照音声データに変換する音声生成部と、前記音声生成部により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信部と、前記再生装置から再生される評価対象音声データを取得する評価対象音声取得部と、前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識部と、前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価部と、を備える。
【0010】
前記評価部は、前記評価対象テキストと前記参照テキストを比較して、前記品質評価を行うものとしてもよい。
【0011】
前記音声認識部は、前記参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、前記評価部は、前記評価対象テキストと前記第2参照テキストを比較して、前記品質評価を行うものとしてもよい。
【0012】
前記音声認識部は、前記参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、前記評価部は、前記参照テキストと前記第2参照テキストを比較して第1評価を行い、前記参照テキストと前記評価対象テキストを比較して第2評価を行い、前記第1評価および前記第2評価の結果に基づいて、前記品質評価を行うものとしてもよい。
【0013】
上記目的を達成するため、本発明の別の観点に係る音声品質評価方法は、参照テキストを参照音声データに変換する音声生成処理と、前記音声生成処理により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信処理と、前記再生装置から再生される評価対象音声データを取得する評価対象音声取得処理と、前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識処理と、前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価処理と、を含む。
【0014】
上記目的を達成するため、本発明のさらに別の観点に係る音声品質評価プログラムは、参照テキストを参照音声データに変換する音声生成命令と、前記音声生成命令により生成される前記参照音声データを、ネットワークを介して再生装置に送信する参照音声送信命令と、前記再生装置から再生される評価対象音声データを取得する評価対象音声取得命令と、前記評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する音声認識命令と、前記評価対象テキストに基づいて、前記ネットワークを介して受信される音声の品質評価を行う評価命令と、をコンピュータに実行させる。
なお、コンピュータプログラムは、各種のデータ読取可能な記録媒体に格納して提供したり、インターネット等のネットワークを介してダウンロード可能に提供したりすることができる。
【発明の効果】
【0015】
本発明に係る音声品質評価装置によれば、ネットワークを介して伝送される音声データにおいて、伝送の品質評価を簡便に行うことができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の第1の実施形態に係る音声品質評価装置の機能ブロック図である。
【
図2】上記音声品質評価装置において処理されるデータの1例であって、(a)参照テキストの例、(b)参照テキストを読み上げた参照音声データの例、(c)ネットワークを介して受信した評価対象音声データの例、(d)上記ネットワークを介して受信した音声データを音声認識して得られる評価対象テキストの例、を示す概念図である。
【
図3】上記音声品質評価装置によって実行される一連の処理の流れを示すフローチャートである。
【
図4】本発明の第2の実施形態に係る音声品質評価装置によって実行される、一連の処理の流れを示すフローチャートである。
【
図5】本発明の第3の実施形態に係る音声品質評価装置によって実行される、一連の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態に係る音声品質評価装置、音声品質評価方法、および音声品質評価プログラムについて、図を参照して説明する。
【0018】
<第1実施形態>
●音声品質評価装置の構成
図1に示すように、音声品質評価装置1は、ネットワークNWを介して送受信される音声の品質を評価する装置である。ネットワークNWは、例えばインターネットの他、有線又は無線で接続される適宜の通信回線であってよく、形式は任意である。
【0019】
例えば、音声品質評価装置1は、ネットワークNWを介して再生装置50に接続されている。再生装置50は、例えばパーソナルコンピュータ、スマートホン又はタブレット等の端末であり、ビデオ通話の視聴者が視聴している端末である。
【0020】
音声品質評価装置1は、ネットワークNWを介して参照音声の音声データ(以下、「参照音声データ」ともいう。)を再生装置50に送信する。再生装置50は、この参照音声データを音声に変換し、再生する。なお、参照音声データは、ネットワークNW上の適宜の装置、例えばサーバを経由して再生装置50に受信されてもよい。音声品質評価装置1は、ネットワークNWを介して伝送され、再生装置50で再生される音声データを取得し、この音声の品質を評価する。
【0021】
音声品質評価装置1は、メモリなどの記憶媒体、プロセッサ、通信モジュール、及び入力/出力インターフェース等で構成され、プロセッサが記憶媒体に記録されたコンピュータプログラムを実行することで、
図1に示した機能ブロックを実現するようになっている。記憶媒体は、コンピュータ読み取り可能記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)のような記憶装置等を含んでよい。ここで、ROMやディスクドライブ、SSD、フラッシュメモリのような非一時的な記憶装置は、メモリとは区分される別の格納装置として音声品質評価装置1に含まれてもよい。
【0022】
音声品質評価装置1は、上記したハードウェア構成により、例えば、主として、参照テキスト取得部11、音声生成部12、参照音声送信部13、評価対象音声取得部14、音声認識部15、評価部16を具備する。なお、音声品質評価装置1の構成の一部又は全部が、別のハードウェア構成により実現されていてもよいし、一部又は全部がクラウドコンピュータにより実現されていてもよい。また、音声品質評価装置1の機能の一部が再生装置50の内部に構成されていてもよい。この場合、例えば評価対象音声取得部14、音声認識部15、評価部16が再生装置50に構成されていてもよい。
【0023】
参照テキスト取得部11は、音声の品質評価に用いる参照テキストを取得する機能部である。参照テキストは、例えば
図2(a)に示すようなテキストデータであり、日本語に限らず適宜の言語であってよい。参照テキスト取得部11は、参照テキストを適宜のネットワークを介して取得してもよいし、音声品質評価装置1が有する適宜の入力手段を介して入力を受け付けてもよい。
【0024】
図2(b)の概念図に示すように、音声生成部12は、参照テキスト取得部11により取得した参照テキストを参照音声データに変換する機能部である。音声生成部12は、人工音声により参照テキストを読み上げて参照音声データに変換してもよい。また、音声生成部12は、参照テキストをディスプレイ等の表示部に表示させ、アナウンサー等の正確な発話をする話者に読み上げを促す構成であってもよい。この場合、音声生成部12は、話者により読み上げられた音声を収音する構成を有する。
【0025】
参照音声送信部13は、音声生成部12により生成される参照音声データを、ネットワークNWを介して再生装置50に送信する機能部である。再生装置50は、受信した参照音声データを音声として再生する。このとき、再生装置50は、音声データに適宜の信号処理を施してから再生してもよい。この信号処理は、例えばイコライジング処理、ノイズキャンセリング処理、周波数フィルタ処理又は増幅処理等、音声に含まれる言葉をより明瞭に聞き取れるようにするための音響信号処理であってもよいし、ネットワークNWによる伝送に起因して欠損した情報を補完する処理であってもよい。
【0026】
なお、参照音声データは、ネットワークNW上の適宜の装置、例えばサーバを経由して再生装置50に受信されてもよい。また、上述の信号処理は、当該装置により参照音声データに施されてもよい。
【0027】
評価対象音声取得部14は、再生装置50から再生される音声データ(以下、「評価対象音声データ」ともいう。)を取得する機能部である。評価対象音声取得部14は、再生装置50に接続され、音声データを取得する。
図2(c)の概念図に示すように、評価対象音声データは、参照音声データと一部が異なっている。同図の例では、領域Lに示される一部のデータの振幅が小さくなっている様子を示している。評価対象音声データは、伝送の過程で参照音声データよりも劣化したデータの他、再生装置50又はネットワークNW上の装置において行われる上記した適宜の信号処理により、発話内容が聞き取りやすく加工されたデータであってもよい。
【0028】
音声認識部15は、評価対象音声データに含まれる言葉を音声認識して評価対象テキストを生成する機能部である。
図2(d)の例では、領域Wに示される一部のテキストが、参照テキストとは異なっている様子を示している。
【0029】
評価部16は、評価対象テキストに基づいて、ネットワークNWを介して受信される音声の品質評価を行う機能部である。本実施形態においては、評価部16は、評価対象テキストと参照テキストを比較して、音声の品質評価を行う。
音声の品質評価スコアは、例えば以下の式(1)により計算される。
品質評価スコア=評価対象テキストで正確に認識されている音数/参照テキストの音数×100
・・・(1)
【0030】
品質評価スコアは、値が大きいほど音声品質が良いことを示し、評価対象テキストにおいてすべての音が正確に認識されている場合には、品質評価スコアは100となる。
図2の例では、参照テキストの音が93字であり、評価対象テキストはこのうち89字を正確に認識できていることから、品質評価スコアは96である。品質評価スコアは、音声品質評価装置1が有する、又は接続されている適宜の表示部に表示される。
【0031】
評価部16は、評価対象テキストの全文に対して1個の品質評価スコアを算出してもよいし、消化対象テキストを複数に分割してそれぞれ品質評価スコアを算出し、1個の参照テキストに対して時間軸に沿った複数の品質評価スコアが算出されるようになっていてもよい。1個の参照テキストに対し複数の品質評価スコアを算出する構成によれば、ネットワークの伝送状態の時間変化を評価することができる。この場合に、評価部16は、評価対象テキストを互いに重複がないように分割してもよいし、時間軸上で一部を重複させながら分割してもよい。なお、音声認識部15が音声データを分割した上でそれぞれテキストデータに変換してもよい。この場合には、評価部16は各テキストデータに対し評価を行う。
【0032】
●処理フロー
図3を用いて、音声品質評価装置1が伝送される音声を評価する処理フローについて説明する。
まず、参照テキスト取得部11により、参照テキストを取得する(ステップS11)。ついで、音声生成部12により、参照テキストに基づいて参照音声データを取得する(ステップS12)。ついで、参照音声送信部13により、参照音声を再生装置50に送信する(ステップS13)。
【0033】
ついで、評価対象音声取得部14により、再生装置50において再生される対象音声データを取得する(ステップS14)。ついで、音声認識部15により、対象音声データを音声認識し、テキストデータを生成する(ステップS15)。評価部16により、参照テキストと評価対象テキストとの一致率を評価し、品質評価スコアを算出する(ステップS16)。ついで、品質評価スコアを適宜の表示部に表示する(ステップS17)。
【0034】
このような本発明に係る音声品質評価装置によれば、話者の発話内容を受話側で正確に聞き取れるかという観点に着目し、ネットワークによる伝送の品質評価を行うことができる。また、本発明に係る音声品質評価装置によれば、テキストデータ同士を比較評価するため、音声データ同士を比較する構成に比べて解析するデータ量を圧縮することができる。したがって、長時間の発話における伝送の品質評価が可能である。また、評価対象音声をテキストデータにして評価を行う構成によれば、音質を向上させる処理を行った場合にも、発話内容が正確に伝送されているかを適切に評価することができる。
【0035】
<第2実施形態>
本発明の第2実施形態に係る音声品質評価装置について、第1実施形態と異なる部分を中心に説明する。この実施形態において、音声認識部15は、参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、評価部16は、評価対象テキストと第2参照テキストを比較して、音声の品質評価を行う。なお、第1実施形態と同様の構成については適宜説明を省略し、同じ符号を付した。
【0036】
図4に示すように、第2実施形態に係る音声品質評価装置においては、参照テキストを取得し(ステップS11)、参照音声データを生成した後(ステップS12)、音声認識部15により参照音声データの音声認識を行い、第2参照テキストを生成する(ステップS21)。また、参照音声データを送信して(ステップS13)、再生装置50を介して評価対象音声データを取得し(ステップS14)、音声認識を行う(ステップS15)。ステップS21と、ステップS13乃至S15との順番は任意であり、同時に行われてもよい。
【0037】
ついで、評価部16により、第2参照テキストと評価対象テキストの一致率を評価し、品質評価スコアを算出し(ステップS22)、この品質評価スコアを表示部に表示する(ステップS23)。
この場合の品質評価スコアは、例えば以下の式(2)で表される。
品質評価スコア=評価対象テキストで正確に認識されている音数/第2参照テキストの音数×100
・・・(2)
【0038】
この構成によれば、音声認識部15による誤認識がある場合には、第2参照テキストと評価対象テキストの双方に同様の誤認識が現れるので、品質評価スコアにおける誤認識の影響を除去できる。すなわち、本実施形態においては、音声認識部15による影響を除いて音声品質を評価できる。
【0039】
<第3実施形態>
本発明の第3実施形態に係る音声品質評価装置について、第2実施形態と異なる部分を中心に説明する。この実施形態において、音声認識部15は、参照音声データに含まれる言葉を音声認識して第2参照テキストを生成し、評価部16は、参照テキストと第2参照テキストを比較して第1評価を行うとともに、参照テキストと評価対象テキストを比較して第2評価を行った上で、第1評価および前記第2評価の結果に基づいて、音声の品質評価を行う。
なお、第1実施形態又は第2実施形態と同様の構成については適宜説明を省略し、同じ符号を付した。
【0040】
図5に示すように、第3実施形態に係る音声品質評価装置においては、参照テキストを取得し(ステップS11)、参照音声データを生成した後(ステップS12)、音声認識部15により参照音声データの音声認識を行い、第2参照テキストを生成する(ステップS21)。次いで、参照テキストと、第2参照テキストとの一致率(以下、「第1一致率」ともいう。)を算出する第1評価を行う(ステップS31)。
【0041】
また、参照音声データを送信して(ステップS13)、再生装置50を介して評価対象音声データを取得し(ステップS14)、音声認識を行う(ステップS15)ついで、参照テキストと評価対象テキストとの一致率(以下、「第2一致率」ともいう。)を算出する第2評価を行う(ステップS32)。ステップS21およびステップS31と、ステップS13乃至S15およびステップS32との順番は任意であり、同時に行われてもよい。
【0042】
ついで、評価部16により、第1一致率および第2一致率を比較して品質評価スコアを算出し(ステップS33)、この品質評価スコアを表示部に表示する(ステップS34)。例えば、品質評価スコアは、以下の式(3)により表される。
品質評価スコア=第2一致率/第1一致率×100 ・・・(3)
また、品質評価スコアに加えて、第1一致率および第2一致率をそれぞれ表示部に表示してよい。
【0043】
この構成によれば、音声認識部15による音声認識の正確性を第1一致率および第2一致率で確認できるとともに、品質評価スコアにより伝送前後の音声品質の評価を確認できる。
【0044】
このように、本発明に係る音声品質評価装置によれば、ネットワークを介して伝送される音声データにおいて、伝送の品質評価を簡便に行うことができる。
【0045】
なお、本説明においてはネットワークによる伝送前後の音声品質の評価を例に説明したが、本発明に係る音声品質評価装置はネットワークに限らず、発話内容を伝達する機構全般の評価に用いることができる。また、音声品質評価装置は、ネットワークの評価に用いるのみならず、ビデオ会議又は遠隔授業を行っている話者に略リアルタイム又は事後的に視認させ、正確に伝送されなかった部分を確認させたり、当該部分を再度話すよう促すといったシステムを構築することで、ビデオ会議等における正確な情報共有の一助となるようにしてもよい。
【符号の説明】
【0046】
1 音声品質評価装置
11 参照テキスト取得部
12 音声生成部
13 参照音声送信部
14 評価対象音声取得部
15 音声認識部
16 評価部
NW ネットワーク