IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特開-発話評価装置及びプログラム 図1
  • 特開-発話評価装置及びプログラム 図2
  • 特開-発話評価装置及びプログラム 図3
  • 特開-発話評価装置及びプログラム 図4
  • 特開-発話評価装置及びプログラム 図5
  • 特開-発話評価装置及びプログラム 図6
  • 特開-発話評価装置及びプログラム 図7
  • 特開-発話評価装置及びプログラム 図8
  • 特開-発話評価装置及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023144953
(43)【公開日】2023-10-11
(54)【発明の名称】発話評価装置及びプログラム
(51)【国際特許分類】
   G10L 15/00 20130101AFI20231003BHJP
   G10L 15/10 20060101ALI20231003BHJP
   G10L 15/16 20060101ALI20231003BHJP
   G09B 19/00 20060101ALI20231003BHJP
【FI】
G10L15/00 200E
G10L15/10 500Z
G10L15/16
G09B19/00 Z
G09B19/00 H
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022052179
(22)【出願日】2022-03-28
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1) 発行日 2021年8月24日 刊行物 日本音響学会 2021年 秋季研究発表会 講演論文集CD-ROM 一般社団法人 日本音響学会 <資 料> 講演論文集CD-ROMのラベル面のコピー及び奥付 <資 料> 講演論文集 掲載研究論文 (2) 開催日(公開日) 2021年9月7日(会期:2021年9月7日~9日) 集会名 日本音響学会 2021年 秋季研究発表会 Web会議システム(Zoom)を利用したオンライン開催 <資 料>日本音響学会 2021年 秋季研究発表会 開催概要・プログラム
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】水野 真由美
(72)【発明者】
【氏名】清山 信正
(57)【要約】
【課題】アクセントを含めて発話を評価する。
【解決手段】発話評価装置は、音声認識部と、評価部とを備える。ラベリングモデルは、音声データを入力し、音声データが示す発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力する。音声認識部は、ラベリングモデルに、評価対象の発話の音声データである評価対象データを入力し、評価対象の発話のラベリング中間言語である評価対象中間言語を得る。評価部は、評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、評価対象中間言語との比較に基づいて評価対象の発話を評価する。
【選択図】図1
【特許請求の範囲】
【請求項1】
発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力するラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して前記評価対象の発話のラベリング中間言語である評価対象中間言語を得る音声認識部と、
前記評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する評価部と、
を備えることを特徴とする発話評価装置。
【請求項2】
前記評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理と、前記リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理とを行う表示制御部をさらに備える、
ことを特徴とする請求項1に記載の発話評価装置。
【請求項3】
前記音声認識部は、前記ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力された前記ラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する修正モデルに、前記ラベリングモデルに前記評価対象データを入力して得られた前記評価対象中間言語を入力し、音素の誤りが修正された前記評価対象中間言語を取得し、
前記評価部は、前記リファレンス中間言語と、音素の誤りが修正された前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する、
ことを特徴とする請求項1又は請求項2に記載の発話評価装置。
【請求項4】
学習用の音声データと正解のラベリング中間言語との対を用いて前記ラベリングモデルを学習する処理と、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて前記修正モデルを学習する処理とを行う学習部をさらに備える、
ことを特徴とする請求項3に記載の発話評価装置。
【請求項5】
前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有し、
前記修正モデルは、トランスフォーマーである、
ことを特徴とする請求項3又は請求項4に記載の発話評価装置。
【請求項6】
コンピュータを、
請求項1から請求項5のいずれか一項に記載の発話評価装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話評価装置及びプログラムに関する。
【背景技術】
【0002】
従来、日本語テキストの音声認識を用いて、発話の良し悪しを評価する技術があった(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008-262120号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術では、発話の音響や速度を評価する。しかしながら、日本語の発話において重要なアクセントの評価は行っていない。
【0005】
本発明は、このような事情を考慮してなされたもので、アクセントを含めて発話を評価することができる発話評価装置及びプログラムを提供する。
【課題を解決するための手段】
【0006】
[1]本発明の一態様は、発話の音声データ又は前記音声データから得られた特徴量を入力し、前記発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力するラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して前記評価対象の発話のラベリング中間言語である評価対象中間言語を得る音声認識部と、前記評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する評価部と、を備えることを特徴とする発話評価装置である。
【0007】
[2]本発明の一態様は、上述の発話評価装置であって、前記評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理と、前記リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する処理とを行う表示制御部をさらに備える、ことを特徴とする。
【0008】
[3]本発明の一態様は、上述の発話評価装置であって、前記音声認識部は、前記ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力された前記ラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する修正モデルに、前記ラベリングモデルに前記評価対象データを入力して得られた前記評価対象中間言語を入力し、音素の誤りが修正された前記評価対象中間言語を取得し、前記評価部は、前記リファレンス中間言語と、音素の誤りが修正された前記評価対象中間言語との比較に基づいて前記評価対象の発話を評価する、ことを特徴とする。
【0009】
[4]本発明の一態様は、上述の発話評価装置であって、学習用の音声データと正解のラベリング中間言語との対を用いて前記ラベリングモデルを学習する処理と、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて前記修正モデルを学習する処理とを行う学習部をさらに備える、ことを特徴とする。
【0010】
[5]本発明の一態様は、上述の発話評価装置であって、前記ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有し、前記修正モデルは、トランスフォーマーである、ことを特徴とする。
【0011】
[6]本発明の一態様は、コンピュータを、上述したいずれかの発話評価装置として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、アクセントを含めて発話を評価することが可能となる。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態による発話評価装置の機能ブロック図である。
図2】同実施形態によるラベリング中間言語の例を示す図である。
図3】同実施形態による韻律記号を示す図である。
図4】同実施形態による音声認識モデルを示す図である。
図5】同実施形態による音声認識モデルの学習を説明する図である。
図6】同実施形態による発話評価装置の学習処理を示すフロー図である。
図7】同実施形態による発話評価装置の発話評価処理を示すフロー図である。
図8】同実施形態による発話の評価を説明する図である。
図9】同実施形態による画面表示例を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本実施形態による発話評価装置1の構成を示すブロック図である。図1は、本実施形態と関係する機能ブロックのみを抽出したものである。発話評価装置1は、音声認識部2と、記憶部3と、学習データ取得部4と、評価対象データ取得部5と、評価部6と、出力部7と、表示部8と、入力部9とを備える。
【0015】
音声認識部2は、音声認識モデルを用いて、音声データからラベリング中間言語を推定する。ラベリング中間言語は、音素を表すラベルである仮名と、アクセントなどの韻律を表すラベルである韻律記号とを用いて記述されたテキストデータである。音声認識部2は、学習部21を有する。学習部21は、学習データを用いて、音声認識モデルを学習する。学習データは、音声データと、音声データが示す発話の正解のラベリング中間言語との対である。
【0016】
記憶部3は、各部の処理に用いられる各種データを記憶する。例えば、記憶部3は、リファレンス文章データ、リファレンス音声データ、リファレンス中間言語を記憶する。リファレンス文章データは、発話の評価のために被訓練者が読み上げるリファレンス文章のテキストデータである。リファレンス音声データは、リファレンス文章を読み上げたときのお手本の発話を示す。具体的には、リファレンス音声データは、日本語の標準語の発話など、発話訓練の目標となる発音及びアクセントの発話である。リファレンス中間言語は、リファレンス音声データが示す発話のラベリング中間言語である。つまり、リファレンス中間言語は、評価対象の発話と対比する発話のラベリング中間言語である。
【0017】
学習データ取得部4は、音声認識モデルの学習データを取得する。学習データ取得部4は、例えば、発話評価装置1と接続される他の装置から学習データを受信してもよく、記録媒体から学習データを読み出してもよい。
【0018】
評価対象データ取得部5は、評価対象データを取得する。評価対象データは、評価対象の発話の音声データである。例えば、評価対象データ取得部5は、マイクMなどの収音装置により録音した被訓練者の発話の音声データを評価対象データとして取得する。マイクMは、発話評価装置1に内蔵されてもよい。また、評価対象データ取得部5は、発話評価装置1と接続される他の装置から評価対象データを受信してもよく、記録媒体から評価対象データを読み出してもよい。
【0019】
評価部6は、音声認識部2が評価対象データを学習済みの音声認識モデルに入力して得られたラベリング中間言語である評価対象中間言語を取得する。評価部6は、評価対象中間言語とリファレンス中間言語との比較に基づいて、評価対象の発話の評価結果を得る。
【0020】
出力部7は、評価部6による評価結果及び評価対象中間言語を出力する。出力部7は、さらに、リファレンス文章データ、リファレンス中間言語などを出力してもよい。出力は、例えば、表示部8への表示である。この場合、出力部7は、表示部8へ表示を行う表示制御部として動作する。出力部7は、評価対象中間言語やリファレンス中間言語を表示部8へ表示する際に、アクセントをグラフィックによって表してもよい。例えば、出力部7は、評価対象中間言語に含まれる仮名に重畳して又は対応付けて、評価対象中間言語に含まれる韻律記号を表すオブジェクトを表示部8に表示する。同様に、出力部7は、リファレンス中間言語に含まれる仮名に重畳して又は対応付けて、リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。
【0021】
表示部8は、データを表示する。表示部8は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部8は、ヘッドマウントディスプレイ、網膜投影ディスプレイなどでもよい。表示部8は、画像表示装置を発話評価装置1に接続するためのインタフェースであってもよい。この場合、表示部8は、データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。また、表示部8は、発話評価装置1と接続される情報処理装置にデータを表示してもよい。
【0022】
入力部9は、ユーザの指示を入力する。入力部9は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の既存の入力装置を用いて構成される。入力部9は、ユーザの指示を発話評価装置1に入力する際にユーザによって操作される。また、入力部9は、音声認識によりユーザの指示を入力してもよい。入力部9は、入力装置を発話評価装置1に接続するためのインタフェースであってもよい。この場合、入力部9は、入力装置においてユーザの入力に応じて生成された入力信号を発話評価装置1に入力する。また、入力部9は、発話評価装置1と接続される情報処理装置からユーザが入力した指示を受信してもよい。
【0023】
図2は、ラベリング中間言語の例を示す図である。ラベリング中間言語は、仮名と韻律記号とにより記述される。仮名は、読みを表す文字の一例であり、モーラに対応する。読みを表す仮名を読み仮名とも記載する。本実施形態では、仮名としてカタカナを用いる場合を記載するが、ひらがな、アルファベット、発音記号を用いてもよく、仮名に代えて音素を表す記号を用いてもよい。ラベリング中間言語に用いられる韻律記号は、韻律を表す文字又は記号である。以下では、仮名及び韻律記号を総称して文字とも記載する。
【0024】
図3は、本実施形態のラベリング中間言語に用いられる韻律記号を示す図である。図3に示す韻律記号は、参考文献1に記載の韻律記号を改変し、さらに、参考文献2に記載のアクセントに関する記号を取り入れたものである。図3が示す韻律の情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号(平板型)と、アクセント下降記号がある。アクセント上昇記号(平板型)は、音の下がり目がない平板型の場合に、語末につける記号である。アクセント下降記号は、音の下がり目の位置を示す記号である。すなわち、アクセント下降記号は、その記号の直後の仮名(モーラ)でアクセントが下降することを表す。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号、体言止めの文末を表す韻律記号、及び、疑問の文末を表す韻律記号が用いられる。ポーズの指定には、ポーズを表す韻律記号が用いられる。
【0025】
韻律記号は、第一韻律記号と、第二韻律記号とに分類される。第一韻律記号は、アクセントの位置を表す。アクセント上昇記号(平板型)及びアクセント下降記号は、第一韻律記号である。第二韻律記号は、アクセント句の区切り、文末、ポーズなどの読みの区切りを表す。アクセント句の区切りを表す韻律記号、通常の文末を表す韻律記号、体言止めの文末を表す韻律記号、疑問の文末を表す韻律記号及びポーズを表す韻律記号は、第二韻律記号である。第二韻律記号によって区切られた仮名及び第一韻律記号からなるラベリング中間言語を、アクセント句中間言語と記載する。アクセント句中間言語に含まれる読み仮名は、アクセント句に相当する。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。
【0026】
(参考文献1)音声入出力方式標準化専門委員会,「JEITA規格 IT-4006 日本語テキスト音声合成用記号」,社団法人 電子情報技術産業協会,2010年,p.4-10
【0027】
(参考文献2)NHK放送文化研究所,NHK日本語発音アクセント新辞典,NHK出版,2016年、p.8-17
【0028】
図4は、音声認識部2が用いる音声認識モデルWを示す図である。音声認識モデルWは、ラベリングモデルW1と、修正モデルW2とからなる。ラベリングモデルW1は、例えば、参考文献3や参考文献4に記載のWav2vec2.0、あるいは、参考文献5に記載のsequence to sequence(Seq2seq)方式の音声認識手法である。図4に示すラベリングモデルW1は、Wav2vec2.0を用いた場合の例を示している。Wav2Vec2.0やSeq2seq方式の音声認識手法は、文字列として種類の少ない音素や韻律記号をベースとして学習をするため、多くの他の音声認識技術と比較して少量の学習データによって高い精度の音声認識が可能である。また、日本語を含め様々な言語で効果が示されている。
【0029】
(参考文献3)Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli, "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations," 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.
【0030】
(参考文献4)Wav2Vec2-XLSR-53, [online], <URL:https://huggingface.co/facebook/wav2vec2-large-xlsr-53>
【0031】
(参考文献5)C. Chiu, et al., "State-of-the-Art Speech Recognition with Sequence-to-Sequence Models," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.
【0032】
Wav2vec2.0を用いる場合のラベリングモデルW1は、生の音声波形Xを入力とし、ラベリング中間言語Yを出力するモデルである。音声認識部2に入力された音声データVは、ラベリングモデルW1の音声波形Xとして用いられる。音声データVは、音圧を表す。ラベリングモデルW1は、複数のCNN(Convolutional neural network;畳み込みニューラルネットワーク)と、トランスフォーマー(Transformer)とを有する。
【0033】
複数のCNNは、エンコーダに相当する。各CNNは、時間的な畳み込みの後に、レイヤの正規化やGELU(Gaussian error linear units)活性化関数を含むいくつかのブロックで構成される。各CNNが対応する時間区間は異なっており、各CNNには、そのCNNが対応する時間区間の時系列の音声データが入力される。各CNNは、オーディオの特徴を表現した音響特徴量Z(Latent speech representations)を出力する。音響特徴量Zは、オーディオの潜在空間表現である。潜在空間では、類似した特性を持つ波形のベクトル同士が近くなる。
【0034】
トランスフォーマーは、デコーダに相当する。トランスフォーマーは、時系列の音響特徴量Zのコンテキスト表現C(Context representations)を出力するニューラルネットワークである。トランスフォーマーには、各CNNから出力された時系列の音響特徴量Zがマスクされて入力される。すなわち、時系列の音響特徴量Zのうち所定の割合が無作為に選択され、選択された音響特徴量から所定数の連続した音響特徴量がトレーニングされた特徴量と置き換えられた後に、トランスフォーマーに入力される。トランスフォーマーには、例えば、参考文献6に記載の技術が使用される。トランスフォーマーから出力されるコンテキスト表現Cは、読み仮名と韻律記号を用いたラベリング中間言語Yである。
【0035】
(参考文献6)Ashish Vaswani, et al., "Attention is all you need," In Proc. of Neural Information Processing Systems(NIPS), 2017.
【0036】
一般的な音声認識の音響モデルによる音素認識と同様に、ラベリングモデルW1により推定されたラベリング中間言語Yには音素誤りが含まれる。そこで、修正モデルW2により、ラベリング中間言語Yに含まれる音素誤りを修正する。修正モデルW2には、従来技術のトランスフォーマーを用いる(例えば、参考文献7参照)。このトランスフォーマーは、ニューラルネットワークを用いて実現され、エンコーダとデコーダとを含むように構成される。エンコーダは、ラベリング中間言語Yを入力データとして受け付け、エンコード処理の結果をデコーダに渡す。デコーダは、エンコーダから渡される情報に基づいて、ラベリング中間言語Yの誤りが修正されたラベリング中間言語Pを生成し、出力する。なお、デコーダは、エンコーダから渡される情報に加えて、前に出力したラベリング中間言語Pの右シフトを入力に用いる。
【0037】
(参考文献7)Colin Raffel, et al., "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer", Journal of Machine Learning Research 21, 2020, p.1-67
【0038】
図5は、音声認識モデルWの学習を説明するための図である。音声認識部2の学習部21は、まず、音声データV0と、その音声データV0の正解のラベリング中間言語P0とを用いてラベリングモデルW1を学習する。正解のラベリング中間言語P0は、音声データV0の発話どおりの音素及び韻律を表す。ラベリング中間言語L0は、手動で生成又は修正された読み仮名と韻律記号が記述されたラベリング中間言語である。すなわち、学習部21は、音声認識モデル学習用の音声データV0を入力して得られたラベリング中間言語Y=(Y1,Y2,Y3,…,YN)と、正解のラベリング中間言語L0との差分を表す損失Lが小さくなるように、ラベリングモデルW1の各パラメータの値である重みを更新する。Y1~YNは、仮名又は韻律記号である。損失Lは、Contrastive lossである。なお、損失Lの算出には、各CNNが算出した音響特徴量Zを離散化した値qからなる量子化表現(Quantized representations)Qも用いられる。
【0039】
ラベリングモデルW1の学習後、学習部21は、学習済みのラベリングモデルW1が音声データV0を入力して得られたラベリング中間言語Yを修正モデルW2に入力する。学習部21は、修正モデルW2から出力されたラベリング中間言語P=(P1,P2,P3,…,PN)と、音声データV0の正解のラベリング中間言語L0との差分が小さくなるように、修正モデルW2の各パラメータの値を更新する。P1~PNは、仮名又は韻律記号である。
【0040】
学習部21は、ラベリング中間言語Yに変更を加えて修正モデルW2に入力してもよい。例えば、学習部21は、エラー生成部22を有する。エラー生成部22は、ラベリングモデルW1が出力したラベリング中間言語Yの一部を変更して修正モデルW2に入力する。変更は、例えば、ランダムな文字の削除や、ランダムな文字の入れ替えである。変更の対象を読み仮名に限定してもよい。また、ラベリング中間言語Yを手動で修正して修正モデルW2に入力してもよい。学習部21は、修正されたラベリング中間言語Yを修正モデルW2に入力し、修正モデルW2が出したラベリング中間言語Pと、正解のラベリング中間言語L0との差分が小さくなるように、修正モデルW2の各パラメータの値である重みを更新する。
【0041】
音声認識部2は、発話の評価を行う場合、評価対象データ取得部5から評価対象データを受信する。音声認識部2は、評価対象データをラベリングモデルW1に入力してラベリング中間言語Yを得た後、ラベリング中間言語Yを修正モデルW2に入力してラベリング中間言語Pを得る。音声認識部2は、このラベリング中間言語Pを、評価対象データから推定された評価対象中間言語として評価部6に出力する。
【0042】
なお、音声認識モデルWは、修正モデルW2を有さなくてもよい。この場合、音声認識部2は、評価対象データをラベリングモデルW1に入力して得られたラベリング中間言語Yを、評価対象データから推定された評価対象中間言語として評価部6に出力する。ラベリングモデルW1から出力されたラベリング中間言語Yには音素誤りが比較的強く表れる。そのため、ラベリングモデルW1の出力に対して修正モデルW2を使用しない場合には、被訓練者の発音の誤りを重視した評価が行えると見込まれる。発音よりもアクセントを重視して評価する場合には、ラベリングモデルW1及び修正モデルW2を使用する。発話評価装置1は、例えば、入力部9により入力された指示に基づいて、修正モデルW2を使用するか否かを切替可能としてもよい。
【0043】
図6は、発話評価装置1の音声認識モデル学習処理を示すフロー図である。発話評価装置1は、発話の音声データV0と、その発話の正解のラベリング中間言語L0とを対応づけた学習データを複数入力する(ステップS110)。
【0044】
音声認識部2の学習部21は、学習データを用いて、ラベリングモデルW1を学習する(ステップS120)。具体的には、学習部21は、学習データから音声データV0と正解のラベリング中間言語L0との対を読み出す。音声認識部2は、学習部21が読み出した音声データV0をラベリングモデルW1に入力してラベリング中間言語Pを得る。学習部21は、音声認識部2が音声データV0を入力に用いて得たラベリング中間言語Pと、その音声データV0の正解のラベリング中間言語L0との差分が小さくなるように、ラベリングモデルW1のパラメータの値を更新する。学習部21は、所定の学習終了条件となるまで、ラベリングモデルW1の学習を行う。学習終了条件は、例えば、入力された全ての音声データV0とラベリング中間言語L0の対について処理を終えた、ラベリングモデルW1を所定回更新した、差分が所定以下となった、などである。
【0045】
なお、学習部21は、音声データV0が示す発話を漢字仮名交じりの文章で表した原文データに形態素解析などを行って自動生成したラベリング中間言語L0を用いた大量の学習データによりラベリングモデルW1の事前学習を行った後、手動生成した誤りのないラベリング中間言語L0を用いた少量の学習データによりラベリングモデルW1のファインチューニングを行ってもよい。
【0046】
続いて、学習部21は、学習データを用いて、修正モデルW2を学習する(ステップS130)。具体的には、学習部21は、学習データから音声データV0と正解のラベリング中間言語L0との対を読み出す。音声認識部2は、学習部21が読み出した音声データV0をラベリングモデルW1に入力してラベリング中間言語Yを得る。さらに、音声認識部2は、得られたラベリング中間言語Yを修正モデルW2に入力して、ラベリング中間言語Yの音素誤りを修正したラベリング中間言語Pを得る。なお、音声認識部2は、エラー生成部22又は手動によりランダムな文字の削除やランダムな子音の入れ替えを行ったラベリング中間言語Yを修正モデルW2に入力し、ラベリング中間言語Pを得てもよい。学習部21は、ラベリング中間言語Pと、正解のラベリング中間言語L0との差分が小さくなるように、修正モデルW2のパラメータの値を更新する。例えば、学習部21は、修正されたラベリング中間言語Yを用いて修正モデルW2の事前学習を行った後、修正を行わないラベリング中間言語Yを用いて修正モデルW2をファインチューニングしてもよい。学習部21は、所定の学習終了条件となるまで、修正モデルW2の学習を行う。学習終了条件は、例えば、入力された全ての音声データV0とラベリング中間言語L0の対について処理を終えた、修正モデルW2を所定回更新した、差分が所定以下となった、などである。
【0047】
図7は、発話評価装置1の評価処理を示すフロー図である。発話評価装置1の評価対象データ取得部5は、評価対象データを取得する(ステップS210)。音声認識部2は、評価対象データを音声認識モデルWに入力して評価対象中間言語を取得し、評価部6に出力する(ステップS220)。評価部6は、記憶部3から読み出したリファレンス中間言語と、音声認識部2から出力された評価対象中間言語とを比較して、発話の評価を行う(ステップS230)。出力部7は、評価部6による評価結果を表示部8に表示する(ステップS240)。
【0048】
図8は、評価部6による発話の評価を説明する図である。図8を用いて、図7のステップS230における評価部6の処理を説明する。図8(a)はアクセントスコアの算出を説明する図である。評価部6は、評価対象中間言語において、リファレンス中間言語と相違がある文字を誤りとして特定する。相違の検出には、例えば、diff関数などを用いることができる。評価部6は、リファレンス中間言語に対する誤りの文字の割合に基づいて、アクセントスコアを算出する。図8(b)は読み仮名スコアの算出を説明する図である。評価部6は、リファレンス中間言語及び評価対象中間言語のそれぞれから、韻律記号を削除して読み仮名のみを残す。評価部6は、評価対象中間言語の読み仮名からなる文字列において、リファレンス中間言語の読み仮名からなる文字列と相違がある文字を誤りとして特定する。評価部6は、リファレンス中間言語の読み仮名からなる文字列に対する誤りの文字の割合に基づいて、読み仮名スコアを算出する。アクセントスコア及び読み仮名スコアの算出には、文字誤り率(Character Error Rate)などの文章類似度算出方法を用いることができる。
【0049】
図9は、表示部8への画面表示例を示す図である。出力部7は、図9に示す画面Gを表示部8に表示する。画面Gは、録音開始ボタンG1と、リファレンス文章表示G2と、リファレンス中間言語表示G3と、リファレンス文章表示G4と、リファレンスアクセント表示G5と、評価対象中間言語表示G6と、発話文章表示G7と、発話アクセント表示G8と、スコア表示G9とを含む。録音開始ボタンG1と、リファレンス文章表示G2と、リファレンス中間言語表示G3と、リファレンス文章表示G4と、リファレンスアクセント表示G5とは、図7のステップS210の処理の前に表示される。評価対象中間言語表示G6と、発話文章表示G7と、発話アクセント表示G8と、スコア表示G9とは、図7のステップS240において追加で表示される。
【0050】
録音開始ボタンG1は、被訓練者の発話の録音を指示するために使用する。被訓練者が録音開始ボタンG1を入力部9により押下することで、マイクMによる録音が開始される。図7のステップS210において、評価対象データ取得部5は、マイクMにより録音された発話の音声データを評価対象データとして取得する。あるいは、評価対象データ取得部5は、被訓練者が入力部9により入力した指示に従って、他の装置や記録媒体から評価対象データを取得してもよい。
【0051】
リファレンス文章表示G2、G4は、出力部7が記憶部3から読み出したリファレンス文章を表示する。リファレンス中間言語表示G3は、出力部7が記憶部3から読み出したリファレンス中間言語を表示する。リファレンスアクセント表示G5は、リファレンス中間言語に含まれる読み仮名と、リファレンス中間言語に含まれる韻律記号を表すオブジェクトとを表示する。リファレンス中間言語として、例えば、アナウンサーがリファレンス文章を読んだときの発話など、お手本となる音声データを学習済みの音声認識モデルWに入力して得られたラベリング中間言語、又は、そのラベリング中間言語を入力部9などから入力された指示に従って修正したラベリング中間言語を用いることができる。
【0052】
評価対象中間言語表示G6は、図2のステップS220において得られた評価対象中間言語を表示する。発話文章表示G7は、被訓練者が発話したリファレンス文章を表示する。発話アクセント表示G8は、評価対象中間言語に含まれる読み仮名と、評価対象中間言語に含まれる韻律記号を表すオブジェクトとを表示する。さらに、出力部7は、評価部6が図7に示す評価を行った際に特定した評価対象中間言語における誤りの箇所を、誤りであることを表す態様で評価対象中間言語表示G6に表示する。例えば、出力部7は、誤りの文字D1及びD2に下線を表示してもよく、誤りの文字D1及びD2を四角で囲ってもよく、誤りの文字D1及びD2の文字色、オブジェクト色、背景色などを、誤りがない文字の文字色、オブジェクト色、背景色と変えて表示してもよい。また、出力部7は、評価対象中間言語における誤りの箇所を、誤りであることを表す態様で発話アクセント表示G8に表示してもよい。その場合、出力部7は、符号D3に示すように、後述する処理において判断したアクセントの高低がリファレンス中間言語と異なる文字を誤りの文字に含めてもよい。スコア表示G9は、図2のステップS230において評価部6が算出したアクセントスコア及び読み仮名スコアを表示する。これらのスコアを表示することにより、被訓練者は、上達を確認しやすくなり、モチベーションも向上する。
【0053】
出力部7は、以下の処理によって、リファレンスアクセント表示G5にリファレンス中間言語を表示し、発話アクセント表示G8に発話対象中間言語を表示する。まず、出力部7は、アクセント句に分けてラベリング中間言語に含まれる読み仮名を表示するため、ラベリング中間言語を第二韻律記号により分割し、アクセント句中間言語を生成する。アクセント句中間言語には、読み仮名及び第一韻律データが含まれる。出力部7は、アクセント句中間言語から読み仮名を出現順に抽出してアクセント句を取得し、さらに、ラベリング中間言語からそのアクセント句中間言語の直後に設定されている第二韻律記号を取得する。出力部7は、アクセント句中間言語から取得したアクセント句と、そのアクセント句中間言語の直後に設定されている第二韻律記号を表す区切りオブジェクトとを、ラベリング中間言語における出現順に表示する。区切りオブジェクトは、読みを表す文字の仮名とは異なる文字でもよく、記号でもよく、図形でもよい。図9では、アクセント句「コレニ」の直後に、アクセント句の区切りを表す韻律記号に対応した区切りオブジェクトB1のスペース(空白)が表示されている。また、アクセント句「アワセテ」の直後に、ポーズを表す韻律記号に対応した区切りオブジェクトB2が表示されている。さらに、文章の最後には、文末(通常)を表す韻律記号に対応した区切りオブジェクトB3が表示されている。
【0054】
さらに、出力部7は、各アクセント句のアクセント核を判断する。例えば、参考文献8及び参考文献9には、日本語の東京方言(標準語)の高低アクセントを特定できる原理が記載されている。この原理では、アクセント句内におけるいずれのモーラにアクセント核があるかによって、そのアクセント句のモーラ毎のアクセントの高低のパターンであるアクセント型が一意に特定されることを示している。これは、(1)アクセント句の最初のモーラと2番目のモーラとはアクセントの高低が異なること、(2)アクセント核のモーラはアクセントが高く、アクセント核の次のモーラでアクセントが低くなること、(3)アクセント句において一旦アクセントが低くなると、そのアクセント句においてアクセントは上昇しないこと、という規則による。つまり、モーラ数と同じ数だけアクセント型があり、アクセント核があるモーラの位置によって、アクセント型が一意に決定される。
【0055】
具体的には、出力部7は、アクセント句中間言語の最初の読み仮名の直後にアクセント下降記号がある場合、最初の読み仮名がアクセント核であると判断し、最初の読み仮名は高いアクセント、次の読み仮名から最後の読み仮名までは低いアクセントと判断する。出力部7は、アクセント句中間言語の2番目以降の読み仮名の直後にアクセント下降記号がある場合、アクセント下降記号の直前の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、2番目からアクセント下降記号の直前の読み仮名までは高いアクセント、アクセント下降記号の次の読み仮名から最後の読み仮名までは低いアクセントと判断する。また、出力部7は、アクセント句中間言語にアクセント下降記号がない場合、アクセント句の最後の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、2番目から最後の読み仮名までは高いアクセントと判断する。
【0056】
出力部7は、各アクセント句におけるアクセント核の文字に対応付けて、アクセント核表示オブジェクトB4を重畳して表示する。例えば、図9では、アクセント句「コレニ」におけるアクセント核「ニ」の上部に、アクセント核表示オブジェクトB4を表示している。さらに、出力部7は、各アクセント句の文字列に、アクセントの高低を表すアクセント表示オブジェクトB5を表示する。高いアクセントは、文字列の表示の中心の高さよりも高い位置の線で表され、低いアクセントは、文字列の表示の中心よりも低い位置の線で表される。アクセント表示オブジェクトB5は、それらの線をアクセント句の単位でつないだ線である。
【0057】
(参考文献8)峯松 信明,"OJADとそれを用いた音声指導",[online],<URL:https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/acoustics/OJAD_workshop_long.pdf>
【0058】
(参考文献9)Hiroya Fujisaki and Keikichi Hirose,"Analysis of voice fundamental frequency contours for declarative sentences of Japanese",1984年,[online],<URL: https://www.jstage.jst.go.jp/article/ast1980/5/4/5_4_233/_pdf/-char/en>
【0059】
また、画面Gにリファレンス音声データや評価対象データの再生を指示する再生指示ボタンを含めてもよい。被訓練者が入力部9により再生指示ボタンを押下した場合、出力部7は、図示しないスピーカーにより、再生指示ボタンにより指示されたリファレンス音声データ又は評価対象データを出力する。
【0060】
なお、ラベリングモデルW1に代えて、参考文献5に記載のSeq2seqの音声認識モデルを用いる場合、音声認識部2は、音声データの音響特徴量を入力に用いる。特徴量は、例えば、所定幅のウインドウ(例えば、25ms)のメルスペクトログラムを、ウインドウよりも小さい所定の時間幅(例えば、10ms)毎にシフトさせたものである。音声認識部2は、所定フレーム分の特徴量をダウンサンプリングして音声認識モデルに入力する。
【0061】
上述の発話評価装置1は、内部にコンピュータシステムを有している。そして、発話評価装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU(Central processing unit)及び各種メモリやOS(Operation System)、周辺機器等のハードウェアを含むものである。また、発話評価装置1の機能の全て又は一部は、ASIC(Application specific integrated circuit)やPLD(Programmable logic device)やFPGA(Field programmable gate array)等のハードウェアを用いて実現されてもよい。
【0062】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ウェブページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0063】
発話評価装置1は、例えば、1台以上のコンピュータ装置により実現することができる。発話評価装置1が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、同一の機能部を複数のコンピュータ装置により実現してもよい。例えば、発話評価装置1を、音声認識部2、記憶部3及び学習データ取得部4を有する第1のコンピュータ装置と、音声認識部2、記憶部3、評価対象データ取得部5、評価部6及び出力部7を有する第2のコンピュータ装置により実現してもよい。この場合、第2のコンピュータ装置の音声認識部2は学習部21を有さず、第1のコンピュータ装置の学習部21により学習済みの音声認識モデルを用いる。
【0064】
以上説明した実施形態によれば、本実施形態の発話評価装置1は、発音だけでなく、アクセントを含めて被訓練者の発話を評価することが可能となる。例えば、標準語(東京方言)のリファレンス中間言語を用いることで、標準語のアクセントについての評価が可能となる。また、発話評価装置1は、被訓練者が発話した音声の「読み仮名とアクセント」を可視化する。例えば、発話評価装置1は、一般的に使用されているアクセント記号を用いて被訓練者の発話やお手本の発話を表示し、さらに、グラフィックによってそれらの発話におけるアクセントを表示する。よって、被訓練者は、お手本の発話と自分の発話との違いを分かり易く提示することが可能となる。よって、被訓練者は訓練の目標を設定しやすくなる。また、例えば、学習データに、アナウンサーの音声を用いた場合、アナウンサーの発話に類似しているほどアクセントスコア及び読み仮名スコアは高くなる。このような学習データを用いて音声認識モデルを学習することで、発話評価装置1は、日本語の標準語の発話を訓練したい地方出身者や外国の日本語学習者が、発話の訓練を行う場合に有用である。また、リファレンス中間言語には音素を表す文字を使用するため、発話評価装置1を日本語以外の言語に適用することも可能である。
【0065】
以上説明した実施形態によれば、発話評価装置は、音声認識部と、評価部とを備える。ラベリングモデルは、発話の音声データ又は発話の音声データから得られた特徴量を入力し、発話における音素を表す文字及びアクセントを表す韻律記号を含むテキストであるラベリング中間言語を出力する。音声認識部は、ラベリングモデルに、評価対象の発話の音声データである評価対象データを入力して、評価対象の発話のラベリング中間言語である評価対象中間言語を得る。評価部は、評価対象の発話と対比する発話のラベリング中間言語であるリファレンス中間言語と、評価対象中間言語との比較に基づいて評価対象の発話を評価する。
【0066】
発話評価装置は、表示制御部をさらに備えてもよい。表示制御部は、例えば、実施形態における出力部7である。表示制御部は、評価対象中間言語に含まれる文字に重畳して又は対応付けて、当該評価対象中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。また、表示制御部は、リファレンス中間言語に含まれる文字に重畳して又は対応付けて、当該リファレンス中間言語に含まれる韻律記号により示されるアクセントを表すオブジェクトを表示する。
【0067】
修正モデルは、ラベリングモデルを用いて推定されたラベリング中間言語を入力し、入力されたラベリング中間言語に含まれる音素の誤りを修正したラベリング中間言語を出力する。音声認識部は、修正モデルに、ラベリングモデルに評価対象データを入力して得られた評価対象中間言語を入力し、音素の誤りが修正された評価対象中間言語を取得してもよい。評価部は、リファレンス中間言語と、音素の誤りが修正された評価対象中間言語との比較に基づいて評価対象の発話を評価する。
【0068】
発話評価装置は、さらに学習部を備えてもよい。学習部は、学習用の音声データと正解のラベリング中間言語との対を用いてラベリングモデルを学習する。さらに、学習部は、誤りが含まれる学習用のラベリング中間言語と正解のラベリング中間言語との対を用いて修正モデルを学習する。
【0069】
ラベリングモデルは、時間をずらして区切られた所定の時間区間ごとの音声データそれぞれに対応し、対応する時間区間の音声データを特徴量として入力とする畳み込みニューラルネットワークと、畳み込みネットワークからの出力を入力とし、畳み込みニューラルネットワークに特徴量が入力された音声データのラベリング中間言語を出力するトランスフォーマーとを有してもよい。修正モデルは、トランスフォーマーでもよい。
【0070】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0071】
1…発話評価装置
2…音声認識部
3…記憶部
4…学習データ取得部
5…評価対象データ取得部
6…評価部
7…出力部
8…表示部
9…入力部
21…学習部
22…エラー生成部
W…音声認識モデル
W1…ラベリングモデル
W2…修正モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9