(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024000063
(43)【公開日】2024-01-05
(54)【発明の名称】アクセント位置推定装置、アクセント位置学習装置及びそれらのプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20231225BHJP
G06F 40/216 20200101ALI20231225BHJP
【FI】
G10L13/10 111B
G06F40/216
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022098587
(22)【出願日】2022-06-20
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】佐久間 旭
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA15
5B091CA02
5B091CC02
5B091EA01
(57)【要約】
【課題】アクセント位置の推定精度を向上させるアクセント位置推定装置を提供する。
【解決手段】アクセント位置推定装置1は、日本語テキストを単語に分割する単語分割手段10と、各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段11と、辞書を参照し、各単語の単語素性ベクトルを生成する単語素性ベクトル生成手段12と、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定するアクセント位置推定手段と13、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
日本語テキストのアクセント位置を推定するアクセント位置推定装置であって、
前記日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段と、
予め設定した辞書を参照し、少なくとも前記各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する単語素性ベクトル生成手段と、
予め学習した深層学習モデルを用いて、前記単語分散表現ベクトルと前記単語素性ベクトルとを連結した特徴ベクトルから前記日本語テキストのアクセント位置を推定するアクセント位置推定手段と、
を備えることを特徴とするアクセント位置推定装置。
【請求項2】
前記単語素性ベクトルは、さらに、前記各単語のモーラ数、品詞又は活用形の何れか1以上が含まれることを特徴とする請求項1に記載のアクセント位置推定装置。
【請求項3】
前記日本語テキストを前記各単語に分割する単語分割手段、をさらに備え、
前記単語分散表現ベクトル生成手段は、前記単語分割手段が分割した各単語の単語分散表現ベクトルを生成することを特徴とする請求項1に記載のアクセント位置推定装置。
【請求項4】
日本語テキストと前記日本語テキストのアクセント位置を表す正解ラベルとの組である教師データを用いて、前記日本語テキストのアクセント位置を推定するための深層学習モデルを学習するアクセント位置学習装置であって、
前記教師データに含まれる各単語の単語分散表現ベクトルを生成する単語分散表現ベクトル生成手段と、
予め設定した辞書を参照し、少なくとも前記各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する単語素性ベクトル生成手段と、
前記正解ラベルと、前記単語分散表現ベクトルと前記単語素性ベクトルとを連結した特徴ベクトルとを用いて、前記深層学習モデルを学習するアクセント位置学習手段と、
を備えることを特徴とするアクセント位置学習装置。
【請求項5】
前記単語素性ベクトルは、さらに、前記各単語のモーラ数、品詞又は活用形の何れか1以上が含まれることを特徴とする請求項4に記載のアクセント位置学習装置。
【請求項6】
前記日本語テキストを前記各単語に分割する単語分割手段、をさらに備え、
前記単語分散表現ベクトル生成手段は、前記単語分割手段が分割した各単語の単語分散表現ベクトルを生成することを特徴とする請求項4に記載のアクセント位置学習装置。
【請求項7】
コンピュータを、請求項1から請求項3の何れか一項に記載のアクセント位置推定装置として機能させるためのプログラム。
【請求項8】
コンピュータを、請求項4から請求項6の何れか一項に記載のアクセント位置学習装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日本語テキストのアクセント位置を推定するアクセント位置推定装置、アクセント位置推定装置及びそれらのプログラムに関する。
【背景技術】
【0002】
日本語テキストの音声合成において、アクセント位置を適切に推定することで、より高品質な音声出力が期待できる。そのためには、同じ単語でも意味に応じてアクセント位置が変化する現象や、文中の単語の連接に伴いアクセント位置が変化する現象(アクセント結合)に対応する必要がある。
【0003】
非特許文献1には、旧来のルールベースに代わり、機械学習でアクセント位置を推定する手法が開示されている。この従来手法は、単語の品詞や、単独発話時のアクセントを元に、条件付き確率場(CRF)により、アクセント位置を推定している。
【0004】
非特許文献2には、テキストをWord2Vecによる意味を考慮した特徴量に変換し、深層学習モデルで処理し、文中のアクセント位置を推定する手法が開示されている。この非特許文献2に記載の手法では、王子(Prince)と王子(地名)のように、単語の意味に応じたアクセント位置の変化にも対応することができる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】印南圭祐、渡辺美知子、峯松信明、広瀬啓吉、“CRFを用いたアクセント変形予測モデルの規則処理に基づく改良”、第15回言語処理学会年次大会発表論文集、pp.574-577、2009
【非特許文献2】角南陽友、齋藤大輔、峯松信明、“日本語アクセント結合推定におけるLSTMと単語埋め込み表現の利用”、研究報告音楽情報科学(MUS)、vold.2021-MUS-131、no.48、pp.1-6、2021
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1に記載の手法は、深層学習ではない機械学習を用いるので推定精度が低く、単語の意味に応じたアクセント位置の変化に対応が困難であるという問題がある。また、非特許文献2に記載の手法は、単語の意味しか考慮していないので、推定精度が低いという問題がある。
【0007】
本発明は、前記した問題を解決し、アクセント位置の推定精度を向上させるアクセント位置推定装置、アクセント位置学習装置及びそれらのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係るアクセント位置推定装置は、日本語テキストのアクセント位置を推定するアクセント位置推定装置であって、単語分散表現ベクトル生成手段と、単語素性ベクトル生成手段と、アクセント位置推定手段と、を備える構成とした。
【0009】
かかる構成によれば、単語分散表現ベクトル生成手段は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。
単語素性ベクトル生成手段は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する。
アクセント位置推定手段は、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定する。
【0010】
このように、アクセント位置推定装置は、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルが反映された深層学習モデルを用いることで、アクセント位置の推定精度を向上させることができる。
【0011】
また、前記課題を解決するため、本発明に係るアクセント位置学習装置は、日本語テキストと日本語テキストのアクセント位置を表す正解ラベルとの組である教師データを用いて、日本語テキストのアクセント位置を推定するための深層学習モデルを学習するアクセント位置学習装置であって、単語分散表現ベクトル生成手段と、単語素性ベクトル生成手段と、アクセント位置学習手段と、を備える構成とした。
【0012】
かかる構成によれば、単語分散表現ベクトル生成手段は、教師データに含まれる各単語の単語分散表現ベクトルを生成する。
単語素性ベクトル生成手段は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成する。
アクセント位置学習手段は、正解ラベルと、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルとを用いて、深層学習モデルを学習する。
【0013】
このように、アクセント位置学習装置は、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルを学習に使用することで、アクセント位置の推定精度が高い深層学習モデルを生成することができる。
【0014】
なお、本発明は、コンピュータを前記したアクセント位置推定装置又はアクセント位置学習装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0015】
本発明によれば、アクセント位置の推定精度を向上させることができる。
【図面の簡単な説明】
【0016】
【
図1】実施形態に係るアクセント位置推定装置の構成を示すブロック図である。
【
図2】実施形態において、単語分散表現ベクトルの一例を示すテーブルである。
【
図3】実施形態において、単語素性ベクトルを構成する成分の一例を説明するテーブルである。
【
図4】実施形態において、単語素性ベクトルの品詞を説明するテーブルである。
【
図5】実施形態において、単語素性ベクトルの活用形を説明するテーブルである。
【
図6】実施形態において、深層学習モデルの学習を説明する説明図である。
【
図7】実施形態において、アクセント位置推定装置の推定モードの動作を示すフローチャートである。
【
図8】実施形態において、アクセント位置推定装置の学習モードの動作を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
【0018】
(実施形態)
図1のアクセント位置推定装置1は、深層学習モデルによりアクセント位置を推定する推定モード、及び、深層学習モデルを学習する学習モードという2つの動作モードを有する。以下、アクセント位置推定装置1の構成を推定モードと学習モードの順で説明する。
【0019】
[アクセント位置推定装置の構成:推定モード]
アクセント位置推定装置1は、日本語テキストのアクセント位置を推定するものである。
図1に示すように、アクセント位置推定装置1は、単語分割手段10と、単語分散表現ベクトル生成手段11と、単語素性ベクトル生成手段12と、アクセント位置推定手段13とを備える。
【0020】
推定モードでは、アクセント位置の推定対象となる日本語テキストがアクセント位置推定装置1に入力される。例えば、日本語テキストは、“犬が歩いている。”のような文単位の日本語のテキストデータである。
【0021】
単語分割手段10は、日本語テキストを各単語に分割するものである。本実施形態では、単語分割手段10は、アクセント位置推定装置1に入力された日本語テキストに形態素解析を施して、日本語テキストを単語に分割する。例えば、単語分割手段10は、“犬が歩いている。”という日本語テキストを、“犬/が/歩いて/いる/。”という単語に分割する(なお、/は単語の区切りを表す)。そして、単語分割手段10は、日本語テキストの各単語を単語分散表現ベクトル生成手段11及び単語素性ベクトル生成手段12に出力する。
【0022】
単語分散表現ベクトル生成手段11は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成するものである。本実施形態では、単語分散表現ベクトル生成手段11は、word2vec、GloVe(Global Vectors for Word Representation)などの一般的な手法を用いて、単語分割手段10が分割した各単語から単語分散表現ベクトルを生成する。そして、単語分散表現ベクトル生成手段11は、生成した単語分散表現ベクトルをアクセント位置推定手段13に出力する。
【0023】
この単語分散表現ベクトルは、意味が近い単語を近いベクトルに対応させて、単語を有限の高次元(例えば、100~300次元)の数値ベクトルで表現したベクトルである。つまり、単語分散表現ベクトルは、単語の意味を捉えているような性質を有する。
図2には、“犬/が/歩いて/いる/。”という単語に対応した単語分散表現ベクトルの一例を示した(例えば、300次元)。
【0024】
単語素性ベクトル生成手段12は、予め設定した辞書を参照し、少なくとも各単語の単独発話アクセント位置が含まれる単語素性ベクトルを生成するものである。本実施形態では、単語素性ベクトル生成手段12は、UniDicなどの一般的な辞書を参照し、単語分割手段10が分割した各単語に対する単語素性を取得し、単語素性ベクトルを生成する。そして、単語素性ベクトル生成手段12は、生成した単語素性ベクトルをアクセント位置推定手段13に出力する。
【0025】
この単語素性ベクトルは、単独発話アクセント位置などの各単語の素性を表すベクトルである。さらに、単語素性ベクトルは、単語のモーラ数、品詞又は活用形の何れか1以上が含まれてもよい。本実施形態では、単語素性ベクトルは、各単語の素性として、各単語の品詞、活用形、モーラ数及び単独発話アクセント位置が含まれることとする。
図3には、単語“仙台”についての単語素性ベクトルの一例を図示した。
【0026】
ここで、単語素性ベクトルは、One-Hotベクトル形式で記述することとする。このOne-Hotベクトルは、ベクトルの全成分のうち、1つの成分が1で、残りの成分が0となるベクトルである。このように、One-Hotベクトルを用いることで、深層学習モデルの学習が容易になる。
図4には、各単語の品詞をOne-Hotベクトル形式で記述した例を図示した。この品詞分類は、UniDicに準拠し、小分類の属性を用いる。また、
図5には、各単語の活用形をOne-Hotベクトル形式で記述した例を図示した。
【0027】
図3に示すように、単語“仙台”の単語素性ベクトルについて考える。単語“仙台”の品詞が地名なので、
図4の大分類-名詞、中分類-固有名詞、小分類-地名に該当する。従って、この単語素性ベクトルの品詞は、{0,0,0,0,0,0,0,0,1,0,…}というOne-Hotベクトルで記述する。
【0028】
また、単語“仙台”の活用形が変換なしなので、
図5の小分類“語幹”に該当する。従って、この単語素性ベクトルの活用形は、{1,0,0,0,0,0,0,0}というOne-Hotベクトルで記述する。
【0029】
また、単語“仙台”が4モーラ単語なので、この単語素性ベクトルのモーラ数は、{0,0,0,1,0,0,0,…,0}というOne-Hotベクトルで記述する。このモーラ数を表すOne-Hotベクトルは、その単語のモーラ数に対応する成分が1、それ以外の成分が0となっている。
【0030】
また、単語“仙台”のアクセント位置が1モーラ目なので、この単語素性ベクトルのモーラ数は、{0,1,0,0,0,0,0,…,0}というOne-Hotベクトルで記述する。このアクセント位置を表すOne-Hotベクトルは、その単語のアクセント位置に対応する成分が1、それ以外の成分が0となっている。なお、アクセント位置を表すOne-Hotベクトルは、単語にアクセントがない場合、先頭の成分が1となる。
【0031】
ここで、品詞を表すOne-Hotベクトルが52次元、活用形を表すOne-Hotベクトルが9次元、モーラ数及び単独発話アクセント位置を表すOne-Hotベクトルが30次元である。従って、単語素性ベクトルは、これらを合計した121次元のOne-Hotベクトルとなる。
【0032】
図1に戻り、アクセント位置推定装置1の構成について説明を続ける。
アクセント位置推定手段13は、予め学習した深層学習モデルを用いて、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルから日本語テキストのアクセント位置を推定するものである。本実施形態では、深層学習モデルを、双方向LSTM(Bidirectional LSTM)で生成したこととする。この他、深層学習モデルは、畳み込みニューラルネット(CNN:Convolutional Neural Network)、Transformerなどの一般的な深層学習で生成してもよい。
【0033】
<アクセント位置の推定>
図6を参照し、アクセント位置推定手段13によるアクセント位置の推定を説明する。
前記したように、単語分散表現ベクトル生成手段11は、日本語テキストの単語系列から、300次元×単語数の単語分散表現ベクトルV
Wを生成したこととする。また、単語素性ベクトル生成手段12は、日本語テキストの単語系列から、121次元×単語数の単語素性ベクトルV
moraを生成したこととする。
【0034】
まず、アクセント位置推定手段13は、単語分散表現ベクトルV
Wと単語素性ベクトルV
moraを連結し、300+121次元×単語数の特徴ベクトルV
W+moraを生成する。次に、アクセント位置推定手段13は、メモリ(不図示)に記憶されている深層学習モデル130に特徴ベクトルV
W+moraを入力する。すると、深層学習モデル130から位置ラベル131が得られるので、アクセント位置推定手段13は、この位置ラベル131をアクセント位置の推定結果として出力する。この位置ラベル131は、各単語の何モーラ目にアクセント位置があるかを表すラベルであり、例えば、30次元×単語数のラベルとなる。例えば、位置ラベル131は、白丸及び黒丸が各モーラに対応しており、白丸がアクセントでなく、黒丸がアクセントであることを表している。
図6の位置ラベル131は、1単語目で3番目の要素が黒丸なので、アクセント位置が3モーラ目にあることを表している。
【0035】
[アクセント位置推定装置の構成:学習モード]
図1に戻り、アクセント位置推定装置1の学習モードについて、推定モードと異なる点を説明する。
なお、学習モードで動作するアクセント位置推定装置1及びアクセント位置推定手段13をそれぞれ、アクセント位置学習装置1B及びアクセント位置学習手段13Bと呼ぶ場合がある。
【0036】
学習モードでは、深層学習モデル130を学習するための教師データがアクセント位置推定装置1に入力される。この教師データは、文単位の日本語テキストと、日本語テキストのアクセント位置を表す正解ラベルとの組である。この正解ラベルは、日本語テキストを構成する各単語について、その単語の何モーラ目にアクセントがあるかを表すラベルである。
【0037】
ここで、単語分割手段10、単語分散表現ベクトル生成手段11及び単語素性ベクトル生成手段12は、教師データに含まれる日本語テキストを処理対象とする以外、推定モードと同様のため、詳細な説明を省略する。
【0038】
アクセント位置推定手段13は、正解ラベルと、単語分散表現ベクトルVWと単語素性ベクトルVmoraとを連結した特徴ベクトルVW+moraとを用いて、深層学習モデル130を学習するものである。ここで、アクセント位置推定手段13は、誤差伝搬法などの一般的な手法で深層学習モデル130を学習できる。具体的には、アクセント位置推定手段13は、特徴ベクトルVW+moraを深層学習モデル130に入力し、深層学習モデル130の推定結果と正解ラベルのアクセント位置との誤差が少なくなるように深層学習モデル130のパラメータを学習する。その後、アクセント位置推定手段13は、学習した深層学習モデル130をメモリ(不図示)に記憶する。
【0039】
[アクセント位置推定装置の動作:推定モード]
図7を参照し、アクセント位置推定装置1の推定モードの動作を説明する。
図7に示すように、ステップS1において、推定対象の日本語テキストをアクセント位置推定装置1に入力する。
【0040】
ステップS2において、単語分割手段10は、日本語テキストを各単語に分割する。また、単語分散表現ベクトル生成手段11は、日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。そして、単語素性ベクトル生成手段12は、辞書を参照して、日本語テキストに含まれる各単語の単語素性ベクトルを生成する。さらに、アクセント位置推定手段13は、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルを生成する。
【0041】
ステップS3において、アクセント位置推定手段13は、深層学習モデル130を用いて、特徴ベクトルから日本語テキストのアクセント位置を推定する。
ステップS4において、アクセント位置推定手段13は、ステップS3の推定結果を出力する。
【0042】
ステップS5において、アクセント位置推定装置1は、推定を終了するか否かを判定する。例えば、アクセント位置推定装置1は、日本語テキストに含まれる全単語のアクセント位置を推定した後、推定を終了すると判定する。
【0043】
推定を終了する場合(ステップS5でYes)、アクセント位置推定装置1は、推定モードを終了する。
推定を終了しない場合(ステップS5でNo)、アクセント位置推定装置1は、ステップS1の処理に戻る。
【0044】
[アクセント位置推定装置の動作:学習モード]
図8を参照し、アクセント位置推定装置1の学習モードの動作を説明する。
図8に示すように、ステップS10において、教師データをアクセント位置推定装置1に入力する。
【0045】
ステップS11において、単語分割手段10は、教師データの日本語テキストを各単語に分割する。また、単語分散表現ベクトル生成手段11は、教師データの日本語テキストに含まれる各単語の単語分散表現ベクトルを生成する。そして、単語素性ベクトル生成手段12は、辞書を参照して、教師データの日本語テキストに含まれる各単語の単語素性ベクトルを生成する。さらに、アクセント位置推定手段13は、単語分散表現ベクトルと単語素性ベクトルとを連結した特徴ベクトルを生成する。
【0046】
ステップS12において、アクセント位置推定手段13は、特徴ベクトルを深層学習モデル130に入力し、深層学習モデル130から推定結果(アクセント位置)を取得する。
【0047】
ステップS13において、アクセント位置推定手段13は、深層学習モデル130の推定結果と正解ラベルのアクセント位置との誤差が少なくなるように深層学習モデル130のパラメータを学習する。
【0048】
ステップS14において、アクセント位置推定装置1は、学習を終了するか否かを判定する。例えば、アクセント位置推定装置1は、深層学習モデル130のパラメータが更新されなくなった場合、学習を終了すると判定する。
【0049】
学習を終了する場合(ステップS14でYes)、アクセント位置推定装置1は、ステップS15の処理に進む。
学習を終了しない場合(ステップS14でNo)、アクセント位置推定装置1は、ステップS10の処理に戻る。
ステップS15において、アクセント位置推定装置1は、深層学習モデル130をメモリに記憶し、学習モードを終了する。
【0050】
[作用・効果]
以上のように、アクセント位置推定装置1は、学習モードにおいて、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルを学習に使用する。これにより、アクセント位置推定装置1は、アクセント位置の推定精度が高い深層学習モデル130を生成できる。
【0051】
さらに、アクセント位置推定装置1は、推定モードにおいて、単語の意味を表す単語分散表現ベクトルに加え、単独発話時のアクセント位置を表す単語素性ベクトルが反映された深層学習モデル130を用いる。これにより、アクセント位置推定装置1は、アクセント位置の推定精度を向上させることができる。
【0052】
例えば、アクセント位置推定装置1が高精度にアクセント位置を推定できるので、合成音声作成時におけるアクセントの誤りを容易に修正できるので、ニュース番組などのコンテンツ制作を省力化できる。
【0053】
(変形例)
以上、実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0054】
前記した実施形態では、アクセント位置推定装置とアクセント位置学習装置とが同一の装置であることとして説明したが、これに限定されない。つまり、アクセント位置推定装置とアクセント位置学習装置とが別々の装置であってもよい。
【0055】
前記した実施形態では、アクセント位置推定装置及びアクセント位置学習装置に日本語テキスト(日本語文)が入力されることとして説明したが、日本語テキストを単語に分割した単語系列を入力してもよい。この場合、アクセント位置推定装置及びアクセント位置学習装置は、単語分割手段を備えずともよい。
【0056】
前記した実施形態では、アクセント位置推定装置及びアクセント位置学習装置がハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記したアクセント位置推定装置又はアクセント位置学習装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0057】
1 アクセント位置推定装置
1B アクセント位置学習装置
10 単語分割手段
11 単語分散表現ベクトル生成手段
12 単語素性ベクトル生成手段
13 アクセント位置推定手段
13B アクセント位置学習手段
【手続補正書】
【提出日】2022-06-20
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】
本発明は、日本語テキストのアクセント位置を推定するアクセント位置推定装置、アクセント位置学習装置及びそれらのプログラムに関する。